CN110109541B - 一种多模态交互的方法 - Google Patents

一种多模态交互的方法 Download PDF

Info

Publication number
CN110109541B
CN110109541B CN201910339021.9A CN201910339021A CN110109541B CN 110109541 B CN110109541 B CN 110109541B CN 201910339021 A CN201910339021 A CN 201910339021A CN 110109541 B CN110109541 B CN 110109541B
Authority
CN
China
Prior art keywords
information
interaction
matrix
mode
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910339021.9A
Other languages
English (en)
Other versions
CN110109541A (zh
Inventor
王健
苏战
刘卫平
王诏坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zib Artificial Intelligence Technology Co ltd
Original Assignee
Guangzhou Zib Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zib Artificial Intelligence Technology Co ltd filed Critical Guangzhou Zib Artificial Intelligence Technology Co ltd
Priority to CN201910339021.9A priority Critical patent/CN110109541B/zh
Publication of CN110109541A publication Critical patent/CN110109541A/zh
Application granted granted Critical
Publication of CN110109541B publication Critical patent/CN110109541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0489Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using dedicated keyboard keys or combinations thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种多模态交互的方法,包括:机器人获取多模态交互信息,多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;多模态交互信息是由用户发出的或者是由用户输入给机器人的;根据获取的多模态交互信息,确定与多模态交互信息相匹配的交互方式;按照确定出的交互方式与用户进行交互。其机器人按照多模态交互信息获取的相应的预设交互方式与用户进行交互,提高用户的体验效果。

Description

一种多模态交互的方法
技术领域
本发明涉及人机交互技术领域,特别涉及一种多模态交互的方法。
背景技术
目前,用户与机器人的交互方式较为单一,常见的交互方式为,PC式的键盘输入和点触式交互,但也只是单纯的通过文字或语音进行交互,不能充分的模拟人与人之间的交互,使得用户的体验效果差。
发明内容
本发明提供一种多模态交互的方法,用以使得机器人通过合适的交互方式来与用户进行交互,提高用户的体验效果。
本发明实施例提供一种多模态交互的方法,包括:
机器人获取多模态交互信息,所述多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;所述多模态交互信息是由用户发出的或者是由用户输入给所述机器人的;
根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式;
按照所述确定出的所述交互方式与所述用户进行交互。
在一种可能是实现的方式中,
所述按照所述调取出的所述交互方式与所述用户进行交互,包括:
确定所述多模态交互信息所包含的交互内容;
按照所述确定出的所述交互方式执行与所述交互内容相应的反馈操作。
在一种可能是实现的方式中,
所述根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式,包括:
所述多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;根据其多模态交互信息可以得到一个多模态交互信息矩阵,多模态交互信息矩阵为一个分块矩阵包括:文字信息矩阵、语音信息矩阵、视觉信息矩阵、动作信息矩阵中任一项或多项且各项矩阵均为方阵,若上述矩阵有一项不存在则用0矩阵代替,利用多模态交互信息矩阵通过如下计算与所述多模态交互信息相匹配的交互方式:
Figure BDA0002040128730000021
其中,X为多模态交互信息矩阵,W为文字信息矩阵,该所述文字信息矩阵为提取机器人屏幕上所输入信息,并对所输入信息进行像素点的提取,形成相应的像素矩阵,所述像素矩阵则为文字信息矩阵,Y为语音信息矩阵,该所述语音矩阵为每一帧语音中的语调、分贝、左声道值、右声道值所形成的矩阵、S为视觉信息矩阵,所述视觉信息矩阵,为机器人提取脸部信息,根据捕捉瞳仁的偏移方向,获取微表情,再根据微表情获取视觉的模糊程度,从而确定用户最终所观看的地方,并将该地方信息的像素点形成矩阵,D为动作信息矩阵,该所述动作矩阵为机器人拍摄用户动作,并将用户动作图像的像素点输入计算机,形成相应像素矩阵,wzz为文字信息矩阵中坐标为(z,z)的元素值,ycc为语音信息矩阵中坐标为(c,c)的元素值,snn为视觉信息矩阵中坐标为(n,n)的元素值,dmm为动作信息矩阵中坐标为(m,m)的元素值,且z、c、n、m、的值相等,即为矩阵W、Y、S、D的大小相等利用如下方程组(1)求解特征值,
Figure BDA0002040128730000031
其中E为单位矩阵,λ1,λ2,λ3,λ4为与其对应矩阵的特征值,且特征值存在n种情况,即为λ1、λ2、λ3、λ4均为特征值的向量,每个向量中均含有n个值,而并非单一的值,所以将对应特征值构成特征矩阵,利用特征矩阵进行如下公式(2)计算,得出对应信息继续交互的概率矩阵:
Figure BDA0002040128730000032
其中p为每项信息继续交互的概率构成的概率矩阵,
Figure BDA0002040128730000033
为特征矩阵,λ1B,λ2B,λ3B,λ4B为可维持其对应信息矩阵能继续交互的最大特征值,为预先设定的值,选取p矩阵中元素最大的一项,找到所述最大一项所对应的信息矩阵,该最大一项所对应的信息矩阵所对应的交互方式即为与所述多模态交互信息相匹配的交互方式。
在一种可能是实现的方式中,
所述根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式,按照所述确定出的所述交互方式与所述用户进行交互,包括:
交互模型中存储有多个交互方式,多个交互方式各自对应有自身的交互顺序;
按照所述多个交互方式各自对应的交互顺序与所述用户进行交互。
在一种可能是实现的方式中,
所述根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式,包括:
获取所述多模态交互信息中的特征信息;
确定所述特征信息对应的交互方式;
将所述特征信息对应的交互方式确定为与所述多模态交互信息相匹配的交互方式。
在一种可能是实现的方式中,
所述确定所述多模态交互信息所包含的交互内容,包括:
确定所述多模态交互信息中,交互方式与所述多模态交互信息相匹配的交互方式相一致的交互信息中所包含的交互内容;
将所确定出的所述相一致的交互信息中所包含的交互内容,确定为所述多模态交互信息所包含的交互内容。
在一种可能是实现的方式中,
机器人获取多模态交互信息后,检测并判断所述多模态交互信息中是否存在语音信息,若存在,对所述语音信息进行预设语音处理;
同时,检测并判断多模态交互信息中是否存在文字信息,
若存在,对所述文字信息进行预设文字处理;
同时,检测并判断多模态交互信息中是否存在视觉信息,
若存在,对所述视觉信息进行预设视觉处理;
同时,检测并判断多模态交互信息中是否存在动作信息,
若存在,对所述动作信息进行预设动作处理;
否则,所述机器人处于待机状态。
在一种可能是实现的方式中,
在检测并判断多模态交互信息中是否存在语音信息、文字信息、视觉信息、动作信息后,分别对不同的信息进行不同的预设处理;
对不同的信息进行不同的预设处理的处理顺序,是根据预先设定的好的优先级顺序进行相应的预设处理的;
根据所述机器人分别对所述语音信息、文字信息、视觉信息、动作信息所识别的识别程度,对所述识别程度进行相应的从高到低的排序,并根据排序后的识别程度进行相应顺序的预设处理。
在一个实施例中,获取用户输入的语音信息和动作信息;
对所述语音信息进行预设语音处理,获取与所述语音信息相应的语音控制指令;
根据所述动作信息确定用户的动作,并将所述动作与预先存储的动作数据库中的动作模板进行匹配,获取匹配结果;
所述动作数据库中包括多个不同的所述动作模板以及与所述动作模板一一对应的动作控制指令,根据所述匹配结果获取所述动作控制指令;
结合所述语音控制指令和动作控制指令进行对比分析,获取相应的语动控制指令;
所述机器人根据所述语动控制指令执行相应的操作。
在一个实施例中,对所述语音信息进行预设语音处理的过程中,将所述语音信息转换成一一对应的文字信息,并将所述文字信息输出,提示所述用户进行检查;
当输出的文字信息与用户输入的语音信息一致时,所述机器人输出与一致结果相应的第一提示信息;
当输出的文字信息与用户输入的语音信息不一致时,所述机器人输出与不一致结果相应的第二提示信息;
当所述机器人未能识别出所述语音信息时,所述机器人输出与未识别结果相应的第三提示信息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种多模态交互的方法。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种多模态交互的方法,如图1所示,参见步骤101-103,包括:
步骤101:机器人获取多模态交互信息,多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;所述多模态交互信息是由用户发出的或者是由用户输入给所述机器人的;
在用户实际使用机器人时,用户可能会在发出语音的同时,还会朝着机器人做一些动作、或者眼部会有一些眼球动作、或者向机器人输入一些文字等,也就是说,用户在同一时刻,可能会同时向机器人输入上述文字信息、语音信息、视觉信息、动作信息中的多个信息。
步骤102:根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式。
其中,交互方式实施为语音交互方式(指机器人通过发出语音的形式来与用户交互)、视觉交互方式(指机器人通过控制自身所设置的显示器上的虚拟眼睛来与用户交互)、动作交互方式(指机器人控制自身的手臂、腿部、头部等部位执行动作来与用户交互)、文字交互方式(指机器人控制自身的显示器显示文字信息来与用户交互)。
步骤103:按照所述确定出的所述交互方式与所述用户进行交互。
其中,步骤102可实施为如下方式一:
所述多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;根据其多模态交互信息可以得到一个多模态交互信息矩阵,多模态交互信息矩阵为一个分块矩阵包括:文字信息矩阵、语音信息矩阵、视觉信息矩阵、动作信息矩阵中任一项或多项且各项矩阵均为方阵,若上述矩阵有一项不存在则用0矩阵代替,利用多模态交互信息矩阵通过如下计算与所述多模态交互信息相匹配的交互方式:
Figure BDA0002040128730000071
其中,X为多模态交互信息矩阵,W为文字信息矩阵,该所述文字信息矩阵为提取机器人屏幕上所输入信息,并对所输入信息进行像素点的提取,形成相应的像素矩阵,所述像素矩阵则为文字信息矩阵,Y为语音信息矩阵,该所述语音矩阵为每一帧语音中的语调、分贝、左声道值、右声道值所形成的矩阵、S为视觉信息矩阵,所述视觉信息矩阵,为机器人提取脸部信息,根据捕捉瞳仁的偏移方向,获取微表情,再根据微表情获取视觉的模糊程度,从而确定用户最终所观看的地方,并将该地方信息的像素点形成矩阵,D为动作信息矩阵,该所述动作矩阵为机器人拍摄用户动作,并将用户动作图像的像素点输入计算机,形成相应像素矩阵,wzz为文字信息矩阵中坐标为(z,z)的元素值,ycc为语音信息矩阵中坐标为(c,c)的元素值,snn为视觉信息矩阵中坐标为(n,n)的元素值,dmm为动作信息矩阵中坐标为(m,m)的元素值,且z、c、n、m、的值相等,即为矩阵W、Y、S、D的大小相等利用如下方程组(1)求解特征值,
Figure BDA0002040128730000081
其中E为单位矩阵,λ1,λ2,λ3,λ4为与其对应矩阵的特征值,且特征值存在n种情况,即为λ1、λ2、λ3、λ4均为特征值的向量,每个向量中均含有n个值,而并非单一的值,所以将对应特征值构成特征矩阵,利用特征矩阵进行如下公式(2)计算,得出对应信息继续交互的概率矩阵:
Figure BDA0002040128730000082
其中p为每项信息继续交互的概率构成的概率矩阵,
Figure BDA0002040128730000083
为特征矩阵,λ1B,λ2B,λ3B,λ4B为可维持其对应信息矩阵能继续交互的最大特征值,为预先设定的值,选取p矩阵中元素最大的一项,找到所述最大一项所对应的信息矩阵,该最大一项所对应的信息矩阵所对应的交互方式即为与所述多模态交互信息相匹配的交互方式。
按照前述方式一确定出与所述多模态交互信息相匹配的交互方式,可理解为是所述多模态交互信息中交互特征最明显的交互信息(或者说是起到主要交互作用的交互信息)所对应的交互方式。机器人采用通过方式一所确定出的交互方式与用户进行交互,可以提高机器人与用户进行交互的可靠性,可有效的节省交互时间,从而提高了用户与机器人进行交互的满意度,增强了用户的体验效果。
或者,步骤102可实施为如下方式二:
交互模型中存储有多个交互方式,多个交互方式各自对应有自身的交互顺序;
按照所述多个交互方式各自对应的交互顺序与所述用户进行交互。
例如,在上一次的交互中,机器人是按照文字交互方式与用户交互的,假设交互顺序为文字交互->语音交互->视觉交互->动作交互,则接下来,机器人按照语音交互方式与用户交互。
又或者,步骤102可实施为如下方式三:
获取所述多模态交互信息中的特征信息;
确定所述特征信息对应的交互方式;
将所述特征信息对应的交互方式确定为与所述多模态交互信息相匹配的交互方式。
方式三可以按照多模态交互信息的特征来控制机器人进行交互,与用户输入的多模态交互信息更加匹配,而且机器人的处理效率较高。
上述机器人支持多模态人机交互,具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等能力;可配置社会属性、人格属性、人物技能等,使用户体验其并享受其的智能化及个性化。
机器人所搭载的智能设备,例如可以是:非触摸、非鼠标键盘输入的显示屏、摄像头、语音采集器等。
机器人获取用户多模态交互信息的相关数据,可在服务器的支持下完成并获取的,可以对多模态交互信息进行语义理解、视觉识别、认知计算、情感计算等,来获取用户多模态交互信息的相关数据。
在一个实施例中,前述步骤103“按照所述调取出的所述交互方式与所述用户进行交互”,可实施为:
确定所述多模态交互信息所包含的交互内容;
按照所述确定出的所述交互方式执行与所述交互内容相应的反馈操作。
其中,机器人预先保存了与各种交互内容对应的交互反馈内容,并保存了每种交互反馈内容在各种交互方式下的机器人反馈操作。
例如,机器人预存了当用户输入的多模态交互信息所包含的交互内容为“你说我是好人还是坏人?”的交互反馈内容为“你是好人”时,假设所述确定出的所述交互方式为语音交互方式,则机器人会用语音发出“你是好人”的反馈操作。
其中,上述确定所述多模态交互信息所包含的交互内容,可实施为:
确定所述多模态交互信息中,交互方式与所述多模态交互信息相匹配的交互方式相一致的交互信息中所包含的交互内容;将所确定出的所述相一致的交互信息中所包含的交互内容,确定为所述多模态交互信息所包含的交互内容。其中,按照前述方式一确定出的所述多模态交互信息相匹配的交互方式,可理解为所述多模态交互信息中交互特征最明显的交互信息(或者说是起到主要交互作用的交互信息)所对应的交互方式;例如用户输入的多模态交互信息包括文字信息和语音信息时,按照前述方式一可确定出文字信息的交互特征最明显,则可从文字信息中提取出其交互内容,将该交互内容作为所述多模态交互信息所包含的交互内容,后续机器人是对该交互内容执行相应的反馈操作,从而可以提高反馈的准确性,提高用户体验度。
在一个实施例中,上述方法还包括:
机器人获取多模态交互信息后,检测并判断多模态交互信息中是否存在语音信息,若存在,对语音信息进行预设语音处理;
同时,检测并判断多模态交互信息中是否存在文字信息,
若存在,对文字信息进行预设文字处理;
同时,检测并判断多模态交互信息中是否存在视觉信息,
若存在,对视觉信息进行预设视觉处理;
同时,检测并判断多模态交互信息中是否存在动作信息,
若存在,对动作信息进行预设动作处理;
否则,机器人处于待机状态。
上述检测并判断多模态交互信息中是否存在语音信息、是否存在文字信息、是否存在视觉信息、是否存在动作信息,对其四者是同时判断的,且其判断行为属于并行关系,其好处是,节省判断时间,提高判断效率。
对于上述预设语音处理、预设文字处理、预设视觉处理、预设动作处理,是按照预先设定并存储好的相关算法进行处理的,其好处是为了使得获取的用户所输入的多模态交互信息更加准确。
其中,以预设语音处理为例,参见步骤201-203:
步骤201:获取语音信息对应的电压值,并将压值转换成相应的十六进制数;
步骤202:根据所转换的十六进制数,获得相应时间内语音信息对应的音量等级;
其中,对于步骤202来说,获得相应时间内语音信息对应的音量等级,包括:
对所获取的语音信息进行b个等间隔帧区域划分;
确定每个帧区域,并对b个帧区域中的语音信息所对应的电压数据进行采集,找出b个帧区域内所采集的语音信息分别对应的电压值所处的音量等级转换区,根据其音量等级转换区,确定b个帧区域中的语音信息分别对应的音量等级。
步骤203:根据所确定的音量等级对机器人向外输出的语音音量进行相应的调节。
其好处是,通过对语音信息对应的音量等级进行调节,使得机器人输出的音量,符合用户的听觉。
需要说明的是,音量等级转换区,是语音信息对应的电压值所处的某个电压范围。
需要说明的是,对于上述视觉信息的获取,例如可以是通过安装在机器人上的摄像头所采集获取的。
预设语音处理、预设文字处理、预设视觉处理、预设动作处理是并行处理的关系,且其的处理目的都是为了使得获取的用户所输入的多模态交互信息更加准确。
机器人处于待机状态的好处是,可以节省部分电能。
上述技术方案的有益效果是:通过对语音信息、文字信息、视觉信息、动作信息进行同时处理,可以节省机器人的运转时间,提高其的工作效率。
本发明实施例提供一种多模态交互的方法,
在检测并判断多模态交互信息中是否存在语音信息、文字信息、视觉信息、动作信息后,分别对不同的信息进行不同的预设处理;
对不同的信息进行不同的预设处理的处理顺序,是根据预先设定的好的优先级顺序进行相应的预设处理的;
根据机器人分别对语音信息、文字信息、视觉信息、动作信息所识别的识别程度,对识别程度进行相应的从高到低的排序,并根据排序后的识别程度进行相应顺序的预设处理。
上述技术方案包括两种实施例:
实施例一:对不同的信息进行不同的预设处理的处理顺序,是根据预先设定的好的优先级顺序进行相应的预设处理的。对于预先设定的好的优先级顺序例如可以是,预设语音处理、预设动作处理、预设文字处理、预设视觉处理,当检测并判断出多模态交互信息中存在动作信息和语音信息时,按照上述的优先级顺序对其进行预设处理,先对语音信息进行预设语音处理,在对动作信息进行预设动作处理。
实施例二:根据识别程度进行相应的从高到低的排序,并根据排序后的识别程度进行相应顺序的预设处理。当机器人对多模态交互信息所识别的识别程度为,视觉识别程度≧语音识别程度≧文字识别程度≧动作识别程度时,此时按照预设视觉处理、预设语音处理、预设文字处理、预设动作处理的预设处理顺序进行一级一级处理。
需要说明的是,实施例二中的识别程度,是机器人根据所获取的不同的信息与对应的用户所要表达的意思,进行匹配分析,根据两者的匹配程度而获得的。
上述技术方案的有益效果是:通过对预设处理的顺序进行排序,使得更加智能化。
本发明实施例提供一种多模态交互的方法,
预设交互模型中存储有预先设定好的预设交互方式:
预设交互方式,是预先设定好的交互顺序;
机器人按照交互顺序与用户进行交互。
上述设定好的交互顺序,例如可以是语音交互和动作交互,当用户无论采用语音交互、文字交互、视觉交互、动作交互中任一种或多种交互方式,其机器人都按照预先设定好的交互顺序和交互方式完成与用户的交互。
上述技术方案的有益效果是:设定好交互方式和交互顺序,使得交互更加方便。
本发明实施例提供一种多模态交互的方法,
预设交互模型中存储有预先设定好的预设交互方式:
预设交互方式,是根据获取的用户的多模态交互信息的特征信息所设定的;
机器人按照与特征信息相应的预设交互方式与用户进行交互。
上述多模态交互信息的特征信息,例如可以是,根据获取用户输入的多模态信息,获取可以将用户的用意表达的最为清晰的信息,作为其特征信息。
机器人采用预设交互方式中,与特征信息最为贴切的交互方式,进行交互,例如,获取的多模态交互信息中,动作信息最能将用户的用意表达清楚,此时机器人就采用动作和语音的交互方式进行交互。
上述技术方案的有益效果是:通过获取相关的特征信息,使得机器人与用户的交互方式更为灵活。
本发明实施例提供一种多模态交互的方法,
获取用户输入的文字信息;
对文字信息进行预设文字处理,来确定用户所输入的文字,并将文字与预先存储的文字数据库中的文字模板进行匹配,获取匹配结果;
文字数据库中包括多个不同的文字模板以及与文字模板一一对应的文字控制指令,根据匹配结果获取文字控制指令;
机器人根据文字控制指令执行相应的操作。
对于上述文字控制指令,例如可以是,用户输入“想听音乐一个人去巴黎”,对输入的文字信息进行处理后,获得文字控制指令“一个人去巴黎”,同时,根据文字控制指令“一个人去巴黎”控制机器人播放该音乐。
需要说明的是,当用户只是单独的输入某种交互信息时,其采用与上述相同的处理方式进行交互。
上述技术方案的有益效果是:有益于对单独的交互信息进行处理。
本发明实施例提供一种多模态交互的方法,
获取用户输入的语音信息和动作信息;
对语音信息进行预设语音处理,获取与语音信息相应的语音控制指令;
根据动作信息确定用户的动作,并将动作与预先存储的动作数据库中的动作模板进行匹配,获取匹配结果;
动作数据库中包括多个不同的动作模板以及与动作模板一一对应的动作控制指令,根据匹配结果获取动作控制指令;
结合语音控制指令和动作控制指令进行对比分析,获取相应的语动控制指令;
机器人根据语动控制指令执行相应的操作。
对于上述的语音控制指令,例如可以是,“比心”;动作控制指令,例如可以是,
Figure BDA0002040128730000151
结合语音控制指令和动作控制指令进行对比分析,当上述两者所表达的含义不同时,获取语动控制指令,并控制机器人输出提示用户重新输入的信息;
对于上述的语音控制指令,例如可以是,“耶”;动作控制指令,例如可以是,
Figure BDA0002040128730000152
结合语音控制指令和动作控制指令进行对比分析,当上述两者所表达的含义相同或类似时,获取语动控制指令,并控制机器人播放执行与“耶”相关的操作。
需要说明的是,当用户输入两种及以上的交互信息时,其采用与上述相同的处理方式进行交互。
上述技术方案的有益效果是:通过对两种及以上的交互信息进行综合分析,提高所获取的准确率,使得机器人所执行的操作更加准确。
本发明实施例提供一种多模态交互的方法,
对语音信息进行预设语音处理的过程中,将语音信息转换成一一对应的文字信息,并将文字信息输出,提示用户进行检查;
当输出的文字信息与用户输入的语音信息一致时,机器人输出与一致结果相应的第一提示信息;
当输出的文字信息与用户输入的语音信息不一致时,机器人输出与不一致结果相应的第二提示信息;
当机器人未能识别出语音信息时,机器人输出与未识别结果相应的第三提示信息。
上述技术方案中的文字信息,是获取到用户输入的语音信息后,将语音信息一一对应转换来的。
将文字信息输出,提示用户进行检查,是由用户判断其文字信息与所输入的语音信息是否一致。例如在对文字信息与所输入的语音信息是否一致的判断过程中,无论两者是否一致,都会直接跳转出一个界面“用户是否重新输入”,此时用户通过判断两者是否一致,来点击“是/否”,当是时,对应的第一提示信息例如可以是,“匹配成功”;当否时,对应的第二提示信息例如可以是,“匹配不成功,用户重新输入”;当为识别出语音信息时,对应的第三提示信息例如可以是,“用户重新输入”。
上述技术方案的有益效果是:基于对语音信息的判断,方便及时纠正出现的错误,节省时间。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种多模态交互的方法,用于机器人,其特征在于,包括:
机器人获取多模态交互信息,所述多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;所述多模态交互信息是由用户发出的或者是由用户输入给所述机器人的;
根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式;
按照所述确定出的所述交互方式与所述用户进行交互;
所述根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式,包括:
所述多模态交互信息包括:文字信息、语音信息、视觉信息、动作信息中任一项或多项;根据其多模态交互信息可以得到一个多模态交互信息矩阵,多模态交互信息矩阵为一个分块矩阵包括:文字信息矩阵、语音信息矩阵、视觉信息矩阵、动作信息矩阵中任一项或多项且各项矩阵均为方阵,若上述矩阵有一项不存在则用0矩阵代替,利用多模态交互信息矩阵通过如下计算与所述多模态交互信息相匹配的交互方式:
Figure FDA0003406820900000011
其中,X为多模态交互信息矩阵,W为文字信息矩阵,该所述文字信息矩阵为提取机器人屏幕上所输入信息,并对所输入信息进行像素点的提取,形成相应的像素矩阵,所述像素矩阵则为文字信息矩阵,Y为语音信息矩阵,该所述语音信息矩阵为每一帧语音中的语调、分贝、左声道值、右声道值所形成的矩阵、S为视觉信息矩阵,所述视觉信息矩阵,为机器人提取脸部信息,根据捕捉瞳仁的偏移方向,获取微表情,再根据微表情获取视觉的模糊程度,从而确定用户最终所观看的地方,并将地方信息的像素点形成矩阵,D为动作信息矩阵,该所述动作信息矩阵为机器人拍摄用户动作,并将用户动作图像的像素点输入计算机,形成相应像素矩阵,wzz为文字信息矩阵中坐标为(z,z)的元素值,ycc为语音信息矩阵中坐标为(c,c)的元素值,snn为视觉信息矩阵中坐标为(n,n)的元素值,dmm为动作信息矩阵中坐标为(m,m)的元素值,且z、c、n、m、的值相等,即为矩阵W、Y、S、D的大小相等,利用如下方程组(1)求解特征值,
Figure FDA0003406820900000021
其中E为单位矩阵,λ1,λ2,λ3,λ4为与其对应矩阵的特征值,且特征值存在n种情况,即为λ1、λ2、λ3、λ4均为特征值的向量,每个向量中均含有n个值,而并非单一的值,所以将对应特征值构成特征矩阵,利用特征矩阵进行如下公式(2)计算,得出对应信息继续交互的概率矩阵:
Figure FDA0003406820900000022
其中p为每项信息继续交互的概率构成的概率矩阵,
Figure FDA0003406820900000023
为特征矩阵,λ1B,λ2B,λ3B,λ4B为可维持其对应信息矩阵能继续交互的最大特征值,为预先设定的值,选取p矩阵中元素最大的一项,找到所述最大一项所对应的信息矩阵,该最大一项所对应的信息矩阵所对应的交互方式即为与所述多模态交互信息相匹配的交互方式。
2.如权利要求1所述的方法,其特征在于,
所述按照所述确定出的所述交互方式与所述用户进行交互,包括:
确定所述多模态交互信息所包含的交互内容;
按照所述确定出的所述交互方式执行与所述交互内容相应的反馈操作。
3.如权利要求1所述的方法,其特征在于,所述根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式,按照所述确定出的所述交互方式与所述用户进行交互,包括:
交互模型中存储有多个交互方式,多个交互方式各自对应有自身的交互顺序;
按照所述多个交互方式各自对应的交互顺序与所述用户进行交互。
4.如权利要求1所述的方法,其特征在于,所述根据获取的所述多模态交互信息,确定与所述多模态交互信息相匹配的交互方式,包括:
获取所述多模态交互信息中的特征信息;
确定所述特征信息对应的交互方式;
将所述特征信息对应的交互方式确定为与所述多模态交互信息相匹配的交互方式。
5.如权利要求2所述的方法,其特征在于,所述确定所述多模态交互信息所包含的交互内容,包括:
确定所述多模态交互信息中,交互方式与所述多模态交互信息相匹配的交互方式相一致的交互信息中所包含的交互内容;
将所确定出的所述相一致的交互信息中所包含的交互内容,确定为所述多模态交互信息所包含的交互内容。
6.如权利要求1所述的方法,其特征在于,
机器人获取多模态交互信息后,检测并判断所述多模态交互信息中是否存在语音信息,若存在,对所述语音信息进行预设语音处理;
同时,检测并判断多模态交互信息中是否存在文字信息,
若存在,对所述文字信息进行预设文字处理;
同时,检测并判断多模态交互信息中是否存在视觉信息,
若存在,对所述视觉信息进行预设视觉处理;
同时,检测并判断多模态交互信息中是否存在动作信息,
若存在,对所述动作信息进行预设动作处理;
否则,所述机器人处于待机状态。
7.如权利要求6所述的方法,其特征在于,
在检测并判断多模态交互信息中是否存在语音信息、文字信息、视觉信息、动作信息后,分别对不同的信息进行不同的预设处理;
对不同的信息进行不同的预设处理的处理顺序,是根据预先设定好的优先级顺序进行相应的预设处理;
根据所述机器人分别对所述语音信息、文字信息、视觉信息、动作信息所识别的识别程度,对所述识别程度进行相应的从高到低的排序,并根据排序后的识别程度进行相应顺序的预设处理。
8.如权利要求1所述的方法,其特征在于,
获取用户输入的语音信息和动作信息;
对所述语音信息进行预设语音处理,获取与所述语音信息相应的语音控制指令;
根据所述动作信息确定用户的动作,并将所述动作与预先存储的动作数据库中的动作模板进行匹配,获取匹配结果;
所述动作数据库中包括多个不同的所述动作模板以及与所述动作模板一一对应的动作控制指令,根据所述匹配结果获取所述动作控制指令;
结合所述语音控制指令和动作控制指令进行对比分析,获取相应的语动控制指令;
所述机器人根据所述语动控制指令执行相应的操作。
9.如权利要求8所述的方法,其特征在于,
对所述语音信息进行预设语音处理的过程中,将所述语音信息转换成一一对应的文字信息,并将所述文字信息输出,提示所述用户进行检查;
当输出的文字信息与用户输入的语音信息一致时,所述机器人输出与一致结果相应的第一提示信息;
当所述机器人未能识别出所述语音信息时,所述机器人输出与未识别结果相应的第三提示信息。
CN201910339021.9A 2019-04-25 2019-04-25 一种多模态交互的方法 Active CN110109541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910339021.9A CN110109541B (zh) 2019-04-25 2019-04-25 一种多模态交互的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910339021.9A CN110109541B (zh) 2019-04-25 2019-04-25 一种多模态交互的方法

Publications (2)

Publication Number Publication Date
CN110109541A CN110109541A (zh) 2019-08-09
CN110109541B true CN110109541B (zh) 2022-04-05

Family

ID=67486684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910339021.9A Active CN110109541B (zh) 2019-04-25 2019-04-25 一种多模态交互的方法

Country Status (1)

Country Link
CN (1) CN110109541B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110465947B (zh) * 2019-08-20 2021-07-02 苏州博众机器人有限公司 多模态融合人机交互方法、装置、存储介质、终端及系统
CN110674278A (zh) * 2019-10-09 2020-01-10 浙江百应科技有限公司 一种文本机器人对话交互的方法
CN110738985A (zh) * 2019-10-16 2020-01-31 江苏网进科技股份有限公司 基于语音信号的跨模态生物特征识别方法及系统
CN110865705B (zh) * 2019-10-24 2023-09-19 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN114911381B (zh) * 2022-04-15 2023-06-16 青岛海尔科技有限公司 交互的反馈方法和装置、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933345A (zh) * 2017-01-18 2017-07-07 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及装置
CN106985137A (zh) * 2017-03-09 2017-07-28 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及系统
WO2017129149A1 (zh) * 2016-01-25 2017-08-03 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN107016402A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN107340859A (zh) * 2017-06-14 2017-11-10 北京光年无限科技有限公司 多模态虚拟机器人的多模态交互方法和系统
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223411B2 (en) * 2013-03-06 2019-03-05 Nuance Communications, Inc. Task assistant utilizing context for improved interaction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017129149A1 (zh) * 2016-01-25 2017-08-03 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN106933345A (zh) * 2017-01-18 2017-07-07 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及装置
CN107016402A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN106985137A (zh) * 2017-03-09 2017-07-28 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及系统
CN107340859A (zh) * 2017-06-14 2017-11-10 北京光年无限科技有限公司 多模态虚拟机器人的多模态交互方法和系统
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置

Also Published As

Publication number Publication date
CN110109541A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110109541B (zh) 一种多模态交互的方法
CN111191599B (zh) 姿态识别方法、装置、设备及存储介质
US9501743B2 (en) Method and apparatus for tailoring the output of an intelligent automated assistant to a user
CN105843381B (zh) 用于实现多模态交互的数据处理方法及多模态交互系统
CN105810188B (zh) 一种信息处理方法和电子设备
CN107203953A (zh) 一种基于互联网、表情识别和语音识别的教学系统及其实现方法
US11492741B2 (en) Electronic device
CN106157956A (zh) 语音识别的方法及装置
CN106873893B (zh) 用于智能机器人的多模态交互方法及装置
CN107911643B (zh) 一种视频通信中展现场景特效的方法和装置
CN109086276B (zh) 数据翻译方法、装置、终端及存储介质
CN110737335B (zh) 机器人的交互方法、装置、电子设备及存储介质
CN109284386A (zh) 可定制的意图识别方法及装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
US20230251745A1 (en) Systems and methods for providing on-screen virtual keyboards
CN115423908A (zh) 虚拟人脸的生成方法、装置、设备以及可读存储介质
CN110349577B (zh) 人机交互方法、装置、存储介质及电子设备
KR20210061523A (ko) 필기 입력을 텍스트로 변환하는 전자 장치 및 그 동작 방법
CN111722717B (zh) 手势识别方法、装置及计算机可读存储介质
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
KR20150066882A (ko) 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치
US11830292B2 (en) System and method of image processing based emotion recognition
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
CN112820265B (zh) 一种语音合成模型训练方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510000 unit on the fourth floor of the first, second and third floors on the west side of No. 1383-5, Guangzhou Avenue South, Haizhu District, Guangzhou City, Guangdong Province (office only) (not for plant use)

Applicant after: GUANGZHOU ZIB ARTIFICIAL INTELLIGENCE TECHNOLOGY CO.,LTD.

Address before: Room a, unit 1902, 374-2, Beijing Road, Yuexiu District, Guangzhou, Guangdong 510000

Applicant before: GUANGZHOU ZIB ARTIFICIAL INTELLIGENCE TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant