CN105913039B - 基于视觉和语音的对话数据交互处理方法及装置 - Google Patents
基于视觉和语音的对话数据交互处理方法及装置 Download PDFInfo
- Publication number
- CN105913039B CN105913039B CN201610265947.4A CN201610265947A CN105913039B CN 105913039 B CN105913039 B CN 105913039B CN 201610265947 A CN201610265947 A CN 201610265947A CN 105913039 B CN105913039 B CN 105913039B
- Authority
- CN
- China
- Prior art keywords
- voice
- features
- image
- current scene
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 12
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 230000004438 eyesight Effects 0.000 title claims description 10
- 230000000875 corresponding effect Effects 0.000 claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000012544 monitoring process Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000001815 facial effect Effects 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000009118 appropriate response Effects 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于视觉和语音的对话数据交互处理方法,其包括以下步骤:在监听语音的同时,捕获对应的当前场景图像;基于卷积神经网络算法对所捕获的当前场景图像进行视觉特征识别;对监听到的与当前场景图像对应的语音进行语音特征识别;将识别出的语音特征与识别出的图像特征结合起来作为主题或关键词以进行语义解析;针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。由于采用了视觉识别与语音识别技术的结合得到对话话题的关键词,同时根据对话生成模型或者答案搜索库的方式提供答案,使得使用者同机器人的聊天可以更加符合用户的意图,对于用户的提问或者给出的话题可以给出适当的回复。
Description
技术领域
本发明涉及智能机器人领域,具体地说,涉及一种基于视觉和语音的对话数据交互处理方法及装置。
背景技术
在对话数据交互的技术领域中,需要提供一种能够让智能机器人根据当前聊天场景下的各种特征综合给出对话答案的交互数据处理方法或系统,从而提高用户的使用体验,满足用户的聊天需求。
发明内容
为解决现有技术的上述问题,本发明提供了一种基于视觉和语音的对话数据交互处理方法,所述处理方法包括以下步骤:
在监听语音的同时,捕获对应的当前场景图像;
基于卷积神经网络算法对所捕获的当前场景图像进行视觉特征识别;
对监听到的与当前场景图像对应的语音进行语音特征识别;
将识别出的语音特征与识别出的图像特征结合起来作为主题或关键词以进行语义解析;
针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。
根据本发明的一个实施例,在基于视觉和语音的对话数据交互处理方法中,对所捕获的当前场景图像进行视觉识别包括对当前场景图像进行人体身份特征识别、主题特征识别以及发出动作的意图特征识别。
根据本发明的一个实施例,在进行语义解析的步骤中,将所述识别出的语音特征和所述识别出的图像特征作为知识库匹配答案的参考项进行输出。
根据本发明的一个实施例,在进行语义解析的步骤中,将所述识别出的语音特征和所述识别出的图像特征作为循环神经网络的对话生成模块的额外输入信息进行输出。
根据本发明的一个实施例,在进行语义解析的步骤中,还需要发出要指令机器人的其他运动系统做出某动作的信号。
根据本发明的另一个方面,还提供了一种基于视觉和语音的对话数据交互处理装置,所述处理装置包括:
监听与捕获模块,其用于在监听语音的同时,捕获对应的当前场景图像;
图像识别模块,其用于基于卷积神经网络算法对所捕获的当前场景图像进行视觉特征识别;
语音识别模块,其用于对监听到的与当前场景图像对应的语音进行语音特征识别;
语义解析模块,其用于将识别出的语音特征与识别出的图像特征结合起来作为主题或关键词以进行语义解析;
对话输出模块,针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。
根据本发明的一个实施例,在图像识别模块中,还包括对当前场景图像进行人体身份特征识别的身份识别单元、主题特征识别单元以及发出动作的意图特征识别单元。
根据本发明的一个实施例,在语义解析模块中还包括答案搜索接口单元,其用于将所述识别出的语音特征和所述识别出的图像特征作为知识库匹配答案的参考项进行输出。
根据本发明的一个实施例,在语义解析模块中还包括对话生成模块接口单元,其用于将所述识别出的语音特征和所述识别出的图像特征作为循环神经网络的对话生成模块的额外输入信息进行输出。
根据本发明的一个实施例,所述处理装置还包括动作决策模块,其中所述动作决策模块与所述语义解析模块耦接,以接收所述语义解析模块发出的要指令机器人的其他运动系统做出某动作的信号,并根据该信号作出相应动作的决策。
根据本发明的基于视觉和语音的对话交互数据处理方法或者实现该方法的装置,由于采用了视觉识别与语音识别技术的结合对对话场景进行分析,得到对话话题的关键词,同时根据对话生成模型或者搜索答案库的方式提供答案,使得使用者同机器人的聊天可以更加符合用户的意图,机器人对于用户的提问或者给出的话题可以给出适当的回复,而不会出现像现有技术中没有考虑应用场景的错误的语义识别的问题出现。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明的一个实施例的用于结合视觉识别和语音识别同时输出语音和对应动作的对话数据交互处理方法的流程图;
图2是根据本发明的一个实施例对所捕获的当前场景图像中的各个特征进行分类的示意图;
图3是根据本发明的一个实施例的对话数据交互处理装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例作进一步地详细说明。
本发明的方法是在智能机器人中实现的。如图1所示,其中显示了根据本发明的一个实施例的用于结合视觉识别和语音识别同时输出语音和对应动作的对话数据交互处理方法的流程图。
在该图中,方法开始于步骤S101。在步骤S101中,机器人的听觉系统在监听外界语音的同时,还通过视觉感知系统捕获发出语音时刻对应的当前场景图像。例如,当监听到声音“好累啊!”时,机器人同时捕获场景图像,例如用户正在球场拿着球的画面,或者用户在书桌上看书的画面。
在该场景图像中,包括人的图像、物体图像、背景图像以及所捕获的一系列动作序列帧图像。通过对这些不同的图像进行分类视觉识别,从而判断出所发出语音的准确语义。
为了提高视觉识别的准确性,本发明采用卷积神经网络算法进行视觉特征的提取和分析。因此,接下来,在步骤S102中,基于卷积神经网络算法对所捕获的当前场景图像进行视觉特征识别。
卷积网络最初是受视觉神经机制的启发而设计的,是为识别二维形状而设计的一个多层感知器。由于这种网络结构对平移、比例缩放、倾斜或者其它形式的变形具有高度不变性,因此,在图像识别技术领域,卷积网络得到广泛应用。
而卷积神经网络是近年发展起来并引起广泛重视的一种高效的图像特征的识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks,简称CNN)。现在,CNN已经成为众多科学领域的研究热点之一。特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工作者对该网络进行了改进。其中,具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。
一般地,CNN的基本结构包括两层。其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来。其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。
此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,因此在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习。再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
基于卷积神经网络的一个变形是神经认知机,其将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理。它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。神经认知机能够利用位移恒定能力从激励模式中学习,并且可识别这些模式的变化形。在其后的应用研究中,Fukushima将神经认知机主要用于手写数字的识别。随后,国内外的研究人员提出多种卷积神经网络形式,在邮政编码识别(Y.LeCun etc)、车牌识别和人脸识别等方面得到了广泛的应用。
本发明利用了上述技术对所采集到的图像信息进行特征识别,例如识别出场景图像中针对人图像的身份特征、物体图像的主题特征、人发出一系列动作的意图特征以及背景图像中的其它特征等(如图2所示),以便进行接下来的交互决策。
继续参照图1,在步骤S103中,对监听到的与当前场景图像对应的语音进行语音特征识别。
在步骤S104中,将上述识别出的语音特征和识别出的图像特征进行结合,并作为主题或关键词进行语义解析。
例如,当机器人听到主人说“好累啊!”此时机器人捕捉画面,可能的画面是“主人拿着一个篮球”,也可能是“主人正在看书”。针对于这两种场景,图像识别模块分别识别到了“篮球”这个物体特征和“书”这个物体特征。背景也许分别是草场或者书房的特征。
刚才提到说是主人,说明在此之前,机器人已经先进行了人体的身份特征识别,并识别出发出语音的对象就是主人,或者主人的朋友。对于身份特征识别,机器人需要进行精确的人面部特征的识别,对于画面中出现的三角形感兴趣区域采用卷积神经网络方法进行识别。因为在捕获场景图像时,人的图像尤其是人脸的特征因为角度的问题会发生变化。
因此这些特征在机器人语义理解方面是非常有帮助的,虽然听到的是同一句话,但是假如没有这些视觉特征的话,机器人可能回答的答案是一样。但是我们知道,打篮球的累和看书学习的累显然有不同的处理方法,机器人要提供不同的回答。
在步骤S104中,将识别出的语音特征与识别出的图像特征结合起来作为主题或关键词以进行语义解析。如上所述,机器人仅靠语音识别,而不考虑具体场景图像,很可能理解的意思是错误的或者说不恰当的,因此这样的交流没有意义。本发明在语义解析时,还基于视觉识别特征。通过将语音特征与图像识别技术获得的人体身份特征、背景图像中的主题特征以及发出动作的意图特征进行结合,这样获得的主题或关键词作为语义解析的基础。例如通过对话生成模块作为其额外输入信息,从而产生针对用户对话的准确的答案。或者,在语义解析后,可以将所识别出的语音特征和所识别出的图像特征作为知识库匹配答案的参考项进行输出。
在步骤S105中,针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。
语音回答的答案可例如通过上述的知识库匹配答案的方式获得,也可以通过采用循环神经网络的对话生成模块来获得。
然而对应的动作表达需要动作决策模块来根据语义回答和情绪等作出相应的动作。因此,在语义解析之后,还需要发出命令机器人的其他运动系统作出某动作的信号。例如针对“你好”的语音发出自动作出伸出手来进行握手的动作。或者,根据当时的回答做出摇头的动作等等。
针对所捕获的当前场景图像,如图2所示,其可以进行进一步的分类。例如针对人体图像,需要识别面部特征、表情特征、衣服颜色特征、样式特征、发型等等。而对于物体图像,需要识别出是属于哪一类物体如文具、玩具、宠物等等。对于背景图像,需要识别出环境特征,天气、地理位置等等。而对于捕获的一系列动作,需要识别出人发出这些动作与语音配合的意图特征等。当然,场景图像中还包括了其他特征,这里不一一赘述。
由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如,本文所述的方法可以实现为能以控制逻辑来执行的软件,其由机器人控制系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。
因此,根据本发明的另一个方面,还提供了一种基于视觉和语音的对话数据交互处理装置600。如图3所示,该对话数据交互处理装置600包括:监听与捕获模块601、图像识别模块602、语音识别模块603、语义解析模块605、对话输出模块606。
其中,监听与捕获模块601用于在监听语音的同时,捕获对应的当前场景图像。如图所示,其与交互层通信,通过交互层中的视觉系统和听觉系统来监听语音和捕获图像。
图像识别模块602,其用于基于卷积神经网络算法对所捕获的当前场景图像进行视觉特征识别。而语音识别模块603,其用于对监听到的与当前场景图像对应的语音进行语音特征识别。
在图像识别模块602中,其还包括身份识别单元、主题识别单元、意图识别单元。通过这些单元,图像识别模块可以将捕获的场景图像中的各个要素进行逐一识别。例如,针对人的图像,通过识别面部特征、表情特征、衣服颜色特征、样式特征、发型等等。而对于物体图像,需要识别出是属于哪一类物体如文具、玩具、宠物等等。对于背景图像,需要识别出环境特征,天气、地理位置等等。而对于捕获的一系列动作,需要识别出人发出这些动作与语音配合的意图特征等。
在语义解析模块605中,该模块用于将识别出的语音特征与识别出的图像特征结合起来作为主题或关键词以进行语义解析。在一个实施例中,为了将结合了语音特征和视觉特征得到的对话的主题或关键词进行对话的应用,可以通过设置答案搜索接口来把主题或关键词作为知识库的搜索输入项进行答案的搜索,或者通过对话生成接口将主题或关键词作为循环网络的对话生成模块的附加输入项来进行对话答案的生成。
对话输出模块606针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。输出语音回答就是通过音频处理系统将要输出的例如文本形式的回答转换成可以通过麦克风播放的语音。进行对应的动作表达,需要调用机器人的运动决策模块,通过该模块根据回答做出相应动作的决策,并通过执行机构运动相应部件。
因此,所述处理装置600还包括动作决策模块,其中所述动作决策模块与所述语义解析模块耦接,以接收所述语义解析模块发出的命令机器人的其他运动系统做出某动作的信号,并根据该信号作出相应动作的决策。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种基于视觉和语音的对话数据交互处理方法,其特征在于,所述处理方法包括以下步骤:
在监听语音的同时,捕获对应的当前场景图像,其中,所述当前场景图像包括人的图像、物体图像、动作序列以及背景图像;
基于卷积神经网络算法对所捕获的当前场景图像进行分类视觉特征识别,对所捕获的当前场景图像进行分类视觉识别包括对当前场景图像进行人体身份特征识别、主题特征识别以及发出动作的意图特征识别;其中,针对所捕获的当前场景图像进行进一步的分类,针对人体图像,需要识别面部特征、衣服颜色特征、样式特征、发型,而对于物体图像,需要识别出是属于哪一类物体,文具、玩具、宠物,对于背景图像,需要识别出环境特征,天气、地理位置,对于捕获的一系列动作,需要识别出人发出这些动作与语音配合的意图特征;
对监听到的与当前场景图像对应的语音进行语音特征识别;
将识别出的语音特征与分类识别出的图像特征结合起来作为主题或关键词以进行语义解析,其中,将所述识别出的语音特征和所述分类识别出的图像特征作为知识库匹配答案的参考项进行输出;
针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。
2.如权利要求1所述的基于视觉和语音的对话数据交互处理方法,其特征在于,在进行语义解析的步骤中,将所述识别出的语音特征和所述分类识别出的图像特征作为循环神经网络的对话生成模块的额外输入信息进行输出。
3.如权利要求1或2所述的基于视觉和语音的对话数据交互处理方法,其特征在于,在进行语义解析的步骤中,还需要发出命令机器人的其他运动系统做出某动作的信号。
4.一种基于视觉和语音的对话数据交互处理装置,其特征在于,所述处理装置包括:
监听与捕获模块,其用于在监听语音的同时,捕获对应的当前场景图像,其中,所述当前场景图像包括人的图像、物体图像、动作序列以及背景图像;
图像识别模块,其用于基于卷积神经网络算法对所捕获的当前场景图像进行分类视觉特征识别,在图像识别模块中,还包括对当前场景图像进行人体身份特征识别的身份识别单元、主题特征识别单元以及发出动作的意图特征识别单元;其中,针对所捕获的当前场景图像进行进一步的分类,针对人体图像,需要识别面部特征、衣服颜色特征、样式特征、发型,而对于物体图像,需要识别出是属于哪一类物体,文具、玩具、宠物,对于背景图像,需要识别出环境特征,天气、地理位置,对于捕获的一系列动作,需要识别出人发出这些动作与语音配合的意图特征;
语音识别模块,其用于对监听到的与当前场景图像对应的语音进行语音特征识别;
语义解析模块,其用于将识别出的语音特征与分类识别出的图像特征结合起来作为主题或关键词以进行语义解析,其中,在语义解析模块中还包括答案搜索接口单元,其用于将所述识别出的语音特征和所述分类识别出的图像特征作为知识库匹配答案的参考项进行输出;
对话输出模块,针对语义解析得到的结果进行响应,输出语音回答和对应的动作表达。
5.如权利要求4所述的基于视觉和语音的对话数据交互处理装置,其特征在于,在语义解析模块中还包括对话生成模块接口单元,其用于将所述识别出的语音特征和所述识别出的图像特征作为循环神经网络的对话生成模块的额外输入信息进行输出。
6.如权利要求4或5所述的基于视觉和语音的对话数据交互处理装置,其特征在于,所述处理装置还包括动作决策模块,其中所述动作决策模块与所述语义解析模块耦接,以接收所述语义解析模块发出的命令机器人的其他运动系统做出某动作的信号,并根据该信号作出相应动作的决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610265947.4A CN105913039B (zh) | 2016-04-26 | 2016-04-26 | 基于视觉和语音的对话数据交互处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610265947.4A CN105913039B (zh) | 2016-04-26 | 2016-04-26 | 基于视觉和语音的对话数据交互处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105913039A CN105913039A (zh) | 2016-08-31 |
CN105913039B true CN105913039B (zh) | 2020-08-18 |
Family
ID=56752602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610265947.4A Active CN105913039B (zh) | 2016-04-26 | 2016-04-26 | 基于视觉和语音的对话数据交互处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913039B (zh) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407971A (zh) * | 2016-09-14 | 2017-02-15 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN106528751A (zh) * | 2016-10-28 | 2017-03-22 | 北京光年无限科技有限公司 | 一种用于智能机器人的图像数据采集处理方法及机器人 |
CN108205526A (zh) * | 2016-12-20 | 2018-06-26 | 百度在线网络技术(北京)有限公司 | 一种确定综合语义信息的方法与装置 |
CN108229640B (zh) * | 2016-12-22 | 2021-08-20 | 山西翼天下智能科技有限公司 | 情绪表达的方法、装置和机器人 |
CN106897372B (zh) * | 2017-01-17 | 2022-11-08 | 腾讯科技(上海)有限公司 | 语音查询方法和装置 |
CN108363706B (zh) * | 2017-01-25 | 2023-07-18 | 北京搜狗科技发展有限公司 | 人机对话交互的方法和装置、用于人机对话交互的装置 |
CN106873893B (zh) * | 2017-02-13 | 2021-01-22 | 北京光年无限科技有限公司 | 用于智能机器人的多模态交互方法及装置 |
CN107016046A (zh) * | 2017-02-20 | 2017-08-04 | 北京光年无限科技有限公司 | 基于视觉场景化的智能机器人对话方法及系统 |
EP3616210A1 (en) * | 2017-04-23 | 2020-03-04 | Orcam Technologies Ltd. | Wearable apparatus and methods for analyzing images |
CN107329952A (zh) * | 2017-06-15 | 2017-11-07 | 重庆柚瓣科技有限公司 | 一种适老化语义理解方法 |
CN107423364B (zh) * | 2017-06-22 | 2024-01-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能的回答话术播报方法、装置及存储介质 |
JP6857581B2 (ja) * | 2017-09-13 | 2021-04-14 | 株式会社日立製作所 | 成長型対話装置 |
CN107633225A (zh) * | 2017-09-18 | 2018-01-26 | 北京金山安全软件有限公司 | 一种信息获得方法及装置 |
CN108874445A (zh) * | 2017-10-30 | 2018-11-23 | 上海寒武纪信息科技有限公司 | 神经网络处理器及使用处理器执行向量点积指令的方法 |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN108305629B (zh) * | 2017-12-25 | 2021-07-20 | 广东小天才科技有限公司 | 一种场景学习内容获取方法、装置、学习设备及存储介质 |
CN108172213B (zh) * | 2017-12-26 | 2022-09-30 | 北京百度网讯科技有限公司 | 娇喘音频识别方法、装置、设备及计算机可读介质 |
CN108052506B (zh) * | 2017-12-28 | 2021-06-29 | Oppo广东移动通信有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN108198553B (zh) * | 2018-01-23 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音交互方法、装置、设备和计算机可读存储介质 |
CN109086860B (zh) * | 2018-05-28 | 2022-03-15 | 北京光年无限科技有限公司 | 一种基于虚拟人的交互方法及系统 |
CN109165285A (zh) * | 2018-08-24 | 2019-01-08 | 北京小米智能科技有限公司 | 处理多媒体数据的方法、装置及存储介质 |
US12057109B2 (en) | 2018-09-13 | 2024-08-06 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN109509466A (zh) * | 2018-10-29 | 2019-03-22 | Oppo广东移动通信有限公司 | 数据处理方法、终端及计算机存储介质 |
CN109333539B (zh) * | 2018-11-27 | 2021-06-29 | 深圳深度教育股份公司 | 机器人及其控制方法、装置和存储介质 |
CN111383637A (zh) * | 2018-12-28 | 2020-07-07 | 上海寒武纪信息科技有限公司 | 信号处理装置、信号处理方法及相关产品 |
CN109545195B (zh) * | 2018-12-29 | 2023-02-21 | 深圳市科迈爱康科技有限公司 | 陪伴机器人及其控制方法 |
CN109545196B (zh) * | 2018-12-29 | 2022-11-29 | 深圳市科迈爱康科技有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
CN109979462A (zh) * | 2019-03-21 | 2019-07-05 | 广东小天才科技有限公司 | 一种结合上下文语境获取意图的方法和系统 |
CN110047479A (zh) * | 2019-04-18 | 2019-07-23 | 深圳市三宝创新智能有限公司 | 一种用于智能机器人的语音交互装置 |
CN110059231B (zh) * | 2019-04-19 | 2021-10-19 | 康忠华 | 一种回复内容的生成方法及装置 |
CN109961789B (zh) * | 2019-04-30 | 2023-12-01 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN110245253B (zh) * | 2019-05-21 | 2021-11-23 | 华中师范大学 | 一种基于环境信息的语义交互方法及系统 |
CN110196931B (zh) * | 2019-06-28 | 2021-10-08 | 北京蓦然认知科技有限公司 | 一种基于图像描述的对话生成方法和装置 |
WO2021030449A1 (en) * | 2019-08-12 | 2021-02-18 | DMAI, Inc. | System and method for adaptive dialogue via scene modeling using combinational neural networks |
CN110569806A (zh) * | 2019-09-11 | 2019-12-13 | 上海软中信息系统咨询有限公司 | 一种人机交互系统 |
CN113159270B (zh) * | 2020-01-22 | 2024-10-18 | 阿里巴巴集团控股有限公司 | 视听任务处理装置和方法 |
CN112818103B (zh) * | 2020-03-11 | 2024-02-06 | 蚂蚁财富(上海)金融信息服务有限公司 | 智能对话的交互方法、装置和电子设备 |
CN111429907B (zh) * | 2020-03-25 | 2023-10-20 | 北京百度网讯科技有限公司 | 语音服务模式切换方法、装置、设备及存储介质 |
CN114065764B (zh) * | 2020-07-29 | 2024-09-06 | 阿里巴巴集团控股有限公司 | 多模态任务处理装置和方法 |
CN112651334B (zh) * | 2020-12-25 | 2023-05-23 | 三星电子(中国)研发中心 | 机器人视频交互方法和系统 |
CN113268994B (zh) * | 2021-07-16 | 2021-10-01 | 中国平安人寿保险股份有限公司 | 基于胶囊网络的意图识别方法及装置 |
CN114416934B (zh) * | 2021-12-24 | 2023-02-07 | 北京百度网讯科技有限公司 | 多模态的对话生成模型的训练方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1797284A (zh) * | 2004-12-30 | 2006-07-05 | 中国科学院自动化研究所 | 基于玩家姿势和语音的电子游戏场景和角色控制方法 |
CN103123619A (zh) * | 2012-12-04 | 2013-05-29 | 江苏大学 | 基于情感上下文的视觉语音多模态协同分析方法及系统 |
CN104464733A (zh) * | 2014-10-28 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 一种语音对话的多场景管理方法及装置 |
US20160055885A1 (en) * | 2014-07-23 | 2016-02-25 | Gopro, Inc. | Voice-Based Video Tagging |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298694A (zh) * | 2011-06-21 | 2011-12-28 | 广东爱科数字科技有限公司 | 一种应用于远程信息服务的人机交互识别系统 |
CN104899002A (zh) * | 2015-05-29 | 2015-09-09 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换方法及系统 |
CN105068661B (zh) * | 2015-09-07 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105511608B (zh) * | 2015-11-30 | 2018-12-25 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及装置、智能机器人 |
CN105447207B (zh) * | 2016-01-08 | 2018-07-31 | 北京光年无限科技有限公司 | 一种面向智能机器人的问答交互方法及系统 |
-
2016
- 2016-04-26 CN CN201610265947.4A patent/CN105913039B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1797284A (zh) * | 2004-12-30 | 2006-07-05 | 中国科学院自动化研究所 | 基于玩家姿势和语音的电子游戏场景和角色控制方法 |
CN103123619A (zh) * | 2012-12-04 | 2013-05-29 | 江苏大学 | 基于情感上下文的视觉语音多模态协同分析方法及系统 |
US20160055885A1 (en) * | 2014-07-23 | 2016-02-25 | Gopro, Inc. | Voice-Based Video Tagging |
CN104464733A (zh) * | 2014-10-28 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 一种语音对话的多场景管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105913039A (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105913039B (zh) | 基于视觉和语音的对话数据交互处理方法及装置 | |
Jaiswal et al. | Facial emotion detection using deep learning | |
Latif et al. | Variational autoencoders for learning latent representations of speech emotion: A preliminary study | |
US10846873B2 (en) | Methods and apparatus for autonomous robotic control | |
Vedantam et al. | Context-aware captions from context-agnostic supervision | |
Zhang et al. | Short and long range relation based spatio-temporal transformer for micro-expression recognition | |
Salunke et al. | A new approach for automatic face emotion recognition and classification based on deep networks | |
CN106873893B (zh) | 用于智能机器人的多模态交互方法及装置 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
US20230206928A1 (en) | Audio processing method and apparatus | |
US20190259384A1 (en) | Systems and methods for universal always-on multimodal identification of people and things | |
Greco et al. | Emotion analysis from faces for social robotics | |
Pandey et al. | Improving facial emotion recognition systems using gradient and laplacian images | |
Cheng et al. | Visual speaker authentication with random prompt texts by a dual-task CNN framework | |
Wang et al. | The applications of facial expression recognition in human-computer interaction | |
CN110598587A (zh) | 结合弱监督的表情识别网络训练方法、系统、介质及终端 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Zia et al. | An adaptive training based on classification system for patterns in facial expressions using SURF descriptor templates | |
Sharma et al. | Deep learning based student emotion recognition from facial expressions in classrooms | |
Yan et al. | An incremental intelligent object recognition system based on deep learning | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
Su et al. | Nesterov accelerated gradient descent-based convolution neural network with dropout for facial expression recognition | |
Liu et al. | Fusion of triple attention to residual in residual dense block to attention based cnn for facial expression recognition | |
Wang et al. | Deep learning (DL)-enabled system for emotional big data | |
Somashekarappa et al. | Neural network implementation of gaze-target prediction for human-robot interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |