CN107230476A - 一种自然的人机语音交互方法和系统 - Google Patents
一种自然的人机语音交互方法和系统 Download PDFInfo
- Publication number
- CN107230476A CN107230476A CN201710311400.8A CN201710311400A CN107230476A CN 107230476 A CN107230476 A CN 107230476A CN 201710311400 A CN201710311400 A CN 201710311400A CN 107230476 A CN107230476 A CN 107230476A
- Authority
- CN
- China
- Prior art keywords
- sound
- source
- voice
- collection
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 34
- 210000001525 retina Anatomy 0.000 claims abstract description 7
- 238000002054 transplantation Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 16
- 210000003128 head Anatomy 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 3
- 241000209140 Triticum Species 0.000 claims 2
- 235000021307 Triticum Nutrition 0.000 claims 2
- 230000002452 interceptive effect Effects 0.000 abstract description 33
- 230000004044 response Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种自然的人机语音交互方法,其包括步骤:(1)信号采集:采用麦克风阵列采集音源的声音信号,根据麦克风阵列中不同位置的麦克风采集的声音信号,判断音源的方位,采用摄像头采集音源所在方位的图像信号;(2)音源身份识别:根据采集的图像信号,识别音源的身份;(3)说话对象识别:根据采集的图像信号和声音信号,基于热词监听和视线分析算法,识别说话对象;(4)根据采集的声音信号,判断是否需要对音源作出响应。相应地,本发明还公开了一种自然的人机语音交互系统。本发明可被应用于人机语音交互,增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。
Description
技术领域
本发明涉及一种人机语音交互方法和系统,尤其涉及一种自然的人机语音交互方法和系统。
背景技术
伴随着语音识别、语义理解等自然语言处理技术在近年来的高速发展,以语音为主要交互方式的数字智能助手不断涌现,比如苹果Siri、GoogleNow、微软Cortana、亚马逊Echo等等。语音作为人机交互的方式在智能手表、智能手机、平板电脑、个人电脑等终端被广泛应用。
当前主流的语音助手的使用流程通常具有如下特征:
1.通常一个终端上的智能语音助手的工作状态分为待命状态和识别状态。
2.处于待命状态的智能语音助手并不会处理用户请求,而处于识别状态的智能语音助手则会接收所有音频信息并识别。
3.处于待命状态的智能语音助手需要通过用户在界面点击或者说出指定词语来唤醒从而进入识别状态。
现有主流系统这样设计的一个主要原因是从语音到文字识别和语义理解目前还是一个相当耗费计算资源的事情,因此大部分的解决方案是基于云端的,如果整个系统一直保持识别状态的话不仅浪费计算资源,也存在巨大的隐私问题。
但是这种语音交互方式存在着诸多限制,使得用户在使用过程中有不自然的感觉,例如:
1.当进入识别状态之后即将用户说的所有内容作为指令,不具备区分一段语音是否为用户请求的能力,容易记录错误信息。
2.受当前的软硬件性能限制,单纯依靠语音信息还无法具备准确的说话人识别的能力,也就是说单一终端无法处理多个用户的请求。
3.工作状态切换过程不自然,尤其是在纯语音场景中用户需要说出指定词汇才能唤醒语音助手。当同一范围内有多个设备都安装有语音助手软件时甚至可能同时被唤醒。
因此,期望获得一种自然的人机语音交互方法,该方法可被应用于人机语音交互,增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。
发明内容
本发明的目的之一是提供一种自然的人机语音交互方法,该方法可被应用于人机语音交互,增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。
根据上述目的之一,本发明提出了一种自然的人机语音交互方法,其包括步骤:
(1)信号采集:采用麦克风阵列采集音源的声音信号,根据麦克风阵列中不同位置的麦克风采集的声音信号,判断音源的方位,采用摄像头采集音源所在方位的图像信号;
(2)音源身份识别:根据采集的图像信号,识别音源的身份;
(3)说话对象识别:根据采集的图像信号和声音信号,基于热词监听和视线分析算法,识别说话对象;
(4)根据采集的声音信号,判断是否需要对音源作出响应。
本发明所述的自然的人机语音交互方法,其基本思想是在机器的语音交互终端利用多种传感器与算法来模拟人类语音交流时利用视觉、听觉结合完成说话人识别、内容上下文理解等任务的方式,使得用户可以以与人类语音交流基本同样自然的方式与机器进行语音交互,从而增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。
本发明方法通常基于传感器和处理系统实现,传感器扮演人的感官器官的角色,处理系统扮演人的大脑的角色,从而模拟人类语音交流的方式。例如机器的语音交互终端的“听觉”由麦克风采集声音信号模拟,机器的语音交互终端的“视觉”由摄像头采集图像信号模拟,处理系统运行与步骤(1) 至步骤(4)相应的各种算法,以控制传感器实现信号的采集和处理以实现各步骤功能,最终判断是否需要对音源作出响应。因此,本发明可以作为一个模块被应用到一切适用于人机语音交互的终端设备当中,例如作为机器的语音交互终端中安装的语音助手的一个前置增强模块,增强人机语音交互体验。当然,本发明还可以进一步包括语义理解、搜索和/或计算需要响应的具体内容,以对音源作出响应,从而作为一个完整的语音交互模块被使用。
本发明相对于常见语音交互方法的主要优势在于传感器部分引入了“视觉”信号,并将其应用到说话人即音源身份识别和说话对象识别过程中,为语义理解过滤不必要的干扰,从而能够自然精准地进入语义理解状态,增强人机语音交互体验。涉及的原理包括:
步骤(1)涉及对音源方位的判断。
如同日常生活中一样,当一个人听到可能是在跟自己讲话的声音时,通常会先判断出声音发出的方向,然后再通过眼睛去确认该方向的音源。
当使用麦克风阵列(Microphone Array,一组已知排列的麦克风)时,声音到达阵列中不同麦克风的时间会有所不同,而不同方向来的声音到达不同麦克风的延迟是不同的,因此可以通过计算延迟差来大致估算音源的方向。
当环境中存在多个音源时,可以在麦克风阵列中采用指向性麦克风,指向性麦克风的收音角度较小,因此不同方向上音源到达麦克风采集到的强度会有比较明显的差别,结合频域上的聚类和回归等后处理方法可以达到区分多个音源方向的目的。
考虑语音交互的应用场景,通常对麦克风采集到的信号频率范围进行裁剪处理以限制在人声范围内,从而进一步提高稳定性。
当能够区分出环境中多个不同的音源即说话人时,则可以调用步骤(2) 来进一步确认每个说话人的身份。
步骤(2)涉及音源身份的识别。
识别音源的身份包括两种途径,一种是基于“听觉”识别,看他/她的声音特质是否符合已知的某一个说话人,这方面已经有不少的算法研究,但是单单依靠“听”来判断说话人的身份,技术上目前尚不成熟,尤其在较为复杂的环境下,嗓音识别几乎不具有实用性。另一种则是基于“视觉”识别。本发明中,基于“听觉”的音源识别通常为备选方案,可以作为基于“视觉”的音源识别的补充。
通常单独依靠可见光摄像头无法区分真人和照片/视频,因此本发明中,“视觉”部分的传感器除了普通的可见光摄像头外,通常还包括一组红外摄像头,理想的情况下最好为具备深度感应的立体视觉摄像头,比如目前市场上来自英特尔的Real-Sense摄像头。
在系统配备了景深和红外感应的摄像头之后,可以利用大量的现有算法实现人脸的检测与识别,从而得到上述音源方位的判断中产生的各个候选人的身份信息。通常这类算法在需要识别的人数较少,比如千人级别时,都是可以离线运行的。
步骤(3)涉及说话对象的识别。
通常,只有当说话对象为机器的语音交互终端时才有必要对其作出响应。因此需要判断说话人是否在对机器的语音交互终端说话,也就是说话对象识别。
在真实环境中,当一个人无法通过内容确认是否别人在跟自己讲话时,通常会通过两种方式来进行判断,一是听对方是否提到了自己,也就是类似于现有主流系统中的热词检测;二是会看对方是否看向了自己。本发明同样借鉴了这样的两种实现方式。
本发明中当热词监听和/或视线分析算法判断说话人可能是在跟机器的语音交互终端对话时,则进入步骤(4)对收到的说话人的声音信号进行意图理解过滤,以判断是否需要对音源作出响应。
步骤(4)涉及对声音信号的意图理解过滤。
不同于直接产生最终响应的语义理解过程中的意图分类是一个多分类问题,即对多种潜在意图进行分类,该步骤的意图理解过滤是一个简单的二分类判断,即判断是否需要对音源作出响应,是一个更加简单的问题。
假如机器的语音交互终端的语音系统名字叫做“小安”,那么对于“小安这个系统非常棒!”,“最近小安的开发进展不错。”这样的句子,哪怕已经触发了热词监听实际上也不应该做出响应。而对于“今天天气怎么样?”,“去A地的路堵车么?”这类句子则应该做出响应。注意当语音信息传到这一步时,说明已经通过“视觉”或者“听觉”判断出来说话人大概率是在对机器的语音交互终端讲话了。
本发明可以通过训练一个意图分类器,使得能够区分哪类句子应该做出反应,哪类句子即使是用户看着机器的语音交互终端说也不需要做出反应。这种区别类似于一般陈述句无需响应,祈使句与问句需要响应,但是真实的机器学习模型可能无法精准对应到人类语言学的这类概念上。
关于“意图分类”问题实际上是自然语言处理算法中的一个被广泛研究的问题,目前已经有产品化的技术,比如微软的LUIS就可以让用户自行训练一个可以识别十种以内意图的分类器。其基本原理是提供一些带有意图标记的“语料”给神经网络模型训练,得到能够识别新语句意图的分类器。上述意图分类器的关键在于可以解决两分类问题,即是否需要响应,其训练难度较低,精度较高。
当说话人的一句话通过意图理解过滤后,即判断需要对音源作出响应,就可以进入传统系统中的语义理解与执行反馈的过程了。
进一步地,本发明所述的自然的人机语音交互方法中,在所述步骤(2) 中,根据采集的图像信号,采用人脸识别算法,识别音源的身份。
进一步地,本发明所述的自然的人机语音交互方法中,在所述步骤(2) 中,根据采集的图像信号,采用人脸识别算法和唇部动作分析算法,识别音源的身份。
上述方案中,当几个人靠得比较近并且都是属于被认可的说话人时,就需要通过唇部动作来确认刚刚收到的声音信号是来自于哪一个说话人。目前现有的唇部动作检测算法可以以较高的精度检测出一个人是否在说话,而不是呼吸、吃东西等其它嘴部动作。通过这一步,绝大部分情况下可以锁定每一个时刻说话人的身份。当很多人一起说话时,可以认为不属于人机语音交互场景。因此可以认为需要处理的是每个时刻只有一个说话人,或者说主要只有一个说话人的情况。
进一步地,本发明所述或上述任一自然的人机语音交互方法中,在所述步骤(2)中,还根据采集的声音信号,采用嗓音识别算法,识别音源的身份。
进一步地,本发明所述的自然的人机语音交互方法中,在所述步骤(2),只有当音源被识别为特定身份的人时,才进行下一步骤。
上述方案中,只对限定身份的人做出响应,可以视为只有当说话人通过了视觉身份识别之后,他的声音、画面信息才会进入下一步处理。
本发明的另一目的是提供一种自然的人机语音交互系统,该系统可被应用于人机语音交互,增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。
基于上述发明目的,本发明还提供了一种自然的人机语音交互系统,其包括:
传感器装置,其至少包括采集声音信号的麦克风阵列和采集图像信号的摄像头,所述麦克风阵列具有若干个麦克风,所述摄像头包括可见光摄像头和红外摄像头;
处理装置,其与所述传感器装置连接,以根据接受自传感器装置的声音信号和图像信号,对音源身份进行识别,对说话对象进行识别,以及判断是否需要对音源作出响应。
本发明所述的自然的人机语音交互系统中,所述处理装置可被配置为按照上述自然的人机语音交互方法的步骤(1)至步骤(4)工作,因此,该系统可被应用于人机语音交互,增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。相应的工作原理已在上述自然的人机语音交互方法的原理说明部分阐述,在此不再赘述。
进一步地,本发明所述的自然的人机语音交互系统中,所述处理装置包括:
身份识别模块,其对音源身份进行识别;
说话对象识别模块,其对说话对象进行识别;
语义理解与响应模块,其基于两分类的意图分类器判断是否需要对音源作出响应。
进一步地,本发明所述的自然的人机语音交互系统中,所述处理装置根据麦克风阵列中不同位置的麦克风采集的声音信号以判断音源的方位,并基于音源的方位控制摄像头转动到相应位置以采集音源所在方位的图像信号。
进一步地,本发明所述的自然的人机语音交互系统中,所述麦克风为指向性麦克风。
进一步地,本发明所述的自然的人机语音交互系统中,所述摄像头还包括具备深度感应的立体视觉摄像头。
本发明所述的自然的人机语音交互方法,其具有以下优点和有益效果:
(1)可被应用于人机语音交互,增强人机语音交互体验,使得用户在人机语音交互过程中感觉更加自然。
(2)细粒度的状态切换:传统语音助手进入识别状态和退出识别状态都需要非常明确的“信号”,对于本发明而言,实际上不存在明显的状态切换过程。本发明的状态切换可以认为是无缝的,始终保持监听,判断是否有被认可的用户在说话、是否在对机器的语音交互终端说话、是否对机器的语音交互终端发出请求,当所有判断都为肯定时,则进入理解与执行的状态。本发明的状态切换粒度可以如同普通人一样以句子为单位。
(3)利用本发明,用户可以像是在日常环境中一样与机器的语音交互终端的语音助手进行语音交互,避免生硬的用户体验,并且本发明的更加有效的说话人身份识别机制和细粒度的状态切换特性使得多人语音交互成为了可能。
本发明所述的自然的人机语音交互系统,其同样具有上述效果。
附图说明
图1为本发明所述的自然的人机语音交互方法的流程示意图。
图2为本发明所述的自然的人机语音交互系统在一种实施方式下的结构示意图。
具体实施方式
下面将结合说明书附图和具体的实施例来对本发明所述的自然的人机语音交互方法和系统进行进一步地详细说明,但是该详细说明不构成对本发明的限制。
图1显示了本发明所述的自然的人机语音交互方法的流程。如图1所示,该自然的人机语音交互方法包括步骤:
(1)信号采集:采用麦克风阵列采集音源的声音信号,根据麦克风阵列中不同位置的麦克风采集的声音信号,判断音源的方位,采用摄像头采集音源所在方位的图像信号;
(2)音源身份识别:根据采集的图像信号,识别音源的身份;
(3)说话对象识别:根据采集的图像信号和声音信号,基于热词监听和视线分析算法,识别说话对象;
(4)根据采集的声音信号,判断是否需要对音源作出响应。
在某些实施方式中,在所述步骤(2)中,根据采集的图像信号,采用人脸识别算法,识别音源的身份。
在某些实施方式中,在所述步骤(2)中,根据采集的图像信号,采用人脸识别算法和唇部动作分析算法,识别音源的身份。
在某些实施方式中,在所述步骤(2)中,还根据采集的声音信号,采用嗓音识别算法,识别音源的身份。
在某些实施方式中,在所述步骤(2),只有当音源被识别为特定身份的人时,才进行下一步骤。
图2示意了本发明所述的自然的人机语音交互系统在一种实施方式下的结构。如图2所示,该自然的人机语音交互系统包括:
传感器装置1,其包括采集声音信号的麦克风阵列11和采集图像信号的摄像头12,该麦克风阵列具有若干个指向性麦克风,该摄像头12包括可见光摄像头、红外摄像头以及具备深度感应的立体视觉摄像头,例如英特尔的 Real-Sense摄像头。
处理装置2,其与传感器装置1连接,以根据接受自传感器装置1的声音信号和图像信号,对音源身份进行识别,对说话对象进行识别,以及判断是否需要对音源作出响应。
本实施例中,处理装置2包括:
身份识别模块21,其被配置为对音源身份进行识别。具体来说,身份识别模块21根据麦克风阵列11中不同位置的麦克风采集的声音信号以判断音源的方位,并基于音源的方位控制摄像头12转动到相应位置以采集音源所在方位的图像信号。其中,通过计算延迟差来大致估算音源的方向。当环境中存在多个音源时,结合频域上的聚类和回归等后处理方法区分多个音源方向。此外,对麦克风采集到的信号频率范围进行裁剪处理以限制在人声范围内,从而进一步提高稳定性。当区分出环境中多个不同的音源即说话人时,基于音源的方位控制摄像头12转动到相应位置以采集音源所在方位的图像信号。然后采用唇部动作分析算法锁定每一个时刻的说话人,并采用人脸识别算法实现该说话人的人脸的检测与识别,从而基于上述音源所在方位的图像信号得到上述音源方位的判断中产生的各个说话人的身份信息,只有当音源被识别为特定身份的人时,才调用说话对象识别模块22。在某些实施方式中,也可以根据采集的声音信号,采用嗓音识别算法,识别音源的身份。
说话对象识别模块22,其被配置为对说话对象进行识别。具体来说,通过热词监听和视线分析算法判断说话人是否可能是在跟机器的语音交互终端对话,若是则调用语义理解与响应模块23。
语义理解与响应模块23,其被配置为基于两分类的意图分类器判断是否需要对音源作出响应,用于意图理解过滤。具体来说,通过训练一个基于两分类的意图分类器,使得能够区分哪类句子应该做出反应,哪类句子即使是用户看着机器的语音交互终端说也不需要做出反应。
本实施例的自然的人机语音交互系统工作时:
首先通过身份识别模块21进行信号采集和音源身份识别:采用麦克风阵列11采集音源的声音信号,根据麦克风阵列11中不同位置的麦克风采集的声音信号,判断音源的方位,采用摄像头12采集音源所在方位的图像信号。根据采集的图像信号,识别音源的身份。
然后通过说话对象识别模块22进行说话对象识别:根据采集的图像信号和声音信号,基于热词监听和视线分析算法,识别说话对象。
最后通过语义理解与响应模块23根据采集的声音信号,判断是否需要对音源作出响应。
本实施例的自然的人机语音交互系统可作为机器的语音交互终端中安装的语音助手的一个前置增强模块,从而增强人机语音交互体验。当说话人的一句话通过意图理解过滤后,即判断需要对音源作出响应,就可以进入语音助手中的语义理解与执行反馈的过程了。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
Claims (10)
1.一种自然的人机语音交互方法,其特征在于,包括步骤:
(1)信号采集:采用麦克风阵列采集音源的声音信号,根据麦克风阵列中不同位置的麦克风采集的声音信号,判断音源的方位,采用摄像头采集音源所在方位的图像信号;
(2)音源身份识别:根据采集的图像信号,识别音源的身份;
(3)说话对象识别:根据采集的图像信号和声音信号,基于热词监听和视线分析算法,识别说话对象;
(4)根据采集的声音信号,判断是否需要对音源作出响应。
2.如权利要求1所述的自然的人机语音交互方法,其特征在于,在所述步骤(2)中,根据采集的图像信号,采用人脸识别算法,识别音源的身份。
3.如权利要求1所述的自然的人机语音交互方法,其特征在于,在所述步骤(2)中,根据采集的图像信号,采用人脸识别算法和唇部动作分析算法,识别音源的身份。
4.如权利要求1-3中任意一项所述的自然的人机语音交互方法,其特征在于,在所述步骤(2)中,还根据采集的声音信号,采用嗓音识别算法,识别音源的身份。
5.如权利要求1所述的自然的人机语音交互方法,其特征在于,在所述步骤(2),只有当音源被识别为特定身份的人时,才进行下一步骤。
6.一种自然的人机语音交互系统,其特征在于,包括:
传感器装置,其至少包括采集声音信号的麦克风阵列和采集图像信号的摄像头,所述麦克风阵列具有若干个麦克风,所述摄像头包括可见光摄像头和红外摄像头;
处理装置,其与所述传感器装置连接,以根据接受自传感器装置的声音信号和图像信号,对音源身份进行识别,对说话对象进行识别,以及判断是否需要对音源作出响应。
7.如权利要求6所述的自然的人机语音交互系统,其特征在于,所述处理装置包括:
身份识别模块,其对音源身份进行识别;
说话对象识别模块,其对说话对象进行识别;
语义理解与响应模块,其基于两分类的意图分类器判断是否需要对音源作出响应。
8.如权利要求6所述的自然的人机语音交互系统,其特征在于,所述处理装置根据麦克风阵列中不同位置的麦克风采集的声音信号以判断音源的方位,并基于音源的方位控制摄像头转动到相应位置以采集音源所在方位的图像信号。
9.如权利要求6所述的自然的人机语音交互系统,其特征在于,所述麦克风为指向性麦克风。
10.如权利要求6所述的自然的人机语音交互系统,其特征在于,所述摄像头还包括具备深度感应的立体视觉摄像头。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710311400.8A CN107230476A (zh) | 2017-05-05 | 2017-05-05 | 一种自然的人机语音交互方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710311400.8A CN107230476A (zh) | 2017-05-05 | 2017-05-05 | 一种自然的人机语音交互方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107230476A true CN107230476A (zh) | 2017-10-03 |
Family
ID=59934156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710311400.8A Pending CN107230476A (zh) | 2017-05-05 | 2017-05-05 | 一种自然的人机语音交互方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107230476A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154878A (zh) * | 2017-12-12 | 2018-06-12 | 北京小米移动软件有限公司 | 控制监控设备的方法及装置 |
CN108509430A (zh) * | 2018-04-10 | 2018-09-07 | 京东方科技集团股份有限公司 | 智能眼镜及其翻译方法 |
CN108735226A (zh) * | 2018-07-09 | 2018-11-02 | 科沃斯商用机器人有限公司 | 语音采集方法、装置及设备 |
CN109166575A (zh) * | 2018-07-27 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 智能设备的交互方法、装置、智能设备和存储介质 |
CN109410957A (zh) * | 2018-11-30 | 2019-03-01 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
CN109459722A (zh) * | 2018-10-23 | 2019-03-12 | 同济大学 | 基于人脸追踪装置的语音交互方法 |
CN109541957A (zh) * | 2018-12-29 | 2019-03-29 | 青岛小鸟看看科技有限公司 | 智能交互设备 |
CN109726536A (zh) * | 2017-10-31 | 2019-05-07 | 百度(美国)有限责任公司 | 鉴权方法、电子设备和计算机可读程序介质 |
CN109887503A (zh) * | 2019-01-20 | 2019-06-14 | 北京联合大学 | 一种智能服务机器人的人机交互方法 |
CN109961789A (zh) * | 2019-04-30 | 2019-07-02 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN110310642A (zh) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
CN110335600A (zh) * | 2019-07-09 | 2019-10-15 | 四川长虹电器股份有限公司 | 家电设备的多模态交互方法及系统 |
CN110634505A (zh) * | 2018-06-21 | 2019-12-31 | 卡西欧计算机株式会社 | 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人 |
CN110767221A (zh) * | 2018-07-26 | 2020-02-07 | 珠海格力电器股份有限公司 | 家电设备及控制权限的确定方法 |
CN110857067A (zh) * | 2018-08-24 | 2020-03-03 | 上海汽车集团股份有限公司 | 一种人车交互装置和人车交互方法 |
CN111816189A (zh) * | 2020-07-03 | 2020-10-23 | 斑马网络技术有限公司 | 一种车辆用多音区语音交互方法及电子设备 |
CN111933136A (zh) * | 2020-08-18 | 2020-11-13 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN112741557A (zh) * | 2020-12-25 | 2021-05-04 | 北京小狗吸尘器集团股份有限公司 | 一种基于扫地机器人的儿童状态监控方法及装置 |
CN114120984A (zh) * | 2021-12-08 | 2022-03-01 | 思必驰科技股份有限公司 | 语音交互方法、电子设备和存储介质 |
WO2024032159A1 (zh) * | 2022-08-12 | 2024-02-15 | 之江实验室 | 多人机交互场景下的说话对象检测 |
CN118072744A (zh) * | 2024-04-18 | 2024-05-24 | 深圳市万屏时代科技有限公司 | 基于声纹的语言识别方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833476A (zh) * | 2012-08-17 | 2012-12-19 | 歌尔声学股份有限公司 | 终端设备用摄像头和终端设备用摄像头的实现方法 |
CN102831892A (zh) * | 2012-09-07 | 2012-12-19 | 深圳市信利康电子有限公司 | 基于互联网语音交互的玩具控制方法及系统 |
CN103902629A (zh) * | 2012-12-28 | 2014-07-02 | 联想(北京)有限公司 | 利用语音提供操作帮助的电子设备和方法 |
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
CN105471712A (zh) * | 2015-11-25 | 2016-04-06 | 深圳狗尾草智能科技有限公司 | 一种机器人答复系统及其答复方法 |
CN105700363A (zh) * | 2016-01-19 | 2016-06-22 | 深圳创维-Rgb电子有限公司 | 一种智能家居设备语音控制装置的唤醒方法及系统 |
CN105915798A (zh) * | 2016-06-02 | 2016-08-31 | 北京小米移动软件有限公司 | 视频会议中摄像头的控制方法和控制装置 |
CN106023983A (zh) * | 2016-04-27 | 2016-10-12 | 广东欧珀移动通信有限公司 | 基于虚拟现实vr场景的多用户语音交互方法以及装置 |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
-
2017
- 2017-05-05 CN CN201710311400.8A patent/CN107230476A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833476A (zh) * | 2012-08-17 | 2012-12-19 | 歌尔声学股份有限公司 | 终端设备用摄像头和终端设备用摄像头的实现方法 |
CN102831892A (zh) * | 2012-09-07 | 2012-12-19 | 深圳市信利康电子有限公司 | 基于互联网语音交互的玩具控制方法及系统 |
CN103902629A (zh) * | 2012-12-28 | 2014-07-02 | 联想(北京)有限公司 | 利用语音提供操作帮助的电子设备和方法 |
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
CN105471712A (zh) * | 2015-11-25 | 2016-04-06 | 深圳狗尾草智能科技有限公司 | 一种机器人答复系统及其答复方法 |
CN105700363A (zh) * | 2016-01-19 | 2016-06-22 | 深圳创维-Rgb电子有限公司 | 一种智能家居设备语音控制装置的唤醒方法及系统 |
CN106023983A (zh) * | 2016-04-27 | 2016-10-12 | 广东欧珀移动通信有限公司 | 基于虚拟现实vr场景的多用户语音交互方法以及装置 |
CN105915798A (zh) * | 2016-06-02 | 2016-08-31 | 北京小米移动软件有限公司 | 视频会议中摄像头的控制方法和控制装置 |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726536A (zh) * | 2017-10-31 | 2019-05-07 | 百度(美国)有限责任公司 | 鉴权方法、电子设备和计算机可读程序介质 |
CN108154878A (zh) * | 2017-12-12 | 2018-06-12 | 北京小米移动软件有限公司 | 控制监控设备的方法及装置 |
CN110310642B (zh) * | 2018-03-20 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
CN110310642A (zh) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
CN108509430A (zh) * | 2018-04-10 | 2018-09-07 | 京东方科技集团股份有限公司 | 智能眼镜及其翻译方法 |
CN110634505A (zh) * | 2018-06-21 | 2019-12-31 | 卡西欧计算机株式会社 | 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人 |
CN108735226B (zh) * | 2018-07-09 | 2024-04-02 | 科沃斯商用机器人有限公司 | 语音采集方法、装置及设备 |
CN108735226A (zh) * | 2018-07-09 | 2018-11-02 | 科沃斯商用机器人有限公司 | 语音采集方法、装置及设备 |
CN110767221A (zh) * | 2018-07-26 | 2020-02-07 | 珠海格力电器股份有限公司 | 家电设备及控制权限的确定方法 |
CN109166575A (zh) * | 2018-07-27 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 智能设备的交互方法、装置、智能设备和存储介质 |
CN110857067A (zh) * | 2018-08-24 | 2020-03-03 | 上海汽车集团股份有限公司 | 一种人车交互装置和人车交互方法 |
CN109459722A (zh) * | 2018-10-23 | 2019-03-12 | 同济大学 | 基于人脸追踪装置的语音交互方法 |
CN109410957A (zh) * | 2018-11-30 | 2019-03-01 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
CN109541957A (zh) * | 2018-12-29 | 2019-03-29 | 青岛小鸟看看科技有限公司 | 智能交互设备 |
CN109887503A (zh) * | 2019-01-20 | 2019-06-14 | 北京联合大学 | 一种智能服务机器人的人机交互方法 |
CN109961789B (zh) * | 2019-04-30 | 2023-12-01 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN109961789A (zh) * | 2019-04-30 | 2019-07-02 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN110335600A (zh) * | 2019-07-09 | 2019-10-15 | 四川长虹电器股份有限公司 | 家电设备的多模态交互方法及系统 |
CN111816189B (zh) * | 2020-07-03 | 2023-12-26 | 斑马网络技术有限公司 | 一种车辆用多音区语音交互方法及电子设备 |
CN111816189A (zh) * | 2020-07-03 | 2020-10-23 | 斑马网络技术有限公司 | 一种车辆用多音区语音交互方法及电子设备 |
CN111933136A (zh) * | 2020-08-18 | 2020-11-13 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN111933136B (zh) * | 2020-08-18 | 2024-05-10 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN112741557B (zh) * | 2020-12-25 | 2022-03-22 | 北京小狗吸尘器集团股份有限公司 | 一种基于扫地机器人的儿童状态监控方法及装置 |
CN112741557A (zh) * | 2020-12-25 | 2021-05-04 | 北京小狗吸尘器集团股份有限公司 | 一种基于扫地机器人的儿童状态监控方法及装置 |
CN114120984A (zh) * | 2021-12-08 | 2022-03-01 | 思必驰科技股份有限公司 | 语音交互方法、电子设备和存储介质 |
WO2024032159A1 (zh) * | 2022-08-12 | 2024-02-15 | 之江实验室 | 多人机交互场景下的说话对象检测 |
CN118072744B (zh) * | 2024-04-18 | 2024-07-23 | 深圳市万屏时代科技有限公司 | 基于声纹的语言识别方法及装置 |
CN118072744A (zh) * | 2024-04-18 | 2024-05-24 | 深圳市万屏时代科技有限公司 | 基于声纹的语言识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107230476A (zh) | 一种自然的人机语音交互方法和系统 | |
US7725547B2 (en) | Informing a user of gestures made by others out of the user's line of sight | |
Donley et al. | Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments | |
CN104410883B (zh) | 一种移动可穿戴非接触式交互系统与方法 | |
EP2509070B1 (en) | Apparatus and method for determining relevance of input speech | |
CN112075075A (zh) | 用于会议的计算机化智能助理 | |
US12051441B2 (en) | Multi-register-based speech detection method and related apparatus, and storage medium | |
Okuno et al. | Social interaction of humanoid robot based on audio-visual tracking | |
CN108363706A (zh) | 人机对话交互的方法和装置、用于人机对话交互的装置 | |
CN106157956A (zh) | 语音识别的方法及装置 | |
CN107223277A (zh) | 一种聋哑人辅助方法、装置以及电子设备 | |
CN109120790A (zh) | 通话控制方法、装置、存储介质及穿戴式设备 | |
CN109743504A (zh) | 一种辅助拍照方法、移动终端和存储介质 | |
CN105843395A (zh) | 一种实现与电子设备交互的眼镜及交互方法 | |
US20210368279A1 (en) | Smart hearing assistance in monitored property | |
CN115187824A (zh) | 一种模型训练方法、场景识别方法及相关设备 | |
CN104754112A (zh) | 用户信息获取方法及移动终端 | |
JP2019086858A (ja) | 顧客応対システム及び顧客応対方法 | |
CN110491384B (zh) | 一种语音数据处理方法及装置 | |
CN109660891A (zh) | 一种可穿戴式多麦克风装置 | |
WO2023081605A1 (en) | Context-aided identification | |
Birmingham et al. | Group-level focus of visual attention for improved next speaker prediction | |
US11996114B2 (en) | End-to-end time-domain multitask learning for ML-based speech enhancement | |
Mielke et al. | An assistive technology for hearing-impaired persons: Analysis, requirements and architecture | |
El-Gayyar et al. | Social network framework for deaf and blind people based on cloud computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171003 |
|
WD01 | Invention patent application deemed withdrawn after publication |