CN109410957B - 基于计算机视觉辅助的正面人机交互语音识别方法及系统 - Google Patents

基于计算机视觉辅助的正面人机交互语音识别方法及系统 Download PDF

Info

Publication number
CN109410957B
CN109410957B CN201811448360.2A CN201811448360A CN109410957B CN 109410957 B CN109410957 B CN 109410957B CN 201811448360 A CN201811448360 A CN 201811448360A CN 109410957 B CN109410957 B CN 109410957B
Authority
CN
China
Prior art keywords
audio
recognition
voice recognition
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811448360.2A
Other languages
English (en)
Other versions
CN109410957A (zh
Inventor
邱霖恺
刘维
王贤俊
高刚强
郑文侃
宋煌钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Start Computer Equipment Co ltd
Original Assignee
Fujian Start Computer Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Start Computer Equipment Co ltd filed Critical Fujian Start Computer Equipment Co ltd
Priority to CN201811448360.2A priority Critical patent/CN109410957B/zh
Publication of CN109410957A publication Critical patent/CN109410957A/zh
Application granted granted Critical
Publication of CN109410957B publication Critical patent/CN109410957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

本发明涉及基于计算机视觉辅助的正面人机交互语音识别方法及系统,通过在传统语音识别流程中加入视频信号输入,与语音信号一同识别;在人脸识别和人脸唇部运动识别中进行语音辅助,判断是否所要识别的目标正在说话;同时,通过人脸识别和辅助定位,判断说话人方位,并利用相应方位,对指定方向声源信号进行增强处理。本发明可以有效增强在特定环境下,例如自助零售终端、银行自助终端、保险自助终端等需要客户正面面对设备的人机交互使用场景,对客户语音命令和语音输入信息识别的准确率。

Description

基于计算机视觉辅助的正面人机交互语音识别方法及系统
技术领域
本发明涉及语音识别领域,特别是一种基于计算机视觉辅助的正面人机交互语音识别方法及系统。
背景技术
目前的语音识别技术,都是完全基于输入音频进行直接识别,在整个音频识别过程中采用的主要方法,是通过对输入音频进行分析,得出音频中的语音文本内容。
因此传统语音识别技术在说话人处于一些正面人机交互的嘈杂环境下,同一声源位置不同人交替说话或附近有其他人在交谈的情况下,无法有效识别目标语音指令发起人所说的语音命令。同时,由于之前的语音识别算法对语音断句不准确,有可能出现话还没说完就识别了前半句话导致执行了错误命令的情况。
发明内容
有鉴于此,本发明的目的是提出基于计算机视觉辅助的正面人机交互语音识别方法及系统。
本发明采用以下方案实现:一种基于计算机视觉辅助的正面人机交互语音识别方法,采用视频信号与语音信号一同进行语音识别;采用人脸识别与人脸唇部运动识别进行语音辅助识别,判断所要识别的目标是否正在说话或已经终止说话。
进一步地,还包括通过人脸识别进行辅助定位,判断说话人的方位,并根据相应方位,对指定方向声源信号进行增强处理。
较佳的,本发明具体包括以下步骤:
步骤S1:同时获取同一时间录制的视频片段和音频片段;
步骤S2:对视频片段进行人脸识别,得到当前画面中说话人的状态、说话人的身份、说话人的位置、以及当前说话人嘴唇在画面中的位置;并对当前说者的嘴唇状态进行判断;
步骤S3:根据说话人的位置进行音频的方位判断;
步骤S4:对步骤S1中的音频片段和步骤S3得到的说话人的音频方位进行音频的预处理;
步骤S5:结合步骤S4中预处理后的音频和步骤S2中嘴唇状态判断视频区域内是否有人在说话;若有人在说话,则进入步骤S6,否则进行步骤S12;
步骤S6:识别当前说话人;
步骤S7:结合步骤S4预处理后的音频以及步骤S2的嘴唇状态判断当前说话人是否已经终止说话;若还没有终止说话,则进入步骤S8,若已经终止说话,则进入步骤S9;
步骤S8:累加当前对应说话人的视频和音频片段,并返回步骤S1获取新的数据;
步骤S9:对对应的已经终止说话的说话人之前累加的视频片段和音频片段进行语音识别,并进入步骤S10;
步骤S10:输出语音识别的结果;
步骤S11:重置刚才识别过的音频片段与视频片段,即清空缓存数据;如果需要继续识别语音,则返回步骤S1;
步骤S12:判断是否上一时刻的对应说话人有累加的音频片段和视频片段,若有,则执行步骤S9,否则返回步骤S11。
进一步地,步骤S9具体包括以下步骤:
步骤S91:获取输入的音频片段,进入步骤S92;获取输入的当前视频片段,进入步骤S93;
步骤S92:采用语音识别算法对输入的音频片段进行语音识别,得到初步语音识别结果,并进入步骤S95;
步骤S93:依次进行人脸识别和嘴唇状态识别,从视频片段中获取一段连续的嘴唇状态,并进入步骤S94;
步骤S94:利用得到的一段连续的嘴唇状态,进行唇语识别,得到唇语识别结果,并进入步骤S95;
步骤S95:采用唇语识别结果纠正初步语音识别结果,得到最终的语音识别结果;
步骤S96:输出最终的语音识别结果。
进一步地,步骤S95中进一步为:采用深度学习模型对初步语音识别结果与唇语识别结果进行自动校正。
进一步地,步骤S4中的预处理包括:根据说话人的音频方位,对指定方向声源信号进行增强处理。
本发明还提供了一种基于上文所述的基于计算机视觉辅助的正面人机交互语音识别方法的系统,包括视频采集单元、音频采集单元、存储器、以及处理器;所述视频采集单元用以采集视频信号,所述音频采集单元用以采集音频信号,所述存储器用以存储所述视频采集单元、音频采集单元采集的数据,同时存储有上文任一项所述的方法指令,所述处理器在运行时执行存储器中存储的方法指令。
本发明通过在传统语音识别流程中加入视频信号输入,与语音信号一同识别;在人脸识别和人脸唇部运动识别中进行语音辅助,判断所要识别的目标是否正在说话;同时,通过人脸识别和辅助定位,判断说话人方位,并根据相应方位,对指定方向声源信号进行增强处理。通过这个技术,可以有效增强在特定环境下,例如自助零售终端、银行自助终端、保险自助终端等需要用户正面面对设备的人机交互使用场景,对客户语音命令和语音输入信息识别的准确率。
与现有技术相比,本发明有以下有益效果:采用本发明的方法与系统能够有效提高客户正对自助设备等正面人机交互场景下语音识别的准确率,判断说话完毕的准确率,同时利用唇语识别纠正语音识别的结果,提高语音识别的准确率。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的步骤S9流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供了一种基于计算机视觉辅助的正面人机交互语音识别方法,采用视频信号与语音信号一同进行语音识别;采用人脸识别与人脸唇部运动识别进行语音辅助识别,判断所要识别的目标是否正在说话或已经终止说话。
在本实施例中,还包括通过人脸识别进行辅助定位,判断说话人的方位,并根据相应方位,对指定方向声源信号进行增强处理。
较佳的,如图1所示,本实施例具体包括以下步骤:
步骤S1:同时获取同一时间录制的视频片段和音频片段;
步骤S2:对视频片段进行人脸识别,得到当前画面中说话人的状态、说话人的身份、说话人的位置、以及当前说话人嘴唇在画面中的位置;并对当前说者的嘴唇状态进行判断;其中,说话人的身份可以通过视频片段的人脸识别与连接授权的身份信息库进行比对来得到。
步骤S3:根据说话人的位置进行音频的方位判断;
步骤S4:对步骤S1中的音频片段和步骤S3得到的说话人的音频方位进行音频的预处理;
步骤S5:结合步骤S4中预处理后的音频和步骤S2中嘴唇状态判断视频区域内是否有人在说话;若有人在说话,则进入步骤S6,否则进行步骤S12;
步骤S6:识别当前说话人;
步骤S7:结合步骤S4预处理后的音频以及步骤S2的嘴唇状态判断当前说话人是否已经终止说话;若还没有终止说话,则进入步骤S8,若已经终止说话,则进入步骤S9;
步骤S8:累加当前对应说话人的视频和音频片段,并返回步骤S1获取新的数据;
步骤S9:对对应的已经终止说话的说话人之前累加的视频片段和音频片段进行语音识别,并进入步骤S10;
步骤S10:输出语音识别的结果;
步骤S11:重置刚才识别过的音频片段与视频片段,即清空缓存数据;如果需要继续识别语音,则返回步骤S1;
步骤S12:判断是否上一时刻的对应说话人有累加的音频片段和视频片段,若有,则执行步骤S9,否则返回步骤S11。
如图2所示,在本实施例中,步骤S9具体包括以下步骤:
步骤S91:获取输入的音频片段,进入步骤S92;获取输入的当前视频片段,进入步骤S93;
步骤S92:采用语音识别算法对输入的音频片段进行语音识别,得到初步语音识别结果,并进入步骤S95;
步骤S93:依次进行人脸识别和嘴唇状态识别,从视频片段中获取一段连续的嘴唇状态,并进入步骤S94;
步骤S94:利用得到的一段连续的嘴唇状态,进行唇语识别,得到唇语识别结果,并进入步骤S95;
步骤S95:采用唇语识别结果纠正初步语音识别结果,得到最终的语音识别结果;
步骤S96:输出最终的语音识别结果。
在本实施例中,步骤S95中进一步为:采用深度学习模型对初步语音识别结果与唇语识别结果进行自动校正。
在本实施例中,步骤S4中的预处理包括:根据说话人的音频方位,对指定方向声源信号进行增强处理。
本实施例还提供了一种基于上文所述的基于计算机视觉辅助的正面人机交互语音识别方法的系统,包括视频采集单元、音频采集单元、存储器、以及处理器;所述视频采集单元用以采集视频信号,所述音频采集单元用以采集音频信号,所述存储器用以存储所述视频采集单元、音频采集单元采集的数据,同时存储有以上实施例中任一项所述的方法指令,所述处理器在运行时执行存储器中存储的方法指令。
特别的,所述音频采集单元所采用的音频输入设备包括但不仅限于麦克风、麦克风阵列、话筒、远程音频输入接口等;所述视频采集单元所采用的视频输入设备包括但不仅限于有线/无线的摄像头、热感摄像头、红外摄像头以及结构光摄像头等。
特别的,本实施例还提供以下功能模块。
一、音频处理模块;音频处理模块包括语音预处理模块和语音识别模块。
1、语音预处理模块根据音频输入设备的差异包括但不仅限于声源定位、声源增强、回声消除、噪音抑制等,能提高辨别环境声音和语音声音的准确率。
2、语音识别模块根据具体的产品方案部署情况,包括但不仅限于云端语音识别系统、端侧语音识别设备或者语音识别算法等。
二、图像处理模块;图像处理模块包括人脸识别模块、嘴唇状态识别模块以及唇语识别模块。
1、人脸识别模块包括但不仅限于云端人脸识别系统、端侧人脸识别模块和人脸识别算法。主要实现了人脸定位,人脸特征提取和比对以及人脸特征点和眼睛、鼻子、嘴巴的位置和轮廓标定。
2、嘴唇状态识别模块包括但不仅限于云端嘴唇状态识别系统、端侧嘴唇状态识别模块和嘴唇状态识别算法,其中算法可以采用常见的HAAR+Cascade、HOG+SVM 或者VGG、AlexNet、Inception、ResNet等分类器模型实现的状态识别算法。主要实现了依赖人脸识别模块给出的信息,判断指定当前人脸的嘴唇状态的功能。
3、唇语识别模块包括但不仅限于唇语识别系统、唇语识别模块和唇语识别算法,其中基于唇语识别的算法,主要采用了RNN+LSTM等基于时间序列识别的深度学习模型算法。实现了根据输入的连续视频中嘴唇状态,给出对应的唇语和说话人所要说的语言内容文本的功能。
三、语音合成模块;语音合成模块主要包括说话终止判断模块和语音识别纠正模块。
1、说话终止判断模块包括但不仅限于说话终止判断系统、说话终止判断模块和说话终止判断算法,其算法采用VGG、AlexNet、Inception、ResNet等常见的基于深度学习的模型的分类识别算法,在传统输入层图像的基础上增加音频片段序列的输入。通过当前视频识别唇语状态结果和音频最新的一段片段进行判断。
2、语音识别纠正模块包括但不仅限于语音识别纠正系统、语音识别纠正模块和语音识别纠正算法,其算法采用RNN+LSTM等基于时间序列识别的深度学习模型算法,模型输入特征为语音识别结果的文本序列和对应的唇语识别序列以及唇语状态,输出端为纠正后的语音文本。通过输入的唇语识别结果和语音识别结果进行比对,进行对应的语音识别纠正,其中主要采用深度学习的方法实现。
本实施例通过在传统语音识别流程中加入视频信号输入,与语音信号一同识别;在人脸识别和人脸唇部运动识别中进行语音辅助,判断是否所要识别的目标正在说话;同时,通过人脸识别和辅助定位,判断说话人方位,并利用相应方位,对指定方向声源信号进行增强处理。通过这个技术,可以有效增强在特殊环境下,例如自助零售终端、银行自助终端、保险自助终端等需要用户正面面对设备的人机交互使用场景,对客户语音命令和语音输入信息识别的准确率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于计算机视觉辅助的正面人机交互语音识别方法,其特征在于:采用视频信号与语音信号一同进行语音识别;采用人脸识别与人脸唇部运动识别进行语音辅助识别,判断所要识别的目标是否正在说话或已经终止说话;
还包括通过人脸识别进行辅助定位,判断说话人的方位,并根据相应方位,对指定方向声源信号进行增强处理;
具体包括以下步骤:
步骤S1:同时获取同一时间录制的视频片段和音频片段;
步骤S2:对视频片段进行人脸识别,得到当前画面中说话人的状态、说话人的身份、说话人的位置、以及当前说话人嘴唇在画面中的位置;并对当前说者的嘴唇状态进行判断;
步骤S3:根据说话人的位置进行音频的方位判断;
步骤S4:对步骤S1中的音频片段和步骤S3得到的说话人的音频方位进行音频的预处理;
步骤S5:结合步骤S4中预处理后的音频和步骤S2中嘴唇状态判断视频区域内是否有人在说话;若有人在说话,则进入步骤S6,否则进行步骤S12;
步骤S6:识别当前说话人;
步骤S7:结合步骤S4预处理后的音频以及步骤S2的嘴唇状态判断当前说话人是否已经终止说话;若还没有终止说话,则进入步骤S8,若已经终止说话,则进入步骤S9;
步骤S8:累加当前对应说话人的视频和音频片段,并返回步骤S1获取新的数据;
步骤S9:对对应的已经终止说话的说话人之前累加的视频片段和音频片段进行语音识别,并进入步骤S10;
步骤S10:输出语音识别的结果;
步骤S11:重置刚才识别过的音频片段与视频片段,即清空缓存数据;如果需要继续识别语音,则返回步骤S1;
步骤S12:判断是否上一时刻的对应说话人有累加的音频片段和视频片段,若有,则执行步骤S9,否则返回步骤S11;
步骤S9具体包括以下步骤:
步骤S91:获取输入的音频片段,进入步骤S92;获取输入的当前视频片段,进入步骤S93;
步骤S92:采用语音识别算法对输入的音频片段进行语音识别,得到初步语音识别结果,并进入步骤S95;
步骤S93:依次进行人脸识别和嘴唇状态识别,从视频片段中获取一段连续的嘴唇状态,并进入步骤S94;
步骤S94:利用得到的一段连续的嘴唇状态,进行唇语识别,得到唇语识别结果,并进入步骤S95;
步骤S95:采用唇语识别结果纠正初步语音识别结果,得到最终的语音识别结果;
步骤S96:输出最终的语音识别结果;
所述步骤95具体为:语音识别纠正模块包括但不仅限于语音识别纠正系统、语音识别纠正组件和语音识别纠正算法,其算法采用基于时间序列识别的深度学习模型算法,模型输入特征为语音识别结果的文本序列和对应的唇语识别序列以及唇语状态,输出端为纠正后的语音文本。
2.根据权利要求1所述的基于计算机视觉辅助的正面人机交互语音识别方法,其特征在于:步骤S4中的预处理包括:根据说话人的音频方位,对指定方向声源信号进行增强处理。
3.一种基于权利要求1-2任一项所述的基于计算机视觉辅助的正面人机交互语音识别方法的系统,其特征在于:包括视频采集单元、音频采集单元、存储器、以及处理器;所述视频采集单元用以采集视频信号,所述音频采集单元用以采集音频信号,所述存储器用以存储所述视频采集单元、音频采集单元采集的数据,同时存储有权利要求1-2任一项所述的方法,所述处理器在运行时执行存储器中存储的方法指令。
CN201811448360.2A 2018-11-30 2018-11-30 基于计算机视觉辅助的正面人机交互语音识别方法及系统 Active CN109410957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811448360.2A CN109410957B (zh) 2018-11-30 2018-11-30 基于计算机视觉辅助的正面人机交互语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811448360.2A CN109410957B (zh) 2018-11-30 2018-11-30 基于计算机视觉辅助的正面人机交互语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN109410957A CN109410957A (zh) 2019-03-01
CN109410957B true CN109410957B (zh) 2023-05-23

Family

ID=65456455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811448360.2A Active CN109410957B (zh) 2018-11-30 2018-11-30 基于计算机视觉辅助的正面人机交互语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN109410957B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
CN110503957A (zh) * 2019-08-30 2019-11-26 上海依图信息技术有限公司 一种基于图像去噪的语音识别方法及装置
CN110534109B (zh) * 2019-09-25 2021-12-14 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质
CN112653902B (zh) * 2019-10-10 2023-04-11 阿里巴巴集团控股有限公司 说话人识别方法、装置及电子设备
CN110691196A (zh) * 2019-10-30 2020-01-14 歌尔股份有限公司 一种音频设备的声源定位的方法及音频设备
CN113362849A (zh) * 2020-03-02 2021-09-07 阿里巴巴集团控股有限公司 一种语音数据处理方法以及装置
CN111767785A (zh) * 2020-05-11 2020-10-13 南京奥拓电子科技有限公司 人机交互控制方法及装置、智能机器人及存储介质
CN111816182A (zh) * 2020-07-27 2020-10-23 上海又为智能科技有限公司 助听语音识别方法、装置及助听设备
CN111883130A (zh) * 2020-08-03 2020-11-03 上海茂声智能科技有限公司 一种融合式语音识别方法、装置、系统、设备和存储介质
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN112820274B (zh) * 2021-01-08 2021-09-28 上海仙剑文化传媒股份有限公司 一种语音信息识别校正方法和系统
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US20140379351A1 (en) * 2013-06-24 2014-12-25 Sundeep Raniwala Speech detection based upon facial movements
US20170287472A1 (en) * 2014-12-18 2017-10-05 Mitsubishi Electric Corporation Speech recognition apparatus and speech recognition method
CN106157957A (zh) * 2015-04-28 2016-11-23 中兴通讯股份有限公司 语音识别方法、装置及用户设备
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN107239139B (zh) * 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与系统
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107679506A (zh) * 2017-10-12 2018-02-09 Tcl通力电子(惠州)有限公司 智能产品的唤醒方法、智能产品及计算机可读存储介质

Also Published As

Publication number Publication date
CN109410957A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109410957B (zh) 基于计算机视觉辅助的正面人机交互语音识别方法及系统
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
CN112088402A (zh) 用于说话者识别的联合神经网络
US20200335128A1 (en) Identifying input for speech recognition engine
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
CN102023703B (zh) 组合唇读与语音识别的多模式界面系统
US11854550B2 (en) Determining input for speech processing engine
CN112088315A (zh) 多模式语音定位
US20240087587A1 (en) Wearable system speech processing
JP7233035B2 (ja) 収音装置、収音方法、及びプログラム
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
WO2019080639A1 (zh) 一种对象识别方法、计算机设备及计算机可读存储介质
EP3002753A1 (en) Speech enhancement method and apparatus for same
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
JP7370014B2 (ja) 収音装置、収音方法、及びプログラム
WO2007138503A1 (en) Method of driving a speech recognition system
JP5797009B2 (ja) 音声認識装置、ロボット、及び音声認識方法
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
WO2020125038A1 (zh) 语音控制方法及装置
CN111767785A (zh) 人机交互控制方法及装置、智能机器人及存储介质
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
CN111179927A (zh) 一种金融设备语音交互方法以及系统
US11842745B2 (en) Method, system, and computer-readable medium for purifying voice using depth information
CN112639964A (zh) 利用深度信息识别语音的方法、系统及计算机可读介质
CN113593572A (zh) 在空间区域内进行音区定位方法和装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant