CN111048066A - 一种儿童机器人上利用图像辅助的语音端点检测系统 - Google Patents

一种儿童机器人上利用图像辅助的语音端点检测系统 Download PDF

Info

Publication number
CN111048066A
CN111048066A CN201911130093.9A CN201911130093A CN111048066A CN 111048066 A CN111048066 A CN 111048066A CN 201911130093 A CN201911130093 A CN 201911130093A CN 111048066 A CN111048066 A CN 111048066A
Authority
CN
China
Prior art keywords
pickup
user
module
dynamic
detection module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911130093.9A
Other languages
English (en)
Inventor
郑艳霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911130093.9A priority Critical patent/CN111048066A/zh
Publication of CN111048066A publication Critical patent/CN111048066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Manipulator (AREA)

Abstract

本发明提出了一种儿童机器人上利用图像辅助的语音端点检测系统,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。

Description

一种儿童机器人上利用图像辅助的语音端点检测系统
技术领域
本发明涉及语音检测技术领域,特别涉及一种儿童机器人上利用图像辅助的语音端点检测系统。
背景技术
随着科技的不断发展,智能机器人越来越多的被应用在各个工程技术领域中,当前,智能机器人也越来越多的应用到家庭生活中,现在的儿童鞥机器人通过语言交互,语音互动来与儿童或其他家庭成员实现语音智能沟通,但是,传统的语音智能机器人只采用vad语音活动边界检测技术,只依靠vad语音活动边界检测技术进行语音端点检测,这种检测方式导致机器人在混响环境、环境嘈杂下,容易出现用户说话说了一半就结束拾音的情况、或是用户已经结束说话,但拾音一直不结束的情况、或是识别了一堆无用的语音,增加语音识别、语义理解的困难;最终导致用户体验不佳。
发明内容
本发明提供了一种儿童机器人上利用图像辅助的语音端点检测系统,用以解决传统语音端点检测系统只依靠声音信号的语音边界检测技术,使机器人在嘈杂环境中存在拾音困难,拾音错误的问题:
本发明提出的一种儿童机器人上利用图像辅助的语音端点检测系统,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,
所述机器人唤醒模块,用于启动机器人准备进入拾音状态;
所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;
所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;
所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
进一步地,所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块;其中,
所述拾音识别启动模块,用于启动机器人进入拾音识别状态;
所述面部动态识别检测模块一,用于识别拾音进程中用户的面部动态情况;
所述用户语言交互判断模块,用于判断用户的语言表达进程阶段。
进一步地,所述面部动态识别检测模块一包括:注视方向检测模块和嘴部动态检测模块一;其中,
所述注视方向检测模块,用于检测用户的眼睛是否注释机器人屏幕;
所述嘴部动态检测模块一,用于检测在拾音进程中,用户的嘴部是否有持续的动作。
进一步地,所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块;其中,
所述拾音与识别维持运行模块,用于用户语言交互判断模块确定用户进行语言表达时,即使vad后端点检测语音结束,依然控制机器人继续维持拾音进程和用户面部动态的持续识别;
所述拾音与识别关闭模块,用于用户语言交互判断模块确定用户结束语言表达时,即使vad后端点检测语音未结束,依然关闭拾音和识别功能;
所述交互反馈模块,用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。
进一步地,所述拾音进程中动态检测模块还包括拾音进程中用户检测模块,用于在机器人进行多轮语音交互后,检测用户是否离开摄像头拍摄场景。
进一步地,所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块;其中,
所述面部动态识别检测模块二,用于在拾音开启前检测用户面部动态情况;
所述语音拾音识别启动模块,用于所述面部动态识别检测模块二检测到用户面部动态后,启动机器人进行语音拾音。
进一步地,所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块;其中,
所述嘴部动态检测模块二,用于在拾音开启前,检测用户嘴部的动态情况;
所述用户头像检测模块,用于在拾音开启前,检测机器人周围是否有用户头像。
进一步地,所述语音端点检测系统还包括
本发明有益效果:
本发明提出的一种儿童机器人上利用图像辅助的语音端点检测系统,在传统的vad语音活动边界检测方法之上设置了图像检测识别功能,该系统通过摄像头拍摄用户头像场景,并通过对用户嘴巴动态信息的采集和检测以及用户眼睛注视方向的检测,同时结合vad语音活动边界检测方法提高儿童智能机器人上在和用户语音交互过程中的语音交互的开始结束边界检测的准确率,进而提高用户体验。
附图说明
图1为本发明所述语音端点检测系统的结构框图;
图2为本发明所述拾音进程中动态检测模块的结构框图;
图3为本发明所述拾音开启前动态检测模块的结构框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种儿童机器人上利用图像辅助的语音端点检测系统,旨在解决传统语音端点检测系统只依靠声音信号的语音边界检测技术,在混响环境、环境嘈杂下,容易出现用户说话说了一半就结束拾音的情况、或是用户已经结束说话,但拾音一直不结束的情况、或是识别了一堆无用的语音,增加语音识别、语义理解的困难,最终导致用户体验不佳的问题。
本实施例中提供了一种儿童机器人上利用图像辅助的语音端点检测系统,如图1所示,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的面部动态情况。
上述方案的工作原理为:机器人唤醒模块将机器人唤醒之后,机器人存在两种运行状态,一种是机器人处于拾音状态中,即拾音进程中,另一种是机器人处于拾音未开启状态,即拾音开启前;针对这两种工作状态,机器人在开启拾音进行语音识别时(即拾音进程中)和拾音开启前,所述语音端点检测系统利用摄像头取景启动模块启动摄像头进行用户头像实时采集,同时,通过拾音进程中动态检测模块和拾音开启前动态检测模块检测用户的头像的重点部位(如嘴巴和眼睛)是否有动态特性存在,然后拾音进程中动态检测模块和拾音开启前动态检测模块根据检测到的动态情况,确定是否要继续运行或开启拾音识别功能。
上述方案的有益效果为:本实施例提出的一种儿童机器人上利用图像辅助的语音端点检测系统,在传统的vad语音活动边界检测方法之上配合了图像检测识别功能,在vad语音活动边界检测进行的同时配合图像检测的辅助,通过摄像头拍摄用户头像场景,并利用对用户嘴巴动态信息的采集和检测以及用户眼睛注视方向的检测,对机器人语音识别的场景中的用户做进一步的识别确认,vad语音活动边界检测和图像检测的双重检测方式有效的提高了儿童智能机器人上在和用户语音交互过程中的语音交互的开始结束边界检测的准确率,进而提高用户体验。
在一个实施例中,如图2所示,所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块;其中,所述拾音识别启动模块,用于启动机器人进入拾音识别状态;所述面部动态识别检测模块一,用于识别拾音进程中用户的面部动态情况;所述用户语言交互判断模块,用于判断用户的语言表达进程阶段。
上述技术方案的原理为:在拾音识别启动模块启动拾音识别功能后,即机器人处于拾音进程中时,通过面部动态识别检测模块一检测拾音进程中用户的面部动态情况,然后利用用户语言交互判断模块确定用户是否在拾音进程当下具有语音交互的相关面部动作,进而确定用户是在进行语音交互进程当中,还是已经完成语言表达,即表达结束。
上述技术方案的有益效果为:通过用户的面部动态信息的检测和识别,能够有效提高语音交互检测的准确率。
在一个实施例中,如图2所示,所述面部动态识别检测模块一包括:注视方向检测模块和嘴部动态检测模块一;其中,所述注视方向检测模块,用于检测用户的眼睛是否注释机器人屏幕;所述嘴部动态检测模块一,用于检测在拾音进程中,用户的嘴部是否有持续的动作。
上述技术方案的原理为:面部动态识别检测模块一通过注视方向检测模块检测用户的眼睛是否注视机器人屏幕,同时,利用嘴部动态检测模块一检测用户的嘴巴是否持续在动,如果用户的眼睛注视屏幕和/或用户的嘴巴在持续的动,则用户语言交互判断模块判断用户在正在进行语音互动中,此时,及时即使vad后端点检测语音结束,所述语音端点检测系统依然控制机器人持续进行拾音和识别;如果注视方向检测模块和嘴部动态检测模块检测到用户的眼睛已经不再注视机器人屏幕并且用户嘴巴超过1秒钟不动,则用户语言交互判断模块判断用户已经结束语音互动,此时,即使vad后端点检测语音未结束,也立即判断为用户本次语音表达结束,机器人立即进行交互的反馈。
上述技术方案的有益效果为:眼睛和嘴巴是用户进行语音交互过程中最具特点的两个部位,通过对嘴巴和眼睛的检测识别,能够准确的检测用户的面部动态特征,有效提高了用户面部检测的准确性。同时结合用户语言交互判断模块的判断模式,能够进一步准确的检测用户是否在进行语音交互,提高用于语言交互进程阶段检测的准确性,进而提高语音交互的开始结束边界检测的准确率。
在一个实施例中,如图2所示,所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块;其中,所述拾音与识别维持运行模块,用于用户语言交互判断模块确定用户进行语言表达时,即使vad后端点检测语音结束,依然控制机器人继续维持拾音进程和用户面部动态的持续识别;所述拾音与识别关闭模块,用于用户语言交互判断模块确定用户结束语言表达时,即使vad后端点检测语音未结束,依然关闭拾音和识别功能;所述交互反馈模块,用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。
上述技术方案的原理为:通过拾音与识别维持模块和拾音与识别关闭模块控制拾音与语音识别的运行状态,即维持拾音和语音识别的运行和关闭拾音与语音识别。然后通过交互反馈模块在确定用户结束语言表达后控制机器人进行语音交互反馈。
上述技术方案的有益效果为:结合用户语言交互判断模块的判断模式,能够进一步准确的检测用户是否在进行语音交互,提高用于语言交互进程阶段检测的准确性,进而提高语音交互的开始结束边界检测的准确率。
在一个实施例中,如图2所示,所述拾音进程中动态检测模块还包括拾音进程中用户检测模块,用于在机器人进行多轮语音交互后,检测用户是否离开摄像头拍摄场景。
上述技术方案的原理为:在机器人与用户进行多轮交互后,当用户不想聊了,离开了的场景,通过拾音进程中用户检测模块检测到没有用户在摄像机采集的场景范围内,且再无语音出现,即用户已经离开,则用户语言交互判断模块判断用户的语音表达结束,然后通过拾音与识别关闭模块快速结束语音交互流程。
上述技术方案的有益效果为:通过对摄像头采集的场景中用户人像的检测,能够及时准确的检测出用户离开的情况,进而快速结束拾音和语音交互识别,通过这种方式不仅使本发明所述的语音端点检测系统适应多种用户使用情形的检测,提高检测系统的检测准确性,更能够及时有效的对机器人的拾音、语音交互运行进程进行控制,对于不需要语音交互,即语音交互结束时,及时关闭拾音和语音交互识别的功能,能够有效减少机器人能量的损耗,提高机器人的使用时长,节约能源。
在一个实施例中,如图3所示,所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块;其中,所述面部动态识别检测模块二,用于在拾音开启前检测用户面部动态情况;所述语音拾音识别启动模块,用于所述面部动态识别检测模块二检测到用户面部动态后,启动机器人进行语音拾音。
上述技术方案的原理为:在机器人被唤醒后,未启动拾音功能之前,所述语音端点检测系统通过面部动态识别检测模块二检测用户的面部动态特征,如果面部动态识别检测模块二检测到用户面部存在动态特征(如嘴巴在动),则通过语音拾音识别启动模块开启拾音和识别功能,如果面部动态识别检测模块二检测到用户面部没有动态存在(如嘴巴没有动),则确定机器人被误唤醒,则保持拾音识别功能不开启。
上述技术方案的有益效果为:提高所述语音端点检测系统用户使用情形检测的多样性,降低因误唤醒造成的拾音开启次数,能够有效减少机器人声音识别错误操作的情况,即减少拾音识别的错误率,进而有效降低语音端点检测的错误率。
在一个实施例中,如图3所示,所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块;其中,所述嘴部动态检测模块二,用于在拾音开启前,检测用户嘴部的动态情况;所述用户头像检测模块,用于在拾音开启前,检测机器人周围是否有用户头像。
上述技术方案的原理为:所述面部动态识别检测模块二通过嘴部动态检测模块二在人唤醒后,拾音识别开启前检测用户的嘴是否存在动态情况,如果检测到用户嘴部存在动态动作,则确定用户需要进行语音交互,则开启拾音和识别功能;如果检测到用户的嘴巴不存在动态动作,则确定为误唤醒,保持拾音和识别功能不启动;另一方面,面部动态识别检测模块二还可以通过用户头像检测模块检测摄像机摄取的场景内是否有用户,如果有则则开启拾音和识别功能,如果没有,则保持拾音和识别功能不启动。
上述技术方案的有益效果为:提高所述语音端点检测系统用户使用情形检测的多样性,降低因误唤醒造成的拾音开启次数,能够有效减少机器人声音识别错误操作的情况,即减少拾音识别的错误率,进而有效降低语音端点检测的错误率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种儿童机器人上利用图像辅助的语音端点检测系统,其特征在于,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,
所述机器人唤醒模块,用于启动机器人准备进入拾音状态;
所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;
所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;
所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
2.根据权利要求1所述语音端点检测系统,其特征在于,所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块;其中,
所述拾音识别启动模块,用于启动机器人进入拾音识别状态;
所述面部动态识别检测模块一,用于识别拾音进程中用户的面部动态情况;
所述用户语言交互判断模块,用于判断用户的语言表达进程阶段。
3.根据权利要求2所述语音端点检测系统,其特征在于,所述面部动态识别检测模块一包括:注视方向检测模块和嘴部动态检测模块一;其中,
所述注视方向检测模块,用于检测用户的眼睛是否注释机器人屏幕;
所述嘴部动态检测模块一,用于检测在拾音进程中,用户的嘴部是否有持续的动作。
4.根据权利要求2所述语音端点检测系统,其特征在于,所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块;其中,
所述拾音与识别维持运行模块,用于用户语言交互判断模块确定用户进行语言表达时,即使vad后端点检测语音结束,依然控制机器人继续维持拾音进程和用户面部动态的持续识别;
所述拾音与识别关闭模块,用于用户语言交互判断模块确定用户结束语言表达时,即使vad后端点检测语音未结束,依然关闭拾音和识别功能;
所述交互反馈模块,用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。
5.根据权利要求2所述语音端点检测系统,其特征在于,所述拾音进程中动态检测模块还包括拾音进程中用户检测模块,用于在机器人进行多轮语音交互后,检测用户是否离开摄像头拍摄场景。
6.根据权利要求1所述语音端点检测系统,其特征在于,所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块;其中,
所述面部动态识别检测模块二,用于在拾音开启前检测用户面部动态情况;
所述语音拾音识别启动模块,用于所述面部动态识别检测模块二检测到用户面部动态后,启动机器人进行语音拾音。
7.根据权利要求1所述语音端点检测系统,其特征在于,所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块;其中,
所述嘴部动态检测模块二,用于在拾音开启前,检测用户嘴部的动态情况;
所述用户头像检测模块,用于在拾音开启前,检测机器人周围是否有用户头像。
CN201911130093.9A 2019-11-18 2019-11-18 一种儿童机器人上利用图像辅助的语音端点检测系统 Pending CN111048066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911130093.9A CN111048066A (zh) 2019-11-18 2019-11-18 一种儿童机器人上利用图像辅助的语音端点检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911130093.9A CN111048066A (zh) 2019-11-18 2019-11-18 一种儿童机器人上利用图像辅助的语音端点检测系统

Publications (1)

Publication Number Publication Date
CN111048066A true CN111048066A (zh) 2020-04-21

Family

ID=70231960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911130093.9A Pending CN111048066A (zh) 2019-11-18 2019-11-18 一种儿童机器人上利用图像辅助的语音端点检测系统

Country Status (1)

Country Link
CN (1) CN111048066A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933149A (zh) * 2020-08-11 2020-11-13 北京声智科技有限公司 语音交互方法、穿戴式设备、终端及语音交互系统
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN114007168A (zh) * 2021-11-03 2022-02-01 长沙楚风数码科技有限公司 一种智能音频控制系统及方法
CN115063895A (zh) * 2022-06-10 2022-09-16 深圳市智远联科技有限公司 一种基于语音识别的售票方法及售票系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130021459A1 (en) * 2011-07-18 2013-01-24 At&T Intellectual Property I, L.P. System and method for enhancing speech activity detection using facial feature detection
CN107978316A (zh) * 2017-11-15 2018-05-01 西安蜂语信息科技有限公司 控制终端的方法及装置
CN110335600A (zh) * 2019-07-09 2019-10-15 四川长虹电器股份有限公司 家电设备的多模态交互方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130021459A1 (en) * 2011-07-18 2013-01-24 At&T Intellectual Property I, L.P. System and method for enhancing speech activity detection using facial feature detection
CN107978316A (zh) * 2017-11-15 2018-05-01 西安蜂语信息科技有限公司 控制终端的方法及装置
CN110335600A (zh) * 2019-07-09 2019-10-15 四川长虹电器股份有限公司 家电设备的多模态交互方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈庆利: "基于音频和视觉特征的语音端点检测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933149A (zh) * 2020-08-11 2020-11-13 北京声智科技有限公司 语音交互方法、穿戴式设备、终端及语音交互系统
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN111933136B (zh) * 2020-08-18 2024-05-10 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
EP4086905A1 (en) * 2021-05-08 2022-11-09 Beijing Baidu Netcom Science And Technology Co. Ltd. Voice activity detection method and apparatus, electronic device and storage medium
CN114007168A (zh) * 2021-11-03 2022-02-01 长沙楚风数码科技有限公司 一种智能音频控制系统及方法
CN115063895A (zh) * 2022-06-10 2022-09-16 深圳市智远联科技有限公司 一种基于语音识别的售票方法及售票系统

Similar Documents

Publication Publication Date Title
CN111048066A (zh) 一种儿童机器人上利用图像辅助的语音端点检测系统
US11163356B2 (en) Device-facing human-computer interaction method and system
US20220238112A1 (en) Query endpointing based on lip detection
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
US20190057247A1 (en) Method for awakening intelligent robot, and intelligent robot
CN106457563A (zh) 执行人形机器人与用户之间的多模式对话的方法、用于实施所述方法的计算机程序产品和人形机器人
US20160379633A1 (en) Speech-Controlled Actions Based on Keywords and Context Thereof
CN106782585A (zh) 一种基于麦克风阵列的拾音方法及系统
WO2021135685A1 (zh) 身份认证的方法以及装置
JP2005022065A5 (zh)
CN107360157A (zh) 一种用户注册方法、装置及智能空调器
CN105389097A (zh) 一种人机交互装置及方法
JP2022516491A (ja) 音声対話の方法、装置、及びシステム
CN110936797B (zh) 一种汽车天窗控制方法及电子设备
CN113345433A (zh) 一种车外语音交互系统
JP2009222969A (ja) 音声認識ロボットおよび音声認識ロボットの制御方法
TW200809768A (en) Method of driving a speech recognition system
JP2012076162A (ja) 会話ロボット
Rekik et al. Human machine interaction via visual speech spotting
CN111936964A (zh) 非中断性nui命令
CN115988164A (zh) 一种会议室多媒体控制方法、系统及计算机设备
JP7323475B2 (ja) 情報処理装置および行動モード設定方法
CN115567336B (zh) 一种基于智慧家居的无唤醒语音控制系统及方法
CN105141785B (zh) 一种电话接听方法及装置
CN110262767A (zh) 基于靠近嘴部检测的语音输入唤醒装置、方法和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421