CN115691498A - 语音交互方法、电子设备及介质 - Google Patents

语音交互方法、电子设备及介质 Download PDF

Info

Publication number
CN115691498A
CN115691498A CN202110865871.XA CN202110865871A CN115691498A CN 115691498 A CN115691498 A CN 115691498A CN 202110865871 A CN202110865871 A CN 202110865871A CN 115691498 A CN115691498 A CN 115691498A
Authority
CN
China
Prior art keywords
user
voice
lip language
electronic equipment
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110865871.XA
Other languages
English (en)
Inventor
朱维峰
曾俊飞
查永东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110865871.XA priority Critical patent/CN115691498A/zh
Priority to PCT/CN2022/108624 priority patent/WO2023006033A1/zh
Publication of CN115691498A publication Critical patent/CN115691498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Abstract

本申请涉及语音控制领域,公开了一种语音交互方法、电子设备及介质。其中,语音交互方法包括:在检测出电子设备当前的语音交互环境不满足语音识别条件的情况下,确定用户当前的交互状态是否满足唇语识别条件;在确定出满足的情况下,获取采用唇语识别方式对电子设备接收的用户的语音指令进行识别所得到的唇语识别结果;执行唇语识别结果对应的功能。本申请实施例提供的语音识别方法在判断出采用语音识别的方式已经难以识别用户的语音指令的情况下,进一步地通过判断用户是否是在和语音助手进行交互来确定是否采用唇语识别的方式;该方法能够有效提高语音指令识别的准确率,从而进一步提高电子设备对用户语音指令执行的正确率。

Description

语音交互方法、电子设备及介质
技术领域
本申请涉及人机交互技术领域,特别涉及一种语音交互方法、电子设备及介质。
背景技术
随着人工智能技术的发展,机器人等电子设备已广应用于餐饮、教育、医疗、文化、智能家居、金融、电信等行业,能够为用户提供全方位人工智能服务。
用户可以通过触摸屏、语音、遥控等方式与机器人等电子设备进行人机交互。其中,当用户采用语音与机器人进行人机交互时,机器人能够识别出用户的语音指令并执行。例如,如图1所示,用户如果想要命令机器人执行“讲故事”的操作,则可以发出“讲故事”的语音指令,机器人识别出上述“讲故事”的语音指令后,可以执行“讲故事”的操作。
但是若处于嘈杂环境中时,当用户通过语音对机器人下达指令时,机器人可能无法接收或识别出用户的语音指令并执行。例如,因当前环境过于嘈杂,因此机器人无法判断用户语音命令何时结束,因此一直处于持续收音状态,或者,无法判断用户语音命令何时开始,因此一直处于不收音状态,所以无法对用户的语音指令进行执行操作等反馈,严重影响用户体验。
发明内容
为解决上述处于嘈杂环境中时,电子设备可能无法接收或识别出用户的语音指令并执行的技术问题,本申请实施例第一面提供了一种语音交互方法,电子设备及介质。该方法能够应用于电子设备,所述方法包括:
在检测出所述电子设备当前的语音交互环境不满足语音识别条件的情况下,确定用户当前的交互状态是否满足唇语识别条件;
在确定出所述用户当前的交互状态满足所述唇语识别条件的情况下,获取采用唇语识别方式对所述电子设备通过图像采集装置获取的用户的嘴部变化特征进行识别所得到的唇语识别结果;
执行所述唇语识别结果对应的功能。
本申请实施例提供的语音识别方法在判断出采用语音识别的方式已经难以识别用户的语音指令的情况下,进一步的通过判断用户是否是在和语音助手进行交互来确定是否采用唇语识别;该方法能够有效提高语音指令识别的准确率,从而进一步提高电子设备对用户语音指令执行的正确率。
可以理解,本申请实施例中,电子设备周围的噪音值及电子设备收音持续的时间等均属于电子设备的语音交互环境范畴。
可以理解,本申请实施例中,图像采集装置可以为用于采集图像的摄像装置,例如摄像头等。
可以理解,本申请实施例中,电子设备在接收用户的语音指令的时候,可以同时采集用户的声音和用户的嘴部变化特征。
当确定电子设备当前的语音交互环境满足语音识别条件的情况下,采用语音识别的方式对电子设备接收的用户的声音进行识别以获取语音识别结果。
当确定出电子设备当前的语音交互环境不满足语音识别条件,但用户当前的交互状态满足唇语识别条件的情况下,可以采用唇语识别的方式对电子设备的图像采集装置获取的用户的嘴部变化特征进行识别以获取唇语识别结果。
在上述第一方面一种可能的实现中,所述语音识别条件包括:
所述电子设备周围的噪音值低于设定噪音值;
或者;
在所述电子设备周围的噪音值大于等于设定噪音值的情况下,所述电子设备收音持续的时间大于零且小于设定时间。
可以理解,在一些实施例中,判断能否采用语音识别的方式对用户的语音指令进行识别可以首先判断电子设备周围的噪音值是否低于设定噪音值,若是,则证明此时电子设备周围的噪音较小,此时可以通过语音识别的方式对用户的语音指令进行识别;若否,则证明此时电子设备周围的噪音已经较大,外部环境已经处于嘈杂环境,此时进一步判断电子设备收音持续的声音大于零且小于设定时间。
若电子设备收音持续的声音大于零且小于设定时间,证明电子设备还是能够准确判断用户的语音截断的时间点,进而确定此时可以采用语音识别方式对用户的语音指令进行识别。若电子设备收音持续的声音大于等于第一设定值或者小于零,则说明电子设备已经无法准确判断用户的语音截断的时间点,进而确定此时采用语音识别方式已经难以对用户的语音指令进行识别。
在上述第一方面一种可能的实现中,所述语音识别条件包括:所述电子设备收音持续的时间大于零且小于设定时间。
可以理解,在一些实施例中,判断能否采用语音识别的方式对用户的语音指令进行识别的方式可以为直接判断所述电子设备收音持续的时间是否大于零且小于设定时间,若是,证明电子设备还是能够准确判断用户的语音截断的时间点,进而确定此时可以采用语音识别方式对用户的语音指令进行识别。若电子设备收音持续的声音大于等于第一设定值或者小于零,则说明电子设备已经无法准确判断用户的语音截断的时间点,进而推断出外部环境过于嘈杂,并确定此时采用语音识别方式已经难以对用户的语音指令进行识别。
在上述第一方面一种可能的实现中,所述唇语识别条件,包括:
用户与电子设备在设定时间内处于交互状态。
可以理解,当用户与电子设备一直处于交互状态,则说明用户仍然存在需要电子设备执行语音指令的需求,若用户已经未与电子设备进行交互,例如,已经离开,则说明用户已经不存在需要电子设备执行语音指令的需求。
在一些实施例中,若用户一直与电子设备处于交互状态,则电子设备可以更加清晰地拍摄到用户的嘴部变化特征,便于采用唇语识别方式对获取的用户的嘴部变化特征进行识别以获取唇语识别结果。
在上述第一方面一种可能的实现中,确定所述用户与所述电子设备在设定时间内是否处于交互状态的方法,包括:
确定在所述设定时间内与所述电子设备进行交互的用户是否发生更换;
检测所述用户与所述电子设备的交互强度值是否达到设定强度值;
在确定在所述设定时间内与所述电子设备进行交互的用户未发生更换,且所述用户与所述电子设备的所述交互强度值达到所述设定强度值的情况下,确认所述用户与所述电子设备处于交互状态;
其中,所述交互强度值与所述用户与所述电子设备之间的距离以及所述用户的人脸朝向相关。
在本申请一些实施例中,在检测用户与电子设备的交互强度值之前,可以判断在上述设定时间内与电子设备进行交互的用户是否发生更换,若一直未发生更换,则可以将当前用户作为后续检测交互强度值的对象。当进一步确定出该用户与电子设备的交互强度值达到所述设定强度值的情况下,可以确认该用户与所述电子设备处于交互状态;可以判定此时采用唇语识别方式能够更加准确的对用户的嘴部变化特征进行识别以获取唇语识别结果。
可以理解,本申请实施例中,交互强度值可以基于设定时间内用户的脸部与电子设备之间的距离、人脸朝向等进行获取。例如,在设定时间内用户的脸部与电子设备之间的距离较近、且用户的脸部朝向正对电子设备,则交互强度值较高,反之较弱。
可以理解,本申请实施例中提及的交互强度值与交互意愿值的意思一致,只是表达不同。且设定强度值可以为后文实施例中提及的第二设定值。
在上述第一方面一种可能的实现中,在所述执行所述唇语识别结果对应的功能步骤之前,还包括:
确认所述唇语识别结果是否正确;
在确认所述唇语识别结果正确的情况下,执行所述唇语识别结果对应的功能。
本申请实施例中,在执行所述唇语识别结果对应的功能步骤之前,再次进行确认所述唇语识别结果是否正确,能够有效提高电子设备对用户语音指令执行的正确率。
在上述第一方面一种可能的实现中,确认所述唇语识别结果是否正确的方法,包括:
向用户进行询问是否需要执行所述唇语识别结果对应的功能;
在用户确认需要执行所述唇语识别结果对应的功能的情况下,确认所述唇语识别结果正确。
在上述第一方面一种可能的实现中,在所述确认唇语结果是否正确的步骤的同时,还包括:
获取所述用户的肢体动作特征和电子设备周围的噪音值。
本申请实施例中,在所述确认唇语结果是否正确的步骤中,因前述步骤已确认当前处于嘈杂环境,语音识别方式可能已经无法准确识别用户的语音指令,因此在语音助手在向用户进行确认的时候,可以同时开启视觉识别功能,视觉识别功能能够获取所述用户的肢体动作特征,且便于对用户通过肢体动作进行的答复进行识别,例如用户可能会通过点头的动作或ok的手势等表示确认唇语结果正确。
在一些实施例中,为了进一步增加电子设备对用户语音指令识别的准确性,也可以在向用户进行语音确认的时候,除了开启视觉识别功能,还可以开启噪声检测功能,以便实时检测周围环境噪音。当判断到周围环境噪音低于设定值后,则可以确定此时采用语音识别方式已经可以识别出用户的语音指令,则此时可以采用语音识别的方式对用户的确认指令或后续的其他语音指令进行识别;若周围环境噪音仍然高于设定值,则采用唇语识别方式或视觉识别方式或唇语识别方式与视觉识别方式结合以对用户的确认指令或后续的其他语音指令进行识别。
在上述第一方面一种可能的实现中,所述电子设备为机器人。
本申请实施例第一方面提供的语音识别方法在判断出采用语音识别的方式已经难以识别用户的语音指令的情况下,进一步的通过判断用户是否是在和语音助手进行交互来确定是否采用唇语识别;该方法能够有效提高语音指令识别的准确率,从而进一步提高电子设备对用户语音指令执行的正确率。
本申请实施例第二方面提供一种电子设备,包括:
存储器,用于存储由所述电子设备的一个或多个处理器执行的指令,以及
处理器,是所述电子设备的所述一个或多个处理器之一,用于执行上述语音交互方法。
本申请实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令在执行时使计算机执行上述语音交互方法。
本申请实施例第四方面提供一种计算机程序产品,所述计算机程序产品包括指令,该指令在执行时使计算机执行上述语音交互方法。
附图说明
图1根据本申请的一些实施例,示出了一种语音交互方法的场景示意图;
图2根据本申请的一些实施例,示出了一种电子设备的结构示意图;
图3根据本申请的一些实施例,示出了一种语音交互方法的流程示意图;
图4根据本申请的一些实施例,示出了一种语音交互方法的场景示意图;
图5根据本申请的一些实施例,示出了一种语音交互方法的场景示意图;
图6根据本申请的一些实施例,示出了一种语音交互方法的流程示意图。
具体实施方式
本申请的实施例公开了一种语音交互方法、电子设备及介质。
可以理解,适用于本申请实施例的电子设备可以是具备语音识别功能的各种电子设备,包括但不限于机器人,膝上型计算机、台式计算机、平板计算机、智能手机、服务器、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、其中嵌入或耦接有一个或多个处理器的电视机、或具有计算功能的其他电子设备。
此外,上述电子设备的语音识别功能可以以各种应用程序的形式实现,例如,以语音助手的形式出现,或者说该语音识别功能被内置在电子设备的应用程序中,例如,用于应用程序的语音搜索,例如地图应用中的语音搜索。
为了便于说明,下文以电子设备为机器人,语音识别功能以机器人的语音助手实现为例。
如前所述,用户可以通过语音指令实现对机器人等电子设备进行控制,而当处于嘈杂环境时,若机器人的语音助手采用语音识别的方式对用户的语音指令进行识别,可能会出现上述语音助手无法判断用户的语音指令何时结束,因此一直处于收音状态,或者,出现无法判断用户的语音指令何时开始,因此一直处于不收音状态,出现无法执行用户的语音指令的情况,进而影响用户的使用体验。
为解决上述问题,本申请实施例提供一种语音交互方法,当语音助手被用户唤醒后,语音助手可以通过噪音检测功能检测周围的噪音水平,若噪音水平高于设定阈值,则将当前的语音识别方式切换为唇语识别方式,使得电子设备能够通过唇语识别技术识别用户的语音指令,并执行该语音指令。
例如,以图1中所示场景为例,当用户001发出“讲故事”的语音指令,在用户发出指令过程中,语音助手通过噪音检测功能检测周围的噪音水平较高,高于了设定阈值,例如设定阈值为70分贝,而语音助手通过噪音检测功能检测周围的噪音值为78分贝,则语音助手将当前的语音识别方式切换为唇语识别方式,使得语音助手能够通过唇语识别技术识别用户的语音指令,并执行“讲故事”的语音指令。
上述技术能够在一定的情况下对语音指令进行识别,但是在常规场景下,唇语识别的准确度一般低于语音识别的准确度,因此上述方案中在噪音较高时即将语音识别方式转换为唇语识别方式,可能存在虽然周围环境噪声较高,但是语音识别仍然可以进行准确识别的场景,此时,将语音识别方式转化为唇语识别方式,增加了识别错误的风险。
故在本申请实施例提供另一种语音交互方法,该方法并不是通过噪音检测功能判断出周围环境过于嘈杂后,就直接将语音识别模式切换为唇语识别模式,获取唇语识别结果;而是首先判断是否确定不能采用语音识别方式,在确定不能采用语音识别方式的情况下判断是否满足采用唇语识别的条件。在判断出满足唇语识别的条件后,才获取唇语识别结果。其中,判断是否不能采用语音识别方式如下所述:
在一种可实施的方案中,可以通过判断语音助手收音时间过长,例如超过了系统的常规设定值,从而确定出可能因为外部环境过于嘈杂导致了语音助手无法判断用户的语音指令的结束时间点,或者通过判断出无法收音,从而确定出可能因为外部环境过于嘈杂导致了语音助手无法判断用户的语音指令的开始时间点,进而确定此时通过语音识别的难以准确识别用户的语音指令,确认此时不能采用语音识别的方式对用户进行语音识别。
在另一种可实施的方案中,可以首先通过噪音检测功能对周围环境进行判断,若周围环境的噪音值小于设定噪音值,则直接确定此时可以采用语音识别方式,若周围环境的噪音值大于等于设定噪音值,此时进一步判断语音助手是否收音时间过长,例如超过了系统的常规设定值,或者是否无法收音等确定出外部环境已经嘈杂到语音助手无法判断用户的语音指令的结束时间点或开始时间点,进而确定此时通过语音识别的难以准确识别用户的语音指令。
在确定出处采用语音识别的方式已经难以识别出用户的语音指令后,通过判断在设定时间段内用户的人脸是否朝向摄像头、人脸是否位于机器人摄像头的拍摄范围内等确认用户是否在和语音助手进行交互的方式确认是否采用唇语识别结果,若确认用户是在正在和语音助手进行交互,则可以确定采用唇语识别方式能够相对准确地识别用户的语音指令,则获取唇语识别结果,并根据唇语识别结果执行唇语识别结果对应的功能。
例如,以图1中所示场景为例,当语音助手被唤醒后,则进入语音识别模式,开始收音,当用户001发出“讲故事”的语音指令后,语音助手并未检测到用户的语音指令已经结束,一直在持续收音,当收音时间超过了系统的设定值,例如10秒,此时语音助手可以判断出可能因为外部环境过于嘈杂导致了语音助手无法判断用户001的语音指令的结束时间点,进而确定此时通过语音识别的难以准确识别用户的语音指令。然后检测刚才收音过程中在设定时间内用户001的人脸是否一直朝向摄像头、且人脸一直位于机器人摄像头的拍摄范围内,如果检测结果为是,则确定用户001在和电子设备进行交互,从而可以确定采用唇语识别方式是否能够相对准确地识别用户001的语音指令,则可以采用唇语识别的方式对用户001的语音指令进行识别,并执行“讲故事”的语音指令。
本申请实施例提供的语音识别方法首先通过判断语音助手接收声音的时间已经持续了相当长的一段时间,判断出语音助手可能已经无法判断用户001的语音指令何时已经结束,从而判断出外部环境过于嘈杂;进而更加精确的判断出在此种情况下采用语音识别的方式已经难以识别用户001的语音指令,进一步的通过判断用户001是否是在和语音助手进行交互来确定何是否采用唇语识别;能够有效避免在可以进行语音识别的情况下采用唇语识别结果造成的识别结果准确率降低的情况,有效提高语音指令识别的准确率。
下面在详细介绍本申请实施例提供的另一种语音交互方法之前,首先对本申请实施例提供的电子设备进行介绍。
为了便于介绍,现在以电子设备为机器人002为例进行说明。应理解的是,本申请实施例中的机器人002还可以与云服务器进行交互,将识别出的用户001的云指令发送至云服务器,云服务器可以采用数据库向机器人002反馈交互内容,交互内容如歌曲、故事等。
如图2所示,机器人002可以包括处理器110、电源模块140、存储器180,传感器模块190、音频模块150、摄像头170、接口模块160、按键101以及显示屏102等。
可以理解的是,本发明实施例示意的结构并不构成对机器人002的具体限定。在本申请另一些实施例中,机器人002可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如,可以包括中央处理器CPU(Central Processing Unit)、图像处理器GPU(Graphics Processing Unit)、数字信号处理器DSP、神经网络处理器(neural-network processing unit,NPU)、微处理器MCU(Micro-programmed Control Unit)、AI(Artificial Intelligence,人工智能)处理器或可编程逻辑器件FPGA(Field Programmable Gate Array)等的处理模块或处理电路。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110中可以设置存储单元,用于存储指令和数据。在一些实施例中,处理器110中的存储单元为高速缓冲存储器180。
可以理解,本申请实施例中,处理器110可以控制相应程序执行本申请实施例提供的语音交互方法。具体的,可以采用人工智能处理器对接收到的语音进行识别,获取识别结果;可以上述图像处理器对采集到的用户001的嘴唇动作进行解析,获取识别结果;同时,可以采用上述图像处理器对采集到的用户001的肢体动作进行识别,获取识别结果。另外可以采用处理器110实时检测电子设备周围的噪音,以选择更准确的识别方式。
电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中,电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入;电源管理模块用于连接电源,充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入,为处理器110,显示屏102,摄像头170,及无线通信模块120等供电。
无线通信模块120可以包括天线,并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在机器人002上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。机器人002可以通过无线通信技术与网络以及其他设备进行通信。例如,机器人002可以通过无线通信模块120与云服务器进行通信。
显示屏102用于显示人机交互界面、图像、视频等。显示屏102包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organiclight-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flexlight-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。本申请实施例中,显示屏102可以用于显示机器人002的各种应用程序界面。
传感器模块190可以包括接近光传感器、压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
音频模块150用于将数字音频信息转换成模拟音频信号输出,或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中,音频模块150可以设置于处理器110中,或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中,音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。本申请实施例中,音频模块150可以用于接收用户001的语音指令,可实施的,音频模块150还可以用于根据用户001的语音指令执行播放音乐、讲故事等操作。
摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号,之后将电信号传递给ISP(Image SignalProcessing,图像信号处理)转换成数字图像信号。机器人002可以通过ISP,摄像头170,视频编解码器,GPU(Graphic Processing Unit,图形处理器),显示屏102以及应用处理器等实现拍摄功能。本申请实施例中,摄像头170可以用户001获取用户001的脸部图像、嘴唇动作图像等。
接口模块160包括外部存储器接口、通用串行总线(universal serial bus,USB)接口等。其中外部存储器接口可以用于连接外部存储卡,例如Micro SD卡,实现扩展机器人002的存储能力。外部存储卡通过外部存储器接口与处理器110通信,实现数据存储功能。通用串行总线接口用于机器人002和其他电子设备002进行通信。
在一些实施例中,机器人002还包括按键101。其中,按键101可以包括音量键、开/关机键等。
下面结合上述机器人002对本申请实施例另一种语音交互方法进行详细叙述。图3示出了一种语音交互方法的示意图,其中,图3所示的语音交互方法可以由机器人002的语音助手执行。如图3所示,图3中所示的语音交互方法包括:
S301:检测到用户001唤醒语音助手后,进入语音识别模式。本申请实施例中,语音识别模式即为对机器人002接收到的用户001的语音指令进行识别的模式。
在语音助手被唤醒后,语音助手即开启收音并获取用户001的嘴部变化特征,其中,开启收音能够便于在后续步骤中判定出采用语音方式对用户001的语音指令进行识别的时候,可以直接对接收到的声音进行识别。而获取用户001的嘴部变化特征能够便于在后续步骤中判定出采用唇语方式对用户001的语音指令进行识别的时候,可以直接对获取用户001的嘴部变化特征进行识别。
本申请实施例中,接收声音可以基于机器人002的麦克风实现,获取用户001的嘴部变化特征可以基于机器人002的摄像装置实现。
可以理解,在一些实施例中,机器人002的语音助手需要在接收到用户001的唤醒词后才能被唤醒,从而进入语音识别模式。例如,若语音助手的唤醒词为“嗨,小艺”,当用户001说出“嗨,小艺”的唤醒词,语音助手将进入语音识别模式,开启收音并获取用户的嘴部变化特征,以便接收用户001的语音指令。
本申请实施例中,在语音识别模式运行的过程中,可以选择性的开启语音识别功能和唇语识别功能。如下所述:
一种可实施的方案中,可以在收音的整个过程中均开启语音识别功能和唇语识别功能,如此可以实现对接收的声音直接采用语音识别的方式实时识别以获取语音识别结果,对拍摄的用户001嘴部特征直接采用唇语识别的方式实时识别以获取唇语识别结果。当后续判断结果为采用语音识别方式的时候,不需再次进行语音识别即可以直接获取语音识别结果。若后续判断结果为采用唇语识别方式的时候,不需再次进行唇语识别即可以直接获取唇语识别结果,有效节省对用户001语音进行识别的时间。
第二种可实施的方案中,在进入语音识别模式后,可以在后续步骤中判断出是采用唇语识别方式还是语音识别方式对用户001的语音指令进行识别的条件后,再开启语音识别功能或唇语识别功能,该方案能够有效减少不必要的语音识别或唇唇语识别计算量。
第三种可实施的方案中,可以在收音的整个过程中开启语音识别功能,在后续判断出需要采用唇语识别的方式进行识别的时候,再开启唇语识别功能。该实施方案的设置是因为大多数场景还是用语音识别方式对用户001的语音指令进行识别,因此长期开启语音识别功能能够有效避免对语音识别功能开启和关闭的多次转换,减小大多常规场景中的处理器110的运算量,提高处理器110的运行速度。而采用唇语识别的方式只是在较少场景中出现的情况,因此,在确定使用唇语识别方式的时候再开启唇语识别功能,能够有效减小唇语识别的运算量,从而减小整个语音识别过程的运算量。
可以理解,本申请实施例中,语音识别功能可以基于机器人002的人工智能处理器进行实现。其中,人工智能处理器可以对用户001的语音进行智能识别。唇语识别功能可以基于机器人002的图像处理器实现,其中,图像处理器可以从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到图像处理器中的唇语识别模型中,识别出讲话人口型对应的发音;随后根据识别出的发音,获取可能性最大的自然语言语句。
可以理解,唇语识别的方式在通用场景下识别率还不高。但是在垂直场景(即识别一些通过模型训练好的关键词的场景)下,识别的正确率较高,例如,可以达到百分之九十以上。
S302:检测是否满足采用语音识别方式对用户的语音指令进行识别的条件。
若满足,则表明采用语音识别方式能够对用户的语音指令进行识别,转至S308,获取语音识别结果;若不满足,则表明可以语音识别方式已经不能实现对用户的语音指令进行精确识别,则转至S303,检测是否满足进入唇语识别模式的条件。
本申请实施例中,语音助手可以通过控制麦克风进行收音,且可以通过语音边界检测(Voice activity detection,Vad)技术判断用户001语音开始或截断的时间点。
在一种可实施的方案中,采用语音识别方式对用户001的语音指令进行识别的条件可以为语音助手已经接收声音且收音持续的声音小于第一设定值。
其中,第一设定值可以根据设备的相关性能和用户001的常规语音时长进行确定,例如,超过10s的语音设备虽然还可以识别,但是设备的对话系统已经不能给出有效回答;或者说用户001发出语音指令的时间一般不会超过10秒,在10秒内一般会存在停顿,当持续收音超过10秒时,设备的VAD技术也已经无法准确识别出音频中的人声的截断时间点,因此可以将第一设定值设定为10秒。
可以理解,本申请实施例中,在一种情况下,当语音助手持续收音的时间超过第一设定值可以判断采用语音边界检测技术已经无法准确判断用户001语音结束的时间点,因此语音助手才一直持续收音。从而确定外部环境过于嘈杂,并且可以确定此时通过语音识别的方式已经难以识别出用户001的语音指令。
可以理解,本申请实施例中,开启收音可以指开启了收音功能,允许进行收音,但是在一些情况下,仍然可能会出现无法收音的情况。例如,采用语音边界检测技术已经无法准确判断用户001语音开始的时间点,因此语音助手会出现无法收音的情况。
因此,在另一种情况下,当语音助手出现一直无法收音的情况,此时可以判断出采用语音边界检测技术已经无法准确判断用户001语音开始的时间点,因此语音助手才一直无法收音。从而确定外部环境过于嘈杂,并且可以确定此时通过语音识别的方式已经难以识别出用户001的语音指令。
上述方案是通过判断语音助手已经开始接收声音且收音持续的声音小于等于第一设定值,从而确认采用VAD技术还是能够准确判断用户001的语音开始和截断的时间点,进而确定此时可以采用语音识别方式对用户001的语音指令进行识别。
在另一种可实施的方案中,采用语音识别方式对用户001的语音指令进行识别的条件可以为周围环境的噪音值小于设定值。
需要说明的是,当周围环境的噪音值大于设定值时,判断出当时外部环境嘈杂,但此时不直接判断为不能采用语音识别的方式,而是进一步判断语音助手收音持续的时间是否小于第一设定值,如前所述,表明VAD技术还是能够准确判断用户001的语音截断的时间点,进而确定此时可以采用语音识别方式对用户001的语音指令进行识别。若语音助手收音持续的时间大于等于第一设定值,如上所述,表明VAD技术已经不能准确判断用户001的语音截断的时间点,进而确定此时可以采用语音识别方式已经无法准确识别用户001的语音指令。
S303:检测是否满足采用唇语识别方式对用户的语音指令进行识别的条件。
若满足,则表明采用唇语识别方式能够对用户的语音指令进行识别,转至S304,获取唇语识别结果;若不满足,则表明可以采用唇语识别方式也不能对用户的语音指令进行识别,转至S307,提示用户识别失败。
可以理解,在本申请一些实施例中,在语音助手检测出用户001一直保持和语音助手的交互状态,例如机器人002前的用户001一直保持未变,且人脸一直朝向机器人002的摄像装置且机器人002之间的距离在设定范围内的情况下,才认为满足进入唇语识别模式的条件。因为若机器人002前的用户001一直为同一用户且用户人脸一直朝向机器人002的摄像装置以及与机器人002之间的距离在设定范围内,则此时可以精确拍摄到用户嘴部的动作,此时采用唇语识别的方式能够更加精确的识别出用户001的语音指令。
S304:获取唇语识别结果。
本申请实施例中,唇语识别结果可以是用户001指令中包括的指令关键词。其中,上述关键词可以为语音助手中已存储的经过模型训练好的常规指令关键词,例如,讲故事,读绘本,播放音乐,讲笑话,退出,返回等,可以理解,因上述关键词已经存储于语音助手中,因此,采用唇语识别方式能够对上述指令关键词进行精确的识别。
在一些实施例中,为了避免一些在长句中混入命令词的场景下造成的误识别的情形,可以为只有在识别到关键词前后具有停顿间隔,才将该关键词作为唇语识别结果。
例如,若用户001先发了“讲故事”的语音指令,后来又说了“听说这个机器人002也有播放音乐之类的功能”的语音内容,此时用户001实际上是想让机器人002讲故事,而不是播放音乐。此时,若语音助手将“讲故事”和“播放音乐”这两个关键词均作为唇语识别结果,将会发生无法确认应该执行“讲故事”和“播放音乐”这两个唇语识别结果中哪个唇语识别结果对应的功能的情况,或者直接执行获取的第二个唇语识别结果“播放音乐”对应的功能的情况。而若语音助手可以为只有在识别到关键词前后具有停顿间隔,才将该关键词作为唇语识别结果。则可以直接将“讲故事”作为唇语识别结果,从而执行“讲故事”这个唇语识别结果对应的功能。该方案能够有效避免了长句中出现命令词可能造成的误识别情况的发生。
S305:确认唇语识别结果是否正确,若结果为是,表明唇语识别准确,转至S305;若结果为否,则表明唇语识别不正确,则转至S306;
为了进一步确认唇语识别结果是否准确,本申请实施例提供的语音识别方法可以包括向用户001进行语音指令确认的步骤。其中向用户001进行语音指令的确认可以为向用户001询问是否想要语音助手执行唇语识别结果对应的功能。例如,如图4所示,若识别出的关键词为“讲故事”,则向用户001进行语音指令的确认的方式可以为向用户001询问,其中,询问的内容可以为:“您是要我为您讲故事吗?”等询问语句。
当用户001进行语音指令的确认的时候,可能会如图5中所示,以语音回答“是的”的方式表示确认。
本申请实施例中,因前述步骤已确认当前处于嘈杂环境,语音识别方式可能已经无法准确识别用户001的语音指令,因此在语音助手在向用户001进行确认的时候,可以同时开启视觉识别功能,便于识别用户001通过肢体动作进行的确认,例如用户001可能会通过点头的动作或ok的手势等表示确认。
视觉识别功能可以为能够检测用户001的肢体动作的功能,视觉识别功能可以基于机器人002的图像处理器实现,图像处理器能够通过采集用户001的图像,并对采集到的图像中的用户001的肢体动作进行解析,以获取视觉识别结果。例如,当图像处理器采集到的用户001的点头的动作图像后,可以对点头的动作图像进行解析,获取的识别结果可以为点头的动作对应的文字,例如“确认”,“是的”等。
在一些实施例中,为了进一步增加语音助手对用户001语音指令识别的准确性,语音助手也可以在向用户001进行语音确认的时候,除了开启视觉识别功能,还可以开启噪声检测功能,以便实时检测周围环境噪音。当判断到周围环境噪音低于设定值后,则可以确定此时采用语音识别方式已经可以识别出用户001的语音指令,则此时可以采用语音识别的方式对用户001的确认指令或后续的其他语音指令进行识别;若周围环境噪音仍然高于设定值,则采用唇语识别方式或视觉识别方式或唇语识别方式与视觉识别方式结合以对用户001的确认指令或后续的其他语音指令进行识别。
S306:基于唇语识别结果执行唇语识别结果对应的功能。
本申请实施中,如图5所示,若唇语识别结果为“讲故事”,当用户001确认唇语识别结果正确后,语音助手可以执行“讲故事”对应的功能。
在一些实施例中,在执行用户001的语音指令对应的任务的过程中,可以持续开启视觉识别功能,保持语音助手对用户001肢体动作的识别结果。
例如,在执行“讲故事”的任务过程中,可以持续开启唇语识别功能以获取用户001的唇语识别结果,在开启唇语识别功能的同时可以开启视觉识别功能,保持语音助手对用户001肢体动作的识别结果。例如,用户001在机器人002的摄像装置能够拍摄到的范围内做出五指张开的手势表示停止讲故事的任务,语音助手可以对该手势进行识别,并停止该任务的执行。
可以理解,本申请实施例中,在开启视觉识别功能的同时,语音识别功能和唇语识别功能均是同时开启的。
在另一些实施例中,为了进一步增加语音助手对用户001语音指令识别的准确性,在执行用户001的语音指令对应的任务的过程中,除了开启视觉识别功能,还可以如前所述开启噪声检测功能,以便实时检测周围环境噪音。当判断到周围环境噪音低于设定值后,则可以确定此时采用语音识别方式已经可以识别出用户001的语音指令,则此时可以采用语音识别方式;若周围环境噪音仍然高于设定值,则采用唇语识别结果方式或视觉识别方式或唇语识别方式与视觉识别方式结合以对用户001的其他语音指令进行精确识别。
例如,在语音助手执行“讲故事”的任务过程中,语音助手同时开启了视觉识别功能、唇语识别功能以及噪音检测功能,在某一时刻,语音助手检测到周围环境噪音低于设定值后,确定此时采用语音识别方式已经可以识别出用户001的语音指令,则转换为采用语音识别方式对用户001在任务过程中的语音指令进行识别,例如,用户001在语音助手已经转换为采用语音识别方式对用户001在任务过程中的语音指令进行识别后,发出“停止讲故事”的命令,语音助手可以通过语音识别的方式识别出“停止讲故事”的语音指令,获取“停止讲故事”的语音识别结果,并执行“停止讲故事”这一语音识别结果对应的功能。
可以理解,本申请实施例中语音识别功能和唇语识别功能在上述语音助手执行用户001语音指令的过程中均是一直处于开启状态的。
S307:提醒用户001识别失败。
在一些实施例中,提醒用户001识别失败的方式可以为在机器人002的屏幕上显示“识别错误”,“无法识别”等提示信息。
在一些实施例中,提醒用户001识别失败的方式也可以为通过“识别错误”,“无法识别”等语音信息提示用户001。
在一些实施例中,在提醒用户001识别失败后也可以采用提醒用户001正对摄像头、提高声音等方式提醒用户001再次发出语音指令。
S308:获取语音识别结果。
本申请实施例中,获取语音识别结果后,可以基于语音识别结果执行语音识别结果对应的功能。
本申请实施例中,图3提供的语音识别方法首先通过判断语音助手接收声音的时间已经持续了相当长的一段时间,判断出语音助手可能已经无法判断用户001的语音指令何时已经结束,从而判断出外部环境过于嘈杂,进而判断出在此种情况下采用语音识别的方式已经难以识别用户001的语音指令。进一步的通过判断用户001是否是在和语音助手进行交互来确定是否采用唇语识别的方式;能够有效避免在可以进行语音识别的情况下采用唇语识别结果造成的识别结果准确率降低的情况,有效提高语音指令识别的准确率。另外能够在获取到唇语识别结果后对用户001进行再次询问,能够有效保证识别结果的准确性。
本申请实施例中,步骤303中判断用户001是否一直保持和语音助手的交互状态可以从以下方面判断:
第一,在收音过程中,和语音助手交互的用户001是否保持未变。
其中,若语音助手检测到在收音过程中和语音助手进行交互的用户001一直未发生更换,则用户001和语音助手正在交互的可能性就比较高。
若和语音助手进行交互的用户001已经发生更换,则可能发出语音命令的用户001已经离开,此时,在一些实施方案中,可以直接确定接收的语音已经无效。在另一些实施方案中,也可以检测在收音过程中最后一个与语音助手进行交互的用户001的语音指令,例如,在收音过程中语音助手检测到和语音助手进行交互的对象更换过一次,即在收音过程中,有两个用户001和语音助手交互过,则检测在收音过程中第二个与语音助手进行交互的用户001的语音指令。
本申请实施例中,可以通过人脸跟踪技术检测和语音助手进行交互的用户001是否发生改变。
在一些实施例中,若一些电子设备不具有人脸跟踪技术,不具备人脸跟踪的能力,则可以通过检测语音助手正前方用户001的人脸是否发生更改来检测和语音助手进行交互的用户001的是否发生改变。
第二,用户001和语音助手的交互意愿值是否达到第二设定值。
在一些实施例中,交互意愿值可以基于一段时间内用户001的脸部与语音助手之间的距离、人脸朝向等进行计算。例如,在一段时间内用户001的脸部与语音助手之间的距离较近、且用户001的脸部朝向正对语音助手,则交互意愿值较高,反之较弱。
具体的,在一种可能的实现方式中,语音助手可以通过采集一但段时间内用户001的图像获取用户001的人脸角度和所述用户001距离机器人002的距离,进而根据用户001的人脸角度和用户001距离智能设备的距离,通过交互意愿值模型,得到所述用户001的交互意愿值。交互意愿值越高,则用户001与语音助手的交互强度越大。
其中,在交互意愿值模型中,可以定义不同的人脸角度对应不同的值,用户001和机器人002之间的距离对应不同的值,且人脸角度对应的值和用户001与机器人002之间的距离对应的值可以分配不同的权重,例如,人脸角度相对来说更能反映用户001是否正在和语音助手进行交互,则人脸角度对应的权重可以占比60%,用户001与机器人002之间的距离对应的权重可以占比为40%。
可以理解,当用户001与电子设备的交互意愿值较弱时,则用户001与电子设备的距离较远,且人脸角度在一定程度上偏离正对电子设备的人脸角度,此时与用户001的嘴唇动作进行精确捕捉和识别,因此,此时采用唇语识别的方式也难以识别用户001的语音指令。反之,当用户001与电子设备的交互意愿值较强时,则用户001与电子设备的距离较近,且人脸角度靠近或等于正对电子设备的角度,此时电子设备可以对用户001的嘴唇动作进行精确捕捉和识别,因此,此时采用唇语识别的方式可以精确识别用户001的语音指令。
在一些实施例中,为了更加准确的判断出是否采用唇语识别方式获取识别结果,可以对图3中步骤302及303中的各项判断条件进行排序和补充,其中,具体语音识别方法如图6所示,步骤301及步骤304-308参考前文所述,此处不再赘述,下面详细介绍步骤302-303,具体的,步骤302-303可以调整为:
S302A:判断接收到的声音中是否有人声。
若判断结果为是,表明存在用户001发出了语音指令,转至S302B;若判断结果为否,表明并不存在用户001发出语音指令,则转至S302C,重新开始结合接收声音,并重新进行检测。
本申请实施例中,可以通过人工智能处理器中的人声检测模型检测接收到的声音中是否有人声。若存在人声,则执行S302B,进一步判断语音助手检测到收音持续的时间是否小于第一设定值。若不存在人声,则可以在间隔设定时间后,转至S302C,重新开始接收声音,并重新计算收音持续的时间。例如,间隔设定时间可以为200ms。
S302B:判断是否满足采用语音识别方式对用户的语音指令进行识别的条件;
若判断结果为是,则表明采用语音识别方式能够对用户的语音指令进行识别,转至S308,获取语音识别结果;若不满足,则表明可以语音识别方式已经不能实现对用户的语音指令进行精确识别,则转至S303A,检测是否满足进入唇语识别模式的条件。
其中,语音指令识别的条件如图3中步骤S302中所述,此处不再赘述。
S302C:重新开始接收声音,并重新计算收音持续的时间。
S303A:判断人脸跟踪的用户001是否未改变。
若判断结果为是,表明在收音的过程中与语音助手交互的用户一直为同一用户,则转至S303B,将该用户作为与语音助手交互的用户;若判断结果为否,表明在收音过程中与语音助手交互的用户已经更换,则转至S303C,将摄像装置采集的最后一个用户001作为与语音助手交互的用户001。
可以理解,在判断用户是否在与语音助手进行交互时,需要首先确定与语音助手进行交互的用户,因为在一段收音过程中,因为环境过于嘈杂,VAD技术满意判断人声的时间点,因此可能出现多个用户在这段收音过程中与语音助手进行了交互,即与语音助手进行交互的用户可能更换过,例如在这段收音过程中可能有两个用户依次与语音助手进行了交互,而更换之前的用户可能已经离开,因此可以将更换后的第二个用户作为与语音助手交互的用户,对第二个用户的嘴部特征进行唇语识别。
S303B:将当前用户作为与语音助手交互的用户。其中,当前用户为在收音过程中与语音助手一直进行交互的用户。
S303C:将摄像装置采集的最后一个用户001作为与语音助手交互的用户001。
S303D:判断与语音助手进行交互的用户001的交互意愿的值是否达到第一设定值。
若判断结果为是,则表明确定用户001与设备正在交互,则转至S305,获取唇语识别结果;若判断结果为否,则表明用户001与语音助手交互的意愿较弱,采用唇语识别方式也难以对用户的语音指令进行识别,则转至步骤S307,提示用户识别失败。
本申请图6中所示语音识别方法能够对采用唇语识别的若干判断条件进行排序,能够更加精确判断出采用唇语识别方式的时机。另外能够在判断出收音中没有人声的情况下提前结束当前流程,开启下一轮检测,避免了增加后续不必要的识别步骤,有效提高识别效率。
综上,本申请实施例提供的语音识别方法首先通过判断语音助手接收声音的时间已经持续了相当长的一段时间,判断出语音助手可能已经无法判断用户001的语音指令何时已经结束,从而判断出外部环境过于嘈杂,进而判断出在此种情况下采用语音识别的方式已经难以识别用户001的语音指令。进一步的通过判断用户001是否是在和语音助手进行交互来确定是否采用唇语识别的方式;能够有效避免在可以进行语音识别的情况下采用唇语识别结果造成的识别结果准确率降低的情况,有效提高语音指令识别的准确率。
另外,能够在获取到唇语识别结果后对用户001进行再次询问,能够有效保证识别结果的准确性。
其次,本申请实施例提供的语音识别方法中,可以在向用户001确认的同时开启视觉识别功能和噪音检测功能,一方面保持语音助手对用户001肢体动作的识别结果,另一方面根据周围环境噪音的改变及时调整对用户001语音指令识别的方式,增加语音指令识别的准确率。
本申请实施例还提供一种语音交互装置,包括:
检测模块,用于在检测到用户001唤醒语音助手后,控制电子设备进入语音识别模式。
识别控制模块,用于若检测到电子设备当前的语音交互环境满足语音识别条件,则控制电子设备采用语音识别的方式对用户001的语音指令进行识别以获取语音识别结果。
若检测到电子设备当前的语音交互环境不满足语音识别条件,则检测用户001当前的交互状态是否满足唇语识别条件;在确定出用户001当前的交互状态满足唇语识别条件的情况下,控制电子设备采用唇语识别方式对电子设备通过图像采集装置获取的用户001的嘴部变化特征进行识别以获取唇语识别结果。
执行模块,用于根据电子设备获取的识别结果控制电子设备执行识别结果对应的功能。例如,若电子设备获取的是唇语识别结果,则控制电子设备执行唇语识别结果对应的功能;若电子设备获取的是语音识别结果,则控制电子设备执行语音识别结果对应的功能。
本申请公开的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
本申请实施例还提供了一种计算机程序或包括计算机程序的一种计算机程序产品,该计算机程序在某一计算机上执行时,将会使所述计算机实现上述语音指令执行方法。可实施的,计算机程序产品可以包括指令,所述指令用于实现上述语音交互方法。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的范围。

Claims (12)

1.一种语音交互方法,应用于电子设备,其特征在于,所述方法包括:
在检测出所述电子设备当前的语音交互环境不满足语音识别条件的情况下,确定用户当前的交互状态是否满足唇语识别条件;
在确定出所述用户当前的交互状态满足所述唇语识别条件的情况下,获取采用唇语识别方式对所述电子设备通过图像采集装置获取的用户的嘴部变化特征进行识别所得到的唇语识别结果;
执行所述唇语识别结果对应的功能。
2.根据权利要求1所述的方法,其特征在于,所述语音识别条件包括:
所述电子设备周围的噪音值低于设定噪音值;
或者;
在所述电子设备周围的噪音值大于等于设定噪音值的情况下,所述电子设备收音持续的时间大于零且小于设定时间。
3.根据权利要求1所述的方法,其特征在于,所述语音识别条件包括:所述电子设备收音持续的时间大于零且小于设定时间。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述唇语识别条件,包括:
用户与电子设备在设定时间内处于交互状态。
5.根据权利要求4所述的方法,其特征在于,确定所述用户与所述电子设备在设定时间内是否处于交互状态的方法,包括:
确定在所述设定时间内与所述电子设备进行交互的用户是否发生更换;
检测所述用户与所述电子设备的交互强度值是否达到设定强度值;
在确定在所述设定时间内与所述电子设备进行交互的用户未发生更换,且所述用户与所述电子设备的所述交互强度值达到所述设定强度值的情况下,确认所述用户与所述电子设备处于交互状态;
其中,所述交互强度值与所述用户与所述电子设备之间的距离以及所述用户的人脸朝向相关。
6.根据权利要求1-5任一项所述的方法,其特征在于,在所述执行所述唇语识别结果对应的功能步骤之前,还包括:
确认所述唇语识别结果是否正确;
在确认所述唇语识别结果正确的情况下,执行所述唇语识别结果对应的功能。
7.根据权利要求6所述的方法,其特征在于,确认所述唇语识别结果是否正确的方法,包括:
向用户进行询问是否需要执行所述唇语识别结果对应的功能;
在用户确认需要执行所述唇语识别结果对应的功能的情况下,确认所述唇语识别结果正确。
8.根据权利要求6或7所述的方法,其特征在于,在所述确认唇语结果是否正确的步骤的同时,还包括:
获取所述用户的肢体动作特征和电子设备周围的噪音值。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述电子设备为机器人。
10.一种电子设备,其特征在于,包括:
存储器,用于存储由所述电子设备的一个或多个处理器执行的指令,以及
处理器,是所述电子设备的所述一个或多个处理器之一,用于执行权利要求1-9中任一项所述的语音交互方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,该指令在执行时使计算机执行权利要求1至9中任一项所述的语音交互方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,该指令在执行时使计算机执行权利要求1至9中任一项所述的语音交互方法。
CN202110865871.XA 2021-07-29 2021-07-29 语音交互方法、电子设备及介质 Pending CN115691498A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110865871.XA CN115691498A (zh) 2021-07-29 2021-07-29 语音交互方法、电子设备及介质
PCT/CN2022/108624 WO2023006033A1 (zh) 2021-07-29 2022-07-28 语音交互方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865871.XA CN115691498A (zh) 2021-07-29 2021-07-29 语音交互方法、电子设备及介质

Publications (1)

Publication Number Publication Date
CN115691498A true CN115691498A (zh) 2023-02-03

Family

ID=85059169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865871.XA Pending CN115691498A (zh) 2021-07-29 2021-07-29 语音交互方法、电子设备及介质

Country Status (2)

Country Link
CN (1) CN115691498A (zh)
WO (1) WO2023006033A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164389A (zh) * 2020-09-18 2021-01-01 国营芜湖机械厂 一种多模式语音识别送话装置及其控制方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP2014240856A (ja) * 2013-06-11 2014-12-25 アルパイン株式会社 音声入力システム及びコンピュータプログラム
CN107799125A (zh) * 2017-11-09 2018-03-13 维沃移动通信有限公司 一种语音识别方法、移动终端及计算机可读存储介质
CN108537207B (zh) * 2018-04-24 2021-01-22 Oppo广东移动通信有限公司 唇语识别方法、装置、存储介质及移动终端
KR20200073733A (ko) * 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
CN110517685B (zh) * 2019-09-25 2021-10-08 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质
CN112132095B (zh) * 2020-09-30 2024-02-09 Oppo广东移动通信有限公司 危险状态的识别方法、装置、电子设备及存储介质
CN112633208A (zh) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 一种唇语识别方法、服务设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164389A (zh) * 2020-09-18 2021-01-01 国营芜湖机械厂 一种多模式语音识别送话装置及其控制方法
CN112164389B (zh) * 2020-09-18 2023-06-02 国营芜湖机械厂 一种多模式语音识别送话装置及其控制方法

Also Published As

Publication number Publication date
WO2023006033A1 (zh) 2023-02-02

Similar Documents

Publication Publication Date Title
CN109427333B (zh) 激活语音识别服务的方法和用于实现所述方法的电子装置
US11810562B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
CN111492328B (zh) 虚拟助手的非口头接合
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
US20220044463A1 (en) Speech-driven animation method and apparatus based on artificial intelligence
US20190013025A1 (en) Providing an ambient assist mode for computing devices
EP3179474A1 (en) User focus activated voice recognition
CN108766438B (zh) 人机交互方法、装置、存储介质及智能终端
CN108023934B (zh) 电子装置及其控制方法
US10880833B2 (en) Smart listening modes supporting quasi always-on listening
KR20190019401A (ko) 전자 장치 및 그 제어 방법
KR20160110085A (ko) 음성 인식 시스템 및 방법
EP2959474A2 (en) Hybrid performance scaling or speech recognition
CN113168227A (zh) 执行电子装置的功能的方法以及使用该方法的电子装置
CN112912955B (zh) 提供基于语音识别的服务的电子装置和系统
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN112634911B (zh) 人机对话方法、电子设备及计算机可读存储介质
KR20200094396A (ko) 전자 장치 및 복수의 액션들을 포함하는 태스크를 결정하는 방법
US11636867B2 (en) Electronic device supporting improved speech recognition
CN112863508A (zh) 免唤醒交互方法和装置
KR20210040856A (ko) 스마트 백미러의 인터랙션 방법, 장치, 전자기기와 저장매체
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
US20200090663A1 (en) Information processing apparatus and electronic device
WO2023006033A1 (zh) 语音交互方法、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination