CN105912111A

CN105912111A - 人机交互中的结束语音对话的方法及语音识别装置

Info

Publication number: CN105912111A
Application number: CN201610210633.4A
Authority: CN
Inventors: 陈本东; 牛建伟; 潘复平; 曹立新
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2016-08-31
Anticipated expiration: 2036-04-06
Also published as: CN105912111B

Abstract

本申请公开了一种人机交互中结束语音对话的方法和语音识别装置。所述方法包括步骤：在开启语音对话后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测；如果图像检测不到人，则关闭图像检测并关闭语音对话。根据本发明的实施例，将图像检测的信息和静音检测相结合，来判断是否结束语音对话状态，可以在用户离开的场景，更快的结束对话，降低功耗。

Description

人机交互中的结束语音对话的方法及语音识别装置

技术领域

本公开一般涉及人机交互技术领域，具体涉及人机交互中的结束语音对话的方法及语音识别装置。

背景技术

当前，越来越多的电子产品支持语音对话的交互方式，这些电子产品包括手机、平板电脑、其它手持智能设备等。同时，为了节省产品的电力消耗和提高续航时间，往往设置在对话开始前唤醒机器进行语音对话，并在结束语音对话后进入待机或休眠模式，使更多的硬件电路停止工作，消耗功率更低。机器如何正确地判断与用户的语音对话结束以维持低电力消耗也就成为一项重要的技术。

业界已经开发多种使机器判断语音对话结束的方法。例如，苹果公司的siri语音助手提供两种结束语音对话的方式：一种是siri给出用户提问问题的答案，一问一答结束。例如，用户对siri说“北京天气”，siri会向用户说出一个答案，本轮对话结束；如果要再和siri说话，必须再次唤醒siri。另一种是进行多轮对话，由对话内容决定多轮对话的结束。例如，用户对siri说“我想打电话”，siri会提醒你说出姓名。

上述方法中，人机交互非常不自然，用户可能一直在对话，中间有不同的主题，通过内容判断是否对话结束，非常不可靠。而且，有时命中多轮对话，有时没有，用户完全无法预期，用户体验较差。

一种改进的方式是设置一个超时机制，这样的一个例子是一次对话后，在一定时间，例如15秒内，机器保持对话状态，15秒后，机器停止语音识别，及对话停止。

对于设置超时机制的方法，虽然一定程度减轻了对话提早结束的问题，但是，设置多长时间超时合适没有逻辑依据，仅是大致的判断。这种超时机制有可能浪费功耗，例如，有可能用户已经离开了机器，但是机器仍然要等待超时时间。

另一种结束语音对话的途径是设置一个命令词，如“拜拜”，但这需要正确识别语境和命令词，另一种方法是设置一个按钮，告诉机器对话已经结束，停止语音识别。这种方法比较死板，需要用户机械的操作。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种自然的、并且能够维持机器在非交互方式下低功耗的结束人机语音交互的方式。

在一个方面，本申请提供一种人机交互中结束语音对话的方法，所述方法包括步骤：

A、在开启语音对话后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测；

B、如果图像检测不到人，则关闭图像检测并关闭语音对话。

可选地，所述方法进一步包括：在步骤B中，如果图像检测到人，则继续保持语音对话。

可选地，所述方法进一步包括：在步骤B中，如果图像检测到人，则在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测并关闭语音对话。

可选地，所述方法进一步包括：在步骤B中，所述图像检测到人包括检测到人的头部。

可选地，所述方法进一步包括：在步骤B中，如果图像检测到人，且在预设定时间内未检测到声音能量，还主动发出提醒用户对话的语音提示。

可选地，所述方法进一步包括：在步骤B中，图像检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。

可选地，所述方法进一步包括：在步骤B中，图像检测到人的正脸后再次检测声音能量的预设定时间比图像检测到人的侧脸后再次检测声音能量的预设定时间更长。

可选地，所述方法进一步包括：结合语音识别、语义理解、图像识别多种输入方式，建立学习模型，判断是否结束对话。

在另一方面，本申请还提供一种人机交互中语音识别装置，所述语音识别装置包括：

语音对话装置，其用于采集外部声音能量和发出语音消息；

静音检测装置，其用于在开启语音对话装置后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测装置；

图像检测装置，其用于检测人；

对话结束装置，其用于如果图像检测装置检测不到人，则关闭图像检测装置并关闭语音对话装置。

可选地，所述对话结束装置进一步用于：如果图像检测装置检测到人，则保持语音对话装置继续工作。

可选地，所述对话结束装置进一步用于：如果图像检测装置检测到人，则静音检测装置在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测装置并关闭语音对话装置。

可选地，所述语音对话装置进一步用于：如果所述图像检测装置检测到人，且静音检测装置在预设定时间内未检测到声音能量，则所述语音对话装置主动发出提醒用户对话的语音提示。

可选地，所述图像检测装置检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。

可选地，所述语音识别装置进一步用于：图像检测装置检测到人的正脸后再次检测声音能量的预设定时间比图像检测装置检测到人的侧脸后再次检测声音能量的预设定时间更长。

本发明通过将图像检测的信息和静音检测相结合，来判断是否结束语音对话状态，可以在用户离开的场景，更快的结束对话，降低功耗。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的一个实施例的结束语音对话的方法的流程图；

图2示出根据本发明的一个实施例的语音识别装置的方框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

先参考图1，其是根据本发明的一个实施例的结束语音对话的方法的流程图。在该实施例中，一种具有人机语音交互功能的电子设备，例如手机或平板电脑，其包括语音识别装置和图像检测装置，图像检测装置包括各种摄像头，并且该设备具有多种操作状态。就语音对话功能而言，其在关闭语音对话功能的操作下功耗最低。因此，在不进行语音对话的情况下，语音对话处于关闭状态以维持机器最小的电力消耗。

当用户要进行语音对话后，通过特定方式开启该机器的语音输入。例如，在机器的系统设置中打开语音对话的功能，或者通过机器上某个按键或按钮打开语音对话功能。开始语音对话后，机器即开始采集用户的语音输入，并能够根据系统功能向用户发出交互的语音消息。这种交互，有的是给机器的操作命令，有的是向机器提出问题，要机器作答。

当用户通过语音交互实现相关操作，或者获知其需要的问题答案，再或者简单地，用户不想继续语音交互而转向其它事务时，机器能够智能地识别语音对话结束，自动地退出语音对话。其识别步骤包括：

在步骤100，在开启语音对话后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测；

在步骤200，如果图像检测不到人，则关闭图像检测并关闭语音对话。

这里的声音能量是对静音状态的检测。在对话过程中，机器如果检测到用户语音停顿，声音能量未能达到预设定的阈值，则开启图像检测装置，通过结合图像信息进一步确认是否结束对话。对于声音能量的该预设定的阈值，可以根据人正常对话时语音较低或适中的水平来确定。

如果在步骤200中图像检测不到人，则可以判断用户不在机器前，就关闭图像检测并关闭语音对话，以此来保持机器的低功率消耗，维持长的续航能力。

这里图像检测到人，包括检测到人的轮廓，头部、躯干、四肢等的影像。

进一步地，如果在步骤200中图像检测到人，可以判断用户仍在机器跟前，通常仍有进一步对话的意图，则继续保持语音对话状态，等待用户的语音输入，这可以减少机器不必要的结束对话和再次唤醒，缩短客户等待语音输入处理的时间，使交流更自然。

进一步地，如果在步骤200中图像检测到人，则在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测并关闭语音对话。这有助于降低用户在机器前进行长时间思考或进行语音对话以外的其他行为，例如，电子阅读，在线浏览等期间由于语音识别装置的工作带来的不必要的电力消耗。该预设定时间可以依据统计的或经验的时间间隔设置。

进一步地，如果在步骤200中图像检测到人，且静音检测装置在预设定时间内未能检测到声音能量，则还主动发出提醒用户进行对话的语音提示。例如，“你好，你在发呆吗？”。用户在听到该语音提示后，可以继续进行语音交互或者手动地关闭语音交互，从而保持机器的低电力消耗。可选地，可以在机器的人机界面上同时弹出提醒关闭语音交互的显示消息提示，请客户确认。

可选地，在步骤200中，图像检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。

进一步地，在步骤200中，图像检测到人的正脸后再次检测声音能量的预设定时间比图像检测到人的侧脸后再次检测声音能量的预设定时间更长。例如，在图像检测到用户的正脸后，机器在20秒内继续进行静音检测，而在图像检测到用户的侧脸后，机器在15秒内继续进行静音检测。即机器在图像检测到用户的正脸比检测到用户的侧脸后更有“耐心”，这与用户正脸面对机器时继续语音对话的可能性更高相一致。

另外，通过静音检测来触发图像检测，可以设置只有在静音较长时开启图像检测，避免图像检测过多的功耗。

进一步地，可以结合判断语音对话结束过程中的语音识别、语义理解、图像识别多种输入方式，建立学习模型，判断是否结束对话。从而提高结束语音对话操作的准确性，提升用户体验。例如，机器发现上一次结束语音对话后，很短时间内，用户再次唤醒机器人和机器人交互，机器人会学习到这种情况，以后在同样的情况下，就会推迟结束对话的时间，自动逐步改善用户体验。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

图2示出根据本发明的实施例提供的一种语音识别装置1，包括：

语音对话装置10，其用于采集外部声音能量和发出语音消息；

静音检测装置20，其用于在开启语音对话装置10后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测装置30；

图像检测装置30，其用于检测人；

对话结束装置40，其用于如果图像检测装置30检测不到人，则关闭图像检测装置30并关闭语音对话装置10。

可选地，所述对话结束装置40进一步用于：如果图像检测装置30检测到人，则保持语音对话装置10继续工作。

可选地，所述对话结束装置40进一步用于：如果图像检测装置30检测到人，则静音检测装置20在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测装置30并关闭语音对话装置10。

可选地，所述语音对话装置10进一步用于：如果所述图像检测装置30检测到人，且静音检测装置20在预设定时间内未检测到声音能量，则所述语音对话装置10主动发出提醒用户对话的语音提示。

可选地，所述图像检测装置30检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。

可选地，所述语音识别装置1进一步用于：图像检测装置30检测到人的正脸后再次检测声音能量的预设定时间比图像检测装置30检测到人的侧脸后再次检测声音能量的预设定时间更长。

应当注意，本发明的上述语音唤醒方法和语音识别装置，可以用硬件或硬件与软件相结合的方式来实现。其可以用通用硬件或专用电路来实现。

Claims

1.一种人机交互中结束语音对话的方法，其特征在于，所述方法包括步骤：

B、如果图像检测不到人，则关闭图像检测并关闭语音对话。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：在步骤B中，如果图像检测到人，则继续保持语音对话。

3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：在步骤B中，如果图像检测到人，则在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测并关闭语音对话。

4.根据权利要求2或3所述的方法，其特征在于，所述方法进一步包括：在步骤B中，所述图像检测到人包括检测到人的头部。

5.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：在步骤B中，如果图像检测到人，且在预设定时间内未检测到声音能量，还主动发出提醒用户对话的语音提示。

6.根据权利要求3所述的方法，其特征在于，所述方法进一步包括：在步骤B中，图像检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。

7.根据权利要求6所述的方法，其特征在于，所述方法进一步包括：在步骤B中，图像检测到人的正脸后再次检测声音能量的预设定时间比图像检测到人的侧脸后再次检测声音能量的预设定时间更长。

8.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：结合语音识别、语义理解、图像识别多种输入方式，建立学习模型，判断是否结束对话。

9.一种人机交互中的语音识别装置，其特征在于，所述语音识别装置包括：

语音对话装置，其用于采集外部声音能量和发出语音消息；

图像检测装置，其用于检测人；

10.权利要求9所述的语音识别装置，其特征在于，所述对话结束装置进一步用于：如果图像检测装置检测到人，则保持语音对话装置继续工作。

11.根据权利要求9所述的语音识别装置，其特征在于，所述对话结束装置进一步用于：如果图像检测装置检测到人，则静音检测装置在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测装置并关闭语音对话装置。

12.根据权利要求10所述的语音识别装置，其特征在于，所述语音对话装置进一步用于：如果所述图像检测装置检测到人，且静音检测装置在预设定时间内未检测到声音能量，则所述语音对话装置主动发出提醒用户对话的语音提示。

13.根据权利要求12所述的语音识别装置，其特征在于，所述图像检测装置检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。

14.根据权利要求13所述的语音识别装置，其特征在于，所述语音识别装置进一步用于：图像检测装置检测到人的正脸后再次检测声音能量的预设定时间比图像检测装置检测到人的侧脸后再次检测声音能量的预设定时间更长。