CN109147780B

CN109147780B - 自由聊天场景下的语音识别方法及系统

Info

Publication number: CN109147780B
Application number: CN201810929266.2A
Authority: CN
Inventors: 潘晓明
Original assignee: Chongqing Youbanhome Technology Co ltd
Current assignee: Chongqing Youbanhome Technology Co ltd
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2023-03-03
Anticipated expiration: 2038-08-15
Also published as: CN109147780A

Abstract

本发明涉及智能服务领域，具体涉及一种自由聊天场景下的语音识别方法及系统，自由聊天场景下的语音识别系统包括：命令判断模块和执行判断模块；命令判断模块用于判断采集到的用户语音信息中是否存在预设的触发关键词，若存在触发关键词，则判断触发关键词后面输入的语音信息中是否含有预设的执行命令，若该语音信息中含有执行命令，则将含有触发关键词的语音段和含有执行命令的语音段之间的所有语音信息组合成一个语音集发送给执行判断模块，执行判断模块接收到语音集后判断该语音集中触发关键词和执行命令在该语音集中的实际占比值，当实际占比值大于等于预设占比值时执行命令。

Description

自由聊天场景下的语音识别方法及系统

技术领域

本发明涉及智能服务领域，具体涉及一种自由聊天场景下的语音识别方法及系统。

背景技术

随着社会的发展，人们的生活节奏越来越快，于是人们迫切的需要利用人工智能来减少手动操作时间。

为了解决上述问题，公开号为CN107622767A的中国专利文件公开了一种语音控制方法与家电控制系统，所适用的家电系统包括多台电器设备，每台电器设备与云端控制器数据连接，其中多台电器设备中的至少一部分配置有语音采集装置，作为语音交互设备，并且家电系统的语音控制方法包括：多台语音交互设备分别利用各自的语音采集装置采集周围的语音信号；对采集到的语音信号进行识别，提取语音信号的信号参数并判断语音信号是否与预设的唤醒信号相匹配；由接收到与预设的唤醒信号相匹配的语音信号的语音交互设备向云端控制器发送其接收到的语音信号的信号参数，以供云端控制器根据语音信号的参数从语音交互设备选取出语音应答设备；云端控制器向语音应答设备下达进入语音应答状态的控制指令。

上述方案通过判断语音信号是否和预设的唤醒信号相匹配来实现是否执行控制指令，采用这种方式来识别接收到的语音信号是否为唤醒信号存在这样的问题：在采集到用户语音信号时，若用户正在和其他人聊天而不小心说到与唤醒信号相匹配的语音，这时用户本意是无需上述系统执行语音信号相应的控制指令，但是系统会误判断为应该执行语音信息相应的控制指令。

发明内容

本发明的目的在于提供一种自由聊天场景下的语音识别系统，以解决现有系统在用户与他人聊天时误说到唤醒信号相关的语音信号时系统将误动作的问题。

本发明提供的基础方案为：自由聊天场景下的语音识别系统，包括：命令判断模块和执行判断模块；

命令判断模块用于判断采集到的用户语音信息中是否存在预设的触发关键词，若存在触发关键词，则判断触发关键词后面输入的语音信息中是否含有预设的执行命令，若该语音信息中含有执行命令，则将含有触发关键词的语音段和含有执行命令的语音段之间的所有语音信息组合成一个语音集发送给执行判断模块，执行判断模块接收到命令判断模块发送的语音集后判断该语音集中触发关键词和执行命令在该语音集中的实际占比值，当实际占比值大于等于预设占比值时执行命令。

本发明的工作原理及优点在于：对用户说话的语音信息进行采集，命令判断模块对采集到的语音信息中是否存在触发关键词进行判断，若存在预设的触发关键词，才开始判断触发关键词后面的语音信息中是否含有预设的执行命令，若该语音信息中含有执行命令，则将含有触发关键词的语音段和含有执行命令的语音段之间的所有语音信息组合成一个语音集发送给执行判断模块，执行判断模块接收到命令判断模块发送的语音集后判断该语音集中触发关键词和执行命令在该语音集中的实际占比值，当实际占比值大于等于预设占比值时才执行命令。

本方案中将实际占比值和预设占比值进行对比来判断是否执行相应的执行命令，而并不是只依赖于语音信息中是否有触发关键词或执行命令，与现有技术中只通过判断语音信号中是否存在唤醒信号来判断是否执行命令相比，本方案能有效的减少系统误执行命令的次数。比如，实际占比值的预设占比值限定为100％，用户需要系统执行某个命令时，直接输入触发关键词的语音信息后直接输入执行命令的语音信息，这时该触发关键词和执行命令在语音集中的实际占比值便是100％，则将执行该执行命令；若用户和他人在聊天，不小心说到触发关键词，且在后面的聊天内容中也提到了执行命令，而执行命令并不是在触发关键词输出后说到的，这时，触发关键词和执行命令之间便含有其余语音信息，触发关键词和执行命令在语音集中的实际占比值便小于100％，则不执行该执行命令。

进一步，还包括执行模块和距离检测模块，距离检测模块用于检测与用户之间的位置距离值，然后将位置距离值发送给执行模块；执行模块接收到距离检测模块发送的位置距离值时，判断该位置距离值是否属于预设距离值范围内，若该位置距离值属于预设距离值范围内，且执行判断模块判断触发关键词和执行命令在语音集中的占比大于等于预设占比值，则执行模块按照该执行命令执行相应的动作。

通过距离检测模块检测与用户之间的距离，而执行模块根据距离检测模块发送的位置距离值判断是否属于预设距离值范围内，若该位置距离值属于预设距离值范围内，且执行判断模块判断触发关键词和执行命令在语音集中的占比大于等于预设占比值，则执行模块才按照该执行命令执行相应的动作，进一步减小了系统误执行命令的次数。

进一步，还包括等待处理模块，当执行判断模块判断触发关键词和执行命令在语音集中的占比小于预设占比值时，将该执行命令发送给等待处理模块，等待处理模块接收到执行判断模块发送的执行命令后对该执行命令进行存储，当该命令指令存储后又在预设时间范围内执行判断模块发送了同样的执行命令给执行模块，则将存储的执行命令清零；当该命令存储后在预设时间范围内执行判断模块又发送了同样的执行命令给等待处理模块，若发送次数超过两次，则等待处理模块将该执行命令发送给执行模块进行执行。

通过等待处理模块的设置，能有效的避免用户在输入触发关键词的语音信息后因为其它事情的打断导致其没有在输出触发关键词后直接输入执行命令，这时，在预设时间范围内用户只需再次输入触发关键词和执行命令便能实现自由聊天场景下的语音识别系统对该执行命令的执行；在预设时间范围内若用户在第二次输入触发关键词后仍旧被打断，用户在预设时间范围内再次输入执行命令便可实现该执行命令的执行，而无需再重复输入触发关键词，增加用户体验感。

进一步，还包括设定模块和命令存储模块，设定模块用于用户设置触发关键词和执行命令，然后将用户设定好的触发关键词和执行命令存储到命令存储模块内。

用户根据自己说话习惯设置触发关键词和执行命令，便于用户记住触发关键词和执行命令，增加用户的体验感。

另外，针对自由聊天场景下的语音识别系统，本申请还提供了一种自由聊天场景下的语音识别方法，包括如下步骤:

S1、用户根据实际需求对触发关键词和执行命令进行编辑存储；

S2、对用户说话过程中的语音信息进行采集；

S3、判断采集到的语音信息中是否存在触发关键词，若含有触发关键词，则判断触发关键词后面输入的语音信息中是否含有执行命令，若该语音信息中含有执行命令，则将含有该触发关键词的语音段和含有该执行命令的语音段之间所有的语音信息组合成一个语音集；

S4、根据组合的语音集判断该语音集中触发关键词和执行命令的实际占比值，若实际占比值大于等于预设占比值时按照执行命令进行动作执行。

步骤S1中，用户根据实际需求对触发关键词和执行命令进行编辑和存储，用户可以根据自己的习惯来进行触发关键词和执行命令的编辑，增加客户体验感，步骤S2-S4中，通过判断触发关键词和执行命令在语音集中的实际占比值是否大于等于预设占比值来判断哪些执行命令应该进行相应的动作执行，能有效减小系统误执行命令的情况。

进一步，在步骤S4中，在判断触发关键词和执行命令在语音集中的实际占比值时，根据判断该语音集中触发关键词和执行命令采集花费时长占该段语音集总共的采集时长的实际占比值。

根据触发关键词的语音采集时长、执行命令的采集时长以及语音段总共的采集时长判断实际占比值大小，判断过程简单。

进一步，在步骤S4中，若触发关键词和执行命令在语音集中的实际占比值小于预设占比值，则判断在预设时间范围内用户是否连续输入过两次或两次以上的相同的执行命令，若在预设时间范围内连续输入两次或两次以上的相同的执行命令，则根据该执行命令执行相应的动作。

用户在第一次输入触发关键词后被打断，则用户在第一次输入触发关键词和执行命令后的预设时间内连续输入两次或两次以上的执行命令，便可实现该执行命令的执行，使用方便。

附图说明

图1为本发明实施例一中自由聊天场景下的语音识别系统的逻辑框图；

图2为本发明实施例一中自由聊天场景下的语音识别方法的具体实施流程图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例一

如图1所示：自由聊天场景下的语音识别系统，包括：用户终端和服务器，用户终端和服务器之间通过无线通信模块进行无线通信，无线通信模块选用现有Risym品牌的的WIFI通信模块。

一、用户终端包括：

距离检测模块，用于检测用户终端和用户之间的位置距离，然后将用户终端和用户之间的检测位置距离值发送给执行模块。距离检测模块包括红外线传感器和摄像头，通过摄像头和红外线传感器确定用户与用户终端之间的位置距离。

语音采集模块，用于对用户终端周围的语音信息进行采集，并将采集到的语音信息发送给服务器。

执行模块，用于接收距离检测模块发送的位置距离值和服务器发送的命令指令，当接收到的位置距离值大小在预设距离值范围内，则执行模块按照服务器发送的命令指令执行相应的动作，若接收到的位置距离值处于预设距离值范围外时，执行模块不按照命令指令执行动作。

设定模块，用于用户设置命令指令，并将用户设置的命令指令发送给服务器进行存储。命令指令为用户给执行模块执行相应动作的指令，每一个命令指令对应一个执行动作。命令指令包括触发关键词和执行命令，触发关键词用于触发执行模块开始工作，即只有用户通过语音采集模块输入触发关键词后，执行模块才能够工作；执行命令则为执行模块需要执行动作的内容。

二、服务器包括：

命令存储模块，命令存储模块内存储有用户终端需要执行的所有命令指令。

命令判断模块，用于接收语音采集模块发送的语音信息，并判断接收到的语音信息中是否含有命令存储模块内存储有的触发关键词，若含有触发关键词，则判断触发关键词后面输入的语音信息中是否含有执行命令，若语音信息中含有执行命令，则将含有触发关键词的语音段(语音段以用户说话时的停顿点为分界点进行划分的)和含有执行命令的语音段之间的所有语音组成一个语音集，然后将语音集发送给执行判断模块。

执行判断模块，用于接收命令判断模块发送的语音集，并判断该语音集中触发关键词和执行命令采集花费时长(或播放时长)占该段语音集总共的采集时长(或总共的播放时长)实际占比值，若实际占比值大于80％(或90％，实际运用中实际占比值大小可以根据实际需求进行设置)，则将该段语音集中含有的执行命令发送给执行模块，若实际占比值小于80％，则将该执行命令发送给等待处理模块。

等待处理模块，用于接收执行判断模块发送的执行命令，并对收到的执行命令进行存储，当该执行命令存储后又在预设时间范围内执行判断模块发送了同样的执行命令给执行模块，则将存储的执行命令清零；当该命令存储后在预设时间范围内执行判断模块又发送了同样的执行命令给等待处理模块，且发送次数超过两次，则等待处理模块将该执行命令发送给执行模块进行执行。

另外，如图2所示，针对自由聊天场景下的语音识别系统，本实施例还提供了一种自由聊天场景下的语音识别方法，包括如下步骤：

S1、命令指令编辑

用户通过用户终端中的设定模块对命令指令进行编辑，然后将编辑好的命令指令发送给服务器的命令存储模块进行存储。命令指令包括触发关键词和执行命令。

S2、语音采集

用户在说话过程中，用户终端中的语音采集模块对用户说话时的语音信息进行采集，并将采集到的语音信息发送给服务器。

S3、语音分析

服务器中的命令判断模块接收到语音采集模块发送的语音信息后，判断接收到的语音信息中是否含有命令存储模块内存储有的触发关键词，若含有触发关键词，则判断触发关键词后面输入的语音信息中是否含有执行命令，若语音信息中含有执行命令，则将含有触发关键词的语音段(语音段以用户说话时的停顿点为分界点进行划分的)和含有执行命令的语音段之间的所有语音组成一个语音集，然后将语音集发送给执行判断模块。

S4、判断是否执行命令指令

服务器中的执行判断模块接收到命令判断模块发送的语音集后，并判断该语音集中触发关键词和执行命令采集花费时长占该段语音集总共的采集时长(或总共的播放时长)实际占比值，若实际占比值大于80％(80％为预设占比值)，则将该段语音集中含有的执行命令发送给执行模块，进入步骤S5；若实际占比值小于80％，则将该执行命令发送给等待处理模块，进入步骤S7。

S5、距离检测

用户终端中的距离检测模块检测用户终端和用户之间的位置距离，然后将用户终端和用户之间的检测位置距离值发送给执行模块。距离检测模块包括红外线传感器和摄像头，通过摄像头和红外线传感器确定用户与用户终端之间的位置距离。

S6、执行命令指令

用户终端中的执行模块接收到接收距离检测模块发送的位置距离值和服务器发送的执行命令后，当接收到的位置距离值大小在预设距离值范围内，则执行模块按照服务器发送的执行命令执行相应的动作，若接收到的位置距离值处于预设距离值范围外时，执行模块不按照执行命令执行动作。然后，结束流程。

S7、二次判断是否执行命令指令

服务器中的等待处理模块接收到执行判断模块发送的执行命令后，对收到的执行命令进行存储，当该执行命令存储后又在预设时间范围内执行判断模块发送了同样的执行命令给执行模块，则将存储的执行命令清零，结束流程；当该命令存储后在预设时间范围内执行判断模块又发送了同样的执行命令给等待处理模块，且发送次数超过两次，则等待处理模块将该执行命令发送给执行模块，进入流程S6。

实施例二

实施例二与实施例一的区别在于，实施例二中用户终端还包括：

用户动作信息采集模块，用户动作信息采集模块用于语音采集模块采集到语音信息时对用户的动作信息进行采集，具体采集方式采用安装摄像头的方式进行用户动作信息的采集，然后将采集的用户动作信息发送给服务器。

服务器还包括：

用户动作信息判断模块，用于接收用户动作信息采集模块发送的用户动作信息，并根据用户动作信息判断用户是否面向摄像头，若用户面向摄像头，则发送一个动作指令给执行判断模块，若用户没有面向摄像头，则用户动作信息判断模块将不会发送动作指令给执行判断模块。

执行判断模块接收到命令判断模块发送的语音集时，执行判断模块若接收到到用户动作信息判断模块发送的动作指令，则在判断该语音集中触发关键词和执行命令采集花费时长(或播放时长)占该段语音集总共的采集时长(或总共的播放时长)的实际占比值时，实际占比值小于预设占比值的情况下，只有实际占比值没有低于预设占比值的10％，则将该段语音集中含有的执行命令发送给执行模块。若执行判断模块接收到命令判断模块发送的语音集时没有接受到用户动作信息判断模块发送的动作指令，则在判断该语音集中触发关键词和执行命令采集花费时长(或播放时长)占该段语音集总共的采集时长(或总共的播放时长)的实际占比值时，只有该实际占比值大于预设占比值时执行判断模块才将该语音集中含有的执行命令发送给执行模块。

比如，若用户正对者用户终端的摄像头说话，则用户终端中的语音采集模块会采集到相应的语音信息，同时，用户动作信息采集模块采集到的用户动作信息并发送给用户动作信息判断模块后，用户动作信息判断模块就会将动作指令发送给执行判断模块，执行判断模块接收命令判断模块发送的语音集以及用户动作信息判断模块发送的动作指令，判断该语音集中触发关键词和执行命令采集花费时长(或播放时长)占该段语音集总共的采集时长(或总共的播放时长)的实际占比值，若预设占比值为90％，而实际占比值为80％，则执行判断模块将该语音集中含有的执行命令发送给执行模块；若预设占比值为90％，而实际占比值为70％，则执行判断模块将该语音集中含有的执行命令发送给等待处理模块；若预设占比值为90％，而实际占比值大于90％，则执行判断模块将该语音集中含有的执行命令发送给执行模块。若用户说话时没有对着用户终端的摄像头，则执行判断模块只能接受到命令判断模块发送的语音集，则只有当实际占比值大于预设占比值时执行判断模块才将该语音集中所含执行命令发送给执行模块。由于人们在说话的时候常常习惯看着说话对象说话，那么用户针对摄像头说话便很大可能是用户在对用户终端发送命令指令，用户动作信息采集模块和用户动作信息判断模块的设置，使得用户在对着用户终端发送命令指令时对应命令指令的执行效率增加，增加了命令指令的执行效率。同时，若用户在和其他人聊天，在聊天过程中突然需要用户终端执行相应的命令指令时，用户便可以正对用户终端中的摄像头，便于用户终端快速执行命令指令。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.自由聊天场景下的语音识别系统，其特征在于，包括：命令判断模块和执行判断模块；

2.根据权利要求1所述的自由聊天场景下的语音识别系统，其特征在于，还包括执行模块和距离检测模块，距离检测模块用于检测与用户之间的位置距离值，然后将位置距离值发送给执行模块；执行模块接收到距离检测模块发送的位置距离值时，判断该位置距离值是否属于预设距离值范围内，若该位置距离值属于预设距离值范围内，且执行判断模块判断触发关键词和执行命令在语音集中的占比大于等于预设占比值，则执行模块按照该执行命令执行相应的动作。

3.根据权利要求2所述的自由聊天场景下的语音识别系统，其特征在于，还包括等待处理模块，当执行判断模块判断触发关键词和执行命令在语音集中的占比小于预设占比值时，将该执行命令发送给等待处理模块，等待处理模块接收到执行判断模块发送的执行命令后对该执行命令进行存储，当该命令指令存储后又在预设时间范围内执行判断模块发送了同样的执行命令给执行模块，则将存储的执行命令清零；当该命令存储后在预设时间范围内执行判断模块又发送了同样的执行命令给等待处理模块，若发送次数超过两次，则等待处理模块将该执行命令发送给执行模块进行执行。

4.根据权利要求1-3中任一项所述的自由聊天场景下的语音识别系统，其特征在于：还包括设定模块和命令存储模块，设定模块用于用户设置触发关键词和执行命令，然后将用户设定好的触发关键词和执行命令存储到命令存储模块内。

5.自由聊天场景下的语音识别方法，其特征在于，包括如下步骤:

S2、对用户说话过程中的语音信息进行采集；

6.根据权利要求5所述的自由聊天场景下的语音识别方法，其特征在于，在步骤S4中，在判断触发关键词和执行命令在语音集中的实际占比值时，根据判断该语音集中触发关键词和执行命令采集花费时长占该段语音集总共的采集时长的实际占比值。

7.根据权利要求6所述的自由聊天场景下的语音识别方法，其特征在于，在步骤S4中，若触发关键词和执行命令在语音集中的实际占比值小于预设占比值，则判断在预设时间范围内用户是否连续输入过两次或两次以上的相同的执行命令，若在预设时间范围内连续输入两次或两次以上的相同的执行命令，则根据该执行命令执行相应的动作。