CN113393840B

CN113393840B - 一种基于语音识别的移动终端控制系统及方法

Info

Publication number: CN113393840B
Application number: CN202110944270.8A
Authority: CN
Inventors: 高健力
Original assignee: Shuoguangda Microelectronics Shenzhen Co ltd
Current assignee: Shuoguangda Microelectronics Shenzhen Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-05
Anticipated expiration: 2041-08-17
Also published as: CN113393840A

Abstract

本发明公开了一种基于语音识别的移动终端控制系统及方法，涉及语音识别技术领域，获取第一待识别语音信息；根据所获取的第一待识别语音信息判断停顿时长和语音时长；若所述第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长，则获取第二待识别语音信息；获取第二待识别语音信息，判断第二待识别语音信息与第一待识别语音的关联度；若第二待识别语音信息与第一待识别语音信息的关联度大于预设关联度，则能够根据第一待识别语音信息中的停顿时长获取第二语音信号标准时长；若所述第一待识别语音信息停顿时长大于第二预设停顿时长，则无法识别语音信息，从而能够使得智能终端能够清楚识别语音信号，不会导致识别中途中断。

Description

一种基于语音识别的移动终端控制系统及方法

技术领域

本发明涉及语音识别技术领域，具体为一种基于语音识别的移动终端控制系统及方法。

背景技术

语音识别技术，利用其开发方法和技术来识别计算机的语言或者文本。目前所使用的语音识别技术在识别人的语音时，在人说话产生停顿时，就不会再去识别；因此，现有的语音识别技术并不精确，容易导致在语音识别到一半的情况下停下来；

通过改进技术来识别语音断句时，需要分析识别语音含有的停顿时间是否在预设值范围内，当检测到停顿时间不在预设长度范围内时，则无法识别语句中的断句；使用例如上式方法对断句进行识别并不精确，由于人说话时是需要经过思考，因此讲话时的停顿是不固定的，通过上述方法来识别语音是并不精确的；

现有一种语音识别方法，申请号为201910745022.3中通过识别第一待处理语音信息获取停顿时长，根据说话时的语速分析应该给予第二段的时长，能够给予人们足够的反应时间使得智能终端识别，但是在识别的过程中，并不能判断出当前所识别的第一语音信息和第二语音信息是否具备关联度，无法让智能终端了解到识别的是处理同一个关键词还是多个关键词，处理的效率并不高。因此，需要对此技术进行改进。

发明内容

本发明的目的在于提供一种基于语音识别的移动终端控制系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于语音识别的移动终端控制方法，该方法包括：

获取第一待识别语音信息；

根据所获取的第一待识别语音信息判断停顿时长和语音时长；

若所述第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长，则获取第二待识别语音信息；

获取第二待识别语音信息，判断第二待识别语音信息与第一待识别语音的关联度；

若第二待识别语音信息与第一待识别语音信息的关联度大于预设关联度，则能够根据第一待识别语音信息中的停顿时长获取第二语音信号标准时长；

若所述第一待识别语音信息停顿时长大于第二预设停顿时长，则无法识别语音信息。

进一步的，所述第二待识别语音信息与第一待识别语音信息的关联度具体如下：

根据第一待识别语音信息，分析语音信息中所存在的关键词，标记关键词在第一待识别语音信息中的位置，判断距离关键词所在位置的最接近位置是否存在停顿时长，若存在停顿时长，则判断第二待识别语音信息中是否包括有与关键词相关联的完整关键词；

将第一待识别语音信息中的原关键词数据设定为向量值

，将第二待识别语音信息中存在的完整关键词设定为向量

并与在原关键词后触发数据库中的关键词向量

相比对，m是指数据项；

指第m个关键词向量；

当检测到第二待识别语音信息中存在的完整关键词向量

与数据库中的关键词向量

完全相等，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

的相关度高；

当检测到第二待识别语音信息中存在的完整关键词向量

与数据库中的关键词向量

不相等，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

的相关度低；

；

其中，

表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

之间的夹角，

表示第一待识别语音信息中的原关键词向量

的模，

表示第二待识别语音信息中的原关键词向量

的模，

是指第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

的相似度；

，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

完全相等；

，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

不相等。进一步的，获得第二待识别语音信息中形成的最短停顿时长

和最长停顿时长

；

在触发原关键词后获取数据库中的关键词向量中最长的关键词字数量为

，最短的关键词数量为

，得到第二语音信号标准时长

，

是指误差停顿时长，

是指不包含停顿时的第一待识别语音信息中的误差时速。

进一步的，一种基于语音识别的移动终端控制系统，该系统包括语音信息拾取模块、语音信息处理模块、语音信息控制模块和中心处理模块；

所述语音信息拾取模块，通过拾取第一待识别语音信息中的停顿时长，分析包括停顿时长的第一待识别语音信息的语音速度和第一待识别语音信息中的语音速度，从而分析得到第二待识别语音信息；

所述语音信息处理模块，获取语音信号中的关键词，判断距离第一待识别语音信息最接近位置是否存在停顿时长，若存在停顿时长，拾取与第二待识别语音信息中相关的完整关键词进行比对，从而能够分析第二语音信号标准时长；

所述语音信息控制模块，在触发原关键词后获取数据库中所保存的关键词数量，以及根据第一待识别语音信息中的停顿时长分析第二语音信号标准时长，从而能够使得智能终端能够清楚识别语音信号，不会导致识别中途中断；

所述中心处理模块用于对上述模块相互控制并处理；所述中心处理模块与语音信息拾取模块、语音信息处理模块和语音信息控制模块相连接。

所述语音信息拾取模块包括语音停顿时长捕捉单元、语音时长捕捉单元、语音速度提取单元和语音时速更新单元；

所述语音停顿时长捕捉单元，获取第一待识别语音信息，分析第一待识别语音信息中是否存在停顿时长，若存在停顿时长则提取停顿时长；

所述语音时长捕捉单元，根据所述第一待识别语音信息，分析在包含或者不包含停顿时长时的第一待识别语音信息的语音时长，从而能够分析出语音时长的区别；

所述语音速度提取单元，根据所述第一待识别语音信息，分析在不包含停顿时长时的第一待识别语音信息的语音速度；

所述语音时速更新单元，根据所述第一待识别语音信息，分析在包含停顿时长时的第一待识别语音信息的语音速度；

所述语音停顿时长捕捉单元的输出端与语音时长捕捉单元、语音速度提取单元和语音时速更新单元的输入端电性连接。

所述语音信息处理模块包括语音停顿位置提取单元、关键词数据库单元、向量对比分析单元和语音关联性分析单元；

所述语音停顿位置提取单元，根据所述第一待识别语音信息，分析在第一待识别语音信息中距离原关键词向量位置的最接近位置是否存在停顿时长，若存在停顿时长，拾取第二待识别语音信息中完整关键词；

所述关键词数据库单元，在触发第一待识别语音信息中原关键词后保存数据库中的关键词向量；

所述向量对比分析单元，将第一待识别语音信息中原关键词与所述数据库中的关键词向量分析比对，从而分析出第一待识别语音信息中的原关键词向量与第二待识别语音信息中存在的完整关键词向量是否相等；

所述语音关联性分析单元，根据第二待识别语音信息中完整关键词与所述数据库中的关键词向量比对分析出相关度，从而能够分析出第一待识别语音信息与第一待识别语音信息是否存在关联，从而能够更好的控制第二语音信号标准时长；

所述语音关联性分析单元的输出端与语音停顿位置提取单元、关键词数据库单元和向量对比分析单元的输入端电性连接。

所述语音信息控制模块包括关键词数量获取单元、语音时长推测单元和语音控制单元；

所述关键词数量获取单元，获取关键词数据库单元所保存最长和最短的关键词向量；

所述语音时长推测单元，根据所述最长和最短的关键词向量得到第二语音信号标准时长的最短时长和最长时长；

所述语音控制单元，获取标准时长内的语音信息使得智能终端对语音信息识别并控制；

所述语音控制单元的输出端与关键词数量获取单元和语音时长推测单元的输入段电性连接。

与现有技术相比，本发明所达到的有益效果是：

1.本发明可以通过所识别的第一待处理语音信息获取第一停顿时长，并从中分析停顿语速和第一待处理语音信息的总语速，分析第一处理信息中的停顿位置和关键词位置，根据所设置的第二待处理语音信息，分析第二待处理语音信息和第一待处理语音信息的相关度，从而能够分析出第二待处理语音信息所提及的关键词是否与第一待处理语音信息中的关键词相同，能够更紧密分析得到第二待处理语音信息的标准时长；通过上述方法，不再仅仅根据语音的时长是否满足预设条件而确定时长特征，保证了只有在人说话完整结束时，智能终端才能去反应控制，提升了识别的精准度和准确度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于语音识别的移动终端控制系统及方法的模块组成示意图；

图2是本发明一种基于语音识别的移动终端控制系统及方法的步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1-图2，本发明提供技术方案：

一种基于语音识别的移动终端控制方法，该方法包括：

获取第一待识别语音信息；

在判断过程中，当检测到一个人对终端讲到，例如第一待识别语音信息为“hey,siri,帮我打电话给□□□□□□”后续没有与控制终端的交互命令时，则分析出第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长，当检测到停顿时长大于第二停顿时长时，则能够判断出智能终端无需再去识别对应的语音信号；

例如，第一待识别语音信息为“hey,siri,帮我打电话给那什么嗯□□□”第二待识别语音信号为“打电话给那谁□□10086”时，能够判断出第一待识别语音信息和第二待识别语音信息是同一个语音主题；则能够继续分析出两个待识别语音信息的关联度，从而能够分析出相给予的第二时长的具体值；

其中；□是指停顿。

将第一待识别语音信息中的原关键词数据设定为向量值

，将第二待识别语音信息中存在的完整关键词设定为向量

并与在原关键词后触发数据库中的关键词向量

相比对，m是指数据项；

指第m个关键词向量；

当检测到第二待识别语音信息中存在的完整关键词向量

与数据库中的关键词向量

完全相等，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

的相关度高；

当检测到第二待识别语音信息中存在的完整关键词向量

与数据库中的关键词向量

不相等，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

的相关度低；

；

其中，

表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

之间的夹角，

表示第一待识别语音信息中的原关键词向量

的模，

表示第二待识别语音信息中的原关键词向量

的模，

是指第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

的相似度；

，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

完全相等；

，表示第一待识别语音信息中的原关键词向量

与第二待识别语音信息中存在的完整关键词向量

不相等；

当在例子“hey,siri,帮我打电话给那什么嗯□□□”中，所检测到的关键词是指“打电话”，检测到距离关键词最近的是指“那什么嗯”并没有明确表明打电话所指内容，因此，可以触发原关键词“打电话”，获得关键词“打电话”的名单，例如“10086、程先生、贺太太”等，并根据第二待识别信息中“打电话给那谁□□10086”，将10086与关键词库进行比对，分析第一语音待识别信息与第二待识别信息关键词的相似度和相关度，分析出第一语音待识别信息与第二语音待识别信息之间的相关度；

在判断过程中，仅仅只有通过余弦相似度进行比较，才能够分析得到第一待识别语音信息中的原关键词向量与第二待识别语音信息中存在的完整关键词向量之间的相似度，并且只有根据相似度才能够分析得出两个语音信号之间的相关度，促进了两个语音信号的交融程度。

再次过程中，分析判断出第一待识别语音信息中的字数数量，通过根据字数数量能够分析出第一待识别语音中的语速，其中不包括停顿时的语速；通过计算

能够得到停顿时长，并根据停顿时长分析此内的语速。

进一步的，获得第二待识别语音信息中形成的最短停顿时长

和最长停顿时长

；

；

，最短的关键词数量为

，得到第二语音信号标准时长

，

是指误差停顿时长，

是指不包含停顿时的第一待识别语音信息中的误差时速；

在此过程汇中，由于关键词的数量并不一致，因此，在这里设置了不同第二标准时长的最长时长和最短时长。

实施例1：一人对手机控制终端说“请帮我打开那个嗯,那什么□□□软件”“□□□软件名称是那个什么□□□”；

其中，软件是关键词，在触发原关键词后获取数据库中的关键词向量具体为”网易云音乐、支付宝、淘宝、微信、QQ、办公、视频”等；

根据所获取的第一待识别语音信息判断停顿时长和语音时长，记录语音识别过程中的语音字数开始记录时刻

=0和语音字数结束记录时刻

=5，则检索到的含有5个字的关键词是指“网易云音乐”；

是指不包含停顿时的第一待识别语音中的时长，具体为

=2.3，

是指包含停顿时的时长，具体为

=0.95s；

第一待识别语音信息中的字数数量为d=

-

=5-0=5；

得到不包括停顿时长的第一待识别语音中的语速为：

=5/2.3=2.1字/s；

得到包括停顿时长的第一待识别语音中的语速为：

=2.28；

得到停顿时的语速为：

=0.18。

实施例2：获取第二待识别语音信息，根据第一待识别语音信息中的停顿时长形成的向量

预先与第二待识别语音信息中的停顿时长向量

相对比，获得第二待识别语音信息中形成的最短停顿时长

和最长停顿时长

；其中

是指0.3s；检测到所识别的最短的关键词数量={QQ、办公、视频}为

=2，最长的关键词字数量{网易云音乐}为

=5，

；

；

因此，第二标准时长的最小值为1.58s,第二标准时长的最大值为3.57s。

，最短的关键词数量为

，得到第二语音信号标准时长

，

是指误差停顿时长，

是指不包含停顿时的第一待识别语音信息中的误差时速。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。