CN112927691B

CN112927691B - 一种语音识别控制装置和方法

Info

Publication number: CN112927691B
Application number: CN202110202028.3A
Authority: CN
Inventors: 杨国振; 张佩; 郭傲兵; 张环; 王钦钊; 张雷; 韩斌; 郭理彬; 程晓燕
Original assignee: Academy of Armored Forces of PLA
Current assignee: Academy of Armored Forces of PLA
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2023-01-20
Anticipated expiration: 2041-02-23
Also published as: CN112927691A

Abstract

本发明涉及一种语音识别控制装置和方法，一种语音识别控制装置包括语音获取装置、语音识别装置、信息传输装置、主机和供电装置；所述语音获取装置包括用于采集指纹的指纹采集器和用于接收语音的麦克风；所述语音识别装置包括语音处理装置、语音匹配装置和语音转换装置，所述语音处理装置与语音获取装置相连，用于接收语音获取装置传输过来的语音信息并进行处理；所述语音匹配装置与语音处理装置相连；所述语音转换装置与语音匹配装置和语音处理装置相连，用于对语音信息进行转换并输出转换后的结果；所述信息传输装置用于将语音识别装置发出的语音信息传输至主机；所述供电装置用于对所述语音获取装置、语音识别装置、信息传输装置和主机进行供电。本发明提供的一种语音识别控制装置具有语音识别准确率高，更符合使用需求的有益效果。

Description

一种语音识别控制装置和方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别控制装置和一种语音识别控制方法。

背景技术

许多车辆装备有语音对话、语音制动或语音控制的装置。语音对话装置可以基于言语命令执行功能、提供信息或提供响应。语音对话装置可以将来自麦克风的声音处理或转换为音频信号或其他类型信号。语音识别可以应用到音频信号，并且识别的言语可以由语义解释器处理。基于言语命令的解释，诸如对话控制装置的系统可以执行动作，产生响应或执行其他功能。响应可以是例如音频信号、文本信号、命令信号，由车辆系统进行的动作，或对车辆操作人员的其他通知的形式。

声音命令的清楚和辨识能力可以影响语音激活车辆系统的功能。然而麦克风在减小声音命令的清晰度的情况下会经常接收与言语和非言语相关的声音的信号。与非言语相关的声音包括车辆相关的噪音、车辆外部的噪音、音频系统的声音以及其他声音。非言语相关的声音可能经常大于言语命令，导致语音识别装置曲解言语命令。

而且目前已存在的技术可以检测用户张口的时间作为用户的发言时间，但是当其他非主要用户发言时，系统也经常将其张口的时间作为用户发言时间，因此语音信息中存在不必要的信息，使得通信业务量增加；某些情况下，当用户发言时，包括用户以外的其他人员的声音被包括在声音信息中，也不便于提取主用户的发声信息。

因此，需要对语音信息的起始截取区间进行控制，即需要有触发语音获取的装置，且需要对获取到的语音信息进行处理，转换为有效的语音信息或其他类型信息。

发明内容

本发明意在提供一种语音识别控制装置和语音识别控制方法，以解决现有技术中存在的不足，本发明要解决的技术问题通过以下技术方案来实现。

一种语音识别控制方法，包括如下步骤：

步骤一：通过指纹采集器对用户进行指纹采集；

步骤二：根据用户指纹信息从语音库中进行语音特征信息提取；

步骤三：获取用户发声阶段的环境语音信息；

步骤四：基于用户的语音特征信息对环境语音信息进行处理并获得用户语音信息；

步骤五：传输用户语音信息。

优选的，所述步骤三中获取用户发声阶段的环境语音信息才用如下方法的其中一种方式进行：

方法一：通过摄像机拍摄环境图样；根据采集到的用户指纹信息从脸部信息存储器中提取用户脸部特征信息并在环境图样中锁定该用户；通过开口状态检测单元检测该用户是否开口说话；提取该用户开口说话阶段的环境语音信息。

方法二：通过触发控制装置控制是否进行环境语音信息的截取。

一种语音识别控制装置，包括语音获取装置、语音识别装置、信息传输装置、主机和供电装置；所述语音获取装置包括用于采集指纹的指纹采集器和用于接收语音的麦克风；所述语音识别装置包括语音处理装置、语音匹配装置和语音转换装置，所述语音处理装置与语音获取装置相连，用于接收语音获取装置传输过来的语音信息并进行处理；所述语音匹配装置与语音处理装置相连，用于对处理后的语音信息进行语音匹配并得出语音匹配结果；所述语音转换装置与语音匹配装置和语音处理装置相连，用于对语音信息进行转换并输出转换后的结果；所述信息传输装置用于将语音识别装置发出的语音信息传输至主机；所述供电装置用于对所述语音获取装置、语音识别装置、信息传输装置和主机进行供电。

优选的，所述语音获取装置还包括触发控制装置，用于控制是否接收语音信息，以及对接收到的语音信息是否触发后续的语音识别装置。

优选的，所述触发控制装置内置唤醒装置或触发按钮。

优选的，所述语音获取装置还包括摄像机、脸部信息存储器和开口状态检测单元，所述摄像机用于拍摄环境图样；所述脸部信息存储器与所述摄像机和所述指纹采集器相连，用于对用户的脸部特征信息进行存储和读取；所述开口状态检测单元用于检测用户是否开口。

优选的，所述语音处理装置包括语音库存取装置、噪音处理装置和语音发送器，所述语音库存取装置用于基于指纹采集器采集的指纹信息对用户语音特征信息进行存储和读取，所述噪音处理装置用于基于用户的语音特征信息对从语音获取装置接收到的语音信息进行回声消除和降噪，所述语音发送器用于将回声消除和降噪后的语音信息发送给语音识别装置。

优选的，所述语音匹配装置包括语音模型存储芯片，所述语音模型存储芯片内置语音模型库，所述语音模型库用于将从语音处理装置处获取的语音信息与语音模型库进行匹配，并将匹配到的语音词条发送给语音转换装置。

优选的，所述语音转换装置包括命令词存储芯片，所述命令词存储芯片内置命令词库，所述命令词库与所述语音模型库具有映射关系，当语音匹配装置匹配后的语音词条在命令词库中找到对应词时，将发送命令词至主机，如果找不到对应词，则发送语音词条至主机。

优选的，所述命令词储存芯片中储存命令词和命令词代码信息，当语音匹配装置匹配后的语音词条在命令词库中找到对应词时，将发送命令词代码至主机，如果找不到对应词，则发送语音词条至主机。

根据本发明提供的一种语音识别控制方法和一种语音识别控制装置，用户先进行指纹登录，系统根据采集的指纹信息在语音库中找到该用户的语音特征信息，从而便于对用户声音的识别以及提取，用户连续两次发出唤醒词时，即开始获取语音信息，或者，当用户点按触发按钮时，即开始获取语音信息，或者，根据用户脸部特征信息锁定用户并检测该用户是否开口说话，从而获取该用户开口讲话时的语音信息，这样可有效避免无效的其他音频信息的介入；且语音处理装置可以将获取到的语音进行降噪和回声消除，大大增强了语音信息的质量；语音匹配装置内置语音模型库，语音模型库中包含装甲车辆训练及检测过程中所需的语音信息，这样在进行语音匹配时可以有效过滤到与训练及检测无关的其他信息，保证语音信息的有效性及准确性，且语音转换装置内置命令词库，在装甲车部队训练或检测过程中，有时会预紧急情况，则向主机发送命令词或命令词代码更能有效的节省反应时间，增加训练或检测的效率；综上，本实用信息提供的一种语音识别控制装置具有语音识别准确率高，更符合使用需求的有益效果。

附图说明

图1为本发明语音识别控制方法的流程示意图；

图2为图1中获取环境语音信息的实现方式的一种实施例的流程示意图；

图3为本发明的语音识别控制装置的结构示意图；

图4为本发明的语音获取装置的一种实施例的结构示意图；

图5为本发明的语音获取装置的另一实施例的结构示意图；

图6为本发明的语音识别装置的结构示意图；

图7为本发明的语音处理装置的结构示意图。

附图中的附图标记依次为：1、语音获取装置，11、麦克风，12、触发控制装置，13、指纹采集器，14、摄像机，15、脸部信息存储器，16、开口状态检测单元，121、唤醒装置，122、触发按钮，2、语音识别装置，21、语音处理装置，211、噪音处理装置，212、语音发送器，213、语音库存取装置，22、语音匹配装置，23、语音转换装置，3、信息传输装置，4、主机，5、供电装置。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。

实施例1：

参照图1所示，一种语音识别控制方法，其改进之处在于：包括如下步骤：

步骤一：通过指纹采集器13对用户进行指纹采集；

步骤三：获取用户发声阶段的环境语音信息；

步骤五：传输用户语音信息。

实际情况下，装甲车辆中承载不止一名训练人员，现场获取语音信息时，往往无法区分是否是主发言人员的语音信息从而导致提取的语音信息不准确，本实施例中，首先对使用该语音识别装置的人员进行指纹采集，根据采集到的指纹信息在语音库中对该用户的语音特征信息进行提取，从而更好的识别该用户是否发声，然后再提取该用户发声阶段的环境语音信息，这样避免无效的语音信息被截取而使得系统的通信业务增加，并且因为有了该用户的语音特征信息，从而更便于将除了该用户的发声信息之外的其他用户的声音及环境噪声或回声剔除，使得最终获取的语音信息准确性更高，更加有效。

进一步的，参照图2所示，所述步骤三中获取用户发声阶段的环境语音信息才用如下方法的其中一种方式进行：

方法一：通过摄像机14拍摄环境图样；根据采集到的用户指纹信息从脸部信息存储器15中提取用户脸部特征信息并在环境图样中锁定该用户；通过开口状态检测单元16检测该用户是否开口说话；提取该用户开口说话阶段的环境语音信息。通过锁定用户并检测用户是否开口来提取环境语音信息，能够避免通过声音特征分析来进行环境语音信息提取的因略微延迟而导致的失字现象。

方法二：通过触发控制装置12控制是否进行环境语音信息的截取。

实施例2：

参照图3、图4和图6所示，一种语音识别控制装置，其改进之处在于：包括语音获取装置1、语音识别装置2、信息传输装置3、主机4和供电装置5；所述语音获取装置1包括用于采集指纹的指纹采集器13和用于接收语音的麦克风11；所述语音识别装置2包括语音处理装置21、语音匹配装置22和语音转换装置23，所述语音处理装置21与语音获取装置1相连，用于接收语音获取装置1传输过来的语音信息并进行处理；所述语音匹配装置22与语音处理装置21相连，用于对处理后的语音信息进行语音匹配并得出语音匹配结果；所述语音转换装置23与语音匹配装置22和语音处理装置21相连，用于对语音信息进行转换并输出转换后的结果；所述信息传输装置3用于将语音识别装置2发出的语音信息传输至主机4；所述供电装置5用于对所述语音获取装置1、语音识别装置2、信息传输装置3和主机4进行供电。

本实施例中，设有专门的语音获取装置1，可以截取有效的语音信息并传输给语音识别装置2，而语音处理装置21可以对接收到的语音信息进行预处理，增加语音片段的有效性，语音匹配装置22可以对接收到的语音信息匹配到装甲车部队训练或检测过程中常用或所需用到的有效语音信息，从而大大增强语音传输的实用性，语音转换装置23可以将语音信息转换为更加高效的命令词或命令词代码；本实施例中的语音识别控制装置在完成语音接收、识别、传输的整个过程的同时，大大增强了语音信息的有效性。并且在获取语音信息前，用户先进行指纹登录，系统根据采集的指纹信息在语音库中找到该用户的语音特征信息，从而便于对用户声音的识别以及提取。

实施例3：

在实施例2的基础上，参照图4所示，所述语音获取装置1还包括触发控制装置12，用于控制是否接收语音信息，以及对接收到的语音信息是否触发后续的语音识别装置2。触发控制装置12的设置，可以提高获取语音信息的有效音频段。

进一步的，所述触发控制装置12内置唤醒装置121或触发按钮122。唤醒装置121，将用户发出的语音信息与唤醒装置121内置的唤醒词库进行匹配，用户需连续发出两次与唤醒词库中的信息相匹配的语音信息，则语音获取装置1和语音识别装置2被触发启动，唤醒装置121内的唤醒词库为装甲车部队日常所用交流词，且为特定句型，且唤醒触发需连续两次发出唤醒词库中的唤醒词，因为词型固定，且发出次数固定，所以可以达到很高的唤醒准确率，避免无效语音信息的输入。当用户连续两次发出唤醒词库中的唤醒词时，即开始获取语音信息，例如，用户发出“报告、报告”或“打开**、打开**”词样时，即启动语音获取装置1进行音频的截取。或者，用户点按触发按钮122后发出语音信息，语音信息结束后续再次点按触发按钮122；触发按钮122的设置可以机械的控制语音输入的起始点，使得语音段的截取更加的准确。

实施例4：

在实施例2的基础上，参照图5所示，所述语音获取装置1还包括摄像机14、脸部信息存储器15和开口状态检测单元16，所述摄像机14用于拍摄环境图样；所述脸部信息存储器15与所述摄像机14和所述指纹采集器13相连，用于对用户的脸部特征信息进行存储和读取；所述开口状态检测单元16用于检测用户是否开口。

本实施例中的语音获取装置1，通过摄像机14拍摄环境图样；根据采集到的用户指纹信息从脸部信息存储器15中提取用户脸部特征信息并在环境图样中锁定该用户；通过开口状态检测单元16检测该用户是否开口说话；提取该用户开口说话阶段的环境语音信息。通过锁定用户并检测用户是否开口来提取环境语音信息，能够避免通过声音特征分析来进行环境语音信息提取的因略微延迟而导致的失字现象。根据用户脸部特征信息锁定用户并检测该用户是否开口说话，从而获取该用户开口讲话时的语音信息，这样可有效避免无效的其他音频信息的介入。

实施例5：

在实施例2-4任一基础上，参照图7所示，所述语音处理装置21包括语音库存取装置213、噪音处理装置211和语音发送器212，所述语音库存取装置213用于基于指纹采集器13采集的指纹信息对用户语音特征信息进行存储和读取，所述噪音处理装置211用于基于用户的语音特征信息对从语音获取装置1接收到的语音信息进行回声消除和降噪，所述语音发送器212用于将回声消除和降噪后的语音信息发送给语音识别装置2。大大增强了语音信息的质量，更便于语音的识别。

进一步的，所述语音匹配装置22包括语音模型存储芯片，所述语音模型存储芯片内置语音模型库，所述语音模型库用于将从语音处理装置21处获取的语音信息与语音模型库进行匹配，并将匹配到的语音词条发送给语音转换装置23。语音模型库中包含装甲车辆训练及检测过程中所需的语音信息，这样在进行语音匹配时可以有效过滤到与训练及检测无关的其他信息，保证语音信息的有效性及准确性。

进一步的，所述语音转换装置23包括命令词存储芯片，所述命令词存储芯片内置命令词库，所述命令词库与所述语音模型库具有映射关系，当语音匹配装置22匹配后的语音词条在命令词库中找到对应词时，将发送命令词至主机4，如果找不到对应词，则发送语音词条至主机4。

进一步的，所述命令词储存芯片中储存命令词和命令词代码信息，当语音匹配装置22匹配后的语音词条在命令词库中找到对应词时，将发送命令词代码至主机4，如果找不到对应词，则发送语音词条至主机4。在装甲车部队训练或检测过程中，有时会预紧急情况，则向主机4发送命令词或命令词代码更能有效的节省反应时间，增加训练或检测的效率。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别控制方法，其特征在于：包括如下步骤：

步骤一：通过指纹采集器(13)对用户进行指纹采集；

步骤三：获取用户发声阶段的环境语音信息；

所述步骤三中获取用户发声阶段的环境语音信息采用如下方法的其中一种：方法一：通过摄像机(14)拍摄环境图样；根据采集到的用户指纹信息从脸部信息存储器(15)中提取用户脸部特征信息并在环境图样中锁定该用户；通过开口状态检测单元(16)检测该用户是否开口说话；提取该用户开口说话阶段的环境语音信息；

方法二：通过触发控制装置(12)触发进行环境语音信息的截取，所述触发控制装置(12)内置唤醒装置(121)或触发按钮(122)；

步骤四：基于用户的语音特征信息对环境语音信息进行处理并获得用户语音信息；步骤四包括：

基于用户的语音特征信息对环境语音信息进行回声消除和降噪；

根据处理后的语音信息在语音模型库中进行语音匹配，并得出语音词条；

根据语音词条在命令词库中匹配，找到对应命令词时，将命令词发送至主机(4)，如果找不到对应命令词，则发送语音词条至主机(4)；或者

根据语音词条在命令词库中匹配，找到对应命令词时，将命令词代码发送至主机(4)，如果找不到对应命令词，则发送语音词条至主机(4)；

步骤五：传输用户语音信息。

2.一种利用权利要求1所述的一种语音识别控制方法的语音识别控制装置，其特征在于：包括语音获取装置(1)、语音识别装置(2)、信息传输装置(3)、主机(4)和供电装置(5)；所述语音获取装置(1)包括用于采集指纹的指纹采集器(13)和用于接收语音的麦克风(11)，所述语音获取装置(1)还包括触发控制装置(12)，用于控制是否接收语音信息，以及对接收到的语音信息是否触发后续的语音识别装置(2)，所述触发控制装置(12)内置唤醒装置(121)或触发按钮(122)，所述语音获取装置(1)还包括摄像机(14)、脸部信息存储器(15)和开口状态检测单元(16)，所述摄像机(14)用于拍摄环境图样；所述脸部信息存储器(15)与所述摄像机(14)和所述指纹采集器(13)相连，用于对用户的脸部特征信息进行存储和读取；所述开口状态检测单元(16)用于检测用户是否开口；所述语音识别装置(2)包括语音处理装置(21)、语音匹配装置(22)和语音转换装置(23)，所述语音处理装置(21)与语音获取装置(1)相连，用于接收语音获取装置(1)传输过来的语音信息并进行处理，所述语音处理装置(21)包括语音库存取装置(213)、噪音处理装置(211)和语音发送器(212)，所述语音库存取装置(213)用于基于指纹采集器(13)采集的指纹信息对用户语音特征信息进行存储和读取，所述噪音处理装置(211)用于基于用户的语音特征信息对从语音获取装置(1)接收到的语音信息进行回声消除和降噪，所述语音发送器(212)用于将回声消除和降噪后的语音信息发送给语音识别装置(2)；所述语音匹配装置(22)与语音处理装置(21)相连，用于对处理后的语音信息进行语音匹配并得出语音匹配结果；所述语音转换装置(23)与语音匹配装置(22)和语音处理装置(21)相连，用于对语音信息进行转换并输出转换后的结果，所述语音匹配装置(22)包括语音模型存储芯片，所述语音模型存储芯片内置语音模型库，所述语音模型库用于将从语音处理装置(21)处获取的语音信息与语音模型库进行匹配，并将匹配到的语音词条发送给语音转换装置(23)；所述语音转换装置(23)包括命令词存储芯片，所述命令词存储芯片内置命令词库，所述命令词库与所述语音模型库具有映射关系，当语音匹配装置(22)匹配后的语音词条在命令词库中找到对应词时，将发送命令词至主机(4)，如果找不到对应词，则发送语音词条至主机(4)，所述命令词存储芯片中储存命令词和命令词代码信息，当语音匹配装置(22)匹配后的语音词条在命令词库中找到对应词时，将发送命令词代码至主机(4)，如果找不到对应词，则发送语音词条至主机(4)；所述信息传输装置(3)用于将语音识别装置(2)发出的语音信息传输至主机(4)；所述供电装置(5)用于对所述语音获取装置(1)、语音识别装置(2)、信息传输装置(3)和主机(4)进行供电。