CN111986674B

CN111986674B - 基于三级特征采集的智能语音识别方法

Info

Publication number: CN111986674B
Application number: CN202010811718.4A
Authority: CN
Inventors: 罗绍远
Original assignee: Guangzhou Simulation Robot Co ltd
Current assignee: Guangzhou Simulation Robot Co ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2021-04-09
Anticipated expiration: 2040-08-13
Also published as: CN111986674A

Abstract

本申请揭示了一种基于三级特征采集的智能语音识别方法、装置、计算机设备和存储介质，所述方法包括：进行声音采集处理，得到第一声音信号；对所述说话人的嘴唇进行图像采集处理，得到第二图像信号；向口腔内传感器集群发送信号获取要求；获取口腔内传感器集群发送的第三传感信号集；将第一声音信号、第二传感信号子集和第三传感信号子集共同输入第一语义识别模型中，得到第一识别文本；将第二图像信号、第一传感信号子集和第二传感信号子集共同输入第二语义识别模型中，得到第二识别文本；计算第一识别文本和第二识别文本之间的文本相似度值；若文本相似度值大于文本相似阈值，则将第一识别文本作为智能语音识别结果。

Description

基于三级特征采集的智能语音识别方法

技术领域

本申请涉及到计算机领域，特别是涉及到一种基于三级特征采集的智能语音识别方法、装置、计算机设备和存储介质。

背景技术

语音识别技术用于识别采集到的语音，其已大量应用于各领域中，例如智能机器人领域中，由于语音识别技术的应用，使得自然人与智能机器人之间的语音交流成为了可能。但是，传统的语音识别方案，其识别准确性仍存在不足，例如无法准确辨别差别较小的语音（例如，对于卷舌音和平舌音，当说话人较为发音较轻且较含糊时，传统的语音识别方案难以准确识别）。因此，传统的语音识别方案的识别准确性有待提高。

发明内容

本申请提出一种基于三级特征采集的智能语音识别方法，包括以下步骤：

S1、采用预设的声音采集设备对说话人进行声音采集处理，从而得到第一时间窗口内的第一声音信号；

S2、采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理，从而得到所述第一时间窗口内的第二图像信号；

S3、向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内；

S4、获取所述口腔内传感器集群发送的第三传感信号集；其中，所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成；所述第二传感信号子集的时间窗口等于所述第一时间窗口，所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端；所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端；

S5、将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理，从而得到所述第一语义识别模型输出的第一识别文本；其中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成；

S6、将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理，从而得到所述第二语义识别模型输出的第二识别文本；其中，所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成，所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成；其中，所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续；

S7、根据预设的相似度计算方法，计算所述第一识别文本和所述第二识别文本之间的文本相似度值，并判断所述文本相似度值是否大于预设的文本相似阈值；

S8、若所述文本相似度值大于预设的文本相似阈值，则将所述第一识别文本作为智能语音识别结果。

进一步地，所述口腔内参照物的外形为圆球状，所述口腔内传感器集群为压力传感器集群，所述口腔内传感器集群用于在所述说话人说话时感测所述口腔内参照物的表面受到的压力信号。

进一步地，所述说明人的口腔内还含有与所述口腔内参照物对应的口腔内信号发射物，所述口腔内信号发射物上预设的第一光信号发射器集群和第二光信号发射器集群，所述第一光信号发射器集群发射的光信号为可见光，所述第二光信号发射器集群发射的光信号为不可见光；所述口腔内传感器集群由第一光信号传感器集群和第二光信号传感器集群构成，所述第一光信号传感器集群用于感测所述第一光信号发射器集群发射的光信号，所述第二光信号传感器集群用于感测所述第二光信号发射器集群发射的光信号；所述向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内的步骤S3，包括：

S301、向所述口腔内信号发射物上的第一光信号发射器集群发送第一光信号发射要求，以使所述口腔内信号发射物上的第一光信号发射器集群发送光信号，从而所述说话人的口腔被可见光照亮；

S302、向所述口腔内信号发射物上的第二光信号发射器集群发送补充光信号发射要求，以使所述口腔内信号发射物上的第二光信号发射器集群发送不可见光；其中所述第二光信号发射器集群的总功率低于所述第一光信号发射器集群的总功率；

S303、向所述口腔内传感器集群中的第一光信号传感器集群发送第一光信号获取要求，以使所述第一光信号传感器集群进行信号采集，从而得到可见光信号集；

S304、向所述口腔内传感器集群中的第二光信号传感器集群发送第二光信号获取要求，以使所述第二光信号传感器集群进行信号采集，从而得到不可见光信号集；

S305、将所述可见光信号集和所述不可见光信号集汇总为所述口腔内传感器集群感测到的信号集。

进一步地，所述将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理，从而得到所述第一语义识别模型输出的第一识别文本；其中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成的步骤S5之前，包括：

S41、调取预先收集的指定数量的样本数据，其中每个样本数据均由预先收集的训练用语音和与所述训练用语音对应的训练用语义文本构成，并且所述训练用语音是对口含有口腔内参照物的自然人在说话时进行语音采集而得到的；

S42、将所述样本数据根据预设比例划分为训练数据和验证数据；

S43、利用所述训练数据输入预设的基于长短期记忆人工神经网络的识别模型中进行处理，从而得到训练后的暂时模型；

S44、利用所述验证数据对所述暂时模型进行验证处理，以得到验证结果，并判断验证结果是否为验证通过；

S45、若验证结果是否为验证通过，则将所述暂时模型记为第一语义识别模型。

进一步地，所述根据预设的相似度计算方法，计算所述第一识别文本和所述第二识别文本之间的文本相似度值，并判断所述文本相似度值是否大于预设的文本相似阈值的步骤S7之后，包括：

S71、若所述文本相似度值不大于预设的文本相似阈值，则将所述第一声音信号、所述第二图像信号和所述第二传感信号子集输入预设的第三语义识别模型中进行处理，从而得到第三识别文本；其中所述第三语义识别模型的训练数据由训练用声音信号、训练用图像信号、训练用传感信号集和对应的人工标注的文本构成，并且所述训练用声音信号、训练用图像信号和训练用传感信号集具有的时间窗口相同；

S72、根据预设的相似度计算方法，计算所述第一识别文本和所述第三识别文本之间的文本相似度值，并判断所述第一识别文本和所述第三识别文本之间的文本相似度值是否大于预设的文本相似阈值；

S73、若所述第一识别文本和所述第三识别文本之间的文本相似度值大于预设的文本相似阈值，则将所述第三识别文本作为智能语音识别结果。

本申请提供一种基于三级特征采集的智能语音识别装置，包括：第一声音信号获取单元，用于采用预设的声音采集设备对说话人进行声音采集处理，从而得到第一时间窗口内的第一声音信号；

第二图像信号获取单元，用于采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理，从而得到所述第一时间窗口内的第二图像信号；

信号获取要求发送单元，用于向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内；

第三传感信号集获取单元，用于获取所述口腔内传感器集群发送的第三传感信号集；其中，所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成；所述第二传感信号子集的时间窗口等于所述第一时间窗口，所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端；所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端；

第一识别文本获取单元，用于将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理，从而得到所述第一语义识别模型输出的第一识别文本；其中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成；

第二识别文本获取单元，用于将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理，从而得到所述第二语义识别模型输出的第二识别文本；其中，所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成，所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成；其中，所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续；

文本相似度值判断单元，用于根据预设的相似度计算方法，计算所述第一识别文本和所述第二识别文本之间的文本相似度值，并判断所述文本相似度值是否大于预设的文本相似阈值；

语音识别结果获取单元，用于若所述文本相似度值大于预设的文本相似阈值，则将所述第一识别文本作为智能语音识别结果。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于三级特征采集的智能语音识别方法、装置、计算机设备和存储介质，通过三级特征采集，以实现准确的语音识别。本申请可应用于任意可行场景，例如应用于智能餐厅中机器人与自然人服务生之间的语音交流场景（此时，自然人服务生口中可含有口腔内参照物，以便于机器人准确识别语音，并且由于语音识别的准确度上升，因此其还具有无需对自然人服务生的语言能力培训的优势）。其中，所述三级特征，分别指声音信号、嘴唇图像信号和口腔内传感器集群发送的传感信号集。传统的语音识别方案，只针对于声音信号进行语音识别，识别准确性不足（因为对于差异较小的语音，自然人能够进行模糊处理，从而得到准确信息，但是机器人无法进行模糊识别得到准确的语音信息），而本申请基于三级特征采集，实现智能语音识别，以保证识别准确性。更具体地，所述嘴唇图像信号自身也能单独作为语音识别的数据来源，其并行于声音信号；所述口腔内传感器集群发送的传感信号集，反应的是说话人口腔的状态，例如包括口腔内舌头位置、口腔开启大小和/或气流大小等等，此时，纵使说话人发音较轻，但是其口型、口腔结构会自然保持应有姿势，因此这些信息能够作为辅助信息，从而提高语音识别的准确性。

附图说明

图1 为本申请一实施例的基于三级特征采集的智能语音识别方法的流程示意图；

图2 为本申请一实施例的基于三级特征采集的智能语音识别装置的结构示意框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于三级特征采集的智能语音识别方法，包括以下步骤：

如上述步骤S1-S2所述，采用预设的声音采集设备对说话人进行声音采集处理，从而得到第一时间窗口内的第一声音信号；采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理，从而得到所述第一时间窗口内的第二图像信号。其中，声音采集设备可用任意可行设备，例如为麦克风阵列。一般而言，声音采集设备的精度越高，其识别结果越准确，但是其设备成本越高，然而本申请不同，并不需要过高精度的声音采集设备，即可实现准确的语音识别。这是因为本申请采用了三级特征作为语音识别的基础，能够通过非声音信号来改善语音识别准确性。并且，需要注意的是，其申请采集得到的第一声音信号和第二图像信号的时间窗口均相同，均是第一时间窗口，从而保证第一声音信号和第二图像信号均针对的是同一时间段的语音。所述第一时间窗口的长度可为任意可行长度，例如为0.5秒-30秒。所述第二图像信号采集的是所述说话人的嘴唇，意图用说话人的嘴唇动作来识别出语音文本；由于仅利用嘴唇动作来识别，其准确性较低，因此本申请还采用后续的口腔内传感器集群发送的传感信号作为补充，从而提高其准确性。

如上述步骤S3-S4所述，向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内；获取所述口腔内传感器集群发送的第三传感信号集；其中，所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成；所述第二传感信号子集的时间窗口等于所述第一时间窗口，所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端；所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端。其中，本申请的实施主体（例如为智能机器人）能够与口腔内传感器集群进行无线通信连接，其实现方式可为任意可行方式，例如所述口腔内参照物上还设置有无线信号收发器，通过所述无线信号收发器实现与口腔内传感器集群的信号交互。本申请的一大特点在于，采集并行的第一声音信号和第二图像信号，分别作为并行的语音识别的基础。另一大特点在于，采集口腔信号，以作为提高语音识别准确性的基础。其中，口腔信号通过的口腔内传感器集群来获取，并且所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内。所述口腔内参照物可以任意形式存在于口腔内，例如被说话人含在口腔内。由于自然人在说话发音时，需要唇齿喉舌牙的统一配合，因此若能获知口腔的具体信息，则能够提高语音识别的准确性。而当说话人口腔内具有口腔内参照物时，其说话发音时，必然会对口腔内参照物造成影响，而本申请利用口腔内参照物上预设的口腔内传感器集群进行传感信号采集，即可得知口腔信息。并且，还需要注意的一点是，本申请的口腔内传感器集群采集得到的第三传感信号集，其时间窗口与另外两级特征，即第一声音信号和第二图像信号的时间窗口是有差异的。即，所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成；所述第二传感信号子集的时间窗口等于所述第一时间窗口，所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端；所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端。从而，所述口腔内传感器集群采集得到的第三传感信号集的时间窗口长度要大于另外两级特征的时间窗口长度。这是本申请的特别之处，其原因在于，本申请发现自然人在说话发音时，其说话之初的声音强且清楚、说话之末的声音弱且含糊，所以在第一时间窗口之末处的声音信号的信息完备度会更差，而第一时间窗口之初的声音信号的信息完备度会更强。因此，本申请不仅采集第一时间窗口的第二传感信号子集，还采集第一时间窗口之后的第三传感信号子集，并将在后续把所述第二传感信号子集和所述第三传感信号子集共同作为提高声音识别准确性的依据，这是利用了自然人的行动惯性，即人具有在发声后其口腔会保持之前的状态的自然属性，因此第三传感信号子集有利于改善在第一时间窗口之末处的声音信号的信息完备度差的问题。另外，本申请还采集了第一时间窗口之后的第一传感信号子集，但并没有将其用于提高声音识别准确性，这是为了减少数据处理的复杂程度。一般而言，采用越多的数据，最终的分析结果越准确，但是其消费的计算资源与时间也越多。而本申请已经发现第一时间窗口之初的声音信号的信息完备度会更强，因此虽然第一传感信号子集也具有提高声音识别准确性的功效，但其提升效果有限，因此未用于提高声音识别准确性，而将其用于他处，即用于提高利用第二图像信号进行语义识别的准确性上。其中，所述口腔内参照物优选为外表具有抗腐蚀性，以保证其不受口水液体的侵蚀。

进一步地，所述口腔内参照物的外形为圆球状，所述口腔内传感器集群为压力传感器集群，所述口腔内传感器集群用于在所述说话人说话时感测所述口腔内参照物的表面受到的压力信号。从而，能够利用所述口腔内参照物感知口腔内结构与状态，并以压力信号的形式进行展示。此时，例如当说话人发音较轻，而无法准确识别为卷舌音还是平舌音时，通过口腔内传感器集群即可得知口腔内参照物所受压力状态，进而得知舌头是卷起还是未卷起（无论口腔内参照物在口腔内的何处，舌头卷起或者未卷起，口腔内参照物受到的压力是不同的），从而得到最终的准确识别结果。进一步地，所述口腔内参照物上还设置有位置传感器集群，用于辅助获取口腔内参照物在口腔内的位置，从而更准确地获取口腔内状态。

从而更准确得知口腔内状态，提高最终的识别准确性。需要注意的是，本申请采用了特殊的设置，以使得口腔信息被准确获取，即，所述说明人的口腔内还含有与所述口腔内参照物对应的口腔内信号发射物，所述口腔内信号发射物上预设的第一光信号发射器集群和第二光信号发射器集群，所述第一光信号发射器集群发射的光信号为可见光，所述第二光信号发射器集群发射的光信号为不可见光；所述口腔内传感器集群由第一光信号传感器集群和第二光信号传感器集群构成，所述第一光信号传感器集群用于感测所述第一光信号发射器集群发射的光信号，所述第二光信号传感器集群用于感测所述第二光信号发射器集群发射的光信号。口腔内大部分时间是缺少光线的，因此本申请设置了第一光信号发射器集群以发射可见光，而可见光在口腔内漫反射，因此第一光信号传感器集群感测到的光信号能够反应口腔内的结构。不仅如此，本申请的另一个特殊之处在于，还采用了不可见光作为信息补充，即第二光信号发射器集群发射的光信号为不可见光，再利用第二光信号传感器集群感测所述第二光信号发射器集群发射的光信号，从而进行补充光信号的采集。其中，所述第二光信号发射器集群发射的光信号可为任意可行光信号，例如为紫外光等，优选为穿透力较强的不可见光，例如选择穿透力大于可见光的不可见光作为光信号。之所以选择不可见光作为信息补充，其原因之一是为了防止当口腔内信号发射物被压在角落（例如被舌头完全覆盖），此时采用仍能发射的不可见光（例如选用穿透力较强的光信号）以作为信息补充。并且，为了防止万一，防止人体可能受到伤害，因此本申请不以不可见光作为主要探测手段，即所述第二光信号发射器集群的总功率低于所述第一光信号发射器集群的总功率。

如上述步骤S5-S6所述，将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理，从而得到所述第一语义识别模型输出的第一识别文本；其中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成；将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理，从而得到所述第二语义识别模型输出的第二识别文本；其中，所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成，所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成；其中，所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续。此时，采用并行处理的方式，分别以所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集；以所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集为依据，进行语义识别处理，以分别得到第一识别文本和第二识别文本。在此处需要注意，虽然所述第一传感信号子集不作为第一语义识别模型处理的依据，但却作为第二语义识别模型处理的依据，这是为了在尽量计算量浪费的情况下，最大化利用数据，以获取更准确的识别结果。其中，由于人自身保持发声惯性的自然属性，所述第一训练用传感信号子集实际上也对语义识别具有正面影响，但在本申请中未用于与声音识别相关的第一语义识别模型中，而本申请将其用于图像识别相关的第二语义识别模型中，这是因为第二语义识别模型是以图像识别为基础的，相较于第一语义识别模型，其准确性较低，而所述第一训练用传感信号子集对于其识别准确性的提高更显著，因此将其用于图像识别相关的第二语义识别模型中；同时，第二语义识别模型并未以所述第三传感信号子集作为输入，这是为了避免数据的重复使用而导致计算量过大。本申请采用的神经网络模型可为任意可行模型，例如为循环神经网络模型、深度神经网络模型、BP神经网络模型和/或长短期记忆人工神经网络等。并在训练过程中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成；所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成，所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成。从而使得各传感信号子集对于识别结果的影响，以影响神经网络各层参数的方式，对最终的输出造成影响，从而提高识别准确性。并且，第一语义识别模型和第二语义识别模型分别采用的训练数据并非是独立的数据，而是互相关联的，即所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续。

从而得到训练完成的第一语义识别模型。并且第一语义识别模型的训练数据，并不是普通的声音数据，而是说话人在口含有口腔内参照物进行说话时的声音数据，从而使得训练数据更贴近于本申请的真实环境，因此训练得到的第一语义识别模型在特定环境下的识别准确性更高（即本申请的应用环境中）。并且，本申请还采用长短期记忆人工神经网络模型作为初始模型，且长短期记忆人工神经网络是一种时间循环神经网络，能够解决的时间上的依赖问题，因此尤为适合本申请。

如上述步骤S7-S8所述，根据预设的相似度计算方法，计算所述第一识别文本和所述第二识别文本之间的文本相似度值，并判断所述文本相似度值是否大于预设的文本相似阈值；若所述文本相似度值大于预设的文本相似阈值，则将所述第一识别文本作为智能语音识别结果。其中，所述相似度计算方法可采用任意可行算法，例如，通过查询预设的词向量库，从而将所述第一识别文本和所述第二识别文本分别映射为第一词向量序列和第二词向量序列，再计算所述第一词向量序列和第二词向量序列之间的相似度值，而向量间的相似度值，可采用余弦相似度算法来计算，并将得到的所述第一词向量序列和第二词向量序列之间的相似度值作为所述第一识别文本和所述第二识别文本之间的文本相似度值。若所述文本相似度值大于预设的文本相似阈值，则表明所述第一识别文本和所述第二识别文本之间含义相同或近乎相同，因此将所述第一识别文本作为智能语音识别结果。

从而在所述第一识别文本和所述第二识别文本不一致的情况下，做出最后的补偿操作，以保证最终输出结果的准确性。其中，所述第一识别文本和所述第二识别文本分别由并行的第一语义识别模型和第二语义识别模型根据不同的输入（分别为所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集；所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集）处理得到，而没有任意一个模型是将所有数据全部作为输入。而在所述第一识别文本和所述第二识别文本不一致的情况下，本申请将所述第一声音信号、所述第二图像信号和所述第二传感信号子集输入预设的第三语义识别模型中进行处理，虽然也未将所有的数据均作为输入，但是却将对识别结果最为关键的三个数据统一作为第三语义识别模型的分析依据，以一定的计算量的代价下，保证识别结果的准确性。需要注意的是，由于第三语义识别模型是作为补偿作用，其识别结果更偏向于验证第一识别文本的准确性，因此本申请还通过根据预设的相似度计算方法，计算所述第一识别文本和所述第三识别文本之间的文本相似度值，并判断所述第一识别文本和所述第三识别文本之间的文本相似度值是否大于预设的文本相似阈值，若所述第一识别文本和所述第三识别文本之间的文本相似度值大于预设的文本相似阈值，则将所述第三识别文本作为智能语音识别结果的方式，保证最终结果的准确性。进一步地，若所述第一识别文本和所述第三识别文本之间的文本相似度值不大于预设的文本相似阈值，则应该放弃识别结果并报错，以便找出潜在的错误原因。

本申请的基于三级特征采集的智能语音识别方法，通过三级特征采集，以实现准确的语音识别。本申请可应用于任意可行场景，例如应用于智能餐厅中机器人与自然人服务生之间的语音交流场景（此时，自然人服务生口中可含有口腔内参照物，以便于机器人准确识别语音，并且由于语音识别的准确度上升，因此其还具有无需对自然人服务生的语言能力培训的优势）。其中，所述三级特征，分别指声音信号、嘴唇图像信号和口腔内传感器集群发送的传感信号集。传统的语音识别方案，只针对于声音信号进行语音识别，识别准确性不足（因为对于差异较小的语音，自然人能够进行模糊处理，从而得到准确信息，但是机器人无法进行模糊识别得到准确的语音信息），而本申请基于三级特征采集，实现智能语音识别，以保证识别准确性。更具体地，所述嘴唇图像信号自身也能单独作为语音识别的数据来源，其并行于声音信号；所述口腔内传感器集群发送的传感信号集，反应的是说话人口腔的状态，例如包括口腔内舌头位置、口腔开启大小和/或气流大小等等，此时，纵使说话人发音较轻，但是其口型、口腔结构会自然保持应有姿势，因此这些信息能够作为辅助信息，从而提高语音识别的准确性。

参照图2，本申请实施例提供一种基于三级特征采集的智能语音识别装置，包括：

第一声音信号获取单元10，用于采用预设的声音采集设备对说话人进行声音采集处理，从而得到第一时间窗口内的第一声音信号；

第二图像信号获取单元20，用于采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理，从而得到所述第一时间窗口内的第二图像信号；

信号获取要求发送单元30，用于向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内；

第三传感信号集获取单元40，用于获取所述口腔内传感器集群发送的第三传感信号集；其中，所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成；所述第二传感信号子集的时间窗口等于所述第一时间窗口，所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端；所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度，所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端；

第一识别文本获取单元50，用于将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理，从而得到所述第一语义识别模型输出的第一识别文本；其中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成；

第二识别文本获取单元60，用于将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理，从而得到所述第二语义识别模型输出的第二识别文本；其中，所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成，所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成；其中，所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续；

文本相似度值判断单元70，用于根据预设的相似度计算方法，计算所述第一识别文本和所述第二识别文本之间的文本相似度值，并判断所述文本相似度值是否大于预设的文本相似阈值；

语音识别结果获取单元80，用于若所述文本相似度值大于预设的文本相似阈值，则将所述第一识别文本作为智能语音识别结果。

其中上述单元分别用于执行的操作与前述实施方式的基于三级特征采集的智能语音识别方法的步骤一一对应,在此不再赘述。

本申请的基于三级特征采集的智能语音识别装置，通过三级特征采集，以实现准确的语音识别。本申请可应用于任意可行场景，例如应用于智能餐厅中机器人与自然人服务生之间的语音交流场景（此时，自然人服务生口中可含有口腔内参照物，以便于机器人准确识别语音，并且由于语音识别的准确度上升，因此其还具有无需对自然人服务生的语言能力培训的优势）。其中，所述三级特征，分别指声音信号、嘴唇图像信号和口腔内传感器集群发送的传感信号集。传统的语音识别方案，只针对于声音信号进行语音识别，识别准确性不足（因为对于差异较小的语音，自然人能够进行模糊处理，从而得到准确信息，但是机器人无法进行模糊识别得到准确的语音信息），而本申请基于三级特征采集，实现智能语音识别，以保证识别准确性。更具体地，所述嘴唇图像信号自身也能单独作为语音识别的数据来源，其并行于声音信号；所述口腔内传感器集群发送的传感信号集，反应的是说话人口腔的状态，例如包括口腔内舌头位置、口腔开启大小和/或气流大小等等，此时，纵使说话人发音较轻，但是其口型、口腔结构会自然保持应有姿势，因此这些信息能够作为辅助信息，从而提高语音识别的准确性。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于三级特征采集的智能语音识别方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于三级特征采集的智能语音识别方法。

上述处理器执行上述基于三级特征采集的智能语音识别方法，其中所述方法包括的步骤分别与执行前述实施方式的基于三级特征采集的智能语音识别方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，通过三级特征采集，以实现准确的语音识别。本申请可应用于任意可行场景，例如应用于智能餐厅中机器人与自然人服务生之间的语音交流场景（此时，自然人服务生口中可含有口腔内参照物，以便于机器人准确识别语音，并且由于语音识别的准确度上升，因此其还具有无需对自然人服务生的语言能力培训的优势）。其中，所述三级特征，分别指声音信号、嘴唇图像信号和口腔内传感器集群发送的传感信号集。传统的语音识别方案，只针对于声音信号进行语音识别，识别准确性不足（因为对于差异较小的语音，自然人能够进行模糊处理，从而得到准确信息，但是机器人无法进行模糊识别得到准确的语音信息），而本申请基于三级特征采集，实现智能语音识别，以保证识别准确性。更具体地，所述嘴唇图像信号自身也能单独作为语音识别的数据来源，其并行于声音信号；所述口腔内传感器集群发送的传感信号集，反应的是说话人口腔的状态，例如包括口腔内舌头位置、口腔开启大小和/或气流大小等等，此时，纵使说话人发音较轻，但是其口型、口腔结构会自然保持应有姿势，因此这些信息能够作为辅助信息，从而提高语音识别的准确性。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于三级特征采集的智能语音识别方法，其中所述方法包括的步骤分别与执行前述实施方式的基于三级特征采集的智能语音识别方法的步骤一一对应,在此不再赘述。

本申请的计算机可读存储介质，通过三级特征采集，以实现准确的语音识别。本申请可应用于任意可行场景，例如应用于智能餐厅中机器人与自然人服务生之间的语音交流场景（此时，自然人服务生口中可含有口腔内参照物，以便于机器人准确识别语音，并且由于语音识别的准确度上升，因此其还具有无需对自然人服务生的语言能力培训的优势）。其中，所述三级特征，分别指声音信号、嘴唇图像信号和口腔内传感器集群发送的传感信号集。传统的语音识别方案，只针对于声音信号进行语音识别，识别准确性不足（因为对于差异较小的语音，自然人能够进行模糊处理，从而得到准确信息，但是机器人无法进行模糊识别得到准确的语音信息），而本申请基于三级特征采集，实现智能语音识别，以保证识别准确性。更具体地，所述嘴唇图像信号自身也能单独作为语音识别的数据来源，其并行于声音信号；所述口腔内传感器集群发送的传感信号集，反应的是说话人口腔的状态，例如包括口腔内舌头位置、口腔开启大小和/或气流大小等等，此时，纵使说话人发音较轻，但是其口型、口腔结构会自然保持应有姿势，因此这些信息能够作为辅助信息，从而提高语音识别的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序或指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于三级特征采集的智能语音识别方法，其特征在于，包括：

S8、若所述文本相似度值大于预设的文本相似阈值，则将所述第一识别文本作为智能语音识别结果；

所述说话人的口腔内还含有与所述口腔内参照物对应的口腔内信号发射物，所述口腔内信号发射物上预设的第一光信号发射器集群和第二光信号发射器集群，所述第一光信号发射器集群发射的光信号为可见光，所述第二光信号发射器集群发射的光信号为不可见光；所述口腔内传感器集群由第一光信号传感器集群和第二光信号传感器集群构成，所述第一光信号传感器集群用于感测所述第一光信号发射器集群发射的光信号，所述第二光信号传感器集群用于感测所述第二光信号发射器集群发射的光信号；所述向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内的步骤S3，包括：

2.根据权利要求1所述的基于三级特征采集的智能语音识别方法，其特征在于，所述口腔内参照物的外形为圆球状，所述口腔内传感器集群为压力传感器集群，所述口腔内传感器集群用于在所述说话人说话时感测所述口腔内参照物的表面受到的压力信号。

3.根据权利要求1所述的基于三级特征采集的智能语音识别方法，其特征在于，所述将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理，从而得到所述第一语义识别模型输出的第一识别文本；其中，所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成，所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成的步骤S5之前，包括：

4.根据权利要求1所述的基于三级特征采集的智能语音识别方法，其特征在于，所述根据预设的相似度计算方法，计算所述第一识别文本和所述第二识别文本之间的文本相似度值，并判断所述文本相似度值是否大于预设的文本相似阈值的步骤S7之后，包括：

5.一种基于三级特征采集的智能语音识别装置，其特征在于，包括：第一声音信号获取单元，用于采用预设的声音采集设备对说话人进行声音采集处理，从而得到第一时间窗口内的第一声音信号；

语音识别结果获取单元，用于若所述文本相似度值大于预设的文本相似阈值，则将所述第一识别文本作为智能语音识别结果；

所述说话人的口腔内还含有与所述口腔内参照物对应的口腔内信号发射物，所述口腔内信号发射物上预设的第一光信号发射器集群和第二光信号发射器集群，所述第一光信号发射器集群发射的光信号为可见光，所述第二光信号发射器集群发射的光信号为不可见光；所述口腔内传感器集群由第一光信号传感器集群和第二光信号传感器集群构成，所述第一光信号传感器集群用于感测所述第一光信号发射器集群发射的光信号，所述第二光信号传感器集群用于感测所述第二光信号发射器集群发射的光信号；所述向预设的口腔内传感器集群发送信号获取要求；其中，所述口腔内传感器集群预设于口腔内参照物上，所述口腔内参照物位于所述说话人的口腔内，包括：

向所述口腔内信号发射物上的第一光信号发射器集群发送第一光信号发射要求，以使所述口腔内信号发射物上的第一光信号发射器集群发送光信号，从而所述说话人的口腔被可见光照亮；

向所述口腔内信号发射物上的第二光信号发射器集群发送补充光信号发射要求，以使所述口腔内信号发射物上的第二光信号发射器集群发送不可见光；其中所述第二光信号发射器集群的总功率低于所述第一光信号发射器集群的总功率；

向所述口腔内传感器集群中的第一光信号传感器集群发送第一光信号获取要求，以使所述第一光信号传感器集群进行信号采集，从而得到可见光信号集；

向所述口腔内传感器集群中的第二光信号传感器集群发送第二光信号获取要求，以使所述第二光信号传感器集群进行信号采集，从而得到不可见光信号集；

将所述可见光信号集和所述不可见光信号集汇总为所述口腔内传感器集群感测到的信号集。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。