CN115579000A

CN115579000A - 一种用于语音识别芯片的智能修正方法及系统

Info

Publication number: CN115579000A
Application number: CN202211565405.0A
Authority: CN
Inventors: 王嘉诚; 张少仲; 张栩
Original assignee: Zhongcheng Hualong Computer Technology Co Ltd
Current assignee: Zhongcheng Hualong Computer Technology Co Ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-01-06
Anticipated expiration: 2042-12-07
Also published as: CN115579000B

Abstract

本发明提供了一种用于语音识别芯片的智能修正方法及系统，涉及语音识别技术领域，其方法包括：将第一文本与标准文本进行相似度分析，得到第一相似结果；当第一相似结果大于或等于预设值时，按照预设方式修正语音识别芯片的识别构架；当第一相似结果小于预设值时，获取目标语音的语音场景，并根据场景特征以及两个文本之间的文本差异特征，构建每个文本差异特征的修正特征；预测修正特征对两个文本差异的修正级别，对修正特征进行调整，实现对语音识别芯片的识别构架的修正。通过建立目标语音的场景特征和文本差异特征之间的修正特征以及预测修正特征的修正级别来修正语音识别芯片的识别构架，实现对语音识别芯片的更新，进而有效保证识别精度。

Description

一种用于语音识别芯片的智能修正方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种用于语音识别芯片的智能修正方法及系统。

背景技术

随着科技的不断快速发展，计算机处理能力迅速提高，语音识别技术方面的发展也获得了巨大的飞跃，基于语音识别芯片来进行智能语音识别工作的新型产业不断涌现，促进了社会经济发展。

然而现有的芯片识别流程比较复杂且识别结果准确度不够高，在不够安静的环境下对语音不能清晰识别，且得到的识别结果往往与真正的语音含义存在偏差或歧义，从而导致一系列的负面影响，所以，修正语音识别芯片，以提高识别语音的精确度就显得尤其重要。

因此，本发明提出一种用于语音识别芯片的智能修正方法及系统。

发明内容

本发明提供一种用于语音识别芯片的智能修正方法及系统，用以通过建立目标语音的场景特征和文本差异特征之间的修正特征以及预测修正特征的修正级别来修正语音识别芯片的识别构架，实现对语音芯片的更新，进而有效保证了识别精度。

本发明提供一种用于语音识别芯片的智能修正方法，包括：

步骤1：获取目标语音以及目标语音的标准文本；

步骤2：采用语音识别芯片识别所述目标语音，获取第一文本，与所述标准文本进行相似度分析，得到第一相似结果；

步骤3：当第一相似结果大于或等于预设值时，按照预设方式修正语音识别芯片的识别构架；

步骤4：当第一相似结果小于预设值时，获取目标语音的语音场景，并根据语音场景的场景特征以及两个文本之间的文本差异特征，来构建每个文本差异特征的修正特征；步骤5：预测修正特征对两个文本差异的修正级别，根据修正级别对修正特征进行调整，按照所述修正特征对所述语音识别芯片的识别构架进行修正；

否则，按照预设标准对修正特征进行持续优化。

优选的，所述目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频；

所述标准文本是通过人为预先识别获取的。

优选的，采用语音识别芯片识别所述目标语音，获取第一文本，与所述标准文本进行相似度分析，得到第一相似结果，包括：

通过语音识别芯片接收目标语音，对所述目标语音进行频谱分析和降噪处理，得到第一处理结果；

对所述第一处理结果进行特征提取，获取得到目标语音特征；

调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配，得到对比结果；

分析所述对比结果，确定匹配度最高的关键词语为第一识别结果；

按照第一识别结果的识别顺序进行有序组合，构成第一文本；

对所述第一文本与标准文本进行相似度对比，得出第一相似结果。

优选的，对所述第一文本与标准文本进行相似度对比，得出第一相似结果，包括；

获取所述标准文本的标准特征向量；

获取所述第一文本的第一特征向量；

分别对所述标准特征向量和第一特征向量归一化处理，得到标准文本向量和第一文本向量；

对所述标准文本向量和第一文本向量进行相似度集合

，其中，

表示所述标准文本向量和第一文本向量中第i个元素之间的距离；

表示所述标准文本向量和第一文本向量中的元素个数；

其中，

的取值范围[0，

]；

表示第i个元素的元素类型；

表示正向影响的元素集合；

的取值范围[0，

]；

表示负向影响的元素集合；

为标准文本向量中第i个元素的坐标点；

表示第一文本向量中第i个元素的坐标点；

根据所述相似度集合D，筛选出满足标准距离条件的第一距离；

基于所有第一距离，确定出第一相似结果。

优选的，基于所有第一距离，确定出第一相似结果，包括：

计算所有第一距离的累计和

：

其中，

表示

距离；m1表示从相似度集合

中筛选出来满足标准距离条件的第一距离的总个数；

当

以及

时，将

作为第一相似结果；

其中，

表示相似度集合

中所有

的累加和；

1表示第一常数；

2表示第二常数。

优选的，获取目标语音的语音场景之后，还包括：

提取所述目标语音中非语音片段，并依次对每个非语音片段进行第一位置标注；

对每个非语音片段进行特征提取，获取对应子场景特征；

基于标注结果，集合所有子场景特征，确定所述语音场景的场景特征。

优选的，确定第一文本与标准文本之间的文本差异特征，并基于所述场景特征、文本差异特征，构建每个文本差异特征对应的修正特征，包括：

将所述标准文本和第一文本输入文本匹配模型中进行匹配预测，得到匹配概率值；

当所述匹配概率值小于预设匹配阈值时，确定当前存在的文本差异，并获取得到第一文本差异特征；

确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置，根据所述第一位置以及第二位置，确定所述第一文本与标准文本的差异位置特征，其中，所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的；

从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注，此时，将第一位置标注对应的非语音片段进行第一标记，得到第一标记片段；

提取所述第一标记片段对应的第一子场景特征；

获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位；

基于所述第一标记片段的第一位置标注，从所述目标语音中，提取第一目标语音片段，并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位；

根据第一相位与第二相位的相位差，对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理，得到每个第一文本差异特征对应的修正特征。

优选的，将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测，得到匹配概率值，包括：

获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量；

将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作，得到文本语义差异特征向量；

将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析，得到若干差异结果值；

对若干差异结果值分别进行公式运算，获取得到匹配概率值P，公式如下：

其中，

表示为第j个差异结果值对应的匹配概率值，取值范围为

；

表示为第j个差异结果值；M为差异结果值个数；N表示为差异结果值中的最大值；

表示为计算的误差系数，取值范围为(0，0.001)；e的取值为2.7。

优选的，预测所述修正特征的修正级别，并根据预测结果进行修正，包括：

调取每个修正特征对应的第一文本差异特征对应的匹配概率值，结合预设标准，对每个修正特征的修正级别进行判断；

若匹配概率值处于

取值范围内时，确定修正级别为三级，此时，基于每个频点对应的第二幅值以及修正后第一幅值，确定损失值；

根据所述损失值，对修正参数进行更新，并基于更新后修正参数，对修正特征进行优化，并按照优化后修正特征进行修正；

若匹配概率值处于

取值范围内时，确定修正级别为二级；

若匹配概率值处于取值范围

内时，确定修正级别为一级，

当修正级别为一级时，对此时匹配概率值对应的修正特征设置第一调整参数，对修正特征进行调整，得到第一修正特征；

当修正级别为二级时，对此时匹配概率值对应的修正特征设置第二调整参数，对修正特征进行调整，得到第二修正特征。

本发明提供了一种用于语音识别芯片的智能修正系统，包括：

标准文本获取模块：用于获取目标语音以及目标语音的标准文本；

相似度分析模块：用于通过采用语音识别芯片来识别所述目标语音，获取第一文本，与所述标准文本进行相似度分析，得到第一相似结果；

预设修正模块：用于当第一相似结果大于或等于预设值时，按照预设方式修正语音识别芯片的识别构架；

修正特征构建模块：用于当第一相似结果小于预设值时，获取目标语音的语音场景，并根据语音场景的场景特征以及两个文本之间的文本差异特征，来构建每个文本差异特征的修正特征；修正模块：用于预测修正特征对两个文本差异的修正级别，若满足预设标准，按照所述修正特征对所述语音识别芯片的识别构架进行修正；

否则，按照预设标准对修正特征进行持续优化。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于语音识别芯片的智能修正方法的流程图；

图2为本发明实施例中一种用于语音识别芯片的智能修正系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种用于语音识别芯片的智能修正方法，如图1所示，包括：

步骤1：获取目标语音以及目标语音的标准文本；

否则，按照预设标准对修正特征进行持续优化。

该实施例中，目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频；标准文本是通过人为预先识别获取的。

该实施例中，第一文本是通过语音识别芯片进行识别得到的。

该实施例中，预设方法主要是指在语音识别芯片识别架构中的提取语音特征模块部分，结合损失函数对目标语音的特征值进一步有效优化，以确保尽量减小误差。

该实施例中，语音识别芯片的识别架构包括语音采集模块、语音预处理模块、提取语音特征模块、匹配对比模块以及输出模块。

该实施例中，语音场景是指目标对象发出语音的实时背景声音信息，场景特征则是指可以描述背景声音信息的特征，比如，基音周期、信噪比、过零率、谐噪比和短时平均幅度；文本差异特征是指标准文本与第一文本之间存在的差异的特征，比如，字向量、词向量、句向量以及语义向量。

该实施例中，修正级别是根据两个文本之间差异特征对应的匹配概率值进行确定的；预设标准具体是提前设定好的；预设值一般取值为0.6。

上述技术方案的有益效果是：通过建立目标语音的场景特征和标准文本和第一文本之间文本差异特征，来构建得到修正特征；通过预测修正特征的修正级别来修正语音识别芯片的识别构架，实现对语音芯片的更新，进而有效保证了识别精度。

本发明实施例提供一种用于语音识别芯片的智能修正方法，采用语音识别芯片识别所述目标语音，获取第一文本，并与所述标准文本进行相似度分析，得到第一相似结果，包括：

该实施例中，目标语音特征包括有过零率、基音周期、信噪比、谐噪比和短时平均幅度。

该实施例中，历史关键词语列表是内置于语音识别芯片中的词语数据列表，包含有关键词语以及关键词语特征。

该实施例中，比如，存在关键词语1、2、3，对应关键词语特征分别是

，

和

以及目标语音特征A；将目标语音特征A依次与关键词语特征

，

和

进行对比，得出对比结果0.6、0.9、0.7；此时，确定对比结果最高的关键词语特征

对应的关键词语2为匹配度最高的关键词语，作为第一识别结果输出。

该实施例中，获取第一相似结果是为了得到标准文本和第一文本的相似度，为确定修正语音识别芯片的方法，保证不同情况下有效实现修正语音识别芯片提供基础。

上述技术方案的有益效果是：通过采用语音识别芯片对目标语音进行识别，基于目标语音特征和历史关键词语对比，得到第一文本；将所述第一文本与标准文本进行相似度操作，并根据得到的相似度结果，便于确定修正语音识别芯片的方法，分情况考虑修正语音识别芯片的方法，确保能够实现识别的精度提高。

本发明实施例提供一种用于语音识别芯片的智能修正方法，对所述第一文本与标准文本进行相似度对比，得出第一相似结果，包括；

获取所述标准文本的标准特征向量；

获取所述第一文本的第一特征向量；

对所述标准文本向量和第一文本向量进行相似度集合

，其中，

表示所述标准文本向量和第一文本向量中的元素个数；

其中，

的取值范围[0，

]；

表示第i个元素的元素类型；

表示正向影响的元素集合；

的取值范围[0，

]；

表示负向影响的元素集合；

为标准文本向量中第i个元素的坐标点；

表示第一文本向量中第i个元素的坐标点；

基于所有第一距离，确定出第一相似结果。

该实施例中，标准特征向量指的是标准文本的字向量和词级别的句向量；第一特征向量是指第一文本的字向量和词级别的句向量。

该实施例中，归一化处理是指对标准特征向量和第一特征向量进行约束，将其向量中的每个元素限定在0-1之间，从而得到对应的标准文本向量和第一文本向量，其目的主要是为了减少计算时间，避免过拟合的同时，尽可能多地保留原始文本的主要特征。

该实施例中，比如，存在标准距离条件A和相似度集合D中存在的距离1、2、3，将距离1、2、3与标准距离条件A依次进行分析，得到距离1满足标准距离条件A，距离2和3均不满足标准距离条件A，此时，确定距离1为第一距离。

该实施例中，基于获取的第一相似结果，来确定标准文本与第一文本的相似度。

上述技术方案的有益效果是：通过对标准文本和第一文本的特征向量归一化处理，得到标准文本向量和第一文本向量；将所述标准文本向量和第一文本向量通过公式进行相似度操作，得到相似度集合；对所述相似度结合进行分析，得到第一相似结果；基于所述第一相似结果，可确保修正语音识别芯片的方法，有利于实现提高识别的精确度。

本发明实施例提供一种用于语音识别芯片的智能修正方法，基于所有第一距离，确定出第一相似结果，包括：

计算所有第一距离的累计和

：

其中，

表示

距离；m1表示从相似度集合

中筛选出来满足标准距离条件的第一距离的总个数；

当

以及

时，将

作为第一相似结果；

其中，

表示相似度集合

中所有

的累加和；

1表示第一常数；

2表示第二常数。

该实施例中，

1取值一般为1，

2取值一般为1。

上述技术方案的有益效果是：通过计算从相似度集合D中筛选出的第一距离的累计和、第一距离的总个数以及两者结合的式子，与第一常数

1、第二常数

2进行比较，来有效获取第一相似结果，为确定标准文本和第一文本相似度提供基础。

本发明实施例提供一种用于语音识别芯片的智能修正方法，获取目标语音的语音场景之后，还包括：

对每个非语音片段进行特征提取，获取对应子场景特征；

该实施例中，非语音片段是指目标语音中剔除目标对象发出的声音以外的语音片段；第一位置标注是为了保证非语音片段的有序性，便于后续调取使用。

该实施例中，子场景特征是指每个非语音片段的特征；场景特征是按照位置标注顺序，对每个子场景特征进行有序集合构建而成的。

上述技术方案的有益效果是：通过对获取的目标语音中的非语音片段进行位置标注和特征提取，得到若干子场景特征；将所有子场景特征有序结合，可以有效得到目标语音的语音场景的场景特征，为确定语音识别芯片的修正特征提供基础。

本发明实施例提供一种用于语音识别芯片的智能修正方法，确定第一文本与标准文本之间的文本差异特征，并基于所述场景特征、文本差异特征，构建每个文本差异特征对应的修正特征，包括：

提取所述第一标记片段对应的第一子场景特征；

该实施例中，预设匹配阈值是提前设置好的，一般为0.85。

该实施例中，比如，存在匹配概率值0.6，因为0.6小于预设匹配阈值0.85，故确定当前存在文本差异，并获取当前文本差异的特征，确定为第一文本差异特征。

该实施例中，第一目标差异字词是指文本差异处标准文本对应文本差异处的字词，第一位置是指第一目标差异字词在标准文本的位置；第二目标差异字词是指文本差异处第一文本对应文本差异处的字词，第二位置是指第二目标差异字词在第一文本的位置。

该实施例中，差异位置特征的获取主要是为了得到每个第一文本差异特征对应的子场景特征，进而为确定每个第一文本差异特征对应的修正特征奠定基础。

该实施例中，第一位置标注是为了从非语音片段中筛选得到每个文本差异对应的片段，并将得到的片段进行第一标记，得到第一标记片段。

该实施例中，第一子场景特征是基于第一标记片段，从场景特征中选取的，将第一子场景特征与位置相对应的文本差异特征进行结合分析，可得到每个文本差异特征对应的修正特征，来实现对语音识别芯片的识别架构的修正。

该实施例中，第一目标语音片段是根据第一标记片段的位置标注从目标语音中筛选得到的。

该实施例中，修正特征是基于第一标记片段的音频信号内每个频点对应的第一相位和第一目标语音片段的音频信号的每个频点对应的第二相位的相位差，来对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理得到的。

上述技术方案的有益效果是：通过将标准文本和第一文本输入文本匹配模型中进行匹配对比操作，得到文本差异特征；根据文本差异特征的差异位置特征从目标语音中筛选得到第一标记片段；确定与第一标记片段位置对应的第一目标语音片段；基于第一标记片段对应的第一子场景特征，获取第一标记片段与第一目标语音内的音频信号内的每个频点对应的相位差；通过相位差可对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理，从而得到每个第一文本差异特征对应的修正特征。

本发明实施例提供一种用于语音识别芯片的智能修正方法，将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测，得到匹配概率值，包括：

其中，

表示为第j个差异结果值对应的匹配概率值，取值范围为

；

该实施例中，标准语义特征向量包括有标准文本的语义信息，第一语义特征向量包含有第一文本的语义信息；实际就是分别将标准文本特征和第一文本特征映射到语义空间中获取得到的。

该实施例中，文本语义差异特征向量包含有标准文本与第一文本之间的语义差异信息，是由标准语义特征向量和第一语义特征向量相减得到的。

上述技术方案的有益效果是：通过将标准文本与第一文本输入到文本匹配模型中进行语义向量匹配分析，根据公式运算得到匹配概率值；便于基于预设匹配阈值，对匹配概率值进行判断，来确定当前两文本之间是否存在文本差异，实现了对标准文本与第一文本之间的文本差异的确定，从而得到文本差异特征。

本发明实施例提供一种用于语音识别芯片的智能修正方法，预测所述修正特征的修正级别，并根据预测结果进行修正，包括：

若匹配概率值处于

若匹配概率值处于

取值范围内时，确定修正级别为二级；

若匹配概率值处于取值范围

内时，确定修正级别为一级，

该实施例中，预设标准是提前设定好的，是指当匹配概率值不小于0.2时，可按照修正特征进行修正，也就是说当匹配概率值处于

取值范围内时，确定修正级别为三级，此时，需要对修正特征进行优化。

该实施例中，

取值为0.2。

该实施例中，比如，确定b、c的取值分别为0.45和0.85，且存在匹配概率值0.3、0.6和0.7，由于匹配概率值0.3处于

取值范围内，确定该匹配概率值对应的文本差异特征的修正特征的修正级别为二级；此时设置第二参数对修正特征调整得到第二修正特征，并按照第二修正特征来对语音识别芯片的识别架构进行修正；匹配概率值0.6和0.7均处于

取值范围内，确定匹配概率值0.6和0.7对应的文本差异特征的修正特征的修正级别为一级，此时设置第一参数对修正特征调整得到第一修正特征，并按照第一修正特征来对语音识别芯片的识别架构进行修正。

上述技术方案的有益效果是：通过结合匹配概率值和预设标准确定每个修正特征的修正级别；根据修正级别来对修正特征进行调整得到第一修正特征和第二修正特征；当匹配概率值小于0.2时，对当前的修正特征进行持续优化；基于第一修正特征、第二修正特征和优化后修正特征，对语音识别芯片的识别架构进行修正，以提高识别的精确度。

本发明实施例提供一种用于语音识别芯片的智能修正系统，如图2所示，包括：

否则，按照预设标准对修正特征进行持续优化。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。