CN117789706B

CN117789706B - 一种音频信息内容识别方法

Info

Publication number: CN117789706B
Application number: CN202410211284.2A
Authority: CN
Inventors: 陈国强
Original assignee: Fudi Technology Nanjing Co ltd
Current assignee: Fudi Technology Nanjing Co ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-05-03
Anticipated expiration: 2044-02-27
Also published as: CN117789706A

Abstract

本发明公开了一种音频信息内容识别方法，涉及音频识别技术领域，本发明提供的方法能够精准对音频信息进行分析，在针对少量用户使用时，能够适应性建立对应用户的习惯数据库，能够识别出系统在识别个人因为习惯发音错误的内容，并针对错误内容进行正确文本的匹配再识别；之后建立一个纠偏的语音信号来调整，后续涉及到声纹识别出来后自动替换纠偏的语音信号来进行识别，使得本申请提供的音频识别更加个性化；本发明简单有效，且易于使用。

Description

一种音频信息内容识别方法

技术领域

本发明属于音频识别技术领域，具体是一种音频信息内容识别方法。

背景技术

专利号为CN106558318B的专利公开了一种音频识别方法，包括：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；若是，则确定所述待识别音频文件为所述目标音频文件的一部分。本申请还公布了一种音频识别系统实施例。利用本实施例可以在音频识别中提高特征点匹配成功率。

针对语音识别来说，尤其是特定场景情况下，针对使用人数少量的人员来说，如何能够精准的对用户的语音进行识别，能够区分该用户对应因为个人习惯导致发音不同的时候，能够适应性识别；基于此，现提供一种解决方案。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；为此，本发明提出了一种音频信息内容识别方法，包括：

针对声纹识别后不同的人录入语音进行识别，当同一个人录入语音时，进行录入伴随分析，当接收到录入的语音后，将其标记为存比语音；

在预设时间T2分钟内若检测到若干个语音时，标记为跟进语音，根据存比语音和跟进语音二者之间的相似度，当相似度超过B1时，产生处理信号；

在产生处理信号时，会根据存比语音对应的存比文本、跟进语音对应的跟进文本二者之间的一致情况挑选出不同的地方，截取对应不同文本的位置的语音，将其标记为误点段，不同文本的位置对应存比语音相应的语音部分标记为误点段，误点段和纠偏文本融合形成核实翻段；

持续获取核实翻段，并根据核实翻段更新语音识别模型内相关纠偏文本的语音信号，按照更新后的进行语音识别。

进一步地，产生处理信号的具体方式为：

当检测到用户在与标的进行语音时，首先将语音进行暂时性备份，将其标记为存比语音，将存比语音暂时性存储；

此处若在收到存比语音之后的一分钟内并没有再次收到任何其他的实时语音时，自动将存比语音删除；

若在一分钟内收到其他的实时语音时，先将存比语音后检测到的第一条实时语音标记为跟进语音，首先将存比语音进行转文字处理，得到的文字标记为存比文本，同样对跟进语音进行转文字处理，得到的文字标记为跟进文本，将存比文本与跟进文本进行比较，获取到二者的相似度，当相似度超过B1时，B1为预设值，产生处理信号。

进一步地，形成核实翻段的具体方式为：

首先获取到存比文本和跟进文本，当二者的相似度不为百分百时，自动将存比文本中与跟进文本内不同文本的地方截取出来，将其标记为误点文本，获取到跟进文本对应的该部分的内容将其标记为纠偏文本；

自动将存比语音内关于误点文本部分的语音提炼，将其标记为误点段，将误点段和纠偏文本融合形成核实翻段。

进一步地，若存比文本和跟进文本的相似度为百分之百时，进行逐字确认，逐字确认具体方式为：

首先跟用户提醒“是否存在识别错误”，在用户确认之后，从存比语音开始，逐字跟用户确认是否识别错误，此处具体通过逐渐输出存比文本中每一个字，每输出一个字停留T1秒，T1为预设数值，之后若用户未确认错误，则自动跳转到下一个字，直到用户确认错误，确认完全部错误文字后，提醒用户录入正确文字，将其标记为纠偏文本，将错误文字对应的语音提炼，标记为误点段，将误点段和纠偏文本融合形成核实翻段。

进一步地，每得到一个核实翻段时，会修正预设语音识别模型内的文字对应的语音信号。

进一步地，产生处理信号具体方式为：

若在一分钟内收到其他的实时语音时，先将存比语音后检测到的第一条实时语音标记为跟进语音；

自动获取到存比语音与跟进语音的相似度，将其标记为音似值；

当音似值超过B1时，产生怀疑信号，产生怀疑信号之后会对存比语音进行转文字处理，若产生的文字字数超过X1个，则产生处理信号，否则不做处理。

进一步地，产生处理信号具体方式为：

此处若在收到存比语音之后的T2分钟内并没有再次收到任何其他的实时语音时，自动将存比语音删除；此处T2为预设数值；

若在T2分钟内收到其他的实时语音时，将存比语音后检测到的所有实时语音均标记为跟进语音，得到若干个跟进语音构成的跟进语音组；

之后，任选一跟进语音，首先将存比语音进行转文字处理，得到的文字标记为存比文本，同样对跟进语音进行转文字处理，得到的文字标记为跟进文本，将存比文本与跟进文本进行比较，获取到二者的相似度；

之后任选下一跟进语音，重复上述步骤，得到若干份存比语音与所有跟进语音的相似度；

当存在任意的相似度超过B1时，产生处理信号。

进一步地，产生处理信号具体方式为：

自动获取到存比语音与所有的跟进语音的相似度，将其标记为音似值；

当任意的音似值超过B1时，产生怀疑信号，产生怀疑信号之后会对对应的跟进语音进行转文字处理，若产生的文字字数超过X1个，则产生处理信号，否则不做处理；此处对应的指代为与存比语音相似度超过B1的跟进语音。

进一步地，X1和B1均为预设数值。

一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的音频信息内容识别方法。

与现有技术相比，本发明的有益效果是：

本发明提供的方法能够精准对音频信息进行分析，在针对少量用户使用时，能够适应性建立对应用户的习惯数据库，能够识别出系统在识别个人因为习惯发音错误的内容，并针对错误内容进行正确文本的匹配再识别；

之后建立一个纠偏的语音信号来调整，后续涉及到声纹识别出来后自动替换纠偏的语音信号来进行识别，使得本申请提供的音频识别更加个性化；本发明简单有效，且易于使用。

附图说明

图1为本发明的音频识别方法流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本申请提供了一种音频信息内容识别方法，该方法具体包括如下步骤：

步骤一：首先针对目标场景的人员进行声纹识别，当识别到一个声纹时，会将其设定为一个目标对象，每识别到一个新的声纹时，都会建立一个新的目标对象；

针对建立的所有目标对象，每个人建立一个识别数据库，因为对应语音识别的目标对象不会过于复杂，此处情景建立在私人物品上，偶尔性会切换使用人，但是总体使用人数有限的场景下；

步骤二：针对每个人的识别数据库，进行分析，当用户进行语音识别时，会进行录入伴随分析，录入伴随分析具体方式为：

若在一分钟内收到其他的实时语音时，先将存比语音后检测到的第一条实时语音标记为跟进语音，首先将存比语音进行转文字处理，得到的文字标记为存比文本，同样对跟进语音进行转文字处理，得到的文字标记为跟进文本，将存比文本与跟进文本进行比较，获取到二者的相似度，当相似度超过B1时，此处B1一般取值为0.85，也就是85%，产生处理信号；此处相似度计算方式为：获取到跟进文本与存比文本中相同字符的个数，标记为相同字符数；之后将相同字符数除以跟进文本中的字符个数，得到的值标记为相似度；

步骤三，在产生处理信号时，会自动获取到存比语音、跟进语音及其对应的存比文本和跟进文本，进行误点分析，误点分析具体方式为：

首先获取到存比文本和跟进文本，当二者的相似度不为百分百时，也就是说不是完全一致时，此时会自动将存比文本中与跟进文本内不同文本的地方截取出来，将其标记为误点文本，获取到跟进文本该部分的内容将其标记为纠偏文本，此时会自动将存比语音内关于此部分的语音提炼，将其标记为误点段，对应将误点段和纠偏文本对照起来，将其标记为核实翻段；

当然若此处存比文本和跟进文本的相似度为百分之百时，也就是用户两遍录入语音内容一致时，此时进行逐字确认，逐字确认具体方式为：

首先跟用户提醒“是否存在识别错误”，在用户确认之后，从存比语音开始，逐字跟用户确认是否识别错误，此处具体通过逐渐输出存比文本中每一个字，每输出一个字停留T1秒，一般采用5秒，之后若用户未确认错误，则自动跳转到下一个字，直到用户确认错误，确认完全部错误文字后，提醒用户录入正确文字，将其标记为纠偏文本，将错误文字对应的语音提炼，标记为误点段，将误点段和纠偏文本融合形成核实翻段；

步骤四：持续性对用户进行采集分析，得到所有的核实翻段；

步骤五：每得到一个核实翻段时，会修正预设语音识别模型内的文字对应的语音信号，此处主要通过在进行声纹识别后，将对应声纹主人的核实翻段内的误点段对应的电信号进行去除背景噪声和干扰后的语音信号来替换原本识别模型内的相关语音段，之后按照新的语音模型进行语音识别，从而实现针对用户个性化的识别翻译；预设语音识别模型即为原始系统内厂商采用的语音识别模型；预设语音识别模型可以采用ASRT模型、DeepSpeech模型、DEMOS模型、end2end模型、Wenet模型、CTC模型、RNN-T模型中任意一种，或者其他的现有模型；

因为语音识别时大概原理为通过声音采集设备将人的语音信号转换成电信号；然后，利用数字信号处理技术对电信号进行预处理，以去除背景噪声和干扰；接下来，利用语音识别算法对处理后的语音信号进行分析和匹配，将其转换为对应的文本信息；

这个过程中所使用的语音识别算法是关键部分，其中包括了特征提取、模型训练和测试等步骤。其中，特征提取是从语音信号中提取出有用的信息，如基频、共振峰等；模型训练和测试则是通过大量的语音数据来训练模型，使其能够准确地识别出语音信号中的词汇内容。此处现有技术存在诸多方法，故此处不做具体处理；

当然，作为本申请的实施例二，本申请在实施例一的基础上实施，本实施例中与实施例一不同之处在于，步骤二中的针对录入伴随分析产生处理信号还采用如下方式：

自动获取到存比语音与跟进语音的相似度，将其标记为音似值；此处采用现有技术进行，一般可采取如下几种方法，比如基于频谱分析的方法：将声音信号转换为频谱图，然后计算两个频谱图之间的相似度。常用的方法包括相关系数、均方误差等；或者采用基于特征提取的方法：从声音信号中提取一些特征，如梅尔频率倒谱系数（MFCC）、线性预测编码（LPC）等，然后计算这些特征之间的相似度；当然也可以借用基于深度学习的方法：使用深度神经网络模型，如卷积神经网络（CNN）、长短时记忆网络（LSTM）等，对声音信号进行建模和学习，然后计算模型输出之间的相似度，具体不做赘述；

当音似值超过B1时，产生怀疑信号，产生怀疑信号之后会对存比语音进行转文字处理，若产生的文字字数超过X1个，则产生处理信号，否则不做处理；此处因为若录入的没有任何声音，纯背景音的情况下，相似度也会比较高，为了表面误判，此处可以借助转文字方式进行处理，如果确实录入了对应的语音且能转出相关数量的文字，此时则表明此处的相似能够排除掉纯背景音造成的相似度误判；

作为本申请的实施例三，本申请在实施例一的基础上实施，与实施例一不同之处在于，本实施例中的步骤二中的针对录入伴随分析产生处理信号采用如下方式：

此处若在收到存比语音之后的T2分钟内并没有再次收到任何其他的实时语音时，自动将存比语音删除；此处T2为预设数值，一般可选取为三分钟，当然可根据具体需求选择其他时间；

当存在任意的相似度超过B1时，此处B1一般取值为0.85，也就是85%，产生处理信号；

作为本申请的实施例四，本实施例在实施例一的基础上实施，与实施例一的不同之处在于，本实施例中步骤二中的针对录入伴随分析产生处理信号采用如下方式：

当任意的音似值超过B1时，产生怀疑信号，产生怀疑信号之后会对对应的跟进语音进行转文字处理，若产生的文字字数超过X1个，则产生处理信号，否则不做处理；此处对应的指代为与存比语音相似度超过B1的跟进语音，X1为预设数值；

作为本申请的实施例五，还提供一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的音频信息内容识别方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的音频信息内容识别方法中的相关操作。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种音频信息内容识别方法，其特征在于，包括：

步骤一：首先针对目标场景的人员进行声纹识别，当识别到一个声纹时，将其设定为一个目标对象，每识别到一个新的声纹时，都会建立一个新的目标对象；

针对建立的所有目标对象，每个人建立一个识别数据库；

在预设时间T2分钟内若检测到若干个语音时，标记为跟进语音，根据存比语音和跟进语音二者之间的相似度，当相似度超过B1时，产生处理信号，B1为预设数值；

持续获取核实翻段，并根据核实翻段更新语音识别模型内相关纠偏文本的语音信号，按照更新后的进行语音识别；

形成核实翻段的具体方式为：

自动将存比语音内关于误点文本部分的语音提炼，将其标记为误点段，将误点段和纠偏文本融合形成核实翻段；

若存比文本和跟进文本的相似度为百分之百时，进行逐字确认，逐字确认具体方式为：

2.根据权利要求1所述的一种音频信息内容识别方法，其特征在于，产生处理信号的具体方式为：

3.根据权利要求1所述的一种音频信息内容识别方法，其特征在于，每得到一个核实翻段时，会修正预设语音识别模型内的文字对应的语音信号。

4.根据权利要求1所述的一种音频信息内容识别方法，其特征在于，产生处理信号具体方式为：

当音似值超过B1时，产生怀疑信号，产生怀疑信号之后会对存比语音进行转文字处理，若产生的文字字数超过X1个，则产生处理信号，否则不做处理，X1为预设数值。

5.根据权利要求1所述的一种音频信息内容识别方法，其特征在于，产生处理信号具体方式为：

当存在任意的相似度超过B1时，产生处理信号，B1为预设数值。

6.根据权利要求1所述的一种音频信息内容识别方法，其特征在于，产生处理信号具体方式为：

当任意的音似值超过B1时，产生怀疑信号，产生怀疑信号之后会对对应的跟进语音进行转文字处理，若产生的文字字数超过X1个，则产生处理信号，否则不做处理。

7.一种包含计算机可执行指令的存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-6任一项所述的音频信息内容识别方法。