CN117238276A

CN117238276A - 一种基于智能化语音数据识别的分析纠正系统

Info

Publication number: CN117238276A
Application number: CN202311495897.5A
Authority: CN
Inventors: 吴海忠; 徐梦全
Original assignee: Shenzhen Top Thinking Business Service Co ltd
Current assignee: Shenzhen Top Thinking Business Service Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117238276B

Abstract

本发明属于语音识别领域，涉及数据分析技术，用于解决现有语音数据识别的分析纠正系统无法对识别文本中字符组成的语言意义进行分析的问题，具体是一种基于智能化语音数据识别的分析纠正系统，包括分析纠正平台，分析纠正平台通信连接有识别分析模块、语义分析模块、字符纠正模块以及存储模块；分析纠正平台接收到语音数据后将语音数据发送至识别分析模块，识别分析模块用于对语音数据进行识别分析；本发明可以对语音数据进行识别分析，采用若干个语音识别软件对语音数据进行识别得到若干个识别数据组，对识别数据组进行比对分析然后根据统一系数对语音数据的整体识别精确性进行反馈，然后对识别数据组的语义识别必要性进行监控。

Description

一种基于智能化语音数据识别的分析纠正系统

技术领域

本发明属于语音识别领域，涉及数据分析技术，具体是一种基于智能化语音数据识别的分析纠正系统。

背景技术

语音识别是一门交叉学科，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

现有语音数据识别的分析纠正系统仅能够通过字符比对的方式对识别文本的精确性进行监控，但是这种方式无法对识别文本中字符组成的语言意义进行分析，导致识别文本出现语义识别错误时的纠正分析效率低下。

针对上述技术问题，本申请提出一种解决方案。

发明内容

本发明的目的在于提供一种基于智能化语音数据识别的分析纠正系统，用于解决现有语音数据识别的分析纠正系统无法对识别文本中字符组成的语言意义进行分析的问题；

本发明需要解决的技术问题为：如何提供一种可以对识别文本中字符组成的语言意义进行分析的基于智能化语音数据识别的分析纠正系统。

本发明的目的可以通过以下技术方案实现：

一种基于智能化语音数据识别的分析纠正系统，包括分析纠正平台，所述分析纠正平台通信连接有识别分析模块、语义分析模块、字符纠正模块以及存储模块；

所述分析纠正平台接收到语音数据后将语音数据发送至识别分析模块，所述识别分析模块用于对语音数据进行识别分析：采用n个语音识别软件同时对语音数据进行识别转文字得到n个识别数据组，对识别数据组进行比对分析并得到统一系数，通过统一系数对语音数据的识别精确性是否满足要求进行判定；

所述语义分析模块用于对识别数据组的语义准确性进行监测分析：将识别数据组分割为若干个语义字符段，每个语义字符段的字符数量均为M1个，由n个识别数据组中的第一个语义字符段构成语义数据组；将语义数据组标记为异常数据组或正常数据组；然后由n个识别数据组中的第二个语义字符段构成新的语义数据组，并重新对新的语义数据组标记为异常数据组或正常数据组；直至所有语义数据组完成标记；将异常数据组与语义数据组的数量比值标记为异常系数，通过异常系数对识别数据组的语义识别状态是否满足要求进行判定；

所述字符纠正模块用于对识别数据组进行字符纠正分析。

作为本发明的一种优选实施方式，统一系数的获取过程包括：选取所有识别数据组中的第一个字符组成第一比对数据组，将第一比对数据组中出现次数最多的元素字符标记为识别字符，将识别字符的数量与n的比值标记为识别系数，通过存储模块获取到识别阈值，将识别系数与识别阈值进行比较：若识别系数小于识别阈值，则将对应的识别字符标记为分歧字符；若识别系数大于等于识别阈值，则将对应的识别字符标记为统一字符；然后，选取所有识别数据组中的第二个字符组成第二比对数据组，将第二比对数据组中的识别字符标记为分歧字符或统一字符；以此类推，直至最后一个比对数据组的识别字符完成标记；将统一字符的数量与比对数据组的数量的比值标记为语音数据的统一系数。

作为本发明的一种优选实施方式，对语音数据的识别精确性是否满足要求进行判定的具体过程包括：通过存储模块获取到统一阈值，将语音数据的统一系数与统一阈值进行比较：若统一系数小于统一阈值，则判定语音数据的识别精确性不满足要求，将n个识别数据组通过分析纠正平台发送至语义分析模块；若统一系数大于等于统一阈值，则判定语音数据的识别精确性满足要求，将n个识别数据组通过分析纠正平台发送至字符纠正模块。

作为本发明的一种优选实施方式，将语义数据组标记为异常数据组或正常数据组的具体过程包括：随机选取语义数据组中的一个字符并判定该字符是否在n个语义字符段中均有出现：若是，则将对应字符标记为规划字符；若否，则将对应字符标记为独立字符；将语义数据组中的所有字符全部标记为规划字符或独立字符之后，将规划字符的字符数量与语义数据组中的字符数量比值标记为规划系数，通过存储模块获取到规划阈值，将规划系数与规划阈值进行比较：若规划系数小于规划阈值，则判定识别数据组存在语义识别异常，将对应的语义数据组标记为异常数据组；若规划系数大于等于规划阈值，则判定识别数据组不存在语义识别异常，将对应的语义数据组标记为正常数据组。

作为本发明的一种优选实施方式，对识别数据组的语义识别状态是否满足要求进行判定的具体过程包括：通过存储模块获取到异常阈值，将异常系数与异常阈值进行比较：若异常系数小于异常阈值，则判定识别数据组的语义识别状态满足要求，将n个识别数据组通过分析纠正平台发送至字符纠正模块；若异常系数大于等于异常阈值，则判定识别数据组的语义识别状态不满足要求，生成重新识别信号并将重新识别信号发送至分析纠正平台，分析纠正平台接收到重新识别信号后将重新识别信号发送至识别分析模块。

作为本发明的一种优选实施方式，字符纠正模块对识别数据组进行字符纠正分析的具体过程包括：获取识别数据组的分歧数据FQ与独立数据DL；分歧数据FQ为识别数据组中的字符被标记为分歧字符的次数，独立数据DL为识别数据组中的字符被标记为独立字符的次数；通过分歧数据FQ与独立数据DL进行数值计算得到识别数据组的偏差系数PC；将偏差系数PC数值最小的识别数据组标记为基准数据组，将基准数据组中被标记为分歧字符或独立字符的字符标记为纠正字符，将第一个纠正字符的前一个字符标记为前置字符，由n个识别数据组中排序与纠正字符相同的字符和前置字符组成n个前置词组，获取前置词组在n个识别数据组中的出现次数并标记为前置词组的优先值，将优先值最大的前置词组的第二个字符标记为替换字符；直至所有纠正字符全部被替换字符进行替换，将替换后的基准数据组发送至分析纠正平台。

作为本发明的一种优选实施方式，该基于智能化语音数据识别的分析纠正系统的工作方法，包括以下步骤：

步骤一：分析纠正平台接收到语音数据后，对语音数据进行识别分析：采用n个语音识别软件同时对语音数据进行识别转文字得到n个识别数据组，对识别数据组进行比对分析并通过比对分析结果对语音数据的识别精确性是否满足要求进行判定；

步骤二：对识别数据组的语义准确性进行监测分析：将识别数据组分割为若干个语义字符段，由n个识别数据组中的第一个语义字符段构成语义数据组，对语义数据组是否存在语义识别异常进行判定，并通过异常数据组在语义数据组中的数量占比对识别数据组的语义识别状态是否满足要求进行判定；

步骤三：对识别数据组进行字符纠正分析：获取识别数据组的分歧数据FQ与独立数据DL并进行数值计算得到偏差系数PC，将偏差系数PC数值最小的识别数据组标记为基准数据组，对基准数据组中的纠正字符进行替换。

本发明具备下述有益效果：

通过识别分析模块可以对语音数据进行识别分析，采用若干个语音识别软件对语音数据进行识别得到若干个识别数据组，对识别数据组进行比对分析然后根据统一系数对语音数据的整体识别精确性进行反馈，然后对识别数据组的语义识别必要性进行监控；

通过语义分析模块可以对识别数据组的语义精确性进行监测分析，在进行语义数据组的分割之后，对每一个语义数据组是否存在语义识别异常进行判定，从而根据异常数据组在语义数据组中的数量占比对语音数据的重新识别必要性进行反馈；

通过字符纠正模块可以对识别数据组进行字符纠正分析，在识别数据组中通过偏差系数筛选到基准数据组，然后对基准数据组中的纠正字符进行逐一替换，在语义识别错误的情况下进行重新识别，从而保证语义识别正确时的字符纠正效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的系统框图；

图2为本发明实施例二的方法流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

如图1所示，一种基于智能化语音数据识别的分析纠正系统，包括分析纠正平台，分析纠正平台通信连接有识别分析模块、语义分析模块、字符纠正模块以及存储模块。

分析纠正平台接收到语音数据后将语音数据发送至识别分析模块，识别分析模块用于对语音数据进行识别分析：采用n个语音识别软件同时对语音数据进行识别转文字得到n个识别数据组，对识别数据组进行比对分析：选取所有识别数据组中的第一个字符组成第一比对数据组，将第一比对数据组中出现次数最多的元素字符标记为识别字符，将识别字符的数量与n的比值标记为识别系数，通过存储模块获取到识别阈值，将识别系数与识别阈值进行比较：若识别系数小于识别阈值，则将对应的识别字符标记为分歧字符；若识别系数大于等于识别阈值，则将对应的识别字符标记为统一字符；然后，选取所有识别数据组中的第二个字符组成第二比对数据组，将第二比对数据组中的识别字符标记为分歧字符或统一字符；以此类推，直至最后一个比对数据组的识别字符完成标记；将统一字符的数量与比对数据组的数量的比值标记为语音数据的统一系数，通过存储模块获取到统一阈值，将语音数据的统一系数与统一阈值进行比较：若统一系数小于统一阈值，则判定语音数据的识别精确性不满足要求，将n个识别数据组通过分析纠正平台发送至语义分析模块；若统一系数大于等于统一阈值，则判定语音数据的识别精确性满足要求，将n个识别数据组通过分析纠正平台发送至字符纠正模块；对语音数据进行识别分析，采用若干个语音识别软件对语音数据进行识别得到若干个识别数据组，对识别数据组进行比对分析然后根据统一系数对语音数据的整体识别精确性进行反馈，然后对识别数据组的语义识别必要性进行监控。

语义分析模块用于对识别数据组的语义准确性进行监测分析：将识别数据组分割为若干个语义字符段，每个语义字符段的字符数量均为M1个，由n个识别数据组中的第一个语义字符段构成语义数据组；随机选取语义数据组中的一个字符并判定该字符是否在n个语义字符段中均有出现：若是，则将对应字符标记为规划字符；若否，则将对应字符标记为独立字符；将语义数据组中的所有字符全部标记为规划字符或独立字符之后，将规划字符的字符数量与语义数据组中的字符数量比值标记为规划系数，通过存储模块获取到规划阈值，将规划系数与规划阈值进行比较：若规划系数小于规划阈值，则判定识别数据组存在语义识别异常，将对应的语义数据组标记为异常数据组；若规划系数大于等于规划阈值，则判定识别数据组不存在语义识别异常，将对应的语义数据组标记为正常数据组，将包含规划字符数量最多的语义字符段标记为语义数据组的纠正字符段；然后由n个识别数据组中的第二个语义字符段构成新的语义数据组，并重新对新的语义数据组标记为异常数据组或正常数据组；直至所有语义数据组完成标记；将异常数据组与语义数据组的数量比值标记为异常系数，通过存储模块获取到异常阈值，将异常系数与异常阈值进行比较：若异常系数小于异常阈值，则判定识别数据组的语义识别状态满足要求，将n个识别数据组通过分析纠正平台发送至字符纠正模块；若异常系数大于等于异常阈值，则判定识别数据组的语义识别状态不满足要求，生成重新识别信号并将重新识别信号发送至分析纠正平台，分析纠正平台接收到重新识别信号后将重新识别信号发送至识别分析模块；对识别数据组的语义精确性进行监测分析，在进行语义数据组的分割之后，对每一个语义数据组是否存在语义识别异常进行判定，从而根据异常数据组在语义数据组中的数量占比对语音数据的重新识别必要性进行反馈。

字符纠正模块用于对识别数据组进行字符纠正分析：获取识别数据组的分歧数据FQ与独立数据DL；分歧数据FQ为识别数据组中的字符被标记为分歧字符的次数，独立数据DL为识别数据组中的字符被标记为独立字符的次数；通过公式PC=α1*FQ+α2*DL得到识别数据组的偏差系数PC，其中α1与α2均为比例系数，且α1＞α2＞1；将偏差系数PC数值最小的识别数据组标记为基准数据组，将基准数据组中被标记为分歧字符或独立字符的字符标记为纠正字符，将第一个纠正字符的前一个字符标记为前置字符，由n个识别数据组中排序与纠正字符相同的字符和前置字符组成n个前置词组，获取前置词组在n个识别数据组中的出现次数并标记为前置词组的优先值，将优先值最大的前置词组的第二个字符标记为替换字符；直至所有纠正字符全部被替换字符进行替换，将替换后的基准数据组发送至分析纠正平台；对识别数据组进行字符纠正分析，在识别数据组中通过偏差系数筛选到基准数据组，然后对基准数据组中的纠正字符进行逐一替换，在语义识别错误的情况下进行重新识别，从而保证语义识别正确时的字符纠正效率。

实施例二

如图2所示，一种基于智能化语音数据识别的分析纠正方法，包括以下步骤：

一种基于智能化语音数据识别的分析纠正系统，工作时，采用n个语音识别软件同时对语音数据进行识别转文字得到n个识别数据组，对识别数据组进行比对分析并通过比对分析结果对语音数据的识别精确性是否满足要求进行判定；将识别数据组分割为若干个语义字符段，由n个识别数据组中的第一个语义字符段构成语义数据组，对语义数据组是否存在语义识别异常进行判定，并通过异常数据组在语义数据组中的数量占比对识别数据组的语义识别状态是否满足要求进行判定；获取识别数据组的分歧数据FQ与独立数据DL并进行数值计算得到偏差系数PC，将偏差系数PC数值最小的识别数据组标记为基准数据组，对基准数据组中的纠正字符进行替换。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置；如：公式PC=α1*FQ+α2*DL；由本领域技术人员采集多组样本数据并对每一组样本数据设定对应的偏差系数；将设定的偏差系数和采集的样本数据代入公式，任意三个公式构成三元一次方程组，将计算得到的系数进行筛选并取均值，得到α1以及α2的取值分别为3.25和2.17；

系数的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较，关于系数的大小，取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的偏差系数；只要不影响参数与量化后数值的比例关系即可，如偏差系数与分歧数据的数值成正比。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于智能化语音数据识别的分析纠正系统，其特征在于，包括分析纠正平台，所述分析纠正平台通信连接有识别分析模块、语义分析模块、字符纠正模块以及存储模块；

所述字符纠正模块用于对识别数据组进行字符纠正分析。

2.根据权利要求1所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，统一系数的获取过程包括：选取所有识别数据组中的第一个字符组成第一比对数据组，将第一比对数据组中出现次数最多的元素字符标记为识别字符，将识别字符的数量与n的比值标记为识别系数，通过存储模块获取到识别阈值。

3.根据权利要求2所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，将识别系数与识别阈值进行比较：若识别系数小于识别阈值，则将对应的识别字符标记为分歧字符；若识别系数大于等于识别阈值，则将对应的识别字符标记为统一字符；

选取所有识别数据组中的第二个字符组成第二比对数据组，将第二比对数据组中的识别字符标记为分歧字符或统一字符；以此类推，直至最后一个比对数据组的识别字符完成标记；将统一字符的数量与比对数据组的数量的比值标记为语音数据的统一系数。

4.根据权利要求3所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，对语音数据的识别精确性是否满足要求进行判定的具体过程包括：通过存储模块获取到统一阈值，将语音数据的统一系数与统一阈值进行比较：若统一系数小于统一阈值，则判定语音数据的识别精确性不满足要求，将n个识别数据组通过分析纠正平台发送至语义分析模块；若统一系数大于等于统一阈值，则判定语音数据的识别精确性满足要求，将n个识别数据组通过分析纠正平台发送至字符纠正模块。

5.根据权利要求4所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，将语义数据组标记为异常数据组或正常数据组的具体过程包括：随机选取语义数据组中的一个字符并判定该字符是否在n个语义字符段中均有出现：若是，则将对应字符标记为规划字符；若否，则将对应字符标记为独立字符。

6.根据权利要求4所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，将语义数据组中的所有字符全部标记为规划字符或独立字符之后，将规划字符的字符数量与语义数据组中的字符数量比值标记为规划系数，通过存储模块获取到规划阈值，将规划系数与规划阈值进行比较：若规划系数小于规划阈值，则判定识别数据组存在语义识别异常，将对应的语义数据组标记为异常数据组；若规划系数大于等于规划阈值，则判定识别数据组不存在语义识别异常，将对应的语义数据组标记为正常数据组。

7.根据权利要求6所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，对识别数据组的语义识别状态是否满足要求进行判定的具体过程包括：通过存储模块获取到异常阈值，将异常系数与异常阈值进行比较：若异常系数小于异常阈值，则判定识别数据组的语义识别状态满足要求，将n个识别数据组通过分析纠正平台发送至字符纠正模块；若异常系数大于等于异常阈值，则判定识别数据组的语义识别状态不满足要求，生成重新识别信号并将重新识别信号发送至分析纠正平台，分析纠正平台接收到重新识别信号后将重新识别信号发送至识别分析模块。

8.根据权利要求7所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，字符纠正模块对识别数据组进行字符纠正分析的具体过程包括：获取识别数据组的分歧数据FQ与独立数据DL；分歧数据FQ为识别数据组中的字符被标记为分歧字符的次数，独立数据DL为识别数据组中的字符被标记为独立字符的次数；通过分歧数据FQ与独立数据DL进行数值计算得到识别数据组的偏差系数PC；将偏差系数PC数值最小的识别数据组标记为基准数据组，将基准数据组中被标记为分歧字符或独立字符的字符标记为纠正字符，将第一个纠正字符的前一个字符标记为前置字符，由n个识别数据组中排序与纠正字符相同的字符和前置字符组成n个前置词组，获取前置词组在n个识别数据组中的出现次数并标记为前置词组的优先值，将优先值最大的前置词组的第二个字符标记为替换字符；直至所有纠正字符全部被替换字符进行替换，将替换后的基准数据组发送至分析纠正平台。

9.根据权利要求1-8任一项所述的一种基于智能化语音数据识别的分析纠正系统，其特征在于，该基于智能化语音数据识别的分析纠正系统的工作方法，包括以下步骤：