发明内容
有鉴于此,本发明实施例提供了一种语音转录文本的实体纠错方法及系统,以克服现有技术中的语音转录文本的实体纠错方法准确性低的问题。
本发明实施例提供了一种语音转录文本的实体纠错方法,包括:对从目标语音转录文本中提取的实体词汇进行拼音标注;利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为所述标准实体词汇。
可选地,利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果,包括:步骤S1:将所有实体词汇随机划分为若干类;步骤S2:从所有实体词汇中依次选择待分类实体词汇,利用标注的拼音计算所述待分类实体词汇与每一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值;步骤S3:将所述待分类实体词汇划分入基于拼音相似度的编辑距离的平均值最小的类别中,并返回上述步骤S2,直至分类结果不再变化为止。
可选地,所述基于拼音相似度的编辑距离通过如下公式计算:
其中,Leva,b(i,j)表示字符串a中前i个字符和b中前j个字符之间的基于拼音相似度的编辑距离,i,j分别表示字符串a,b的长度,且i、j为自然数;sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,A表示拼音相似度的预设权重值。
可选地,计算两个字符的拼音相似度包括:分别将两个字符的拼音分为声母部分和韵母部分;利用预设声母分类规则判断所述两个字符的声母部分是否属于相同类别,并根据判断结果及预设赋值规则得到声母部分相似度;利用预设韵母分类规则判断所述两个字符的韵母部分是否属于相同类别,并根据判断结果及预设赋值规则得到韵母部分相似度;根据所述声母部分相似度及所述韵母部分相似度计算所述拼音相似度。
可选地,所拼音相似度通过如下公式计算:
其中,sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,g(ai1,bj1)表示字符ai与字符bj之间声母部分相似度,g(ai2,bj2)表示字符ai与字符bj之间韵母部分相似度,ai1和ai2分别表示字符ai的声母和韵母,bj1和bj2分别表示字符bj的声母和韵母。
可选地,所声母部分相似度通过如下公式计算:
其中,g(x1,y1)表示声母x1与声母y1的声母部分相似度,N1和N2为0-1之间的小数,且N1>N2。
可选地,所韵母部分相似度通过如下公式计算:
其中,g(x2,y2)表示韵母x2与韵母y2的相似度,M1和M2为0-1之间的小数,且M1>M2。
本发明实施例还提供了一种语音转录文本的实体纠错系统,包括:标注模块,用于对从目标语音转录文本中提取的实体词汇进行拼音标注;聚类模块,用于利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;纠错模块,用于将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为所述标准实体词汇。
本发明实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例提供的语音转录文本的实体纠错方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例提供的语音转录文本的实体纠错方法。
本发明技术方案,具有如下优点:
本发明实施例提供了一种语音转录文本的实体纠错方法及系统,通过对目标语音转录文本中提取的实体词汇进行拼音标注,然后利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,从而加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,然后根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
当电网系统内存储的各类语音内容自动转录为文本时,由于受到口音、断句及语音中词意等影响,机器在识别语音文本时,容易识别成读音相同或者相似的同音字,造成自动转录完的语音文本中的实体名称会出现各类错误,因此需要对语音转录文本进行实体词汇简称实体的纠错,以保证文本词意的准确性,为此,本发明实施例提供了一种语音转录文本的实体纠错方法,如图1所示,该语音转录文本的实体纠错方法,具体包括如下步骤:
步骤S101:对从目标语音转录文本中提取的实体词汇进行拼音标注。具体地,在本发明实施例中是通过基于深度学习的方法将目标语音转录文本中的所有实体词汇识别并提取出来,需要说明的是,在实际应用中,也可以采用其他方式提取目标语音转录文本中的所有实体词汇,本发明并不以此为限。
步骤S102:利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果。
具体地,在一实施例中,上述步骤S102具体包括如下步骤:
步骤S1:将所有实体词汇随机划分为若干类。
步骤S2:从所有实体词汇中依次选择待分类实体词汇,利用标注的拼音计算待分类实体词汇与每一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值。
具体地,可以通过如下公式(1)计算待分类实体词汇与某一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值:
其中,dij表示待分类实体词汇xj与分类Ci中所有实体词汇Cik之间基于拼音相似度的编辑距离的平均值,Ci表示划分类别的编号,Cik表示划分类别中所包含实体词汇的编号,PD(Cik,xj)表示,实体词汇xj与实体词汇Cik之间基于拼音相似度的编辑距离,并且i和k均为正整数。
具体地,上述基于拼音相似度的编辑距离可以通过如下公式(2)计算:
其中,Leva,b(i,j)表示字符串a中前i个字符和b中前j个字符之间的基于拼音相似度的编辑距离,i,j分别表示字符串a,b的长度,且i、j为自然数;sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,A表示拼音相似度的预设权重值。为了方便理解,这里的字符串的第一个字符i从1开始,因此最后的编辑距离便是i=|a|,j=|b|时的距离:
当min(i,j)=0的时候,对应着字符串a中前i个字符和字符串b中前j个字符,此时i,j有一个值为0,表示字符串a和b中有一个为空串,那么从a转换到b只需要进行max(i,j)次单字符编辑操作即可,所以它们之间的编辑距离为max(i,j),即i,j中的最大者。
当min(i,j)≠0的时候,Leva,b(|a|,|b|)为如下三种情况的最小值:
1.Leva,b(i-1,j)+1表示删除ai
2.Leva,b(i,j-1)+1表示删除bj
3.Leva,b(i-1,j-1)+un_sim(ai,bj)表示ai替换bj,其中un_sim(ai,bj),表示ai,bj的不相似程度,当ai=bj时为0,当ai≠bj时为1-A*sim_pinyin(ai,bj)。
需要说明的是,在本发明实施例中是以将上述的预设权重值设置为0.9为例进行的说明,在实际应用中,该预设权重值还可以根据实际对语音转录文本纠错精确度的要求或者专家意见等进行适应性的调整,本发明并不以此为限。从而通过在编辑距离计算两个字符相似度的过程中引入了拼音相似度,使得改进后的编辑距离计算方式对语音转录文本中的同音词或者近义词更加敏感,进而提高对同音词及近音词的辨识能力,为后续完成语音转录文本的纠错提供依据,以提高纠错的准确性。
具体地,上述步骤S2中,计算两个字符间的拼音相似度具体包括如下步骤:
步骤S21:分别将两个字符的拼音分为声母部分和韵母部分。具体地,每一个汉字字符的拼音均由声母和韵母两个部分构成,结合这两个部分各自的发音特点,将字符的声母部分和韵母部分单独比较,有利于提高后续判断字符间拼音整体相似度的准确性。在计算拼音相似度时,本发明实施例通过将声母和韵母进行分类,在同一类别中的声母或者韵母的相似程度越高。这是考虑到录音中受到方言的影响,容易将正确读音的声母或者韵母读成同一类的其他声母或者韵母,如果不考虑该因素将容易遗漏错误的实体词汇,进而影响纠错结果的准确性。
步骤S22:利用预设声母分类规则判断两个字符的声母部分是否属于相同类别,并根据判断结果及预设赋值规则得到声母部分相似度。在本发明实施例中,考虑到语音转录文本受方言发音等因素的影响,将预设声母分类规则设置为按照声母发音部位进行分类,具体分类结果参见表1。
表1
种类 |
声母 |
双唇音 |
b,p,m |
唇齿音 |
f |
舌尖前后音 |
zh,ch,sh,r,z,c,s |
舌尖中音 |
d,t,n,l |
舌面音 |
j,q,x |
舌根音 |
g,k,h |
其它 |
y,w,(无声母) |
在实际应用中,上述步骤S22中声母部分相似度通过如下公式(3)计算:
其中,g(x1,y1)表示声母x1与声母y1的声母部分相似度,N1和N2为0-1之间的小数,且N1>N2。需要说明的是,在本发明实施例中是以N1赋值为0.8,N2赋值为0.3为例进行的说明,在实际应用中,该N1和N2的具体赋值还可以根据实际需求进行适应性的调整,本发明并不以此为限。例如:字符“抱”和字符“泡”的声母部分分别为b和p其同属于上述表1中双唇音的类别,则这两个字符的声母部分相似度值为0.8,;再如字符“抱”和字符“到”的声母部分分别为b和d,前者属于上述表1中的双唇音类别,后者属于舌尖中音类别,因此两者属于不同的声母分类,则这两个字符的声母部分相似度值为0.3。
步骤S23:利用预设韵母分类规则判断两个字符的韵母部分是否属于相同类别,并根据判断结果及预设赋值规则得到韵母部分相似度。在本发明实施例中,考虑到语音转录文本受方言发音等因素的影响,将预设韵母分类规则设置为中华新韵分韵表对韵母进行分类,具体分类结果参见表2。
表2
名称 |
汉语拼音 |
名称 |
汉语拼音 |
一麻 |
a,ua,ia |
十一鱼 |
v |
二波 |
o,uo |
十二侯 |
ou,iou,iu |
三歌 |
E |
十三豪 |
ao,iao |
四皆 |
ue,ie,ve |
十四寒 |
an,ian,uan,van |
六儿 |
Er |
十五痕 |
uen,en,in,un,vn |
七齐 |
I |
十六唐 |
ang,iang,uang |
八微 |
ei,ui,uei, |
十七庚 |
eng,ing,ueng |
九开 |
ai,uai |
十八东 |
ong,iong |
十姑 |
U |
其它 |
n |
在实际应用中,上述步骤S23中韵母部分相似度通过如下公式(4)计算:
其中,g(x2,y2)表示韵母x2与韵母y2的相似度,M1和M2为0-1之间的小数,且M1>M2。需要说明的是,在本发明实施例中是以M1赋值为0.8,M2赋值为0.3为例进行的说明,在实际应用中,该M1和M2的具体赋值还可以根据实际需求进行适应性的调整,本发明并不以此为限。例如:字符“泡”和字符“漂”的韵母部分分别为ao和iao其同属于上述表2中十三豪的类别,则这两个字符的韵母部分相似度值为0.8,;再如字符“泡”和字符“白”的韵母部分分别为ao和ai,前者属于上述表2中的十三豪的类别,后者属于九开的类别,因此两者属于不同的韵母分类,则这两个字符的韵母部分相似度值为0.3。
步骤S24:根据声母部分相似度及韵母部分相似度计算拼音相似度。
在实际应用中,上述步骤S24中拼音相似度通过如下公式(5)计算:
其中,sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,g(ai1,bj1)表示字符ai与字符bj之间声母部分相似度,g(ai2,bj2)表示字符ai与字符bj之间韵母部分相似度,ai1和ai2分别表示字符ai的声母和韵母,bj1和bj2分别表示字符bj的声母和韵母。例如:上述字符“抱”与字符“泡”的拼音相似度为0.8*1=0.8,字符“泡”和字符“白”的拼音相似度为0.8*0.8=0.64。
步骤S3:将待分类实体词汇划分入基于拼音相似度的编辑距离的平均值最小的类别中,并返回上述步骤S2,直至分类结果不再变化为止。在实际应用中,随着选择的待分类实体词汇越来越多,所形成的各个类别与类别间的差异越来越大,分类情况变化也随之减小,如果再次选择待分类实体词汇进行计算得到其基于拼音相似度的编辑距离的平均值最小对应的类别就是实体词汇当前所在的类别中时,即分类结果不变,说明聚类已经完成。
步骤S103:将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。在实际应用中,上述步骤S3中所生成的聚类结果,是将目标语音转录文本中提取的所有实体词汇划分为若干类,每一类中包含有多个实体词汇,通常认为每一类中的实体词汇实际为同一实体词汇,但是由于机器自动转录时可能出现部分实体词汇错误的情况,通常大部分实体词汇的转录是正确的,而语音转录文本中转录错误的字符相对较少,因此,在本发明实施例中,是将每一类出现频率最高的实体词汇作为标准实体词汇(即正确实体词汇),然后将同一类别中与该标准实体词汇不一致的其他实体词汇都用该标准实体词汇替换,进而完成对整个目标语音转录文本的实体纠错。
本发明实施例通过将856个已经标注好的转录文本进行整理,去除重复的、有错误的实体,得到35个实体作为实体词典,将35923个带预测的语音转录文本进行机器标注,然后人工校验,去除重复的人工无法检验的实体,最终得到400个测试实体样本。直接使用编辑距离以及使用本发明实施例提供的基于拼音相似度的编辑距离进行预测,计算准确率,分别是62.09%和68.83%,这说明本发明实施例提供的基于拼音相似度的编辑距离模型更适合纠正语音转录文本中有错误的实体。进行实现了对有错误的实体进行纠错,并且纠错完成后能够得到正确的实体,能够有效的改进了实体识别算法不能对实体自动纠错的缺点。
通过利用本发明实施例提供的语音转录文本的实体纠错方法建立实体识别模型,在上述35923个语音转录文本中进行预测,预测具有实体的文本有10448个,在测试文本中对有关“离线投标工具”这一实体词汇名称进行统计,发现名称文字有错误的实体能被模型识别,如表3所示。这说明通过本发明实施例提供的语音转录文本的实体纠错方法建立实体识别模型具有一定的鲁棒性,能够自动将名称有错误的实体识别出来。
表3
通过上述步骤S101至步骤S103,本发明实施例提供的语音转录文本的实体纠错方法,通过对目标语音转录文本中提取的实体词汇进行拼音标注,然后利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,从而加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,然后根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
本发明实施例还提供了一种语音转录文本的实体纠错系统,如图2所示,该语音转录文本的实体纠错系统包括:
标注模块1,用于对从目标语音转录文本中提取的实体词汇进行拼音标注。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
聚类模块2,用于利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
纠错模块3,用于将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的语音转录文本的实体纠错系统,通过对目标语音转录文本中提取的实体词汇进行拼音标注,然后利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,从而加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,然后根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
根据本发明实施例还提供了一种电子设备,如图3所示,该电子设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。