CN111611792B - 一种语音转录文本的实体纠错方法及系统 - Google Patents

一种语音转录文本的实体纠错方法及系统 Download PDF

Info

Publication number
CN111611792B
CN111611792B CN202010439068.5A CN202010439068A CN111611792B CN 111611792 B CN111611792 B CN 111611792B CN 202010439068 A CN202010439068 A CN 202010439068A CN 111611792 B CN111611792 B CN 111611792B
Authority
CN
China
Prior art keywords
similarity
pinyin
entity
character
initial consonant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010439068.5A
Other languages
English (en)
Other versions
CN111611792A (zh
Inventor
贾全烨
张强
宋博川
柴博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Global Energy Interconnection Research Institute, Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010439068.5A priority Critical patent/CN111611792B/zh
Publication of CN111611792A publication Critical patent/CN111611792A/zh
Application granted granted Critical
Publication of CN111611792B publication Critical patent/CN111611792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音转录文本的实体纠错方法及系统,该方法包括:对从目标语音转录文本中提取的实体词汇进行拼音标注;利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。通过利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。

Description

一种语音转录文本的实体纠错方法及系统
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音转录文本的实体纠错方法及系统。
背景技术
随着人工智能(AI,Artificial Intelligence)技术的推广和深入,以带电作业机器人、AI控制器为代表的一批智能产品已率先进入电力行业,并发挥了极大的效用。因此,将人工智能技术与电力、能源等行业相结合,促进传统行业的转型升级,是现在的发展趋势。语音作为人类最自然、最有效地交流方式,使得语音识别技术成为当下热门研究方向。目前,在国网客服中心每天产生大量的通话记录,这些通话的语音通过自动转录为文本的方式进行存储,但是由于受到口音、断句及语音中词意等影响,机器在识别语音文本时,容易识别成读音相同或者相似的同音字,造成自动转录完的语音文本中的实体名称会出现各类错误,例如:实体名称为“离线投标工具”被转录为“礼县投标工具”或“离线图标工具”等。因此,需要对转录文本中的实体名称进行纠错。
而目前现有的文本纠错方法往往是利用相似度计算的方式进行文本纠错,其中最常见的相似度算法为编辑距离算法(Minimum Edit Distance,MED),该算法将两个字符串的相似度问题,归结为将其中一个字符串转化成另一个字符串所要付出的代价,转化的代价越高,说明两个字符串的相似度越低。然而,现有的编辑距离算法在计算字符相似度时,只划分为不同和完全相同这两种情况,但是,由于语音转录文本中一些词汇的真实词意可能会被转换为同音词或近音词,而这些同音词或近音词基于现有的编辑距离算法的文本纠错方法往往无法准确辨别出来,进而影响最终语音转录文本的准确性。
发明内容
有鉴于此,本发明实施例提供了一种语音转录文本的实体纠错方法及系统,以克服现有技术中的语音转录文本的实体纠错方法准确性低的问题。
本发明实施例提供了一种语音转录文本的实体纠错方法,包括:对从目标语音转录文本中提取的实体词汇进行拼音标注;利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为所述标准实体词汇。
可选地,利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果,包括:步骤S1:将所有实体词汇随机划分为若干类;步骤S2:从所有实体词汇中依次选择待分类实体词汇,利用标注的拼音计算所述待分类实体词汇与每一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值;步骤S3:将所述待分类实体词汇划分入基于拼音相似度的编辑距离的平均值最小的类别中,并返回上述步骤S2,直至分类结果不再变化为止。
可选地,所述基于拼音相似度的编辑距离通过如下公式计算:
Figure BDA0002502435740000021
其中,Leva,b(i,j)表示字符串a中前i个字符和b中前j个字符之间的基于拼音相似度的编辑距离,i,j分别表示字符串a,b的长度,且i、j为自然数;sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,A表示拼音相似度的预设权重值。
可选地,计算两个字符的拼音相似度包括:分别将两个字符的拼音分为声母部分和韵母部分;利用预设声母分类规则判断所述两个字符的声母部分是否属于相同类别,并根据判断结果及预设赋值规则得到声母部分相似度;利用预设韵母分类规则判断所述两个字符的韵母部分是否属于相同类别,并根据判断结果及预设赋值规则得到韵母部分相似度;根据所述声母部分相似度及所述韵母部分相似度计算所述拼音相似度。
可选地,所拼音相似度通过如下公式计算:
Figure BDA0002502435740000031
其中,sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,g(ai1,bj1)表示字符ai与字符bj之间声母部分相似度,g(ai2,bj2)表示字符ai与字符bj之间韵母部分相似度,ai1和ai2分别表示字符ai的声母和韵母,bj1和bj2分别表示字符bj的声母和韵母。
可选地,所声母部分相似度通过如下公式计算:
Figure BDA0002502435740000032
其中,g(x1,y1)表示声母x1与声母y1的声母部分相似度,N1和N2为0-1之间的小数,且N1>N2。
可选地,所韵母部分相似度通过如下公式计算:
Figure BDA0002502435740000033
其中,g(x2,y2)表示韵母x2与韵母y2的相似度,M1和M2为0-1之间的小数,且M1>M2。
本发明实施例还提供了一种语音转录文本的实体纠错系统,包括:标注模块,用于对从目标语音转录文本中提取的实体词汇进行拼音标注;聚类模块,用于利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;纠错模块,用于将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为所述标准实体词汇。
本发明实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例提供的语音转录文本的实体纠错方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例提供的语音转录文本的实体纠错方法。
本发明技术方案,具有如下优点:
本发明实施例提供了一种语音转录文本的实体纠错方法及系统,通过对目标语音转录文本中提取的实体词汇进行拼音标注,然后利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,从而加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,然后根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的语音转录文本的实体纠错方法的流程图;
图2为本发明实施例中的语音转录文本的实体纠错系统的结构示意图;
图3为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
当电网系统内存储的各类语音内容自动转录为文本时,由于受到口音、断句及语音中词意等影响,机器在识别语音文本时,容易识别成读音相同或者相似的同音字,造成自动转录完的语音文本中的实体名称会出现各类错误,因此需要对语音转录文本进行实体词汇简称实体的纠错,以保证文本词意的准确性,为此,本发明实施例提供了一种语音转录文本的实体纠错方法,如图1所示,该语音转录文本的实体纠错方法,具体包括如下步骤:
步骤S101:对从目标语音转录文本中提取的实体词汇进行拼音标注。具体地,在本发明实施例中是通过基于深度学习的方法将目标语音转录文本中的所有实体词汇识别并提取出来,需要说明的是,在实际应用中,也可以采用其他方式提取目标语音转录文本中的所有实体词汇,本发明并不以此为限。
步骤S102:利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果。
具体地,在一实施例中,上述步骤S102具体包括如下步骤:
步骤S1:将所有实体词汇随机划分为若干类。
步骤S2:从所有实体词汇中依次选择待分类实体词汇,利用标注的拼音计算待分类实体词汇与每一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值。
具体地,可以通过如下公式(1)计算待分类实体词汇与某一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值:
Figure BDA0002502435740000061
其中,dij表示待分类实体词汇xj与分类Ci中所有实体词汇Cik之间基于拼音相似度的编辑距离的平均值,Ci表示划分类别的编号,Cik表示划分类别中所包含实体词汇的编号,PD(Cik,xj)表示,实体词汇xj与实体词汇Cik之间基于拼音相似度的编辑距离,并且i和k均为正整数。
具体地,上述基于拼音相似度的编辑距离可以通过如下公式(2)计算:
Figure BDA0002502435740000062
其中,Leva,b(i,j)表示字符串a中前i个字符和b中前j个字符之间的基于拼音相似度的编辑距离,i,j分别表示字符串a,b的长度,且i、j为自然数;sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,A表示拼音相似度的预设权重值。为了方便理解,这里的字符串的第一个字符i从1开始,因此最后的编辑距离便是i=|a|,j=|b|时的距离:
当min(i,j)=0的时候,对应着字符串a中前i个字符和字符串b中前j个字符,此时i,j有一个值为0,表示字符串a和b中有一个为空串,那么从a转换到b只需要进行max(i,j)次单字符编辑操作即可,所以它们之间的编辑距离为max(i,j),即i,j中的最大者。
当min(i,j)≠0的时候,Leva,b(|a|,|b|)为如下三种情况的最小值:
1.Leva,b(i-1,j)+1表示删除ai
2.Leva,b(i,j-1)+1表示删除bj
3.Leva,b(i-1,j-1)+un_sim(ai,bj)表示ai替换bj,其中un_sim(ai,bj),表示ai,bj的不相似程度,当ai=bj时为0,当ai≠bj时为1-A*sim_pinyin(ai,bj)。
需要说明的是,在本发明实施例中是以将上述的预设权重值设置为0.9为例进行的说明,在实际应用中,该预设权重值还可以根据实际对语音转录文本纠错精确度的要求或者专家意见等进行适应性的调整,本发明并不以此为限。从而通过在编辑距离计算两个字符相似度的过程中引入了拼音相似度,使得改进后的编辑距离计算方式对语音转录文本中的同音词或者近义词更加敏感,进而提高对同音词及近音词的辨识能力,为后续完成语音转录文本的纠错提供依据,以提高纠错的准确性。
具体地,上述步骤S2中,计算两个字符间的拼音相似度具体包括如下步骤:
步骤S21:分别将两个字符的拼音分为声母部分和韵母部分。具体地,每一个汉字字符的拼音均由声母和韵母两个部分构成,结合这两个部分各自的发音特点,将字符的声母部分和韵母部分单独比较,有利于提高后续判断字符间拼音整体相似度的准确性。在计算拼音相似度时,本发明实施例通过将声母和韵母进行分类,在同一类别中的声母或者韵母的相似程度越高。这是考虑到录音中受到方言的影响,容易将正确读音的声母或者韵母读成同一类的其他声母或者韵母,如果不考虑该因素将容易遗漏错误的实体词汇,进而影响纠错结果的准确性。
步骤S22:利用预设声母分类规则判断两个字符的声母部分是否属于相同类别,并根据判断结果及预设赋值规则得到声母部分相似度。在本发明实施例中,考虑到语音转录文本受方言发音等因素的影响,将预设声母分类规则设置为按照声母发音部位进行分类,具体分类结果参见表1。
表1
种类 声母
双唇音 b,p,m
唇齿音 f
舌尖前后音 zh,ch,sh,r,z,c,s
舌尖中音 d,t,n,l
舌面音 j,q,x
舌根音 g,k,h
其它 y,w,(无声母)
在实际应用中,上述步骤S22中声母部分相似度通过如下公式(3)计算:
Figure BDA0002502435740000081
其中,g(x1,y1)表示声母x1与声母y1的声母部分相似度,N1和N2为0-1之间的小数,且N1>N2。需要说明的是,在本发明实施例中是以N1赋值为0.8,N2赋值为0.3为例进行的说明,在实际应用中,该N1和N2的具体赋值还可以根据实际需求进行适应性的调整,本发明并不以此为限。例如:字符“抱”和字符“泡”的声母部分分别为b和p其同属于上述表1中双唇音的类别,则这两个字符的声母部分相似度值为0.8,;再如字符“抱”和字符“到”的声母部分分别为b和d,前者属于上述表1中的双唇音类别,后者属于舌尖中音类别,因此两者属于不同的声母分类,则这两个字符的声母部分相似度值为0.3。
步骤S23:利用预设韵母分类规则判断两个字符的韵母部分是否属于相同类别,并根据判断结果及预设赋值规则得到韵母部分相似度。在本发明实施例中,考虑到语音转录文本受方言发音等因素的影响,将预设韵母分类规则设置为中华新韵分韵表对韵母进行分类,具体分类结果参见表2。
表2
名称 汉语拼音 名称 汉语拼音
一麻 a,ua,ia 十一鱼 v
二波 o,uo 十二侯 ou,iou,iu
三歌 E 十三豪 ao,iao
四皆 ue,ie,ve 十四寒 an,ian,uan,van
六儿 Er 十五痕 uen,en,in,un,vn
七齐 I 十六唐 ang,iang,uang
八微 ei,ui,uei, 十七庚 eng,ing,ueng
九开 ai,uai 十八东 ong,iong
十姑 U 其它 n
在实际应用中,上述步骤S23中韵母部分相似度通过如下公式(4)计算:
Figure BDA0002502435740000091
其中,g(x2,y2)表示韵母x2与韵母y2的相似度,M1和M2为0-1之间的小数,且M1>M2。需要说明的是,在本发明实施例中是以M1赋值为0.8,M2赋值为0.3为例进行的说明,在实际应用中,该M1和M2的具体赋值还可以根据实际需求进行适应性的调整,本发明并不以此为限。例如:字符“泡”和字符“漂”的韵母部分分别为ao和iao其同属于上述表2中十三豪的类别,则这两个字符的韵母部分相似度值为0.8,;再如字符“泡”和字符“白”的韵母部分分别为ao和ai,前者属于上述表2中的十三豪的类别,后者属于九开的类别,因此两者属于不同的韵母分类,则这两个字符的韵母部分相似度值为0.3。
步骤S24:根据声母部分相似度及韵母部分相似度计算拼音相似度。
在实际应用中,上述步骤S24中拼音相似度通过如下公式(5)计算:
Figure BDA0002502435740000101
其中,sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,g(ai1,bj1)表示字符ai与字符bj之间声母部分相似度,g(ai2,bj2)表示字符ai与字符bj之间韵母部分相似度,ai1和ai2分别表示字符ai的声母和韵母,bj1和bj2分别表示字符bj的声母和韵母。例如:上述字符“抱”与字符“泡”的拼音相似度为0.8*1=0.8,字符“泡”和字符“白”的拼音相似度为0.8*0.8=0.64。
步骤S3:将待分类实体词汇划分入基于拼音相似度的编辑距离的平均值最小的类别中,并返回上述步骤S2,直至分类结果不再变化为止。在实际应用中,随着选择的待分类实体词汇越来越多,所形成的各个类别与类别间的差异越来越大,分类情况变化也随之减小,如果再次选择待分类实体词汇进行计算得到其基于拼音相似度的编辑距离的平均值最小对应的类别就是实体词汇当前所在的类别中时,即分类结果不变,说明聚类已经完成。
步骤S103:将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。在实际应用中,上述步骤S3中所生成的聚类结果,是将目标语音转录文本中提取的所有实体词汇划分为若干类,每一类中包含有多个实体词汇,通常认为每一类中的实体词汇实际为同一实体词汇,但是由于机器自动转录时可能出现部分实体词汇错误的情况,通常大部分实体词汇的转录是正确的,而语音转录文本中转录错误的字符相对较少,因此,在本发明实施例中,是将每一类出现频率最高的实体词汇作为标准实体词汇(即正确实体词汇),然后将同一类别中与该标准实体词汇不一致的其他实体词汇都用该标准实体词汇替换,进而完成对整个目标语音转录文本的实体纠错。
本发明实施例通过将856个已经标注好的转录文本进行整理,去除重复的、有错误的实体,得到35个实体作为实体词典,将35923个带预测的语音转录文本进行机器标注,然后人工校验,去除重复的人工无法检验的实体,最终得到400个测试实体样本。直接使用编辑距离以及使用本发明实施例提供的基于拼音相似度的编辑距离进行预测,计算准确率,分别是62.09%和68.83%,这说明本发明实施例提供的基于拼音相似度的编辑距离模型更适合纠正语音转录文本中有错误的实体。进行实现了对有错误的实体进行纠错,并且纠错完成后能够得到正确的实体,能够有效的改进了实体识别算法不能对实体自动纠错的缺点。
通过利用本发明实施例提供的语音转录文本的实体纠错方法建立实体识别模型,在上述35923个语音转录文本中进行预测,预测具有实体的文本有10448个,在测试文本中对有关“离线投标工具”这一实体词汇名称进行统计,发现名称文字有错误的实体能被模型识别,如表3所示。这说明通过本发明实施例提供的语音转录文本的实体纠错方法建立实体识别模型具有一定的鲁棒性,能够自动将名称有错误的实体识别出来。
表3
Figure BDA0002502435740000111
通过上述步骤S101至步骤S103,本发明实施例提供的语音转录文本的实体纠错方法,通过对目标语音转录文本中提取的实体词汇进行拼音标注,然后利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,从而加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,然后根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
本发明实施例还提供了一种语音转录文本的实体纠错系统,如图2所示,该语音转录文本的实体纠错系统包括:
标注模块1,用于对从目标语音转录文本中提取的实体词汇进行拼音标注。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
聚类模块2,用于利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
纠错模块3,用于将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的语音转录文本的实体纠错系统,通过对目标语音转录文本中提取的实体词汇进行拼音标注,然后利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,从而加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,然后根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
根据本发明实施例还提供了一种电子设备,如图3所示,该电子设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (4)

1.一种语音转录文本的实体纠错方法,其特征在于,包括:
对从目标语音转录文本中提取的实体词汇进行拼音标注;
利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;
将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为所述标准实体词汇;
利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果,包括:
步骤S1:将所有实体词汇随机划分为若干类;
步骤S2:从所有实体词汇中依次选择待分类实体词汇,利用标注的拼音计算所述待分类实体词汇与每一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值;
步骤S3:将所述待分类实体词汇划分入基于拼音相似度的编辑距离的平均值最小的类别中,并返回上述步骤S2,直至分类结果不再变化为止;
所述基于拼音相似度的编辑距离通过如下公式计算:
Figure FDA0004143989660000011
其中,Leva,b(i,j)表示字符串a中前i个字符和b中前j个字符之间的基于拼音相似度的编辑距离,i,j分别表示字符串a,b的长度,且i、j为自然数;sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,A表示拼音相似度的预设权重值;
计算两个字符的拼音相似度包括:
分别将两个字符的拼音分为声母部分和韵母部分;
利用预设声母分类规则判断所述两个字符的声母部分是否属于相同类别,并根据判断结果及预设赋值规则得到声母部分相似度;
利用预设韵母分类规则判断所述两个字符的韵母部分是否属于相同类别,并根据判断结果及预设赋值规则得到韵母部分相似度;
根据所述声母部分相似度及所述韵母部分相似度计算所述拼音相似度;
所拼音相似度通过如下公式计算:
Figure FDA0004143989660000021
其中,sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,g(ai1,bj1)表示字符ai与字符bj之间声母部分相似度,g(ai2,bj2)表示字符ai与字符bj之间韵母部分相似度,ai1和ai2分别表示字符ai的声母和韵母,bj1和bj2分别表示字符bj的声母和韵母;
所声母部分相似度通过如下公式计算:
Figure FDA0004143989660000022
其中,g(x1,y1)表示声母x1与声母y1的声母部分相似度,N1和N2为0-1之间的小数,且N1>N2;
所韵母部分相似度通过如下公式计算:
Figure FDA0004143989660000031
其中,g(x2,y2)表示韵母x2与韵母y2的相似度,M1和M2为0-1之间的小数,且M1>M2。
2.一种语音转录文本的实体纠错系统,其特征在于,包括:
标注模块,用于对从目标语音转录文本中提取的实体词汇进行拼音标注;
聚类模块,用于利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果,包括:步骤S1:将所有实体词汇随机划分为若干类;步骤S2:从所有实体词汇中依次选择待分类实体词汇,利用标注的拼音计算所述待分类实体词汇与每一类中所包含的所有实体词汇之间基于拼音相似度的编辑距离的平均值;步骤S3:将所述待分类实体词汇划分入基于拼音相似度的编辑距离的平均值最小的类别中,并返回上述步骤S2,直至分类结果不再变化为止;所述基于拼音相似度的编辑距离通过如下公式计算:
Figure FDA0004143989660000032
其中,Leva,b(i,j)表示字符串a中前i个字符和b中前j个字符之间的基于拼音相似度的编辑距离,i,j分别表示字符串a,b的长度,且i、j为自然数;sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,A表示拼音相似度的预设权重值;
计算两个字符的拼音相似度包括:
分别将两个字符的拼音分为声母部分和韵母部分;
利用预设声母分类规则判断所述两个字符的声母部分是否属于相同类别,并根据判断结果及预设赋值规则得到声母部分相似度;
利用预设韵母分类规则判断所述两个字符的韵母部分是否属于相同类别,并根据判断结果及预设赋值规则得到韵母部分相似度;
根据所述声母部分相似度及所述韵母部分相似度计算所述拼音相似度;
所拼音相似度通过如下公式计算:
Figure FDA0004143989660000041
其中,sim_pinyin(ai,bj)表示字符ai与字符bj之间的拼音相似度,g(ai1,bj1)表示字符ai与字符bj之间声母部分相似度,g(ai2,bj2)表示字符ai与字符bj之间韵母部分相似度,ai1和ai2分别表示字符ai的声母和韵母,bj1和bj2分别表示字符bj的声母和韵母;
所声母部分相似度通过如下公式计算:
Figure FDA0004143989660000042
其中,g(x1,y1)表示声母x1与声母y1的声母部分相似度,N1和N2为0-1之间的小数,且N1>N2;
所韵母部分相似度通过如下公式计算:
Figure FDA0004143989660000043
其中,g(x2,y2)表示韵母x2与韵母y2的相似度,M1和M2为0-1之间的小数,且M1>M2;
纠错模块,用于将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为所述标准实体词汇。
3.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1所述的语音转录文本的实体纠错方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行权利要求1所述的语音转录文本的实体纠错方法。
CN202010439068.5A 2020-05-21 2020-05-21 一种语音转录文本的实体纠错方法及系统 Active CN111611792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439068.5A CN111611792B (zh) 2020-05-21 2020-05-21 一种语音转录文本的实体纠错方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010439068.5A CN111611792B (zh) 2020-05-21 2020-05-21 一种语音转录文本的实体纠错方法及系统

Publications (2)

Publication Number Publication Date
CN111611792A CN111611792A (zh) 2020-09-01
CN111611792B true CN111611792B (zh) 2023-05-23

Family

ID=72199492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010439068.5A Active CN111611792B (zh) 2020-05-21 2020-05-21 一种语音转录文本的实体纠错方法及系统

Country Status (1)

Country Link
CN (1) CN111611792B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149411B (zh) * 2020-09-22 2024-06-04 常州大学 一种抗生素临床使用领域本体构建方法
CN112562668A (zh) * 2020-11-30 2021-03-26 广州橙行智动汽车科技有限公司 一种语义信息纠偏方法和装置
CN112786024B (zh) * 2020-12-28 2022-05-24 华南理工大学 水处理领域无专业语音数据条件下的语音命令识别方法
CN113536776B (zh) * 2021-06-22 2024-06-14 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113744722B (zh) * 2021-09-13 2024-08-23 上海交通大学宁波人工智能研究院 一种用于有限句库的离线语音识别匹配装置与方法
CN114398463B (zh) * 2021-12-30 2023-08-11 南京硅基智能科技有限公司 一种语音跟踪方法及装置、存储介质、电子设备
CN115221866B (zh) * 2022-06-23 2023-07-18 平安科技(深圳)有限公司 一种实体词拼写纠错方法和系统
CN116415582B (zh) * 2023-05-24 2023-08-25 中国医学科学院阜外医院 文本处理方法、装置、计算机可读存储介质及电子设备
CN117672182B (zh) * 2024-02-02 2024-06-07 江西拓世智能科技股份有限公司 一种基于人工智能的声音克隆方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229162A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及び装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN109101518A (zh) * 2018-05-21 2018-12-28 全球能源互联网研究院有限公司 语音转录文本质量评估方法、装置、终端及可读存储介质
CN109145276A (zh) * 2018-08-14 2019-01-04 杭州智语网络科技有限公司 一种基于拼音的语音转文字后的文本校正方法
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
WO2019096068A1 (zh) * 2017-11-14 2019-05-23 蔚来汽车有限公司 语音识别纠错方法以及语音识别纠错系统
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
CN110782892A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 语音文本纠错方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2533370A (en) * 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
US10811003B2 (en) * 2018-10-31 2020-10-20 International Business Machines Corporation Language phonetic processing based on fine-grained mapping of phonetic components

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229162A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及び装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
WO2019096068A1 (zh) * 2017-11-14 2019-05-23 蔚来汽车有限公司 语音识别纠错方法以及语音识别纠错系统
CN109101518A (zh) * 2018-05-21 2018-12-28 全球能源互联网研究院有限公司 语音转录文本质量评估方法、装置、终端及可读存储介质
CN109145276A (zh) * 2018-08-14 2019-01-04 杭州智语网络科技有限公司 一种基于拼音的语音转文字后的文本校正方法
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
CN110782892A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 语音文本纠错方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
刁兴春 ; 谭明超 ; 曹建军 ; .一种融合多种编辑距离的字符串相似度计算方法.计算机应用研究.2010,(第12期),全文. *
刘亮亮 ; 王石 ; 王东升 ; 汪平仄 ; 曹存根 ; .领域问答系统中的文本错误自动发现方法.中文信息学报.2013,(第03期),全文. *
曹犟 ; 邬晓钧 ; 夏云庆 ; 郑方 ; .基于拼音索引的中文模糊匹配算法.清华大学学报(自然科学版).2009,(第S1期),全文. *
玉素甫・艾白都拉 ; .基于最小编辑距离和词汇库的维吾尔语文本校对系统的设计与算法实现.信息与电脑(理论版).2013,(第06期),全文. *
约尔尼萨・吾不力卡司木 *
邵清 ; 叶琨 ; .基于编辑距离和相似度改进的汉字字符串匹配.电子科技.2016,(第09期),全文. *

Also Published As

Publication number Publication date
CN111611792A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111611792B (zh) 一种语音转录文本的实体纠错方法及系统
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
EP1366490B1 (en) Hierarchichal language models
JP2022531414A (ja) 数字列のエンドツーエンド自動音声認識
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111199726B (zh) 基于语音成分的细粒度映射的语言语音处理
CN109036471B (zh) 语音端点检测方法及设备
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN112562640B (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
CN112259083B (zh) 音频处理方法及装置
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
CN112992125A (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN116129866A (zh) 语音合成方法、网络训练方法、装置、设备及存储介质
CN115101042A (zh) 一种文本处理方法、装置及设备
CN117350302B (zh) 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置
JP4292191B2 (ja) 素片接続型音声合成装置及びコンピュータプログラム
CN116229979A (zh) 文本对齐信息获取方法、装置及计算机设备
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
CN114171004A (zh) 语音交互方法、装置、电子设备及存储介质
CN113763939A (zh) 基于端到端模型的混合语音识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210111

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant after: INFORMATION COMMUNICATION COMPANY OF STATE GRID SHANDONG ELECTRIC POWER Co.

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

GR01 Patent grant
GR01 Patent grant