CN105869642B - 一种语音文本的纠错方法及装置 - Google Patents
一种语音文本的纠错方法及装置 Download PDFInfo
- Publication number
- CN105869642B CN105869642B CN201610180122.2A CN201610180122A CN105869642B CN 105869642 B CN105869642 B CN 105869642B CN 201610180122 A CN201610180122 A CN 201610180122A CN 105869642 B CN105869642 B CN 105869642B
- Authority
- CN
- China
- Prior art keywords
- word
- error correction
- identified
- text
- speech text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000012141 concentrate Substances 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011430 maximum method Methods 0.000 description 4
- 101150035983 str1 gene Proteins 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明的实施例提供了一种语音文本的纠错方法及装置,涉及数据处理领域,解决了现有技术中语音识别系统识别出的语音文本不准确的问题。该方法包括:提取待识别语音文本以及对应的相关语音识别文本,相关语音识别文本为与待识别语音文本存在语境关联的语音识别文本;获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;根据第一概念关联集确定待识别语音文本中的待纠错词;从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换待识别语音文本中的待纠错词。本发明应用于语音文本的纠错。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种语音文本的纠错方法及装置。
背景技术
语音识别技术是非常重要的人机交互技术,随着语音识别技术突飞猛进的发展,现已有大量的语音识别系统投入到商业运营。然而,由于汉语的同音词、停顿及断句等多种因素的影响,使得语音识别系统识别出的语音文本会出现语句不连贯的错误。
针对上述问题,现有技术提供一种对语音识别后文本进行检错纠错的方法,即通过对待识别语音文本进行语法语义分析,从而定位出该待识别语音文本中的锚点词,然后,在预配置的存储有大量实例(例如,各种语境下的句子)的语境知识库中抽取每个锚点词对应的实例(例如,包含该锚点词的文本局形成的实例),然后分别计算每个锚点词对应的实例与该待识别语音文本间的词语相关度,并从该每个锚点词对应的实例中选择与该待识别语音文本间的词语相关度最大的实例,最后,基于该待识别语音文本中的每个词语与该实例间的相似度,确定出待纠错词,并对该待纠错词进行纠错。
但是,由于同一词语在不同场景下所形成的实例不同,现有的语境知识库中不能涵盖每个词语的所有语境下的实例,从而可能导致该语音识别系统无法从该语境知识库中查找到该待识别语音文本中的锚点词对应的实例或查找到的实例与该待识别语音文本完全无关,进而无法对该待识别语音文本进行纠错,从而导致最终识别出的语音文本并未进行纠错,准确度不高。
发明内容
本发明的实施例提供一种语音文本的纠错方法及装置,解决了现有技术中语音识别系统识别出的语音文本准确度不高的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种语音文本的纠错方法,包括:
提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识别文本为与所述待识别语音文本存在语境关联的语音识别文本;
获取所述相关语音识别文本的第一概念关联集以及所述待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;
根据所述第一概念关联集确定所述待识别语音文本中的待纠错词;
从所述第二概念关联集和/或所述第一概念关联集中获取所述待纠错词对应的纠错候选词,并用所述纠错候选词替换所述待识别语音文本中的待纠错词。
另一方面,提供一种语音文本的纠错装置,包括:
提取模块,用于提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识别文本为与所述待识别语音文本存在语境关联的语音识别文本;
第一获取模块,用于获取所述相关语音识别文本的第一概念关联集以及所述待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;
确定模块,用于根据所述第一概念关联集确定所述待识别语音文本中的待纠错词;
第二获取模块,用于从所述第二概念关联集和/或所述第一概念关联集中获取所述待纠错词对应的纠错候选词,用所述纠错候选词替换所述待识别语音文本中的待纠错词。
本发明的实施例提供的语音文本的纠错方法及装置,首先,通过提取待识别语音文本以及对应的相关语音识别文本;其次,获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集,其中,概念关联集中包含与语音文本中的词语存在关联关系的关联词;然后,根据第一概念关联集确定待识别语音文本中的待纠错词;最后,从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换所述待识别语音文本中的待纠错词。
相比于现有技术中,语音识别系统根据与该待识别语音文本可能不属于同一语境的待识别语音文本中的锚点词的实例,来对该待识别语音文本进行语义纠错的过程,本方案通过提取与该待识别语音文本处于同一交互场景和同一语境下的相关语音识别文本,然后根据该相关语音识别文本的第一概念关联集中的关联词识别该待识别语音文本中的待纠错词,由于该第一概念关联集中包含的关联词是与该相关语音识别文本中的词语存在关联关系的词语,而该相关语音识别文本又与该待识别语音文本同属于同一语境下,从而使得上述的待纠错词识别过程不仅考虑到了实际的应用场景以及人的主观目的和情绪等,还能够快速的检测出语句中的不和谐的地方,从而提升了待纠错词的准确度。同时,由于该第二概念关联集和第一概念关联集中所包含的关联词与待纠错词属于同一语境,这样便可快速有效的从第二概念关联集和第一概念关联集中获取待纠错词的纠错候选词,提高了最终识别出的语音文本的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种领域概念层次结构示意图;
图2为本发明实施例提供的一种语音文本的纠错方法的方法流程图;
图3为本发明实施例提供的一种基于正向最大匹配算法的分词流程示意图;
图4为本发明实施例提供的另一种基于正向最大匹配算法的分词流程示意图;
图5为本发明实施例提供的一种语音文本的纠错装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例中提及语音文本的纠错方法的执行主体为语音文本的纠错装置,或者用于执行上述语音文本的纠错方法的终端。具体的,该终端可以为手机、平板电脑、笔记本电脑、超级移动个人计算机(英文:Ultra-mobile Personal Computer,简称:UMPC)、上网本、个人数字助理(英文:Personal Digital Assistant,简称:PDA)等终端设备,在这里并不进行限定。其中,语音文本的纠错装置可以为上述终端中的中央处理器(英文:CentralProcessing Unit,简称:CPU)或者可以为上述终端的中的控制单元或者功能模块。
本实施例中的语音文本的概念关联集是该装置通过对该语音文本中的词语进行领域标注后,根据这些领域标注信息从概念知识库中提取对应的关联词,并将这些关联词组成该语音文本对应的概念关联集。例如,若该语音文本为“我要看刘德华电影”,该装置通过获取“我”“要”“看”“刘德华”“演”“电影”这几个词语对应的领域信息,如,影视领域,在众多领域中搜索影视,在影视下找演员,在演员中搜索刘德华,在刘德华下查找相关电影(例如,刘德华主演电影:失孤、桃姐,富春山居图等)的参数信息,然后基于这些电影的参数信息从概念知识库中搜索相关特征词汇组成对应的概念关联集。
上述的概念知识库是技术人员基于特定领域的互联网数据及用户使用数据进行构建的,通常是按照领域概念层次结构进行构建的,其中,领域概念层次结构是对特定领域的概念特征化描述,可反映该领域内的知识和概念关系,领域概念的添加有助于知识的推理、信息分类、搜索和导航,有助于人或机器理解一个高度集中或快速变化的领域。尤其是针对特定领域词汇进行语义标注,将海量语料中与领域相关的特征词汇抽取出来,形成特征词汇集,结合领域本体的空间向量模型,建立关联的同时也引入领域本地的相关性,实现语料与领域本体间的概念映射。示例性的,参照图1所示的一种领域概念层次结构示意图可知,该概念知识库中存储的每个词语包括多层领域信息,每层领域信息包括至少一个领域标识。例如,示例一:词语“刘德华”,由于刘德华的普遍含义为演员刘德华,所以词语“刘德华”的一层领域标识可以为影视,二层领域标识可以为演员;实例二:词语“富春山居图”,由于富春山居图通常有两个含义,即电影《富春山居图》以及元代山水画《富春山居图》,因此,词语“富春山居图”的一层领域标识包括:影视和书画,对应的二层领域标识分别为:演员以及年代。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本实施例中提及的“第一”“第二”等叙述词,除非根据上下文其确实表达顺序之意,应当理解为仅仅是起区分之用。
本发明实施例中提供一种语音文本的纠错方法,如图2所示,该方法包括:
101、语音文本纠错装置提取待识别语音文本以及对应的相关语音识别文本。
本实施例中的待识别语音文本的相关语音识别文本为与该待识别语音文本存在语境关联(例如,上下文语境)的语音识别文本。示例性的,语音文本纠错装置获取该待识别语音文本的上一语音识别文本,并计算该待识别语音文本与该上一语音识别文本间的相关度。当该相关度大于预定阈值时,则将该上一语音识别文本作为该待识别语音文本的相关语音识别文本;若该相关度小于预定阈值时,则继续判定该上一语音识别文本是否为孤立词(即单个词语,例如,你好!谢谢!),若是,则仍然将该上一识别语音文本作为该待识别语音文本的相关语音识别文本。例如,若待识别语音文本为“我要看刘德华的电影”,且待识别语音文本的识别时间之前所识别的上一语音识别文本为“我要看电影”,经过相关度计算确定出,该上一语音识别文本为待识别语音文本的相关语音识别文本。
示例性的,两语音识别文本间的相关度计算公式如下所示:
其中,n为待识别语音文本中词语总个数,cwordi为待识别语音文本中第i个词语与上一次语音识别文本中所有词语相关度中的最大值,其具体的计算公式如下:
其中,m为上一次语音识别文本中词语总个数,wi为待识别语音文本中的第i个词语,wj为上一次语音识别文本中的第j个词,SS(wi,wj)为wi与wj的语义相似度,CC(wi,wj)为wi与wj的语境关联度,T2为阈值。具体的,当SS(wi,wj)<T2时,则说明该待识别语音文本中第i个词语与上一次语音识别文本中所有词语无关联关系,当SS(wi,wj)>T2且满足时,则说明该待识别语音文本中第i个词语与上一次语音识别文本中所有词语存在关联关系。此外,上述的CC(wi,wj)与SS(wi,wj)的具体获取过程可以参照现有的语义相似度以及语境关联度的计算公式来获取,这里不再赘述。
需要说明的是,语音文本纠错装置分别对待识别语音文本以及相关语音识别文本进行分词,得到待识别语音文本对应的词语和相关语音识别文本对应的词语。具体的,语音文本纠错装置可以通过最大匹配分词算法进行分词,即按照概念知识库中最长字符长度来对待识别语音文本进行分词。
示例性的,本发明实施例中所采取的正向最大匹配算法的分词流程如图3所示,具体步骤如下:
Setp1:初始化。接收待识别语音文本中待切分的文本句Str,计算概念知识库中最长字符的长度M。
Step2:将Str从左端开始截取长度为M的字串SubStr。
Step3:如果概念知识库中是存在SubStr,则将SubStr作为一个词语切分出来,进行Step5的操作,否则进行Step4的操作。
Step4:如果SubStr是单字,则进入Step5,否则去掉SubStr中最后一个字,进入Step3。
Step5:去掉Str中SubStr,对剩余词重复Step3,直到切出Str中的所有的词。
示例性的,若待识别语音文本中的待切分的文本句Str为“中华民族从此站起来了”,且计算出的概念知识库中最长词条的长度M为4,首先,将str从左端截取长度为4的字串,即SubStr1为“中华民族”,将该得到的SubStr1在概念知识库中查找,由于概念知识库中存在“中华民族”这个词语,因此将SubStr1作为一个词语切分出来,对文本句str中剩余的部分进行切分,接着将文本句Str中的“从此站起”截取出来,即SubStr2,将该得到的SubStr2在概念知识库中查找,由于概念知识库中不存在“从此站起”这个字串,则将最后一个字去掉,得到“从此站”这个字串,再将该字串在概念知识库中进行查找,由于概念知识库中不存在该字串,则仍然将最后一个字串去掉,得到“从此”这个字串,再次在概念知识库中进行查找,由于概念知识库中存在该字串,因此,将该字串作为一个词语切分出来,以此类推,直到将所有的字串都切分出来。最终得到的切分结果为:“中华民族|从此|站起来|了”。
102、语音文本纠错装置获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集。
示例性的,上述的第一概念关联集中包含与待识别语音文本中的词语存在关联关系的关联词,而上述的第二概念关联集中包含与待识别语音文本的相关语音识别文本中的词语存在关联关系的关联词。
103、语音文本纠错装置根据第一概念关联集确定待识别语音文本中的待纠错词。
其中,上述的待识别语音文本中的待纠错词为待识别语音文本中与第一概念关联集中的关联词无关联关系的词语。示例性的,语音文本纠错装置通过将待识别语音文本中的每个词语与第一概念关联集中的每个关联词以及待识别语音文本中的其他词语进行比对,从而确定出该待识别语音文本中与第一概念关联集中的关联词无关联关系的词语作为该待识别语音文本的待纠错词。
示例性的,语音文本纠错装置在判定该待识别语音文本中的任一词语是否为待纠错时的具体判定过程包括如下步骤:
103a、语音文本纠错装置获取待识别语音文本中的任一词语。
103b、语音文本纠错装置确定上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的关联程度,并根据该关联程度判定上述词语是否为待识别语音文本中的待纠错词。
示例性的,语音文本纠错装置在计算待识别语音文本中的任一词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的关联程度时,可以基于公式1与公式2所示的相关度计算公式来获取。
进一步的,当上述的步骤103b中的关联程度为词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相似度时,步骤103b中根据该关联程度判定上述词语是否为待识别语音文本中的待纠错词具体包括以下内容:
当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相似度均小于第一预定阈值时,则判定上述词语为待识别语音文本中的待纠错词;当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相关度中的任一相似度大于等于第一预定阈值时,则判定上述词语不为待识别语音文本中的待纠错词。
示例性的,两个词语间的相似度的计算可以通过编辑距离算法得到,得到的最小编辑距离为两个词语间的相似度。通常情况下编辑距离越小,对应的两个词语间的相似度越高。
本实施例中的编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操作次数,是一种字符串之间相似度计算的方法。给定两个字符串S、T,将S转换成T所需要的删除,插入,替换操作的数量就叫做S到T的编辑路径。而最短的编辑路径就叫做字符串S和T的编辑距离。
示例性的,这里以两个字串str1与str2为例,进行说明编辑距离算法过程,该编辑距离算法具体步骤如下:
Step 1:初始化,将编辑距离(edit distance)初始赋为0,即edit distance=0,然后计算str1与str2的长度,并分别将str1的长度记为m,将str2的长度记为n。
Step 2:若m=0,则令edit distance=n;若n=0,则令edit distance=m。然后进行Step 4的操作;否则进行step3的操作。
Step 3:构造编辑距离矩阵,该距离矩阵为:
具体的,编辑距离矩阵D(i,j)的构造过程如下所示:
1)初始化(m+1)*(n+1)的矩阵D,并让第一行和第一列的值从0开始增长;
2)扫描两字符串
根据扫描后得到的f(i,j)值,得到D(i,j)的值,其中,该D(i,j)的值为D(i-1,j)+1,D(i,j-1)+1,D(i-1,j-1)+1三者中最小的值。
3)扫描完后,令edit distance=D(m,n)。
Step4:输出edit distance,即为str1与str2的编辑距离。
104、语音文本纠错装置从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,用纠错候选词替换待识别语音文本中的待纠错词。
示例性的,语音文本纠错装置根据待识别语音文本中的词语与第二概念关联集和/或第一概念关联集中的关联词间的相关度或相似度确定待识别语音文本中的待纠错词对应的纠错候选词。具体的,相关度的计算可以参考上述的公式1和公式2,相似度的计算可以通过编辑距离算法来确定,该编辑距离的计算公式可以参考上述的公式3。
本发明的实施例提供的语音文本的纠错方法,首先,通过提取待识别语音文本以及对应的相关语音识别文本;其次,获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集,其中,概念关联集中包含与语音文本中的词语存在关联关系的关联词;然后,根据第一概念关联集确定待识别语音文本中的待纠错词;最后,从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换所述待识别语音文本中的待纠错词。
相比于现有技术中,语音识别系统根据与该待识别语音文本可能不属于同一语境的待识别语音文本中的锚点词的实例,来对该待识别语音文本进行语义纠错的过程,本方案通过提取与该待识别语音文本处于同一交互场景和同一语境下的相关语音识别文本,然后根据该相关语音识别文本的第一概念关联集中的关联词识别该待识别语音文本中的待纠错词,由于该第一概念关联集中包含的关联词是与该相关语音识别文本中的词语存在关联关系的词语,而该相关语音识别文本又与该待识别语音文本同属于同一语境下,从而使得上述的待纠错词识别过程不仅考虑到了实际的应用场景以及人的主观目的和情绪等,还能够快速的检测出语句中的不和谐的地方,从而提升了待纠错词的准确度。同时,由于该第二概念关联集和第一概念关联集中所包含的关联词与待纠错词属于同一语境,这样便可快速有效的从第二概念关联集和第一概念关联集中获取待纠错词的纠错候选词,提高了最终识别出的语音文本的准确度。
可选的,当待识别语音文本中的任一至少两个待纠错词相邻时,上述的步骤103具体包括如下内容:
A1、语音文本纠错装置根据第一概念关联集,确定待识别语音文本中的第一待纠错词。
A2、若判定第一待纠错词在待识别语音文本中的后邻接词为待识别语音文本的第二待纠错词时,语音文本纠错装置则将第一待纠错词与第二带纠错词连接组成第三待纠错词。
示例性的,上述的步骤104中从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词之前,该方法还包括:
B1、语音文本纠错装置对第三待纠错词分词,得到第三纠错词对应的词语。
进一步的,基于上述步骤103的具体内容A1、A2和步骤104从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词之前内容B1,步骤104具体包括:
C1、语音文本纠错装置从第二概念关联集和/或第一概念关联集中,获取对第三待纠错词中每个词语的纠错候选词。
示例性的,这里对上述的第三待纠错词进行正向最大匹配算法的分词过程可以参考图4,具体包括如下步骤:
Step1、获取第二概念关联集和/或第一概念关联集中最长词条的长度,记为M。
Step2、将第三的待纠错词(记为Str)从左端分别开始截取长度依次为1到M的M个字串,分别记为:SubStr1、SubStr2、……、SubStrM,
其中,若Str的长度<最长词条长度M,则将Str长度设为M。若Str的长度>最长词条长度M,对Str以M值进行分词,得到的Str的分词Str’的长度小于或等于M值,将Str’长度设为M。
Step 3:将上述的得到的M个词转换成拼音,计算该M个词与第二概念关联集和/或第一概念关联集中所有关联词间的编辑距离,得到M个值,记最小编辑距离对应的纠错候选词为c,待纠错词为e=SubStrk。
Step 4:用c替换e,切出Str中一个词c。
Step 5:去掉Str中字串e,重复Step1到Step4,直到纠错完所有的词。
例如,这里以一个具体的例子说明第三待纠错词如何进行分词,若str=“德华的富春天居图”,分词结果为=“刘德华|的|富春山居图”。若第二概念关联集和第一概念关联集中的最长词条长度为M(M的值为7),如,“天机富春山居图”,“三国之见龙卸甲”。此时,str的长度(长度为8)大于最长词条长度7,则将这str按照最长词条长度7进行分词,得到长度为7的字符串为“德华的富春天居”和“华的富春天居图”,在将该两个长度为7的字符串分别以长度依次为1到7的词条长度进行分词,得到两组个数都为7的字符串分别:“德、德华、德华的、德华的富、德华的富春、德华的富春天、德华的富春天居”和“华、华的、华的富、华的富春、华的富春天、华的富春天居、华的富春天居图”。然后,将这两组个数都为7的字符串转换为拼音,分别计算这两组个数都为7的字符串分别与第二概念关联集和第一概念关联集中的关联词的编辑距离,得到最小编辑距离的关联词c为:刘德华,则切出SubStr=“刘德华”,同时str=“的富春天居图”,重复第2步,得到c为富春山居图,str=“的”字典中不存在,且为单字,则分词结果为“刘德华|的|富春山居图”。
此外,当该相关语音识别文本为孤立词时,则将该待识别语音文本转化为拼音,并计算该孤立词对应拼音与该第二概念关联集中的每个关联词间的编辑距离,并将最小编辑距离最为纠错候选词,并用该纠错候选词将该待识别语音文本替换。
本发明实施例提供一种语音文本的纠错装置,如图5所示,该语音文本的纠错装置2包括:提取模块21、第一获取模块22、确定模块23和第二获取模块24,其中:
提取模块21,用于提取待识别语音文本以及对应的相关语音识别文本。
第一获取模块22,用于获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词。
确定模块23,用于根据第一概念关联集确定待识别语音文本中的待纠错词。
第二获取模块24,用于从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,用纠错候选词替换待识别语音文本中的待纠错词。
示例性的,上述待纠错词为待识别语音文本中与第一概念关联集中的关联词无关联关系的词语时,确定模块23具体用于:
获取待识别语音文本中的任一词语;
确定词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的关联程度,并根据关联程度判定上述词语是否为待识别语音文本中的待纠错词。
示例性的,上述关联程度包括上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相似度时,确定模块23在根据关联程度判定词语是否为待识别语音文本中的待纠错词时具体用于:
当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相似度均小于第一预定阈值时,则判定上述词语为待识别语音文本中的待纠错词;
当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相似度中的任一相关度大于等于第一预定阈值时,则判定上述词语不为待识别语音文本中的待纠错词。
可选的,确定模块23具体还用于:
根据第一概念关联集,确定待识别语音文本中的第一待纠错词;
若判定第一待纠错词在待识别语音文本中的后邻接词为待识别语音文本的第二待纠错词时,则将第一待纠错词与第二待纠错词连接组成第三待纠错词;
第二获取模块24在从第二概念关联集和/或所述第一概念关联集中获取待纠错词对应的纠错候选词具体用于:从第二概念关联集和/或第一概念关联集中,获取对第三待纠错词中每个词语的纠错候选词。
进一步的,语音文本的纠错装置2还包括:分词模块25。
分词模块25,用于对第三待纠错词分词,得到第三纠错词对应的词语;还用于分别对待识别语音文本以及相关语音识别文本进行分词,得到待识别语音文本对应的词语和相关语音识别文本对应的词语。
本发明的实施例提供的语音文本的纠错装置,首先,通过提取待识别语音文本以及对应的相关语音识别文本;其次,获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集,其中,概念关联集中包含与语音文本中的词语存在关联关系的关联词;然后,根据第一概念关联集确定待识别语音文本中的待纠错词;最后,从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换所述待识别语音文本中的待纠错词。
相比于现有技术中,语音识别系统根据与该待识别语音文本可能不属于同一语境的待识别语音文本中的锚点词的实例,来对该待识别语音文本进行语义纠错的过程,本方案通过提取与该待识别语音文本处于同一交互场景和同一语境下的相关语音识别文本,然后根据该相关语音识别文本的第一概念关联集中的关联词识别该待识别语音文本中的待纠错词,由于该第一概念关联集中包含的关联词是与该相关语音识别文本中的词语存在关联关系的词语,而该相关语音识别文本又与该待识别语音文本同属于同一语境下,从而使得上述的待纠错词识别过程不仅考虑到了实际的应用场景以及人的主观目的和情绪等,还能够快速的检测出语句中的不和谐的地方,从而提升了待纠错词的准确度。同时,由于该第二概念关联集和第一概念关联集中所包含的关联词与待纠错词属于同一语境,这样便可快速有效的从第二概念关联集和第一概念关联集中获取待纠错词的纠错候选词,提高了最终识别出的语音文本的准确度。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种语音文本的纠错方法,其特征在于,包括:
提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识别文本为与所述待识别语音文本存在语境关联的语音识别文本;
获取所述相关语音识别文本的第一概念关联集以及所述待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;
根据所述第一概念关联集,确定所述待识别语音文本中的第一待纠错词;若判定所述第一待纠错词在所述待识别语音文本中的后邻接词为所述待识别语音文本的第二待纠错词时,则将所述第一待纠错词与所述第二待纠错词连接组成第三待纠错词;
对所述第三待纠错词分词,得到所述第三待纠错词对应的词语;从所述第二概念关联集和/或所述第一概念关联集中,获取对所述第三待纠错词中每个词语的纠错候选词,用所述纠错候选词替换所述待识别语音文本中的待纠错词。
2.根据权利要求1所述的方法,其特征在于,所述待纠错词为所述待识别语音文本中与所述第一概念关联集中的关联词无关联关系的词语;所述根据所述第一概念关联集确定所述待识别语音文本中的待纠错词具体包括:
获取所述待识别语音文本中的任一词语;
确定所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的关联程度,并根据所述关联程度判定所述词语是否为所述待识别语音文本中的待纠错词。
3.根据权利要求2所述的方法,其特征在于,所述关联程度包括所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度;所述根据所述关联程度判定所述词语是否为所述待识别语音文本中的待纠错词具体包括:
当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度均小于第一预定阈值时,则判定所述词语为所述待识别语音文本中的待纠错词;
当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度中的任一相关度大于等于所述第一预定阈值时,则判定所述词语不为所述待识别语音文本中的待纠错词。
4.根据权利要求1所述的方法,其特征在于,所述提取待识别语音文本以及对应的相关语音识别文本之后,所述方法还包括:分别对所述待识别语音文本以及所述相关语音识别文本进行分词,得到所述待识别语音文本对应的词语和所述相关语音识别文本对应的词语。
5.一种语音文本的纠错装置,其特征在于,包括:
提取模块,用于提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识别文本为与所述待识别语音文本存在语境关联的语音识别文本;
第一获取模块,用于获取所述相关语音识别文本的第一概念关联集以及所述待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;
确定模块具体用于:根据所述第一概念关联集,确定所述待识别语音文本中的第一待纠错词;若判定所述第一待纠错词在所述待识别语音文本中的后邻接词为所述待识别语音文本的第二待纠错词时,则将所述第一待纠错词与所述第二待纠错词连接组成第三待纠错词;
所述装置还包括:分词模块,用于对所述第三待纠错词分词,得到所述第三待纠错词对应的词语;
第二获取模块用于:从所述第二概念关联集和/或所述第一概念关联集中,获取对所述第三待纠错词中每个词语的纠错候选词,用所述纠错候选词替换所述待识别语音文本中的待纠错词。
6.根据权利要求5所述的装置,其特征在于,所述待纠错词为所述待识别语音文本中与所述第一概念关联集中的关联词无关联关系的词语;所述确定模块具体用于:
获取所述待识别语音文本中的任一词语;
确定所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的关联程度,并根据所述关联程度判定所述词语是否为所述待识别语音文本中的待纠错词。
7.根据权利要求6所述的装置,其特征在于,所述关联程度包括所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度;所述确定模块在根据所述关联程度判定所述词语是否为所述待识别语音文本中的待纠错词时具体用于:
当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度均小于第一预定阈值时,则判定所述词语为所述待识别语音文本中的待纠错词;
当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度中的任一相关度大于等于所述第一预定阈值时,则判定所述词语不为所述待识别语音文本中的待纠错词。
8.根据权利要求5所述的装置,其特征在于,
所述分词模块,还用于分别对所述待识别语音文本以及所述相关语音识别文本进行分词,得到所述待识别语音文本对应的词语和所述相关语音识别文本对应的词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610180122.2A CN105869642B (zh) | 2016-03-25 | 2016-03-25 | 一种语音文本的纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610180122.2A CN105869642B (zh) | 2016-03-25 | 2016-03-25 | 一种语音文本的纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105869642A CN105869642A (zh) | 2016-08-17 |
CN105869642B true CN105869642B (zh) | 2019-09-20 |
Family
ID=56626101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610180122.2A Active CN105869642B (zh) | 2016-03-25 | 2016-03-25 | 一种语音文本的纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105869642B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6597527B2 (ja) * | 2016-09-06 | 2019-10-30 | トヨタ自動車株式会社 | 音声認識装置および音声認識方法 |
CN106484660A (zh) * | 2016-10-21 | 2017-03-08 | 合网络技术(北京)有限公司 | 标题处理方法和装置 |
CN108121455B (zh) * | 2016-11-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 识别纠正方法及装置 |
CN108206020A (zh) * | 2016-12-16 | 2018-06-26 | 北京智能管家科技有限公司 | 一种语音识别方法、装置及终端设备 |
CN106910501B (zh) | 2017-02-27 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 文本实体提取方法及装置 |
CN106782560B (zh) * | 2017-03-06 | 2020-06-16 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN107451121A (zh) * | 2017-08-03 | 2017-12-08 | 京东方科技集团股份有限公司 | 一种语音识别方法及其装置 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN108021554A (zh) * | 2017-11-14 | 2018-05-11 | 无锡小天鹅股份有限公司 | 语音识别方法、装置以及洗衣机 |
US11132408B2 (en) * | 2018-01-08 | 2021-09-28 | International Business Machines Corporation | Knowledge-graph based question correction |
CN108257602B (zh) * | 2018-01-30 | 2021-06-01 | 海信集团有限公司 | 车牌号字符串矫正方法、装置、服务器和终端 |
CN108682421B (zh) * | 2018-04-09 | 2023-04-14 | 平安科技(深圳)有限公司 | 一种语音识别方法、终端设备及计算机可读存储介质 |
CN108962242A (zh) * | 2018-06-28 | 2018-12-07 | 盐城工学院 | 一种工业搬运机器人语义识别方法 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN109376362A (zh) * | 2018-11-30 | 2019-02-22 | 武汉斗鱼网络科技有限公司 | 一种纠错文本的确定方法以及相关设备 |
CN109473093B (zh) * | 2018-12-13 | 2023-08-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111324214B (zh) * | 2018-12-17 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
CN109948144B (zh) * | 2019-01-29 | 2022-12-06 | 汕头大学 | 一种基于课堂教学情境的教师话语智能处理的方法 |
CN109977398B (zh) * | 2019-02-21 | 2023-06-06 | 江苏苏宁银行股份有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN110265019B (zh) * | 2019-07-03 | 2021-04-06 | 中通智新(武汉)技术研发有限公司 | 一种语音识别的方法及语音机器人系统 |
CN110556127B (zh) * | 2019-09-24 | 2021-01-01 | 北京声智科技有限公司 | 语音识别结果的检测方法、装置、设备及介质 |
CN112016305B (zh) * | 2020-09-09 | 2023-03-28 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN112382289B (zh) * | 2020-11-13 | 2024-03-22 | 北京百度网讯科技有限公司 | 语音识别结果的处理方法、装置、电子设备及存储介质 |
CN113012705B (zh) * | 2021-02-24 | 2022-12-09 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN112883703B (zh) * | 2021-03-19 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种识别关联文本的方法、装置、电子设备及存储介质 |
CN113539271A (zh) * | 2021-07-23 | 2021-10-22 | 北京梧桐车联科技有限责任公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN114611524B (zh) * | 2022-02-08 | 2023-11-17 | 马上消费金融股份有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN115132208A (zh) * | 2022-07-07 | 2022-09-30 | 湖南三湘银行股份有限公司 | 一种基于ctc算法构建的人工智能催收方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314397B1 (en) * | 1999-04-13 | 2001-11-06 | International Business Machines Corp. | Method and apparatus for propagating corrections in speech recognition software |
CN101266792A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 语音识别系统和语音识别方法 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN102122506A (zh) * | 2011-03-08 | 2011-07-13 | 天脉聚源(北京)传媒科技有限公司 | 一种语音识别的方法 |
CN103366741A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入纠错方法及系统 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN105047198A (zh) * | 2015-08-24 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 语音纠错处理方法及装置 |
-
2016
- 2016-03-25 CN CN201610180122.2A patent/CN105869642B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314397B1 (en) * | 1999-04-13 | 2001-11-06 | International Business Machines Corp. | Method and apparatus for propagating corrections in speech recognition software |
CN101266792A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 语音识别系统和语音识别方法 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN102122506A (zh) * | 2011-03-08 | 2011-07-13 | 天脉聚源(北京)传媒科技有限公司 | 一种语音识别的方法 |
CN103366741A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入纠错方法及系统 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN105047198A (zh) * | 2015-08-24 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 语音纠错处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105869642A (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869642B (zh) | 一种语音文本的纠错方法及装置 | |
Jin et al. | Is bert really robust? a strong baseline for natural language attack on text classification and entailment | |
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
Wang et al. | A long short-term memory model for answer sentence selection in question answering | |
US8892420B2 (en) | Text segmentation with multiple granularity levels | |
US7493251B2 (en) | Using source-channel models for word segmentation | |
US20170103061A1 (en) | Interaction apparatus and method | |
CN104156454B (zh) | 搜索词的纠错方法和装置 | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN106537370A (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113553414A (zh) | 智能对话方法、装置、电子设备和存储介质 | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
US20230153534A1 (en) | Generating commonsense context for text using knowledge graphs | |
Zhu et al. | Catslu: The 1st chinese audio-textual spoken language understanding challenge | |
Wang et al. | A DNN-HMM-DNN hybrid model for discovering word-like units from spoken captions and image regions | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
Wu et al. | Novel slot detection: A benchmark for discovering unknown slot types in the task-oriented dialogue system | |
Song et al. | Hyperrank: hyperbolic ranking model for unsupervised keyphrase extraction | |
WO2024138859A1 (zh) | 跨语言实体词检索方法、装置、设备及存储介质 | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |