CN113012705B - 一种语音文本的纠错方法及装置 - Google Patents
一种语音文本的纠错方法及装置 Download PDFInfo
- Publication number
- CN113012705B CN113012705B CN202110206015.3A CN202110206015A CN113012705B CN 113012705 B CN113012705 B CN 113012705B CN 202110206015 A CN202110206015 A CN 202110206015A CN 113012705 B CN113012705 B CN 113012705B
- Authority
- CN
- China
- Prior art keywords
- word
- voice text
- correcting
- text
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012937 correction Methods 0.000 title claims abstract description 21
- 230000002159 abnormal effect Effects 0.000 claims abstract description 61
- 238000012795 verification Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 2
- 238000005406 washing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010025 steaming Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种语音文本的纠错方法及装置,方法包括:利用词语检错器判断从语音数据中提取的语音文本中是否存在异常单元,如果存在异常单元,从纠错词基准库中选出与异常单元编辑距离小于编辑距离阈值的候选纠错词,以及将异常单元替换为候选纠错词。如果不存在异常单元,则确定所述语音文本正确。本申请提供的语音文本纠错方法和纠错装置,基于创建的词语检错器,能够避免用户个人语音发音习惯导致的,语音识别产品无法识别用户语音的情况,提升用户使用体验。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音文本的纠错方法及装置。
背景技术
随着语音识别技术及智能家居的不断发展,语音识别技术被广泛应用。用户可通过语音操控空调,洗衣机等设备。语音功能的实现过程可以概括为:语音识别模块将用户输入的音频转换为文本,之后语义分析模块对文本进行意图分类以及内容理解,最终转换为对应设备硬件可执行的机器代码,从而实现控制设备的目的。
在语音功能的实现过程中,用户输入的语音数据可能是非标准发音,这可能会造成文字识别错误,最终导致无法通过语音控制设备的情况发生。例如,有些用户平翘舌发音不准,有些用户鼻音较重原因等导致输入非标准发音。
针对上述情况,目前的语音识别引擎虽然在方言和相似发音方面存在优化措施,但是纠错还是严重依赖于用户数据运营的观察和用户投诉。传统的语音识别技术还是不能避免,用户个人语音发音习惯导致的,语音识别产品无法识别用户语音的情况,造成用户使用体验较差。
发明内容
为了解决传统的故障定位方法耗时耗力,定位故障根因的效率较低的问题,本申请提供了一种故障定位方法及装置。
第一方面,本申请实施例提供一种语音文本纠错方法,该方法包括:
从用户输入的语音数据中提取语音文本,利用词语检错器检测所述语音文本中是否存在异常单元,在所述语音文本中存在异常单元时,从纠错词基准库中选出与所述异常单元编辑距离小于编辑距离阈值的候选纠错词,以及将所述异常单元替换为所述候选纠错词,其中,所述词语检错器为基于N-Gram算法创建的;
在所述语音文本中不存在异常单元时,确定所述语音文本正确。第二方面,本申请实施例提供一种语音文本纠错装置,该装置包括:
语音文本提取单元,用于执行:从用户输入的语音数据中提取语音文本;
异常单元判断单元,用于执行:利用词语检错器检测所述语音文本中是否存在异常单元,其中,所述词语检错器为基于N-Gram算法创建的;
候选纠错词选取单元,用于执行:在所述语音文本中存在异常单元时,从纠错词基准库中选出与所述异常单元编辑距离小于编辑距离阈值的候选纠错词;
替换单元,用于执行:将所述异常单元替换为所述候选纠错词.
本申请提供的技术方案包括以下有益效果:利用词语检错器判断从语音数据中提取的语音文本中是否存在异常单元,如果存在异常单元,从纠错词基准库中选出与异常单元编辑距离小于编辑距离阈值的候选纠错词,以及将异常单元替换为候选纠错词。如果不存在异常单元,则确定所述语音文本正确。本申请提供的语音文本纠错方法和纠错装置,基于创建的词语检错器,能够避免用户个人语音发音习惯导致的,语音识别产品无法识别用户语音的情况,提升用户使用体验。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种语音文本的纠错方法流程示意图;
图2示出了本申请实施例提供的异常单元检测示意图;
图3示出了本申请实施例提供的编辑距离比对示意图;
图4示出了本申请实施例提供的语法树示意图;
图5示出了本申请实施例提供的又一种语法树示意图;
图6示出了本申请实施例提供的一种语音文本的纠错装置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本说明书通篇提及的″多个实施例″、″一些实施例″、″一个实施例″或″实施例″等,意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此,本说明书通篇出现的短语″在多个实施例中″、″在一些实施例中″、″在至少另一个实施例中″或″在实施例中″等并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、结构或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。
我国是一个多语音文化的国家,虽然国家大力推广通用普通话,但是由于疆域辽阔,民族众多,各个地区存在区域内方言,从而出现了大量非标准普通话的用户。虽然非标准普通话在日常交流中问题不大,但是在语音识别领域,由于普通话发音不标准导致的语音识别错误,或者无法识别用户语音的情况时有发生。例如,有些用户由于方言影响,存在音调不准,平翘舌部分,鼻音较重等问题,都会导致语音识别错误,甚至无法识别语音的情况。
示例性的,错误文本为具有音调差异或者无音调差异的同音词情况,例如,用户的说法为″红外入侵探测器撤防″,由于″撤防″和″车房″是具有音调差异的同音词,智能设备实际识别文本为″红外入侵探测器车房″,造成识别错误的语音,无法执行相关操作。
目前的语音识别引擎虽然在方言和相似发音方面存在优化措施,但是上述问题不能有效的避免,用于语音识别的纠错还是依赖于用户数据运营的观察和用户投诉,造成用户使用体验较差。因此,亟待一种能够有效纠正相似发音导致的错误语音识别文本的方法。
为了解决上述问题,本申请提供一种语音文本的纠错方法,该方法基于N-Gram算法和编辑距离算法,将异常单元替换为候选纠错词,从而实现语音文本的纠错,提升用户的使用体验。
如图1的语音文本的纠错方法的流程示意图,该方法包括以下步骤:
步骤S101,从用户输入的语音数据中提取语音文本。
步骤S102,利用词语检错器检测提取的语音文本是否存在异常单元,即是否存在不符合语言规律的词语。本申请的词语检错器是基于N-Gram算法创建的。
N-Gram算法是一种基于统一语言模型的算法,其基本思想是将语音文本中的内容按照字节大小为N的滑动窗口框选,并截取出长度为N的字节片段序列。N-Gram中的语言模型基于马尔科夫链的假设,即第N个词的出现只有前面N-1个词相关,而与其他任何词都不相关。截取的字节片段序列出现的概率即为各个词出现概率的乘积。各个词出现的概率又可以直接从训练语料中统计得出。
具体的,假设有一个m个字组成的序列(句子),可以选用三元的Tri-Gram算法计算该序列的概率p(ω1,ω2,ω3,...,ωm),其中,ω1,ω2,ω3,...,ωm分别表示该序列中的m个字。根据链式规则,可得以下公式:
p(ω1,ω2,ω3,...,ωm)=p(ω1)*p(ω2|ω1)*p(ω3|ω1,ω2)*...*p(ωm|ω1,...,ωm-1)
其中,p(ω1)表示ω1出现的概率,p(ω2|ω1)表示ω1出现的条件下,ω2出现的概率。依次类推至p(ωm|ω1,...,ωm-1),其表示ωm的前m-1个词出现的条件下,ωm出现的概率。
利用马尔科夫链的假设,当前的词仅与前面几个有限的词相关,得到以下公式:
p(ω1,ω2,ω3,...,ωm)=p(ωi|ωi-n+1,...,ωi-1)
本申请实施例利用三元的Tri-Gram模型,即n=3。之后,在给定的训练语料中,利用贝叶斯定理,将整个句子的概率转换为所有条件概率的乘积,得到以下公式:
上述的条件概率值均可通过训练语料统计,计算得出每个词语出现的概率公式为:
转换为与统计结果相关的概率公式为:
其中,count(ωi-2,ωi-1,ωi)表示三个字同时出现的次数,count(ωi-2,ωi-1)表示第i个字的前两个字同时出现的次数在所有字出现次数。最终得到的表示第i个字在其前两个字同时存在的条件下,第i个字出现的概率,即这三个字同时出现的概率,根据得出的概率判断三个字同时出现的情况是否符合语言规律。
本申请利用根据上述算法得到的词语检错器,在语音文本上滑动,词语检错器框选语音文本中的N个字,判断语音文本中的N个字同时出现的条件概率是否大于等于经验概率阈值(在大量语料中出现的概率)。如果N个字同时出现的条件概率大于等于经验概率阈值,则确定框选的N个字不为异常单元。如果N个字同时出现的条件概率小于经验概率阈值,则确定框选的N个字为异常单元。
示例性的,如图2所示的异常单元检测示意图,从用户输入的语音数据中识别的语音文本为″三筒洗衣机设为李子侦探模式″。利用基于上述算法创建的词语检错器在该语音文本上滑动。本实施例采用的也是Tri-Gram模型,因此词语检错器框选语音文本的片段中包括三个字。将词语检错器从左至右依次框选词语。例如框选到″三筒洗″时,计算三个字同时出现的概率。最终″三筒洗″同时出现的运算概率高于经验概率阈值,则可判断″三筒洗″符合语言规律,则可以正常通过。
词语检错器接着向右滑动,当滑动到″设为李″的位置时,计算该片段出现概率小于经验概率阈值,则可判断″设为李″不符合语言概率,不可正常通过,并且将该片段记录下来。继续向右滑动,利用同样的判断规则,得出″李子侦探″为可能出现错误的局部范围,即异常单元。
步骤S103,如果语音文本中存在异常单元,从纠错词基准库中选出与异常单元编辑距离小于编辑距离阈值的候选纠错词,以及将异常单元替换为候选纠错词。
编辑距离是指两个字符串的差异程度的量化两测,具体的为,使两个字符串完全相等所需要删除、加入、替换任意一个字符的操作次数。本申请实施例主要是针对中文普通话做语音文本的纠错。考虑到用户发音不准,具体的为平翘舌发音不准、鼻音较重等因素,造成的文字识别误差,因此使用基于拼音的编辑距离计算方式。
在一些实施例中,编辑距离计算过程为:中文的拼音音节由声母、韵母以及声调三要素组成,将声母和韵母看成独立的英文字符串,使用字符串的编辑距离方式获取声母和韵母的编辑距离。例如,根据实际语言规律,声母Z和Zh较易混淆编辑距离设置为1。韵母eng和er较不容易混淆,两者的编辑距离设置为2,对于不同声调,编辑距离设置为1。因此只要拼音音节在这三种维度中任意变化,就能根据这三种维度编辑距离求和,得到整个拼音音节的编辑距离。
另外,本申请实施例还将发音易混淆的声母、韵母分组,得到生活中概率较高易混淆的声母对和韵母对。例如,由于方言差异,有些用户l和n发音不准,z和zh发音不准,in和ing发音不准等。将这些较容易混淆的声母对或者韵母对之间的编辑距离设置得较小,可以设置为0.5。
两个字拼音音节对比时,声母、韵母、音调三个维度变化对拼音相似度影响是不同的,并且当三个维度中两个及以上同时变化时,拼音相似度差异会增加。因此,在计算总编辑距离时,还可以增加正惩罚机制,根据实际经验,音调的差异在两个拼音相似比对中影响较小。当音调存在差异时,预设一个较小的正惩值。如果声母或者韵母变化时,预设一个较大的正惩值。特别是当声母或者韵母同时存在差异时,需要增加一个较大的正惩值。通过设置正惩值,可以选择更合适的编辑距离阈值,进而选择更合适的候选纠错词。
示例性的,首次可以判断异常单元的长度,从纠错词基准库中选择相同长度的纠错词。之后,将纠错词基准库中筛选出的纠错词分别与异常单元进行比对,计算编辑距离,当计算得到的编辑距离小于编辑距离阈值,则可将该纠错词确定为候选纠错词。如图3所示的编辑距离比对示意图,循环到″离子蒸烫″时,将″离子蒸烫″中的每一个字与异常单元″李子侦探″中每一个字分别对应的比对,计算编辑距离。
″李″与″离″的声母和韵母相同,音调不同,则编辑距离为1。″子″和″子″完全相同,则编辑距离为0。″侦″和″蒸″的声母相同,韵母不同,音调相同。又由于韵母″en″和″eng″是较易混淆的发音,因此是设置为容易混淆的韵母对,则″侦″和″蒸″的编辑距离为0.5。″探″和″烫″的声母相同,韵母不同,音调相同,则编辑距离为1。本申请实施例中,只有纠错词和异常单元中对应的每个词的拼音编辑距离均小于编辑距离阈值时,才可将该纠错词确定与该异常单元的候选纠错词。
从纠错词基准库中确定号异常单元的对应候选纠错词后,将语音文本中的异常单元替换为该候选纠错词。示例性的,将原语音文本″三筒洗衣机设为李子侦探模式″中的异常单元″李子侦探″替换为候选纠错词″离子蒸烫″,得到纠错后的语音文本″三筒洗衣机设为离子蒸烫模式″。
步骤S104,如果语音文本中不存在异常单元,则确定语音文本正确。
在一些实施例中,纠错过程可能会存在误纠错的情况,还有可能存在从纠错词基准库中得到多个候选纠错词的情况。为了解决上述问题,本申请实施例可以利用概率上下文无关文法对纠错后的语音文本进行校验。
利用概率上下文无关文法对纠错后的语音文本进行校验的具体步骤为:
利用家居领域语料以及自定义的词汇标签和句法规则,训练概率上下文无关文法的统计句法分析模型,即语法树模型。将纠错后的语音文本输入该语法树模型,如果纠错后的语音文本能够按照该语法树模型生成完整的语法树,则确定纠错的语音文本正确。如果纠错后的语音文本不能够按照该语法树模型生成完成的语法树,则确定纠错后的语音文本不正确。
示例性的,纠错后的语音文本″三筒洗衣机设为离子蒸烫模式″可以生成如图4所示的完整语法树,可确定该语音文本正确。而如果是纠错前的语音文本″三筒洗衣机设为李子侦探模式″,生成的语法树如图5所示,为不完整的语法树,因此可以该语音文本不正确。
在一些实施例中,如果从纠错词基准库中选取到多个候选纠错词,则分别根据多个候选纠错词生成多个纠错后的语音文本。如果多个纠错后的语音文本均能够按照训练号的语法树模型生成完整的语法树,则计算多个语音文本的对应语法树的概率,最后将概率最高的语法树对应的语音文本确定为最终纠错后的语音文本。另外,如果存在多个语音文本对应的语法树概率相等且概率最高,则选取层次少、结构简单的语法树对应的语音文本,作为最终纠错后的语音文本。
本申请实施例提供一种语音文本的纠错装置,用于执行图1对应的实施例,如图6所示,本申请提供的语音文本的纠错装置包括:
语音文本提取单元201,用于执行:从用户输入的语音数据中提取语音文本;
异常单元判断单元202,用于执行:利用词语检错器判断所述语音文本中是否存在异常单元,其中,所述词语检错器为基于N-Gram算法创建的;
候选纠错词选取单元203,用于执行:在所述语音文本中存在异常单元时,从纠错词基准库中选出与所述异常单元编辑距离小于编辑距离阈值的候选纠错词;
替换单元204,用于执行:将所述异常单元替换为所述候选纠错词。
在一些实施例中,所述词语检错器可框选所述语音文本中的N个字,所述异常单元判断单元,具体用于执行:
将所述词语检错器放置在所述语音文本上滑动,在所述词语检错器内的N个字同时出现的条件概率大于等于经验概率阈值时,确定所述词语检错器内的N个字不为异常单元;
在所述词语检错器内的N个字同时出现的条件概率小于所述经验概率阈值时,确定所述词语检错器内的N个字为异常单元。
在一些实施例中,本申请的语音文本的纠错装置,还包括,
校验单元205,用于执行:在将所述异常单元替换为所述候选纠错词之后,利用概率上下文无关文法对纠错后的所述语音文本进行校验。
在一些实施例中,所述校验单元具体用于执行:按照训练好的语法树对纠错后的所述语音文本执行生成语法树处理,在纠错后的所述语音文本可按照训练好的语法树模型生成完整的语法树时,确定纠错后的所述语音文本正确;
在纠错后的所述语音文本不可按照训练好的语法树模型生成完成的语法树时,确定纠错后的所述语音文本不正确。
以上已经描述的包括本发明的实现的示例。为了描述要求保护主题的目的,当然不可能描述组件或方法的每一个可设想组合,但是要意识到,本创新的许多另外组合和置换是可能的。相应地,要求保护主题打算包含全部这类改变、修改和变化,其落入所附权利要求的精神和范围之内。此外,包括″摘要″中所述的事物的本申请的所示实现的以上描述并不是要详细列举或者将所公开实现局限于所公开的精确形式。虽然本申请中为了说明目的而描述具体实现和示例,但是如相关领域的技术人员能够认识的,被认为在这类实现和示例的范围之内的各种修改是可能的。
具体来说并且关于由上述组件、装置、电路、系统等所执行的各种功能,除非另加指示,否则用来描述这类组件的术语打算对应于执行所述组件的所指定功能(例如,功能等效)的任何组件,即使不是在结构上等效于所公开结构(其执行要求保护主题的本申请所示示范方面的功能)。在这方面,还将会认识到,创新包括系统以及计算机可读存储介质,其具有计算机可执行指令,以用于执行要求保护主题的各种方法的动作和/或事件。
已经针对若干组件/块之间的交互描述了上述系统/电路/模块。能够意识到,这类系统/电路和组件/块能够包括那些组件或者所指定子组件、所指定组件或者子组件的一些和/或附加组件,并且按照以上述各种置换和组合。子组件还能够实现为通信地耦合到其它组件而不是包括在父组件(分级)内的组件。另外,应当注意,一个或多个组件可组合为提供聚合功能性的单个组件或者分为若干单独子组件,以及可提供任何一个或多个中间层(例如管理层),以通信地耦合到这类子组件,以便提供综合功能性。本申请所述的任何组件还可与本申请中没有具体描述但是本领域的技术人员已知的一个或多个其它组件进行交互。
虽然阐明本发明的广义范围的数值范围和参数是近似值,但是具体示例中阐明的数值尽可能准确地报导。但是,任何数值固有地含有必然产生于其相应测试测量中找到的标准偏差的某些误差。此外,本申请所公开的全部范围要被理解为包含其中所包含的任何和全部子范围。例如,″小于或等于11″的范围能够包括零的最小值与11的最大值之间(并且包含该最小值与最大值)的任何和全部子范围,即,任何和全部子范围具有等于或大于零的最小值以及等于或小于11的最大值(例如1至5)。在某些情况下,如对参数所述的数值能够具有负值。
另外,虽然可能已经仅针对若干实现之一公开了本创新的特定特征,但是这种特征可如对任何给定或特定应用可预期和有利的与其它实现的一个或多个其它特征相组合。此外,在详细描述或者权利要求中使用术语″包括(include、including)″、″具有″、″合有″及其变体和其它类似词语的意义上,这些术语打算采用与作为开放过渡词语的术语″包含″相似的方式是包含的,而没有排除任何附加或其它元件。
遍及本说明书中提到″一个实现″或″一实现″表示结合该实现所述的特定特征、结构或特性包含在至少一个实现中。因此,短语″在一个实现中″或者″在一实现中″在遍及本说明书中的各个位置的出现不一定全部指相同实现。此外,具体特征、结构或特性可采用任何适当方式结合在一个或多个实现中。
此外,遍及本说明书中提到″项″或″文件″意味着结合实现所述的特定结构、特征或对象不一定指相同对象。此外,″文件″或″项″能够指各种格式的对象。
如本申请中使用的术语″节点″、″组件″、″模块″、″系统″等一般打算指作为硬件(例如电路)、硬件和软件的组合的计算机相关实体或者与具有一个或多个特定功能性的操作机器相关的实体。例如,组件可以是(但不限于)在处理器(例如数字信号处理器)上运行的进程、处理器、对象、可执行、执行线程、程序和/或计算机。作为说明,在控制器上运行的应用和控制器两者均能够是组件。一个或多个组件可驻留在进程和/或执行线程中,以及组件可定位在一个计算机上和/或分布在两个或更多计算机之间。虽然在各个实现中描绘单独组件,但是要意识到,组件可采用一个或多个公共组件来表示。此外,各个实现的设计能够包括不同组件放置、组件选择等,以实现最佳性能。此外,″装置″能够采取专门设计硬件;通过其上的软件(其使硬件能够执行特定功能)的执行被专门化的一般化硬件;计算机可读介质上存储的软件;或者其组合的形式。
此外,词语″示例″或″示范″在本申请中用来表示″用作示例、实例或说明″。本申请中描述为″示范″的任何方面或设计不一定被理解为相对其它方面或设计是优选或有利的。相反,词语″示例″或″示范″的使用打算以具体方式呈现概念。如本申请所使用的,术语″或者″打算表示包含″或″而不是互斥″或″。即,除非另加说明或者从上下文清楚地知道,否则″X采用A或B″打算表示自然包含置换的任一个。即,如果X采用A;X采用B;或者X采用A和B两者,则在上述实例的任何实例下均满足″X采用A或B″。另外,如本申请和所附权利要求中所使用的冠词″一(a和an)″应当一般地理解为表示″一个或多个″,除非另加说明或者从上下文清楚地知道针对单数形式。
Claims (8)
1.一种语音文本的纠错方法,其特征在于,包括:
从用户输入的语音数据中提取语音文本,利用词语检错器检测所述语音文本中是否存在异常单元,在所述语音文本中存在异常单元时,从纠错词基准库中选出与所述异常单元编辑距离小于编辑距离阈值的候选纠错词,以及将所述异常单元替换为所述候选纠错词,其中,所述词语检错器为基于N-Gram算法创建的;所述候选纠错词中的每个字与所述异常单元中对应的每个字的编辑距离均小于所述编辑距离阈值;所述语音文本为中文时,所述编辑距离的计算步骤为:将待计算编辑距离的两个字的拼音音节中的声母、韵母以及声调的三种维度分别比较,计算三种维度的编辑距离,以及将三种维度的编辑距离求和,得到待计算编辑距离的两个字的编辑距离;中文的拼音音节由声母、韵母以及声调三要素组成,所述声母和所述韵母为独立的英文字符串,使用字符串的编辑距离方式获取声母和韵母的编辑距离;两个字拼音音节对比时,声母、韵母、音调三个维度变化对拼音相似度影响不同,当三个维度中两个及以上同时变化时,拼音相似度差异增加;在计算总编辑距离时,增加正惩罚机制,通过设置正惩值,选择所述编辑距离阈值;
在所述语音文本中不存在异常单元时,确定所述语音文本正确。
2.根据权利要求1所述的语音文本的纠错方法,其特征在于,所述词语检错器可框选所述语音文本中的N个字,所述利用词语检错器判断所述语音文本中是否存在异常单元的具体步骤为:
将所述词语检错器放置在所述语音文本上滑动,在所述词语检错器内的N个字同时出现的条件概率大于等于经验概率阈值时,确定所述词语检错器内的N个字不为异常单元;
在所述词语检错器内的N个字同时出现的条件概率小于所述经验概率阈值时,确定所述词语检错器内的N个字为异常单元。
3.根据权利要求1所述的语音文本的纠错方法,其特征在于,在将所述异常单元替换为所述候选纠错词之后,所述方法还包括:
利用概率上下文无关文法对纠错后的所述语音文本进行校验。
4.根据权利要求3所述的语音文本的纠错方法,其特征在于,所述利用概率上下文无关文法对纠错后的所述语音文本进行校验的具体步骤为:
按照训练好的语法树模型对纠错后的所述语音文本执行生成语法树处理,在纠错后的所述语音文本可按照训练好的语法树模型生成完整的语法树时,确定纠错后的所述语音文本正确;
在纠错后的所述语音文本不可按照训练好的语法树模型生成完整的语法树时,确定纠错后的所述语音文本不正确。
5.根据权利要求4所述的语音文本的纠错方法,其特征在于,从纠错词基准库中选出的与所述异常单元编辑距离小于编辑距离阈值的候选纠错词为多个,将所述异常单元分别替换为多个所述候选纠错词,得到多个纠错后的所述语音文本;
在多个纠错后的所述语音文本均可按照训练好的语法树模型生成完整的语法树时,计算多个生成的语法树的概率,将概率最高的语法树对应的所述语音文本确定为最终纠错后的所述语音文本。
6.一种语音文本的纠错装置,其特征在于,包括:
语音文本提取单元,用于执行:从用户输入的语音数据中提取语音文本;
异常单元判断单元,用于执行:利用词语检错器检测所述语音文本中是否存在异常单元,其中,所述词语检错器为基于N-Gram算法创建的;
候选纠错词选取单元,用于执行:在所述语音文本中存在异常单元时,从纠错词基准库中选出与所述异常单元编辑距离小于编辑距离阈值的候选纠错词;所述候选纠错词中的每个字与所述异常单元中对应的每个字的编辑距离均小于所述编辑距离阈值;所述语音文本为中文时,所述编辑距离的计算步骤为:将待计算编辑距离的两个字的拼音音节中的声母、韵母以及声调的三种维度分别比较,计算三种维度的编辑距离,以及将三种维度的编辑距离求和,得到待计算编辑距离的两个字的编辑距离;中文的拼音音节由声母、韵母以及声调三要素组成,所述声母和所述韵母为独立的英文字符串,使用字符串的编辑距离方式获取声母和韵母的编辑距离;两个字拼音音节对比时,声母、韵母、音调三个维度变化对拼音相似度影响不同,当三个维度中两个及以上同时变化时,拼音相似度差异增加;在计算总编辑距离时,增加正惩罚机制,通过设置正惩值,选择所述编辑距离阈值;
替换单元,用于执行:将所述异常单元替换为所述候选纠错词。
7.根据权利要求6所述的语音文本的纠错装置,其特征在于,所述词语检错器可框选所述语音文本中的N个字,所述异常单元判断单元,具体用于执行:
将所述词语检错器放置在所述语音文本上滑动,在所述词语检错器内的N个字同时出现的条件概率大于等于经验概率阈值时,确定所述词语检错器内的N个字不为异常单元;
在所述词语检错器内的N个字同时出现的条件概率小于所述经验概率阈值时,确定所述词语检错器内的N个字为异常单元。
8.根据权利要求6所述的语音文本的纠错装置,其特征在于,还包括:校验单元,所述校验单元用于执行:在将所述异常单元替换为所述候选纠错词之后,利用概率上下文无关文法对纠错后的所述语音文本进行校验;
所述校验单元,具体用于执行:
按照训练好的语法树对纠错后的所述语音文本执行生成语法树处理,在纠错后的所述语音文本可按照训练好的语法树模型生成完整的语法树时,确定纠错后的所述语音文本正确;
在纠错后的所述语音文本不可按照训练好的语法树模型生成完成的语法树时,确定纠错后的所述语音文本不正确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206015.3A CN113012705B (zh) | 2021-02-24 | 2021-02-24 | 一种语音文本的纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206015.3A CN113012705B (zh) | 2021-02-24 | 2021-02-24 | 一种语音文本的纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113012705A CN113012705A (zh) | 2021-06-22 |
CN113012705B true CN113012705B (zh) | 2022-12-09 |
Family
ID=76385595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110206015.3A Active CN113012705B (zh) | 2021-02-24 | 2021-02-24 | 一种语音文本的纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113012705B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516966A (zh) * | 2021-06-24 | 2021-10-19 | 肇庆小鹏新能源投资有限公司 | 一种语音识别缺陷检测方法和装置 |
WO2023205132A1 (en) * | 2022-04-21 | 2023-10-26 | Google Llc | Machine learning based context aware correction for user input recognition |
KR102517661B1 (ko) * | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
CN116052657B (zh) * | 2022-08-01 | 2023-10-20 | 荣耀终端有限公司 | 语音识别的字符纠错方法和装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014077865A (ja) * | 2012-10-10 | 2014-05-01 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN104252484A (zh) * | 2013-06-28 | 2014-12-31 | 重庆新媒农信科技有限公司 | 一种拼音纠错方法及系统 |
CN104485106A (zh) * | 2014-12-08 | 2015-04-01 | 畅捷通信息技术股份有限公司 | 语音识别方法、语音识别系统和语音识别设备 |
CN106528532A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
WO2017084506A1 (zh) * | 2015-11-17 | 2017-05-26 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN107633250A (zh) * | 2017-09-11 | 2018-01-26 | 畅捷通信息技术股份有限公司 | 一种文字识别纠错方法、纠错系统及计算机装置 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
CN110008471A (zh) * | 2019-03-26 | 2019-07-12 | 北京博瑞彤芸文化传播股份有限公司 | 一种基于拼音转换的智能语义匹配方法 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111274785A (zh) * | 2020-01-21 | 2020-06-12 | 北京字节跳动网络技术有限公司 | 一种文本纠错方法、装置、设备及介质 |
CN111312209A (zh) * | 2020-02-21 | 2020-06-19 | 北京声智科技有限公司 | 文本到语音的转换处理方法、装置及电子设备 |
CN111814455A (zh) * | 2020-06-29 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 搜索词纠错对构建方法、终端及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869642B (zh) * | 2016-03-25 | 2019-09-20 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
CN112183073A (zh) * | 2020-11-27 | 2021-01-05 | 北京擎盾信息科技有限公司 | 一种适用于法律热线语音识别的文本纠错和补全方法 |
-
2021
- 2021-02-24 CN CN202110206015.3A patent/CN113012705B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014077865A (ja) * | 2012-10-10 | 2014-05-01 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN104252484A (zh) * | 2013-06-28 | 2014-12-31 | 重庆新媒农信科技有限公司 | 一种拼音纠错方法及系统 |
CN104485106A (zh) * | 2014-12-08 | 2015-04-01 | 畅捷通信息技术股份有限公司 | 语音识别方法、语音识别系统和语音识别设备 |
WO2017084506A1 (zh) * | 2015-11-17 | 2017-05-26 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN106528532A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
CN107633250A (zh) * | 2017-09-11 | 2018-01-26 | 畅捷通信息技术股份有限公司 | 一种文字识别纠错方法、纠错系统及计算机装置 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
CN110008471A (zh) * | 2019-03-26 | 2019-07-12 | 北京博瑞彤芸文化传播股份有限公司 | 一种基于拼音转换的智能语义匹配方法 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111274785A (zh) * | 2020-01-21 | 2020-06-12 | 北京字节跳动网络技术有限公司 | 一种文本纠错方法、装置、设备及介质 |
CN111312209A (zh) * | 2020-02-21 | 2020-06-19 | 北京声智科技有限公司 | 文本到语音的转换处理方法、装置及电子设备 |
CN111814455A (zh) * | 2020-06-29 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 搜索词纠错对构建方法、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113012705A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113012705B (zh) | 一种语音文本的纠错方法及装置 | |
CN112149406B (zh) | 一种中文文本纠错方法及系统 | |
CN111369996B (zh) | 一种特定领域的语音识别文本纠错方法 | |
US8185376B2 (en) | Identifying language origin of words | |
Jelinek | Statistical methods for speech recognition | |
CN112599128B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN112199945A (zh) | 一种文本纠错的方法和装置 | |
US20040148284A1 (en) | Word recognition consistency check and error correction system and method | |
WO2008004666A1 (fr) | Dispositif, procédé et programme de reconnaissance vocale | |
CN112489626B (zh) | 一种信息识别方法、装置及存储介质 | |
US11417322B2 (en) | Transliteration for speech recognition training and scoring | |
Lee et al. | Corrective and reinforcement learning for speaker-independent continuous speech recognition | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
CN112489655B (zh) | 一种特定领域的语音识别文本纠错方法、系统和存储介质 | |
Jeon et al. | Voice trigger detection from LVCSR hypothesis lattices using bidirectional lattice recurrent neural networks | |
KR20230156425A (ko) | 자체 정렬을 통한 스트리밍 asr 모델 지연 감소 | |
Arslan et al. | Detecting and correcting automatic speech recognition errors with a new model | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
WO2020122974A1 (en) | Transliteration for speech recognition training and scoring | |
CN113536776B (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
JP6276516B2 (ja) | 辞書作成装置、及び辞書作成プログラム | |
Dinarelli | Spoken language understanding: from spoken utterances to semantic structures | |
Aşlyan | Syllable Based Speech Recognition | |
Sarikaya et al. | Word level confidence measurement using semantic features | |
Hahn et al. | Improving LVCSR with hidden conditional random fields for grapheme-to-phoneme conversion. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |