CN111613214A - 一种用于提升语音识别能力的语言模型纠错方法 - Google Patents
一种用于提升语音识别能力的语言模型纠错方法 Download PDFInfo
- Publication number
- CN111613214A CN111613214A CN202010437113.3A CN202010437113A CN111613214A CN 111613214 A CN111613214 A CN 111613214A CN 202010437113 A CN202010437113 A CN 202010437113A CN 111613214 A CN111613214 A CN 111613214A
- Authority
- CN
- China
- Prior art keywords
- word
- corrected
- words
- text
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012937 correction Methods 0.000 title claims abstract description 53
- 239000002243 precursor Substances 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Abstract
本发明公开了一种用于提升语音识别能力的语言模型纠错方法、装置、设备及存储介质,该方法包括:获取识别语音得到的文本信息为待纠文本,获取待纠文本中各词语及各词语的分数,确定该分数低于对应阈值的词语为待纠词语;任意词语的分数为在待纠文本中位于该任意词语之前的词语出现前提下出现该任意词语的概率;确定待纠文本中待纠词语前一个词语为待纠前驱词,由词库中确定与待纠前驱词搭配的备选词为待纠备选词;词库包含多个前驱词及与各前驱词搭配的多个备选词;将各待纠备选词分别替换待纠文本中待纠词语,获取各待纠备选词的分数,确定该分数最高的待纠备选词为对待纠词语进行纠正所得词语。本申请能够提高语音识别准确性。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及一种用于提升语音识别能力的语言模型纠错方法、装置、设备及存储介质。
背景技术
为了提升客户体验,当前许多行业都采用智能化设备响应客户发出的语音,实现相应的操作;在实现语音识别时,通常采用语音识别模型进行相应的语音识别,但是发明人发现,现有的技术方案在对语音进行识别得到相应的文本信息后,可能出现对语音识别得到的文本信息与语音所要表达的文本信息不一致的情况,进而导致语音识别的准确性较低。
发明内容
本发明的目的是提供一种用于提升语音识别能力的语言模型纠错方法、装置、设备及存储介质,能够对语音识别得到的文本信息进行纠错,进而提高语音识别的准确性。
为了实现上述目的,本发明提供如下技术方案:
一种用于提升语音识别能力的语言模型纠错方法,包括:
获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本;
获取所述待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在所述待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率;
确定所述待纠文本中所述待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与所述待纠前驱词搭配的备选词均为待纠备选词;其中,所述词库包含多个前驱词及与每个所述前驱词搭配的多个备选词;
将每个所述待纠备选词分别替换所述待纠文本中的待纠词语,获取各个所述待纠备选词的分数,确定该分数最高的待纠备选词为对所述待纠词语进行纠正所得的词语。
优选的,设置所述词库,包括:
通过依存句法分析在预先获取的语料中提取互相搭配的多对词语,确定每对词语中位于前面的词语为前驱词,每对词语中位于后面的词语为备选词;
获取每个所述备选词的分数,删除分数小于第二分数阈值的备选词,并将每个所述前驱词及每个所述前驱词对应的备选词均存储至预设的词库中;其中,任意备选词的分数为该任意备选词在对应的前驱词出现的前提下出现的概率。
优选的,获取所述待纠文本包含的任意词语及任意所述待纠备选词及任意所述备选词的分数,包括:
确定所述待纠文本包含的任意词语或任意所述待纠备选词或任意所述备选词为待打分词语,将所述待打分词语所属的信息输入至预先训练得到的通用模型及定制模型中,将所述通用模型及所述定制模型输出的所述待打分词语的分数进行加权求和,得到所述待打分词语的分数;其中,所述待纠文本包含的任意词语及任意所述待纠备选词所属的信息为所述待纠文本,所述备选词所属的信息为所述备选词及对应的前驱词,所述通用模型为利用通用的文本信息训练得到的,所述定制模型为利用对应业务场景下符合该业务场景下用语规则的文本信息训练得到的,所述待纠文本为对在相应业务场景下输入的语音进行识别得到的文本信息。
优选的,将每个所述前驱词及每个所述前驱词对应的备选词均存储至预设的词库中,包括:
将每个所述前驱词的备选词按照分数由高到底的顺序进行排列,并将每个所述前驱词及每个所述前驱词对应的备选词导入到哈希表中;其中,所述预设的词库为所述哈希表。
优选的,如果所述待打分词语为所述待纠文本包含的任意词语或者任意待纠备选词,则所述通用模型及所述定制模型均包括2-gram模型及3-gram模型,如果所述待打分词语为任意备选词,则所述通用模型及所述定制模型均包括2-gram模型。
优选的,将每个所述待纠备选词分别替换所述待纠文本中的待纠词语之前,还包括:
获取所述待纠词语及每个所述待纠备选词的拼音,对所述待纠词语的拼音及每个所述待纠备选词的拼音之间的编辑距离及最长公共子序列进行加权求和,得到每个所述待纠备选词对应的分数,删除该分数小于第三分数阈值的待纠备选词。
优选的,获取所述待纠文本包含的各个词语,包括:
去掉所述待纠文本中的标点,将所述待纠文本中的数字均用同一符号替换,对所述待纠文本进行断句分词处理,得到所述待纠文本包含的各个词语。
一种用于提升语音识别能力的语言模型纠错方法装置,包括:
第一确定模块,用于:获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本;
第二确定模块,用于:获取所述待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在所述待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率;
第三确定模块,用于:确定所述待纠文本中所述待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与所述待纠前驱词搭配的备选词均为待纠备选词;其中,所述词库包含多个前驱词及与每个所述前驱词搭配的多个备选词;
获取模块,用于:将每个所述待纠备选词分别替换所述待纠文本中的待纠词语,获取各个所述待纠备选词的分数,确定该分数最高的待纠备选词为对所述待纠词语进行纠正所得的词语。
一种用于提升语音识别能力的语言模型纠错方法设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述用于提升语音识别能力的语言模型纠错方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述用于提升语音识别能力的语言模型纠错方法的步骤。
本发明提供了一种用于提升语音识别能力的语言模型纠错方法、装置、设备及存储介质,该方法包括:获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本获取所述待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在所述待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率;确定所述待纠文本中所述待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与所述待纠前驱词搭配的备选词均为待纠备选词;其中,所述词库包含多个前驱词及与每个所述前驱词搭配的多个备选词;将每个所述待纠备选词分别替换所述待纠文本中的待纠词语,获取各个所述待纠备选词的分数,确定该分数最高的待纠备选词为对所述待纠词语进行纠正所得的词语。本申请公开的技术方案中,在利用语言模型对输入的语音对应音素进行识别得到相应文本信息后,计算文本信息中包含的各词语在文本信息中位于其之前的各词语出现的前提下出现的概率,从而该概率较低的词语则为文本信息对应位置出现较不合理的词语,也即为需要进行纠错的词语;确定出在待纠文本中需要进行纠错的词语前一个词语,由词库中确定出可能位于该词语之后的全部备选词,进而将这些备选词分别替换文本信息后,再计算备选词在文本信息中位于其之前的各词语出现前提下出现的概率,从而该概率最高的词语则为文本信息对应位置出现最为合理的词语,因此利用该词语替换需要进行纠错的词语,实现对文本信息的纠错;可见,本申请通过上述技术方案能够有效实现对语音识别得到的文本信息的纠错,进而提高了语音识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法的流程图;
图2为本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法中依存句法分析树的示例图;
图3为本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法的流程图,可以包括:
S11:获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法的执行主体可以为对应的用于提升语音识别能力的语言模型纠错方法装置。在对输入的语音进行识别得到相应的文本信息后,可以确定该文本信息则为需要实现纠错的文本信息,也即待纠文本。其中,实现语音识别包括两个步骤,分别为利用语音模型识别语音的音素,及利用语言模型将音素转换成相应的文本信息;因此,对输入的语音进行识别得到相应的文本信息可以是将语音输入到预先训练得到的语音模型中,将语音模型输出的音素输入到预先训练得到的语言模型中,从而得到语言模型输出的文本信息则为与输入的语音对应的文本信息,当然也可以根据实际需要进行其他设定,均在本发明的保护范围之内。
S12:获取待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率。
对待纠文本进行预处理,可以得到待纠文本中包含的全部词语;求得每个词语在待纠文本中的后验概率作为每个词语的分数,具体来说,对于任意词语,在待纠文本中位于该任意词语之前的全部词语出现的前提下,在待纠文本中该任意词语的位置处出现该任意词语的概率,从而通过该概率可以确定每个词语在待纠文本中对应位置处出现的合理性,也即该概率越高,对应词语在待纠文本中对应位置处出现越合理,越可能对相应的部分语音的识别是正确的,反之则对应词语在待纠文本中对应位置处出现越不合理,越可能对相应的部分语音的识别是错误的。因此,本实施例中可以预先根据实际需要设定第一分数阈值(如默认-5),如果任意词语的分数低于第一分数阈值,则该任意词语在待纠文本中对应位置处出现较不合理,对相应的部分语音的识别是错误的可能性较大,因此认为该任意词语为识别错误的词语,也即待纠词语,待纠词语的数量可能为1个,也可能为多个,如果待纠词语的数量为多个,则对于每个待纠词语均需按照本申请公开的技术方案进行纠错;如果待纠文本中不包含分数低于第一分数阈值的词语,则认为对输入的语音的识别所得文本信息是正确表达输入的语音所要表达信息的文本信息,因此可以确定无需进行后续纠错步骤。
S13:确定待纠文本中待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与待纠前驱词搭配的备选词均为待纠备选词;其中,词库包含多个前驱词及与每个前驱词搭配的多个备选词。
本实施例中可以预先配置有词库,词库中包含多个前驱词,每个前驱词具有一个备选词集,每个备选词集包含多个备选词;具体来说,每个前驱词中任意前驱词与该任意前驱词具有的备选词中的每个备选词均具有对应关系,每个前驱词与对应的每个备选词均可以组成一组互相搭配的词语,也即任意前驱词与该任意前驱词对应的任意备选词可以组成一组互相搭配的词语,且在组成互相搭配的词语后该任意前驱词位于前面,该任意前驱词对应的备选词位于后面。在确定出待纠词语后,可以确定待纠文本中位于待纠词语之前且距离待纠词语最近的一个词语为待纠词语的前驱词、即待纠前驱词,从词库中寻找与该待纠前驱词相同的前驱词,并且确定词库中与该待纠前驱词相同的前驱词具有的备选词集中各备选词均为与该待纠前驱词对应的备选词,也即可能与该待纠前驱词组成一组互相搭配的词语的词语。
S14:将每个待纠备选词分别替换待纠文本中的待纠词语,获取各个待纠备选词的分数,确定该分数最高的待纠备选词为对待纠词语进行纠正所得的词语。
在得到各个待纠备选词后,可以将每个待纠备选词分别替换待纠文本中的待纠词语,然后获取每个待纠备选词的分数,也即在待纠文本中位于任意待纠备选词之前的词语出现的前提下在该任意待纠备选词的位置处出现该任意待纠备选词的概率,则为该任意待纠备选词的分数;分数最高的待纠备选词则为在相应位置处出现的合理性及可能性最高的词语,也即为相应的部分语音所表达的真实的文本,因此分数最高的待纠备选词替换待纠词语后,所得的文本则为纠错完成后的文本信息。
本申请公开的技术方案中,在利用语言模型对输入的语音对应音素进行识别得到相应文本信息后,计算文本信息中包含的各词语在文本信息中位于其之前的各词语出现的前提下出现的概率,从而该概率较低的词语则为文本信息对应位置出现较不合理的词语,也即为需要进行纠错的词语;确定出在待纠文本中需要进行纠错的词语前一个词语,由词库中确定出可能位于该词语之后的全部备选词,进而将这些备选词分别替换文本信息后,再计算备选词在文本信息中位于其之前的各词语出现前提下出现的概率,从而该概率最高的词语则为文本信息对应位置出现最为合理的词语,因此利用该词语替换需要进行纠错的词语,实现对文本信息的纠错;可见,本申请通过上述技术方案能够有效实现对语音识别得到的文本信息的纠错,进而提高了语音识别的准确性。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法,设置词库,可以包括:
通过依存句法分析在预先获取的语料中提取互相搭配的多对词语,确定每对词语中位于前面的词语为前驱词,每对词语中位于后面的词语为备选词;
获取每个备选词的分数,删除分数小于第二分数阈值的备选词,并将每个前驱词及每个前驱词对应的备选词均存储至预设的词库中;其中,任意备选词的分数为该任意备选词在对应的前驱词出现的前提下出现的概率;其中,任意备选词的分数为该任意备选词在对应的前驱词出现的前提下出现的概率。
其中,预先获取的语料可以为由工作人员预先获取的语料,通过依存句法分析在这些语料中提取到词语搭配,也即互相搭配的多对词语(每对词语中的前驱词及备选词之间具有对应的关系),确定每对互相搭配的词语中位于前面的为前驱词,位于后面的为备选词,获取到每个备选词在对应的前驱词之后出现的概率,如果该概率小于根据实际需要设定的第二分数阈值,则说明对应备选词在其前驱词后出现的概率是较小的,因此这种备选词则可以直接删除,从而保证备选词均为可靠性较高的备选词。
其中,依存句法分析通过分析语料包含的句子中每一个语法成分之间的依存关系,分析出其句法结构,也即将句子中的“主谓宾”、“定状补”等语法成分之间的关系描述清楚。本实施例中可以使用stanford的nlp工具对句子进行语法标注,从而得到各个词语的搭配关系,也就是依存关系。例如句子“会议宣布了首批资深院士名单。”的依存句法分析树如图2所示,从图2可以看出,词语“宣布”支配“会议”、“了”和“名单”,因此可以将这些被支配的词语作为“宣布”的搭配词语,也即与“宣布”互相搭配的词语。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法,获取待纠文本包含的任意词语及任意待纠备选词及任意备选词的分数,可以包括:
确定待纠文本包含的任意词语或任意待纠备选词或任意备选词为待打分词语,将待打分词语所属的信息输入至预先训练得到的通用模型及定制模型中,将通用模型及定制模型输出的待打分词语的分数进行加权求和,得到待打分词语的分数;其中,待纠文本包含的任意词语及任意待纠备选词所属的信息为待纠文本,备选词所属的信息为备选词及对应的前驱词,通用模型为利用通用的文本信息训练得到的,定制模型为利用对应业务场景下符合该业务场景下用语规则的文本信息训练得到的,待纠文本为对在相应业务场景下输入的语音进行识别得到的文本信息。
本实施例中的通用模型及定制模型均为语言模型,其可以利用相应的文本信息训练得到。其中,本申请实施例提供的技术方案可以应用于金融行业,当然也可以应用于其他需要办理业务且可支持语音交互实现业务办理的行业,如通信行业、采购行业等,均在本发明的保护范围之内。本申请实施例将对语音进行识别得到相应的文本信息所用的语音识别模型包括语音模型及语言模型,在训练该语音识别模型时,可以是先用在任意业务场景下客户输入的任意语音(通用的语音)及对应文本信息训练得到通用的语音识别模型,再利用每个业务场景下客户输入的任意语音及对应文本信息对通用的语音识别模型进行训练,得到与每个业务场景分别一一对应的定制的语音识别模型,进而利用定制的语音识别模型对相应业务场景下输入的语音进行识别得到相应文本信息,也即本申请实施例中的待纠文本;对应的,本申请实施例中用于识别词语打分的模型也包括用通用的文本信息(对应任意的业务场景)训练得到的通用模型及用每个业务场景下的文本信息训练得到的定制模型,其中,业务场景可以为具有自己的用于规则的场景,也可以为包含指定方言(如重庆话)的场景,还可以特指某领域(如金融)的场景;从而通过这两种模型综合实现词语打分,提高了词语打分的准确性。
另外,如果通用模型所用语料为标准语言,而业务场景指指定方言的场景,则此时对业务场景下的语音识别得到的文本信息很可能因指定方言的发音而导致文本信息不通顺和覆盖范围不广泛,因此本实施例通过通用模型和定制模型多个角度评估识别文本信息的准确性,进而提高了语音识别准确性。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法,将每个前驱词及每个前驱词对应的备选词均存储至预设的词库中,可以包括:
将每个前驱词的备选词按照分数由高到底的顺序进行排列,并将每个前驱词及每个前驱词对应的备选词导入到哈希表中;预设的词库为哈希表。
在得到每个前驱词的备选词后,可以将任意前驱词对应的多个备选词按照分数从高到低的顺序进行排列,将全部前驱词及对应的全部备选词保存为词语搭配文件,进而将该词语搭配文件导入到哈希表中,从而能够便于通过哈希表实现前驱词及对应备选词的查询。其中,将词语搭配文件导入到哈希表中后保存格式可以如(其中,词1至词n均为前驱词的编号):
【词1,前驱词】-【备选词11】【备选词12】….
【词2,前驱词】-【备选词21】【备选词22】….
...
【词n,前驱词】-【备选词n1】【备选词n2】….
按照上述形式将前驱词及对应备选词一一保存,能够在获知前驱词后查询其对应的所有的备选词。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法,如果待打分词语为待纠文本包含的任意词语或者任意待纠备选词,则通用模型及定制模型均可以包括2-gram模型及3-gram模型,如果待打分词语为任意备选词,则通用模型及定制模型均可以包括2-gram模型。
其中,N-Gram是一种基于统计语言模型的算法,它的基本思想是将文本里的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也即这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度;该模型基于这样一种假设,第N个词语的出现只与前面N-1个词语相关,而与其它任何词语都不相关,整句的概率就是各个词语出现概率的乘积,这些概率可以通过直接从语料中统计N个词语同时出现的次数得到;常用的是二阶的Bi-Gram和三阶的Tri-Gram,本实施例中采用的即为2-gram及3-gram。
以待纠文本为:“系统提示查询密码不正确”进行说明,将待纠文本进行分词,需要输入至2-gram的词语对列表则是:[系统,提示]、[提示,查询]、[查询,密码]、[密码,不]、[不,正确],同理需要输入至3-gram的词语对列表是:[系统,提示,查询]、[提示,查询,密码]、[查询,密码,不],[密码,不,正确];分别通用模型2-gram、3-gram和定制模型2-gram、3-gram四个模型对分词后的文本进行打分,也即将一个分好词的文本整体输入到上述模型后即可得到该文本中每一个词语的分数。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法,将每个待纠备选词分别替换待纠文本中的待纠词语之前,还可以包括:
获取待纠词语及每个待纠备选词的拼音,对待纠词语的拼音及每个待纠备选词的拼音之间的编辑距离及最长公共子序列进行加权求和,得到每个待纠备选词对应的分数,删除该分数小于第三分数阈值的待纠备选词。
其中,编辑距离是衡量两个拼音的字符串间的差异程度的一种方法,从一个字符串修改到另一个字符串时,编辑单个字符(比如修改、插入、删除)所需要的最少次数则为两个字符串之间的编辑哭距离;可以采用动态规划算法实现,具体来说,设字符串S、T的长度分别为m、n,记S(i)为S从第1个字符到第i个字符之间的子串,S(0)表示空串,S(m)表示S本身,因此,S和T间的编辑距离,可由S(i)和T(j)的编辑距离计算而来,取编辑距离值为S1;则递推公式如下:
例如从字符串“kitten”修改为字符串“sitting”只需3次单字符编辑操作,具体如下:
sitten(k->s)
sittin(e->i)
sitting(_->g);
因此“kitten”和“sitting”的逻辑距离(Levenshtein)距离为3。
LCS(最长公共子序列)是指两个拼音的字符串的最长公共子序列,也即两个字符串中最长的有相同顺序的子序列。
第三分数阈值可以根据实际需要进行设定,从而通过编辑距离和LCS的计算得到最大可能的正确文本序列,进而提高语音识别准确性。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法,获取待纠文本包含的各个词语,可以包括:
去掉待纠文本中的标点,将待纠文本中的数字均用同一符号替换,对待纠文本进行断句分词处理,得到待纠文本包含的各个词语。
获取待纠文本中包含的各个词语时,具体可以包括去掉待纠文本中包含的各个标点符合,待纠文本中可能会包含各种数字,比如“2020年3月29日”,其中2020和3和29这种数字不需要考虑其具体是什么数值,可以是任意数字,只要是模式相同的数字,为了去除不同数字相同模式的影响,可以将待纠文本中的数字用同一符号(如星号等)一一对应的替换,具体用正则表达式匹配替换即可,最后再对待纠文本进行分居分词处理,得到其包含的全部词语,从而以这种方式快速方便的实现待纠文本中词语的提取。
需要说明的是,在得到待纠词语后,如果待纠词语为多个,则可以将待纠词语均保存为JSON文件,在JSON文件以中括号[]嵌套的形式记录每个大句子(待纠文本)的标识(如id),大句子分割成的小句子的错误词语索引及词语本身,以及词语的分数等,用于后续的纠错处理。
在确定词库中与待纠前驱词相同的前驱词时,可以通过开源工具hanlp获取待纠词语以及词库中各词语的拼音,根据待纠文本以及待纠词语的索引获取待纠词语的前一个词语为待纠前驱词,查询词库得到待纠前驱词对应的备选词,其中,查询得到对应备选词时可以是通过哈希表,已知待纠词语的前一个词语的下标位置后,可以查询得到所有备选词的集合。另外,本申请实施例中加权求和的部分也可以是求加权平均值,当然也可以根据实际需要进行其他设定,均在本发明的保护范围之内。
本申请通过通用模型和定制模型的2-gram、3-gram两个领域多个角度评估识别文本的准确性,并通过编辑距离和LCS的计算得到最大可能的正确文本序列,进而通过n-gram进行多重验证,最终选择最优备选词,将错误的词语替换成新的更可靠的词语,完成纠错,使得错误的词语所在的文本句子变的更加通顺,更加正确。
本发明实施例还提供了一种用于提升语音识别能力的语言模型纠错方法装置,如图3所示,可以包括:
第一确定模块11,用于:获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本;
第二确定模块12,用于:获取待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率;
第三确定模块13,用于:确定待纠文本中待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与待纠前驱词搭配的备选词均为待纠备选词;其中,词库包含多个前驱词及与每个前驱词搭配的多个备选词;
获取模块14,用于:将每个待纠备选词分别替换待纠文本中的待纠词语,获取各个待纠备选词的分数,确定该分数最高的待纠备选词为对待纠词语进行纠正所得的词语。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置,还可以包括:
设置模块,用于:通过依存句法分析在预先获取的语料中提取互相搭配的多对词语,确定每对词语中位于前面的词语为前驱词,每对词语中位于后面的词语为备选词;获取每个备选词的分数,删除分数小于第二分数阈值的备选词,并将每个前驱词及每个前驱词对应的备选词均存储至预设的词库中;其中,任意备选词的分数为该任意备选词在对应的前驱词出现的前提下出现的概率。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置,第二确定模块、获取模块及设置模块均可以包括:
确定单元,用于:确定待纠文本包含的任意词语或任意待纠备选词或任意备选词为待打分词语,将待打分词语所属的信息输入至预先训练得到的通用模型及定制模型中,将通用模型及定制模型输出的待打分词语的分数进行加权求和,得到待打分词语的分数;其中,待纠文本包含的任意词语及任意待纠备选词所属的信息为待纠文本,备选词所属的信息为备选词及对应的前驱词,通用模型为利用通用的文本信息训练得到的,定制模型为利用对应业务场景下符合该业务场景下用语规则的文本信息训练得到的,待纠文本为对在相应业务场景下输入的语音进行识别得到的文本信息。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置,设置模块可以包括:
导入单元,用于:将每个前驱词的备选词按照分数由高到底的顺序进行排列,并将每个前驱词及每个前驱词对应的备选词导入到哈希表中;其中,预设的词库为哈希表。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置,还可以包括:
筛选模块,用于:将每个待纠备选词分别替换待纠文本中的待纠词语之前,获取待纠词语及每个待纠备选词的拼音,对待纠词语的拼音及每个待纠备选词的拼音之间的编辑距离及最长公共子序列进行加权求和,得到每个待纠备选词对应的分数,删除该分数小于第三分数阈值的待纠备选词。
本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置,第二确定模块可以包括:
预处理单元,用于:去掉待纠文本中的标点,将待纠文本中的数字均用同一符号替换,对待纠文本进行断句分词处理,得到待纠文本包含的各个词语。
本发明实施例还提供了一种用于提升语音识别能力的语言模型纠错方法设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项用于提升语音识别能力的语言模型纠错方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项用于提升语音识别能力的语言模型纠错方法的步骤。
需要说明的是,本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种用于提升语音识别能力的语言模型纠错方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种用于提升语音识别能力的语言模型纠错方法,其特征在于,包括:
获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本;
获取所述待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在所述待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率;
确定所述待纠文本中所述待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与所述待纠前驱词搭配的备选词均为待纠备选词;其中,所述词库包含多个前驱词及与每个所述前驱词搭配的多个备选词;
将每个所述待纠备选词分别替换所述待纠文本中的待纠词语,获取各个所述待纠备选词的分数,确定该分数最高的待纠备选词为对所述待纠词语进行纠正所得的词语。
2.根据权利要求1所述的方法,其特征在于,设置所述词库,包括:
通过依存句法分析在预先获取的语料中提取互相搭配的多对词语,确定每对词语中位于前面的词语为前驱词,每对词语中位于后面的词语为备选词;
获取每个所述备选词的分数,删除分数小于第二分数阈值的备选词,并将每个所述前驱词及每个所述前驱词对应的备选词均存储至预设的词库中;其中,任意备选词的分数为该任意备选词在对应的前驱词出现的前提下出现的概率。
3.根据权利要求2所述的方法,其特征在于,获取所述待纠文本包含的任意词语及任意所述待纠备选词及任意所述备选词的分数,包括:
确定所述待纠文本包含的任意词语或任意所述待纠备选词或任意所述备选词为待打分词语,将所述待打分词语所属的信息输入至预先训练得到的通用模型及定制模型中,将所述通用模型及所述定制模型输出的所述待打分词语的分数进行加权求和,得到所述待打分词语的分数;其中,所述待纠文本包含的任意词语及任意所述待纠备选词所属的信息为所述待纠文本,所述备选词所属的信息为所述备选词及对应的前驱词,所述通用模型为利用通用的文本信息训练得到的,所述定制模型为利用对应业务场景下符合该业务场景下用语规则的文本信息训练得到的,所述待纠文本为对在相应业务场景下输入的语音进行识别得到的文本信息。
4.根据权利要求3所述的方法,其特征在于,将每个所述前驱词及每个所述前驱词对应的备选词均存储至预设的词库中,包括:
将每个所述前驱词的备选词按照分数由高到底的顺序进行排列,并将每个所述前驱词及每个所述前驱词对应的备选词导入到哈希表中;其中,所述预设的词库为所述哈希表。
5.根据权利要求4所述的方法,其特征在于,如果所述待打分词语为所述待纠文本包含的任意词语或者任意待纠备选词,则所述通用模型及所述定制模型均包括2-gram模型及3-gram模型,如果所述待打分词语为任意备选词,则所述通用模型及所述定制模型均包括2-gram模型。
6.根据权利要求1所述的方法,其特征在于,将每个所述待纠备选词分别替换所述待纠文本中的待纠词语之前,还包括:
获取所述待纠词语及每个所述待纠备选词的拼音,对所述待纠词语的拼音及每个所述待纠备选词的拼音之间的编辑距离及最长公共子序列进行加权求和,得到每个所述待纠备选词对应的分数,删除该分数小于第三分数阈值的待纠备选词。
7.根据权利要求6所述的方法,其特征在于,获取所述待纠文本包含的各个词语,包括:
去掉所述待纠文本中的标点,将所述待纠文本中的数字均用同一符号替换,对所述待纠文本进行断句分词处理,得到所述待纠文本包含的各个词语。
8.一种用于提升语音识别能力的语言模型纠错方法装置,其特征在于,包括:
第一确定模块,用于:获取利用语言模型识别输入的语音对应音素得到的文本信息,确定该文本信息为待纠文本;
第二确定模块,用于:获取所述待纠文本包含的各个词语及各个词语的分数,确定该分数低于第一分数阈值的词语为待纠词语;其中,任意词语的分数为在所述待纠文本中位于该任意词语之前的词语出现的前提下出现该任意词语的概率;
第三确定模块,用于:确定所述待纠文本中所述待纠词语的前一个词语为待纠前驱词,由预先设置的词库中确定与所述待纠前驱词搭配的备选词均为待纠备选词;其中,所述词库包含多个前驱词及与每个所述前驱词搭配的多个备选词;
获取模块,用于:将每个所述待纠备选词分别替换所述待纠文本中的待纠词语,获取各个所述待纠备选词的分数,确定该分数最高的待纠备选词为对所述待纠词语进行纠正所得的词语。
9.一种用于提升语音识别能力的语言模型纠错方法设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述用于提升语音识别能力的语言模型纠错方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用于提升语音识别能力的语言模型纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010437113.3A CN111613214A (zh) | 2020-05-21 | 2020-05-21 | 一种用于提升语音识别能力的语言模型纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010437113.3A CN111613214A (zh) | 2020-05-21 | 2020-05-21 | 一种用于提升语音识别能力的语言模型纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111613214A true CN111613214A (zh) | 2020-09-01 |
Family
ID=72203628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010437113.3A Pending CN111613214A (zh) | 2020-05-21 | 2020-05-21 | 一种用于提升语音识别能力的语言模型纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613214A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037773A (zh) * | 2020-11-05 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN112836493A (zh) * | 2020-12-04 | 2021-05-25 | 国家计算机网络与信息安全管理中心 | 一种转写文本校对方法及存储介质 |
CN112863516A (zh) * | 2020-12-31 | 2021-05-28 | 竹间智能科技(上海)有限公司 | 一种文本纠错方法、系统及电子设备 |
CN112905737A (zh) * | 2021-01-28 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113807081A (zh) * | 2021-09-18 | 2021-12-17 | 北京云上曲率科技有限公司 | 基于上下文的聊天文本内容纠错方法及装置 |
CN114398876A (zh) * | 2022-03-24 | 2022-04-26 | 北京沃丰时代数据科技有限公司 | 一种基于有限状态转换器的文本纠错方法和装置 |
WO2022134356A1 (zh) * | 2020-12-25 | 2022-06-30 | 平安科技(深圳)有限公司 | 句子智能纠错方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
US20150347383A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Text prediction using combined word n-gram and unigram language models |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
CN106547741A (zh) * | 2016-11-21 | 2017-03-29 | 江苏科技大学 | 一种基于搭配的汉语文本自动校对方法 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
-
2020
- 2020-05-21 CN CN202010437113.3A patent/CN111613214A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
US20150347383A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Text prediction using combined word n-gram and unigram language models |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
CN106547741A (zh) * | 2016-11-21 | 2017-03-29 | 江苏科技大学 | 一种基于搭配的汉语文本自动校对方法 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
刘亮亮 等: "基于局部上下文特征的组合的中文真词错误自动校对研究", 《计算机科学》 * |
张俊祺: "面向领域的语音转换后文本纠错研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037773A (zh) * | 2020-11-05 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN112037773B (zh) * | 2020-11-05 | 2021-01-29 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN112836493A (zh) * | 2020-12-04 | 2021-05-25 | 国家计算机网络与信息安全管理中心 | 一种转写文本校对方法及存储介质 |
CN112836493B (zh) * | 2020-12-04 | 2023-03-14 | 国家计算机网络与信息安全管理中心 | 一种转写文本校对方法及存储介质 |
WO2022134356A1 (zh) * | 2020-12-25 | 2022-06-30 | 平安科技(深圳)有限公司 | 句子智能纠错方法、装置、计算机设备及存储介质 |
CN112863516A (zh) * | 2020-12-31 | 2021-05-28 | 竹间智能科技(上海)有限公司 | 一种文本纠错方法、系统及电子设备 |
CN112905737A (zh) * | 2021-01-28 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113807081A (zh) * | 2021-09-18 | 2021-12-17 | 北京云上曲率科技有限公司 | 基于上下文的聊天文本内容纠错方法及装置 |
CN114398876A (zh) * | 2022-03-24 | 2022-04-26 | 北京沃丰时代数据科技有限公司 | 一种基于有限状态转换器的文本纠错方法和装置 |
CN114398876B (zh) * | 2022-03-24 | 2022-06-14 | 北京沃丰时代数据科技有限公司 | 一种基于有限状态转换器的文本纠错方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
US7636657B2 (en) | Method and apparatus for automatic grammar generation from data entries | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
US8719021B2 (en) | Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program | |
Xue et al. | Normalizing microtext | |
CN111639489A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
EP1538535A2 (en) | Determination of meaning for text input in natural language understanding systems | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
US6763331B2 (en) | Sentence recognition apparatus, sentence recognition method, program, and medium | |
JPH01501977A (ja) | 言語翻訳システム | |
CA2413455C (en) | Systems and methods for translating languages | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN106383814B (zh) | 一种英文社交媒体短文本分词方法 | |
US8335681B2 (en) | Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns | |
CN112489655B (zh) | 一种特定领域的语音识别文本纠错方法、系统和存储介质 | |
CN112231451B (zh) | 指代词恢复方法、装置、对话机器人及存储介质 | |
WO2008059111A2 (en) | Natural language processing | |
Sibarani et al. | A study of parsing process on natural language processing in bahasa Indonesia | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN108304389B (zh) | 交互式语音翻译方法及装置 | |
Zablotskiy et al. | Speech and Language Resources for LVCSR of Russian. | |
JP2999768B1 (ja) | 音声認識誤り訂正装置 | |
Wray et al. | Best practices for crowdsourcing dialectal arabic speech transcription | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200901 |
|
RJ01 | Rejection of invention patent application after publication |