CN114398876A - 一种基于有限状态转换器的文本纠错方法和装置 - Google Patents

一种基于有限状态转换器的文本纠错方法和装置 Download PDF

Info

Publication number
CN114398876A
CN114398876A CN202210292646.6A CN202210292646A CN114398876A CN 114398876 A CN114398876 A CN 114398876A CN 202210292646 A CN202210292646 A CN 202210292646A CN 114398876 A CN114398876 A CN 114398876A
Authority
CN
China
Prior art keywords
text
fst
error correction
corrected
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210292646.6A
Other languages
English (en)
Other versions
CN114398876B (zh
Inventor
薛东伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wofeng Times Data Technology Co ltd
Original Assignee
Beijing Wofeng Times Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wofeng Times Data Technology Co ltd filed Critical Beijing Wofeng Times Data Technology Co ltd
Priority to CN202210292646.6A priority Critical patent/CN114398876B/zh
Publication of CN114398876A publication Critical patent/CN114398876A/zh
Application granted granted Critical
Publication of CN114398876B publication Critical patent/CN114398876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于有限状态转换器的文本纠错方法和装置,包括:基于预存的音素表,确定待纠错文本对应的FST;将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;搜索所述复合后的FST,得到待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。本发明提供的FST形式的纠错模型,无需数据标注,训练周期短,具备快速更新迭代的潜力,能够适应不同用户的定制化需求。在实际应用时,简单地利用FST形式的纠错模型即可实现快速、准确的文本纠错。

Description

一种基于有限状态转换器的文本纠错方法和装置
技术领域
本发明涉及文本处理领域,尤其涉及一种基于有限状态转换器的文本纠错方法和装置。
背景技术
文本纠错技术旨在自动将用户输入文本中拼写、手写等错误进行纠正,以提升输入文本的正确性、可用性。文本纠错技术的应用领域较为广泛,如搜索引擎、智能聊天机器人、稿件编辑等。对于搜索引擎来讲,用户输入关键字的准确性会极大程度的影响最终搜索结果的匹配率;对于客服机器人来讲,正确的输入文本为后续的语义分析、语义匹配提供了坚实的基础;对于稿件编辑来讲,文本自动纠错减轻了稿件编辑者在错别字矫正环节的劳动,极大的节约了人工成本。因此,作为自然语言处理中重要的一环,文本纠错有着不可或缺的意义。
目前,学术界通常采用有监督的深度学习模型来实现文本纠错,深度学习模型是通过将预先标注的文本纠错数据输入到设计好的深度神经网络模型中不断的进行迭代训练得到的,其拟合、泛化能力均较为优秀。
但是,深度学习模型在训练时都需要大量的样本数据,这就需要投入很多的人力资源进行标注;另外训练所需的时间周期也较长,这导致线上模型无法实现快速更新,不能满足不同用户频繁的个性化需求。
发明内容
本发明的目的是提供一种基于有限状态转换器的文本纠错方法和装置,避开深度学习模型的训练并设计全新的文本纠错策略,以针对不同领域的用户,进行高效化、定制化、个性化的文本纠错。
第一个方面,本发明实施例提供一种基于有限状态转换器的文本纠错方法,所述方法包括:
基于预存的音素表,确定待纠错文本对应的FST;
将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;
搜索所述复合后的FST,得到待纠错文本的纠错结果;
其中,所述FST形式的纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
根据本发明提供的基于有限状态转换器的文本纠错方法,所述基于预存的音素表,确定待纠错文本对应的FST,包括:
对待纠错文本进行分词,得到待纠错文本对应的分词序列;
根据所述音素表,将所述分词序列中的分词转换为音素,得到待纠错文本对应的音素序列;
将所述音素序列转换为FST形式,得到待纠错文本对应的FST;
其中,所述待纠错文本对应的FST的输入标签与输出标签均为音素。
根据本发明提供的基于有限状态转换器的文本纠错方法,所述纠错模型的生成过程,包括:
将分词词典转换为FST形式,得到FST形式的分词词典;
复合所述FST形式的分词词典和预存的专用语言模型,得到FST形式的纠错模型;
其中,所述分词词典中记录了分词与音素的映射关系,所述专用语言模型为FST形式的模型;
所述FST形式的分词词典和所述FST形式的纠错模型,均以输入标签为音素、输出标签为词的形式展现。
根据本发明提供的基于有限状态转换器的文本纠错方法,所述预存的专用语言模型的生成方法,包括:
将所述通用语料与所述待纠错文本所属领域的专属语料进行插值模型训练,得到所述预存的专用语言模型;
将专用语言模型转换为FST形式,得到FST形式的专用语言模型;
其中,所述预存的专用语言模型的输入标签与输出标签均为词。
根据本发明提供的基于有限状态转换器的文本纠错方法,所述搜索所述复合后的FST,得到待纠错文本的纠错结果,包括:
对所述复合后的FST进行搜索,确定所述复合后的FST中路径的条数;
基于所述条数,对所述复合后的FST进行路径提取;
基于提取的路径,确定待纠错文本的纠错结果。
根据本发明提供的基于有限状态转换器的文本纠错方法,所述基于所述条数,对所述复合后的FST进行路径提取,包括:
在所述条数小于ε的情况下,提取所述复合后的FST中所有的路径;
在所述条数不小于ε的情况下,提取所述复合后的FST中路径最短的ε条路径;
其中,所述ε为预设值。
根据本发明提供的基于有限状态转换器的文本纠错方法,所述基于提取的路径,确定待纠错文本的纠错结果,包括:
计算提取的各条路径的权值和;
将权值和最小的路径对应的文本形式作为待纠错文本的纠错结果。
第二方面,本发明还提供一种基于有限状态转换器的文本纠错装置,所述装置包括:
确定模块,用于基于预存的音素表,确定待纠错文本对应的FST;
复合模块,用于将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;
搜索模块,用于搜索所述复合后的FST,得到待纠错文本的纠错结果;
其中,所述FST形式的纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述基于有限状态转换器的文本纠错方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述基于有限状态转换器的文本纠错方法。
本发明提供的一种基于有限状态转换器的文本纠错方法和装置,基于音素表,将待纠错文本转换为以音素表示的FST;之后将FST与预存的纠错模型进行复合,得到复合后的FST;最后,采用路径搜索方式,从复合后的FST中得出待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。本发明提供的文本纠错方案,简单的利用FST形式的纠错模型即可实现快速的文本纠错。另外,本发明FST形式的纠错模型,无需数据标注,训练周期短,具备快速更新迭代的潜力,能够适应不同用户的定制化需求;此外,其针对不同领域的用户使用了不同领域的专属语料,保证了纠错的正确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于有限状态转换器的文本纠错方法流程图;
图2是本发明提供的分词“登录”以及分词“登陆”所对应的FST的示例图;
图3是本发明提供的FST形式的分词词典的结构示例图;
图4是本发明提供的预存的纠错模型的结构示例图;
图5是本发明提供的预存的专用语言模型的结构示例图;
图6是本发明提供的复合后的FST的结构示例图;
图7是本发明提供的路径示意图;
图8是本发明提供的基于有限状态转换器的文本纠错方法的执行流程图;
图9是本发明提供的基于有限状态转换器的文本纠错装置的结构示意图;
图10是本发明提供的实现基于有限状态转换器的文本纠错方法的电子设备的结构示意图。
具体实施方式
下面结合图1-图10进行描述本发明提供的基于有限状态转换器的文本纠错方法和装置。
第一方面,如图1所示,本发明提供了一种基于有限状态转换器的文本纠错方法,包括:
S11、基于预存的音素表,确定待纠错文本对应的FST;
有限状态转换器(FST,Finite State Transducers),目前在语音识别领域和自然语言搜索、处理等方向被广泛应用。有限状态转移器由一组有限的状态和状态转移的集合组成,其每一次状态转移时都有一个输入输出标签对,通过这样的标签对,FST可描述一组规则的转换或一组符号序列到另一组符号序列的转换。
本发明利用有限状态转换器,将待纠错文本的上下文语义用FST进行表示。
S12、将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;
通过复合所述待纠错文本对应的FST与预存的纠错模型,以得到两者的组合形式,为待纠错文本的纠错提供实现基础。
S13、搜索所述复合后的FST,得到待纠错文本的纠错结果;
需要注意的是,这里所指的复合,是将两个不同层级的FST整合成一个FST,使得新的FST的输入输出关系与原来两个FST等同的技术。
复合需遵循前一个FST的输出是后一个FST的输入的规则,目前复合在文本处理领域的应用非常之多,本申请不过多赘述。
本发明将文本的纠错问题转换为复合后的FST中最优路径的搜索问题,进而高效,准确的实现文本纠错。
其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
现实中存在大量的与用户使用场景相关的词汇,这些词汇在一个领域中是正常的,在另一个领域中可能就是错误的,例如“登陆”与“登录”。当应用场景为登录账号密码等场景时,“登陆”明显是错误的,但是单看“登陆”并无错误。
故而为避免出现纠正错误,本发明针对不同领域制定不同的FST形式的纠错模型,以提高用户的待纠错文本的纠错结果的正确率。
此外,因FST形式的纠错模型,无需数据标注,训练周期短,具备快速更新迭代的潜力,因此在用户使用时,还可以基于用户的使用习惯进行线上更新,以满足用户的个性化需求,即FST形式的纠错模型能够适应不同用户的定制化需求。
本发明提供的一种基于有限状态转换器的文本纠错方法,基于音素表,将待纠错文本转换为以音素表示的FST;之后将FST与预存的纠错模型进行复合,得到复合后的FST;最后,采用路径搜索方式,从复合后的FST中得出待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。本发明提供的文本纠错方案,简单的利用FST形式的纠错模型即可实现快速的文本纠错。另外,本发明FST形式的纠错模型,无需数据标注,训练周期短,具备快速更新迭代的潜力,能够适应不同用户的定制化需求;此外,其针对不同领域的用户使用了不同领域的专属语料,保证了纠错的正确性。
在上述各实施例的基础上,作为一种可选的实施例,所述基于预存的音素表,确定待纠错文本对应的FST,包括:
对待纠错文本进行分词,得到待纠错文本对应的分词序列;
本发明利用分词词典对待纠错文本进行分词,为后续分词-音素转换提供基础。
根据所述音素表,将所述分词序列中的分词转换为音素,得到待纠错文本对应的音素序列;
需要注意的是,音素表中包含了所有汉字对应的发音的音素单元,本发明音素表按照汉语声韵进行设计,同时考虑到用户的日常拼写错误习惯,去除了音调、平翘舌和部分前后鼻音信息。
例如:“登录”在音素表中表示为:
<esp> 0
Sil 1
D 2
ENG 3
L 4
U 5
其中,0、1、2、3、4和5分别表示<esp>、Sil、D、ENG、L和U的索引;<esp>表示空,Sil表示静音,即状态的转移回到一个静音状态。
将所述音素序列转换为FST形式,得到待纠错文本对应的FST;
其中,所述待纠错文本对应的FST的输入标签与输出标签均为音素。
在实际应用时,相同发音的分词,对应的音素一样。例如“登录”与“登陆”的音素均为:D ENG L U;
因此,“登录”与“登陆”对应的FST一样,表现形式可以如图2所示。
本实施例将待纠错文本用FST表示,为后续的文本纠错奠定基础。
在上述各实施例的基础上,作为一种可选的实施例,所述预存的纠错模型的生成过程,包括:
将分词词典转换为FST形式,得到FST形式的分词词典;其中,所述分词词典中记录了分词与音素的映射关系;
图3是FST形式的分词词典的结构示例,主要以“登录”与“登陆”为主,图中<UNK>表示未知词,状态弧上的a:b/p中a表示输入标签,b表示输出标签,p表示权重,也可称为权值或概率。
可以很容易地看出,分词词典的FST形式,输入标签为音素、输出标签为词。
复合所述FST形式的分词词典和预存的专用语言模型,得到FST形式的纠错模型;其中,所述专用语言模型为FST形式的模型;
图4是预存的纠错模型的结构示例,主要以“登录”与“登陆”为主。同样从图中很容易看出,FST形式的纠错模型输入标签为音素、输出标签为词。
本发明欲借助专用语言模型来实现文本纠错,但是专用语言模型是由通用语料和待纠错文本所属领域的专属语料生成的,因此FST形式的专用语言模型的输入标签与输出标签只能为词。而待纠错文本对应的FST,输入标签与输出标签均为音素。在这种情况下,直接以FST形式的专用语言模型作为纠错模型,那么会导致待纠错文本对应的FST与纠错模型不能复合,进而导致不能利用纠错模型来进行待纠错文本的纠错。考虑到分词词典中记录了分词与音素的映射关系,分词词典可以自然地转换为输入标签为音素、输出标签为词的FST;故而将FST形式的分词词典和FST形式的专用语言模型进行复合,以得到输入标签为音素、输出标签为词的FST形式的纠错模型,为后续文本的纠错提供模型基础。
在上述各实施例的基础上,作为一种可选的实施例,所述预存的专用语言模型的生成方法,包括:
将所述通用语料与所述待纠错文本所属领域的专属语料进行插值模型训练,得到专用语言模型;
本发明可以利用KENLM工具包和SRILM工具包进行所述通用语料与所述待纠错文本所属领域的专属语料的插值模型训练,以得到特定领域下的统计语言模型(专用语言模型)。
以“登录”和“登陆”为例,利用KENLM工具包进行插值模型训练,可以利用下述程序进行:
\date\
ngram 1=4
ngram 2=4
ngram 3=1
\1-grams:
-0.30103 </s>
-99 <s> -0.30103
-0.4771213 登录 -0.1760913
-0.7781513 登陆 0
\2-grams:
-0.30103 <s> 登录 0
-0.60206 <s> 登陆
-0.17660913 登录 </s>
-0.30103 登陆 </s>
\3- grams:
-0.170913 <s> 登录</s>
\end\
上述程序中,ngram表示n元模型,即1-grams、2-grams、3- grams分别表示一元模型、二元模型和三元模型;
将专用语言模型转换为FST形式,得到所述预存的专用语言模型;其中,所述预存的专用语言模型的输入标签与输出标签均为词。
图5是预存的专用语言模型的结构示例,主要以“登录”与“登陆”为主。同样从图中很容易看出,FST形式的专用语言模输入标签与输出标签均为词。
本发明可以根据专用语言模型灵活的进行纠错结果选定方式的调整。
在上述各实施例的基础上,作为一种可选的实施例,所述搜索所述复合后的FST,得到待纠错文本的纠错结果,包括:
对所述复合后的FST进行搜索,确定所述复合后的FST中路径的条数;
图6是复合后的FST的结构示例图,主要以“登录”与“登陆”为主。同样从图中很容易看出,复合后的FST输入标签为音素,输出标签为词。
基于所述条数,对所述复合后的FST进行路径提取;
基于提取的路径,确定待纠错文本的纠错结果。
本发明中待纠错文本的最优纠错结果,为复合后的FST中最短的几条路径中的一条路径所对应的文本形式;因此将最短的几条路径提取出来,为进一步的识别提供方便。
在上述各实施例的基础上,作为一种可选的实施例,所述基于所述条数,对所述复合后的FST进行路径提取,包括:
在所述条数小于ε的情况下,提取所述复合后的FST中所有的路径;
在所述条数不小于ε的情况下,提取所述复合后的FST中路径最短的ε条路径;
其中,所述ε为预设值。
在本发明中,选择合适的ε值是尤为重要的,ε值选择的过小,可能会导致最优纠错结果的遗失,ε值选的过大,可能会增加无谓的计算。
本发明通过设定ε,并借助ε定位最优纠错结果所处的范围,以提高纠错效率。
在上述各实施例的基础上,作为一种可选的实施例,所述基于提取的路径,确定待纠错文本的纠错结果,包括:
计算提取的各条路径的权值和;
将权值和最小的路径对应的文本形式作为待纠错文本的纠错结果。
权值和也可以写为cost值。图7示例了 “登录”与“登陆”两条路径,“登录”对应的cost值的计算结果为2.48492;“登陆”对应的cost值的计算结果为3.46575;因此“登录”的cost较小,选择“登录”作为纠错结果。
cost值最小的路径,发生的概率最大,因此本实施例选择将cost值最小的路径对应的文本形式作为最终的纠错结果,以为纠错结果快速选定提供可行方法。
此外,在多条路径中确定最优纠错结果所对应的路径,选用的方法可以根据实际情况自由设定,本实施例仅提供一种可选方式。
由上述实施例可以知晓,基于有限状态转换器的文本纠错方法的实际执行流程可以采用图8所示的方式。
第二方面,对本发明提供的基于有限状态转换器的文本纠错装置进行描述,下文描述的基于有限状态转换器的文本纠错装置与上文描述的基于有限状态转换器的文本纠错方法可相互对照。图9示例了基于有限状态转换器的文本纠错装置的结构示意图,如图9所示,该装置包括:确定模块21、复合模块22和搜索模块23;
其中,所述确定模块21,用于基于预存的音素表,确定待纠错文本对应的FST;
所述复合模块22,用于将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;
所述搜索模块23,用于搜索所述复合后的FST,得到待纠错文本的纠错结果;
其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
本发明提供的一种基于有限状态转换器的文本纠错装置,基于音素表,将待纠错文本转换为以音素表示的FST;之后将FST与预存的纠错模型进行复合,得到复合后的FST;最后,采用路径搜索方式,从复合后的FST中得出待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。本发明提供的文本纠错方案,简单的利用FST形式的纠错模型即可实现快速的文本纠错。另外,本发明FST形式的纠错模型,无需数据标注,训练周期短,具备快速更新迭代的潜力,能够适应不同用户的定制化需求;此外,其针对不同领域的用户使用了不同领域的专属语料,保证了纠错的正确性。
在上述各实施例的基础上,作为一种可选的实施例,所述确定模块,包括:
分词单元,用于对待纠错文本进行分词,得到待纠错文本对应的分词序列;
分词-音素转换单元,用于根据所述音素表,将所述分词序列中的分词转换为音素,得到待纠错文本对应的音素序列;
第一FST转换单元,用于将所述音素序列转换为FST形式,得到待纠错文本对应的FST;
其中,所述待纠错文本对应的FST的输入标签与输出标签均为音素。
在上述各实施例的基础上,作为一种可选的实施例,所述装置还包括:预先生成所纠错模型的生成模块,所述生成模块,包括:
第二FST转换单元,用于将分词词典转换为FST形式,得到FST形式的分词词典;
第一复合单元,用于复合所述FST形式的分词词典和预存的专用语言模型,得到FST形式的纠错模型;
其中,所述分词词典中记录了分词与音素的映射关系,所述专用语言模型为FST形式的模型;
所述FST形式的分词词典和所述纠错模型,均以输入标签为音素、输出标签为词的形式展现的。
在上述各实施例的基础上,作为一种可选的实施例,所述生成模块还包括所述预存的专用语言模型的生成单元,所述生成单元,包括:
插值模型训练子模块,用于将所述通用语料与所述待纠错文本所属领域的专属语料进行插值模型训练,得到专用语言模型;
第一FST转换子模块,用于将专用语言模型转换为FST形式,得到所述预存的专用语言模型;
其中,所述预存的专用语言模型的输入标签与输出标签均为词。
在上述各实施例的基础上,作为一种可选的实施例,所述搜索模块,包括:
路径条数确定单元,用于对所述复合后的FST进行搜索,确定所述复合后的FST中路径的条数;
路径提取单元,用于基于所述条数,对所述复合后的FST进行路径提取;
纠错结果确定单元,用于基于提取的路径,确定待纠错文本的纠错结果。
在上述各实施例的基础上,作为一种可选的实施例,所述路径提取单元,用于:
在所述条数小于ε的情况下,提取所述复合后的FST中所有的路径;
在所述条数不小于ε的情况下,提取所述复合后的FST中路径最短的ε条路径;
其中,所述ε为预设值。
在上述各实施例的基础上,作为一种可选的实施例,所述纠错结果确定单元,包括:
计算子单元,用于计算提取的各条路径的权值和;
设定子单元,用于将权值和最小的路径对应的文本形式作为待纠错文本的纠错结果。
第三方面,图10示例了一种智能体的实体结构示意图,如图10所示,该智能体可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行基于有限状态转换器的文本纠错方法,该方法包括:基于预存的音素表,确定待纠错文本对应的FST;将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;搜索所述复合后的FST,得到待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于有限状态转换器的文本纠错方法,该方法包括:基于预存的音素表,确定待纠错文本对应的FST;将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;搜索所述复合后的FST,得到待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于有限状态转换器的文本纠错方法,其特征在于,所述方法包括:
基于预存的音素表,确定待纠错文本对应的FST;
将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;
搜索所述复合后的FST,得到待纠错文本的纠错结果;
其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
2.根据权利要求1所述的基于有限状态转换器的文本纠错方法,其特征在于,所述基于预存的音素表,确定待纠错文本对应的FST,包括:
对待纠错文本进行分词,得到待纠错文本对应的分词序列;
根据所述音素表,将所述分词序列中的分词转换为音素,得到待纠错文本对应的音素序列;
将所述音素序列转换为FST形式,得到待纠错文本对应的FST;
其中,所述待纠错文本对应的FST的输入标签与输出标签均为音素。
3.根据权利要求1所述的基于有限状态转换器的文本纠错方法,其特征在于,所述纠错模型的生成过程,包括:
将分词词典转换为FST形式,得到FST形式的分词词典;
复合所述FST形式的分词词典和预存的专用语言模型,得到所述纠错模型;
其中,所述分词词典中记录了分词与音素的映射关系,所述专用语言模型为FST形式的模型;
所述FST形式的分词词典和所述纠错模型,均以输入标签为音素、输出标签为词的形式展现。
4.根据权利要求3所述的基于有限状态转换器的文本纠错方法,其特征在于,所述预存的专用语言模型的生成方法,包括:
将所述通用语料与所述待纠错文本所属领域的专属语料进行插值模型训练,得到专用语言模型;
将专用语言模型转换为FST形式,得到所述预存的专用语言模型;
其中,所述预存的专用语言模型的输入标签与输出标签均为词。
5.根据权利要求1所述的基于有限状态转换器的文本纠错方法,其特征在于,所述搜索所述复合后的FST,得到待纠错文本的纠错结果,包括:
对所述复合后的FST进行搜索,确定所述复合后的FST中路径的条数;
基于所述条数,对所述复合后的FST进行路径提取;
基于提取的路径,确定待纠错文本的纠错结果。
6.根据权利要求5所述的基于有限状态转换器的文本纠错方法,其特征在于,所述基于所述条数,对所述复合后的FST进行路径提取,包括:
在所述条数小于ε的情况下,提取所述复合后的FST中所有的路径;
在所述条数不小于ε的情况下,提取所述复合后的FST中路径最短的ε条路径;
其中,所述ε为预设值。
7.根据权利要求5所述的基于有限状态转换器的文本纠错方法,其特征在于,所述基于提取的路径,确定待纠错文本的纠错结果,包括:
计算提取的各条路径的权值和;
将权值和最小的路径对应的文本形式作为待纠错文本的纠错结果。
8.一种基于有限状态转换器的文本纠错装置,其特征在于,所述装置包括:
确定模块,用于基于预存的音素表,确定待纠错文本对应的FST;
复合模块,用于将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;
搜索模块,用于搜索所述复合后的FST,得到待纠错文本的纠错结果;
其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于有限状态转换器的文本纠错方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于有限状态转换器的文本纠错方法。
CN202210292646.6A 2022-03-24 2022-03-24 一种基于有限状态转换器的文本纠错方法和装置 Active CN114398876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292646.6A CN114398876B (zh) 2022-03-24 2022-03-24 一种基于有限状态转换器的文本纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292646.6A CN114398876B (zh) 2022-03-24 2022-03-24 一种基于有限状态转换器的文本纠错方法和装置

Publications (2)

Publication Number Publication Date
CN114398876A true CN114398876A (zh) 2022-04-26
CN114398876B CN114398876B (zh) 2022-06-14

Family

ID=81235210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292646.6A Active CN114398876B (zh) 2022-03-24 2022-03-24 一种基于有限状态转换器的文本纠错方法和装置

Country Status (1)

Country Link
CN (1) CN114398876B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613214A (zh) * 2020-05-21 2020-09-01 重庆农村商业银行股份有限公司 一种用于提升语音识别能力的语言模型纠错方法
US20210280168A1 (en) * 2020-03-04 2021-09-09 Kabushiki Kaisha Toshiba Speech recognition error correction apparatus
WO2021212612A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 智能化文本纠错方法、装置、电子设备及可读存储介质
CN113779972A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210280168A1 (en) * 2020-03-04 2021-09-09 Kabushiki Kaisha Toshiba Speech recognition error correction apparatus
WO2021212612A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 智能化文本纠错方法、装置、电子设备及可读存储介质
CN111613214A (zh) * 2020-05-21 2020-09-01 重庆农村商业银行股份有限公司 一种用于提升语音识别能力的语言模型纠错方法
CN113779972A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN114398876B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
US10176804B2 (en) Analyzing textual data
EP3469585B1 (en) Scalable dynamic class language modeling
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN111881297A (zh) 语音识别文本的校正方法及装置
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN113051895A (zh) 语音识别的方法、装置、电子设备、介质和程序产品
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
KR101941692B1 (ko) 한국어 개체명 인식방법 및 장치
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
CN114444492B (zh) 一种非标准词类判别方法及计算机可读存储介质
CN110245331A (zh) 一种语句转换方法、装置、服务器及计算机存储介质
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
CN111090720B (zh) 一种热词的添加方法和装置
CN104641367A (zh) 用于格式化电子字符序列的格式化模块、系统和方法
CN113889115A (zh) 一种基于语音模型的方言转述方法及相关装置
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
JP2003162524A (ja) 言語処理装置
Dinarelli et al. Concept segmentation and labeling for conversational speech
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant