CN113553833A - 文本纠错的方法、装置及电子设备 - Google Patents
文本纠错的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113553833A CN113553833A CN202110735862.9A CN202110735862A CN113553833A CN 113553833 A CN113553833 A CN 113553833A CN 202110735862 A CN202110735862 A CN 202110735862A CN 113553833 A CN113553833 A CN 113553833A
- Authority
- CN
- China
- Prior art keywords
- text
- proper noun
- similar
- frequency
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000000052 comparative effect Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 23
- 238000012549 training Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了一种文本纠错的方法、装置及电子设备,涉及人工智能领域,具体涉及自然语言处理。具体实现方案为:根据原始文本和低频专有名词库生成第一相似专有名词;根据所述第一相似专有名词查询高频专有名词库以获取对比文本;将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。本公开实施例可以实现根据所述原始文本获取对应的所述修正文本。本公开实施例对所述原始文本中专有名词进行纠错,可以避免原始文本中错误的专有名词,提高文本纠错的准确率。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及自然语言处理,尤其涉及一种文本纠错的方法、装置及电子设备。
背景技术
在信息技术迅猛发展的今天,人与移动终端的交互也越来越来越频繁。现在移动终端已经能够理解自然语言,但是用户在向移动终端输入自然语言的同时不可避免地会出现输入错误,这样给移动终端理解用户的语义带来很大的障碍,所以对自然语言的输入进行文本纠错就具有非常重要的意义。
所述文本纠错是指对文本中出现错误的内容进行纠正的过程,现有文本纠错技术需要人工标注获取数据集,根据所述数据集训练纠错模型。当存在新的纠错类型时,需要重新对纠错模型进行训练,导致文本纠错的灵活性较差。
发明内容
本公开提供了一种文本纠错的方法、装置、电子设备以及存储介质。
根据本公开的第一方面,提供了一种文本纠错的方法,包括:
根据原始文本和低频专有名词库生成第一相似专有名词;
根据所述第一相似专有名词查询高频专有名词库以获取对比文本;
将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。
可选地,所述根据原始文本和低频专有名词库生成第一相似专有名词,包括:
根据所述原始文本获取待识别字段;
根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词。
可选地,所述根据所述原始文本获取待识别字段,包括:
令滑动窗口在所述原始文本上滑动,并获取所述待识别字段,所述待识别字段为滑动窗口中的文本。
可选地,所述根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词,包括:
获取所述待识别字段的拼音,并查询所述低频专有名词库以获取所述第一相似专有名词。
可选地,所述查询所述低频专有名词库以获取所述第一相似专有名词,包括:
获取所述待识别字段的拼音与低频专有名词的拼音之间的编辑距离,所述低频专有名词属于所述低频专有名词库;
将所述编辑距离最小的拼音对应的所述低频专有名词作为所述第一相似专有名词。
可选地,所述根据所述第一相似专有名词查询高频专有名词库以获取对比文本,包括:
根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词;
将所述原始文本中的所述待识别字段替换为所述第二相似专有名词,以获取所述对比文本。
可选地,所述根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词,包括:
获取所述第一相似专有名词的类别信息,根据所述类别信息获取所述第二相似专有名词,其中,所述第二相似专有名词属于所述高频专有名词库,且所述第二相似专有名词与所述第一相似专有名词的类别相同。
可选地,所述将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本,包括:
根据所述原始文本获取原始文本评分;
根据所述对比文本获取对比文本评分;
根据所述原始文本评分和所述对比文本评分生成所述修正文本。
可选地,所述根据所述原始文本评分和所述对比文本评分生成所述修正文本,包括:
如果所述原始文本评分小于所述对比文本评分,则将所述待识别字段替换为所述第一相似专有名词,以获取所述修正文本;
如果所述原始文本评分大于或等于所述对比文本评分,则将所述原始文本作为所述修正文本。
根据本公开的第二方面,提供了一种文本纠错的装置,包括:
相似专有名词获取模块,用于根据原始文本和低频专有名词库生成第一相似专有名词;
对比文本获取模块,用于根据所述第一相似专有名词查询高频专有名词库以获取对比文本;
文本修正模块,用于将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。
可选地,所述相似专有名词获取模块,包括:
文本分割子模块,用于根据所述原始文本获取待识别字段;
第一相似专有名词获取子模块,用于根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词。
可选地,所述文本分割子模块,包括:
文本分割单元,用于令滑动窗口在所述原始文本上滑动,并获取所述待识别字段,所述待识别字段为滑动窗口中的文本。
可选地,所述第一相似专有名词获取子模块,包括:
第一相似专有名词获取单元,用于获取所述待识别字段的拼音,并查询所述低频专有名词库以获取所述第一相似专有名词。
可选地,所述查询所述低频专有名词库以获取所述第一相似专有名词,包括:
编辑距离获取子单元,用于获取所述待识别字段的拼音与低频专有名词的拼音之间的编辑距离,所述低频专有名词属于所述低频专有名词库;
第一相似专有名词获取子单元,用于将所述编辑距离最小的拼音对应的所述低频专有名词作为所述第一相似专有名词。
可选地,所述对比文本获取模块,包括:
第二相似专有名词获取子模块,用于根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词;
对比文本获取子模块,用于将所述原始文本中的所述待识别字段替换为所述第二相似专有名词,以获取所述对比文本。
可选地,所述第二相似专有名词获取子模块,包括:
第二相似专有名词获取单元,用于获取所述第一相似专有名词的类别信息,根据所述类别信息获取所述第二相似专有名词,其中,所述第二相似专有名词属于所述高频专有名词库,且所述第二相似专有名词与所述第一相似专有名词的类别相同。
可选地,所述文本修正模块,包括:
第一评分子模块,用于根据所述原始文本获取原始文本评分;
第二评分子模块,用于根据所述对比文本获取对比文本评分;
文本修正子模块,用于根据所述原始文本评分和所述对比文本评分生成所述修正文本。
可选地,所述文本修正子模块,包括:
第一文本修正单元,如果所述原始文本评分小于所述对比文本评分,则用于将所述待识别字段替换为所述第一相似专有名词,以获取所述修正文本;
第二文本修正单元,如果所述原始文本评分大于或等于所述对比文本评分,则用于将所述原始文本作为所述修正文本。
根据本公开的第三方面,提供了一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述第一方面中任一项所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,其中,所述计算机指令用于使所述计算机执行所述第一方面中任一项所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现所述第一方面中任一项所述的方法。
本公开具有以下有益效果:
通过专有名词库中专有名词和原始文本中待识别字段的拼音获取相似专有名词,提高了文本纠错的准确率。
在不需要训练的情况下即可完成对专有名词的纠错,可以实时更新文本对比模型,无需再次训练,避免多次训练消耗时间,提高了文本对比模型的运行效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开提供的一种文本纠错方法的流程示意图;
图2是根据本公开提供的一种文本纠错方法的流程示意图;
图3是根据本公开提供的一种文本纠错方法的流程示意图;
图4是根据本公开提供的一种文本纠错方法的流程示意图;
图5是根据本公开提供的一种文本纠错方法的流程示意图;
图6是根据本公开提供的一种文本纠错方法的流程示意图;
图7是根据本公开提供的一种文本纠错装置的结构示意图;
图8是根据本公开提供的一种文本纠错装置的结构示意图;
图9是根据本公开提供的一种文本纠错装置的结构示意图;
图10是根据本公开提供的一种文本纠错装置的结构示意图;
图11是根据本公开提供的一种文本纠错装置的结构示意图;
图12是根据本公开提供的一种文本纠错装置的结构示意图;
图13是根据本公开提供的一种文本纠错装置的结构示意图;
图14是用来实现本公开实施例的文本纠错方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在日常获取的文本中常会因为意外而出现文本错误,所以我们需要文本纠错技术来进行纠正。所述文本纠错是指对文本中出现错误的内容进行纠正的过程。目前尚缺乏针对专有名词的文本纠错方法。
本公开的目的就是解决所述专有名词的文本纠错问题。只需要提供一定数量的专有名词(named entities,NE),组成专有名词库。根据所述专有名词库,即可在不经过模型训练的情况下,提升所述专有名词的产生概率,从而实现文本纠错。该技术可用于文本纠错中,尤其是语音识别和文章纠错功能中,在不对语音识别(Automatic speechrecognition,ASR)模型和文章语言模型(language model,LM)做训练的情况下,快速提升模型产生所提供专有名词的概率。
举例,“你是我的小泰阳”这句话是一个错误的文本,对应的正确文本应该是“你是我的小太阳”。我们希望在以下两个场景中使用该技术:
需要用到实时语音识别的场景,如同声传译中,有可能由于专有名词没有在ASR模型的训练数据中出现过,导致其产出概率低,会出现各种各样语音上相似的错误,如“肖态阳”、“笑胎养”等。如果在语音识别前期或语音识别正在进行中得到可能会用到的一系列专有名词,如“小太阳”。则可以将所述专有名词实时加入专有名词库,实时提升产出文本的准确率。
在对文章进行纠错的场景,如新闻稿修改中,撰写者可能因为打字错误输入错字,同样会出现拼音相似的错误,如“肖态阳”、“笑胎养”等。我们可以通过预先加入设定的专有名词,如“小太阳”,并提升所述专有名词的识别概率进行纠错,从而提高文本纠错的准确度,提升写作内容的可读性。
现有技术进行文本纠错的方法为:搜索包含所需NE的相关样本,进行微调训练以获取语音识别模型。现有技术需要人工标注,耗时费力。且需要训练之后才能获取所述纠错模型,无法立即生效。并且训练所述语音识别模型有可能由于新数据的混入而被出现偏差,纠错效率可能降低。
图1为根据本公开提供的一种文本纠错方法的流程示意图,如图1所示,所述文本纠错方法包括:
步骤101:根据原始文本和低频专有名词库生成第一相似专有名词。
在本公开的一些实施例中,所述原始文本可以由语音识别模型识别语音得到,或者,可以由手动输入得到。本实施例对所述原始文本的获取方法不做限制。
所述低频专有名词库中包含低频专有名词,所述低频专有名词在特定场景下出现可能性大,但是在一般场景中出现的可能性较小。所述低频专有名词库可以由实施者根据应用场景实时调整,本实施例不对低频专有名词库中的低频专有名词进行限制。
步骤102:根据所述第一相似专有名词查询高频专有名词库以获取对比文本。
在本公开的一些实施例中,所述高频专有名词库中包含高频专有名词,所述高频专有名词是在一般场景中出现可能性较高的专有名词,选取所述高频专有名词获取对比文本,后续获取的对比文本评分会更加准确,提高纠错的准确度。
步骤103:将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。
文本对比模型用于对所述原始文本和所述对比文本进行评分,判断是否需要修改原始文本中的词语。所述文本对比模型为掩码语言模型(Masked Language Model,MLM),为自监督模型,其训练方法为:以句子为数据集,将数据集中的一部分字符去除,根据句子中剩下的部分预测被去除的字符是什么,输出概率,也即评分。
图2为根据本公开提供的一种文本纠错方法的流程示意图,如图2所示,所述文本纠错方法包括:
步骤201:根据所述原始文本获取待识别字段。
步骤202:根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词。
在一些可能的实施方式中,查询低频专有名词库,获取低频专有名词的拼音,根据所述低频专有名词的拼音与待识别字段的拼音之间的编辑距离获取第一相似专有名词。
可选地,所述根据所述原始文本获取待识别字段,包括:
令滑动窗口在所述原始文本上滑动,并获取所述待识别字段,所述待识别字段为滑动窗口中的文本。
在一些可能的实施方式中,所述原始文本为“你是我的小泰阳”,滑动窗口长度为3个字符,则所述待识别字段包含“你是我”、“是我的”、“我的小”、“的小泰”、“小泰阳”。
需要说明的是,所述滑动窗口的长度可由实施者根据实际情况进行调整,本公开不对所述滑动窗口的长度进行限制。
可选地,所述根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词,包括:
获取所述待识别字段的拼音,并查询所述低频专有名词库以获取所述第一相似专有名词。
编辑距离,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。这里的编辑距离指从所述待识别字段的拼音转换到所述低频专有名词的拼音需要经过最少编辑操作次数。
在一些可能的实施方式中,“小泰阳”为待识别字段,拼音为“xiaotaiyang”;低频专有名词“小太阳”的拼音为“xiaotaiyang”,所述编辑距离为0。所以所述“小太阳”即为所述第一相似专有名词。
图3为根据本公开提供的一种文本纠错方法的流程示意图,如图3所示,所述文本纠错方法包括:
步骤301:获取所述待识别字段的拼音与低频专有名词的拼音之间的编辑距离,所述低频专有名词属于所述低频专有名词库。
编辑距离,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。这里的编辑距离指从所述待识别字段的拼音转换到所述低频专有名词的拼音需要经过最少编辑操作次数。
步骤302:将所述编辑距离最小的拼音对应的所述低频专有名词作为所述第一相似专有名词。
在一些可能的实施方式中,“小泰阳”为待识别字段,拼音为“xiaotaiyang”;低频专有名词“小太阳”的拼音为“xiaotaiyang”,所述编辑距离为0。所以所述“小太阳”即为所述第一相似专有名词。
图4为根据本公开提供的一种文本纠错方法的流程示意图,如图4所示,所述文本纠错方法包括:
步骤401:根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词。
如果将待识别字段替换为第一相似专有名词,并将替换后的句子输入所述文本对比模型,由于第一相似专有名词在一般场景下出现的频率较低,得到的评分不一定反映所述相似专有名词适合句子的程度。所以本公开根据第一相似专有名词获取第二相似专有名词。所述第二相似专有名词与所述第一相似专有名词类别一致,出现频率较高,可以反映出该类别的词语替换所述待识别字段的合适程度。
步骤402:将所述原始文本中的所述待识别字段替换为所述第二相似专有名词,以获取所述对比文本。
可选地,所述根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词,包括:
获取所述第一相似专有名词的类别信息,根据所述类别信息获取所述第二相似专有名词,其中,所述第二相似专有名词属于所述高频专有名词库,且所述第二相似专有名词与所述第一相似专有名词的类别相同。
如果将待识别字段替换为第一相似专有名词,并将替换后的句子输入所述文本对比模型,由于第一相似专有名词在一般场景下出现的频率较低,得到的评分不一定反映所述相似专有名词适合句子的程度。所以本公开根据第一相似专有名词获取第二相似专有名词。所述第二相似专有名词与所述第一相似专有名词类别一致,出现频率较高,可以反映出该类别的词语替换所述待识别字段的合适程度。
图5为根据本公开提供的一种文本纠错方法的流程示意图,如图5所示,所述文本纠错方法包括:
步骤501:根据所述原始文本获取原始文本评分。
步骤502:根据所述对比文本获取对比文本评分。
步骤503:根据所述原始文本评分和所述对比文本评分生成所述修正文本。
文本对比模型用于对所述原始文本和所述对比文本进行评分,判断是否需要修改原始文本中的词语。所述文本对比模型为掩码语言模型(Masked Language Model,MLM),为自监督模型,其训练方法为:以句子为数据集,将数据集中的一部分字符去除,根据句子中剩下的部分预测被去除的字符是什么,输出概率,也即评分。
图6为根据本公开提供的一种文本纠错方法的流程示意图,如图6所示,所述文本纠错方法包括:
步骤601:如果所述原始文本评分小于所述对比文本评分,则将所述待识别字段替换为所述第一相似专有名词,以获取所述修正文本。
步骤602:如果所述原始文本评分大于或等于所述对比文本评分,则将所述原始文本作为所述修正文本。
如果所述原始文本评分小于所述对比文本评分,说明第一相似专有名词的类别更适合原始文本,需要将所述原始文本中的所述待识别字段替换为拼音相近的低频专有名词,也即所述第一相似专有名词。
如果所述原始文本评分大于或等于所述对比文本评分,说明所述待识别字段更适合原始文本,不需要将所述原始文本中的所述待识别字段替换为所述第一相似专有名词。
通过专有名词库中专有名词和原始文本中待识别字段的拼音获取相似专有名词,提高了文本纠错的准确率。
在不需要训练的情况下即可完成对专有名词的纠错,可以实时更新文本对比模型,无需再次训练,避免多次训练消耗时间,提高了文本对比模型的运行效率。
本公开还提供了一种文本纠错的装置,图7为根据本公开提供的一种文本纠错装置的结构示意图。
如图7所示,所述文本纠错装置700包括:
相似专有名词获取模块710,用于根据原始文本和低频专有名词库生成第一相似专有名词。
对比文本获取模块720,用于根据所述第一相似专有名词查询高频专有名词库以获取对比文本。
文本修正模块730,用于将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。
图8为根据本公开提供的一种文本纠错装置的结构示意图。
如图8所示,所述文本纠错装置800包括:
文本分割子模块810,用于根据所述原始文本获取待识别字段。
第一相似专有名词获取子模块820,用于根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词。
可选地,所述文本分割子模块,包括:
文本分割单元,用于令滑动窗口在所述原始文本上滑动,并获取所述待识别字段,所述待识别字段为滑动窗口中的文本。
可选地,所述第一相似专有名词获取子模块,包括:
第一相似专有名词获取单元,用于获取所述待识别字段的拼音,并查询所述低频专有名词库以获取所述第一相似专有名词。
图9为根据本公开提供的一种文本纠错装置的结构示意图。
如图9所示,所述文本纠错装置900包括:
编辑距离获取子单元910,用于获取所述待识别字段的拼音与低频专有名词的拼音之间的编辑距离,所述低频专有名词属于所述低频专有名词库。
第一相似专有名词获取子单元920,用于将所述编辑距离最小的拼音对应的所述低频专有名词作为所述第一相似专有名词。
图10为根据本公开提供的一种文本纠错装置的结构示意图。
如图10所示,所述文本纠错装置1000包括:
第二相似专有名词获取子模块1010,用于根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词。
对比文本获取子模块1020,用于将所述原始文本中的所述待识别字段替换为所述第二相似专有名词,以获取所述对比文本。
可选地,所述第二相似专有名词获取子模块,包括:
第二相似专有名词获取单元,用于获取所述第一相似专有名词的类别信息,根据所述类别信息获取所述第二相似专有名词,其中,所述第二相似专有名词属于所述高频专有名词库,且所述第二相似专有名词与所述第一相似专有名词的类别相同。
图11为根据本公开提供的一种文本纠错装置的结构示意图。
如图11所示,所述文本纠错装置1100包括:
第一评分子模块1110,用于根据所述原始文本获取原始文本评分。
第二评分子模块1120,用于根据所述对比文本获取对比文本评分。
文本修正子模块1130,用于根据所述原始文本评分和所述对比文本评分生成所述修正文本。
图12为根据本公开提供的一种文本纠错装置的结构示意图。
如图12所示,所述文本纠错装置1200包括:
第一文本修正单元1210,如果所述原始文本评分小于所述对比文本评分,则用于将所述待识别字段替换为所述第一相似专有名词,以获取所述修正文本。
第二文本修正单元1220,如果所述原始文本评分大于或等于所述对比文本评分,则用于将所述原始文本作为所述修正文本。
通过专有名词库中专有名词和原始文本中待识别字段的拼音获取相似专有名词,提高了文本纠错的准确率。
在不需要训练的情况下即可完成对专有名词的纠错,可以实时更新文本对比模型,无需再次训练,避免多次训练消耗时间,提高了文本对比模型的运行效率。
图13为根据本公开提供的一种文本纠错装置的结构示意图。
如图所示,1310为掩码语言模型(Masked language model,MLM),NE-Sub为所述高频专有名词库,其中所述MLM为用于迁移模型编码器(Bidirectional EncoderRepresentation from Transformers,BERT)训练的成熟模型,NE-Sub中包含一系列在语言模型训练过程中出现的高频专有名词。所述MLM为自监督任务,遮住句子中的一个词语,基于剩余的词语来预测它。NE-Candidates为所述低频专有名词库,用户可以根据想要纠错的目标实时修改所述NE-Candidates。
在一种可能的实施例中,原句“你是我的小泰阳”中,我们用滑动窗口找出ASR结果中的每个部分,即asr-seg:{“你是我”、“是我的”、“我的小”、“的小泰”、“小泰阳”}中,是否有词和NE-Candidates中的“小太阳”拼音相近,当检测到“小泰阳”和“小太阳”拼音相近后,我们找到“小太阳”对应的类别,即天体名称。获取在NE-Sub中类别为天体名称的NE,即“小月亮”。将所述原句中的“小泰阳”替换“小月亮”,获取替换专有名词后的句子“你是我的小月亮”。将“你是我的小泰阳”输入所述MLM,得到原始文本评分Score-ori;将“你是我的小月亮”输入所述MLM,得到对比文本评分Score-ne。
比较以上两个句子的打分,如果Score-ori<Score-ne,则表示asr-seg处应该替换为该类型,即天体名称的NE,于是我们选用NE-Candidates列表中对应NE“小太阳”来代替原句中的asr-seg,原句变为“你是我的小太阳”,即修正文本。
通过专有名词库中专有名词和原始文本中待识别字段的拼音获取相似专有名词,提高了文本纠错的准确率。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如文本纠错方法。例如,在一些实施例中,文本纠错方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的文本纠错方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本纠错方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (21)
1.一种文本纠错的方法,其特征在于,包括:
根据原始文本和低频专有名词库生成第一相似专有名词;
根据所述第一相似专有名词查询高频专有名词库以获取对比文本;
将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。
2.根据权利要求1所述的方法,所述根据原始文本和低频专有名词库生成第一相似专有名词,包括:
根据所述原始文本获取待识别字段;
根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词。
3.根据权利要求2所述的方法,所述根据所述原始文本获取待识别字段,包括:
令滑动窗口在所述原始文本上滑动,并获取所述待识别字段,所述待识别字段为滑动窗口中的文本。
4.根据权利要求2所述的方法,所述根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词,包括:
获取所述待识别字段的拼音,并查询所述低频专有名词库以获取所述第一相似专有名词。
5.根据权利要求4所述的方法,所述查询所述低频专有名词库以获取所述第一相似专有名词,包括:
获取所述待识别字段的拼音与低频专有名词的拼音之间的编辑距离,所述低频专有名词属于所述低频专有名词库;
将所述编辑距离最小的拼音对应的所述低频专有名词作为所述第一相似专有名词。
6.根据权利要求1或2所述的方法,所述根据所述第一相似专有名词查询高频专有名词库以获取对比文本,包括:
根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词;
将所述原始文本中的所述待识别字段替换为所述第二相似专有名词,以获取所述对比文本。
7.根据权利要求6所述的方法,所述根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词,包括:
获取所述第一相似专有名词的类别信息,根据所述类别信息获取所述第二相似专有名词,其中,所述第二相似专有名词属于所述高频专有名词库,且所述第二相似专有名词与所述第一相似专有名词的类别相同。
8.根据权利要求1所述的方法,所述将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本,包括:
根据所述原始文本获取原始文本评分;
根据所述对比文本获取对比文本评分;
根据所述原始文本评分和所述对比文本评分生成所述修正文本。
9.根据权利要求8所述的方法,所述根据所述原始文本评分和所述对比文本评分生成所述修正文本,包括:
如果所述原始文本评分小于所述对比文本评分,则将所述待识别字段替换为所述第一相似专有名词,以获取所述修正文本;
如果所述原始文本评分大于或等于所述对比文本评分,则将所述原始文本作为所述修正文本。
10.一种文本纠错的装置,其特征在于,包括:
相似专有名词获取模块,用于根据原始文本和低频专有名词库生成第一相似专有名词;
对比文本获取模块,用于根据所述第一相似专有名词查询高频专有名词库以获取对比文本;
文本修正模块,用于将所述原始文本和所述对比文本输入文本对比模型,并获取所述原始文本对应的修正文本。
11.根据权利要求10所述的装置,所述相似专有名词获取模块,包括:
文本分割子模块,用于根据所述原始文本获取待识别字段;
第一相似专有名词获取子模块,用于根据所述待识别字段和所述低频专有名词库获取所述第一相似专有名词。
12.根据权利要求11所述的装置,所述文本分割子模块,包括:
文本分割单元,用于令滑动窗口在所述原始文本上滑动,并获取所述待识别字段,所述待识别字段为滑动窗口中的文本。
13.根据权利要求11所述的装置,所述第一相似专有名词获取子模块,包括:
第一相似专有名词获取单元,用于获取所述待识别字段的拼音,并查询所述低频专有名词库以获取所述第一相似专有名词。
14.根据权利要求13所述的装置,所述查询所述低频专有名词库以获取所述第一相似专有名词,包括:
编辑距离获取子单元,用于获取所述待识别字段的拼音与低频专有名词的拼音之间的编辑距离,所述低频专有名词属于所述低频专有名词库;
第一相似专有名词获取子单元,用于将所述编辑距离最小的拼音对应的所述低频专有名词作为所述第一相似专有名词。
15.根据权利要求10或11所述的装置,所述对比文本获取模块,包括:
第二相似专有名词获取子模块,用于根据所述第一相似专有名词查询高频专有名词库,以获取第二相似专有名词;
对比文本获取子模块,用于将所述原始文本中的所述待识别字段替换为所述第二相似专有名词,以获取所述对比文本。
16.根据权利要求15所述的装置,所述第二相似专有名词获取子模块,包括:
第二相似专有名词获取单元,用于获取所述第一相似专有名词的类别信息,根据所述类别信息获取所述第二相似专有名词,其中,所述第二相似专有名词属于所述高频专有名词库,且所述第二相似专有名词与所述第一相似专有名词的类别相同。
17.根据权利要求10所述的装置,所述文本修正模块,包括:
第一评分子模块,用于根据所述原始文本获取原始文本评分;
第二评分子模块,用于根据所述对比文本获取对比文本评分;
文本修正子模块,用于根据所述原始文本评分和所述对比文本评分生成所述修正文本。
18.根据权利要求17所述的装置,所述文本修正子模块,包括:
第一文本修正单元,如果所述原始文本评分小于所述对比文本评分,则用于将所述待识别字段替换为所述第一相似专有名词,以获取所述修正文本;
第二文本修正单元,如果所述原始文本评分大于或等于所述对比文本评分,则用于将所述原始文本作为所述修正文本。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735862.9A CN113553833B (zh) | 2021-06-30 | 2021-06-30 | 文本纠错的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735862.9A CN113553833B (zh) | 2021-06-30 | 2021-06-30 | 文本纠错的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553833A true CN113553833A (zh) | 2021-10-26 |
CN113553833B CN113553833B (zh) | 2024-01-19 |
Family
ID=78131127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110735862.9A Active CN113553833B (zh) | 2021-06-30 | 2021-06-30 | 文本纠错的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553833B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239559A (zh) * | 2021-11-15 | 2022-03-25 | 北京百度网讯科技有限公司 | 文本纠错和文本纠错模型的生成方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050283364A1 (en) * | 1998-12-04 | 2005-12-22 | Michael Longe | Multimodal disambiguation of speech recognition |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111428494A (zh) * | 2020-03-11 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 专有名词的智能纠错方法、装置、设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112395861A (zh) * | 2020-11-18 | 2021-02-23 | 平安普惠企业管理有限公司 | 中文文本的纠错方法、装置和计算机设备 |
CN112580324A (zh) * | 2020-12-24 | 2021-03-30 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备以及存储介质 |
-
2021
- 2021-06-30 CN CN202110735862.9A patent/CN113553833B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050283364A1 (en) * | 1998-12-04 | 2005-12-22 | Michael Longe | Multimodal disambiguation of speech recognition |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111428494A (zh) * | 2020-03-11 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 专有名词的智能纠错方法、装置、设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112395861A (zh) * | 2020-11-18 | 2021-02-23 | 平安普惠企业管理有限公司 | 中文文本的纠错方法、装置和计算机设备 |
CN112580324A (zh) * | 2020-12-24 | 2021-03-30 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备以及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239559A (zh) * | 2021-11-15 | 2022-03-25 | 北京百度网讯科技有限公司 | 文本纠错和文本纠错模型的生成方法、装置、设备和介质 |
CN114239559B (zh) * | 2021-11-15 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本纠错和文本纠错模型的生成方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553833B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597753A (zh) | 文本纠错处理方法、装置、电子设备和存储介质 | |
CN112926306B (zh) | 文本纠错方法、装置、设备以及存储介质 | |
CN112560846B (zh) | 纠错语料的生成方法、装置及电子设备 | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
CN113408272A (zh) | 摘要生成模型的训练方法、装置、设备和存储介质 | |
CN113836925A (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN114861637B (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN113850080A (zh) | 一种押韵词推荐方法、装置、设备及存储介质 | |
CN114417879A (zh) | 跨语言文本语义模型的生成方法、装置及电子设备 | |
CN113553833B (zh) | 文本纠错的方法、装置及电子设备 | |
CN113361523A (zh) | 文本确定方法、装置、电子设备和计算机可读存储介质 | |
CN114282551B (zh) | 翻译方法、装置、电子设备及存储介质 | |
CN115600592A (zh) | 文本内容的关键信息提取方法、装置、设备及介质 | |
CN114417862A (zh) | 文本匹配方法、文本匹配模型的训练方法和装置 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN114841172A (zh) | 文本匹配双塔模型的知识蒸馏方法、装置及程序产品 | |
CN114048733A (zh) | 文本纠错模型的训练方法、文本纠错方法及装置 | |
CN114549695A (zh) | 图像生成方法、装置、电子设备及可读存储介质 | |
CN113641724A (zh) | 知识标签挖掘方法、装置、电子设备及存储介质 | |
CN116244432B (zh) | 语言模型的预训练方法、装置及电子设备 | |
CN112466278B (zh) | 语音识别方法、装置和电子设备 | |
CN113255332B (zh) | 文本纠错模型的训练与文本纠错方法、装置 | |
CN114896993B (zh) | 翻译模型的生成方法、装置、电子设备及存储介质 | |
CN115730586A (zh) | 答案的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |