CN112883718A - 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 - Google Patents
基于汉字音形相似性的拼写纠错方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN112883718A CN112883718A CN202110460497.5A CN202110460497A CN112883718A CN 112883718 A CN112883718 A CN 112883718A CN 202110460497 A CN202110460497 A CN 202110460497A CN 112883718 A CN112883718 A CN 112883718A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- similarity
- chinese
- error correction
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提出了基于汉字音形相似性的拼写纠错方法、装置以及电子设备,包括根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。由于汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可;能够有效降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。
Description
技术领域
本申请涉及文本纠错领域,尤其涉及基于汉字音形相似性的拼写纠错方法、装置以及电子设备。
背景技术
中文光学汉字识别(OCR)和自动语音识别(ASR)等场景中,因汉字音形相似可能引起识别错误。一般通过添加ASR、OCR等模型输出的后处理模块(中文拼写纠错)可解决大量错误。
为了减少搜索遍历次数引入了BK(Burkhard-Keller)树结构。BK树基于正确词库之间的汉字串汉字转换成本构建树形结构,后续基于该树形结构快速搜索相近(汉字转换成本)汉字串。相对于遍历词库,BK树搜索可大大提升性能。但它还存在如下不足:
(1)BK树结构主要支持天然分词场景(分词一般搜索场景下才易得,其他场景下几乎无法获取正确分词结果),使用范围有限;
(2)BK树纠错需要实时计算两汉字串之间的汉字转换成本,在树深度较深的情况下,性能较差;
(3)随着领域词典变大,BK树变深,将导致性能急剧下降;
(4)BK树检索范围随着错误汉字数量阈值变大急剧变大,性能也将急剧下降。BK树相似检索虽然是一种合理的中文拼写错误干预方法,但它存在性能不足和使用范围的局限性问题。
发明内容
本申请实施例提出了基于汉字音形相似性的拼写纠错方法,由于本身不涉及层级间的节点计算过程,从而降低数据计算压力。
具体的,根据本公开实施例的第一方面,本申请实施例提出的基于汉字音形相似性的拼写纠错方法包括:
根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
可选的,所述基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
结合相似度超参数构建如公式一所示的相似度计算公式,
可选的,所述方法还包括在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:
对样本汉字集合中的汉字字形信息进行筛选。
可选的,所述接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
接收待纠错文本;
判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
可选的,所述获取音形信息高于预设相似度阈值的候选词对目标汉字进行替换,包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
可选的,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
将目标汉字逐个与候选词中的汉字进行比对处理;
如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
可选的,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
相似度小于设定阈值,从候选纠错集中删除。
根据本公开实施例的第二方面,本申请实施例还提出基于汉字音形相似性的拼写纠错装置,包括:
汉字集合生成单元,用于根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
汉字集合匹配单元,用于基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
汉字纠错替换单元,用于接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
可选的,所述汉字集合匹配单元,包括:
相似度计算子单元,用于结合相似度超参数构建如公式一所示的相似度计算公式,
可选的,所述拼写纠错装置还包括:
汉字筛选单元,用于对样本汉字集合中的汉字字形信息进行筛选。
可选的,所述汉字纠错替换单元,包括:
文本接收子单元,用于接收待纠错文本;
候选词判断子单元,用于判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
汉字替换子单元,用于如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
可选的,所述汉字替换子单元,包括:
领域词生成一级子单元,用于生成以目标汉字为开头的所有可能的领域词集合;
领域词保存一级子单元,用于以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
汉字替换一级子单元,用于以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
可选的,所述汉字替换一级子单元,包括:
得分更新二级子单元,用于当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
汉字比对二级子单元,用于将目标汉字逐个与候选词中的汉字进行比对处理;
候选词删除二级子单元,用于如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
可选的,所述汉字替换一级子单元,包括:
候选词删除二级子单元,还用于相似度小于设定阈值,从候选纠错集中删除。
根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行基于汉字音形相似性的拼写纠错方法的步骤。
根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行基于汉字音形相似性的拼写纠错的步骤。
有益效果:
本申请实施例提出的汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可,同时还能降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的基于汉字音形相似性的拼写纠错方法的流程示意图;
图2为本申请实施例提出的倒排索引示意图;
图3为本申请实施例提出的基于汉字音形相似性的拼写纠错装置的结构示意图;
图4为本申请实施例提出的一种电子设备的结构示意图。
具体实施方式
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
具体的,如图1所示,本申请实施例提出的基于汉字音形相似性的拼写纠错方法包括:
S1,根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
S2,基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
S3,接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
在实施中,为了实现汉字纠错,本申请实施例提出的纠错方法的主要实施思路为:汉字发音和字形信息获取、候选汉字与标准汉字数据库映射关系的倒排生成、离线汉字转换成本纠错算法的实现。
相对于现有的为减少搜索遍历次数而引入的BK(Burkhard-Keller)树结构,本申请提出的技术方案所涉及的汉字转换成本计算都只发生在音形编辑初始过程中,纠错算法中不涉及计算,只需从预先加载的汉字与词典的映射字典取出即可;而BK树中文纠错算法从树顶层往下不断对比(实时汉字转换成本计算),遍历数量多,总体计算量更大。
具体的,步骤S1提出的构建样本汉字集合的具体内容,包括:
S11从标准汉字数据库中选取样本汉字;
S12获取样本汉字在标准汉字库中的拼音信息,将拼音信息分解为音节和数值化的音调参数;
S13获取样本汉字在标准汉字库中的字形信息,将字形信息分解为符合书写规范的笔顺名称。
在实施中,获取常用汉字的拼音信息和字形信息。
其中,拼音信息包括声母、韵母和音调(不同的音调使用数字进行区分)。字形信息即为汉字笔顺。例如,“中”的拼音信息和字形信息分别如下:
{
"汉字": "中",
"拼音信息": "zhong1,zhong4",
"字形信息": "竖,横折,横,竖"
}
多音字会记录多个拼音信息,上述拼音zhong后的数字1、4分别表示该汉字有一声、四声两种发音方式。
相对于英文单词,不同的汉字之间除了在字形上存在区别以外,在发音上也会存在较大差异,因此为了能够提升汉字纠错的正确率,本申请针对汉字的特性提出了包括拼音和字形两类信息作为后续纠错行为的对比标准。
步骤S2提出的得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
S22结合相似度超参数构建如公式一所示的相似度计算公式,
在实施中,为了实现汉字的纠错,在纠错前需要建立错误汉字与正确汉字之间的
映射关系,本步骤提出了基于错误汉字转换为正确汉字之间的最小编辑次数作为汉字转换
成本的方式建立针对汉字的相似汉字集合的处理步骤。其中相似汉字集合中包括了将
汉字替换为多种汉字的映射关系。
为了得到相似汉字集合,步骤S2中提出了基于公式一计算汉字与汉字之间
相似度的计算步骤,并引入概念用于表示两个汉字和之间的汉字
转换成本。这里提出的汉字转换成本是指两个汉字或词组之间,由一个转成另一个所需要
的最少编辑操作次数。本申请实施例中涉及的编辑操作包括:将一个汉字替换成另一个汉
字,插入一个汉字或者删除一个汉字。
在根据步骤S21至S24提出的技术方案得到的相似汉字集合中,不仅包含了例如
“中”与“种”此类的映射关系,还包括了该类映射关系的相似度数值。此处的相似度数值表
示将“中”进行纠错替换为“种”的可能性高低。为了避免引入过多噪声导致纠错面过大,在
得到相似汉字集合前还可以通过引入相似度阈值对映射关系对应的相似度进行过滤,仅
保留高于相似度阈值的映射关系。
由于在执行步骤S22的过程中可选使用汉字的拼音信息或者字形信息,但是考虑到笔顺的相似信息严格程度不及拼音相似度,因此在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:对样本汉字集合中的汉字字形信息进行筛选。目的在于基于开源形近混淆集对当前结果进一步过滤或人工复核这部分知识,并将那些不合理的相似形近字去除,从而提升后续纠错的准确性。
步骤S3提出的结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
S31接收待纠错文本;
S32判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
S33如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
在实施中,基于前述技术方案已建立的相似汉字集合进行汉字纠错时,仅需要判断相似汉字集合中是否有对应目标汉字的纠错内容,并按相似度高低进行排序优选相似度较高的纠错内容对目标汉字进行纠错替换即可。
具体的S33提出的技术方案具体包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
在实施中,为了对目标汉字进行纠错,首先判断目标汉字是否存在于相似汉字集合中。如果存在则选出相似汉字集合中以目标汉字为首的全部领域词集合以及目标汉字与每个领域词的相似度。进而优先选取相似度高于预设相似度阈值的候选词对目标汉字进行替换。
进一步的针对上述步骤S333提出的替换操作,具体包括:
步骤一,当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
步骤二,将目标汉字逐个与候选词中的汉字进行比对处理;
步骤三,如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
在实施中,考虑到针对同一个目标汉字的最佳纠错内容并非相似度最高领域词的情况,本申请实施例提出的纠错方案中提出了候选纠错集合的概念。即将以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合中,作为二次纠错的备选范围。如果相似度小于设定阈值,则表明该领域词作为纠错待选内容的可能性较低,可从候选纠错集中删除。
接着将目标汉字逐个与候选词中的汉字进行比对处理。如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。取前向最长最相似的结果,并基于该结果对待纠错文本相应片段进行纠正。输出得到纠正后的文本。
以金融领域词典为例,它包含正确关键词“无形资产”。四个标准汉字“无”、“形”、“资”、“产”对应的发音相似集合分别为:
[无,吴,0.99], [无,务,0.94]
[形,行,0.99], [形,兴,0.94]
[资,咨,0.99], [资,自,0.94]
[产,阐,0.99], [产,谗,0.94]
对应数值表示两汉字之间的发音相似度。构建每个字及其在词中出现位置到词的倒排索引,详情如图2所示。
其中,数值对应召回得分。接收到待纠错文本“无行资产怎么解释”,结合上述倒排索引文件和待纠错文本,从左到右逐个字符扫描待纠错文本。在扫描“无”时,基于“无##1”召回“无形资产”,得分记为1,并得到纠错候选集“无形资产”;扫描“行”时,基于“行##1”没有召回任何结果,再考虑纠错候选集中“无形资产”在“行##2”是否有得分,继续对其追加得分0.99,总分变为1.99;…;在“产”结束时,最终计算出“无形资产”的得分为1+0.99+1+1=3.99,此时“无形资产”所有字符位置处都已找到相似字符,最终结果为将“无行资产”纠正为“无形资产”;且后面几个字符再未召回任何结果。
实施例二
根据本公开实施例的第二方面,本申请实施例还提出基于汉字音形相似性的拼写纠错装置2,如图3所示,包括:
汉字集合生成单元21,用于根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
汉字集合匹配单元22,用于基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
汉字纠错替换单元23,用于接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
在实施中,为了实现汉字纠错,本申请实施例提出的纠错方法的主要实施思路为:汉字发音和字形信息获取、候选汉字与标准汉字数据库映射关系的倒排生成、离线汉字转换成本纠错算法的实现。
相对于现有的为减少搜索遍历次数而引入的BK(Burkhard-Keller)树结构,本申请提出的技术方案所涉及的汉字转换成本计算都只发生在音形编辑初始过程中,纠错算法中不涉及计算,只需从预先加载的汉字与词典的映射字典取出即可;而BK树中文纠错算法从树顶层往下不断对比(实时汉字转换成本计算),遍历数量多,总体计算量更大。
具体的,汉字集合生成单元21执行的构建样本汉字集合的具体内容,包括:
从标准汉字数据库中选取样本汉字;
获取样本汉字在标准汉字库中的拼音信息,将拼音信息分解为音节和数值化的音调参数;
获取样本汉字在标准汉字库中的字形信息,将字形信息分解为符合书写规范的笔顺名称。
在实施中,获取常用汉字的拼音信息和字形信息。
其中,拼音信息包括声母、韵母和音调(不同的音调使用数字进行区分)。字形信息即为汉字笔顺。例如,“中”的拼音信息和字形信息分别如下:
{
"汉字": "中",
"拼音信息": "zhong1,zhong4",
"字形信息": "竖,横折,横,竖"
}
多音字会记录多个拼音信息,上述拼音zhong后的数字1、4分别表示该汉字有一声、四声两种发音方式。
相对于英文单词,不同的汉字之间除了在字形上存在区别以外,在发音上也会存在较大差异,因此为了能够提升汉字纠错的正确率,本申请针对汉字的特性提出了包括拼音和字形两类信息作为后续纠错行为的对比标准。
可选的,所述汉字集合匹配单元22,包括:
相似度计算子单元,用于结合相似度超参数构建如公式一所示的相似度计算公式,
在实施中,为了实现汉字的纠错,在纠错前需要建立错误汉字与正确汉字之间的
映射关系,本步骤提出了基于错误汉字转换为正确汉字之间的最小编辑次数作为汉字转换
成本的方式建立针对汉字的相似汉字集合的处理步骤。其中相似汉字集合中包括了将
汉字替换为多种汉字的映射关系。
为了得到相似汉字集合,汉字集合匹配单元22中提出了基于公式一计算汉字
与汉字之间相似度的计算步骤,并引入概念用于表示两个汉字和之间的汉字转换成本。这里提出的汉字转换成本是指两个汉字或词组之间,由一
个转成另一个所需要的最少编辑操作次数。本申请实施例中涉及的编辑操作包括:将一个
汉字替换成另一个汉字,插入一个汉字或者删除一个汉字。
在根据步骤汉字集合匹配单元22执行的技术方案得到的相似汉字集合中,不仅包
含了例如“中”与“种”此类的映射关系,还包括了该类映射关系的相似度数值。此处的相似
度数值表示将“中”进行纠错替换为“种”的可能性高低。为了避免引入过多噪声导致纠错面
过大,在得到相似汉字集合前还可以通过引入相似度阈值对映射关系对应的相似度进行
过滤,仅保留高于相似度阈值的映射关系。
由于在相似度计算子单元执行过程中可选使用汉字的拼音信息或者字形信息,但是考虑到笔顺的相似信息严格程度不及拼音相似度,因此在计算两个汉字之间对应汉字音形信息的相似度之前,设有汉字筛选单元,用于对样本汉字集合中的汉字字形信息进行筛选。目的在于基于开源形近混淆集对当前结果进一步过滤或人工复核这部分知识,并将那些不合理的相似形近字去除,从而提升后续纠错的准确性。
可选的,所述汉字纠错替换单元23,包括:
文本接收子单元,用于接收待纠错文本;
候选词判断子单元,用于判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
汉字替换子单元,用于如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
在实施中,基于前述技术方案已建立的相似汉字集合进行汉字纠错时,仅需要判断相似汉字集合中是否有对应目标汉字的纠错内容,并按相似度高低进行排序优选相似度较高的纠错内容对目标汉字进行纠错替换即可。
具体的,所述汉字替换子单元,包括:
领域词生成一级子单元,用于生成以目标汉字为开头的所有可能的领域词集合;
领域词保存一级子单元,用于以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
汉字替换一级子单元,用于以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
在实施中,为了对目标汉字进行纠错,首先判断目标汉字是否存在于相似汉字集合中。如果存在则选出相似汉字集合中以目标汉字为首的全部领域词集合以及目标汉字与每个领域词的相似度。进而优先选取相似度高于预设相似度阈值的候选词对目标汉字进行替换。
进一步的针对上述汉字替换一级子单元执行的替换操作,具体包括:
得分更新二级子单元,用于当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
汉字比对二级子单元,用于将目标汉字逐个与候选词中的汉字进行比对处理;
候选词删除二级子单元,用于如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
在实施中,考虑到针对同一个目标汉字的最佳纠错内容并非相似度最高领域词的情况,本申请实施例提出的纠错方案中提出了候选纠错集合的概念。即将以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合中,作为二次纠错的备选范围。
还包括候选词删除二级子单元,用于执行相似度小于设定阈值,从候选纠错集中删除的操作。
接着将目标汉字逐个与候选词中的汉字进行比对处理。如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。取前向最长最相似的结果,并基于该结果对待纠错文本相应片段进行纠正。输出得到纠正后的文本。
以金融领域词典为例,它包含正确关键词“无形资产”。四个标准汉字“无”、“形”、“资”、“产”对应的发音相似集合分别为:
[无,吴,0.99], [无,务,0.94]
[形,行,0.99], [形,兴,0.94]
[资,咨,0.99], [资,自,0.94]
[产,阐,0.99], [产,谗,0.94]
对应数值表示两汉字之间的发音相似度。构建每个字及其在词中出现位置到词的倒排索引,详情如图2所示。
其中,数值对应召回得分。接收到待纠错文本“无行资产怎么解释”,结合上述倒排索引文件和待纠错文本,从左到右逐个字符扫描待纠错文本。在扫描“无”时,基于“无##1”召回“无形资产”,得分记为1,并得到纠错候选集“无形资产”;扫描“行”时,基于“行##1”没有召回任何结果,再考虑纠错候选集中“无形资产”在“行##2”是否有得分,继续对其追加得分0.99,总分变为1.99;…;在“产”结束时,最终计算出“无形资产”的得分为1+0.99+1+1=3.99,此时“无形资产”所有字符位置处都已找到相似字符,最终结果为将“无行资产”纠正为“无形资产”;且后面几个字符再未召回任何结果。
实施例三
根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行基于汉字音形相似性的拼写纠错方法的步骤。
根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行基于汉字音形相似性的拼写纠错的步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本示例实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述基于汉字音形相似性的拼写纠错方法的步骤。所述基于汉字音形相似性的拼写纠错方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本示例实施方式中,还提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于汉字音形相似性的拼写纠错方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图4示出根据本公开示例实施方式中一种电子设备的示意图。例如,装置可以被提供为一服务器或客户端。参照图4,设备包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置还可以包括一个电源组件426被配置为执行装置的电源管理,一个有线或无线网络接口450被配置为将装置连接到网络,和一个输入输出(I/O)接口458。装置可以操作基于存储在存储器432的操作系统,例如Windows Server TM,Mac OS XTM,Unix TM、LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (16)
1.基于汉字音形相似性的拼写纠错方法,其特征在于,所述拼写纠错方法包括:
根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
3.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述方法还包括在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:
对样本汉字集合中的汉字字形信息进行筛选。
4.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
接收待纠错文本;
判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
5.根据权利要求4所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述获取音形信息高于预设相似度阈值的候选词对目标汉字进行替换,包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
6.根据权利要求5所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
将目标汉字逐个与候选词中的汉字进行比对处理;
如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
7.根据权利要求5所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
相似度小于设定阈值,从候选纠错集中删除。
8.基于汉字音形相似性的拼写纠错装置,其特征在于,所述拼写纠错装置包括:
汉字集合生成单元,用于根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
汉字集合匹配单元,用于基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
汉字纠错替换单元,用于接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
10.根据权利要求8所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述拼写纠错装置还包括:
汉字筛选单元,用于对样本汉字集合中的汉字字形信息进行筛选。
11.根据权利要求8所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字纠错替换单元,包括:
文本接收子单元,用于接收待纠错文本;
候选词判断子单元,用于判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
汉字替换子单元,用于如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
12.根据权利要求11所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字替换子单元,包括:
领域词生成一级子单元,用于生成以目标汉字为开头的所有可能的领域词集合;
领域词保存一级子单元,用于以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
汉字替换一级子单元,用于以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
13.根据权利要求12所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字替换一级子单元,包括:
得分更新二级子单元,用于当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
汉字比对二级子单元,用于将目标汉字逐个与候选词中的汉字进行比对处理;
候选词删除二级子单元,用于如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
14.根据权利要求12所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字替换一级子单元,包括:
候选词删除二级子单元,还用于相似度小于设定阈值,从候选纠错集中删除。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述基于汉字音形相似性的拼写纠错方法的步骤。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至7任一项所述基于汉字音形相似性的拼写纠错的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110460497.5A CN112883718B (zh) | 2021-04-27 | 2021-04-27 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110460497.5A CN112883718B (zh) | 2021-04-27 | 2021-04-27 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883718A true CN112883718A (zh) | 2021-06-01 |
CN112883718B CN112883718B (zh) | 2021-10-22 |
Family
ID=76040090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110460497.5A Active CN112883718B (zh) | 2021-04-27 | 2021-04-27 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883718B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657098A (zh) * | 2021-08-24 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114021560A (zh) * | 2021-11-10 | 2022-02-08 | 竹间智能科技(上海)有限公司 | 文本纠错方法及装置、电子设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399907A (zh) * | 2013-07-31 | 2013-11-20 | 深圳市华傲数据技术有限公司 | 一种基于编辑距离计算中文字符串相似度的方法及装置 |
CN109344387A (zh) * | 2018-08-01 | 2019-02-15 | 北京奇艺世纪科技有限公司 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
CN109977412A (zh) * | 2019-03-29 | 2019-07-05 | 北京林业大学 | 一种字段值纠错方法、装置、可读介质及存储控制器 |
CN110147549A (zh) * | 2019-04-19 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 用于执行文本纠错的方法和系统 |
CN112287100A (zh) * | 2019-07-12 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 文本识别方法、拼写纠错方法及语音识别方法 |
-
2021
- 2021-04-27 CN CN202110460497.5A patent/CN112883718B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399907A (zh) * | 2013-07-31 | 2013-11-20 | 深圳市华傲数据技术有限公司 | 一种基于编辑距离计算中文字符串相似度的方法及装置 |
CN109344387A (zh) * | 2018-08-01 | 2019-02-15 | 北京奇艺世纪科技有限公司 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
CN109977412A (zh) * | 2019-03-29 | 2019-07-05 | 北京林业大学 | 一种字段值纠错方法、装置、可读介质及存储控制器 |
CN110147549A (zh) * | 2019-04-19 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 用于执行文本纠错的方法和系统 |
CN112287100A (zh) * | 2019-07-12 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 文本识别方法、拼写纠错方法及语音识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657098A (zh) * | 2021-08-24 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113657098B (zh) * | 2021-08-24 | 2024-03-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114021560A (zh) * | 2021-11-10 | 2022-02-08 | 竹间智能科技(上海)有限公司 | 文本纠错方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112883718B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102204971B1 (ko) | 검색어를 위한 오류 정정 방법 및 기기 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
US10303761B2 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US11366840B2 (en) | Log-aided automatic query expansion approach based on topic modeling | |
CN112883718B (zh) | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 | |
US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
CN111274785B (zh) | 一种文本纠错方法、装置、设备及介质 | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
CN101131706A (zh) | 一种查询修正方法及系统 | |
CN112560450B (zh) | 一种文本纠错方法及装置 | |
CN111462751A (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN110929510A (zh) | 一种基于字典树的中文未登录词识别方法 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN112650833A (zh) | Api匹配模型建立方法及跨城市政务api匹配方法 | |
CN114021573A (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN114021541A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
CN109712613B (zh) | 语义分析库更新方法、装置及电子设备 | |
CN116881471A (zh) | 一种基于知识图谱的大语言模型微调方法及装置 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN113378553B (zh) | 文本处理方法、装置、电子设备和存储介质 | |
CN111090338B (zh) | 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |