CN112883718A - 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 - Google Patents

基于汉字音形相似性的拼写纠错方法、装置以及电子设备 Download PDF

Info

Publication number
CN112883718A
CN112883718A CN202110460497.5A CN202110460497A CN112883718A CN 112883718 A CN112883718 A CN 112883718A CN 202110460497 A CN202110460497 A CN 202110460497A CN 112883718 A CN112883718 A CN 112883718A
Authority
CN
China
Prior art keywords
chinese character
similarity
chinese
error correction
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110460497.5A
Other languages
English (en)
Other versions
CN112883718B (zh
Inventor
林金曙
娄东方
王炯亮
陈哲
陈春旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202110460497.5A priority Critical patent/CN112883718B/zh
Publication of CN112883718A publication Critical patent/CN112883718A/zh
Application granted granted Critical
Publication of CN112883718B publication Critical patent/CN112883718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提出了基于汉字音形相似性的拼写纠错方法、装置以及电子设备,包括根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。由于汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可;能够有效降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。

Description

基于汉字音形相似性的拼写纠错方法、装置以及电子设备
技术领域
本申请涉及文本纠错领域,尤其涉及基于汉字音形相似性的拼写纠错方法、装置以及电子设备。
背景技术
中文光学汉字识别(OCR)和自动语音识别(ASR)等场景中,因汉字音形相似可能引起识别错误。一般通过添加ASR、OCR等模型输出的后处理模块(中文拼写纠错)可解决大量错误。
为了减少搜索遍历次数引入了BK(Burkhard-Keller)树结构。BK树基于正确词库之间的汉字串汉字转换成本构建树形结构,后续基于该树形结构快速搜索相近(汉字转换成本)汉字串。相对于遍历词库,BK树搜索可大大提升性能。但它还存在如下不足:
(1)BK树结构主要支持天然分词场景(分词一般搜索场景下才易得,其他场景下几乎无法获取正确分词结果),使用范围有限;
(2)BK树纠错需要实时计算两汉字串之间的汉字转换成本,在树深度较深的情况下,性能较差;
(3)随着领域词典变大,BK树变深,将导致性能急剧下降;
(4)BK树检索范围随着错误汉字数量阈值变大急剧变大,性能也将急剧下降。BK树相似检索虽然是一种合理的中文拼写错误干预方法,但它存在性能不足和使用范围的局限性问题。
发明内容
本申请实施例提出了基于汉字音形相似性的拼写纠错方法,由于本身不涉及层级间的节点计算过程,从而降低数据计算压力。
具体的,根据本公开实施例的第一方面,本申请实施例提出的基于汉字音形相似性的拼写纠错方法包括:
根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
可选的,所述基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
定义将样本汉字集合中的汉字
Figure 688104DEST_PATH_IMAGE001
转换为汉字
Figure 575288DEST_PATH_IMAGE002
的最小编辑次数作为汉字转换 成本;
结合相似度超参数构建如公式一所示的相似度计算公式,
Figure 133308DEST_PATH_IMAGE003
公式一,
式中,
Figure 255985DEST_PATH_IMAGE004
为相似度超参数,
Figure 123841DEST_PATH_IMAGE005
表示两个汉字
Figure 181926DEST_PATH_IMAGE006
Figure 492822DEST_PATH_IMAGE007
之间的汉字 转换成本,
Figure 419190DEST_PATH_IMAGE008
表示计算相似度的运算符;
将得到的对应汉字
Figure 374507DEST_PATH_IMAGE009
相似度结果按相似度由高到低的顺序进行排序,选取排序 后靠前的汉字构建对应汉字
Figure 728128DEST_PATH_IMAGE010
的映射关系;
将得到的映射关系构建对应汉字
Figure 401686DEST_PATH_IMAGE011
的相似汉字集合。
可选的,所述方法还包括在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:
对样本汉字集合中的汉字字形信息进行筛选。
可选的,所述接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
接收待纠错文本;
判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
可选的,所述获取音形信息高于预设相似度阈值的候选词对目标汉字进行替换,包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
可选的,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
将目标汉字逐个与候选词中的汉字进行比对处理;
如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
可选的,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
相似度小于设定阈值,从候选纠错集中删除。
根据本公开实施例的第二方面,本申请实施例还提出基于汉字音形相似性的拼写纠错装置,包括:
汉字集合生成单元,用于根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
汉字集合匹配单元,用于基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
汉字纠错替换单元,用于接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
可选的,所述汉字集合匹配单元,包括:
汉字转换子单元,用于定义将样本汉字集合中的汉字
Figure 131745DEST_PATH_IMAGE012
转换为汉字
Figure 440104DEST_PATH_IMAGE013
的最小编 辑次数作为汉字转换成本;
相似度计算子单元,用于结合相似度超参数构建如公式一所示的相似度计算公式,
Figure 230206DEST_PATH_IMAGE014
公式一,
式中,
Figure 391060DEST_PATH_IMAGE015
为相似度超参数,
Figure 659230DEST_PATH_IMAGE016
表示两个汉字
Figure 448194DEST_PATH_IMAGE017
Figure 284563DEST_PATH_IMAGE018
之间的汉字 转换成本,
Figure 526189DEST_PATH_IMAGE019
表示计算相似度的运算符;
相似度排序子单元,用于将得到的对应汉字
Figure 332471DEST_PATH_IMAGE020
相似度结果按相似度由高到低的 顺序进行排序,选取排序后靠前的汉字构建对应汉字
Figure 382466DEST_PATH_IMAGE021
的映射关系;
汉字集合构建子单元,用于将得到的映射关系构建对应汉字
Figure 248791DEST_PATH_IMAGE022
的相似汉字集合。
可选的,所述拼写纠错装置还包括:
汉字筛选单元,用于对样本汉字集合中的汉字字形信息进行筛选。
可选的,所述汉字纠错替换单元,包括:
文本接收子单元,用于接收待纠错文本;
候选词判断子单元,用于判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
汉字替换子单元,用于如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
可选的,所述汉字替换子单元,包括:
领域词生成一级子单元,用于生成以目标汉字为开头的所有可能的领域词集合;
领域词保存一级子单元,用于以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
汉字替换一级子单元,用于以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
可选的,所述汉字替换一级子单元,包括:
得分更新二级子单元,用于当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
汉字比对二级子单元,用于将目标汉字逐个与候选词中的汉字进行比对处理;
候选词删除二级子单元,用于如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
可选的,所述汉字替换一级子单元,包括:
候选词删除二级子单元,还用于相似度小于设定阈值,从候选纠错集中删除。
根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行基于汉字音形相似性的拼写纠错方法的步骤。
根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行基于汉字音形相似性的拼写纠错的步骤。
有益效果:
本申请实施例提出的汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可,同时还能降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的基于汉字音形相似性的拼写纠错方法的流程示意图;
图2为本申请实施例提出的倒排索引示意图;
图3为本申请实施例提出的基于汉字音形相似性的拼写纠错装置的结构示意图;
图4为本申请实施例提出的一种电子设备的结构示意图。
具体实施方式
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
具体的,如图1所示,本申请实施例提出的基于汉字音形相似性的拼写纠错方法包括:
S1,根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
S2,基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
S3,接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
在实施中,为了实现汉字纠错,本申请实施例提出的纠错方法的主要实施思路为:汉字发音和字形信息获取、候选汉字与标准汉字数据库映射关系的倒排生成、离线汉字转换成本纠错算法的实现。
相对于现有的为减少搜索遍历次数而引入的BK(Burkhard-Keller)树结构,本申请提出的技术方案所涉及的汉字转换成本计算都只发生在音形编辑初始过程中,纠错算法中不涉及计算,只需从预先加载的汉字与词典的映射字典取出即可;而BK树中文纠错算法从树顶层往下不断对比(实时汉字转换成本计算),遍历数量多,总体计算量更大。
具体的,步骤S1提出的构建样本汉字集合的具体内容,包括:
S11从标准汉字数据库中选取样本汉字;
S12获取样本汉字在标准汉字库中的拼音信息,将拼音信息分解为音节和数值化的音调参数;
S13获取样本汉字在标准汉字库中的字形信息,将字形信息分解为符合书写规范的笔顺名称。
在实施中,获取常用汉字的拼音信息和字形信息。
其中,拼音信息包括声母、韵母和音调(不同的音调使用数字进行区分)。字形信息即为汉字笔顺。例如,“中”的拼音信息和字形信息分别如下:
{
"汉字": "中",
"拼音信息": "zhong1,zhong4",
"字形信息": "竖,横折,横,竖"
}
多音字会记录多个拼音信息,上述拼音zhong后的数字1、4分别表示该汉字有一声、四声两种发音方式。
相对于英文单词,不同的汉字之间除了在字形上存在区别以外,在发音上也会存在较大差异,因此为了能够提升汉字纠错的正确率,本申请针对汉字的特性提出了包括拼音和字形两类信息作为后续纠错行为的对比标准。
步骤S2提出的得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
S21定义将样本汉字集合中的汉字
Figure 885702DEST_PATH_IMAGE023
转换为汉字
Figure 495675DEST_PATH_IMAGE024
的最小编辑次数作为汉字 转换成本;
S22结合相似度超参数构建如公式一所示的相似度计算公式,
Figure 134598DEST_PATH_IMAGE025
公式一,
式中,
Figure 171824DEST_PATH_IMAGE026
为相似度超参数,
Figure 794567DEST_PATH_IMAGE027
表示两个汉字
Figure 208230DEST_PATH_IMAGE028
Figure 967239DEST_PATH_IMAGE029
之间的汉 字转换成本,
Figure 440946DEST_PATH_IMAGE030
表示计算相似度的运算符;
S23将得到的对应汉字
Figure 144460DEST_PATH_IMAGE031
相似度结果按相似度由高到低的顺序进行排序,选取排 序后靠前的汉字构建对应汉字
Figure 204557DEST_PATH_IMAGE031
的映射关系;
S24将得到的映射关系构建对应汉字
Figure 208285DEST_PATH_IMAGE032
的相似汉字集合。
在实施中,为了实现汉字的纠错,在纠错前需要建立错误汉字与正确汉字之间的 映射关系,本步骤提出了基于错误汉字转换为正确汉字之间的最小编辑次数作为汉字转换 成本的方式建立针对汉字
Figure 321735DEST_PATH_IMAGE022
的相似汉字集合的处理步骤。其中相似汉字集合中包括了将 汉字
Figure 653490DEST_PATH_IMAGE001
替换为多种汉字的映射关系。
为了得到相似汉字集合,步骤S2中提出了基于公式一计算汉字
Figure 143377DEST_PATH_IMAGE017
与汉字
Figure 876978DEST_PATH_IMAGE033
之间 相似度的计算步骤,并引入概念
Figure 426908DEST_PATH_IMAGE034
用于表示两个汉字
Figure 370593DEST_PATH_IMAGE001
Figure 273958DEST_PATH_IMAGE002
之间的汉字 转换成本。这里提出的汉字转换成本是指两个汉字或词组之间,由一个转成另一个所需要 的最少编辑操作次数。本申请实施例中涉及的编辑操作包括:将一个汉字替换成另一个汉 字,插入一个汉字或者删除一个汉字。
在根据步骤S21至S24提出的技术方案得到的相似汉字集合中,不仅包含了例如 “中”与“种”此类的映射关系,还包括了该类映射关系的相似度数值。此处的相似度数值表 示将“中”进行纠错替换为“种”的可能性高低。为了避免引入过多噪声导致纠错面过大,在 得到相似汉字集合前还可以通过引入相似度阈值
Figure 986700DEST_PATH_IMAGE035
对映射关系对应的相似度进行过滤,仅 保留高于相似度阈值的映射关系。
由于在执行步骤S22的过程中可选使用汉字的拼音信息或者字形信息,但是考虑到笔顺的相似信息严格程度不及拼音相似度,因此在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:对样本汉字集合中的汉字字形信息进行筛选。目的在于基于开源形近混淆集对当前结果进一步过滤或人工复核这部分知识,并将那些不合理的相似形近字去除,从而提升后续纠错的准确性。
步骤S3提出的结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
S31接收待纠错文本;
S32判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
S33如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
在实施中,基于前述技术方案已建立的相似汉字集合进行汉字纠错时,仅需要判断相似汉字集合中是否有对应目标汉字的纠错内容,并按相似度高低进行排序优选相似度较高的纠错内容对目标汉字进行纠错替换即可。
具体的S33提出的技术方案具体包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
在实施中,为了对目标汉字进行纠错,首先判断目标汉字是否存在于相似汉字集合中。如果存在则选出相似汉字集合中以目标汉字为首的全部领域词集合以及目标汉字与每个领域词的相似度。进而优先选取相似度高于预设相似度阈值的候选词对目标汉字进行替换。
进一步的针对上述步骤S333提出的替换操作,具体包括:
步骤一,当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
步骤二,将目标汉字逐个与候选词中的汉字进行比对处理;
步骤三,如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
在实施中,考虑到针对同一个目标汉字的最佳纠错内容并非相似度最高领域词的情况,本申请实施例提出的纠错方案中提出了候选纠错集合的概念。即将以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合中,作为二次纠错的备选范围。如果相似度小于设定阈值,则表明该领域词作为纠错待选内容的可能性较低,可从候选纠错集中删除。
接着将目标汉字逐个与候选词中的汉字进行比对处理。如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。取前向最长最相似的结果,并基于该结果对待纠错文本相应片段进行纠正。输出得到纠正后的文本。
以金融领域词典为例,它包含正确关键词“无形资产”。四个标准汉字“无”、“形”、“资”、“产”对应的发音相似集合分别为:
[无,吴,0.99], [无,务,0.94]
[形,行,0.99], [形,兴,0.94]
[资,咨,0.99], [资,自,0.94]
[产,阐,0.99], [产,谗,0.94]
对应数值表示两汉字之间的发音相似度。构建每个字及其在词中出现位置到词的倒排索引,详情如图2所示。
其中,数值对应召回得分。接收到待纠错文本“无行资产怎么解释”,结合上述倒排索引文件和待纠错文本,从左到右逐个字符扫描待纠错文本。在扫描“无”时,基于“无##1”召回“无形资产”,得分记为1,并得到纠错候选集“无形资产”;扫描“行”时,基于“行##1”没有召回任何结果,再考虑纠错候选集中“无形资产”在“行##2”是否有得分,继续对其追加得分0.99,总分变为1.99;…;在“产”结束时,最终计算出“无形资产”的得分为1+0.99+1+1=3.99,此时“无形资产”所有字符位置处都已找到相似字符,最终结果为将“无行资产”纠正为“无形资产”;且后面几个字符再未召回任何结果。
实施例二
根据本公开实施例的第二方面,本申请实施例还提出基于汉字音形相似性的拼写纠错装置2,如图3所示,包括:
汉字集合生成单元21,用于根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
汉字集合匹配单元22,用于基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
汉字纠错替换单元23,用于接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
在实施中,为了实现汉字纠错,本申请实施例提出的纠错方法的主要实施思路为:汉字发音和字形信息获取、候选汉字与标准汉字数据库映射关系的倒排生成、离线汉字转换成本纠错算法的实现。
相对于现有的为减少搜索遍历次数而引入的BK(Burkhard-Keller)树结构,本申请提出的技术方案所涉及的汉字转换成本计算都只发生在音形编辑初始过程中,纠错算法中不涉及计算,只需从预先加载的汉字与词典的映射字典取出即可;而BK树中文纠错算法从树顶层往下不断对比(实时汉字转换成本计算),遍历数量多,总体计算量更大。
具体的,汉字集合生成单元21执行的构建样本汉字集合的具体内容,包括:
从标准汉字数据库中选取样本汉字;
获取样本汉字在标准汉字库中的拼音信息,将拼音信息分解为音节和数值化的音调参数;
获取样本汉字在标准汉字库中的字形信息,将字形信息分解为符合书写规范的笔顺名称。
在实施中,获取常用汉字的拼音信息和字形信息。
其中,拼音信息包括声母、韵母和音调(不同的音调使用数字进行区分)。字形信息即为汉字笔顺。例如,“中”的拼音信息和字形信息分别如下:
{
"汉字": "中",
"拼音信息": "zhong1,zhong4",
"字形信息": "竖,横折,横,竖"
}
多音字会记录多个拼音信息,上述拼音zhong后的数字1、4分别表示该汉字有一声、四声两种发音方式。
相对于英文单词,不同的汉字之间除了在字形上存在区别以外,在发音上也会存在较大差异,因此为了能够提升汉字纠错的正确率,本申请针对汉字的特性提出了包括拼音和字形两类信息作为后续纠错行为的对比标准。
可选的,所述汉字集合匹配单元22,包括:
汉字转换子单元,用于定义将样本汉字集合中的汉字
Figure 349941DEST_PATH_IMAGE036
转换为汉字
Figure 780922DEST_PATH_IMAGE033
的最小 编辑次数作为汉字转换成本;
相似度计算子单元,用于结合相似度超参数构建如公式一所示的相似度计算公式,
Figure 612612DEST_PATH_IMAGE037
公式一,
式中,
Figure 55226DEST_PATH_IMAGE038
为相似度超参数,
Figure 212538DEST_PATH_IMAGE039
表示两个汉字
Figure 740602DEST_PATH_IMAGE040
Figure 110404DEST_PATH_IMAGE041
之间的 汉字转换成本,
Figure 797737DEST_PATH_IMAGE042
表示计算相似度的运算符;
相似度排序子单元,用于将得到的对应汉字
Figure 1316DEST_PATH_IMAGE006
相似度结果按相似度由高到低的 顺序进行排序,选取排序后靠前的汉字构建对应汉字
Figure 141311DEST_PATH_IMAGE001
的映射关系;
汉字集合构建子单元,用于将得到的映射关系构建对应汉字
Figure 219863DEST_PATH_IMAGE001
的相似汉字集 合。
在实施中,为了实现汉字的纠错,在纠错前需要建立错误汉字与正确汉字之间的 映射关系,本步骤提出了基于错误汉字转换为正确汉字之间的最小编辑次数作为汉字转换 成本的方式建立针对汉字
Figure 761703DEST_PATH_IMAGE043
的相似汉字集合的处理步骤。其中相似汉字集合中包括了将 汉字
Figure 870604DEST_PATH_IMAGE032
替换为多种汉字的映射关系。
为了得到相似汉字集合,汉字集合匹配单元22中提出了基于公式一计算汉字
Figure 497895DEST_PATH_IMAGE044
与汉字
Figure 350444DEST_PATH_IMAGE045
之间相似度的计算步骤,并引入概念
Figure 746790DEST_PATH_IMAGE046
用于表示两个汉字
Figure 416806DEST_PATH_IMAGE001
Figure 141180DEST_PATH_IMAGE047
之间的汉字转换成本。这里提出的汉字转换成本是指两个汉字或词组之间,由一 个转成另一个所需要的最少编辑操作次数。本申请实施例中涉及的编辑操作包括:将一个 汉字替换成另一个汉字,插入一个汉字或者删除一个汉字。
在根据步骤汉字集合匹配单元22执行的技术方案得到的相似汉字集合中,不仅包 含了例如“中”与“种”此类的映射关系,还包括了该类映射关系的相似度数值。此处的相似 度数值表示将“中”进行纠错替换为“种”的可能性高低。为了避免引入过多噪声导致纠错面 过大,在得到相似汉字集合前还可以通过引入相似度阈值
Figure 922054DEST_PATH_IMAGE048
对映射关系对应的相似度进行 过滤,仅保留高于相似度阈值的映射关系。
由于在相似度计算子单元执行过程中可选使用汉字的拼音信息或者字形信息,但是考虑到笔顺的相似信息严格程度不及拼音相似度,因此在计算两个汉字之间对应汉字音形信息的相似度之前,设有汉字筛选单元,用于对样本汉字集合中的汉字字形信息进行筛选。目的在于基于开源形近混淆集对当前结果进一步过滤或人工复核这部分知识,并将那些不合理的相似形近字去除,从而提升后续纠错的准确性。
可选的,所述汉字纠错替换单元23,包括:
文本接收子单元,用于接收待纠错文本;
候选词判断子单元,用于判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
汉字替换子单元,用于如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
在实施中,基于前述技术方案已建立的相似汉字集合进行汉字纠错时,仅需要判断相似汉字集合中是否有对应目标汉字的纠错内容,并按相似度高低进行排序优选相似度较高的纠错内容对目标汉字进行纠错替换即可。
具体的,所述汉字替换子单元,包括:
领域词生成一级子单元,用于生成以目标汉字为开头的所有可能的领域词集合;
领域词保存一级子单元,用于以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
汉字替换一级子单元,用于以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
在实施中,为了对目标汉字进行纠错,首先判断目标汉字是否存在于相似汉字集合中。如果存在则选出相似汉字集合中以目标汉字为首的全部领域词集合以及目标汉字与每个领域词的相似度。进而优先选取相似度高于预设相似度阈值的候选词对目标汉字进行替换。
进一步的针对上述汉字替换一级子单元执行的替换操作,具体包括:
得分更新二级子单元,用于当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
汉字比对二级子单元,用于将目标汉字逐个与候选词中的汉字进行比对处理;
候选词删除二级子单元,用于如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
在实施中,考虑到针对同一个目标汉字的最佳纠错内容并非相似度最高领域词的情况,本申请实施例提出的纠错方案中提出了候选纠错集合的概念。即将以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合中,作为二次纠错的备选范围。
还包括候选词删除二级子单元,用于执行相似度小于设定阈值,从候选纠错集中删除的操作。
接着将目标汉字逐个与候选词中的汉字进行比对处理。如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。取前向最长最相似的结果,并基于该结果对待纠错文本相应片段进行纠正。输出得到纠正后的文本。
以金融领域词典为例,它包含正确关键词“无形资产”。四个标准汉字“无”、“形”、“资”、“产”对应的发音相似集合分别为:
[无,吴,0.99], [无,务,0.94]
[形,行,0.99], [形,兴,0.94]
[资,咨,0.99], [资,自,0.94]
[产,阐,0.99], [产,谗,0.94]
对应数值表示两汉字之间的发音相似度。构建每个字及其在词中出现位置到词的倒排索引,详情如图2所示。
其中,数值对应召回得分。接收到待纠错文本“无行资产怎么解释”,结合上述倒排索引文件和待纠错文本,从左到右逐个字符扫描待纠错文本。在扫描“无”时,基于“无##1”召回“无形资产”,得分记为1,并得到纠错候选集“无形资产”;扫描“行”时,基于“行##1”没有召回任何结果,再考虑纠错候选集中“无形资产”在“行##2”是否有得分,继续对其追加得分0.99,总分变为1.99;…;在“产”结束时,最终计算出“无形资产”的得分为1+0.99+1+1=3.99,此时“无形资产”所有字符位置处都已找到相似字符,最终结果为将“无行资产”纠正为“无形资产”;且后面几个字符再未召回任何结果。
实施例三
根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行基于汉字音形相似性的拼写纠错方法的步骤。
根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行基于汉字音形相似性的拼写纠错的步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本示例实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述基于汉字音形相似性的拼写纠错方法的步骤。所述基于汉字音形相似性的拼写纠错方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本示例实施方式中,还提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于汉字音形相似性的拼写纠错方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图4示出根据本公开示例实施方式中一种电子设备的示意图。例如,装置可以被提供为一服务器或客户端。参照图4,设备包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置还可以包括一个电源组件426被配置为执行装置的电源管理,一个有线或无线网络接口450被配置为将装置连接到网络,和一个输入输出(I/O)接口458。装置可以操作基于存储在存储器432的操作系统,例如Windows Server TM,Mac OS XTM,Unix TM、LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (16)

1.基于汉字音形相似性的拼写纠错方法,其特征在于,所述拼写纠错方法包括:
根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
2.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
定义将样本汉字集合中的汉字
Figure DEST_PATH_IMAGE001
转换为汉字
Figure 768228DEST_PATH_IMAGE002
的最小编辑次数作为汉字转换成本;
结合相似度超参数构建如公式一所示的相似度计算公式,
Figure DEST_PATH_IMAGE003
公式一,
式中,
Figure 534058DEST_PATH_IMAGE004
为相似度超参数,
Figure DEST_PATH_IMAGE005
表示两个汉字
Figure 157938DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
之间的汉字转 换成本,
Figure 471587DEST_PATH_IMAGE008
表示计算相似度的运算符;
将得到的对应汉字
Figure 319457DEST_PATH_IMAGE001
相似度结果按相似度由高到低的顺序进行排序,选取排序后靠 前的汉字构建对应汉字
Figure DEST_PATH_IMAGE009
的映射关系;
将得到的映射关系构建对应汉字
Figure 572584DEST_PATH_IMAGE009
的相似汉字集合。
3.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述方法还包括在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:
对样本汉字集合中的汉字字形信息进行筛选。
4.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
接收待纠错文本;
判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
5.根据权利要求4所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述获取音形信息高于预设相似度阈值的候选词对目标汉字进行替换,包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
6.根据权利要求5所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
将目标汉字逐个与候选词中的汉字进行比对处理;
如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
7.根据权利要求5所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
相似度小于设定阈值,从候选纠错集中删除。
8.基于汉字音形相似性的拼写纠错装置,其特征在于,所述拼写纠错装置包括:
汉字集合生成单元,用于根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
汉字集合匹配单元,用于基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
汉字纠错替换单元,用于接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
9.根据权利要求8所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字集合匹配单元,包括:
汉字转换子单元,用于定义将样本汉字集合中的汉字
Figure 531313DEST_PATH_IMAGE010
转换为汉字
Figure 451864DEST_PATH_IMAGE011
的最小编辑 次数作为汉字转换成本;
相似度计算子单元,用于结合相似度超参数构建如公式一所示的相似度计算公式,
Figure DEST_PATH_IMAGE013
公式一,
式中,
Figure 939478DEST_PATH_IMAGE014
为相似度超参数,
Figure 945480DEST_PATH_IMAGE015
表示两个汉字
Figure 707899DEST_PATH_IMAGE016
Figure 623903DEST_PATH_IMAGE011
之间的汉字转换 成本,
Figure 908516DEST_PATH_IMAGE017
表示计算相似度的运算符;
相似度排序子单元,用于将得到的对应汉字
Figure 277180DEST_PATH_IMAGE018
相似度结果按相似度由高到低的顺序 进行排序,选取排序后靠前的汉字构建对应汉字
Figure 702345DEST_PATH_IMAGE019
的映射关系;
汉字集合构建子单元,用于将得到的映射关系构建对应汉字
Figure 472855DEST_PATH_IMAGE020
的相似汉字集合。
10.根据权利要求8所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述拼写纠错装置还包括:
汉字筛选单元,用于对样本汉字集合中的汉字字形信息进行筛选。
11.根据权利要求8所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字纠错替换单元,包括:
文本接收子单元,用于接收待纠错文本;
候选词判断子单元,用于判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
汉字替换子单元,用于如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。
12.根据权利要求11所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字替换子单元,包括:
领域词生成一级子单元,用于生成以目标汉字为开头的所有可能的领域词集合;
领域词保存一级子单元,用于以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
汉字替换一级子单元,用于以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。
13.根据权利要求12所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字替换一级子单元,包括:
得分更新二级子单元,用于当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
汉字比对二级子单元,用于将目标汉字逐个与候选词中的汉字进行比对处理;
候选词删除二级子单元,用于如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。
14.根据权利要求12所述的基于汉字音形相似性的拼写纠错装置,其特征在于,所述汉字替换一级子单元,包括:
候选词删除二级子单元,还用于相似度小于设定阈值,从候选纠错集中删除。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述基于汉字音形相似性的拼写纠错方法的步骤。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至7任一项所述基于汉字音形相似性的拼写纠错的步骤。
CN202110460497.5A 2021-04-27 2021-04-27 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 Active CN112883718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110460497.5A CN112883718B (zh) 2021-04-27 2021-04-27 基于汉字音形相似性的拼写纠错方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460497.5A CN112883718B (zh) 2021-04-27 2021-04-27 基于汉字音形相似性的拼写纠错方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN112883718A true CN112883718A (zh) 2021-06-01
CN112883718B CN112883718B (zh) 2021-10-22

Family

ID=76040090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460497.5A Active CN112883718B (zh) 2021-04-27 2021-04-27 基于汉字音形相似性的拼写纠错方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN112883718B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657098A (zh) * 2021-08-24 2021-11-16 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN114021560A (zh) * 2021-11-10 2022-02-08 竹间智能科技(上海)有限公司 文本纠错方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN109344387A (zh) * 2018-08-01 2019-02-15 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109977412A (zh) * 2019-03-29 2019-07-05 北京林业大学 一种字段值纠错方法、装置、可读介质及存储控制器
CN110147549A (zh) * 2019-04-19 2019-08-20 阿里巴巴集团控股有限公司 用于执行文本纠错的方法和系统
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN109344387A (zh) * 2018-08-01 2019-02-15 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109977412A (zh) * 2019-03-29 2019-07-05 北京林业大学 一种字段值纠错方法、装置、可读介质及存储控制器
CN110147549A (zh) * 2019-04-19 2019-08-20 阿里巴巴集团控股有限公司 用于执行文本纠错的方法和系统
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657098A (zh) * 2021-08-24 2021-11-16 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN113657098B (zh) * 2021-08-24 2024-03-01 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN114021560A (zh) * 2021-11-10 2022-02-08 竹间智能科技(上海)有限公司 文本纠错方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN112883718B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
KR102204971B1 (ko) 검색어를 위한 오류 정정 방법 및 기기
CN106649783B (zh) 一种同义词挖掘方法和装置
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US11366840B2 (en) Log-aided automatic query expansion approach based on topic modeling
CN112883718B (zh) 基于汉字音形相似性的拼写纠错方法、装置以及电子设备
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
CN111274785B (zh) 一种文本纠错方法、装置、设备及介质
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN111611349A (zh) 语音查询方法、装置、计算机设备及存储介质
CN101131706A (zh) 一种查询修正方法及系统
CN112560450B (zh) 一种文本纠错方法及装置
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN110929510A (zh) 一种基于字典树的中文未登录词识别方法
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN112650833A (zh) Api匹配模型建立方法及跨城市政务api匹配方法
CN114021573A (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
CN109712613B (zh) 语义分析库更新方法、装置及电子设备
CN116881471A (zh) 一种基于知识图谱的大语言模型微调方法及装置
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN113378553B (zh) 文本处理方法、装置、电子设备和存储介质
CN111090338B (zh) 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant