CN110610180A - 错别字词识别集的生成方法、装置、设备及存储介质 - Google Patents

错别字词识别集的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110610180A
CN110610180A CN201910870761.5A CN201910870761A CN110610180A CN 110610180 A CN110610180 A CN 110610180A CN 201910870761 A CN201910870761 A CN 201910870761A CN 110610180 A CN110610180 A CN 110610180A
Authority
CN
China
Prior art keywords
word
words
wrongly
pinyin
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910870761.5A
Other languages
English (en)
Inventor
何蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910870761.5A priority Critical patent/CN110610180A/zh
Publication of CN110610180A publication Critical patent/CN110610180A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种错别字词识别集的生成方法、装置、设备及存储介质,所述方法包括:获取目标字词集中字词的拼音信息和图像信息;根据目标字词集中字词的拼音信息生成多个同音字词集和近音字词集;对目标字词集中字词的图像信息进行部分模糊处理,得到模糊字词图像集;基于字词识别模型对模糊字词图像集进行字词识别,得到字词识别结果;根据字词识别结果确定形似候选字词集;基于字词和对应的形似候选字词集中字词间的笔画编辑距离,进行形似字词刷选,得到形似字词集;将同音字词集、近音字词集和形似字词集作为错别字词识别集。利用本申请提供的技术方案可以有效提高错别字词识别集对易混淆字词的覆盖率和质量,以及后续的错别字识别准确率。

Description

错别字词识别集的生成方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种错别字词识别集的生成方法、装置、设备及存储介质。
背景技术
随着智能手机等电子设备的普及,用户越来越多的使用、键盘等来进行文字的书写。由于文字的表达丰富多样,在电子设备上进行文字输入的时候,往往会出现错误,这些错误给阅读带来了不便,如何准确地进行错别字识别对于提高文章质量从而提升用户体验至关重要。
在错别字识别中,全面的错别字词识别集是错别字识别的关键。现有技术中,在生成错别字词识别集中的同音和近音字词集时,可以结合文字的拼音信息;在生成错别字词识别集中的形似字词集时,往往获取文字的图像,利用图像相似度匹配,设定相似度阈值来得到字形相似的形似字词集。但现有的生成错别字词识别集的技术方案中,在形似字词方面,利用图片的相似度构造形近字词集虽然能够自动化地生成形近字词集,但是相似度阈值的设定对结果的影响较大,无法保证字词间的形似性和形似字词的全面性,导致错别字词识别集的对易混淆字词的覆盖率低,影响后续的错别字识别准确率。因此,需要提供更可靠或有效的方案来生成错别字词识别集。
发明内容
本申请提供了一种错别字词识别集的生成方法、装置、设备及存储介质,可以有效提高错别字词识别集对易混淆字词的覆盖率和全面性,保证了错别字词识别集的质量,以及后续的错别字识别准确率。
一方面,本申请提供了一种错别字词识别集的生成方法,所述方法包括:
获取目标字词集中每一字词的拼音信息和图像信息;
根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集;
对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集;
基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果;
根据所述字词识别结果确定多个形似候选字词集;
基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集;
将所述同音字词集、所述近音字词集和所述形似字词集作为错别字词识别集。
另一方面提供了一种错别字词识别集的生成装置,所述装置包括:
信息获取模块,用于获取目标字词集中每一字词的拼音信息和图像信息;
同近音字词集生成模块,用于根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集;
部分模糊处理模块,用于对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集;
字词识别模块,用于基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果;
形似候选字词集确定模块,用于根据所述字词识别结果确定多个形似候选字词集;
形似字词集确定模块,用于基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集;
错别字词识别集确定模块,用于将所述同音字词集、所述近音字词集和所述形似字词集作为错别字词识别集。
另一方面提供了一种错别字词识别集的生成设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的错别字词识别集的生成方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的错别字词识别集的生成方法。
本申请提供的错别字词识别集的生成方法、装置、设备及存储介质,具有如下技术效果:
本申请能够可以获取全面高质量的同音字词集和近音字词集,且在基于字词识别模型确定出大量的形似字词候选集之后,结合字词间的笔画编辑距离,可以在保证形似字词的全面性的基础上,更好的保证同一形似字词集中字词间的形似性。最后,将同音字词集、近音字词集和形似字词集作为错别字词识别集,可以有效提高错别字词识别集对易混淆字词的覆盖率和全面性,保证了错别字词识别集的质量,提高后续的错别字识别准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种错别字词识别集的生成方法的流程示意图;
图3是本申请实施例提供的目标字词集中部分字词的图像示意图;
图4是本申请实施例提供的一种根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集的流程示意图;
图5是本申请实施例提供的一种基于所述拼音信息间的拼音编辑距离,生成所述目标字词集对应的第二部分近音字词集的流程示意图;
图6是本申请实施例提供的一种对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集的流程示意图;
图7是本申请实施例提供的一种汉字的模糊后的示意图;
图8是本申请实施例提供的一种基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果的流程示意图;
图9是本申请实施例提供的不同区域进行模糊后的字词识别结果的示意图;
图10是本申请实施例提供的一种基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集的流程示意图;
图11是本申请实施例提供的一种汉字的笔画示意图;
图12是本申请实施例提供的另一种汉字的笔画示意图;
图13是本申请实施例提供的一种基于错别字词识别集进行错别字词识别的的流程示意图;
图14是本申请实施例提供的一种错别字词识别集的生成装置的结构示意图;
图15是本申请实施例提供的一种错别字词识别集的生成方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境至少包括服务器01和终端02。
本说明书实施例中,服务器01可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器01可以用于生成错别字词识别集。
本说明书实施例中,终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如虚拟机等。本申请实施例中终端02上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。所述终端02可以用于基于服务器01生成的错别字词识别集进行句子、文章等的错别字识别,提供错别字识别服务。
此外,需要说明的是,在实际应用中,错别字词识别集的生成也可以在提供错别字识别服务的设备上处理。
以下介绍本申请一种错别字词识别集的生成方法,图2是本申请实施例提供的一种错别字词识别集的生成方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201:获取目标字词集中每一字词的拼音信息和图像信息。
本说明书实施例中,目标字词集可以包括大量常用字和大量常用词语,本说明书常用词和词语可以包括但不限于中文字和中文词语。
本说明书实施例中,字词的拼音信息可以为无声调的拼音,例如没事的拼音为:mei shi。字词的图像信息可以为二值化的黑白文字图像,具体的,如图3所示,图3是本申请实施例提供的目标字词集中部分字词的图像示意图。具体的,如图3可见,可以为黑底白字的文字图像。
此外,需要说明的是,在实际应用中中,字词的图像信息也可以为白底黑子的文字图像。
S203:根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集。
本说明书实施例中,如图4所示,根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集可以包括:
S2031:根据所述拼音信息对所述目标字词集进行聚类处理,得到多个同音字词集。
具体的,可以将相同拼音的字词(单个文字或词语)组成一个同音字词集,例如拼音信息mei shi的词语可以包括但不限于没事、美食、美式、美事等。
S2033:根据模糊音组合生成所述目标字词集对应的第一部分近音字词集。
本说明书实施例中,模糊音组合可以包括部分容易混淆、不易区分清楚的一对对音节,在一个具体的实施例中,可以结合对音节中字母的操作来划分模糊音组合,具体的,在实际应用中,考虑带各地方言的不同会导致误读的情况,本说明书实施例中,根据汉语发音特点并结合方言的特殊性,构造发音相似的构成模糊音组合,例如:en-eng,z-zh,l-n,s-sh等,具体的,如表1所示:
本说明书实施例中,根据模糊音组合,可以生成一部分近音字、近音词组合(第一部分近音字词集),例如:疯-分(en-eng)/疯子-分子(en-eng)、屠夫-托福(u-uo)、忘情-万幸(an-ang/q-x)。
S2035:基于所述拼音信息间的拼音编辑距离,生成所述目标字词集对应的第二部分近音字词集。
本说明书实施例中,拼音编辑距离可以指将一个拼音字符串转换为另一个拼音字符串的操作所带来的两个字符串的差异程度,一般的操作可以包括:增加、删除、修改,相应的,在近音字词集(近音字集、近音词集)的构建中,可以结合拼音信息间的拼音编辑距离。
本说明书实施例中,如图5所示,基于所述拼音信息间的拼音编辑距离,生成所述目标字词集对应的第二部分近音字词集可以包括:
S501:确定两两字词间的拼音编辑类型。
S503:根据预设拼音编辑距离设定规则,确定所述两两字词间的拼音编辑类型对应的拼音编辑距离,所述预设拼音编辑距离设定规则包括不同拼音编辑类型对应的拼音编辑距离;
S505:基于两两字词间的拼音编辑类型对应的拼音编辑距离等于预设近音阈值的两两字词,生成所述第二部分近音字词集。
本说明书实施例中,所述拼音编辑类型表征两两字词间从一个字词的拼音信息编辑成另一个字词的拼音信息所需的操作的类型;具体的,拼音编辑类型可以包括对拼音信息的开头的增加编辑(例如将“爱”的拼音信息“ai”编辑成“太”的拼音信息“tai”,是对拼音信息ai的开头进行了增加编辑)、对拼音信息的开头的删除编辑(例如将“太”的拼音信息“tai”编辑成“爱”的拼音信息“ai”,是对拼音信息tai的开头进行了删除编辑)、对拼音信息的结尾的增加编辑(例如将“谈”的拼音信息“tan”编辑成“堂”的拼音信息“tang”,是对拼音信息tan的结尾进行了增加编辑)、对拼音信息的结尾的删除编辑(例如将“堂”的拼音信息“tang”编辑成“谈”的拼音信息“tan”,是对拼音信息tang的结尾进行了删除编辑)、对拼音信息非首尾的增加编辑(例如将“僧”的拼音信息“zeng”编辑成“生”的拼音信息“sheng”,是对拼音信息seng的非结尾进行了删除编辑)、对拼音信息的非首尾的删除编辑(例如将“生”的拼音信息“sheng”编辑成“僧”的拼音信息“zeng”,是对拼音信息sheng的非结尾进行了删除编辑)、对拼音信息中在键盘上相邻字母的修改编辑(例如将“行”的拼音信息“hang”编辑成“刚”的拼音信息“gang”,是对拼音信息hang中在键盘上相邻字母的修改编辑,即h修改为相邻的g),对拼音信息中在键盘上非相邻字母的修改编辑(例如将“行”的拼音信息“hang”编辑成“哼”的拼音信息“heng”,是对拼音信息hang中在键盘上非相邻字母的修改编辑,即a修改为非相邻的e);
本说明书实施例中,预设近音阈值可以表征两两字词间的拼音信息属于近音字词时,两两字词间的拼音编辑距离,例如设置为1。
本说明书实施例中,由于近音字词的特点通常表现为开头或结尾的拼音生母或韵母的不同,因此,对于对拼音信息的开头/结尾的增加删除编辑的拼音编辑距离可以设置为预设近音阈值(例如1),对拼音信息的非首尾的增加删除编辑的拼音编辑距离可以设置为N(N=1000,不等于预设近音阈值)。
本说明书实施例中,考虑到用户在用键盘打字的时候,键盘之间相邻的字母很容易误碰导致打字错误带来的近音情况。本说明书实施例中,对拼音信息中在键盘上相邻字母的修改编辑的拼音编辑距离可以设置为预设近音阈值(例如1),对拼音信息中在键盘上非相邻字母的修改编辑的拼音编辑距离可以设置为N(N=1000,不等于预设近音阈值)。
本说明书实施例中,通过为不同的拼音编辑类型设置不同的编辑距离,最终将拼音编辑距离为预设近音阈值的拼音所对应的字词作为第二部分近音字词集,可以保证近音字词集中近音字词为易混淆的近音字词,进而提高近音字词集的质量。
S2037:将所述第一部分近音字词集和所述第二部分近音字词集作为所述多个近音字词集。
本说明书实施例中,通过模糊音组合和拼音编辑距离来获取近音字词集,可以更好的保证近音字词集的全面性和质量,为后续的错别字识别提高识别准确率。
S205:对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集。
本说明书实施例中,可以随机选取字词的图像信息的某一个区域,对其进行模糊处理,得到包括每一字词模糊后图像的模糊字词图像集。具体的,本说明书实施例,模糊处理可以包括但不限于高斯模糊处理。
本说明书实施例中,如图6所示,对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集可以包括:
S2051:确定每一字词的图像信息中模糊区域。
S2053:获取所述模糊区域对应的预设周边区域中像素点的像素值。
S2055:对所述预设周边区域中像素点的像素值加权平均处理,得到平均像素值,所述预设周边区域中像素点的像素值所对应权重与所述像素点与所述模糊区域的距离成正比。
S2057:将每一字词的图像信息中模糊区域中像素点的像素值转换成对应的平均像素值,得到所述模糊字词图像集。
在实际应用中,对图像的部分模糊处理,可以理解为对于需要模糊的模糊区域中每个像素点取周边像素点(预设周边区域中像素点)的平均值,模糊半径越大,图像就越模糊,从数值角度看,即对数值进行了“平滑化”处理。但实际上图像都是连续的,越靠近的点关系越密切,越远离的点关系越疏远,相应的,本说明书实施例中,采用加权平均的方式对模糊区域进行模糊处理,即距离越近的像素点的像素值权重越大,距离越远的像素点的像素值权重越小。在一个具体的实施例中,可以采用二维的高斯分布函数来确定像素点的周围点的权重,进而对周围像素点的像素值进行加权平均,得到模糊后的图像。
具体的,以汉字“燥”的图像为例,如图7所示,通过对“燥”的图像种多个部分进行模糊处理后,可以得到多个模糊后的图像。
S207:基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果。
本说明书实施例中,字词识别模型可以包括基于目标字词集的模糊图像对预设深度学习模型进行训练得到的,具有识别模糊字词图像的中字词的模型。在一个具体的实施例中,预设深度学习模型可以包括但不限于CRNN(Convolutional Recurrent NeuralNetwork,卷积循环神经网络),CRNN的网络架构由三部分组成,依次包括卷积层,循环层和转录层,相应的,所述字词识别模型可以包括:卷积层、循环层和转录层。
在一个具体的实施例中,如图8所示,基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果可以包括:
S2071:利用所述卷积层提取所述模糊字词图像集中图像的特征信息。
S2073:利用所述循环层预测所述特征序列的字词标签分布。
S2075:利用所述转录层取对所述字词标签分布中的字词标签进行去重和整合处理,得到每一字词对应的模糊字词图像的字词识别结果。
本说明书实施例中,每一字词进行部分模糊处理后,可以得到多个不同区域进行模糊后的图像(模糊字词图像),相应的,每一字词的模糊字词图像进行字词识别时,不同的模糊区域对应的模糊字词图像可能存在相应的识别结果,相应的,可以将同一字词的多个模糊字词图像的字词标签(即识别出的字词)进行去重和整合处理,得到每一字词对应的模糊字词图像的字词识别结果。
本说明书实施例中,通过对模糊后的字词图片进行字词识别,可以将大量相似笔画的字词识别为同一字词,以汉字“燥”为例,如图9所示,对不同部分模糊后的字“燥”的图像,进行字词识别(Optical Character Recognition,OCR),识别出的汉字可以包括:燥、澡、操、焊、烽。
S209:根据所述字词识别结果确定多个形似候选字词集。
本说明书实施例中,可以将目标字词集中每一字词对应的字词识别结果作为一个形似候选字词集,进而得到多个形似候选字词集。
S211:基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集。
本说明书实施例中,结合图9所示,对于模糊后的汉字“燥”可以识别出:澡、操、焊、烽等汉字,“澡”、“操”在实际书写过程中经常与“燥”混淆,因此,可以加入作为“燥”的形似字。但是“焊”、“烽”虽然可以是模糊后识别出来的形似字,但在实际情况中不会与“燥”构成形似字。相应的,本说明书实施例中,可以结合两个字词间的笔画编辑距离,对目标字词集中每一字词对应的形似候选字词集进行形似字词刷选,得到最终的形似字词集。具体的,如图10所示,基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集可以包括:
S2111:根据每一字词和所述字词对应的形似候选字词集中每一形似字词的书写笔画顺序,确定所述每一字词与所述形似字词间的笔画编辑距离。
S2113:根据每一字词和对应的形似候选字词集中每一形似字词的笔画数确定笔画阈值。
S2115:删除所述形似字词集中与所述字词间的笔画编辑距离小于等于笔画阈值的形似字词,得到所述形似字词集。
本说明书实施例中,两个字词间的笔画编辑距离可以包括从一个字词到另一个字词的笔画操作的最少次数,具体的,这里的笔画操作可以包括笔画增加、笔画删除和笔画修改。笔画阈值可以为两个字词为形似字词的笔画编辑距离上限值。具体的,笔画阈值η=0.25×(len(c1)+len(c2)),其中len(c1),len(c2)分别表示第一个字词和第二个字词的笔画数。
在一个具体的实施例中,以单个汉字为例,假设汉字“害”对应的形似字词候选集中包括汉字“需”,相应的,“害”和“需”的笔画顺序如图11所示,相应的,从“害”到“需”的笔画操作的最少次数为10,包括:删除一个“丶”,增加一个“一”,增加两个“丶”,将两个“丶”修改为两个“一”,将一个“丨”修改为一个“丿”,将一个“”修改为一个“”,将一个“一”修改为一个“丨”,增加一个“丨”。笔画阈值可以为0.25*(14+10)=6。10小于6,相应的,将“需”从“害”的形似字词候选集中删除。
在另一个具体的实施例中,假设汉字“待”对应的形似字词候选集中包括汉字“侍”,相应的,“待”和“侍”的笔画顺序如图12所示,相应的,从“待”到“侍”的笔画操作的最少次数为“侍”,包括:删除一个“丿”。笔画阈值可以为0.25*(8+9)=4.25。1大于4.25,相应的,将“侍”作为“待”的形似字。
本说明书实施例中,在基于字词识别模型确定出大量的形似字词候选集之后,结合字词间的笔画编辑距离,可以在保证形似字词的全面性的基础上,更好的保证同一形似字词集中字词间的形似性。
S213:将所述同音字词集、所述近音字词集和所述形似字词集作为错别字词识别集。
由以上本说明书实施例中提供的技术方案可见,本说明书实施例中,通过字词的无声调的拼音,可以获取全面的同音字词集;通过模糊音组合和拼音编辑距离来获取近音字词集,可以更好的保证近音字词集的全面性和近音字词集的质量;另外,在基于字词识别模型确定出大量的形似字词候选集之后,结合字词间的笔画编辑距离,可以在保证形似字词的全面性的基础上,更好的保证同一形似字词集中字词间的形似性。最后,将同音字词集、近音字词集和形似字词集作为错别字词识别集,可以有效提高错别字词识别集对易混淆字词的覆盖率和全面性,保证了错别字词识别集的质量,提高后续的错别字识别准确率。
基于本申请的错别字词识别集可以对应用于各种具有文本的系统中,以进行错别字字词的识别和纠正,相应的,如图13所示,可以包括:
S1301:获取目标错别字词识别文本;
S1303:基于所述错别字识别集对所述目标错别字词识别文本进行错别字词识别,得到目标错别字词识别文本中的错别字词和所述错别字词的替换字词;
S1305:根据所述替换字词对所述目标错别字词识别文本中的错别字词进行纠正处理,得到目标文本。
本说明书实施例中,目标错别字词识别文本可以包括任一需要进行错别字词识别的文本;目标文本可以包括进行错别字词纠正后的文本。
在进行错别字词识别时,可以先通过中文分词器(例如巴结)对文本进行切词处理,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;然后,遍历所有的疑似错误位置,并使用本申请的错别字词识别集中的同音、近音和形似字词替换错误位置的词,然后通过语言模型计算句子困惑度(句子困惑度表征某一字词在句子的这个位置上出现的概率),对所有同音、近音和形似字词比较并排序,将句子困惑度最高的作为替换字词。
在一个具体的实施例中,对于一些需要进行文本信息发布的平台,在文本进入推荐池之前,可以结合本申请实施例提供的错别字词识别集自动识别错别字词并提示文本中的错别字词,以辅助相关人员的审核,拦截错别字词过多的低质量文本进入推荐池;
在另一个具体的实施例中,结合本申请实施例提供的错别字词识别集可以帮助相关文本发布者在发布前的错别字词识别和纠正。例如,辅助自媒体作者发文,在发文前帮助用户检查文章中的疑似错别字词,并提示纠正信息(替换字词),从而帮助作者减少或避免文章中的错别字词。
本说明书实施例中,结合错别字词识别集进行文章的错别字词识别和纠正处理,可以实现对错别字词的纠正,将更高质量的文章推荐给用户,提高用户的阅读体验。
本申请实施例还提供了一种错别字词识别集的生成装置,如图14所示,所述装置包括:
信息获取模块1410,用于获取目标字词集中每一字词的拼音信息和图像信息;
同近音字词集生成模块1420,用于根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集;
部分模糊处理模块1430,用于对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集;
字词识别模块1440,用于基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果;
形似候选字词集确定模块1450,用于根据所述字词识别结果确定多个形似候选字词集;
形似字词集确定模块1460,用于基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集;
错别字词识别集确定模块1470,用于将所述同音字词集、所述近音字词集和所述形似字词集作为错别字词识别集。
在一些实施例中,所述同近音字词集生成模块1420包括:
聚类处理单元,用于根据所述拼音信息对所述目标字词集进行聚类处理,得到多个同音字词集;
第一部分近音字词集生成单元,用于根据模糊音组合生成所述目标字词集对应的第一部分近音字词集;
第二部分近音字词集生成单元,用于基于所述拼音信息间的拼音编辑距离,生成所述目标字词集对应的第二部分近音字词集;
近音字词集确定单元,用于将所述第一部分近音字词集和所述第二部分近音字词集作为所述多个近音字词集。
在一些实施例中,所述第二部分近音字词集生成单元包括:
拼音编辑类型确定单元,用于确定两两字词间的拼音编辑类型,所述拼音编辑类型表征两两字词间从一个字词的拼音信息编辑成另一个字词的拼音信息所需的操作的类型;
拼音编辑距离确定单元,用于根据预设拼音编辑距离设定规则,确定所述两两字词间的拼音编辑类型对应的拼音编辑距离,所述预设拼音编辑距离设定规则包括不同拼音编辑类型对应的拼音编辑距离;
第二部分近音字词集生成单元,用于基于两两字词间的拼音编辑类型对应的拼音编辑距离等于预设近音阈值的两两字词,生成所述第二部分近音字词集。
在一些实施例中,所述部分模糊处理模块1430包括:
模糊区域确定单元,用于确定每一字词的图像信息中模糊区域;
像素值获取单元,用于获取所述模糊区域对应的预设周边区域中像素点的像素值;
加权平均处理单元,用于对所述预设周边区域中像素点的像素值加权平均处理,得到平均像素值,所述预设周边区域中像素点的像素值所对应权重与所述像素点与所述模糊区域的距离成正比;
模糊字词图像集确定单元,用于将每一字词的图像信息中模糊区域中像素点的像素值转换成对应的平均像素值,得到所述模糊字词图像集。
在一些实施例中,所述字词识别模型包括:卷积层、循环层和转录层;
所述字词识别模块1440包括:
特征信息提取单元,用于利用所述卷积层提取所述模糊字词图像集中图像的特征信息;
字词标签分布预测单元,用于利用所述循环层预测所述特征序列的字词标签分布;
字词识别结果确定单元,用于利用所述转录层取对所述字词标签分布中的字词标签进行去重和整合处理,得到每一字词对应的模糊字词图像的字词识别结果。
在一些实施例中,所述形似字词集确定模块1460包括:
笔画编辑距离确定单元,用于根据每一字词和所述字词对应的形似候选字词集中每一形似字词的书写笔画顺序,确定所述每一字词与所述形似字词间的笔画编辑距离;
笔画阈值确定单元,用于根据每一字词和对应的形似候选字词集中每一形似字词的笔画数确定笔画阈值;
字词删除单元,用于删除所述形似字词集中与所述字词间的笔画编辑距离小于等于笔画阈值的形似字词,得到所述形似字词集。
在一些实施例中,所述装置还包括:
文本获取模块,用于获取目标错别字词识别文本;
错别字词识别模块,用于基于所述错别字识别集对所述目标错别字词识别文本进行错别字词识别,得到目标错别字词识别文本中的错别字词和所述错别字词的替换字词;
纠正处理模块,用于根据所述替换字词对所述目标错别字词识别文本中的错别字词进行纠正处理,得到目标文本。
所述的装置实施例中的装置与方法实施例基于同样的申请构思。
本申请实施例提供了一种错别字词识别集的生成设备,该错别字词识别集的生成设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的错别字词识别集的生成方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图15是本申请实施例提供的一种错别字词识别集的生成方法的服务器的硬件结构框图。如图15所示,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,CPU)1510(处理器1510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1530,一个或一个以上存储应用程序1523或数据1522的存储介质1520(例如一个或一个以上海量存储设备)。其中,存储器1530和存储介质1520可以是短暂存储或持久存储。存储在存储介质1520的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1510可以设置为与存储介质1520通信,在服务器1500上执行存储介质1520中的一系列指令操作。服务器1500还可以包括一个或一个以上电源1560,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1540,和/或,一个或一个以上操作系统1521,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1500的通信供应商提供的无线网络。在一个实例中,输入输出接口1540包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1540可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图15所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1500还可包括比图15中所示更多或者更少的组件,或者具有与图15所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种错别字词识别集的生成方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的错别字词识别集的生成方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的错别字词识别集的生成方法、装置、服务器或存储介质的实施例可见,本申请中通过字词的无声调的拼音,可以获取全面的同音字词集;通过模糊音组合和拼音编辑距离来获取近音字词集,可以更好的保证近音字词集的全面性和近音字词集的质量;另外,在基于字词识别模型确定出大量的形似字词候选集之后,结合字词间的笔画编辑距离,可以在保证形似字词的全面性的基础上,更好的保证同一形似字词集中字词间的形似性。最后,将同音字词集、近音字词集和形似字词集作为错别字词识别集,可以有效提高错别字词识别集对易混淆字词的覆盖率和全面性,保证了错别字词识别集的质量,大大提高了错别字识别的准确率。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种错别字词识别集的生成方法,其特征在于,所述方法包括:
获取目标字词集中每一字词的拼音信息和图像信息;
根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集;
对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集;
基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果;
根据所述字词识别结果确定多个形似候选字词集;
基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集;
将所述同音字词集、所述近音字词集和所述形似字词集作为错别字词识别集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集包括:
根据所述拼音信息对所述目标字词集进行聚类处理,得到多个同音字词集;
根据模糊音组合生成所述目标字词集对应的第一部分近音字词集;
基于所述拼音信息间的拼音编辑距离,生成所述目标字词集对应的第二部分近音字词集;
将所述第一部分近音字词集和所述第二部分近音字词集作为所述多个近音字词集。
3.根据权利要求1所述的方法,其特征在于,所述基于所述拼音信息间的拼音编辑距离,生成所述目标字词集对应的第二部分近音字词集包括:
确定两两字词间的拼音编辑类型,所述拼音编辑类型表征两两字词间从一个字词的拼音信息编辑成另一个字词的拼音信息所需的操作的类型;
根据预设拼音编辑距离设定规则,确定所述两两字词间的拼音编辑类型对应的拼音编辑距离,所述预设拼音编辑距离设定规则包括不同拼音编辑类型对应的拼音编辑距离;
基于两两字词间的拼音编辑类型对应的拼音编辑距离等于预设近音阈值的两两字词,生成所述第二部分近音字词集。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集包括:
确定每一字词的图像信息中模糊区域;
获取所述模糊区域对应的预设周边区域中像素点的像素值;
对所述预设周边区域中像素点的像素值加权平均处理,得到平均像素值,所述预设周边区域中像素点的像素值所对应权重与所述像素点与所述模糊区域的距离成正比;
将每一字词的图像信息中模糊区域中像素点的像素值转换成对应的平均像素值,得到所述模糊字词图像集。
5.根据权利要求1所述的方法,其特征在于,所述字词识别模型包括:卷积层、循环层和转录层;
所述基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果包括:
利用所述卷积层提取所述模糊字词图像集中图像的特征信息;
利用所述循环层预测所述特征序列的字词标签分布;
利用所述转录层取对所述字词标签分布中的字词标签进行去重和整合处理,得到每一字词对应的模糊字词图像的字词识别结果。
6.根据权利要求1所述的方法,其特征在于,所基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集包括:
根据每一字词和所述字词对应的形似候选字词集中每一形似字词的书写笔画顺序,确定所述每一字词与所述形似字词间的笔画编辑距离;
根据每一字词和对应的形似候选字词集中每一形似字词的笔画数确定笔画阈值;
删除所述形似字词集中与所述字词间的笔画编辑距离小于等于笔画阈值的形似字词,得到所述形似字词集。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标错别字词识别文本;
基于所述错别字识别集对所述目标错别字词识别文本进行错别字词识别,得到目标错别字词识别文本中的错别字词和所述错别字词的替换字词;
根据所述替换字词对所述目标错别字词识别文本中的错别字词进行纠正处理,得到目标文本。
8.一种错别字词识别集的生成装置,其特征在于,所述装置包括:
信息获取模块,用于获取目标字词集中每一字词的拼音信息和图像信息;
同近音字词集生成模块,用于根据所述目标字词集中每一字词的拼音信息生成多个同音字词集和多个近音字词集;
部分模糊处理模块,用于对所述目标字词集中每一字词的图像信息进行部分模糊处理,得到模糊字词图像集;
字词识别模块,用于基于字词识别模型对所述模糊字词图像集中图像进行字词识别,得到每一字词对应的模糊字词图像的字词识别结果;
形似候选字词集确定模块,用于根据所述字词识别结果确定多个形似候选字词集;
形似字词集确定模块,用于基于每一字词和所述每一字词对应的形似候选字词集中形似字词间的笔画编辑距离,对所述形似候选字词集进行形似字词刷选,得到形似字词集;
错别字词识别集确定模块,用于将所述同音字词集、所述近音字词集和所述形似字词集作为错别字词识别集。
9.一种错别字词识别集的生成服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的错别字词识别集的生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的错别字词识别集的生成方法。
CN201910870761.5A 2019-09-16 2019-09-16 错别字词识别集的生成方法、装置、设备及存储介质 Pending CN110610180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910870761.5A CN110610180A (zh) 2019-09-16 2019-09-16 错别字词识别集的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910870761.5A CN110610180A (zh) 2019-09-16 2019-09-16 错别字词识别集的生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110610180A true CN110610180A (zh) 2019-12-24

Family

ID=68891327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910870761.5A Pending CN110610180A (zh) 2019-09-16 2019-09-16 错别字词识别集的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110610180A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626118A (zh) * 2020-04-23 2020-09-04 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN111737948A (zh) * 2020-05-06 2020-10-02 福建天晴数码有限公司 一种错别字的生成方法及终端
CN112307748A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于处理文本的方法和装置
CN112766236A (zh) * 2021-03-10 2021-05-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN112990353A (zh) * 2021-04-14 2021-06-18 中南大学 一种基于多模态模型的汉字易混淆集构建方法
CN116882383A (zh) * 2023-07-26 2023-10-13 中信联合云科技有限责任公司 基于文本分析的数字化智能校对系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307748A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于处理文本的方法和装置
CN111626118A (zh) * 2020-04-23 2020-09-04 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN111737948A (zh) * 2020-05-06 2020-10-02 福建天晴数码有限公司 一种错别字的生成方法及终端
CN111737948B (zh) * 2020-05-06 2022-10-21 福建天晴数码有限公司 一种错别字的生成方法及终端
CN112766236A (zh) * 2021-03-10 2021-05-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN112990353A (zh) * 2021-04-14 2021-06-18 中南大学 一种基于多模态模型的汉字易混淆集构建方法
CN116882383A (zh) * 2023-07-26 2023-10-13 中信联合云科技有限责任公司 基于文本分析的数字化智能校对系统

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN110674629B (zh) 标点符号标注模型及其训练方法、设备、存储介质
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
CN109147767B (zh) 语音中的数字识别方法、装置、计算机设备及存储介质
CN110163181B (zh) 手语识别方法及装置
CN111310440B (zh) 文本的纠错方法、装置和系统
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
US9286527B2 (en) Segmentation of an input by cut point classification
KR102293538B1 (ko) 음악 심볼들을 인식하기 위한 방법 및 장치
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN114022882B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN111914825B (zh) 文字识别方法、装置及电子设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN111581367A (zh) 一种题目录入的方法和系统
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN110414622B (zh) 基于半监督学习的分类器训练方法及装置
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN117272977A (zh) 人物描写语句的识别方法、装置、电子设备及存储介质
CN109614494B (zh) 一种文本分类方法及相关装置
CN110516125A (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019496

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination