CN114091439A - 汉字混淆集生成方法及装置和计算机可读存储介质 - Google Patents
汉字混淆集生成方法及装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114091439A CN114091439A CN202111281258.XA CN202111281258A CN114091439A CN 114091439 A CN114091439 A CN 114091439A CN 202111281258 A CN202111281258 A CN 202111281258A CN 114091439 A CN114091439 A CN 114091439A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- confusion
- character
- chinese
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
Description
技术领域
本申请涉及中文校对系统领域,尤其涉及一种汉字混淆集生成方法及装置和计算机可读存储介质。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分,然而文本惜别字也越来越多,这给校对工作带来了很大的挑战。传统的人工校对效率低、强度大、周期长显然不能满足文本校对的需求。因此,需要研究文本自动校对技术,而汉语文本自动校对中错别字混淆集是一种非常重要的资源,它的合理性和完备性是文本自动校对技术的有效性的一个重要因素。
目前有很多学者提出了如何生成混淆集的方法。比如有学者利用拼音和五笔的编码,如(拼音bei,北被倍备背辈贝杯卑臂悲碑,五笔(pb)字-(pv)安)设计字之间的相似函数,从而构建混淆集。也有学者利用手工方法整理出字形、字音、字义和输入码相近字,首先根据相似字特征生成混淆集,然后利用混淆集替换对应位置上的字生成候选集,但手工工作量大。此外,也有学者构建了一个错别字混淆集图并设计了自扩展算法,以发现新的错别字对从而补充混淆集。混淆集图的构建方法依赖于字的音,形,点阵相似度,以及字在键盘中的键位。
但是上述混淆集的生成方法均将拼音和字形特征分开考量,即最终混淆集为拼音生成的混淆集和字形生成的混淆集,两者的并集,并未将两类特征统一到一个混淆集生成框架中,从而使得最后生成的混淆集并不合理,准确性也不高。
发明内容
因此,针对上述问题中的至少部分不足和缺陷,本申请实施例提供的一种汉字混淆集生成方法包括:对汉字集合中的任意两个汉字分别进行组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。
上述技术方案将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习真实的用户错别字分布,从而生成了一个准确率更高的混淆集。
在本申请实施例提供的一种汉字混淆集生成方法例如还包括:建立所述预设机器学习模型;其中,所述建立所述预设机器学习模型包括:获取标签混淆对;以所述标签混淆对中的汉字为组成元素得到标签汉字集合;对所述标签汉字集合中的任意两个汉字进行组对得到多个标签汉字对、并分别构造所述多个标签汉字对各自对应的混淆特征;根据所述标签混淆对和所述多个标签汉字对各自对应的所述混淆特征进行训练得到所述预设机器学习模型。
在本申请实施例提供的一种汉字混淆集生成方法中,所述字形特征包括字体结构特征和最长笔画字符子串占比特征,所述拼音特征包括最长拼音字符子串占比特征、声母特征以及韵母特征。
在本申请实施例提供的一种汉字混淆集生成方法中,所述构造所述多个汉字对各自对应的混淆特征包括:获取所述多个汉字中的目标汉字对的拼音信息;根据所述目标汉字对的所述拼音信息获取所述目标汉字对的最长拼音字符子串占比特征、声母特征以及韵母特征;获取所述目标汉字对的字形特征;根据所述目标汉字对的所述字形特征获取所述目标汉字对的的字体结构特征以及最长笔画字符子串占比特征。
在本申请实施例提供的一种汉字混淆集生成方法中,所述获取所述汉字对的拼音信息包括:获取所述目标汉字对中的第一汉字的第一汉字拼音以及第二汉字的第二汉字拼音;获取所述第一汉字拼音中的第一声母以及所述第二汉字拼音中的第二声母;获取所述第一汉字拼音中的第一韵母以及所述第二汉字拼音中的第二韵母;获取所述第一汉字拼音的第一字符串长度、所述第二汉字拼音的第二字符串长度以及所述第一汉字拼音和所述第二汉字拼音中的公共字符串长度。
在本申请实施例提供的一种汉字混淆集生成方法中,所述根据所述目标汉字对的所述拼音信息确定所述目标汉字对的最长拼音字符子串占比特征、声母特征以及韵母特征;如若所述第一声母和所述第二声母相同,所述声母特征为第一特征值,否则所述声母特征为第二特征值;如若所述第一韵母和所述第二韵母相同,所述韵母特征为第三特征值,否则所述韵母特征为第四特征值;根据所述第一字符串长度和所述第二字符串长度确定所述目标汉字对的最长字符串长度;将所述公共字符串长度和所述最长字符串长度进行除法运算得到所述最长拼音字符子串占比特征。
在本申请实施例提供的一种汉字混淆集生成方法中,所述获取所述汉字对的字形特征包括:获取所述目标汉字对中的第一汉字的第一字体结构和第二汉字的第二字体结构;获取所述第一汉字的第一笔画编码和所述第二汉字的第二笔画编码;获得所述第一笔画编码的第一笔画编码长度、第二笔画编码的第二笔画编码长度以及所述第二笔画编码和所述第二笔画编码中的公共笔画编码长度。
在本申请实施例提供的一种汉字混淆集生成方法中,所述根据所述目标汉字对的所述字形特征获取所述目标汉字对的的字体结构特征以及最长笔画字符子串占比特征包括:如若所述第一字体结构和所述字体结构特征为第五特征值,否则所述字体结构特征为第六特征值;根据所述第一笔画编码长度和所述第二笔画编码长度确定所述目标汉字对的最长笔画编码长度;将所述公共笔画编码长度和所述最长笔画编码长度进行除法运算得到所述最长笔画字符子串占比特征。
本申请实施例提供的一种汉字混淆集生成装置例如包括:汉字对生成模块,用于对汉字集合中的任意两个汉字进行组对得到多个汉字对;混淆特征构造模块,用于构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;汉字对预测模块,用于采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测得到所述多个汉字对的正例汉字混淆对;以及汉字混淆集生成模块,用于根据所述正例汉字混淆对生成汉字混淆集。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储器且存储有计算机可执行指令,所述计算机可执行指令用于执行如前述实施例任意一项所述的汉字混淆集生成方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。通过在汉字对的字形混淆特征中引用汉字的笔画和汉字的结构特征,提高了生成的混淆集的合理性。此外,在建立预设机器学习模型中,以真实场景中获取的标签混淆对及其混淆特征进行训练以得到预设机器学习模型,其更进一步提高了生成的混淆集的合理性和准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请第一实施例提供的一种汉字混淆集生成方法的步骤流程示意图。
图2为本申请第一实施例提供又一种汉字混淆集生成方法的步骤流程示意图。
图3为图2中步骤S3的具体流程示意图。
图4为图1中步骤S2的具体流程示意图。
图5为图4中步骤S21的具体流程示意图。
图6为图4中步骤S22的具体流程示意图。
图7为图4中步骤S23的具体流程示意图。
图8为图4中步骤S24的具体流程示意图。
图9为本申请第一实施例提供的一种汉字混淆集生成方法的具体流程示意图。
图10为本申请第二实施例提供的一种汉字混淆集生成装置的结构示意图。
图11为本申请第三实施例提供的一种汉字混淆集生成系统的结构示意图。
图12为本申请第四实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
【第一实施例】
如图1所示,本申请实施例提供了一种汉字混淆集生成方法。该汉字混淆集生成方法例如可应用在计算机或计算机软件如中文校对系统中以生成汉字混淆集。具体地,本申请实施例提供的汉字混淆集生成方法,包括如下步骤:
S1:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;
S2:构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;
S4:采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;
S5:根据所述正例汉字混淆对生成汉字混淆集。
上述技术方案将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
进一步地,如图2所示,上述实施例提到的一种汉字混淆集生成方法例如还包括步骤S3:建立所述预设机器学习模型;
具体地,如图3所示,步骤S3包括步骤如下:
S31:获取标签混淆对;
S32:以所述标签混淆对中的汉字为组成元素得到标签汉字集合。
S33:对所述标签汉字集合中的任意两个汉字进行组对得到多个标签汉字对、并分别构造所述多个标签汉字对各自对应的混淆特征;
S34:根据所述标签混淆对和所述多个标签汉字对各自对应的所述混淆特征进行训练得到所述预设机器学习模型。
其中,步骤S31中提到标签混淆对从线上新闻语料的大量新闻语料中经过人工筛选和校对得到的真实混淆错误对的集合,因此,上述技术方案在建立预设机器学习模型中,以真实场景中获取的标签混淆对及其混淆特征进行训练以得到预设机器学习模型,其更进一步提高了生成的混淆集的合理性和准确性。
进一步的,步骤S2中提到的字形特征包括字体结构特征和最长笔画字符子串占比。拼音特征包括最长拼音字符子串占比、声母特征以及韵母特征。因此如图4所示,步骤S2包括如下步骤:
S21:获取所述多个汉字中的目标汉字对的拼音信息;
S22:根据所述目标汉字对的所述拼音信息获取所述目标汉字对的最长拼音字符子串占比特征、声母特征以及韵母特征;
S23:获取所述目标汉字对的字形特征;
S24:根据所述目标汉字对的所述字形特征获取所述目标汉字对的的字体结构特征以及最长笔画字符子串占比特征。
上述技术方案在构造汉字对的字形混淆特征中引用汉字的笔画和汉字的结构特征,提高了生成的混淆集的合理性
更具体的,如图5所示,步骤S21包括如下步骤:
S211:获取所述目标汉字对中的第一汉字的第一汉字拼音以及第二汉字的第二汉字拼音;
S212:获取所述第一汉字拼音中的第一声母以及所述第二汉字拼音中的第二声母;
S213:获取所述第一汉字拼音中的第一韵母以及所述第二汉字拼音中的第二韵母;
S214:获取所述第一汉字拼音的第一字符串长度、所述第二汉字拼音的第二字符串长度以及所述第一汉字拼音和所述第二汉字拼音中的公共字符串长度。
如图6所示,步骤S22具体包括:
S221:如若所述第一声母和所述第二声母相同,所述声母特征为第一特征值,否则所述声母特征为第二特征值;
S222:如若所述第一韵母和所述第二韵母相同,所述韵母特征为第三特征值,否则所述韵母特征为第四特征值;
S223:根据所述第一字符串长度和所述第二字符串长度确定所述目标汉字对的最长字符串长度;
S224:将所述公共字符串长度和所述最长字符串长度进行除法运算得到所述最长拼音字符子串占比特征。
进一步地,如图7所示,步骤S23包括如下步骤:
S231:获取所述目标汉字对中的第一汉字的第一字体结构和第二汉字的第二字体结构;
S232:获取所述第一汉字的第一笔画编码和所述第二汉字的第二笔画编码;
S233:获得所述第一笔画编码的第一笔画编码长度、第二笔画编码的第二笔画编码长度以及所述第二笔画编码和所述第二笔画编码中的公共笔画编码长度。
如图8所示,步骤S24包括如下步骤:
S241:如若所述第一字体结构和所述字体结构特征为第五特征值,否则所述字体结构特征为第六特征值;
S242:根据所述第一笔画编码长度和所述第二笔画编码长度确定所述目标汉字对的最长笔画编码长度;
S243:将所述公共笔画编码长度和所述最长笔画编码长度进行除法运算得到所述最长笔画字符子串占比特征。
下面结合如图9所示的流程示意图对本申请上述实施例提供的一种汉字混淆集的生成方法做具体地阐述。
首先,用户收集真实混淆错误对(也称为真实混淆对)。真实混淆错误对的获取过程如下:首先从线上新闻语料中爬取从各大新闻门户网站中爬取的大量新闻语料,然后利用现有的校对产品找出这些语料中存在的错别字及其建议。收集这些错别字建立混淆对,并统计其频率,通过人工筛选和校对得出高频混淆错误对,即真实混淆错误对(对应步骤S31中的标签混淆对)。通过上述过程收集而来的真实混淆错误对的集合即为真实错误分布的混淆集。将上述收集得到的真实混淆错误对输入至计算机(对应步骤S31)以进行后续操作。在这个过程中,上述提到的真实混淆错误对指的是语料错误频率大于50次的高频混淆错误对(参见表1)。
表1高频混淆错误对分布表
错别字 | 纠错建议 | 错误频率 |
合 | 和 | 376 |
住 | 主 | 5722 |
型 | 性 | 519 |
只 | 支 | 137 |
白 | 百 | 71 |
当然可以理解的是,语料错误频率大于60次、70次的混淆对也可以视为高频混淆错误对,本申请不以此为限制。值得一提的是,本申请采用线上爬取的新闻语料中出现的混淆对为基础建立样本训练集,更贴近用户在真实场景下的输入情况,从而使得本申请生成的混淆集更为合理和准确。
其次,计算机生成汉字混淆对的特征(仅仅在采集数据集中的)。这里提到的特征为混淆特征。具体地,计算机以其获得高频混淆对中的汉字为组成元素组成汉字集合C(对应步骤S32,汉字集合C对应标签汉字集合以及图9提到的采集数据集)。然后从汉字集合C中任选两个汉字Ca和汉字Cb,且 构建GetFeature函数,使得GetFeature(Ca,Cb)的返回结果为Ca和Cb的混淆特征(对应步骤S33)。其中组合(Ca,Cb)为汉字混淆对(对应标签汉字对)可以理解的是,这里所构建GetFeature函数能返回任意两个汉字组成的汉字对的混淆特征,即当Ca和Cb选自其他汉字集合时,其也能返回汉字对(Ca,Cb)的混淆特征。可以理解的是,上述汉字混淆对中包涵高频混淆对,即在标签汉字对中包含标签混淆对。为了方便理解,后续以表一中的一对汉字混淆对(白,百)为例,阐述如何得到该汉字混淆对的混淆特征。
汉字混淆对的混淆特征包括字形混合特征和拼音混淆特征。更具体的,字形混合特征包括字体结构特征和最长笔画字符子串占比特征。拼音特征包括最长拼音字符子串占比特征、声母特征以及韵母特征。因此对汉字混淆对构建如表2的特征。可以理解的是,这里提到的字体结构特征还可以是汉字字体的编码间隔等其他与汉字字体结构有关的特征,拼音特征还可以包括拼音的声调等其他与与汉字拼音有关的特征,本申请不以此为限制。
表2汉字混淆对的混淆特征及其类型
混淆特征 | 特征类型 |
最长拼音字符子串占比特征 | 数值型 |
声母特征 | 布尔型 |
韵母特征 | 布尔型 |
字体结构特征 | 布尔型 |
最长笔画字符子串占比特征 | 数值型 |
其中,最长拼音字符子串占比特征主要描述两个字在拼音拼写上的相似的程度。其构建方法为,获取汉字混淆对中的目标汉字对的拼音信息。设两个字拼音分别为PYa和PYb,取PYa和PYb的最长拼音字符串长度(对应最长字符串长度)为max_spell_length,PYa和PYb的公共最长长度(对应公共字符串长度)为common_spell_length。则最长拼音字符子串占比为ratio=common_spell_length/max_spell_length。以上述提到的汉字混淆对(白,百)为目标汉字对为例。获取“白”(第一汉字)的拼音为“bai”,“百”(第二汉字)的拼音“bai”。其中“白”的拼音字符串长度为3,“百”的拼音字符串长度也为3,因此二者中最长拼音字符串长度也为3。此外通过对比两个汉字的拼音可以看出,其公共最长字符为“bai”,即公共最长长度为3,因此将公共最长字符长度与最长拼音字符串长度进行除法运算得到了该汉字混淆对的最长拼音字符子串占比为特征。汉字混淆对(白,百)最长拼音字符子串占比为1.0。
而声母特征主要衡量两个字声母是否相同。其构造方法为设两个字的声母分别为PY_init_a和PY_init_b,如果PY_init_a和PY_init_b相同则返回第一特征值,否则返回第二特征值。由于本申请构造的声母特征的特征类型为布尔型,因此当其判断条件为真时返回1,反之返回0。因而第一特征值为1,第二特征值为0。由上可知,“白”的声母为“b”,百的声母为“b”,因此该汉字对的声母特征为1。
韵母特征为主要衡量两个字韵母是否相同。韵母特征的构造方法为设两个字的韵母分别为PY_foot_a和PY_foot_b,如果PY_foot_a和PY_foot_b相同返回第三特征值,否则返回第四特征值。由于本申请构造的韵母特征的特征类型为布尔型,因此当其判断条件为真时返回1,反之返回0。因而第三特征值为1,第四特征值为0。例如“白”的韵母为“ai”,“百”的韵母为“ai”。韵母相同则该特征值为1,反之则为0。
字体结构特征主要描述两个字在字形上是否相似。中文汉字属于象形文字,每个字都其字体结构,如“办”独体结构,“消”左右结构,“屋”半包围结构,“国”全包围结构。因此建立混淆对的字体结构特征能增加生成混淆集的准确性。具体地,构造字体机构特征的方法为:设两个字的字体结构分别为structure_a和structure_b,如果structure_a和structure_b相同则返回第五特征值,否则返回第六特征值。由于本申请构造的字体结构特征的特征类型为布尔型,因此当其判断条件为真时返回1,反之返回0。因而第五特征值为1,第六特征值为0。在上述举例中“白”为独体结构、“百”也为独体结构,因此该汉字混淆对的字体结构特征为1。
最长笔画字符子串占比特征要描述两个字在字形上是否相似。其构造方法为:将每个字的笔画顺序,转化为笔画编码,例如“自”的笔画编码为“撇竖横钩横横横”,“白”的笔画编码为“撇竖横钩横横”。设两个字的笔画编码长度分别为strokes_a和strokes_b,取strokes_a和strokes_b的最长笔画字符长度(最长笔画编码长度)为max_strokes_length,strokes_a和strokes_b的公共最长长度(公共笔画编码长度)为common_strokes_length。则最长笔画字符子串占比为ratio=common_strokes_length/max_strokes_length。其中,“白”的笔画编码为“撇竖横钩横横”,其笔画编码长度为5。“百”的笔画编码为“横撇竖横钩横横”,其笔画编码长度为6。因此两者中的公共最长笔画编码为“撇竖横钩横横”,其公共最长长度为5,因此该汉字混淆对的最长笔画字符子串占比特征为公共最长长度和最长笔画字符长度进行除法运算得到的0.83。
由上可知,上述提到的构建汉字混淆对的混淆特征的GetFeature函数实现如下:
Input:汉字Ca和汉字Cb
Output:汉字Ca和Cb的混淆特征
function GetFeature(Ca,Cb)
f1<-最长拼音字符子串占比特征(Ca,Cb)
f2<-声母特征(Ca,Cb)
f3<-韵母特征(Ca,Cb)
f4<-字体结构特征(Ca,Cb)
f5<-最长笔画字符子串占比特征(Ca,Cb)
return(f1,f2,f3,f4,f5)
end function
以汉字混淆对(白,百)为例,将其输入该函数中即可获得其混淆特征为(1.0,1,1,1,0.83)。因此对任意输入该函数的汉字对均可获得其混淆特征。值得注意的是,本申请上述提到的函数名称只是多个函数名称的一个举例,此外,上述生成各个混淆特征的顺序也可以进行调整,本发明并不以此为限。
其次,进行SVM模型训练(对应步骤S3),其中,训练完成的SVM模型对应步骤S34中提到的预设机器学习模型。具体地,机器学习模型例如采用SVM模型(support vectormachine,支持向量机模型)。SVM模型为一种二分类模型,其可以通过输入的向量特征进行分类。该步骤具体为将汉字混淆对和汉字混淆对对应的混淆特征输入SVM模型,利用机器学习训练SVM模型以得到预设机器学习模型。
具体地,SVM模型的样本集合为前面得到的所有汉字混淆对以及汉字混淆对对应的混淆特征。SVM模型的特征为通过上述构建混淆特征函数获取的混淆特征。SVM模型的任务为通过输入的混淆特征能实现对该混淆特征对应的汉字混淆对进行预测,从而输出正例汉字混淆对。利用机器学习对SVM模型训练从而得到预设机器学习模型训练过程为:将获取的汉字混淆对及其对应的混淆特征输入SVM模型,其中,在输入过程中,以汉字混淆对中真实混淆错误对和真实混淆错误对对应的混淆特征为标签样本,而汉字混淆对及其对应的混淆特征中除上述标签样本外的样本为其他样本。SVM模型在获取输入之后将标签样本中的混淆特征以及其他样本中的混淆特征映射到一个样本空间。根据任务要求,在样本空间中,SVM模型将真实混淆对即真实混淆错误对视为正例,而其他样本视为负例,SVM模型将通过机器学习不断调整自身参数将正例和负例的混淆特征加以区分,从而能得到包含有能区分正例和负例阈值的预设机器学习模型。该预测机器学习模型能根据输入的汉字混淆对的字形混淆特征和拼音混淆特征对汉字对进行预测,从而输出满足阈值条件的正例汉字混淆对。
其次,穷举生成所有汉字(对应步骤S1中的汉字集合)的混淆对。具体地,穷举生成所有汉字的混淆对为从汉字集合中任意选择两个汉字进行分别组队得到多个汉字对。其中,多个汉字对包含从汉字集合中任选两个汉字组队的所有情况。可以理解的是,这里提到的汉字集合为例如为计算机存储的汉字集、输入法所带汉字集等需要校正的汉字组成的集合,且汉字集合包含上述提到的标签汉字集合。
然后,利用训练好的SVM预测所有汉字混淆对。其中,训练好的SVM指上述提到的预设机器学习模型,所有汉字混淆对对应步骤S1中的多个汉字对。该流程具体包括构造多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征。具体地,将多个汉字对输入上述构建的GetFeature函数中,即可获得该多个汉字对分别对应的混淆特征(对应步骤S2)。随后将多个汉字对中的目标汉字对以及其目标汉字对对应的混淆特征输入预设机器学习模型。预设机器学习模型将其混淆特征与阈值进行对比从而预测该混淆特征对应的目标汉字对是否为正例混淆对(对应步骤S3)。更换目标汉字对,从而预设机器学习模型能对多个汉字对进行预测,从而输出了多个正例混淆对。
最后,利用所有预测结果为正例的混淆对构建混淆集(对应步骤S5)。具体地,上述预设机器学习模型能将预测结果为正例的正例汉字混淆对进行输出。而输出的多个正例汉字混淆对中,存在有多个正例汉字混淆对中的组成汉字重合的情况,因此计算机将提取出这些有汉字重合的正例汉字混淆对,建立一对多或者一对二的汉字组合对组成的混淆集。
需要注意的,本申请提到的SVM模型为能实现二分类的一种机器学习模型的举例,因此任意采用实现二分类功能的机器学习模型以实现上述汉字混淆集的生成方法的技术方案均落在本申请的保护范围内。
综上所述,上述技术方案将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。通过在汉字对的字形混淆特征中引用汉字的笔画和汉字的结构特征,提高了生成的混淆集的合理性。此外,在建立预设机器学习模型中,以真实场景中获取的标签混淆对及其混淆特征进行训练以得到预设机器学习模型,其更进一步提高了生成的混淆集的合理性和准确性。
【第二实施例】
如图10所示,本发明第二实施例提供一种汉字混淆集生成装置30,该装置30包括汉字对生成模块31、混淆特征构造模块32、汉字对预测模块34以及汉字混淆集生成模块35。
其中,汉字对生成模块31,用于对汉字集合中的任意两个汉字进行组对得到多个汉字对。混淆特征构造模块32,用于构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征。汉字对预测模块34,用于采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测得到所述多个汉字对的正例汉字混淆对。汉字混淆集生成模块35,用于根据所述正例汉字混淆对生成汉字混淆集。
进一步地,上述提到的汉字混淆集生成装置30例如还包括建立预设机器学习模型模块。建立预设机器学习模型模块用于建立上述技术方案中使用的预设机器学习模型。
【第三实施例】
如图11所示,本发明第三实施例提供了一种汉字混淆集生成系统500。汉字混淆集生成系统包括存储器530和与存储器530连接的处理器510。存储器530可例如为非易失性存储器,其上存储有计算机程序531。处理器510可例如为ARM处理器或CPU。处理器510运行计算机程序531时执行前述第一实施例中的汉字混淆集生成方法。
【第四实施例】
如图12所示,本发明第四实施例提供的一种计算机可读存储介质50。计算机可读存储介质50例如为一种计算机可读存储介质,存储有计算机可执行指令51。计算机可读存储介质50例如为非易失性存储器,如包括:磁介质(如硬盘、软盘和磁带),光介质(如CDROM盘和DVD),磁光介质(如光盘)以及专门构造为用于存储和执行计算机可执行指令的硬件装置(如只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。计算机可执行指令51可由一个或多个处理器或处理装置来执行,以实现如前述第一实施例提供的汉字混淆集生成方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的信息下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种汉字混淆集生成方法,其特征在于,包括:
对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;
构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;
采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及
根据所述正例汉字混淆对生成汉字混淆集。
2.如权利要求1所述的汉字混淆集生成方法,其特征在于,还包括:建立所述预设机器学习模型;其中,所述建立所述预设机器学习模型包括:
获取标签混淆对;
以所述标签混淆对中的汉字为组成元素得到标签汉字集合;
对所述标签汉字集合中的任意两个汉字进行组对得到多个标签汉字对、并分别构造所述多个标签汉字对各自对应的混淆特征;
根据所述标签混淆对和所述多个标签汉字对各自对应的所述混淆特征进行训练得到所述预设机器学习模型。
3.如权利要求1所述的混淆集生成方法,其特征在于,所述字形特征包括字体结构特征和最长笔画字符子串占比特征,所述拼音特征包括最长拼音字符子串占比特征、声母特征以及韵母特征。
4.如权利要求1所述的汉字混淆集生成方法,其特征在于,所述构造所述多个汉字对各自对应的混淆特征包括:
获取所述多个汉字中的目标汉字对的拼音信息;
根据所述目标汉字对的所述拼音信息获取所述目标汉字对的最长拼音字符子串占比特征、声母特征以及韵母特征;
获取所述目标汉字对的字形特征;
根据所述目标汉字对的所述字形特征获取所述目标汉字对的的字体结构特征以及最长笔画字符子串占比特征。
5.如权利要求4所述的汉字混淆集生成方法,其特征在于,所述获取所述汉字对的拼音信息包括:
获取所述目标汉字对中的第一汉字的第一汉字拼音以及第二汉字的第二汉字拼音;
获取所述第一汉字拼音中的第一声母以及所述第二汉字拼音中的第二声母;
获取所述第一汉字拼音中的第一韵母以及所述第二汉字拼音中的第二韵母;
获取所述第一汉字拼音的第一字符串长度、所述第二汉字拼音的第二字符串长度以及所述第一汉字拼音和所述第二汉字拼音中的公共字符串长度。
6.如权利要求5所述的汉字混淆集生成方法,其特征在于,所述根据所述目标汉字对的所述拼音信息确定所述目标汉字对的最长拼音字符子串占比特征、声母特征以及韵母特征;
如若所述第一声母和所述第二声母相同,所述声母特征为第一特征值,否则所述声母特征为第二特征值;
如若所述第一韵母和所述第二韵母相同,所述韵母特征为第三特征值,否则所述韵母特征为第四特征值;
根据所述第一字符串长度和所述第二字符串长度确定所述目标汉字对的最长字符串长度;
将所述公共字符串长度和所述最长字符串长度进行除法运算得到所述最长拼音字符子串占比特征。
7.如权利要求4所述的汉字混淆集生成方法,其特征在于,所述获取所述汉字对的字形特征包括:
获取所述目标汉字对中的第一汉字的第一字体结构和第二汉字的第二字体结构;
获取所述第一汉字的第一笔画编码和所述第二汉字的第二笔画编码;
获得所述第一笔画编码的第一笔画编码长度、第二笔画编码的第二笔画编码长度以及所述第二笔画编码和所述第二笔画编码中的公共笔画编码长度。
8.如权利要求7所述的汉字混淆集生成方法,其特征在于,所述根据所述目标汉字对的所述字形特征获取所述目标汉字对的的字体结构特征以及最长笔画字符子串占比特征包括:
如若所述第一字体结构和所述字体结构特征为第五特征值,否则所述字体结构特征为第六特征值;
根据所述第一笔画编码长度和所述第二笔画编码长度确定所述目标汉字对的最长笔画编码长度;
将所述公共笔画编码长度和所述最长笔画编码长度进行除法运算得到所述最长笔画字符子串占比特征。
9.一种汉字混淆集生成装置,其特征在于,包括:
汉字对生成模块,用于对汉字集合中的任意两个汉字进行组对得到多个汉字对;
混淆特征构造模块,用于构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;
汉字对预测模块,用于采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测得到所述多个汉字对的正例汉字混淆对;以及
汉字混淆集生成模块,用于根据所述正例汉字混淆对生成汉字混淆集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质为非易失性存储器且存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至8中任意一项所述的汉字混淆集生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111281258.XA CN114091439B (zh) | 2021-11-01 | 2021-11-01 | 汉字混淆集生成方法及装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111281258.XA CN114091439B (zh) | 2021-11-01 | 2021-11-01 | 汉字混淆集生成方法及装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114091439A true CN114091439A (zh) | 2022-02-25 |
CN114091439B CN114091439B (zh) | 2022-12-27 |
Family
ID=80298369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111281258.XA Active CN114091439B (zh) | 2021-11-01 | 2021-11-01 | 汉字混淆集生成方法及装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091439B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990353A (zh) * | 2021-04-14 | 2021-06-18 | 中南大学 | 一种基于多模态模型的汉字易混淆集构建方法 |
WO2021139172A1 (zh) * | 2020-01-10 | 2021-07-15 | 苏州浪潮智能科技有限公司 | 一种文件存储为音频实现加密的方法、装置和设备 |
CN113536786A (zh) * | 2021-06-22 | 2021-10-22 | 深圳价值在线信息科技股份有限公司 | 混淆汉字的生成方法、终端设备及计算机可读存储介质 |
-
2021
- 2021-11-01 CN CN202111281258.XA patent/CN114091439B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139172A1 (zh) * | 2020-01-10 | 2021-07-15 | 苏州浪潮智能科技有限公司 | 一种文件存储为音频实现加密的方法、装置和设备 |
CN112990353A (zh) * | 2021-04-14 | 2021-06-18 | 中南大学 | 一种基于多模态模型的汉字易混淆集构建方法 |
CN113536786A (zh) * | 2021-06-22 | 2021-10-22 | 深圳价值在线信息科技股份有限公司 | 混淆汉字的生成方法、终端设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114091439B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN112131920B (zh) | 用于扫描图像中的表格信息的数据结构生成 | |
US20150154305A1 (en) | Method of automated discovery of topics relatedness | |
CN111885000B (zh) | 一种基于图神经网络的网络攻击检测方法、系统及装置 | |
US9224103B1 (en) | Automatic annotation for training and evaluation of semantic analysis engines | |
CN106980624A (zh) | 一种文本数据的处理方法和装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
CN112784013B (zh) | 一种基于上下文语义的多粒度文本推荐方法 | |
CN110609886A (zh) | 一种文本分析方法及装置 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
CN116628229B (zh) | 一种利用知识图谱生成文本语料的方法及装置 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
JP2024006944A (ja) | セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 | |
CN109726386B (zh) | 一种词向量模型生成方法、装置和计算机可读存储介质 | |
CN115617961A (zh) | 问题解答方法及装置 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN114091439B (zh) | 汉字混淆集生成方法及装置和计算机可读存储介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN116975275A (zh) | 多语种文本分类模型训练方法、装置和计算机设备 | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
CN114942981A (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN113362026A (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |