CN113536786A - 混淆汉字的生成方法、终端设备及计算机可读存储介质 - Google Patents

混淆汉字的生成方法、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113536786A
CN113536786A CN202110693430.6A CN202110693430A CN113536786A CN 113536786 A CN113536786 A CN 113536786A CN 202110693430 A CN202110693430 A CN 202110693430A CN 113536786 A CN113536786 A CN 113536786A
Authority
CN
China
Prior art keywords
character
chinese
target
characters
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110693430.6A
Other languages
English (en)
Inventor
赵洋
朱继刚
包荣鑫
陈龙
夏政委
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202110693430.6A priority Critical patent/CN113536786A/zh
Publication of CN113536786A publication Critical patent/CN113536786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种混淆汉字的生成方法、终端设备及计算机可读存储介质,包括:从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字;生成所述汉字集合中每个汉字的读音特征和结构特征;根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字;根据所述结构特征确定所述目标字在所述汉字集合中的形近字;根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。通过上述方法,可以有效提高混淆字字典的生成效率,并有效提高混淆字字典的通用性,进而提高文本纠错的准确率。

Description

混淆汉字的生成方法、终端设备及计算机可读存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种混淆汉字的生成方法、终端设备及计算机可读存储介质。
背景技术
随着人工智能技术的发展,自然语言处理技术的应用也越来越广泛。在自然语言处理过程中,随着待处理文本中错误词语的增加,自然语言处理结果的准确度也随之降低。因此,文本纠错是自然语言处理中的关键步骤。文本纠错是指将文本中错误的词语纠正为正确词语的过程。例如:将文本“大会采用现场计名投票的表决方式”中的“计”纠正为“记”。
文本纠错主要依赖于混淆字字典,混淆字字典中包括正确字和每个正确字的混淆字。现有技术中,通常是人工构建混淆字字典。这种方式工作量较大,效率较低;且由于标准不统一,导致生成的混淆字字典的通用性较差,进而影响文本纠错的准确率。
发明内容
本申请实施例提供了一种混淆汉字的生成方法、终端设备及计算机可读存储介质,可以有效提高混淆字字典的生成效率,并有效提高混淆字字典的通用性,进而提高文本纠错的准确率。
第一方面,本申请实施例提供了一种混淆汉字的生成方法,包括:
从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字;
生成所述汉字集合中每个汉字的读音特征和结构特征;
根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字;
根据所述结构特征确定所述目标字在所述汉字集合中的形近字;
根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。
在本申请实施例中,通过从预设语料库中提取汉字集合,能够获得常用的汉字;然后生成每个汉字的读音特征和结构特征,并根据每个汉字的读音特征和结构特征分别生成每个汉字的音近字和形近字;由于汉字的错误主要为音近字错误和形近字错误,因此,利用上述方法能够获得每个汉字的全面的、准确的相近字;最后根据每个汉字的音近字和形近字生成每个汉字的混淆字。通过上述方法,能够自动生成每个汉字的混淆字,有效提高了混淆字字典的生成效率;另外,利用上述方法生成的混淆字字典准确而全面,通用性较强,从而有利于提高文本纠错的准确率。
在第一方面的一种可能的实现方式中,所述从预设语料库中提取出汉字集合,包括:
统计所述预设语料库中每个汉字的出现频率;
按照所述出现频率从高到低的顺序对所述预设语料库中的汉字进行排序,得到第一汉字序列;
将所述第一汉字序列中前N个汉字生成所述汉字集合,其中,所述N为大于1大正整数。
在第一方面的一种可能的实现方式中,所述生成所述汉字集合中每个汉字的读音特征和结构特征,包括:
对于所述汉字集合中的任意一个汉字,根据所述汉字每种读音的声调和音节生成所述汉字每种读音的读音字符串;
将所述汉字每种读音的读音字符串确定为所述汉字的所述读音特征;
按照预设的汉字结构规则,将所述汉字拆分为多个偏旁部首;
将所述偏旁部首生成结构树,其中,每个所述偏旁部首为所述结构树的一个节点;
将所述结构树确定为所述汉字的所述结构特征。
在第一方面的一种可能的实现方式中,所述根据所述读音特征确定目标字在所述汉字集合中的音近字,包括:
根据所述读音特征计算所述目标字与每个非目标字之间的第一编辑距离,所述非目标字为所述汉字集合中除所述目标字外的任意一个汉字;
根据所述第一编辑距离计算所述目标字与每个所述非目标字之间的相似度;
根据所述相似度从所述非目标字中确定出所述目标字的所述音近字。
在第一方面的一种可能的实现方式中,所述根据所述读音特征计算所述目标字与每个非目标字之间的第一编辑距离,包括:
计算所述目标字的每个所述读音字符串与所述非目标字的每个所述读音字符串之间的所述第一编辑距离。
在第一方面的一种可能的实现方式中,所述根据所述第一编辑距离计算所述目标字与每个所述非目标字之间的相似度,包括:
计算每个所述第一编辑距离对应的最大字符长度,其中,所述最大字符长度为所述目标字的所述读音字符串的长度和所述非目标字的所述读音字符串的长度中的最大值;
根据所述最大字符长度计算每个所述第一编辑距离对应的读音距离比率;
将目标比率中的最大值确定为所述目标字与所述非目标字之间的所述相似度,其中,所述目标比率为所述目标字与所述非目标字之间的所述第一编辑距离对应的所述读音距离比率。
在第一方面的一种可能的实现方式中,所述根据所述结构特征确定所述目标字在所述汉字集合中的形近字,包括:
计算所述目标字的所述结构树和每个非目标字的所述结构树之间的第二编辑距离,其中,所述非目标字为所述汉字集合中除所述目标字外的任意一个汉字;
按照所述第二编辑距离从小到大的顺序对所述非目标字进行排序,得到第二汉字序列;
将所述第二汉字序列中的前M个汉字确定为所述目标字的所述形近字,其中,所述M为正整数。
在第一方面的一种可能的实现方式中,所述根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字,包括:
对所述目标字在所述汉字集合中的所述音近字和所述形近字进行去重处理,得到去重处理后的汉字;
将所述去重处理后的汉字确定为所述目标字的混淆字。
第二方面,本申请实施例提供了一种混淆汉字的生成装置,包括:
汉字提取单元,用于从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字;
特征生成单元,用于生成所述汉字集合中每个汉字的读音特征和结构特征;
音近字生成单元,用于根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字;
形近字生成单元,用于根据所述结构特征确定所述目标字在所述汉字集合中的形近字;
混淆字生成单元,用于根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的混淆汉字的生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的混淆汉字的生成方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的混淆汉字的生成方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的混淆汉字的生成方法的流程示意图;
图2是本申请实施例提供的结构树的示意图;
图3是本申请另一个实施例提供的混淆汉字的生成方法的流程示意图;
图4是本申请实施例提供的混淆汉字的生成装置的结构框图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
如在本申请说明书和所附权利要求书中所使用的那样,术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
参见图1,是本申请实施例提供的混淆汉字的生成方法的流程示意图,作为示例而非限定,所述方法可以包括以下步骤:
S101,从预设语料库中提取出汉字集合,汉字集合中包括多个汉字。
可以根据文本的类别获取预设语料库。例如:当需要对某个公司的财务报告进行文本纠错时,可以将该公司的历史财务报告作为预设语料库。当需要对谋篇学术论文进行文本纠错时,可以将该学术论文所属领域的学术文献作为预设语料库。
获取预设语料库的方式,可以是从预设的文件库中获取,还可以通过爬虫操作从网络上获取。
在一个实施例中,S101可以包括以下步骤:
统计预设语料库中每个汉字的出现频率;按照出现频率从高到低的顺序对预设语料库中的汉字进行排序,得到第一汉字序列;将第一汉字序列中前N个汉字生成汉字集合,其中,N为大于1大正整数。
在另一个实施例中,S101还可以包括以下步骤:
统计预设语料库中每个汉字的出现频率;将出现频率大于预设频率的汉字添加到汉字集合中。
汉字A的出现频率是指,在预设语料库中,汉字A的出现次数与预设语料库中汉字的总数的比值。汉字的出现频率越高,说明汉字被使用的次数越多。实际应用中,英文字母、数字和标点等字符的错误通常不予考虑,因此,只需统计预设语料库中每个汉字的出现概率即可。
N值越大,汉字集合中汉字的个数越多,后续混淆汉字的生成效率也会越低,但混淆字字典的覆盖范围相对较大。预设频率越大,汉字集合中汉字的个数越少,后续混淆汉字的生成效率越高,生成的混淆字字典的覆盖范围相对较小。因此,可以根据实际需要设定上述实施例中的N和预设频率。
通过上述方法,可以获取预设语料库中被使用次数较多的汉字(即常用汉字)。由于一些生僻字(如喌、壣、夁等)在文本中出现的频率较低,如果为预设语料库中的每个汉字生成混淆汉字,将会影响混淆字字典的生成效率。而通过上述方法,能够有效滤除使用频率较低的生僻字,进而有效提高混淆字字典的生成效率。
S102,生成汉字集合中每个汉字的读音特征和结构特征。
中文读音包括音节和声调。音近字可以包括音节相同、声调不同,以及音节不同、声调相同两种情况。例如,“金”和“进”两个字互为音节相同、声调不同的音近字,“静”和“进”两个字互为音节不同、声调相同的音近字(ing和in容易混淆)。因此,若要判别两个字是否为音近字,需要同时考虑音节和声调。
在一个实施例中,对于汉字集合中的任意一个汉字A,生成该汉字A的读音特征的步骤可以包括:
根据汉字A每种读音的声调和音节生成汉字A每种读音的读音字符串;将汉字A每种读音的读音字符串确定为汉字A的所述读音特征。
中文汉字存在多音字的情况,一个汉字可能对应多种读音,因此,需要为汉字的每种可能的读音生成读音字符串。这样后续生成的混淆汉字才会更全面、更准确。
可选的,根据汉字A任意一种读音的声调和音节生成汉字A在该读音下的读音字符串,可以包括:
获取汉字A的读音的声调对应的预设字符;将预设字符和汉字A的读音的音节中的每个字符组合成汉字A在该读音下的读音字符串。
中文声调包括阴平(即第一声调,通常用“ˉ”表示)、阳平(即第二声调,通常用“ˊ”表示)、上声(即第三声调,通常用“ˇ”表示)和去声(即第四声调,通常用“ˋ”表示)四种。表示不同声调的预设字符可以是可供计算机识别的字符,如数字或字母等。
示例性的,假设“薄”的读音为báo,假设阴平对应的预设字符为1、阳平对应的预设字符为2、上声对应的预设字符为3、去声对应的预设字符为4。那么读音báo的声调对应的预设字符为2。该读音的音节bao中包括3个字符。生成的读音báo的读音字符串为“bao2”。
实际应用中,可以利用Python的PyPinyin库中的style.TONE2或style.TONE3的格式生成读音字符串。PyPinyin库可用于将汉字转成拼音,该库具有根据词组智能匹配最正确的拼音、支持多音字、支持繁体、支持注音和支持多种不同的拼音/注音风格的特点。其中,style.TONE2是指声调在音节中的韵母之后、用数字1-4表示,如ba2o。style.TONE3格式是指,读音的声调在音节之后、用数字1-4表示。当然,也可以自行设定读音字符串的格式,如令声调在声母之后或之前(b2ao或2bao)。
可选的,对于汉字集合中的任意一个汉字A,生成该汉字A的结构特征的步骤可以包括:
按照预设的结构规则将汉字A拆分为多个偏旁部首;将偏旁部首生成结构树,其中,每个偏旁部首为结构树的一个节点;将结构树确定为汉字A的结构特征。
预设的结构规则可以是汉字的笔画结构。例如:汉字的笔画结构包括左右、上下、上中下、半包围和全包围等。按照笔画结构将汉字“乔”拆分为“夭”、“丿”和“丨”这三个偏旁部首。当然,还可以将每个偏旁部首继续拆分为多个基本笔画(如横、竖、撇、捺、点、折等)。但是拆分的细粒度越高,后续生成混淆汉字的数据处理量越大,效率越低。由于利用偏旁部首已经足够判断两个汉字的相似度,因此,将汉字拆分至偏旁部首即可,这样有利于减少混淆汉字生成方法的数据处理量、提高处理效率。
可以按照汉字书写的顺序,将偏旁部首生成结构树。具体的,可以将排在书写顺序中第一位的偏旁部首作为结构树中的根节点,将排在书写顺序中第二位的偏旁部首作为根节点的子节点,依次类推。示例性的,参见图2,是本申请实施例提供的结构树的示意图。如图2中的(a)所示,“乔”字的结构树的根节点为“夭”,“夭”的子节点为“丿”和“丨”。
还可以,将汉字的笔画结构作为结构树中的根节点,然后按照笔画结构依次确定每个子节点。如图2中的(b)所示,“乔”字的笔画结构为上下结构,将上下结构对应的标识
Figure BDA0003127073230000091
作为结构树中的根节点;上部分的“夭”根节点下的一个子节点,下部分结构又由一个左右结构组成,将该左右结构对应的标识
Figure BDA0003127073230000092
作为根节点下的另一个子节点;将“丿”和“丨”分别作为该左右结构的节点下的两个子节点。上述示例中,为了便于表示,结构的标识用图形的形式展示。实际应用中,结构的标识通常用可供计算机识别的符号来表示。例如,可以用不同的数字或字母表示不同的笔画结构,然后将数字或字母作为节点。
通过上述实施例,生成了可供计算机处理的汉字的读音特征和结构特征,为后续的混淆汉字的生成提供了可靠的数据依据。
S103,根据读音特征确定目标字在汉字集合中的音近字。
目标字为所述汉字集合中的任意一个汉字。
在一个实施例中,S103可以包括以下步骤:
根据读音特征计算目标字与每个非目标字之间的第一编辑距离,非目标字为汉字集合中除目标字外的任意一个汉字;根据第一编辑距离计算目标字与每个非目标字之间的相似度;根据相似度从非目标字中确定出目标字的音近字。
由于读音特征可能包括多个读音字符串,因此,需要计算目标字的每个读音字符串与非目标字的每个读音字符串之间的第一编辑距离。
编辑距离,是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个字符串<w1,w2>之间,由其中一个字符串w1转换为另一个字符串w2所需要的最少单字符编辑操作次数。其中,单字符编辑操作有且仅有三种:插入、删除和替换。
可选的,可以利用Levenstein算法计算第一编辑距离。公式如下:
Figure BDA0003127073230000101
其中,leva,b(ai,bi)表示读音字符串a中第i个字符ai和读音字符串b中第j个字符bj之间的第一编辑距离。公式中min中的三个公式分别对应字符串的插入、删除和替换操作,每个操作都会导致编辑距离加1。
Figure BDA0003127073230000102
表示当ai≠bj时取值为1,当ai=bj时取值为0。最后计算出的leva,b(|a|,|b|)为读音字符串a和读音字符串b的第一编辑距离,|a|为读音字符串a中字符的个数,|b|为读音字符串b中字符的个数。
由于读音字符串的长度不同,长的读音字符串之间的编辑距离一般比短的读音字符串之间的编辑距离大。为了统一度量标准,提高音近字判别的可靠性,可选的,根据第一编辑距离计算目标字与任意一个非目标字之间的相似度,可以包括以下步骤:
计算每个第一编辑距离对应的最大字符长度,其中,最大字符长度为目标字的读音字符串的长度和非目标字的读音字符串的长度中的最大值;根据最大字符长度计算每个第一编辑距离对应的读音距离比率;将目标比率中的最大值确定为目标字与非目标字之间的相似度,其中,目标比率为目标字与非目标字之间的第一编辑距离对应的读音距离比率。
具体的,读音距离比率的计算公式如下:
Figure BDA0003127073230000111
其中,Sima,b为读音字符串a和读音字符串b的第一编辑距离leva,b(|a|,|b|)对应的读音距离比率,max(|a|,|b|)表示第一编辑距离leva,b(|a|,|b|)对应的最大字符长度。
示例性的,根据上述方法,“薄”字的读音字符串bao2、bo、bu4和bo4这四个读音字符串与“保”字的读音字符串bao3之间的读音距离比率分别为:1-1/4=0.75,1-2/4=0.5,1-3/4=0.25,1-2/4=0.5。将其中的最大值0.75作为“薄”与“保”之间的相似度。
上述方法中,考虑了多音字的情况,统计每种读音的读音字符串;并通过读音距离比率的计算方式将读音字符串的编辑距离有效统一,避免了长短读音字符串的编辑距离存在差异的情况。通过上述实施例,能够获取较准确、较全面的音近字。
S104,根据结构特征确定目标字在汉字集合中的形近字。
在一个实施例中,S104可以包括以下步骤:
计算目标字的结构树和每个非目标字的结构树之间的第二编辑距离;按照第二编辑距离从小到大的顺序对非目标字进行排序,得到第二汉字序列;将第二汉字序列中的前M个汉字确定为目标字的形近字,其中,M为正整数。
计算结构树之间的编辑距离,是指将一颗结构树映射到另一颗结构树所需的最小操作数。但是结构树之间的编辑距离的计算方式要复杂得多,可选的,本申请实施例中,利用APTED算法计算结构树之间的编辑距离。
APTED算法的基本思路是:首先自左向右、自右向左分别递归结构树中包含的所有子树;然后分别匹配两个结构树中的节点,以确定两个结构树之间的相同节点,并计算节点变换所需的步数;最后根据结构树的节点数量和节点变换所需的步数计算结构树之间的编辑距离。
例如,利用上述方法计算出的“乔”字与“不”的第二编辑距离为0.935,与“介”的第二编辑距离为0.935,与“齐”的第二编辑距离为0.935,与“万”的第二编辑距离为0.875。假设M=1,将最小的第二编辑距离对应的汉字确定为“乔”的形近字,即“万”。
与音近字的处理相似,本申请实施例中也可以继续计算第二编辑距离对应的结构距离比率。计算方法可以参照读音距离比率的计算方法,在此不再赘述。
S105,根据目标字在汉字集合中的音近字和形近字生成目标字的混淆字。
在一个实施例中,S105可以包括以下步骤:
对目标字在汉字集合中的音近字和形近字进行去重处理,得到去重处理后的汉字;将去重处理后的汉字确定为目标字的混淆字。
实际应用中,可能存在某个汉字的音近字和形近字为同一个字的情况,这时该汉字的混淆字中相当于存在了两个相同的汉字。对每个汉字的音近字和形近字进行去重处理,能够提高混淆字典的精确度,并节约存储混淆字典所需的存储空间。
参见图3,是本申请另一个实施例提供的混淆汉字的生成方法的流程示意图。如图3所示,生成混淆汉字可以分为音近字的生成和形近字的生成两部分。
在本申请实施例中,通过从预设语料库中提取汉字集合(如图3所示的常见汉字),能够获得常用的汉字;然后生成每个汉字的读音特征(如图3所示的汉字的读音和音调)和结构特征(如图3所示的汉字字形结构和二叉树状结构),并根据每个汉字的读音特征和结构特征分别生成每个汉字的音近字和形近字(图3所示的读音距离比率);由于汉字的错误主要为音近字错误和形近字错误,因此,利用上述方法能够获得每个汉字的全面的、准确的相近字;最后根据每个汉字的音近字和形近字生成每个汉字的混淆字。通过上述方法,能够自动生成每个汉字的混淆字,有效提高了混淆字字典的生成效率;另外,利用上述方法生成的混淆字字典准确而全面,通用性较强,从而有利于提高文本纠错的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的方法,图4是本申请实施例提供的混淆汉字的生成装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该装置包括:
汉字提取单元41,用于从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字。
特征生成单元42,用于生成所述汉字集合中每个汉字的读音特征和结构特征。
音近字生成单元43,用于根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字。
形近字生成单元44,用于根据所述结构特征确定所述目标字在所述汉字集合中的形近字。
混淆字生成单元45,用于根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。
可选的,汉字提取单元41还用于:
统计所述预设语料库中每个汉字的出现频率;按照所述出现频率从高到低的顺序对所述预设语料库中的汉字进行排序,得到第一汉字序列;将所述第一汉字序列中前N个汉字生成所述汉字集合,其中,所述N为大于1大正整数。
可选的,特征生成单元42还用于:
对于所述汉字集合中的任意一个汉字,根据所述汉字每种读音的声调和音节生成所述汉字每种读音的读音字符串;将所述汉字每种读音的读音字符串确定为所述汉字的所述读音特征;按照预设的汉字结构规则,将所述汉字拆分为多个偏旁部首;将所述偏旁部首生成结构树,其中,每个所述偏旁部首为所述结构树的一个节点;将所述结构树确定为所述汉字的所述结构特征。
可选的,音近字生成单元43还用于:
根据所述读音特征计算所述目标字与每个非目标字之间的第一编辑距离,所述非目标字为所述汉字集合中除所述目标字外的任意一个汉字;根据所述第一编辑距离计算所述目标字与每个所述非目标字之间的相似度;根据所述相似度从所述非目标字中确定出所述目标字的所述音近字。
可选的,音近字生成单元43还用于:
计算所述目标字的每个所述读音字符串与所述非目标字的每个所述读音字符串之间的所述第一编辑距离。
可选的,音近字生成单元43还用于:
计算每个所述第一编辑距离对应的最大字符长度,其中,所述最大字符长度为所述目标字的所述读音字符串的长度和所述非目标字的所述读音字符串的长度中的最大值;根据所述最大字符长度计算每个所述第一编辑距离对应的读音距离比率;将目标比率中的最大值确定为所述目标字与所述非目标字之间的所述相似度,其中,所述目标比率为所述目标字与所述非目标字之间的所述第一编辑距离对应的所述读音距离比率。
可选的,形近字生成单元44还用于:计算所述目标字的所述结构树和每个非目标字的所述结构树之间的第二编辑距离,其中,所述非目标字为所述汉字集合中除所述目标字外的任意一个汉字;按照所述第二编辑距离从小到大的顺序对所述非目标字进行排序,得到第二汉字序列;将所述第二汉字序列中的前M个汉字确定为所述目标字的所述形近字,其中,所述M为正整数。
可选的,混淆字生成单元45还用于:
对所述目标字在所述汉字集合中的所述音近字和所述形近字进行去重处理,得到去重处理后的汉字;将所述去重处理后的汉字确定为所述目标字的混淆字。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
另外,图4所示的装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终端设备中,还可以作为独立的终端设备存在。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图5是本申请实施例提供的终端设备的结构示意图。如图5所示,该实施例的终端设备5包括:至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个混淆汉字的生成方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图5仅仅是终端设备5的举例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种混淆汉字的生成方法,其特征在于,包括:
从预设语料库中提取出汉字集合,所述汉字集合中包括多个汉字;
生成所述汉字集合中每个汉字的读音特征和结构特征;
根据所述读音特征确定目标字在所述汉字集合中的音近字,所述目标字为所述汉字集合中的任意一个汉字;
根据所述结构特征确定所述目标字在所述汉字集合中的形近字;
根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字。
2.如权利要求1所述的混淆汉字的生成方法,其特征在于,所述从预设语料库中提取出汉字集合,包括:
统计所述预设语料库中每个汉字的出现频率;
按照所述出现频率从高到低的顺序对所述预设语料库中的汉字进行排序,得到第一汉字序列;
将所述第一汉字序列中前N个汉字生成所述汉字集合,其中,所述N为大于1大正整数。
3.如权利要求1所述的混淆汉字的生成方法,其特征在于,所述生成所述汉字集合中每个汉字的读音特征和结构特征,包括:
对于所述汉字集合中的任意一个汉字,根据所述汉字每种读音的声调和音节生成所述汉字每种读音的读音字符串;
将所述汉字每种读音的读音字符串确定为所述汉字的所述读音特征;
按照预设的汉字结构规则,将所述汉字拆分为多个偏旁部首;
将所述偏旁部首生成结构树,其中,每个所述偏旁部首为所述结构树的一个节点;
将所述结构树确定为所述汉字的所述结构特征。
4.如权利要求3所述的混淆汉字的生成方法,其特征在于,所述根据所述读音特征确定目标字在所述汉字集合中的音近字,包括:
根据所述读音特征计算所述目标字与每个非目标字之间的第一编辑距离,所述非目标字为所述汉字集合中除所述目标字外的任意一个汉字;
根据所述第一编辑距离计算所述目标字与每个所述非目标字之间的相似度;
根据所述相似度从所述非目标字中确定出所述目标字的所述音近字。
5.如权利要求4所述的混淆汉字的生成方法,其特征在于,所述根据所述读音特征计算所述目标字与每个非目标字之间的第一编辑距离,包括:
计算所述目标字的每个所述读音字符串与所述非目标字的每个所述读音字符串之间的所述第一编辑距离。
6.如权利要求5所述的混淆汉字的生成方法,其特征在于,所述根据所述第一编辑距离计算所述目标字与每个所述非目标字之间的相似度,包括:
计算每个所述第一编辑距离对应的最大字符长度,其中,所述最大字符长度为所述目标字的所述读音字符串的长度和所述非目标字的所述读音字符串的长度中的最大值;
根据所述最大字符长度计算每个所述第一编辑距离对应的读音距离比率;
将目标比率中的最大值确定为所述目标字与所述非目标字之间的所述相似度,其中,所述目标比率为所述目标字与所述非目标字之间的所述第一编辑距离对应的所述读音距离比率。
7.如权利要求3所述的混淆汉字的生成方法,其特征在于,所述根据所述结构特征确定所述目标字在所述汉字集合中的形近字,包括:
计算所述目标字的所述结构树和每个非目标字的所述结构树之间的第二编辑距离,其中,所述非目标字为所述汉字集合中除所述目标字外的任意一个汉字;
按照所述第二编辑距离从小到大的顺序对所述非目标字进行排序,得到第二汉字序列;
将所述第二汉字序列中的前M个汉字确定为所述目标字的所述形近字,其中,所述M为正整数。
8.如权利要求1所述的混淆汉字的生成方法,其特征在于,所述根据所述目标字在所述汉字集合中的所述音近字和所述形近字生成所述目标字的混淆字,包括:
对所述目标字在所述汉字集合中的所述音近字和所述形近字进行去重处理,得到去重处理后的汉字;
将所述去重处理后的汉字确定为所述目标字的混淆字。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN202110693430.6A 2021-06-22 2021-06-22 混淆汉字的生成方法、终端设备及计算机可读存储介质 Pending CN113536786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110693430.6A CN113536786A (zh) 2021-06-22 2021-06-22 混淆汉字的生成方法、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110693430.6A CN113536786A (zh) 2021-06-22 2021-06-22 混淆汉字的生成方法、终端设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113536786A true CN113536786A (zh) 2021-10-22

Family

ID=78125542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110693430.6A Pending CN113536786A (zh) 2021-06-22 2021-06-22 混淆汉字的生成方法、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113536786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091439A (zh) * 2021-11-01 2022-02-25 北京百分点科技集团股份有限公司 汉字混淆集生成方法及装置和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1243982A (zh) * 1999-08-24 2000-02-09 郭熙凡 自由式小键盘中文输入方法及装置
CN111079379A (zh) * 2019-12-03 2020-04-28 微梦创科网络科技(中国)有限公司 形近字获取方法、装置、电子设备及存储介质
CN111209447A (zh) * 2019-02-27 2020-05-29 山东大学 一种基于音形码的中文字符串相似度计算方法及装置
CN111930890A (zh) * 2020-07-28 2020-11-13 深圳市梦网科技发展有限公司 信息发送方法、装置、终端设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112667961A (zh) * 2019-10-16 2021-04-16 武汉斗鱼网络科技有限公司 一种识别广告弹幕发布者的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1243982A (zh) * 1999-08-24 2000-02-09 郭熙凡 自由式小键盘中文输入方法及装置
CN111209447A (zh) * 2019-02-27 2020-05-29 山东大学 一种基于音形码的中文字符串相似度计算方法及装置
CN112667961A (zh) * 2019-10-16 2021-04-16 武汉斗鱼网络科技有限公司 一种识别广告弹幕发布者的方法及系统
CN111079379A (zh) * 2019-12-03 2020-04-28 微梦创科网络科技(中国)有限公司 形近字获取方法、装置、电子设备及存储介质
CN111930890A (zh) * 2020-07-28 2020-11-13 深圳市梦网科技发展有限公司 信息发送方法、装置、终端设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张莉等: "一种云端信息安全字形的生成模型", 《计算机科学》, vol. 43, no. 11, 15 November 2016 (2016-11-15), pages 417 - 421 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091439A (zh) * 2021-11-01 2022-02-25 北京百分点科技集团股份有限公司 汉字混淆集生成方法及装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110110041B (zh) 错词纠正方法、装置、计算机装置及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN105279149A (zh) 一种中文文本自动校正方法
JP5130892B2 (ja) 文字符号化処理方法及びシステム
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
CN111199726A (zh) 基于语音成分的细粒度映射的语言语音处理
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN112002323A (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN111797217B (zh) 基于faq匹配模型的信息查询方法、及其相关设备
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
CN109308311A (zh) 一种多源异构数据融合系统
CN111401012A (zh) 文本纠错方法、电子设备及计算机可读存储介质
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN113536786A (zh) 混淆汉字的生成方法、终端设备及计算机可读存储介质
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN113157852A (zh) 语音处理的方法、系统、电子设备及存储介质
CN113536776A (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN113553833B (zh) 文本纠错的方法、装置及电子设备
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination