CN114943203A

CN114943203A - 汉字相似度的获得方法、装置、电子设备和存储设备

Info

Publication number: CN114943203A
Application number: CN202210485055.0A
Authority: CN
Inventors: 贾伟; 夏威; 许春媛; 杨睿昕
Original assignee: Lazas Network Technology Shanghai Co Ltd
Current assignee: Lazas Network Technology Shanghai Co Ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-26

Abstract

本申请实施例提供一种汉字相似度的获得方法、装置、电子设备以及存储设备，其中，汉字相似度的获得方法包括：获取第一待比较汉字的音形向量，作为第一音形向量，第一音形向量用于表示第一待比较汉字的发音特征和/或字形特征；获取第二待比较汉字的音形向量，作为第二音形向量，第二音形向量用于表示第二待比较汉字的发音特征和/或字形特征；根据第一音形向量和第二音形向量，得到第一待比较汉字和第二待比较汉字之间的相似度。

Description

汉字相似度的获得方法、装置、电子设备和存储设备

技术领域

本申请涉及计算机技术领域，具体涉及一种汉字相似度的获得方法、装置、电子设备和存储设备。

背景技术

互联网用户言论表达的内容以及形式日益多样化，其中难免会有一些违反互联网监管规定的内容。对于违规内容，网络平台通常需要做识别(例如，使用违规词识别模型对违规内容进行识别)、删除等处置，有些用户试图以各种各样的方式绕过网络平台的防控手段。形近和/或音近字替换是绕过平台的防控手段的常用方式，用户通过把受监管的违规词汇中的某个或某几个汉字替换为形近和/或音近字的方式，既表达了试图要表达的内容，也能绕过监管的防控。

对于上述变相的违规内容表达，网络平台可以通过在模型的训练过程中进行文本增强的方式提升违规词识别模型的鲁棒性，以加强防控能力。文本增强过程中需要对增强文本的有效性进行衡量，即对违规词汇中的替换文字和相应的被替换文字的发音和/或字形的相似度进行可解释、可量化的计算，但是目前还缺少这样的计算方法。

因此，如何可解释、可量化地计算形近和/或音近字之间相似度，是亟待解决的技术问题。

发明内容

本申请实施例提供了一种汉字相似度的获得方法、装置、电子设备和存储设备，以可解释、可量化地计算形近和/或音近字之间相似度。

本申请实施例提供一种汉字相似度的获得方法，所述方法包括：获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

在一些实施例中，所述音形向量包括发音元素组；所述发音元素组通过以下方式获取：获取所述第一待比较汉字的拼音信息；根据所述第一待比较汉字的拼音信息，得到所述发音元素组。

在一些实施例中，所述根据所述第一待比较汉字的拼音信息，得到所述发音元素组，包括：获取所述第一待比较汉字的拼音信息中的声母对应的声母编码；获取所述第一待比较汉字的拼音信息中的韵母对应的韵母编码；将所述声母编码和所述韵母编码作为所述发音元素组中的元素，得到所述发音元素组。

在一些实施例中，所述获取所述第一待比较汉字的拼音信息中的声母对应的声母编码，包括：根据所述拼音信息中的声母，从声母编码映射表得到所述声母编码。

在一些实施例中，所述获取所述第一待比较汉字的拼音信息中的韵母对应的韵母编码，包括：根据所述拼音信息中的韵母，从韵母编码映射表得到所述韵母编码。

在一些实施例中，所述根据所述第一待比较汉字的拼音信息，得到所述发音元素组，还包括：获取所述第一待比较汉字的拼音信息中的介母对应的介母编码；将所述介母编码作为所述发音元素组中的元素。

在一些实施例中，所述获取所述第一待比较汉字的拼音信息中的介母对应的介母编码，包括：根据所述拼音信息中的介母，从韵母编码映射表得到所述介母编码。

在一些实施例中，所述第一音形向量包括字形元素组；所述字形元素组通过以下方式获取：获取所述第一待比较汉字的四角编码；将所述四角编码作为所述字形元素组中的元素。

在一些实施例中，所述方法还包括：获取所述第一待比较汉字的结构的编码；将所述结构的编码作为所述字形元素组中的元素。

在一些实施例中，所述方法，还包括：获取所述第一待比较汉字的笔画的数量；将所述笔画的数量作为所述字形元素组中的元素。

在一些实施例中，所述方法还包括：对所述第一待比较汉字进行拆分，得到至少一个构字元素；确定所述至少一个构字元素中的任意构字元素的四角编码；将所述任意构字元素的四角编码作为所述字形元素组中的元素。

在一些实施例中，所述根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度，包括：对所述第一音形向量进行转码操作，得到第一转码向量；对所述第二音形向量进行转码操作，得到第二转码向量；根据所述第一转码向量和所述第二转码向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

在一些实施例中，所述对所述第一音形向量进行转码操作，得到第一转码向量，包括：将所述第一音形向量中的各个元素转换为二进制数据段；将多个所述二进制数据段作为第一转码向量中的元素，得到所述第一转码向量。

在一些实施例中，所述根据所述第一转码向量和所述第二转码向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度，包括：确定第一数量值，所述第一数量值为所述第一转码向量和所述第二转码向量中位于相同位置的数值相同的二进制数的个数；确定第二数量值，所述第二数量值为所述第一转码向量或所述第二转码向量中二进制数的个数；根据所述第一数量值和所述第二数量值，得到所述第一待比较汉字和所述第二待比较汉字的相似度。

在一些实施例中，所述根据所述第一数量值和所述第二数量值，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度，包括：计算所述第一数量值和所述第二数量值的比值，将计算结果作为所述相似度。

在一些实施例中，所述方法还包括：从客户端接收所述第一待比较汉字；获取多个汉字，并将所述多个汉字中的任意汉字作为第二待比较汉字。

在一些实施例中，所述方法还包括：判断所述第一待比较汉字和所述第二待比较汉字之间的相似度是否大于相似度阈值；若是，则将所述第二待比较汉字作为所述第一待比较汉字的相似汉字，并向所述客户端发送所述第二待比较汉字。

本申请实施例提供一种违规语料的获取方法，所述方法包括：从第一字符串中选取任意汉字作为第一待比较汉字，所述第一字符串为预设的违规语料；获得不同于所述第一待比较汉字的第二待比较汉字；获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；如果所述相似度超过预设的相似度阈值，则将所述第一字符串中的第一待比较汉字替换为所述第二待比较汉字，得到第二字符串，将所述第二字符串作为违规语料。

在一些实施例中，所述方法还包括：根据所述第一字符串和所述第二字符串生成训练数据集；使用所述训练数据集，对初始识别模型进行训练，得到违规词识别模型，所述违规词识别模型用于识别文本中的违规词汇。

本申请实施例提供一种违规语料的获取方法，所述方法包括：从第一字符串中选取多个汉字，所述第一字符串为预设的违规语料；将所述多个汉字中的任意汉字作为第一待比较汉字，并获得不同于所述第一待比较汉字的第二待比较汉字；获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；根据所述任意汉字对应的所述相似度，得到所述任意汉字对应的替换字；将所述第一字符串中的所述任意汉字替换为与所述任意汉字对应的替换字，得到第二字符串，将所述第二字符串作为违规语料。

在一些实施例中，所述根据所述任意汉字对应的所述相似度，得到所述任意汉字对应的替换字，包括：如果所述任意汉字对应的所述相似度超过预设的相似度阈值，则将所述任意汉字对应的第二待比较汉字作为所述任意汉字对应的替换字。

在一些实施例中，所述根据所述任意汉字对应的相似度，得到所述任意汉字对应的替换字，包括：计算所述多个汉字中各个汉字对应的相似度的平均数值，如果所述平均数值超过预设的平均相似度阈值，则将所述任意汉字对应的第二待比较汉字作为所述任意汉字对应的替换字。

在一些实施例中，所述根据所述任意汉字对应的相似度，得到所述任意汉字对应的替换字，包括：如果所述多个汉字中各个汉字对应的相似度中的最大相似度大于预设的相似度阈值，则将所述任意汉字对应的第二待比较汉字作为所述任意汉字对应的替换字。

本申请实施例提供一种汉字相似度的获得装置，所述装置包括：第一音形向量获取模块，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；第二音形向量获取模块，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；相似度获取模块，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

本申请实施例提供一种违规语料的获取装置，所述装置包括：第一待比较汉字获取模块，用于从第一字符串中选取任意汉字作为第一待比较汉字，所述第一字符串为预设的违规语料；第二待比较汉字获取模块，用于获得不同于所述第一待比较汉字的第二待比较汉字；第一音形向量获取模块，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；第二音形向量获取模块，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；相似度获取模块，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；替换模块，用于如果所述相似度超过预设的相似度阈值，则将所述第一字符串中的第一待比较汉字替换为所述第二待比较汉字，得到第二字符串，将所述第二字符串作为违规语料。

本申请实施例提供一种违规语料的获取装置，所述装置包括：第一获取模块，用于从第一字符串中选取多个汉字，所述第一字符串为预设的违规语料；第二获取模块，用于将所述多个汉字中的任意汉字作为第一待比较汉字，并获得不同于所述第一待比较汉字的第二待比较汉字；第三获取模块，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；第四获取模块，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；相似度获取模块，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；替换字获取模块，用于根据所述任意汉字对应的所述相似度，得到所述任意汉字对应的替换字；替换模块，用于将所述第一字符串中的所述任意汉字替换为与所述任意汉字对应的替换字，得到第二字符串，将所述第二字符串作为违规语料。

本申请实施例提供一种电子设备，电子设备包括存储器和处理器，存储器存储计算机程序，处理器运行程序时执行如上的方法。

本申请实施例提供一种存储设备，用于存储计算机可读程序，计算机可读程序被运行时，执行如上的方法。

本申请的实施例中，使用声母编码、介母编码以及韵母编码确定第一音形向量和第二音形向量的发音元素组，使用四角编码、结构编码以及笔画数确定第一音形向量和第二音形向量的字形元素组，因此，第一音形向量和第二音形向量既可以准确的反映出第一待比较汉字和第二待比较汉字的发音特征和/或字形特征，同时第一音形向量和第二音形向量之间的相似度具有可解释性，从而基于第一音形向量和第二音形向量计算出的第一待比较汉字和第二待比较汉字之间的相似度也具有可解释性。

本申请的实施例中，利用二进制数只有0、1两种数值的特点，通过对第一音形向量和第二音形向量进行转码操作，得到二进制数表示的第一转码向量和第二转码向量，从而将第一待比较汉字和第二待比较汉字的发音特征和/或字形特征通过数字的形式精确的量化。然后通过计算第一转码向量和第二转码向量中位于相同位置的数值相同的二进制数的个数与第一转码向量/第二转码向量的长度的比值，得到第一待比较汉字和第二待比较汉字之间量化表达的相似度。例如，对于如下5组第一待比较汉字和第二待比较汉字：“段”和“锻”、“椴”和“锻”，“缎”和“椴”以及“风”和“凤”，通过本申请实施例的方法，可以得到它们之间的相似度，分别为：0.77884615384615、0.8253367003367004、0.8522727272727273、0.8909090909090909、1.0。由上述示例可知，两个汉字的发音和/或字形越接近，通过本申请实施例的方法得到的两个汉字之间的相似度也越高。

附图说明

图1是根据本申请一些实施例所示的汉字相似度的获得方法的应用场景图；

图2是根据本申请一些实施例所示的汉字相似度的获得方法的示例性流程图；

图3是根据本申请一些实施例所示的确定第一待比较汉字对应的第一音形向量的示例性流程图；

图4A是根据本申请一些实施例所示的第一音形向量和第一转码向量的示例性示意图；

图4B是根据本申请一些实施例所示的第二音形向量和第二转码向量的示例性示意图；

图5是根据本申请一些实施例所示的声母编码映射表的示例性示意图；

图6是根据本申请一些实施例所示的韵母编码映射表的示例性示意图；

图7是根据本申请一些实施例所示的汉字相似度的获得装置的示例性示意图；

图8是根据本申请一些实施例所示的一种电子设备的示例性结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请中使用的术语是仅仅出于对特定实施例描述的目的，而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如：“一种”、“第一”、和“第二”等，并非对数量上的限定或先后顺序上的限定，而是用来将同一类型的信息彼此区分。

图1是根据本申请一些实施例所示的汉字相似度的获得方法的应用场景图。

本申请实施例提供的汉字相似度的获得方法可以应用于多种任务，包括但不限于：违规词识别模型训练过程中的文本增强、在线客服场景中的问题召回、网络评论中的变体字识别等任意需要基于汉字与汉字之间的相似度，进行音近和/或形近字识别的任务。

仅作为示例，下面以违规词识别模型的训练任务为例对本申请的汉字相似度的获得方法的应用场景进行说明。

如图1所示，在应用场景100中可以包括服务端110、终端120和网络130。

在一些实施例中，服务端110、终端120之间可以通过网络130进行数据或者信息的交互。例如，服务端110可以通过网络130获取终端120中的信息和/或数据，或者可以通过网络130将信息和/或数据发送到终端120。

终端120为用户用于向网络平台(例如，社交媒体)上传文字的电子设备，用户可以通过终端120本地安装的应用程序或者网页接入网络平台。例如，用户可以通过终端120为网络平台的某条时事新闻发表评论。又例如，用户可以通过终端120在网络平台发表文章。终端120可以是移动设备、平板计算机等具有输入和/或输出功能的设备中的一种或其任意组合。

服务端110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如，服务端110可以是分布式系统)，可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中，服务端110可以是区域的或者远程的。在一些实施例中，服务端110可以在云平台上实施，或者以虚拟方式提供。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在现有的实施例中，服务端110可以从违规词库中获取违规词，从违规词中选择一个字符作为被替换字，选择被替换字的一个形近或者音近汉字作为替换字，使用替换字替换违规词中的被替换字，从而组成新词，并基于新词生成训练样本。将该训练样本作为增强文本，与其它训练样本一起对初始识别模型进行训练，得到训练好的违规词识别模型。

在上述实施例中，由于不存在可解释、可量化计算被替换字与其他汉字之间的相似度的获得方法，而一个汉字可能存在多个形近和/或者音近字，因此难以从众多的汉字中选择出合适的替换字，来组成可读性较强的新词以生成训练样本。

在一些实施例中，服务端110可以从违规词库中获取违规词，从违规词中选择一个汉字作为被替换字，从字符库选择多个汉字作为候选替换字，利用本申请实施例的方法从被替换字的多个候选替换字中选取与该被替换字相似度最高的候选替换字作为替换字，使用替换字替换违规词中的被替换字，从而生成可读性较高的新词，并基于新词生成训练样本。将该训练样本作为增强文本，与其它训练样本一起对初始识别模型进行训练，得到训练好的违规词识别模型。

训练好的违规词识别模型可以设置在服务端110，由服务端110对用户上传的内容进行审核，也可以发送到客户端120，由客户端120本地对用户将要上传的内容进行审核，不受本说明书的表述所限。

在一些实施例中，网络130可以是有线网络或无线网络中的任意一种或多种。例如，网络130可以包括局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)等或其任意组合。

为了便于理解，以下结合附图和实施例介绍本申请的技术方案。

图2是根据本申请一些实施例所示的汉字相似度的获得方法的示例性流程图。

步骤S210，获取第一待比较汉字的音形向量，作为第一音形向量，第一音形向量用于表示第一待比较汉字的发音特征和/或字形特征。

第一待比较汉字为待查找音近和/或形近字的汉字。例如，在违规词识别模型的训练场景中，第一待比较汉字可以为从违规词中选择出要被替换的汉字。

在具体实施过程中，可以通过多种方式获取第一待比较汉字。例如，在违规词识别模型的训练场景中，可以从违规词库获取违规词，将违规词中的任意汉字作为第一待比较汉字。又例如，在线客服场景中，从用户输入的问题文本中提取问题关键词，将问题关键词中的易混淆字作为第一待比较汉字。

第一音形向量为用于表示第一待比较汉字的发音特征和/或字形特征的向量。第一音形向量包括多个元素，每个元素可以表示汉字的发音特征或字形特征的一部分。附图4A示出了根据第一待比较汉字“段”得到的第一音形向量。在具体实施过程中，可以使用多种方式获取第一音形向量。例如，可以根据第一待比较汉字从存储有音形向量的数据库获取第一音形向量。又例如，可以确定第一待比较汉字的音形向量，作为第一音形向量。

在一些实施例中，第一音形向量可以包括发音元素组，发音元素组为用于表示汉字的发音特征的第一音形向量中部分元素的组合。发音元素组可以通过以下方式获取：获取第一待比较汉字的拼音信息，根据第一待比较汉字的拼音信息，得到发音元素组。

在一些实施例中，第一音形向量还包括字形元素组。字形元素组为用于表示汉字的字形特征的第一音形向量中部分元素的组合。字形元素组通过以下方式获取：获取第一待比较汉字的四角编码，将四角编码作为字形元素组中的元素。

关于根据第一待比较汉字确定第一音形向量的更多内容参见附图3的相关内容，这里不再赘述。

步骤S220，获取第二待比较汉字的音形向量，作为第二音形向量，第二音形向量用于表示第二待比较汉字的发音特征和/或字形特征。

第二待比较汉字为需要与第一待比较汉字进行相似度计算的汉字。例如，在违规词识别模型的训练场景中，第一待比较汉字可以为从违规词中选择出要被替换的汉字，第二待比较汉字可以为从字符库选择出的候选替换字。

在一些实施例中，可以从预先设置的字符库中获取第二待比较汉字。在具体实施过程中，可以通过多种方式来建立字符库。例如，可以使用常用的多个汉字组成字符库。又例如，为了提高计算效率，可以将混淆汉字集(容易混淆的音近和/或形近汉字的集合)作为字符库，混淆汉字集可以由开发人员自行构建，也可以使用开源的混淆汉字集。

在具体实施过程中，可以使用多种方式获取第二音形向量。例如，可以根据第二待比较汉字从存储有音形向量的数据库获取第二音形向量。又例如，可以确定第二待比较汉字的音形向量，作为第二音形向量，附图4B示出了根据第二待比较汉字“锻”得到的第二音形向量。

在一些实施例中，在服务端计算第一待比较汉字和第二待比较汉字之间的相似度，服务端可以从客户端接收第一待比较汉字(例如，在线客服场景中，从用户输入文本提取的问题关键词中的易混淆字)，获取(例如，从服务端侧的字符库获取)多个汉字，并将多个汉字中的任意汉字作为第二待比较汉字。

在具体的实施过程中，既可以在服务端获得第一待比较汉字和第二待比较汉字之间的相似度，也可以在客户端获得第一待比较汉字和第二待比较汉字之间的相似度，不受本说明书的表述所限。

在具体的实施过程中，根据第二待比较汉字确定第二音形向量的过程与根据第一待比较汉字确定第一音形向量的过程相同。关于根据第二待比较汉字确定第二音形向量的更多内容参见附图3的相关内容，这里不再赘述。

步骤S230，根据第一音形向量和第二音形向量，得到第一待比较汉字和第二待比较汉字之间的相似度。

在一些实施例中，可以通过以下方式，根据第一音形向量和第二音形向量，得到第一待比较汉字和第二待比较汉字之间的相似度。

对第一音形向量进行转码操作，得到第一转码向量。对第二音形向量进行转码操作，得到第二转码向量。根据第一转码向量和第二转码向量，得到第一待比较汉字和第二待比较汉字之间的相似度。

转码操作可以是使用不同的记数系统表示同一个数据的操作。例如，可以将十六进制数“0xF”通过转码操作表示为二进制数“1111”。在具体实施过程中，可以将第一音形向量中的各个元素通过转码操作转换为二进制数据段，将多个二进制数据段作为第一转码向量中的元素，得到第一转码向量；可以将第二音形向量中的各个元素通过转码操作转换为二进制数据段，将多个二进制数据段作为第二转码向量中的元素，得到第二转码向量。在一些实施例中，为了便于后续计算，第一转码向量和第二转码向量中每个元素(二进制数据段)的长度(比特数)为固定数值，不同元素的长度可以不同。

二进制(binary)，是以2为基数的记数系统。二进制数只包含0和1两种数字，每个数字(0或者1)称为一个比特(Bit，Binary digit)。

例如，如图4A所示的第一音形向量包含9个元素，这9个元素可以分别用16进制数据表示为：0x5、0x 5、0x F、0x 1、0x9、0x77447、0x77447、0x77447、0x77447，分别将这9个元素转换为二进制数据段，得到9个二进制数据段：00101(长度为5比特)、00101(长度为5比特)、01111(长度为5比特)、0001(长度为4比特)、01001(长度为5比特)、01110111010001000111(长度为20比特)、01110111010001000111(长度为20比特)、01110111010001000111(长度为20比特)、01110111010001000111(长度为20比特)。

又例如，如图4B所示的第二音形向量包含9个元素，这9个元素可以分别用16进制数据表示为：0x5、0x 5、0x F、0x 2、0xE、0x87747、0x80704、0x77447、0x77447，分别将这9个元素转换为二进制数据段，得到9个二进制数据段：00101(长度为5比特)、00101(长度为5比特)、01111(长度为5比特)、0010(长度为4比特)、01110(长度为5比特)、10000111011101000111(长度为20比特)、10000000011100000100(长度为20比特)、01110111010001000111(长度为20比特)、01110111010001000111(长度为20比特)。

在具体实施过程中，可以根据上述得到的第一转码向量和第二转码向量，通过多种方式得到第一待比较汉字和第二待比较汉字之间的相似度。

在一些实施例中，可以计算第一转码向量和第二转码向量之间的编辑距离，基于计算得到的编辑距离确定第一待比较汉字和第二待比较汉字之间的相似度。编辑距离是一种计算字符串之间相似度的计算方式，通过计量把一个字符串转换成另一个字符串所需改动的次数来确定两个字符串之间的相似度，编辑距离越小表明两个字符串之间的相似度越高。两个字符串之间的编辑距离的计算过程涉及如下三种编辑操作：插入、删除、替换。

在一些实施例中，可以根据第一转码向量和第二转码向量，通过以下方式得到第一待比较汉字和第二待比较汉字之间的相似度。

确定第一数量值，第一数量值为第一转码向量和第二转码向量中位于相同位置的数值相同的二进制数的个数。确定第二数量值，第二数量值为第一转码向量或第二转码向量中二进制数的个数。根据第一数量值和第二数量值，得到第一待比较汉字和第二待比较汉字的相似度。在具体的实施方式中，可以计算第一数量值和第二数量值的比值，将计算结果作为第一待比较汉字和第二待比较汉字之间的相似度。

例如，如图4A所示的第一转码向量和如图4B所示的第二转码向量中，位于相同位置的数值相同的二进制数的个数为81，第一转码向量或第二转码向量的长度为104，则第一待比较汉字和第二待比较汉字的相似度为81和104的比值：0.77884615384615。

在一些实施例中，由服务端计算第一待比较汉字和第二待比较汉字之间的相似度。在得到第一待比较汉字和第二待比较汉字之间的相似度之后，服务端判断第一待比较汉字和第二待比较汉字之间的相似度是否大于相似度阈值，若是，则将第二待比较汉字作为第一待比较汉字的相似汉字，并向客户端发送第二待比较汉字。

图3是根据本申请一些实施例所示的确定第一待比较汉字对应的第一音形向量的示例性流程图。

步骤S310，获取第一音形向量的发音元素组。

在一些实施例中，可以根据第一待比较汉字的拼音信息，得到发音元素组。拼音用于汉语普通话读音的标注。拼音是拼读音节的过程，按照普通话音节的构成规律，拼音可以包括两拼音节(声母和韵母)和三拼音节(声母、介母、韵母)。两拼音节中，由声母和韵母构成一个完整的音节。三拼音节中，由声母、介母、韵母构成一个完整的音节。例如，“拼”字的拼音“ping”为两拼音节，其中，“p”是声母，“ing”为韵母。又例如，“段”字的拼音“duan”为三拼音节，其中，“d”是声母，“u”是介母，“an”为韵母。

基于拼音的构成特点，可以通过以下方式得到发音元素组。

在一些实施例中，可以获取第一待比较汉字的拼音信息中的声母对应的声母编码，获取第一待比较汉字的拼音信息中的韵母对应的韵母编码，将声母编码和韵母编码作为发音元素组中的元素，得到发音元素组。如图4A所示的“段”字的第一音形向量，其发音元素组包括声母编码“5”、韵母编码“0xF”(十六进制数表示)。

在一些实施例中，可以根据拼音信息中的声母，从声母编码映射表得到声母编码。声母编码映射表用于存储声母和声母编码的映射关系。例如，如图5所示的声母编码映射表中，声母“b”对应的声母编码为“1”。在声母编码映射表中，发音相近的声母其编码相同。例如，声母“n”与声母“l”发音相近，声母“n”对应的声母编码为“7”，声母“l”对应的声母编码也为“7”。

在一些实施例中，根据拼音信息中的韵母，从韵母编码映射表得到韵母编码。韵母编码映射表用于存储韵母和韵母编码的映射关系。例如，如图6所示的韵母编码映射表中，声母“ei”对应的声母编码为“7”。在韵母编码映射表中，发音相近的韵母其编码相同。例如，韵母“an”与韵母“ang”发音相近，韵母“an”对应的韵母编码为“F”，韵母“ang”对应的韵母编码也为“F”。

在一些实施例中，还可以获取第一待比较汉字的拼音信息中的介母对应的介母编码，将介母编码作为发音元素组中的元素。

在一些实施例中，韵母编码映射表也用于存储介母和介母编码的映射关系，因此，可以根据拼音信息中的介母，从韵母编码映射表得到介母编码。

本申请的实施例，通过声母编码映射表/韵母编码映射表得到声母编码、韵母编码以及介母编码，并将声母编码、韵母编码以及介母编码作为发音元素组的元素，由于在声母编码映射表/韵母编码映射表中，发音相近的声母/韵母/介母其编码相同，因此，发音相近的两个汉字，对应的发音元素组也相似。

步骤S320，获取第一音形向量的字形元素组。

在具体实施过程中，可以使用四角编码来表示第一待比较汉字的字形特征。四角编码为汉字查字法之一，把每个汉字分成四个角，按位置左上、右上、左下、右下的顺序每个角确定一个号码，得到四个号码组成的四角编码。四角编码把汉字笔形分为十类——头、横、垂、点、叉、插、方、角、八、小，再分别用号码0～9表示每一种类别。为避免过多重复号码不便查找，四角编码除了对汉字的四个角进行编码，还包括附号。附号为汉字靠近右下角(第四角)上方的一个笔形的编号，如果这一笔形已被右上角用过，则附号为0。

在一些实施例中，可以获取第一待比较汉字的四角编码，将四角编码作为字形元素组中的元素。例如，如图4A所示的第一音形向量(“段”字的音形向量)，其字形元素组包括十六进制数表示的四角编码“77447”。

为了更加准确的表示出较为复杂的汉字的字形特征，字形元素组还可以包括汉字的构字元素的四角编码。

在一些实施例中，可以对汉字进行拆分，得到至少一个构字元素，确定至少一个构字元素中的任意构字元素的四角编码，将任意构字元素的四角编码作为字形元素组的元素。在具体的实施过程中，字形元素组可以包括四组四角编码，分别表示为：四角编码A、四角编码B、四角编码C以及四角编码D。四角编码A为第一待比较汉字的四角编码，四角编码B、四角编码C以及四角编码D分别为对第一待比较汉字进行拆分得到的构字元素的四角编码。如果对汉字进行拆分得到的构字元素的数量小于三个，则可以使用主要构字元素的四角编码来填充字形元素组中的空余位置。例如，“锻”字可以拆为“钅”、“段”两个构字元素，如图4B所示的第二音形向量(“锻”字的音形向量)，其字形元素组中，四角编码A为十六进制数表示的“锻”字的四角编码“87447”，四角编码B为十六进制数表示的“钅”字的四角编码“80704”，四角编码C为十六进制数表示的“段”字的四角编码“77447”，四角编码D也为十六进制数表示的“段”字的四角编码“77447”。

在一些实施例中，还可以获取第一待比较汉字的结构的编码，将结构的编码作为字形元素组中的元素。汉字结构可以分为六大类：左右结构、上下结构、上中下结构、左中右结构、包围结构、半包围结构。仅作为示例，可以使用整数1-6来对上述汉字结构进行编码，也可以使用其他方式对上述汉字结构进行编码，不受本说明书的表述所限。例如，如图4A所示的第一音形向量(“段”字的音形向量)，其字形元素组包括左右结构的编码“1”。

在一些实施例中，还可以获取第一待比较汉字的笔画的数量，将笔画的数量作为字形元素组中的元素。例如，如图4A所示的第一音形向量(“段”字的音形向量)，其字形元素组包括“段”字的笔画数“9”。

在具体实施过程中，第一音形向量/第二音形向量可以只包括发音元素组或者字形元素组，也可以既包括发音元素组，又包括字形元素组，不受本说明书的表述所限。

本申请的又一实施例提供了一种违规语料的获取方法。该方法包括以下步骤。

步骤S410，从第一字符串中选取任意汉字作为第一待比较汉字，第一字符串为预设的违规语料。

违规语料为不符合监管规定的语言材料。违规语料可以是字、词、句或者短文本，在此不作限制。在具体实施过程中，可以预先设置违规语料库，从违规语料库中选择第一字符串，并基于第一字符串进行文本增强，以得到与第一字符串的语义相同的变形的违规语料。在一些实施例中，可以从第一字符串中选取任意汉字作为第一待比较汉字，也可以从第一字符串中选取多个汉字作为多个被替换字，不受本说明书的表述所限。

步骤S420，获得不同于第一待比较汉字的第二待比较汉字。

在一些实施例中，可以从字符库获取多个汉字，从这多个汉字中选择任意一个作为第二待比较汉字。

步骤S430，获取第一待比较汉字的音形向量，作为第一音形向量，第一音形向量用于表示第一待比较汉字的发音特征和/或字形特征。

在一些实施例中，可以使用图3中的方法获取第一音形向量，在此不再赘述。

步骤S440，获取第二待比较汉字的音形向量，作为第二音形向量，第二音形向量用于表示第二待比较汉字的发音特征和/或字形特征。

在一些实施例中，可以使用图3中的方法获取第二音形向量，在此不再赘述。

步骤S450，根据第一音形向量和第二音形向量，得到第一待比较汉字和第二待比较汉字之间的相似度。

在一些实施例中，可以根据步骤S230中的方法得到第一待比较汉字与第二待比较汉字之间的相似度。在此不再赘述。

步骤S460，如果相似度超过预设的相似度阈值，则将第一字符串中的第一待比较汉字替换为第二待比较汉字，得到第二字符串，将第二字符串作为违规语料。

在一些实施例中，在得到第二字符串之后，可以根据第一字符串和第二字符串生成训练数据集，使用训练数据集，对初始识别模型进行训练，得到违规词识别模型，违规词识别模型用于识别文本中的违规词汇。在具体实施过程中，可以将第一字符串、第二字符串以及其他字符串作为训练样本，将第一字符串和第二字符串标注为违规词汇，并对其他字符串做标注，得到训练数据集。初始识别模型可以为用于分类的机器学习模型，可以包括但不限于：逻辑回归、决策树、随机森林以及朴素贝叶斯等模型。

上述违规语料的获取方法的实施例中，各步骤的具体处理及其带来的技术效果可分别参考图2以及图3中对应实施例中的相关说明，在此不再赘述。

步骤S510，从第一字符串中选取多个汉字，第一字符串为预设的违规语料。

步骤S520，将多个汉字中的任意汉字作为第一待比较汉字，并获得不同于第一待比较汉字的第二待比较汉字。

步骤S530，获取第一待比较汉字的音形向量，作为第一音形向量，第一音形向量用于表示第一待比较汉字的发音特征和/或字形特征。

步骤S540，获取第二待比较汉字的音形向量，作为第二音形向量，第二音形向量用于表示第二待比较汉字的发音特征和/或字形特征。

步骤S550，根据第一音形向量和第二音形向量，得到第一待比较汉字和第二待比较汉字之间的相似度。

步骤S560，根据任意汉字对应的相似度，得到任意汉字对应的替换字。

在具体的实施过程中，可以通过多种方式，根据任意汉字对应的相似度，得到任意汉字对应的替换字。

在一些实施例中，如果任意汉字对应的相似度超过预设的相似度阈值，则将任意汉字对应的第二待比较汉字作为任意汉字对应的替换字。

在一些实施例中，可以计算多个汉字中各个汉字对应的相似度的平均数值，如果平均数值超过预设的平均相似度阈值，则将任意汉字对应的第二待比较汉字作为任意汉字对应的替换字。

在一些实施例中，如果多个汉字中各个汉字对应的相似度中的最大相似度大于预设的相似度阈值，则将任意汉字对应的第二待比较汉字作为任意汉字对应的替换字。

步骤S570，将第一字符串中的任意汉字替换为与任意汉字对应的替换字，得到第二字符串，将第二字符串作为违规语料。

图7是根据本申请一些实施例所示的汉字相似度的获得装置的示例性示意图。

如图7所示，汉字相似度的获得装置包括：第一音形向量获取模块710、第二音形向量获取模块720、相似度获取模块730。

第一音形向量获取模块710，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征。

第二音形向量获取模块720，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征。

相似度获取模块730，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

上述汉字相似度的获得装置的实施例中，各模块的具体处理及其带来的技术效果可分别参考对应方法实施例中的相关说明，在此不再赘述。

本申请的又一实施例提供了一种违规语料的获取装置，所述装置包括：第一待比较汉字获取模块、第二待比较汉字获取模块、第一音形向量获取模块、第二音形向量获取模块、相似度获取模块以及替换模块。

第一待比较汉字获取模块，用于从第一字符串中选取任意汉字作为第一待比较汉字，所述第一字符串为预设的违规语料；第二待比较汉字获取模块，用于获得不同于所述第一待比较汉字的第二待比较汉字；第一音形向量获取模块，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；第二音形向量获取模块，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；相似度获取模块，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；替换模块，用于如果所述相似度超过预设的相似度阈值，则将所述第一字符串中的第一待比较汉字替换为所述第二待比较汉字，得到第二字符串，将所述第二字符串作为违规语料。

上述违规语料的获取装置的实施例中，各模块的具体处理及其带来的技术效果可分别参考对应方法实施例中的相关说明，在此不再赘述。

本申请的又一实施例提供了一种违规语料的获取装置，所述装置包括：第一获取模块、第二获取模块、第三获取模块、第四获取模块、相似度获取模块、替换字获取模块以及替换模块。

第一获取模块，用于从第一字符串中选取多个汉字，所述第一字符串为预设的违规语料；第二获取模块，用于将所述多个汉字中的任意汉字作为第一待比较汉字，并获得不同于所述第一待比较汉字的第二待比较汉字；第三获取模块，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；第四获取模块，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；相似度获取模块，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；替换字获取模块，用于根据所述任意汉字对应的所述相似度，得到所述任意汉字对应的替换字；替换模块，用于将所述第一字符串中的所述任意汉字替换为与所述任意汉字对应的替换字，得到第二字符串，将所述第二字符串作为违规语料。

上述违规语料的获取装置的实施例中，各模块的具体处理及其带来的技术效果可分别参考对应方法实施例中的相关说明，在此不再赘述。图8是根据本申请一些实施例所示的一种电子设备的示例性结构示意图。

如图8所示，该电子设备，包括：至少一个处理器801，至少一个通信接口802，至少一个存储器803和至少一个通信总线804；可选的，通信接口802可以为通信模块的接口，如GSM模块的接口；处理器801可能是处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。其中，存储器803存储有程序，处理器801调用存储器803所存储的程序，以执行上述的部分或全部方法实施例。

本申请涉及一种存储设备，用于存储计算机可读程序，计算机可读程序被运行时，执行上述的部分或全部的方法实施例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(Transitory Media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种汉字相似度的获得方法，其特征在于，所述方法包括：

获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；

获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；

根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述音形向量包括发音元素组；

所述发音元素组通过以下方式获取：

获取所述第一待比较汉字的拼音信息；

根据所述第一待比较汉字的拼音信息，得到所述发音元素组。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一待比较汉字的拼音信息，得到所述发音元素组，包括：

获取所述第一待比较汉字的拼音信息中的声母对应的声母编码；

获取所述第一待比较汉字的拼音信息中的韵母对应的韵母编码；

将所述声母编码和所述韵母编码作为所述发音元素组中的元素，得到所述发音元素组。

4.根据权利要求1或2所述的方法，其特征在于，所述第一音形向量包括字形元素组；

所述字形元素组通过以下方式获取：

获取所述第一待比较汉字的四角编码；

将所述四角编码作为所述字形元素组中的元素。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度，包括：

将所述第一音形向量中的各个元素转换为二进制数据段，将多个所述二进制数据段作为第一转码向量中的元素，得到所述第一转码向量；

将所述第二音形向量中的各个元素转换为二进制数据段，将多个所述二进制数据段作为第二转码向量中的元素，得到所述第二转码向量；

根据所述第一转码向量和所述第二转码向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一转码向量和所述第二转码向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度，包括：

确定第一数量值，所述第一数量值为所述第一转码向量和所述第二转码向量中位于相同位置的数值相同的二进制数的个数；

确定第二数量值，所述第二数量值为所述第一转码向量或所述第二转码向量中二进制数的个数；

根据所述第一数量值和所述第二数量值，得到所述第一待比较汉字和所述第二待比较汉字的相似度。

7.一种违规语料的获取方法，其特征在于，所述方法包括：

从第一字符串中选取任意汉字作为第一待比较汉字，所述第一字符串为预设的违规语料；

获得不同于所述第一待比较汉字的第二待比较汉字；

根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度；

如果所述相似度超过预设的相似度阈值，则将所述第一字符串中的第一待比较汉字替换为所述第二待比较汉字，得到第二字符串，将所述第二字符串作为违规语料。

8.一种汉字相似度的获得装置，其特征在于，所述装置包括：

第一音形向量获取模块，用于获取第一待比较汉字的音形向量，作为第一音形向量，所述第一音形向量用于表示所述第一待比较汉字的发音特征和/或字形特征；

第二音形向量获取模块，用于获取第二待比较汉字的音形向量，作为第二音形向量，所述第二音形向量用于表示所述第二待比较汉字的发音特征和/或字形特征；

相似度获取模块，用于根据所述第一音形向量和所述第二音形向量，得到所述第一待比较汉字和所述第二待比较汉字之间的相似度。

9.一种电子设备，所述电子设备包括存储器和处理器，存储器存储计算机程序，处理器运行程序时执行如权利要求1至7中任一项所述的方法。

10.一种存储设备，用于存储计算机可读程序，所述计算机可读程序被运行时，执行如权利要求1至7中任一项所述的方法。