CN112700881B

CN112700881B - 文本的标准化处理方法、装置、电子设备及计算机介质

Info

Publication number: CN112700881B
Application number: CN202011594885.4A
Authority: CN
Inventors: 滕召荣; 刘斌; 郝东林
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-04-08
Anticipated expiration: 2040-12-29
Also published as: CN114613516B; CN112700881A; WO2022142703A1; CN114613516A

Abstract

本公开涉及一种文本的标准化处理方法、装置、电子设备及计算机可读介质，属于数据处理技术领域。该方法包括：获取原始信息文本，原始信息文本中包括待处理的原始文本；根据预先生成的信息文本同义词典对原始信息文本进行匹配，得到原始信息文本中的原始文本对应的目标文本；对目标文本进行分词处理，得到目标文本中所包含的各个有效文本成分；获取预先生成的文本成分规则集合，并将各个有效文本成分中不属于文本成分规则集合的有效文本成分作为标准文本成分；根据标准文本成分得到原始文本对应的标准化文本。本公开通过信息文本同义词典和文本成分规则集合，对原始文本进行归一化处理得到标准化文本，可以提高文本归一化的效率和准确率。

Description

文本的标准化处理方法、装置、电子设备及计算机介质

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质。

背景技术

由于外文的姓名或地址等文本写法多样，很难有统一的标准，因此，归一化处理得到的结果常常不准确，很多情况下都需要人工进行识别和处理，效率较低。

鉴于此，本领域亟需一种能够提高文本归一化的效率和准确率的文本的标准化处理方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质，进而至少在一定程度上提高文本归一化的效率和准确率。

根据本公开的第一个方面，提供一种文本的标准化处理方法，包括：

获取原始信息文本，所述原始信息文本中包括待处理的原始文本；

根据预先生成的信息文本同义词典对所述原始信息文本进行匹配，得到所述原始信息文本中的所述原始文本对应的目标文本；

对所述目标文本进行分词处理，得到所述目标文本中所包含的各个有效文本成分；

获取预先生成的文本成分规则集合，并将各个所述有效文本成分中不属于所述文本成分规则集合的所述有效文本成分作为标准文本成分；

根据所述标准文本成分得到所述原始文本对应的标准化文本。

在本公开的一种示例性实施例中，所述根据预先生成的信息文本同义词典对所述原始信息文本进行匹配，得到所述原始信息文本中的所述原始文本对应的目标文本，包括：

若所述信息文本同义词典中存在与所述原始信息文本相关的目标信息文本，则将所述目标信息文本中包含的目标文本作为所述原始文本对应的目标文本；

若所述信息文本同义词典中不存在与所述原始信息文本相关的目标信息文本，则将所述原始文本作为所述目标文本。

在本公开的一种示例性实施例中，所述对所述目标文本进行分词处理，得到所述目标文本中所包含的各个有效文本成分，包括：

将所述目标文本中的无效文本成分进行过滤处理；

对过滤之后的所述目标文本进行分词处理，得到所述目标文本中所包含的各个有效文本成分。

在本公开的一种示例性实施例中，所述信息文本同义词典的生成方法包括：

获取历史信息文本，所述历史信息文本中所包含历史文本，以及所述历史文本对应的数据信息；

根据所述历史文本和所述历史文本对应的数据信息，对所述历史信息文本进行分类，得到多组相似信息文本集合；

根据所述多组相似信息文本集合生成所述信息文本同义词典。

在本公开的一种示例性实施例中，所述根据所述历史文本和所述历史文本对应的数据信息，对所述历史信息文本进行分类，得到多组相似信息文本集合，包括：

根据所述历史文本对应的数据信息得到所述历史信息文本的第一分类标识；

根据所述第一分类标识对所述历史信息文本进行分类，得到多个第一分类集合，其中，每个所述第一分类集合中所述历史信息文本的第一分类标识相同；

根据所述历史文本得到所述历史信息文本的第二分类标识，并根据所述第二分类标识通过预设聚类算法分别对各个所述第一分类集合中的历史信息文本再次进行分类，得到多个第二分类集合；

根据所述第一分类标识和所述第二分类标识得到聚合标识，并根据所述聚合标识分别对各个所述第二分类集合中的历史信息文本再次进行分类，得到多个第三分类集合；

对于各个所述第三分类集合中的历史信息文本，计算所述历史信息文本中所包含的历史文本两两之间的余弦相似度，并将所述余弦相似度大于第一相似度阈值的所述历史信息文本放入同一个相似信息文本集合中。

在本公开的一种示例性实施例中，所述根据所述第二分类标识通过预设聚类算法分别对各个所述第一分类集合中的历史信息文本再次进行分类，得到多个第二分类集合，包括：

根据各个所述第一分类集合中所述历史信息文本的总数，确定各个所述第一分类集合对应的聚类簇数；

根据所述第二分类标识，通过预设聚类算法将各个所述第一分类集合中的历史信息文本划分为与所述聚类簇数相对应的多个第二分类集合。

在本公开的一种示例性实施例中，所述根据各个所述第一分类集合中所述历史信息文本的总数，确定各个所述第一分类集合对应的聚类簇数，包括：

若所述第一分类集合中所述历史信息文本的总数大于或等于文本数量阈值，则根据所述历史信息文本的总数和预设比值确定所述第一分类集合对应的聚类簇数；

若所述第一分类集合中所述历史信息文本的总数小于或等于所述文本数量阈值，则获取预设聚类簇数作为所述第一分类集合对应的聚类簇数。

在本公开的一种示例性实施例中，所述文本成分规则集合的生成方法包括：

获取历史信息文本中的所包含历史文本；

对所述历史文本进行分词处理，得到所述历史文本中所包含的各个有效历史文本成分；

将所述有效历史文本成分与所述文本成分规则集合中的文本成分进行余弦相似度计算；

若所述有效历史文本成分与所述文本成分规则集合中的文本成分之间的余弦相似度大于第二相似度阈值，则将所述有效历史文本成分添加到所述文本成分规则集合中。

根据本公开的第二方面，提供一种文本的标准化处理装置，包括：

原始信息文本获取模块，用于获取原始信息文本，所述原始信息文本中包括待处理的原始文本；

原始信息文本匹配模块，用于根据预先生成的信息文本同义词典对所述原始信息文本进行匹配，得到所述原始信息文本中的所述原始文本对应的目标文本；

有效文本成分获取模块，用于对所述目标文本进行分词处理，得到所述目标文本中所包含的各个有效文本成分；

标准文本成分确定模块，用于获取预先生成的文本成分规则集合，并将各个所述有效文本成分中不属于所述文本成分规则集合的所述有效文本成分作为标准文本成分；

标准化文本生成模块，用于根据所述标准文本成分得到所述原始文本对应的标准化文本。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本的标准化处理方法。

根据本公开的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的文本的标准化处理方法。

本公开示例性实施例可以具有以下有益效果：

本公开示例实施方式的文本的标准化处理方法中，一方面，通过预先生成的信息文本同义词典对原始信息文本进行匹配，可以对原始信息文本中的原始文本的同义词进行发现，从而能够对错写、缩写、反写、联写的文本进行挖掘，提升文本的整体召回率与标准化处理的准确率。另一方面，通过预先生成的文本成分规则集合对原始文本中的各个有效文本成分进行匹配，可以对文本规则进行发现，减少处理过程中的人工参与，进而提高处理效率。最后，本公开示例实施方式中的文本的标准化处理方法对原始文本进行归一化处理，能够大幅度地提升在多源大数据场景下文本数据的可计算性与关联性，在后续文本的使用过程中，可以进一步提高文本数据统计和管理的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本公开的一个相关实施例中马来语姓名归一化的流程示意图；

图2示出了本公开示例实施方式的文本的标准化处理方法的流程示意图；

图3示出了本公开示例实施方式的信息文本同义词典的生成方法的流程示意图；

图4示出了本公开示例实施方式的得到多组相似信息文本集合的流程示意图；

图5示出了本公开示例实施方式的文本成分规则集合的生成方法的流程示意图；

图6示出了根据本公开的一个具体实施方式中文本的标准化处理方法的流程示意图；

图7示出了根据本公开的一个具体实施方式中信息文本同义词典的生成方法的流程示意图；

图8示出了根据本公开的一个具体实施方式中文本成分规则集合的生成方法的流程示意图；

图9示出了本公开示例实施方式的文本的标准化处理装置的框图；

图10示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

归一指的是数据标准化的处理方式，不同的数据通过归一(某种算法)处理后，可以使其成为标准一样的数据。数据归一化或者称为数据标准化是NLP(Natural LanguageProcessing，自然语言处理)技术的一个方向，指的是通过NLP技术手段进行数据标准化处理的过程。

对多源的数据计算人员的唯一标识，最典型的就是利用姓名日期性别进行人的唯一标识的计算。以马来语体系为例，马来语体系人员的姓名是比较特殊的，最显著特点就是随着年龄的增长，姓名也会不断地变化。例如，马来语姓名在人成年后就会加上成年的标识；当获得一定社会头衔时，又会加上头衔的标识；当去朝拜某一宗教圣地后，又会在名字上加上朝拜地的标识。这种姓名的变动对于计算人员的唯一标识带来了非常大的挑战。因此，需要对姓名文本进行标准化的处理。

马来语体系的姓名是由头衔+重名+第一名字+冠名+父头衔+父重名+父第一名字几部分构成，其中头衔、重名、冠名、父头衔、父重名都是可变的部分，随着时间的变化都有可能发生变化。因此，对于马来语姓名的归一化，指的是通过技术手段去掉马来语姓名中可变的部分，只保留固定或不可变的部分。

在一些相关的实施例中，以马来语姓名文本的归一化为例，可以通过如图1所示的马来语姓名归一化的完整流程图来实现，该流程图的具体步骤如下：

步骤S102.获取马来语姓名文本。

步骤S104.姓名文本预处理。

在对马来语姓名进行归一化时候，首先需要对姓名文本进行预处理，预处理过程包含清洗一些特殊字符，比如“)”、“(”、“。”等符号；另外，还需要清除一些无意义的特殊单词，例如“unknown”、“B/O”、“Baby of”等单词。

步骤S106.姓名文本分词。

可以按照空格进行单词的切分。

步骤S108.获取马来语姓名单词次数映射表。

马来语姓名单词次数映射表是通过统计历史文本数据中马来语姓名中的单词出现的次数，并根据统计结果构建一个单词次数的HASH(哈希)映射关系，其中，次数指的是所有姓名单词出现的总次数。上述马来语姓名单词次数映射表可以作为姓名归一的基础词典。

其中，HASH映射又称哈希映射或散列图或HashMap，是一个用于储存键—值对(key-value)的集合，每个键—值对又称为Entry，将这些Entry储存在一个数组里，这个数组就是HashMap。

步骤S110.根据马来语姓名单词次数映射表进行姓名单词次数映射。

对姓名文本分词后的单词，根据马来语姓名单词次数映射表得到单姓名的单词次数数据。

步骤S112.构建最小堆。

根据单词次数数据构建最小堆。其中，最小堆指的是一种经过排序的完全二叉树，其中任一非终端节点的数据值均不大于其左子节点和右子节点的值。使用最小堆通常是为了求N个最小值。

步骤S114.取映射次数最小的2个单词。

步骤S116.合成归一化姓名文本。

最后进行单词合并，得到归一化姓名文本。

通过对马来语姓名归一化得到马来语姓名核心不变部分，可以在多源大数据中通过归一化后的姓名出生日期性别来对人进行唯一标识。

上述相关实施例中的归一化方法是建立在马来语姓名取名差异性都比较大的假设条件下，从常识来理解也应该如此，但上述方法存在如下的一些问题：

一方面，马来语姓名归一化后不一定是确定个数的单词，比如有的名字归一化后是2个单词，有的名字归一化后可能是3个单词，有的又有可能是4个单词，因此这种只取2个或者只取固定数量的单词得到的归一化后结果，会存在灵活性不够以及归一化后不准确的情况。

另一方面，为了解决一些姓名归一化错误的情况，可能需要调整一些单词的优先级。若手动调整单词的优先级，就会影响后续将手动调整的优先级单词跟自动构建的单词合并的情况；另外，调整了单词的优先级在一些姓名的归一化过程中可能会出现错误，因此上述方案的适用性或者泛化性不够。

基于上述问题，本示例实施方式首先提供了一种文本的标准化处理方法。参考图2所示，上述文本的标准化处理方法可以包括以下步骤：

步骤S210.获取原始信息文本，原始信息文本中包括待处理的原始文本。

步骤S220.根据预先生成的信息文本同义词典对原始信息文本进行匹配，得到原始信息文本中的原始文本对应的目标文本。

步骤S230.对目标文本进行分词处理，得到目标文本中所包含的各个有效文本成分。

步骤S240.获取预先生成的文本成分规则集合，并将各个有效文本成分中不属于文本成分规则集合的有效文本成分作为标准文本成分。

步骤S250.根据标准文本成分得到原始文本对应的标准化文本。

下面，结合图3至图5对本示例实施方式的上述步骤进行更加详细的说明。

在步骤S210中，获取原始信息文本，原始信息文本中包括待处理的原始文本。

本示例实施方式中，原始信息文本指的是包含待处理的原始文本以及原始文本所对应的一些数据信息的完整文本，其中，待处理的原始文本是需要进行标准化处理的文本。例如，待处理的原始文本可以为姓名文本或地址文本等，以姓名文本为例，原始信息文本可以为包含姓名文本在内的姓名出生日期和性别的完整文本，原始文本所对应的数据信息为出生日期和性别。

在步骤S220中，根据预先生成的信息文本同义词典对原始信息文本进行匹配，得到原始信息文本中的原始文本对应的目标文本。

本示例实施方式中，由于文本的数据来源比较复杂，且单词可能存在错写、缩写、联写等一系列问题，为了提高文本归一化的准确率与召回率，需要预先生成信息文本同义词典，对全量数据进行文本同义词发现，将存在同义词的原始文本转化为对应的目标文本。其中，目标文本指的是将每一组同义的文本转换成的统一的目标文本。

本示例实施方式中，在根据预先生成的信息文本同义词典对原始信息文本进行匹配时，若信息文本同义词典中存在与原始信息文本相关的目标信息文本，则将目标信息文本中包含的目标文本作为原始文本对应的目标文本；若信息文本同义词典中不存在与原始信息文本相关的目标信息文本，则将原始文本作为目标文本。

例如，将姓名文本与预先生成的姓名性别生日同义词典进行比较，若同义词典中存在与该姓名文本同义的目标姓名文本，则将该姓名文本转换为目标姓名文本；若不存在，则直接使用原始的姓名文本进行后续步骤的处理。

本示例实施方式中，如图3所示，信息文本同义词典的生成方法，具体可以包括以下几个步骤：

步骤S310.获取历史信息文本，历史信息文本中所包含历史文本，以及历史文本对应的数据信息。

首先从历史数据中获取包含历史文本的历史信息文本，并获取历史信息文本中历史文本对应的数据信息。其中，历史文本可例如历史姓名文本，历史文本对应的数据信息可例如历史姓名对应的性别和出生日期数据。

步骤S320.根据历史文本和历史文本对应的数据信息，对历史信息文本进行分类，得到多组相似信息文本集合。

本示例实施方式中，如图4所示，根据历史文本和历史文本对应的数据信息，对历史信息文本进行分类，得到多组相似信息文本集合，具体可以包括以下几个步骤：

步骤S410.根据历史文本对应的数据信息得到历史信息文本的第一分类标识。

第一分类标识指的是对历史信息文本进行第一次分类时使用的分类标识。举例而言，可以先根据历史姓名对应的性别和出生日期数据生成第一分类标识。

步骤S420.根据第一分类标识对历史信息文本进行分类，得到多个第一分类集合，其中，每个第一分类集合中历史信息文本的第一分类标识相同。

根据第一分类标识对历史信息文本进行第一次聚合分类，将第一分类标识相同的历史信息文本聚合在一起。

步骤S430.根据历史文本得到历史信息文本的第二分类标识，并根据第二分类标识通过预设聚类算法分别对各个第一分类集合中的历史信息文本再次进行分类，得到多个第二分类集合。

对历史信息文本进行第一次分类之后，再对每个第一分类集合中的历史信息文本根据第二分类标识进行第二次分类。其中，第二分类标识可以根据历史文本生成，举例而言，可以根据历史姓名生成第二分类标识。

对历史信息文本进行的第二次分类，可以使用预设的聚类算法，例如K-Means(K均值聚类算法)。K-Means是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，在聚类前需要先指定分类的簇数。

本示例实施方式中，通过预设聚类算法对第一分类集合中的历史信息文本进行分类的方法具体可以为：根据各个第一分类集合中历史信息文本的总数，确定各个第一分类集合对应的聚类簇数；根据第二分类标识，通过预设聚类算法将各个第一分类集合中的历史信息文本划分为与聚类簇数相对应的多个第二分类集合。

其中，确定各个第一分类集合对应的聚类簇数的方法可以为：若第一分类集合中历史信息文本的总数大于或等于文本数量阈值，则根据历史信息文本的总数和预设比值确定第一分类集合对应的聚类簇数；若第一分类集合中历史信息文本的总数小于或等于文本数量阈值，则获取预设聚类簇数作为第一分类集合对应的聚类簇数。

例如，当第一分类集合中的历史信息文本的数量大于或等于3时，可以取历史信息文本的数量的三分之二整数作为聚类簇数；当第一分类集合中的历史信息文本的数量小于3时，可以直接将聚类簇数的值设定为1。

步骤S440.根据第一分类标识和第二分类标识得到聚合标识，并根据聚合标识分别对各个第二分类集合中的历史信息文本再次进行分类，得到多个第三分类集合。

对历史信息文本进行第二次分类之后，可以根据第一分类标识和第二分类标识生成新的聚合标识，再根据聚合标识对各个第二分类集合中的历史信息文本进行第三次分类，将聚合标识相同的历史信息文本数据聚合在一起。

步骤S450.对于各个第三分类集合中的历史信息文本，计算历史信息文本中所包含的历史文本两两之间的余弦相似度，并将余弦相似度大于第一相似度阈值的历史信息文本放入同一个相似信息文本集合中。

对历史信息文本进行第二次分类之后，已经将历史信息文本尽可能多地分成多个类，此时，再对各个第三分类集合中的历史信息文本中所包含的历史文本两两之间计算余弦相似度，得到同义词典中的各组同义词。例如，若两个历史文本的余弦相似度大于0.97，则将其放入同一组相似信息文本集合中。

其中，余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估它们的相似度，可以应用于文本相似度的计算。

步骤S330.根据多组相似信息文本集合生成信息文本同义词典。

最后，根据多组相似信息文本集合生成信息文本同义词典，用于历史信息文本同义词的转换。

除此之外，还可以通过深度学习的方式来首先标注文本数据，然后运用深度学习的相关算法计算出对应的同义文本，从而可以达到同样的转换效果。

在步骤S230中，对目标文本进行分词处理，得到目标文本中所包含的各个有效文本成分。

本示例实施方式中，在对目标文本进行分词处理之前，可以先对目标文本进行预处理，具体方法可以为：将目标文本中的无效文本成分进行过滤处理；对过滤之后的目标文本进行分词处理，得到目标文本中所包含的各个有效文本成分。

预处理过程可以包括清除一些特殊字符，比如“)”、“(”、“。”等符号；另外，还需要清除一些无意义的特殊单词，例如“unknown”、“B/O”、“Baby of”等单词。

在步骤S240中，获取预先生成的文本成分规则集合，并将各个有效文本成分中不属于文本成分规则集合的有效文本成分作为标准文本成分。

通过预先生成的文本成分规则集合，可以将有效文本成分中不需要进行归一化的文本成分删除，只留下归一化所需的一部分有效文本成分。以马来语姓名的归一化为例，通过预先生成的文本成分规则集合，可以将马来语姓名中可变的部分单词删除，只留下固定不变的单词，最为最后归一化所使用的单词，即标准文本成分。

本示例实施方式中，如图5所示，文本成分规则集合的生成方法，具体可以包括以下几个步骤：

步骤S510.获取历史信息文本中的所包含历史文本。

首先，获取历史信息文本中的所包含历史文本，例如历史姓名文本。

步骤S520.对历史文本进行分词处理，得到历史文本中所包含的各个有效历史文本成分。

在对目标文本进行分词处理之前，也可以先对目标文本进行预处理，清除一些特殊字符和无意义的特殊单词，得到历史文本中所包含的各个有效历史文本成分。

步骤S530.将有效历史文本成分与文本成分规则集合中的文本成分进行余弦相似度计算。

然后将有效历史文本成分与文本成分规则集合中已有的文本成分计算余弦相似度。

步骤S540.若有效历史文本成分与文本成分规则集合中的文本成分之间的余弦相似度大于第二相似度阈值，则将有效历史文本成分添加到文本成分规则集合中。

举例而言，可以当有效历史文本成分与文本成分规则集合中的任意一个文本成分的余弦相似度大于0.95的时候，就可以对该有效历史文本成分进行标注，并补充到文本成分规则集合中。

在步骤S250中，根据标准文本成分得到原始文本对应的标准化文本。

最后，根据最终保留的标准文本成分按照原本的顺序进行顺序合并，得到原始文本对应的标准化文本。

通过本示例实施方式中的文本的标准化处理方法，可以自适应地归一出任意单词量来表示原始文本的核心归一化部分，而不是人为的指定单词数量。

如图6所示是本公开的一个具体实施方式中文本的标准化处理的完整流程图，可以应用于马来语姓名文本的归一化，是对本示例实施方式中的上述步骤的举例说明，该流程图的具体步骤如下：

步骤S602.获取马来语姓名出生日期性别文本。

步骤S604.判断该姓名出生日期性别文本是否在姓名出生日期性别同义词典中。

通过姓名出生日期性别跟姓名性别生日姓名同义词典进行比较，若该姓名出生日期性别文本在姓名出生日期性别同义词典中，则进入步骤S606，使用同义姓名词；若否，则进入步骤S608，使用原姓名词。

步骤S606.将姓名文本转换为同义姓名文本。

步骤S608.姓名文本预处理。

步骤S610.姓名文本分词。

步骤S612.获取姓名单词列表。

步骤S614.获取姓名规则集。

步骤S616.将姓名单词列表与姓名规则集匹配。

步骤S618.判断姓名单词是否在姓名规则集中。

将姓名分词列表与姓名规则集进行匹配，若姓名单词不在姓名规则集中，则保留，进入步骤S620；若姓名单词在姓名规则集中，则丢弃该姓名单词。

步骤S620.得到保留姓名单词列表。

步骤S622.得到归一后的标准化姓名文本。

将最终得到的保留姓名单词列表进行顺序合并，得到归一化后的标准化姓名文本。

由于姓名数据来源比较复杂且马来语姓名比较特殊，以及英文单词存在错写、缩写、联写等一些列问题，为了提高姓名归一的准确率与召回率，需要对全量数据进行姓名同义词发现。如图7所示是本公开的一个具体实施方式中生成信息文本同义词典的完整流程图，该信息文本同义词典即上述步骤S604中的姓名出生日期性别同义词典。该流程图的具体步骤如下：

步骤S702.获取全量数据。

步骤S704.按照出生日期性别生成第一分类ID。

对多源的全量数据中存在姓名出生日期性别的数据，按照性别与出生日期生成一个ID，即第一分类ID。

步骤S706.按照第一分类ID对数据进行聚合。

按照第一分类ID进行数据聚合，即把相同ID的聚合在一起。

步骤S708.对聚合后的数据按照第二分类ID进行分类。其中，第二分类ID根据姓名生成。

对通过第一分类ID聚合后的数据再通过姓名进行分类，得到第二分类ID，使用的分类算法是Kmeans算法，其中，生成分类簇的策略是，当姓名列表的数量大于2的时候，取姓名列表数量的三分之二整数作为分类簇；当姓名列表的数量小于等于2时，则分类簇设置为1。此策略的目的主要是为了将数据尽可能多的分成多个类，为了在后续计算相似度的时候尽可能减少计算次数，提高计算效率。

步骤S710.根据第一分类ID和第二分类ID生成聚合ID。

按照第一分类ID以及第二分类ID生成新的聚合ID，即NID。

步骤S712.按照聚合ID对数据进行聚合。

按照NID进行聚合，把NID相同的数据聚合在一起。

步骤S714.对聚合后的数据按照姓名相似度进行计算。

步骤S716.判断姓名相似度是否大于0.97。

若姓名相似度大于0.97，则进入步骤S718的相似数据中。

步骤S718.对相似数据进行人工确认。

对于一些特殊姓名的情况可以进行人工干预，并且不会影响其他情况的归一化处理。

步骤S720.生成姓名出生日期性别同义词典。

由于马来语的姓名是由头衔+重名+第一名字+冠名+父头衔+父重名+父第一名字几项构成，其中头衔、重名、冠名、父头衔、父重名都是可变的部分，随着时间的变化都有可能发生变化。因此，需要整理提取的特征词类型有头衔(包名字中父头衔)、重名和冠名，来形成姓名规则集。在归一化之前，需要对规则集进行发现。如图8所示是本公开的一个具体实施方式中生成文本成分规则集合的完整流程图，该文本成分规则集合即上述步骤S616中的姓名规则集。该流程图的具体步骤如下：

步骤S802.获取马来语姓名文本。

步骤S804.姓名文本预处理。

对马来语姓名进行预处理的过程可以包括清除一些特殊字符，比如“)”、“(”、“。”等符号；另外，还需要清除一些无意义的特殊单词，例如“unknown”、“B/O”、“Baby of”等单词。

步骤S806.姓名文本分词。

对姓名文本进行分词，得到姓名单词列表。

步骤S808.获取姓名规则集。

步骤S810.将姓名文本分词与姓名规则集进行相似度比较。

步骤S812.判断相似度是否大于0.95。

若相似度大于0.95，就认为是可能的规则集，进入步骤S814。

步骤S814.人工标注。

对可能的规则集进行人工标注。

步骤S816.判断是否符合要求，若是，则将姓名文本分词补充到姓名规则集中。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本公开还提供了一种文本的标准化处理装置。参考图9所示，该文本的标准化处理装置可以包括原始信息文本获取模块910、原始信息文本匹配模块920、有效文本成分获取模块930、标准文本成分确定模块940以及标准化文本生成模块950。其中：

原始信息文本获取模块910可以用于获取原始信息文本，原始信息文本中包括待处理的原始文本；

原始信息文本匹配模块920可以用于根据预先生成的信息文本同义词典对原始信息文本进行匹配，得到原始信息文本中的原始文本对应的目标文本；

有效文本成分获取模块930可以用于对目标文本进行分词处理，得到目标文本中所包含的各个有效文本成分；

标准文本成分确定模块940可以用于获取预先生成的文本成分规则集合，并将各个有效文本成分中不属于文本成分规则集合的有效文本成分作为标准文本成分；

标准化文本生成模块950可以用于根据标准文本成分得到原始文本对应的标准化文本。

在本公开的一些示例性实施例中，原始信息文本匹配模块920可以包括第一目标文本确定单元以及第二目标文本确定单元。其中：

第一目标文本确定单元可以用于若信息文本同义词典中存在与原始信息文本相关的目标信息文本，则将目标信息文本中包含的目标文本作为原始文本对应的目标文本；

第二目标文本确定单元可以用于若信息文本同义词典中不存在与原始信息文本相关的目标信息文本，则将原始文本作为目标文本。

在本公开的一些示例性实施例中，有效文本成分获取模块930可以包括无效成分过滤单元以及目标文本分词单元。其中：

无效成分过滤单元可以用于将目标文本中的无效文本成分进行过滤处理；

目标文本分词单元可以用于对过滤之后的目标文本进行分词处理，得到目标文本中所包含的各个有效文本成分。

在本公开的一些示例性实施例中，本公开提供的一种文本的标准化处理装置还可以包括信息文本同义词典生成模块。其中：

信息文本同义词典生成模块可以包括历史信息文本获取单元、历史信息文本分类单元以及同义词典生成单元。

历史信息文本获取单元可以用于获取历史信息文本，历史信息文本中所包含历史文本，以及历史文本对应的数据信息；

历史信息文本分类单元可以用于根据历史文本和历史文本对应的数据信息，对历史信息文本进行分类，得到多组相似信息文本集合；

同义词典生成单元可以用于根据多组相似信息文本集合生成信息文本同义词典。

在本公开的一些示例性实施例中，历史信息文本分类单元可以包括第一分类标识确定单元、第一分类集合确定单元、第二分类集合确定单元、第三分类集合确定单元以及余弦相似度计算单元。其中：

第一分类标识确定单元可以用于根据历史文本对应的数据信息得到历史信息文本的第一分类标识；

第一分类集合确定单元可以用于根据第一分类标识对历史信息文本进行分类，得到多个第一分类集合，其中，每个第一分类集合中历史信息文本的第一分类标识相同；

第二分类集合确定单元可以用于根据历史文本得到历史信息文本的第二分类标识，并根据第二分类标识通过预设聚类算法分别对各个第一分类集合中的历史信息文本再次进行分类，得到多个第二分类集合；

第三分类集合确定单元可以用于根据第一分类标识和第二分类标识得到聚合标识，并根据聚合标识分别对各个第二分类集合中的历史信息文本再次进行分类，得到多个第三分类集合；

余弦相似度计算单元可以用于对于各个第三分类集合中的历史信息文本，计算历史信息文本中所包含的历史文本两两之间的余弦相似度，并将余弦相似度大于第一相似度阈值的历史信息文本放入同一个相似信息文本集合中。

在本公开的一些示例性实施例中，第二分类集合确定单元可以包括聚类簇数确定单元以及信息文本划分单元。其中：

聚类簇数确定单元可以用于根据各个第一分类集合中历史信息文本的总数，确定各个第一分类集合对应的聚类簇数；

信息文本划分单元可以用于根据第二分类标识，通过预设聚类算法将各个第一分类集合中的历史信息文本划分为与聚类簇数相对应的多个第二分类集合。

在本公开的一些示例性实施例中，聚类簇数确定单元可以包括第一聚类簇数确定单元以及第二聚类簇数确定单元。其中：

第一聚类簇数确定单元可以用于若第一分类集合中历史信息文本的总数大于或等于文本数量阈值，则根据历史信息文本的总数和预设比值确定第一分类集合对应的聚类簇数；

第二聚类簇数确定单元可以用于若第一分类集合中历史信息文本的总数小于或等于文本数量阈值，则获取预设聚类簇数作为第一分类集合对应的聚类簇数。

在本公开的一些示例性实施例中，本公开提供的一种文本的标准化处理装置还可以包括文本成分规则集合生成模块。其中：

文本成分规则集合生成模块可以包括历史文本获取单元、有效文本成分获取单元、余弦相似度计算单元以及规则集合生成单元。

历史文本获取单元可以用于获取历史信息文本中的所包含历史文本；

有效文本成分获取单元可以用于对历史文本进行分词处理，得到历史文本中所包含的各个有效历史文本成分；

余弦相似度计算单元可以用于将有效历史文本成分与文本成分规则集合中的文本成分进行余弦相似度计算；

规则集合生成单元可以用于若有效历史文本成分与文本成分规则集合中的文本成分之间的余弦相似度大于第二相似度阈值，则将有效历史文本成分添加到文本成分规则集合中。

上述文本的标准化处理装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明，此处不再赘述。

图10示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本的标准化处理方法，其特征在于，包括：

根据所述标准文本成分得到所述原始文本对应的标准化文本；

其中，所述信息文本同义词典的生成方法包括：

对于各个所述第三分类集合中的历史信息文本，计算所述历史信息文本中所包含的历史文本两两之间的余弦相似度，并将所述余弦相似度大于第一相似度阈值的所述历史信息文本放入同一个相似信息文本集合中，得到多组相似信息文本集合；

2.根据权利要求1所述的文本的标准化处理方法，其特征在于，所述根据预先生成的信息文本同义词典对所述原始信息文本进行匹配，得到所述原始信息文本中的所述原始文本对应的目标文本，包括：

3.根据权利要求1所述的文本的标准化处理方法，其特征在于，所述对所述目标文本进行分词处理，得到所述目标文本中所包含的各个有效文本成分，包括：

将所述目标文本中的无效文本成分进行过滤处理；

4.根据权利要求1所述的文本的标准化处理方法，其特征在于，所述根据所述第二分类标识通过预设聚类算法分别对各个所述第一分类集合中的历史信息文本再次进行分类，得到多个第二分类集合，包括：

5.根据权利要求4所述的文本的标准化处理方法，其特征在于，所述根据各个所述第一分类集合中所述历史信息文本的总数，确定各个所述第一分类集合对应的聚类簇数，包括：

6.根据权利要求1所述的文本的标准化处理方法，其特征在于，所述文本成分规则集合的生成方法包括：

获取历史信息文本中的所包含历史文本；

7.一种文本的标准化处理装置，其特征在于，包括：

标准化文本生成模块，用于根据所述标准文本成分得到所述原始文本对应的标准化文本；

信息文本同义词典生成模块，用于：

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的文本的标准化处理方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至6中任一项所述的文本的标准化处理方法。