CN110134791B

CN110134791B - 一种数据处理方法、电子设备及存储介质

Info

Publication number: CN110134791B
Application number: CN201910424547.7A
Authority: CN
Inventors: 宁超
Original assignee: Beijing Teddy Bear Mobile Technology Co ltd
Current assignee: Beijing Teddy Bear Mobile Technology Co ltd; Beijing Teddy Future Technology Co ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2022-03-08
Anticipated expiration: 2039-05-21
Also published as: CN110134791A

Abstract

本发明公开了一种数据处理方法。所述数据处理方法包括：对初始文本信息进行泛化处理，形成泛化文本信息；对泛化文本信息集合进行聚类处理，形成聚类簇信息；及对所述聚类组信息进行范式提取操作，形成聚类语义范式。本发明还公开了一种电子设备及存储介质。所述数据处理方法提供了有效的数据聚类处理方法，并且也加快了聚类的速度并提高了聚类的准确性。

Description

一种数据处理方法、电子设备及存储介质

技术领域

本发明属于电子数据技术领域，尤其涉及一种数据处理方法、电子设备及存储介质。

背景技术

电子智能设备的应用越来越广泛，已经成为人们日常不可缺少的工具，如笔记本电脑、手机、平板电脑、智能手表等等。网络技术的发展进一步将电子智能设备的作用扩展至社会生活的方方面面。人们在使用电子智能设备产生了大量的数据，这些数据中不可避免会出现相近似或重复的数据。例如，移动通信运营商会给用户发送的大量类似通知短信，公司在不同网购平台发布产品的相似或相同简介信息。因此，如何处理这些相同或近似数据，更有效便利的利用数据，成为需要解决的问题。

发明内容

本发明提供一种数据处理方法。所述数据处理方法包括：对初始文本信息进行泛化处理，形成泛化文本信息；对泛化文本信息集合进行聚类处理，形成聚类簇信息；及对所述聚类组信息进行范式提取操作，形成聚类语义范式。

本发明另一方面提供一种电子设备，包括至少一处理器，用于实现各程序；至少一存储器，用于存储至少一个程序；所述至少一个程序被所述至少一处理器执行时，所述电子设备实现本发明提供的数据处理方法。

本发明另一方面提供一种存储介质，存储有程序，所述程序被处理器执行时实现本发明提供的数据处理方法。

本发明提供的处理方法，通过对短文本进行泛化处理，并对泛化后的文本进行聚类处理，进而从聚类组信息中进行范式提出操作，最终形成聚类语义范式，提供了有效的数据聚类处理方法，并且也加快了聚类的速度并提高了聚类的准确性。

附图说明

图1为本发明实施例提供的数据处理方法的流程图。

图2为所述数据处理方法的NER泛化处理示例示意图。

图3为所述数据处理方法的聚类处理的流程图。

图4为所述聚类处理的形成短文本聚类簇信息的流程示意图。

图5为所述聚类处理的示意图。

图6为所述数据处理方法的范式提取操作的示意图。

图7为所述数据处理方法的示例示意图。

图8为本发明实施例提供的电子设备的示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为采用本发明实施例提供的一种数据处理方法的流程。所述数据处理方法可应用于各种电子设备，包括智能手机、电脑、网络服务器等。所述数据处理方法包括以下步骤310，步骤320及步骤330。

步骤310，对初始文本信息进行泛化处理，形成泛化文本信息。

在一实施例中，采用NER泛化对初始文本信息进行泛化处理。NER泛化是使用基于深度学习的命名实体识别模型，发现短文本中包含的诸如人名、地名与时间等实体，并对这些实体进行泛化处理。通过泛化处理，对短文本可能包含的一些涉及隐私的信息或者符合其他特定排除条件的信息进行了消除。此外，泛化处理还可使短文本的特征更为显著，提到后续处理的准确性。

如图2所示，通过NER泛化处理，原短文本信息中的“赵先生”、“北京”、“18888888888”、“2019年4月17日”被泛化处理掉。在处理后的短文本信息中分别以“@人名@”、“@地址@”、“@电话@”、“@时间@”代替已形成泛化文本信息。

步骤320，对泛化文本信息集合进行聚类处理，形成聚类簇信息。

在一实施例中，如图3所示的聚类处理步骤320进一步包括以下具体步骤。

步骤322，将泛化文本信息集合中的各泛化文本信息转化为基于向量空间模型的向量表示。

步骤324，采用二分KMeans聚类算法进行文本相似度聚类，形成聚类簇信息。

其中，如步骤324进一步包括以下更为具体的步骤。

步骤241，对泛化文本信息划分，形成短文本聚类簇。

步骤242，判断是否挖掘出更细粒度的具有相似语义意图的短文本信息，若判断结果为是，则流程进入步骤243，若判断结果为否，则流程返回步骤241。

步骤243，进行合并，以生成聚类簇信息。

图5进一步对聚类处理进行示意说明，具体分为划分步骤与合并步骤。首先对泛化文本信息集合转化为基于向量空间模型的向量表示，然后采用二分KMeans聚类算法进行文本相似度聚类。图5进行了多次划分，其中第一次划分步骤241产生了短文本聚类簇A和短文本聚类簇B；第二次划分步骤242产生了短文本聚类簇A1和短文本聚类簇A2；第三次划分步骤243产生了短文本聚类簇B1和短文本聚类簇B2；第四次划分步骤244产生了短文本聚类簇A21和短文本聚类簇A22。之后进行了一次合并步骤245，找出之前划分步骤中产生的聚类碎片，并对碎片进行归并，进而产生了短文本聚类簇C。最后形成了短文本聚类簇A1、短文本聚类簇A21、短文本聚类簇C及短文本聚类簇B2。因此，通过聚类处理，形成了聚类簇信息。

步骤330，对聚类簇信息进行范式提取操作，形成聚类语义范式。

范式提取操作包括步骤：对聚类簇对中包含至少两条短文本信息的聚类簇，逐个提取最长公共子序列；将最长公共子序列作为聚类簇的聚类语义范式。图6是一示例，说明范式提取操作。其中，提取步骤332对包含至少两条短文本信息的短文本聚类簇A1、短文本聚类簇A21、短文本聚类簇C逐个提取最长公共子序列，从而形成聚类语义范式a1、聚类语义范式a21以及聚类语义范式c，从而保留了聚类簇中短文本的最频繁特征。同时，步骤334对短文本聚类簇B2进行了舍弃操作，从而舍弃了非频繁特征。最终形成了聚类语义范式。

图7为一具体示例，说明采用本发明数据处理方法各步骤处理结果的表现形式。其中，初始文本信息400包括来自某某电力、某某银行、某某移动的多项初始文本信息。经过步骤310泛化处理后形成了泛化文本信息410，原短文本信息中的相应实体在处理后的短文本信息中分别以“@人名@”、“@地址@”、“@电话@”、“@时间@”、“@金额@”代替。接下来，经过步骤320聚类处理，形成了聚类簇信息420，包括序号1聚类簇信息、序号2聚类簇信息、序号3聚类簇信息、以及序号4聚类簇信息。最后，经过步骤330范式提取操作，形成了聚类语义范式430，包括序号1聚类语义范式、序号2聚类语义范式、以及序号3聚类语义范式，并对原序号4聚类簇信息进行了舍弃。

图8为本发明实施例提供的电子设备900的示意图。电子设备900采用本发明的数据处理方法。电子设备900包括处理器910及存储器920。其中，处理器910用于实现各程序。存储器920用于存储至少一个程序，所述至少一个程序被处理器910执行时，电子设备900可实现本发明提供的数据处理方法。

此外，本发明实施例还提供一种存储介质存储有程序，所述程序被处理器执行时实现本发明提供的数据处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

发现初始文本信息中包含的人名、地名与时间的实体，将初始文本信息中包含的涉及隐私的信息或者符合其他特定排除条件的信息进行消除，形成泛化文本信息；

将泛化文本信息集合中的各泛化文本信息转化为基于向量空间模型的向量表示，对向量表示的泛化文本信息进行划分，形成短文本聚类簇；确定挖掘出更细粒度的具有相似语义意图的短文本信息时，进行合并，形成聚类簇信息；及

对所述聚类簇信息进行范式提取操作，形成聚类语义范式。

2.根据权利要求1所述数据处理方法，其特征在于，所述初始文本信息包括至少一条初始文本语料。

3.根据权利要求2所述数据处理方法，对初始文本信息进行泛化处理，形成泛化文本信息包括：

基于深度信息的命名实体识别模型，对所述至少一条初始文本语料中待泛化实体进行NER泛化处理。

4.根据权利要求3所述数据处理方法，其特征在于，所述待泛化实体包括人名、地名、时间中的至少一个。

5.根据权利要求4所述数据处理方法，其特征在于，所述泛化文本信息集合包括至少一所述泛化文本信息。

6.根据权利要求5所述数据处理方法，其特征在于，对泛化文本信息集合进行聚类处理，形成聚类簇信息包括：

将所述泛化文本信息转化为基于向量空间模型的向量表示；及

采用二分KMeans聚类算法进行文本相似度聚类，形成聚类簇信息。

7.根据权利要求6所述数据处理方法，其特征在于，所述采用二分KMeans聚类算法进行文本相似度聚类，形成聚类簇信息包括：

对所述泛化文本信息划分，形成短文本聚类簇；

判断是否挖掘出最细粒度的具有相似意图的短文本信息；

若判断结果为是，则进行合并，以生成聚类簇信息；

若判断结果为否，则继续进入步骤对所述泛化文本信息划分，形成短文本聚类簇。

8.根据权利要求7所述数据处理方法，其特征在于，所述对所述聚类簇信息进行范式提取操作，形成聚类语义范式包括：

对所述聚类簇信息中包含至少两条短文本信息的第一聚类簇，逐个提取最长公共子序列；

将所述最长公共子序列作为所述第一聚类簇的聚类语义范式。

9.一种电子设备，包括：

至少一处理器，用于实现各程序；

至少一存储器，用于存储至少一个程序；

所述至少一个程序被所述至少一处理器执行时，所述电子设备实现如权利要求1-8中任一所述的方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。