CN107679084A

CN107679084A - 聚类标签生成方法、电子设备及计算机可读存储介质

Info

Publication number: CN107679084A
Application number: CN201710776351.5A
Authority: CN
Inventors: 罗傲雪; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2018-02-09
Anticipated expiration: 2037-08-31
Also published as: WO2019041524A1; CN107679084B

Abstract

本发明公开了一种聚类标签生成方法，该方法包括步骤：针对文本聚类结果构建每个聚类中词语间的语义网络关系；从每个聚类所构建的语义网络关系中抽取具有代表性的关键词，记为聚类关键词；从每个聚类的关键词中抽取区分性最高的关键词，记为每个聚类的标签。本发明可以提升聚类标签的区分度和辨识度。

Description

聚类标签生成方法、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种聚类标签生成方法、电子设备及计算机可读存储介质。

背景技术

现有技术中对于非监督的语料进行聚类，聚类后结果往往由于缺少标签，从而导致在用户交互中不易呈现聚类结果的问题。故，现有技术中的聚类方法设计不够合理，亟需改进。

发明内容

有鉴于此，本发明提出一种聚类标签生成方法、电子设备及计算机可读存储介质，通过预设的朴素贝叶斯计算公式，在语义层面上优化了聚类关键词的提取过程，并对聚类文本的标签提取进行了优化。

首先，为实现上述目的，本发明提出一种电子设备，所述电子设备包括存储器和处理器，在所述存储器上存储有可在所述处理器上运行的聚类标签生成系统，所述聚类标签生成系统被所述处理器执行时实现如下步骤：

针对文本聚类结果构建每个聚类中词语间的语义网络关系；

从每个聚类所构建的语义网络关系中抽取具有代表性的关键词，记为聚类关键词；及

从每个聚类的关键词中抽取区分性最高的关键词，记为每个聚类的标签。

优选地，所述抽取具有代表性的关键词包括：根据词语的条件概率数值大小抽取每个聚类的关键词。

优选地，所述抽取具有代表性的关键词包括：

计算每个聚类所构建的语义网络关系中每个词语的条件概率值，其中，所述条件概率值根据预设的朴素贝叶斯计算公式得出；

针对上述每个聚类所计算出的每个词语的条件概率值进行降序排列，提取预设数量的关键词，记为聚类关键词。

优选地，所述抽取区分性最高的关键词包括：根据词语之间的转移概率值和预设的朴素贝叶斯计算公式，从每个聚类的关键词中抽取区分性最高的关键词。

优选地，所述抽取区分性最高的关键词包括：

根据预设的转移概率计算公式，计算每个聚类的所有文档聚成的总文档中，关键词之间的转移概率值；

将每个聚类中的关键词之间的转移概率值代入所述预设的朴素贝叶斯计算公式中，重新计算每个关键词的条件概率值；

针对上述每个聚类所重新计算出的每个关键词的条件概率值进行降序排列，提取条件概率值最高的关键词，记为聚类标签。

优选地，所述预设的朴素贝叶斯计算公式设置为公式1：

公式1中，S代表由n个词语W1、W2、…Wn组成的一段文本，Wi代表该段文本所构建的语义网络关系中的一个词语；

所述预设的转移概率计算公式设置为公式2：

公式2中，m代表文本聚类后的聚类数量，t代表其中的某个聚类，Wi和Wj代表每个聚类抽取的关键词，Pt(Wj|Wi)代表：将第t个聚类的所有文档聚成的总文档中，关键词Wi到Wj的转移概率。

此外，为实现上述目的，本发明还提供一种聚类标签生成方法，该方法应用于电子设备，所述方法包括：

针对文本聚类结果构建每个聚类中词语间的语义网络关系；

优选地，所述抽取具有代表性的关键词包括：根据词语的条件概率数值大小抽取每个聚类的关键词，具体包括：

优选地，所述抽取区分性最高的关键词包括：根据词语之间的转移概率值和预设的朴素贝叶斯计算公式，从每个聚类的关键词中抽取区分性最高的关键词，具体包括：

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有聚类标签生成系统，所述聚类标签生成系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的聚类标签生成方法的步骤。

相较于现有技术，本发明所提出的电子设备、聚类标签生成方法及计算机可读存储介质，通过预设的朴素贝叶斯计算公式，在语义层面上优化了聚类关键词的提取过程。进一步地，也对聚类文本的标签提取进行了优化，使得提取的聚类标签具有高区分性和辨识度。

附图说明

图1是本发明电子设备一可选的硬件架构的示意图；

图2是本发明电子设备中聚类标签生成系统一实施例的程序模块示意图；

图3为本发明聚类标签生成方法一实施例的实施流程示意图。

附图标记：

电子设备	2
		存储器	21
处理器	22
		网络接口	23
聚类标签生成系统	20
		构建模块	201
抽取模块	202
		生成模块	203
流程步骤	S31-S33

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

进一步需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

首先，本发明提出一种电子设备2。

参阅图1所示，是本发明电子设备2一可选的硬件架构的示意图。本实施例中，所述电子设备2可包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是，图1仅示出了具有组件21-23的电子设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该电子设备2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子设备2的内部存储单元，例如该电子设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子设备2的外部存储设备，例如该电子设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件，例如所述聚类标签生成系统20的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作，例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的聚类标签生成系统20等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连，在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

参阅图2所示，是本发明电子设备2中聚类标签生成系统20一实施例的程序模块图。本实施例中，所述的聚类标签生成系统20可以被分割成一个或多个程序模块，所述一个或者多个程序模块被存储于所述存储器21中，并由一个或多个处理器(本实施例中为所述处理器22)所执行，以完成本发明。例如，在图2中，所述的聚类标签生成系统20可以被分割成构建模块201、抽取模块202、以及生成模块203。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述聚类标签生成系统20在所述电子设备2中的执行过程。以下将就各程序模块201-203的功能进行详细描述。

所述构建模块201，用于针对文本聚类结果构建每个聚类中词语间的语义网络关系。在本实施例中，针对非监督的语料进行文本聚类，聚类方法可以采用Text-rank聚类算法，文本聚类结果可以是文本摘要信息等。所述语义网络关系用于描述物体概念与状态及其间的关系，由结点和结点之间的弧组成，其中，结点表示概念(事件、事物等)，弧表示概念之间的关系。

所述抽取模块202，用于从每个聚类所构建的语义网络关系中抽取具有代表性的关键词，记为聚类关键词。

优选地，在本实施例中，所述抽取具有代表性的关键词包括：根据词语的条件概率数值大小抽取每个聚类的关键词。具体而言，假设S代表着一段文本，Wi代表该段文本所构建的语义网络关系中的一个词语，计算每个聚类所构建的语义网络关系中每个词语的条件概率值P(S|Wi)。从理论上而言，如果某个词语Wi是该段文本的关键词，那么应该使得上述条件概率值最大。因此，针对上述每个聚类所计算出的每个词语的条件概率值进行降序排列，提取预设数量(如3个)的关键词，记为聚类关键词。在本实施例中，所述聚类关键词为最能代表该段文本语义的词语。

优选地，在本实施例中，所述条件概率值根据预设的朴素贝叶斯计算公式得出。举例而言，假设文本S由n个词语W1、W2、…Wn组成，则预设的朴素贝叶斯计算公式可以设置为如下公式1(LaTex版本)。

P(S|Wi)＝P(W1,W2,...,Wn|Wi)＝\prod_{k＝1}^n P(Wk|Wi)--公式1

需要说明的是，在其它实施例中，公式1也可以表示为如下形式：

其中，公式1中P(S|Wi)代表：给定词语Wi出现的情况下，文本S出现的概率，等式右半部分为乘积计算公式，n代表文本S中的词语个数。

所述生成模块203，用于从每个聚类的关键词中抽取区分性最高的关键词，记为每个聚类的标签。

优选地，在本实施例中，所述抽取区分性最高的关键词包括：根据词语之间的转移概率值和所述预设的朴素贝叶斯计算公式，从每个聚类的关键词中抽取区分性最高的关键词。具体而言，首先，根据预设的转移概率计算公式，计算每个聚类的所有文档聚成的总文档中，关键词之间的转移概率值。在本实施例中，所述预设的转移概率计算公式可以设置为如下公式2。

其中，m代表文本聚类后的聚类数量，t代表其中的某个聚类(如第一个聚类)，Wi和Wj代表每个聚类抽取的关键词，则Pt(Wj|Wi)代表：将第t个聚类的所有文档聚成的总文档中，关键词Wi到Wj的转移概率。

例如，如果文本聚类后的聚类数量m＝3，则第一个聚类中的关键词之间的转移概率计算公式为：

进一步地，将每个聚类中的关键词之间的转移概率值代入所述预设的朴素贝叶斯计算公式(上述公式1)中，重新计算每个关键词的条件概率值(最后结果为一个转移矩阵的叠乘)。针对上述每个聚类所重新计算出的每个关键词的条件概率值进行降序排列，提取条件概率值最高的关键词，记为聚类标签。在本实施例中，重新计算出的条件概率值代表每个关键词的区分性高低，一个关键词重新计算出的条件概率值越高，代表区分性越高，更加适合做聚类标签。

需要说明的是，在其它实施例中，也可以从每个聚类的关键词中选取区分性较高的多个关键词(如区分性前两位的关键词)，作为每个聚类的标签。

通过上述程序模块201-203，本发明所提出的聚类标签生成系统20，通过预设的朴素贝叶斯计算公式，在语义层面上优化了聚类关键词的提取过程。进一步地，也对聚类文本的标签提取进行了优化，使得提取的聚类标签具有高区分性和辨识度。

此外，本发明还提出一种聚类标签生成方法。

参阅图3所示，是本发明聚类标签生成方法一实施例的实施流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S31，针对文本聚类结果构建每个聚类中词语间的语义网络关系。在本实施例中，针对非监督的语料进行文本聚类，聚类方法可以采用Text-rank聚类算法，文本聚类结果可以是文本摘要信息等。所述语义网络关系用于描述物体概念与状态及其间的关系，由结点和结点之间的弧组成，其中，结点表示概念(事件、事物等)，弧表示概念之间的关系。

步骤S32，从每个聚类所构建的语义网络关系中抽取具有代表性的关键词，记为聚类关键词。

P(S|Wi)＝P(W1,W2,...,Wn|Wi)＝\prod_{k＝1}^n P(Wk|Wi)--公式1

步骤S33，从每个聚类的关键词中抽取区分性最高的关键词，记为每个聚类的标签。

通过上述步骤S31-S33，本发明所提出的聚类标签生成方法，通过预设的朴素贝叶斯计算公式，在语义层面上优化了聚类关键词的提取过程。进一步地，也对聚类文本的标签提取进行了优化，使得提取的聚类标签具有高区分性和辨识度。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘)，所述计算机可读存储介质存储有聚类标签生成系统20，所述聚类标签生成系统20可被至少一个处理器22执行，以使所述至少一个处理器22执行如上所述的聚类标签生成方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的聚类标签生成系统，所述聚类标签生成系统被所述处理器执行时实现如下步骤：

针对文本聚类结果构建每个聚类中词语间的语义网络关系；

2.如权利要求1所述的电子设备，其特征在于，所述抽取具有代表性的关键词包括：根据词语的条件概率数值大小抽取每个聚类的关键词。

3.如权利要求2所述的电子设备，其特征在于，所述抽取具有代表性的关键词包括：

4.如权利要求3所述的电子设备，其特征在于，所述抽取区分性最高的关键词包括：根据词语之间的转移概率值和预设的朴素贝叶斯计算公式，从每个聚类的关键词中抽取区分性最高的关键词。

5.如权利要求4所述的电子设备，其特征在于，所述抽取区分性最高的关键词包括：

6.如权利要求5所述的电子设备，其特征在于，所述预设的朴素贝叶斯计算公式设置为公式1：

所述预设的转移概率计算公式设置为公式2：

7.一种聚类标签生成方法，应用于电子设备，其特征在于，所述方法包括：

针对文本聚类结果构建每个聚类中词语间的语义网络关系；

8.如权利要求7所述的聚类标签生成方法，其特征在于，所述抽取具有代表性的关键词包括：根据词语的条件概率数值大小抽取每个聚类的关键词，具体包括：

9.如权利要求8所述的聚类标签生成方法，其特征在于，所述抽取区分性最高的关键词包括：根据词语之间的转移概率值和预设的朴素贝叶斯计算公式，从每个聚类的关键词中抽取区分性最高的关键词，具体包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有聚类标签生成系统，所述聚类标签生成系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求7-9中任一项所述的聚类标签生成方法的步骤。