CN107402984B

CN107402984B - 一种基于主题的分类方法及装置

Info

Publication number: CN107402984B
Application number: CN201710560996.5A
Authority: CN
Inventors: 张快; 程浩; 柳超
Original assignee: Beijing Dike Technology Co Ltd
Current assignee: Beijing Dike Technology Co Ltd
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2018-11-20
Anticipated expiration: 2037-07-11
Also published as: CN107402984A

Abstract

本发明实施例提供一种基于主题的分类方法及装置，所述方法包括：获取公司信息；根据所述公司信息，获取与每个公司对应的特征词集合；根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。所述装置执行上述方法。本发明实施例提供的基于主题的分类方法及装置，能够准确地确定公司的主题分类。

Description

一种基于主题的分类方法及装置

技术领域

本发明实施例涉及信息分类领域，具体涉及一种基于主题的分类方法及装置。

背景技术

随着信息技术的发展，对信息分类，尤其是对公司所属的类型进行分类显得尤为重要。

现有技术通过分析处理信息的特征变量，实现对信息的分类，但是存在以下缺陷：(1)由于特征变量数量巨大，使得计算实现过程复杂；(2)特征变量的冗余性，以公司为例：某类公司可能会存在很多特征变量，这些特征变量之间存在相关或无关的特性，使得无法根据特征变量准确地确定该公司的主题分类。

因此，如何解决上述的技术缺陷，并准确地确定公司的主题分类，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于主题的分类方法及装置。

第一方面，本发明实施例提供一种基于主题的分类方法，所述方法包括：

获取公司信息；

根据所述公司信息，获取与每个公司对应的特征词集合；

根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；

将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；

根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

第二方面，本发明实施例提供一种基于主题的分类装置，所述装置包括：

第一获取单元，用于获取公司信息；

第二获取单元，用于根据所述公司信息，获取与每个公司对应的特征词集合；

构建单元，用于根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；

确定单元，用于将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；

归类单元，用于根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

第三方面，本发明实施例提供另一种基于主题的分类装置，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

获取公司信息；

根据所述公司信息，获取与每个公司对应的特征词集合；

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

获取公司信息；

根据所述公司信息，获取与每个公司对应的特征词集合；

本发明实施例提供的基于主题的分类方法及装置，能够准确地确定公司的主题分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于主题的分类方法的流程示意图；

图2为本发明实施例基于主题的分类装置的结构示意图；

图3为本发明实施例提供的装置实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例基于主题的分类方法的流程示意图，如图1所示，本发明实施例提供的一种基于主题的分类方法，包括以下步骤：

S1：获取公司信息。

具体的，装置获取公司信息。公司信息可以包括与公司关联的公司集合、与公司关联的人名集合、公司简介、行业类别、经营范围、公司产品等。但不作具体限定。

S2：根据所述公司信息，获取与每个公司对应的特征词集合。

具体的，装置根据所述公司信息，获取与每个公司对应的特征词集合。公司信息可以记为：Ci＝{与公司Ci关联的公司集合；与公司Ci关联的人名集合；公司简介；行业类别；经营范围；公司产品等}，其中不同i的数值表示不同的公司。其中，可以将公司简介、经营范围等文本信息进行全模式分词，获取其中表征公司特点的特征词，从而组成与每个公司对应的特征词集合{feat1，feat2，feat3……，featn}，如表1所示：

表1

	Feat1	Feat2	…	Featn
					C1	0	0		1
C2	1	0		1
					C3	1	0		0
C4	1	1		1
					……	……	……	……	……

表1中的每一元素代表对应的公司是否有对应的特征词，如果有则为1，否则为0。可以看出同一公司可以存在多个特征词(如C4的Feat1、Feat2、Featn)，即C4存在特征冗余的问题，引入一种基于企业的主题模型来解决这个问题，用一个主题分类来表示公司特征，从而达到降维的效果，同一个主题分类可以包含上述所属的类似特征，解决了特征冗余的问题。

S3：根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率。

具体的，装置根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率。似然度函数还可以包括第二概率，第二概率为主题分类为m的公司具有特征词j的概率，对于第一概率说明如下：所有公司服从一个K项的多项式分布，即对于所有公司中的任意公司Ci有一定的概率属于第m(m∈[1,K])个类(把所有公司分成K类，每个公司属于其中一个类)，记这个概率为对于第二概率说明如下：对于一个主题m，所有特征词服从一个Y项的多项式分布,不同主题m下的特征分布不同(如：主题分类为IT类中的特征词互联网、电脑等概率较高，主题分类为财经类别中的特征词股票、上市等概率比较高)，将在主题m下具有特征词j的概率记为θ_mj。似然度函数用于观测所有特征词、可以为如下公式：

其中，为第一概率；θ_mj为第二概率、第二概率为主题分类为m的公司具有特征词j的概率；K为主题分类的总分类数；m为主题分类中的第m个主题分类；C为所有公司；i为所有公司C中的第i个公司；F_C为第i个公司中的所有特征词；j为所有特征词F_C中的第j个特征词。

S4：将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率。

具体的，装置将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率。对于求解上述似然度函数达到最大值时的第一概率，可以先对上式取对数，再采用最大期望算法(Expectation Maximization Algorithm，以下简称“EM算法”)进行迭代计算，最终上式会收敛到最大值，将最后一次迭代所得到的和θ_mj为最终解(为目标第一概率)，(求解上述似然度函数为现有成熟的技术，不再具体描述)。对于每个公司的主体特征向量T_i可以记为：

S5：根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

具体的，装置根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。可以用如下公式计算每两个公司的相似度：

其中，Sim(T₁,T₂)为任意两个公司的相似度；T₁为第一个公司的主题特征向量，T₂为第二个公司的主题特征向量，|T₁|为第一个公司的主题特征向量值；|T₂|为第二个公司的主题特征向量值。相似度阈值可以根据实际情况自主设置，举例说明如下：C₁与C₂的相似度为0.9、C₁与C₃的相似度为0.7、C₂与C₃的相似度为0.85，相似度阈值选为0.8，则将C₁与C₂归属于主题分类1、C₂与C₃归属于主题分类2，C₁与C₃不能归属于任一主题分类。

本发明实施例提供的基于主题的分类方法，能够准确地确定公司的主题分类。

在上述实施例的基础上，所述似然度函数还包含第二概率；相应的，根据所述特征词集合，构建包含有第一概率和第二概率的似然度函数，包括：

根据如下公式构建所述似然度函数：

其中，为第一概率；θ_mj为第二概率、所述第二概率为主题分类为m的公司具有特征词j的概率；K为主题分类的总分类数；m为主题分类中的第m个主题分类；C为所有公司；i为所有公司C中的第i个公司；F_C为第i个公司中的所有特征词；j为所有特征词F_C中的第j个特征词。

具体的，装置根据如下公式构建所述似然度函数：

其中，为第一概率；θ_mj为第二概率、所述第二概率为主题分类为m的公司具有特征词j的概率；K为主题分类的总分类数；m为主题分类中的第m个主题分类；C为所有公司；i为所有公司C中的第i个公司；F_C为第i个公司中的所有特征词；j为所有特征词F_C中的第j个特征词。可参照上述实施例，不再赘述。

本发明实施例提供的基于主题的分类方法，通过构建、求解包含有第一概率和第二概率的似然度函数，能够快速、并准确地确定公司的主题分类。

在上述实施例的基础上，所述根据所述主题特征向量，计算每两个公司的相似度，包括：

根据如下公式计算每两个公司的相似度：

其中，T₁为第一个公司的主题特征向量，T₂为第二个公司的主题特征向量，T₁|为第一个公司的主题特征向量值；|T₂|为第二个公司的主题特征向量值。

具体的，装置根据如下公式计算每两个公司的相似度：

其中，T₁为第一个公司的主题特征向量，T₂为第二个公司的主题特征向量，|T₁|为第一个公司的主题特征向量值；|T₂|为第二个公司的主题特征向量值。可参照上述实施例，不再赘述。

本发明实施例提供的基于主题的分类方法，通过计算每两个公司的相似度，并与相似度阈值作比较，进一步能够准确地确定公司的主题分类。

在上述实施例的基础上，所述方法还包括：

若所述公司是由同一指定人作为高管和/或股东，则根据所述同一主题分类的分类结果，区分所述同一指定人。

具体的，装置若判断获知所述公司是由同一指定人作为高管和/或股东，则根据所述同一主题分类的分类结果，区分所述同一指定人。在进行企业信息检索查询时，我们经常会遇到相同人名的情况。例如：在“李某”作为法人/高管的公司中，既有北京百度网讯科技有限公司、北京百付宝科技有限公司、福建百度博瑞网络科技有限公司、百度云计算有限公司，又有山西格尔工程咨询有限公司、北京易悦科技有限公司、巴中市新绿农业有限公司等上百家公司。如何能够知道哪些“李某”的名字是一个实体人，并对应哪些公司，就成为了一个令人困扰的问题，参照上述说明中最终获得的同一主题分类的分类结果，可以区分“李某”如下：

李某1：{北京百度网讯科技有限公司；福建百度博瑞网络科技有限公司；百度云计算有限公司}；

李某2：{山西格尔工程咨询有限公司}；

李某3：{北京易悦科技有限公司}；

李某4：{巴中市新绿农业有限公司}。

本发明实施例提供的基于主题的分类方法，还能够区分同一指定人对应公司的主题分类。

在上述实施例的基础上，所述方法还包括：

若检测到与所述同一指定人同名的新公司，获取所述新公司的第一信息。

具体的，装置若检测到与所述同一指定人同名的新公司，获取所述新公司的第一信息。需要说明的是：当有法人/高管或股东为与该同一指定人同名的新公司加入时，会检测到与同一指定人同名的新公司。

根据所述第一信息，获取与所述新公司对应的新特征词集合。

具体的，装置根据所述第一信息，获取与所述新公司对应的新特征词集合。可参照上述实施例说明，不再赘述。

根据所述新特征词集合，计算每一主题分类的所有第二概率之和。

具体的，装置根据所述新特征词集合，计算每一主题分类的所有第二概率之和。计算第二概率的方法可以采用上述说明的EM算法，但不作具体限定。

将K个所述所有第二概率之和相加，以获得全部主题分类的第二概率总和。

具体的，装置将K个所述所有第二概率之和相加，以获得全部主题分类的第二概率总和。每一主题m，计算其中j为新公司的第j个特征。假设某公司的特征有“互联网”，“大数据”，“财经”，这三个特征的概率为{0.01,0.01,0.0001}，那么的值为:0.01+0.01+0.0001＝0.0201，以此类推，完成其他的计算。可得到全部主题分类的第二概率总和(即之间的总和，记为sumT)。

计算所述每一主题分类的所有第二概率之和与所述全部主题分类的第二概率总和的比值，并将所有的K个比值组成新公司的新主题特征向量。

具体的，装置计算所述每一主题分类的所有第二概率之和与所述全部主题分类的第二概率总和的比值，并将所有的K个比值组成新公司的新主题特征向量。计算与sumT的比值、与sumT的比值，以此类推，共计K个，并组成新主题特征向量。

依次计算所述新主题特征向量和原有公司的每一主题特征向量的第一相似度，将数值最大的第一相似度作为目标第一相似度。

具体的，装置依次计算所述新主题特征向量和原有公司的每一主题特征向量的第一相似度，将数值最大的第一相似度作为目标第一相似度。举例说明如下：新主题特征向量记为T_NEW，原有公司的每一主题特征向量记为依次计算相似度Sim(T_NEW,T₁)、Sim(T_NEW,T₂)、Sim(T_NEW,T₃)，其数值分别为0.92、0.88、0.79，则将Sim(T_NEW,T₁)作为目标第一相似度，

将所述目标第一相似度对应的原有公司的主题分类作为所述新公司的主题分类。

具体的，装置将所述目标第一相似度对应的原有公司的主题分类作为所述新公司的主题分类。参照上述实施例，将Sim(T_NEW,T₁)对应的原有公司C₁的主题分类1作为新公司的主题分类。

本发明实施例提供的基于主题的分类方法，还能够对新增公司进行准确的主题分类。

图2为本发明实施例基于主题的分类装置的结构示意图，如图2所示，本发明实施例提供了一种基于主题的分类装置，包括第一获取单元1、第二获取单元2、构建单元3、确定单元4和归类单元5，其中：

第一获取单元1用于获取公司信息；第二获取单元2用于根据所述公司信息，获取与每个公司对应的特征词集合；构建单元3用于根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；确定单元4用于将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；归类单元5用于根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

具体的，第一获取单元1用于获取公司信息；第二获取单元2用于根据所述公司信息，获取与每个公司对应的特征词集合；构建单元3用于根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；确定单元4用于将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；归类单元5用于根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

本发明实施例提供的基于主题的分类装置，能够准确地确定公司的主题分类。

在上述实施例的基础上，所述似然度函数还包含第二概率；相应的，所述构建单元3具体用于：

根据如下公式构建所述似然度函数：

具体的，所述构建单元3具体用于：

根据如下公式构建所述似然度函数：

本发明实施例提供的基于主题的分类装置，通过构建、求解包含有第一概率和第二概率的似然度函数，能够快速、并准确地确定公司的主题分类。

在上述实施例的基础上，所述归类单元5具体用于：

根据如下公式计算每两个公司的相似度：

其中，T₁为第一个公司的主题特征向量，T₂为第二个公司的主题特征向量，|T₁|为第一个公司的主题特征向量值；|T₂|为第二个公司的主题特征向量值。

具体的，所述归类单元5具体用于：

根据如下公式计算每两个公司的相似度：

本发明实施例提供的基于主题的分类装置，通过计算每两个公司的相似度，并与相似度阈值作比较，进一步能够准确地确定公司的主题分类

本发明实施例提供的基于主题的分类装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图3为本发明实施例提供的装置实体结构示意图，如图3所示，所述装置包括：处理器(processor)301、存储器(memory)302和总线303；

其中，所述处理器301、存储器302通过总线303完成相互间的通信；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取公司信息；根据所述公司信息，获取与每个公司对应的特征词集合；根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取公司信息；根据所述公司信息，获取与每个公司对应的特征词集合；根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取公司信息；根据所述公司信息，获取与每个公司对应的特征词集合；根据所述特征词集合，构建包含有第一概率的似然度函数，其中，所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率；将使所述似然度函数达到最大值的第一概率作为目标第一概率，并获取每个公司的主题特征向量，所述主题特征向量包括所述目标第一概率；根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种基于主题的分类方法，其特征在于，包括：

获取公司信息；

根据所述公司信息，获取与每个公司对应的特征词集合；

根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类；

所述似然度函数还包含第二概率；相应的，根据所述特征词集合，构建包含有第一概率和第二概率的似然度函数，包括：

根据如下公式构建所述似然度函数：

2.根据权利要求1所述的方法，其特征在于，所述根据所述主题特征向量，计算每两个公司的相似度，包括：

根据如下公式计算每两个公司的相似度：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若检测到与所述同一指定人同名的新公司，获取所述新公司的第一信息；

根据所述第一信息，获取与所述新公司对应的新特征词集合；

根据所述新特征词集合，计算每一主题分类的所有第二概率之和；

将K个所述所有第二概率之和相加，以获得全部主题分类的第二概率总和；

计算所述每一主题分类的所有第二概率之和与所述全部主题分类的第二概率总和的比值，并将所有的K个比值组成新公司的新主题特征向量；

依次计算所述新主题特征向量和原有公司的每一主题特征向量的第一相似度，将数值最大的第一相似度作为目标第一相似度；

5.一种基于主题的分类装置，其特征在于，包括：

第一获取单元，用于获取公司信息；

归类单元，用于根据所述主题特征向量，计算每两个公司的相似度，并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类；

所述似然度函数还包含第二概率；相应的，所述构建单元具体用于：

根据如下公式构建所述似然度函数：

6.根据权利要求5所述的装置，其特征在于，所述归类单元具体用于：

根据如下公式计算每两个公司的相似度：

7.一种基于主题的分类装置，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。