CN109800429A

CN109800429A - 主题挖掘方法、装置及存储介质、计算机设备

Info

Publication number: CN109800429A
Application number: CN201910008641.4A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-24
Anticipated expiration: 2039-01-04
Also published as: CN109800429B

Abstract

本发明提供一种主题挖掘方法、装置及存储介质、计算机设备，所述方法包括：获取历史多篇会议论文的相关信息，根据相关信息得到会议论文数据库；根据关联性规则从会议论文数据库中获取会议作者团体；会议作者团体为会议论文数据库中多个会议论文作者构成的集合；根据会议作者团体将会议论文进行分组，获取每个分组对应的会议论文标题的分词以及每个分词的加权值；对分词进行潜在语义分析，获取每个分词在对应会议论文中的语义；根据每个分词的加权值和每个分词对应的语义，确定会议作者团体的主题。该主题挖掘方法可研究出会议团体的研究主题方向，有助于追踪现有研究热点，为定向数据获取提供支撑。

Description

主题挖掘方法、装置及存储介质、计算机设备

技术领域

本发明涉及数据处理技术领域，具体而言，本发明涉及一种基于会议团体的主题挖掘方法、装置及存储介质、计算机设备。

背景技术

每年各类会议接受了大量的会议论文，往往会有很多会议论文的作者的组成大体上不随时间变化，并且这些作者在多个会议上都很活跃，这样的作者组成被称为团体。一个团体往往会关注一个特定主题，随着时间主题可能也会发生变化，探究团队构成情况以及团队研究主题的变化情况有助于追踪现有研究热点，为定向数据获取提供支撑。然而，如何根据作者团体确定出该团体的主题研究方向，成为现下研究的一个难点。

发明内容

本发明提出一种基于会议团体的主题挖掘方法、装置及存储介质、计算机设备，以研究出会议团体的研究主题方向，有助于追踪现有研究热点，为定向数据获取提供支撑。

本发明提供以下方案：

一种基于会议团体的主题挖掘方法，包括：获取历史多篇会议论文的相关信息，根据所述相关信息得到会议论文数据库；所述相关信息包括会议论文作者以及会议论文标题；根据关联性规则从所述会议论文数据库中获取会议作者团体；所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合；根据所述会议作者团体将会议论文进行分组，获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值；对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义；根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题。

在一实施例中，所述关联性规则包括频繁模式算法；所述根据关联性规则从所述会议论文数据库中获取会议作者团体，包括：通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者，根据所述关联性的会议论文作者得到所述会议作者团体。

在一实施例中，所述频繁模式算法包括Apriori算法或FP-Growth算法；所述通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者，包括：将每篇所述会议论文中的会议论文作者与会议论文标题进行关联，通过所述频繁模式算法中的频繁项集方式获取同一会议论文标题的会议论文作者，得到所述关联性的会议论文作者。

在一实施例中，所述根据所述会议作者团体将会议论文进行分组，包括：获取所述会议作者团体中每个会议论文作者参与的会议论文的第一主题信息；统计所述会议作者团体对应所有的所述第一主题信息，确定出所述会议作者团体的第二主题信息；根据所述第二主题信息将将会议论文进行分组。

在一实施例中，所述获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值，包括：获取每个分组的会议论文中的分词，采用TF-IDF算法获取每个所述分词的加权值。

在一实施例中，所述对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义，包括：采用LSA算法对每个所述分词进行潜在语义分析，得到每个所述分词在对应会议论文中的语义。

在一实施例中，所述根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题，包括：根据每个所述分词的加权值筛选出加权值大于预设值的分词作为第一待选取主题词；根据每个所述分词在对应会议论文中的语义，确定第二待选取主题词；将所述第一待选取主题词和所述第二待选取主题词进行对比，根据对比结果确定所述会议作者团体的主题。

一种基于会议团体的主题挖掘装置，包括：第一获取模块，用于获取历史多篇会议论文的相关信息，根据所述相关信息得到会议论文数据库；所述相关信息包括会议论文作者以及会议论文标题；第二获取模块，用于根据关联性规则从所述会议论文数据库中获取会议作者团体；所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合；第三获取模块，用于根据所述会议作者团体将会议论文进行分组，获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值；第四获取模块，用于对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义；确定模块，用于根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题。

一种存储介质，其上存储有计算机程序；所述计算机程序适于由处理器加载并执行上述任一实施例所述的基于会议团体的主题挖掘方法。

一种计算机设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据上述任一实施例所述的基于会议团体的主题挖掘方法。

上述实施例提供的基于会议团体的主题挖掘方法，获取历史多篇会议论文以及会议论文的相关信息，形成会议论文数据库。进一步地，根据关联性规则从会议论文数据库中筛选出具有关联性的会议作者，生成会议作者团体，从而根据会议作者团体对会议论文数据库中的会议论文进行分组，得到每个分组的会议论文。更进一步地，获取每个分组会议论文中会议论文标题的分词以及每个分词的加权值，通过分析分词潜在的语义以及该分词的加权值，可确定出该会议作者团体的研究主题，从而有助于追踪现有研究热点，为定向数据获取提供支撑。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明提供的一种基于会议团体的主题挖掘方法的一实施例中的方法流程图；

图2为本发明提供的FP-Growth算法的挖掘频繁模式的示意图；

图3为本发明提供的步骤S300的一实施例中的方法流程图；

图4为本发明提供的步骤S500的一实施例中的方法流程图；

图5为本发明提供的一种基于会议团体的主题挖掘装置的一实施例中的结构框图；

图6为本发明提供的一种计算机设备的一实施例中的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式，这里使用的“第一”、“第二”仅用于区别同一技术特征，并不对该技术特征的顺序和数量等加以限定。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

研究主题相近的会议接受的论文的作者有较大的重叠性，将这些会议放在一起研究有利于增加样本大小，挖掘出更有用的信息。往往合作者之间会在多方面有着长时间的合作，具体体现在合作者核心成员往往是固定的，不随时间有较大变化；团队研究的主题可能是随着时间不断变化的，但是研究的中心应该不会有大的变化。考虑到所谓团队就是常常伴随出现的个体的集合，因此可以本发明提供的基于会议团体的主题挖掘方法，在具体的实施方式中，可以考虑采用频繁模式挖掘的方法实现对团队的挖掘，将挖掘出的团队沿着时间轴分析，即可得出组成变化情况。进一步地，考虑到团队研究的主题可能是文档或标题中出现频率最高的实词，因此可以考虑筛选出实词统计词频，也可考虑采用LSA的方法进行降维分析。通过比较两种方法的结果，筛选出较好的结果。以下对本发明提供的基于会议团体的主题挖掘方法进行详细说明：

本发明提供一种基于会议团体的主题挖掘方法。在一实施例中，如图1所示，该主题挖掘方法包括以下步骤：

S100，获取历史多篇会议论文的相关信息，根据所述相关信息得到会议论文数据库；所述相关信息包括会议论文作者以及会议论文标题。

在本实施例中，各类会议接收到大量的会议论文，每个会议论文标著有对应的论文作者，并且会议论文标题名称标注出论文主题内容。一般地，会议论文的作者可组成相应的团体，并且该团体不会随时间的变化而变化。因此，系统可获取历史的多篇会议论文的相关信息，具体可通过爬虫技术从各大互联网的会议网站中获取多篇会议论文，组成会议论文数据库。会议论文数据库中记载有每个会议论文的会议论文标题以及对应的会议论文作者，两者可关联性存储在数据库中。

S200，根据关联性规则从所述会议论文数据库中获取会议作者团体；所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合。

在本实施例中，会议论文数据库中，由于研究主题的相近性，会议论文的作者存在较大的重叠。根据会议论文标题，通过关联性规则研究会议论文数据库中相同或相似的论文标题的作者，获取相同或相似会议论文主题下的多个所述会议论文作者，以生成所述会议作者团体。所述会议作者团体中核心成员往往是固定的，不随时间有较大变化。然而，会议作者团体的主题可能是随着时间不断变化，但会议作者团体研究的论文主题的中心不会有大的变化。

在一实施例中，所述关联性规则包括频繁模式算法。步骤S200，包括：通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者，根据所述关联性的会议论文作者得到所述会议作者团体。

在该实施例的一个实施方式中，所述频繁模式算法包括Apriori算法或FP-Growth算法；所述通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者，包括：将每篇所述会议论文中的会议论文作者与会议论文标题进行关联，通过所述频繁模式算法中的频繁项集方式获取同一会议论文标题的会议论文作者，得到所述关联性的会议论文作者。

具体地，将每篇所述会议论文中的会议论文作者与会议论文标题进行关联，并通过所述频繁项集方式获取同一会议论文标题的会议论文作者，得到所述关联性的会议论文作者。例如，会议论文A中的作者包括作者a、作者b和作者c，同一会议论文标题的会议论文B中的作者包括作者a、作者b和作者d，则通过所述频繁项集方式获取该同一会议论文标题的会议论文作者为作者a和作者b。频繁模式算法可以是Apriori算法或FP-Growth算法。在本方案中，采用FP-Growth算法。FP-Growth算法属于关联分析算法，其具体采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)，但仍保留项集关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。将事务数据表中的各个事务数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中，同时在每个结点处记录该结点出现的支持度，从而构建出FP-tree。具体的挖掘模式参考图2所示。

S300，根据所述会议作者团体将会议论文进行分组，获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值。

在本实施例中，根据会议作者团体可将会议论文进行分组。其中，会议论文可以是会议论文数据库中的会议论文，还可以是非上述会议论文数据库中的会议论文。所述会议论文可以是研究的多个目标论文的组合。系统可获取会议作者团体对应的研究主题，根据该研究主题将所述相关论文进行分组。此处的研究主题可以是获取会议作者团体当前的研究主题。同时，对分组后的会议论文标题进行分词，并获取每个分词的加权值。其中，此处的加权值可以是分词在对应的会议论文中的权重值。

在一实施例中，如图3所示，步骤S300中，所述根据所述会议作者团体将会议论文进行分组，包括：

S310，获取所述会议作者团体中每个会议论文作者参与的会议论文的第一主题信息。

S320，统计所述会议作者团体对应所有的所述第一主题信息，确定出所述会议作者团体的第二主题信息。

S330，根据所述第二主题信息将将会议论文进行分组。

在该实施例中，系统获取所述会议作者团体中每个会议论文作者参与的会议论文的第一主题信息。如获取每个会议论文作者参与的多个会议论文，根据该多个会议论文的主题内容确定出所述第一主题信息。进一步地，统计并分析每个会议论文作者对应的第一主题信息，从而确定出该会议作者团体的第二主题信息。如，将获取会议作者团体对应的第一主题信息中数量最多的主题信息作为第二主题信息。最终根据第二主题信息将所述会议论文进行分组。

S400，对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义。

在本实施例中，系统对每个分词进行潜在语义分析，得到每个分词在对应会议论文中的语义，从而可根据每个分词的语义确定出对应会议论文的主题内容。

S500，根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题。

在本实施例中，系统根据每个分组后的会议论文标题中每个分词的所述加权值和每个分词对应的语义，可确定出该会议作者团队的主题。具体地，可以是单独根据每个分组后的会议论文标题中每个分词的所述加权值直接确定出该会议作者团队的主题，也可以是单独根据每个分词对应的语义确定出该会议作者团队的主题，或者结合两者的信息确定出该会议作者团队的主题。

在一实施例中，步骤S300中，所述获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值，包括：获取每个分组的会议论文中的分词，采用TF-IDF算法获取每个所述分词的加权值。

在该实施例中，TF-IDF(term frequency–inverse document frequency)算法是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。通过将每个分组的会议论文标题进行切词，得到切词后多个分词。并且，通过TF-IDF算法中的词频方式以及逆文本频率指数确定每个分词的权重，得到每个分词的加权值。

在该实施例的一个实施方式中，步骤S400，包括：采用LSA算法对每个所述分词进行潜在语义分析，得到每个所述分词在对应会议论文中的语义。

在该实施方式中，系统将分组后的会议论文标题进行分词划分，生成词袋模型。由于构建后的词袋模型可能是一个稀疏矩阵，故可以采用降维的方法，变换到低维空间后在低维空间中探究主题词。该实施方式中采用LSA算法的方法探究主题词。

LSA算法：潜在语义分析(Latent Semantic Analysis)或者潜在语义索引(LatentSemantic Index)，是一种新的信息检索代数模型，用于知识获取和展示的计算理论和方法，它使用统计计算的方法对大量的文本集进行分析，从而提取出词与词之间潜在的语义结构，并用这种潜在的语义结构来表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的。其中，潜在语义分析的基本观点是：把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解(SVD)来实现的。

在该实施方式的一个实施例中，如图4所示，步骤S500，包括：

S510，根据每个所述分词的加权值筛选出加权值大于预设值的分词作为第一待选取主题词。

S520，根据每个所述分词在对应会议论文中的语义，从所述第一待选取主题词中筛选出第二待选取主题词。

S530，根据所述第二待选取主题词确定出所述会议作者团体的主题。

在该实施例中，会议论文标题进行切词后，得到多个分词。其中，分词包括名词、动词以及连词等。有些语义的词语本身不具备实质意义。同时，对于有些词语，即使根据词频确定出其加权值较大时，也不能直接确定该词语对会议团队的主题研究有实质影响意义。如，连词“与”，副词“的”等。因此，需要同时综合考虑分词的加权值以及分词实质的语义。

具体地，先筛选出每个分词的加权值确定出加权值大于预设值的分词，得到第一待选取主题词。进一步地，确定出第一待选取主题词中每个分词在对应会议论文中的语义，根据所述语义从第一待选取主题词中筛选出第二待选取主题词。因此，第二待选取主题词中每个分词的加权值都大于系统预设值，且对应的语义满足会议论文要求，可直接根据该第二待选取主题词确定出所述会议作者团体的主题。

在具体的实施方式中，由于有很多无意义的词，比如连词、助词这些，可以考虑分词后采用TF-IDF算法加权的方式挑选出权重较高的词汇作为主题词。由于构建后的词袋模型可能是一个稀疏矩阵，故可以采用降维的方法，变换到低维空间后在低维空间中探究主题词，即采用LSA的方法探究主题词。

本发明还提供一种基于会议团体的主题挖掘装置。在一实施例中，如图5所示，该基于会议团体的主题挖掘装置包括第一获取模块10、第二获取模块20、第三获取模块30、第四获取模块40以及确定模块50。

第一获取模块10用于获取历史多篇会议论文的相关信息，根据所述相关信息得到会议论文数据库；所述相关信息包括会议论文作者以及会议论文标题。在本实施例中，各类会议接收到大量的会议论文，每个会议论文标著有对应的论文作者，并且会议论文标题名称标注出论文主题内容。一般地，会议论文的作者可组成相应的团体，并且该团体不会随时间的变化而变化。因此，系统可获取历史的多篇会议论文的相关信息，具体可通过爬虫技术从各大互联网的会议网站中获取多篇会议论文，组成会议论文数据库。会议论文数据库中记载有每个会议论文的会议论文标题以及对应的会议论文作者，两者可关联性存储在数据库中。

第二获取模块20用于根据关联性规则从所述会议论文数据库中获取会议作者团体；所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合。在本实施例中，会议论文数据库中，由于研究主题的相近性，会议论文的作者存在较大的重叠。根据会议论文标题，通过关联性规则研究会议论文数据库中相同或相似的论文标题的作者，获取相同或相似会议论文主题下的多个所述会议论文作者，以生成所述会议作者团体。所述会议作者团体中核心成员往往是固定的，不随时间有较大变化。然而，会议作者团体的主题可能是随着时间不断变化，但会议作者团体研究的论文主题的中心不会有大的变化。

第三获取模块30用于根据所述会议作者团体将会议论文进行分组，获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值。在本实施例中，根据会议作者团体可将会议论文进行分组。其中，会议论文可以是会议论文数据库中的会议论文，还可以是非上述会议论文数据库中的会议论文。所述会议论文可以是研究的多个目标论文的组合。系统可获取会议作者团体对应的研究主题，根据该研究主题将所述相关论文进行分组。此处的研究主题可以是获取会议作者团体当前的研究主题。同时，对分组后的会议论文标题进行分词，并获取每个分词的加权值。其中，此处的加权值可以是分词在对应的会议论文中的权重值。

第四获取模块40用于对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义。在本实施例中，系统对每个分词进行潜在语义分析，得到每个分词在对应会议论文中的语义，从而可根据每个分词的语义确定出对应会议论文的主题内容。

确定模块50用于根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题。在本实施例中，系统根据每个分组后的会议论文标题中每个分词的所述加权值和每个分词对应的语义，可确定出该会议作者团队的主题。具体地，可以是单独根据每个分组后的会议论文标题中每个分词的所述加权值直接确定出该会议作者团队的主题，也可以是单独根据每个分词对应的语义确定出该会议作者团队的主题，或者结合两者的信息确定出该会议作者团队的主题。

在其他实施例中，本发明提供的基于会议团体的主题挖掘装置中的各个模块还用于执行本发明所述的基于会议团体的主题挖掘方法中，对应各个步骤执行的操作，在此不再做详细的说明。

本发明还提供一种存储介质。该存储介质上存储有计算机程序；所述计算机程序被处理器执行时，实现上述任一实施例所述的基于会议团体的主题挖掘方法。该存储介质可以是存储器。例如，内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储介质包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

本发明还提供一种计算机设备。一种计算机设备包括：一个或多个处理器；存储器；一个或多个应用程序。其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述任一实施例所述的基于会议团体的主题挖掘方法。

图6为本发明一实施例中的计算机设备的结构示意图。本实施例所述计算机设备可以是服务器、个人计算机以及网络设备。如图6所示，设备包括处理器603、存储器605、输入单元607以及显示单元609等器件。本领域技术人员可以理解，图6示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器605可用于存储应用程序601以及各功能模块，处理器603运行存储在存储器605的应用程序601，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元607用于接收信号的输入，以及接收用户输入的关键字。输入单元607可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元609可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元609可采用液晶显示器、有机发光二极管等形式。处理器603是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器605内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

在一实施方式中，设备包括一个或多个处理器603，以及一个或多个存储器605，一个或多个应用程序601。其中所述一个或多个应用程序601被存储在存储器605中并被配置为由所述一个或多个处理器603执行，所述一个或多个应用程序601配置用于执行以上实施例所述的基于会议团体的主题挖掘方法。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括存储器、磁盘或光盘等。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

应该理解的是，在本发明各实施例中的各功能单元可集成在一个处理模块中，也可以各个单元单独物理存在，也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

Claims

1.一种基于会议团体的主题挖掘方法，其特征在于，包括：

获取历史多篇会议论文的相关信息，根据所述相关信息得到会议论文数据库；所述相关信息包括会议论文作者以及会议论文标题；

根据关联性规则从所述会议论文数据库中获取会议作者团体；所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合；

根据所述会议作者团体将会议论文进行分组，获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值；

对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义；

根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题。

2.根据权利要求1所述的方法，其特征在于，所述关联性规则包括频繁模式算法；所述根据关联性规则从所述会议论文数据库中获取会议作者团体，包括：

通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者，根据所述关联性的会议论文作者得到所述会议作者团体。

3.根据权利要求2所述的方法，其特征在于，所述频繁模式算法包括Apriori算法或FP-Growth算法；所述通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者，包括：

将每篇所述会议论文中的会议论文作者与会议论文标题进行关联，

通过所述频繁模式算法中的频繁项集方式获取同一会议论文标题的会议论文作者，得到所述关联性的会议论文作者。

4.根据权利要求1所述的方法，其特征在于，所述根据所述会议作者团体将会议论文进行分组，包括：

获取所述会议作者团体中每个会议论文作者参与的会议论文的第一主题信息；

统计所述会议作者团体对应所有的所述第一主题信息，确定出所述会议作者团体的第二主题信息；

根据所述第二主题信息将将会议论文进行分组。

5.根据权利要求1所述的方法，其特征在于，所述获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值，包括：

获取每个分组的会议论文中的分词，采用TF-IDF算法获取每个所述分词的加权值。

6.根据权利要求5所述的方法，其特征在于，所述对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义，包括：

采用LSA算法对每个所述分词进行潜在语义分析，得到每个所述分词在对应会议论文中的语义。

7.根据权利要求6所述的方法，其特征在于，所述根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题，包括：

根据每个所述分词的加权值筛选出加权值大于预设值的分词作为第一待选取主题词；

根据每个所述分词在对应会议论文中的语义，确定第二待选取主题词；

将所述第一待选取主题词和所述第二待选取主题词进行对比，根据对比结果确定所述会议作者团体的主题。

8.一种基于会议团体的主题挖掘装置，其特征在于，包括：

第一获取模块，用于获取历史多篇会议论文的相关信息，根据所述相关信息得到会议论文数据库；所述相关信息包括会议论文作者以及会议论文标题；

第二获取模块，用于根据关联性规则从所述会议论文数据库中获取会议作者团体；所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合；

第三获取模块，用于根据所述会议作者团体将会议论文进行分组，获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值；

第四获取模块，用于对所述分词进行潜在语义分析，获取每个所述分词在对应会议论文中的语义；

确定模块，用于根据每个所述分词的加权值和每个所述分词对应的所述语义，确定所述会议作者团体的主题。

9.一种存储介质，其特征在于，其上存储有计算机程序；所述计算机程序适于由处理器加载并执行上述权利要求1至7中任一项所述的基于会议团体的主题挖掘方法。

10.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据权利要求1至7任一项所述的基于会议团体的主题挖掘方法。