CN113449195A

CN113449195A - 一种智能知识推送方法及系统

Info

Publication number: CN113449195A
Application number: CN202110802617.5A
Authority: CN
Inventors: 许建兵; 费维进; 冯伟; 李军; 李强
Original assignee: Anhui Suncn Pap Information Technology Co ltd
Current assignee: Anhui Suncn Pap Information Technology Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-09-28
Anticipated expiration: 2041-07-15
Also published as: CN113449195B

Abstract

本发明提供了一种智能知识推送方法及系统，所述方法包括有：推荐步骤，用于根据获取到的用户行为信息，生成待推荐内容；动态文本聚类步骤，用于对获取的待推荐内容进行主题聚类，获取多个聚类簇；主题抽取步骤，用于选取能代表多个聚类簇的最终主题；信息抽取步骤，用于提取最终主题以及最终主题对应文本的相关内容信息；数据推送步骤，用于将最终主题的相关信息进行推送。所述系统包括有推荐模块、动态文本聚类模块、主题抽取模块、信息抽取模块以及数据推送模块。本发明可完成信息的整理与抽取功能，解决相关的业务需求。

Description

一种智能知识推送方法及系统

技术领域

本发明属于信息处理技术领域，特别涉及一种智能知识推送方法及系统。

背景技术

现有的信息推送方式已经较为成熟，包括但不限于基于流行度的推荐算法、协同过滤推荐算法、基于用户画像的推荐算法等。各个方法均有其独有的做法和优缺点，具体如下：

基于流行度的推荐算法

实现方式：依据近期的热点话题、文章按照热度排序后推荐给用户。

协同过滤算法

实现方式：通过用户的行为、爱好等特征找到同该用户具有相似习惯的用户，并将这些相似用户喜欢的内容推荐给待推荐用户。

基于用户画像的推荐

实现方式：根据用户本身的兴趣标签、行为数据、浏览记录等分析用户的喜好特征或兴趣偏向，并依据该兴趣偏向推荐相关内容。

以上算法为较为常见的推荐算法，在实际使用中，常常会使用其中的多种方式联合推荐，例如使用用户画像完成50％的推荐内容，协同过滤或流行度各完成25％的推荐内容，并借此方式来弥补各个推荐算法的不足点。

但现有技术中的推荐算法，并不能完成信息的整理与抽取功能，因此无法解决相关的业务需求。

发明内容

针对上述问题，本发明提供了一种智能知识推送方法，所述方法包括有：

推荐步骤，用于根据获取到的用户行为信息，生成待推荐内容；

动态文本聚类步骤，用于对生成的待推荐内容进行主题聚类，获取多个聚类簇；

主题抽取步骤，用于选取能代表多个聚类簇的最终主题；

信息抽取步骤，用于提取最终主题以及最终主题对应文本的相关内容信息；

数据推送步骤，用于将最终主题的相关信息进行推送。

进一步的，所述推荐步骤的具体操作为：

将获取到的用户行为信息生成用户画像；

根据用户画像，生成待推荐内容。

进一步的，所述动态文本聚类步骤的具体操作为：

获取待推荐内容以及推荐内容的特征向量；

根据待推荐内容的特征向量，使用聚类算法完成对于待推荐内容的主题聚类，并获取多个聚类簇。

进一步的，所述主题抽取步骤的具体操作为：

提取单个聚类簇中的所有文本标题的关键词；

选取单个聚类簇中，每个文本标题中的一个初始候选主题；

根据单个聚类簇中的所有文本标题的关键词，将单个聚类簇中的所有初始候选主题都进行共轭得分计算，根据共轭得分计算的结果，选取一个初始候选主题作为单个聚类簇的中间候选主题；

从所有聚类簇中的中间候选主题中，选取一个中间候选主题作为代表所有聚类簇的最终主题。

进一步的，所述信息抽取步骤的具体操作为：

将最终主题所对应的文本中，每个句子与最终主题之间相关的对应所属的内容信息类别进行分类，然后根据设定好的训练模型，将最终主题所对应的文本中，需要提取的，对应内容信息类别的相关内容信息提取出来。

进一步的，单个聚类簇中的所有文本标题的关键词提取的具体操作为：

对单个聚类簇中的所有文本标题均进行分词以及词性标注处理，并去除所有文本标题的停用词，保留所有文本标题的候选词，并构成候选词集合；

提取出单个聚类簇中的所有文本标题的标题关键词，计算出标题关键词的得分，将所有文本标题的标题关键词与候选词集合合并；保留候选词集合与标题关键词中，共同出现的关键词，并将关键词的得分进行归一化处理。

进一步的，单个聚类簇中，单个文本标题中的一个初始候选主题的选取操作为：

枚举单个聚类簇中，单个文本标题中的多个候选主题字段，并计算单个文本标题中所有候选主题字段的精简度得分，根据计算的结果，选取一个候选主题字段作为单个文本标题的初始候选主题。

进一步的，单个聚类簇中的单个初始候选主题的共轭得分计算操作为：

将单个聚类簇中的其中一个文本标题的对应的初始候选主题，与剩下的文本标题中对应的关键词进行共轭得分计算。

进一步的，所述候选词包括有名词和动词。

另一方面，本发明还提供一种智能知识推送系统，所述系统包括有；

推荐模块，用于根据获取到的用户行为信息，生成待推荐内容；

动态文本聚类模块，用于对获取的待推荐内容进行主题聚类，获取多个聚类簇；

主题抽取模块，用于选取能代表多个聚类簇的最终主题；

信息抽取模块，用于提取最终主题的相关信息；

数据推送模块，用于将最终主题的相关信息进行推送。

本发明提供的一种智能知识推送方法及系统，可完成信息的整理与抽取功能，解决相关的业务需求。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一个简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的方法流程图。

图2示出了根据本发明实施例的具体操作步骤流程图。

图3示出了根据本发明实施例的主题抽取步骤流程图。

图4示出了根据本发明实施例的系统结构图。

图5示出了根据本发明实施例的neo4j数据库使用的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例，都属于本发明保护的范围。

本发明提供了一种智能知识推送方法，如图1所示的，所述方法包括有：

S1、推荐步骤，用于根据获取到的用户行为信息，生成待推荐内容；

S2、动态文本聚类步骤，用于对生成的待推荐内容进行主题聚类，获取多个聚类簇；

S3、主题抽取步骤，用于选取能代表多个聚类簇的最终主题；

S4、信息抽取步骤，用于提取最终主题以及最终主题对应文本的相关内容信息；

S5、数据推送步骤，用于将最终主题的相关信息进行推送。

对于推荐步骤，如图2所示的，其具体操作为：将获取到的用户行为信息生成用户画像；根据用户画像，生成待推荐内容，其中，用户行为信息包括有用户历史浏览记录、兴趣标签以及公文撰写记录(包含已经提交或还在撰写中的公文撰写记录)。

对于动态文本聚类步骤，如图2所示的，其具体的操作为：

获取待推荐内容以及推荐内容的特征向量；

根据待推荐内容的特征向量，使用聚类算法完成对于待推荐内容的主题聚类，并获取多个聚类簇，其中聚类算法采用的是DBSCAN算法， DBSCAN算法属于无监督聚类算法，相较于其他聚类算法，DBSCAN算法无需人工审核。

对于主题抽取步骤，如图3所示的，其具体操作为：

B1、提取单个聚类簇中的所有文本标题的关键词。具体的操作为：

使用北京大学研制出的开源分词工具PKUSEG对单个聚类簇中的所有文本标题均进行分词以及词性标注处理，并去除所有文本标题的停用词，保留所有文本标题的候选词，并构成候选词集合，优选的，候选词包括有名词和动词。

提取出单个聚类簇中的所有文本标题的标题关键词，并通过使用 TextRank算法，计算出标题关键词的得分，将所有文本标题的标题关键词与候选词集合合并；保留候选词集合与标题关键词中，共同出现的关键词，并将关键词的得分进行归一化处理(通过softmax函数进行归一化处理，归一化处理后，所有关键词的概率得分的总和为1)，从而得到所有关键词的概率得分。

B2、选取单个聚类簇中，每个文本标题中存在的一个初始候选主题。

其中，单个文本标题中存在的一个初始候选主题的选取操作为：

枚举单个聚类簇中，单个文本标题中存在的多个候选主题字段(候选主题字段需包含2-3个关键词，本实施例可以3个关键词为例进行解释)，并计算单个文本标题中所有候选主题字段的精简度得分，根据计算的结果，选取一个候选主题字段作为单个文本标题的初始候选主题。

其中，可根据该单个候选主题字段的总字数、该单个候选主题字段中包含的所有关键词的概率得分之和，以及该单个候选主题字段中包含的所有关键词的字数之和，计算单个文本标题中单个候选主题字段的精简度得分，可根据以下公式一进行计算：

其中，score为单个文本标题中单个候选主题字段的精简度得分，L为该单个候选主题字段的总字数，

为该单个候选主题字段中包含的所有关键词的字数之和，在

中，L_w为单个候选主题字段中单个关键词的字数，因此，在公式一中，

也能表示出该单个候选主题字段中包含的所有关键词的字数之和在该单个候选主题字段中的字数占比。

为该单个候选主题字段中包含的所有关键词的概率得分之和，在

中，Wi为该单个候选主题字段中单个关键词的概率得分，因此，

也能表示出该单个候选主题字段中包含的关键信息的重要程度。

根据上述公式一，将单个文本标题中所有候选主题字段精简度得分均都计算出来，然后选择精简度得分最高的候选主题字段作为单个文本标题的初始候选主题。这样，就可以把单个聚类簇中，所有文本标题对应的初始候选主题全部选择出来。

B3、根据单个聚类簇中的所有文本标题的关键词，将单个聚类簇中的所有初始候选主题都进行共轭得分计算，根据共轭得分计算的结果，选取一个初始候选主题作为单个聚类簇的中间候选主题。

其中，单个聚类簇中的单个初始候选主题的共轭得分计算操作为：

将单个聚类簇中的其中一个文本标题所对应的初始候选主题，与该单个聚类簇中，剩下的文本标题中的其中一个文本标题中，所有的关键词之间，进行共轭得分计算，具体的，可根据该需要计算的初始候选主题对应的候选主题字段的总字数、该初始候选主题对应的候选主题字段中包含的所有关键词的概率得分之和，以及单个聚类簇中剩下的文本标题中的其中一个文本标题中，所有关键词概率得分之和，用以下公式二进行计算：

其中，S_i为单个聚类簇中的其中一个文本标题的初始候选主题与剩下文本标题的其中一个文本标题中，所有的关键词之间，进行共轭得分计算后的得分，∑w为单个聚类簇中剩下的文本标题中的其中一个文本标题中，所有关键词概率得分之和。

因此，通过根据公式二，可以将单个聚类簇中的其中一个文本标题的初始候选主题与，该单个聚类簇中，剩下的每个文本标题中的所有关键词之间，一一进行共轭得分计算，得到多个共轭得分，将所有的共轭得分进行求和，从而得到单个聚类簇中的其中一个文本标题的初始候选主题的最终共轭得分，可以根据公式三进行求和：

其中，Tscore为单个聚类簇中的其中一个文本标题的初始候选主题的最终共轭得分；∑S_i为单个聚类簇中的其中一个文本标题的初始候选主题与，该单个聚类簇中，剩下每个文本标题的中的所有关键词之间，一一进行共轭得分计算后，得到的所有的共轭得分之和。

因此，在计算出单个聚类簇中，每个文本标题的初始候选主题的最终共轭得分后，可在这些最终共轭得分中选取一个得分最高的初始候选主题作为该代表单个聚类簇的中间候选主题。

B4、从所有聚类簇中的中间候选主题中，选取共轭得分最高的一个中间候选主题作为代表所有聚类簇的最终主题。

对于信息抽取步骤，其具体的操作为：将最终主题所对应的文本中，每个句子与最终主题之间相关的对应所属的内容信息类别进行分类(例如，该句子的内容信息是与该最终主题有关的时间内容信息，或者是与该最终主题有关的地点内容信息等等)，然后根据设定好的训练模型(例如，通过这个模板，可以提取出，最终主题所对应的文本中，与最终主题有关的时间内容信息)，将最终主题所对应的文本中，需要提取的，对应信息类别的相关内容信息提取出来。

其中，在最终主题所对应的文本中，对于每个句子对应所属的内容信息类别进行分类的方法为：

使用Albert算法分别对最终主题以及最终主题对应文本完成编码，从而获取最终主题的特征向量和最终主题对应文本中的各个句子的征向量；随后依次拼接最终主题的特征向量及各个句子的特征向量，并通过全连接层获取每个句子与最终主题之间相关的内容信息类别，然后获取每个句子对应的内容信息类别与最终主题之间相关程度的得分并保存得分(即，以时间内容信息类别为例，若最终主题所对应文本中，有多个句子的内容信息类别是时间内容信息类别时，那么获取每个时间内容信息类别与最终主题之间的相关程度得分)。

其中，将最终主题所对应的文本中，需要提取的，对应内容信息类别的句子中的内容信息提取出来的方法是：

例如若需要提取与该最终主题有关的时间内容信息时，通过设定好的训练模型，使用softmax函数，将所有时间内容信息类别的得分进行归一化处理(归一化处理后，每个时间内容信息类别都具有各自的概率得分)，然后将具有该时间信息类别的段落中所有时间内容信息类别的概率得分相加求和，哪个段落时间内容信息类别的概率得分之和最高，则取这个段落作为最终的与最终主题有关的时间内容信息，同时，将该段落中与时间内容信息不相关的句子去除掉。因此，通过设定好的训练模型，对于与该最终主题有关的地点内容信息或者与该最终主题有关的其他相关内容信息，均可获取。

对于数据推送步骤，用于保存最终主题以及最终主题的相关内容信息后，将最终主题以及最终主题的相关内容信息进行推送，具体的，是将提取出的最终主题以及最终主题的相关内容信息存入neo4j数据库中，便于推送和以后的检索。

对于以后在neo4j数据库中进行检索，neo4j数据库使用的方式为：

请参考图5，再依次执行推荐步骤、动态文本聚类步骤以及主题抽取步骤，并且在通过主题抽取步骤选取出能代表多个聚类簇的最终主题后，在neo4j数据库中查询；

若在neo4j数据库中能查询到保存的最终主题及最终主题的相关内容信息的历史记录，则获取历史记录，然后检查该历史记录的记录信息是否完整，经过检查记录信息后，若该历史记录的记录信息中，信息不完整存在缺失项(例如与最终主题有关的时间内容信息缺失)，则再依次执行信息抽取步骤和数据储存步骤；若该历史记录的记录信息中，信息完整无缺失项，则直接进行数据推送步骤，数据推送步骤将该历史记录的记录信息直接进行推送；

若在neo4j数据库中不能查询到保存的最终主题及最终主题的相关内容信息的历史记录，则再依次执行信息抽取步骤、数据推送步骤。

另一方面，如图4所示的，本实施例还提供一种智能知识推送系统，所述系统包括有；

动态文本聚类模块，用于对获取的待推荐内容进行主题聚类，获取多个聚类簇。

主题抽取模块，用于选取能代表多个聚类簇的最终主题。

信息抽取模块，用于提取最终主题以及最终主题对应文本的相关内容信息。

数据推送模块，用于将最终主题以及最终主题对应文本的相关内容信息进行推送。

本发明的一种智能知识推送系统的各模块实现的功能以及实现方式与本发明的一种智能知识推送方法中各步骤的功能以及实现方式对应一致，因此，此处不再赘述。

以上所述仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案的范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种智能知识推送方法，其特征在于，所述方法包括有：

主题抽取步骤，用于选取能代表多个聚类簇的最终主题；

数据推送步骤，用于将最终主题的相关信息进行推送。

2.根据权利要求1所述的一种智能知识推送方法，其特征在于，所述推荐步骤的具体操作为：

将获取到的用户行为信息生成用户画像；

根据用户画像，生成待推荐内容。

3.根据权利要求1所述的一种智能知识推送方法，其特征在于，所述动态文本聚类步骤的具体操作为：

获取待推荐内容以及推荐内容的特征向量；

4.根据权利要求1所述的一种智能知识推送方法，其特征在于，所述主题抽取步骤的具体操作为：

提取单个聚类簇中的所有文本标题的关键词；

选取单个聚类簇中，每个文本标题中的一个初始候选主题；

5.根据权利要求1所述的一种智能知识推送方法，其特征在于，所述信息抽取步骤的具体操作为：

6.根据权利要求4所述的一种智能知识推送方法，其特征在于，单个聚类簇中的所有文本标题的关键词提取的具体操作为：

7.根据权利要求6所述的一种智能知识推送方法，其特征在于，单个聚类簇中，单个文本标题中的一个初始候选主题的选取操作为：

8.根据权利要求4所述的一种智能知识推送方法，其特征在于，单个聚类簇中的单个初始候选主题的共轭得分计算操作为：

9.根据权利要求6所述的一种智能知识推送方法，其特征在于，所述候选词包括有名词和动词。

10.一种智能知识推送系统，其特征在于，所述系统包括有；

主题抽取模块，用于选取能代表多个聚类簇的最终主题；

信息抽取模块，用于提取最终主题的相关信息；

数据推送模块，用于将最终主题的相关信息进行推送。