CN112559768B

CN112559768B - 一种短文本图谱化及推荐方法

Info

Publication number: CN112559768B
Application number: CN202011462504.7A
Authority: CN
Inventors: 王丙栋; 游世学
Original assignee: Beijing Zhongke Huilian Technology Co ltd
Current assignee: Beijing Zhongke Huilian Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-02-17
Anticipated expiration: 2040-12-11
Also published as: CN112559768A

Abstract

本发明公开了一种短文本图谱化及推荐方法，包括以下步骤：S1，收集短文本生成文本集；S2，从文本集中挖掘频繁词组作为知识点，构建关键词、知识点、短文本的图谱；S3，基于关键词、知识点、短文本的图谱数据库，根据用户输入的短文本查询知识点图谱、推荐短文本。本发明提供的短文本图谱化及推荐方法，使得用户在搜索查询关键词和短文本的过程中更加方便，不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑，只需根据用户搜索的关键词和短文本就能为用户推荐相关内容，大大提高了用户查询的效率，降低了用户的使用成本，为用户提供了便利。

Description

一种短文本图谱化及推荐方法

技术领域

本发明涉及信息搜索技术领域，特别是涉及一种短文本图谱化及推荐方法。

背景技术

随着互联网信息系统的广泛应用，产生了大量的短文本数据，比如客服提问、用户评论、用户留言、聊天记录、搜索词条，但由于短文本包含内容较少，特征不明显，因此在短文本数据的处理中，实现对大量短文本数据进行简便、有效地分类具有重要的意义。目前，没有相关技术方案从这些短文本数据中挖掘知识点，构建关于关键词、知识点、短文本的关系图谱，进而基于所构建的图谱，针对用户搜索的关键词等短文本，向用户推荐知识点和短文本。因此，构建关于关键词、知识点、短文本的关系图谱，进而基于所构建的图谱，针对用户搜索的关键词等短文本，向用户推荐知识点和短文本便成为本领域技术人员需要解决的问题。

发明内容

本发明的目的是为了提供一种短文本图谱化及推荐方法，将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱，基于建立起的关系图谱，根据用户搜索的关键词等短文本，向用户推荐知识点和短文本。

为实现上述目的，本发明提供了如下方案：

一种短文本图谱化及推荐方法，包括以下步骤：

S1，收集短文本生成文本集；

S2，从文本集中挖掘频繁词组作为知识点，构建关键词、知识点、短文本的图谱；

S3，基于关键词、知识点、短文本的图谱数据库，根据用户输入的短文本查询知识点图谱、推荐短文本。

可选的，所述步骤S2中从文本集中挖掘频繁词组作为知识点，构建关键词、知识点、短文本的图谱，具体包括：

S201，对每一篇短文本分词，得到词序列并标注每个词的词性，并对每个词序列只保留词性为名词、动词和形容词的词；

S202，根据词序列的集合，计算每个词序列中的每个词的TF-IDF权重；

S203，将每个词序列中重复的词去重；

S204，将词的TF-IDF权重与词的词性权重相乘得到词的权重，计算公式为：

W(i,j)＝TF-IDF(i,j)*W_POS(i,j)

其中，W(i,j)表示第j个词序列中的第i个词的权重，TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重，W_POS(i,j)表示第j个词序列中的第i个词的词性权重，每个词性的权重在系统中是固定的值，其中名词词性权重默认为4，动词词性默认为2，形容词词性默认为1；

S205，对每个词序列，根据词权重从高到低对词重排序，并只保留最多前N个词作为对应短文本的关键词组，所述N是一个系统参数，用于存放每个短文本最多保留的关键词的个数；

S206，使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组，每个频繁词组作为一个知识点；

S207，汇总所有知识点包含的词构成知识点词汇表；

S208，对每篇短文本，记录该短文本对关键词的包含关系到图谱数据库，查找包含该短文本关键词的知识点，如果构成知识点的关键词都存在于该短文本对应的关键词组中，则将该短文本对该知识点的包含关系记录到图谱数据库。

可选的，所述步骤S3中基于关键词、知识点、短文本的图谱数据库，根据用户输入的短文本查询知识点图谱、推荐短文本，具体包括：

S301，对输入的短文本分词，只保留词性为名词、动词或形容词的词，并根据S2步骤中得到的知识点词汇表，删除在知识点词汇表中不存在的词，得到查询关键词组；

S302，对查询关键词组中的每个关键词计算TF权重，然后将查询关键词组中重复的关键词去重，并根据S2步骤计算得到的IDF权重以及系统固定的词性权重，使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重；

S303，根据查询关键词组中的关键词，查询知识点，并计算知识点与查询关键词组的相似度，计算公式如下:

S(K,Q)＝(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))

其中，S(K,Q)表示知识点K与查询关键词组Q的相似度，SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和，SUM_W(Q)表示查询关键词组Q中所有词的权重的和，COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数，COUNT(K)表示知识点K的词的个数；

S304，按相似度从高到低对知识点排序；

S305，对每个知识点，查询包含该知识点的短文本；

S306，如果根据知识点查询到的短文本数量小于M，则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并，否则，返回S305，其中，所述M是一个系统参数，为存放推荐短文本的最大条数。

可选的，所述S205步骤中频繁项集挖掘算法为FP-growth算法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的短文本图谱化及推荐方法，将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱，以知识点和关键词为中间结点，建立起了与短文本之间的联系，能够为文本搜索、问答、分析等系统的输入联想、问题推荐、知识点图谱查询展示等应用提供短文本和知识点推荐服务，使得用户在搜索查询关键词和短文本的过程中更加的方便，不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑，只需根据用户搜索的关键词和短文本就能为用户推荐相关内容，大大提高了用户查询的效率，降低了用户的使用成本，为用户提供了便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明短文本图谱化及推荐方法的流程图；

图2为本发明短文本图谱化及推荐方法的知识点挖掘流程图；

图3为本发明短文本图谱化及推荐方法的图谱示例图；

图4为本发明短文本图谱化及推荐方法的短文本和知识点推荐流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供的短文本图谱化及推荐方法，流程图如图1所示，包括：

S1，收集短文本生成文本集；

S2，如图2所示，从文本集中挖掘频繁词组作为知识点，构建关键词、知识点、短文本的图谱如图2：

S203，将每个词序列中重复的词去重；

W(i,j)＝TF-IDF(i,j)*W_POS(i,j)

S206，使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组，每个频繁词组作为一个知识点，所述频繁项集挖掘算法为FP-growth算法；

S207，汇总所有知识点包含的词构成知识点词汇表；

S208，对每篇短文本，记录该短文本对关键词的包含关系到图谱数据库，查找包含该短文本关键词的知识点，如果构成知识点的关键词都存在于该短文本对应的关键词组中，则将该短文本对该知识点的包含关系记录到图谱数据库；

S3，如图3和图4所示，基于关键词、知识点、短文本的图谱数据库，根据用户输入的短文本查询知识点图谱、推荐短文本：

S(K,Q)＝(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))

S304，按相似度从高到低对知识点排序；

S305，对每个知识点，查询包含该知识点的短文本；

本发明提供的短文本图谱化及推荐方法，将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱，以知识点和关键词为中间结点，建立起了与短文本之间的联系，能够为文本搜索、问答、分析等系统的输入联想、问题推荐、知识点图谱查询展示等应用提供短文本和知识点推荐服务，使得用户在搜索查询关键词和短文本的过程中更加的方便，不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑，只需根据用户搜索的关键词和短文本就能为用户推荐相关内容，大大提高了用户查询的效率，降低了用户的使用成本，为用户提供了便利。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种短文本图谱化及推荐方法，其特征在于，包括以下步骤：

S1，收集短文本生成文本集；

S3，基于关键词、知识点、短文本的图谱数据库，根据用户输入的短文本查询知识点图谱、推荐短文本；

所述步骤S2中从文本集中挖掘频繁词组作为知识点，构建关键词、知识点、短文本的图谱，具体包括：

S203，将每个词序列中重复的词去重；

W(i,j)＝TF-IDF(i,j)*W_POS(i,j)

S207，汇总所有知识点包含的词构成知识点词汇表；

2.根据权利要求1所述的短文本图谱化及推荐方法，其特征在于，所述步骤S3中基于关键词、知识点、短文本的图谱数据库，根据用户输入的短文本查询知识点图谱、推荐短文本，具体包括：

S(K,Q)＝(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))其中，S(K,Q)表示知识点K与查询关键词组Q的相似度，SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和，SUM_W(Q)表示查询关键词组Q中所有词的权重的和，COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数，COUNT(K)表示知识点K的词的个数；

S304，按相似度从高到低对知识点排序；

S305，对每个知识点，查询包含该知识点的短文本；

3.根据权利要求1所述的短文本图谱化及推荐方法，其特征在于，所述S205步骤中频繁项集挖掘算法为FP-growth算法。