CN112559768B - 一种短文本图谱化及推荐方法 - Google Patents
一种短文本图谱化及推荐方法 Download PDFInfo
- Publication number
- CN112559768B CN112559768B CN202011462504.7A CN202011462504A CN112559768B CN 112559768 B CN112559768 B CN 112559768B CN 202011462504 A CN202011462504 A CN 202011462504A CN 112559768 B CN112559768 B CN 112559768B
- Authority
- CN
- China
- Prior art keywords
- short
- weight
- word
- short text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种短文本图谱化及推荐方法,包括以下步骤:S1,收集短文本生成文本集;S2,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱;S3,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本。本发明提供的短文本图谱化及推荐方法,使得用户在搜索查询关键词和短文本的过程中更加方便,不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑,只需根据用户搜索的关键词和短文本就能为用户推荐相关内容,大大提高了用户查询的效率,降低了用户的使用成本,为用户提供了便利。
Description
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种短文本图谱化及推荐方法。
背景技术
随着互联网信息系统的广泛应用,产生了大量的短文本数据,比如客服提问、用户评论、用户留言、聊天记录、搜索词条,但由于短文本包含内容较少,特征不明显,因此在短文本数据的处理中,实现对大量短文本数据进行简便、有效地分类具有重要的意义。目前,没有相关技术方案从这些短文本数据中挖掘知识点,构建关于关键词、知识点、短文本的关系图谱,进而基于所构建的图谱,针对用户搜索的关键词等短文本,向用户推荐知识点和短文本。因此,构建关于关键词、知识点、短文本的关系图谱,进而基于所构建的图谱,针对用户搜索的关键词等短文本,向用户推荐知识点和短文本便成为本领域技术人员需要解决的问题。
发明内容
本发明的目的是为了提供一种短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,基于建立起的关系图谱,根据用户搜索的关键词等短文本,向用户推荐知识点和短文本。
为实现上述目的,本发明提供了如下方案:
一种短文本图谱化及推荐方法,包括以下步骤:
S1,收集短文本生成文本集;
S2,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱;
S3,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本。
可选的,所述步骤S2中从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱,具体包括:
S201,对每一篇短文本分词,得到词序列并标注每个词的词性,并对每个词序列只保留词性为名词、动词和形容词的词;
S202,根据词序列的集合,计算每个词序列中的每个词的TF-IDF权重;
S203,将每个词序列中重复的词去重;
S204,将词的TF-IDF权重与词的词性权重相乘得到词的权重,计算公式为:
W(i,j)=TF-IDF(i,j)*W_POS(i,j)
其中,W(i,j)表示第j个词序列中的第i个词的权重,TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重,W_POS(i,j)表示第j个词序列中的第i个词的词性权重,每个词性的权重在系统中是固定的值,其中名词词性权重默认为4,动词词性默认为2,形容词词性默认为1;
S205,对每个词序列,根据词权重从高到低对词重排序,并只保留最多前N个词作为对应短文本的关键词组,所述N是一个系统参数,用于存放每个短文本最多保留的关键词的个数;
S206,使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组,每个频繁词组作为一个知识点;
S207,汇总所有知识点包含的词构成知识点词汇表;
S208,对每篇短文本,记录该短文本对关键词的包含关系到图谱数据库,查找包含该短文本关键词的知识点,如果构成知识点的关键词都存在于该短文本对应的关键词组中,则将该短文本对该知识点的包含关系记录到图谱数据库。
可选的,所述步骤S3中基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本,具体包括:
S301,对输入的短文本分词,只保留词性为名词、动词或形容词的词,并根据S2步骤中得到的知识点词汇表,删除在知识点词汇表中不存在的词,得到查询关键词组;
S302,对查询关键词组中的每个关键词计算TF权重,然后将查询关键词组中重复的关键词去重,并根据S2步骤计算得到的IDF权重以及系统固定的词性权重,使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重;
S303,根据查询关键词组中的关键词,查询知识点,并计算知识点与查询关键词组的相似度,计算公式如下:
S(K,Q)=(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))
其中,S(K,Q)表示知识点K与查询关键词组Q的相似度,SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和,SUM_W(Q)表示查询关键词组Q中所有词的权重的和,COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数,COUNT(K)表示知识点K的词的个数;
S304,按相似度从高到低对知识点排序;
S305,对每个知识点,查询包含该知识点的短文本;
S306,如果根据知识点查询到的短文本数量小于M,则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并,否则,返回S305,其中,所述M是一个系统参数,为存放推荐短文本的最大条数。
可选的,所述S205步骤中频繁项集挖掘算法为FP-growth算法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,以知识点和关键词为中间结点,建立起了与短文本之间的联系,能够为文本搜索、问答、分析等系统的输入联想、问题推荐、知识点图谱查询展示等应用提供短文本和知识点推荐服务,使得用户在搜索查询关键词和短文本的过程中更加的方便,不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑,只需根据用户搜索的关键词和短文本就能为用户推荐相关内容,大大提高了用户查询的效率,降低了用户的使用成本,为用户提供了便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明短文本图谱化及推荐方法的流程图;
图2为本发明短文本图谱化及推荐方法的知识点挖掘流程图;
图3为本发明短文本图谱化及推荐方法的图谱示例图;
图4为本发明短文本图谱化及推荐方法的短文本和知识点推荐流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是为了提供一种短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,基于建立起的关系图谱,根据用户搜索的关键词等短文本,向用户推荐知识点和短文本。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供的短文本图谱化及推荐方法,流程图如图1所示,包括:
S1,收集短文本生成文本集;
S2,如图2所示,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱如图2:
S201,对每一篇短文本分词,得到词序列并标注每个词的词性,并对每个词序列只保留词性为名词、动词和形容词的词;
S202,根据词序列的集合,计算每个词序列中的每个词的TF-IDF权重;
S203,将每个词序列中重复的词去重;
S204,将词的TF-IDF权重与词的词性权重相乘得到词的权重,计算公式为:
W(i,j)=TF-IDF(i,j)*W_POS(i,j)
其中,W(i,j)表示第j个词序列中的第i个词的权重,TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重,W_POS(i,j)表示第j个词序列中的第i个词的词性权重,每个词性的权重在系统中是固定的值,其中名词词性权重默认为4,动词词性默认为2,形容词词性默认为1;
S205,对每个词序列,根据词权重从高到低对词重排序,并只保留最多前N个词作为对应短文本的关键词组,所述N是一个系统参数,用于存放每个短文本最多保留的关键词的个数;
S206,使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组,每个频繁词组作为一个知识点,所述频繁项集挖掘算法为FP-growth算法;
S207,汇总所有知识点包含的词构成知识点词汇表;
S208,对每篇短文本,记录该短文本对关键词的包含关系到图谱数据库,查找包含该短文本关键词的知识点,如果构成知识点的关键词都存在于该短文本对应的关键词组中,则将该短文本对该知识点的包含关系记录到图谱数据库;
S3,如图3和图4所示,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本:
S301,对输入的短文本分词,只保留词性为名词、动词或形容词的词,并根据S2步骤中得到的知识点词汇表,删除在知识点词汇表中不存在的词,得到查询关键词组;
S302,对查询关键词组中的每个关键词计算TF权重,然后将查询关键词组中重复的关键词去重,并根据S2步骤计算得到的IDF权重以及系统固定的词性权重,使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重;
S303,根据查询关键词组中的关键词,查询知识点,并计算知识点与查询关键词组的相似度,计算公式如下:
S(K,Q)=(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))
其中,S(K,Q)表示知识点K与查询关键词组Q的相似度,SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和,SUM_W(Q)表示查询关键词组Q中所有词的权重的和,COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数,COUNT(K)表示知识点K的词的个数;
S304,按相似度从高到低对知识点排序;
S305,对每个知识点,查询包含该知识点的短文本;
S306,如果根据知识点查询到的短文本数量小于M,则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并,否则,返回S305,其中,所述M是一个系统参数,为存放推荐短文本的最大条数。
本发明提供的短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,以知识点和关键词为中间结点,建立起了与短文本之间的联系,能够为文本搜索、问答、分析等系统的输入联想、问题推荐、知识点图谱查询展示等应用提供短文本和知识点推荐服务,使得用户在搜索查询关键词和短文本的过程中更加的方便,不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑,只需根据用户搜索的关键词和短文本就能为用户推荐相关内容,大大提高了用户查询的效率,降低了用户的使用成本,为用户提供了便利。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (3)
1.一种短文本图谱化及推荐方法,其特征在于,包括以下步骤:
S1,收集短文本生成文本集;
S2,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱;
S3,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本;
所述步骤S2中从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱,具体包括:
S201,对每一篇短文本分词,得到词序列并标注每个词的词性,并对每个词序列只保留词性为名词、动词和形容词的词;
S202,根据词序列的集合,计算每个词序列中的每个词的TF-IDF权重;
S203,将每个词序列中重复的词去重;
S204,将词的TF-IDF权重与词的词性权重相乘得到词的权重,计算公式为:
W(i,j)=TF-IDF(i,j)*W_POS(i,j)
其中,W(i,j)表示第j个词序列中的第i个词的权重,TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重,W_POS(i,j)表示第j个词序列中的第i个词的词性权重,每个词性的权重在系统中是固定的值,其中名词词性权重默认为4,动词词性默认为2,形容词词性默认为1;
S205,对每个词序列,根据词权重从高到低对词重排序,并只保留最多前N个词作为对应短文本的关键词组,所述N是一个系统参数,用于存放每个短文本最多保留的关键词的个数;
S206,使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组,每个频繁词组作为一个知识点;
S207,汇总所有知识点包含的词构成知识点词汇表;
S208,对每篇短文本,记录该短文本对关键词的包含关系到图谱数据库,查找包含该短文本关键词的知识点,如果构成知识点的关键词都存在于该短文本对应的关键词组中,则将该短文本对该知识点的包含关系记录到图谱数据库。
2.根据权利要求1所述的短文本图谱化及推荐方法,其特征在于,所述步骤S3中基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本,具体包括:
S301,对输入的短文本分词,只保留词性为名词、动词或形容词的词,并根据S2步骤中得到的知识点词汇表,删除在知识点词汇表中不存在的词,得到查询关键词组;
S302,对查询关键词组中的每个关键词计算TF权重,然后将查询关键词组中重复的关键词去重,并根据S2步骤计算得到的IDF权重以及系统固定的词性权重,使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重;
S303,根据查询关键词组中的关键词,查询知识点,并计算知识点与查询关键词组的相似度,计算公式如下:
S(K,Q)=(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))其中,S(K,Q)表示知识点K与查询关键词组Q的相似度,SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和,SUM_W(Q)表示查询关键词组Q中所有词的权重的和,COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数,COUNT(K)表示知识点K的词的个数;
S304,按相似度从高到低对知识点排序;
S305,对每个知识点,查询包含该知识点的短文本;
S306,如果根据知识点查询到的短文本数量小于M,则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并,否则,返回S305,其中,所述M是一个系统参数,为存放推荐短文本的最大条数。
3.根据权利要求1所述的短文本图谱化及推荐方法,其特征在于,所述S205步骤中频繁项集挖掘算法为FP-growth算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011462504.7A CN112559768B (zh) | 2020-12-11 | 2020-12-11 | 一种短文本图谱化及推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011462504.7A CN112559768B (zh) | 2020-12-11 | 2020-12-11 | 一种短文本图谱化及推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559768A CN112559768A (zh) | 2021-03-26 |
CN112559768B true CN112559768B (zh) | 2023-02-17 |
Family
ID=75062779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011462504.7A Active CN112559768B (zh) | 2020-12-11 | 2020-12-11 | 一种短文本图谱化及推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559768B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095762A (zh) * | 2016-02-05 | 2016-11-09 | 中科鼎富(北京)科技发展有限公司 | 一种基于本体模型库的新闻推荐方法及装置 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978314B (zh) * | 2014-04-01 | 2019-05-14 | 深圳市腾讯计算机系统有限公司 | 媒体内容推荐方法及装置 |
-
2020
- 2020-12-11 CN CN202011462504.7A patent/CN112559768B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095762A (zh) * | 2016-02-05 | 2016-11-09 | 中科鼎富(北京)科技发展有限公司 | 一种基于本体模型库的新闻推荐方法及装置 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
Non-Patent Citations (2)
Title |
---|
中文短文本分类方法研究;王细薇等;《现代计算机(专业版)》;20100725(第07期);全文 * |
基于文档词典的文本关联关键词推荐技术;邱利茂等;《现代计算机(专业版)》;20180305(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112559768A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8402036B2 (en) | Phrase based snippet generation | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
US7225181B2 (en) | Document searching apparatus, method thereof, and record medium thereof | |
US7707204B2 (en) | Factoid-based searching | |
US8417713B1 (en) | Sentiment detection as a ranking signal for reviewable entities | |
US20110301941A1 (en) | Natural language processing method and system | |
US20040236566A1 (en) | System and method for identifying special word usage in a document | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
JP2008176721A (ja) | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 | |
KR101717230B1 (ko) | 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 | |
Albishre et al. | Effective 20 newsgroups dataset cleaning | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
US20170060834A1 (en) | Natural Language Determiner | |
Dorji et al. | Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Kowsher et al. | Bengali information retrieval system (BIRS) | |
Rouces et al. | Defining a Gold Standard for a Swedish Sentiment Lexicon: Towards Higher-Yield Text Mining in the Digital Humanities. | |
Sharma et al. | Shallow neural network and ontology-based novel semantic document indexing for information retrieval | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
CN112559768B (zh) | 一种短文本图谱化及推荐方法 | |
US20060047502A1 (en) | Method and apparatus for building semantic structures using self-describing fragments | |
CN113536772A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
Wen | Text mining using HMM and PMM | |
Huang et al. | Measuring similarity between sentence fragments | |
Ghorai | An Information Retrieval System for FIRE 2016 Microblog Track. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |