CN112559768B - 一种短文本图谱化及推荐方法 - Google Patents

一种短文本图谱化及推荐方法 Download PDF

Info

Publication number
CN112559768B
CN112559768B CN202011462504.7A CN202011462504A CN112559768B CN 112559768 B CN112559768 B CN 112559768B CN 202011462504 A CN202011462504 A CN 202011462504A CN 112559768 B CN112559768 B CN 112559768B
Authority
CN
China
Prior art keywords
short
weight
word
short text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011462504.7A
Other languages
English (en)
Other versions
CN112559768A (zh
Inventor
王丙栋
游世学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Huilian Technology Co ltd
Original Assignee
Beijing Zhongke Huilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Huilian Technology Co ltd filed Critical Beijing Zhongke Huilian Technology Co ltd
Priority to CN202011462504.7A priority Critical patent/CN112559768B/zh
Publication of CN112559768A publication Critical patent/CN112559768A/zh
Application granted granted Critical
Publication of CN112559768B publication Critical patent/CN112559768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种短文本图谱化及推荐方法,包括以下步骤:S1,收集短文本生成文本集;S2,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱;S3,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本。本发明提供的短文本图谱化及推荐方法,使得用户在搜索查询关键词和短文本的过程中更加方便,不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑,只需根据用户搜索的关键词和短文本就能为用户推荐相关内容,大大提高了用户查询的效率,降低了用户的使用成本,为用户提供了便利。

Description

一种短文本图谱化及推荐方法
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种短文本图谱化及推荐方法。
背景技术
随着互联网信息系统的广泛应用,产生了大量的短文本数据,比如客服提问、用户评论、用户留言、聊天记录、搜索词条,但由于短文本包含内容较少,特征不明显,因此在短文本数据的处理中,实现对大量短文本数据进行简便、有效地分类具有重要的意义。目前,没有相关技术方案从这些短文本数据中挖掘知识点,构建关于关键词、知识点、短文本的关系图谱,进而基于所构建的图谱,针对用户搜索的关键词等短文本,向用户推荐知识点和短文本。因此,构建关于关键词、知识点、短文本的关系图谱,进而基于所构建的图谱,针对用户搜索的关键词等短文本,向用户推荐知识点和短文本便成为本领域技术人员需要解决的问题。
发明内容
本发明的目的是为了提供一种短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,基于建立起的关系图谱,根据用户搜索的关键词等短文本,向用户推荐知识点和短文本。
为实现上述目的,本发明提供了如下方案:
一种短文本图谱化及推荐方法,包括以下步骤:
S1,收集短文本生成文本集;
S2,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱;
S3,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本。
可选的,所述步骤S2中从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱,具体包括:
S201,对每一篇短文本分词,得到词序列并标注每个词的词性,并对每个词序列只保留词性为名词、动词和形容词的词;
S202,根据词序列的集合,计算每个词序列中的每个词的TF-IDF权重;
S203,将每个词序列中重复的词去重;
S204,将词的TF-IDF权重与词的词性权重相乘得到词的权重,计算公式为:
W(i,j)=TF-IDF(i,j)*W_POS(i,j)
其中,W(i,j)表示第j个词序列中的第i个词的权重,TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重,W_POS(i,j)表示第j个词序列中的第i个词的词性权重,每个词性的权重在系统中是固定的值,其中名词词性权重默认为4,动词词性默认为2,形容词词性默认为1;
S205,对每个词序列,根据词权重从高到低对词重排序,并只保留最多前N个词作为对应短文本的关键词组,所述N是一个系统参数,用于存放每个短文本最多保留的关键词的个数;
S206,使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组,每个频繁词组作为一个知识点;
S207,汇总所有知识点包含的词构成知识点词汇表;
S208,对每篇短文本,记录该短文本对关键词的包含关系到图谱数据库,查找包含该短文本关键词的知识点,如果构成知识点的关键词都存在于该短文本对应的关键词组中,则将该短文本对该知识点的包含关系记录到图谱数据库。
可选的,所述步骤S3中基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本,具体包括:
S301,对输入的短文本分词,只保留词性为名词、动词或形容词的词,并根据S2步骤中得到的知识点词汇表,删除在知识点词汇表中不存在的词,得到查询关键词组;
S302,对查询关键词组中的每个关键词计算TF权重,然后将查询关键词组中重复的关键词去重,并根据S2步骤计算得到的IDF权重以及系统固定的词性权重,使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重;
S303,根据查询关键词组中的关键词,查询知识点,并计算知识点与查询关键词组的相似度,计算公式如下:
S(K,Q)=(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))
其中,S(K,Q)表示知识点K与查询关键词组Q的相似度,SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和,SUM_W(Q)表示查询关键词组Q中所有词的权重的和,COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数,COUNT(K)表示知识点K的词的个数;
S304,按相似度从高到低对知识点排序;
S305,对每个知识点,查询包含该知识点的短文本;
S306,如果根据知识点查询到的短文本数量小于M,则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并,否则,返回S305,其中,所述M是一个系统参数,为存放推荐短文本的最大条数。
可选的,所述S205步骤中频繁项集挖掘算法为FP-growth算法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,以知识点和关键词为中间结点,建立起了与短文本之间的联系,能够为文本搜索、问答、分析等系统的输入联想、问题推荐、知识点图谱查询展示等应用提供短文本和知识点推荐服务,使得用户在搜索查询关键词和短文本的过程中更加的方便,不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑,只需根据用户搜索的关键词和短文本就能为用户推荐相关内容,大大提高了用户查询的效率,降低了用户的使用成本,为用户提供了便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明短文本图谱化及推荐方法的流程图;
图2为本发明短文本图谱化及推荐方法的知识点挖掘流程图;
图3为本发明短文本图谱化及推荐方法的图谱示例图;
图4为本发明短文本图谱化及推荐方法的短文本和知识点推荐流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是为了提供一种短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,基于建立起的关系图谱,根据用户搜索的关键词等短文本,向用户推荐知识点和短文本。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供的短文本图谱化及推荐方法,流程图如图1所示,包括:
S1,收集短文本生成文本集;
S2,如图2所示,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱如图2:
S201,对每一篇短文本分词,得到词序列并标注每个词的词性,并对每个词序列只保留词性为名词、动词和形容词的词;
S202,根据词序列的集合,计算每个词序列中的每个词的TF-IDF权重;
S203,将每个词序列中重复的词去重;
S204,将词的TF-IDF权重与词的词性权重相乘得到词的权重,计算公式为:
W(i,j)=TF-IDF(i,j)*W_POS(i,j)
其中,W(i,j)表示第j个词序列中的第i个词的权重,TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重,W_POS(i,j)表示第j个词序列中的第i个词的词性权重,每个词性的权重在系统中是固定的值,其中名词词性权重默认为4,动词词性默认为2,形容词词性默认为1;
S205,对每个词序列,根据词权重从高到低对词重排序,并只保留最多前N个词作为对应短文本的关键词组,所述N是一个系统参数,用于存放每个短文本最多保留的关键词的个数;
S206,使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组,每个频繁词组作为一个知识点,所述频繁项集挖掘算法为FP-growth算法;
S207,汇总所有知识点包含的词构成知识点词汇表;
S208,对每篇短文本,记录该短文本对关键词的包含关系到图谱数据库,查找包含该短文本关键词的知识点,如果构成知识点的关键词都存在于该短文本对应的关键词组中,则将该短文本对该知识点的包含关系记录到图谱数据库;
S3,如图3和图4所示,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本:
S301,对输入的短文本分词,只保留词性为名词、动词或形容词的词,并根据S2步骤中得到的知识点词汇表,删除在知识点词汇表中不存在的词,得到查询关键词组;
S302,对查询关键词组中的每个关键词计算TF权重,然后将查询关键词组中重复的关键词去重,并根据S2步骤计算得到的IDF权重以及系统固定的词性权重,使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重;
S303,根据查询关键词组中的关键词,查询知识点,并计算知识点与查询关键词组的相似度,计算公式如下:
S(K,Q)=(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))
其中,S(K,Q)表示知识点K与查询关键词组Q的相似度,SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和,SUM_W(Q)表示查询关键词组Q中所有词的权重的和,COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数,COUNT(K)表示知识点K的词的个数;
S304,按相似度从高到低对知识点排序;
S305,对每个知识点,查询包含该知识点的短文本;
S306,如果根据知识点查询到的短文本数量小于M,则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并,否则,返回S305,其中,所述M是一个系统参数,为存放推荐短文本的最大条数。
本发明提供的短文本图谱化及推荐方法,将大量无序的非结构化短文本转换为关键词、知识点、短文本的图谱,以知识点和关键词为中间结点,建立起了与短文本之间的联系,能够为文本搜索、问答、分析等系统的输入联想、问题推荐、知识点图谱查询展示等应用提供短文本和知识点推荐服务,使得用户在搜索查询关键词和短文本的过程中更加的方便,不需要精确的编辑搜索语句或者按照一定的文本规则进行语句的编辑,只需根据用户搜索的关键词和短文本就能为用户推荐相关内容,大大提高了用户查询的效率,降低了用户的使用成本,为用户提供了便利。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种短文本图谱化及推荐方法,其特征在于,包括以下步骤:
S1,收集短文本生成文本集;
S2,从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱;
S3,基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本;
所述步骤S2中从文本集中挖掘频繁词组作为知识点,构建关键词、知识点、短文本的图谱,具体包括:
S201,对每一篇短文本分词,得到词序列并标注每个词的词性,并对每个词序列只保留词性为名词、动词和形容词的词;
S202,根据词序列的集合,计算每个词序列中的每个词的TF-IDF权重;
S203,将每个词序列中重复的词去重;
S204,将词的TF-IDF权重与词的词性权重相乘得到词的权重,计算公式为:
W(i,j)=TF-IDF(i,j)*W_POS(i,j)
其中,W(i,j)表示第j个词序列中的第i个词的权重,TF-IDF(i,j)表示第j个词序列中的第i个词的TF-IDF权重,W_POS(i,j)表示第j个词序列中的第i个词的词性权重,每个词性的权重在系统中是固定的值,其中名词词性权重默认为4,动词词性默认为2,形容词词性默认为1;
S205,对每个词序列,根据词权重从高到低对词重排序,并只保留最多前N个词作为对应短文本的关键词组,所述N是一个系统参数,用于存放每个短文本最多保留的关键词的个数;
S206,使用频繁项集挖掘算法从关键词组的集合中挖掘频繁词组,每个频繁词组作为一个知识点;
S207,汇总所有知识点包含的词构成知识点词汇表;
S208,对每篇短文本,记录该短文本对关键词的包含关系到图谱数据库,查找包含该短文本关键词的知识点,如果构成知识点的关键词都存在于该短文本对应的关键词组中,则将该短文本对该知识点的包含关系记录到图谱数据库。
2.根据权利要求1所述的短文本图谱化及推荐方法,其特征在于,所述步骤S3中基于关键词、知识点、短文本的图谱数据库,根据用户输入的短文本查询知识点图谱、推荐短文本,具体包括:
S301,对输入的短文本分词,只保留词性为名词、动词或形容词的词,并根据S2步骤中得到的知识点词汇表,删除在知识点词汇表中不存在的词,得到查询关键词组;
S302,对查询关键词组中的每个关键词计算TF权重,然后将查询关键词组中重复的关键词去重,并根据S2步骤计算得到的IDF权重以及系统固定的词性权重,使用与S2步骤相同的词权重计算公式将TF权重、IDF权重、词性权重相乘得到查询关键词组中的每个关键词的权重;
S303,根据查询关键词组中的关键词,查询知识点,并计算知识点与查询关键词组的相似度,计算公式如下:
S(K,Q)=(SUM_W(K∩Q)/SUM_W(Q))*(COUNT(K∩Q)/COUNT(K))其中,S(K,Q)表示知识点K与查询关键词组Q的相似度,SUM_W(K∩Q)表示知识点K与查询关键词组Q共同包含的词的权重的和,SUM_W(Q)表示查询关键词组Q中所有词的权重的和,COUNT(K∩Q)表示知识点K与查询关键词组Q共同包含的词的个数,COUNT(K)表示知识点K的词的个数;
S304,按相似度从高到低对知识点排序;
S305,对每个知识点,查询包含该知识点的短文本;
S306,如果根据知识点查询到的短文本数量小于M,则根据查询关键词搜索短文本,并与根据知识点查询到的短文本合并,否则,返回S305,其中,所述M是一个系统参数,为存放推荐短文本的最大条数。
3.根据权利要求1所述的短文本图谱化及推荐方法,其特征在于,所述S205步骤中频繁项集挖掘算法为FP-growth算法。
CN202011462504.7A 2020-12-11 2020-12-11 一种短文本图谱化及推荐方法 Active CN112559768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011462504.7A CN112559768B (zh) 2020-12-11 2020-12-11 一种短文本图谱化及推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011462504.7A CN112559768B (zh) 2020-12-11 2020-12-11 一种短文本图谱化及推荐方法

Publications (2)

Publication Number Publication Date
CN112559768A CN112559768A (zh) 2021-03-26
CN112559768B true CN112559768B (zh) 2023-02-17

Family

ID=75062779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011462504.7A Active CN112559768B (zh) 2020-12-11 2020-12-11 一种短文本图谱化及推荐方法

Country Status (1)

Country Link
CN (1) CN112559768B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置
CN110929043A (zh) * 2019-11-28 2020-03-27 北京智齿博创科技有限公司 业务问题提取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978314B (zh) * 2014-04-01 2019-05-14 深圳市腾讯计算机系统有限公司 媒体内容推荐方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置
CN110929043A (zh) * 2019-11-28 2020-03-27 北京智齿博创科技有限公司 业务问题提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文短文本分类方法研究;王细薇等;《现代计算机(专业版)》;20100725(第07期);全文 *
基于文档词典的文本关联关键词推荐技术;邱利茂等;《现代计算机(专业版)》;20180305(第07期);全文 *

Also Published As

Publication number Publication date
CN112559768A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
US8402036B2 (en) Phrase based snippet generation
US7461056B2 (en) Text mining apparatus and associated methods
US7225181B2 (en) Document searching apparatus, method thereof, and record medium thereof
US7707204B2 (en) Factoid-based searching
US8417713B1 (en) Sentiment detection as a ranking signal for reviewable entities
US20110301941A1 (en) Natural language processing method and system
US20040236566A1 (en) System and method for identifying special word usage in a document
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
JP2008176721A (ja) コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
Albishre et al. Effective 20 newsgroups dataset cleaning
CN113886604A (zh) 一种职位知识图谱生成方法和系统
US20170060834A1 (en) Natural Language Determiner
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Singh et al. Sentiment analysis using lexicon based approach
Kowsher et al. Bengali information retrieval system (BIRS)
Rouces et al. Defining a Gold Standard for a Swedish Sentiment Lexicon: Towards Higher-Yield Text Mining in the Digital Humanities.
Sharma et al. Shallow neural network and ontology-based novel semantic document indexing for information retrieval
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN112559768B (zh) 一种短文本图谱化及推荐方法
US20060047502A1 (en) Method and apparatus for building semantic structures using self-describing fragments
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质
Wen Text mining using HMM and PMM
Huang et al. Measuring similarity between sentence fragments
Ghorai An Information Retrieval System for FIRE 2016 Microblog Track.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant