CN111563170A - 一种知识图谱的生成方法、装置、计算机存储介质及终端 - Google Patents
一种知识图谱的生成方法、装置、计算机存储介质及终端 Download PDFInfo
- Publication number
- CN111563170A CN111563170A CN202010361971.4A CN202010361971A CN111563170A CN 111563170 A CN111563170 A CN 111563170A CN 202010361971 A CN202010361971 A CN 202010361971A CN 111563170 A CN111563170 A CN 111563170A
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- entities
- favorites
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种知识图谱的生成方法、装置、计算机存储介质及终端,本发明实施例获取收藏夹中各网页文本中的实体信息后,通过建立本体和实体的链接,获得展示收藏夹内容的图谱,为提升用户通过收藏夹进行知识点学习的效率提供了技术支持。
Description
技术领域
本文涉及但不限于自然语言技术,尤指一种知识图谱的生成方法、装置、计算机存储介质及终端。
背景技术
用户在浏览网页时,主要通过收藏夹对搜索到的内容进行保存,回顾学习收藏夹中包含的网页文本,可以帮助用户对相关知识进行学习。
当前,用户主要是通过逐条查阅的方式进行收藏夹包含的网页文本的回顾学习,各网页文本之间的信息内容可能存在重复或逻辑关联不紧密,导致用户通过收藏夹学习到的知识点呈碎片化状态,如何提升用户通过收藏夹进行学习的效率,成为一个有待解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种知识图谱的生成方法、装置、计算机存储介质及终端,能够为提升用户通过收藏夹进行知识点学习的效率提供技术支持。
本发明实施例提供了一种知识图谱的生成方法,包括:
对收藏夹中的每一条网页文本,获取网页文本中包含的实体信息;
建立实体信息中的实体与本体、及实体之间的链接,获得用于展示收藏夹的图谱;
其中,所述本体包括以下关键信息之一:标题和网页文本内容;所述实体包括以下一项或任意组合:除作为所述本体的其余所述关键信息、收藏时间、分类信息和关键字信息。
另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱的方法。
再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述知识图谱的方法。
还一方面,本发明实施例还提供一种知识图谱的生成装置,包括:获取单元和图谱单元;其中,
获取单元设置为:对收藏夹中的每一条网页文本,获取网页文本中包含的实体信息;
图谱单元设置为:建立实体信息中的实体与本体、及实体之间的链接,获得用于展示收藏夹的图谱;
其中,所述本体包括以下关键信息之一:标题和网页文本内容;所述实体包括以下一项或任意组合:除作为所述本体的其余所述关键信息、收藏时间、分类信息和关键字信息。
本发明实施例获取收藏夹中各网页文本中的实体信息后,通过建立本体和实体的链接,获得展示收藏夹内容的图谱,为提升用户通过收藏夹进行知识点学习的效率提供了技术支持。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例知识图谱的生成方法的流程图;
图2为本发明实施例生成的知识图谱示意图;
图3为本发明实施例检索示例图;
图4为本发明另一实施例的检索示例图;
图5为本发明实施例知识图谱的生成装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例知识图谱的方法的流程图,如图1所示,包括:
步骤101、对收藏夹中的每一条网页文本,获取网页文本中包含的实体信息;
其中,实体信息包括本体和实体;本体包括以下关键信息之一:标题和网页文本内容;实体包括以下一项或任意组合:除作为本体的其余关键信息、收藏时间、分类信息和关键字信息。
在一种示例性实施例中,第二信息包括收藏时间时,收藏时间可以是预设粒度的时间信息;例如、以日、周或月作为最小粒度的时间信息。
在一种示例性实例中,实体信息包括关键信息和/或收藏时间时,获取网页文本中包含的实体信息,包括:
对收藏夹中的每一条网页文本分别进行特征提取,获得关键信息和/或收藏时间。
在一种示例性实例中,本发明实施例可以通过包括可扩展标记路径语言(xpath,XML路径语言)解析或正则化等方法进行特征提取,以获得关键信息和/或收藏时间。
在一种示例性实例中,实体信息包括分类信息时,获取网页文本中包含的实体信息,包括:
对收藏夹中的每一条网页文本进行分类,获得分类信息。
本发明实施例可以采用快速文本分类(FastText)模型进行网页文本的分类。分类类别可以包括以下一种或任意组合:体育、财经、娱乐、政治、疫情、电影和电视剧等;还可以包括由用户自定义一些类别,包括但不限于:美食、出差和保险等。分类的主要流程可以包括:输入网页文本→向量表示→分类模型→模型训练→损失优化→模型部署→标签预测。通过FastText模型在能取得和深度网络相媲美的精度,同时在训练时间上比深度网络快许多数量级,具有低成本高效率的特点。FastText模型训练时用到的测试集中需要的标注,可以通过用户交互方式实现;通过训练出的FastText模型,可以对收藏夹中的网页文本进行分类。举例:《超实用…》可被分类为知识图谱类别。
在一种示例性实例中,实体信息包括关键字信息时,获取网页文本中包含的实体信息,包括:
对收藏夹中的每一条网页文本包含的网页文本内容分别进行关键字提取,获得关键字信息。
本发明实施例在进行关键字提取前,可以参照相关技术对收藏夹中的网页文本进行预处理;预处理包括:按照语句进行分割,对每条语句进行分词、词性标注、和过滤停用词等处理。本发明实施例对收藏夹的每个网页文本,可以采用文本排名(TextRank)算法提取出若干个关键字。TextRank算法利用局部词汇之间关系(共现窗口)对关键词进行排序,可直接从网页文本中抽取关键字;主要步骤包括:基于预处理后的句子构建候选关键词图G=(V,E);其中,V是节点集,由去除停用词后的指定词性的词语组成;采用共线关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度K的窗口中共现,K表示窗口大小,即最多共现K个词语;根据相关技术中已有的运算公式迭代确定传播的各节点的权重,直至收敛;对节点权重进行倒序排序,从而得到最重要的预设数量个词语,作为候选关键词;将得到的上述最重要的词语在网页文本中标记,若标记的词语相邻,则组合成多词关键词;将最终结果作为每个网页文本的二级标签。例如:收藏夹的网页文本《超实用…》的关键词有:知识库、系统构建等;
步骤102、建立实体信息中的实体与本体、及实体之间的链接,获得用于展示收藏夹的图谱;
本发明实施例获取收藏夹中各网页文本中的实体信息后,通过建立本体和实体的链接,获得展示收藏夹内容的图谱,为提升用户通过收藏夹进行知识点学习的效率提供了技术支持。
在一种示例性实例中,建立实体信息中的实体与本体、及实体之间的链接,包括:
对收藏夹的每一个网页文本,将每一个实体分别与本体通过边建立链接;
获取的收藏夹的不同网页文本的实体相同时,合并不同网页文本的链接中的相同实体。
在一种示例性实例中,获得用于展示收藏夹的图谱之后,本发明实施例方法还包括:
接收到检索式为具体实体的检索,显示与具体实体建立的预设度数(一般可以设置为3度)的链接;和/或,
实体信息中包含收藏时间,且接收到检索式为时间区间信息的检索,按照先后顺序显示收藏时间处于时间区间内的所有链接。
本发明实施例图谱的检索查询可以通过知识图谱查询语言(如cypher语言,是一种描述性的图形查询语言,允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询)实现,检索显示的具体实体的预设度数的链接可构建以具体实体为核心的思维导图;通过时间区间信息的检索,可构建以时间为核心的时序分析图;图2为本发明实施例生成的知识图谱示意图,如图2所示,通过本体和实体的链接,构建了用于显示收藏夹内容的图谱;图3为本发明实施例检索示例图,如图3所示,展示了以知识图谱为具体实体的思维导图;图4为本发明另一实施例的检索示例图,如图4所示,显示与时间区间相符的时序分析图;其中,图4中第一行的实体信息为收藏时间,第二行为网页文本的分类信息,第三行为网页文本内容及网页文本内容提取出来的关键词信息,第四行为网页文本的标题。本发明实施例检索时,以可视化的方式给用户提供了友好的体验,思维导图能够让用户在回顾收藏夹时,聚焦于具体实体的相关概念,时序分析图能够让用户查阅回顾整个收藏夹内容,两中方式都能对收藏夹中的网页文本进行有效回顾,提升用户对收藏夹中碎片化信息的学习效率。
本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器执行时实现上述知识图谱的生成方法。
本发明实施例还提供一种终端,包括:存储器和处理器,存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
计算机程序被处理器执行时实现如上述知识图谱的生成方法。
图5为本发明实施例知识图谱的生成装置的结构框图,如图5所示,包括:获取单元和图谱单元;其中,
获取单元设置为:对收藏夹中的每一条网页文本,获取网页文本中包含的实体信息;
图谱单元设置为:建立实体信息中的实体与本体、及实体之间的链接,获得用于展示收藏夹的图谱;
其中,本体包括以下关键信息之一:标题和网页文本内容;实体包括以下一项或任意组合:除作为本体的其余关键信息、收藏时间、分类信息和关键字信息。。
在一种示例性实例中,获取单元是设置为:对收藏夹中的每一条网页文本分别进行特征提取,获得关键信息和/或收藏时间。
在一种示例性实例中,获取单元是设置为:
对收藏夹中的每一条网页文本进行分类,获得分类信息。
在一种示例性实例中,获取单元是设置为:
对收藏夹中的每一条网页文本包含的网页文本内容分别进行关键字提取,获得关键字信息。
在一种示例性实例中,图谱单元是设置为:
对收藏夹的每一个网页文本,将每一个实体分别与本体通过边建立链接;
获取的收藏夹的不同网页文本的实体相同时,合并不同网页文本的链接中的相同实体。
在一种示例性实例中,生成装置还包括检索单元,设置为:
接收到检索式为具体实体的检索,显示与具体实体建立的预设度数的链接;和/或,
实体信息中包含收藏时间,且接收到检索式为时间区间信息的检索,按照先后顺序显示收藏时间处于时间区间内的所有链接。
“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。”
Claims (10)
1.一种知识图谱的生成方法,包括:
对收藏夹中的每一条网页文本,获取网页文本中包含的实体信息;
建立实体信息中的实体与本体、及实体之间的链接,获得用于展示收藏夹的图谱;
其中,所述本体包括以下关键信息之一:标题和网页文本内容;所述实体包括以下一项或任意组合:除作为所述本体的其余所述关键信息、收藏时间、分类信息和关键字信息。
2.根据权利要求1所述的生成方法,其特征在于,所述实体信息包括所述关键信息和/或收藏时间时,所述获取网页文本中包含的实体信息,包括:
对所述收藏夹中的每一条网页文本分别进行特征提取,获得所述关键信息和/或所述收藏时间。
3.根据权利要求1所述的生成方法,其特征在于,所述实体信息包括分类信息时,所述获取网页文本中包含的实体信息,包括:
对所述收藏夹中的每一条网页文本进行分类,获得所述分类信息。
4.根据权利要求1所述的生成方法,其特征在于,所述实体信息包括关键字信息时,所述获取网页文本中包含的实体信息,包括:
对所述收藏夹中的每一条网页文本包含的网页文本内容分别进行关键字提取,获得所述关键字信息。
5.根据权利要求2~4任一项所述的生成方法,其特征在于,所述建立实体信息中的实体与本体、及实体之间的链接,包括:
对所述收藏夹的每一个网页文本,将每一个所述实体分别与所述本体通过边建立链接;
获取的所述收藏夹的不同网页文本的所述实体相同时,合并不同网页文本的链接中的相同实体。
6.根据权利要求5所述的生成方法,其特征在于,所述获得用于展示收藏夹的图谱之后,所述方法还包括:
接收到检索式为具体实体的检索,显示与所述具体实体建立的预设度数的链接;和/或,
所述实体信息中包含收藏时间,且接收到检索式为时间区间信息的检索,按照先后顺序显示收藏时间处于所述时间区间内的所有链接。
7.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~6中任一项所述的知识图谱的生成方法。
8.一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如权利要求1~6中任一项所述的知识图谱的生成方法。
9.一种知识图谱的生成装置,包括:获取单元和图谱单元;其中,
获取单元设置为:对收藏夹中的各网页文本,获取网页文本中包含的实体信息;
图谱单元设置为:建立实体信息中的实体与本体、及实体之间的链接,获得用于展示收藏夹的图谱;
其中,所述本体包括以下关键信息之一:标题和网页文本内容;所述实体包括以下一项或任意组合:除作为所述本体的其余所述关键信息、收藏时间、分类信息和关键字信息。
10.根据权利要求9所述的生成装置,其特征在于,所述图谱单元是设置为:
对所述收藏夹的每一个网页文本,将每一个所述实体分别与所述本体通过边建立链接;
获取的所述收藏夹的不同网页文本的所述实体相同时,合并不同网页文本的链接中的相同实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010361971.4A CN111563170A (zh) | 2020-04-30 | 2020-04-30 | 一种知识图谱的生成方法、装置、计算机存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010361971.4A CN111563170A (zh) | 2020-04-30 | 2020-04-30 | 一种知识图谱的生成方法、装置、计算机存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111563170A true CN111563170A (zh) | 2020-08-21 |
Family
ID=72068976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010361971.4A Withdrawn CN111563170A (zh) | 2020-04-30 | 2020-04-30 | 一种知识图谱的生成方法、装置、计算机存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563170A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160063115A1 (en) * | 2014-08-27 | 2016-03-03 | Facebook, Inc. | Blending by Query Classification on Online Social Networks |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN108595449A (zh) * | 2017-11-23 | 2018-09-28 | 北京科东电力控制系统有限责任公司 | 调度自动化系统知识图谱的构建与应用方法 |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN109918452A (zh) * | 2019-02-14 | 2019-06-21 | 北京明略软件系统有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
CN109933671A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-04-30 CN CN202010361971.4A patent/CN111563170A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160063115A1 (en) * | 2014-08-27 | 2016-03-03 | Facebook, Inc. | Blending by Query Classification on Online Social Networks |
CN108595449A (zh) * | 2017-11-23 | 2018-09-28 | 北京科东电力控制系统有限责任公司 | 调度自动化系统知识图谱的构建与应用方法 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN109933671A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN109918452A (zh) * | 2019-02-14 | 2019-06-21 | 北京明略软件系统有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US10642938B2 (en) | Artificial intelligence based method and apparatus for constructing comment graph | |
US10740678B2 (en) | Concept hierarchies | |
CN111026671B (zh) | 测试用例集构建方法和基于测试用例集的测试方法 | |
US8868556B2 (en) | Method and device for tagging a document | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
US20170193393A1 (en) | Automated Knowledge Graph Creation | |
US20100094835A1 (en) | Automatic query concepts identification and drifting for web search | |
US20150113388A1 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
US11977589B2 (en) | Information search method, device, apparatus and computer-readable medium | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
US20080201131A1 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
CN108959413B (zh) | 一种主题网页爬取方法及主题爬虫系统 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN116737915B (zh) | 基于知识图谱的语义检索方法、装置、设备及存储介质 | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
US20150206101A1 (en) | System for determining infringement of copyright based on the text reference point and method thereof | |
CN116628229B (zh) | 一种利用知识图谱生成文本语料的方法及装置 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
Chantrapornchai et al. | Information extraction based on named entity for tourism corpus | |
CN115659969B (zh) | 文档标注方法、装置、电子设备及存储介质 | |
CN111309866A (zh) | 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 | |
CN103377199B (zh) | 信息处理装置和信息处理方法 | |
CN111666479A (zh) | 搜索网页的方法和计算机可读存储介质 | |
CN111563170A (zh) | 一种知识图谱的生成方法、装置、计算机存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200821 |