CN114969371A - 一种联合知识图谱的热度排序方法及装置 - Google Patents

一种联合知识图谱的热度排序方法及装置 Download PDF

Info

Publication number
CN114969371A
CN114969371A CN202210612426.7A CN202210612426A CN114969371A CN 114969371 A CN114969371 A CN 114969371A CN 202210612426 A CN202210612426 A CN 202210612426A CN 114969371 A CN114969371 A CN 114969371A
Authority
CN
China
Prior art keywords
entity
target entity
heat
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210612426.7A
Other languages
English (en)
Inventor
于凯
王路路
蔡日辉
彭钰婷
刘佳
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202210612426.7A priority Critical patent/CN114969371A/zh
Publication of CN114969371A publication Critical patent/CN114969371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种联合知识图谱的热度排序方法及装置,涉及信息处理技术领域,其中,该方法包括:获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;根据链接到的所述目标实体与所述评论文本的词频‑逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。本发明通过抽取论文文献内的实体构建知识图谱,并根据论文评论预测论文中实体的热度属性值,科学合理的给出实体热度排序,以正确准确的实现实体内容推荐,并可以实时的更新实体的热度属性值。

Description

一种联合知识图谱的热度排序方法及装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种联合知识图谱的热度排序方法及装置。
背景技术
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。
大数据时代,对基于知识图谱的海量评论文本和舆情文本的分析是尤为重要的工作,然而知识图谱应用在系统中的舆情分析和内容推荐成为一个难题。相关技术中,大多数图谱实体的热度排序都是根据文本出现次数、讨论频率作为排序标准,这样造成了对文本语义分析不足,实体内容推荐不准确的缺点。造成了用户在领域图谱系统中对推荐实体内容不满意的问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为达上述方面,本申请的第一方面提出了一种联合知识图谱的热度排序方法,包括:
获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;
从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;
获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;
根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
可选的,所述对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体,包括:
从所述论文文献中提取文献内容,并将所述文献内容转换为预设格式的文献内容;
对所述预设格式的文献内容进行分句处理,得到所述文献内容对应的内容片段,对所述内容片段中的内容进行标注,得到所述内容片段对应的标注文本;
根据所述标注文本生成训练集,根据所述训练集对第一模型进行训练,根据训练后所述第一模型的第一预测结果获取所述目标实体。
可选的,所述从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱,包括:
根据所述目标实体的三元组训练第二模型,并根据训练后的所述第二模型的第二预测结果获取所述关系属性;
抽取所述目标实体的实体属性值和语料文本,将所述实体属性值和语料文本输入分类器,获取所述实体属性;
将所述目标实体、所述关系属性和所述实体属性整理为元组形式并存入图数据库,以构建知识图谱。
可选的,所述获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接,包括:
将实体字典与所述包含所述目标实体的评论文本转换为向量,并获取候选实体的相似度,公式化如下:
Figure BDA0003673357970000021
其中,xi为实体字典转换后的向量,yi为所述包含所述目标实体的评论文本转换后的向量;
根据所述候选实体的提及比例和所述候选实体的相似度综合相乘的规则,对所述候选实体进行排序,选出排名最高的候选实体与所述图数据库中的所述知识图谱构建实体链接。
可选的,在所述根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值之前,还包括:
计算词频TF值,即所述目标实体在所述评论文本中出现的频率,公式化如下:
Figure BDA0003673357970000022
其中,ni,j是所述目标实体在文件dj中出现的次数,∑knk,j为文件dj中所有词汇出现的次数总和;
计算逆文本频率IDF值,公式化如下:
Figure BDA0003673357970000023
其中,|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含所述目标实体ti的文件数目;
计算词频-逆文本频率指数值TF-IDF值,公式化如下:
TF-IDF=TF*IDF。
可选的,所述确定实体热度值,包括:
获取所述目标实体点击量与用户评论量,并根据所述实体点击量与用户评论量获取目标实体本身热度值;
根据评论文本接口获得文本评论时间,根据所述文本评论时间获取更新时间;
根据所述TF-IDF值,目标实体本身热度值与更新时间,获取实体热度值,公式化如下:
Figure BDA0003673357970000031
其中,H为所述实体热度值,W为所述目标实体本身热度值,T为所述更新时间,G为重力权重指数。
可选的,所述根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新,还包括:
将所述实体热度值更新至所述图数据库,获取节点的热度值属性,以更新所述评论文本数据和所述实体热度值。
本申请第二方面提出了一种联合知识图谱的热度排序装置,包括:
实体抽取模块,用于获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;
知识图谱构建模块,用于从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;
链接构建模块,用于获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;
热度值确定模块,用于根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
本申请第三方面提出了一种数据处理电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述第一方面中任一项所述的方法。
本申请第四方面提出了一种计算机可读存储介质,当所述存储介质中的指令由数据处理电子设备的处理器执行时,使得数据处理电子设备能够执行上述第一方面中任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过抽取论文文献内的实体构建知识图谱,并根据论文评论预测论文中实体的热度属性值,科学合理的给出实体热度排序,以正确准确的实现实体内容推荐,并可以实时的更新实体的热度属性值。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图;
图2是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图;
图3是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图;
图4是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图;
图5是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图;
图6是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图;
图7是根据一示例性实施例示出的一种联合知识图谱的热度排序装置的框图;
图8是一种电子设备的示意性框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的一种联合知识图谱的热度排序方法及装置。
图1是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图,如图1所示,所述方法包括以下步骤:
步骤101,获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体。
本实施例中,准备一定数量的论文文献,根据预先定义好的实体类型来把文献内容中的实体抽取出来,其中实体类型为可以为人名,机构,地名等属性。
一种可能的实施例中,预设论文文献数量为3000,预先定义的实体为“螳螂”,识别并抽取文献内容中包含“螳螂”的部分。
步骤102,从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱。
本实施例中,抽取目标实体中的关系属性和实体属性,其中关系属性用来描述实体之间的关系与联系,实体属性用来描述实体的内容及特性。
一种可能的实施例中“学生”使用“房卡”,“学生”与“饭卡”为不一样的实体,“喜欢吃”为两个实体之间的关系。
一种可能的实施例中,可以用“姓名”、“班级”、“院系”等属性描述“学生”这个实体。”
步骤103,获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接。
本实施例中,评论文本就是舆情文本,图谱一般会在系统上应用,就会有用户对实体信息进行讨论,其中讨论的内容就是评论文本,讨论文本中有时候会出现讨论的实体或类似的实体,将包含实体或类似实体的评论文本与知识图谱链接起来。
步骤104,根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
本实施例中,计算建立实体链接的实体在评论文本中的TF-IDF值,依次计算词频值与逆文本频率指数值来确定实体在评论文本中出现的概率与包含该实体的文件在总语料库中出现的概率,来评估实体的热度程度。
一种可能的实施例中,“金丝雀”在评论文本中出现20次,评论文本出现的实体共有10000次(重复出现的实体可重复叠加),包含“金丝雀”的文件共有1000件,总语料库的文件总数为10000000件。
本实施例中通过抽取论文文献内的实体构建知识图谱,并根据论文评论预测论文中实体的热度属性值,科学合理的给出实体热度排序,以正确准确的实现实体内容推荐,并可以实时的更新实体的热度属性值。
图2是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图,如图2所示,步骤101还包括:
步骤201,从所述论文文献中提取文献内容,并将所述文献内容转换为预设格式的文献内容。
本实施例中,论文本身格式为pdf格式,可以使用PDFplumber技术提取领域pdf的页面文字,表格等内容,并将pdf文件转换为对应的txt文本,其中PDFplumbe是一种转换PDF格式的工具。
步骤202,对所述预设格式的文献内容进行分句处理,得到所述文献内容对应的内容片段,对所述内容片段中的内容进行标注,得到所述内容片段对应的标注文本。
一种可能的实施例中,将转换完成的论文txt文本划分好摘要和正文内容并全部转换为半角格式,并利用正则表达式根据标点符号和换行内容进行分句,并对分好句的文本内容进行BMES序列标注,标注为单字对应标签的文本方式,其中BMES序列标注解释为:B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词。
步骤203,根据所述标注文本生成训练集,根据所述训练集对第一模型进行训练,根据训练后所述第一模型的第一预测结果获取所述目标实体。
本实施例中,根据训练集文本训练第一模型,并根据训练好的模型获取预测结果,得到预测结果后转换为对应标签的实体。
一种可能的实施例中,训练第一模型的过程为:输入打好标签文本,并通过bertTokenizer转换成词表id,随机15%的id,用[mask]单词的id替换,在bert模型输出接入crf层,训练模型直至模型收敛。
本实施例通过转换论文的格式、分句、标注等方式整理文献内容,并通过训练模型获取目标实体,更加方便快捷的进行实体的获取。
图3是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图,如图3所示,步骤102还包括:
步骤301,根据所述目标实体的三元组训练第二模型,并根据训练后的所述第二模型的第二预测结果获取所述关系属性。
本实施例中,根据三元组训练,并根据第二模型获取实体之间的关系属性。三元组一般的构成方式为“<实体>+关系+<实体>”。
一种可能的实施例子,第二模型为BERT+CRF模型。
步骤302,抽取所述目标实体的实体属性值和语料文本,将所述实体属性值和语料文本输入分类器,获取所述实体属性;
本实施例中,可以根据MetaPAD挖掘生成元模式候选,学习候选模式的质量评估函数,特征选择具有丰富的域独立上下文特征。
一对子模式实体<mpl,mpr>的期望频率公式为:
μ0(c(<mpl,mpr>))=L·p(mpl)·p(mpr)
其中
Figure BDA0003673357970000071
是模式的经验概率。使用Z指数来衡量一对子模式实体<mpl,mpr>构成语料库中的最佳指数,Z指数较高表明模式在上下文充当一个完整语义单位。
Figure BDA0003673357970000072
根据上述Z值可以组成多个元模式组,对语料文本进行聚合关系提取,进而训练一个属性分类器。
一种可能的实施例中,属性分类器可以为基于随机森林的属性分类器。
将实体和文本输入上述分类器,得到其实体属性,并通过neo4j将属性绑定到对应实体。其中,知识图谱由于其数据包含实体、属性、关系等,常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点,因此知识图谱数据的存储一般是采用图数据库(Graph Databases),而neo4j是其中最为常见的图数据库。
一种可能的实施例中,绑定属性到对应实体可以为:将“姓名”、“班级”、“院系”等属性绑定到“学生”这个实体。
步骤302,将所述目标实体、所述关系属性和所述实体属性整理为元组形式并存入图数据库,以构建知识图谱。
一种可能的实施例中,根据Py2neo使用Neo4j来构建知识图谱。其中,Py2neo是一个客户端库和工具包,可通过Python应用程序内部和命令行使用Neo4j。
本实施例获取实体的关系属性与实体属性,并通过图数据库绑定属性以创建知识图谱,方便系统的进行知识图谱的构建。
图4是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图,如图4所示,步骤103还包括:
步骤401,将实体字典与所述包含所述目标实体的评论文本转换为向量,并获取候选实体的相似度,公式化如下:
Figure BDA0003673357970000073
其中,xi为实体字典转换后的向量,yi为所述包含所述目标实体的评论文本转换后的向量。
本实施例中,根据图谱系统获取知识图谱下的评论文本,再利用实体词典与提及实体的评论文本字符串相似度算法,将两个文本进行embedding转成向量,再利用余弦相似度公式获取实体的相似度,若相似度高,则认为实体模糊匹配成功,生成相似度高的候选实体,其中embedding向量的性质是能使距离相近的向量对应的物体有相近的含义。
步骤402,根据所述候选实体的提及比例和所述候选实体的相似度综合相乘的规则,对所述候选实体进行排序,选出排名最高的候选实体与所述图数据库中的所述知识图谱构建实体链接。
本实施例中,根据预设的规则对候选实体进行排序,选出来排名最高的候选实体与图数据库中的知识图谱建立链接。
本实施例通过计算并排序评论文本中候选实体的相似度,让评论文本与知识图谱之间建立链接,以方便进行后续实体热度值的获取。
图5是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图,如图5所示,包括:
步骤501,计算词频TF值,即所述目标实体在所述评论文本中出现的频率,公式化如下:
Figure BDA0003673357970000081
其中,ni,j是所述目标实体在文件dj中出现的次数,∑knk,j为文件dj中所有词汇出现的次数总和。
步骤502,计算逆文本频率IDF值,公式化如下:
Figure BDA0003673357970000082
其中,|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含所述目标实体ti的文件数目;
步骤503,计算词频-逆文本频率指数值TF-IDF值,公式化如下:
TF-IDF=TF*IDF。
本实施例中,计算词频TF值与逆文本频率IDF值并获取TF-IDF值。
图6是根据一示例性实施例示出的一种联合知识图谱的热度排序方法的流程示意图,如图6所示,步骤104还包括:
步骤601,获取所述目标实体点击量与用户评论量,并根据所述实体点击量与用户评论量获取目标实体本身热度值。
本实施例中,根据图谱系统获得目标实体的点击量与用户评论量,根据预设的加权规则,获取目标实体的本身热度值。
一种可能的实施例中,实体点击量与用户评论量所占权重分别为0.01与0.99。
步骤602,根据评论文本接口获得文本评论时间,根据所述文本评论时间获取更新时间。
本实施例中,根据系统评论接口获取文本评论更新时间。
步骤603,根据所述TF-IDF值,目标实体本身热度值与更新时间,获取实体热度值,公式化如下:
Figure BDA0003673357970000091
其中,H为所述实体热度值,W为所述目标实体本身热度值,T为所述更新时间,G为重力权重指数。
可选的,还包括;
将所述实体热度值更新至所述图数据库,获取节点的热度值属性,以更新所述评论文本数据和所述实体热度值。
一种可能的实施例中,根据计算出的热度值H,利用py2neo将其更新到图数据库,当做节点的热度值属性,并利用python中的schedule模块,定期定时的更新评论文本数据和热度值。
本实施例根据论文评论预测论文中实体的热度属性值,科学合理的给出实体热度排序,以正确准确的实现实体内容推荐,并可以实时的更新实体的热度属性值。
图7是根据一示例性实施例示出的一种联合知识图谱的热度排序装置的框图700,参照图7,该装置包括:实体抽取模块701、知识图谱构建模块702、链接构建模块702与热度值确定模块704。
实体抽取模块710,用于获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;
知识图谱构建模块720,用于从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;
链接构建模块730,用于获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;
热度值确定模块740,用于根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如所述语音指令响应方法。例如,在一些实施例中,所述语音指令响应方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的所述语音指令响应方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行所述语音指令响应方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种联合知识图谱的热度排序方法,其特征在于,包括:
获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;
从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;
获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;
根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
2.根据权利要求1所述的方法,其特征在于,所述对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体,包括:
从所述论文文献中提取文献内容,并将所述文献内容转换为预设格式的文献内容;
对所述预设格式的文献内容进行分句处理,得到所述文献内容对应的内容片段,对所述内容片段中的内容进行标注,得到所述内容片段对应的标注文本;
根据所述标注文本生成训练集,根据所述训练集对第一模型进行训练,根据训练后所述第一模型的第一预测结果获取所述目标实体。
3.根据权利要求1所述的方法,其特征在于,所述从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱,包括:
根据所述目标实体的三元组训练第二模型,并根据训练后的所述第二模型的第二预测结果获取所述关系属性;
抽取所述目标实体的实体属性值和语料文本,将所述实体属性值和语料文本输入分类器,获取所述实体属性;
将所述目标实体、所述关系属性和所述实体属性整理为元组形式并存入图数据库,以构建知识图谱。
4.根据权利要求1所述的方法,其特征在于,所述获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接,包括:
将实体字典与所述包含所述目标实体的评论文本转换为向量,并获取候选实体的相似度,公式化如下:
Figure FDA0003673357960000021
其中,xi为实体字典转换后的向量,yi为所述包含所述目标实体的评论文本转换后的向量;
根据所述候选实体的提及比例和所述候选实体的相似度综合相乘的规则,对所述候选实体进行排序,选出排名最高的候选实体与所述图数据库中的所述知识图谱构建实体链接。
5.根据权利要求1所述的方法,其特征在于,在所述根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值之前,还包括:
计算词频TF值,即所述目标实体在所述评论文本中出现的频率,公式化如下:
Figure FDA0003673357960000022
其中,ni,j是所述目标实体在文件dj中出现的次数,∑knk,j为文件dj中所有词汇出现的次数总和;
计算逆文本频率IDF值,公式化如下:
Figure FDA0003673357960000023
其中,|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含所述目标实体ti的文件数目;
计算词频-逆文本频率指数值TF-IDF值,公式化如下:
TF-IDF=TF*IDF。
6.根据权利要求5所述的方法,其特征在于,所述确定实体热度值,包括:
获取所述目标实体点击量与用户评论量,并根据所述实体点击量与用户评论量获取目标实体本身热度值;
根据评论文本接口获得文本评论时间,根据所述文本评论时间获取更新时间;
根据所述TF-IDF值,目标实体本身热度值与更新时间,获取实体热度值,公式化如下:
Figure FDA0003673357960000031
其中,H为所述实体热度值,W为所述目标实体本身热度值,T为所述更新时间,G为重力权重指数。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新,还包括:
将所述实体热度值更新至所述图数据库,获取节点的热度值属性,以更新所述评论文本数据和所述实体热度值。
8.一种联合知识图谱的热度排序装置,其特征在于,包括:
实体抽取模块,用于获取预设数量的论文文献,对所述论文文献进行实体识别,从所述论文文献中抽取出目标实体;
知识图谱构建模块,用于从所述目标实体中抽取出关系属性和实体属性,并根据所述目标实体的关系属性和实体属性,构建知识图谱;
链接构建模块,用于获取包含所述目标实体的评论文本,根据所述评论文本中包含的实体关系,与所述知识图谱构建实体链接;
热度值确定模块,用于根据链接到的所述目标实体与所述评论文本的词频-逆文本频率指数值确定实体热度值,根据所述实体热度值对所述知识图谱中目标实体的热度属性进行更新。
9.一种数据处理电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,当所述存储介质中的指令由数据处理电子设备的处理器执行时,使得数据处理电子设备能够执行如权利要求1至7中任一项所述的方法。
CN202210612426.7A 2022-05-31 2022-05-31 一种联合知识图谱的热度排序方法及装置 Pending CN114969371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612426.7A CN114969371A (zh) 2022-05-31 2022-05-31 一种联合知识图谱的热度排序方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612426.7A CN114969371A (zh) 2022-05-31 2022-05-31 一种联合知识图谱的热度排序方法及装置

Publications (1)

Publication Number Publication Date
CN114969371A true CN114969371A (zh) 2022-08-30

Family

ID=82957284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612426.7A Pending CN114969371A (zh) 2022-05-31 2022-05-31 一种联合知识图谱的热度排序方法及装置

Country Status (1)

Country Link
CN (1) CN114969371A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN115688920B (zh) * 2022-11-22 2023-08-25 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
EP3958145A1 (en) Method and apparatus for semantic retrieval, device and storage medium
CN112560479A (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN113268560A (zh) 用于文本匹配的方法和装置
JP2018010514A (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
CN112632227B (zh) 简历匹配方法、装置、电子设备、存储介质和程序产品
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN115470313A (zh) 信息检索及模型训练方法、装置、设备和存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
CN110807097A (zh) 分析数据的方法和装置
CN114036921A (zh) 一种政策信息匹配方法和装置
CN116383382A (zh) 敏感信息的识别方法、装置、电子设备及存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114118049A (zh) 信息获取方法、装置、电子设备及存储介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN113326438A (zh) 信息查询方法、装置、电子设备以及存储介质
CN112328653A (zh) 数据识别方法、装置、电子设备及存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination