CN117131208A - 产业科技文本数据推送方法、装置、设备和介质 - Google Patents

产业科技文本数据推送方法、装置、设备和介质 Download PDF

Info

Publication number
CN117131208A
CN117131208A CN202311379038.XA CN202311379038A CN117131208A CN 117131208 A CN117131208 A CN 117131208A CN 202311379038 A CN202311379038 A CN 202311379038A CN 117131208 A CN117131208 A CN 117131208A
Authority
CN
China
Prior art keywords
information
knowledge
entity
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311379038.XA
Other languages
English (en)
Other versions
CN117131208B (zh
Inventor
黄震
杨秀丽
朱玉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongqi Huiyun Technology Co ltd
Original Assignee
Beijing Zhongqi Huiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongqi Huiyun Technology Co ltd filed Critical Beijing Zhongqi Huiyun Technology Co ltd
Priority to CN202311379038.XA priority Critical patent/CN117131208B/zh
Publication of CN117131208A publication Critical patent/CN117131208A/zh
Application granted granted Critical
Publication of CN117131208B publication Critical patent/CN117131208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例公开了产业科技文本数据推送方法、装置、设备和介质。该方法的一具体实施方式包括:获取产业科技文本知识数据集;确定每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;对目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;基于融合知识信息集,生成知识图谱信息;对知识图谱信息进行图谱补全处理,得到目标知识图谱信息;响应于接收到数据查询请求,对目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;对科技数据查询结果进行预处理,得到待显示科技数据结果;将待显示科技数据结果推送至目标终端。该实施方式可以缩短数据查询耗时,及时推送科技数据。

Description

产业科技文本数据推送方法、装置、设备和介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及产业科技文本数据推送方法、装置、设备和介质。
背景技术
产业科技文本数据推送方法,是用于根据用户的需求,推送技术信息以供用户快速了解相关产业领域技术发展的一项技术。目前,在推送产业科技文本数据时,通常采用的方式为:首先,对产业领域内的相关科技文本资料进行抽取得到科技知识集。然后,将抽取到的科技知识集存储至关系数据库。最后,可以对关系数据库中的科技知识进行查询,并将查询到的科技数据直接推送至用户终端进行显示,以供用户查看并了解对应产业领域的科技发展情况。
然而,发明人发现,当采用上述方式推送产业科技文本数据时,经常会存在如下技术问题:
第一,由于同一产业领域内的科技知识间通常存在着大量多对多的关联关系,若采用关系数据库对科技知识进行存储,则需要通过多次查询或连接查询的方式获取科技数据,从而,导致数据查询耗时较长,难以及时推送科技数据;
第二,由于在科技知识抽取过程中,通常采用关键字或模版的方式抽取实体间关系,从而,容易导致抽取结果数据缺失;
第三,当查询到的产业科技数据的数据量较大时,若直接推送至用户终端,则会导致占用通信资源较多。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了产业科技文本数据推送方法、装置、设备和介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种产业科技文本数据推送方法,该方法包括:获取产业科技文本知识数据集;确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;基于上述融合知识信息集,生成知识图谱信息;对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息;响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;对上述科技数据查询结果进行预处理,得到待显示科技数据结果;将上述待显示科技数据结果推送至目标终端,以供显示。
第二方面,本公开的一些实施例提供了一种产业科技文本数据推送装置,装置包括:获取单元,被配置成获取产业科技文本知识数据集;确定单元,被配置成确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;融合处理单元,被配置成对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;生成单元,被配置成基于上述融合知识信息集,生成知识图谱信息;图谱补全处理单元,被配置成对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息;执行单元,被配置成响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;预处理单元,被配置成对上述科技数据查询结果进行预处理,得到待显示科技数据结果;推送单元,被配置成将上述待显示科技数据结果推送至目标终端,以供显示。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的产业科技文本数据推送方法,可以缩短数据查询耗时,及时推送科技数据。具体来说,造成数据查询耗时较长,难以及时推送科技数据的原因在于:由于同一产业领域内的科技知识间通常存在着大量多对多的关联关系,若采用关系数据库对科技知识进行存储,则需要通过多次查询或连接查询的方式获取科技数据,从而,导致数据查询耗时较长,难以及时推送科技数据。基于此,本公开的一些实施例的产业科技文本数据推送方法,首先,获取产业科技文本知识数据集。由此,可以得到用于后续抽取科技知识的各个源数据。其次,确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集。由此,可以得到每个源数据抽取到的科技知识。然后,对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集。由此,可以得到对应各个源数据的实体对齐且去除冗余数据后的科技数据,便于后续进行查询以供显示给用户进行查看科技数据。接着,基于上述融合知识信息集,生成知识图谱信息。由此,可以得到构建知识图谱的基础数据。再接着,对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息。由此,可以得到更为全面的知识图谱,以便后续显示给用户。之后,响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果。由此,便于后续对与查询需求对应的科技知识进行显示。接着,对上述科技数据查询结果进行预处理,得到待显示科技数据结果。由此,便于后续直观显示科技数据。最后,将上述待显示科技数据结果推送至目标终端,以供显示。因此,本公开的一些实施例的产业科技文本数据推送方法,可以通过构建知识图谱的方式,更好的展示产业科技知识网络,且通过图搜索可以快速在知识图谱中查询到所需的科技知识,而无需针对一个查询需求进行多次查询或连接查询。从而,可以缩短数据查询耗时。进而,可以及时向用户推送科技数据,以供显示给用户了解对应产业领域的科技发展现状。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的产业科技文本数据推送方法的一些实施例的流程图;
图2是根据本公开的产业科技文本数据推送装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的产业科技文本数据推送方法的一些实施例的流程100。该产业科技文本数据推送方法,包括以下步骤:
步骤101,获取产业科技文本知识数据集。
在一些实施例中,产业科技文本数据推送方法的执行主体(例如计算设备)可以通过有线连接方式或者无线连接方式,从数据库中获取产业科技文本知识数据集。其中,上述产业科技文本知识数据集中的产业科技文本知识数据可以是以句子为单位,对目标产业相关的科技文本资料进行划分得到的科技数据。上述目标产业可以是待进行科技文本数据推送的产业。上述产业科技文本知识数据集中的产业科技文本知识数据与文本标识对应。上述文本标识可以是产业科技文本知识数据的唯一标识。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。
作为示例,上述目标产业可以是但不限于以下中的一项:信息技术产业、新材料产业、新能源汽车产业。上述科技数据可以包括“电池包用于组成新能源电池系统”。
步骤102,确定产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集。
在一些实施例中,上述执行主体可以通过各种方式,确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集。其中,上述目标知识信息集中的目标知识信息可以包括知识实体信息组和实体间关系信息组。上述知识实体信息组中的知识实体信息可以是出现在同一产业科技文本知识数据中的、对应的实体类型标识存在于预设实体类型标识组中的实体的信息。上述预设实体类型标识组中的预设实体类型标识可以是预先设置的实体类型标识。上述实体类型标识可以是实体类型的唯一标识。上述实体类型可以是实体所属的类型。上述实体可以是对应实体类型的一个具体的实例。上述实体间关系信息组中的实体间关系信息可以是出现在同一产业科技文本知识数据中的、满足预设关系条件的任意两个实体之间的关系的信息。上述预设关系条件可以是实体之间关系对应的关系类型标识与预设关系类型标识组中的任意预设关系类型标识相同。上述预设关系类型标识组中的预设关系类型标识可以是预先设置的关系类型标识。上述关系类型标识可以是实体间关系对应的关系类型的唯一标识。上述关系类型可以是实体间关系所属的类型。
作为示例,上述实体类型可以是但不限于以下中的一项:人员类型、机构类型、产品类型、技术类型、奖励类型、行业类型。上述人员类型可以表征对应实体为具体的个人。上述机构类型可以表征对应实体为具体的机构。上述产品类型可以表征对应实体为具体的产品。上述关系类型可以是但不限于以下中的一项:使用类型、任职类型、关联类型、参与类型、关注类型。上述使用类型可以表征实体间的使用与被使用的关系。上述任职类型可以表征实体间的任职关系。上述关联类型可以表征实体间的关联的关系。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤,确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息:
第一步,将上述产业科技文本知识数据输入至预先训练完成的文本实体关系信息生成模型,以生成文本实体关系信息。其中,上述文本实体关系信息包括文本实体信息组和文本关系信息组。上述文本实体信息组中的文本实体信息可以包括实体起始边界下标、实体结束边界下标和实体类型标识。上述实体起始边界下标可以是在对应语句中,实体起始位置对应的下标。上述实体结束边界下标可以是在对应语句中,实体结束位置对应的下标。上述文本关系信息组中的文本关系信息可以包括头实体下标、尾实体下标和关系类型标识。上述头实体下标可以是头实体对应的文本实体信息、在文本实体信息组中的位置对应的下标。上述尾实体下标可以是尾实体对应的文本实体信息、在文本实体信息组中的位置对应的下标。上述关系类型标识可以是关系类型的唯一标识。
第二步,基于上述产业科技文本知识数据和上述文本实体信息组,生成知识实体信息组。对于上述文本实体信息组中的每个文本实体信息,执行以下步骤:
第一子步骤,根据文本实体信息,对上述产业科技文本知识数据对应的句子进行字符截取,以及将所截取到的字符串确定为实体名称。其中,针对产业科技文本知识数据对应的句子,可以从文本实体信息包括的实体起始边界下标对应的字符开始,截取至实体结束边界下标对应的字符。
第二子步骤,将实体名称和上述文本实体信息包括的实体起始边界下标、实体结束边界下标和实体类型标识确定为知识实体信息。
第三步,基于上述知识实体信息组和上述文本关系信息组,生成实体间关系信息组。对于上述文本关系信息组中的每个文本关系信息,可以执行以下步骤:
第一子步骤,将上述知识实体信息组中下标与上述头实体下标相同的、知识实体信息对应的实体名称确定为头实体名称。
第二子步骤,将上述知识实体信息组中下标与上述尾实体下标相同的、知识实体信息对应的实体名称确定为尾实体名称。
第三子步骤,将上述头实体名称、上述尾实体名称、上述文本关系信息包括的头实体下标、尾实体下标和关系类型标识确定为实体间关系信息。
第四步,将上述知识实体信息组和上述实体间关系信息组确定为目标知识信息。
可选的,上述文本实体关系信息生成模型是通过以下训练步骤得到的:
第一步,获取训练样本集。其中,上述训练样本集中的每个训练样本可以包括样本产业科技文本知识数据和样本文本实体关系信息。上述样本文本实体关系信息可以包括样本文本实体信息组和样本文本关系信息组。
第二步,从上述训练样本集中选取训练样本,执行以下训练步骤:
第一子步骤,将上述训练样本包括的、样本产业科技文本知识数据输入初始文本实体关系信息生成模型包括的第一自处理模型,得到文本表征向量信息。其中,初始文本实体关系信息生成模型还可以包括第二实体分类处理模型、第三文法提取模型和第四关系分类处理模型。初始文本实体关系信息生成模型可以是用于对文本知识数据进行实体和实体间关系提取的模型。上述第一自处理模型可以是用于对文本知识数据进行词嵌入的模型。上述第二实体分类处理模型可以是用于对文本知识数据中的实体进行分类提取的模型。上述第三文法提取模型可以是用于对文本知识数据中的文法信息进行提取的模型。上述第四关系分类处理模型可以是用于对文本知识数据中的实体关系进行分类提取的模型。上述文本表征向量信息可以包括字向量序列和句向量。上述字向量序列中的字向量可以表征对应的字符。上述句向量可以表征对应的句子。
第二子步骤,对上述文本表征向量信息进行宽度嵌入处理,得到跨度信息序列。其中,上述跨度信息序列中的跨度信息可以是表征上述文本表征向量信息包括的字向量序列对应的、一个子序列的向量。可以通过以下步骤,对上述文本表征向量信息进行宽度嵌入处理,得到跨度信息序列:
子步骤一,将上述文本表征向量信息中的字向量序列对应的各个子序列确定为字向量子序列集。
子步骤二,从上述字向量子序列集中选出满足预设子序列条件的字向量子序列作为目标字向量子序列,得到目标字向量子序列组。其中,上述预设子序列条件可以是:字向量子序列的长度为预设的跨度宽度值,且字向量子序列是由字向量序列中连续字向量组成的子序列。上述跨度宽度值可以是预先设置的、序列对应的跨度的宽度值。上述跨度宽度值存在对应的嵌入向量。
子步骤三,对于上述目标字向量子序列组中的每个目标字向量子序列,执行以下步骤:
步骤一,对上述目标字向量子序列中的各个目标字向量进行最大池化处理,得到池化后子序列向量。
步骤二,对上述池化后子序列向量、上述文本表征向量信息包括的句向量和上述嵌入向量进行拼接处理,得到跨度信息。
第三子步骤,将上述跨度信息序列输入上述第二实体分类处理模型,得到目标跨度信息序列。其中,上述第二实体分类处理模型可以包括全连接处理和SoftMax(归一化指数函数)分类器。上述目标跨度信息序列中的目标跨度信息可以是对应的子序列表征实体的跨度信息。对于上述跨度信息序列中的每个跨度信息,执行以下步骤:
子步骤一,对上述跨度信息依次执行全连接处理、SoftMax分类处理,得到类别标识。其中,上述类别标识可以表征实体的实体类型。
子步骤二,响应于确定上述类别标识表征实体的实体类型为预设实体类型,将上述跨度信息确定为目标跨度信息。
第四子步骤,将上述训练样本包括的、样本产业科技文本知识数据和上述文本表征向量信息输入上述第三文法提取模型,得到文本文法信息。其中,上述文本文法信息可以是文本知识数据的文法结构信息。
第五子步骤,将上述文本表征向量信息、上述目标跨度信息序列、上述跨度信息序列和上述文本文法信息输入上述第四关系分类处理模型,得到文本关系信息组。
第六子步骤,确定上述目标跨度信息序列中的每个目标跨度信息对应的文本实体信息,得到文本实体信息组。其中,对于目标跨度信息序列中的每个目标跨度信息,执行以下步骤:
子步骤一,将目标跨度信息对应的字向量序列的子序列确定为目标文本子序列。
子步骤二,将上述目标文本子序列在上述字向量序列中的下标组成的序列确定目标下标序列。
子步骤三,将目标下标序列中位于第一位次的目标下标作为实体起始边界下标,将目标下标序列中位于最后一个位次的目标下标作为实体结束边界下标,将目标跨度信息对应的类型标识作为实体类型标识,以及将上述实体起始边界下标、上述实体结束边界下标和上述实体类型标识确定为文本实体信息。
第七子步骤,基于上述文本实体信息组和上述样本文本实体信息组,确定第一损失值。其中,上述第一损失值可以是实体识别的损失值。可以通过预设的第一损失函数,基于上述文本实体信息组和上述样本文本实体信息组,确定第一损失值。例如,上述第一损失函数可以是交叉熵损失函数。
第八子步骤,基于上述文本关系信息组和上述样本文本关系信息组,确定第二损失值。其中,上述第二损失值可以是关系识别的损失值。可以通过预设的第二损失函数,基于上述文本实体信息组和上述样本文本实体信息组,确定第二损失值。例如,上述第二损失函数可以是二进制交叉熵损失函数。
第九子步骤,将上述第一损失值和上述第二损失值的和确定为目标损失值。
第十子步骤,响应于确定上述目标损失值满足预设损失值条件,将训练完成的初始文本实体关系信息生成模型确定为文本实体关系信息生成模型。其中,上述预设损失值条件可以是目标损失值小于预先设置的阈值。
可选的,上述执行主体还可以响应于确定上述目标损失值不满足上述预设损失值条件,调整初始文本实体关系信息生成模型中的参数,以及从上述训练样本集中重新选取训练样本,将调整后的初始文本实体关系信息生成模型作为初始文本实体关系信息生成模型,再次执行上述训练步骤。
上述文本实体关系信息生成步骤及其相关内容,作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题三“抽取结果数据缺失”。导致抽取结果数据缺失的原因往往如下:由于在科技知识抽取过程中,通常采用关键字或模版的方式抽取实体间关系。如果解决了上述问题,就能达到缩短图像拼接耗时较长以及准确度不足的效果。为了达到这一效果,可以通过文本实体关系信息生成模型进行实体和实体间关系的抽取。其中,首先,可以通过上述文本实体关系信息生成模型包括的第一自处理模型生成产业科技文本知识数据的向量表征,便于后续进行实体识别、文法分析和关系提取。其次,可以通过上述文本实体关系信息生成模型包括的第二实体分类处理模型完成实体识别提取。然后,可以通过上述文本实体关系信息生成模型包括的第三文法提取模型对产业科技文本知识数据进行文法分析,以便于后续用于关系提取。最后,根据实体识别和文法分析相结合的方式,对实体关系进行提取。由此,可以抽取到较为全面的科技知识。从而,可以减少抽取结果的数据缺失。进而,可以向目标终端推送更为全面的产业科技数据。
步骤103,对目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集。
在一些实施例中,上述执行主体通过各种方式,对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集。其中,上述融合知识信息集中的融合知识信息可以是不重复的实体关系及对应实体的信息。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤,对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集:
第一步,确定上述目标知识信息集中的、每个知识实体信息组对应的更新知识实体信息组,得到更新知识实体信息组集。其中,上述更新知识实体信息组集中的更新知识实体信息组是实体对齐后的知识实体信息组。上述更新知识实体信息组集中的更新知识实体信息可以包括更新实体名称、实体类型标识和文本标识。上述更新实体名称可以是实体对齐后,对应同一实体的、预先设置的统一的实体名称。对于每个知识实体信息组中的知识实体信息,执行以下步骤:
第一子步骤,通过预设的实体对齐方法,对上述知识实体信息进行实体对齐处理,得到更新实体名称。例如,上述实体对齐方法可以包括但不限于以下至少一项:基于规则的实体对齐方法和基于表示学习的实体对齐方法。
第二子步骤,将上述更新实体名称、上述知识实体信息对应的实体类型标识和对应的文本标识确定为更新知识实体信息。
第二步,基于上述更新知识实体信息组集和上述目标知识信息集中的、各个实体间关系信息组,生成更新实体间关系信息组集。其中,上述更新实体间关系信息组集中的更新实体间关系信息组可以是实体对齐后的实体间关系信息组。上述更新实体间关系信息组集中的更新实体间关系信息可以包括更新头实体名称、更新尾实体名称、头实体下标、尾实体下标和关系类型标识。上述更新头实体名称可以是实体对齐后的头实体名称。更新尾实体名称可以是实体对齐后的尾实体名称。对于每个实体间关系信息组中的实体间关系信息,执行以下步骤:
第一子步骤,根据上述实体间关系信息对应的头实体下标,将上述实体间关系信息组对应的更新知识实体信息组中、下标与上述头实体下标相同的更新知识实体信息中的头实体名称确定为更新头实体名称。
第二子步骤,根据上述实体间关系信息对应的尾实体下标,将上述实体间关系信息组对应的更新知识实体信息组中、下标与上述尾实体下标相同的更新知识实体信息中的尾实体名称确定为更新尾实体名称。
第三子步骤,将上述更新头实体名称、上述更新尾实体名称、上述实体间关系信息对应的头实体下标、尾实体下标和关系类型标识确定为更新实体间关系信息。
第三步,对上述更新实体间关系信息组集中的各个更新实体间关系信息进行去冗处理,得到目标实体间关系信息集。其中,上述目标实体间关系信息集中的目标实体间关系信息可以是不重复的实体关系的集合。首先,对于上述更新实体间关系信息组集中的每个更新实体间关系信息,将上述更新实体间关系信息包括的更新头实体名称、更新尾实体名称和关系类型标识确定为目标更新实体间关系信息。然后,对所得到的各个目标更新实体间关系信息进行去重,得到去重后目标更新实体间关系信息集。其中,上述去重后目标更新实体间关系信息集中的去重后目标更新实体间关系信息可以是不重复的目标更新实体间关系信息。最后,将上述去重后目标更新实体间关系信息集中的每个去重后目标更新实体间关系信息确定为目标实体间关系信息,得到目标实体间关系信息集。
第四步,对于上述目标实体间关系信息集中的每个目标实体间关系信息,执行以下步骤:
第一子步骤,从上述更新知识实体信息组集对应的各个更新知识实体信息中、选出与上述目标实体间关系信息相匹配的更新知识实体信息,作为关联知识实体信息,得到关联知识实体信息组。其中,与上述目标实体间关系信息相匹配可以是:更新知识实体信息对应的目标更新实体间关系信息与上述目标实体间关系信息相同。
第二子步骤,基于上述关联知识实体信息组和上述目标实体间关系信息,生成融合知识信息。上述执行主体可以通过各种方式,生成融合知识信息。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤,基于上述关联知识实体信息组和上述目标实体间关系信息,生成融合知识信息:
步骤一,对上述关联知识实体信息组进行分类,得到第一关联知识实体信息组和第二关联知识实体信息组。其中,上述第一关联知识实体信息组中的第一关联知识实体信息可以是:对应的更新实体名称与上述目标实体间关系信息对应的更新头实体名称相同的关联知识实体信息。上述第二关联知识实体信息组中的第二关联知识实体信息可以是:对应的更新实体名称与上述目标实体间关系信息对应的更新尾实体名称相同的关联知识实体信息。对于上述关联知识实体信息组中的每个关联知识实体信息,执行以下步骤:
子步骤一,响应于确定上述关联知识实体信息对应的更新实体名称、与上述目标实体间关系信息对应的更新头实体名称相同,将上述关联知识实体信息确定为第一关联知识实体信息。
子步骤二,响应于确定上述关联知识实体信息对应的更新实体名称、与上述目标实体间关系信息对应的更新尾实体名称相同,将上述关联知识实体信息确定为第二关联知识实体信息。
步骤二,对上述第一关联知识实体信息组中的各个第一关联知识实体信息进行融合处理,得到第一实体信息。其中,上述第一实体信息可以包括第一实体名称、第一实体类型标识和实体来源信息。上述第一实体名称可以是上述第一关联知识实体信息组对应实体的更新实体名称。上述第一实体类型标识可以是上述第一关联知识实体信息组对应实体的实体类型标识。上述实体来源信息可以是提取第一关联知识实体信息组对应的实体时,实体所属的各个产业科技文本知识数据的信息。首先,将上述第一关联知识实体信息组对应的任意更新实体名称确定为第一实体名称。然后,将上述第一关联知识实体信息组对应的任意实体类型标识确定为第一实体类型标识。之后,将上述第一关联知识实体信息组对应的各个文本标识确定为实体来源信息。最后,将上述第一实体名称、上述第一实体类型标识和上述实体来源信息确定为第一实体信息。
步骤三,对上述第二关联知识实体信息组中的各个第二关联知识实体信息进行融合处理,得到第二实体信息。其中,上述第二实体信息可以包括第二实体名称、第二实体类型标识和第二实体来源信息。上述第二实体名称可以是上述第二关联知识实体信息组对应实体的更新实体名称。上述第二实体类型标识可以是上述第二关联知识实体信息组对应实体的实体类型标识。首先,将上述第二关联知识实体信息组对应的任意更新实体名称确定为第二实体名称。然后,将上述第二关联知识实体信息组对应的任意实体类型标识确定为第二实体类型标识。之后,最后,将上述第二实体名称、上述第二实体类型标识和上述实体来源信息确定为第二实体信息。
步骤四,将上述第一实体信息、上述第二实体信息和上述目标实体间关系信息确定为融合知识信息。
步骤104,基于融合知识信息集,生成知识图谱信息。
在一些实施例中,上述执行主体可以基于上述融合知识信息集,生成知识图谱信息。其中,上述知识图谱信息可以表征知识图谱。上述知识图谱信息可以包括知识图谱三元组集和实体来源信息集。上述知识图谱三元组集中的知识图谱三元组可以包括头实体标识、关系类型标识和尾实体标识。上述实体来源信息集中的实体来源信息与融合知识信息一一对应。可以执行以下步骤,基于上述融合知识信息集,生成知识图谱信息:
第一步,对于上述融合知识信息集中的融合知识信息,将上述融合知识信息对应的第一实体名称作为头实体标识,将上述融合知识信息对应的第一实体名称作为尾实体标识,以及将上述头实体标识、上述尾实体标识和上述目标实体间关系信息对应的关系类型标识确定为知识图谱三元组。
第二步,将上述融合知识信息集对应的各个实体来源信息确定为实体来源信息集。
第三步,将所得到的知识图谱三元组集和上述实体来源信息集确定为知识图谱信息。
步骤105,对知识图谱信息进行图谱补全处理,得到目标知识图谱信息。
在一些实施例中,上述执行主体可以通过各种方式,对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息。其中,上述目标知识图谱信息可以表征对知识图谱进行链接预测后,新增实体关系后的知识图谱。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤,对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息:
第一步,基于上述知识图谱信息,生成待确认实体关系信息集。其中,上述待确认实体关系信息集中的待确认实体关系信息可以是待图谱链接预测模型确认的、对应的实体对之间的关系是否成立的信息。可以执行以下步骤:
第一子步骤,将上述知识图谱信息对应的每个头实体标识、每个尾实体标识确定为候选实体标识,得到候选实体标识组。
第二子步骤,对于上述知识图谱信息包括的每个知识图谱三元组,执行以下步骤:
子步骤一,对于每个候选实体标识,将上述候选实体标识与上述知识图谱三元组对应的关系类型标识、尾实体标识确定为第一待确认三元组,得到第一待确认三元组集。
子步骤二,将每个候选实体标识与上述知识图谱三元组对应的关系类型标识、头实体标识确定为第二待确认三元组,得到第二待确认三元组集。
子步骤三,将每个预设关系类型标识与上述知识图谱三元组对应的头实体标识、尾实体标识确定为第三待确认三元组,得到第三待确认三元组集。
第三子步骤,将所得到的每个第一待确认三元组、每个第二待确认三元组、每个第三待确认三元组确定为待确认三元组,得到待确认三元组集。
第四子步骤,对上述待确认三元组集中的各个待确认三元组进行去重,得到去冗待确认三元组集。其中,上述去冗待确认三元组集中的去冗待确认三元组可以是不重复的待确认三元组。
第五子步骤,删除上述去冗待确认三元组集中与上述知识图谱信息包括的任意知识图谱三元组相同的去冗待确认三元组,得到删除后去冗待确认三元组集。
第六子步骤,将上述删除后去冗待确认三元组集的每个删除后去冗待确认三元组确定为待确认实体关系信息,得到待确认实体关系信息集。
第二步,对于上述待确认实体关系信息集中的每个待确认实体关系信息,执行以下步骤:
第一子步骤,将上述待确认实体关系信息输入至预先训练完成的图谱链接预测模型,得到关系预测分数。其中,上述图谱链接预测模型可以是用于对知识图谱进行链接预测的模型。例如,上述图谱链接预测模型可以是rotate(旋转)链接预测模型。上述关系预测分数可以表征对应的知识图谱三元组是否被预测存在。
第二子步骤,响应于确定上述关系预测分数大于预设分数阈值,基于上述待确认实体关系信息,生成已确认实体关系信息。其中,上述预设分数阈值可以是预先设置的关系预测分数的下限值。响应于确定上述关系预测分数大于预设分数阈值,将上述待确认实体关系信息确定为已确认实体关系信息。
第三步,对所得到的各个已确认实体关系信息进行校验处理,得到目标已确认实体关系信息集。其中,上述目标已确认实体关系信息集中的目标已确认实体关系信息可以是经二次确认的已确认实体关系信息。首先,将各个已确认实体关系信息发送至图谱维护终端以供维护人员进行确认。其中,上述图谱维护终端可以是用于对知识图谱进行后台确认的终端。上述维护人员可以是对知识图谱进行后台确认的人员。然后,响应于接收到图谱维护终端发送的、维护确认信息,将维护确认信息包括的、各个已确认实体关系信息中的每个已确认实体关系信息确定为目标已确认实体关系信息,得到目标已确认实体关系信息集。
第四步,基于上述目标已确认实体关系信息集和上述知识图谱信息,生成目标知识图谱信息。具体可以执行以下步骤:
第一子步骤,将上述目标已确认实体关系信息集和上述知识图谱信息对应的知识图谱三元组集的并集确定为更新知识图谱三元组集。
第二子步骤,将上述更新知识图谱三元组集和上述知识图谱信息对应的实体来源信息集确定为目标知识图谱信息。
可选的,上述图谱链接预测模型可以是通过以下训练步骤得到的:
第一步,基于上述知识图谱信息,生成第一训练样本信息集。其中,上述第一训练样本信息集中的每个第一训练样本信息可以包括样本头实体标识、样本关系标识和样本尾实体标识。首先,从上述知识图谱信息对应的知识图谱三元组集中、随机选出预设数目的知识图谱三元组。其中,上述预设数目可以是预先设置的数目。然后,对于所选出的每个知识图谱三元组,将上述知识图谱三元组对应的头实体标识、关系类型标识和尾实体标识依次分别作为样本头实体标识、样本关系标识和样本尾实体标识,以及将上述样本头实体标识、上述样本关系标识和上述样本尾实体标识确定为第一训练样本信息。
第二步,对于上述第一训练样本信息集中的每个第一训练样本信息,执行以下步骤:
第一子步骤,对上述第一训练样本信息包括的样本头实体标识进行替换处理,得到第一替换后训练样本信息。其中,上述第一替换后训练样本信息可以是对第一训练样本信息更换头实体标识后得到的负样本的信息。首先,通过预设的负采样方法,根据上述样本头实体标识,对上述候选实体标识组进行负采样处理,得到负采样头实体标识。上述负采样头实体标识可以是负采样得到的头实体标识。例如,上述负采样方法可以包括但不限于以下至少一项:随机负采样方法、基于流行度的负采样方法等。然后,将上述负采样头实体标识、上述第一训练样本信息包括的样本关系标识和样本尾实体标识确定为第一替换后训练样本信息。
第二子步骤,对上述第一训练样本信息包括的样本关系标识进行替换处理,得到第二替换后训练样本信息。其中,上述第二替换后训练样本信息可以是对第一训练样本信息更换样本关系标识后得到的负样本的信息。首先,通过上述负采样方法,根据上述样本关系标识,对上述预设关系类型标识组进行负采样处理,得到负采样关系标识。上述负采样关系标识可以是负采样得到的关系类型标识。然后,将上述第一训练样本信息包括的样本头实体标识、样本尾实体标识和上述负采样关系标识确定为第二替换后训练样本信息。
第三子步骤,对上述第一训练样本信息包括的样本尾实体标识进行替换处理,得到第三替换后训练样本信息。其中,上述第三替换后训练样本信息可以是对第一训练样本信息更换尾实体标识后得到的负样本的信息。首先,通过上述负采样方法,根据上述样本尾实体标识,对上述候选实体标识组进行负采样处理,得到负采样尾实体标识。上述负采样尾实体标识可以是负采样得到的尾实体标识。然后,将上述第一训练样本信息包括的样本头实体标识、样本关系标识和上述负采样尾实体标识确定为第二替换后训练样本信息。
第三步,将所得到的每个第一替换后训练样本信息、每个第二替换后训练样本信息、每个第三替换后训练样本信息确定为第二训练样本信息,得到第二训练样本信息集。
第四步,根据上述第一训练样本信息集和上述第二训练样本信息集,对初始图谱链接预测模型进行训练以得到图谱链接预测模型。其中,上述初始图谱链接预测模型可以是未训练过的rotate链接预测模型。可以通过自我对抗负采样技术,根据上述第一训练样本信息集和上述第二训练样本信息集,对初始图谱链接预测模型进行训练,以及响应于确定初始图谱链接预测模型收敛,将训练完成的初始图谱链接预测模型确定为图谱链接预测模型。
步骤106,响应于接收到数据查询请求,对目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果。
在一些实施例中,上述执行主体可以响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果。其中,上述数据查询请求可以包括查询关键词。上述查询关键词可以是用于查询的关键词。上述科技数据查询结果可以是根据查询关键词查询到的实体以及实体周围预设跳数内的邻居实体、对应的各个关系链接的信息。上述预设跳数可以是预先设置的、从起始实体到达结束实体需要经过的边数的上限值。上述科技数据查询结果可以包括查询实体关系三元组集和查询实体属性信息集。上述查询实体关系三元组集中的查询实体关系三元组可以表征查询到的实体及实体间的关系。上述查询实体属性信息集中的查询实体属性信息可以是查询到的实体来源的信息。可以通过预设的查询方法,对上述目标知识图谱信息对应的知识图谱执行查询操作,得到科技数据查询结果。
作为示例,上述查询方法可以是多跳过滤查询方法。
可选的,在上述响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果之前,上述执行主体还可以将上述目标知识图谱信息存储至图数据库。其中,上述图数据库可以是HugeGraph图数据库。上述目标知识图谱信息对应的知识图谱三元组集可以在HugeGraph图数据库中用CSV(Comma-Separated Values,逗号分隔值)表格进行存储。
步骤107,对科技数据查询结果进行预处理,得到待显示科技数据结果。
在一些实施例中,上述执行主体可以通过各种方式,对上述科技数据查询结果进行预处理,得到待显示科技数据结果。其中,上述待显示科技数据结果可以是用于后续显示的、压缩后的科技数据查询结果。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤,对上述科技数据查询结果进行预处理,得到待显示科技数据结果:
第一步,基于上述科技数据查询结果,生成绘图元素信息集和实体类绘图元素描述信息集。其中,上述绘图元素信息集中的绘图元素信息可以包括元素标识、元素类型标识和元素数据信息。上述元素标识可以是绘图元素的唯一标识。绘图元素可以是用于绘图的图形。例如,上述绘图元素可以是点或线。上述元素类型标识可以是绘图元素的类型的唯一标识。绘图元素的类型可以是但不限于以下中的一项:点类型、线类型、矩形类型。上述元素数据信息可以包括第一端点标识和第二端点标识。上述第一端点标识、第二端点标识可以是线类型绘图元素的两个端点对应的元素标识。若上述元素类型标识表征对应的绘图元素为点,则元素数据信息可以为空。上述实体类绘图元素描述信息集中的实体类绘图元素描述信息可以是对应实体的查询实体属性信息。可以执行以下步骤:
第一子步骤,将上述科技数据查询结果包括的查询实体关系三元组集中的各个实体标识确定为元素标识集。
第二子步骤,对于上述元素标识集中的每个元素标识,将上述元素标识和第一预设元素类型标识确定为绘图元素信息。其中,上述第一预设元素类型标识可以是预先设置的、点类型绘图元素的元素类型标识。
第三子步骤,对于上述查询实体关系三元组集中的每个查询实体关系三元组,执行以下步骤:
子步骤一,通过预设的标识生成算法,生成与上述查询实体关系三元组对应的元素标识。其中,上述标识生成算法可以包括但不限于以下至少一项:雪花生成算法、UUID(Unique Identifier,唯一标识符)算法。
子步骤二,从上述元素标识集中选出与上述查询实体关系三元组中头实体标识相同的元素标识确定为第一端点标识。
子步骤三,从上述元素标识集中选出与上述查询实体关系三元组中尾实体标识相同的元素标识确定为第二端点标识。
子步骤四,将上述第一端点标识和上述第二端点标识确定为元素数据信息。
子步骤五,将与上述查询实体关系三元组对应的元素标识、上述元素数据信息和第二预设元素类型标识确定为绘图元素信息。其中,上述第二预设元素类型标识可以是预先设置的、线类型绘图元素的元素类型标识。
第四子步骤,将所得到的各个绘图元素信息确定为绘图元素信息集。
第五子步骤,对于上述科技数据查询结果包括的查询实体属性信息集中的每个查询实体属性信息,将上述查询实体属性信息和对应的元素标识确定为实体类绘图元素描述信息。
第二步,从上述绘图元素信息集中选出与上述查询关键词相匹配的绘图元素信息,作为中心绘图元素信息。其中,与上述查询关键词相匹配可以是绘图元素信息对应的元素标识与上述查询关键词之间的相似度为各个目标相似度中的最大值。各个目标相似度中的目标相似度可以是查询关键词与元素标识集中的元素标识的相似度。
第三步,从上述绘图元素信息集中选出满足预设实体条件的绘图元素信息作为非中心实体绘图元素信息,得到非中心实体绘图元素信息集。其中,上述预设实体条件可以是:绘图元素信息对应的元素标识与上述中心绘图元素信息对应的元素标识不同、且绘图元素信息对应的元素类型标识为第一预设元素类型标识。
第四步,从上述绘图元素信息集中选出满足预设实体关系条件的绘图元素信息作为关系绘图元素信息,得到关系绘图元素信息集。其中,上述预设实体关系条件可以是绘图元素信息对应的元素类型标识为第二预设元素类型标识。
第五步,基于第一预设绘图样式信息,将上述中心绘图元素信息绘制至预设知识图像的预设中心位置,得到第一知识图像。其中,上述预设知识图像可以是预先设置的、预设图像格式的空白图像。上述预设图像格式可以是预先设置的图像格式。例如,上述预设图像格式可以是PNG(Portable Network Graphics,便携式网络图形)格式。上述第一预设绘图样式信息可以包括但不限于以下至少一项:中心位置坐标、第一预设元素标识字体像素值。上述中心位置坐标可以是图像坐标系下图像的中心位置的坐标。上述第一预设元素标识像素值可以表征上述中心绘图元素信息对应的元素标识的尺寸。例如,上述第一预设元素标识像素值可以是25像素。上述预设中心位置可以与上述中心位置坐标一一对应。可以通过预设的无界面浏览器插件和图表组件库,将上述中心绘图元素信息绘制至预设知识图像的预设中心位置,得到第一知识图像。
作为示例,上述无界面浏览器插件可以是PhantomJS无界面浏览器插件。上述图表组件库可以是Echarts(Enterprise Charts,商业级数据图表)组件库。
第六步,基于第二预设绘图样式信息,将上述非中心实体绘图元素信息集中的每个非中心实体绘图元素信息绘制在上述第一知识图像上,得到第二知识图像。其中,上述第二预设绘图样式信息可以是预先设置的、非中心实体绘图元素信息对应的点的样式信息。可以通过上述无界面浏览器插件和上述图表组件库,将上述非中心实体绘图元素信息集中的每个非中心实体绘图元素信息绘制在上述第一知识图像上,得到第二知识图像。
第七步,基于第三预设绘图样式信息,将上述关系绘图元素信息集中的每个关系绘图元素信息绘制在上述第二知识图像上,得到目标绘图图像。其中,上述第三预设绘图样式信息可以是预先设置的、关系绘图元素信息对应的线的样式信息。可以通过上述无界面浏览器插件和上述图表组件库,将上述关系绘图元素信息集中的每个关系绘图元素信息绘制在上述第二知识图像上,得到目标绘图图像。
第八步,响应于确定每个关系绘图元素信息已绘制完成,对上述目标绘图图像进行压缩处理,得到待显示图像。其中,上述待显示图像可以是预设压缩格式的图像。上述预设压缩格式可以是jpeg(Joint Photographic Experts Group,联合图像专家组)格式。可以通过jpeg压缩算法,对上述目标绘图图像进行压缩处理,得到待显示图像。
第九步,对上述实体类绘图元素描述信息集中的各个实体类绘图元素描述信息进行序列化处理,得到待显示序列化数据。其中,上述待显示序列化数据可以是用于后续供终端显示的、二进制数据。可以通过预设的二进制序列化方法,对上述实体类绘图元素描述信息集中的各个实体类绘图元素描述信息进行序列化处理,得到待显示序列化数据。
作为示例,上述二进制序列化方法可以是基于MsgPack(MessagePack,对象序列化类库)的二进制序列化方法。
第十步,将上述待显示图像和上述待显示序列化数据确定为待显示科技数据结果。
上述待显示科技数据结果生成步骤及其相关内容,作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题三“占用通信资源较多”。导致占用通信资源较多的问题往往如下:当查询到的产业科技数据的数据量较大时,若直接推送至用户终端,则会导致占用通信资源较多。如果解决了上述问题,就能达到减少通信资源占用的效果。为了达到这一效果,首先,可以将科技数据查询结果中的实体和关系转换为绘图元素,以及将实体的来源属性绑定至绘图元素。然后,将表征实体和关系的绘图元素绘制在图像媒介上。之后,通过对图像媒介进行压缩,可以减少后续通信传输的数据量。接着,对绑定到绘图元素上的信息进行压缩,同样可以减少后续通信传输的数据量。最后,可以将压缩后的图像和序列化数据作为待显示科技数据推送给目标终端。因此,当查询到的产业科技数据的数据量较大时,通过对科技数据查询结果进行分类压缩后再传输,可以减少通信资源的占用。
步骤108,将待显示科技数据结果推送至目标终端,以供显示。
在一些实施例中,上述执行主体可以将上述待显示科技数据结果推送至目标终端,以供显示。其中,上述目标终端可以是发起上述数据查询请求的终端。上述目标终端接收到上述待显示科技数据结果后,通过与上述二进制序列化方法对应的反序列化方法,对上述待显示科技数据结果进行解析,以及对解析得到的科技数据结果进行显示。
可选的,发起数据查询请求的研发人员通过上述目标终端可以查看所查询的科技数据。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的产业科技文本数据推送方法,可以缩短数据查询耗时,及时推送科技数据。具体来说,造成数据查询耗时较长,难以及时推送科技数据的原因在于:由于同一产业领域内的科技知识间通常存在着大量多对多的关联关系,若采用关系数据库对科技知识进行存储,则需要通过多次查询或连接查询的方式获取科技数据,从而,导致数据查询耗时较长,难以及时推送科技数据。基于此,本公开的一些实施例的产业科技文本数据推送方法,首先,获取产业科技文本知识数据集。由此,可以得到用于后续抽取科技知识的各个源数据。其次,确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集。由此,可以得到每个源数据抽取到的科技知识。然后,对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集。由此,可以得到对应各个源数据的实体对齐且去除冗余数据后的科技数据,便于后续进行查询以供显示给用户进行查看科技数据。接着,基于上述融合知识信息集,生成知识图谱信息。由此,可以得到构建知识图谱的基础数据。再接着,对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息。由此,可以得到更为全面的知识图谱,以便后续显示给用户。之后,响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果。由此,便于后续对与查询需求对应的科技知识进行显示。接着,对上述科技数据查询结果进行预处理,得到待显示科技数据结果。由此,便于后续直观显示科技数据。最后,将上述待显示科技数据结果推送至目标终端,以供显示。因此,本公开的一些实施例的产业科技文本数据推送方法,可以通过构建知识图谱的方式,更好的展示产业科技知识网络,且通过图搜索可以快速在知识图谱中查询到所需的科技知识,而无需针对一个查询需求进行多次查询或连接查询。从而,可以缩短数据查询耗时。进而,可以及时向用户推送科技数据,以供显示给用户了解对应产业领域的科技发展现状。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种产业科技文本数据推送装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该产业科技文本数据推送装置200具体可以应用于各种电子设备中。
如图2所示,一些实施例的产业科技文本数据推送装置200包括:获取单元201、确定单元202、融合处理单元203、生成单元204、图谱补全处理单元205、执行单元206、预处理单元207和推送单元208。其中,获取单元201,被配置成获取产业科技文本知识数据集;确定单元202,被配置成确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;融合处理单元203,被配置成对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;生成单元204,被配置成基于上述融合知识信息集,生成知识图谱信息;图谱补全处理单元205,被配置成对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息;执行单元206,被配置成响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;预处理单元207,被配置成对上述科技数据查询结果进行预处理,得到待显示科技数据结果;推送单元208,被配置成将上述待显示科技数据结果推送至目标终端,以供显示。
可以理解的是,该产业科技文本数据推送装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于产业科技文本数据推送装置200及其中包含的单元,在此不再赘述。
进一步参考图3,其示出了适于用来实现本公开的一些实施例的电子设备300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取产业科技文本知识数据集;确定上述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;对上述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;基于上述融合知识信息集,生成知识图谱信息;对上述知识图谱信息进行图谱补全处理,得到目标知识图谱信息;响应于接收到数据查询请求,对上述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;对上述科技数据查询结果进行预处理,得到待显示科技数据结果;将上述待显示科技数据结果推送至目标终端,以供显示。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、确定单元、融合处理单元、生成单元、图谱补全处理单元、执行单元、预处理单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取产业科技文本知识数据集的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种产业科技文本数据推送方法,包括:
获取产业科技文本知识数据集;
确定所述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;
对所述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;
基于所述融合知识信息集,生成知识图谱信息;
对所述知识图谱信息进行图谱补全处理,得到目标知识图谱信息;
响应于接收到数据查询请求,对所述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;
对所述科技数据查询结果进行预处理,得到待显示科技数据结果;
将所述待显示科技数据结果推送至目标终端,以供显示。
2.根据权利要求1所述的方法,其中,所述确定所述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,包括:
将所述产业科技文本知识数据输入至预先训练完成的文本实体关系信息生成模型,以生成文本实体关系信息,其中,所述文本实体关系信息包括文本实体信息组和文本关系信息组;
基于所述产业科技文本知识数据和所述文本实体信息组,生成知识实体信息组;
基于所述知识实体信息组和所述文本关系信息组,生成实体间关系信息组;
将所述知识实体信息组和所述实体间关系信息组确定为目标知识信息。
3.根据权利要求2所述的方法,其中,所述对所述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集,包括:
确定所述目标知识信息集中的、每个知识实体信息组对应的更新知识实体信息组,得到更新知识实体信息组集;
基于所述更新知识实体信息组集和所述目标知识信息集中的、各个实体间关系信息组,生成更新实体间关系信息组集;
对所述更新实体间关系信息组集中的各个更新实体间关系信息进行去冗处理,得到目标实体间关系信息集;
对于所述目标实体间关系信息集中的每个目标实体间关系信息,执行以下步骤:
从所述更新知识实体信息组集对应的各个更新知识实体信息中、选出与所述目标实体间关系信息相匹配的更新知识实体信息,作为关联知识实体信息,得到关联知识实体信息组;
基于所述关联知识实体信息组和所述目标实体间关系信息,生成融合知识信息。
4.根据权利要求3所述的方法,其中,所述基于所述关联知识实体信息组和所述目标实体间关系信息,生成融合知识信息,包括:
对所述关联知识实体信息组进行分类,得到第一关联知识实体信息组和第二关联知识实体信息组;
对所述第一关联知识实体信息组中的各个第一关联知识实体信息进行融合处理,得到第一实体信息;
对所述第二关联知识实体信息组中的各个第二关联知识实体信息进行融合处理,得到第二实体信息;
将所述第一实体信息、所述第二实体信息和所述目标实体间关系信息确定为融合知识信息。
5.根据权利要求1所述的方法,其中,所述对所述知识图谱信息进行图谱补全处理,得到目标知识图谱信息,包括:
基于所述知识图谱信息,生成待确认实体关系信息集;
对于所述待确认实体关系信息集中的每个待确认实体关系信息,执行以下步骤:
将所述待确认实体关系信息输入至预先训练完成的图谱链接预测模型,得到关系预测分数;
响应于确定所述关系预测分数大于预设分数阈值,基于所述待确认实体关系信息,生成已确认实体关系信息;
对所得到的各个已确认实体关系信息进行校验处理,得到目标已确认实体关系信息集;
基于所述目标已确认实体关系信息集和所述知识图谱信息,生成目标知识图谱信息。
6.根据权利要求5所述的方法,其中,所述图谱链接预测模型是通过以下训练步骤得到的:
基于所述知识图谱信息,生成第一训练样本信息集,其中,所述第一训练样本信息集中的每个第一训练样本信息包括样本头实体标识、样本关系标识和样本尾实体标识;
对于所述第一训练样本信息集中的每个第一训练样本信息,执行以下步骤:
对所述第一训练样本信息包括的样本头实体标识进行替换处理,得到第一替换后训练样本信息;
对所述第一训练样本信息包括的样本关系标识进行替换处理,得到第二替换后训练样本信息;
对所述第一训练样本信息包括的样本尾实体标识进行替换处理,得到第三替换后训练样本信息;
将所得到的每个第一替换后训练样本信息、每个第二替换后训练样本信息、每个第三替换后训练样本信息确定为第二训练样本信息,得到第二训练样本信息集;
根据所述第一训练样本信息集和所述第二训练样本信息集,对初始图谱链接预测模型进行训练以得到图谱链接预测模型。
7.根据权利要求1-6之一所述的方法,其中,在所述响应于接收到数据查询请求,对所述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果之前,所述方法还包括:
将所述目标知识图谱信息存储至图数据库。
8.一种产业科技文本数据推送装置,包括:
获取单元,被配置成获取产业科技文本知识数据集;
确定单元,被配置成确定所述产业科技文本知识数据集中的每个产业科技文本知识数据对应的目标知识信息,得到目标知识信息集;
融合处理单元,被配置成对所述目标知识信息集中的各个目标知识信息进行融合处理,得到融合知识信息集;
生成单元,被配置成基于所述融合知识信息集,生成知识图谱信息;
图谱补全处理单元,被配置成对所述知识图谱信息进行图谱补全处理,得到目标知识图谱信息;
执行单元,被配置成响应于接收到数据查询请求,对所述目标知识图谱信息对应的知识图谱执行查询操作,以生成科技数据查询结果;
预处理单元,被配置成对所述科技数据查询结果进行预处理,得到待显示科技数据结果;
推送单元,被配置成将所述待显示科技数据结果推送至目标终端,以供显示。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202311379038.XA 2023-10-24 2023-10-24 产业科技文本数据推送方法、装置、设备和介质 Active CN117131208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311379038.XA CN117131208B (zh) 2023-10-24 2023-10-24 产业科技文本数据推送方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311379038.XA CN117131208B (zh) 2023-10-24 2023-10-24 产业科技文本数据推送方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN117131208A true CN117131208A (zh) 2023-11-28
CN117131208B CN117131208B (zh) 2024-02-02

Family

ID=88863093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311379038.XA Active CN117131208B (zh) 2023-10-24 2023-10-24 产业科技文本数据推送方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN117131208B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN112836064A (zh) * 2021-02-24 2021-05-25 吉林大学 知识图谱补全方法、装置、存储介质及电子设备
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113963748A (zh) * 2021-09-28 2022-01-21 华东师范大学 一种蛋白质知识图谱向量化方法
CN114547343A (zh) * 2022-03-22 2022-05-27 腾讯科技(深圳)有限公司 知识图谱补全的方法、装置、设备、存储介质和程序产品
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN116502807A (zh) * 2023-06-27 2023-07-28 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置
CN116521892A (zh) * 2023-04-26 2023-08-01 中国工商银行股份有限公司 知识图谱的应用方法、装置、电子设备、介质和程序产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112836064A (zh) * 2021-02-24 2021-05-25 吉林大学 知识图谱补全方法、装置、存储介质及电子设备
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113963748A (zh) * 2021-09-28 2022-01-21 华东师范大学 一种蛋白质知识图谱向量化方法
CN114547343A (zh) * 2022-03-22 2022-05-27 腾讯科技(深圳)有限公司 知识图谱补全的方法、装置、设备、存储介质和程序产品
CN116521892A (zh) * 2023-04-26 2023-08-01 中国工商银行股份有限公司 知识图谱的应用方法、装置、电子设备、介质和程序产品
CN116502807A (zh) * 2023-06-27 2023-07-28 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置

Also Published As

Publication number Publication date
CN117131208B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US20190147539A1 (en) Method and apparatus for outputting information
CN116502807B (zh) 基于科技知识图谱的产业链分析应用方法和装置
CN116128055A (zh) 图谱构建方法、装置、电子设备和计算机可读介质
CN117290561B (zh) 业务状态信息反馈方法、装置、设备和计算机可读介质
CN113255327B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112819512B (zh) 一种文本处理方法、装置、设备及介质
CN116562255B (zh) 表单信息生成方法、装置、电子设备和计算机可读介质
CN110674813B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN117131208B (zh) 产业科技文本数据推送方法、装置、设备和介质
CN115062119B (zh) 政务事件办理推荐方法、装置
EP4134920A2 (en) Entity recognition method and apparatus, and computer program product
CN113807056B (zh) 一种文档名称序号纠错方法、装置和设备
CN114862720A (zh) 画布还原方法、装置、电子设备和计算机可读介质
CN114639072A (zh) 人流量信息生成方法、装置、电子设备和计算机可读介质
CN115700548A (zh) 用户行为预测的方法、设备和计算机程序产品
CN111723188A (zh) 用于问答系统的基于人工智能的语句显示方法、电子设备
CN115587593B (zh) 信息抽取方法、装置、电子设备和计算机可读介质
CN115841302B (zh) 数据核查方法、电子设备和可读介质
CN117172220B (zh) 文本相似信息生成方法、装置、设备和计算机可读介质
CN113760834B (zh) 文件分类方法、装置、设备及介质
CN114926830B (zh) 屏幕图像识别方法、装置、设备和计算机可读介质
EP4293534A1 (en) Blockchain address classification method and apparatus
CN118093520A (zh) 数据存储方法、数据存储装置和电子设备
CN116455958A (zh) 服务资源确定方法、装置及服务资源确定系统
CN118093413A (zh) 微服务测试信息显示方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant