CN114219089B - 一种新一代信息技术产业知识图谱的构建方法及设备 - Google Patents

一种新一代信息技术产业知识图谱的构建方法及设备 Download PDF

Info

Publication number
CN114219089B
CN114219089B CN202111333936.2A CN202111333936A CN114219089B CN 114219089 B CN114219089 B CN 114219089B CN 202111333936 A CN202111333936 A CN 202111333936A CN 114219089 B CN114219089 B CN 114219089B
Authority
CN
China
Prior art keywords
entity
vector
information
new
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111333936.2A
Other languages
English (en)
Other versions
CN114219089A (zh
Inventor
单晓燕
郭志伟
李霄鹏
郭宁
杨洋
金鑫
王丽雅
宋纪宾
金锋
马海迪
王冰
刘科坊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Talent Information Technology Co.,Ltd.
Original Assignee
Shandong Talent Development Group Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Talent Development Group Information Technology Co ltd filed Critical Shandong Talent Development Group Information Technology Co ltd
Priority to CN202111333936.2A priority Critical patent/CN114219089B/zh
Publication of CN114219089A publication Critical patent/CN114219089A/zh
Application granted granted Critical
Publication of CN114219089B publication Critical patent/CN114219089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新一代信息技术产业知识图谱的构建方法及设备,属于人工智能知识图谱技术领域,用于解决传统的技术领域与产业链的关系映射方法工作量大、准确性低的技术问题。方法包括:在互联网中采集新一代信息技术产业的相关实体信息;对相关实体信息进行数据处理,并提取实体基础数据;基于实体基础数据,确定头实体、尾实体以及关系;将头实体、尾实体以及关系映射为低维空间向量,对头实体向量、尾实体向量以及关系向量进行分数匹配,将匹配分数超过预设阈值的头实体向量、尾实体向量以及关系向量构建为三元组,得到初始知识图谱;对初始知识图谱进行知识推理,补全初始知识图谱,得到新一代信息技术产业知识图谱。

Description

一种新一代信息技术产业知识图谱的构建方法及设备
技术领域
本申请涉及人工智能知识图谱技术领域,尤其涉及一种新一代信息技术产 业知识图谱的构建方法及设备。
背景技术
新一代信息技术产业链中的企业科技创新情况已经成为地方政府政策扶 持和金融机构发放贷款最重要的参考指标。企业科技创新可以从技术布局、技 术评级、技术影响、技术生命力、研发效率、研发稳定性等维度进行分析,其 中企业专利的情况又是最直接的一个指标。通过对专利摘要的的命名实体进行 识别,可以提取专利的技术领域,将技术领域与新一代信息技术产业链进行关 系映射,可以分析新一代信息技术产业链中的企业布局情况以及产业链中不同 技术领域的专利布局情况。
传统的关系映射方法多是基于专家经验的关键词映射,即根据专家经验, 将两个关键词进行关系匹配,这种传统的人工匹配方法工作量巨大,且匹配结 果不准确。
发明内容
本申请实施例提供了一种新一代信息技术产业知识图谱的构建方法及设 备,用于解决如下技术问题:传统的技术领域与产业链的关系映射方法工作量 大、准确性低。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种新一代信息技术产业知识图谱的构建方 法,方法包括:在互联网中采集新一代信息技术产业的相关实体信息;对所述 相关实体信息进行数据处理,并提取实体基础数据;其中,所述实体基础数据 至少包括以下任一项:企业名称、企业信息、产业链技术关键词、专利技术关 键词;基于所述实体基础数据,确定头实体、尾实体以及关系;将所述头实体、 尾实体以及关系映射为低维空间向量,分别得到头实体向量、尾实体向量以及 关系向量;对所述头实体向量、尾实体向量以及关系向量进行分数匹配,将匹 配分数超过预设阈值的头实体向量、尾实体向量以及关系向量构建为三元组,得到初始知识图谱;对所述初始知识图谱进行知识推理,补全所述初始知识图 谱,得到所述新一代信息技术产业知识图谱。
本申请实施例抛开了传统的基于专家经验的关键词映射,基于TransH知 识图谱表示推理模型,将新一代信息技术产业链中的技术关键词,和专利信息 中的技术关键词的实体和关系转变为低维向量,然后计算实体间的相似度,进 而构建相匹配的三元组,得到新一代信息技术产业知识图谱。方便采用知识图 谱对企业的专利布局情况等信息进行查询。
在一种可行的实施方式中,所述在互联网中采集新一代信息技术产业的相 关实体信息,具体包括:通过python中的scrapy库采集所述互联网中的新一 代信息技术产业的相关实体信息;其中,所述相关实体信息包括:新一代信息 技术产业链信息、高新技术企业详细信息、专利信息;所述新一代信息技术产 业链信息至少包括以下任一项:产业链名称、产业链详细信息;所述高新技术 企业详细信息至少包括以下任一项:企业名称、企业经营范围、企业生产产品; 所述专利信息至少包括以下任一项:专利标题、专利摘要。
在一种可行的实施方式中,对所述相关实体信息进行数据处理,并提取实 体基础数据,具体包括:通过潜在狄利克雷分配LDA算法,对所述相关实体 信息进行主题聚类以及关键词提取,具体包括:识别出所述高新技术企业详细 信息中的主题词以及主题特征,得到所述企业名称以及对应的企业信息;其中, 所述企业信息至少包括以下任一项:企业经营范围、企业招投标信息、竞品信 息;提取出所述新一代信息技术产业链信息以及所述专利信息中的技术关键词, 得到每条产业链中的所有技术关键词以及所述专利技术关键词。
在一种可行的实施方式中,在得到每条产业链中的所有技术关键词之后, 所述方法还包括:通过实体对齐方法,将不同产业链中表征同一技术的技术关 键词构建为对齐关系;通过多源知识融合技术,将所述对齐关系中的技术关键 词融合为一个统一的技术关键词,以对所述每条产业链中的所有技术关键词进 行去重,得到最终的所述产业链技术关键词。
在一种可行的实施方式中,基于所述实体基础数据,确定头实体、尾实体 以及关系,具体包括:将所述实体基础数据中的企业名称确定为所述头实体; 将所述实体基础数据中的产业链技术关键词以及专利技术关键词确定为所述 尾实体;基于所述实体基础数据中的企业信息,确定所述关系。
在一种可行的实施方式中,将所述头实体、尾实体以及关系映射为低维空 间向量,分别得到头实体向量、尾实体向量以及关系向量;对所述头实体向量、 尾实体向量以及关系向量进行分数匹配,将匹配分数超过预设阈值的头实体向 量、尾实体向量以及关系向量构建为三元组,得到初始知识图谱,具体包括: 通过表示学习技术,将所述头实体、尾实体以及关系映射为低维空间向量,得 到头实体向量h、尾实体向量t以及关系向量r;将所述头实体向量h以及所述 尾实体向量t分别投影到所述关系向量r对应的超平面上,得到头实体投影向 量h以及尾实体投影向量t;根据所述头实体投影向量h、尾实体投影向量t 以及向量余弦相似度计算公式,计算每两个头实体和尾实体组合的匹配分数; 确定匹配分数大于所述预设阈值的头实体和尾实体组合,并将所述头实体和尾 实体组合以及对应的关系确定为一个三元组;将确定的所有三元组构建为所述 初始知识图谱。
在一种可行的实施方式中,对所述初始知识图谱进行知识推理,补全所示 初始知识图谱,得到所述新一代信息技术产业知识图谱,具体包括:在已知头 实体和关系、缺失尾实体的情况下,将所有尾实体与所述已知的头实体和关系 构成预测三元组,并计算每个预测三元组的可靠分数;根据所述可靠分数,确 定最匹配的尾实体,得到新的三元组;在已知关系和尾实体、缺失头实体的情 况下,将所述头实体与所述已知的关系和尾实体构成预测三元组,并计算每个 预测三元组的可靠分数;根据所述可靠分数,确定最匹配的头实体,得到新的 三元组;将所述新的三元组加入到所述初始知识图谱中,得到所述新一代信息 技术产业知识图谱。
在一种可行的实施方式中,所述计算每个预测三元组的可靠分数,具体包 括:根据
Figure BDA0003349824940000041
得到所述预测三元组中,头实体投影向量h与尾 实体投影向量t的欧氏距离d;其中,所述xi为所述头实体投影向量h对应的 矩阵中的第i个维度的值,所述yi为所述尾实体投影向量t对应的矩阵中的第 i个维度的值;i∈[1,N],N为所述矩阵的全部维度数量;根据
Figure BDA0003349824940000042
得到所述预测三元组的距离分数转换函数f;其中,dmin为所述头实体投影向 量h与尾实体投影向量t的最小欧式距离,dmax为所述头实体投影向量h与 尾实体投影向量t的最大欧式距离;根据F=d*f,得到所述预测三元组的可 靠分数F。
在一种可行的实施方式中,在对所述初始知识图谱进行知识推理,补全所 述初始知识图谱,得到所述新一代信息技术产业知识图谱之后,所述方法还包 括:将所述新一代信息技术产业知识图谱存储在图数据库neo4j中,以通过所 述图数据库neo4j,对所述新一代信息技术产业知识图谱进行节点查询或关系 查询,获取新一代信息技术产业链中的企业布局情况以及新一代信息技术产业 链中不同技术领域的专利布局情况。
另一方面,本申请实施例还提供了一种新一代信息技术产业知识图谱的构 建设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存 储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使 所述至少一个处理器能够执行根据上述任一实施方式所述的一种新一代信息 技术产业知识图谱的构建方法。
本申请实施例将新一代信息技术产业中的技术关键词以及专利关键词与 TransH知识图谱表示模型相结合,摆脱了传统的依靠人工将企业的专利技术领 域与新一代信息技术产业链进行匹配的方法,构建了新一代信息技术产业与企 业专利技术的知识图谱,且通过知识推理,使知识图谱中的技术领域得到扩展。 另外,经过本申请对TransH知识图谱表示模型的改进,提升了知识推理的效 率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图 中:
图1为本申请实施例提供的一种新一代信息技术产业知识图谱的构建方法 流程图;
图2为本申请实施例提供的一种新一代信息技术产业知识图谱的构建设备 结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基 于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种新一代信息技术产业知识图谱的构建方法,如图 1所示,新一代信息技术产业知识图谱的构建方法具体包括步骤S101-S106:
S101、新一代信息技术产业知识图谱的构建设备在互联网中采集新一代信 息技术产业的相关实体信息。
具体地,新一代信息技术产业知识图谱的构建设备通过python中的scrapy 库采集互联网中关于新一代信息技术产业的相关实体信息。Scrapy库是一个爬 虫框架,使用该框架可以爬取用户在网络上所需的信息。
其中,本申请中需要采集的相关实体信息包括:新一代信息技术产业链信 息、高新技术企业详细信息、专利信息等。新一代信息技术产业链信息包括产 业链名称、产业链详细信息等信息。高新技术企业详细信息包括企业名称、企 业经营范围、企业生产产品、企业工商信息等信息。专利信息包括专利标题、 专利摘要等信息。
作为一种可行的实施方式,新一代信息技术产业是十强产业中的其中一个 一级产业链,其下包括5条二级产业链以及89条三级产业链,本申请所采集 的新一代信息技术产业链信息就包括新一代信息技术产业链的5条二级产业链 以及89条三级产业链的名称,以及每条产业链中包含的所有技术关键词。其 中,5条二级产业链的名称分别为:下一代信息网络产业、电子核心基础产业、 新兴软件和新型信息技术服务产业、互联网与大数据服务产业以及人工智能产 业。本申请所采集的高新技术企业详细信息可通过Scrapy爬虫框架在企查查等 网站进行爬取。
S102、新一代信息技术产业知识图谱的构建设备对相关实体信息进行数据 处理,并提取实体基础数据。
具体地,通过潜在狄利克雷分配(latent Dirichlet allocation,LDA)算法, 对采集到的相关实体信息进行主题聚类以及关键词提取,具体包括:
通过LDA算法识别出高新技术企业详细信息以及专利信息中的主题词以 及主题特征,得到企业名称以及对应的企业信息。其中,企业信息包括企业经 营范围、企业招投标信息、竞品信息等。
其中,LDA算法在高新技术企业详细信息中识别出的主题词即为企业名称, 主题特征即为企业信息。
进一步地,通过LDA算法提取出新一代信息技术产业链信息以及专利摘 要中的技术关键词,得到每条产业链中的所有技术关键词以及专利摘要中的专 利技术关键词。
进一步地,通过实体对齐方法,将不同产业链中表征同一技术的技术关键 词构建为对齐关系,然后通过多源知识融合技术,将对齐关系中的技术关键词 融合为一个统一的技术关键词,以对每条产业链中的所有技术关键词进行去重 处理,得到最终的产业链技术关键词,此处的产业链技术关键词可以理解为一 个关键词集合,这个关键词集合中的技术关键词的意思互不相同。从而得到实 体基础数据,实体基础数据包括企业名称、企业信息、产业链技术关键词、专 利技术关键词。
例如,在下一代信息网络产业中获取了一个技术关键词为“通信系统设备 制造”、在国民经济行业中获取了一个技术关键词为“通信系统设备制造”,在 十强产业中获取了一个技术关键词为“网络设备”,实体对齐技术自动将这三 个技术关键词识别为表征同一技术的技术关键词,并对这三个技术关键词构建 对齐关系,进而通过多源知识融合技术,将这三个技术关键词融合为一个技术 关键词:“通信系统设备制造”。对于获取的所有产业链技术关键词,都用以上 方法进行实体对齐和多源知识融合后,得到没有重复关键词的产业链技术关键 词集合。
S103、新一代信息技术产业知识图谱的构建设备基于实体基础数据,确定 头实体、尾实体以及关系。
具体地,将实体基础数据中的企业名称定义为头实体,将实体基础数据中 的产业链技术关键词以及专利技术关键词定义为尾实体,基于实体基础数据中 的企业信息,确定头实体与尾实体的关系。
在一个实施例中,头实体包括实体名称以及实体属性,实体名称即为企业 名称,例如华为,实体属性为该企业名称对应的企业信息,例如企业经营范围、 企业招投标信息、企业竞品信息等。尾实体包括产业链技术关键词以及专利技 术关键词,例如网络设备、终端设备等。头实体与尾实体的关系包括企业经营 范围、企业招投标信息、企业竞品信息等关系。
S104、新一代信息技术产业知识图谱的构建设备将头实体、尾实体以及关 系映射为低维空间向量,分别得到头实体向量、尾实体向量以及关系向量。
具体地,通过知识图谱中的表示学习技术,将头实体、尾实体以及关系映 射为低维空间向量,得到头实体向量h、尾实体向量t以及关系向量r,其中, 头实体向量h、尾实体向量t以及关系向量r用矩阵进行表示。
需要说明的是,表示学习技术是知识图谱中的一项成熟技术,本申请中不 作赘述。
S105、新一代信息技术产业知识图谱的构建设备对头实体向量、尾实体向 量以及关系向量进行分数匹配,将匹配分数超过预设阈值的头实体向量、尾实 体向量以及关系向量构建为三元组,得到初始知识图谱。
具体地,基于transH模型,将头实体向量h以及尾实体向量t分别投影到 关系向量r对应的超平面上,得到头实体投影向量h以及尾实体投影向量t。 然后根据头实体投影向量h、尾实体投影向量t以及向量余弦相似度计算公式, 计算每两个头实体和尾实体组合的匹配分数。
作为一种可行的实施方式,向量余弦相似度计算公式为:cosθ= i=1n(xi×yi)i=1nxi2×i=1nyi2,其中,xi为所述头实体投影向量h对应的矩 阵中的第i个维度的值,yi为所述尾实体投影向量t对应的矩阵中的第i个维 度的值。计算出的cosθ即为头实体和尾实体组合的匹配分数。
进一步地,确定匹配分数大于预设阈值的头实体和尾实体组合,并将头实 体和尾实体组合以及对应的关系确定为一个三元组,将确定的所有三元组构建 为初始知识图谱。其中根据三元组构建知识图谱的方法是现有方法。
在一个实施例中,若头实体为华为,尾实体为网络设备,则将这两个实体 映射为低维空间向量,并通过上述向量余弦相似度计算公式计算两个实体的匹 配分数,若匹配分数大于预设阈值,则认为华为与网络设备是相匹配的两个实 体。而华为的企业经营范围与企业招投标信息中都包括网络设备,因此华为与 网络设备之间既可以是企业经营范围关系,也可以是企业招投标信息关系,因 此可以构建对应的三元组:<华为,企业经营范围,网络设备>、<华为,企业 招投标信息,网络设备>。
需要说明的是,本申请中所表述的头实体、尾实体和关系分别是一个数据 集合的名称,例如尾实体包括移动通信,无线电通信,有线通信,光通信,网 络通信,通信协议,信号处理,通信服务,物联网通信等等技术关键词,本申 请中无法一一列举,上述实施例中列举的三元组的例子仅为示例,不用于限制 本申请中三元组中包含的具体数据。
在一个实施例中,若三元组中的尾实体为新一代信息技术产业链中的技术 关键词,则该三元组为企业-产业链三元组。若三元组中的尾实体为专利中的 技术关键词,则该三元组为企业-专利三元组。
S106、新一代信息技术产业知识图谱的构建设备对初始知识图谱进行知识 推理,补全初始知识图谱,得到新一代信息技术产业知识图谱。
具体地,在已知头实体和关系、缺失尾实体的情况下,将所有尾实体与已 知的头实体和关系构成预测三元组,并计算每个预测三元组的可靠分数,根据 可靠分数,确定最匹配的尾实体,得到新的三元组。在已知关系和尾实体、缺 失头实体的情况下,将头实体与已知的关系和尾实体构成预测三元组,并计算 每个预测三元组的可靠分数,根据可靠分数,确定最匹配的头实体,得到新的 三元组,将新的三元组加入到初始知识图谱中,得到新一代信息技术产业知识 图谱。
作为一种可行的实施方式,计算每个预测三元组的可靠分数的方法包括: 根据
Figure BDA0003349824940000091
得到预测三元组中,头实体投影向量h与尾实体投影 向量t的欧氏距离d;其中,xi为头实体投影向量h对应的矩阵中的第i个维 度的值,yi为尾实体投影向量t对应的矩阵中的第i个维度的值;i∈[1,N],N 为矩阵的全部维度数量。然后根据
Figure BDA0003349824940000101
得到预测三元组的距离 分数转换函数f;其中,dmin为头实体投影向量h与尾实体投影向量t的最小 欧式距离,dmax为头实体投影向量h与尾实体投影向量t的最大欧式距离。 最后,根据F=d*f,得到预测三元组的可靠分数F。
在一个实施例中,若一个缺失三元组(h,r,?),已知头实体h以及关系r, 需要推理尾实体,则将新一代信息技术产业知识图谱的构建设备定义的所有尾 实体一一替换上述缺失三元组中缺失的尾实体,形成预测三元组,然后通过上 述实施方式所示的计算方法,计算所有预测三元组的可靠分数,然后在所有可 靠分数中找出可靠分数最大的预测三元组,这个可靠分数最大的预测三元组中 替换的尾实体即为最匹配的尾实体。至此,该缺失三元组推理完成。然后将补 全的所有缺失三元组加入到初始知识图谱中,得到完整的新一代信息技术产业 知识图谱。
进一步地,在得到完整的新一代信息技术产业知识图谱之后,将新一代信 息技术产业知识图谱存储在图数据库neo4j中,以通过图数据库neo4j,对新一 代信息技术产业知识图谱进行节点查询或关系查询,获取新一代信息技术产业 链中的企业布局情况以及新一代信息技术产业链中不同技术领域的专利布局 情况。
在一个实施例中,本申请中构建的三元组通过图数据库neo4j进行存储, 并通过知识图谱API进行节点和关系查询,可以实现新一代信息技术产业链的 技术关键词追踪溯源,找到某一项技术属于产业链哪个环节,该环节有哪些技 术专利。
另外,本申请实施例还提供了一种新一代信息技术产业知识图谱的构建设 备,如图2所示,新一代信息技术产业知识图谱的构建设备具体包括:
至少一个处理器201;以及,与至少一个处理器201通信连接的存储器202; 其中,存储器202存储有能够被至少一个处理器201执行的指令,以使至少一 个处理器能够执行:
在互联网中采集新一代信息技术产业的相关实体信息;
对相关实体信息进行数据处理,并提取实体基础数据;其中,实体基础数 据至少包括以下任一项:企业名称、企业信息、产业链技术关键词、专利技术 关键词;
基于实体基础数据,确定头实体、尾实体以及关系;
将头实体、尾实体以及关系映射为低维空间向量,分别得到头实体向量、 尾实体向量以及关系向量;
对头实体向量、尾实体向量以及关系向量进行分数匹配,将匹配分数超过 预设阈值的头实体向量、尾实体向量以及关系向量构建为三元组,得到初始知 识图谱;
对初始知识图谱进行知识推理,补全初始知识图谱,得到新一代信息技术 产业知识图谱。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似 的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。 尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范 围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施 例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程 不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方 式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精 神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利 要求范围之内。

Claims (7)

1.一种新一代信息技术产业知识图谱的构建方法,其特征在于,所述方法包括:
在互联网中采集新一代信息技术产业的相关实体信息;
对所述相关实体信息进行数据处理,并提取实体基础数据;其中,所述实体基础数据包括:企业名称、企业信息、产业链技术关键词、专利技术关键词;
基于所述实体基础数据,确定头实体、尾实体以及关系;
将所述头实体、尾实体以及关系映射为低维空间向量,分别得到头实体向量、尾实体向量以及关系向量;
对所述头实体向量、尾实体向量以及关系向量进行分数匹配,将匹配分数超过预设阈值的头实体向量、尾实体向量以及关系向量构建为三元组,得到初始知识图谱,具体包括:
通过表示学习技术,将所述头实体、尾实体以及关系映射为低维空间向量,得到头实体向量h、尾实体向量t以及关系向量r;
将所述头实体向量h以及所述尾实体向量t分别投影到所述关系向量r对应的超平面上,得到头实体投影向量h以及尾实体投影向量t
根据所述头实体投影向量h、尾实体投影向量t以及向量余弦相似度计算公式,计算每两个头实体和尾实体组合的匹配分数;
确定匹配分数大于所述预设阈值的头实体和尾实体组合,并将所述头实体和尾实体组合以及对应的关系确定为一个三元组;
将确定的所有三元组构建为所述初始知识图谱;
对所述初始知识图谱进行知识推理,补全所述初始知识图谱,得到所述新一代信息技术产业知识图谱,具体包括:
在已知头实体和关系、缺失尾实体的情况下,将所有尾实体与已知的头实体和关系构成预测三元组,并计算每个预测三元组的可靠分数;
根据所述可靠分数,确定最匹配的尾实体,得到新的三元组;
在已知关系和尾实体、缺失头实体的情况下,将所述头实体、已知的关系和尾实体构成预测三元组,并计算每个预测三元组的可靠分数;
根据所述可靠分数,确定最匹配的头实体,得到新的三元组;
将所述新的三元组加入到所述初始知识图谱中,得到所述新一代信息技术产业知识图谱;
所述计算每个预测三元组的可靠分数,具体包括:
根据
Figure 128338DEST_PATH_IMAGE001
,得到所述预测三元组中,头实体投影向量h与尾实体投影向量t的欧氏距离d;其中,xi为所述头实体投影向量h对应的矩阵中的第i个维度的值,yi为所述尾实体投影向量t对应的矩阵中的第i个维度的值;i∈[1,N],N为所述矩阵的全部维度数量;
根据f=100*(d-dmin)/(dmax-dmin),得到所述预测三元组的距离分数转换函数f;其中,dmin为所述头实体投影向量h与尾实体投影向量t的最小欧式距离,dmax为所述头实体投影向量h与尾实体投影向量t的最大欧式距离;
根据F=d*f,得到所述预测三元组的可靠分数F。
2.根据权利要求1所述的一种新一代信息技术产业知识图谱的构建方法,其特征在于,所述在互联网中采集新一代信息技术产业的相关实体信息,具体包括:
通过python中的scrapy库采集所述互联网中的新一代信息技术产业的相关实体信息;
其中,所述相关实体信息包括:新一代信息技术产业链信息、高新技术企业详细信息、专利信息;
所述新一代信息技术产业链信息至少包括以下任一项:产业链名称、产业链详细信息;
所述高新技术企业详细信息至少包括以下任一项:企业名称、企业经营范围、企业生产产品;
所述专利信息至少包括以下任一项:专利标题、专利摘要。
3.根据权利要求2所述的一种新一代信息技术产业知识图谱的构建方法,其特征在于,对所述相关实体信息进行数据处理,并提取实体基础数据,具体包括:
通过潜在狄利克雷分配LDA算法,对所述相关实体信息进行主题聚类以及关键词提取,具体包括:
识别出所述高新技术企业详细信息中的主题词以及主题特征,得到所述企业名称以及对应的企业信息;其中,所述企业信息至少包括以下任一项:企业经营范围、企业招投标信息、竞品信息;
提取出所述新一代信息技术产业链信息以及所述专利信息中的技术关键词,得到每条产业链中的所有技术关键词以及所述专利技术关键词。
4.根据权利要求3所述的一种新一代信息技术产业知识图谱的构建方法,其特征在于,在得到每条产业链中的所有技术关键词之后,所述方法还包括:
通过实体对齐方法,将不同产业链中表征同一技术的技术关键词构建为对齐关系;
通过多源知识融合技术,将所述对齐关系中的技术关键词融合为一个统一的技术关键词,以对所述每条产业链中的所有技术关键词进行去重,得到最终的所述产业链技术关键词。
5.根据权利要求1所述的一种新一代信息技术产业知识图谱的构建方法,其特征在于,基于所述实体基础数据,确定头实体、尾实体以及关系,具体包括:
将所述实体基础数据中的企业名称确定为所述头实体;
将所述实体基础数据中的产业链技术关键词以及专利技术关键词确定为所述尾实体;
基于所述实体基础数据中的企业信息,确定所述关系。
6.根据权利要求1所述的一种新一代信息技术产业知识图谱的构建方法,其特征在于,在对所述初始知识图谱进行知识推理,补全所述初始知识图谱,得到所述新一代信息技术产业知识图谱之后,所述方法还包括:
将所述新一代信息技术产业知识图谱存储在图数据库neo4j中,以通过所述图数据库neo4j,对所述新一代信息技术产业知识图谱进行节点查询或关系查询,获取新一代信息技术产业链中的企业布局情况以及新一代信息技术产业链中不同技术领域的专利布局情况。
7.一种新一代信息技术产业知识图谱的构建设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据权利要求1-6任一项所述的一种新一代信息技术产业知识图谱的构建方法。
CN202111333936.2A 2021-11-11 2021-11-11 一种新一代信息技术产业知识图谱的构建方法及设备 Active CN114219089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111333936.2A CN114219089B (zh) 2021-11-11 2021-11-11 一种新一代信息技术产业知识图谱的构建方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111333936.2A CN114219089B (zh) 2021-11-11 2021-11-11 一种新一代信息技术产业知识图谱的构建方法及设备

Publications (2)

Publication Number Publication Date
CN114219089A CN114219089A (zh) 2022-03-22
CN114219089B true CN114219089B (zh) 2022-07-22

Family

ID=80696927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111333936.2A Active CN114219089B (zh) 2021-11-11 2021-11-11 一种新一代信息技术产业知识图谱的构建方法及设备

Country Status (1)

Country Link
CN (1) CN114219089B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391569B (zh) * 2022-10-27 2023-03-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN117764415A (zh) * 2023-12-22 2024-03-26 安徽省征信股份有限公司 基于专利信息的战略性新兴产业链自动构建方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN111104522A (zh) * 2019-12-20 2020-05-05 武汉理工大学 一种基于知识图谱的区域产业关联效应趋势预测方法
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247806A (zh) * 2017-07-04 2017-10-13 山东浪潮云服务信息科技有限公司 一种专利大数据分析与企业应用平台
CN108052683B (zh) * 2018-01-22 2021-08-03 桂林电子科技大学 一种基于余弦度量规则的知识图谱表示学习方法
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN110796254B (zh) * 2019-10-30 2024-02-27 南京工业大学 一种知识图谱推理方法、装置、计算机设备及存储介质
CN111523029B (zh) * 2020-04-20 2022-03-25 浙江大学 一种基于知识图谱表示学习的个性化推荐方法
CN112988974A (zh) * 2021-03-25 2021-06-18 上海园域信息科技有限公司 一种基于向量空间的产业链知识图谱的构建方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN111104522A (zh) * 2019-12-20 2020-05-05 武汉理工大学 一种基于知识图谱的区域产业关联效应趋势预测方法
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法

Also Published As

Publication number Publication date
CN114219089A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
WO2021189729A1 (zh) 复杂关系网络的信息分析方法、装置、设备及存储介质
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN114219089B (zh) 一种新一代信息技术产业知识图谱的构建方法及设备
WO2021109464A1 (zh) 一种面向大规模用户的个性化教学资源推荐方法
CN112434169A (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
Vayansky et al. An evaluation of geotagged twitter data during hurricane Irma using sentiment analysis and topic modeling for disaster resilience
WO2022188646A1 (zh) 图数据处理方法、装置、设备、存储介质及程序产品
CN113254864A (zh) 基于节点特征和回复路径的动态子图生成方法、争议性检测方法
CN104239581A (zh) 一种面向数据库系统的复制数据起源追踪方法
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN116340534A (zh) 一种识别新能源异常数据的知识图谱构建方法和系统
CN115114519A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
CN115545833A (zh) 一种基于用户社交信息的推荐方法及系统
CN114818681A (zh) 一种实体识别方法及系统、计算机可读存储介质及终端
Nath et al. Resolving scalability issue to ontology instance matching in semantic web
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
CN114022233A (zh) 一种新型的商品推荐方法
Si [Retracted] Classification Method of Ideological and Political Resources of Broadcasting and Hosting Professional Courses Based on SOM Artificial Neural Network
CN113177164A (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Shahzad et al. Automated Generation of Graphs from Relational Sources to Optimise Queries for Collaborative Filtering
Sun et al. Reinforced contrastive graph neural networks (RCGNN) for anomaly detection
CN113886547B (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230116

Address after: Room 2333-2, Building 1, Aosheng Building, 1166 Xinluo Street, Jinan Area, China (Shandong) Free Trade Pilot Zone, Jinan, Shandong Province, 250001

Patentee after: Shandong Talent Information Technology Co.,Ltd.

Address before: 250001 room 103-1, building 6, Guohua Times Square, No. 29666, tourism Road, Shizhong District, Jinan City, Shandong Province

Patentee before: Shandong Talent Development Group Information Technology Co.,Ltd.

TR01 Transfer of patent right