CN117033654A - 一种面向科技迷雾识别的科技事件图谱构建方法 - Google Patents

一种面向科技迷雾识别的科技事件图谱构建方法 Download PDF

Info

Publication number
CN117033654A
CN117033654A CN202310957936.2A CN202310957936A CN117033654A CN 117033654 A CN117033654 A CN 117033654A CN 202310957936 A CN202310957936 A CN 202310957936A CN 117033654 A CN117033654 A CN 117033654A
Authority
CN
China
Prior art keywords
event
technological
scientific
information
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310957936.2A
Other languages
English (en)
Inventor
杜彦昌
高原
宋爽
李书兴
程绍驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of War of PLA Academy of Military Science
Original Assignee
Research Institute of War of PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of War of PLA Academy of Military Science filed Critical Research Institute of War of PLA Academy of Military Science
Priority to CN202310957936.2A priority Critical patent/CN117033654A/zh
Publication of CN117033654A publication Critical patent/CN117033654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向科技迷雾识别的科技事件图谱构建方法,包括以下步骤:步骤S1:构建科技事件本体模型。定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;步骤S2:针对科技事件进行数据采集。利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集。该科技事件图谱的构建方法,通过利用开源的相关科技数据,形成科技事件图谱,可以直观的分析出科技事件各个实体之间的相关联性,可支持关键事件演化脉络挖掘、事件演化路径分析、主题事件创新能力评估、创新团队协作关系分析等科技事件的深度认知,摸清科技事件所涉及的科研主体的研发实力、科研成果的技术水平、科技成果应用效能等。

Description

一种面向科技迷雾识别的科技事件图谱构建方法
技术领域
本发明涉及科技迷雾技术领域,具体为一种面向科技热点事件的事件图谱构建方法。
背景技术
科技迷雾主要指国家/企业等主体通过多种媒介,选择或错误披露科技迷雾事件,诱发竞争对手做出错误策略和政策。其中,科技迷雾事件所涉及的核心迷雾问题包括:技术原理科学性存疑、科技水平真实性存疑、技术方向布局存疑。科技迷雾事件可分为技术概念迷雾事件、技术原理迷雾事件、产品性能迷雾事件、产品应用迷雾事件等多类事件。目前,人类科研活动在互联网留下了大量数据,如论文、专利、会议报告、预算文件、项目公告、社交数据、论坛数据、新闻文本等。如何从这些海量数据中挖掘和提炼出准确、高价值的科技事件并形成事件关联关系,成为识别科技迷雾迫切需要解决的基础问题。
因此,本发明提供一种面向科技迷雾识别的科技事件图谱构建方法,用于描述和精准识别科技迷雾事件所涉及的各类实体以及事件类型,支撑分析科技迷雾所涉及的技术演进脉络、技术研发重心、技术创新成熟度分析。
发明内容
本发明的目的在于提供一种面向科技迷雾识别的科技事件图谱构建方法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向科技迷雾识别的科技事件图谱构建方法,包括以下步骤:
步骤S1:构建科技事件本体模型。定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;
步骤S2:针对科技事件进行数据采集。利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;
步骤S3:面向大规模文本数据的技术术语抽取。从步骤S2构建的大规模文本事件数据集中抽取体现科技成果的技术术语。在论文、专利、学术报告中主要使用KeyBert等预训练模型进行抽取。在网页文本中主要使用BiLSTM-CRF等深度学习模型通过数据序列标注抽取技术术语。
步骤S4:基于步骤S1定义的科技事件本体模型,开展科技事件抽取。在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;
步骤S5:通过人工标注、图神经网络计算等多种策略开展事件关联关系构建。科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑;
另外,本发明还提出一种科技事件信息的可信度识别方法,包括以下步骤:
步骤S21:事件的可信信源识别;
步骤S22:事件信息候选集的可信特征分析。
与现有技术相比,本发明的有益效果是:该科技事件图谱的构建方法,通过利用开源的相关科技数据,形成科技事件图谱,可以直观的分析出科技事件各个实体之间的相关联性,可支持关键事件演化脉络挖掘、事件演化路径分析、主题事件创新能力评估、创新团队协作关系分析等科技事件的深度认知,摸清科技事件所涉及的科研主体的研发实力、科研成果的技术水平、科技成果应用效能等,为科技战略决策布局提供重要支撑。
附图说明
图1是本发明面向科技迷雾识别的科技事件图谱构建方法流程图;
图2是本发明科技事件涉及实体及实体关系;
图3是本发明科研实体及相互关系概念图;
图4是本发明科技事件信息的可信度识别方法示意图;
图5是本发明科技事件类型及关键论元;
图6是本发明不同信源及事件类型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,本发明提供一种技术方案:一种面向科技迷雾识别的科技事件图谱构建方法,包括以下步骤:
步骤S1:构建科技事件本体模型。定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;
步骤S2:完成科技事件数据采集。利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;
步骤S3:面向大规模文本数据的技术术语抽取。从步骤S2构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语,技术命名实体是科技事件的核心组成要素;
步骤S4:基于步骤S1定义的科技事件本体模型,利用BiGRU-CRF等深度模型开展科技事件实体抽取,利用预设触发词、注意力机制等多种策略抽取事件触发词。利用预设在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;
步骤S5:事件关联关系构建。科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑;
一种科技事件信息的可信度识别方法,包括以下步骤:
步骤S21:事件的可信信源识别;
步骤S22:事件信息候选集的可信特征分析。
本发明,进一步的:步骤S1中所提到的科技事件本体模型所涉及实体包括人员、机构、项目、投资机构、科研团队、科研设施、科研会议、论文、专利、技术、时间等,每个实体包含多样属性,实体之间具有确定关系类型。
本发明,进一步的:步骤S1中所提到的事件模型包括科技事件类型和事件形式化表达。科技事件类型包括科技研发事件、科技成果事件、科技应用事件、科技协作事件、人才变动事件等。其中,科技研发事件主要包括理论攻关事件、技术改进事件、技术发明事件等。成果公布事件指将科技创新成果公开的各类活动,主要包括论文发表事件、专利生成事件、科技宣传事件等。科研协作事件主要包括科研合同签订事件、科研经费下拨事件、科研协议签订等。相关事件类型表格如下:
本发明,进一步的:步骤S1中所提到的关系模型包括了实体与实体关系、事件与事件关系等。实体与实体的关系如图2所示,事件与事件关系包含了时序、顺承、因果等三类事件类型。
本发明,进一步的:步骤S2中所涉及的科技事件数据采集中,不同类型科技事件所使用的信息来源有所不同。例如,在科技产出事件识别和抽取中,主要使用专利库、论文库、公司门户网站、防务网站、科技综合门户网站、电子期刊网站、社交媒体、学术会议等。不同信源提供的不同信源提供的数据选项和价值点也具有较大差异,信源与事件类型的关系如表2所示。
本发明,进一步的:步骤S21对事件的可信信源识别中,主要是针对某条信息(事件)开展可信信源数fccis与可疑信息源数fcdis的区分。该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别:其中:fpr:网站PR值(即PageRank值);finlink:反向链接数(Inlink);fad:网页的广告量(ad);fdate:创建时间(date)。PageRank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,通过Google提供的API获取;反向链接数是指该网站被其他网页或网站链接的数目;网页广告量能够反映网页创建的商用意图;网页创建时间则反映了网页提供信息的时效性,时间越近的信息时效性越好。
本发明,进一步的:步骤S22对具体事件的信息候选集的可信特征分析,主要采用信息的五个指标:(1)网页覆盖率frc;(2)可信信息源数fccis;(3)可疑信息源数fcdis;(4)网页平均创建时间factw;(5)在搜索返回结果中的平均网页排名fapr。覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例;可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后,类别属于可信信息源的数目;可疑信息源数为第一阶段分类后属于可疑信息源的数目;网页平均创建时间是指通过判断信息的网络出现时间,有助于甄别新旧信息;搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名,此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度。信息可信度的计算使用以下公式,其中λi值由经验确定。
本发明,进一步的:步骤S3中所涉及的技术实体处于科技事件识别和抽取的核心地位。技术实体是指体现研究内容和研究成果的技术关键词语,是科技事件的重要论元。技术实体包括概念实体和实例实体,概念实体是围绕科学问题、技术问题、产品体系结构产生的抽象类技术命名实体,实例实体是指具体科研活动中产生的物化形态的技术命名实体,包括了工艺、程序、组件、工具、产品等。技术实体主要来自于论文、专利、学术会议报告、网页等数据文本。
本发明,进一步的:步骤S4中所涉及的科技事件抽取时,面对不同文本类型,会选择不同的抽取策略。其中,论文、专利、学术会议报告主要从标题和摘要部分抽取;新闻门户、社交媒体等网页文本主要从全文数据抽取。在事件抽取中,可先进行科技事件相关的事件元素抽取,然后利用事件实体元素来提高事件触发词的抽取效果;人员、科研机构、科技成果、科研项目、研究领域等实体元素与科技迷雾密切相关,实体模型总体以BiGRU-CRF为基础,通过序列标注的方式来抽取各类事件的通用实体。然后利用这些实体作为注意力机制的输入,通过注意力机制抽取事件触发词,步骤S5中的图神经网络进行事件关联关系构建步骤包括六个步骤:①抽取事件链条。从文本中抽取叙事事件链条表示为S={s1,s2,s3,...,sN},其中si={T,e1,e2,e3,...,em}。T是该叙事事件链条中的主人公实体,该实体被事件链条中的每一个事件共享,在每一个事件中充当一定的事件元素成分。抽取出的每个事件ei表示一个结构化的事件四元组谓词,主语、宾语、间接宾语({p(a0,a1,a2)}),其中p是谓语动词,a0,a1,a2分别表示主语、宾语、间接宾语。②基于事件链条来构建叙事关系推断。事件关系图可以被形式化地定义为一个有向图G={V,E},其中V={v1,v2,v3,...,vP}是节点集合,E={l1,l2,l3,...,lQ}是边集合。将四元组事件ei表示为它的抽象形式(vi,ri),其中vi表示未经过规范化的谓语动词,ri表示谓语动词vi和链条主人公实体T的依存句法关系。所有的事件二元依存bigram关系都形成边集合E中的一条事件演化有向边li∶vi→vj,边上权重w可通过下列公式计算:
其中count(vi,vj)表示事件bigram(vi,vj)出现的频率。
③对目标事件进行元组结构化,以及其中的动词和其他事件元素的词向量(d是词向量的维度),通过构造不同的映射函数有许多种不同的方式来得到整个事件的向量表示/>
④通过图神经网络SGNN进行事件间交互关系的学习及预测。每次输入到SGNN模型的为两个矩阵:h0和A,其中矩阵包含了上下文和所有候选事件的向量表示。
矩阵A∈R(n+k)×(n+k)是相应的节点构成的子图邻接矩阵。邻接矩阵A决定了子图中的事件互相之间如何交互作用。
⑤通过计算这些事件向量表示之间的相似度来建模事件的相关性。假设SGNN模型的输出中事件的隐状态向量表示为候选事件的隐状态向量表示为给定一对事件/>和/>第i个事件与第j个候选事件的相关性分数可以通过/>进行计算,其中g为相关性度量函数。
⑥给出每一个上下文事件的表示和每一个候选事件的表示/>之间的相关性得分sij后,整个事件上下文e1,e2,...,en与第j个候选事件/>的相关性可以通过进行计算,进而基于公式c=maxjsj,挑选出正确的事件关系,作为最终的预测结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,包括以下步骤:
步骤S1:构建科技事件本体模型,定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;
步骤S2:完成科技事件数据采集,利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;
步骤S3:面向大规模文本数据的技术术语抽取,从步骤S2构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语,技术命名实体是科技事件的核心组成要素;
步骤S4:基于步骤S1定义的科技事件本体模型,利用BiGRU-CRF等深度模型开展科技事件实体抽取,利用预设触发词、注意力机制等多种策略抽取事件触发词,利用预设在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;
步骤S5:事件关联关系构建,科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑。
2.一种科技事件信息的可信度识别方法,其特征在于,包括以下步骤:
步骤S21:事件的可信信源识别;
步骤S22:事件信息候选集的可信特征分析。
3.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S1中所提到的科技事件本体模型所涉及实体包括人员、机构、项目、投资机构、科研团队、科研设施、科研会议、论文、专利、技术、时间等,每个实体包含多样属性,实体之间具有确定关系类型。
4.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S1中所提到的事件模型包括科技事件类型和事件形式化表达,科技事件类型包括科技研发事件、科技成果事件、科技应用事件、科技协作事件、人才变动事件,其中,科技研发事件主要包括理论攻关事件、技术改进事件、技术发明事件,成果公布事件指将科技创新成果公开的各类活动,主要包括论文发表事件、专利生成事件、科技宣传事件,科研协作事件主要包括科研合同签订事件、科研经费下拨事件、科研协议签订。
5.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S1中所提到的关系模型包括了实体与实体关系、事件与事件关系。
6.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S2中所涉及的科技事件数据采集中,不同类型科技事件所使用的信息来源有所不同,例如,在科技产出事件识别和抽取中,主要使用专利库、论文库、公司门户网站、防务网站、科技综合门户网站、电子期刊网站、社交媒体、学术会议,不同信源提供的不同信源提供的数据选项和价值点也具有较大差异。
7.根据权利要求2所述的一种科技事件信息的可信度识别方法,其特征在于,所述步骤S21对事件的可信信源识别中,主要是针对某条信息(事件)开展可信信源数fccis与可疑信息源数fcdis的区分,该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别:
其中:fpr:网站PR值(即PageRank值);finlink:反向链接数(Inlink);fad:网页的广告量(ad);fdate:创建时间(date),PageRank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,通过Google提供的API获取;反向链接数是指该网站被其他网页或网站链接的数目;网页广告量能够反映网页创建的商用意图;网页创建时间则反映了网页提供信息的时效性,时间越近的信息时效性越好。
8.根据权利要求2所述的一种科技事件信息的可信度识别方法,其特征在于,所述步骤S22对具体事件的信息候选集的可信特征分析,主要采用信息的五个指标:(1)网页覆盖率frc;(2)可信信息源数fccis;(3)可疑信息源数fcdis;(4)网页平均创建时间factw;(5)在搜索返回结果中的平均网页排名fapr,覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例;可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后,类别属于可信信息源的数目;可疑信息源数为第一阶段分类后属于可疑信息源的数目;网页平均创建时间是指通过判断信息的网络出现时间,有助于甄别新旧信息;搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名,此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度,信息可信度的计算使用以下公式,其中
λi值由经验确定:
9.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S3中所涉及的技术实体处于科技事件识别和抽取的核心地位,技术实体是指体现研究内容和研究成果的技术关键词语,是科技事件的重要论元,技术实体包括概念实体和实例实体,概念实体是围绕科学问题、技术问题、产品体系结构产生的抽象类技术命名实体,实例实体是指具体科研活动中产生的物化形态的技术命名实体,包括了工艺、程序、组件、工具、产品等,技术实体主要来自于论文、专利、学术会议报告、网页等数据文本。
10.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S4中所涉及的科技事件抽取时,面对不同文本类型,会选择不同的抽取策略,其中,论文、专利、学术会议报告主要从标题和摘要部分抽取;新闻门户、社交媒体等网页文本主要从全文数据抽取,在事件抽取中,可先进行科技事件相关的事件元素抽取,然后利用事件实体元素来提高事件触发词的抽取效果;人员、科研机构、科技成果、科研项目、研究领域等实体元素与科技迷雾密切相关,实体模型总体以BiGRU-CRF为基础,通过序列标注的方式来抽取各类事件的通用实体,然后利用这些实体作为注意力机制的输入,通过注意力机制抽取事件触发词,所述步骤S5中的图神经网络进行事件关联关系构建步骤包括六个步骤:
①抽取事件链条,从文本中抽取叙事事件链条表示为S={s1,s2,s3,...,sN},其中si={T,e1,e2,e3,...,em},T是该叙事事件链条中的主人公实体,该实体被事件链条中的每一个事件共享,在每一个事件中充当一定的事件元素成分,抽取出的每个事件ei表示一个结构化的事件四元组谓词,主语、宾语、间接宾语({p(a0,a1,a2)}),其中p是谓语动词,a0,a1,a2分别表示主语、宾语、间接宾语,②基于事件链条来构建叙事关系推断,事件关系图可以被形式化地定义为一个有向图G={V,E},其中V={v1,v2,v3,...,vP}是节点集合,E={l1,l2,l3,...,lQ}是边集合,将四元组事件ei表示为它的抽象形式(vi,ri),其中vi表示未经过规范化的谓语动词,ri表示谓语动词vi和链条主人公实体T的依存句法关系,所有的事件二元依存bigram关系都形成边集合E中的一条事件演化有向边li:vi→vj,边上权重w可通过下列公式计算:
其中count(vi,vj)表示事件bigram(vi,vj)出现的频率;
③对目标事件进行元组结构化,以及其中的动词和其他事件元素的词向量(d是词向量的维度),通过构造不同的映射函数有许多种不同的方式来得到整个事件的向量表示/>
④通过图神经网络SGNN进行事件间交互关系的学习及预测,每次输入到SGNN模型的为两个矩阵:h0和A,其中矩阵包含了上下文和所有候选事件的向量表示;
矩阵A∈R(n+k)×(n+k)是相应的节点构成的子图邻接矩阵,邻接矩阵A决定了子图中的事件互相之间如何交互作用;
⑤通过计算这些事件向量表示之间的相似度来建模事件的相关性,假设SGNN模型的输出中事件的隐状态向量表示为候选事件的隐状态向量表示为给定一对事件/>和/>第l个事件与第j个候选事件的相关性分数可以通过/>进行计算,其中g为相关性度量函数;
⑥给出每一个上下文事件的表示和每一个候选事件的表示/>之间的相关性得分sij后,整个事件上下文e1,e2,...,en与第j个候选事件/>的相关性可以通过/>进行计算,进而基于公式c=maxjsj,挑选出正确的事件关系,作为最终的预测结果。
CN202310957936.2A 2023-08-01 2023-08-01 一种面向科技迷雾识别的科技事件图谱构建方法 Pending CN117033654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310957936.2A CN117033654A (zh) 2023-08-01 2023-08-01 一种面向科技迷雾识别的科技事件图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310957936.2A CN117033654A (zh) 2023-08-01 2023-08-01 一种面向科技迷雾识别的科技事件图谱构建方法

Publications (1)

Publication Number Publication Date
CN117033654A true CN117033654A (zh) 2023-11-10

Family

ID=88601537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310957936.2A Pending CN117033654A (zh) 2023-08-01 2023-08-01 一种面向科技迷雾识别的科技事件图谱构建方法

Country Status (1)

Country Link
CN (1) CN117033654A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN117435697B (zh) * 2023-12-21 2024-03-22 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Similar Documents

Publication Publication Date Title
Jia et al. A practical approach to constructing a knowledge graph for cybersecurity
Kong et al. Exploring dynamic research interest and academic influence for scientific collaborator recommendation
Song et al. Expertisenet: Relational and evolutionary expert modeling
Yang et al. Leveraging procedural knowledge for task-oriented search
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及系统
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
Varlamov et al. A survey of methods for the extraction of information from Web resources
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
Fu et al. Representation learning for heterogeneous information networks via embedding events
Wu et al. A novel community answer matching approach based on phrase fusion heterogeneous information network
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN117033654A (zh) 一种面向科技迷雾识别的科技事件图谱构建方法
Kanakaris et al. Making personnel selection smarter through word embeddings: A graph-based approach
Haris et al. Mining graphs from travel blogs: a review in the context of tour planning
US10990881B1 (en) Predictive analytics using sentence data model
Liu et al. Dynamic updating of the knowledge base for a large-scale question answering system
Naik et al. An adaptable scheme to enhance the sentiment classification of Telugu language
Movahedian et al. A semantic recommender system based on frequent tag pattern
Aiza et al. Features, techniques and evaluation in predicting articles’ citations: a review from years 2010–2023
Do et al. DW-PathSim: a distributed computing model for topic-driven weighted meta-path-based similarity measure in a large-scale content-based heterogeneous information network
Lu et al. Overview of knowledge mapping construction technology
Singh et al. Semantic web mining: survey and analysis
Pushpa Rani et al. An optimized topic modeling question answering system for web-based questions
Li et al. Application of data mining in personalized remote distance education web system
Zhou et al. Spatiotemporal data cleaning and knowledge fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication