CN117033654A - 一种面向科技迷雾识别的科技事件图谱构建方法 - Google Patents
一种面向科技迷雾识别的科技事件图谱构建方法 Download PDFInfo
- Publication number
- CN117033654A CN117033654A CN202310957936.2A CN202310957936A CN117033654A CN 117033654 A CN117033654 A CN 117033654A CN 202310957936 A CN202310957936 A CN 202310957936A CN 117033654 A CN117033654 A CN 117033654A
- Authority
- CN
- China
- Prior art keywords
- event
- technological
- scientific
- information
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 30
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 239000003595 mist Substances 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000012827 research and development Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 31
- 238000011160 research Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007123 defense Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 2
- 239000000470 constituent Substances 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 230000019771 cognition Effects 0.000 abstract description 2
- 239000002131 composite material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 239000000306 component Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向科技迷雾识别的科技事件图谱构建方法,包括以下步骤:步骤S1:构建科技事件本体模型。定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;步骤S2:针对科技事件进行数据采集。利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集。该科技事件图谱的构建方法,通过利用开源的相关科技数据,形成科技事件图谱,可以直观的分析出科技事件各个实体之间的相关联性,可支持关键事件演化脉络挖掘、事件演化路径分析、主题事件创新能力评估、创新团队协作关系分析等科技事件的深度认知,摸清科技事件所涉及的科研主体的研发实力、科研成果的技术水平、科技成果应用效能等。
Description
技术领域
本发明涉及科技迷雾技术领域,具体为一种面向科技热点事件的事件图谱构建方法。
背景技术
科技迷雾主要指国家/企业等主体通过多种媒介,选择或错误披露科技迷雾事件,诱发竞争对手做出错误策略和政策。其中,科技迷雾事件所涉及的核心迷雾问题包括:技术原理科学性存疑、科技水平真实性存疑、技术方向布局存疑。科技迷雾事件可分为技术概念迷雾事件、技术原理迷雾事件、产品性能迷雾事件、产品应用迷雾事件等多类事件。目前,人类科研活动在互联网留下了大量数据,如论文、专利、会议报告、预算文件、项目公告、社交数据、论坛数据、新闻文本等。如何从这些海量数据中挖掘和提炼出准确、高价值的科技事件并形成事件关联关系,成为识别科技迷雾迫切需要解决的基础问题。
因此,本发明提供一种面向科技迷雾识别的科技事件图谱构建方法,用于描述和精准识别科技迷雾事件所涉及的各类实体以及事件类型,支撑分析科技迷雾所涉及的技术演进脉络、技术研发重心、技术创新成熟度分析。
发明内容
本发明的目的在于提供一种面向科技迷雾识别的科技事件图谱构建方法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向科技迷雾识别的科技事件图谱构建方法,包括以下步骤:
步骤S1:构建科技事件本体模型。定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;
步骤S2:针对科技事件进行数据采集。利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;
步骤S3:面向大规模文本数据的技术术语抽取。从步骤S2构建的大规模文本事件数据集中抽取体现科技成果的技术术语。在论文、专利、学术报告中主要使用KeyBert等预训练模型进行抽取。在网页文本中主要使用BiLSTM-CRF等深度学习模型通过数据序列标注抽取技术术语。
步骤S4:基于步骤S1定义的科技事件本体模型,开展科技事件抽取。在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;
步骤S5:通过人工标注、图神经网络计算等多种策略开展事件关联关系构建。科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑;
另外,本发明还提出一种科技事件信息的可信度识别方法,包括以下步骤:
步骤S21:事件的可信信源识别;
步骤S22:事件信息候选集的可信特征分析。
与现有技术相比,本发明的有益效果是:该科技事件图谱的构建方法,通过利用开源的相关科技数据,形成科技事件图谱,可以直观的分析出科技事件各个实体之间的相关联性,可支持关键事件演化脉络挖掘、事件演化路径分析、主题事件创新能力评估、创新团队协作关系分析等科技事件的深度认知,摸清科技事件所涉及的科研主体的研发实力、科研成果的技术水平、科技成果应用效能等,为科技战略决策布局提供重要支撑。
附图说明
图1是本发明面向科技迷雾识别的科技事件图谱构建方法流程图;
图2是本发明科技事件涉及实体及实体关系;
图3是本发明科研实体及相互关系概念图;
图4是本发明科技事件信息的可信度识别方法示意图;
图5是本发明科技事件类型及关键论元;
图6是本发明不同信源及事件类型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,本发明提供一种技术方案:一种面向科技迷雾识别的科技事件图谱构建方法,包括以下步骤:
步骤S1:构建科技事件本体模型。定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;
步骤S2:完成科技事件数据采集。利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;
步骤S3:面向大规模文本数据的技术术语抽取。从步骤S2构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语,技术命名实体是科技事件的核心组成要素;
步骤S4:基于步骤S1定义的科技事件本体模型,利用BiGRU-CRF等深度模型开展科技事件实体抽取,利用预设触发词、注意力机制等多种策略抽取事件触发词。利用预设在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;
步骤S5:事件关联关系构建。科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑;
一种科技事件信息的可信度识别方法,包括以下步骤:
步骤S21:事件的可信信源识别;
步骤S22:事件信息候选集的可信特征分析。
本发明,进一步的:步骤S1中所提到的科技事件本体模型所涉及实体包括人员、机构、项目、投资机构、科研团队、科研设施、科研会议、论文、专利、技术、时间等,每个实体包含多样属性,实体之间具有确定关系类型。
本发明,进一步的:步骤S1中所提到的事件模型包括科技事件类型和事件形式化表达。科技事件类型包括科技研发事件、科技成果事件、科技应用事件、科技协作事件、人才变动事件等。其中,科技研发事件主要包括理论攻关事件、技术改进事件、技术发明事件等。成果公布事件指将科技创新成果公开的各类活动,主要包括论文发表事件、专利生成事件、科技宣传事件等。科研协作事件主要包括科研合同签订事件、科研经费下拨事件、科研协议签订等。相关事件类型表格如下:
本发明,进一步的:步骤S1中所提到的关系模型包括了实体与实体关系、事件与事件关系等。实体与实体的关系如图2所示,事件与事件关系包含了时序、顺承、因果等三类事件类型。
本发明,进一步的:步骤S2中所涉及的科技事件数据采集中,不同类型科技事件所使用的信息来源有所不同。例如,在科技产出事件识别和抽取中,主要使用专利库、论文库、公司门户网站、防务网站、科技综合门户网站、电子期刊网站、社交媒体、学术会议等。不同信源提供的不同信源提供的数据选项和价值点也具有较大差异,信源与事件类型的关系如表2所示。
本发明,进一步的:步骤S21对事件的可信信源识别中,主要是针对某条信息(事件)开展可信信源数fccis与可疑信息源数fcdis的区分。该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别:其中:fpr:网站PR值(即PageRank值);finlink:反向链接数(Inlink);fad:网页的广告量(ad);fdate:创建时间(date)。PageRank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,通过Google提供的API获取;反向链接数是指该网站被其他网页或网站链接的数目;网页广告量能够反映网页创建的商用意图;网页创建时间则反映了网页提供信息的时效性,时间越近的信息时效性越好。
本发明,进一步的:步骤S22对具体事件的信息候选集的可信特征分析,主要采用信息的五个指标:(1)网页覆盖率frc;(2)可信信息源数fccis;(3)可疑信息源数fcdis;(4)网页平均创建时间factw;(5)在搜索返回结果中的平均网页排名fapr。覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例;可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后,类别属于可信信息源的数目;可疑信息源数为第一阶段分类后属于可疑信息源的数目;网页平均创建时间是指通过判断信息的网络出现时间,有助于甄别新旧信息;搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名,此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度。信息可信度的计算使用以下公式,其中λi值由经验确定。
本发明,进一步的:步骤S3中所涉及的技术实体处于科技事件识别和抽取的核心地位。技术实体是指体现研究内容和研究成果的技术关键词语,是科技事件的重要论元。技术实体包括概念实体和实例实体,概念实体是围绕科学问题、技术问题、产品体系结构产生的抽象类技术命名实体,实例实体是指具体科研活动中产生的物化形态的技术命名实体,包括了工艺、程序、组件、工具、产品等。技术实体主要来自于论文、专利、学术会议报告、网页等数据文本。
本发明,进一步的:步骤S4中所涉及的科技事件抽取时,面对不同文本类型,会选择不同的抽取策略。其中,论文、专利、学术会议报告主要从标题和摘要部分抽取;新闻门户、社交媒体等网页文本主要从全文数据抽取。在事件抽取中,可先进行科技事件相关的事件元素抽取,然后利用事件实体元素来提高事件触发词的抽取效果;人员、科研机构、科技成果、科研项目、研究领域等实体元素与科技迷雾密切相关,实体模型总体以BiGRU-CRF为基础,通过序列标注的方式来抽取各类事件的通用实体。然后利用这些实体作为注意力机制的输入,通过注意力机制抽取事件触发词,步骤S5中的图神经网络进行事件关联关系构建步骤包括六个步骤:①抽取事件链条。从文本中抽取叙事事件链条表示为S={s1,s2,s3,...,sN},其中si={T,e1,e2,e3,...,em}。T是该叙事事件链条中的主人公实体,该实体被事件链条中的每一个事件共享,在每一个事件中充当一定的事件元素成分。抽取出的每个事件ei表示一个结构化的事件四元组谓词,主语、宾语、间接宾语({p(a0,a1,a2)}),其中p是谓语动词,a0,a1,a2分别表示主语、宾语、间接宾语。②基于事件链条来构建叙事关系推断。事件关系图可以被形式化地定义为一个有向图G={V,E},其中V={v1,v2,v3,...,vP}是节点集合,E={l1,l2,l3,...,lQ}是边集合。将四元组事件ei表示为它的抽象形式(vi,ri),其中vi表示未经过规范化的谓语动词,ri表示谓语动词vi和链条主人公实体T的依存句法关系。所有的事件二元依存bigram关系都形成边集合E中的一条事件演化有向边li∶vi→vj,边上权重w可通过下列公式计算:
其中count(vi,vj)表示事件bigram(vi,vj)出现的频率。
③对目标事件进行元组结构化,以及其中的动词和其他事件元素的词向量(d是词向量的维度),通过构造不同的映射函数有许多种不同的方式来得到整个事件的向量表示/>
④通过图神经网络SGNN进行事件间交互关系的学习及预测。每次输入到SGNN模型的为两个矩阵:h0和A,其中矩阵包含了上下文和所有候选事件的向量表示。
矩阵A∈R(n+k)×(n+k)是相应的节点构成的子图邻接矩阵。邻接矩阵A决定了子图中的事件互相之间如何交互作用。
⑤通过计算这些事件向量表示之间的相似度来建模事件的相关性。假设SGNN模型的输出中事件的隐状态向量表示为候选事件的隐状态向量表示为给定一对事件/>和/>第i个事件与第j个候选事件的相关性分数可以通过/>进行计算,其中g为相关性度量函数。
⑥给出每一个上下文事件的表示和每一个候选事件的表示/>之间的相关性得分sij后,整个事件上下文e1,e2,...,en与第j个候选事件/>的相关性可以通过进行计算,进而基于公式c=maxjsj,挑选出正确的事件关系,作为最终的预测结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,包括以下步骤:
步骤S1:构建科技事件本体模型,定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;
步骤S2:完成科技事件数据采集,利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;
步骤S3:面向大规模文本数据的技术术语抽取,从步骤S2构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语,技术命名实体是科技事件的核心组成要素;
步骤S4:基于步骤S1定义的科技事件本体模型,利用BiGRU-CRF等深度模型开展科技事件实体抽取,利用预设触发词、注意力机制等多种策略抽取事件触发词,利用预设在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;
步骤S5:事件关联关系构建,科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑。
2.一种科技事件信息的可信度识别方法,其特征在于,包括以下步骤:
步骤S21:事件的可信信源识别;
步骤S22:事件信息候选集的可信特征分析。
3.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S1中所提到的科技事件本体模型所涉及实体包括人员、机构、项目、投资机构、科研团队、科研设施、科研会议、论文、专利、技术、时间等,每个实体包含多样属性,实体之间具有确定关系类型。
4.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S1中所提到的事件模型包括科技事件类型和事件形式化表达,科技事件类型包括科技研发事件、科技成果事件、科技应用事件、科技协作事件、人才变动事件,其中,科技研发事件主要包括理论攻关事件、技术改进事件、技术发明事件,成果公布事件指将科技创新成果公开的各类活动,主要包括论文发表事件、专利生成事件、科技宣传事件,科研协作事件主要包括科研合同签订事件、科研经费下拨事件、科研协议签订。
5.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S1中所提到的关系模型包括了实体与实体关系、事件与事件关系。
6.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S2中所涉及的科技事件数据采集中,不同类型科技事件所使用的信息来源有所不同,例如,在科技产出事件识别和抽取中,主要使用专利库、论文库、公司门户网站、防务网站、科技综合门户网站、电子期刊网站、社交媒体、学术会议,不同信源提供的不同信源提供的数据选项和价值点也具有较大差异。
7.根据权利要求2所述的一种科技事件信息的可信度识别方法,其特征在于,所述步骤S21对事件的可信信源识别中,主要是针对某条信息(事件)开展可信信源数fccis与可疑信息源数fcdis的区分,该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别:
其中:fpr:网站PR值(即PageRank值);finlink:反向链接数(Inlink);fad:网页的广告量(ad);fdate:创建时间(date),PageRank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,通过Google提供的API获取;反向链接数是指该网站被其他网页或网站链接的数目;网页广告量能够反映网页创建的商用意图;网页创建时间则反映了网页提供信息的时效性,时间越近的信息时效性越好。
8.根据权利要求2所述的一种科技事件信息的可信度识别方法,其特征在于,所述步骤S22对具体事件的信息候选集的可信特征分析,主要采用信息的五个指标:(1)网页覆盖率frc;(2)可信信息源数fccis;(3)可疑信息源数fcdis;(4)网页平均创建时间factw;(5)在搜索返回结果中的平均网页排名fapr,覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例;可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后,类别属于可信信息源的数目;可疑信息源数为第一阶段分类后属于可疑信息源的数目;网页平均创建时间是指通过判断信息的网络出现时间,有助于甄别新旧信息;搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名,此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度,信息可信度的计算使用以下公式,其中
λi值由经验确定:
9.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S3中所涉及的技术实体处于科技事件识别和抽取的核心地位,技术实体是指体现研究内容和研究成果的技术关键词语,是科技事件的重要论元,技术实体包括概念实体和实例实体,概念实体是围绕科学问题、技术问题、产品体系结构产生的抽象类技术命名实体,实例实体是指具体科研活动中产生的物化形态的技术命名实体,包括了工艺、程序、组件、工具、产品等,技术实体主要来自于论文、专利、学术会议报告、网页等数据文本。
10.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤S4中所涉及的科技事件抽取时,面对不同文本类型,会选择不同的抽取策略,其中,论文、专利、学术会议报告主要从标题和摘要部分抽取;新闻门户、社交媒体等网页文本主要从全文数据抽取,在事件抽取中,可先进行科技事件相关的事件元素抽取,然后利用事件实体元素来提高事件触发词的抽取效果;人员、科研机构、科技成果、科研项目、研究领域等实体元素与科技迷雾密切相关,实体模型总体以BiGRU-CRF为基础,通过序列标注的方式来抽取各类事件的通用实体,然后利用这些实体作为注意力机制的输入,通过注意力机制抽取事件触发词,所述步骤S5中的图神经网络进行事件关联关系构建步骤包括六个步骤:
①抽取事件链条,从文本中抽取叙事事件链条表示为S={s1,s2,s3,...,sN},其中si={T,e1,e2,e3,...,em},T是该叙事事件链条中的主人公实体,该实体被事件链条中的每一个事件共享,在每一个事件中充当一定的事件元素成分,抽取出的每个事件ei表示一个结构化的事件四元组谓词,主语、宾语、间接宾语({p(a0,a1,a2)}),其中p是谓语动词,a0,a1,a2分别表示主语、宾语、间接宾语,②基于事件链条来构建叙事关系推断,事件关系图可以被形式化地定义为一个有向图G={V,E},其中V={v1,v2,v3,...,vP}是节点集合,E={l1,l2,l3,...,lQ}是边集合,将四元组事件ei表示为它的抽象形式(vi,ri),其中vi表示未经过规范化的谓语动词,ri表示谓语动词vi和链条主人公实体T的依存句法关系,所有的事件二元依存bigram关系都形成边集合E中的一条事件演化有向边li:vi→vj,边上权重w可通过下列公式计算:
其中count(vi,vj)表示事件bigram(vi,vj)出现的频率;
③对目标事件进行元组结构化,以及其中的动词和其他事件元素的词向量(d是词向量的维度),通过构造不同的映射函数有许多种不同的方式来得到整个事件的向量表示/>
④通过图神经网络SGNN进行事件间交互关系的学习及预测,每次输入到SGNN模型的为两个矩阵:h0和A,其中矩阵包含了上下文和所有候选事件的向量表示;
矩阵A∈R(n+k)×(n+k)是相应的节点构成的子图邻接矩阵,邻接矩阵A决定了子图中的事件互相之间如何交互作用;
⑤通过计算这些事件向量表示之间的相似度来建模事件的相关性,假设SGNN模型的输出中事件的隐状态向量表示为候选事件的隐状态向量表示为给定一对事件/>和/>第l个事件与第j个候选事件的相关性分数可以通过/>进行计算,其中g为相关性度量函数;
⑥给出每一个上下文事件的表示和每一个候选事件的表示/>之间的相关性得分sij后,整个事件上下文e1,e2,...,en与第j个候选事件/>的相关性可以通过/>进行计算,进而基于公式c=maxjsj,挑选出正确的事件关系,作为最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310957936.2A CN117033654A (zh) | 2023-08-01 | 2023-08-01 | 一种面向科技迷雾识别的科技事件图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310957936.2A CN117033654A (zh) | 2023-08-01 | 2023-08-01 | 一种面向科技迷雾识别的科技事件图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033654A true CN117033654A (zh) | 2023-11-10 |
Family
ID=88601537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310957936.2A Pending CN117033654A (zh) | 2023-08-01 | 2023-08-01 | 一种面向科技迷雾识别的科技事件图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033654A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435697A (zh) * | 2023-12-21 | 2024-01-23 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理系统 |
-
2023
- 2023-08-01 CN CN202310957936.2A patent/CN117033654A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435697A (zh) * | 2023-12-21 | 2024-01-23 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理系统 |
CN117435697B (zh) * | 2023-12-21 | 2024-03-22 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | A practical approach to constructing a knowledge graph for cybersecurity | |
Kong et al. | Exploring dynamic research interest and academic influence for scientific collaborator recommendation | |
Song et al. | Expertisenet: Relational and evolutionary expert modeling | |
Yang et al. | Leveraging procedural knowledge for task-oriented search | |
CN104361102A (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
Du et al. | An approach for selecting seed URLs of focused crawler based on user-interest ontology | |
Varlamov et al. | A survey of methods for the extraction of information from Web resources | |
CN107918644A (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
Fu et al. | Representation learning for heterogeneous information networks via embedding events | |
Wu et al. | A novel community answer matching approach based on phrase fusion heterogeneous information network | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
Kanakaris et al. | Making personnel selection smarter through word embeddings: A graph-based approach | |
Haris et al. | Mining graphs from travel blogs: a review in the context of tour planning | |
US10990881B1 (en) | Predictive analytics using sentence data model | |
Liu et al. | Dynamic updating of the knowledge base for a large-scale question answering system | |
Naik et al. | An adaptable scheme to enhance the sentiment classification of Telugu language | |
Movahedian et al. | A semantic recommender system based on frequent tag pattern | |
Aiza et al. | Features, techniques and evaluation in predicting articles’ citations: a review from years 2010–2023 | |
Do et al. | DW-PathSim: a distributed computing model for topic-driven weighted meta-path-based similarity measure in a large-scale content-based heterogeneous information network | |
Lu et al. | Overview of knowledge mapping construction technology | |
Singh et al. | Semantic web mining: survey and analysis | |
Pushpa Rani et al. | An optimized topic modeling question answering system for web-based questions | |
Li et al. | Application of data mining in personalized remote distance education web system | |
Zhou et al. | Spatiotemporal data cleaning and knowledge fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |