CN117033654A

CN117033654A - 一种面向科技迷雾识别的科技事件图谱构建方法

Info

Publication number: CN117033654A
Application number: CN202310957936.2A
Authority: CN
Inventors: 杜彦昌; 高原; 宋爽; 李书兴; 程绍驰
Original assignee: Research Institute of War of PLA Academy of Military Science
Current assignee: Research Institute of War of PLA Academy of Military Science
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-10

Abstract

本发明公开了一种面向科技迷雾识别的科技事件图谱构建方法，包括以下步骤：步骤S1：构建科技事件本体模型。定义科技实体及事件类型本体模型，形成科技事件识别和分析的基础；步骤S2：针对科技事件进行数据采集。利用预设信源体系和公开搜索引擎，迭代采集与科技事件相关文本数据，形成事件数据集。该科技事件图谱的构建方法，通过利用开源的相关科技数据，形成科技事件图谱，可以直观的分析出科技事件各个实体之间的相关联性，可支持关键事件演化脉络挖掘、事件演化路径分析、主题事件创新能力评估、创新团队协作关系分析等科技事件的深度认知，摸清科技事件所涉及的科研主体的研发实力、科研成果的技术水平、科技成果应用效能等。

Description

一种面向科技迷雾识别的科技事件图谱构建方法

技术领域

本发明涉及科技迷雾技术领域，具体为一种面向科技热点事件的事件图谱构建方法。

背景技术

科技迷雾主要指国家/企业等主体通过多种媒介，选择或错误披露科技迷雾事件，诱发竞争对手做出错误策略和政策。其中，科技迷雾事件所涉及的核心迷雾问题包括：技术原理科学性存疑、科技水平真实性存疑、技术方向布局存疑。科技迷雾事件可分为技术概念迷雾事件、技术原理迷雾事件、产品性能迷雾事件、产品应用迷雾事件等多类事件。目前，人类科研活动在互联网留下了大量数据，如论文、专利、会议报告、预算文件、项目公告、社交数据、论坛数据、新闻文本等。如何从这些海量数据中挖掘和提炼出准确、高价值的科技事件并形成事件关联关系，成为识别科技迷雾迫切需要解决的基础问题。

因此，本发明提供一种面向科技迷雾识别的科技事件图谱构建方法，用于描述和精准识别科技迷雾事件所涉及的各类实体以及事件类型，支撑分析科技迷雾所涉及的技术演进脉络、技术研发重心、技术创新成熟度分析。

发明内容

本发明的目的在于提供一种面向科技迷雾识别的科技事件图谱构建方法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：一种面向科技迷雾识别的科技事件图谱构建方法，包括以下步骤：

步骤S1：构建科技事件本体模型。定义科技实体及事件类型本体模型，形成科技事件识别和分析的基础；

步骤S2：针对科技事件进行数据采集。利用预设信源体系和公开搜索引擎，迭代采集与科技事件相关文本数据，形成事件数据集；

步骤S3：面向大规模文本数据的技术术语抽取。从步骤S2构建的大规模文本事件数据集中抽取体现科技成果的技术术语。在论文、专利、学术报告中主要使用KeyBert等预训练模型进行抽取。在网页文本中主要使用BiLSTM-CRF等深度学习模型通过数据序列标注抽取技术术语。

步骤S4：基于步骤S1定义的科技事件本体模型，开展科技事件抽取。在事件具体抽取中，可先进行事件相关的实体抽取，然后利用实体来提高事件触发词的抽取效果；

步骤S5：通过人工标注、图神经网络计算等多种策略开展事件关联关系构建。科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型，为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑；

另外，本发明还提出一种科技事件信息的可信度识别方法，包括以下步骤：

步骤S21：事件的可信信源识别；

步骤S22：事件信息候选集的可信特征分析。

与现有技术相比，本发明的有益效果是：该科技事件图谱的构建方法，通过利用开源的相关科技数据，形成科技事件图谱，可以直观的分析出科技事件各个实体之间的相关联性，可支持关键事件演化脉络挖掘、事件演化路径分析、主题事件创新能力评估、创新团队协作关系分析等科技事件的深度认知，摸清科技事件所涉及的科研主体的研发实力、科研成果的技术水平、科技成果应用效能等，为科技战略决策布局提供重要支撑。

附图说明

图1是本发明面向科技迷雾识别的科技事件图谱构建方法流程图；

图2是本发明科技事件涉及实体及实体关系；

图3是本发明科研实体及相互关系概念图；

图4是本发明科技事件信息的可信度识别方法示意图；

图5是本发明科技事件类型及关键论元；

图6是本发明不同信源及事件类型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，本发明提供一种技术方案：一种面向科技迷雾识别的科技事件图谱构建方法，包括以下步骤：

步骤S2：完成科技事件数据采集。利用预设信源体系和公开搜索引擎，迭代采集与科技事件相关文本数据，形成事件数据集；

步骤S3：面向大规模文本数据的技术术语抽取。从步骤S2构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语，技术命名实体是科技事件的核心组成要素；

步骤S4：基于步骤S1定义的科技事件本体模型，利用BiGRU-CRF等深度模型开展科技事件实体抽取，利用预设触发词、注意力机制等多种策略抽取事件触发词。利用预设在事件具体抽取中，可先进行事件相关的实体抽取，然后利用实体来提高事件触发词的抽取效果；

步骤S5：事件关联关系构建。科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型，为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑；

一种科技事件信息的可信度识别方法，包括以下步骤：

步骤S21：事件的可信信源识别；

步骤S22：事件信息候选集的可信特征分析。

本发明，进一步的：步骤S1中所提到的科技事件本体模型所涉及实体包括人员、机构、项目、投资机构、科研团队、科研设施、科研会议、论文、专利、技术、时间等，每个实体包含多样属性，实体之间具有确定关系类型。

本发明，进一步的：步骤S1中所提到的事件模型包括科技事件类型和事件形式化表达。科技事件类型包括科技研发事件、科技成果事件、科技应用事件、科技协作事件、人才变动事件等。其中，科技研发事件主要包括理论攻关事件、技术改进事件、技术发明事件等。成果公布事件指将科技创新成果公开的各类活动，主要包括论文发表事件、专利生成事件、科技宣传事件等。科研协作事件主要包括科研合同签订事件、科研经费下拨事件、科研协议签订等。相关事件类型表格如下：

本发明，进一步的：步骤S1中所提到的关系模型包括了实体与实体关系、事件与事件关系等。实体与实体的关系如图2所示，事件与事件关系包含了时序、顺承、因果等三类事件类型。

本发明，进一步的：步骤S2中所涉及的科技事件数据采集中，不同类型科技事件所使用的信息来源有所不同。例如，在科技产出事件识别和抽取中，主要使用专利库、论文库、公司门户网站、防务网站、科技综合门户网站、电子期刊网站、社交媒体、学术会议等。不同信源提供的不同信源提供的数据选项和价值点也具有较大差异，信源与事件类型的关系如表2所示。

本发明，进一步的：步骤S21对事件的可信信源识别中，主要是针对某条信息(事件)开展可信信源数f_ccis与可疑信息源数f_cdis的区分。该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别：其中：f_pr：网站PR值(即PageRank值)；f_inlink：反向链接数(Inlink)；f_ad：网页的广告量(ad)；f_date：创建时间(date)。PageRank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度，通过Google提供的API获取；反向链接数是指该网站被其他网页或网站链接的数目；网页广告量能够反映网页创建的商用意图；网页创建时间则反映了网页提供信息的时效性，时间越近的信息时效性越好。

本发明，进一步的：步骤S22对具体事件的信息候选集的可信特征分析，主要采用信息的五个指标：(1)网页覆盖率f_rc；(2)可信信息源数f_ccis；(3)可疑信息源数f_cdis；(4)网页平均创建时间f_actw；(5)在搜索返回结果中的平均网页排名f_apr。覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例；可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后，类别属于可信信息源的数目；可疑信息源数为第一阶段分类后属于可疑信息源的数目；网页平均创建时间是指通过判断信息的网络出现时间，有助于甄别新旧信息；搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名，此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度。信息可信度的计算使用以下公式，其中λ_i值由经验确定。

本发明，进一步的：步骤S3中所涉及的技术实体处于科技事件识别和抽取的核心地位。技术实体是指体现研究内容和研究成果的技术关键词语，是科技事件的重要论元。技术实体包括概念实体和实例实体，概念实体是围绕科学问题、技术问题、产品体系结构产生的抽象类技术命名实体，实例实体是指具体科研活动中产生的物化形态的技术命名实体，包括了工艺、程序、组件、工具、产品等。技术实体主要来自于论文、专利、学术会议报告、网页等数据文本。

本发明，进一步的：步骤S4中所涉及的科技事件抽取时，面对不同文本类型，会选择不同的抽取策略。其中，论文、专利、学术会议报告主要从标题和摘要部分抽取；新闻门户、社交媒体等网页文本主要从全文数据抽取。在事件抽取中，可先进行科技事件相关的事件元素抽取，然后利用事件实体元素来提高事件触发词的抽取效果；人员、科研机构、科技成果、科研项目、研究领域等实体元素与科技迷雾密切相关，实体模型总体以BiGRU-CRF为基础，通过序列标注的方式来抽取各类事件的通用实体。然后利用这些实体作为注意力机制的输入，通过注意力机制抽取事件触发词，步骤S5中的图神经网络进行事件关联关系构建步骤包括六个步骤：①抽取事件链条。从文本中抽取叙事事件链条表示为S＝{s₁，s₂，s₃，...，s_N}，其中s_i＝{T，e₁，e₂，e₃，...，e_m}。T是该叙事事件链条中的主人公实体，该实体被事件链条中的每一个事件共享，在每一个事件中充当一定的事件元素成分。抽取出的每个事件e_i表示一个结构化的事件四元组谓词，主语、宾语、间接宾语({p(a₀，a₁，a₂)}),其中p是谓语动词,a₀，a₁，a₂分别表示主语、宾语、间接宾语。②基于事件链条来构建叙事关系推断。事件关系图可以被形式化地定义为一个有向图G＝{V，E},其中V＝{v₁，v₂，v₃，...，v_P}是节点集合,E＝{l₁，l₂，l₃，...，l_Q}是边集合。将四元组事件e_i表示为它的抽象形式(v_i，r_i),其中v_i表示未经过规范化的谓语动词，r_i表示谓语动词v_i和链条主人公实体T的依存句法关系。所有的事件二元依存bigram关系都形成边集合E中的一条事件演化有向边l_i∶v_i→v_j，边上权重w可通过下列公式计算：

其中count(v_i，v_j)表示事件bigram(v_i，v_j)出现的频率。

③对目标事件进行元组结构化，以及其中的动词和其他事件元素的词向量(d是词向量的维度)，通过构造不同的映射函数有许多种不同的方式来得到整个事件的向量表示/>

④通过图神经网络SGNN进行事件间交互关系的学习及预测。每次输入到SGNN模型的为两个矩阵：h⁰和A,其中矩阵包含了上下文和所有候选事件的向量表示。

矩阵A∈R^(n+k)×(n+k)是相应的节点构成的子图邻接矩阵。邻接矩阵A决定了子图中的事件互相之间如何交互作用。

⑤通过计算这些事件向量表示之间的相似度来建模事件的相关性。假设SGNN模型的输出中事件的隐状态向量表示为候选事件的隐状态向量表示为给定一对事件/>和/>第i个事件与第j个候选事件的相关性分数可以通过/>进行计算,其中g为相关性度量函数。

⑥给出每一个上下文事件的表示和每一个候选事件的表示/>之间的相关性得分s_ij后，整个事件上下文e₁，e₂，...，e_n与第j个候选事件/>的相关性可以通过进行计算，进而基于公式c＝max_js_j,挑选出正确的事件关系，作为最终的预测结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，包括以下步骤：

步骤S1：构建科技事件本体模型，定义科技实体及事件类型本体模型，形成科技事件识别和分析的基础；

步骤S2：完成科技事件数据采集，利用预设信源体系和公开搜索引擎，迭代采集与科技事件相关文本数据，形成事件数据集；

步骤S3：面向大规模文本数据的技术术语抽取，从步骤S2构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语，技术命名实体是科技事件的核心组成要素；

步骤S4：基于步骤S1定义的科技事件本体模型，利用BiGRU-CRF等深度模型开展科技事件实体抽取，利用预设触发词、注意力机制等多种策略抽取事件触发词，利用预设在事件具体抽取中，可先进行事件相关的实体抽取，然后利用实体来提高事件触发词的抽取效果；

步骤S5：事件关联关系构建，科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件、事件与事件之间的关联关系以及关系类型，为后续的科技创新能力分析、科研团队关联关系挖掘等决策辅助提供支撑。

2.一种科技事件信息的可信度识别方法，其特征在于，包括以下步骤：

步骤S21：事件的可信信源识别；

步骤S22：事件信息候选集的可信特征分析。

3.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，所述步骤S1中所提到的科技事件本体模型所涉及实体包括人员、机构、项目、投资机构、科研团队、科研设施、科研会议、论文、专利、技术、时间等，每个实体包含多样属性，实体之间具有确定关系类型。

4.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，所述步骤S1中所提到的事件模型包括科技事件类型和事件形式化表达，科技事件类型包括科技研发事件、科技成果事件、科技应用事件、科技协作事件、人才变动事件，其中，科技研发事件主要包括理论攻关事件、技术改进事件、技术发明事件，成果公布事件指将科技创新成果公开的各类活动，主要包括论文发表事件、专利生成事件、科技宣传事件，科研协作事件主要包括科研合同签订事件、科研经费下拨事件、科研协议签订。

5.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，所述步骤S1中所提到的关系模型包括了实体与实体关系、事件与事件关系。

6.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，所述步骤S2中所涉及的科技事件数据采集中，不同类型科技事件所使用的信息来源有所不同，例如，在科技产出事件识别和抽取中，主要使用专利库、论文库、公司门户网站、防务网站、科技综合门户网站、电子期刊网站、社交媒体、学术会议，不同信源提供的不同信源提供的数据选项和价值点也具有较大差异。

7.根据权利要求2所述的一种科技事件信息的可信度识别方法，其特征在于，所述步骤S21对事件的可信信源识别中，主要是针对某条信息(事件)开展可信信源数f_ccis与可疑信息源数f_cdis的区分，该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别：

其中：f_pr：网站PR值(即PageRank值)；f_inlink：反向链接数(Inlink)；f_ad：网页的广告量(ad)；f_date：创建时间(date)，PageRank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度，通过Google提供的API获取；反向链接数是指该网站被其他网页或网站链接的数目；网页广告量能够反映网页创建的商用意图；网页创建时间则反映了网页提供信息的时效性，时间越近的信息时效性越好。

8.根据权利要求2所述的一种科技事件信息的可信度识别方法，其特征在于，所述步骤S22对具体事件的信息候选集的可信特征分析，主要采用信息的五个指标：(1)网页覆盖率f_rc；(2)可信信息源数f_ccis；(3)可疑信息源数f_cdis；(4)网页平均创建时间f_actw；(5)在搜索返回结果中的平均网页排名f_apr，覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例；可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后，类别属于可信信息源的数目；可疑信息源数为第一阶段分类后属于可疑信息源的数目；网页平均创建时间是指通过判断信息的网络出现时间，有助于甄别新旧信息；搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名，此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度，信息可信度的计算使用以下公式，其中

λ_i值由经验确定：

9.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，所述步骤S3中所涉及的技术实体处于科技事件识别和抽取的核心地位，技术实体是指体现研究内容和研究成果的技术关键词语，是科技事件的重要论元，技术实体包括概念实体和实例实体，概念实体是围绕科学问题、技术问题、产品体系结构产生的抽象类技术命名实体，实例实体是指具体科研活动中产生的物化形态的技术命名实体，包括了工艺、程序、组件、工具、产品等，技术实体主要来自于论文、专利、学术会议报告、网页等数据文本。

10.根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法，其特征在于，所述步骤S4中所涉及的科技事件抽取时，面对不同文本类型，会选择不同的抽取策略，其中，论文、专利、学术会议报告主要从标题和摘要部分抽取；新闻门户、社交媒体等网页文本主要从全文数据抽取，在事件抽取中，可先进行科技事件相关的事件元素抽取，然后利用事件实体元素来提高事件触发词的抽取效果；人员、科研机构、科技成果、科研项目、研究领域等实体元素与科技迷雾密切相关，实体模型总体以BiGRU-CRF为基础，通过序列标注的方式来抽取各类事件的通用实体，然后利用这些实体作为注意力机制的输入，通过注意力机制抽取事件触发词，所述步骤S5中的图神经网络进行事件关联关系构建步骤包括六个步骤：

①抽取事件链条，从文本中抽取叙事事件链条表示为S＝{s₁，s₂，s₃，...，s_N}，其中s_i＝{T，e₁，e₂，e₃，...，e_m}，T是该叙事事件链条中的主人公实体，该实体被事件链条中的每一个事件共享，在每一个事件中充当一定的事件元素成分，抽取出的每个事件e_i表示一个结构化的事件四元组谓词，主语、宾语、间接宾语({p(a₀，a₁，a₂)})，其中p是谓语动词，a₀，a₁，a₂分别表示主语、宾语、间接宾语，②基于事件链条来构建叙事关系推断，事件关系图可以被形式化地定义为一个有向图G＝{V，E}，其中V＝{v₁，v₂，v₃，...，v_P}是节点集合，E＝{l₁，l₂，l₃，...，l_Q}是边集合，将四元组事件e_i表示为它的抽象形式(v_i，r_i)，其中v_i表示未经过规范化的谓语动词，r_i表示谓语动词v_i和链条主人公实体T的依存句法关系，所有的事件二元依存bigram关系都形成边集合E中的一条事件演化有向边l_i：v_i→v_j，边上权重w可通过下列公式计算：

其中count(v_i，v_j)表示事件bigram(v_i，v_j)出现的频率；

④通过图神经网络SGNN进行事件间交互关系的学习及预测，每次输入到SGNN模型的为两个矩阵：h⁰和A，其中矩阵包含了上下文和所有候选事件的向量表示；

矩阵A∈R^(n+k)×(n+k)是相应的节点构成的子图邻接矩阵，邻接矩阵A决定了子图中的事件互相之间如何交互作用；

⑤通过计算这些事件向量表示之间的相似度来建模事件的相关性，假设SGNN模型的输出中事件的隐状态向量表示为候选事件的隐状态向量表示为给定一对事件/>和/>第l个事件与第j个候选事件的相关性分数可以通过/>进行计算，其中g为相关性度量函数；

⑥给出每一个上下文事件的表示和每一个候选事件的表示/>之间的相关性得分s_ij后，整个事件上下文e₁，e₂，...，e_n与第j个候选事件/>的相关性可以通过/>进行计算，进而基于公式c＝max_js_j，挑选出正确的事件关系，作为最终的预测结果。