CN116595192B - 科技前沿信息获取方法、装置、电子设备和可读存储介质 - Google Patents

科技前沿信息获取方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN116595192B
CN116595192B CN202310564879.1A CN202310564879A CN116595192B CN 116595192 B CN116595192 B CN 116595192B CN 202310564879 A CN202310564879 A CN 202310564879A CN 116595192 B CN116595192 B CN 116595192B
Authority
CN
China
Prior art keywords
knowledge
node
knowledge node
nodes
technological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310564879.1A
Other languages
English (en)
Other versions
CN116595192A (zh
Inventor
曾文
张昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Scientific And Technical Information Of China
Original Assignee
Institute Of Scientific And Technical Information Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Scientific And Technical Information Of China filed Critical Institute Of Scientific And Technical Information Of China
Priority to CN202310564879.1A priority Critical patent/CN116595192B/zh
Publication of CN116595192A publication Critical patent/CN116595192A/zh
Application granted granted Critical
Publication of CN116595192B publication Critical patent/CN116595192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本申请实施例提供了一种科技前沿信息获取方法、装置、电子设备和可读存储介质,涉及数据挖掘领域。该方法包括:获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,根据SAO结构获取知识节点,并根据各知识节点之间的语义关系,确定各知识节点的关联关系;对于每一知识节点,获取知识节点的新颖性、关注性、增长性、交叉性和价值性,确定知识节点的前沿程度并获取知识节点对应的属性;基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,并基于科技前沿树形结构获取科技前沿信息。该方案能够有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。

Description

科技前沿信息获取方法、装置、电子设备和可读存储介质
技术领域
本申请涉及数据挖掘技术领域,具体而言,本申请涉及一种科技前沿信息获取方法、装置、电子设备和可读存储介质。
背景技术
目前,科技前沿信息获取方法分为定性分析方法和定量分析方法,定性分析方法主要依托于专家智慧和经验,费时费力,获取的结果受主观意愿影响;定量分析方法则以文献计量学为基础,存在科技前沿信息获取结果滞后和效率低下的问题。
综上,现有的科技前沿信息获取方法仍有很多局限性,均存在科技前沿信息获取效率低以及科技前沿信息获取结果准确性不高的问题。因此,亟需提供一种提高科技前沿信息获取效率和科技前沿信息获取结果准确性的科技前沿信息获取方案。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
第一方面,本申请实施例提供了一种科技前沿信息获取方法,包括:
获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,并基于各SAO结构获取目标领域的至少一个知识节点;其中,科技信息数据集中包括目标领域公开的科技成果对应的文本;
基于各文本的题录信息确定各知识节点之间的语义关系,并基于各知识节点之间的语义关系确定各知识节点的关联关系;
对于每一知识节点,基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取知识节点的前沿程度,基于各知识节点的前沿程度获取对应的属性;
基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,并基于科技前沿树形结构获取科技前沿信息。
在本申请的一种可选实施例中,每一知识节点的关联关系包括知识节点的前驱知识节点和知识节点与前驱知识节点之间的关系类型;
基于各知识节点之间的语义关系确定各知识节点的关联关系,具体包括:
基于各知识节点之间的语义关系,获取每一知识节点对应的前驱知识节点,并获取知识节点与前驱知识节点之间的关系类型;其中,关系类型为前驱知识节点与知识节点之间的指向关系;
根据每一知识节点对应的前驱知识节点和知识节点与前驱知识节点之间的关系类型,获取知识节点的关联关系。
在本申请的一种可选实施例中,基于各SAO结构获取目标领域的至少一个知识节点,具体包括:
根据与目标领域匹配的SAO结构中的主语和宾语,获取候选知识节点;
将候选知识节点与预设词表进行比对,并将比对成功的候选知识节点作为至少一个知识节点。
在本申请的一种可选实施例中,基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,包括:
基于与知识节点相关的文本对应的公开时间和公开文本总量,获取知识节点的新颖性;其中,新颖性用于表征知识节点对应的科技成果的平均公开时间;
基于与知识节点相关的文本的被引用频次,获取知识节点的关注性;其中,关注性用于表征知识节点对应的科技成果的年平均被引用频次;
基于与知识节点相关的文本的年公开量,获取知识节点的增长性;其中,增长性用于表征知识节点对应的科技成果的年平均增长率;
基于与知识节点相关的文本的检索分类类别,获取知识节点的交叉性;其中,交叉性用于表征知识节点对应的科技成果在检索分类类别下的数量均值;
基于与知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取知识节点的价值性;其中,价值性用于表征知识节点对应的科技项目的研发投入力度。
在本申请的一种可选实施例中,目标领域公开的科技成果包括:论文、专利和基金项目;
基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,包括:
基于与知识节点相关的至少一个论文文本,获取论文的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个专利文本,获取专利的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个基金项目文本,获取基金项目的新颖性、增长性和价值性;
基于预设论文、专利和基金项目的贡献权重,分别加权融合新颖性、关注性、增长性、交叉性和价值性,获取知识节点的新颖性、关注性、增长性、交叉性和价值性。
在本申请的一种可选实施例中,基于各知识节点的前沿程度获取对应的属性,包括:
对于每一知识节点,获取知识节点的前沿程度;
根据目标领域所有知识节点的前沿程度,获取新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值;
将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,并根据节点等级获取知识节点对应的属性;节点等级用于表征知识节点在目标领域中的前沿程度的等级。
在本申请的一种可选实施例中,将每一知识节点的节点前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,具体包括:
若确定与知识节点相关的至少一个文本不仅包含基金项目,则将知识节点的新颖性与新颖性均值比较,若确定新颖性不大于新颖性均值,则确定知识节点的节点等级为第一等级;
若确定新颖性大于新颖性均值,则将知识节点的关注性与关注性均值比较,若确定关注性大于关注性均值,则确定知识节点的节点等级为第二等级;
若确定关注性不大于关注性均值,则将知识节点的增长性与增长性均值比较,若确定增长性大于增长性均值,则确定知识节点的节点等级为第三等级;
若确定增长性不大于增长性均值,则将知识节点的交叉性与交叉性均值比较,若确定交叉性不大于交叉性均值,则确定知识节点的节点等级为第四等级,若确定交叉性大于交叉性均值,则确定知识节点的节点等级为第五等级。
在本申请的一种可选实施例中,方法还包括:
若确定与知识节点相关的至少一个文本仅包含基金项目,则将知识节点的价值性与价值性均值比较,若确定价值性大于价值性均值,则确定知识节点的节点等级为第四等级。
在本申请的一种可选实施例中,基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,具体包括:
基于各知识节点的属性,根据预设节点生成规则,确定各知识节点对应的标志;
基于各知识节点、各知识节点的属性、各知识节点的关联关系以及各知识节点对应的标志,构建目标领域的科技前沿树形结构。
在本申请的一种可选实施例中,在基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构的步骤之后,还包括:
获取目标领域科技信息数据集中各新增文本的题录信息对应的新增SAO结构,并基于各新增SAO结构获取目标领域的至少一个新增知识节点;
将每一新增知识节点与科技前沿树形结构中所有知识节点进行比对,判断新增知识节点是否已存在于科技前沿树形结构中;
若确定新增知识节点已存在于科技前沿树形结构中,则获取并更新科技前沿树形结构中新增知识节点对应的属性。
在本申请的一种可选实施例中,方法还包括:
若确定新增知识节点不存在于科技前沿树形结构中,则基于各新增文本的题录信息确定新增知识节点和各知识节点之间的语义关系,并基于新增知识节点和各知识节点之间的语义关系,确定新增知识节点的关联关系;
对于新增知识节点,基于与新增知识节点相关的至少一个文本获取新增知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取新增知识节点的前沿程度,基于新增知识节点的前沿程度获取对应的属性;
根据新增知识节点、新增知识节点的属性以及新增知识节点的关联关系,将新增知识节点增添入科技前沿树形结构中。
第二方面,本申请实施例提供了一种科技前沿信息获取装置,包括:
知识节点获取模块,用于获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,并基于各SAO结构获取目标领域的至少一个知识节点;其中,科技信息数据集中包括目标领域公开的科技成果对应的文本;
节点关系分析模块,用于基于各文本的题录信息确定各知识节点之间的语义关系,并基于各知识节点之间的语义关系确定各知识节点的关联关系;
节点属性获取模块,用于对于每一知识节点,基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取知识节点的前沿程度,基于各知识节点的前沿程度获取对应的属性;
树形结构构建模块,用于基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,并基于科技前沿树形结构获取科技前沿信息。
在本申请的一种可选实施例中,每一知识节点的关联关系包括知识节点的前驱知识节点和知识节点与前驱知识节点之间的关系类型;
节点关系分析模块具体用于:
基于各知识节点之间的语义关系,获取每一知识节点对应的前驱知识节点,并获取知识节点与前驱知识节点之间的关系类型;其中,关系类型为前驱知识节点与知识节点之间的指向关系;
根据每一知识节点对应的前驱知识节点和知识节点与前驱知识节点之间的关系类型,获取知识节点的关联关系。
在本申请的一种可选实施例中,知识节点获取模块,具体用于:
根据与目标领域匹配的SAO结构中的主语和宾语,获取候选知识节点;
将候选知识节点与预设词表进行比对,并将比对成功的候选知识节点作为至少一个知识节点。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
基于与知识节点相关的文本对应的公开时间和公开文本总量,获取知识节点的新颖性;其中,新颖性用于表征知识节点对应的科技成果的平均公开时间;
基于与知识节点相关的文本的被引用频次,获取知识节点的关注性;其中,关注性用于表征知识节点对应的科技成果的年平均被引用频次;
基于与知识节点相关的文本的年公开量,获取知识节点的增长性;其中,增长性用于表征知识节点对应的科技成果的年平均增长率;
基于与知识节点相关的文本的检索分类类别,获取知识节点的交叉性;其中,交叉性用于表征知识节点对应的科技成果在检索分类类别下的数量均值;
基于与知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取知识节点的价值性;其中,价值性用于表征知识节点对应的科技项目的研发投入力度。
在本申请的一种可选实施例中,目标领域公开的科技成果包括:论文、专利和基金项目;
节点属性获取模块,具体用于:
基于与知识节点相关的至少一个论文文本,获取论文的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个专利文本,获取专利的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个基金项目文本,获取基金项目的新颖性、增长性和价值性;
基于预设论文、专利和基金项目的贡献权重,分别加权融合新颖性、关注性、增长性、交叉性和价值性,获取知识节点的新颖性、关注性、增长性、交叉性和价值性。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
对于每一知识节点,获取知识节点的前沿程度;
根据目标领域所有知识节点的前沿程度,获取新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值;
将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,并根据节点等级获取知识节点对应的属性;节点等级用于表征知识节点在目标领域中的前沿程度的等级。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
若确定与知识节点相关的至少一个文本不仅包含基金项目,则将知识节点的新颖性与新颖性均值比较,若确定新颖性不大于新颖性均值,则确定知识节点的节点等级为第一等级;
若确定新颖性大于新颖性均值,则将知识节点的关注性与关注性均值比较,若确定关注性大于关注性均值,则确定知识节点的节点等级为第二等级;
若确定关注性不大于关注性均值,则将知识节点的增长性与增长性均值比较,若确定增长性大于增长性均值,则确定知识节点的节点等级为第三等级;
若确定增长性不大于增长性均值,则将知识节点的交叉性与交叉性均值比较,若确定交叉性不大于交叉性均值,则确定知识节点的节点等级为第四等级,若确定交叉性大于交叉性均值,则确定知识节点的节点等级为第五等级。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
若确定与知识节点相关的至少一个文本仅包含基金项目,则将知识节点的价值性与价值性均值比较,若确定价值性大于价值性均值,则确定知识节点的节点等级为第四等级。
在本申请的一种可选实施例中,基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,具体包括:
基于各知识节点的属性,根据预设节点生成规则,确定各知识节点对应的标志;
基于各知识节点、各知识节点的属性、各知识节点的关联关系以及各知识节点对应的标志,构建目标领域的科技前沿树形结构。
在本申请的一种可选实施例中,科技前沿信息获取装置还包括:树形结构更新模块;树形结构更新模块,具体用于:
获取目标领域科技信息数据集中各新增文本的题录信息对应的新增SAO结构,并基于各新增SAO结构获取目标领域的至少一个新增知识节点;
将每一新增知识节点与科技前沿树形结构中所有知识节点进行比对,判断新增知识节点是否已存在于科技前沿树形结构中;
若确定新增知识节点已存在于科技前沿树形结构中,则获取并更新科技前沿树形结构中新增知识节点对应的属性。
在本申请的一种可选实施例中,树形结构更新模块,具体用于:
若确定新增知识节点不存在于科技前沿树形结构中,则基于各新增文本的题录信息确定新增知识节点和各知识节点之间的语义关系,并基于新增知识节点和各知识节点之间的语义关系,确定新增知识节点的关联关系;
对于新增知识节点,基于与新增知识节点相关的至少一个文本获取新增知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取新增知识节点的前沿程度,基于新增知识节点的前沿程度获取对应的属性;
根据新增知识节点、新增知识节点的属性以及新增知识节点的关联关系,将新增知识节点增添入科技前沿树形结构中。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一实施例所提供的科技前沿信息获取方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例所提供的科技前沿信息获取方法。
本申请实施例提供的技术方案带来的有益效果是:
本发明采用目标领域公开的科技成果对应的文本作为来源数据,提取题录信息中的SAO结构并对题录信息进行语义分析,确定知识节点和各知识节点的关联关系,并以知识节点的新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点在目标领域的前沿程度,实现对科技前沿信息的全面分析,改善单一方向进行前沿程度分析工作的局限性,并采用构建科技前沿树形结构的方式获取科技前沿信息,科技前沿树形结构能够直观地反映各知识节点之间的分支关系,实现科技前沿信息的准确表达,有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种科技前沿信息获取方法的流程示意图;
图2为本申请实施例一个示例中的科技前沿信息获取流程示意图;
图3为本申请实施例一个示例中的节点等级确定规则示意图;
图4为本申请实施例一个示例中的深度学习领域的科技前沿树形结构示意图;
图5为本申请实施例一个示例中的科技前沿树形结构生长规则示意图之一;
图6为本申请实施例一个示例中的科技前沿树形结构生长规则示意图之二;
图7为本申请实施例提供的一种科技前沿信息获取装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目前已有众多学者开展了科技前沿信息获取相关的研究,关于科技前沿信息获取的研究集中在研究前沿或技术前沿的数据分析上。其中,在研究前沿数据分析方面的数据对象主要为学术论文数据,在技术前沿数据分析方面的数据对象主要为专利数据。
科技前沿信息获取方法分为定性分析方法和定量分析方法。基于定性分析的科技前沿信息获取方法主要依托专家智慧和经验,常用的有德尔菲法和文献综述法。基于定量分析的科技前沿信息获取方法则以文献计量学为基础,根据分析的对象不同,可以将定量分析方法分为基于引文的方法、基于词汇的方法、基于引文和词汇的复合方法以及基于多维度信息的科技前沿信息获取方法。
现有的科技前沿信息获取方法仍存在很多局限性,比如定性分析方法费时费力,受主观意愿的影响;基于引文分析的方法存在滞后性;基于词汇的方法是对收集的大量论文或专利等数据经简单数据剔除过程后,直接对数据源进行科技前沿探测分析,存在数据冗余、科技前沿信息获取效率低下的问题;基于引文和词汇的复合方法过程较为繁琐和复杂,并且在理论上存在一定缺陷;基于多维度信息的科技前沿信息获取方法发展并不成熟且实现难度大。因此,科技前沿信息获取的效率和科技前沿信息获取结果的准确性均有待提高。
针对相关技术中所存在的上述至少一个技术问题或需要改善的地方,本申请提出一种科技前沿信息获取方案。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1为本申请实施例提供的一种科技前沿信息获取方法的流程示意图,该方法的执行主体可以是设备终端或服务器等,如图1所示,本申请实施例中提供了一种科技前沿信息获取方法,包括:
步骤S101,获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,并基于各SAO结构获取目标领域的至少一个知识节点。
其中,科技信息数据集中包括目标领域公开的科技成果对应的文本,如论文文本、专利文本、基金项目文本、著作文本和研究报告文本等;题录信息指文献的基本信息,包括题名、作者、关键词、作者机构、文献来源和摘要等。
具体的,图2为本申请实施例一个示例中的科技前沿信息获取流程示意图,如图2所示,可通过获取目标领域的科技信息数据集中的各文本的题录信息,按照预设规则,对题录信息中的摘要和标题内容进行分词、分句以及去停用词处理,对得到的词进行词性标注和词性还原,分析得到每一句的语法结构,确定句子中词和词之间的关系,并根据之前确定的词性,抽取其中的SAO(Subject-Action-Object,主语-行为-宾语)结构(或称主谓宾结构)。在抽取的SAO结构中确定目标领域的相关科技术语,获取目标领域的至少一个知识节点。
其中,词性还原指把一个词汇还原为一般形式(能表达完整语义),如对英文词中如动词的一般过去时形式(如ed形式),现在进行时(如ing形式)这些时态形式进行删除处理。
以获取一个知识节点为例,在深度学习领域中,根据题录信息中句子“基于卷积循环的单通道语音增强方法,在保持增强性能不变的前提下,大幅度降低了运算复杂度”抽取到SAO结构“单通道语音增强-降低-运算复杂度”,获取其中的科技术语“单通道语音增强”作为知识节点。
可以理解的是,本实施例对根据题录信息抽取SAO结构以及根据SAO结构获取知识节点的具体方式不作限定。
步骤S102,基于各文本的题录信息确定各知识节点之间的语义关系,并基于各知识节点之间的语义关系确定各知识节点的关联关系。
具体的,再次参考图2,在根据各文本的题录信息确定各知识节点后,可以在各文本的题录信息中抽取包括知识节点的句子,分析得到的每个句子的语法结构,确定句子中知识节点和知识节点之间的语义关系(如从属关系和并列关系等),并根据各知识节点之间的语义关系确定知识节点的关联关系。可以理解的是,知识节点的关联关系指当前知识节点和其所连接的知识节点之间的关系,其中,其所连接的知识节点包括其前驱知识节点和后驱知识节点。
例如,分析句子“深度学习常见的3种算法有:卷积神经网络、循环神经网络、生成对抗网络”可以确定知识节点“深度学习”和“卷积神经网络”、“循环神经网络”以及“生成对抗网络”之间为从属关系,而“卷积神经网络”、“循环神经网络”和“生成对抗网络”之间为并列关系。以知识节点的关联关系为当前知识节点和其前驱知识节点为例,知识节点“循环神经网络”的关联关系即为“循环神经网络-深度学习”。
可以理解的是,分析句子语法结构的方法可采用依存句法分析(DependencyParsing,DP),分析句子中各语言成分之间的依存关系,来揭示句子中词语间的结构信息。此外,还可适应性地采用其他的分析方法如语义依存分析(Semantic DependencyParsing,SDP)等,本实施例对此不作限定。
另外,知识节点的关联关系的具体表示方式,除了以当前知识节点和其前驱知识节点表示外,还可以采用当前知识节点和其后驱知识节点表示等形式,本实施例对此不作限定。
步骤S103,对于每一知识节点,基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取知识节点的前沿程度,基于各知识节点的前沿程度获取对应的属性。
具体的,在确定目标领域的知识节点后,可根据每一知识节点对科技信息数据集中各文本进行分类(例如,根据文本中是否包括“循环神经网络”,确定“循环神经网络”知识节点对应的文本类别),根据每一知识节点对应的文本数据,获取知识节点的新颖性、关注性、增长性、交叉性和价值性。本方案中采用新颖性、关注性、增长性、交叉性和价值性五项指标共同表征知识节点的前沿程度。
可以理解的是,新颖性用于表征当前知识节点对应的科技成果的研究时间。关注性用于表征当前知识节点对应的科技成果的被关注的程度。增长性用于表征当前知识节点对应的科技成果的增长情况。交叉性用于表征当前知识节点对应的科技成果的学科交叉情况。价值性用于表征当前知识节点对应的科技项目的研发投入情况。本方案对新颖性、关注性、增长性、交叉性和价值性的具体获取方式不作限定。
根据知识节点的前沿程度获取知识节点的属性。可以理解的是,再次参考图2,知识节点的属性可包括节点名称、节点ID(知识节点的唯一标识)、关联关系(知识节点之间关联关系所展现的具体信息)、前沿程度和节点等级等信息。
需要说明的是,知识节点的属性中包含的具体信息类型和数量可根据实际需求确定。例如,知识节点的属性包括节点ID、关联关系和前沿程度,其中,节点ID采用四位数编码的形式表示,关联关系采用当前知识节点和指向的其下一级知识节点(即当前知识节点的后驱知识节点)表示(如知识节点“深度学习”的关联关系采用“深度学习-卷积神经网络”表示),前沿程度以新颖性、关注性、增长性、交叉性和价值性组成的向量表示。本实施例对此不作限定。
步骤S104,基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,并基于科技前沿树形结构获取科技前沿信息。
具体的,确定各知识节点、各知识节点的属性以及各知识节点的关联关系后,可基于各知识节点确定科技前沿树形结构的节点,根据各知识节点的关联关系确定科技前沿树形结构分支,并根据各知识节点的属性添加知识节点对应的标签,进而构建目标领域科技前沿树形结构,根据该科技前沿树形结构即可直观地获取目标领域的科技前沿信息。
可以理解的是,在科技前沿树形结构中,主要信息为知识节点和知识节点的关联关系,知识节点的属性的表现方式可以采用选中显示或者悬浮显示等方式显示,具体的显示方式可根据实际需求设置,本方案对此不作限定。
本申请实施例提供的技术方案,采用目标领域公开的科技成果对应的文本作为来源数据,提取题录信息中的SAO结构并对题录信息进行语义分析,确定知识节点和各知识节点的关联关系,并以知识节点的新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点在目标领域的前沿程度,实现对科技前沿信息的全面分析,改善单一方向进行前沿程度分析工作的局限性,并采用构建科技前沿树形结构的方式获取科技前沿信息,科技前沿树形结构能够直观地反映各知识节点之间的分支关系,实现科技前沿信息的准确表达,有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
在本申请的一种可选实施例中,每一知识节点的关联关系包括知识节点的前驱知识节点和知识节点与前驱知识节点之间的关系类型;
基于各知识节点之间的语义关系确定各知识节点的关联关系,具体包括:
基于各知识节点之间的语义关系,获取每一知识节点对应的前驱知识节点,并获取知识节点与前驱知识节点之间的关系类型;其中,关系类型为前驱知识节点与知识节点之间的指向关系;
根据每一知识节点对应的前驱知识节点和知识节点与前驱知识节点之间的关系类型,获取知识节点的关联关系。
具体的,每一知识节点的关联关系包括知识节点的前驱知识节点和知识节点与前驱知识节点之间的关系类型。例如,以当前节点为后驱知识节点,采用{前驱知识节点,后驱知识节点,关系类型}三元组表示知识节点的关联关系。可以理解的是,除上述表示方式外,还可根据实际需求采用其他的表示方式,本方案对此不作限定。
获取各知识节点之间的语义关系,并根据该语义关系,确定每一知识节点对应的前驱知识节点,并根据语义关系,获取前驱知识节点与该节点(即后驱知识节点)之间的指向关系,确定关系类型。
例如,以知识节点“循环神经网络”为例,其前驱知识节点为“深度学习”,“深度学习”和“循环神经网络”之间的关系类型为“算法”,关联关系可采用{深度学习,循环神经网络,算法}三元组表示。可以理解的是,关系类型的获取方式可采用语义关系分析提取或根据人为经验设置等方式确定,本方案对此不作限定。
本申请实施例提供的技术方案,以知识节点的前驱知识节点和知识节点与前驱知识节点之间的关系类型确定每一知识节点的关联关系,以知识节点的关联关系确定科技前沿树形结构中各知识节点的分支情况,能够有效避免科技前沿信息分析时出现的数据冗余问题,有效提高分析效率。
在本申请的一种可选实施例中,基于各SAO结构获取目标领域的至少一个知识节点,具体包括:
根据与目标领域匹配的SAO结构中的主语和宾语,获取候选知识节点;
将候选知识节点与预设词表进行比对,并将比对成功的候选知识节点作为至少一个知识节点。
具体的,在根据题录信息获取SAO结构后,可对SAO结构进行规范处理,将词与词之间用特殊字符(如“-”)隔开,并对SAO结构进行筛选,将得到的SAO结构中的词语与目标领域技术背景进行比对,过滤掉与目标领域无关的SAO结构,筛选出与目标领域匹配的SAO结构,并对筛选得到的SAO结构进行规范处理,并抽取规范处理后的SAO结构中的实体词(主语和宾语),获取候选知识节点。
其中,对SAO结构进行规范处理的方式可以是删除特殊字符、规范词性和规范词形等。规范词性指对SAO结构中,名词做动词或动词作名词等类型进行修改,规范词形指对名词、动词的单复数等形式进行规范。
在获取候选知识节点后,将候选知识节点与预设词表进行比对,保留比对成功的候选知识节点,选择其中与目标领域技术背景匹配的候选知识节点,获取目标领域的至少一个知识节点。将候选知识节点与预设词表比对能够有效筛选出候选知识节点中的科技术语。
可以理解的是,词表是某一主题检索语言语种的词典,预设词表可以包括叙词表和目标领域词表中的至少一个词表。其中,叙词表是从自然语言词汇中选出、能够全面反映某学科领域并由语义相关、概念等级相关的词汇所组成的一本规范化的、动态性的关键词典,是标引、存贮和检索资料、文献的依据,是自然语言和系统语言之间的媒介。叙词表包括汉语主题词表、工程索引叙词表(EiThesaurus)、医学主题词表(Medical SubjectHeadings,MeSH)等,可根据实际需求选择。
考虑叙词表更新速度较慢,目标领域出现的新术语可能无法在叙词表中找到。本方案根据目标领域技术背景相关的文本,抽取文本中的关键词(术语)构建目标领域词表。相较于叙词表,该词表更新速度更快,以此为基础比对获取知识节点,保证能够确定与目标领域最新研究相对应的知识节点,避免出现信息的遗漏,提高科技前沿信息提取的准确性和全面性。
本申请实施例提供的技术方案,以与目标领域匹配的SAO结构中的主语和宾语获取候选知识节点,并根据预设词表对候选知识节点进行二次筛选确定知识节点。采用目标领域匹配和预设词表匹配双重筛选的方式,保证能够抽取出与目标领域最新研究相对应的知识节点,使获取的知识节点为目标领域规范的科技术语,有效避免同一技术出现重复表达的情况发生,解决现有技术中科技前沿信息分析时出现的数据冗余问题,提高分析效率和科技前沿信息获取结果的准确性。
在本申请的一种可选实施例中,基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,包括:
基于与知识节点相关的文本对应的公开时间和公开文本总量,获取知识节点的新颖性;其中,新颖性用于表征知识节点对应的科技成果的平均公开时间;
基于与知识节点相关的文本的被引用频次,获取知识节点的关注性;其中,关注性用于表征知识节点对应的科技成果的年平均被引用频次;
基于与知识节点相关的文本的年公开量,获取知识节点的增长性;其中,增长性用于表征知识节点对应的科技成果的年平均增长率;
基于与知识节点相关的文本的检索分类类别,获取知识节点的交叉性;其中,交叉性用于表征知识节点对应的科技成果在检索分类类别下的数量均值;
基于与知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取知识节点的价值性;其中,价值性用于表征知识节点对应的科技项目的研发投入力度。
具体的,本方案采用新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点的前沿程度。
基于与知识节点相关的文本对应的公开时间和公开文本总量,获取知识节点对应的科技成果的平均公开时间,作为新颖性。
基于与知识节点相关的文本的被引用频次,获取知识节点对应的科技成果的年平均被引用频次,作为关注性。
基于与知识节点相关的文本的年公开量,获取知识节点对应的科技成果的年平均增长率,作为增长性。可以理解的是,增长性由与知识节点相关的文本产出的年增长率来测度,如取近M年的增长率均值代替实际增长率,其中M为正整数。
基于与知识节点相关的文本的检索分类类别,获取知识节点对应的科技成果在检索分类类别下的数量均值,作为交叉性。
基于与知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取知识节点对应的科技项目的研发投入力度,作为价值性。
可以理解的是,本方案中新颖性、关注性、增长性、交叉性和价值性的具体计算方式,可根据实际需求确定,本方案对此不作限定。
本申请实施例提供的技术方案,以知识节点的新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点在目标领域的前沿程度,实现对科技前沿信息的全面分析,改善单一方向进行前沿程度分析工作的局限性,有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
在本申请的一种可选实施例中,目标领域公开的科技成果包括:论文、专利和基金项目;
基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,包括:
基于与知识节点相关的至少一个论文文本,获取论文的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个专利文本,获取专利的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个基金项目文本,获取基金项目的新颖性、增长性和价值性;
基于预设论文、专利和基金项目的贡献权重,分别加权融合新颖性、关注性、增长性、交叉性和价值性,获取知识节点的新颖性、关注性、增长性、交叉性和价值性。
具体的,目标领域公开的科技成果包括:论文、专利和基金项目。考虑到不同科技成果类型对科技前沿程度的影响不同,本方案针对不同的科技成果类型设置不同的计算指标。如表1所示,采用新颖性、关注性、增长性、交叉性4个指标来测度基于论文、专利数据构建的知识节点的前沿程度;采用新颖性、增长性、价值性3个指标来测度基于基金项目数据构建的知识节点的前沿程度。
表1
在本方案具体应用时,可采用以下方式进行新颖性、关注性、增长性、交叉性和价值性五项指标计算。可以理解的是,在进行计算前需确定与该知识节点对应的论文/专利/基金项目相关文本,具体的确定方式可根据实际情况选择,本方案对此不作限定。
新颖性指标由与知识节点相关的论文/专利/基金项目平均出现时间表示,采用以下公式进行计算:
其中,Nj为第j个知识节点的新颖性,Ti为与知识节点对应的第篇论文/专利/基金项目文本的公开时间(以年为单位),论文数据的出现时间为其发表时间,而专利数据的出现时间为其公开时间,基金项目的出现时间为立项时间,N为包含该知识节点的论文/专利公开文本总量。
基于论文数据构建的知识节点的关注性通过论文被引用体现,但论文的被引用存在明显的时间累积问题,为了分析科学研究主题(即知识节点)对目前学术研究的影响力,需要在科学研究主题学术影响力的测度中引入时间权重来平衡早期发表论文文本的被引用时间累积问题,采用以下公式进行计算:
其中,ti表示第i年与知识节点相关的论文文本被引用频次的时间权重,n为数据集的年份跨度,PRCj为第j个知识节点的关注性,Ci为与知识节点相关的论文文本在第i年的平均被引用频次。
基于专利数据构建的知识节点的关注性采用与知识节点相关专利文本的平均被引用频次来测度,采用以下公式进行计算:
其中,PTCj为第j个知识节点的关注性,Ci为与知识节点相关第i篇专利文本的被引用频次,N为包含该知识节点的论文/专利文本总量。
增长性由与知识节点相关的论文/专利/基金项目文本产出的年增长率来测度,如取近M年的增长率均值代替实际增长率,采用以下公式进行计算:
其中,TGHi是为第i年与知识节点相关的论文/专利/基金项目文本的增长率,Pi为第i年与知识节点相关的论文/专利/基金项目文本的公开量,GHj为第j个知识节点的增长性。
采用相关分类号来测度论文/专利数据中知识节点的交叉性,论文数据采用EI(Engineering Index,工程索引)数据库的相关论文分类代码的平均数量来测度;专利数据采用相关专利IPC(internationalpatent classification,国际专利分类)分类号中小组的平均数量来测度,采用以下公式进行计算:
其中,INTj为第j个知识节点的交叉性,Si为第i篇与知识节点相关的论文/专利文本的分类代码或IPC分类小组的数量,N为包含该知识节点的论文/专利文本总量。
采用基金项目的研发投入力度来测度基金项目的价值性,采用以下公式进行计算:
其中,Wj为第j个知识节点的价值性,AMi为与知识节点相关的第i个基金项目的资助金额(以万元为单位),Ti为与知识节点相关的第i个基金项目的预计实施周期(以年为单位),N为包含该知识节点的基金项目文本总量。
在分别计算论文、专利和基金项目相关的前沿程度指标后,需根据预设论文、专利和基金项目的贡献权重(即预设论文贡献权重、预设专利贡献权重和预设基金项目贡献权重),分别对新颖性、关注性、增长性、交叉性和价值性进行加权融合,确定知识节点对应的新颖性、关注性、增长性、交叉性和价值性。
可以理解的是,预设论文、专利和基金项目的贡献权重可根据本方案的实际应用需求设置,本方案对各预设贡献权重的具体数值不作限定。
另外,知识节点前沿程度的表现形式可采用数值、向量等多种表现形式,本方案对此不作限定。例如:知识节点的前沿程度将由新颖性、关注性、增长性、交叉性和价值性五项指标值共同组成的向量来表示,称该向量为前沿程度向量,某一类型数据中前沿程度值的默认值为0(如在该知识节点没有对应的基金项目数据时,价值性为0)。论文、专利及基金项目三种数据类型对科技前沿的贡献度(即贡献权重)不同,某一知识节点的前沿程度是用该术语(即该知识节点)在不同数据中的前沿程度向量对应元素值加权融合后组成的向量来表示。
本申请实施例提供的技术方案,采用目标领域中论文、专利和基金项目作为来源数据,以知识节点的新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点在目标领域的前沿程度,并基于预设论文、专利和基金项目的贡献权重对不同类型文本计算得到的前沿程度指标进行加权融合,确定知识节点的前沿程度。实现对科技前沿信息的全面分析,改善单一数据来源进行前沿程度分析工作的局限性,并充分考虑不同类型的科技成果表征科技前沿信息的差异,有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
在本申请的一种可选实施例中,基于各知识节点的前沿程度获取对应的属性,包括:
对于每一知识节点,获取知识节点的前沿程度;
根据目标领域所有知识节点的前沿程度,获取新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值;
将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,并根据节点等级获取知识节点对应的属性;节点等级用于表征知识节点在目标领域中的前沿程度的等级。
具体的,在确定各知识节点的前沿程度后,为了更直观地反映当前知识节点的前沿程度和目标领域所有知识节点前沿程度的区别关系,根据知识节点的前沿程度确定节点的节点等级;节点等级用于表征知识节点在目标领域中的前沿程度的等级。
根据目标领域中所有知识节点的前沿程度,计算新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值。
将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,确定知识节点的节点等级。可以理解的是,在将每一知识节点的前沿程度中各项指标和目标领域的各项指标均值进行比较确定节点等级时,可根据五项指标中大于指标均值的指标项数确定节点等级,或采用阶梯比较的形式顺序比较五项指标和对应的指标均值,根据每一项指标的比较结果确定节点等级,具体的节点等级确定方式以及节点等级具体划分数量均可根据实际需求设置,本方案对此不作限定。
在确定节点等级后,根据节点等级确定知识节点对应的属性。可以理解的是,知识节点对应的属性可包括节点名称、节点ID(知识节点的唯一标识)、关联关系、前沿程度和节点等级等信息。属性中包含的具体信息类型和数量可根据实际需求确定,本实施例对此不作限定。
本申请实施例提供的技术方案,根据知识节点的新颖性、关注性、增长性、交叉性和价值性表征知识节点在目标领域的前沿程度,基于目标领域中所有节点的前沿程度,确定新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值。将每一节点的新颖性、关注性、增长性、交叉性和价值性与分别与对应的新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值进行比较,确定节点等级。以节点等级表征知识节点在目标领域中的前沿程度的等级,能够通过节点等级实现知识节点在目标领域中前沿程度的直观体现,有效提高获取科技前沿信息的效率。
在本申请的一种可选实施例中,将每一知识节点的节点前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,具体包括:
若确定与知识节点相关的至少一个文本不仅包含基金项目,则将知识节点的新颖性与新颖性均值比较,若确定新颖性不大于新颖性均值,则确定知识节点的节点等级为第一等级;
若确定新颖性大于新颖性均值,则将知识节点的关注性与关注性均值比较,若确定关注性大于关注性均值,则确定知识节点的节点等级为第二等级;
若确定关注性不大于关注性均值,则将知识节点的增长性与增长性均值比较,若确定增长性大于增长性均值,则确定知识节点的节点等级为第三等级;
若确定增长性不大于增长性均值,则将知识节点的交叉性与交叉性均值比较,若确定交叉性不大于交叉性均值,则确定知识节点的节点等级为第四等级,若确定交叉性大于交叉性均值,则确定知识节点的节点等级为第五等级。
具体的,将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,确定知识节点的节点等级时,采用顺序比对的方式,依次比对新颖性和新颖性均值、关注性和关注性均值、增长性和增长性均值以及交叉性和交叉性均值。
图3为本申请实施例一个示例中的节点等级确定规则示意图,如图3所示,考虑到目标领域可能存在某知识节点对应的科技研究刚开始研究不久,对应的科技成果仅包含基金项目,在对各项指标和对应的指标均值进行比较之前,对每一知识节点,先判断其对应的文本是否仅包含基金项目文本,若确定不止包含基金项目文本,则进一步进行前沿程度各项指标的比较,确定节点等级。
可以理解的是,判断知识节点对应的文本是否仅包含基金项目文本时,可通过该知识节点的前沿程度五项指标中是否仅有价值性指标确定。除此之外,还可直接根据知识节点相关文本的类型数量确定,具体的判断方法可根据实际需求确定,本方案对此不做限定。
本方案将节点分为五个等级,在比较时,将知识节点的新颖性与新颖性均值比较,若确定新颖性不大于新颖性均值,则确定知识节点的节点等级为第一等级。其中,第一等级指该知识节点对应的科技研究出现的时间比较早,并且近期也很少出现,表现为知识节点的新颖性不大于平均值。
若确定新颖性大于新颖性均值,则将知识节点的关注性与关注性均值比较,若确定关注性大于关注性均值,则确定知识节点的节点等级为第二等级。其中,第二等级是指该知识节点对应的科技研究近期出现过且引起广泛关注,表现为知识节点的新颖性、关注性大于平均值并且在两种及以上数据中出现。
若确定关注性不大于关注性均值,则将知识节点的增长性与增长性均值比较,若确定增长性大于增长性均值,则确定知识节点的节点等级为第三等级。其中,第三等级是指该知识节点对应的科技研究近期出现过但没有引起广泛关注,表现为知识节点的新颖性大于平均值,关注性不大于平均值但增长性大于平均值。
若确定增长性不大于增长性均值,则将知识节点的交叉性与交叉性均值比较,若确定交叉性不大于交叉性均值,则确定知识节点的节点等级为第四等级。其中,第四等级是指该知识节点对应的科技研究发展潜力较大,未来有可能发展为热点科技前沿,表现为在一种及一种以上数据中出现,知识节点的新颖性大于平均值,关注性、增长性以及交叉性不大于平均值。
若确定交叉性大于交叉性均值,则确定知识节点的节点等级为第五等级。其中,第五等级是指该知识节点对应的科技研究具有前瞻性和先导性,往往是解决科学领域的重大难点问题,表现为知识节点的新颖性、交叉性大于平均值,关注性及增长性不大于平均值。
本方案中所构建目标领域的科技前沿树形结构本身就在一定程度上体现领域科技前沿状况。特别是科技前沿树形结构中被划分为第二等级至第五等级的四个节点等级对应的知识节点,往往代表着具有较高新颖性、具有活力(即具有较高增长性)、具有较高学科交叉性且具有较高价值性的科技研究方向。因此,科技前沿树形结构中的知识节点也是科技前沿信息的来源之一。
本申请实施例提供的技术方案,在确定知识节点对应的文本不仅只有基金数据的前提下,采用顺序比对的方式,依次比对新颖性和新颖性均值、关注性和关注性均值、增长性和增长性均值以及交叉性和交叉性均值,根据比对的结果确定节点等级。以五个等级的前沿程度划分方式表征知识节点在目标领域中的前沿程度的等级,能够通过节点等级实现知识节点在目标领域中前沿程度的直观体现,有效提高获取科技前沿信息的效率。
在本申请的一种可选实施例中,方法还包括:
若确定与知识节点相关的至少一个文本仅包含基金项目,则将知识节点的价值性与价值性均值比较,若确定价值性大于价值性均值,则确定知识节点的节点等级为第四等级。
具体的,如图3所示,若确定与知识节点相关的至少一个文本仅包含基金项目,则说明该知识节点对应的科技研究可能为目标领域的新研究方向,进一步比对该知识节点的价值性和价值性均值。
若确定价值性大于价值性均值,则确定知识节点的节点等级为第四等级。其中,第四等级是指发展潜力较大,未来有可能发展为热点科技前沿的研究方向,表现为只在基金项目数据中出现或者在一种及一种以上数据中出现,知识节点的新颖性大于平均值,关注性、增长性以及交叉性不大于平均值。
若确定价值性不大于价值性均值,指该知识节点为刚出现的科技研究,其前沿程度尚不明确,则暂时对该知识节点的前沿程度不评级。等该知识节点对应的文本数据增加后,再更新该知识节点的前沿程度和对应的节点等级。
本申请实施例提供的技术方案,根据科技研究时基金项目在研究时间方面的特殊性,采用判断知识节点对应的文本是否仅包含基金项目的方式,准确识别知识节点对应的科技研究是否为目标领域的新研究方向,并根据其价值性和价值性均值的比对结果确定是否给该知识节点的节点等级定为第四等级。通过结合知识节点对应的文本数据类型的分析和知识节点前沿程度指标和指标均值共同确定节点等级的方式,充分考虑不同数据类型与科技研究前沿程度的相关性,使知识节点的节点等级划分更合理,解决现有技术中节点前沿程度划分方式不成熟,错分节点等级导致科技前沿信息获取结果不准确的问题,有效改善科技前沿信息获取结果的质量,提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
在本申请的一种可选实施例中,基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,具体包括:
基于各知识节点的属性,根据预设节点生成规则,确定各知识节点对应的标志;
基于各知识节点、各知识节点的属性、各知识节点的关联关系以及各知识节点对应的标志,构建目标领域的科技前沿树形结构。
具体的,为了更直观地从科技前沿树形结构中获取目标领域科技前沿信息,在构建科技前沿树形结构时,可根据各知识节点的属性,根据预设节点生成规则,确定各知识节点对应的标志。
例如,根据属性中的节点等级,根据预设节点生成规则,确定不同节点等级知识节点对应标志(如不同等级不同颜色或不同形状等),或者根据节点等级在知识节点上设置不同的标签(如在第一等级对应的知识节点上设置“删除”标签),或根据知识节点的关联关系确定目标领域中节点的层级关系,对同一层级的节点设置相同的标志(如同一颜色等)。
图4为本申请实施例一个示例中的深度学习领域的科技前沿树形结构示意图,如图4所示,深度学习领域的科技前沿树形结构中,根据知识节点之间的层级关系,将科技前沿树形结构的分支划分为一级、二级和三级分支。其中,一级分支为“应用方向”,二级和三级分支为“子方向”,以知识节点“深度学习”-“计算机视觉技术”-“图像处理”-“目标识别”所构成的三级分支结构为例,每一级分支均采用不同的线条形式展示。
知识节点的属性可包括前沿程度、关联关系和节点等级。以知识节点“联结理论”的属性为例,前沿程度为[2019,0.1,10,2,0],关联关系为{深度学习,联结理论,理论},节点等级为第一等级。
可以理解的是,上述预设节点生成规则、标志类型和知识节点的属性具体包含的信息类型和数量,仅作为具体的实例说明本方案,除此之外,还可根据实际需求采用其他的预设节点生成规则、标志类型和知识节点的属性表现方式,本方案对此不作限定。
在确定知识节点对应的标志后,根据各知识节点、各知识节点的属性、各知识节点的关联关系以及各知识节点对应的标志,构建目标领域的科技前沿树形结构。
本申请实施例提供的技术方案,通过根据知识节点对应的属性和预设节点生成规则,确定知识节点对应的标志,结合标志和各知识节点的相关信息生成目标领域科技前沿树形结构的方式,通过科技前沿树形结构直观地展示知识节点的属性的相关信息,丰富了树形结构中能够体现的信息类型,有效提高了科技前沿信息的获取效率。
在本申请的一种可选实施例中,在基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构的步骤之后,还包括:
获取目标领域科技信息数据集中各新增文本的题录信息对应的新增SAO结构,并基于各新增SAO结构获取目标领域的至少一个新增知识节点;
将每一新增知识节点与科技前沿树形结构中所有知识节点进行比对,判断新增知识节点是否已存在于科技前沿树形结构中;
若确定新增知识节点已存在于科技前沿树形结构中,则获取并更新科技前沿树形结构中新增知识节点对应的属性。
具体的,再次参考图2,本方案提供的目标领域的科技前沿树形结构具有不断完善、不断更新的生长规则,通过增添、更新和删除节点实现科技前沿树形结构的生长。科技前沿树形结构的生长规则如下:
图5为本申请实施例一个示例中的科技前沿树形结构生长规则示意图之一,如图5所示,获取目标领域科技信息数据集中各新增文本的题录信息对应的新增SAO结构,并基于各新增SAO结构获取目标领域的至少一个新增知识节点。需要说明的是,确定新增SAO结构,并根据SAO结构确定新增知识节点的方式与本方案中构建新的科技前沿树形结构时确定知识节点的步骤相同,在此不作赘述。
可以理解的是,为了减少科技前沿树形结构生长时所需处理的数据量,可在获取新增文本时对文本进行过滤处理,以提高科技前沿信息的分析效率,满足不断持续的科技前沿信息获取需求。
需要说明的是,对数据集中新增文本数据进行过滤时,可以过滤掉科技前沿树形结构中前沿程度不高的知识节点对应的新增文本数据(如过滤掉节点等级最低(即第一等级)的知识节点对应的新增文本数据),或者过滤掉新增文本数据中某一类型的文本(如基金项目文本、著作文本或研究报告文本等),过滤文本数据的规则可根据实际需求设置,本方案对此不做限定。
图6为本申请实施例一个示例中的科技前沿树形结构生长规则示意图之二,参考图5和图6,在确定新增知识节点后,将每一新增知识节点与已构建的科技前沿树形结构(如由论文文本、专利文本和基金项目文本构建的科技前沿树形结构)中所有知识节点进行比对,判断新增知识节点是否已存在于科技前沿树形结构中。
可以理解的是,在将新增知识节点与科技前沿树形结构中所有知识节点进行比对时,可采用遍历的形式将该新增知识节点与科技前沿树形结构中所有知识节点依照节点ID的顺序依次比对,或者根据科技前沿树形结构中知识节点的关联关系中的前驱知识节点和后驱知识节点的指向关系,结合新增知识节点的关联关系,按科技前沿树形结构的分支关系进行比对查找等方式,具体的比对方式可根据实际需求确定,本方案对此不做限定。
若确定新增知识节点已存在于科技前沿树形结构中,考虑到知识节点的前沿程度可能出现变迁的现象,在对知识节点进行更新时,获取并修改科技前沿树形结构中新增知识节点对应的属性(如前沿程度和节点等级等)。可以理解的是,在对知识节点的属性进行修改时,还可根据预设节点生成规则,同步修改新增知识节点对应的标志。
例如,参考图6,在确定知识节点的节点等级为第一等级时,对应的知识节点上设置“删除”标签,可以明确地从科技前沿树形结构中确定前沿程度最低的节点,进一步地,在目标领域知识节点数量多时,还可以隐藏科技前沿树形结构中节点等级为第一等级的知识节点。具体的知识节点删除方式可根据实际需求确定,本方案对此不作限定。
本申请实施例提供的技术方案,通过目标领域科技信息数据集中各新增文本确定新增知识节点,将新增知识节点与当前科技前沿树形结构中的知识节点进行比对,在确定新增知识节点已存在于当科技前沿前树形结构时,对科技前沿树形结构进行更新,实现科技前沿树形结构的生长,无需重复处理目标领域的所有数据,满足不断持续的科技前沿探测需求,有效提高了科技前沿信息的获取效率。
在本申请的一种可选实施例中,方法还包括:
若确定新增知识节点不存在于科技前沿树形结构中,则基于各新增文本的题录信息确定新增知识节点和各知识节点之间的语义关系,并基于新增知识节点和各知识节点之间的语义关系,确定新增知识节点的关联关系;
对于新增知识节点,基于与新增知识节点相关的至少一个文本获取新增知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取新增知识节点的前沿程度,基于新增知识节点的前沿程度获取对应的属性;
根据新增知识节点、新增知识节点的属性以及新增知识节点的关联关系,将新增知识节点增添入科技前沿树形结构中。
具体的,再次参考图5和图6,若确定新增知识节点不存在于科技前沿树形结构中,则说明该新增知识节点对应的科技术语可能是近期较新出现的,代表着较新的研究方向,需获取新增知识节点、新增知识节点的属性以及新增知识节点的关联关系,将该新增知识节点增添入科技前沿树形结构中。
将新增知识节点增添入科技前沿树形结构中需要获取新增知识节点的关联关系和新增知识节点的属性。需要说明的是,获取新增知识节点的关联关系和新增知识节点的属性的方式与本方案中构建新的科技前沿树形结构时获取知识节点的关联关系和知识节点的属性的步骤相同,在此不作赘述。
可以理解的是,在将新增知识节点增添入科技前沿树形结构中时,还可根据预设节点生成规则,确定新增知识节点对应的标志,根据该标志增添新增知识节点,实现科技前沿树形结构形式的统一。
本申请实施例提供的技术方案,通过目标领域科技信息数据集中各新增文本确定新增知识节点,将新增知识节点与当前科技前沿树形结构中的知识节点进行比对,在确定新增知识节点不存在于当前科技前沿树形结构时,将新增知识节点增添入科技前沿树形结构中,实现科技前沿树形结构的生长,无需重复处理目标领域的所有数据,满足不断持续的科技前沿探测需求,有效提高了科技前沿信息的获取效率。
下面再通过一个具体示例对本申请实施例方案的具体应用进行详细说明:
本实施例选择深度学习领域为例,搜集深度学习领域2017年—2023年的论文、专利和基金项目数据作为数据源,其中论文数据来自EI数据库,专利数据来自德温特专利数据库(Derwent Innovations Index,DII),基金项目数据来自美国国家科学基金会(National Science Foundation,NSF)数据库,经过数据清洗最终获取论文文献18465篇、专利数据22209条、基金项目数据1166条。
根据上述文本数据中的题录信息,确定深度学习领域的知识节点,并确定各知识节点的关联关系。根据论文、专利和基金项目文本,分别获取论文的新颖性、关注性、增长性和交叉性,专利的新颖性、关注性、增长性和交叉性,基金项目的新颖性、增长性和价值性。
采用CRITIC(Criteria Importance Though Intercrieria Correlation)权重法确定预设论文、专利和基金项目的贡献权重(即预设论文贡献权重、预设专利贡献权重和预设基金项目贡献权重),以本实施例中深度学习领域为例,最终确定预设论文贡献权重、预设专利贡献权重和预设基金项目贡献权重分别为0.49、0.28和0.23。
根据预设论文贡献权重、预设专利贡献权重和预设基金项目贡献权重分别对前沿程度五项指标进行加权融合,获取知识节点的新颖性、关注性、增长性、交叉性和价值性,确定知识节点的前沿程度。
根据图3所示的节点等级确定规则确定各知识节点的节点等级,根据知识节点的前沿程度、关联关系和节点等级获取节点属性,构建如图4所示的深度学习领域的科技前沿树形结构。
图7为本申请实施例提供的一种科技前沿信息获取装置的结构示意图,如图7所示,该装置70可以包括:知识节点获取模块701、节点关系分析模块702、节点属性获取模块703和树形结构构建模块704;
知识节点获取模块701,用于获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,并基于各SAO结构获取目标领域的至少一个知识节点;其中,科技信息数据集中包括目标领域公开的科技成果对应的文本;
节点关系分析模块702,用于基于各文本的题录信息确定各知识节点之间的语义关系,并基于各知识节点之间的语义关系确定各知识节点的关联关系;
节点属性获取模块703,用于对于每一知识节点,基于与知识节点相关的至少一个文本获取知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取知识节点的前沿程度,基于各知识节点的前沿程度获取对应的属性;
树形结构构建模块704,用于基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,并基于科技前沿树形结构获取科技前沿信息。
本申请提供的方案,通过采用目标领域公开的科技成果对应的文本作为来源数据,提取题录信息中的SAO结构并对题录信息进行语义分析,确定知识节点和各知识节点的关联关系,并以知识节点的新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点在目标领域的前沿程度,实现对科技前沿信息的全面分析,改善单一方向进行前沿程度分析工作的局限性,并采用构建科技前沿树形结构的方式获取科技前沿信息,科技前沿树形结构能够直观地反映各知识节点之间的分支关系,实现科技前沿信息的准确表达,有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
在本申请的一种可选实施例中,每一知识节点的关联关系包括知识节点的前驱知识节点和知识节点与前驱知识节点之间的关系类型;
节点关系分析模块具体用于:
基于各知识节点之间的语义关系,获取每一知识节点对应的前驱知识节点,并获取知识节点与前驱知识节点之间的关系类型;其中,关系类型为前驱知识节点与知识节点之间的指向关系;
根据每一知识节点对应的前驱知识节点和知识节点与前驱知识节点之间的关系类型,获取知识节点的关联关系。
在本申请的一种可选实施例中,知识节点获取模块,具体用于:
根据与目标领域匹配的SAO结构中的主语和宾语,获取候选知识节点;
将候选知识节点与预设词表进行比对,并将比对成功的候选知识节点作为至少一个知识节点。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
基于与知识节点相关的文本对应的公开时间和公开文本总量,获取知识节点的新颖性;其中,新颖性用于表征知识节点对应的科技成果的平均公开时间;
基于与知识节点相关的文本的被引用频次,获取知识节点的关注性;其中,关注性用于表征知识节点对应的科技成果的年平均被引用频次;
基于与知识节点相关的文本的年公开量,获取知识节点的增长性;其中,增长性用于表征知识节点对应的科技成果的年平均增长率;
基于与知识节点相关的文本的检索分类类别,获取知识节点的交叉性;其中,交叉性用于表征知识节点对应的科技成果在检索分类类别下的数量均值;
基于与知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取知识节点的价值性;其中,价值性用于表征知识节点对应的科技项目的研发投入力度。
在本申请的一种可选实施例中,目标领域公开的科技成果包括:论文、专利和基金项目;
节点属性获取模块,具体用于:
基于与知识节点相关的至少一个论文文本,获取论文的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个专利文本,获取专利的新颖性、关注性、增长性和交叉性;
基于与知识节点相关的至少一个基金项目文本,获取基金项目的新颖性、增长性和价值性;
基于预设论文、专利和基金项目的贡献权重,分别加权融合新颖性、关注性、增长性、交叉性和价值性,获取知识节点的新颖性、关注性、增长性、交叉性和价值性。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
对于每一知识节点,获取知识节点的前沿程度;
根据目标领域所有知识节点的前沿程度,获取新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值;
将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,并根据节点等级获取知识节点对应的属性;节点等级用于表征知识节点在目标领域中的前沿程度的等级。
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
若确定与知识节点相关的至少一个文本不仅包含基金项目,则将知识节点的新颖性与新颖性均值比较,若确定新颖性不大于新颖性均值,则确定知识节点的节点等级为第一等级;
若确定新颖性大于新颖性均值,则将知识节点的关注性与关注性均值比较,若确定关注性大于关注性均值,则确定知识节点的节点等级为第二等级;
若确定关注性不大于关注性均值,则将知识节点的增长性与增长性均值比较,若确定增长性大于增长性均值,则确定知识节点的节点等级为第三等级;
若确定增长性不大于增长性均值,则将知识节点的交叉性与交叉性均值比较,若确定交叉性不大于交叉性均值,则确定知识节点的节点等级为第四等级,若确定交叉性大于交叉性均值,则确定知识节点的节点等级为第五等级
在本申请的一种可选实施例中,节点属性获取模块,具体用于:
若确定与知识节点相关的至少一个文本仅包含基金项目,则将知识节点的价值性与价值性均值比较,若确定价值性大于价值性均值,则确定知识节点的节点等级为第四等级。
在本申请的一种可选实施例中,基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建目标领域的科技前沿树形结构,具体包括:
基于各知识节点的属性,根据预设节点生成规则,确定各知识节点对应的标志;
基于各知识节点、各知识节点的属性、各知识节点的关联关系以及各知识节点对应的标志,构建目标领域的科技前沿树形结构。
在本申请的一种可选实施例中,科技前沿信息获取装置还包括:树形结构更新模块;树形结构更新模块,具体用于:
获取目标领域科技信息数据集中各新增文本的题录信息对应的新增SAO结构,并基于各新增SAO结构获取目标领域的至少一个新增知识节点;
将每一新增知识节点与树形结构中所有知识节点进行比对,判断新增知识节点是否已存在于科技前沿树形结构中;
若确定新增知识节点已存在于科技前沿树形结构中,则获取并更新科技前沿树形结构中新增知识节点对应的属性。
在本申请的一种可选实施例中,树形结构更新模块,具体用于:
若确定新增知识节点不存在于树形结构中,则基于各新增文本的题录信息确定新增知识节点和各知识节点之间的语义关系,并基于新增知识节点和各知识节点之间的语义关系,确定新增知识节点的关联关系;
对于新增知识节点,基于与新增知识节点相关的至少一个文本获取新增知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于知识节点的新颖性、关注性、增长性、交叉性和价值性获取新增知识节点的前沿程度,基于新增知识节点的前沿程度获取对应的属性;
根据新增知识节点、新增知识节点的属性以及新增知识节点的关联关系,将新增知识节点增添入科技前沿树形结构中。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现上述科技前沿信息获取方法的步骤,与相关技术相比可实现:通过采用目标领域公开的科技成果对应的文本作为来源数据,提取题录信息中的SAO结构并对题录信息进行语义分析,确定知识节点和各知识节点的关联关系,并以获取知识节点的新颖性、关注性、增长性、交叉性和价值性五项指标综合表征知识节点在目标领域的前沿程度,实现对科技前沿信息的全面分析,改善单一方向进行前沿程度分析工作的局限性,并采用构建科技前沿树形结构的方式获取科技前沿信息,科技前沿树形结构能够直观地反映各知识节点之间的分支关系,实现科技前沿信息的准确表达,有效提高科技前沿信息的获取效率和科技前沿信息获取结果的准确性。
在一个可选实施例中提供了一种电子设备,图8为本申请实施例提供的一种电子设备的结构示意图,如图8所示,电子设备80包括:处理器801和存储器803。其中,处理器801和存储器803相连,如通过总线802相连。可选地,电子设备800还可以包括收发器804,收发器804可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器804不限于一个,该电子设备800的结构并不构成对本申请实施例的限定。
处理器801可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器801也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线802可包括一通路,在上述组件之间传送信息。总线802可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器803可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器803用于存储执行本申请实施例的计算机程序,并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴设备等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
需要说明的是,本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (13)

1.一种科技前沿信息获取方法,其特征在于,包括:
获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,并基于各SAO结构获取所述目标领域的至少一个知识节点;其中,所述科技信息数据集中包括目标领域公开的科技成果对应的文本;
基于各文本的题录信息确定各知识节点之间的语义关系,并基于各知识节点之间的语义关系确定各知识节点的关联关系;
对于每一知识节点,基于与所述知识节点相关的至少一个文本获取所述知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于所述知识节点的新颖性、关注性、增长性、交叉性和价值性获取所述知识节点的前沿程度,基于各知识节点的前沿程度获取对应的属性;
基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建所述目标领域的科技前沿树形结构,并基于科技前沿树形结构获取所述科技前沿信息;
基于与所述知识节点相关的至少一个文本获取所述知识节点的新颖性、关注性、增长性、交叉性和价值性,包括:
基于与所述知识节点相关的文本对应的公开时间和公开文本总量,获取所述知识节点的新颖性;其中,所述新颖性用于表征所述知识节点对应的科技成果的平均公开时间;
基于与所述知识节点相关的文本的被引用频次,获取所述知识节点的关注性;其中,所述关注性用于表征所述知识节点对应的科技成果的年平均被引用频次;
基于与所述知识节点相关的文本的年公开量,获取所述知识节点的增长性;其中,所述增长性用于表征所述知识节点对应的科技成果的年平均增长率;
基于与所述知识节点相关的文本的检索分类类别,获取所述知识节点的交叉性;其中,所述交叉性用于表征所述知识节点对应的科技成果在所述检索分类类别下的数量均值;
基于与所述知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取所述知识节点的价值性;其中,所述价值性用于表征所述知识节点对应的科技项目的研发投入力度。
2.根据权利要求1所述的科技前沿信息获取方法,其特征在于,每一知识节点的关联关系包括所述知识节点的前驱知识节点和所述知识节点与所述前驱知识节点之间的关系类型;
所述基于各知识节点之间的语义关系确定各知识节点的关联关系,具体包括:
基于各知识节点之间的语义关系,获取每一知识节点对应的前驱知识节点,并获取所述知识节点与所述前驱知识节点之间的关系类型;其中,所述关系类型为前驱知识节点与所述知识节点之间的指向关系;
根据每一知识节点对应的前驱知识节点和所述知识节点与所述前驱知识节点之间的关系类型,获取所述知识节点的关联关系。
3.根据权利要求1所述的科技前沿信息获取方法,其特征在于,所述基于各SAO结构获取所述目标领域的至少一个知识节点,具体包括:
根据与目标领域匹配的SAO结构中的主语和宾语,获取候选知识节点;
将所述候选知识节点与预设词表进行比对,并将比对成功的候选知识节点作为所述至少一个知识节点。
4.根据权利要求1所述的科技前沿信息获取方法,其特征在于,所述目标领域公开的科技成果包括:论文、专利和基金项目;
所述基于与所述知识节点相关的至少一个文本获取所述知识节点的新颖性、关注性、增长性、交叉性和价值性,包括:
基于与所述知识节点相关的至少一个论文文本,获取论文的新颖性、关注性、增长性和交叉性;
基于与所述知识节点相关的至少一个专利文本,获取专利的新颖性、关注性、增长性和交叉性;
基于与所述知识节点相关的至少一个基金项目文本,获取基金项目的新颖性、增长性和价值性;
基于预设论文、专利和基金项目的贡献权重,分别加权融合所述新颖性、关注性、增长性、交叉性和价值性,获取所述知识节点的新颖性、关注性、增长性、交叉性和价值性。
5.根据权利要求1-3任一项所述的科技前沿信息获取方法,其特征在于,基于各知识节点的前沿程度获取对应的属性,包括:
对于每一知识节点,获取所述知识节点的前沿程度;
根据目标领域所有知识节点的前沿程度,获取新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值;
将每一知识节点的前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,并根据所述节点等级获取知识节点对应的属性;所述节点等级用于表征所述知识节点在所述目标领域中的前沿程度的等级。
6.根据权利要求5所述的科技前沿信息获取方法,其特征在于,将每一知识节点的节点前沿程度与新颖性均值、关注性均值、增长性均值、交叉性均值和价值性均值比较,获取节点等级,具体包括:
若确定与所述知识节点相关的至少一个文本不仅包含基金项目,则将所述知识节点的新颖性与新颖性均值比较,若确定所述新颖性不大于新颖性均值,则确定所述知识节点的节点等级为第一等级;
若确定所述新颖性大于新颖性均值,则将所述知识节点的关注性与关注性均值比较,若确定所述关注性大于关注性均值,则确定所述知识节点的节点等级为第二等级;
若确定所述关注性不大于关注性均值,则将所述知识节点的增长性与增长性均值比较,若确定所述增长性大于增长性均值,则确定所述知识节点的节点等级为第三等级;
若确定所述增长性不大于增长性均值,则将所述知识节点的交叉性与交叉性均值比较,若确定所述交叉性不大于交叉性均值,则确定所述知识节点的节点等级为第四等级,若确定所述交叉性大于交叉性均值,则确定所述知识节点的节点等级为第五等级。
7.根据权利要求6所述的科技前沿信息获取方法,其特征在于,所述方法还包括:
若确定与所述知识节点相关的至少一个文本仅包含基金项目,则将所述知识节点的价值性与价值性均值比较,若确定所述价值性大于价值性均值,则确定所述知识节点的节点等级为第四等级。
8.根据权利要求1所述的科技前沿信息获取方法,其特征在于,所述基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建所述目标领域的科技前沿树形结构,具体包括:
基于各知识节点的属性,根据预设节点生成规则,确定各知识节点对应的标志;
基于各知识节点、各知识节点的属性、各知识节点的关联关系以及各知识节点对应的标志,构建所述目标领域的科技前沿树形结构。
9.根据权利要求1-3任一项所述的科技前沿信息获取方法,其特征在于,在所述基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建所述目标领域的科技前沿树形结构的步骤之后,还包括:
获取目标领域科技信息数据集中各新增文本的题录信息对应的新增SAO结构,并基于各新增SAO结构获取目标领域的至少一个新增知识节点;
将每一新增知识节点与所述科技前沿树形结构中所有知识节点进行比对,判断所述新增知识节点是否已存在于所述科技前沿树形结构中;
若确定所述新增知识节点已存在于所述科技前沿树形结构中,则获取并更新所述科技前沿树形结构中所述新增知识节点对应的属性。
10.根据权利要求9所述的科技前沿信息获取方法,其特征在于,所述方法还包括:
若确定所述新增知识节点不存在于所述科技前沿树形结构中,则基于各新增文本的题录信息确定新增知识节点和各知识节点之间的语义关系,并基于所述新增知识节点和各知识节点之间的语义关系,确定新增知识节点的关联关系;
对于所述新增知识节点,基于与所述新增知识节点相关的至少一个文本获取所述新增知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于所述知识节点的新颖性、关注性、增长性、交叉性和价值性获取所述新增知识节点的前沿程度,基于所述新增知识节点的前沿程度获取对应的属性;
根据新增知识节点、新增知识节点的属性以及新增知识节点的关联关系,将所述新增知识节点增添入所述科技前沿树形结构中。
11.一种科技前沿信息获取装置,其特征在于,包括:
知识节点获取模块,用于获取目标领域的科技信息数据集中各文本的题录信息对应的主谓宾SAO结构,并基于各SAO结构获取所述目标领域的至少一个知识节点;其中,所述科技信息数据集中包括目标领域公开的科技成果对应的文本;
节点关系分析模块,用于基于各文本的题录信息确定各知识节点之间的语义关系,并基于各知识节点之间的语义关系确定各知识节点的关联关系;
节点属性获取模块,用于对于每一知识节点,基于与所述知识节点相关的至少一个文本获取所述知识节点的新颖性、关注性、增长性、交叉性和价值性,并基于所述知识节点的新颖性、关注性、增长性、交叉性和价值性获取所述知识节点的前沿程度,基于各知识节点的前沿程度获取对应的属性;
树形结构构建模块,用于基于各知识节点、各知识节点的属性以及各知识节点的关联关系构建所述目标领域的科技前沿树形结构,并基于科技前沿树形结构获取所述科技前沿信息;
所述节点属性获取模块,具体用于:
基于与所述知识节点相关的文本对应的公开时间和公开文本总量,获取所述知识节点的新颖性;其中,所述新颖性用于表征所述知识节点对应的科技成果的平均公开时间;
基于与所述知识节点相关的文本的被引用频次,获取所述知识节点的关注性;其中,所述关注性用于表征所述知识节点对应的科技成果的年平均被引用频次;
基于与所述知识节点相关的文本的年公开量,获取所述知识节点的增长性;其中,所述增长性用于表征所述知识节点对应的科技成果的年平均增长率;
基于与所述知识节点相关的文本的检索分类类别,获取所述知识节点的交叉性;其中,所述交叉性用于表征所述知识节点对应的科技成果在所述检索分类类别下的数量均值;
基于与所述知识节点相关的文本对应的科技项目资助资金、实施周期和科技项目总量,获取所述知识节点的价值性;其中,所述价值性用于表征所述知识节点对应的科技项目的研发投入力度。
12.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
CN202310564879.1A 2023-05-18 2023-05-18 科技前沿信息获取方法、装置、电子设备和可读存储介质 Active CN116595192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310564879.1A CN116595192B (zh) 2023-05-18 2023-05-18 科技前沿信息获取方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310564879.1A CN116595192B (zh) 2023-05-18 2023-05-18 科技前沿信息获取方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN116595192A CN116595192A (zh) 2023-08-15
CN116595192B true CN116595192B (zh) 2023-11-21

Family

ID=87595108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310564879.1A Active CN116595192B (zh) 2023-05-18 2023-05-18 科技前沿信息获取方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116595192B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909680A (zh) * 2017-03-03 2017-06-30 中国科学技术信息研究所 一种基于知识组织语义关系的科技专家信息聚合方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN108921295A (zh) * 2018-06-28 2018-11-30 中科院合肥技术创新工程院 一种基于知识图谱技术的突发事件应急决策模型构建方法
CN112100398A (zh) * 2020-08-31 2020-12-18 清华大学 一种专利空白预测方法及系统
CN113761313A (zh) * 2021-08-19 2021-12-07 淮阴工学院 基于国家基金课题挖掘的科技前沿研究热点分析方法及装置
WO2021253758A1 (zh) * 2020-06-18 2021-12-23 国网上海市电力公司 一种基于技术图谱的关键点识别方法
KR20220039576A (ko) * 2020-09-21 2022-03-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 요약 생성 방법, 장치, 전자 기기 및 기록 매체

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909680A (zh) * 2017-03-03 2017-06-30 中国科学技术信息研究所 一种基于知识组织语义关系的科技专家信息聚合方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN108921295A (zh) * 2018-06-28 2018-11-30 中科院合肥技术创新工程院 一种基于知识图谱技术的突发事件应急决策模型构建方法
WO2021253758A1 (zh) * 2020-06-18 2021-12-23 国网上海市电力公司 一种基于技术图谱的关键点识别方法
CN112100398A (zh) * 2020-08-31 2020-12-18 清华大学 一种专利空白预测方法及系统
KR20220039576A (ko) * 2020-09-21 2022-03-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 요약 생성 방법, 장치, 전자 기기 및 기록 매체
CN113761313A (zh) * 2021-08-19 2021-12-07 淮阴工学院 基于国家基金课题挖掘的科技前沿研究热点分析方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
军队院校智慧课堂个性化学与教路径研究;黄照翠;陈晖;吴强;刘娟;;中国教育信息化(第09期);全文 *
基于新颖性和领域交叉性的知识前沿性专利识别――以老年福祉技术为例;吴菲菲;栾静静;黄鲁成;张亚茹;;情报杂志(第05期);全文 *
开源情报环境下的科技前沿识别体系研究;曾文,李辉,樊彦芳,刘光宇,李荣,许震;《情报理论与实践》;全文 *

Also Published As

Publication number Publication date
CN116595192A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
US11520812B2 (en) Method, apparatus, device and medium for determining text relevance
CN109684448B (zh) 一种智能问答方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
US20170075983A1 (en) Subject-matter analysis of tabular data
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN113792123B (zh) 一种基于数据驱动的领域知识图谱构建方法及系统
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
Cui et al. Introducing Explorer of Taxon Concepts with a case study on spider measurement matrix building
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Lin et al. A simple but effective method for Indonesian automatic text summarisation
CN113254507A (zh) 一种数据资产目录智能构建盘点方法
CN112183059A (zh) 一种中文结构化事件抽取方法
Wu et al. Deep learning models for spatial relation extraction in text
Quemy et al. ECHR-OD: On building an integrated open repository of legal documents for machine learning applications
CN116595192B (zh) 科技前沿信息获取方法、装置、电子设备和可读存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
Pietranik et al. A method for ontology alignment based on semantics of attributes
CN115309885A (zh) 一种用于科技服务的知识图谱构建、检索和可视化方法及系统
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
CN112182204A (zh) 构建中文命名实体标注的语料库的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant