CN115481636A - 一种面向技术文献的技术功效矩阵构建方法 - Google Patents

一种面向技术文献的技术功效矩阵构建方法 Download PDF

Info

Publication number
CN115481636A
CN115481636A CN202211117627.6A CN202211117627A CN115481636A CN 115481636 A CN115481636 A CN 115481636A CN 202211117627 A CN202211117627 A CN 202211117627A CN 115481636 A CN115481636 A CN 115481636A
Authority
CN
China
Prior art keywords
technical
terms
efficacy
term
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211117627.6A
Other languages
English (en)
Inventor
李波
刘婷
李辉
曾洪
王海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211117627.6A priority Critical patent/CN115481636A/zh
Publication of CN115481636A publication Critical patent/CN115481636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种面向技术文献的专利技术功效提取方法,分析高端装备领域专利技术术语和功效术语的特征,提高中文专利中的技术术语和功效术语提取的精确性。本发明构建了面向技术术语和功效术语抽取的深度学习模型,并结合专利的句式规则,进行技术术语启发式特征的构造,通过构建功效术语特征词典,定位功效语句,加快模型的训练速度,提高抽取精度,为降低人工标注样本的成本以及避免数据集过小导致模型过拟合现象,采用一种自训练算法实现模型的弱监督学习。通过词聚类从中选择与专利文本主题最相近的技术术语,利用余弦相似度合并相似语义的术语,构建技术功效矩阵。

Description

一种面向技术文献的技术功效矩阵构建方法
技术领域
本发明涉及自然语言处理及专利挖掘领域。
背景技术
高端制造装备是实现制造业高质量发展的基石,存在巨大的技术创新需求。精准识别相关领域的技术发展态势、发现其关键技术机会、探究其创新路径方向及挖掘核心专利显得尤为迫切。通过专利可视化完成从晦涩难懂的非结构性专利信息向清晰可辨的结构化信息数据的转换,使得非专业人员能清楚了解专利背后隐藏的巨大研发价值,为后续研发提供可行思路。技术功效矩阵作为专利分析法中定性分析的一种具体表现形式,其可以独特的为设计者呈现出相关技术领域在发展过程中技术的聚集和疏散程度,帮助用户发现技术热点、薄弱点和发展路径,为后续创新方向的决策提供支持。
构建专利技术功效矩阵的主要难点在于技术术语和功效术语的提取。针对专利的技术术语和功效术语思维提取,传统方法主要有基于规则的方法、基于统计模型的方法和将两者进行结合的方法。传统方法在术语抽取过程中只考虑了术语本身特征及其在目标语料库的词频特征,使得术语抽取效果深受目标语料库规模和质量的影响。因此,学者逐渐将机器学习以及深度学习技术应用到术语抽取上。
利用机器学习技术进行术语抽取一般是将其看作特定领域的“命名实体”,采用命名实体识别的相关方法进行术语识别。对于领域内技术术语,由于技术术语多为“未登陆词”,即由多个词组成、不常见或者首次出现,会造成训练模型的准确率降低。对于功效术语,首先,由于功效术语的表达形式多种多样,有时分散在一个或多个语句中,难以进行直接抽取,其次,功效术语往往存在于专利的部分语句中,针对专利全文或专利摘要全文进行抽取时,往往会引入很多噪声且造成样本集不均匀。另外,针对中文高端装备领域专利,目前并不存在标准的数据集,人工标注预料成本较高。
基于上述原因,本文提出:针对技术术语,通过构建高端装备领域专利的技术术语的实体特征进行模型的训练,以提高模型抽取的准确率;针对功效术语,首先定位功效术语所在语句,以避免噪声信息以及样本不均匀对模型训练的影响,并将功效术语分解为主词(表示功效作用)和受词(表示属性)进行标注抽取,避免功效语句表达形式对抽取结果的影响。
本发明提出一种技术功效术语提取技术,从而实现对高端装备领域专利信息的精确抽取。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种自动的技术功效矩阵构建方法,完善技术术语和功效术语提取。
为了解决上述问题,本发明提出了一种面向技术文献的专利技术功效提取方法,包括以下步骤:
步骤1:利用工具LTP对技术文献进行分词、词性标注,在技术文献中,虽然技术功效短语的表达方式比较丰富,但是通常有比较固定的形式,词或词语是作为语句分析的基本单位,通过依存句法分析将句子所包含的语法单元或词语单元之间的关系,更换为句法分析树,将技术功效目标句分解为短语的嵌套和层叠的组合,强调句子中词语之间的依赖关系,提取具有依存关系的词对,例如:[延长/v,寿命/n,VOB]等,将复杂冗长的技术、功效术语转为词语组合的形式;对专利数据集的术语采用{B,I,O}的标签方案进行人工标注,即由标签{B,I}表示技术和功效术语,标签{O}表示非技术功效术语,构造模型训练数据集和测试数据集;
步骤2:由于术语语法特征差别较大,其上下文语义是术语抽取的重要依据,词向量包含的语义信息能增强理论术语的泛化性能,提升抽取的效果,因此对步骤1已标注的训练集采用skip-gram模型进行预训练,得到词向量;
步骤3:分别构建技术术语抽取模型和功效术语抽取模型;
步骤3.1:通过技术术语前后的线索词以及技术术语所具备的词语特征,构建技术术语实体特征;
步骤3.2:根据技术文献在表达功效的语句中存在的相应规则,构建功效属性词典,进行功效语句的定位,初步过滤功效语句构建功效术语;将功效语句的功效术语拆分为主词(如提高、增强等动词)与受词(如故障率、效率等宾词、名词等)分别进行提取;主词表示功效和作用的词语,受词表示主词所作用的属性;
步骤3.3:将词性、依存关系加入词向量中作为功效术语抽取模型的输入,将技术术语实体特征、词向量、词性、依存关系合并成向量矩阵作为技术术语抽取模型的输入;
步骤3.4:基于双向长短时记忆神经网络构建技术术语抽取模型和功效术语抽取模型;
步骤4:实现技术术语抽取模型和功效术语抽取模型的弱监督学习;使用自训练算法,利用已标注的少量数据和未标注数据对模型进行训练,进行模型的弱监督学习,减少人工标注样本集的人工成本,避免模型的过拟合;其具体步骤为:
步骤4.1:对抽取模型初始化,这里的抽取模型表示技术术语抽取模型或功效术语抽取模型,使用少量已标注数据对抽取模型进行训练;
步骤4.2:将训练出的抽取模型对未标注数据进行标注,采用判决算法计算每一标注判决的置信度,优选出置信度高于阈值的可信数据;
执行标准的硬判决Viterbi算法,以上一位置状态为前提,计算到当前位置得出的最大概率的状态作为最优隐含状态序列即幸存路径;
在执行过程中存储各子路径的分支度量值,即相邻两位置节点间的所有可能路径的分支度量值
Figure BDA0003846006750000031
存储节点xt-1与节点xt间所有子路径的分支度量值的公式如下:
Figure BDA0003846006750000032
其中,
Figure BDA0003846006750000033
表示t-1位置各标签的状态得分,
Figure BDA0003846006750000034
表示t-1位置各标签与t位置各标签间的转移得分,
Figure BDA0003846006750000035
表示t-1位置各标签的状态的得分;
计算各幸存子路径在路径竞争中被选择的概率,将其作为相应节点标注的置信度,t位置节点标注的置信度表示为:
Figure BDA0003846006750000036
其中,
Figure BDA0003846006750000037
为节点xt-1与节点xt间的幸存子路径度量值,
Figure BDA0003846006750000038
为节点xt-1与节点xt间的各子路径度量值;
步骤4.3:将这些可信数据与其预测标签一起进行模型的增量训练,训练后对剩下的未标注数据同样进行如上操作,以此不断迭代,直至没有高于阈值的数据为止;
步骤5:根据步骤4得到的抽取模型,对目标技术文献进行技术术语抽取和功效术语抽取,抽取结果分别技术术语向量和功效术语向量;
以名称中出现的术语作为种子词,利用余弦相似度计算各技术术语与种子词之间的相似度,选择相似度值最大的一个作为与主题最相近的技术主题词,余弦相似度公式为:
Figure BDA0003846006750000039
其中,A和B为术语对应的向量,Ai,Bi为对应向量中的元素,n表示元素总个数;
步骤6:判定术语相似度;
采用基于相似度理论的实体对齐方法,分别计算技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度,根据相似度的大小确定短语间是否具有相同含义,对相同语义词语进行合并;
步骤7:通过上述步骤获得技术方案的唯一技术主题词和多个功效术语,以技术主题词为横坐标,功效术语为纵坐标,交点表示对应技术方案数量,构建技术功效矩阵。
进一步的,所述步骤3.4的具体方法为:所述技术术语抽取模型和功效术语抽取模型都包括:输入层、隐藏层、输出层;
对于隐藏层前向序列
Figure BDA0003846006750000041
和隐藏层后向序列
Figure BDA0003846006750000042
t时刻的状态和输出分别表示为:
Figure BDA0003846006750000043
Figure BDA0003846006750000044
Figure BDA0003846006750000045
其中,xt表示t时刻的输入数据,
Figure BDA0003846006750000046
表示xt前向传播的权重矩阵,
Figure BDA0003846006750000047
表示
Figure BDA0003846006750000048
前向传播的权重矩阵,
Figure BDA0003846006750000049
表示前向传播的偏置,
Figure BDA00038460067500000410
表示后向传播的偏置,y′t表示通过输出层预测节点的分类标签,by表示提取过程中的偏置值;
给定输入序列x={x1,x2,...,xt-1,xt,...}时,对于技术术语抽取模型,其输入序列为:x={w,s,d,c},对于功效术语抽取模型,其输入序列为:x={w,s,d},其中,w表示词向量,s表示词性向量,d表示依存关系向量,c表示技术术语实体特征向量;
当标注序列为y={y1,y2,...,yt-1,yt,...}时,标注序列的评估得分函数由下式表示:
Figure BDA00038460067500000411
其中,
Figure BDA00038460067500000412
表示t-1位置yt-1转移到当前位置yt的得分,
Figure BDA00038460067500000413
表示输入序列x={x1,x2,...,xt-1,xt,...}在t位置为yt标签的得分,T表示标注序列的结束位置;
预测序列概率值表示为:
Figure BDA00038460067500000414
Figure BDA00038460067500000415
表示所有的可能序列,yx表示输入序列x的所有可能标注序列;
输出层预测的序列标注输出为:
Figure BDA0003846006750000051
其中,argmax函数采用Viterbi算法求解输出最优的标注序列,即完成模型的输出。
进一步的,所述步骤4.2中计算到当前位置得出的最大概率的方法为:对于输入序列x={x1,x2,...,xt-1,xt},输出序列为O={O1,O2,...,Ot},初始序列状态P(xi|S),转移概率序列P(xj|xi)表示从xi转移到xj的概率,Pij表示i时刻输出Oi的情况下出现状态xj的概率;
Figure BDA0003846006750000052
采用上述技术方案所产生的有益效果在于:本发明提供的一种面向专利的技术功效矩阵构建及系统实现,在两个方面提升了技术功效矩阵的构建效果:1)本发明分析领域内专利中技术术语存在的特征,总结了技术术语实体特征作为技术术语抽取模型的启发式特征,与词向量、词性、依存关系合并组成最终向量矩阵作为模型的输入,以增强模型的学习能力,提高技术术语提取准确率;2)本发明分析领域内专利中功效术语存在的功效语句的句法规则,构建功效属性词典,定位功效句,初步过滤功效语句作为功效术语抽取的数据集,以减少噪声数据对模型训练的影响。
附图说明
图1为本发明提供的一种面向专利的技术功效术语提取方法流程图。
图2为本发明提供的一种技术术语抽取模型结构图。
具体实施方法
下面结合附图,以高端装备燃气轮机为例,对本发明的具体实施方式作进一步详细描述。以下用于说明本发明,但不用来限制本发明的范围。
一种面向技术方案的技术功效提取方法实现,如图1所示,包含以下步骤:
步骤1:利用工具LTP对技术文献进行分词、词性标注,在专利中,虽然技术功效短语的表达方式比较丰富,但是通常有比较固定的形式,词或词语是作为语句分析的基本单位,通过依存句法分析能够将句子所包含的语法单元或词语单元之间的关系,准换为句法分析树,可以将技术功效目标句分解为短语的嵌套和层叠的组合,强调句子中词语之间的依赖关系,提取具有依存关系的词对,例如:[延长/v,寿命/n,VOB]等,进而将复杂冗长的技术、功效术语转为词语组合的形式。对专利数据集的术语采用{B,I,O}的标签方案进行人工标注,即由标签{B,I}表示技术和功效术语,标签{O}表示非技术功效术语,构造模型训练数据集和测试数据集;表1专利预处理示例
Figure BDA0003846006750000061
步骤2:由于在没有大量已标注预料的情况下,词向量包含的语义信息能增强术语抽取的泛化性能,提升抽取的效果,因此,本发明采用skip-gram模型预训练词向量,将其作为模型输入的词向量特征。
步骤3:分别构建技术术语和功效术语抽取的抽取模型。
步骤3.1:通过分析大量相关专利,通过技术词前后存在的线索词以及技术术语本身存在的词语特征,部分特征如表2所示,构建技术术语实体特征作为该模型进行术语抽取的启发式特征。
表2技术术语的部分特征
Figure BDA0003846006750000062
如“一种基于人工智能的新能源汽车安全预警方法及系统”加入其实体特征表述为“OOL0L0OOOOOOOOOOOOOOR0R0OR0R0”。
步骤3.2:通过分析大量领域内专利,通过专利在表达功效的语句中的规则,构建功效属性词典,部分内容如表3所示。另外,表达功效的语句往往存在于专利的尾句,部分存在于首句,分别赋予专利摘要内容尾句、首句及中间句由大到小的权重,按照权重大小根据功效词词典实现功效语句的初步过滤,构建功效术语抽取的数据集。
表3功效属性词典部分内容
Figure BDA0003846006750000071
由于中文专利中功效语句表达形式多种多样,无法直接从中提取功效术语。因此,对功效术语进行拆分为主词及受词分别进行提取。其中主词表示功效值,如提高、增强等,受词表示功效值进行修饰的属性,如故障率、效率等,两者合并为功效术语。
步骤3.3:将词性、依存关系加入词向量中作为功效术语抽取模型的输入,将技术术语实体特征、词向量、词性、依存关系合并组成最终向量矩阵作为技术术语抽取模型的输入。分别构建技术术语和功效术语抽取模型。
对于隐藏层前后序列
Figure BDA0003846006750000072
和隐藏层后向序列
Figure BDA0003846006750000073
t时刻的状态和输出分别表示为
Figure BDA0003846006750000074
Figure BDA0003846006750000075
Figure BDA0003846006750000076
其中,
Figure BDA0003846006750000077
是xt前向传播的权重矩阵,
Figure BDA0003846006750000078
Figure BDA0003846006750000079
前向传播的权重矩阵,
Figure BDA00038460067500000710
是前向传播的偏置,
Figure BDA00038460067500000711
是后向传播的偏置。
在给定输入序列x={x1,x2,...,xt-1,xt,...}时,对于技术术语抽取模型,其输入序列为:x={w,s,d,c},对于功效术语抽取模型,其输入序列为:x={w,s,d},其中,w表示词向量,s表示词性向量,d表示依存关系向量,c表示技术术语实体特征向量。
当标注序列为y={y1,y2,...,yt-1,yt,...}时,其评估分数函数由下式表示
Figure BDA0003846006750000081
其中,
Figure BDA0003846006750000082
表示t-1位置yt-1转移到当前位置yt的得分,
Figure BDA0003846006750000083
表示输入序列x={x1,x2,...,xt-1,xt,...}在t位置为yt标签的得分。
预测序列概率值表示为
Figure BDA0003846006750000084
输出层预测的序列标注输出为
Figure BDA0003846006750000085
其中,argmax函数采用Viterbi算法求解输出最优的标注序列,即完成模型的输出。
步骤4:实现技术术语和功效术语模型的弱监督学习。使用自训练算法,利用已标注的少量数据和未标注数据对模型进行训练,进行模型的弱监督学习,减少人工标注样本集的人工成本,避免模型的过拟合。其具体步骤为:
步骤4.1:对抽取模型初始化,使用少量已标注数据对模型进行训练。
步骤4.2:将训练出的模型对未标注数据进行标注,采用一个判决算法计算每一标注判决的置信度,优选出置信度高于阈值的可信数据。
执行标准的硬判决Viterbi算法,得到最优隐含状态序列即幸存路径,并在执行过程中存储各子路径的分支度量值,即相邻两位置节点间的所有可能路径的分支度量值,
Figure BDA0003846006750000086
存储节点xt-1与节点xt间所有子路径的分支度量值的公式如下:
Figure BDA0003846006750000087
计算各幸存子路径在路径竞争中被选择的概率,将其作为相应节点标注的置信度。t位置节点标注的置信度表示为
Figure BDA0003846006750000088
其中,
Figure BDA0003846006750000089
为节点xt-1与节点xt间的幸存子路径度量值,
Figure BDA00038460067500000810
为节点xt-1与节点xt间的各子路径度量值。
步骤4.3:将这些可信数据与其预测标签一起进行模型的增量训练,训练后对剩下的未标注数据同样进行如上操作,以此不断迭代,直至没有高于阈值的数据为止。
步骤5:选取构建技术功效矩阵的专利技术主题词。一个专利中往往会存在多个技术术语,从中选取最符合专利主题的术语作为技术功效矩阵中的专利技术主题词。以专利名称中出现的术语作为种子词,利用余弦相似度计算术语与种子词之间的相似度,选择相似度值最大的一个作为与专利主题最相近的专利技术主题词以构建技术功效矩阵,余弦相似度公式为:
Figure BDA0003846006750000091
其中,A和B为术语对应的向量。
步骤6:判定术语相似度。如步骤2所述,已实现所有词向量的表示,在此基础上进一步实现专利技术主题词和功效术语的向量表示,采用基于相似度理论的实体对齐方法,分别计算专利技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度,根据相似度的大小确定短语间是否具有相同含义,对相同语义词语进行合并。
步骤7:通过上述步骤获得专利的唯一专利技术主题词和多个功效术语,以专利技术主题词为横坐标,功效术语为纵坐标,交点表示对应专利数量,构建技术功效矩阵。

Claims (3)

1.一种面向技术文献的专利技术功效提取方法,包括以下步骤:
步骤1:利用工具LTP对技术文献进行分词、词性标注,词或词语是作为语句分析的基本单位,通过依存句法分析将句子所包含的语法单元或词语单元之间的关系,更换为句法分析树,将技术功效目标句分解为短语的嵌套和层叠的组合,强调句子中词语之间的依赖关系,提取具有依存关系的词对,将复杂冗长的技术、功效术语转为词语组合的形式;对专利数据集的术语采用{B,I,O}的标签方案进行人工标注,即由标签{B,I}表示技术和功效术语,标签{O}表示非技术功效术语,构造模型训练数据集和测试数据集;
步骤2:由于术语语法特征差别较大,其上下文语义是术语抽取的重要依据,词向量包含的语义信息能增强理论术语的泛化性能,提升抽取的效果,因此对步骤1已标注的训练集采用skip-gram模型进行预训练,得到词向量;
步骤3:分别构建技术术语抽取模型和功效术语抽取模型;
步骤3.1:通过技术术语前后的线索词以及技术术语所具备的词语特征,构建技术术语实体特征;
步骤3.2:根据技术文献在表达功效的语句中存在的相应规则,构建功效属性词典,进行功效语句的定位,初步过滤功效语句构建功效术语;将功效语句的功效术语拆分为主词与受词分别进行提取;主词表示功效和作用的词语,受词表示主词所作用的属性;
步骤3.3:将词性、依存关系加入词向量中作为功效术语抽取模型的输入,将技术术语实体特征、词向量、词性、依存关系合并成向量矩阵作为技术术语抽取模型的输入;
步骤3.4:基于双向长短时记忆神经网络构建技术术语抽取模型和功效术语抽取模型;
步骤4:实现技术术语抽取模型和功效术语抽取模型的弱监督学习;使用自训练算法,利用已标注的少量数据和未标注数据对模型进行训练,进行模型的弱监督学习,减少人工标注样本集的人工成本,避免模型的过拟合;其具体步骤为:
步骤4.1:对抽取模型初始化,这里的抽取模型表示技术术语抽取模型或功效术语抽取模型,使用少量已标注数据对抽取模型进行训练;
步骤4.2:将训练出的抽取模型对未标注数据进行标注,采用判决算法计算每一标注判决的置信度,优选出置信度高于阈值的可信数据;
执行标准的硬判决Viterbi算法,以上一位置状态为前提,计算到当前位置得出的最大概率的状态作为最优隐含状态序列即幸存路径;
在执行过程中存储各子路径的分支度量值,即相邻两位置节点间的所有可能路径的分支度量值
Figure FDA0003846006740000021
存储节点xt-1与节点xt间所有子路径的分支度量值的公式如下:
Figure FDA0003846006740000022
其中,
Figure FDA0003846006740000023
表示t-1位置各标签的状态得分,
Figure FDA0003846006740000024
表示t-1位置各标签与t位置各标签间的转移得分,
Figure FDA0003846006740000025
表示t-1位置各标签的状态的得分;
计算各幸存子路径在路径竞争中被选择的概率,将其作为相应节点标注的置信度,t位置节点标注的置信度表示为:
Figure FDA0003846006740000026
其中,
Figure FDA0003846006740000027
为节点xt-1与节点xt间的幸存子路径度量值,
Figure FDA0003846006740000028
为节点xt-1与节点xt间的各子路径度量值;
步骤4.3:将这些可信数据与其预测标签一起进行模型的增量训练,训练后对剩下的未标注数据同样进行如上操作,以此不断迭代,直至没有高于阈值的数据为止;
步骤5:根据步骤4得到的抽取模型,对目标技术文献进行技术术语抽取和功效术语抽取,抽取结果分别技术术语向量和功效术语向量;
以名称中出现的术语作为种子词,利用余弦相似度计算各技术术语与种子词之间的相似度,选择相似度值最大的一个作为与主题最相近的技术主题词,余弦相似度公式为:
Figure FDA0003846006740000029
其中,A和B为术语对应的向量,Ai,Bi为对应向量中的元素,n表示元素总个数;
步骤6:判定术语相似度;
采用基于相似度理论的实体对齐方法,分别计算技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度,根据相似度的大小确定短语间是否具有相同含义,对相同语义词语进行合并;
步骤7:通过上述步骤获得技术方案的唯一技术主题词和多个功效术语,以技术主题词为横坐标,功效术语为纵坐标,交点表示对应技术方案数量,构建技术功效矩阵。
2.如权利要求1所述的一种面向技术文献的专利技术功效提取方法,其特征在于,所述技术术语抽取模型和功效术语抽取模型都包括:输入层、隐藏层、输出层;
对于隐藏层前向序列
Figure FDA0003846006740000031
和隐藏层后向序列
Figure FDA0003846006740000032
t时刻的状态和输出分别表示为:
Figure FDA0003846006740000033
Figure FDA0003846006740000034
Figure FDA0003846006740000035
其中,xt表示t时刻的输入数据,
Figure FDA0003846006740000036
表示xt前向传播的权重矩阵,
Figure FDA0003846006740000037
表示
Figure FDA0003846006740000038
前向传播的权重矩阵,
Figure FDA0003846006740000039
表示前向传播的偏置,
Figure FDA00038460067400000310
表示后向传播的偏置,yt'表示通过输出层预测节点的分类标签,by表示提取过程中的偏置值;
给定输入序列x={x1,x2,...,xt-1,xt,...}时,对于技术术语抽取模型,其输入序列为:x={w,s,d,c},对于功效术语抽取模型,其输入序列为:x={w,s,d},其中,w表示词向量,s表示词性向量,d表示依存关系向量,c表示技术术语实体特征向量;
当标注序列为y={y1,y2,...,yt-1,yt,...}时,标注序列的评估得分函数由下式表示:
Figure FDA00038460067400000311
其中,
Figure FDA00038460067400000312
表示t-1位置yt-1转移到当前位置yt的得分,
Figure FDA00038460067400000313
表示输入序列x={x1,x2,...,xt-1,xt,...}在t位置为yt标签的得分,T表示标注序列的结束位置;
预测序列概率值表示为:
Figure FDA00038460067400000314
Figure FDA00038460067400000315
表示所有的可能序列,yx表示输入序列x的所有可能标注序列;
输出层预测的序列标注输出为:
Figure FDA00038460067400000316
其中,argmax函数采用Viterbi算法求解输出最优的标注序列,即完成模型的输出。
3.如权利要求1所述的一种面向技术文献的专利技术功效提取方法,其特征在于,所述步骤4.2中计算到当前位置得出的最大概率的方法为:对于输入序列x={x1,x2,...,xt-1,xt},输出序列为O={O1,O2,...,Ot},初始序列状态P(xi|S),转移概率序列P(xj|xi)表示从xi转移到xj的概率,Pij表示i时刻输出Oi的情况下出现状态xj的概率;
Figure FDA0003846006740000041
CN202211117627.6A 2022-09-14 2022-09-14 一种面向技术文献的技术功效矩阵构建方法 Pending CN115481636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211117627.6A CN115481636A (zh) 2022-09-14 2022-09-14 一种面向技术文献的技术功效矩阵构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211117627.6A CN115481636A (zh) 2022-09-14 2022-09-14 一种面向技术文献的技术功效矩阵构建方法

Publications (1)

Publication Number Publication Date
CN115481636A true CN115481636A (zh) 2022-12-16

Family

ID=84392380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211117627.6A Pending CN115481636A (zh) 2022-09-14 2022-09-14 一种面向技术文献的技术功效矩阵构建方法

Country Status (1)

Country Link
CN (1) CN115481636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975068A (zh) * 2023-09-25 2023-10-31 中国标准化研究院 基于元数据的专利文献数据存储方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975068A (zh) * 2023-09-25 2023-10-31 中国标准化研究院 基于元数据的专利文献数据存储方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN116187163B (zh) 一种用于专利文件处理的预训练模型的构建方法及系统
CN112906397B (zh) 一种短文本实体消歧方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN112116907A (zh) 语音识别模型建立、语音识别方法、装置、设备和介质
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN114048314B (zh) 一种自然语言隐写分析方法
CN114564912B (zh) 一种文档格式智能检查校正方法及系统
CN115481636A (zh) 一种面向技术文献的技术功效矩阵构建方法
CN117933258A (zh) 一种命名实体识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination