CN115481636A - 一种面向技术文献的技术功效矩阵构建方法 - Google Patents
一种面向技术文献的技术功效矩阵构建方法 Download PDFInfo
- Publication number
- CN115481636A CN115481636A CN202211117627.6A CN202211117627A CN115481636A CN 115481636 A CN115481636 A CN 115481636A CN 202211117627 A CN202211117627 A CN 202211117627A CN 115481636 A CN115481636 A CN 115481636A
- Authority
- CN
- China
- Prior art keywords
- technical
- terms
- efficacy
- term
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 24
- 238000010276 construction Methods 0.000 title description 5
- 238000000605 extraction Methods 0.000 claims abstract description 83
- 230000000694 effects Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 44
- 238000002372 labelling Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000004379 similarity theory Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种面向技术文献的专利技术功效提取方法,分析高端装备领域专利技术术语和功效术语的特征,提高中文专利中的技术术语和功效术语提取的精确性。本发明构建了面向技术术语和功效术语抽取的深度学习模型,并结合专利的句式规则,进行技术术语启发式特征的构造,通过构建功效术语特征词典,定位功效语句,加快模型的训练速度,提高抽取精度,为降低人工标注样本的成本以及避免数据集过小导致模型过拟合现象,采用一种自训练算法实现模型的弱监督学习。通过词聚类从中选择与专利文本主题最相近的技术术语,利用余弦相似度合并相似语义的术语,构建技术功效矩阵。
Description
技术领域
本发明涉及自然语言处理及专利挖掘领域。
背景技术
高端制造装备是实现制造业高质量发展的基石,存在巨大的技术创新需求。精准识别相关领域的技术发展态势、发现其关键技术机会、探究其创新路径方向及挖掘核心专利显得尤为迫切。通过专利可视化完成从晦涩难懂的非结构性专利信息向清晰可辨的结构化信息数据的转换,使得非专业人员能清楚了解专利背后隐藏的巨大研发价值,为后续研发提供可行思路。技术功效矩阵作为专利分析法中定性分析的一种具体表现形式,其可以独特的为设计者呈现出相关技术领域在发展过程中技术的聚集和疏散程度,帮助用户发现技术热点、薄弱点和发展路径,为后续创新方向的决策提供支持。
构建专利技术功效矩阵的主要难点在于技术术语和功效术语的提取。针对专利的技术术语和功效术语思维提取,传统方法主要有基于规则的方法、基于统计模型的方法和将两者进行结合的方法。传统方法在术语抽取过程中只考虑了术语本身特征及其在目标语料库的词频特征,使得术语抽取效果深受目标语料库规模和质量的影响。因此,学者逐渐将机器学习以及深度学习技术应用到术语抽取上。
利用机器学习技术进行术语抽取一般是将其看作特定领域的“命名实体”,采用命名实体识别的相关方法进行术语识别。对于领域内技术术语,由于技术术语多为“未登陆词”,即由多个词组成、不常见或者首次出现,会造成训练模型的准确率降低。对于功效术语,首先,由于功效术语的表达形式多种多样,有时分散在一个或多个语句中,难以进行直接抽取,其次,功效术语往往存在于专利的部分语句中,针对专利全文或专利摘要全文进行抽取时,往往会引入很多噪声且造成样本集不均匀。另外,针对中文高端装备领域专利,目前并不存在标准的数据集,人工标注预料成本较高。
基于上述原因,本文提出:针对技术术语,通过构建高端装备领域专利的技术术语的实体特征进行模型的训练,以提高模型抽取的准确率;针对功效术语,首先定位功效术语所在语句,以避免噪声信息以及样本不均匀对模型训练的影响,并将功效术语分解为主词(表示功效作用)和受词(表示属性)进行标注抽取,避免功效语句表达形式对抽取结果的影响。
本发明提出一种技术功效术语提取技术,从而实现对高端装备领域专利信息的精确抽取。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种自动的技术功效矩阵构建方法,完善技术术语和功效术语提取。
为了解决上述问题,本发明提出了一种面向技术文献的专利技术功效提取方法,包括以下步骤:
步骤1:利用工具LTP对技术文献进行分词、词性标注,在技术文献中,虽然技术功效短语的表达方式比较丰富,但是通常有比较固定的形式,词或词语是作为语句分析的基本单位,通过依存句法分析将句子所包含的语法单元或词语单元之间的关系,更换为句法分析树,将技术功效目标句分解为短语的嵌套和层叠的组合,强调句子中词语之间的依赖关系,提取具有依存关系的词对,例如:[延长/v,寿命/n,VOB]等,将复杂冗长的技术、功效术语转为词语组合的形式;对专利数据集的术语采用{B,I,O}的标签方案进行人工标注,即由标签{B,I}表示技术和功效术语,标签{O}表示非技术功效术语,构造模型训练数据集和测试数据集;
步骤2:由于术语语法特征差别较大,其上下文语义是术语抽取的重要依据,词向量包含的语义信息能增强理论术语的泛化性能,提升抽取的效果,因此对步骤1已标注的训练集采用skip-gram模型进行预训练,得到词向量;
步骤3:分别构建技术术语抽取模型和功效术语抽取模型;
步骤3.1:通过技术术语前后的线索词以及技术术语所具备的词语特征,构建技术术语实体特征;
步骤3.2:根据技术文献在表达功效的语句中存在的相应规则,构建功效属性词典,进行功效语句的定位,初步过滤功效语句构建功效术语;将功效语句的功效术语拆分为主词(如提高、增强等动词)与受词(如故障率、效率等宾词、名词等)分别进行提取;主词表示功效和作用的词语,受词表示主词所作用的属性;
步骤3.3:将词性、依存关系加入词向量中作为功效术语抽取模型的输入,将技术术语实体特征、词向量、词性、依存关系合并成向量矩阵作为技术术语抽取模型的输入;
步骤3.4:基于双向长短时记忆神经网络构建技术术语抽取模型和功效术语抽取模型;
步骤4:实现技术术语抽取模型和功效术语抽取模型的弱监督学习;使用自训练算法,利用已标注的少量数据和未标注数据对模型进行训练,进行模型的弱监督学习,减少人工标注样本集的人工成本,避免模型的过拟合;其具体步骤为:
步骤4.1:对抽取模型初始化,这里的抽取模型表示技术术语抽取模型或功效术语抽取模型,使用少量已标注数据对抽取模型进行训练;
步骤4.2:将训练出的抽取模型对未标注数据进行标注,采用判决算法计算每一标注判决的置信度,优选出置信度高于阈值的可信数据;
执行标准的硬判决Viterbi算法,以上一位置状态为前提,计算到当前位置得出的最大概率的状态作为最优隐含状态序列即幸存路径;
计算各幸存子路径在路径竞争中被选择的概率,将其作为相应节点标注的置信度,t位置节点标注的置信度表示为:
步骤4.3:将这些可信数据与其预测标签一起进行模型的增量训练,训练后对剩下的未标注数据同样进行如上操作,以此不断迭代,直至没有高于阈值的数据为止;
步骤5:根据步骤4得到的抽取模型,对目标技术文献进行技术术语抽取和功效术语抽取,抽取结果分别技术术语向量和功效术语向量;
以名称中出现的术语作为种子词,利用余弦相似度计算各技术术语与种子词之间的相似度,选择相似度值最大的一个作为与主题最相近的技术主题词,余弦相似度公式为:
其中,A和B为术语对应的向量,Ai,Bi为对应向量中的元素,n表示元素总个数;
步骤6:判定术语相似度;
采用基于相似度理论的实体对齐方法,分别计算技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度,根据相似度的大小确定短语间是否具有相同含义,对相同语义词语进行合并;
步骤7:通过上述步骤获得技术方案的唯一技术主题词和多个功效术语,以技术主题词为横坐标,功效术语为纵坐标,交点表示对应技术方案数量,构建技术功效矩阵。
进一步的,所述步骤3.4的具体方法为:所述技术术语抽取模型和功效术语抽取模型都包括:输入层、隐藏层、输出层;
给定输入序列x={x1,x2,...,xt-1,xt,...}时,对于技术术语抽取模型,其输入序列为:x={w,s,d,c},对于功效术语抽取模型,其输入序列为:x={w,s,d},其中,w表示词向量,s表示词性向量,d表示依存关系向量,c表示技术术语实体特征向量;
当标注序列为y={y1,y2,...,yt-1,yt,...}时,标注序列的评估得分函数由下式表示:
预测序列概率值表示为:
输出层预测的序列标注输出为:
其中,argmax函数采用Viterbi算法求解输出最优的标注序列,即完成模型的输出。
进一步的,所述步骤4.2中计算到当前位置得出的最大概率的方法为:对于输入序列x={x1,x2,...,xt-1,xt},输出序列为O={O1,O2,...,Ot},初始序列状态P(xi|S),转移概率序列P(xj|xi)表示从xi转移到xj的概率,Pij表示i时刻输出Oi的情况下出现状态xj的概率;
采用上述技术方案所产生的有益效果在于:本发明提供的一种面向专利的技术功效矩阵构建及系统实现,在两个方面提升了技术功效矩阵的构建效果:1)本发明分析领域内专利中技术术语存在的特征,总结了技术术语实体特征作为技术术语抽取模型的启发式特征,与词向量、词性、依存关系合并组成最终向量矩阵作为模型的输入,以增强模型的学习能力,提高技术术语提取准确率;2)本发明分析领域内专利中功效术语存在的功效语句的句法规则,构建功效属性词典,定位功效句,初步过滤功效语句作为功效术语抽取的数据集,以减少噪声数据对模型训练的影响。
附图说明
图1为本发明提供的一种面向专利的技术功效术语提取方法流程图。
图2为本发明提供的一种技术术语抽取模型结构图。
具体实施方法
下面结合附图,以高端装备燃气轮机为例,对本发明的具体实施方式作进一步详细描述。以下用于说明本发明,但不用来限制本发明的范围。
一种面向技术方案的技术功效提取方法实现,如图1所示,包含以下步骤:
步骤1:利用工具LTP对技术文献进行分词、词性标注,在专利中,虽然技术功效短语的表达方式比较丰富,但是通常有比较固定的形式,词或词语是作为语句分析的基本单位,通过依存句法分析能够将句子所包含的语法单元或词语单元之间的关系,准换为句法分析树,可以将技术功效目标句分解为短语的嵌套和层叠的组合,强调句子中词语之间的依赖关系,提取具有依存关系的词对,例如:[延长/v,寿命/n,VOB]等,进而将复杂冗长的技术、功效术语转为词语组合的形式。对专利数据集的术语采用{B,I,O}的标签方案进行人工标注,即由标签{B,I}表示技术和功效术语,标签{O}表示非技术功效术语,构造模型训练数据集和测试数据集;表1专利预处理示例
步骤2:由于在没有大量已标注预料的情况下,词向量包含的语义信息能增强术语抽取的泛化性能,提升抽取的效果,因此,本发明采用skip-gram模型预训练词向量,将其作为模型输入的词向量特征。
步骤3:分别构建技术术语和功效术语抽取的抽取模型。
步骤3.1:通过分析大量相关专利,通过技术词前后存在的线索词以及技术术语本身存在的词语特征,部分特征如表2所示,构建技术术语实体特征作为该模型进行术语抽取的启发式特征。
表2技术术语的部分特征
如“一种基于人工智能的新能源汽车安全预警方法及系统”加入其实体特征表述为“OOL0L0OOOOOOOOOOOOOOR0R0OR0R0”。
步骤3.2:通过分析大量领域内专利,通过专利在表达功效的语句中的规则,构建功效属性词典,部分内容如表3所示。另外,表达功效的语句往往存在于专利的尾句,部分存在于首句,分别赋予专利摘要内容尾句、首句及中间句由大到小的权重,按照权重大小根据功效词词典实现功效语句的初步过滤,构建功效术语抽取的数据集。
表3功效属性词典部分内容
由于中文专利中功效语句表达形式多种多样,无法直接从中提取功效术语。因此,对功效术语进行拆分为主词及受词分别进行提取。其中主词表示功效值,如提高、增强等,受词表示功效值进行修饰的属性,如故障率、效率等,两者合并为功效术语。
步骤3.3:将词性、依存关系加入词向量中作为功效术语抽取模型的输入,将技术术语实体特征、词向量、词性、依存关系合并组成最终向量矩阵作为技术术语抽取模型的输入。分别构建技术术语和功效术语抽取模型。
在给定输入序列x={x1,x2,...,xt-1,xt,...}时,对于技术术语抽取模型,其输入序列为:x={w,s,d,c},对于功效术语抽取模型,其输入序列为:x={w,s,d},其中,w表示词向量,s表示词性向量,d表示依存关系向量,c表示技术术语实体特征向量。
当标注序列为y={y1,y2,...,yt-1,yt,...}时,其评估分数函数由下式表示
预测序列概率值表示为
输出层预测的序列标注输出为
其中,argmax函数采用Viterbi算法求解输出最优的标注序列,即完成模型的输出。
步骤4:实现技术术语和功效术语模型的弱监督学习。使用自训练算法,利用已标注的少量数据和未标注数据对模型进行训练,进行模型的弱监督学习,减少人工标注样本集的人工成本,避免模型的过拟合。其具体步骤为:
步骤4.1:对抽取模型初始化,使用少量已标注数据对模型进行训练。
步骤4.2:将训练出的模型对未标注数据进行标注,采用一个判决算法计算每一标注判决的置信度,优选出置信度高于阈值的可信数据。
执行标准的硬判决Viterbi算法,得到最优隐含状态序列即幸存路径,并在执行过程中存储各子路径的分支度量值,即相邻两位置节点间的所有可能路径的分支度量值,存储节点xt-1与节点xt间所有子路径的分支度量值的公式如下:
计算各幸存子路径在路径竞争中被选择的概率,将其作为相应节点标注的置信度。t位置节点标注的置信度表示为
步骤4.3:将这些可信数据与其预测标签一起进行模型的增量训练,训练后对剩下的未标注数据同样进行如上操作,以此不断迭代,直至没有高于阈值的数据为止。
步骤5:选取构建技术功效矩阵的专利技术主题词。一个专利中往往会存在多个技术术语,从中选取最符合专利主题的术语作为技术功效矩阵中的专利技术主题词。以专利名称中出现的术语作为种子词,利用余弦相似度计算术语与种子词之间的相似度,选择相似度值最大的一个作为与专利主题最相近的专利技术主题词以构建技术功效矩阵,余弦相似度公式为:
其中,A和B为术语对应的向量。
步骤6:判定术语相似度。如步骤2所述,已实现所有词向量的表示,在此基础上进一步实现专利技术主题词和功效术语的向量表示,采用基于相似度理论的实体对齐方法,分别计算专利技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度,根据相似度的大小确定短语间是否具有相同含义,对相同语义词语进行合并。
步骤7:通过上述步骤获得专利的唯一专利技术主题词和多个功效术语,以专利技术主题词为横坐标,功效术语为纵坐标,交点表示对应专利数量,构建技术功效矩阵。
Claims (3)
1.一种面向技术文献的专利技术功效提取方法,包括以下步骤:
步骤1:利用工具LTP对技术文献进行分词、词性标注,词或词语是作为语句分析的基本单位,通过依存句法分析将句子所包含的语法单元或词语单元之间的关系,更换为句法分析树,将技术功效目标句分解为短语的嵌套和层叠的组合,强调句子中词语之间的依赖关系,提取具有依存关系的词对,将复杂冗长的技术、功效术语转为词语组合的形式;对专利数据集的术语采用{B,I,O}的标签方案进行人工标注,即由标签{B,I}表示技术和功效术语,标签{O}表示非技术功效术语,构造模型训练数据集和测试数据集;
步骤2:由于术语语法特征差别较大,其上下文语义是术语抽取的重要依据,词向量包含的语义信息能增强理论术语的泛化性能,提升抽取的效果,因此对步骤1已标注的训练集采用skip-gram模型进行预训练,得到词向量;
步骤3:分别构建技术术语抽取模型和功效术语抽取模型;
步骤3.1:通过技术术语前后的线索词以及技术术语所具备的词语特征,构建技术术语实体特征;
步骤3.2:根据技术文献在表达功效的语句中存在的相应规则,构建功效属性词典,进行功效语句的定位,初步过滤功效语句构建功效术语;将功效语句的功效术语拆分为主词与受词分别进行提取;主词表示功效和作用的词语,受词表示主词所作用的属性;
步骤3.3:将词性、依存关系加入词向量中作为功效术语抽取模型的输入,将技术术语实体特征、词向量、词性、依存关系合并成向量矩阵作为技术术语抽取模型的输入;
步骤3.4:基于双向长短时记忆神经网络构建技术术语抽取模型和功效术语抽取模型;
步骤4:实现技术术语抽取模型和功效术语抽取模型的弱监督学习;使用自训练算法,利用已标注的少量数据和未标注数据对模型进行训练,进行模型的弱监督学习,减少人工标注样本集的人工成本,避免模型的过拟合;其具体步骤为:
步骤4.1:对抽取模型初始化,这里的抽取模型表示技术术语抽取模型或功效术语抽取模型,使用少量已标注数据对抽取模型进行训练;
步骤4.2:将训练出的抽取模型对未标注数据进行标注,采用判决算法计算每一标注判决的置信度,优选出置信度高于阈值的可信数据;
执行标准的硬判决Viterbi算法,以上一位置状态为前提,计算到当前位置得出的最大概率的状态作为最优隐含状态序列即幸存路径;
计算各幸存子路径在路径竞争中被选择的概率,将其作为相应节点标注的置信度,t位置节点标注的置信度表示为:
步骤4.3:将这些可信数据与其预测标签一起进行模型的增量训练,训练后对剩下的未标注数据同样进行如上操作,以此不断迭代,直至没有高于阈值的数据为止;
步骤5:根据步骤4得到的抽取模型,对目标技术文献进行技术术语抽取和功效术语抽取,抽取结果分别技术术语向量和功效术语向量;
以名称中出现的术语作为种子词,利用余弦相似度计算各技术术语与种子词之间的相似度,选择相似度值最大的一个作为与主题最相近的技术主题词,余弦相似度公式为:
其中,A和B为术语对应的向量,Ai,Bi为对应向量中的元素,n表示元素总个数;
步骤6:判定术语相似度;
采用基于相似度理论的实体对齐方法,分别计算技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度,根据相似度的大小确定短语间是否具有相同含义,对相同语义词语进行合并;
步骤7:通过上述步骤获得技术方案的唯一技术主题词和多个功效术语,以技术主题词为横坐标,功效术语为纵坐标,交点表示对应技术方案数量,构建技术功效矩阵。
2.如权利要求1所述的一种面向技术文献的专利技术功效提取方法,其特征在于,所述技术术语抽取模型和功效术语抽取模型都包括:输入层、隐藏层、输出层;
给定输入序列x={x1,x2,...,xt-1,xt,...}时,对于技术术语抽取模型,其输入序列为:x={w,s,d,c},对于功效术语抽取模型,其输入序列为:x={w,s,d},其中,w表示词向量,s表示词性向量,d表示依存关系向量,c表示技术术语实体特征向量;
当标注序列为y={y1,y2,...,yt-1,yt,...}时,标注序列的评估得分函数由下式表示:
预测序列概率值表示为:
输出层预测的序列标注输出为:
其中,argmax函数采用Viterbi算法求解输出最优的标注序列,即完成模型的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117627.6A CN115481636A (zh) | 2022-09-14 | 2022-09-14 | 一种面向技术文献的技术功效矩阵构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117627.6A CN115481636A (zh) | 2022-09-14 | 2022-09-14 | 一种面向技术文献的技术功效矩阵构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481636A true CN115481636A (zh) | 2022-12-16 |
Family
ID=84392380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211117627.6A Pending CN115481636A (zh) | 2022-09-14 | 2022-09-14 | 一种面向技术文献的技术功效矩阵构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481636A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975068A (zh) * | 2023-09-25 | 2023-10-31 | 中国标准化研究院 | 基于元数据的专利文献数据存储方法、装置及存储介质 |
-
2022
- 2022-09-14 CN CN202211117627.6A patent/CN115481636A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975068A (zh) * | 2023-09-25 | 2023-10-31 | 中国标准化研究院 | 基于元数据的专利文献数据存储方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829722B (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN116187163B (zh) | 一种用于专利文件处理的预训练模型的构建方法及系统 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN112116907A (zh) | 语音识别模型建立、语音识别方法、装置、设备和介质 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN114048314B (zh) | 一种自然语言隐写分析方法 | |
CN114564912B (zh) | 一种文档格式智能检查校正方法及系统 | |
CN115481636A (zh) | 一种面向技术文献的技术功效矩阵构建方法 | |
CN117933258A (zh) | 一种命名实体识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |