CN112765985A - 一种面向特定领域专利实施例的命名实体识别方法 - Google Patents
一种面向特定领域专利实施例的命名实体识别方法 Download PDFInfo
- Publication number
- CN112765985A CN112765985A CN202110044039.3A CN202110044039A CN112765985A CN 112765985 A CN112765985 A CN 112765985A CN 202110044039 A CN202110044039 A CN 202110044039A CN 112765985 A CN112765985 A CN 112765985A
- Authority
- CN
- China
- Prior art keywords
- named entity
- data
- sample
- initial
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012937 correction Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 40
- 238000012546 transfer Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种面向特定领域专利实施例的命名实体识别方法,涉及自然语言处理技术领域。该方法包括:获取待识别数据;采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。本申请实施例提高了命名实体识别的准确率。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种面向特定领域专利实施例的命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER),又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
当前主流的命名实体识别方法为采用神经网络识别模型的识别方法,这些基于深度学习的神经网络把语言看做是数据序列,把这种数据序列转换为标注序列,进而基于标注结果来识别相应的命名实体。
然而,目前的基于深度学习的命名实体识别模型,其模型的训练及评测仅局限于目前已有的样本数据和对应的初始命名实体,存在识别准确率不高的问题。
发明内容
本申请提供了一种面向特定领域专利实施例的命名实体识别方法,可以解决命名实体识别准确率不高的问题。所述技术方案如下:
第一方面,提供了一种面向特定领域专利实施例的命名实体识别方法,该方法包括:
获取待识别数据;
采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;
其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。
在一个可能的实现方式中,上述样本命名实体基于如下方式得到:
向至少一个终端发送初始命名实体和样本数据;
接收至少一个终端返回的校正信息;校正信息是终端基于样本数据针对初始命名实体生成的;
基于校正信息对初始命名实体进行校正,生成样本命名实体。
在另一个可能的实现方式中,该第二识别模型基于如下方式得到:
获取样本数据中的样本数据子集;其中,样本数据子集设置有对应的初始命名实体子集;
基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型。
在另一个可能的实现方式中,基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型,包括:
将样本数据子集输入到样本识别模型,得到样本识别模型输出的第一实时标签;
基于第一实时标签和初始命名实体子集,对样本识别模型进行训练,生成第二识别模型。
在又一个可能的实现方式中,上述第一识别模型通过如下方式训练得到:
将样本数据输入到初始识别模型,得到初始识别模型输出的第二实时标签;
基于第二实时标签和样本命名实体对初始识别模型进行训练,生成第一识别模型。
在又一个可能的实现方式中,对待识别数据进行识别,确定与待识别数据对应的命名实体,包括:
将待识别数据转换为字向量序列;
依据字向量序列,对待识别数据的上下文特征信息进行学习,确定预测序列;
基于预测序列,生成待识别数据中的命名实体标注序列。
在又一个可能的实现方式中,基于预测序列,生成待识别数据中的命名实体标注序列,包括:
根据预测序列,确定字向量序列中每个字向量的状态特征和转移特征;
基于每个字向量的状态特征和转移特征,对预测序列进行分割和调整,得到待识别数据中的命名实体标注序列。
第二方面,提供了一种面向特定领域专利实施例的命名实体识别装置,该装置包括:
获取模块,用于获取待识别数据;
识别模块,用于采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;
其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。
在一个可能的实现方式中,上述装置还包括第一生成模块,具体用于:
向至少一个终端发送初始命名实体和样本数据;
接收至少一个终端返回的校正信息;校正信息是终端基于样本数据针对初始命名实体生成的;
基于校正信息对初始命名实体进行校正,生成样本命名实体。
在另一个可能的实现方式中,上述装置还包括第二生成模块,具体用于:
获取样本数据中的样本数据子集;其中,样本数据子集设置有对应的初始命名实体子集;
基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型。
在另一个可能的实现方式中,上述第二生成模块,具体用于:
将样本数据子集输入到样本识别模型,得到样本识别模型输出的第一实时标签;
基于第一实时标签和初始命名实体子集,对样本识别模型进行训练,生成第二识别模型。
在又一个可能的实现方式中,上述装置还包括第三生成模块,具体用于:
将样本数据输入到初始识别模型,得到初始识别模型输出的第二实时标签;
基于第二实时标签和样本命名实体对初始识别模型进行训练,生成第一识别模型。
在又一个可能的实现方式中,上述识别模块具体用于:
将待识别数据转换为字向量序列;
依据字向量序列,对待识别数据的上下文特征信息进行学习,确定预测序列;
基于预测序列,生成待识别数据中的命名实体标注序列。
在又一个可能的实现方式中,上述识别模块具体用于:
根据预测序列,确定字向量序列中每个字向量的状态特征和转移特征;
基于每个字向量的状态特征和转移特征,对预测序列进行分割和调整,得到待识别数据中的命名实体标注序列。
第三方面,提供了一种电子设备,该电子设备包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如本申请的第一方面所示的面向特定领域专利实施例的命名实体识别方法对应的操作。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的面向特定领域专利实施例的命名实体识别方法。
本申请提供的技术方案带来的有益效果是:
本申请通过采用第二识别模型对样本数据进行识别,得到初始命名实体;对初始命名实体进行校正后生成样本命名实体;然后由样本命名实体和样本数据对初始识别模型进行训练,生成训练后的第一识别模型。本申请通过对已有的样本数据和对应的初始命名实体进行优化,基于优化后的样本数据和样本实体命名生成的第一识别模型可以有效保障命名实体的识别效果,提高了命名实体识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种面向特定领域专利实施例的命名实体识别方法的流程示意图;
图2为本申请实施例提供的一种面向特定领域专利实施例的命名实体识别方法的众包校正时序图;
图3为本申请实施例提供的一种面向特定领域专利实施例的命名实体识别方法的第一模型的结构示意图;
图4为本申请实施例提供的一种基于第一模型的面向特定领域专利实施例的命名实体识别方法的流程示意图;
图5为本申请实施例提供的另一种面向特定领域专利实施例的命名实体识别方法的流程示意图;
图6为本申请实施例提供的一种面向特定领域专利实施例的命名实体识别装置的结构示意图;
图7为本申请实施例提供的一种面向特定领域专利实施例的命名实体识别电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
命名实体识别又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
随着信息技术的高速发展,科技信息领域成果呈现出大数据环境。海量领域专利不断产生并累积,高效准确地从专利中挖掘实施例的组成、参数等知识,可以为专利知识的挖掘提供较大便利。在知识抽取的过程中,命名实体识别是一项重要技术。通过命名实体识别,可以高效准确地从特定领域专利实施例文本中提取有意义的实体,为关系抽取,知识推理等应用提供基础。
命名实体识别方法分为基于规则、词典、统计学习以及深度学习的方法。其中基于深度学习的方法相较于规则、词典及统计学习的方法,能够获取文本中更多的特征,提升命名实体识别的准确率,从而成为了当前主流的命名实体识别方法。然而,目前的基于深度学习的命名实体方法主要解决人名、地名、机构名的识别问题,训练及评测也基于公开数据集;公开数据集主要针对公共领域以及计算机、金融等领域,在其他领域缺少相关数据集;进一步地,专利实施例文本中一般存在实体互相嵌套、实体语义多样化等干扰,从而使得命名实体识别效果准确率及召回率不高。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图1-7,对本申请的实施例进行描述。
本申请实施例中提供了一种面向特定领域专利实施例的命名实体识别方法,如图1所示,该方法包括如下步骤:
S1,获取待识别数据。
其中,待识别数据可以是表格型结构化数据或者文本型非结构化数据,例如一篇或多篇文档的文本内容或者一个网页中的目录列表。
S2,采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体。
例如,命名实体识别任务可以是识别出文本中的政府机构名称,待识别数据为多篇新闻公告,得到的命名实体可以是由地名、职能、行政级别这样的三元组构成的集合。
其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。
具体的,可以先训练得到预设的第二识别模型,然后通过第二识别模型对样本数据进行识别生成初始命名实体,接着基于所获取的校正信息对初始命名实体进行校正,采用校正后确定的样本命名实体和样本数据构建训练集,进而基于上述训练集对初始识别模型进行训练,得到第一识别模型。
在实际应用中,本申请可用于特定领域的专利查询中,其中样本数据为该特定领域的专利实施例,特定领域可以是化学、材料等领域;特定领域区别于金融、计算机、医学等领域,其缺少公开用于命名实体识别的数据集,因此可以解决特定领域命名实体识别不准确的问题。
本申请通过采用第二识别模型对样本数据进行识别,得到初始命名实体;对初始命名实体进行校正后生成样本命名实体;然后由样本命名实体和样本数据对初始识别模型进行训练,生成训练后的第一识别模型。本申请通过对已有的样本数据和对应的初始命名实体进行优化,基于优化后的样本数据和样本实体命名生成的第一识别模型可以有效保障命名实体的识别效果,提高了命名实体识别的准确率。
本申请实施例中提供了一种可能的实现方式,该第二识别模型可以基于如下方式得到:
(1)获取样本数据中的样本数据子集;其中,样本数据子集设置有对应的初始命名实体子集。
其中,样本数据子集是从样本数据中抽取出的一部分数据。
在本实施例中,上述样本数据和初始命名实体子集可以基于领域专家的经验得到:领域专家基于对特定领域的理解搜集专利数据和相关领域技术文献数据,该数据可以是表格型结构化数据或者文本型非结构化数据。领域专家从专利数据中抽取实施例构建样本数据,根据技术文献数据生成数据词典。基于数据词典,领域专家选取样本数据中的样本数据子集进行数据的预识别,生成初始命名实体子集。
(2)基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型。
由于领域专家只用基于样本数据子集确定出对应的初始命名实体子集,为了扩充训练集,需要快速对整个样本数据进行识别,可以将上述样本数据子集和初始命名实体子集作为训练集,通过HMM(Hidden Markov Model,隐马尔科夫模型)或CRF(ConditionalRandom Field,条件随机场)模型等机器学习模型作为样本识别模型,从而生成第二识别模型。
本申请实施例中提供了又一种可能的实现方式,基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型,可以包括:
将样本数据子集输入到样本识别模型,得到样本识别模型输出的第一实时标签;
基于第一实时标签和初始命名实体子集,对样本识别模型进行训练,生成第二识别模型。
其中,样本识别模型可以为HMM模型。
具体的,将样本数据子集作为HMM模型的输入,采用维特比算法得到第一实时标签;采用极大似然估计法确定HMM模型的三个参数:初始概率矩阵、发射概率矩阵、状态转移概率矩阵;
然后采用于第一实时标签和初始命名实体子集确定损失函数,基于损失函数对HMM模型的上述三个参数进行调节,直至损失函数符合预设收敛条件,生成第二识别模型。
进一步地,通过第二识别模型,对所有的样本数据进行识别,得到初始命名实体,并将初始命名实体和样本数据作为针对初始识别模型的训练集,进一步扩大了训练集的数据量,使得训练后得到的第一识别模型的识别准确率得到提升,优化了命名实体识别的效果。
本申请实施例中提供了一种可能的实现方式,上述样本命名实体可以基于如下方式得到:
向至少一个终端发送初始命名实体和样本数据;
接收至少一个终端返回的校正信息;校正信息是终端基于样本数据针对初始命名实体生成的;
基于校正信息对初始命名实体进行校正,生成样本命名实体。
在实际应用中,可以通过搭建校正平台,采用众包式校正的方式对初始命名实体进行人工校正,众包是指企业把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众志愿者的做法;企业利用互联网来将工作分配出去、发现创意或解决技术问题,通过网络控制,这些组织可以利用志愿者的创意和能力;而这些志愿者具备完成任务的技能,愿意利用业余时间工作,满足于对其服务收取小额报酬。
首先通过校正平台,将包含初始命名实体和样本数据的校正任务分发给参与众包的各个志愿者的终端;各个志愿者在终端上完成校正任务后返回校正信息;通过上述校正信息可以纠正第二识别模型输出的初始命名实体中难以分辨的错误。
具体地,如图2所示,为本实施例提供的面向特定领域专利实施例的命名实体识别方法的众包校正时序图20,本申请实施例提供的面向特定领域专利实施例的命名实体识别方法可以包括以下步骤:
S201,命名实体识别装置获取初始命名实体和样本数据;
S202,命名实体识别装置将初始命名实体和样本数据发送至众包终端设备;
S203,众包终端设备基于样本数据针对初始命名实体生成校正信息;
S204,众包终端设备发送校正信息至命名实体识别装置;
S205,命名实体识别装置基于校正信息对初始命名实体进行校正,生成样本命名实体。
通过众包式校正的方式,可以集合非专业的志愿者帮助专业人员来进行数据校正工作,由于参与人数较多且志愿者的报酬较低,可以达到在较短的周期内校正完大量的数据,且控制了初始命名实体数据校正成本。
本申请实施例中提供了又一种可能的实现方式,上述第一识别模型可以通过如下方式训练得到:
将样本数据输入到初始识别模型,得到初始识别模型输出的第二实时标签;
基于第二实时标签和样本命名实体对初始识别模型进行训练,生成第一识别模型。
在实际应用中,上述初始识别模型可以是BERT-BiLSTM-CRF模型,该模型由BERT(Bi-directional Encoder Representation from Transformers,双向Transformer编码器)、BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)和CRF(Conditional Random Field,条件随机场)三个模块组成。
本申请实施例中提供了另一种可能的实现方式,对待识别数据进行识别,确定与待识别数据对应的命名实体,可以包括:
(1)将待识别数据转换为字向量序列;
具体地,利用预训练的BERT模块获取待识别数据文本信息中的字向量,并生成字向量序列,所获取的字向量能够利用利用词与词之间的相互关系有效提取文本中的重要特征。
(2)依据字向量序列,对待识别数据的上下文特征信息进行学习,确定预测序列;
在本实施例中,BiLSTM模块包括双向LSTM层和线性输出层,双向LSTM以BERT模块输出的字向量序列为输入,先得到前向隐状态序列和后向隐状态序列然后所得到的前向隐状态序列和后向隐状态序列进行拼接输出完整的隐状态序列ht;
接着线性输出层将ht映射到s维(s为命名实体的类别数量),生成表征上下文特征信息的预测序列:
L=(l1,l2,...ln)∈Rn*s,li∈Rs; (1)
其中,预测序列L的每一维li,j分别代表对应字向量针对每个标注类别的分数值。
(3)基于预测序列,生成待识别数据中的命名实体标注序列。
在本实施例中,如果基于上一步骤得到的预测序列,直接对每个字向量的分数值进行独立分类,选取每个分值最高的直接得到输出结果,则不能考虑相邻句子之间的信息,不能得到全局最优,分类结果不理想,所以将最后一个CRF模块引入模型,CRF模块对BiLSTM模块的输出进行处理,结合CRF模块中的转移矩阵,根据相邻字向量之间的分类标注结果得到一个全局最优序列,作为命名实体标注序列。
本申请实施例中提供了另一种可能的实现方式,基于预测序列,生成待识别数据中的命名实体标注序列,可以包括:
根据预测序列,确定字向量序列中每个字向量的状态特征和转移特征;
基于每个字向量的状态特征和转移特征,对预测序列进行分割和调整,得到待识别数据中的命名实体标注序列。
如图3所示,为本实施例提供的面向特定领域专利实施例的命名实体识别方法的第一模型结构示意图30;如图4所示为本实施例提供的基于第一模型的面向特定领域专利实施例的命名实体识别方法40;结合图3和图4,本申请实施例提供的面向特定领域专利实施例的命名实体识别方法可以包括以下步骤:
S401,BERT模块将获取的待识别数据转换为字向量序列;
S402,BiLSTM模块依据字向量序列,对待识别数据的上下文特征信息进行学习,确定预测序列;
S403,CRF模块根据预测序列,确定字向量序列中每个字向量的状态特征和转移特征;
S404,CRF模块基于每个字向量的转移特征和状态特征,对预测序列进行分割和调整,得到待识别数据中的命名实体标注序列。
在本实施例中,CRF模块以预测序列为输出,在确定每个字向量的分类标注状态时,同时考虑当前字向量标注类别的转移特征分数和上一个字向量的分类标注状态,最后用维特比算法,计算出全局最优序列,即待识别数据中的命名实体标注序列,有效提高了模型预测的精准度。
下面结合附图5对本申请实施例中提供的一种面向特定领域专利实施例的命名实体识别方法进行详细的描述,如图5所示为一种面向特定领域专利实施例的命名实体识别方法,该方法包括:
S501,获取样本数据和该样本数据中的样本数据子集;其中,样本数据子集设置有对应的初始命名实体子集;
具体地,获取生物医学领域专家提供的医学领域专利的实施例数据集合作为样本数据,需要从该样本数据中识别出五种生物医学实体,包括基因,蛋白质,化学物质,疾病和物种;首先要将专家从样本数据中抽取的部分实施例作为样本数据子集,进而获取专家从样本数据子集中标注出的上述5类生物医学实体作为初始命名实体子集。
S502,将样本数据子集输入到样本识别模型,得到样本识别模型输出的第一实时标签;基于第一实时标签和初始命名实体子集,对样本识别模型进行训练,生成第二识别模型;其中,第二识别模型可以为HMM模型。
S503,基于第二识别模型对样本数据进行识别,生成初始命名实体。
S504,向至少一个终端发送初始命名实体和样本数据;具体地,该至少一个终端可以是参与众包任务的各个志愿者的终端。
S505,接收至少一个终端返回的校正信息;校正信息是终端基于样本数据针对初始命名实体生成的。
S506,基于校正信息对初始命名实体进行校正,生成样本命名实体;具体地,由样本命名实体和样本数据构成了生物医学领域地特定训练集。
S507,将样本数据输入到初始识别模型,得到初始识别模型输出的第二实时标签;基于第二实时标签和样本命名实体对初始识别模型进行训练,生成第一识别模型;其中,第一识别模型可以为BERT-BiLSTM-CRF模型。
S508,获取待识别数据,采用第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体。
本申请通过采用第二识别模型对样本数据进行识别,得到初始命名实体;对初始命名实体进行校正后生成样本命名实体;然后由样本命名实体和样本数据对初始识别模型进行训练,生成训练后的第一识别模型。本申请通过对已有的样本数据和对应的初始命名实体进行优化,基于优化后的样本数据和样本实体命名生成的第一识别模型可以有效保障命名实体的识别效果,提高了命名实体识别的准确率。
基于相同的发明构思,本申请实施例提供了一种面向特定领域专利实施例的命名实体识别装置,如图6所示,该命名实体识别装置60可以包括:获取模块601、识别模块602,其中,
获取模块601,用于获取待识别数据;
识别模块602,用于采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;
其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。
本申请通过采用第二识别模型对样本数据进行识别,得到初始命名实体;对初始命名实体进行校正后生成样本命名实体;然后由样本命名实体和样本数据对初始识别模型进行训练,生成训练后的第一识别模型。本申请通过对已有的样本数据和对应的初始命名实体进行优化,基于优化后的样本数据和样本实体命名生成的第一识别模型可以有效保障命名实体的识别效果,提高了命名实体识别的准确率。
本申请实施例中提供了一种可能的实现方式,上述装置还包括第一生成模块,具体可以用于:
向至少一个终端发送初始命名实体和样本数据;
接收至少一个终端返回的校正信息;校正信息是终端基于样本数据针对初始命名实体生成的;
基于校正信息对初始命名实体进行校正,生成样本命名实体。
本申请实施例中提供了另一种可能的实现方式,上述装置还包括第二生成模块,可以用于:
获取样本数据中的样本数据子集;其中,样本数据子集设置有对应的初始命名实体子集;
基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型。
本申请实施例中提供了另一种可能的实现方式,上述第二生成模块具体可以用于:
将样本数据子集输入到样本识别模型,得到样本识别模型输出的第一实时标签;
基于第一实时标签和初始命名实体子集,对样本识别模型进行训练,生成第二识别模型。
本申请实施例中提供了又一种可能的实现方式,上述装置还包括第三生成模块,具体可以用于:
将样本数据输入到初始识别模型,得到初始识别模型输出的第二实时标签;
基于第二实时标签和样本命名实体对初始识别模型进行训练,生成第一识别模型。
本申请实施例中提供了又一种可能的实现方式,上述识别模块602还可以用于:
将待识别数据转换为字向量序列;
依据字向量序列,对待识别数据的上下文特征信息进行学习,确定预测序列;
基于预测序列,生成待识别数据中的命名实体标注序列。
本申请实施例中提供了又一种可能的实现方式,上述识别模块602可以用于:
根据预测序列,确定字向量序列中每个字向量的状态特征和转移特征;
基于每个字向量的状态特征和转移特征,对预测序列进行分割和调整,得到待识别数据中的命名实体标注序列。
基于相同的发明构思,本申请实施例还提供了一种电子设备70,如图7所示,该电子设备包括处理器701、存储器702及存储在存储器702上并可在处理器701上运行的计算机程序,处理器701执行程序时实现实施例中方法的步骤。
图7是本申请实施例提供的面向特定领域专利实施例的命名实体识别方法的一种电子设备的硬件结构示意图,如图7所示,该电子设备包括一个或多个处理器701以及存储器702,图7中以一个处理器701为例。
执行面向特定领域专利实施例的命名实体识别方法的电子设备还可以包括:输入装置703和输出装置704。
处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线705连接为例。
处理器701可以为中央处理器(Central Processing Unit,CPU)。处理器701还可以为其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
基于相同的发明构思,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种面向特定领域专利实施例的命名实体识别方法,其特征在于,包括:
获取待识别数据;
采用预训练的第一识别模型对所述待识别数据进行识别,确定与所述待识别数据对应的命名实体;
其中,所述第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;所述样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;所述初始命名实体是基于预设的第二识别模型对所述样本数据进行识别得到的。
2.根据权利要求1所述的面向特定领域专利实施例的命名实体识别方法,其特征在于,所述样本命名实体基于如下方式得到:
向至少一个终端发送所述初始命名实体和所述样本数据;
接收所述至少一个终端返回的校正信息;所述校正信息是终端基于所述样本数据针对所述初始命名实体生成的;
基于所述校正信息对所述初始命名实体进行校正,生成所述样本命名实体。
3.根据权利要求1或2所述的面向特定领域专利实施例的命名实体识别方法,其特征在于,所述第二识别模型基于如下方式得到:
获取所述样本数据中的样本数据子集;其中,所述样本数据子集设置有对应的初始命名实体子集;
基于所述样本数据子集和所述初始命名实体子集对样本识别模型进行训练,生成第二识别模型。
4.根据权利要求3所述的面向特定领域专利实施例的命名实体识别方法,其特征在于,所述基于所述样本数据子集和所述初始命名实体子集对样本识别模型进行训练,生成第二识别模型,包括:
将所述样本数据子集输入到所述样本识别模型,得到所述样本识别模型输出的第一实时标签;
基于所述第一实时标签和所述初始命名实体子集,对所述样本识别模型进行训练,生成所述第二识别模型。
5.根据权利要求1所述的面向特定领域专利实施例的命名实体识别方法,其特征在于,所述第一识别模型通过如下方式训练得到:
将所述样本数据输入到初始识别模型,得到所述初始识别模型输出的第二实时标签;
基于所述第二实时标签和所述样本命名实体对所述初始识别模型进行训练,生成所述第一识别模型。
6.根据权利要求1所述的面向特定领域专利实施例的命名实体识别方法,其特征在于,所述对所述待识别数据进行识别,确定与所述待识别数据对应的命名实体,包括:
将所述待识别数据转换为字向量序列;
依据所述字向量序列,对所述待识别数据的上下文特征信息进行学习,确定预测序列;
基于所述预测序列,生成所述待识别数据中的命名实体标注序列。
7.根据权利要求6所述的面向特定领域专利实施例的命名实体识别方法,其特征在于,所述基于所述预测序列,生成所述待识别数据中的命名实体标注序列,包括:
根据所述预测序列,确定所述字向量序列中每个字向量的状态特征和转移特征;
基于所述每个字向量的状态特征和转移特征,对所述预测序列进行分割和调整,得到所述待识别数据中的命名实体标注序列。
8.一种面向特定领域专利实施例的命名实体识别装置,其特征在于,包括:
获取模块,用于获取待识别数据;
识别模块,用于采用预训练的第一识别模型对所述待识别数据进行识别,确定与所述待识别数据对应的命名实体;
其中,所述第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;所述样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;所述初始命名实体是基于预设的第二识别模型对所述样本数据进行识别得到的。
9.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述面向特定领域专利实施例的命名实体识别方法对应的操作。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的面向特定领域专利实施例的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110044039.3A CN112765985B (zh) | 2021-01-13 | 2021-01-13 | 一种面向特定领域专利实施例的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110044039.3A CN112765985B (zh) | 2021-01-13 | 2021-01-13 | 一种面向特定领域专利实施例的命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765985A true CN112765985A (zh) | 2021-05-07 |
CN112765985B CN112765985B (zh) | 2023-10-27 |
Family
ID=75700255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110044039.3A Active CN112765985B (zh) | 2021-01-13 | 2021-01-13 | 一种面向特定领域专利实施例的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765985B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221574A (zh) * | 2021-05-31 | 2021-08-06 | 云南锡业集团(控股)有限责任公司研发中心 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN117151117A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013086998A1 (zh) * | 2011-12-13 | 2013-06-20 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
CN105260360A (zh) * | 2015-10-27 | 2016-01-20 | 小米科技有限责任公司 | 命名实体的识别方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN110516256A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种中文命名实体提取方法及其系统 |
CN110704633A (zh) * | 2019-09-04 | 2020-01-17 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111460810A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 众包任务的抽检方法、装置、计算机设备及存储介质 |
CN111553164A (zh) * | 2020-04-29 | 2020-08-18 | 平安科技(深圳)有限公司 | 命名实体识别模型的训练方法、装置、计算机设备 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN111967266A (zh) * | 2020-09-09 | 2020-11-20 | 中国人民解放军国防科技大学 | 中文命名实体识别模型及其构建方法和应用 |
-
2021
- 2021-01-13 CN CN202110044039.3A patent/CN112765985B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013086998A1 (zh) * | 2011-12-13 | 2013-06-20 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
CN105260360A (zh) * | 2015-10-27 | 2016-01-20 | 小米科技有限责任公司 | 命名实体的识别方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN110516256A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种中文命名实体提取方法及其系统 |
CN110704633A (zh) * | 2019-09-04 | 2020-01-17 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111460810A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 众包任务的抽检方法、装置、计算机设备及存储介质 |
CN111553164A (zh) * | 2020-04-29 | 2020-08-18 | 平安科技(深圳)有限公司 | 命名实体识别模型的训练方法、装置、计算机设备 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN111967266A (zh) * | 2020-09-09 | 2020-11-20 | 中国人民解放军国防科技大学 | 中文命名实体识别模型及其构建方法和应用 |
Non-Patent Citations (4)
Title |
---|
NITA V. PATIL 等: "HMM based Named Entity Recognition for Inflectional Language", 《2017 INTERNATIONAL CONFERENCE ON COMPUTER, COMMUNICATIONS AND ELECTRONICS》 * |
张晓海 等: "基于BI-LSTM-CRF 的作战文书命名实体识别", 《信息工程大学学报》 * |
房辉 等: "基于众包标注的中文微博命名实体识别", 《计算机应用与软件》 * |
谢腾 等: "基于BERT-BiLSTM-CRF 模型的中文实体识别", 《计算机应用系统》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221574A (zh) * | 2021-05-31 | 2021-08-06 | 云南锡业集团(控股)有限责任公司研发中心 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN117151117A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
CN117151117B (zh) * | 2023-10-30 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112765985B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN108334891B (zh) | 一种任务型意图分类方法及装置 | |
CN110309514B (zh) | 一种语义识别方法及装置 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN108021705B (zh) | 一种答案生成方法及装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
WO2019029723A1 (zh) | 文本问题的数学化处理方法、装置、设备和存储介质 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN112860866B (zh) | 语义检索方法、装置、设备以及存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN111209738A (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN110322959B (zh) | 一种基于知识的深度医疗问题路由方法及系统 | |
CN111476038A (zh) | 长文本生成方法、装置、计算机设备和存储介质 | |
CN112765985A (zh) | 一种面向特定领域专利实施例的命名实体识别方法 | |
CN111782786A (zh) | 用于城市大脑的多模型融合问答方法及系统、介质 | |
CN115080688B (zh) | 一种少样本跨领域情感分析方法及装置 | |
CN111241310A (zh) | 一种深度跨模态哈希检索方法、设备及介质 | |
CN114218926A (zh) | 一种基于分词与知识图谱的中文拼写纠错方法及系统 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN114817307A (zh) | 一种基于半监督学习和元学习的少样本nl2sql方法 | |
US11941360B2 (en) | Acronym definition network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |