CN113221539A - 一种集成句法信息的嵌套命名实体识别方法与系统 - Google Patents
一种集成句法信息的嵌套命名实体识别方法与系统 Download PDFInfo
- Publication number
- CN113221539A CN113221539A CN202110772554.3A CN202110772554A CN113221539A CN 113221539 A CN113221539 A CN 113221539A CN 202110772554 A CN202110772554 A CN 202110772554A CN 113221539 A CN113221539 A CN 113221539A
- Authority
- CN
- China
- Prior art keywords
- word
- phrase
- words
- dependency
- semantic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 159
- 238000012545 processing Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000010354 integration Effects 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种集成句法信息的嵌套命名实体识别方法及系统,所述方法包括如下步骤:抽取给定句子中每个当前词对应的短语句法特征,集合短语句法特征以得到短语句法信息;以短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中;抽取给定句子中每个当前词对应的依存句法特征,集合依存句法特征以得到依存句法信息;以依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,类别预测模型用于预测候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法,可提高实际识别准确度。
Description
技术领域
本发明涉及计算机句法处理技术领域,特别涉及一种集成句法信息的嵌套命名实体识别方法与系统。
背景技术
命名实体识别旨在识别自然语言文本中特定类型的实体,如人名、地名以及机构名等。命名实体识别是自然语言处理领域的重要任务之一,也是信息抽取中的关键子问题之一。命名实体识别性能的提高有利于信息检索、机器翻译以及智能问答等众多自然语言处理的下游应用。目前,针对非嵌套命名实体识别的研究工作比较多,而对嵌套命名实体识别的研究工作比较少。嵌套命名实体是一种特殊的命名实体,即在一个实体的内部还存在着一个或多个其他的实体。如图1所示,在句子“医科大学教授讲课”中,存在“医科大学”机构实体和“医科大学教授”人物实体,且实体“医科大学”嵌套在实体“医科大学教授”中。在中英文等主流语言中,命名实体嵌套的现象很普遍。据统计,常用数据集ACE 2004和ACE2005中嵌套命名实体占比分别高达43%和37%。目前,基于序列标注的命名实体模型能较有效地识别非嵌套命名实体,但并不适合用于识别此种具有嵌套结构的命名实体。
具体的,现有的嵌套命名实体识别的方法大致可分为两大类:(1)基于超图的方法,该类方法通常首先设计一种超图结构来表示命名实体中所有可能的嵌套结构,然后将嵌套命名实体识别问题转化为图结构标签的预测问题。该类方法中设计的超图通常都比较复杂,这将不可避免地导致其具有较高的时间复杂度;(2)基于文本片段分类的方法,该类方法将嵌套命名实体识别分解成实体边界检测和实体类别预测两个子任务。其中,实体边界检测子任务的目的是为了找出句子中可能是实体的候选文本片段。实体类别预测子任务的目的是预测候选文本片段是否为实体,如果是则给出实体所属的类别。一般来说,与基于超图的方法相比,基于文本片段分类的方法更简单,识别性能也更好。
句子的短语句法树中包含短语的边界、类别以及层次结构等信息。如图2中a所示,“医科大学”与“医科大学教授”均属于名词短语,而且低一级短语“医科大学”是短语“医科大学教授”的构成成分。显然,句子的短语句法信息对实体边界的检测是有用的,主要体现在以下两个方面:1)句子中实体的边界肯定是短语的边界;2)名词短语等是实体的可能性比较大;反之,动词短语等不是实体的可能性比较大。因此,集成句子的短语句法信息有利于提高实体边界检测子任务的性能。
另一方面,句子的依存句法树中包含词与词之间的依存关系和核心词等信息,常见的依存关系包括主谓、介宾、动宾、核心以及定中等。如图2中b所示,词“医科”与词“大学”之间为定中关系,核心词是“大学”;词“大学”与“教授”之间也是定中关系,而核心词是“教授”。显然,句子的依存句法信息对实体类别的预测是有帮助的,主要体现在以下两个方面:1)机构实体通常与“定中关系”等有关联,而人物实体则常常与“主谓关系”关系或“动宾关系”有关联;2)若知道词“大学”为核心词,则能较容易地推断出相应文本片段是机构实体;若知道词“教授”为核心词,则容易推断出是人物实体。因此,集成句子的依存句法信息有利于提高实体类别预测子任务的性能。
然而,现有的嵌套命名实体识别方法中,忽略了句法信息的利用,识别性能不是很理想。
发明内容
鉴于上述状况,有必要解决现有的命名实体识别方法中,忽略了句法信息的利用,识别性能不是很理想的问题。
本发明实施例提供了一种集成句法信息的嵌套命名实体识别方法,其中,所述方法包括如下步骤:
步骤一:抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
步骤二:以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
步骤三:抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
步骤四:以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
本发明提出的集成句法信息的嵌套命名实体识别方法,抽取给定句子中每个当前词对应的短语句法特征,集合多个短语句法特征以得到短语句法信息;以短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,其中边界检测模型用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中;抽取给定句子中每个当前词对应的依存句法特征,集合多个依存句法特征以得到依存句法信息;最后以依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法,充分考虑了句法信息的利用,有效提高了识别准确度。
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤一中:
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤二中,所述第一输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤二中,所述第一句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的短语句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
所述集成句法信息的嵌套命名实体识别方法,其中,所述基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为:
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示的步骤对应的公式为:
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤三中:
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤四中,
所述第二输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
所述第二句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的依存句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
所述集成句法信息的嵌套命名实体识别方法,其中,所述基于注意力机制学习词对应的依存句法信息的语义向量表示,对应的公式为:
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,对应的公式为:
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤四中,
所述聚合层用于基于注意力机制计算候选文本片段的语义向量表示,对应的计算公式如下:
本发明还提出一种集成句法信息的嵌套命名实体识别系统,其中,所述系统包括:
第一处理模块,用于抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
第二处理模块,用于以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
第三处理模块,用于抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
第四处理模块,用于以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明中嵌套命名实体的示例图;
图2为本发明中短语句法树和依存句法树的结构示意图;
图3为本发明提出的集成句法信息的嵌套命名实体识别方法的流程图;
图4为本发明中集成短语句法信息的边界检测模型的结构示意图;
图5为本发明中集成依存句法信息的类别预测模型的结构示意图;
图6为本发明提出的集成句法信息的嵌套命名实体识别系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有的嵌套命名实体识别方法中,忽略了句法信息的利用,识别性能不是很理想。为了解决这一技术问题,本发明提出一种集成句法信息的嵌套命名实体识别方法,请参阅图1至图5,其中,所述方法包括如下步骤:
S101,抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息。
例如,如图2中a所示,以句子的第2个词“大学”为例,自底向上在短语句法树找到包含“大学”的短语:“大学”、“医科大学”和“医科大学教授”。它们的类别分别为NN、NP和NP,所处的层级分别是1、2和3,词“大学”在这些短语中的位置分别为S、E和I。综合上述信息,可得词“大学”对应的短语句法特征包括NN-1-S、NP-2-E和NP-3-I,分别记为、和。
S102,以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中。
在本实施例中,边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层。
其中,所述第一输入层用于将给定句子中的词转换成语义向量表示。具体的,该方法包括如下步骤:
此外,上述的第一句法信息集成层执行如下步骤:
(1)根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
(2)基于注意力机制学习词对应的短语句法特征的语义向量表示;
(3)将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示。
是一个transformer网络。transformer网络是一种由多个自注意力机制层堆叠而成的深度神经网络,其不仅能够捕获句子中词之间的长距离依赖,而且具有良好的并行计算能力,在很多自然语言处理任务上取得了较好的效果。目前,transformer网络已成为主流的建模上下文信息的神经网络,其具体计算过程这里不再赘述。
然后,基于注意力机制学习词对应的短语句法信息的语义向量表示。其中,注意力机制具有自动捕获重要信息的能力,是一种常用于集成外部知识的方法,在此主要用于集成词对应的短语句法信息。
具体的,基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为:
进一步的,将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示,对应的公式为:
其中,为边界检测模型的交叉熵代价函数,为给定句子中词的个数,是词对应于该任务的真实类别标记,和分别表示和的第个分量。在此需要说明的是,通过最小化迭代交叉熵代价函数以训练模型,最后得到的模型即为训练好的模型,可用于预测边界。
S103,抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息。
如图2中b所示,以句子中的第3个词“教授”为例,在依存句法树中找到包含“教授”的依存关系有2个,分别为<教授,定中,大学>和<讲课,主谓,教授>,核心词分别为“教授”和“讲课”。根据上述抽取规则,可得词“教授”对应的依存句法特征包括“定中-大学-H”和“主谓-讲课-T”,分别记为和。
S104,以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。
在本步骤中,上述的类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
其中,第二输入层用于将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
所述第二句法信息集成层执行如下步骤:
(1)根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
(2)基于注意力机制学习词对应的依存句法信息的语义向量表示;
(3)将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示。
进一步的,基于注意力机制学习词对应的依存句法信息的语义向量表示,对应的公式为:
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,对应的公式为:
其中,侯选文本片段的真实类别标记,和分别表示和的第个分量。在此需要说明的是,该交叉熵代价函数用于通过最小化代交叉熵代价函数以训练类别预测模型。最后得到的模型即为训练好的模型,根据训练好的类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。
本发明提出的集成句法信息的嵌套命名实体识别方法,抽取给定句子中每个当前词对应的短语句法特征,集合多个短语句法特征以集成得到短语句法信息;以短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,其中边界检测模型用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中;抽取给定句子中每个当前词对应的依存句法特征,集合多个依存句法特征以得到依存句法信息;最后以依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法,充分考虑了句法信息的利用,有效提高了识别准确度。
请参阅图6,本发明还提出一种集成句法信息的嵌套命名实体识别系统,其中,所述系统包括依次连接的第一处理模块11、第二处理模块12、第三处理模块13以及第四处理模块14;
所述第一处理模块11具体用于:
抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
所述第二处理模块12具体用于:
以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
所述第三处理模块13具体用于:
抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
所述第四处理模块14具体用于:
以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种集成句法信息的嵌套命名实体识别方法,其特征在于,所述方法包括如下步骤:
步骤一:抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
步骤二:以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
步骤三:抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
步骤四:以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
5.根据权利要求4所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,所述基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为:
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示的步骤对应的公式为:
7.根据权利要求6所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤四中:
所述第二输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
所述第二句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的依存句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
10.一种集成句法信息的嵌套命名实体识别系统,其特征在于,所述系统包括:
第一处理模块,用于抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
第二处理模块,用于以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
第三处理模块,用于抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
第四处理模块,用于以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772554.3A CN113221539B (zh) | 2021-07-08 | 2021-07-08 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772554.3A CN113221539B (zh) | 2021-07-08 | 2021-07-08 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221539A true CN113221539A (zh) | 2021-08-06 |
CN113221539B CN113221539B (zh) | 2021-09-24 |
Family
ID=77081197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110772554.3A Active CN113221539B (zh) | 2021-07-08 | 2021-07-08 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221539B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468333A (zh) * | 2021-09-02 | 2021-10-01 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与系统 |
CN113626608A (zh) * | 2021-10-12 | 2021-11-09 | 深圳前海环融联易信息科技服务有限公司 | 增强语义的关系抽取方法、装置、计算机设备及存储介质 |
CN113656544A (zh) * | 2021-08-11 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN114611517A (zh) * | 2022-03-15 | 2022-06-10 | 平安科技(深圳)有限公司 | 基于深度学习的命名实体识别方法、装置、设备和介质 |
CN116629237A (zh) * | 2023-07-25 | 2023-08-22 | 江西财经大学 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN108491381A (zh) * | 2018-03-13 | 2018-09-04 | 山西大学 | 一种汉语二分结构的句法分析方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN109408825A (zh) * | 2018-11-06 | 2019-03-01 | 杭州费尔斯通科技有限公司 | 一种基于命名实体识别的中标数据提取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
US10467122B1 (en) * | 2017-04-27 | 2019-11-05 | Intuit Inc. | Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks |
US20200073939A1 (en) * | 2018-08-30 | 2020-03-05 | Roman Levchenko | Artificial Intelligence Process Automation for Enterprise Business Communication |
US10789461B1 (en) * | 2019-10-24 | 2020-09-29 | Innovaccer Inc. | Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
CN112765956A (zh) * | 2021-01-22 | 2021-05-07 | 大连民族大学 | 基于多任务学习的依存句法分析方法及应用 |
CN112989796A (zh) * | 2021-03-10 | 2021-06-18 | 北京大学 | 一种基于句法指导的文本命名实体信息识别方法 |
-
2021
- 2021-07-08 CN CN202110772554.3A patent/CN113221539B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
US10467122B1 (en) * | 2017-04-27 | 2019-11-05 | Intuit Inc. | Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks |
CN108491381A (zh) * | 2018-03-13 | 2018-09-04 | 山西大学 | 一种汉语二分结构的句法分析方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
US20200073939A1 (en) * | 2018-08-30 | 2020-03-05 | Roman Levchenko | Artificial Intelligence Process Automation for Enterprise Business Communication |
CN109408825A (zh) * | 2018-11-06 | 2019-03-01 | 杭州费尔斯通科技有限公司 | 一种基于命名实体识别的中标数据提取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
US10789461B1 (en) * | 2019-10-24 | 2020-09-29 | Innovaccer Inc. | Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document |
CN112765956A (zh) * | 2021-01-22 | 2021-05-07 | 大连民族大学 | 基于多任务学习的依存句法分析方法及应用 |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
CN112989796A (zh) * | 2021-03-10 | 2021-06-18 | 北京大学 | 一种基于句法指导的文本命名实体信息识别方法 |
Non-Patent Citations (2)
Title |
---|
NILS REIMERS等: "GermEval-2014: Nested Named Entity Recognition with Neural Networks", 《WORKSHOP PROCEEDINGS OF THE 12TH KONVENS 2014》 * |
尹迪 等: "基于联合模型的中文嵌套命名实体识别", 《 南京师大学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656544A (zh) * | 2021-08-11 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113656544B (zh) * | 2021-08-11 | 2024-03-15 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113468333A (zh) * | 2021-09-02 | 2021-10-01 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与系统 |
CN113626608A (zh) * | 2021-10-12 | 2021-11-09 | 深圳前海环融联易信息科技服务有限公司 | 增强语义的关系抽取方法、装置、计算机设备及存储介质 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN114611517A (zh) * | 2022-03-15 | 2022-06-10 | 平安科技(深圳)有限公司 | 基于深度学习的命名实体识别方法、装置、设备和介质 |
CN114611517B (zh) * | 2022-03-15 | 2023-07-25 | 平安科技(深圳)有限公司 | 基于深度学习的命名实体识别方法、装置、设备和介质 |
CN116629237A (zh) * | 2023-07-25 | 2023-08-22 | 江西财经大学 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
CN116629237B (zh) * | 2023-07-25 | 2023-10-10 | 江西财经大学 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113221539B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221539B (zh) | 一种集成句法信息的嵌套命名实体识别方法与系统 | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
US9892111B2 (en) | Method and device to estimate similarity between documents having multiple segments | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
US7546235B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
US9189482B2 (en) | Similar document search | |
US9235573B2 (en) | Universal difference measure | |
Bonet-Jover et al. | Exploiting discourse structure of traditional digital media to enhance automatic fake news detection | |
Zhang et al. | Natural language processing: a machine learning perspective | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
Etaiwi et al. | Graph-based Arabic text semantic representation | |
Mohammed | Using machine learning to build POS tagger for under-resourced language: the case of Somali | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN112541337A (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
Lata et al. | Mention detection in coreference resolution: survey | |
CN113343690A (zh) | 一种文本可读性自动评估方法及装置 | |
Barbella et al. | Analogical word sense disambiguation | |
Papay et al. | Quotation detection and classification with a corpus-agnostic model | |
CN115935959A (zh) | 一种低资源黏着语序列标注的方法 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
CN114818724A (zh) | 一种社交媒体灾害有效信息检测模型的构建方法 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
Pogorilyy et al. | Assessment of Text Coherence by Constructing the Graph of Semantic, Lexical, and Grammatical Consistancy of Phrases of Sentences | |
Keezhatta | Understanding EFL Linguistic Models through Relationship between Natural Language Processing and Artificial Intelligence Applications. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |