CN113221539A - 一种集成句法信息的嵌套命名实体识别方法与系统 - Google Patents

一种集成句法信息的嵌套命名实体识别方法与系统 Download PDF

Info

Publication number
CN113221539A
CN113221539A CN202110772554.3A CN202110772554A CN113221539A CN 113221539 A CN113221539 A CN 113221539A CN 202110772554 A CN202110772554 A CN 202110772554A CN 113221539 A CN113221539 A CN 113221539A
Authority
CN
China
Prior art keywords
word
phrase
words
dependency
semantic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110772554.3A
Other languages
English (en)
Other versions
CN113221539B (zh
Inventor
叶臻
黄兆华
邬昌兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202110772554.3A priority Critical patent/CN113221539B/zh
Publication of CN113221539A publication Critical patent/CN113221539A/zh
Application granted granted Critical
Publication of CN113221539B publication Critical patent/CN113221539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种集成句法信息的嵌套命名实体识别方法及系统,所述方法包括如下步骤:抽取给定句子中每个当前词对应的短语句法特征,集合短语句法特征以得到短语句法信息;以短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中;抽取给定句子中每个当前词对应的依存句法特征,集合依存句法特征以得到依存句法信息;以依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,类别预测模型用于预测候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法,可提高实际识别准确度。

Description

一种集成句法信息的嵌套命名实体识别方法与系统
技术领域
本发明涉及计算机句法处理技术领域,特别涉及一种集成句法信息的嵌套命名实体识别方法与系统。
背景技术
命名实体识别旨在识别自然语言文本中特定类型的实体,如人名、地名以及机构名等。命名实体识别是自然语言处理领域的重要任务之一,也是信息抽取中的关键子问题之一。命名实体识别性能的提高有利于信息检索、机器翻译以及智能问答等众多自然语言处理的下游应用。目前,针对非嵌套命名实体识别的研究工作比较多,而对嵌套命名实体识别的研究工作比较少。嵌套命名实体是一种特殊的命名实体,即在一个实体的内部还存在着一个或多个其他的实体。如图1所示,在句子“医科大学教授讲课”中,存在“医科大学”机构实体和“医科大学教授”人物实体,且实体“医科大学”嵌套在实体“医科大学教授”中。在中英文等主流语言中,命名实体嵌套的现象很普遍。据统计,常用数据集ACE 2004和ACE2005中嵌套命名实体占比分别高达43%和37%。目前,基于序列标注的命名实体模型能较有效地识别非嵌套命名实体,但并不适合用于识别此种具有嵌套结构的命名实体。
具体的,现有的嵌套命名实体识别的方法大致可分为两大类:(1)基于超图的方法,该类方法通常首先设计一种超图结构来表示命名实体中所有可能的嵌套结构,然后将嵌套命名实体识别问题转化为图结构标签的预测问题。该类方法中设计的超图通常都比较复杂,这将不可避免地导致其具有较高的时间复杂度;(2)基于文本片段分类的方法,该类方法将嵌套命名实体识别分解成实体边界检测和实体类别预测两个子任务。其中,实体边界检测子任务的目的是为了找出句子中可能是实体的候选文本片段。实体类别预测子任务的目的是预测候选文本片段是否为实体,如果是则给出实体所属的类别。一般来说,与基于超图的方法相比,基于文本片段分类的方法更简单,识别性能也更好。
句子的短语句法树中包含短语的边界、类别以及层次结构等信息。如图2中a所示,“医科大学”与“医科大学教授”均属于名词短语,而且低一级短语“医科大学”是短语“医科大学教授”的构成成分。显然,句子的短语句法信息对实体边界的检测是有用的,主要体现在以下两个方面:1)句子中实体的边界肯定是短语的边界;2)名词短语等是实体的可能性比较大;反之,动词短语等不是实体的可能性比较大。因此,集成句子的短语句法信息有利于提高实体边界检测子任务的性能。
另一方面,句子的依存句法树中包含词与词之间的依存关系和核心词等信息,常见的依存关系包括主谓、介宾、动宾、核心以及定中等。如图2中b所示,词“医科”与词“大学”之间为定中关系,核心词是“大学”;词“大学”与“教授”之间也是定中关系,而核心词是“教授”。显然,句子的依存句法信息对实体类别的预测是有帮助的,主要体现在以下两个方面:1)机构实体通常与“定中关系”等有关联,而人物实体则常常与“主谓关系”关系或“动宾关系”有关联;2)若知道词“大学”为核心词,则能较容易地推断出相应文本片段是机构实体;若知道词“教授”为核心词,则容易推断出是人物实体。因此,集成句子的依存句法信息有利于提高实体类别预测子任务的性能。
然而,现有的嵌套命名实体识别方法中,忽略了句法信息的利用,识别性能不是很理想。
发明内容
鉴于上述状况,有必要解决现有的命名实体识别方法中,忽略了句法信息的利用,识别性能不是很理想的问题。
本发明实施例提供了一种集成句法信息的嵌套命名实体识别方法,其中,所述方法包括如下步骤:
步骤一:抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
步骤二:以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
步骤三:抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
步骤四:以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
本发明提出的集成句法信息的嵌套命名实体识别方法,抽取给定句子中每个当前词对应的短语句法特征,集合多个短语句法特征以得到短语句法信息;以短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,其中边界检测模型用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中;抽取给定句子中每个当前词对应的依存句法特征,集合多个依存句法特征以得到依存句法信息;最后以依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法,充分考虑了句法信息的利用,有效提高了识别准确度。
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤一中:
所述短语句法特征记为
Figure 62566DEST_PATH_IMAGE001
,所述短语句法信息记为
Figure 109020DEST_PATH_IMAGE002
,其中
Figure 359873DEST_PATH_IMAGE003
Figure 200790DEST_PATH_IMAGE004
为给定句子中词
Figure 54869DEST_PATH_IMAGE005
的个数,
Figure 373855DEST_PATH_IMAGE006
Figure 744794DEST_PATH_IMAGE007
为给定句子中包含词
Figure 756612DEST_PATH_IMAGE008
的短语的个数;
所述短语句法特征包括:短语句法树中包含词
Figure 314632DEST_PATH_IMAGE005
的第k个短语的类别、包含词
Figure 453621DEST_PATH_IMAGE005
的第k个短语在短语句法数中的层级,以及词
Figure 679066DEST_PATH_IMAGE005
在第k个短语中的位置。
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤二中,所述第一输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
基于词向量工具在无标注的文本上预训练好词向量矩阵
Figure 596206DEST_PATH_IMAGE009
,其中词向量矩阵
Figure 172681DEST_PATH_IMAGE009
中的每一行对应词表中的一个词;
对给定句子中的词
Figure 99049DEST_PATH_IMAGE005
,从词向量矩阵中找到对应的行向量,以得到词
Figure 162689DEST_PATH_IMAGE010
的语义向量表示
Figure 781889DEST_PATH_IMAGE011
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤二中,所述第一句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的短语句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
其中,所述给定句子中词的语义向量表示记为
Figure 580081DEST_PATH_IMAGE012
,词在上下文中的语义向量表示记为
Figure 778981DEST_PATH_IMAGE013
Figure 979018DEST_PATH_IMAGE014
Figure 519852DEST_PATH_IMAGE015
是一个transformer网络。
所述集成句法信息的嵌套命名实体识别方法,其中,所述基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为:
Figure 539760DEST_PATH_IMAGE016
其中,
Figure 807931DEST_PATH_IMAGE017
为词
Figure 862474DEST_PATH_IMAGE010
在上下文中的语义向量表示,
Figure 810095DEST_PATH_IMAGE018
为词
Figure 582879DEST_PATH_IMAGE010
对应的短语句法信息的语义向量表示,
Figure 389161DEST_PATH_IMAGE019
Figure 298211DEST_PATH_IMAGE020
均为短语句法特征
Figure 164536DEST_PATH_IMAGE021
的语义向量表示,
Figure 909769DEST_PATH_IMAGE022
表示词
Figure 785321DEST_PATH_IMAGE005
的第k个短语句法特征对应的权重,
Figure 814457DEST_PATH_IMAGE023
为给定句子中包含词
Figure 586104DEST_PATH_IMAGE010
的短语的个数,
Figure 333480DEST_PATH_IMAGE024
表示向量的转置;
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示的步骤对应的公式为:
Figure 996412DEST_PATH_IMAGE025
Figure 614475DEST_PATH_IMAGE026
为向量的拼接操作,
Figure 822602DEST_PATH_IMAGE027
为词
Figure 791695DEST_PATH_IMAGE005
最终的语义向量表示;
所述第一分类层用于输出词
Figure 759783DEST_PATH_IMAGE005
是实体首词、实体尾词以及其它词的概率,对应的计算公式为:
Figure 232352DEST_PATH_IMAGE028
其中,
Figure 876960DEST_PATH_IMAGE029
由一个多层前馈神经网络叠加一个
Figure 333349DEST_PATH_IMAGE030
层组成;
Figure 823236DEST_PATH_IMAGE031
是一个3维的向量,其中第1个分量
Figure 933668DEST_PATH_IMAGE032
为词
Figure 749178DEST_PATH_IMAGE005
是实体首词的概率,第2个分量
Figure 427284DEST_PATH_IMAGE033
为词
Figure 720862DEST_PATH_IMAGE005
是实体尾词的概率,第3个分量
Figure 433603DEST_PATH_IMAGE034
为词
Figure 170746DEST_PATH_IMAGE010
是其它词的概率。
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤三中:
所述依存句法特征记为
Figure 336148DEST_PATH_IMAGE035
,所述依存句法信息记为
Figure 433417DEST_PATH_IMAGE036
,其中
Figure 664DEST_PATH_IMAGE037
Figure 407244DEST_PATH_IMAGE004
为给定句子中词
Figure 794363DEST_PATH_IMAGE005
的个数,
Figure 695323DEST_PATH_IMAGE038
Figure 117077DEST_PATH_IMAGE039
为与词
Figure 445290DEST_PATH_IMAGE005
相关的依存关系的个数;
所述依存句法特征
Figure 336017DEST_PATH_IMAGE035
包括:依存句法树中与词
Figure 775088DEST_PATH_IMAGE005
相关的第k个依存关系的类别、依存句法树中与词
Figure 51349DEST_PATH_IMAGE008
相关的第k个依存关系中的另一个词、以及词
Figure 550463DEST_PATH_IMAGE005
是否为该依存关系的核心词的信息。
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤四中,
所述第二输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
基于词向量工具在无标注的文本上预训练好词向量矩阵
Figure 912175DEST_PATH_IMAGE040
,其中词向量矩阵
Figure 395416DEST_PATH_IMAGE040
中的每一行对应词表中的一个词;
对给定句子中的词
Figure 57341DEST_PATH_IMAGE005
,从词向量矩阵
Figure 727357DEST_PATH_IMAGE040
中找到对应的行向量,以得到词
Figure 310785DEST_PATH_IMAGE005
的语义向量表示
Figure 357238DEST_PATH_IMAGE011
所述第二句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的依存句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
其中,所述给定句子中词的语义向量表示记为
Figure 624403DEST_PATH_IMAGE041
,词在上下文中的语义向量表示记为
Figure 199741DEST_PATH_IMAGE042
Figure 536044DEST_PATH_IMAGE043
Figure 120609DEST_PATH_IMAGE044
是一个transformer网络。
所述集成句法信息的嵌套命名实体识别方法,其中,所述基于注意力机制学习词对应的依存句法信息的语义向量表示,对应的公式为:
Figure 225968DEST_PATH_IMAGE045
其中,
Figure 487054DEST_PATH_IMAGE046
为给定句子中词
Figure 576233DEST_PATH_IMAGE008
在上下文中的语义向量表示,
Figure 698910DEST_PATH_IMAGE047
为词
Figure 924355DEST_PATH_IMAGE005
对应的依存句法信息的语义向量表示,
Figure 857807DEST_PATH_IMAGE048
Figure 168702DEST_PATH_IMAGE049
均为依存句法特征
Figure 829491DEST_PATH_IMAGE050
的语义向量表示,
Figure 175022DEST_PATH_IMAGE051
表示第
Figure 528643DEST_PATH_IMAGE052
个依存句法特征的权重,
Figure 579032DEST_PATH_IMAGE053
为与词
Figure 43511DEST_PATH_IMAGE010
相关的依存关系的个数,
Figure 243548DEST_PATH_IMAGE024
表示向量的转置;
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,对应的公式为:
Figure 502491DEST_PATH_IMAGE054
其中,
Figure 787979DEST_PATH_IMAGE055
为词最终的语义向量表示,
Figure 72461DEST_PATH_IMAGE026
为向量的拼接操作。
所述集成句法信息的嵌套命名实体识别方法,其中,在所述步骤四中,
所述聚合层用于基于注意力机制计算候选文本片段的语义向量表示,对应的计算公式如下:
Figure 861425DEST_PATH_IMAGE056
其中,
Figure 556849DEST_PATH_IMAGE057
为候选文本片段
Figure 329633DEST_PATH_IMAGE058
的语义向量表示,
Figure 135915DEST_PATH_IMAGE059
为文本片段中第
Figure 294233DEST_PATH_IMAGE060
个词对应的权重,
Figure 426137DEST_PATH_IMAGE061
Figure 155058DEST_PATH_IMAGE062
均为文本片段中第
Figure 30610DEST_PATH_IMAGE060
个词最终的语义向量表示,
Figure 544899DEST_PATH_IMAGE063
Figure 847705DEST_PATH_IMAGE064
为参数矩阵;
所述第二分类层用于输出候选文本片段
Figure 63922DEST_PATH_IMAGE065
为特定类别实体的概率以及不是实体的概率,计算公式如下:
Figure 477586DEST_PATH_IMAGE066
其中,
Figure 95649DEST_PATH_IMAGE067
由一个多层前馈神经网络叠加一个
Figure 821553DEST_PATH_IMAGE030
层组成;
Figure 790646DEST_PATH_IMAGE068
为一个
Figure 8001DEST_PATH_IMAGE069
维的向量,
Figure 746150DEST_PATH_IMAGE070
的前
Figure 125179DEST_PATH_IMAGE071
个分量分别为候选文本片段
Figure 332300DEST_PATH_IMAGE072
是对应类别实体的概率,最后一个分量为候选文本片段
Figure 87767DEST_PATH_IMAGE072
不是实体的概率。
本发明还提出一种集成句法信息的嵌套命名实体识别系统,其中,所述系统包括:
第一处理模块,用于抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
第二处理模块,用于以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
第三处理模块,用于抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
第四处理模块,用于以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明中嵌套命名实体的示例图;
图2为本发明中短语句法树和依存句法树的结构示意图;
图3为本发明提出的集成句法信息的嵌套命名实体识别方法的流程图;
图4为本发明中集成短语句法信息的边界检测模型的结构示意图;
图5为本发明中集成依存句法信息的类别预测模型的结构示意图;
图6为本发明提出的集成句法信息的嵌套命名实体识别系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有的嵌套命名实体识别方法中,忽略了句法信息的利用,识别性能不是很理想。为了解决这一技术问题,本发明提出一种集成句法信息的嵌套命名实体识别方法,请参阅图1至图5,其中,所述方法包括如下步骤:
S101,抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息。
上述的短语句法特征记为
Figure 680422DEST_PATH_IMAGE001
,短语句法信息记为
Figure 230352DEST_PATH_IMAGE002
。在此需要说明的是,短语句法信息
Figure 423305DEST_PATH_IMAGE002
为短语句法特征
Figure 982462DEST_PATH_IMAGE001
的集合。其中,
Figure 429624DEST_PATH_IMAGE003
Figure 416035DEST_PATH_IMAGE004
为给定句子中词
Figure 581437DEST_PATH_IMAGE008
的个数,
Figure 163859DEST_PATH_IMAGE006
Figure 996686DEST_PATH_IMAGE007
为给定句子中包含词
Figure 153998DEST_PATH_IMAGE005
的短语的个数。
上述的短语句法特征包括:短语句法树中包含词
Figure 541117DEST_PATH_IMAGE005
的第k个短语的类别、包含词
Figure 442076DEST_PATH_IMAGE005
的第k个短语在短语句法数中的层级,以及词
Figure 381607DEST_PATH_IMAGE005
在第k个短语中的位置。
具体的,按照如下规则抽取词
Figure 444241DEST_PATH_IMAGE005
对应的短语句法特征
Figure 584235DEST_PATH_IMAGE073
(1)抽取短语句法树中包含词
Figure 23307DEST_PATH_IMAGE005
的第k个短语的类别;例如名词短语(NP)以及动词短语(VP)等。
(2)抽取包含词
Figure 299567DEST_PATH_IMAGE005
的第k个短语在短语句法树中的层级。定义词所在层的层级为0,自底向上层级依次加1。
(3)抽取词
Figure 549414DEST_PATH_IMAGE005
在第k个短语中的位置。其中,定义词
Figure 176705DEST_PATH_IMAGE005
在短语中的位置为以下四种:B表示词是短语的首词、E表示词是短语的尾词、I表示词位于短语的中间以及S表示词单独构建短语。
(4)将上述类别、层次以及位置三部分信息综合在一起,作为词
Figure 419467DEST_PATH_IMAGE005
对应的短语句法特征
Figure 550234DEST_PATH_IMAGE074
(5)考虑到层级较高的短语信息对实体边界识别的帮助比较小,因此仅基于层级不超过3的短语抽取词
Figure 469518DEST_PATH_IMAGE005
对应的短语句法特征。
(6)考虑到一个词
Figure 584104DEST_PATH_IMAGE005
的词性对实体边界的识别是有帮助的,因此将词
Figure 364978DEST_PATH_IMAGE010
本身看作是仅包含其自己的短语,并把其词性看作该短语的类别。例如,词“大学”的词性为名词(NN)。
例如,如图2中a所示,以句子的第2个词“大学”为例,自底向上在短语句法树找到包含“大学”的短语:“大学”、“医科大学”和“医科大学教授”。它们的类别分别为NN、NP和NP,所处的层级分别是1、2和3,词“大学”在这些短语中的位置分别为S、E和I。综合上述信息,可得词“大学”对应的短语句法特征包括NN-1-S、NP-2-E和NP-3-I,分别记为
Figure 615831DEST_PATH_IMAGE075
Figure 456748DEST_PATH_IMAGE076
Figure 543784DEST_PATH_IMAGE077
S102,以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中。
在本实施例中,边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层。
其中,所述第一输入层用于将给定句子中的词转换成语义向量表示。具体的,该方法包括如下步骤:
(1)基于词向量工具在无标注的文本上预训练好词向量矩阵
Figure 128349DEST_PATH_IMAGE040
,其中词向量矩阵
Figure 499288DEST_PATH_IMAGE040
中的每一行对应词表中的一个词;
(2)对给定句子中的词
Figure 245527DEST_PATH_IMAGE005
,从词向量矩阵
Figure 334705DEST_PATH_IMAGE040
中找到对应的行向量,以得到词
Figure 721298DEST_PATH_IMAGE005
的语义向量表示
Figure 681164DEST_PATH_IMAGE011
此外,上述的第一句法信息集成层执行如下步骤:
(1)根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
(2)基于注意力机制学习词对应的短语句法特征的语义向量表示;
(3)将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示。
其中,给定句子中词的语义向量表示记为
Figure 129463DEST_PATH_IMAGE078
,词在上下文中的语义向量表示记为
Figure 174779DEST_PATH_IMAGE079
Figure 101147DEST_PATH_IMAGE080
Figure 197410DEST_PATH_IMAGE015
是一个transformer网络。transformer网络是一种由多个自注意力机制层堆叠而成的深度神经网络,其不仅能够捕获句子中词之间的长距离依赖,而且具有良好的并行计算能力,在很多自然语言处理任务上取得了较好的效果。目前,transformer网络已成为主流的建模上下文信息的神经网络,其具体计算过程这里不再赘述。
然后,基于注意力机制学习词对应的短语句法信息的语义向量表示。其中,注意力机制具有自动捕获重要信息的能力,是一种常用于集成外部知识的方法,在此主要用于集成词对应的短语句法信息。
具体的,基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为:
Figure 285452DEST_PATH_IMAGE016
其中,
Figure 83643DEST_PATH_IMAGE081
为词
Figure 813702DEST_PATH_IMAGE005
在上下文中的语义向量表示,
Figure 748160DEST_PATH_IMAGE018
为词
Figure 521950DEST_PATH_IMAGE005
对应的短语句法信息的语义向量表示,
Figure 807438DEST_PATH_IMAGE019
Figure 810029DEST_PATH_IMAGE020
均为短语句法特征
Figure 864572DEST_PATH_IMAGE021
的语义向量表示,
Figure 576308DEST_PATH_IMAGE082
表示词
Figure 83512DEST_PATH_IMAGE005
的第k个短语句法特征对应的权重,
Figure 889794DEST_PATH_IMAGE023
为给定句子中包含
Figure 64424DEST_PATH_IMAGE010
的短语的个数,
Figure 930749DEST_PATH_IMAGE024
表示向量的转置。
进一步的,将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示,对应的公式为:
Figure 177447DEST_PATH_IMAGE025
Figure 787420DEST_PATH_IMAGE026
为向量的拼接操作,
Figure 816555DEST_PATH_IMAGE027
为词
Figure 853782DEST_PATH_IMAGE005
最终的语义向量表示。
进一步的,第一分类层用于输出词
Figure 335579DEST_PATH_IMAGE005
是实体首词、实体尾词以及其它词的概率,对应的计算公式为:
Figure 499975DEST_PATH_IMAGE083
其中,
Figure 118038DEST_PATH_IMAGE029
由一个多层前馈神经网络叠加一个
Figure 591745DEST_PATH_IMAGE030
层组成;
Figure 560838DEST_PATH_IMAGE084
是一个3维的向量,其中第1个分量
Figure 247034DEST_PATH_IMAGE085
为词
Figure 500030DEST_PATH_IMAGE005
是实体首词的概率,第2个分量
Figure 144637DEST_PATH_IMAGE086
为词
Figure 335447DEST_PATH_IMAGE005
是实体尾词的概率,第3个分量
Figure 90914DEST_PATH_IMAGE034
为词
Figure 434302DEST_PATH_IMAGE005
是其它词的概率。
在边界检测模型训练的过程中,对于人工标注好嵌套命名实体(等同于标注了实体的首尾词)的训练语料中的每个句子
Figure 984232DEST_PATH_IMAGE087
,定义实体边界检测子任务的交叉熵代价函数(3分类)表示如下:
Figure 927917DEST_PATH_IMAGE088
其中,
Figure 487074DEST_PATH_IMAGE089
为边界检测模型的交叉熵代价函数,
Figure 934236DEST_PATH_IMAGE090
为给定句子中词
Figure 907265DEST_PATH_IMAGE005
的个数,
Figure 338246DEST_PATH_IMAGE091
是词
Figure 169936DEST_PATH_IMAGE005
对应于该任务的真实类别标记,
Figure 2762DEST_PATH_IMAGE092
Figure 628916DEST_PATH_IMAGE093
分别表示
Figure 297926DEST_PATH_IMAGE094
Figure 198886DEST_PATH_IMAGE084
的第
Figure 620640DEST_PATH_IMAGE095
个分量。在此需要说明的是,通过最小化迭代交叉熵代价函数以训练模型,最后得到的模型即为训练好的模型,可用于预测边界。
进一步的,基于实体边界的预测结果,可筛选出句子中可能是命名实体的文本片段。具体地,对于给定句子中任意从第
Figure 683274DEST_PATH_IMAGE096
个词到第
Figure 823268DEST_PATH_IMAGE097
个词(
Figure 777186DEST_PATH_IMAGE098
)的文本片段
Figure 319026DEST_PATH_IMAGE099
,若满足
Figure 552561DEST_PATH_IMAGE100
Figure 179852DEST_PATH_IMAGE101
是人为指定的阈值,则加入到实体的侯选文本片段集
Figure 173347DEST_PATH_IMAGE102
中。
S103,抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息。
在本步骤中,依存句法特征记为
Figure 569693DEST_PATH_IMAGE035
,所述依存句法信息记为
Figure 974130DEST_PATH_IMAGE036
,其中
Figure 88716DEST_PATH_IMAGE037
Figure 869590DEST_PATH_IMAGE004
为给定句子中词
Figure 638220DEST_PATH_IMAGE005
的个数,
Figure 213557DEST_PATH_IMAGE103
Figure 549861DEST_PATH_IMAGE039
为与词
Figure 134426DEST_PATH_IMAGE005
相关的依存关系的个数。
在本实施例中,依存句法特征
Figure 505364DEST_PATH_IMAGE035
包括:依存句法树中与词
Figure 2336DEST_PATH_IMAGE005
相关的第k个依存关系的类别、依存句法树中与词
Figure 825935DEST_PATH_IMAGE005
相关的第k个依存关系中的另一个词、以及词
Figure 214191DEST_PATH_IMAGE005
是否为该依存关系的核心词的信息。
其中,依存句法树中词之间的依存关系通常用形如<核心词,依存关系,非核心词>的三元组表示。具体地,按如下规则抽取词
Figure 439636DEST_PATH_IMAGE005
对应的依存句法特征
Figure 356777DEST_PATH_IMAGE104
(1)抽取依存句法树中与词
Figure 182519DEST_PATH_IMAGE005
相关的第个依存关系的类别,例如,主谓、介宾等。
(2)抽取依存句法树中与词
Figure 108887DEST_PATH_IMAGE005
相关的第k个依存关系中的另一个词。
(3)词
Figure 923259DEST_PATH_IMAGE008
是否为该依存关系的核心词,并用H表示核心词,T表示非核心词。
将上述依存关系的类别、依存关系中的另一个词以及是否为核心词的三部分信息综合起来,作为词
Figure 542459DEST_PATH_IMAGE005
对应的依存句法特征
Figure 91384DEST_PATH_IMAGE050
如图2中b所示,以句子中的第3个词“教授”为例,在依存句法树中找到包含“教授”的依存关系有2个,分别为<教授,定中,大学>和<讲课,主谓,教授>,核心词分别为“教授”和“讲课”。根据上述抽取规则,可得词“教授”对应的依存句法特征包括“定中-大学-H”和“主谓-讲课-T”,分别记为
Figure 821442DEST_PATH_IMAGE105
Figure 490321DEST_PATH_IMAGE106
S104,以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。
在本步骤中,上述的类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
其中,第二输入层用于将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
(1)基于词向量工具在无标注的文本上预训练好词向量矩阵
Figure 280422DEST_PATH_IMAGE107
,其中词向量矩阵
Figure 565910DEST_PATH_IMAGE107
中的每一行对应词表中的一个词;
(2)对给定句子中的词
Figure 808980DEST_PATH_IMAGE005
,从词向量矩阵
Figure 863523DEST_PATH_IMAGE107
中找到对应的行向量,以得到词
Figure 824526DEST_PATH_IMAGE005
的语义向量表示
Figure 66152DEST_PATH_IMAGE011
所述第二句法信息集成层执行如下步骤:
(1)根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
(2)基于注意力机制学习词对应的依存句法信息的语义向量表示;
(3)将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示。
具体的,给定句子中词的语义向量表示记为
Figure 138013DEST_PATH_IMAGE108
,词在上下文中的语义向量表示记为
Figure 797795DEST_PATH_IMAGE109
Figure 664120DEST_PATH_IMAGE043
Figure 924200DEST_PATH_IMAGE044
是一个transformer网络。
进一步的,基于注意力机制学习词对应的依存句法信息的语义向量表示,对应的公式为:
Figure 534173DEST_PATH_IMAGE110
其中,
Figure 297730DEST_PATH_IMAGE046
为给定句子中词
Figure 584224DEST_PATH_IMAGE005
在上下文中的语义向量表示,
Figure 331600DEST_PATH_IMAGE047
为词
Figure 479684DEST_PATH_IMAGE005
对应的依存句法信息的语义向量表示,
Figure 363327DEST_PATH_IMAGE048
Figure 587766DEST_PATH_IMAGE049
均为依存句法特征
Figure 556859DEST_PATH_IMAGE035
的语义向量表示,
Figure 243055DEST_PATH_IMAGE051
表示第k个依存句法特征的权重,
Figure 246783DEST_PATH_IMAGE039
为与词
Figure 360233DEST_PATH_IMAGE010
相关的依存关系的个数,
Figure 68819DEST_PATH_IMAGE024
表示向量的转置。
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,对应的公式为:
Figure 824286DEST_PATH_IMAGE111
其中,
Figure 682520DEST_PATH_IMAGE112
为词最终的语义向量表示,
Figure 232450DEST_PATH_IMAGE113
为向量的拼接操作。
聚合层用于基于注意力机制计算候选文本片段
Figure 176135DEST_PATH_IMAGE058
的语义向量表示,对应的计算公式如下:
Figure 220446DEST_PATH_IMAGE056
其中,
Figure 667608DEST_PATH_IMAGE057
为候选文本片段
Figure 654018DEST_PATH_IMAGE058
的语义向量表示,
Figure 85000DEST_PATH_IMAGE059
为文本片段中第
Figure 916689DEST_PATH_IMAGE060
个词对应的权重,
Figure 733205DEST_PATH_IMAGE061
Figure 890516DEST_PATH_IMAGE062
均为文本片段中第
Figure 808794DEST_PATH_IMAGE060
个词最终的语义向量表示,
Figure 178595DEST_PATH_IMAGE063
Figure 616661DEST_PATH_IMAGE064
为参数矩阵。
第二分类层用于输出候选文本片段
Figure 944874DEST_PATH_IMAGE058
为特定类别实体的概率以及不是实体的概率,计算公式如下:
Figure 819289DEST_PATH_IMAGE114
其中,
Figure 523940DEST_PATH_IMAGE067
由一个多层前馈神经网络叠加一个
Figure 65780DEST_PATH_IMAGE115
层组成;
Figure 817092DEST_PATH_IMAGE116
为一个
Figure 178803DEST_PATH_IMAGE069
维的向量,
Figure 155986DEST_PATH_IMAGE117
的前
Figure 817912DEST_PATH_IMAGE071
个分量分别为候选文本片段
Figure 222348DEST_PATH_IMAGE118
是对应类别实体的概率,最后一个分量为候选文本片段
Figure 87667DEST_PATH_IMAGE118
不是实体的概率。
在类别预测模型训练的过程中,对于侯选文本片段集
Figure 602962DEST_PATH_IMAGE102
中的所有侯选文本片段
Figure 119394DEST_PATH_IMAGE118
,定义实体类别预测子任务的交叉熵代价函数(
Figure 960311DEST_PATH_IMAGE069
分类)如下:
Figure 296614DEST_PATH_IMAGE119
其中,
Figure 130447DEST_PATH_IMAGE120
侯选文本片段
Figure 501386DEST_PATH_IMAGE121
的真实类别标记,
Figure 513204DEST_PATH_IMAGE122
Figure 336803DEST_PATH_IMAGE123
分别表示
Figure 210213DEST_PATH_IMAGE124
Figure 435658DEST_PATH_IMAGE125
的第
Figure 618377DEST_PATH_IMAGE126
个分量。在此需要说明的是,该交叉熵代价函数用于通过最小化代交叉熵代价函数以训练类别预测模型。最后得到的模型即为训练好的模型,根据训练好的类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。
本发明提出的集成句法信息的嵌套命名实体识别方法,抽取给定句子中每个当前词对应的短语句法特征,集合多个短语句法特征以集成得到短语句法信息;以短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,其中边界检测模型用于筛选出给定句子中包含命名实体的文本片段并加入到候选文本片段集中;抽取给定句子中每个当前词对应的依存句法特征,集合多个依存句法特征以得到依存句法信息;最后以依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,类别预测模型用于预测候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率。本发明提出的集成句法信息的嵌套命名实体识别方法,充分考虑了句法信息的利用,有效提高了识别准确度。
请参阅图6,本发明还提出一种集成句法信息的嵌套命名实体识别系统,其中,所述系统包括依次连接的第一处理模块11、第二处理模块12、第三处理模块13以及第四处理模块14;
所述第一处理模块11具体用于:
抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
所述第二处理模块12具体用于:
以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
所述第三处理模块13具体用于:
抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
所述第四处理模块14具体用于:
以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种集成句法信息的嵌套命名实体识别方法,其特征在于,所述方法包括如下步骤:
步骤一:抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
步骤二:以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
步骤三:抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
步骤四:以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
2.根据权利要求1所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤一中:
所述短语句法特征记为
Figure 858685DEST_PATH_IMAGE001
,所述短语句法信息记为
Figure 306984DEST_PATH_IMAGE002
,其中
Figure 352300DEST_PATH_IMAGE003
Figure 154034DEST_PATH_IMAGE004
为给定句子中词
Figure 499565DEST_PATH_IMAGE005
的个数,
Figure 712240DEST_PATH_IMAGE006
Figure 510432DEST_PATH_IMAGE007
为给定句子中包含词
Figure 115857DEST_PATH_IMAGE005
的短语的个数;
所述短语句法特征包括:短语句法树中包含词
Figure 315894DEST_PATH_IMAGE005
的第k个短语的类别、包含词
Figure 965050DEST_PATH_IMAGE005
的第k个短语在短语句法数中的层级,以及词
Figure 984958DEST_PATH_IMAGE005
在第k个短语中的位置。
3.根据权利要求2所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤二中,所述第一输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
基于词向量工具在无标注的文本上预训练好词向量矩阵
Figure 253129DEST_PATH_IMAGE008
,其中词向量矩阵
Figure 183039DEST_PATH_IMAGE008
中的每一行对应词表中的一个词;
对给定句子中的词
Figure 144041DEST_PATH_IMAGE005
,从词向量矩阵
Figure 775880DEST_PATH_IMAGE008
中找到对应的行向量,以得到词
Figure 582162DEST_PATH_IMAGE005
的语义向量表示
Figure 632158DEST_PATH_IMAGE009
4.根据权利要求3所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤二中,所述第一句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的短语句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
其中,所述给定句子中词的语义向量表示记为
Figure 232903DEST_PATH_IMAGE010
,词在上下文中的语义向量表示记为
Figure 492983DEST_PATH_IMAGE011
Figure 230520DEST_PATH_IMAGE012
Figure 994076DEST_PATH_IMAGE013
是一个transformer网络。
5.根据权利要求4所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,所述基于注意力机制学习词对应的短语句法信息的语义向量表示的步骤对应的计算公式为:
Figure 172248DEST_PATH_IMAGE014
其中,
Figure 654045DEST_PATH_IMAGE015
为词
Figure 802129DEST_PATH_IMAGE016
在上下文中的语义向量表示,
Figure 810405DEST_PATH_IMAGE017
为词
Figure 284112DEST_PATH_IMAGE016
对应的短语句法信息的语义向量表示,
Figure 128571DEST_PATH_IMAGE018
Figure 814768DEST_PATH_IMAGE019
均为短语句法特征
Figure 943129DEST_PATH_IMAGE020
的语义向量表示,
Figure 322158DEST_PATH_IMAGE021
表示词
Figure 778547DEST_PATH_IMAGE022
的第k个短语句法特征对应的权重,
Figure 409380DEST_PATH_IMAGE023
为给定句子中包含词
Figure 2035DEST_PATH_IMAGE022
的短语的个数,
Figure 942178DEST_PATH_IMAGE024
表示向量的转置;
将词在上下文中的语义向量表示以及词对应的短语句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示的步骤对应的公式为:
Figure 620284DEST_PATH_IMAGE025
Figure 54808DEST_PATH_IMAGE026
为向量的拼接操作,
Figure 767549DEST_PATH_IMAGE027
为词
Figure 222801DEST_PATH_IMAGE016
最终的语义向量表示;
所述第一分类层用于输出词
Figure 781346DEST_PATH_IMAGE016
是实体首词、实体尾词以及其它词的概率,对应的计算公式为:
Figure 878615DEST_PATH_IMAGE028
其中,
Figure 321229DEST_PATH_IMAGE029
由一个多层前馈神经网络叠加一个
Figure 212961DEST_PATH_IMAGE030
层组成;
Figure 255873DEST_PATH_IMAGE031
是一个3维的向量,其中第1个分量
Figure 891253DEST_PATH_IMAGE032
为词
Figure 313007DEST_PATH_IMAGE005
是实体首词的概率,第2个分量
Figure 516587DEST_PATH_IMAGE033
为词
Figure 391002DEST_PATH_IMAGE005
是实体尾词的概率,第3个分量
Figure 220286DEST_PATH_IMAGE034
为词
Figure 762126DEST_PATH_IMAGE016
是其它词的概率。
6.根据权利要求1所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤三中:
所述依存句法特征记为
Figure 995661DEST_PATH_IMAGE035
,所述依存句法信息记为
Figure 498318DEST_PATH_IMAGE036
,其中
Figure 741081DEST_PATH_IMAGE037
Figure 996481DEST_PATH_IMAGE004
为给定句子中词
Figure 666497DEST_PATH_IMAGE016
的个数,
Figure 656450DEST_PATH_IMAGE038
Figure 171745DEST_PATH_IMAGE039
为与词
Figure 688177DEST_PATH_IMAGE016
相关的依存关系的个数;
所述依存句法特征
Figure 644939DEST_PATH_IMAGE035
包括:依存句法树中与词
Figure 246821DEST_PATH_IMAGE016
相关的第k个依存关系的类别、依存句法树中与词
Figure 706753DEST_PATH_IMAGE005
相关的第k个依存关系中的另一个词、以及词
Figure 812112DEST_PATH_IMAGE016
是否为该依存关系的核心词的信息。
7.根据权利要求6所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤四中:
所述第二输入层用于:
将给定句子中的词转换成语义向量表示,具体方法包括如下步骤:
基于词向量工具在无标注的文本上预训练好词向量矩阵
Figure 948564DEST_PATH_IMAGE008
,其中词向量矩阵
Figure 772163DEST_PATH_IMAGE008
中的每一行对应词表中的一个词;
对给定句子中的词
Figure 894840DEST_PATH_IMAGE016
,从词向量矩阵
Figure 995651DEST_PATH_IMAGE008
中找到对应的行向量,以得到词
Figure 178371DEST_PATH_IMAGE016
的语义向量表示
Figure 613900DEST_PATH_IMAGE009
所述第二句法信息集成层用于:
根据给定句子中词的语义向量表示,基于transformer网络学习词在上下文中的语义向量表示;
基于注意力机制学习词对应的依存句法信息的语义向量表示;
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,以得到词最终的语义向量表示;
其中,所述给定句子中词的语义向量表示记为
Figure 540268DEST_PATH_IMAGE040
,词在上下文中的语义向量表示记为
Figure 495586DEST_PATH_IMAGE041
Figure 114786DEST_PATH_IMAGE042
Figure 647399DEST_PATH_IMAGE043
是一个transformer网络。
8.根据权利要求7所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,
所述基于注意力机制学习词对应的依存句法信息的语义向量表示,对应的公式为:
Figure 502091DEST_PATH_IMAGE044
其中,
Figure 436549DEST_PATH_IMAGE045
为给定句子中词
Figure 836437DEST_PATH_IMAGE016
在上下文中的语义向量表示,
Figure 121925DEST_PATH_IMAGE046
为词
Figure 517659DEST_PATH_IMAGE047
对应的依存句法信息的语义向量表示,
Figure 572203DEST_PATH_IMAGE048
Figure 267626DEST_PATH_IMAGE049
均为依存句法特征
Figure 650197DEST_PATH_IMAGE050
的语义向量表示,
Figure 722058DEST_PATH_IMAGE051
表示第k个依存句法特征的权重,
Figure 755742DEST_PATH_IMAGE052
为与词
Figure 622067DEST_PATH_IMAGE047
相关的依存关系的个数,
Figure 757513DEST_PATH_IMAGE024
表示向量的转置;
将词在上下文中的语义向量表示以及词对应的依存句法信息的语义向量表示进行拼接,对应的公式为:
Figure 367486DEST_PATH_IMAGE053
其中,
Figure 131043DEST_PATH_IMAGE054
为词最终的语义向量表示,
Figure 292903DEST_PATH_IMAGE055
为向量的拼接操作。
9.根据权利要求8所述的一种集成句法信息的嵌套命名实体识别方法,其特征在于,在所述步骤四中,
所述聚合层用于基于注意力机制计算候选文本片段的语义向量表示,对应的计算公式如下:
Figure 40279DEST_PATH_IMAGE056
其中,
Figure 63730DEST_PATH_IMAGE057
为候选文本片段
Figure 947372DEST_PATH_IMAGE058
的语义向量表示,
Figure 545713DEST_PATH_IMAGE059
为文本片段中第
Figure 249226DEST_PATH_IMAGE060
个词对应的权重,
Figure 201002DEST_PATH_IMAGE061
Figure 80096DEST_PATH_IMAGE062
均为文本片段中第
Figure 193546DEST_PATH_IMAGE063
个词最终的语义向量表示,
Figure 777498DEST_PATH_IMAGE064
Figure 532965DEST_PATH_IMAGE065
为参数矩阵;
所述第二分类层用于输出候选文本片段
Figure 125620DEST_PATH_IMAGE066
为特定类别实体的概率以及不是实体的概率,计算公式如下:
Figure 816496DEST_PATH_IMAGE067
其中,
Figure 415973DEST_PATH_IMAGE068
由一个多层前馈神经网络叠加一个
Figure 709551DEST_PATH_IMAGE030
层组成;
Figure 297658DEST_PATH_IMAGE069
为一个
Figure 18490DEST_PATH_IMAGE070
维的向量,
Figure 574105DEST_PATH_IMAGE069
的前
Figure 671374DEST_PATH_IMAGE071
个分量分别为候选文本片段
Figure 973042DEST_PATH_IMAGE066
是对应类别实体的概率,最后一个分量为候选文本片段
Figure 5720DEST_PATH_IMAGE066
不是实体的概率。
10.一种集成句法信息的嵌套命名实体识别系统,其特征在于,所述系统包括:
第一处理模块,用于抽取给定句子中每个当前词对应的短语句法特征,集合多个所述短语句法特征以得到短语句法信息,其中所述短语句法特征包括:短语句法树中包含当前词的第k个短语的类别、包含当前词的第k个短语在短语句法树中的层级,以及当前词在第k个短语中的位置;
第二处理模块,用于以所述短语句法信息作为额外输入,并基于注意力机制构建得到边界检测模型,所述边界检测模型用于筛选出所述给定句子中包含命名实体的文本片段并加入到候选文本片段集中,其中所述边界检测模型包括第一输入层、第一句法信息集成层以及第一分类层;
第三处理模块,用于抽取所述给定句子中每个当前词对应的依存句法特征,集合多个所述依存句法特征以得到依存句法信息,所述依存句法特征包括:依存句法树中与当前词相关的第k个依存关系的类别、依存句法树中与当前词相关的第k个依存关系中的另一个词、以及所述当前词是否为该依存关系的核心词;
第四处理模块,用于以所述依存句法信息作为额外输入,并基于注意力机制构建得到类别预测模型,所述类别预测模型用于预测所述候选文本片段集中的候选文本片段为特定类别实体的概率以及不是实体的概率,所述类别预测模型包括:第二输入层、第二句法信息集成层、聚合层以及第二分类层。
CN202110772554.3A 2021-07-08 2021-07-08 一种集成句法信息的嵌套命名实体识别方法与系统 Active CN113221539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772554.3A CN113221539B (zh) 2021-07-08 2021-07-08 一种集成句法信息的嵌套命名实体识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772554.3A CN113221539B (zh) 2021-07-08 2021-07-08 一种集成句法信息的嵌套命名实体识别方法与系统

Publications (2)

Publication Number Publication Date
CN113221539A true CN113221539A (zh) 2021-08-06
CN113221539B CN113221539B (zh) 2021-09-24

Family

ID=77081197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772554.3A Active CN113221539B (zh) 2021-07-08 2021-07-08 一种集成句法信息的嵌套命名实体识别方法与系统

Country Status (1)

Country Link
CN (1) CN113221539B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN113626608A (zh) * 2021-10-12 2021-11-09 深圳前海环融联易信息科技服务有限公司 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN113656544A (zh) * 2021-08-11 2021-11-16 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN114330349A (zh) * 2022-01-05 2022-04-12 北京航空航天大学 一种特定领域命名实体识别方法
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN116629237A (zh) * 2023-07-25 2023-08-22 江西财经大学 基于逐步集成多层注意力的事件表示学习方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN108491381A (zh) * 2018-03-13 2018-09-04 山西大学 一种汉语二分结构的句法分析方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN109408825A (zh) * 2018-11-06 2019-03-01 杭州费尔斯通科技有限公司 一种基于命名实体识别的中标数据提取方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
US10467122B1 (en) * 2017-04-27 2019-11-05 Intuit Inc. Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
US20200073939A1 (en) * 2018-08-30 2020-03-05 Roman Levchenko Artificial Intelligence Process Automation for Enterprise Business Communication
US10789461B1 (en) * 2019-10-24 2020-09-29 Innovaccer Inc. Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document
CN112446216A (zh) * 2021-02-01 2021-03-05 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置
CN112765956A (zh) * 2021-01-22 2021-05-07 大连民族大学 基于多任务学习的依存句法分析方法及应用
CN112989796A (zh) * 2021-03-10 2021-06-18 北京大学 一种基于句法指导的文本命名实体信息识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
US10467122B1 (en) * 2017-04-27 2019-11-05 Intuit Inc. Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
CN108491381A (zh) * 2018-03-13 2018-09-04 山西大学 一种汉语二分结构的句法分析方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
US20200073939A1 (en) * 2018-08-30 2020-03-05 Roman Levchenko Artificial Intelligence Process Automation for Enterprise Business Communication
CN109408825A (zh) * 2018-11-06 2019-03-01 杭州费尔斯通科技有限公司 一种基于命名实体识别的中标数据提取方法
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
US10789461B1 (en) * 2019-10-24 2020-09-29 Innovaccer Inc. Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document
CN112765956A (zh) * 2021-01-22 2021-05-07 大连民族大学 基于多任务学习的依存句法分析方法及应用
CN112446216A (zh) * 2021-02-01 2021-03-05 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置
CN112989796A (zh) * 2021-03-10 2021-06-18 北京大学 一种基于句法指导的文本命名实体信息识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NILS REIMERS等: "GermEval-2014: Nested Named Entity Recognition with Neural Networks", 《WORKSHOP PROCEEDINGS OF THE 12TH KONVENS 2014》 *
尹迪 等: "基于联合模型的中文嵌套命名实体识别", 《 南京师大学报(自然科学版)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656544A (zh) * 2021-08-11 2021-11-16 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN113656544B (zh) * 2021-08-11 2024-03-15 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN113626608A (zh) * 2021-10-12 2021-11-09 深圳前海环融联易信息科技服务有限公司 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN114330349A (zh) * 2022-01-05 2022-04-12 北京航空航天大学 一种特定领域命名实体识别方法
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN114611517B (zh) * 2022-03-15 2023-07-25 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN116629237A (zh) * 2023-07-25 2023-08-22 江西财经大学 基于逐步集成多层注意力的事件表示学习方法及系统
CN116629237B (zh) * 2023-07-25 2023-10-10 江西财经大学 基于逐步集成多层注意力的事件表示学习方法及系统

Also Published As

Publication number Publication date
CN113221539B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113221539B (zh) 一种集成句法信息的嵌套命名实体识别方法与系统
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
US9892111B2 (en) Method and device to estimate similarity between documents having multiple segments
RU2665239C2 (ru) Автоматическое извлечение именованных сущностей из текста
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US9189482B2 (en) Similar document search
US20060106595A1 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US9235573B2 (en) Universal difference measure
Bonet-Jover et al. Exploiting discourse structure of traditional digital media to enhance automatic fake news detection
JPWO2014033799A1 (ja) 単語意味関係抽出装置
Zhang et al. Natural language processing: a machine learning perspective
Etaiwi et al. Graph-based Arabic text semantic representation
Mohammed Using machine learning to build POS tagger for under-resourced language: the case of Somali
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN111091009A (zh) 一种基于语义分析的文档关联审核方法
Lata et al. Mention detection in coreference resolution: survey
Barbella et al. Analogical word sense disambiguation
CN115935959A (zh) 一种低资源黏着语序列标注的方法
Roman et al. Exploiting contextual word embedding of authorship and title of articles for discovering citation intent classification
CN114818724A (zh) 一种社交媒体灾害有效信息检测模型的构建方法
Hussain et al. Ensemble Deep Learning Framework for Situational Aspects-Based Annotation and Classification of International Student’s Tweets during COVID-19.
Pogorilyy et al. Assessment of Text Coherence by Constructing the Graph of Semantic, Lexical, and Grammatical Consistancy of Phrases of Sentences
Lee Natural Language Processing: A Textbook with Python Implementation
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant