CN114661881A - 一种基于问答模式的事件抽取方法、装置和设备 - Google Patents

一种基于问答模式的事件抽取方法、装置和设备 Download PDF

Info

Publication number
CN114661881A
CN114661881A CN202210323185.4A CN202210323185A CN114661881A CN 114661881 A CN114661881 A CN 114661881A CN 202210323185 A CN202210323185 A CN 202210323185A CN 114661881 A CN114661881 A CN 114661881A
Authority
CN
China
Prior art keywords
target
text
event
word
argument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210323185.4A
Other languages
English (en)
Inventor
李晓宇
孙显
金力
张泽群
李树超
康瀚锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202210323185.4A priority Critical patent/CN114661881A/zh
Publication of CN114661881A publication Critical patent/CN114661881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供基于问答模式的事件抽取方法、装置和设备,方法包括:目标文本和第一问题模板,并从目标文本中确定与目标事件相关的特征词;根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型;根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板;根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型;根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。本申请在事件抽取结果时,结合了特征词,有效增强了特征表达;同时,结合了第一问题模板和第二问题模板,使得本申请能准确识别出目标文本中的触发词和论元,提高了事件抽取结果的准确性。

Description

一种基于问答模式的事件抽取方法、装置和设备
技术领域
本申请涉及信息抽取领域,特别是涉及一种基于问答模式的事件抽取方法、装置和设备。
背景技术
随着互联网的普及和发展,互联网上的文本数据呈现爆发式增长,由于这些文本数据为碎片式的、低信息的数据,需要对其进一步处理。为了提高对文本数据的高效处理能力,对自然语言处理技术的需求急剧增加,作为自然语言处理领域中的子任务,事件抽取应用市场广大,例如,事件抽取在文本摘要、自动问答、信息检索等领域有着重要应用。
因此,亟需一种从目标文本中快速且准确地进行事件抽取的方法。
发明内容
有鉴于此,本申请提供了一种基于问答模式的事件抽取方法、装置和设备,用于对目标文本进行事件抽取,其技术方案如下:
一种基于问答模式的事件抽取方法,包括:
获取目标文本和第一问题模板,其中,第一问题模板为对目标文本所涉及的目标事件的触发词进行提问的文本;
从目标文本中确定与目标事件相关的特征词;
根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型;
根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,其中,第二问题模板为针对目标事件的论元进行提问的文本;
根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型;
根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
可选的,根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型,包括:
将特征词转换为向量形式,转换得到的向量作为目标文法特征向量;
利用预先训练得到的触发词抽取模型处理第一问题模板、目标文本和目标文法特征向量,得到触发词抽取模型输出的触发词标签序列,其中,触发词抽取模型采用第一问题模板、训练文本、训练文本对应的触发词标注序列,同时辅以对应的文法特征向量训练得到,对应的文法特征向量通过将训练文本所涉及的事件相关的特征词转换为向量形式得到;
根据触发词标签序列,确定目标事件的触发词和事件类型。
可选的,触发词抽取模型包括:第一词嵌入模块、第一特征融合模块、第一分类器模块和第一序列搜索模块;
第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第一语义特征向量;
第一特征融合模块对第一语义特征向量和目标文法特征向量进行非线性融合,得到第一融合特征向量;
第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值;
第一序列搜索模块根据目标文本的每个词在各个触发词标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定触发词标签序列。
可选的,第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量,包括:
第一词嵌入模块将第一问题模板和目标文本进行拼接,得到第一拼接后文本;
第一词嵌入模块对第一拼接后文本进行第一分词处理,得到第一拼接后文本对应的数字索引序列、分割标记和掩码序列,其中,第一拼接后文本对应的数字索引序列中包括第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引,特殊字用于将拼接后文本补齐为设定长度,第一拼接后文本对应的分割标记用于区分第一拼接后文本包含的第一问题模板和目标文本,第一拼接后文本对应的掩码序列用于区分第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引;
第一词嵌入模块通过目标编码器对第一拼接后文本对应的数字索引序列、分割标记和掩码序列进行编码,得到第一语义特征向量。
可选的,第一特征融合模块对第一语义特征向量和目标文法特征向量进行非线性融合,得到第一融合特征向量,包括:
第一特征融合模块将第一语义特征向量和目标文法特征向量进行拼接,得到第一拼接后向量;
第一特征融合模块根据目标激活函数和第一拼接后向量,得到第一融合特征向量。
可选的,第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值,包括:
第一分类器模块对第一融合特征向量进行降维处理,得到降维后的第一融合特征向量,其中,降维后的第一融合特征向量包含的分量个数与目标文本包含的词数相同;
第一分类器模块根据降维后的第一融合特征向量和归一化指数函数,计算降维后的第一融合特征向量包含的每个分量对应的概率值,作为目标文本的每个词在各个触发词标签上的概率值。
可选的,根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型,包括:
利用预先训练得到的论元抽取模型处理第二问题模板、目标文本和目标文法特征向量,得到论元抽取模型输出的论元标签序列,其中,论元抽取模型采用训练问题模板、训练文本、训练文本对应的论元标注序列,同时辅以对应的文法特征向量训练得到,训练问题模板为问题模板集合中的问题模板;
根据论元标签序列,确定目标事件的论元和论元类型。
可选的,论元抽取模型包括:第二词嵌入模块、第二特征融合模块、第二分类器模块和第二序列搜索模块;
第二词嵌入模块对第二问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第二语义特征向量;
第二特征融合模块对第二语义特征向量和目标文法特征向量进行非线性融合,得到第二融合特征向量;
第二分类器模块根据第二融合特征向量和归一化指数函数,确定目标文本的每个词在各个论元标签上的概率值;
第二序列搜索模块根据目标文本的每个词在各个论元标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定论元标签序列。
一种基于问答模式的事件抽取装置,包括:文本信息获取模块、特征词确定模块、触发词信息确定模块、第二问题模板确定模块、论元信息确定模块和事件抽取结果确定模块;
文本信息获取模块,用于获取目标文本和第一问题模板,其中,第一问题模板为对目标文本所涉及的目标事件的触发词进行提问的文本;
特征词确定模块,用于从目标文本中确定与目标事件相关的特征词;
触发词信息确定模块,用于根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型;
第二问题模板确定模块,用于根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,其中,第二问题模板为针对目标事件的论元进行提问的文本;
论元信息确定模块,用于根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型;
事件抽取结果确定模块,用于根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
一种基于问答模式的事件抽取设备,包括存储器和处理器;
存储器,用于存储程序;
处理器,用于执行程序,实现如上述任一项的基于问答模式的事件抽取方法的各个步骤。
经由上述的技术方案可知,本申请提供的基于问答模式的事件抽取方法,首先获取目标文本和第一问题模板,并从目标文本中确定与目标事件相关的特征词,然后根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型,接着根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,之后根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型,最后根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。本申请提供的基于问答模式的事件抽取方法在确定触发词、事件类型、论元和论元类型时,由于结合了特征词,有效增强了特征表达,提高了事件抽取结果的准确性;同时,在确定触发词和事件类型时结合了第一问题模板,使得本申请能够准确地识别出目标文本中的触发词,并准确地确定出事件类型,之后根据事件类型确定出目标事件的论元匹配的第二问题模板,然后再结合第二问题模板确定目标事件的论元和论元类型,使得本申请能够准确地识别出目标文本中的论元,并准确地确定出论元类型,进一步提高了事件抽取结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的基于问答模式的事件抽取方法的流程示意图;
图2为本申请实施例提供的触发词抽取模型的一种可选结构示意图;
图3为触发词抽取模型确定触发词标签序列的流程示意图;
图4为论元抽取模型确定论元标签序列的流程示意图;
图5为本申请实施例提供的基于问答模式的事件抽取装置的结构示意图;
图6为本申请实施例提供的基于问答模式的事件抽取设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有技术没有从目标文本中快速且准确地进行事件抽取的方法,本案发明人进行了研究,初始阶段的思路中,将目标文本编码为向量,根据编码得到的向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值,然后基于目标文本的每个词在各个触发词标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定触发词和论元分别对应的标签序列,以从标签序列中确定出触发词、事件类型、论元和论元类型,最后根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
然而,经研究发现,上述方法虽然能够从目标文本中抽取出目标事件,但是,仅基于目标文本得到的标签序列准确度不高,从而事件抽取结果的准确度不高。
鉴于上述思路存在的问题,本案发明人进行了进一步深入研究后想到,可以借鉴问答系统(Question Answer,QA),将问题和包含答案的目标文本拼接,以提高本申请对目标文本包含的目标事件关于特定下游任务即事件抽取的表征能力;同时可以结合成熟设计的人工特征,即提取目标文本中特定的文法特征,以提高本申请的特征提取能力,从而提高事件抽取的效果。基于此,提出了一种基于问答模式的事件抽取方法,接下来通过下述实施例对本申请提供的基于问答模式的事件抽取方法进行详细介绍。
请参阅图1,示出了本申请实施例提供的基于问答模式的事件抽取方法的流程示意图,该基于问答模式的事件抽取方法可以包括:
步骤S101、获取目标文本和第一问题模板。
其中,第一问题模板为对目标文本所涉及的目标事件的触发词进行提问的文本,例如,第一问题模板可以为“触发词是?”。
在本步骤中,目标文本为包含目标事件的结构化的文本数据,可选的,本步骤获取目标文本的过程可以包括:通过网络爬取包含目标事件的文本数据,通过正则化过滤和结构化整理进行数据清洗,得到目标文本。
需要说明的是,本步骤不对目标事件的具体类型进行限定,例如,目标事件可以是与体育人物相关的事件等。
步骤S102、从目标文本中确定与目标事件相关的特征词。
本领域技术人员应当理解,在目标文本中存在一些与目标事件紧密相关的、具有典型性的词,根据该特征词大概率可以确定出目标事件的真实事件类型。例如,在冲突事件中,“抗议”属于冲突事件的特征词。
可选的,本步骤可以预先构建各个事件类型的特征词表,然后根据特征词表从目标文本中确定与目标事件相关的特征词;当然,本步骤也可以不构建特征词表,而是直接从目标文本中确定与目标事件相关的特征词,本申请对此不进行限定。
步骤S103、根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型。
现有的问答系统中,一般给出问题和包含问题答案的文本,问题系统需要针对所提出的问题给出合适且正确的答案,并将答案高亮。本申请可以将事件抽取视为问答系统,则本步骤需要根据触发词相关的第一问题模板,在目标文本中找出第一问题模板最相匹配的答案,作为目标事件的触发词。
为了使找到的触发词更准确,在基于第一问题模板和目标文本,确定触发词和事件类型时,还可以结合特征词,由于特征词为与目标事件紧密相关的词,因此在确定触发词和事件类型的过程中可以提取出更完备的特征,从而基于更完备的特征能够确定出更准确的触发词和事件类型。
在一可选实施例中,根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型的过程包括:
步骤S1031、将特征词转换为向量形式,转换得到的向量作为目标文法特征向量。
可选的,本步骤可以采用word2vec方法将特征词转换为向量形式,以得到目标文法特征向量。
步骤S1032、根据第一问题模板、目标文本和目标文法特征向量,确定目标文本对应的触发词标签序列。
具体的,本步骤可以将第一问题模板和目标文本进行拼接,并在拼接后进行向量形式转换,得到的向量作为第一语义特征向量,接着再将第一语义特征向量和目标文法特征向量进行融合,并基于融合得到的第一融合特征向量,确定目标文本对应的触发词标签序列。
在一可选实施例中,本步骤中的触发词标签序列为BIO标签序列。这里,BIO是事件抽取中的一种标记方法,B是指“begin”,代表抽取对象(触发词、论元等)的开始字;I是指“inside”,代表抽取对象中的其他字;O是指“outside”,代表不是抽取对象(触发词,论元等等)。
例如,若目标文本为“小明担任A城的市长”,则本步骤得到的触发词标签序列为“OO B-personal I-personal O O O O O”。
步骤S1033、根据触发词标签序列,确定目标事件的触发词和事件类型。
例如,对于前述步骤得到的触发词标签序列,本步骤可以确定出目标事件的触发词为“担任”,事件类型为人事类型。
步骤S104、根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板。
其中,第二问题模板为针对目标事件的论元进行提问的文本。
具体的,事件的论元类型比较多,本申请预先为每个类型的论元定义了一个问题模板,各类型的论元对应的问题模板组成本步骤中的问题模板集合。
例如,事件的论元类型可以为攻击者、受害者、时间、地点等类型,相应的,针对攻击者(或受害者)定义的问题模板可以为“攻击者(或受害者)是谁?”,针对地点定义的问题模板可以为“事件在哪里发生?”,针对时间定义的问题模板可以为“事件什么时候发生?”,等等。
由于论元类型与具体的事件有关,那么论元类型与事件类型有关,为了能够准确地确定出目标事件的论元,本步骤可以在前述步骤确定出目标事件的事件类型后,再根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的第二问题模板。
可选的,本步骤可以预先定义好事件类型和问题模板(论元相关)的对应关系,然后再基于该对应关系,从预设的问题模板集合中确定目标事件的事件类型对应的问题模板,该问题模板即为第二问题模板。
可选的,本步骤可以采用表格形式描述该对应关系,例如,参见下表1,示出了事件类型和问题模板(论元相关)的对应关系。
表1事件类型和问题模板(论元相关)的对应关系
Figure BDA0003572504190000091
在上表1中,本申请定义了事件大类和事件小类,可见,各事件的事件类型(事件大类或事件小类)不同时,论元类型可能不同。
需要说明的是,在同时定义事件大类和事件小类时,前述步骤确定出的事件类型可以是事件大类,也可以是事件小类,具体根据实际情况确定。
还需要说明的是,表1仅为示例,不作为对本申请的限定,例如,本申请也可以仅定义事件大类与问题模板的对应关系,或者仅定义事件小类与问题模板的对应关系,等等。
步骤S105、根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型。
在本步骤中,第二问题模板为针对目标事件的论元进行提问的文本,结合该第二问题模板和特征词,本步骤就可以从目标文本中查找到与该第二问题模板最相匹配的答案,作为目标事件的论元,与此同时,本步骤可以确定出目标事件的论元类型。
需要说明的是,本步骤确定出目标事件的论元类型与第二问题模板的具体内容相对应,例如,若第二问题模板为“事件在哪里发生?”,则本步骤确定的论元类型为地点类型。
在一可选实施例中,根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型的过程包括:
步骤S1051、根据第二问题模板、目标文本和目标文法特征向量,确定目标文本对应的论元标签序列。
本步骤的过程与上述步骤S1032的过程类似,详细可参照前述步骤中的介绍,在此不再赘述。
例如,若目标文本为“小明担任A城的市长”,第二问题模板为“事件中的人物是谁?”,则本步骤得到的触发词标签序列为“B-person I-person O O OO O O O”。
步骤S1052、根据论元标签序列,确定目标事件的论元和论元类型。
例如,对于前述步骤得到的论元标签序列,本步骤可以确定出目标事件的论元为“小明”,事件类型为人物类型。
值得注意的是,目标文本中可能包括多个类型的论元,则本实施例可以通过步骤S105依次确定每个类型的论元(此时每个论元类型对应一个第二问题模板),也可以同时确定出多个类型的论元(此时多个论元类型对应唯一的一个第二问题模板);当然,本实施例还可以采用其他方式确定出目标事件包含的每个论元和对应的论元类型,本申请对此不进行限定。
步骤S106、根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
具体的,任一事件均包含触发词、事件类型、论元和论元类型,则本实施例得到目标事件的触发词、事件类型、论元和论元类型,也就相当于从目标文本中抽取了目标事件。
本申请提供的基于问答模式的事件抽取方法,首先获取目标文本和第一问题模板,并从目标文本中确定与目标事件相关的特征词,然后根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型,接着根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,之后根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型,最后根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。本申请提供的基于问答模式的事件抽取方法在确定触发词、事件类型、论元和论元类型时,由于结合了特征词,有效增强了特征表达,提高了事件抽取结果的准确性;同时,在确定触发词和事件类型时结合了第一问题模板,使得本申请能够准确地识别出目标文本中的触发词,并准确地确定出事件类型,之后根据事件类型确定出目标事件的论元匹配的第二问题模板,然后再结合第二问题模板确定目标事件的论元和论元类型,使得本申请能够准确地识别出目标文本中的论元,并准确地确定出论元类型,进一步提高了事件抽取结果的准确性。
在一种可能的实现方式中,上述步骤S1032提供的“根据第一问题模板、目标文本和目标文法特征向量,确定目标文本对应的触发词标签序列”可通过预先训练得到的触发词抽取模型实现,该触发词抽取模型具备接收并处理第一拼接后文本和目标文法特征向量,得到触发词标签序列的能力。
具体的,触发词抽取模型处理第一问题模板、目标文本和目标文法特征向量,得到目标文本对应的触发词标签序列。
请参阅图2,示出了触发词抽取模型的一种可选结构示意图,其可以包括:第一词嵌入模块、第一特征融合模块、第一分类器模块和第一序列搜索模块,请参阅图3,示出了图2中的触发词抽取模型确定触发词标签序列的流程示意图,可以包括:
步骤S301、第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第一语义特征向量。
这里,第一词嵌入模块可以为基于BERT(Bidirectional EncoderRepresentation from Transformers)预训练模型的词嵌入模块,这里,BERT预训练模型由Google提出,使用两层transformer进行双向堆叠,在大规模数据集上进行自监督训练而成,得到的第一语义特征向量蕴含了目标文本中丰富的语义,只要在下游任务中进行微调,就能够起到很大的性能提升,尤其对于数据集数量少、低信息的下游任务,相比于其他模型,BERT预训练模型的效果更为明显。
可选的,第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量的过程包括:
步骤a1、第一词嵌入模块将第一问题模板和目标文本进行拼接,得到第一拼接后文本。
本模块可以将第一问题模板和目标文本进行拼接组成复合句子,该复合句子也即本步骤中的第一拼接后文本。
可选的,为了拼接后能够分辨出哪部分是第一问题模板,哪部分是目标文本,本步骤可以在拼接时将第一问题模板和目标文本用特殊字符隔开。
例如,以第一问题模板为“触发词是?”,目标文本为“群众在A城示威”为例,参见图2所示,第一问题模板和目标文本之间存在特殊词[SEP]。
需要说明的是,上述本实施例将第一问题模板和目标文本进行拼接的过程是由触发词抽取模型包含的第一词嵌入模块实现的,在一可选实施例中,该拼接过程还可以在触发词抽取模型外部实现,即先将第一问题模板和目标文本进行拼接,得到第一拼接后文本,然后再将第一拼接后文本和目标文法特征输入到触发词抽取模型中。
步骤a2、第一词嵌入模块对第一拼接后文本进行第一分词处理,得到第一拼接后文本对应的数字索引序列、分割标记和掩码序列。
其中,第一拼接后文本对应的数字索引序列中包括第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引,特殊字用于将所述拼接后文本补齐为设定长度,第一拼接后文本对应的分割标记用于区分第一拼接后文本包含的第一问题模板和目标文本,第一拼接后文本对应的掩码序列用于区分第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引。
参见图2所示,第一拼接后文本对应序列也即本步骤中的数字索引序列、分割标记和掩码序列。
由于计算机不能直接处理字符,所以需要预先构建一个词库,并在词库中为每个词(对于中文来说,每个词即每个字)设置一个数字索引,该数字索引也即词的ID。
在构建词后,本模块即可以根据构造的词库,对第一拼接后文本进行分词处理,可选的,可以采用Tokenizer(分词模块)方法进行分词处理,得到第一拼接后文本对应的数字索引序列。具体的,由于每次输入到本模块的第一拼接后文本包含的词数可能不同,为了便于处理,可以先将第一拼接后文本通过“[PAD]”特殊字补齐到设定长度,然后再确定第一拼接后文本的每个词对应的数字索引,以及,特殊字对应的数字索引,由第一拼接后文本的每个词对应的数字索引,以及,特殊字对应的数字索引组成第一拼接后文本对应的数字索引序列。
本模块对第一拼接后文本进行第一分词处理,还会得到第一拼接后文本对应的分割标记和掩码序列。
例如,第一拼接后文本对应的分割标记可以为:[0,0,0,0,…,1,1,1,1],其中,0表示第一问题模板,1表示模板文本;第一拼接后文本对应的掩码序列可以为[0,0,0,0,…,0,0,0,1],其中,0表示第一拼接后文本(即0表示该触发词抽取模型需要处理和关注的词),1表示特殊字(即1表示该触发词抽取模型不需要处理和关注的词)。
步骤a3、第一词嵌入模块通过目标编码器对第一拼接后文本对应的数字索引序列、分割标记和掩码序列进行编码,得到第一拼接后文本对应的语义特征向量。
如前述步骤中的介绍,第一词嵌入模块可以为基于BERT预训练模型的词嵌入模块,基于此,可选的,目标编码器可以为BERT编码器,则本步骤可以将第一拼接后文本对应的数字索引序列、分割标记和掩码序列输入到BERT编码器中,得到第一拼接后文本对应的语义特征向量。例如,本步骤得到的768维的语义特征向量可以为:[0.2359,1.2356,2.3656,…,-1.3569,0.8424,0.3651]。
综上,本实施例可以将QA与BERT进行结合,将第一问题模板和包含答案的目标文本进行拼接作为第一词嵌入模块的输入,该第一词嵌入模块可以显式的输入第一拼接后文本中所涉及的触发词,提高BERT所得到的第一语义特征向量的表征能力。
同时,成熟设计的人工特征(即特征词)可以提取目标文本中特定的文法特征,而基于BERT提取特征,无法定向的提取某种所需的特定文法特征,因此将人工设计的特征词与BERT学习到的特征进行融合,可以加强触发词抽取模型的特征提取能力,提高了触发词和事件类型的抽取效果,相应的,提高了本实施例进行事件抽取的效果。
步骤S302、第一特征融合模块对第一语义特征向量和目标文法特征向量进行非线性融合,得到第一融合特征向量。
可选的,第一特征融合模块可以对第一语义特征向量和目标文法特征向量进行Bi-LSTM(Bi-directional Long Short-Term Memory,双向长短时记忆)非线性融合,具体融合过程包括:
步骤b1、第一特征融合模块将第一语义特征向量和目标文法特征向量进行拼接,得到第一拼接后向量。
例如,参见图2所示,第一特征融合模块会先将第一语义特征向量(值得注意的是,为便于描述拼接过程,图2中用了两种图形表示第一语义特征向量,实际上这两种图形表示的第一语义特征向量相同)和目标文法特征向量进行拼接,然后再对得到的第一拼接后向量进行处理。
步骤b2、第一特征融合模块根据目标激活函数和第一拼接后向量,得到第一融合特征向量。
具体的,第一特征融合模块可以直接对第一拼接后向量进行激活函数激活,得到第一融合特征向量,优选的,为了增加触发词抽取模型的非线性表达,增强触发词抽取模型对特征的表达能力,可以先通过MLP(Multilayer Perceptron,多层感知机)对第一拼接后向量进行维度转换,然后再对维度转换后的第一拼接后向量进行激活函数激活,得到第一融合特征向量。
步骤S303、第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值。
具体的,第一分类器模块采用多层感知机和归一化指数函数对第一融合特征向量进行处理和计算,得到目标文本的每个词在各个触发词标签上的概率值。
可选的,第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值的过程包括:
步骤c1、第一分类器模块对第一融合特征向量进行降维处理,得到降维后的第一融合特征向量。
其中,降维后的第一融合特征向量包含的分量个数与目标文本包含的词数相同。
具体的,如图2所示,第一分类器模块可以将第一融合特征向量输入到MLP中进行降维处理,降维后的第一融合特征向量的维度大小等于类别数,该类别数即目标文本包含的词数。
步骤c2、第一分类器模块根据降维后的第一融合特征向量和归一化指数函数,计算降维后的第一融合特征向量包含的每个分量对应的概率值,作为目标文本的每个词在各个触发词标签上的概率值。
这里,归一化指数函数是指softmax函数,该softmax函数是一种常用的概率计算公式,具体计算公式为:
Figure BDA0003572504190000151
其中,xi和xj分别表示最后一层输出的向量中的第i个和第j个数。
步骤S304、第一序列搜索模块根据目标文本的每个词在各个触发词标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定触发词标签序列。
本步骤中,第一序列搜索模块可以为CRF(Conditional Random Field,条件随机场)序列搜索模块。
前述步骤得到的概率值是指目标文本的每个词在各个真实触发词标签上的概率值,该概率值并未考虑相邻词的标签的约束(例如语法约束),而实际应用中,需要抽取的触发词往往为多语素,若简单地依据前述步骤得到的概率值确定触发词标签序列,很可能出现多个语素不存在最优标签预测之间的连接路径,从而陷入局部最优。
基于此,在触发词抽取模型中还还包括第一序列搜索模块,该第一序列搜索模块能够对目标文本包含的各词之间的关系进行建模,将其转换为目标文本中各词之间的状态转移概率大小(即能够学习语素间的标签约束),能很好的解决局部最优之间不存在连接或者连接后不是全局最优的难题,从而能够获得目标文本的全局最优的触发词标签序列。
本实施例中,触发词抽取模型的训练过程可以包括:获取结构化的训练文本和第一问题模板,对训练文本进行触发词标注,并指出其事件类型,得到训练文本对应的触发词标注序列,经校验无误后获得整个数据集(可选的,包括训练集、开发集和测试集);从数据集中确定与对应事件相关的特征词,并转换为向量形式,得到对应的文法特征向量;将第一问题模板、训练文本(即训练集中的文本)和对应的文法特征向量输入到触发词抽取模型中,得到触发词抽取模型输出的触发词预测序列;根据触发词预测序列和训练文本对应的触发词标注序列确定触发词抽取模型的交叉熵损失,并利用反向传播算法,根据交叉熵损失更新触发词抽取模型的参数,按上述过程进行多次迭代训练直至满足训练结束条件。
这里,交叉熵损失的计算公式为:
Figure BDA0003572504190000161
其中,yic和pic分别表示训练文本对应的触发词标注序列和触发词预测序列。
其中,触发词抽取模型接收并处理第一问题模板、训练文本和对应的文法特征向量,得到触发词预测序列的过程与上述触发词抽取模型接收并处理第一问题模板、目标文本和目标文法特征向量,得到触发词标签序列的过程类似,本实施例在此不做赘述。
综上,本实施例提供的触发词抽取模型将基于QA的BERT语义编码和传统文法特征进行融合,提高了预测精度,同时使用CRF进行语素间的约束建模,得到最优的触发词标签序列,从而大大提高了触发词抽取模型的性能。
在一种可能的实现方式中,上述步骤S1051提供的“根据第二问题模板、目标文本和目标文法特征向量,确定目标文本对应的论元标签序列”可通过预先训练得到的论元抽取模型实现,该论元抽取模型具备接收并处理第二拼接后文本和目标文法特征向量,得到论元标签序列的能力。
具体的,论元抽取模型处理第二问题模板、目标文本和目标文法特征向量,得到目标文本对应的论元标签序列。
本实施例中,论元抽取模型的一种可选结构与图2示出的触发词抽取模型的可选结构相似,其可以包括:第二词嵌入模块、第二特征融合模块、第二分类器模块和第二序列搜索模块,请参阅图4,示出了论元抽取模型确定论元标签序列的流程示意图,可以包括:
步骤S401、第二词嵌入模块对第二问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第二语义特征向量。
可选的,第二词嵌入模块对第二问题模板和目标文本进行编码,得到编码出的语义特征向量的过程包括:
步骤d1、第二词嵌入模块将第二问题模板和目标文本进行拼接,得到第二拼接后文本。
步骤d2、第二词嵌入模块对第二拼接后文本进行第二分词处理,得到第二拼接后文本对应的数字索引序列、分割标记和掩码序列。
其中,第二拼接后文本对应的数字索引序列中包括第二拼接后文本的每个词对应的数字索引和特殊字对应的数字索引,特殊字用于将所述拼接后文本补齐为设定长度,第二拼接后文本对应的分割标记用于区分第二拼接后文本包含的第二问题模板和目标文本,第二拼接后文本对应的掩码序列用于区分第二拼接后文本的每个词对应的数字索引和特殊字对应的数字索引。
步骤d3、第二词嵌入模块通过目标编码器对第二拼接后文本对应的数字索引序列、分割标记和掩码序列进行编码,得到第二拼接后文本对应的语义特征向量。
本步骤与前述步骤S301的过程相似,详细可参照前述步骤中的介绍,在此不再赘述。
本实施例可以将QA与BERT进行结合,将第二问题模板和包含答案的目标文本进行拼接作为第二词嵌入模块的输入,该第二词嵌入模块可以显式的输入第二拼接后文本中所涉及的论元,提高BERT所得到的第二语义特征向量的表征能力。
同时,成熟设计的人工特征(即特征词)可以提取目标文本中特定的文法特征,而基于BERT提取特征,无法定向的提取某种所需的特定文法特征,因此将人工设计的特征词与BERT学习到的特征进行融合,可以加强论元抽取模型的特征提取能力,提高了论元和论元类型的抽取效果,相应的,提高了本实施例进行事件抽取的效果。
步骤S402、第二特征融合模块对第二语义特征向量和目标文法特征向量进行非线性融合,得到第二融合特征向量。
可选的,第二特征融合模块可以对第二语义特征向量和目标文法特征向量进行Bi-LSTM非线性融合,具体融合过程包括:
步骤e1、第二特征融合模块将第二语义特征向量和目标文法特征向量进行拼接,得到第二拼接后向量。
步骤e2、第二特征融合模块根据目标激活函数和第二拼接后向量,得到第二融合特征向量。
步骤S403、第二分类器模块根据第二融合特征向量和归一化指数函数,确定目标文本的每个词在各个论元标签上的概率值。
可选的,第二分类器模块根据第二融合特征向量和归一化指数函数,确定目标文本的每个词在各个论元标签上的概率值的过程包括:
步骤f1、第二分类器模块对第二融合特征向量进行降维处理,得到降维后的第二融合特征向量。
其中,降维后的第二融合特征向量包含的分量个数与目标文本包含的词数相同。
步骤f2、第二分类器模块根据降维后的第二融合特征向量和归一化指数函数,计算降维后的第二融合特征向量包含的每个分量对应的概率值,作为目标文本的每个词在各个论元标签上的概率值。
步骤S404、第二序列搜索模块根据目标文本的每个词在各个论元标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定论元标签序列。
本实施例中,论元抽取模型的训练过程可以包括:获取结构化的训练文本和训练问题模板(即问题模板集合中的问题模板),对训练文本标记出触发词相关的参与论元,并标记出论元类型,得到训练文本对应的论元标注序列,经校验无误后获得标注了论元和论元类型的整个数据集;将训练问题模板、训练文本和对应的文法特征向量输入到论元抽取模型中,得到论元抽取模型输出的论元预测序列;根据论元预测序列和训练文本对应的论元标注序列确定论元抽取模型的交叉熵损失,并利用反向传播算法,根据交叉熵损失更新论元抽取模型的参数,按上述过程进行多次迭代训练直至满足训练结束条件。
其中,论元抽取模型接收并处理第二问题模板、训练文本和对应的文法特征向量,得到论元预测序列的过程与上述论元抽取模型接收并处理第二问题模板、目标文本和目标文法特征向量,得到论元标签序列的过程类似,本实施例在此不做赘述。
本实施例与前述实施例关于触发词抽取模型的介绍相似,详细可参照前述实施例中的介绍,本实施例在此不再重复赘述。
综上,本实施例提供的论元抽取模型将基于QA的BERT语义编码和传统文法特征进行融合,提高了预测精度,同时使用CRF进行语素间的约束建模,得到最优的论元标签序列,从而大大提高了论元抽取模型的性能。
本申请实施例还提供了一种基于问答模式的事件抽取装置,下面对本申请实施例提供的基于问答模式的事件抽取装置进行描述,下文描述的基于问答模式的事件抽取装置与上文描述的基于问答模式的事件抽取方法可相互对应参照。
请参阅图5,示出了本申请实施例提供的基于问答模式的事件抽取装置的结构示意图,如图5所示,该基于问答模式的事件抽取装置可以包括:文本信息获取模块501、特征词确定模块502、触发词信息确定模块503、第二问题模板确定模块504、论元信息确定模块505和事件抽取结果确定模块506。
文本信息获取模块501,用于获取目标文本和第一问题模板,其中,第一问题模板为对目标文本所涉及的目标事件的触发词进行提问的文本。
特征词确定模块502,用于从目标文本中确定与目标事件相关的特征词。
触发词信息确定模块503,用于根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型。
第二问题模板确定模块504,用于根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,其中,第二问题模板为针对目标事件的论元进行提问的文本。
论元信息确定模块505,用于根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型。
事件抽取结果确定模块506,用于根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
本申请提供的基于问答模式的事件抽取装置,文本信息获取模块获取目标文本和第一问题模板,特征词确定模块从目标文本中确定与目标事件相关的特征词,触发词信息确定模块根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型,第二问题模板确定模块根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,论元信息确定模块根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型,事件抽取结果确定模块根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。本申请提供的基于问答模式的事件抽取装置在确定触发词、事件类型、论元和论元类型时,由于结合了特征词,有效增强了特征表达,提高了事件抽取结果的准确性;同时,在确定触发词和事件类型时结合了第一问题模板,使得本申请能够准确地识别出目标文本中的触发词,并准确地确定出事件类型,之后根据事件类型确定出目标事件的论元匹配的第二问题模板,然后再结合第二问题模板确定目标事件的论元和论元类型,使得本申请能够准确地识别出目标文本中的论元,并准确地确定出论元类型,进一步提高了事件抽取结果的准确性。
可选的,上述触发词信息确定模块503通过向量转换模块、触发词抽取模型和触发词标签序列参考模块实现。
向量转换模块,用于将特征词转换为向量形式,转换得到的向量作为目标文法特征向量。
触发词抽取模型,用于处理第一问题模板、目标文本和目标文法特征向量,得到触发词标签序列,其中,触发词抽取模型采用第一问题模板、训练文本、训练文本对应的触发词标注序列,同时辅以对应的文法特征向量训练得到,对应的文法特征向量通过将训练文本所涉及的事件相关的特征词转换为向量形式得到。
触发词标签序列参考模块,用于根据触发词标签序列,确定目标事件的触发词和事件类型。
可选的,触发词抽取模型处理模块中的触发词抽取模型包括:第一词嵌入模块、第一特征融合模块、第一分类器模块和第一序列搜索模块。
第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第一语义特征向量。
第一特征融合模块对第一语义特征向量和目标文法特征向量进行非线性融合,得到第一融合特征向量。
第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值。
第一序列搜索模块根据目标文本的每个词在各个触发词标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定触发词标签序列。
可选的,第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量,包括:
第一词嵌入模块将第一问题模板和目标文本进行拼接,得到第一拼接后文本;
第一词嵌入模块对第一拼接后文本进行第一分词处理,得到第一拼接后文本对应的数字索引序列、分割标记和掩码序列,其中,第一拼接后文本对应的数字索引序列中包括第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引,特殊字用于将拼接后文本补齐为设定长度,第一拼接后文本对应的分割标记用于区分第一拼接后文本包含的第一问题模板和目标文本,第一拼接后文本对应的掩码序列用于区分第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引;
第一词嵌入模块通过目标编码器对第一拼接后文本对应的数字索引序列、分割标记和掩码序列进行编码,得到第一语义特征向量。
可选的,第一特征融合模块对第一语义特征向量和目标文法特征向量进行非线性融合,得到第一融合特征向量,包括:
第一特征融合模块将第一语义特征向量和目标文法特征向量进行拼接,得到第一拼接后向量;
第一特征融合模块根据目标激活函数和第一拼接后向量,得到第一融合特征向量。
可选的,第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值,包括:
第一分类器模块对第一融合特征向量进行降维处理,得到降维后的第一融合特征向量,其中,降维后的第一融合特征向量包含的分量个数与目标文本包含的词数相同;
第一分类器模块根据降维后的第一融合特征向量和归一化指数函数,计算降维后的第一融合特征向量包含的每个分量对应的概率值,作为目标文本的每个词在各个触发词标签上的概率值。
可选的,论元信息确定模块505通过论元抽取模型和论元标签序列参考模块实现。
论元抽取模型,用于处理第二问题模板、目标文本和目标文法特征向量,得到论元标签序列,其中,论元抽取模型采用训练问题模板、训练文本、训练文本对应的论元标注序列,同时辅以对应的文法特征向量训练得到,训练问题模板为问题模板集合中的问题模板。
论元标签序列参考模块,用于根据论元标签序列,确定目标事件的论元和论元类型。
可选的,论元抽取模型处理模块中的论元抽取模型包括:第二词嵌入模块、第二特征融合模块、第二分类器模块和第二序列搜索模块;
第二词嵌入模块对第二问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第二语义特征向量;
第二特征融合模块对第二语义特征向量和目标文法特征向量进行非线性融合,得到第二融合特征向量;
第二分类器模块根据第二融合特征向量和归一化指数函数,确定目标文本的每个词在各个论元标签上的概率值;
第二序列搜索模块根据目标文本的每个词在各个论元标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定论元标签序列。
本申请实施例还提供了一种基于问答模式的事件抽取设备。可选的,图6示出了基于问答模式的事件抽取设备的硬件结构框图,参照图6,该基于问答模式的事件抽取设备的硬件结构可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;
在本申请实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
处理器601可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器603可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器603存储有程序,处理器601可调用存储器603存储的程序,所述程序用于:
获取目标文本和第一问题模板,其中,第一问题模板为对目标文本所涉及的目标事件的触发词进行提问的文本;
从目标文本中确定与目标事件相关的特征词;
根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型;
根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,其中,第二问题模板为针对目标事件的论元进行提问的文本;
根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型;
根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述基于问答模式的事件抽取方法。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于问答模式的事件抽取方法,其特征在于,包括:
获取目标文本和第一问题模板,其中,所述第一问题模板为对所述目标文本所涉及的目标事件的触发词进行提问的文本;
从所述目标文本中确定与所述目标事件相关的特征词;
根据所述目标文本、所述第一问题模板和所述特征词,确定所述目标事件的触发词和事件类型;
根据所述目标事件的事件类型,从预设的问题模板集合中确定所述目标事件的论元匹配的问题模板,作为第二问题模板,其中,所述第二问题模板为针对所述目标事件的论元进行提问的文本;
根据所述目标文本、所述第二问题模板和所述特征词,确定所述目标事件的论元和论元类型;
根据所述触发词、所述事件类型、所述论元和所述论元类型,确定所述目标文本的事件抽取结果。
2.根据权利要求1所述的基于问答模式的事件抽取方法,其特征在于,所述根据所述目标文本、所述第一问题模板和所述特征词,确定所述目标事件的触发词和事件类型,包括:
将所述特征词转换为向量形式,转换得到的向量作为目标文法特征向量;
利用预先训练得到的触发词抽取模型处理所述第一问题模板、所述目标文本和所述目标文法特征向量,得到所述触发词抽取模型输出的触发词标签序列,其中,所述触发词抽取模型采用所述第一问题模板、训练文本、所述训练文本对应的触发词标注序列,同时辅以对应的文法特征向量训练得到,所述对应的文法特征向量通过将所述训练文本所涉及的事件相关的特征词转换为向量形式得到;
根据所述触发词标签序列,确定所述目标事件的触发词和事件类型。
3.根据权利要求2所述的基于问答模式的事件抽取方法,其特征在于,所述触发词抽取模型包括:第一词嵌入模块、第一特征融合模块、第一分类器模块和第一序列搜索模块;
所述第一词嵌入模块对所述第一问题模板和所述目标文本进行编码,得到编码出的语义特征向量,作为第一语义特征向量;
所述第一特征融合模块对所述第一语义特征向量和所述目标文法特征向量进行非线性融合,得到第一融合特征向量;
所述第一分类器模块根据所述第一融合特征向量和归一化指数函数,确定所述目标文本的每个词在各个触发词标签上的概率值;
所述第一序列搜索模块根据所述目标文本的每个词在各个触发词标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定所述触发词标签序列。
4.根据权利要求3所述的基于问答模式的事件抽取方法,其特征在于,所述第一词嵌入模块对所述第一问题模板和所述目标文本进行编码,得到编码出的语义特征向量,包括:
所述第一词嵌入模块将所述第一问题模板和所述目标文本进行拼接,得到第一拼接后文本;
所述第一词嵌入模块对所述第一拼接后文本进行第一分词处理,得到所述第一拼接后文本对应的数字索引序列、分割标记和掩码序列,其中,所述第一拼接后文本对应的数字索引序列中包括所述第一拼接后文本的每个词对应的数字索引和特殊字对应的数字索引,所述特殊字用于将所述拼接后文本补齐为设定长度,所述第一拼接后文本对应的分割标记用于区分所述第一拼接后文本包含的所述第一问题模板和所述目标文本,所述第一拼接后文本对应的掩码序列用于区分所述第一拼接后文本的每个词对应的数字索引和所述特殊字对应的数字索引;
所述第一词嵌入模块通过目标编码器对所述第一拼接后文本对应的数字索引序列、分割标记和掩码序列进行编码,得到所述第一语义特征向量。
5.根据权利要求3所述的基于问答模式的事件抽取方法,其特征在于,所述第一特征融合模块对所述第一语义特征向量和所述目标文法特征向量进行非线性融合,得到第一融合特征向量,包括:
所述第一特征融合模块将所述第一语义特征向量和所述目标文法特征向量进行拼接,得到第一拼接后向量;
所述第一特征融合模块根据目标激活函数和所述第一拼接后向量,得到所述第一融合特征向量。
6.根据权利要求3所述的基于问答模式的事件抽取方法,其特征在于,所述第一分类器模块根据所述第一融合特征向量和归一化指数函数,确定所述目标文本的每个词在各个触发词标签上的概率值,包括:
所述第一分类器模块对所述第一融合特征向量进行降维处理,得到降维后的第一融合特征向量,其中,所述降维后的第一融合特征向量包含的分量个数与所述目标文本包含的词数相同;
所述第一分类器模块根据所述降维后的第一融合特征向量和归一化指数函数,计算所述降维后的第一融合特征向量包含的每个分量对应的概率值,作为所述目标文本的每个词在各个触发词标签上的概率值。
7.根据权利要求3所述的基于问答模式的事件抽取方法,其特征在于,所述根据所述目标文本、所述第二问题模板和所述特征词,确定所述目标事件的论元和论元类型,包括:
利用预先训练得到的论元抽取模型处理所述第二问题模板、所述目标文本和所述目标文法特征向量,得到所述论元抽取模型输出的论元标签序列,其中,所述论元抽取模型采用训练问题模板、所述训练文本、所述训练文本对应的论元标注序列,同时辅以对应的文法特征向量训练得到,所述训练问题模板为所述问题模板集合中的问题模板;
根据所述论元标签序列,确定所述目标事件的论元和论元类型。
8.根据权利要求7所述的基于问答模式的事件抽取方法,其特征在于,所述论元抽取模型包括:第二词嵌入模块、第二特征融合模块、第二分类器模块和第二序列搜索模块;
所述第二词嵌入模块对所述第二问题模板和所述目标文本进行编码,得到编码出的语义特征向量,作为第二语义特征向量;
所述第二特征融合模块对所述第二语义特征向量和所述目标文法特征向量进行非线性融合,得到第二融合特征向量;
所述第二分类器模块根据所述第二融合特征向量和所述归一化指数函数,确定所述目标文本的每个词在各个论元标签上的概率值;
所述第二序列搜索模块根据所述目标文本的每个词在各个论元标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定所述论元标签序列。
9.一种基于问答模式的事件抽取装置,其特征在于,包括:文本信息获取模块、特征词确定模块、触发词信息确定模块、第二问题模板确定模块、论元信息确定模块和事件抽取结果确定模块;
所述文本信息获取模块,用于获取目标文本和第一问题模板,其中,所述第一问题模板为对所述目标文本所涉及的目标事件的触发词进行提问的文本;
所述特征词确定模块,用于从所述目标文本中确定与所述目标事件相关的特征词;
所述触发词信息确定模块,用于根据所述目标文本、所述第一问题模板和所述特征词,确定所述目标事件的触发词和事件类型;
所述第二问题模板确定模块,用于根据所述目标事件的事件类型,从预设的问题模板集合中确定所述目标事件的论元匹配的问题模板,作为第二问题模板,其中,所述第二问题模板为针对所述目标事件的论元进行提问的文本;
所述论元信息确定模块,用于根据所述目标文本、所述第二问题模板和所述特征词,确定所述目标事件的论元和论元类型;
所述事件抽取结果确定模块,用于根据所述触发词、所述事件类型、所述论元和所述论元类型,确定所述目标文本的事件抽取结果。
10.一种基于问答模式的事件抽取设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-8中任一项所述的基于问答模式的事件抽取方法的各个步骤。
CN202210323185.4A 2022-03-30 2022-03-30 一种基于问答模式的事件抽取方法、装置和设备 Pending CN114661881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210323185.4A CN114661881A (zh) 2022-03-30 2022-03-30 一种基于问答模式的事件抽取方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210323185.4A CN114661881A (zh) 2022-03-30 2022-03-30 一种基于问答模式的事件抽取方法、装置和设备

Publications (1)

Publication Number Publication Date
CN114661881A true CN114661881A (zh) 2022-06-24

Family

ID=82032962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210323185.4A Pending CN114661881A (zh) 2022-03-30 2022-03-30 一种基于问答模式的事件抽取方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114661881A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269833A (zh) * 2022-06-29 2022-11-01 国家计算机网络与信息安全管理中心 基于深度语义和多任务学习的事件信息抽取方法及系统
CN115757826A (zh) * 2022-11-18 2023-03-07 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN117556802A (zh) * 2024-01-12 2024-02-13 碳丝路文化传播(成都)有限公司 一种基于大语言模型的用户画像方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269833A (zh) * 2022-06-29 2022-11-01 国家计算机网络与信息安全管理中心 基于深度语义和多任务学习的事件信息抽取方法及系统
CN115757826A (zh) * 2022-11-18 2023-03-07 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN115757826B (zh) * 2022-11-18 2024-01-05 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN117556802A (zh) * 2024-01-12 2024-02-13 碳丝路文化传播(成都)有限公司 一种基于大语言模型的用户画像方法、装置、设备及介质
CN117556802B (zh) * 2024-01-12 2024-04-05 碳丝路文化传播(成都)有限公司 一种基于大语言模型的用户画像方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN114661881A (zh) 一种基于问答模式的事件抽取方法、装置和设备
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111222305A (zh) 一种信息结构化方法和装置
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN111428511B (zh) 一种事件检测方法和装置
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN114528394B (zh) 一种基于掩码语言模型的文本三元组提取方法及装置
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN113496122A (zh) 命名实体识别方法、装置、设备及介质
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581346A (zh) 一种事件抽取方法和装置
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN114510946A (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112487813B (zh) 命名实体识别方法及系统、电子设备及存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115859112A (zh) 模型训练方法、识别方法、装置、处理设备及存储介质
CN113220824B (zh) 数据检索方法、装置、设备及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN114595338A (zh) 基于混合特征表示的实体关系联合抽取系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination