CN111460831A - 事件确定方法、相关设备及可读存储介质 - Google Patents
事件确定方法、相关设备及可读存储介质 Download PDFInfo
- Publication number
- CN111460831A CN111460831A CN202010230897.2A CN202010230897A CN111460831A CN 111460831 A CN111460831 A CN 111460831A CN 202010230897 A CN202010230897 A CN 202010230897A CN 111460831 A CN111460831 A CN 111460831A
- Authority
- CN
- China
- Prior art keywords
- text
- event
- semantic information
- level
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000012549 training Methods 0.000 claims description 109
- 238000013459 approach Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004148 unit process Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000009360 aquaculture Methods 0.000 description 2
- 244000144974 aquaculture Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种事件确定方法、相关设备及可读存储介质,基于上述方案,对于待进行事件确定的文本,分别基于该文本的文本级语义信息确定出该文本的事件类型,以及,基于该文本的词级语义信息确定出该文本的事件元素,该文本的事件类型及该文本的事件元素能够组成该文本所描述事件,因此,基于上述方案能够实现从文本中确定事件。
Description
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种事件确定方法、相关设备及可读存储介质。
背景技术
随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取(Information Extraction)的概念。信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信息。
事件抽取(Event Extraction)是信息抽取中的一个重要研究方向,是一种自然语言处理技术。事件抽取的目的是从非结构化或半结构化的文本数据中抽取结构化的数据。事件抽取在信息抽取、语言资源建设、事理图谱建设等相关领域都有着重要的应用前景。
然而,如何从文本中确定事件,成为目前亟待解决的问题。
发明内容
鉴于上述问题,本申请提出了一种事件确定方法、相关设备及可读存储介质。具体方案如下:
一种事件确定方法,包括:
获取待进行事件确定的文本;
确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
可选地,所述确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的过程,包括:
利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素;
所述事件确定模型具备,确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的能力。
可选地,所述利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素,包括:
利用事件确定模型的语义信息确定模块,对所述文本进行特征提取,并对提取的特征进行编码,得到所述文本的文本级语义信息,以及,所述文本的词级语义信息;
利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型;
利用事件确定模型的事件元素确定模块,对所述文本的词级语义信息进行序列标注,得到所述文本的事件元素。
可选地,所述利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
利用所述事件类型确定模块中的多层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的多层级事件类型;所述多层级事件类型用于表示所述文本所描述事件在不同层级下所属的类型;和/或,
利用所述事件类型确定模块中的每个单层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本在每个单层级事件类型确定模块对应的层级下的事件类型;
其中,所述多层级事件类型确定模块对应的多层级是各个单层级事件类型确定模块对应的层级的组合。
可选地,所述事件确定模型的训练样本为训练文本;
所述事件确定模型的样本标签为所述训练文本标注的多层级事件类型以及事件元素;
所述事件确定模型的训练目标为所述多层级事件类型确定模块输出的训练文本的多层级事件类型趋近于训练文本标注的多层级事件类型,且,每个单层级事件类型确定模块输出的训练文本的单层级事件类型均趋近于训练文本标注的多层级事件类型中相应层级的类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于训练文本标注的事件元素。
可选地,所述利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
利用事件类型确定模块中的单一事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的单一事件类型,所述单一事件类型用于表示所述文本所描述事件在预先设定层级下所属的类型。
可选地,所述事件确定模型,是以训练文本为训练样本,以训练文本标注的单一事件类型和事件元素为样本标签,以所述单一事件类型确定模块输出的训练文本的单一事件类型趋近于所述训练文本标注的单一事件类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于所述训练文本标注的事件元素为训练目标,训练得到的。
可选地,所述事件元素,包括:
施事者、受事者、时间以及地点中的任意一个或多个。
一种事件确定装置,包括:
文本获取单元,用于获取待进行事件确定的文本;
语义信息确定单元,用于确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
事件类型确定单元,用于基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
事件元素确定单元,用于基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
可选地,所述语义信息确定单元确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;所述事件类型确定单元基于所述文本的文本级语义信息,确定所述文本的事件类型;所述事件元素确定单元基于所述文本的词级语义信息,确定所述文本的事件元素的过程,包括:
所述语义信息确定单元、所述事件类型确定单元和所述事件元素确定单元利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素;
所述事件确定模型具备,确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的能力。
可选地,所述语义信息确定单元、所述事件类型确定单元和所述事件元素确定单元利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素,包括:
所述语义信息确定单元利用事件确定模型的语义信息确定模块,对所述文本进行特征提取,并对提取的特征进行编码,得到所述文本的文本级语义信息,以及,所述文本的词级语义信息;
所述事件类型确定单元利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型;
所述事件元素确定单元利用事件确定模型的事件元素确定模块,对所述文本的词级语义信息进行序列标注,得到所述文本的事件元素。
可选地,所述事件类型确定单元利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
所述事件类型确定单元利用所述事件类型确定模块中的多层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的多层级事件类型;所述多层级事件类型用于表示所述文本所描述事件在不同层级下所属的类型;和/或,
所述事件类型确定单元利用所述事件类型确定模块中的每个单层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本在每个单层级事件类型确定模块对应的层级下的事件类型;
其中,所述多层级事件类型确定模块对应的多层级是各个单层级事件类型确定模块对应的层级的组合。
可选地,所述事件确定模型的训练样本为训练文本;
所述事件确定模型的样本标签为所述训练文本标注的多层级事件类型以及事件元素;
所述事件确定模型的训练目标为所述多层级事件类型确定模块输出的训练文本的多层级事件类型趋近于训练文本标注的多层级事件类型,且,每个单层级事件类型确定模块输出的训练文本的单层级事件类型均趋近于训练文本标注的多层级事件类型中相应层级的类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于训练文本标注的事件元素。
可选地,所述事件类型确定单元利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
所述事件类型确定单元利用事件类型确定模块中的单一事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的单一事件类型,所述单一事件类型用于表示所述文本所描述事件在预先设定层级下所属的类型。
可选地,所述事件确定模型,是以训练文本为训练样本,以训练文本标注的单一事件类型和事件元素为样本标签,以所述单一事件类型确定模块输出的训练文本的单一事件类型趋近于所述训练文本标注的单一事件类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于所述训练文本标注的事件元素为训练目标,训练得到的。
可选地,所述事件元素,包括:
施事者、受事者、时间以及地点中的任意一个或多个。
一种事件确定设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的事件确定方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的事件确定方法的各个步骤。
借由上述技术方案,本申请公开了一种事件确定方法、相关设备及可读存储介质,基于上述方案,对于待进行事件确定的文本,分别基于该文本的文本级语义信息确定出该文本的事件类型,以及,基于该文本的词级语义信息确定出该文本的事件元素,该文本的事件类型及该文本的事件元素能够组成该文本所描述事件,因此,基于上述方案能够实现从文本中确定事件。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的事件确定方法的流程示意图;
图2为本申请实施例公开的一种事件确定模型的结构示意图;
图3为本申请实施例公开的一种语义信息确定模块示例结构示意图;
图4为本申请实施例公开的一种应用于事件类型为单一事件类型的场景下的事件确定模型的结构示意图;
图5为本申请实施例公开的一种应用于事件类型为多层级事件类型的场景下的事件确定类型的结构示意图;
图6为本申请实施例公开的一种事件确定装置结构示意图;
图7为本申请实施例公开的一种事件确定设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解,对本申请一个或多个实施例涉及的名词术语进行如下解释:
事件:是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或状态的改变。事件由事件触发词(Trigger)和事件元素(argument)组成。其中,事件触发词,即表示事件发生的核心词,多为动词或名词。事件元素又称为事件论元,表示事件的参与者、时间、地点等属性信息。
为了实现从文本中确定事件,本案发明人进行研究,起初的思路为:
预先定义不同的事件触发词类型以及事件元素,并训练触发词确定模型与事件元素确定模型。
在获取待进行事件确定的文本之后,先确定待进行事件确定的文本中每个词的语义表示,再将待进行事件确定的文本中每个词的语义表示输入触发词确定模型,确定触发词及触发词类型,然后,将触发词、触发词类型以及待进行事件确定的文本中每个词的语义表示输入事件元素确定模型,确定事件元素,由触发词、触发词类型和事件元素组成所述文本所描述的事件。
为便于理解上述思路,本申请给出如下表所示的事件确定示例,其中,确定出的事件包括触发词、触发词类型和事件元素,事件元素可包括多种事件元素,如下表中所示的受害人、事件、地点、施事者、受事者、制裁理由、时间等均为事件元素。
需要说明的是,上述触发词确定模型在训练好后能够习得触发词与触发词类型的对应关系,比如,基于上表,触发词确定模型确定触发词为“受轻伤”时,则触发词类型为“受伤”;触发词为“列入黑名单”时,则触发词类型为“制裁”;触发词为“驱逐”时,则触发词类型为“驱逐人员或设备实体”;
上述事件元素确定模型在训练好后能够习得触发词类型与事件元素的对应关系,比如,基于上表触发词确定模型确定触发词类型为“受伤”时,事件元素确定模型确定事件元素有受害人、时间、地点;触发词确定模型确定触发词类型为“制裁”时,事件元素确定模型确定事件元素有施事者、受事者、制裁理由、时间;触发词确定模型确定触发词类型为“驱逐人员或设备实体”时,事件元素确定模型确定事件元素有施事者、受事者。
基于以上,本案发明人发现,上述思路至少存在如下问题:
基于上述思路,需要先确定触发词,再依据触发词确定触发词类型,然后依据触发词类型确定事件元素,如果触发词确定错误,会导致触发词类型确定错误,进而会导致事件元素确定错误。因此,如果触发词确定准确率较低,会使事件元素的确定结果出现级联误差,导致事件元素确定的准确率更低,进而导致确定出的事件准确率较低。比如,触发词的准确率为百分之七八十,则事件元素的准确率一般会低于百分之五十,确定出的事件准确率将会更低。
鉴于上述思路发生的问题,本案发明人进行了深入研究,最终提出了一种事件确定方法,该方法能够实现从文本中确定事件。该方法可应用于信息抽取、语言资源建设、事理图谱建设等涉及到事件抽取的相关领域中执行事件抽取的终端或设备。接下来,通过下述实施例对本申请提供的事件确定方法进行介绍。
参照图1,图1为本申请实施例公开的事件确定方法的流程示意图,该方法可以包括:
步骤S101:获取待进行事件确定的文本。
在本申请中,待进行事件确定的文本可以由采用任意一种书面语言(比如中文、英文等)表现的文字组成的。待进行事件确定的文本可以为一个句子,也可以为一个段落,或一个篇章,对此,本申请不进行任何限定。
步骤S102:确定所述文本的文本级语义信息,以及,所述文本的词级语义信息。
在本申请中,当文本为一个句子时,文本的文本级语义信息为句子级语义信息,当文本为一个段落时,文本的文本级语义信息为段落级语义信息,当文本为一个篇章时,文本的文本级语义信息为篇章级语义信息。文本的词级语义与文本中文字采用的书面语言相关,对此,文本中文字采用的书面语言,文本的词级语义也不相同,本申请不进行任何限定。
步骤S103:基于所述文本的文本级语义信息,确定所述文本的事件类型。
在本申请中,所述事件类型用于表示所述文本所描述事件所属的类型。
一种可选的实施方式下,文本的事件类型可以为单一事件类型,所述单一事件类型用于表示所述文本所描述事件在预先设定层级下所属的类型。
在本申请中,可以依据用户对事件确定的需求预先设定层级,预先设定层级可以为所述文本中所描述事件发生的核心词对应的层级,比如:水产养殖,也可以为所述文本中所描述事件发生的核心词对应的层级的上级层级,比如:水产养殖的上级层级渔业。
另一种可选的实施方式下,文本的事件类型可以为多层级事件类型,所述多层级事件类型用于表示所述文本所描述事件在不同层级下所属的类型。所述不同层级用于表示事件类型的不同划分粒度。
比如,多层级事件类型为“经济-农业-谷物”,则其表示所述文本所描述事件在层级一下所属的类型为“经济”,在层级二下所属的类型为“农业”,在层级三下所属的类型为“谷物”。
基于所述文本的文本级语义信息,确定所述文本的事件类型的具体实现方式,将通过后续实施例详细说明,本实施例不再详述。
步骤S104:基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
在本申请中,所述事件元素用于表示所述文本所描述事件的属性,如事件的参与者、时间、地点等。
需要说明的是,在本申请中,事件元素不再依赖于触发词类型,其针对不同的事件类型,均采用相同的形式。作为一种可实施方式,本申请中文本的事件元素可以包括施事者、受事者、时间、地点中的任意一个和多个元素。事件确定主要是为了解决Who、What、When、Where这四个问题,步骤S103中确定的事件类型对应“What”,为解决上述其他三个问题,作为一种优选实施方式,本申请中文本的事件元素可以包括施事者、受事者、时间和地点。其中,施事者和受事者对应“Who”,时间对应“When”,地点对应“Where”。
本实施例公开了一种事件确定方法,对于待进行事件确定的文本,分别基于该文本的文本级语义信息确定出该文本的事件类型,以及,基于该文本的词级语义信息确定出该文本的事件元素,该文本的事件类型及该文本的事件元素能够组成该文本所描述事件,因此,基于上述方案能够实现从文本中确定事件。
而且,本申请实施例公开的事件确定方法中,对文本的事件进行了重新定义,重新定义后的事件包括事件类型和事件元素,其与对事件的通用定义(即事件包括触发词和事件元素)不同,基于此,将文本的事件类型以及文本的事件元素分开确定,具体的,文本的事件类型是基于文本的文本级语义信息确定的,文本的事件元素是基于文本的词级语义信息确定的,相对于上述思路中,先确定触发词,再依据触发词确定触发词类型,然后依据触发词类型确定事件元素的方案,由于本申请中,将文本的事件类型以及文本的事件元素分开确定,使得文本的事件元素的确定不会受到文本的事件类型的确定结果的级联误差的影响,进而使得确定出的事件准确率有很大的提升。
在本申请中,上述步骤S102、S103以及S104可以基于神经网络结构实现,具体的,所述确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的过程,可以包括:
利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素;所述事件确定模型具备,确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的能力。
接下来,通过下述实施例对事件确定模型进行详细介绍。
参照图2,图2为本申请实施例公开的一种事件确定模型的结构示意图,该事件确定模型可以包括:语义信息确定模块、事件类型确定模块、以及事件元素确定模块。其中,所述语义信息确定模块的网络结构可以基于预先训练的语言表征模型确定。需要说明的是,上述预先训练的语言表征模型可以为BERT(Bidirectional Encoder Representationsfrom Transformers,来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个。
基于以上,本申请给出一种语义信息确定模块的示例,参照图3,图3为本申请实施例公开的一种语义信息确定模块示例结构示意图,该语义信息确定模块为BERT模型,如图3所示,BERT模型的输出层中位置C的部分为文本的文本级语义信息,位置T1、T2,…,TN的部分为文本的词级语义信息。
基于上述事件确定模型的结构,本申请中对利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素的具体过程进行了如下介绍,该过程可以包含如下步骤:
步骤S201:利用事件确定模型的语义信息确定模块,对所述文本进行特征提取,并对提取的特征进行编码,得到所述文本的文本级语义信息,以及,所述文本的词级语义信息。
具体地,将待进行事件确定的文本输入语义信息确定模块,由语义信息确定模块输出所述文本的文本级语义信息,以及所述文本的词级语义信息。
步骤S202:利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型。
语义信息确定模块输出的所述文本的文本级语义信息输入至事件类型确定模块,由事件类型确定模块输出文本的事件类型。
步骤S203:利用事件确定模型的事件元素确定模块,对所述文本的词级语义信息进行序列标注,得到所述文本的事件元素。
语义信息确定模块输出的文本的词级语义信息输入至事件元素确定模块,由事件元素确定模块输出文本的事件元素。
需要说明的是,作为一种可实施方式,本申请实施例公开了一种应用于事件类型为单一事件类型的场景下的事件确定模型的结构,具体请参阅图4,由图4可以看出,事件确定模型中的事件类型确定模块包括单一事件类型确定模块。图4所示的事件确定模型的训练过程可以为:
获取训练文本,对训练文本的单一事件类型以及训练文本的事件元素进行标注。在对训练文本标注完毕后,以训练文本为训练样本,以训练文本标注的单一事件类型以及事件元素为样本标签,以所述单一事件类型确定模块输出的训练文本的单一事件类型趋近于所述训练文本标注的单一事件类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于所述训练文本标注的事件元素为训练目标,对事件确定模型进行训练。
这种情况下,本申请中步骤S202利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型的过程,可以包括:利用事件类型确定模块中的单一事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的单一事件类型。
作为又一种可实施方式,本申请实施例还公开了一种应用于事件类型为多层级事件类型的场景下的事件确定类型的结构,具体请参阅图5,由图5可以看出,该事件确定模型中的事件类型确定模块包括多层级事件类型确定模块和多个单层级事件类型确定模块,所述多层级事件类型确定模块对应的多层级是各个单层级事件类型确定模块对应的层级的组合。
图5所示的事件确定模型的训练过程可以为:
获取训练样本,对训练文本的多层级事件类型以及训练文本的事件元素进行标注。在对训练文本标注完毕后,以训练文本为训练样本,以训练文本标注的多层级事件类型以及事件元素为样本标签,以“所述多层级事件类型确定模块输出的训练文本的多层级事件类型趋近于训练文本标注的多层级事件类型,且,每个单层级事件类型确定模块输出的训练文本的单层级事件类型均趋近于训练文本标注的多层级事件类型中相应层级的类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于训练文本标注的事件元素”为训练目标对上述事件确定模型进行训练。
为便于理解对训练文本的多层级事件类型以及训练文本的事件元素进行标注,本申请给出如下示例:
假设本申请中预先定义的事件元素包括施事者、受事者、时间、地点,预先定义多层级事件类型如下表所示:
假设训练文本为“就在此前几天,×国外长××10日在×首都×××表示支持××核协议”,则对该训练文本的多层级事件类型以及该训练文本的事件元素进行标注的结果可以如下表所示:
作为一种对训练文本的事件元素进行标注的实施方式,在本申请中可以采用BIOES标注模式(B-begin,I-inside,O-outside,E-end,S-single)。
这种情况下,本申请中步骤S202利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型的过程,可以包括:
利用所述事件类型确定模块中的多层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的多层级事件类型;所述多层级事件类型用于表示所述文本所描述事件在不同层级下所属的类型;和/或,
利用所述事件类型确定模块中的每个单层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本在每个单层级事件类型确定模块对应的层级下的事件类型;
其中,所述多层级事件类型确定模块对应的多层级是各个单层级事件类型确定模块对应的层级的组合。
下面对本申请实施例公开的事件确定装置进行描述,下文描述的事件确定装置与上文描述的事件确定方法可相互对应参照。
参照图6,图6为本申请实施例公开的一种事件确定装置结构示意图。如图6所示,该事件确定装置可以包括:
文本获取单元11,用于获取待进行事件确定的文本;
语义信息确定单元12,用于确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
事件类型确定单元13,用于基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
事件元素确定单元14,用于基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
可选地,所述语义信息确定单元确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;所述事件类型确定单元基于所述文本的文本级语义信息,确定所述文本的事件类型;所述事件元素确定单元基于所述文本的词级语义信息,确定所述文本的事件元素的过程,包括:
所述语义信息确定单元、所述事件类型确定单元和所述事件元素确定单元利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素;
所述事件确定模型具备,确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的能力。
可选地,所述语义信息确定单元、所述事件类型确定单元和所述事件元素确定单元利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素,包括:
所述语义信息确定单元利用事件确定模型的语义信息确定模块,对所述文本进行特征提取,并对提取的特征进行编码,得到所述文本的文本级语义信息,以及,所述文本的词级语义信息;
所述事件类型确定单元利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型;
所述事件元素确定单元利用事件确定模型的事件元素确定模块,对所述文本的词级语义信息进行序列标注,得到所述文本的事件元素。
可选地,所述事件类型确定单元利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
所述事件类型确定单元利用所述事件类型确定模块中的多层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的多层级事件类型;所述多层级事件类型用于表示所述文本所描述事件在不同层级下所属的类型;和/或,
所述事件类型确定单元利用所述事件类型确定模块中的每个单层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本在每个单层级事件类型确定模块对应的层级下的事件类型;
其中,所述多层级事件类型确定模块对应的多层级是各个单层级事件类型确定模块对应的层级的组合。
可选地,所述事件确定模型的训练样本为训练文本;
所述事件确定模型的样本标签为所述训练文本标注的多层级事件类型以及事件元素;
所述事件确定模型的训练目标为所述多层级事件类型确定模块输出的训练文本的多层级事件类型趋近于训练文本标注的多层级事件类型,且,每个单层级事件类型确定模块输出的训练文本的单层级事件类型均趋近于训练文本标注的多层级事件类型中相应层级的类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于训练文本标注的事件元素。
可选地,所述事件类型确定单元利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
所述事件类型确定单元利用事件类型确定模块中的单一事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的单一事件类型,所述单一事件类型用于表示所述文本所描述事件在预先设定层级下所属的类型。
可选地,所述事件确定模型,是以训练文本为训练样本,以训练文本标注的单一事件类型和事件元素为样本标签,以所述单一事件类型确定模块输出的训练文本的单一事件类型趋近于所述训练文本标注的单一事件类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于所述训练文本标注的事件元素为训练目标,训练得到的。
可选地,所述事件元素,包括:
施事者、受事者、时间以及地点中的任意一个或多个。
参照图7,图7为本申请实施例提供的事件确定设备的硬件结构框图,参照图7,事件确定设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待进行事件确定的文本;
确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待进行事件确定的文本;
确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间发生任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还发生另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种事件确定方法,其特征在于,包括:
获取待进行事件确定的文本;
确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的过程,包括:
利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素;
所述事件确定模型具备,确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;基于所述文本的文本级语义信息,确定所述文本的事件类型;基于所述文本的词级语义信息,确定所述文本的事件元素的能力。
3.根据权利要求2所述的方法,其特征在于,所述利用事件确定模型处理所述文本,得到所述事件确定模型输出的所述文本的事件类型,和,所述文本的事件元素,包括:
利用事件确定模型的语义信息确定模块,对所述文本进行特征提取,并对提取的特征进行编码,得到所述文本的文本级语义信息,以及,所述文本的词级语义信息;
利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型;
利用事件确定模型的事件元素确定模块,对所述文本的词级语义信息进行序列标注,得到所述文本的事件元素。
4.根据权利要求3所述的方法,其特征在于,所述利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
利用所述事件类型确定模块中的多层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的多层级事件类型;所述多层级事件类型用于表示所述文本所描述事件在不同层级下所属的类型;和/或,
利用所述事件类型确定模块中的每个单层级事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本在每个单层级事件类型确定模块对应的层级下的事件类型;
其中,所述多层级事件类型确定模块对应的多层级是各个单层级事件类型确定模块对应的层级的组合。
5.根据权利要求4所述的方法,其特征在于,所述事件确定模型的训练样本为训练文本;
所述事件确定模型的样本标签为所述训练文本标注的多层级事件类型以及事件元素;
所述事件确定模型的训练目标为所述多层级事件类型确定模块输出的训练文本的多层级事件类型趋近于训练文本标注的多层级事件类型,且,每个单层级事件类型确定模块输出的训练文本的单层级事件类型均趋近于训练文本标注的多层级事件类型中相应层级的类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于训练文本标注的事件元素。
6.根据权利要求3所述的方法,其特征在于,所述利用事件确定模型的事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的事件类型,包括:
利用事件类型确定模块中的单一事件类型确定模块,对所述文本的文本级语义信息进行分类,得到所述文本的单一事件类型,所述单一事件类型用于表示所述文本所描述事件在预先设定层级下所属的类型。
7.根据权利要求6所述的方法,其特征在于,所述事件确定模型,是以训练文本为训练样本,以训练文本标注的单一事件类型和事件元素为样本标签,以所述单一事件类型确定模块输出的训练文本的单一事件类型趋近于所述训练文本标注的单一事件类型,且,所述事件元素确定模块输出的训练文本的事件元素趋近于所述训练文本标注的事件元素为训练目标,训练得到的。
8.根据权利要求1所述的方法,其特征在于,所述事件元素,包括:
施事者、受事者、时间以及地点中的任意一个或多个。
9.一种事件确定装置,其特征在于,包括:
文本获取单元,用于获取待进行事件确定的文本;
语义信息确定单元,用于确定所述文本的文本级语义信息,以及,所述文本的词级语义信息;
事件类型确定单元,用于基于所述文本的文本级语义信息,确定所述文本的事件类型,所述事件类型用于表示所述文本所描述事件所属的类型;
事件元素确定单元,用于基于所述文本的词级语义信息,确定所述文本的事件元素,由所述文本的事件类型及所述文本的事件元素组成所述文本所描述事件。
10.一种事件确定设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的事件确定方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的事件确定方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230897.2A CN111460831B (zh) | 2020-03-27 | 2020-03-27 | 事件确定方法、相关设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230897.2A CN111460831B (zh) | 2020-03-27 | 2020-03-27 | 事件确定方法、相关设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460831A true CN111460831A (zh) | 2020-07-28 |
CN111460831B CN111460831B (zh) | 2024-04-19 |
Family
ID=71679790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010230897.2A Active CN111460831B (zh) | 2020-03-27 | 2020-03-27 | 事件确定方法、相关设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460831B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111649A (zh) * | 2021-04-13 | 2021-07-13 | 科大讯飞股份有限公司 | 事件抽取方法、系统以及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107729309A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
-
2020
- 2020-03-27 CN CN202010230897.2A patent/CN111460831B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729309A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
陈亚东;洪宇;王潇斌;杨雪蓉;姚建民;朱巧明;: "利用框架语义知识优化事件抽取", 中文信息学报, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111649A (zh) * | 2021-04-13 | 2021-07-13 | 科大讯飞股份有限公司 | 事件抽取方法、系统以及设备 |
CN113111649B (zh) * | 2021-04-13 | 2024-02-20 | 科大讯飞股份有限公司 | 事件抽取方法、系统以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111460831B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016310A (zh) | 文本纠错方法、系统、设备及可读存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
US20210056266A1 (en) | Sentence generation method, sentence generation apparatus, and smart device | |
Gupta et al. | A survey of common stemming techniques and existing stemmers for indian languages | |
CN109117474B (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN111460149B (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN108304387B (zh) | 文本中噪音词的识别方法、装置、服务器组及存储介质 | |
Chen et al. | A robust web personal name information extraction system | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN113672731B (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN112434166A (zh) | 基于时效性的文本分类方法、装置、设备及存储介质 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114742039A (zh) | 一种中文拼写纠错方法及系统、存储介质及终端 | |
CN114818724A (zh) | 一种社交媒体灾害有效信息检测模型的构建方法 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111460831A (zh) | 事件确定方法、相关设备及可读存储介质 | |
CN110516157B (zh) | 一种文献检索方法、设备和存储介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN106294292B (zh) | 章节目录筛选方法及装置 | |
JP2020046792A (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |