CN114676271A - 事件抽取方法、装置、电子设备及存储介质 - Google Patents
事件抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114676271A CN114676271A CN202210216460.2A CN202210216460A CN114676271A CN 114676271 A CN114676271 A CN 114676271A CN 202210216460 A CN202210216460 A CN 202210216460A CN 114676271 A CN114676271 A CN 114676271A
- Authority
- CN
- China
- Prior art keywords
- text
- event
- sentence
- target
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 86
- 238000007635 classification algorithm Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000004821 distillation Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种事件抽取方法、装置、电子设备及存储介质。该方法包括:在获取到待处理文本后,对待处理文本进行句子级切割,得到多个句子文本,然后生成每个句子文本各自对应的标签识别文本,先通过文本分类算法对标签识别文本进行标签分类,从而得到句子文本的事件标签,得到事件标签后,基于该事件标签对应的元素架构,有针对性地从句子文本中提取事件元素。基于此,根据该事件标签对应的元素架构,从句子文本中有针对性的提取事件元素,减少了对句子文本中多余信息的处理,处理过程精简后,事件提取的效率也得到了提升。
Description
技术领域
本申请实施例涉及大数据处理技术领域,尤其涉及一种事件抽取方法、装置、电子设备及存储介质。
背景技术
随着大数据时代的到来,互联网思维和决策数据化已经开始渗入各行各业,对于新闻类型的数据,通常会以文章的形式出现在互联网中,而对于具有互联网思维和决策数据化能力的行业,其通常会对文章中的事件进行抽取,以提高决策效率。
由于新闻数据覆盖范围广、数量多,这对事件提取算法的处理时效具有较大的挑战性,而且新闻数据本身就具有较高的文本复杂性和事件复杂性,比如新闻数据大多来自不同的网站平台,由不同的编辑进行撰写,文章版面的排布以及文章的语法表达具有较大的差异,这就导致的新闻数据具有较高的文本复杂性,而新闻数据所涉及到的事件种类非常多,就算某个领域的新闻数据中所涉及的事件也高达几百甚至上千种,这就导致了新闻数据具有较高的事件复杂性。
较高的文本复杂性和事件复杂性就提高了算法从新闻数据中进行事件抽取的难度,降低了事件抽取的效率和精准度。
发明内容
本申请实施例提供一种事件抽取方法、装置、电子设备及存储介质,以提高事件抽取的效率和精确性。
第一方面,本申请实施例提供了一种事件抽取方法,所述方法包括:
获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
第二方面,本申请实施例还提供了一种事件抽取装置,该事件抽取装置包括:
分割模块,用于获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
文本生成模块,用于对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
标签分类模块,用于将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
元素抽取模块,用于基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请任一实施例提供的事件抽取方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请任一实施例提供的事件抽取方法。
本申请实施例的技术方案中,在获取到待处理文本后,对待处理文本进行句子级切割,得到多个句子文本,然后生成每个句子文本各自对应的标签识别文本,先通过文本分类算法对标签识别文本进行标签分类,从而得到句子文本的事件标签,得到事件标签后,基于该事件标签对应的元素架构,有针对性地从句子文本中提取事件元素。基于此,对于各类事件标签,都会有预先定义的元素架构,从而在识别到句子文本的事件标签之后,能够根据该事件标签对应的元素架构,从句子文本中有针对性的提取事件元素,相对于现有技术中提取事件元素时不参考事件标签对应的元素架构的方案,有针对性的提取事件元素,能够避免句子文本中多余信息对事件提取的干扰,干扰减少必然能够提高事件提取的准确率,同时,减少了对句子文本中多余信息的处理,处理过程精简后,事件提取的效率也得到了提升。
附图说明
图1为本申请实施例一提供的事件抽取方法的流程示意图;
图2为本申请的实施例一提供的获取待处理文本的流程示意图;
图3为本申请实施例二提供的一种事件抽取装置的结构示意图;
图4为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的事件抽取方法的流程示意图,本实施例可适用于事件抽取的场景。该方法可以由事件抽取装置来执行,该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有数据运算能力的计算机等电子设备中,具体包括如下步骤:
步骤101、获取待处理文本,并对待处理文本进行句子级切割,得到多个句子文本。
本步骤中,获取待处理文本可以基于新闻数据来获取,新闻数据中包括有多个新闻文本,各个新闻文本所涉及的行业、领域均不相同,而不同的行业、领域所关注的事件是不同的,在具体应用时,仅关注行业、领域的事件即可。
因此,为了提高某个行业、领域相关的事件提取的效率,在获取待处理文本的过程中,可以基于行业、领域来对新闻数据中的众多新闻文本进行筛选,具体可以参阅图2,图2为本申请的实施例一提供的获取待处理文本的流程示意图。
如图2所示,本实施例提供的获取待处理文本的过程可以包括:
步骤201、获取新闻数据,新闻数据中包括多个新闻文本。
本步骤中,新闻文本会分布在多个平台中,因此,本步骤可以通过各平台提供的数据接口,来向各个平台请求新闻文本,由平台根据接收到的请求来反馈新闻数据。
一般,可以请求某个期望的时间段发布的所有新闻文本,为了提高新闻文本的实时性,可以进行周期性获取,比如每隔一小时,获取生成并发送一次新闻文本的获取请求,该获取请求中可以包含有该期望的时间段,以便于平台反馈在该时间段内发布的所有新闻文本。
具体的,获取请求的生成可以由定时器来触发,以每小时触发一次为例,满足触发条件(定时器定时满一小时)时,获取当前的时刻,并计算出当前时刻的前1小时对应的时刻,由这两个时刻确定出期望的时间段,并将该时间段封装到获取请求中,封装完成后,将获取请求通过各平台的数据接口发送给各个平台,并接收各平台反馈的新闻数据。
另外,为了提高后续对新闻文本的处理效率,本步骤在获取到新闻文本后,可以对其进行基础的过滤,主要是过滤掉重复文本、无效文本以及一些标签化数据。
具体的,获取到的新闻数据可以实时向HBase表中同步,而HBase表中的数据会实时往kafka同步,形成数据流,然后再通过Spark流式处理方式,对新闻数据进行基础的过滤。一般,该基础的过滤可以利用传统的机器学习模型进行识别和过滤。
去重可以有相关的去重模块来实现,计算出新闻文本的Hash值和标题信息熵,发送给去重模块进行相关处理即可,具体可以参考相关的去重方案,此处不再赘述。
步骤202、对各新闻文本进行主题分类,得到每个新闻文本各自对应的文本主题。
本步骤中,可以设立多级主题,以细化对新闻文本的分类,比如,设立一级主题和一级主题向下的二级主题,具体的,一级主题可以包括企业、宏观、行业、区域等,而二级主题标签可以仅为行业、区域这两个一级主题设立。
具体的,主题分类可以由预先训练完成的算法模型来实现,比如,可以选用TextCNN+这类模型,利用词向量来提高算法模型的处理速度。需要说明的是,本步骤可以将新闻文本先按照词向量词典转化为词向量,然后将转化得到的词向量输入到算法模型中,得到新闻文本的主题类型。
另外,对于算法模型的训练,可以采用训练集、测试集和验证集的方式进行,三者的样本数量比例可以遵循7:3:1。当然,具体的训练过程可以参考相关的模型训练的技术,此处不再赘述。
步骤203、获取事件抽取所需的目标主题类型,筛选出目标主题类型对应的目标新闻文本,并将每个目标新闻文本确定为一个待处理文本。
由于每个行业所关心的主题是不同的,因此,本步骤可以先获取当前事件抽取过程所需的目标主题类型。前述步骤中,已经对每个新闻文本的主题类型做出了识别,那么本步骤中,直接筛选出主题类型为该目标主题类型的新闻文本即可,筛选出的新闻文本即本步骤中的目标新闻文本,每个目标新闻文本即是一个待处理文本。
经过该筛选过程,剔除了不需要的主题类型的新闻文本,能够有效地减少后续需要进行事件提取的新闻文本的数量,避免了对不关注的主题类型的新闻文本进行的事件提取,从而在一定程度上提高了每个事件提取周期中事件提取的效率。由于每获取一次新闻数据,就会对基于新闻数据得到的待处理文本进行事件提取,因此,事件提取周期即新闻数据获取的周期。
另外,步骤101中,对于待处理文本的切割,可以是句子级的,在具体对待处理文本进行句子级切割时,可以根据待处理文本中的各类符号来进行切割,可以利用文本分句算法来实现,具体可以参考与文本分句算法相关的技术,此处不再赘述。
步骤102、对于得到多个句子文本中的任一目标句子文本,基于目标句子文本在待处理文本中的前后文,生成标签识别文本。
本步骤中,为了提高后续过程中的准确性,可以基于目标句子文本在待处理文本中的前后文,生成标签识别文本。需要说明的是,在对新闻文本进行句子级切割之后,得到的各个句子文本都会有在新闻文本中的文本位置,那么各个句子文本之间,就有了先后的顺序。
对于某个句子文本而言,该句子文本之前的句子文本和之后的句子文本均与其具有一定的相关性,若将该句子文本之前的句子文本和之后的句子文本作为一个整体来参与后续的过程,能够有效提高后续过程的准确性。
具体的,对于得到多个句子文本中的任一目标句子文本,获取目标句子文本在待处理文本中所在位置的前N个句子文本和后M个句子文本,其中N为第一预设正整数,M为第二预设正整数;将前N个句子文本和后M个句子文本确定为目标句子文本在待处理文本中的前后文;将前后文和目标句子文本进行组合,得到标签识别文本。
在一个具体的例子中,第一预设正整数为1,第二预设正整数为2,分割新闻文本得到的各句子文本,按照在新闻文本中的文本位置排列为“句子1、句子2、句子3、句子4、句子5”。
以“句子3”为目标句子文本例,获取目标句子文本在待处理文本中所在位置的前N个句子文本和后M个句子文本,即为获取“句子3”的前1个句子文本和后2个句子文本,前1个句子文本为“句子2”,后两个句子文本为“句子4、句子5”,那么“句子2、句子4、句子5”即为本步骤提到的目标句子文本在待处理文本中的前后文。
最后进行组合后,得到的标签识别文本即为“句子2、句子3、句子4、句子5”。
步骤103、将标签识别文本输入到预先训练的文本分类算法中,获取文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为目标句子文本的目标事件标签。
需要说明的是,对于预先训练的文本分类算法,训练的过程可以是先以各事件标签下的标签识别文本样本,对文本分类算法进行训练,得到训练好的初始文本分类算法;利用蒸馏模型对初始文本分类算法进行简化压缩,得到最终的文本分类算法。
具体的,文本分类算法可以使用bert模型来实现,对于bert模型的训练,可以参考相关的技术,此处不再赘述。另外,为了简化初始文本分类算法,可以利用蒸馏模型来减少初始文本分类算法中的模型参数,一方面能减少最终的文本分类算法所占的内存,另一方面还可以有效提升算法的执行效率。
另外,事件标签指的是用于对事件的类型进行区分的标签,不同的事件标签可以对应不同的元素架构,元素架构由至少一个事件元素种类构成,比如,事件标签1对应的元素架构为元素类型1、元素类型2,而事件标签2对应的元素架构为元素类型2、元素类型3、元素类型4。对于该元素架构的应用,详见后续步骤。
步骤104、基于目标事件标签对应的元素架构,从目标句子文本中抽取事件元素,以实现对目标句子文本的事件抽取。
本步骤可以基于元素抽取算法来实现,具体的,可以将目标事件标签和目标句子文本输入到预先训练的元素抽取算法中;利用元素抽取算法,确定目标事件标签对应的元素架构,元素架构包括至少一个目标事件元素类型;利用元素抽取算法,从目标句子文本中抽取各目标事件元素类型对应的事件元素。
需要说明的是,本步骤中的元素抽取算法可以为Bert联合预训练模型,该模型能够实现对不同事件标签进行事件元素的抽取。具体的,Bert联合预训练模型中可以添加事件标签隐藏层,在训练过程中,利用该事件标签隐藏层对事件标签进行mask,然后以不同事件标签下对应的不同事件元素的结构为标注,对该模型进行训练,以使该模型能够根据输入的事件标签选择相应的元素架构下的元素类型进行预测,最终输出该元素架构下的元素类型相对应的事件元素。
另外,由于新闻文本中通常会出现一些实体的指代,比如“该”、“本企业”、“当前时期”等,而前述抽取出的事件元素,若涉及到这些实体,其内容也会是这些指代信息,无法直接得到指代相应的具体实体。
因此,在获取待处理文本之后,且在对待处理文本进行句子级切割,得到多个句子文本之前,可以先识别待处理文本中出现的实体名称,然后在抽取到事件元素后,将数据元素和实体名称输入到预先训练的主题相关度模型和指代模型,对包含实体的事件元素进行修正。
需要说明的是,主题相关度模型主要是面向句子文本中包含多个实体名称时,无法确定该元素架构下相应元素类型涉及的实体到底是哪个实体的问题,而指代模型主要是面向前述提到的指代问题。
另外,主题相关度模型和指代模型具体的工作过程以及训练过程可以参考相关的技术,此处不再赘述。
经过前述过程得到的事件元素中,其所提取的内容还有可能是某些简称,因此,本实施例可以设立知识库,然后利用预设的知识库对抽取的事件元素进行标准化映射。比如对于元素类型为企业名称的事件元素,可以从企业名称相应的知识库中,确定该事件元素的内容对应的企业名称的全称。
具体的,知识库中可以存储着全称与相应的各种简称的映射关系,进行标准化映射时,从知识库中查找到事件元素中的简称对应的全称,并将事件元素中的简称替换为查找到的全称即可。
本实施例中,在获取到待处理文本后,对待处理文本进行句子级切割,得到多个句子文本,然后生成每个句子文本各自对应的标签识别文本,先通过文本分类算法对标签识别文本进行标签分类,从而得到句子文本的事件标签,得到事件标签后,基于该事件标签对应的元素架构,有针对性地从句子文本中提取事件元素。基于此,对于各类事件标签,都会有预先定义的元素架构,从而在识别到句子文本的事件标签之后,能够根据该事件标签对应的元素架构,从句子文本中有针对性的提取事件元素,相对于现有技术中提取事件元素时不参考事件标签对应的元素架构的方案,有针对性的提取事件元素,能够避免句子文本中多余信息对事件提取的干扰,干扰减少必然能够提高事件提取的准确率,同时,减少了对句子文本中多余信息的处理,处理过程精简后,事件提取的效率也得到了提升。
实施例二
图3为本申请实施例二提供的一种事件抽取装置的结构示意图。本申请实施例所提供的事件抽取装置可执行本申请任意实施例所提供的事件抽取方法,具备执行方法相应的功能模块和有益效果。该装置可采用软件和/或硬件的方式实现,如图3所示,事件抽取装置具体包括:分割模块301、文本生成模块302、标签分类模块303、元素抽取模块304。
其中,分割模块,用于获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
文本生成模块,用于对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
标签分类模块,用于将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
元素抽取模块,用于基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
本实施例中,在获取到待处理文本后,对待处理文本进行句子级切割,得到多个句子文本,然后生成每个句子文本各自对应的标签识别文本,先通过文本分类算法对标签识别文本进行标签分类,从而得到句子文本的事件标签,得到事件标签后,基于该事件标签对应的元素架构,有针对性地从句子文本中提取事件元素。基于此,对于各类事件标签,都会有预先定义的元素架构,从而在识别到句子文本的事件标签之后,能够根据该事件标签对应的元素架构,从句子文本中有针对性的提取事件元素,相对于现有技术中提取事件元素时不参考事件标签对应的元素架构的方案,有针对性的提取事件元素,能够避免句子文本中多余信息对事件提取的干扰,干扰减少必然能够提高事件提取的准确率,同时,减少了对句子文本中多余信息的处理,处理过程精简后,事件提取的效率也得到了提升。
进一步的,分割模块包括:
新闻数据获取单元,用于获取新闻数据,所述新闻数据中包括多个新闻文本;
主题分类单元,用于对各所述新闻文本进行主题分类,得到每个所述新闻文本各自对应的文本主题;
筛选单元,用于获取事件抽取所需的目标主题类型,筛选出所述目标主题类型对应的目标新闻文本,并将每个所述目标新闻文本确定为一个待处理文本。
进一步的,文本生成模块包括:
前后句子文本获取单元,用于对于得到多个句子文本中的任一目标句子文本,获取所述目标句子文本在所述待处理文本中所在位置的前N个句子文本和后M个句子文本,其中N为第一预设正整数,M为第二预设正整数;
前后文确定单元,用于将所述前N个句子文本和后M个句子文本确定为所述目标句子文本在所述待处理文本中的前后文;
组合单元,用于将所述前后文和所述目标句子文本进行组合,得到标签识别文本。
进一步的,装置还包括:
初始训练模块,用于以各事件标签下的标签识别文本样本,对文本分类算法进行训练,得到训练好的初始文本分类算法;
模型简化模块,用于利用蒸馏模型对初始文本分类算法进行简化压缩,得到最终的文本分类算法。
进一步的,元素抽取模块,包括:
输入单元,用于将所述目标事件标签和所述目标句子文本输入到预先训练的元素抽取算法中;
元素架构确定单元,用于利用所述元素抽取算法,确定所述目标事件标签对应的元素架构,所述元素架构包括至少一个目标事件元素类型;
抽取单元,用于利用所述元素抽取算法,从所述目标句子文本中抽取各所述目标事件元素类型对应的事件元素。
进一步的,装置还包括:
实体识别模块,用于识别所述待处理文本中出现的实体名称;
元素抽取模块还包括:
修正单元,用于在抽取到事件元素后,将所述数据元素和所述实体名称输入到预先训练的主题相关度模型和指代模型,对包含实体的所述事件元素进行修正。
进一步的,装置还包括:
映射模块,用于利用预设的知识库对抽取的事件元素进行标准化映射。
实施例三
图4为本申请实施例三提供的一种电子设备的结构示意图,如图4所示,该电子设备包括处理器410、存储器420、输入装置430和输出装置440;电子设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的事件抽取方法对应的程序指令/模块(例如,事件抽取装置中的分割模块301、文本生成模块302、标签分类模块303、元素抽取模块304)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的事件抽取方法:
获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
进一步的,所述获取待处理文本,包括:
获取新闻数据,所述新闻数据中包括多个新闻文本;
对各所述新闻文本进行主题分类,得到每个所述新闻文本各自对应的文本主题;
获取事件抽取所需的目标主题类型,筛选出所述目标主题类型对应的目标新闻文本,并将每个所述目标新闻文本确定为一个待处理文本。
进一步的,所述对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本,包括:
对于得到多个句子文本中的任一目标句子文本,获取所述目标句子文本在所述待处理文本中所在位置的前N个句子文本和后M个句子文本,其中N为第一预设正整数,M为第二预设正整数;
将所述前N个句子文本和后M个句子文本确定为所述目标句子文本在所述待处理文本中的前后文;
将所述前后文和所述目标句子文本进行组合,得到标签识别文本。
进一步的,所述方法还包括:
以各事件标签下的标签识别文本样本,对文本分类算法进行训练,得到训练好的初始文本分类算法;
利用蒸馏模型对初始文本分类算法进行简化压缩,得到最终的文本分类算法。
进一步的,所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,包括:
将所述目标事件标签和所述目标句子文本输入到预先训练的元素抽取算法中;
利用所述元素抽取算法,确定所述目标事件标签对应的元素架构,所述元素架构包括至少一个目标事件元素类型;
利用所述元素抽取算法,从所述目标句子文本中抽取各所述目标事件元素类型对应的事件元素。
进一步的,在所述获取待处理文本之后,且在所述对所述待处理文本进行句子级切割,得到多个句子文本之前,所述方法还包括:
识别所述待处理文本中出现的实体名称;
所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,还包括:
在抽取到事件元素后,将所述数据元素和所述实体名称输入到预先训练的主题相关度模型和指代模型,对包含实体的所述事件元素进行修正。
进一步的,所述方法还包括:
利用预设的知识库对抽取的事件元素进行标准化映射。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本申请实施例四还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种事件抽取方法,该方法包括:
获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
进一步的,所述获取待处理文本,包括:
获取新闻数据,所述新闻数据中包括多个新闻文本;
对各所述新闻文本进行主题分类,得到每个所述新闻文本各自对应的文本主题;
获取事件抽取所需的目标主题类型,筛选出所述目标主题类型对应的目标新闻文本,并将每个所述目标新闻文本确定为一个待处理文本。
进一步的,所述对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本,包括:
对于得到多个句子文本中的任一目标句子文本,获取所述目标句子文本在所述待处理文本中所在位置的前N个句子文本和后M个句子文本,其中N为第一预设正整数,M为第二预设正整数;
将所述前N个句子文本和后M个句子文本确定为所述目标句子文本在所述待处理文本中的前后文;
将所述前后文和所述目标句子文本进行组合,得到标签识别文本。
进一步的,所述方法还包括:
以各事件标签下的标签识别文本样本,对文本分类算法进行训练,得到训练好的初始文本分类算法;
利用蒸馏模型对初始文本分类算法进行简化压缩,得到最终的文本分类算法。
进一步的,所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,包括:
将所述目标事件标签和所述目标句子文本输入到预先训练的元素抽取算法中;
利用所述元素抽取算法,确定所述目标事件标签对应的元素架构,所述元素架构包括至少一个目标事件元素类型;
利用所述元素抽取算法,从所述目标句子文本中抽取各所述目标事件元素类型对应的事件元素。
进一步的,在所述获取待处理文本之后,且在所述对所述待处理文本进行句子级切割,得到多个句子文本之前,所述方法还包括:
识别所述待处理文本中出现的实体名称;
所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,还包括:
在抽取到事件元素后,将所述数据元素和所述实体名称输入到预先训练的主题相关度模型和指代模型,对包含实体的所述事件元素进行修正。
进一步的,所述方法还包括:
利用预设的知识库对抽取的事件元素进行标准化映射。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的事件抽取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (10)
1.一种事件抽取方法,其特征在于,所述方法包括:
获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本,包括:
获取新闻数据,所述新闻数据中包括多个新闻文本;
对各所述新闻文本进行主题分类,得到每个所述新闻文本各自对应的文本主题;
获取事件抽取所需的目标主题类型,筛选出所述目标主题类型对应的目标新闻文本,并将每个所述目标新闻文本确定为一个待处理文本。
3.根据权利要求1所述的方法,其特征在于,所述对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本,包括:
对于得到多个句子文本中的任一目标句子文本,获取所述目标句子文本在所述待处理文本中所在位置的前N个句子文本和后M个句子文本,其中N为第一预设正整数,M为第二预设正整数;
将所述前N个句子文本和后M个句子文本确定为所述目标句子文本在所述待处理文本中的前后文;
将所述前后文和所述目标句子文本进行组合,得到标签识别文本。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
以各事件标签下的标签识别文本样本,对文本分类算法进行训练,得到训练好的初始文本分类算法;
利用蒸馏模型对初始文本分类算法进行简化压缩,得到最终的文本分类算法。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,包括:
将所述目标事件标签和所述目标句子文本输入到预先训练的元素抽取算法中;
利用所述元素抽取算法,确定所述目标事件标签对应的元素架构,所述元素架构包括至少一个目标事件元素类型;
利用所述元素抽取算法,从所述目标句子文本中抽取各所述目标事件元素类型对应的事件元素。
6.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本之后,且在所述对所述待处理文本进行句子级切割,得到多个句子文本之前,所述方法还包括:
识别所述待处理文本中出现的实体名称;
所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,还包括:
在抽取到事件元素后,将所述数据元素和所述实体名称输入到预先训练的主题相关度模型和指代模型,对包含实体的所述事件元素进行修正。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预设的知识库对抽取的事件元素进行标准化映射。
8.一种事件抽取装置,其特征在于,所述装置包括:
分割模块,用于获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;
文本生成模块,用于对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;
标签分类模块,用于将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;
元素抽取模块,用于基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的事件抽取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210216460.2A CN114676271A (zh) | 2022-03-07 | 2022-03-07 | 事件抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210216460.2A CN114676271A (zh) | 2022-03-07 | 2022-03-07 | 事件抽取方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676271A true CN114676271A (zh) | 2022-06-28 |
Family
ID=82073110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210216460.2A Pending CN114676271A (zh) | 2022-03-07 | 2022-03-07 | 事件抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676271A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
US20210200947A1 (en) * | 2020-03-20 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Event argument extraction method and apparatus and electronic device |
CN113220768A (zh) * | 2021-06-04 | 2021-08-06 | 杭州投知信息技术有限公司 | 基于深度学习的简历信息结构化方法及系统 |
CN113761875A (zh) * | 2021-07-21 | 2021-12-07 | 中国科学院自动化研究所 | 事件抽取方法、装置、电子设备及存储介质 |
JP2022031804A (ja) * | 2020-11-26 | 2022-02-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | イベント抽出方法、装置、電子機器及び記憶媒体 |
-
2022
- 2022-03-07 CN CN202210216460.2A patent/CN114676271A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
US20210200947A1 (en) * | 2020-03-20 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Event argument extraction method and apparatus and electronic device |
JP2022031804A (ja) * | 2020-11-26 | 2022-02-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | イベント抽出方法、装置、電子機器及び記憶媒体 |
CN113220768A (zh) * | 2021-06-04 | 2021-08-06 | 杭州投知信息技术有限公司 | 基于深度学习的简历信息结构化方法及系统 |
CN113761875A (zh) * | 2021-07-21 | 2021-12-07 | 中国科学院自动化研究所 | 事件抽取方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
周枫;庙介璞;潘清清;严馨;余正涛;: "基于最大熵的越南语新闻事件元素抽取方法", 数据采集与处理, no. 04, 15 July 2017 (2017-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
US20170337260A1 (en) | Method and device for storing data | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN111176996A (zh) | 测试用例生成方法、装置、计算机设备及存储介质 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN114579693B (zh) | 一种nlp文本安全审核多级检索系统 | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN112612761B (zh) | 一种数据清洗方法、装置、设备及存储介质 | |
CN105956181A (zh) | 搜索方法及装置 | |
CN115081440A (zh) | 文本中变种词的识别及提取原敏感词的方法、装置及设备 | |
CN115098706A (zh) | 一种网络信息提取方法及装置 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN113568969B (zh) | 信息抽取方法、装置、设备以及计算机可读存储介质 | |
CN114676271A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115357720A (zh) | 基于bert的多任务新闻分类方法及装置 | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN114328837A (zh) | 序列标注方法、装置、计算机设备、存储介质 | |
CN112308453A (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 | |
CN111538898A (zh) | 基于组合特征提取的Web服务包推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |