CN112507059B - 金融领域舆情监控中的事件抽取方法、装置和计算机设备 - Google Patents

金融领域舆情监控中的事件抽取方法、装置和计算机设备 Download PDF

Info

Publication number
CN112507059B
CN112507059B CN202011414476.1A CN202011414476A CN112507059B CN 112507059 B CN112507059 B CN 112507059B CN 202011414476 A CN202011414476 A CN 202011414476A CN 112507059 B CN112507059 B CN 112507059B
Authority
CN
China
Prior art keywords
event
event extraction
extraction model
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011414476.1A
Other languages
English (en)
Other versions
CN112507059A (zh
Inventor
宗天元
李煜
丑晓慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Deepq Information Technology Co ltd
Ningbo Deepq Information Technology Co ltd
Original Assignee
Shanghai Deepq Information Technology Co ltd
Ningbo Deepq Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Deepq Information Technology Co ltd, Ningbo Deepq Information Technology Co ltd filed Critical Shanghai Deepq Information Technology Co ltd
Priority to CN202011414476.1A priority Critical patent/CN112507059B/zh
Publication of CN112507059A publication Critical patent/CN112507059A/zh
Application granted granted Critical
Publication of CN112507059B publication Critical patent/CN112507059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种金融领域舆情监控中的事件抽取方法、装置和计算机设备。所述方法包括:从金融新闻文本中获取样本数据,对样本数据进行预处理,得到样本集;获取预先设置的多个不同的事件抽取模型,根据样本集通过K折交叉验证的方式对事件抽取模型进行训练,得到每个事件抽取模型的K个事件抽取子模型;将待抽取文本进行预处理后输入每个事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;采用投票方式对每个事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。采用本方法能够减小累计误差。

Description

金融领域舆情监控中的事件抽取方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种金融领域舆情监控中的事件抽取方法、装置和计算机设备。
背景技术
“事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析、资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。因为文本的复杂和任务的复杂,金融领域事件抽取任务仍然存在许多挑战。事件抽取任务主要有两种模型,即管道(Pipeline)模型、联合(Joint)模型。前者先抽取事件,然后识别事件主体,或后确定事件。后者同时抽取事件和主体。
管道模型的优势是将任务分为抽取事件和抽取主体两个任务,两个任务独立建模,实现较容易,模型可以独立训练,灵活性较高,且在预测时,完成第一个任务的预测后会过滤掉一些数据,减少第二个任务需要预测的数据量。但是,其忽略了两个任务之间的内在联系和依赖关系,且可能存在误差累积问题。联合模型可以充分利用两个任务之间的潜在信息,能够缓解管道模型误差累积的缺点,但其推断时仍然存在误差积累问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决事件抽取时的误差累积的方法、装置、计算机设备和存储介质。
一种金融领域舆情监控中的事件抽取方法,所述方法包括:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
在其中一个实施例中,还包括:从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
在其中一个实施例中,还包括:获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。
在其中一个实施例中,还包括:分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
一种金融领域舆情监控中的事件抽取装置,所述装置包括:
数据预处理模块,用于从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
K折训练模块,用于获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
预测模块,用于将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
投票模块,用于采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
在其中一个实施例中,所述数据预处理模块还用于从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
在其中一个实施例中,所述K折训练模块还用于获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。
在其中一个实施例中,所述投票模块还用于分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
上述金融领域舆情监控中的事件抽取方法、装置、计算机设备和存储介质,通过对数据进行预处理,然后通过预先构建的多个事件抽取模型,采用K折交叉验证的方式训练得到每个事件抽取模型的K个事件抽取子模型,在融合阶段,通过投票的方式确定真实三元组。本发明实施例,通过构建多个事件抽取模型,可以降低误差累计的问题,另外,采用K折交叉验证的方式,可以进一步降低误差累计的问题,最终采用投票的融合方式,可以提高事件抽取的准确性。
附图说明
图1为一个实施例中金融领域舆情监控中的事件抽取方法的流程示意图;
图2为一个实施例中样本数据的示意图;
图3为一个实施例中第一事件抽取模型的示意性结构图;
图4为一个实施例中第一事件抽取模型的输入数据格式图;
图5为一个实施例中第二事件抽取模型的输入数据格式图;
图6为一个实施例中第二事件抽取模型的示意性结构图;
图7为一个实施例中数据融合示意性结构图
图8为一个实施例中金融领域舆情监控中的事件抽取装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种金融领域舆情监控中的事件抽取方法,包括以下步骤:
步骤102,从金融新闻文本中获取样本数据,对样本数据进行预处理,得到样本集。
样本集中每条样本包括:文本ID、事件和实体。
可以通过爬虫、下载公开数据集、购买数据等方式获得金融新闻文本。
预处理可以是对数据进行清洗、归纳、去停顿等操作。样本集中包括大量样本,样本集用于后续模型训练工作。
步骤104,获取预先设置的多个不同的事件抽取模型,根据样本集通过K折交叉验证的方式对事件抽取模型进行训练,得到每个事件抽取模型的K个事件抽取子模型。
事件抽取模型可以是由多个模型组合而成,例如ZEN+BiLSTM+CRF组合成事件抽取模型,从而满足事件抽取的工作任务需求,在此不限制具体的事件抽取模型的类型,也不限制选择模型组合的数量。
K折交叉验证,指的是初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。具体的,本实施例中,K折交叉验证可以产生K个事件抽取子模型。
步骤106,将待抽取文本进行预处理后输入每个事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组。
步骤108,采用投票方式对每个事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
上述金融领域舆情监控中的事件抽取方法中,通过对数据进行预处理,然后通过预先构建的多个事件抽取模型,采用K折交叉验证的方式训练得到每个事件抽取模型的K个事件抽取子模型,在融合阶段,通过投票的方式确定真实三元组。本发明实施例,通过构建多个事件抽取模型,可以降低误差累计的问题,另外,采用K折交叉验证的方式,可以进一步降低误差累计的问题,最终采用投票的融合方式,可以提高事件抽取的准确性。
在其中一个实施例中,从金融新闻文本中获取样本数据;样本数据包括:文本ID、文本内容、事件类型和事件主体;对样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据样本,得到样本集。
具体的,样本数据如图2所示,其中字段0表示文本ID,字段1表示文本内容,字段2表示事件类型,字段3表示事件主体。其中,文本id为该样本数据的唯一标识;文本内容为获得的金融新闻文本,事件类型、事件主体为关注的事件类型以及该类型事件涉及的事件主体,由人工标注。
在进行预处理时,主要涉及三个方面,具体如下:
一、归集多事件主体数据。由于一段文本中可能含有多个事件、多个事件主体,而样本集将一段文本中的多个事件和主体用多条数据进行表示,即一行数据是一条文本、一个事件、一个主体,这样直接进行训练可能会影响模型的训练效果,本文将一条文本下所有事件和事件主体都进行了归集。
二、去除冗余信息。原始文本中的一些标点符号、网页标签等符号占用了较大的句子长度,增加了模型的训练难度,因此,对于此类符号本文选择直接去掉。另外,数据中存在由多个英文单词组成的事件主体,其单词之间以空格分隔,因此本文对于原始文本中的空格选择用一个特殊符号代替,预测出结果后再将其替换回空格。
三、将数据处理成模型训练需要的格式。
在其中一个实施例中,获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。
本实施例中,采用了四个事件抽取模型。
具体的,第一事件抽取模型如图3所示,采用如图4所示的标注方式,其中,“B-业绩下滑”、“I-业绩下滑”表示实体的位置,“业绩下滑”表示该实体的事件类型,n类事件类型用0~n-1的数字表示,“O”表示这个字不是实体,n类事件总共2*n+1个标签。
基于序列标注的第一事件抽取模型使用的预训练模型是中文RoBERTa-wwm-ext,其相较于BERT模型有两大改进,第一是基于RoBERTa预训练模型,第二是基于全词遮罩(Whole Word Masking)的中文训练方式。将原始文本构造成词嵌入、段嵌入和位置嵌入后输入RoBERTa-wwm-ext提取文本特征,序列中的每个字被编码成了预设维度的向量输出,接着利用BiLSTM层将字向量序列进行双向编码,最后利用CRF推理层输出概率最大的标签序列,作为模型最终的预测标签。预设维度可以设置为768。
第二事件抽取模型使用了ZEN预训练模型,其在BERT模型的基础上,引入N-gram编码方式,方便模型识别出可能的字的组合。虽然引入N-gram,但encoder的输出还是按照BERT那样逐字输出,不会影响下游任务。本模型使用的标注方式与图3所示的标注方式相同。第二事件抽取模型结构与第一事件抽取模型相比,只是将预训练模型替换为了ZEN,其他结构相同。
第三事件抽取模型中由于数据中存在一个实体对应多个事件类型的情况,在第一事件抽取模型和第二事件抽取模型中,每一个实体只能属于一种事件,因此第三事件抽取模型构建了多层指针网络,每一个层都对应一个事件类型。
通过数据预处理,将原始数据构造成如图5所示格式的数据。数据中给出了文本(context)和事件类型(type),任务是预测事件主体文本的起始和结束位置(entity)。
多层指针网络模型如图6所示,将文本构建好输入序列后,输入到中文RoBERTa-wwm-ext预训练模型中,序列中的每个字被编码成了预设维度的向量输出,通过2个全连接层及Sigmoid激活函数,将每个字向量分别转换为多个事件的开始位置和结束位置的概率。具体事件可以是29个。
第四事件抽取模型使用先抽取事件后抽取事件主体的管道模型解决该任务。因为事件是离散的类别,且一个文本可能对应多个事件,所以采用多标签分类(Multi-labelClassification)模型解决事件抽取问题。获取事件后,对于一段文本,将其包含的事件作为问题,使用机器阅读理解(Machine Reading Comprehension,MRC)模型可以依据某个事件找到对应的答案,即该事件对应的主体。
另外,还可以采用RoBERTa-wwm-ext+多标签分类以及RoBERTa-wwm-ext+MRC的方式,在此不再赘述。
在其中一个实施例中,分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
具体的,不同模型的在本发明中有不同的优势,第一事件抽取模型和第二事件抽取模型因为有CRF的约束,可以学习到状态序列之间的关系,对于实体的预测较准确,但是其不能解决多标签问题,即一条文本中的一个实体只能对应一个事件;第三事件抽取模型通过多层指针网络可以解决一个文本对应多个事件的问题,但由于没有CRF对序列的约束,其事件主体识别的结果往往出现实体残缺的情况;第四事件抽取模型将任务分成了两个阶段,存在误差累积问题。因此为了提高模型泛化能力,得到更好的预测结果,如图7所示,本发明先用K折交叉验证的方式训练某个模型,将1折模型的预测结构组成(id,事件,实体)三元组的形式,然后对K折模型的所有结果进行硬投票,票数超过一定阈值的(id,事件,实体)三元组作为预测结果。4种模型均采用该方式得到4个融合后的预测结果。最后将4种模型交叉验证的融合结果再进行一次硬投票,取票数超过一定阈值的结果作为最终的预测结果。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种金融领域舆情监控中的事件抽取装置,包括:数据预处理模块802、K折训练模块804、预测模块806和投票模块808,其中:
数据预处理模块802,用于从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
K折训练模块804,用于获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
预测模块806,用于将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
投票模块808,用于采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
在其中一个实施例中,数据预处理模块802还用于从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
在其中一个实施例中,K折训练模块804还用于获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。
在其中一个实施例中,投票模块808还用于分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
关于金融领域舆情监控中的事件抽取装置的具体限定可以参见上文中对于金融领域舆情监控中的事件抽取方法的限定,在此不再赘述。上述金融领域舆情监控中的事件抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种金融领域舆情监控中的事件抽取方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种金融领域舆情监控中的事件抽取方法,其特征在于,所述方法包括:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
2.根据权利要求1所述的方法,其特征在于,所述从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集,包括:
从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;
对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;
对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
3.根据权利要求1所述的方法,其特征在于,所述获取预先设置的多个不同的事件抽取模型,包括:
获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;
获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;
获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;
获取管道模型作为第四事件抽取模型。
4.根据权利要求3所述的方法,其特征在于,所述采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组,包括:
分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;
对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
5.一种金融领域舆情监控中的事件抽取装置,其特征在于,所述装置包括:
数据预处理模块,用于从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
K折训练模块,用于获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
预测模块,用于将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
投票模块,用于采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
6.根据权利要求5所述的装置,其特征在于,所述数据预处理模块还用于从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
7.根据权利要求5所述的装置,其特征在于,所述K折训练模块还用于获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。
8.根据权利要求7所述的装置,其特征在于,所述投票模块还用于分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202011414476.1A 2020-12-07 2020-12-07 金融领域舆情监控中的事件抽取方法、装置和计算机设备 Active CN112507059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011414476.1A CN112507059B (zh) 2020-12-07 2020-12-07 金融领域舆情监控中的事件抽取方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011414476.1A CN112507059B (zh) 2020-12-07 2020-12-07 金融领域舆情监控中的事件抽取方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112507059A CN112507059A (zh) 2021-03-16
CN112507059B true CN112507059B (zh) 2022-05-24

Family

ID=74971882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011414476.1A Active CN112507059B (zh) 2020-12-07 2020-12-07 金融领域舆情监控中的事件抽取方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112507059B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312916B (zh) * 2021-05-28 2022-05-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN105389354A (zh) * 2015-11-02 2016-03-09 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法
CN109635108A (zh) * 2018-11-22 2019-04-16 华东师范大学 一种基于人机交互的远程监督实体关系抽取方法
CN111325020A (zh) * 2020-03-20 2020-06-23 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9544361B2 (en) * 2013-12-02 2017-01-10 Qbase, LLC Event detection through text analysis using dynamic self evolving/learning module

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN105389354A (zh) * 2015-11-02 2016-03-09 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法
CN109635108A (zh) * 2018-11-22 2019-04-16 华东师范大学 一种基于人机交互的远程监督实体关系抽取方法
CN111325020A (zh) * 2020-03-20 2020-06-23 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CRF和多元规则的层次化句法分析;杨陈菊等;《吉林大学学报(理学版)》;20201126;全文 *

Also Published As

Publication number Publication date
CN112507059A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112464641B (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN110298019B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112613308B (zh) 用户意图识别方法、装置、终端设备及存储介质
CN112016279B (zh) 电子病历结构化方法、装置、计算机设备和存储介质
CN111444349B (zh) 信息抽取方法、装置、计算机设备和存储介质
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN113688631A (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
CN111191028A (zh) 样本标注方法、装置、计算机设备和存储介质
CN111666931B (zh) 基于混合卷积文字图像识别方法、装置、设备及存储介质
CN111428513A (zh) 一种基于卷积神经网络的虚假评论分析方法
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN112507059B (zh) 金融领域舆情监控中的事件抽取方法、装置和计算机设备
CN115577678A (zh) 文档级事件因果关系识别方法、系统、介质、设备及终端
CN112580329B (zh) 文本噪声数据识别方法、装置、计算机设备和存储介质
CN115221332A (zh) 一种危化品事故事理图谱的构建方法与系统
Wang et al. Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN109657071B (zh) 词汇预测方法、装置、设备和计算机可读存储介质
CN116884636A (zh) 传染病数据分析方法、装置、计算机设备及存储介质
CN115309862A (zh) 基于图卷积网络和对比学习的因果关系识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant