CN113157949A - 事件信息的抽取方法、装置、计算机设备及存储介质 - Google Patents

事件信息的抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113157949A
CN113157949A CN202110460751.1A CN202110460751A CN113157949A CN 113157949 A CN113157949 A CN 113157949A CN 202110460751 A CN202110460751 A CN 202110460751A CN 113157949 A CN113157949 A CN 113157949A
Authority
CN
China
Prior art keywords
event
model
information
reading understanding
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110460751.1A
Other languages
English (en)
Inventor
马跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110460751.1A priority Critical patent/CN113157949A/zh
Publication of CN113157949A publication Critical patent/CN113157949A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,公开了一种事件信息的抽取方法,包括:获取目标事件对应的文本信息;将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。本申请还涉及区块链技术。本申请还公开了一种事件信息的抽取装置、计算机设备以及计算机可读存储介质。本申请提高了抽取文本信息中的特殊事件信息的准确率。

Description

事件信息的抽取方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种事件信息的抽取方法、事件信息的抽取装置、计算机设备以及计算机可读存储介质。
背景技术
事件信息抽取是常见的一种自然语言处理任务,其目的是根据预定义的事件元素,对输入的文本进行检测,抽取相关的内容。在现有的事件信息抽取方法中,一般是使用序列标注的方法来训练事件抽取模块,但此类方法需要依赖于大量的标注数据,因此对本身事件样本数较少的特殊事件,难以采用该方法训练得到识别率高的事件抽取模型。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种事件信息的抽取方法、事件信息的抽取装置、计算机设备以及计算机可读存储介质,旨在解决如何得到识别率高的可用于进行特殊事件抽取的事件抽取模型,以提高抽取文本信息中的特殊事件信息的准确率的问题。
为实现上述目的,本申请提供一种事件信息的抽取方法,包括以下步骤:
获取目标事件对应的文本信息;
将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;所述序列标注模型预先基于多个通用事件样本,以及所述通用事件样本对应的通用事件元素训练得到;所述通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;以及,
将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;所述特殊事件元素为除所述通用事件元素外的事件元素;所述阅读理解模型预先基于阅读理解数据集构建;
根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。
进一步地,所述获取目标事件对应的文本信息的步骤之前,还包括:
利用所述阅读理解数据集构建所述阅读理解模型,并利用所述目标事件对应的特殊事件样本对所述阅读理解模型进行训练。
进一步地,所述利用所述阅读理解数据集构建所述阅读理解模型,并利用所述目标事件对应的特殊事件样本对所述阅读理解模型进行训练的步骤包括:
利用所述阅读理解数据集分别构建各个类型的所述目标事件对应的阅读理解模型;
根据各个类型的所述目标事件对应的特殊事件样本,对各个类型的所述目标事件对应的阅读理解模型进行训练;
其中,所述将所述文本信息输入到阅读理解模型中进行分析的步骤包括:
根据所述文本信息对应的目标事件的类型,确定所述类型对应的所述阅读理解模型;
将所述文本信息输入到确定得到的所述阅读理解模型中进行分析。
进一步地,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
根据所述特殊事件元素和所述文本信息,生成新的所述特殊事件样本;
利用新的所述特殊事件样本,更新所述目标事件对应的所述阅读理解模型。
进一步地,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
根据所述文本信息对应的数据处理任务,确定所述事件信息对应的应用场景,其中,所述应用场景包括关键内容分析、合同文档解析校对和用户画像;
根据确定得到的所述应用场景对应的数据处理方式,对所述事件信息进行数据处理,得到所述数据处理任务对应的响应结果。
进一步地,所述根据所述应用场景对应的数据处理方式,对所述事件信息进行数据处理,得到所述数据处理任务对应的响应结果的步骤包括:
检测到所述应用场景为所述关键内容分析时,将所述事件信息输入到神经网络模型中进行语句转换处理,以将所述事件信息转换为语句信息,并将所述语句信息作为所述数据处理任务对应的响应结果;
其中,所述神经网络模型用于将所述事件信息中的所述通用事件元素和所述特殊事件元素组合为至少一个连贯的语句,并基于所有所述语句生成所述语句信息。
进一步地,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
将所述事件信息发送至存储服务端以块链式的账本进行存储。
为实现上述目的,本申请还提供一种事件信息的抽取装置,所述事件信息的抽取装置包括:
获取模块,用于获取目标事件对应的文本信息;
第一分析模块,用于将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;所述序列标注模型预先基于多个通用事件样本,以及所述通用事件样本对应的通用事件元素训练得到;所述通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;以及,
第二分析模块,用于将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;所述特殊事件元素为除所述通用事件元素外的事件元素;所述阅读理解模型预先基于阅读理解数据集构建;
处理模块,用于根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。
为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括:
所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述事件信息的抽取方法的步骤。
为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述事件信息的抽取方法的步骤。
本申请提供的事件信息的抽取方法、事件信息的抽取装置、计算机设备以及计算机可读存储介质,通过将序列标注模型和阅读理解模型结合至目标事件的抽取中,并利用序列标注模型抽取通用事件元素,以及利用阅读理解模型抽取特殊事件元素,再基于此生成特殊事件对应的目标事件信息,即可提高从文本信息中抽取特殊事件信息的准确率。
附图说明
图1为本申请一实施例中事件信息的抽取方法步骤示意图;
图2为本申请一实施例的事件信息的抽取装置示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,在一实施例中,所述事件信息的抽取方法包括:
步骤S10、获取目标事件对应的文本信息;
步骤S20、将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;所述序列标注模型预先基于多个通用事件样本,以及所述通用事件样本对应的通用事件元素训练得到;所述通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;以及,
步骤S30、将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;所述特殊事件元素为除所述通用事件元素外的事件元素;所述阅读理解模型预先基于阅读理解数据集构建;
步骤S40、根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。
本实施例中,实施例终端可以是计算机设备,也可以是一种事件信息的抽取装置。
如步骤S10所述:所述目标事件,可以是事件样本较多的常规事件(即训练样本数量多,如200以上);也可以是事件样本较少的特殊事件(即训练样本数量小,如200以下),或指的是难以采集到相应的事件样本的特殊事件(或称之为小样本事件)。
需要说明的是,无论是常规事件还是特殊事件,均可以采用本实施例的方法抽取其对应的文本信息中的事件信息;本实施例的方法的执行,不仅使得只有少量事件样本来训练事件抽取模型的特殊事件,可以被模型抽取得到相应文本信息中的事件信息,而且对于即便具有大量事件样本的常规事件,亦可以相应减少训练事件抽取模型所需的标注样本的成本(无需过多标注样本中的特殊事件元素,即可相应减少人工标注样本的成本)。以下以目标事件为特殊事件为例进行说明。
所述文本信息,指的是待进行事件抽取的文本信息,可以是一段话、一篇文章或文献、一则新闻或报道等。其中,事件抽取为自然语言处理任务的一种,或称关键信息抽取。
可选的,待进行事件抽取的文本信息,可以是由用户输入到终端中的特定的文本信息,终端直接获取用户输入的文本信息即可。
可选的,终端本地部署有爬虫脚本,通过爬虫脚本,终端可以从互联网上抓取特定领域内的文章、文献、新闻、报道等文本信息,作为待进行事件抽取的文本信息。
例如,当终端需要对金融领域内的文本信息作事件抽取处理,则可以通过爬虫脚本,抓取目标企业公示的资产信息、证监会公示的金融市场信息等,作为待进行事件抽取的文本信息。
如步骤S20所述:终端预先基于人工智能和机器学习技术,构建并训练有事件抽取模型,其中,事件抽取模型基于并行的序列标注模型和阅读理解模型构建。
可选的,所述序列标注模型基于BERT(Bidirectional Encoder Representationsfrom Transformers,双向注意力神经网络模型)模型和编码器构建,其中,所述编码器可以是CRF(Conditional Random Fields,条件随机场)编码器,也可以是Bi-LSTM(Bi-LongShort Term Memory,双向长短时记忆)等NLP(Natural Language Processing,自然语言处理)常用的编码器。
可选的,终端预先获取多个通用事件样本训练序列标注模型,其中,所述通用事件样本可以是基于多种多样的学术领域内的文本信息生成的,工程师可以是在多篇不同学术领域内的文本信息中标注出其中的通用事件元素,并将标注后的文本信息作为通用事件样本输入到序列标注模型中进行迭代训练。其中,所述通用事件样本的数量足够多,如一万份。
可选的,通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;其中,工程师在标注通用事件样本时,可以是将人物主语标注为sub-per,将公司、组织等主语标注为sub-org,将人物宾语标注为obj-per,将公司、组织等宾语标注为obj-org,将时间标注为date,将数量标注为number,将地点标注为location。进一步地,若事件元素标记为“0”,则表示其不属于通用事件元素中的任一种;若标注事件元素时前缀加上“B-”则表示某个元素的开始;若标注事件元素时前缀加上“I-”则表示某个元素的中间片段。
可选的,每一个通用事件样本中的文本信息,包括至少一个句子,而对于通用事件样本中的每个句子,则构造为“[CLS]句子[SEP]事件类型[SEP]”的格式。
可选的,当终端将通用事件样本输入到序列标注模型中进行训练时,首先会经BERT模型将通用事件样本中的文本信息切分为词向量(和/或字向量),并分析词向量对应的第一特征和样本中标注的通用事件元素对应的第二特征,再由序列标注模型中的编码器负责对第一特征进行分类(分类即为判别是否属于通用事件元素,并对属于通用事件元素的特征进一步分类,即判别其分属哪一类通用事件元素),然后模型会对分类后的第一特征与各类第二特征之间的逻辑关系进行抽象,并训练和建立同一类型的第一特征与第二特征之间的映射关系。如此经多个通用事件样本进行多次迭代训练,直到序列标注模型达到收敛,即可使得序列标注模型学习到如何抽取(或识别)文本信息中的通用事件元素的能力。
可选的,当序列标注模型和阅读理解模型均训练完成后,即可共同组成事件抽取模型。
可选的,当终端获取到待进行事件抽取的文本信息时,则将文本信息并行输入到事件抽取模型中的序列标注模型和阅读理解模型进行分析,以对文本信息进行事件抽取。
可选的,当其中的序列标注模型接收到终端输入的文本信息时,则将文本信息切分为词向量,并将词向量转换为相应的第一特征,再基于模型记忆中第一特征与第二特征之间的映射关系,识别出属于第二特征的第一特征,并将识别得到的第一特征对应的词向量作为通用事件元素,这样序列标注模型即可从文本信息中抽取得到通用事件元素。
当然,序列标注模型在抽取通用事件元素的过程中,还会对抽取得到的通用事件元素进行分类,并标记其所属的通用事件元素的类型。例如对于“A公司”的“sub-org类”的通用事件元素,则分类为主语元素。
应当理解的是,当文本信息中包括多个句子时,则序列标注模型可以是分别针对每一个句子作通用事件元素的抽取,并将抽取得到的通用事件元素与其所属的句子关联。
这样,利用已有的大数据量的通用事件样本进行序列标注模型的训练,使得序列标注模型学习到如何抽取(或识别)文本信息中的通用事件元素的能力。这里的“通用”有两个含义,一个是模式固定,例如时间的表达对于每个事件都是在固定的几类模式里面“xx年xx月xx日”,“昨天”,“xx日前”等;二是语言表达格式固定,主语、宾语的位置,时间、地点在表达中的顺序等,在语言表达中,都需要符合语言学约定的。
如步骤S30所述:终端预先基于BERT模型构建阅读理解模型的基础模型,然后从互联网上获取阅读理解数据集(如获取DuReader这一中文阅读理解数据集),或者获取工程师输入的阅读理解数据集,然后基于阅读理解数据集对阅读理解模型进行训练,得到一个通用的阅读理解模型。
其中,所述阅读理解模型的功能基于机器阅读理解(Machine ReadingComprehension)技术实现,而机器阅读理解为自然语言处理的核心任务之一,也是评价模型理解文本能力的一项重要任务,其本质可以看作是一种句子关系匹配任务,其具体的预测结果与具体任务有关。
可选的,在设定阅读理解模型的训练规则时,可以设定阅读理解模型忽略数据集中的通用事件元素,而重点关注特殊事件元素;所述特殊事件元素为除所述通用事件元素之外的事件元素,而特殊事件元素和通用事件元素同属事件抽取过程中,必须要抽取得到的事件元素。
例如,对于一条描述为“A公司于2019年11月20日将2000万股票进行质押,质押方为B公司。”的文本信息,其事件元素包括“出质方”为“A公司”(通用事件元素中的主语),“时间”为“2019年11月20日”,“质押物”为“股票”(特殊事件元素),“质押数量”为“2000万”(即通用事件元素中的时间),“质押方”为“B公司”(通用事件元素中的宾语)。
可见,在一条文本信息中,一般多数事件元素为通用事件元素,而少数事件元素为特殊事件元素,因此阅读理解模型通过将特殊事件抽取的过程,转变为阅读理解问答的过程,借助现有的大量的阅读理解数据进行学习,就可以使得阅读理解模型具有足够数据处理能力去识别少量的特殊事件元素。
可选的,当终端获取到待进行事件抽取的文本信息时,则将文本信息并行输入到事件抽取模型中的序列标注模型和阅读理解模型进行分析,以对文本信息进行事件抽取,从而得到文本信息对应的特殊事件元素。
其中,当阅读理解模型接收到终端输入的文本信息时,则通过阅读理解问答的过程,以“问答”的方式“答”出其中的特殊事件元素,并将特殊事件元素抽取出来。
如步骤S40所述:当序列标注模型对文本信息进行分析后,会相应输出该文本信息对应的通用事件元素;而阅读理解模型对文本信息进行分析后,则会输出该文本信息对应的特殊事件元素。
进一步地,终端获取序列标注模型输出的通用事件元素,以及获取阅读理解模型输出的特殊事件元素,即可利用通用事件元素和特殊事件元素组成事件元素集合,并将事件元素集合作为目标事件对应的事件信息。
这样,虽然序列标注模型在缺乏训练样本的情况下,难以完全用于对目标事件(即特殊事件)进行事件抽取,但是鉴于即便是目标事件中也会存在一些通用事件元素,而现存的通用事件样本则多不胜数,因此可以利用通用事件样本去训练序列标注模型,以使序列标注模型可用于抽取通用事件元素;同时,基于阅读理解数据集构建阅读理解模型,并使得阅读理解模型只需关注于对特殊事件元素的识别和抽取,就可以忽略一般阅读理解模型因难以识别出通用事件元素之间的结构化约束信息,而无法抽取通用事件元素的缺点,通过利用序列标注模型抽取特殊事件中的通用事件元素,以及利用阅读理解模型抽取特殊事件中的特殊事件元素,再基于通用事件元素和特殊事件元素即可生成目标事件的事件信息。
在一实施例中,通过将序列标注模型和阅读理解模型结合至目标事件的抽取中,并利用序列标注模型抽取通用事件元素,以及利用阅读理解模型抽取特殊事件元素,再基于此生成特殊事件对应的目标事件信息,即可提高从文本信息中抽取特殊事件信息的准确率。
在一实施例中,在上述实施例基础上,所述获取目标事件对应的文本信息的步骤之前,还包括:
步骤S50、利用所述阅读理解数据集构建所述阅读理解模型,并利用所述目标事件对应的特殊事件样本对所述阅读理解模型进行训练。
本实施例中,终端预先基于BERT模型构建阅读理解模型的基础模型,然后从互联网上获取阅读理解数据集(如获取DuReader这一中文阅读理解数据集),或者获取工程师输入的阅读理解数据集,然后基于阅读理解数据集对阅读理解模型进行训练,得到一个通用的阅读理解模型。
进一步地,虽然一般来说,目标事件对应的事件样本(即特殊事件样本)数量比较少,但在条件允许的情况下,还是可以收集少量的特殊事件样本(如100-200个)作为目标事件对应的样本(即目标事件样本),然后终端在得到通用的阅读理解模型的基础上,利用目标事件样本对阅读理解模型进行训练,从而提高阅读理解模型抽取目标事件对应的特殊事件元素的准确率。
这样,在后续利用阅读理解模型抽取文本信息中的特殊事件元素时,就可以得到高准确率的特殊事件元素,并在基于特殊事件元素和通用事件元素生成目标事件对应的事件信息时,可以提高生成事件信息的准确率。
在一实施例中,提高了利用阅读理解模型抽取文本信息中的特殊事件元素的准确率。
在一实施例中,在上述实施例基础上,所述利用所述阅读理解数据集构建所述阅读理解模型,并利用所述目标事件对应的特殊事件样本对所述阅读理解模型进行训练的步骤包括:
步骤S60、利用所述阅读理解数据集分别构建各个类型的所述目标事件对应的阅读理解模型;
步骤S61、根据各个类型的所述目标事件对应的特殊事件样本,对各个类型的所述目标事件对应的阅读理解模型进行训练。
本实施例中,具有多个类型的目标事件。例如,目标事件的类型可分为金融领域内的特殊事件、医疗领域内的特殊事件、科技领域内的特殊事件等。
可选的,针对不同类型的目标事件,终端预先采集各个类型的目标事件对应的至少一个特殊事件样本(各个类型的目标事件对应的特殊事件样本的数量可选为100个-200个)。
进一步地,终端利用所述阅读理解数据集分别构建各个类型的所述目标事件对应的阅读理解模型,即各个类型的目标事件对应的基础阅读理解模型,均采用基于阅读理解数据集构建的通用的阅读理解模型。
然后,将各个类型的所述目标事件对应的特殊事件样本,分别输入到各个类型的目标事件对应的基础阅读理解模型中进行训练,以训练各基础阅读理解模型抽取其对应类型的特殊事件元素的能力,从而得到各个类型的目标事件对应的阅读理解模型(即每个目标事件对应的阅读理解模型,更适用于抽取其对应的目标事件的特殊事件元素)。
可选的,当终端需要利用阅读理解模型抽取当前处理的文本信息的特殊事件元素时,则先根据当前处理的文本信息对应的目标事件的类型,确定该目标事件的类型对应的阅读理解模型(即选出与该文本信息对应的目标事件的类型匹配的阅读理解模型),然后再将当前处理的文本信息输入到确定得到的阅读理解模型中进行分析,以利用选出的阅读理解模型抽取该文本信息中的特殊事件元素,进而提高抽取文本信息中的特殊事件元素的准确率。
这样,进一步提高了利用阅读理解模型抽取文本信息中的特殊事件元素的准确率,从在此基础上得到更为准确的特殊事件信息。
在一实施例中,在上述实施例基础上,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
步骤S70、根据所述特殊事件元素和所述文本信息,生成新的所述特殊事件样本;
步骤S71、利用新的所述特殊事件样本,更新所述目标事件对应的所述阅读理解模型。
本实施例中,当终端检测到成功生成当前处理的目标事件对应的事件信息时,则可以根据阅读理解模型基于该目标事件对应的文本信息分析得到的特殊事件元素,对该目标事件对应的文本信息进行标注,以标注出文本信息中的特殊事件元素,从而基于此生成目标事件对应的特殊事件样本。
应当理解的是,终端基于步骤S70所生成的特殊事件样本,与之前用于训练该目标事件对应的阅读理解模型的特殊事件样本相比,属于新的特殊事件样本。
进一步地,当终端得到目标事件对应的新的特殊事件样本时,以及检测到该目标事件对应的阅读理解模型处于空闲状态时,则可以将该特殊事件样本输入到阅读理解模型中进行训练,以提高该阅读理解模型抽取文本信息中的特殊事件元素的能力。
当然,当终端生成目标事件对应的事件信息之后,可以将该事件信息输入至关联设备,以供关联设备的相关人员进行确认。且当确认无误时,相关人员可通过关联设备发送该事件信息对应的确定响应(而确认有误,则发送否定响应)。
可选的,当终端接收到关联设备的确认响应时,则再基于该确认响应针对的事件信息对应的特殊事件元素,以及该事件信息对应的文本信息,执行步骤S70生成新的特殊事件样本,然后再基于新的特殊事件样本更新相应的阅读理解模型。
这样,可以进一步地提高阅读理解模型抽取特殊事件元素的准确率。
在一实施例中,在上述实施例基础上,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
步骤S80、根据所述文本信息对应的数据处理任务,确定所述事件信息对应的应用场景,其中,所述应用场景包括关键内容分析、合同文档解析校对和用户画像;
步骤S81、根据确定得到的所述应用场景对应的数据处理方式,对所述事件信息进行数据处理,得到所述数据处理任务对应的响应结果。
本实施例中,本信息关联有其对应的数据处理任务,而且在数据处理任务中,不仅描述有文本信息所要抽取的目标事件,还定义有目标事件对应的事件信息的应用场景。
可选的,当终端获取到文本信息时,则读取其对应的数据处理任务,然后利用事件抽取模型抽取该文本信息对应的目标事件的事件信息,并根据数据处理任务读取该事件信息对应的应用场景。
其中,所述应用场景包括合同文档解析校对、关键内容分析、用户画像(如HR(Human Resource)人岗精准匹配)等。
进一步地,当终端得到文本信息对应的目标事件的事件信息,以及得到该事件信息对应的应用场景时,则根据该应用场景对应的数据处理方式,对该事件信息进行处理,得到该事件信息对应的数据处理任务的响应结果,并输出响应结果。
可选的,对于合同文档解析校对的应用场景(如文本信息为合同文档),终端可以是根据抽取到的事件信息与预先设定的信息条件进行校验(即数据处理方式为数据校验),以检验文本信息中的事件信息是否符合预设要求,从而使得终端可以快速应对审阅、查找、校对等复杂工作,有效监控风险条款,节省人力和时间成本。
可选的,对于关键内容分析的应用场景(如文本信息为文章或报道),终端可以是利用机器学习模型对抽取得到的事件信息进行内容的梳理和分析,并根据原来分散的通用事件元素和特殊事件元素组合为连贯的语句,以便于用户阅读。这样就可以对企业招投标文件、内部文档资料等长篇幅的文件进行分析,从大量的文本数据中提炼出有价值的信息。
可选的,以用户画像场景为HR人岗精准匹配的场景(如文本信息为电子简历)为例,终端可以是根据应聘简历中抽取得到的事件信息进行用户画像分析建模,得到应聘简历对应的用户的画像,并在此基础上为画像的用户匹配精准岗位,协助HR完成招聘流程,提升工作效率。
这样,提高了对事件信息进行分析和处理的效率。
在一实施例中,在上述实施例基础上,所述根据所述应用场景对所述事件信息进行数据处理,得到处理结果的步骤包括:
步骤S90、检测到所述应用场景为所述关键内容分析时,将所述事件信息输入到神经网络模型中进行语句转换处理,以将所述事件信息转换为语句信息,并将所述语句信息作为所述数据处理任务对应的响应结果。
本实施例中,终端预先构建有神经网络模型,所述神经网络模型基于多个训练样本,进行多次迭代训练后得到。
其中,每个所述训练样本包括一组事件信息,以及该组事件信息对应的语句信息。在一组事件信息中,由多个通用事件元素和特殊事件元素组成,并在工程师将通用事件元素和特殊事件元素组合成连贯的语句信息后,将每组事件信息与对应的语句信息输入到终端后,即可基于此生成相应的训练样本。
当终端利用多个训练样本对神经网络模型进行训练时,就可以使得神经网络模型逐渐学习得到将事件信息中的通用事件元素和特殊事件元素组合成连贯的语句信息的逻辑关系,并当模型训练达到收敛后,即可使得神经网络模型具备将事件信息转换为连贯的语句信息的能力。
这样,即可得到一个可用于将所述事件信息中的所述通用事件元素和所述特殊事件元素组合为至少一个连贯的语句,并基于所有所述语句生成所述语句信息的神经网络模型。
可选的,当终端检测到当前处理的事件信息对应的应用场景为关键内容分析时,终端即可将相应的事件信息输入到训练完成的神经网络模型中进行语句转换处理,以利用神经网络模型将事件信息中的通用事件元素和特殊事件元素进行组合,并转换为至少一个连贯的语句,再基于转换得到的所有语句生成语句信息,即可得到该事件信息对应的语句信息,然后终端将神经网络模型输出的语句信息,作为所述事件信息对应数据处理任务的响应结果。
这样,可以快速地从文本信息中抽取出高价值的关键内容信息,提高了获取关键内容信息的效率。
在一实施例中,在上述实施例基础上,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
步骤S100、将所述事件信息发送至存储服务端以块链式的账本进行存储。
本实施例中,终端与基于区块链技术构建的存储服务端建立有通信连接。
可选的,当终端基于目标事件对应的文本信息,得到该目标事件对应的事件信息后,则可以将该事件信息打上相应的目标事件的标签,然后再将附带有标签的事件信息发送至存储服务端。当存储服务端接收到终端发送的事件信息后,则将事件信息以块链式的账本进行存储。账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
需要说明的是,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
可选的,当终端或与终端关联的关联设备需要获取存储服务端上存储的事件信息时,则只需将所要获取的事件信息对应的标签生成获取请求,并将获取请求发送至存储服务端,由存储服务端基于该获取请求中的标签查询对应的事件信息,并将查询得到的事件信息返回至获取请求的发起端(即终端或与终端关联的关联设备)即可。
这样,提高了事件信息存储的安全性的同时,还提高了获取存储的事件信息的便利性。
参照图2,本申请实施例中还提供一种事件信息的抽取装置10,包括:
获取模块11,用于获取目标事件对应的文本信息;
第一分析模块12,用于将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;所述序列标注模型预先基于多个通用事件样本,以及所述通用事件样本对应的通用事件元素训练得到;所述通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;以及,
第二分析模块13,用于将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;所述特殊事件元素为除所述通用事件元素外的事件元素;所述阅读理解模型预先基于阅读理解数据集构建;
处理模块14,用于根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储事件信息的抽取方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种事件信息的抽取方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的事件信息的抽取方法的步骤。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的事件信息的抽取方法、事件信息的抽取装置、计算机设备和存储介质,通过将序列标注模型和阅读理解模型结合至目标事件的抽取中,并利用序列标注模型抽取通用事件元素,以及利用阅读理解模型抽取特殊事件元素,再基于此生成特殊事件对应的目标事件信息,即可提高从文本信息中抽取特殊事件信息的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种事件信息的抽取方法,其特征在于,包括:
获取目标事件对应的文本信息;
将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;所述序列标注模型预先基于多个通用事件样本,以及所述通用事件样本对应的通用事件元素训练得到;所述通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;以及,
将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;所述特殊事件元素为除所述通用事件元素外的事件元素;所述阅读理解模型预先基于阅读理解数据集构建;
根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。
2.如权利要求1所述的事件信息的抽取方法,其特征在于,所述获取目标事件对应的文本信息的步骤之前,还包括:
利用所述阅读理解数据集构建所述阅读理解模型,并利用所述目标事件对应的特殊事件样本对所述阅读理解模型进行训练。
3.如权利要求2所述的事件信息的抽取方法,其特征在于,所述利用所述阅读理解数据集构建所述阅读理解模型,并利用所述目标事件对应的特殊事件样本对所述阅读理解模型进行训练的步骤包括:
利用所述阅读理解数据集分别构建各个类型的所述目标事件对应的阅读理解模型;
根据各个类型的所述目标事件对应的特殊事件样本,对各个类型的所述目标事件对应的阅读理解模型进行训练;
其中,所述将所述文本信息输入到阅读理解模型中进行分析的步骤包括:
根据所述文本信息对应的目标事件的类型,确定所述类型对应的所述阅读理解模型;
将所述文本信息输入到确定得到的所述阅读理解模型中进行分析。
4.如权利要求2或3所述的事件信息的抽取方法,其特征在于,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
根据所述特殊事件元素和所述文本信息,生成新的所述特殊事件样本;
利用新的所述特殊事件样本,更新所述目标事件对应的所述阅读理解模型。
5.如权利要求1所述的事件信息的抽取方法,其特征在于,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
根据所述文本信息对应的数据处理任务,确定所述事件信息对应的应用场景,其中,所述应用场景包括关键内容分析、合同文档解析校对和用户画像;
根据确定得到的所述应用场景对应的数据处理方式,对所述事件信息进行数据处理,得到所述数据处理任务对应的响应结果。
6.如权利要求5所述的事件信息的抽取方法,其特征在于,所述根据所述应用场景对应的数据处理方式,对所述事件信息进行数据处理,得到所述数据处理任务对应的响应结果的步骤包括:
检测到所述应用场景为所述关键内容分析时,将所述事件信息输入到神经网络模型中进行语句转换处理,以将所述事件信息转换为语句信息,并将所述语句信息作为所述数据处理任务对应的响应结果;
其中,所述神经网络模型用于将所述事件信息中的所述通用事件元素和所述特殊事件元素组合为至少一个连贯的语句,并基于所有所述语句生成所述语句信息。
7.如权利要求1所述的事件信息的抽取方法,其特征在于,所述根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息的步骤之后,还包括:
将所述事件信息发送至存储服务端以块链式的账本进行存储。
8.一种事件信息的抽取装置,其特征在于,包括:
获取模块,用于获取目标事件对应的文本信息;
第一分析模块,用于将所述文本信息输入到序列标注模型中进行分析,其中,所述序列标注模型用于抽取所述文本信息中的通用事件元素;所述序列标注模型预先基于多个通用事件样本,以及所述通用事件样本对应的通用事件元素训练得到;所述通用事件元素包括主语、宾语、时间、地点、数量和金额中的至少一个;以及,
第二分析模块,用于将所述文本信息输入到阅读理解模型中进行分析,其中,所述阅读理解模型用于抽取所述文本信息中的特殊事件元素;所述特殊事件元素为除所述通用事件元素外的事件元素;所述阅读理解模型预先基于阅读理解数据集构建;
处理模块,用于根据所述序列标注模型输出的所述通用事件元素和所述阅读理解模型输出的所述特殊事件元素,生成所述目标事件对应的事件信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的事件信息的抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的事件信息的抽取方法的步骤。
CN202110460751.1A 2021-04-27 2021-04-27 事件信息的抽取方法、装置、计算机设备及存储介质 Pending CN113157949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110460751.1A CN113157949A (zh) 2021-04-27 2021-04-27 事件信息的抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460751.1A CN113157949A (zh) 2021-04-27 2021-04-27 事件信息的抽取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113157949A true CN113157949A (zh) 2021-07-23

Family

ID=76871398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460751.1A Pending CN113157949A (zh) 2021-04-27 2021-04-27 事件信息的抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113157949A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610640A (zh) * 2021-09-30 2021-11-05 浙江网商银行股份有限公司 基于联盟链的事件风控方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766540A (zh) * 2018-12-10 2019-05-17 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN111753522A (zh) * 2020-06-29 2020-10-09 深圳壹账通智能科技有限公司 事件抽取方法、装置、设备以及计算机可读存储介质
CN112328856A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 公共事件追踪方法、装置、计算机设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766540A (zh) * 2018-12-10 2019-05-17 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN111753522A (zh) * 2020-06-29 2020-10-09 深圳壹账通智能科技有限公司 事件抽取方法、装置、设备以及计算机可读存储介质
CN112328856A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 公共事件追踪方法、装置、计算机设备及计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610640A (zh) * 2021-09-30 2021-11-05 浙江网商银行股份有限公司 基于联盟链的事件风控方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN108959349B (zh) 一种财务审计询证系统
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN110569356B (zh) 基于智能面试交互系统的面试方法、装置和计算机设备
CN112347310A (zh) 事件处理信息的查询方法、装置、计算机设备和存储介质
CN112036842B (zh) 一种科技服务智能匹配装置
CN113241138B (zh) 医疗事件信息的抽取方法、装置、计算机设备及存储介质
CN112989018B (zh) 一种基于语义分析的档案自动开放鉴定方法及系统
CN112836018A (zh) 应急预案的处理方法及装置
CN112036172B (zh) 基于模型的缩写数据的实体识别方法、装置和计算机设备
CN113204619B (zh) 基于自然语言处理的语句补全方法、装置、设备及介质
CN112347254A (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN112836061A (zh) 智能推荐的方法、装置以及计算机设备
CN113435990B (zh) 基于规则引擎的凭证生成方法、装置和计算机设备
CN114003692A (zh) 合同文本信息的处理方法、装置、计算机设备及存储介质
CN114817055A (zh) 基于接口的回归测试方法、装置、计算机设备和存储介质
CN113157949A (zh) 事件信息的抽取方法、装置、计算机设备及存储介质
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN112200465B (zh) 基于多媒体信息智能分析的电力ai方法及系统
CN113064997B (zh) 基于bert模型的意图分析方法、装置、设备及介质
Kiyavitskaya et al. Requirements model generation to support requirements elicitation: the Secure Tropos experience
US20100306155A1 (en) System and method for validating signatory information and assigning confidence rating
CN113656545A (zh) 智能面试方法、装置、计算机设备及存储介质
CN113515444A (zh) 测试用例生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication