CN113468889A - 一种基于bert预训练模型信息提取的方法和装置 - Google Patents

一种基于bert预训练模型信息提取的方法和装置 Download PDF

Info

Publication number
CN113468889A
CN113468889A CN202110730085.9A CN202110730085A CN113468889A CN 113468889 A CN113468889 A CN 113468889A CN 202110730085 A CN202110730085 A CN 202110730085A CN 113468889 A CN113468889 A CN 113468889A
Authority
CN
China
Prior art keywords
text
event
module
bert pre
training model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110730085.9A
Other languages
English (en)
Inventor
金鑫
李鹏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Alphainsight Technology Co ltd
Original Assignee
Shanghai Alphainsight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Alphainsight Technology Co ltd filed Critical Shanghai Alphainsight Technology Co ltd
Priority to CN202110730085.9A priority Critical patent/CN113468889A/zh
Publication of CN113468889A publication Critical patent/CN113468889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于BERT预训练模型信息提取的方法,包括以下步骤:对文本进行预处理;通过BERT预训练模型对文本进行命名实体识别,提取出预先定义好的字段,得到事件类型和/或事件触发词;根据命名实体抽取出的事件类型和/或者事件触发词的结果,抽取出与字段相对应事件的实体结构化数据。本发明还涉及一种基于BERT预训练模型信息提取的装置,包括:文本预处理模块、命名实体识别模块、事件论元模块。本发明的一种基于BERT预训练模型信息提取的方法及装置,通过分步训练命名实体识别和事件论元,能够抽取出与字段相对应的多条结构化数据。

Description

一种基于BERT预训练模型信息提取的方法和装置
技术领域
本发明属于信息抽取技术领域,具体涉及一种基于BERT预训练模型信息提取的方法和装置。
背景技术
在NLP信息抽取领域中,在进行信息抽取时大都使用正则表达式或者CRF等传统技术模型。这些技术模型无法完全覆盖各种不同形式的说法,以及识别出抽取出文本中的事件元素。
发明内容
针对上述问题中存在的不足之处,本发明提供一种通过分步训练命名实体识别和关系判断,以抽取出与字段相对应的多条结构化数据的一种基于BERT预训练模型信息提取的方法和装置。
为达到上述目的,作为本申请的其中一个方案,提供一种基于BERT预训练模型信息提取的方法,包括以下步骤:
步骤1、对文本进行预处理;
步骤2、通过BERT预训练模型对文本进行命名实体识别,提取出预先定义好的字段,得到事件类型和/或事件触发词;
步骤3、根据命名实体抽取出的事件类型和/或者事件触发词的结果,抽取出与字段相对应事件的实体结构化数据。
其优选的技术方案为:
如上所述的一种基于BERT预训练模型信息提取的方法,所述结构化数据包括但不限于与预先定义好的字段相对应的事件主体、时间、地点。
如上所述的一种基于BERT预训练模型信息提取的方法,步骤1中,对文本进行的预处理具体包括:
步骤11:检测当前文本的数据类型是否为doc格式、docx格式或pdf格式;
步骤12:若是,将文本的数据类型转换为xml格式;
步骤13:对xml格式的文本依次进行目录抽取、表格抽取、文本抽取,以去除文本中除文字信息以外的内容;
步骤14:对文本按照句号进行拆分,并对拆分后的文本进行另存。
如上所述的一种基于BERT预训练模型信息提取的方法,步骤2具体包括:
步骤21:命名实体识别,对文本通过BERT预训练模型进行编码,将文本序列转化为基于字的向量表示;
步骤22:通过条件随机场对每个字段对应的标签进行预测,以得知该字段是否为预先定义好的字段,得到事件类型和/或事件触发词。
如上所述的一种基于BERT预训练模型信息提取的方法,步骤2和步骤3中,BERT预训练模型中命名实体识别和事件抽取的训练过程如下:
根据任务定义,对文本进行字段和事件主体的语料标注;
将语料标注作为BERT预训练模型的输入,输送至BERT预训练模型进行命名实体识别和事件论元的训练,以得到训练后BERT预训练模型。
作为本申请的另一个方面,提供一种实施如上任一项所述的基于BERT预训练模型信息提取的方法的装置,包括:文本预处理模块、命名实体识别模块、事件论元模块;
所述文本预处理模块用于对文本进行预处理;
所述命名实体识别模块用于通过BERT预训练模型文本进行命名实体识别,以提取出预先定义好的字段;
所述事件论元模块用于根据命名实体识别出的事件触发词,抽取出与字段相对应事件的实体结构化数据。
其优选的技术方案为:
如上所述的装置,所述文本预处理模块至少包括:
检测模块,用于检测当前文本的数据类型是否为doc格式、docx格式或pdf格式;
处理模块,用于根据检测模块的检测结果,将数据类型为doc格式、docx格式或pdf格式的数据类型转换为xml格式;
删减模块,用于对xml格式的文本依次进行目录抽取、表格抽取、文本抽取,去除文本中除文字信息以外的内容;
拆分模块,用于对经删减模块去除文字信息以外内容后的文本进行拆分,并对拆分后的文本进行另存。
如上所述的装置,所述命名实体识别模块至少包括:
编码转化模块,用于通过BERT预训练模型对文本进行编码,将文本序列转化为基于字的向量表示;
预测模块,用于通过条件随机场对每个字段对应的标签进行预测,以得知该字段是否为预先定义好的字段,得到事件类型和/或事件触发词。
如上所述的装置,所述事件论元模块至少包括:
语料标注模块,用于对文本进行字段和事件主体的语料标注,并将语料标注后的文本送入BERT预训练模型;
抽取模块,用于根据预测模块预测得到的事件类型和/或者事件触发词,抽取出与字段相对应事件的实体结构化数据。
与现有技术相比,本发明具有以下优点:
本发明通过设计基于预训练模型深度学习的事件信息抽取框架,通过分步训练命名实体识别和事件论元,能够抽取出与字段相对应的多条结构化数据。
附图说明
图1为本发明的基于BERT预训练模型信息提取的方法的流程图;
图2为本发明中流程部分的结构框图。
主要附图标记说明如下:
1、文本预处理模块;2、命名实体识别模块;3、事件论元模块。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
在NLP信息抽取领域中,在进行信息抽取时大都使用正则表达式或者CRF等传统技术模型。这些技术模型无法完全覆盖各种不同形式的说法,以及识别出抽取出文本中的事件元素。
针对上述问题,请参阅图1~2,本实施例提供一种基于BERT预训练模型信息提取的方法,包括以下步骤:
步骤1、对文本进行预处理。
其中,对文本进行的预处理操作具体包括:
步骤11:检测当前文本的数据类型是否为doc格式、docx格式或pdf格式;
步骤12:若是,将文本的数据类型转换为xml格式;
步骤13:对xml格式的文本依次进行目录抽取、表格抽取、文本抽取,以去除文本中除文字信息以外的内容,例如文本中出现的表格和页眉页脚等;
步骤14:对文本按照句号进行拆分,并对拆分后的文本进行另存。
步骤1中,对文本进行目录抽取、表格抽取、文本抽取的方式为常规技术手段,本实施例中不再赘述。其中,对文本的数据类型进行转换是为了方便后续操作;而对文本依次进行目录抽取、表格抽取、文本抽取是为了对文本中的大段文字先进行清洗,去除掉文字中存在的表格、页眉页脚。
步骤2、通过BERT预训练模型对文本进行命名实体识别,提取出预先定义好的字段,得到事件类型和/或事件触发词。
其具体包括:
步骤21:命名实体识别,对文本通过BERT预训练模型进行编码,将文本序列转化为基于字的向量表示;
步骤22:通过条件随机场对每个字段对应的标签进行预测,以得知该字段是否为预先定义好的字段,得到事件类型和/或事件触发词。
步骤3、根据命名实体抽取出的事件类型和/或者事件触发词的结果,抽取出与字段相对应事件的实体结构化数据,如:人物、时间、地点等。
步骤2和步骤3中,BERT预训练模型中命名实体识别和事件抽取的训练过程如下:
根据任务定义,对文本进行字段和事件主体的语料标注;
将语料标注作为BERT预训练模型的输入,输送至BERT预训练模型进行命名实体识别和事件论元的训练,以得到训练后BERT预训练模型。
作为本实施例的另一个方面,提供一种实施如上任一项所述的基于BERT预训练模型信息提取的方法的装置,包括:文本预处理模块1、命名实体识别模块2、事件论元模块3。
所述文本预处理模块1用于对文本进行预处理;所述文本预处理模块1至少包括:
检测模块,用于检测当前文本的数据类型是否为doc格式、docx格式或pdf格式;
处理模块,用于根据检测模块的检测结果,将数据类型为doc格式、docx格式或pdf格式的数据类型转换为xml格式;
删减模块,用于对xml格式的文本依次进行目录抽取、表格抽取、文本抽取,去除文本中除文字信息以外的内容;
拆分模块,用于对经删减模块去除文字信息以外内容后的文本进行拆分,并对拆分后的文本进行另存。
所述命名实体识别模块2用于通过BERT预训练模型文本进行命名实体识别,以提取出预先定义好的字段;所述命名实体识别模块2至少包括:
编码转化模块,用于通过BERT预训练模型对文本进行编码,将文本序列转化为基于字的向量表示;
预测模块,用于通过条件随机场对每个字段对应的标签进行预测,以得知该字段是否为预先定义好的字段,得到事件类型和/或事件触发词。
所述事件论元模块3用于根据命名实体识别出的事件触发词,抽取出与字段相对应事件的实体结构化数据。所述事件论元模块3至少包括:
语料标注模块,用于对文本进行字段和事件主体的语料标注,并将语料标注后的文本送入BERT预训练模型;
抽取模块,用于根据预测模块预测得到的事件类型和/或者事件触发词,抽取出与字段相对应事件的实体结构化数据。
本实施例中的基于BERT预训练模型信息提取的方法和装置,基于预训练模型深度学习的事件信息抽取框架,通过分步训练命名实体识别和事件论元,能够抽取出与字段相对应的多条结构化数据。
以上所述仅为本发明的较佳实施例,对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (9)

1.一种基于BERT预训练模型信息提取的方法,其特征在于,包括以下步骤:
步骤1、对文本进行预处理;
步骤2、通过BERT预训练模型对文本进行命名实体识别,提取出预先定义好的字段,得到事件类型和/或事件触发词;
步骤3、根据命名实体抽取出的事件类型和/或者事件触发词的结果,抽取出与字段相对应事件的实体结构化数据。
2.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法,其特征在于,所述结构化数据包括但不限于与预先定义好的字段相对应的事件主体、时间、地点。
3.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法,其特征在于,步骤1中,对文本进行的预处理具体包括:
步骤11:检测当前文本的数据类型是否为doc格式、docx格式或pdf格式;
步骤12:若是,将文本的数据类型转换为xml格式;
步骤13:对xml格式的文本依次进行目录抽取、表格抽取、文本抽取,以去除文本中除文字信息以外的内容;
步骤14:对文本按照句号进行拆分,并对拆分后的文本进行另存。
4.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法,其特征在于,步骤2具体包括:
步骤21:命名实体识别,对文本通过BERT预训练模型进行编码,将文本序列转化为基于字的向量表示;
步骤22:通过条件随机场对每个字段对应的标签进行预测,以得知该字段是否为预先定义好的字段,得到事件类型和/或事件触发词。
5.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法,其特征在于,步骤2和步骤3中,BERT预训练模型中命名实体识别和事件抽取的训练过程如下:
根据任务定义,对文本进行字段和事件主体的语料标注;
将语料标注作为BERT预训练模型的输入,输送至BERT预训练模型进行命名实体识别和事件论元的训练,以得到训练后BERT预训练模型。
6.一种实施权利要求1~5任一项所述的基于BERT预训练模型信息提取的方法的装置,其特征在于,包括:文本预处理模块、命名实体识别模块、事件论元模块;
所述文本预处理模块用于对文本进行预处理;
所述命名实体识别模块用于通过BERT预训练模型文本进行命名实体识别,以提取出预先定义好的字段;
所述事件论元模块用于根据命名实体识别出的事件触发词,抽取出与字段相对应事件的实体结构化数据。
7.根据权利要求6所述的装置,其特征在于,所述文本预处理模块至少包括:
检测模块,用于检测当前文本的数据类型是否为doc格式、docx格式或pdf格式;
处理模块,用于根据检测模块的检测结果,将数据类型为doc格式、docx格式或pdf格式的数据类型转换为xml格式;
删减模块,用于对xml格式的文本依次进行目录抽取、表格抽取、文本抽取,去除文本中除文字信息以外的内容;
拆分模块,用于对经删减模块去除文字信息以外内容后的文本进行拆分,并对拆分后的文本进行另存。
8.根据权利要求6所述的装置,其特征在于,所述命名实体识别模块至少包括:
编码转化模块,用于通过BERT预训练模型对文本进行编码,将文本序列转化为基于字的向量表示;
预测模块,用于通过条件随机场对每个字段对应的标签进行预测,以得知该字段是否为预先定义好的字段,得到事件类型和/或事件触发词。
9.根据权利要求8所述的装置,其特征在于,所述事件论元模块至少包括:
语料标注模块,用于对文本进行字段和事件主体的语料标注,并将语料标注后的文本送入BERT预训练模型;
抽取模块,用于根据预测模块预测得到的事件类型和/或者事件触发词,抽取出与字段相对应事件的实体结构化数据。
CN202110730085.9A 2021-06-29 2021-06-29 一种基于bert预训练模型信息提取的方法和装置 Pending CN113468889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110730085.9A CN113468889A (zh) 2021-06-29 2021-06-29 一种基于bert预训练模型信息提取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110730085.9A CN113468889A (zh) 2021-06-29 2021-06-29 一种基于bert预训练模型信息提取的方法和装置

Publications (1)

Publication Number Publication Date
CN113468889A true CN113468889A (zh) 2021-10-01

Family

ID=77873955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110730085.9A Pending CN113468889A (zh) 2021-06-29 2021-06-29 一种基于bert预训练模型信息提取的方法和装置

Country Status (1)

Country Link
CN (1) CN113468889A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779227A (zh) * 2021-11-12 2021-12-10 成都数之联科技有限公司 案情事实抽取方法及系统及装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112084381A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种事件抽取方法、系统、存储介质以及设备
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN112765980A (zh) * 2021-02-01 2021-05-07 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112084381A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种事件抽取方法、系统、存储介质以及设备
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN112765980A (zh) * 2021-02-01 2021-05-07 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779227A (zh) * 2021-11-12 2021-12-10 成都数之联科技有限公司 案情事实抽取方法及系统及装置及介质

Similar Documents

Publication Publication Date Title
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN110909137A (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN110825839A (zh) 一种对文本信息中目标的关联关系分析方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN114090736A (zh) 一种基于文本相似度的企业行业识别系统及识别方法
CN110413972B (zh) 一种基于nlp技术的表名字段名智能补全方法
CN114821613A (zh) 一种pdf中表格信息的抽取方法和系统
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN111311364A (zh) 基于多模态商品评论分析的商品推荐方法及系统
CN113468889A (zh) 一种基于bert预训练模型信息提取的方法和装置
CN110889274A (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN112822506A (zh) 用于分析视频流的方法和装置
CN112784601A (zh) 关键信息提取方法、装置、电子设备和存储介质
CN111427996A (zh) 一种人机交互文本中抽取日期时间的方法和装置
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN110889289B (zh) 信息明确度评估方法、装置、设备及计算机可读存储介质
CN113705192A (zh) 文本处理方法、装置与存储介质
CN111309933A (zh) 文化资源数据自动标注系统
Dhanalakshmi et al. Chunker for tamil
CN110941704B (zh) 一种文本内容相似度分析的方法
CN116306694A (zh) 一种基于预训练的多模态机器翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001

RJ01 Rejection of invention patent application after publication