CN115357699A - 文本抽取方法、装置、设备及存储介质 - Google Patents
文本抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115357699A CN115357699A CN202210987962.5A CN202210987962A CN115357699A CN 115357699 A CN115357699 A CN 115357699A CN 202210987962 A CN202210987962 A CN 202210987962A CN 115357699 A CN115357699 A CN 115357699A
- Authority
- CN
- China
- Prior art keywords
- text
- extracted
- entity
- extraction
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本抽取方法、装置、设备及存储介质,属于机器学习技术领域。本发明通过获取待抽取文本,并基于待抽取文本确认对应的抽取条件,根据抽取条件生成对应的实体标签数据,再将待抽取文本和实体标签数据输入预训练的全局首尾神经网络模型,通过全局首尾神经网络模型抽取出目标文本。在本发明实施例的文字提取的过程中,采用阅读理解技术,根据不同的待抽取文本确定抽取条件,在得到抽取条件后匹配记有类别的描述信息的实体标注数据,再通过预训练的全局首尾神经网络模型进行抽取,以解决金融领域里信息抽取中实体嵌套的问题,提高了识别准确率。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及文本抽取方法、装置、设备及存储介质。
背景技术
随着人工智能的迅猛发展,自然语言处理技术越发成熟,一些需要人工处理的事情正在逐步地转换为机器来进行处理,其中一个比较典型的场景就是文档解析及自动录入。其需要对文档进行解析,根据不同场景,抽取出不同的内容,并进行自动录入。传统的人工解析和录入繁琐、复杂、耗费人力,而传统的文本抽取对于金融领域中的长实体、复杂实体、嵌套实体的效果不佳。
目前比较常用的人工智能抽取方法会存在实体嵌套的问题,尤其是对于一些长句来说,其中可能包含了多种类型的实体,那么在进行抽取的时候就会出现错误和遗漏,因此,如何提高文本抽取的准确性的问题亟待解决。
发明内容
本发明的主要目的在于提供一种文本抽取方法、装置、设备及存储介质,旨在解决文本抽取准确性低的问题。
为实现上述目的,本发明提供一种文本抽取方法,所述文本抽取方法包括以下步骤:
获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
可选地,所述获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤之前,所述方法包括:
创建所述全局首尾神经网络模型,具体包括:
基于不同类型的文档构建对应的抽取问题,并获取对应的需要提取的实体的所有类别,生成实体类别描述文本;
基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据;
将所述训练集数据输入预训练模型,解析得到文本特征向量;
将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵;
基于所述全局指针矩阵和所述训练集数据,通过交叉熵损失函数计算模型的损失值,当所述损失值满足预设值时,训练得到所述全局首尾神经网络模型。
可选地,所述将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵的步骤包括:
将所述文本特征向量与所述全局首尾指针层中预构建的第一全连接层和第二全连接层进行乘积变换,得到一个启始指针矩阵和一个结尾指针矩阵;
将所述启始指针矩阵与所述全局首尾指针层中的双仿射矩阵进行乘积变换,得到新启始指针矩阵;
将所述结尾指针矩阵和所述新启始指针矩阵进行乘积变换得到全局指针矩阵。
可选地,所述基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据的步骤包括:
基于所述实体类别描述文本给所述文档中的文本打上实体标签,并记录所述实体标签的类别和所述类别在原始文字中的位置信息;
基于所述位置信息和所述实体标签的类别,使用全局指针标签,输出所述带有实体标签的数据的类别矩阵;
根据所述实体标签对所述类别矩阵进行值的填充,生成训练集数据。
可选地,所述获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤包括:
获取待抽取文档,并确认所述待抽取文档的类别;
将所述待抽取文本的类别与所述不同类型的文档的类别进行匹配,得到类别匹配结果;
基于所述类别匹配结果生成对应的抽取条件。
可选地,所述根据所述抽取条件生成所述待抽取文本对应的实体标签数据的步骤包括:
根据所述抽取条件获取与所述不同类型的文档对应的实体类别描述文本;
基于所述实体类别描述文本生成所述待抽取文本对应的实体标签数据。
可选地,所述将获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤包括:
获取应用场景需求;
基于所述应用场景需求和所述待抽取文本确认对应的抽取条件。
此外,为实现上述目的,本发明还提供一种文本抽取装置,所述装置包括:
获取模块,用于获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
生成模块,用于根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
抽取模块,用于将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
可选地,所述文本抽取装置还包括:
模型创建模块,用于创建所述全局首尾神经网络模型,具体包括:
基于不同类型的文档构建对应的抽取问题,并获取对应的需要提取的实体的所有类别,生成实体类别描述文本;
基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据;
将所述训练集数据输入预训练模型,解析得到文本特征向量;
将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵;
基于所述全局指针矩阵和所述训练集数据,通过交叉熵损失函数计算模型的损失值,当所述损失值满足预设值时,训练得到所述全局首尾神经网络模型。
可选地,所述模型创建模块还用于:
将所述文本特征向量与所述全局首尾指针层中预构建的第一全连接层和第二全连接层进行乘积变换,得到一个启始指针矩阵和一个结尾指针矩阵;
将所述启始指针矩阵与所述全局首尾指针层中的双仿射矩阵进行乘积变换,得到新启始指针矩阵;
将所述结尾指针矩阵和所述新启始指针矩阵进行乘积变换得到全局指针矩阵。
可选地,所述模型创建模块还用于:
基于所述实体类别描述文本给所述文档中的文本打上实体标签,并记录所述实体标签的类别和所述类别在原始文字中的位置信息;
基于所述位置信息和所述实体标签的类别,使用全局指针标签,输出所述带有实体标签的数据的类别矩阵;
根据所述实体标签对所述类别矩阵进行值的填充,生成训练集数据。
可选地,所述获取模块还用于:
获取待抽取文档,并确认所述待抽取文档的类别;
将所述待抽取文本的类别与所述不同类型的文档的类别进行匹配,得到类别匹配结果;
基于所述类别匹配结果生成对应的抽取条件。
可选地,所述生成模块还用于:
根据所述抽取条件获取与所述不同类型的文档对应的实体类别描述文本;
基于所述实体类别描述文本生成所述待抽取文本对应的实体标签数据。
可选地,所述获取模块还用于:
获取应用场景需求;
基于所述应用场景需求和所述待抽取文本确认对应的抽取条件。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本抽取程序,所述文本抽取程序配置为实现如上所述的文本抽取方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有文本抽取程序,所述文本抽取程序被处理器执行时实现如上所述的文本抽取方法的步骤。
本发明实施例提出的文本抽取方法、装置、设备及存储介质,通过获取待抽取文本,并基于待抽取文本确认对应的抽取条件,根据抽取条件生成对应的实体标签数据,再将待抽取文本和实体标签数据输入预训练的全局首尾神经网络模型,通过全局首尾神经网络模型抽取出目标文本。在本发明实施例的文字提取的过程中,采用阅读理解技术,根据不同的待抽取文本确定抽取条件,在得到抽取条件后匹配记有类别的描述信息的实体标注数据,再通过预训练的全局首尾神经网络模型进行抽取。由此,该方法适合金融领域中同一个实体片段有多个嵌套类别的场景以及适合金融领域中长短不一且复杂的实体识别,并且识别准确率高。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的文本抽取设备的结构示意图;
图2为本发明文本抽取方法第一实施例的流程示意图;
图3为本发明文本抽取方法一实施例中构建全局首尾神经网络模型的流程示意图;
图4为本发明文本抽取方法一实施例全局首尾神经网络模型示意图;
图5为本发明文本抽取方法一实施例的全局指针层的示意图;
图6为本发明文本抽取方法一实施例的整体流程图;
图7为本发明文本抽取装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本抽取设备的结构示意图。
如图1所示,该文本抽取设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对文本抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及文本抽取程序。
在图1所示的文本抽取设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明文本抽取设备中的处理器1001、存储器1005可以设置在文本抽取设备中,所述文本抽取设备通过处理器1001调用存储器1005中存储的文本抽取程序,并执行本发明实施例提供的文本抽取方法。
本发明实施例提供了一种文本抽取方法,参照图2,图2为本发明文本抽取方法第一实施例的流程示意图。
本实施例中,所述文本抽取方法包括:
步骤S10,获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
步骤S20,根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
步骤S30,将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
本实施例文本抽取方法主要用于金融领域内的信息抽取任务中。信息抽取任务在机器学习中通常也叫做命名实体识别任务,命名实体识别属于基于字(token-level)的多分类问题,现有相关方案中通常采用CNNs/RNNs/BERT+CRF处理这类问题,与SoftMax相比,CRF进了标签约束。但由于这种序列标注采取BILOU标注框架,每一个token只能属于一种,不能解决重叠实体问题,也即实体嵌套问题,具体是指在一句文本中出现的实体,存在某个较短实体完全包含在另外一个较长实体内部的情况。因此,基于上述问题提出了本实施例的文本抽取方法。
以下将对各个步骤进行详细说明:
步骤S10,获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
在一实施例中,首先获取待抽取文本,并根据待抽取文本确认对应的抽取条件。其中,待抽取文本可以为金融领域的多种类型的文档,例如:委托合约、法律条款、保险条款、基金合同等等。可选地,待抽取文本的获取可以是从数据库接入,或者从相应的金融管理系统下载,具体获取方式不进行限定。具体而言,不同类型的待抽取文本对应的抽取内容是不同的,例如,保险条款所需要抽取的信息有:保险时间、保险费用、被保险人、投保人等;基金合同所需要抽取的信息有:基金赎回费率、定投周期、收益率、购入金额、持仓信息等等。因此,对于待抽取文本需要获取其不同的抽取条件,根据抽取条件从待抽取文本中抽取出需要的有效信息。其中,抽取条件可以是人为设置的,也可以是对待抽取文本进行内容识别将其分类为不同类型的文档,从现有的抽取规则中匹配该类型文档的抽取条件。
步骤S20,根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
在一实施例中,基于抽取条件对待抽取文本生成该待抽取文本对应的实体标签数据。其中,可以将待抽取文本进行预处理,例如,将完整的待抽取文本划分为多个句子,可以是长句也可以是短句。示例性的,划分可以根据标点符号对待抽取文本进行句段划分。将预处理后的待抽取文本作为后续步骤的输入。实体标签数据为抽取目标实体所需要的描述,例如,构建query问题来指代所要抽取的实体类型,通过阅读理解的方法对待抽取的目标实体进行描述,使机器学习问题与答案的特征,从而完成抽取任务。在一些可行的实施方式当中,在进行实体识别时,选择对实体原生的一种文本解释来当做描述性文本,如实体地点,则使用描述性文本:找出地理位置,然后根据实体类别个数N,把一条原始文本生成N条数据。
因而,在本实施例中根据抽取条件获取对应的实体标签数据,以后续根据实体标签数据对待抽取文本进行实体抽取。
步骤S30,将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
在一实施例中,将待抽取文本和对应的实体标签数据输入预训练的全局首尾神经网络模型,由全局首尾神经网络模型预测并输出对应的目标文本,也即得到该待抽取文本对应的目标实体。其中,全局首尾神经网络模型基于全局指针网络训练得到,全局指针网络将首尾位置视为一个整体,也即模型以实体序列为基本单位进行训练与评估,保证了训练与预测目标的一致性。训练后的模型根据对应的实体标签数据,能对原始文本进行序列标注,从而找到所需要的文本片段及片段中的目标文本。因此,通过本实施例基于全局首尾神经网络模型进行命名实体识别解决了传统实体的首尾抽取不连贯与不一致的问题,进而提高了文本提取的准确性。
本实施例通过获取待抽取文本,并基于待抽取文本确认对应的抽取条件,根据抽取条件生成对应的实体标签数据,再将待抽取文本和实体标签数据输入预训练的全局首尾神经网络模型,通过全局首尾神经网络模型抽取出目标文本。在本发明实施例的文字提取的过程中,采用阅读理解技术,根据不同的待抽取文本确定抽取条件,在得到抽取条件后匹配记有类别的描述信息的实体标注数据,再通过预训练的全局首尾神经网络模型进行抽取。由此,该方法适合金融领域中同一个实体片段有多个嵌套类别的场景以及适合金融领域中长短不一且复杂的实体识别,并且识别准确率高。
进一步地,基于本发明文本抽取方法第一实施例,提出本发明文本抽取方法第二实施例。
参照图3,图3为本发明文本抽取方法一实施例中构建全局首尾神经网络模型的流程示意图,在第二实施例中,所述获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤之前,所述方法包括:
步骤A,创建所述全局首尾神经网络模型,具体包括:
步骤A1,基于不同类型的文档构建对应的抽取问题,并获取对应的需要提取的实体的所有类别,生成实体类别描述文本;
步骤A2,基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据;
步骤A3,将所述训练集数据输入预训练模型,解析得到文本特征向量;
步骤A4,将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵;
步骤A5,基于所述全局指针矩阵和所述训练集数据,通过交叉熵损失函数计算模型的损失值,当所述损失值满足预设值时,训练得到所述全局首尾神经网络模型。
在本实施例中,在使用该全局首尾神经网络模型之前还需要对其进行训练。具体地,根据不同类型的文档数据对其进行训练。可以理解的,不同类型的文本具有不同的内容,必然其对应的标签数据也不同。在对不同类型的文档进行抽取时所需的条件也不同,因此,本实施例中对不同类型的文档进行分类并打上对应的标签。
参照图4,图4为本发明文本抽取方法一实施例全局首尾神经网络模型示意图。如图4所示,采用的基于阅读理解的实体识别模型的结构为类BERT(Bidirectional EncoderRepresentation from Transformer)的预训练模型接全局首尾指针神经网络层。
以下采用保险条款文档的抽取为例,常见的保险条款文档的抽取主要是抽出其中的重要的金融信息:保险名称、保险代码、保险期限、保险费率、保险类型等。
该模型的训练步骤如下:
(1)整理需要提取的实体的所有类别,生成类别的描述文本,比如保险名称对应:找出保险的名称;保险费率对应:找出保险的费用比率。
(2)对批量的保险文本信息打上实体标签,记录标签类别和其文字位置信息;
(3)生成训练集数据,每一条数据构成为:类别的描述文本,原始文本,类别在原始文字中的位置信息。若一条数据有多个实体,则生成多条数据。比如:该保险为期三年,费率为5.0%。该条数据有两类实体类型:保险期限(三年,位置为5,6),保险费率(5.0%,位置为11,14)。生成两条数据:
【找出保险的期限长度】【该保险为期三年,费率为5.0%。】【5,6,三年】
【找出保险的费用比率】【该保险为期三年,费率为5.0%。】【11,14,5.0%】
(4)对有实体标签的数据进行预处理。进一步地,在一实施例中,所述基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据的步骤包括:
步骤A21,基于所述实体类别描述文本给所述文档中的文本打上实体标签,并记录所述实体标签的类别和所述类别在原始文字中的位置信息;
步骤A22,基于所述位置信息和所述实体标签的类别,使用全局指针标签,输出所述带有实体标签的数据的类别矩阵;
步骤A23,根据所述实体标签对所述类别矩阵进行值的填充,生成训练集数据。
在一实施例中,数据预处理中采用全局指针标签。真实输出标签为一个纬度为(序列长度,序列长度)的矩阵,默认值全为0,再根据标签进行值的填充。沿用上述例子如文字“三年”在文本中位置信息为5,6,那么该矩阵的[5,6]元素为1。
(5)构建模型,所采用的序列标注模型结构为类BERT的预训练模型接一个全局指针层。详细构造为:经过预训练模型解析后得到的文本特征向量,代表了每个输入序列在各个维度的语义信息,此时将文本特征向量输入全局指针层,得到全局指针矩阵。
可选地,在一实施例中,所述将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵的步骤包括:
步骤A41,将所述文本特征向量与所述全局首尾指针层中预构建的第一全连接层和第二全连接层进行乘积变换,得到一个启始指针矩阵和一个结尾指针矩阵;
步骤A42,将所述启始指针矩阵与所述全局首尾指针层中的双仿射矩阵进行乘积变换,得到新启始指针矩阵;
步骤A43,将所述结尾指针矩阵和所述新启始指针矩阵进行乘积变换得到全局指针矩阵。
参照图5,图5为本发明文本抽取方法一实施例的全局指针层的示意图。具体而言,构造两个独立的矩阵也即图中全连接层包含的NNstart及NNend,与BERT模型最后一个隐层输出的文本的特征向量[batch_size,seq_len,hidden_size]进行乘积变换,实现文本特征之间的关联,得到一个启始指针矩阵(也即图中的句首矩阵)和一个结尾指针矩阵(也即图中的句尾矩阵)[batch_size,seq_len,num_cate,head];再构造一个独立的注意力矩阵也即图中的双仿射矩阵[hidden_size,num_cate,head_size],和启始指针矩阵根据einusm爱因斯坦求和约定进行乘积变换,得到新的启始指针矩阵(图中省略),最后将新的启始指针矩阵和句尾矩阵这两个最终的矩阵进行乘积变换作为全局指针的输出,维度为[batch_size,num_cate,seq_len,seq_len]的全局指针矩阵。这样可以让标签类别的启始矩阵和结尾矩阵不再没有关联,每一个标签类别都有一个维度为(序列长度,序列长度)的矩阵来表示标签类别的启始位置。由于我们是基于阅读理解来进行实体的抽取,每条样本都需要在输入中添加类别描述作为限制条件,所以最终输出的实体即是描述对应的实体类别,所以最终的矩阵类别个数为1。其中,seq_len指文本序列长度,hidden_size指隐层大小,batch_size指批处理的样本数量,seq_len指文本序列长度,num_cate指需要识别的实体种类个数,head指注意力矩阵的头部大小。
(6)用标注数据进行模型的训练与拟合。使用交叉熵构造模型的损失函数,以此损失函数训练模型,并设定预设值,当损失函数的计算值满足预设值时训练完毕。并且在训练过程中,使用部分验证集来验证模型的效果。
(7)模型训练完毕后,保存模型的整体结构及权重,加载保存的模型,根据输入的文本信息结合不同的类别描述文本进行预测,模型便可以预测并抽取金融文本信息中对应的实体片段了。
可选地,步骤A1在根据不同的类型的文档构建对应的抽取问题时,考虑该文档被应用的具体场景,获取实际的应用需求,并根据不同的场景需求构建抽取问题。进一步地,与该方式对应的,在一实施例中,所述将获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤包括:
步骤S11,获取应用场景需求;
步骤S12,基于所述应用场景需求和所述待抽取文本确认对应的抽取条件。
在一实施例中,获取应用场景需求,根据应用场景需求和待抽取文本确认对应的抽取条件。其中,应用场景需求为抽取出目标文本后的用处,例如同样是一份保险合同,若应用的需求为构建数据库,则需要包括保险责任给付的条件、结果、限制,投/被保险人信息,签订时间等等详细的各类数据;而若应用的需求为业务数据的统计,则可以抽取出保险合同中关于业务部分的数据,如投保额、投保周期、投保类型等,其他关于条款的内容则不需要抽取。因此,在获取抽取条件时,还需要考虑待抽取文本的应用场景需求。
本实施例中通过基于不同类型的文档构建对应的抽取问题,并获取对应的需要提取的实体的所有类别,生成实体类别描述文本,再根据实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据,将训练集数据输入预训练模型,解析得到文本特征向量,把文本特征向量输入全局首尾指针层,输出全局指针矩阵,基于全局指针矩阵和训练集数据,通过交叉熵损失函数计算模型的损失值,当损失值满足预设值时,训练得到所述全局首尾神经网络模型。本实施例中构造的全局首尾神经网络模型训练时所输入的文本及实体类别描述文本是基于阅读理解得到的,进而在进行命名实体识别时,解决传统方法里实体嵌套的问题,同时,基于全局指针网络进行命名实体识别,建立了实体首尾之间的联系,解决了传统实体的首尾抽取不连贯与不一致的问题。
进一步地,基于本发明文本抽取方法在前实施例,提出本发明文本抽取方法第三实施例。
在第三实施例中,所述获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤包括:
步骤S11,获取待抽取文本,并确认所述待抽取文本的类别;
步骤S12,将所述待抽取文本的类别与所述不同类型的文档的类别进行匹配,并得到类别匹配结果;
步骤S13,基于所述类别匹配结果生成对应的抽取条件。
在一实施例中,获取到待抽取文本后对其进行分类,并根据各个待抽取文本对应的类别匹配对应的抽取条件。可以理解的,在训练过程中获取了不同类型的文档,并标注了对应的类别描述文本,基于训练时采用的不同类型的文档的类别对类别描述文本进行分类,生成抽取条件,当获取到待抽取文本后,确认待抽取文本的类别,比如待抽取的是保险文档,就匹配对应的保险类别的抽取条件,从而得到对应的要提取内容的类别描述数据。具体而言,待抽取文本可以分类为:保险文档、法律条款、合同、基金文档。参照图6,图6为本发明文本抽取方法一实施例的整体流程图,对本发明的实施过程进行概述。首先,输入文本,也即输入待抽取文本后,处理为N个原始文本(图中的输入文本)和与其对应的N个实体标注数据(图中的实体类别描述1),将原始文本和实体标注数据输入全局首尾神经网络模型,由模型得到各实体类别的首尾得分矩阵,最终得到该输入文本的所有实体,也即目标文本。
进一步地,在一实施例中,所述根据所述抽取条件生成所述待抽取文本对应的实体标签数据的步骤包括:
步骤S21,根据所述抽取条件获取与所述不同类型的文档对应的实体类别描述文本;
步骤S22,基于所述实体类别描述文本生成所述待抽取文本对应的实体标签数据。
在一实施例中,在模型训练的过程中获取了大量的文档数据,并设置了对应的类别描述文本,基于训练数据的目标抽取文档和类别描述文本生成对应的抽取条件。当需要识别待抽取文本的时候,直接根据已有的训练数据,为待抽取文本选择对应的类别描述文本,再基于类别描述文本得到实体标签数据,对待抽取文本进行处理得到原始文本,将原始文本和实体标签数据一起输入全局首尾神经网络模型进行文本提取。
本实施例通过获取待抽取文本,并确认待抽取文本的类别,将确认后的类别与不同类型的文档的类别进行匹配,再基于类别匹配结果生成对应的抽取条件,其中,抽取条件是基于训练时的文档和对应的类别描述文本生成的。通过本实施例方案实现了抽取条件的快速生成,进而提高了整体文本抽取的速度。
本发明还提供一种文本抽取装置。如图7所示,图7是本发明文本抽取装置一实施例的功能模块示意图。
本发明文本抽取装置包括:
获取模块,用于获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
生成模块,用于根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
抽取模块,用于将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
可选地,所述文本抽取装置还包括:
模型创建模块,用于创建所述全局首尾神经网络模型,具体包括:
基于不同类型的文档构建对应的抽取问题,并获取对应的需要提取的实体的所有类别,生成实体类别描述文本;
基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据;
将所述训练集数据输入预训练模型,解析得到文本特征向量;
将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵;
基于所述全局指针矩阵和所述训练集数据,通过交叉熵损失函数计算模型的损失值,当所述损失值满足预设值时,训练得到所述全局首尾神经网络模型。
可选地,所述模型创建模块还用于:
将所述文本特征向量与所述全局首尾指针层中预构建的第一全连接层和第二全连接层进行乘积变换,得到一个启始指针矩阵和一个结尾指针矩阵;
将所述启始指针矩阵与所述全局首尾指针层中的双仿射矩阵进行乘积变换,得到新启始指针矩阵;
将所述结尾指针矩阵和所述新启始指针矩阵进行乘积变换得到全局指针矩阵。
可选地,所述模型创建模块还用于:
基于所述实体类别描述文本给所述文档中的文本打上实体标签,并记录所述实体标签的类别和所述类别在原始文字中的位置信息;
基于所述位置信息和所述实体标签的类别,使用全局指针标签,输出所述带有实体标签的数据的类别矩阵;
根据所述实体标签对所述类别矩阵进行值的填充,生成训练集数据。
可选地,所述获取模块还用于:
获取待抽取文档,并确认所述待抽取文档的类别;
将所述待抽取文本的类别与所述不同类型的文档的类别进行匹配,得到类别匹配结果;
基于所述类别匹配结果生成对应的抽取条件。
可选地,所述生成模块还用于:
根据所述抽取条件获取与所述不同类型的文档对应的实体类别描述文本;
基于所述实体类别描述文本生成所述待抽取文本对应的实体标签数据。
可选地,所述获取模块还用于:
获取应用场景需求;
基于所述应用场景需求和所述待抽取文本确认对应的抽取条件。
本发明还提供一种存储介质。
本发明存储介质上存储有文本抽取程序,所述文本抽取程序被处理器执行时实现如上所述的文本抽取方法的步骤。
其中,在所述处理器上运行的管理程序被执行时所实现的方法可参照本发明管理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本抽取方法,其特征在于,所述文本抽取方法包括以下步骤:
获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
2.如权利要求1所述的文本抽取方法,其特征在于,所述获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤之前,所述方法包括:
创建所述全局首尾神经网络模型,具体包括:
基于不同类型的文档构建对应的抽取问题,并获取对应的需要提取的实体的所有类别,生成实体类别描述文本;
基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据;
将所述训练集数据输入预训练模型,解析得到文本特征向量;
将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵;
基于所述全局指针矩阵和所述训练集数据,通过交叉熵损失函数计算模型的损失值,当所述损失值满足预设值时,训练得到所述全局首尾神经网络模型。
3.如权利要求2所述的文本抽取方法,其特征在于,所述将所述文本特征向量输入全局首尾指针层,输出全局指针矩阵的步骤包括:
将所述文本特征向量与所述全局首尾指针层中预构建的第一全连接层和第二全连接层进行乘积变换,得到一个启始指针矩阵和一个结尾指针矩阵;
将所述启始指针矩阵与所述全局首尾指针层中的双仿射矩阵进行乘积变换,得到新启始指针矩阵;
将所述结尾指针矩阵和所述新启始指针矩阵进行乘积变换得到全局指针矩阵。
4.如权利要求2所述的文本抽取方法,其特征在于,所述基于所述实体类别描述文本给所述文档中的文本打上实体标签,生成训练集数据的步骤包括:
基于所述实体类别描述文本给所述文档中的文本打上实体标签,并记录所述实体标签的类别和所述类别在原始文字中的位置信息;
基于所述位置信息和所述实体标签的类别,使用全局指针标签,输出所述带有实体标签的数据的类别矩阵;
根据所述实体标签对所述类别矩阵进行值的填充,生成训练集数据。
5.如权利要求2所述的文本抽取方法,其特征在于,所述获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤包括:
获取待抽取文档,并确认所述待抽取文档的类别;
将所述待抽取文本的类别与所述不同类型的文档的类别进行匹配,得到类别匹配结果;
基于所述类别匹配结果生成对应的抽取条件。
6.如权利要求5所述的文本抽取方法,其特征在于,所述根据所述抽取条件生成所述待抽取文本对应的实体标签数据的步骤包括:
根据所述抽取条件获取与所述不同类型的文档对应的实体类别描述文本;
基于所述实体类别描述文本生成所述待抽取文本对应的实体标签数据。
7.如权利要求1所述的文本抽取方法,其特征在于,所述将获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件的步骤包括:
获取应用场景需求;
基于所述应用场景需求和所述待抽取文本确认对应的抽取条件。
8.一种文本抽取装置,其特征在于,所述文本抽取装置包括:
获取模块,用于获取待抽取文本,并基于所述待抽取文本确认对应的抽取条件;
生成模块,用于根据所述抽取条件生成所述待抽取文本对应的实体标签数据;
抽取模块,用于将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网络模型,抽取出目标文本。
9.一种文本抽取设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本抽取程序,所述文本抽取程序配置为实现如权利要求1至7中任一项所述的文本抽取方法的步骤。
10.一种存储介质,其特征在于,所述计算机可读存储介质上存储有文本抽取程序,所述文本抽取程序被处理器执行时实现如权利要求1至7任一项所述的文本抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210987962.5A CN115357699A (zh) | 2022-08-17 | 2022-08-17 | 文本抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210987962.5A CN115357699A (zh) | 2022-08-17 | 2022-08-17 | 文本抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115357699A true CN115357699A (zh) | 2022-11-18 |
Family
ID=84003468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210987962.5A Pending CN115357699A (zh) | 2022-08-17 | 2022-08-17 | 文本抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115357699A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306657A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN117351324A (zh) * | 2023-12-04 | 2024-01-05 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
WO2024146427A1 (zh) * | 2023-01-04 | 2024-07-11 | 浙江阿里巴巴机器人有限公司 | 智能问答方法、装置、设备及存储介质 |
-
2022
- 2022-08-17 CN CN202210987962.5A patent/CN115357699A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024146427A1 (zh) * | 2023-01-04 | 2024-07-11 | 浙江阿里巴巴机器人有限公司 | 智能问答方法、装置、设备及存储介质 |
CN116306657A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN116306657B (zh) * | 2023-05-19 | 2023-08-22 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN117351324A (zh) * | 2023-12-04 | 2024-01-05 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
CN117351324B (zh) * | 2023-12-04 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN109271521B (zh) | 一种文本分类方法及装置 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111612081B (zh) | 识别模型的训练方法、装置、设备及存储介质 | |
CN112560504B (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
CN112784573A (zh) | 文本情感内容分析方法、装置、设备及存储介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN114626380A (zh) | 实体识别的方法和装置、电子设备和存储介质 | |
CN114708595A (zh) | 图像文献结构化解析方法、系统、电子设备、存储介质 | |
CN116644183A (zh) | 文本分类方法、装置及存储介质 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN115617964A (zh) | 营销私域运营场景的对话方法、系统、计算机及存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |