CN110781276A

CN110781276A - 文本抽取方法、装置、设备及存储介质

Info

Publication number: CN110781276A
Application number: CN201910885399.9A
Authority: CN
Inventors: 郝正鸿; 许开河; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-02-11
Anticipated expiration: 2039-09-18
Also published as: WO2021051871A1; CN110781276B

Abstract

本发明公开一种文本抽取方法、装置、设备及存储介质，该方法包括：提取待抽取文本中包含的抽取类型标识；若抽取类型标识为字段抽取则调用多线程处理脚本将待抽取文本切分成句子集合并将句子集合中的句子转化为句子向量；对句子向量进行拼接获得目标句子向量后输入至第一条件随机场模型获取第一预测结果；根据第一预测结果采用精确匹配检索算法从待抽取文本中抽取目标字段。本发明根据抽取类型标识确定抽取长度，针对不同的抽取长度选用对应的条件随机场模型进行文本抽取使文本抽取更具针对性，同时采用多线程处理脚本进行文本切分提高了文本抽取的整体效率，通过精确匹配检索算法提取目标字段也保证了目标字段抽取的准确性。

Description

文本抽取方法、装置、设备及存储介质

技术领域

本发明涉及文本处理技术领域，尤其涉及一种文本抽取方法、装置、设备及存储介质。

背景技术

信息抽取是将文档(如简历类、保险条款类、百科类、合同类等多种业务场景的文档)中的非结构化数据自动提取转换为结构化数据的过程，例如将租赁合同中签约双方的名称、签约时间、签约地址等非结构化数据进行提取并转换等。

信息抽取从抽取内容角度划分主要包括实体抽取、关系抽取、事件抽取，从抽取长度划分主要包括词汇抽取和字段/段落抽取。另外，也分开放域信息抽取和封闭域信息抽取。随着深度神经网络的发展和计算机算力的增强，现有的信息抽取方法主要是基于大规模的标注数据训练参数量级较大的端到端的深度学习模型，然后基于训练出的模型进行不同业务场景下的文本信息抽取。这种信息抽取方式并未针对不同的抽取长度进行分类抽取，导致最终的抽取结果针对性不强、准确度不高、降低了信息抽取的效率。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种文本抽取方法、装置、设备及存储介质，旨在解决现有的信息抽取技术抽取结果针对性不强、准确度不高、抽取效率较低的技术问题。

为实现上述目的，本发明提供了一种文本抽取方法，所述方法包括以下步骤：

读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识；

在检测到所述抽取类型标识为字段抽取时，调用多线程处理脚本将所述待抽取文本切分成句子集合；

通过所述多线程处理脚本将所述句子集合中的句子转化为句子向量；

对所述句子向量进行拼接，以获得目标句子向量；

将所述目标句子向量输入至第一条件随机场模型，获取所述第一条件随机场模型输出的第一预测结果；

根据所述第一预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标字段。

优选地，所述通过所述多线程处理脚本将所述句子集合中的句子转化为句子向量的步骤，包括：

通过所述多线程处理脚本将所述句子集合中的句子输入至预训练语言模型，以获得所述预训练语言模型输出的各句子对应的句子向量；

所述对所述句子向量进行拼接，以获得目标句子向量的步骤，包括：

获取各句子在所述待抽取文本中所处的文本位置信息，并根据所述文本位置信息确定各句子对应的句子顺序；

按所述句子顺序对所述句子向量进行拼接以获得目标句子向量。

优选地，所述读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识的步骤之前，所述方法还包括：

获取若干个用户标注文档，对所述用户标注文档进行向量化以获得标注文本向量，所述标注文本向量中包含观察文本序列；

将所述标注文本向量输入至初始条件随机场模型，以使所述初始条件随机场模型基于所述观察文本序列进行模型训练，获得待验证条件随机场模型；

对所述待验证条件随机场模型进行模型评估，在评估结果满足预设条件时，将所述待验证条件随机场模型作为所述第一条件随机场模型。

优选地，所述读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识的步骤之后，所述方法还包括：

在检测到所述抽取类型标识为词汇抽取时，调用多线程处理脚本将所述待抽取文本切分成若干个句子；

获取每个句子与样本句子之间的相似度；

基于所述相似度从切分后的句子中筛选出所述样本句子对应的若干个目标句子；

根据所述目标句子构建候选句子集，将所述候选句子集中的句子向量化后输入至第二条件随机场模型；

获取所述第二条件随机场模型输出的第二预测结果，根据所述第二预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标词汇。

优选地，所述获取每个句子与样本句子之间的相似度的步骤，包括：

对切分后的句子进行分词处理，并获取分词后各词汇对应的词频-逆文本频率指数值；

根据所述词频-逆文本频率指数值确定各词汇所属句子所对应的句子关键词；

基于所述句子关键词获取各词汇所属句子与样本句子之间的相似度。

获取若干个用户标注文档，所述用户标注文档中包含多个预设标签类别的标签句子；

通过所述多线程处理脚本对所述标签句子进行分词处理，并根据分词后的句子词汇构建词汇字典；

计算所述词汇字典中每个词汇的词频-逆文本频率指数值，并根据计算结果构建词频-逆文本频率指数值矩阵；

根据所述词频-逆文本频率指数值矩阵获取所述标签句子对应的句子向量；

将所述句子向量输入至待训练的条件随机场模型进行训练，获得所述第二条件随机场模型。

优选地，所述根据所述词频-逆文本频率指数值矩阵获取所述标签句子对应的句子向量的步骤，包括：

对所述词频-逆文本频率指数值矩阵进行奇异值分解，获取奇异值集合；

从所述奇异值集合中选取预设数量的目标奇异值，根据所述目标奇异值对所述词频-逆文本频率指数值矩阵进行矩阵重构，获得目标矩阵；

基于所述目标矩阵获取所述标签句子对应的句子向量。

此外，为实现上述目的，本发明还提出一种文本抽取装置，所述装置包括：

文本获取模块，用于读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识；

句子切分模块，用于在检测到所述抽取类型标识为字段抽取时，调用多线程处理脚本将所述待抽取文本切分成句子集合；

向量转化模块，用于通过所述多线程处理脚本将所述句子集合中的句子转化为句子向量；

向量拼接模块，用于对所述句子向量进行拼接，以获得目标句子向量；

模型预测模块，用于将所述目标句子向量输入至第一条件随机场模型，获取所述第一条件随机场模型输出的第一预测结果；

文本抽取模块，用于根据所述第一预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标字段。

此外，为实现上述目的，本发明还提出一种文本抽取设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本抽取程序，所述文本抽取程序配置为实现如上文所述的文本抽取方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有文本抽取程序，所述文本抽取程序被处理器执行时实现如上文所述的文本抽取方法的步骤。

本发明通过读取待抽取文本，提取待抽取文本中包含的抽取类型标识；在检测到抽取类型标识为字段抽取时，调用多线程处理脚本将待抽取文本切分成句子集合；通过多线程处理脚本将句子集合中的句子转化为句子向量；对句子向量进行拼接，以获得目标句子向量；将目标句子向量输入至第一条件随机场模型，获取第一条件随机场模型输出的第一预测结果；根据第一预测结果采用精确匹配检索算法从待抽取文本中抽取目标字段。本发明根据抽取类型标识确定抽取长度，针对不同的抽取长度选用对应的条件随机场模型对文本进行文本抽取使文本抽取更具针对性，同时本发明采用多线程处理脚本进行文本切分提高了文本抽取的整体效率，通过精确匹配检索算法提取目标字段也保证了目标字段抽取的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的文本抽取设备的结构示意图；

图2为本发明文本抽取方法第一实施例的流程示意图；

图3为本发明文本抽取方法第二实施例的流程示意图；

图4为本发明文本抽取方法第三实施例的流程示意图；

图5为本发明文本抽取装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的文本抽取设备结构示意图。

如图1所示，该文本抽取设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccessMemory，RAM)存储器，也可以是稳定的非易失性存储器(Non-VolatileMemory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对文本抽取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及文本抽取程序。

在图1所示的文本抽取设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明文本抽取设备中的处理器1001、存储器1005可以设置在文本抽取设备中，所述文本抽取设备通过处理器1001调用存储器1005中存储的文本抽取程序，并执行本发明实施例提供的文本抽取方法。

本发明实施例提供了一种文本抽取方法，参照图2，图2为本发明文本抽取方法第一实施例的流程示意图。

本实施例中，所述文本抽取方法包括以下步骤：

步骤S10：读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识；

需要说明的是，本实例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备，例如智能手机、平板电脑、个人电脑等，也可以是预先装载在上述计算服务设备上的文本抽取工具。另外，本实施例在具体实现场景中，用户需要先上传样本文档至所述文本抽取工具，该样本文档中标注有需要抽取的段落/字段或词汇，由文本抽取工具根据这些样本文档对未训练的初始条件随机场(Conditional Random Field，CRF)模型进行训练获得专用于字段抽取的CRF模型，或者是专用于词汇抽取的CRF模型；然后再基于这些训练好的CRF模型进行段落/字段抽取或者词汇抽取。

应理解的是，所述抽取类型标识包括字段抽取和词汇抽取。本实施例中针对字段抽取和词汇抽取这两类不同的应用场景，用户只需要标注少量(几篇或十几篇)样本文档，即可实现高准确率地从同类文档中抽取相同的词汇或段落。此外，本步骤中所述抽取类型标识需要用户在上传所述待抽取文本时一并选择，以使得待抽取文本中携带有用于确定该文本具体抽取类型的标识或标记。

在具体实现中，文本抽取工具读取用户上传的待抽取文本，并提取待抽取文本中包含的抽取类型标识。

步骤S20：在检测到所述抽取类型标识为字段抽取时，调用多线程处理脚本将所述待抽取文本切分成句子集合；

应理解的是，所述字段抽取即对段落或句子进行抽取。因此，本实施例中文本抽取工具可先对待抽取文本按句子维度进行切分，获得待抽取文本对应的若干个句子，然后将这些切分后的句子组成一个句子集合。所述多线程处理脚本可以是预先编写的实现多个线程并发执行文本切分操作的计算机程序或代码文件。

步骤S30：通过所述多线程处理脚本将所述句子集合中的句子转化为句子向量；

需要说明的是，本实施例中将句子转化为句子向量，可以是先通过多线程处理脚本对句子进行分词处理，然后获取分词后的词汇维度(例如句子“我喜欢看电视，不喜欢看电影”对应的词汇维度为：我，喜欢，看，电视，电影，不，也)，再统计出分词后各词汇的词频“我1，喜欢2，看2，电视1，电影1，不1，也0”，最后根据各词汇的词频对句子进行向量转化获得句子向量“[1,2,2,1,1,1,0]”。当然，具体的句子向量化方式还可以其它方式，本实施例对此不作具体限制。

步骤S40：对所述句子向量进行拼接，以获得目标句子向量；

应理解的是，为了对整篇待抽取文档进行字段抽取，避免遗漏需要抽取的目标字段，本实施例中所述文本抽取工具还将对各句子所对应的句子向量按照文本的段落顺序进行拼接，获得最终用来输入到CRF模型中的目标句子向量。

进一步地，考虑到BERT模型(一种预训练语言表示的方法，它是在大量文本语料(例如维基百科)上训练的一个通用“语言理解”模型)相较于其它语言模型在自然语言处理方面优势明显，本实施例优选通过BERT模型来对句子进行向量化。

具体的，可通过所述多线程处理脚本将所述句子集合中的句子输入至预训练语言模型(即上述BERT模型)，以获得所述预训练语言模型输出的各句子对应的句子向量；然后获取各句子在所述待抽取文本中所处的文本位置信息，并根据所述文本位置信息确定各句子对应的句子顺序；再按所述句子顺序对所述句子向量进行拼接以获得目标句子向量。

步骤S50：将所述目标句子向量输入至第一条件随机场模型，获取所述第一条件随机场模型输出的第一预测结果；

需要说明的是，由于字段抽取和词汇抽取的应用场景可能不同，而不同的应用场景对文本抽取结果的准确度等要求也可能存在差异。因此本实施例中用户在通过文本抽取工具进行文本信息抽取时，可分别针对不同的文本抽取类型训练不同的CRF模型。本实施例将专用于段落/字段抽取的CRF模型作为第一条件随机场模型。

此外，在执行本实施例上述步骤S10之前，用户需根据实际需求在文本抽取工具上进行初始CRF模型的训练。具体的，文本抽取工具可获取若干个用户标注文档，对所述用户标注文档进行向量化以获得标注文本向量，所述标注文本向量中包含观察文本序列；将所述标注文本向量输入至初始条件随机场模型，以使所述初始条件随机场模型基于所述观察文本序列进行模型训练，获得待验证条件随机场模型；对所述待验证条件随机场模型进行模型评估，在评估结果满足预设条件时，将所述待验证条件随机场模型作为所述第一条件随机场模型。其中，所述预设条件可以是模型的评估结果(例如预测结果的准确率)满足使用标准，如预测结果的准确率超过95％等，本实施例对此不加以限制。

应理解的是，CRF模型，即条件随机场模型，是在最大熵模型和隐马尔可夫模型的基础上提出的一种无向图学习模型，是一种用于标注和切分有序数据的条件概率模型。模型最终求取的条件概率为P＝(y1……yn丨x)，即从文本中求一个标识序列y1……yn使得该标识序列y1……yn在观察序列x(即被用户标注的字段)的条件下概率最大。换言之，本实施例中条件随机场模型求取的标识序列能够使其对应的观察序列与样本文档中用户预先标注的观察序列相同或最相似(即条件概率最大)，从而实现对目标字段的精准提取。

实际应用中，CRF模型训练可按如下方式：

(1)按照以下方式对样本文档中需要抽取的字段或词汇进行标注，例如需要抽取的字段为“承租人:张三(中国)投资有限公司”，则用户需要对样本文档中包含的所有“承租人:张三(中国)投资有限公司”的字段进行标注(即下述观察序列)，如：

观察序列：承租人:张三(中国)投资有限公司

标识序列：O O O O B I I I I I I I I I I E

(2)将标注后的样本文档输入至初始CRF模型进行训练，以使初始CRF模型通过多个包含上述标注的样本文档进行条件概率(函数)的自学习，使得训练后的CRF模型可以通过观察序列预测出正确的标识序列。

其中，观察序列即用户标注的字段或词汇，标识序列为文本抽取工具基于观察序列利用OBIE(ontology-based information extraction)方法自动生成的文本序列，上述观察文本序列则为所述观察序列向量化之后的文本序列。

在具体实现中，文本抽取工具可将拼接后的目标句子向量输入至第一条件随机场模型，然后获取所述第一条件随机场模型输出的第一预测结果。可理解的是，通常情况下，待抽取文档中可能包含多个与观察序列相同或相似的字段，因此第一条件随机场输出的第一预测结果中也通常包括多个条件概率，例如字段1的条件概率P1:98％，字段2的条件概率P2:95％，字段3的条件概率P3:90％等。

步骤S60：根据所述第一预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标字段。

可理解的是，所述精确匹配检索算法，又称精确匹配检索，是指检索词与资源库中某一字段完全相同的检索方式。精确匹配是指将输入的检索词当固定词组进行检索，本实施例中文本抽取工具可将预测结果中条件概率对应的字段作为“固定词组”进行检索，从而提取出检索到的目标字段。

具体的，文本抽取工具可以将第一预测结果中的条件概率按从高到低进行排序，然后选取排序靠前的一个或多个条件概率，再将这些条件概率对应的字段均作为目标字段通过精确匹配检索进行文本抽取；当然，文本抽取工具也可以根据预先设定的条件概率阈值来对预测结果中包含的条件概率进行筛选，例如将条件概率值高于所述条件概率阈值的所有条件概率均作为目标条件概率，然后根据目标条件概率来确定目标字段，再基于目标字段通过精确匹配检索进行文本抽取。本实施例对根据第一预测结果确定目标字段所采用的方式并不做具体限制。

本实施例通过读取待抽取文本，提取待抽取文本中包含的抽取类型标识；在检测到抽取类型标识为字段抽取时，调用多线程处理脚本将待抽取文本切分成句子集合；通过多线程处理脚本将句子集合中的句子转化为句子向量；对句子向量进行拼接，以获得目标句子向量；将目标句子向量输入至第一条件随机场模型，获取第一条件随机场模型输出的第一预测结果；根据第一预测结果采用精确匹配检索算法从待抽取文本中抽取目标字段。本实施例根据抽取类型标识确定抽取长度，针对不同的抽取长度选用对应的条件随机场模型对文本进行文本抽取使文本抽取更具针对性，同时本实施例采用多线程处理脚本进行文本切分提高了文本抽取的整体效率，通过精确匹配检索算法提取目标字段也保证了目标字段抽取的准确性。

参考图3，图3为本发明文本抽取方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10之后，所述方法还包括：

步骤S201：在检测到所述抽取类型标识为词汇抽取时，调用多线程处理脚本将所述待抽取文本切分成若干个句子；

应理解的是，所述词汇抽取又称点(point)抽取，即对字符或词语进行提取。同样的，在进行词汇抽取前用户需要先在样本文档中标注出待抽取的词汇，如合同签约方、签约时间、签约地址等不同维度的词汇，且为不同维度的词汇配置不同的标签类别，如人物、时间、地址等。

在具体实现中，文本抽取工具在根据待抽取文本中携带的抽取类型标识或标记确定该待抽取文本为词汇抽取时，可调用多线程处理脚本将待抽取文本切分成若干个句子。

步骤S301：获取每个句子与样本句子之间的相似度；

需要说明的是，由于用户在通过文本抽取工具对待抽取文本进行词汇抽取前，同样需要通过文本抽取工具基于事先标注的样本文档(文档中包含被标注的字符或词汇)进行CRF模型的训练。因此，本实施例将样本文档中携带被标注的字符或词汇的句子作为所述样本句子。

应理解的是，通常情况下，两个句子越相似，它们所包含的词汇也越相近，因此本实施例文本抽取方法通过先查找与样本句子相似的句子，然后再从查找到的相似句子中提取目标词汇。

具体的，本实施例在计算句子之间的相似度时，可先通过词频统计技术来统计每个句子中各词汇的词频；然后根据统计结果来确定每个句子对应的关键词(集合)；再将句子关键词(集合)之间的相似度作为句子之间的相似度，从而能够提高句子间相似度计算的准确性。

目前的相似度计算算法包括余弦相似度算法、欧几里得距离算法、皮尔逊相关系数等。为提高相似度计算效率，降低计算量，本实施例所述相似度计算算法优选为通过计算向量夹角来计算相似度的余弦相似度算法。

进一步地，考虑到现有的词频统计技术虽然简单便捷，但缺陷也较为明显，例如采用词频统计技术进行词频统计的文档中“我”、“的”等出现频率很高的词汇通常被会赋予较高的权值，但是这些词汇本身无意义，一定程度上影响了句子关键词的确定。因此本实施例中优选通过使用词频-逆文本频率指数(Term Frequency Inverse Document Frequency，TF-IDF)算法来克服词频统计技术的上述缺陷。

具体的，文本抽取工具对切分后的句子进行分词处理，并基于TF-IDF算法获取分词后各词汇对应的词频-逆文本频率指数值(即TF-IDF值)；然后根据所述词频-逆文本频率指数值确定各词汇所属句子所对应的句子关键词；最后再基于所述句子关键词获取各词汇所属句子与样本句子之间的相似度。

其中，所述基于所述句子关键词获取各词汇所属句子与样本句子之间的相似度的步骤可具体包括：获取所述句子关键词对应的词频向量，然后采用余弦相似度算法计算各词汇所属句子的词频向量与样本句子的词频向量之间的余弦相似度。余弦相似度值越大，表明两个句子越相似；反之，则越不相似。

步骤S401：基于所述相似度从切分后的句子中筛选出所述样本句子对应的若干个目标句子；

应理解的是，对于样本文档中的每一个样本句子，待抽取文本中都可能存在多个与之相似的目标句子。故本实施例文本抽取工具需要先根据计算出的相似度来从切分后的句子中筛选出所述样本句子对应的若干个目标句子，然后再从这些目标句子中抽取出最终的目标词汇。

步骤S501：根据所述目标句子构建候选句子集，将所述候选句子集中的句子向量化后输入至第二条件随机场模型；

需要说明的是，本实施例将预先训练的专用于词汇抽取的CRF模型作为第二条件随机场模型。

在具体实现中，文本抽取工具可根据目标句子构建候选句子集，然后将句子集中的句子输入至BERT模型中并获取BERT模型输出的句子向量，在获取到这些句子向量后，文本抽取工具即可将这些句子向量输入至第二条件随机场模型来进行条件概率的预测。

步骤S601：获取所述第二条件随机场模型输出的第二预测结果，根据所述第二预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标词汇。

在具体实现中，文本抽取工具在获取到第二条件随机场模型输出的第二预测结果后，即可根据第二预测结果中包含的条件概率值来确定出需要抽取的目标词汇，然后根据确定出的目标词汇通过精确匹配检索算法从待抽取文本中提取检索到的所有目标词汇。

本实施例在检测到抽取类型标识为词汇抽取时，调用多线程处理脚本将待抽取文本切分成若干个句子；获取每个句子与样本句子之间的相似度；基于相似度从切分后的句子中筛选出样本句子对应的若干个目标句子；根据目标句子构建候选句子集，将候选句子集中的句子向量化后输入至第二条件随机场模型；获取第二条件随机场模型输出的第二预测结果，根据第二预测结果采用精确匹配检索算法从待抽取文本中抽取目标词汇，本实施例通过多线程处理脚本对待抽取文本进行句子切分，提高了切分效率，同时根据句子与样本句子之间的相似度来选取目标句子构建候选句子集，能够保证输入至条件随机场模型的句子与样本句子较为接近，降低模型运算量的同时提高了词汇抽取的准确度。

参考图4，图4为本发明文本抽取方法第三实施例的流程示意图。

基于上述第二实施例，本实施例文本抽取方法在上述步骤S10之前，还包括：

步骤S01：获取若干个用户标注文档，所述用户标注文档中包含多个预设标签类别的标签句子；

应理解的是，本实施例中所述用户标注文档，即用户事先进行字符或词汇标注的文本。所述预设标签类别可以是预先配置的，对不同维度的字符或词汇进行区分的标识，例如将出现合同签约双方的字符或词汇对应的标签配置为“人物”、将出现时间、时刻、时长的字符或词汇对应的标签配置为“时间”、将出现地点、场合的字符或词汇对应的标签配置为“地址”等。

在实际应用中，每一个用户标注文档都可由用户标注多个不同的标签类别，且每一标签类别对应的标签句子可以有多个。

步骤S02：通过所述多线程处理脚本对所述标签句子进行分词处理，并根据分词后的句子词汇构建词汇字典；

在具体实现中，文本抽取工具可通过多线程处理脚本对用户标注文档中包含的每个标签句子进行分词处理，然后对分词处理后的句子词汇进行停用词剔除，以去除句子词汇中包含的诸如“的”、“在”等停用词。在去除停用词后，文本抽取工具即可根据去停用词后的句子词汇构建词汇字典。例如，用户标注文档a包含标签类别为b的标签句子有n个，文本抽取工具可对这n个标签句子进行分词、去停用词处理，然后得到词汇数量为v的词汇字典。

步骤S03：计算所述词汇字典中每个词汇的词频-逆文本频率指数值，并根据计算结果构建词频-逆文本频率指数值矩阵；

在具体实现中，文本抽取工具可通过TF-IDF算法来计算词汇字典中每个词汇的词频-逆文本频率指数值(TF-IDF值)，然后基于计算出的TF-IDF值构建阶数为v*n的TF-IDF矩阵。

步骤S04：根据所述词频-逆文本频率指数值矩阵获取所述标签句子对应的句子向量；

应理解的是，对于词汇量较大的文档，其对应的TF-IDF矩阵可能比较复杂，矩阵越复杂计算机在处理时所占用的计算资源就越多，从而导致计算效率下降，也不利于从矩阵中筛选出较为重要的矩阵数据。因此，本实施例中文本抽取工具在获取到上述TF-IDF矩阵后，还将对该TF-IDF矩阵进行降维处理。

具体的，文本抽取工具可对所述词频-逆文本频率指数值矩阵进行奇异值分解，获取奇异值集合；然后从所述奇异值集合中选取预设数量的目标奇异值，根据所述目标奇异值对所述词频-逆文本频率指数值矩阵进行矩阵重构，获得目标矩阵；最后基于所述目标矩阵获取所述标签句子对应的句子向量。

应理解的是，在进行奇异值分解时，从奇异值分解(Singular ValueDecomposition，SVD)函数中得到的奇异值一般是按数值从大到小排列的，奇异值越大，表明它能越能够表征原来矩阵的信息，即信息含量越高，代表性越强。因此，本实施例文本抽取工具在获取到奇异值集合后，还可从奇异值集合中选取预设数量(例如奇异值较大的60或120个)的目标奇异值来重新构建矩阵，从而实现在不遗漏主要矩阵信息的情况下，对TF-IDF矩阵进行有效降维。其中，所述预设数量可根据实际情况设定，本实施例对此不作限制。

在具体实现中，文本抽取工具可在对词频-逆文本频率指数值矩阵进行SVD降维后，基于降维后的矩阵获取每个标签句子对应的句子向量。

步骤S05：将所述句子向量输入至待训练的条件随机场模型进行训练，获得所述第二条件随机场模型。

在具体实现中，文本抽取可将获得的句子向量输入至待训练的条件随机场模型中进行训练，从而获得以样本句子中标注的词汇为基准进行词汇相似度预测的第二条件随机场模型。

本实施例获取若干个用户标注文档，用户标注文档中包含多个预设标签类别的标签句子；通过多线程处理脚本对标签句子进行分词处理，并根据分词后的句子词汇构建词汇字典；计算词汇字典中每个词汇的词频-逆文本频率指数值，并根据计算结果构建词频-逆文本频率指数值矩阵；根据词频-逆文本频率指数值矩阵获取标签句子对应的句子向量；将句子向量输入至待训练的条件随机场模型进行训练，获得第二条件随机场模型，由于是通过每个词汇的词频-逆文本频率指数值构建的矩阵来获取标签句子对应的句子向量，然后基于句子向量对条件随机场模型进行训练，从而能够保证训练出的模型具有较高的准确度。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有文本抽取程序，所述文本抽取程序被处理器执行时实现如上文所述的文本抽取方法的步骤。

参照图5，图5为本发明文本抽取装置第一实施例的结构框图。

如图5所示，本发明实施例提出的文本抽取装置包括：

文本获取模块501，用于读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识；

句子切分模块502，用于在检测到所述抽取类型标识为字段抽取时，调用多线程处理脚本将所述待抽取文本切分成句子集合；

向量转化模块503，用于通过所述多线程处理脚本将所述句子集合中的句子转化为句子向量；

向量拼接模块504，用于对所述句子向量进行拼接，以获得目标句子向量；

模型预测模块505，用于将所述目标句子向量输入至第一条件随机场模型，获取所述第一条件随机场模型输出的第一预测结果；

文本抽取模块506，用于根据所述第一预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标字段。

基于本发明上述文本抽取装置第一实施例，提出本发明文本抽取装置的第二实施例。

在本实施例中，所述向量转化模块503，还用于通过所述多线程处理脚本将所述句子集合中的句子输入至预训练语言模型，以获得所述预训练语言模型输出的各句子对应的句子向量；相应地，所述向量拼接模块504，还用于获取各句子在所述待抽取文本中所处的文本位置信息，并根据所述文本位置信息确定各句子对应的句子顺序；按所述句子顺序对所述句子向量进行拼接以获得目标句子向量。

进一步地，本实施例文本抽取装置还包括：模型训练模块，用于获取若干个用户标注文档，对所述用户标注文档进行向量化以获得标注文本向量，所述标注文本向量中包含观察文本序列；将所述标注文本向量输入至初始条件随机场模型，以使所述初始条件随机场模型基于所述观察文本序列进行模型训练，获得待验证条件随机场模型；对所述待验证条件随机场模型进行模型评估，在评估结果满足预设条件时，将所述待验证条件随机场模型作为所述第一条件随机场模型。

进一步地，本实施例文本抽取装置还包括：词汇抽取模块，用于在检测到所述抽取类型标识为词汇抽取时，调用多线程处理脚本将所述待抽取文本切分成若干个句子；获取每个句子与样本句子之间的相似度；基于所述相似度从切分后的句子中筛选出所述样本句子对应的若干个目标句子；根据所述目标句子构建候选句子集，将所述候选句子集中的句子向量化后输入至第二条件随机场模型；获取所述第二条件随机场模型输出的第二预测结果，根据所述第二预测结果采用精确匹配检索算法从所述待抽取文本中抽取目标词汇。

进一步地，所述词汇抽取模块，还用于对切分后的句子进行分词处理，并获取分词后各词汇对应的词频-逆文本频率指数值；根据所述词频-逆文本频率指数值确定各词汇所属句子所对应的句子关键词；基于所述句子关键词获取各词汇所属句子与样本句子之间的相似度。

进一步地，所述模型训练模块，还用于获取若干个用户标注文档，所述用户标注文档中包含多个预设标签类别的标签句子；通过所述多线程处理脚本对所述标签句子进行分词处理，并根据分词后的句子词汇构建词汇字典；计算所述词汇字典中每个词汇的词频-逆文本频率指数值，并根据计算结果构建词频-逆文本频率指数值矩阵；根据所述词频-逆文本频率指数值矩阵获取所述标签句子对应的句子向量；将所述句子向量输入至待训练的条件随机场模型进行训练，获得所述第二条件随机场模型。

进一步地，所述模型训练模块，还用于对所述词频-逆文本频率指数值矩阵进行奇异值分解，获取奇异值集合；从所述奇异值集合中选取预设数量的目标奇异值，根据所述目标奇异值对所述词频-逆文本频率指数值矩阵进行矩阵重构，获得目标矩阵；基于所述目标矩阵获取所述标签句子对应的句子向量。

本发明文本抽取装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台文本抽取工具设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本抽取方法，其特征在于，所述方法包括：

对所述句子向量进行拼接，以获得目标句子向量；

2.如权利要求1所述的方法，其特征在于，所述通过所述多线程处理脚本将所述句子集合中的句子转化为句子向量的步骤，包括：

3.如权利要求1所述的方法，其特征在于，所述读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识的步骤之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识的步骤之后，所述方法还包括：

获取每个句子与样本句子之间的相似度；

5.如权利要求4所述的方法，其特征在于，所述获取每个句子与样本句子之间的相似度的步骤，包括：

6.如权利要求4所述的方法，其特征在于，所述读取待抽取文本，提取所述待抽取文本中包含的抽取类型标识的步骤之前，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述词频-逆文本频率指数值矩阵获取所述标签句子对应的句子向量的步骤，包括：

基于所述目标矩阵获取所述标签句子对应的句子向量。

8.一种文本抽取装置，其特征在于，所述装置包括：

9.一种文本抽取设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本抽取程序，所述文本抽取程序配置为实现如权利要求1至7中任一项所述的文本抽取方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有文本抽取程序，所述文本抽取程序被处理器执行时实现如权利要求1至7任一项所述的文本抽取方法的步骤。