CN112464927A

CN112464927A - 一种信息提取方法、装置及系统

Info

Publication number: CN112464927A
Application number: CN202011337788.7A
Authority: CN
Inventors: 王元
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09
Anticipated expiration: 2040-11-25
Also published as: CN112464927B; CA3140455A1

Abstract

本发明公开了一种信息提取方法、装置及系统。所述方法包括：获取文件中的文本信息及文本信息中字符的位置信息；根据所述文本信息构建若干句向量；结合所述位置信息对所述句向量分类，获取所述句向量的类别；根据所述句向量的类别生成结构化表示的字符串信息。本发明针对具有特定格式的文件提高了具有特定格式文件的信息提取的准确性，提升了信息提取的准确率、鲁棒性和通用性。

Description

一种信息提取方法、装置及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种信息提取方法、装置及系统。

背景技术

信息提取是一种将自然语言表述的文本信息转换成键值对，进行数据的结构化表示，以定位自然语言文档中特定信息的技术。目前，信息提取普遍采用自动学习的方法，常用的提取模型包括：基于正则文法推导的模型、基于模板推导的模型、基于结构比较的模型、基于视觉特征的模型等等。然而现有技术中，利用上述模型的信息提取方法对于普通文件以及具有特定格式文件的处理过程均相同，这样导致信息提取的准确率难以提升。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种信息提取方法、装置及系统。所述技术方案如下：

第一方面，提供了一种信息提取方法，所述方法包括：

获取文件中的文本信息及文本信息中字符的位置信息；

根据所述文本信息构建若干句向量；

结合所述位置信息对所述句向量分类，获取所述句向量的类别；

根据所述句向量的类别生成结构化表示的字符串信息。

进一步地，所述对所述句向量进行分类，获取所述句向量的类别，包括：

将所述句向量表征为节点，将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边，构建图网络；

利用图网络模型对所述图网络中的所述节点分类，获得所述句向量的类别。

进一步地，所述根据所述句向量的类别生成结构化表示的字符串信息，包括：

根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合，生成结构化表示的所述字符串信息。

进一步地，所述根据文本信息构建若干句向量，包括：

对所述文本信息进行分词处理，获得分词；

将所述分词转换成词向量；

根据所述词向量构建所述句向量。

进一步地，所述将所述分词转换成词向量，包括：利用词向量模型为所述分词匹配对应的所述词向量。

进一步地，所述根据所述词向量构建所述句向量，包括：利用词袋模型或统计模型处理所述词向量，构建所述句向量。

第二方面，提供了一种信息提取装置，所述装置包括：

识别模块，用于获取文件中的文本信息及文本信息中字符的位置信息；

句向量构建模块，用于根据所述文本信息构建若干句向量；

类别识别模块，用于结合所述位置信息对所述句向量分类，获取所述句向量的类别；

转换模块，用于根据所述句向量的类别生成结构化表示的字符串信息。

进一步地，所述类别识别模块，包括：

图构建模块，用于将所述句向量表征为节点，将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边，构建图网络；

分类模块，用于利用图网络模型对所述图网络中的所述节点分类，获得所述句向量的类别。

进一步地，所述转换模块，具体用于根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合，生成结构化表示的所述字符串信息。

进一步，句向量构建模块，包括：

分词处理模块，用于对文本信息进行分词处理，获得分词。

词向量获取模块，用于将分词转换成词向量。

构建模块，用于根据词向量构建句向量。

进一步地，词向量获取模块，具体用于利用词向量模型为分词匹配对应的词向量。

进一步地，构建模块，具体用于利用词袋模型或统计模型处理词向量，构建句向量。

第三方面，提供了一种计算机系统，包括：

一个或多个处理器；以及

与一个或多个处理器关联的存储器，存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时，执行上述第一方面所述的信息提取方法。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明针对具有特定格式的文件，结合文本信息中字符的位置信息对文本信息构建的句向量进行分类，根据句向量的类别生成结构化表示的字符串，使得在判断句向量类别时，参考文本和位置信息两个维度的指标，确保了分类的准确性，有利于按照句向量的类别确定句向量对应的文本信息的特性，进而提高了具有特定格式文件的信息提取的准确性；

2、本发明采用图网络模型进行结构化信息提取，相较于基于模板推导的模型能够适应不同长短的文本信息，可以有效提升信息提取的准确率、鲁棒性和通用性；

3、本发明在生成结构化表示的字符串信息时，根据位置信息对同一类别的句向量对应的文本信息进行拼接组合，通过位置信息确保文本信息拼接的正确性，使语义连贯。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的信息提取方法流程图；

图2是本发明实施例提供的信息提取装置结构示意图；

图3是本发明实施例提供的计算机系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的信息提取技术中没有针对特定格式文件的信息提取方法，然而我们发现特定格式文件的格式本身就含有结构信息，如果能将格式信息与文本的语义信息相结合进行信息提取，将能够进一步提高特定格式文件信息提取的准确性。因此为了进一步提高特定格式文件的信息提取的准确率，将特定格式文件的格式信息与语义信息结合，本发明公开一种信息提取方法、装置及系统，具体技术方案如下：

如图1所示，一种信息提取方法，包括：

S1、获取文件中的文本信息及文本信息中字符的位置信息。

上述，文件主要指具有特定格式的文件，具体可以是：营业执照、证书、身份证、发票等。文本信息主要指文件中的文字、数字、字母、特殊符号等字符，一般情况下文件中的标点符号作为划分文本信息中的句的依据，不包含在文本信息中。

在一个实施例中，步骤S1具体为采用光学字符识别技术获取文件图片中的文本信息及文本信息中字符在文件图片中的位置信息。

光学字符识别技术(OCR)包括：

S11、获取文件的文件图片，并对文件图片进行预处理；

S12、识别文件图片中文本的方向；

S13、文本检测；

S14、文本识别。

上述，文件图片可以是文件的照片也可以是文件的扫描件。对文件图片进行预处理，主要是针对图像的成像问题进行修正，包括：几何变换、去除模糊、图像增强、光线校正等等。文本检测主要为了确定图像中的文本区域，常用的方法是采用Faster R-CNN等深度学习模型方法。文本识别主要为识别文本检测定位出的一个字符或字符串，文本检测一般以文字行定位。步骤S1中所述的字符的位置信息一般为文本检测过程中自动划分的字符行的坐标。

S2、根据文本信息构建若干句向量。

上述，由于文本信息中每一个文字行的字数不等，因此需要构建固定维度的句向量来表示文字行，句向量是文本信息中一行字符的向量化表示。

在一个实施例中，步骤S2包括：

S21、对文本信息进行分词处理，获得分词；

S22、将分词转换成词向量；

S23、根据词向量构建句向量。

上述，步骤S21中的分词处理可以采用现有技术中的词典匹配法、自然语言模型分析法(NLP)、一元模型法、N元模型法等。步骤S22中将分词转换成词向量，可以通过词向量模型匹配的方法，即利用词向量模型为分词匹配对应的词向量。其中词向量模型通常采用训练完成的Word2Vec，Word2Vec以一个大型文本语料库作为输入，生成一个向量空间，语料库中每个唯一的单词在该空间中分配一个对应的向量。步骤S23中，构建句向量可以利用词袋模型(Bag Of Words)或者统计模型对词向量进行处理，构建句向量。词袋模型假定对于一个文本，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文本中每个单词的出现都是独立的，不依赖于其它单词是否出现，通过词频构建向量。统计模型例如TF-IDF、基于统计的共现矩阵模型、主题模型等等。

S3、结合所述位置信息对句向量分类，获取句向量的类别。

上述，对句向量进行分类，主要为了确定不同句向量对应的文本信息是否表示同一类型的信息，以便后续确定类型与文本信息的对应关系。具体地，根据不同的文件包括不同的句向量类别，例如，对于营业执照，句向量类别可以是：名称、类型、性质、法定代表人、成立日期、营业期限、经营范围等；对于身份证，句向量类别可以是：姓名、性别、出生日期、住址、身份证号码等。一般情况下，上述类别通常为结构化字符信息中的键(key)，句向量对应的文本信息通常为结构化字符信息中的值(value)。

在一个实施例中，步骤S3包括：

S31、将句向量表征为节点，将与句向量对应的文本信息所包含字符的位置信息表征为边，构建图网络；

S32、利用图网络模型对图网络中的节点分类，获得句向量的类别。

上述，由于句向量由文本信息中的一行字符转换而来，因此图网络中包含了文本信息中的各个句子以及各个句子中字符的位置信息。图网络模型是利用带有分类标记的图网络训练完成的神经网络模型。图网络模型具有高归纳偏置，因此其训练所需要的样本数据量要比一般的神经网络模型要少。分类时输出的是各节点在不同类别中的概率，根据该概率判断节点的类别，进而获得句向量的类别。本发明在对句向量分类时还考虑到了其中字符的位置信息，使得相同字符类型的文本信息对应的句向量在划分类别时更加准确，例如，在发票的信息提取过程中，表示单价和金额均采用的数值型字符，一般的信息提取方法容易将其混淆，而结合位置信息对其类型进行判断，则大大提高了准确性。此外，图网络模型不存在模板规定，相对于一般的模板推导模型，更加适用于长短不同的文本信息，更加灵活。

S4、根据句向量的类别生成结构化表示的字符串信息。

在一个实施例中，步骤S4包括：根据位置信息对同一类别的句向量对应的文本信息进行拼接组合，生成结构化表示的字符串信息。

上述，对文本信息的拼接组合按照字符的坐标的顺序进行，这样可以实现在不参考语义的情况下，保证各句向量对应的文本信息在拼接完成后的语义连贯通顺。需要说明的是，结构化表示的字符串信息主要指以键值对(key＝value)的形式输出字符串信息。

如图2所示，基于上述信息提取方法，本发明还提供一种信息提取装置，包括：

识别模块201，用于获取文件中的文本信息及文本信息中字符的位置信息。

上述，文件主要指具有特定格式的文件，文本信息主要指文件中的文字、数字、字母、特殊符号等字符，一般情况下文件中的标点符号作为划分文本信息中的句的依据，不包含在文本信息中。

在一个实施例中，识别模块201，具体用于采用光学字符识别技术获取所述文件图片中的所述文本信息及所述文本信息中字符在所述文件图片中的位置信息。

句向量构建模块202，用于根据文本信息构建若干句向量。

在一个实施例中，句向量构建模块202，包括：

分词处理模块，用于对文本信息进行分词处理，获得分词。

词向量获取模块，用于将分词转换成词向量。

构建模块，用于根据词向量构建句向量。

在一个实施例中，词向量获取模块，具体用于利用词向量模型为分词匹配对应的词向量。

在一个实施例中，构建模块，具体用于利用词袋模型或者统计模型处理词向量，构建句向量。

类别识别模块203，用于结合位置信息对句向量分类，获取句向量的类别。

在一个实施例中，类别识别模块203，包括：

图构建模块，用于将句向量表征为节点，将与句向量对应的文本信息所包含字符的位置信息表征为边，构建图网络。

分类模块，用于利用图网络模型对图网络中的节点分类，获得句向量的类别。

转换模块204，用于根据句向量的类别生成结构化表示的字符串信息。

在一个实施例中，转换模块204，具体用于根据位置信息对同一类别的句向量对应的文本信息进行拼接组合，生成结构化表示的字符串信息。

基于上述信息提取方法，本发明还提供一种计算机系统，包括：

一个或多个处理器；以及

与一个或多个处理器关联的存储器，存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时，执行上述信息提取方法。

其中，图3示例性的展示出了计算机系统的架构，具体可以包括处理器310，视频显示适配器311，磁盘驱动器312，输入/输出接口313，网络接口314，以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，与存储器320之间可以通过通信总线330进行通信连接。

其中，处理器310可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器320可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器320可以存储用于控制电子设备300运行的操作系统321，用于控制电子设备300的低级别操作的基本输入输出系统322(BIOS)。另外，还可以存储网页浏览器323，数据存储管理系统324，以及设备标识信息处理系统325等等。上述设备标识信息处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器320中，并由处理器310来调用执行。

输入/输出接口313用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口314用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线330包括一通路，在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，与存储器320)之间传输信息。

另外，该电子设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，存储器320，总线330等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例提供的技术方案带来的有益效果是：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息提取方法，其特征在于，包括：

获取文件中的文本信息及文本信息中字符的位置信息；

根据所述文本信息构建若干句向量；

根据所述句向量的类别生成结构化表示的字符串信息。

2.如权利要求1所述的方法，其特征在于，所述对所述句向量进行分类，获取所述句向量的类别，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述句向量的类别生成结构化表示的字符串信息，包括：

4.如权利要求1～3中任一项所述的方法，其特征在于，所述根据文本信息构建若干句向量，包括：

对所述文本信息进行分词处理，获得分词；

将所述分词转换成词向量；

根据所述词向量构建所述句向量。

5.如权利要求4所述的方法，其特征在于，所述将所述分词转换成词向量，包括：利用词向量模型为所述分词匹配对应的所述词向量。

6.如权利要求4所述的方法，其特征在于，所述根据所述词向量构建所述句向量，包括：利用词袋模型或统计模型处理所述词向量，构建所述句向量。

7.一种信息提取装置，其特征在于，包括：

句向量构建模块，用于根据所述文本信息构建若干句向量；

8.如权利要求7所述的装置，其特征在于，所述类别识别模块，包括：

9.如权利要求7所述的装置，其特征在于，所述转换模块，具体用于根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合，生成结构化表示的所述字符串信息。

10.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述权利要求1～6任一项所述的方法。