CN114022891A

CN114022891A - 扫描文本的关键信息提取方法、装置、设备及存储介质

Info

Publication number: CN114022891A
Application number: CN202111063699.2A
Authority: CN
Inventors: 石强; 刘雨桐; 熊娇; 王国勋
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-02-08

Abstract

本申请公开了一种扫描文本的关键信息提取方法、装置、计算机设备及存储介质，属于信息识别技术领域，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR扫描，并OCR扫描结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息使得关键信息提取模型获得更好的鲁棒性。

Description

扫描文本的关键信息提取方法、装置、设备及存储介质

技术领域

本申请属于信息识别技术领域，具体涉及一种扫描文本的关键信息提取方法、装置、设备及存储介质。

背景技术

关键信息提取是图像文字识别OCR一个常见和重要的下游任务。OCR只能给出一个文字框对应的识别字符串，然而实际应用场景往往需要结构化的文字输出。使用人力来从OCR结果中提取信息是重复且费时费力的。如何从文档图片中自动化地提取出关键信息成为一项亟待解决的挑战，受到学术界和工业界的广泛关注。

目前，OCR的下游任务存在非常多的应用场景，如卡证文字识别、票据文字识别等。常用的信息提取方法有基于预设的模板匹配算法或基于预设的规则匹配算法。其中，基于模板的匹配算法就是直接从图像中的固定位置提取信息，由于只使用了位置信息，因此适用于版面相对固定的业务场景，如身份证文字识别。而基于规则的匹配算法一般就是人工设计各种规则去匹配文本中内容，此方法对于图像倾斜等情况也可以处理，但最大弊端就是需要编写大量的规则才可能覆盖到所有的情况。所以，上述信息提取方法具不具备很好的鲁棒性，且针对于其中的每种版式或各种规则，都需要人工定制研发，这就需要额外耗费较大的人力资源。

发明内容

本申请实施例的目的在于提出一种扫描文本的关键信息提取方法、装置、计算机设备及存储介质，以解决现有关键信息提取方案存在的鲁棒性不强，且需要人工定制每种版式或各种规则，而导致的资源外耗的技术问题。

为了解决上述技术问题，本申请实施例提供一种扫描文本的关键信息提取方法，采用了如下所述的技术方案：

一种扫描文本的关键信息提取方法，包括：

获取样本图像，并对样本图像进行扫描，获取样本图像中待提取信息的位置坐标和文本内容；

根据位置坐标获取待提取信息的空间位置信息；

根据文本内容，基于开源词向量模型获取待提取信息的语义信息；

基于位置坐标和文本内容对样本图像进行标注，得到标注标签；

将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型；

接收信息提取指令，获取信息提取指令对应的输入图像，并对所述输入图像进行OCR扫描；

将输入图像的OCR扫描结果导入关键信息提取模型，输出输入图像的关键信息提取结果。

进一步地，根据位置坐标获取待提取信息的空间位置信息的步骤，具体包括：

获取样本图像的宽度和高度；

基于位置坐标中的横坐标和样本图像的宽度，计算横向位置参量，以及基于位置坐标中的纵坐标和样本图像的高度，计算纵向位置参量；

基于横向位置参量和纵向位置参量，生成待提取信息的空间位置向量；

将空间位置向量作为待提取信息的空间位置信息。

进一步地，基于位置坐标中的横坐标和样本图像的宽度，计算横向位置参量，以及基于位置坐标中的纵坐标和样本图像的高度，计算纵向位置参量的步骤，具体包括：

将位置坐标中的横坐标除以样本图像的宽度，得到横向位置参量；

将位置坐标中的纵坐标除以样本图像的高度，得到纵向位置参量。

进一步地，根据文本内容，基于开源词向量模型获取待提取信息的语义信息的步骤，具体包括：

对文本内容进行分词，得到文本分词；

基于预设的开源词向量模型对文本分词进行词向量转化，得到文本分词向量；

将分词向量作为待提取信息的语义信息。

进一步地，决策树模型包括若干颗决策树，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型的步骤，具体包括：

对空间位置向量和文本分词向量进行拼接，得到拼接向量；

将拼接向量分别导入到决策树模型的各颗决策树中，获取每一颗决策树的输出结果；

整合每一颗决策树的输出结果，得到决策树模型的预测结果；

比对决策树模型的预测结果和标注标签，并基于比对结果对决策树模型进行迭代更新，得到关键信息提取模型。

进一步地，在基于位置坐标和文本内容对样本图像进行标注的步骤之后，还包括：

基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集。

进一步地，基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集的步骤，具体包括：

获取标注点的坐标，并对标注点的坐标进行像素扰动，得到第一样本图像；

根据标注点的坐标对文本内容进行随机拆分，得到第二样本图像；

扫描文本内容，获取文本内容中的数字文本，并对数字文本进行随机替换，得到第三样本图像；

组合第一样本图像、第二样本图像和第三样本图像，生成样本图像集。

为了解决上述技术问题，本申请实施例还提供一种扫描文本的关键信息提取装置，采用了如下所述的技术方案：

一种扫描文本的关键信息提取装置，包括：

图像扫描模块，用于获取样本图像，并对样本图像进行扫描，获取样本图像中待提取信息的位置坐标和文本内容；

位置信息获取模块，用于根据位置坐标获取待提取信息的空间位置信息；

语义信息获取模块，用于根据文本内容，基于开源词向量模型获取待提取信息的语义信息；

图像标注模块，用于基于位置坐标和文本内容对样本图像进行标注，得到标注标签；

模型训练模块，用于将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型；

图像OCR扫描模块，用于接收信息提取指令，获取信息提取指令对应的输入图像，并对输入图像进行OCR扫描；

信息提取模块，用于将输入图像的OCR扫描结果导入关键信息提取模型，输出输入图像的关键信息提取结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现如上述的扫描文本的关键信息提取方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现如上述的扫描文本的关键信息提取方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种扫描文本的关键信息提取方法、装置、设备及存储介质，属于信息识别技术领域，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容并基于开源词向量模型获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR扫描，并将输入图像的OCR扫描结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息训练关键信息提取模型，减少了信息提取中各种版式或各种规则的人工定制研发工作，使得关键信息提取模型获得更好的鲁棒性，本申请在进行关键信息提取时，只需对输出图像进行OCR识别，并将OCR识别结果送入到训练好的关键信息提取模型中，即可自动完成关键信息提取，减少了人工校对的资源投入。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的扫描文本的关键信息提取方法的一个实施例的流程图；

图3示出了图2中步骤S202的一个实施例的流程图；

图4示出了图2中步骤S203的一个实施例的流程图；

图5示出了图2中步骤S205的一个实施例的流程图；

图6示出了根据本申请的扫描文本的关键信息提取方法的另一个实施例的流程图；

图7示出了图6中步骤S208的一个实施例的流程图；

图8示出了根据本申请的扫描文本的关键信息提取装置的一个实施例的结构示意图；

图9示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、 MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、 103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的扫描文本的关键信息提取方法一般由服务器执行，相应地，扫描文本的关键信息提取装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的扫描文本的关键信息提取的方法的一个实施例的流程图。所述的扫描文本的关键信息提取方法，包括以下步骤：

S201，获取样本图像，并对样本图像进行扫描，获取样本图像中待提取信息的位置坐标和文本内容。

具体的，在进行关键信息提取模型训练前，服务器预先收集样本图像，然后对样本图像进行OCR扫描，获取样本图像中待提取信息的位置坐标和文本内容。其中，可以在样本图像上建立一个坐标系，通过建立的坐标系获取待提取信息的位置坐标，待提取信息的位置坐标包括待提取信息中的上、下、左、右4个角点的坐标。

S202，根据位置坐标获取待提取信息的空间位置信息。

具体的，服务器根据待提取信息的位置坐标计算出待提取信息的位置参量，并通过向量的形式表示待提取信息的位置参量，得到待提取信息的空间位置向量，上述空间位置向量即表示待提取信息的空间位置信息。其中，待提取信息的位置坐标包括4个角点的坐标，而每一个位置坐标又包括横向坐标和纵向坐标，因此空间位置向量的维度数为8维。

S203，根据文本内容，基于开源词向量模型获取待提取信息的语义信息。

具体的，服务器获取OCR扫描结果，通过分析OCR扫描结果获得待提取信息的文本内容，通过分词和词向量转化，得到文本分词向量，上述文本分词向量即表示待提取信息的语义信息。其中，可以通过开源词向量模型对文本内容进行分词和词向量转化，例如，采用维基百科词向量模型对文本内容进行分词和词向量转化，得到一个维度数为300的文本分词向量。需要说明的是，在分词和词向量转化时，可以根据业务场景需求，选择合适的开源词向量模型，本申请对此并不做限制。

S204，基于位置坐标和文本内容对样本图像进行标注，得到标注标签。

具体的，服务器根据待提取信息的位置坐标标注出待提取的关键信息在图像中的位置，即上、下、左、右4个角点的坐标，同时根据待提取信息的文本内容标注出待提取的关键信息的文本内容，生成标注标签，此待提取的关键信息对应的标签即为待提取的关键信息的类别。以发票场景为例进行说明，假设要对“发票号码”、“发票代码”、“开票日期”等进行标注，需要标注出“发票号码”在图像中的上下左右四个点的坐标与具体发票号码内容，对应的标签就是“发票号码”；对“发票代码”进行标注时，需要标注出其在图像中的上下左右四个点的坐标与具体发票代码内容，对应的标签就是“发票代码”；以此类推，对“开票日期”等信息进行标注。

S205，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型。

其中，决策树是一种非参数的监督学习方法，它主要用于分类和回归问题。决策树模型通过一系列if then决策规则的集合，将特征空间划分成有限个不相交的子区域，对于落在相同子区域的样本，决策树模型给出相同的预测值。这些if then决策规则之间的层次关系形成一个树形结构，称之为决策树，这些不相交的子区域和树结构的叶子节点一一对应。决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强。

其中，服务器将空间位置信息、语义信息和标注标签导入预设的决策树模型，将空间位置向量和文本分词向量进行拼接，得到拼接向量，再通过将拼接向量输入到决策树模型中的各颗决策树中，获取决各颗策树输出的预测分数，对各颗策树输出的预测分数进行累加求和，确定预测分数求和结果对应的类别标签，该类别标签即为样本图像中待提取信息对应的类别标签。最后通过决策树模型输出的类别标签和标注标签对决策树模型进行模型迭代，直至模型拟合，得到关键信息提取模型。

S206，接收信息提取指令，获取信息提取指令对应的输入图像，并对输入图像进行OCR扫描。

S207，将输入图像的OCR扫描结果导入关键信息提取模型，输出输入图像的关键信息提取结果。

具体的，服务器在完成关键信息提取模型的训练后，当接收信息提取指令时，获取信息提取指令对应的输入图像，并对输入图像进行OCR识别，并输入图像的OCR识别结果导入关键信息提取模型，即可输出输入图像的关键信息提取结果。其中，通过OCR识别获得输入图像中文本的位置信息以及文本内容。

在本实施例中，扫描文本的关键信息提取方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收信息提取指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi 连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在上述实施例中，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容并基于开源词向量模型获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR扫描，并将输入图像的OCR扫描结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息训练关键信息提取模型，减少了信息提取中各种版式或各种规则的人工定制研发工作，使得关键信息提取模型获得更好的鲁棒性，本申请在进行关键信息提取时，只需对输出图像进行OCR 识别，并将OCR识别结果送入到训练好的关键信息提取模型中，即可自动完成关键信息提取，减少了人工校对的资源投入。

继续参考图3，在本申请一种具体的实施例中，根据位置坐标获取待提取信息的空间位置信息的步骤，具体包括：

S221，获取样本图像的宽度和高度；

S222，基于位置坐标中的横坐标和样本图像的宽度，计算横向位置参量，以及基于位置坐标中的纵坐标和样本图像的高度，计算纵向位置参量；

S223，基于横向位置参量和纵向位置参量，生成待提取信息的空间位置向量；

S224，将空间位置向量作为待提取信息的空间位置信息。

具体的，服务器通过获取样本图像的宽度和高度，并基于位置坐标中的横坐标和样本图像的宽度，计算横向位置参量，以及基于位置坐标中的纵坐标和样本图像的高度，计算纵向位置参量，基于横向位置参量和纵向位置参量，生成待提取信息的空间位置向量，将空间位置向量作为待提取信息的空间位置信息。其中，待提取信息的位置坐标包括4个角点的坐标，而每一个位置坐标又包括横向坐标和纵向坐标，因此空间位置向量的维度数为8维。

在本申请一种具体的实施例中，基于位置坐标中的横坐标和样本图像的宽度，计算横向位置参量，以及基于位置坐标中的纵坐标和样本图像的高度，计算纵向位置参量的步骤，具体包括：

具体的，服务器通过将每一个位置坐标中的横坐标除以样本图像的宽度，得到横向位置参量，通过计算，总计获得4个横向位置参量。通过将位置坐标中的纵坐标除以样本图像的高度，得到纵向位置参量，通过计算，总计获得4个纵向位置参量。

在上述实施例中，服务器通过将位置坐标中的横坐标除以样本图像的宽度，得到横向位置参量，通过将位置坐标中的纵坐标除以样本图像的高度，得到纵向位置参量，将横向位置参量和纵向位置参量通过向量的形式进行表示，生成待提取信息的空间位置向量，即待提取信息的空间位置信息。

继续参考图4，在本申请一种具体的实施例中，根据文本内容，基于开源词向量模型获取待提取信息的语义信息的步骤，具体包括：

S231，对文本内容进行分词，得到文本分词；

S232，基于预设的开源词向量模型对文本分词进行词向量转化，得到文本分词向量；

S233，将分词向量作为待提取信息的语义信息。

具体的，服务器获取样本图像的OCR扫描结果，通过分析OCR扫描结果获得待提取信息的文本内容，通过分词，并去除其中的停用词和标点符号，得到文本分词，并对文本分词进行词向量转化，得到文本分词向量，上述文本分词向量即表示待提取信息的语义信息。其中，可以通过开源词向量模型对文本内容进行分词和词向量转化，得到一个维度数为300的文本分词向量。

继续参考图5，在本申请一种具体的实施例中，决策树模型包括若干颗决策树，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型的步骤，具体包括：

S251，对空间位置向量和文本分词向量进行拼接，得到拼接向量；

S252，将拼接向量分别导入到决策树模型的各颗决策树中，获取每一颗决策树的输出结果；

S253，整合每一颗决策树的输出结果，得到决策树模型的预测结果；

S254，比对决策树模型的预测结果和标注标签，并基于比对结果对决策树模型进行迭代更新，得到关键信息提取模型。

其中，决策树模型可以采用xgboost模型，xgboost是一种集成学习算法，属于boosting算法类别，xgboost模型是一个加法模型，基模型一般选择树模型，但也可以选择其它类型的模型，如逻辑回归模型等，本申请对此并不做限制。在xgboost模型中，可以采用xgboost算法实现对待提取信息的预测，也可以采用同源算法如lightgbm、随机森林等算法代替xgboost算法实现，本申请对此并不做限制。

具体的，服务器在决策树模型中对空间位置向量和文本分词向量进行拼接，得到拼接向量，其中，空间位置向量为8维向量，文本分词向量为300 维向量，拼接得到拼接向量为维度数308维的向量，将拼接向量分别导入到决策树模型的各颗决策树中，获取每一颗决策树输出的预测结果，该预测结果为决策树对待提取信息所述类别的预测得分。对各颗策树输出的预测分数进行累加求和，确定预测分数求和结果对应的类别标签，该类别标签即为样本图像中待提取信息对应的类别标签。最后通过决策树模型输出的类别标签和标注标签对决策树模型进行模型迭代，直至模型拟合，得到关键信息提取模型。需要说明的是，可以具体采用反向传播等迭代算法对决策树模型进行模型迭代，本申请对此并不做限制。

继续参考图6，在本申请一种具体的实施例中，在基于位置坐标和文本内容对样本图像进行标注的步骤之后，还包括：

S208，基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集。

在本申请一种具体的实施例中，在基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集的步骤之后，还包括：

S209，获取样本图像集对应的标注标签集合；

S210，将空间位置信息、语义信息和标注标签集合导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型。

具体的，在样本图像较少的情况下，为了保证关键信息提取模型的鲁棒性，可以采用数据增广策略对丰富训练样本，服务器获得样本图像后，基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集，通过样本图像集对应的标注标签集合训练关键信息提取模型，使得关键信息提取模型能够获取到更多的样本图像的特征，增强关键信息提取模型的鲁棒性。

继续参考图7，在本申请一种具体的实施例中，基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集的步骤，具体包括：

S281，获取标注点的坐标，并对标注点的坐标进行像素扰动，得到第一样本图像；

S282，根据标注点的坐标对文本内容进行随机拆分，得到第二样本图像；

S283，扫描文本内容，获取文本内容中的数字文本，并对数字文本进行随机替换，得到第三样本图像；

S284，组合第一样本图像、第二样本图像和第三样本图像，生成样本图像集。

具体的，服务器通过获取标注点的坐标，并对标注点的坐标进行像素扰动，得到第一样本图像，如对标注的位置坐标随机扰动1～3个像素；根据标注点的坐标对文本内容进行随机拆分，得到第二样本图像，如随机切分位置坐标，并随机拆分文本，得到n个子文本；扫描文本内容，获取文本内容中的数字文本，并对数字文本进行随机替换，得到第三样本图像，如随机替换数字、日期等文本内容；服务器通过组合第一样本图像、第二样本图像和第三样本图像，生成样本图像集。

在上述实施例中，在样本图像较少的情况下，为了保证关键信息提取模型的鲁棒性，可以采用数据增广策略对丰富训练样本，服务器获得样本图像后，基于像素扰动、文本拆分和文本替换等数据增广策略对标注标签进行数据增广，得到样本图像集，通过样本图像集训练关键信息提取模型，使得关键信息提取模型能够获取到更多的样本图像的特征，增强关键信息提取模型的鲁棒性。

本申请公开了一种扫描文本的关键信息提取方法，属于信息识别技术领域，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容并基于开源词向量模型获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR识别，并将输入图像的OCR识别结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息训练关键信息提取模型，减少了信息提取中各种版式或各种规则的人工定制研发工作，使得关键信息提取模型获得更好的鲁棒性，本申请在进行关键信息提取时，只需对输出图像进行OCR识别，并将OCR识别结果送入到训练好的关键信息提取模型中，即可自动完成关键信息提取，减少了人工校对的资源投入。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图8，作为对上述图2所示方法的实现，本申请提供了一种扫描文本的关键信息提取装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例所述的扫描文本的关键信息提取装置包括：

图像扫描模块801，用于获取样本图像，并对样本图像进行扫描，获取样本图像中待提取信息的位置坐标和文本内容；

位置信息获取模块802，用于根据位置坐标获取待提取信息的空间位置信息；

语义信息获取模块803，用于根据文本内容，基于开源词向量模型获取待提取信息的语义信息；

图像标注模块804，用于基于位置坐标和文本内容对样本图像进行标注，得到标注标签；

模型训练模块805，用于将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型；

图像OCR扫描模块806，用于接收信息提取指令，获取信息提取指令对应的输入图像，并对输入图像进行OCR扫描；

信息提取模块807，用于将输入图像的OCR扫描结果导入关键信息提取模型，输出输入图像的关键信息提取结果。

在本申请一种具体的实施例中，位置信息获取模块802具体包括：

图像信息获取单元，用于获取样本图像的宽度和高度；

参量计算单元，用于基于位置坐标中的横坐标和样本图像的宽度，计算横向位置参量，以及基于位置坐标中的纵坐标和样本图像的高度，计算纵向位置参量；

空间位置向量生成单元，用于基于横向位置参量和纵向位置参量，生成待提取信息的空间位置向量；

位置信息获取单元，用于将空间位置向量作为待提取信息的空间位置信息。

在本申请一种具体的实施例中，参量计算单元具体包括：

横向位置参量计算子单元，用于将位置坐标中的横坐标除以样本图像的宽度，得到横向位置参量；

纵向位置参量计算子单元，用于将位置坐标中的纵坐标除以样本图像的高度，得到纵向位置参量。

在本申请一种具体的实施例中，语义信息获取模块803具体包括：

文本分词单元，用于对文本内容进行分词，得到文本分词；

词向量转化单元，用于基于预设的开源词向量模型对文本分词进行词向量转化，得到文本分词向量；

语义信息获取单元，用于将分词向量作为待提取信息的语义信息。

在本申请一种具体的实施例中，决策树模型包括若干颗决策树，模型训练模块805具体包括：

向量拼接单元，用于对空间位置向量和文本分词向量进行拼接，得到拼接向量；

模型预测单元，用于将拼接向量分别导入到决策树模型的各颗决策树中，获取每一颗决策树的输出结果；

结果整合单元，用于整合每一颗决策树的输出结果，得到决策树模型的预测结果；

迭代更新单元，用于比对决策树模型的预测结果和标注标签，并基于比对结果对决策树模型进行迭代更新，得到关键信息提取模型。

在本申请一种具体的实施例中，该扫描文本的关键信息提取装置还包括：

数据增广模块，用于基于预设的数据增广策略对标注后的样本图像进行数据增广，得到样本图像集。

在本申请一种具体的实施例中，数据增广模块具体包括：

像素扰动单元，用于获取标注点的坐标，并对标注点的坐标进行像素扰动，得到第一样本图像；

文本拆分单元，用于根据标注点的坐标对文本内容进行随机拆分，得到第二样本图像；

文本替换单元，用于扫描文本内容，获取文本内容中的数字文本，并对数字文本进行随机替换，得到第三样本图像；

图像组合单元，用于组合第一样本图像、第二样本图像和第三样本图像，生成样本图像集。

本申请公开了一种扫描文本的关键信息提取装置，属于信息识别技术领域，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容并基于开源词向量模型获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR识别，并将输入图像的OCR识别结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息训练关键信息提取模型，减少了信息提取中各种版式或各种规则的人工定制研发工作，使得关键信息提取模型获得更好的鲁棒性，本申请在进行关键信息提取时，只需对输出图像进行OCR识别，并将OCR识别结果送入到训练好的关键信息提取模型中，即可自动完成关键信息提取，减少了人工校对的资源投入。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

所述计算机设备9包括通过系统总线相互通信连接存储器91、处理器92、网络接口93。需要指出的是，图中仅示出了具有组件91-93的计算机设备9，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray， FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器91至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器91可以是所述计算机设备9的内部存储单元，例如该计算机设备9的硬盘或内存。在另一些实施例中，所述存储器91也可以是所述计算机设备9的外部存储设备，例如该计算机设备 9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字 (Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器91还可以既包括所述计算机设备9的内部存储单元也包括其外部存储设备。本实施例中，所述存储器91通常用于存储安装于所述计算机设备9的操作系统和各类应用软件，例如扫描文本的关键信息提取方法的计算机可读指令等。此外，所述存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器92在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92 通常用于控制所述计算机设备9的总体操作。本实施例中，所述处理器92用于运行所述存储器91中存储的计算机可读指令或者处理数据，例如运行所述扫描文本的关键信息提取方法的计算机可读指令。

所述网络接口93可包括无线网络接口或有线网络接口，该网络接口93 通常用于在所述计算机设备9与其他电子设备之间建立通信连接。

本申请公开了一种设备，属于信息识别技术领域，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容并基于开源词向量模型获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR识别，并输入图像的OCR识别结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息训练关键信息提取模型，减少了信息提取中各种版式或各种规则的人工定制研发工作，使得关键信息提取模型获得更好的鲁棒性，本申请在进行关键信息提取时，只需对输出图像进行OCR识别，并将OCR识别结果送入到训练好的关键信息提取模型中，即可自动完成关键信息提取，减少了人工校对的资源投入。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的扫描文本的关键信息提取方法的步骤。

本申请公开了一种存储介质，属于信息识别技术领域，本申请通过获取样本图像的位置坐标和文本内容，根据位置坐标获取待提取信息的空间位置信息，根据文本内容并基于开源词向量模型获取待提取信息的语义信息，并基于位置坐标和文本内容对样本图像进行标注，将空间位置信息、语义信息和标注标签导入预设的决策树模型，并对决策树模型进行有监督训练，得到关键信息提取模型，在进行信息提取时，对输入图像进行OCR识别，并将输入图像的OCR识别结果导入关键信息提取模型，输出关键信息提取结果。本申请在进行关键信息提取模型的训练时，通过引入空间位置信息和语义信息训练关键信息提取模型，减少了信息提取中各种版式或各种规则的人工定制研发工作，使得关键信息提取模型获得更好的鲁棒性，本申请在进行关键信息提取时，只需对输出图像进行OCR识别，并将OCR识别结果送入到训练好的关键信息提取模型中，即可自动完成关键信息提取，减少了人工校对的资源投入。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种扫描文本的关键信息提取方法，其特征在于，包括：

获取样本图像，并对所述样本图像进行扫描，获取所述样本图像中待提取信息的位置坐标和文本内容；

根据所述位置坐标获取所述待提取信息的空间位置信息；

根据所述文本内容，基于开源词向量模型获取所述待提取信息的语义信息；

基于所述位置坐标和文本内容对所述样本图像进行标注，得到标注标签；

将所述空间位置信息、所述语义信息和所述标注标签导入预设的决策树模型，并对所述决策树模型进行有监督训练，得到关键信息提取模型；

接收信息提取指令，获取所述信息提取指令对应的输入图像，并对所述输入图像进行OCR扫描；

将所述输入图像的OCR扫描结果导入所述关键信息提取模型，输出所述输入图像的关键信息提取结果。

2.如权利要求1所述的扫描文本的关键信息提取方法，其特征在于，所述根据所述位置坐标获取所述待提取信息的空间位置信息的步骤，具体包括：

获取所述样本图像的宽度和高度；

基于所述位置坐标中的横坐标和所述样本图像的宽度，计算横向位置参量，以及基于所述位置坐标中的纵坐标和所述样本图像的高度，计算纵向位置参量；

基于所述横向位置参量和所述纵向位置参量，生成所述待提取信息的空间位置向量；

将所述空间位置向量作为所述待提取信息的空间位置信息。

3.如权利要求2所述的扫描文本的关键信息提取方法，其特征在于，所述基于所述位置坐标中的横坐标和所述样本图像的宽度，计算横向位置参量，以及基于所述位置坐标中的纵坐标和所述样本图像的高度，计算纵向位置参量的步骤，具体包括：

将所述位置坐标中的横坐标除以所述样本图像的宽度，得到横向位置参量；

将所述位置坐标中的纵坐标除以所述样本图像的高度，得到纵向位置参量。

4.如权利要求2所述的扫描文本的关键信息提取方法，其特征在于，所述根据所述文本内容，基于开源词向量模型获取所述待提取信息的语义信息的步骤，具体包括：

对所述文本内容进行分词，得到文本分词；

基于预设的开源词向量模型对所述文本分词进行词向量转化，得到文本分词向量；

将所述分词向量作为所述待提取信息的语义信息。

5.如权利要求4所述的扫描文本的关键信息提取方法，其特征在于，所述决策树模型包括若干颗决策树，所述将所述空间位置信息、所述语义信息和所述标注标签导入预设的决策树模型，并对所述决策树模型进行有监督训练，得到关键信息提取模型的步骤，具体包括：

对所述空间位置向量和所述文本分词向量进行拼接，得到拼接向量；

将所述拼接向量分别导入到所述决策树模型的各颗决策树中，获取每一颗决策树的输出结果；

整合每一颗决策树的输出结果，得到所述决策树模型的预测结果；

比对所述决策树模型的预测结果和所述标注标签，并基于比对结果对所述决策树模型进行迭代更新，得到关键信息提取模型。

6.如权利要求1至5任意一项所述的扫描文本的关键信息提取方法，其特征在于，在所述基于所述位置坐标和文本内容对所述样本图像进行标注的步骤之后，还包括：

基于预设的数据增广策略对标注后的所述样本图像进行数据增广，得到样本图像集。

7.如权利要求6所述的扫描文本的关键信息提取方法，其特征在于，所述基于预设的数据增广策略对标注后的所述样本图像进行数据增广，得到样本图像集的步骤，具体包括：

获取标注点的坐标，并对所述标注点的坐标进行像素扰动，得到第一样本图像；

根据所述标注点的坐标对所述文本内容进行随机拆分，得到第二样本图像；

扫描所述文本内容，获取所述文本内容中的数字文本，并对所述数字文本进行随机替换，得到第三样本图像；

组合所述第一样本图像、所述第二样本图像和所述第三样本图像，生成所述样本图像集。

8.一种扫描文本的关键信息提取装置，其特征在于，包括：

图像扫描模块，用于获取样本图像，并对所述样本图像进行扫描，获取所述样本图像中待提取信息的位置坐标和文本内容；

位置信息获取模块，用于根据所述位置坐标获取所述待提取信息的空间位置信息；

语义信息获取模块，用于根据所述文本内容，基于开源词向量模型获取所述待提取信息的语义信息；

图像标注模块，用于基于所述位置坐标和文本内容对所述样本图像进行标注；

模型训练模块，用于将所述空间位置信息、所述语义信息和标注后的所述样本图像导入预设的决策树模型，并对所述决策树模型进行有监督训练，得到关键信息提取模型；

信息提取模块，用于接收信息提取指令，获取所述信息提取指令对应的输入图像，并将所述输入图像导入所述关键信息提取模型，输出所述输入图像的关键信息提取结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的扫描文本的关键信息提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的扫描文本的关键信息提取方法的步骤。