CN114627479A

CN114627479A - 结构化文本的提取方法、装置、存储介质及计算机设备

Info

Publication number: CN114627479A
Application number: CN202210138720.9A
Authority: CN
Inventors: 薛闯; 陈志衔; 朱莹莹; 张建冬; 陈家荣
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-06-14

Abstract

本申请实施例公开了一种结构化文本的提取方法、装置、存储介质及计算机设备，涉及信息提取领域。本申请和现有技术中的OCR算法提取文本信息相比，OCR算法提取到的是非结构化文本，后续还需要利用正则表达式将非结构文本转换为结构化文本，而本申请预先设置目标字段，根据字段检测模型确定位置和字段识别模型直接生成结构化文本，可提高文本识别的速度和准确性，对文本发生重叠、模糊和遮挡的情况下，也能具有较高的抗干扰能力。

Description

结构化文本的提取方法、装置、存储介质及计算机设备

技术领域

本申请涉及信息提取领域，尤其涉及一种结构化文本的提取方法、装置、存储介质及计算机设备。

背景技术

随着计算机视觉技术的发展,如何提取图像数据中的结构化文本是目前研究的热点。目前展开的票据识别、文档审阅、自动报销等相关研究中，从大量的图像数据中提取出结构化文本，也有着举足轻重的作用。目前业界提取结构化文本，主要基于通用OCR(Optical Character Recognition，光学字符识别))等方法，运用大量数据训练出OCR模型先进行文本的抽取得到字段值，然后通过正则表达式抽取出结构化文本。然而这种方法非常依赖于OCR的效果,，且在提取结构化文本时无法应用上原本图像的特征信息，如果图像中出现文字重叠、模糊等问题时使用OCR算法检测文本就很难有好的效果。

发明内容

本申请实施例提供了结构化文本的提取方法、装置、存储介质及计算机设备，可以解决现有技术中采用OCR模型生成结构化文本效率低和准确性差的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种结构化文本的提取方法，所述方法包括：

确定目标字段；

根据所述目标字段关联的字段检测模型对待识别图像进行处理得到字段值位置信息；

根据所述字段值位置信息对所述待识别图像进行截图得到字段值小图像；

根据所述目标字段关联的字段识别模型对所述字段值小图像进行处理得到字段值；

根据所述目标字段和所述字段值生成结构化文本。

第二方面，本申请实施例提供了一种结构化文本的提取装置，所述装置包括：

确定单元，用于确定目标字段；

位置检测单元，用于根据所述目标字段关联的字段检测模型对待识别图像进行处理得到字段值位置信息；

截图单元，用于根据所述字段值位置信息对所述待识别图像进行截图得到字段值小图像；

识别单元，用于根据所述目标字段关联的字段识别模型对所述字段值小图像进行处理得到字段值；

生成单元，用于根据所述目标字段和所述字段值生成结构化文本。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种计算机设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

利用目标字段关联的字段检测模型检测图像中字段值的位置，基于该位置对图像进行截图得到字段值小图像，然后利用目标字段关联的字段识别模型对字段值小图像进行处理得到字段值，利用目标字段和字段值生成结构化文本。本申请和现有技术中的OCR提取文本信息相比，OCR提取到的是非结构化文本，后续需进一步利用正则表达式将非结构文本转换为结构化文本，识别的过程准确性不高且速度较慢，而本申请预先设置目标字段，根据字段检测模型确定位置和字段识别模型直接生成结构化文本，可提高文本识别的速度和准确性，对字段值发生重叠、模糊和遮挡的情况下，也具有较高的抗干扰能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的网络架构示意图；

图2是本申请实施例提供的结构化文本的提取方法的流程示意图；

图3是本申请提供的一种结构化文本的提取装置的结构示意图；

图4是本申请提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

需要说明的是，本申请提供的结构化文本的提取方法一般由计算机设备执行，相应的，结构化文本的提取装置一般设置于计算机设备中。

图1示出了可以应用于本申请的结构化文本的提取方法或结构化文本的提取装置的示例性系统架构。

如图1所示，系统架构可以包括：计算机设备101和服务器102。计算机设备101和服务器102之间可以通过网络进行通信，网络用于上述各个单元之间提供通信链路的介质。网络可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆等，无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity，Wi-Fi)通信链路或微波通信链路等。

其中，服务器102中存储有用于训练字段检测模型的样本数据和字段识别模型的样本数据，服务器102完成模型的训练后，将模型部署在计算机设备101上。

需要说明的是，计算机设备101和服务器102可以是硬件，也可以是软件。当计算机设备101和服务器102为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当计算机设备101和服务器102为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

本申请的计算机设备上可以安装有各种通信客户端应用，例如：视频录制应用、视频播放应用、语音交互应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

计算机设备可以是硬件，也可以是软件。当计算机设备为硬件时，可以是具有显示屏的各种计算机设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当计算机设备为软件时，可以是安装上述所列举的计算机设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当计算机设备为硬件时，其上还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(cathode ray tube display，简称CR)、发光二极管显示器(light-emittingdiode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用计算机设备上的显示设备，来查看显示的文字、图片、视频等信息。

应理解，图1中的计算机设备、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的计算机设备、网络和服务器。

下面将结合附图2，对本申请实施例提供的结构化文本的提取方法进行详细介绍。其中，本申请实施例中的结构化文本的提取装置可以是图1所示的计算机设备。

请参见图2，为本申请实施例提供了一种结构化文本的提取方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201、确定目标字段。

其中，目标字段为待识别图像中包含的字段，例如：待识别图像为扫描火车票后生成的图像，目标字段可以为金额、姓名、身份证号、出发地和目的地中的任意一个。例如：待识别图像为扫描机票行程单后生成的图像，目标字段可以为金额、电子客票号码、出发地、目的地和出发日期中的任意一个。本申请的待识别图像还可以是扫描发票后生成的。

S202、根据目标字段关联的字段检测模型对待识别图像进行处理得到字段值位置信息。

其中，字段检测模型用于检测目标字段的字段值在待识别图像中的位置，字段检测模型可以是利用数据集进行深度学习得到的，数据集中包括数据样本图像，样本图像中的字段值设置有标注框，将样本图像和样本图像中字段值的位置信息生成特征向量，对特征向量进行训练得到字段检测模型，不同的字段关联有不同的字段检测模型，这样可以提高字段值位置信息的检测准确性。可选的，字段值位置信息可以使用矩形框来表示，字段值位置信息包括矩形框的宽度、矩形框的高度和矩形框的中心点的坐标。可以理解的是，字段值位置信息除使用矩形框表示外，还可以使用其他形状的检测框来表示，例如：圆形、椭圆形等，本申请不作限制。数据集可以有训练集、测试集和验证集组成，各个子集的比例可以根据实际需求而定，本申请不作限制。

例如：目标字段为金额时，利用金额关联的字段检测模型1检测金额的字段值在待识别图像中的位置；目标字段为姓名时，利用姓名关联的字段检测模型2检测姓名的字段值在待识别图像中的位置。

S203、根据字段值位置信息对待识别图像进行截图得到字段值小图像。

其中，根据字段值位置信息表示的检测框，对检测框内的像素进行截图得到字段值小图像，字段值小图像的尺寸由检测框的大小来决定，字段值小图像的内容包括字段值，不包括其他文本，可以提高文本识别的准确性，避免无关信息的干扰。进一步的，为了提高字段识别模型的识别效率，可以将字段值小图像进行归一化处理，将字段值小图像转换为指定大小的图像和将字段小图像中的像素进行二值化处理，例如：将各个像素的取值除以255，得到二值化图像，然后将二值化图像进行特征提取得到特征向量，以便后续字段识别模型根据特征向量进行字段值的提取。

S204、根据目标字段关联的字段识别模型对字段值小图像进行处理得到字段值。

其中，不同的目标字段关联有不同的字段识别模型，由于不同的目标字段的字段值的文本类型可能不同，根据不同的字段识别模型进行文本识别可以提高文本识别的准确性。字段识别模型是利用数据集进行深度学习得到的，数据集中包括多个样本图像，各个样本图像标注有字段值，将样本图像和字段值转换为特征向量，对特征向量进行训练得到字段检测模型。字段值的文本类型可以为数字、中文或字母，不同不同的文本类型使用不同的字段识别模型来检测文本，可以提高文本检测的准确性。

例如：目标字段为车次号时，利用车次号关联的字段识别模型1对字段值小图像进行检测得到车次号的字段值；目标字段为身份证号码时，利用身份证号码关联的字段识别模型2对字段值小图像进行检测得到对应的字段值；目标字段为金额时，利用金额关联的字段识别模型3检测金额的字段值。

其中，在需要提取待识别图像中的多个目标字段时，可以采用本申请的方法并行的提取各个目的字段的字段值，提高文本检测的速度和效率。

其中，本申请的字段识别模型包括：地名识别模型、中文识别模型、字母识别模型或金额识别模型，根据字段值的不同类型选择对应的字段识别模型进行识别，提高识别的准确率。例如：字段值的类型为地名时，利用地名识别模型进行识别；字段值的类型为数字时，利用数字识别模型进行识别；字段值的类型为字母时，采用字母识别模型进行识别；当字段值的类型为中文时，利用中文识别模型进行识别；字段值的类型为金额时，采用金额识别模型进行识别。相对于现有技术中采用通用的字段识别模型来说，避免类似数字0和字母O发生混淆，以及数字1和字母l发生混淆的问题，可以提高识别的准确性。

在一个或多个可能的实施例中，在对字段值小图像进行文本识别之前，还包括：

获取所述字段值小图像中字段值的倾斜角度；

根据所述倾斜角度进行角度校正。

其中，字段值小图像中的字段值在打印或扫描图像的过程中可能发生倾斜，本申请可以利用基于投影的方法、基于Hough变换或基于线性拟合来校正字段值的倾斜。

S205、根据目标字段和字段值生成结构化文本。

其中，根据S201中确定的目标字段和检测出的字段值生成结构化文本，例如：生成的结构化表示为：(姓名：张三)；(车次号：G1001)；(金额：1000元)。结构化文本的格式可以为JSON(JavaScript Object Notation,JS对象简谱))格式。

本申请的实施例在提取图像中的文本时，利用目标字段关联的字段检测模型检测图像中字段值的位置，基于该位置对图像进行截图得到字段值小图像，然后利用目标字段关联的字段识别模型对字段值小图像进行处理得到字段值，利用目标字段和字段值生成结构化文本。本申请和现有技术中的OCR提取文本信息相比，OCR提取到的是非结构化文本，后续还需要利用正则表达式将非结构文本转换为结构化文本，而本申请预先设置目标字段，根据字段检测模型确定位置和字段识别模型直接生成结构化文本，可提高文本识别的速度和准确性，对字段值发生重叠、模糊和遮挡的情况下，也能具有较高的抗干扰能力。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图3，其示出了本申请一个示例性实施例提供的结构化文本的提取装置的结构示意图，以下简称装置3。该装置3可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。装置3包括：确定单元301、位置检测单元302、截图单元303、识别单元304、生成单元305。

确定单元，用于确定目标字段；

在一个或多个可能的实施例中，还包括：

倾斜校正单元，用于获取所述字段值小图像中字段值的倾斜角度；

根据所述倾斜角度进行角度校正。

在一个或多个可能的实施例中，基于Hough算法对所述字段值小图像进行倾斜校正。

在一个或多个可能的实施例中，所述字段值位置信息包括矩形框的长度、矩形框的高度和矩形框的中心点的坐标。

在一个或多个可能的实施例中，还包括：

训练单元，用于确定目标字段关联的第一数据集；其中，所述第一数据集中的各个图像设置有标注框；

对所述第一数据集进行训练得到所述字段检测模型；

确定所述目标字段关联的第二数据集；其中，所述第二数据集的各个图像中包含所述目标字段的字段值；

对所述第二数据集进行训练得到字段识别模型。

在一个或多个可能的实施例中，所述字段值的类型为数字、字母或中文。

在一个或多个可能的实施例中，待识别图像为扫描发票、行程单或车票生成的。

需要说明的是，上述实施例提供的装置3在执行结构化文本的提取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成上述的全部或者部分功能。另外，上述实施例提供的结构化文本的提取装置与结构化文本的提取方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2所示实施例的方法步骤，具体执行过程可以参见图2所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的结构化文本的提取方法。

请参见图4，为本申请实施例提供了一种计算机设备的结构示意图。如图4所示，所述计算机设备400可以包括：至少一个处理器401，至少一个网络接口404，用户接口403，存储器405，至少一个通信总线402。

其中，通信总线402用于实现这些组件之间的连接通信。

其中，用户接口403可以包括显示屏(Display)、摄像头(Camera)，可选用户接口403还可以包括标准的有线接口、无线接口。

其中，网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个计算机设备400内的各个部分，通过运行或执行存储在存储器405内的指令、程序、代码集或指令集，以及调用存储在存储器405内的数据，执行计算机设备400的各种功能和处理数据。可选的，处理器401可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable GateArray，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器401中，单独通过一块芯片进行实现。

其中，存储器405可以包括随机存储器(RandomAccess Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示，作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。

在图4所示的计算机设备400中，用户接口403主要用于为用户提供输入的接口，获取用户输入的数据；而处理器401可以用于调用存储器405中存储的应用程序，并具体执行如图2所示的方法，具体过程可参照图2所示，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种结构化文本的提取方法，其特征在于，包括：

确定目标字段；

根据所述目标字段和所述字段值生成结构化文本。

2.根据权利要求1或2所述的方法，其特征在于，还包括：

获取所述字段值小图像中字段值的倾斜角度；

根据所述倾斜角度进行角度校正。

3.根据权利要求2所述的方法，其特征在于，基于Hough算法对所述字段值小图像进行角度校正。

4.根据权利要求1或3所述的方法，其特征在于，所述字段值位置信息包括矩形框的长度、矩形框的高度和矩形框的中心点的坐标。

5.根据权利要求4所述的方法，其特征在于，所述确定目标字段之前，还包括：

确定目标字段关联的第一数据集；其中，所述第一数据集中的各个样本图像设置有标注框；

对所述第一数据集进行训练得到字段检测模型；

确定所述目标字段关联的第二数据集；其中，所述第二数据集的各个样本图像设置有所述目标字段的字段值；

对所述第二数据集进行训练得到字段识别模型。

6.根据权利要求1或3或5所述的方法，其特征在于，所述字段识别模型包括：地名识别模型、中文识别模型、字母识别模型或金额识别模型。

7.根据权利要求6所述的方法，其特征在于，所述待识别图像为扫描发票、行程单或车票生成的。

8.一种结构化文本的提取装置，其特征在于，包括：

确定单元，用于确定目标字段；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种计算机设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。