CN112836484A

CN112836484A - 一种文本对齐方法、装置、电子设备、计算机可读存储介质

Info

Publication number: CN112836484A
Application number: CN202110421920.0A
Authority: CN
Inventors: 刘朝振; 王海; 刘邦长; 常德杰; 李栋栋; 赵洪文; 谷书锋; 赵进; 罗晓斌
Original assignee: Beijing Miaoyijia Health Technology Group Co ltd
Current assignee: Beijing Miaoyijia Health Technology Group Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-05-25
Anticipated expiration: 2041-04-20
Also published as: CN112836484B

Abstract

本发明公开了一种文本对齐方法、装置、电子设备、计算机可读存储介质，通过依据任务类型预设文本的格式化对齐模板，预设关键词、搜索方向、搜索区域及预设相应的校验表达式，再通过OCR模块对图片等文本进行关键词识别和文本类型识别，获取含有位置信息的文本区域；然后进行邻近搜索匹配，通过按预设的搜索方向及搜索区域识别每个关键词及匹配值，按照预设的校验表达式进行校验，按照预设的评判规则进行合格判断，合格后匹配输出，最后再通过容错及最终校验过程，进一步确保了各种文本关键词及匹配值对齐的准确性，彻底解决了现有技术中排版多变、噪音大的格式化无法对齐，以及人工操作缓慢、严重影响格式化效率的技术难题。

Description

一种文本对齐方法、装置、电子设备、计算机可读存储介质

技术领域

本发明属于关键词智能搜索匹配技术领域，尤其涉及一种文本对齐方法、装置、电子设备、计算机可读存储介质。

背景技术

数据格式化有多种类型需求，如身份证、发票、医师证、病历或体检报告等，格式化后的数据将逐个对齐到数据库各个字段中，目前，需要人工手动录入，例如保险公司在续保时需要对体检报告进行健康状况评估，当用户上传体检报告文件后，需要人工录入数据后经系统审核或人工审核。

随着 OCR（Optical Character Recognition，光学字符识别）技术的发展，可以从图片文件中识别出其中的文本内容，但不能完成实现内容的格式化对齐。对于简单些的需求，如身份证识别可以使用模板把相应的字段对齐，但对于排版格式多样的体检报告或病历模板则无法满足数据格式化的需求。此外，针对病历或体检报告也有使用命名实体识别（NER）

的方式进行对齐，但需要预先对大量的数据进行标注，不能冷启动，即不能对文本内容直接使用。

因此，严重影响了数据格式化准确率及效率。

发明内容

为解决上述问题，本发明提供了一种文本对齐方法、装置、电子设备、计算机可读存储介质，通过依据任务类型预设文本的格式化对齐模板，预定义关键词、搜索方向、搜索区域及预设相应的校验表达式，再通过OCR模块对图片等文本进行关键词识别和文本类型识别，获取含有位置信息的文本区域；然后进行邻近搜索匹配，通过按预设的搜索方向及区域识别每个关键词及匹配值，按照预设的校验表达式进行校验，按照预设的评判规则进行合格判断，合格后匹配输出，最后再通过容错及最终校验过程，进一步确保了各种文本关键词及匹配值对齐的准确性，不仅彻底解决了现有技术中排版多变、噪音大的格式化无法对齐以及人工操作缓慢、严重影响格式化效率的技术难题。

为实现上述发明目的，本发明的技术方案是：

一种文本对齐方法，包括如下步骤：

步骤1：依据任务类型预设文本的格式化对齐模板；

步骤2：设定关键词、搜索方向、搜索区域及校验表达式；

步骤3：获取待分析原始文本；

步骤4：通过OCR模块识别PDF、图片中的文本：识别所述关键词，识别所述关键词对应的文本类型，获取含有位置信息的文本区域；

步骤5：对所述文本区域或原始文本格式化，邻近搜索匹配：

关键词匹配：按照设定的所述搜索方向及所述搜索区域识别每个设有对齐任务的所述关键词；

值匹配：根据所述关键词的点位信息，在所述搜索方向，按照与所述关键词的间距排序，识别出候选值，再通过所述校验表达式校验所述候选值，获取匹配值；

依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后发送到输出端；

步骤6：容错及最终校验：对邻近搜索匹配结果最终校验，若所述关键词与所述匹配值一一对应，则邻近搜索匹配正确；若多个所述关键词对应同一个匹配值时，则选取与该匹配值间距最近的关键词为最佳匹配关键词。

在一些可能的实现方式中，步骤2进一步包括：所述搜索方向设定为向右搜索；当因图片拍摄角度问题导致所述关键词在搜索方向出现重叠时，即多个所述关键词对应一个所述匹配值时，所述搜索区域被扩大。

在一些可能的实现方式中，步骤4进一步包括：所述OCR模块识别出文本区域的位置信息，将文本和位置信息表示为T，

其中：T为文本和位置信息：

为分别为包含文本区域、且位于左上、右上、左下和右下的四个点位；

t_i为第i位置的文本内容；

n为总的文本区域数。

在一些可能的实现方式中，步骤5进一步包括：配置对齐任务的所述关键词及匹配值校验R的表达式为

其中：k_i为在第i位置的关键词；

d_i为在第i位置的搜索方向；

r_i为匹配值校验的正则表达式；

m为配置对齐任务的关键词数。

在一些可能的实现方式中，步骤5进一步包括：所述关键词匹配，首先使用LSTM+CRF模型识别文本t_i中的实体e，再基于BERT词向量计算e和关键词及匹配值校验R中所有关键词的余弦相似度S_i|i∈[1，m]，且获取最大相似度S_max≥0.9的关键词作为目标关键词，形成目标关键词文本集表示为T_tar:

T_tar=T_j|j∈[0，p]

其中：T_tar为目标关键词文本集；

T_j为第j位置的目标关键词；

p目标关键词匹配成功的个数，且0≤p＜n。

所述值匹配，根据T_j的点位的目标关键词信息以及关键词及匹配值校验R中定义的搜索方向，按空间距离进行搜索并进行由近及远的排序，得到V_j，

V_j ={T_j}|j∈[0，p]

其中：V_j为第j位置的目标关键词的匹配值集合；

T_j为第j位置的目标关键词的匹配值；

P 目标关键词匹配成功的个数，且0≤p＜n。

然后对V_j进行LSTM + CRF的实体识别，之后根据对应关键词的空间距离进行排序，选取间距最近的前三项做为候选值，获得每个所述关键词的候选值列表。

在一些可能的实现方式中，步骤5进一步包括：当所述匹配值为文本块或多行数据时，直接将区域内的候选值按照间距大小进行逆向排序，距离所述关键词最近的所述候选值则为对应匹配值。

在一些可能的实现方式中，步骤5进一步包括：获取所述关键词候选值后，使用所述校验表达式对所述候选值进行验证，如果前三项中有校验成功的项，则选取间距最小者为校验成功的对应匹配值，如果前三项中没有校验成功的项，则为校验失败值。

本发明还提供一种文本对齐装置，所述装置包括：

生成模块：依据任务类型预设的文本生成格式化对齐模板；生成关键词、搜索方向、区域及校验表达式；

获取模块：用于获取待处理的原始文本；获取文本对齐处理过程中产生的文本信息或数值；

OCR模块：用于识别待处理的原始文本中的PDF、图片文本的光学字符；

文字检测模块：用于从PDF、图片的文本中识别出关键词；

文本识别模块：用于对关键词所在的文本类型进行识别；

字段搜索匹配模块：按照生成模块预设的搜索方向及区域识别关键词；当需要扩大搜索范围时，则按照生成模块重新设定的搜索方向及搜索区域识别关键词；

值搜索匹配模块：用于识别在预设的搜索方向及区域内的候选值；当需要扩大搜索范围时，则按照生成模块重新设定的搜索方向及搜索区域识别出关键词所对应的候选值；

校验模块：依据校验表达式校验候选值：如果间距较小的前三项中有校验成功的项，则选取间距最小者为校验成功的对应匹配值，如果间距较小的前三项中没有校验成功的项，则为校验失败值；

传输模块：向客户端传输关键词及匹配值对齐排列的数据信息；

计算模块：用于计算关键词的余弦相似度S_i及实体位置涉及的数据；

处理模块：依据目标关键词信息以及关键词及匹配值校验中定义的搜索方向，按空间距离进行搜索并进行由近及远的排序；依据所述格式化对齐模板将所述关键词及所述匹配值进行对齐排列处理；

判断模块：依据预设的关键词、搜索方向、搜索区域及校验表达式判断出目标关键词。

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被一个或多个处理器执行时，使得所述一个或多个处理器实现基于关键词及邻近搜索的文本对齐方法。

本发明还提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的关键词及匹配值的匹配对齐方法。

本发明的有益效果是：本发明通过提供了一种基于关键词及邻近搜索的文本对齐方法及装置，通过依据任务类型预设文本的格式化对齐模板，预定义关键词、搜索方向、搜索区域及预设相应的校验表达式，再通过OCR模块对PDF、图片的文本进行关键词识别和文本类型识别，获取含有位置信息的文本区域；然后进行邻近搜索匹配，通过按预设的搜索方向及区域识别每个关键词及匹配值，按照预设的校验表达式进行校验，按照预设的评判规则进行合格判断，合格后匹配输出，最后再通过容错及最终校验过程，进一步确保了各种文本关键词及匹配值对齐的准确性，不仅彻底解决了现有技术中排版多变、噪音大的格式化无法对齐以及人工操作缓慢、严重影响格式化效率的技术难题。

附图说明

图1为本申请实施例提供的文本对齐方法的一个可选的流程示意图；

其中：

1-生成模块；2-获取模块；3-OCR模块；31-文字检测模块；32-文本识别模块；4-字段搜索匹配模块；5-值搜索匹配模块；6-校验模块；7-传输模块；8-计算模块；9-处理模块；10-判断模块。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

参照图1所示：

本发明实施例：

本发明提供一种文本对齐装置，所述装置包括：

生成模块1：依据任务类型预设的文本生成格式化对齐模板；生成关键词、搜索方向、区域及校验表达式；

获取模块2：用于获取待处理的原始文本；获取文本对齐处理过程中产生的文本信息或数值；

OCR模块3：用于识别待处理的原始文本中的PDF、图片文本的光学字符；

文字检测模块31：用于从PDF、图片的文本中识别出关键词；

文本识别模块32：用于对关键词所在的文本类型进行识别；

字段搜索匹配模块4：按照生成模块预设的搜索方向及区域识别关键词；当需要扩大搜索范围时，则按照生成模块重新设定的搜索方向及搜索区域识别关键词；

值搜索匹配模块5：按照生成模块预设的搜索方向及区域内的候选值；当需要扩大搜索范围时，则按照生成模块重新设定的搜索方向及搜索区域识别出关键词所对应的候选值；

校验模块6：依据校验表达式校验候选值：如果间距较小的前三项中有校验成功的项，则选取间距最小者为校验成功的对应匹配值，如果间距较小的前三项中没有校验成功的项，则为校验失败值；

传输模块7：向客户端传输关键词及匹配值对齐排列的数据信息；

计算模块8：用于计算关键词的余弦相似度S_i及实体位置涉及的数据；

处理模块9：依据目标关键词信息以及关键词及匹配值校验中定义的搜索方向，按空间距离进行搜索并进行由近及远的排序；依据所述格式化对齐模板将所述关键词及所述匹配值进行对齐排列处理；

判断模块10：依据预设的关键词、搜索方向、搜索区域及校验表达式判断出目标关键词。

本发明提供一种文本对齐方法，包括如下步骤：

步骤S101：依据任务类型预设文本的格式化对齐模板；步骤S201：定义关键词、搜索方向、区域及校验表达式；步骤S301：获取待分析原始文本；

步骤S401：通过OCR模块3对相匹配文本进行识别：文字检测模块31对所述关键词进行识别，文本识别模块32对文本类型进行识别，获取模块2获取含有位置信息的文本区域；步骤S501：对所述文本区域或原始文本进行格式化；邻近搜索匹配：通过字段搜索匹配模块4识别所述关键词；通过值搜索匹配模块5识别出候选值，并经校验模块6校验候选值，获取对应的匹配值；处理模块9依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后经传输模块7发送到输出端；步骤S601：容错及最终校验。

下面将结合本申请实施例的示例性应用和实施，说明本申请实施例提供的文本对齐方法。

步骤S101：本系统处理的数据类型有图片文件、pdf文件、文本文件、可执行文件，应用场景如身份证、医师证、体检报告、病例文本等。

步骤S201：生成模块1依据各种任务类型分别定义关键词、搜索方向、搜索区域及校验表达式；所述关键词均设有对齐任务。

搜索方向有上下左右四个方向，在一些实施例中，搜索方向默认为向右搜索，如身份证号码。

在一些实施例中，当因图片拍摄角度问题导致关键词在搜索方向出现重叠时，即多个关键词对应一个匹配值时，所述搜索区域将被扩大。

如：以向右搜索为例，如果图片拍摄有扭曲，导致关键词和搜索值不能出现在同一行，则同行向右搜索可能无结果，此时首先对上行、下行的内容进行邻近搜索，此搜索方向为经验方向，而实际算法中根据数据的匹配情况进行邻近搜索，如果上行、下行没有搜索到对应值，则继续加大搜索范围，扩大至上两行、下两行，搜索出与关键词对应的匹配值，搜索范围不再继续扩大，以防带来额外的匹配噪音。

如果扩大搜索范围还没有搜索出对应的匹配值，则临时放弃匹配，在最终校验环节，由人工审核匹配填充。

步骤S301：通过获取模块2获取待分析包含各种类型的原始文本；

步骤S401：在一些实施例中，有些文本格式为图片文件、pdf文件、文本文件等，需先经OCR模块3识别处理，所述OCR模块3识别后，即经识别文字检测模块31对所述关键词进行识别，文本识别模块32对文本类型进行识别后，获取含有位置信息的文本区域：

所述OCR模块识别出文本区域的位置信息，将文本和位置信息表示为T，

其中：T为文本和位置信息：

分别为包含文本区域、且位于左上、右上、左下和右下的四个点位；

t_i为第i位置的文本内容；

n为总的文本区域数。

步骤S501：在一些实施例中，除需有OCR处理的文本外，还包含大量的能直接进行格式化的原始文本，如word文本，excel文本等。

邻近搜索匹配中，通过处理模块9和校验模块6进行匹配、校验，配置对齐任务的所述关键词及匹配值校验的表达式R为：

其中：k_i为在第i位置的关键词；

d_i为在第i位置的搜索方向；

r_i为表示匹配值校验的正则表达式；

m为配置对齐任务的关键词数。

关键词匹配：

通过字段搜索匹配模块4进行关键词匹配，首先使用LSTM+CRF模型识别文本t_i中的实体e，再基于BERT词向量经计算模块8计算e和关键词及匹配值校验R中所有关键词的余弦相似度S_i|i∈[1，m]，经判断模块10判断，获取最大相似度S_max≥0.9的关键词作为目标关键词，形成目标关键词文本集表示为T_tar:

T_tar=T_j|j∈[0，p]

其中：T_tar为目标关键词文本集；

T_j为第j位置的目标关键词；

p为标关键词匹配成功的个数，0<= p<n；

值匹配：

根据T_j的点位的目标关键词信息以及关键词及匹配值校验R中定义的搜索方向，处理模块9按空间距离进行搜索并进行由近及远的排序，得到V_j，

V_j ={T_j}|j∈[0，p]

其中：

V_j为第j位置的目标关键词的匹配值集合；

T_j为第j位置的目标关键词的匹配值；

p为目标关键词总数量；

然后对V_j进行LSTM + CRF的实体识别，再根据对应关键词的空间距离进行排序，通过值搜索匹配模块5选取间距最近的前三项做为候选值，获得每个所述关键词的候选值列表。

在一些实施例中，当所述匹配值为文本块或多行数据时，直接将区域内的文本块或多行数据作为候选值按照与所述关键字间距大小进行逆向排序，距离所述关键词最近的候选值则为候选对应匹配值。如病例中，针对血压的诊断没有对应的数值，而是一段文字，则将该段文字作为候选值。

通过获取关键词候选值列表后，通过校验模块6使用所述校验表达式对所述候选值进行验证，如果间距较小的前三项中有校验成功的项，则选取间距最小者为校验成功的对应匹配值，如果间距较小的前三项中没有校验成功的项，则为校验失败值；处理模块9依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后经传输模块7发送到输出端输出。

步骤S601：在一些实施例中，容错及最终校验：通过人工对邻近搜索匹配结果最终校验，当存在多个关键词对应同一个匹配值时，人工选取与该匹配值间距最近的关键词为最佳匹配关键词，并解除与其他关键词的绑定。

本发明还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被一个或多个处理器执行时，使得所述一个或多个处理器实现基于关键词及邻近搜索的文本对齐方法。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种文本对齐方法，其特征在于，包括如下步骤：

步骤1：依据任务类型预设文本的格式化对齐模板；

步骤2：设定关键词、搜索方向、搜索区域及校验表达式；

步骤3：获取待分析原始文本；

步骤5：对所述文本区域或原始文本格式化，邻近搜索匹配：

2. 根据权利要求1所述文本对齐方法，其特征在于：步骤2进一步包括：所述搜索方向设定为向右搜索；当因图片拍摄角度问题导致所述关键词在搜索方向出现重叠时，即多个所述关键词对应一个所述匹配值时，所述搜索区域被扩大。

3. 根据权利要求1所述的文本对齐方法，其特征在于：步骤4进一步包括：所述OCR模块识别出文本区域的位置信息，将文本和位置信息表示为T，

其中：T为文本和位置信息；

分别为包含文本区域且位于左上、右上、左下和右下的四个点位；

t_i为第i位置的文本内容；

n为总的文本区域数。

4.根据权利要求1所述的文本对齐方法，其特征在于：步骤5进一步包括：配置对齐任务的所述关键词及所述匹配值校验R的表达式为：

其中：

k_i为在第i位置的关键词； d_i为在第i位置的搜索方向； r_i为表示匹配值校验的正则表达式；m为配置对齐任务的关键词数。

5. 根据权利要求1所述的文本对齐方法，其特征在于：步骤5进一步包括：

所述关键词匹配，首先使用LSTM+CRF模型识别文本t_i中的实体e，再基于BERT词向量计算e和所述关键词及所述匹配值校验R中所有关键词的余弦相似度S_i|i∈[1，m] 且获取最大相似度S_max≥0.9的所述关键词作为目标关键词，形成目标关键词文本集表示为T_tar: T_tar=T_j|j∈[0，p]

其中：T_tar为目标关键词文本集；

T_j为第j位置的目标关键词；

p为目标关键词匹配成功的个数，且0≤p＜n；

所述值匹配，根据T_j的点位的目标关键词信息以及所述关键词及所述匹配值校验R中定义的搜索方向，按空间距离进行搜索并进行由近及远的排序，得到V_j，

V_j ={T_j}|j∈[0，p]

其中：V_j为第j位置的目标关键词的匹配值集合；

T_j为第j位置的目标关键词的匹配值；

p为目标关键词匹配成功的个数，且 0≤p＜n；

然后对V_j进行LSTM + CRF的实体识别，之后根据对应关键词的空间距离进行排序，选取间距最近的前三项做为候选值，因此，获得每个所述关键词的候选值列表。

6.根据权利要求1所述的文本对齐方法，其特征在于：

步骤5进一步包括：当所述匹配值为文本块或多行数据时，直接将区域内的所述候选值按照间距大小进行逆向排序，距离所述关键词最近的所述候选值则为对应匹配值。

7.根据权利要求1所述的文本对齐方法，其特征在于：

步骤5进一步包括：获取所述关键词候选值后，使用所述校验表达式对所述候选值进行验证，如果前三项中有校验成功的项，则选取间距最小者为校验成功的对应匹配值，如果前三项中没有校验成功的项，则为校验失败值。

8.一种文本对齐装置，其特征在于，所述装置包括：

生成模块：依据任务类型预设的文本生成格式化对齐模板，生成关键词、搜索方向、搜索区域及校验表达式；

文字检测模块：用于从PDF、图片的文本中识别出关键词；

文本识别模块：用于对关键词所在的文本类型进行识别；

字段搜索匹配模块：按照生成模块预设的搜索方向及搜索区域识别关键词；当需要扩大搜索范围时，则按照生成模块重新设定的搜索方向及搜索区域识别关键词；

值搜索匹配模块：按照生成模块预设的搜索方向及搜索区域内的候选值；当需要扩大搜索范围时，则按照生成模块重新设定的搜索方向及搜索区域识别出关键词所对应的候选值；

判断模块：依据预设的关键词、搜索方向、搜索区域及校验表达式判断出目标关键词；

处理模块：依据目标关键词信息以及关键词及匹配值校验中定义的搜索方向，按空间距离进行搜索并进行由近及远的排序；依据所述格式化对齐模板将所述关键词及所述匹配值进行对齐排列处理。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述方法。

10.一种计算机可读存储介质，其存有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述方法。