CN112836484A - 一种文本对齐方法、装置、电子设备、计算机可读存储介质 - Google Patents

一种文本对齐方法、装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN112836484A
CN112836484A CN202110421920.0A CN202110421920A CN112836484A CN 112836484 A CN112836484 A CN 112836484A CN 202110421920 A CN202110421920 A CN 202110421920A CN 112836484 A CN112836484 A CN 112836484A
Authority
CN
China
Prior art keywords
text
keywords
matching
keyword
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110421920.0A
Other languages
English (en)
Other versions
CN112836484B (zh
Inventor
刘朝振
王海
刘邦长
常德杰
李栋栋
赵洪文
谷书锋
赵进
罗晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaoyijia Health Technology Group Co ltd
Original Assignee
Beijing Miaoyijia Health Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaoyijia Health Technology Group Co ltd filed Critical Beijing Miaoyijia Health Technology Group Co ltd
Priority to CN202110421920.0A priority Critical patent/CN112836484B/zh
Publication of CN112836484A publication Critical patent/CN112836484A/zh
Application granted granted Critical
Publication of CN112836484B publication Critical patent/CN112836484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本对齐方法、装置、电子设备、计算机可读存储介质,通过依据任务类型预设文本的格式化对齐模板,预设关键词、搜索方向、搜索区域及预设相应的校验表达式,再通过OCR模块对图片等文本进行关键词识别和文本类型识别,获取含有位置信息的文本区域;然后进行邻近搜索匹配,通过按预设的搜索方向及搜索区域识别每个关键词及匹配值,按照预设的校验表达式进行校验,按照预设的评判规则进行合格判断,合格后匹配输出,最后再通过容错及最终校验过程,进一步确保了各种文本关键词及匹配值对齐的准确性,彻底解决了现有技术中排版多变、噪音大的格式化无法对齐,以及人工操作缓慢、严重影响格式化效率的技术难题。

Description

一种文本对齐方法、装置、电子设备、计算机可读存储介质
技术领域
本发明属于关键词智能搜索匹配技术领域,尤其涉及一种文本对齐方法、装置、电子设备、计算机可读存储介质。
背景技术
数据格式化有多种类型需求,如身份证、发票、医师证、病历或体检报告等,格式化后的数据将逐个对齐到数据库各个字段中,目前,需要人工手动录入,例如保险公司在续保时需要对体检报告进行健康状况评估,当用户上传体检报告文件后,需要人工录入数据后经系统审核或人工审核。
随着 OCR(Optical Character Recognition,光学字符识别)技术的发展,可以从图片文件中识别出其中的文本内容,但不能完成实现内容的格式化对齐。对于简单些的需求,如身份证识别可以使用模板把相应的字段对齐,但对于排版格式多样的体检报告或病历模板则无法满足数据格式化的需求。此外,针对病历或体检报告也有使用命名实体识别(NER)
的方式进行对齐,但需要预先对大量的数据进行标注,不能冷启动,即不能对文本内容直接使用。
因此,严重影响了数据格式化准确率及效率。
发明内容
为解决上述问题,本发明提供了一种文本对齐方法、装置、电子设备、计算机可读存储介质,通过依据任务类型预设文本的格式化对齐模板,预定义关键词、搜索方向、搜索区域及预设相应的校验表达式,再通过OCR模块对图片等文本进行关键词识别和文本类型识别,获取含有位置信息的文本区域;然后进行邻近搜索匹配,通过按预设的搜索方向及区域识别每个关键词及匹配值,按照预设的校验表达式进行校验,按照预设的评判规则进行合格判断,合格后匹配输出,最后再通过容错及最终校验过程,进一步确保了各种文本关键词及匹配值对齐的准确性,不仅彻底解决了现有技术中排版多变、噪音大的格式化无法对齐以及人工操作缓慢、严重影响格式化效率的技术难题。
为实现上述发明目的,本发明的技术方案是:
一种文本对齐方法,包括如下步骤:
步骤1:依据任务类型预设文本的格式化对齐模板;
步骤2:设定关键词、搜索方向、搜索区域及校验表达式;
步骤3:获取待分析原始文本;
步骤4:通过OCR模块识别PDF、图片中的文本:识别所述关键词,识别所述关键词对应的文本类型,获取含有位置信息的文本区域;
步骤5:对所述文本区域或原始文本格式化,邻近搜索匹配:
关键词匹配:按照设定的所述搜索方向及所述搜索区域识别每个设有对齐任务的所述关键词;
值匹配:根据所述关键词的点位信息,在所述搜索方向,按照与所述关键词的间距排序,识别出候选值,再通过所述校验表达式校验所述候选值,获取匹配值;
依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后发送到输出端;
步骤6:容错及最终校验:对邻近搜索匹配结果最终校验,若所述关键词与所述匹配值一一对应,则邻近搜索匹配正确;若多个所述关键词对应同一个匹配值时,则选取与该匹配值间距最近的关键词为最佳匹配关键词。
在一些可能的实现方式中,步骤2进一步包括:所述搜索方向设定为向右搜索;当因图片拍摄角度问题导致所述关键词在搜索方向出现重叠时,即多个所述关键词对应一个所述匹配值时,所述搜索区域被扩大。
在一些可能的实现方式中,步骤4进一步包括:所述OCR模块识别出文本区域的位置信息,将文本和位置信息表示为T,
Figure 670986DEST_PATH_IMAGE001
其中:T为文本和位置信息:
Figure 92216DEST_PATH_IMAGE002
为分别为包含文本区域、且位于左上、右上、左下和右下的四个点位;
ti为第i位置的文本内容;
n为总的文本区域数。
在一些可能的实现方式中,步骤5进一步包括:配置对齐任务的所述关键词及匹配值校验R的表达式为
Figure 117941DEST_PATH_IMAGE003
其中:ki为在第i位置的关键词;
di为在第i位置的搜索方向;
ri为匹配值校验的正则表达式;
m为配置对齐任务的关键词数。
在一些可能的实现方式中,步骤5进一步包括:所述关键词匹配,首先使用LSTM+CRF模型识别文本ti中的实体e,再基于BERT词向量计算e和关键词及匹配值校验R中所有关键词的余弦相似度Si|i∈[1,m],且获取最大相似度Smax≥0.9的关键词作为目标关键词,形成目标关键词文本集表示为Ttar:
Ttar=Tj|j∈[0,p]
其中:Ttar为目标关键词文本集;
Tj为第j位置的目标关键词;
p目标关键词匹配成功的个数,且0≤p<n。
所述值匹配,根据Tj的点位的目标关键词信息以及关键词及匹配值校验R中定义的搜索方向,按空间距离进行搜索并进行由近及远的排序,得到Vj
Vj ={Tj}|j∈[0,p]
其中:Vj为第j位置的目标关键词的匹配值集合;
Tj为第j位置的目标关键词的匹配值;
P 目标关键词匹配成功的个数,且0≤p<n。
然后对Vj进行LSTM + CRF的实体识别,之后根据对应关键词的空间距离进行排序,选取间距最近的前三项做为候选值,获得每个所述关键词的候选值列表。
在一些可能的实现方式中,步骤5进一步包括:当所述匹配值为文本块或多行数据时,直接将区域内的候选值按照间距大小进行逆向排序,距离所述关键词最近的所述候选值则为对应匹配值。
在一些可能的实现方式中,步骤5进一步包括:获取所述关键词候选值后,使用所述校验表达式对所述候选值进行验证,如果前三项中有校验成功的项,则选取间距最小者为校验成功的对应匹配值,如果前三项中没有校验成功的项,则为校验失败值。
本发明还提供一种文本对齐装置,所述装置包括:
生成模块:依据任务类型预设的文本生成格式化对齐模板;生成关键词、搜索方向、区域及校验表达式;
获取模块:用于获取待处理的原始文本;获取文本对齐处理过程中产生的文本信息或数值;
OCR模块:用于识别待处理的原始文本中的PDF、图片文本的光学字符;
文字检测模块:用于从PDF、图片的文本中识别出关键词;
文本识别模块:用于对关键词所在的文本类型进行识别;
字段搜索匹配模块:按照生成模块预设的搜索方向及区域识别关键词;当需要扩大搜索范围时,则按照生成模块重新设定的搜索方向及搜索区域识别关键词;
值搜索匹配模块:用于识别在预设的搜索方向及区域内的候选值;当需要扩大搜索范围时,则按照生成模块重新设定的搜索方向及搜索区域识别出关键词所对应的候选值;
校验模块:依据校验表达式校验候选值:如果间距较小的前三项中有校验成功的项,则选取间距最小者为校验成功的对应匹配值,如果间距较小的前三项中没有校验成功的项,则为校验失败值;
传输模块:向客户端传输关键词及匹配值对齐排列的数据信息;
计算模块:用于计算关键词的余弦相似度Si及实体位置涉及的数据;
处理模块:依据目标关键词信息以及关键词及匹配值校验中定义的搜索方向,按空间距离进行搜索并进行由近及远的排序;依据所述格式化对齐模板将所述关键词及所述匹配值进行对齐排列处理;
判断模块:依据预设的关键词、搜索方向、搜索区域及校验表达式判断出目标关键词。
本发明还提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被一个或多个处理器执行时,使得所述一个或多个处理器实现基于关键词及邻近搜索的文本对齐方法。
本发明还提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述的关键词及匹配值的匹配对齐方法。
本发明的有益效果是:本发明通过提供了一种基于关键词及邻近搜索的文本对齐方法及装置,通过依据任务类型预设文本的格式化对齐模板,预定义关键词、搜索方向、搜索区域及预设相应的校验表达式,再通过OCR模块对PDF、图片的文本进行关键词识别和文本类型识别,获取含有位置信息的文本区域;然后进行邻近搜索匹配,通过按预设的搜索方向及区域识别每个关键词及匹配值,按照预设的校验表达式进行校验,按照预设的评判规则进行合格判断,合格后匹配输出,最后再通过容错及最终校验过程,进一步确保了各种文本关键词及匹配值对齐的准确性,不仅彻底解决了现有技术中排版多变、噪音大的格式化无法对齐以及人工操作缓慢、严重影响格式化效率的技术难题。
附图说明
图1为本申请实施例提供的文本对齐方法的一个可选的流程示意图;
其中:
1-生成模块;2-获取模块;3-OCR模块;31-文字检测模块;32-文本识别模块;4-字段搜索匹配模块;5-值搜索匹配模块;6-校验模块;7-传输模块;8-计算模块;9-处理模块;10-判断模块。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
参照图1所示:
本发明实施例:
本发明提供一种文本对齐装置,所述装置包括:
生成模块1:依据任务类型预设的文本生成格式化对齐模板;生成关键词、搜索方向、区域及校验表达式;
获取模块2:用于获取待处理的原始文本;获取文本对齐处理过程中产生的文本信息或数值;
OCR模块3:用于识别待处理的原始文本中的PDF、图片文本的光学字符;
文字检测模块31:用于从PDF、图片的文本中识别出关键词;
文本识别模块32:用于对关键词所在的文本类型进行识别;
字段搜索匹配模块4:按照生成模块预设的搜索方向及区域识别关键词;当需要扩大搜索范围时,则按照生成模块重新设定的搜索方向及搜索区域识别关键词;
值搜索匹配模块5:按照生成模块预设的搜索方向及区域内的候选值;当需要扩大搜索范围时,则按照生成模块重新设定的搜索方向及搜索区域识别出关键词所对应的候选值;
校验模块6:依据校验表达式校验候选值:如果间距较小的前三项中有校验成功的项,则选取间距最小者为校验成功的对应匹配值,如果间距较小的前三项中没有校验成功的项,则为校验失败值;
传输模块7:向客户端传输关键词及匹配值对齐排列的数据信息;
计算模块8:用于计算关键词的余弦相似度Si及实体位置涉及的数据;
处理模块9:依据目标关键词信息以及关键词及匹配值校验中定义的搜索方向,按空间距离进行搜索并进行由近及远的排序;依据所述格式化对齐模板将所述关键词及所述匹配值进行对齐排列处理;
判断模块10:依据预设的关键词、搜索方向、搜索区域及校验表达式判断出目标关键词。
本发明提供一种文本对齐方法,包括如下步骤:
步骤S101:依据任务类型预设文本的格式化对齐模板;步骤S201:定义关键词、搜索方向、区域及校验表达式;步骤S301:获取待分析原始文本;
步骤S401:通过OCR模块3对相匹配文本进行识别:文字检测模块31对所述关键词进行识别,文本识别模块32对文本类型进行识别,获取模块2获取含有位置信息的文本区域;步骤S501:对所述文本区域或原始文本进行格式化;邻近搜索匹配:通过字段搜索匹配模块4识别所述关键词;通过值搜索匹配模块5识别出候选值,并经校验模块6校验候选值,获取对应的匹配值;处理模块9依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后经传输模块7发送到输出端;步骤S601:容错及最终校验。
下面将结合本申请实施例的示例性应用和实施,说明本申请实施例提供的文本对齐方法。
步骤S101:本系统处理的数据类型有图片文件、pdf文件、文本文件、可执行文件,应用场景如身份证、医师证、体检报告、病例文本等。
步骤S201:生成模块1依据各种任务类型分别定义关键词、搜索方向、搜索区域及校验表达式;所述关键词均设有对齐任务。
搜索方向有上下左右四个方向,在一些实施例中,搜索方向默认为向右搜索,如身份证号码。
在一些实施例中,当因图片拍摄角度问题导致关键词在搜索方向出现重叠时,即多个关键词对应一个匹配值时,所述搜索区域将被扩大。
如:以向右搜索为例,如果图片拍摄有扭曲,导致关键词和搜索值不能出现在同一行,则同行向右搜索可能无结果,此时首先对上行、下行的内容进行邻近搜索,此搜索方向为经验方向,而实际算法中根据数据的匹配情况进行邻近搜索,如果上行、下行没有搜索到对应值,则继续加大搜索范围,扩大至上两行、下两行,搜索出与关键词对应的匹配值,搜索范围不再继续扩大,以防带来额外的匹配噪音。
如果扩大搜索范围还没有搜索出对应的匹配值,则临时放弃匹配,在最终校验环节,由人工审核匹配填充。
步骤S301:通过获取模块2获取待分析包含各种类型的原始文本;
步骤S401:在一些实施例中,有些文本格式为图片文件、pdf文件、文本文件等,需先经OCR模块3识别处理,所述OCR模块3识别后,即经识别文字检测模块31对所述关键词进行识别,文本识别模块32对文本类型进行识别后,获取含有位置信息的文本区域:
所述OCR模块识别出文本区域的位置信息,将文本和位置信息表示为T,
Figure 244029DEST_PATH_IMAGE004
其中:T为文本和位置信息:
Figure 177350DEST_PATH_IMAGE005
分别为包含文本区域、且位于左上、右上、左下和右下的四个点位;
ti为第i位置的文本内容;
n为总的文本区域数。
步骤S501:在一些实施例中,除需有OCR处理的文本外,还包含大量的能直接进行格式化的原始文本,如word文本,excel文本等。
邻近搜索匹配中,通过处理模块9和校验模块6进行匹配、校验,配置对齐任务的所述关键词及匹配值校验的表达式R为:
Figure 580649DEST_PATH_IMAGE006
其中:ki为在第i位置的关键词;
di为在第i位置的搜索方向;
ri为表示匹配值校验的正则表达式;
m为配置对齐任务的关键词数。
关键词匹配:
通过字段搜索匹配模块4进行关键词匹配,首先使用LSTM+CRF模型识别文本ti中的实体e,再基于BERT词向量经计算模块8计算e和关键词及匹配值校验R中所有关键词的余弦相似度Si|i∈[1,m],经判断模块10判断,获取最大相似度Smax≥0.9的关键词作为目标关键词,形成目标关键词文本集表示为Ttar:
Ttar=Tj|j∈[0,p]
其中:Ttar为目标关键词文本集;
Tj为第j位置的目标关键词;
p为标关键词匹配成功的个数,0<= p<n;
值匹配:
根据Tj的点位的目标关键词信息以及关键词及匹配值校验R中定义的搜索方向,处理模块9按空间距离进行搜索并进行由近及远的排序,得到Vj
Vj ={Tj}|j∈[0,p]
其中:
Vj为第j位置的目标关键词的匹配值集合;
Tj为第j位置的目标关键词的匹配值;
p为目标关键词总数量;
然后对Vj进行LSTM + CRF的实体识别,再根据对应关键词的空间距离进行排序,通过值搜索匹配模块5选取间距最近的前三项做为候选值,获得每个所述关键词的候选值列表。
在一些实施例中,当所述匹配值为文本块或多行数据时,直接将区域内的文本块或多行数据作为候选值按照与所述关键字间距大小进行逆向排序,距离所述关键词最近的候选值则为候选对应匹配值。如病例中,针对血压的诊断没有对应的数值,而是一段文字,则将该段文字作为候选值。
通过获取关键词候选值列表后,通过校验模块6使用所述校验表达式对所述候选值进行验证,如果间距较小的前三项中有校验成功的项,则选取间距最小者为校验成功的对应匹配值,如果间距较小的前三项中没有校验成功的项,则为校验失败值;处理模块9依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后经传输模块7发送到输出端输出。
步骤S601:在一些实施例中,容错及最终校验:通过人工对邻近搜索匹配结果最终校验,当存在多个关键词对应同一个匹配值时,人工选取与该匹配值间距最近的关键词为最佳匹配关键词,并解除与其他关键词的绑定。
本发明还提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被一个或多个处理器执行时,使得所述一个或多个处理器实现基于关键词及邻近搜索的文本对齐方法。
本发明还提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述的关键词及匹配值的匹配对齐方法。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种文本对齐方法,其特征在于,包括如下步骤:
步骤1:依据任务类型预设文本的格式化对齐模板;
步骤2:设定关键词、搜索方向、搜索区域及校验表达式;
步骤3:获取待分析原始文本;
步骤4:通过OCR模块识别PDF、图片中的文本:识别所述关键词,识别所述关键词对应的文本类型,获取含有位置信息的文本区域;
步骤5:对所述文本区域或原始文本格式化,邻近搜索匹配:
关键词匹配:按照设定的所述搜索方向及所述搜索区域识别每个设有对齐任务的所述关键词;
值匹配:根据所述关键词的点位信息,在所述搜索方向,按照与所述关键词的间距排序,识别出候选值,再通过所述校验表达式校验所述候选值,获取匹配值;
依据所述格式化对齐模板将所述关键词及所述匹配值对齐排列后发送到输出端;
步骤6:容错及最终校验:对邻近搜索匹配结果最终校验,若所述关键词与所述匹配值一一对应,则邻近搜索匹配正确;若多个所述关键词对应同一个匹配值时,则选取与该匹配值间距最近的关键词为最佳匹配关键词。
2. 根据权利要求1所述文本对齐方法,其特征在于:步骤2进一步包括:所述搜索方向设定为向右搜索;当因图片拍摄角度问题导致所述关键词在搜索方向出现重叠时,即多个所述关键词对应一个所述匹配值时,所述搜索区域被扩大。
3. 根据权利要求1所述的文本对齐方法,其特征在于:步骤4进一步包括:所述OCR模块识别出文本区域的位置信息,将文本和位置信息表示为T,
Figure 776455DEST_PATH_IMAGE001
其中:T为文本和位置信息;
Figure 428016DEST_PATH_IMAGE002
分别为包含文本区域且位于左上、右上、左下和右下的四个点位;
ti为第i位置的文本内容;
n为总的文本区域数。
4.根据权利要求1所述的文本对齐方法,其特征在于:步骤5进一步包括:配置对齐任务的所述关键词及所述匹配值校验R的表达式为:
Figure 942174DEST_PATH_IMAGE003
其中:
ki为在第i位置的关键词; di为在第i位置的搜索方向; ri为表示匹配值校验的正则表达式;m为配置对齐任务的关键词数。
5. 根据权利要求1所述的文本对齐方法,其特征在于:步骤5进一步包括:
所述关键词匹配,首先使用LSTM+CRF模型识别文本ti中的实体e,再基于BERT词向量计算e和所述关键词及所述匹配值校验R中所有关键词的余弦相似度Si|i∈[1,m] 且获取最大相似度Smax≥0.9的所述关键词作为目标关键词,形成目标关键词文本集表示为Ttar: Ttar=Tj|j∈[0,p]
其中:Ttar为目标关键词文本集;
Tj为第j位置的目标关键词;
p为 目标关键词匹配成功的个数,且0≤p<n;
所述值匹配,根据Tj的点位的目标关键词信息以及所述关键词及所述匹配值校验R中定义的搜索方向,按空间距离进行搜索并进行由近及远的排序,得到Vj
Vj ={Tj}|j∈[0,p]
其中:Vj为第j位置的目标关键词的匹配值集合;
Tj为第j位置的目标关键词的匹配值;
p为目标关键词匹配成功的个数,且 0≤p<n;
然后对Vj进行LSTM + CRF的实体识别,之后根据对应关键词的空间距离进行排序,选取间距最近的前三项做为候选值,因此,获得每个所述关键词的候选值列表。
6.根据权利要求1所述的文本对齐方法,其特征在于:
步骤5进一步包括:当所述匹配值为文本块或多行数据时,直接将区域内的所述候选值按照间距大小进行逆向排序,距离所述关键词最近的所述候选值则为对应匹配值。
7.根据权利要求1所述的文本对齐方法,其特征在于:
步骤5进一步包括:获取所述关键词候选值后,使用所述校验表达式对所述候选值进行验证,如果前三项中有校验成功的项,则选取间距最小者为校验成功的对应匹配值,如果前三项中没有校验成功的项,则为校验失败值。
8.一种文本对齐装置,其特征在于,所述装置包括:
生成模块:依据任务类型预设的文本生成格式化对齐模板,生成关键词、搜索方向、搜索区域及校验表达式;
获取模块:用于获取待处理的原始文本;获取文本对齐处理过程中产生的文本信息或数值;
OCR模块:用于识别待处理的原始文本中的PDF、图片文本的光学字符;
文字检测模块:用于从PDF、图片的文本中识别出关键词;
文本识别模块:用于对关键词所在的文本类型进行识别;
字段搜索匹配模块:按照生成模块预设的搜索方向及搜索区域识别关键词;当需要扩大搜索范围时,则按照生成模块重新设定的搜索方向及搜索区域识别关键词;
值搜索匹配模块:按照生成模块预设的搜索方向及搜索区域内的候选值;当需要扩大搜索范围时,则按照生成模块重新设定的搜索方向及搜索区域识别出关键词所对应的候选值;
校验模块:依据校验表达式校验候选值:如果间距较小的前三项中有校验成功的项,则选取间距最小者为校验成功的对应匹配值,如果间距较小的前三项中没有校验成功的项,则为校验失败值;
传输模块:向客户端传输关键词及匹配值对齐排列的数据信息;
计算模块:用于计算关键词的余弦相似度Si及实体位置涉及的数据;
判断模块:依据预设的关键词、搜索方向、搜索区域及校验表达式判断出目标关键词;
处理模块:依据目标关键词信息以及关键词及匹配值校验中定义的搜索方向,按空间距离进行搜索并进行由近及远的排序;依据所述格式化对齐模板将所述关键词及所述匹配值进行对齐排列处理。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述方法。
10.一种计算机可读存储介质,其存有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述方法。
CN202110421920.0A 2021-04-20 2021-04-20 一种文本对齐方法、装置、电子设备、计算机可读存储介质 Active CN112836484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421920.0A CN112836484B (zh) 2021-04-20 2021-04-20 一种文本对齐方法、装置、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421920.0A CN112836484B (zh) 2021-04-20 2021-04-20 一种文本对齐方法、装置、电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112836484A true CN112836484A (zh) 2021-05-25
CN112836484B CN112836484B (zh) 2021-08-27

Family

ID=75929858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421920.0A Active CN112836484B (zh) 2021-04-20 2021-04-20 一种文本对齐方法、装置、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112836484B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223661A (zh) * 2021-05-26 2021-08-06 杭州比康信息科技有限公司 中药处方传输系统
CN113779308A (zh) * 2021-11-12 2021-12-10 冠传网络科技(南京)有限公司 一种短视频检测和多分类方法、装置及存储介质
CN113987593A (zh) * 2021-12-28 2022-01-28 北京妙医佳健康科技集团有限公司 一种数据处理方法
CN114241487A (zh) * 2021-12-20 2022-03-25 北京妙医佳健康科技集团有限公司 一种ocr识别方法
CN115482537A (zh) * 2022-10-14 2022-12-16 北京中科万国互联网技术有限公司 基于迭代聚类处理ocr识别结果的文本对齐方法及系统
CN117792806A (zh) * 2023-12-26 2024-03-29 安徽思宇微电子技术有限责任公司 一种基于poe供电的用电信息采集终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244879A1 (en) * 2006-04-14 2007-10-18 Clausner Timothy C System and method for retrieving task information using task-based semantic indexes
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN108647319A (zh) * 2018-05-10 2018-10-12 思派(北京)网络科技有限公司 一种基于短文本聚类的标注系统及其方法
CN109033060A (zh) * 2018-08-16 2018-12-18 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN112541062A (zh) * 2020-11-27 2021-03-23 北京百分点信息科技有限公司 平行语料对齐方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244879A1 (en) * 2006-04-14 2007-10-18 Clausner Timothy C System and method for retrieving task information using task-based semantic indexes
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN108647319A (zh) * 2018-05-10 2018-10-12 思派(北京)网络科技有限公司 一种基于短文本聚类的标注系统及其方法
CN109033060A (zh) * 2018-08-16 2018-12-18 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN112541062A (zh) * 2020-11-27 2021-03-23 北京百分点信息科技有限公司 平行语料对齐方法、装置、存储介质及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223661A (zh) * 2021-05-26 2021-08-06 杭州比康信息科技有限公司 中药处方传输系统
CN113779308A (zh) * 2021-11-12 2021-12-10 冠传网络科技(南京)有限公司 一种短视频检测和多分类方法、装置及存储介质
CN114241487A (zh) * 2021-12-20 2022-03-25 北京妙医佳健康科技集团有限公司 一种ocr识别方法
CN113987593A (zh) * 2021-12-28 2022-01-28 北京妙医佳健康科技集团有限公司 一种数据处理方法
CN113987593B (zh) * 2021-12-28 2022-03-15 北京妙医佳健康科技集团有限公司 一种数据处理方法
CN115482537A (zh) * 2022-10-14 2022-12-16 北京中科万国互联网技术有限公司 基于迭代聚类处理ocr识别结果的文本对齐方法及系统
CN115482537B (zh) * 2022-10-14 2024-03-12 北京中科万国互联网技术有限公司 基于迭代聚类处理ocr识别结果的文本对齐方法及系统
CN117792806A (zh) * 2023-12-26 2024-03-29 安徽思宇微电子技术有限责任公司 一种基于poe供电的用电信息采集终端

Also Published As

Publication number Publication date
CN112836484B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN112836484B (zh) 一种文本对齐方法、装置、电子设备、计算机可读存储介质
WO2022105122A1 (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
EP2565804B1 (en) Text-based searching of image data
US20230004604A1 (en) Ai-augmented auditing platform including techniques for automated document processing
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
US9652695B2 (en) Label consistency for image analysis
CN111626048A (zh) 文本纠错方法、装置、设备及存储介质
US20200125954A1 (en) Systems and methods for selecting and generating log parsers using neural networks
CN110781460A (zh) 版权认证方法、装置、设备、系统及计算机可读存储介质
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
CN112966626A (zh) 人脸识别方法和装置
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113705691B (zh) 基于人工智能的图像标注校验方法、装置、设备及介质
CN113033271A (zh) 利用人工智能模块学习脸部辨识的处理方法
CN110874326A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN114547087B (zh) 提案自动识别并生成报告的方法、装置、设备和介质
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
US11880798B2 (en) Determining section conformity and providing recommendations
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
Tornés et al. Receipt Dataset for Document Forgery Detection
CN112329468B (zh) 异质关系网络的构建方法、装置、计算机设备及存储介质
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Chaozhen

Inventor after: Wang Hai

Inventor after: Liu Bangchang

Inventor after: Chang Dejie

Inventor after: Li Dongdong

Inventor after: Zhao Hongwen

Inventor after: Gu Shufeng

Inventor after: Zhao Jin

Inventor after: Luo Xiaobin

Inventor before: Liu Chaozhen

Inventor before: Wang Hai

Inventor before: Liu Bangchang

Inventor before: Chang Dejie

Inventor before: Li Dongdong

Inventor before: Zhao Hongwen

Inventor before: Gu Shufeng

Inventor before: Zhao Jin

Inventor before: Luo Xiaobin