CN114120299A - 信息获取方法、装置、存储介质及设备 - Google Patents
信息获取方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN114120299A CN114120299A CN202111197119.9A CN202111197119A CN114120299A CN 114120299 A CN114120299 A CN 114120299A CN 202111197119 A CN202111197119 A CN 202111197119A CN 114120299 A CN114120299 A CN 114120299A
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- indicative
- image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 163
- 238000003709 image segmentation Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例公开了一种信息获取方法、装置、存储介质及设备,本申请涉及人工智能技术。该方法包括:获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域;对文本识别区域进行文字提取,得到文本识别区域内的文本内容;对文本内容进行指示性关键词提取,得到文本内容中的M个指示性关键词;获取M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,输出每个指示性关键词以及每个指示性关键词对应的目标文本。通过本申请,可以对图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种信息获取方法、装置、存储介质及设备。
背景技术
随着信息网络的快速发展,人们通常选择通过拍摄图像方式快速便捷保存相关信息,在需要提取出拍摄得到的图像中的相关信息时,通过设备提取出图像的相关信息,取代人工提取,可以降低人工成本以及实现图像信息获取智能化。
目前,在提取出图像的相关信息时,需要预先保存需要提取的信息在图像中的目标位置(如预先保存身份证图像中身份证号所在的目标位置),这样,便可以提取出图像中位于目标位置的信息,只能适用于对图像中固定位置的内容进行提取,适用性较差。当图像中的内容发生偏移或者图像内容布局发生改变时,则会出现提取错误的现象,信息提取准确性较差。
发明内容
本申请实施例所要解决的技术问题在于,提供一种信息获取方法、装置、存储介质及设备,可以对图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
第一方面,本申请提供一种信息获取方法,包括:
获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域;
对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容;
对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,M为正整数;
获取该M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对该文本内容进行信息提取,得到该每个指示性关键词对应的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本,该关键词特征信息包括关键词类型和关键词位置。
可见,本申请实施例通过,通过对待识别图像进行图像分割,可以减少后续进行文字提取的计算量,提高文字提取效率。对文本区域进行文字提取,得到文本内容,对该文本内容进行指示性关键词提取,得到M个指示性关键词。通过该M个指示性关键词的关键词类型和关键词位置,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
结合第一方面,在一种可能的实现方式中,该对待识别图像进行图像分割,得到待识别图像中的文本识别区域,包括:
调用信息提取模型,通过该信息提取模型中的区域分割层对待识别图像进行像素特征提取,得到待识别图像的像素概率图,该像素概率图包括待识别图像中的每个像素点为文字像素点的概率;
基于该像素概率图,在待识别图像中确定像素点的概率大于或者等于目标概率的区域;
在待识别图像中分割出该像素点的概率大于或者等于目标概率的区域,得到待识别图像中的文本识别区域。
结合第一方面,在一种可能的实现方式中,该对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容,包括:
调用信息提取模型,通过该信息提取模型中的文本识别层,对该文本识别区域进行文字提取,得到该文本识别区域的文本序列;
对该文本序列进行特征预测,得到该文本序列的文本像素特征;
获取文本库中N个候选文本内容分别对应的候选文本特征,获取该文本像素特征与该N个候选文本内容中每个候选文本内容的候选文本特征之间的匹配度,N为正整数;
将N个候选文本内容中与该文本像素特征匹配度最大的候选文本内容,确定为该文本识别区域内的文本内容。
结合第一方面,在一种可能的实现方式中,该方法还包括:
在该文本像素特征与该N个候选文本内容分别对应的候选文本特征之间的N个匹配度中,获取最大的匹配度;
判断该最大的匹配度是否小于或者等于目标匹配度;
若该最大的匹配度小于或者等于该目标匹配度,则输出提示信息,以提示重新对该文本识别区域进行文字提取。
结合第一方面,在一种可能的实现方式中,该对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,包括:
对该文本内容进行关键词提取,得到该文本内容中的Q个初始关键词,Q为大于或者等于M的正整数;
获取初始关键词Qi分别与指示性关键词库中的多个样本指示性关键词之间的匹配度,该初始关键词Qi属于该Q个初始关键词,i为小于或者等于Q的正整数;
若该初始关键词Qi分别与该多个样本指示性关键词之间的多个匹配度中存在大于或者等于预设阈值的匹配度,则将该初始关键词Qi确定为指示性关键词;
从该Q个初始关键词中确定出M个指示性关键词,该M个指示性关键词中的一个指示性关键词与该指示性关键词库中的一个样本指示性关键词之间的匹配度大于或者等于该预设阈值。
结合第一方面,在一种可能的实现方式中,该根据每个指示性关键词的关键词特征信息,对该文本内容进行信息提取,得到该每个指示性关键词分别对应的目标文本,包括:
根据指示性关键词Mj的关键词类型,从第一对应关系表中获取该指示性关键词Mj对应的目标文本格式,该第一对应关系中包括关键词类型与文本格式之间的对应关系,该指示性关键词Mj属于该M个指示性关键词,j为小于或者等于M的正整数;
从第二对应关系表中获取该指示性关键词Mj对应的文本指示位置,该第二对应关系中包括指示性关键词与文本指示位置之间的对应关系,该文本指示位置用于反映目标文本相对于指示性关键词的位置;
根据该指示性关键词Mj的关键词位置、该文本指示位置以及该目标文本格式,对该文本内容进行信息提取,得到该指示性关键词Mj对应的目标文本。
结合第一方面,在一种可能的实现方式中,该根据该指示性关键词Mj的关键词位置、该文本指示位置以及该目标文本格式,对该文本内容进行信息提取,得到该指示性关键词Mj对应的目标文本,包括:
根据该指示性关键词Mj的关键词位置和该文本指示位置,确定该目标文本在该文本内容中的目标位置;
提取该文本内容中位于该目标位置内的目标文本,该目标文本的文本格式为该目标文本格式。
第二方面,本申请提供一种信息获取装置,包括:
图像分割模块,用于获取待识别图像,对该待识别图像进行图像分割,得到该待识别图像中的文本识别区域;
文字提取模块,用于对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容;
指示性关键词提取模块,用于对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,M为正整数;
信息提取模块,用于获取该M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对该文本内容进行信息提取,得到该每个指示性关键词对应的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本,该关键词特征信息包括关键词类型和关键词位置。
结合第二方面,在一种可能的实现方式中,图像分割模块包括:
像素特征提取单元,用于调用信息提取模型,通过该信息提取模型中的区域分割层对该待识别图像进行像素特征提取,得到该待识别图像的像素概率图,该像素概率图包括该待识别图像中的每个像素点为文字像素点的概率;
第一确定单元,用于基于该像素概率图,在该待识别图像中确定像素点的概率大于或者等于目标概率的区域;
分割单元,用于在该待识别图像中分割出该像素点的概率大于或者等于目标概率的区域,得到该待识别图像中的文本识别区域。
结合第二方面,在一种可能的实现方式中,文字提取模块包括:
文字提取单元,用于调用信息提取模型,通过该信息提取模型中的文本识别层,对该文本识别区域进行文字提取,得到该文本识别区域的文本序列;
特征预测单元,用于对该文本序列进行特征预测,得到该文本序列的文本像素特征;
第一获取单元,用于获取文本库中N个候选文本内容分别对应的候选文本特征,获取该文本像素特征与该N个候选文本内容中每个候选文本内容的候选文本特征之间的匹配度,N为正整数;
第二确定单元,用于将N个候选文本内容中与该文本像素特征匹配度最大的候选文本内容,确定为该文本识别区域内的文本内容。
结合第二方面,在一种可能的实现方式中,文字提取模块还包括:
第二获取单元,用于在该文本像素特征与该N个候选文本内容分别对应的候选文本特征之间的N个匹配度中,获取最大的匹配度;
判断单元,用于判断该最大的匹配度是否小于或者等于目标匹配度;
输出单元,用于若该最大的匹配度小于或者等于该目标匹配度,则输出提示信息,以提示重新对该文本识别区域进行文字提取。
结合第二方面,在一种可能的实现方式中,指示性关键词提取模块包括:
关键词提取单元,用于对该文本内容进行关键词提取,得到该文本内容中的Q个初始关键词,Q为大于或者等于M的正整数;
第三获取单元,用于获取初始关键词Qi分别与指示性关键词库中的多个样本指示性关键词之间的匹配度,该初始关键词Qi属于该Q个初始关键词,i为小于或者等于Q的正整数;
第三确定单元,用于若该初始关键词Qi分别与该多个样本指示性关键词之间的多个匹配度中存在大于或者等于预设阈值的匹配度,则将该初始关键词Qi确定为指示性关键词;
第四确定单元,用于从该Q个初始关键词中确定出M个指示性关键词,该M个指示性关键词中的一个指示性关键词与该指示性关键词库中的一个样本指示性关键词之间的匹配度大于或者等于该预设阈值。
结合第二方面,在一种可能的实现方式中,信息提取模块包括:
第四获取单元,用于根据指示性关键词Mj的关键词类型,从第一对应关系表中获取该指示性关键词Mj对应的目标文本格式,该第一对应关系中包括关键词类型与文本格式之间的对应关系,该指示性关键词Mj属于该M个指示性关键词,j为小于或者等于M的正整数;
第五获取单元,用于从第二对应关系表中获取该指示性关键词Mj对应的文本指示位置,该第二对应关系中包括指示性关键词与文本指示位置之间的对应关系,该文本指示位置用于反映目标文本相对于指示性关键词的位置;
信息提取单元,用于根据该指示性关键词Mj的关键词位置、该文本指示位置以及该目标文本格式,对该文本内容进行信息提取,得到该指示性关键词Mj对应的目标文本。
结合第二方面,在一种可能的实现方式中,信息提取单元具体用于:
根据该指示性关键词Mj的关键词位置和该文本指示位置,确定该目标文本在该文本内容中的目标位置;
提取该文本内容中位于该目标位置内的目标文本,该目标文本的文本格式为该目标文本格式。
第三方面,本申请提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
第五方面,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例中,通过获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域,可以减少后续进行文字提取的计算量,提高文字提取效率。对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容,对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,获取该M个指示性关键词分别对应的关键词特征信息,该关键词特征信息包括关键词类型和关键词位置。根据每个指示性关键词的关键词特征信息,对该文本内容进行信息提取,得到该每个指示性关键词对应的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本。可见,通过M个指示性关键词的关键词类型和关键词位置,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。通过本申请,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息获取系统的架构示意图;
图2是本申请实施例提供的一种信息获取方法的流程示意图;
图3是本申请实施例提供的另一种信息获取方法的流程示意图;
图4是本申请实施例提供的一种信息获取装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
见图1,图1是本申请实施例提供的一种信息获取系统的结构示意图。如图1所示,该信息获取系统可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
其中,该用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备、车载终端等具有信息获取功能的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。
其中,如图1所示,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等携带信息获取功能的智能终端。例如,为便于理解,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,用户终端100a可以获取待识别图像,将待识别图像发送给服务器10,请求服务器19返回待识别图像中的指示性关键词和该指示性关键词对应的目标文本。服务器10接收到用户终端100a发送的待识别图像后,可以对该待识别图像进行图像分割,得到该待识别图像中的文本识别区域。服务器10可以对文本识别区域进行文字提取,得到文本识别区域内的文本内容,并对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,M为正整数,如M可以取值为1,2,3…。服务器10可以获取M个指示性关键词分别对应的关键词特征信息,该关键词特征信息可以包括关键词类型和关键词位置信息,根据每个指示性关键词的关键词特征信息,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,将该M个指示性关键和每个指示性关键词分别对应的目标文本返回给用户终端100a。用户终端100a可以输出每个指示性关键词以及每个指示性关键词对应的目标文本,以使下游进行信息收集等相关业务,如对身份证图像进行信息提取,得到每个指示性关键词和每个指示性关键词对应的目标文本(如指示性关键词“身份证号码”以及该“身份证号码”对应的具体数字)。这样,可以对图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
请参见图2,图2是本申请实施例提供的一种信息获取方法的流程示意图。该信息获取方法可由计算机设备执行,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),或者为服务器和用户终端组成的系统,本申请对此不做限定。如图2所示,该信息获取方法可以包括但不限于以下步骤:
S101,获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域。
具体的,通过计算机设备对图像进行信息提取,得到图像中的相关信息,这样,可以实现不用人工参与,实现图像信息提取的智能化,便于后续信息收集、信息验证等相关业务处理。具体的,计算机设备可以获取待识别图像,该待识别图像可以是指计算机设备向拍摄组件下发拍摄指令,以使拍摄组件进行拍摄得到图像,也可以是指用户上传至计算机设备的图像。计算机设备可以对该待识别图像进行图像分割,得到待识别图像中的文本识别区域,该文本识别区域为待识别区域中包含文字信息的区域。其中,计算机设备可以识别待识别图像中文字信息所在的区域,并在待识别区域中分割出该文字信息所在的区域,得到待识别图像中的文本识别区域。
可选的,计算机设备对待识别图像进行图像分割,得到待识别图像中的文本识别区域的具体方式可以包括:调用信息提取模型,通过信息提取模型中的区域分割层对待识别图像进行像素特征提取,得到待识别图像的像素概率图,像素概率图包括待识别图像中的每个像素点为文字像素点的概率。基于像素概率图,在待识别图像中确定像素点的概率大于或者等于目标概率的区域。在待识别图像中分割出像素点的概率大于或者等于目标概率的区域,得到待识别图像中的文本识别区域。
具体的,计算机设备可以调用信息提取模型,该信息提取模型用于对待识别图像进行信息提取,得到该待识别图像中的指示性关键和指示性关键词对应的目标文本。计算机设备可以通过信息提取模型中的区域分割层,对待识别图像进行像素特征提取,得到待识别图像的像素概率图,该像素概率图包括待识别图像中的每个像素点为文字像素点的概率。其中,信息提取模型可以由大量的样本数据进行训练得到。
可选的,区域分割层对待识别图像进行像素特征提取时,若确定待识别图像中的某个像素点A为特定像素时(如像素值大于或者等于目标像素值),则获取该像素点A附近的多个像素点(如取半径为x的圆形区域内的像素点),获取该附近的多个像素点分别对应的像素值。根据该附近的多个像素点分别对应的像素值,从附近的多个像素点中获取像素值大于或者等于目标像素值的像素点,并获取该像素值大于或者等于目标像素值的像素点分别对应的像素位置。根据像素点A的像素位置和该像素值大于或者等于目标像素值的像素点分别对应的像素位置,将像素点A和像素值大于或者等于目标像素值的像素点进行点连接,得到目标图形,判断该目标图形是否为文字图形。若确定目标图形为文字图形,则确定像素点A为文字像素点的概率为100%;若确定目标图像不为文字图形,则可以确定像素点A为文字像素点的概率为0。其中,计算机设备可以将目标图形为文字图形的概率确定像素点A为文字像素点的概率。
具体的,计算机设备通过信息提取模型中的区域分割层得到像素概率图后,可以基于该像素概率图,确定文本识别区域中像素点大于或者等于目标像素值的像素点。计算机设备可以在文本识别区域中获确定该像素点大于或者等于目标像素值的像素点所在的区域,从待识别区域中分割出该像素点大于或者等于目标像素值的像素点所在的区域,得到待识别图像中的文本识别区域。其中,文本识别区域的数量可以为多个,计算机设备可以分割出待识别图像中的多个文本识别区域。例如,待识别图像中的文字信息B和文字信息C相隔较远时,计算机设备可以对文字信息B所在区域进行分割,得到一个文本识别区域,计算机设备可以对文字信息C所在区域进行分割,得到一个文本识别区域。这样,可以减少文本识别区域的面积大小,减少后续对文本识别区域进行文字提取的计算量,提高文本提取的效率。
其中,区域分割层可以是指DBNet神经网络,DBNet(Differentiablebinarization Net)神经网络是一种用于分割的文本检测神经网络。
另一种实现方式中,计算机设备可以预先对待识别图像进行预处理(如灰度化处理),以减少待识别图像中的干扰信息,以提高信息提取的效率和准确率。例如,计算机设备可以预先对待识别图像进行灰度化处理,灰度化处理是指将彩色图像转化成为灰度图像的过程。由于待识别图像可能为彩色图像,彩色图像中的每个像素的颜色由三个颜色分量决定,而每个颜色分量有255中值可取,这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。而灰度图像是三个颜色分量相同的一种特殊的彩色图像,其一个像素点的变化范围为255种。因此对待识别图像进行灰度化处理,可以减少后续处理的计算量,提高信息提取的效率。
S102,对文本识别区域进行文字提取,得到文本识别区域内的文本内容。
具体的,计算机设备可以对文本识别区域进行文字提取,得到文字识别区域内的文本内容。
可选的,计算机设备对文本识别区域进行文字提取,得到文本识别区域内的文本内容的具体方式可以包括:调用信息提取模型,通过信息提取模型中的文本识别层,对文本识别区域进行文字提取,得到文本识别区域的文本序列。对文本序列进行特征预测,得到文本序列的文本像素特征。获取文本库中N个候选文本内容分别对应的候选文本特征,获取文本像素特征与N个候选文本内容中每个候选文本内容的候选文本特征之间的匹配度,N为正整数。将N个候选文本内容中与文本像素特征匹配度最大的候选文本内容,确定为文本识别区域内的文本内容。
具体的,计算机设备可以调用信息提取模型,该信息提取模型与上述的信息提取模型相同,用于对待识别图像进行信息提取,得到该待识别图像中的指示性关键和指示性关键词对应的目标文本。计算机设备可以通过信息提取模型中的文本识别层,对文本识别区域进行文字提取,得到文本识别区域中的文本序列。计算机设备可以通过文本识别层,对文本序列进行特征预测,得到文本序列的文本像素特征,并获取文本库中N个候选文本内容分别对应的候选文本特征,N为正整数,如N可以取值为1,2,3…。计算机设备可以获取文本序列的文本像素特征与N个候选文本内容中每个候选文本内容的候选文本特征之间的匹配度,将N个候选文本内容中与文本像素特征的匹配度最大的候选文本内容,确定为文本识别区域内的文本内容。
可选的,计算机设备还可以在文本像素特征与N个候选文本内容的候选文本特征之间的N个匹配度中,获取最大的匹配度。判断最大的匹配度是否小于或者等于目标匹配度,若最大的匹配度小于或者等于目标匹配度,则输出提示信息,以提示重新对文本识别区域进行文字提取。
具体的,计算机设备可以在文本序列的文本像素特征与N个候选文本内容分别对应的候选文本特征之间的N个匹配度中,获取最大的匹配度。计算机设备可以判断该最大的匹配度是否小于或者等于目标匹配度,若该最大的匹配度小于目标匹配度,则可以匹配不是很准确,则可以输出提示信息,以提示人工重新对文本识别区域进行文字提取,或者,计算机设备重新对文本识别区域进行文本提取。这样,可以提高对文本识别区域进行文字提取的准确性,进而提高图像信息提取的准确性。
其中,文本识别层可以是指CRNN神经网络,CRNN(Convolutional RecurrentNeural Network)神经网络是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,用于对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。
其中,文本识别层还可以输出文本内容中各个目标文字的置信度,根据该置信度对文本内容中各个目标文字进行校正,如当各个目标文字的置信度小于目标置信度时,则重新进行文字识别,或者输出提示信息,以提示管理人员进行人工识别。置信度是指计算机设备通过文本识别层得到文本识别区域中的各个初始文字后,获取每个初始文字与文字库中的样本文字之间的匹配度,将文字库中的多个样本文字与初始文字之间的多个匹配度中最大的匹配度,确定为对应初始文字的置信度。例如,计算机设备从文本识别区域提取出初始文本Q后,获取该初始文本Q与文字库中多个样本文字之间的匹配度,若该初始文本Q与文字库中多个样本文字之间的多个匹配度中最大的匹配度为88%,可以将该最大的匹配度所对应的样本文本确定为目标文字,并确定该目标文本的置信度为88%。
其中,计算机设备获取文本识别区域中的文本内容时,还可以获取文本内容中各个目标文字所在的文字位置信息,以便后续进行信息提取。
可选的,计算机设备在对文本识别区域进行文字提取之前,可以采用方向检测模型,对文本识别区域内的各个区域文字的方向进行检测,得到每个区域文字对应的文字角度,根据每个区域文字对应的文字角度,对每个区域文字进行校正,将每个区域文字的文字方向校正为目标方向,这样便于后续对文本识别区域进行文字提取,得到文本识别区域中的文本内容。例如,目标方向可以是指便于用户观看的常规的排列方向(即文字正常排放在纸张上的方向),可以将目标方向对应的文字角度确定为0度,以目标方向为基准,通过方向检测模型,输出各个文字的文字角度(如90度,与目标方向偏移了90度),根据各个区域文字的文字角度,对每个区域文字进行校正,即将每个区域文字调整为目标方向,以便于后续获得文本识别区域中的文本内容,可以提高信息提取的准确性。
S103,对文本内容进行指示性关键词提取,得到文本内容中的M个指示性关键词。
具体的,计算机设备可以对文本内容进行指示性关键词提取,得到文本内容中的M个指示性关键词,M为正整数,如M可以取值为1,2,3…。该指示性关键词是指带有指示性的词语,如姓名、性别、家庭住址、电话号码以及身份证号码等。
可选的,计算机设备对文本内容进行指示性关键词提取,得到文本内容中的M个指示性关键词的具体方式可以包括:对文本内容进行关键词提取,得到文本内容中的Q个初始关键词,Q为大于或者等于M的正整数。获取初始关键词Qi分别与指示性关键词库中的多个样本指示性关键词之间的匹配度,初始关键词Qi属于Q个初始关键词,i为小于或者等于Q的正整数。若初始关键词Qi分别与多个样本指示性关键词之间的多个匹配度中存在大于或者等于预设阈值的匹配度,则将初始关键词Qi确定为指示性关键词。从Q个初始关键词中确定出M个指示性关键词,M个指示性关键词中的一个指示性关键词与指示性关键词库中的一个样本指示性关键词之间的匹配度大于或者等于预设阈值。
具体的,计算机设备得到文本内容后,可以对文本内容进行关键词提取,得到文本内容中的Q个初始关键词,Q为大于或者等于M的正整数,如Q可以取值为1,2,3…。计算机设备可以获取初始关键词Qi分别与指示性关键词库中的多个样本指示性关键词之间的匹配度,该初始关键词Qi属于Q个初始关键词中的任意一个初始关键词,i为小于或者等于Q的正整数,如i可以取值为1,2,3…。若初始关键词Qi分别与多个样本指示关键词之间的多个匹配度中存在大于或者等于预设阈值的匹配度,则可以将初始关键词Qi确定为指示性关键词。即计算机设备提取出文本内容中的Q个初始关键词后,可以获取每个初始关键词与指示性关键词库中的每个样本指示性关键词之间的匹配度,若存在大于或者等于预设阈值的匹配度,则可以确定初始关键词为指示性关键词,即判断每个初始关键词是否为指示性关键词。其中,预设阈值可以为100%,或者,90%等,可以根据具体情况进行设置,本申请实施例在此不作限制。
另一种实现方式中,计算机设备在预先构建指示性关键词库时,可以为指示性关键词库中的每个样本指示性关键构建扩展关键词,例如,样本指示性关键词“的扩展关键词可以为“电话号码”、“Phone(电话)”或“PhoneNumber(电话号码)”等。只要文本内容中存在与“电话”、“电话号码”、“Phone”或“PhoneNumber”等任一个关键词相同(即匹配度为100%)的初始关键词时,则可以将与“电话”、“电话号码”、“Phone”或“PhoneNumber”等任一个关键词相同的初始关键词,作为指示性关键词。
又一种实现方式中,计算机设备可以采用信息提取模型中的关键词识别层,对Q个初始关键词进行指示性关键词识别,从Q个初始关键词中确定M个指示性关键词。其中,关键词识别层可以为NER(Named Entity Recognition,简称NER)神经网络,该NER神经网络是指命名实体识别,是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。计算机设备可以获取该Q个初始关键分别对应的词特征,根据该词特征预测初始关键词为指示性关键词的预测概率,将预测概率大于目标概率的初始指示性关键词确定指示性关键词。
S104,获取M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,输出每个指示性关键词以及每个指示性关键词对应的目标文本。
具体的,计算机设备可以获取M个指示性关键词分别对应的关键词特征信息,该关键词特征信息包括关键词类型和关键词位置。计算机设备可以根据每个指示性关键的关键词类型,确定其对应的目标文本的文本格式,并根据每个指示性关键对应的关键词位置确定其对应的目标文本的文本位置。计算机设可以根据该目标文本的文本格式和文本位置,从文本内容中提取出每个指示性关键词对应的目标文本,并输出每个指示性关键词以及每个指示性关键词对应的目标文本,以便业务下游进行业务处理。如计算机设备可以提取出快递单中每个指示性关键词(如快递单号)以及每个指示性关键词对应的目标文本(即快递单号的具体数值),以使根据该快递单号查询用户的快递物流信息。
在本申请实施例中,通过获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域,可以减少后续进行文字提取的计算量,提高文字提取效率。对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容,对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,获取该M个指示性关键词分别对应的关键词特征信息,该关键词特征信息包括关键词类型和关键词位置。根据每个指示性关键词的关键词特征信息,对该文本内容进行信息提取,得到该每个指示性关键词对应的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本。可见,通过M个指示性关键词的关键词类型和关键词位置,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。另外,还可以通过信息提取模型提取出待识别图像中的每个指示性关键词和每个指示性关键词对应的目标文本,可以提高图像信息提取的效率。通过本申请,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
请参见图3,图3是本申请实施例提供的另一种信息获取方法的流程示意图。该信息获取方法可由信息获取装置执行,该信息获取装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该信息获取装置为一个应用软件,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),或者为服务器和用户终端组成的系统,本申请对此不做限定。如图3所示,该信息获取方法可以包括但不限于以下步骤:
S201,获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域。
S202,对文本识别区域进行文字提取,得到文本识别区域内的文本内容。
S203,对文本内容进行指示性关键词提取,得到文本内容中的M个指示性关键词,M为正整数。
S204,获取M个指示性关键词分别对应的关键词特征信息,关键词特征信息包括关键词类型和关键词位置。
具体的,本申请实施例中步骤S201-S204的具体内容可以参见图2中步骤S101-S104的内容,本申请实施例在此不再赘述。
S205,根据指示性关键词Mj的关键词类型,从第一对应关系表中获取指示性关键词Mj对应的目标文本格式。
具体的,计算机设备可以根据指示性关键词Mj的关键词类型,从第一对应关系表中获取指示性关键词Mj对应的目标文本格式,该关键词类型可以是指姓名关键词类型、性别关键词类型等。第一对应关系中包括关键词类型与文本格式之间的对应关系,指示性关键词Mj属于M个指示性关键词,j为小于或者等于M的正整数,如j可以取值为1,2,3…。例如,指示性关键词为“公民身份号码”关键词类型时,其对应的目标文本格式可以是指18位制的数字,即公民身份号码为18位的纯数字,比如指示性关键词为swiftcode(银行电汇号码)关键词类型时,其对应的目标文本格式为8位制或11位制的数字。
S206,从第二对应关系表中获取指示性关键词Mj对应的文本指示位置。
具体的,计算机设备可以从第二对应关系表中获取指示性关键词Mj对应的文本指示位置,该第二对应关系中包括指示性关键词与文本指示位置之间的对应关系,文本指示位置用于反映目标文本相对于指示性关键词的位置。例如,计算机设备得到指示性关键词“公民身份号码”后,可以从第二对应关系中获取指示性关键词“公民身份号码”对应的文本指示位置为右边或者右下方等,文本指示位置用于反映目标文本相对于指示性关键词的位置,即指示性关键词“公民身份号码”的右方或者右下方存在身份证号码的具体数值。
S207,根据指示性关键词Mj的关键词位置、文本指示位置以及目标文本格式,对文本内容进行信息提取,得到指示性关键词Mj对应的目标文本,输出每个指示性关键词以及每个指示性关键词对应的目标文本。
具体的,计算机设备可以根据指示性关键词Mj的关键词位置和文本指示位置从文本内容中确定目标文本的位置,根据目标文本格式确定目标文本的格式,在文本内容中对目标文本所在区域信息提取,得到指示性关键词Mj对应的目标文本,输出每个指示性关键词以及每个指示性关键词对应的目标文本。
可选的,计算机设备可以获取指示性关键词Mj对应的目标文本的具体方式可以包括:根据指示性关键词Mj的关键词位置和文本指示位置,确定目标文本在文本内容中的目标位置。提取文本内容中位于目标位置内的目标文本,目标文本的文本格式为目标文本格式。
具体的,计算机设备可以根据指示性关键词Mj的关键词位置和文本指示位置,确定目标文本在文本内容中的目标位置。例如,指示性关键词“公民身份号码”的关键词位置为(x1,y1),文本指示位置为右方,则可以根据“公民身份号码”的关键词位置为(x1,y1)和文本指示位置“右方”确定身份证号码的具体数值所在的目标位置(x2,y2)。计算机设备可以提取出文本内容中位于目标位置内的目标文本,该目标文本的文本格式为目标文本格式。例如,指示性关键词对应的目标文本格式为18位制的数字,则可以提取出文本内容中位于目标位置(x2,y2)的18位制的数字,作为指示性关键词对应的目标文本。
可选的,计算机设备可以通过信息提取模型中的信息识别层,通过该信息识别层,对每个指示性关键词的关键词类型和关键词位置进行分析,在文本内容中确定每个指示性关键词对应的目标文本。信息识别层可以是指GCN神经网络(Graph ConvolutionalNetwork,图卷积网络),该GCN神经网络是用来提取拓扑图的空间特征,在本申请实施例,GCN神经网络可以用于提取出指示性关键词与对应的目标文本之间的位置关系特征,根据该位置关系特征从文本内容中确定指示性关键词对应的目标文本。
可选的,计算机设备得到M个指示性关键词分别对应的目标文本之后,还可以获取目标业务所需要的待提取业务内容,在N个指示性关键词中确定与待提取业务内容匹配度最高的指示性关键词,作为目标指示性关键词,将目标指示性关键词对应的目标文本作为待提取业务内容对应的业务文本信息,输出业务文本信息。例如,转款业务中需要待提取业务内容“收款方”的具体信息,当获取到汇款材料图像中M个指示性关键词和每个指示性关键词分别对应的目标文本后,可以在M个指示性关键词确定与提取业务内容“收款方”匹配度最高的指示性关键词,作为目标指示性关键词,将目标指示性关键词对应的目标文本(如**有限公司)作为待提取业务内容“收款方”的业务文本信息,输出业务文本信息“**有限公司”。
在本申请实施例中,通过获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域,可以减少后续进行文字提取的计算量,提高文字提取效率。对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容,对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,获取该M个指示性关键词分别对应的关键词特征信息,该关键词特征信息包括关键词类型和关键词位置。根据每个指示性关键词的关键词类型确定目标文本格式,获取每个指示性关键词的文本指示位置,根据该文本指示位置确定目标位置,提取出文本内容中位于目标位置的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本。可见,通过M个指示性关键词的关键词类型和关键词位置,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。另外,还可以通过信息提取模型提取出待识别图像中的每个指示性关键词和每个指示性关键词对应的目标文本,可以提高图像信息提取的效率。通过本申请,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
请参见图4,图4是本申请实施例提供的一种信息获取装置的结构示意图。上述信息获取装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该信息获取装置为一个应用软件;该信息获取装置可以用于执行本申请实施例提供的信息获取方法中的相应步骤。如图4所示,该信息获取装置可以包括:图像分割模块11、文字提取模块12、指示性关键词提取模块13以及信息提取模块14。
图像分割模块11,用于获取待识别图像,对该待识别图像进行图像分割,得到该待识别图像中的文本识别区域;
文字提取模块12,用于对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容;
指示性关键词提取模块13,用于对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,M为正整数;
信息提取模块14,用于获取该M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对该文本内容进行信息提取,得到该每个指示性关键词对应的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本,该关键词特征信息包括关键词类型和关键词位置。
结合第二方面,在一种可能的实现方式中,图像分割模块11包括:
像素特征提取单元1101,用于调用信息提取模型,通过该信息提取模型中的区域分割层对该待识别图像进行像素特征提取,得到该待识别图像的像素概率图,该像素概率图包括该待识别图像中的每个像素点为文字像素点的概率;
第一确定单元1102,用于基于该像素概率图,在该待识别图像中确定像素点的概率大于或者等于目标概率的区域;
分割单元1103,用于在该待识别图像中分割出该像素点的概率大于或者等于目标概率的区域,得到该待识别图像中的文本识别区域。
结合第二方面,在一种可能的实现方式中,文字提取模块12包括:
文字提取单元1201,用于调用信息提取模型,通过该信息提取模型中的文本识别层,对该文本识别区域进行文字提取,得到该文本识别区域的文本序列;
特征预测单元1202,用于对该文本序列进行特征预测,得到该文本序列的文本像素特征;
第一获取单元1203,用于获取文本库中N个候选文本内容分别对应的候选文本特征,获取该文本像素特征与该N个候选文本内容中每个候选文本内容的候选文本特征之间的匹配度,N为正整数;
第二确定单元1204,用于将N个候选文本内容中与该文本像素特征匹配度最大的候选文本内容,确定为该文本识别区域内的文本内容。
结合第二方面,在一种可能的实现方式中,文字提取模块12还包括:
第二获取单元1205,用于在该文本像素特征与该N个候选文本内容分别对应的候选文本特征之间的N个匹配度中,获取最大的匹配度;
判断单元1206,用于判断该最大的匹配度是否小于或者等于目标匹配度;
输出单元1207,用于若该最大的匹配度小于或者等于该目标匹配度,则输出提示信息,以提示重新对该文本识别区域进行文字提取。
结合第二方面,在一种可能的实现方式中,指示性关键词提取模块13包括:
关键词提取单元1301,用于对该文本内容进行关键词提取,得到该文本内容中的Q个初始关键词,Q为大于或者等于M的正整数;
第三获取单元1302,用于获取初始关键词Qi分别与指示性关键词库中的多个样本指示性关键词之间的匹配度,该初始关键词Qi属于该Q个初始关键词,i为小于或者等于Q的正整数;
第三确定单元1303,用于若该初始关键词Qi分别与该多个样本指示性关键词之间的多个匹配度中存在大于或者等于预设阈值的匹配度,则将该初始关键词Qi确定为指示性关键词;
第四确定单元1304,用于从该Q个初始关键词中确定出M个指示性关键词,该M个指示性关键词中的一个指示性关键词与该指示性关键词库中的一个样本指示性关键词之间的匹配度大于或者等于该预设阈值。
结合第二方面,在一种可能的实现方式中,信息提取模块14包括:
第四获取单元1401,用于根据指示性关键词Mj的关键词类型,从第一对应关系表中获取该指示性关键词Mj对应的目标文本格式,该第一对应关系中包括关键词类型与文本格式之间的对应关系,该指示性关键词Mj属于该M个指示性关键词,j为小于或者等于M的正整数;
第五获取单元1402,用于从第二对应关系表中获取该指示性关键词Mj对应的文本指示位置,该第二对应关系中包括指示性关键词与文本指示位置之间的对应关系,该文本指示位置用于反映目标文本相对于指示性关键词的位置;
信息提取单元1403,用于根据该指示性关键词Mj的关键词位置、该文本指示位置以及该目标文本格式,对该文本内容进行信息提取,得到该指示性关键词Mj对应的目标文本。
结合第二方面,在一种可能的实现方式中,信息提取单元1403具体用于:
根据该指示性关键词Mj的关键词位置和该文本指示位置,确定该目标文本在该文本内容中的目标位置;
提取该文本内容中位于该目标位置内的目标文本,该目标文本的文本格式为该目标文本格式。
根据本申请的一个实施例,图4所示的信息获取装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,信息获取装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
在本申请实施例中,通过获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域,可以减少后续进行文字提取的计算量,提高文字提取效率。对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容,对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,获取该M个指示性关键词分别对应的关键词特征信息,该关键词特征信息包括关键词类型和关键词位置。根据每个指示性关键词的关键词类型确定目标文本格式,获取每个指示性关键词的文本指示位置,根据该文本指示位置确定目标位置,提取出文本内容中位于目标位置的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本。可见,通过M个指示性关键词的关键词类型和关键词位置,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。另外,还可以通过信息提取模型提取出待识别图像中的每个指示性关键词和每个指示性关键词对应的目标文本,可以提高图像信息提取的效率。通过本申请,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
请参见图5,图5是本申请实施例提供的一种计算机设备的结构示意图。如图5所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:目标用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,目标用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选目标用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、目标用户接口模块以及设备控制应用程序。
在图5所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而目标用户接口1003主要用于为目标用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2或者图3所对应实施例中对信息获取方法的描述,也可执行前文图5所对应实施例中对信息获取装置的描述,在此不再赘述。
在本申请实施例中,通过获取待识别图像,对待识别图像进行图像分割,得到待识别图像中的文本识别区域,可以减少后续进行文字提取的计算量,提高文字提取效率。对该文本识别区域进行文字提取,得到该文本识别区域内的文本内容,对该文本内容进行指示性关键词提取,得到该文本内容中的M个指示性关键词,获取该M个指示性关键词分别对应的关键词特征信息,该关键词特征信息包括关键词类型和关键词位置。根据每个指示性关键词的关键词类型确定目标文本格式,获取每个指示性关键词的文本指示位置,根据该文本指示位置确定目标位置,提取出文本内容中位于目标位置的目标文本,输出该每个指示性关键词以及该每个指示性关键词对应的目标文本。可见,通过M个指示性关键词的关键词类型和关键词位置,对文本内容进行信息提取,得到每个指示性关键词对应的目标文本,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。另外,还可以通过信息提取模型提取出待识别图像中的每个指示性关键词和每个指示性关键词对应的目标文本,可以提高图像信息提取的效率。通过本申请,可以实现对待识别图像中任意布局的图像内容进行信息提取,提高信息提取的适用性且提高信息提取的准确率。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的信息获取装置所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2或者图3所对应实施例中对信息获取方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图2或者图3所对应实施例中对信息获取方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种信息获取方法,其特征在于,包括:
获取待识别图像,对所述待识别图像进行图像分割,得到所述待识别图像中的文本识别区域;
对所述文本识别区域进行文字提取,得到所述文本识别区域内的文本内容;
对所述文本内容进行指示性关键词提取,得到所述文本内容中的M个指示性关键词,M为正整数;
获取所述M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对所述文本内容进行信息提取,得到所述每个指示性关键词对应的目标文本,输出所述每个指示性关键词以及所述每个指示性关键词对应的目标文本,所述关键词特征信息包括关键词类型和关键词位置。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像进行图像分割,得到所述待识别图像中的文本识别区域,包括:
调用信息提取模型,通过所述信息提取模型中的区域分割层对所述待识别图像进行像素特征提取,得到所述待识别图像的像素概率图,所述像素概率图包括所述待识别图像中的每个像素点为文字像素点的概率;
基于所述像素概率图,在所述待识别图像中确定像素点的概率大于或者等于目标概率的区域;
在所述待识别图像中分割出所述像素点的概率大于或者等于目标概率的区域,得到所述待识别图像中的文本识别区域。
3.根据权利要求1所述的方法,其特征在于,所述对所述文本识别区域进行文字提取,得到所述文本识别区域内的文本内容,包括:
调用信息提取模型,通过所述信息提取模型中的文本识别层,对所述文本识别区域进行文字提取,得到所述文本识别区域的文本序列;
对所述文本序列进行特征预测,得到所述文本序列的文本像素特征;
获取文本库中N个候选文本内容分别对应的候选文本特征,获取所述文本像素特征与所述N个候选文本内容中每个候选文本内容的候选文本特征之间的匹配度,N为正整数;
将N个候选文本内容中与所述文本像素特征匹配度最大的候选文本内容,确定为所述文本识别区域内的文本内容。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述文本像素特征与所述N个候选文本内容分别对应的候选文本特征之间的N个匹配度中,获取最大的匹配度;
判断所述最大的匹配度是否小于或者等于目标匹配度;
若所述最大的匹配度小于或者等于所述目标匹配度,则输出提示信息,以提示重新对所述文本识别区域进行文字提取。
5.根据权利要求1所述的方法,其特征在于,所述对所述文本内容进行指示性关键词提取,得到所述文本内容中的M个指示性关键词,包括:
对所述文本内容进行关键词提取,得到所述文本内容中的Q个初始关键词,Q为大于或者等于M的正整数;
获取初始关键词Qi分别与指示性关键词库中的多个样本指示性关键词之间的匹配度,所述初始关键词Qi属于所述Q个初始关键词,i为小于或者等于Q的正整数;
若所述初始关键词Qi分别与所述多个样本指示性关键词之间的多个匹配度中存在大于或者等于预设阈值的匹配度,则将所述初始关键词Qi确定为指示性关键词;
从所述Q个初始关键词中确定出M个指示性关键词,所述M个指示性关键词中的一个指示性关键词与所述指示性关键词库中的一个样本指示性关键词之间的匹配度大于或者等于所述预设阈值。
6.根据权利要求1所述的方法,其特征在于,所述根据每个指示性关键词的关键词特征信息,对所述文本内容进行信息提取,得到所述每个指示性关键词分别对应的目标文本,包括:
根据指示性关键词Mj的关键词类型,从第一对应关系表中获取所述指示性关键词Mj对应的目标文本格式,所述第一对应关系中包括关键词类型与文本格式之间的对应关系,所述指示性关键词Mj属于所述M个指示性关键词,j为小于或者等于M的正整数;
从第二对应关系表中获取所述指示性关键词Mj对应的文本指示位置,所述第二对应关系中包括指示性关键词与文本指示位置之间的对应关系,所述文本指示位置用于反映目标文本相对于指示性关键词的位置;
根据所述指示性关键词Mj的关键词位置、所述文本指示位置以及所述目标文本格式,对所述文本内容进行信息提取,得到所述指示性关键词Mj对应的目标文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述指示性关键词Mj的关键词位置、所述文本指示位置以及所述目标文本格式,对所述文本内容进行信息提取,得到所述指示性关键词Mj对应的目标文本,包括:
根据所述指示性关键词Mj的关键词位置和所述文本指示位置,确定所述目标文本在所述文本内容中的目标位置;
提取所述文本内容中位于所述目标位置内的目标文本,所述目标文本的文本格式为所述目标文本格式。
8.一种信息获取装置,其特征在于,包括:
图像分割模块,用于获取待识别图像,对所述待识别图像进行图像分割,得到所述待识别图像中的文本识别区域;
文字提取模块,用于对所述文本识别区域进行文字提取,得到所述文本识别区域内的文本内容;
指示性关键词提取模块,用于对所述文本内容进行指示性关键词提取,得到所述文本内容中的M个指示性关键词,M为正整数;
信息提取模块,用于获取所述M个指示性关键词分别对应的关键词特征信息,根据每个指示性关键词的关键词特征信息,对所述文本内容进行信息提取,得到所述每个指示性关键词对应的目标文本,输出所述每个指示性关键词以及所述每个指示性关键词对应的目标文本,所述关键词特征信息包括关键词类型和关键词位置。
9.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111197119.9A CN114120299A (zh) | 2021-10-14 | 2021-10-14 | 信息获取方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111197119.9A CN114120299A (zh) | 2021-10-14 | 2021-10-14 | 信息获取方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114120299A true CN114120299A (zh) | 2022-03-01 |
Family
ID=80376107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111197119.9A Pending CN114120299A (zh) | 2021-10-14 | 2021-10-14 | 信息获取方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120299A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661879A (zh) * | 2022-03-23 | 2022-06-24 | 国网江苏省电力有限公司连云港供电分公司 | 一种资料搜索方法、系统、电子设备和存储介质 |
CN114792423A (zh) * | 2022-05-20 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置和存储介质 |
CN115640380A (zh) * | 2022-12-14 | 2023-01-24 | 北京航空航天大学 | 面向故障诊断算法推荐的可诊断性层级要素信息提取方法 |
CN117218659A (zh) * | 2023-08-30 | 2023-12-12 | 建银工程咨询有限责任公司 | 不动产权证中信息的获取方法、装置、电子设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080170810A1 (en) * | 2007-01-15 | 2008-07-17 | Bo Wu | Image document processing device, image document processing method, program, and storage medium |
CN111582282A (zh) * | 2020-05-13 | 2020-08-25 | 科大讯飞股份有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN111914835A (zh) * | 2020-07-04 | 2020-11-10 | 中信银行股份有限公司 | 票据要素提取方法、装置、电子设备及可读存储介质 |
CN113191922A (zh) * | 2021-04-07 | 2021-07-30 | 北京律联东方文化传播有限公司 | 诉讼决策信息请求处理方法及装置 |
-
2021
- 2021-10-14 CN CN202111197119.9A patent/CN114120299A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080170810A1 (en) * | 2007-01-15 | 2008-07-17 | Bo Wu | Image document processing device, image document processing method, program, and storage medium |
CN111582282A (zh) * | 2020-05-13 | 2020-08-25 | 科大讯飞股份有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN111914835A (zh) * | 2020-07-04 | 2020-11-10 | 中信银行股份有限公司 | 票据要素提取方法、装置、电子设备及可读存储介质 |
CN113191922A (zh) * | 2021-04-07 | 2021-07-30 | 北京律联东方文化传播有限公司 | 诉讼决策信息请求处理方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661879A (zh) * | 2022-03-23 | 2022-06-24 | 国网江苏省电力有限公司连云港供电分公司 | 一种资料搜索方法、系统、电子设备和存储介质 |
CN114792423A (zh) * | 2022-05-20 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置和存储介质 |
CN114792423B (zh) * | 2022-05-20 | 2022-12-09 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置和存储介质 |
CN115640380A (zh) * | 2022-12-14 | 2023-01-24 | 北京航空航天大学 | 面向故障诊断算法推荐的可诊断性层级要素信息提取方法 |
CN117218659A (zh) * | 2023-08-30 | 2023-12-12 | 建银工程咨询有限责任公司 | 不动产权证中信息的获取方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114120299A (zh) | 信息获取方法、装置、存储介质及设备 | |
CN105354307B (zh) | 一种图像内容识别方法及装置 | |
WO2020238054A1 (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN111275038A (zh) | 图像文本识别方法、装置、计算机设备及计算机存储介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN112330331A (zh) | 基于人脸识别的身份验证方法、装置、设备及存储介质 | |
CN115130613B (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN112580108A (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN112801099A (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN113743443B (zh) | 一种图像证据分类和识别方法及装置 | |
CN114357174A (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN113869398A (zh) | 一种不平衡文本分类方法、装置、设备及存储介质 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN110705572B (zh) | 一种图像识别方法 | |
CN117058723A (zh) | 掌纹识别方法、装置及存储介质 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN112149523B (zh) | 基于深度学习和并查集算法识别并抽取图片的方法及装置 | |
CN114724162A (zh) | 文本识别模型的训练方法、装置、计算机设备及存储介质 | |
CN113742559A (zh) | 关键词检测方法和装置、电子设备、存储介质 | |
CN113869068A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
CN117058432B (zh) | 图像查重方法、装置、电子设备及可读存储介质 | |
CN113822521A (zh) | 题库题目的质量检测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |