CN110909725B - 识别文本的方法、装置、设备及存储介质 - Google Patents
识别文本的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110909725B CN110909725B CN201910990783.5A CN201910990783A CN110909725B CN 110909725 B CN110909725 B CN 110909725B CN 201910990783 A CN201910990783 A CN 201910990783A CN 110909725 B CN110909725 B CN 110909725B
- Authority
- CN
- China
- Prior art keywords
- word
- target
- text
- image
- service type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及人工智能领域,提供一种识别文本的方法、装置、设备及存储介质,方法包括:根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个所述类别词库进行分类获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;在所述目标业务类型词库获取目标词,根据所述目标词建立数据结构树;在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。采用本方案,能够提高文本识别的准确率。
Description
技术领域
本申请涉及场景文本检测领域,尤其涉及识别文本的方法、装置、设备及存储介质。
背景技术
信息电子化时代,随着档案数字化、信息采集和证件录入等数据量大、录入繁琐的工作发展,对图像中的文字转换成文本格式的需求越来越大,OCR(光学字符识别)识别技术发展成为当今模式识别领域中最活跃的分支之一。
目前的OCR文本识别中,通过对输入的文件进行扫描和识别以获取处理信息,对所述处理信息进行特征提取,根据所述特征获取文本识别信息,将所述文本识别信息与字词数据库中的字词进行匹配,并获取多个匹配值,以所述字词数据库中最大的匹配值对应的字词作为文本识别结果,并输出所述文本识别结果。
由于是通过根据获取的处理信息的特征获取文本识别信息,将所述文本识别信息直接与统一的一个字词数据库中的字词进行匹配,以获取匹配度最大的字词作为文本识别结果,易造成所获取的文本识别信息在大范围的字词数据库的匹配中存在与专业术语、常用词组和领域专用语言等的匹配不对应的问题,从而导致所输出的文本识别结果不是输入的文件对应的业务场景所需的识别结果,因而,导致文本识别的准确率低。
发明内容
本申请提供了一种识别文本的方法、装置、设备及存储介质,能够解决现有技术中文本识别的准确率低的问题。
第一方面,本申请提供一种识别文本的方法,所述方法包括:
根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根和所述子节点建立数据结构树;
通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。
一种可能的设计中,所述根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,包括:
根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,以建立类别词库。
一种可能的设计中,所述获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库,包括:
获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
对所述第二特征信息进行文本预测处理获得文本预测结果;
分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
一种可能的设计中,所述以所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树,包括:
遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
根据所述根节点和所述子节点,建立数据结构树。
一种可能的设计中,所述通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出,包括:
计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的词与所述文本序列的最小容错距离;
以递归查询方式从所述数据结构树中获取数值落在所述查询阈值内的连接边对应的词,所述数据结构树包括多个连接边,所述连接边用于连接所述根与所述子节点,以及用于所述子节点之间的连接;
识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中最大的匹配度对应的词作为文本识别结果输出。
一种可能的设计中,所述获得多个初始业务类型词库之后,所述通过预置的图像文本识别模型获取目标图像,根据所述多个初始业务类型词库对所述目标图像进行识别处理之前,所述方法还包括:
基于所述多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型。
一种可能的设计中,所述基于所述多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型,包括:
获取训练图像,将所述训练图像输入到预置的图像文本识别模型中,通过所述预置的图像文本识别模型对所述训练图像进行预处理,所述预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;
对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;
将所述第三特征信息生成特征描述子,调用预置的模板图库根据所述特征描述子在所述模板图库中获取与所述特征描述子的相似度最大的模板图像,得到目标模板图像;
获取与所述目标模板图像对应的业务类型,得到目标业务类型,将所述目标业务类型对应地标记在所述训练图像上,所述业务类型包括与业务类型关联的名称和关键词;
根据所述目标业务类型对所述训练图像进行整理和分类,得到业务类型的图像集;
将所述业务类型的图像集分割成文字区域与非文字区域,并获取所述文字区域各区域的第一坐标和第一区域描述信息,以及获取所述非文字区域各区域的第二坐标和第二区域描述信息;
根据所述第一坐标、所述第二坐标、所述第一区域描述信息和所述第二区域描述信息建立所述训练图像与所述目标业务类型词库的对应关系;
在所述文字区域的范围内标记所述文字区域的多边形的顶点坐标和文本字符串;
通过所述业务类型的图像集、所述对应关系、所述多边形的顶点坐标和文本字符串,使得所述预置的图像文本识别模型满足预设规则条件,获取与所述训练图像相应的文本识别结果,所述预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。
第二方面,本申请提供一种用于识别文本的装置,具有实现对应于上述第一方面提供的识别文本的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
一种可能的设计中,所述识别文本的装置包括:
输入输出模块,用于获取目标图像,用于获取所收集的字词数据集;
处理模块,用于根据行业类别对所述输入输出模块获取的所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置所述类别词库对应的优先级;根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,并从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述输入输出模块获取的目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输入至显示模块,并通过所述显示模块输出所述匹配度最高的词;
所述显示模块,用于显示作为文本识别结果的所述匹配度最高的词。
一种可能的设计中,所述处理模块具体用于:
根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,以建立类别词库。
一种可能的设计中,所述处理模块具体用于:
获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
对所述第二特征信息进行文本预测处理获得文本预测结果;
分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
一种可能的设计中,所述处理模块具体用于:
遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
根据所述根节点和所述子节点,建立数据结构树。
一种可能的设计中,所述处理模块具体用于:
计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的词与所述文本序列的最小容错距离;
以递归查询方式从所述数据结构树中获取数值落在所述查询阈值内的连接边对应的词,所述数据结构树包括多个连接边,所述连接边用于连接所述根节点与所述子节点,以及用于所述子节点之间的连接;
识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
一种可能的设计中,所述识别文本的装置还包括:
训练模块,用于识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
一种可能的设计中,所述训练模块具体用于:
获取训练图像,将所述训练图像输入到预置的图像文本识别模型中,通过所述预置的图像文本识别模型对所述训练图像进行预处理,所述预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;
对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;
将所述第三特征信息生成特征描述子,调用预置的模板图库根据所述特征描述子在所述模板图库中获取与所述特征描述子的相似度最大的模板图像,得到目标模板图像;
获取与所述目标模板图像对应的业务类型,得到目标业务类型,将所述目标业务类型对应地标记在所述训练图像上,所述业务类型包括与业务类型关联的名称和关键词;
根据所述目标业务类型对所述训练图像进行整理和分类,得到业务类型的图像集;
将所述业务类型的图像集分割成文字区域与非文字区域,并获取所述文字区域各区域的第一坐标和第一区域描述信息,以及获取所述非文字区域各区域的第二坐标和第二区域描述信息;
根据所述第一坐标、所述第二坐标、所述第一区域描述信息和所述第二区域描述信息建立所述训练图像与所述目标业务类型词库的对应关系;
在所述文字区域的范围内标记所述文字区域的多边形的顶点坐标和文本字符串;
通过所述业务类型的图像集、所述对应关系、所述多边形的顶点坐标和文本字符串,使得所述预置的图像文本识别模型满足预设规则条件,获取与所述训练图像相应的文本识别结果,所述预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。
本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器、显示器和输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
相较于现有技术,本申请提供的方案中,通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个所述类别词库进行分类获得多个业务类型词库,根据优先级对所述多个业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;在所述目标业务词库获取目标词,根据所述目标词建立数据结构树;在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个所述类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在所述目标业务类型相应的词库获取目标词,以所述目标词中任意一个词作为根节点,以所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树,从所述数据结构树中获取与所述目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
附图说明
图1为本申请实施例中文本识别的方法的一种流程示意图;
图2为本申请实施例中字词数据集分类的一种举例说明图;
图3为本申请实施例中获取与目标词匹配度最高的词的一种举例说明图;
图4为本申请实施例中用于文本识别的装置的一种结构示意图;
图5为本申请实施例中计算机装置的一种结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。
本申请提供一种文本识别的方法、装置、设备及存储介质,可用于扫描检测系统,对图像的文本信息进行识别和检测。
为解决上述技术问题,本申请主要提供以下技术方案:
通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个类别词库进行分类获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库;在目标业务词库获取目标词,根据目标词建立数据结构树;在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出。由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在目标业务类型相应的词库获取目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,从数据结构树中获取与目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
请参照图1,以下对本申请提供一种识别文本的方法进行举例说明,该方法由计算机设备执行,计算机设备可为服务器或者终端,当图4所示的装置40为应用或者执行程序时,终端为安装图4所示的装置40的终端,本申请不对执行主体的类型作限制,所述方法包括:
101、根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个类别词库中词的词频-逆文本频率指数TF-IDF值,并按照TF-IDF值从大到小分别设置多个类别词库对应的优先级。
对所收集的字词数据集进行分类成行业类别对应的词库,以建立类别词库。例如:对所收集的字词数据集进行分类成服务业词库和金融业词库,服务业词库包括服务业的基础语、专业术语和常规用语,以及关联服务业的其他行业的基础用语、专业术语和常规用语,金融业词库包括金融业的基础语、专业术语和常规用语,以及关联金融业的其他行业的基础用语、专业术语和常规用语。
获取多个参考文件,根据多个参考文件计算多个类别词库中的每个词的词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)值,计算类别词库中所有词的TF-IDF值的加权平均值,以TF-IDF值的加权平均值作为类别词库的TF-IDF值,根据类别词库的TF-IDF值对类别词库设置优先级。
通过对所收集的字词数据集按照行业类别进行分类,以使所获得的词库细分而有序,并对获取的词库设置优先级,通过优先级以便于在词库中快速而准确地获取所匹配的词。
可选的,在本申请的一些实施例中,上述的根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,包括:根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;根据第二行业类别对第一类别词库进行分类,建立第二类别子词库,其中,第二行业类别是第一行业类别的子类别;根据第三行业类别,对第二类别子词库进行分类,建立第三类别子词库,其中,第三行业类别是第二行业类别的子类别;通过第一类别词库、第二类别子词库和第三类别子词库,以建立类别词库。对所收集的字词数据集进行三级分类,在母词库基础上创建多个子词库。
通过对所收集的字词数据集进行多级分类,使类别词库更具体和有序,以便于降低对词库搜索的难度和提高对词库搜索的速度和准确度。例如:根据行业类型对所收集的字词数据集进行一级划分,划分为电子信息产业词库和金融业词库,其中,以电子信息产业词库为例。对电子信息产业词库进行二级划分,划分为计算机服务业子词库、电信和其他信息传输服务业子词库和软件业子词库;对计算机服务业子词库进行三级划分,划分为计算机系统服务业子词库、计算机维修业子词库、计算机处理业子词库和其他计算机服务业子词库;对电信和其他信息传输服务业子词库进行三级划分,划分为互联网信息服务业子词库、广播电视传输服务业子词库和卫星传输服务业子词库;对软件业子词库进行三级划分,划分为基础软件服务业子词库、应用软件服务业子词库和其他软件服务业子词库。如图2所示,图2内容仅作举例说明参考,其内容准确性和实际操作与否不作考虑。
102、根据业务类型对多个类别词库进行分类,获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择优先级对应的TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库。
通过在类别词库基础上再进行业务类型分类,获得多个候选业务类型词库,并对多个候选业务类型词库进行优先级排序,以获取更加细分而有序的初始业务类型词库,从而便于快速地对词库进行遍历。例如:候选业务类型词库分别有金融业词库和通信业词库,在此以金融业词库为例说明,对金融业词库进行业务类型分类成保险业子词库、银行业子词库、证券业子词库和其他金融服务业子词库,保险业子词库、银行业子词库、证券业子词库和其他金融服务业子词库的优先级分别为一级(TF-IDF值为0.4)、三级(TF-IDF值为0.2)、二级(TF-IDF值为0.3)和四级(TF-IDF值为0.1),选取TF-IDF值大于预设阈值0.11的业务类型词库,作为初始业务类型词库,则保险业子词库、银行业子词库和证券业子词库为多个初始业务类型词库。上述举例内容仅作举例说明参考,其内容准确性和实际操作与否不作考虑。
103、获取目标图像,通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库。
通过预置的图像文本识别模型获取目标图像,基于多个初始业务类型词库对目标图像的形状和/或图像构成部分进行识别,根据目标图像的形状和图像组成部分在业务类型匹配库中匹配与其对应的业务类型,以及获取目标图像的文本信息,并对文本信息进行检测和预测,以得到文本预测结果,并根据目标业务类型调用相应的目标业务类型词库。预置的图像文本识别模型可为具有操作速度快、精度高和可定制损失函数特性的神经网络组合模型,通过利用模型的容错能力、自学习能力和自适应能力,以提高对图像采集的文本识别信息的准确性。其中,该目标图像可为直接输入的图片,也可为通过对输入信息进行扫描后生成的图像,本申请实施例包括业务类型匹配库。
例如:输入预置的图像文本识别模型中的目标图像是对一份医疗收费票据扫描生成的医疗收费票据目标图像,对医疗收费票据目标图像进行识别,以获取医疗收费票据的构成内容,根据医疗收费票据的构成内容在业务类型匹配库中匹配到与其对应的业务类型为医疗收费的目标业务类型,以及对医疗收费票据目标图像的文本部分进行识别以获取文本识别信息,并对文本识别信息进行检测和预测,以获取文本预测结果,并根据医疗收费业务类型调用相应的医疗收费词库(即目标业务类型词库)。
可选的,在本申请的一些实施例中,上述的获取目标图像,通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库,包括:获取目标图像,通过预置的图像文本识别模型对目标图像进行图像识别处理获得第一特征信息,以及对目标图像进行文本识别处理获得第二特征信息,第一特征信息包括目标图像的整体构成部分的信息,第二特征信息包括目标图像的文本构成部分的信息;分析并获取第一特征信息对应的第一业务类型,并根据第一业务类型从多个初始业务类型词库中获取第一目标业务类型词库,第一目标业务类型词库包括与第一业务类型对应和/或关联的多个词库;对第二特征信息进行文本预测处理获得文本预测结果;分析并获取根据文本预测结果对应的第二业务类型,并根据第二业务类型从多个初始业务类型词库中获取第二目标业务类型词库,第二目标业务类型词库包括与第二业务类型对应和/或关联的多个词库;计算文本预测结果与第一目标业务类型词库的第一相似度,以及计算文本预测结果与第二目标业务类型词库的第二相似度;比较第一相似度和第二相似度获得最大值的相似度,将最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
通过比较获取的第一目标业务类型词库和第二目标业务类型词库的相似度,获取最大相似度对应的词库作为最终调用的词库,以提高获取目标业务类型对应的词库的准确性。例如:输入预置的图像文本识别模型中的目标图像是对一份保险单明细表扫描生成的保险单明细表目标图像,通过预置的图像文本识别模型对保险单明细表目标图像进行图像识别处理获得保险单明细表整体构成部分的信息(即第一特征信息),以及对保险单明细表目标图像进行文本识别处理获得保险单明细表中的文本构成部分的信息(即第二特征信息),分析保险单明细表整体构成部分的信息获得保险业务类型的第一业务类型,根据第一业务类型从多个初始业务类型词库中获得作为第一目标业务类型词库的保险词库,分析保险单明细表中的文本构成部分的信息得到医疗保险业务类型的第二业务类型,根据第二业务类型从多个初始业务类型词库中获得作为第二目标业务类型词库的医疗保险词库,计算文本预测结果与保险词库的第一相似度为65%,以及计算文本预测结果与医疗保险词库的第二相似度为80%,则以医疗保险词库作为最终的目标业务类型词库。
可选的,在本申请的一些实施例中,上述的获得多个初始业务类型词库之后,通过预置的图像文本识别模型获取目标图像,根据多个初始业务类型词库对目标图像进行识别处理之前,方法还包括:
基于多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型。
对模型进行训练,以获得具备对图像进行识别和文本识别纠错功能的图像文本识别模型。通过基于多个目标业务类型词库和训练图像对预置的图像文本识别模型进行权重更新、参数的调整以及数据的输入和输出的调整等训练。
可选的,在本申请的一些实施例中,上述的基于多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型,包括:获取训练图像,将训练图像输入到预置的图像文本识别模型中,通过预置的图像文本识别模型对训练图像进行预处理,预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;将第三特征信息生成特征描述子,调用预置的模板图库根据特征描述子在模板图库中获取与特征描述子的相似度最大的模板图像,得到目标模板图像;获取与目标模板图像对应的业务类型,得到目标业务类型,将目标业务类型对应地标记在训练图像上,业务类型包括与业务类型关联的名称和关键词;根据目标业务类型对训练图像进行整理和分类,得到业务类型的图像集;将业务类型的图像集分割成文字区域与非文字区域,并获取文字区域各区域的第一坐标和第一区域描述信息,以及获取非文字区域各区域的第二坐标和第二区域描述信息;根据第一坐标、第二坐标、第一区域描述信息和第二区域描述信息建立训练图像与目标业务类型词库的对应关系;在文字区域的范围内标记文字区域的多边形的顶点坐标和文本字符串;通过业务类型的图像集、对应关系、多边形的顶点坐标和文本字符串,使得预置的图像文本识别模型满足预设规则条件,获取与训练图像相应的文本识别结果,预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。通过训练模型,使其具备对图像进行文本识别和文本纠错的功能,以使其能快速而准确地获取文本识别结果。通过对预置的图像文本识别模型的输入数据的处理过程和输出数据的获取进行训练。
可选的,在本申请的一些实施例中,上述的根据优先级对多个业务类型词库进行排序包括根据优先级按照TF-IDF值从大到小对多个业务类型词库进行排序得到排序表,例如,排序表包括父词库和多个子词库排序表。父词库为保险词库,在子词库排序表中,医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库从左至右,按照TF-IDF值从大到小的顺序排序。
上述的获得目标图像对应的目标业务类型词库和文本预测结果之后,上述的获得目标图像对应的目标业务类型词库和文本预测结果之后,包括以下实现方式中的至少一个:
方式一:获取目标图像对应的第一目标业务类型,根据第一目标业务类型,检索到第一目标行业类型对应的第三目标业务类型词库;按照排序表,依次调用第三目标业务类型词库中的子词库。
例如:作为第三目标业务类型词库的保险词库(即父词库)中的子词库包括医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库,且子词库按照排序表顺序为医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库。以所述图像文本识别模型对目标图像进行识别处理,获取的第一目标业务类型为“保险”,先根据“保险”对词库进行搜索以获取保险词库。按照排序表中的顺序,先调用医疗保险子词库对文本预测结果进行匹配,然后调用养老保险子词库对文本预测结果进行匹配,接着调用农业保险子词库对文本预测结果进行匹配,最后调用其他保险子词库对文本预测结果进行匹配,以获取最匹配的词。
方式二:获取目标图像对应的第一目标业务类型,根据第一目标业务类型,检索到第一目标业务类型对应的第三目标业务类型词库;根据第一目标业务类型中的类别,在第三目标业务类型词库中获取对应的子词库。
例如:第三目标业务类型词库“医药词库”包括妇科医药子词库。以图像文本识别模型对目标图像进行识别处理获取的第一目标业务类型为“妇科药品”,先根据“药品”进行搜索以获取医药词库,然后根据“妇科”在医药词库中搜索到妇科医药子词库。
方式三:获取目标图像对应的第一目标业务类型,根据第一目标业务类型,检索到第一目标业务类型对应的第三目标业务类型词库;根据第一目标业务类型中的类别,在第三目标业务类型词库中获取对应的第一子词库;根据排序表,依次调用第三目标业务类型词库中除了第一子词库外的子词库。
例如:作为第三目标业务类型词库的保险词库中的子词库包括医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库,且子词库按照排序表顺序为医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库,其中,医疗保险子词库为第一子词库。以图像文本识别模型对目标图像进行识别处理获取的第一目标业务类型为“养老保险”,先根据“保险”进行搜索以获取保险词库,然后根据“养老”在保险词库中获取养老保险子词库。按照排序表中的顺序,先调用养老保险子词库对文本预测结果进行匹配,然后调用农业保险子词库对文本预测结果进行匹配,最后调用其他保险子词库对文本预测结果进行匹配,以获取最匹配的词。
104、从目标业务类型词库中获取所有与文本预测结果存在相同或相似部分的目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树。
其中,数据结构树可为(Burkhard-Keller,BK)树。本申请实施例中,以目标词中与与文本预测结果相同或者最为相似的词作为根。通过结合目标业务类型词库中的基础用语、专业术语和常规用语,并以与文本预测结果存在相同或相似部分的目标词构建数据结构树,以减少查找的节点数和降低查找的复杂称帝,进而提高识别效率和识别准确性。
可选的,在本申请的一些实施例中,上述的将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,包括:遍历目标业务类型相应的目标业务类型词库获取与文本预测结果存在相同或相似部分的多个目标词;计算多个目标词与文本预测结果之间的多个相似度,比较多个相似度的值的大小,将值最大的相似度对应的目标词作为根节点;按照多个相似度的值从大到小的顺序,将作为根节点之外的多个目标词依次作为子节点,并在子节点的连接线上标记子节点对应的相似度;根据根节点和子节点,建立数据结构树。通过根据相似度大小进行根节点和子节点的创建,以减少在数据结构树中获取最匹配的词时对数据结构树的遍历操作,从而能快速而准确地获取最匹配的词。例如:遍历目标业务类型相应的目标业务类型词库获取与文本预测结果存在相同或相似部分的四个目标词“比比皆是、笔笔皆是、比比街市、逼比街市”,文本预测结果为“比比比是”,“比比比是”与“比比皆是、笔笔皆是、比比街市、逼比街市”的相似度分别为75%、25%、50%和25%,则“比比皆是”作为根节点,“比比街市”、“笔笔皆是”和“逼比街市”依次为子节点,并分别在子节点的连接线上标记子节点对应的相似度75%、50%、25%和25%,得到数据结构树。
105、通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出。
其中,对数据结构树进行查询阈值分析可为对编辑距离的计算,通过编辑距离算法在数据结构树中查找与文本预测结果中的文本序列匹配度最高的词,以实现通过对本文预测结果进行文本纠错以获得相对准确的输出文本的效果。
可选的,在本申请的一些实施例中,将匹配度最高的词作为文本识别结果输出之后,根据输入的框架格式对应封装输出文本,获得输出文本文件。
例如:用户需要输出文本文件的文本序列位置和格式和图像的一样,则框架网络或框架模型根据在文本检测识别时所获得的文本序列的坐标点和格式,对输出文本进行排版编辑。
可选的,在本申请的一些实施例中,上述的通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出,包括:
计算文本预测结果中的文本序列与根节点的编辑距离;
计算查询阈值,查询阈值不小于编辑距离与最大距离之差,查询阈值不大于编辑距离与最大距离之和,最大距离为数据结构树中返回的词与文本序列的最小容错距离;
以递归查询方式从数据结构树中获取数值落在查询阈值内的连接边对应的词,数据结构树包括多个连接边,连接边用于连接根节点与子节点,以及用于子节点之间的连接;
识别连接边对应的词的形状与目标图像中对应的文字形状,计算连接边对应的词与目标图像的匹配度,获得多个匹配度,将多个匹配度中最大的匹配度对应的词作为文本识别结果输出。
本申请实施例中,数据结构树为Burkhard-Keller树,最大距离可理解为容错值,即允许在Burkhard-Keller树返回的词与文本序列的最小编辑距离,最大距离通常很小,设置得越小,其查找准确率越高,若要进行精确查找,则可以非常有效地通过简单地将最大距离设置为0进行。在Burkhard-Keller树返回与文本序列的距离不超过最大距离的词,该文本序列与Burkhard-Keller树根所对应的第一编辑距离,查询阈值不大于所述第一编辑距离与所述最大距离之和,不小于所述第一编辑距离与所述最大距离之差,接下来递归地在编号为查询阈值范围内的边所连接的子树查找对应的词。例如:允许在Burkhard-Keller树返回的词与文本序列的最小编辑距离,即最大距离为1,文本序列为“bush”,Burkhard-Keller树的根为“busy”,则第一编辑距离为1,则查询阈值为0至2,则递归地在编号为0至2的边所连接的子树查找对应的词。
例如:文本预测结果为“复方同康坐软膏”,所获取的业务类型信息为“药品”,则调用药品词库,以“复方西康口软膏”为Burkhard-Keller树的根,其他关联词做Burkhard-Keller树的子节点。“复方同康坐软膏”与“复方西康口软膏”的第一编辑距离为2,最大距离为1,所述第一编辑距离与所述最大距离的和值与差值分别为3和1,则查找出“复方西康唑软膏”和“复方酮康唑软膏”、“复方同乐东软膏”、“复方同乐星软膏”、“复方酮康唑软膏”和“复方同康星软膏”,识别“复方西康唑软膏”和“复方酮康唑软膏”、“复方同乐东软膏”、“复方同乐星软膏”、“复方酮康唑软膏”和“复方同康星软膏”与目标图像中的文字形状,计算匹配度,目标图像中的文字内容为“复方酮康唑软膏”,则“复方酮康唑软膏”与其形状的匹配度最大,则以“复方酮康唑软膏”为输出文本。如图3所示,图3内容仅作举例说明参考,其内容准确性和实际操作与否不作考虑。
与现有机制相比,本申请实施例中,通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个类别词库进行分类获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库;在目标业务词库获取目标词,根据目标词建立数据结构树;在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出。由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在目标业务类型相应的词库获取目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,从数据结构树中获取与目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
上述图1-图3中任一可选实施例或可选实施方式中所提及的技术特征也同样适用于本申请中的图4和图5所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种识别文本的方法进行说明,以下对执行上述识别文本的方法的装置进行描述。
如图4所示的一种用于识别文本的装置40的结构示意图,其可应用于扫描检测系统,对图像的文本信息进行识别和检测。本申请实施例中的装置40能够实现对应于上述图1-图3中任一可选实施例或可选实施方式中所执行的识别文本的方法的步骤。装置40实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述装置40可包括输入输出模块401、处理模块402和显示模块403,所述输入输出模块401、处理模块402和显示模块403的功能实现可参考图1-图3中任一可选实施例或可选实施方式中所执行的操作,此处不作赘述。所述处理模块402可用于控制所述输入输出模块401的收发操作,显示模块403可用于显示处理模块402的处理操作。
一些实施方式中,输入输出模块401,用于获取目标图像,用于获取所收集的字词数据集;
处理模块402,用于根据行业类别对输入输出模块401获取的所收集的字词数据集进行分类,建立多个类别词库,计算多个类别词库中词的词频-逆文本频率指数TF-IDF值,并按照TF-IDF值从大到小分别设置类别词库对应的优先级;根据业务类型对多个类别词库进行分类,获得多个业务类型词库,根据优先级对多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择优先级对应的TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对输入输出模块获取的目标图像进行识别处理,获取目标图像对应的文本预测结果和目标业务类型词库;从目标业务类型词库中获取所有与文本预测结果存在相同或相似部分的目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树;通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输入至显示模块403,并通过显示模块403输出匹配度最高的词;
显示模块403,用于显示作为文本识别结果的匹配度最高的词。
本申请实施例中,处理模块402通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个类别词库进行分类获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库;在目标业务词库获取目标词,根据目标词建立数据结构树;在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出。由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在目标业务类型相应的词库获取目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,从数据结构树中获取与目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
可选的,在本申请的一些实施方式中,上述识别文本的方法的任一实施例或实施方式中所提及的技术特征也同样适用于本申请中的对执行上述识别文本的方法的装置40,后续类似之处不再赘述。
上面从模块化功能实体的角度分别介绍了本申请实施例中的装置40,以下从硬件角度介绍一种计算机装置,如图5所示,其包括:处理器、存储器、显示器、输入输出单元(也可以是收发器,图5中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1-图3中任一可选实施例或可选实施方式中识别文本的方法对应的程序。例如,当计算机装置实现如图4所示的装置40的功能时,所述处理器执行所述计算机程序时实现上述图4所对应的实施例中由装置40执行的识别文本的方法中的各步骤;或者,所述处理器执行所述计算机程序时实现上述图4所对应的实施例的装置40中各模块的功能。又例如,该计算机程序可以为图1-图3中任一可选实施例或可选实施方式的方法对应的程序。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述输入输出单元也可以用接收器和发送器代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出单元可以为收发器。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。
Claims (10)
1.一种识别文本的方法,其特征在于,所述方法包括:
根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;
通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。
2.根据权利要求1所述的方法,其特征在于,所述根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,包括:
根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,建立类别词库。
3.根据权利要求1所述的方法,其特征在于,所述获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库,包括:
获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
对所述第二特征信息进行文本预测处理获得文本预测结果;
分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树,包括:
遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
根据所述根节点和所述子节点,建立数据结构树。
5.根据权利要求1-4任一所述的方法,其特征在于,所述通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出,包括:
计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的词与所述文本序列的最小容错距离;
以递归查询方式从所述数据结构树中获取数值落在所述查询阈值内的连接边对应的词,所述数据结构树包括多个连接边,所述连接边用于连接所述根节点与所述子节点,以及用于所述子节点之间的连接;
识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
6.根据权利要求1所述的方法,其特征在于,所述获得多个初始业务类型词库之后,所述通过预置的图像文本识别模型获取目标图像,根据所述多个初始业务类型词库对所述目标图像进行识别处理之前,所述方法还包括:
基于所述多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型,包括:
获取训练图像,将所述训练图像输入到预置的图像文本识别模型中,通过所述预置的图像文本识别模型对所述训练图像进行预处理,所述预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;
对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;
将所述第三特征信息生成特征描述子,调用预置的模板图库根据所述特征描述子在所述模板图库中获取与所述特征描述子的相似度最大的模板图像,得到目标模板图像;
获取与所述目标模板图像对应的业务类型,得到目标业务类型,将所述目标业务类型对应地标记在所述训练图像上,所述业务类型包括与业务类型关联的名称和关键词;
根据所述目标业务类型对所述训练图像进行整理和分类,得到业务类型的图像集;
将所述业务类型的图像集分割成文字区域与非文字区域,并获取所述文字区域各区域的第一坐标和第一区域描述信息,以及获取所述非文字区域各区域的第二坐标和第二区域描述信息;
根据所述第一坐标、所述第二坐标、所述第一区域描述信息和所述第二区域描述信息建立所述训练图像与所述目标业务类型词库的对应关系;
在所述文字区域的范围内标记所述文字区域的多边形的顶点坐标和文本字符串;
通过所述业务类型的图像集、所述对应关系、所述多边形的顶点坐标和文本字符串,使得所述预置的图像文本识别模型满足预设规则条件,获取与所述训练图像相应的文本识别结果,所述预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。
8.一种用于识别文本的装置,其特征在于,所述装置包括:
输入输出模块,用于获取目标图像,用于获取所收集的字词数据集;
处理模块,用于根据行业类别对所述输入输出模块获取的所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置所述类别词库对应的优先级;根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,并从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述输入输出模块获取的目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词的匹配度最高的词,将所述匹配度最高的词作为文本识别结果输入至显示模块,并通过所述显示模块输出所述匹配度最高的词;
所述显示模块,用于显示作为文本识别结果的所述匹配度最高的词。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器、存储器、显示器和输入输出单元;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910990783.5A CN110909725B (zh) | 2019-10-18 | 2019-10-18 | 识别文本的方法、装置、设备及存储介质 |
PCT/CN2019/119102 WO2021072885A1 (zh) | 2019-10-18 | 2019-11-18 | 识别文本的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910990783.5A CN110909725B (zh) | 2019-10-18 | 2019-10-18 | 识别文本的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909725A CN110909725A (zh) | 2020-03-24 |
CN110909725B true CN110909725B (zh) | 2023-09-19 |
Family
ID=69815466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910990783.5A Active CN110909725B (zh) | 2019-10-18 | 2019-10-18 | 识别文本的方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110909725B (zh) |
WO (1) | WO2021072885A1 (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782601A (zh) * | 2020-06-08 | 2020-10-16 | 北京海泰方圆科技股份有限公司 | 电子文件的处理方法、装置、电子设备及机器可读介质 |
CN111767921A (zh) * | 2020-06-30 | 2020-10-13 | 上海媒智科技有限公司 | 一种快递面单定位矫正方法及设备 |
CN112069890B (zh) * | 2020-07-31 | 2023-04-14 | 飞诺门阵(北京)科技有限公司 | 一种药剂标签的识别方法、装置和存储介质 |
CN112148750B (zh) * | 2020-10-20 | 2023-04-25 | 成都中科大旗软件股份有限公司 | 一种数据集成方法及系统 |
CN112529008B (zh) * | 2020-11-03 | 2024-08-02 | 浙江大华技术股份有限公司 | 图像识别和图像特征处理方法、电子设备及存储介质 |
CN112559865B (zh) * | 2020-12-15 | 2023-12-08 | 泰康保险集团股份有限公司 | 信息处理系统、计算机可读存储介质及电子设备 |
CN112528882B (zh) * | 2020-12-15 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
CN112613522B (zh) * | 2021-01-04 | 2023-03-14 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN112749542A (zh) * | 2021-01-19 | 2021-05-04 | 北京明略昭辉科技有限公司 | 一种商品名称匹配方法、系统、设备及存储介质 |
CN112862024B (zh) * | 2021-04-28 | 2021-09-21 | 明品云(北京)数据科技有限公司 | 一种文本识别方法及系统 |
CN112883980B (zh) * | 2021-04-28 | 2021-09-21 | 明品云(北京)数据科技有限公司 | 一种数据处理方法及系统 |
CN113268613B (zh) * | 2021-04-30 | 2024-04-09 | 上海右云信息技术有限公司 | 一种用于获取侵权线索的方法、设备、介质及程序产品 |
CN113761192B (zh) * | 2021-05-18 | 2024-05-28 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
CN113221890A (zh) * | 2021-05-25 | 2021-08-06 | 深圳市瑞驰信息技术有限公司 | 一种基于ocr的云手机文字内容监管方法和系统和系统 |
CN113434463B (zh) * | 2021-06-16 | 2024-07-09 | 广州中汇信息科技有限公司 | 一种根据二维码进行文件分类的方法 |
CN113420564B (zh) * | 2021-06-21 | 2022-11-22 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
CN113408446B (zh) * | 2021-06-24 | 2022-11-29 | 成都新希望金融信息有限公司 | 账单核算方法、装置、电子设备及存储介质 |
CN113553428B (zh) * | 2021-06-30 | 2024-04-23 | 北京百度网讯科技有限公司 | 文档分类方法、装置及电子设备 |
CN113420541A (zh) * | 2021-07-16 | 2021-09-21 | 四川医枢科技有限责任公司 | 一种信息处理方法、装置、设备及存储介质 |
CN113569024A (zh) * | 2021-07-19 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 卡片类别的识别方法、装置、电子设备和计算机存储介质 |
CN113656451B (zh) * | 2021-07-21 | 2024-08-02 | 浙江大华技术股份有限公司 | 数据挖掘方法、电子设备和计算机可读存储介质 |
CN113807090B (zh) * | 2021-08-10 | 2024-04-30 | 三峡大学 | 一种基于词义加权tf-idf疾病表征词提取方法 |
CN113688291B (zh) * | 2021-08-24 | 2023-09-01 | 北京恒安嘉新安全技术有限公司 | 一种流媒体网络数据的异常行为检测方法和装置 |
CN113807429B (zh) * | 2021-09-14 | 2024-03-29 | 企查查科技股份有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
CN113850251A (zh) * | 2021-09-16 | 2021-12-28 | 多益网络有限公司 | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 |
CN113836131B (zh) * | 2021-09-29 | 2024-02-02 | 平安科技(深圳)有限公司 | 一种大数据清洗方法、装置、计算机设备及存储介质 |
CN114328884B (zh) * | 2021-12-03 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 一种图文去重方法及装置 |
CN114077682B (zh) * | 2022-01-19 | 2022-04-29 | 广州拟实网络科技有限公司 | 一种图像检索智能识别匹配处理方法、系统和存储介质 |
CN114168715A (zh) * | 2022-02-10 | 2022-03-11 | 深圳希施玛数据科技有限公司 | 生成目标数据集的方法、装置、设备及存储介质 |
CN114926831A (zh) * | 2022-05-31 | 2022-08-19 | 平安普惠企业管理有限公司 | 基于文本识别方法、装置、电子设备及可读存储介质 |
CN115455950B (zh) * | 2022-09-27 | 2023-06-16 | 中科雨辰科技有限公司 | 一种获取文本的数据处理系统 |
CN115630099B (zh) * | 2022-11-29 | 2023-10-10 | 云工工业科技(深圳)有限公司 | 一种基于大数据的辅助决策方法及ai系统 |
CN116188875B (zh) * | 2023-03-29 | 2024-03-01 | 北京百度网讯科技有限公司 | 图像分类方法、装置、电子设备、介质和产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
CN109255013A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 理赔决策方法、装置、计算机设备和存储介质 |
CN110019742A (zh) * | 2018-06-19 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用于处理信息的方法和装置 |
WO2019174132A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 数据处理方法、服务器及计算机存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5524066A (en) * | 1994-03-31 | 1996-06-04 | Xerox Corporation | Text recognition by predictive composed shapes |
US10176500B1 (en) * | 2013-05-29 | 2019-01-08 | A9.Com, Inc. | Content classification based on data recognition |
US9330311B1 (en) * | 2014-06-17 | 2016-05-03 | Amazon Technologies, Inc. | Optical character recognition |
CN104298715B (zh) * | 2014-09-16 | 2017-12-19 | 北京航空航天大学 | 一种基于tf‑idf的多索引结果合并排序方法 |
CN108734089B (zh) * | 2018-04-02 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
-
2019
- 2019-10-18 CN CN201910990783.5A patent/CN110909725B/zh active Active
- 2019-11-18 WO PCT/CN2019/119102 patent/WO2021072885A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
WO2019174132A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 数据处理方法、服务器及计算机存储介质 |
CN110019742A (zh) * | 2018-06-19 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用于处理信息的方法和装置 |
CN109255013A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 理赔决策方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110909725A (zh) | 2020-03-24 |
WO2021072885A1 (zh) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909725B (zh) | 识别文本的方法、装置、设备及存储介质 | |
US11868394B2 (en) | Analyzing content of digital images | |
US10013636B2 (en) | Image object category recognition method and device | |
US9779354B2 (en) | Learning method and recording medium | |
US20220004878A1 (en) | Systems and methods for synthetic document and data generation | |
US20240012846A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
US20100299332A1 (en) | Method and system of indexing numerical data | |
US10438083B1 (en) | Method and system for processing candidate strings generated by an optical character recognition process | |
Chagas et al. | Evaluation of convolutional neural network architectures for chart image classification | |
CN105261109A (zh) | 一种钞票冠字号识别方法 | |
CN104239553A (zh) | 一种基于Map-Reduce框架的实体识别方法 | |
CN111177375B (zh) | 一种电子文档分类方法及装置 | |
CN113408323B (zh) | 表格信息的提取方法、装置、设备及存储介质 | |
WO2019223104A1 (zh) | 确定事件影响因素的方法、装置、终端设备及可读存储介质 | |
CN111695453A (zh) | 绘本识别方法、装置及机器人 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
Namysl et al. | Flexible table recognition and semantic interpretation system | |
Namysł et al. | Flexible hybrid table recognition and semantic interpretation system | |
CN113553326A (zh) | 电子表格数据处理方法、装置、计算机设备和存储介质 | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
US20200210760A1 (en) | System and method for cascading image clustering using distribution over auto-generated labels | |
CN111178349A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
US9378466B2 (en) | Data reduction in nearest neighbor classification | |
CN115063784A (zh) | 票据图像的信息提取方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |