CN110796134B - 一种强噪声复杂背景图像中的汉字组词方法 - Google Patents
一种强噪声复杂背景图像中的汉字组词方法 Download PDFInfo
- Publication number
- CN110796134B CN110796134B CN201910729424.4A CN201910729424A CN110796134B CN 110796134 B CN110796134 B CN 110796134B CN 201910729424 A CN201910729424 A CN 201910729424A CN 110796134 B CN110796134 B CN 110796134B
- Authority
- CN
- China
- Prior art keywords
- character
- chinese
- background image
- chinese character
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开的强噪声复杂背景图像中的汉字组词方法,根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型;获取待处理的第一背景图像,并根据神经网络模型对第一背景图像进行汉字定位,获得若干个汉字定位框;根据预设的深度学习模型,对若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字;再利用训练文本结合预设的训练模型构建出字符表,对于输入的乱序文字,遍历所有排序,并基于构建好的字符表,计算每个排序对应的自然语序度量值,最后以自然语序度量值最高的排序作为乱序文字的排序结果。本发明能够提高在强噪声复杂背景图像中汉字定位、汉字识别和汉字组词的准确性,从而扩大汉字识别和组词的应用场景和范围。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种强噪声复杂背景图像中的汉字组词方法。
背景技术
自动识别图像、视频中的文字的计算机技术,具有广阔的应用场景,如在物流行业中,将物流快递运单进行快速扫描成像和自动识别,并提取出物流运单上的有效信息;在教育行业中,将图片中的文字信息转换为可编辑的Word文档;在安防行业中,对视频中出现的车牌等信息进行识别和提取。随着各行业科技的发展,仅仅对汉字进行识别和提取是不够的,还需要对已识别的汉字进行组词,从而将其内容反馈给用户,以达到更进一步的业务需求。譬如,在具有复杂背景和变形文字的强噪声图片上,对变形文字进行识别,并将其组合成相应的文字内容呈现给用户,使得该技术能广泛应用到各具体行业或场景中。
现有技术对于具有复杂背景和变形文字的强噪声图片,无法实现其精准组词和翻译文字内容,无法应用到具体的场景或行业中。
发明内容
本发明实施例提出一种强噪声复杂背景图像中的汉字组词方法,能够提高在强噪声复杂背景图像中汉字定位、汉字识别和汉字组词的准确性,从而扩大汉字识别和组词的应用场景和范围。
本发明实施例提供一种强噪声复杂背景图像中的汉字组词方法,包括:
根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型;其中,所述背景图像为强噪音复杂背景图像;
获取待处理的第一背景图像,并根据所述神经网络模型对所述第一背景图像进行汉字定位,获得若干个汉字定位框;
根据预设的深度学习模型,对所述若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字;
获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;
根据所述待组词字符串当前的字符排列顺序,分别查询第一字符词频表和第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量;其中,所述第一字符词频表、第二字符词频表和字符查找表组成字符频表;所述字符表由预设的训练文本和训练模型而得到;
根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量;
分别对所述第一条件概率向量和第二条件概率向量中的各元素取对数,并将概率之积转化为对数概率之和,依次获得第一自然语序度量值和第二自然语序度量值;
根据所述第一自然语序度量值和第二自然语序度量值,获得所述待组词字符串当前的字符排列顺序对应的自然语序度量值,并遍历所述待组词字符串的所有字符排列顺序,按照相同的计算方法,依次获得若干个自然语序度量值,再选择自然语序度量值最大的字符排列顺序,将所述待组词字符串进行自动组词。
进一步的,所述第一字符词频表中的第i行第j列个元素表示哈希值为i的字符后相邻的哈希值为j的组合在所有训练文本中的出现频次;其中,i和j为正整数;
所述第二字符词频表中的第i行第j列个元素表示哈希值为i的字符后的第二个字符哈希值为j的组合在所有训练文本中的出现频次;
所述字符查找表中记录的常用字符对应的列号,分别为每个常用字符的哈希值。
进一步的,所述根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量,具体为:
将所述待组词字符串映射到对应的字符查找表对应的列上,得到每个字符的出现总次数,记为第一向量s_total。
进一步的,所述根据所述待组词字符串当前的字符排列顺序,分别查询所述第一字符词频表和所述第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量,具体为:
根据所述待组词字符串当前的字符排列顺序,对于每一组相邻的元素(a,b)查找第一字符词频表中对应的元素R1ab,并将所有查询得到的元素构建成第一条件概率计数向量w_n1;
根据所述待组词字符串当前的字符排列顺序,对于每一组相隔1个字符的元素(c,d)查找第二字符词频表中对应的元素R2cd,并将所有查询得到的元素构建成第二条件概率计数向量w_n2。
进一步的,所述根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量,具体为:
将第一向量s_total的前n-1个元素向量除以第一条件概率计数向量w_n1,得到所述第一条件概率向量w1;其中,所述第一向量s_total包含n个元素;所述第一条件概率向量w1中的元素为所述待组词字符串中前一个字符出现后,后一个字符也出现的条件概率向量;
将第一向量s_total的前n-1个元素向量除以第二条件概率计数向量w_n2,得到所述第二条件概率向量w2;其中,所述第二条件概率向量w2中的元素为所述待组词字符串中前一个字符出现后,相隔1个字符后的字符也出现的条件概率向量。
进一步的,根据权利要求1所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,
所述根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型,具体为:
获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;
所述获取待处理的第一背景图像,并根据所述神经网络模型对所述第一背景图像进行汉字定位,具体为:
获取所述第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;
分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。
进一步的,以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型,具体为:
构建初始模型,并以所述背景图像为输入,以矩形边界框和置信度为输出,对所述初始模型进行训练,调整并优化所述初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数,并根据优化后的参数,构建所述神经网络模型;
其中,所述尺寸调整参数用于供所述神经网络模型调整输入图像的尺寸;
所述边框调整参数用于供所述神经网络模型调整默认边界框的尺度和长宽比例;
所述重合度筛选参数用于供所述神经网络模型剔除高重合度的边界框;
所述置信度计算参数用于供所述神经网络模型计算每个边界框的置信度。
进一步的,所述通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,具体为:
根据所述第一边界框集合内各边界框对应的置信度,筛选出分数最高的边界框box1,使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框,再从剩余的边界框中选出分数最高的边界框box2,按照相同的方法进行剔除,直到选出N个边界框。
进一步的,所述根据预设的深度学习模型,对所述若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字,具体为:
对若干个原始图像进行汉字定位,获得多个汉字定位框,根据所述多个汉字定位框,对所述原始图像进行预处理,获得多个图像数据集;其中,每个图像数据集有且仅有一个汉字的多个汉字图像;
基于深度学习网络Inception V3,建立深度学习模型,并以所述多个图像数据集,优化所述深度学习模型的训练轮数、学习率、学习衰减率和训练批次;
在训练结束后,根据优化后的参数生成识别模型文件,以便于在获取到待识别图像时,通过所述识别模型文件,对所述若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字。
进一步的,所述根据所述多个汉字定位框,对所述原始图像进行预处理,获得多个图像数据集,具体为:
根据汉字定位框对所述原始图像进裁剪,获得第一图像数据集;
剔除所述第一图像数据集中的错误图像数据,获得第二图像数据集;其中,所述错误图像数据为没有包含一个完整汉字的图像数据;
将每个汉字作为单独的汉字类别,并以此将所述第二图像数据集中的图像数据进行分类,以使每个汉字类别对应一个图像数据集;
由所有汉字类别分别对应的图像数据集组成所述多个图像数据集,并对每个汉字类别设置相应标签文件。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的强噪声复杂背景图像中的汉字组词方法,根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型;获取待处理的第一背景图像,并根据神经网络模型对第一背景图像进行汉字定位,获得若干个汉字定位框;根据预设的深度学习模型,对若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字;再利用训练文本结合预设的训练模型构建出字符表,对于输入的乱序文字,遍历所有排序,并基于构建好的字符表,计算每个排序对应的自然语序度量值,最后以自然语序度量值最高的排序作为乱序文字的排序结果。相比于现有技术针对在强噪声复杂背景图像中的汉字组词不准确,本发明能够提高在强噪声复杂背景图像中汉字定位、汉字识别和汉字组词的准确性,从而扩大汉字识别和组词的应用场景和范围。
附图说明
图1是本发明提供的无线网状网的接入认证方法的第一实施例的流程示意图;
图2是本发明提供的无线网状网的接入认证方法的第二实施例的流程示意图;
图3是本发明提供的无线网状网的接入认证方法的第三实施例的流程示意图;
图4是本发明提供的无线网状网的接入认证方法的结构示意图;
图5是本发明提供的白名单生成模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的强噪声复杂背景图像中的汉字组词方法的一种实施例的流程示意图,该示意图更详细的步骤包括步骤101至步骤108,具体如下:
步骤101:根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型;其中,背景图像为强噪音复杂背景图像。
步骤102:获取待处理的第一背景图像,并根据神经网络模型对第一背景图像进行汉字定位,获得若干个汉字定位框。
步骤103:根据预设的深度学习模型,对若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字。
步骤104:获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量。
在本实施例中,步骤104具体为:将待组词字符串映射到对应的字符查找表对应的列上,得到每个字符的出现总次数,记为第一向量s_total。
在本实施例中,字符表由预设的训练文本和训练模型而得到,字符表包括第一字符词频表、第二字符词频表和字符查找表。
在本实施例中,第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;第二字符词频表中的元素记录了相隔1字符的组合在所有训练文本中的出现频次;字符查找表记录了若干个常用字符以及每个常用字符在所有训练文本中的出现总次数。
在本实施例中,第一字符词频表中的第i行第j列个元素表示哈希值为i的字符后相邻的哈希值为j的组合在所有训练文本中的出现频次;其中,i和j为正整数;第二字符词频表中的第i行第j列个元素表示哈希值为i的字符后的第二个字符哈希值为j的组合在所有训练文本中的出现频次;字符查找表中记录的常用字符对应的列号,分别为每个常用字符的哈希值。
为了更好的说明本实施例,以下面的例子说明模型训练过程。在本例子中,模型的结构是两个方阵两个方阵text_matrix_1(第一字符词频表),text_matrix_2(第二字符词频表),和一个两行的查找表text_list(字符查找表)。text_matrix_1,text_matrix_2的结构相同,其行、列号分别对应常用字符经过哈希后的值,哈希函数是查找表text_list。text_list的第一行存储常用字符,第二行存储经过训练过程统计得到的某一字符出现的总次数,用以计算条件概率,哈希函数的值是某一字符在查找表text_list中的列号。如此设置哈希函数可以使得所有字符的哈希值为从0开始的连续自然数。text_matrix_1中的元素记录相邻字符组合出现的频次,如C1ij(text_matrix_1中第i行j列的元素)表示哈希值为i的字符后相邻字符的哈希值为j的组合在训练文本中出现的频次。text_matrix_2中的元素记录相隔1字符的组合出现的频次,如C2ij(text_matrix_2中第i行j列的元素)表示哈希值为i的字符后的第二个字符哈希值为j的组合在训练文本中出现的频次。实验表明,如此设置两层结构,可以在不损失模型泛化能力的情况下有效解决中文中并列短语的判断问题。
训练过程即为遍历训练集文本,统计某一字符出现的频次并记录在text_list对应位置;统计相邻两字符的组合出现的频次,并记录在text_matrix_1的对应元素中;统计有一个字符间隔的两个字符的组合出现的频次,并记录在text_matrix_2的对应元素中,详细训练过程如图2所示。
步骤105:根据待组词字符串当前的字符排列顺序,分别查询第一字符词频表和第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量;其中,第一字符词频表、第二字符词频表和字符查找表组成字符频表;字符表由预设的训练文本和训练模型而得到。
在本实施例中,步骤105具体为:根据待组词字符串当前的字符排列顺序,对于每一组相邻的元素(a,b)查找第一字符词频表中对应的元素R1ab,并将所有查询得到的元素构建成第一条件概率计数向量w_n1;
根据待组词字符串当前的字符排列顺序,对于每一组相隔1个字符的元素(c,d)查找第二字符词频表中对应的元素R2cd,并将所有查询得到的元素构建成第二条件概率计数向量w_n2。
步骤106:根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出待组词字符串对应的第一条件概率向量和第二条件概率向量。
在本实施例中,步骤106具体为:将第一向量s_total的前n-1个元素向量除以第一条件概率计数向量w_n1,得到第一条件概率向量w1;其中,第一向量s_total包含n个元素;第一条件概率向量w1中的元素为待组词字符串中前一个字符出现后,后一个字符也出现的条件概率向量;
将第一向量s_total的前n-1个元素向量除以第二条件概率计数向量w_n2,得到所述第二条件概率向量w2;其中,第二条件概率向量w2中的元素为所述待组词字符串中前一个字符出现后,相隔1个字符后的字符也出现的条件概率向量。
在本实施例中,待组词字符串S的长度为n,w_n1比s_total的维数少1,w1的维数与w_n1相同。
步骤107:分别对第一条件概率向量和第二条件概率向量中的各元素取对数,并将概率之积转化为对数概率之和,依次获得第一自然语序度量值和第二自然语序度量值。
在本实施例中,某一组合在总体中出现的概率是非常小的,因此当字符串边长较短,求概率之积可能造成浮点数下溢,为避免这种情况,先对w1和w2的各个元素取对数w_l、w_2,并将概率之积转化为对数概率之和,即对w_1、w_2的所有元素求和,即可得到某一字符串的自然语序度量值p。
在本实施例中,一个字符串生成的过程中,可以认为后一个字与其前方所有的字都有关系,计算字符串A下一个字符是字符B的概率,可以抽象为计算在A出现的情况下B出现的条件概率,即P(B|A)。应用马尔可夫假设,可以在实际计算过程中对上述过程进行简化,即认为第k个字符为B的概率只与前面有限个字符相关。本发明处理的问题并不是一个字符串生成的过程,而是找到乱序文本的自然语序,所以本发明将该问题进行了简化,引入了自然语序度量值p,用以衡量一个候选字符串符合自然语序的程度。p越大即表示该字符串越符合自然语序。因此,该问题可以转化为对所有可能的候选顺序计算p,并选择p值最大的一个或几个候选进行输出。整个过程可以看作在由字符构成的离散时间马尔可夫模型中寻找概率最大的路径。
对于一长度为n的字符串S,其自然语序度量值p定义如下:
步骤108:根据第一自然语序度量值和第二自然语序度量值,获得待组词字符串当前的字符排列顺序对应的自然语序度量值,并遍历待组词字符串的所有字符排列顺序,按照相同的计算方法,依次获得若干个自然语序度量值,再选择自然语序度量值最大的字符排列顺序,将待组词字符串进行自动组词。
对于一长度为n的字符串S,其自然语序度量值p定义如下:
为了更好的说明本发明技术方案,以一个示例说明这一过程:以计算字符串s={你,们,好}的自然语序度量值p。
1、先对第一个求和项进行计算,根据每个汉字的编码,从text_list的第一行查找hash(即列号):hc=Hash(c),c∈s;
假设根据上式计算得的hash值分别为:196,135,1202。
2、从text_list的第二行
得到相应的总计数,分别记为n2,196,n2,135,n2,1202。
4、求得“你们好”的自然语序度量值p:
其中,hi表示第i个汉字的hash值。
再根据同样的计算过程得到第二个求和项,两项相加得到最终的自然语序度量值。本发明做到了充分的向量化,由排列组合等方式得到的候选序列,且可以并行计算各排序的自然语序量度值p,并选择具有最大p值的组合作为候选进行输出。
由上可见,本发明实施例提供的强噪声复杂背景图像中的汉字组词方法,根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型;获取待处理的第一背景图像,并根据神经网络模型对第一背景图像进行汉字定位,获得若干个汉字定位框;根据预设的深度学习模型,对若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字;再利用训练文本结合预设的训练模型构建出字符表,对于输入的乱序文字,遍历所有排序,并基于构建好的字符表,计算每个排序对应的自然语序度量值,最后以自然语序度量值最高的排序作为乱序文字的排序结果。相比于现有技术针对在强噪声复杂背景图像中的汉字组词不准确,本发明能够提高在强噪声复杂背景图像中汉字定位、汉字识别和汉字组词的准确性,从而扩大汉字识别和组词的应用场景和范围。
实施例2
本实施例提供了步骤101和步骤102的具体实施过程,详细可参见图3,更详细的步骤包括步骤301至步骤304,具体步骤如下:
步骤301:获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内。
在本实施例中,通过编写网络爬虫程序,自动抓取大量图像,这些图像均为包含汉字的背景图,且均为强噪音复杂背景图像。本发明定义的强噪声复杂背景图像:在复杂背景下的强噪声图像。复杂背景一般指自然背景照片、艺术画作、风景等为单独背景或多种背景的叠加。强噪声图像指目标被白噪声、扭曲变形、旋转等人为或自然的干扰后得到的图像。
对抓取的背景图像进行预处理,具体为:将图像中的汉字用矩形边界框框起来,并连同图像保存为为Pascal VOC的标准格式,然后将该数据集转换为一个TFRecord文件用于训练。
步骤302:以背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别。
在本实施例中,步骤302具体为:构建初始模型,并以背景图像为输入,以矩形边界框和置信度为输出,对初始模型进行训练,调整并优化初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数,并根据优化后的参数,构建神经网络模型。
在本实施例中,构建的神经网络模型的网络架构为SSD,特征提取器为MobileNet。本发明构建的神经网络模型将一个汉字作为一个单独的类别,将背景作为一个单独的类别(表示图像不属于任何已知类别),num_classes表示所有汉字类别的数量。对于一个图像输入,模型会输出多个边界框和置信度。每个边界框对应有num_classes+1个置信度,一个置信度对应一个类别。
在本实施例中,尺寸调整参数用于供神经网络模型调整输入图像的尺寸。由于本发明涉及的图像具有固定的尺寸,避免因图像的缩放影响定位效果。
在本实施例中,边框调整参数用于供神经网络模型调整默认边界框的尺度和长宽比例。在本发明中,汉字的边界框的尺度和长宽比例一般在某个范围之内,因此可根据样品的相关信息,调整该参数。
在本实施例中,重合度筛选参数用于供神经网络模型剔除高重合度的边界框。置信度计算参数用于供神经网络模型计算每个边界框的置信度。
步骤303:获取第一背景图像,通过神经网络模型,调整第一背景图像的尺寸,并根据神经网络模型内设置的边框调整参数和默认边界框,确定第一背景图像的第一边界框集合;
在本实施例中,在构建并训练好神经网络模型后,获取待定位的第一背景图像,输入到神经网络模型。神经网络模型会根据默认边界框和边框调整参数,输出回归系数,然后利用回归系数对默认框的位置和尺寸进行微调,形成若干个第一边界框,组成第一边界框集合。
步骤304:分别计算所述第一边界框集合内各边界框对应的置信度,并通过神经网络模型,从第一边界框集合中筛选出N个边界框,以实现第一背景图像的汉字定位;其中,第一背景图像包含N个汉字,N个汉字分别一一对应N个边界框;N为正整数。
在本实施例中,根据置信度计算参数,分别计算第一边界框集合内各边界框对应的置信度,并通过非极大化抑制方法(NMS)筛选出高质量的边界框。
在本实施例中,通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,具体为:根据第一边界框集合内各边界框对应的置信度,筛选出分数最高的边界框box1,使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框,再从剩余的边界框中选出分数最高的边界框box2,按照相同的方法进行剔除,直到选出N个边界框。N为正整数。
在本实施例中,重合程度使用交并比(IoU)的概念来定义,即用两个边界框的交集面积除以并集面积,根据计算结果来衡量两个边界框的重合程度。
在本实施例中,为了增加样本数量,神经网络模型还可以采用扩展后的图像数据进行训练,以便于进一步优化神经网络模型的参数。扩展后的图像数据为经过翻转操作的若干个背景图像和矩形边界框。翻转操作为随机水平翻转、随机竖直翻转、随机旋转和/或随机裁剪。
在本实施例中,对训练样本中的背景图像和矩形边界框以一定概率执行翻转操作,能提高训练数据的多样性,进而提高最终模型预测时的稳定性和准确性。
由上可见,本发明实施例先根据采集数据样品,构建出神经网络模型,并以此训练和优化该神经网络模型的参数;对待定位的第一背景图像,通过训练好的神经网络模型对其进行尺寸调整,并筛选出相应的第一边界框集合和每个边界框对应的置信度,在根据置信度筛选出每个汉字对应的边界框,实现汉字定位。相比于现有技术通过传统的OCR技术对强噪声复杂背景图像的定位不准确,本发明技术方案针对该类型的图像进采样并构建相应的神经网络模型,能够提高在强噪声复杂背景图像中汉字定位的准确性。
实施例3
本实施例提供了步骤103的具体实施过程,详细可参见图4,更详细的步骤包括步骤401至步骤404,具体步骤如下:
步骤401:对若干个原始图像进行汉字定位,获得多个汉字定位框。
在本实施例,采用实施例2中的汉字定位方法,对若干个原始图像进行汉字定位,获得多个汉字定位框。其中,每个原始图像对应一个或多个汉字定位框,其数量与原始图像内包含的汉字数量相同。
步骤402:根据多个汉字定位框,对原始图像进行预处理,获得多个图像数据集;其中,每个图像数据集有且仅有一个汉字的多个汉字图像。
在本实施例中,步骤402具体为:
步骤4021:根据汉字定位框对所有原始图像进裁剪,获得第一图像数据集;
步骤4022:剔除第一图像数据集中的错误图像数据,获得第二图像数据集;其中,错误图像数据为没有包含一个完整汉字的图像数据;
步骤4023:将每个汉字作为单独的汉字类别,并以此将所述第二图像数据集中的图像数据进行分类,以使每个汉字类别对应一个图像数据集;
步骤4024:由所有汉字类别分别对应的图像数据集组成所述多个图像数据集,并对每个汉字类别设置相应标签文件。
在本实施例中,错误图像数据为没有包含一个完整汉字的图像数据,其具体为:不含汉字的图像、只包含汉字一部分的图像。
在本实施例中,步骤4023和4024具体可以为,将每个汉字作为单独的汉字类别,并生成一个单独的文件夹,将同一汉字的图像数据存储到同一文件夹中,并以该汉字命名该文件夹,则所有汉字对应的文件夹即为所述多个图像数据集,汉字命名为相应的标签文件。
在本实施例中,在步骤4023之后还可以包括:对汉字类别对应的图像数据的数量少于预设的阈值的第三图像数据集,采用ImageDataGenerator方法对图像数据进行数据增强操作,以增加第三图像数据集中的图像数据的数量。对于汉字类别中样本比较少的汉字,可采用ImageDataGenerator方法进行数据增强,如旋转、分割、镜像、椒盐噪声等操作扩充数据集,同时可以调节旋转变换角度、缩放比例、平移变换、尺度变换、对比度变换、滤波、噪声扰动等参数,进一步提高样本的多样性,尽可能解决样本不均匀的问题。
步骤403:基于深度学习网络Inception V3,建立深度学习模型,并以多个图像数据集,优化深度学习模型的训练轮数、学习率、学习衰减率和训练批次。
在本实施例中,模型是基于端对端的深度学习网络Inception V3,网络结构如图5所示。该网络采用的全部都是3x3的卷积核和1x1的卷积核用来替代大型的卷积核,以减少模型的参数,提高模型训练速度,并且采用BN和Dropout来防止过拟合。
训练轮数epoch决定模型的训练轮数,轮数越长训练时间越长,通过模型收敛程度来进行初始设置和优化。学习率learn_rate决定模型的收敛速度,过大的学习率learn_rate会导致梯度爆炸或者模型参数出现震荡。学习率衰减系数lrschedule决定了学习率衰减的快慢。训练批次batch_size决定了训练过程中每次进行梯度下降时使用的训练数据大小,主要根据硬件(内存、现存等)的条件来进行设置,发挥出硬件的最大性能。
在导入样本数据训练时,训练模型使用交叉熵来计算损失,并且通过训练数据集大小除以训练批次来计算每一轮训练的次数,通过epoch轮完成训练,对模型和模型的权重进行保存。本发明使用基于ImageNet数据集预训练的参数初始化模型,以缩短训练时间。譬如千分类的汉字,十万数据集训练时长为20小时左右。
在本实施例中,在训练结束后,还包括根据优化的参数生成权重文件。所述权重文件用于深度学习模型的再训练,以缩短训练时间。
步骤404:在训练结束后,根据优化后的参数生成识别模型文件,以便于在获取到待识别图像时,通过识别模型文件,对待识别图像进行汉字识别。
在获得识别模型文件后,对于一张背景图像,先以本发明实施例1的方法对汉字定位,再将汉字定位框输入到识别模型中,识别出具体的汉字。
由上可见,提供的汉字识别方法,在本发明的汉字定位后,基于深度学习网络,构建识别模型文件,并以此对待识别图像进行汉字识别,能够在在强噪声复杂背景图像中汉字识别的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种强噪声复杂背景图像中的汉字组词方法,其特征在于,包括:
根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型;其中,所述背景图像为强噪音复杂背景图像;
获取待处理的第一背景图像,并根据所述神经网络模型对所述第一背景图像进行汉字定位,获得若干个汉字定位框;
根据预设的深度学习模型,对所述若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字;
获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;
根据所述待组词字符串当前的字符排列顺序,分别查询第一字符词频表和第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量;其中,所述第一字符词频表、第二字符词频表和字符查找表组成字符频表;所述字符频表由预设的训练文本和训练模型而得到;
根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量;
分别对所述第一条件概率向量和第二条件概率向量中的各元素取对数,并将概率之积转化为对数概率之和,依次获得第一自然语序度量值和第二自然语序度量值;
根据所述第一自然语序度量值和第二自然语序度量值,获得所述待组词字符串当前的字符排列顺序对应的自然语序度量值,并遍历所述待组词字符串的所有字符排列顺序,按照相同的计算方法,依次获得若干个自然语序度量值,再选择自然语序度量值最大的字符排列顺序,将所述待组词字符串进行自动组词。
2.根据权利要求1所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述第一字符词频表中的第i行第j列个元素表示哈希值为i的字符后相邻的哈希值为j的组合在所有训练文本中的出现频次;其中,i和j为正整数;
所述第二字符词频表中的第i行第j列个元素表示哈希值为i的字符后的第二个字符哈希值为j的组合在所有训练文本中的出现频次;
所述字符查找表中记录的常用字符对应的列号,分别为每个常用字符的哈希值。
3.根据权利要求1所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量,具体为:
将所述待组词字符串映射到对应的字符查找表对应的列上,得到每个字符的出现总次数,记为第一向量s_total。
4.根据权利要求3所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述根据所述待组词字符串当前的字符排列顺序,分别查询所述第一字符词频表和所述第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量,具体为:
根据所述待组词字符串当前的字符排列顺序,对于每一组相邻的元素(a,b)查找第一字符词频表中对应的元素R1ab,并将所有查询得到的元素构建成第一条件概率计数向量w_n1;
根据所述待组词字符串当前的字符排列顺序,对于每一组相隔1个字符的元素(c,d)查找第二字符词频表中对应的元素R2cd,并将所有查询得到的元素构建成第二条件概率计数向量w_n2。
5.根据权利要求4所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量,具体为:
将第一向量s_total的前n-1个元素向量除以第一条件概率计数向量w_n1,得到所述第一条件概率向量w1;其中,所述第一向量s_total包含n个元素;所述第一条件概率向量w1中的元素为所述待组词字符串中前一个字符出现后,后一个字符也出现的条件概率向量;
将第一向量s_total的前n-1个元素向量除以第二条件概率计数向量w_n2,得到所述第二条件概率向量w2;其中,所述第二条件概率向量w2中的元素为所述待组词字符串中前一个字符出现后,相隔1个字符后的字符也出现的条件概率向量。
6.根据权利要求1所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,
所述根据若干个包含汉字的背景图像,构建用于汉字定位的神经网络模型,具体为:
获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;
所述获取待处理的第一背景图像,并根据所述神经网络模型对所述第一背景图像进行汉字定位,具体为:
获取所述第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;
分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。
7.根据权利要求6所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型,具体为:
构建初始模型,并以所述背景图像为输入,以矩形边界框和置信度为输出,对所述初始模型进行训练,调整并优化所述初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数,并根据优化后的参数,构建所述神经网络模型;
其中,所述尺寸调整参数用于供所述神经网络模型调整输入图像的尺寸;
所述边框调整参数用于供所述神经网络模型调整默认边界框的尺度和长宽比例;
所述重合度筛选参数用于供所述神经网络模型剔除高重合度的边界框;
所述置信度计算参数用于供所述神经网络模型计算每个边界框的置信度。
8.根据权利要求7所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,具体为:
根据所述第一边界框集合内各边界框对应的置信度,筛选出分数最高的边界框box1,使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框,再从剩余的边界框中选出分数最高的边界框box2,按照相同的方法进行剔除,直到选出N个边界框。
9.根据权利要求6所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述根据预设的深度学习模型,对所述若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字,具体为:
对若干个原始图像进行汉字定位,获得多个汉字定位框,根据所述多个汉字定位框,对所述原始图像进行预处理,获得多个图像数据集;其中,每个图像数据集有且仅有一个汉字的多个汉字图像;
基于深度学习网络Inception V3,建立深度学习模型,并以所述多个图像数据集,优化所述深度学习模型的训练轮数、学习率、学习衰减率和训练批次;
在训练结束后,根据优化后的参数生成识别模型文件,以便于在获取到待识别图像时,通过所述识别模型文件,对所述若干个汉字定位框中的文字进行汉字识别,获得待组词乱序文字。
10.根据权利要求9所述的强噪声复杂背景图像中的汉字组词方法,其特征在于,所述根据所述多个汉字定位框,对所述原始图像进行预处理,获得多个图像数据集,具体为:
根据汉字定位框对所述原始图像进裁剪,获得第一图像数据集;
剔除所述第一图像数据集中的错误图像数据,获得第二图像数据集;其中,所述错误图像数据为没有包含一个完整汉字的图像数据;
将每个汉字作为单独的汉字类别,并以此将所述第二图像数据集中的图像数据进行分类,以使每个汉字类别对应一个图像数据集;
由所有汉字类别分别对应的图像数据集组成所述多个图像数据集,并对每个汉字类别设置相应标签文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910729424.4A CN110796134B (zh) | 2019-08-06 | 2019-08-06 | 一种强噪声复杂背景图像中的汉字组词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910729424.4A CN110796134B (zh) | 2019-08-06 | 2019-08-06 | 一种强噪声复杂背景图像中的汉字组词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110796134A CN110796134A (zh) | 2020-02-14 |
CN110796134B true CN110796134B (zh) | 2023-03-28 |
Family
ID=69426993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910729424.4A Active CN110796134B (zh) | 2019-08-06 | 2019-08-06 | 一种强噪声复杂背景图像中的汉字组词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796134B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883953B (zh) * | 2021-02-22 | 2022-10-28 | 中国工商银行股份有限公司 | 基于联合学习的卡片识别装置及方法 |
CN113989485B (zh) * | 2021-11-29 | 2024-09-06 | 合肥高维数据技术有限公司 | 基于ocr识别的文本字符分割方法及系统 |
CN115862036B (zh) * | 2022-12-14 | 2024-02-23 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9384423B2 (en) * | 2013-05-28 | 2016-07-05 | Xerox Corporation | System and method for OCR output verification |
CN105096244B (zh) * | 2015-07-02 | 2019-02-22 | 北京旷视科技有限公司 | 图像变换方法及其装置以及图像识别方法及其装置 |
-
2019
- 2019-08-06 CN CN201910729424.4A patent/CN110796134B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110796134A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7899249B2 (en) | Media material analysis of continuing article portions | |
US8045798B2 (en) | Features generation and spotting methods and systems using same | |
EP2144188B1 (en) | Word detection method and system | |
US10867169B2 (en) | Character recognition using hierarchical classification | |
US8315465B1 (en) | Effective feature classification in images | |
CN110796134B (zh) | 一种强噪声复杂背景图像中的汉字组词方法 | |
CN112036395A (zh) | 基于目标检测的文本分类识别方法及装置 | |
CN108734159B (zh) | 一种图像中敏感信息的检测方法及系统 | |
Bhowmik et al. | Handwritten Bangla word recognition using HOG descriptor | |
CN113420669A (zh) | 基于多尺度训练和级联检测的文档版面分析方法和系统 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
Sampath et al. | Handwritten optical character recognition by hybrid neural network training algorithm | |
Inkeaw et al. | Recognition-based character segmentation for multi-level writing style | |
Ghosh et al. | R-phoc: segmentation-free word spotting using cnn | |
Khan et al. | A holistic approach to Urdu language word recognition using deep neural networks | |
Hassan et al. | Proposed handwriting Arabic words classification based on discrete wavelet transform and support vector machine | |
CN115640401B (zh) | 文本内容提取方法及装置 | |
Wilkinson et al. | Neural word search in historical manuscript collections | |
CN115937660A (zh) | 验证码的识别方法及装置 | |
Ghosh et al. | Text box proposals for handwritten word spotting from documents | |
Hirata et al. | Comics image processing: learning to segment text | |
CN108334884B (zh) | 一种基于机器学习的手写文档检索方法 | |
Singh | An Efficient Transfer Learning Approach for Handwritten Historical Gurmukhi Character Recognition using VGG16: Gurmukhi_Hhdb1. 0 Dataset | |
Libo et al. | Increasing the Accuracy of Writer Identification Based on Bee Colony Optimization Algorithm and Hybrid Deep Learning Method. | |
Kumari et al. | Recognition of offline hand written telugu script using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |