CN113159086B - 一种高效的电力信号描述模型训练方法 - Google Patents
一种高效的电力信号描述模型训练方法 Download PDFInfo
- Publication number
- CN113159086B CN113159086B CN202011638424.2A CN202011638424A CN113159086B CN 113159086 B CN113159086 B CN 113159086B CN 202011638424 A CN202011638424 A CN 202011638424A CN 113159086 B CN113159086 B CN 113159086B
- Authority
- CN
- China
- Prior art keywords
- text
- file
- picture
- width
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000012856 packing Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种高效的电力信号描述模型训练方法,该方法为:读取txt或excel文件;设置训练文字参数;生成文字图片的宽度及高度;判断图片宽度,重新计算图片高度;调用Qt的QImage类生成全白的图片;在全白的图片上绘制单个文字;记录的每个字符位置及矩形长宽数据;训练文字转换坐标系;并将每个转换文字的数据保存到一个后缀为.box的文本文件中;生成后缀为.tr的文本文件;读取人工标记文件夹内所有后缀为.tif、.box、.tr文件;执行tesseract的训练命令,生成后缀为.traineddata的文件;自动调用tesseract命令识别生成的图片,并将识别结果和录入的文字进行对比,提示识别错误文字、文字召回率和准确率。本发明简化了文字训练的步骤,能快速实现文字训练,快速生成所需的训练模型,提高了训练效率。
Description
技术领域
本发明属于中文训练模型训练方法技术领域,具体涉及一种高效的电力信号描述模型训练方法。
背景技术
Tesseract文字识别引擎自带的中文训练模型识别率较低,通过重新训练用户常用文字提高文字识别率是用户的常用做法。由于训练需要大量调整图片中文字的位置、文字框大小,为文字训练带来极大的工作量。
发明内容
本发明要解决的技术问题是:提供一种高效的电力信号描述模型训练方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种高效的电力信号描述模型训练方法,该方法包括以下步骤:
1)读取txt或excel文件;
2)设置训练文字的字体、大小、模型名称的参数;
3)按行读取选择的txt或excel文件,获取文字总行数,记为num_lines,以及这些行中字数最多的行的字数,记为max_length;
4)根据设置的字符间距(gap)、行间距(linespacing)、页面边距(padding)、图片最大宽度、单个文字宽度(width)、单个文字高度(height),计算生成文字图片的宽度及高度;
5)若计算的图片宽度大于设置的图片最大宽度,则以图片最长宽度作为待生成图片的宽度,根据字符间距(gap)、行间距(linespacing)、页面边距(padding)重新计算图片高度;
6)根据步骤5)计算的图片大小,记为imgsize,调用Qt(跨平台C++图形用户界面应用程序开发框架)的QImage类生成全白的图片;
7)在全白的图片上按顺序绘制单个文字;
8)根据步骤7)中记录的每个字符位置及矩形长宽数据,分别以从上至下、从下至上、从左至右、从右至左四个方向扫描该矩形框内的图片的像素值;
9)由于QImage图像坐标系与Tesseract训练用的文字坐标系不一致(见图3),且tesseract需要文字最小外接矩形的左下角和右上角顶点坐标作为训练数据,因此将步骤8)的文字最小外接矩形的坐标[(x,y),(end_x,endy)]位置转换为tesseract训练的文字坐标系[(t_x,t_y),(t_end_x,t_endy)],转换公式如下:
t_x=x
t_y=height_image–y-(endy-y)
t_endx=x+width_image
t_endy=height_image–y;
10)将每个文字按步骤9)进行计算,并将每个文字的数据按以下格式写入并保存到一个后缀为.box的文本文件中,每个文字数据占一行:
文字t_x t_y t_endx t_endy
11)根据设置参数,如训练语言、分页模式等,使用tesseract命令生成后缀为.tr的文本文件,命令如下:
tesseract power.font.exp0.GIF power.font.exp0–psm 6nobatch
box.train
12)读取人工标记文件夹内所有后缀为.GIF、.box、.tr文件,同时检测文件夹中文件名为font_properties的文本文件是否存在,若不存在,则根据所有后缀为.GIF的图片文件名称,将名称第一个“.”和第二个“.”间的名称作为字体名称,过滤重复的字体名称,将每个字体作为一行,按以下格式写入文件名为font_properties的文本文件中,格式如下:
font 0 0 0 0 0;
13)依次执行tesseract的unicharset_extractor、shapeclustering、mftraining、cntraing训练命令,生成后缀为.traineddata的文件,该文件即为文字模型文件;
14)完成训练后,训练工具自动调用tesseract命令识别步骤7)生成的图片,并将识别结果和录入的文字进行对比,提示识别错误文字、文字召回率和准确率。
若用户想继续提高文字识别率,可继续将含有错误文字的实际应用图片利用图片工具转换为后缀为.GIF的图片文件,并使用标记工具人工标记生成.box文本文件,加入到人工标记文件夹,重新进行训练。
步骤4)中生成文字图片的宽度及高度计算公式如下:
图片宽度(width_image)=padding*2+max_length*(gap+width)
图片高度(height_image)=padding*2+num_lines*(linespacing+height)。
步骤5)中重新计算图片高度的方法包括以下步骤:
a)计算图片一行可容纳的文字数量max_words_num
words_num=(width_image–padding*2)/(gap+width)
max_word_length取大于或等于words_num的最小整数
b)计算文字行数及图片高度
lines_word=文字总数量/max_word_length
文字行数(num_lines)取大于或等于lines_word的最小整数(向上取整)
图片高度=padding*2+num_lines*(linespacing+height)。
步骤7)中绘制单个文字的方法包括如下步骤:
a)设置第一个文字位置(横坐标为startx,纵坐标为starty),位置初始值如下:
startx=padding;starty=padding;
b)在以坐标(startx,starty)为起点、单个文字宽度(width)为矩形宽度、单个文字高度(height)为矩形高度的矩形内居中绘制第一个文字;
c)计算下一个文字的startx和starty,取值如下:
startx=startx+width+gap
starty=padding
若(startx+页面边距)>图片宽度,则:
starty=starty+已绘制的文字行数*(height+linespacing)
startx=padding
d)记录并保存,每个字符的startx,starty,width,height重复a-c
步骤,直至完全绘制完图片。
步骤8)中图片的像素值扫描方法包括以下步骤:
a)以行为单位从上至下扫描文字矩形的像素,直至扫描到整行像素存在不为白色的像素,将该行行数记为y;
b)以列为单位从左至右扫描文字矩形的像素,直至扫描到整列像素存在不为白色的像素,将该列列数记为x;
c)以行为单位从下至上扫描文字矩形的像素,直至扫描到整行像素存在不为白色的像素,将该行行数记为end_y;
d)以列为单位从右至左扫描文字矩形的像素,直至扫描到整列像素存在不为白色的像素,将该列列数记为end_x;
e)根据a-d)计算的数据作为该文字的最小外接矩形,矩形左上角顶点坐标为(x,y),右下角顶点坐标为(end_x,endy)。
一种高效的电力信号描述模型训练方法,该方法还包括训练文件的合并方法,该方法包括以下步骤:
1)选择已进行人工标记且已生成.box文本文件和后缀为.GIF的图片文件;
2)设置各个文件的训练参数,包括训练用语言、页面模式参数,默认为中文训练语言;
3)根据选择的文件名称和需生成的模型名称,对后缀为tif的图片文件和box文件自动进行命名,形成符合规范的训练文件,后缀为.GIF的图片文件规范命名如图4所示:
对应的后缀为.box的文本文件规范命名如图5所示。
4)根据所有后缀为.GIF的图片文件名称,将名称第一个“.”和第二个“.”间的名称作为字体名称,每个字体为一行,按以下格式写入文件名为font_properties的文本文件中。
font 0 0 0 0 0
5)调用tesseract命令为每一个后缀为.GIF的文件生成一个后缀为.tr的文本文件,命令如下:
tesseract power.font.exp0.GIF power.font.exp0–psm 6nobatch box.train
6)将所有后缀为.box的文本文件名称组合成按空格分隔的字符串,作为unicharset_extractor命令的参数,调用并执行unicharset_extractor命令;将所有后缀为.tr的文本文件名称组合成按空格分隔的字符串,作为shapeclustering、mftraining、cntraing命令的参数,调用并执行shapeclustering、mftraining、cntraing命令;
7)最后调用tessract的combine_tessdata命令,生成.traineddata文件,即为最终合并的文字模型。
本发明的有益效果:与现有技术相比,本发明的效果如下:
1)本发明将tesseract训练命令封装到一起,通过本发明自动处理各个文件,无需手动修改不同后缀的文件名称,无需再人为进行font_properties文件的创建,无需手动执行unicharset_extractor、shapeclustering、mftraining、cntraing命令,简化了文字训练的步骤,用户选择文件,设定参数后,可一键进行文字训练,快速生成所需的训练模型,提高了训练效率;
2)本发明通过多模型的合并方法,将实际应用中的人工标记的文字图片以及本发明生成的文字图片进行合并,将识别错误文字通过实际应用中的人工标记数据进行调整,在减少训练工作量的同时提高了文字识别的准确度。
附图说明
图1为模型训练方法流程图;
图2为合并方法流程图;
图3为坐标系转换示意图;
图4为后缀为.GIF的图片文件规范命名示意图;
图5为对应的后缀为.box的文本文件规范命名示意图。
具体实施方式
下面结合具体的附图和实施例对本发明进行进一步介绍。
实施例1:如图1所示,一种高效的电力信号描述模型训练方法,包括以下步骤:
1)将电力调度主站系统中的各站点名称、状态名称等形成txt格式或execl格式的文件,读取txt或excel文件;由于中文文字数量庞大,本步骤将实际应用中需识别的文字进行整理,一方面减小了需识别的文字数量,另一方面减少了生成模型的大小,可提高文字的识别速度;
2)设置训练文字的字体、大小、模型名称的参数,提高文字识别的准确度;
3)按行读取选择的txt或excel文件,获取文字总行数(记为num_lines)以及这些行中字数最多的行的字数(记为max_length);本步骤主要为下述步骤计算训练图片的生成大小获取初始数据;
4)根据设置的字符间距(gap)、行间距(linespacing)、页面边距(padding)、图片最大宽度、单个文字宽度(width)、单个文字高度(height),计算生成文字图片的宽度及高度,计算公式如下:
图片宽度(width_image)=padding*2+max_length*(gap+width)
图片高度(height_image)=padding*2+num_lines*(linespacing+height)
5)若计算的图片宽度大于设置的图片最大宽度,则以图片最长宽度作为待生成图片的宽度,根据字符间距(gap)、行间距(linespacing)、页面边距(padding)重新计算图片高度。计算流程如下:
a)计算图片一行可容纳的文字数量max_words_num
words_num=(width_image–padding*2)/(gap+width)
max_word_length取大于或等于words_num的最小整数
b)计算文字行数及图片高度
lines_word=文字总数量/max_word_length
文字行数(num_lines)取大于或等于lines_word的最小整数(向上取整)
图片高度=padding*2+num_lines*(linespacing+height)
6)根据步骤5)计算的图片大小(记为imgsize),调用Qt(跨平台C++图形用户界面应用程序开发框架)的QImage类生成全白的图片,调用代码如下:
QImage img(imgsize,QImage::Format_RGB888);
img.fill(QColor(255,255,255));
7)在全白的图片上按顺序绘制单个文字。绘制步骤如下:
a)设置第一个文字位置(横坐标为startx,纵坐标为starty),位置初始值如下:
startx=padding;starty=padding;
b)在以坐标(startx,starty)为起点、单个文字宽度(width)为矩形宽度、单个文字高度(height)为矩形高度的矩形内居中绘制第一个文字。
c)计算下一个文字的startx和starty,取值如下:
startx=startx+width+gap
starty=padding
若(startx+页面边距)>图片宽度,则:
starty=starty+已绘制的文字行数*(height+linespacing)
startx=padding
d)记录并保存,每个字符的startx,starty,width,height重复a-c步骤,直至完全绘制完图片。
8)根据步骤7)中记录的每个字符位置及矩形长宽数据,分别以从上至下、从下至上、从左至右、从右至左四个方向扫描该矩形框内的图片的像素值,本步骤通过四个方向的扫描计算文字的外接矩形,较从上至下、左至右两个方向扫描文字计算外接矩形的方法速度更快,计算速度得到提升;
a)以行为单位从上至下扫描文字矩形的像素,直至扫描到整行像素存在不为白色的像素,将该行行数记为y。
b)以列为单位从左至右扫描文字矩形的像素,直至扫描到整列像素存在不为白色的像素,将该列列数记为y。
c)以行为单位从下至上扫描文字矩形的像素,直至扫描到整行像素存在不为白色的像素,将该行行数记为end_y。
d)以列为单位从右至左扫描文字矩形的像素,直至扫描到整列像素存在不为白色的像素,将该列列数记为end_x。
e)根据a-d)计算的数据作为该文字的最小外接矩形,矩形左上角顶点坐标为(x,y),右下角顶点坐标为(end_x,endy);
9)由于QImage图像坐标系与Tesseract训练用的文字坐标系不一致(见图3),且tesseract需要文字最小外接矩形的左下角和右上角顶点坐标作为训练数据,因此将步骤8)的文字最小外接矩形的坐标[(x,y),(end_x,endy)]位置转换为tesseract训练的文字坐标系[(t_x,t_y),(t_end_x,t_endy)],如图3所示,转换公式如下:
t_x=x
t_y=height_image–y-(endy-y)
t_endx=x+width_image
t_endy=height_image–y
10)将每个文字按9)进行计算,并将每个文字的数据按以下格式写入并保存到一个后缀为.box的文本文件中,每个文字数据占一行:
文字t_x t_y t_endx t_endy
本步骤生成的.box文件为tesseract训练中必要的字符位置文件,通过训练工具自动处理生成,较传统需手动调整文字外接矩形位置的方法更为便捷;
11)根据设置参数,如训练语言、分页模式等,使用tesseract命令生成后缀为.tr的文本文件,命令如下:
tesseract power.font.exp0.GIF power.font.exp0–psm 6nobatchbox.train
本步骤生成的.tr文件为tesseract训练中必要的字符特征文件,通过工具自动调用tesseract命令生成,较传统需要手动调用命令生成的方法更便捷;
12)读取人工标记文件夹内所有后缀为.GIF、.box、.tr文件,同时检测文件夹中文件名为font_properties的文本文件是否存在,若不存在,则根据所有后缀为.GIF的图片文件名称,将名称第一个“.”和第二个“.”间的名称作为字体名称,过滤重复的字体名称,将每个字体作为一行,按以下格式写入文件名为font_properties的文本文件中。格式如下:
font 0 0 0 0 0
例如后缀为.GIF的图片文件名称为power.userfont.exp0.GIF,则写入font_properties文件的内容为:
userfont 0 0 0 0 0
生成的font_properties文件为tesseract训练中必要的字体文件,较传统方法中需人工依次查找不同tif的文件名、手动创建font_properties文件、人工输入字体的方法更快速便捷;
13)依次执行tesseract的unicharset_extractor、shapeclustering、mftraining、cntraing训练命令,生成后缀为.traineddata的文件,该文件即为文字模型文件;通过工具自动按顺序调用执行上述命令,较传统方法中人工依次输入上述命令并执行的方法更快速便捷;
14)完成训练后,训练工具自动调用tesseract命令识别7)步骤生成的图片,并将识别结果和录入的文字进行对比,提示识别错误文字、文字召回率和准确率;通过训练工具自动检测文字的召回率和准确率,较传统方法中需要人工查找和计算错误文字的方法更加快速便捷;
15)若用户想继续提高文字识别率,可继续将含有错误文字的实际应用图片利用图片工具转换为后缀为.GIF的图片文件,并使用标记工具人工标记生成.box文本文件,加入到人工标记文件夹,重新进行训练。
实施例2:如图2所示,一个训练文件的合并方法,该方法包括以下步骤:
1)选择已进行人工标记且已生成.box文本文件和后缀为.GIF的图片文件,可以是实施例1中步骤1)-10)生成的.box文本文件和后缀为.GIF的图片文件,也可以是通过其他方法或工具调整的;可选择不同路径下的.GIF格式的图片文件,较传统方法需人工将合并文件复制到同一路径下的方法更为便捷;
2)设置各个文件的训练参数,包括训练用语言、页面模式参数,默认为中文训练语言;可以针对每个选择的文件设置不同参数,较传统方法需要对每个文件单独录入参数和执行命令的方法更为直观便捷;
3)根据选择的文件名称和需生成的模型名称,对后缀为tif的图片文件和box文件自动进行命名,形成符合规范的训练文件,后缀为.GIF的图片文件规范命名如图4所示:
对应的后缀为.box的文本文件规范命名如图5所示。
通过合并工具自动对.GIF格式文件和.box格式文件进行重命名,较传统方法需要人工进行重命名并拷贝到同一个文件夹下的操作更加快速便捷;
4)根据所有后缀为.GIF的图片文件名称,将名称第一个“.”和第二个“.”间的名称作为字体名称,每个字体为一行,按以下格式写入文件名为font_properties的文本文件中;
font 0 0 0 0 0
font_properties为tesseract训练模型时需要的必要字体文件,本发明通过合并工具自动获取每个.GIF的字体名称并写入font_properties文件,较传统方法需要人为判断字体、人为创建font_properties文件、并将字体写入文件中的操作更便捷,且不易出错;
5)调用tesseract命令为每一个后缀为.GIF的文件生成一个后缀为.tr的文本文件,命令如下:
tesseract power.font.exp0.GIF power.font.exp0–psm 6nobatch box.train
.tr格式文件为tesseract训练模型是需要的必要字符特征文件,本发明通过合并工具自动根据文件数量调用命令执行,较传统方法需要人工根据文件数量文件名称依次调用的操作方法更快速便捷;
6)将所有后缀为.box的文本文件名称组合成按空格分隔的字符串,作为unicharset_extractor命令的参数,调用并执行unicharset_extractor命令;将所有后缀为.tr的文本文件名称组合成按空格分隔的字符串,作为shapeclustering、mftraining、cntraing命令的参数,调用并执行shapeclustering、mftraining、cntraing命令;
通过合并工具自动组合成执行命令语句,并自动调用训练命令,较传统方法需要人工依次编写检查命令、执行命令的操作方法更快速便捷;
7)最后调用tessract的combine_tessdata命令,生成.traineddata文件,即为最终合并的文字模型。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种高效的电力信号描述模型训练方法,其特征在于:该方法包括以下步骤:
1)读取txt或excel文件;
2)设置训练文字的字体、大小和模型名称的参数;
3)按行读取选择的txt或excel文件,获取文字总行数,记为num_lines,以及这些行中字数最多的行的字数,记为max_length;
4)根据设置的字符间距gap、行间距linespacing、页面边距padding、图片最大宽度、单个文字宽度width和单个文字高度height,计算生成文字图片的宽度及高度;
生成文字图片的宽度及高度计算公式如下:
图片宽度width_image=padding*2+max_length*(gap+width)
图片高度height_image=padding*2+num_lines*(linespacing+height);
5)若计算的图片宽度大于设置的图片最大宽度,则以图片最长宽度作为待生成图片的宽度,根据字符间距gap、行间距linespacing和页面边距padding重新计算图片高度;
6)根据步骤5)计算的图片大小,记为imgsize,调用Qt的QImage类生成全白的图片;
7)在全白的图片上按顺序绘制单个文字;
绘制单个文字的方法包括如下步骤:
a)设置第一个文字位置,横坐标为startx,纵坐标为starty,位置初始值如下:
startx=padding;starty=padding;
b)在以坐标(startx,starty)为起点、单个文字宽度width为矩形宽度和单个文字高度height为矩形高度的矩形内居中绘制第一个文字;
c)计算下一个文字的startx和starty,取值如下:
startx=startx+width+gap
starty=padding
若(startx+页面边距)>图片宽度,则:
starty=starty+已绘制的文字行数*(height+linespacing)
startx=padding
记录并保存,每个字符的startx、starty、width和height,重复a)-c)步骤,直至完全绘制完图片;
8)根据步骤7)中记录的每个字符位置及矩形长宽数据,分别以从上至下、从下至上、从左至右和从右至左四个方向扫描该矩形框内的图片的像素值;
9)将步骤8)的文字最小外接矩形的坐标[(x,y),(end_x,endy)]位置转换为tesseract训练的文字坐标系[(t_x,t_y),(t_end_x,t_endy)],转换公式如下:
t_x=x
t_y=height_image–y-(endy-y)
t_endx=x+width_image
t_endy=height_image–y;
10)将每个文字按步骤9)进行坐标转换计算,并将每个文字的数据按以下格式写入并保存到一个后缀为.box的文本文件中,每个文字数据占一行:
文字t_x t_y t_endx t_endy
11)根据设置参数,使用tesseract命令生成后缀为.tr的文本文件,命令如下:
tesseract power.font.exp0.GIF power.font.exp0–psm 6nobatch
box.train;
12)读取人工标记文件夹内所有后缀为.GIF、.box和.tr文件,同时检测文件夹中文件名为font_properties的文本文件是否存在,若不存在,则根据所有后缀为.GIF的图片文件名称,将名称第一个“.”和第二个“.”间的名称作为字体名称,过滤重复的字体名称,将每个字体作为一行,按以下格式写入文件名为font_properties的文本文件中,格式如下:
font 0 0 0 0 0;
13)依次执行tesseract的unicharset_extractor、shapeclustering、mftraining和cntraing训练命令,生成后缀为.traineddata的文件,该文件即为文字模型文件;
14)完成训练后,训练工具自动调用tesseract命令识别步骤7)生成的图片,并将识别结果和录入的文字进行对比,提示识别错误文字、文字召回率和准确率。
2.根据权利要求1所述的一种高效的电力信号描述模型训练方法,其特征在于:继续将含有错误文字的实际应用图片利用图片工具转换为后缀为.GIF的图片文件,并使用标记工具人工标记生成.box文本文件,加入到人工标记文件夹,重新进行训练。
3.根据权利要求1所述的一种高效的电力信号描述模型训练方法,其特征在于:步骤5)中重新计算图片高度的方法包括以下步骤:
a)计算图片一行可容纳的文字数量max_words_num
words_num=(width_image–padding*2)/(gap+width)
max_word_length取大于或等于words_num的最小整数
b)计算文字行数及图片高度
lines_word=文字总数量/max_word_length
文字行数num_lines取大于或等于lines_word的最小整数,向上取整;
图片高度=padding*2+num_lines*(linespacing+height)。
4.根据权利要求1所述的一种高效的电力信号描述模型训练方法,其特征在于:步骤8)中图片的像素值扫描方法包括以下步骤:
a)以行为单位从上至下扫描文字矩形的像素,直至扫描到整行像素存在不为白色的像素,将该行行数记为y;
b)以列为单位从左至右扫描文字矩形的像素,直至扫描到整列像素存在不为白色的像素,将该列列数记为x;
c)以行为单位从下至上扫描文字矩形的像素,直至扫描到整行像素存在不为白色的像素,将该行行数记为end_y;
d)以列为单位从右至左扫描文字矩形的像素,直至扫描到整列像素存在不为白色的像素,将该列列数记为end_x;
e)根据a)-d)计算的数据作为该文字的最小外接矩形,矩形左上角顶点坐标为(x,y),右下角顶点坐标为(end_x,endy)。
5.根据权利要求1所述的一种高效的电力信号描述模型训练方法,其特征在于:该方法还包括训练文件的合并方法,该方法包括以下步骤:
1)选择已进行人工标记且已生成.box文本文件和后缀为.GIF的图片文件;
2)设置各个文件的训练参数,包括训练用语言和页面模式参数,默认为中文训练语言;
3)根据选择的文件名称和需生成的模型名称,对后缀为tif的图片文件和box文件自动进行命名,形成符合规范的训练文件,后缀为.GIF的图片文件规范命名如下:
模型名称power.字体名称font.序号名称exp0.格式名称tif;
对应的后缀为.box的文本文件规范命名如下:
模型名称power.字体名称font.序号名称exp0.格式名称box;
4)根据所有后缀为.GIF的图片文件名称,将名称第一个“.”和第二个“.”间的名称作为字体名称,每个字体为一行,按以下格式写入文件名为font_properties的文本文件中;
font 0 0 0 0 0
5)调用tesseract命令为每一个后缀为.GIF的文件生成一个后缀为.tr的文本文件,命令如下:
tesseract power.font.exp0.GIF power.font.exp0–psm 6nobatch box.train
6)将所有后缀为.box的文本文件名称组合成按空格分隔的字符串,作为unicharset_extractor命令的参数,调用并执行unicharset_extractor命令;将所有后缀为.tr的文本文件名称组合成按空格分隔的字符串,作为shapeclustering、mftraining和cntraing命令的参数,调用并执行shapeclustering、mftraining和cntraing命令;
7)最后调用tesseract的combine_tessdata命令,生成.traineddata文件,即为最终合并的文字模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638424.2A CN113159086B (zh) | 2020-12-31 | 2020-12-31 | 一种高效的电力信号描述模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638424.2A CN113159086B (zh) | 2020-12-31 | 2020-12-31 | 一种高效的电力信号描述模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159086A CN113159086A (zh) | 2021-07-23 |
CN113159086B true CN113159086B (zh) | 2024-04-30 |
Family
ID=76878540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011638424.2A Active CN113159086B (zh) | 2020-12-31 | 2020-12-31 | 一种高效的电力信号描述模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159086B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942314A (zh) * | 2014-04-22 | 2014-07-23 | 重庆市科学技术研究院 | 一种html文件图文混排显示方法 |
CN108133212A (zh) * | 2018-01-05 | 2018-06-08 | 东华大学 | 一种基于深度学习的定额发票金额识别系统 |
CN109583493A (zh) * | 2018-11-27 | 2019-04-05 | 上海交通大学 | 一种基于深度学习的信用卡检测和数字识别方法 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110135414A (zh) * | 2019-05-16 | 2019-08-16 | 京北方信息技术股份有限公司 | 语料库更新方法、装置、存储介质及终端 |
CN110210488A (zh) * | 2019-06-14 | 2019-09-06 | 上海中通吉网络技术有限公司 | 一种快递运单上条形码和手机号的识别方法和装置 |
CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
CN110826393A (zh) * | 2019-09-17 | 2020-02-21 | 中国地质大学(武汉) | 高效的钻孔柱状图信息自动提取方法 |
CN111523537A (zh) * | 2020-04-13 | 2020-08-11 | 联讯益康医疗信息技术(武汉)有限公司 | 一种文字识别方法、存储介质及系统 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
WO2020248513A1 (zh) * | 2019-06-11 | 2020-12-17 | 苏州玖物互通智能科技有限公司 | 用于综合性能试验的ocr识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191889B2 (en) * | 2014-07-29 | 2019-01-29 | Board Of Regents, The University Of Texas System | Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation |
-
2020
- 2020-12-31 CN CN202011638424.2A patent/CN113159086B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942314A (zh) * | 2014-04-22 | 2014-07-23 | 重庆市科学技术研究院 | 一种html文件图文混排显示方法 |
CN108133212A (zh) * | 2018-01-05 | 2018-06-08 | 东华大学 | 一种基于深度学习的定额发票金额识别系统 |
CN109583493A (zh) * | 2018-11-27 | 2019-04-05 | 上海交通大学 | 一种基于深度学习的信用卡检测和数字识别方法 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110135414A (zh) * | 2019-05-16 | 2019-08-16 | 京北方信息技术股份有限公司 | 语料库更新方法、装置、存储介质及终端 |
WO2020248513A1 (zh) * | 2019-06-11 | 2020-12-17 | 苏州玖物互通智能科技有限公司 | 用于综合性能试验的ocr识别方法 |
CN110210488A (zh) * | 2019-06-14 | 2019-09-06 | 上海中通吉网络技术有限公司 | 一种快递运单上条形码和手机号的识别方法和装置 |
CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
CN110826393A (zh) * | 2019-09-17 | 2020-02-21 | 中国地质大学(武汉) | 高效的钻孔柱状图信息自动提取方法 |
CN111523537A (zh) * | 2020-04-13 | 2020-08-11 | 联讯益康医疗信息技术(武汉)有限公司 | 一种文字识别方法、存储介质及系统 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
Non-Patent Citations (4)
Title |
---|
Odia Characters Recognition by Training Tesseract OCR Engine;Mamata Nayak等;International Conference in Distributed Computing & Internet Technology;第25-30页 * |
基于Opencv和Tesseract的行驶证识别系统设计;张伟超等;齐鲁工业大学学报;第34卷(第1期);第47-52页 * |
基于Tesseract-ocr的藏文脱机识别;翟娟秀等;科技创业月刊(第21期);第130-131页 * |
基于Tesseract引擎样本训练的验证码识别;潘浩等;信息与电脑(理论版);第32卷(第1期);第138-139+142页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113159086A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100356372C (zh) | 计算机版式文件生成方法和打开方法 | |
KR860001071B1 (ko) | 문서편집(文書編輯)방법 | |
EP0475734B1 (en) | Document processing apparatus | |
US6208744B1 (en) | Document image processor and method for setting a document format conforming to a document image | |
CN109933324B (zh) | 一种核电dcs人机界面自动生成方法 | |
JP2005044279A (ja) | 帳票処理方法、帳票処理プログラム、帳票処理装置 | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN113159086B (zh) | 一种高效的电力信号描述模型训练方法 | |
JP2022092119A (ja) | 画像処理装置、画像処理方法およびプログラム | |
CN112686319A (zh) | 一种电力信号模型训练文件的合并方法 | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JPH0612540B2 (ja) | 文書作成支援装置 | |
US5878194A (en) | Method and device for outputting multicolor document | |
JPH05108716A (ja) | 機械翻訳装置 | |
JP2681627B2 (ja) | 文書作成編集装置 | |
CN101464782B (zh) | 版面描述信息的转换方法及应用版面描述的装置 | |
JP2001094760A (ja) | 情報処理装置 | |
JP2001312691A (ja) | 画像処理方法および装置並びに記憶媒体 | |
JPH0782530B2 (ja) | 手書き文字認識装置 | |
JPH0346020A (ja) | 情報処理装置 | |
JP2682873B2 (ja) | 表形式文書の認識装置 | |
Suenaga | Some techniques for document and image preparation | |
JPS62190565A (ja) | 手書き図形清書装置 | |
JPH09245099A (ja) | 帳票作成装置 | |
CN116682117A (zh) | 一种古籍文献识别方法、系统、终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |