CN117542056A - 图文数据生成文本的方法、装置、存储介质及处理器 - Google Patents

图文数据生成文本的方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN117542056A
CN117542056A CN202311502067.0A CN202311502067A CN117542056A CN 117542056 A CN117542056 A CN 117542056A CN 202311502067 A CN202311502067 A CN 202311502067A CN 117542056 A CN117542056 A CN 117542056A
Authority
CN
China
Prior art keywords
text
extracted
picture
word segmentation
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311502067.0A
Other languages
English (en)
Inventor
尹志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202311502067.0A priority Critical patent/CN117542056A/zh
Publication of CN117542056A publication Critical patent/CN117542056A/zh
Pending legal-status Critical Current

Links

Abstract

本申请实施例提供一种图文数据生成文本的方法、装置、处理器及存储介质。方法包括:获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;根据预定义的样式,将经校验的提取文本编排为可输出的文本。通过该方法能够将原始素材或原始文档为图片格式转换为符合存档要求的原始档案文本,并可用于输出数字化、结构化的原始档案文件。

Description

图文数据生成文本的方法、装置、存储介质及处理器
技术领域
本申请涉及计算机技术领域,具体涉及一种图文数据生成文本的方法、装置、存储介质及处理器。
背景技术
文本识别技术,即OCR(Optical Character Recognition)是一种成熟的技术,在档案数字化领域已经得到广泛应用。档案数字化通常是将实体档案先转化为图片,然后识别图片中的文字,并将识别出的文字按照实体档案相同的样式进行排版,以使得最终得到的数字化档案文件最大程度上与实体档案相一致。然而,一方面随着办公数字化和智能化程度提高,很多原始文档并不再以实体档案形式出现;另一方面,数字文档安全技术也在不断提高,从而使得数字化的原始文档也具有了较高的安全性和可靠性。因此,在实际应用中需要将图文数据混编生成数字化、结构化的原始档案文件。
发明内容
本申请实施例的目的是提供一种图文数据生成文本的方法、装置、存储介质及处理器。
为了实现上述目的,本申请第一方面提供一种图文数据生成文本的方法,包括:
获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;
通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;以及
根据预定义的样式,将经校验的提取文本编排为可输出的文本。
在本申请实施例中,该图文数据生成文本的方法,进一步包括:将可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。
优选的,可输出的文本还包括初始文本,初始文本为:已有文档中的文本数据、新建文档时被写入的文本数据、和/或经由输入设备输入的文本数据。
可选的,预定格式为以下中的一者或多者:
TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件。
可选的,预定义的样式包括以下中的一者或多者:
字体、字号、颜色、和/或背景色的文本展示形式;
分栏、分段、和/或表格的文本排布形式;及
阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
优选的,获取要提取文本的图片,并通过预先训练好的字符库提取所述图片中的每个字符,从而得到符合所述图片内容的提取文本,包括:
预处理所述图片,使得所述图片中的文字内容与背景图像分离;
从经预处理的图片中提取笔画图像,并进行二值化和降噪处理;
将去噪后的二值图像切分为一组子图,其中每个子图中包括一个或半个字符;及
将每个子图与字符库内的字符进行匹配,从匹配结果中选择与子图匹配度最高的字符,
其中,字符为汉字、字母、数字、标点符号、及特殊符号。
进一步的,在从匹配结果中选择与子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验。
可选的,在将每个子图与字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
可选的,通过预先训练好的分词模型校验提取文本,以提高所述提取文本的语句连贯性和语法正确性,包括:
根据训练数据集对所述分词模型进行训练,其中,所述训练数据集中包括文本数据和对应的语音片段数据,所述分词模型包括:输入层、编码层、全连接层、Bert模型、Softmax层和输出层;
将提取文本与分词模型进行比对,判断提取文本是否符合上下文连贯性标准和/或语法标准;及
若判断结果为否,则根据分词模型的推荐,将不符合的文本部分替换为分词模型推荐的文本。
可选的,根据预定义的样式,将经校验的提取文本编排为可输出的文本,包括:
根据归档需求,在可输出的文本加入必要的标记或标签,得到初步的文档文本;
对所述文档文本进行样式修正处理,以得到符合存档要求的可输出的文本,
其中,所述样式修正处理为对所述标记或标签进行以下处理:过滤、替换、归类、和/或访问处理。
本申请第二方面提供一种图文数据生成文本的装置,包括:识别模块,获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;
校验模块,通过预先训练好的分词模型校验提取文本,以提高提取文本的语句连贯性和语法正确性;以及
编排输出模块,根据预定义的样式将经校验的提取文本编排为可输出的文本。
在本申请实施例中,该图文数据生成文本的装置还包括:输出模块,将可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。
优选的,可输出的文本还包括初始文本,初始文本为:已有文档中的文本数据、新建文档时被写入的文本数据、和/或经由输入设备输入的文本数据。
可选的,识别模块中,获取要提取文本的图片,并通过预先训练好的字符库提取所述图片中的每个字符,从而得到符合所述图片内容的提取文本,包括:
预处理所述图片,使得所述图片中的文字内容与背景图像分离;
从经预处理的图片中提取笔画图像,并进行二值化和降噪处理;
将去噪后的二值图像切分为一组子图,其中每个子图中包括一个或半个字符;及
将每个子图与字符库内的字符进行匹配,从匹配结果中选择与子图匹配度最高的字符,
其中,字符为汉字、字母、数字、标点符号、及特殊符号。
进一步的,在从匹配结果中选择与子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验,且在将每个子图与所述字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
可选的,校验模块中,通过预先训练好的分词模型校验提取文本,以提高所述提取文本的语句连贯性和语法正确性,包括:
根据训练数据集对所述分词模型进行训练,其中,所述训练数据集中包括文本数据和对应的语音片段数据,所述分词模型包括:输入层、编码层、全连接层、Bert模型、Softmax层和输出层;
将提取文本与分词模型进行比对,判断提取文本是否符合上下文连贯性标准和/或语法标准;及
若判断结果为否,则根据分词模型的推荐,将不符合的文本部分替换为分词模型推荐的文本。
编排输出模块中,根据预定义的样式将经校验的提取文本编排为可输出的文本,包括:
根据归档需求,在可输出的文本加入必要的标记或标签,得到初步的文档文本;
对所述文档文本进行样式修正处理,以得到符合存档要求的可输出的文本,
其中,所述样式修正处理为对所述标记或标签进行以下处理:过滤、替换、归类、和/或访问处理。
本申请第三方面提供一种处理器,被配置为执行上述的图文数据生成文本的方法。
本申请第四方面提供一种电子设备,该电子设备包括处理器,以及与处理器通信连接的存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,以实现上述的图文数据生成文本的方法。
本申请第五方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置为执行上述的图文数据生成文本的方法。
本申请第六方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述的图文数据生成文本的方法。
通过上述技术方案,在处理要存档的文本信息时,若得到的原始素材或原始文档为图片格式,则先通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;然后通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;最后根据预定义的样式,将经校验的提取文本编排为可输出的文本,从而得到符合存档要求的原始档案文本,并可用于输出数字化、结构化的原始档案文件。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了根据本申请实施例的图文数据生成文本的方法的应用环境示意图;
图2A和2B分别示意性示出了根据本申请实施例的图文数据生成文本的方法的不同流程的示意图;
图3示意性示出了根据本申请实施例的图文数据生成文本的装置的结构框图;及
图4示意性示出了根据本申请实施例的计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供的图文数据生成文本的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。图文数据生成文本的方法可以由服务器104执行,要提取文本的图片可以是终端102主动传输给服务器104,也可以是终端102响应于服务器104获取图片的指令传输给服务器104。要提取文本的图片可以是终端102通过输入设备(例如摄像头)或外部存储设备(例如云盘或U盘)获取到的,经服务器104提取并校验、编排后得到的文本可输出到终端102展示。进一步的,在终端102还可以通过交互设备,例如键盘、鼠标等外设,进一步编辑所得的文本并将编辑后的文本回传给服务器104保存。进一步的,服务器104还将收到的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2A示意性示出了根据本申请实施例的图文数据生成文本的方法的流程示意图。如图2A所示,在本申请一实施例中,提供了一种图文数据生成文本的方法,本实施例主要以该方法应用于上述图1中的终端102(或服务器104)来举例说明,包括以下步骤:
步骤201,获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本。
在提取图片中的字符之前,通常需要先对图片进行预处理,并使得图片中的文字内容与背景图像分离。例如,图文分离可以是:基于笔画的双边模型,描述字符中笔画的局部特征,应用于不同复杂背景下从图片中提取手写或印刷字体的文本。再如,图文分离的方法,还可以是全局阈值法、局部阈值法、基于特征方法、颜色聚类方法、笔画建模方法等等。
在本实施例中,步骤201还可以包括以下具体实施过程:
提取预设宽度范围内的文本笔画,从原始文本图像中提取笔画图像;
对所提取出的笔画图像选取两级阈值,得到相应的低阈值二值图像和高阈值二值图像;扫描高阈值二值图像中的像素,当扫描到笔画对应的像素时,将低阈值二值图像中对应位置的像素作为种子点;在低阈值二值图像中,从该种子点开始寻找连通分量;循环执行上述步骤,当对高阈值二值图像中的像素都扫描完后,从低阈值二值图像中提取出的连通分量即为转换后的二值图像;
将上述二值图像进行去噪处理,并将去噪后的二值图像切分为若干子图,其中每个包含一个或半个字符,例如,若初步识别到该字符为英文字母或者数字等字符时,一个子图可以对应一个字符,若初步识别到该字符为汉字,特别是上下结构或左右结构的汉字时,一个子图可以对应左/右/上/下的半个字符;
通过预先训练好的字符库逐一与子图进行比对,确定每个子图中包括的字符(或字符的左/右/上/下的部首),直到所有的字符均识别完毕,其中,若某子图被识别为字符的左/右/上/下的部首,则根据相邻的另一半子图识别出的相应右/左/下/上的部首确定完整的字符。
步骤202,通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性。
分词模型可以是通过人工标注+神经网络算法进行训练得到的,还可以进一步结合自然语言处理(Natural Language Processing,NLP)技术,利用大量的语音数据进行训练,基于语音特征挖掘新词汇,并结合说话方式的连贯性和语法结构特点,对收集到的语音文本数据集进行分词,提高分词模型在语句连贯性和语法正确性。
在本实施例中,步骤202还可以包括以下具体实施过程:
读取训练数据集中的每个文本数据对应语音片段数据的频域特征矩阵;
利用编码层对读取到的频域特征矩阵进行编码,输出对应的语音编码向量;
基于预设的字典,将文本数据转换为文字编码向量;
将语音编码向量和文字编码向量进行纵向拼接,得到输入向量;
采用全连接层对输入向量进行维度转换;
将转换后的向量输入Bert模型进行分析,获得输出矩阵H;
将输出矩阵中的向量经过一个全连接层后,得到预测向量;
利用softmax将预测向量映射到对应每个类别的概率向量,并输出对应的类别;
计算输出值与真实值之间的损失函数,并通过反向传播的方式优化模型参数;
利用训练完的分词模型对步骤201提取的文本数据进行分析。
步骤203,根据预定义的样式,将经校验的提取文本编排为可输出的文本。
通过上述步骤,在处理要存档的文本信息时,若得到的原始素材或原始文档为图片格式,则先通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;然后通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;最后根据预定义的样式,将经校验的提取文本编排为可输出的文本,从而得到符合存档要求的原始档案文本,并可用于输出数字化、结构化的原始档案文件。
需要说明的是,根据归档的实际需求,需要在可输出的文本加入必要的标记或标签,例如,当归档要求为html文档时,先调用html文档生成工具,得到初步的html文档;然后对html文档进行样式修正处理,例如,无用标签的滤除处理、标签替换处理、标签归类处理以及图片标签的访问处理等,以使转换后的文档,能够符合预定义的文本样式要求。其中,样式修正处理过程可以但不限于如下述步骤:
对html文档进行标签过滤处理,以滤除html文档中的无用标签,得到预处理后的html文档,例如,使用无用标签库(该无用标签库预先存储至文档转换端,且包含有若干无用样本标签),并结合正则表达式,来对html文档中的各个标签进行过滤处理,从而在无用标签滤除后,得到预处理后的html文档;
对html文档进行标签替换处理,得到标签替换文档,且使转换后的html文档中具有与原文档相同标签名的同时,保证各个标签的属性无变化,
其中,无用标签可以但不限于:注释、空行、空格、空标签、重复连续标签、批注、无用样式和隐藏的标签等。
根据归档的实际需求,可输出的文本还可能用于TXT、DOC、HLP、WPS、RTF等不同格式的输出,此处不再一一举例说明。
在一个实施例中,为生成数字化、结构化的原始档案文件,进一步将步骤203得到的可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。预定格式为以下中的一者或多者:TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件。
在一个实施例中,步骤203中的可输出的文本进一步包括初始文本,该初始文本例如为预定义样式的空白公文、介绍信等模板文件中包含的文本数据,该文本数据为从已预制的模板文档中的文本数据、创建空白文档后编写的文本数据、和/或经由输入设备导入或拷贝来的文本数据。
在一个实施例中,步骤203中预定义的样式包括以下中的一者或多者:字体、字号、颜色、和/或背景色的文本展示形式;分栏、分段、和/或表格的文本排布形式;阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
图2为一个实施例中图文数据生成文本的方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。其中一个包括多个子步骤的实施流程如图2B所示,在图2A及上述实施例的基础上包括以下子步骤:
在一个实施例中,步骤201包括以下子步骤:
步骤2011:获取要提取文本的图片,将图片处理为一组子图,其中每个子图中包括一个或半个字符;
步骤2012:将每个子图与字符库内的字符进行匹配,从匹配结果中选择与子图匹配度最高的字符,从而得到符合图片内容的提取文本,其中,字符为汉字、字母、数字、标点符号、及特殊符号。
进一步的,在步骤2012中,在从匹配结果中选择与子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验。
在一个实施例中,在步骤2012中,在将每个子图与字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
在一个实施例中,步骤202中包括以下子步骤:
步骤2021:将提取文本与分词模型进行比对,判断提取文本是否符合上下文连贯性标准和/或语法标准;
步骤2022:若判断结果为否,则根据分词模型的推荐,将不符合的文本部分替换为分词模型推荐的文本。
为进一步说明本实施例,现结合一具体应用场景介绍一个实施例的具体实施步骤,该应用场景为制作编辑一个软件项目文档的需求文档,该文档由多人提供图文素材,其中图片为项目需求会议及项目小组会议等多种情况下产生的文本和图片形式的会议纪要或技术资料,并由至少一人进行汇总,汇总过程包括创建文档和多次补充、编辑已有的文档。在编写该需求文档的过程中,每次编写都可以采用本申请的图文数据生成文本的方法的流程步骤,具体的可以是:
1、打开文档系统,创建新的文档,或打开已有的文档;
2、在文档内选择插入图片功能,选择需要提取文字的图片,将图片插入到文档内合适的位置;
3、对图片进行预处理,将图片中的元素与已训练好的字符库内的字符进行匹配,以提取符合字符库内的元素特征的文本,其中,对于同一行字符间有空白字符的情况,默认忽略此元素,以保证字符的连贯性,对于跨行间有空白字符的情况,也默认忽略此元素,保证每行字符的连续性和行间距一致性,不受空白字符的影响;
4、对于模糊无法准确识别的文字,通过字符的形状以及与前后文字组成的语义进行模糊匹配,选取匹配度最高的字符并标记该字符;
5、识别并标记图片内各个字符的位置、排序和样式(大小、字体、颜色等样式),并识别标记标点符号以定位句子、段落的排布位置。具体的,可以标记标点符号前后相邻的第一个字符(包括但不限于文字、字母和特殊字符),若标点符号前后相邻的第一个字符存在相同的情况下,则继续对第二个字符进行标记,以此类推直到出现标记的唯一性为止;
6、根据上述步骤5中标记的位置、排序和样式,编排识别到的文本,以使得文本样式与图片内的文本样式一致;
7、对步骤6得到的文本内容进行二次检验,与已训练好的分词模型库进行比对,尤其是已进行标记的模糊匹配识别后的文字,判断其是否符合分词模型内的标准,如前后语句的连贯性,与前后文字的语句是否符合模型标准,若不符合分词模型内数据标准,则根据分词模型内的数据,自动更换为数据库内的正确文本,保证文字的正确性,和语句的连贯性
8、根据预定义的样式规则编排步骤7得到的文本,以使得文本样式符合文档设计要求;
9、对步骤8得到的文本进行下一步操作,如展示、复制、共享、归档、或者打印等。
在一个实施例中,如图3所示,提供了一种图文数据生成文本的装置300,包括识别模块301、校验模块302、和编排输出模块303,其中:
识别模块301,用于获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本。
校验模块302,用于通过预先训练好的分词模型校验提取文本,以提高提取文本的语句连贯性和语法正确性。
编排输出模块303,用于根据预定义的样式将经校验的提取文本编排为可输出的文本。
在一个实施例中,该图文数据生成文本的装置300还包括输出模块304,将可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。预定格式为以下中的一者或多者:TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件。
在一个实施例中,识别模块301中,通过预先训练好的字符库提取图片中的每个字符,包括:将图片处理为一组子图,其中每个子图中包括一个或半个字符;将每个子图与字符库内的字符进行匹配,从匹配结果中选择与子图匹配度最高的字符,其中,字符为汉字、字母、数字、标点符号、及特殊符号。
进一步的,识别模块301中,在从匹配结果中选择与子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验。
在一个实施例中,校验模块302中,通过预先训练好的分词模型校验提取文本,包括:将提取文本与分词模型进行比对,判断提取文本是否符合上下文连贯性标准和/或语法标准;若判断结果为否,则根据分词模型的推荐,将不符合的文本部分替换为分词模型推荐的文本。
在一个实施例中,编排输出模块303中可输出的文本还包括初始文本,该初始文本例如为预定义样式的空白公文、介绍信等模板文件中包含的文本数据,该文本数据为从已预制的模板文档中的文本数据、创建空白文档后编写的文本数据、和/或经由输入设备导入或拷贝来的文本数据。
在一个实施例中,编排输出模块303中预定义的样式包括以下中的一者或多者:字体、字号、颜色、和/或背景色的文本展示形式;分栏、分段、和/或表格的文本排布形式;阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
所述图文数据生成文本的装置包括处理器和存储器,上述识别模块、校验模块、和编排输出模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现图文数据生成文本的方法。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述图文数据生成文本的方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述图文数据生成文本的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图Y所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现一种图文数据生成文本的方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的图文数据生成文本的装置可以实现为一种计算机程序的形式,计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该图文数据生成文本的装置的各个程序模块,比如,图3所示的识别模块、校验模块、和编排输出模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图文数据生成文本的方法中的步骤。
图4所示的计算机设备可以通过如图3所示的图文数据生成文本的装置中的识别模块301执行图2中的步骤201。计算机设备可通过校验模块302执行图2中的步骤202。计算机设备可通过编排输出模块303执行图2中的步骤203。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
步骤201,获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;
步骤202,通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;
步骤203,根据预定义的样式,将经校验的提取文本编排为可输出的文本。
通过上述步骤,在处理要存档的文本信息时,若得到的原始素材或原始文档为图片格式,则先通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;然后通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;最后根据预定义的样式,将经校验的提取文本编排为可输出的文本,从而得到符合存档要求的原始档案文本,并可用于输出数字化、结构化的原始档案文件。
在一个实施例中,步骤201包括以下子步骤:
步骤2011:获取要提取文本的图片,将图片处理为一组子图,其中每个子图中包括一个或半个字符;
步骤2012:将每个子图与字符库内的字符进行匹配,从匹配结果中选择与子图匹配度最高的字符,从而得到符合图片内容的提取文本,其中,字符为汉字、字母、数字、标点符号、及特殊符号。
进一步的,在步骤2012中,在从匹配结果中选择与子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验。
在一个实施例中,在步骤2012中,在将每个子图与字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
在一个实施例中,步骤202包括以下子步骤:
步骤2021:将提取文本与分词模型进行比对,判断提取文本是否符合上下文连贯性标准和/或语法标准;
步骤2022:若判断结果为否,则根据分词模型的推荐,将不符合的文本部分替换为分词模型推荐的文本。
在一个实施例中,为生成数字化、结构化的原始档案文件,进一步将步骤203得到的可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。预定格式为以下中的一者或多者:TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件。
在一个实施例中,步骤203中的可输出的文本进一步包括初始文本,该初始文本例如为预定义样式的空白公文、介绍信等模板文件中包含的文本数据,该文本数据为从已预制的模板文档中的文本数据、创建空白文档后编写的文本数据、和/或经由输入设备导入或拷贝来的文本数据。
在一个实施例中,步骤203中预定义的样式包括以下中的一者或多者:字体、字号、颜色、和/或背景色的文本展示形式;分栏、分段、和/或表格的文本排布形式;阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:步骤201,获取要提取文本的图片,并通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;
步骤202,通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;
步骤203,根据预定义的样式,将经校验的提取文本编排为可输出的文本。
通过上述步骤,在处理要存档的文本信息时,若得到的原始素材或原始文档为图片格式,则先通过预先训练好的字符库提取图片中的每个字符,从而得到符合图片内容的提取文本;然后通过预先训练好的分词模型,校验提取文本,以提高提取文本的语句连贯性和语法正确性;最后根据预定义的样式,将经校验的提取文本编排为可输出的文本,从而得到符合存档要求的原始档案文本,并可用于输出数字化、结构化的原始档案文件。
在一个实施例中,步骤201包括以下子步骤:
步骤2011:获取要提取文本的图片,将图片处理为一组子图,其中每个子图中包括一个或半个字符;
步骤2012:将每个子图与字符库内的字符进行匹配,从匹配结果中选择与子图匹配度最高的字符,从而得到符合图片内容的提取文本,其中,字符为汉字、字母、数字、标点符号、及特殊符号。
进一步的,在步骤2012中,在从匹配结果中选择与子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验。
在一个实施例中,在步骤2012中,在将每个子图与字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
在一个实施例中,步骤202包括以下子步骤:
步骤2021:将提取文本与分词模型进行比对,判断提取文本是否符合上下文连贯性标准和/或语法标准;
步骤2022:若判断结果为否,则根据分词模型的推荐,将不符合的文本部分替换为分词模型推荐的文本。
在一个实施例中,为生成数字化、结构化的原始档案文件,进一步将步骤203得到的可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。预定格式为以下中的一者或多者:TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件。
在一个实施例中,步骤203中的可输出的文本进一步包括初始文本,该初始文本例如为预定义样式的空白公文、介绍信等模板文件中包含的文本数据,该文本数据为从已预制的模板文档中的文本数据、创建空白文档后编写的文本数据、和/或经由输入设备导入或拷贝来的文本数据。
在一个实施例中,步骤203中预定义的样式包括以下中的一者或多者:字体、字号、颜色、和/或背景色的文本展示形式;分栏、分段、和/或表格的文本排布形式;阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种图文数据生成文本的方法,包括:
获取要提取文本的图片,并通过预先训练好的字符库提取所述图片中的每个字符,从而得到符合所述图片内容的提取文本;
通过预先训练好的分词模型,校验所述提取文本,以提高所述提取文本的语句连贯性和语法正确性;以及
根据预定义的样式,将经校验的提取文本编排为可输出的文本。
2.根据权利要求1所述的图文数据生成文本的方法,进一步包括:
将所述可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。
3.根据权利要求2所述的图文数据生成文本的方法,其特征在于,
所述可输出的文本还包括初始文本,所述初始文本为:已有文档中的文本数据、新建文档时被写入的文本数据、和/或经由输入设备输入的文本数据;
所述预定格式为以下中的一者或多者:TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件;及
所述预定义的样式包括以下中的一者或多者:字体、字号、颜色、和/或背景色的文本展示形式;分栏、分段、和/或表格的文本排布形式;及阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
4.根据权利要求1所述的图文数据生成文本的方法,其特征在于,所述获取要提取文本的图片,并通过预先训练好的字符库提取所述图片中的每个字符,从而得到符合所述图片内容的提取文本,包括:
预处理所述图片,使得所述图片中的文字内容与背景图像分离;
从经预处理的图片中提取笔画图像,并进行二值化和降噪处理;
将去噪后的二值图像切分为一组子图,其中每个子图中包括一个或半个字符;及
将每个子图与所述字符库内的字符进行匹配,从匹配结果中选择与所述子图匹配度最高的字符,
其中,所述字符为汉字、字母、数字、标点符号、及特殊符号。
5.根据权利要求4所述的图文数据生成文本的方法,其特征在于,在从匹配结果中选择与所述子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验所述提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验,且在将每个子图与所述字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
6.根据权利要求1所述的图文数据生成文本的方法,其特征在于,所述通过预先训练好的分词模型,校验所述提取文本,以提高所述提取文本的语句连贯性和语法正确性,包括:
根据训练数据集对所述分词模型进行训练,其中,所述训练数据集中包括文本数据和对应的语音片段数据,所述分词模型包括:输入层、编码层、全连接层、Bert模型、Softmax层和输出层;
将所述提取文本与所述分词模型进行比对,判断所述提取文本是否符合上下文连贯性标准和/或语法标准;及
若判断结果为否,则根据所述分词模型的推荐,将不符合的文本部分替换为所述分词模型推荐的文本。
7.根据权利要求1所述的图文数据生成文本的方法,其特征在于,所述根据预定义的样式,将经校验的提取文本编排为可输出的文本,包括:
根据归档需求,在可输出的文本加入必要的标记或标签,得到初步的文档文本;
对所述文档文本进行样式修正处理,以得到符合存档要求的可输出的文本,
其中,所述样式修正处理为对所述标记或标签进行以下处理:过滤、替换、归类、和/或访问处理。
8.一种图文数据生成文本的装置,其特征在于,包括:
识别模块,获取要提取文本的图片,并通过预先训练好的字符库提取所述图片中的每个字符,从而得到符合所述图片内容的提取文本;
校验模块,通过预先训练好的分词模型校验所述提取文本,以提高所述提取文本的语句连贯性和语法正确性;以及
编排输出模块,根据预定义的样式将经校验的提取文本编排为可输出的文本。
9.根据权利要求8所述的图文数据生成文本的装置,其特征在于,还包括:输出模块,将所述可输出的文本转换为预定格式的文档,以供展示、复制、共享、或者打印。
10.根据权利要求9所述的图文数据生成文本的装置,其特征在于,
所述可输出的文本还包括初始文本,所述初始文本为:已有文档中的文本数据、新建文档时被写入的文本数据、和/或经由输入设备输入的文本数据;
所述预定格式为以下中的一者或多者:TXT、DOC、HLP、WPS、RTF、HTML、PDF、压缩文件、图形文件、声音文件、映像文件、系统文件、备份文件、以及批处理文件;及
所述预定义的样式包括以下中的一者或多者:字体、字号、颜色、和/或背景色的文本展示形式;分栏、分段、和/或表格的文本排布形式;及阴影、虚实、边框、轮廓、和/或三维的文本展示效果。
11.根据权利要求10所述的图文数据生成文本的装置,其特征在于,所述识别模块中,所述获取要提取文本的图片,并通过预先训练好的字符库提取所述图片中的每个字符,从而得到符合所述图片内容的提取文本,包括:
预处理所述图片,使得所述图片中的文字内容与背景图像分离;
从经预处理的图片中提取笔画图像,并进行二值化和降噪处理;
将去噪后的二值图像切分为一组子图,其中每个子图中包括一个或半个字符;及
将每个子图与所述字符库内的字符进行匹配,从匹配结果中选择与所述子图匹配度最高的字符,
其中,所述字符为汉字、字母、数字、标点符号、及特殊符号。
12.根据权利要求11所述的图文数据生成文本的装置,其特征在于,在从匹配结果中选择与所述子图匹配度最高的字符时,标记匹配度低于预设阈值的字符,并在通过预先训练好的分词模型校验所述提取文本时,针对被标记为匹配度低于预设阈值的字符进行迭代校验,且在将每个子图与所述字符库内的字符进行匹配时,还删除被识别为空白字符的子图。
13.根据权利要求8所述的图文数据生成文本的装置,其特征在于,所述校验模块中,所述通过预先训练好的分词模型校验所述提取文本,以提高所述提取文本的语句连贯性和语法正确性,包括:
根据训练数据集对所述分词模型进行训练,其中,所述训练数据集中包括文本数据和对应的语音片段数据,所述分词模型包括:输入层、编码层、全连接层、Bert模型、Softmax层和输出层;
将所述提取文本与所述分词模型进行比对,判断所述提取文本是否符合上下文连贯性标准和/或语法标准;及
若判断结果为否,则根据所述分词模型的推荐,将不符合的文本部分替换为所述分词模型推荐的文本。
14.根据权利要求8所述的图文数据生成文本的装置,其特征在于,所述编排输出模块中,所述根据预定义的样式将经校验的提取文本编排为可输出的文本,包括:
根据归档需求,在可输出的文本加入必要的标记或标签,得到初步的文档文本;
对所述文档文本进行样式修正处理,以得到符合存档要求的可输出的文本,
其中,所述样式修正处理为对所述标记或标签进行以下处理:过滤、替换、归类、和/或访问处理。
15.一种处理器,其特征在于,被配置成执行根据权利要求1-7中任意一项所述的图文数据生成文本的方法。
16.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-7中任一项所述的图文数据生成文本的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的图文数据生成文本的方法。
18.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的图文数据生成文本的方法。
CN202311502067.0A 2023-11-10 2023-11-10 图文数据生成文本的方法、装置、存储介质及处理器 Pending CN117542056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311502067.0A CN117542056A (zh) 2023-11-10 2023-11-10 图文数据生成文本的方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311502067.0A CN117542056A (zh) 2023-11-10 2023-11-10 图文数据生成文本的方法、装置、存储介质及处理器

Publications (1)

Publication Number Publication Date
CN117542056A true CN117542056A (zh) 2024-02-09

Family

ID=89793169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311502067.0A Pending CN117542056A (zh) 2023-11-10 2023-11-10 图文数据生成文本的方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN117542056A (zh)

Similar Documents

Publication Publication Date Title
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US11314969B2 (en) Semantic page segmentation of vector graphics documents
US8634644B2 (en) System and method for identifying pictures in documents
US10915788B2 (en) Optical character recognition using end-to-end deep learning
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
US8209600B1 (en) Method and apparatus for generating layout-preserved text
EP0544432A2 (en) Method and apparatus for document processing
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
KR101377601B1 (ko) 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법
CN114596566B (zh) 文本识别方法及相关装置
CN111401099A (zh) 文本识别方法、装置以及存储介质
Elanwar et al. Extracting text from scanned Arabic books: a large-scale benchmark dataset and a fine-tuned Faster-R-CNN model
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
Kumar et al. Lipi Gnani: a versatile OCR for documents in any language printed in Kannada script
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
JP5353325B2 (ja) 文書データ生成装置と文書データ生成方法
Memon et al. Glyph identification and character recognition for Sindhi OCR
JP2013152564A (ja) 文書処理装置及び文書処理方法
Kumar et al. Line based robust script identification for indianlanguages
CN116324910A (zh) 用于执行设备上图像到文本转换的方法和系统
CN117542056A (zh) 图文数据生成文本的方法、装置、存储介质及处理器
KR102646428B1 (ko) 인공지능 학습 모델을 이용한 유사 글자 추출 방법 및 장치
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
Rai et al. MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination