CN117472257B - 一种基于ai算法的自动转正楷的方法及系统 - Google Patents

一种基于ai算法的自动转正楷的方法及系统 Download PDF

Info

Publication number
CN117472257B
CN117472257B CN202311823687.4A CN202311823687A CN117472257B CN 117472257 B CN117472257 B CN 117472257B CN 202311823687 A CN202311823687 A CN 202311823687A CN 117472257 B CN117472257 B CN 117472257B
Authority
CN
China
Prior art keywords
data
adopting
image
text
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311823687.4A
Other languages
English (en)
Other versions
CN117472257A (zh
Inventor
曾云飞
唐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Deyuan Technology Co ltd
Original Assignee
Guangdong Deyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Deyuan Technology Co ltd filed Critical Guangdong Deyuan Technology Co ltd
Priority to CN202311823687.4A priority Critical patent/CN117472257B/zh
Publication of CN117472257A publication Critical patent/CN117472257A/zh
Application granted granted Critical
Publication of CN117472257B publication Critical patent/CN117472257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及计算机视觉技术领域,具体为一种基于AI算法的自动转正楷的方法及系统,包括以下步骤:基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像;本发明中,通过自适应笔迹识别技术,能够适应并识别不同用户的个性化书写风格,提升了识别准确性,个性化手写修正与学习不仅提供自动转正楷的功能,还能根据个人书写特点提供定制化的修正建议和练习方案,增强了学习和改进效果,交互式神经笔迹调整系统引入了深度强化学习,允许用户实时反馈,多语种书写识别与风格统一化系统的引入,使得这种技术不仅限于单一语言,也能高效处理和统一多种语言的书写风格。

Description

一种基于AI算法的自动转正楷的方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于AI算法的自动转正楷的方法及系统。
背景技术
计算机视觉是一门涉及使机器“看”和“理解”视觉信息的科学,结合了图像处理、模式识别和深度学习多个技术,在计算机视觉领域中,通过算法和模型,计算机能够识别和处理图像和视频中的内容,从简单的图像分类到复杂的场景理解,计算机视觉的应用非常广泛,包括自动驾驶汽车中的环境感知、医疗图像分析、面部识别系统等,在基于AI算法的自动转正楷的方法中,计算机视觉技术主要用于识别和分析手写文字图像,并将其转换为标准的正楷字体,提高了文本的可读性和可用性。
其中,基于AI算法的自动转正楷的方法是一种利用人工智能算法,将手写文字自动转换为标准正楷字体的技术,主要目的是为了提高手写文本的可读性,尤其是在处理手写文档的数字化转录或在教育、文档管理等领域中有着重要应用,通过将难以辨认的手写文本转换为标准的正楷形式,这种技术能够帮助人们更容易阅读和理解手写内容,同时也便于文本的存储和进一步处理,这一技术通过训练模型识别不同的笔画和字符形态,通过算法能够将手写文字转换为标准的正楷字体。
传统方法在处理手写文本转换为正楷文本时存在如下不足之处,传统的手写识别系统缺乏对个人书写风格的适应能力,导致在处理具有独特书写特点的文本时识别率较低,同时难以有效处理多语种文本,尤其是在书写风格和字体结构差异显著的语言间,在实时反馈和交互性方面也相对较弱,限制了用户对书写校正过程的控制和参与度,同时缺乏有效的个性化学习机制,无法提供个性化的书写改进建议或练习计划,从而降低了学习效率和用户体验。
发明内容
本发明的目的是解决现有技术中存在的缺点,而提出的一种基于AI算法的自动转正楷的方法及系统。
为了实现上述目的,本发明采用了如下技术方案:一种基于AI算法的自动转正楷的方法,包括以下步骤:
S1:基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像;
S2:基于所述预处理手写图像,采用图像处理算法进行边缘检测和特征提取,生成文字边缘特征数据;
S3:基于所述文字边缘特征数据,采用卷积神经网络对文字进行深度识别,生成深度识别的文字特征;
S4:基于所述深度识别的文字特征,采用双向长短期记忆网络对文字进行上下文分析和语义处理,生成语义理解数据;
S5:基于所述语义理解数据,采用风格迁移算法对文字风格进行转换,生成风格转换的文字;
S6:基于所述风格转换的文字,采用文本生成算法对文字进行校正和优化,生成优化后的正楷文字;
S7:基于所述优化后的正楷文字,采用高速渲染技术在白板上进行结果显示,生成显示的正楷文本。
所述预处理手写图像具体为调整过对比度和亮度、去除噪声的图像,所述文字边缘特征数据具体为文字的轮廓和内部特征数据,所述深度识别的文字特征具体为文字形状和结构特征,所述语义理解数据具体指对文字意义和长句语序的理解数据,所述风格转换的文字具体为按照正楷风格重新渲染的文字,所述优化后的正楷文字具体为语法和格式流畅的正楷文本。
作为本发明的进一步方案,基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像的步骤具体为:
S101:基于用户在白板上的手写输入,采用高分辨率摄像技术捕捉图像,生成原始手写图像数据;
S102:基于所述原始手写图像数据,采用高斯滤波技术去除图像中的噪声,生成去噪后的图像数据;
S103:基于所述去噪后的图像数据,采用加权平均法,生成灰度图像数据;
S104:基于所述灰度图像数据,采用直方图均衡化处理进行图像对比度增强,并进行光学字符识别技术,生成预处理手写图像。
作为本发明的进一步方案,基于所述预处理手写图像,采用图像处理算法进行边缘检测和特征提取,生成文字边缘特征数据的步骤具体为:
S201:基于所述预处理手写图像,采用索贝尔边缘检测算法识别文字边缘,生成边缘检测图像数据;
S202:基于所述边缘检测图像数据,采用形态学变换技术进行文字边缘清晰化操作,生成处理后图像数据;
S203:基于所述处理后图像数据,采用连通区域分析标记和区分单个字符,生成字符区域标记数据;
S204:基于所述字符区域标记数据,采用方向梯度直方图特征提取算法提取字符特征,生成文字边缘特征数据。
作为本发明的进一步方案,基于所述文字边缘特征数据,采用卷积神经网络对文字进行深度识别,生成深度识别的文字特征的步骤具体为:
S301:基于所述文字边缘特征数据,采用卷积神经网络的初级层进行特征识别,生成初级特征映射;
S302:基于所述初级特征映射,采用卷积神经网络的深层结构提取深度特征,生成深层特征映射;
S303:基于所述深层特征映射,采用池化操作技术简化特征并减少计算量,生成池化后的特征数据;
S304:基于所述池化后的特征数据,采用全连接层技术进行特征融合分类,生成深度识别的文字特征。
作为本发明的进一步方案,基于所述深度识别的文字特征,采用双向长短期记忆网络对文字进行上下文分析和语义处理,生成语义理解数据的步骤具体为:
S401:基于所述深度识别的文字特征,采用双向长短期记忆网络分析文字顺序和上下文依赖,生成初步语境分析数据;
S402:基于所述初步语境分析数据,采用Seq2Seq模型优化上下文关系理解,生成改进的语境相关数据;
S403:基于所述改进的语境相关数据,采用词嵌入技术进行词义理解,生成深度词义分析数据;
S404:基于所述深度词义分析数据,采用自然语言处理技术进行语义理解,生成语义理解数据。
作为本发明的进一步方案,基于所述语义理解数据,采用风格迁移算法对文字风格进行转换,生成风格转换的文字的步骤具体为:
S501:基于所述语义理解数据,采用特征匹配算法捕捉原始文字风格,生成原始风格特征数据;
S502:基于所述原始风格特征数据,通过对抗网络进行风格迁移,生成中间风格迁移数据;
S503:基于所述中间风格迁移数据,采用图像后处理技术进行细化调整,生成细化后的风格转换数据;
S504:基于所述细化后的风格转换数据,采用图像合成算法优化输出效果,生成风格转换的文字。
作为本发明的进一步方案,基于所述风格转换的文字,采用文本生成算法对文字进行校正和优化,生成优化后的正楷文字的步骤具体为:
S601:基于所述风格转换的文字,采用语言模型对文本进行拼写校正,生成拼写校正后的数据;
S602:基于所述拼写校正后的数据,采用句法分析技术进行语法修正,生成语法优化数据;
S603:基于所述语法优化数据,采用文本格式化工具调整文字排版,生成格式化后的数据;
S604:基于所述格式化后的数据,采用子像素渲染技术进行文本优化和清晰化处理,生成优化后的正楷文字。
作为本发明的进一步方案,基于所述优化后的正楷文字,采用高速渲染技术在白板上进行结果显示,生成显示的正楷文本的步骤具体为:
S701:基于所述优化后的正楷文字,采用SVG格式转换操作,生成SVG格式的正楷文字数据;
S702:基于所述SVG格式的正楷文字数据,运用超分辨率重建技术进行图像清晰度增强,生成高清晰度正楷文字图像;
S703:基于所述高清晰度正楷文字图像,采用OpenGL渲染技术进行高速图像渲染,生成渲染的正楷文字图像;
S704:基于所述渲染的正楷文字图像,采用硬件加速图像渲染技术在白板上展示最终文字,生成显示的正楷文本。
一种基于AI算法的自动转正楷的系统,所述基于AI算法的自动转正楷的系统用于执行上述基于AI算法的自动转正楷的方法,所述系统包括图像捕捉模块、文字边缘检测模块、文字深度识别模块、语义理解模块、风格迁移模块、文本校正优化模块、渲染显示模块、交互优化模块;
所述图像捕捉模块基于用户在白板上的手写输入,采用高分辨率摄像技术捕捉图像,通过高斯滤波去除噪声和加权平均法进行灰度化,生成原始手写图像数据;
所述文字边缘检测模块基于原始手写图像数据,采用索贝尔边缘检测算法进行文字边缘识别,通过形态学变换技术清晰化文字边缘,生成边缘检测图像数据;
所述文字深度识别模块基于边缘检测图像数据,采用卷积神经网络进行特征提取,生成深度识别的文字特征;
所述语义理解模块基于深度识别的文字特征,采用双向长短期记忆网络和Seq2Seq模型进行语境分析,生成语义理解数据;
所述风格迁移模块基于语义理解数据,采用风格迁移算法和图像后处理技术进行风格转换,生成风格转换的文字;
所述文本校正优化模块基于风格转换的文字,采用语言模型和句法分析技术进行文本校正和排版优化,生成优化后的正楷文字;
所述渲染显示模块基于优化后的正楷文字,采用SVG格式转换和OpenGL渲染技术进行高速渲染和展示,生成显示的正楷文本;
所述交互优化模块基于显示的正楷文本,通过用户反馈,采用交互式学习算法调整和优化文字转换过程,生成个性化调整数据。
作为本发明的进一步方案,所述加权平均法用于对图像像素进行加权平均处理,所述索贝尔边缘检测算法用于利用梯度算法识别图像中的边缘信息,所述形态学变换技术用于应用膨胀和腐蚀操作改善文字边缘清晰度,所述卷积神经网络通过利用多层神经网络结构提取和学习图像特征,所述双向长短期记忆网络用于分析文字的前后文关系,所述语言模型通过利用统计模型对文本进行拼写校正。
与现有技术相比,本发明的优点和积极效果在于:
本发明中,通过自适应笔迹识别技术,能够有效适应并识别不同用户的个性化书写风格,提升了识别准确性,个性化手写修正与学习不仅提供自动转正楷的功能,还能根据个人书写特点提供定制化的修正建议和练习方案,增强了学习和改进效果,交互式神经笔迹调整系统引入了深度强化学习,允许用户实时反馈,实现个性化的书写风格调整,增强了用户体验,多语种书写识别与风格统一化系统的引入,使得这种技术不仅限于单一语言,也能高效处理和统一多种语言的书写风格,提高了适用范围和实用性。
附图说明
图1为本发明的工作流程示意图;
图2为本发明的S1细化流程图;
图3为本发明的S2细化流程图;
图4为本发明的S3细化流程图;
图5为本发明的S4细化流程图;
图6为本发明的S5细化流程图;
图7为本发明的S6细化流程图;
图8为本发明的S7细化流程图;
图9为本发明的系统流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例一
请参阅图1,本发明提供一种技术方案:一种基于AI算法的自动转正楷的方法,包括以下步骤:
S1:基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像;
S2:基于预处理手写图像,采用图像处理算法进行边缘检测和特征提取,生成文字边缘特征数据;
S3:基于文字边缘特征数据,采用卷积神经网络对文字进行深度识别,生成深度识别的文字特征;
S4:基于深度识别的文字特征,采用双向长短期记忆网络对文字进行上下文分析和语义处理,生成语义理解数据;
S5:基于语义理解数据,采用风格迁移算法对文字风格进行转换,生成风格转换的文字;
S6:基于风格转换的文字,采用文本生成算法对文字进行校正和优化,生成优化后的正楷文字;
S7:基于优化后的正楷文字,采用高速渲染技术在白板上进行结果显示,生成显示的正楷文本。
预处理手写图像具体为调整过对比度和亮度、去除噪声的图像,文字边缘特征数据具体为文字的轮廓和内部特征数据,深度识别的文字特征具体为文字形状和结构特征,语义理解数据具体指对文字意义和长句语序的理解数据,风格转换的文字具体为按照正楷风格重新渲染的文字,优化后的正楷文字具体为语法和格式流畅的正楷文本。
通过高分辨率摄像技术和高斯滤波技术的应用,能够高效捕捉用户的手写输入并去除噪声,提高了原始手写图像的清晰度和质量,索贝尔边缘检测算法和形态学变换技术的运用使得文字的轮廓和内部特征被精准捕获,为深度文字识别奠定了基础,卷积神经网络的引入进一步提升了文字识别的准确性,能够有效处理多样化和个性化的手写风格,双向长短期记忆网络在理解文字的上下文和语义层面上发挥重要作用,使得系统不仅能识别单个字符,还能处理复杂的文本结构,风格迁移算法和文本生成算法的应用不仅使得转换后的文字在视觉上更加美观统一,还在内容上更加准确流畅,高速渲染技术的使用保证了转换后文本的快速展示,提升了用户体验,综上所述,这种方法在提高手写文本的可读性、识别准确性和用户体验方面具有显著优势,同时也提高了文本处理的效率,使其在多种应用场景中都具有实用价值。
请参阅图2,基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像的步骤具体为:
S101:基于用户在白板上的手写输入,采用高分辨率摄像技术捕捉图像,生成原始手写图像数据;
S102:基于原始手写图像数据,采用高斯滤波技术去除图像中的噪声,生成去噪后的图像数据;
S103:基于去噪后的图像数据,采用加权平均法,生成灰度图像数据;
S104:基于灰度图像数据,采用直方图均衡化处理进行图像对比度增强,并进行光学字符识别技术,生成预处理手写图像。
在步骤S101中,系统通过高分辨率摄像技术捕捉用户在白板上的手写文字,在步骤S102中,系统采用高斯滤波技术对捕获的原始手写图像数据进行去噪处理,有效地减少图像中的随机噪声,同时保留文字的关键特征,为后续的文字识别和处理打下坚实基础,在步骤S103中,系统对去噪后的图像执行灰度化处理,这里的加权平均法是将彩色图像转换为灰度图像的标准方法,依据人眼对多颜色敏感度的不同,为红、绿、蓝三个颜色通道分配不同的权重,最终生成灰度图像,这样的处理不仅简化了数据量,而且降低了处理复杂度,在步骤S104中,系统进行直方图均衡化处理以增强图像对比度,并应用光学字符识别技术,直方图均衡化能够改善图像的对比度,使文字更加鲜明易读,而OCR技术则对图像中的文字进行识别,将图像格式的文字转换为可编辑的文本格式,生成预处理手写图像,确保了文字的准确识别和后续处理的有效性。
请参阅图3,基于预处理手写图像,采用图像处理算法进行边缘检测和特征提取,生成文字边缘特征数据的步骤具体为:
S201:基于预处理手写图像,采用索贝尔边缘检测算法识别文字边缘,生成边缘检测图像数据;
S202:基于边缘检测图像数据,采用形态学变换技术进行文字边缘清晰化操作,生成处理后图像数据;
S203:基于处理后图像数据,采用连通区域分析标记和区分单个字符,生成字符区域标记数据;
S204:基于字符区域标记数据,采用方向梯度直方图特征提取算法提取字符特征,生成文字边缘特征数据。
在步骤S201中,系统首先利用索贝尔边缘检测算法识别图像中的文字边缘,索贝尔算法通过突出图像中的边缘信息识别文字,是一种有效的图像边缘强化技术,步骤S202涉及到形态学变换技术的应用,通过对图像进行膨胀和腐蚀等操作,增强了文字边缘的清晰度,使每个字符的轮廓更加鲜明,这对于手写文字特别重要,因为手写文字往往连贯性强,字符间隔不明显,系统执行连通区域分析,这是一种用于区分和标记图像中独立字符的技术,通过这一步骤,系统能够识别出图像中的每个单独字符,并为它们分配唯一的区域标记,在步骤S204中,系统采用方向梯度直方图特征提取算法提取每个字符的关键特征,HOG算法能够捕捉字符的形状和纹理信息,从而为文字识别提供更为精确的特征数据。
请参阅图4,基于文字边缘特征数据,采用卷积神经网络对文字进行深度识别,生成深度识别的文字特征的步骤具体为:
S301:基于文字边缘特征数据,采用卷积神经网络的初级层进行特征识别,生成初级特征映射;
S302:基于初级特征映射,采用卷积神经网络的深层结构提取深度特征,生成深层特征映射;
S303:基于深层特征映射,采用池化操作技术简化特征并减少计算量,生成池化后的特征数据;
S304:基于池化后的特征数据,采用全连接层技术进行特征融合分类,生成深度识别的文字特征。
在步骤S301中,首先利用CNN的初级层对提取的文字边缘特征数据进行初步的特征识别,CNN通过其卷积层提取出文字图像中的基本特征,如边缘、角点等,生成所谓的初级特征映射,用于捕捉图像的基本视觉信息,在步骤S302中,系统进一步通过CNN的深层结构提取更深层次的特征,网络通过更多的卷积层逐步提取出更加复杂和抽象的特征,如文字的结构和形状模式,生成深层特征映射,这对于理解手写文字的复杂性和多样性至关重要,步骤S303涉及到池化操作,这是一个用于减少特征维度和计算量的技术,通过池化层,网络能够保留重要的特征信息,同时减少数据的复杂性,生成更加紧凑的池化后的特征数据,在步骤S304中,全连接层被用于特征的融合和分类,这一步中,通过全连接层,网络将之前的所有特征综合,进行最终的分类决策,生成深度识别的文字特征,确保了文字识别的准确性和可靠性。
请参阅图5,基于深度识别的文字特征,采用双向长短期记忆网络对文字进行上下文分析和语义处理,生成语义理解数据的步骤具体为:
S401:基于深度识别的文字特征,采用双向长短期记忆网络分析文字顺序和上下文依赖,生成初步语境分析数据;
S402:基于初步语境分析数据,采用Seq2Seq模型优化上下文关系理解,生成改进的语境相关数据;
S403:基于改进的语境相关数据,采用词嵌入技术进行词义理解,生成深度词义分析数据;
S404:基于深度词义分析数据,采用自然语言处理技术进行语义理解,生成语义理解数据。
在步骤S401中,双向长短期记忆网络被用于分析文字的顺序和上下文依赖关系,能够同时考虑先前和之后的上下文信息,这使得网络能够更准确地理解文字的流动性和语义关系,步骤S402中引入了Seq2Seq模型,以优化对上下文关系的理解,Seq2Seq模型特别适用于处理顺序数据,步骤S403中,运用词嵌入技术进行词义理解,词嵌入技术能够将文字转换为密集的向量表示,从而捕捉词语的语义信息,通过这种技术,系统能够更深层次地理解单词和短语的具体含义,从而生成深度词义分析数据,在步骤S404中,系统利用自然语言处理技术进行终极的语义理解,这个步骤整合语法分析和语义角色标注结果,生成最终的语义理解数据。
请参阅图6,基于语义理解数据,采用风格迁移算法对文字风格进行转换,生成风格转换的文字的步骤具体为:
S501:基于语义理解数据,采用特征匹配算法捕捉原始文字风格,生成原始风格特征数据;
S502:基于原始风格特征数据,通过对抗网络进行风格迁移,生成中间风格迁移数据;S503:基于中间风格迁移数据,采用图像后处理技术进行细化调整,生成细化后的风格转换数据;
S504:基于细化后的风格转换数据,采用图像合成算法优化输出效果,生成风格转换的文字。
在步骤S501中,使用的特征匹配算法对原始文字的风格进行精确捕捉,生成原始风格特征数据,这一步骤通过分析手写文本的特征如笔画粗细、倾斜角度和笔画间距,确保了风格迁移算法有一个准确的起点,在步骤S502中,系统利用对抗网络进行风格迁移,通过生成器和判别器的博弈学习过程,能够有效地进行风格转换,生成中间风格迁移数据,步骤S503涉及到图像后处理技术的使用,进一步细化和调整风格转换后的数据,在这一步骤中,系统对中间风格迁移数据进行优化,以确保风格转换后的文字在视觉上更加清晰和规范,在步骤S504中,应用图像合成算法对风格转换的文字进行最终优化,这一步骤通过调整文字的对比度、亮度和清晰度,确保生成的文字不仅在风格上一致,而且在视觉呈现上也达到最佳效果。
请参阅图7,基于风格转换的文字,采用文本生成算法对文字进行校正和优化,生成优化后的正楷文字的步骤具体为:
S601:基于风格转换的文字,采用语言模型对文本进行拼写校正,生成拼写校正后的数据;
S602:基于拼写校正后的数据,采用句法分析技术进行语法修正,生成语法优化数据;
S603:基于语法优化数据,采用文本格式化工具调整文字排版,生成格式化后的数据;
S604:基于格式化后的数据,采用子像素渲染技术进行文本优化和清晰化处理,生成优化后的正楷文字。
在步骤S601中,首先通过高级语言模型进行拼写校正,准确识别并纠正文本中的拼写错误,确保字词的正确性,在步骤S602中,利用句法分析技术进行语法修正,改善语句结构,提升文本的整体语法质量,在步骤S603中,文本格式化工具调整文本排版,通过优化字间距、行间距及整体布局,增强文本的可读性和视觉吸引力,在步骤S604中,应用子像素渲染技术对文本进行细致的优化和清晰化处理,提高最终文本的清晰度和可读性,这一系列细化的操作步骤共同确保了风格转换后的文字能够转化为高质量、高标准的正楷文字,不仅在准确性和规范性上得到提升,同时在视觉效果上也更加出色,适合各种阅读和应用场景。
请参阅图8,基于优化后的正楷文字,采用高速渲染技术在白板上进行结果显示,生成显示的正楷文本的步骤具体为:
S701:基于优化后的正楷文字,采用SVG格式转换操作,生成SVG格式的正楷文字数据;
S702:基于SVG格式的正楷文字数据,运用超分辨率重建技术进行图像清晰度增强,生成高清晰度正楷文字图像;
S703:基于高清晰度正楷文字图像,采用OpenGL渲染技术进行高速图像渲染,生成渲染的正楷文字图像;
S704:基于渲染的正楷文字图像,采用硬件加速图像渲染技术在白板上展示最终文字,生成显示的正楷文本。
在步骤S701中,系统通过将优化后的正楷文字转换为SVG格式,生成SVG格式的正楷文字数据,这种矢量图形格式保证了文字在不同尺寸和分辨率下的清晰度和可伸缩性,适合于各种显示需求,步骤S702采用超分辨率重建技术对SVG格式的正楷文字数据进行图像清晰度增强,这一技术通过提升图像的分辨率,确保在放大或缩小时文字保持高清晰度和细节丰富性,适用于高质量显示,步骤S703使用OpenGL渲染技术对高清晰度的正楷文字图像进行高速渲染,在步骤S704中,系统利用硬件加速图像渲染技术在白板上展示最终的文字,这种技术通过硬件优化加速渲染过程,确保文本的流畅展示,从而生成显示的正楷文本,这一步骤特别适合于需要快速、高效显示文本的教育、演示及公共展示场合。
请参阅图9,一种基于AI算法的自动转正楷的系统,基于AI算法的自动转正楷的系统用于执行上述基于AI算法的自动转正楷的方法,系统包括图像捕捉模块、文字边缘检测模块、文字深度识别模块、语义理解模块、风格迁移模块、文本校正优化模块、渲染显示模块、交互优化模块;
图像捕捉模块基于用户在白板上的手写输入,采用高分辨率摄像技术捕捉图像,通过高斯滤波去除噪声和加权平均法进行灰度化,生成原始手写图像数据;
文字边缘检测模块基于原始手写图像数据,采用索贝尔边缘检测算法进行文字边缘识别,通过形态学变换技术清晰化文字边缘,生成边缘检测图像数据;
文字深度识别模块基于边缘检测图像数据,采用卷积神经网络进行特征提取,生成深度识别的文字特征;
语义理解模块基于深度识别的文字特征,采用双向长短期记忆网络和Seq2Seq模型进行语境分析,生成语义理解数据;
风格迁移模块基于语义理解数据,采用风格迁移算法和图像后处理技术进行风格转换,生成风格转换的文字;
文本校正优化模块基于风格转换的文字,采用语言模型和句法分析技术进行文本校正和排版优化,生成优化后的正楷文字;
渲染显示模块基于优化后的正楷文字,采用SVG格式转换和OpenGL渲染技术进行高速渲染和展示,生成显示的正楷文本;
交互优化模块基于显示的正楷文本,通过用户反馈,采用交互式学习算法调整和优化文字转换过程,生成个性化调整数据。
加权平均法用于对图像像素进行加权平均处理,索贝尔边缘检测算法用于利用梯度算法识别图像中的边缘信息,形态学变换技术用于应用膨胀和腐蚀操作改善文字边缘清晰度,卷积神经网络通过利用多层神经网络结构提取和学习图像特征,双向长短期记忆网络用于分析文字的前后文关系,语言模型通过利用统计模型对文本进行拼写校正。
系统通过高分辨率摄像技术和高斯滤波去除噪声,确保了手写输入图像的清晰度和质量,特别是在处理杂乱笔迹或低质量图像时,灰度化处理进一步简化了图像数据,减少了后续处理所需的计算资源和时间,提高了系统的整体效率,文字边缘检测模块的引入增强了系统对手写文字边缘的识别能力,使得字符的提取更为精确,特别是形态学变换技术的应用,深度识别模块的应用是系统的一个重要创新点,采用卷积神经网络提取文字特征,不仅提高了识别的准确率,而且能够处理复杂和变化多端的手写风格,语义理解模块的加入使得系统不仅能识别字符,还能理解文字的上下文关系,这一点对于处理长句子或复杂的语言结构尤其重要,能够确保转换后的正楷文本在语义上的准确性和连贯性,风格迁移模块和文本校正优化模块共同确保了文字在风格和格式上的统一性,这一点对于提升文本的整体可读性和美观性尤为重要,特别是对于教育和商业场景中的文档展示,提升了文本的专业度和吸引力,渲染显示模块和交互优化模块的结合,不仅提供了高效、高质量的文本显示,还通过用户反馈学习和调整,使系统能够持续优化和适应不同用户的需求。
以上,仅是本发明的较佳实施例而已,并非对本发明作其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (4)

1.一种基于AI算法的自动转正楷的方法,其特征在于,包括以下步骤:
基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像;
基于所述预处理手写图像,采用图像处理算法进行边缘检测和特征提取,生成文字边缘特征数据的步骤具体为:
基于所述预处理手写图像,采用索贝尔边缘检测算法识别文字边缘,生成边缘检测图像数据;
基于所述边缘检测图像数据,采用形态学变换技术进行文字边缘清晰化操作,生成处理后图像数据;
基于所述处理后图像数据,采用连通区域分析标记和区分单个字符,生成字符区域标记数据;
基于所述字符区域标记数据,采用方向梯度直方图特征提取算法提取字符特征,生成文字边缘特征数据;
基于所述文字边缘特征数据,采用卷积神经网络对文字进行深度识别,生成深度识别的文字特征的步骤具体为:
基于所述文字边缘特征数据,采用卷积神经网络的初级层进行特征识别,生成初级特征映射;
基于所述初级特征映射,采用卷积神经网络的深层结构提取深度特征,生成深层特征映射;
基于所述深层特征映射,采用池化操作技术简化特征并减少计算量,生成池化后的特征数据;
基于所述池化后的特征数据,采用全连接层技术进行特征融合分类,生成深度识别的文字特征;
基于所述深度识别的文字特征,采用双向长短期记忆网络对文字进行上下文分析和语义处理,生成语义理解数据的步骤具体为:
基于所述深度识别的文字特征,采用双向长短期记忆网络分析文字顺序和上下文依赖,生成初步语境分析数据;
基于所述初步语境分析数据,采用Seq2Seq模型优化上下文关系理解,生成改进的语境相关数据;
基于所述改进的语境相关数据,采用词嵌入技术进行词义理解,生成深度词义分析数据;
基于所述深度词义分析数据,采用自然语言处理技术进行语义理解,生成语义理解数据;
基于所述语义理解数据,采用风格迁移算法对文字风格进行转换,生成风格转换的文字的步骤具体为:
基于所述语义理解数据,采用特征匹配算法捕捉原始文字风格,生成原始风格特征数据;
基于所述原始风格特征数据,通过对抗网络进行风格迁移,生成中间风格迁移数据;
基于所述中间风格迁移数据,采用图像后处理技术进行细化调整,生成细化后的风格转换数据;
基于所述细化后的风格转换数据,采用图像合成算法优化输出效果,生成风格转换的文字;
基于所述风格转换的文字,采用文本生成算法对文字进行校正和优化,生成优化后的正楷文字的步骤具体为:
基于所述风格转换的文字,采用语言模型对文本进行拼写校正,生成拼写校正后的数据;
基于所述拼写校正后的数据,采用句法分析技术进行语法修正,生成语法优化数据;
基于所述语法优化数据,采用文本格式化工具调整文字排版,生成格式化后的数据;
基于所述格式化后的数据,采用子像素渲染技术进行文本优化和清晰化处理,生成优化后的正楷文字;
基于所述优化后的正楷文字,采用高速渲染技术在白板上进行结果显示,生成显示的正楷文本的步骤具体为:
基于所述优化后的正楷文字,采用SVG格式转换操作,生成SVG格式的正楷文字数据;
基于所述SVG格式的正楷文字数据,运用超分辨率重建技术进行图像清晰度增强,生成高清晰度正楷文字图像;
基于所述高清晰度正楷文字图像,采用OpenGL渲染技术进行高速图像渲染,生成渲染的正楷文字图像;
基于所述渲染的正楷文字图像,采用硬件加速图像渲染技术在白板上展示最终文字,生成显示的正楷文本;
所述预处理手写图像具体为调整过对比度和亮度、去除噪声的图像,所述文字边缘特征数据具体为文字的轮廓和内部特征数据,所述深度识别的文字特征具体为文字形状和结构特征,所述语义理解数据具体指对文字意义和长句语序的理解数据,所述风格转换的文字具体为按照正楷风格重新渲染的文字,所述优化后的正楷文字具体为语法和格式流畅的正楷文本。
2.根据权利要求1所述的基于AI算法的自动转正楷的方法,其特征在于,基于用户在白板上的手写输入,采用光学字符识别技术进行文字捕捉,通过高斯滤波去除噪声和加权平均法进行灰度化,生成预处理手写图像的步骤具体为:
基于用户在白板上的手写输入,采用高分辨率摄像技术捕捉图像,生成原始手写图像数据;
基于所述原始手写图像数据,采用高斯滤波技术去除图像中的噪声,生成去噪后的图像数据;
基于所述去噪后的图像数据,采用加权平均法,生成灰度图像数据;
基于所述灰度图像数据,采用直方图均衡化处理进行图像对比度增强,并进行光学字符识别技术,生成预处理手写图像。
3.一种基于AI算法的自动转正楷的系统,其特征在于,用于执行权利要求1-2任一项所述的基于AI算法的自动转正楷的方法,所述系统包括图像捕捉模块、文字边缘检测模块、文字深度识别模块、语义理解模块、风格迁移模块、文本校正优化模块、渲染显示模块、交互优化模块;
所述图像捕捉模块基于用户在白板上的手写输入,采用高分辨率摄像技术捕捉图像,通过高斯滤波去除噪声和加权平均法进行灰度化,生成原始手写图像数据;
所述文字边缘检测模块基于原始手写图像数据,采用索贝尔边缘检测算法进行文字边缘识别,通过形态学变换技术清晰化文字边缘,生成边缘检测图像数据;
所述文字深度识别模块基于边缘检测图像数据,采用卷积神经网络进行特征提取,生成深度识别的文字特征;
所述语义理解模块基于深度识别的文字特征,采用双向长短期记忆网络和Seq2Seq模型进行语境分析,生成语义理解数据;
所述风格迁移模块基于语义理解数据,采用风格迁移算法和图像后处理技术进行风格转换,生成风格转换的文字;
所述文本校正优化模块基于风格转换的文字,采用语言模型和句法分析技术进行文本校正和排版优化,生成优化后的正楷文字;
所述渲染显示模块基于优化后的正楷文字,采用SVG格式转换和OpenGL渲染技术进行高速渲染和展示,生成显示的正楷文本;
所述交互优化模块基于显示的正楷文本,通过用户反馈,采用交互式学习算法调整和优化文字转换过程,生成个性化调整数据。
4.根据权利要求3所述的基于AI算法的自动转正楷的系统,其特征在于,所述加权平均法用于对图像像素进行加权平均处理,所述索贝尔边缘检测算法用于利用梯度算法识别图像中的边缘信息,所述形态学变换技术用于应用膨胀和腐蚀操作改善文字边缘清晰度,所述卷积神经网络通过利用多层神经网络结构提取和学习图像特征,所述双向长短期记忆网络用于分析文字的前后文关系,所述语言模型通过利用统计模型对文本进行拼写校正。
CN202311823687.4A 2023-12-28 2023-12-28 一种基于ai算法的自动转正楷的方法及系统 Active CN117472257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311823687.4A CN117472257B (zh) 2023-12-28 2023-12-28 一种基于ai算法的自动转正楷的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311823687.4A CN117472257B (zh) 2023-12-28 2023-12-28 一种基于ai算法的自动转正楷的方法及系统

Publications (2)

Publication Number Publication Date
CN117472257A CN117472257A (zh) 2024-01-30
CN117472257B true CN117472257B (zh) 2024-04-26

Family

ID=89624135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311823687.4A Active CN117472257B (zh) 2023-12-28 2023-12-28 一种基于ai算法的自动转正楷的方法及系统

Country Status (1)

Country Link
CN (1) CN117472257B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354572A (zh) * 2015-12-10 2016-02-24 苏州大学 一种基于简化卷积神经网络的车牌自动识别系统
CN109299663A (zh) * 2018-08-27 2019-02-01 刘梅英 手写字体识别方法、系统以及终端设备
CN110852042A (zh) * 2019-12-13 2020-02-28 北京华宇信息技术有限公司 字符类型转换方法和装置
CN111161132A (zh) * 2019-11-15 2020-05-15 上海联影智能医疗科技有限公司 用于图像风格转换的系统和方法
CN114127676A (zh) * 2019-05-06 2022-03-01 苹果公司 电子设备上的手写输入
CN114359917A (zh) * 2021-12-13 2022-04-15 杭州电子科技大学 一种手写汉字检测识别及字形评估方法
CN115909381A (zh) * 2022-12-07 2023-04-04 科大讯飞股份有限公司 一种文本图像识别方法、系统及相关装置
CN117152770A (zh) * 2023-08-25 2023-12-01 北京智精灵科技有限公司 一种面向手写输入的书写能力智能评测方法及系统
CN117152768A (zh) * 2023-08-10 2023-12-01 广州信位通讯科技有限公司 用于扫读笔的离线识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792851B (zh) * 2021-09-09 2023-07-25 北京百度网讯科技有限公司 字体生成模型训练方法、字库建立方法、装置及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354572A (zh) * 2015-12-10 2016-02-24 苏州大学 一种基于简化卷积神经网络的车牌自动识别系统
CN109299663A (zh) * 2018-08-27 2019-02-01 刘梅英 手写字体识别方法、系统以及终端设备
CN114127676A (zh) * 2019-05-06 2022-03-01 苹果公司 电子设备上的手写输入
CN111161132A (zh) * 2019-11-15 2020-05-15 上海联影智能医疗科技有限公司 用于图像风格转换的系统和方法
CN110852042A (zh) * 2019-12-13 2020-02-28 北京华宇信息技术有限公司 字符类型转换方法和装置
CN114359917A (zh) * 2021-12-13 2022-04-15 杭州电子科技大学 一种手写汉字检测识别及字形评估方法
CN115909381A (zh) * 2022-12-07 2023-04-04 科大讯飞股份有限公司 一种文本图像识别方法、系统及相关装置
CN117152768A (zh) * 2023-08-10 2023-12-01 广州信位通讯科技有限公司 用于扫读笔的离线识别方法及系统
CN117152770A (zh) * 2023-08-25 2023-12-01 北京智精灵科技有限公司 一种面向手写输入的书写能力智能评测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于生成式对抗网络的汉字生成方法研究;张红蕊;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200815(第8期);I138-540 *

Also Published As

Publication number Publication date
CN117472257A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
Karthick et al. Steps involved in text recognition and recent research in OCR; a study
CN110969129B (zh) 一种端到端税务票据文本检测与识别方法
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN110502655B (zh) 一种嵌入场景文字信息的图像自然描述语句生成方法
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
CN113673338A (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN110969681A (zh) 一种基于gan网络的手写体书法文字生成方法
CN110178139A (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN111985184A (zh) 基于ai视觉下的书写字体临摹辅助方法、系统、装置
CN110853429A (zh) 一种智能型英语教学系统
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN113411550B (zh) 视频上色方法、装置、设备及存储介质
CN109299726A (zh) 一种基于特征向量和笔顺编码的汉字字形相似算法
CN117472257B (zh) 一种基于ai算法的自动转正楷的方法及系统
CN117152768A (zh) 用于扫读笔的离线识别方法及系统
CN116703797A (zh) 图像融合方法、图像融合系统、计算机设备及存储介质
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN114694133B (zh) 一种基于图像处理与深度学习相结合的文本识别方法
CN112836467B (zh) 一种图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant