CN116682118A - 一种古文字识别方法、系统、终端及介质 - Google Patents

一种古文字识别方法、系统、终端及介质 Download PDF

Info

Publication number
CN116682118A
CN116682118A CN202310689196.9A CN202310689196A CN116682118A CN 116682118 A CN116682118 A CN 116682118A CN 202310689196 A CN202310689196 A CN 202310689196A CN 116682118 A CN116682118 A CN 116682118A
Authority
CN
China
Prior art keywords
character
characters
original
text
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310689196.9A
Other languages
English (en)
Inventor
汪媛
王寒山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuedu Zhejiang Digital Technology Co ltd
Original Assignee
Yuedu Zhejiang Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuedu Zhejiang Digital Technology Co ltd filed Critical Yuedu Zhejiang Digital Technology Co ltd
Priority to CN202310689196.9A priority Critical patent/CN116682118A/zh
Publication of CN116682118A publication Critical patent/CN116682118A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及一种古文字识别方法、系统、终端及介质,其包括获取文字图像;基于文字图像,生成原始字符,原始字符包括繁体字字符;依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符;将繁体字字符替换为简体字字符,生成转化字符;依据原始字符,输出显示有原始字符的第一转化图像;依据转化字符,输出显示有转化字符的第二转化图像。本申请具有以下效果:可将古文中的繁体字转化为简体字,以此方便读者对古文的理解。

Description

一种古文字识别方法、系统、终端及介质
技术领域
本申请涉及文字识别技术的领域,尤其是涉及一种古文字识别方法、系统、终端及介质。
背景技术
OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
目前,古籍兼有文书、档案、书籍三重意义。古籍中记载的文字大多为一些繁体字,现有的OCR文字识别仅是将图像中的文字转化为文本,繁体字的图像转化后仍为繁体字的文本,对于不熟悉繁体字的读者来说,对古籍记载的内容理解较为困难,不方便读者对古文的理解。
发明内容
第一方面,为了方便读者对古文的理解,本申请提供一种古文字识别方法。
本申请提供的一种古文字识别方法,采用如下的技术方案:
一种古文字识别方法,包括:
获取文字图像;
基于文字图像,生成原始字符,原始字符包括繁体字字符;
依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符;
将繁体字字符替换为简体字字符,生成转化字符;
依据原始字符,输出显示有原始字符的第一转化图像;
依据转化字符,输出显示有转化字符的第二转化图像。
通过采用上述技术方案,通过古文的图像,生成与古文图像上的文字简繁相同的原始字符,通过文字数据库中查找原始字符中对应繁体字的简体字,可将原始字符中的繁体字字符替换成简体字字符,原始字符以此形成转化字符,再根据转化字符输出显示有原始字符的第二转化图像,根据原始字符输出显示有原始字符的第一转化图像,通过比较第一转化图像与第二转化图像,可观察繁体字对应的简体字,古文中的繁体字转化成简体字后,可方便读者对古文的理解。
优选的,所述基于文字图像,生成原始字符的步骤具体包括:
基于文字图像,识别文字大小与文字形状;
依据文字大小与文字形状,生成取字框,一个取字框框选一个文字;
识别取字框内文字的文字样式;
基于文字样式,确定文字字体;
依据文字形状与文字字体,生成原始字符。
通过采用上述技术方案,通过文字大小与文字形状,可生成用于分隔文字的取字框,再确定取字框内的文字为何种字体,即可确定原始字符,对一段文字进行分隔并单独识别确认,可提高原始字符的准确性。
优选的,在所述依据原始字符,输出显示有原始字符的第一转化图像的步骤后,还包括:
获取对应原始字符的纠错指令;
基于纠错指令,生成并于人机交互界面显示修改控件;
基于原始字符,从预设的文字数据库中查找多个与原始字符相似的相似字符,修改控件用于供相似字符选择并输入;
获取相似字符与修改控件的确认指令;
基于修改控件的确认指令,修改原始字符;
基于修改后的原始字符,更新原始字符。
通过采用上述技术方案,当原始字符与文字图像中的字不一致时,通过修改控件修改原始字符,通过输入与错误原始字符字形相似且与文字图像中的字相同的字符后,可更新原始字符,原始字符更新后,转化字符可对应更新,第一转化图像与第二转化图像也可对应更新。
优选的,在所述获取相似字符与修改控件的确认指令的步骤后,还包括:
计算对应原始字符的生成次数;
基于修改控件的确认指令,计算对应原始字符的修改次数;
依据对应原始字符的生成次数与对应原始字符的修改次数,生成并显示对应原始字符的正确率。
通过采用上述技术方案,通过原始字符的生成次数与修改次数,可确定该原始字符的正确率,对于较低正确率的原始字符,读者可特别关注该原始字符是否识别错误,以便及时改正。
优选的,所述依据文字大小与文字形状,生成取字框的步骤具体包括:
依据文字大小与文字形状,生成多个界限点,各界限点分布于文字周边上;
依据各界限点,生成模型框,模型框由各界限点依次连接而成;
基于模型框,生成取字框,取字框为矩形框,模型框与取字框之间存在至少四处大小为预设值的最小间隙。
通过采用上述技术方案,通过文字的大小与形状,沿着文字周边分布多个界限点,界限点相互连接形成模型框,模型框可包围文字,在模型框外生成取字框,以此可通过取字框分隔文字,以使一个取字框框选一个文字。
优选的,在所述将繁体字字符替换为简体字字符,生成转化字符的步骤后,包括:
依据转化字符,生成转化文字段落;
依据原始字符,生成原始文字段落;
将转化文字段落及对应的原始文字段落保存至预设的文字数据库中;
在所述基于文字图像,生成原始字符的步骤后,包括:
依据原始字符,生成原始文字段落;
依据原始文字段落,判断预设的文字数据库中是否存在相似度高于预设相似度值的原始文字段落;
若是,则调取并显示原始文字段落对应的转化文字段落;
依据转化文字段落,生成转化字符;
依据转化字符,输出显示有转化字符的第二转化图像;
若否,则依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符。
通过采用上述技术方案,古文转化后,将该古文的原始字符与转化字符通过段落的形式保存在文字数据库中,当下次需要转化相似度高于预设相似度值的古文时,可直接从文字数据库中调取对应的转化字符,可省去字体简繁转化的步骤。
优选的,还包括:
基于文字图像,识别文字颜色,生成颜色标识;
依据颜色标识以及对应颜色标识的原始字符与转化字符,对第一转化图像中的原始字符与第二转化图像中的转化字符进行颜色标记。
通过采用上述技术方案,在古文中,正文文字与印章文字的颜色差异明显,颜色标识可区分正文文字与印章文字,可尽量避免正文文字与印章文字因颜色一致而发生混淆,以此可区分正文文字与印章文字。
第二方面,本申请提供一种古文字识别系统,采用如下的技术方案:
一种古文字识别系统,包括:
文字图像获取模块,用于获取文字图像;
字符生成模块,用于基于文字图像,生成原始字符;
字符转化模块,用于依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符,将繁体字字符替换为简体字字符,生成转化字符;
图像输出模块,用于依据原始字符,输出显示有原始字符的第一转化图像,依据转化字符,输出显示有转化字符的第二转化图像。
通过采用上述技术方案,文字图像获取模块可获取文字图像,字符生成模块可将文字图像上的文字生成为原始字符,字符转化模块可将原始字符中的繁体字字符转化为简体字字符,图像输出模块可输出第一转化图像与第二转化图像供读者阅读,可方便读者对古文的理解。
第三方面,本申请提供一种智能终端,采用如下的技术方案:
一种智能终端,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述的古文字识别方法的计算机程序。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种古文字识别方法的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:
1.通过古文的图像,生成与古文图像上的文字简繁相同的原始字符,通过文字数据库中查找原始字符中对应繁体字的简体字,可将原始字符中的繁体字字符替换成简体字字符,原始字符以此形成转化字符,再根据转化字符输出显示有原始字符的第二转化图像,根据原始字符输出显示有原始字符的第一转化图像,通过比较第一转化图像与第二转化图像,可观察繁体字对应的简体字,古文中的繁体字转化成简体字后,可方便读者对古文的理解;
2.通过原始字符的生成次数与修改次数,可确定该原始字符的正确率,对于较低正确率的原始字符,读者可特别关注该原始字符是否识别错误,以便及时改正;
3.古文转化后,将该古文的原始字符与转化字符通过段落的形式保存在文字数据库中,当下次需要转化相似度高于预设相似度值的古文时,可直接从文字数据库中调取对应的转化字符,可省去字体简繁转化的步骤。
附图说明
图1是本申请实施例一种古文字识别方法的方法流程图。
图2是本申请实施例一种古文字识别方法的部分方法流程图,主要展示S200-S240与S400-S430。
图3是本申请实施例一种古文字识别方法的部分方法流程图,主要展示S201-S205,S202a-S202c与S1400-S1500。
图4是本申请实施例一种古文字识别方法的部分示意图,用于展示界限点与取字框。
图5是本申请实施例一种古文字识别系统的系统模块图。
附图标记说明:
100、界限点;
200、取字框。
具体实施方式
以下结合全部附图对本申请作进一步详细说明。
本申请实施例公开一种古文字识别方法。参照图1与图2,古文字识别方法包括:
S100:获取文字图像;
具体的,文字图像可采用jpg,png,pdf等格式的图像文件,图像文件可扫描古籍获得、可对古籍拍照获得,也可从网上下载古籍图片获得。
S200:基于文字图像,生成原始字符,原始字符包括繁体字字符;
具体的,对文字图像进行文字识别,识别技术采用OCR技术。原始字符为文字图像上的字转化而来,原始字符包括简体字字符与繁体字字符,原始字符的字体为预设的字体,例如宋体。
S300:依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符;
具体的,文字数据库内储存有简体字与繁体字,并且繁体字对应有相应的简体字。以此可在文字数据库可找到繁体字对应的简体字并确定繁体字字符对应的简体字字符。
S400:将繁体字字符替换为简体字字符,生成转化字符;
具体的,确定繁体字字符对应的简体字字符后,将原始字符内的繁体字字符替换成简体字字符,以此原始字符转化为转化字符,转化字符均为简体字字符。
S410:依据转化字符,生成转化文字段落;
具体的,转化文字段落为根据转化字符生成的文字段落,转化文字段落为文本的形式。
S420:依据原始字符,生成原始文字段落;
具体的,原始文字段落为根据原始字符生成的文字段落,原始文字段落为文本的形式。
S430:将转化文字段落及对应的原始文字段落保存至预设的文字数据库中。
具体的,转化文字段落与原始文字段落以文本的形式保存在文字数据库中后,方便后续在文字数据库中通过原始文字段落查找对应的转化文字段落,且在后续转化相同原始字符时,可通过原始文字段落直接查找对应的转化文字段落。
S510:依据原始字符,输出显示有原始字符的第一转化图像;
S520:依据转化字符,输出显示有转化字符的第二转化图像;
具体的,第一转化图像显示有原始字符,第二转化图像显示有转化字符。即第一转化图像上的字符与文字图像上的字符相同,第二转化图像上的字符均为简体字字符。通过第二转化图像,可方便读者对古文的理解,且对比第一转化图像与第二转化图像,可方便读者学习繁体字。
S600:获取对应原始字符的纠错指令;
具体的,当原始字符与文字图像中的字出现偏差时,对原始字符进行修改。纠错指令可为读者通过机械按键选择原始字符中的某一个字符触发的指令,例如通过鼠标单击原始字符中的某一个字符;也可以通过虚拟按键触发的方式获取,例如通过在对应软件的界面中按动相关的虚拟触发按键以实现获取。
S700:基于纠错指令,生成并于人机交互界面显示修改控件;
S800:基于原始字符,从预设的文字数据库中查找多个与原始字符相似的相似字符,修改控件用于供相似字符选择并输入;
具体的,相似字符为多个与原始字符形状相近的字符,例如原始字符为“祗”, 相似字符为“祇”、“ 衹”、“ 袛”等。文字图像上为“祇”,则可通过修改控件选择“祇”并将“祇”输入。
S900:获取相似字符与修改控件的确认指令;
S1110:基于修改控件的确认指令,修改原始字符;
S1210:基于修改后的原始字符,更新原始字符。
具体的,将正确的相似字符输入修改控件并触发确认指令后,将原始字符中出错的字符修改为正确的相似字符。即“祗”修改为“祇”,原始字符更新后,继续执行S300、S400、S510与S520的步骤,即可完成第一转化图像与第二转化图像的更新,以此可修正第一转化图像与第二转化图像显示的字符。
S1120:计算对应原始字符的生成次数;
具体的,对应原始字符为需要修改的原始字符,生成次数为基于文字图像,生成该原始字符的次数,如上述的生成“祗”的次数。
S1220:基于修改控件的确认指令,计算对应原始字符的修改次数;
具体的,用户通过修改控件输入正确的相似字符并触发修改控件的确认指令确认修改后,该确认指令为一次修改次数。
S1300:依据对应原始字符的生成次数与对应原始字符的修改次数,生成并显示对应原始字符的正确率。
具体的,生成次数为n,修改次数为m,正确率为(n-m)/n;通过正确率可知对应原始字符由文字图像转化而来的出错概率。
参照图2,在S200:基于文字图像,生成原始字符,原始字符包括繁体字字符的步骤后,还包括:
S210:依据原始字符,生成原始文字段落;
S220:依据原始文字段落,判断预设的文字数据库中是否存在相似度高于预设相似度值的原始文字段落;
具体的,原始文字段落在文字数据库中查找是否有相似的原始文字段落,预设相似度值可为90%、95%等数值。
S231:若是,则调取并显示原始文字段落对应的转化文字段落;
S240:依据转化文字段落,生成转化字符;
S520:依据转化字符,输出显示有转化字符的第二转化图像。
具体的,当原始文字段落与文字数据库中的原始文字段落相似值为预设相似度值时,则调取文字数据库中的原始文字段落对应的转化文字段落,再根据调取的转化文字段落生成转化字符,以此可根据转化字符输出第二转化图像,即可通过在文字数据库中查找的方式对文字图像转化为第二转化图像,即可省去S300与S400的步骤。
若否,则执行S300:依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符。
具体的,当文字数据库中不存在与原始文字段落相似值为预设相似度值的原始文字段落时,则执行S300的步骤。
参照图1与图3,S200:基于文字图像,生成原始字符的步骤具体为以下步骤。
S201:基于文字图像,识别文字大小与文字形状;
S202:依据文字大小与文字形状,生成取字框200,一个取字框200框选一个文字;
具体的,根据文字大小与文字形状可决定文字的轮廓。根据文字的轮廓生成取字框200,取字框200可框选文字,以此可将各文字分隔,对文字进行分隔后,方便对文字进行识别,降低识别出错率。
S203:识别取字框200内文字的文字样式;
S204:基于文字样式,确定文字字体;
具体的,古籍中记载的文字有多种样式,可根据文字样式在文字数据库中查找对应样式的文字,以此可根据文字样式确认文字图像中的文字字体,例如隶书、楷书、行书等字体。
S205:依据文字形状与文字字体,生成原始字符。
具体的,确定字形和字体后,可确定该字为什么字,例如楷体的“正”,以此可生成原始字符,可提高生成原始字符的准确性。
S202:依据文字大小与文字形状,生成取字框200的步骤具体为:
S202a:依据文字大小与文字形状,生成多个界限点100,各界限点100分布于文字周边上;
参照图3与图4,具体的,界限点100为文字周边上的点,界限点100可沿着文字周边均匀间隔分布,例如分布在“正”顶部上的界限点100为沿着“一” 周边分布。
S202b:依据各界限点100,生成模型框,模型框由各界限点100依次连接而成;
具体的,沿着文字周边依次连接相邻的界限点100,可形成模型框,模型框可框选文字,对于分散的文字形状,例如“二”,模型框有上下两个。
S202c:基于模型框,生成取字框200,取字框200为矩形框,模型框与取字框200之间存在至少四处大小为预设值的最小间隙。
具体的,一个取字框200框选一个文字,模型框位于取字框200内,且模型框与取字框200的最小间隔为预设值,取字框200以此可框选文字,进而可对多个文字进行分隔。
S1400:基于文字图像,识别文字颜色,生成颜色标识;
具体的,一般的,在古籍中,正文文字与印章文字的颜色不同且颜色区别明显。例如,正文文字大多为黑色,印章文字大多为红色,生成颜色为黑色与红色的颜色标识,以便区分正文文字与印章文字。
S1500:依据颜色标识以及对应颜色标识的原始字符与转化字符,对第一转化图像中的原始字符与第二转化图像中的转化字符进行颜色标记。
具体的,在第一转化图像与第二转化图像中,按照颜色标识区分正文文字与印章文字的颜色,可尽量避免因正文文字与印章文字的颜色相同而导致区分困难的问题,同时,可对文字图像最大相似度的转化,即第一转化图像与第二转化图像中的正文文字与印章文字颜色与文字图像中的正文文字与印章文字颜色相同。
参照图5,本申请实施例还公开一种古文字识别系统,包括:文字图像获取模块、字符生成模块、字符转化模块与图像输出模块。
文字图像获取模块,用于获取文字图像;
字符生成模块,用于基于文字图像,生成原始字符;
字符转化模块,用于依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符,将繁体字字符替换为简体字字符,生成转化字符;
图像输出模块,用于依据原始字符,输出显示有原始字符的第一转化图像,依据转化字符,输出显示有转化字符的第二转化图像。
本申请实施例还公开一种本实施例还提供一种智能终端,包括存储器和处理器,处理器可采用CPU或MPU等中央处理部件或以CPU或MPU为核心所构建的主机系统,存储器可采用RAM、ROM、EPROM、EEPROM、FLASH、磁盘、光盘等存储设备。存储器上存储有能够被处理器加载并执行上述古文字识别方法的计算机程序。
本实施例还提供一种计算机可读存储介质,可采用U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质内存储有能够被处理器加载并执行上述古文字识别方法的计算机程序。
本申请实施例一种古文字识别方法、系统、终端及介质的实施原理为:生成与文字图像上的文字相同的原始字符后,将原始字符中的繁体字替换为简体字以生成转化字符,再通过原始字符生成第一转化图像,通过转化字符生成第二转化图像,读者可根据第一转化图像阅读古文原文,通过第二转化图像可阅读古文的简体字版,可方便读者对古文的理解。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种古文字识别方法,其特征在于:包括:
获取文字图像;
基于文字图像,生成原始字符,原始字符包括繁体字字符;
依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符;
将繁体字字符替换为简体字字符,生成转化字符;
依据原始字符,输出显示有原始字符的第一转化图像;
依据转化字符,输出显示有转化字符的第二转化图像。
2.根据权利要求1所述的古文字识别方法,其特征在于:所述基于文字图像,生成原始字符的步骤具体包括:
基于文字图像,识别文字大小与文字形状;
依据文字大小与文字形状,生成取字框(200),一个取字框(200)框选一个文字;
识别取字框(200)内文字的文字样式;
基于文字样式,确定文字字体;
依据文字形状与文字字体,生成原始字符。
3.根据权利要求1所述的古文字识别方法,其特征在于:在所述依据原始字符,输出显示有原始字符的第一转化图像的步骤后,还包括:
获取对应原始字符的纠错指令;
基于纠错指令,生成并于人机交互界面显示修改控件;
基于原始字符,从预设的文字数据库中查找多个与原始字符相似的相似字符,修改控件用于供相似字符选择并输入;
获取相似字符与修改控件的确认指令;
基于修改控件的确认指令,修改原始字符;
基于修改后的原始字符,更新原始字符。
4.根据权利要求3所述的古文字识别方法,其特征在于:在所述获取相似字符与修改控件的确认指令的步骤后,还包括:
计算对应原始字符的生成次数;
基于修改控件的确认指令,计算对应原始字符的修改次数;
依据对应原始字符的生成次数与对应原始字符的修改次数,生成并显示对应原始字符的正确率。
5.根据权利要求2所述的古文字识别方法,其特征在于:所述依据文字大小与文字形状,生成取字框(200)的步骤具体包括:
依据文字大小与文字形状,生成多个界限点(100),各界限点(100)分布于文字周边上;
依据各界限点(100),生成模型框,模型框由各界限点(100)依次连接而成;
基于模型框,生成取字框(200),取字框(200)为矩形框,模型框与取字框(200)之间存在至少四处大小为预设值的最小间隙。
6.根据权利要求1所述的古文字识别方法,其特征在于:
在所述将繁体字字符替换为简体字字符,生成转化字符的步骤后,包括:
依据转化字符,生成转化文字段落;
依据原始字符,生成原始文字段落;
将转化文字段落及对应的原始文字段落保存至预设的文字数据库中;
在所述基于文字图像,生成原始字符的步骤后,包括:
依据原始字符,生成原始文字段落;
依据原始文字段落,判断预设的文字数据库中是否存在相似度高于预设相似度值的原始文字段落;
若是,则调取并显示原始文字段落对应的转化文字段落;
依据转化文字段落,生成转化字符;
依据转化字符,输出显示有转化字符的第二转化图像;
若否,则依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符。
7.根据权利要求1所述的古文字识别方法,其特征在于:还包括:
基于文字图像,识别文字颜色,生成颜色标识;
依据颜色标识以及对应颜色标识的原始字符与转化字符,对第一转化图像中的原始字符与第二转化图像中的转化字符进行颜色标记。
8.一种古文字识别系统,其特征在于:包括:
文字图像获取模块,用于获取文字图像;
字符生成模块,用于基于文字图像,生成原始字符;
字符转化模块,用于依据繁体字,从预设的文字数据库中查找繁体字对应的简体字,确定简体字字符,将繁体字字符替换为简体字字符,生成转化字符;
图像输出模块,用于依据原始字符,输出显示有原始字符的第一转化图像,依据转化字符,输出显示有转化字符的第二转化图像。
9.一种智能终端,其特征在于:包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一项所述的古文字识别方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一项所述的古文字识别方法的计算机程序。
CN202310689196.9A 2023-06-10 2023-06-10 一种古文字识别方法、系统、终端及介质 Pending CN116682118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310689196.9A CN116682118A (zh) 2023-06-10 2023-06-10 一种古文字识别方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310689196.9A CN116682118A (zh) 2023-06-10 2023-06-10 一种古文字识别方法、系统、终端及介质

Publications (1)

Publication Number Publication Date
CN116682118A true CN116682118A (zh) 2023-09-01

Family

ID=87790547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310689196.9A Pending CN116682118A (zh) 2023-06-10 2023-06-10 一种古文字识别方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN116682118A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252154A (zh) * 2023-11-20 2023-12-19 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252154A (zh) * 2023-11-20 2023-12-19 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统
CN117252154B (zh) * 2023-11-20 2024-01-23 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统

Similar Documents

Publication Publication Date Title
US8532388B2 (en) Image processing apparatus, image processing method, and computer program
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP4854491B2 (ja) 画像処理装置及びその制御方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
TW200416583A (en) Definition data generation method of account book voucher and processing device of account book voucher
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
CN116682118A (zh) 一种古文字识别方法、系统、终端及介质
WO2019185245A2 (en) An image processing system and an image processing method
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2006065477A (ja) 文字認識装置
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP3319203B2 (ja) 文書ファイリング方法及び装置
JP2022151533A (ja) 読取システム、読取プログラムおよび読取方法
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2022090469A (ja) 書式定義装置、書式定義方法、及びプログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP5724286B2 (ja) 帳票作成装置、帳票作成方法、プログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
US11481544B2 (en) Form processing apparatus and non-transitory computer readable medium
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JPH0689330A (ja) 画像ファイリングシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination