CN116682118A

CN116682118A - 一种古文字识别方法、系统、终端及介质

Info

Publication number: CN116682118A
Application number: CN202310689196.9A
Authority: CN
Inventors: 汪媛; 王寒山
Original assignee: Yuedu Zhejiang Digital Technology Co ltd
Current assignee: Yuedu Zhejiang Digital Technology Co ltd
Priority date: 2023-06-10
Filing date: 2023-06-10
Publication date: 2023-09-01

Abstract

本申请涉及一种古文字识别方法、系统、终端及介质，其包括获取文字图像；基于文字图像，生成原始字符，原始字符包括繁体字字符；依据繁体字，从预设的文字数据库中查找繁体字对应的简体字，确定简体字字符；将繁体字字符替换为简体字字符，生成转化字符；依据原始字符，输出显示有原始字符的第一转化图像；依据转化字符，输出显示有转化字符的第二转化图像。本申请具有以下效果：可将古文中的繁体字转化为简体字，以此方便读者对古文的理解。

Description

一种古文字识别方法、系统、终端及介质

技术领域

本申请涉及文字识别技术的领域，尤其是涉及一种古文字识别方法、系统、终端及介质。

背景技术

OCR文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

目前，古籍兼有文书、档案、书籍三重意义。古籍中记载的文字大多为一些繁体字，现有的OCR文字识别仅是将图像中的文字转化为文本，繁体字的图像转化后仍为繁体字的文本，对于不熟悉繁体字的读者来说，对古籍记载的内容理解较为困难，不方便读者对古文的理解。

发明内容

第一方面，为了方便读者对古文的理解，本申请提供一种古文字识别方法。

本申请提供的一种古文字识别方法，采用如下的技术方案：

一种古文字识别方法，包括：

获取文字图像；

基于文字图像，生成原始字符，原始字符包括繁体字字符；

依据繁体字，从预设的文字数据库中查找繁体字对应的简体字，确定简体字字符；

将繁体字字符替换为简体字字符，生成转化字符；

依据原始字符，输出显示有原始字符的第一转化图像；

依据转化字符，输出显示有转化字符的第二转化图像。

通过采用上述技术方案，通过古文的图像，生成与古文图像上的文字简繁相同的原始字符，通过文字数据库中查找原始字符中对应繁体字的简体字，可将原始字符中的繁体字字符替换成简体字字符，原始字符以此形成转化字符，再根据转化字符输出显示有原始字符的第二转化图像，根据原始字符输出显示有原始字符的第一转化图像，通过比较第一转化图像与第二转化图像，可观察繁体字对应的简体字，古文中的繁体字转化成简体字后，可方便读者对古文的理解。

优选的，所述基于文字图像，生成原始字符的步骤具体包括：

基于文字图像，识别文字大小与文字形状；

依据文字大小与文字形状，生成取字框，一个取字框框选一个文字；

识别取字框内文字的文字样式；

基于文字样式，确定文字字体；

依据文字形状与文字字体，生成原始字符。

通过采用上述技术方案，通过文字大小与文字形状，可生成用于分隔文字的取字框，再确定取字框内的文字为何种字体，即可确定原始字符，对一段文字进行分隔并单独识别确认，可提高原始字符的准确性。

优选的，在所述依据原始字符，输出显示有原始字符的第一转化图像的步骤后，还包括：

获取对应原始字符的纠错指令；

基于纠错指令，生成并于人机交互界面显示修改控件；

基于原始字符，从预设的文字数据库中查找多个与原始字符相似的相似字符，修改控件用于供相似字符选择并输入；

获取相似字符与修改控件的确认指令；

基于修改控件的确认指令，修改原始字符；

基于修改后的原始字符，更新原始字符。

通过采用上述技术方案，当原始字符与文字图像中的字不一致时，通过修改控件修改原始字符，通过输入与错误原始字符字形相似且与文字图像中的字相同的字符后，可更新原始字符，原始字符更新后，转化字符可对应更新，第一转化图像与第二转化图像也可对应更新。

优选的，在所述获取相似字符与修改控件的确认指令的步骤后，还包括：

计算对应原始字符的生成次数；

基于修改控件的确认指令，计算对应原始字符的修改次数；

依据对应原始字符的生成次数与对应原始字符的修改次数，生成并显示对应原始字符的正确率。

通过采用上述技术方案，通过原始字符的生成次数与修改次数，可确定该原始字符的正确率，对于较低正确率的原始字符，读者可特别关注该原始字符是否识别错误，以便及时改正。

优选的，所述依据文字大小与文字形状，生成取字框的步骤具体包括：

依据文字大小与文字形状，生成多个界限点，各界限点分布于文字周边上；

依据各界限点，生成模型框，模型框由各界限点依次连接而成；

基于模型框，生成取字框，取字框为矩形框，模型框与取字框之间存在至少四处大小为预设值的最小间隙。

通过采用上述技术方案，通过文字的大小与形状，沿着文字周边分布多个界限点，界限点相互连接形成模型框，模型框可包围文字，在模型框外生成取字框，以此可通过取字框分隔文字，以使一个取字框框选一个文字。

优选的，在所述将繁体字字符替换为简体字字符，生成转化字符的步骤后，包括：

依据转化字符，生成转化文字段落；

依据原始字符，生成原始文字段落；

将转化文字段落及对应的原始文字段落保存至预设的文字数据库中；

在所述基于文字图像，生成原始字符的步骤后，包括：

依据原始字符，生成原始文字段落；

依据原始文字段落，判断预设的文字数据库中是否存在相似度高于预设相似度值的原始文字段落；

若是，则调取并显示原始文字段落对应的转化文字段落；

依据转化文字段落，生成转化字符；

依据转化字符，输出显示有转化字符的第二转化图像；

若否，则依据繁体字，从预设的文字数据库中查找繁体字对应的简体字，确定简体字字符。

通过采用上述技术方案，古文转化后，将该古文的原始字符与转化字符通过段落的形式保存在文字数据库中，当下次需要转化相似度高于预设相似度值的古文时，可直接从文字数据库中调取对应的转化字符，可省去字体简繁转化的步骤。

优选的，还包括：

基于文字图像，识别文字颜色，生成颜色标识；

依据颜色标识以及对应颜色标识的原始字符与转化字符，对第一转化图像中的原始字符与第二转化图像中的转化字符进行颜色标记。

通过采用上述技术方案，在古文中，正文文字与印章文字的颜色差异明显，颜色标识可区分正文文字与印章文字，可尽量避免正文文字与印章文字因颜色一致而发生混淆，以此可区分正文文字与印章文字。

第二方面，本申请提供一种古文字识别系统，采用如下的技术方案：

一种古文字识别系统，包括：

文字图像获取模块，用于获取文字图像；

字符生成模块，用于基于文字图像，生成原始字符；

字符转化模块，用于依据繁体字，从预设的文字数据库中查找繁体字对应的简体字，确定简体字字符，将繁体字字符替换为简体字字符，生成转化字符；

图像输出模块，用于依据原始字符，输出显示有原始字符的第一转化图像，依据转化字符，输出显示有转化字符的第二转化图像。

通过采用上述技术方案，文字图像获取模块可获取文字图像，字符生成模块可将文字图像上的文字生成为原始字符，字符转化模块可将原始字符中的繁体字字符转化为简体字字符，图像输出模块可输出第一转化图像与第二转化图像供读者阅读，可方便读者对古文的理解。

第三方面，本申请提供一种智能终端，采用如下的技术方案：

一种智能终端，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行上述的古文字识别方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种古文字识别方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

1.通过古文的图像，生成与古文图像上的文字简繁相同的原始字符，通过文字数据库中查找原始字符中对应繁体字的简体字，可将原始字符中的繁体字字符替换成简体字字符，原始字符以此形成转化字符，再根据转化字符输出显示有原始字符的第二转化图像，根据原始字符输出显示有原始字符的第一转化图像，通过比较第一转化图像与第二转化图像，可观察繁体字对应的简体字，古文中的繁体字转化成简体字后，可方便读者对古文的理解；

2.通过原始字符的生成次数与修改次数，可确定该原始字符的正确率，对于较低正确率的原始字符，读者可特别关注该原始字符是否识别错误，以便及时改正；

3.古文转化后，将该古文的原始字符与转化字符通过段落的形式保存在文字数据库中，当下次需要转化相似度高于预设相似度值的古文时，可直接从文字数据库中调取对应的转化字符，可省去字体简繁转化的步骤。

附图说明

图1是本申请实施例一种古文字识别方法的方法流程图。

图2是本申请实施例一种古文字识别方法的部分方法流程图，主要展示S200-S240与S400-S430。

图3是本申请实施例一种古文字识别方法的部分方法流程图，主要展示S201-S205，S202a-S202c与S1400-S1500。

图4是本申请实施例一种古文字识别方法的部分示意图，用于展示界限点与取字框。

图5是本申请实施例一种古文字识别系统的系统模块图。

附图标记说明：

100、界限点；

200、取字框。

具体实施方式

以下结合全部附图对本申请作进一步详细说明。

本申请实施例公开一种古文字识别方法。参照图1与图2，古文字识别方法包括：

S100：获取文字图像；

具体的，文字图像可采用jpg，png，pdf等格式的图像文件，图像文件可扫描古籍获得、可对古籍拍照获得，也可从网上下载古籍图片获得。

S200：基于文字图像，生成原始字符，原始字符包括繁体字字符；

具体的，对文字图像进行文字识别，识别技术采用OCR技术。原始字符为文字图像上的字转化而来，原始字符包括简体字字符与繁体字字符，原始字符的字体为预设的字体，例如宋体。

S300：依据繁体字，从预设的文字数据库中查找繁体字对应的简体字，确定简体字字符；

具体的，文字数据库内储存有简体字与繁体字，并且繁体字对应有相应的简体字。以此可在文字数据库可找到繁体字对应的简体字并确定繁体字字符对应的简体字字符。

S400：将繁体字字符替换为简体字字符，生成转化字符；

具体的，确定繁体字字符对应的简体字字符后，将原始字符内的繁体字字符替换成简体字字符，以此原始字符转化为转化字符，转化字符均为简体字字符。

S410：依据转化字符，生成转化文字段落；

具体的，转化文字段落为根据转化字符生成的文字段落，转化文字段落为文本的形式。

S420：依据原始字符，生成原始文字段落；

具体的，原始文字段落为根据原始字符生成的文字段落，原始文字段落为文本的形式。

S430：将转化文字段落及对应的原始文字段落保存至预设的文字数据库中。

具体的，转化文字段落与原始文字段落以文本的形式保存在文字数据库中后，方便后续在文字数据库中通过原始文字段落查找对应的转化文字段落，且在后续转化相同原始字符时，可通过原始文字段落直接查找对应的转化文字段落。

S510：依据原始字符，输出显示有原始字符的第一转化图像；

S520：依据转化字符，输出显示有转化字符的第二转化图像；

具体的，第一转化图像显示有原始字符，第二转化图像显示有转化字符。即第一转化图像上的字符与文字图像上的字符相同，第二转化图像上的字符均为简体字字符。通过第二转化图像，可方便读者对古文的理解，且对比第一转化图像与第二转化图像，可方便读者学习繁体字。

S600：获取对应原始字符的纠错指令；

具体的，当原始字符与文字图像中的字出现偏差时，对原始字符进行修改。纠错指令可为读者通过机械按键选择原始字符中的某一个字符触发的指令，例如通过鼠标单击原始字符中的某一个字符；也可以通过虚拟按键触发的方式获取，例如通过在对应软件的界面中按动相关的虚拟触发按键以实现获取。

S700：基于纠错指令，生成并于人机交互界面显示修改控件；

S800：基于原始字符，从预设的文字数据库中查找多个与原始字符相似的相似字符，修改控件用于供相似字符选择并输入；

具体的，相似字符为多个与原始字符形状相近的字符，例如原始字符为“祗”，相似字符为“祇”、“ 衹”、“ 袛”等。文字图像上为“祇”，则可通过修改控件选择“祇”并将“祇”输入。

S900：获取相似字符与修改控件的确认指令；

S1110：基于修改控件的确认指令，修改原始字符；

S1210：基于修改后的原始字符，更新原始字符。

具体的，将正确的相似字符输入修改控件并触发确认指令后，将原始字符中出错的字符修改为正确的相似字符。即“祗”修改为“祇”，原始字符更新后，继续执行S300、S400、S510与S520的步骤，即可完成第一转化图像与第二转化图像的更新，以此可修正第一转化图像与第二转化图像显示的字符。

S1120：计算对应原始字符的生成次数；

具体的，对应原始字符为需要修改的原始字符，生成次数为基于文字图像，生成该原始字符的次数，如上述的生成“祗”的次数。

S1220：基于修改控件的确认指令，计算对应原始字符的修改次数；

具体的，用户通过修改控件输入正确的相似字符并触发修改控件的确认指令确认修改后，该确认指令为一次修改次数。

S1300：依据对应原始字符的生成次数与对应原始字符的修改次数，生成并显示对应原始字符的正确率。

具体的，生成次数为n，修改次数为m，正确率为（n-m）/n；通过正确率可知对应原始字符由文字图像转化而来的出错概率。

参照图2，在S200：基于文字图像，生成原始字符，原始字符包括繁体字字符的步骤后，还包括：

S210：依据原始字符，生成原始文字段落；

S220：依据原始文字段落，判断预设的文字数据库中是否存在相似度高于预设相似度值的原始文字段落；

具体的，原始文字段落在文字数据库中查找是否有相似的原始文字段落，预设相似度值可为90%、95%等数值。

S231：若是，则调取并显示原始文字段落对应的转化文字段落；

S240：依据转化文字段落，生成转化字符；

S520：依据转化字符，输出显示有转化字符的第二转化图像。

具体的，当原始文字段落与文字数据库中的原始文字段落相似值为预设相似度值时，则调取文字数据库中的原始文字段落对应的转化文字段落，再根据调取的转化文字段落生成转化字符，以此可根据转化字符输出第二转化图像，即可通过在文字数据库中查找的方式对文字图像转化为第二转化图像，即可省去S300与S400的步骤。

若否，则执行S300：依据繁体字，从预设的文字数据库中查找繁体字对应的简体字，确定简体字字符。

具体的，当文字数据库中不存在与原始文字段落相似值为预设相似度值的原始文字段落时，则执行S300的步骤。

参照图1与图3，S200：基于文字图像，生成原始字符的步骤具体为以下步骤。

S201：基于文字图像，识别文字大小与文字形状；

S202：依据文字大小与文字形状，生成取字框200，一个取字框200框选一个文字；

具体的，根据文字大小与文字形状可决定文字的轮廓。根据文字的轮廓生成取字框200，取字框200可框选文字，以此可将各文字分隔，对文字进行分隔后，方便对文字进行识别，降低识别出错率。

S203：识别取字框200内文字的文字样式；

S204：基于文字样式，确定文字字体；

具体的，古籍中记载的文字有多种样式，可根据文字样式在文字数据库中查找对应样式的文字，以此可根据文字样式确认文字图像中的文字字体，例如隶书、楷书、行书等字体。

S205：依据文字形状与文字字体，生成原始字符。

具体的，确定字形和字体后，可确定该字为什么字，例如楷体的“正”，以此可生成原始字符，可提高生成原始字符的准确性。

S202：依据文字大小与文字形状，生成取字框200的步骤具体为：

S202a：依据文字大小与文字形状，生成多个界限点100，各界限点100分布于文字周边上；

参照图3与图4，具体的，界限点100为文字周边上的点，界限点100可沿着文字周边均匀间隔分布，例如分布在“正”顶部上的界限点100为沿着“一” 周边分布。

S202b：依据各界限点100，生成模型框，模型框由各界限点100依次连接而成；

具体的，沿着文字周边依次连接相邻的界限点100，可形成模型框，模型框可框选文字，对于分散的文字形状，例如“二”，模型框有上下两个。

S202c：基于模型框，生成取字框200，取字框200为矩形框，模型框与取字框200之间存在至少四处大小为预设值的最小间隙。

具体的，一个取字框200框选一个文字，模型框位于取字框200内，且模型框与取字框200的最小间隔为预设值，取字框200以此可框选文字，进而可对多个文字进行分隔。

S1400：基于文字图像，识别文字颜色，生成颜色标识；

具体的，一般的，在古籍中，正文文字与印章文字的颜色不同且颜色区别明显。例如，正文文字大多为黑色，印章文字大多为红色，生成颜色为黑色与红色的颜色标识，以便区分正文文字与印章文字。

S1500：依据颜色标识以及对应颜色标识的原始字符与转化字符，对第一转化图像中的原始字符与第二转化图像中的转化字符进行颜色标记。

具体的，在第一转化图像与第二转化图像中，按照颜色标识区分正文文字与印章文字的颜色，可尽量避免因正文文字与印章文字的颜色相同而导致区分困难的问题，同时，可对文字图像最大相似度的转化，即第一转化图像与第二转化图像中的正文文字与印章文字颜色与文字图像中的正文文字与印章文字颜色相同。

参照图5，本申请实施例还公开一种古文字识别系统，包括：文字图像获取模块、字符生成模块、字符转化模块与图像输出模块。

文字图像获取模块，用于获取文字图像；

字符生成模块，用于基于文字图像，生成原始字符；

本申请实施例还公开一种本实施例还提供一种智能终端，包括存储器和处理器，处理器可采用CPU或MPU等中央处理部件或以CPU或MPU为核心所构建的主机系统，存储器可采用RAM、ROM、EPROM、EEPROM、FLASH、磁盘、光盘等存储设备。存储器上存储有能够被处理器加载并执行上述古文字识别方法的计算机程序。

本实施例还提供一种计算机可读存储介质，可采用U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质内存储有能够被处理器加载并执行上述古文字识别方法的计算机程序。

本申请实施例一种古文字识别方法、系统、终端及介质的实施原理为：生成与文字图像上的文字相同的原始字符后，将原始字符中的繁体字替换为简体字以生成转化字符，再通过原始字符生成第一转化图像，通过转化字符生成第二转化图像，读者可根据第一转化图像阅读古文原文，通过第二转化图像可阅读古文的简体字版，可方便读者对古文的理解。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种古文字识别方法，其特征在于：包括：

获取文字图像；

基于文字图像，生成原始字符，原始字符包括繁体字字符；

将繁体字字符替换为简体字字符，生成转化字符；

依据原始字符，输出显示有原始字符的第一转化图像；

依据转化字符，输出显示有转化字符的第二转化图像。

2.根据权利要求1所述的古文字识别方法，其特征在于：所述基于文字图像，生成原始字符的步骤具体包括：

基于文字图像，识别文字大小与文字形状；

依据文字大小与文字形状，生成取字框（200），一个取字框（200）框选一个文字；

识别取字框（200）内文字的文字样式；

基于文字样式，确定文字字体；

依据文字形状与文字字体，生成原始字符。

3.根据权利要求1所述的古文字识别方法，其特征在于：在所述依据原始字符，输出显示有原始字符的第一转化图像的步骤后，还包括：

获取对应原始字符的纠错指令；

基于纠错指令，生成并于人机交互界面显示修改控件；

获取相似字符与修改控件的确认指令；

基于修改控件的确认指令，修改原始字符；

基于修改后的原始字符，更新原始字符。

4.根据权利要求3所述的古文字识别方法，其特征在于：在所述获取相似字符与修改控件的确认指令的步骤后，还包括：

计算对应原始字符的生成次数；

基于修改控件的确认指令，计算对应原始字符的修改次数；

5.根据权利要求2所述的古文字识别方法，其特征在于：所述依据文字大小与文字形状，生成取字框（200）的步骤具体包括：

依据文字大小与文字形状，生成多个界限点（100），各界限点（100）分布于文字周边上；

依据各界限点（100），生成模型框，模型框由各界限点（100）依次连接而成；

基于模型框，生成取字框（200），取字框（200）为矩形框，模型框与取字框（200）之间存在至少四处大小为预设值的最小间隙。

6.根据权利要求1所述的古文字识别方法，其特征在于：

在所述将繁体字字符替换为简体字字符，生成转化字符的步骤后，包括：

依据转化字符，生成转化文字段落；

依据原始字符，生成原始文字段落；

在所述基于文字图像，生成原始字符的步骤后，包括：

依据原始字符，生成原始文字段落；

若是，则调取并显示原始文字段落对应的转化文字段落；

依据转化文字段落，生成转化字符；

依据转化字符，输出显示有转化字符的第二转化图像；

7.根据权利要求1所述的古文字识别方法，其特征在于：还包括：

基于文字图像，识别文字颜色，生成颜色标识；

8.一种古文字识别系统，其特征在于：包括：

文字图像获取模块，用于获取文字图像；

字符生成模块，用于基于文字图像，生成原始字符；

9.一种智能终端，其特征在于：包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一项所述的古文字识别方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一项所述的古文字识别方法的计算机程序。