CN107784328A

CN107784328A - 德语旧字体识别方法、装置及计算机可读存储介质

Info

Publication number: CN107784328A
Application number: CN201710927733.3A
Authority: CN
Inventors: 刘新; 陆振波; 张新
Original assignee: Shenzhen Yicheng Automatic Driving Technology Co Ltd
Current assignee: Shenzhen Yicheng Automatic Driving Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2018-03-09
Anticipated expiration: 2037-09-30
Also published as: CN107784328B

Abstract

本发明公开了一种德语旧字体识别方法，包括：获取待识别原始样本，并将所述待识别样本转换为目标格式的待识别文本后，输入至RBF神经识别网络；采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别得到各单个字符的识别结果；根据识别结果生成已识别文本。本发明还公开了一种德语旧字体识别装置、计算机可读存储介质。本发明通过构建识别德语旧字体的RBF神经网络中的分类器，实现了德语旧字体的自动识别与转换的有益效果。

Description

德语旧字体识别方法、装置及计算机可读存储介质

技术领域

本发明涉及德语识别领域，尤其涉及一种德语旧字体识别方法、装置及计算机可读存储介质。

背景技术

所谓的德语旧字体(AltdeutscheSchrift)，指的是从18世纪起到1941年为止，德语国家采用的基于哥特体字母的文字系统。其中，印刷体以Fraktur字体及其各种变体为代表；手写体以Sütterlin字体为代表。这些字体迥异于当今通行于世界的拉丁字母字体，造成人们(包括如今的德国人)的认读困难。广大德语文学、哲学、历史学等学科的研究人员与爱好者，经常需要接触浩如烟海的德语资料，其中相当大一部分，皆为出版于1941年之前的使用旧字体印刷的历史文献。辨认阅读此类文献极为费时费力且易出错，如果有一种方案能自动识别用德语旧字体表示的文本，并自动将至转化为当今通行的新字体，将为上述人群带来极大的便利。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种德语旧字体识别方法，旨在解决德语旧字体出版物的文字识别与转换的技术问题。

为实现上述目的，本发明提供一种德语旧字体识别方法，包括以下内容：

获取待识别原始样本，并将所述待识别样本转换为目标格式的待识别文本后，输入至RBF神经识别网络；

采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别得到各单个字符的识别结果；

根据识别结果生成已识别文本。

在其中一个实施例中，所述根据识别结果生成已识别文本的步骤，还包括：

将所述识别结果的各单个字符按预存的所述待识别文本的字符顺序进行排列，用以生成已识别文本。

在其中一个实施例中，所述根据识别结果生成已识别文本的步骤之后，还包括：

将所述已识别文本输出至已设定的对应区域。

在其中一个实施例中，所述采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别，并输出各单个字符的识别结果的步骤之前，还包括：

基于已创建RBF神经识别网络，获取对应的识别原始文本，用以在所述RBF神经网络中构建预设字符训练方法，其中，所述RBF神经网络分为输入层、隐含层及输出层。

此外，为实现上述目的，本发明还提供一种德语旧字体识别装置，其特征在于，所述德语旧字体识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的德语旧字体识别方法的步骤。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有德语旧字体识别程序，所述德语旧字体识别程序被处理器执行时实现如上所述的德语旧字体识别方法的步骤。

本发明实施例提出的一种德语旧字体识别方法，通过获取待识别原始样本，并将所述待识别样本转换为目标格式的待识别文本后，输入至RBF神经识别网络；采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别得到各单个字符的识别结果；根据识别结果生成已识别文本。通过转换原始检测样本至目标格式的检测样本，输入值对应的RBF神经网络进行字体识别转换操作，并基于原始文本的字符顺序输出转换结果，实现了德语旧字体的自动识别与转化的有益效果。

附图说明

图1是本发明实施例方案的硬件运行环境的终端\装置结构示意图；

图2为本发明德语旧字体识别方法第一实施例的流程示意图；

图3为本发明德语旧字体识别方法第二实施例的流程示意图；

图4为RBF神经网络的节点分层示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取待识别原始样本，并将所述待识别样本转换为目标格式的待识别文本后，输入至RBF神经识别网络；采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别得到各单个字符的识别结果；根据识别结果生成已识别文本。

由于历史上德语国家采用基于哥特体字母的文字系统，而印刷体以Fraktur字体及其各种变体为代表；手写体以sutterlin字体为代表，这些字体迥异于当今通行于世界的拉丁字母字体，造成认读困难，且在翻译的过程中，辨认阅读此类文献极为费时费力且易出错。

本发明提供一种解决方案，使检测的原始文本预处理成目标格式的检测样本后，通过预先设置的RBF神经网络的方式对所述检测样本的字符信息进行识别与转换，并输出以原始文本的字符顺序输出转换结果，实现了自动识别与输出德语旧字体的有益效果。

如图1所示，图1是本发明实施例方案的硬件运行环境的终端\装置结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI－FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non－volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；作为一种计算机存储介质的存储器1005中包括德语旧字体识别程序，而处理器1001可以用于调用存储器1005中存储的德语旧字体识别程序，并执行以下操作：

根据识别结果生成已识别文本。

在其中一个实施例中，处理器1001可以调用存储器1005中存储的德语旧字体识别程序，还执行以下操作：

将所述已识别文本输出至已设定的对应区域。

参照图2，图2为本发明德语旧字体识别方法第一实施例的流程示意图，所述德语旧字体识别方法包括：

步骤S10，获取待识别原始样本，并将所述待识别样本转换为目标格式的待识别文本后，输入至RBF神经识别网络；

获取基于德语旧字体的待检测原始样本文件，并将所述检测原始样本执行预处理操作，所述预处理操作包括对所述原始样本文件进行降噪、二值化、文字分割及尺寸归一化等操作，生成目标格式的检测样本；所述目标格式的检测样本，为适合以下分类器训练样本的大量单个字符的样本。所述待检测原始样本文件的来源，可通过扫描德语旧字体的印刷品出版物得到图片形式的原始样本，或直接从电子资源的文档中获得。其中，所述待检测原始样本文件进行预处理操作的方式，若所述待检测原始样本文件的格式与所述预处理操作所匹配的图片格式不一致时，将所述待检测原始样本文件转化为对应格式后，再对所述待检测原始样本图片执行预处理操作。

步骤S20，采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别得到各单个字符的识别结果；

根据已执行预处理操作的待检测原始样本生成的目标格式的检测样本，将所述检测样本输入至预先创建的RBF神经识别网络中，以所述RBF神经网络中已配置的分类器训练结果进行识别。所述识别内容包括将所述检测样本输入至所述RBF神经网络的输入层，以所述RBF神经网络中已经配置并训练生成的识别方式进行识别，并在识别完成后，将识别的所述检测样本的中字符信息转化为现有的拉丁字母字体。其具体的识别与转换方式，步骤如下所述：拆解所述待识别文本中的各单个字符，并将已拆解的各单个字符一一与所述预设字符训练方法中各检测样本中的字符进行一一比对，用以确认所述各单个字符与所述各检测样本中的一致的字符，即以所述各检测样本中的字符识别所述待检测样本中的字符；根据比对结果，输出所述各单个字符基于所述比对结果的对应现有字符。

步骤S30，根据识别结果生成已识别文本。

将已识别的字符，按照预设方式生成已识别文本，所述已识别文本包含有文本类型及其生成方式等，其具体的操作方式与已设定的文本生成方式相关。另，在将识别结果生成已识别文本时，需依据所述检测样本对应的待检测原始样本中字符的顺序，调整所述已识别的字符的顺序后输出。所述待检测原始样本中字符的顺序，所述检测样本在进行预处理之前，基于所述检测样本对应的待检测原始样本，保存的字符顺序内容，即将所述识别结果的各单个字符按预存的所述待识别文本的字符顺序进行排列，用以生成已识别文本。

基于所述字符顺序调整已转换的字符顺序，并输出至对应区域。即所述根据识别结果生成已识别文本的步骤之后，还包括：将所述已识别文本输出至已设定的对应区域。所述对应区域，包括显示页面、新建文本或存储区域等，其具体的输出格式，与所述检测样本的对应应用方式相关。

另外，所述将已识别完毕的检测样本的字符，调整至对应原始样本的字符顺序，输出至对应区域显示的步骤之前，还包括：

以所述检测样本中的字符节点为基准，保存所述检测样本对应的检测原始样本中的所述字符节点的位置。

在获取到待检测原始样本后，进行预处理操作生成目标格式的检测样本后，读取所述待检测原始样本的字符顺序，并保存所述字符顺序的信息，以将保存的所述字符顺序作为转换后的字符顺序模板。

在本实施例中，将获取到的待检测原始样本进行预处理后，输入至预先创建的RBF神经识别网络进行识别与字符转换，并将输出的字符以待检测原始样本的字符顺序调整所述输出字符，以实现自动识别与转换德语旧字体的有益效果。

进一步的，参照图3，图3为本发明德语旧字体识别方法第二实施例的流程示意图，基于上述图2所示的第一实施例，在步骤20之前，还包括：

步骤S40，基于已创建RBF神经识别网络，获取对应的识别原始文本，用以在所述RBF神经网络中构建预设字符训练方法，其中，所述RBF神经网络分为输入层、隐含层及输出层。；

获取识别原始样本文件，并将所述识别原始样本文件进行预处理后，生成目标格式的识别检测文件，以预先设置的方式构建所述RBF神经网络的识别分类器。其中，所述目标格式的识别检测文件，包括将所述文件的各个字符提取至对应存储区域存储，且所述识别检测文件中的字符信息，为现有的各种德语字符的各种表达方式，其保存方式为将同含义的字符为一组进行存储，且每组字符的标志为现有最通用的德语字符，通过此种原始字符分组存储方式，构建所述RBF神经网络的字符训练方法，其字符训练方法的生成方式可参考图4，图4为所述RBF神经网络的分层结构示意图，其具体的构建方式，如下所述：

输入层：RBF网络的输入为预处理过的所述识别检测文件经过降维方法(如PCA，LDA)得到的训练样本特征矩阵X，其中X的每一列为一个训练样本经过降维后的特征数据，X的列数为训练样本数。输入层节点数为X的行数(样本在降维后的特征维数)。

隐含层：隐含层将输入数据X通过核函数进行非线性变换，使变换后的数据更易线性可分。所谓的RBF神经网络，指的就是隐含层的核函数为径向基函数的网络。本发明选择使用最常用的径向基函数——高斯函数作为核函数。并基于所述高斯函数的计算方式，并不限制所述核函数的宽度参数，对于输入向量x(输入数据X中的任一列)，隐含层第i个节点输出的表达式为：

公式1：其中c_i为隐含层第i个节点的核中心，σ²为核函数的宽度参数。

公式2：隐含层节点数＝10×max{输入层节点数，输出层节点数}+1，其中，所述“+1”项代表偏置节点(其值为1)；

输出层：输出层的输出矩阵Y中的每一列，对应训练样本特征矩阵X相应列代表的样本的类别，其值是通过对所有类别进行正交编码(如a字母编码为1000……0，b字母编码为01000……0等等)得到的一组数码中，该类别的数码值。输出层的节点数目为此正交编码的长度(数字个数)，其每一个节点的值对应编码中相应位数的值。输出层的输出(即整个网络的输出)由对隐含层的的输出矩阵B(其每一列为式(1)中的b_i)通过以下线性变换得到公式3：Y＝WB，其中W为隐含层到输出层的变换矩阵(权值矩阵)。

另外，基于上述RBF分类器的训练过程，还可将所述训练过程可分为输入层到隐藏层的训练，以及隐藏层到输出层的训练，如下所述：

输入层到隐藏层的训练：

主要目的在确定式(1)中c_i和σ²的值。本发明采用K均值聚类算法从训练样本中挑选出N(N为隐含层节点数目)个聚类中心作为隐含层N个节点的核中心c_i，在多数RBF训练策略中，σ²一般是通过梯度下降法等方法得到。与此不同，本发明采用经验的方法选取σ²，即将其值选择为所有核中心c_i之间的平均距离的平方。此种方法省去了对σ²值选取的训练过程，简便易行，且在实际中达到很好效果。

隐藏层到输出层的训练：

主要用于确定权值矩阵W的值。根据式(3)以及最小二乘法，W可由以下公式简单得到：

公式4)：W＝YB^T(BB^T+λI)^－1，其中，所述λ值的选取可通过广义交叉验证的方式实现。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有上述德语旧字体识别程序。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种德语旧字体识别方法，其特征在于，所述德语旧字体识别方法包括以下步骤：

根据识别结果生成已识别文本。

2.如权利要求1所述的德语旧字体识别方法，其特征在于，所述根据识别结果生成已识别文本的步骤包括：

3.如权利要求1所述的德语旧字体识别方法，其特征在于，所述根据识别结果生成已识别文本的步骤之后，还包括：

将所述已识别文本输出至已设定的对应区域。

4.如权利要求1所述的德语旧字体识别方法，其特征在于，所述采用所述RBF神经识别网络中的预设字符训练方法对所述待识别文本中的各单个字符进行识别，并输出各单个字符的识别结果的步骤之前，还包括：

5.一种德语旧字体识别装置，其特征在于，所述德语旧字体识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的德语旧字体识别程序，所述德语旧字体识别程序被所述处理器执行时实现如权利要求1至4中任一项所述的德语旧字体识别方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有德语旧字体识别程序，所述德语旧字体识别程序被处理器执行时实现如权利要求1至4中任一项所述的德语旧字体识别方法的步骤。