CN116453132B

CN116453132B - 基于机器翻译的日语假名和汉字识别方法、设备及存储器

Info

Publication number: CN116453132B
Application number: CN202310699348.3A
Authority: CN
Inventors: 高玲; 唐玉婷
Original assignee: Chengdu Jincheng College
Current assignee: Chengdu Jincheng College
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-05
Anticipated expiration: 2043-06-14
Also published as: CN116453132A

Abstract

本发明涉及基于机器翻译的日语假名和汉字识别方法、设备及存储器，包括S1、将所需翻译的文本信息转换为图像数据；S2、图像预处理；S3、对预处理后的图像进行特征提取；S4、将特征提取得到的每个汉字和假名转换为对应的向量表示，并基于PyTorch框架，构建识别模型，通过识别模型对向量进行分类和识别，然后将识别出来的假名转换为对应的汉字。本发明通过结合图像处理方法和深度学习算法，可以进行汉字和假名的自动分类和识别，避免了人工编写规则的繁琐工作。另外，基于图像的方法可以在较短的时间内完成汉字和假名的识别和转换，具有很高的实时性，适用于实时翻译和语音识别等场景。

Description

基于机器翻译的日语假名和汉字识别方法、设备及存储器

技术领域

本发明属于机器翻译技术领域，尤其是一种基于机器翻译的日语假名和汉字识别方法、设备及存储器。

背景技术

日语是一种使用假名和汉字混用的语言，而中文也是一种使用汉字的语言。假名和汉字混用会导致同一句话有多种不同的写法，这种独特的书写方式使得机器翻译难以识别和转换。例如，“あなた”这个词可以用假名“あなた”或汉字“貴方”表示，但它们的意思是相同的，日语的复杂性使得机器翻译面临着许多挑战和问题。因此，解决假名和汉字混用的问题，提高机器翻译的准确性和可靠性，具有重要的实践应用价值。

为解决日语翻译中的“假名和汉字混用”问题，目前有三种主要方法：基于规则、基于统计和混合方法。基于规则的方法是一种传统的机器翻译方法，它利用规则和语法来处理假名和汉字的混合使用。但该方法需要事先构建一个规则库，需要大量的人工工作来手动编写和维护大量规则和语法，而且对于复杂的句子和语言结构，可能会产生较大的错误率。基于统计的方法可以自动化地处理大量的数据，但是同样需要大量的训练数据，并且在处理复杂的语言结构时可能会出现问题。混合方法则结合了基于规则和基于统计的方法特性，可以提高翻译的准确性和可靠性，但是也需要大量的人工工作来编写规则。

鉴于此，解决日语翻译中假名和汉字混用的问题，可以提高机器翻译的准确性。综合考虑到现有技术上的不足，有必要研究能够解决日语翻译中假名和汉字混用的新算法，以实现机器翻译的准确性和可靠性。

发明内容

本发明所要解决的技术问题是提供一种基于机器翻译的日语假名和汉字识别方法、设备及存储器，解决日语翻译中假名和汉字混用的问题，以提高机器翻译的准确性和可靠性。

为解决上述问题，本发明采用的技术方案为：基于机器翻译的日语假名和汉字识别方法，包括

S1、将所需翻译的文本信息转换为图像数据；

S2、图像预处理；

S3、对预处理后的图像进行特征提取；

S4、将特征提取得到的每个汉字和假名转换为对应的向量表示，并基于PyTorch框架，构建识别模型，通过识别模型对向量进行分类和识别，然后将识别出来的假名转换为对应的汉字。

进一步地，步骤S2包括：

S21、使用高斯滤波法去除图像中的噪声：

设矢量图形对应的矩阵为/>，则高斯滤波法去噪的公式为：其中，/>表示处理后的矩阵的像素值，/>表示高斯核的大小，/>表示高斯核的标准差，/>表示相对于中心像素的偏移量，对于矩阵中的每一个像素/>，将其周围的像素按照高斯分布加权平均，并对结果进行归一化处理，得到去噪后的像素值/>；

S22、使用自适应二值化法将步骤S21得到的转换为黑白二值图像；

S23、使用边缘增强滤波法对黑白二值图像进行滤波；

S24、将步骤S23得的图像分割为多个区域。

进一步地，步骤S3包括，对预处理后的图像使用边缘检测算法提取出汉字和假名的特征信息。

进一步地，步骤S4中，所述识别模型由多个双向LSTM层和全连接层组成，分别在正向和反向的方向上处理输入序列，并将两个方向的输出进行合并，全连接层用于进行分类和转换；将准备好的数据集输入到模型中进行训练；在训练过程中，使用交叉熵损失函数和随机梯度下降优化算法进行模型训练和参数更新；使用测试集对训练好的模型进行测试，并评估模型的性能和准确度；在模型训练和测试完成后，使用训练好的模型对输入的汉字和假名进行转换。

进一步地，步骤S1中，先对文本信息进行预处理：

S11、去除文本中无关的字符和符号；

S12、对齐文本，使得每行文本具有相同的格式和排版；

S13、对文本进行去重和分词，并将单词或词组标注为相应的词性。

进一步地，预处理后进行转换：

S14、预先存储多种日语字体，将预处理后的日语文本数据输入到系统中；

S15、根据文本的字体类型进行相应的字体匹配，并选择最佳的字体用于渲染成图像数据。

进一步地，步骤S15中，使用OCR技术中的矢量图渲染方法将文本渲染为矢量图形。

基于机器翻译的日语假名和汉字识别存储器，存储有可执行指令，所述可执行指令能够由处理器加载并执行上述方法。

基于机器翻译的日语假名和汉字识别设备，包括处理器和与处理器相连的存储器，所述存储器存储有可执行指令，所述可执行指令能够由处理器加载并执行上述方法。

基于机器翻译的日语假名和汉字识别设备，包括处理器和与处理器相连的存储器，所述存储器存储有可执行指令，所述可执行指令能够由处理器加载并执行上述步骤S2至步骤S4；还包括水平的支撑板，所述支撑板的一侧边设置有竖直的支撑架，所述支撑板上方设置有水平的固定遮光板、水平的活动遮光板、柔性的第一遮光带和柔性的第二遮光带，所述固定遮光板和活动遮光板的下方均设置有纸质资料容纳腔，所述固定遮光板和活动遮光板之间设置有拍摄窗口，所述固定遮光板固定安装于支撑架，所述活动遮光板与支撑架滑动配合；所述固定遮光板朝向活动遮光板的一端的左侧设置有竖直的第一定位板，所述第一定位板上从上至下依次设置有多对水平的第一定位辊，所述固定遮光板朝向活动遮光板的一端端面上设置有第一滑槽以及水平的第二定位辊，所述第一遮光带位于每对第一定位辊之间和每对第二定位辊之间，且第一遮光带的边缘位于第一滑槽内并与第一滑槽滑动配合；所述活动遮光板朝向固定遮光板的一端的右侧设置有竖直的第二定位板，所述第二定位板上从上至下依次设置有多对水平的第三定位辊，所述活动遮光板朝向固定遮光板的一端端面上设置有第二滑槽以及水平的第四定位辊，所述第二遮光带位于每对第三定位辊和每对第四定位辊之间，且第二遮光带的边缘位于第二滑槽并与第二滑槽滑动配合；所述支撑板的顶部设置有补光架，所述补光架的下表面设置有多个照明灯；所述活动遮光板朝向固定遮光板的一端设置支架，所述支架上设置有多个摄像头，每个所述摄像头与处理器相连。

本发明的有益效果是：本发明是一种基于机器翻译的日语假名和汉字识别方法，通过结合图像处理方法和深度学习算法，可以进行汉字和假名的自动分类和识别，避免了人工编写规则的繁琐工作。另外，基于图像的方法可以在较短的时间内完成汉字和假名的识别和转换，具有很高的实时性，适用于实时翻译和语音识别等场景。

附图说明

图1是本发明的流程示意图；

图2是本发明实施例二的设备俯视示意图；

图3是图2中A-A的剖视示意图；

图4是图2中B-B的剖视示意图；

图5是图2中C-C的剖视示意图；

图6是图2中D-D的剖视示意图；

附图标记：1—支撑板；2—固定遮光板；3—活动遮光板；4—支撑架；5—纸质资料容纳腔；6—第一定位板；7—第一定位辊；8—第一滑槽；9—第二定位辊；10—第一遮光带；11—第二遮光带；12—第二定位板；13—第三定位辊；14—第二滑槽；15—第四定位辊；16—补光架；17—照明灯；18—支架；19—摄像头。

实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的基于机器翻译的日语假名和汉字识别方法，流程如图1所示，包括

S1、将所需翻译的文本信息转换为图像数据。

具体地，先对文本信息进行预处理：

S11、去除文本中无关的字符和符号，无关的字符和符号包括HTML标签、URL链接、空格等。

S12、对齐文本，使得每行文本具有相同的格式和排版；

S13、对文本进行去重和分词，并将单词或词组标注为相应的词性，以便更好地进行文本分析和处理。

预处理后进行文本和图像的转换：

S14、在系统中预先存储多种日语字体，将预处理后的日语文本数据输入到系统中；

具体地，使用OCR技术中的矢量图渲染方法将文本渲染为矢量图形，其中，/>是表示文本信息转换后的矢量图形；/>是第/>个点的坐标，可以使用笛卡尔坐标系或极坐标系来表示，/>代表路径/>中点的数量。S2、图像预处理：

S21、使用高斯滤波法去除图像中的噪声，以避免噪声对特征提取和分类产生干扰，设矢量图形对应的矩阵为/>，则高斯滤波法去噪的公式为：

其中，表示处理后的矩阵的像素值，/>表示高斯核的大小，/>表示高斯核的标准差，/>表示相对于中心像素的偏移量，对于矩阵中的每一个像素/>，将其周围的像素按照高斯分布加权平均，并对结果进行归一化处理，得到去噪后的像素值；

S22、使用自适应二值化法将步骤S21得到的转换为黑白二值图像；方便后续的特征提取和分类，具体公式如下：

其中，表示二值化后的像素值，/>表示相应位置的局部阈值，可以根据相邻像素的均值或中值进行计算。二值化后，像素值为1表示该位置为物体，像素值为0表示该位置为背景。

S23、使用边缘增强滤波法对黑白二值图像进行滤波，以提高特征的辨别度：

其中，表示滤波后的像素值，/>表示边缘增强滤波器的滤波核，/>表示滤波核的半径。

S24、将步骤S23得的图像分割为多个区域，以便更好地提取特征信息。

S3、对预处理后的图像进行特征提取：

对预处理后的图像使用边缘检测算法提取出汉字和假名的特征信息。对分割处理后二值图像，使用Sobel算子对处理后的二值图像进行滤波，具体公式如下：

其中，水平和垂直方向的边缘响应值和/>。

所述识别模型由多个双向LSTM层和全连接层组成，分别在正向和反向的方向上处理输入序列，并将两个方向的输出进行合并，全连接层用于进行分类和转换；将准备好的数据集输入到模型中进行训练；在训练过程中，使用交叉熵损失函数和随机梯度下降优化算法进行模型训练和参数更新；使用测试集对训练好的模型进行测试，并评估模型的性能和准确度；在模型训练和测试完成后，使用训练好的模型对输入的汉字和假名进行识别和转换。

将识别和转换出来的汉字和假名文本输入机器翻译系统，进行翻译并输出目标语言文本。

翻译完成后，对翻译后的结果进行质量评估、错误纠正、翻译后编辑，实现翻译优化。

本发明的存储器，存储有可执行指令，所述可执行指令能够由处理器加载并执行上述方法。

本发明的设备，包括处理器和与处理器相连的存储器，所述存储器存储有可执行指令，所述可执行指令能够由处理器加载并执行上述方法。

实施例一

日语文本信息是电子版，可以直接通过复制粘贴的方式将文本信息输入机器翻译程序，此时设备可以采用电脑或者手机，机器翻译程序自动执行预处理、文本-图像转换-图像预处理-特征提取-汉字和假名的识别和转换-翻译-优化流程。

实施例二

当日语文本信息是纸质文本时，使用者难以快速将文本信息输入机器翻译程序，为了提高纸质日语文献的翻译效率，本发明还提供了一种便于对纸质日语文本进行假名和汉字识别的设备，该设备包括处理器和与处理器相连的存储器，存储器存储有可执行指令，可执行指令能够由处理器加载并执行上述步骤S2至步骤S4。如图2至图6所示，本设备还包括水平的支撑板1，支撑板1的一侧边设置有竖直的支撑架4，支撑板1上方设置有水平的固定遮光板2、水平的活动遮光板3、柔性的第一遮光带10和柔性的第二遮光带11，固定遮光板2和活动遮光板3的下方均设置有纸质资料容纳腔5，固定遮光板2和活动遮光板3之间设置有拍摄窗口，固定遮光板2固定安装于支撑架4，活动遮光板3与支撑架4滑动配合；固定遮光板2朝向活动遮光板3的一端的左侧设置有竖直的第一定位板6，第一定位板6上从上至下依次设置有多对水平的第一定位辊7，固定遮光板2朝向活动遮光板3的一端端面上设置有第一滑槽8以及水平的第二定位辊9，第一遮光带10位于每对第一定位辊7之间和每对第二定位辊9之间，且第一遮光带10的边缘位于第一滑槽8内并与第一滑槽8滑动配合；活动遮光板3朝向固定遮光板2的一端的右侧设置有竖直的第二定位板12，第二定位板12上从上至下依次设置有多对水平的第三定位辊13，活动遮光板3朝向固定遮光板2的一端端面上设置有第二滑槽14以及水平的第四定位辊15，第二遮光带11位于每对第三定位辊13和每对第四定位辊15之间，且第二遮光带11的边缘位于第二滑槽14并与第二滑槽14滑动配合；支撑板1的顶部设置有补光架16，补光架16的下表面设置有多个照明灯17，照明灯17用于提高光照条件，确保拍摄图像的清晰度；活动遮光板3朝向固定遮光板2的一端设置支架18，支架18上设置有多个摄像头19，每个摄像头19与处理器相连。

其中，支撑板1可采用金属板或者塑料板，形状呈矩形，支撑架4用于支撑固定遮光板2和活动遮光板3，处理器和存储器也可以设置在支撑架4上，为了便于输出翻译结果，可以在支撑架4上设置显示屏或者语音模块，显示屏或语音模块连接处理器。

固定遮光板2、活动遮光板3、第一遮光带10和第二遮光带11用于遮挡纸质资料上无需翻译的部分，使得需要翻译的部分位于拍摄窗口中，以便于摄像头19对处于拍摄窗口中的文档内容进行拍摄，得到图像，从而精确将需要翻译的语句或者段落等文本信息转换为图像数据，避免附近无需翻译的词句也处于图像中。第一遮光带10和第二遮光带11的遮光范围根据纸质资料上的文字行距确定，确保第一遮光带10和第二遮光带11刚好能够只遮挡一行文字。

固定遮光板2和活动遮光板3可以采用黑色的塑料板或者金属薄板。固定遮光板2可通过螺栓等固定在支撑架4上，活动遮光板3的侧边设置有燕尾形的滑块，而支撑架4的侧壁设置有燕尾形的滑槽，滑块位于滑槽中并与滑槽滑动配合。

第一遮光带10和第二遮光带11可采用韧性好的金属薄片，可以弯曲。表面涂覆黑色油漆，以减少反光。每对第一定位辊7之间和每对第二定位辊9之间具有间隙，第一遮光带10处于间隙中，且第一定位辊7和第二定位辊9对第一遮光带10施加适当的压力，在未收到外力时，第一遮光带10可保持稳定，不会移动，当第一遮光带10的端部受到拉力时，又能够拉动第一遮光带10移动。第一遮光带10的边缘位于第一滑槽8内并与第一滑槽8滑动配合，具体地，可以将第一遮光带10的边缘设置为燕尾形，与第一滑槽8配合后，可以起到导向、提高第一遮光带10运动稳定性的作用。第二遮光带11的定位和移动同理。将第一遮光带10和第二遮光带11设置为柔性的薄片，可以弯曲，部分处于竖直状态，部分处于水平状态，可节省第一遮光带10和第二遮光带11占用的面积，使得设备结构更加紧凑。

固定遮光板2和活动遮光板3与支撑板1之间具有适当的间距，该间距即为纸质资料容纳腔5，以便于利用固定遮光板2和活动遮光板3对纸质资料进行部分遮挡。

支架18设置在活动遮光板3上，可随着活动遮光板3同步移动，使得支架18上的摄像头19的拍摄范围始终覆盖拍摄窗口。

使用时，将纸质资料放入支撑板1上，移动纸质资料，使得待翻译文本之前的各行文字被固定遮光板2，然后拉动第一遮光带10，第一遮光带10将待翻译文本第一个字（或词）之前的文字遮挡，接着拉动第二遮光带11，使得第一遮光带10处于能够将待翻译文本最后一个字之后的文字遮挡，最后移动活动遮光板3，使活动遮光板3朝着固定遮光板2的方向移动，直到活动遮光板3将待翻译文本之后的各行文字遮挡。例如，需要待翻译文本位于纸质资料第3页的第6行第5个字到第11行第15个字，那么先将纸质资料第3页朝上，并水平放入纸质资料容纳腔5，移动纸质资料，使得第一遮光带10遮挡前5行，然后拉动第一遮光带10移动，使得然后拉动第一遮光带10遮挡第6行的前4个字，接着拉动第二遮光带11移动，使得第二遮光带11遮挡第16个字以及后面的字，最后移动活动遮光板3，使得活动遮光板3遮挡第12行，此时第二遮光带11刚好能够遮挡第11行第16个字以及后面的字，位于拍摄窗口内部的文字即第6行第5个字到第11行第15个字。

遮挡完成后，摄像头19对拍摄窗口中的文本进行拍摄，从而实现将纸质的文本信息转换为图像数据，处理器接收到图像数据后运行可执行指令，通过步骤S2至S4对图像进行处理，实现假名和汉字的识别和翻译。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于机器翻译的日语假名和汉字识别方法，其特征在于，包括

S1、将所需翻译的文本信息转换为图像数据；

S2、图像预处理；

S3、对预处理后的图像进行特征提取；

S4、将特征提取得到的每个汉字和假名转换为对应的向量表示，并基于PyTorch框架，构建识别模型，通过识别模型对向量进行分类和识别，然后将识别出来的假名转换为对应的汉字；

其中，步骤S1采用以下设备实现：

该设备包括水平的支撑板(1)，所述支撑板(1)的一侧边设置有竖直的支撑架(4)，所述支撑板(1)上方设置有水平的固定遮光板(2)、水平的活动遮光板(3)、柔性的第一遮光带(10)和柔性的第二遮光带(11)，所述固定遮光板(2)和活动遮光板(3)的下方均设置有纸质资料容纳腔(5)，所述固定遮光板(2)和活动遮光板(3)之间设置有拍摄窗口，所述固定遮光板(2)固定安装于支撑架(4)，所述活动遮光板(3)与支撑架(4)滑动配合；所述固定遮光板(2)朝向活动遮光板(3)的一端的左侧设置有竖直的第一定位板(6)，所述第一定位板(6)上从上至下依次设置有多对水平的第一定位辊(7)，所述固定遮光板(2)朝向活动遮光板(3)的一端端面上设置有第一滑槽(8)以及水平的第二定位辊(9)，所述第一遮光带(10)位于每对第一定位辊(7)之间和每对第二定位辊(9)之间，且第一遮光带(10)的边缘位于第一滑槽(8)内并与第一滑槽(8)滑动配合；所述活动遮光板(3)朝向固定遮光板(2)的一端的右侧设置有竖直的第二定位板(12)，所述第二定位板(12)上从上至下依次设置有多对水平的第三定位辊(13)，所述活动遮光板(3)朝向固定遮光板(2)的一端端面上设置有第二滑槽(14)以及水平的第四定位辊(15)，所述第二遮光带(11)位于每对第三定位辊(13)和每对第四定位辊(15)之间，且第二遮光带(11)的边缘位于第二滑槽(14)并与第二滑槽(14)滑动配合；所述支撑板(1)的顶部设置有补光架(16)，所述补光架(16)的下表面设置有多个照明灯(17)；所述活动遮光板(3)朝向固定遮光板(2)的一端设置支架(18)，所述支架(18)上设置有多个摄像头(19)，每个所述摄像头(19)与处理器相连。

2.如权利要求1所述的基于机器翻译的日语假名和汉字识别方法，其特征在于，步骤S2包括：

S21、使用高斯滤波法去除图像中的噪声：

设矢量图形V对应的矩阵为M，则高斯滤波法去噪的公式为：

其中，M'(x,y)表示处理后的矩阵的像素值，k表示高斯核的大小，σ表示高斯核的标准差，i,j表示相对于中心像素的偏移量，对于矩阵中的每一个像素(x,y)，将其周围的像素按照高斯分布加权平均，并对结果进行归一化处理，得到去噪后的像素值M'(x,y)；

S22、使用自适应二值化法将步骤S21得到的M'转换为黑白二值图像；

S23、使用边缘增强滤波法对黑白二值图像进行滤波；

S24、将步骤S23得的图像分割为多个区域。

3.如权利要求2所述的基于机器翻译的日语假名和汉字识别方法，其特征在于，步骤S3包括，对预处理后的图像使用边缘检测算法提取出汉字和假名的特征信息。

4.如权利要求1、2或3所述的基于机器翻译的日语假名和汉字识别方法，其特征在于，步骤S4中，所述识别模型由多个双向LSTM层和全连接层组成，分别在正向和反向的方向上处理输入序列，并将两个方向的输出进行合并，全连接层用于进行分类和转换；将准备好的数据集输入到模型中进行训练；在训练过程中，使用交叉熵损失函数和随机梯度下降优化算法进行模型训练和参数更新；使用测试集对训练好的模型进行测试，并评估模型的性能和准确度；在模型训练和测试完成后，使用训练好的模型对输入的汉字和假名进行转换。

5.如权利要求1所述的基于机器翻译的日语假名和汉字识别方法，其特征在于，步骤S1中，先对文本信息进行预处理：

S11、去除文本中无关的字符和符号；

S12、对齐文本，使得每行文本具有相同的格式和排版；

6.如权利要求5所述的基于机器翻译的日语假名和汉字识别方法，其特征在于，预处理后进行转换：

7.如权利要求6所述的基于机器翻译的日语假名和汉字识别方法，其特征在于，步骤S15中，使用OCR技术中的矢量图渲染方法将文本渲染为矢量图形。

8.存储器，其特征在于，存储有可执行指令，所述可执行指令能够由处理器加载并执行权利要求1至7任意一项权利要求所述的方法。

9.电子设备，其特征在于，包括处理器和与处理器相连的存储器，所述存储器存储有可执行指令，所述可执行指令能够由处理器加载并执行权利要求1至7任意一项权利要求中的步骤S2至步骤S4。