CN110580350A - 一种汉字与英语的互通互识技术方法 - Google Patents

一种汉字与英语的互通互识技术方法 Download PDF

Info

Publication number
CN110580350A
CN110580350A CN201710540939.0A CN201710540939A CN110580350A CN 110580350 A CN110580350 A CN 110580350A CN 201710540939 A CN201710540939 A CN 201710540939A CN 110580350 A CN110580350 A CN 110580350A
Authority
CN
China
Prior art keywords
english
picture
chinese character
chinese
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710540939.0A
Other languages
English (en)
Inventor
艾朝君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710540939.0A priority Critical patent/CN110580350A/zh
Publication of CN110580350A publication Critical patent/CN110580350A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉一种汉字互通互识英文的系统实现方法,包括根据英文互通互识汉字字形的方法和根据汉字字形查询对应英文的方法:根据英文互通互识汉字字形的方法中包括建立汉字字形与对应英文的数据映射和实现网络服务,提供互通互识功能两个步骤;根据汉字字形查询对应英文的方法中包括建立汉字字形特征字串数据库和汉字字形识别的实现方法及算法两个步骤,本发明具有独创性,应用本方法建立的汉字互通互识英文系统,供汉字的爱好者根据英文查出其对应汉字的写法,以及供汉字的学习者在看到某个汉字的字形之后,查询其对应的英文,有利于人们认识和学习汉字,有利于中文汉字在全世界范围的推广、使用。

Description

一种汉字与英语的互通互识技术方法
1.技术领域
本发明涉及汉字与各种语言的互通互识领域,尤其涉及一宗应用在中文与各种语言互通互识系统中的中英文直接互通互识的实现方法。
2.背景技术
文字为人类表现思想、发展生活交流之工具,中国历史悠久,文字巨多,为说汉语的人类通用。汉字使用人数目前世界第一,传承中国5000年文化增强中华各民族的向心力和凝聚力。汉字所传播的文化精髓,增强了各民族间的认同感,是历史上各民族文化交流方面的黏合剂。中华泱泱大国之所以分久必合,其重要原因之一就是汉字承载的文化始终是各民族所共同认同的。
汉字是联合国官方文字之一,所有文件必须翻译成汉字存档,随着中国国力日渐增强,学习汉语\汉字的外国人日渐增多。随着中国在世界所拥有的历史地位,中华名族的精髓——汉字,也应当成为世界通用语言。
然而要想使汉字文化推广的更快更广,就需要借助当今的高科技,建立一套中文汉字与世界各国语言文字互通互识系统,该系统要将每个汉字采集到该系统的数据库中,然后汉字学习者用能够连接互联网的终端访问该系统的数据库,数据库中的信息被反馈到终端上,学习者从而根据世界各种语言文字查询汉字字形或者根据汉字字形查询对应的世界各种语言文字,要想建立这套中文汉字互通互识世界各种语言文字系统,就需要一套行之有效的方法。
3.发明内容
本发明的目的在于克服现有技术中的不足而提供的一种应用在中文与各种语言互通互识系统中的中英文直接互通互识的实现方法。
一种中文直接互通互识英文的系统实现方法,其特征在于:包括根据英文互通互识汉字字形的方法和根据汉字字形查询对应英文的方法。
所述的根据英文互通互识汉字书字形的方法包括以下步骤:
步骤1)、建立汉字字形对应英文的数据映射:把所有的英文翻译写成汉字字形,将写好的汉字字形扫描成电子版,每一个字生成一个图片,保存成以相对应的英文命名的jpeg格式图片文件,jpeg格式图片文件与对应的汉字一对一映射,建立数据库。
步骤2)、实现网络服务,提供汉字与英语的互通互识功能:在与互联网相连接的硬件上安装具有汉字互通互识英文功能的汉字文本输入框,供用户输入汉字,所述的汉字文本输入框与存放有jpeg格式图片文件的数据库相连接,用户在汉字文本输入框上选择英文互通互识功能,后台服务根据汉字从英文与汉字字形图片映射的数据库中查询英文对应的图片,并传输到客户端,然后在客户端上显示出来,供用户查看、使用;
所述的根据汉字互通互识对应英文的方法包括以下步骤:
步骤1)、建立汉字字形特征字串数据库;
把所有的英文编译写成对应的汉字,将写好的汉字扫描成电子版,每个字生成一张图片,保存成以相对应的英文命名的JPEG格式图片文件,分别对每个图片文件进行处理,生成对应的特征字串,特征字串的生成方法如下:
第一步,图像读取;
将以上生成的以相对应的英文命名的JPEG格式的原始图片读取到图片处理软件中;
第二步,颜色处理;
在图片处理软件中对第一步添加进来的图片进行处理,完全生成“白底黑字”,所述的“白底黑字”是字体本身为黑色,字体以外的背景为白色;
第三步,切割处理;
通过图片处理软件处理第二步得到的图片,字外的空余部分被水平、竖直的切割掉,字体的最外侧的边缘与图片的边缘重合;
第四步,压缩处理;
对第三步处理后得到的图片进行压缩处理,得到一个标准大小尺寸的图片;
第五步,生成特征字串;
对第四步处理后得到的图片的各个像素点进行扫描,以黑色为1,以白色为0,得到一个64位的字串,
所有的汉字字形全部按照上述方法处理后得到的字串与图片、英文音标、英文翻译一对一映射,建立字据库;
步骤2)、汉字字形识别的实现方法和算法:
第一步,取像:
在互联网连接的硬件设备上安装具有拍照功能的汉字识别软件,所述的与互联网相连接的设备具有拍照功能,用硬件设备对需要识别的汉字进行拍照取像,拍照获得的图像大小设置为固定大小,在照相时,需要确保拍照获得的图片中只有需要识别的单个汉字字形。
第二步,处理:
根据步骤1)中“建立汉字字形特征字串”中的图片处理的方法对第一步中生成的图片进行处理,得到此图片中汉字字形的特征字串。
第三步,比较:
把第二步中计算出的需要识别的汉字字形特征字串上传到服务端,与数据库中的所有字串进行比较,找到与需要识别汉字字形的特征字串相似度最高的字串。
第四步,显示:
根据第三步找到与需要识别汉字字形的特征字串相似度最高的字串后,根据字串可以从数据库中查找到与该字串对应的图片、英文音标、英文翻译,后台通过互联网把这些图片、英文音标、英文翻译传输到与互联网相连接的硬件上安装的软件上,通过软件的界面显示出这些图片、英文音标、英文翻译,供用户对比、学习、使用。
所述的根据汉字字形互通互识对应英文的方法步骤中1)中第四步生成标准大小尺寸图片的图片尺寸大小为8*8,单位为毫米。
所述的根据汉字字形互通互识对应英文的方法步骤中2)的第一步中拍照获得的图片大小设置为固定尺寸大小为800*600,单位为毫米。
所述的根据汉字字形互通互识对应英文的方法步骤中2)的第一步中所述互联网相连接的硬件为带有拍照功能的电脑。
所述的根据汉字字形互通互识对应英文的方法步骤中2)的第一步中所述互联网相连接的硬件为带有拍照功能的智能手机、智能手表等其他智能设备。
本发明具有独创性,应用本发明将汉字字形采用高科技信息化,每个汉字用摄像记录、输入汉字数据库中,每个汉字都有与之相对应的英文音标、英文翻译,应用本方法建立的中文互通互识英文系统,供英文使用者根据汉字直通英文的写法,以及供英文学习者看到某个汉字后,即刻互通互识到对应的英文,特别是在用汉字字形互通互识对应英文时,应用本发明建立的中文互通互识英文系统对汉字字形的识别准确度达到了99%以上,有利于人们们认识和学习中文,有利于汉字在全世界范围的推广、使用
4.附图说明
通过参照附图更详细地描述本发明的示例性实施例,本发明的以上和其它方面及优点将变得更加易于清楚,在附图中:
图1:本发明所采用的设计方法流程图;
图2为本发明实施例中的图片。
图3为本发明实施例中的图片。
图4为本发明实施例中的图片。
5.具体实施方式
在下文中,现在将参照附图更充分地描述本发明,在附图中示出了各种实施例。然而,本发明可以以许多不同的形式来实施,且不应该解释为局限于在此阐述的实施例。相反,提供这些实施例使得本公开将是彻底和完全的,并将本发明的范围充分地传达给本领域技术人员。
在下文中,将参照附图更详细地描述本发明的示例性实施例。
实施例:如图1所示,一种中文互通互识英文系统实现方法,包括根据汉字互通互识英文的方法和根据英文互通互识对应的汉字的方法;
所述的根据汉字互通互识英文的方法包括以下步骤:
步骤1)建立汉字字形与对应英文的数据映射:把所有的英文写成汉字字形,将写好的汉字字形扫描成电子版,每个字生成一张图片,保存成以相对应得英文命名的Peg格式图片文件,Peg格式图片文件与对应的英文一对一映射,存放到数据库中;
汉字与相对应的英文命名的Peg格式图片文件,示例如下:
汉字 英文命名的汉字字形图片
汉.JP
字.JP
字.JP
形.JP
步骤2)、实现网络服务,提供查询功能:在与互联网相连接的手机上安装具有查询功能汉字文本输入框的手机软件,供用户输入汉字,所述的汉字文本输入框与存放有Peg格式图片文件的数据库相连接,用户在汉字文本输入框上选择英文互通互识功能,后台服务根据汉字与汉字字形图片映射的数据库中查询出英文对应的图片并传输到客户端,然后在客户端上显示出来,供用户查看学习;
所述的根据汉字字形查询对应英文的方法包括以下步骤:
步骤1)、建立字形字形特征字串数据库;
把所有的英文写成汉字字形,将写好的汉字字形扫描成电子版,每个字生成一张图片,保存成以相对应的英文命名的Peg格式图片文件,分别对每个图片文件进行处理,生成对应的特征字串,特征字串的生成方法如下:
第一步,图像读取:
将以上生成的以相对应的英文命名的Peg格式的原始图片读取到图片处理软件中,以“明”为例,读取的原始图片如图2所示
第二步,颜色处理:
在图片处理软件中对第一步添加进来的图片进行处理,完全生成“白(0xFFFFFF)底黑(0x000000)字”,所述的“白底黑字”是字体本身为黑色,字体以外的背景为白色,处理后的图片如图3所示
第三部,切割处理:
通过图片处理软件处理第二步得到的图片,把字外的空余部分水平、竖直的切割掉,字体上、下、左、右四个方向最外侧的边缘与图片的边缘重合;
处理后的图片如图4所示;
第四步,压缩处理:
对第三步处理后得到的图片的各个像素点进行压缩处理,得到一个8*8的图片;
第五步,生成特征字串:
对第四步处理后得到的图片的各个像素点进行扫描,以黑色为1,以白色为0,可以得到一个64位的字串,对”明“字的汉字字形处理后得到的字串为:
0000001100000100000100001000101011111110000101000010001000100100
将处理后得到的字串与图片、汉字、拼音、英文翻译一对一映射,存储到数据库中;
步骤2)、汉字字形识别的实现方法及算法:
第一步:取像:
在与互联网连接的智能手机上安装具有拍照功能的汉字识别软件,所述的与互联网相连接的智能手机具有拍照功能,用智能相机对需要识别的汉字字形进行拍照取像,拍照时打开智能手机上的闪光灯,从而避免相对图片上有阴影,影响图片质量,拍照获得的图片大小设置为800*600,在照相时,需要确保拍照获得的图片只有需要识别的单个汉字字形;
第二步:处理:
根据步骤1)中“建立汉字字形特征字串”中的图片处理的方法对第一步中生成的图片进行处理,得到此图片中汉字字形的特征字串;
第三步:比较:
把第二步中计算出的需要识别的汉字字形的特征字串上传到服务端,与数据库中的所有字串进行比较,找到与需要识别汉字字形的特征字串相似度最高的字串,相似度比较算法如下表所示:
第四步:显示:
根据第三步找到与需要识别汉字字形的特征字串相似度最高的字串后,根据字串可以从数据库中查找到与该字串对应的图片汉字、拼音和英文,后台通过互联网把这些图片、汉字、拼音、和英文,供用户对比、学习使用。
经过测试,根据上述算法,针对汉字字形的识别,准确度达到了99%以上。
以上所述仅为本发明的实施例而已,并不用于限制本发明。本发明可以有各种合适的更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种汉字与英语的互通互识技术方法,
其特征在于:
包括通过汉字直通对应英文的方法和通过英文直通对应汉字的方法;
所述的一种汉字与英语的互通互识技术方法包括以下步骤:
步骤1、建立汉字与对应英文的数据映射:把所有的英文编译写成汉字,将写好的汉字字形扫描成电子版,每个字生成一张图片,保存成以相对应的英文命名的jpeg格式图片文件,jpeg格式图片文件与对应的汉字一对一映射,建成数据库;
步骤2、实现网络服务,提供汉字与英语的互通互识功能:在与互联网相连接的硬件上安装具有汉字互通互识英文功能的汉字文本输入框,供用户输入汉字,所述的汉字文本输入框与存放有jpeg格式图片文件的数据库相连接,用户在汉字文本输入框上选择英文互通互识功能,后台服务根据汉字从英文与汉字字形图片映射的数据库中查询英文对应的图片,并传输到客户端,然后在客户端上显示出来,供用户查看、使用;
所述的根据汉字互通互识对应英文的方法包括以下步骤:
步骤1)、建立汉字特征字串数据库;
把所有的英文编译写成对应的汉字,将写好的汉字扫描成电子版,每个字生成一张图片,保存成以相对应的英文命名的JPEG格式图片文件,分别对每个图片文件进行处理,生成对应的特征字串,特征字串的生成方法如下:
第一步,图像读取;
将以上生成的以相对应的英文命名的JPEG格式的原始图片读取到图片处理软件中;
第二步,颜色处理;
在图片处理软件中对第一步添加进来的图片进行处理,完全生成“白底黑字”,所述的“白底黑字”是字体本身为黑色,字体以外的背景为白色;
第三步,切割处理;
通过图片处理软件处理第二步得到的图片,字外的空余部分被水平、竖直的切割掉,字体的最外侧的边缘与图片的边缘重合;
第四步,压缩处理;
对第三步处理后得到的图片进行压缩处理,得到一个标准大小尺寸的图片;
第五步,生成特征字串;
对第四步处理后得到的图片的各个像素点进行扫描,以黑色为1,以白色为0,得到一个64位的字串,
所有的汉字字形全部按照上述方法处理后得到的字串与图片、英文音标、英文翻译一对一映射,建立字串数据库;
步骤2)、汉字识别的实现方法和算法:
第一步,取像:
在互联网连接的硬件设备上安装具有拍照功能的汉字识别软件,所述的与互联网相连接的设备具有拍照功能,用硬件设备对需要识别的汉字进行拍照取像拍照获得的图像大小设置为固定大小,在照相时,需要确保拍照获得的图片中只有需要识别的单个汉字字形。
第二步,处理:
根据步骤1)中“建立汉字字形特征字串”中的图片处理的方法对第一步中生成的图片进行处理,得到此图片中汉字字形的特征字串。
第三步,比较:
把第二步中计算出的需要识别的汉字字形特征字串上传到服务端,与数据库中的所有字串进行比较,找到与需要识别汉字字形的特征字串相似度最高的字串。
第四步,显示:
根据第三步找到与需要识别汉字字形的特征字串相似度最高的字串后,根据字串可以从数据库中查找到与该字串对应的图片、英文音标、英文翻译,后台通过互联网把这些图片、英文音标、英文翻译传输到与互联网相连接的硬件上安装的软件上,通过软件的界面显示出这些图片、英文音标、英文翻译,供用户对比、学习、使用。
2.如权利要求1所述的汉字与英文互通互识实现方法,其特征在于:所述的根据汉字字形互通互识对应英文的方法步骤中1)中第四步生成标准大小尺寸图片的图片尺寸大小为8*8,单位为毫米。
3.如权利要求1所述的汉字与英文互通互识实现方法,其特征在于:所述的根据汉字字形互通互识对应英文的方法步骤中2)的第一步中拍照获得的图片大小设置为固定尺寸大小为800*600,单位为毫米。
4.如权利要求1所述的汉字与英文互通互识实现方法,其特征在于:
所述的根据汉字字形互通互识对应英文的方法步骤中2)的第一步中所述互联网相连接的硬件为带有拍照功能的电脑。
5.如权利要求1所述的汉字与英文互通互识实现方法,其特征在于:
所述的根据汉字字形互通互识对应英文的方法步骤中2)的第一步中所述互联网相连接的硬件为带有拍照功能的智能手机、智能手表等其他智能设备。
CN201710540939.0A 2017-07-04 2017-07-04 一种汉字与英语的互通互识技术方法 Pending CN110580350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710540939.0A CN110580350A (zh) 2017-07-04 2017-07-04 一种汉字与英语的互通互识技术方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710540939.0A CN110580350A (zh) 2017-07-04 2017-07-04 一种汉字与英语的互通互识技术方法

Publications (1)

Publication Number Publication Date
CN110580350A true CN110580350A (zh) 2019-12-17

Family

ID=68808712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710540939.0A Pending CN110580350A (zh) 2017-07-04 2017-07-04 一种汉字与英语的互通互识技术方法

Country Status (1)

Country Link
CN (1) CN110580350A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN103488711A (zh) * 2013-09-09 2014-01-01 北京大学 一种快速制作矢量字库的方法及系统
CN103778250A (zh) * 2014-02-19 2014-05-07 张朝亮 中文五笔草书字典查询系统实现方法
CN104239861A (zh) * 2014-09-10 2014-12-24 深圳市易讯天空网络技术有限公司 卷曲文本图像预处理方法和彩票扫描识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN103488711A (zh) * 2013-09-09 2014-01-01 北京大学 一种快速制作矢量字库的方法及系统
CN103778250A (zh) * 2014-02-19 2014-05-07 张朝亮 中文五笔草书字典查询系统实现方法
CN104239861A (zh) * 2014-09-10 2014-12-24 深圳市易讯天空网络技术有限公司 卷曲文本图像预处理方法和彩票扫描识别方法

Similar Documents

Publication Publication Date Title
US20150205777A1 (en) Automated form fill-in via form retrieval
CN104253904A (zh) 一种实现点读学习的方法及智能手机
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
CN109753968A (zh) 字符识别模型的生成方法、装置、设备及介质
TWM457241U (zh) 結合擴增實境的圖像文字辨識系統
CN110580359A (zh) 一种汉字与阿拉伯语的互通互识技术方法
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN110580343A (zh) 一种汉字与乌尔都语的互通互识技术方法
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN110580350A (zh) 一种汉字与英语的互通互识技术方法
CN110580344A (zh) 一种汉字与西班牙语的互通互识技术方法
CN110580345A (zh) 一种汉字与法语的互通互识技术方法
CN110580348A (zh) 一种汉字与俄语的互通互识技术方法
CN110580354A (zh) 一种汉字与日语的互通互识技术方法
CN110580349A (zh) 一种汉字与波斯语的互通互识技术方法
CN110580360A (zh) 一种汉字与所有语言文字的互通互识技术方法
CN110580355A (zh) 一种汉字与所有语言文字的互通互识技术方法
CN110580356A (zh) 一种汉字与德语的互通互识技术方法
CN110580353A (zh) 一种汉字与越南语的互通互识技术方法
CN110580357A (zh) 一种汉字与韩语的互通互识技术方法
CN110580351A (zh) 一种汉字与意大利语的互通互识技术方法
CN110580358A (zh) 一种汉字与梵语的互通互识技术方法
CN110580346A (zh) 一种汉字与孟加拉语的互通互识技术方法
CN110580347A (zh) 一种汉字与葡萄牙语的互通互识技术方法
CN110580352A (zh) 一种汉字与行书的互通互识技术方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191217

WD01 Invention patent application deemed withdrawn after publication