CN111814437A - 一种基于深度学习的盲文转中文方法 - Google Patents

一种基于深度学习的盲文转中文方法 Download PDF

Info

Publication number
CN111814437A
CN111814437A CN202010466752.2A CN202010466752A CN111814437A CN 111814437 A CN111814437 A CN 111814437A CN 202010466752 A CN202010466752 A CN 202010466752A CN 111814437 A CN111814437 A CN 111814437A
Authority
CN
China
Prior art keywords
braille
deep learning
chinese
text
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010466752.2A
Other languages
English (en)
Inventor
于红雷
邹可
孙俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Kr Vision Technology Co ltd
Original Assignee
Hangzhou Kr Vision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Kr Vision Technology Co ltd filed Critical Hangzhou Kr Vision Technology Co ltd
Priority to CN202010466752.2A priority Critical patent/CN111814437A/zh
Publication of CN111814437A publication Critical patent/CN111814437A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的盲文转中文方法。它具体包括如下步骤:(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。本发明的有益效果是:达到高精准度文本翻译结果。

Description

一种基于深度学习的盲文转中文方法
技术领域
本发明涉及深度学习相关技术领域,尤其是指一种基于深度学习的盲文转中文方法。
背景技术
盲文或称点字、凸字,是专为盲人设计、靠触觉感知的文字。透过点字板、点字机、点字打印机等在纸张上制作出不同组合的凸点而组成,一般每一个方块的点字是由六点组成,左侧从上到下为123,右侧为456,叫一方。它是由法国盲人路易·布莱尔于1824年创造的,故国际上通称为“布莱尔(Braille)”。
现有的盲文转中文的操作方式中,只是简单的对盲文进行一对一的中文字符转化,导致转化过来的中文往往存在错别字、语句不通顺或者翻译不正确,这样的转化方式导致盲文的文本转化率大大降低,准确率也不高。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种高精准度的基于深度学习的盲文转中文方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于深度学习的盲文转中文方法,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;
(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
本发明通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
作为优选,在步骤(1)中,盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
作为优选,在步骤(12)中,盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。
作为优选,在步骤(2)中,深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
作为优选,在步骤(22)中,具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
作为优选,在步骤(3)中,训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
本发明的有益效果是:通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
具体实施方式
下面结合具体实施方式对本发明做进一步的描述。
一种基于深度学习的盲文转中文方法,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
(2)深度学习模型构建:深度学习算法模型学习编码后的文本规律;深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。

Claims (6)

1.一种基于深度学习的盲文转中文方法,其特征是,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;
(2)深度学习模型构建:深度学习算法模型学习编码后的文本规律;
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
2.根据权利要求1所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(1)中,盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
3.根据权利要求2所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(12)中,盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行2N计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行2N计算,然后求和,计算所得的数字就是编码后的值。
4.根据权利要求2或3所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(2)中,深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
5.根据权利要求4所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(22)中,具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
6.根据权利要求2或3所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(3)中,训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
CN202010466752.2A 2020-05-28 2020-05-28 一种基于深度学习的盲文转中文方法 Pending CN111814437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010466752.2A CN111814437A (zh) 2020-05-28 2020-05-28 一种基于深度学习的盲文转中文方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010466752.2A CN111814437A (zh) 2020-05-28 2020-05-28 一种基于深度学习的盲文转中文方法

Publications (1)

Publication Number Publication Date
CN111814437A true CN111814437A (zh) 2020-10-23

Family

ID=72848554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010466752.2A Pending CN111814437A (zh) 2020-05-28 2020-05-28 一种基于深度学习的盲文转中文方法

Country Status (1)

Country Link
CN (1) CN111814437A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035026A (zh) * 2021-03-10 2021-06-25 之江实验室 一种盲文信息无障碍的视听触感知匹配方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
US20090125607A1 (en) * 1996-11-12 2009-05-14 Rhoads Geoffrey B Methods and Arrangements Employing Digital Content Items
CN102591476A (zh) * 2012-01-06 2012-07-18 浙江宇天科技股份有限公司 支持盲文的手机的信息输入方法及支持盲文输入的手机
CN106021241A (zh) * 2016-05-09 2016-10-12 河海大学 盲文点位汉字编码及其与盲文之间的机器翻译方法
CN107368474A (zh) * 2017-07-07 2017-11-21 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法
CN107784320A (zh) * 2017-09-27 2018-03-09 电子科技大学 基于卷积支持向量机的雷达一维距离像目标识别方法
CN109214002A (zh) * 2018-08-27 2019-01-15 成都四方伟业软件股份有限公司 一种文本对比方法、装置及其计算机存储介质
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN110276069A (zh) * 2019-05-17 2019-09-24 中国科学院计算技术研究所 一种中国盲文错误自动检测方法、系统及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125607A1 (en) * 1996-11-12 2009-05-14 Rhoads Geoffrey B Methods and Arrangements Employing Digital Content Items
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
CN102591476A (zh) * 2012-01-06 2012-07-18 浙江宇天科技股份有限公司 支持盲文的手机的信息输入方法及支持盲文输入的手机
CN106021241A (zh) * 2016-05-09 2016-10-12 河海大学 盲文点位汉字编码及其与盲文之间的机器翻译方法
CN107368474A (zh) * 2017-07-07 2017-11-21 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法
CN107784320A (zh) * 2017-09-27 2018-03-09 电子科技大学 基于卷积支持向量机的雷达一维距离像目标识别方法
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109214002A (zh) * 2018-08-27 2019-01-15 成都四方伟业软件股份有限公司 一种文本对比方法、装置及其计算机存储介质
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN110276069A (zh) * 2019-05-17 2019-09-24 中国科学院计算技术研究所 一种中国盲文错误自动检测方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUO QIAN 等: "Mining logic patterns from visual data", 《2019 INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW)》, pages 620 - 627 *
LI ZHIPENG 等: "Intelligent braille conversion system of Chinese characters based on Markov model", 《2019 IEEE 3RD INFORMATION TECHNOLOGY, NETWORKING, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (ITNEC)》, pages 1283 - 1287 *
王玥: "融合区分度信息的神经网络关系分类方法", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 1367 *
蔡佳 等: "基于汉盲对照语料库和深度学习的汉盲自动转换", 《中文信息学报》, vol. 33, no. 4, pages 60 - 67 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035026A (zh) * 2021-03-10 2021-06-25 之江实验室 一种盲文信息无障碍的视听触感知匹配方法
CN113035026B (zh) * 2021-03-10 2022-06-17 之江实验室 一种盲文信息无障碍的视听触感知匹配方法

Similar Documents

Publication Publication Date Title
CN109948152B (zh) 一种基于lstm的中文文本语法纠错模型方法
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN108268444B (zh) 一种基于双向lstm、cnn和crf的中文分词方法
CN110597947B (zh) 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN109241540B (zh) 一种基于深度神经网络的汉盲自动转换方法和系统
CN110765772A (zh) 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN108153913A (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
CN107368474A (zh) 一种汉文到盲文的自动高效翻译转换方法
WO2023173533A1 (zh) 文本纠错方法、装置、设备及存储介质
CN110309512A (zh) 一种基于生成对抗网络的中文语法错误更正方法
Moradi et al. Entropy of English text: Experiments with humans and a machine learning system based on rough sets
CN111581985B (zh) 一种基于Transformer的汉盲翻译方法及系统
CN115438154A (zh) 基于表征学习的中文自动语音识别文本修复方法及系统
CN111814437A (zh) 一种基于深度学习的盲文转中文方法
CN115099244A (zh) 一种语音翻译的方法、训练语音翻译模型的方法及装置
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN106339367B (zh) 一种蒙古文自动校正方法
CN115906812A (zh) 一种字形错误检测和拼音错误检测的文本纠错方法
CN116187409A (zh) 一种基于深度学习的盲文翻译方法
CN111428509B (zh) 一种基于拉丁字母的维吾尔语处理方法和系统
CN115034236A (zh) 一种基于知识蒸馏的中英机器翻译方法
CN101231558A (zh) 甲骨文拼音与部件拆分输入法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240510

AD01 Patent right deemed abandoned