CN111814437A - 一种基于深度学习的盲文转中文方法 - Google Patents
一种基于深度学习的盲文转中文方法 Download PDFInfo
- Publication number
- CN111814437A CN111814437A CN202010466752.2A CN202010466752A CN111814437A CN 111814437 A CN111814437 A CN 111814437A CN 202010466752 A CN202010466752 A CN 202010466752A CN 111814437 A CN111814437 A CN 111814437A
- Authority
- CN
- China
- Prior art keywords
- braille
- deep learning
- chinese
- text
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000013136 deep learning model Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012937 correction Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013519 translation Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的盲文转中文方法。它具体包括如下步骤:(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。本发明的有益效果是:达到高精准度文本翻译结果。
Description
技术领域
本发明涉及深度学习相关技术领域,尤其是指一种基于深度学习的盲文转中文方法。
背景技术
盲文或称点字、凸字,是专为盲人设计、靠触觉感知的文字。透过点字板、点字机、点字打印机等在纸张上制作出不同组合的凸点而组成,一般每一个方块的点字是由六点组成,左侧从上到下为123,右侧为456,叫一方。它是由法国盲人路易·布莱尔于1824年创造的,故国际上通称为“布莱尔(Braille)”。
现有的盲文转中文的操作方式中,只是简单的对盲文进行一对一的中文字符转化,导致转化过来的中文往往存在错别字、语句不通顺或者翻译不正确,这样的转化方式导致盲文的文本转化率大大降低,准确率也不高。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种高精准度的基于深度学习的盲文转中文方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于深度学习的盲文转中文方法,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;
(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
本发明通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
作为优选,在步骤(1)中,盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
作为优选,在步骤(12)中,盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。
作为优选,在步骤(2)中,深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
作为优选,在步骤(22)中,具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
作为优选,在步骤(3)中,训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
本发明的有益效果是:通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
具体实施方式
下面结合具体实施方式对本发明做进一步的描述。
一种基于深度学习的盲文转中文方法,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
(2)深度学习模型构建:深度学习算法模型学习编码后的文本规律;深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
Claims (6)
1.一种基于深度学习的盲文转中文方法,其特征是,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;
(2)深度学习模型构建:深度学习算法模型学习编码后的文本规律;
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
2.根据权利要求1所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(1)中,盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
3.根据权利要求2所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(12)中,盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行2N计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行2N计算,然后求和,计算所得的数字就是编码后的值。
4.根据权利要求2或3所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(2)中,深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
5.根据权利要求4所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(22)中,具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
6.根据权利要求2或3所述的一种基于深度学习的盲文转中文方法,其特征是,在步骤(3)中,训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010466752.2A CN111814437A (zh) | 2020-05-28 | 2020-05-28 | 一种基于深度学习的盲文转中文方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010466752.2A CN111814437A (zh) | 2020-05-28 | 2020-05-28 | 一种基于深度学习的盲文转中文方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814437A true CN111814437A (zh) | 2020-10-23 |
Family
ID=72848554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010466752.2A Pending CN111814437A (zh) | 2020-05-28 | 2020-05-28 | 一种基于深度学习的盲文转中文方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814437A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035026A (zh) * | 2021-03-10 | 2021-06-25 | 之江实验室 | 一种盲文信息无障碍的视听触感知匹配方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010029455A1 (en) * | 2000-03-31 | 2001-10-11 | Chin Jeffrey J. | Method and apparatus for providing multilingual translation over a network |
US20090125607A1 (en) * | 1996-11-12 | 2009-05-14 | Rhoads Geoffrey B | Methods and Arrangements Employing Digital Content Items |
CN102591476A (zh) * | 2012-01-06 | 2012-07-18 | 浙江宇天科技股份有限公司 | 支持盲文的手机的信息输入方法及支持盲文输入的手机 |
CN106021241A (zh) * | 2016-05-09 | 2016-10-12 | 河海大学 | 盲文点位汉字编码及其与盲文之间的机器翻译方法 |
CN107368474A (zh) * | 2017-07-07 | 2017-11-21 | 浙江理工大学 | 一种汉文到盲文的自动高效翻译转换方法 |
CN107784320A (zh) * | 2017-09-27 | 2018-03-09 | 电子科技大学 | 基于卷积支持向量机的雷达一维距离像目标识别方法 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN109241540A (zh) * | 2018-08-07 | 2019-01-18 | 中国科学院计算技术研究所 | 一种基于深度神经网络的汉盲自动转换方法和系统 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN110276069A (zh) * | 2019-05-17 | 2019-09-24 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
-
2020
- 2020-05-28 CN CN202010466752.2A patent/CN111814437A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125607A1 (en) * | 1996-11-12 | 2009-05-14 | Rhoads Geoffrey B | Methods and Arrangements Employing Digital Content Items |
US20010029455A1 (en) * | 2000-03-31 | 2001-10-11 | Chin Jeffrey J. | Method and apparatus for providing multilingual translation over a network |
CN102591476A (zh) * | 2012-01-06 | 2012-07-18 | 浙江宇天科技股份有限公司 | 支持盲文的手机的信息输入方法及支持盲文输入的手机 |
CN106021241A (zh) * | 2016-05-09 | 2016-10-12 | 河海大学 | 盲文点位汉字编码及其与盲文之间的机器翻译方法 |
CN107368474A (zh) * | 2017-07-07 | 2017-11-21 | 浙江理工大学 | 一种汉文到盲文的自动高效翻译转换方法 |
CN107784320A (zh) * | 2017-09-27 | 2018-03-09 | 电子科技大学 | 基于卷积支持向量机的雷达一维距离像目标识别方法 |
CN109241540A (zh) * | 2018-08-07 | 2019-01-18 | 中国科学院计算技术研究所 | 一种基于深度神经网络的汉盲自动转换方法和系统 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN110276069A (zh) * | 2019-05-17 | 2019-09-24 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
Non-Patent Citations (4)
Title |
---|
GUO QIAN 等: "Mining logic patterns from visual data", 《2019 INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW)》, pages 620 - 627 * |
LI ZHIPENG 等: "Intelligent braille conversion system of Chinese characters based on Markov model", 《2019 IEEE 3RD INFORMATION TECHNOLOGY, NETWORKING, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (ITNEC)》, pages 1283 - 1287 * |
王玥: "融合区分度信息的神经网络关系分类方法", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 1367 * |
蔡佳 等: "基于汉盲对照语料库和深度学习的汉盲自动转换", 《中文信息学报》, vol. 33, no. 4, pages 60 - 67 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035026A (zh) * | 2021-03-10 | 2021-06-25 | 之江实验室 | 一种盲文信息无障碍的视听触感知匹配方法 |
CN113035026B (zh) * | 2021-03-10 | 2022-06-17 | 之江实验室 | 一种盲文信息无障碍的视听触感知匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948152B (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN109492202B (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN108268444B (zh) | 一种基于双向lstm、cnn和crf的中文分词方法 | |
CN110597947B (zh) | 一种基于全局和局部注意力交互的阅读理解系统及方法 | |
CN110795556B (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
CN109241540B (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
CN110765772A (zh) | 拼音作为特征的中文语音识别后的文本神经网络纠错模型 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN108153913A (zh) | 回复信息生成模型的训练方法、回复信息生成方法及装置 | |
CN107368474A (zh) | 一种汉文到盲文的自动高效翻译转换方法 | |
WO2023173533A1 (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110309512A (zh) | 一种基于生成对抗网络的中文语法错误更正方法 | |
Moradi et al. | Entropy of English text: Experiments with humans and a machine learning system based on rough sets | |
CN111581985B (zh) | 一种基于Transformer的汉盲翻译方法及系统 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN111814437A (zh) | 一种基于深度学习的盲文转中文方法 | |
CN115099244A (zh) | 一种语音翻译的方法、训练语音翻译模型的方法及装置 | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN106339367B (zh) | 一种蒙古文自动校正方法 | |
CN115906812A (zh) | 一种字形错误检测和拼音错误检测的文本纠错方法 | |
CN116187409A (zh) | 一种基于深度学习的盲文翻译方法 | |
CN111428509B (zh) | 一种基于拉丁字母的维吾尔语处理方法和系统 | |
CN115034236A (zh) | 一种基于知识蒸馏的中英机器翻译方法 | |
CN101231558A (zh) | 甲骨文拼音与部件拆分输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240510 |
|
AD01 | Patent right deemed abandoned |