CN1119758C - 汉语盲文到汉字的自动转换方法 - Google Patents

汉语盲文到汉字的自动转换方法 Download PDF

Info

Publication number
CN1119758C
CN1119758C CN 01118674 CN01118674A CN1119758C CN 1119758 C CN1119758 C CN 1119758C CN 01118674 CN01118674 CN 01118674 CN 01118674 A CN01118674 A CN 01118674A CN 1119758 C CN1119758 C CN 1119758C
Authority
CN
China
Prior art keywords
braille
chinese character
chinese
conversion
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 01118674
Other languages
English (en)
Other versions
CN1323004A (zh
Inventor
朱小燕
江铭虎
夏莹
马少平
姜哲
包塔
谭刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 01118674 priority Critical patent/CN1119758C/zh
Publication of CN1323004A publication Critical patent/CN1323004A/zh
Application granted granted Critical
Publication of CN1119758C publication Critical patent/CN1119758C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明属于计算机文字处理技术领域,涉及汉语盲文到汉字的自动转换方法,将盲文书籍扫描后识别成为盲文文本,或用键盘输入盲文文本,将该盲文文本当作拼音流转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。使得系统整体转换正确率达到97%以上。

Description

汉语盲文到汉字的自动转换方法
技术领域
本发明属于计算机文字处理技术领域,特别涉及盲人用计算机的文字转换技术。
背景技术
盲人使用盲文(摸读的点字符号)进行文化学习与信息交流。目前在国外一些发达国家中,已经研究出较好的盲人用计算机及其操作平台。英国已研制出盲人用的计算机,其键盘各键是由大小、形状、纹理不一,每键均带有发声机制的多媒体信息交互功能。在中国,近年来为了使盲人能够使用计算机及能够阅读普通文本也作了一些局部的工作,如中国盲文书社在中国残疾人联合会和中国盲人协会的资助支持下,研制出盲文分词连写系统;北京图书馆在Dos操作系统下研究过盲人阅读机,是将印刷体普通汉字文本通过扫描输入计算机进行识别,再将识别的汉字转换成声音由计算机输出;使盲人能够听到普通文本;清华大学自动化系研究过盲人用键盘输入法,用声音帮助选字,及在Dos下的汉字盲文转换。
上述已有技术的不足之处包括:
一、在汉语盲文与汉字的转换中没有应用自然语言理解处理技术。
二、在已公开的汉字识别后处理技术中,为了提高识别文本的正确率,用Viterbi动态规划算法来快速搜索一条最佳路径,而进入同一个结点的其余的路径便被舍弃。不能找出次最优的汉语句子。
三、已公开系统只涉及汉语盲文和汉字的相互转换,不支持其它诸如数学公式等符号的相互转换。
四、已公开的盲文转换只涉及双拼盲文,而没有现行盲文处理功能。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种汉语盲文到汉字的自动转换方法。使用该方法,盲文可以由键盘和扫描仪两种方式输入。对盲文的标调没有严格限制可以输入英文,数字。同时可以追加任意的特殊符号。已建立了数学库,可在文档中输入数学符号。同时可以根据需要加入其它特殊字库,转换正确率高。
本发明提出的一种汉语盲文到汉字的自动转换方法,其特征在于,将盲文书籍扫描后识别盲文,或用键盘将盲文输入后,将盲文通过拼音的概念转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。
所说的汉语盲文综合知识库:包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库)。
本发明所述汉语盲文到汉字的自动转换方法,包括以下具体步骤:
1)读入未转换文本头部的全部连续非盲文点字符号;
2)当前的输入点字符号是否表示非汉字意义,若表示汉字,转步骤4;若表示非汉字,在viterbi搜索图中搜索N-best路径并选择最好路径,得到转换结果,并将开始读入的非盲文点字符号插入到对应位置;
3)记录本句的转换结果,记录表示非汉字意义的输入点字符号的转换结果,清空viterbi搜索图,转入步骤5;
4)查找当前输入的点字符号能够匹配的所有汉字词候选,并在viterbi搜索图中构造相应结点。
5)判断是否全部转换完毕?若是,输出转换后汉字结果;若不是,转步骤1。
本发明的特点是:由于盲文扫描识别或盲文码输入不可能达到100%正确,双面扫描盲文的识别错误率更高。同时,也是更重要的是由于汉字特有的一字多音、一音多字性质,以及自然语言的歧义现象,在将扫描盲文或盲文码输入与拼音的转换,拼音与汉字转换的每一个环节,均可能发生歧义或转换错误,因此本发明利用汉语盲文综合知识库:包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库),在带权的拼音到汉字转换多部图上采用N-Best搜索算法,来实现由盲文到汉字的自动转换。
本发明具有以下效果:
1.盲文可以由键盘和扫描仪两种方式输入。
2.对盲文的标调没有严格限制。例如“公园”可写作:gong1yuan2;gong1yuan;gongyuan2;gongyuan四种方式。
3.可以输入英文,数字。同时可以追加任意的特殊符号。
4.已建立了数学库,可在文档中输入数学符号。同时可以根据需要加入其它特殊字库,如化学、物理等。
5.转换正确率高。
附图说明
图1为本发明的汉语盲文到汉字的自动转换具体方法流程图。
图2为本发明的带转移概率权重的拼音到汉字转换搜索图。
具体实施方式
以下结合实施例对本发明的实现方法详细进行说明。
本发明所述汉语盲文到汉字的自动转换具体实施方法,如图1所示,包括以下步骤:
1)读入未转换文本头部的全部连续非盲文点字符号;
2)当前的输入点字符号是否表示非汉字意义,若表示汉字,转步骤4;若表示非汉字,在viterbi搜索图中搜索N-best路径并选择最好路径,得到转换结果,并将开始读入的非盲文点字符号插入到对应位置;
3)记录本句的转换结果,记录表示非汉字意义的输入点字符号的转换结果,清空viterbi搜索图,转入步骤5;
4)查找当前输入的点字符号能够匹配的所有汉字词候选,并在viterbi搜索图中构造相应结点。
5)判断是否全部转换完毕?若是,输出转换后汉字结果;若不是,转步骤1。
本发明中所应用的算法说明如下:
1.N-Best搜索算法:
图2为本发明的带转移概率权重的拼音到汉字转换搜索图。图中,假设某一个拼音句子Y由T个字构成,Y=y1y2…yT。在这个句子的前后各加上分界符,构成#y1,y2,…,yT#。设拼音yi对应的汉字词候选为ci,1ci,2。在带转移概率权重的拼音到汉字转换搜索图中对与yi对应的每一个汉字词候选都构造一个结点,所有与yi对应的结点构成一级。带转移概率权重的拼音到汉字转换搜索图中级与级之间是全连接的关系,即第i级的每一个结点与第i+1级的每一个结点之间都有一条边。边上的权为后一级汉字词在前一级汉字后出现的条件概率(同现概率)。在带转移概率权重的拼音到汉字转换搜索图中,每一条边都是带权边。例如,C11与C21之间边上的权为P(C21|C11),表示C11后出现C21的条件概率。在两个分界符之间的任意找一条路径,其中所有边的权重乘积就是该路径对应转换方案的概率值。搜索具有最大概率值的转换方案就是在带转移概率权重的拼音到汉字转换搜索图中搜索一条边权重乘积最大的路径,路径上的结点就表示了对应的转换方案。
N-Best搜索算法可在图2中找出具有前N大次最优的汉语句子。该搜索方法分为前向和后向两个过程。在前向过程中,对图中每一个结点,计算由初始结点到此结点的最佳路径,并且记录此最佳路径的累计分值和指向路径上前一个结点的指针。在后向过程中,通过比较进入终止结点的路径就可以得到最优路径。然后,为了使求次优路径时不会又选到最佳路径,把最佳路径整个复制到一个所谓N-Best树的结构中。对N-Best树中的每一个结点计算后向累计分值。后向累计分值与前向累计分值相结合,使之能够快速方便地计算出某一条路径的总分值。
对N-Best树上的所有结点进行扩展,比较扩展后所有路径的分值,最大的那个就是次优路径。然后把次优路径与最优路径不同的部分复制到N-Best树中。接着计算新加入结点的后向累计分值。假设前N选路径已经求出,那么第N+1选路径可以通过比较从当前N-Best树中扩展出的路径来求得。从此算法可以看出,N-Best树结构保证了任何一条路径不会被考虑两次。而且,此算法也是一个精确的算法,即能够准确的找出前N个大似然度的N个汉语句子。
使用N-Best算法使盲文到汉字的转换正确率得到提高。但是,N-Best对于算法影响转换速度。因此只有当系统认为最优选的汉语句子中存在着转换错误时,才自动进行N-Best搜索。
特点:用该方法完成的系统是国内第一个加入了汉语计算语言学处理技术的汉语盲文到汉字自动转换系统,它用数亿字的统计数据库进行后处理。使得系统整体转化正确率达到97%以上。汉语到盲文的转换系统具有很高的转换率,已经接近达到实用水平。
2.表示非汉字意义的点字转换
按照汉语盲文规则先判断当前输入点字是否为标点符号,再判断是否为数学公式或者英文字母。
数学公式的转换需要递归的进行,对表达式按照数学符号的运算级别分层次转换。例如:“3*4+5/6”,先对“3*4”和“5/6”进行转换,然后再转换“+”,将两部分连结起来。
由于转换后的数学公式使用纯文本表示,因此例如根号,次方这样的数学符号就没法表示。应该通过定义新的数学公式纯文本表示方法来表示。
3.查找盲文对应的汉字词
现行盲文的点字和汉语拼音中的声母或者韵母对应。但是也存在同一个盲文点字对应两个不同拼音部分的情况。例如:“
Figure C0111867400061
”可以对应声母“g”或者“j”,因此应该对所有盲文点字可能转换成的拼音组合都进行对应汉字词的查找。例如:“ ”可以对应拼音“ho”,“he”,“xo”,“xe”,都需要进行对应汉字词的查找,其中不合法的拼音显然没有对应汉字词。
由于词库中的汉字词最长到7字,因此查找的时候最长检测对应7个汉字的盲文点字。
用上述方法首次将汉语自然语言理解的理论应用于汉语盲文与汉字的自动处理技术中,完成了汉语盲汉、汉盲自动转换系统。

Claims (1)

1、一种汉语盲文到汉字的自动转换方法,其特征在于,将盲文书籍扫描后识别成为盲文文本,或用键盘输入盲文文本,将该盲文文本当作拼音流转换为汉字;具体包括以下步骤:
1)读入未转换文本头部的全部连续非盲文点字符号;
2)当前的输入点字符号是否表示非汉字意义,若表示汉字,转步骤4);若表示非汉字,在viterbi搜索图中搜索N-best路径并选择最好路径,得到转换结果,并将开始读入的非盲文点字符号插入到对应位置;
3)记录本句的转换结果,记录表示非汉字意义的输入点字符号的转换结果,清空viterbi搜索图,转入步骤5);
4)查找当前输入的点字符号能够匹配的所有汉字词候选,并在viterbi搜索图中构造相应结点;
5)判断是否全部转换完毕,若是,输出转换后汉字结果;若不是,转步骤1)。
所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换;所说的汉语盲文综合知识库:包括电子字典、规则库和统计信息库。
CN 01118674 2001-06-08 2001-06-08 汉语盲文到汉字的自动转换方法 Expired - Fee Related CN1119758C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 01118674 CN1119758C (zh) 2001-06-08 2001-06-08 汉语盲文到汉字的自动转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 01118674 CN1119758C (zh) 2001-06-08 2001-06-08 汉语盲文到汉字的自动转换方法

Publications (2)

Publication Number Publication Date
CN1323004A CN1323004A (zh) 2001-11-21
CN1119758C true CN1119758C (zh) 2003-08-27

Family

ID=4663357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 01118674 Expired - Fee Related CN1119758C (zh) 2001-06-08 2001-06-08 汉语盲文到汉字的自动转换方法

Country Status (1)

Country Link
CN (1) CN1119758C (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840648B (zh) * 2010-04-28 2011-09-28 长春大学 自动盲文阅卷方法
KR101646742B1 (ko) * 2014-09-11 2016-08-08 최한솔 점자 지원 기능이 구비된 터치스크린 장치 및 그 제어방법
CN105404621B (zh) * 2015-09-25 2018-07-10 中国科学院计算技术研究所 一种用于盲人读取汉字的方法及系统
CN106021241B (zh) * 2016-05-09 2018-08-14 河海大学 盲文点位汉字编码及其与盲文之间的机器翻译方法
CN111612007A (zh) * 2020-05-19 2020-09-01 黑龙江工业学院 一种基于图像采集和修正的英语二级盲文转换系统

Also Published As

Publication number Publication date
CN1323004A (zh) 2001-11-21

Similar Documents

Publication Publication Date Title
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
KR100766169B1 (ko) 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치
KR970008023B1 (ko) 사전검색장치
US20050027524A1 (en) System and method for disambiguating phonetic input
Elshafei et al. Statistical methods for automatic diacritization of Arabic text
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
KR20100029221A (ko) 명칭 엔터티와 신규 단어를 검출하는 것
Clark et al. Pre-processing very noisy text
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
Luu et al. A pointwise approach for Vietnamese diacritics restoration
JP2000298667A (ja) 構文情報による漢字変換装置
CN1119758C (zh) 汉语盲文到汉字的自动转换方法
WO2014189400A1 (en) A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
KR101086550B1 (ko) 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
Oflazer et al. Turkish and its challenges for language and speech processing
Kuo et al. A phonetic similarity model for automatic extraction of transliteration pairs
Pal et al. Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance
Seon et al. Named Entity Recognition using Machine Learning Methods and Pattern-Selection Rules.
CN113536776B (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
Minghu et al. Segmentation of Mandarin Braille word and Braille translation based on multi-knowledge
Daelemans et al. Part-of-speech tagging for Dutch with MBT, a memory-based tagger generator
Rani et al. Post-processing methodology for word level Telugu character recognition systems using Unicode Approximation Models
Manohar et al. Spellchecker for Malayalam using finite state transition models
Gutkin et al. Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee