CN1119758C

CN1119758C - 汉语盲文到汉字的自动转换方法

Info

Publication number: CN1119758C
Application number: CN 01118674
Authority: CN
Inventors: 朱小燕; 江铭虎; 夏莹; 马少平; 姜哲; 包塔; 谭刚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2001-06-08
Filing date: 2001-06-08
Publication date: 2003-08-27
Anticipated expiration: 2021-06-08
Also published as: CN1323004A

Abstract

本发明属于计算机文字处理技术领域，涉及汉语盲文到汉字的自动转换方法，将盲文书籍扫描后识别成为盲文文本，或用键盘输入盲文文本，将该盲文文本当作拼音流转换为汉字；所说的拼音与汉字转换的每一个环节，利用汉语盲文综合知识库，在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果，来实现由盲文到汉字的自动转换。使得系统整体转换正确率达到97%以上。

Description

汉语盲文到汉字的自动转换方法

技术领域

本发明属于计算机文字处理技术领域，特别涉及盲人用计算机的文字转换技术。

背景技术

盲人使用盲文(摸读的点字符号)进行文化学习与信息交流。目前在国外一些发达国家中，已经研究出较好的盲人用计算机及其操作平台。英国已研制出盲人用的计算机，其键盘各键是由大小、形状、纹理不一，每键均带有发声机制的多媒体信息交互功能。在中国，近年来为了使盲人能够使用计算机及能够阅读普通文本也作了一些局部的工作，如中国盲文书社在中国残疾人联合会和中国盲人协会的资助支持下，研制出盲文分词连写系统；北京图书馆在Dos操作系统下研究过盲人阅读机，是将印刷体普通汉字文本通过扫描输入计算机进行识别，再将识别的汉字转换成声音由计算机输出；使盲人能够听到普通文本；清华大学自动化系研究过盲人用键盘输入法，用声音帮助选字，及在Dos下的汉字盲文转换。

上述已有技术的不足之处包括：

一、在汉语盲文与汉字的转换中没有应用自然语言理解处理技术。

二、在已公开的汉字识别后处理技术中，为了提高识别文本的正确率，用Viterbi动态规划算法来快速搜索一条最佳路径，而进入同一个结点的其余的路径便被舍弃。不能找出次最优的汉语句子。

三、已公开系统只涉及汉语盲文和汉字的相互转换，不支持其它诸如数学公式等符号的相互转换。

四、已公开的盲文转换只涉及双拼盲文，而没有现行盲文处理功能。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种汉语盲文到汉字的自动转换方法。使用该方法，盲文可以由键盘和扫描仪两种方式输入。对盲文的标调没有严格限制可以输入英文，数字。同时可以追加任意的特殊符号。已建立了数学库，可在文档中输入数学符号。同时可以根据需要加入其它特殊字库，转换正确率高。

本发明提出的一种汉语盲文到汉字的自动转换方法，其特征在于，将盲文书籍扫描后识别盲文，或用键盘将盲文输入后，将盲文通过拼音的概念转换为汉字；所说的拼音与汉字转换的每一个环节，利用汉语盲文综合知识库，在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果，来实现由盲文到汉字的自动转换。

所说的汉语盲文综合知识库：包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库)。

本发明所述汉语盲文到汉字的自动转换方法，包括以下具体步骤：

1)读入未转换文本头部的全部连续非盲文点字符号；

2)当前的输入点字符号是否表示非汉字意义，若表示汉字，转步骤4；若表示非汉字，在viterbi搜索图中搜索N-best路径并选择最好路径，得到转换结果，并将开始读入的非盲文点字符号插入到对应位置；

3)记录本句的转换结果，记录表示非汉字意义的输入点字符号的转换结果，清空viterbi搜索图，转入步骤5；

4)查找当前输入的点字符号能够匹配的所有汉字词候选，并在viterbi搜索图中构造相应结点。

5)判断是否全部转换完毕？若是，输出转换后汉字结果；若不是，转步骤1。

本发明的特点是：由于盲文扫描识别或盲文码输入不可能达到100％正确，双面扫描盲文的识别错误率更高。同时，也是更重要的是由于汉字特有的一字多音、一音多字性质，以及自然语言的歧义现象，在将扫描盲文或盲文码输入与拼音的转换，拼音与汉字转换的每一个环节，均可能发生歧义或转换错误，因此本发明利用汉语盲文综合知识库：包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库)，在带权的拼音到汉字转换多部图上采用N-Best搜索算法，来实现由盲文到汉字的自动转换。

本发明具有以下效果：

1.盲文可以由键盘和扫描仪两种方式输入。

2.对盲文的标调没有严格限制。例如“公园”可写作：gong1yuan2；gong1yuan；gongyuan2；gongyuan四种方式。

3.可以输入英文，数字。同时可以追加任意的特殊符号。

4.已建立了数学库，可在文档中输入数学符号。同时可以根据需要加入其它特殊字库，如化学、物理等。

5.转换正确率高。

附图说明

图1为本发明的汉语盲文到汉字的自动转换具体方法流程图。

图2为本发明的带转移概率权重的拼音到汉字转换搜索图。

具体实施方式

以下结合实施例对本发明的实现方法详细进行说明。

本发明所述汉语盲文到汉字的自动转换具体实施方法，如图1所示，包括以下步骤：

1)读入未转换文本头部的全部连续非盲文点字符号；

本发明中所应用的算法说明如下：

1.N-Best搜索算法：

图2为本发明的带转移概率权重的拼音到汉字转换搜索图。图中，假设某一个拼音句子Y由T个字构成，Y＝y₁y₂…y_T。在这个句子的前后各加上分界符，构成#y₁，y₂，…，y_T#。设拼音y_i对应的汉字词候选为c_i，1c_i，2… 。在带转移概率权重的拼音到汉字转换搜索图中对与y_i对应的每一个汉字词候选都构造一个结点，所有与y_i对应的结点构成一级。带转移概率权重的拼音到汉字转换搜索图中级与级之间是全连接的关系，即第i级的每一个结点与第i+1级的每一个结点之间都有一条边。边上的权为后一级汉字词在前一级汉字后出现的条件概率(同现概率)。在带转移概率权重的拼音到汉字转换搜索图中，每一条边都是带权边。例如，C₁₁与C₂₁之间边上的权为P(C₂₁|C₁₁)，表示C₁₁后出现C₂₁的条件概率。在两个分界符之间的任意找一条路径，其中所有边的权重乘积就是该路径对应转换方案的概率值。搜索具有最大概率值的转换方案就是在带转移概率权重的拼音到汉字转换搜索图中搜索一条边权重乘积最大的路径，路径上的结点就表示了对应的转换方案。

N-Best搜索算法可在图2中找出具有前N大次最优的汉语句子。该搜索方法分为前向和后向两个过程。在前向过程中，对图中每一个结点，计算由初始结点到此结点的最佳路径，并且记录此最佳路径的累计分值和指向路径上前一个结点的指针。在后向过程中，通过比较进入终止结点的路径就可以得到最优路径。然后，为了使求次优路径时不会又选到最佳路径，把最佳路径整个复制到一个所谓N-Best树的结构中。对N-Best树中的每一个结点计算后向累计分值。后向累计分值与前向累计分值相结合，使之能够快速方便地计算出某一条路径的总分值。

对N-Best树上的所有结点进行扩展，比较扩展后所有路径的分值，最大的那个就是次优路径。然后把次优路径与最优路径不同的部分复制到N-Best树中。接着计算新加入结点的后向累计分值。假设前N选路径已经求出，那么第N+1选路径可以通过比较从当前N-Best树中扩展出的路径来求得。从此算法可以看出，N-Best树结构保证了任何一条路径不会被考虑两次。而且，此算法也是一个精确的算法，即能够准确的找出前N个大似然度的N个汉语句子。

使用N-Best算法使盲文到汉字的转换正确率得到提高。但是，N-Best对于算法影响转换速度。因此只有当系统认为最优选的汉语句子中存在着转换错误时，才自动进行N-Best搜索。

特点：用该方法完成的系统是国内第一个加入了汉语计算语言学处理技术的汉语盲文到汉字自动转换系统，它用数亿字的统计数据库进行后处理。使得系统整体转化正确率达到97％以上。汉语到盲文的转换系统具有很高的转换率，已经接近达到实用水平。

2.表示非汉字意义的点字转换

按照汉语盲文规则先判断当前输入点字是否为标点符号，再判断是否为数学公式或者英文字母。

数学公式的转换需要递归的进行，对表达式按照数学符号的运算级别分层次转换。例如：“3*4+5/6”，先对“3*4”和“5/6”进行转换，然后再转换“+”，将两部分连结起来。

由于转换后的数学公式使用纯文本表示，因此例如根号，次方这样的数学符号就没法表示。应该通过定义新的数学公式纯文本表示方法来表示。

3.查找盲文对应的汉字词

现行盲文的点字和汉语拼音中的声母或者韵母对应。但是也存在同一个盲文点字对应两个不同拼音部分的情况。例如：“

”可以对应声母“g”或者“j”，因此应该对所有盲文点字可能转换成的拼音组合都进行对应汉字词的查找。例如：“ ”可以对应拼音“ho”，“he”，“xo”，“xe”，都需要进行对应汉字词的查找，其中不合法的拼音显然没有对应汉字词。

由于词库中的汉字词最长到7字，因此查找的时候最长检测对应7个汉字的盲文点字。

用上述方法首次将汉语自然语言理解的理论应用于汉语盲文与汉字的自动处理技术中，完成了汉语盲汉、汉盲自动转换系统。

Claims

1、一种汉语盲文到汉字的自动转换方法，其特征在于，将盲文书籍扫描后识别成为盲文文本，或用键盘输入盲文文本，将该盲文文本当作拼音流转换为汉字；具体包括以下步骤：

1)读入未转换文本头部的全部连续非盲文点字符号；

2)当前的输入点字符号是否表示非汉字意义，若表示汉字，转步骤4)；若表示非汉字，在viterbi搜索图中搜索N-best路径并选择最好路径，得到转换结果，并将开始读入的非盲文点字符号插入到对应位置；

3)记录本句的转换结果，记录表示非汉字意义的输入点字符号的转换结果，清空viterbi搜索图，转入步骤5)；

4)查找当前输入的点字符号能够匹配的所有汉字词候选，并在viterbi搜索图中构造相应结点；

5)判断是否全部转换完毕，若是，输出转换后汉字结果；若不是，转步骤1)。

所说的拼音与汉字转换的每一个环节，利用汉语盲文综合知识库，在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果，来实现由盲文到汉字的自动转换；所说的汉语盲文综合知识库：包括电子字典、规则库和统计信息库。