CN102184172A

CN102184172A - 一种用于盲人读取汉字的系统和方法

Info

Publication number: CN102184172A
Application number: CN 201110120329
Authority: CN
Inventors: 王超; 赵颖; 王向东; 钱跃良; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2011-05-10
Filing date: 2011-05-10
Publication date: 2011-09-14

Abstract

本发明公开了一种用于盲人读取汉字的系统和方法。所述用于盲人读取汉字的系统，包括：分词模块，用于以句为单位，按顺序对每一句汉语文本进行分词；转换模块，利用N-gram语言模型，将汉语分词结果转换为中国盲文。有效的解决了汉字到中国盲文转换中的多音字问题。

Description

一种用于盲人读取汉字的系统和方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种用于盲人读取汉字的系统和方法。

背景技术

在当今信息社会，信息化水平不断提高，信息技术在人们的工作、学习和生活中得到了广泛应用，而互联网也成为人们日常生活中的一个重要组成分，网络以一种便捷的方式为人们提供了海量的信息资源。但是，这些信息资源大多是以汉语文本的形式存储，没有考虑到盲人的需求。而在中国，盲人是一个庞大的群体，盲人人口已经超过了全国人口总数的1％。这阻碍了盲人像正常人一样享受海量的信息资源，使盲人和正常人之间的信息鸿沟不断扩大，盲人在信息化社会中的生存和发展能力受到进一步制约。虽然现有的语音合成技术比较成熟，网络上大量的文本资源可以通过语音合成转换为音频文件使得盲人可以通过听觉获得这些信息，但由于语音资源的存储比较耗费空间，并且在携带、查询等方面并不方便，因此，对于盲人来说，文本资源仍然是获得信息最重要的方式。

然而，我国盲人在阅读书写时使用的文字是中国盲文。中国盲文基于布莱尔盲文体系，每个盲文字符均以两列共6个点作为一个基本结构

这6个点有的凸起，有的不凸起，形成64种变化，即能表示64种不同的字符，每种字符分别表示汉语拼音中的一个声母、韵母或声调，不同的字符按照汉语拼音规则组成合法音节以表示汉字，也就是说中国盲文是一种拼音性的文字。盲文的书写和阅读比较特殊。盲文的书写是在比较特殊的纸张上通过打孔实现的，一般使用由若干方盲符所组成的盲文导板，然后在导板的导引下，按照盲文编码方案，从右向左进行打孔(点字)；阅读时，则把带有穿透孔的纸张翻过来，用手从左向右进行触摸阅读。可以看出，中国盲文和汉语在形态上差别很大，盲人无法直接“阅读”汉语文本，而网络上以盲文形式出现的资源又很匮乏，急需将汉语文本转换为盲文文本提供给盲人。

现有的将汉语文本转换为盲文文本的方法，由于盲文分词连写规则的限制和汉语中多音字的现象，使得由汉语转换得到的盲文与符合中国盲文标准的盲文有一定的差别，这些差别主要是盲文文本中词与词之间分词连写的形式的不同，以及由于多音字造成转换出的一些盲文字符的不同，因此，在使用这些方法进行转换之后，还需要做大量人工修正工作，造成了效率低下，也使得盲文文本资源的获取的时间较长且成本较高。

发明内容

本发明的目的在于提供一种用于盲人读取汉字的系统和方法。有效的解决了汉字到中国盲文转换中的多音字问题。

为实现本发明的目的而提供的一种用于盲人读取汉字的系统，包括：

分词模块，用于以句为单位，按顺序对每一句汉语文本进行分词；

转换模块，利用N-gram语言模型，将汉语分词结果转换为中国盲文。

所述N-gram语言模型的描述如下：

假设要转换的一句分词后的汉语文本为X，X由词序列S₁，S₂，...，S_n组成，设这个汉语句子X对应的候选盲文句子T由盲文词序列w₁，w₂，w₃，...，w_n组成；由于汉语中的多音字存在，一个X可能对应多个T，对于每一个T，利用公式：

P(T)＝P(w₁w₂...w_n)≈P(w₁)P(w₂|w₁)...P(w_n|w_n-Nw_n-N+1...w_n-1)

求出候选盲文句子T的概率值P，取概率值最大的那句候选盲文作为转换结果的一句盲文文本。

所述用于盲人读取汉字的系统，包括：

分词修正模块，用于根据盲文分词连写规则，对所述分词模块产生的汉语分词结果进行修正，并将修正后的分词结果提供给所述转换模块。

所述分词修正模块，包括：

词性标注模块，用于标出经过分词后的每一个词在句中的词性；

匹配模块，利用标注了词性的分词，对其中所有的相邻词组合去匹配分词连写规则集，完成对分词结果的修正，使分词结果符合盲文分词连写规则。

所述匹配模块，利用每个词的词性标注结果，去匹配连写规则集，若有相邻词的词性组合在连写规则集中，则将分词结果中这两个词合并连写为一个词；同时，也对分词模块得到的分词结果中的多于一个字的词“拆分”，并对这个词拆分后得到的词的组合进行词性标注，去匹配分写规则集，如匹配成功，将这个词按这种拆分方式分开写。

为实现本发明的目的还提供一种用于盲人读取汉字的方法，所述方法，包括下列步骤：

步骤100，分词模块以句为单位，按顺序对每一句汉语文本进行分词；

步骤200，转换模块利用N-gram语言模型，将汉语分词结果转换为中国盲文。

所述N-gram语言模型的描述如下：

P(T)＝P(w₁w₂...w_n)≈P(w₁)P(w₂|w₁)...P(w_n|w_n-Nw_n-N+1...w_n-1)

所述用于盲人读取汉字的方法，在步骤100和步骤200之间，包括：

步骤300，分词修正模块根据盲文分词连写规则，对所述步骤100产生的汉语分词结果进行修正，并将修正后的分词结果提供给所述转换模块。

所述步骤300，包括：

步骤310，词性标注模块标出经过分词后的每一个词在句中的词性；

步骤320，匹配模块利用标注了词性的分词，对其中所有的相邻词组合去匹配分词连写规则集，完成对分词结果的修正，使分词结果符合盲文分词连写规则。

所述步骤320，包括：匹配模块利用每个词的词性标注结果，去匹配连写规则集，若有相邻词的词性组合在连写规则集中，则将分词结果中这两个词合并连写为一个词；同时，也对分词模块得到的分词结果中的多于一个字的词“拆分”，并对这个词拆分后得到的词的组合进行词性标注，去匹配分写规则集，如匹配成功，将这个词按这种拆分方式分开写。

本发明的有益效果是：本发明的用于盲人读取汉字的系统和方法，有效的解决了汉字到中国盲文转换中的多音字问题，并且得到的盲文符合盲文分词连写规则，使得盲人“阅读”的时候能充分理解句意，不造成歧视。这种方法能够避免人工修正，大量节省了人力。使用这种方法，可以快速准确的将大量的汉语文本资源转换为盲文资源，使盲人也能想明眼人一样获取大量信息资源，满足盲人进步的要求。

附图说明

图1是本发明的用于盲人读取汉字的系统的结构示意图；

图2是本发明的用于盲人读取汉字的方法的步骤流程图；

图3是本发明的用于盲人读取汉字的方法的一实施例的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种用于盲人读取汉字的系统和方法进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了帮助盲人方便快捷的获取已有的丰富的网络资源，提高汉字转换为中国盲文的正确率，本发明结合中国盲文的盲文分词连写规则，提出了一种用于盲人读取汉字的系统和方法。其是以句为单位，按顺序逐句对汉语文本进行转换。对于每一句汉语文本，先对其进行分词并标注每个词的词性；然后参照盲文分词连写规则，对分词结果进行修正，由于盲文分词连写规则与词性息息相关，在修正时，需要利用到分词时标注的词性；最后利用N-gram语言模型，将修正过的汉语分词结果转换为中国盲文。

下面结合上述目标详细介绍本发明的一种用于盲人读取汉字的系统，图1是本发明的用于盲人读取汉字的系统的结构示意图，如图1所述，所述系统，包括：

分词模块1，用于以句为单位，按顺序对每一句汉语文本进行分词；

互联网上的汉语文本资源大多整段或整篇的出现，而一次性对整段或整篇进行转换会使转换耗费的时间多且空间大，造成了转换效率的底下，因此，本发明在转换时以句为单位，按顺序逐句对汉语文本进行转换。由于汉语不同于英语等其它西方曲折型语言，在表层形式上汉语的词与词之间不存在空格等分隔符，所以在绝大多数情况下，互联网上的汉语文本资源的字与字之间也是紧密相连，不存在分隔符的。而在现有的技术下，计算机进行语言信息处理的基本要素的词，词是进行句法分析和理解的基础，因此，在对每一个汉语句子进行转换时，首先采用分词模块对要转换的汉语句子进行分词。

分词是将一句汉语文本中的词和词之间以分隔符隔开，最常见的分隔符是空格。在分词过程中，通常通过一个包含常用汉语词的词典来界定一个汉字串是否是一个词：若一个汉字串在这个词典中，则认为这个汉字串可以当作一个词；反之则不是。需要说明的是，每一个单独的汉字都看作是一个词。

较佳地，为了提高汉字转换为中国盲文的正确率，所述用于盲人读取汉字的系统，还包括：

分词修正模块2，用于根据盲文分词连写规则，对所述分词模块产生的汉语分词结果进行修正。

在上述的分词模块1对要转换的汉语句子进行分词后，即得到了分词后的汉语句子，但还不能直接将这汉语句子转换为中国盲文，原因是运用分词模块对汉语句子分词得到的分词结果与中国盲文标准中盲文分词连写规则规定下的分词结果有差别，若不顾这些差别直接将其转换为盲文，会使盲人在“阅读”这些盲文时不能完全理解句意，甚至造成歧义。通常情况下，借助包含常用汉语词的词典进行分词的分词模块，其分词结果是一种符合汉语规律的结果，分割开的每个词都是汉语中的常用词，如“我们”“评论”“高兴”等。而在中国盲文中，为了便于盲人理解，盲文分词连写规则规定不仅要将一些意义比较松散的词分开写，还要将一些意义上结合得较为紧密的短语连写，这就使中国盲文中的词概念与汉语中词概念并不相同，进而汉语分词的结果也会不符合盲文分词连写规则。因此，在分词模块对一句汉语文本分词后，需要对分词结果进行修正，使之符合盲文分词连写规则的规定，才能进行转换，进而得到符合中国盲文标准的盲文。

其中，所述分词修正模块2，包括：

词性标注模块21，用于标出经过分词后的每一个词在句中的词性。

在对汉语句子进行分词的同时，也对每一个词进行词性标注。词性标注的意思是标出这个词在句中的词性，如动词，名词等。在本发明之所以进行词性标注，是因为在下一模块进行分词结果修正时，需要用到这些词的词性信息，而通常分词过程和词性标注过程可以同步完成。综上所述，分词和词性标注这两项任务可以同步完成。

匹配模块22，利用标注了词性的分词，对其中所有的相邻词组合去匹配分词连写规则集，完成对分词结果的修正，使分词结果符合盲文分词连写规则。

在该模块中，将中国盲文标准中盲文分词连写规则表述为形式化的规则，一一列举出来。盲文分词连写规则与词性和词所包括的字数有关，例如，盲文分词连写规则中的一条提到：动词与时态助词“了”连写。据此，可以列举一条形式化规则为“v+了”。而盲文分词连写规则一般有两大类，一类是规定什么情况需将词分开写，一类是什么情况需将词连写。因此，在本发明中，将总结出的形式化规则也分为这两类，对应构成两个规则集：分写规则集和连写规则集。在对分词结果修正的过程中，对于分词模块得到的这句汉语文本分词结果，利用同样在分词模块得到的这句汉语文本分词后每个词的词性标注结果，去匹配连写规则集，若有相邻词的词性组合在连写规则集中，则将分词结果中这两个词合并连写为一个词。同时，也对分词模块得到的分词结果中的多于一个字的词“拆分”，并对这个词拆分后得到的词的组合进行词性标注，去分写规则集中匹配，如匹配成功，将这个词按这种拆分方式分开写。综上所述，在分词模块产生可经过分词的一句汉语文本后，对其中所有的相邻词组合去匹配连写规则集判断是否可以连写，也对其中所有词逐一拆分去匹配分写规则集判断是否可以分写，由此完成分词结果的修正，使分词结果符合盲文分词连写规则。

转换模块3，利用N-gram语言模型，将汉语分词结果转换为中国盲文。

在得到了符合盲文分词连写规则的分词后的一句汉语文本后，就可以将其转换为中国盲文了。由于中国盲文是一种汉语拼音性的文字，一种盲文字符和拼音中的一种声母或韵母相对应，而由于汉字中的多音字现象，即一个汉字会有多种发音，也就会对应多种拼音，同样也会对应多个盲文字符，因此一句汉语文本可能对应多句中国盲文文本作为候选。但其中只有一句是该汉语文本表达意义最准确时对应的盲文文本。在本发明中，转换模块的作用就是从该句汉语文本可能对应多句候选中国盲文文本中找出最正确的那句候选，从而完成汉字到中国盲文的转换。在该模块中，采用N-gram语言模型实现汉字到中国盲文的转换。在转换的过程中，运用N-gram语言模型计算出所有候选盲文句子的概率值，从而选择概率值最大的那一句盲文文本作为最终的转换结果，这种模型是从基于统计的角度找出最有可能的对应候选。N-gram语言模型的描述如下：

假设要转换的一句分词后的汉语文本为X，X由词序列S₁，S₂，...，S_n组成，设这个汉语句子X对应的候选盲文句子T由盲文词序列w₁，w₂，w₃，...，w_n组成。由于汉语中的多音字存在，一个X可能对应多个T，对于每一个T，利用公式

P(T)＝P(w₁w₂...w_n)≈P(w₁)P(w₂|w₁)...P(w_n|w_n-Nw_n-N+1...w_n-1) (1)

求出候选盲文句子T的概率值P。在求出所有的候选盲文句子的概率值之后，即能得到概率值最大的那句候选盲文，这就是最终作为转换结果的一句盲文文本。

需要说明的是，在使用N-gram语言模型进行汉盲转换之前，需要用真实的盲文语料进行模型训练，以估计公式(1)的各参数的概率值。

在使用N-gram语言模型之前，为了得到公式(1)的各参数的概率值，要用大量语料进行模型训练，以估计这些参数的概率值。本发明采用一种简单又有效的参数估计方法——极大似然估计(Maximum Likelihood Estimation，MLE)方法来求解模型参数，即：

P (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{C (w_{1} w_{2} . . . w_{n - 1})} - - - (2)

其中C(w₁w₂...w_n)为词序列w₁w₂...w_n在训练语料中出现的次数。

在本发明中，N-gram语言模型中的N选取N＝3，即三元模型。对于这种三元模型，其参数用公式(3)进行估计，即使用语料中三元组的出现次数除以对应的二元组的出现次数来实现对模型中参数的估计。

P (w_{i} | w_{i - 2} w_{i - 1}) = \frac{C (w_{i - 2} w_{i - 1} w_{i})}{C (w_{i - 2} w_{i - 1})} - - - (3)

容易看出，在上面的参数估计的方法中，如果词序列w_i-2w_i-1w_i在训练语料中没有出现，即C(w_i-2w_i-1w_i)＝0，则会导致所求的概率参数P(w_i|w_i-2w_i-1)＝0，这显然是不合理的，不能因为语料的局限性就直接判定未出现在语料中的概率参数为0。这个问题就是N-gram模型训练中的一个经典问题——数据稀疏问题，即由于训练样本不足而导致所估计的概率分布不可靠的问题。由于语料总是有限的，数据稀疏问题在模型训练时几乎是必然存在的，此时就需要采用平滑算法来使所有参数的概率值都不为0。平滑算法的基本思想是“劫富济贫”，即提高低概率(如零概率)，降低高概率，尽量使概率分布趋于均匀。常用的平滑方法有Good-Turing估计法、Jelinek-Mercer平滑方法和Witten-Bell平滑方法等，本发明所采用的平滑算法是Witten-Bell平滑方法。

相应于本发明的一种用于盲人读取汉字的系统，还提供一种用于盲人读取汉字的方法，图2是本发明的用于盲人读取汉字的方法的步骤流程图，如图2所示，所述方法，包括下列步骤：

步骤200，转换模块利用N-gram语言模型，将步骤100的汉语分词结果转换为中国盲文。

所述N-gram语言模型的描述如下：

P(T)＝P(w₁w₂...w_n)≈P(w₁)P(w₂|w₁)...P(w_n|w_n-Nw_n-N+1...w_n-1)

较佳地，图3是本发明的用于盲人读取汉字的方法的一实施例的步骤流程图，如图3所述，为了提高汉字转换为中国盲文的正确率，所述用于盲人读取汉字的方法，在步骤100和步骤200之间，包括：

步骤300，分词修正模块根据盲文分词连写规则，对所述步骤100产生的汉语分词结果进行修正。

那么此时步骤200中，转换模块利用N-gram语言模型，将汉语分词结果转换为中国盲文，不再是将步骤100的汉语分词结果转换为中国盲文，而是将步骤300修正后的汉语分词结果转换为中国盲文。

所述步骤300，包括：

其中，所述步骤320，包括：匹配模块利用每个词的词性标注结果，去匹配连写规则集，若有相邻词的词性组合在连写规则集中，则将分词结果中这两个词合并连写为一个词；同时，也对分词模块得到的分词结果中的多于一个字的词“拆分”，并对这个词拆分后得到的词的组合进行词性标注，去匹配分写规则集，如匹配成功，将这个词按这种拆分方式分开写。

为了更好的说明本发明的技术方案，下面结合待转换的一个汉语句子“我想说三句话”为例加以说明。

首先，分词模块对这句汉语句子进行分词。通常可以用一些常用的中文分词工具来完成分词，当采用ICTCLAS进行分词并标注词性时，结果如下：

我/r 完成/v 了/u 百分之五十/m

其中词与词之间用空格隔开，“/”后面表示该词的词性，在本例中，r表示代词，v表示动词，u表示语气助词，m表示数词。

其次，分词修正模块对上述的分词进行修正。在修正之前，先参照中国盲文标准中的盲文分词连写规则，将其表述为形式化规则。由于盲文分词连写规则按照用以规定是连写还是分写可分为两大类，因此也将所有形式化规则分为这两类，对应构成两个规则集：分写规则集和连写规则集。例如，在分写规则集中包括“v+f”(动词和方位词应分写)，“m分+之+m”(分数中“分”与之前的数次连写，“之”单独连写)等；在连写规则集中包括“v+u”(动词和语气助词应连写)，“m+q”(数词和量词应连写)等。有了这两种形式化规则集，就可以对分词结果进行修正了。修正的过程是这样的：利用词性标注模块得到的词性标注结果，匹配模块将句中所有相邻词的词性组合去连写规则集中匹配，看是否有应该连写的词的组合，在本例中，“完成/v 了/u”的词性组合“v+f”在连写规则集中，因此应将这两个词连写为“完成了”；同时，对于每一个多于一个字的词“拆分”，并对拆分后得到的词的组合进行词性标注，用这个词性组合去分写规则集中匹配，看是否应该将这个词分写，在本例中，“百分之五十”拆分后的词性组合“m分+之+m”在分写规则集中，因此应将这个词分写为“百分之五十”。由此得知，经过分词修正后，这句汉语文本的分词情况应该是“我完成了百分之五十”，这个分词结果符合盲文分词连写规则，更利于盲人理解。

最后，在经过分词结果修正后，利用N-gram语言模型对这句分词且修正后的汉语文本转换为盲文。在转换前，首先利用真实盲文语料进行模型训练，得到模型中的各个参数，用以计算句子概率。模型训练完后，开始转换：对句中每个字列出其对应的所有盲文候选。如：(由于盲文和拼音是一一对应的，为了便于说明，这里用拼音代替盲文)

我完成了百分之五十

wo wanchengle baifen zhi wushi

liao

由于汉字“了”有le和liao两种读音，因此这个汉字对应两个候选，而其他汉字都只有一个候选。因此，该句汉语文本就有两句候选盲文，分别是B1(wo wanchengle baifen zhi wushi)和B2(wo wanchengliao baifen zhi wushi)。然后，分别用公式(1)计算P(B1)和P(B2)，得出的概率值P(B1)大于P(B2)，因此B1就是转换得到的作为结果的盲文句子。

根据公式(1)并采用N＝3的三元模型，可知

P(B1)＝P(wo)*P(wanchengle|wo)*P(baifen|wanchengle wo)*P(zhi|baifen wanchengle)*P(wushi|zhi wanchengle)

其中的P(wo)，P(wanchengle|wo)，P(baifen|wanchengle wo)，P(zhi|baifen wanchengle)，P(wushi|zhi wanchengle)采用公式(2)和公式(3)描述的模型训练过程中求得，具体的值根据训练采用的盲文语料而不同。同理，

P(B2)＝P(wo)*P(wanchengliao|wo)*P(baifen|wanchengliao wo)*P(zhi|baifen wanchengliao)*P(wushi|zhi wanchengle)

本发明的有益效果在于：

本发明的用于盲人读取汉字的系统和方法，有效的解决了汉字到中国盲文转换中的多音字问题，并且得到的盲文符合盲文分词连写规则，使得盲人“阅读”的时候能充分理解句意，不造成歧视。这种方法能够避免人工修正，大量节省了人力。使用这种方法，可以快速准确的将大量的汉语文本资源转换为盲文资源，使盲人也能想明眼人一样获取大量信息资源，满足盲人进步的要求。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1.一种用于盲人读取汉字的系统，其特征在于，所述系统，包括：

2.根据权利要求1所述的用于盲人读取汉字的系统，其特征在于，所述N-gram语言模型的描述如下：

P(T)＝P(w₁w₂...w_n)≈P(w₁)P(w₂|w₁)...P(w_n|w_n-Nw_n-N+1...w_n-1)

3.根据权利要求1所述的用于盲人读取汉字的系统，其特征在于，所述用于盲人读取汉字的系统，包括：

4.根据权利要求3所述的用于盲人读取汉字的系统，其特征在于，所述分词修正模块，包括：

5.根据权利要求4所述的用于盲人读取汉字的系统，其特征在于，所述匹配模块，利用每个词的词性标注结果，去匹配连写规则集，若有相邻词的词性组合在连写规则集中，则将分词结果中这两个词合并连写为一个词；同时，也对分词模块得到的分词结果中的多于一个字的词“拆分”，并对这个词拆分后得到的词的组合进行词性标注，去匹配分写规则集，如匹配成功，将这个词按这种拆分方式分开写。

6.一种用于盲人读取汉字的方法，其特征在于，所述方法，包括下列步骤：

7.根据权利要求6所述的用于盲人读取汉字的方法，其特征在于，所述N-gram语言模型的描述如下：

P(T)＝P(w₁w₂...w_n)≈P(w₁)P(w₂|w₁)...P(w_n|w_n-Nw_n-N+1...w_n-1)

8.根据权利要求6所述的用于盲人读取汉字的方法，其特征在于，所述用于盲人读取汉字的方法，在步骤100和步骤200之间，包括：

9.根据权利要求8所述的用于盲人读取汉字的方法，其特征在于，所述步骤300，包括：

10.根据权利要求9所述的用于盲人读取汉字的方法，其特征在于，所述步骤320，包括：匹配模块利用每个词的词性标注结果，去匹配连写规则集，若有相邻词的词性组合在连写规则集中，则将分词结果中这两个词合并连写为一个词；同时，也对分词模块得到的分词结果中的多于一个字的词“拆分”，并对这个词拆分后得到的词的组合进行词性标注，去匹配分写规则集，如匹配成功，将这个词按这种拆分方式分开写。