CN102156693B

CN102156693B - 一种盲文输入方法和系统

Info

Publication number: CN102156693B
Application number: CN 201110070320
Authority: CN
Inventors: 王超; 王向东; 钱跃良; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2011-03-23
Filing date: 2011-03-23
Publication date: 2013-03-06
Anticipated expiration: 2031-03-23
Also published as: CN102156693A

Abstract

本发明公开了一种盲文输入方法和系统。所述方法包括下列步骤：步骤根据N-gram语言模型，结合汉语盲文分词连写规则，构造盲汉转换模型；根据输入的盲文句子B，列出其对应的所有候选汉语句子S；利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁s₂...s_m作为最终汉语句子输出。其能够有效利用汉语盲文自身特征，提高盲文转换为汉字的正确率。

Description

一种盲文输入方法和系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种盲文输入方法和系统。

背景技术

人机交互是盲人使用计算机的主要困难之一。人机交互包含输入与输出两个方面。前者是指通过键盘、鼠标等输入设备将文字或指令输入计算机，后者则是指将文字或其它信息以视觉和语音方式输出给用户。由于语音合成技术日益成熟，将文字转化为语音输出已经成为现实，因此对盲人而言，文字输入困难是制约其使用计算机的重要因素。

盲人输入文字困难一方面是由于视力障碍，另一方面是因为盲人使用的汉语盲文字与汉字不同。汉语盲文是基于布莱尔盲文体系，每个盲文字符均以两列共6个点作为一个基本结构

这6个点有的凸起，有的不凸起，形成64种变化，即能表示64种不同的字符。在汉语盲文中，每种字符表示汉语拼音中的一个声母、韵母或声调，不同的字符按照汉语拼音规则组成合法音节以表示汉字，也就是说汉语盲文是一种拼音性的文字。盲人日常书写盲文是通过在纸上扎出不同的盲文字符，其书写习惯与采用汉语拼音和标准键盘的普通拼音输入法有很大差别。因此，盲人通过键盘使用现有的汉字输入法输入汉字是很困难的。

为了解决盲人在计算机上输入文字困难的问题，已经出现一些帮助盲人实现汉字输入的系统，其实现方法主要有两种：一种是利用普通计算机的标准键盘和现有汉字输入法并配合语音合成技术提示用户，另一种是采用与盲文对应的键盘设置和相应的输入法。目前，多数盲人计算机系统支持上述第一种方法，但它存在两个问题：首先，标准键盘键数过多，不适合视力障碍者快速摸读；其次，由于盲人对字形的观念弱，而盲文使用的字音拼读方法又与通过标准键盘输入英文字符构成的汉字拼音不同，导致盲人使用现有汉字输入法很不方便。为解决这一问题，出现了上述第二种方法，即采用与盲文对应的键盘设置和相应输入法，其主要思路是在标准键盘上定义6个，或是采用专用的6键键盘，使得6个键分别对应盲文的6个凸点，当6个键中的某一个或几个同时按下时，可对应盲文中的一个盲符。这种方法与盲符相对应，相对来说更符合盲文的输入习惯，但由于操作时候要同时按下多个键，不符合通常的按键习惯，因此往往需要一段时间的训练才能熟练使用。而且，采用这种方法的用户输入的是盲文，当用户需要与普通人交流时，还需要将其转换为汉字。现有的汉语盲文到汉字的转换通常是先将盲文转换为拼音，再使用语言模型并结合规则将拼音转换为汉字，但是这种方法在盲文到拼音和拼音到汉字两次转换中都有可能产生错误，而且忽视了汉语盲文自身的特点，导致汉语盲文到汉字转换正确率并不高。

发明内容

本发明的目的在于提供一种盲文输入方法和系统。其能够有效利用汉语盲文自身特征，提高盲文转换为汉字的正确率。

为实现本发明的目的而提供的一种盲文输入方法，包括下列步骤：

步骤100.根据N-gram语言模型，结合汉语盲文分词连写规则，构造盲汉转换模型；

步骤200.根据输入的盲文句子B，列出其对应的所有候选汉语句子S；

步骤300.利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁，s₂...s_m作为最终汉语句子输出。

所述步骤100，包括下列步骤：

步骤110.利用已有真实盲文语料的训练方法，获取汉语词串为S时对应的盲文B的分词连写概率P(B|S)：

其中，P(b_i|s_i)表示汉语词串s_i在分词连写规则下对应一个盲文词b_i的概率；

步骤120.根据N-gram语言模型，获取汉语词概率P(S)

P(S)＝P(w₁w₂...w_T)＝P(w₁)P(w₂|w₁)...P(w_i|w_i-n+1w_i-n+2...w_i-1)...P(w_T|w_T-n+1w_T-n+2...w_T-1)(i＝1…T)，其中的N-gram概率P(w_i|w_i-n+1w_i-n+2...w_i-1)通过大量的文本训练得到；

步骤130.根据所述分词连写概率P(B|S)和所述汉语词概率P(S)，利用贝叶斯公式

构造盲汉转换模型。

所述P(b_i|s_i)值的估算采用如下三种方法：

a.0-1规则法

假设共有K条规则r₁，r₂，...，r_K，若汉语词串s_i满足规则r_j，记作R(s，r_j)＝True，否则记作R(s，r_j)＝False；采用0，1两个值定义分词连写概率，即当满足任一条规则时，定义其概率值为1，否则为0。

P (b_{i} | s_{i}) = \{\begin{matrix} 1, & &Exists; r_{j}, R (s_{i}, r_{j}) = True \\ 0 & &ForAll; r_{j}, R (s_{i}, r_{j}) = False \end{matrix}

b.α规则法

引入一个参数α，令

采用α，1-α两个值定义分词连写概率；

c.逐条规则统计法

对不同的规则采用不同的α值，对于规则r_j，j＝1，2，...，K，分别估计α_j；

1：在训练集中，统计解码时所有规则r_j认为可连写的串，将串的个数记为c_r(j)；

2：统计这c_r个串中实际被连写的串的个数，记为c_i(j)；

3：计算α_j的估计值

b中，所述参数α的值的选取有两种方法：

方法一：采用一个开发集调试，变换参数值，寻找使盲-汉转换性能最好的参数值；

方法二：采用一个训练集，在训练集上直接估计α的值，估计方法如下：

1：在训练集中，统计解码时所有规则认为可连写的串，将串的个数记为c_r；

2：统计这c_r个串中实际被连写的串的个数，记为c_t；

3：计算α的估计值

在步骤200中，利用盲文中的声调信息，筛除声调不相符的候选汉语句子。

在步骤200中，采用基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果，当后文中有未标调词出现时，先和已经记录的标调词比较盲文字符是否相同，若相同，则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。

所述步骤300之后，包括下列步骤：

步骤400.根据自然语言规则对所述最终汉字句子进行修改，并将修改的结果存入缓冲区作为自适应语料，建立基于cache的自适应模型，对盲汉转换模型进行调整，得到优化的盲汉转换模型。

为实现本发明的目的还提供一种盲文输入系统，所述系统，包括：

模型构造模块，用于根据N-gram语言模型，结合汉语盲文分词连写规则构造盲汉转换模型；

候选搜索模块，用于根据输入的盲文句子B，列出其对应的所有候选汉语句子S；

盲汉转换模块，用于利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁，s₂...s_m作为最终汉语句子输出。

所述模型构造模块，包括：

分词连写概率获取模块，用于利用已有真实盲文语料的训练方法，获取汉语词串为S时对应的盲文B的分词连写概率P(B|S)：

汉语词概率获取模块，用于根据N-gram语言模型，获取汉语词概率P(S)；

模型计算模块，用于根据所述分词连写概率P(B|S)和所述汉语词概率P(S)，利用贝叶斯公式

构造盲汉转换模型。

所述P(b_is_i)值的估算采用如下三种方法：

a.0-1规则法

P (b_{i} | s_{i}) = \{\begin{matrix} 1, & &Exists; r_{j}, R (s_{i}, r_{j}) = True \\ 0 & &ForAll; r_{j}, R (s_{i}, r_{j}) = False \end{matrix}

b.α规则法

引入一个参数α，令

采用α，1-α两个值定义分词连写概率；

c.逐条规则统计法

2：统计这c_r个串中实际被连写的串的个数，记为c_i(j)；

3：计算α_j的估计值

b中，所述参数α的值的选取有两种方法：

1：在训练集中，统计解码时所有规则认为可连写的串，将串的个数记为c_t；

2：统计这c_r个串中实际被连写的串的个数，记为c_t；

3：计算α的估计值

所述系统，还包括：

声调信息筛除模块，用于利用盲文中的声调信息，筛除声调不相符的候选汉语句子。

基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果，当后文中有未标调词出现时，先和已经记录的标调词比较盲文字符是否相同，若相同，则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。

所述系统，还包括：

语言模型自适应模块，用于根据自然语言规则对所述最终汉字句子进行修改，并将修改的结果存入缓冲区作为自适应语料，建立基于cache的自适应模型，对盲汉转换模型进行调整，得到优化的盲汉转换模型。

本发明的有益效果是：

融合现行盲文的多种特点，使用语言模型并结合各种规则，能够以很高的转换正确率将用户输入的整句整篇盲文直接转换为汉字，并且在此基础上，利用已有的转换结果进行语言模型自适应，当再有同样输入时，产生语言模型自适应调整后的结果，进一步提高转换的正确率。

附图说明

图1是本发明的盲文输入方法的步骤流程图；

图2是本发明中使用盲汉转换模型得到最终转换结果并输出的步骤流程图；

图3是本发明中构造盲汉转换模型的步骤流程图；

图4是本发明的盲文输入系统的工作方法的示意图；

图5是本发明的盲文输入系统的结构图；

图6是构建词网格的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种盲文输入方法和系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明结合当前最常用的现行盲文的特点，提出了一种新的汉语盲文输入方法。在输入的过程中，融合现行盲文的多种特点，使用语言模型并结合各种规则，能够以很高的转换正确率将用户输入的整句整篇盲文直接转换为汉字，并且在此基础上，利用已有的转换结果进行语言模型自适应，当再有同样输入时，产生语言模型自适应调整后的结果，进一步提高转换的正确率，从根本上解决了盲人使用计算机时输入文字困难的问题。

本发明的一种盲文输入方法和系统，基于N-gram语言模型，根据当前字或词之前的N-1个字或词估计当前盲文对应某个具体字或词的概率的统计语言模型。在此基础上，本发明主要包括三个创新点：融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型、基于盲文声调信息的词语选取方法、语言模型自适应。

下面结合上述目标详细介绍本发明的一种盲文输入方法，图1是本发明的盲文输入方法的步骤流程图，如图1所示，所述方法，包括下列步骤：

步骤100.对输入的盲文词串，列出其对应的所有候选汉语句子S，使用融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型，得到最终转换结果并输出；

汉语盲文是一种表音性文字，与汉语拼音类似，每个盲文字符对应多个汉字候选。通常采用N-gram语言模型处理汉语拼音到汉字的转换问题。但是如果简单的像拼音到汉字转换那样使用N-gram语言模型处理汉语盲文到汉字的转换问题，会丢掉汉语盲文自身的信息，即汉语盲文最大的特征——分词连写规则，因此本发明提出了一种融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型。

分词连写，是汉语盲文独有的重要规则。所谓分词，即是把一个个词分开来写；所谓连写，即是按照盲文的特殊性，避免音节结构过于松散，便于盲人摸读，将一些词连起来写。在盲文中使用分词连写规则是为了更准确清晰的表达语意，例如，几个多音节词组成的固定词组表示国名、社会单位等专名概念，按词分写，如：中华|人民|共和国；动词跟事态助词“着”“了”“过”连写，如：看见了。由于汉语盲文其独特的分词连写规则与汉语中词语的概念不同，有的盲文词不能在我们已有的普通汉语词典中找到与之直接对应的中文词，如“看见了”在盲文规则是一个词，而根据汉语习惯不把“看见了”当作一个词，而是“看见”这个词和“了”合成的一个词组。根据盲文分词连写规则，这样的词很多，不能一一列举，因此在转换时，对于每个这样的盲文词，将这个盲文词中的字或者这个词中包含的普通汉语词拆开作为一个字或词，如“看见了”可以拆为“看见”和“了”，“一小段”拆为“一”，“小”和“段”。这样，针对这个词，对其拆分的单元使用融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型N-gram语言模型进行转换。而对于只表示一个字或者一个普通汉语词的盲文字符，直接用N-gram语言模型进行转换即可。

图2是本发明中使用盲汉转换模型得到最终转换结果并输出的步骤流程图，如图2所示，所述步骤100，包括下列步骤：

步骤110.根据N-gram语言模型，结合汉语盲文分词连写规则，构造盲汉转换模型；

融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型构造如下：

假设输入为一个盲文词串B＝b₁b₂...b_m，其中b_i(i＝1，...，m)是盲文词。也就是说，这个盲文句子由n个盲文词组成。其中每一个盲文词可对应m_i(i＝1，…，n)个汉语词。也就是说，盲文词b₁对应m₁个汉语词，盲文词b₂对应m₂个汉语词…盲文词b_n对应m_n个汉语词，这样，这个盲文句子就会对应m₁*m₂*…*m_n个汉语句子。然后通过计算，从这些汉语句子中选出一句作为最终转换结果。其中，

(j＝1，2，...m_i)是一个长度为n_ij的汉语词，即

最终转换结果为B对应的汉语词串S＝s₁s₂…s_m。

图3是本发明中构造盲汉转换模型的步骤流程图，如图3所示，所述步骤110，包括下列步骤：

步骤111.利用已有真实盲文语料的训练方法，获取汉语词串为S时对应的盲文B的概率，称为分词连写概率P(B|S)；

在书写盲文时，根据盲文分词连写规则，同一个词(词组)，可能会因为在不同句子中的成分不同，导致这个盲文词(词组)的写法不同(即可能连写，也可能分开写)。下面举一个例子，“种菜”这个词，在句子“小王种菜”中，动词“种”充当谓语动词，在这种情况下，根据盲文分词连写规则，动词“种”和宾语“菜”应当分写，故这句的盲文应该书写为“xiaowang zhong cai”；而在句子“小王是种菜能手”中，动词“种”和宾语“菜”组成的动宾短语作定语，在这种情况下，根据盲文分词连写规则，动词“种”和宾语“菜”不应当分写，故这句的盲文应该书写为“xiaowang shi zhongcai nengshou”。从上面的例子，可以看出，相同的一个词(词组)由于在不同句子中代表的句子成分不同，在盲文分词连写规则的规定下可能连写也可能分写。而现有的方法很难精准的判断出一句话(中文)中的每一个词的词性以及句子成分，也就是说，对于给定一个汉语句子S，利用现有方法不能确定其对应的盲文句子B是否完全符合盲文分词连写规则，即P(B|S)是不确定的。为此，我们提出了一种利用我们已有的真实盲文语料的训练方法：若语料中有词组既有连写又有分写的情况，那么我们使用一种基于统计的方法，得到每一个这种词组的P(B|S)。有了这些基于经验的P(B|S)概率值，在盲文到汉语的转换时，根据输入的盲文B和转换得到的结果S，利用事先训练得到的相应P(B|S)，进行计算。

由于各个盲文词连写与否是相互独立的，因此P(B|S)可分解为：

P (B | S) = P (b_{1} b_{2} . . . b_{m} | s_{1} s_{2} . . . s_{m}) = Π_{i = 1}^{m} P (b_{i} | s_{i})

其中，P(b_i|s_i)表示汉语词串s_i在分词连写规则下对应一个盲文词b_i(即该词串既不会被拆分为多个盲文词，也不会作为一部分而包含于其它盲文词，而恰好对应独立的盲文词b_i)的概率。

其中，P(b_i|s_i)值的估计可采用如下三种方法：

步骤111a.0-1规则法

事实上，某一个汉语词串是否应连写为一个盲文词，是由中国盲文规范中的分词连写规则决定的。这些规则大约有几百条，一般根据词串中的词的词性、在句中的成分、词串的长短等决定某一词是否连写。

因此，可以根据这些规则决定分词连写的概率。假设共有K条规则r₁，r₂，...r_K，若汉语词串s_i满足规则r_j，记作R(s，r_j)＝True，否则记作R(s，r_j)＝False。

因此，基于这些规则，可采用0，1两个值定义分词连写概率，即当满足任一条规则时，定义其概率值为1，否则为0。

P (b_{i} | s_{i}) = \{\begin{matrix} 1, & &Exists; r_{j}, R (s_{i}, r_{j}) = True \\ 0 & &ForAll; r_{j}, R (s_{i}, r_{j}) = False \end{matrix}

在规则制定时，显然，对所有可能的汉语词串都制定规则是不可能的。由于分词连写规范中的规则一般涉及词串中的词性、词串的长度等，因此规则的制定也主要依据对汉语词串进行自动词性标注的结果。

步骤111b.α规则法

在实际中，由于盲文分词连写的规则存在一定的主观性和不确定性，且自动分词可能存在错误，自动句法分析和语义分析可靠性不高，因此，如果采用上述方法，可能会使一些正确的汉语词串概率为0。为避免这种情况，不再采用0-1概率值，而是引入一个参数α，令

P (b_{i} | s_{i}) = \{\begin{matrix} α, & &Exists; r_{j}, R (s_{i}, r_{j}) = True \\ 1 - α & &ForAll; r_{j}, R (s_{i}, r_{j}) = False \end{matrix}

采用这种方式，可避免因0值而去掉有一定可能性的候选。

参数α的值的选取可有两种方法：

方法二：采用一个训练集，在训练集上直接估计α的值。估计方法如下：

step 1：在训练集中，统计解码时所有规则认为可连写的串，将串的个数记为c_r

step 2：统计这c_r个串中实际被连写的串的个数，记为c_t

step 3：计算α的估计值

步骤111c.逐条规则统计法；

在α规则法的方法二中，对所有规则采用统一的α值，并通过训练集来估计α值。但事实上，不同的规则(一般对应不同的词性搭配)的可靠程度可能不同，因此，如果对不同的规则采用不同的α值，则有可能进一步提高性能。具体估计方法与α规则法类似：

对于规则r_j，j＝1，2，...，K，分别估计α_j；

step 1：在训练集中，统计解码时所有规则r_j认为可连写的串，将串的个数记为c_r(j)

step 2：统计这c_r个串中实际被连写的串的个数，记为c_t(j)

step 3：计算α_j的估计值

步骤112.根据N-gram语言模型，获取汉语词概率P(S)；

P(S)表示汉语句子S的概率。采用常用的N-gram语言模型，该模型的原理是当前词由它之前的N-1个词决定。设汉语句子S是由T个汉字词构成，表示为S＝w₁w₂…w_T，根据N-gram语言模型，这个汉语句子S的概率为：

P(S)＝P(w₁w₂...w_T)＝P(w₁)P(w₂|w₁)...P(w_i|w_i-n+1w_i-n+2...w_i-1)...P(w_T|w_T-n+1w_T-n+2...w_T-1)(i＝1…T)。其中的N-gram概率P(w_i|w_i-n+1w_i-n+2...w_i-1)可通过大量的文本训练得到。

步骤113.根据所述分词连写概率P(B|S)和所述汉语词概率P(S)，利用贝叶斯公式

构造盲汉转换模型；

由于根据贝叶斯公式

中，P(B)表示输入的盲文句子B的概率。对于输入的盲文句子B对应的所有汉语句子，B都是确定的，故对所有S，P(B)是一常量，因此在计算过程中可不予考虑。现有技术中，利用贝叶斯公式

在拼音到汉字的转换中，由于所有S的拼音都可对应给定的拼音串，因此可认为P(B|S)＝1，从而只考虑P(S)即可。但是在盲换转换中，由于受到盲文本身分词连写规则的限制，某些盲符相同的汉字串其分词连写的形式未必相同，因此，在盲汉转换的模型中，P(B|S)项不应被忽略。由于P(B|S)主要由分词连写的规则决定，因此，需要根据求得的分词连写概率P(B|S)和汉语词概率P(S)，构造盲汉转换模型。

步骤120.根据输入的盲文句子B，列出其对应的所有候选汉语句子S；

在通过盲文句子B求其对应汉语句子S的概率的过程中，由于盲文是一种表音的文字，因此，每一个盲文词可能都有会多个汉语词候选(例如，盲文词“shiyan”的汉语词候选有“实验”“誓言”“试验”“食言”等)，进而一个盲文句子B可能有很多句和其对应的汉语句子。较佳地，在转换的过程中，我们使用“词网格”便于计算和列出所有的汉语句子。

在为每个盲文词列出起所有候选汉语词的时候，将利用一个“盲汉对照词典”，词典上记录着一个盲文词对应所有的汉语词，在转换时，对于每一个盲文词，需要到该词典中去查找其所有候选汉语词，作为当前一级的节点。但是根据盲文分词连写规则，盲文词的定义不同于汉语词，盲文词是无穷尽的，不能在词典中逐一列出，因此，问题出现了，当盲文句中某个盲文词不在词典中时，就无法找到其对应的候选汉语词，在词网格中，该级的节点就会不存在，给转换造成困难。根据这个问题，我们提出了一种解决方法：对于不在词典中的盲文词，将其拆分为这个词所有可能的字词组合，例如，根据盲文分词连写规则，“xiaonanhai(小男孩)”在盲文中是一个词，而在汉语中，我们通常不认为他是一个传统意义上的词，也就是不在词典中，因此，“小男孩”这个词可能拆分为三种：一是“xiao”、“nan”和“hai”；二是“xiao”和“nanhai”；三是“xiaonan”和“hai”，由于第三种中“xiaonan”也不在词典中，故将这种拆分结果抛弃，只保留第一，二种。然后对这两种拆分后的形式，列出其所有可能的汉语词候选(如“笑难还”“小男孩”等等)，作为这个不能在词典中找到的盲文词“xiaonanhai”的候选汉语词，作为词网格中该级的节点。

在词网格中，每一个盲文词表示“一级”，其每个汉语词候选，表示为该级的一个“节点”。当前级的所有节点和它前一级、后一级的所有节点都是有向连接的，连接的方向是按句子从前往后，这样构成了一个有向图，称为“词网格”。

步骤130.利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁，s₂...s_m作为最终汉语句子输出；

计算过程是这样的，之前提到了一个盲文句子B，可能对应很多很多个(m₁*m₂*…*m_n个，上面提到了)汉语句子，假设这些汉语句子构成一个集合A，则S是集合A中任意一句。那么通过这个模型，可以计算出集合中每一个汉语句子的概率值P(S|B)，也就是说，每一个汉语句子，都有一个自己的概率值P(S|B)。所有这些汉语句子中，P(S|B)中最大的那句，就是最终的转换结果了。

所述词网格，只是用于更加方便快捷的求出最大的这个P(S|B)的手段。也就是说，不用词网格，也能求。如果不使用词网格，那么我们就对于盲文句子B对应的所有汉语句子S，逐一求出这所有汉语句子的P(S|B)，但是，由于之前说了，会有很多很多的汉语句子，也就是要求出很多很多的P(S|B)，会求很多数，速度比较慢。但是不影响结果的正确性，仅仅是速度慢。

通过词网格，可以使用Viterbi算法，按词的顺序从句首到句末，可以直接求出那个最大的P(S|B)。也就是说，用词网格，也就要用Viterbi算法，它是为了减少计算量，不必求出所有汉语句子的P(S|B)，而是直接求出那个最大的。

在词网格中，从第一级的某个节点到最后一级某个节点沿箭头的一条“路径”，即该盲文句子对应的一个汉语句子。通过这个词网格，可以列出所有的汉语句子，并且利用上述模型求出这些句子的概率值，然后选出概率值最大的一句，即为最终输出的汉语句子。

在实际解码时，采用基于动态规划的Viterbi算法，即对从第一个盲文词开始依次增长，计算截止到当前盲文词为止的盲文子串对应的概率最大的汉语词串。对于盲文词串B＝b₁b₂...b_m，当解码至b_i时，对所有b_i对应的汉语词串s_ij，计算P(b_i|s_ij)，同时，按普通的Viterbi算法根据n-gram模型计算解码至s_ij的概率P(s₁s₂...s_i-1s_ij)，并将两者乘积P(b_i|s_ij)P(s₁s₂...s_i-1s_ij)作为解码至s_ij的概率，供下一步迭代使用。在实际计算时，常用对数值代替概率值计算，因此应计算logP(b_i|s_ij)+logP(s₁s₂...s_i-1s_ij)。

步骤200.在步骤120中利用所述盲汉转换模型，对输入的盲文词串进行转换的过程中，还可以利用盲文中的声调信息对候选进行细匹配，筛除声调不相符的候选，有效的减少候选数量，缩小词网格规模，得到最终的汉字集合；

我们之前说过，每个盲文词可能对应m个汉语词，步骤200的作用，就是利用盲文里的声调，从这m个汉语词里，进一步筛选，保留m个中声调也匹配的其中k个(0＜＝k＜＝m)。这样，经过筛选，可以去掉一些声调不匹配的候选，使结果会更准确，而且盲文词对应的汉语词从m个减少到k个，使得与盲文句子B对应的汉语句子的也减少了，P(S|B)的计算量就减少了。

汉语盲文的声调信息也能为盲文到汉字转换正确率的提高带来巨大的作用。现行盲文的声调和汉语拼音声调相似，四种不同盲文符号分别对应汉语拼音中的阴平、阳平、上声、去声四种声调，书写方法是在盲文字之后紧跟着加一一个表示声调符号的盲文字符。现行盲文中声调符号的设置是可有可无的，声调是否书写是由书写者根据上下文语义的理解决定的，必要时使用少量的声调符号，以区别同音字和生僻字。由于汉语盲文是和汉语拼音相对应的，盲文里也具有拼音中的声调。与拼音一样，盲文到汉字也是一对多的关系，即同样的盲文可能对应多个汉语词，而具体对应哪个汉语词只能通过上下文语法语义来区分。在现行盲文规则中，书写者可以对盲文词中的每个字都标调，也可以部分标调，还可以都不标调。甚至在同一篇文章中，同一个词在不同的位置的标调方式可能会不同，例如，同一个词，在文章某个位置将每个字的声调都标出；而在另外一处则只标出了其中一个字的声调。在转换过程中本发明充分利用盲文中的声调信息，在通过盲文汉语对应词典为输入的每个盲文词选取候选汉字词的时候，采用对盲文字符先进行粗匹配，再根据声调细匹配的方法，筛除声调不相符的候选，有效的减少候选数量，缩小词网格规模。

基于盲文声调信息的词语选取方法是用于得到更准确的预处理汉字集合的。这种方法是可以加入到整个盲汉转换模型中的，但是不是必须的，可以加，也可以不加。加上它，只是为了得到更精确的预处理汉字集合，而不加它，单使用盲汉转换模型，也可以得到预处理的汉字集合，只是结果不如使用基于盲文声调信息的词语选取方法的结果准确。

同时，本发明还挖掘现行盲文的一种标调的规则，即当一个同音易混淆词在文中多次出现，通常只在其第一次的出现的时候对这个词或者这个词中的某个字标调，如果后文中再次出现这个词，则不再标调。因此本发明中提出的基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果，当后文中有未标调词出现时，先和已经记录的标调词比较盲文字符是否相同(不包括声调盲符号)，若相同，则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。要说明的是，这种基于盲文声调信息的词语选取方法只针对对应两个汉字或者两个汉字以上的盲文词。

步骤300.根据自然语言规则对所述汉字集合进行修改，并将修改的结果存入缓冲区(cache)作为自适应语料，建立基于cache的自适应模型，对原语言模型进行调整，得到优化的语言模型。

在得到转换结果之后，可以手动的选择修改转换不正确的词。因为自然语言有一定的局部性和聚集性，所以对修正之后的词很可能还会再次出现。如果使用始终不变的静态语言模型，当再次输入同一个词的时候，转换依然会出错，又需要再一次修改转换结果。本发明采用语言模型自适应的技术，将用户手动修改的结果存入缓冲区(cache)作为自适应语料，建立基于cache的自适应模型，对原语言模型进行调整，得到优化的语言模型，此时当这个词又一次出现的时候，输入法能实现自动转换出正确的结果，不需要用户频繁的修正同一个词。这就是语言模型自适应技术发挥了作用，在后面的转换中，使用经过自适应的新语言模型将会更加符合用户的语言习惯和话题类型，进一步提高转换结果的正确率。

相应于本发明的一种盲文输入方法，还提供一种盲文输入系统，图4是本发明的盲文输入系统的工作方法的示意图，图5是本发明的盲文输入系统的结构图，如图4和图5所示，所述系统，包括：

模型构造模块1，用于根据N-gram语言模型，结合汉语盲文分词连写规则构造盲汉转换模型；

候选搜索模块2，用于根据输入的盲文句子B，列出其对应的所有候选汉语句子S；

盲汉转换模块3，用于利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁s₂...s_m作为最终汉语句子输出。

其中，所述模型构造模块1，包括：

分词连写概率获取模块11.用于利用已有真实盲文语料的训练方法，获取汉语词串为S时对应的盲文B的分词连写概率P(B|S)：

汉语词概率获取模块12.用于根据N-gram语言模型，获取汉语词概率P(S)；

模型计算模块13.用于根据所述分词连写概率P(B|S)和所述汉语词概率P(S)，利用贝叶斯公式

构造盲汉转换模型。

较佳地，所述系统，还包括：

声调信息筛除模块4，用于利用盲文中的声调信息，筛除声调不相符的候选汉语句子。

较佳地，所述系统，还包括：

语言模型自适应模块5，用于根据自然语言规则对所述最终汉字句子进行修改，并将修改的结果存入缓冲区作为自适应语料，建立基于cache的自适应模型，对盲汉转换模型进行调整，得到优化的盲汉转换模型。

为了更好的说明本发明的技术方案，下面结合用户输入一个盲文句子“

(xie yixiaoduan wenzi写一小段文字)”为例加以说明。

一、以不使用词网格为例。

首先一个盲文句子xie yixiaoduan wenzi由3个盲文词组成，分别是“xie”“yixiaoduan”“wenzi”每个盲文词对应m₁，m₂，m₃个汉语词。比如xie对应“写”“些”“鞋”“谢”等等共m₁个。yixiaoduan对应“一小段”“一小短”“一笑段”“一笑短”“以笑段”“以笑短”等等共m₂个(这m₂个是这样得到的，由于yixiaoduan不是一个传统意义的汉语词，所以yixiaoduan对应的汉语词是通过把yixiaoduan拆成“yi”“xiao”“duan”三个盲文字各自对应的汉字组合在一起组成的yiduanduan对应的汉语词。也就是从“yi”“xiao”“duan”三个中各找一个，全组合)。“wenzi”由于是个传统意义的汉语词，它对应的汉语词是“wenzi”直接对应“文字”“蚊子”共m₃个(这里就是2个)，而不用把“wen”“zi”拆开。

这样，我们就可以用每个盲文词对应的汉语词，列出这个盲文句子对应的所有汉语句子了。如“写一小段蚊子”“写一小段蚊子”“写一笑短蚊子”“些一小段文字”，共有m₁*m₂*m₃句。然后对于这m₁*m₂*m₃个句子，使用那个步骤100的模型，分别求出个各自的P(S|B)，共m₁*m₂*m₃个P(S|B)，这些P(S|B)是0到1之间的值，从中找出P(S|B)最大的那个的汉语句子S，就是最终转换结果。

这就是最终转换结果了。这是在不使用步骤200和300的情况下，所以说，也能得到最终结果。那么加入步骤200的话，是这样：为每个盲文词列出对应汉语词的时候，之前不是分别m₁，m₂，m₃个吗，用了步骤200，如果这3个盲文词中有声调信息，那么在选取其对应汉语词时，通过声调的匹配，只保留声调正确的。比如如果不用步骤200，xie对应“写”“些”“鞋”“谢”等等共m₁个，如果输入的xie是带声调的，比如3声。输入的是xie3，那么通过步骤200，xie3对应的汉字只有3声的xie，如“写”“血”等只有k₁个。也就是说用了步骤200，xie3对应的汉语词会从m₁个减少到k₁个。那么整个盲文句子对应的汉语句子会减少到k₁*m₂*m₃个。这样，结果更准确，因为排除了不是3声的xie，而且速度更快，因为计算p(S|B)时，只需计算k₁*m₂*m₃个，而不用计算m₁*m₂*m₃个。再来步骤300，有了转换结果后，比如转换结果是“写一小段文字”，那么“写”“一小段”“文字”三个词用于建立cache模型，然后用于优化原有的模型，优化后的模型，在以后的转换中，如果盲文句子中再出现“xie3”或者“yixiaoduan”或者“wenzi”，那么转换结果中出现“写”或者“一小段”或者“文字”的汉语句子的概率P(S|B)会变大，最终结果中就更容易出现这三个词。

对于步骤200中标调词重现那部分，和步骤200的基于声调的选取对应汉语词一样，这部分也作用于为盲文词选取对应汉语词时，可能减少对应汉语词的个数。例子：如果这次转换之前，出现过wenzi4且当时wenzi4的转换结果是“文字”，那么，这次转换中，如果出现不注音的wenzi时，我们就认为是上次wenzi4重现，那么这次wenzi对应的汉语词，直接采用上次的转换结果“文字”，而就直接不用再考虑“蚊子”了。这样，这次的“wenzi”对应的汉语词就只有唯一一个了，整个盲文句子对应的汉语句子也就只有m₁*m₂*1了。同样可以使结果准确，且减少计算量。

二、以使用词网格为例。

1.首先根据盲文句子xie yixiaoduan wenzi，构造词网格。

分别对每个盲文词列出候选。

第一步，对xie，由于它不符合基于盲文声调信息的词语选取方法(也就是步骤200)的前提，也就不运用这一点，而且xie是单字，一定在词典中，也不需要拆分，所有直接列出词典中的xie对应的所有汉语词(这个是单字，我们统一都称之为词)作为这一级节点即可。

第二步，对yixiaoduan，它符合步骤200的前提，因此，需要到记录下所有这句转换之前出现过的带有声调的盲文词中查找是否有与这个盲文词相对应的(即，是否有yixiaoduan4、yixiao1duan、yixiao2duan4或yi2xiao3duan1诸如此类的，1，2，3，4分别代表四种声调。)若有，直接选取记录下的那个盲文词彼时对应的转换出的汉语词的结果作为本次yixiaoduan的候选汉语词(即，这个盲文词的候选汉语词只有这一个)(如：发现记录中有yixiaoduan4，且当时该词转换出的汉语词的结果是“一小段”，那么直接将“一小段”作为本次yixiaoduan这个盲文词的唯一候选汉语词，也就是说，在词网格中，该级只有这一个节点)；若没有在记录中找到，则从词典中找yixiaoduan对应的汉语词。若词典中有yixiaoduan，则列出所有汉语词；若词典中没有yixiaoduan这个盲文词，则通过拆分的方法，将其拆为“yi”“xiao”“duan”和“yi”“xiaoduan”和“yixiao”“duan”三种，其中第二种中的xiaoduan也不在词典中，故抛弃这种拆分结果。然后分别对第一、三种列出其所有可能对应的汉语词作为候选，如“yi”“xiao”“duan”对应的可能有“以小短”“一小段”“依校端”等等。“yixiao”“duan”对应的可能有“艺校短”“艺校段”“艺校端”等。将这些汉语词全都作为盲文词yixiaoduan对应的候选汉语词，作为这一级的节点。

第三步，对wenzi，它仍符合步骤200的前提。相同于第二步查找有没有之前出现过的和它音节相同的带声调的。若没有，则在词典中查找wenzi，找到，将词典中wenzi对应的所有汉语词，如“文字”“蚊子”作为候选汉语词，作为这一级节点。

至此，词网格构造完毕，也就是步骤100和步骤200作用完毕。图6是构建词网格的示意图，如图6所示。

词网格构造完后，开始用模型计算所有可能的汉语句子的概率。

2.使用上述模型计算所有可能的汉语句子的概率值P(S|B)。

计算出该盲文句子对应的所有汉语句子S的概率值后，选取概率值最大的那一句作为最终转换结果。(如，可能的汉语句子有“写一小段文字”“些一小短文字”“谢以笑段蚊子”等等，每个汉语句子都有一个通过模型计算得到的概率值，如“写一小段文字”的概率值是0.3，“些一小短文字”的概率值是0.2，“谢以笑段蚊子”的概率值是0.06等等，选其中最大的0.3的汉语句子作为最终转换结果，则得到的最终结果即是“写一小段文字”)

3.得到转换结果后，将其中的每个盲文词和其对应的汉语结果作为自适应语料，加入到自适应模型中，用于语言模型自适应。如，“yixiaoduan一小段”和“wenzi文字”加入到自适应模型中。经过语言模型自适应后，在以后的转换时，若在出现“yixiaoduan”和“wenzi”，转换结果“一小段”和“文字”的概率值会提升。

本发明的有益效果在于：

采用本发明的盲文输入方法和系统，在转换的过程，融合现行盲文的多种特点，使用语言模型、自适应模型并结合各种规则，能够以很高的转换正确率将用户输入的整句整篇盲文直接转换为汉字，并且在此基础上，利用已有的转换结果进行语言模型自适应，当再有同样输入时，产生语言模型自适应调整后的结果，进一步提高转换的正确率，从根本上解决了盲人使用计算机时输入文字困难的问题。本发明的汉语盲文到汉字的转换方法是对当前盲汉转换问题的改进和创新，具有重要的商业价值和应用前景。同时，对计算机自然语言处理的其他方向具有实际的借鉴意义。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1.一种盲文输入方法,其特征在于，所述方法，包括下列步骤：

步骤300.利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁s₂...s_m作为最终汉语句子输出；

所述步骤100，包括下列步骤：

P (B | S) = P (b_{1} b_{2} . . . b_{m} | s_{1} s_{2} . . . s_{m}) = Π_{i = 1}^{m} P (b_{i} | s_{i}),

步骤120.根据N-gram语言模型，获取汉语词概率P(S)

P(S)=P(w₁w₂...w_T)=P(w₁)P(w₂|w₁)...P(w_i|w_i-n+1w_i-n+2...w_i-1)...P(w_T|w_T-n+1w_T-n+2...w_T-1)（i=1…T），其中的N-gram概率P(w_i|w_i-n+1w_i-n+2...w_i-1)通过大量的文本训练得到；

步骤130.根据所述分词连写概率P(B |S)和所述汉语词概率P(S)，利用贝叶斯公式

构造盲汉转换模型；

所述P(b_i|s_i)值的估算采用如下三种方法：

a.0-1规则法

假设共有K条规则r₁,r₂,...,r_K，若汉语词串s_i满足规则r_j，记作R(s,r_j)=True，否则记作R(s,r_j)=False；采用0，1两个值定义分词连写概率，即当满足任一条规则时，定义其概率值为1，否则为0；

P (b_{i} | s_{i}) = \{\begin{matrix} 1, & {&Exists; r}_{j}, R (s_{i}, r_{j}) = True \\ 0 & {&ForAll; r}_{j}, R (s_{i}, r_{j}) = False \end{matrix}

b.α规则法

引入一个参数α，令

P (b_{i} | s_{i}) = \{\begin{matrix} α, & {&Exists; r}_{j}, R (s_{i}, r_{j}) = True \\ 1 - α & {&ForAll; r}_{j}, R (s_{i}, r_{j}) = False \end{matrix},

采用α，1-α两个值定义分词连写概率；

c.逐条规则统计法

对不同的规则采用不同的α值，对于规则r_j,j=1,2,...，K，分别估计α_j；

2：统计这c_r个串中实际被连写的串的个数，记为c_t(j)；

3：计算α_j的估计值

{\hat{α}}_{j} = c_{t} (j) / c_{r} (j) .

2.根据权利要求1所述的盲文输入方法,其特征在于，b中，所述参数α的值的选取有两种方法：

2：统计这c_r个串中实际被连写的串的个数，记为c_t；

3：计算α的估计值

3.根据权利要求1所述的盲文输入方法,其特征在于，在步骤200中，利用盲文中的声调信息，筛除声调不相符的候选汉语句子。

4.根据权利要求1所述的盲文输入方法,其特征在于，在步骤200中，采用基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果，当后文中有未标调词出现时，先和已经记录的标调词比较盲文字符是否相同，若相同，则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。

5.根据权利要求1所述的盲文输入方法,其特征在于，所述步骤300之后，包括下列步骤：

6.一种盲文输入系统，其特征在于，所述系统，包括：

候选搜索模块，用于根据输入的盲文句子B，列出其对应的所有候选汉语句子S；盲汉转换模块，用于利用所述盲汉转换模型，求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B)，取P(S|B)值最大的对应的汉语词串的序列S＝s₁s₂...s_m作为最终汉语句子输出；

所述模型构造模块，包括：

P (B | S) = P (b_{1} b_{2} . . . b_{m} | s_{1} s_{2} . . . s_{m}) = Π_{i = 1}^{m} P (b_{i} | s_{i}),

构造盲汉转换模型；

所述P(b_i|s_i)值的估算采用如下三种方法：

a.0-1规则法

P (b_{i} | s_{i}) = \{\begin{matrix} 1, & {&Exists; r}_{j}, R (s_{i}, r_{j}) = True \\ 0 & {&ForAll; r}_{j}, R (s_{i}, r_{j}) = False \end{matrix}

b.α规则法

引入一个参数α，令

P (b_{i} | s_{i}) = \{\begin{matrix} α, & {&Exists; r}_{j}, R (s_{i}, r_{j}) = True \\ 1 - α & {&ForAll; r}_{j}, R (s_{i}, r_{j}) = False \end{matrix},

采用α，1-α两个值定义分词连写概率；

c.逐条规则统计法

2：统计这c_r个串中实际被连写的串的个数，记为c_t(j)；

3：计算α_j的估计值

{\hat{α}}_{j} = c_{t} (j) / c_{r} (j) .

7.根据权利要求6所述的盲文输入系统,其特征在于，b中，所述参数α的值的选取有两种方法：

2：统计这c_r个串中实际被连写的串的个数，记为c_t；

3：计算α的估计值

8.根据权利要求6所述的盲文输入系统,其特征在于，所述系统，还包括：

9.根据权利要求6所述的盲文输入系统,其特征在于，基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果，当后文中有未标调词出现时，先和已经记录的标调词比较盲文字符是否相同，若相同，则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。

10.根据权利要求6所述的盲文输入系统,其特征在于，所述系统，还包括：