CN102455786B

CN102455786B - 一种对中文句子输入法的优化系统及方法

Info

Publication number: CN102455786B
Application number: CN201010526953.3A
Authority: CN
Inventors: 周进华; 颜晓蔚; 万磊; 周志彬; 孙国勇; 陆灿江; 赵丹尼
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2010-10-25
Filing date: 2010-10-25
Publication date: 2014-09-03
Anticipated expiration: 2030-10-25
Also published as: CN102455786A

Abstract

本发明公开了一种对中文句子输入法的优化系统及方法，在得到多个候选的中文句子后，对于每个中文句子计算所选特征的特征向量，得到反应语言习惯、语法和语义的特征向量，然后与所训练的特征权重进行内积运算，得到每个中文句子的评分，根据各个中文句子的评分对多个候选中文句子进行排序后，通过候选中文句子列表显示模块显示。由于采用本发明提供的排序方法得到的候选中文句子列表顺序是按照更符合用户语言习惯、语法和语义特征进行顺序排列的，从而优化候选的中文句子列表，提高候选的中文句子列表准确性。

Description

一种对中文句子输入法的优化系统及方法

技术领域

本发明涉及计算机的中文输入技术，特别涉及一种对中文句子输入法的优化系统及方法。

背景技术

目前，在计算机进行中文输入，出现了中文句子的输入。中文句子的输入就是计算机接收到用户输入的拼音串，将该拼音串翻译为对应的汉语句子。

图1为现有技术的中文句子输入法的系统，包括：输入法引擎模块、识别翻译模块、候选中文句子列表显示模块、选择模块及输出模块，其中，

输入法引擎模块，用于按照设定的输入法解析得到用户输入的拼音串，发送给识别翻译模块；

识别翻译模块，用于对输入法引擎模块输入的拼音串，进行识别翻译后，得到多个候选的中文句子，根据某种策略，比如依据汉语语言模型评分，进行排序，得到对应的候选中文句子列表，发送给候选中文句子列表显示模块；

候选中文句子列表显示模块，用于显示候选中文句子列表，由选择模块控制选择得到一个中文句子，通过输出模块输出；

选择模块，用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子。

在这个系统中，识别翻译模块是至关重要的，其作用实际上就是拼音串到中文句子的转换过程，可以采用噪声信道模型进行描述：

\hat{H} = \underset{H}{\arg \max} P (H | Y) = \underset{H}{\arg \max} \frac{P (Y | H) P (H)}{P (Y)} \approx \underset{H}{\arg \max} P (Y | H) P (H)

公式(1)

在公式(1)中，Y表示汉语拼音串，H表示汉字串。通常为了方便，称P(Y|H)为音-字转换模型，称P(H)为汉语的语言模型。

在中文句子的输入过程中，由于汉语中同音字及多音字很多，而且通常输入的拼音串不带音调，一个拼音对应很多汉字，所以一个拼音串对应的字就可以组合出很多的候选中文句子。为了从无数的候选中文句子中选择可能性最高的候选中文句子列表，就需要搜索过程，由于汉字组词灵活，搜索空间非常大，为了满足用户对响应时间的要求，搜索过程中就会不断剪枝，最后只能给出可能性最高的一个候选中文句子列表供用户选择，通常这种候选中文句子列表为n-best，表示最好的前n个候选中文句子。

虽然现有的中文句子输入法的系统在生成候选中文句子列表的过程中采用了一些技术手段，比如采用公式(1)根据设置的汉语语言模型对候选中文句子进行翻译，但是还有如下问题：

1)对于一些因素或特征，比如：语言模型，对候选中文句子的排序有很大影响，但是由于受响应时间或技术限制，更高阶的语言模型不能用来对候选中文句子进行排序；

2)识别翻译模块使用的汉语语言模型和音-字转换模型都是采用设定的训练工具利用大众语料库训练出来的，由于大众语料库中汉语词汇和表达都很丰富，考虑到响应用户的时间要求，采用的短语的长度及模型的阶数都比较小，从而影响了对候选中文句子排序的准确性；

3)识别翻译模块采用的汉语语言模型和音-字转换模型无法对中文句子的语法、语义进行约束，所以会影响对候选中文句子排序的准确性。

综上，采用现有技术提供的系统对候选中文句子的排序准确性不高，需要用户通过选择模块经过繁琐的选择后才能得到需要的中文句子，降低了效率和体验度。

发明内容

有鉴于此，本发明提供一种对中文句子输入法的优化系统，该系统能够引入额外特征优化候选的中文句子列表，提高候选的中文句子列表准确性。

本发明还提供一种对中文句子输入法的优化方法，该方法能够引入额外特征优化候选的中文句子列表，提高候选的中文句子列表准确性。

为达到上述目的，本发明实施的技术方案具体是这样实现的：

一种对中文句子输入法的优化系统，该系统包括：输入法引擎模块、识别模块、重排序模块、候选中文句子列表显示模块、选择模块及输出模块，其中，

输入法引擎模块，用于解析得到输入的拼音串，发送给识别模块；

识别模块，用于对接收的拼音串，进行识别翻译后，得到多个候选的中文句子，发送给重排序模块；

重排序模块，用于接收多个候选中文句子，对每个中文句子，根据生成的资源文件计算得到反应语言习惯、语法和语义的特征向量，与所训练的特征权重进行内积运算，得到每个中文句子的评分，根据各个中文句子的评分高低对多个候选中文句子排序，得到候选中文句子列表，发送给候选中文句子列表显示模块；

所述识别模块，还用于在得到多个候选的中文句子之后，发送给重排序模块之前对候选中文句子列表进行排序。

所述系统还包括：资源文件库和提供特征权重模块，其中，

资源文件库，用于生成音-字转换表、互信息表、汉语语言模型和词性标注语言模型，提供给重排序模块；

提供特征权重模块，用于生成特征权重，提供给重排序模块；

重排序模块，对于每一个要排序的中文句子，还用于根据原排序得到基系统特征值，根据互信息表计算得到候选句子的互信息，根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率，根据汉语语言模型计算得到候选句子的语言模型评分，根据词性标注语言模型计算得到候选句子的词性标注语言模型评分，根据中文句子的短语个数得到候选句子长度，然后再将所得到的特征向量与特征权重求内积，得到每个中文句子的评分，根据各个中文句子的评分高低对多个候选中文句子排序，得到候选中文句子列表，发送给候选中文句子列表显示模块。

一种对中文句子输入法的优化方法，该方法包括生成计算特征向量所需的资源文件，训练特征权重，利用特征权重和表示候选句子的特征向量对候选句子进行评分，具体为：

将用户输入的拼音串进行识别翻译后，得到多个候选的中文句子；

对每个中文句子，根据生成的资源文件计算得到反应语言习惯、语法和语义的特征向量，与所训练的特征权重进行内积运算，得到每个中文句子的评分，根据评分高低对多个候选中文句子进行排序，得到候选中文句子列表，提供给用户；

根据用户的选择从候选中文句子列表中选择得到一个中文句子，输出。

所述资源文件包括：音-字转换表、互信息表、汉语语言模型和词性标注语言模型中的一种或多种组合，

所述资源文件和所述特征权重采用同分布的汉语语言资源得到。

所述特征向量的分量为以下一个或多个特征的组合：基系统特征、互信息、词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、汉语语言模型、词性标注语言模型和候选句子长度。其中，

根据原排序的倒数得到基系统特征值，根据互信息表计算得到候选句子的互信息，根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率，根据汉语语言模型计算得到候选句子的语言模型评分，根据词性标注语言模型计算得到候选句子的词性标注语言模型评分，根据中文句子的短语个数得到候选句子长度，然后再将所得到的特征向量与特征权重求内积，得到每个中文句子的评分，根据各个中文句子的评分高低对多个候选中文句子排序，得到候选中文句子列表。

由上述技术方案可见，本发明在得到多个候选的中文句子后，对于每个中文句子计算得到反应语言习惯、语法和语义的特征向量后，与所训练的特征权重进行内积运算后，得到每个中文句子的评分，根据各个中文句子的评分对多个候选中文句子进行排序后，通过候选中文句子列表显示模块显示。由于采用本发明提供的排序方法得到的候选中文句子列表顺序是按照更符合用户语言习惯、语法和语义特征进行顺序排列的，从而优化候选的中文句子列表，提高候选的中文句子列表准确性。

附图说明

图1为现有技术的中文句子输入法的系统示意图；

图2为本发明提供的对中文句子输入法的优化系统示意图；

图3为本发明提供的对中文句子输入法的优化系统实施例示意图；

图4为本发明提供的对中文句子输入法的优化方法流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

从背景技术可以看出，中文句子输入法系统中的候选中文句子列表显示模块输出的候选中文句子列表顺序准确性不高，使得用户首次选择命中率比较低，增加用户选择的次数的原因为：在进行候选中文句子列表的排列过程中，只根据设置的汉语语言模型进行排序，而没有对中文句子的语言习惯、语法和语义特征进行考虑。

因此，本发明针对中文的语言习惯、语法和语义特征，采用同分布的汉语语言资源生成资源文件并训练特征权重，在得到多个候选的中文句子后，对于每个中文句子，根据资源文件计算得到反应语言习惯、语法和语义的特征向量后，与所训练的特征权重进行内积运算后，得到中文句子的评分，根据各个候选中文句子的评分对多个候选中文句子进行排序后，通过候选中文句子列表显示模块显示。由于采用本发明提供的排序方法得到的候选中文句子列表顺序是按照更符合用户语言习惯、语法和语义特征进行顺序排列的，从而优化候选的中文句子列表，提高候选的中文句子列表准确性。

在该实施例中，对每一个候选中文句子，计算得到的特征向量的分量为以下一个或多个特征值的组合：基系统特征值、词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、互信息、汉语语言模型、词性标注语言模型和候选句子长度。

其中，互信息用于衡量候选句子中的长距离依赖和语义一致性，词语字音转换概率用于衡量词语的汉字串转换成其拼音串的可能性，逆向词语字音转换概率用于衡量从词语的拼音串转换成该词语汉字串的可能性，字音转换概率用于衡量词语中的汉字转换其拼音的可能性，逆向字音转换概率用于衡量词语中的拼音转换为其汉字的可能性，汉语语言模型用于衡量候选中文句子的流利度，词性标注语言模型用于衡量候选中文句子符合语法的程度。

逆向词语字音转换概率、字音转换概率和逆向字音转换概率反应了中文句子的拼音和汉字之间转换的准确性，可以依据音-字转换表得到。互信息、汉语语言模型、词性标注语言模型和候选句子长度表明了中文句子的语法和语义习惯，互信息可以根据生成的互信息表计算得到，汉语语言模型、词性标注语言模型分别需要汉语语言模型和用汉语词性标注语料训练的词性标注语言模型得到，基系统特征可采用候选中文句子序号的倒数间接得到，从而不需要资源文件。

词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、互信息及候选句子长度需要对候选中文句子进行分词，词性标注语言模型则需要对候选中文句子进行分词和词性标注。

图2为本发明提供的对中文句子输入法的优化系统，包括：输入法引擎模块、识别模块、重排序模块、候选中文句子列表显示模块、选择模块及输出模块，其中，

输入法引擎模块，用于按照设定的输入法解析得到用户输入的拼音串，发送给识别模块；

识别模块，用于对输入法引擎模块输入的拼音串，进行识别翻译后，得到多个候选的中文句子，发送给重排序模块；

重排序模块，用于接收识别模块发送的多个候选中文句子，对于每个中文句子，根据资源文件计算得到反应语言习惯、语法和语义的特征向量，与所训练的特征权重进行内积运算，得到每个中文句子的评分，根据各个中文句子的评分对多个候选中文句子进行排序，得到候选中文句子列表，发送给候选中文句子列表显示模块；

在本发明中，识别模块也可以采用现有的识别翻译模块，在得到多个候选的中文句子后，根据某种策略，比如依据语言模型评分，进行排序，得到对应的候选中文句子列表，发送给重排序模块，由重排序模块引入额外特征对候选中文句子列表进行再次的重排序。这样，本发明就是在图1所示的系统基础上增加了重排序模块，根据汉语的语言习惯、语法和语义对候选中文句子列表再次进行重新排序。

在本发明中，重排序模块需要使用特征权重及资源文件，如图3所示，资源文件库、提供特征权重的模块为重排序模块提供资源文件及特征权重，而资源文件库中的资源文件及提供特征权重模块中的特征权重则是由同分布的汉语语言资源库提供的。具体地，

汉语语言资源库，用于根据汉语语言资源，比如采用《人民日报》中的汉语句子，生成用于生成源文件的第一语料和生成特征权重的第二语料，分别提供给资源文件库及提供特征权重模块；

资源文件库，用于根据第一语料分别生成音-字转换表资源文件、互信息表资源文件、汉语语言模型资源文件和词性标注语言模型资源文件，提供给重排序模块；

提供特征权重模块，用于根据第二语料生成特征权重，提供给重排序模块；

重排序模块，具体对于每一个要排序的中文句子，根据原排序得到基系统特征值，根据互信息表计算得到候选句子的互信息，根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率，根据汉语语言模型计算得到对候选句子的语言模型评分，根据词性标注语言模型计算得到对候选句子的词性标注语言模型评分，根据中文句子的短语个数得到候选句子长度，然后再将所得到的特征向量与特征权重求内积，就得到了该中文句子的综合评分，按照评分的高低对多个候选中文句子进行排序，就可以得到最终的候选中文句子列表。

在该实施例中，得到的特征的分量可以为上述的一个或多个特征的组合，这里不再限定。

在该实施例中，在具体进行汉语整句的重排序过程中，不用包括汉语语言资源库，而是利用根据汉语语言资源在资源文件库中生成得到的资源文件，并在提供特征权重模块保存了所训练的特征权重。

图4为本发明提供的对中文句子输入法的优化方法流程图，预先采用同分布的汉语语言资源训练特征权重及用于计算反应汉语语言习惯、语法和语义特征的资源文件，该方法还包括：

步骤401、中文句子输入法系统接收到用户输入的拼音串；

步骤402、中文句子输入法系统将用户输入的拼音串进行识别翻译后，得到多个候选的中文句子；

步骤403、中文句子输入法系统对于每个中文句子，根据准备的资源文件计算得到反应语言习惯、语法和语义的特征向量，与所训练的特征权重进行内积运算，得到每个中文句子的评分，根据评分高低对多个候选中文句子进行排序，得到候选中文句子列表，提供给用户；

步骤404、中文句子输入法系统根据用户的选择从候选中文句子列表中选择得到一个中文句子，输出。

以下结合具体实施例对如何得到反应汉语的语言习惯、语法和语义的源文件进行详细说明。

准备第一语料

第一语料是根据汉语语言资源得到的拼音-汉字句对，用于生成音-字转换表、互信息表、汉语语言模型及词性标注语言模型。

准备第一语料的过程为：

第一步骤，从汉语语言资源，比如《人民日报》中随机抽取汉语句子，一句一行存储，作为文档a；

第二步骤，将文档a中的汉语句子注音，将拼音一句一行存入文档b，文档b中每一行拼音和文档a中对应行的句子一一对应；

第三步骤，从文档b中随机抽取约1000个句子串，一句一行，构成文档bb，然后从文档a和文档b中删除出现在文档bb中的句子；

第四步骤，对已经删除文档bb中句子的文档a中的句子进行词语切分，采用空格隔开；

第五步骤，根据已经删除文档bb中句子的文档a的分词，对已经删除文档bb中句子的文档b中对应拼音串进行相应分词，使得词语中字的拼音顺序连在一起，不同词语的拼音串用空格隔开，得到最终文档a和最终文档b。

举一个例子说明

已经删除文档bb中句子的文档a中的句子：她是一个美丽的小姑娘。

已经删除文档bb中句子的文档b中对应该句子的拼音串：ta shi yigemei’li de xiao gu’niang。

根据第一语料生成音-字转换表资源文件

具体过程为：

第一步骤，顺序读取第一语料的最终文档a和最终文档b中的句子，组成句对；

第二步骤，统计在最终文档a内句对中字和词的音-字转换次数，结果记录在设置的第一临时文件temp1中；

第三步骤，继续执行第一步骤和第二步骤，直到将最终文档a和最终文档b中的句对都处理完；

第四步骤，根据第一临时文件temp1中记录的音-字转换次数计算词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率，并将计算结果取以10为底的对数后与词语对一起存储，作为音-字转换表资源文件。

在该过程中，

第一临时文件temp1中数据格式为：ta|||她|||15579；ta’men|||她们|||6891；其中，第一个为最终文档b中的拼音串，第二个为最终文档a中对应的词语，第三个为对应的音-字转换次数；

计算词语字音转换概率及逆向词语字音转换概率的公式为：

p (h_{i} | y_{i}) = \frac{N (h_{i}, y_{i})}{N (y_{i})} - - - (2)

p (y_{i} | h_{i}) = \frac{N (y_{i}, h_{i})}{N (h_{i})} - - - (3)

其中，N(h_i，y_i)为词语的拼音串y_i转换成汉字串h_i的次数；N(y_i，h_i)为词语的汉字串h_i转换成拼音串y_i的次数；N(h_i)为词语的汉字串h_i的出现次数；N(y_i)为词语的拼音串y_i出现的次数。

计算字音转换概率，及逆向字音转换概率的公式为：

lex (h | y) = Π_{i = 1}^{l} p (h_{i} | y_{i}) - - - (4)

lex (y | h) = Π_{i = 1}^{l} p (y_{i} | h_{i}) - - - (5)

其中，y和h分别为词语的拼音串和汉字。p(h_i|y_i)为词语h中汉字h_i的拼音串y_i转换成汉字h_i的概率；p(y_i|h_i)为词语h中汉字h_i转换成其拼音串y_i的概率。l为该词语h中汉字的个数。

音-字转换表资源文件的格式为：拼音串y|||汉字串h|||log(p(h|y))log(lex(h|y))log(p(y|h))log(lex(y|h))

音-字转换表中一个数据例子：ta’men|||她们|||-0.9586-1.1549-2.7959-3.3979。

根据第一语料生成互信息表资源文件

具体过程为：

第一步骤，读取第一语料的最终文档a中的一个句子，统计句子中词及词对出现的次数；

第二步骤，重复第一步骤直到最终文档a中所有句子都被处理完；

第三步骤，计算所有词的概率和词对的共现概率；

第四步骤，根据词的概率和词对的共现概率获取词对的互信息，作为互信息表资源文件保存。

在该过程中，

计算词概率的公式为：

p (w) = \frac{N (w)}{N} - - - (6)

其中，N(w)为词w出现的次数；N为语料中词的总数。

计算词对(w_i，w_j)的共现概率的公式为：

p (w_{i} | w_{j}) = \frac{N (w_{i}, w_{j})}{\underset{r}{Σ} N (w_{r}, w_{j})} - - - (7)

p (w_{j} | w_{i}) = \frac{N (w_{i}, w_{j})}{\underset{r}{Σ} N (w_{i}, w_{r})} - - - (8)

其中，N(w_i，w_j)为词对(w_i，w_j)共现的次数；N(w_r，w_j)为词对(w_r，w_j)共现的次数；N(w_i，w_r)为词对(w_i，w_r)共现的次数。

计算词对(w_i，w_j)互信息的公式为：

I (w_{i}, w_{j}) = \log \frac{p (w_{i}, w_{j})}{p (w_{i}) p (w_{j})} = \log \frac{p (w_{i} | w_{j})}{p (w_{i})} = \log \frac{p (w_{j} | w_{i})}{p (w_{j})} - - - (9)

其中，p(w_i|w_j)为出现词w_j且出现词w_i在同一句子中的概率；p(w_j|w_i)为句子中出现词w_i且同时出现词w_j的概率；p(w_i|w_j)和p(w_j|w_i)的计算方法参见式(7)和式(8)；p(w_i)和p(w_j)分别为词w_i和词w_j出现的概率，计算方法参见式(6)。

互信息表资源文件中数据的格式为：词w_i|||词w_j|||I(w_i，w_j)

互信息表中一个数据例子：她|||姑娘|||-0.2825

根据第一语料生成汉语语言模型资源文件

过程为，对第一语料的最终文档a采用SRILM训练4阶汉语语言模型，其中，SRILM是现有的语言模型训练工具。

一个汉语语言模型资源文件的例子：-2.712682 她是

-2.712343 她要

根据第一语料生成词性标注语言模型资源文件

过程为：

第一步骤，对第一语料的最终文档a中的句子进行词性标注，产生词性标注串后，以一句一行的格式保存在第二临时文件temp2中；

第二步骤，以第二临时文件temp2为输入，采用SRILM训练7阶词性标注语言模型源文件。

第二临时文件temp2中的数据例子，比如：对应最终文档a中的句子“我是一个学生。”，第二临时文件temp2中相应的词性标注串为：“r vm q n w”。

一个词性标注语言模型资源文件中数据的例子：-0.325047 r v

准备第二语料

第二语料是用来训练特征权重的语料，其由汉语语言资源得到，要求该语料中每个拼音串有10个候选的中文句子。

准备第二语料的过程为：

第一步骤、将文档bb中的每个句子采用拼音串对应句子串的形式输入，并选取前10个候选句子，保存在第三临时文件temp3中；

第二步骤，对第三临时文件temp3中的句子分词，并标注词性，存储到文档c中，文档c为第二语料。

第三临时文档temp3中数据格式的一个例子：

ta shi yi ge mei’li de xiao gu’niang

</pinyin>

她是一个美丽的小姑娘

</sent>

他是一个美丽的小姑娘

</sent>

他是一个美丽地小姑娘

</sent>

它是一个美丽的笑姑娘

</sent>

……

</bead>

……

</bead>

……

</corpus>

文档c中数据格式的一个例子：

ta shi yi ge mei’li de xiao gu’niang

</pinyin>

她/rr是/vshi一/mq个/q美丽/an的/dec小/an姑娘/n

</sent>

他/rr是/vshi一/mq个/q美丽/an的/dec小/an姑娘/n

</sent>

他/rr是/vshi一/mq个/q美丽/an地/di小/an姑娘/n

</sent>

它/rr是/vshi一/mq个/q美丽/an的/dec笑/v姑娘/n

</sent>

……

</bead>

……

</bead>

……

</corpus>

根据第二语料训练特征权重

从第二语料中，选取m个拼音串，{y₁，y₂，…，y_m}，每个拼音串y_i∈{y₁，y₂，…，y_m}有n个候选汉字串，{h_i1，h_i2，…，h_in}。

训练特征权重的算法描述如下：

输入：一个正的松弛变量τ，本实施例中τ＝0.0001。迭代次数t，初值为t＝0。特征权重初值为：w⁰＝[0，0，…，0]

输出：特征权重

计算特征权重的算法为：

repeat{

for(拼音串下标i＝1 to m)do{

for(候选句子下标j＝1 to n-1)do{

u_j＝[0，0，…，0]

for(候选句子下标1＝j+1 to n)do{

if (w^{t} \cdot x_{ij} < w^{t} \cdot x_{il} + (\frac{1}{j} - \frac{1}{l}) τ) {

u_{j} = u_{j} + (\frac{1}{j} - \frac{1}{l}) {(x_{ij} - x_{il})}^{T} - - - (10)

}

w^{t + 1} = w^{t} + \underset{j}{Σ} u_{j}

(11)

}

}until特征权重w没有被修改为止

说明：上述算法中(x_ij-x_il)^T为列向量(x_ij-x_il)的转置。

对每一个候选中文句子的特征向量的具体计算

计算基系统特征值对应的分量：

设候选中文句子的原排序的序号依次为：1，2，3，......的自然数。该特征对应的分量为候选中文句子序号的倒数。

计算互信息对应的分量：

设h_i为第i^th个候选句子。h_i＝{h_i1，h_i2，…，h_in}，h_ij∈{h_i1，h_i2，…，h_in}为候选句子h_i中的一个词语。则该候选句互信息对应的分量为：

MI (h_{i}) = Σ_{j = 1}^{n - 1} Σ_{l = j + 1}^{n} I (h_{ij}, h_{il}) - - - (12)

其中，I(h_ij，h_il)的值可从互信息表资源文件中查找，找到则返回其值，否则返回0。

计算候选中文句子的词语字音转换概率和逆向词语字音转换概率对应的分量：

设h_i为第i^th个候选句子。h_i＝{h_i1，h_i2，…，h_in}，h_il∈{h_i1，h_i2，…，h_in}为候选句子h_i中的一个词语。设y为候选句子的拼音串，y＝{y₁，y₂，…，y_n}，y_j∈{y₁，y₂，…，y_n}为与候选句子中词语h_ij对应的拼音串，n为句中词语的个数。则候选中文句子h_i的词语字音转换概率和逆向词语字音转换概率对应的分量分别为：

Σ_{j = 1}^{n} \log p (y_{j} | h_{ij}) - - - (13)

Σ_{j = 1}^{n} \log p (h_{ij} | y_{j}) - - - (14)

其中，logp(y_j|h_ij)和logp(h_ij|y_j)的值从音-字转换表资源文件中查找，若查找不到，返回0。

计算候选中文句子的字音转换概率和逆向字音转换概率对应的分量：

设h_i为第i^th个候选句子。h_i＝{h_i1，h_i2，…，h_in}，h_ij∈{h_i1，h_i2，…，h_in}为候选句子h_i中的一个词语。设y为候选句子的拼音串，y＝{y₁，y₂，…，y_n}，y_j∈{y₁，y₂，…，y_n}为与候选句子中词语h_ij对应的拼音串，n为句中短语的个数。则字音转换概率和逆向字音转换概率对应的分量为：

Σ_{j = 1}^{n} \log lex (y_{j} | h_{ij}) - - - (15)

Σ_{j = 1}^{n} \log lex (h_{ij} | y_{j}) - - - (16)

其中，loglex(h_ij|y_j)和loglex(y_j|h_ij)的值从音-字转换表资源文件中查找，若找不到，则返回0。

计算候选中文句子语言模型对应的分量：

设h_i为第i^th个候选句子。h_i＝{h_i1，h_i2，…，h_in}，h_ij∈{h_i1，h_i2，…，h_in}为候选句子h_i中的一个词语。本实施例中使用的语言模型为4阶语言模型，则候选中文句子语言模型对应的分量为：

P_lm＝p(h_i1)*p(h_i2|h_i1)*p(h_i3|h_i1h_i2)*p(h_i4|h_i1h_i2h_i3)

*p(h_i5|h_i2h_i3h_i4)*…*p(h_in|h_in-3h_in-2h_in-1) (17)

其中，各概率值从汉语语言模型资源文件中查取。

举一个例子说明，中文候选句：我是一个学生；

语言模型特征值为：P_lm＝p(我)*p(是|我)*p(一|我是)*p(个我是一)*p(学生|是一个)。

计算候选中文句子的词性标注语言模型对应的分量：

设tag_i为第i^th个候选句子h_i的标注序列。tag_i＝{tg_i1，tg_i2，…，tg_in}，tg_ij∈{tg_i1，tg_i2，…，tg_in}为候选句子h_i中第j个词语的标注。本实施例中使用的词性标注语言模型为7阶的语言模型，则候选中文句子的词性标注语言模型对

P_lm-pos＝p(tg_i1)*p(tg_i2|tg_i1)*p(tg_i3|tg_i1tg_i2)*p(tg_i4|tg_i1tg_i2tg_i3)

*p(tg_i5|tg_i1tg_i2tg_i3tg_i4)*p(tg_i6|tg_i1tg_i2tg_i3tg_i4tg_i5)

*p(tg_i7|tg_i1tg_i2tg_i3tg_i4tg_i5tg_i6)*p(tg_i8|tg_i2tg_i3tg_i4tg_i5tg_i6tg_i7)

应的分量为： *…*p(tg_in|tg_in-6tg_in-5tg_in-4tg_in--3tg_in-2tg_in-1) (18)

其中，各概率值从词性标注语言模型资源文件中查取。

举一个具体例子说明，中文候选句：我是一个学生；

标注序列：r v m q n

词性标注语言模型对应的分量为：

P_lm-pos＝p(r)*p(v|r)*p(m|rv)*p(q|rvm)*p(n|rvmq)

计算候选中文句子长度对应的分量：

本实例取候选中文句子中短语个数为长度特征值。设h_i为第i^th个候选中文句子。h_i＝{h_i1，h_i2，…，h_in}，h_ij∈{h_i1，h_i2，…，h_in}为候选中文句子h_i中的一个词语。则候选中文句子h_i的长度对应的分量为n。

下面举三个采用了重排序模块进行重排序的例子。

例子1：

用户输入的拼音串为：haizidalelianghujiangyou

输出候选为：孩子大了两户将有

孩子打了两壶酱油

用重排序后输出为：孩子打了两壶酱油

孩子大了两户将有

例子2：

输入拼音串：jinlaijiangyutebieduo

输出候选为：进来将于特别多

近来降雨特别多

用重排序后输出为：近来降雨特别多

进来将于特别多

例子3：

输入拼音串：tashigeguniang

输出候选为：他是个姑娘

她是个姑娘

用重排序后输出为：她是个姑娘

他是个姑娘

综上，本发明对多个候选的中文句子根据譬如互信息、多种音-字转换概率、汉语语言模型、词性标注语言模型及句子长度等组成的特征向量从语法、语义方面进行重新的排序，取得了很好的效果：

1)其可以使得候选中文句子列表的排序更合理，增加了用户选择的首次命中率，减少用户选择的次数，加快了用户选择的速度；

2)特征向量中的词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、汉语语言模型、词性标注语言模型和/或互信息都可以根据汉语语言资源来得到，利用这些特征对候选中文句子进行重排序，可以使得候选中文句子列表中更符合用户语言习惯、语法和语义的候选中文句子排在更靠前的位置；

3)特征向量中的互信息反应了整句中词语之间互相依赖的特征，通过重排序，能够使得更加符合用户语言习惯的候选中文句子排在更靠前的位置；

4)特征向量中的汉语语言模型和词性标注语言模型能够衡量候选中文句子满足中文语法的程度，使得候选句子中更符合中文语法要求的句子排序更加靠前。

以上举较佳实施例，对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对中文句子输入法的优化系统，其特征在于，该系统包括：输入法引擎模块、识别模块、重排序模块、候选中文句子列表显示模块、选择模块及输出模块，其中，

选择模块，用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子；

所述系统还包括：资源文件库和提供特征权重模块，其中，

重排序模块，对于每一个要排序的中文句子，还用于根据原排序得到基系统特征值，根据互信息表计算得到候选句子的互信息，根据音-字转换表计算得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率，根据汉语语言模型计算得到候选句子的语言模型评分，根据词性标注语言模型计算得到候选句子的词性标注语言模型评分，根据中文句子的短语个数得到候选句子长度，然后再将所得到的特征向量与特征权重求内积，得到每个中文句子的评分，根据各个中文句子的评分高低对多个候选中文句子排序，得到候选中文句子列表，发送给候选中文句子列表显示模块；

所述基系统特征值对应的分量为所述中文句子的原排序的序号的倒数；

所述计算得到词语字音转换概率及逆向词语字音转换概率的公式为：

p (h_{i} | y_{i}) = \frac{N (h_{i}, y_{i})}{N (y_{i})},

p (y_{i} | h_{i}) = \frac{N (y_{i}, h_{i})}{N (h_{i})},

其中，N(h_i,y_i)为词语的拼音串y_i转换成汉字串h_i的次数；N(y_i,h_i)为词语的汉字串h_i转换成拼音串y_i的次数；N(h_i)为词语的汉字串h_i的出现次数；N(y_i)为词语的拼音串y_i出现的次数；

所述计算得到字音转换概率及逆向字音转换概率的公式为：

lex (h | y) = Π_{i = 1}^{l} p (h_{i} | y_{i}),

lex (y | h) = Π_{i = 1}^{l} p (y_{i} | h_{i}),

其中，y和h分别为词语的拼音串和汉字；p(h_i|y_i)为词语h中汉字h_i的拼音串y_i转换成汉字h_i的概率；p(y_i|h_i)为词语h中汉字h_i转换成其拼音串y_i的概率；l为该词语h中汉字的个数。

2.如权利要求1所述的系统，其特征在于，所述识别模块，还用于在得到多个候选的中文句子之后，发送给重排序模块之前对候选中文句子列表进行排序。

3.一种对中文句子输入法的优化方法，其特征在于，该方法包括生成计算特征向量所需的资源文件，训练特征权重，利用特征权重和表示候选句子的特征向量对候选句子进行评分，具体为：

根据用户的选择从候选中文句子列表中选择得到一个中文句子，输出；

所述特征向量的分量为以下一个或多个特征的组合：基系统特征、互信息、词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、汉语语言模型、词性标注语言模型和候选句子长度，其中，

根据原排序的倒数得到基系统特征值，根据互信息表计算得到候选句子的互信息，根据音-字转换表计算得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率，根据汉语语言模型计算得到候选句子的语言模型评分，根据词性标注语言模型计算得到候选句子的词性标注语言模型评分，根据中文句子的短语个数得到候选句子长度，然后再将所得到的特征向量与特征权重求内积，得到每个中文句子的评分，根据各个中文句子的评分高低对多个候选中文句子排序，得到候选中文句子列表；

所述基系统特征值对应的分量为所述中文句子序号的原排序的的倒数；

p (h_{i} | y_{i}) = \frac{N (h_{i}, y_{i})}{N (y_{i})},

p (y_{i} | h_{i}) = \frac{N (y_{i}, h_{i})}{N (h_{i})},

其中，N(h_i,y_i)为词语的拼音串yi转换成汉字串h_i的次数；N(y_i,h_i)为词语的汉字串h_i转换成拼音串y_i的次数；N(h_i)为词语的汉字串h_i的出现次数；N(y_i)为词语的拼音串yi出现的次数；

所述计算得到字音转换概率及逆向字音转换概率的公式为：

lex (h | y) = Π_{i = 1}^{l} p (h_{i} | y_{i}),

lex (y | h) = Π_{i = 1}^{l} p (y_{i} | h_{i}),

4.如权利要求3所述的方法，其特征在于，所述资源文件包括：音-字转换表、互信息表、汉语语言模型和词性标注语言模型中的一种或多种组合，