CN104050255B

CN104050255B - 基于联合图模型的纠错方法及系统

Info

Publication number: CN104050255B
Application number: CN201410264085.4A
Authority: CN
Inventors: 贾钟烨; 赵海; 王玉柱
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2017-10-03
Anticipated expiration: 2034-06-13
Also published as: CN104050255A

Abstract

一种信息处理技术领域的基于联合图模型的纠错方法及系统，基于拼音规则和拼音音节语言模型，使用最短路径算法，对用户输入的可能包含错误的拼音串进行音节切分，并对切分得到的音节串构建拼音纠错和整句生成的联合图模型，最终通过在联合图模型上进行最短路径解码，获得拼音纠错‑整句生成联合最优解，完成纠错。本发明能够在拼音输入含有错误时仍能够通过自动容错纠错，生成用户意图输入的句子，在复杂度为0(E)的情况下准确率达到97％以上。

Description

基于联合图模型的纠错方法及系统

技术领域

本发明涉及的是一种信息处理技术领域的方法，具体是一种基于联合图模型的纠错方法及系统。

背景技术

人们的日常工作与生活强烈地依赖于中文输入法。不论是写邮件、发短信，还是写文章、填表格；凡是需要将中文输入到计算机当中几乎都离不开中文输入法。中文输入也是中文的信息化处理的重要环节，只有将中文通过输入法录入到计算机中，才可能进行后续的储存、分类、统计、检索、传输等信息化处理工作。作为人们日常生活的必需软件和中文信息处理的基石，中文输入法的重要性不言而喻。

早期的中文输入法受限于计算机的软硬件条件，普遍要求用户不得不去适应机器，如记忆大量的编码，或产生歧义时人工选择等。随着计算机的性能的不断提升，计算机硬件方面汉字输入计算机的性能制约已不复存在，中文输入法软件也随之进步发展。

现阶段主流的输入法都采用了拼音输入、整句解码的架构。用户只需要输入和汉字句子对应的连续的拼音串，输入法会自动进行拼音切分，查找候选词，最终解码生成整句。整句解码不仅使用户的输入更加连贯自然，更重要的是利用了整句层面的统计语言学信息极大程度地减少了歧义，使得中文输入更加准确高效。

然而现有的整句解码方案都要求用户的拼音输入没有错误，否则便无法进行正确解码。然而随着智能手机、平板电脑等触摸屏便携智能设备的普及，受限于触摸屏的软键盘的大小和缺乏物理反馈，拼音输入的错误率较使用物理键盘大大增加，极大地影响了这些设备上的使用体验和输入效率。

经过对现有技术的检索发现，中国专利文献号CN102156551A公开(公告)日2011.08.17，公开了一种字词输入的纠错方法及系统，其中：，所述方法包括：检测用户输入的编码字符串中存在的错误输入片段；纠正所述编码字符串中的错误输入片段，生成至少一个纠错候选字符串；利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估；根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字。通过该技术，能够提高纠错的有效性或命中率。但该技术基于的是片段的字符串，且对拼音和汉字是分开处理的，由于忽视了拼音与汉字之间的关联性，使得其纠错的正确率较低。

中国专利文献号CN101350004公开(公告)日2009.01.21，公开了一种形成个性化纠错模型的方法，该方法包括：收集用户的输入信息；分析所述输入信息，获取用户的输入习惯信息；根据所述输入习惯信息对当前纠错模型进行调整，得到个性化纠错模型。该技术还公开了一种形成个性化纠错模型的装置及个性化纠错的输入法系统。该技术通过对当前纠错模型进行调整来得到符合用户输入习惯的个性化纠错模型，以用于实现对用户的输入序列进行更准确的个性化自动纠错。另外，可以收集多方面的信息，纠错范围不仅包括类似南方模糊音的认知错误，还包括非认知错误，纠错覆盖面广。由于综合考虑了输入设备布局、输入设备质量等因素，使得该技术可以适用于PC键盘、迷你键盘等不同的输入设备，具有广泛的适用性。但该技术需要收集用户输入信息来建立纠错模型，使得不同用户使用过程中的输入习惯将导致纠错的结果各不相同。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于联合图模型的纠错方法及系统，基于拼音切分、拼音纠错和汉字整句解码联合图模型来达到容错输入的拼音输入法，在拼音输入含有错误时仍能够通过自动容错纠错，生成用户意图输入的句子。

本发明是通过以下技术方案实现的，本发明基于拼音规则和拼音音节语言模型，使用最短路径算法，对用户输入的可能包含错误的拼音串进行音节切分，并对切分得到的音节串构建拼音纠错和整句生成的联合图模型，最终通过在联合图模型上进行最短路径解码，获得拼音纠错-整句生成联合最优解，完成纠错。

所述的拼音音节语言模型是指：使用拼音文本训练得到拼音音节语言模型。

所述的音节切分是指：使用最短路径算法对拼音音节进行切分。

所述的联合图模型通过以下步骤构建得到：

4.1)将用户输入的可能包含错误的拼音串中的音节作为节点加入图模型；

4.2)对音节串中母进行逐一修改，将替换得到的新的合法音节加入图模型；

4.3)合并输入字符串上相邻的音节，当得到符合汉语拼音规范的合法音节则加入步骤4.2)中的图模型中；

4.4)通过查找拼音-汉字词典，将图模型的节点由音节转换为汉字词，获得联合图模型。

所述的汉字词语言模型通过使用已经分词的汉字文本训练得到。

所述的联合图模型中：使用拼音-汉字发射概率和拼音修改的编辑概率加权求和作为节点权重，使用汉字词语言模型概率作为边权重。

所述的拼音-汉字发射概率通过使用拼音-汉字对应文本抽取拼音-汉字词典并训练得到。

所述的拼音修改的编辑概率是指：将一个拼音串在当前上下文中修改为相邻的一个拼音串的概率。

本发明涉及实现上述方法的系统，包括：交互装置、切分模块、联合图模型生成模块和最短路径计算模块，其中：交互装置接收用户输入的拼音字符串并输出至切分模块，切分模块根据预存的拼音规则和拼音音节语言模型，使用最短路径算法对拼音字符串进行切分，并将切分后音节串的输出至联合图模型生成模块，联合图模型生成模块根据音节串生成拼音纠错和整句生成的联合图模型并分别输出至最短路径计算模块，最短路径计算模块针对联合图模型进行最短路径解码，并根据拼音纠错联合得到纠错结果并将纠错后的结果反馈至交互装置。

技术效果

与现有技术相比，本发明纠错方法相比现有技术更加高效、快速、准确，其算法复杂度为0(E)，处理速度能够达到2000字/秒；准确率为97.52％，而现有的google输入法纠错准确率为95.26％。

附图说明

图1为实施例拼音切分示意图。

图2为实施例纠错图模型示意图。

图3为实施例联合图模型示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施对用户输入的可能包含错误的拼音串，对拼音纠错和整句生成进行联合解码，包括以下步骤：

1.使用拼音文本训练得到拼音音节语言模型；

2.使用已经分词的汉字文本训练得到汉字词语言模型；

3.使用拼音-汉字对应文本抽取拼音-汉字词典，训练得到拼音-汉字发射概率模型。

本实施例使用了一个已经收集好的拼音-汉字对应的人民日报语料库进行训练。使用拼音部分训练得到拼音音节语言模型，拼音音节语言模型可以提供已知已经出现的若干拼音音节s_i-n...s_i-2s_i-1，下一个拼音音节s_n的概率P(s_i|s_i-n...s_i-2s_i-1)。

类似地，使用已经分词的汉字部分训练得到汉字词语言模型，提供已知已经出现的若干汉字词w_i-n...w_i-2w_i-1，下一个拼音音节w_i的概率P(w_i|w_i-n...w_i-2w_i-1)。

使用拼音-汉字对应语料库，抽取拼音-汉字词典，并训练得到拼音-汉字词发射概率P(w|S)，其中：w为汉字词，S为它的拼音。

所述的拼音音节语言模型的获得方式为：

其中：count(x₁x₂...x_k)为序列x₁x₂...x_k的在语料中的计数，smooth()为平滑函数。

所述的拼音-汉字发射概率的获得方式为其中：count(w)为词语w的在语料中的计数，count(S)为拼音S的在语料中的计数，smooth()为平滑函数。

按照拼音规则和拼音音节语言模型，使用最短路径算法，对用户输入的拼音进行音节切分：

对于用户输入的拼音串c₁c₂...c_N，如果其子串c_i...c_j可以组成一个合法音节s_i，j，就将其作为节点加入到图中，相邻音节s_i，j，s_j+1，k之间有一条边相连，边权重由拼音语言模型P(s_i|s_i-n...s_i-2s_i-1)给出。在这个图上求最短路径，即可得到概率最大的音节切分。

例如，用户希望输入“你好世界”，并且错误地输入了拼音“mihaoshijiw”，拼音切分过程如图1所示。

对切分得到的音节串构建拼音纠错和整句生成的联合图模型，并进行联合优化解码，具体包括：

i)将音节串中的音节作为节点加入图模型，即将2中的音节s_i，j加入这一步中的图中。

ii)使用任意一种现有技术对音节串中的字母进行逐一修改。将替换得到的新的合法音节加入图模型。合并相邻的音节，如果可以得到合法的音节，也加入图模型，即修改s_i，j得到s_i，j，如果s_i，j也是一个合法的音节，就将其加入图中。如果s_i，j，s_j+1，k可以合并成一个新的合法音节s_i，k，就将其加入图中。

iii)本实施例中，得到的新的图模型如图2所示。

iv)通过查找拼音-汉字词典，将图模型的节点由音节转换为汉字词，获得联合图模型，即通过合并若干相邻的音节为一个可能的词s_i，js_j+1，k...，在词典中查找是否存在对应的汉字词语w，如果有，就将这些音节对应的节点合并出一个新的节点代表这个汉字词语。

本实施例中，这个图模型如图3所示，进一步地：使用拼音-汉字发射概率和拼音修改的编辑概率加权求和为节点权重。使用汉字词语言模型概率为边权重。

使用编辑距离近似编辑概率，与拼音-汉字发射概率加权求和得到节点权重。而边权重由汉字词语言模型P(w_i|w_i-n...w_i-2w_i-1)给出。

在联合图模型上进行最短路径解码，获得拼音纠错-整句生成联合最优解，即在汉字词语的节点上进行最短路径解码，得到整句概率最大同时纠错概率最大的联合最优结果。

本实施例实现上述方法的系统包括：交互装置、切分模块、联合图模型生成模块和最短路径计算模块，其中：交互装置接收用户输入的拼音字符串并输出至切分模块，切分模块根据预存的拼音规则和拼音音节语言模型，使用最短路径算法对拼音字符串进行切分，并将切分后音节串的输出至联合图模型生成模块，联合图模型生成模块根据音节串生成拼音纠错和整句生成的联合图模型并分别输出至最短路径计算模块，最短路径计算模块针对联合图模型进行最短路径解码，并根据拼音纠错联合得到纠错结果并将纠错后的结果反馈至交互装置。

本实施例中，用户通过向交互装置输入拼音“mihaoshijiw”，系统自动判断用户希望输入的拼音为”nihaoshijie”，经拼音纠错-整句生成联合最优解，即“你好世界”。

Claims

1.一种基于联合图模型的纠错方法，其特征在于，基于拼音规则和拼音音节语言模型，使用最短路径算法，对用户输入的可能包含错误的拼音串进行音节切分，并对切分得到的音节串构建拼音纠错和整句生成的联合图模型，最终通过在联合图模型上进行最短路径解码，获得拼音纠错-整句生成联合最优解，完成纠错；

所述的拼音音节语言模型是指：使用拼音文本训练得到拼音音节语言模型，拼音音节语言模型根据已知已经出现的若干拼音音节s_i-n…s_i-2s_i-1，提供下一个拼音音节s_n的概率P(s_i|s_i-n…s_i-2s_i-1)；

所述的拼音音节语言模型的获得方式为：其中：count(x₁x₂…x_k)为序列x₁x₂…x_k的在语料中的计数，smooth()为平滑函数；

所述的联合图模型通过以下方式构建得到：

4.2)使用任意一种现有技术对音节串中的字母进行逐一修改，将替换得到的新的合法音节加入图模型；

4.3)合并输入字符串上相邻的音节，当得到符合汉语拼音规范的合法音节则加入步骤4.2)中的图模型中；否则什么都不做；

2.根据权利要求1所述的方法，其特征是，所述的联合图模型中：使用拼音-汉字发射概率和拼音修改的编辑概率加权求和作为节点权重，使用汉字词语言模型概率作为边权重。

3.根据权利要求2所述的方法，其特征是，所述的汉字词语言模型通过使用已经分词的汉字文本训练得到，汉字词语言模型根据已知已经出现的若干汉字词w_i-n…w_i-2w_i-1，提供下一个拼音音节w_i的概率P(w_i|w_i-n…w_i-2w_i-1)。

4.根据权利要求2所述的方法，其特征是，所述的拼音-汉字发射概率是指：通过使用拼音-汉字对应文本抽取拼音-汉字词典并训练得到P(w|S)，其中：w为汉字词，S为它的拼音；其中：count(w)为词语w的在语料中的计数，count(S)为拼音S的在语料中的计数。

5.一种实现上述任一权利要求所述基于联合图模型的纠错方法的系统，其特征在于，包括：交互装置、切分模块、联合图模型生成模块和最短路径计算模块，其中：交互装置接收用户输入的拼音字符串并输出至切分模块，切分模块根据预存的拼音规则和拼音音节语言模型，使用最短路径算法对拼音字符串进行切分，并将切分后音节串的输出至联合图模型生成模块，联合图模型生成模块根据音节串生成拼音纠错和整句生成的联合图模型并分别输出至最短路径计算模块，最短路径计算模块针对联合图模型进行最短路径解码，并根据拼音纠错联合得到纠错结果并将纠错后的结果反馈至交互装置。