CN102831177B

CN102831177B - 语句纠错方法及其系统

Info

Publication number: CN102831177B
Application number: CN201210268302.8A
Authority: CN
Inventors: 舒畅; 唐璐; 穆影英; 胡金荣; 王丽君; 黄莎莎; 张�林; 刘�文; 陈昱洁; 沈玉龙; 高迎; 刘畅; 廖益玄; 孙彦玲
Original assignee: Poly Entropy Information Technology (shanghai) Co Ltd
Current assignee: Semantic Intelligent Technology (Guangzhou) Co., Ltd.
Priority date: 2012-07-31
Filing date: 2012-07-31
Publication date: 2015-09-02
Anticipated expiration: 2032-07-31
Also published as: CN102831177A

Abstract

本发明尤其涉及一种语句纠错方法及其系统。所述方法包括：（a）获取用户输入的第一语句信息，并存储在一存储器中；（b）判断所输入的第一语句信息在第一映射表内是否有匹配结果，若无，则执行步骤（c），若有，执行步骤（f）；（c）根据相似度最高的准则，对第一语句信息进行纠错，生成第二语句信息；（d）在用户界面上显示第二语句信息；（e）经用户确认后，将第二语句信息在一功能库内进行查找，若有匹配结果，则执行步骤（f），若无匹配结果，则执行结束；（f）经用户确认后，在用户界面上显示响应结果。本发明可以准确识别用户的口语化语句，实现对语句信息自动纠错；并对数据库进行动态添加信息，以使数据库的内容信息具有实效性、流行性。

Description

语句纠错方法及其系统

技术领域

本发明涉及人工智能、机器学习和自然语言处理技术领域，尤其涉及一种语句纠错方法及其系统。

背景技术

随着互联网的不断发展，用户常常通过搜索系统进行信息查询，从而获取相关资料。目前，以谷歌和百度为代表的搜索引擎已为用户提供了方便的查询功能。用户只需输入关键词、词组以及关键语句，即可准确获得搜索结果。若用户所输入的关键词、词组以及关键语句中存在一般性的小错误时，谷歌和百度搜索引擎可以对其进行一定程度的纠错。其中，谷歌和百度的中文纠错都是基于词，例如，“荷塘月色”是一首歌曲的歌名，它是一个专有的词组。基于这点，谷歌和百度搜索引擎能够对“河塘月色”进行识别纠错，从而猜测出用户想要表达的意思是“荷塘月色”。

但是，以谷歌和百度为代表的搜索引擎也存在着一些不足：其一，由于目前的谷歌和百度搜索引擎以文本输入为主，其输入并转化后的格式为字符串形式，因而其有一定的局限性，仅能对字式词语纠错，而不适合对语句进行纠错。其二，谷歌和百度搜索引擎对中文语句的纠错是基于一定的语法结构的，对懒散无序的现代中文不能进行有效的纠错，例如，原始口语化的语句。其三，谷歌和百度搜索引擎也没有针对某个领域的特殊纠错功能。

发明内容

本发明的目的之一提供一种语句纠错方法。本发明用于准确地识别用户口语化的表达意图，实现对用户口语化的语句进行自动纠错，并将纠错且基于原始语句的语句信息提示给用户，通过一系列便捷的人机双向交互式操作，经确认后获得相应的响应；同时实现可以对数据库进行动态添加信息，以使数据库内的内容信息具有实效性、流行性和快捷性。此外，可以针对特殊领域的语句提供更专业的纠错，以增强用户的体验。

为实现上述的目的，本发明采用下述技术方案。

一种语句纠错方法，包括以下步骤：

（a）获取用户输入的第一语句信息，并存储在一存储器中；

（b）判断所输入的语句信息在第一映射表内是否有匹配结果，若无，则执行步骤（c），若有，执行步骤（f）；

（c）根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息；

（d）在用户界面上显示第二语句信息；

（e）经用户确认后，将第二语句信息在功能库内进行查找，若有匹配结果，则执行步骤（f），若无匹配结果，则执行结束；

（f）经用户确认后，在用户界面上显示响应结果。

进一步，在步骤（a）之前，进一步包括以下步骤：

用户通过麦克风进行语音输入；

通过语音识别器将所输入的语音信息转换为文本式的第一语句信息。

进一步，在步骤（c）中，进一步包括以下步骤：

（c1）将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息；

（c2）根据找到的相似的语句信息，计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本；

（c3）找出总成本最小的语句信息，并将所述总成本最小的语句信息设置为第二语句信息；

（c4）将第一语句信息与第二语句信息进行彼此映射。

进一步，在步骤（c4）之后包括以下步骤：

（c5）根据第二语句信息进行人工审查；

（c6）将正确的第二语句信息写入第二数据库；

（c7）将第二数据库与第一数据库进行合并。

本发明的另一个目的在于提供一种语句纠错系统。

为实现上述的目的，本发明采用下述技术方案。

一种语句纠错系统，包括：获取语句模块、第一判断语句模块、纠错语句模块、显示语句模块、第二判断语句模块和响应语句模块；

所述获取语句模块用于获取用户输入的第一语句信息，并存储在一存储器中；

所述第一判断语句模块与所述获取语句模块连接，用于判断所输入的语句信息在第一映射表内是否有匹配结果；

所述纠错语句模块与所述第一判断语句模块连接，用于对语句信息进行纠错，并生成第二语句信息；

所述显示语句模块与所述纠错语句模块连接，用于显示第二语句信息；

所述第二判断语句模块与所述纠错语句模块连接，用于将第二语句信息在功能库内进行查找，判断是否有匹配结果；

所述响应语句模块与所述第二判断语句模块连接，用于在用户界面上显示响应结果。

进一步，所述语句纠错系统还包括：输入语音模块和转换语音模块；

所述输入语音模块用于用户通过麦克风进行语音输入；

所述转换语音模块与所述输入语音模块连接，用于将所述输入语音模块的语音信息转换为文本式的第一语句信息。

进一步，所述语句纠错系统还包括：查找语句模块、计算语句模块、设置语句模块和映射语句模块；

所述查找语句模块用于将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息；

所述计算语句模块与所述查找语句模块连接，用于根据找到的相似的语句信息，计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本；

所述设置语句模块与所述计算语句模块连接，用于将总成本最小的语句信息设置为第二语句信息；

所述映射语句模块与设置语句模块连接，用于将第一语句信息与第二语句信息进行彼此映射。

进一步，所述语句纠错系统还包括：人工审核模块、写入正确结果模块和合并数据库模块；

所述人工审核模块用于对第二语句信息进行人工审核；

所述写入正确语句模块与所述人工审核模块连接，用于将正确的第二语句信息写入第二数据库；

所述合并数据库模块与所述写入匹配结果模块连接，用于将第二数据库与第一数据库进行合并。

本发明的优点在于：

（1）通过使用混合相似度的机器学习纠错算法（包括改进型的编辑距离算法和贝叶斯概率模型），使得整个语句信息纠错过程是全自动化进行。

（2）所述第一数据库具有动态自动添加信息的功能，使得作为基准的第一数据库能够准确地识别出流行语、网络语等，以至存储器中的语句信息并不会对新兴词语进行自动纠错。

（3）所述映射表使用哈希结构，且对所述映射表进行分布式存储，大大降低了匹配时间负载度。

（4）第一时间反馈给用户基于原始表达意思的正确语句信息，增强了用户体验。

（5）所述第一数据库的建立是动态的且为分布式存储，从而加快处理速度，而且可以随时随地地更新第一数据库，用户在任何地方享受同等的语句信息纠错服务。

附图说明

图1是本发明所述语句纠错方法的具体实施方式的步骤流程示意图；

图2是ROC曲线的空间示意图；

图3是本发明所述语句纠错系统结果示意图；

图中的标注分别为：

10、语句纠错系统；

110、获取语句模块；120、第一判断语句模块；130、纠错语句模块；

131、查找语句模块；132、计算语句模块；133、设置语句模块；134、映射语句模块；

140、显示语句模块；150、第二判断语句模块；160、响应语句模块；170、输入语音模块；180、转换语音模块；190、数据库填充添加模块；

191、人工审核模块；192、写入正确语句模块；193、合并数据库模块。

具体实施方式

下面结合附图对本发明所述语句纠错方法及其系统的具体实施方式做详细说明。

参见图1所示，本发明所述语句纠错方法的具体实施方式，包括以下步骤：

S110：用户通过麦克风进行语音输入。

S120：通过语音识别器将所输入的语音信息转换为文本式的第一语句信息。

在步骤S110~S120中，用户输入的第一语句信息是通过语音方式完成。在其他实施例中，也可以采用文本方式。由于采用语音方式使得用户可以随心所欲地表达意思，没有任何限制，甚至可以脱离语法。同时通过语音方式也使得输入语句信息更加快捷和方便，用户有更好的体验。本发明所述的第一语句信息可以是中文、英文或其他语系的语言，但为了更好的说明本发明，仅以中文的第一语句信息为例，其他语系的语句纠错方法在此就不一一赘述。在步骤S110~S120中，用户通过现有的麦克风和语音识别器装置，可以将语音输入的语音信息转化为机器可以识别的文本式的第一语句信息。

S130：获取用户输入的第一语句信息，并存储在一存储器中。

所述第一语句信息为词、短语以及句子中任意一种或多种的组合。所述存储器存储的数据包括错误语句信息和正确语句信息。即第一语句信息可以为错误语句信息或正确语句信息。

S140：判断所输入的第一语句信息在第一映射表内是否有匹配结果，若无，则执行步骤S150，若有，执行步骤S180。

根据所输入的第一语句信息在第一映射表内进行查找，查看是否有匹配结果。本发明所述的第一映射表（或下文中出现的第二映射表）均指字典。所谓的字典包括错误语句信息与对应的正确语句信息。例如，错误语句信息，“世界上最深的海狗在哪里”，对应的正确语句信息，“世界上最深的海沟在哪里”。当用户确认正确语句信息之后，可以得到相应的响应结果。

S150：根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息。

当用户输入的第一语句信息有错误，例如，由于发音不准确，卷舌翘舌不分，导致经过语音识别器转换得到的语句信息有误，因此需要对第一语句信息进行自动纠错，并生成新的第二语句信息。

在此步骤中进一步包括以下子步骤：

S151：将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息。

其中，所述第一数据库包括正确语句信息。在人工智能领域，所述第一数据库也可称为第一知识库或记忆体，通过该第一知识库能够准确地判断用户真正想要表达的意思。

S152：根据找到的相似的语句信息，计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本。

在此步骤中，需要通过机器学习纠错算法（包括改进型的编辑距离算法、贪婪算法和ROC曲线分析法）以完成对语句信息的纠错。现有的编辑距离算法，对每一个词可以进行添加、删除、替换操作，添加操作的编辑成本为A，删除操作的编辑成为D，替换操作的编辑成本为R，则编辑总成本为T=A*个数+D*个数+R*个数。

而本发明对现有的编辑距离算法进行了改进，引入权重常数，即添加、删除、替换每一操作均分别有各自的权重a、d、r。利用本发明改进型的编辑距离算法，获得的编辑总成本为T= A*个数*a+D*个数*d+R*个数*r。

所述权重常数的计算是通过ROC曲线（Receiver Operating Characteristic）分析算法得出。例如，现有的编辑距离法中，每一个编辑成本（添加，删除，替换）各自都有1个权重，而在改进型的编辑距离算法中，利用贪婪算法+ROC曲线分析法能够从2个自由度空间（3个成本-1）里得出最优权重解。即总共要用3个成本（添加、删除和替换）去计算编辑距离，计算出这3个最优权重是需要在2个自由度空间里计算，这2个自由度的得来是（3-1）。同样，利用ROC曲线分析法能够从多个数据库（或称知识库）类别中得出最优权重解，自由度空间个数为（总体知识库类别-1）。其中，贪婪算法一般是为了可以快速得到满意的解，因为它省去了为找最优解要穷尽所有可能而必须耗费的大量时间。贪婪算法常以当前情况为基础作最优选择，而不考虑各种可能的整体情况。例如平时购物找钱时，为使找回的零钱的硬币数最少，不考虑找零钱的所有各种方案，而是从最大面值的币种开始，按递减的顺序考虑各币种，先尽量用大面值的币种，当不足大面值币种的金额时才去考虑下一种较小面值的币种。而ROC曲线分析法是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（灵敏度）为纵坐标，假阳性率（1-特异度）为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点，必须将试验结果分为两类，再进行统计分析。ROC曲线的评价方法与传统的评价方法不同，无须此限制，而是根据实际情况，允许有中间状态，可以把试验结果划分为多个有序分类，如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析，可以参见图2所示。其中，TPR ：正确命中率；（TPR也称为sensitivity敏感度）；FPR：错误命中率；Pefect Classification：完美分类，指在整个ROC空间里坐上角的点；ROC Space：ROC空间；Random guess：随机猜。

举个例子，现有的距离编辑算法中，每一个操作的编辑成本均为1，若添加个数为1，删除个数为0，替换个数为1，则编辑总成本为T=A*个数+D*个数+R*个数=1*1+1*0+1*1=2；而改进型的距离编辑算法中，添加的权重为0.8，删除的权重为1.1，替换的权重为0.5，则改进型的编辑总成本为T= A*个数*a+D*个数*d+R*个数*r=1*1*0.8+1*0*1.1+1*1*0.5=0.8+0.5=1.3。其中，各个编辑操作的权重常数是通过贪婪算法和ROC曲线分析法而得出。由于中国南北差异，用户在语音输入过程中，对其转换而得的语句信息存在识别错误率较高情况，所以根据统计得出替换操作的权重应该被相应的减少。通过对添加、删除和替换操作进行加权分析，改变了其编辑成本。通过使用改进型的编辑距离算法能够更准确地找到相似的语句，而且基于用户的原始表达意思，从而提高了纠错的准确率。

在识别语句信息时，本发明采用4种组合型的中文标注，在标注时需考虑每个词的声母和音调：

1.原始中文汉字

例子：还首歌

2.原始中文汉字+对应每个词的声母

例子：h还s首g歌

3.原始中文汉字+对应每个词的拼音

例子：huan还shou首ge歌

4.原始中文汉字+对应每个词的拼音+声调

例子：huán还shǒu首gē歌

对于每一种组合（例子中的标注）均可采用改进型的编辑距离算法，根据第一数据库中的数据，以计算并找到相似的语句。其中以声母+文字的组合最好，尤其是在一些错误比较多的情况下。例如：灿搜歌，（声母发音错了，韵母也错了），采用提取声母+文字的方式，则有更好的性能表现，但如果采用拼音+文字方式，例如，can灿sou搜ge歌 -对应- chang唱shou首ge歌，由于上述错误比较严重，则可能导致无法正确纠错。

S153：找出总成本最小的语句信息，并将所述总成本最小的语句信息设置为第二语句信息。

首先根据改进型的编辑距离算法得到总成本最小的语句信息，并将其设置为第二语句信息，且该第二语句信息与第一语句信息相似。

接着，若在多个候选语句的总成本相同时，例如“换首歌”，“唱首歌”，“来首歌”的总成本是相同，则需要采用朴素贝叶斯算法，将出现概率最高的语句信息设置为第二语句信息，例如“换首歌”，在第一数据库汇总的出现概率最高，则将第一语句信息“还首歌”设置为第二语句信息（即纠错结果）“换首歌”。

第一数据库（或称第一知识库）进行分布式数据云存储，根据不同的数据类别进行类别化分布，即可获得类别概率。在本发明较佳实施例中，对朴素贝叶斯公式也进行加权，尤其是对数据显著的类别。例如，第一数据库中歌曲的数据比股票的数据多，若语句信息中包括“音乐”时，则会得到更大的权重。该方法流程与改进型的编辑距离算法流程类似。

S154：第一语句信息与第二语句信息进行彼此映射。

采用上述的改进型编辑距离法和朴素贝叶斯算法，可以使多个第一语句信息与第二语句信息成为多对一的映射关系。例如，第一语句信息“唤首歌”、“还首歌”、“缓首歌”经过语句信息纠错后，均与第二语句信息“换首歌”成为映射关系。这些映射关系存储在第一映射表（或称第一字典）中。

在本发明较佳实施例中，所述映射表为哈希结构的映射关系，并且对所述映射表进行分布式存储。根据语句信息的不同类别进行不同的分布。例如，唱曲、股票、天气情况进行类别的分布化，这样可以加快处理速度，能够把时间复杂度降为O（1）（时间复杂度是度量算法执行的时间长短，常数阶O(1)是表示在最好的情况下，线性阶O(N)是表示在最坏的情况下），能够在最短的时间里把纠错的响应结果反馈给用户，用户无需等太长的时间来获得响应结果，使用户的体验更加完善。

在本发明具体实施例中，通过步骤S151~S154的实施以实现根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息（步骤S150）。在本发明其他实施例中，也可以通过以下几种方法，并根据相似度最高的准则以实现上述目的。例如，1）可以通过纯拼音的方法对有些语句信息进行纠错。2）可以通过计算两个语句信息的余弦夹角值，根据取夹角值的最小值以判断纠错。3）可以通过最简单对应的词汇表对有些语句信息进行纠错，例如黄烟岛-黄岩岛。这种方法仅适用于基于词组。4）可以通过Pointwise Mutual Information（PMI，点间互信息）算法计算语句信息的相似度，从而进行语句信息的纠错。

经过步骤S154执行之后，会存在以下四种情况。

情况一：（在存储器中）第一语句信息为正确的，经过参照第一数据库中的数据，生成纠错后的第二语句信息，例如：第一语句信息“明天天气”，第二语句信息“明天天气”，由于第二语句信息与用户的本意相同，则将第一语句信息添加至第二数据库中。所述第二数据库为一临时的数据库，且在线下运行。

情况二：（在存储器中）第一语句信息为正确的，经过参照第一数据库中的数据，生成纠错后的第二语句信息，例如第一语句信息“明天天气如何”，第二语句信息“明天爬山如何”，由于第二语句信息与用户的本意不同，则需要进行人工审核。

情况三：（在存储器中）第一语句信息为错误的，经过参照第一数据库中的数据，生成纠错后的第二语句信息，例如第一语句信息“明天天去”，第二语句信息“明天天气”，由于第二语句信息与用户的本意相同，则需要将第一语句信息“明天天去”和第二语句信息“明天天气”的映射关系添加至第二映射表（或称第二字典）中。若第二映射表所存储的映射关系达到一定数量时，将第二映射表的内容添加至第一映射表中，以尽量使第一映射表所包括的数据为最新。

情况四：（在存储器中）第一语句信息为错误的，经过参照第一数据库中的数据，生成纠错后的第二语句信息，例如第一语句信息“今天天去不好”，第二语句信息“今天天气很好”。由于第二语句信息与用户的本意不同，则需要进行人工审核。

根据上述的情况二和情况四，需要进行人工审核，以下将具体说明其步骤，包括：

S155：根据第二语句信息进行人工审核。

S156：将正确的第二语句信息写入第二数据库。

S157：将第二数据库与第一数据库进行合并。

例如，针对上述的情况四，在步骤S155中，对第二语句信息“今天天气很好”进行人工审查，发现纠错后的第二语句信息与用户的本意（“今天天气不好”）不同，则执行步骤S156。在步骤S156中，人工修改为正确的第二语句信息“今天天气不好”，并写入第二数据库中。接着执行步骤S157，将第二数据库与第一数据库进行合并。

又例如，针对情况二，在步骤S155中，对第二语句信息“明天爬山如何”进行人工审查，发现纠错后的第二语句信息与用户的本意（“明天天气如何”）不同，则执行步骤S156。在步骤S156中，人工修改为正确的第二语句信息“明天天气如何”，并写入第二数据库中。接着执行步骤S157，将第二数据库与第一数据库进行合并。

通过上述步骤S155~S157的实施，可以实现第一数据库（知识库）的动态填充添加功能。这样，不仅使得第一数据库中语句信息保持其正确性，而且使得第一数据库中存储有最新的网络语、流行语的语义库。这样，若用户输入的语句信息为流行语或网络语，作为基准的第一数据库能够准确地识别出流行语、网络语等，以至存储器中的语句信息并不会对新兴词语进行自动纠错而影响用户体验。

在本发明较佳实施例中，对第一数据库进行外置式的云存储。因此，之后对于第一数据库（或称知识库）的添加或合并动作，用户的感受与添加或合并动作之前几乎一样，没有任何差异。在本发明其他实施例中，第一数据库也可以是内置在移动通信终端内，但可能数据容量较小。另外，通过本发明所述语句纠错方法可以实现随时随地更新知识库，用户在任何地方享受同等的纠错服务。

S160：在用户界面上显示第二语句信息。

通过上述步骤S150~S160的实施，使得纠错后的第二语句信息具有很好的鲁棒性（robustness，即健壮性和稳定性）和冗余性。在用户输入的第一语句信息中，允许第一语句信息可以不基于汉语语法规则。对于第一语句信息进行纠错，保留最原始的用户语义。例如第一语句信息“我问心红市炒蛋怎么做”在一般情况下，传统意义上的语句是：“心红市炒蛋怎么做”，但是经过上述步骤S150~S160的执行，将基于原始语句信息的第二语句信息提示给用户，即添加保留原始语句信息中的口语前缀“我问”。即第二语句信息为：“我问西红柿炒蛋怎么做”。同样，例如，“我想听出来好想你，这首歌”，经纠错后的第二语句信息同样添加保留原始语句信息中的口语后缀“这首歌”，即第二语句信息为：“我想听突然好想你，这首歌”。这样，通过第一时间反馈给用户基于原始表达意思的第二语句信息，增强了用户体验。

S170：经用户确认后，将第二语句信息在功能库进行查找，若有匹配结果，则执行步骤S180，若无匹配结果，则执行结束。

所述功能库是根据输入的语句信息提供响应结果或调用相应的应用程序的集合。

S180：经过用户确认后，在用户界面上显示响应结果。

这样，通过与用户进行彼此交互，以完成语句信息的自动纠错，更能体现本发明的人性化和智能化。

以下将通过两个具体实施例以说明本发明所述语句纠错方法。所述两个具体实施例均在移动通信终端上操作。

实施例一：

步骤1a：用户通过移动通信终端上的麦克风进行语音输入。

用户本意是想输入“我问西红柿炒蛋怎么做”。

步骤1b：通过移动通信终端内置的语音识别器将所输入的语音信息转换为文本式的第一语句信息。

由于用户发音不准确，将“西红柿”说成了“心红柿”，经过语音识别器转换得到文本式的第一语句信息“我问心红柿炒蛋怎么做”。其中，在本发明较佳实施例中，语音识别器设置在移动通信终端内部。在其他的实施例中，语音识别器也可设置为外置，与移动通信终端通信连接。虽然外置的语音识别器的识别能力较高，但整个识别分析处理的时间相对较长。

步骤1c：移动通信终端的后台获取用户输入的第一语句信息，并存储在一存储器中。

步骤1d：将第一语句信息“我问心红柿炒蛋怎么做”在第一映射表中查找，判断是否有无匹配结果。

在第一映射表中未存在第一语句信息“我问心红柿炒蛋怎么做”对应的匹配结果。

步骤1e：根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息。

在步骤1e中进一步包括以下子步骤：

步骤1f：将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息。

若在第一数据库中发现与第一语句信息相似的一语句信息为“我问西红柿炒蛋怎么做”。

步骤1g：根据找到的相似的语句信息，并计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本。

根据改进型的编辑距离算法，计算其编辑总成本为T= A*个数*a+D*个数*d+R*个数*r。即通过预先设定：添加的权重为0.8，删除的权重为1.1，替换的权重为0.5，计算得到T=1*0*0.8+1*0*1.1+1*1*0.5=0.5。

步骤1h：找出总成本最小的语句信息，并将所述总成本最小的语句信息设置为第二语句信息。

若根据第一语句信息“我问心红柿炒蛋怎么做”在第一数据库中还找到另一相似的语句信息为“我问黄瓜炒蛋怎么做”，计算其编辑总成本为T=1*2*0.8+1*3*1.1+1*0*0.5=1.6+3.3=4.9。由于一语句信息“我问西红柿炒蛋怎么做”的编辑总成本比另一语句信息“我问黄瓜炒蛋怎么做”的编辑总成本低，故，设定第二语句信息为“我问西红柿炒蛋怎么做”。

步骤1i：第一语句信息与第二语句信息进行彼此映射。即第一语句信息“我问心红柿炒蛋怎么做”与第二语句信息“我问西红柿炒蛋怎么做”进行彼此映射。

步骤1j：在用户界面上显示第二语句信息。

在移动终端的用户界面上显示“你想说的是‘我问西红柿炒蛋怎么做’吧？”。这样，通过第一时间反馈给用户基于原始表达意思的第二语句信息，增强了用户体验。

步骤1k：经用户确认后，将第二语句信息在功能库内进行查找，若有匹配结果，则执行步骤1l，若无匹配结果，则执行结束。

在功能库中存在“我问西红柿炒蛋怎么做”相应的匹配结果。

步骤1l：在用户界面上显示响应结果。

用户的终端界面上显示响应结果“西红柿切成块，要大小不一，鸡蛋打开放入碗中，放入少许温水，打匀，放入少许的盐。炒锅置于旺火上，放油烧热，倒入搅好的鸡蛋液，炒熟后，下西红柿、青豆仁，最后下糖、盐、味精，炒匀后出锅即成。” 这样，通过与用户彼此交互，以完成所输入的语句信息的自动纠错。

实施例二：

步骤2a：用户通过移动通信终端上的麦克风进行语音输入。

用户本意是想输入“明天天气如何”。

步骤2b：通过移动通信终端内置的语音识别器将所输入的语音信息转换为文本式的第一语句信息。

由于用户发音不准确，卷舌翘舌不清楚，将“天气”说成了“天去”，经过语音识别器转换得到文本式的第一语句信息“明天天去如何”。

步骤2c：移动通信终端的后台获取用户输入的第一语句信息，并存储在一存储器中。

步骤2d：将第一语句信息“明天天去如何”在第一映射表中查找，判断是否有无匹配结果。

在第一映射表库中未存在语句信息“明天天去如何”对应的匹配结果。

步骤2e：根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息。

在步骤2e中进一步包括以下子步骤：

步骤2f：将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息。

若在第一数据库中发现与第一语句信息相似的一语句信息为“明天爬山如何”。

步骤2g：根据找到的相似的语句信息，并计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本。

根据改进型的编辑距离算法，计算其编辑总成本为T= A*个数*a+D*个数*d+R*个数*r。即通过预先设定：添加的权重为0.8，删除的权重为1.1，替换的权重为0.5，计算得到T=1*0*0.8+1*0*1.1+1*2*0.5=1。

步骤2h：找出总成本最小的语句信息，并将所述总成本最小的语句信息设置为第二语句信息。

找出编辑总成本最小的语句信息为“明天爬山如何”。故，设定第二语句信息为“明天爬山如何”。

步骤2i：第一语句信息与第二语句信息进行彼此映射。即第一语句信息“明天天去如何”与第二语句信息“明天爬山如何”进行彼此映射。

针对纠错后的第二语句信息与用户本意不同，则执行以下步骤。

步骤2j：根据第二语句信息进行人工审核。

通过人工方式对第二语句信息“明天爬山如何”进行审核。发现与用户本意不同，则进行人工修正。

步骤2k：将正确的第二语句信息写入第二数据库。

将第二语句信息修正为正确的第二语句信息“明天天气如何”。

步骤2l：将第二数据库与第一数据库进行合并。

对第一数据库进行外置式的云存储。因此，之后对于第一数据库（或称知识库）的添加或合并动作，用户的感受与添加或合并动作之前几乎一样，没有任何差异。

之后，若另一用户同样错误地语音输入“明天天去如何”，根据上述的语句信息纠错步骤，则将第一语句信息“明天天去如何”和第二语句信息“明天天气如何”进行彼此映射。

步骤2m：在用户界面上显示第二语句信息。

在用户的终端界面上会显示“你想说的是‘明天天气如何’吗？”

步骤2n：经用户确认后，将第二语句信息在功能库内进行查找。

用户根据终端界面的提示，再次对输入信息进行确认。此时，终端根据用户再次确认的输入信息在相关的数据库中进行查找。在查找过程中，可设置在终端界面上显示“正在搜索，请稍等”。这样，使用户有更好的体验享受。

步骤 2o：在用户界面上显示响应结果。

在用户界面上显示响应结果“明天多云，南风转西南风3-4级，气温：28℃～32℃”。通过一系列的人机双向交互式操作，完成了用户的查询目的。

此外，通过本发明所述语句纠错方法实现随时随地更新第一数据库（或称第一知识库），用户在任何地方享受同等的纠错服务。

本发明除了提供一种语句纠错方法之外，还提供一种语句纠错系统10。所述语句纠错系统10包括获取语句模块110、第一判断语句模块120、纠错语句模块130、显示语句模块140、第二判断语句模块150和响应语句模块160。其中，所述获取语句模块110用于获取用户输入的第一语句信息，并存储在一存储器中。所述第一判断语句模块120与所述获取语句模块110连接，用于判断用户所输入的第一语句信息在第一映射表内是否有匹配结果。所述纠错语句模块130与所述第一判断语句模块120连接，用于根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息。所述显示语句模块140与所述纠错语句模块130连接，用于显示第二语句信息。所述第二判断语句模块150与所述显示语句模块140连接，用于将第二语句信息在功能库内进行查找，判断是否有匹配结果。所述响应语句模块160与所述第二判断语句模块150连接，用于在用户界面上显示响应结果。

在本发明较佳实施例中，所述语句纠错系统10还包括：输入语音模块170和转换语音模块180。所述输入语音模块170用于用户通过麦克风进行语音输入。所述转换语音模块180与所述输入语音模块170连接，用于将所述输入语音模块170的语音信息转换为文本式的第一语句信息。在该实施例中，用户输入的第一语句信息是通过语音方式完成。在其他实施例中，也可以采用文本方式。由于采用语音方式能使用户可以随心所欲地表达意思，没有任何限制，甚至可以脱离语法，同时通过语音方式也使得输入语句信息更加快捷和方便，用户有更好的体验。本发明所述第一语句信息可以是中文、英文或其他语系的语言，但为了更好的说明本发明，仅以中文的第一语句信息为例，其他语系的第一语句信息的工作原理也类似，此处不再重复。

所述纠错语句模块130包括：查找语句模块131、计算语句模块132、设置语句模块133和映射语句模块134。所述查找语句模块131用于将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息。所述计算语句模块132与所述查找语句模块131连接，用于根据找到的相似的语句信息，计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本。所述设置语句模块133与所述计算语句模块132连接，用于将总成本最小的语句信息设置为第二语句信息。所述映射语句模块134与设置语句模块133连接，用于将第一语句信息与第二语句信息进行彼此映射。其中，通过查找语句模块131和计算语句模块132，并利用上述的改进型的编辑距离算法，以计算得到纠错后的语句信息的总成本。本发明所述改进型的编辑距离算法，是在现有的编辑距离算法的基础上而做出的改变。原有的编辑距离算法，对每一个词可以进行添加、删除、替换操作，添加操作的编辑成本为A，删除操作的编辑成为D，替换操作的编辑成本为R，则编辑总成本为T=A*个数+D*个数+R*个数。而本发明所述改进型的编辑距离算法引入权重常数。即添加、删除、替换每一操作均分别有各自的权重a、d、r，则使用了改进型的编辑距离算法后的编辑总成本为T= A*个数*a+D*个数*d+R*个数*r。通过对添加、删除、替换操作进行加权分析，改变了其编辑成本。通过使用改进型的编辑距离算法能够更准确地找到相似的语句，而且基于用户的原始表达意思，从而提高了纠错的准确率。

通过设置语句模块133，以将所述总成本最小的语句信息设置为第二语句信息。首先根据改进型的编辑距离算法得到总成本最小的语句信息，并将其设置为第二语句信息，且该第二语句信息与原始的第一语句信息相似。接着，若在多个候选语句的总成本相同时，则需要采用朴素贝叶斯算法，将出现概率最高的语句信息设置为第二语句信息。在本发明较佳实施例中，第一数据库（或称第一知识库）进行分布式数据云存储，根据不同的数据类别进行类别化分布，即可获得类别概率。此外，对朴素贝叶斯公式也进行加权，尤其是对数据显著的类别。例如，第一数据库中歌曲的数据比股票的数据多，若语句信息中包括“音乐”时，则会得到更大的权重。

通过映射语句模块133，用于将第一语句信息与第二语句信息进行彼此映射。在本发明较佳实施例中，所述第一映射表（或称为第一字典）为哈希结构的映射关系，并且对所述映射表进行分布式存储。根据语句信息的不同类别进行不同的分布。例如，唱曲、股票、天气情况进行类别的分布化，这样可以加快处理速度，能够把时间复杂度降为O（1），能够在最短的时间里把纠错的响应结果反馈给用户，用户无需等太长的时间来获得响应结果，使用户的体验更加完善。在其他实施例中，也可以采用其他的数据结构用于表示第一语句信息与第二语句信息（此处即为错误语句信息与正确语句信息）的关系，例如采用链表或树形结构，但可能查询处理的时间较长。由于将语句信息进行不同类别划分，因此存在多个不同类别的映射表（或称字典），这样也便于对映射关系更好的管理。

在本发明较佳实施例中，所述语句纠错系统10还包括数据库填充添加模块190，用于以人工方式对数据库进行填充添加操作。所述数据库填充添加模块190包括人工审核模块191、写入正确语句模块192和合并数据库模块193。其中，所述人工审核模块191用于对第二语句信息进行人工审核。所述写入正确语句模块192与所述人工审核模块191连接，用于将正确的第二语句信息写入第二数据库。所述合并数据库模块193与所述写入正确语句模块192连接，用于将第二数据库与第一数据库进行合并。以下将说明在下列情况下需要使用新的第二数据库。

情况一：

用户输入的第一语句信息为正确语句信息，纠正后的第二语句信息与输入的第一语句信息一致，则不形成纠错字典（纠错字典即为错误语句信息与正确语句信息的映射关系）。例如，用户输入的第一语句信息“唱首歌”，而纠正后的第二语句信息“唱首歌”，此时输入输出是一样。将输入的第一语句信息“唱首歌”存储在新的第二数据库中。

情况二：

用户输入的第一语句信息为正确语句信息，纠正后的第二语句信息与用户的本意不一致，此时需要进行人工审核。例如，用户输入的语句信息“换首歌”，纠正后的语句信息“唱首歌”，此时需要人工审核，若发现与用户本意不一致，则将用户输入的第一语句信息“换首歌”存储在第二数据库中。

情况三：

用户输入的第一语句信息为错误语句信息，纠正后的第二语句信息与用户本意一致，此时不需要进行人工审核，也不用添加至第二数据库中。例如：用户本意为“唱首歌”，输入的语句信息“灿首歌”，纠正后的第二语句信息“唱首歌”。只需添加至第二映射表中。之后，再与第一映射表合并。

情况四：

用户输入的第一语句信息为错误语句信息，纠正后的第二语句信息与用户本意不一致，此时需要进行人工审核，将正确的第二语句信息添加至第二数据库。例如：用户本意为“唱首歌”，输入的语句信息“灿首歌”，纠正后的第二语句信息“换首歌”，此时需要人工审核。确定用户本意为“唱首歌”之后，进行人工修正，将正确的第二语句信息“唱首歌”存储在第二数据库中。最后将新的第二数据库和第一数据库合并。

使用新的第二数据库的原因在于：1、便于管理；2、便于审查校对；3、便于统计（针对于在一定时间内，可以统计出哪些语句信息是容易出错）；4、保证第一数据库的完全正确性，即第一数据库中始终存在正确语句信息。同时，进行人工审核只出现在上述情况2和情况4中。

通过人工审核模块191、写入正确语句模块192和合并数据库模块193可以实现第一数据库（或称第一知识库）的动态填充添加功能，这样不仅使得第一数据库中语句信息保持其正确性，而且使得第一数据库中存储有最新的网络语、流行语的语义库。若用户输入的语句信息为流行语或网络语，作为基准的第一数据库能够准确地识别出流行语、网络语等，以至存储器中的语句信息并不会对新兴词语进行自动纠错而影响用户体验。

在本发明较佳实施例中，对第一数据库进行外置式云存储。因此，之后对于第一数据库（或称第一知识库）的添加或合并动作，用户的感受与添加或合并动作之前几乎一样，没有任何差异。另外，通过本发明所述语句纠错系统10可以实现随时随地更新知识库，用户在任何地方享受同等的纠错服务。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语句纠错方法，其特征在于，包括以下步骤：

(a)获取用户输入的第一语句信息，并存储在一存储器中；

(b)判断所输入的第一语句信息在第一映射表内是否有匹配结果，若无，则执行步骤(c)，若有，执行步骤(f)；

(c)根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息；其中步骤(c)进一步包括：

(c1)将存储器中的第一语句信息在第一数据库中进行查找，找到与第一语句信息相似的语句信息；

(c2)根据找到的相似的语句信息，通过贪婪算法和ROC曲线分析算法以及改进型的距离编辑算法来计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本，其中改进型的距离编辑算法包含权重常数，所述权重常数是通过所述贪婪算法和ROC曲线分析算法而获得的，通过改进型的距离编辑算法而获得的编辑总成本为T＝A*个数*a+D*个数*d+R*个数*r，式中的A表示添加操作的编辑成本，a表示添加操作的权重，D表示删除操作的编辑成本，d表示删除操作的权重，R表示替换操作的编辑成本，r表示替换操作的权重；

(c3)找出总成本最小的语句信息，并将所述总成本最小的语句信息设置为第二语句信息；

(c4)将第一语句信息与第二语句信息进行彼此映射；

(d)在用户界面上显示第二语句信息；

(e)经用户确认后，将第二语句信息在功能库内进行查找，若有匹配结果，则执行步骤(f)，若无匹配结果，则执行结束；

(f)经用户确认后，在用户界面上显示响应结果。

2.根据权利要求1所述的语句纠错方法，其特征在于，在步骤(a)之前，进一步包括以下步骤：

用户通过麦克风进行语音输入；

3.根据权利要求1所述的语句纠错方法，其特征在于，在步骤(c4)之后，进一步包括以下步骤：

(c5)根据第二语句信息进行人工审核；

(c6)将正确的第二语句信息写入第二数据库；

(c7)将第二数据库与第一数据库进行合并。

4.一种语句纠错系统，其特征在于，包括：获取语句模块、第一判断语句模块、纠错语句模块、显示语句模块、第二判断语句模块和响应语句模块；

所述第一判断语句模块与所述获取语句模块连接，用于判断所输入的第一语句信息在第一映射表内是否有匹配结果；

所述纠错语句模块与所述第一判断语句模块连接，用于根据相似度最高的准则，对第一语句信息进行纠错，并生成第二语句信息；其中所述纠错语句模块进一步包括：

查找语句模块、计算语句模块、设置语句模块和映射语句模块；

所述计算语句模块与所述查找语句模块连接，用于根据找到的相似的语句信息，通过贪婪算法和ROC曲线分析算法以及改进型的距离编辑算法来计算纠正第一语句信息的每一个词所需的成本和所述词对应的权重，得到纠正后的语句信息的总成本，其中改进型的距离编辑算法包含权重常数，所述权重常数是通过所述贪婪算法和ROC曲线分析算法而获得的，通过改进型的距离编辑算法而获得的编辑总成本为T＝A*个数*a+D*个数*d+R*个数*r，式中的A表示添加操作的编辑成本，a表示添加操作的权重，D表示删除操作的编辑成本，d表示删除操作的权重，R表示替换操作的编辑成本，r表示替换操作的权重；

所述映射语句模块与设置语句模块连接，用于将第一语句信息与第二语句信息进行彼此映射；

5.根据权利要求4所述的语句纠错系统，其特征在于，所述语句纠错系统还包括：输入语音模块和转换语音模块；

所述输入语音模块用于用户通过麦克风进行语音输入；

6.根据权利要求4所述的语句纠错系统，其特征在于，所述语句纠错系统还包括：人工审核模块、写入正确结果模块和合并数据库模块；

所述人工审核模块用于对第二语句信息进行人工审核；

所述合并数据库模块与所述写入正确语句模块连接，用于将第二数据库与第一数据库进行合并。