CN106527756A

CN106527756A - 一种对输入信息进行智能纠错的方法及装置

Info

Publication number: CN106527756A
Application number: CN201610943312.5A
Authority: CN
Inventors: 陈包容
Original assignee: Changsha Dove Software Co Ltd
Current assignee: Changsha Dove Software Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-22

Abstract

本发明提供的对输入信息进行智能纠错的方法及装置，通过采集训练样本的上下文分词序列，基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量，根据特征向量训练分类器，获得检错模型，根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错，解决了现有对输入信息纠错时没有考虑输入信息的上下文语义语境，从而导致纠错率不高的技术问题，实现了利用检错模型对输入信息进行智能纠错，提高了纠错效率和纠错率。

Description

一种对输入信息进行智能纠错的方法及装置

技术领域

本发明涉及通信技术领域，具体涉及一种对输入信息进行智能纠错的方法及装置。

背景技术

随着计算机、互联网等技术的发展，人们很多的日常工作和娱乐都在计算机上进行，用户频繁地需要通过计算机输入信息而完成人机交互。然而用户在进行字词输入的过程中可能存在一些错误,例如错字、漏字、多字等等。

针对该问题，申请文件CN201110079202提出了一种字词输入的纠错方法及系统，该方法使用当前语境下的词典对输入信息进行分词( 如，对于汉语而言，每个音节即是一个词)，查看是否存在分词碎片，或者是否存在词典中没有出现过的输入片段；如果存在，则证明存在错误输入片段，并对错误输入片段进行纠错。这种方法虽然在一定程度上实现了自动纠错，但也存在一些缺点。例如在检错过程中，并没有考虑输入信息的上下文语义语境，从而导致纠错率不高。针对该问题，本发明提供了一种结合输入信息的上下文语义语境，对输入信息进行智能纠错的方法及装置。

发明内容

本发明提供了一种对输入信息进行智能纠错的方法及装置，以解决现有对输入信息纠错时没有考虑输入信息的上下文语义语境，从而导致纠错率不高的技术问题。

根据本发明的一方面，提供了一种对输入信息进行智能纠错的方法，包括：

采集训练样本的上下文分词序列，其中，训练样本包括错误分词和非错误分词训练样本;

基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量；

根据特征向量训练分类器，获得检错模型；

根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错。

进一步地，根据检错模型，判断待检测的输入信息中是否包含错误分词包括：

采集待检测的输入信息的上下文分词序列；

根据输入信息和输入信息的上下文分词序列的词向量，提取输入信息的检测特征向量；

将检测特征向量输入检错模型，判断输入信息是否包含错误分词。

进一步地，对错误分词进行纠错包括：

分析错误分词，获取与错误分词关联的联想文字；

接收用户从联想文字中选择的纠错分词，将纠错分词替换错误分词。

进一步地，分析错误分词，获取与错误分词关联的联想文字包括：

分析与错误分词的拼音对应的按键，并将按键的拼音组合的其它候选文字作为与错误分词关联的联想文字。

分析获取与错误分词读音相同的文字，并将与错误分词读音相同的文字作为与错误分词关联的联想文字。

根据本发明的另一方面，提供了一种对输入信息进行智能纠错的装置，包括：

采集装置，用于采集训练样本的上下文分词序列，其中，训练样本包括错误分词和非错误分词训练样本;

特征向量提取装置，用于基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量；

训练装置，用于根据特征向量训练分类器，获得检错模型；

纠错装置，用于根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错。

进一步地，纠错装置包括：

上下文分词序列采集装置，用于采集待检测的输入信息的上下文分词序列；

检测特征向量提取装置，用于根据输入信息和输入信息的上下文分词序列的词向量，提取输入信息的检测特征向量；

检错装置，用于将检测特征向量输入检错模型，判断输入信息是否包含错误分词。

进一步地，纠错装置还包括：

联想文字获取装置，用于分析错误分词，获取与错误分词关联的联想文字；

替换装置，用于接收用户从联想文字中选择的纠错分词，将纠错分词替换错误分词。

进一步地，联想文字获取装置包括：

按键相同联想文字获取装置，用于获取装置分析与错误分词的拼音对应的按键，并将按键的拼音组合的其它候选文字作为与错误分词关联的联想文字。

进一步地，联想文字获取装置包括：

读音相同联想文字获取装置，用于分析获取与错误分词读音相同的文字，并将与错误分词读音相同的文字作为与错误分词关联的联想文字。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构建对本发明的不当限定。在附图中：

图1是本发明优选实施例的对输入信息进行智能纠错的方法流程图；

图2是本发明优选实施例针对的一个精简实施例的对输入信息进行智能纠错的方法流程图；

图3是本发明优选实施例的对输入信息进行智能纠错的装置的结构框图。

附图标记说明：

10、采集装置；20、特征向量提取装置；30、训练装置；40、纠错装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种对输入信息进行智能纠错的方法，包括：

步骤S101，采集训练样本的上下文分词序列，其中，训练样本包括错误分词和非错误分词训练样本;

步骤S102，基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量；

步骤S103，根据特征向量训练分类器，获得检错模型；

步骤S104，根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错。

本发明提供的对输入信息进行智能纠错的方法，通过采集训练样本的上下文分词序列，基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量，根据特征向量训练分类器，获得检错模型，根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错，解决了现有对输入信息纠错时没有考虑输入信息的上下文语义语境，从而导致纠错率不高的技术问题，实现了利用检错模型对输入信息进行智能纠错，提高了纠错效率和纠错率。

具体地，本实施例首先较新颖地将纠错过程中的检错问题转换为分类问题，从而简化了现有技术对输入信息进行检错的繁琐操作，大大提高了对输入信息进行检错的效率和检错率，为后续提高对输入信息进行纠错的纠错效率和纠错率奠定基础；其次本实施例通过利用输入信息的上下文分词序列建立并训练检错模型，并利用训练好的检错模型对输入信息进行检错，充分结合了输入信息的上下文语义语境，从而提高了对输入信息的纠错率，体现了较高的智能化纠错水平。

需要说明的是，本实施例中的输入信息可以是单个字词，也可以是由多个字词构成的词语或句子，且本实施例在采集训练样本的上下文分词序列时，可以由系统预先设定需采集的上下文分词序列数目。例如针对输入信息采集上文分词序列数目为1，下文分词序列数为2，在一些情况下，可以设置采集上文或下文的分词序列数目为0，具体由用户自定义。在实际的实施过程中，为了尽可能提高利用检错模型对输入信息进行纠错的纠错率，本实施例应当选取足够的训练样本训练分类器，且错误分词训练样本和非错误分词训练样本的数目尽量相当。

另外，本方案中的输入信息主要指文字格式的输入信息，但也可以是其他形式的输入信息，例如表情，且对表情格式的输入信息进行智能纠错时，本实施例首先将表情格式的输入信息转换为文本格式的输入信息，然后再采用本实施例训练好的检错模型对已转换成文本格式的输入信息进行自动检查，以及后续的自动纠错。

此外，由于本实施例的重点和关键是针对待检测的输入信息中由于没有考虑上下文语义语境而进行的纠错，故在实际的实施过程中，本实施例可以先对待检测的输入信息进行初步纠错，也即可以采用现有的通用的一些纠错方法对待检测的输入信息进行初步纠错，然后再采用本实施例提出的结合待检测的输入信息上下文语义语境对待检测的输入信息进行纠错，从而能更大地提高对待检测的输入信息的纠错率。

可选地，根据检错模型，判断待检测的输入信息中是否包含错误分词包括：

采集待检测的输入信息的上下文分词序列；

本实施例在训练好用于对输入信息进行检错的检错模型后，就可以利用该检错模型判断待检测的输入信息中是否包含错误分词。具体地，首先采集待检测的输入信息的上下文分词序列，在实际的实施过程中，采集待检测的输入信息的上下文分词序列数目应当与训练检错模型时，采集训练样本的上下文分词序列数目相同。例如在采集训练样本的上下文分词序列数目具体为上文分词序列数目=2，下文分词序列数目=3时，则在采集待检测的输入信息的上文分词序列数目也应当为2，下文分词序列数目为3。

其次，本实施例根据输入信息以及输入信息的上下文分词序列的词向量，提取输入信息的检测特征向量。在具体的实施过程中，本实施例在确定并提取待检测的输入信息上下文分词序列后，分别获取分词序列中与每一个分词对应的词向量，从而结合输入信息的词向量，获得输入信息的检测特征向量。例如当待检测的输入信息的上文分词序列数目应当为2，下文分词序列数目为3时，则分别获取与2个上文分词对应的词向量以及与3个下文分词对应的词向量，并结合输入信息的词向量，最终将这6个词向量的组合作为待检测的输入信息的检测特征向量。

最后，直接将获取的待检测输入信息的检测特征向量输入训练好的检错模型，并根据检测模型的输出判断该待检测的输入信息是否包含错误分词。本实施例通过将纠错过程中的检错问题转换为分类问题，从而简化了现有技术对输入信息进行检错的繁琐操作，大大提高了对输入信息进行检错的效率和检错率，为后续提高对输入信息进行纠错的纠错效率和纠错率奠定基础。且本实施例利用训练好的检错模型实现对待检测的输入信息的检错，充分结合了待检测的输入信息的上下文语义语境，大大提高了对待检测的输入信息的检错率。

可选地，对错误分词进行纠错包括：

分析错误分词，获取与错误分词关联的联想文字；

本实施例在判断出待检测的输入信息中包含错误分词时，对错误分词进行纠错，具体地，本实施例可以通过分析错误分词，获取与错误分词关联的联想文字，然后接收用户从联想文字中选择的纠错分词，将纠错分词替换错误分词。需要说明的是，本实施例通过检错模型只有检测到待检测的输入信息中包含错误分词时，才开始分析错误分词，并获取与错误分词关联的联想文字，而通过检错模型没有检测到待检测的输入信息中包含错误分词时，则停止纠错程序，或给用户发送无错误分词的反馈信息。

可选地，分析错误分词，获取与错误分词关联的联想文字包括：

在日常输入信息过程中，大多数用户采用拼音输入法实现信息输入，而在采用拼音输入法进行信息输入时，用户可能由于无意识或疏忽而输入与欲输入信息拼音按键组合相同的错误分词。例如以“自”为例，其拼音为“自”对应的按键分别为带有数字“9”和“4”的按键，而用户在实际输入过程中，可能会无意或疏忽选择了与上述两个键的拼音组合相同的“子”（与按键“9”和“4”按键组合相同的拼音组合还可以是“xi”、“yi”、“zh”等等）。

针对该现象，本实施例在分析错误分词，获取与错误分词关联的联想文字时，通过分析与错误分词的拼音对应的按键，并将按键的拼音组合的其它候选文字作为与错误分词关联的联想文字。本实施例通过分析与错误分词的拼音对应的按键，并将按键的拼音组合的其它候选文字作为与错误分词关联的联想文字，为错误分词提供了纠错选项，且将按键的拼音组合的其它候选文字作为与错误分词关联的联想文字充分考虑到用户日常输入过程中导致待检测的输入信息中出现错误分词的原因，有针对性地为纠正错误分词提供纠错选项，方便用户快速对错误分词进行纠正，进一步提高了对待检测的输入信息进行纠错的纠错效率。

在日常输入信息过程中，当用户采用拼音输入法实现信息输入时，还可能由于无意识或疏忽而输入与欲输入信息读音组合相同的错误分词。例如，用户可能由于输入过快而输入与欲输入信息“圆形”读音相同的错误分词 “圆心”；或者针对一些日常容易混淆的用语，无意识输入与欲输入信息“机密”读音相同的错误分词 “几米”；或者由于用户本身对一些用词的读音把握不好，而输入与欲输入信息“搜集”读音相似的错误分词 “收集”。

针对这种情况，本实施例通过分析获取与错误分词读音相同的文字，并将与错误分词读音相同的文字作为与错误分词关联的联想文字，为纠正错误分词提供纠错选项，方便用户快速对错误分词进行纠正，进一步提高了对待检测的输入信息进行纠错的纠错效率。

下面针对一个精简实施例对本发明的对输入信息进行智能纠错的方法进行更进一步说明。

参照图2，本实施例中对输入信息进行智能纠错的方法包括：

步骤S201，采集训练样本的上下文分词序列，其中，训练样本包括错误分词和非错误分词训练样本。

具体地，本实施例在采集训练样本的上下文分词序列时，首先分别设定需采集的上文分词序列数目和下文分词序列数目，从而方便后续提取维数相同的特征向量，也为后续采集待检测的输入信息的上下文分词序列数目提供参照。需要说明的是，本实施例中预先设定的需采集的上下文分词序列数目可以相同，也可以不同，具有由用户根据实际情况自定义。

假设本实施例预先设定采集的上文分词序列数目为2，下文分词序列数目为3。则在实际的采集过程中，当待检测的输入信息上文分词数目小于2或下文分词数目小于3时，则在采集为空的分词序列返回结果中显示为“零”或为“空”。例如，假如包含错误分词的训练样本为圆心，且假设该训练样本的上下文具体为“这是一个圆心的桌子”，则通过对训练样本的上下文进行分词后，不难获得训练样本的上文分词序列为{是，一个}，下文分词序列为{桌子，“空”，“空”}。

步骤S202，基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量。

具体地，由于本实施例中预先设定了需采集的上文分词序列目和下文分词序列数目，则根据训练样本以及训练样本的上下文分词序列词向量，可以提取训练样本的特征向量。具体地，本实施例在获得训练样本的上下文分词序列后，分别获取上下文分词序列中每一个分词的词向量，并结合训练样本的词向量最终提取出训练样本的特征向量。由于本实施例中预先设定了需采集的上文分词序列目和下文分词序列数目分别为2和3，则最终可以获得由6个词向量组成的特征向量。

步骤S203，根据特征向量训练分类器，获得检错模型。

具体地，由于本实施例已知训练样本的类型，即训练样本是属于包含错误分词的训练样本，还是属于不包含错误分词的训练样本。故在训练分类器时，将训练样本的输入特征向量作为分类器的输入向量，将训练样本的类型作为分类器的输出向量，从而训练出检错模型。其中，本实施例中的分类器可以是贝叶斯分类器，支持向量机分类器、最大熵分类器等等。

步骤S204，采集待检测的输入信息的上下文分词序列。

假设本实施例待检测的输入信息为“出身”，且待检测的输入信息所处的上下文具体为“你的出身日期是什么时候”。由于在步骤S201中预先设定了需采集的上文分词序列数目和下文分词序列数目，故采集待检测的输入信息的上文分词序列数目和下文分词序列数目也分别为2和3。具体地，可以采集到待检测的输入信息的上文分词序列为{“空”，你}，下文分词序列为{日期，是，什么}。

步骤S205，根据输入信息和输入信息的上下文分词序列的词向量，提取输入信息的检测特征向量。

具体地，本实施例首先将步骤S204获得的上下文分词序列中的每一个分词转换为词向量，当遇到分词为“空”或“零”时，则转换为“零”向量，然后结合输入信息的词向量，一起组合成输入信息的检测特征向量，不难发现，本实施例最终获取到输入信息的检测特征向量由6个词向量组合而成。

步骤S206，将检测特征向量输入检错模型，判断输入信息是否包含错误分词。

具体地，本实施例将步骤S205获得的检测特征向量输入训练好的检错模型，然后根据检测模型的输出判断输入信息是否包含错误分词。假设本实施例根据步骤S205获得的检测特征向量以及训练好的检错模型，得到输入信息包含错误分词，则执行步骤S207，否则停止纠错程序，或给用户发送无错误分词的反馈信息。

步骤S207，分析获取与错误分词读音相同的文字，并将与错误分词读音相同的文字作为与错误分词关联的联想文字。

具体地，假设本实施例根据错误分词“出身”分析出与其读音相同的文字包括“出生”、 “初审”、“畜生”、“出声”、“出神”等等，则将这些与错误分词读音相同的文字作为与错误分词关联的联想文字。在具体的实施过程中，可能获取较多的与错误分词读音相同的文字，故本实施例可以根据与错误分词读音相同的文字的使用频率获取排名靠前的文字，作为与错误分词关联的联想文字。此外，本实施例也可以分析与错误分词的拼音对应的按键，并将按键的拼音组合的其它候选文字作为与错误分词关联的联想文字。

步骤S208，接收用户从联想文字中选择的纠错分词，将纠错分词替换错误分词。

具体地，本实施例在获得联想文字后，将联想文字反馈给输入终端，并根据输入终端选择的纠错分词，将纠错分词替换错误分词。

由此可见，本发明提供的对输入信息进行智能纠错的方法，通过采集训练样本的上下文分词序列，基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量，根据特征向量训练分类器，获得检错模型，根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错，解决了现有对输入信息纠错时没有考虑输入信息的上下文语义语境，从而导致纠错率不高的技术问题，实现了利用检错模型对输入信息进行智能纠错，提高了纠错效率和纠错率。

此外，本实施例将纠错过程中的检错问题转换为分类问题，简化了现有技术对输入信息进行检错的繁琐操作，大大提高了对输入信息进行检错的效率和检错率，为后续提高对输入信息进行纠错的纠错效率和纠错率奠定基础；同时本实施例通过利用输入信息的上下文分词序列建立并训练检错模型，并利用训练好的检错模型对输入信息进行检错，充分结合了输入信息的上下文语义语境，从而提高了对输入信息的纠错率，体现了较高的智能化纠错水平。

参照图3，本发明的优选实施例提供的对输入信息进行智能纠错的装置，包括：

训练装置，用于根据特征向量训练分类器，获得检错模型；

可选地，纠错装置包括：

可选地，纠错装置还包括：

可选地，联想文字获取装置包括：

本发明提供的对输入信息进行智能纠错的装置，通过采集训练样本的上下文分词序列，基于训练样本和训练样本的上下文分词序列的词向量，提取训练样本的特征向量，根据特征向量训练分类器，获得检错模型，根据检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对错误分词进行纠错，解决了现有对输入信息纠错时没有考虑输入信息的上下文语义语境，从而导致纠错率不高的技术问题，实现了利用检错模型对输入信息进行智能纠错，提高了纠错效率和纠错率。

本实施例对输入信息进行智能纠错的装置的具体工作过程和工作原理可参照本实施例的对输入信息进行智能纠错的方法的工作过程和工作原理。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对输入信息进行智能纠错的方法，其特征在于，包括：

采集训练样本的上下文分词序列，其中，所述训练样本包括错误分词和非错误分词训练样本;

基于所述训练样本和所述训练样本的上下文分词序列的词向量，提取所述训练样本的特征向量；

根据所述特征向量训练分类器，获得检错模型；

根据所述检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对所述错误分词进行纠错。

2.根据权利要求1所述的对输入信息进行智能纠错的方法，其特征在于，根据所述检错模型，判断待检测的输入信息中是否包含错误分词包括：

采集待检测的输入信息的上下文分词序列；

根据所述输入信息和所述输入信息的上下文分词序列的词向量，提取所述输入信息的检测特征向量；

将所述检测特征向量输入所述检错模型，判断所述输入信息是否包含错误分词。

3.根据权利要求2所述的对输入信息进行智能纠错的方法，其特征在于，对所述错误分词进行纠错包括：

分析所述错误分词，获取与所述错误分词关联的联想文字；

接收用户从所述联想文字中选择的纠错分词，将所述纠错分词替换所述错误分词。

4.根据权利要求3所述的对输入信息进行智能纠错的方法，其特征在于，分析所述错误分词，获取与所述错误分词关联的联想文字包括：

分析与所述错误分词的拼音对应的按键，并将所述按键的拼音组合的其它候选文字作为与所述错误分词关联的联想文字。

5.根据权利要求3所述的对输入信息进行智能纠错的方法，其特征在于，分析所述错误分词，获取与所述错误分词关联的联想文字包括：

分析获取与所述错误分词读音相同的文字，并将与所述错误分词读音相同的文字作为与所述错误分词关联的联想文字。

6.一种对输入信息进行智能纠错的装置，其特征在于，包括

采集装置，用于采集训练样本的上下文分词序列，其中，所述训练样本包括错误分词和非错误分词训练样本;

特征向量提取装置，用于基于所述训练样本和所述训练样本的上下文分词序列的词向量，提取所述训练样本的特征向量；

训练装置，用于根据所述特征向量训练分类器，获得检错模型；

纠错装置，用于根据所述检错模型，判断待检测的输入信息中是否包含错误分词，若是，则对所述错误分词进行纠错。

7.根据权利要求6所述的对输入信息进行智能纠错的装置，其特征在于，所述纠错装置包括：

检测特征向量提取装置，用于根据所述输入信息和所述输入信息的上下文分词序列的词向量，提取所述输入信息的检测特征向量；

检错装置，用于将所述检测特征向量输入所述检错模型，判断所述输入信息是否包含错误分词。

8.根据权利要求7所述的对输入信息进行智能纠错的装置，其特征在于，所述纠错装置还包括：

联想文字获取装置，用于分析所述错误分词，获取与所述错误分词关联的联想文字；

替换装置，用于接收用户从所述联想文字中选择的纠错分词，将所述纠错分词替换所述错误分词。

9.根据权利要求8所述的对输入信息进行智能纠错的装置，其特征在于，所述联想文字获取装置包括：

按键相同联想文字获取装置，用于获取装置分析与所述错误分词的拼音对应的按键，并将所述按键的拼音组合的其它候选文字作为与所述错误分词关联的联想文字。

10.根据权利要求8所述的对输入信息进行智能纠错的装置，其特征在于，所述联想文字获取装置包括：

读音相同联想文字获取装置，用于分析获取与所述错误分词读音相同的文字，并将与所述错误分词读音相同的文字作为与所述错误分词关联的联想文字。