CN111160013B

CN111160013B - 文本纠错方法及装置

Info

Publication number: CN111160013B
Application number: CN201911401708.7A
Authority: CN
Inventors: 徐梦笛; 邓卓彬; 付志宏; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-11-24
Anticipated expiration: 2039-12-30
Also published as: CN111160013A

Abstract

本申请公开了文本纠错方法及装置，涉及人工智能技术领域。具体实现方案为：获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语；针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系；在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。该方法能极大地限制召回的候选词语的数量，提升文本纠错效率。

Description

文本纠错方法及装置

技术领域

本申请涉及人工智能技术领域，具体涉及文本处理技术领域，尤其涉及文本纠错方法及装置。

背景技术

目前，在进行文本编辑或校对时，经常由于疏忽，而输入错误的词语。在一些领域，若对归属该领域的关键词输入错误，会带来惨痛的后果。例如，活动举办方花费巨资请娱乐明星为活动站台，若在文本编辑或校对过程中，输错娱乐明星的人物名称，显然会影响活动的推广效果。

用户输入错误主要集中在：拼音错误、字形错误等。目前的纠错策略主要是采用拼音、字形进行纠错。具体为，针对句子中可能存在错误的词，获取词对应的相近拼音候选词、相近字形候选词，基于相近拼音候选词、相近字形候选词、存在错误的词以及句子来确定纠错后的句子。

然而，采用拼音、字形进行纠错的方式，句子中每个可能存在错误的词，可能会召回大量对应的相近拼音候选词或相近字形候选词，这时需要对大量召回的相近拼音候选词或相近字形候选词中，筛选出最终召回的候选词，纠错效率差。

发明内容

本申请提出一种文本纠错方法及装置，在文本纠错的过程中，相比现有的基于用拼音、字形进行纠错的方式召回的候选词语，基于所属领域的召回词表召回文本中的词语的候选词语，可以极大地限制召回的候选词语的数量，提升文本纠错效率。

本申请一方面实施例提出了一种文本纠错方法，包括：通过获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语；

针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系；

在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；

结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。

本申请实施例的文本纠错方法，在文本纠错的过程中，相比现有的基于用拼音、字形进行纠错的方式召回的候选词语，基于所属领域的召回词表召回文本中的词语的候选词语，可以极大地限制召回的候选词语的数量，提升文本纠错效率。

本申请另一方面实施例提出了一种文本纠错装置，包括：

获取模块，用于获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语；

判断模块，用于针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系；

确定模块，用于在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；

纠错处理模块，用于结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。

本申请实施例的文本纠错装置，在文本纠错的过程中，相比现有的基于用拼音、字形进行纠错的方式召回的候选词语，基于所属领域的召回词表召回文本中的词语的候选词语，可以极大地限制召回的候选词语的数量，提升文本纠错效率。

本申请另一方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例的文本纠错方法。

本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请实施例的文本纠错方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是根据本申请第五实施例的示意图；

图6是用来实现本申请实施例的文本纠错方法的电子设备的框图；

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的文本纠错方法及装置。

图1是根据本申请第一实施例的示意图。其中，需要说明的是，本实施例提供的文本纠错方法的执行主体为文本纠错装置，该装置可以由软件和/或硬件的方式实现。

如图1所示，该文本纠错方法可以包括：

步骤101，获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语。

为了便于说明，以该文本纠错方法应用于电子设备中为例，对该文本纠错方法进行详细说明。其中，电子设备可以是手机、电脑、车载设备、服务器等，但并不限于此。

其中，在不同的场景中，待纠错的文本不同。例如，在以在搜索输入场景为例中，待处理的文本为当前输入query(查询语句)。又例如，在文案策划场景中，待纠错的文本为所策划的文案。又例如，待纠错的文本为网页版的文章等。

其中，电子设备可以在文本编辑或校对过程中，实时获取待纠错的文本，也可以在文本编辑或校对完毕之后，电子设备获取保存的待纠错的文本。但本实施例对电子设备获取待纠错的文本的具体方式不做限制，并不限于上述方式。

其中，可以在文本编辑或校对之前，标注待纠错的文本的所属的领域，进而便于电子设备通过待纠错的文本的标注信息获取待纠错的文本所属的领域；或者，在文本编辑或校对过程中，电子设备对文本进行分析，确定待纠错的文本所属的领域；或者，电子设备在获取保存的待纠错的文本，对文本进行分析，确定待纠错的文本所属的领域。但本实施例对电子设备获取待纠错的文本所属的领域的具体方式不做限制，并不限于上述方式。

本实施例中，可以对不同的领域的文本进行纠错处理，领域例如娱乐明星人物名称领域、历史重大事件名称领域、名胜古迹名称领域等等，领域具体根据实际情形进行设定，并不限于举例说明。

以娱乐明星人物名称领域为例，某著名明星名称为黄小民，某活动举办方结合黄小民和活动信息进行文案策划。在进行文案策划时，可能将黄小民写成黄晓民，黄小明等错误，如此会造成花费巨资请明星为活动站台但却极有可能造成推广效果不良的影响。为了避免对活动的推广效果的影响，需要对结合黄小民和活动信息所策划的文案进行纠错。

步骤102，针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系。

在本实施例中，在获取到待纠错的文本之后，针对该文本中的每个词语，查询该待纠错的文本所属领域的召回词表以获取与词语匹配的待纠错词语。

在本实施例中，根据实际情形设置各领域的召回词表。以娱乐明星人物名称领域为例，召回词表中包括海量的娱乐明星人物的正确名称，以及与娱乐明星人物的正确名称对应的一个或多个错误名称。其中，娱乐明星人物的正确名称为领域关键字，与娱乐明星人物的正确名称对应的一个或多个错误名称为领域关键字的待纠错词语。

例如，在娱乐明星人物名称领域的召回词表中，保存有领域关键字分别有黄小民，李大木等，黄小民对应的待纠错词语有黄晓民，黄小明等，李大木对应的待纠错词语有李大本，李达木等。若待纠错的文本中输入有黄晓民，则通过查询召回词表，查询结果为召回词表中保存的黄晓民与待纠错的文本中输入有黄晓民相匹配。

作为一种示例，每个领域的召回词表包括以下词表中的任意一个或者多个：易错词召回词表、音近词召回词表和形近词召回词表。

其中，易错词召回词表保存了领域关键字及其对应的易错词语。易错词语可以理解为与正确词语对应的常见错误词语。作为一种示例，可以通过对海量与领域关键字相关的用户数据进行挖掘，获取与领域关键字对应的易错词语，将与领域关键字对应的易错词语作为与领域关键字对应待纠错词语，以及将领域关键字及其对应的待纠错词语在列表中关联存储，形成易错词召回词表。需要指出的是，获取与词语对应的易错词语的更多介绍详见相关技术。

其中，音近词召回词表保存了领域关键字及其对应的音近词。音近词为读音近似的词汇。作为一种示例，可以通过拼音编码词典自动生成各个领域关键字的音近词，并将与领域关键字对应的音近词作为与领域关键字对应待纠错词语，以及将领域关键字及其对应的待纠错词语在列表中关联存储，形成音近词召回词表。

需要指出的是，拼音编码词典中保存了海量汉字的拼音。可以基于拼音编码词典获取读音近似的词汇。

其中，形近词召回词表保存了领域关键字及其对应的形近词。形近词为字形近似的词汇。作为一种示例，可以通过仓颉编码词典自动生成各个领域关键字的形近词，并将与领域关键字对应的形近词作为与领域关键字对应待纠错词语，以及将领域关键字及其对应的待纠错词语在列表中关联存储，形成形近词召回词表。

需要指出的是，仓颉编码词典中保存了含量简体字、繁体字的仓颉编码，支持汉字查询仓颉编码或通过仓颉编码反查汉字。仓颉编码词典的仓颉编码考量了字形因素，可以基于仓颉编码词典检索获取字形相似的词汇。

步骤103，在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语。

在本实施例中，归属同一对象的领域关键词的数量一般为一个，但是也有可能会出现多个的情况。总体来说，基于领域关键词召回的候选词语的数量相比基于用拼音、字形进行纠错的方式召回的候选词语的数量是少很多的。

同时，召回词表中的领域关键词是正确的词语，基于领域关键词召回的候选词语的准确度相比基于用拼音、字形进行纠错的方式召回的候选词语的准确度是高很多的，实现了针对用户所重视的关键词进行正确的召回，尽可能地避免了错误词语遗漏纠错的情形发生。

步骤104，结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。

本实施例中，在确定待纠错的文本中各个词语的候选词语之后，便可以对待纠错的文本进行纠错处理，得到纠错后的文本。由于能够结合领域关键词对应的待纠错词语，对文本进行纠错，从而能够重点针对领域关键词对应的错词进行纠错，且候选词中包括领域关键词时，选择领域关键词作为待替换的候选词，从而提高了纠错效率。

本申请实施例的文本纠错方法，通过获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语；针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系；在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。由此，在文本纠错的过程中，相比现有的基于用拼音、字形进行纠错的方式召回的候选词语，基于所属领域的召回词表召回文本中的词语的候选词语，可以极大地限制召回的候选词语的数量，提升文本纠错效率。

在实际情形中，可能会出现召回词表不存在与待纠错的文本中的词语匹配的待纠错词语，这时启用基于用拼音、字形进行纠错的方式对待纠错的文本进行纠错。

图2是根据本申请第二实施例的示意图。如图2所示，在图1所示实施例的基础上，在步骤102之后，该文本纠错方法还可以包括：

步骤105，在所述召回词表中不存在与所述词语匹配的待纠错词语时，获取所述词语对应的相似词语；所述相似词语包括：所述词语对应的形近词语和/或音近词语。

本实施例中，可以有多种方式获取词语对应的相似词语。例如，基于拼音编码词典获取词语的音近词语。或者，基于仓颉编码词典获取词语的形近词语。或者，对海量的词语进行数据挖掘，获取词语的形近词语和/或音近词语。获取词语的形近词语和/或音近词语的更多介绍详见相关技术。

步骤106，根据所述词语对应的相似词语，确定所述词语对应的候选词语。

为了更为准确地获取与待纠正文本中的词语对应的候选词语，可以基于预设的纠错模型从与待纠正文本中的词语对应的相似词语中，确定该词语对应的候选词语。

作为一种示例，步骤106的具体实现方式包括以下步骤：

步骤1061、针对所述词语对应的每个相似词语，将所述词语、所述相似词语以及所述文本输入预设的纠错模型，获取所述相似词语的打分分数。

步骤1062、按照打分分数对所述词语对应的各个相似词语进行降序排序，将排序在前的预设数量的相似词语，确定为所述词语对应的候选词语。其中，预设数量根据实际情形进行设定，预设数量例如为1个、2个等。

具体而言，预设的纠错模型是根据训练数据进行训练得到的。训练数据中的每个训练样本包括两个相似词语(相似词语为形近词语或音近词语)，包含两个相似词语的文本以及该两个相似词语之间的打分分数。在训练时，将每个训练样本中的两个相似词语、包含两个相似词语的文本作为输入量，将两个相似词语之间的打分分数作为输出量，训练机器学习模型，得到预设的纠错模型。关于机器学习模型的训练方式详见相关技术。

在本实施例中，对待纠错的文本中每个词语的相似词语，将该每个词语、相似词语、待纠正的文本输入到预设的纠错模型，得到每个词语的相似词语的打分分数；接着，基于打分分数对该词语的各个相似词语进行从大到小进行排序，将排序靠前的相似词语作为该词语的候选词语。

本申请实施例的文本纠错方法，在召回词表不存在与待纠错的文本中的词语匹配的待纠错词语时，基于待纠错的文本中的词语的相似词语确定待纠错的文本中的词语的候选词语，提高文本纠错的冗余性和可靠性。

图3是根据本申请第三实施例的示意图。如图3所示，上述实施例的基础上，步骤104的具体实现方式包括以下步骤：

步骤1041，针对所述文本中各个词语对应的候选词语，在所述候选词语为领域关键词时，将所述候选词语的打分分数设置为预设分数。

基于上述实施例的记载可知，待纠正的文本中的词语的候选词语有的是基于所属领域的召回词表获取的领域关键词，有的是基于待纠正的文本中的词语的相似词语进行获取的候选词语。

其中，针对基于待纠正的文本中的词语的相似词语来获取的候选词语，该候选词语可以设置其打分分数，也可以基于上述实施例中记载的纠错模型进行打分。

其中，若候选词语是基于所属领域的召回词表获取的领域关键词，对该候选词语的打分分数设置为预设分数。预设分数根据大量的试验数据进行设定。例如，领域关键词的预设分数可以对基于相似词语获得候选词语的打分分数进行统计，统计出基于相似词语获得候选词语的打分分数的平均值或最高值，将领域关键词的预设分数设置为大于或等于基于相似词语获得候选词语的打分分数的平均值或最高值，以便提高领域关键词出现在该文本中各个词语对应的选中候选词语的概率，进而提高文本纠错的准确度。

步骤1042，将所述文本中各个词语对应的候选词语，以及候选词语的打分分数，进行动态规划解码运算，获取分数最高的组合策略；所述组合策略包括：所述文本中各个词语对应的选中候选词语。

本实施例中，通过动态规划解码运算可以挑选出全局看来分数最高的组合策略，对待纠错的文本中各个词语对应的候选词语进行筛选，筛选出待纠错的文本中各个词语对应的选中候选词语。其中，动态规划解码运算的原理为动态规划(Dynamic programming,简称DP)方法，是一种求解最优问题的经典算法。

步骤1043，根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本。

具体而言，在得到待纠错的文本中各个词语对应的选中候选词语之后，便可基于各个选中候选词语待纠错的文本中的对应词语进行替换，得到纠错后的文本。

为了尽可能地提高文本纠错的准确度，提高用户对纠错后的文本的满意度，在步骤1043之前，还包括步骤：

步骤1044、将所述文本中各个词语对应的选中候选词语、忽略纠错选项提供给所述用户，以便用户选择。

对应的步骤1043的具体实现方式为：在检测到用户选择所述文本中各个词语对应的选中候选词语时，根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本。

本实施例中，引入人工干预的方式，根据用户的选择操作，从待纠错的文本中各个词语对应的选中候选词语中确定最终的候选词语，基于最终的候选词语对待纠错的文本中的相应词语进行替换，得到纠错后的文本。

具体而言，根据用户对忽略纠错选项的操作行为，可以从待纠错的文本中各个词语对应的选中候选词语中确定出不需要用于纠错的选中候选词语。从待纠错的文本中各个词语对应的选中候选词语中，排除不需要用于纠错的选中候选词语，便可选择出用户所选择的选中候选词语即最终的候选词语。

本申请实施例的文本纠错方法，通过动态规划解码运算可以挑选出全局看来分数最高的组合策略，对待纠错的文本中各个词语对应的候选词语进行筛选，筛选出待纠错的文本中各个词语对应的选中候选词语，并基于各个选中候选词语待纠错的文本中的对应词语进行替换，得到纠错后的文本。由此，基于更为优化的选中候选词语待纠错的文本进行纠错处理，能进一步地提升文本纠错的准确度。

图4是根据本申请第四实施例的示意图。如图4所示，上述实施例的基础上，步骤101的具体实现方式包括以下步骤：

步骤1011、获取待处理的文本。

步骤1012、获取所述文本的满足度；所述满足度根据所述文本在文本库中出现的总次数，和/或，在预设时间长度内出现的频次确定。

在实际情形中，文本的数量可能比较多，若对所有的文本都进行纠错处理，可能会造成很大的资源浪费，影响整个的文件纠错处理效率。为此，在本实施例中，电子设备在获取到待处理的文本之后，基于该待处理的文本的满足度判断是否对该文本进行纠错处理。其中，根据实际情形设定满足度的衡量方式。

作为一种示例，本实施例根据文本中的词语在文本库中出现的总次数，和/或，在预设时间长度内出现的频次确定文本的满足度。其中，预设时间长度根据实际情形进行设定。

其中，文本库中保存了各种文本。通过统计文本在文本库中出现的总次数可以发现常用术语，通过统计文本在预设时间长度内出现的频次可以发现新流行用语。

以文本库为网页库为例，网页库中保存了各种网页文章，统计待处理的文本在网页库中出现的总次数，或是，最近一段时间内出现的频次。

以在搜索输入场景为例中，待处理的文本为当前输入query(查询语句)，分析网页库中各文章中是否存在与当前输入query相同的文本，并对与当前输入query相同的文本在网页库中出现的总次数，或是，最近一段时间内出现的频次进行统计。

步骤1013、在所述文本的满足度小于预设满足度阈值时，根据所述文本查询纠错反馈记录，判断是否存在与所述文本匹配的第一文本；所述第一文本与所述文本内容相同，且纠错反馈为忽略纠错的文本。

步骤1014、在所述文本的满足度小于预设满足度阈值，且所述纠错反馈记录中不存在与所述文本匹配的第一文本时，将所述文本确定为待纠错的文本，获取所述文本所属的领域。

步骤1015、在所述文本的满足度大于等于预设满足度阈值，或者所述纠错反馈记录中存在与所述文本匹配的第一文本时，确定所述文本不需要进行纠错。

在本实施例中，预设满足度阈值根据大量的试验数据进行标定。若待处理的文本的满足度小于预设满足度阈值，说明待处理的文本可能为需要纠错的文本。出于用户体验的考虑，在确定待处理的文本的满足度小于预设满足度阈值，查询查询纠错反馈记录来决策是否对待处理的文本进行纠错处理。

具体的，在待处理的文本的满足度小于预设满足度阈值且纠错反馈记录中不存在与待处理的文本匹配的第一文本时，才确定对待处理的文本进行纠错处理，该待处理的文本为待纠错的文本。而在待处理的文本的满足度大于等于预设满足度阈值或者，纠错反馈记录中存在与待处理的文本匹配的第一文本时，则确定对待处理的文本不进行纠错处理。

本申请实施例的文本纠错方法，基于对待处理的文本的满足度、纠错反馈记录判断是否对待处理的文本进行纠错处理。由此，无需对海量的文本进行纠错处理，尽可能的减少了资源浪费，提升了文件纠错处理的效率。此外，结合对待处理的文本的满足度、纠错反馈记录甄别是否对文件进行纠错处理，既能实现对出现的满足度好的文件进行处理，又能兼顾用户的体验。

为了实现上述实施例，本申请实施例还提供一种文本纠错装置。

图5是根据本申请第五实施例的示意图。如图5所示，该文本纠错装置100包括：

获取模块110，用于获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语；

判断模块120，用于针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系；

确定模块130，用于在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；

纠错处理模块140，用于结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。

在本申请一个实施例中，所述领域的召回词表包括以下词表中的任意一个或者多个：易错词召回词表、音近词召回词表和形近词召回词表；

所述易错词召回词表中的待纠错词语，为领域关键词对应的易错词语；

所述音近词召回词表中的待纠错词语，为领域关键词对应的音近词语；

所述形近词召回词表中的待纠错词语，为领域关键词对应的形近词语。

在本申请一个实施例中，所述获取模块110，还用于在所述召回词表中不存在与所述词语匹配的待纠错词语时，获取所述词语对应的相似词语；所述相似词语包括：所述词语对应的形近词语和/或音近词语；

所述确定模块130，还用于根据所述词语对应的相似词语，确定所述词语对应的候选词语。

在本申请一个实施例中，所述确定模块130具体用于，

针对所述词语对应的每个相似词语，将所述词语、所述相似词语以及所述文本输入预设的纠错模型，获取所述相似词语的打分分数；

按照打分分数对所述词语对应的各个相似词语进行降序排序，将排序在前的预设数量的相似词语，确定为所述词语对应的候选词语。

在本申请一个实施例中，所述纠错处理模块140具体用于，

针对所述文本中各个词语对应的候选词语，在所述候选词语为领域关键词时，将所述候选词语的打分分数设置为预设分数；

将所述文本中各个词语对应的候选词语，以及候选词语的打分分数，进行动态规划解码运算，获取分数最高的组合策略；所述组合策略包括：所述文本中各个词语对应的选中候选词语；

根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本。

在本申请一个实施例中，所述纠错处理模块140还用于，将所述文本中各个词语对应的选中候选词语、忽略纠错选项提供给所述用户，以便用户选择；

所述纠错处理模块140具体用于，在检测到用户选择所述文本中各个词语对应的选中候选词语时，根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本。

在本申请一个实施例中，所述获取模块110具体用于，

获取待处理的文本；

获取所述文本的满足度；所述满足度根据所述文本在文本库中出现的总次数，和/或，在预设时间长度内出现的频次确定；

在所述文本的满足度小于预设满足度阈值时，根据所述文本查询纠错反馈记录，判断是否存在与所述文本匹配的第一文本；所述第一文本与所述文本内容相同，且纠错反馈为忽略纠错的文本；

在所述文本的满足度小于预设满足度阈值，且所述纠错反馈记录中不存在与所述文本匹配的第一文本时，将所述文本确定为待纠错的文本，获取所述文本所属的领域；

在所述文本的满足度大于等于预设满足度阈值，或者所述纠错反馈记录中存在与所述文本匹配的第一文本时，确定所述文本不需要进行纠错。

其中，需要说明的是，前述对文本纠错方法的解释说明也适用于本实施例的文本纠错装置，此处不再赘述。

本申请实施例的文本纠错装置，通过获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语；针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述召回词表包括：待纠错词语与领域关键词的对应关系；在所述召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本。由此，在文本纠错的过程中，相比现有的基于用拼音、字形进行纠错的方式召回的候选词语，基于所属领域的召回词表召回文本中的词语的候选词语，可以极大地限制召回的候选词语的数量，提升文本纠错效率。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的文本纠错方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器301、存储器302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器301为例。

存储器302即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本纠错方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本纠错方法。

存储器302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本纠错方法对应的程序指令/模块(例如，附图4所示的接收模块110、显示模块120、获取模块130、生成模块140，附图5所示的调用模块150、返回模块160)。处理器301通过运行存储在存储器302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本纠错方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据频道业务构建的电子设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至频道业务构建的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

频道业务构建的方法的电子设备还可以包括：输入装置303和输出装置304。处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置303可接收输入的数字或字符信息，以及产生与频道业务构建的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本纠错方法，其特征在于，包括：

获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语，其中，在文本编辑或校对之前，标注所述待纠错的文本的所属的领域，通过所述待纠错的文本的标注信息获取所述待纠错的文本所属的领域；

针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述领域的召回词表包括：待纠错词语与领域关键词的对应关系；

在所述领域的召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；

结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本；

所述结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本，包括：

根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本；

所述领域的召回词表包括以下词表中的任意一个或者多个：易错词召回词表、音近词召回词表和形近词召回词表；

所述易错词召回词表中的待纠错词语，为所述领域关键词对应的易错词语；

所述形近词召回词表中的待纠错词语，为领域关键词对应的形近词语；

其中，所述易错词召回词表通过以下方法形成：

通过对海量与所述领域关键字相关的用户数据进行挖掘，获取与领域关键字对应的易错词语，将与所述领域关键字对应的易错词语作为与领域关键字对应待纠错词语，以及将所述领域关键字及其对应的待纠错词语在列表中关联存储，形成所述易错词召回词表；

其中，所述音近词召回词表通过以下方法形成：

通过拼音编码词典自动生成各个领域关键字的音近词，并将与所述领域关键字对应的音近词作为与领域关键字对应待纠错词语，以及将所述领域关键字及其对应的待纠错词语在列表中关联存储，形成所述音近词召回词表；

其中，所述形近词召回词表通过以下方法形成：

通过仓颉编码词典自动生成各个领域关键字的形近词，并将与所述领域关键字对应的形近词作为与领域关键字对应待纠错词语，以及将所述领域关键字及其对应的待纠错词语在列表中关联存储，形成所述形近词召回词表。

2.根据权利要求1所述的方法，其特征在于，还包括：

在所述召回词表中不存在与所述词语匹配的待纠错词语时，获取所述词语对应的相似词语；所述相似词语包括：所述词语对应的形近词语和/或音近词语；

根据所述词语对应的相似词语，确定所述词语对应的候选词语。

3.根据权利要求2所述的方法，其特征在于，所述根据所述词语对应的相似词语，确定所述词语对应的候选词语，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本之前，包括：

将所述文本中各个词语对应的选中候选词语、忽略纠错选项提供给所述用户，以便用户选择；

对应的，所述根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本，包括：

在检测到用户选择所述文本中各个词语对应的选中候选词语时，根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本。

5.根据权利要求1所述的方法，其特征在于，所述获取待纠错的文本以及所述文本所属的领域，包括：

获取待处理的文本；

6.一种文本纠错装置，其特征在于，包括：

获取模块，用于获取待纠错的文本以及所述文本所属的领域，所述文本包括：至少一个词语，其中，在文本编辑或校对之前，标注所述待纠错的文本的所属的领域，通过所述待纠错的文本的标注信息获取所述待纠错的文本所属的领域；

判断模块，用于针对所述文本中的每个词语，根据所述词语查询所述领域的召回词表，判断是否存在与所述词语匹配的待纠错词语；所述领域的召回词表包括：待纠错词语与领域关键词的对应关系；

确定模块，用于在所述领域的召回词表中存在与所述词语匹配的待纠错词语时，将所述匹配的待纠错词语对应的领域关键词，确定为所述词语对应的候选词语；

纠错处理模块，用于结合所述文本中各个词语对应的候选词语，对所述文本进行纠错处理，得到纠错后的文本；

所述纠错处理模块具体用于，

其中，所述易错词召回词表通过以下方法形成：

其中，所述音近词召回词表通过以下方法形成：

其中，所述形近词召回词表通过以下方法形成：

7.根据权利要求6所述的装置，其特征在于，

所述获取模块，还用于在所述召回词表中不存在与所述词语匹配的待纠错词语时，获取所述词语对应的相似词语；所述相似词语包括：所述词语对应的形近词语和/或音近词语；

所述确定模块，还用于根据所述词语对应的相似词语，确定所述词语对应的候选词语。

8.根据权利要求7所述的装置，其特征在于，所述确定模块具体用于，

9.根据权利要求6所述的装置，其特征在于，所述纠错处理模块还用于，将所述文本中各个词语对应的选中候选词语、忽略纠错选项提供给所述用户，以便用户选择；

所述纠错处理模块具体用于，在检测到用户选择所述文本中各个词语对应的选中候选词语时，根据所述文本中各个词语对应的选中候选词语，对所述文本中的相应词语进行替换，得到纠错后的文本。

10.根据权利要求6所述的装置，其特征在于，所述获取模块具体用于，

获取待处理的文本；

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。