CN111523306A

CN111523306A - 文本的纠错方法、装置和系统

Info

Publication number: CN111523306A
Application number: CN201910044838.3A
Authority: CN
Inventors: 李辰; 包祖贻; 刘恒友; 徐光伟; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2020-08-11

Abstract

本发明公开了一种文本的纠错方法、装置和系统。其中，该方法包括：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。本发明解决了现有技术中用于生成候选纠错结果的混淆集和用于对候选纠错结果进行验证的模型不相关，导致对语句的纠错效果较差的技术问题。

Description

文本的纠错方法、装置和系统

技术领域

本发明涉及文本处理领域，具体而言，涉及一种文本的纠错方法、装置和系统。

背景技术

用户在使用机器输入文本信息的时候，有一定概率会出现错误，包括因为敲击键盘的错误，对字音、字型的理解错误，语音ASR(Automatic Speech Recognition，语音识别技术)或者字型OCR(Optical Character Recognition，光学字符识别)的错误。错误类型通常为同音字、音近字或者形近字的错误。为了使得对文本信息的下一个处理任务(例如：商品搜索、对话、文本校对、写作助手、翻译等)能够正确执行，需要对用户输入的文本信息进行相应的纠错，以减少错误输入，提高任务的效果，减少人工检查的成本。

目前，对于文本的同音字、音近字、形近字等纠错通常使用Noisy Channel模型来构建，通过构造混淆集，获取相应的同音字、音近字、形近字候选，然后通过编辑距离、语言模型、错误模型等进行排序，获得纠错结果和相应的置信度。但是由于候选集和NoisyChannel模型是分别构建的，两者之间存在一定独立性，无法对混淆集的语法、语义等信息进行建模，因此在语法结构多变的语言(例如中文)上，纠错效果受到影响。

针对现有技术中用于生成候选纠错结果的混淆集和用于对候选纠错结果进行验证的模型不相关，导致对语句的纠错效果较差的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本的纠错方法、装置和系统，以至少解决现有技术中用于生成候选纠错结果的混淆集和用于对候选纠错结果进行验证的模型不相关，导致对语句的纠错效果较差的技术问题。

根据本发明实施例的一个方面，提供了一种文本的纠错方法，包括：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

根据本发明实施例的另一方面，还提供了一种文本的纠错装置，包括：获取模块，用于获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；处理模块，用于使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；确定模块，用于根据文本纠错模型的处理结果确定语句的纠错结果。

根据本发明实施例的另一方面，还提供了一种存储介质，其中，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行如下步骤：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

根据本发明实施例的另一方面，还提供了一种处理器，其中，处理器用于运行程序，其中，程序运行时执行如下步骤：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

根据本发明实施例的另一方面，还提供了一种文本的纠错系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

在本发明实施例中的上述文本的纠错方法不直接使用混淆集生成候选，而是将混淆集用于构建训练数据，并根据语句的文字、拼音和笔画中至少一种特征信息对语句进行纠错。由于语句的文字、拼音和笔画携带有语句的语义、拼音以及笔画信息，因此上述纠错方法能够从语句的语义、拼音以及笔画中的一个或多个方面对语句进行纠错，对比使用与Noisy Channel独立的混淆召回候选词，并使用Noisy Channel对候选词进行排序以得到纠错结果的方式，能取得更好的泛化效果，不受混淆集召回与Noisy Channel排序分离的影响，从而提高了文本纠错的准确程度，进而解决了现有技术中用于生成候选纠错结果的混淆集和用于对候选纠错结果进行验证的模型不相关，导致对语句的纠错效果较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例1的一种文本的纠错方法的流程图；

图3是根据本申请实施例1的一种对文本进行纠错的流程图；

图4是根据本申请实施例1的一种构建文本纠错模型的流程图；

图5是根据本申请实施例2的一种文本的纠错装置的示意图；以及

图6是根据本发明实施例3的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，还提供了一种文本的纠错方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的文本的纠错方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的文本的纠错方法。图2是根据本申请实施例1的一种文本的纠错方法的流程图。

步骤S21，获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息。

具体的，上述目标对象可以为输入待纠错的语句的用户，待纠错的语句可以是用户输入的文本信息，或根据用户的语音信息识别得到的文本信息，还可以是从用户输入的图像信息中识别得到的文本信息。

在一种可选的实施例中，以智能客服的场景为例，用户在与智能客服的对话框中输入对话信息：请问我的订单什么时候发货，此时，用户输入的文本信息“请问我的订单什么时候发货”即为上述待纠错的语句。

在另一种可选的实施例中，以语音控制的场景为例，用户向智能空调发出语音信息：天气真热，开始制冷吧，此时，对用户发出的语音信息“天气真热，开启制冷吧”进行语音转文字的处理后得到文本信息为上述待纠错的语句。

具体的，上述文本向量用于表示待纠错的语句的文本特征信息，拼音向量用于表示拼音序列的特征信息，笔画向量用于表示笔画序列的特征信息。

上述待纠错的语句的文字特征信息可以是通过word2vec的方式生成的语句对应的文字向量，拼音特征信息和笔画特征信息可以分别为通过预设的embedding字典获取拼音序列对应的拼音向量，和笔画序列对应的笔画向量。

步骤S23，使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型。

具体的，上述训练语料可以根据混淆集得到，混淆集包括的是相似的词语组成的集合，例如，“微信”与“威信”即可构成混淆集。相似的词语指的是，发音相似的词语，或笔画相似的词语。

在一种可选的实施例中，可以通过对汉字的拼音进行更改的方式，得到汉字的混淆集，该混淆集中包括的是音近字；还可以对汉字的笔画进行更改的方式，得到汉字的混淆集，该混淆集中包括的是形近字。

在上述步骤中，文本纠错模型为通过训练得到的神经网络模型，训练语料可以从历史对话记录中获得。历史对话记录可以是用户与对话系统之间的历史对话记录，也可是用户在其他应用程序中，与其他用户或系统之间的历史对话记录。

在一种可选的实施例中，客户端可以获取用户在终端中授权可以获取的对话记录，例如，用户在即时通信软件中的对话记录，或用户与机器人客服之间的对话记录。从对话记录中获取正确的语句后，并通过对正确的语句进行变形，得到正确语句对应的错误语句。得到的每个错误语句与正确语句都能够构成一个训练语料。例如，对于“微”的混淆集中包括“威”，“少”的混淆集中包括“小”，因此对于“你的微信是多少”，即可构造出其对应的错误文本“你的威信是多小”

步骤S25，根据文本纠错模型的处理结果确定语句的纠错结果。

在一种可选的实施例中，仍以智能客服的场景为例，用户在与智能客服的对话框中输入对话信息：请问我的定单什么时候发货。此时，用户输入的文本信息“请问我的定单什么时候发货”即为上述待纠错的语句。其中，“定单”实际应为“订单”，该用户由于个人输入习惯导致待纠错的语句中存在错别字。纠错系统获取该待纠错的语句，基于文本纠错模型对该待纠错的语句进行纠错，得到该待纠错的语句的纠错结果“请问我的订单什么时候发货”，然后基于纠错结果查找该问题对应的答案。

在另一种可选的实施例中，再以语音控制的场景为例，用户向智能空调发出语音信息：天气真热，开始智能(制冷)吧。对该语音信息进行处理后得到文本“天气真热，开始智能吧”，其中的“智能”用于表示“制冷”，该用户由于个人语音习惯导致语句中存在错误的词语。纠错系统获取该待纠错的语句，基于文本纠错模型对该待纠错的语句进行纠错，得到该待纠错的语句的纠错结果“天气真热，开始制冷吧”，然后基于纠错结果对空调进行控制。

本申请上述实施例中的上述文本的纠错方法不直接使用混淆集生成候选，而是将混淆集用于构建训练数据，并根据语句的文字、拼音和笔画中至少一种特征信息对语句进行纠错。由于语句的文字、拼音和笔画携带有语句的语义、拼音以及笔画信息，因此上述纠错方法能够从语句的语义、拼音以及笔画中的一个或多个方面对语句进行纠错，对比使用与Noisy Channel独立的混淆召回候选词，并使用Noisy Channel对候选词进行排序以得到纠错结果的方式，能取得更好的泛化效果，不受混淆集召回与Noisy Channel排序分离的影响，从而提高了文本纠错的准确程度。

由此，本申请上述实施例解决了现有技术中用于生成候选纠错结果的混淆集和用于对候选纠错结果进行验证的模型不相关，导致对语句的纠错效果较差的技术问题。

作为一种可选的实施例，获取语句信息，包括：获取语句的拼音序列和笔画序列；根据语句获取文字向量，并根据语句的拼音序列和笔画序列分别拼音向量和笔画向量；将文字向量转换为文字特征信息，并将拼音向量和笔画向量分别转换为拼音特征信息和笔画特征信息。

在一种可选的实施例中，可以通过预设的embedding字典获取语句的拼音向量。embedding字典用于记录拼音和向量标识(embedding标识)的对应关系，每个向量标识对应一个向量。在获得语句的拼音序列后，可以根据拼音序列在embedding字典中查找拼音序列对应的向量标识，从而得到拼音序列对应的向量。例如：“jiu”对应的embedding标识为“拼音id 3000”、“cuo”对应的embedding标识“拼音id 1000”。

还可以通过预设的embedding字典获取语句的笔画向量。embedding字典还用于记录笔画和向量标识(embedding标识)的对应关系，每个向量标识对应一个向量。在获得语句的笔画序列后，可以根据笔画序列在embedding字典中查找笔画序列对应的向量标识，从而得到笔画序列对应的向量。例如：“横”对应的embedding标识为“笔画id 1”，“竖”对应的embedding标识为“笔画id 2”。也可以构建n-gram(多元)的embedding字典，例如3-gram的“横竖撇”-应的embedding标识为“笔画id 30”。

需要说明的是，上述方案使用拼音和笔画embedding的稠密向量来表示汉字的字音、字型，可以有效提取字音、字型在海量文本中存在的语义和语法信息。例如：由于上述方案在对语句进行纠错时，使用了语句的拼音特征信息，因此对语句中出现的音近字具有较好的纠错效果，又由于在对语句进行纠错时，还使用了语句的笔画特征性信息，因此对待纠错的语句中出现的形近字也具有较好的纠正效果。

作为一种可选的实施例，获取语句的拼音序列和笔画序列，包括：根据文本与拼音的第一映射表获取语句的拼音序列；根据文本与笔画的第二映射表获取语句的笔画序列。

具体的，上述第一映射表用于记录文本与拼音的对应关系，第二映射关系用于记录笔画与文本的对应关系。

在一种可选的实施例中，在根据第一映射关系获取语句的拼音序列时，可以通过最大正向匹配的方式，在第一映射关系中获取语句的拼音文本序列。例如：对于语句“你的威信是多小”，在第一映射关系中首先查找“你的”对应的拼音学列，如果存在，则查找“你的威”的拼音序列，如果仍存在，则继续查找“你的威信”的拼音序列，依次类推，直至查找到整个语句的拼音序列。如果不存在“你的威”的拼音序列，则查找“威信”，以此类推，直至查找到整个语句的拼音序列。

在根据第二映射表获取待纠错的语句的笔画序列时，笔画可以分为横、竖、撇、捺、弯钩，或者五笔、郑码等格式，转换的方式可以是以字为粒度进行转换，或以词为粒度进行转换。

作为一种可选的实施例，在获取语句的拼音序列和笔画序列之前，上述方法还包括：接收语句，其中，语句包括如下至少之一：文本输入的语句和语音输入的语句；对语句进行预处理，其中，预处理包括如下至少一项：分词处理、繁体转简体处理以及数字转汉字处理。

上述待纠错的语句为用户向对话系统输入的内容，可以为用户输入的文本内容，也可以为根据用户输入的语音内容所转化的文本内容。

在一种可选的实施例中，以即时通信软件为例，用户在即时通信软件中录制语音信息，并发送至好友，接收到该语音信息的好友选择“语音转文本”将用户的语音信息转换为文本信息读取。经过“语音转文本”转换后的文本信息即为待纠错的语句。由于用于口音或环境干扰等问题，导致语音转文本处理得到的文本信息并不准确，因此其好友的终端在将语音信息转换为文本信息后，还对文本信息进行纠错，并将纠错前和纠错后的文本信息均返回给终端。

上述分词处理用于将目标文字切割成一个个单独的词，繁体转简体处理用于将待纠错的语句中的繁体文本转换为简体文本，数字转汉字处理用于将待纠错的语句中的数据转换为文字。

此处需要说明的是，虽然繁体以及数据并非错误文本，但会文本纠错模型纠错的难度，或对话系统识别的难度，因此，上述步骤将待纠错的语句中的词语进行标准化处理，从而降低文本纠错模型和对话系统的处理难度。

作为一种可选的实施例，文本纠错模型的处理结果包括：预测纠错结果和预测纠错结果对应的置信度，其中，根据文本纠错模型的处理结果确定语句的纠错结果，包括：获取置信度阈值；如果预测纠错结果的置信度大于置信度阈值，将确定预测纠错结果作为待纠错的语句的纠错结果；如果预测纠错结果的置信度小于或等于置信度阈值，将确定待纠错的语句作为纠错结果。

由于文本纠错模型输出的预测纠错结果也并非完全准确，因此在文本纠错模型输出预测纠错结果后，需要对预测纠错结果的准确度进行判断。上述方案通过预测纠错结果的置信度对其准确程度进行判断。

上述置信度阈值用于判断当前文本纠错模型输出的预测结果是否可信。文本纠错模型输出了预测纠错结果和预测纠错结果对应的置信度，并根据该置信度，对预测纠错结果是否可用，进行判断。

具体的，上述置信度可以为属于(0，1)这一区间，用于表示预测纠错结果的可信程度。在一种可选的实施例中，可以设置上述置信度阈值为0.9。如果文本纠错模型对一个待纠错的语句的预测纠错结果的置信度为0.97，大于预设置信度阈值0.9，则确定该预测纠错结果可信，可以将该预测纠错结果作为语句的纠错结果。

在上述步骤中，如果预测纠错结果的置信度小于置信度阈值，则说明该预测纠错结果不可信，因此确定原待纠错的语句为正确的文本，无需纠正。

在一种可选的实施例中，可以设置上述置信度阈值为0.9。如果文本纠错模型对一个待纠错的语句的预测纠错结果的置信度为0.87，小于预设置信度阈值0.9，则确定该预测纠错结果不可信，因此可以将原待纠错的语句作为纠错结果输出，或反馈给下游处理模块。

作为一种可选的实施例，在文本纠错模型的处理结果确定语句的纠错结果之后，方法还包括：确定语句对应的任务，其中，任务用于表征语句在不同的应用场景下的处理模型，应用场景包括如下至少之一：问答场景、翻译场景和搜索场景；将语句的纠错结果和置信度作为处理模型的输入特征，得到任务的处理结果。

具体的，上述语句对应的任务即为下游任务，指的是在对语句进行纠错之后需要还需要执行的任务。如果语句是对话场景收到的文本，在语句进行纠错后，需要根据计算与语句相匹配的答案，则计算答案即为下游任务，计算答案的对话模型即为下游任务的处理模型；如果语句是需要翻译的文本，在语句进行纠错后，需要对语句进行翻译，则翻译即为下游任务，翻译模型即为下游任务的处理模块。

在一种可选的实施例中，以下游任务为翻译进行说明，可以仅将语句发送至目标模型。例如，在预测纠错结果的置信度大于预设置信度阈值时，认为预设纠错结果为语句对应的正确文本，因此直接将预测纠错结果输入至翻译模型进行翻译。

还在一种可选的实施例中，仍以下游任务为翻译进行说明，可以将语句、预测纠错结果和预测纠错结果的置信度均输入至翻译模型，用于将原语句的信息也进行传递，预测纠错结果的置信度可以作为翻译模型的输入特征。

图3是根据本申请实施例1的一种对文本进行纠错的流程图，结合图3所示，对文本进行纠错的方法可以包括如下步骤：

S31,获取用户输入的文本。

具体的，用户输入的文本即为上述待纠错的语句。用户输入文本可以包括用户输入的文字信息，还可以包括对用户输入的语音信息进行语音文字转换得到的文字信息。

S32，对用户输入的文本进行预处理。

具体的，上述预处理步骤可以包括分词、简繁体转换、数字转汉字等预处理步骤。

S33，抽取文本的拼音序列和笔画序列。

具体的，可以通过汉字与拼音之间得到映射关系获取文本的拼音序列，并通过汉字与笔画之间的映射关系抽取文本的笔画序列，在抽取文本的笔画序列时，可以使用字与笔画的转换，或者词粒度的词与五笔转换。

S34，获取拼音和笔画的embedding字典。

embedding字典用于记录拼音和向量标识(embedding标识)的对应关系，以及笔画和向量标识(embedding ID)的对应关系，因此可以通过embedding字典得到文本的笔画和拼音的embedding ID。

S35，将文字、拼音、笔画转换为模型输入格式。

神经网络的输入格式为特征向量，因此需要将文字、拼音、笔画等根据embedding字典转换为对应的embedding id后，根据embedding id确定文字、拼音、笔画对应的特征向量。转化之后每个汉字或者单词(分词后)包含字、拼音、笔画三个粒度的特征。

S36，通过神经网络文本纠错模型预测。

使用训练得到的多粒度的文本纠错模型对已预处理的包含汉字、拼音和笔画embedding进行预测，得到纠错的处理结果，并产出对纠错生成概率的置信度。此结果可能与原始结果相同，或者与原始结果不同。

S37，判断模型处理结果的置信度是否高于阈值。在判断结果为是的情况下，进入步骤S39,在判断结果为否的情况下，进入步骤S38。

文本纠错模型对文本进行纠错的结果包括：模型预测的预测纠错结果和预测纠错结果对应的置信度，该置信度用于表示预测纠错结果的可信程度。系统还可以获取阈值，该阈值为置信度阈值，并将预测纠错结果的置信度与置信度阈值进行比对，当预测纠错结果的置信度小于或等于置信度阈值的情况下，认为该预测纠错结果不可信，当预测纠错结果的置信度大于置信度阈值的情况下，认为该预测纠错结果可信。

S38，返回原文本。

在认为该预测纠错结果不可信的情况下，认为用户输入的文本为正确的文本，因此返回原文本。

S39，是否有下游任务。在判断结果为是的情况下，进入步骤S311，否则进入步骤S310。

S310，返回纠错结果和置信度。

在没有下游任务的情况下，向用户返回文本纠错模型输出的纠错结果和置信度。

S311，输出纠错结果和置信度至下游任务模型。

上述下游任务模型用于执行下游任务，可以是对话任务或翻译任务，如果存在下游任务，则将纠错结果发送至下游任务，由下游任务模型根据纠错结果执行下游任务，还可以用户输入的原文本也输入至下游任务模型，并将纠错结果的置信度作为特征输入至下游任务模型。

作为一种可选的实施例，上述方法还包括：获取文本纠错模型，其中，获取文本纠错模型的步骤包括：根据混淆集获取训练语料，其中，训练语料包括正确文本和根据混淆集获得的正确文本对应的错误文本；获取错误文本的语句信息；基于错误文本的语句信息和正确文本，对初始神经网络模型进行训练，得到文本纠错模型。

由于混淆集中包括的是形近字或音近字的集合，因此在确定正确文本后，可以根据正确文本中的每个文字的混淆集，得到该正确文本的错误文本，从而得到至少一组训练语料。

值得注意的是，上述方案中的训练语料无需从对话日志中人工标记，而是通过预设的混淆集构建，因此不仅节省了人工标记所使用的人力，还提高了训练语料的效率加工。且由于实际的对话日志中能够标记的错误文本数量较少，因此通过预设的混淆集构建训练语料更加丰富，使得训练出的文本纠错模型具有较好的纠错效果。

作为一种可选的实施例，获取文本纠错模型的步骤还包括：获取测试语料；通过测试语料验证训练得到的文本纠错模型的评估参数，其中，评估参数包括如下一个或多个：准确率、召回率和调和平均值；如果评估参数高于预设参数阈值，则允许使用训练得到的文本纠错模型对语句进行纠错。

在上述步骤中，可以将测试语料中的错误文本输入至训练结果，使用训练结果对错误文本进行纠错，并根据训练结果对错误文本的纠错结果，确定训练结果的准确率、召回率和调和平均值。

具体的，上述准确率用于表示测试结果准确的测试数据与输入文本纠错模型的测试数据的比值，召回率用于表示测试结果准确的测试数据与所有测试数据的比例，调和平均值用于表示准确率和召回率的均值。

上述测试语料用于对训练得到的模型的准确度进行测试，如果训练得到的模型的评估参数超过预设阈值，则说明该模型训练成功，可以作为文本纠错模型使用，如果训练得到的模型的评估参数未超过预设阈值，则说明该模型的准确度较低，即使作为文本纠错模型使用，也难以得到准确的纠错结果，因此还需要继续进行训练，以进一步修正网络参数，提高模型的准确程度。

在上述方案中，测试语料可以通过人工标注的方式获取，例如，可以人工对错误文本和错误文本对应的正确文本进行标注，得到<错误文本，正确文本>的测试语料；测试语料也可以从训练语料中获取，例如，可以从训练语料中进行采样，生成如<“你的威信是多少”，“你的微信是多少”>所示的测试数据，用于训练完的模型评估。

上述评估参数包括准确率、召回率和调和平均值中的一个或多个，如果仅包括一个，例如，评估参数即为准确率，则评估参数阈值即为准确率阈值，并将准确率与准确率阈值进行比对，如果准确率大于准确率阈值，则确定训练结果即为文本纠错模型，可以用于对语句进行纠错处理。

如果评估参数包括准确率、召回率和调和平均值，则可以设置准确率、召回率和调和平均值对应的权重，并根据训练结果的准确率、召回率和调和平均值和准确率、召回率和调和平均值的权重值计算加权，得到的加权结果即为评估参数。然后将训练结果的评估参数与评估参数阈值进行比对，如果评估参数小于或等于评估参数阈值，则需要继续对训练结果进行训练。

作为一种可选的实施例，错误文本的语句信息包括如下至少一种特征信息：错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息，神经网络模型包括长短期记忆网络模型。

作为一种可选的实施例，在错误文本的语句信息包括错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息的情况下，基于错误文本的语句信息和正确文本，对神经网络模型进行训练，得到文本纠错模型，包括：将错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息进行拼接；将拼接结果输入至神经网络模型的编码器进行编码；将编码结果输入至神经网络模型的解码器，其中，解码器包括对编码器的注意力机制；获取解码器的解码结果和错误文本对应的正确文本之间的误差；根据误差调整神经网络模型的参数，直至误差满足预设条件，并确定误差满足预设条件的神经网络模型为文本纠错模型。

具体的，由于输入至文本纠错模型中的信息包括待纠错的语句的文本特征信息、拼音特征信息和笔画特征信息，因此需要将三个特征信息进行拼接，输入至初始神经网络模型。

上述方案中，通过BP方式对神经网络模型进行训练，每一迭代按照预定的方式对神经网络模型中的权重以及偏置进行更新，以使神经网络模型的输出更接近于期望，从而得到文本纠错模型。

上述方案通过对待纠错的语句的多种特征性信息进行融合来训练文本纠错模型，从而实现了多粒度融合的神经网络模型训练：可以使用基于Seq2Seq的NMT(NeuralMachine Translation，神经网络机器翻译)神经网络机器翻译模型进行训练，模型训练输入训练语料，模初始神经网络模型可以使用Encoder-Decoder(编码器-解码器)架构，Encoder和Decoder分别使用多层的Bi-LSTM(长短期记忆网络)模型，并且在Decoder中加入对Encoder的Attention注意力机制。文字、拼音和笔画的embedding(即待纠错的语句的文本特征信息、拼音特征信息和笔画特征信息)输入通过向量拼接，输入到LSTM模型中。文本纠错模型的训练涉及字embedding、拼音embedding、笔画embedding和hidden layer的调参。还可以对训练数据进行切分，获取一份验证集。在模型训练中，验证集上的指标(该指标可以为F值)停止下降时，完成模型训练。

上述神经网络是端到端的模型训练，可以直接将训练语料训练到模型中，通过损失函数的优化，得到高质量的纠错结果。模型中的拼音embedding和笔画embedding，与解码的过程联合优化，在Decoder推断的过程中可以利用到这些embedding的信息，产出纠错的结果。

作为一种可选的实施例，根据混淆集获取训练语料，包括：获取正确文本；获取文本中，至少一个文字对应的混淆集，其中，混淆集包括与至少一个文字的拼音和/或笔画的编辑距离小于预设值的文字；使用混淆集中与至少一个文字不同的其他文字替换至少一个文字，得到错误文本。

训练语料中包括<正确文本，错误文本>，在上述方案中，正确文本为预设的正确文本，错误文本为对正确文本中的一个或多个文字使用其混淆集中的其他文字替换所得到文本。

具体的，上述正确文本用于表示符合预设标准的文本，例如，不包含繁体字，不包含数字，不包含错别字，且语句通顺的文本。

在获取到正确文本后，获取预设的混淆集中，正确文本中的一个或多个文字对应的错别字，并使用混淆集中的错别字对正确文本中的一个或多个文字进行替换，从而得到该正确文本对应的一个或多个错误文本，进而可以构成至少一组训练语料。

例如，对于正确文本“你的微信是多少”，其中，“微”在混淆集中对应于“威”，“少”在混淆集中对应于“小”，则“你的微信是多少”对应的错误文本至少可以包括：“你的威信是多少”、“你的微信是多小”和“你的威信是多小”。

在上述方案中，文字的混淆集包括与至少一个文字的拼音和/或笔画的编辑距离小于预设值的文本。上述编辑距离用于表示将一个拼音变更为另一个拼音，或将一个笔画变更为另一个笔画所需要操作的次数。两个文字之间的编辑距离越小，两个文字越相近。

在一种可选的实施例中，上述预设值可以为2，即混淆集中包括与至少一个文字的拼音和/或笔画的编辑距离为0或1的文字。例如：“jiu”与“ji”的距离为1(删除u)，“cuo”与“duo”的距离为1(c改为d)。混淆集为“我”->“窝”(拼音编辑距离为0)，“田”与“甲”、“由”等(笔画编辑距离为0)。

作为一种可选的实施例，上述方法还包括：获取混淆集，其中，获取混淆集的步骤包括：对至少一个文字的拼音或笔画进行如下至少一项处理，得到至少一个文字对应的混淆集：增加、删除、改变和交换。

具体的，增加、删除、改变和交换为四种编辑方式，可以通过对文字的拼音或笔画进行任意一种上述的操作，得到其对应的混淆集。

例如，对于文字“日”，通过对其笔画序列进行一步增加和删除操作，可以得到其混淆集包括：“田”和“口”；仍于文字“真”，通过对其拼音序列进行一步增加和删除操作，可以得到其混淆集包括：“正”和“这”。

上述方案中，使用正确文本在拼音和笔画上的混淆集构建训练语料，大幅扩充纠错的训练语料，并且具备神经网络的序列到序列拟合能力，能有效解决同音字、音近字和形近字的纠错。

作为一种可选的实施例，待纠错的语句为对语音信息进行识别得到的文本，或对图像信息进行识别得到的文本。

图4是根据本申请实施例1的一种构建文本纠错模型的流程图，下面结合图4，对构建文本纠错模型的步骤进行说明。

S41，获取训练语料。

在上述步骤中，可以根据纠错需要使用的场景，获取相应的训练语料，训练语料的格式为文字序列。例如，针对关键词和商品纠错，可以从商品搜索关键词日志或者商品库中获取；针对对话和问答纠错，可以从用户对话和问答历史日志中获取；针对文稿校对纠错，可以从文档库中获取。

S42，抽取拼音序列和笔画序列。

可以通过新华汉语词典构建汉字与拼音的映射表，并通过汉字与拼音的映射表将训练语料的文本转换为拼音序列。转换方法可以使用最大正向匹配，对于多音字，可以根据词语的拼音进行转换。还可以构建汉字与笔画的映射表，并通过汉字与笔画的映射表将训练语料转换为笔画序列，笔画可以分为5类：横、竖、撇、捺、弯钩，或者五笔、郑码等格式。转换方法可以使用字->字的转换，或者词粒度的五笔转换。

S43，构建拼音和笔画的embedding字典。

在将训练语料转换的全量拼音和笔画序列后，需要构建embedding字典，用于得到拼音序列和笔画序列对应的embedding ID。例如“jiu”对应的embedding ID为“拼音id3000”、“cuo”对应的embedding ID为“拼音id 1000”、“横”对应的embedding ID为“笔画id1”，“竖”对应的embedding ID为“笔画id 2”。也可以构建n-gram的embedding字典，例如3-gram的“横竖撇”对应的embedding ID为“笔画id 30”。

S44，基于编辑距离对相近拼音、笔画分别构建混淆集。

对于每个汉字，根据其拼音和笔画序列，找到相似的汉字，从而构成其混淆集。可以使用编辑距离作为计算距离的方法，分别根据字母或者笔画的增加、删除、改变、交换四种距离，例如“jiu”到“ji”的距离为1(删除u)，“cuo”到>“duo”的距离为1(c改为d)。混淆集为“我”到“窝”(拼音编辑距离为0)，“田”到“甲”、“由”等(笔画编辑距离为0)。

S45，将文字、拼音和笔画等序列转化为模型输入格式。

神经网络的输入需要将文字、拼音、笔画等根据与先构建的embedding字典转换为对应的embedding id，从而得到对应的embedding像狼。转化之后每个汉字或者单词(分词后)包含字、拼音、笔画三个粒度的特征。

S46，构建训练伪语料。

可以在原始数据中进行关键字替换，得到一批<错误输入,正确输入>的训练伪语料，如<“你的(威)信是多(小)”，“你的微信是多少”>，用于模型训练。在中文数据上，可以使用分词的词粒度或者未分词的字粒度作为训练输入。

S47，构建测试数据。

可以基于用户历史日志，使用人工标注数据或者和从伪语料中采样并进行标注的方式，生成一批高质量的测试数据：如<“你的(威)信是多(小)”，“你的微信是多少”>，用于训练完的模型评估。

S48，多粒度融合的神经网络训练。

可以使用Seq2Seq的NMT(Neural Machine Translation，神经网络机器翻译)神经网络机器翻译模型进行训练，模型训练输入为步骤S46构建的训练伪语料，模型可以使用Encoder-Decoder架构，Encoder和Decoder分别使用多层的Bi-LSTM模型，并且在Decoder中加入对Encoder的Attention注意力机制。文字、拼音和笔画的embedding输入通过向量拼接，输入到LSTM模型中。模型训练涉及字embedding、拼音embedding、笔画embedding和hidden layer的调参，通过BP方式训练。对训练数据进行切分，获取一份验证集。在模型训练中，验证集上的指标停止下降时，完成模型训练。

S49，离线模型训练。

具体的，可以基于S47构建的测试集评估文本纠错模型效果，评估方式是对模型预测的输出，与测试集结果进行匹配度计算，根据模型使用的训练数据粒度，计算字粒度或者词粒度的准确率、召回率和F值。

S410，判断测试结果是否高于目标。在测试结果高于目标的情况下，进入步骤S411，否则进入步骤S46.

在上述步骤中，可以根据不同业务的需要确定不同的准确度，并基于确定的准确率判断模型是否达到要求，如果在测试集上效果优于目标，则说明训练的模型可以使用。

S411，产出文本纠错模型。

将测试效果打标的模型保存，后续使用模型预测模块用于线上纠错。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述文本的纠错方法的文本的纠错装置，图5是根据本申请实施例2的文本的纠错装置的示意图，如图5所示，该装置500包括：

获取模块502，用于获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息。

处理模块504，用于使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型。

确定模块506，用于根据文本纠错模型的处理结果确定语句的纠错结果。

此处需要说明的是，上述获取模块502、处理模块504和确定模块506对应于实施例1中的步骤S21至步骤S25，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

作为一种可选的实施例，获取模块包括：第一获取子模块，用于获取语句的拼音序列和笔画序列；第二获取子模块，用于根据语句获取文字向量，并根据语句的拼音序列和笔画序列分别拼音向量和笔画向量；第三获取子模块，用于将文字向量转换为文字特征信息，并将拼音向量和笔画向量分别转换为拼音特征信息和笔画特征信息。

作为一种可选的实施例，第一获取子模块包括：第一获取单元，用于根据文本与拼音的第一映射表获取语句的拼音序列；第二获取单元，用于根据文本与笔画的第二映射表获取语句的笔画序列。

作为一种可选的实施例，上述装置还包括：接收模块，用于在获取语句的拼音序列和笔画序列之前，接收语句，其中，语句包括如下至少之一：文本输入的语句和语音输入的语句；预处理模块，用于对语句进行预处理，其中，预处理包括如下至少一项：分词处理、繁体转简体处理以及数字转汉字处理。

作为一种可选的实施例，文本纠错模型的处理结果包括：预测纠错结果和预测纠错结果对应的置信度，其中，确定模块包括：第四获取子模块，用于获取置信度阈值；第一判断子模块，用于如果预测纠错结果的置信度大于置信度阈值，将预测纠错结果做为语句的纠错结果；第二判断子模块，用于如果预测纠错结果的置信度小于或等于置信度阈值，将语句本身做为纠错结果。

作为一种可选的实施例，上述装置还包括：在文本纠错模型的处理结果确定语句的纠错结果之后，任务确定模块，用于确定语句对应的任务，其中，任务用于表征语句在不同的应用场景下的处理模型，应用场景包括如下至少之一：问答场景、翻译场景和搜索场景；得到模块，用于将语句的纠错结果和置信度作为处理模型的输入特征，得到任务的处理结果。

作为一种可选的实施例，方法还包括：模型获取模块，用于获取文本纠错模型，其中，模型获取模块包括：第五获取子模块，用于根据混淆集获取训练语料，其中，训练语料包括：正确文本和根据混淆集获得的正确文本对应的错误文本；第六获取子模块，用于获取错误文本的语句信息；训练子模块，用于基于错误文本的语句信息和正确文本，对神经网络模型进行训练，得到文本纠错模型。

作为一种可选的实施例，模型获取模块还包括：第七获取子模块，用于获取测试语料；验证子模块，用于通过测试语料验证训练得到的文本纠错模型的评估参数，其中，评估参数包括如下一个或多个：准确率、召回率和调和平均值；允许子模块，用于如果评估参数高于预设参数阈值，则允许使用训练得到的文本纠错模型对语句进行纠错。

作为一种可选的实施例，在错误文本的语句信息包括错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息的情况下，训练子模块包括：拼接单元，用于将错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息进行拼接；第一输入单元，用于将拼接结果输入至神经网络模型的编码器进行编码；第二输入单元，用于将编码结果输入至所述神经网络模型的解码器，其中，所述解码器包括对所述编码器的注意力机制；获取单元，用于获取解码器的解码结果和错误文本对应的正确文本之间的误差；训练单元，用于根据误差调整神经网络模型的参数，直至误差满足预设条件，并确定误差满足预设条件的神经网络模型为文本纠错模型。

作为一种可选的实施例，第五获取子模块包括：第三获取单元，用于获取正确文本；第四获取单元，用于获取文本中，至少一个文字对应的混淆集，其中，混淆集包括与至少一个文字的拼音和/或笔画的编辑距离小于预设值的文字；替换单元，用于使用混淆集中与至少一个文字不同的其他文字替换至少一个文字，得到错误文本。

作为一种可选的实施例，上述装置还包括：混淆集获取模块，用于获取混淆集，其中，混淆集获取模块包括：处理子模块，用于对至少一个文字的拼音或笔画进行如下至少一项处理，得到至少一个文字对应的混淆集：增加、删除、改变和交换。

实施例3

本发明的实施例可以提供一种文本的纠错系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：

获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；

使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；

根据文本纠错模型的处理结果确定语句的纠错结果。

上述系统中的存储器还为处理器提供处理实施例1中其他步骤的指令，此处不再赘述。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的漏洞检测方法中以下步骤的程序代码：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

可选地，图6是根据本发明实施例4的一种计算机终端的结构框图。如图6所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器602、存储器604、以及传输装置606。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

可选的，上述处理器还可以执行如下步骤的程序代码：获取语句的拼音序列和笔画序列；根据语句获取文字向量，并根据语句的拼音序列和笔画序列分别拼音向量和笔画向量；将文字向量转换为文字特征信息，并将拼音向量和笔画向量分别转换为拼音特征信息和笔画特征信息。

可选的，上述处理器还可以执行如下步骤的程序代码：根据文本与拼音的第一映射表获取语句的拼音序列；根据文本与笔画的第二映射表获取语句的笔画序列。

可选的，上述处理器还可以执行如下步骤的程序代码：在获取语句的拼音序列和笔画序列之前，接收语句，其中，语句包括如下至少之一：文本输入的语句和语音输入的语句；对语句进行预处理，其中，预处理包括如下至少一项：分词处理、繁体转简体处理以及数字转汉字处理。

可选的，上述处理器还可以执行如下步骤的程序代码：文本纠错模型的处理结果包括：预测纠错结果和预测纠错结果对应的置信度，获取置信度阈值；如果预测纠错结果的置信度大于置信度阈值，将预测纠错结果做为语句的纠错结果；如果预测纠错结果的置信度小于或等于置信度阈值，将语句本身做为纠错结果。

可选的，上述处理器还可以执行如下步骤的程序代码：在文本纠错模型的处理结果确定语句的纠错结果之后，确定语句对应的任务，其中，任务用于表征语句在不同的应用场景下的处理模型，应用场景包括如下至少之一：问答场景、翻译场景和搜索场景；将语句的纠错结果和置信度作为处理模型的输入特征，得到任务的处理结果。

可选的，上述处理器还可以执行如下步骤的程序代码：获取文本纠错模型的步骤包括：根据混淆集获取训练语料，其中，训练语料包括：正确文本和根据混淆集获得的正确文本对应的错误文本；获取错误文本的语句信息；基于错误文本的语句信息和正确文本，对神经网络模型进行训练，得到文本纠错模型。

可选的，上述处理器还可以执行如下步骤的程序代码：获取测试语料；通过测试语料验证训练得到的文本纠错模型的评估参数，其中，评估参数包括如下一个或多个：准确率、召回率和调和平均值；如果评估参数高于预设参数阈值，则允许使用训练得到的文本纠错模型对语句进行纠错。

可选的，上述处理器还可以执行如下步骤的程序代码：错误文本的语句信息包括如下至少一种特征信息：错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息，神经网络模型包括长短期记忆网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：在错误文本的语句信息包括错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息的情况下，将错误文本的文本特征信息、错误文本的拼音特征信息和错误文本的笔画特征信息进行拼接；将拼接结果输入至神经网络模型的编码器进行编码；将编码结果输入至神经网络模型的解码器，其中，解码器包括对编码器的注意力机制；获取解码器的解码结果和错误文本对应的正确文本之间的误差；根据误差调整神经网络模型的参数，直至误差满足预设条件，并确定误差满足预设条件的神经网络模型为文本纠错模型。。

可选的，上述处理器还可以执行如下步骤的程序代码：获取正确文本；获取文本中，至少一个文字对应的混淆集，其中，混淆集包括与至少一个文字的拼音和/或笔画的编辑距离小于预设值的文字；使用混淆集中与至少一个文字不同的其他文字替换至少一个文字，得到错误文本。

可选的，上述处理器还可以执行如下步骤的程序代码：对至少一个文字的拼音或笔画进行如下至少一项处理，得到至少一个文字对应的混淆集：增加、删除、改变和交换。

采用本发明实施例，提供了一种文本的纠错方法。在本发明实施例中的上述文本的纠错方法不直接使用混淆集生成候选，而是将混淆集用于构建训练数据，并根据语句的文字、拼音和笔画中至少一种特征信息对语句进行纠错。由于语句的文字、拼音和笔画携带有语句的语义、拼音以及笔画信息，因此上述纠错方法能够从语句的语义、拼音以及笔画中的一个或多个方面对语句进行纠错，对比使用与Noisy Channel独立的混淆召回候选词，并使用Noisy Channel对候选词进行排序以得到纠错结果的方式，能取得更好的泛化效果，不受混淆集召回与Noisy Channel排序分离的影响，从而提高了文本纠错的准确程度，进而解决了现有技术中用于生成候选纠错结果的混淆集和用于对候选纠错结果进行验证的模型不相关，导致对语句的纠错效果较差的技术问题。

本领域普通技术人员可以理解，图6所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，计算机终端100还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的文本的纠错方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取语句信息，其中，语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对语句信息进行处理，其中，基于训练语料训练神经网络模型得到文本纠错模型；根据文本纠错模型的处理结果确定语句的纠错结果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本的纠错方法，包括：

获取语句信息，其中，所述语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；

使用文本纠错模型，对所述语句信息进行处理，其中，基于训练语料训练神经网络模型得到所述文本纠错模型；

根据所述文本纠错模型的处理结果确定语句的纠错结果。

2.根据权利要求1所述的方法，其中，获取语句信息，包括：

获取所述语句的拼音序列和笔画序列；

根据所述语句获取文字向量，并根据所述语句的拼音序列和所述笔画序列分别拼音向量和笔画向量；

将所述文字向量转换为所述文字特征信息，并将所述拼音向量和所述笔画向量分别转换为所述拼音特征信息和所述笔画特征信息。

3.根据权利要求2所述的方法，其中，获取所述语句的拼音序列和笔画序列，包括：

根据文本与拼音的第一映射表获取所述语句的拼音序列；

根据文本与笔画的第二映射表获取所述语句的笔画序列。

4.根据权利要求2所述的方法，其中，在获取所述语句的拼音序列和笔画序列之前，所述方法还包括：

接收所述语句，其中，所述语句包括如下至少之一：文本输入的语句和语音输入的语句；

对所述语句进行预处理，其中，所述预处理包括如下至少一项：分词处理、繁体转简体处理以及数字转汉字处理。

5.根据权利要求1所述的方法，其中，所述文本纠错模型的处理结果包括：预测纠错结果和所述预测纠错结果对应的置信度，其中，

根据所述文本纠错模型的处理结果确定语句的纠错结果，包括：

获取置信度阈值；

如果所述预测纠错结果的置信度大于所述置信度阈值，将所述预测纠错结果作为所述语句的纠错结果；

如果所述预测纠错结果的置信度小于或等于所述置信度阈值，将所述语句本身作为所述纠错结果。

6.根据权利要求5所述的方法，其中，在所述文本纠错模型的处理结果确定语句的纠错结果之后，所述方法还包括：

确定所述语句对应的任务，其中，所述任务用于表征所述语句在不同的应用场景下的处理模型，所述应用场景包括如下至少之一：问答场景、翻译场景和搜索场景；

将所述语句的纠错结果和所述置信度作为所述处理模型的输入特征，得到所述任务的处理结果。

7.根据权利要求1至6中任意一项所述的方法，其中，所述方法还包括：获取所述文本纠错模型，其中，

获取所述文本纠错模型的步骤包括：

根据混淆集获取训练语料，其中，所述训练语料包括：正确文本和根据所述混淆集获得的所述正确文本对应的错误文本；

获取所述错误文本的语句信息；

基于所述错误文本的语句信息和所述正确文本，对神经网络模型进行训练，得到所述文本纠错模型。

8.根据权利要求7所述的方法，其中，获取所述文本纠错模型的步骤还包括：

获取测试语料；

通过所述测试语料验证训练得到的所述文本纠错模型的评估参数，其中，所述评估参数包括如下一个或多个：准确率、召回率和调和平均值；

如果所述评估参数高于预设参数阈值，则允许使用训练得到的所述文本纠错模型对语句进行纠错。

9.根据权利要求7所述的方法，其中，所述错误文本的语句信息包括如下至少一种特征信息：所述错误文本的文本特征信息、所述错误文本的拼音特征信息和所述错误文本的笔画特征信息，所述神经网络模型包括长短期记忆网络模型。

10.根据权利要求9所述的方法，其中，在所述错误文本的语句信息包括所述错误文本的文本特征信息、所述错误文本的拼音特征信息和所述错误文本的笔画特征信息的情况下，基于所述错误文本的语句信息和所述正确文本，对神经网络模型进行训练，得到所述文本纠错模型，包括：

将所述错误文本的文本特征信息、所述错误文本的拼音特征信息和所述错误文本的笔画特征信息进行拼接；

将拼接结果输入至神经网络模型的编码器进行编码；

将编码结果输入至所述神经网络模型的解码器，其中，所述解码器包括对所述编码器的注意力机制；

获取所述解码器的解码结果和所述错误文本对应的正确文本之间的误差；

根据所述误差调整所述神经网络模型的参数，直至所述误差满足预设条件，并确定误差满足所述预设条件的神经网络模型为所述文本纠错模型。

11.根据权利要求7所述的方法，其中，根据混淆集获取训练语料，包括：

获取正确文本；

获取所述文本中，至少一个文字对应的混淆集，其中，所述混淆集包括与所述至少一个文字的拼音和/或笔画的编辑距离小于预设值的文字；

使用所述混淆集中与所述至少一个文字不同的其他文字替换所述至少一个文字，得到所述错误文本。

12.根据权利要求11所述的方法，其中，所述方法还包括：获取所述混淆集，其中，获取所述混淆集的步骤包括：

对所述至少一个文字的拼音或笔画进行如下至少一项处理，得到所述至少一个文字对应的混淆集：增加、删除、改变和交换。

13.一种文本的纠错装置，包括：

获取模块，用于获取语句信息，其中，所述语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；

处理模块，用于使用文本纠错模型，对所述语句信息进行处理，其中，基于训练语料训练神经网络模型得到所述文本纠错模型；

确定模块，用于根据所述文本纠错模型的处理结果确定语句的纠错结果。

14.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如下步骤：获取语句信息，其中，所述语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对所述语句信息进行处理，其中，基于训练语料训练神经网络模型得到所述文本纠错模型；根据所述文本纠错模型的处理结果确定语句的纠错结果。

15.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如下步骤：获取语句信息，其中，所述语句信息包括如下至少一种特征信息：文字特征信息、拼音特征信息和笔画特征信息；使用文本纠错模型，对所述语句信息进行处理，其中，基于训练语料训练神经网络模型得到所述文本纠错模型；根据所述文本纠错模型的处理结果确定语句的纠错结果。

16.一种文本的纠错系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

根据所述文本纠错模型的处理结果确定语句的纠错结果。