CN111444705A

CN111444705A - 纠错方法、装置、设备及可读存储介质

Info

Publication number: CN111444705A
Application number: CN202010162323.6A
Authority: CN
Inventors: 曾增烽; 刘东煜
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-24

Abstract

本发明涉及人工智能技术领域，公开了一种纠错方法，包括以下步骤：获取待纠错的文本数据，对所述文本数据进行分词处理，得到待转换字符，将所述待转换字符转换为拼音序列，根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，将所述正确字符替换所述文本数据中对应的待转换字符。本发明还公开了一种纠错装置、设备及计算机可读存储介质，从而能够实现对于文本中错误字符的快速纠错，同时在后续使用中，只需将新文本加入至纠错词典中即可，更新成本低，便于维护。

Description

纠错方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种纠错方法、装置、设备及可读存储介质。

背景技术

随着信息时代的不断发展，我们每天都在接收信息，同时每天也在输出信息，不论是以合种输出方式，如语音输入，输入法输入等都不可避免地存在错误字符，在现有的纠错技术中有通过收集错误字符进行模型训练得到纠错模型的方法，以及制作映射词典进行错误字符和正确字符的一一对应，但是以上方法由于错别字千奇百怪难以对日常所有出现的错误字符进行收集，同时在后续的使用中，由于先前收集错误字符的不足，导致在后续的使用中更新成本太高，难以维护。

发明内容

本发明的主要目的在于提供一种纠错方法、装置、设备及可读存储介质，旨在解决如何有效进行字符纠错的技术问题。

为实现上述目的，本发明提供的一种纠错方法，所述纠错方法包括以下步骤：

获取待纠错的文本数据，所述文本数据包括用户输入的文本信息和预设的文本模板；

对所述文本数据进行分词处理，得到待转换字符，其中所述待转换字符为单个中文字、词组和产品名称中的一种；

将所述待转换字符转换为拼音序列；

根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，其中，所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典；

将所述正确字符替换所述文本数据中对应的待转换字符。

可选地，通过以下方式得到所述纠错词典：

收集所述聊天机器人中的聊天语料；

提取所述聊天语料中出现错误且被纠正的字符；

将所述字符转换为拼音特征，并建立所述拼音特征与所述字符的映射关系；

根据所述多模匹配算法的匹配原理，对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建，得到所述纠错词典。

可选地，所述根据所述多模匹配算法的匹配原理，对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建，得到所述纠错词典的步骤，包括：

将所有字符对应的拼音特征进行路径化，得到路径特征；

提取所述路径特征中拼音的相同部分和不同部分，其中所述相同为至少存在两个连续的音节相同；

基于相同部分创建一个主树干；

在所述主树干的基础上，创建子树干，其中所述子树干为基于不同部分创建形成，得到所述搜索树形状的纠错词典；

其中，所述主树干和子树干上均设有若干个节点，每个节点对应拼音特征中的一个字母或者一个音节。

可选地，所述对所述文本数据进行分词处理，得到待转换字符的步骤，包括：

设置初始长度为一的可变长度的滑动窗口；

基于所述滑动窗口对所述文本数据进行迭代扫描处理，得到待转换字符，其中所述待转换字符为所述滑动窗口所框选的字符。

可选地，所述根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符的步骤包括：

利用所述多模匹配算法，查询所述纠错词典中包含所述拼音序列的所有字符；

计算每个字符的长度，并从所有字符中选择长度最大的字符，得到第一纠错字符；

根据所述第一纠错字符的长度调整所述滑动窗口，从所述文本数据中重新获取待转换字符；

比较所述第一纠错字符和重新获取的待转换字符的相似度；

若所述相似度大于预设值，则将所述第一接错字符选定为所述正确字符；

若所述相似度小于预设值，则从所有的字符中选择所述长度为最小的字符作为所述正确字符。

可选地，若所述节点为拼音特征中的一个音节时，所述利用所述多模匹配算法，查询所述纠错词典中包含所述拼音序列的所有字符的步骤包括：

根据拼音中的音节划分规则，对所述拼音序列进行音节的划分处理，得到音节序列，所述划分处理为将所述拼音序列中按顺序将声母和韵母组成一个音节后，进行分割处理；

根据所述音节序列，依次与所述纠错词典中的主树干和子树干上的节点进行匹配，得到对应的拼音特征；

根据所述拼音特征，以及拼音特征与字符的对应关系，确定所述拼音序列的所有字符。

可选地，所述根据所述音节序列，依次与所述纠错词典中的主树干和子树干上的节点进行匹配，得到对应的拼音特征包括：

将所述音节序列中的音节，依次输入到所述多模匹配算法对应的模型中；

通过所述模型，按照所述音节序列中的第一音节排序依次与所述纠错词典中的所有主树干上的第一节点进行匹配；

若匹配失败，则读取所述音节序列中的第二音节与所述纠错词典中的所有主树干继续匹配；

若匹配成功，则沿着匹配成功的主树干进行所述音节序列中的第二音节与所述主树干的下一节点的匹配，并判断所述下一节点中是否存在所述子树干；

若存在，则读取所述音节序列中的第三音节与所述下一节点中的子树干上的第一子节点进行匹配；

若匹配成功，则沿着匹配成功的子树干进行所述音节序列中的下一个音节进行匹配；

若匹配失败，则读取预置于所述第一节点中的跳转表，将所述音节序列的匹配处理跳转到与其他主树干或者子树干继续匹配。

此外，为实现上述目的，本发明还提供一种纠错装置，所述纠错装置包括：

获取模块，用于获取待纠错的文本数据，所述文本数据包括用户输入的文本信息和预设的文本模板；

分词模块，用于对所述文本数据进行分词处理，得到待转换字符，其中所述待转换字符为单个中文字、词组和产品名称中的一种；

转换模块，用于将所述待转换字符转换为拼音序列；

匹配模块，用于根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，其中，所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典；

替换模块，用于将所述正确字符对所述文本数据中的待转换字符进行替换。

可选地，所述纠错装置还包括词典构建模块，所述词典构建模块包括收集单元、提取单元、拼音单元、构建单元，其中：

所述收集单元用于收集所述聊天机器人中的聊天语料；

所述提取单元用于提取所述聊天语料中出现错误且被纠正的字符；

所述拼音单元用于将所述字符转换为拼音特征，并建立所述拼音特征与所述字符的映射关系；

所述构建单元用于根据所述多模匹配算法的匹配原理，对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建，得到所述纠错词典。

可选地，所述构建单元用于将所有字符对应的拼音特征进行路径化，得到路径特征；提取所述路径特征中拼音的相同部分和不同部分，其中所述相同为至少存在两个连续的音节相同；基于相同部分创建一个主树干；在所述主树干的基础上，创建子树干，其中所述子树干为基于不同部分创建形成，得到所述搜索树形状的纠错词典；其中，所述主树干和子树干上均设有若干个节点，每个节点对应拼音特征中的一个字母或者一个音节。

可选地，所述分词模块包括设置单元，扫描单元，其中：

所述设置单元用于设置初始长度为一的可变长度的滑动窗口；

所述扫描单元用于基于所述滑动窗口对所述文本数据进行迭代扫描处理，得到待转换字符，其中所述待转换字符为所述滑动窗口所框选的字符。

可选地，所述匹配模块包括查询单元、长度计算单元、调整单元和比较单元，其中：

所述查询单元用于利用所述多模匹配算法，查询所述纠错词典中包含所述拼音序列的所有字符；

所述长度计算单元用于计算每个字符的长度，并从所有字符中选择长度最大的字符，得到第一纠错字符；

所述调整单元用于根据所述第一纠错字符的长度调整所述滑动窗口，从所述文本数据中重新获取待转换字符；

所述比较单元用于比较所述第一纠错字符和重新获取的待转换字符的相似度；

可选地，若所述节点为拼音特征中的一个音节时，所述查询单元用于根据拼音中的音节划分规则，对所述拼音序列进行音节的划分处理，得到音节序列，所述划分处理为将所述拼音序列中按顺序将声母和韵母组成一个音节后，进行分割处理；根据所述音节序列，依次与所述纠错词典中的主树干和子树干上的节点进行匹配，得到对应的拼音特征；根据所述拼音特征，以及拼音特征与字符的对应关系，确定所述正确字符。

可选地，所述查询单元用于将所述音节序列中的音节，依次输入到所述多模匹配算法对应的模型中；通过所述模型，按照所述音节序列中的第一音节排序依次与所述纠错词典中的所有主树干上的第一节点进行匹配；若匹配失败，则读取所述音节序列中的第二音节与所述纠错词典中的所有主树干继续匹配；若匹配成功，则沿着匹配成功的主树干进行所述音节序列中的第二音节与所述主树干的下一节点的匹配，并判断所述下一节点中是否存在所述子树干；若存在，则读取所述音节序列中的第三音节与所述下一节点中的子树干上的第一子节点进行匹配；若匹配成功，则沿着匹配成功的子树干进行所述音节序列中的下一个音节进行匹配；若匹配失败，则读取预置于所述第一节点中的跳转表，将所述音节序列的匹配处理跳转到与其他主树干或者子树干继续匹配。

进一步地，为实现上述目的，本发明还提供一种纠错设备，所述纠错设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的纠错程序，所述纠错被所述处理器执行时实现如上述任一项所述的纠错方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有纠错程序，所述纠错程序被处理器执行时实现如上述任一项所述的纠错方法的步骤。

本发明实施例提出了一种通过事先观察聊天机器人的聊天语料中的字符错误，总结用户犯错趋势，基于观察到的错误字符对应的正确字符和正确字符对应的拼音序列构建纠错词典，将待纠错的文本数据输入到所述纠错词典中基于预设好的多模匹配算法进行匹配，对匹配成功的字符进行替换纠错处理，完成对待纠错文本数据中错误字符的纠错。本方法构建的纠错词典，通过预设的多模匹配算法，能够简单快速地实现对于存在错误字符的文本数据的纠错，错误率低，同时当出现新的错误字符时，只需要在纠错词典中建立新的正确字符与对应拼音序列的映射关系，方便维护的同时能够降低人工成本。

附图说明

图1为本发明实施例方案涉及的纠错设备运行环境的结构示意图；

图2为本发明提供的纠错方法第一实施例的流程示意图；

图3为本发明实施例提供的构建搜索树的一种示意图；

图4为本发明实施例提供的拼音序列匹配过程的流程示意图；

图5为本发明纠错方法第二实施例的流程示意图；

图6为本发明实施例提供的构建搜索树的另一种示意图；

图7为本发明提供的纠错装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种纠错设备。

参照图1，图1为本发明实施例方案涉及的纠错设备运行环境的结构示意图。

如图1所示，该纠错设备包括：处理器101，例如CPU，通信总线102、用户接口103，网络接口104，存储器105。其中，通信总线102用于实现这些组件之间的连接通信。用户接口103可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口104可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器105可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器105可选的还可以是独立于前述处理器101的存储装置。

本领域技术人员可以理解，图1中示出的纠错设备的硬件结构并不构成对纠错设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器105中可以包括操作系统、网络通信模块、用户接口模块以及纠错程序。其中，操作系统是管理和控制纠错设备和软件资源的程序，支持纠错程序以及其它软件和/或程序的运行。

在图1所示的纠错设备的硬件结构中，网络接口104主要用于接入网络；用户接口103主要用于侦测确认指令等，而处理器101可以用于调用存储器105中存储的纠错程序，并执行以下纠错方法的各实施例的操作。

基于上述纠错设备硬件结构，提出本发明纠错方法的各个实施例。

参照图2，图2为本发明纠错方法一实施例的流程示意图。在本实施例中，所述纠错方法包括以下步骤：

步骤S210，获取待纠错的文本数据，所述文本数据包括用户输入的文本信息和预设的文本模板；

在该步骤中，所述待纠错的文本信息包括用户通过语音识别输入的文本信息以及用户通过输入法输入至输入法系统的输入内容，所述输入法系统可以根据用户当前的输入方式，将所述输入内容转换为所输入文字的字词候选项，提供用户进行选择，用户可以通过多种输入手段进行文本信息的输入，例如键盘，触摸板，鼠标等，同时用户也可以选择任意的输入方式进行文本信息的输入，如拼音，五笔，笔画，手写等，本发明不做限定。所述待纠错的文本模板可以是从书籍、新闻、网页等资料源头收集到的，也可以是在预设数据库中预先存储的，并非用户实时输入的本身已有的文本数据，例如通过对书籍中的文字进行字符识别，得到所述文本模板，通过对播报的新闻进行语音识别，得到所述文本模板，通过对网页进行文字的抓取操作，得到所述文本模板。

步骤S220，对所述文本数据进行分词处理，得到待转换字符，其中所述待转换字符为单个中文字、词组和产品名称中的一种；

在该步骤中，所述待转换字符为后续需要进行拼音序列转换的字符，所述待转换字符中可能有两种情况，如存在错误字符或不存在错误字符，但无论是否存在错误字符，在后续步骤中都将所述待转换字符进行拼音转换。

在该步骤中，由于文本数据进行划分后会出现多种无意义的字符串，例如对于文本数据“我这几天感冒了可以投保平安符吗？”会出现划分情况为“了可”等无意义字符，对于所述无意义字符，由于这些字符并不是我们需要纠错的目标字符，需要对这些字符进行滤除，例如包含介词的字符串进行滤除，在本实施例中，还有多种滤除方法，本实施例不做限定，需要注意的是，对于文本数据中的符号以及数字字符和字母字符，例如问号“？”逗号“。”数字字符“500”，字母“a”，对于文本字符中的符号，显然不是我们需要纠错的对象，对于数字字符和字母字符，由于并不知道所述数字字符和字母字符在文本数据中是否存在错误，例如对于文本数据“我今天赚了500元。”显然难以判断“500”是否是一个正确数字，所以需要将文本数据中的符号、数字字符和字母字符在分词处理前滤除。

步骤S230，将所述待转换字符转换为拼音序列；

在该步骤中，可以根据汉字的ASCII码，将所述待转换字符转换为拼音序列。因为在计算机系统中，汉字是以ASCII码来表示的，只需要利用计算机系统中已有的或用户建立的每个拼音与每个ASCII码对应关系，即可实现将所述待转换字符转换成拼音序列。若所述待转换字符含有多音字，可以列出多音字的多个拼音，接收用户选择的正确拼音。或者，可以根据汉字的Unicode值将所述待转换字符转换为拼音序列。具体步骤如下：

(1)建立拼音-编号对照表，对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中。所有汉字的拼音不超过512个，可以用两个字节对拼音进行编号。每个拼音对应一个编号。

(2)建立Unicode值-拼音编号对照表，将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中。

(3)逐一读取所述待转换字符中的待转换汉字，确定所述待转换汉字的Unicode值，根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号，根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音，从而将所述待纠错中的每个汉字转换为拼音。

若所述待转换字符中含有多音字，可以在上述步骤(2)中将所述多音字对应的多个拼音的编号按照所述多音字的Unicode值添加到所述Unicode值-拼音编号对照表中，在上述(3)中确定所述多音字的Unicode值，根据所述多音字的Unicode值从所述Unicode值-拼音编号对照表中获取所述多音字对应的多个拼音的编号，根据所述多音字对应的多个拼音的编号从所述拼音-编号对照表获得所述多音字对应的多个拼音。可以接收用户从所述多个拼音中选择的正确拼音，将用户选择的拼音作为所述多音字在所述待转换字符中的正确拼音。

步骤S240，根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，其中，所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典；

在该步骤中，所述预设的多模匹配算法是基于事先收集好的正确字符对应的拼音构建的，无论待转换字符错误与否，当待转换字符的拼音序列与纠错词典中的正确字符的拼音序列匹配成功时，则将匹配成功的拼音序列转换为正确字符，从而能够根据所述预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符。

在现实生活中，对字符的纠错是分为两种情况，一种是对词语进行纠错，不论是在日常使用中还是在词典中，均不存在所述的待转换字符的词语形式，例如待转换字符“无能为立”，在日常使用以及词典均不存在这样的字符串，明显为错误字符，应该纠正为“无能为力”，出现这种情况需要利用已有的词语词典，一种是对词语所在句子的位置以及语境进行纠错，例如在保险的公司产品中，存在如“福保保”，“平安福”等产品名称，在日常使用的容易被用户通过输入法，或者通过语音识别系统输入为“福宝宝”、“平安符”等，由于此种情况的待转换字符在其他句子中并不需要进行纠错，所以在正常的应用中，我们需要对纠错词典所需要应用的领域进行分类，例如对于某些公司产品，可以构建对于公司产品名称专用的产品专名词典，对于某些日常交流时的错误字符，可以构建日常交流用的交流常错词典。

在该步骤中，可能存在所述纠错词典中有两个或多个正确字符的拼音序列相同的情况，需要将存在这种情况的拼音序列进行标记，当待转换字符的拼音序列与存在这种情况的拼音序列配对成功后，将拼音序列对应的两个或多个正确字符发送给业务人员进行人工选择纠错。

步骤S250，将所述正确字符替换所述文本数据中对应的待转换字符。

在该步骤中，所述对所述文本数据中的待转换字符进行替换，主要是通过寻找所述待转换字符在所述文本数据中的位置，将所述待转换字符删去，并在原有位置上加入纠错后的正确字符，例如，对于文本数据“我这几天感冒了可以投保平安符吗？”寻找到待转换字符的位子为字符“保”的后面，字符“吗”的前面，将待转换字符“平安符”进行删除，并将正确字符置于字符“保”的后面，字符“吗”的前面，达到正确字符替换待转换字符的效果，进而完成对文本数据的纠错。

进一步地，在本实施例中，对于所述纠错词典，具体是通过用户的聊天语料进行构建得到的，具体的构建过程如下：

收集所述聊天机器人中的聊天语料；

提取所述聊天语料中出现错误且被纠正的字符；

根据所述多模匹配算法的匹配原理，对从所述聊天语料中提取到的被纠正的字符对应的拼音特征进行搜索树的构建，得到所述纠错词典。

在该步骤中，对于所述聊天语料中出现错误且被纠正的字符的提取，主要是将观察聊天机器人的聊天时收集的聊天语料，并将所述聊天语料中的错误字符提取出来，并转化为正确字符，从而达到对正确字符收集的提取，当被纠正后得到的正确字符转换为拼音特征时，对于所述拼音特征，存在两种情况，一种是音节，一种是拼音字符，纠错词典能够根据实际需求，按照拼音特征的不同情况进行匹配，在本实施例中，搜索树构建的方式是以音节为拼音特征，例如对字符“福保保”的拼音序列“fubaobao”，其拼音特征若为音节，则拼音特征为“fu bao bao”，我们以纠错对象为公司产品名称为例，假设聊天语料中提取到的出现错误且被纠错的字符的集合为{平安福，平安福保，平安驾驶优保险，驾驶易保保，康寿安易驾保，康寿安保保}，则转换得到的拼音序列为{pinganfu，pinganfubao，pinganjiashiyoubaoxian，jiashiyibaobao，kangshouanyijiabao，kangshouanbaobao}，当构成纠错词典的拼音特征为音节时，根据出现错误且已纠错的字符的集合建立搜索树，如图3。

进一步地，在本发明实施例中，对于所述根据所述多模匹配算法的匹配原理，对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建，得到所述纠错词典，其具体实现可以为：

将所有字符对应的拼音特征进行路径化，得到路径特征；

提取所述路径特征中拼音的相同部分和不同部分，其中所述相同为至少存在两个连续的拼音特征相同；

基于相同部分创建一个主树干；

在本实施例中，通过对拼音特征路径化，可以得到不同的路径特征，例如对于拼音序列“pinganfubao”，对应的路径为图3中的最左边的路径；将路径特征中相同部分作为主树干，例如对于拼音序列“pinganfubao”和“pinganyjiashiyoubaoxian”，相同部分为“pingan”，对应图3的左间路径中的未分叉部分，将路径特征中的不同部分构建子树干，例如对于拼音序列“pinganfubao”和“pinganjiashiyoubaoxian”，不同部分为“fubao”和“jiashiyoubaoxian”，对应左间路径的不同分支，在主树干和子树干上存在若干节点，如图3的圆形部分，每个节点都包含一个拼音特征，需要注意的是，对于搜索树的起始节点，我们设定不含任何拼音特征，也就是说它的值为null也就是空值。

进一步地，对于步骤S220，其具体实现步骤可以是：

设置初始长度为一的可变长度的滑动窗口；

在该步骤中，对文本数据进行分词处理，主要是通过预设滑动窗口的方式，对文本数据进行滑动扫描并提取所述滑动窗口中包含的字符，所述预设滑动窗口为预设大小为1个字符，以1个字符为步长，对文本数据从左到右进行滑动扫描，每次滑动，获取所述滑动窗口范围内的字符，得到待转换字符。

在本实施例中，需要说明的是，由于所述滑动窗口为可变长滑动窗口，随着窗口迭代扫描，窗口的长度会不断加长，当窗口的长度大于构成纠错词典的错误且被纠错字符的长度时，扫描结束，例如在本实施例中，应用场景为公司产品名称，构建的纠错词典为公司专名词典，正确的字符为公司的产品名称，当扫描的窗口的长度大于所述公司产品名称中长度最长的产品名称时，显然窗口扫描出来的待转换字符比所述公司产品名称中长度最长的产品名称字符长，此时纠错词典已对文本数据中的错误字符进行纠错，再进行纠错将浪费时间成本。

进一步的，对于步骤S240，其具体实现步骤可以是：

利用所述多模匹配算法，查询所述纠错词典中以所述拼音序列开头的所有拼音序列对应的字符；

计算所述字符的长度，并从所述字符中选择长度最大的字符，得到第一纠错字符；

比较所述第一纠错字符和重新获取的待转换字符的相似度；

若所述相似度大于预设值，则将所述第一纠错字符选定为所述正确字符；

在本实施例中，所述查询所述纠错词典中以所述拼音序列开头的所有拼音序列对应的字符，可以搜索到纠错词典中同一起始字符的不同长度的正确字符，例如在公司产品中，以“平安”开头的公司产品名称中存在“平安福”和“平安福保保”，假设文本数据为“我这几天感冒了可以投保平安符保保吗？”若取短纠错，可能会将文本数据中的“平安符”和“保保”进行纠错为“平安福”和“宝宝”，若取长纠错，则直接将长字符“平安符保保”进行纠错为“平安福保保”，所以当匹配出多个同一起始字符的候选待转换字符时，需要计算所有候选待转换字符的长度，选择其中长度最长的字符为第一纠错字符。

进一步的，若所述节点为拼音特征中的一个音节时，所述利用所述多模匹配算法，查询所述纠错词典中包含所述拼音序列的所有字符的具体实现步骤，包括：

根据所述拼音特征，以及拼音特征与字符的对应关系，确定包含所述拼音序列的所有字符。

进一步地，对于所述根据所述音节序列，依次与所述纠错词典中的主树干和子树干上的节点进行匹配，得到对应的拼音特征，其具体实现可以为：

假设待转换字符对应的拼音序列为“pinganjiashiyibaobao”则匹配过程如图4中虚线所示，将输入的第一个音节与“ping”与所有主树干的第一个节点进行匹配，得到匹配的主树干为左侧主树干，并沿着匹配成功的主树干向下匹配，音节“an”匹配结束后，存在两个子树干，此时，将输入的音节与两个子树干上的第一个节点进行匹配，得到匹配的子树干为右侧子树干，当出现向下匹配失败时，则访问跳转表，所述跳转表包含当音节与节点匹配失败后，当前音节需要跳转到另一节点进行向下匹配的节点位置，例如拼音系列中的音节“shi”匹配成功后向下进行继续匹配失败，下一音节“yi”与下一节点“you”不匹配，则将音节shi”跳转到中间主树干上的“shi”节点，继续向下进行匹配，需要注意的是同时在路径中，每个拼音序列的最后一个字符所在的节点设定为终结节点，例如对于拼音序列“fubaobao”，当拼音特征为拼音字符时，终结节点为“o”所在节点，当拼音特征为音节时，终结节点为“bao”所在节点；当匹配过程中遇到终结节点，则表示所述拼音序列中存在以该终结节点为路径的正确字符，例如在上述的匹配过程中，匹配到了“jiashiyibaobao”中的终结节点“bao”，则表示拼音序列“pinganjiashiyibaobao”中存在字符“jiashiyibaobao”。

本发明能够针对不同的拼音特征进行搜索树的构建，对于本实施例中以拼音字符构建搜索树，具体实现过程如图5所示：

步骤S310，将正确字符对应的拼音字符进行路径化，得到拼音路径；

在本实施例中，以公司产品名称为例，假设正确字符为{福保保，平安福，平安移驾宝，康寿保，康安福}，对应的拼音字符为{fubaobao，pinganfu,pinganyijiabao,kangshoubao,kanganfu}。

步骤S320，提取所述拼音路径中拼音的相同部分和不同部分，其中所述相同部分为至少存在两个连续的拼音路径相同；

在本实施例中，对于拼音路径中的相同部分和不同部分，例如拼音路径“pinganfu”和“pinganyijiabao”的相同部分为“pingan”，不同部分为“fu”和“yijiabao”。

步骤S330，基于相同部分创建一个主树干；

步骤S340，在所述主树干的基础上，创建子树干，其中所述子树干为基于不同部分创建形成，得到所述搜索树形状的纠错词典；

在本实施例中，将相同部分作为搜索树的主树干，例如图5中拼音路径“pinganfu”和“pinganyijiabao”的相同部分为“pingan”作为中间的主树干，而不同部分为子树干，如图5中中间部分的分叉部分。

本实施例可通过事先观察聊天机器人的聊天语料中的字符错误，总结用户犯错趋势，基于观察到的错误字符对应的正确字符和正确字符对应的拼音序列构建纠错词典，将待纠错的文本数据输入到所述纠错词典中基于预设好的多模匹配算法进行匹配，对匹配成功的字符进行替换纠错处理，完成对待纠错文本数据中错误字符的纠错。本方法构建的纠错词典，通过预设的多模匹配算法，能够简单快速地实现对于存在错误字符的文本数据的纠错，错误率低，同时当出现新的错误字符时，只需要在纠错词典中建立新的正确字符与对应拼音序列的映射关系，方便维护的同时能够降低人工成本。

为了解决上述的问题，本发明实施例还提供了一种纠错装置，参照图6，图6为本发明实施例提供的纠错装置的功能模块的示意图。在本实施例中，该装置包括：

获取模块41，用于获取待纠错的文本数据，所述文本数据包括用户输入的文本信息和预设的文本模板；

分词模块42，用于对所述文本数据进行分词处理，得到待转换字符，其中所述待转换字符为单个中文字、词组和产品名称中的一种；

转换模块43，用于将所述待转换字符转换为拼音序列；

匹配模块44，用于根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，其中，所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典；

替换模块45，用于将所述正确字符替换所述文本数据中对应的待转换字符。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有纠错程序，所述纠错程序被处理器执行时实现如上述任一项实施例中所述的纠错方法的步骤。其中，纠错程序被处理器执行时所实现的方法可参照本发明纠错方法的各个实施例，因此不再过多赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种纠错方法，其特征在于，所述纠错方法包括以下步骤：

将所述待转换字符转换为拼音序列；

将所述正确字符替换所述文本数据中对应的待转换字符。

2.如权利要求1所述的纠错方法，其特征在于，所述纠错方法还包括：通过以下方式得到所述纠错词典：

收集所述聊天机器人中的聊天语料；

提取所述聊天语料中出现错误且被纠正的字符；

3.如权利要求2所述的纠错方法，其特征在于，所述根据所述多模匹配算法的匹配原理，对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建，得到所述纠错词典的步骤包括：

将所有字符对应的拼音特征进行路径化，得到路径特征；

基于相同部分创建一个主树干；

4.如权利要求1-3任一项所述的纠错方法，其特征在于，所述对所述文本数据进行分词处理，得到待转换字符的步骤包括：

设置初始长度为一的可变长度的滑动窗口；

5.如权利要求4所述的纠错方法，其特征在于，所述根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符的步骤包括：

比较所述第一纠错字符和重新获取的待转换字符的相似度；

6.如权利要求5所述的纠错方法，其特征在于，若所述节点为拼音特征中的一个音节时，所述利用所述多模匹配算法，查询所述纠错词典中包含所述拼音序列的所有字符的步骤包括：

7.如权利要求6所述的纠错方法，其特征在于，所述根据所述音节序列，依次与所述纠错词典中的主树干和子树干上的节点进行匹配，得到对应的拼音特征的步骤包括：

8.一种纠错装置，其特征在于，所述纠错装置包括：

转换模块，用于将所述待转换字符转换为拼音序列；

替换模块，用于将所述正确字符替换所述文本数据中对应的待转换字符。

9.一种纠错设备，其特征在于，所述纠错设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的纠错程序，所述纠错程序被所述处理器执行时实现如权利要求1-7中任一项所述的纠错方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有纠错程序，所述纠错程序被处理器执行时实现如权利要求1-7中任一项所述的纠错方法的步骤。