CN113836874A

CN113836874A - 文本纠错方法及装置

Info

Publication number: CN113836874A
Application number: CN202111089181.6A
Authority: CN
Inventors: 侯冉冉; 王文涛; 秦斌
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-24

Abstract

本公开涉及文本识别技术领域，具体涉及一种文本纠错方法及装置。一种文本纠错方法，包括：从文本序列中识别得到待纠错实体；根据所述待纠错实体，从目标知识库中确定预设数量的候选实体；根据所述待纠错实体与每个候选实体的相似度，对所述待纠错实体执行预设处理。本公开实施方式，提高文本纠错效率和准确性。

Description

文本纠错方法及装置

技术领域

本公开涉及文本识别技术领域，具体涉及一种文本纠错方法及装置。

背景技术

文本纠错主要用于识别文本中的错误片段并给出纠错后的正确文本，文本纠错在搜索任务、输入任务和OCR(Optical Character Recognition，光学字符识别)任务中具有广泛的应用。文本纠错的性能直接影响下游任务的效果，相关技术中，文本纠错系统的性能不佳，难以落地应用。

发明内容

为提高文本纠错准确性，本公开实施方式提供了一种文本纠错方法、装置、电子设备以及存储介质。

第一方面，本公开实施方式提供了一种文本纠错方法，包括：

从文本序列中识别得到待纠错实体；

根据所述待纠错实体，从目标知识库中确定预设数量的候选实体；

根据所述待纠错实体与每个所述候选实体的相似度，对所述待纠错实体执行预设处理。

在一些实施方式中，所述根据所述待纠错实体，从目标知识库中确定预设数量的候选实体，包括：

确定所述待纠错实体与所述目标知识库中的各个实体的第一相似度；

基于所述待纠错实体与所述各个实体的第一相似度由高到低排序，得到相似度序列；

确定所述相似度序列中前预设数量的第一相似度对应的实体为所述候选实体。

在一些实施方式中，所述根据所述待纠错实体与每个所述候选实体的相似度，对所述待纠错实体执行预设处理，包括：

确定所述待纠错实体与每个候选实体的第二相似度；

在至少一个候选实体对应的第二相似度不小于预设阈值的情况下，确定最大第二相似度对应的候选实体为目标实体；

根据所述目标实体对所述待纠错实体进行改写。

在一些实施方式中，所述确定所述待纠错实体与每个候选实体的第二相似度，包括：

对于任意一个候选实体，对所述待纠错实体进行特征提取得到第一语义特征，对所述候选实体进行特征提取得到第二语义特征；

根据所述第一语义特征和所述第二语义特征，得到所述待纠错实体与所述候选实体的所述第二相似度。

在一些实施方式中，所述根据所述待纠错实体与每个所述候选实体的相似度，对所述待纠错实体执行预设处理，还包括：

在每个候选实体的第二相似度均小于预设阈值的情况下，确定所述待纠错实体为正确实体。

在一些实施方式中，所述在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下，确定最大第二相似度对应的候选实体为目标实体，包括：

在至少一个候选实体的第二相似度不小于预设阈值的情况下，根据所述待纠错实体，从预设知识库中确定匹配实体；所述预设知识库不同于所述目标知识库；

在所述待纠错实体与所述匹配实体的匹配度不大于预设匹配度阈值的情况下，确定最大第二相似度对应的候选实体为目标实体；

和/或，

在所述待纠错实体与所述匹配实体的匹配度大于预设匹配度阈值的情况下，确定所述待纠错实体为正确实体。

在一些实施方式中，所述从文本序列中识别得到待纠错实体包括：将所述文本序列输入预先训练的文本识别网络，得到所述文本识别网络输出的所述待纠错实体。

在一些实施方式中，所述根据所述待纠错实体与每个候选实体的相似度，对所述待纠错实体执行预设处理，包括：

对于每个候选实体，将所述待纠错实体和所述候选实体输入预先训练的语义匹配网络，得到所述语义匹配网络输出的所述待纠错实体与每个候选实体的相似度。

在一些实施方式中，在所述从文本序列中识别得到待纠错实体之前，所述方法还包括：

获取通过麦克风拾取的音频信息；

根据所述音频信息处理到所述文本序列。

在一些实施方式中，所述待纠错实体为视频名称，所述目标知识库为视频库。

第二方面，本公开实施方式提供了一种文本纠错装置，包括：

文本识别模块，被配置为从文本序列中识别得到待纠错实体；

索引模块，被配置为根据所述待纠错实体，从目标知识库中确定预设数量的候选实体；

文本纠错模块，被配置为根据所述待纠错实体与每个所述候选实体的相似度，对所述待纠错实体执行预设处理。

在一些实施方式中，所述索引模块具体被配置为：

在一些实施方式中，所述文本纠错模块具体被配置为：

确定所述待纠错实体与每个候选实体的第二相似度；

根据所述目标实体对所述待纠错实体进行改写。

在一些实施方式中，所述文本纠错模块具体被配置为：

和/或，

在一些实施方式中，所述文本识别模块具体被配置为将所述文本序列输入预先训练的文本识别网络，得到所述文本识别网络输出的所述待纠错实体。

在一些实施方式中，所述文本纠错模块具体被配置为对于每个候选实体，将所述待纠错实体和所述候选实体输入预先训练的语义匹配网络，得到所述语义匹配网络输出的所述待纠错实体与每个候选实体的相似度。

在一些实施方式中，本公开实施方式的文本纠错装置，还包括：

获取模块，被配置为获取通过麦克风拾取的音频信息；

处理模块，被配置为根据所述音频信息处理到所述文本序列。

第三方面，本公开实施方式提供了一种电子设备，包括：

处理器；以及

存储器，存储有能够被所述处理器读取的计算机指令，当所述计算机指令被读取时，所述处理器执行根据第一方面任一实施方式所述的方法。

第四方面，本公开实施方式提供了一种存储介质，用于存储计算机可读指令，所述计算机可读指令用于使计算机执行根据第一方面任一实施方式所述的方法。

本公开实施方式提供的文本纠错方法，包括从文本序列中识别得到待纠错实体，根据待纠错实体从目标知识库中确定预设数量的候选实体，根据待纠错实体与每个候选实体的相似度，对待纠错实体执行预设处理。本公开实施方式中，可以基于目标知识库中包括的实体辅助对文本序列的纠错识别，提高人机对话场景的识别准确性。并且，利用粗搜结合精搜的方式对待纠错实体进行纠错处理，提高文本纠错效率和准确性，而且，由于对待纠错实体的识别不依赖于字维度的纠错，更利于语音交互等人机对话场景，提高下游任务效果，提高用户体验。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施方式中文本纠错方法的流程图。

图2是根据本公开一些实施方式中文本纠错方法的流程图。

图3是根据本公开一些实施方式中文本纠错方法的流程图。

图4是根据本公开一些实施方式中文本纠错方法的流程图。

图5是根据本公开一些实施方式中文本纠错方法的流程图。

图6是根据本公开一些实施方式中文本纠错方法的原理图。

图7是根据本公开一些实施方式中文本纠错方法的流程图。

图8是根据本公开一些实施方式中文本纠错方法的流程图。

图9是根据本公开一些实施方式中文本纠错方法的流程图。

图10是根据本公开一些实施方式中文本纠错装置结构框图。

图11是根据本公开一些实施方式中文本纠错装置结构框图。

图12是适于实现本公开文本纠错方法的电子设备结构框图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

文本纠错任务是NLP(Natural Language Processing，自然语言处理)领域中一项极具挑战性的工作。文本纠错技术主要用于识别文本序列中的错误片段，并给出纠错后的正确文本。相关技术中，基于深度学习网络的文本纠错方案中，一般都是基于encoder-decoder(编码-解码)架构进行的字维度纠错，在实际使用中要求输入和输出序列的文本长度等长，导致对于例如人机对话等场景识别和纠错的精度很低，难以落地应用。

以智能语音电视的人机对话场景为例，用户的主要需求在于通过电视上的智能语音助手进行视频名称点播，但是由于麦克风截断错误、环境噪声干扰、用户口语化表述等影响因素，识别出的用户对话中经常会出现文本识别错误。例如一个示例中，识别出文本为“播放点击里的中国”，对应的正确文本为“播放典籍里的中国”；例如另一个示例中，识别出文本为“我要看巴啦啦小”，对应的正确文本为“我要看巴啦啦小魔仙”；例如又一个示例中，识别出文本为“播放不要打扰我学习”，对应的正确文本为“播放别想打扰我学习”。

对于上述示例中视频点播的人机对话场景，仅在字维度进行文本错误序列的识别和纠错，难以识别出由于语音截断、口语化等原因导致的视频名称错误，从而难以实现文本序列的准确识别和纠错，导致下游视频检索任务的效果不佳，需要用户反复纠正发音或调整语音表述，降低用户使用体验。

基于上述相关技术中存在的缺陷，本公开实施方式提供了文本纠错方法、装置、电子设备以及存储介质，旨在提高文本纠错的准确性。

第一方面，本公开实施方式提供了一种文本纠错方法，该方法可应用于电子设备。本公开实施方式中，电子设备可以是任何适于实施的设备类型，例如智能电视、智能音响等智能家电，又例如智能手机、平板电脑等移动终端，再例如智能手表、智能手环等穿戴式设备，还例如笔记本电脑、个人PC(Personal Computer，个人计算机)等桌面式终端，本公开对此不作限制。

如图1所示，在一些实施方式中，本公开示例的文本纠错方法包括：

S110、从文本序列中识别得到待纠错实体。

文本序列表示期望进行文本纠错的输入文本数据，待纠错实体表示文本序列中可能存在文本错误的实体。

在一些实施方式中，文本序列可以由用户输入得到。或者，在另一些实施方式中，文本序列也可以根据用户语音信息识别得到。本公开对此不作限制。

可以理解，在NLP领域，实体(mention)可指文本序列中的任意主体，例如人名、地名、机构名称、视频名称、歌曲名称等。在本公开实施方式中，可基于实体识别技术由文本序列中识别得到待纠错实体。

在一些实施方式中，以多媒体点播的人机对话场景为例，文本序列对应的文本为“播放我和我的祖国”，其中，“我和我的祖国”即为从文本序列中识别出的待纠错实体。

对于实体识别，在一些示例性的实施中，可采用基于transformer架构的BERT、ALBERT或者ERNIE网络，对文本序列中的待纠错实体进行实体识别。

S120、根据待纠错实体，从目标知识库中确定预设数量的候选实体。

本公开实施方式中，在识别得到待纠错实体之后，并非对待纠错实体的文本序列进行字维度的纠错改写，而是从目标知识库中确定预设数量的候选实体。

目标知识库指包括大量链接实体的数据库，目标知识库可以是预先建立的知识库，也可以是获取的已有知识库，本公开对此不作限制。

在一些实施方式中，目标知识库可以是与待纠错实体类型对应的数据库，从而提高候选实体的检索效率和准确性。举例来说，对于视频点播的人机对话场景，待纠错实体往往为视频名称，从而目标知识库可以是视频知识库。又例如，对于音频播放的人机对话场景，待纠错实体往往为歌名、书名等，从而目标知识库即可以是音频知识库。当然可以理解，目标知识库也可以是其他类型的知识库，本公开对此不作限制。

在本公开实施方式中，可根据待纠错实体与目标知识库中的各个实体之间的相似度，从目标知识库中确定预设数量的候选实体。候选实体表示目标知识库中与待纠错实体最为相似的实体，在待纠错实体为错误文本的情况下，对应的正确文本最有可能存在于候选实体中。

对于确定候选实体的过程，本公开下文中进行详细说明，在此暂不详述。

S130、根据待纠错实体与每个候选实体的相似度，对待纠错实体执行预设处理。

可以理解，文本序列中的待纠错实体可能是正确文本，也可能是错误文本。本公开实施方式中，计算待纠错实体与每个候选实体的相似度，根据相似度确定待纠错实体是否为错误文本。

若待纠错实体为错误文本，表示文本序列中的待纠错实体需要进行纠错改写，从而基于待纠错实体与候选实体的相似度，由预设数量的候选实体中确定目标实体对原有的待纠错实体进行改写替换。

若待纠错实体为正确文本，表示文本序列中的待纠错实体无需进行纠错改写，直接将原有的文本序列输出给下游任务即可。

通过上述可知，本公开实施方式中，基于知识库实体辅助对文本序列的纠错识别，提高人机对话场景的识别准确性。并且，利用粗搜由目标知识库中快速确定候选实体，然后结合精搜的方式对待纠错实体进行纠错处理，提高文本纠错效率和准确性。而且，由于对待纠错实体的识别不依赖于字维度的纠错，更利于语音交互等人机对话场景，提高下游任务效果，提高用户体验。

在一些实施方式中，可通过索引模块确定待纠错实体与目标知识库中各个实体的相似度，由目标知识库中确定候选实体。下面结合图2实施方式进行说明。

如图2所示，在一些实施方式中，本公开示例的文本纠错方法，从目标知识库中确定预设数量的候选实体的过程，包括：

S121、确定待纠错实体与目标知识库中的各个实体的第一相似度。

S122、基于待纠错实体与各个实体的第一相似度由高到低排序，得到相似度序列。

S123、确定相似度序列中前预设数量的第一相似度对应的实体为候选实体。

本公开实施方式中，可通过索引模块对目标知识库进行粗搜，由目标知识库中确定预设数量的候选实体。

在一些实施方式中，索引模块可以是基于Lucene架构的Elasticsearch搜索模块，也可以是基于Lucene架构的oakbay搜索模块，或者Faiss索引模块等，本公开对此不作限制。并且，对于索引模块的具体实现，本领域技术人员基于相关技术可以理解并充分实施，本公开不再赘述。

值得说明的是，索引模块的目的是从知识库中快速召回与待纠错实体在文本上具备相似度的实体，本公开实施方式中，利用其高速检索的优点，对目标知识库进行粗搜索，得到预设数量的候选实体。

具体来说，索引模块可根据待纠错实体与目标知识库中各个实体在文本上的相似度，确定待纠错实体与每个实体的第一相似度。可以理解，第一相似度表示待纠错实体与目标知识库中实体的文本相似度，第一相似度越高，表示待纠错实体与目标知识库中实体的相似程度越高，反之则相反。

从而，可对第一相似度进行由高到低排序，将排序靠前的预设数量的第一相似度对应的实体确定为候选实体。例如一个示例性实施中，索引模块可对第一相似度进行由高到低的倒序排列，然后将排序靠前的10个第一相似度对应的实体确定为候选实体。

可以理解，对于候选实体的数量，本领域技术人员可以根据具体场景需求进行选择，并不局限于上述示例。同样可以理解，候选实体数量越多，后续对待纠错实体进行纠错识别的效果越好，但是计算效率越低。反之，候选实体数量越少，后续对待纠错实体识别时计算效率越高，但是候选实体存在遗漏的风险也越大，导致对待纠错实体进行纠错识别的效果变差。本领域技术人员可以据此选择合适的候选实体数量，本公开对此不作限制

通过上述可知，本公开实施方式中，利用索引模块从目标知识库中快速检索处与待纠错实体相匹配的候选实体，提高文本纠错效率和效果。

在一些实施方式中，如前所述，文本序列中的待纠错文本可能是正确文本，也可能是错误文本。在本公开实施方式中，可通过匹配模块基于待纠错实体与候选实体的相似度，确定待纠错文本是否为错误文本。下面结合图3进行具体说明。

如图3所示，在一些实施方式中，本公开示例的文本纠错方法，对待纠错实体进行预设处理的过程包括：

S310、确定待纠错实体与每个候选实体的第二相似度。

S320、在至少一个候选实体对应的第二相似度不小于预设阈值的情况下，确定最大第二相似度对应的候选实体为目标实体。

S330、根据目标实体对待纠错实体进行改写。

在确定预设数量的候选实体之后，匹配模块可根据待纠错实体与候选实体语义相似度，确定待纠错实体与每个候选实体的第二相似度。

匹配模块的目的是根据待纠错实体与候选实体的语义、热度等特征，对待纠错实体和候选实体进行更为精确的相似度计算。在一些实施方式中，匹配模块可以采用基于深度语义的机器学习网络，例如LSTM(Long Short-Term Memory，长短时记忆)网络、双向LSTM网络等，本公开对此不作限制。

如图4所示，在一些实施方式中，本公开示例的文本纠错方法，确定待纠错实体与候选实体的第二相似度的过程，包括：

S311、对于任意一个候选实体，对待纠错实体进行特征提取得到第一语义特征，对候选实体进行特征提取得到第二语义特征。

S312、根据第一语义特征和第二语义特征，得到待纠错实体与候选实体的第二相似度。

以任意一个候选实体为例，匹配模块可通过例如卷积处理等方式，提取待纠错实体序列的语义特征和候选实体的语义特征，分别为第一语义特征和第二语义特征。然后根据第一语义特征和第二语义特征的相似度，得到待纠错实体与候选实体的第二相似度。

在一些实施方式中，匹配模块以双向LSTM神经网络为例，可将待纠错实体和候选实体的序列输入匹配模块进行编码，得到第一语义特征和第二语义特征。然后计算两者语义特征的第二相似度，表示为：

R(Q,D)＝||y_Q-y_D||

式中，y_Q表示待纠错实体的第一语义特征，y_D表示候选实体的第二语义特征，R(Q,D)表示待纠错实体与候选实体的第二相似度。在匹配模块的输出层可采用softmax激活函数计算待纠错实体与候选实体的相似度分值，也即第二相似度。

基于上述过程，可以得到每个候选实体对应的第二相似度，第二相似度越高，表示候选实体与待纠错实体的语义相似度越高，反之则相反。

结合前述可知，候选实体表示索引模块通过粗搜索由目标知识库中索引得到的实体，文本序列中的待纠错实体与候选实体的第二相似度越高，表示文本序列中的待纠错实体越有可能与候选实体表示的是同一实体。

举例来说，在一个示例中，文本序列表示的文本为“播放点击里的中国”，待纠错实体为“点击里的中国”。若待纠错实体与目标知识库中确定的候选实体“典籍里的中国”的第二相似度很高，表示文本序列中的待纠错实体与“典籍里的中国”应当为同一实体，也即需要对待纠错实体进行纠错改写。

从而，可针对第二相似度设置预设阈值，当预设数量的候选实体对应的第二相似度中，存在不小于预设阈值的第二相似度，则表示待纠错实体为错误实体，需要进行纠错改写。当预设数量的候选实体对应的第二相似度均小于预设阈值，则表示待纠错实体为正确实体，无需进行纠错改写。

在一些实施方式中，响应于至少一个候选实体的第二相似度不小于预设阈值，表示待纠错实体为错误实体，需要进行纠错改写。但是，第二相似度不小于预设阈值的候选实体可能存在多个，在此情况下，可将多个第二相似度不小于预设阈值的候选实体中，第二相似度最大的候选实体确定为目标实体，然后可利用目标实体对待纠错实体进行替换改写。

举例来说，在上述示例中，待纠错实体为“点击里的中国”，第二相似度超过预设阈值的候选实体包括“典籍里的中国”、“故事里的中国”以及“乡村里的中国”，从而可将第二相似度最大的候选实体“典籍里的中国”确定为目标实体，利用目标实体“典籍里的中国”对待纠错实体“点击里的中国”进行替换改写。

在一些实施方式中，响应于每个候选实体的第二相似度均小于预设阈值，确定待纠错实体为正确实体。也即，目标知识库中不存在相似度满足条件的候选实体，文本序列中的待纠错实体为正确实体，无需进行纠错。

在一些实施方式中，预设阈值可以根据具体的场景需求进行设置，例如在一些示例中，预设阈值可以为0.6，当候选实体对应的第二相似度大于0.6时，表示待纠错实体为错误实体，需要进行纠错改写。反之则为正确实体，无需纠错改写。

通过上述可知，本公开实施方式中，利用索引模块由目标知识库中快速检索出与待纠错实体相匹配的候选实体，然后基于深度语义特征精确计算待纠错实体与候选实体的相似度，利用粗搜结合精搜的方式提高文本纠错效率和准确性。

在一些实施方式中，为进一步提高对待纠错文本的纠错识别精度，本公开实施方式还结合其他知识库对确定为错误实体的待纠错文本进一步判断。下面结合图5实施方式进行说明。

如图5所示，在一些实施方式中，本公开示例的文本纠错方法，还包括：

S510、在至少一个候选实体的第二相似度不小于预设阈值的情况下，根据待纠错实体由预设知识库中确定匹配实体。

S520、在待纠错实体与匹配实体的匹配度不大于预设匹配度阈值的情况下，确定最大第二相似度对应的候选实体为目标实体。

S530、在待纠错实体与匹配实体的匹配度大于预设匹配度阈值的情况下，确定待纠错实体为正确实体。

举例来说，以视频播放的人机对话场景为例，用户输入的文本序列为“打开我的足球世界”，待纠错实体即为“我的足球世界”，且待纠错实体对应的为电子书《我的足球世界》。若通过前述的文本纠错方法，确定候选实体“足球的世界”的第二相似度大于预设阈值，且候选实体《足球的世界》为电影。

在一些实施方式中，在此情况下，并非直接确定待纠错实体“我的足球世界”为错误实体、利用候选实体“足球的世界”对其进行纠错改写。而是将待纠错实体与预设知识库中的实体进行匹配。

预设知识库为不同于目标知识库的实体库。例如，目标知识库为视频知识库，而预设知识库可以包括电子书、音乐、游戏等类型的知识库。上述示例中，通过在预设知识库中匹配到电子书实体“我的足球世界”，从而可以确定文本序列中的待纠错实体指的是电子书实体，也即待纠错实体为正确文本，无需进行纠错改写。

具体来说，基于前述图3实施方式，在确定多个候选实体对应的第二相似度中，存在至少一个候选实体的第二相似度不小于预设阈值的情况下，可以根据待纠错实体由不同于目标知识库的预设知识库中进行实体匹配，得到满足匹配要求的匹配实体。例如，采用前述图2所示方式，由预设知识库中确定若干数量的匹配实体。

在得到多个匹配实体之后，可基于待纠错实体与匹配实体的匹配度设置预设匹配度阈值。预设匹配度阈值表示待纠错实体与匹配实体关联的门限值，对于任意一个匹配实体，当待纠错实体与匹配实体的匹配度不大于该预设匹配度阈值，表示待纠错实体不属于预设知识库中的实体，也即可以确定待纠错实体为错误实体，从而利用前述图3所示的实施方式对其进行纠错改写。而当待纠错实体与匹配实体的匹配度大于该预设匹配度阈值，表示待纠错实体为预设知识库中的实体，也即可以确定待纠错实体为正确实体，无需进行纠错改写。

如上文示例所述，待纠错实体“我的足球世界”在电子书知识库中确定其与匹配实体“电子书《我的足球世界》”为同一实体，从而无需利用候选实体“足球的世界”对其进行纠错改写。

当然，可以理解，预设知识库不局限于上述示例的电子书知识库，其还可以是其他任何适于实施的类型，例如游戏知识库、音乐知识库等，本公开对此不作限制。

通过上述可知，本公开实施方式中，利用不同于目标知识库的预设知识库对待纠错实体进行识别，进一步提高文本纠错的准确性，避免对文本序列的过度纠错，提高鲁棒性。

在一些实施方式中，本公开示例的文本纠错方法可采用文本纠错网络实现，图6中示出了本公开一些实施方式中文本纠错网络的结构原理图，下面结合图6进行具体说明。

如图6所示，在一些实施方式中，文本纠错网络包括文本识别网络100、索引模块200以及语义匹配网络300。

文本识别网络100用于识别文本序列中的待纠错实体，其输入可以是文本序列，输出为待纠错实体对应的序列片段。在一些实施方式中，文本识别网络100可以采用12层的Bert-base神经网络结构，并且可在原有网络结构的token级输出上增加CRF层提高对待纠错实体序列片段的标注效果。

在图6示例中，文本序列对应的文本为“我想看一家人的名义”，文本识别网络100的输入即为该文本序列，输出为待纠错实体“一家人的名义”对应的序列片段。

索引模块200用于根据文本识别网络100输出的待纠错实体的序列片段，由目标知识库中确定预设数量的候选实体。在一些实施方式中，索引模块可以是基于Lucene架构的Elasticsearch搜索模块，也可以是基于Lucene架构的oakbay搜索模块，或者Faiss索引模块等，本公开对此不作限制。

在图6示例中，索引模块200由视频知识库中确定的与待纠错实体“一家人的名义”第一相似度排序最高的三个候选实体分别为“以家人的名义”、“人民的名义”、“幸福一家人”。

语义匹配网络300用于确定待纠错实体与各个候选实体的第二相似度，其输入是待纠错实体和候选实体，输出为第二相似度。在图6实施方式中，语义匹配网络300采用双向LSTM网络，其可以提取待纠错实体和候选实体的深度语义特征，并根据两者的深度语义特征利用softmax激活函数最终输出待纠错实体与候选实体的第二相似度。

在图6示例中，语义匹配网络300输出的候选实体“以家人的名义”对应的第二相似度分值为0.76，候选实体“人民的名义”对应的第二相似度分值为0.45，候选实体“幸福一家人”对应的第二相似度分值为0.25。

在本示例中，可预先设置预设阈值为0.6，其中候选实体“以家人的名义”对应的第二相似度0.76大于预设阈值0.6，从而可确定待纠错实体“一家人的名义”为错误实体，同时确定候选实体“以家人的名义”为目标实体。然后利用目标实体“以家人的名义”对待纠错实体“一家人的名义”进行纠错改写，得到纠错后的文本序列为“我想看以家人的名义”。

在一些实施方式中，在得到改写后的文本序列之后，可将改写后的文本序列“我想看以家人的名义”输出至下游任务。例如以视频播放场景为例，下游检索任务即可根据改写实体“以家人的名义”检索并播放视频《以家人的名义》。

通过上述可知，本公开实施方式中，利用索引模块和语义匹配网络实现粗搜结合精搜的待纠错实体的纠错识别，提高文本纠错的效率和精度，并且利用双向LSTM的语义匹配网络进行深度语义特征匹配，提高文本纠错的准确性。并且文本识别网络与语义匹配网络互相解耦，两者可以分别进行训练，提高网络训练和维护效率。

在一些实施方式中，在图6示例的文本纠错网络结构基础上，本公开文本纠错方法还包括对网络训练的过程。

在本公开实施方式中，可分别对文本识别网络100和语义匹配网络300进行网络训练。如图7所示，对文本识别网络100的训练过程可包括：

S710、获取训练样本数据。

S720、将样本数据输入未训练的文本识别网络，得到文本识别网络输出的输出结果。

S730、根据输出结果与样本数据的标签之间的差异，对文本识别网络的网络参数进行调整，直至满足收敛条件，得到训练后的文本识别网络。

具体来说，在一些实施方式中，对于样本数据的获取，可通过对用户历史人机对话数据进行数据清洗，挖掘得到具有实体检索意图的文本生成样本数据。同时可通过人工标注或者自动标注的方式，对样本数据的文本序列中的实体片段进行标注，作为样本数据对应的标签。在一个示例性的实施中，样本数据的数据量大约为25万。

将样本数据输入未训练的文本识别网络，可以得到文本识别网络预测输出的待纠错实体对应的序列片段，也即输出结果。输出结果表示文本识别网络的预测值，而标签表示人工标注的真实值，通过损失函数得到输出结果与标签之间的差异，差异越小表示文本识别网络预测效果越好。从而可根据差异不断调整文本识别网络的网络参数，直至网络满足收敛条件，停止对文本识别网络的迭代训练，得到训练后的文本识别网络。

如图8所示，对语义匹配网络300的训练过程可包括：

S810、获取训练样本数据。

S820、将样本数据输入未训练的语义匹配网络，得到语义匹配网络输出的输出结果。

S730、根据输出结果与样本数据的标签之间的差异，对语义匹配网络的网络参数进行调整，直至满足收敛条件，得到训练后的语义匹配网络。

具体来说，在一些实施方式中，对于样本数据的获取，可以采用基于实体名称索引结果进行纠错后的高点击实体名称作为正样本，采用纠错后低点击实体名称作为负样本，通过人工标注得到对应的标签。在一些实施方式中，样本数据的数据量大约为20万，正负样本比例约为3:7。

样本数据包括待纠错实体和候选实体，将样本数据输入未训练的语义匹配网络，可以得到语义匹配网络预测输出的输出结果。输出结果表示语义匹配网络预测值，而标签表示人工标注的真实值，通过损失函数得到输出结果与标签之间的差异，差异越小表示语义匹配网络预测效果越好。从而可根据差异不断调整语义匹配网络的网络参数，直至网络满足收敛条件，停止对语义匹配网络的迭代训练，得到训练后的语义匹配网络。

在一些实施方式中，在分别对文本识别网络100和语义匹配网络300训练完成之后，还可以对文本识别网络100和语义匹配网络300进行联合训练。本领域技术人员对此可以理解并充分实施，本公开对此不作限制。

在一个示例性的实施中，在上述图6所示网络架构的基础上，基于视频播放的人机对话场景，通过和已有方案的复现对比，本公开实施方式方案可以达到更高的文本纠错准确率。在人工标注的测试集上，视频名称纠错的召回率可以达到91％以上，纠错准确的可以达到90％以上。对线上的实际纠错数据进行人工抽样评测，对视频名称的文本纠错准确性也能达到88％以上，完全可以满足实际人机对话场景，实现应用落地。

在一些实施方式中，本公开示例的文本纠错方法可应用于智能电视，智能电视上设有麦克风或者遥控器上设有麦克风，从而可拾取用户语音，对用户语音转换后得到文本序列。下面结合图9实施方式进行说明。

如图9所示，在一些实施方式中，本公开示例的文本纠错方法，获取文本序列的过程包括：

S910、获取通过麦克风拾取的音频信息。

S920、根据音频信息处理得到文本序列。

具体来说，以智能电视为例，可在电视和/或遥控器上设置麦克风，从而可以拾取得到用户的音频信息。

例如，用户可唤醒电视的智能语音助手，并说出“播放典籍里的中国”。从而电视通过麦克风可以获取到用户的音频信息，然后通过对音频信息进行处理，将音频信息转换为文本序列。

可以理解，受限于噪声干扰、口语化表述、拾音截断等各种因素，转换后的文本序列可能存在实体错误，例如转换后的文本序列为“播放点击里的中国”。从而可通过本公开上述实施方式中的文本纠错方法的过程，实现对文本序列中的视频名称进行纠错改写，得到正确的视频实体并进行检索播放。整个过程用户无感知，提高用户体验。

当然，本公开实施方式的文本纠错方法也可以应用于其他任何适于实施的场景，并不局限于上述的人机对话场景，例如OCR识别、搜索任务等，本公开对此不作限制。

通过上述可知，本公开实施方式中，基于知识库实体对文本序列进行纠错识别，提高人机对话场景的识别准确性。并且，利用粗搜由目标知识库中快速确定候选实体，然后结合精搜的方式对待纠错实体进行纠错处理，提高文本纠错效率和准确性。而且，由于对待纠错实体的识别不依赖于字维度的纠错，更利于语音交互等人机对话场景，提高下游任务效果，提高用户体验。

第二方面，本公开实施方式提供了一种文本纠错装置，该装置可应用于电子设备。本公开实施方式中，电子设备可以是任何适于实施的设备类型，例如智能电视、智能音响等智能家电，又例如智能手机、平板电脑等移动终端，再例如智能手表、智能手环等穿戴式设备，还例如笔记本电脑、个人PC(Personal Computer，个人计算机)等桌面式终端，本公开对此不作限制。

如图10所示，在一些实施方式中，本公开示例的文本纠错装置包括：

文本识别模块10，被配置为从文本序列中识别得到待纠错实体；

索引模块200，被配置为根据所述待纠错实体，从目标知识库中确定预设数量的候选实体；

文本纠错模块30，被配置为根据所述待纠错实体与每个候选实体的相似度，对所述待纠错实体执行预设处理。

在一些实施方式中，所述索引模块200具体被配置为：

在一些实施方式中，所述文本纠错模块30具体被配置为：

确定所述待纠错实体与每个候选实体的第二相似度；

根据所述目标实体对所述待纠错实体进行改写。

在一些实施方式中，所述文本纠错模块30具体被配置为：

和/或，

在一些实施方式中，所述文本识别模块10具体被配置为将所述文本序列输入预先训练的文本识别网络，得到所述文本识别网络输出的所述待纠错实体。

在一些实施方式中，所述文本纠错模块30具体被配置为对于每个候选实体，将所述待纠错实体和所述候选实体输入预先训练的语义匹配网络，得到所述语义匹配网络输出的所述待纠错实体与每个候选实体的相似度。

如图11所示，在一些实施方式中，本公开实施方式的文本纠错装置，还包括：

获取模块40，被配置为获取通过麦克风拾取的音频信息；

处理模块50，被配置为根据所述音频信息处理到所述文本序列。

第三方面，本公开实施方式提供了一种电子设备，包括：

处理器；以及

具体而言，图12示出了适于用来实现本公开方法的电子设备600的结构示意图，通过图12所示电子设备，可实现上述处理器及存储介质相应功能。

如图12所示，电子设备600包括处理器601，其可以根据存储在存储器602中的程序或者从存储部分608加载到存储器602中的程序而执行各种适当的动作和处理。在存储器602中，还存储有电子设备600操作所需的各种程序和数据。处理器601和存储器602通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施方式，上文方法过程可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

显然，上述实施方式仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

Claims

1.一种文本纠错方法，其特征在于，包括：

从文本序列中识别得到待纠错实体；

2.根据权利要求1所述的方法，其特征在于，所述根据所述待纠错实体，从目标知识库中确定预设数量的候选实体，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述待纠错实体与每个所述候选实体的相似度，对所述待纠错实体执行预设处理，包括：

确定所述待纠错实体与每个候选实体的第二相似度；

在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下，确定最大第二相似度对应的候选实体为目标实体；

根据所述目标实体对所述待纠错实体进行改写。

4.根据权利要求3所述的方法，其特征在于，所述确定所述待纠错实体与每个候选实体的第二相似度，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述待纠错实体与每个所述候选实体的相似度，对所述待纠错实体执行预设处理，还包括：

6.根据权利要求3所述的方法，其特征在于，所述在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下，确定最大第二相似度对应的候选实体为目标实体，包括：

和/或，

7.根据权利要求1所述的方法，其特征在于，

所述从文本序列中识别得到待纠错实体包括：将所述文本序列输入预先训练的文本识别网络，得到所述文本识别网络输出的所述待纠错实体；

和/或，

所述根据所述待纠错实体与每个候选实体的相似度，对所述待纠错实体执行预设处理，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，在所述从文本序列中识别得到待纠错实体之前，所述方法还包括：

获取通过麦克风拾取的音频信息；

根据所述音频信息处理到所述文本序列。

9.根据权利要求1至7任一项所述的方法，其特征在于，

所述待纠错实体为视频名称，所述目标知识库为视频库。

10.一种文本纠错装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，存储有能够被所述处理器读取的计算机指令，当所述计算机指令被读取时，所述处理器执行根据权利要求1至9任一项所述的方法。

12.一种存储介质，其特征在于，用于存储计算机可读指令，所述计算机可读指令用于使计算机执行根据权利要求1至9任一项所述的方法。