CN110750959A

CN110750959A - 文本信息处理的方法、模型训练的方法以及相关装置

Info

Publication number: CN110750959A
Application number: CN201911028687.9A
Authority: CN
Inventors: 何蕾
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-04
Anticipated expiration: 2039-10-28
Also published as: CN110750959B

Abstract

本申请实施例提供一种文本信息处理的方法、模型训练的方法以及相关装置。本申请实施例通过序列标注模型计算出待标注文本信息所对应的文本序列，若文本序列中有目标元素，说明待标注文本信息中有错别词语，该错别词语也可以称为第一词语，然后确定目标元素对应的第二词语，最后将待标注文本信息中的第一词语替换为该第二词语，这样可以实现错别词语的替换。并且，第二词语需要根据关联词库和待替换词语确定，因此本申请实施例可以保证第二词语的替换效果，不会将第一词语替换为没有关联的其他词语，避免了语句不通的情况。

Description

文本信息处理的方法、模型训练的方法以及相关装置

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种文本信息处理的方法、模型训练的方法以及相关装置。

背景技术

随着现代科技的发展，网络媒体和自媒体蓬勃发展，这些媒体发布有数量众多、内容庞杂的文章，如何自动识别文章中的错别字，辅助判断文章质量，是一项重要而又耗时耗力的工作。和英文相比，汉语表达丰富多样，文法句法结构灵活多变，出错的原因也是千差万别：有浅层的拼写错误，例如谐音错误、形似错误；也有深层的语法错误，例如介词误用、搭配不当，更有难以捕捉的专名误写和逻辑错误，大大增加了中文纠错的难度，使得中文纠错面临的问题更加具有挑战性。

当前中文纠错一般包括两个任务，一个是错别字识别任务，另一个是错别字改正任务。错别字识别任务通常采用序列标注模型，对线性输入序列中的每个元素预测标签集合中的某个标签，本质上是对每个元素根据上下文进行分类，常用的基于深度神经网络的序列标注模型主要有双向长短记忆网络(bi-long short-term memory，Bi-LSTM)模型和长短记忆网络-条件随机场(long short-term memory-conditional random field，LSTM-CRF)模型。错别字改正任务现有的主要解决方法是基于端到端的神经网络生成模型(Seq2Seq模型)，将中文纠错视为机器翻译的过程，即错误句子翻译为正确句子。生成模型使用编码-解码(encoder-decoder)框架结构解决由源序列转换为目标序列的问题，使用一个循环神经网络模型(encoder)将输入句子表示为一个向量，再使用另一个循环神经网络模型(decoder)解码这个向量获取目标序列。

然而，上述的模型生成的目标序列往往包含大量重复片段和语句不通的情况。例如，输入句子为“在/与/韩国队/的/金牌/争夺战/中/…”，模型产生的目标输出为“在/与/韩国队/的/金牌/金牌/中…”。

发明内容

本申请实施例提供了一种文本信息处理的方法、模型训练的方法以及相关装置，用于可以保证中文纠错的替换效果，不会将词语替换为没有关联的其他词语，避免了语句不通的情况。

为达上述目的，第一方面，本申请实施例提供了一种文本信息处理的方法，包括：

获取待标注文本信息，其中，所述待标注文本信息包括至少一个词语；

通过序列标注模型获取所述待标注文本信息所对应的文本序列，所述序列标注模型包括双向编码表示的变换器模型BERT模型以及全连接层；

若所述文本序列中包括目标元素，则通过文本识别模型获取所述目标元素所对应的预测结果，其中，每个预测结果包括N个待替换词语中每个待替换词语所对应的权重参数，所述N为大于或等于1的整数，所述目标元素对应于所述待标注文本信息中的第一词语，所述文本识别模型包括BERT遮蔽语言模型；

根据设定的关联词库以及所述每个待替换词语所对应的权重参数，从所述N个待替换词语中确定第二词语，其中，所述设定的关联词库包括与所述第一词语具有关联关系的至少一个候选词语；

将所述待标注文本信息中的所述第一词语替换为所述第二词语。

第二方面，本申请实施例提供一种模型训练的方法，包括：

获取原始文本信息，所述原始文本信息中包括正确词语；

获取与所述正确词语对应的关联词库；

从所述关联词库中选择至少一个候选词语；

将所述原始文本信息中的所述正确词语替换为候选词语，得到训练文本信息以及所述训练文本信息对应的训练文本序列，其中，所述候选词语属于所述至少一个候选词语中的一个词语；

根据所述训练文本信息，通过待训练序列标注模型得到所述训练文本信息对应的目标文本序列；

通过损失函数获取所述训练文本序列与所述目标文本序列所对应的损失值；

当所述损失值达到收敛时，获取所述待训练序列标注模型对应的模型参数，得到序列标注模型。

第三方面，本申请实施例提供一种文本信息处理的装置，包括：

获取单元，用于获取待标注文本信息，其中，所述待标注文本信息包括至少一个词语；

处理单元，用于通过序列标注模型获取所述待标注文本信息所对应的文本序列，所述序列标注模型包括双向编码表示的变换器模型BERT模型以及全连接层；

处理单元，还用于若所述文本序列中包括目标元素，则通过文本识别模型获取所述目标元素所对应的预测结果，其中，每个预测结果包括N个待替换词语中每个待替换词语所对应的权重参数，所述N为大于或等于1的整数，所述目标元素对应于所述待标注文本信息中的第一词语，所述文本识别模型包括BERT遮蔽语言模型；

处理单元，还用于根据设定的关联词库以及所述每个待替换词语所对应的权重参数，从所述N个待替换词语中确定第二词语，其中，所述设定的关联词库包括与所述第一词语具有关联关系的至少一个候选词语；

处理单元，还用于将所述待标注文本信息中的所述第一词语替换为所述第二词语。

在本申请实施例第三方面的一种实现方式中，所述处理单元还用于：

通过所述序列标注模型所包括的所述BERT模型获取所述待标注文本信息所对应的词向量序列；

通过所述序列标注模型所包括的所述全连接层获取所述词向量序列所对应的概率序列；

通过所述序列标注模型所包括的条件随机场层获取所述概率序列所对应的文本序列。

根据设定的关联词库以及所述每个待替换词语所对应的权重参数确定所述每个待替换词语所对应的概率；

若所述待替换词语所对应的概率超过设定阈值，则确定所述待替换词语为第二词语。

若所述待替换词语在所述关联词库中的其中一个所述候选词语相同，则记录所述待替换词语的权重参数；

将所述待替换词语的权重参数除以记录的所述权重参数之和得到所述待替换词语所对应的概率。

在本申请实施例第三方面的一种实现方式中，所述关联词库包括同音候选词库，所述处理单元还用于：

获取常用词语所对应的拼音，所述常用词语从设定的常用词库中选出；

获取所述常用词语所对应的所述同音候选词库，所述同音候选词库包括至少一个同音候选词，所述同音候选词根据所述拼音确定。

在本申请实施例第三方面的一种实现方式中，所述关联词库包括近音候选词库，所述处理单元还用于：

计算所述常用词语之间的拼音编辑距离，所述拼音编辑距离为所述拼音之间转换的最少操作次数；

若所述拼音编辑距离等于第一设定阈值，则将所述常用词语存储在所述近音候选词库。

在本申请实施例第三方面的一种实现方式中，所述关联词库包括形近字候选词库，所述处理单元还用于：

获取常用词语所对应的图片，所述常用词语从设定的常用词库中选出；

获取模糊图片，所述模糊图片为对所述图片中的部分区域进行模糊处理得到的；

对所述模糊图片进行文本识别，得到形似词语；

将所述形似词语存储在所述形近字候选词库。

获取所述形似词语所对应的笔画和所述常用词语所对应的笔画；

计算所述形似词语与所述常用词语之间的笔画编辑距离，所述笔画编辑距离为所述笔画之间转换的最少操作次数；

若所述笔画编辑距离小于第二设定阈值，则将所述形似词语存储在所述形近字候选词库。

第四方面，本申请实施例提供一种模型训练的装置，包括：

获取单元，用于获取原始文本信息，所述原始文本信息中包括正确词语；

获取单元，还用于获取与所述正确词语对应的关联词库；

处理单元，用于从所述关联词库中选择至少一个候选词语；

处理单元，还用于将所述原始文本信息中的所述正确词语替换为候选词语，得到训练文本信息以及所述训练文本信息对应的训练文本序列，其中，所述候选词语属于所述至少一个候选词语中的一个词语；

处理单元，还用于根据所述训练文本信息，通过待训练序列标注模型得到所述训练文本信息对应的目标文本序列；

处理单元，还用于通过损失函数获取所述训练文本序列与所述目标文本序列所对应的损失值；

处理单元，还用于当所述损失值达到收敛时，获取所述待训练序列标注模型对应的模型参数，得到序列标注模型。

第五方面，本申请实施例提供服务器，包括：

一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述服务器上执行所述存储器中的指令操作以执行如第一方面或第二方面的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面或第二方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

附图说明

图1为本申请实施例中的一种架构示例图；

图2为本申请实施例中一种文本信息处理的方法的流程示意图；

图3为本申请实施例中序列标注模型的一种示例图；

图4为本申请实施例中序列标注模型的另一种示例图；

图5为本申请实施例中，待标注文本信息和目标文本信息对比展示的界面示例图；

图6为本申请实施例中第二词语展示的界面示例图；

图7为本申请实施例中常用词语对应的图片示例图；

图8为常用词语“燥”经过高斯模糊处理得到的模糊图片示例图；

图9为本申请实施例中，服务器进行文本识别的示例图；

图10为本申请实施例提供的一种模型训练的方法的流程示意图；

图11为本申请实施例的框架示意图；

图12为本申请实施例中错别字改正的应用例示意图；

图13为本申请实施例提供的一种文本信息处理的装置的示例图；

图14为本申请实施例提供的一种模型训练的装置的示例图；

图15为本申请实施例提供的一种服务器结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉(Computer Vision,CV)技术计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术，具体通过如下实施例进行说明:

图1为本申请实施例中的一种架构示例图。可见，多个终端设备通过有线或者无线的方式与服务器连接，其中，终端设备可以包括但不限于手机、台式电脑、平板电脑、笔记本电脑以及掌上电脑。用户通过终端设备上的客户端或手机软件(application，APP)编写好文本信息后，将文本信息发送到服务器发布，其中，文本信息包括但不限于文章、字段、新闻、评论、句子等。文本信息一般由词语以及标点符号组成。在本申请实施例中，词语可以由一个字组成或多个字组成。例如，帅哥、美女、在、海边、吃、烤肉，均可以是本申请实施例中的词语。

在文本信息发布过程中，服务器提供的一项服务是中文纠错，即自动识别文本信息中的错别字，并提醒用户进行更改。当前进行中文纠错一般包括两个任务，一个是错别字识别任务，另一个是错别字改正任务。

错别字识别任务通常采用序列标注模型，对线性输入序列中的每个元素预测标签集合中的某个标签，本质上是对每个元素根据上下文进行分类，常用的基于深度神经网络的序列标注模型主要有Bi-LSTM和LSTM-CRF模型。

错别字改正任务现有的主要解决方法是基于端到端的神经网络生成模型(Seq2Seq)，将中文纠错视为机器翻译的过程，即错误句子翻译为正确句子。生成模型使用encoder-decoder框架结构解决由源序列转换为目标序列的问题，使用一个RNN(encoder)将输入句子表示为一个向量，再使用另一个RNN(decoder)解码这个向量获取目标输出。但是基于生成模型的错别字纠错方法在生成目标序列时往往产生大量重复片段、语句不通等情况，例如输入句子为“在/与/韩国队/的/金牌/争夺战/中/…”，模型产生的目标输出为“在/与/韩国队/的/金牌/金牌/中…”，重复片段造成的语句不通往往难以避免。针对错别字纠错任务，由于源序列与目标序列大部分词语相同，因此模型训练非常容易过拟合。

为解决上述问题，本申请实施例提供了一种文本信息处理的方法、模型训练的方法以及相关装置，用于可以保证中文纠错的替换效果，不会将词语替换为没有关联的其他词语，避免了语句不通的情况。

图2为本申请实施例中一种文本信息处理的方法的流程示意图，该流程包括：

201、获取待标注文本信息，其中，待标注文本信息包括至少一个词语；

在本申请实施例中，服务器首先获取终端设备上传的文本信息。在一些实施例中，用户想要发布文本信息，则可以通过终端设备向服务器上传文本信息。在另一些实施例中，用户仅想对自己编辑的文本信息进行中文纠错检查，也可以通过终端设备向服务器上传文本信息。本申请实施例对此不作具体限定。服务器接收到的文本信息可以称为待标注文本信息。待标注文本信息可以是指准备进行中文纠错的文本信息，为方便描述，本申请实施例统一称为待标注文本信息。

待标注文本信息一般由词语以及标点符号组成，例如文章、段落或句子。在本申请实施例中，词语可以由一个字组成或多个字组成。待标注文本信息中，一般包括至少一个词语。示例性的，“她主演的戏，每一步都可以称之为经典”这个句子中，“她”、“主”、“演”、“的”、“戏”、“每”、“一”、“步”、“都”、“可”、“以”、“称”、“之”、“为”、“经”、“典”均是该句子的词语，“，”和“。”为该句子的标点符号。

在一些实施例中，终端设备上传至服务器的待标注文本信息已经分为多个词。在另一些实施例中，服务器可以通过分词算法对待标注文本信息进行分词。示例性的，服务器可以通过结巴分词算法对待标注文本信息进行分词。本申请实施例对进行分词的算法不做限定。

202、通过序列标注模型获取待标注文本信息所对应的文本序列；

在本申请实施例中，序列标注模型可以是BERT(Bidirectional EncoderRepresentation from Transformers)序列标注模型。

在一些实施例中，BERT序列标注模型可以是在双向编码表示的变换器(Bidirectional Encoder Representation from Transformers，BERT)模型的基础上增加softmax全连接层。图3为本申请实施例中序列标注模型的一种示例图。在一些实施例中，服务器可以将待标注文本信息按照线性输入序列的形式输入序列标注模型。对于中文文本，序列标注模型的最小输入单位为单个汉字，而句子中出现的错别字可能是单字，也可能是词语。序列标注模型可以对线性输入序列中的每个词语进行预测，本质上是对每个词语根据上下文进行分类。示例性的，待标注文本信息为“她主演的戏，每一步都可以称之为经典。”，其中包括“她”、“主”、“演”、“的”、“戏”、“，”、“每”、“一”、“步”、“都”、“可”、“以”、“称”、“之”、“为”、“经”、“典”、“。”这些词语以及标点符号。服务器可以将这些词语以及标点符号组成线性输入序列并输入至BERT序列标注模型。

然后，服务器可以通过序列标注模型获取待标注文本信息所对应的文本序列，其中，文本序列可以是由至少一个元素组成的序列，每个元素与待标注文本信息中的词语对应。示例性的，如图3所示，服务器可以首先通过BERT模型的处理，得到待标注文本信息所对应的词向量概率，本申请实施例可采用开源的BERT模型，本申请实施例对BERT模型的具体结构不做限定。然后服务器可以通过全连接层处理，得到文本序列为：[0.1,0.2,0.2，0.1,0.3,0.2,0.2,0.1,0.9,0.1,0.2,0.3,0.1,0.2,0.3,0.1,0.2,0.3]，其中，每个元素表示对应的词语为错别字(或错别词)的错别字概率，或者表示对应的标点符号为错误的概率。在一些实施例中，服务器可以设定概率阈值，则当元素的错别字概率大于预设的概率阈值时，服务器确定该元素为目标元素，确定该目标元素对应的词语为错别字(或错别词)，该确定的错别字(或错别词)也可以称为第一词语，为方便描述，本申请实施例统一称为第一词语。示例性的，目标元素0.9对应的第一词语为“步”，表示该“步”为一个错别字。

在一些实施例中，BERT序列标注模型可以是在BERT模型的基础上增加softmax全连接层，然后在全连接层的基础上增加条件随机场(conditional random field,CRF)层，引入一些约束来保证最终预测结果的合法性。

图4为本申请实施例中序列标注模型的另一种示例图。在本申请实施例中，服务器将待标注文本信息输入BERT序列标注模型中可以如前述实施例类似，此处不再赘述。

然后，服务器可以通过序列标注模型获取待标注文本信息所对应的文本序列。其中，文本序列可以是由至少一个元素组成的序列，每个元素与待标注文本信息中的词语对应。示例性的，如图4所示，服务器可以通过BERT模型以及全连接层的处理，得到概率序列，本申请实施例中服务器得到概率序列的方式与图3对应的实施例中服务器得到文本序列的方式类似，此处不再赘述。然后，服务器可以根据该概率序列，通过CRF层处理，得到文本序列为：[O,O,O,O,O,O,O,O,B-E,O,O,O,O,O,O,O,O,O]。其中，元素B-E为目标元素。在一些实施例中，服务器判断目标元素的方式可以是，预先设定目标元素对应的元素。例如，设定B-E、I-E以及O-E为目标元素。则服务器检测到文本序列中包含B-E、I-E或O-E时，确定其为目标元素。目标元素对应的第一词语与前面描述类似，此处不再赘述。

在本申请实施例中，服务器可以通过CRF层采用BIO的标记策略对每个词语进行标注，形成文本序列。例如“B”表示该字是词语错别字的起始字，同时也可以表示单字错别字；“I”表示该字是词语错别字的中间字或结尾字；“O”表示该字不是错别字。CRF层引入的约束可以保证序列的合法性，如标签“O”后不能直接跟标签“I”等。

在另一些实施例中，序列标注模型可以采用基于序列到序列(seq2seq)的序列生成模型，使用编码-解码(encoder-decoder)结构解决序列转换问题。

可以理解的是，序列标注模型中的模型参数可以通过训练得到，具体训练方法可以参照后续实施例，此处不再赘述。

在一些实施例中，若服务器检测到文本序列中包括目标元素，则执行步骤203，若服务器检测到文本序列中不包括目标元素，则说明该待标注文本信息没有需要改正的错别词语，服务器可以发出信息表示该待标注文本信息没有错别词语。

203、若文本序列中包括目标元素，则通过文本识别模型获取目标元素所对应的预测结果；

在本申请实施例中，每个预测结果包括N个待替换词语中每个待替换词语所对应的权重参数，N为大于或等于1的整数，目标元素对应于待标注文本信息中的第一词语。

在本申请实施例中，服务器可以将带有目标元素的文本序列输入文本识别模型，得到目标元素所对应的预测结果。其中，文本识别模型可以是BERT遮蔽语言(BERT MaskedLanguage Modeling，BERT MLM)模型。

在一些实施例中，服务器可以通过其他服务器获得训练完毕的BERT MLM模型。目标元素所对应的预测结果可以包括N个待替换词语。示例性的，服务器通过BERT MLM模型得到第一词语“步”对应的待替换词语包括：不、部、补、步、埗、首、次。每个待替换词语对应有一个权重参数。例如，“不”字对应的权重参数为0.01，“部”字对应到的权重参数为0.8等，如表1所示。表1为本申请实施例中，预测结果的一种示例。

表1

待替换词语	权重参数
		不	0.01
部	0.9
		补	0.01
步	0.01
		埗	0.01
首	0.6
		次	0.9

204、根据设定的关联词库以及每个待替换词语所对应的权重参数，从N个待替换词语中确定第二词语；

在本申请实施例中，设定的关联词库包括与第一词语具有关联关系的至少一个候选词语。在本申请实施例中，服务器预先设定关联词库。关联词语可以包括但不限于同音候选词库、近音候选词库以及形近字候选词库。服务器建立关联词库的过程可参照后续实施例，此处不再赘述。

在一些实施例中，服务器判断待替换词语与关联词库中的候选词语是否相同，若待替换词语在关联词库中的其中一个候选词语相同，则记录待替换词语的权重参数；将待替换词语的权重参数除以记录的权重参数之和得到待替换词语所对应的概率。

示例性的，关联词库为第一词语“步”关联的同音候选词库、近音候选词库以及形近字候选词库，可以为[不、部、补、步、埗]。然后，服务器逐个判断待替换词语(不、部、补、步、埗、首、次)是否与关联词库中的候选词语相同，可见，不、部、补、步、埗这5个待替换词语为相同的词语，其权重参数均被记录。然后，服务器可以计算待替换词语对应的概率。示例性的，服务器计算得到待替换词语“不”的概率为0.01/(0.01+0.9+0.01+0.01+0.01)＝0.010，待替换词语“部”的概率为0.9/(0.01+0.9+0.01+0.01+0.01)＝0.957，服务器计算其他待替换词语的情况类似，此处不再赘述。

在本申请实施例中，待替换词语与关联词库中的候选词语不相同，则对应的权重参数不会被记录。例如，待替换词语“首”和待替换词语“次”的权重参数不会被记录，即使这两个待替换词语的权重参数较大，服务器也不会计算这两个待替换词语的概率，则服务器不会错误地选择这两个待替换词语为第二词语，避免了将词语替换为没有关联的其他词语。

在一些实施例中，服务器计算得到待替换词语的概率后，判断该待替换词语的概率是否超过阈值。若待替换词语所对应的概率超过设定阈值，则服务器确定待替换词语为第二词语。示例性的，服务器设定概率阈值为0.5，则待替换词语“部”的概率超过了该阈值，服务器可以确定待替换词语“部”为第二词语。

205、将待标注文本信息中的第一词语替换为第二词语。

在一些实施例中，服务器可以将待标注文本信息中的第一词语替换为第二词语，得到目标文本信息，然后服务器可以将目标文本信息发送至终端设备。示例性的，服务器通过上述步骤确定第一词语“步”对应的第二词语为“部”，则服务器将“部”替换到待标注文本信息为“她主演的戏，每一步都可以称之为经典”中，得到目标文本信息“她主演的戏，每一部都可以称之为经典”。然后服务器可以将目标文本信息发送至终端设备。

在一些实施例中，终端设备接收到目标文本信息后，可以将目标文本信息进行展示。示例性的，终端设备可以通过客户端将待标注文本信息和目标文本信息进行对比展示。在一些实施例中，终端设备可以将编辑好的文本信息作为待标注信息发送至服务器，同时终端设备本地保存一份待标注文本信息。在另一些实施例中，服务器将待标注文本信息和目标文本信息一同发送至终端设备。图5为本申请实施例中，待标注文本信息和目标文本信息对比展示的界面示例图。图5中包括标题栏501、功能板块502以及主界面503，标题栏501用于展示客户端的标题，功能板块502上可以显示虚拟按钮，用于展示客户端的各种功能，用户点击该虚拟按钮时，客户端实现相应的功能。主界面503中展示有待标注文本信息和目标文本信息，其中，待标注文本信息包括“她主演的戏，每一步都可以称之为经典”，目标文本信息包括“她主演的戏，每一部都可以称之为经典”。在实际应用中，终端设备还可以同时展示多个待标注文本信息和目标文本信息，本申请实施例对此不做限定。

在一些实施例中，如图5所示，终端设备可以对第一词语“步”和第二词语“部”突出展示。终端设备可以通过下划线、加粗、改变字体颜色等方式进行突出展示，本申请实施例对此不做限定。

在一些实施例中，如图5所示，终端设备可以显示“是否替换”的选择框，其中包括虚拟按钮“是”和虚拟按钮“否”。当用户点击虚拟按钮“是”时，响应于该点击操作，终端设备将待标注文本信息修改为目标文本信息。当用户点击虚拟按钮“否”时，响应于该点击操作，终端设备不将待标注文本信息修改为目标文本信息，还可以将目标文本信息删除。

在一些实施例中，服务器将第二词语发送至终端设备，终端设备以修订的形式展示该第二词语。在另一些实施例中，服务器可以将待标注文本信息中的第一词语以修订形式替换为第二词语，得到目标文本信息，然后将目标文本信息发送至终端设备。然后终端设备展示该修订形式的目标文本信息。图6为本申请实施例中第二词语展示的界面示例图。标题栏601与前述标题栏501类似，此处不再赘述。主界面603中待标注文本信息“她主演的戏，每一步都可以称之为经典”中，第一词语“步”以修订形式被修改为第二词语“部”。功能板块602中包括虚拟按钮“接受修订”和虚拟按钮“拒绝修订”。当用户点击虚拟按钮“接受修订”时，响应于该点击操作，终端设备可以将第一词语“步”替换为第二词语“部”。当用户点击虚拟按钮“拒绝修订”时，响应于该点击操作，终端设备可以将该修订形式去除。

可选地，在上述图2对应的各个实施例的基础上，本发明实施例的一个可选实施例中，关联词库包括同音候选词库，根据设定的关联词库以及每个待替换词语所对应的权重参数之前，方法还包括：

获取常用词语所对应的拼音，常用词语从设定的常用词库中选出；

获取常用词语所对应的同音候选词库，同音候选词库包括至少一个同音候选词，同音候选词根据拼音确定。

在本申请实施例中，服务器从常用词库中选出若干个常用词语。在一些实施例中，常用词库可以从其他服务器中获取。常用词库可以由6000中文常用字和10万中文常用词组成。

在一些实施例中，服务器可以获取常用词语对应的拼音，其中，该拼音可以是无声调的拼音。示例性的，没事的拼音为meishi。

在一些实施例中，服务器可以将得到的拼音进行聚合，可以根据拼音找到对应的同音候选词，将其组成同音候选词库。示例性的，服务器根据拼音meishi找到对应的同音候选词为：没事、美食、美式、美事等，则服务器可以将没事、美食、美式、美事等组合成一个同音候选词库，该同音候选词库与没事、美食、美式、美事等均有对应关系。例如，服务器可以根据“没事”找到“没事”对应的同音候选词库。

可选地，在上述图2对应的各个实施例的基础上，本发明实施例的一个可选实施例中，关联词库包括近音候选词库，根据设定的关联词库以及每个待替换词语所对应的权重参数之前，方法还包括：

计算常用词语之间的拼音编辑距离，拼音编辑距离为拼音之间转换的最少操作次数；

若拼音编辑距离等于第一设定阈值，则将常用词语存储在近音候选词库。

在本申请实施例中，服务器可以获取常用词语所对应的拼音，具体可以参照前述实施例中服务器获取常用词语所对应的拼音的描述，此处不再赘述。

编辑距离(Edit Distance)指将一个字符串转换为另一个字符串的最少操作次数，允许的操作包含：增加、删除、修改，因此可以用来衡量两个字符串的差异程度。在一些实施例中，拼音编辑距离为从第一拼音转化为第二拼音所经历的最少操作次数。示例性的，第一拼音meishi转化为第二拼音neishi需要经历一个修改操作，具体为将第一拼音的开头m修改为n，因此服务器可以确定该第一拼音meishi与第二拼音neishi的拼音编辑距离为1。在一些实施例中服务器中的第一设定阈值为1，则服务器可以确定第一拼音meishi与第二拼音neishi的拼音编辑距离等于第一设定阈值，则服务可以将对应的常用词语存储至近音候选词库。示例性的，第一拼音meishi对应的常用词语有没事、美食、美式、美事等，第二拼音neishi对应的常用词语有内饰、内室、内事等，则服务器可以将内饰、内室、内事等常用词语存储至没事、美食、美式、美事对应的近音候选词库。然后，服务器可以获取到没事对应的近音候选词库，该近音候选词库中包括内饰、内室、内事等常用词语。服务器还可以获取到美食对应的近音候选词库，该近音候选词库中包括内饰、内室、内事等常用词语。

在一些实施例中，服务器可以对增加、删除、修改这三种操作分别赋予不同的代价，改进编辑距离的计算方式，具体如下：

A.增加、删除操作：由于近音字、近音词的特点通常表现为开头或结尾的拼音声母或韵母的不同，因此对于增加和删除操作，设置拼音的开头和结尾增、删代价为1，其它地方的增、删代价为N(N＝1000)。示例性的，第一拼音meishi转化为第三拼音meisi需要经历一个删除操作，具体为将第一拼音meishi的第五个字母h删除，因此服务器可以确定该第一拼音meishi与第三拼音meisi的拼音编辑距离为1000。

B.修改操作：考虑到用户在用键盘输入的时候，键盘之间相邻字母很容易误打造成近音字词错别字，因此在进行修改操作时，若字母在键盘上相邻，则修改代价为1，否则修改代价为N(N＝1000)。示例性的，第一拼音meishi转化为第二拼音neishi需要经历一个修改操作，具体为将第一拼音的开头m修改为n，由于n和m在键盘上相邻，因此服务器可以确定该第一拼音meishi与第二拼音neishi的拼音编辑距离为1。在一些实施例中，服务器可以预先设定好键盘上相邻字母的关联关系，此处不做具体限定。

可选地，在上述图2对应的各个实施例的基础上，本发明实施例的一个可选实施例中，关联词库包括形近字候选词库，根据设定的关联词库以及每个待替换词语所对应的权重参数之前，方法还包括：

获取常用词语所对应的图片，常用词语从设定的常用词库中选出；

获取模糊图片，模糊图片为对图片中的部分区域进行模糊处理得到的；

对模糊图片进行文本识别，得到形似词语；

将形似词语存储在形近字候选词库。

在本申请实施例中，服务器可以获取常用词语所对应的图片。图7为本申请实施例中常用词语对应的图片示例图，可见，服务器获取到尧、由、羽、月、燥、容、锈、纸、暑这些常用词语对应的图片。

然后，服务器可以随机抽取图片的某一个区域，对其进行高斯模糊处理，得到模糊后的汉字图片。在一些实施例中，服务器可以采用二维的高斯分布函数来确定像素点的周围点的权重，进而对周围像素点加权平均，得到模糊后的像素值。示例性的，图8为常用词语“燥”经过高斯模糊处理得到的模糊图片示例图，可见，常用词语“燥”的右上角、左上角、左边部分、右边部分分别经过了高斯模糊处理，得到对应的四张模糊图片。

然后，服务器可以对模糊图片进行文本识别。在一些实施例中，服务器对模糊图片进行光学字符识别(optical character recognition，OCR)汉字识别，识别出的与原汉字不同的汉字暂时作为形似词语。在另一些实施例中，服务器可以采用卷积循环神经网络(convolutional recurrent neural network，CRNN)对模糊图片进行识别，即对定位好的文字区域进行识别。示例性的，图9为本申请实施例中，服务器进行文本识别的示例图，可见，常用词语“燥”的左边部分经过高斯模糊处理后的模糊图片经过服务器的文本识别后，得到形似词语为燥、澡和操。而常用词语“燥”的右上角经过高斯模糊处理后的模糊图片，经过服务器的文本识别后，得到形似词语为燥、焊和烽。

然后，服务器可以将这些形似词语存储在该常用词语对应的形近字候选词库中。示例性的，服务器可以将形似词语燥、澡、操、燥、焊和烽存储在常用词语“燥”对应的形近字候选词库中。

可选地，在上述图2对应的各个实施例的基础上，本发明实施例的一个可选实施例中，

将形似词语存储在形近字候选词库包括：

获取形似词语所对应的笔画和常用词语所对应的笔画；

计算形似词语与常用词语之间的笔画编辑距离，笔画编辑距离为笔画之间转换的最少操作次数；

若笔画编辑距离小于第二设定阈值，则将形似词语存储在形近字候选词库。

在本申请实施例中，服务器可以对OCR文本识别得到的形似词语进行过滤，计算笔画之间的编辑距离，筛选出编辑距离小于设定阈值的加入形近字候选词库。在一些实施例中，服务器可以通过一定的算法获取常用词语和形似词语的笔画，本申请实施例对获取笔画的方式不做具体限定。示例性的，常用词语“需”经过服务器确定的形似词语为“害”，则服务器可以获取到常用词语“需”的笔画为一丨乛丶丶丶丶一丿丨ㄅ丨丨，形似词语“害”的笔画为丶丨乛一一一丨丨┐一。

然后，服务器可以计算形似词语与常用词语之间的笔画编辑距离(editdistance)。示例性的，常用词语“需”与形似词语“害”之间需要经过至少10次操作才能将笔画变更完毕，因此常用词语“需”与形似词语“害”之间的笔画编辑距离为10。

在一些实施例中，若笔画编辑距离小于第二设定阈值，则服务器将对应的形似词语存储在该常用词语对应的形近字候选词库。示例性的，表1为本申请实施例中计算笔画编辑距离的示例表格，可见，常用词语“需”与形似词语“害”之间的笔画编辑距离为10，大于预设阈值6，则服务器不将该形似词语存储。

表1

示例性的，表2为本申请实施例中计算笔画编辑距离的另一个示例表格，可见，常用词语“侍”与形似词语“待”之间的笔画编辑距离为1，小于预设阈值4.25，则服务器可以将形似词语“待”存储在常用词语“侍”所对应的的形近字候选词库中。

表2

在一些实施例中，服务器可以通过以下计算公式计算常用词语与形似词语之间的预设阈值。计算公式为：

η＝0.25×(len(c₁)+len(c₂))；

其中，η为常用词语c₁与形似词语c₂之间的预设阈值，len(c₁)为常用词语c₁的笔画长度，len(c₂)为形似词语c₂的笔画长度。

图10为本申请实施例提供的一种模型训练的方法的流程示意图，该流程包括：

1001、获取原始文本信息，原始文本信息中包括正确词语；

在本申请实施例中，服务器可以首先获取原始文本信息。在一些实施例中，原始文本信息可以是人工筛选的快报或优质文章，这些原始文本信息是质量好的文章或段落句子，由多个正确词语以及标点符号组成。可以理解的是，人工筛选出原始文本信息后，服务器可以将这些原始文本信息存储到数据库中，以便提取。示例性的，人工挑选出优质文章后，将其中的错别字进行人工排查更正，最终得到3400万个句子并保存在服务器中，作为原始文本信息。例如，其中一个句子为“小明正在看电视。”。

1002、获取与正确词语对应的关联词库；

在本申请实施例中，关联词库可以是服务器预先设定好的。关联词库可以包括但不限于同音候选词库、近音候选词库和形近字候选词库，具体可以参阅前述实施例中同音候选词库、近音候选词库和形近字候选词库的构建方法，此处不再赘述。

在一些实施例中，服务器可以随机选择其中一个正确词语，并获取其对应的关联词库。示例性的，服务器获取正确词语“在”的关联词库为[在、再、载、仔]。

1003、从关联词库中选择至少一个候选词语；

在一些实施例中，服务器可以随机选择其中一个候选词语。在另一些实施例中，服务器可以按照候选词语在原始文本信息中的词频进行采样，得到选择的候选词语。示例性的，服务器从关联词库[在、再、载、仔]中选择候选词语“再”。

1004、将原始文本信息中的正确词语替换为候选词语，得到训练文本信息以及训练文本信息对应的训练文本序列；

在本申请实施例中，候选词语属于至少一个候选词语中的一个词语。

示例性的，服务器可以将原始文本信息“小明正在看电视。”中的正确词语“在”替换为候选词语“再”，则服务器可以得到训练文本信息“小明正再看电视。”。

在一些实施例中，训练文本信息可以包括正确词语、候选词语以及标点符号，则服务器可以将正确词语对应的元素设定为O，候选词语对应的元素设定为B-E、I-E或O-E，然后根据训练文本信息的情况确定训练文本信息对应的训练文本序列。示例性的，训练文本信息“小明正再看电视。”中仅有候选词语“再”，其余均是正确词语，则服务器可以确定该训练文本信息对应的训练文本序列为[O,O,O,B-E,O,O,O,O]。

在一些实施例中，服务器可以控制同一词语在原始文本信息以及训练文本信息中出现的次数，使得同一词语在原始文本信息出现的次数与在训练文本信息中出现的次数相差不大(次数差值在一定范围内)，从而避免模型简单地将某一词语认定为正、负例的判断依据，而忽略它的上下文信息。在一些实施例中，服务器可以通过控制“将原始文本信息中的正确词语替换为候选词语”的次数实现上述效果。

1005、根据训练文本信息，通过待训练序列标注模型得到训练文本信息对应的目标文本序列；

在本申请实施例中，服务器可以预先设定待训练序列标注模型的初始参数，则服务器可以根据训练文本信息，通过待训练序列标注模型得到训练文本信息对应的目标文本序列。示例性的，服务器可以根据“小明正再看电视。”通过待训练序列标注模型得到目标文本序列[O,O,O,B-E,O,O,O,O]。

1006、通过损失函数获取训练文本序列与目标文本序列所对应的损失值；

在一些实施例中，服务器可以计算训练文本序列与目标文本序列之间的交叉熵。在实际应用中，服务器还可以通过其他方式对序列标注模型进行训练，本申请实施例对此不做限定。

1007、当损失值达到收敛时，获取待训练序列标注模型对应的模型参数，得到序列标注模型。

在本申请实施例中，服务器可以在损失值收敛时，确定待训练序列标注模型对应的模型参数，得到序列标注模型。

在一些实施例中，服务器可以将训练得到的序列标注模型向终端设备发送，使得终端设备可以通过序列标注模型获取待标注文本信息所对应的文本序列。

图11为本申请实施例的框架示意图。本申请实施例的框架主要包括以下几个方面：

1、大规模训练语料生成；

基于深度神经网络模型的中文纠错都需要依赖大规模的标注语料进行模型训练，在实际应用中一直面临着标注数据缺乏的困境。神经网络的训练动辄需要数百万错别字语句的标注，人工标注成本昂贵。因此，本申请实施例首先构建关联词库，然后根据关联词库以及原始文本信息生成训练文本信息。可以理解的是，大规模训练语料可以包括原始文本信息以及训练文本信息。

图11中，同音词表也可以称为同音候选词库，近音词表也可以称为近音候选词库，形似字表也可以称为形近字候选词库。关联词库可以包括但不限于同音候选词库、近音候选词库和形近字候选词库，具体可以参阅前述实施例中同音候选词库、近音候选词库和形近字候选词库的构建方法，此处不再赘述。

本申请实施例中，服务器可以利用人工筛选的快报或优质文章构建错别字语料，通过数据清洗、过滤选择出3400万个句子，然后服务器可以对句子中字或词进行候选替换，模拟真实的中文错别字语料。在一些实施例中，为了构造大规模中文错别字的训练语料，服务器可以首先统计各种类型(单字or词语、同音or近音or形似)错别字在真实语料上的占比，然后在句子中选择单字或词语，按照比例选择同音、近音或形似候选，按词频对候选集合进行采样，用采样得到的候选词替换句子中的原有词。在一些实施例中，语料生成过程中，服务器可以控制同一词语在原始文本信息以及训练文本信息中的出现次数，使它尽可能均衡，从而避免模型简单地将某一词语认定为正、负例的判断依据，而忽略它的上下文信息。

2、错别字识别；

在本申请实施例中，服务器可以根据上述大规模训练语料对待训练序列标注模型进行训练，得到序列标注模型，具体可参照前述实施例中的模型训练方法，此处不再赘述。

在一些实施例中，序列标注模型可以是BERT序列标注模型。BERT序列标注模型可以参照前述实施例中图3以及图4对应的描述，此处不再赘述。BERT模型本质上是一种预训练的语言表征模型，基于双向的Transformer编码器实现，可以在预训练好的BERT上叠加任务相关的额外网络结构进行微调(finetune)，使其广泛适用于各种NLP任务并产出最先进的结果。

在本申请实施例中，BERT序列标注模型提供疑似错别字位置，供后续BERT MLM模型使用。

3、错别字改正；

在本申请实施例中，服务器可以将从其他服务器获取得到BERT MLM模型。BERTMLM模型是BERT原始预训练任务之一。为了使用每个单词的双向信息进行预测，BERT采用了一个直接的方法进行训练，即随机遮蔽输入句子中的某些单词，然后预测被遮住的单词，这一步骤就是Masked LM，类似我们常见的完形填空任务。

在一些实施例中，服务器可以对BERT MLM模型进行预训练，随机选择句子中15％的单词进行遮蔽，其中80％的单词被替换为[MASK]，10％的单词被随机替换，10％的单词保持不变。在一些实施例中，服务器可以对BERT MLM模型进行预训练，随机选择句子中15％的单词进行遮蔽，其中60％的字被替换为[MASK]，10％的字被高频同音字替换，10％的字被高频近音字替换，10％被随机替换，10％保持不变。其中，同音字、近音字可以从同音候选词库以及近音候选词库中获取。

在一些实施例中。BERT MLM模型在全局纠错模块中用于判断疑似错别字并改正，模型预测时输入包含疑似错别字的句子以及疑似错别字位置，模型将输出对应的预测字及其权重参数。其中，预测字也可以称为待替换词语。

在一些实施例中，服务器还可以通过关联词库对BERT MLM模型输出的预测字进行过滤。示例性的，待标注文本信息为“莫过于再台上露馅”，服务器可以通过BERT MLM模型得到预测字为“舞”以及“在”，而在第一词语“再”对应的关联词库上候选词语包括“在”但不包括“舞”。对这个例子而言，“莫过于舞台上露馅”也是通顺的，但在本申请实施例中，“再”能够正确地被改正为“在”，而不会改成与原来含义不同的句子。在一些实施例中，服务器可以通过根据设定的关联词库以及预测字所对应的权重参数确定预测字的归一化概率，具体可以参照前述实施例中确定待替换词语所对应的概率的描述，此处不再赘述。

图12为本申请实施例中错别字改正的应用例示意图。该应用例中，服务器对待标注文本信息“她主演的戏，每一步都可以称之为经典。”进行错别字识别以及错别字改正。

服务器可以首先采用BERT序列标注模型识别出全部疑似错别字并提供错别字位置信息，然后利用BERT MLM模型对疑似错别字进行预测，若最终预测的字不是原字，且预测概率大于阈值，则将该字判断为错别字，并改正成BERT MLM的预测字。

在该应用例中，服务器根据该待标注文本信息，通过BERT序列标注模型得到文本序列[O,O,O,O,O,O,O,O,B-E,O,O,O,O,O,O,O,O,O]。

在该应用例中，服务器根据文本序列，通过BERT MLM模型以及关联词库得到预测字以及预测字对应的概率，其中，预测字“部”的概率为0.957，预测字“不”的概率为0.010。可见，预测字“部”的概率大于0.5，则服务器判断对应的待标注文本信息中的“步”为错别字，并将该错别字“步”替换为预测字“部”。

本申请实施例中，服务器可以将中文错别字识别与纠错能力整合加入发文助手服务，用户在发文前将文章发送至服务器，使得服务器在发文前帮助用户检查文章中的疑似错别字，并提示改正信息。与业务方原有错别字能力相比，本申请实施例中，错别字召回率由20％提升到70％，准确率达到80％。错别字诊断能力帮助7％的用户诊断出错别字，被提示包含疑似错别字的文章60％改正了错别字。

图13为本申请实施例提供的一种文本信息处理的装置的示例图，该文本信息处理的装置1300包括：

获取单元1301，用于获取待标注文本信息，其中，待标注文本信息包括至少一个词语；

处理单元1302，用于通过序列标注模型获取待标注文本信息所对应的文本序列，序列标注模型包括双向编码表示的变换器模型BERT模型以及全连接层；

处理单元1302，还用于若文本序列中包括目标元素，则通过文本识别模型获取目标元素所对应的预测结果，其中，每个预测结果包括N个待替换词语中每个待替换词语所对应的权重参数，N为大于或等于1的整数，目标元素对应于待标注文本信息中的第一词语，文本识别模型包括BERT遮蔽语言模型；

处理单元1302，还用于根据设定的关联词库以及每个待替换词语所对应的权重参数，从N个待替换词语中确定第二词语，其中，设定的关联词库包括与第一词语具有关联关系的至少一个候选词语；

处理单元1302，还用于将待标注文本信息中的第一词语替换为第二词语。

可选地，在上述图13对应的各个实施例的基础上，本发明实施例的一个可选实施例中，处理单元1302还用于：

通过序列标注模型所包括的BERT模型获取待标注文本信息所对应的词向量序列；

通过序列标注模型所包括的全连接层获取词向量序列所对应的概率序列；

通过序列标注模型所包括的条件随机场层获取概率序列所对应的文本序列。

根据设定的关联词库以及每个待替换词语所对应的权重参数确定每个待替换词语所对应的概率；

若待替换词语所对应的概率超过设定阈值，则确定待替换词语为第二词语。

若待替换词语在关联词库中的其中一个候选词语相同，则记录待替换词语的权重参数；

将待替换词语的权重参数除以记录的权重参数之和得到待替换词语所对应的概率。

可选地，在上述图13对应的各个实施例的基础上，本发明实施例的一个可选实施例中，关联词库包括同音候选词库，处理单元1302还用于：

可选地，在上述图13对应的各个实施例的基础上，本发明实施例的一个可选实施例中，关联词库包括近音候选词库，处理单元1302还用于：

可选地，在上述图13对应的各个实施例的基础上，本发明实施例的一个可选实施例中，关联词库包括形近字候选词库，处理单元1302还用于：

对模糊图片进行文本识别，得到形似词语；

将形似词语存储在形近字候选词库。

获取形似词语所对应的笔画和常用词语所对应的笔画；

图14为本申请实施例提供的一种模型训练的装置的示例图，该模型训练的装置1400包括：

获取单元1401，用于获取原始文本信息，原始文本信息中包括正确词语；

获取单元1401，还用于获取与正确词语对应的关联词库；

处理单元1402，用于从关联词库中选择至少一个候选词语；

处理单元1402，还用于将原始文本信息中的正确词语替换为候选词语，得到训练文本信息以及训练文本信息对应的训练文本序列，其中，候选词语属于至少一个候选词语中的一个词语；

处理单元1402，还用于根据训练文本信息，通过待训练序列标注模型得到训练文本信息对应的目标文本序列；

处理单元1402，还用于通过损失函数获取训练文本序列与目标文本序列所对应的损失值；

处理单元1402，还用于当损失值达到收敛时，获取待训练序列标注模型对应的模型参数，得到序列标注模型。

图15为本申请实施例提供的一种服务器结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

在本申请实施例中，CPU1522具体用于:

获取待标注文本信息，其中，待标注文本信息包括至少一个词语；

通过序列标注模型获取待标注文本信息所对应的文本序列，序列标注模型包括双向编码表示的变换器模型BERT模型以及全连接层；

若文本序列中包括目标元素，则通过文本识别模型获取目标元素所对应的预测结果，其中，每个预测结果包括N个待替换词语中每个待替换词语所对应的权重参数，N为大于或等于1的整数，目标元素对应于待标注文本信息中的第一词语，文本识别模型包括BERT遮蔽语言模型；

根据设定的关联词库以及每个待替换词语所对应的权重参数，从N个待替换词语中确定第二词语，其中，设定的关联词库包括与第一词语具有关联关系的至少一个候选词语；

将待标注文本信息中的第一词语替换为第二词语。

在本申请实施例中，CPU1522还用于:

对模糊图片进行文本识别，得到形似词语；

将形似词语存储在形近字候选词库。

在本申请实施例中，CPU1522还用于:

获取形似词语所对应的笔画和常用词语所对应的笔画；

在本申请实施例中，CPU1522还用于:

获取原始文本信息，原始文本信息中包括正确词语；

获取与正确词语对应的关联词库；

从关联词库中选择至少一个候选词语；

将原始文本信息中的正确词语替换为候选词语，得到训练文本信息以及训练文本信息对应的训练文本序列，其中，候选词语属于至少一个候选词语中的一个词语；

根据训练文本信息，通过待训练序列标注模型得到训练文本信息对应的目标文本序列；

通过损失函数获取训练文本序列与目标文本序列所对应的损失值；

当损失值达到收敛时，获取待训练序列标注模型对应的模型参数，得到序列标注模型。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本信息处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述序列标注模型还包括条件随机场层CRF层，所述通过序列标注模型获取所述待标注文本信息所对应的文本序列包括：

通过所述序列标注模型所包括的所述CRF层获取所述概率序列所对应的文本序列。

3.根据权利要求1所述的方法，其特征在于，所述根据设定的关联词库以及所述每个待替换词语所对应的权重参数，从所述N个待替换词语中确定第二词语包括：

4.根据权利要求3所述的方法，其特征在于，所述根据设定的关联词库以及所述每个待替换词语所对应的权重参数确定所述每个待替换词语所对应的概率包括：

5.根据权利要求1所述的方法，其特征在于，所述关联词库包括同音候选词库，所述根据设定的关联词库以及所述每个待替换词语所对应的权重参数之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述关联词库包括近音候选词库，所述根据设定的关联词库以及所述每个待替换词语所对应的权重参数之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述关联词库包括形近字候选词库，所述根据设定的关联词库以及所述每个待替换词语所对应的权重参数之前，所述方法还包括：

对所述模糊图片进行文本识别，得到形似词语；

将所述形似词语存储在所述形近字候选词库。

8.根据权利要求7所述的方法，其特征在于，所述将所述形似词语存储在所述形近字候选词库包括：

9.一种模型训练的方法，其特征在于，包括：

获取原始文本信息，所述原始文本信息中包括正确词语；

获取与所述正确词语对应的关联词库；

从所述关联词库中选择至少一个候选词语；

10.一种文本信息处理的装置，其特征在于，包括：

所述处理单元，还用于若所述文本序列中包括目标元素，则通过文本识别模型获取所述目标元素所对应的预测结果，其中，每个预测结果包括N个待替换词语中每个待替换词语所对应的权重参数，所述N为大于或等于1的整数，所述目标元素对应于所述待标注文本信息中的第一词语，所述文本识别模型包括BERT遮蔽语言模型；

所述处理单元，还用于根据设定的关联词库以及所述每个待替换词语所对应的权重参数，从所述N个待替换词语中确定第二词语，其中，所述设定的关联词库包括与所述第一词语具有关联关系的至少一个候选词语；

所述处理单元，还用于将所述待标注文本信息中的所述第一词语替换为所述第二词语。

11.一种服务器，其特征在于，包括一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述服务器上执行所述存储器中的指令操作以执行权利要求1至8中任意一项所述的方法。