CN111291552A

CN111291552A - 一种文本内容修正的方法和系统

Info

Publication number: CN111291552A
Application number: CN202010384219.1A
Authority: CN
Inventors: 成幸毅; 徐威迪; 陈昆龙; 王太峰; 褚崴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-06-16
Anticipated expiration: 2040-05-09
Also published as: CN111291552B

Abstract

本说明书实施例公开了一种文本内容修正的方法及系统。所述方法包括：获取待检测文本；生成所述待检测文本中各个字符对应的语义向量；对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符；所述修正矩阵包括所述字符集中各字符的修正向量，其基于词嵌入矩阵和混淆特征矩阵生成；所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图，通过混淆模型获得；所述混淆关系图表示字符之间的符号近似关系；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

Description

一种文本内容修正的方法和系统

技术领域

本说明书涉及自然语言处理（natural language processing，NLP）领域，特别涉及一种文本内容修正的方法和系统。

背景技术

拼写错误通常存在于自动语音识别技术（ASR，automatic speech recognition）获得的文本、光学字符识别（OCR，Optical Character Recognition）获得的文本以及输入法输入的文本中。汉字的许多字符发音或者字形相似，但是语义不同，因此容易因为字符的音近或者形近造成拼写错误。中文拼写检查（CSC，Chinese Spelling Check）模型用于纠正类似的错误。由于汉字的特点，拼写检查模型不仅需要根据字符的语义对文本进行修正，还需要有字符发音和字形的约束。

因此，期望一种文本内容修正的方法，可以结合字符的语义以及发音和字形等符号上的相似关系对文本进行修正。

发明内容

本说明书实施例之一提供一种文本内容修正的方法。所述方法包括：

获取待检测文本；生成所述待检测文本中各个字符对应的语义向量；对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符；所述修正矩阵包括所述字符集中各字符的修正向量，其基于词嵌入矩阵和混淆特征矩阵生成；所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图，通过混淆模型获得；所述混淆关系图表示字符之间的符号近似关系；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

本说明书实施例之一提供一种文本内容修正的系统，所述系统包括：

待检测文本获取模块，用于获取待检测文本；语义向量提取模块，用于生成所述待检测文本中各个字符对应的语义向量；字符修正模块，用于对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符；所述修正矩阵包括所述字符集中各字符的修正向量，其基于词嵌入矩阵和混淆特征矩阵生成；所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图，通过混淆模型获得；所述混淆关系图表示字符之间的符号近似关系；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

本说明书实施例之一提供一种文本内容修正装置，所述装置包括：

至少一个处理器以及至少一个存储器；所述至少一个存储器用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现文本内容修正的方法。

本说明书实施例之一提供一种文本修正模型系统，所述系统包括：

提取模型，用于生成待检测文本中各个字符对应的语义向量；混淆模型，用于基于词嵌入矩阵和混淆关系图生成混淆特征矩阵，所述混淆关系图表示字符之间的符号近似关系；以及，全连接层，用于对每个所述语义向量进行处理，得到该语义向量在字符集中对应的字符；其中，全连接层的权重矩阵包括所述字符集中各字符的修正向量，其基于词嵌入矩阵和所述混淆特征矩阵生成；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

本说明书实施例之一提供一种混淆特征矩阵获取方法，所述混淆特征矩阵包括混淆字符集中各字符的混淆特征向量，所述混淆特征向量反映该字符与其他至少一个字符的符号近似信息，其中，所述方法包括：

通过混淆模型处理词嵌入矩阵和混淆关系图，获得所述混淆特征矩阵；所述混淆关系图表示字符之间的符号近似关系；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的文本内容修正的结构化流程图；

图2是根据本说明书一些实施例所示的生成混淆特征矩阵的结构化流程图；

图3是根据本说明书一些实施例所示的生成修正矩阵的结构化流程图；

图4是根据本说明书一些实施例所示的文本内容修正模型的应用场景图；

图5是根据本说明书一些实施例所示的文本内容修正模型的结构示意图；以及

图6是根据本说明书一些实施例所示的文本内容修正的系统的模块图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书一些实施例所示的文本内容修正的结构化流程图。

步骤110，获取待检测文本，生成待检测文本中各个字符对应的语义向量。

在一些实施例中,待检测文本可以为有一定概率存在拼写错误的文本。在一些实施例中，待检测文本可以通过自动语音识别技术（ASR，automatic speech recognition）得到。在一些实施例中，待检测文本也可以通过光学字符识别（OCR，Optical CharacterRecognition）得到。在一些实施例中，待检测文本也可以通过其他方式获得，例如：手写输入、输入法输入等，不受本说明书的表述所限。例如：通过ASR获得的一个文本“...餐厅的换经费产适合约会...”，存在拼写错误的文字“换经费产”，可以将该文本作为待检测文本。

在一些实施例中，可以基于词嵌入算法处理待检测文本，获得其各个字符对应的词嵌入向量。词嵌入算法可以按照一定的映射规则，将字符转化为其在词嵌入矩阵中对应的修正向量。在一些实施例中，词嵌入矩阵可以由字符集中各个字符的词嵌入向量组成，词嵌入矩阵的每一行为一个词嵌入向量，每个词嵌入向量具有固定的维度。例如：一个20K个字符的字符集，每个字符使用300维的词嵌入向量表示，则对应的词嵌入矩阵的形状可以为20*1000行、300列。在一些实施例中，字符集中的每个字符在词嵌入矩阵中都有一个固定的表示，而不管该字符出现在什么上下文中。例如：在两个句子“The man was accused ofrobbing a bank.”和“The man went fishing by the bank of the river.”中，“bank”这个单词的含义是不同的，但是在词嵌入矩阵中“bank”只有一个固定的向量表示。因此，在一些实施例中，需要进一步根据字符在文本中的上下文来生成字符在文本中的语义向量。

在一些实施例中，可以基于提取模型获取待检测文本中各字符对应的语义向量。在一些实施例中，提取模型可以为BERT（Bidirectional Encoder Representations fromTransformers）模型，因为BERT基础版本中隐藏状态向量的维度可以为768，因此在一些实施例中，词嵌入矩阵的形状可以为M*768，M为BERT使用的字符集的大小。BERT模型由很多个transformer Encoder一层一层的堆叠起来，每个Transformer Encoder可以理解为将输入文本中各个字符的向量表示转化为相同长度的增强语义（包含了整个上下文语义）向量的一个黑盒。在一些实施例中，可以将待检测文本输入提取模型，提取模型的词嵌入层将待检测文本中各个字符映射到词嵌入矩阵中得到其对应的词嵌入向量。具体的，可以将待检测文本切分（tokenization）为n个令牌（token）（如，可以将待检测文本切分，得到n各字符），同时在待检测文本的开头插入符号[CLS]，结尾插入符号[SEP]，然后输入BERT模型，BERT模型的词嵌入层输出n*768的词嵌入向量的序列，该词嵌入向量的序列被输入到BERT模型的提取层（主体部分）后，BERT模型输出同样n*768的增加了上下文语境的语义向量的序列。

在一些实施例中，也可以通过其他方式获取词嵌入矩阵并且使用该词嵌入矩阵进行计算获得待检测文本中各个字符对应的语义向量，例如：可以使用CBOW或者skip-gram算法训练得到词嵌入矩阵，然后可以通过词嵌入矩阵与待检测文本中各个字符的One-hot向量相乘，得到待检测文本中各个字符对应的语义向量，不受本说明书的描述所限。

在一些实施例中，也可以直接将字符在词嵌入矩阵中对应的词嵌入向量作为该字符的语义向量。

步骤120，基于修正矩阵生成修正后的字符。

在一些实施例中，字符集中的字符可以包括汉字。汉字是汉语的记录符号，现代的汉字由象形字发展而来，属于表意的文字，一个汉字可以包含语义、发音、字形三个方面的信息。很多汉字之间存在音近和/或形近的现象，例如：“竟”和“静”发音相同，“镜”和“境”发音相同且形近。因为汉字之间的音近和形近关系，通过OCR获取的文本容易出现形近的错别字，而通过ASR获取的文本容易出现音近的错别字。在现有的一些实施例中，可以根据汉字的语义来进行修正，但是很难在语音和/或字形也加以修正。例如：对于待检测文本“餐厅的换经费产适合约会”，BERT模型可以根据“经费”的语义将待检测文本修正为“餐厅的月消费最适合约会”，该修正虽然在语义上是比较合适的，但是在发音上和“环境非常”差别很大。本说明书所述的实施例中，可以通过确定待检测文本中某字符的语义向量在修正矩阵中对应的修正向量，进而将修正向量对应的字符作为修正后的字符。修正矩阵包括所述字符集中各字符的修正向量，其基于词嵌入矩阵和混淆特征矩阵生成。其中，混淆特征矩阵由混淆模型在与提取模型相同的词嵌入空间中通过提取字符之间的音近和形近关系信息生成。在混淆特征矩阵中，具有音近/形近关系的字符对应的特征向量距离更加相近。因此，预测修正字符时，可以综合语义相近与音近/形近关系对字符做出正确的选择。对于上述示例，本说明书所述的实施例可以将待检测文本修正为“餐厅的环境非常适合约会”。关于混淆特征矩阵的详细说明可以参见说明书图2、5的相关介绍。

在一些实施例中，对于每一个语义向量，可以计算其与修正矩阵中各字符的修正向量之间的相似度，将相似度最大的修正向量对应的字符作为修正后的字符。在一些实施例中，可以通过计算两个向量之间的点乘、余弦相似度或欧氏距离等确定两者之前的相似度。

在一些实施例中，可以在提取模型或其提取层后，设置全连接层，以对步骤110中获取的每个语义向量进行处理，获得各自修正后的字符，其中，全连接层的权重矩阵可以包括所述修正矩阵。计算公式如下：

其中，W为修正矩阵，形状为M行（字符集的大小）、D列（词嵌入向量的维度，如步骤110中所述，可以为768），关于修正矩阵的详细描述请参见图2中步骤220。

为待检测文本中第i个字符对应的语义向量，维度也为D，因此通过W与

进行的点乘运算，获得M个实数，这M个实数可以反映待检测文本中第i个字符分别与字符集中各个字符的相似度。然后使用softmax函数对这M个实数进行归一化，生成多个分数表示的概率，将最高概率对应的字符集中的字符作为修正后的字符。softmax函数，又称归一化指数函数，是逻辑函数的一种推广，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1。

图2是根据本说明书一些实施例所示的生成混淆特征矩阵的结构化流程图。

在一些实施例中，混淆特征矩阵可以基于词嵌入矩阵和混淆关系图，通过混淆模型获得。图可以表示为G=(V，E)，V为节点的集合，E为边的集合，对于每个节点i，都有其特征xi，可以用L行K列的矩阵X表示图中的所有节点的特征，L表示图中的节点数，K表示节点的特征向量的维度。在一些实施例中，混淆关系图中的节点与混淆字符集中的字符一一对应。混淆字符集为字符集中具有音近和/或形近关系的汉字组成的子集。在一些实施例中，混淆字符集可以从开源的数据集获取，该数据集由具有音近或者形近关系的汉字组成。在一些实施例中，也可以按照其他方式获取混淆字符集，例如：人工按照汉字的音近或者形近关系构造混淆字符集，不受本说明书的表述所限。

在一些实施例中，混淆关系图可以用于表示汉字之间的音近和/或形近关系。具体的，混淆关系图可以使用节点的特征向量矩阵（包括各节点的特征向量）以及邻接矩阵表示。在一些实施例中，混淆关系图可以包括音近混淆关系图以及形近混淆关系图。相应的，混淆关系图的邻接矩阵可以分别用音近邻接矩阵和形近邻接矩阵来表示。音近邻接矩阵和形近邻接矩阵均为混淆字符集中的N个字符构造的二元邻接矩阵，每个邻接矩阵大小均为

。在音近邻接矩阵或形近邻接矩阵中，第i个字符和第j个字符之间的边

，表示混淆字符集中第i个字符和第j个字符之间是否存在音近关系或形近关系。例如：混淆字符集中，第i个字符为“静”，第j个字符为“景”，两个字符发音相近，但是字形并不相似，因此在音近邻接矩阵中，

的值为1，而在形近邻接矩阵中，

的值为0。在一些实施例中，也可以使用其他形式的矩阵来表示混淆关系图，例如：度矩阵（Degree matrix）或者拉普拉斯矩阵(Laplacian matrix)等，不受本说明书的表述所限。

在一些实施例中，可以基于词嵌入矩阵生成混淆关系图中各个节点的初始特征向量，或称为初始混淆特征矩阵。具体的，可以将混淆字符集中的各个字符输入提取模型，提取模型的词嵌入层将混淆字符集中各个字符映射到词嵌入矩阵中以获得各字符的词嵌入向量，将混淆字符集中各个字符的词嵌入向量作为混淆关系图中各个节点的初始特征向量，关于提取模型的详细描述请参见步骤110。混淆模型和提取模型使用同一个词嵌入矩阵，可以使得混淆模型和提取模型在同一个词嵌入空间处理数据，从而确保混淆特征矩阵、修正矩阵以及前述的语义向量同属于一个词嵌入空间。

在一些实施例中，将混淆关系图的初始混淆特征矩阵以及邻接矩阵输入混淆模型，进行至少一次迭代处理，生成混淆特征矩阵。所述至少一次迭代处理可以包括图卷积处理以及基于注意力机制的图组合处理。关于混淆模型生成混淆特征矩阵的详细介绍可以参考图5的相关说明。

图3是根据本说明书一些实施例所示的生成修正矩阵的结构化流程图。

在一些实施例中，修正矩阵可以基于步骤110中描述的词嵌入矩阵和图2获取的混淆特征矩阵生成。具体的，对于字符集中的每一个字符，如果所述字符存在于混淆字符集中，则使用混淆特征矩阵中与所述字符对应的混淆特征向量作为修正矩阵中所述字符的修正向量，否则使用词嵌入矩阵中与所述字符对应的词嵌入向量作为修正矩阵中所述字符的修正向量。如图3所示，对于字符集的第i个字符，如果该字符同时为混淆字符集的第j个字符，则将混淆特征矩阵中的第j行赋值给修正矩阵的第i行，否则将词嵌入矩阵的第i行赋值给修正矩阵的第i行。

在一些实施例中，可以获取多个训练样本，训练样本包括待修正文本以及作为标签的已修正文本，基于多个训练样本进行模型训练，从而可以获得端到端的文本内容修正模型。

图4是根据本说明书一些实施例所示的文本内容修正模型的应用场景图。

在一些实施例中，可以使用图4中描述的文本内容修正模型对输入文本进行拼写检查。拼写检查可以分为两个子任务：检测和修正。在本说明书的实施例中，修正任务可以通过使用文本内容修正模型生成修正字符来完成，检测任务可以通过判断生成的字符与待检测文本中对应的字符是否一致来完成。例如：待检测文本为：“...遇到逆竟...”，将待检测文本输入文本内容修正模型，文本内容修正模型输出“...遇到逆境...”，对比输入与输出可知“竟”为拼写错误词语，应用程序可以在文本中对“竟”进行标注。

图5是在根据本说明书一些实施例所示的文本内容修正模型的结构示意图。在一些实施例中，文本内容修正模型可以包括提取模型、混淆模型以及全连接层。

所述提取模型用于处理待检测文本，以生产文本中各字符对应的语义向量。在一些实施例中，所述提取模型可以是BERT模型。关于提取模型的更多描述可以参见图1的相关说明。

所述混淆模型用于基于词嵌入矩阵和混淆关系图生产混淆特征矩阵。关于混淆模型的内容还可以参见图2的相关说明。

结合图5，在一些实施例中，混淆模型可以使用图卷积神经网络GCN来实现。图卷积神经网络可以完成的任务：给定一个N个节点的图，把图的初始节点特征X(x₁，x₂，...，x_n)输入映射函数f进行处理，可以得到图中各个节点的特征信息Z(z₁，z₂，...，z_n)，然后利用这个特征信息去实现各种任务。本说明书一些实施例可以基于GCN对混淆关系图节点的特征向量（即，混淆特征矩阵）的迭代更新结果，去替换词嵌入矩阵中的部分词嵌入向量，得到修正矩阵。

全连接层，用于对提取模型输出的语义向量进行处理，根据修正矩阵将其映射为字符集中的字符，得到修正后的字符。所述修正矩阵可以作为全连接层的权重矩阵。关于全连接层的内容还可以参见图1的相关说明。

在一些实施例中，如图5所示，混淆模型可以包括至少一层。通过实验表明：混淆模型的性能和层数有关，多层的混淆模型总体表现会更好，但是层数高于三层之后性能会下降，因此，在一些实施例中混淆模型可以包括三层。在一些实施例中，混淆模型的每一层可以对应于一轮迭代处理。混淆模型中的不同层可以执行相同或不同的运算。

例如，对于混淆模型中的前若干层（如，前两层）的任一层，可以执行以下运算步骤：

（一）分别基于音近邻接矩阵和形近邻接矩阵，对当前层的输入节点特征矩阵（或称为当前轮迭代中混淆特征矩阵）做图卷积运算，得到当前层的音近节点特征矩阵（或称为第二混淆特征矩阵）和形近节点特征矩阵（或称为第一混淆特征矩阵），计算公式为：

其中，

为形近邻接矩阵，

为音近邻接矩阵，

为当前层的输入节点特征矩阵，对于第一层（

等于0），输入节点特征矩阵为初始特征向量

，其包括混淆关系图中各个节点在词嵌入矩阵中对应的词嵌入向量。

为一个待训练的矩阵，

为音近节点特征矩阵，

为形近节点特征矩阵。通过邻接矩阵

或

与节点特征

进行的上述运算，对于每个混淆关系图中的节点对应的混淆特征向量，可以包含整个混淆字符集中的音近或形近关系信息，同时将音近/形近的字符在向量空间聚在一起，即音近/形近的字符对应的节点特征向量也相近。在本说明书的实施例中，为了使得混淆模型与提取模型所处的词嵌入空间保持一致，去掉了图卷积神经网络中常用的激活函数（例如，ReLU），即在图卷积处理中，混淆特征矩阵与邻接矩阵的运算为线性运算。

可以理解，混淆模型的第二层可以基于第一层的输出，再次进行图卷积运算，通过多层图卷积运算，可以使音近节点特征矩阵以及形近节点特征矩阵中的特征向量更好的表达混淆关系图中的节点及其与其他节点的近似信息。

在多层图卷积运算之后混淆模型可以包括基于注意力机制的图组合处理层（如第三层）。基于注意力机制的图组合处理层可以执行以下运算：

（二）基于注意力机制组合当前层的音近节点特征矩阵和形近节点特征矩阵，得到当前层（或图组合处理后）的节点特征矩阵。具体的，对于混淆关系图中的任一个节点，使用注意力系数组合该节点对应的音近节点特征向量和形近节点特征向量，得到该节点对应的节点特征向量。计算公式如下：

其中，

为图k（音近邻接矩阵

或者形近邻接矩阵

）的卷积运算结果的第i行，即

可以表示为公式（5）中的

可以表示为公式（5）中的

为公式（2）中的音近节点特征矩阵

的第i个节点特征向量，

为公式（3）中的形近节点特征矩阵

的第i个节点特征向量，

为图k中第i个字符的注意力系数。

可以通过公式（4）或者（5），从i等于1开始，到i等于N结束，对音近节点特征矩阵中的第i个和形近节点特征矩阵中的第i个，分别乘以各自的注意力系数，并将运算结果通过加法运算组合在一起，获得第i个节点的特征向量，所有节点的特征向量组成当前层的节点特征矩阵

。

在一些实施例中，对于混淆关系图中的任一个节点，注意力系数

可以基于该节点对应的音近节点特征向量和形近节点特征向量，使用打分函数得到。在一些实施例中，打分函数可以为归一化指数函数（softmax函数），计算公式如下：

其中，

是一个待学习的向量，可以多层共享。在一些实施例中，因为参与计算的有形近邻接矩阵和音近邻接矩阵两个邻接矩阵，因此k’的取值范围为（s，p），k用于表示是形近邻接矩阵还是音近邻接矩阵，公式（6）中

计算了公式（2）或公式（3）中得到的音近节点特征矩阵或形近节点特征矩阵中的第i个特征向量与向量

和超参数β的运算结果，将该运算结果作为softmax函数

中的

计算得出注意力系数

，

的值位于（0，1）范围内，且所有

的和为1。在一些实施例中，

的幅值可能会较大，因此引入超级参数β来调节

的幅值，从而控制注意力系数的平滑度。在一些实施例中，可以通过实验选择使得模型性能较佳的β的值，例如：3。

在一些实施例中，也可以使用其他方式来组合音近节点特征矩阵和形近节点特征矩阵，例如：平均池化（mean pooling）等，不受本说明书的表述所限。

在一些实施例中，混淆模型还可以设置输出层，用于执行以下运算：

（三）将当前层之前各层的节点特征矩阵进行累加后获得当前层的输出节点特征矩阵。计算公式如下：

通过公式（7）对各图卷积层的节点特征矩阵与图组合层的节点特征矩阵进行累加计算，可以使得混淆模型最终获得混淆特征矩阵的原始语义不随着模型层数的增加而改变。

在一些实施例中，可以将混淆模型任意层的节点特征矩阵作为混淆模型输出的所述混淆特征矩阵。

在一些实施例中，可以获取多个训练样本，训练样本包括待修正文本以及作为标签的已修正文本，基于多个训练样本对文本内容修正模型进行端到端训练，得到训练好的文本内容修正模型，与此同时还可以获得训练好的词嵌入矩阵和训练好的混淆特征矩阵。待修正文本可以为存在拼写错误词语的文本，已修正文本可以为将待修正文本中的错误词语正确修正后的文本。例如，待修正文本为“...因为妈妈或爸爸在看录音机...”，已修正文本为“...因为妈妈或爸爸在看录影机...”。可以将待修正文本作为文本内容修正模型的输入，通过不断调整文本内容修正模型的参数（包括提取模型（包括词嵌入矩阵）、混淆模型的参数以及全连接层的权重矩阵），使得文本内容修正模型可以对待修正文本中的错误词语作出正确修正，逐渐接近训练样本中的标签，得到训练好的文本内容修正模型。

在一些实施例中，通过提供其他内容的混淆关系图（如节点为混淆单词集中的单词），本说明书所述的文本内容修正系统也可以应用于汉语之外的其他语言，不受本说明书的表述所限。

如图6所示，文本内容修正的系统可以包括待检测文本获取模块610、语义向量提取模块620、字符修正模块630。

待检测文本获取模块610可以用于获取待检测文本。关于获取待检测文本的详细描述可以参见图1，在此不再赘述。

语义向量提取模块620可以用于生成所述待检测文本中各个字符对应的语义向量。关于生成所述待检测文本中各个字符对应的语义向量的详细描述可以参见图1，在此不再赘述。

字符修正模块630可以用于对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符。关于对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符的详细描述可以参见图1，在此不再赘述。

应当理解，图6所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器（固件）的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合（例如，固件）来实现。

需要注意的是，以上对于候选项显示、确定系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图6中披露的待检测文本获取模块610、语义向量提取模块620、字符修正模块630可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，待检测文本获取模块610、语义向量提取模块620可以是两个模块，也可以是一个模块同时具有获取待检测文本和语义向量提取的功能。诸如此类的变形，均在本说明书的保护范围之内。

本说明书实施例可能带来的有益效果包括但不限于：本说明书的实施例使用修正矩阵来确定修正字符，而修正矩阵中字符的修正向量使用包含了字符之间音近和/或形近信息的混淆特征向量表示，因此可以综合语义、发音和字形信息对待检测文本中的错误拼写进行修正，相对只根据字符的语义信息进行字符修正的方案，可以得到更好的修正效果。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种文本内容修正的方法，所述方法包括：

获取待检测文本；

生成所述待检测文本中各个字符对应的语义向量；

对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符；

所述修正矩阵包括所述字符集中各字符的修正向量，其基于词嵌入矩阵和混淆特征矩阵生成；所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图，通过混淆模型获得；所述混淆关系图表示字符之间的符号近似关系；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

2.根据权利要求1所述的方法，其中，所述生成所述待检测文本中各个字符对应的语义向量包括：

利用提取模型处理所述待检测文本，得到所述待检测文本中各个字符对应的语义向量；其中，所述提取模型的词嵌入层用于将字符映射到所述词嵌入矩阵。

3.根据权利要求1所述的方法，其中，所述对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符包括：

计算所述语义向量与所述修正矩阵中各字符的修正向量的相似度；

将相似度最大的修正向量对应的字符确定为所述修正后的字符。

4.根据权利要求1所述的方法，其中，所述对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符包括：

利用全连接层处理所述语义向量，得到所述修正后的字符；其中，所述全连接层的权重矩阵包括所述修正矩阵。

5.根据权利要求1所述的方法，其中，修正矩阵基于词嵌入矩阵和混淆特征矩阵生成包括：

对于字符集中的每一个字符，如果所述字符存在于混淆字符集中，则使用所述混淆特征矩阵中与所述字符对应的混淆特征向量作为所述修正矩阵中所述字符的修正向量，否则使用所述词嵌入矩阵中与所述字符对应的词嵌入向量作为所述修正矩阵中所述字符的修正向量；其中，所述混淆字符集是字符集的子集，所述混淆特征矩阵包括混淆字符集中各字符的混淆特征向量，所述混淆特征向量反映该字符与其他至少一个字符的符号近似信息。

6.根据权利要求5所述的方法，其中，所述混淆关系图的节点与混淆字符集中的字符一一对应；所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图，通过混淆模型获得包括：

获取混淆关系图对应的初始混淆特征矩阵以及邻接矩阵，所述混淆关系图的节点与混淆字符集中的字符一一对应；所述初始混淆特征矩阵包括混淆关系图中各节点对应字符在所述词嵌入矩阵中的词嵌入向量，所述邻接矩阵反映混淆关系图中两两节点对应的字符间的相关性；

利用所述混淆模型对所述初始混淆特征矩阵以及邻接矩阵进行至少一次迭代处理，得到所述混淆特征矩阵，所述混淆模型包括图卷积神经网络。

7.根据权利要求6所述的方法，其中，所述混淆关系图包括形近混淆关系图和/或音近混淆关系图；所述至少一次迭代处理包括图卷积处理以及基于注意力机制的图组合处理。

8.一种文本内容修正的系统，所述系统包括：

待检测文本获取模块，用于获取待检测文本；

语义向量提取模块，生成所述待检测文本中各个字符对应的语义向量；

字符修正模块，用于对于每个所述语义向量，确定该语义向量在修正矩阵中对应的修正向量，进而将所述修正向量对应的字符作为修正后的字符；

9.一种文本内容修正的装置，其中，所述装置包括至少一个处理器以及至少一个存储器；

所述至少一个存储器用于存储计算机指令；

所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1~7中任一项所述的方法。

10.一种文本修正模型系统，所述系统包括：

提取模型，用于生成待检测文本中各个字符对应的语义向量；

混淆模型，用于基于词嵌入矩阵和混淆关系图生成混淆特征矩阵，所述混淆关系图表示字符之间的符号近似关系；

以及，全连接层，用于对每个所述语义向量进行处理，得到该语义向量在字符集中对应的字符；其中，全连接层的权重矩阵包括所述字符集中各字符的修正向量，所述权重矩阵基于词嵌入矩阵和所述混淆特征矩阵生成；所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

11.根据权利要求10所述的模型系统，其中，所述提取模型包括BERT模型。

12.根据权利要求10所述的模型系统，其中，所述混淆模型用于对混淆关系图对应的初始混淆特征矩阵以及邻接矩阵进行至少一次迭代处理，得到所述混淆特征矩阵；

其中，所述混淆关系图的节点与混淆字符集中的字符一一对应，所述初始混淆特征矩阵包括图谱中各节点对应字符在所述词嵌入矩阵中的词嵌入向量，所述邻接矩阵反映图谱中两两节点对应的字符间的相关性；所述混淆字符集是字符集的子集。

13.根据权利要求12所述的模型系统，其中，所述混淆关系图包括形近混淆关系图谱以及音近混淆关系图谱；所述至少一次迭代处理包括图卷积处理以及基于注意力机制的图组合处理。

14.一种混淆特征矩阵获取方法，所述混淆特征矩阵包括混淆字符集中各字符的混淆特征向量，所述混淆特征向量反映该字符与其他至少一个字符的符号近似信息，其中，所述方法包括：

15.根据权利要求14所述的方法，其中，通过混淆模型处理词嵌入矩阵和混淆关系图，获得所述混淆特征矩阵，包括：

获取混淆关系图对应的初始混淆特征矩阵以及邻接矩阵，所述混淆关系图的节点与混淆字符集中的字符一一对应；所述初始混淆特征矩阵包括混淆关系图中各节点对应字符在所述词嵌入矩阵中的词嵌入向量，所述邻接矩阵反映混淆关系图中两两节点对应的字符间的相关性；混淆字符集是所述字符集的子集；

利用混淆模型对所述初始混淆特征矩阵以及邻接矩阵进行至少一次迭代处理，得到所述混淆特征矩阵，所述混淆模型包括图卷积神经网络。

16.根据权利要求14所述的方法，其中，所述混淆关系图包括形近混淆关系图以及音近混淆关系图；所述至少一次迭代处理包括图卷积处理以及基于注意力机制的图组合处理。

17.根据权利要求15所述的方法，其中，其中图卷积处理包括分别对形近混淆关系图以及音近混淆关系图进行处理。

18.根据权利要求17所述的方法，对形近混淆关系图或者音近混淆关系图谱，所述图卷积处理包括：

对当前迭代轮次中的混淆特征矩阵以及邻接矩阵进行线性运算，得到更新后的混淆特征矩阵。

19.根据权利要求15所述的方法，其中，所述基于注意力机制的图组合处理，包括，对于混淆字符集中各字符：

将该字符在形近混淆关系图对应的第一混淆特征矩阵中的向量与其在音近混淆关系图对应的第二混淆特征矩阵中的向量，加权求和，得到该字符经过图组合处理后的向量。

20.根据权利要求19所述的方法，其中，所述至少一次迭代处理还包括，对于混淆字符集中各字符：

将该字符，在各轮图卷积处理得到的形近混淆关系图对应的第一混淆特征矩阵中的向量、在各轮图卷积处理得到的音近混淆关系图对应的第二混淆特征矩阵中的向量以及经过图组合处理后的向量进行累加，得到该字符在所述混淆特征矩阵中的混淆特征向量。