CN111428496B

CN111428496B - 文本分词模型的训练方法、分词处理方法及装置、介质

Info

Publication number: CN111428496B
Application number: CN202010214706.3A
Authority: CN
Inventors: 姜佳良; 李响; 孙于惠; 李京蔚
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-08-15
Anticipated expiration: 2040-03-24
Also published as: CN111428496A

Abstract

本公开是关于一种文本分词模型的训练方法、分词处理方法及装置、介质，涉及自然语言处理领域。本公开提供的文本分词模型的训练方法中，文本分词模型包括特征提取器、分词分类器、声调分类器，训练方法包括：获取训练文本，训练文本中的每个字标注有第一分词标签以及第一声调标签；将训练文本输入特征提取器，提取训练文本的特征信息；将训练文本的特征信息分别输入分词分类器和声调分类器；根据分词分类器的输出结果确定分词输出误差信息，根据声调分类器的输出结果确定声调输出误差信息；根据分词输出误差信息和声调输出误差信息，调整文本分词模型。本公开技术方案中引入声调特征，并结合分词特征，对分词分类器、特征提取器进行优化，提高整个中文分词算法的准确度。

Description

文本分词模型的训练方法、分词处理方法及装置、介质

技术领域

本公开涉及自然语言处理领域，尤其是涉及一种文本分词模型的训练方法、分词处理方法及装置、介质。

背景技术

在自然语言处理任务中，通常来说是以词为最小维度。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符。所以对中文的分词任务成为了中文自然语言处理任务的基础，也就是所谓的中文分词。

由于中文的特点，中文分词并不能简单地划分。例如“他说的确实在理”这句话中，“的确”，“确实”，“实在”，“在理”都是中文中有的词汇。可见，根据规则难以直接判断如何分词。而分词的准确性直接影响到整个自然语言处理任务的效果。

经过算法不断地发展，相关技术中的中文分词任务普遍被抽象为序列标注问题。以最常见的4-tag标注为例，对于一个句子中的每一个字,认为它属于[S，B，M，E]四个标签中的一个。其中S代表该字为单字词，B代表该字为一个词的开始字，M代表该字为一个词的中间字,，E代表该字为一个词的最后一个字。那么分词任务就抽象为对于一句话，标注出其中每个字的标签，即得到每个字的分词特征。

相关技术中，通常采用神经网络+分类器的做法实现分词特征的提取。即利用神经网络生成特征提取器，输入句子后即可输出抽象特征。将输出的抽象特征输入到分类器中，分类器输出每个字所属的标签。通常来说特征提取器采用encoder结构,分类器采用crf算法。

发明内容

为克服相关技术中存在的问题，本公开提供一种文本分词模型的训练方法、分词处理方法及装置、介质。

根据本公开实施例的第一方面，提供一种文本分词模型的训练方法，所述文本分词模型包括特征提取器、分词分类器、声调分类器，所述训练方法包括：

获取训练文本，所述训练文本中的每个字标注有第一分词标签以及第一声调标签；

将所述训练文本输入所述特征提取器，提取所述训练文本的特征信息；

将所述训练文本的特征信息分别输入所述分词分类器和所述声调分类器；

根据所述分词分类器的输出结果确定分词输出误差信息，根据所述声调分类器的输出结果确定声调输出误差信息；

根据所述分词输出误差信息和声调输出误差信息，调整所述文本分词模型。

其中，上述文本分词模型的训练方法中，所述根据所述分词分类器的输出结果确定分词输出误差信息，包括：

所述分词分类器输出所述训练文本中每个字的第二分词标签，将所述训练文本中每个字的第二分词标签分别与所述字的第一分词标签进行对比，确定所述分词输出误差信息。

其中，上述文本分词模型的训练方法中，所述根据所述声调分类器的输出结果确定声调输出误差信息，包括：

所述声调分类器输出所述训练文本中每个字的第二声调标签，将所述训练文本中每个字的第二声调标签分别与所述字的第一声调标签进行对比，确定所述声调输出误差信息。

其中，上述文本分词模型的训练方法中，所述根据所述分词输出误差信息和声调输出误差信息，调整所述文本分词模型，包括：

根据所述分词输出误差信息和声调输出误差信息，分别调整所述分词分类器和所述声调分类器。

其中，上述文本分词模型的训练方法，还包括：

分别调整所述分词分类器和所述声调分类器后，将所述训练文本的特征信息分别输入调整后的分词分类器以及声调分类器；

根据调整后的分词分类器以及声调分类器的输出结果，再次确定分词输出误差信息和声调输出误差信息；根据再次确定的分词输出误差信息和声调输出误差信息，调整所述特征提取器。

其中，上述文本分词模型的训练方法中，所述根据再次确定的分词输出误差信息和声调输出误差信息，调整所述特征提取器，包括：

根据再次确定的分词输出误差信息和声调输出误差信息，按照预设方式生成用于调整所述特征提取器的合成误差信息；

根据所述合成误差信息，调整所述特征提取器；

其中，所述预设方式包括如下任一种：

计算所述分词输出误差信息和声调输出误差信息的简单平均值，将所述简单平均值确定为所述合成误差信息；

根据所述分词输出误差信息对应的权重信息，和所述声调输出误差信息对应的权重信息，计算所述分词输出误差信息和所述声调输出误差信息的加权平均值，将所述权重平均值确定为所述合成误差信息，其中，所述分词输出误差信息对应的权重信息表征，分词特征在特征提取器的特征提取能力中的比重；所述声调输出误差信息对应的权重信息表征，声调特征对特征提取器的特征提取能力中的比重。

其中，上述文本分词模型的训练方法中，所述声调标签包括一声、二声、三声、四声和轻声。

根据本公开实施例的第二方面，提供一种文本分词模型实现分词处理的方法，所述文本分词模型包括特征提取器和分词分类器，其中，所述特征提取器和分词分类器，是通过如上所述的文本分词模型的训练方法得到的，所述分词处理的方法包括：

将待处理的文本输入所述特征提取器中，提取所述文本的特征信息；

将所述文本的特征信息输入所述分词分类器中，得到所述文本中每个字的分词处理结果。

根据本公开实施例的第三方面，提供一种文本分词模型的训练装置，包括：

获取模块，用于获取训练文本，所述训练文本中的每个字标注有第一分词标签以及第一声调标签；

特征提取模块，用于将所述训练文本输入待训练的文本分词模型的特征提取器，提取所述训练文本的特征信息；

输入模块，用于将所述训练文本的特征信息分别输入所述文本分词模型的分词分类器和声调分类器；

误差信息生成模块，用于根据所述分词分类器的输出结果确定分词输出误差信息，根据所述声调分类器的输出结果确定声调输出误差信息；

调整模块，用于根据所述分词输出误差信息和声调输出误差信息，调整所述文本分词模型。

其中，上述文本分词模型的训练装置中，所述误差信息生成模块，包括：

第一子模块，用于获取所述分词分类器输出的所述训练文本中每个字的第二分词标签，将所述训练文本中每个字的第二分词标签分别与所述字的第一分词标签进行对比，确定所述分词输出误差信息。

第二子模块，用于获取所述声调分类器输出的所述训练文本中每个字的第二声调标签，将所述训练文本中每个字的第二声调标签分别与所述字的第一声调标签进行对比，确定所述声调输出误差信息。

其中，上述文本分词模型的训练装置中，所述调整模块，包括：

第一子模块，用于根据所述分词输出误差信息和声调输出误差信息，分别调整所述分词分类器和所述声调分类器。

其中，上述文本分词模型的训练装置中，所述调整模块还包括第二子模块：

所述输入模块，用于将所述训练文本的特征信息分别输入所述调整模块的第一子模块调整后的分词分类器和声调分类器；

所述误差信息生成模块，用于根据调整后的分词分类器以及声调分类器的输出结果，再次确定分词输出误差信息和声调输出误差信息；第二子模块，用于根据再次确定的分词输出误差信息和声调输出误差信息，调整所述特征提取器。

其中，上述文本分词模型的训练装置中，所述第二子模块，包括：

合成误差信息生成子模块，用于根据再次确定的分词输出误差信息和声调输出误差信息，按照预设方式生成用于调整所述特征提取器的合成误差信息；

特征提取器调整子模块，用于根据所述合成误差信息，调整所述特征提取器；

其中，所述预设方式包括如下任一种：

根据本公开实施例的第四方面，提供一种文本分词模型的训练装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将所述训练文本输入待训练的文本分词模型的特征提取器，提取所述训练文本的特征信息；

将所述训练文本的特征信息分别输入所述文本分词模型的分词分类器和声调分类器；

根据本公开实施例的第五方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种文本分词模型的训练方法，所述方法包括：

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开技术方案引入字符的声调特征做为训练文本分词模型的特征信息，这样，结合分词分类器得到的分词分类结果，可以反映文本分词模型的输出结果与目标结果的误差，及时调整文本分词模型，使得文本分词模型输出的分词结果更贴近目标结果，从而提高整个中文分词模型的训练效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种文本分词模型的训练方法的流程图。

图2是根据一示例性实施例示出的一种文本分词模型实现分词处理的方法的流程图。

图3是根据一示例性实施例示出的一种文本分词模型的训练方法的流程图。

图4是根据一示例性实施例示出的一种文本分词模型的训练装置的流程图。

图5是根据一示例性实施例示出的一种文本分词模型的训练装置的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

相关技术中，采用的特征提取器通常是神经网络结构，而神经网络结构提出的特征具有黑盒的特点，难以描述具体学习到的特征。而且直接输入的文本对象，得到分词特征。而文本中除了分词特征以外，还具备发音属性，即文本中每个字符具有声调特征，根据不同的发音属性可以对文本进行更准确地词语划分，从而优化整个分词算法的效果。

基于上述，本公开提供一种文本分词模型的训练方法及装置、介质。

图1是根据一示例性实施例示出的一种文本分词模型的训练方法的实施方式的流程图。该文本分词模型的训练方法中的文本分词模型包括特征提取器、分词分类器、声调分类器。如图1所示，该方法包括以下步骤：

在步骤S101中，获取训练文本，训练文本中的每个字标注有第一分词标签以及第一声调标签；

其中，训练文本中的每个字标注的第一分词标签表示，训练文本中每个字对应的正确的分词标签。即每个字的第一分词标签标注出了该字的分词分类结果。其中，第一分词标签可以采用4-tage的标注方式。例如，训练文本中每个字的第一分词标签可以是[S，B，M，E]四个标签中的一个。

训练文本中的每个字标注的第一声调标签表示，训练文本中每个字对应的正确的声调标签。即每个字的第一声调标签标注出了该字的声调分类结果。其中，第一声调标签可以采用5-tage的标注方式。例如，预设的声调标注方式可以是，将声调标注为“一声”、“二声”、“三声”、“四声”和“轻声”，或将声调标注为“阴平”、“阳平”、“上声”、“去声”和“轻声”。即训练文本中每个字的第一声调标签可以是“一声”、“二声”、“三声”、“四声”和“轻声”五个标签中的一个。

在步骤S102中，将训练文本输入特征提取器，提取训练文本的特征信息；

本实施例中，文本分词模型中的特征提取器可采用BERT(Bidirectional EncoderRepresentations from Transformers)或类似的语言模型实现，或者采用RNN(RecurrentNeural Network,循环神经网络)模型实现。例如，特征提取器可以采用encoder(自编码器)结构的神经网络模型实现。特征提取器采集的特征提取算法可包括各种文本的特征提取算法。通过特征提取器可以提取的文本的特征信息包括可用于分词处理中的预处理的各类特征信息。例如，语句向量、语义向量等等。

在步骤S103中，将训练文本的特征信息分别输入分词分类器和声调分类器；

文本分词模型中的分词分类器主要根据训练文本的特征信息进行分词处理，即将训练文本的特征信息输入分词分类器后，分词分类器可以输出训练文本中的每个字的分词特征信息(例如，分词标签)，得到分词处理的结果。本文中所涉及的分词特征信息，可以包括用于标记字所属词语的各种信息。例如，可以按照4-tage标注方式，得到训练文本中每个字的分词标签，得到整个训练文本的分词处理的结果。

文本分词模型中的声调分类器主要根据训练文本的特征信息进行声调处理，即将训练文本的特征信息输入声调分类器后，声调分类器可以输出训练文本中的每个字的声调特征信息(例如，声调标签)，从而得到整个训练文本的声调处理的结果。本文中涉及的声调特征信息，可以包括用于标记字的声调的信息，例如，可以按照预设的声调标注方式，输出训练文本中每个字的声调标签为“一声”、“二声”、“三声”、“四声”和“轻声”中的一种，或输出的声调标签为“阴平”、“阳平”、“上声”、“去声”和“轻声”中的一种。本实施例中，分词处理和声调处理时，可以采用各种分类算法实现。例如，采用CRF(条件随机场)算法进行分词处理或声调处理。

在步骤S104中，根据分词分类器的输出结果确定分词输出误差信息，根据声调分类器的输出结果确定声调输出误差信息；

本实施例中，确定的分词输出误差信息表示，分词分类器的输出结果(即分词处理得到的训练文本中每个字的分词结果)与训练文本的分词处理的目标结果(即训练文本中每个字的第一分词标签)的差异。确定的声调输出误差信息表示，声调分类器的输出结果(即声调处理得到的训练文本中每个字的声调分类结果)与训练文本的声调处理的目标结果(即训练文本中每个字的第一声调标签)的差异。

在步骤S105中，根据分词输出误差信息和声调输出误差信息，调整文本分词模型。

其中，由于中文词语划分规则比较复杂，因此，分词处理时可能会出现多种分词结果。但是划分规则不相同时，划分得到的词语中各个字符的发音可能不相同。例如，文本中出现“给”，其前一个字符为“分”，后一个字符为“养”。根据分词规则，可能划分词语为“分给”，也可能划分词语为“给养”。但是，在词语“分给”和“给养”中，字符“给”的声调是不相同的。因此，可以通过提取训练文本中的声调特征，为字符“给”标注声调，从而使用声调特征信息，辅助文本分词模型的分词分类训练。即本实施例将分词输出误差信息，以及声调输出误差信息，同时反馈给本实施例的文本分词模型，用于触发文本分词模型的调整操作，从而实现对文本分词模型的训练。这样，通过调整的文本分词模型进行分词处理时，可以增强特征提取能力，并提高分词处理的准确度。

由上述描述可知，本实施例在分词特征的基础上，增加了字符的声调特征做为训练文本分词模型的新的分词分类基础，这样使得训练过程中的文本分词模型提取的特征向量更加多维化，可以增强文本分词模型的训练效果，从而提高整个中文分词算法的准确度。

本实施例还提供一种文本分词模型的训练方法，其中，根据分词分类器的输出结果确定分词输出误差信息，包括：

分词分类器输出训练文本中每个字的第二分词标签，将训练文本中每个字的第二分词标签分别与字的第一分词标签进行对比，确定分词输出误差信息。

其中，分词分类器输出训练文本中每个字的第二分词标签，即为分词分类器进行分词处理得到的分词处理结果。训练文本中每个字的第一分词标签，为训练文本中每个字的目标分词处理结果。因此，将训练文本中每个字的第二分词标签分别与字的第一分词标签进行对比，可以确定分词分类器的分词处理结果与目标分词处理结果之间的误差。当分词分类器输出的训练文本中有一个或多个字的分词处理结果与该字的目标分词处理结果不一致，则认为分词分类器输出的分词处理结果存在误差。此时，可以根据分词分类器输出的分词处理结果中与目标分词处理结果中不一致的内容，确定分词输出误差信息。

本实施例还提供一种文本分词模型的训练方法，其中，根据声调分类器的输出结果确定声调输出误差信息，包括：

声调分类器输出训练文本中每个字的第二声调标签，将训练文本中每个字的第二声调标签分别与字的第一声调标签进行对比，确定声调输出误差信息。

其中，声调分类器输出训练文本中每个字的第二声调标签，即为声调分类器进行声调处理得到的声调处理结果。训练文本中每个字的第一声调标签，为训练文本中每个字的目标声调处理结果。因此，将训练文本中每个字的第二声调标签分别与字的第一声调标签进行对比，可以确定声调分类器的声调处理结果与目标声调处理结果之间的误差。当声调分类器输出的训练文本中有一个或多个字的声调处理结果与该字的目标声调处理结果不一致，则认为声调分类器输出的声调处理结果存在误差。此时，可以根据声调分类器输出的声调处理结果中与目标声调处理结果中不一致的内容，确定声调输出误差信息。

本实施例还提供一种文本分词模型的训练方法，其中，根据分词输出误差信息和声调输出误差信息，调整文本分词模型，包括：

根据分词输出误差信息和声调输出误差信息，分别调整分词分类器和声调分类器。

其中，调整分词分类器的操作，可以在训练文本的特征信息输入分词分类器后，根据分词分类器的输出结果与目标分词结果进行比对，确定分词分类器的输出结果与目标分词结果之间的误差，，即确定分词输出误差信息。调整分词分类器时，可以根据分词输出误差信息更新分词分类器采用的分类算法的参数，从而实现调整分词分类器的效果。相应地，调整声调分类器的操作，可以在训练文本的特征信息输入声调分类器后，根据声调分类器的输出结果与目标声调分类结果进行比对，确定声调分类器的输出结果与目标声调分类结果之间的误差，即确定声调输出误差信息。调整声调分类器时，可以根据声调输出误差信息更新声调分类器采用的分类算法的参数，从而实现调整声调分类器的效果。

从上述描述可知，分词输出误差信息可以直接反映出分词分类器的缺陷，声调输出误差信息可以直接反映出声调分类器的缺陷。因此，根据分词输出误差信息及声调输出误差信息分别调整分词分类器和声调分类器的操作，可以保证分词分类器及声调分类器的输出结果更贴近目标结果，即提高分词分类器和声调分类器输出结果的准确度。而分词分类器和声调分类器做为用于训练的文本分词模型的组成部分，其输出结果的准确度，直接影响文本分词模型的输出结果的准确度。可见，本实施例在文本分词模型的训练过程中，通过调整分词分类器以及声调分类器的方式，提高了整个文本分词模型的训练效果。

本实施例还提供一种文本分词模型的训练方法，该方法还包括：

分别调整分词分类器和声调分类器后，将训练文本的特征信息分别输入调整后的分词分类器以及声调分类器；

根据调整后的分词分类器以及声调分类器的输出结果，再次确定分词输出误差信息和声调输出误差信息；

根据再次确定的分词输出误差信息和声调输出误差信息，调整特征提取器。

本实施例考虑到，针对文本分词模型的训练目的，需要及时获调整分词分类器和声调分类器后的效果，因此，可以将训练文本的特征信息分别输入调整后的分词分类器和声调分类器。这样，根据分词分类器的输出结果，可以再次确定分词输出误差信息，根据声调分类器的输出结果，再次确定声调输出误差信息。由于此时，已对分词分类器和声调分类器进行过了调整，因此，再次确定的分词输出误差信息和声调输出误差信息，可能是特征提取器的缺陷造成的。因此，可以根据再次确定的分词输出误差信息和声调输出误差信息，调整特征提取器。调整特征提取器的目的在于，提高特征提取器提取的特征信息的准确度。由于，特征提取器提取的特征信息，是分词分类器和声调分类器的输入信息。因此，随着特征提取器提取的特征信息的准确度的提高，分词分类器和声调分类器的输出结果的准确度也会提高，最终提高文本分词模型整体的精确度。

可见，本实施例根据分词输出误差信息和声调输出误差信息调整文本分词模型时，优先调整分词分类器以及声调分类器，再优化特征提取器的处理能力，从而提高整个分词处理的效果。

本实施例还提供一种文本分词模型的训练方法，其中，根据再次确定的分词输出误差信息和声调输出误差信息，调整特征提取器，包括：

根据再次确定的分词输出误差信息和声调输出误差信息，按照预设方式生成用于调整特征提取器的合成误差信息；

根据合成误差信息，调整特征提取器；

其中，预设方式包括如下任一种：

计算分词输出误差信息和声调输出误差信息的简单平均值，将简单平均值确定为合成误差信息；

根据分词输出误差信息对应的权重信息，和声调输出误差信息对应的权重信息，计算分词输出误差信息和声调输出误差信息的加权平均值，将加权平均值确定为合成误差信息，其中，分词输出误差信息对应的权重信息表征，分词特征在特征提取器的特征提取能力中的比重，声调输出误差信息对应的权重信息表征，声调特征对特征提取器的特征提取能力中的比重。

其中，计算分词输出误差信息和声调输出误差信息的简单平均值，表示将计算分词输出误差信息和声调输出误差信息直接相加后，求简单平均值即可确定合成误差信息。此时，可以认为分词输出误差信息与声调输出误差信息，对文本分词模型的处理能力的影响程度是相同的。

计算分词输出误差信息和声调输出误差信息的加权平均值，将加权平均值确定为合成误差信息，表示分词输出误差信息和声调输出误差信息，对文本分词模型的处理能力的影响程度是不相同。通过分词输出误差信息对应的权重信息，以及声调输出误差信息对应的权重信息即可区分出分词特征对文本分词模型的处理能力的影响程度。

其中，分词输出误差信息对应的权重信息和声调输出误差信息对应的权重信息均可以是默认设置的，也可以更新设置的。由于实际应用的需求，也可以调整分词输出误差信息和声调输出误差信息对应的权重信息。

本实施例中，计算分词输出误差信息和声调输出误差信息的加权平均值时，可以采用如下公式：

式中，Δε为合成误差信息，ε₁为分词输出误差信息，α为分词输出误差信息对应的权重，ε₂为声调输出误差信息，β为声调输出误差信息对应的权重。

可见，本实施例中，确定合成误差信息时，考虑到了分词特征以及声调特征对特征提取器的特征提取能力中的比重。这样得到的合成误差信息可以更准确地指示出，特征提取器与理想的特征提取器之间的差异。根据此差异调整特征提取器后，可以使得特征提取器提取出的特征信息更贴近目标特征信息，从而可以提高整个文本分词模型的训练效果。

根据合成误差信息调整特征提取器时，可以更新特征提取算法中的模型参数，主要用于调整特征提取器的特征提取能力，即表示调整后的特征提取器可以提取出更多维度的特征信息，用于分词处理以及声调处理。基于这种优化的特征提取器，可以提高特征提取的效果，进而增强整个文本分词模型处理分词的准确度，提高文本分词模型的训练效果。

本实施例还提供一种文本分词模型的训练方法，其中，声调标签包括一声、二声、三声、四声和轻声。

其中，为文本中的每个字进行标注声调标签时，可以采用CRF算法，利用5-tag标签方式，为文本中的每个字符标注声调标注信息。例如，字符的声调标注序列为[a，b，c，d，e]，其中，a，b，c，d，e中仅有一位的取值为有效值，其他位取值均为无效值。设置a的取值为有效值时，表示字符声调为一声。设置b的取值为有效值时，表示字符声调为二声。设置c的取值为有效值时，表示字符声调为三声。设置d的取值为有效值时，表示字符声调为四声。设置e的取值为有效值时，表示字符声调为轻声。

如前文所介绍的，在不同的分词规则中，字的声调可能发生变化，因此可以通过增加声调特征以提高文本分词模型的训练效果。例如，多音字“的”，其声调可以是一声、、四声或轻声。当为字符“的”设置声调标注信息为轻声时，表示其为非单字词语中的最后字。当为字符“的”设置声调标注信息为一声时，表示其为单字词语。这样，为文本的中每个字标注声调标签后，可及时地反馈出文本分词模型输出的分词处理结果的准确度，从而及时调整文本分词模型，从而达到提高文本分词模型的分词处理能力的效果。

图2是根据一示例性实施例示出的一种文本分词模型实现分词处理的方法的流程图。在此实施例中，文本分词模型包括特征提取器和分词分类器，其中，特征提取器和分词分类器，是通过如上所述的文本分词模型的训练方法得到的。分词处理的方法如图2所示，包括如下操作：

在步骤201中，将待处理的文本输入特征提取器中，提取文本的特征信息；

其中，通过特征提取器可以提取的文本的特征信息包括，可用于分词处理中的预处理的各类特征信息。例如，语句向量、语义向量等等。

在步骤202中，将文本的特征信息输入分词分类器中，得到文本中每个字的分词处理结果。

本实施例中，将文本的特征信息输入分词分类器后，分词分类器可以输出待处理文本中的每个字的分词特征信息(例如，分词标签)，得到分词处理的结果。本文中所涉及的分词特征信息，可以包括用于标记字所属词语的各种信息。例如，可以按照4-tage标注方式，得到待处理文本中每个字的分词标签。由于，本实施例中文本分词模型所包括的特征提取器和分词分类器，是通过如上述文本分词模型的训练方法得到的。因此，利用该文本分词模型对待处理文本进行分词处理，得到的分词处理的结果的准确度较高。

图3是根据一示例性实施例示出的文本分词模型的训练方法的一种实施方式的流程图。在此实施例中，假设训练文本为一句话，“他说的确实在理”，分词处理的目标结果划分为“他”“说的”“确实”“在理”。其中,训练文本中每个字的第一分词标签为，“他”的分词标注为[1，1，0，1]，表示为单字词。“说”的分词标注为[0，1，0，0]，表示为非单字的词语且为词语的开始字。“的”的分词标注为[0，0，0，1]，表示为非单字的词语且为词语的最后字。“确”的分词标注为[0，1，0，0]，表示为非单字的词语且为词语的开始字。“实”的分词标注为[0，1，0，1]，表示为非单字的词语且为词语的最后字。“在”的分词标注为[0，1，0，0]，表示为非单字的词语且为词语的开始字。“理”的分词标注为[0，0，0，1]，表示为非单字的词语且为词语的最后字。

训练文本中每个字的第一声调标签为：“他”的声调标注为[1，0，0，0，0]，表示为一声调。“说”的声调标注为[0，0，0，0，0]，表示为一声调。“的”的声调标注为[0，0，0，0，1]，表示为轻声调。“确”的声调标注为[0，0，0，1，0]，表示为四声调。“实”的声调标注为[0，1，0，0，0]，表示为二声调。“在”的声调标注为[0，0，0，1，0]，表示为四声调。“理”的声调标注为[0，1，0，0，0]，表示为二声调。

基于上述训练文本，进行文本分词模型的训练方法，如图3所示，包括以下步骤：

步骤S301，使用特征提取器提取训练文本的特征信息。

上述步骤S301中，得到的特征信息可以是语句向量。

步骤S302(a)，将训练文本的特征信息输入分词分类器，根据分词分类器输出的分词处理的结果与训练文本的分词处理的目标结果进行对比，首次确定分词输出误差信息，进入步骤S303(a)。

假设分词处理将训练文本划分为“他”“说”“的确”“实在理”。以4-tag标注方式进行分词处理，其中，“他”的分词标注为[1，1，0，1]，表示为单字词。“说”的分词标注为[1，1，0，1]，表示为单字词。“的”的分词标注为[0，1，0，0]，表示为非单字的词语且为词语的开始字。“确”的分词标注为[0，0，0，1]，表示为非单字的词语且为词语的最后字。“实”的分词标注为[0，1，0，1]，表示为非单字的词语且为词语的开始字。“在”的分词标注为[0，0，1，0]，表示为非单字的词语且为词语的中间字。“理”的分词标注为[0，0，0，1]，表示为非单字的词语且为词语的最后字。

将上述分词分类器的分词处理的结果与目标结果进行对比，发现之间存在较大误差，此时，可以将分词处理的结果与目标结果之间的差异信息做为分词输出误差信息。

步骤S302(b)，根据训练文本的特征信息进行声调处理，根据声调处理的结果与训练文本的声调处理的目标结果进行对比，首次确定声调输出误差信息，进入步骤S303(b)。

假设声调处理为字符配置声调标签，得到的声调处理的结果为：“他”的声调标注为[1，0，0，0，0]，表示为一声调。“说”的声调标注为[0，0，0，0，0]，表示为一声调。“的”的声调标注为[1，0，0，0，0]，表示为一声调。“确”的声调标注为[0，0，0，1，0]，表示为四声调。“实”的声调标注为[0，1，0，0，0]，表示为二声调。“在”的声调标注为[0，0，0，1，0]，表示为四声调。“理”的声调标注为[0，1，0，0，0]，表示为二声调。

将上述声调分类器的声调处理的结果与目标结果之间的差屏较小，此时可以将声调处理的结果与目标结果之间的差异信息确定为声调输出误差信息。

步骤S303(a)，根据首次确定的分词输出误差信息，调整分词分类器,进入步骤S304(a)；

步骤S303(b)，根据首次确定的声调输出误差信息，调整声调分类器，进入步骤S304(b)；

步骤S304(a)，将训练文本的特征信息再次输入分词分类器，根据分词分类器输出的分词处理的结果与训练文本的分词处理的目标结果进行对比，再次确定分词输出误差信息，进入步骤S305。

步骤S304(b)，将训练文本的特征信息再次输入声调分类器，根据声调分类器输出的声调处理的结果与训练文本的声调处理的目标结果进行对比，再次确定声调输出误差信息，进入步骤S305。

本实施例中，上述步骤S302至步骤S304的操作，分为a和b两部分，这两部分操作可并行处理。例如，可利用两个并行的线程同时执行步骤S302(a)至步骤S304(a)的操作，以及步骤S302(b)至步骤S304(b)的操作。在其它应用场景中，上述a和b两部分也可以按照时间先后顺序执行。例如，先执行步骤S302(a)至步骤S304(a)的操作，再执行步骤S302(b)至步骤S304(b)的操作。或者，先执行步骤S302(b)至步骤S304(b)的操作,再执行步骤S302(a)至步骤S304(a)的操作。

步骤S305，根据再次确定的分词输出误差信息和声调输出误差信息，调整特征提取器；

由于在特征提取器中，可认为是以分词特征为主要特征，声调特征为辅助分词处理的一种特征。即对特征提取器而言，分词分类器的误差对特征提取的影响比较大.。因此，可以以分词输出误差信息为主，调整特征提取器。例如，可以为分词输出误差信息设置一个加权系数a，为声调输出误差信息设置一个加权系数b，其中，a大于b。对分词输出误差信息和声调输出误差信息进行加权叠加处理后，输入给特征提取器。由特征提取器根据输入的误差信息再次进行训练学习，从而得到调整的特征提取器。

可见，本实施例将分词分类器返回的分词输出误差信息和声调分类器返回的声调输出误差信息，同时输入至特征提取器，用于训练特征提取器。这样，训练后得到的更新的特征提取器可以学习到包含字的声调特征的特征信息，增强了特征提取器的特征提取的能力，最终达到优化整个中文分词模型的效果。

一示例性实施例示出一种文本分词模型实现分词处理的方法。该方法使用由特征提取器和分词分类器构成的文本分词模型实施。其中，所使用的文本分词模型中的特征提取器和分词分类器是，经过上述实施例提供的文本分词模型的训练方法得到的。

该方法使用文本分词模型中的特征提取器提取待处理文本的特征信息，根据将待处理文本的特征信息输入分词分类器进行分词处理，得到分词处理结果。

由于本实施例中文本分词模型的分词分类器及特征提取器，均按照上述实施例公开的训练方法进行了训练。因此，该中文本分词模型输出的分词处理结果的准确度较高，即使用此中文本分词模型实现的分词处理结果更贴近正确的分词处理结果。

其中，特征提取器及分词分类器的具体处理方式已经在上述文本分词模型的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种文本分词模型的训练装置的结构图。如图4所示，该装置包括获取模块41、特征提取模块42、输入模块43、误差信息生成模块44和调整模块45。

获取模块41，被配置为，获取训练文本，训练文本中的每个字标注有第一分词标签以及第一声调标签；

特征提取模块42，被配置为，将训练文本输入待训练的文本分词模型的特征提取器，提取训练文本的特征信息；

输入模块43，被配置为，将训练文本的特征信息分别输入文本分词模型的分词分类器和声调分类器；

误差信息生成模块44，被配置为，根据分词分类器的输出结果确定分词输出误差信息，根据声调分类器的输出结果确定声调输出误差信息；

调整模块45，被配置为，根据分词输出误差信息和声调输出误差信息，调整文本分词模型。

本实施例还提供一种文本分词模型的训练装置，其中，误差信息生成模块，包括：

第一子模块，被配置为，获取分词分类器输出的训练文本中每个字的第二分词标签，将训练文本中每个字的第二分词标签分别与该字的第一分词标签进行对比，确定分词输出误差信息。

第二子模块，被配置为，获取声调分类器输出的训练文本中每个字的第二声调标签，将训练文本中每个字的第二声调标签分别与该字的第一声调标签进行对比，确定声调输出误差信息。

本实施例还提供一种文本分词模型的训练装置，其中，调整模块，包括：

第一子模块，被配置为，根据分词输出误差信息和声调输出误差信息，分别调整分词分类器和声调分类器。

本实施例还提供一种文本分词模型的训练装置，其中，调整模块还包括第二子模块：

输入模块，被配置为，将训练文本的特征信息分别输入调整模块的第一子模块调整后的分词分类器和声调分类器；

误差信息生成模块，被配置为，根据调整后的分词分类器以及声调分类器的输出结果，再次确定分词输出误差信息和声调输出误差信息；

第二子模块，被配置为，根据再次确定的分词输出误差信息和声调输出误差信息，调整特征提取器。

本实施例还提供一种文本分词模型的训练装置，其中，调整模块的第二子模块，包括：

合成误差信息生成子模块，被配置为，根据再次确定的分词输出误差信息和声调输出误差信息，按照预设方式生成用于调整特征提取器的合成误差信息；

特征提取器调整子模块，被配置为，根据合成误差信息，调整特征提取器；

其中，预设方式包括如下任一种：

根据分词输出误差信息对应的权重信息，和声调输出误差信息对应的权重信息，计算分词输出误差信息和声调输出误差信息的加权平均值，将权重平均值确定为合成误差信息，其中，分词输出误差信息对应的权重信息表征，分词特征在特征提取器的特征提取能力中的比重，声调输出误差信息对应的权重信息表征，声调特征对特征提取器的特征提取能力中的比重。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种文本分词模型的训练装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电源相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到装置500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种文本分词模型的训练方法，包括：

获取训练文本，训练文本中的每个字标注有第一分词标签以及第一声调标签；

将训练文本输入文本分词模型的特征提取器，提取训练文本的特征信息；

将训练文本的特征信息分别输入文本分词模型的分词分类器和声调分类器；

根据分词分类器的输出结果确定分词输出误差信息，根据声调分类器的输出结果确定声调输出误差信息；

根据分词输出误差信息和声调输出误差信息，调整文本分词模型。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本分词模型的训练方法，其特征在于，所述文本分词模型包括特征提取器、分词分类器、声调分类器，所述训练方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述分词分类器的输出结果确定分词输出误差信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述声调分类器的输出结果确定声调输出误差信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述分词输出误差信息和声调输出误差信息，调整所述文本分词模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法，还包括：

根据再次确定的分词输出误差信息和声调输出误差信息，调整所述特征提取器。

6.根据权利要求5所述的方法，其特征在于，所述根据再次确定的分词输出误差信息和声调输出误差信息，调整所述特征提取器，包括：

根据所述合成误差信息，调整所述特征提取器；

其中，所述预设方式包括如下任一种：

根据所述分词输出误差信息对应的权重信息，和所述声调输出误差信息对应的权重信息，计算所述分词输出误差信息和所述声调输出误差信息的加权平均值，将所述权重平均值确定为所述合成误差信息，其中，所述分词输出误差信息对应的权重信息表征，分词特征在特征提取器的特征提取能力中的比重，所述声调输出误差信息对应的权重信息表征，声调特征对特征提取器的特征提取能力中的比重。

7.根据权利要求1所述的方法，其特征在于，所述声调标签包括一声、二声、三声、四声和轻声。

8.一种文本分词模型实现分词处理的方法，其特征在于，所述文本分词模型包括特征提取器和分词分类器，其中，所述特征提取器和分词分类器，是通过如权利要求1至7任一项所述的文本分词模型的训练方法得到的，所述分词处理的方法包括：

9.一种文本分词模型的训练装置，其特征在于，包括：

10.根据权利要求9所述的训练装置，其特征在于，所述误差信息生成模块，包括：

11.根据权利要求9所述的训练装置，其特征在于，所述误差信息生成模块，包括：

12.根据权利要求9所述的训练装置，其特征在于，所述调整模块，包括：

13.根据权利要求12所述的训练装置，其特征在于，所述调整模块还包括第二子模块：

所述误差信息生成模块，用于根据调整后的分词分类器以及声调分类器的输出结果，再次确定分词输出误差信息和声调输出误差信息；所述第二子模块，用于根据再次确定的分词输出误差信息和声调输出误差信息，调整所述特征提取器。

14.根据权利要求13所述的训练装置，其特征在于，所述第二子模块，包括：

其中，所述预设方式包括如下任一种：

15.一种文本分词模型的训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种文本分词模型的训练方法，所述方法包括：