CN110825874A

CN110825874A - 一种中文文本分类方法和装置及计算机可读存储介质

Info

Publication number: CN110825874A
Application number: CN201911037832.XA
Authority: CN
Inventors: 孙靖文; 王道广; 伯仲璞; 于政
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-21

Abstract

本发明实施例公开了一种中文文本分类方法和装置及计算机可读存储介质，包括：将中文文本中的句子拆分成单个字符；将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征；根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征，而不需要对句子进行分词，避免了分词对分类结果造成的影响，而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性，保留了词汇级别的含义，因此，对于BERT预训练模型提取的句子的特征，字符级别的输入提高了分类精度。

Description

一种中文文本分类方法和装置及计算机可读存储介质

技术领域

本发明实施例涉及但不限于信息处理技术，尤指一种中文文本分类方法和装置及计算机可读存储介质。

背景技术

自动化的文本分类，能够极大的减少人工排查量。目前，中文文本的分类方法有以下两种：

第一种，首先对中文文本中的句子进行分词，从分词的结果中提取每一个词的词向量，将所有词的词向量拼接成一个矩阵，将得到的矩阵输入到分类器中进行分类得到句子对应的类别，通常采用循环神经网络(RNN，Recurrent Neural Network)能得到较好的分类结果。这种方法的分类效果在一定程度上受分词好坏的影响，比如公司名称、人名等不常见的词汇较多的时候，分词的效果就会降低，从而影响RNN的分类结果。

第二种，首先对中文文本中的句子进行分词，将所有的词依次输入到双向编码表征的转换(BERT，Bidirectional Encoder Representations from Transformers)预训练模型中得到包括所有词的词向量的矩阵，将得到的矩阵输入到分类器中进行分类得到句子对应的类别。这种方法中，BERT预训练模型使词转换成的词向量具有更好的表征能力，在分类任务上得到一定的提升；并且，使用BERT预训练模型提取词向量时，不需要训练提取词向量的模型，降低了文本分类的复杂度；但是，BERT预训练模型提取的词向量是针对整个句子的特征表示，而文本中某些关键的词具有很强的代表性，这就导致分类的效果缺乏局部代表性词汇的判断，从而导致分类效果不够理想。另外，分词的效果同样会影响到分类结果。

综上所述，目前的文本分类方法的分类精度较低。

发明内容

本发明实施例提供了一种中文文本分类方法和装置及计算机可读存储介质，能够提高分类精度。

本发明实施例提供了一种中文文本分类方法，包括：

将中文文本中的句子拆分成单个字符；

将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征；

根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。

在一个示例性实例中，所述句子的特征包括每一个字符的特征；所述根据句子的特征对句子进行分类得到句子对应的类别包括：

从所述句子的特征中提取所述句子中的特定字符的特征；其中，所述句子中的特定字符包括以下任意一个或多个：所述句子的第一个字符、所述句子的最后一个字符；

将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征；

根据所述合并的特征对所述句子进行分类得到所述句子对应的类别。

在一个示例性实例中，所述句子的特征采用第一矩阵表示，所述第一矩阵的第一维表示字符，第二维表示字符的特征；

所述将句子的特征和句子中的特定字符的特征进行合并得到合并的特征包括：

将所述句子中的特定字符的特征扩充成第二矩阵；其中，所述第二矩阵的第一维表示字符，第二维表示字符的特征；所述第二矩阵的第一维的数量与所述第一矩阵的第一维的数量相同；

将所述第一矩阵和所述第二矩阵在第一维上进行拼接得到所述合并的特征对应的第三矩阵；其中，所述第三矩阵的第一维表示字符，第二维表示字符的特征；所述第三矩阵的第一维的数量为所述第二矩阵的第一维的数量的两倍。

在一个示例性实例中，所述将句子中的特定字符的特征扩充成第二矩阵包括：

将所述句子中的特定字符的特征进行复制拼接得到所述第二矩阵。

本发明实施例提出了一种中文文本分类装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任一种中文文本分类方法。

本发明实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种中文文本分类方法的步骤。

本发明一个实施例包括：将中文文本中的句子拆分成单个字符；将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征；根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征，而不需要对句子进行分词，避免了分词对分类结果造成的影响，而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性，保留了词汇级别的含义，因此，对于BERT预训练模型提取的句子的特征，字符级别的输入提高了分类精度。

在本发明另一个实施例中，句子的特征包括每一个字符的特征；所述根据句子的特征对句子进行分类得到句子对应的类别包括：从所述句子的特征中提取所述句子中的特定字符的特征；其中，所述句子中的特定字符包括以下任意一个或多个：所述句子的第一个字符、所述句子的最后一个字符；将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征；根据所述合并的特征对所述句子进行分类得到所述句子对应的类别。本发明实施例将所述句子的特征和所述句子中的特定字符的特征进行合并，融合了句子的全局信息和特定字符的局部信息，从而进一步提高了分类精度。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解，并且构成说明书的一部分，与本发明实施例的实施例一起用于解释本发明实施例的技术方案，并不构成对本发明实施例技术方案的限制。

图1为本发明一个实施例提出的中文文本分类方法的流程图；

图2为本发明另一个实施例提出的中文文本分类装置的结构组成示意图。

具体实施方式

下文中将结合附图对本发明实施例进行详细说明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

参见图1，本发明一个实施例提出了一种中文文本分类方法，包括：

步骤100、将中文文本中的句子拆分成单个字符。

步骤101、将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征。

在一个示例性实例中，句子的特征采用第一矩阵表示，第一矩阵的第一维表示字符，第二维表示字符的特征。

由于句子的特征包括句子的每一个字符的特征，那么，字符的特征可以用向量来表示。

例如，假设某一个句子包括5个字符，分别为a，b，c，d，e，那么，第一矩阵可以是

其中，每一行代表一个字符，每一列代表一个特征值，其中，[a₁ a₂ …a₇₆₈]为字符a的特征，[b₁ b₂ … b₇₆₈]为字符b的特征，[c₁ c₂ … c₇₆₈]为字符c的特征，[d₁d₂ … d₇₆₈]为字符d的特征，[e₁ e₂ … e₇₆₈]为字符e的特征。

步骤102、根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。

在一个示例性实例中，直接将句子的特征输入到分类器中进行分类得到句子对应的类别，也就是说，直接将第一矩阵(例如

)输入到分类器中进行分类得到句子的类别。

在另一个示例性实例中，从所述句子的特征中提取所述句子中的特定字符的特征；其中，所述句子中的特定字符包括以下任意一个或多个：所述句子的第一个字符、所述句子的最后一个字符；将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征；根据所述合并的特征对所述句子进行分类得到所述句子对应的类别，即将合并的特征输入到分类器中进行分类得到句子对应的类别。

上述句子中的特定字符采用的是句子的第一个字符和/或句子的最后一个字符的原因是BERT预训练模型在提取句子的特征的过程中会随机遮挡除了句子的第一个字符和句子的最后一个字符之外的字符中的一个或多个，被遮挡的字符的含义在提取的句子的特征中无法得到体现，因此，选择句子的第一个字符和/或句子的最后一个字符是比较合理的。

鉴于中文文本中的某些词汇具有一定的代表性，具有较强的表征能力，本发明实施例将所述句子的特征和所述句子中的特定字符的特征进行合并，融合了句子的全局信息和特定字符的局部信息，从而进一步提高了分类精度。

在一个示例性实例中，当句子的特征采用第一矩阵表示时，将句子的特征和句子中的特定字符的特征进行合并得到合并的特征包括：

在一个示例性实例中，将句子中的特定字符的特征扩充成第二矩阵包括：

例如，当句子中的特定字符为句子的第一个字符时，第二矩阵可以是第三矩阵可以是

或者，

当句子中的特定字符为句子的最后一个字符时，第二矩阵可以是

第三矩阵可以是

或者，

当句子中的特定字符为句子的第一个字符和最后一个字符时，第二矩阵可以是

第三矩阵可以是

或者，

得到第三矩阵后，将第三矩阵输入到分类器中进行分类即可得到句子的类别。

在本发明另一个实施例中，将中文文本中的句子拆分成单个字符之后，将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到句子的特征之前，该方法还包括：

为句子的第一个字符和最后一个字符打上不同的标记；

相应的，步骤101中，将打上标记的第一个字符和最后一个字符，以及其他字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征。

本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征，而不需要对句子进行分词，避免了分词对分类结果造成的影响，而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性，保留了词汇级别的含义，因此，对于BERT预训练模型提取的句子的特征，字符级别的输入提高了分类精度。

本发明另一个实施例提出了一种中文文本分类装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任一种中文文本分类方法。

本发明另一个实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种中文文本分类方法的步骤。

参见图2，本发明另一个实施例提出了一种中文文本分类装置，包括：

拆分模块201，用于将中文文本中的句子拆分成单个字符；

特征提取模块202，用于将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征；

分类模块203，用于根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。

在一个示例性实例中，分类模块203直接将句子的特征输入到分类器中进行分类得到句子对应的类别，也就是说，直接将第一矩阵(例如)输入到分类器中进行分类得到句子的类别。

在另一个示例性实例中，分类模块203具体用于：从所述句子的特征中提取所述句子中的特定字符的特征；其中，所述句子中的特定字符包括以下任意一个或多个：所述句子的第一个字符、所述句子的最后一个字符；将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征；根据所述合并的特征对所述句子进行分类得到所述句子对应的类别，即将合并的特征输入到分类器中进行分类得到句子对应的类别。

上述句子中的特定字符采用的是句子的第一个字符或句子的最后一个字符的原因是BERT预训练模型在提取句子的特征的过程中会随机遮挡除了句子的第一个字符和句子的最后一个字符之外的字符中的一个或多个，被遮挡的字符的含义在提取的句子的特征中无法得到体现，因此，选择句子的第一个字符或句子的最后一个字符是比较合理的。

本发明实施例将所述句子的特征和所述句子中的特定字符的特征进行合并，融合了句子的全局信息和特定字符的局部信息，从而进一步提高了分类精度。

在一个示例性实例中，当句子的特征采用第一矩阵表示时，分类模块203具体用于采用以下方式实现将句子的特征和句子中的特定字符的特征进行合并得到合并的特征：

在一个示例性实例中，分类模块203具体用于采用以下方式实现将句子中的特定字符的特征扩充成第二矩阵：

例如，当句子中的特定字符为句子的第一个字符时，第二矩阵可以是

第三矩阵可以是或者，

第三矩阵可以是或者，

第三矩阵可以是

或者，

得到第三矩阵后，分类模块203将第三矩阵输入到分类器中进行分类即可得到句子的类别。

在本发明另一个实施例中，拆分模块201还用于：

为句子的第一个字符和最后一个字符打上不同的标记；

相应的，特征提取模块202具体用于：将打上标记的第一个字符和最后一个字符，以及其他字符按照在句子中的先后顺序依次输入到BERT预训练模型中，得到所述句子的特征。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种中文文本分类方法，包括：

将中文文本中的句子拆分成单个字符；

将所有字符按照在句子中的先后顺序依次输入到双向编码表征的转换BERT预训练模型中，得到所述句子的特征；

2.根据权利要求1所述的中文文本分类方法，其特征在于，其中，所述句子的特征包括每一个字符的特征；所述根据句子的特征对句子进行分类得到句子对应的类别包括：

3.根据权利要求2所述的中文文本分类方法，其特征在于，其中，所述句子的特征采用第一矩阵表示，所述第一矩阵的第一维表示字符，第二维表示字符的特征；

4.根据权利要求3所述的中文文本分类方法，其特征在于，其中，所述将句子中的特定字符的特征扩充成第二矩阵包括：

5.一种中文文本分类装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1～4任一项所述的中文文本分类方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～4任一项所述的中文文本分类方法的步骤。