CN112559744B

CN112559744B - 一种基于部首联想机制的汉语文本分类方法及装置

Info

Publication number: CN112559744B
Application number: CN202011437069.2A
Authority: CN
Inventors: 陈恩红; 刘淇; 陶汉卿; 童世炜; 徐童
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-05-24
Anticipated expiration: 2040-12-07
Also published as: CN112559744A

Abstract

本发明提供一种基于部首联想机制的汉语文本分类方法及装置，方法包括获取待分类汉语文本的字符级特征和形声字部首集合；根据形声字部首集合中的部首，得到对应的联想词集合；将字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到汉语文本分类模型输出的待分类汉语文本的分类标签。本发明通过待分类汉语文本中形声字部首，获取对应的联想词，并基于联想词集合和字符级特征确定待分类汉语文本的分类标签，相比于传统依靠文本的字面特征进行分类方式，更符合汉语自身特点以及表意文字和人类认知过程的基本原理，提高了汉语文本分类的准确性。

Description

一种基于部首联想机制的汉语文本分类方法及装置

技术领域

本发明涉及机器学习技术领域，更具体地说，涉及一种基于部首联想机制的汉语文本分类方法及装置。

背景技术

文本分类是指为文本确定一个最合适的类别，对文本进行分类。目前，对于文本分类通常是现在预先分类好的文本集上训练得到分类模型，进而利用该分类模型对未知类别的文本进行自动分类。

但由于基于深度学习的自然语言处理(Natural Language Processing，NLP)最初起步于英语等西方语言，各种理论多建立于这些语言之上，所以传统的汉语文本分类方法往往是仿照西方语言的各种规律和处理形式并拘泥于文本的字面特征进行建模，这种方式不仅忽视了人类认知行为和联想行为在文本理解过程中的参与，也忽视了汉语本身所具有的特点和文字表意特性的本质。

发明内容

有鉴于此，本发明提出一种基于部首联想机制的汉语文本分类方法及装置，欲充分利用汉语的各种粒度语义特征对汉语文本进行表征，从而提高分类的准确性。

为了实现上述目的，现提出的方案如下：

第一方面，提供一种基于部首联想机制的汉语文本分类方法，包括：

获取待分类汉语文本的字符级特征和形声字部首集合；

根据所述形声字部首集合中的部首，得到对应的联想词集合；

将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述汉语文本分类模型输出的所述待分类汉语文本的分类标签。

优选的，将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述待分类汉语文本的分类标签，包括：

将所述字符级特征输入到BERT(Bidirectional Encoder Representations fromTransformers)模型，得到所述BERT模型输出的所述待分类汉语文本的文本表征向量和所述待分类汉语文本的字符表征向量；

将所述待分类汉语文本的字符表征向量输入到BiLSTM(Bidirectional LongShort Memory model，双向长短期记忆网络)模型，得到所述BiLSTM模型深度优化后的所述待分类汉语文本的字符表征向量；

将所述联想词集合输入到嵌入层，得到所述嵌入层输出的联想词表征向量；

计算得到联想词表征向量分别在所述待分类汉语文本的文本表征向量和所述深度优化后的所述待分类汉语文本的字符表征向量下的注意力权重向量；

对每个所述注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量；

利用所述两个归一化处理后的注意力权重，分别对所述联想词表征向量中的向量进行加权求和，得到两个联想词表征；

将所述两个联想词表征、所述待分类汉语文本的文本表征向量以及所述深度优化后的所述待分类汉语文本的字符表征向量进行拼接后，输入到全连接神经网络；

通过softmax函数和argmax函数对所述全连接神经网络的输出进行处理，得到所述待分类汉语文本的分类标签。

优选的，所述对每个所述注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量，具体为：

利用softmax函数对每个所述注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量。

优选的，根据所述形声字部首集合中的部首，得到对应的联想词集合的步骤，具体包括：

利用预先设置的部首概念词典，匹配得到与所述形声字部首集合中各个部首对应的联想词；

将与所述形声字部首集合中各个部首对应的联想词汇总在一起并将重复的联想词合并为一个，得到所述联想词集合。

优选的，预先利用交叉熵损失函数作为优化目标函数，和/或采用Adagrad优化器更新模型的所有参数，训练得到所述汉语文本分类模型。

第二方面，提供一种基于部首联想机制的汉语文本分类装置，包括：

第一特征获取单元，用于获取待分类汉语文本的字符级特征和形声字部首集合；

第二特征获取单元，用于根据所述形声字部首集合中的部首，得到对应的联想词集合；

汉语文本分类单元，用于将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述汉语文本分类模型输出的所述待分类汉语文本的分类标签。

优选的，所述汉语文本分类单元，具体包括：

第一表征向量计算子单元，用于将所述字符级特征输入到BERT模型，得到所述BERT模型输出的所述待分类汉语文本的文本表征向量和所述待分类汉语文本的字符表征向量；

第二表征向量计算子单元，用于将所述待分类汉语文本的字符表征向量输入到BiLSTM模型，得到所述BiLSTM模型深度优化后的所述待分类汉语文本的字符表征向量；

第三表征向量计算子单元，用于将所述联想词集合输入到嵌入层，得到所述嵌入层输出的联想词表征向量；

注意力权重向量计算子单元，用于计算得到联想词表征向量分别在所述待分类汉语文本的文本表征向量和所述深度优化后的所述待分类汉语文本的字符表征向量下的注意力权重向量；

归一化子单元，用于对每个所述注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量；

联想词表征计算子单元，用于利用所述两个归一化处理后的注意力权重，分别对所述联想词表征向量中的向量进行加权求和，得到两个联想词表征；

拼接及全连接子单元，用于将所述两个联想词表征、所述待分类汉语文本的文本表征向量以及所述深度优化后的所述待分类汉语文本的字符表征向量进行拼接后，输入到全连接神经网络；

分类标签子单元，用于通过softmax函数和argmax函数对所述全连接神经网络的输出进行处理，得到所述待分类汉语文本的分类标签。

优选的，所述归一化子单元，具体用于：

优选的，所述第二特征获取单元，具体包括：

联想词匹配子单元，用于利用预先设置的部首概念词典，匹配得到与所述形声字部首集合中各个部首对应的联想词；

联想词集合子单元，用于将与所述形声字部首集合中各个部首对应的联想词汇总在一起并将重复的联想词合并为一个，得到所述联想词集合。

优选的，所述基于部首联想机制的汉语文本分类装置，还包括：

训练单元，用于利用交叉熵损失函数作为优化目标函数，和/或采用Adagrad优化器更新模型的所有参数，训练得到所述汉语文本分类模型。

与现有技术相比，本发明的技术方案具有以下优点：

上述技术方案提供的一种基于部首联想机制的汉语文本分类方法及装置，方法包括获取待分类汉语文本的字符级特征和形声字部首集合；根据形声字部首集合中的部首，得到对应的联想词集合；将字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到汉语文本分类模型输出的待分类汉语文本的分类标签。本发明通过待分类汉语文本中形声字部首，获取对应的联想词，并基于联想词集合和字符级特征确定待分类汉语文本的分类标签，相比于传统依靠文本的字面特征进行分类方式，更符合汉语自身特点以及表意文字和人类认知过程的基本原理，提高了汉语文本分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种人在理解汉语文本并推断其可能的标签时的认知过程的示意图；

图2为本发明实施例提供的一种基于部首联想机制的汉语文本分类方法的流程图；

图3为本发明实施例提供的一种汉语文本的特征获取过程的示意图；

图4为本发明实施例提供的一种汉语文本分类框架的示意图；

图5为本发明实施例提供的一种字面空间模块的示意图；

图6为本发明实施例提供的一种基于部首联想机制的汉语文本分类装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于文本分类任务来说，其目的是从一个预定义的类别标签集合S中选择一个最合适的分类标签l赋值给一个无标签的文本T。更为形式化地来说，我们的任务是给定一个领域背景下(如新闻的分类)的汉语文本数据集合D和一个相对应的标签集合S，通过应用文本表示和分类算法对D和S之间存在的参数关系进行学习，以得到一个经过训练优化的分类函数F，使得其输入为T时，相对应的输出是一个条件概率最大的标签l，l∈S。

此外，汉语中有一些值得探讨的特殊概念和性质。为了便于后续说明，这里给出本发明提及的几个概念的定义：

概念1：字面特征和联想信息。大多数时候，当人们看到一个文本时，他们不仅会根据文本的字面特征来把握它的语义，而且还会根据这些特征在他们的脑海中产生一系列的联想。事实上，我们可以直接看到文本中的语言符号均属于字面特征(例如汉字、汉字的部首以及标点符号)，而没有显式地出现在文本中、读者基于字面特征在脑海中联想得到的先验概念和常识均属于联想信息，而生活中的概念往往是以词的形式出现，故这些联想信息实际上就对应了一系列的联想词。如图1中的例子所示，部首促使我们将先验的概念与相应的汉字联系起来，比如：通过雨字头将“雪”和概念“气候”联系起来、通过部首足将“路”和概念“脚”联系起来、通过三点水将“滑”和概念“水”联系起来等。由此可见，部首的象形表意特性有助于我们掌握汉字的各种相关属性，从而辅助我们逐步在脑海中推断出该文本分类标签“交通”的核心思想。

概念2：形声字。根据《六书》所述，汉字一共可以分为六种，其中最庞大的一类是形声字，占所有汉字的80％以上。形声字最重要的一个特点是形旁(部首)表意，声旁表音，这种形音分离的二维构字方式要比英文字母一维的构词方式有着更多的优点。其中，作为用于构成形声字表征语义的部件，每个部首(是一种特殊的汉字)都有一个象形的图案作为其字形起源。这种生动的特征已经继承了几千年，经常让汉语阅读者可以在不知道汉字发音的情况下猜测和理解汉字的意义，与英语和其他的表音语言相比，形声字这种通过部首形态传达语义的模式对于人来说要有着一种完全不同的认知过程。

认知心理学研究表明，人类具有抽象思维的本能。其中联想行为(Association)在语言理解中起着至关重要的作用。在心理学中，联想行为是一项基本而十分有效的原则，是指概念、事件或心理状态之间产生的心理联系，通常来源于生活中积累的特定经验，它允许人们在阅读过程中使用给定文本之外的先验概念来辅助语义理解。更重要的是，语言研究离不开人类的认知科学(Cognitive Science)理论，本发明将语言学习视为一种认知现象。特别是对于汉语来说，其起源于甲骨文的表意(ideographic)文字系统和人类的联想行为有着紧密的联系，可以使汉字的部首(radical)在不需要读音参与的情况下直接由其形态触发语义关联。事实上，潜意识地使用部首引导的联想先验信息是汉语读者确保语义理解稳健性的关键。

本发明的核心思路是从表意文字和人的联想行为之间的认知原理中汲取灵感，将汉语形声字的部首和汉语字典中权威的先验概念相结合，合理地从部首的角度对联想行为进行建模并引入一些外部信息来丰富文本表征更符合人类的认知过程；并通过利用深度学习的优势为汉语文本分类任务提供一种新颖的解决思路和一个基于部首联想机制的汉语文本分类方法，可以充分利用汉语的各种粒度语义特征对汉语文本进行表征，提高汉语文本分类的准确度，从而能够在大数据背景下辅助汉语自然语言处理的各种相关问题，为汉语文本挖掘等领域实践提供一定的技术支持，具有一定的实际应用价值，并且能够给一些相关的信息平台带来一定的潜在经济效益。

参见图2，为本实施例提供的一种基于部首联想机制的汉语文本分类方法，该方法可以包括以下步骤：

S21：获取待分类汉语文本的字符级特征和形声字部首集合。

对于包含m个字符的待分类汉语文本T，首先根据字符串操作将其分割成一个汉字序列C＝{c₁,c₂,...,c_m}，该汉字序列C表示该待分类汉语文本T的字符级特征，每个标点符号也是一个字符。然后，通过查询汉字类别字典，将每个字符赋予一个类别标签从而进行汉字类别掩码过程：

其中，C_p代表形声字，Others表示非形声字，Mask(·)表示掩码函数，c_i(0≤i≤m)则代表了字符序列C的第i个字符。通过上式得到每个字符的掩码后，进行以下的部首蒸馏过程。

为了从待分类汉语文本T中提取出具有显著表意和象征特性的部首(即形声字的部首)从而帮助传达语义，需要过滤掉其他无用的内容；即将掩码为0的字符忽略，而将掩码为1的字符保留。具体的，将每个字符的掩码与其自身相乘，以确定哪些字符可以保留下来，进而在新华字典中查询保留下来的字符的部首：

R＝Radical_Query(C⊙Mask(C))

其中，⊙是一个按“元素到元素”方式计算的乘积操作，Radical_Query操作则允许在新华字典的帮助下将每个汉字映射成一个部首。此外，将R中所有重复的部首都过滤掉以避免冗余的处理。因此，R＝{r₁，r₂，...，r_n}就是汉字序列C经过部首蒸馏后得到的形声字部首，其中n∈[0，m]。

S22：根据形声字部首集合中的部首，得到对应的联想词集合。

许多与部首有关的基本和扩展概念被系统地包含在了汉语词典中，本发明将蒸馏得到的部首视作是一种用来联想得到先验概念的媒介，而不是直接将部首和字、词直接视为同分布的特征直接用于分类。形式化来说，将这种策略称为部首词联想。

在一些具体实施例中，先利用预先设置的部首概念词典，匹配得到与形声字部首集合中各个部首对应的联想词；然后将与形声字部首集合中各个部首对应的联想词汇总在一起并将重复的联想词合并为一个，得到联想词集合。

通过查询汉语的部首概念词典，R中的每个部首r_i∈R＝{r₁，r₂，...，r_n}将会对应于一个联想词列表：

其中，ρ_i≥1代表部首r_i对应的联想词数量，大小会因部首的不同而不同。进一步地构成一个联想词集合U＝{w₁，w₂，...，w_λ}：

其中，U代表为T引入的文本外部词级别特征，而则代表了联想词集合U所含的全部词数量。由于不同的部首可能会对应于相同的联想词，本实施例的集合操作将使得那些重复的联想词被合并为一个。比如足字旁“足”和走之底“辶”在部首概念词典中都对应了“行走”这个概念词，那么我们通过查询映射会得到两个“行走”，去掉重复的只保留一个。

图3示出了对输入文本(即待分类汉语文本T)“雨雪天气道路湿滑。”的特征提取过程，提取到的字符级特征为C＝{雨，雪，天，气，道，路，湿滑，。}，提取到的形声字部首集合为{雨，辶，足，氵}。进而根据形声字部首集合中的部首，得到的概念集合(即联想词集合U)为{天气，气候，行走，路程，脚，动作，水，液体}。

S23：将字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到汉语文本分类模型输出的待分类汉语文本的分类标签。

本实施例提供的上述基于部首联想机制的汉语文本分类方法，通过待分类汉语文本中形声字部首，获取对应的联想词，并基于联想词集合和字符级特征确定待分类汉语文本的分类标签，相比于传统依靠文本的字面特征进行分类方式，更符合汉语自身特点以及表意文字和人类认知过程的基本原理，提高了汉语文本分类的准确性。

本实施例采用的汉语文本分类框架如图4所示，分为特征提取、字面空间、联想空间和预测模块。特征提取即通过步骤S21和S22分别得到字符级特征和联想词集合。

字面空间：先将字符级特征C输入到BERT模型，得到BERT模型输出的待分类汉语文本T的文本表征向量t_CLS和待分类汉语文本T的字符表征向量T^C；然后将待分类汉语文本T的字符表征向量T^C输入到BiLSTM模型，得到BiLSTM模型深度优化后的待分类汉语文本的字符表征向量

如图5所示，基于预训练的BERT模型来获取待分类汉语文本T的文本表征向量以及其中每个字符的字符表征向量T^C＝{t₁，t₂，...，t_m}：

t_CLS，T^C＝BERT([CLS]，C)

其中，R是数学里表示实数集的符号，R的右上角标的代表向量的维度，代表t_CLS是1行D列的。而在待分类汉语文本T对应的字符序列C之前添加的符号[CLS]，是一个特殊的分类符号，其经过BERT模型计算得到对应的t_CLS。因为t_CLS代表了BERT模型输出的用于分类的向量，为了后续阐述方便，本发明也用符号/>来表示它。同时，T^C则表示待分类汉语文本T中的m个字符的隐向量。然后，我们将BERT模型输出的这m个隐向量进一步视作是后续BiLSTM模型的初始化向量以实现字面特征的深度优化，从而可以更好地捕捉待分类汉语文本T的上下文依赖信息。

进一步地，我们将BERT模型输出的字符表征向量T^C＝{t₁，t₂，...，t_m}视为字符序列C中每个字符经过大规模语料学习后得到的富有经验的表示向量。然后，我们使用BiLSTM模型进一步模仿心理学理论中人在看到上下文T^C后的概念变化(Conceptual Change)现象，这跟人在依据以往积累的经验调整、适应和理解新的上下文的过程是一致的。为了形式化地说明具体计算过程，我们用s＝{x₁，x₂，...，x_N}表示待分析汉语文本T的字符表征向量T^C＝{t₁，t₂，...，t_m}，则BiLSTM随时间t＝1，2，...，N更新细胞向量序列并得到隐向量序列h＝{h₁，h₂，...，h_N}的计算方式如下：

i_t＝sigmoid(W_xix_t+W_hih_t-1+b_i)，

f_t＝sigmoid(W_xfx_t+W_hfh_t-1+b_f)，

o_t＝sigmoid(W_xox_t+W_hoh_t-1+b_o)，

其中，i_t、f_t、o_t分别是输入门、遗忘门和输出门，sigmoid(·)和tanh(·)都是非线性激活函数：点积运算·表示向量之间对应元素的乘积。其中的/>与/>是模型训练过程中待优化的权重矩阵和偏置向量。然后，BiLSTM的最终隐层输出是前向LSTM隐层(即/>)和后向LSTM隐层/>的拼接组合：

为后续表示方便，本发明也用来代表BiLSTM模型的最终输出向量。

联想空间：先将联想词集合U输入到嵌入层，得到嵌入层输出的联想词表征向量E^RW；然后计算得到联想词表征向量E^RW分别在待分类汉语文本的文本表征向量和深度优化后的待分类汉语文本的字符表征向量/>下的注意力权重向量α′和β′；再对每个注意力权重向量(即α′和β′)进行归一化处理，得到两个归一化处理后的注意力权重向量α和β；最后，利用两个归一化处理后的注意力权重α和，分别对联想词表征向量中E^RW的向量进行加权求和，得到两个联想词表征/>和/>

如之前所述，汉字的表意特性根深蒂固，无处不在，这是读者将相关概念与部首联系起来的关键因素。通过特征获取过程中描述的联想模块获得了联想词集合U，通过联想空间进一步表征这些词从而突显出需要的信息：

联想词嵌入：为了表示先验概念对应的联想词集合U＝{w₁，w₂，...，w_λ}从而用于后续的计算，需要将每个联想词映射为一个低维的数值向量。本实施例采用一个基于分布式假设的预训练词向量模型并设计了一个嵌入层(如图所示)来表征U中的联想词：

其中，λ表示U中联想词的数量。上述公式表示使用预训练词向量模型，将U中的每个联想词转化为数值向量，从而能在计算机中对它们进行表征和数学计算。

注意力模块：深度学习中的注意力机制，本质上类似于人类视觉上的选择性注意机制。事实上，对于阅读理解来说，人们通常倾向于先通读句子在脑海中形成初步的认知，然后根据句子的整体语境在脑海中对适当的概念进行选择和匹配。受启发于这个认知过程，本实施例设计了一个注意力模块，它可以在考虑和/>的情况下，能同时回来将上下文表示的注意力集中在相对重要的联想词上。形式化来说，将/>和/>视作query，将E^RW同时视作key和value来执行注意力机制的计算。即，给定在联想空间获得的联想词表征向量使用字面空间中学习得到的/>和/>去分配注意力到U中的每个联想词w_i上，从而模仿人在脑海中根据上下文对适当的先验概念进行筛选的过程。每个联想词在两种上下文背景下被分配的权重分别为：

其中，和/>是联想词向量E^RW分别在/>和/>下的注意力权重向量。此外，α′_∈和β′_θ分别表示任一联想词的第∈和第θ个权值。f(·，·)函数表示距离函数，本实施例中将其定义为一种按元素相点乘的操作。然后，对α′和β′可以采用softmax函数进行归一化：

两种经过注意力机制修正和调整的联想词表征和/>在注意力权重向量α_i和β_j作用下经由加权求和得到：

其中，α_∈是的第∈维权值，β_θ是/>的第θ维权值(1≤∈≤λ，1≤θ≤λ)。最后，经过注意力机制修正的联想词表征/>和/>相当于将字面空间和联想空间的信息有机融合在了一起。和人脑中信息的处理方式一样，本实施例设计的注意力模块其实相当于是沟通字面空间和联想空间的一个桥梁。

预测模块：先将两个联想词表征和/>待分类汉语文本的文本表征向量/>以及深度优化后的所述待分类汉语文本的字符表征向量/>进行拼接后，输入到全连接神经网络；然后通过softmax函数和argmax函数对全连接神经网络的输出进行处理，得到待分类汉语文本T的分类标签l。

为了系统地整合和充分学习所获得的待分类汉语文本T的四种不同表示向量：通过字面特征学习的两方面上下文表示向量和/>以及从文字特征和联想词的联合建模中得到的注意里修正后的表示向量/>和/>我们对它们在维度层面上执行一个拼接操作：

其中，这种拼接操作有着可以整合和保留全部信息的优点。之后，我们借助全连接神经网络学习这四种表征的隐性联系和相互增强的关系：

其中，W^(l)和b^(l)分别代表全连接神经网络的权重矩阵和偏置向量，则是全连接神经网络的输出。K表示问题定义中的分类标签集合S的大小。最后，输出的预测分类标签l可以通过softmax函数和argmax操作得到：

l＝argmax(softmax(O))

在对本发明中的汉语文本分类模型训练时，可以通过数据爬取获取训练文本。示例性的，训练用于新闻领域的文本分类的汉语文本分类模型时，从新闻网站(如新浪新闻)上爬取一定量的新闻数据。对于一个新闻需要爬取的数据包括：新闻的文本内容以及新闻所属的类别标签；一条数据就是一则新闻正文文本，比如一句话，类别标签就是这则新闻的所属类别，比如：“体育”、“健康”、“财经”之类的类别标签。

从汉语字典数据库下载和爬取每个汉字的信息，以实现后续程序自动化实现汉字类别查询、汉字到部首和部首到联想词的三种映射查询过程。汉字类别具体的是象形文字、指事字、会意字、形声字、转注字、假借字；就是每个汉字在词典中对应的《六书》的某一汉字类别。本发明关注形声字的部首，因为形声字占所有汉字的比重最大，且形声字部首相较于其他类别汉字的信息量也要大。

为了保障模型训练效果，还可以对爬取的文本数据进行预处理。预处理主要包括以下内容：

1)去除文本内容中词数小于设定值的新闻数据。

本发明中需要去除某些质量较低的数据。通常认为文本内容中的词数小于设定数量的新闻是质量较低的。示例性的，此处的设定数量可以为5。

2)去除文本内容中汉语字符比例小于设定值的新闻数据。

本发明主要面向中文文本分类，由于非中文字符没有部首，过高比例的非中文字符会偏离我们模型的设计初衷，因此我们认为文本内容中汉语字符比例小于设定值的新闻数据是质量较低的。示例性的，此处的设定值可以为80％。

3)对经过上述两步处理、筛选后的剩余新闻数据进行打乱，将其中75％的数据作为训练数据，25％的数据作为测试数据。打乱就是把原数据的顺序打乱以消除数据的顺序可能带来的偶然性。举例来说，从网上获取的数据每一条都带着从数字1开始的索引标号，打乱即把这些已有标号随机化打乱，重新给每条数据分配编号(比如：原来第1条数据现在可能变成第53条)。

模型训练过程即对模型参数的训练与优化，本发明中具体指的是对汉语文本分类模型中的以及全连接神经网络的权重矩阵W^(l)和偏置向量b^(l)等进行训练和优化。由于本发明所面对的是一个多分类任务，该任务在输出不同类别上通常表现出不同的概率分布，因此在一个具体实施例中采用交叉熵损失函数作为优化目标函数来训练汉语文本分类模型，以及实现判断最重要的类并将之与其他类区分开来。形式化来说，是要最小化以下损失函数：

其中，T是待分析汉语文本，D表示训练数据集，K表示分类标签集合S中类别的数量。在训练过程中，可以采取Adagrad优化器来更新汉语文本分类模型的所有参数。此外，还可以在嵌入层和全连接神经网络之前加入了dropout机制，随机将输入至它们的矩阵中20％的参数置为零，以避免参数过多带来的过拟合问题。

另外，由于整个数据集按照3∶1的比例划分为了训练集和测试集，训练集被用于优化模型的参数，测试集用于衡量最终模型的好坏。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

参见图6，为本实施例提供了一种基于部首联想机制的汉语文本分类装置，包括：第一特征获取单元61、第二特征获取单元62和汉语文本分类单元63。

第一特征获取单元61，用于获取待分类汉语文本的字符级特征和形声字部首集合。

第二特征获取单元62，用于根据形声字部首集合中的部首，得到对应的联想词集合。

汉语文本分类单元63，用于将字符级特征和联想词集合，输入到预先训练好的汉语文本分类模型，得到汉语文本分类模型输出的待分类汉语文本的分类标签。

在一些具体实施例中，汉语文本分类单元63，具体包括：第一表征向量计算子单元、第二表征向量计算子单元、第三表征向量计算子单元、注意力权重向量计算子单元、归一化子单元、联想词表征计算子单元、拼接及全连接子单元和分类标签子单元。

第一表征向量计算子单元，用于将字符级特征输入到BERT模型，得到BERT模型输出的待分类汉语文本的文本表征向量和待分类汉语文本的字符表征向量。

第二表征向量计算子单元，用于将待分类汉语文本的字符表征向量输入到BiLSTM模型，得到BiLSTM模型深度优化后的待分类汉语文本的字符表征向量。

第三表征向量计算子单元，用于将联想词集合输入到嵌入层，得到嵌入层输出的联想词表征向量。

注意力权重向量计算子单元，用于计算得到联想词表征向量分别在待分类汉语文本的文本表征向量和深度优化后的待分类汉语文本的字符表征向量下的注意力权重向量。

归一化子单元，用于对每个注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量。

联想词表征计算子单元，用于利用两个归一化处理后的注意力权重，分别对联想词表征向量中的向量进行加权求和，得到两个联想词表征。

拼接及全连接子单元，用于将两个联想词表征、待分类汉语文本的文本表征向量以及深度优化后的待分类汉语文本的字符表征向量进行拼接后，输入到全连接神经网络。

分类标签子单元，用于通过softmax函数和argmax函数对全连接神经网络的输出进行处理，得到待分类汉语文本的分类标签。

在一些具体实施例中，归一化子单元，具体用于：利用softmax函数对每个注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量。

在一些具体实施例中，第二特征获取单元62，具体包括：联想词匹配子单元和联想词集合子单元。

联想词匹配子单元，用于利用预先设置的部首概念词典，匹配得到与形声字部首集合中各个部首对应的联想词。

联想词集合子单元，用于将与形声字部首集合中各个部首对应的联想词汇总在一起并将重复的联想词合并为一个，得到联想词集合。

在一些具体实施例中，基于部首联想机制的汉语文本分类装置，还包括：训练单元，用于利用交叉熵损失函数作为优化目标函数，和/或采用Adagrad优化器更新模型的所有参数，训练得到汉语文本分类模型

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可，且本说明书中各实施例中记载的特征可以相互替换或者组合。

对本发明所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于部首联想机制的汉语文本分类方法，其特征在于，包括：

获取待分类汉语文本的字符级特征和形声字部首集合；

将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述汉语文本分类模型输出的所述待分类汉语文本的分类标签；将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述待分类汉语文本的分类标签，包括：

将所述字符级特征输入到BERT模型，得到所述BERT模型输出的所述待分类汉语文本的文本表征向量和所述待分类汉语文本的字符表征向量；

将所述待分类汉语文本的字符表征向量输入到BiLSTM模型，得到所述BiLSTM模型深度优化后的所述待分类汉语文本的字符表征向量；

2.根据权利要求1所述的基于部首联想机制的汉语文本分类方法，其特征在于，所述对每个所述注意力权重向量进行归一化处理，得到两个归一化处理后的注意力权重向量，具体为：

3.根据权利要求1所述的基于部首联想机制的汉语文本分类方法，其特征在于，根据所述形声字部首集合中的部首，得到对应的联想词集合的步骤，具体包括：

4.根据权利要求1～3中任意一项所述的基于部首联想机制的汉语文本分类方法，其特征在于，预先利用交叉熵损失函数作为优化目标函数，和/或采用Adagrad优化器更新模型的所有参数，训练得到所述汉语文本分类模型。

5.一种基于部首联想机制的汉语文本分类装置，其特征在于，包括：

汉语文本分类单元，用于将所述字符级特征和所述联想词集合，输入到预先训练好的汉语文本分类模型，得到所述汉语文本分类模型输出的所述待分类汉语文本的分类标签；

所述汉语文本分类单元，具体包括：

6.根据权利要求5所述的基于部首联想机制的汉语文本分类装置，其特征在于，所述归一化子单元，具体用于：

7.根据权利要求5所述的基于部首联想机制的汉语文本分类装置，其特征在于，所述第二特征获取单元，具体包括：

8.根据权利要求5～7中任意一项所述的基于部首联想机制的汉语文本分类装置，其特征在于，还包括：