CN112149418A

CN112149418A - 一种基于词向量表示学习的中文分词方法及系统

Info

Publication number: CN112149418A
Application number: CN202011007743.3A
Authority: CN
Inventors: 赵尔平
Original assignee: Xizang Minzu University
Current assignee: Xizang Minzu University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29

Abstract

本发明公开了一种基于词向量表示学习的中文分词方法及系统。该方法包括：对待分词文本进行初步分词处理，得到初步分词文本；将初步分词文本输入BERT模型进行训练，得到语料词向量；将语料词向量输入Bi‑GRU模型进行训练，得到多个特征词向量；计算相邻两个特征词向量的余弦相似度，得到余弦相似度值；判断余弦相似度值是否大于或等于预设阈值；若大于或等于预设阈值，则将相邻两个特征词向量对应词的初步分词结果进行合并。采用本发明的方法及系统，解决了特定领域未登录词分词问题，提高分词性能，确保分词结果不破坏词的语义完整性，并且能够避免花费大量人力标注语料。

Description

一种基于词向量表示学习的中文分词方法及系统

技术领域

本发明涉及分词技术领域，特别是涉及一种基于词向量表示学习的中文分词方法及系统。

背景技术

通用领域分词技术应用于预特定领域分词准确率就会明显下降，其主要原因是特定领域语料库中包含大量事物名、地名、企业名、缩写词、新增词等，这些新词通常没收录在通用领域词典中，即未登录词，特定领域语料带有大量未登录词。例如，西藏畜牧业领域语料库中存在大量“前缀+名词”、“地名+名词”和“人名+名词”等类型词组。其中，“前缀+名词”的实体名有藏绵羊、藏香猪、藏雪鸡、藏茵陈、藏茴香、藏红花等；“地名+名词”的实体名有仲巴草原、高原兔、三江流域、高山秃鹫、那曲虫草等，“人名+名词”的实体名有帕里草原、普氏原羚、邦达草原、美玉乡、尼玛乡等。这些词组没有被收录在通用分词系统的词典中，属于未登录词。

现有分词技术按字向量表示语料中的语句进行训练，在一定窗口范围内学习字在上下文中不同特征以及字之间的依赖关系，然后在依赖关系弱的位置进行切分，达到分词的目的。现有分词技术的缺点首先是容易造成未登录词被错误切开。例如“恙塘草原”由四个字组成的未登录词，很显然“恙”和“塘”，“草”和“原”的依赖关系相对较紧密，而“塘”和“草”的依赖关系相对较弱，所以“恙塘草原”被错误切分为“恙塘”和“草原”两个词。其次是字向量拆分词语本身语义，破坏了词本身语义的完整性。此外，字向量表示学习需要花费大量人力对语料进行序列标注，领域分词时需要构建领域词典，构建领域词典既困难又费时。

发明内容

本发明的目的是提供一种基于词向量表示学习的中文分词方法及系统，无需人工构建领域词典，能够提高特定领域的分词性能，确保分词结果不破坏词的语义完整性，并且能够避免花费大量人力标注语料。

为实现上述目的，本发明提供了如下方案：

一种中文分词方法，包括：

获取待分词文本；

对所述待分词文本进行初步分词处理，得到初步分词文本；

将所述初步分词文本输入BERT模型进行训练，得到语料词向量；

将所述语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；所述特征词向量能够反映词的位置信息和文本语义特征；

计算相邻两个特征词向量的余弦相似度，得到余弦相似度值；

判断所述余弦相似度值是否大于或等于预设阈值；若大于或等于所述预设阈值，则将所述相邻两个特征词向量对应词的初步分词结果进行合并；若小于所述预设阈值，则保留所述相邻两个特征词向量对应词的初步分词结果。

可选的，所述对所述待分词文本进行初步分词处理，得到初步分词文本，具体包括：

采用jieba分词工具对所述待分词文本进行初步分词处理，得到初步分词文本。

可选的，所述将所述语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量，具体包括：

将所述语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态；

计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值，得到多个特征词向量。

可选的，所述将所述语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态，具体包括：

将所述语料词向量正向输入Bi-GRU模型进行训练，得到正向隐藏状态；

将所述语料词向量反向输入Bi-GRU模型进行训练，得到反向隐藏状态；

将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作，得到Bi-GRU网络隐藏状态。

可选的，所述计算相邻两个特征词向量的余弦相似度，得到余弦相似度值，具体包括：

根据如下公式计算相邻两个特征词向量的余弦相似度：

式中，s(y_i,y_i+1)为第i个特征词向量y_i和第i+1个特征词向量y_i+1的余弦相似度值，n表示特征词向量总个数。

本发明还提供一种中文分词系统，包括：

待分词文本获取模块，用于获取待分词文本；

初步分词处理模块，用于对所述待分词文本进行初步分词处理，得到初步分词文本；

语料词向量生成模块，用于将所述初步分词文本输入BERT模型进行训练，得到语料词向量；

特征词向量生成模块，用于将所述语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；所述特征词向量能够反映词的位置信息和文本语义特征；

余弦相似度计算模块，用于计算相邻两个特征词向量的余弦相似度，得到余弦相似度值；

判断模块，用于判断所述余弦相似度值是否大于或等于预设阈值；若大于或等于所述预设阈值，则执行词合并模块；若小于所述预设阈值，则执行词保留模块；

词合并模块，用于将所述相邻两个特征词向量对应词的初步分词结果进行合并；

词保留模块，用于保留所述相邻两个特征词向量对应词的初步分词结果。

可选的，所述初步分词处理模块，具体包括：

初步分词处理单元，用于采用jieba分词工具对所述待分词文本进行初步分词处理，得到初步分词文本。

可选的，所述特征词向量生成模块，具体包括：

隐藏状态生成单元，用于将所述语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态；

特征词向量生成单元，用于计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值，得到多个特征词向量。

可选的，所述隐藏状态生成单元，具体包括：

正向隐藏状态生成子单元，用于将所述语料词向量正向输入Bi-GRU模型进行训练，得到正向隐藏状态；

反向隐藏状态生成子单元，用于将所述语料词向量反向输入Bi-GRU模型进行训练，得到反向隐藏状态；

隐藏状态生成子单元，用于将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作，得到Bi-GRU网络隐藏状态。

可选的，所述余弦相似度计算模块，具体包括：

余弦相似度计算单元，用于根据如下公式计算相邻两个特征词向量的余弦相似度：

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于词向量表示学习的中文分词方法及系统，获取待分词文本；对待分词文本进行初步分词处理，得到初步分词文本；将初步分词文本输入BERT模型进行训练，得到语料词向量；将语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；计算相邻两个特征词向量的余弦相似度，得到余弦相似度值；判断余弦相似度值是否大于或等于预设阈值；若大于或等于预设阈值，则将相邻两个特征词向量对应词的初步分词结果进行合并；若小于预设阈值，则保留相邻两个特征词向量对应词的初步分词结果。本发明无需人工构建领域词典，解决了特定领域未登录词分词问题，提高分词性能，确保分词结果不破坏词的语义完整性，并且能够避免花费大量人力标注语料。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于词向量表示学习的中文分词方法流程图；

图2为本发明实施例中基于词向量表示学习的中文分词系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

本发明主要解决现有分词技术对未登录词被错误切开问题；其次解决特定领域分词需要耗费大量人工构建领域词典和语料标注问题；最后利用词向量表示学习解决字向量表示会拆分词本身语义，破坏词的语义完整性问题。

本发明目的之一是无需人工构建领域词典前提下通过机器学习词语上、下文语义特征解决未登录词的正确分词，从而提高深度学习技术在特定领域分词性能；目的之二采用词向量表示学习便于扑捉词级的语义特征，从而确保分词结果不破坏词的语义完成性，最终实现词向量表示学习的特定领域中文分词；目的之三词向量代替字向量表示避免花费大量人力标注语料。

图1为本发明实施例中基于词向量表示学习的中文分词方法流程图，如图1所示，一种基于词向量表示学习的中文分词方法，包括：

步骤101：获取待分词文本。

步骤102：对待分词文本进行初步分词处理，得到初步分词文本。

步骤102，具体包括：

采用jieba分词工具对待分词文本进行初步分词处理，得到初步分词文本。

步骤103：将初步分词文本输入BERT模型进行训练，得到语料词向量。

步骤104：将语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；特征词向量能够反映词的位置信息和文本语义特征(即上、下文语义特征)。

步骤104，具体包括：

将语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态；

计算预设权重矩阵与Bi-GRU网络隐藏状态的乘积的sigmoid函数值，得到多个特征词向量。

其中，

将语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态，具体包括：

将语料词向量正向输入Bi-GRU模型进行训练，得到正向隐藏状态；将语料词向量反向输入Bi-GRU模型进行训练，得到反向隐藏状态；将正向隐藏状态和反向隐藏状态进行逐元素相加操作，得到Bi-GRU网络隐藏状态。

步骤105：计算相邻两个特征词向量的余弦相似度，得到余弦相似度值。

步骤105，具体包括：

根据如下公式计算相邻两个特征词向量的余弦相似度：

步骤106：判断余弦相似度值是否大于或等于预设阈值；若大于或等于预设阈值，则执行步骤107；若小于预设阈值，则执行步骤108。

步骤107：将相邻两个特征词向量对应词的初步分词结果进行合并。

步骤108：保留相邻两个特征词向量对应词的初步分词结果。

本发明提供的基于词向量表示学习的中文分词方法，具体应用在西藏畜牧业领域语料库中，具体方法如下：

1)分词工具对西藏畜牧业语料初步分词

为了使用词向量而非字向量表示西藏畜牧业语料，本发明先要对语料库中的所有语句进行初步分词处理。因为jieba分词工具在通用语料上分词准确率已经达到95％以上，而且jieba工具有python语言、Java语言等多种语言版本，使用起来方便，所以初步分词任务选用jieba分词工具。在无领域词典帮助的情况下jieba分词工具在特定领域的分词缺点与现有基于深度学习的分词方法一样，把未登录词被错误切开，造成其在特定领域分词准确率明显下降。实践证明，不给jieba工具增加西藏畜牧业语料词典情况下，它将语料中所有的“前缀+名词”、“地名+名词”和“人名+名词”等类型的词组错误切开，所以jieba分词后的语料包括了本发明研究的对象。具体做法是西藏畜牧业语料文本发明件作为jieba工具输入，分词结果输出到文本发明件保存。

2)BERT模型生成初步分词语料的词向量

本发明选择BERT(Bidirectional Encoder Representations fromTransformers)模型实现语料的词向量表示。BERT模型包括预训练和微调两个阶段，模型在不同的预训练任务上训练未标记的数据，并具有参数微调功能；与其它语言模型相比，BERT预训练语言模型能够充分利用词的左、右两边信息来获得更好的词分布式表示。将jieba初步分词的语料文本输入给BERT模型，模型训练后输出语料的词向量表示。具体实现是先安装预训练模型BERT-Large及其附带的词典文件，然后由Tensorflow调用BERT包完成。在BERT模型上训练初步分词后的西藏畜牧业语料，获得该语料词向量表示，例如输入给BERT模型的语句为W＝{w₁，w₂，w₃，……，w_n}，则模型输出句子的词向量为X＝{x₁，x₂，x₃，……，x_n}，其中n表示句子中包含的词向量个数，即句子的长度。

3)语料词向量数据进行Bi-GRU网络建模

发明借助双向门控循环单元(Bidirectional Gated Recurrent Units，Bi-GRU)训练西藏畜牧业语料的分词模型。门控循环单元(Gated Recurrent Units，GRU)具有网络参数少，计算开销小，很好解决梯度消失和长距离依赖等特点，双向网络结构训练时不仅能利用到过去的信息，还能捕捉到后续的信息，即双向结构能更好扑捉输入序列上文和下文信息。BERT模型输出的词向量表示的中文语句X＝{x₁,x₂,x₃,…,x_n}，分别作为Bi-GRU网络的正向和反向输入，则Bi-GRU的正向网络t时刻更新门z_t、重置门r_t、隐藏状态h_t计算公式如下：

z_t＝σ(W_zx_t+U_Zh_t-1)

r_t＝σ(W_rx_t+U_rh_t-1)

式中，x_t为t时刻的中文语句，h_t-1为t-1时刻的隐藏状态。

Bi-GRU的反向网络计算公式与正向类似，这里用

与

分别表示Bi-GRU网络正向和反向t时刻的隐藏状态，则Bi-GRU网络隐藏状态表示为：

其中，W_z，U_Z，W_r，U_r，

W_o是用于训练时的权重矩阵，

是GRU网络隐含层结果，σ(·)是激活函数sigmoid，运算符⊙是哈达玛积(Hadamard product)，运算符

代表两个向量逐元素相加。隐含层h_t经过线性变化后得到向量y_t表示为：

y_t＝σ(W_oh_t)

y_t是第t个词向量x_t训练的最终结果，但是y_t比x_t多了词位信息和上下文语义特征。

4)计算相邻输出向量的余弦相似度

本发明解决未登录词被错误切开问题，被错误切开的这些词原本属于同一个词组，所以它们不仅语法位置相邻而且存在较强的依赖关系和语义相关性，而句子中其它相邻词的依赖关系和语义相关性相对弱，基于这个原理本发明利用相邻词间的语义相关性的强弱对初步分词结果中被错误切开的未登录词进行修正。自然语言处理中通常用余弦相似度衡量两个词语的语义相关性和依赖关系的强弱，即两个词向量的夹角的余弦值，计算公式表示如下：

5)余弦相似度大于阀值λ处的分词结果需修正，实现词向量表示的中文分词

逐个计算输出序列中相邻两个向量<y_i，y_i+1>的余弦相似度，并根据训练时设定的余弦相似度的阀值λ决策初步分词结果中哪些分词需要修正，如果某对相邻向量<y_i，y_i+1>余弦相似度大于阀值λ，则它们对应初步分词结果中的相邻词w_i与词w_i+1需要修正，即将它们重新合并为一个词w_iw_i+1；如果小于阀值λ，则不需要修正，保留初步分词结果w_i和w_i+1两个分词不变，此方法在未构造领域词典情况下成功解决了现有分词技术错误切分未登录词的问题。

利用西藏畜牧业领域语料库的测试数据进行测试，本发明比jieba工具分词准确率提高了36.24％。实践证明本发明提出的方法是有效、可行的。

本发明的好处在于：

首先，本发明不依赖特定领域词典而是根据相邻词间的语义相关性强弱修正被错误切开的未登录词，解决现有技术对未登录词错误分词问题。步骤1)的jieba工具初步分词，步骤2)的BERT模型训练词向量，步骤3)的词向量数据进行Bi-GRU网络建模都使用它们自带的通用词典，无需人工构建特定领域词典，本发明通过相邻输出向量的余弦相似度决策哪些初步分词结果需要修正，即找到被错误切分的未登录词进行修正。

其次，本发明在分词任务中使用词向量而非字向量表示学习。本发明的分词方法包括初步分词和修正分词两个阶段，初步分词保证可以使用词向量表示语料进行训练学习，词向量表示比字向量表示减少了人工标注语料的预处理工作。

再有，本发明的分词任务不破坏词的语义完整性。以词向量表示学习首先保证了词的语义完整性，通过相邻词向量的余弦相似度修正初步分词结果进一步确保词组语义完整性。

图2为本发明实施例中基于词向量表示学习的中文分词系统结构图。如图2所示，一种基于词向量表示学习的中文分词系统，包括：

待分词文本获取模块201，用于获取待分词文本。

初步分词处理模块202，用于对待分词文本进行初步分词处理，得到初步分词文本。

初步分词处理模块202，具体包括：

初步分词处理单元，用于采用jieba分词工具对待分词文本进行初步分词处理，得到初步分词文本。

语料词向量生成模块203，用于将初步分词文本输入BERT模型进行训练，得到语料词向量。

特征词向量生成模块204，用于将语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；特征词向量能够反映词的位置信息和文本语义特征(即上、下文语义特征)。

特征词向量生成模块204，具体包括：

隐藏状态生成单元，用于将语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态。

隐藏状态生成单元，具体包括：

正向隐藏状态生成子单元，用于将语料词向量正向输入Bi-GRU模型进行训练，得到正向隐藏状态。

反向隐藏状态生成子单元，用于将语料词向量反向输入Bi-GRU模型进行训练，得到反向隐藏状态。

隐藏状态生成子单元，用于将正向隐藏状态和反向隐藏状态进行逐元素相加操作，得到Bi-GRU网络隐藏状态。

特征词向量生成单元，用于计算预设权重矩阵与Bi-GRU网络隐藏状态的乘积的sigmoid函数值，得到多个特征词向量。

余弦相似度计算模块205，用于计算相邻两个特征词向量的余弦相似度，得到余弦相似度值。

余弦相似度计算模块205，具体包括：

判断模块206，用于判断余弦相似度值是否大于或等于预设阈值；若大于或等于预设阈值，则执行词合并模块；若小于预设阈值，则执行词保留模块。

词合并模块207，用于将相邻两个特征词向量对应词的初步分词结果进行合并。

词保留模块208，用于保留相邻两个特征词向量对应词的初步分词结果。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明基于向量表示的Bi-GRU网络训练，获取到词的上下文语义特征，然后根据相邻输出向量的余弦相似度决策哪些初步分词结果需要修正，即找到被错误切分的未登录词进行分词修正。因此本发明的优点之一是成功解决未登录词被正确分词，提高了深度学习技术在特定领域分词的性能和准确率。因为分词整个过程不需要构建领域词典，因此本发明的优点二是本发明通用性强、可应用于其它领域进行分词。本发明分词包括jieba工具初步分词和机器学习的修正分词两个阶段，初步分词阶段确保在分词任务中可用词向量代替字向量，词向量表示学习便于神经网络模型训练词级语义特征，因此本发明优点三是分词方法不破坏词的语义完整性。词向量表示学习避免了花费大量人工标注语料；初步分词阶段无需人工干预给jieba工具构建领域词典，因此本发明的优点四是无需大量人工干预。

本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种中文分词方法，其特征在于，包括：

获取待分词文本；

对所述待分词文本进行初步分词处理，得到初步分词文本；

2.根据权利要求1所述的中文分词方法，其特征在于，所述对所述待分词文本进行初步分词处理，得到初步分词文本，具体包括：

3.根据权利要求2所述的中文分词方法，其特征在于，所述将所述语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量，具体包括：

4.根据权利要求3所述的中文分词方法，其特征在于，所述将所述语料词向量输入Bi-GRU模型进行训练，得到Bi-GRU网络隐藏状态，具体包括：

5.根据权利要求4所述的中文分词方法，其特征在于，所述计算相邻两个特征词向量的余弦相似度，得到余弦相似度值，具体包括：

根据如下公式计算相邻两个特征词向量的余弦相似度：

6.一种中文分词系统，其特征在于，包括：

待分词文本获取模块，用于获取待分词文本；

特征词向量生成模块，用于将所述语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；所述特征词向量能够反映词的位置信息和文本上下文语义特征；

7.根据权利要求6所述的中文分词系统，其特征在于，所述初步分词处理模块，具体包括：

8.根据权利要求7所述的中文分词系统，其特征在于，所述特征词向量生成模块，具体包括：

9.根据权利要求8所述的中文分词系统，其特征在于，所述隐藏状态生成单元，具体包括：

10.根据权利要求9所述的中文分词系统，其特征在于，所述余弦相似度计算模块，具体包括：