CN113343683A

CN113343683A - 一种融合自编码器和对抗训练的中文新词发现方法及装置

Info

Publication number: CN113343683A
Application number: CN202110682896.6A
Authority: CN
Inventors: 孙宇清; 潘韦
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-03
Anticipated expiration: 2041-06-18
Also published as: CN113343683B

Abstract

一种融合自编码器和对抗训练的中文新词发现方法，包括：1)利用文本重构的自编码器，采用无监督预训练的方式提取句子级别的语义信息；2)添加先验句法知识，并与字符向量融合，形成字符句法拼接向量，以提升歧义词划分的准确性；3)对所述字符句法拼接向量进行对抗训练：将输入源域和目标域的混合数据融入到共享层中，利用对抗架构以生成与领域无关的特征向量，提取与领域无关的信息，通过利用各领域间存在共性的特征，解决专业领域标注数据较少问题；4)采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注，以进行新词发现，输出发现结果。本发明充分借助通用领域中充足的标注语料以及先验句法知识辅助分词。

Description

一种融合自编码器和对抗训练的中文新词发现方法及装置

技术领域

本发明公开一种融合自编码器和对抗训练的中文新词发现方法及装置，属于语义分析的技术领域。

背景技术

单词是最小的能够被独立运用的语言单位，是自然语言中的基本层次单位。单词对于自然语言处理任务来说具有重要的意义，特别是在中文任务中，大部分模型的输入是以词汇作为基础，词汇划分的准确性会对模型性能产生影响。

新词作为科技进步和社会经济发展的产物，是为了更加精简准确地描绘新生事物，这些新词可以分为两类：一类是专业领域的新生词汇，一般是某一领域的专有名称，它具有专业性和规范性的特点，例如医学领域词汇“吲哚美辛”。这些领域新词相比于其他通用单词，经常作为关键词在句子中承担重要角色，在句法结构中具有更重要的功能。另一类是日常用语，如网络新词或行业广告标语，它具有时效性和随意性，不遵循特定的成词规范。本发明方法在技术角度针对第一种专业领域新词发现问题，以提高专业领域新词分词准确率。

目前分词方法主要分为三类，一类是依据词典和词汇出现的频率进行最大概率进行分词，无法应对专业领域新词大量增加而带来的词典更新不及时的情况；另一类是基于规则的分词，曾浩等人在2019年计算机应用研究期刊上发表了《基于扩展规则与统计特征的未登录词识别》，分析了专业领域新词特点，制定规则，并根据扩展规则对分词结果进行扩充，采用统计方法验证实验结果，取得了不错的成果，但是一个规则只能适用一类领域，而且手工编写和维护规则复杂性相对较高，难以在不同领域进行迁移；第三类是基于神经网络的分词方法，需要大量标注语料进行监督学习，但对于专业领域，这种标注大量数据的需求在现实中很难满足。

本发明采用更加高效的深度学习方法，采用通用语料库训练得到语法和语义的领域无关特征，借助这些先验知识，只需要少量语料进行新领域分词功能训练，可以快速准确地发现新词，提高模型的使用覆盖范围。

发明内容

为了解决新词发现问题，本发明提出了一种融合自编码器和对抗训练的中文新词发现方法。

本发明还公开一种实现中文新词发现方法的装置。

本发明可以使用少量专业领域标注文本对预训练好的模型进行参数微调，然后输入待分词的领域文本，进行有效的分词及新词发现。

新词：不存在于当前给定词典的词汇为新词。

句法知识：是指句法结构知识，用于捕获单词之间的长距离依赖关系并提供有用的信息。

对抗任务中的领域鉴别器：在对抗任务中定义领域鉴别器Discriminator用于区分每个句子所属的领域，在数据集上对领域鉴别器进行充分的预训练，所述领域鉴别器可以对输入的句子正确鉴别其属于源域还是目标域。

源域：模型输入数据之一，指包含大量分词标注的文本数据的领域，用于训练模型，学习到领域无关特征，辅助目标域分词。

目标域：模型输入数据之一，指待分词文本所属的领域，通常与源域词汇表有一定差距，标注数据量较少。

本发明详细的技术方案如下：

一种融合自编码器和对抗训练的中文新词发现方法，其特征在于以下步骤，包括：

步骤1)：利用文本重构的自编码器，采用无监督预训练的方式提取句子级别的语义信息；

步骤2)：添加先验句法知识，并与字符向量融合，形成字符句法拼接向量，以提升歧义词划分的准确性；

步骤3)：对所述字符句法拼接向量进行对抗训练：将输入源域和目标域的混合数据融入到共享层中，利用对抗架构以生成与领域无关的特征向量，提取与领域无关的信息，通过利用各领域间存在共性的特征，解决专业领域标注数据较少问题；

步骤4)：采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注，输出整个序列的分词结果，使新词正确包含在分词结果之内。

根据本发明优选的，所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4)，还包括微调所述文本重构的自编码器。针对新领域应用，需要使用少量该领域标注语料进行微调文本重构自编码器。

根据本发明优选的，所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程，还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。

根据本发明优选的，利用文本重构的自编码器的方法包括：

所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器，BiLSTM是由前向神经网络LSTM和后向神经网络LSTM联合构成，前向LSTM是以正向的顺序对序列的每个字符进行编码和后向LSTM则是以逆向的顺序对序列字符编码，最后将每一个字符对应位置的前向LSTM和后向LSTM的输出向量进行拼接，这种方式可以捕获目标字符上下文的语义信息，解决字符之间的长距离依赖问题：首先将输入句子s＝c₁c₂...c_n通过嵌入层，将每个字符转化为字符向量e_i，然后通过所述编码器得到双向拼接后的语义特征向量h_i：

在获得相应的语义特征向量h_i后，将其输入到所述解码器中，所述解码器用于将语义特征向量h_i转换为相应输入的字符，此处采用BiLSTM_self作为解码器：

v_i＝BiLSTM_self(h_i) (4)

其中，v_i表示BiLSTM_self到softmax的中间向量，即每一个时间步的隐向量；

表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率；

R表示字典向量空间，r为字典大小。

本技术特征利用文本重构的自编码器的架构做辅助进行文本语义特征融入，获得当前输入的完整句子信息，如附图1中的上半部的文本重构的自编码器网络结构。所述文本重构的自编码器首先在海量语料库进行预训练：例如采用维基百科数据语料无监督地进行网络预训练，所述预训练方法为模型提供了一个良好的初始化参数，在语义信息编码任务上可以有更好的泛化性能、并加速收敛训练速度；同时借助通用语料库中学习到语言学特征融入，获得当前输入句子的语义和语法信息。

根据本发明优选的，所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。本技术特征的技术优势在于：句法知识不同于单词的在应用方面的灵活性，它是一种趋于稳定的结构关系，可以直接在不同领域之间进行迁移。因此，本发明将一个在通用领域预训练完成的句法分析器应用到专业领域中，使用依存句法知识可以有效地减少歧义词问题，提高分词的准确率。

根据本发明优选的，所述步骤2)中形成字符句法拼接向量的方法，包括：

使用双向循环神经网络BiLSTM作为共享编码器，输入是源域句子

和目标域句子

的混合数据，其中

表示长度为n的源域句子s_src第i个字符，

表示长度为m的目标域句子s_tgt第j个字符，以及使用字符来承接所在单词对应的依存关系，每个字符之间的依存关系s_dep＝dep₁，dep₂，...，dep_p；

在输入到双向循环神经网络BiLSTM之前，字符序列信息通过嵌入层，即将每个字符转化为字符向量：源域字符向量序列

目标域字符向量序列

依存关系向量序列

其中p＝n或者p＝m，表示与源域或者目标域字符个数相等的依存关系向量，其中

表示源域句子第i个字符的字符向量，

表示目标域句子第j个字符的字符向量，

表示句子第k个字符的依存关系向量；

将字符向量与依存关系向量拼接，输入到BiLSTM中，其中，

表示源域的字符向量，

表示源域字符向量与依存关系向量拼接后的向量，

表示目标域数据的字符向量，

表示目标域字符向量与依存关系向量拼接后的向量：

其中，得到源域和目标域的共享特征向量为：

知

其中

表示源域句子第i个字符的共享特征向量，

表示目标域句子第j个字符的共享特征向量，

i∈[0，n]，j∈[0，m]，d表示BiLSTM隐藏单元的数量。

根据本发明优选的，所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括：

将共享编码器的输出接入最大池化层，目的在于可以去除冗余信息，进行特征压缩，以此来加快速度；

特征向量可以选择源域

或是目标域

将池化后的特征向量进行二分类，判断领域归属：

D(g；θ_d)＝Sigmoid(W_dg+b_d) (9)

其中，所述

和

表示共享编码器生成的隐式特征向量，W_d和b_d表示Sigmoid二分类内部随机初始化产生的权重矩阵和偏置向量，θ_d表示领域鉴别器内部参数集合，W_d，b_d和θ_d在模型整体训练时进行更新。

本发明通过共享编码器生成每个句子的特性向量，然后输入到领域鉴别器中进行领域鉴别，最终生成的句子向量可以混淆领域鉴别器，使领域鉴别器对每个句子的特性向量无法正确区分其属于源域还是目标域，那么所述特征向量融入了两个领域的共同特征。考虑本发明训练时所处理的目标域数据量不大，因此没有使用深度网络作为领域鉴别器。本技术特征的优点在于：所述源域和目标域语义信息获取的过程是独立的，但两个领域仍存在可共享的内容。受对抗训练相关工作的启发，本发明把输入源域和目标域的混合数据融入到共享层中，使用对抗架构以确保共享层可以生成与领域无关的特征向量，提取与领域无关的信息，增强模型的鲁棒性和泛化性，在直接迁移到其他专业领域进行分词时，仍具有较好的结果。

根据本发明优选的，所述步骤4)的具体方法，包括：

分词采用条件随机场网络层进行分词，对于标签序列y的预测输出，选择Softmax激活函数选择最大概率选项：

其中，X表示输入的待识别文本序列，Y表示正确的分词标记序列，Y′代表所有可能组合的分词标记序列，

和

为条件随机场网络层的权重矩阵和偏置向量，h_i为条件随机场网络层的隐含向量，

表示预测出来的最大概率标记。

根据本发明优选的，所述模型训练过程的微调所述文本重构的自编码器，包括：

根据步骤1)得到预训练文本重构的自编码器中源域和目标域的语义特征向量

和

拼接处理：

其中H_s＝h_s1，h_s2，...，h_sn，H_t＝h_t1，h_t2，...，h_tm，这样在使用H_s和H_t更新自编码器时，由于

和

已经添加在H_s和H_t中了，因此也会更新

知

根据公式(8)-(11)将所述

和

所代表的语义信息融入到分词任务中，更新自编码器的公式如下：

v_i′＝BiLSTM_self(h_i；θ_pre) (12)

其中，v_i′表示BiLSTM_self到softmax的中间向量，即每一个时间步的隐向量；

R表示字典向量空间，r为字典大小，θ_pre为预训练自编码器参数。

根据本发明优选的，将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法，包括：

最终损失函数如下：

L＝α(R^s+R^t)+βL_seg+γL_D (18)

其中，d表示文本重构的自编码器的损失函数占比系数，β表示条件随机场网络层的损失函数占比系数，γ表示对抗训练的损失函数占比系数，并且α+β+γ＝1；其中，R^s+R^t为文本重构的自编码器的损失函数；L_seg为对数似然损失函数；L_D为对抗训练中所采用的损失函数。

根据本发明优选的，文本重构的自编码器的损失函数为交叉熵作损失函数：

其中

表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量，

表示该字符类别的真实标签，r表示字典大小，n表示源域句子的长度。

表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量，

表示该字符类别的真实标签，m表示目标域句子的长度。本发明是对输入数据编码后进行重构，使其输出与输入的数据文本内容一致，在重构过程中获取文本的语义信息。

根据本发明优选的，所述条件随机场网络层采用使用一阶维特比算法来计算标签序列的最优分数，那么字符标注的句子级别使用对数似然损失函数定义如下：

其中，G表示所有训练数据，包括源域和目标域，

表示模型预测出的字符标签，λ是L2正则化的参数，Θ代表模型参数集合。

根据本发明优选的，所述对抗训练，目的在于混淆领域鉴别器，让其无法区分共享层的特征向量是来自源域还是目标域，因此采用损失函数如下：

其中，D_s，D_t分别表示源域和目标域的全部数据，并且d_i∈{0，1}，在此定义标签0表示数据来源于源域，标签1表示数据来源于目标域；

表示sigmoid函数预测出来的概率。

一种实现中文新词发现方法的装置，其特征在于，包括：文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块；

所述文本重构的自编码器根据用户输入的语句信息，利用源域数据和目标域数据形成字符向量，所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据；

所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系，然后生成字符-句法拼接向量；其中，所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量；

所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块；最终所述字符-句法拼接向量通过共享编码器经文本分词模块输出分词结果，新词包含在分词结果内；其中，共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量；

所述装置的输入包括：源域文本数据输入、目标域文本数据输入、相关句法知识输入。

本发明的技术优势：

本发明包括：第一部分是基于文本重构的自编码器，采用无监督预训练的方式提取句子级别的语义信息；第二部分则是添加先验句法知识，与字符向量融合，提升歧义词划分的准确性；第三部分则引入对抗训练的机制，利用各领域间存在共性的特征，解决专业领域标注数据较少问题；最后采用条件随机场网络层对字符序列进行标注，进行有效的新词发现。同时在模型训练过程中，本发明采用微调文本重构的自编码器以及将自编码器，分词任务，对抗训练进行联合学习。

1、相较于传统方法，本发明所使用的新词发现方法，充分借助通用领域中充足的标注语料以及先验句法知识辅助分词，无需大量的专业领域标注信息，可以更好的适用于专业领域。

2、相较于传统方法，本发明在使用了预训练的学习方法，只需要适用少量领域标注语料进行微调参数，无需重新训练。

3、相较于传统方法，本发明引用对抗训练机制，将源域和目标域进行领域对抗学习，提取领域无关特征，减少对于人工标注语料的依赖。

附图说明

图1是本发明系统结构的示意图；

图2中文分词例句示意图，矩形框标注内容为歧义词部分，弧线表示依存句法关系。

具体实施方式

下面结合实施例对本发明做详细的说明，但不限于此。

实施例1、

一种融合自编码器和对抗训练的中文新词发现方法，包括：

所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4)，还包括微调所述文本重构的自编码器。针对新领域应用，需要使用少量该领域标注语料进行微调文本重构自编码器。

所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程，还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。

利用文本重构的自编码器的方法包括：

v_i＝BiLSTM_self(h_i) (4)

R表示字典向量空间，r为字典大小；本模块的预训练结果准确率达到98.6％，准确率计算方法为每个位置对应的字符正确性除以所有字符个数。

文本重构的自编码器是神经网络的一类，其经过语料的训练实现从输入到输出的复制。所述文本重构的自编码器包括两部分：第一部分是将输入序列编码为隐式空间向量H的编码器，另一部分则是将隐式空间向量H进行重构为原文本的解码器。通过训练文本重构的自编码器，对输入的数据进行重构，使隐式空间向量H包含句子的语义信息，对后续分词过程中语义的融入十分重要，而编码器和解码器可以有很多选择如LSTM，BiLSTM，CNN等。

所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。本实施例中，所述句法分析器为百度公司开源的DDParser依存句法分析工具。

所述步骤2)中形成字符句法拼接向量的方法，包括：

和目标域句子

的混合数据，其中

表示长度为n的源域句子s_src第i个字符，

目标域字符向量序列

依存关系向量序列

其中

表示源域句子第i个字符的字符向量，

表示目标域句子第j个字符的字符向量，

表示句子第k个字符的依存关系向量；

将字符向量与依存关系向量拼接，输入到BiLSTM中，其中，

表示源域的字符向量，

表示源域字符向量与依存关系向量拼接后的向量，

表示目标域数据的字符向量，

表示目标域字符向量与依存关系向量拼接后的向量：

其中，得到源域和目标域的共享特征向量为：

和

其中

表示源域句子第i个字符的共享特征向量，

表示目标域句子第j个字符的共享特征向量，

i∈[0，n]，j∈[0，m]，d表示BiLSTM隐藏单元的数量。

所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括：

特征向量可以选择源域

或是目标域

将池化后的特征向量进行二分类，判断领域归属：

D(g；θ_d)＝Sigmoid(W_dg+b_d) (9)

其中，所述

和

所述步骤4)的具体方法，包括：

和

为条件随机场网络层的权重矩阵和偏置向量，h_i为条件随机场网络层的隐合向量，

表示预测出来的最大概率标记。

实施例2、

如实施例1所述的一种融合自编码器和对抗训练的中文新词发现方法，其区别在于，所述模型训练过程的微调所述文本重构的自编码器，包括：

和

拼接处理：

和

已经添加在H_s和H_t中了，因此也会更新

和

根据公式(8)-(11)将所述

和

v_i′＝BiLSTM_self(h_i；θ_pre) (12)

表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率；；

将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法，包括：

最终损失函数如下：

L＝α(R^s+R^t)+βL_seg+γL_D (18)

其中，α表示文本重构的自编码器的损失函数占比系数，β表示条件随机场网络层的损失函数占比系数，γ表示对抗训练的损失函数占比系数，并且α+β+γ＝1；其中，R^s+R^t为文本重构的自编码器的损失函数；L_seg为对数似然损失函数；L_D为对抗训练中所采用的损失函数。

文本重构的自编码器的损失函数为交叉熵作损失函数：

其中

表示该字符类别的真实标签，m表示目标域句子的长度。

所述条件随机场网络层采用使用一阶维特比算法来计算标签序列的最优分数，那么字符标注的句子级别使用对数似然损失函数定义如下：

其中，G表示所有训练数据，包括源域和目标域，

所述对抗训练，目的在于混淆领域鉴别器，让其无法区分共享层的特征向量是来自源域还是目标域，因此采用损失函数如下：

表示sigmoid函数预测出来的概率。

本实施例中推荐使用系数为α＝0.1，β＝0.7，γ＝0.2。

实施例3、

如附图1所示，一种实现中文新词发现方法的装置，包括：文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块；

所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块；所述字符-句法拼接向量通过共享编码器经文本分词模块最后输出分词结果，新词包含在分词结果内；其中，共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量；

实施例4、

如实施例3所述的一种实现中文新词发现方法的装置，其中，所述先验句法与字符拼接模块所使用到的技术包括：百度公司开源的DDParser依存句法分析工具。

所述的依存句法工具使用百度构建的中文依存句法库以及新闻等多种领域文本训练，如附图2所示，使用预训练好的工具得到“他向我们说明文中的细节”完整的依存句法结构图。

应用例1、

下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对医学领域文本“吲哚美辛适用于解热、缓解炎性疼痛。”进行新词发现的步骤如下，技术要求：对输入的文本进行分词，并将文本中的新词“吲哚美辛”尽可能的正确划分出来，包含在整个分词结果内。

本应用例的训练过程包含预训练和联合训练两个阶段，其中，预训练阶段是基于文本重构的自编码器和领域鉴别器，文本重构的自编码器输入的是以字符为单位的上下文文本，输出可以看做是输入的一种复制。根据公式4，公式5，输入“正/在/进/行/中/文/分/词”，目的输出仍然是“正/在/进/行/中/文/分/词”。领域鉴别器的预训练则是对文本领域的判别，根据公式8和公式9，输入是源域和目标域的文本，输出是对该文本领域的判断，1是目标领域，0是源域。然后是对文本重构自编码器进行微调，微调的过程与其预训练过程基本一致，只是采用与目标域领域一致的数据重新训练，使其学习目标域数据的语义特征，根据公式12，公式13进行微调，输入“目/标/域/领/域/一/致/的/数/据”，输出“目/标/域/领/域/一/致/的/数/据”。训练全部完成后，进行整体模型的联合训练，训练使用的损失函数为所述的最终损失函数，并采用本发明给出的损失函数使用系数α＝0.1，β＝0.7，γ＝0.2进行训练，联合训练完成后，将得到一个完整的专业领域新词发现模型。

具体细节如下：

输入文本“吲/哚/美/辛/适/用/于/解/热/缓/解/炎/性/疼/痛”，输入句法关系(每个字符承接其相应词汇的依存句法关系)“主谓关系/主谓关系/主谓关系/主谓关系/核心关系/核心关系/核心关系/动宾关系/动宾关系/连谓结构/连谓结构/定中关系/定中关系/动宾关系/动宾关系/”。两段文本的向量进行拼接，经过共享编码器进行特征编码，共享编码器不限于BiLSTM模型，将特征编码输入到分词模块进行分词，输出分词结果：

“B/M/M/E/B/M/E/B/E/B/E/B/E/B/E”

其中，B表示词头，M表示词中，E表示词尾，S表示独立字。由此结果可以看出开头为“B/M/M/E”，将“吲哚美辛”正确划分为一个词汇。所述自编码器和鉴别的结果不作为输出，只是在模型训练时计算损失函数用到。

应用例2、

下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对文学领域新词“昊天锤”和“蓝银草”发现新词为例，其作为中文新词发现方法如下，本应用例直接使用训练完成的模型，无需其他操作，直接输入即可产生相应的输出。

输入：

待分词文本：

“你/身/上/的/昊/天/锤/和/蓝/银/草/直/到/现/在/还/没/有/产/生/过/冲/突”

输入句法关系(每个字符承接其相应词汇的依存句法关系)：

“定中关系/定中关系/定中关系/虚词成分/主谓关系/主谓关系/主谓关系/虚词成分/定中关系/定中关系/定中关系/状中关系/状中关系/状中关系/状中关系/状中关系/状中关系/状中关系/核心关系/核心关系/虚词成分/动宾关系/动宾关系”

输出：

“S/B/E/S/B/M/E/S/B/M/E/B/M/M/E/B/M/E/B/E/S/B/E”

其中B表示词头，M表示词中，E表示词尾，S表示独立字。由此结果按顺序可以看出，在整段文本的分词结果中，BME标注的“昊天锤”以及BME标注的“蓝银草”两个新词都正确的出现在分词结果中。

应用例3、

下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对皮肤科学领域发现新词“脂质体”为例，其作为中文新词发现方法如下，本应用例直接使用训练完成的模型，无需其他操作，直接输入即可产生相应的输出。

输入：

待分词文本：

“脂/质/体/以/磷/脂/和/其/他/两/性/化/合/物/分/散/在/水/中/形/成/排/列/有/序/的/囊/泡”

输入句法关系(每个字符承接其相应词汇的依存句法关系)：

“主谓关系/主谓关系/主谓关系/状中关系/介宾关系/介宾关系/虚词成分/定中关系/定中关系/定中关系/定中关系/并列关系/并列关系/并列关系/核心关系/核心关系/虚词成分/状中关系/状中关系/连谓结构/连谓结构/定中关系/定中关系/并列关系/并列关系/虚词成分/动宾关系/动宾关系”

输出：

“B/M/E/S/B/E/S/B/E/B/E/B/M/E/B/E/S/B/E/B/E/B/E/B/E/S/B/E”

其中B表示词头，M表示词中，E表示词尾，S表示独立字。由此结果按顺序可以看出，在整段文本的分词结果中，BME标注的“脂质体”新词被正确划分为一个词汇，正确的出现在分词结果。

Claims

1.一种融合自编码器和对抗训练的中文新词发现方法，其特征在于以下步骤，包括：

步骤2)：添加先验句法知识，并与字符向量融合，形成字符句法拼接向量；

步骤3)：对所述字符句法拼接向量进行对抗训练：将输入源域和目标域的混合数据融入到共享层中，利用对抗架构以生成与领域无关的特征向量；

2.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4)，还包括微调所述文本重构的自编码器。

3.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程，还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。

4.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，利用文本重构的自编码器的方法包括：

所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器，首先将输入句子s＝c₁c₂...c_n通过嵌入层，将每个字符转化为字符向量e_i，然后通过所述编码器得到双向拼接后的语义特征向量h_i：

v_i＝BiLSTM_self(h_i) (4)

R表示字典向量空间，r为字典大小。

5.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。

6.如权利要求5所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，所述步骤2)中形成字符句法拼接向量的方法，包括：

和目标域句子

的混合数据，其中

表示长度为n的源域句子s_src第i个字符，

目标域字符向量序列

依存关系向量序列

其中

表示源域句子第i个字符的字符向量，

表示目标域句子第j个字符的字符向量，

表示句子第k个字符的依存关系向量；

将字符向量与依存关系向量拼接，输入到BiLSTM中，其中，

表示源域的字符向量，

表示源域字符向量与依存关系向量拼接后的向量，

表示目标域数据的字符向量，

表示目标域字符向量与依存关系向量拼接后的向量：

其中，得到源域和目标域的共享特征向量为：

和

其中

表示源域句子第i个字符的共享特征向量，

表示目标域句子第j个字符的共享特征向量，

d表示BiLSTM隐藏单元的数量。

7.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括：

将共享编码器的输出接入最大池化层；

特征向量可以选择源域

或是目标域

将池化后的特征向量进行二分类，判断领域归属：

D(g；θ_d)＝Sigmoid(W_dg+b_d) (9)

其中，所述

和

表示共享编码器生成的隐式特征向量，W_d和b_d表示Sigmoid二分类内部随机初始化产生的权重矩阵和偏置向量，θ_d表示领域鉴别器内部参数集合，W_d，b_d和θ_d在模型整体训练时进行更新；

所述步骤4)的具体方法，包括：

和

表示预测出来的最大概率标记。

8.如权利要求2所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，所述模型训练过程的微调所述文本重构的自编码器，包括：

和

拼接处理：

其中H_s＝h_s1，h_s2，...，h_sn，H_t＝h_t1，h_t2，...，h_tm；

根据公式(8)-(11)将所述

和

v_i′＝BiLSTM_self(h_i；θ_pre) (12)

9.如权利要求3所述的一种融合自编码器和对抗训练的中文新词发现方法，其特征在于，将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法，包括：

最终损失函数如下：

L＝α(R^s+R^t)+βL_seg+γL_D (18)

其中，α表示文本重构的自编码器的损失函数占比系数，β表示条件随机场网络层的损失函数占比系数，γ表示对抗训练的损失函数占比系数，并且α+β+γ＝1；其中，R^s+R^t为文本重构的自编码器的损失函数；L_seg为对数似然损失函数；L_D为对抗训练中所采用的损失函数；

优选的，文本重构的自编码器的损失函数为交叉熵作损失函数：

其中

表示该字符类别的真实标签，r表示字典大小，n表示源域句子的长度；

表示该字符类别的真实标签，m表示目标域句子的长度；

优选的，所述条件随机场网络层使用对数似然损失函数定义如下：

其中，G表示所有训练数据，包括源域和目标域，

表示模型预测出的字符标签，λ是L2正则化的参数，Θ代表模型参数集合；

所述对抗训练，采用损失函数如下：

表示sigmoid函数预测出来的概率。

10.一种实现中文新词发现方法的装置，其特征在于，包括：文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块；