CN113343683A - 一种融合自编码器和对抗训练的中文新词发现方法及装置 - Google Patents
一种融合自编码器和对抗训练的中文新词发现方法及装置 Download PDFInfo
- Publication number
- CN113343683A CN113343683A CN202110682896.6A CN202110682896A CN113343683A CN 113343683 A CN113343683 A CN 113343683A CN 202110682896 A CN202110682896 A CN 202110682896A CN 113343683 A CN113343683 A CN 113343683A
- Authority
- CN
- China
- Prior art keywords
- character
- vector
- encoder
- self
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
一种融合自编码器和对抗训练的中文新词发现方法,包括:1)利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;2)添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;3)对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;4)采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,以进行新词发现,输出发现结果。本发明充分借助通用领域中充足的标注语料以及先验句法知识辅助分词。
Description
技术领域
本发明公开一种融合自编码器和对抗训练的中文新词发现方法及装置,属于语义分析的技术领域。
背景技术
单词是最小的能够被独立运用的语言单位,是自然语言中的基本层次单位。单词对于自然语言处理任务来说具有重要的意义,特别是在中文任务中,大部分模型的输入是以词汇作为基础,词汇划分的准确性会对模型性能产生影响。
新词作为科技进步和社会经济发展的产物,是为了更加精简准确地描绘新生事物,这些新词可以分为两类:一类是专业领域的新生词汇,一般是某一领域的专有名称,它具有专业性和规范性的特点,例如医学领域词汇“吲哚美辛”。这些领域新词相比于其他通用单词,经常作为关键词在句子中承担重要角色,在句法结构中具有更重要的功能。另一类是日常用语,如网络新词或行业广告标语,它具有时效性和随意性,不遵循特定的成词规范。本发明方法在技术角度针对第一种专业领域新词发现问题,以提高专业领域新词分词准确率。
目前分词方法主要分为三类,一类是依据词典和词汇出现的频率进行最大概率进行分词,无法应对专业领域新词大量增加而带来的词典更新不及时的情况;另一类是基于规则的分词,曾浩等人在2019年计算机应用研究期刊上发表了《基于扩展规则与统计特征的未登录词识别》,分析了专业领域新词特点,制定规则,并根据扩展规则对分词结果进行扩充,采用统计方法验证实验结果,取得了不错的成果,但是一个规则只能适用一类领域,而且手工编写和维护规则复杂性相对较高,难以在不同领域进行迁移;第三类是基于神经网络的分词方法,需要大量标注语料进行监督学习,但对于专业领域,这种标注大量数据的需求在现实中很难满足。
本发明采用更加高效的深度学习方法,采用通用语料库训练得到语法和语义的领域无关特征,借助这些先验知识,只需要少量语料进行新领域分词功能训练,可以快速准确地发现新词,提高模型的使用覆盖范围。
发明内容
为了解决新词发现问题,本发明提出了一种融合自编码器和对抗训练的中文新词发现方法。
本发明还公开一种实现中文新词发现方法的装置。
本发明可以使用少量专业领域标注文本对预训练好的模型进行参数微调,然后输入待分词的领域文本,进行有效的分词及新词发现。
新词:不存在于当前给定词典的词汇为新词。
句法知识:是指句法结构知识,用于捕获单词之间的长距离依赖关系并提供有用的信息。
对抗任务中的领域鉴别器:在对抗任务中定义领域鉴别器Discriminator用于区分每个句子所属的领域,在数据集上对领域鉴别器进行充分的预训练,所述领域鉴别器可以对输入的句子正确鉴别其属于源域还是目标域。
源域:模型输入数据之一,指包含大量分词标注的文本数据的领域,用于训练模型,学习到领域无关特征,辅助目标域分词。
目标域:模型输入数据之一,指待分词文本所属的领域,通常与源域词汇表有一定差距,标注数据量较少。
本发明详细的技术方案如下:
一种融合自编码器和对抗训练的中文新词发现方法,其特征在于以下步骤,包括:
步骤1):利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;
步骤2):添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;
步骤3):对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;
步骤4):采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,输出整个序列的分词结果,使新词正确包含在分词结果之内。
根据本发明优选的,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4),还包括微调所述文本重构的自编码器。针对新领域应用,需要使用少量该领域标注语料进行微调文本重构自编码器。
根据本发明优选的,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程,还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。
根据本发明优选的,利用文本重构的自编码器的方法包括:
所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器,BiLSTM是由前向神经网络LSTM和后向神经网络LSTM联合构成,前向LSTM是以正向的顺序对序列的每个字符进行编码和后向LSTM则是以逆向的顺序对序列字符编码,最后将每一个字符对应位置的前向LSTM和后向LSTM的输出向量进行拼接,这种方式可以捕获目标字符上下文的语义信息,解决字符之间的长距离依赖问题:首先将输入句子s=c1c2...cn通过嵌入层,将每个字符转化为字符向量ei,然后通过所述编码器得到双向拼接后的语义特征向量hi:
在获得相应的语义特征向量hi后,将其输入到所述解码器中,所述解码器用于将语义特征向量hi转换为相应输入的字符,此处采用BiLSTMself作为解码器:
vi=BiLSTMself(hi) (4)
本技术特征利用文本重构的自编码器的架构做辅助进行文本语义特征融入,获得当前输入的完整句子信息,如附图1中的上半部的文本重构的自编码器网络结构。所述文本重构的自编码器首先在海量语料库进行预训练:例如采用维基百科数据语料无监督地进行网络预训练,所述预训练方法为模型提供了一个良好的初始化参数,在语义信息编码任务上可以有更好的泛化性能、并加速收敛训练速度;同时借助通用语料库中学习到语言学特征融入,获得当前输入句子的语义和语法信息。
根据本发明优选的,所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。本技术特征的技术优势在于:句法知识不同于单词的在应用方面的灵活性,它是一种趋于稳定的结构关系,可以直接在不同领域之间进行迁移。因此,本发明将一个在通用领域预训练完成的句法分析器应用到专业领域中,使用依存句法知识可以有效地减少歧义词问题,提高分词的准确率。
根据本发明优选的,所述步骤2)中形成字符句法拼接向量的方法,包括:
使用双向循环神经网络BiLSTM作为共享编码器,输入是源域句子 和目标域句子的混合数据,其中表示长度为n的源域句子ssrc第i个字符,表示长度为m的目标域句子stgt第j个字符,以及使用字符来承接所在单词对应的依存关系,每个字符之间的依存关系sdep=dep1,dep2,...,depp;
在输入到双向循环神经网络BiLSTM之前,字符序列信息通过嵌入层,即将每个字符转化为字符向量:源域字符向量序列目标域字符向量序列依存关系向量序列其中p=n或者p=m,表示与源域或者目标域字符个数相等的依存关系向量,其中表示源域句子第i个字符的字符向量,表示目标域句子第j个字符的字符向量,表示句子第k个字符的依存关系向量;
根据本发明优选的,所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括:
将共享编码器的输出接入最大池化层,目的在于可以去除冗余信息,进行特征压缩,以此来加快速度;
D(g;θd)=Sigmoid(Wdg+bd) (9)
本发明通过共享编码器生成每个句子的特性向量,然后输入到领域鉴别器中进行领域鉴别,最终生成的句子向量可以混淆领域鉴别器,使领域鉴别器对每个句子的特性向量无法正确区分其属于源域还是目标域,那么所述特征向量融入了两个领域的共同特征。考虑本发明训练时所处理的目标域数据量不大,因此没有使用深度网络作为领域鉴别器。本技术特征的优点在于:所述源域和目标域语义信息获取的过程是独立的,但两个领域仍存在可共享的内容。受对抗训练相关工作的启发,本发明把输入源域和目标域的混合数据融入到共享层中,使用对抗架构以确保共享层可以生成与领域无关的特征向量,提取与领域无关的信息,增强模型的鲁棒性和泛化性,在直接迁移到其他专业领域进行分词时,仍具有较好的结果。
根据本发明优选的,所述步骤4)的具体方法,包括:
分词采用条件随机场网络层进行分词,对于标签序列y的预测输出,选择Softmax激活函数选择最大概率选项:
其中,X表示输入的待识别文本序列,Y表示正确的分词标记序列,Y′代表所有可能组合的分词标记序列,和为条件随机场网络层的权重矩阵和偏置向量,hi为条件随机场网络层的隐含向量,表示预测出来的最大概率标记。
根据本发明优选的,所述模型训练过程的微调所述文本重构的自编码器,包括:
vi′=BiLSTMself(hi;θpre) (12)
其中,vi′表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;R表示字典向量空间,r为字典大小,θpre为预训练自编码器参数。
根据本发明优选的,将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法,包括:
最终损失函数如下:
L=α(Rs+Rt)+βLseg+γLD (18)
其中,d表示文本重构的自编码器的损失函数占比系数,β表示条件随机场网络层的损失函数占比系数,γ表示对抗训练的损失函数占比系数,并且α+β+γ=1;其中,Rs+Rt为文本重构的自编码器的损失函数;Lseg为对数似然损失函数;LD为对抗训练中所采用的损失函数。
根据本发明优选的,文本重构的自编码器的损失函数为交叉熵作损失函数:
其中表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量,表示该字符类别的真实标签,r表示字典大小,n表示源域句子的长度。表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量,表示该字符类别的真实标签,m表示目标域句子的长度。本发明是对输入数据编码后进行重构,使其输出与输入的数据文本内容一致,在重构过程中获取文本的语义信息。
根据本发明优选的,所述条件随机场网络层采用使用一阶维特比算法来计算标签序列的最优分数,那么字符标注的句子级别使用对数似然损失函数定义如下:
根据本发明优选的,所述对抗训练,目的在于混淆领域鉴别器,让其无法区分共享层的特征向量是来自源域还是目标域,因此采用损失函数如下:
一种实现中文新词发现方法的装置,其特征在于,包括:文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块;
所述文本重构的自编码器根据用户输入的语句信息,利用源域数据和目标域数据形成字符向量,所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据;
所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系,然后生成字符-句法拼接向量;其中,所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量;
所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块;最终所述字符-句法拼接向量通过共享编码器经文本分词模块输出分词结果,新词包含在分词结果内;其中,共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量;
所述装置的输入包括:源域文本数据输入、目标域文本数据输入、相关句法知识输入。
本发明的技术优势:
本发明包括:第一部分是基于文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;第二部分则是添加先验句法知识,与字符向量融合,提升歧义词划分的准确性;第三部分则引入对抗训练的机制,利用各领域间存在共性的特征,解决专业领域标注数据较少问题;最后采用条件随机场网络层对字符序列进行标注,进行有效的新词发现。同时在模型训练过程中,本发明采用微调文本重构的自编码器以及将自编码器,分词任务,对抗训练进行联合学习。
1、相较于传统方法,本发明所使用的新词发现方法,充分借助通用领域中充足的标注语料以及先验句法知识辅助分词,无需大量的专业领域标注信息,可以更好的适用于专业领域。
2、相较于传统方法,本发明在使用了预训练的学习方法,只需要适用少量领域标注语料进行微调参数,无需重新训练。
3、相较于传统方法,本发明引用对抗训练机制,将源域和目标域进行领域对抗学习,提取领域无关特征,减少对于人工标注语料的依赖。
附图说明
图1是本发明系统结构的示意图;
图2中文分词例句示意图,矩形框标注内容为歧义词部分,弧线表示依存句法关系。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
实施例1、
一种融合自编码器和对抗训练的中文新词发现方法,包括:
步骤1):利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;
步骤2):添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;
步骤3):对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;
步骤4):采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,输出整个序列的分词结果,使新词正确包含在分词结果之内。
所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4),还包括微调所述文本重构的自编码器。针对新领域应用,需要使用少量该领域标注语料进行微调文本重构自编码器。
所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程,还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。
利用文本重构的自编码器的方法包括:
所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器,BiLSTM是由前向神经网络LSTM和后向神经网络LSTM联合构成,前向LSTM是以正向的顺序对序列的每个字符进行编码和后向LSTM则是以逆向的顺序对序列字符编码,最后将每一个字符对应位置的前向LSTM和后向LSTM的输出向量进行拼接,这种方式可以捕获目标字符上下文的语义信息,解决字符之间的长距离依赖问题:首先将输入句子s=c1c2...cn通过嵌入层,将每个字符转化为字符向量ei,然后通过所述编码器得到双向拼接后的语义特征向量hi:
在获得相应的语义特征向量hi后,将其输入到所述解码器中,所述解码器用于将语义特征向量hi转换为相应输入的字符,此处采用BiLSTMself作为解码器:
vi=BiLSTMself(hi) (4)
其中,vi表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;R表示字典向量空间,r为字典大小;本模块的预训练结果准确率达到98.6%,准确率计算方法为每个位置对应的字符正确性除以所有字符个数。
文本重构的自编码器是神经网络的一类,其经过语料的训练实现从输入到输出的复制。所述文本重构的自编码器包括两部分:第一部分是将输入序列编码为隐式空间向量H的编码器,另一部分则是将隐式空间向量H进行重构为原文本的解码器。通过训练文本重构的自编码器,对输入的数据进行重构,使隐式空间向量H包含句子的语义信息,对后续分词过程中语义的融入十分重要,而编码器和解码器可以有很多选择如LSTM,BiLSTM,CNN等。
所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。本实施例中,所述句法分析器为百度公司开源的DDParser依存句法分析工具。
所述步骤2)中形成字符句法拼接向量的方法,包括:
使用双向循环神经网络BiLSTM作为共享编码器,输入是源域句子 和目标域句子的混合数据,其中表示长度为n的源域句子ssrc第i个字符,表示长度为m的目标域句子stgt第j个字符,以及使用字符来承接所在单词对应的依存关系,每个字符之间的依存关系sdep=dep1,dep2,...,depp;
在输入到双向循环神经网络BiLSTM之前,字符序列信息通过嵌入层,即将每个字符转化为字符向量:源域字符向量序列目标域字符向量序列依存关系向量序列其中表示源域句子第i个字符的字符向量,表示目标域句子第j个字符的字符向量,表示句子第k个字符的依存关系向量;
所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括:
将共享编码器的输出接入最大池化层,目的在于可以去除冗余信息,进行特征压缩,以此来加快速度;
D(g;θd)=Sigmoid(Wdg+bd) (9)
所述步骤4)的具体方法,包括:
分词采用条件随机场网络层进行分词,对于标签序列y的预测输出,选择Softmax激活函数选择最大概率选项:
其中,X表示输入的待识别文本序列,Y表示正确的分词标记序列,Y′代表所有可能组合的分词标记序列,和为条件随机场网络层的权重矩阵和偏置向量,hi为条件随机场网络层的隐合向量,表示预测出来的最大概率标记。
实施例2、
如实施例1所述的一种融合自编码器和对抗训练的中文新词发现方法,其区别在于,所述模型训练过程的微调所述文本重构的自编码器,包括:
vi′=BiLSTMself(hi;θpre) (12)
其中,vi′表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;;R表示字典向量空间,r为字典大小,θpre为预训练自编码器参数。
将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法,包括:
最终损失函数如下:
L=α(Rs+Rt)+βLseg+γLD (18)
其中,α表示文本重构的自编码器的损失函数占比系数,β表示条件随机场网络层的损失函数占比系数,γ表示对抗训练的损失函数占比系数,并且α+β+γ=1;其中,Rs+Rt为文本重构的自编码器的损失函数;Lseg为对数似然损失函数;LD为对抗训练中所采用的损失函数。
文本重构的自编码器的损失函数为交叉熵作损失函数:
其中表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量,表示该字符类别的真实标签,r表示字典大小,n表示源域句子的长度。表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量,表示该字符类别的真实标签,m表示目标域句子的长度。
所述条件随机场网络层采用使用一阶维特比算法来计算标签序列的最优分数,那么字符标注的句子级别使用对数似然损失函数定义如下:
所述对抗训练,目的在于混淆领域鉴别器,让其无法区分共享层的特征向量是来自源域还是目标域,因此采用损失函数如下:
本实施例中推荐使用系数为α=0.1,β=0.7,γ=0.2。
实施例3、
如附图1所示,一种实现中文新词发现方法的装置,包括:文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块;
所述文本重构的自编码器根据用户输入的语句信息,利用源域数据和目标域数据形成字符向量,所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据;
所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系,然后生成字符-句法拼接向量;其中,所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量;
所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块;所述字符-句法拼接向量通过共享编码器经文本分词模块最后输出分词结果,新词包含在分词结果内;其中,共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量;
所述装置的输入包括:源域文本数据输入、目标域文本数据输入、相关句法知识输入。
实施例4、
如实施例3所述的一种实现中文新词发现方法的装置,其中,所述先验句法与字符拼接模块所使用到的技术包括:百度公司开源的DDParser依存句法分析工具。
所述的依存句法工具使用百度构建的中文依存句法库以及新闻等多种领域文本训练,如附图2所示,使用预训练好的工具得到“他向我们说明文中的细节”完整的依存句法结构图。
应用例1、
下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对医学领域文本“吲哚美辛适用于解热、缓解炎性疼痛。”进行新词发现的步骤如下,技术要求:对输入的文本进行分词,并将文本中的新词“吲哚美辛”尽可能的正确划分出来,包含在整个分词结果内。
本应用例的训练过程包含预训练和联合训练两个阶段,其中,预训练阶段是基于文本重构的自编码器和领域鉴别器,文本重构的自编码器输入的是以字符为单位的上下文文本,输出可以看做是输入的一种复制。根据公式4,公式5,输入“正/在/进/行/中/文/分/词”,目的输出仍然是“正/在/进/行/中/文/分/词”。领域鉴别器的预训练则是对文本领域的判别,根据公式8和公式9,输入是源域和目标域的文本,输出是对该文本领域的判断,1是目标领域,0是源域。然后是对文本重构自编码器进行微调,微调的过程与其预训练过程基本一致,只是采用与目标域领域一致的数据重新训练,使其学习目标域数据的语义特征,根据公式12,公式13进行微调,输入“目/标/域/领/域/一/致/的/数/据”,输出“目/标/域/领/域/一/致/的/数/据”。训练全部完成后,进行整体模型的联合训练,训练使用的损失函数为所述的最终损失函数,并采用本发明给出的损失函数使用系数α=0.1,β=0.7,γ=0.2进行训练,联合训练完成后,将得到一个完整的专业领域新词发现模型。
具体细节如下:
输入文本“吲/哚/美/辛/适/用/于/解/热/缓/解/炎/性/疼/痛”,输入句法关系(每个字符承接其相应词汇的依存句法关系)“主谓关系/主谓关系/主谓关系/主谓关系/核心关系/核心关系/核心关系/动宾关系/动宾关系/连谓结构/连谓结构/定中关系/定中关系/动宾关系/动宾关系/”。两段文本的向量进行拼接,经过共享编码器进行特征编码,共享编码器不限于BiLSTM模型,将特征编码输入到分词模块进行分词,输出分词结果:
“B/M/M/E/B/M/E/B/E/B/E/B/E/B/E”
其中,B表示词头,M表示词中,E表示词尾,S表示独立字。由此结果可以看出开头为“B/M/M/E”,将“吲哚美辛”正确划分为一个词汇。所述自编码器和鉴别的结果不作为输出,只是在模型训练时计算损失函数用到。
应用例2、
下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对文学领域新词“昊天锤”和“蓝银草”发现新词为例,其作为中文新词发现方法如下,本应用例直接使用训练完成的模型,无需其他操作,直接输入即可产生相应的输出。
输入:
待分词文本:
“你/身/上/的/昊/天/锤/和/蓝/银/草/直/到/现/在/还/没/有/产/生/过/冲/突”
输入句法关系(每个字符承接其相应词汇的依存句法关系):
“定中关系/定中关系/定中关系/虚词成分/主谓关系/主谓关系/主谓关系/虚词成分/定中关系/定中关系/定中关系/状中关系/状中关系/状中关系/状中关系/状中关系/状中关系/状中关系/核心关系/核心关系/虚词成分/动宾关系/动宾关系”
输出:
“S/B/E/S/B/M/E/S/B/M/E/B/M/M/E/B/M/E/B/E/S/B/E”
其中B表示词头,M表示词中,E表示词尾,S表示独立字。由此结果按顺序可以看出,在整段文本的分词结果中,BME标注的“昊天锤”以及BME标注的“蓝银草”两个新词都正确的出现在分词结果中。
应用例3、
下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对皮肤科学领域发现新词“脂质体”为例,其作为中文新词发现方法如下,本应用例直接使用训练完成的模型,无需其他操作,直接输入即可产生相应的输出。
输入:
待分词文本:
“脂/质/体/以/磷/脂/和/其/他/两/性/化/合/物/分/散/在/水/中/形/成/排/列/有/序/的/囊/泡”
输入句法关系(每个字符承接其相应词汇的依存句法关系):
“主谓关系/主谓关系/主谓关系/状中关系/介宾关系/介宾关系/虚词成分/定中关系/定中关系/定中关系/定中关系/并列关系/并列关系/并列关系/核心关系/核心关系/虚词成分/状中关系/状中关系/连谓结构/连谓结构/定中关系/定中关系/并列关系/并列关系/虚词成分/动宾关系/动宾关系”
输出:
“B/M/E/S/B/E/S/B/E/B/E/B/M/E/B/E/S/B/E/B/E/B/E/B/E/S/B/E”
其中B表示词头,M表示词中,E表示词尾,S表示独立字。由此结果按顺序可以看出,在整段文本的分词结果中,BME标注的“脂质体”新词被正确划分为一个词汇,正确的出现在分词结果。
Claims (10)
1.一种融合自编码器和对抗训练的中文新词发现方法,其特征在于以下步骤,包括:
步骤1):利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;
步骤2):添加先验句法知识,并与字符向量融合,形成字符句法拼接向量;
步骤3):对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量;
步骤4):采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,输出整个序列的分词结果,使新词正确包含在分词结果之内。
2.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4),还包括微调所述文本重构的自编码器。
3.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程,还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。
4.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,利用文本重构的自编码器的方法包括:
所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器,首先将输入句子s=c1c2...cn通过嵌入层,将每个字符转化为字符向量ei,然后通过所述编码器得到双向拼接后的语义特征向量hi:
在获得相应的语义特征向量hi后,将其输入到所述解码器中,所述解码器用于将语义特征向量hi转换为相应输入的字符,此处采用BiLSTMself作为解码器:
vi=BiLSTMself(hi) (4)
5.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。
6.如权利要求5所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述步骤2)中形成字符句法拼接向量的方法,包括:
使用双向循环神经网络BiLSTM作为共享编码器,输入是源域句子 和目标域句子的混合数据,其中表示长度为n的源域句子ssrc第i个字符,表示长度为m的目标域句子stgt第j个字符,以及使用字符来承接所在单词对应的依存关系,每个字符之间的依存关系sdep=dep1,dep2,...,depp;
在输入到双向循环神经网络BiLSTM之前,字符序列信息通过嵌入层,即将每个字符转化为字符向量:源域字符向量序列目标域字符向量序列依存关系向量序列其中表示源域句子第i个字符的字符向量,表示目标域句子第j个字符的字符向量,表示句子第k个字符的依存关系向量;
7.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括:
将共享编码器的输出接入最大池化层;
D(g;θd)=Sigmoid(Wdg+bd) (9)
所述步骤4)的具体方法,包括:
分词采用条件随机场网络层进行分词,对于标签序列y的预测输出,选择Softmax激活函数选择最大概率选项:
8.如权利要求2所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述模型训练过程的微调所述文本重构的自编码器,包括:
vi′=BiLSTMself(hi;θpre) (12)
9.如权利要求3所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法,包括:
最终损失函数如下:
L=α(Rs+Rt)+βLseg+γLD (18)
其中,α表示文本重构的自编码器的损失函数占比系数,β表示条件随机场网络层的损失函数占比系数,γ表示对抗训练的损失函数占比系数,并且α+β+γ=1;其中,Rs+Rt为文本重构的自编码器的损失函数;Lseg为对数似然损失函数;LD为对抗训练中所采用的损失函数;
优选的,文本重构的自编码器的损失函数为交叉熵作损失函数:
其中表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量,表示该字符类别的真实标签,r表示字典大小,n表示源域句子的长度;表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量,表示该字符类别的真实标签,m表示目标域句子的长度;
优选的,所述条件随机场网络层使用对数似然损失函数定义如下:
所述对抗训练,采用损失函数如下:
10.一种实现中文新词发现方法的装置,其特征在于,包括:文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块;
所述文本重构的自编码器根据用户输入的语句信息,利用源域数据和目标域数据形成字符向量,所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据;
所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系,然后生成字符-句法拼接向量;其中,所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量;
所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块;所述字符-句法拼接向量通过共享编码器经文本分词模块最后输出分词结果,新词包含在分词结果内;其中,共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量;
所述装置的输入包括:源域文本数据输入、目标域文本数据输入、相关句法知识输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682896.6A CN113343683B (zh) | 2021-06-18 | 2021-06-18 | 一种融合自编码器和对抗训练的中文新词发现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682896.6A CN113343683B (zh) | 2021-06-18 | 2021-06-18 | 一种融合自编码器和对抗训练的中文新词发现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343683A true CN113343683A (zh) | 2021-09-03 |
CN113343683B CN113343683B (zh) | 2022-06-07 |
Family
ID=77477719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110682896.6A Active CN113343683B (zh) | 2021-06-18 | 2021-06-18 | 一种融合自编码器和对抗训练的中文新词发现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343683B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792526A (zh) * | 2021-09-09 | 2021-12-14 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 |
CN114186043A (zh) * | 2021-12-10 | 2022-03-15 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN115050032A (zh) * | 2022-05-02 | 2022-09-13 | 清华大学 | 一种基于特征对齐和熵正则化的域适应文本图像识别方法 |
CN115577707A (zh) * | 2022-12-08 | 2023-01-06 | 中国传媒大学 | 一种多语言新闻主题词的分词方法 |
CN116029354A (zh) * | 2022-08-09 | 2023-04-28 | 中国搜索信息科技股份有限公司 | 一种面向文本对的中文语言模型预训练方法 |
CN116108830A (zh) * | 2023-03-30 | 2023-05-12 | 山东大学 | 一种句法可控文本改写方法和装置 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858010A (zh) * | 2018-11-26 | 2019-06-07 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
US10445431B1 (en) * | 2016-12-22 | 2019-10-15 | Shutterstock, Inc. | Language translation of text input using an embedded set for images and for multilanguage text strings |
CN110826325A (zh) * | 2019-11-04 | 2020-02-21 | 创新工场(广州)人工智能研究有限公司 | 一种基于对抗训练的语言模型预训练方法、系统及电子设备 |
CN111523314A (zh) * | 2020-07-03 | 2020-08-11 | 支付宝(杭州)信息技术有限公司 | 模型对抗训练、命名实体识别方法及装置 |
-
2021
- 2021-06-18 CN CN202110682896.6A patent/CN113343683B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10445431B1 (en) * | 2016-12-22 | 2019-10-15 | Shutterstock, Inc. | Language translation of text input using an embedded set for images and for multilanguage text strings |
CN109858010A (zh) * | 2018-11-26 | 2019-06-07 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
CN110826325A (zh) * | 2019-11-04 | 2020-02-21 | 创新工场(广州)人工智能研究有限公司 | 一种基于对抗训练的语言模型预训练方法、系统及电子设备 |
CN111523314A (zh) * | 2020-07-03 | 2020-08-11 | 支付宝(杭州)信息技术有限公司 | 模型对抗训练、命名实体识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
MIHAELA ROSCA 等: "Variational Approaches for Auto-Encoding Generative Adversarial Networks", 《HTTPS://ARXIV.ORG/ABS/1706.04987V1》 * |
董哲 等: "基于BERT和对抗训练的食品领域命名实体识别", 《计算机科学》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792526A (zh) * | 2021-09-09 | 2021-12-14 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 |
CN113792526B (zh) * | 2021-09-09 | 2024-02-09 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 |
CN114186043A (zh) * | 2021-12-10 | 2022-03-15 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN114186043B (zh) * | 2021-12-10 | 2022-10-21 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN115050032A (zh) * | 2022-05-02 | 2022-09-13 | 清华大学 | 一种基于特征对齐和熵正则化的域适应文本图像识别方法 |
CN116029354A (zh) * | 2022-08-09 | 2023-04-28 | 中国搜索信息科技股份有限公司 | 一种面向文本对的中文语言模型预训练方法 |
CN116029354B (zh) * | 2022-08-09 | 2023-08-01 | 中国搜索信息科技股份有限公司 | 一种面向文本对的中文语言模型预训练方法 |
CN115577707A (zh) * | 2022-12-08 | 2023-01-06 | 中国传媒大学 | 一种多语言新闻主题词的分词方法 |
CN116108830A (zh) * | 2023-03-30 | 2023-05-12 | 山东大学 | 一种句法可控文本改写方法和装置 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
CN116702786B (zh) * | 2023-08-04 | 2023-11-17 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113343683B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343683B (zh) | 一种融合自编码器和对抗训练的中文新词发现方法及装置 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN108829722A (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
CN112541356A (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN115062174A (zh) | 基于语义原型树的端到端图像字幕生成方法 | |
O’Neill et al. | Meta-embedding as auxiliary task regularization | |
CN113705222B (zh) | 槽识别模型训练方法及装置和槽填充方法及装置 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
Lim et al. | Real-world sentence boundary detection using multitask learning: A case study on French | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
Guo | RETRACTED: An automatic scoring method for Chinese-English spoken translation based on attention LSTM [EAI Endorsed Scal Inf Syst (2022), Online First] | |
CN114611487B (zh) | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 | |
Maalej et al. | Parsing Arabic using deep learning technology. | |
Saraswathi et al. | Abstractive text summarization for Tamil language using m-T5 | |
Vecchi et al. | Transferring multiple text styles using CycleGAN with supervised style latent space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |