CN113343683A - 一种融合自编码器和对抗训练的中文新词发现方法及装置 - Google Patents

一种融合自编码器和对抗训练的中文新词发现方法及装置 Download PDF

Info

Publication number
CN113343683A
CN113343683A CN202110682896.6A CN202110682896A CN113343683A CN 113343683 A CN113343683 A CN 113343683A CN 202110682896 A CN202110682896 A CN 202110682896A CN 113343683 A CN113343683 A CN 113343683A
Authority
CN
China
Prior art keywords
character
vector
encoder
self
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110682896.6A
Other languages
English (en)
Other versions
CN113343683B (zh
Inventor
孙宇清
潘韦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110682896.6A priority Critical patent/CN113343683B/zh
Publication of CN113343683A publication Critical patent/CN113343683A/zh
Application granted granted Critical
Publication of CN113343683B publication Critical patent/CN113343683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种融合自编码器和对抗训练的中文新词发现方法,包括:1)利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;2)添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;3)对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;4)采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,以进行新词发现,输出发现结果。本发明充分借助通用领域中充足的标注语料以及先验句法知识辅助分词。

Description

一种融合自编码器和对抗训练的中文新词发现方法及装置
技术领域
本发明公开一种融合自编码器和对抗训练的中文新词发现方法及装置,属于语义分析的技术领域。
背景技术
单词是最小的能够被独立运用的语言单位,是自然语言中的基本层次单位。单词对于自然语言处理任务来说具有重要的意义,特别是在中文任务中,大部分模型的输入是以词汇作为基础,词汇划分的准确性会对模型性能产生影响。
新词作为科技进步和社会经济发展的产物,是为了更加精简准确地描绘新生事物,这些新词可以分为两类:一类是专业领域的新生词汇,一般是某一领域的专有名称,它具有专业性和规范性的特点,例如医学领域词汇“吲哚美辛”。这些领域新词相比于其他通用单词,经常作为关键词在句子中承担重要角色,在句法结构中具有更重要的功能。另一类是日常用语,如网络新词或行业广告标语,它具有时效性和随意性,不遵循特定的成词规范。本发明方法在技术角度针对第一种专业领域新词发现问题,以提高专业领域新词分词准确率。
目前分词方法主要分为三类,一类是依据词典和词汇出现的频率进行最大概率进行分词,无法应对专业领域新词大量增加而带来的词典更新不及时的情况;另一类是基于规则的分词,曾浩等人在2019年计算机应用研究期刊上发表了《基于扩展规则与统计特征的未登录词识别》,分析了专业领域新词特点,制定规则,并根据扩展规则对分词结果进行扩充,采用统计方法验证实验结果,取得了不错的成果,但是一个规则只能适用一类领域,而且手工编写和维护规则复杂性相对较高,难以在不同领域进行迁移;第三类是基于神经网络的分词方法,需要大量标注语料进行监督学习,但对于专业领域,这种标注大量数据的需求在现实中很难满足。
本发明采用更加高效的深度学习方法,采用通用语料库训练得到语法和语义的领域无关特征,借助这些先验知识,只需要少量语料进行新领域分词功能训练,可以快速准确地发现新词,提高模型的使用覆盖范围。
发明内容
为了解决新词发现问题,本发明提出了一种融合自编码器和对抗训练的中文新词发现方法。
本发明还公开一种实现中文新词发现方法的装置。
本发明可以使用少量专业领域标注文本对预训练好的模型进行参数微调,然后输入待分词的领域文本,进行有效的分词及新词发现。
新词:不存在于当前给定词典的词汇为新词。
句法知识:是指句法结构知识,用于捕获单词之间的长距离依赖关系并提供有用的信息。
对抗任务中的领域鉴别器:在对抗任务中定义领域鉴别器Discriminator用于区分每个句子所属的领域,在数据集上对领域鉴别器进行充分的预训练,所述领域鉴别器可以对输入的句子正确鉴别其属于源域还是目标域。
源域:模型输入数据之一,指包含大量分词标注的文本数据的领域,用于训练模型,学习到领域无关特征,辅助目标域分词。
目标域:模型输入数据之一,指待分词文本所属的领域,通常与源域词汇表有一定差距,标注数据量较少。
本发明详细的技术方案如下:
一种融合自编码器和对抗训练的中文新词发现方法,其特征在于以下步骤,包括:
步骤1):利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;
步骤2):添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;
步骤3):对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;
步骤4):采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,输出整个序列的分词结果,使新词正确包含在分词结果之内。
根据本发明优选的,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4),还包括微调所述文本重构的自编码器。针对新领域应用,需要使用少量该领域标注语料进行微调文本重构自编码器。
根据本发明优选的,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程,还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。
根据本发明优选的,利用文本重构的自编码器的方法包括:
所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器,BiLSTM是由前向神经网络LSTM和后向神经网络LSTM联合构成,前向LSTM是以正向的顺序对序列的每个字符进行编码和后向LSTM则是以逆向的顺序对序列字符编码,最后将每一个字符对应位置的前向LSTM和后向LSTM的输出向量进行拼接,这种方式可以捕获目标字符上下文的语义信息,解决字符之间的长距离依赖问题:首先将输入句子s=c1c2...cn通过嵌入层,将每个字符转化为字符向量ei,然后通过所述编码器得到双向拼接后的语义特征向量hi
Figure BDA0003122543650000021
Figure BDA0003122543650000031
Figure BDA0003122543650000032
在获得相应的语义特征向量hi后,将其输入到所述解码器中,所述解码器用于将语义特征向量hi转换为相应输入的字符,此处采用BiLSTMself作为解码器:
vi=BiLSTMself(hi) (4)
Figure BDA0003122543650000033
其中,vi表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;
Figure BDA0003122543650000034
表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;
Figure BDA0003122543650000035
R表示字典向量空间,r为字典大小。
本技术特征利用文本重构的自编码器的架构做辅助进行文本语义特征融入,获得当前输入的完整句子信息,如附图1中的上半部的文本重构的自编码器网络结构。所述文本重构的自编码器首先在海量语料库进行预训练:例如采用维基百科数据语料无监督地进行网络预训练,所述预训练方法为模型提供了一个良好的初始化参数,在语义信息编码任务上可以有更好的泛化性能、并加速收敛训练速度;同时借助通用语料库中学习到语言学特征融入,获得当前输入句子的语义和语法信息。
根据本发明优选的,所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。本技术特征的技术优势在于:句法知识不同于单词的在应用方面的灵活性,它是一种趋于稳定的结构关系,可以直接在不同领域之间进行迁移。因此,本发明将一个在通用领域预训练完成的句法分析器应用到专业领域中,使用依存句法知识可以有效地减少歧义词问题,提高分词的准确率。
根据本发明优选的,所述步骤2)中形成字符句法拼接向量的方法,包括:
使用双向循环神经网络BiLSTM作为共享编码器,输入是源域句子
Figure BDA0003122543650000036
Figure BDA0003122543650000037
和目标域句子
Figure BDA0003122543650000038
的混合数据,其中
Figure BDA0003122543650000039
表示长度为n的源域句子ssrc第i个字符,
Figure BDA00031225436500000310
表示长度为m的目标域句子stgt第j个字符,以及使用字符来承接所在单词对应的依存关系,每个字符之间的依存关系sdep=dep1,dep2,...,depp
在输入到双向循环神经网络BiLSTM之前,字符序列信息通过嵌入层,即将每个字符转化为字符向量:源域字符向量序列
Figure BDA00031225436500000311
目标域字符向量序列
Figure BDA00031225436500000312
依存关系向量序列
Figure BDA00031225436500000313
其中p=n或者p=m,表示与源域或者目标域字符个数相等的依存关系向量,其中
Figure BDA0003122543650000041
表示源域句子第i个字符的字符向量,
Figure BDA0003122543650000042
表示目标域句子第j个字符的字符向量,
Figure BDA0003122543650000043
表示句子第k个字符的依存关系向量;
将字符向量与依存关系向量拼接,输入到BiLSTM中,其中,
Figure BDA0003122543650000044
表示源域的字符向量,
Figure BDA0003122543650000045
表示源域字符向量与依存关系向量拼接后的向量,
Figure BDA0003122543650000046
表示目标域数据的字符向量,
Figure BDA0003122543650000047
表示目标域字符向量与依存关系向量拼接后的向量:
Figure BDA0003122543650000048
Figure BDA0003122543650000049
Figure BDA00031225436500000410
Figure BDA00031225436500000411
其中,得到源域和目标域的共享特征向量为:
Figure BDA00031225436500000412
Figure BDA00031225436500000413
Figure BDA00031225436500000414
其中
Figure BDA00031225436500000415
表示源域句子第i个字符的共享特征向量,
Figure BDA00031225436500000416
表示目标域句子第j个字符的共享特征向量,
Figure BDA00031225436500000417
i∈[0,n],j∈[0,m],d表示BiLSTM隐藏单元的数量。
根据本发明优选的,所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括:
将共享编码器的输出接入最大池化层,目的在于可以去除冗余信息,进行特征压缩,以此来加快速度;
特征向量可以选择源域
Figure BDA00031225436500000418
或是目标域
Figure BDA00031225436500000419
将池化后的特征向量进行二分类,判断领域归属:
Figure BDA00031225436500000420
Figure BDA00031225436500000421
D(g;θd)=Sigmoid(Wdg+bd) (9)
其中,所述
Figure BDA00031225436500000422
Figure BDA00031225436500000423
表示共享编码器生成的隐式特征向量,Wd和bd表示Sigmoid二分类内部随机初始化产生的权重矩阵和偏置向量,θd表示领域鉴别器内部参数集合,Wd,bd和θd在模型整体训练时进行更新。
本发明通过共享编码器生成每个句子的特性向量,然后输入到领域鉴别器中进行领域鉴别,最终生成的句子向量可以混淆领域鉴别器,使领域鉴别器对每个句子的特性向量无法正确区分其属于源域还是目标域,那么所述特征向量融入了两个领域的共同特征。考虑本发明训练时所处理的目标域数据量不大,因此没有使用深度网络作为领域鉴别器。本技术特征的优点在于:所述源域和目标域语义信息获取的过程是独立的,但两个领域仍存在可共享的内容。受对抗训练相关工作的启发,本发明把输入源域和目标域的混合数据融入到共享层中,使用对抗架构以确保共享层可以生成与领域无关的特征向量,提取与领域无关的信息,增强模型的鲁棒性和泛化性,在直接迁移到其他专业领域进行分词时,仍具有较好的结果。
根据本发明优选的,所述步骤4)的具体方法,包括:
分词采用条件随机场网络层进行分词,对于标签序列y的预测输出,选择Softmax激活函数选择最大概率选项:
Figure BDA0003122543650000051
Figure BDA0003122543650000052
其中,X表示输入的待识别文本序列,Y表示正确的分词标记序列,Y′代表所有可能组合的分词标记序列,
Figure BDA0003122543650000053
Figure BDA0003122543650000054
为条件随机场网络层的权重矩阵和偏置向量,hi为条件随机场网络层的隐含向量,
Figure BDA0003122543650000055
表示预测出来的最大概率标记。
根据本发明优选的,所述模型训练过程的微调所述文本重构的自编码器,包括:
根据步骤1)得到预训练文本重构的自编码器中源域和目标域的语义特征向量
Figure BDA0003122543650000056
Figure BDA0003122543650000057
拼接处理:
Figure BDA0003122543650000058
其中Hs=hs1,hs2,...,hsn,Ht=ht1,ht2,...,htm,这样在使用Hs和Ht更新自编码器时,由于
Figure BDA0003122543650000059
Figure BDA00031225436500000510
已经添加在Hs和Ht中了,因此也会更新
Figure BDA00031225436500000511
Figure BDA00031225436500000512
根据公式(8)-(11)将所述
Figure BDA00031225436500000513
Figure BDA00031225436500000514
所代表的语义信息融入到分词任务中,更新自编码器的公式如下:
vi′=BiLSTMself(hi;θpre) (12)
Figure BDA0003122543650000061
其中,vi′表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;
Figure BDA0003122543650000062
表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;
Figure BDA0003122543650000063
R表示字典向量空间,r为字典大小,θpre为预训练自编码器参数。
根据本发明优选的,将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法,包括:
最终损失函数如下:
L=α(Rs+Rt)+βLseg+γLD (18)
其中,d表示文本重构的自编码器的损失函数占比系数,β表示条件随机场网络层的损失函数占比系数,γ表示对抗训练的损失函数占比系数,并且α+β+γ=1;其中,Rs+Rt为文本重构的自编码器的损失函数;Lseg为对数似然损失函数;LD为对抗训练中所采用的损失函数。
根据本发明优选的,文本重构的自编码器的损失函数为交叉熵作损失函数:
Figure BDA0003122543650000064
Figure BDA0003122543650000065
其中
Figure BDA0003122543650000066
表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量,
Figure BDA0003122543650000067
表示该字符类别的真实标签,r表示字典大小,n表示源域句子的长度。
Figure BDA0003122543650000068
表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量,
Figure BDA0003122543650000069
表示该字符类别的真实标签,m表示目标域句子的长度。本发明是对输入数据编码后进行重构,使其输出与输入的数据文本内容一致,在重构过程中获取文本的语义信息。
根据本发明优选的,所述条件随机场网络层采用使用一阶维特比算法来计算标签序列的最优分数,那么字符标注的句子级别使用对数似然损失函数定义如下:
Figure BDA00031225436500000610
其中,G表示所有训练数据,包括源域和目标域,
Figure BDA00031225436500000611
表示模型预测出的字符标签,λ是L2正则化的参数,Θ代表模型参数集合。
根据本发明优选的,所述对抗训练,目的在于混淆领域鉴别器,让其无法区分共享层的特征向量是来自源域还是目标域,因此采用损失函数如下:
Figure BDA00031225436500000612
其中,Ds,Dt分别表示源域和目标域的全部数据,并且di∈{0,1},在此定义标签0表示数据来源于源域,标签1表示数据来源于目标域;
Figure BDA0003122543650000071
表示sigmoid函数预测出来的概率。
一种实现中文新词发现方法的装置,其特征在于,包括:文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块;
所述文本重构的自编码器根据用户输入的语句信息,利用源域数据和目标域数据形成字符向量,所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据;
所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系,然后生成字符-句法拼接向量;其中,所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量;
所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块;最终所述字符-句法拼接向量通过共享编码器经文本分词模块输出分词结果,新词包含在分词结果内;其中,共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量;
所述装置的输入包括:源域文本数据输入、目标域文本数据输入、相关句法知识输入。
本发明的技术优势:
本发明包括:第一部分是基于文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;第二部分则是添加先验句法知识,与字符向量融合,提升歧义词划分的准确性;第三部分则引入对抗训练的机制,利用各领域间存在共性的特征,解决专业领域标注数据较少问题;最后采用条件随机场网络层对字符序列进行标注,进行有效的新词发现。同时在模型训练过程中,本发明采用微调文本重构的自编码器以及将自编码器,分词任务,对抗训练进行联合学习。
1、相较于传统方法,本发明所使用的新词发现方法,充分借助通用领域中充足的标注语料以及先验句法知识辅助分词,无需大量的专业领域标注信息,可以更好的适用于专业领域。
2、相较于传统方法,本发明在使用了预训练的学习方法,只需要适用少量领域标注语料进行微调参数,无需重新训练。
3、相较于传统方法,本发明引用对抗训练机制,将源域和目标域进行领域对抗学习,提取领域无关特征,减少对于人工标注语料的依赖。
附图说明
图1是本发明系统结构的示意图;
图2中文分词例句示意图,矩形框标注内容为歧义词部分,弧线表示依存句法关系。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
实施例1、
一种融合自编码器和对抗训练的中文新词发现方法,包括:
步骤1):利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;
步骤2):添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;
步骤3):对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;
步骤4):采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,输出整个序列的分词结果,使新词正确包含在分词结果之内。
所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4),还包括微调所述文本重构的自编码器。针对新领域应用,需要使用少量该领域标注语料进行微调文本重构自编码器。
所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程,还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。
利用文本重构的自编码器的方法包括:
所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器,BiLSTM是由前向神经网络LSTM和后向神经网络LSTM联合构成,前向LSTM是以正向的顺序对序列的每个字符进行编码和后向LSTM则是以逆向的顺序对序列字符编码,最后将每一个字符对应位置的前向LSTM和后向LSTM的输出向量进行拼接,这种方式可以捕获目标字符上下文的语义信息,解决字符之间的长距离依赖问题:首先将输入句子s=c1c2...cn通过嵌入层,将每个字符转化为字符向量ei,然后通过所述编码器得到双向拼接后的语义特征向量hi
Figure BDA0003122543650000081
Figure BDA0003122543650000082
Figure BDA0003122543650000083
在获得相应的语义特征向量hi后,将其输入到所述解码器中,所述解码器用于将语义特征向量hi转换为相应输入的字符,此处采用BiLSTMself作为解码器:
vi=BiLSTMself(hi) (4)
Figure BDA0003122543650000091
其中,vi表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;
Figure BDA0003122543650000092
表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;
Figure BDA0003122543650000093
R表示字典向量空间,r为字典大小;本模块的预训练结果准确率达到98.6%,准确率计算方法为每个位置对应的字符正确性除以所有字符个数。
文本重构的自编码器是神经网络的一类,其经过语料的训练实现从输入到输出的复制。所述文本重构的自编码器包括两部分:第一部分是将输入序列编码为隐式空间向量H的编码器,另一部分则是将隐式空间向量H进行重构为原文本的解码器。通过训练文本重构的自编码器,对输入的数据进行重构,使隐式空间向量H包含句子的语义信息,对后续分词过程中语义的融入十分重要,而编码器和解码器可以有很多选择如LSTM,BiLSTM,CNN等。
所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。本实施例中,所述句法分析器为百度公司开源的DDParser依存句法分析工具。
所述步骤2)中形成字符句法拼接向量的方法,包括:
使用双向循环神经网络BiLSTM作为共享编码器,输入是源域句子
Figure BDA0003122543650000094
Figure BDA0003122543650000095
和目标域句子
Figure BDA0003122543650000096
的混合数据,其中
Figure BDA0003122543650000097
表示长度为n的源域句子ssrc第i个字符,
Figure BDA0003122543650000098
表示长度为m的目标域句子stgt第j个字符,以及使用字符来承接所在单词对应的依存关系,每个字符之间的依存关系sdep=dep1,dep2,...,depp
在输入到双向循环神经网络BiLSTM之前,字符序列信息通过嵌入层,即将每个字符转化为字符向量:源域字符向量序列
Figure BDA0003122543650000099
目标域字符向量序列
Figure BDA00031225436500000910
依存关系向量序列
Figure BDA00031225436500000911
其中
Figure BDA00031225436500000912
表示源域句子第i个字符的字符向量,
Figure BDA00031225436500000913
表示目标域句子第j个字符的字符向量,
Figure BDA00031225436500000914
表示句子第k个字符的依存关系向量;
将字符向量与依存关系向量拼接,输入到BiLSTM中,其中,
Figure BDA00031225436500000915
表示源域的字符向量,
Figure BDA00031225436500000916
表示源域字符向量与依存关系向量拼接后的向量,
Figure BDA00031225436500000917
表示目标域数据的字符向量,
Figure BDA00031225436500000918
表示目标域字符向量与依存关系向量拼接后的向量:
Figure BDA00031225436500000919
Figure BDA0003122543650000101
Figure BDA0003122543650000102
Figure BDA0003122543650000103
其中,得到源域和目标域的共享特征向量为:
Figure BDA0003122543650000104
Figure BDA0003122543650000105
Figure BDA0003122543650000106
其中
Figure BDA0003122543650000107
表示源域句子第i个字符的共享特征向量,
Figure BDA0003122543650000108
表示目标域句子第j个字符的共享特征向量,
Figure BDA0003122543650000109
i∈[0,n],j∈[0,m],d表示BiLSTM隐藏单元的数量。
所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括:
将共享编码器的输出接入最大池化层,目的在于可以去除冗余信息,进行特征压缩,以此来加快速度;
特征向量可以选择源域
Figure BDA00031225436500001010
或是目标域
Figure BDA00031225436500001011
将池化后的特征向量进行二分类,判断领域归属:
Figure BDA00031225436500001012
Figure BDA00031225436500001013
D(g;θd)=Sigmoid(Wdg+bd) (9)
其中,所述
Figure BDA00031225436500001014
Figure BDA00031225436500001015
表示共享编码器生成的隐式特征向量,Wd和bd表示Sigmoid二分类内部随机初始化产生的权重矩阵和偏置向量,θd表示领域鉴别器内部参数集合,Wd,bd和θd在模型整体训练时进行更新。
所述步骤4)的具体方法,包括:
分词采用条件随机场网络层进行分词,对于标签序列y的预测输出,选择Softmax激活函数选择最大概率选项:
Figure BDA00031225436500001016
Figure BDA00031225436500001017
其中,X表示输入的待识别文本序列,Y表示正确的分词标记序列,Y′代表所有可能组合的分词标记序列,
Figure BDA00031225436500001018
Figure BDA00031225436500001019
为条件随机场网络层的权重矩阵和偏置向量,hi为条件随机场网络层的隐合向量,
Figure BDA0003122543650000111
表示预测出来的最大概率标记。
实施例2、
如实施例1所述的一种融合自编码器和对抗训练的中文新词发现方法,其区别在于,所述模型训练过程的微调所述文本重构的自编码器,包括:
根据步骤1)得到预训练文本重构的自编码器中源域和目标域的语义特征向量
Figure BDA0003122543650000112
Figure BDA0003122543650000113
拼接处理:
Figure BDA0003122543650000114
其中Hs=hs1,hs2,...,hsn,Ht=ht1,ht2,...,htm,这样在使用Hs和Ht更新自编码器时,由于
Figure BDA0003122543650000115
Figure BDA0003122543650000116
已经添加在Hs和Ht中了,因此也会更新
Figure BDA0003122543650000117
Figure BDA0003122543650000118
根据公式(8)-(11)将所述
Figure BDA0003122543650000119
Figure BDA00031225436500001110
所代表的语义信息融入到分词任务中,更新自编码器的公式如下:
vi′=BiLSTMself(hi;θpre) (12)
Figure BDA00031225436500001111
其中,vi′表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;
Figure BDA00031225436500001112
表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;;
Figure BDA00031225436500001113
R表示字典向量空间,r为字典大小,θpre为预训练自编码器参数。
将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法,包括:
最终损失函数如下:
L=α(Rs+Rt)+βLseg+γLD (18)
其中,α表示文本重构的自编码器的损失函数占比系数,β表示条件随机场网络层的损失函数占比系数,γ表示对抗训练的损失函数占比系数,并且α+β+γ=1;其中,Rs+Rt为文本重构的自编码器的损失函数;Lseg为对数似然损失函数;LD为对抗训练中所采用的损失函数。
文本重构的自编码器的损失函数为交叉熵作损失函数:
Figure BDA0003122543650000121
Figure BDA0003122543650000122
其中
Figure BDA0003122543650000123
表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量,
Figure BDA0003122543650000124
表示该字符类别的真实标签,r表示字典大小,n表示源域句子的长度。
Figure BDA0003122543650000125
表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量,
Figure BDA0003122543650000126
表示该字符类别的真实标签,m表示目标域句子的长度。
所述条件随机场网络层采用使用一阶维特比算法来计算标签序列的最优分数,那么字符标注的句子级别使用对数似然损失函数定义如下:
Figure BDA0003122543650000127
其中,G表示所有训练数据,包括源域和目标域,
Figure BDA0003122543650000128
表示模型预测出的字符标签,λ是L2正则化的参数,Θ代表模型参数集合。
所述对抗训练,目的在于混淆领域鉴别器,让其无法区分共享层的特征向量是来自源域还是目标域,因此采用损失函数如下:
Figure BDA0003122543650000129
其中,Ds,Dt分别表示源域和目标域的全部数据,并且di∈{0,1},在此定义标签0表示数据来源于源域,标签1表示数据来源于目标域;
Figure BDA00031225436500001210
表示sigmoid函数预测出来的概率。
本实施例中推荐使用系数为α=0.1,β=0.7,γ=0.2。
实施例3、
如附图1所示,一种实现中文新词发现方法的装置,包括:文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块;
所述文本重构的自编码器根据用户输入的语句信息,利用源域数据和目标域数据形成字符向量,所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据;
所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系,然后生成字符-句法拼接向量;其中,所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量;
所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块;所述字符-句法拼接向量通过共享编码器经文本分词模块最后输出分词结果,新词包含在分词结果内;其中,共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量;
所述装置的输入包括:源域文本数据输入、目标域文本数据输入、相关句法知识输入。
实施例4、
如实施例3所述的一种实现中文新词发现方法的装置,其中,所述先验句法与字符拼接模块所使用到的技术包括:百度公司开源的DDParser依存句法分析工具。
所述的依存句法工具使用百度构建的中文依存句法库以及新闻等多种领域文本训练,如附图2所示,使用预训练好的工具得到“他向我们说明文中的细节”完整的依存句法结构图。
应用例1、
下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对医学领域文本“吲哚美辛适用于解热、缓解炎性疼痛。”进行新词发现的步骤如下,技术要求:对输入的文本进行分词,并将文本中的新词“吲哚美辛”尽可能的正确划分出来,包含在整个分词结果内。
本应用例的训练过程包含预训练和联合训练两个阶段,其中,预训练阶段是基于文本重构的自编码器和领域鉴别器,文本重构的自编码器输入的是以字符为单位的上下文文本,输出可以看做是输入的一种复制。根据公式4,公式5,输入“正/在/进/行/中/文/分/词”,目的输出仍然是“正/在/进/行/中/文/分/词”。领域鉴别器的预训练则是对文本领域的判别,根据公式8和公式9,输入是源域和目标域的文本,输出是对该文本领域的判断,1是目标领域,0是源域。然后是对文本重构自编码器进行微调,微调的过程与其预训练过程基本一致,只是采用与目标域领域一致的数据重新训练,使其学习目标域数据的语义特征,根据公式12,公式13进行微调,输入“目/标/域/领/域/一/致/的/数/据”,输出“目/标/域/领/域/一/致/的/数/据”。训练全部完成后,进行整体模型的联合训练,训练使用的损失函数为所述的最终损失函数,并采用本发明给出的损失函数使用系数α=0.1,β=0.7,γ=0.2进行训练,联合训练完成后,将得到一个完整的专业领域新词发现模型。
具体细节如下:
输入文本“吲/哚/美/辛/适/用/于/解/热/缓/解/炎/性/疼/痛”,输入句法关系(每个字符承接其相应词汇的依存句法关系)“主谓关系/主谓关系/主谓关系/主谓关系/核心关系/核心关系/核心关系/动宾关系/动宾关系/连谓结构/连谓结构/定中关系/定中关系/动宾关系/动宾关系/”。两段文本的向量进行拼接,经过共享编码器进行特征编码,共享编码器不限于BiLSTM模型,将特征编码输入到分词模块进行分词,输出分词结果:
“B/M/M/E/B/M/E/B/E/B/E/B/E/B/E”
其中,B表示词头,M表示词中,E表示词尾,S表示独立字。由此结果可以看出开头为“B/M/M/E”,将“吲哚美辛”正确划分为一个词汇。所述自编码器和鉴别的结果不作为输出,只是在模型训练时计算损失函数用到。
应用例2、
下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对文学领域新词“昊天锤”和“蓝银草”发现新词为例,其作为中文新词发现方法如下,本应用例直接使用训练完成的模型,无需其他操作,直接输入即可产生相应的输出。
输入:
待分词文本:
“你/身/上/的/昊/天/锤/和/蓝/银/草/直/到/现/在/还/没/有/产/生/过/冲/突”
输入句法关系(每个字符承接其相应词汇的依存句法关系):
“定中关系/定中关系/定中关系/虚词成分/主谓关系/主谓关系/主谓关系/虚词成分/定中关系/定中关系/定中关系/状中关系/状中关系/状中关系/状中关系/状中关系/状中关系/状中关系/核心关系/核心关系/虚词成分/动宾关系/动宾关系”
输出:
“S/B/E/S/B/M/E/S/B/M/E/B/M/M/E/B/M/E/B/E/S/B/E”
其中B表示词头,M表示词中,E表示词尾,S表示独立字。由此结果按顺序可以看出,在整段文本的分词结果中,BME标注的“昊天锤”以及BME标注的“蓝银草”两个新词都正确的出现在分词结果中。
应用例3、
下面结合实施例1、2所述的融合自编码器和对抗训练的中文新词发现方法对皮肤科学领域发现新词“脂质体”为例,其作为中文新词发现方法如下,本应用例直接使用训练完成的模型,无需其他操作,直接输入即可产生相应的输出。
输入:
待分词文本:
“脂/质/体/以/磷/脂/和/其/他/两/性/化/合/物/分/散/在/水/中/形/成/排/列/有/序/的/囊/泡”
输入句法关系(每个字符承接其相应词汇的依存句法关系):
“主谓关系/主谓关系/主谓关系/状中关系/介宾关系/介宾关系/虚词成分/定中关系/定中关系/定中关系/定中关系/并列关系/并列关系/并列关系/核心关系/核心关系/虚词成分/状中关系/状中关系/连谓结构/连谓结构/定中关系/定中关系/并列关系/并列关系/虚词成分/动宾关系/动宾关系”
输出:
“B/M/E/S/B/E/S/B/E/B/E/B/M/E/B/E/S/B/E/B/E/B/E/B/E/S/B/E”
其中B表示词头,M表示词中,E表示词尾,S表示独立字。由此结果按顺序可以看出,在整段文本的分词结果中,BME标注的“脂质体”新词被正确划分为一个词汇,正确的出现在分词结果。

Claims (10)

1.一种融合自编码器和对抗训练的中文新词发现方法,其特征在于以下步骤,包括:
步骤1):利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;
步骤2):添加先验句法知识,并与字符向量融合,形成字符句法拼接向量;
步骤3):对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量;
步骤4):采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,输出整个序列的分词结果,使新词正确包含在分词结果之内。
2.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程即步骤1)、步骤3)和步骤4),还包括微调所述文本重构的自编码器。
3.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述融合自编码器和对抗训练的中文新词发现方法包括模型训练过程,还包括将所述文本重构的自编码器、分词任务、对抗训练进行联合学习。
4.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,利用文本重构的自编码器的方法包括:
所述文本重构的自编码器使用双向循环神经网络BiLSTM作为语义信息提取网络的编码器和解码器,首先将输入句子s=c1c2...cn通过嵌入层,将每个字符转化为字符向量ei,然后通过所述编码器得到双向拼接后的语义特征向量hi
Figure FDA0003122543640000011
Figure FDA0003122543640000012
Figure FDA0003122543640000013
在获得相应的语义特征向量hi后,将其输入到所述解码器中,所述解码器用于将语义特征向量hi转换为相应输入的字符,此处采用BiLSTMself作为解码器:
vi=BiLSTMself(hi) (4)
Figure FDA0003122543640000014
其中,vi表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;
Figure FDA0003122543640000015
表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;
Figure FDA0003122543640000016
R表示字典向量空间,r为字典大小。
5.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述步骤2)中的先验句法知识为在通用领域预训练完成的句法分析器。
6.如权利要求5所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述步骤2)中形成字符句法拼接向量的方法,包括:
使用双向循环神经网络BiLSTM作为共享编码器,输入是源域句子
Figure FDA0003122543640000021
Figure FDA0003122543640000022
和目标域句子
Figure FDA0003122543640000023
的混合数据,其中
Figure FDA0003122543640000024
表示长度为n的源域句子ssrc第i个字符,
Figure FDA0003122543640000025
表示长度为m的目标域句子stgt第j个字符,以及使用字符来承接所在单词对应的依存关系,每个字符之间的依存关系sdep=dep1,dep2,...,depp
在输入到双向循环神经网络BiLSTM之前,字符序列信息通过嵌入层,即将每个字符转化为字符向量:源域字符向量序列
Figure FDA0003122543640000026
目标域字符向量序列
Figure FDA0003122543640000027
依存关系向量序列
Figure FDA0003122543640000028
其中
Figure FDA0003122543640000029
表示源域句子第i个字符的字符向量,
Figure FDA00031225436400000210
表示目标域句子第j个字符的字符向量,
Figure FDA00031225436400000211
表示句子第k个字符的依存关系向量;
将字符向量与依存关系向量拼接,输入到BiLSTM中,其中,
Figure FDA00031225436400000212
表示源域的字符向量,
Figure FDA00031225436400000213
表示源域字符向量与依存关系向量拼接后的向量,
Figure FDA00031225436400000214
表示目标域数据的字符向量,
Figure FDA00031225436400000215
表示目标域字符向量与依存关系向量拼接后的向量:
Figure FDA00031225436400000216
Figure FDA00031225436400000217
Figure FDA00031225436400000218
Figure FDA00031225436400000219
其中,得到源域和目标域的共享特征向量为:
Figure FDA00031225436400000220
Figure FDA00031225436400000221
Figure FDA00031225436400000222
其中
Figure FDA00031225436400000223
表示源域句子第i个字符的共享特征向量,
Figure FDA00031225436400000224
表示目标域句子第j个字符的共享特征向量,
Figure FDA00031225436400000225
d表示BiLSTM隐藏单元的数量。
7.如权利要求1所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述步骤3)中对所述字符句法拼接向量进行对抗训练的方法包括:
将共享编码器的输出接入最大池化层;
特征向量可以选择源域
Figure FDA0003122543640000031
或是目标域
Figure FDA0003122543640000032
将池化后的特征向量进行二分类,判断领域归属:
Figure FDA0003122543640000033
Figure FDA0003122543640000034
D(g;θd)=Sigmoid(Wdg+bd) (9)
其中,所述
Figure FDA0003122543640000035
Figure FDA0003122543640000036
表示共享编码器生成的隐式特征向量,Wd和bd表示Sigmoid二分类内部随机初始化产生的权重矩阵和偏置向量,θd表示领域鉴别器内部参数集合,Wd,bd和θd在模型整体训练时进行更新;
所述步骤4)的具体方法,包括:
分词采用条件随机场网络层进行分词,对于标签序列y的预测输出,选择Softmax激活函数选择最大概率选项:
Figure FDA0003122543640000037
Figure FDA0003122543640000038
其中,X表示输入的待识别文本序列,Y表示正确的分词标记序列,Y′代表所有可能组合的分词标记序列,
Figure FDA0003122543640000039
Figure FDA00031225436400000310
为条件随机场网络层的权重矩阵和偏置向量,hi为条件随机场网络层的隐含向量,
Figure FDA00031225436400000311
表示预测出来的最大概率标记。
8.如权利要求2所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,所述模型训练过程的微调所述文本重构的自编码器,包括:
根据步骤1)得到预训练文本重构的自编码器中源域和目标域的语义特征向量
Figure FDA00031225436400000312
Figure FDA00031225436400000313
拼接处理:
Figure FDA00031225436400000314
其中Hs=hs1,hs2,...,hsn,Ht=ht1,ht2,...,htm
根据公式(8)-(11)将所述
Figure FDA0003122543640000041
Figure FDA0003122543640000042
所代表的语义信息融入到分词任务中,更新自编码器的公式如下:
vi′=BiLSTMself(hi;θpre) (12)
Figure FDA0003122543640000043
其中,vi′表示BiLSTMself到softmax的中间向量,即每一个时间步的隐向量;
Figure FDA0003122543640000044
表示文本重构的自编码器对输入序列每个字符位置输出预测标签的最大概率;
Figure FDA0003122543640000045
R表示字典向量空间,r为字典大小,θpre为预训练自编码器参数。
9.如权利要求3所述的一种融合自编码器和对抗训练的中文新词发现方法,其特征在于,将所述文本重构的自编码器、分词任务、对抗训练进行联合学习的方法,包括:
最终损失函数如下:
L=α(Rs+Rt)+βLseg+γLD (18)
其中,α表示文本重构的自编码器的损失函数占比系数,β表示条件随机场网络层的损失函数占比系数,γ表示对抗训练的损失函数占比系数,并且α+β+γ=1;其中,Rs+Rt为文本重构的自编码器的损失函数;Lseg为对数似然损失函数;LD为对抗训练中所采用的损失函数;
优选的,文本重构的自编码器的损失函数为交叉熵作损失函数:
Figure FDA0003122543640000046
Figure FDA0003122543640000047
其中
Figure FDA0003122543640000048
表示模型计算得到的源域句子第i个字符在字典数量类别上的概率分布向量,
Figure FDA0003122543640000049
表示该字符类别的真实标签,r表示字典大小,n表示源域句子的长度;
Figure FDA00031225436400000410
表示模型计算得到的目标域句子第j个字符在字典数量类别上的概率分布向量,
Figure FDA00031225436400000411
表示该字符类别的真实标签,m表示目标域句子的长度;
优选的,所述条件随机场网络层使用对数似然损失函数定义如下:
Figure FDA00031225436400000412
其中,G表示所有训练数据,包括源域和目标域,
Figure FDA00031225436400000413
表示模型预测出的字符标签,λ是L2正则化的参数,Θ代表模型参数集合;
所述对抗训练,采用损失函数如下:
Figure FDA0003122543640000051
其中,Ds,Dt分别表示源域和目标域的全部数据,并且di∈{0,1},在此定义标签0表示数据来源于源域,标签1表示数据来源于目标域;
Figure FDA0003122543640000052
表示sigmoid函数预测出来的概率。
10.一种实现中文新词发现方法的装置,其特征在于,包括:文本重构的自编码器、先验句法与字符拼接模块和对抗训练模块;
所述文本重构的自编码器根据用户输入的语句信息,利用源域数据和目标域数据形成字符向量,所述字符向量经过编码器和解码器生成更新的源域数据和目标域数据;
所述先验句法与字符拼接模块根据用户输入的语句信息和先验句法知识得到文本依存句法关系,然后生成字符-句法拼接向量;其中,所述生成字符-句法拼接向量之前的数据输入包括所述文本重构的自编码器中形成的字符向量;
所述对抗训练模块包括共享编码器、领域鉴别器和文本分词模块;所述字符-句法拼接向量通过共享编码器经文本分词模块最后输出分词结果,新词包含在分词结果内;其中,共享编码器的输出数据还用于更新文本重构的自编码器中的源域和目标域的语义特征向量;
所述装置的输入包括:源域文本数据输入、目标域文本数据输入、相关句法知识输入。
CN202110682896.6A 2021-06-18 2021-06-18 一种融合自编码器和对抗训练的中文新词发现方法及装置 Active CN113343683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110682896.6A CN113343683B (zh) 2021-06-18 2021-06-18 一种融合自编码器和对抗训练的中文新词发现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110682896.6A CN113343683B (zh) 2021-06-18 2021-06-18 一种融合自编码器和对抗训练的中文新词发现方法及装置

Publications (2)

Publication Number Publication Date
CN113343683A true CN113343683A (zh) 2021-09-03
CN113343683B CN113343683B (zh) 2022-06-07

Family

ID=77477719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110682896.6A Active CN113343683B (zh) 2021-06-18 2021-06-18 一种融合自编码器和对抗训练的中文新词发现方法及装置

Country Status (1)

Country Link
CN (1) CN113343683B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792526A (zh) * 2021-09-09 2021-12-14 北京百度网讯科技有限公司 字符生成模型的训练方法、字符生成方法、装置和设备和介质
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN115050032A (zh) * 2022-05-02 2022-09-13 清华大学 一种基于特征对齐和熵正则化的域适应文本图像识别方法
CN115577707A (zh) * 2022-12-08 2023-01-06 中国传媒大学 一种多语言新闻主题词的分词方法
CN116029354A (zh) * 2022-08-09 2023-04-28 中国搜索信息科技股份有限公司 一种面向文本对的中文语言模型预训练方法
CN116108830A (zh) * 2023-03-30 2023-05-12 山东大学 一种句法可控文本改写方法和装置
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
CN110826325A (zh) * 2019-11-04 2020-02-21 创新工场(广州)人工智能研究有限公司 一种基于对抗训练的语言模型预训练方法、系统及电子设备
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN110826325A (zh) * 2019-11-04 2020-02-21 创新工场(广州)人工智能研究有限公司 一种基于对抗训练的语言模型预训练方法、系统及电子设备
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIHAELA ROSCA 等: "Variational Approaches for Auto-Encoding Generative Adversarial Networks", 《HTTPS://ARXIV.ORG/ABS/1706.04987V1》 *
董哲 等: "基于BERT和对抗训练的食品领域命名实体识别", 《计算机科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792526A (zh) * 2021-09-09 2021-12-14 北京百度网讯科技有限公司 字符生成模型的训练方法、字符生成方法、装置和设备和介质
CN113792526B (zh) * 2021-09-09 2024-02-09 北京百度网讯科技有限公司 字符生成模型的训练方法、字符生成方法、装置和设备和介质
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN114186043B (zh) * 2021-12-10 2022-10-21 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN115050032A (zh) * 2022-05-02 2022-09-13 清华大学 一种基于特征对齐和熵正则化的域适应文本图像识别方法
CN116029354A (zh) * 2022-08-09 2023-04-28 中国搜索信息科技股份有限公司 一种面向文本对的中文语言模型预训练方法
CN116029354B (zh) * 2022-08-09 2023-08-01 中国搜索信息科技股份有限公司 一种面向文本对的中文语言模型预训练方法
CN115577707A (zh) * 2022-12-08 2023-01-06 中国传媒大学 一种多语言新闻主题词的分词方法
CN116108830A (zh) * 2023-03-30 2023-05-12 山东大学 一种句法可控文本改写方法和装置
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统
CN116702786B (zh) * 2023-08-04 2023-11-17 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统

Also Published As

Publication number Publication date
CN113343683B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN113343683B (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
Han et al. A survey of transformer-based multimodal pre-trained modals
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
O’Neill et al. Meta-embedding as auxiliary task regularization
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
Lim et al. Real-world sentence boundary detection using multitask learning: A case study on French
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及系统
Guo RETRACTED: An automatic scoring method for Chinese-English spoken translation based on attention LSTM [EAI Endorsed Scal Inf Syst (2022), Online First]
CN114611487B (zh) 基于动态词嵌入对齐的无监督泰语依存句法分析方法
Maalej et al. Parsing Arabic using deep learning technology.
Saraswathi et al. Abstractive text summarization for Tamil language using m-T5
Vecchi et al. Transferring multiple text styles using CycleGAN with supervised style latent space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant