CN117252154B - 一种基于预训练语言模型的中文简繁字符转换方法及系统 - Google Patents
一种基于预训练语言模型的中文简繁字符转换方法及系统 Download PDFInfo
- Publication number
- CN117252154B CN117252154B CN202311541516.2A CN202311541516A CN117252154B CN 117252154 B CN117252154 B CN 117252154B CN 202311541516 A CN202311541516 A CN 202311541516A CN 117252154 B CN117252154 B CN 117252154B
- Authority
- CN
- China
- Prior art keywords
- chinese
- simplified
- traditional chinese
- transformation matrix
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 113
- 230000009466 transformation Effects 0.000 claims abstract description 93
- 238000013507 mapping Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229940028444 muse Drugs 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- GMVPRGQOIOIIMI-DWKJAMRDSA-N prostaglandin E1 Chemical compound CCCCC[C@H](O)\C=C\[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DWKJAMRDSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及互联网与云计算技术领域,具体公开了一种基于预训练语言模型的中文简繁字符转换方法及系统,包括:S01:分别建立简体中文嵌入空间和繁体中文嵌入空间;S02:输入文字为简体中文时查找对应的简体中文嵌入空间,获得对应的简体中文字符;S03:利用变换矩阵获得为对抗嵌入繁体中文字符;S04:计算预测得分,判断对抗嵌入繁体中文字符是否来自繁体中文嵌入空间,并优化变换矩阵;S05:对对抗嵌入繁体中文字符进行建模获得繁体上下文文本,映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,优化变换矩阵;S06:添加隐藏变换矩阵,对对抗嵌入繁体中文字符计算隐藏预测概率,到阈值时优化变换矩阵,对应输出繁体中文。
Description
技术领域
本发明涉及互联网与云计算技术领域,具体涉及一种基于预训练语言模型的中文简繁字符转换方法及系统。
背景技术
繁体字是中国传统文化的重要载体,至今仍在许多地区被广泛使用。随着简体字的推广使用,当前许多人无法识读繁体字,阻碍了文化的传承。因而繁体字和简体字的自动转换不仅可以帮助现代人了解传统文化,还能方便不同地区之间的交流。早期的转换方法依赖于基于规则和映射表的方法或基于浅层特征的机器学习模型。然而许多简体字到繁体字的映射存在一对多甚至多对多的映射关系,需要根据上下文语义进行判断。早期模型难以结合上下文语义自动进行转换,并且人工构建训练数据的成本很高。
发明内容
为了解决上述问题,本发明提出了一种基于预训练语言模型的中文简繁字符转换方法及系统,该系统在去噪自编码器框架下借助预训练语言模型和对抗训练方法,自动学习简体和繁体汉字之间的转换,并能够在新的待转换文本基础上根据上下文进行自适应推断转换。该方法转换结果优于现有技术中的方法,尤其是在字符存在一对多映射的情况下能显著生成更好的转换结果。
本发明所采用的技术方案是:一种基于预训练语言模型的中文简繁字符转换方法,包括:
步骤S01:利用无监督方法word2vec并基于单语数据分别建立简体中文嵌入空间和繁体中文嵌入空间;
步骤S02:判断输入文字为简体中文还是繁体中文,当输入文字为简体中文时,查找对应的简体中文嵌入空间,获得对应的简体中文字符;
步骤S03:利用变换矩阵将所述简体中文字符线性变换为对抗嵌入繁体中文字符;
步骤S04:利用判别器计算预测得分,判断所述对抗嵌入繁体中文字符是否来自对应的繁体中文嵌入空间,并优化所述变换矩阵;
步骤S05:基于上下文语义重构解码器,对所述对抗嵌入繁体中文字符进行建模,获得繁体上下文文本,将所述繁体上下文文本映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出繁体中文;
步骤S06:构建隐藏变换矩阵,对所述对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出繁体中文。
优选的,步骤S04中所述预测得分为:;
其中,为预测得分,是鉴别器的参数,表示变换向量,σ是将输出映射到
范围内的sigmoid激活函数。
优选的,所述预测得分为1代表来自对应的繁体中文嵌入空间;
预测得分为0代表不是来自对应的繁体中文嵌入空间。
优选的,所述变换矩阵包括:
将简体中文字符线性变换为对抗嵌入繁体中文字符的变换矩阵,和将繁体中文字符线性变换为对抗嵌入简体中文字符的变换矩阵。
优选的,步骤S05中所述损失函数为:
;
;
;
;
;
其中,为输入中文,为第个输入字符,为概率,为预测矩阵,为变换矩
阵,为变换向量,h s 为上下文模型,为映射后上下文模型,s表示简体中文simplified
chinese,t表示繁体中文traditional chinese,为繁体中文文本查询经word2vec训练得
到的繁体嵌入矩阵而得到的繁体字向量,为繁体字向量到简体字向量的变换矩
阵,PLM表示上下文模型Pretrain Language Model,h s 为上下文模型输出的简体隐藏向量,为h s 经过变换矩阵映射后得到的输出向量,为经过预测矩阵进行预测再转换
而成的概率值。
优选的,步骤S06中所述隐藏预测概率为:
;
;
其中,为第层,为用于第层的变换矩阵,是预测矩阵,exit表示提前
退出,out表示输出,为对应文本的概率值。
优选的,所述步骤S06还包括计算隐藏损失函数,所述隐藏损失函数为:
其中,为第层,为隐藏预测概率,为输入中文,为对应文本的概率值。
进一步地,包括:
步骤S12:当判断输入文字为繁体中文时,查找对应的繁体中文嵌入空间,获得对应的繁体中文字符;
步骤S13:利用变换矩阵将所述繁体中文字符线性变换为对抗嵌入简体中文字符;
步骤S14:利用判别器计算预测得分,判断所述对抗嵌入简体中文字符是否来自对应的简体中文嵌入空间,并优化变换矩阵;
步骤S15:基于上下文语义重构解码器,对所述对抗嵌入简体中文字符进行建模,获得简体上下文文本,将所述简体上下文文本映射回繁体中文,与最初输入的繁体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出简体中文;
步骤S16:添加隐藏变换矩阵,对所述对抗嵌入简体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出简体中文。
一种基于预训练语言模型的中文简繁字符转换系统,包括:
嵌入空间构建模块:利用无监督方法word2vec和单语数据分别建立简体中文嵌入空间和繁体中文嵌入空间;
输入查找模块:用于接收用户输入,判断所述输入是简体中文还是繁体中文,以及当输入为简体中文时,通过查找对应的简体中文嵌入空间获得对应的简体中文字符;
潜在生成对抗编码器模块:利用变换矩阵将简体中文字符线性变换为对抗嵌入繁体中文字符;以及利用判别器计算预测得分,判断对抗嵌入繁体中文字符是否来自对应的繁体中文嵌入空间,优化变换矩阵;
上下文语义重构解码器模块:用于对对抗嵌入繁体中文字符进行建模,获得繁体上下文本;以及将繁体上下文本映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出繁体中文;
隐藏建模模块:构建隐藏变换矩阵,对所述对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出繁体中文。
上述技术方案的有益效果:
与现有技术相比,本发明提供的一种基于预训练语言模型的中文简繁字符转换方法及系统,在字符存在一对多映射的情况下能显著生成更好的转换结果。本发明包括一个生成对抗编码器,它使用生成对抗网络将某个方向(简体或繁体)的中文字符向量转换到潜在空间,为了减少这一步带来的噪声,本发明使用一个上下文语义感知重构解码器恢复原始输入,同时使用预训练的语言模型建模更大范围的上下文。在推断过程中采用提前退出机制来降低计算复杂度,同时提高泛化能力。实验结果和广泛的分析表明,本发明优于当前的公开软件和模型,尤其是在字符存在一对多映射的情况下能显著生成更好的转换结果。
附图说明
图1是本发明提供的基于预训练语言模型的中文简繁字符转换方法示意图;
图2是本发明提供的基于预训练语言模型的中文简繁字符转换系统示意图;
图3是本发明提供的变换系统匹配模型准确率结果图;
图4是本发明提供的变换系统模型尺度准备率结果图;
图5是本发明提供的变换系统的句长分析结果图。
具体实施方式
下面对本申请的实施方式作进一步地详细描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
说明书和权利要求书中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备,不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明包括一个生成对抗编码器,它使用生成对抗网络将某个方向(简体或繁体)的中文字符向量转换到潜在空间,为了减少这一步带来的噪声,在此基础上,本发明使用一个上下文语义感知重构解码器恢复原始输入,同时使用预训练的语言模型建模更大范围的上下文。此外,在推断过程中本发明采用提前退出机制来降低计算复杂度,同时提高泛化能力。为了测试本发明的有效性,构建了一个高质量的简-繁体中文文本对测试数据集。实验结果和广泛的分析表明,本发明优于当前的公开软件和模型,尤其是在字符存在一对多映射的情况下能显著生成更好的转换结果。
实施例一
如图1所示,利用本发明提供的基于预训练语言模型的中文简繁字符转换方法,将繁体转换为简体。
步骤S01:利用无监督方法word2vec和单语数据分别建立简体中文嵌入空间Es和繁体中文嵌入空间Et。
步骤S02:输入繁体中文,通过查找对应的繁体中文嵌入空间获得对应的繁体中文字符/>。
步骤S03:利用变换矩阵Wt将繁体中文字符线性变换为对抗嵌入简体中文字符;
线性变换关系为:。
步骤S04:利用判别器计算预测得分,判断对抗嵌入简体中文字符是否来自对应的简体中文嵌入空间,优化变换矩阵。
优选的,为了使学习到的变换矩阵Wt更准确,应用生成对抗网络框架,其中应用判别模块,优选为,判别器来判断变换向量是否来自潜在语义嵌入空间(Es),此鉴别器对输入向量给出预测0或1,1代表来自潜在语义嵌入空间,0则代表不是来自潜在语义嵌入空间。其预测得分计算为:
;
其中WD是鉴别器的参数,表示变换向量,σ是将输出映射到0~1范围内的sigmoid
激活函数。变换矩阵Wt扮演生成器的角色,其目的是混淆鉴别器,使其无法识别变换后的向
量是否来自Es空间。遵循规范的生成对抗网络训练范式,鉴别器和生成器被迭代训练,这
在鉴别器几乎无法区分生成的向量和真实向量之间的差异时停止。
步骤S05:基于上下文语义重构解码器,对所述对抗嵌入简体中文字符进行建模,获得简体上下文文本,将所述简体上下文文本映射回繁体中文,与最初输入的繁体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出简体中文。
步骤S06:添加隐藏变换矩阵,对所述对抗嵌入简体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出简体中文。
优选的,使用潜在语义嵌入空间,优选的为在待转换语言上训练的潜在语义嵌入空间来对更广泛的上下文进行建模:
;
在潜在语义嵌入空间获得上下文本hs后,将向量hs逐一映射回原始输入文本状态
为表示。这种转换应用于序列中上下文本hs每个字符,然后,使用计算计算预测待转换
语言文本来自待转换语言文本的损失函数,用于计算预测损失函数,计算如下:
;
;
其中Wout是预测矩阵。本发明使用,以便在共享参数时,将嵌入查找表Et的转置
矩阵取为Wout。
在得到预测概率p后,计算p和原始输入之间的交叉熵作为损失函数:
;
其中表示第/>个输入字符,损失函数用于优化潜在语义嵌入空间。
其中,为输入中文,为第个输入字符,为概率,为预测矩阵,为变换矩
阵,为变换向量,h s 为上下文模型,为映射后上下文模型,s表示简体中文simplified
chinese,t表示繁体中文traditional chinese,为繁体中文文本查询经word2vec训练得
到的繁体嵌入矩阵而得到的繁体字向量,为繁体字向量到简体字向量的变换矩
阵,PLM表示上下文模型Pretrain Language Model,h s 为上下文模型输出的简体隐藏向量,为h s 经过变换矩阵映射后得到的输出向量,为经过预测矩阵进行预测再转换
而成的概率值。
其中,为第/>层,/>为用于第/>层的变换矩阵,/>是预测矩阵,exit表示提前退出,out表示输出,/>为对应文本的概率值。
其中,为第/>层,/>为隐藏预测概率,/>为输入中文,/>为对应文本的概率值。
步骤S07:添加隐藏变换矩阵对对抗嵌入简体中文字符进行隐藏建模,计算隐藏预测概率达到阈值时,优化变换矩阵,完成字符转换,对应简体中文。
优选的为,采用推断提前退出机制。潜在生成对抗编码模块中的自编码模块每个
候选层添加了一个额外的转换模块,将该层的隐藏状态转换到最后一个隐藏层的空
间,然后用于预测,计算如下:
;
其中J表示第J层,表示用于第J层的变换矩阵。
在训练过程中,所有候选层都将基于其转换的隐藏状态来预测原始字符标记:
;
为了优化每层的变换参数,新的损失函数成为每层的交叉熵之和:
;
优选的,当达到阈值,即退出,输出目标转换语言文本。提前退出的阈值设置为0.996。
优选的,输入简体句子“有朋自远方来,不亦乐乎?”,查询简体字嵌入矩阵Es得到
每个字对应的繁体字向量es,然后es经过Ws变换矩阵转换为简体字向量,然后经上下文
模型PLM编码为简体字隐向量h t ,隐向量h t 经过变换矩阵映射为简体字隐向量,最后经过预测矩阵再经过softmax函数转换成概率值,取预测概率最大的简体字作为
预测结果,输出预测的“有朋自远方来,不亦乐乎?”。即输入、输出都是简体句子“有朋自远
方来,不亦乐乎?”,以简体句子的重构为目标进行训练。用概率值和原始输入之间的交
叉熵计算loss,使用梯度下降算法更新上下文模型PLM、W s 、和中的未知参数,使
loss不断降低,直到收敛,完成未知参数的训练和学习。此外,PLM模型的每层都后接,
将每层输出的简体字隐向量转换为,再经过预测矩阵和softmax函数转换成每层
对应的概率值,当概率值达到阈值0.996,则提前退出,不再将隐向量向PLM的后续层
传递。lossexit的计算方式与loss相同,只是概率值是。
输入繁体句子“有朋自遠方來,不亦樂乎?”,查询繁体字嵌入矩阵得到每个字对应的繁体字向量/>,将/>输入上下文模型PLM,和训练阶段一样最终取预测概率最大的简体字作为预测结果,输出简体句子“有朋自远方来,不亦乐乎?”,达到繁体到简体转换的目的。
实施例二
如图1所示,利用本发明的提供的基于预训练语言模型的中文简繁字符转换方法,将简体转换为繁体。
步骤S01:利用无监督方法word2vec和单语数据分别建立简体中文嵌入空间和
繁体中文嵌入空间。
步骤S02:输入简体中文,通过查找对应的简体中文嵌入空间获得对应的简体中文字符。
步骤S03:利用变换矩阵将简体中文字符线性变换为对抗嵌入繁体中文字符。
步骤S04:利用判别器计算预测得分,判断对抗嵌入繁体中文字符是否来自对应的繁体中文嵌入空间,优化变换矩阵。
利用判别器来判断变换向量是否来自潜在语义嵌入空间,使其无法识别变换后的向量是否来自中文嵌入空间空间。遵循规范的生成对抗网络训练范式,鉴别器和生成器被迭代训练,这在鉴别器几乎无法区分生成的向量和真实向量之间的差异时停止。
步骤S05:基于上下文语义重构解码器,对所述对抗嵌入繁体中文字符进行建模,获得繁体上下文文本,将所述繁体上下文文本映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出繁体中文;进一步地,利用上下文语义重构解码器对对抗嵌入简体中文字符进行建模,获得简体上下文本。优选的,上下文语义感知重构解码器,尽管变换向量/>与来自简体汉字空间的向量之间仍然存在差异,但是变换后的向量可以理解为具有噪声的失真向量。通过考虑上下文的信息,减少转换过程造成的影响,而且在遇到一对多映射时可以做出更准确的预测。
步骤S06:构建隐藏变换矩阵,对所述对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出繁体中文。
优选的,使用潜在语义嵌入空间,优选的为在待转换语言上训练的潜在语义嵌入空间来对更广泛的上下文进行建模。
步骤S07:添加隐藏变换矩阵对对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率达到阈值时,优化变换矩阵,完成字符转换,输出对应繁体中文。
优选的为,采用推断提前退出机制。潜在生成对抗编码模块中的自编码模块每个候选层添加了一个额外的转换模块,将该层的隐藏状态转换到最后一个隐藏层的空间然后用于预测,计算如下:
;
其中J表示第J层,表示用于第J层的变换矩阵。
在训练过程中,所有候选层都将基于其转换的隐藏状态来预测原始字符标记:
;
为了优化每层的变换参数,新的损失函数成为每层的交叉熵之和:
;
优选的,当达到阈值,即退出,输出目标转换语言文本。提前退出的阈值设置为0.996。
优选的,输入简体句子“有朋自远方来,不亦乐乎?”,查询简体字嵌入矩阵得到
每个字对应的繁体字向量,然后经过Wt变换矩阵转换为简体字向量,然后经上下文
模型PLM编码为简体字隐向量h s ,隐向量h s 经过变换矩阵映射为简体字隐向量,最后
经过预测矩阵再经过softmax函数转换成概率值,取预测概率最大的简体字作为预
测结果,输出预测的“有朋自远方来,不亦乐乎?”。即输入、输出都是简体句子“有朋自远方
来,不亦乐乎?”,以简体句子的重构为目标进行训练。用概率值和原始输入之间的交叉
熵计算loss,使用梯度下降算法更新上下文模型PLM、W t 和中的未知参数,使loss不断
降低,直到收敛,完成未知参数的训练和学习。此外,PLM模型的每层都后接,将每层输
出的简体字隐向量转换为,再经过预测矩阵和softmax函数转换成每层对应的概
率值,当概率值达到阈值0.996,则提前退出,不再将隐向量向PLM的后续层传递。
lossexit的计算方式与loss相同,只是概率值是。
输入繁体句子“有朋自遠方來,不亦樂乎?”,查询繁体字嵌入矩阵Es得到每个字对应的繁体字向量es,将es输入上下文模型PLM,和训练阶段一样最终取预测概率最大的简体字作为预测结果,输出简体句子“有朋自远方来,不亦乐乎?”,达到繁体到简体转换的目的。
实施例三
如图2所示,本发明提供的一种基于预训练语言模型的中文简繁字符转换系统,输入为简体中文时,转换为繁体中文输出。
优选的,包括:嵌入空间构建模块:利用无监督方法word2vec和单语数据分别建立简体中文嵌入空间和繁体中文嵌入空间;
输入查找模块:用于输入中文,判断简体、繁体中文,当输入为简体中文时,通过查找对应的简体中文嵌入空间获得对应的简体中文字符;
潜在生成对抗编码器模块:利用变换矩阵将简体中文字符线性变换为对抗嵌入繁体中文字符;以及利用判别器计算预测得分,判断对抗嵌入繁体中文字符是否来自对应的繁体中文嵌入空间,优化变换矩阵;
上下文语义重构解码器模块:用于对对抗嵌入繁体中文字符进行建模,获得繁体上下文本;以及将繁体上下文本映射回简体中文,与输入的简体中文进行比较,计算损失函数和概率,优化变换矩阵;
推断提前退出模块:用于添加隐藏变换矩阵对对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率达到阈值时,优化变换矩阵,完成字符转换,对应输出繁体中文。
实施例四
如图2所示,本发明提供的一种基于预训练语言模型的中文简繁字符转换系统,输入为繁体中文时,转换为简体中文输出。
优选的,包括:嵌入空间构建模块:利用无监督方法word2vec和单语数据分别建立简体中文嵌入空间和繁体中文嵌入空间;
输入查找模块:用于输入中文,判断简体、繁体中文,当输入为繁体中文时,通过查找对应的繁体中文嵌入空间获得对应的繁体中文字符;
潜在生成对抗编码器模块:利用变换矩阵将繁体中文字符线性变换为对抗嵌入简体中文字符;以及利用判别器计算预测得分,判断对抗嵌入简体中文字符是否来自对应的简体中文嵌入空间,优化变换矩阵;
上下文语义重构解码器模块:用于对对抗嵌入简体中文字符进行建模,获得繁体上下文本;以及将简体上下文本映射回繁体中文,与输入的繁体中文进行比较,计算损失函数和概率,优化变换矩阵;
推断提前退出模块:用于添加隐藏变换矩阵对对抗嵌入简体中文字符进行隐藏建模,计算隐藏预测概率达到阈值时,优化变换矩阵,完成字符转换,对应输出繁体中文。
优选的,本发明使用gensim word2vec分别生成繁体字和简体字的词嵌入,基本模型和大模型的词嵌入尺寸分别为768和1024。窗口大小为5。最小词频为5,获得的简体中文和繁体中文的词汇量分别为25621和29513。词嵌入训练轮数为5,生成对抗编码器的实现遵循MUSE。对于鉴别器,层数为2,隐藏维度为2048。SGD优化器用于训练潜在生成对抗性编码器,学习率设置为0.1,批量大小为32。对于整个自动编码器训练阶段,最大语句长度设置为128,批量大小设置为8。训练轮数为1。本发明使用AdamW优化器,并将学习率设置为2e-5。提前退出的阈值设置为0.996。
本发明包括一个生成对抗编码器,它使用生成对抗网络将某个方向(简体或繁体)的中文字符向量转换到潜在空间,为了减少这一步带来的噪声,在此基础上,本发明使用一个上下文语义感知重构解码器恢复原始输入,同时使用预训练的语言模型建模更大范围的上下文。此外,在推断过程中本发明采用提前退出机制来降低计算复杂度,同时提高泛化能力。为了测试本发明的有效性,构建了一个高质量的简-繁体中文文本对测试数据集。实验结果和广泛的分析表明,本发明优于当前的公开软件和模型,尤其是在字符存在一对多映射的情况下能显著生成更好的转换结果。
基于预训练语言模型的中文简繁字符转换方法的转换准确性能测试,测试结果如下:
本发明使用公开可用的基线模型作为用于进行比较的基线。基线由四部分组成,软件、网站、无监督机器翻译模型和ChatGPT。用开放中文转换(OpenCC)、Microsoft Word(MS Word)、zhconv和pylangtools作为公开可用的基线软件进行比较。供简体中文和繁体中文转换的网站作为基线网站进行比较;用四种基于词嵌入的无监督或半监督机器翻译方法进行比较;使用ChatGPT(gpt-3.5-turbo)和英文提示“Translate the followingsentence into traditional Chinese”进行简体中文转换。
实验的结果评估指标——准确率;本发明应用字符级准确率,逐字符进行比较,因为这是一个严格的一对一转换任务,不同于序列到序列的翻译。基线实验的结果如表1所示,与几个方向的基线相比,本发明提出的方法实现了对汉字双向转换的最高的精度。
表1 基线实验结果
如表2消融实验结果所示。本发明提供的转换系统通过在编码器的基础上应用本发明提出的上下文感知语义重建解码器,准确度显著提高,达到96.79,与强基线(例如MSWord、pylangtools等)相当。这一改进验证了本发明去噪自编码器训练框架的有效性,其通过考虑语义上下文来恢复原始输入,以减轻线性嵌入空间变换引入的噪声。此外,本发明通过统一恢复的嵌入空间和真实的输入嵌入空间,编码器和解码器之间共享参数,进一步将精度提高到97.13。此外,本发明应用提前退出不仅降低了理论计算的复杂性,而且将转换精度提高到98.45,高于所有基线。最后,直接预测不常见字符本身的后处理给出了一个小的改进,精度达到98.57,超过所有基线:
表2消融实验结果
图3分析了简体字转换任务中的多重映射现象。表示图中不同映射模式的准确性,而它们相应的语句出现率用折线图显示。该比率计算为出现模式的句子数量除以句子总数,因此它们的总和不为1,因为不同的模式可能出现在同一个句子中。从结果中本发明可以看出,通常情况下,映射模式越复杂,精度越低,这符合直觉。然而,1对2、1对3和1对4之间的差距非常小,小于0.02%。最复杂的映射模式(m对n)对精度的影响最大。通常情况下,模式越复杂,在整个数据集中所占的比例就越低。n模式只获取一小部分数据,这意味着它不会严重影响整体性能;
图4分析了简体中文到繁体中文转换的不同骨架模型的准确性。大型模型通常比基本模型给出更好的结果,然而,基本模型和大模型之间的差距并不是很大,这表明当更快的推理速度是更重要的考虑因素时,也可以使用基本模型;
图5考察了最长句长的影响。随着最大句子长度的增加,评估了本发明的性能,并将其与仅限基线编码器的模型进行了比较。结果如图5所示。结果表明,随着最大句子长度的增加,所提出的模型的准确性首先提高,然后在一定长度后趋于稳定。这表明,较长的上下文可以为预测目标角色提供更多的信息,这与本发明的假设一致。然而,仅基线编码器模型的准确性在不同的最大句子长度上保持不变,因为它不考虑上下文。总之,这些结果证明了上下文在简体中文到繁体中文转换中的重要性,并强调了所提出的模型在利用上下文提高性能方面的有效性。
本发明提供的基于预训练语言模型的中文简繁字符转换方法,还可以将繁体转换为简体。使用方法与实施例二输入文本相反即可,不做过多赘述。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (9)
1.一种基于预训练语言模型的中文简繁字符转换方法,其特征在于,包括:
步骤S01:利用无监督方法word2vec并基于单语数据分别建立简体中文嵌入空间和繁体中文嵌入空间;
步骤S02:判断输入文字为简体中文还是繁体中文,当输入文字为简体中文时,查找对应的简体中文嵌入空间,获得对应的简体中文字符;
步骤S03:利用变换矩阵将所述简体中文字符线性变换为对抗嵌入繁体中文字符;
步骤S04:利用判别器计算预测得分,判断所述对抗嵌入繁体中文字符是否来自对应的繁体中文嵌入空间,并优化所述变换矩阵;
步骤S05:基于上下文语义重构解码器,对所述对抗嵌入繁体中文字符进行建模,获得繁体上下文文本,将所述繁体上下文文本映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出繁体中文;
步骤S06:构建隐藏变换矩阵,对所述对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出繁体中文。
2.根据权利要求1所述的中文简繁字符转换方法,其特征在于,步骤S04中所述预测得分为:;
其中,为预测得分,/>是鉴别器的参数,/>表示变换向量,σ是将输出映射到/>范围内的sigmoid激活函数。
3.根据权利要求2所述的中文简繁字符转换方法,其特征在于,所述预测得分为1代表来自对应的繁体中文嵌入空间;
预测得分为0代表不是来自对应的繁体中文嵌入空间。
4.根据权利要求1所述的中文简繁字符转换方法,其特征在于,所述变换矩阵包括:
将简体中文字符线性变换为对抗嵌入繁体中文字符的变换矩阵,和将繁体中文字符线性变换为对抗嵌入简体中文字符的变换矩阵。
5.根据权利要求1所述的中文简繁字符转换方法,其特征在于,步骤S05中所述损失函数为:
;
;
;
;
;
其中,为输入中文,为第个输入字符,为概率,为预测矩阵,为变换矩阵,为变换向量,h s 为上下文模型,为映射后上下文模型,s表示简体中文simplified
chinese,t表示繁体中文traditional chinese,为繁体中文文本查询经word2vec训练得
到的繁体嵌入矩阵而得到的繁体字向量,为繁体字向量到简体字向量的变换矩
阵,PLM表示上下文模型Pretrain Language Model,h s 为上下文模型输出的简体隐藏向量,为h s 经过变换矩阵映射后得到的输出向量,为经过预测矩阵进行预测再转换
而成的概率值。
6.根据权利要求1所述的中文简繁字符转换方法,其特征在于,步骤S06中所述隐藏预测概率为:
;
;
其中,为第/>层,/>为用于第/>层的变换矩阵,/>是预测矩阵,exit表示提前退出,out表示输出,/>为对应文本的概率值。
7.根据权利要求1所述的中文简繁字符转换方法,其特征在于,所述步骤S06还包括计算隐藏损失函数,所述隐藏损失函数为:;
其中,为第/>层,/>为隐藏预测概率,/>为输入中文,/>为对应文本的概率值。
8.根据权利要求1所述的中文简繁字符转换方法,其特征在于,还包括:
步骤S12:当判断输入文字为繁体中文时,查找对应的繁体中文嵌入空间,获得对应的繁体中文字符;
步骤S13:利用变换矩阵将所述繁体中文字符线性变换为对抗嵌入简体中文字符;
步骤S14:利用判别器计算预测得分,判断所述对抗嵌入简体中文字符是否来自对应的简体中文嵌入空间,并优化变换矩阵;
步骤S15:基于上下文语义重构解码器,对所述对抗嵌入简体中文字符进行建模,获得简体上下文文本,将所述简体上下文文本映射回繁体中文,与最初输入的繁体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出简体中文;
步骤S16:添加隐藏变换矩阵,对所述对抗嵌入简体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出简体中文。
9.一种基于预训练语言模型的中文简繁字符转换系统,其特征在于,包括:
嵌入空间构建模块:利用无监督方法word2vec和单语数据分别建立简体中文嵌入空间和繁体中文嵌入空间;
输入查找模块:用于接收用户输入,判断所述输入是简体中文还是繁体中文,以及当输入为简体中文时,通过查找对应的简体中文嵌入空间获得对应的简体中文字符;
潜在生成对抗编码器模块:利用变换矩阵将简体中文字符线性变换为对抗嵌入繁体中文字符;以及利用判别器计算预测得分,判断对抗嵌入繁体中文字符是否来自对应的繁体中文嵌入空间,优化变换矩阵;
上下文语义重构解码器模块:用于对对抗嵌入繁体中文字符进行建模,获得繁体上下文本;以及将繁体上下文本映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,进一步优化所述变换矩阵,当所述变换矩阵输出的中文字符与目标中文字符一致时,停止优化,完成字符转换,对应输出繁体中文;
隐藏建模模块:构建隐藏变换矩阵,对所述对抗嵌入繁体中文字符进行隐藏建模,计算隐藏预测概率,并且当隐藏预测概率达到阈值时优化所述变换矩阵,提前结束优化,完成字符转换,对应输出繁体中文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311541516.2A CN117252154B (zh) | 2023-11-20 | 2023-11-20 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311541516.2A CN117252154B (zh) | 2023-11-20 | 2023-11-20 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252154A CN117252154A (zh) | 2023-12-19 |
CN117252154B true CN117252154B (zh) | 2024-01-23 |
Family
ID=89137308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311541516.2A Active CN117252154B (zh) | 2023-11-20 | 2023-11-20 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252154B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134568A (zh) * | 1995-03-24 | 1996-10-30 | 松下电器产业株式会社 | 中文简繁体字文件转换装置 |
CN1294355A (zh) * | 2000-11-27 | 2001-05-09 | 英业达集团(南京)电子技术有限公司 | 可识别简繁体的即时翻译方法 |
JP2008052720A (ja) * | 2006-08-21 | 2008-03-06 | Fuji Xerox Co Ltd | 簡体字と繁体字とを相互変換する方法及びその変換装置 |
CN102222419A (zh) * | 2011-06-27 | 2011-10-19 | 陈宇慧 | 一种电子文本的显示方法 |
CN108304390A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、装置及存储介质 |
CN112163401A (zh) * | 2020-10-22 | 2021-01-01 | 大连民族大学 | 基于压缩与激励的gan网络的汉字字体生成方法 |
CN112270201A (zh) * | 2020-11-12 | 2021-01-26 | 古联(北京)数字传媒科技有限公司 | 古籍汉字繁简转换方法和装置 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
CN114548122A (zh) * | 2020-11-25 | 2022-05-27 | 永中软件股份有限公司 | 一种简体中文转为繁体中文的转换方法 |
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN114970447A (zh) * | 2022-05-26 | 2022-08-30 | 华侨大学 | 一种汉字字体转换方法、装置、设备和存储介质 |
CN115129819A (zh) * | 2022-07-14 | 2022-09-30 | 广州欢聚时代信息科技有限公司 | 文本摘要模型生产方法及其装置、设备、介质 |
CN116663501A (zh) * | 2023-05-18 | 2023-08-29 | 浙江华巽科技有限公司 | 一种基于多模态共享权重的中文变体文本转换方法 |
CN116682118A (zh) * | 2023-06-10 | 2023-09-01 | 越读(浙江)数字科技有限公司 | 一种古文字识别方法、系统、终端及介质 |
CN116720530A (zh) * | 2023-06-19 | 2023-09-08 | 内蒙古工业大学 | 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050010392A1 (en) * | 2003-07-10 | 2005-01-13 | International Business Machines Corporation | Traditional Chinese / simplified Chinese character translator |
-
2023
- 2023-11-20 CN CN202311541516.2A patent/CN117252154B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134568A (zh) * | 1995-03-24 | 1996-10-30 | 松下电器产业株式会社 | 中文简繁体字文件转换装置 |
CN1294355A (zh) * | 2000-11-27 | 2001-05-09 | 英业达集团(南京)电子技术有限公司 | 可识别简繁体的即时翻译方法 |
JP2008052720A (ja) * | 2006-08-21 | 2008-03-06 | Fuji Xerox Co Ltd | 簡体字と繁体字とを相互変換する方法及びその変換装置 |
CN102222419A (zh) * | 2011-06-27 | 2011-10-19 | 陈宇慧 | 一种电子文本的显示方法 |
CN108304390A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、装置及存储介质 |
CN112163401A (zh) * | 2020-10-22 | 2021-01-01 | 大连民族大学 | 基于压缩与激励的gan网络的汉字字体生成方法 |
CN112270201A (zh) * | 2020-11-12 | 2021-01-26 | 古联(北京)数字传媒科技有限公司 | 古籍汉字繁简转换方法和装置 |
CN114548122A (zh) * | 2020-11-25 | 2022-05-27 | 永中软件股份有限公司 | 一种简体中文转为繁体中文的转换方法 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN114970447A (zh) * | 2022-05-26 | 2022-08-30 | 华侨大学 | 一种汉字字体转换方法、装置、设备和存储介质 |
CN115129819A (zh) * | 2022-07-14 | 2022-09-30 | 广州欢聚时代信息科技有限公司 | 文本摘要模型生产方法及其装置、设备、介质 |
CN116663501A (zh) * | 2023-05-18 | 2023-08-29 | 浙江华巽科技有限公司 | 一种基于多模态共享权重的中文变体文本转换方法 |
CN116682118A (zh) * | 2023-06-10 | 2023-09-01 | 越读(浙江)数字科技有限公司 | 一种古文字识别方法、系统、终端及介质 |
CN116720530A (zh) * | 2023-06-19 | 2023-09-08 | 内蒙古工业大学 | 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117252154A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kiela et al. | Dynamic meta-embeddings for improved sentence representations | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN107836000B (zh) | 用于语言建模和预测的改进的人工神经网络方法、电子设备 | |
CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN105938485B (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN108062388A (zh) | 人机对话的回复生成方法和装置 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN109919175B (zh) | 一种结合属性信息的实体多分类方法 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN109308316B (zh) | 一种基于主题聚类的自适应对话生成系统 | |
CN116861995A (zh) | 多模态预训练模型的训练及多模态数据处理方法和装置 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
Kim et al. | Cross-modal distillation with audio–text fusion for fine-grained emotion classification using BERT and Wav2vec 2.0 | |
JP2022503812A (ja) | 文処理方法、文復号方法、装置、プログラム及び機器 | |
Chan et al. | Applying and optimizing NLP model with CARU | |
CN115905591B (zh) | 一种视觉问答方法、系统、设备及可读存储介质 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN109117471A (zh) | 一种词语相关度的计算方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |