CN114492463A - 一种基于对抗多任务学习的统一语义性中文文本润色方法 - Google Patents
一种基于对抗多任务学习的统一语义性中文文本润色方法 Download PDFInfo
- Publication number
- CN114492463A CN114492463A CN202111650851.7A CN202111650851A CN114492463A CN 114492463 A CN114492463 A CN 114492463A CN 202111650851 A CN202111650851 A CN 202111650851A CN 114492463 A CN114492463 A CN 114492463A
- Authority
- CN
- China
- Prior art keywords
- sentence
- mask
- range
- result
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000009877 rendering Methods 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008447 perception Effects 0.000 claims description 10
- 238000006467 substitution reaction Methods 0.000 claims description 8
- 238000003908 quality control method Methods 0.000 claims description 6
- 230000002411 adverse Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 abstract description 9
- 238000011161 development Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 6
- 230000000873 masking effect Effects 0.000 description 6
- 230000003042 antagnostic effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于对抗多任务学习的统一语义性中文文本润色方法,其包括如下步骤:S1,通过润色范围划分模型确定润色范围;S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;S3,根据打分结果筛选出最佳的句子。本发明具有推动统一性文本校对方法的研究过程进展、适合实际落地使用、在一定程度上确实改善人们的文本编辑体验等优点。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于对抗多任务学习的统一语义性中文文本润色方法。
背景技术
长久以来,文本写作是人们工作生活中的重要基础组成部分。而在写作过程中不经意出现的拼写、语法错误会带给人们相当不便。文本校对工具响应这种核心需求应运而生。但是随着人工智能技术的发展以及人们对于此类工具的功能需求标准日益提高,当前文本校对方法正面临的割裂性障碍阻碍了整体文本校对方法的发展。
由于当前文本校对中缺少能够整体性处理不同粒度的文本错误的统一性方法,其中割裂性问题体现在,不同的校对方法通过组合得到的校对结果中,由于不同方法使用的顺序不同导致校对结果极为不稳定。而其根本原因在于文本语言中缺少可靠的统一特征。
具体的如表1所示,在WS中既包含语法上的错误也包含拼写上的错误,其中“取”处的错误为拼写错误,“金字”处的错误为语法错误。当我们首先或单独使用CSC进行纠错时,将“金字”中的“字”修改为“子”,得到与OS完全不同语义的SS,虽然具有一定的语义流畅性,但是与OS在语义上差别较大。当我们首先使用CGEC方法进行纠错时,CGEC得到的句子语义混乱,在补全缺失的“塔”后,需要CSC的配合才可能够得到OS。这样的不稳定的结果大大限制了当前文本校对任务在实际使用中的场景。
表1:
因此,有必要提供一种新的技术方案。
发明内容
为解决现有技术中存在的技术问题,本发明公开了一种基于对抗多任务学习的统一语义性中文文本润色方法,具体技术方案如下所述:
本发明提供一种基于对抗多任务学习的统一语义性中文文本润色方法,包括如下步骤:
S1,通过润色范围划分模型确定润色范围;
S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;
S3,根据打分结果筛选出最佳的句子。
进一步地,对抗多任务学习用以训练润色框架的掩码语言模型(MLM,MaskLanguage Model)和位置打分模型(PSM,Position Scorer Model),分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分;在训练得到两个模型之后,使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分,调用掩码语言模型和位置打分模型对于句子进行润色。
进一步地,其包括生成模块,在生成对抗学习阶段,生成模块加载实时调整的掩码语言模型,根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子,位置打分模型对于替换后的句子进行判别打分。
进一步地,所述生成模块采用对抗生成的方式对于训练数据进行生成,使用掩码语言模型的排序结果对于训练数据进行动态生成,具体的动态生成策略公式如下:其中对于句子S的第i个字符,ranki是指掩码语言模型对于该位置的排序结果,ki∈(0,1)是指该位置的随机种子,其中c为常量,通过控制c能够调整生成的字符在字表中排序的范围,之后根据ranki在RANKADV之前的生成字符设置为对抗样本,在之后的字符设置为普通错误样本。
进一步地,根据数据的难度将c设置为1000,表示为生成的字符在每次分类结果的前1000位字符中进行选择;将RANKADV设置为20,表示每次分类结果前20位为语义相似度较高的对抗样本。
进一步地,其包括交错权重模块,所述交错权重模块结合生成器和判别器的结果生成交错的两组权重,交叉的作用于判别器和生成器上,降低不良对抗数据对于结果调整的强度,能够在一定程度上规避混淆文本对于训练过程造成的不良影响。
进一步地,所述交错权重模块包括两个不同的权重WG和WD,
其中WG来自生成器,根据生成模块得到普通错误时,设置该位置权重为1;对于对抗替换位置,在掩码语言模型中,输出向量表示字表中不同字符对应的分类数值,依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到WG,具体计算公式为:
对于i位置,di是指该位置的ML模型的输出向量,ranki为对抗样本在分类结果排序中的序号,SEEDg是通过预设得到的比例;
WD来自于判别器,判别器对于不同位置进行打分,当打分越高说明该位置语义越不恰当,通过将原句和生成的错误句子输入判别器中,根据二者打分结果得到这一部分的权重,具体计算公式为:
scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分。
进一步地,其还包括质量感知掩码策略,所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型,以这种方式进行动态掩码对于输入数据进行质量控制,具体的掩码方式如下:
(1)对于随机选择的位置进行近似生成替换:当计算得到的结果在为高度近似的字符生成时,使用该字符对于这个位置进行替换;
(2)对于随机选择的位置进行遮盖生成替换:当计算得到的结果在为近似度较低的字符生成时,对于这个位置进行[MASK]字符替换。
进一步地,在润色的过程中,根据句子的整体语义重构正确的语义框架,并采用蒙特卡洛搜索过程对于润色结果进行搜索,语义润色框架需要确定两部分:第一部分是范围的字符长度,表示为润色过程的广度搜索的结果;另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。
其包括范围感知权重Wr,所述范围感知权重Wr与润色范围的大小负相关,当润色范围极大时,会导致次要语义的缺失和整体语义的偏差,所述范围感知权重Wr的计算公式为:
其中pc表示由位置打分模型得到的句中最不恰当的位置,p为宽度搜索过程的搜索位置,l是句子的长度。
本发明具有以下有益效果:
1、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,能够推动统一性文本校对方法的研究过程进展,其中对于具备可靠性的统一语义特征的构建以及统一性方法的提出能够对于之后的研究发展起到启示作用。
2、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,相比于传统的文本校对方法更加适合实际落地使用,也能够在一定程度上确实改善人们的文本编辑体验。
3、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,润色框架可以基于整体语义观点对中文句子进行建模,包括高度完整性、一致性和鲁棒性。此外,可以有效地提高模型对中文校对中语义混淆问题的抵抗力。
4、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,对抗多任务学习可以帮助语义润色方法在主要错误检测评估上取得很大的进步。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的整体润色流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明提供了一种基于对抗多任务学习的统一语义性中文文本润色方法,其包括如下步骤:
S1,通过润色范围划分模型确定润色范围;
S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;
S3,根据打分结果筛选出最佳的句子。
一个实施例中,对抗多任务学习用以训练润色框架的掩码语言模型(MLM,MaskLanguage Model)和位置打分模型(PSM,Position Scorer Model),分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分;在训练得到两个模型之后,使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分,调用掩码语言模型和位置打分模型对于句子进行润色。
一个实施例中,本发明还包括生成模块,在生成对抗学习阶段,生成模块加载实时调整的掩码语言模型,根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子,位置打分模型对于替换后的句子进行判别打分。
所述生成模块采用对抗生成的方式对于训练数据进行生成,使用掩码语言模型的排序结果对于训练数据进行动态生成,具体的动态生成策略公式如下: 其中对于句子S的第i个字符,ranki是指掩码语言模型对于该位置的排序结果,ki∈(0,1)是指该位置的随机种子,其中c为常量,通过控制c能够调整生成的字符在字表中排序的范围,之后根据ranki在RANKADV之前的生成字符设置为对抗样本,在之后的字符设置为普通错误样本。
根据数据的难度将c设置为1000,表示为生成的字符在每次分类结果的前1000位字符中进行选择;将RANKADV设置为20,表示每次分类结果前20位为语义相似度较高的对抗样本。
一个实施例中,本发明还包括交错权重模块,所述交错权重模块结合生成器和判别器的结果生成交错的两组权重,交叉的作用于判别器和生成器上,降低不良对抗数据对于结果调整的强度,能够在一定程度上规避混淆文本对于训练过程造成的不良影响。
所述交错权重模块包括两个不同的权重WG和WD,
其中WG来自生成器,根据生成模块得到普通错误时,设置该位置权重为1;对于对抗替换位置,在掩码语言模型中,输出向量表示字表中不同字符对应的分类数值,依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到WG,具体计算公式为:
对于i位置,di是指该位置的ML模型的输出向量,ranki为对抗样本在分类结果排序中的序号,SEEDg是通过预设得到的比例;
WD来自于判别器,判别器对于不同位置进行打分,当打分越高说明该位置语义越不恰当,通过将原句和生成的错误句子输入判别器中,根据二者打分结果得到这一部分的权重,具体计算公式为:
scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分。
一个实施例中,本发明还包括质量感知掩码策略,所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型,以这种方式进行动态掩码对于输入数据进行质量控制,具体的掩码方式如下:
(1)对于随机选择的位置进行近似生成替换:当计算得到的结果在为高度近似的字符生成时,使用该字符对于这个位置进行替换;
(2)对于随机选择的位置进行遮盖生成替换:当计算得到的结果在为近似度较低的字符生成时,对于这个位置进行[MASK]字符替换。
在润色的过程中,根据句子的整体语义重构正确的语义框架,并采用蒙特卡洛搜索过程对于润色结果进行搜索,语义润色框架需要确定两部分:第一部分是范围的字符长度,表示为润色过程的广度搜索的结果;另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。
一个实施例中,本发明包括范围感知权重Wr,所述范围感知权重Wr与润色范围的大小负相关,当润色范围极大时,会导致次要语义的缺失和整体语义的偏差,所述范围感知权重Wr的计算公式为:
其中pc表示由位置打分模型得到的句中最不恰当的位置,p为宽度搜索过程的搜索位置,l是句子的长度。
参考图1,为本申请的整体润色流程图。
本发明的具体算法为:
语义润色框架可以将未标记的数据转换为标记的训练数据,使用Xuexi数据集和CLUE数据集(Chinese Language Understanding Evaluation Benchmark)进行训练和验证。Xuexi数据集中的语料来自中共中央宣传部直接管理的中国最大的政治新闻网站“学习强国”。Xuexi数据集中的句子与中国政务有关,具有极高的流畅性和独特性。CLUE是最大的汉语理解语料库之一。数据集包含中文以外的语言,混淆性强,语义环境复杂。
分别为对抗性多任务学习中的位置打分模型和掩码语言模型训练准备了200,000个句子,以及在润色过程中用于润色范围策略网络的训练。训练集由Xuexi数据集和CLUE数据集中的数据一对一组成。
在主要的实验评估中,使用了来自CGED-2018数据集的1,000条句子、来自学西语料库的1,000条句子和1,000条句子CLUE语料库进行评估。Xuexi数据集和CLUE语料库的实验句子是我们自己将句子中的字符替换为变长字符生成的。与日常写作相比,Xuexi数据集和CLUE语料库相对更专业。此外,我们采用CGED-2018数据集进行实验,可以反映在不熟悉的领域润色框架的性能。
表2:
如表2所示,与各种评估方法的基线相比,我们的方法得到了改进。考虑到错句的结构和长度与原句相差不大,我们在句子相似度评估上并没有做大的改进。但是在错误数量的评估上,我们的润色模型相对于其他模型具有压倒性的优势。这也说明我们的润色框架完全可以满足校对的需求,上限更高。
为了验证我们的对抗性多任务学习的效果,我们在CLUE数据集和Xuexi数据集上设置了消融实验。我们将数据按一比十的比例为测试集和训练集。
表3:
如表3所示,我们可以发现对抗性多任务学习方法相比其他模型在准确率和准确率上有显着的提升,这也说明对抗性多任务学习方法可以提高性能和抗干扰能力。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。
Claims (10)
1.一种基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,包括如下步骤:
S1,通过润色范围划分模型确定润色范围;
S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;
S3,根据打分结果筛选出最佳的句子。
2.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,对抗多任务学习用以训练润色框架的掩码语言模型(MLM,Mask Language Model)和位置打分模型(PSM,Position Scorer Model),分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分;在训练得到两个模型之后,使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分,调用掩码语言模型和位置打分模型对于句子进行润色。
3.根据权利要求2所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,其包括生成模块,在生成对抗学习阶段,生成模块加载实时调整的掩码语言模型,根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子,位置打分模型对于替换后的句子进行判别打分。
4.根据权利要求3所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,其包括交错权重模块,所述交错权重模块结合生成器和判别器的结果生成交错的两组权重,交叉的作用于判别器和生成器上,降低不良对抗数据对于结果调整的强度,能够在一定程度上规避混淆文本对于训练过程造成的不良影响。
6.根据权利要求5所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,根据数据的难度将c设置为1000,表示为生成的字符在每次分类结果的前1000位字符中进行选择;将RANKADV设置为20,表示每次分类结果前20位为语义相似度较高的对抗样本。
7.根据权利要求4所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,所述交错权重模块包括两个不同的权重WG和WD,
其中WG来自生成器,根据生成模块得到普通错误时,设置该位置权重为1;对于对抗替换位置,在掩码语言模型中,输出向量表示字表中不同字符对应的分类数值,依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到WG,具体计算公式为:
对于i位置,di是指该位置的ML模型的输出向量,ranki为对抗样本在分类结果排序中的序号,SEEDg是通过预设得到的比例;
WD来自于判别器,判别器对于不同位置进行打分,当打分越高说明该位置语义越不恰当,通过将原句和生成的错误句子输入判别器中,根据二者打分结果得到这一部分的权重,具体计算公式为:
scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分。
8.根据权利要求3所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,其还包括质量感知掩码策略,所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型,以这种方式进行动态掩码对于输入数据进行质量控制,具体的掩码方式如下:
(1)对于随机选择的位置进行近似生成替换:当计算得到的结果在为高度近似的字符生成时,使用该字符对于这个位置进行替换;
(2)对于随机选择的位置进行遮盖生成替换:当计算得到的结果在为近似度较低的字符生成时,对于这个位置进行[MASK]字符替换。
9.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,在润色的过程中,根据句子的整体语义重构正确的语义框架,并采用蒙特卡洛搜索过程对于润色结果进行搜索,语义润色框架需要确定两部分:第一部分是范围的字符长度,表示为润色过程的广度搜索的结果;另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111650851.7A CN114492463B (zh) | 2021-12-30 | 2021-12-30 | 一种基于对抗多任务学习的统一语义性中文文本润色方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111650851.7A CN114492463B (zh) | 2021-12-30 | 2021-12-30 | 一种基于对抗多任务学习的统一语义性中文文本润色方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492463A true CN114492463A (zh) | 2022-05-13 |
CN114492463B CN114492463B (zh) | 2023-12-12 |
Family
ID=81507739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111650851.7A Active CN114492463B (zh) | 2021-12-30 | 2021-12-30 | 一种基于对抗多任务学习的统一语义性中文文本润色方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492463B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502634A (zh) * | 2023-04-14 | 2023-07-28 | 永中软件股份有限公司 | 一种基于人工智能的专有名词校对方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122071A1 (en) * | 2017-10-24 | 2019-04-25 | International Business Machines Corporation | Emotion classification based on expression variations associated with same or similar emotions |
CN111460157A (zh) * | 2020-04-01 | 2020-07-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
CN111475615A (zh) * | 2020-03-12 | 2020-07-31 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种情感增强的细粒度情感预测方法、装置、系统及存储介质 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
-
2021
- 2021-12-30 CN CN202111650851.7A patent/CN114492463B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122071A1 (en) * | 2017-10-24 | 2019-04-25 | International Business Machines Corporation | Emotion classification based on expression variations associated with same or similar emotions |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN111475615A (zh) * | 2020-03-12 | 2020-07-31 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种情感增强的细粒度情感预测方法、装置、系统及存储介质 |
CN111460157A (zh) * | 2020-04-01 | 2020-07-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
Non-Patent Citations (1)
Title |
---|
张仰森;唐安杰;张泽伟;: "面向政治新闻领域的中文文本校对方法研究", 中文信息学报, no. 06 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502634A (zh) * | 2023-04-14 | 2023-07-28 | 永中软件股份有限公司 | 一种基于人工智能的专有名词校对方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114492463B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202153B (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
Boyd-Graber et al. | Adding dense, weighted connections to WordNet | |
CN113361266B (zh) | 文本纠错方法、电子设备及存储介质 | |
Oepen et al. | Towards hybrid quality-oriented machine translation–on linguistics and probabilities in MT | |
CN104731774B (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
CN106844356B (zh) | 一种基于数据选择改善英中机器翻译质量的方法 | |
CN103020045B (zh) | 一种基于谓词论元结构的统计机器翻译方法 | |
Chen et al. | Plotcoder: Hierarchical decoding for synthesizing visualization code in programmatic context | |
Xiong et al. | HANSpeller: a unified framework for Chinese spelling correction | |
Hawkins | Processing efficiency and complexity in typological patterns | |
CN114492463A (zh) | 一种基于对抗多任务学习的统一语义性中文文本润色方法 | |
CN108491399A (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Probst et al. | Design and implementation of controlled elicitation for machine translation of low-density languages | |
Cheng et al. | Research on automatic error correction method in English writing based on deep neural network | |
Geer | Statistical machine translation gains respect | |
CN113822044B (zh) | 语法纠错数据生成方法、装置、计算机设备及存储介质 | |
Petrovski et al. | Embedding individual table columns for resilient SQL chatbots | |
Pendas et al. | Neural Machine Translation through Active Learning on low-resource languages: The case of Spanish to Mapudungun | |
Cherry et al. | Discriminative substring decoding for transliteration | |
Mridha et al. | Generation of attributes for Bangla words for universal networking language (UNL) | |
Yang et al. | The BLCU system in the BEA 2019 shared task | |
Lambert et al. | Alignment of parallel corpora exploiting asymmetrically aligned phrases | |
CN113705208B (zh) | 一种基于领域术语和关键句的中文问题自动生成方法及装置 | |
Ayana et al. | Reinforced Zero-Shot Cross-Lingual Neural Headline Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |