CN114492463B - 一种基于对抗多任务学习的统一语义性中文文本润色方法 - Google Patents

一种基于对抗多任务学习的统一语义性中文文本润色方法 Download PDF

Info

Publication number
CN114492463B
CN114492463B CN202111650851.7A CN202111650851A CN114492463B CN 114492463 B CN114492463 B CN 114492463B CN 202111650851 A CN202111650851 A CN 202111650851A CN 114492463 B CN114492463 B CN 114492463B
Authority
CN
China
Prior art keywords
model
result
character
scoring
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111650851.7A
Other languages
English (en)
Other versions
CN114492463A (zh
Inventor
王钒宇
谈辉
谢振平
夏振涛
李艳
朱立烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yozosoft Co ltd
Jiangnan University
Original Assignee
Yozosoft Co ltd
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yozosoft Co ltd, Jiangnan University filed Critical Yozosoft Co ltd
Priority to CN202111650851.7A priority Critical patent/CN114492463B/zh
Publication of CN114492463A publication Critical patent/CN114492463A/zh
Application granted granted Critical
Publication of CN114492463B publication Critical patent/CN114492463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于对抗多任务学习的统一语义性中文文本润色方法,其包括如下步骤:S1,通过润色范围划分模型确定润色范围;S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;S3,根据打分结果筛选出最佳的句子。本发明具有推动统一性文本校对方法的研究过程进展、适合实际落地使用、在一定程度上确实改善人们的文本编辑体验等优点。

Description

一种基于对抗多任务学习的统一语义性中文文本润色方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于对抗多任务学习的统一语义性中文文本润色方法。
背景技术
长久以来,文本写作是人们工作生活中的重要基础组成部分。而在写作过程中不经意出现的拼写、语法错误会带给人们相当不便。文本校对工具响应这种核心需求应运而生。但是随着人工智能技术的发展以及人们对于此类工具的功能需求标准日益提高,当前文本校对方法正面临的割裂性障碍阻碍了整体文本校对方法的发展。
由于当前文本校对中缺少能够整体性处理不同粒度的文本错误的统一性方法,其中割裂性问题体现在,不同的校对方法通过组合得到的校对结果中,由于不同方法使用的顺序不同导致校对结果极为不稳定。而其根本原因在于文本语言中缺少可靠的统一特征。
具体的如表1所示,在WS中既包含语法上的错误也包含拼写上的错误,其中“取”处的错误为拼写错误,“金字”处的错误为语法错误。当我们首先或单独使用CSC进行纠错时,将“金字”中的“字”修改为“子”,得到与OS完全不同语义的SS,虽然具有一定的语义流畅性,但是与OS在语义上差别较大。当我们首先使用CGEC方法进行纠错时,CGEC得到的句子语义混乱,在补全缺失的“塔”后,需要CSC的配合才可能够得到OS。这样的不稳定的结果大大限制了当前文本校对任务在实际使用中的场景。
表1:
因此,有必要提供一种新的技术方案。
发明内容
为解决现有技术中存在的技术问题,本发明公开了一种基于对抗多任务学习的统一语义性中文文本润色方法,具体技术方案如下所述:
本发明提供一种基于对抗多任务学习的统一语义性中文文本润色方法,包括如下步骤:
S1,通过润色范围划分模型确定润色范围;
S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;
S3,根据打分结果筛选出最佳的句子。
进一步地,对抗多任务学习用以训练润色框架的掩码语言模型(MLM,MaskLanguage Model)和位置打分模型(PSM,Position Scorer Model),分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分;在训练得到两个模型之后,使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分,调用掩码语言模型和位置打分模型对于句子进行润色。
进一步地,其包括生成模块,在生成对抗学习阶段,生成模块加载实时调整的掩码语言模型,根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子,位置打分模型对于替换后的句子进行判别打分。
进一步地,所述生成模块采用对抗生成的方式对于训练数据进行生成,使用掩码语言模型的排序结果对于训练数据进行动态生成,具体的动态生成策略公式如下:其中对于句子S的第i个字符,ranki是指掩码语言模型对于该位置的排序结果,ki∈(0,1)是指该位置的随机种子,其中c为常量,通过控制c能够调整生成的字符在字表中排序的范围,之后根据ranki在RANKADV之前的生成字符设置为对抗样本,在之后的字符设置为普通错误样本。
进一步地,根据数据的难度将c设置为1000,表示为生成的字符在每次分类结果的前1000位字符中进行选择;将RANKADV设置为20,表示每次分类结果前20位为语义相似度较高的对抗样本。
进一步地,其包括交错权重模块,所述交错权重模块结合生成器和判别器的结果生成交错的两组权重,交叉的作用于判别器和生成器上,降低不良对抗数据对于结果调整的强度,能够在一定程度上规避混淆文本对于训练过程造成的不良影响。
进一步地,所述交错权重模块包括两个不同的权重WG和WD
其中WG来自生成器,根据生成模块得到普通错误时,设置该位置权重为1;对于对抗替换位置,在掩码语言模型中,输出向量表示字表中不同字符对应的分类数值,依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到WG,具体计算公式为:
对于i位置,di是指该位置的ML模型的输出向量,ranki为对抗样本在分类结果排序中的序号,SEEDg是通过预设得到的比例;
WD来自于判别器,判别器对于不同位置进行打分,当打分越高说明该位置语义越不恰当,通过将原句和生成的错误句子输入判别器中,根据二者打分结果得到这一部分的权重,具体计算公式为:
scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分。
进一步地,其还包括质量感知掩码策略,所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型,以这种方式进行动态掩码对于输入数据进行质量控制,具体的掩码方式如下:
(1)对于随机选择的位置进行近似生成替换:当计算得到的结果在为高度近似的字符生成时,使用该字符对于这个位置进行替换;
(2)对于随机选择的位置进行遮盖生成替换:当计算得到的结果在为近似度较低的字符生成时,对于这个位置进行[MASK]字符替换。
进一步地,在润色的过程中,根据句子的整体语义重构正确的语义框架,并采用蒙特卡洛搜索过程对于润色结果进行搜索,语义润色框架需要确定两部分:第一部分是范围的字符长度,表示为润色过程的广度搜索的结果;另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。
其包括范围感知权重Wr,所述范围感知权重Wr与润色范围的大小负相关,当润色范围极大时,会导致次要语义的缺失和整体语义的偏差,所述范围感知权重Wr的计算公式为:
其中pc表示由位置打分模型得到的句中最不恰当的位置,p为宽度搜索过程的搜索位置,l是句子的长度。
本发明具有以下有益效果:
1、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,能够推动统一性文本校对方法的研究过程进展,其中对于具备可靠性的统一语义特征的构建以及统一性方法的提出能够对于之后的研究发展起到启示作用。
2、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,相比于传统的文本校对方法更加适合实际落地使用,也能够在一定程度上确实改善人们的文本编辑体验。
3、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,润色框架可以基于整体语义观点对中文句子进行建模,包括高度完整性、一致性和鲁棒性。此外,可以有效地提高模型对中文校对中语义混淆问题的抵抗力。
4、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法,对抗多任务学习可以帮助语义润色方法在主要错误检测评估上取得很大的进步。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的整体润色流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明提供了一种基于对抗多任务学习的统一语义性中文文本润色方法,其包括如下步骤:
S1,通过润色范围划分模型确定润色范围;
S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;
S3,根据打分结果筛选出最佳的句子。
一个实施例中,对抗多任务学习用以训练润色框架的掩码语言模型(MLM,MaskLanguage Model)和位置打分模型(PSM,Position Scorer Model),分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分;在训练得到两个模型之后,使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分,调用掩码语言模型和位置打分模型对于句子进行润色。
一个实施例中,本发明还包括生成模块,在生成对抗学习阶段,生成模块加载实时调整的掩码语言模型,根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子,位置打分模型对于替换后的句子进行判别打分。
所述生成模块采用对抗生成的方式对于训练数据进行生成,使用掩码语言模型的排序结果对于训练数据进行动态生成,具体的动态生成策略公式如下: 其中对于句子S的第i个字符,ranki是指掩码语言模型对于该位置的排序结果,ki∈(0,1)是指该位置的随机种子,其中c为常量,通过控制c能够调整生成的字符在字表中排序的范围,之后根据ranki在RANKADV之前的生成字符设置为对抗样本,在之后的字符设置为普通错误样本。
根据数据的难度将c设置为1000,表示为生成的字符在每次分类结果的前1000位字符中进行选择;将RANKADV设置为20,表示每次分类结果前20位为语义相似度较高的对抗样本。
一个实施例中,本发明还包括交错权重模块,所述交错权重模块结合生成器和判别器的结果生成交错的两组权重,交叉的作用于判别器和生成器上,降低不良对抗数据对于结果调整的强度,能够在一定程度上规避混淆文本对于训练过程造成的不良影响。
所述交错权重模块包括两个不同的权重WG和WD
其中WG来自生成器,根据生成模块得到普通错误时,设置该位置权重为1;对于对抗替换位置,在掩码语言模型中,输出向量表示字表中不同字符对应的分类数值,依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到WG,具体计算公式为:
对于i位置,di是指该位置的ML模型的输出向量,ranki为对抗样本在分类结果排序中的序号,SEEDg是通过预设得到的比例;
WD来自于判别器,判别器对于不同位置进行打分,当打分越高说明该位置语义越不恰当,通过将原句和生成的错误句子输入判别器中,根据二者打分结果得到这一部分的权重,具体计算公式为:
scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分。
一个实施例中,本发明还包括质量感知掩码策略,所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型,以这种方式进行动态掩码对于输入数据进行质量控制,具体的掩码方式如下:
(1)对于随机选择的位置进行近似生成替换:当计算得到的结果在为高度近似的字符生成时,使用该字符对于这个位置进行替换;
(2)对于随机选择的位置进行遮盖生成替换:当计算得到的结果在为近似度较低的字符生成时,对于这个位置进行[MASK]字符替换。
在润色的过程中,根据句子的整体语义重构正确的语义框架,并采用蒙特卡洛搜索过程对于润色结果进行搜索,语义润色框架需要确定两部分:第一部分是范围的字符长度,表示为润色过程的广度搜索的结果;另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。
一个实施例中,本发明包括范围感知权重Wr,所述范围感知权重Wr与润色范围的大小负相关,当润色范围极大时,会导致次要语义的缺失和整体语义的偏差,所述范围感知权重Wr的计算公式为:
其中pc表示由位置打分模型得到的句中最不恰当的位置,p为宽度搜索过程的搜索位置,l是句子的长度。
参考图1,为本申请的整体润色流程图。
本发明的具体算法为:
语义润色框架可以将未标记的数据转换为标记的训练数据,使用Xuexi数据集和CLUE数据集(Chinese Language Understanding Evaluation Benchmark)进行训练和验证。Xuexi数据集中的语料来自中共中央宣传部直接管理的中国最大的政治新闻网站“学习强国”。Xuexi数据集中的句子与中国政务有关,具有极高的流畅性和独特性。CLUE是最大的汉语理解语料库之一。数据集包含中文以外的语言,混淆性强,语义环境复杂。
分别为对抗性多任务学习中的位置打分模型和掩码语言模型训练准备了200,000个句子,以及在润色过程中用于润色范围策略网络的训练。训练集由Xuexi数据集和CLUE数据集中的数据一对一组成。
在主要的实验评估中,使用了来自CGED-2018数据集的1,000条句子、来自学西语料库的1,000条句子和1,000条句子CLUE语料库进行评估。Xuexi数据集和CLUE语料库的实验句子是我们自己将句子中的字符替换为变长字符生成的。与日常写作相比,Xuexi数据集和CLUE语料库相对更专业。此外,我们采用CGED-2018数据集进行实验,可以反映在不熟悉的领域润色框架的性能。
表2:
如表2所示,与各种评估方法的基线相比,我们的方法得到了改进。考虑到错句的结构和长度与原句相差不大,我们在句子相似度评估上并没有做大的改进。但是在错误数量的评估上,我们的润色模型相对于其他模型具有压倒性的优势。这也说明我们的润色框架完全可以满足校对的需求,上限更高。
为了验证我们的对抗性多任务学习的效果,我们在CLUE数据集和Xuexi数据集上设置了消融实验。我们将数据按一比十的比例为测试集和训练集。
表3:
如表3所示,我们可以发现对抗性多任务学习方法相比其他模型在准确率和准确率上有显着的提升,这也说明对抗性多任务学习方法可以提高性能和抗干扰能力。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。

Claims (4)

1.一种基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,包括如下步骤:
S1,通过润色范围划分模型确定润色范围;
S2,对于润色范围插入的字符数进行遍历搜索,并使用掩码语言模型对其进行生成,将生成得到的一系列新句子使用位置打分模型进行打分;
S3,根据打分结果筛选出最佳的句子,
其中,对抗多任务学习用以训练润色框架的掩码语言模型(MLM,Mask LanguageModel)和位置打分模型(PSM,Position Scorer Model),分别用来对于错误位置的字符进行预测和对于错误位置字符的预测结果进行打分,
在训练得到两个模型之后,使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分,调用掩码语言模型和位置打分模型对于句子进行润色;
其包括生成模块,在生成对抗学习阶段,生成模块加载实时调整的掩码语言模型,根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子,位置打分模型对于替换后的句子进行判别打分,
所述生成模块采用对抗生成的方式对于训练数据进行生成,使用掩码语言模型的排序结果对于训练数据进行动态生成,具体的动态生成策略公式如下: 其中对于句子S的第i个字符,ranki是指掩码语言模型对于该位置的排序结果,ki∈(0,1)是指该位置的随机种子,其中c为常量,通过控制c能够调整生成的字符在字表中排序的范围,之后根据ranki在RANKADV之前的生成字符设置为对抗样本,在之后的字符设置为普通错误样本,
其包括交错权重模块,所述交错权重模块结合生成器和判别器的结果生成交错的两组权重,交叉的作用于判别器和生成器上,降低不良对抗数据对于结果调整的强度,能够在一定程度上规避混淆文本对于训练过程造成的不良影响,
所述交错权重模块包括两个不同的权重Wg和WD
其中Wg来自生成器,根据生成模块得到普通错误时,设置该位置权重为1;对于对抗替换位置,在掩码语言模型中,输出向量表示字表中不同字符对应的分类数值,依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到Wg,具体计算公式为:
对于i位置,di是是指该位置的掩码语言模型的输出向量,ranki为对抗样本在分类结果排序中的序号,SEEDg是通过预设得到的比例;
来自于判别器,判别器对于不同位置进行打分,当打分越高说明该位置语义越不恰当,通过将原句和生成的错误句子输入判别器中,根据二者打分结果得到这一部分的权重,具体计算公式为:
scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分,
其包括范围感知权重Wr,所述范围感知权重Wr与润色范围的大小负相关,当润色范围极大时,会导致次要语义的缺失和整体语义的偏差,所述范围感知权重Wr的计算公式为:
其中pc表示由位置打分模型得到的句中最不恰当的位置,p为宽度搜索过程的搜索位置,l是句子的长度。
2.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,根据数据的难度将c设置为1000,表示为生成的字符在每次分类结果的前1000位字符中进行选择;将RANKADV设置为20,表示每次分类结果前20位为语义相似度较高的对抗样本。
3.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,其还包括质量感知掩码策略,所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型,以这种方式进行动态掩码对于输入数据进行质量控制,具体的掩码方式如下:
(1)对于随机选择的位置进行近似生成替换:当计算得到的结果在为高度近似的字符生成时,使用该字符对于这个位置进行替换;
(2)对于随机选择的位置进行遮盖生成替换:当计算得到的结果在为近似度较低的字符生成时,对于这个位置进行[MASK]字符替换。
4.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法,其特征在于,在润色的过程中,根据句子的整体语义重构正确的语义框架,并采用蒙特卡洛搜索过程对于润色结果进行搜索,语义润色框架需要确定两部分:
第一部分是范围的字符长度,表示为润色过程的广度搜索的结果;
另一部分是范围内替换或插入的字符数,这部分表示为润色过程的深度搜索结果。
CN202111650851.7A 2021-12-30 2021-12-30 一种基于对抗多任务学习的统一语义性中文文本润色方法 Active CN114492463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111650851.7A CN114492463B (zh) 2021-12-30 2021-12-30 一种基于对抗多任务学习的统一语义性中文文本润色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111650851.7A CN114492463B (zh) 2021-12-30 2021-12-30 一种基于对抗多任务学习的统一语义性中文文本润色方法

Publications (2)

Publication Number Publication Date
CN114492463A CN114492463A (zh) 2022-05-13
CN114492463B true CN114492463B (zh) 2023-12-12

Family

ID=81507739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111650851.7A Active CN114492463B (zh) 2021-12-30 2021-12-30 一种基于对抗多任务学习的统一语义性中文文本润色方法

Country Status (1)

Country Link
CN (1) CN114492463B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502634A (zh) * 2023-04-14 2023-07-28 永中软件股份有限公司 一种基于人工智能的专有名词校对方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460157A (zh) * 2020-04-01 2020-07-28 哈尔滨理工大学 用于多领域文本分类的循环卷积多任务学习方法
CN111475615A (zh) * 2020-03-12 2020-07-31 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种情感增强的细粒度情感预测方法、装置、系统及存储介质
CN113553824A (zh) * 2021-07-07 2021-10-26 临沂中科好孕智能技术有限公司 一种句子向量模型训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489690B2 (en) * 2017-10-24 2019-11-26 International Business Machines Corporation Emotion classification based on expression variations associated with same or similar emotions
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475615A (zh) * 2020-03-12 2020-07-31 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种情感增强的细粒度情感预测方法、装置、系统及存储介质
CN111460157A (zh) * 2020-04-01 2020-07-28 哈尔滨理工大学 用于多领域文本分类的循环卷积多任务学习方法
CN113553824A (zh) * 2021-07-07 2021-10-26 临沂中科好孕智能技术有限公司 一种句子向量模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向政治新闻领域的中文文本校对方法研究;张仰森;唐安杰;张泽伟;;中文信息学报(第06期);全文 *

Also Published As

Publication number Publication date
CN114492463A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
US20180089169A1 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN106844356B (zh) 一种基于数据选择改善英中机器翻译质量的方法
Stojanovski et al. Improving anaphora resolution in neural machine translation using curriculum learning
CN114492463B (zh) 一种基于对抗多任务学习的统一语义性中文文本润色方法
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
KR20210035721A (ko) 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템
Kang Spoken language to sign language translation system based on HamNoSys
Atapattu et al. Acquisition of triples of knowledge from lecture notes: A natural langauge processing approach
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
JPH0261763A (ja) 機械翻訳装置
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
Geer Statistical machine translation gains respect
BG109996A (bg) Формализация на естествен език
CN113822044A (zh) 语法纠错数据生成方法、装置、计算机设备及存储介质
CN110147556A (zh) 一种多向神经网络翻译系统的构建方法
Kawabe et al. Braille Translation System Using Neural Machine Translation Technology II–Code Conversion of Kana-Kanji Mixed Sentences
Wei et al. Research on Error Detection Technology of English Writing Based on Recurrent Neural Network
Wang et al. Application of Artificial Intelligence in Computer-Assisted English Vocabulary Translation
Chen Automatic chinese proofreading based on deep learning
US11664010B2 (en) Natural language domain corpus data set creation based on enhanced root utterances
Aggarwal et al. Redecode framework for iterative improvement in paraphrase generation
Agić et al. Combining part-of-speech tagger and inflectional lexicon for Croatian
KR20220074528A (ko) 인공지능 학습 방법을 포함하는 자동 번역 방법
Zhang Application Design of Linguistics in Computer Technology under Artificial Intelligence Background

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant