CN116089569A - 样本构建方法、装置、电子设备及可读存储介质 - Google Patents

样本构建方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116089569A
CN116089569A CN202310085121.XA CN202310085121A CN116089569A CN 116089569 A CN116089569 A CN 116089569A CN 202310085121 A CN202310085121 A CN 202310085121A CN 116089569 A CN116089569 A CN 116089569A
Authority
CN
China
Prior art keywords
word
text
translation
parallel corpus
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310085121.XA
Other languages
English (en)
Inventor
王承之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202310085121.XA priority Critical patent/CN116089569A/zh
Publication of CN116089569A publication Critical patent/CN116089569A/zh
Priority to PCT/CN2024/075789 priority patent/WO2024164976A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种样本构建方法、装置、电子设备及可读存储介质,属于人工智能技术领域,该方法包括:获取平行语料训练样本,平行语料训练样本包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签;将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;将第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的所述平行语料训练样本;基于替换标签后的所述平行语料训练样本与至少一个扩展文本,构建目标训练样本。

Description

样本构建方法、装置、电子设备及可读存储介质
技术领域
本申请属于人工智能技术领域,具体涉及一种样本构建方法、装置、电子设备及可读存储介质。
背景技术
随着计算机性能和互联网技术的发展,现有的翻译方法通常是采用大规模双语平行语料训练翻译模型,并基于待翻译文本中真实语料的分布生成译文。
然而,由于平行语料训练样本往往是由高质量的规范文本组成的,因此,经过该平行语料训练样本训练得到的翻译模型只能对规范文本进行翻译,而对于包含不符合规范词的文本进行翻译时,整体的翻译准确度较低。
因此,如何构建更加丰富的平行语料训练样本是本申请亟待解决的问题。
发明内容
本申请实施例的目的是提供一种样本构建方法、装置、电子设备及可读存储介质,能够解决如何构建更加丰富的平行语料训练样本的问题。
第一方面,本申请实施例提供了一种样本构建方法,该方法包括:获取平行语料训练样本,平行语料训练样本包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签;将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;将第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的平行语料训练样本;基于替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本。
第二方面,本申请实施例提供了一种样本构建装置,该装置包括:获取模块,处理模块和构建模块;获取模块,用于获取平行语料训练样本,平行语料训练样本包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签;处理模块,用于将获取模块获取的平行语料训练样本中的原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;处理模块,还用于将获取模块获取的平行语料训练样本中的第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的平行语料训练样本;构建模块,用于基于处理模块处理后的替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,获取平行语料训练样本,平行语料训练样本包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签;将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;将第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的平行语料训练样本;基于替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本。通过该方案,由于样本构建装置可以对平行语料训练样本中的原始文本中的关键词进行替换,生成至少一个扩展文本,以扩大平行语料训练样本所覆盖的词汇范围;同时,并将该关键词所对应的规范类型标签替换为不符合规范词所对应的规范类型标签,获得替换标签后的平行语料训练样本,以丰富平行语料训练样本所包含的内容。最后,样本构建装置可以基于替换标签后的平行语料训练样本和至少一个扩展文本,构建得到目标训练样本。因此可以使得目标训练样本中包含不符合规范词及其所对应的规范类型标签,从而可以丰富平行语料训练样本的内容,使得平行语料训练样本具有更多更灵活的训练内容。
附图说明
图1是本申请实施例提供的一种不符合规范词的实例示意图;
图2是本申请实施例提供的一种样本构建方法的流程图;
图3是本申请实施例提供的一种样本构建方法的实例示意图之一;
图4是本申请实施例提供的一种样本构建方法的实例示意图之二;
图5是本申请实施例提供的一种样本构建方法的实例示意图之三;
图6是本申请实施例提供的一种翻译模型进行翻译的流程图;
图7是本申请实施例提供的一种样本构建装置的结构示意图;
图8是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图9是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面对本申请实施例中涉及的一些术语/名词进行解释说明。
1、同源字/词:语系分支较近的语种或文字之间,往往存在较多语言学起源相同的字/词,这些字/词的读音、拼写或含义相近,在字形构成上可能容易发生混淆。例如,均使用汉字书写的中文和日语(例:“荣誉”和“栄誉”)、同属西日尔曼语支的英语和德语(例:“popular”和
Figure BDA0004068666130000031
)、中文的简体和繁体等。由于输入错误等原因,待翻译文本中的词语可能被替换为同源词,导致翻译的译文质量下降。
2、假名:日语的一种表音文字,存在平假名和片假名两种写法,两者可互相转化,每个假名代表一个音节。日语中的汉字都可以根据读音转写为假名,类似于中文的拼音。同时,假名也是日语的一种书写文字,用来表示日语中的固有词汇及文法助词等。
3、日语汉字:日语中使用的汉字,与假名共同组成日语的书写文字,常用来表示实物的名称或动作等。现代日语中的常用汉字为2000-3000个左右,其字形与中文汉字同源,且与简体字、繁体字均存在一定的交集和差异。
4、原文:待翻译的原始文本,原文的具体语言无限制。
5、译文:原文经过翻译模型翻译后的结果,译文的具体语言无限制。
6、语言模型:用来计算一个句子的概率(即:一段词语序列能够构成正常句子的概率)的模型,其核心是通过句中的前n个词计算当前词出现的概率。通常使用困惑度作为评价指标。
7、困惑度:评价一个句子好坏的指标,困惑度越高,证明一个句子越难懂,即越不可能是一个通顺、语义正确的句子。
8、词法:对句子中词的研究,包括词的结构、形态及词性,如名词、形容词、副词,英语中的单数、复数等。
9、句法结构:句子成分的相关关系,以及它们组成句子的规则或过程,如常见的“主谓宾”结构。
10、序列标注:给定一个句子,对句子中的每一个词语进行标注,或者说对词语的类别标签做出预测。
11、分词:序列标注任务的一种。对于中文、日语等书写时词语间不存在空格的语言,分词模型能够对句子进行词级别切分,并对词语的词法、句法结构等类别标签进行预测。本方案中训练的分词模型还涉及对不符合规范词语的扩展形式(例如:发音拼写、同源词、易混淆词等)进行预测。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的样本构建方法、装置、电子设备及可读存储介质进行详细地说明。
现有的机器翻译方法通常采用大规模双语平行语料训练样本来训练翻译模型,基于真实语料的分布来生成译文。
然而,由于平行语料训练样本中的原始文本通常为高质量的规范文本,词被转写为读音拼写或同源词等规范性问题极少出现,翻译模型往往接触不到这些表达不规范的词,也不具备将其准确翻译的能力。但是,在一些特定场景下,输入翻译模型的文本中可能包含表达方式不符合常规语法的不符合规范词,例如,在语言教育场景下,如图1所示,文本中的词语可能被转写为该语种的读音拼写形式(如汉语拼音、日语假名等),用于教学或考试;用户在打字时的错误输入,也可能导致待翻译文本中出现读音拼写、错别字、同源词替换等错误;在图片翻译、语音翻译等任务中,图像文字识别、语音识别等前置模块的识别结果可能出现字形相似错误、字音相似错误和转码错误等问题,也可能会导致下游的翻译模型接收到不规范的文本。如此,由于这些包含不规范或错误的词的文本序列往往不是一个很常见的序列,即其表达方式不符合常规语法、词法或句法结构,因此导致翻译模型对于这种不规范或错误的词通常难以正确的进行翻译。
以日语为例,一方面,日语的文字存在假名和汉字两种体系,其中,日语汉字与中文汉字高度相似,且与中文的简体字(以下简称简中)、繁体字(以下简称繁中)均存在一定的交集和差异,如表1所示。中文用户在输入日语时,可能由于省事和偷懒、字形混淆等原因,将汉字词语替换为了日语中不存在的同源词,或字形相近的错别字,因此可能导致模型翻译错误。
表1
Figure BDA0004068666130000041
Figure BDA0004068666130000051
另一方面,日语的假名既可本身有含义,用于书面表达,也可以用作拼写汉字的读音。在社交平台等网络文本中,很多用户为了省事,不拼写规范的汉字,而直接以假名的读音形式替换,如图1所示。然而,相同读音的假名会存在大量“一词多义”的情况,并产生很多不规范的日语汉字表达。并且,由于日语书写时词语之间不存在空格,且日语假名转写的字符集与正常文本完全重合,若文本中大量的汉字被转写为假名,现有方法难以对这些句子中的不规范假名用词进行正确识别和切分;此外,日语中也存在大量的同音词现象,相同假名的读音可能对应多个不同的汉字词语,如表2所示。
表2
Figure BDA0004068666130000052
由于现有文本翻译方法大多训练语料都是规范的语料,当输入不规范表达的文本时,翻译模型往往会输出这些词的音译,甚至随机翻译,导致无法得到准确的译文。
而本申请实施例提供的样本构建方法,由于样本构建装置可以对平行语料训练样本中的原始文本中的关键词进行替换,生成至少一个扩展文本,以扩大平行语料训练样本所覆盖的词汇范围;同时,并将该关键词所对应的规范类型标签替换为不符合规范词所对应的规范类型标签,获得替换标签后的平行语料训练样本,以丰富平行语料训练样本所包含的内容。最后,样本构建装置可以基于替换标签后的平行语料训练样本和至少一个扩展文本,构建得到目标训练样本。因此可以使得目标训练样本中包含不符合规范词及其所对应的规范类型标签,从而可以丰富平行语料训练样本的内容,使得平行语料训练样本具有更多更灵活的训练内容。
本申请实施例提供的样本构建方法的执行主体可以为样本构建装置。示例性地,该样本构建装置可以为电子设备,也可以为该电子设备中的部件,例如集成电路或芯片。以下将以样本构建装置为例对本申请实施例提供的样本构建方法进行示例性说明。
本申请实施例提供一种样本构建方法,图2示出了本申请实施例提供的一种样本构建方法的流程图,该方法的执行主体可以为样本构建装置。如图2所示,本申请实施例提供的样本构建方法可以包括下述的步骤201至步骤204。
步骤201、获取平行语料训练样本。
其中,上述平行语料训练样本可以包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签。
本申请实施例中,平行语料训练样本可以为由原始文本及其平行对应的译语文本构成的双语或多语语料。
可选地,原始文本可以为不包含不符合规范词的文本。
可选地,上述关键词可以为原始文本中的任一词。
可选地,上述规范类型标签可以指示关键词的规范类型。
可以理解,一方面,由于同一语种中存在大量同音词,这些词的扩展形式可能与规范词表中的其他规范词相同,例如,“さくら”既可以是姓氏“佐倉(佐仓)”的假名转写,也可以表示名词“樱花”,因此通过规则的方法难以对所有的不符合规范词进行识别。另一方面,由于不同语种之间文本序列的规则不同,例如,日语中的词之间没有空格,在待翻译文本中大量汉字被转写为假名时,规则的方法也难以准确识别词与词之间的边界,因此通过规则的方法难以对待翻译文本中的所有词进行准确的翻译。所以,本申请实施例提供的样本构建方法中的样本构建装置可以采用标记了词法、句法结构等信息的文本数据(即原始文本),并在此基础上增加关键词所对应的规范类型标签。
步骤202、将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本。
可选地,样本构建装置可以将平原始文本中的任一关键词替换为其所对应的至少一个第一不符合规范词,得到多条语义相同,规范程度不同的扩展文本。
可选地,扩展文本的词性、句法结构等其他标注信息可以与原始文本的标注信息保持一致。
可选地,上述不符合规范词可以为表达方式不符合常规语法、词法或句法结构的词语。
可选地,上述不符合规范词可以包括以下至少一种情况:包含读音拼写、包含错别字、包含同源字替换、包含字形错误。
可选地,“将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词”可以理解为:将符合规范的关键词,替换为同源的、读音相同/相似的或字形相似的表达方式不符合常规语法、词法或句法结构的不符合规范词。
例如,原始文本中包含关键词“境界”,样本构建装置可以将其替换为发音相同的“教会”或不符合规范词“きょうかい(bianjie)”。
可选地,平行语料训练样本可以为平行语料训练样本集中的一个平行语料训练样本。上述步骤202可以包括下述的步骤202a。
步骤202a、基于原始文本中的每个关键词在平行语料训练样本集中的词频,从原始文本中确定至少一个第一关键词,将原始文本中的至少一个第一关键词中的每个第一关键词替换为各自对应的第一不符合规范词,以生成第一扩展文本。
其中,第一扩展文本为上述至少一个扩展文本中的任一扩展文本。
可选地,样本构建装置可以基于原始文本中的每个关键词在平行语料训练样本集中的词频,对原始文本中的关键词进行替换。
可以理解,词频高的词,表示其越容易被发生替换。
具体地,原始文本中的第一关键词可以以其在平行语料训练样本集中的词频设置替换为其所对应的第一不符合规范词。
示例性地,如图3所示,关键词“とても(非常地)”、“頼もしく(可信赖地)”、“優しい(温柔地)”按照其在平行语料训练样本集中的词频,将“頼もしく(可信赖地)”替换为含有拼音读写的形式(即其规范类型标签为拼音读写-平假名)“たのもしく(可信lai地)”,“優しい(温柔地)”替换为含有拼音读写的形式(即其规范类型标签为拼音读写-平假名)“やさしい(温rou地)”,获得扩展文本1;将“とても(非常地)”替换为含有拼音读写的形式(即其规范类型标签为拼音读写-片假名)“トテモ(feichangde)”,将“頼もしく”替换为含有同源字的形式(即其规范类型标签为同源字-繁中)“賴もしく(可信賴地)”,“優しい”替换为含有同源字的形式(即其规范类型标签为同源字-简中)“优しい(温柔地)”,获得扩展文本2。
如此,由于样本构建装置可以基于关键词在平行语料训练样本集中的词频,对关键词进行替换,因此可以使得词频高的关键词更多次的被替换为其所对应的至少一个不符合规范词,从而使得生成的扩展文本可以尽可能多的包含原始文本所对应的所有的可能的不符合规范的形式,进而可以使得后续对翻译模型的训练可以更加全面。
步骤203、将第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的平行语料训练样本。
可选地,规范类型标签可以指示词的规范类型,
示例性地,当词为符合规范词(即第一关键词)时,其所对应的规范类型标签(即第一规范类型标签)可以以指示其为符合规范的词;当词为不符合规范词(即第一不符合规范词)时,其所对应的规范类型标签(即第二规范类型标签)可以指示其不符合规范的形式。
例如,如表3所示,第二规范类型标签可以包含读音拼写-平假名、读音拼写-片假名、同源词-简中、同源词-繁中、易混淆词-简中、易混淆词-繁中、易混淆词-重组等等多种形式。
表3
Figure BDA0004068666130000071
Figure BDA0004068666130000081
步骤204、基于替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本。
可选地,样本构建装置可以将扩展文本中的不符合规范词与替换标签后的平行语料训练样本中与其对应的规范类型标签进行关联,得到目标训练样本。
本申请实施例提供一种样本构建方法,由于样本构建装置可以对平行语料训练样本中的原始文本中的关键词进行替换,生成至少一个扩展文本,以扩大平行语料训练样本所覆盖的词汇范围;同时,并将该关键词所对应的规范类型标签替换为不符合规范词所对应的规范类型标签,获得替换标签后的平行语料训练样本,以丰富平行语料训练样本所包含的内容。最后,样本构建装置可以基于替换标签后的平行语料训练样本和至少一个扩展文本,构建得到目标训练样本。因此可以使得目标训练样本中包含不符合规范词及其所对应的规范类型标签,从而可以丰富平行语料训练样本的内容,使得平行语料训练样本具有更多更灵活的训练内容。
可选地,扩展文本的数量为N,N为正整数。在上述步骤202之后,本申请实施例提供的样本构建方法还可以包括下述的步骤205。
步骤205、在N个扩展文本中的第二扩展文本中包含未收录在所述平行语料训练样本集中的未登录词的情况下,对所述未登录词的特征信息进行初始化。
其中,初始化的过程包括以下至少之一:按照未登录词对应的第一关键词,和N个扩展文本中的每个扩展文本中未登录词对应的第一关键词所对应的每个不符合规范词在平行语料训练样本集中的词频,对未登录词的特征信息进行加权平均;使用未登录词对应的同源词的特征信息,对未登录词的特征信息进行加权平均;将未登录词的特征信息置为0;将未登录词的特征信息随机初始化。
可选地,上述第一扩展文本与上述第二扩展文本可以相同,也可以不同。
可选地,样本构建装置可以基于词的特征信息,将得到的扩展文本转化为模型训练对应的词向量序列。
示例性地,样本构建装置可以通过词向量(word to vector,Word2Vec)算法、基于全局词频统计的回归算法(Glove算法)等算法得到词向量序列,也可以在Transformer等翻译模型中训练迭代得到词向量序列。
实际实现中,样本构建装置可以通过任一可能的方式得到扩展文本对应的词向量序列,本申请不做具体限定。
本申请实施例中,对于未登录词,即未在平行语料训练样本集中出现过的词,可以采用下述方法的任意组合对未登录词在未登录词的特征信息进行初始化,得到对应的词向量:①按照未登录词对应的第一关键词,和N个扩展文本中的每个扩展文本中未登录词对应的第一关键词所对应的每个不符合规范词在平行语料训练样本集中的词频,对未登录词的特征信息进行加权平均;②使用未登录词对应的同源词的特征信息,对未登录词的特征信息进行加权平均;③将未登录词的特征信息置为0;④将未登录词的特征信息随机初始化。
在实际对模型的训练过程中,样本构建装置还可以对未登录词所对应的规范类型标签的特征信息进行随机初始化,或将规范类型标签进行组合,并通过对其所对应的词的特征信息进行加权平均,得到未登录词所对应的规范类型标签及其特征信息。
如此,一方面,在数据层面上,由于样本构建装置可以对未登录词的特征信息进行初始化,因此可以增强对翻译模型的训练;另一方面,在模型层面上,由于样本构建装置可以通过对未登录词的特征信息的初始化,让翻译模型在训练时可以学习不符合规范词与其对应的符合规范词的语音相关性,因此可以提升翻译模型的翻译鲁棒性。如此,本申请实施例提供的样本构建方法可以提升翻译模型的翻译质量和翻译准确性。
可选地,在上述步骤204之后,本申请实施例提供的样本构建方法还可以包括下述的步骤206和步骤207。
步骤206、将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本。
其中,一个不符合规范词还原为至少一个规范词。
可选地,上述第一翻译文本可以为一句话,也可以为一段话。
可选地,第一翻译文本可以为用户输入的文本,也可以为从其他设备上获取的文本。
可选地,样本构建装置可以通过以下三种方法识别第一翻译文本中的不符合规范词:方法1:基于同源、读音、字符集合的扩展词表构建方法;方法2:基于扩展词表增强的分词模型方法;方法3:基于语言模型概率的不规则译文检测方法。
下面结合具体实施例对方法1至方法3进行详细描述。
方法1:基于同源、读音、字符集合的扩展词表构建方法。
本申请实施例中,第一翻译文本中的不符合规范词的扩展形式可以包括该不符合规范词在扩展词表中匹配到的所有的词。
可以理解,由于第一翻译文本中包括不符合规范词时,该不符合规范词所使用字符可能超出当前语种的正常字符集,例如,中文中出现汉字字符集之外的汉语拼音字符,或者,该不符合规范词使用了当前语种中不存在的拼写,例如,英语“October”采用同语系语言德语“Oktober”的拼写。因此,本申请实施例提供的样本构建方法中的样本构建装置可以通过挖掘不同语种之间词语的相似性,构建一个扩展词表,扩展词表示例如表3所示。
本申请实施例中,以日语为例,扩展词表可以包括:词的常见读音拼写及其变体;词在语言体系分支较近的其他语种中的同源或同义的字/词;词及其同源词重组得到的易混淆词;词由其字形相似的词替换后得到的易混淆词等。
可选地,词与其同源或同义的字/词之间的词典释义高度相似,可以通过挖掘各语种的词典信息,进行同源构建。
可选地,易混淆词可以为不存在于其原语种或同源语种中的词语。
可选地,扩展词表中可以包括多个词集合,每个词集合中可以包括一个或多个不符合规范词和与该一个不符合规范词对应的符合规范词集合。
可选地,样本构建装置可以通过字符集检测、扩展词表匹配等方法,识别第一翻译文本中的不符合规范词,并将在扩展词表中匹配到的词集合作为第一词集合。
方法2:基于扩展词表增强的分词模型方法。
可选地,如图3所示,第一翻译文本中的词可以以词在平行语料训练样本集中的词频设置替换为扩展词表中的任一扩展形式,并替换对应的规范类型标签,以语料的扩展形式及其对应的规范类型标签对分词模型进行训练。
可选地,在上述步骤206之前,本申请实施例提供的样本构建方法还可以包括下述的步骤A。
步骤A、将第一翻译文本输入分词模型后,对第一翻译文本进行分词,得到M个分词,M为大于1的整数,并对M个分词中的每个分词进行不符合规范词识别,得到每个分词对应的识别结果,一个分词对应识别结果用于表征一个分词是否属于不符合规范词。
示例性地,分词模型可以为经过增强训练的分词模型。
示例性地,经过增强训练的分词模型可以对得到的每个分词进行规范类型标签预测,若预测得到该分词的规范类型标签指示该分词为不符合规范词,则将该分词识别为不符合规范词。
如此,由于样本构建装置可以使经过增强训练的分词模型获取对词的识别能力,学习不符合规范词和符合规范词在词法、句法结构、上下文信息等方面的相似性,并对输出的分词进行规范类型标签预测,因此可以使得分词模型对第一翻译文本进行准确切分并识别出第一翻译文本中的不符合规范词。
方法3:基于语言模型概率的不规则译文检测方法。
可以理解,由于不符合规范词在平行语料训练样本集中出现的概率较低,且同音词之间词义、上下文等信息也差别较大,较正常文本更不通顺。因此,可以使用语言模型计算第一翻译文本的困惑度,判断该文本是否含有不符合规范表达。
可选地,样本构建装置可以将第一翻译文本输入n元语言模型中,通过下述的公式1计算当前词wi与第一翻译文本的前n个词相关的概率。
Figure BDA0004068666130000111
其中,wi为当前词,N为第一翻译文本的词数。
由公式(1)可知,当前词语的条件概率P(wi|wi-n…wi-1)越低,其所在的第一翻译文本的通顺程度就越低,该第一翻译文本的困惑度也越高。
可选地,在上述步骤206之前,本申请实施例提供的样本构建方法还可以包括下述的步骤B1至步骤B4。
步骤B1、对第一翻译文本进行分词,得到M个分词。
其中,M为大于1的整数。
示例性地,样本构建装置可以将第一翻译文本输入增强的分词模型进行分词。
步骤B2、针对M个分词中的每个分词,在一个分词对应的条件概率小于第一预设阈值的情况下,获取一个分词对应的P个第一符合规范词。
其中,P为正整数。
可以理解,若该一个分词对应的条件概率小于第一预设阈值,则表示该分词可能为不符合规范词。
可选地,P个第一符合规范词可以为该一个分词在扩展词表中进行匹配到的符合规范词集合中的X个符合规范词。
步骤B3、将第一翻译文本中的一个分词分别替换为P个第一符合规范词中每个第一符合规范词,得到P个替换后的第一翻译文本。
步骤B4、若任一替换后的第一翻译文本对应的第一困惑度小于第一翻译文本对应的第二困惑度,且,第一困惑度与第二困惑度间的差值大于第二预设阈值,则样本构建装置确定一个分词为不符合规范词。
可以理解,若任一替换后的第一翻译文本对应的第一困惑度小于第一翻译文本对应的第二困惑度,且,第一困惑度与第二困惑度间的差值大于第二预设阈值,则可以表示替换后的第一翻译文本的更流畅,更合理。也就是说,替换前的第一翻译文本中存在不符合规范词。
如此,由于样本构建装置可以将第一翻译文本中可能的不符合规范词替换为其对应的第一符合规范词,并分别计算替换前后的第一翻译文本的困惑度,在替换后的第一翻译文本的困惑度下降差值大于第二预设阈值的情况下,将该词确定为不符合规范词。因此,可以使得对不符合规范词的识别更加准确,并且使得进行替换后的第一翻译文本更流畅,更合理,从而使得后续的翻译更加准确,正确率更高。
可选地,上述步骤206具体可以通过下述的步骤206a和206b实现。
步骤206a、获取至少一个不符合规范词对应的第一词集合。
其中,第一词集合可以包括:多个词子集。一个词子集中可以包括至少一个不符合规范词中的一个或多个不符合规范词,每个不符合规范词对应一个符合规范词集合。
可以理解,若至少一个不符合规范词中包含多个不符合规范词,则该多个不符合规范词中的每个不符合规范词所对应的符合规范词集合可以相同,也可以不同。
例如,上述至少一个不符合规范词中包含不符合规范词“己经”和不符合规范词“巳经”,不符合规范词“己经”对应的符合规范词集合可以为包含符合规范词“已经”的集合,不符合规范词“巳经”对应的符合规范词集合也可以为包含符合规范词“已经”的集合。
步骤206b、针对多个词子集中的每个词子集,在第一翻译文本中将一个词子集与一个词子集中的每个不符合规范词对应的符合规范词集合进行还原映射,以生成至少一个第二翻译文本。
本申请实施例中,“将一个词子集与一个词子集中的每个不符合规范词对应的符合规范词集合进行还原映射”可以理解为:将上述一个词子集中的每个不符合规范词依次还原为其所对应的符合规范词集合中的每个符合规范词,并遍历所有的符合规范词还原组合。
例如,第一翻译文本为:一想到明天就要告别xiaoyuan,我的心中就涌起了申申的眷恋之情。其中,包含不符合规范词“xiaoyuan”和不符合规范词“申申”。不符合规范词“xiaoyuan”对应的符合规范词集合包括:校园,小院;不符合规范词“申申”对应的符合规范词集合包括:深深,审审。那么,样本构建装置可以将每个不符合规范词对应的符合规范词集合进行还原映射,得到6个第二翻译文本,分别为:一想到明天就要告别校园,我的心中就涌起了申申的眷恋之情;一想到明天就要告别校园,我的心中就涌起了深深的眷恋之情;一想到明天就要告别校园,我的心中就涌起了审审的眷恋之情;一想到明天就要告别小院,我的心中就涌起了申申的眷恋之情;一想到明天就要告别小院,我的心中就涌起了深深的眷恋之情;一想到明天就要告别校园,我的心中就涌起了审审的眷恋之情。
如此,由于样本构建装置可以将第一翻译文本中的不符合规范词还原为所有有可能的符合规范词,以生成至少一个第二翻译文本,因此可以尽可能的修正第一翻译文本中的不符合规范词,使得后续得到的译文更加准确、通顺。
步骤207、将第一翻译文本对应的第一特征信息和M个第二翻译文本中的X个第二翻译文本对应的第二特征信息输入第一翻译模型进行文本翻译,以得到目标译文。
其中,第一特征信息包括第一翻译文本的文本特征信息和第一翻译文本中的不符合规范词所对应的规范类型标签的特征信息,第二特征信息包括第二翻译文本的文本特征信息和第二翻译文本中的不符合规范词所对应的规范类型标签的特征信息。
本申请实施例中,第一翻译模型是基于目标训练样本集训练得到的,目标训练样本集包括多个目标训练样本,一个目标训练样本对应平行语料训练样本集中的一个平行语料训练样本,M、X为正整数,且X小于或等于M。
可选地,上述步骤207具体可以通过下述的步骤207a和步骤207b实现。
步骤207a、将M个第二翻译文本中的X个第二翻译文本和第一翻译文本输入第一翻译模型进行文本翻译,输出L个候选译文。
其中,L个候选译文包括X个第二翻译文本对应的候选译文以及第一翻译文本对应的候选译文,一个候选译文对应至少一个第二翻译文本,L为正整数,且L小于等于X。
可以理解,由于增强后的翻译模型可以对不同扩展形式的不符合规范词语做出相同的翻译,因此翻译模型输出的候选译文数量小于输入的第二翻译文本的数量。
示例性地,如图4所示,在增强翻译模型中输入原始文本(即第一翻译文本)“両親は学校に勤める(父母在学校工作)”时,可以翻译得到“父母在学校工作”目标译文。
当在增强翻译模型中输入扩展文本1“両亲は學校につとめる(父母在学校工作)”,即将原始文本中的“両親(两亲)”替换为与易混淆词重组的形式(即其规范类型标签为易混淆词-重组)“両亲(两亲)”,将“学校”替换为含有同源词和繁体的形式(即其规范类型标签为同源词-繁体)“學校(学校)”,将“勤める(工作)”替换为含有拼音读写的形式(即其规范类型标签为拼音读写-平假名)“つとめる(gongzuo)”,也可以翻译得到“父母在学校工作”目标译文。
当在增强翻译模型中输入扩展文本2“兩親はがっこうにツトメル(父母在学校工作)”,即将原始文本中的“両親(两亲)”替换为与易混淆词繁体的形式(即其规范类型标签为易混淆词-繁体)“兩親(两亲)”,将“学校”替换为含有拼音读写的形式(即其规范类型标签为拼音读写-平假名)“がっこう(xuexiao)”,将“勤める(工作)”替换为含有拼音读写的形式(即其规范类型标签为拼音读写-片假名)“ツトメル(gongzuo)”,也可以翻译得到“父母在学校工作”目标译文。
步骤207b、将L个候选译文中,满足第一条件的候选译文确定为目标译文。
可选地,满足第一条件的候选译文可以包括以下至少之一:
情况1:流畅度满足第一预定条件的候选译文;
情况2:翻译质量满足第二预定条件的候选译文;
情况3:相关度满足第三预定条件的候选译文。
其中,上述相关度包括以下至少一项:先验概率,相似度,困惑度。
示例性地,第一预定条件可以为候选译文的困惑度小于或等于第三预设阈值。可以理解,候选译文的困惑度越低,表示该候选译文的流畅度越高,越合理。
示例性地,针对情况1,样本构建装置可以通过语言模型分别计算L个候选译文的困惑度,将困惑度小于或等于第三预设阈值的候选译文确定为目标译文。
示例性地,第二预定条件可以为候选译文的翻译质量大于或等于第四预设阈值。可以理解,样本构建装置可以将翻译质量大于或等于第四预设阈值的候选译文确定为目标译文。
示例性地,第三预定条件可以为候选译文的相关度大于或等于第五预设阈值。可以理解,样本构建装置可以将相关度大于或等于第五预设阈值的候选译文确定为目标译文。
应注意的是,若存在候选译文满足第一条件中的多个预定条件,则样本构建装置可以将满足最多预定条件的候选译文确定为目标译文。
如此,由于样本构建装置可以基于候选译文的流畅度、翻译质量和相关度,将评价结果最优的候选译文确定为目标译文,因此可以使得输出的目标译文最佳。
可选地,样本构建装置可以通过表示和特征学习法来评估候选译文的翻译质量。
示例性地,在上述步骤207a之后,本申请实施例提供的样本构建方法还可以包括下述的步骤207c和步骤207d。
步骤207c、针对L个候选译文中的每个候选译文,提取一个候选译文的第一文本特征信息,以及一个候选译文对应的第一翻译文本以及第一翻译文本的第二文本特征信息。
示例性地,第一文本特征信息可以包括候选译文的词法、句法结构等特征。
示例性地,第二文本特征信息可以包括第二翻译文本和第一翻译文本的词法、句法结构等特征。
示例性地,样本构建装置可以通过训练目标语种的分词模型,提取候选译文的第一文本特征信息,并通过原语种分词模型分别提取候选译文对应的第二翻译文本以及第一翻译文本的第二文本特征信息。
步骤207d、基于第一文本特征信息和第二文本特征信息,计算出一个候选译文对应的翻译质量参数。
示例性地,样本构建装置可以利用回归算法计算翻译结果的质量。
示例性地,一个候选译文对应的翻译质量参数可以为回归算法的结果数值。
可以理解,回归算法可以输出候选译文质量好坏的概率:回归算法的结果越接近1则表示该候选译文的质量越好,回归算法的结果越接近0则表示该候选译文的质量越差。
如此,由于样本构建装置可以基于一个候选译文的第一文本特征信息,以及一个候选译文对应的第一翻译文本以及第一翻译文本的第二文本特征信息,计算出一个候选译文对应的翻译质量参数,因此可以筛选出翻译质量较好的候选译文。
可选地,上述候选译文的相关度可以由下述的6的评价指标加权得到:
①将候选译文对应的第二翻译文本中的扩展词根据其扩展类型、与第一翻译文本中对应的不符合规范词的相似度、与第一翻译文本中对应的不符合规范词的词频等,给出先验概率,筛选出概率较高的候选译文。(例:若仅考虑扩展类型,设读音拼写、同源词、易混淆词的先验概率为[0.7,0.2,0.1],读音拼写中平假名、片假名的先验概率为[0.8,0.2],则读音拼写-平假名的先验概率为0.7*0.8=0.56)。②将候选译文对应的第二翻译文本输入分词模型,计算词语切分和词法、句法结构等标注信息与第一翻译文本的相似度,并筛选相似度较高的第二翻译文本对应的候选译文。③将第二翻译文本与第一翻译文本通过语言模型计算困惑度,筛选出困惑度较第一翻译文本困惑度降低,且困惑度差值超过第二预设阈值的第一翻译文本对应的候选译文。④将候选译文输入分词模型,计算词语切分和词法、句法结构等标注信息与第一翻译文本对应的候选译文的相似度,并筛选相似度较高的候选译文。⑤计算所有候选译文之间的字符串相似度,筛选出相似度较高的候选译文。⑥计算所有候选译文中的扩展词语对应的译文之间的相似度。
需要说明的是,评价指标④可以由第一翻译文本对应的候选译文的其他评价指标决定,若待翻译文对应候选译文的流畅度与翻译质量较差,指标④对应的权值也会相应的降低。
进一步地,由于通过增强的翻译模型,不同的第二翻译文本可以得到相同的候选译文,则该候选译文的相关度可以由该不同的第二翻译文本对应的候选译文的评价指标加权得到。
可选地,在上述步骤207之前,本申请实施例提供的样本构建方法还可以通过用于计算候选译文的相关度的评价指标①~③,来对至少一个第二翻译文本进行筛选,筛选出M个第二翻译文本中的X个第二翻译文本,以提高实际翻译时的效率,降低样本构建装置的功耗。
本申请实施例提供的样本构建方法中,一方面,由于本申请可以将第一翻译文本中的不符合规范词还原为至少一个符合规范词,生成至少一个第二翻译文本,因此可以使得将包含不符合规范词的第一翻译文本还原为规范的第一翻译文本,避免由于不符合规范词的存在而导致的翻译错误;另一方面,由于本申请在将第一翻译文本输入翻译模型进行翻译时,可以规范的部分或全部第二翻译文本和原始的第一翻译文本同时输入翻译模型,从而能够输出准确度更高的译文作为翻译结果。如此,本申请实施例提供的样本构建方法可以提高翻译模型翻译的准确性。
可选地,在上述步骤206之前,本申请实施例提供的样本构建方法还可以包括下述的步骤208。
步骤208、将第一翻译文本输入第一分词模型后,对第一翻译文本进行分词,得到K个分词,并对K个分词中的每个分词进行不符合规范词识别,得到每个分词对应的识别结果。
其中,一个分词对应的识别结果用于表征一个分词是否属于不符合规范词,在一个分词属于不符合规范词的情况下,一个分词对应的识别结果包括一个分词所对应的规范类型。
本申请实施例中,第一分词模型是基于目标训练样本集训练得到的,K为大于1的整数。
示例性地,样本构建装置还可以使用上述方法2中训练得到的分词模型,对增强文本中的不符合规范词进行标签预测,并在翻译模型的训练中引入相应的规范类型标签向量,使模型学习扩展词语与未登录词对应的第一关键词间的语义关系,增强对扩展词语的预测和翻译能力。
可以理解,规范类型标签向量与词向量具有相同的维度,将增强句子中的扩展词语向量与分词模型预测的规范类型标签对应的向量相加,得到该扩展词语最终的表示向量。
具体的,以日语为例,如表3所示,扩展词有读音拼写、同源词、易混淆词等类型,每个类型下还有平假名、片假名、简中、繁中、重组等细分类型,故词语规范类型标签类型形成有多种组合。在训练过程中,可以对各个规范类型标签向量进行随机初始化,也可以使用标签各组成词条(如:读音拼写、同源词、平假名、片假名等)对应词向量的加权平均作为初始向量,并通过模型训练对规范类型标签向量进行迭代优化。
需要说明的是,分词模型对扩展词语的标签预测,可能与该词语替换的真实扩展形式的标签不同,但对于这些规范类型标签预测错误增强句子并未进行纠正,而是按一定比例予以保留,从而增强翻译模型的鲁棒性,使模型能够学习在输入错误的扩展词语标签时,仍然可以输出正确译文的能力。
可选地,样本构建装置可以使用平行语料训练样本与目标训练样本,对基础的翻译模型进行增强训练。
可以理解,每个原始文本和与其对应的所有扩展文本对应的输出译文均相同,从而使得翻译模型增强对不规范表达的翻译鲁棒性。
示例性地,增强的翻译模型可以生成包含扩展词的词向量表和规范类型标签向量表。
本申请实施例中,在样本构建装置将至少一个第二翻译文本中的N个第二翻译文本和第一翻译文本输入翻译模型之后,可以先通过增强的分词模型,对输入的文本进行切分,识别不符合规范词,并对不符合规范词语的扩展形式进行预测。然后,通过查询向量表,将输入的文本对应的符合规范词向量、扩展词向量和规范类型标签向量输入模型,如图4所示,得到生成的译文。
如此,一方面,在数据层面上,样本构建装置可以基于扩展词表构造对抗训练数据对翻译模型进行增强训练;另一方面,在模型层面上,样本构建装置在输入编码层融入规范类型标签向量,让模型在训练时学习不符合规范词的扩展形式和不符合规范词与其对应的符合规范词在文本中的语义相关性。如此,可以提升翻译模型对包含不符合规范词的第一翻译文本的翻译鲁棒性和翻译质量,从而使得无论第一翻译文本中是否包含不符合规范词时,翻译模型都可以输出正确的译文。
可选地,在上述步骤201之后,本申请实施例提供的样本构建方法还可以包括下述的步骤301和步骤302。上述步骤202具体可以通过下述的步骤a实现。
步骤301、显示第一不符合规范词对应的每个符合规范词。
其中,第一不符合规范词可以为至少一个不符合规范词中的一个或多个不符合规范词。也就是说,上述第一不符合规范词可以为一个或多个不符合规范词。
示例性地,样本构建装置可以将第一不符合规范词对应的每个符合规范词按相关度从高到低的顺序进行显示。
示例性地,样本构建装置可以通过下述的公式(2)计算第一不符合规范词对应的每个符合规范词的相关度。
S(W)=αS1(W)+βS2(W)+γS3(W) (公式2)
其中,S1(W)为扩展词表中不符合规范词对应的先验概率;S2(W)为不符合规范词与其还原后的符合规范词的词法相似度;S3(W)为不符合规范词还原;α、β、γ为可调权重系数。
例如,对于S2(W),若仅考虑词性,若不符合规范词与其还原后的符合规范词的词法相同,则S2(W)可以为1,若不符合规范词与其还原后的符合规范词的词法不同,则S2(W)可以为0。
步骤302、接收对显示的符合规范词中的目标符合规范词的第一输入。
示例性地,上述目标符合规范词为显示的符合规范词中一个或多个符合规范词。
一种示例中,上述目标符合规范词可以为同一不符合规范词对应的符合规范词。
一种示例中,上述目标符合规范词可以包含多个不同不符合规范词对应的符合规范词。
一种示例中,在上述目标符合规范词包含多个不符合规范词对应的符合规范词的情况下,样本构建装置会将用户选择的每个符合规范词均进行还原。
示例性地,上述目标符合规范词可以为用户选择的替换不符合规范词的符合规范词。
示例性地,上述第一输入用于从显示的符合规范词中选择需要还原地符合规范词。
示例性地,上述第一输入可以为用户对目标符合规范词的触控输入、特定语音输入或特定手势输入,本申请实施例对此不作限定。
例如,第一输入可以为用户对目标符合规范词的点击输入。
步骤a、响应于第一输入,将第一翻译文本中的第一不符合规范词还原为目标符合规范词,以生成至少一个第二翻译文本。
示例性地,若第一翻译文本中存在未被用户进行手动还原的不符合规范词,则电子设备可以将其按照上述的相关步骤进行还原,以生成至少一个第二翻译文本。
示例性地,如图5中的(a)所示,样本构建装置可以显示第一不符合规范词“りょうしん(liangqin)”对应的符合规范词“両親(两亲)”和“良心”。然后,样本构建装置接收用户对目标符合规范词“両親(两亲)”的点击输入(即第一输入),如图5中的(b)所示,将不符合规范词“りょうしん(liangqin)”还原为目标符合规范词“両親(两亲)”,生成第二翻译文本“りょうしんは学校に勤める(两亲/父母在学校工作)”。
如此,由于样本构建装置可以显示不符合规范词对应的符合规范词,由用户通过第一输入选择所要进行还原的目标符合规范词,因此可以使得生成的第二翻译文本响应的减少,从而降低翻译所需的功耗。
可选地,本申请实施例提供的样本构建方法可以根据不同语言的语言学特征构建相应的扩展词表,以应用于不同的翻译语言和语向。
本申请实施例提供了一种样本构建方法,图6示出了本申请实施例提供的一种翻译模型进行翻译的流程图,该翻译模型为经过目标训练样本训练得到的翻译模型。如图6所示,本申请实施例提供的样本构建方法可以包括下述的步骤601至步骤607。
步骤601、获取待翻译文本。
步骤602、自动识别待翻译文本中是否存在不符合规范词。
步骤603、在待翻译文本中存在不符合规范词的情况下,将不符合规范词的还原结果按可信度排序,并呈现给用户。
步骤604、响应于用户选择不符合规范词的还原结果的第一输入,将不符合规范词进行还原,生成至少一个第二翻译文本。
步骤605、将用户未选择还原结果的不符合规范词进行还原,生成至少一个第二翻译文本。
步骤606、将至少一个第二翻译文本输入第一翻译模型进行文本翻译,得到至少一个候选译文。
步骤607、从至少一个候选译文中,确定出目标译文,并输出目标译文。
本申请实施例提供的样本构建方法,执行主体可以为样本构建装置。本申请实施例中以样本构建装置执行样本构建方法为例,说明本申请实施例提供的样本构建装置。
图7示出了本申请实施例中涉及的样本构建装置的一种可能的结构示意图。如图7所示,该样本构建装置70可以包括:获取模块71,处理模块72和构建模块73。
其中,上述获取模块71,用于获取平行语料训练样本,平行语料训练样本包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签;上述处理模块72,用于将获取模块71获取的平行语料训练样本中的原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;上述处理模块72,还用于将获取模块71获取的平行语料训练样本中的第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的平行语料训练样本;上述构建模块73,用于基于处理模块72处理后的替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本。
一种可能的实现方式,平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本;上述处理模块72,具体用于:
基于原始文本中的每个关键词在平行语料训练样本集中的词频,从原始文本中确定至少一个第一关键词,将原始文本中的至少一个第一关键词中的每个第一关键词替换为各自对应的第一不符合规范词,以生成第一扩展文本;
其中,第一扩展文本为至少一个扩展文本中的任一扩展文本。
一种可能的实现方式,平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本,扩展文本的数量为N,N为正整数;
上述处理模块72,还用于在将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本之后,在N个扩展文本中的第二扩展文本中包含未收录在平行语料训练样本集中的未登录词的情况下,对未登陆词的词特征信息进行初始化;
其中,初始化的过程包括以下之一:
按照未登录词对应的第一关键词,和N个扩展文本中的每个扩展文本中未登录词对应的第一关键词所对应的每个不符合规范词在平行语料训练样本集中的词频,对未登录词的词特征信息进行加权平均;
使用未登录词对应的同源词的特征信息,对未登录词的特征信息进行加权平均;
将未登录词的特征信息置为0;
将为登录词的特征信息随机初始化。
一种可能的实现方式,平行语料样本为平行语料样本集中的一个平行语料训练样本;上述装置还包括:翻译模块;
上述处理模块72,还用于在构建模块73基于替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本之后,将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本,一个不符合规范词还原为至少一个规范词;
上述翻译模块,用于将第一翻译文本中对应的第一特征信息和处理模块72得到的M个第二翻译文本中的X个第二翻译文本对应的第二特征信息输入第一翻译模型进行文本翻译,以得到目标译文,第一特征信息包括第一翻译文本的文本特征信息和第一翻译文本中的不符合规范词所对应的规范类型标签的特征信息,第二特征信息包括第二翻译文本的文本特征信息和第二翻译文本中的不符合规范词所对应的规范类型标签的特征信息;
其中,第一翻译模型是基于目标训练样本集训练得到的,目标训练样本集包括多个目标训练样本,一个目标训练样本对应平行语料训练样本集中的一个平行语料训练样本,M、X为正整数,且X小于或等于M。
一种可能的实现方式,上述装置还包括:分词模块;
上述分词模块,用于在处理模块72将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本之前,将第一翻译文本输入第一分词模型后,对第一翻译文本进行分词,得到K个分词,并对K个分词中的每个分词进行不符合规范词识别,得到每个分词对应的识别结果,一个分词对应的识别结果用于表征一个分词是否属于不符合规范词,在一个分词属于不符合规范词的情况下,一个分词对应的识别结果包括一个分词所对应的规范类型;
其中,第一分词模型是基于目标训练样本集训练得到的,K为大于1的整数。
一种可能的实现方式,不符合规范词包括以下至少一种情况:包含拼音读写、包含错别字、包含同源字替换、包含字形错误。
本申请实施例提供一种样本构建装置,由于样本构建装置可以对平行语料训练样本中的原始文本中的关键词进行替换,生成至少一个扩展文本,以扩大平行语料训练样本所覆盖的词汇范围;同时,并将该关键词所对应的规范类型标签替换为不符合规范词所对应的规范类型标签,获得替换标签后的平行语料训练样本,以丰富平行语料训练样本所包含的内容。最后,样本构建装置可以基于替换标签后的平行语料训练样本和至少一个扩展文本,构建得到目标训练样本。因此可以使得目标训练样本中包含不符合规范词及其所对应的规范类型标签,从而可以丰富平行语料训练样本的内容,使得平行语料训练样本具有更多更灵活的训练内容。
本申请实施例中的样本构建装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的样本构建装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的样本构建装置能够实现图2至图6的方法实施例实现的各个过程,达到相同的技术效果,为避免重复,这里不再赘述。
可选地,如图8所示,本申请实施例还提供一种电子设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述样本构建方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图9为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,上述处理器910,用于:获取平行语料训练样本,平行语料训练样本包含原始文本并携带原始文本中的每个关键词所对应的规范类型标签;将获取的平行语料训练样本中的原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;将获取的平行语料训练样本中的第一关键词所对应的第一规范类型标签替换为第一不符合规范词所对应的第二规范类型标签,获得替换标签后的平行语料训练样本;基于替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本。
可选地,平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本;上述处理器910,具体用于:
基于原始文本中的每个关键词在平行语料训练样本集中的词频,从原始文本中确定至少一个第一关键词,将原始文本中的至少一个第一关键词中的每个第一关键词替换为各自对应的第一不符合规范词,以生成第一扩展文本;
其中,第一扩展文本为至少一个扩展文本中的任一扩展文本。
可选地,平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本,扩展文本的数量为N,N为正整数;
上述处理器910,还用于在将原始文本中的第一关键词替换为第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本之后,在N个扩展文本中的第二扩展文本中包含未收录在平行语料训练样本集中的未登录词的情况下,对未登陆词的词特征信息进行初始化;
其中,初始化的过程包括以下之一:
按照未登录词对应的第一关键词,和N个扩展文本中的每个扩展文本中未登录词对应的第一关键词所对应的每个不符合规范词在平行语料训练样本集中的词频,对未登录词的词特征信息进行加权平均;
使用未登录词对应的同源词的特征信息,对未登录词的特征信息进行加权平均;
将未登录词的特征信息置为0;
将为登录词的特征信息随机初始化。
可选地,平行语料样本为平行语料样本集中的一个平行语料训练样本;
上述处理器910,还用于在基于替换标签后的平行语料训练样本与至少一个扩展文本,构建目标训练样本之后,将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本,一个不符合规范词还原为至少一个规范词;
上述处理器910,还用于将第一翻译文本中对应的第一特征信息和处理器910得到的M个第二翻译文本中的X个第二翻译文本对应的第二特征信息输入第一翻译模型进行文本翻译,以得到目标译文,第一特征信息包括第一翻译文本的文本特征信息和第一翻译文本中的不符合规范词所对应的规范类型标签的特征信息,第二特征信息包括第二翻译文本的文本特征信息和第二翻译文本中的不符合规范词所对应的规范类型标签的特征信息;
其中,第一翻译模型是基于目标训练样本集训练得到的,目标训练样本集包括多个目标训练样本,一个目标训练样本对应平行语料训练样本集中的一个平行语料训练样本,M、X为正整数,且X小于或等于M。
可选地,上述处理器910,用于将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本之前,将第一翻译文本输入第一分词模型后,对第一翻译文本进行分词,得到K个分词,并对K个分词中的每个分词进行不符合规范词识别,得到每个分词对应的识别结果,一个分词对应的识别结果用于表征一个分词是否属于不符合规范词,在一个分词属于不符合规范词的情况下,一个分词对应的识别结果包括一个分词所对应的规范类型;
其中,第一分词模型是基于目标训练样本集训练得到的,K为大于1的整数。
可选地,不符合规范词包括以下至少一种情况:包含拼音读写、包含错别字、包含同源字替换、包含字形错误。
本申请实施例提供一种电子设备,由于电子设备可以将平行语料训练样本中的原始文本中的关键词替换为该关键词对应的至少一个不符合规范词,生成至少一个扩展文本,并将该关键词所对应的规范类型标签替换为不符合规范词所对应的规范类型标签,获得替换标签后的平行语料训练样本。然后,电子设备可以基于替换标签后的平行语料训练样本和至少一个扩展文本,构建得到目标训练样本。因此可以使得目标训练样本中包含不符合规范词及其所对应的规范类型标签,从而使得经过目标训练样本训练得到的翻译模型可以对不符合规范词进行翻译,提高翻译模型翻译的准确性。
应理解的是,本申请实施例中,输入单元904可以包括图形处理器(GraphicsProcessing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072中的至少一种。触控面板9071,也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器909可以包括易失性存储器或非易失性存储器,或者,存储器909可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器909包括但不限于这些和任意其它适合类型的存储器。
处理器910可包括一个或多个处理单元;可选的,处理器910集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述样本构建方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述样本构建方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述样本构建方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (14)

1.一种样本构建方法,其特征在于,所述方法包括:
获取平行语料训练样本,所述平行语料训练样本包含原始文本并携带所述原始文本中的每个关键词所对应的规范类型标签;
将所述原始文本中的第一关键词替换为所述第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;
将所述第一关键词所对应的第一规范类型标签替换为所述第一不符合规范词所对应的第二规范类型标签,获得替换标签后的所述平行语料训练样本;
基于替换标签后的所述平行语料训练样本与所述至少一个扩展文本,构建目标训练样本。
2.根据权利要求1所述的方法,其特征在于,所述平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本;
所述将所述原始文本中的第一关键词替换为所述第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本,包括:
基于所述原始文本中的每个关键词在所述平行语料训练样本集中的词频,从所述原始文本中确定至少一个第一关键词,将所述原始文本中的所述至少一个第一关键词中的每个第一关键词替换为各自对应的第一不符合规范词,以生成第一扩展文本;
其中,所述第一扩展文本为所述至少一个扩展文本中的任一扩展文本。
3.根据权利要求1所述的方法,其特征在于,所述平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本,所述扩展文本的数量为N,N为正整数;
所述将所述原始文本中的第一关键词替换为所述第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本之后,所述方法还包括:
在N个扩展文本中的第二扩展文本中包含未收录在所述平行语料训练样本集中的未登录词的情况下,对所述未登录词的特征信息进行初始化;
其中,所述初始化的过程包括以下至少之一:
按照所述未登录词对应的第一关键词,和所述N个扩展文本中的每个扩展文本中所述未登录词对应的第一关键词所对应的每个不符合规范词在所述平行语料训练样本集中的词频,对所述未登录词的特征信息进行加权平均;
使用所述未登录词对应的同源词的特征信息,对所述未登录词的特征信息进行加权平均;
将所述未登录词的特征信息置为0;
将所述未登录词的特征信息随机初始化。
4.根据权利要求1所述的方法,其特征在于,所述平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本;
所述基于替换标签后的所述平行语料训练样本与所述至少一个扩展文本,构建目标训练样本之后,所述方法还包括:
将第一翻译文本中的扩展文本中的每个扩展文本中还原为规范词,以生成M个第二翻译文本,一个不符合规范词还原为至少一个规范词;
将所述第一翻译文本对应的第一特征信息和所述M个第二翻译文本中的X个第二翻译文本对应的第二特征信息输入第一翻译模型进行文本翻译,以得到目标译文,所述第一特征信息包括所述第一翻译文本的文本特征信息和所述第一翻译文本中的不符合规范词所对应的规范类型标签的特征信息,所述第二特征信息包括所述第二翻译文本的文本特征信息和所述第二翻译文本中的不符合规范词所对应的规范类型标签的特征信息;
其中,所述第一翻译模型是基于目标训练样本集训练得到的,所述目标训练样本集包括多个所述目标训练样本,一个所述目标训练样本对应所述平行语料训练样本集中的一个平行语料训练样本,M、X为正整数,且X小于或等于M。
5.根据权利要求4所述的方法,其特征在于,所述将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本之前,所述方法还包括:
将所述第一翻译文本输入第一分词模型后,对所述第一翻译文本进行分词,得到K个分词,并对所述K个分词中的每个分词进行不符合规范词识别,得到所述每个分词对应的识别结果,一个分词对应的识别结果用于表征所述一个分词是否属于不符合规范词,在所述一个分词属于不符合规范词的情况下,所述一个分词对应的识别结果包括所述一个分词所对应的规范类型;
其中,所述第一分词模型是基于目标训练样本集训练得到的,K为大于1的整数。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述不符合规范词包括以下至少一种情况:包含读音拼写、包含错别字、包含同源字替换、包含字形错误。
7.一种样本构建装置,其特征在于,所述装置包括:获取模块,处理模块和构建模块;
所述获取模块,用于获取平行语料训练样本,所述平行语料训练样本包含原始文本并携带所述原始文本中的每个关键词所对应的规范类型标签;
所述处理模块,用于将所述获取模块获取的所述平行语料训练样本中的所述原始文本中的第一关键词替换为所述第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本;
所述处理模块,还用于将所述获取模块获取的所述平行语料训练样本中的所述第一关键词所对应的第一规范类型标签替换为所述第一不符合规范词所对应的第二规范类型标签,获得替换标签后的所述平行语料训练样本;
所述构建模块,用于基于所述处理模块处理后的替换标签后的所述平行语料训练样本与所述至少一个扩展文本,构建目标训练样本。
8.根据权利要求7所述的装置,其特征在于,所述平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本;
所述处理模块,具体用于:
基于所述原始文本中的每个关键词在所述平行语料训练样本集中的词频,从所述原始文本中确定至少一个第一关键词,将所述原始文本中的所述至少一个第一关键词中的每个第一关键词替换为各自对应的第一不符合规范词,以生成第一扩展文本;
其中,所述第一扩展文本为所述至少一个扩展文本中的任一扩展文本。
9.根据权利要求7所述的装置,其特征在于,所述平行语料训练样本为平行语料训练样本集中的一个平行语料训练样本,所述扩展文本的数量为N,N为正整数;
所述处理模块,还用于在将所述原始文本中的第一关键词替换为所述第一关键词对应的至少一个第一不符合规范词,以生成至少一个扩展文本之后,在N个所述扩展文本中的第二扩展文本中包含未收录在所述平行语料训练样本集中的未登录词的情况下,对所述未登陆词的词特征信息进行初始化;
其中,所述初始化的过程包括以下之一:
按照所述未登录词对应的第一关键词,和所述N个扩展文本中的每个扩展文本中所述未登录词对应的第一关键词所对应的每个不符合规范词在所述平行语料训练样本集中的词频,对所述未登录词的词特征信息进行加权平均;
使用所述未登录词对应的同源词的特征信息,对所述未登录词的特征信息进行加权平均;
将所述未登录词的特征信息置为0;
将所述为登录词的特征信息随机初始化。
10.根据权利要求7所述的装置,其特征在于,所述平行语料样本为平行语料样本集中的一个平行语料训练样本;
所述装置还包括:翻译模块;
所述处理模块,还用于在所述构建模块基于替换标签后的所述平行语料训练样本与所述至少一个扩展文本,构建目标训练样本之后,将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本,一个不符合规范词还原为至少一个规范词;
所述翻译模块,用于将所述第一翻译文本中对应的第一特征信息和所述处理模块得到的所述M个第二翻译文本中的X个第二翻译文本对应的第二特征信息输入第一翻译模型进行文本翻译,以得到目标译文,所述第一特征信息包括所述第一翻译文本的文本特征信息和所述第一翻译文本中的不符合规范词所对应的规范类型标签的特征信息,所述第二特征信息包括所述第二翻译文本的文本特征信息和所述第二翻译文本中的不符合规范词所对应的规范类型标签的特征信息;
其中,所述第一翻译模型是基于目标训练样本集训练得到的,所述目标训练样本集包括多个所述目标训练样本,一个所述目标训练样本对应所述平行语料训练样本集中的一个平行语料训练样本,M、X为正整数,且X小于或等于M。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:分词模块;
所述分词模块,用于在所述处理模块将第一翻译文本中的至少一个不符合规范词还原为规范词,以生成M个第二翻译文本之前,将所述第一翻译文本输入第一分词模型后,对所述第一翻译文本进行分词,得到K个分词,并对所述K个分词中的每个分词进行不符合规范词识别,得到所述每个分词对应的识别结果,一个分词对应的识别结果用于表征所述一个分词是否属于不符合规范词,在所述一个分词属于不符合规范词的情况下,所述一个分词对应的识别结果包括所述一个分词所对应的规范类型;
其中,所述第一分词模型是基于目标训练样本集训练得到的,K为大于1的整数。
12.根据权利要求7至10任一项所述的装置,其特征在于,所述不符合规范词包括以下至少一种情况:包含拼音读写、包含错别字、包含同源字替换、包含字形错误。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6任一项所述的样本构建方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的样本构建方法的步骤。
CN202310085121.XA 2023-02-08 2023-02-08 样本构建方法、装置、电子设备及可读存储介质 Pending CN116089569A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310085121.XA CN116089569A (zh) 2023-02-08 2023-02-08 样本构建方法、装置、电子设备及可读存储介质
PCT/CN2024/075789 WO2024164976A1 (zh) 2023-02-08 2024-02-04 样本构建方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310085121.XA CN116089569A (zh) 2023-02-08 2023-02-08 样本构建方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116089569A true CN116089569A (zh) 2023-05-09

Family

ID=86213758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310085121.XA Pending CN116089569A (zh) 2023-02-08 2023-02-08 样本构建方法、装置、电子设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN116089569A (zh)
WO (1) WO2024164976A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024164976A1 (zh) * 2023-02-08 2024-08-15 维沃移动通信有限公司 样本构建方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN107315734B (zh) * 2017-05-04 2019-11-26 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN110210035B (zh) * 2019-06-04 2023-01-24 苏州大学 序列标注方法、装置及序列标注模型的训练方法
CN113468856A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 变异文本的生成、翻译模型的训练、文本分类方法和装置
CN113434650B (zh) * 2021-06-29 2023-11-14 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN114201975B (zh) * 2021-10-26 2024-04-12 中国科学技术大学 翻译模型训练方法和翻译方法及其装置
CN116089569A (zh) * 2023-02-08 2023-05-09 维沃移动通信有限公司 样本构建方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024164976A1 (zh) * 2023-02-08 2024-08-15 维沃移动通信有限公司 样本构建方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
WO2024164976A1 (zh) 2024-08-15

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
JP3531468B2 (ja) 文書処理装置及び方法
US7630880B2 (en) Japanese virtual dictionary
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20050086590A1 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN109800414A (zh) 语病修正推荐方法及系统
WO2001035249A2 (en) Language input architecture for converting one text form to another text form with modeless entry
CN103314369B (zh) 机器翻译装置和方法
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
WO2022135474A1 (zh) 信息推荐方法、装置及电子设备
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
WO2024164976A1 (zh) 样本构建方法、装置、电子设备及可读存储介质
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
KR20230061001A (ko) 문서 교정 장치 및 방법
Singh et al. Systematic review of spell-checkers for highly inflectional languages
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
Sharma et al. Word prediction system for text entry in Hindi
Jamro Sindhi language processing: A survey
CN116306594A (zh) 一种医学ocr识别纠错方法
WO2022227166A1 (zh) 词语替换方法、装置、电子设备和存储介质
Turcato et al. Pre-processing closed captions for machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination