CN110941964A - 双语语料筛选方法、装置及存储介质 - Google Patents

双语语料筛选方法、装置及存储介质 Download PDF

Info

Publication number
CN110941964A
CN110941964A CN201911269664.7A CN201911269664A CN110941964A CN 110941964 A CN110941964 A CN 110941964A CN 201911269664 A CN201911269664 A CN 201911269664A CN 110941964 A CN110941964 A CN 110941964A
Authority
CN
China
Prior art keywords
bilingual
corpus
pair
language
corpora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911269664.7A
Other languages
English (en)
Other versions
CN110941964B (zh
Inventor
李京蔚
孙于惠
李响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201911269664.7A priority Critical patent/CN110941964B/zh
Publication of CN110941964A publication Critical patent/CN110941964A/zh
Priority to US16/891,705 priority patent/US11436419B2/en
Priority to JP2020117293A priority patent/JP7097409B2/ja
Priority to KR1020200085174A priority patent/KR102398529B1/ko
Priority to EP20185703.4A priority patent/EP3835999A1/en
Application granted granted Critical
Publication of CN110941964B publication Critical patent/CN110941964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请是关于一种双语语料筛选方法、装置及存储介质,涉及神经机器翻译技术领域。该方法包括:首先,获取多对双语语料,基于多对双语语料,训练机器翻译模型,获得各对双语语料各自的第一特征,基于多对双语语料,训练语言模型,获得各对双语语料各自的特征向量,并确定各对双语语料各自的第二特征,根据各对双语语料的第一特征和各对双语语料的第二特征,确定各对双语语料各自的质量数值,最后,根据各对双语语料的质量数值,对各对双语语料进行筛选;通过上述方案,避免了无法对部分双语语料进行过滤筛选的问题,提高了清洗语料的数据量,提高了双语语料清洗的效率。

Description

双语语料筛选方法、装置及存储介质
技术领域
本公开涉及神经机器翻译技术领域,特别是涉及一种双语语料筛选方法、装置及存储介质。
背景技术
目前,在神经机器翻译领域,需要大量的语料对模型进行训练,语料的质量很大程度的影响了模型的质量,所以通过对语料进行清洗来维护语料质量就尤为重要。
如今,语料的清洗方法主要是依赖于人工规则或者基于统计结果。基于人工规则的方法主要是根据语料中已经发现的问题通过正则表达式针对性的进行过滤或者根据语料的编码范围进行过滤。基于统计结果的方法主要是通过对语料中的词频进行统计,将包含有低频词的语料进行删除来达到清洗语料的目的。
然而,基于上述两种方法进行语料清洗,过滤清洗涉及到的语料的数据量是有限的,导致仅针对特定情况的语料进行清洗,从而影响清洗过滤语料的数据量,降低了语料清洗的效率。
发明内容
本公开提供一种双语语料筛选方法、装置及存储介质。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种双语语料筛选方法,其特征在于,所述方法包括:
获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
基于所述多对双语语料,训练机器翻译模型;
基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
基于所述多对双语语料,训练语言模型;
基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
可选的,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,包括:
将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。
可选的,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征,包括:
对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。
可选的,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
可选的,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。
可选的,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
可选的,所述根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值,包括:
对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。
可选的,所述根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选,包括:
按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
根据排序结果对所述各对双语语料进行筛选。
根据本公开实施例的第二方面,提供了一种双语语料筛选装置,所述装置包括:
语料获取模块,用于获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
翻译模型训练模块,用于基于所述多对双语语料,训练机器翻译模型;
第一特征获取模块,用于基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
语言模型训练模块,用于基于所述多对双语语料,训练语言模型;
第二特征确定模块,用于基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
质量确定模块,用于根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
语料筛选模块,用于根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
可选的,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述第一特征获取模块,包括:
第一概率确定子模块,用于将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
第二概率确定子模块,用于将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。
可选的,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述第二特征确定模块,包括:
第一向量获取子模块,用于对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
第二向量获取子模块,用于将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
第二特征确定子模块,用于基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。
可选的,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
可选的,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。
可选的,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
可选的,所述质量确定模块,包括:
质量确定子模块,用于对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。
可选的,所述语料筛选模块,包括:
语料排序子模块,用于按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
语料筛选子模块,用于根据排序结果对所述各对双语语料进行筛选。
根据本公开实施例的第三方面,提供了一种双语语料筛选装置,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
基于所述多对双语语料,训练机器翻译模型;
基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
基于所述多对双语语料,训练语言模型;
基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
根据本公开实施例的第四方面,提供了一种计算机设备可读存储介质,所述计算机设备可读存储介质中包含可执行指令,所述可执行指令由处理器调用执行,以实现上述第一方面或者第一方面的任一可选方案所述的双语语料筛选方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
首先,获取多对双语语料,其中每一对双语语料包含源语料和目标语料,基于多对双语语料,训练机器翻译模型,基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,基于多对双语语料,训练语言模型,基于训练后的语言模型,获得各对双语语料各自的特征向量,并确定各对双语语料各自的第二特征,然后,根据各对双语语料的第一特征和各对双语语料的第二特征,确定各对双语语料各自的质量数值,最后,根据各对双语语料的质量数值,对各对双语语料进行筛选;通过上述方案,获取各对双语语料的特征,通过各个特征综合确定质量数值,根据具体的质量数值筛选双语语料,该双语语料的筛选方法适用于各对双语语料,避免了无法对部分双语语料进行过滤筛选的问题,提高了清洗语料的数据量,提高了双语语料清洗的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种实施环境的示意图;
图2是根据一示例性实施例示出的一种双语语料筛选方法的流程图;
图3是根据另一示例性实施例示出的一种双语语料筛选方法的流程图;
图4是图3所示实施例涉及的一种降噪自编码器的结构示意图;
图5是根据一示例性实施例示出的一种双语语料筛选装置的框图;
图6是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
图1是根据一示例性实施例示出的一种实施环境的示意图。该实施环境中包括计算机设备120和服务器140。
计算机设备120与服务器140之间通过有线或无线网络相连。
服务器140是一台服务器、若干台服务器构成的服务器集群或云计算中心。
服务器140中可以有存储有双语语料的数据库。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
图2是根据一示例性实施例示出的一种双语语料筛选方法的流程图。该双语语料筛选方法可以应用于计算机设备中,比如,该计算机设备可以是图1所示的计算机设备120。如图2所示,该双语语料筛选方法可以包括以下步骤:
在步骤201中,获取多对双语语料,其中每一对双语语料包含源语料和目标语料。
在本公开实施例中,双语语料可以是存储在双语语料库中的语言材料,该双语语料可以是词语语料、短语材料、语句材料或者语篇材料。
其中,上述的双语语料库可以是以一种数据库的形式实现的,存储在服务器中或者存储在云端网络。
在步骤202中,基于该多对双语语料,训练机器翻译模型。
在本公开实施例中,机器翻译模型是用于将一种语言翻译成另一种语言的机器学习模型。
目前,机器翻译模型主要是神经网络模型,该机器翻译模型可以是基于任何架构的神经机器翻译模型,比如,该机器翻译模型可以是基于循环神经网络模型(RNN,Recurrent Neural Networks),卷积神经网络模型(CNN,Convolutional Neural Network)或者TRANSFORMER模型的神经机器翻译模型。
在步骤203中,基于训练后的机器翻译模型,获得各对双语语料各自的第一特征。
在步骤204中,基于该多对双语语料,训练语言模型。
在本公开实施例中,针对双语语料需要准备两个语言模型。其中一个语言模型对应一种语言的语料,两个语言模型分别针对源语料和目标语料。
其中,语言模型是输入一种语言的语料可以输出对输入语料进行噪声处理的该语言语料的另一种表现形式。
在步骤205中,基于训练后的语言模型,获得该各对双语语料各自的特征向量,并确定该各对双语语料各自的第二特征。
在步骤206中,根据该各对双语语料的第一特征和该各对双语语料的第二特征,确定该各对双语语料各自的质量数值。
其中,质量数值用来表示对应的双语语料的质量。
在步骤207中,根据该各对双语语料的质量数值,对该各对双语语料进行筛选。
可选的,该机器翻译模型包括第一翻译模型和第二翻译模型,该第一特征包括第一概率特征和第二概率特征;
该基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,包括:
将每一对该双语语料中的源语料输入到训练后的第一翻译模型,基于该第一翻译模型输出的结果确定该双语语料的第一概率特征,该第一概率特征为该第一翻译模型将该源语料预测为该双语语料中与该源语料对应的目标语料的概率;
将每一对该双语语料中的目标语料输入到训练后的第二翻译模型,基于该第二翻译模型输出的结果确定该双语语料的第二概率特征,该第二概率特征为该第二翻译模型将该目标语料预测为该双语语料中与该目标语料对应的该源语料的概率。
可选的,该语言模型包括第一语言模型和第二语言模型,该特征向量包括第一特征向量以及第二特征向量;
该基于训练后的语言模型,获得该各对双语语料各自的特征向量,并确定该各对双语语料各自的第二特征,包括:
对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取该源语料对应的该第一特征向量;
将该对双语语料中的目标语料输入到训练后的第二语言模型,获取该目标语料对应的该第二特征向量;
基于该第一特征向量以及该第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的该第二特征。
可选的,该第一语言模型包括通过该各对双语语料中的源语料训练得到的第一编码器,且该第二语言模型包括通过该各对双语语料中的目标语料训练得到的第二编码器;
其中,该第一编码器和该第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
可选的,该第一编码器对该源语料进行编码时的模型参数与该第二编码器对该目标语料进行编码时的模型参数相同。
可选的,该语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
可选的,该根据该各对双语语料的第一特征和该各对双语语料的第二特征,确定该各对双语语料各自的质量数值,包括:
对该各对双语语料的第一特征和该各对双语语料的第二特征进行加权计算,获得该各对双语语料各自的质量数值。
可选的,该根据该各对双语语料的质量数值,对该各对双语语料进行筛选,包括:
按照该各对双语语料的质量数值,对该各对双语语料进行排序;
根据排序结果对该各对双语语料进行筛选。
综上所述,本公开实施例中提供的双语语料筛选方法,首先,获取多对双语语料,其中每一对双语语料包含源语料和目标语料,基于多对双语语料,训练机器翻译模型,基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,基于多对双语语料,训练语言模型,基于训练后的语言模型,获得各对双语语料各自的特征向量,并确定各对双语语料各自的第二特征,然后,根据各对双语语料的第一特征和各对双语语料的第二特征,确定各对双语语料各自的质量数值,最后,根据各对双语语料的质量数值,对各对双语语料进行筛选;通过上述方案,获取各对双语语料的特征,通过各个特征综合确定质量数值,根据具体的质量数值筛选双语语料,该双语语料的筛选方法适用于各对双语语料,避免了无法对部分双语语料进行过滤筛选的问题,提高了清洗语料的数据量,提高了双语语料清洗的效率。
图3是根据另一示例性实施例示出的一种双语语料筛选方法的流程图,该双语语料筛选方法可以应用于计算机设备中。如图3所示,该双语语料筛选方法可以包括以下步骤:
在步骤301中,计算机设备获取多对双语语料,其中每一对双语语料包含源语料和目标语料。
在本公开实施例中,计算机设备从语料库中获取若干对双语语料,每一对双语语料包含源语料和目标语料,源语料可以通过输入机器翻译模型输出获得目标语料。
其中,源语料与目标语料没有固定的语言种类的指向,对于不同的机器翻译模型,同一对双语语料中的源语料与目标语料可以是不同的。
比如,若一对双语语料是由中文语料和英文语料组成的,则针对于中译英的机器翻译模型,该对双语语料中的中文语料为源语料,其中的英文语料为目标语料。若应用于英译中的机器翻译模型,则该对双语语料中的英文语料为源语料,其中的中文语料为目标语料。
在步骤302中,计算机设备基于该多对双语语料,训练机器翻译模型。
在本公开实施例中,计算机设备可以获取基于RNN、CNN或者TRANSFORMER模型中的任意一种神经网络模型作为机器翻译模型,通过输入从语料库中获取的若干对双语语料,对机器翻译模型进行训练,在经过了各对双语语料的训练后获得训练后的机器翻译模型。
其中,机器翻译模型与双语语料的语言种类是相对应的,经过训练后可以获得由源语料翻译成目标语料的机器翻译模型。
比如,若双语语料中包括中文语料和英文语料,当中文语料作为源语料,英文语料作为目标语料,将上述的若干对双语语料输入到基于上述架构的神经网络模型中,可以训练得到一个中译英的机器翻译模型。当英文语料作为源语料,中文语料作为目标语料,将上述的若干对双语语料输入到基于上述架构的神经网络模型中,可以训练得到一个英译中的机器翻译模型。
可选的,上述的多对双语语料可以是一个双语语料库中的全部或者部分对的双语语料。
其中,计算机设备可以调用双语语料库中的已有的双语语料对神经网络模型进行训练,机器翻译模型的训练结果可以由训练模型所调用的各对双语语料的质量和数量决定。
在步骤303中,计算机设备基于训练后的机器翻译模型,获得各对双语语料各自的第一特征。
在本公开实施例中,计算机设备通过在训练后的机器翻译模型中,输入需要进行双语语料筛选的各对双语语料,通过机器翻译模型获取各对双语语料的第一特征。
其中,机器翻译模型包括第一翻译模型和第二翻译模型,第一特征包括第一概率特征和第二概率特征。第一翻译模型是各对双语语料中的源语料翻译成目标语料的机器翻译模型,第二翻译模型是各对双语语料中的目标语料翻译成源语料的机器翻译模型。
另外,第一特征包括由第一翻译模型获得的第一概率特征,以及由第二翻译模型获得的第二概率特征。
其中,第一概率特征和第二概率特征的获取方式分别如下所示:
(1)将每一对该双语语料中的源语料输入到训练后的第一翻译模型,基于该第一翻译模型输出的结果确定该双语语料的第一概率特征,该第一概率特征为该第一翻译模型将该源语料预测为该双语语料中与该源语料对应的目标语料的概率。
(2)将每一对该双语语料中的目标语料输入到训练后的第二翻译模型,基于该第二翻译模型输出的结果确定该双语语料的第二概率特征,该第二概率特征为该第二翻译模型将该目标语料预测为该双语语料中与该目标语料对应的该源语料的概率。
其中,将该源语料预测为该双语语料中与该源语料对应的目标语料的概率以及将该目标语料预测为该双语语料中与该目标语料对应的该源语料的概率是通过机器翻译模型计算获得的,可以通过条件概率的方式计算该双语语料中的源语料与目标语料互相翻译的概率。
比如,一对双语语料中的语料分别是语料A和语料B,语料A可以与语料B相互翻译得到,当语料A经过机器翻译模型翻译成语料B时,可以获得翻译成语料B的概率P(B|A)作为一个概率特征,当语料B经过机器翻译模型翻译成语料A时,可以获得翻译成语料A的概率P(A|B)作为另一个概率特征,这两个概率特征为该对双语语料的第一特征。
在步骤304中,计算机设备基于所述多对双语语料,训练语言模型。
在本公开实施例中,计算机设备构建语言模型,通过输入多对双语语料中的各个语料对语言模型进行训练,获得训练后的语言模型。
可选的,计算机设备可以通过在语言模型中添加编码器的方式,对语言模型进行训练。
其中,编码器可以是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
比如,图4是本实施例涉及的一种降噪自编码器的结构示意图,如图4所示,当使用降噪自动编码器训练语言模型时,首先获取双语语料中的语料x,通过一个噪音模块401,对语料x进行添加噪音的处理,得到添加噪音处理后的语料x变为C(x),然后将C(x)输入到编码器402中,得到特征向量Z,接着将特征向量Z输入解码器403中,特征向量Z进行解码得到新生成的语料x’。
其中,若语料x是一个语句,则添加噪音处理可以是对语料x中的字根据一个概率进行删除或者对其中字的顺序进行一定程度的打乱。
比如,当语料x为一个中文语句“今天是一个好日子”时,对其进行添加噪音的处理可以为将其中的字进行删除,即“今天是好日子”或者“今天是一个日子”等,将其中的字顺序进行打乱,即“是一个好日子今天”或者“今天好日子是一个”,然后对添加噪音的语句进行编码处理,得到特征向量,将特征向量进行解码,解码得到的语句与原语句进行比较,通过模型训练使新生成的语料x’尽量还原语料x。
另外,语言模型包括第一语言模型和第二语言模型,特征向量包括第一特征向量以及第二特征向量。
对于一对双语语料,其中包括源语料和目标语料,第一语言模型可以通过输入源语料得到第一特征向量,第二语言模型可以通过输入目标语料得到第二特征向量。
在步骤305中,对于每一对双语语料,计算机设备将该对双语语料中的源语料输入到训练后的第一语言模型,获取该源语料对应的该第一特征向量。
在本公开实施例中,计算机设备通过将需要进行双语语料筛选的各对双语语料中的源语料,输入到训练后的第一语言模型中,通过第一编码器可以生成该源语料的特征向量,获取该特征向量为该源语料对应的第一特征向量。
其中第一语言模型包括通过各对双语语料中的源语料训练得到的第一编码器,且第一编码器是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
在步骤306中,计算机设备将该对双语语料中的目标语料输入到训练后的第二语言模型,获取该目标语料对应的该第二特征向量。
在本公开实施例中,计算机设备通过将需要进行双语语料筛选的各对双语语料中的目标语料,输入到训练后的第二语言模型中,通过第二编码器可以生成该目标语料的特征向量,获取该特征向量为该目标语料对应的第二特征向量。
其中,第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器,且第二编码器是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
在步骤307中,计算机设备基于该第一特征向量以及该第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的该第二特征。
在本公开实施例中,计算机设备基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征。
可选的,语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
其中,曼哈顿距离、欧几里德距离以及余弦相似度都是进行相似度计算的方法。
可选的,第一编码器与第二编码器的模型参数为相同的,模型参数为第一编码器对源语料进行编码时的参数以及第二编码器对目标语料进行编码时的参数。
可选的,因为第一编码器与第二编码器的模型参数是相同的,所以第一语言模型与第二语言模型处于同一个语义空间,因此第一语言模型和第二语言模型可以是同一个语言模型。
其中,当第一语言模型和第二语言模型为同一个语言模型时,输入源语料生成的是源语料的特征向量,输入目标语料生成的是目标语料的特征向量。
可选的,双语语料中的源语料与目标语料之间的语义相似度可以通过如下计算公式计算获得:
Figure BDA0002313811170000141
其中,Zx表示源语料的特征向量,Zy表示目标语料的特征向量。经过语义相似度计算得到的结果就是该源语料和目标语料对应的双语语料对的第二特征。
在步骤308中,计算机设备根据该各对双语语料的第一特征和该各对双语语料的第二特征,确定该各对双语语料各自的质量数值。
在本公开实施例中,计算机设备通过将各对双语语料中的源语料的概率特征、目标语料的概率特征以及源语料与目标语料特征向量的语义相似度特征进行计算,获得各对双语语料的质量数值。
可选的,对各对双语语料的第一特征和各对双语语料的第二特征进行加权计算,获得各对双语语料各自的质量数值。
其中,加权计算可以是用户自定义设置各个特征的权重占比,或者也可以是按照平均权重的方式,即各对双语语料的第一特征与第二特征所占的权重相同来进行计算。
其中,各对双语语料的质量数值高低与各对双语语料的质量的高低成正比。
在步骤309中,计算机设备根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
在本公开实施例中,计算机设备获取到各对双语语料的质量数值,通过分析各个质量数值可以对各个质量数值对应的各对双语语料进行筛选。
可选的,计算机设备对各对双语语料进行筛选可以是对质量数值不满足于一定规则的各对双语语料进行删除。
其中,根据质量数值判断进行筛选的双语语料的方式可以是计算机设备按照各对双语语料的质量数值,对各对双语语料进行排序,然后,根据排序结果对各对双语语料进行筛选。
比如,计算机设备将所有需要进行筛选的各对双语语料计算得到质量数值之后,将各对双语语料按照其质量数值由大到小的顺序进行排序,用户设置一个固定比例,例如设置比例为1/3,则按照其质量数值排序的前1/3的双语语料不需要进行删除。
其中,根据质量数值判断进行筛选的双语语料的方式还可以是计算机设备设置一个阈值,当双语语料的质量数值小于设置的阈值时,确定对双语语料进行删除;当双语语料的质量数值大于设置的阈值时,确定对双语语料进行保留。
综上所述,本公开实施例中提供的双语语料筛选方法,首先,获取多对双语语料,其中每一对双语语料包含源语料和目标语料,基于多对双语语料,训练机器翻译模型,基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,基于多对双语语料,训练语言模型,基于训练后的语言模型,获得各对双语语料各自的特征向量,并确定各对双语语料各自的第二特征,然后,根据各对双语语料的第一特征和各对双语语料的第二特征,确定各对双语语料各自的质量数值,最后,根据各对双语语料的质量数值,对各对双语语料进行筛选;通过上述方案,获取各对双语语料的特征,通过各个特征综合确定质量数值,根据具体的质量数值筛选双语语料,该双语语料的筛选方法适用于各对双语语料,避免了无法对部分双语语料进行过滤筛选的问题,提高了清洗语料的数据量,提高了双语语料清洗的效率。
图5是根据一示例性实施例示出的一种双语语料筛选装置的框图,如图5所示,该双语语料筛选装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分,以执行图2或图3任一所示实施例所示的步骤。该双语语料筛选装置可以包括:
语料获取模块510,用于获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
翻译模型训练模块520,用于基于所述多对双语语料,训练机器翻译模型;
第一特征获取模块530,用于基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
语言模型训练模块540,用于基于所述多对双语语料,训练语言模型;
第二特征确定模块550,用于基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
质量确定模块560,用于根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
语料筛选模块570,用于根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
可选的,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述第一特征获取模块530,包括:
第一概率确定子模块,用于将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
第二概率确定子模块,用于将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。
可选的,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述第二特征确定模块550,包括:
第一向量获取子模块,用于对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
第二向量获取子模块,用于将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
第二特征确定子模块,用于基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。
可选的,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
可选的,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。
可选的,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
可选的,所述质量确定模块560,包括:
质量确定子模块,用于对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。
可选的,所述语料筛选模块570,包括:
语料排序子模块,用于按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
语料筛选子模块,用于根据排序结果对所述各对双语语料进行筛选。
需要说明的一点是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种双语语料筛选装置,该双语语料筛选装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分,以执行图2或图3任一所示实施例所示的步骤。该双语语料筛选装置还包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
基于所述多对双语语料,训练机器翻译模型;
基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
基于所述多对双语语料,训练语言模型;
基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
可选的,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,包括:
将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。
可选的,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征,包括:
对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。
可选的,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
可选的,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。
可选的,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
可选的,所述根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值,包括:
对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。
可选的,所述根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选,包括:
按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
根据排序结果对所述各对双语语料进行筛选。
图6是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备600包括中央处理单元(Central Processing Unit,CPU)601、包括随机存取存储器(Random Access Memory,RAM)602和只读存储器(Read-Only Memory,ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出(Input/Output,I/O)系统606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机设备可读介质为计算机设备600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本公开的各种实施例,所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器601通过执行该一个或一个以上程序来实现图2或图3所示的方法的全部或者部分步骤。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机设备可读介质中或者作为计算机设备可读介质上的一个或多个指令或代码进行传输。计算机设备可读介质包括计算机设备存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机设备程序的任何介质。存储介质可以是通用或专用计算机设备能够存取的任何可用介质。
本公开实施例还提供了一种计算机设备存储介质,用于储存为上述测试装置所用的计算机设备软件指令,其包含用于执行上述双语语料筛选方法所设计的程序。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (18)

1.一种双语语料筛选方法,其特征在于,所述方法包括:
获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
基于所述多对双语语料,训练机器翻译模型;
基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
基于所述多对双语语料,训练语言模型;
基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,包括:
将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。
3.根据权利要求1所述的方法,其特征在于,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征,包括:
对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。
4.根据权利要求3所述的方法,其特征在于,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
5.根据权利要求4所述的方法,其特征在于,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。
6.根据权利要求3所述的方法,其特征在于,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值,包括:
对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。
8.根据权利要求1所述的方法,其特征在于,所述根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选,包括:
按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
根据排序结果对所述各对双语语料进行筛选。
9.一种双语语料筛选装置,其特征在于,所述装置包括:
语料获取模块,用于获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
翻译模型训练模块,用于基于所述多对双语语料,训练机器翻译模型;
第一特征获取模块,用于基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
语言模型训练模块,用于基于所述多对双语语料,训练语言模型;
第二特征确定模块,用于基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
质量确定模块,用于根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
语料筛选模块,用于根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
10.根据权利要求9所述的装置,其特征在于,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述第一特征获取模块,包括:
第一概率确定子模块,用于将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
第二概率确定子模块,用于将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。
11.根据权利要求9所述的装置,其特征在于,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述第二特征确定模块,包括:
第一向量获取子模块,用于对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
第二向量获取子模块,用于将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
第二特征确定子模块,用于基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。
12.根据权利要求11所述的装置,其特征在于,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。
13.根据权利要求12所述的装置,其特征在于,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。
14.根据权利要求11所述的装置,其特征在于,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。
15.根据权利要求9所述的装置,其特征在于,所述质量确定模块,包括:
质量确定子模块,用于对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。
16.根据权利要求9所述的装置,其特征在于,所述语料筛选模块,包括:
语料排序子模块,用于按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
语料筛选子模块,用于根据排序结果对所述各对双语语料进行筛选。
17.一种双语语料筛选装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
基于所述多对双语语料,训练机器翻译模型;
基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
基于所述多对双语语料,训练语言模型;
基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。
18.一种计算机设备可读存储介质,其特征在于,所述计算机设备可读存储介质中包含可执行指令,所述可执行指令由处理器调用执行,以实现上述权利要求1至8任一所述的双语语料筛选方法。
CN201911269664.7A 2019-12-11 2019-12-11 双语语料筛选方法、装置及存储介质 Active CN110941964B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201911269664.7A CN110941964B (zh) 2019-12-11 2019-12-11 双语语料筛选方法、装置及存储介质
US16/891,705 US11436419B2 (en) 2019-12-11 2020-06-03 Bilingual corpora screening method and apparatus, and storage medium
JP2020117293A JP7097409B2 (ja) 2019-12-11 2020-07-07 二言語コーパススクリーニング方法及び装置、並びに記憶媒体
KR1020200085174A KR102398529B1 (ko) 2019-12-11 2020-07-10 이중 언어 말뭉치의 스크린 방법과 장치, 및 기록매체
EP20185703.4A EP3835999A1 (en) 2019-12-11 2020-07-14 Bilingual corpora screening method and apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911269664.7A CN110941964B (zh) 2019-12-11 2019-12-11 双语语料筛选方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110941964A true CN110941964A (zh) 2020-03-31
CN110941964B CN110941964B (zh) 2023-08-15

Family

ID=69910450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911269664.7A Active CN110941964B (zh) 2019-12-11 2019-12-11 双语语料筛选方法、装置及存储介质

Country Status (5)

Country Link
US (1) US11436419B2 (zh)
EP (1) EP3835999A1 (zh)
JP (1) JP7097409B2 (zh)
KR (1) KR102398529B1 (zh)
CN (1) CN110941964B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270190A (zh) * 2020-11-13 2021-01-26 浩鲸云计算科技股份有限公司 一种基于注意力机制的数据库字段翻译方法及系统
CN112329481A (zh) * 2020-10-27 2021-02-05 厦门大学 缓解语言对差异冲突的多语言机器翻译模型的训练方法
WO2021218012A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 中英双语语料库的构建方法、及其相关设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859997B (zh) * 2020-06-16 2024-01-26 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN114117056B (zh) * 2022-01-29 2022-04-08 腾讯科技(深圳)有限公司 一种训练数据的处理方法、装置以及存储介质
KR102616167B1 (ko) * 2023-06-22 2023-12-20 팜피 주식회사 사용자 문장을 이용하여 콘텐츠를 생성하는 방법 및 이를 위한 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108021560A (zh) * 2017-12-07 2018-05-11 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2018011305A (es) 2017-09-18 2019-07-04 Tata Consultancy Services Ltd Técnicas para corregir el desvío de entrenamiento lingüístico en los datos de entrenamiento.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021560A (zh) * 2017-12-07 2018-05-11 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"NICT’s Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task" *
官小龙: "跨领域模式下语料库信息智筛选仿真研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218012A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 中英双语语料库的构建方法、及其相关设备
CN112329481A (zh) * 2020-10-27 2021-02-05 厦门大学 缓解语言对差异冲突的多语言机器翻译模型的训练方法
CN112329481B (zh) * 2020-10-27 2022-07-19 厦门大学 缓解语言对差异冲突的多语言机器翻译模型的训练方法
CN112270190A (zh) * 2020-11-13 2021-01-26 浩鲸云计算科技股份有限公司 一种基于注意力机制的数据库字段翻译方法及系统

Also Published As

Publication number Publication date
CN110941964B (zh) 2023-08-15
JP7097409B2 (ja) 2022-07-07
JP2021093120A (ja) 2021-06-17
KR20210074989A (ko) 2021-06-22
KR102398529B1 (ko) 2022-05-18
US20210182503A1 (en) 2021-06-17
US11436419B2 (en) 2022-09-06
EP3835999A1 (en) 2021-06-16

Similar Documents

Publication Publication Date Title
CN110941964A (zh) 双语语料筛选方法、装置及存储介质
WO2020048389A1 (zh) 神经网络模型压缩方法、装置和计算机设备
WO2020238783A1 (zh) 一种信息处理方法、装置及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112910690A (zh) 基于神经网络模型的网络流量预测方法、装置及设备
CN114511472B (zh) 一种视觉定位方法、装置、设备及介质
CN113850162A (zh) 一种视频审核方法、装置及电子设备
CN113327599B (zh) 语音识别方法、装置、介质及电子设备
CN116680343A (zh) 基于融合多模态信息的实体和关系表示的链接预测方法
CN109902273B (zh) 关键词生成模型的建模方法和装置
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
CN117541683A (zh) 图像生成方法、装置、设备及计算机可读存储介质
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN111292715B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN115758211B (zh) 文本信息分类方法、装置、电子设备和存储介质
US20230336739A1 (en) Rate control machine learning models with feedback control for video encoding
CN116977885A (zh) 视频文本任务处理方法、装置、电子设备及可读存储介质
CN112948582B (zh) 一种数据处理方法、装置、设备以及可读介质
US20140214734A1 (en) Classifying a submission
CN113535847B (zh) 区块链地址分类的方法和装置
CN112395832B (zh) 一种基于序列到序列的文本量化分析与生成方法及系统
CN112347265B (zh) 一种知识图谱构建方法
CN113901206A (zh) 一种基于词嵌入的设备失联预测方法、装置和电子设备
CN108197142B (zh) 网络事务关联性确定方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant