CN111898389B - 信息确定方法、装置、计算机设备及存储介质 - Google Patents
信息确定方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111898389B CN111898389B CN202010827968.7A CN202010827968A CN111898389B CN 111898389 B CN111898389 B CN 111898389B CN 202010827968 A CN202010827968 A CN 202010827968A CN 111898389 B CN111898389 B CN 111898389B
- Authority
- CN
- China
- Prior art keywords
- model
- translation
- deformation
- parameters
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种信息确定方法、装置、计算机设备及存储介质,属于机器学习技术领域。方法包括:调用基准翻译模型和基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译;基于基准翻译模型的翻译结果和测试文本对应的翻译文本,获取基准翻译模型的翻译质量参数;基于多个变形模型的翻译结果和测试文本对应的翻译文本,获取多个变形模型的翻译质量参数;根据基准翻译模型的翻译质量参数、多个变形模型的翻译质量参数以及各个变形模型相对于基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息。本申请能够准确的确定不同模型结构参数对翻译模型的翻译质量的影响力信息,从而提高文本翻译的准确性。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种信息确定方法、装置、计算机设备及存储介质。
背景技术
随着机器学习技术的发展,基于神经网络的翻译模型被广泛使用,翻译模型能够对待翻译文本进行机器翻译,得到预测翻译结果,如何改进现有的翻译模型,以提供相比现有模型更加有效的新模型成为研究的一个热点。
目前由于神经网络的复杂性,对于何种因素会影响翻译模型的性能以及该因素具体如何影响翻译模型的性能是未知的,由于无法准确的确定相关因素对翻译模型的影响力信息,导致无法提供相比现有模型更加有效的新模型,来对文本进行机器翻译,使得文本翻译的准确性较低。
发明内容
本申请实施例提供了一种信息确定方法、装置、计算机设备及存储介质,能够准确的确定不同模型结构参数对翻译模型的翻译质量的影响力信息,从而提高文本翻译的准确性。所述技术方案如下:
一方面,提供了一种信息确定方法,所述方法包括:
调用基准翻译模型和所述基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,其中,所述变形模型与所述基准翻译模型之间至少存在一项不同的模型结构参数;
基于所述基准翻译模型的翻译结果和所述测试文本对应的翻译文本,获取所述基准翻译模型的翻译质量参数;
基于所述多个变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述多个变形模型的翻译质量参数;
根据所述基准翻译模型的翻译质量参数、所述多个变形模型的翻译质量参数以及各个变形模型相对于所述基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
在一种可能实现方式中,所述对所述多个变形模型分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息,包括:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息。
在一种可能实现方式中,所述对所述多个变形模型分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息,包括:
对所述多个变形模型的不同层,分别执行所述不同级别的语言学知识测试任务,得到所述不同层的语言学知识学习信息。
在一种可能实现方式中,所述对所述多个变形模型进行压缩剪枝处理,包括:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,进行压缩剪枝处理。
一方面,提供了一种信息确定装置,所述装置包括:
翻译模块,用于调用基准翻译模型和所述基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,其中,所述变形模型与所述基准翻译模型之间至少存在一项不同的模型结构参数;
获取模块,用于基于所述基准翻译模型的翻译结果和所述测试文本对应的翻译文本,获取所述基准翻译模型的翻译质量参数;
所述获取模块还用于基于所述多个变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述多个变形模型的翻译质量参数;
确定模块,用于根据所述基准翻译模型的翻译质量参数、所述多个变形模型的翻译质量参数以及各个变形模型相对于所述基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
在一种可能实现方式中,所述翻译模块用于:
基于训练数据集对所述基准翻译模型进行训练;
从训练得到的一组基准翻译模型中,选取模型评价参数符合第一条件的基准翻译模型;
调用所述模型评价参数符合第一条件的基准翻译模型,对所述测试文本进行机器翻译。
在一种可能实现方式中,所述翻译模块用于:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取模型评价参数符合第一条件的变形模型,任一组变形模型通过对所述多个变形模型中的一个变形模型进行训练得到。
调用所述模型评价参数符合第一条件的变形模型,对所述测试文本进行机器翻译。
在一种可能实现方式中,所述装置还包括:
选取模块,用于从训练得到的不同组变形模型中,选取同一组变形模型中的模型进行组合,得到组合模型;
所述翻译模块还用于调用所述组合模型,对所述测试文本进行机器翻译;
所述获取模块还用于基于所述组合模型的翻译结果和所述测试文本对应的翻译文本,获取所述组合模型的翻译质量参数;
所述确定模块还用于根据所述多个变形模型的翻译质量参数和所述组合模型的翻译质量参数,确定模型组合对翻译模型的翻译质量参数的影响力信息。
在一种可能实现方式中,所述模型结构参数包括编码器的深度、编码器的宽度、解码器的深度或者解码器的宽度中的至少一项;
所述多个变形模型包括下述至少一项:
编码器的深度相对于所述基准翻译模型增加的变形模型;
编码器的宽度相对于所述基准翻译模型增加的变形模型;
解码器的深度相对于所述基准翻译模型增加的变形模型;
解码器的宽度相对于所述基准翻译模型增加的变形模型;
编码器和解码器的深度相对于所述基准翻译模型增加的变形模型;
编码器和解码器的宽度相对于所述基准翻译模型增加的变形模型;
编码器的深度和宽度相对于所述基准翻译模型增加的变形模型;
解码器的深度和宽度相对于所述基准翻译模型增加的变形模型;
编码器的深度和宽度以及解码器的深度和宽度相对于所述基准翻译模型增加的变形模型。
在一种可能实现方式中,所述装置还包括:
测试模块,用于对所述多个变形模型分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息,所述不同级别包括表面级别、语法级别和语义级别;
所述确定模块还用于根据所述语言学知识学习信息,确定模型结构参数对翻译模型学习语言学知识的影响力信息。
在一种可能实现方式中,所述测试模块用于:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息。
在一种可能实现方式中,所述测试模块用于:
对所述多个变形模型的不同层,分别执行所述不同级别的语言学知识测试任务,得到所述不同层的语言学知识学习信息。
在一种可能实现方式中,所述装置还包括:
压缩模块,用于对所述多个变形模型进行压缩剪枝处理;
所述翻译模块还用于调用压缩剪枝处理后的变形模型,对所述测试文本进行机器翻译;
所述获取模块还用于基于所述压缩剪枝处理后的变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述压缩剪枝处理后的变形模型的翻译质量参数;
所述确定模块还用于根据所述压缩剪枝处理后的变形模型的翻译质量参数,确定模型结构参数对翻译模型的参数利用率的影响力信息。
在一种可能实现方式中,所述压缩模块用于:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,进行压缩剪枝处理。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述信息确定方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述信息确定方法。
一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括程序代码,所述程序代码存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述程序代码,处理器执行所述程序代码,使得所述计算机设备执行上述信息确定方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过调用基准翻译模型和相对于基准翻译模型具有不同模型结构参数的多个变形模型,进行翻译测试,由于翻译测试得到的翻译质量参数能够表示翻译模型的翻译质量,这样根据翻译质量参数,可以分析不同模型结构参数对翻译模型的翻译质量的具体影响,从而准确的确定不同模型结构参数对翻译模型的翻译质量的影响力信息,该影响力信息可以用于提供相比现有翻译模型更加有效的新翻译模型,来对文本进行机器翻译,从而提高文本翻译的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息确定方法的实施环境示意图;
图2是本申请实施例提供的一种信息确定方法的流程图;
图3是本申请实施例提供的一种信息确定方法的流程图;
图4是本申请实施例提供的一种单独模型和组合模型的性能对比示意图;
图5是本申请实施例提供的一种不同模型的语言学知识测试结果的示意图;
图6是本申请实施例提供的一种模型逐层的语言学知识测试结果的示意图;
图7是本申请实施例提供的一种模型压缩剪枝的结果示意图;
图8是本申请实施例提供的一种信息确定装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的机器学习技术,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
为了便于理解本申请实施例的技术方案,先对本申请实施例所涉及的一些术语进行解释:
NMT(Neural Machine Translation,神经网络机器翻译):最新一代基于神经网络的机器翻译技术。
Seq2Seq(Sequence to Sequence Model,序列到序列模型):一种输入和输出均为序列的深度神经网络模型。
BLEU(Bilingual Evaluation Understudy,双语评估替补):是一种机器翻译评测的标准方法,BLUE可以作为机器翻译质量的评判参数,BLEU值越大表示翻译模型的模型表现能力越好,模型性能越好,翻译质量越高。
Probing Task:语言学知识的评判任务,模型执行该任务的准确率越高,表示模型对语言学知识掌握的越好。
Transformer:一种基于自注意力机制的自回归神经网络。
ConvS2S(Convolutional Sequence-to-Sequence,基于卷积神经网络模型的序列到序列框架):一种基于卷积神经网络的序列模型。
RNMT(Recurrent Neural Machine Translation,循环神经网络机器翻译):一种基于循环神经网络的序列模型。
Ensemble:对多次训练或不同时间点保存的模型进行组合。
图1是本申请实施例提供的一种信息确定方法的实施环境示意图,参见图1,该实施环境中可以包括终端101和服务器102,终端101和服务器102均为一种计算机设备。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端101安装和运行有支持机器翻译的应用程序,在一个示例中,终端101基于该应用程序,向服务器102发送携带待翻译文本的翻译请求,接收服务器102基于该翻译请求返回的翻译结果。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持机器翻译的应用程序提供后台服务。在一个示例中,服务器中部署有翻译模型,能够对待翻译文本进行机器翻译,提供待翻译文本的机器翻译结果。
终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
图2是本申请实施例提供的一种信息确定方法的流程图。该方法由计算机设备执行,参见图2,该方法可以包括:
201、计算机设备调用基准翻译模型和基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,其中,变形模型与基准翻译模型之间至少存在一项不同的模型结构参数。
202、计算机设备基于基准翻译模型的翻译结果和测试文本对应的翻译文本,获取基准翻译模型的翻译质量参数。
203、计算机设备基于多个变形模型的翻译结果和测试文本对应的翻译文本,获取多个变形模型的翻译质量参数。
204、计算机设备根据基准翻译模型的翻译质量参数、多个变形模型的翻译质量参数以及各个变形模型相对于基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
本申请实施例提供的方法,通过调用基准翻译模型和相对于基准翻译模型具有不同模型结构参数的多个变形模型,进行翻译测试,由于翻译测试得到的翻译质量参数能够表示翻译模型的翻译质量,这样根据翻译质量参数,可以分析不同模型结构参数对翻译模型的翻译质量的具体影响,从而准确的确定不同模型结构参数对翻译模型的翻译质量的影响力信息,该影响力信息可以用于提供相比现有翻译模型更加有效的新翻译模型,来对文本进行机器翻译,从而提高文本翻译的准确性。
上述图2所示的流程为本申请实施例的基本流程,下面基于该基本流程对本申请实施例的详细流程进行介绍。
图3是本申请实施例提供的一种信息确定方法的流程图。该方法由计算机设备执行,参见图3,该方法可以包括:
301、计算机设备基于训练数据集对基准翻译模型进行训练,从训练得到的一组基准翻译模型中,选取模型评价参数符合第一条件的基准翻译模型。
其中,该训练数据集包括待翻译语种与目标语种之间的文本对。模型评价参数是模型训练过程中用来评价模型的参数。如果模型评价参数越小表示模型越好,则第一条件为模型评价参数最小,例如,该模型评价参数为perplexity(困惑度),用来度量模型预测样本的好坏程度,perplexity值越小,表示模型越好。
计算机设备基于至少一种训练数据集,对至少一种基准翻译模型进行训练。其中,该至少一种训练数据集之间的待翻译语种和目标语种中的至少一种语种不同,以两种训练数据集为例,第一种训练数据集为英德数据集,该数据集的待翻译语种为英语,目标语种为德语,第二种训练数据集为英法数据集,该数据集的待翻译语种为英语,目标语种为法语。以三种基准翻译模型为例,可选地,该三种基准翻译模型包括ConvS2S,RNMT和Transformer的基准翻译模型,计算机设备采用ConvS2S,RNMT和Transformer三种模型,在一个训练数据集上,训练各自的基准翻译模型。对于任一种训练数据集和任一种基准翻译模型,计算机设备基于该训练数据集对基准翻译模型执行训练步骤后,均可以执行选取模型以及后续获取翻译质量参数的步骤。
对于任一基准翻译模型,计算机设备在基于任一训练数据集训练该基准翻译模型时,会反复训练多次,在多次训练过程中,模型性能是一个逐步提升或小幅度振荡的过程。在一种可能实现方式中,计算机设备在训练过程中的不同时间点保存当前的基准翻译模型,这样不同时间点保存的基准翻译模型即为一组基准翻译模型。在另一种可能实现方式中,计算机设备在每次训练结束时保存当前的基准翻译模型,这样多次训练结束时保存的基准翻译模型即为一组基准翻译模型。
302、计算机设备调用模型评价参数符合第一条件的基准翻译模型,对测试文本进行机器翻译,基于基准翻译模型的翻译结果和测试文本对应的翻译文本,获取基准翻译模型的翻译质量参数。
其中,翻译质量参数是模型训练完成后进行测试的过程中用来评价模型表现力的参数。例如,翻译质量参数为BLEU,BLUE值越高表示翻译质量越好。
对于任一翻译模型,计算机设备基于该翻译模型对测试文本进行机器翻译,得到翻译结果后,将该翻译结果与测试文本对应的翻译文本进行比较,根据两者之间的误差来计算翻译质量参数。以翻译质量参数为BLUE值为例,采用N-gram(多元精度得分)的匹配规则来计算BLUE值,即比较翻译模型输出的翻译结果与测试文本对应的翻译文本之间n组词的出现频次,其中,n为正整数。本申请实施例对翻译质量参数的具体计算方法不作限定。
测试文本和测试文本对应的翻译文本可以作为一个测试数据集,可选地,对于任一翻译模型,计算机设备基于该翻译模型和至少一种测试数据集,获取该翻译模型在每种测试数据集上的翻译质量参数。例如,该至少一种测试数据集包括英德数据集和英法数据集,英德数据集中的测试文本为英语文本,测试文本对应的翻译文本为德语文本,英法数据集中的测试文本为英语文本,测试文本对应的翻译文本为法语文本。
303、计算机设备基于训练数据集对基准翻译模型对应的多个变形模型进行训练,其中,变形模型与基准翻译模型之间至少存在一项不同的模型结构参数。
其中,模型结构参数包括编码器的深度、编码器的宽度、解码器的深度或者解码器的宽度中的至少一项。模型结构参数可以用于表示模型大小,不同的模型结构参数也即是不同的模型大小。
在一种可能实现方式中,多个变形模型包括下述至少一项:编码器的深度相对于基准翻译模型增加的变形模型;编码器的宽度相对于基准翻译模型增加的变形模型;解码器的深度相对于基准翻译模型增加的变形模型;解码器的宽度相对于基准翻译模型增加的变形模型;编码器和解码器的深度相对于基准翻译模型增加的变形模型;编码器和解码器的宽度相对于基准翻译模型增加的变形模型;编码器的深度和宽度相对于基准翻译模型增加的变形模型;解码器的深度和宽度相对于基准翻译模型增加的变形模型;编码器的深度和宽度以及解码器的深度和宽度相对于基准翻译模型增加的变形模型。通过仅增加模型的宽度或仅增加模型的深度,以及同时增加模型的宽度和深度,便于确定仅增加模型的深度或宽度与同时增加模型的宽度和深度给模型带来的不同影响。
在一个示例中,将ConvS2S,RNMT和Transformer这三种基准翻译模型的编码器的深度分别从四层增加到二十四层得到3个新模型,再将以上三种模型的编码器的宽度增加一倍得到另外3个新模型。然后对以上三种模型的解码器进行同样的操作得到6个新模型,包括将以上三种模型的解码器的深度分别从四层增加到二十四层得到的3个新模型,以及将以上三种模型的解码器的宽度增加一倍得到的3个新模型。最后对以上三种模型的编码器和解码器同时进行同样的操作得到6个新模型,包括将以上三种模型的编码器和解码器的深度同时从四层增加到二十四得到的3个模型,以及将以上三种模型的编码器和解码器的宽度同时增加一倍得到的3个模型。该示例中新获得的18个模型即为多个变形模型。当然,ConvS2S,RNMT和Transformer仅是一个示例,本申请也适用于其他的Seq2Seq模型,如RNNSearch(Recurrent Neural Networks Search,基于循环神经网络的系统),LSTM(LongShort-Term Memory,长短期记忆网络)等。
本步骤中,计算机设备对各个变形模型分别进行训练,得到多组变形模型,任一组变形模型通过对一个变形模型进行训练得到,变形模型的训练与步骤301中基准翻译模型的训练同理,此处不做赘述。
对于深度和宽度相对于基准翻译模型增加的变形模型,可以通过直接对基准翻译模型的深度和宽度同时调整得到,也可以通过从对基准翻译模型的深度或宽度调整后得到的变形模型中选取合适的模型,对该模型的深度和宽度同时调整得到。其中,该合适的模型可以是从训练得到的不同组变形模型中,分别选取的参数量和模型评价参数符合第二条件的变形模型。其中,该第二条件是指参数量在预设范围内的情况下模型评价参数最大。
304、计算机设备从训练得到的不同组变形模型中,分别选取模型评价参数符合第一条件的变形模型,任一组变形模型通过对多个变形模型中的一个变形模型进行训练得到。
对于基准翻译模型对应的多个变形模型中的任一变形模型,计算机设备通过步骤303的训练过程,得到一组变形模型,对于不同变形模型,计算机设备通过步骤303的训练过程,得到不同组变形模型。对于任一组变形模型,计算机设备均从中选取符合第一条件的变形模型,这样可以选取到多个变形模型,执行后续获取翻译质量参数的步骤。本步骤中选取变形模型与步骤301中选取基准翻译模型同理,此处不做赘述。
305、计算机设备调用模型评价参数符合第一条件的变形模型,对测试文本进行机器翻译,基于变形模型的翻译结果和测试文本对应的翻译文本,获取变形模型的翻译质量参数。
其中,模型评价参数符合第一条件的变形模型可以为多个,本步骤中,计算机设备基于多个变形模型的翻译结果和测试文本对应的翻译文本,获取多个变形模型的翻译质量参数。
本步骤中获取变形模型的翻译质量参数与步骤301中获取基准翻译模型的翻译质量参数同理,此处不做赘述。
步骤301至步骤305是调用基准翻译模型和基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译的一种可能实现方式。可选地,步骤302中基于基准翻译模型的翻译结果和测试文本对应的翻译文本,获取基准翻译模型的翻译质量参数,以及步骤305中基于变形模型的翻译结果和测试文本对应的翻译文本,获取变形模型的翻译质量参数,这两个过程可以在计算机设备调用基准翻译模型和基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译之后执行,本申请实施例对此不做限定。
通过使用每个模型训练得到的最好模型,预测测试文本的翻译结果,并计算翻译质量参数,后续可以根据每个模型训练得到的最好模型的翻译质量参数来分析模型结构参数对模型的具体影响,提高了影响力信息确定的准确性。
306、计算机设备根据基准翻译模型的翻译质量参数、多个变形模型的翻译质量参数以及各个变形模型相对于基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,该影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
其中,模型结构参数的影响力信息用于指示模型结构参数对翻译模型的翻译质量参数是否有影响以及影响程度。
计算机设备根据基准翻译模型和改变模型结构参数后得到的变形模型的翻译质量参数,可以确定现有的模型通过调整模型结构参数是否能够给模型带来性能上的提升以及调整不同模型结构参数对模型性能的提升情况。
在一种可能实现方式中,计算机设备可以根据基准翻译模型的翻译质量参数、多个变形模型的翻译质量参数以及各个变形模型相对于该基准翻译模型发生变化的模型结构参数,生成数据表。通过数据表可以直观的反映模型结构参数对翻译模型的影响情况。可以理解的是,数据表仅是一种可视化形式,计算机设备也可以采用其他可视化形式,如数据图,来反映模型结构参数对翻译模型的翻译质量的影响情况,本申请实施例对此不做限定。
参见表1,表1示出了计算机设备在英德数据集和英法数据集上,测试ConvS2S,RNMT和Transformer的基准翻译模型和变形模型的翻译质量的结果,该结果反映了ConvS2S,RNMT和Transformer在英德数据集和英法数据集上的翻译质量与模型结构参数的关系。
表1
表1中的Enc表示编码器,Dec表示解码器,Base表示基准翻译模型,Deep表示增加深度,Wide表示增加宽度,#Para表示模型的参数量,En-De表示英德数据集,En-Fr表示英法数据集。表1中的23.84、25.31、24.32、……、42.10等数据为模型的翻译质量参数。表1示出了仅增加编码器的深度,仅增加解码器的深度,同时增加编码器和解码器的深度,仅增加编码器的宽度,仅增加解码器的宽度,同时增加编码器和解码器的宽度等方式得到的变形模型的测试结果。从表1看出,通过改变模型的宽度或深度能够给模型带来性能上的提升,并且各类模型在仅增加模型的编码器的宽度或深度的情况下,能够达到同时增加这个模型的编码器和解码器的宽度或深度的效果。
307、计算机设备从训练得到的不同组变形模型中,选取同一组变形模型中的模型进行组合,得到组合模型。
对于基准翻译模型对应的任一变形模型,计算机设备通过步骤303的训练过程,得到一组变形模型后,可以从中选取至少两个模型进行组合(Ensemble),得到组合模型。对于基准翻译模型对应的多个变形模型,计算机设备可以得到不同组变形模型,这样通过Ensemble的方式,得到不同的组合模型。
308、计算机设备调用该组合模型,对测试文本进行机器翻译,基于该组合模型的翻译结果和该测试文本对应的翻译文本,获取该组合模型的翻译质量参数。
本步骤中获取组合模型的翻译质量参数与步骤301中获取基准翻译模型的翻译质量参数同理,此处不做赘述。
309、计算机设备根据多个变形模型的翻译质量参数和组合模型的翻译质量参数,确定模型组合对翻译模型的翻译质量参数的影响力信息。
计算机设备根据组合前的变形模型和组合后得到的组合模型的翻译质量参数,确定通过Ensemble的方式是否对模型的性能有影响。在一种可能实现方式中,计算机设备可以根据多个变形模型的翻译质量参数和组合模型的翻译质量参数,生成数据图。通过数据图可以直观的反映模型组合对翻译模型的影响情况。可以理解的是,数据图仅是一种可视化形式,计算机设备也可以采用其他可视化形式,来反映模型组合对翻译模型的翻译质量的影响情况,本申请实施例对此不做限定。
参见图4,图4是本申请实施例提供的一种单独模型和组合模型的性能对比示意图,图4中的(a)是三种单独的变形模型的性能示意图,其中,该三种单独的变形模型包括增加深度(如增加编码器的深度)得到的变形模型,增加宽度(如增加编码器的宽度)得到的变形模型和同时增加深度和宽度(如同时增加编码器的深度和宽度)得到的变形模型。图4中的(b)是三种组合模型的性能示意图,其中,该三种组合模型包括对增加深度得到的变形模型进行组合得到的组合模型,对增加宽度得到的变形模型进行组合得到的组合模型,以及对同时增加深度和宽度后得到的变形模型进行组合得到的组合模型。图4中的(a)和(b)的横坐标是参数量,纵坐标是BLEU值。从图4可以看出,对于单独的模型,随着参数量的增加,模型的性能提升逐渐变缓,而通过Ensemble的方式可以减小大模型的性能提升变缓的现象。
步骤307至步骤309通过对单独模型和组合后的模型进行翻译测试,可以根据测试结果准确的确定模型组合对翻译模型的具体影响。
310、计算机设备从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息。
其中,语言学知识可以是翻译所需要的语言学知识,不同级别包括表面级别、语法级别和语义级别。该第二条件在前面步骤中已有介绍,此处不做赘述。
对于每种变形模型,计算机设备从中选取符合第二条件的变形模型,例如,计算机设备从增加深度(如增加编码器的深度)得到的变形模型中选取符合第二条件的变形模型,从增加宽度(如增加编码器的宽度)得到的变形模型中选取符合第二条件的变形模型,从同时增加深度和宽度(如同时增加编码器的深度和宽度)得到的变形模型中选取符合第二条件的变形模型。然后,计算机设备对符合第二条件的每个变形模型,分别执行不同级别的语言学知识测试任务,得到不同级别的语言学知识学习信息。该语言学知识学习信息可以包括模型执行语言学知识测试任务的准确率。
在一种可能实现方式中,语言学知识测试任务为Probing Task,计算机设备通过Probing Task的方式对不同模型学习到的语言学知识进行测试,以确定不同模型所学到的语言学的差异。例如,Probing Task有十个子任务,分别对应着不同级别的语言学知识,计算机设备对这十个子任务进行三分类,分为从易到难的表面级别、语法级别和语义级别,对模型分别执行每个任务,整理任务执行结果,再对每个级别的子任务结果进行平均值处理得到最终结果,整理归纳,得到不同级别的语言学知识学习信息。Probing Task对于衡量模型学习到的语言学知识是个很好的指标,但其他的下游任务,如上下文推断,也可以达到类似的衡量作用,本申请实施例对具体的语言学知识测试任务不做限定。
本步骤310是计算机设备对多个变形模型,分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息的一种可能实现方式。该实现方式是计算机设备选取部分的变形模型,执行不同级别的语言学知识测试任务,在其他可能实现方式中,计算机设备也可以不选取,而是对全部的变形模型执行不同级别的语言学知识测试任务。
311、计算机设备根据语言学知识学习信息,确定模型结构参数对翻译模型学习语言学知识的影响力信息。
计算机设备根据变形模型的语言学知识学习信息,可以确定通过调整模型结构参数是否能够给模型带来语言学知识学习能力上的提升以及调整不同模型结构参数对语言学知识学习能力的提升情况。
在一种可能实现方式中,计算机设备可以根据不同模型结构参数的变形模型的语言学知识学习信息,如模型执行语言学知识测试任务的准确率,生成数据图。通过数据图可以直观的反映模型结构参数对翻译模型的语言学知识学习能力的影响情况。
参见图5,图5是本申请实施例提供的一种不同模型的语言学知识测试结果的示意图,图5中的(a)是不同模型结构参数的变形模型在表面级别的语言学知识测试任务上的测试结果示意图,图5中的(b)是不同模型结构参数的变形模型在语法级别的语言学知识测试任务上的测试结果示意图,图5中的(c)是不同模型结构参数的变形模型在语义级别的语言学知识测试任务上的测试结果示意图,其中,不同模型结构参数的变形模型包括增加深度(如增加编码器的深度)得到的变形模型,增加宽度(如增加编码器的宽度)得到的变形模型以及同时增加深度和宽度(如同时增加编码器的深度和宽度)得到的变形模型。图5中的(a)、(b)和(c)的横坐标是参数量,纵坐标是准确率,也即是模型执行语言学知识测试任务的准确率。
从图5可以看出,更宽的模型远比更深或者更宽同时更深的模型在语言学知识上表现的更好,依此认为更宽的模型能够作为其他自然语言处理任务的预训练模型,因为它对知识的掌握更加的完整。预训练模型是指预先训练好的模型,如更宽的模型,拿来做其他任务的模型初始化,这样接着训练新的模型时会更简单,效果会更好。
在一种可能实现方式中,本步骤包括:对多个变形模型的不同层,分别执行不同级别的语言学知识测试任务,得到该不同层的语言学知识学习信息。
计算机设备对变形模型每层表征蕴含的语言学知识进行测试,如对模型的每一层输出的表征(结果)执行语言学知识测试任务,以此来评判层级别的表征变化。参见图6,图6是本申请实施例提供的一种模型逐层的语言学知识测试结果的示意图,图6中的(a)是翻译模型逐层在表面级别的语言学知识测试任务上的测试结果示意图,包括增加编码器的深度得到的变形模型和增加编码器的宽度得到的变形模型,以及基准翻译模型的测试结果,图6中的(b)是翻译模型逐层在语法级别的语言学知识测试任务上的测试结果示意图,图6中的(c)是翻译模型逐层在语义级别的语言学知识测试任务上的测试结果示意图。从图6可以看出,表面级别的语言学知识随着层数的增加而下降,语法级别的语言学知识在浅层迅速累积但在高层饱和,语法级别的语言学知识则随着层数一直呈现上升趋势。
步骤310和步骤311通过对不同模型结构参数的翻译模型进行语言学知识的测试,可以准确的确定模型结构参数对翻译模型学习语言学知识的具体影响。
312、计算机设备从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,进行压缩剪枝处理。
其中,第二条件在前面步骤中已有介绍,此处不再赘述。计算机设备选取符合第二条件的变形模型在步骤310中已有介绍,此处不再赘述。
计算机设备对选取的变形模型,可以采用L1 norm模型压缩方法,或者L0norm模型压缩方法,或者其他类似的方法进行压缩剪枝处理,本申请实施例对具体的模型压缩方法不做限定。对于所选取的每个变形模型,计算机设备可以对该变形模型进行不同程度的压缩剪枝处理,例如,该不同程度可以包括剪掉60%的参数、剪掉50%的参数、剪掉40%的参数等。为了便于对比,计算机设备还可以对基准翻译模型也进行压缩剪枝处理。
步骤312是计算机设备对多个变形模型,进行压缩剪枝处理的一种可能实现方式,该实现方式是计算机设备选取部分的变形模型,进行压缩剪枝处理。在其他可能实现方式中,计算机设备可以不选取,而是对全部的变形模型进行压缩剪枝处理。
313、计算机设备调用压缩剪枝处理后的变形模型,对测试文本进行机器翻译,基于该压缩剪枝处理后的变形模型的翻译结果和该测试文本对应的翻译文本,获取该压缩剪枝处理后的变形模型的翻译质量参数。
本步骤中获取压缩剪枝处理后的变形模型的翻译质量参数与步骤301中获取基准翻译模型的翻译质量参数同理,此处不做赘述。
314、计算机设备根据该压缩剪枝处理后的变形模型的翻译质量参数,确定模型结构参数对翻译模型的参数利用率的影响力信息。
计算机设备根据不同模型结构参数的翻译模型进行压缩剪枝后进行翻译测试,得到的翻译质量参数,来探索不同模型结构参数的翻译模型对模型参数的利用效率。在一种可能实现方式中,计算机设备可以根据压缩剪枝处理后的变形模型的翻译质量参数以及压缩参数,生成数据图。其中,压缩参数用于指示压缩剪枝处理的程度,通过数据图可以直观的反映模型结构参数对翻译模型的参数利用率的影响情况。
参见图7,图7是本申请实施例提供的一种模型压缩剪枝的结果示意图,图7中的横坐标是模型的参数量,图7中的纵坐标是BLEU指,图7示出了不同模型结构参数的翻译模型进行压缩剪枝的结果,包括增加编码器的深度得到的变形模型和增加编码器的宽度得到的变形模型,以及基准翻译模型的结果。从图7可以看出,更大的模型(编码器的深度增加的模型和编码器的宽度增加的模型)可以被剪掉更多的参数而不影响模型的性能,也即是,更大的模型对模型的参数利用率低。
步骤310和步骤311通过对不同模型结构参数的翻译模型进行压缩剪枝后进行翻译测试,可以准确的确定模型结构参数对模型的参数利用情况。
本申请实施例提出了一种针对模型结构对翻译模型的表现力进行解释分析的方法,探索了模型结构参数(深度和宽度)对于不同翻译模型的具体影响,揭露了不同模型结构参数和模型的表现力或性能的关系,发现仅增加模型的编码器的大小与增加整个模型的大小给模型带来的增益几乎是一样的,但只需要更少的模型参数量和训练时间,节省了大量的计算复杂度和空间,并达到了同等效果的性能提升。同时发现虽然模型大小的增加持续的能提高模型的性能,但其性能的提升会逐渐变小,这个问题可以通过对多次训练或不同时间点保存的模型进行组合(Ensemble)来减轻。另外,对模型的语言学知识学习能力进行了评估,评估方法是通过probing tasks来测量各个模型对语言学知识的掌握情况,评判模型的语言学知识学习能力,结果表明增加模型的宽度可以明显的提高模型对语言学知识的学习能力,而更深的模型没有表现出类似的特性,可见,具有更宽的编码器的模型能够更好的学习语言学知识,这对预训练模型大小的选择起着重要的启示作用。在表征层面我们发现,宽模型的表征有非常明显的变化,也即是,在模型增宽的过程中,模型的输出结果的相似性差异较大,但深模型表征则变化较小,也即是在模型增深的过程中,模型的输出结果的相似性差异较小。在以后的应用中可以采用具有更大编码器的模型作为基准模型。本申请实施例提供的方法可以应用在多种不同的机器翻译模型之上,帮助理解不同的模型在改变模型大小后实质上的变化,这有助于后续辅助神经机器翻译模型的改进。在现有最好的模型上,验证了基于模型整体大小调整的局限性和基于表现力理解来改进模型的有效性。其中,基于模型整体大小调整的局限性体现在仅增加编码器的大小就可以达到调整模型整体大小的效果。这方面功能能够应用到翻译系统,提升用户体验,以更好地支撑翻译产品。
本申请实施例提供的方法,通过调用基准翻译模型和相对于基准翻译模型具有不同模型结构参数的多个变形模型,进行翻译测试,由于翻译测试得到的翻译质量参数能够表示翻译模型的翻译质量,这样根据翻译质量参数,可以分析不同模型结构参数对翻译模型的翻译质量的具体影响,从而准确的确定不同模型结构参数对翻译模型的翻译质量的影响力信息,该影响力信息可以用于提供相比现有翻译模型更加有效的新翻译模型,来对文本进行机器翻译,从而提高文本翻译的准确性。
图8是本申请实施例提供的一种信息确定装置的结构示意图。参照图8,该装置包括:
翻译模块801,用于调用基准翻译模型和基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,其中,变形模型与基准翻译模型之间至少存在一项不同的模型结构参数;
获取模块802,用于基于基准翻译模型的翻译结果和测试文本对应的翻译文本,获取基准翻译模型的翻译质量参数;
获取模块802还用于基于多个变形模型的翻译结果和测试文本对应的翻译文本,获取多个变形模型的翻译质量参数;
确定模块803,用于根据基准翻译模型的翻译质量参数、多个变形模型的翻译质量参数以及各个变形模型相对于基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
在一种可能实现方式中,翻译模块801用于:
基于训练数据集对基准翻译模型进行训练;
从训练得到的一组基准翻译模型中,选取模型评价参数符合第一条件的基准翻译模型;
调用模型评价参数符合第一条件的基准翻译模型,对测试文本进行机器翻译。
在一种可能实现方式中,翻译模块801用于:
基于训练数据集对多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取模型评价参数符合第一条件的变形模型,任一组变形模型通过对多个变形模型中的一个变形模型进行训练得到。
调用模型评价参数符合第一条件的变形模型,对测试文本进行机器翻译。
在一种可能实现方式中,装置还包括:
选取模块,用于从训练得到的不同组变形模型中,选取同一组变形模型中的模型进行组合,得到组合模型;
翻译模块801还用于调用组合模型,对测试文本进行机器翻译;
获取模块802还用于基于组合模型的翻译结果和测试文本对应的翻译文本,获取组合模型的翻译质量参数;
确定模块803还用于根据多个变形模型的翻译质量参数和组合模型的翻译质量参数,确定模型组合对翻译模型的翻译质量参数的影响力信息。
在一种可能实现方式中,模型结构参数包括编码器的深度、编码器的宽度、解码器的深度或者解码器的宽度中的至少一项;
多个变形模型包括下述至少一项:
编码器的深度相对于基准翻译模型增加的变形模型;
编码器的宽度相对于基准翻译模型增加的变形模型;
解码器的深度相对于基准翻译模型增加的变形模型;
解码器的宽度相对于基准翻译模型增加的变形模型;
编码器和解码器的深度相对于基准翻译模型增加的变形模型;
编码器和解码器的宽度相对于基准翻译模型增加的变形模型;
编码器的深度和宽度相对于基准翻译模型增加的变形模型;
解码器的深度和宽度相对于基准翻译模型增加的变形模型;
编码器的深度和宽度以及解码器的深度和宽度相对于基准翻译模型增加的变形模型。
在一种可能实现方式中,装置还包括:
测试模块,用于对多个变形模型分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息,不同级别包括表面级别、语法级别和语义级别;
确定模块803还用于根据语言学知识学习信息,确定模型结构参数对翻译模型学习语言学知识的影响力信息。
在一种可能实现方式中,测试模块用于:
基于训练数据集对多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息。
在一种可能实现方式中,测试模块用于:
对多个变形模型的不同层,分别执行不同级别的语言学知识测试任务,得到不同层的语言学知识学习信息。
在一种可能实现方式中,装置还包括:
压缩模块,用于对多个变形模型进行压缩剪枝处理;
翻译模块801还用于调用压缩剪枝处理后的变形模型,对测试文本进行机器翻译;
获取模块802还用于基于压缩剪枝处理后的变形模型的翻译结果和测试文本对应的翻译文本,获取压缩剪枝处理后的变形模型的翻译质量参数;
确定模块803还用于根据压缩剪枝处理后的变形模型的翻译质量参数,确定模型结构参数对翻译模型的参数利用率的影响力信息。
在一种可能实现方式中,压缩模块用于:
基于训练数据集对多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取参数量和模型评价参数符合第二条件的变形模型,进行压缩剪枝处理。
本申请实施例中,通过调用基准翻译模型和相对于基准翻译模型具有不同模型结构参数的多个变形模型,进行翻译测试,由于翻译测试得到的翻译质量参数能够表示翻译模型的翻译质量,这样根据翻译质量参数,可以分析不同模型结构参数对翻译模型的翻译质量的具体影响,从而准确的确定不同模型结构参数对翻译模型的翻译质量的影响力信息,该影响力信息可以用于提供相比现有翻译模型更加有效的新翻译模型,来对文本进行机器翻译,从而提高文本翻译的准确性。
需要说明的是:上述实施例提供的信息确定装置在信息确定时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信息确定装置与信息确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备900可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central ProcessingUnits,CPU)901和一个或多个存储器902,其中,存储器902中存储有至少一条程序代码,至少一条程序代码由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有至少一条程序代码的计算机可读存储介质,例如存储有至少一条程序代码的存储器,上述至少一条程序代码由处理器加载并执行,以实现上述实施例中的信息确定方法。例如,计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述实施例中的信息确定方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种信息确定方法,其特征在于,所述方法包括:
调用基准翻译模型和所述基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,其中,所述变形模型与所述基准翻译模型之间至少存在一项不同的模型结构参数,所述模型结构参数包括编码器的深度、编码器的宽度、解码器的深度或者解码器的宽度中的至少一项,所述多个变形模型包括下述至少一项:编码器的深度相对于所述基准翻译模型增加的变形模型;编码器的宽度相对于所述基准翻译模型增加的变形模型;解码器的深度相对于所述基准翻译模型增加的变形模型;解码器的宽度相对于所述基准翻译模型增加的变形模型;编码器和解码器的深度相对于所述基准翻译模型增加的变形模型;编码器和解码器的宽度相对于所述基准翻译模型增加的变形模型;编码器的深度和宽度相对于所述基准翻译模型增加的变形模型;解码器的深度和宽度相对于所述基准翻译模型增加的变形模型;编码器的深度和宽度以及解码器的深度和宽度相对于所述基准翻译模型增加的变形模型;
基于所述基准翻译模型的翻译结果和所述测试文本对应的翻译文本,获取所述基准翻译模型的翻译质量参数,所述翻译质量参数是在模型训练完成后进行测试的过程中用于评价模型表现力的参数;
基于所述多个变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述多个变形模型的翻译质量参数;
根据所述基准翻译模型的翻译质量参数、所述多个变形模型的翻译质量参数以及各个变形模型相对于所述基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,所述模型结构参数的影响力信息用于指示所述模型结构参数对所述翻译模型的翻译质量是否有影响以及影响程度。
2.根据权利要求1所述的方法,其特征在于,所述调用基准翻译模型和所述基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,包括:
基于训练数据集对所述基准翻译模型进行训练;
从训练得到的一组基准翻译模型中,选取模型评价参数符合第一条件的基准翻译模型,所述模型评价参数是在模型训练过程中用于评价模型的参数;
调用所述模型评价参数符合第一条件的基准翻译模型,对所述测试文本进行机器翻译。
3.根据权利要求1所述的方法,其特征在于,所述调用基准翻译模型和所述基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,包括:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取模型评价参数符合第一条件的变形模型,任一组变形模型通过对所述多个变形模型中的一个变形模型进行训练得到,所述模型评价参数是在模型训练过程中用于评价模型的参数;
调用所述模型评价参数符合第一条件的变形模型,对所述测试文本进行机器翻译。
4.根据权利要求3所述的方法,其特征在于,所述基于训练数据集对所述多个变形模型分别进行训练之后,所述方法还包括:
从训练得到的不同组变形模型中,选取同一组变形模型中的模型进行组合,得到组合模型;
调用所述组合模型,对所述测试文本进行机器翻译;
基于所述组合模型的翻译结果和所述测试文本对应的翻译文本,获取所述组合模型的翻译质量参数;
根据所述多个变形模型的翻译质量参数和所述组合模型的翻译质量参数,确定模型组合对翻译模型的翻译质量参数的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述多个变形模型分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息,所述不同级别包括表面级别、语法级别和语义级别;
根据所述语言学知识学习信息,确定模型结构参数对翻译模型学习语言学知识的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述多个变形模型进行压缩剪枝处理;
调用压缩剪枝处理后的变形模型,对所述测试文本进行机器翻译;
基于所述压缩剪枝处理后的变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述压缩剪枝处理后的变形模型的翻译质量参数;
根据所述压缩剪枝处理后的变形模型的翻译质量参数,确定模型结构参数对翻译模型的参数利用率的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
7.一种信息确定装置,其特征在于,所述装置包括:
翻译模块,用于调用基准翻译模型和所述基准翻译模型对应的多个变形模型,分别对测试文本进行机器翻译,其中,所述变形模型与所述基准翻译模型之间至少存在一项不同的模型结构参数,所述模型结构参数包括编码器的深度、编码器的宽度、解码器的深度或者解码器的宽度中的至少一项,所述多个变形模型包括下述至少一项:编码器的深度相对于所述基准翻译模型增加的变形模型;编码器的宽度相对于所述基准翻译模型增加的变形模型;解码器的深度相对于所述基准翻译模型增加的变形模型;解码器的宽度相对于所述基准翻译模型增加的变形模型;编码器和解码器的深度相对于所述基准翻译模型增加的变形模型;编码器和解码器的宽度相对于所述基准翻译模型增加的变形模型;编码器的深度和宽度相对于所述基准翻译模型增加的变形模型;解码器的深度和宽度相对于所述基准翻译模型增加的变形模型;编码器的深度和宽度以及解码器的深度和宽度相对于所述基准翻译模型增加的变形模型;
获取模块,用于基于所述基准翻译模型的翻译结果和所述测试文本对应的翻译文本,获取所述基准翻译模型的翻译质量参数,所述翻译质量参数是在模型训练完成后进行测试的过程中用于评价模型表现力的参数;
所述获取模块还用于基于所述多个变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述多个变形模型的翻译质量参数;
确定模块,用于根据所述基准翻译模型的翻译质量参数、所述多个变形模型的翻译质量参数以及各个变形模型相对于所述基准翻译模型发生变化的模型结构参数,确定不同模型结构参数的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响,所述模型结构参数的影响力信息用于指示所述模型结构参数对所述翻译模型的翻译质量是否有影响以及影响程度。
8.根据权利要求7所述的装置,其特征在于,所述翻译模块,用于:
基于训练数据集对所述基准翻译模型进行训练;
从训练得到的一组基准翻译模型中,选取模型评价参数符合第一条件的基准翻译模型,所述模型评价参数是在模型训练过程中用于评价模型的参数;
调用所述模型评价参数符合第一条件的基准翻译模型,对所述测试文本进行机器翻译。
9.根据权利要求7所述的装置,其特征在于,所述翻译模块,用于:
基于训练数据集对所述多个变形模型进行训练;
从训练得到的不同组变形模型中,分别选取模型评价参数符合第一条件的变形模型,任一组变形模型通过对所述多个变形模型中的一个变形模型进行训练得到,所述模型评价参数是在模型训练过程中用于评价模型的参数;
调用所述模型评价参数符合第一条件的变形模型,对所述测试文本进行机器翻译。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
选取模块,用于从训练得到的不同组变形模型中,选取同一组变形模型中的模型进行组合,得到组合模型;
所述翻译模块,还用于调用所述组合模型,对所述测试文本进行机器翻译;
所述获取模块,还用于基于所述组合模型的翻译结果和所述测试文本对应的翻译文本,获取所述组合模型的翻译质量参数;
所述确定模块,还用于根据所述多个变形模型的翻译质量参数和所述组合模型的翻译质量参数,确定模型组合对翻译模型的翻译质量参数的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
测试模块,用于对所述多个变形模型分别执行不同级别的语言学知识测试任务,得到语言学知识学习信息,所述不同级别包括表面级别、语法级别和语义级别;
确定模块,还用于根据所述语言学知识学习信息,确定模型结构参数对翻译模型学习语言学知识的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
压缩模块,用于对所述多个变形模型进行压缩剪枝处理;
翻译模块,用于调用压缩剪枝处理后的变形模型,对所述测试文本进行机器翻译;
获取模块,用于基于所述压缩剪枝处理后的变形模型的翻译结果和所述测试文本对应的翻译文本,获取所述压缩剪枝处理后的变形模型的翻译质量参数;
确定模块,用于根据所述压缩剪枝处理后的变形模型的翻译质量参数,确定模型结构参数对翻译模型的参数利用率的影响力信息,所述影响力信息用于指示对应模型结构参数对翻译模型的翻译质量参数的影响。
13.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至6任一项所述的信息确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至6任一项所述的信息确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827968.7A CN111898389B (zh) | 2020-08-17 | 2020-08-17 | 信息确定方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827968.7A CN111898389B (zh) | 2020-08-17 | 2020-08-17 | 信息确定方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898389A CN111898389A (zh) | 2020-11-06 |
CN111898389B true CN111898389B (zh) | 2023-09-19 |
Family
ID=73229680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010827968.7A Active CN111898389B (zh) | 2020-08-17 | 2020-08-17 | 信息确定方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898389B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN111046679A (zh) * | 2020-03-13 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 翻译模型的质量信息获取方法、装置及计算机设备 |
CN111178094A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种基于预训练的稀缺资源神经机器翻译训练方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
US11138392B2 (en) * | 2018-07-26 | 2021-10-05 | Google Llc | Machine translation using neural network models |
-
2020
- 2020-08-17 CN CN202010827968.7A patent/CN111898389B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN111178094A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种基于预训练的稀缺资源神经机器翻译训练方法 |
CN111046679A (zh) * | 2020-03-13 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 翻译模型的质量信息获取方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111898389A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382255B (zh) | 用于问答处理的方法、装置、设备和介质 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
US11966389B2 (en) | Natural language to structured query generation via paraphrasing | |
CN111382573A (zh) | 用于答案质量评估的方法、装置、设备和存储介质 | |
US20240265251A1 (en) | Network Model Training Method and Apparatus, Electronic Apparatus and Computer-readable Storage Medium | |
CN112200296A (zh) | 网络模型量化方法、装置、存储介质及电子设备 | |
CN116561542B (zh) | 模型的优化训练系统、方法以及相关装置 | |
JP2023120204A (ja) | ニューラルネットワークのための複合モデルスケーリング | |
CN113254620B (zh) | 基于图神经网络的应答方法、装置、设备及存储介质 | |
CN117112744B (zh) | 大语言模型的评估方法、装置及电子设备 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN115062718A (zh) | 语言模型训练方法、装置、电子设备及存储介质 | |
CN110377828B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN110489730B (zh) | 文本处理方法、装置、终端及存储介质 | |
CN117573985B (zh) | 一种应用于智能化在线教育系统的信息推送方法及系统 | |
CN111783843A (zh) | 一种特征选择方法、装置及计算机系统 | |
CN114428838A (zh) | 内容召回方法、装置、计算机设备及存储介质 | |
US10984305B1 (en) | Synthetic clickstream testing using a neural network | |
CN111898389B (zh) | 信息确定方法、装置、计算机设备及存储介质 | |
CN116561338A (zh) | 工业知识图谱生成方法、装置、设备及存储介质 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN114330285B (zh) | 语料处理方法、装置、电子设备及计算机可读存储介质 | |
CN113704452A (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
CN112541705A (zh) | 生成用户行为评估模型的方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |