CN118036618B - 游戏文本的翻译方法、装置和存储介质及电子设备 - Google Patents

游戏文本的翻译方法、装置和存储介质及电子设备 Download PDF

Info

Publication number
CN118036618B
CN118036618B CN202410448424.8A CN202410448424A CN118036618B CN 118036618 B CN118036618 B CN 118036618B CN 202410448424 A CN202410448424 A CN 202410448424A CN 118036618 B CN118036618 B CN 118036618B
Authority
CN
China
Prior art keywords
game
text
translation
game text
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410448424.8A
Other languages
English (en)
Other versions
CN118036618A (zh
Inventor
王思嘉
吴建伟
郑仲富
卿佳
刘海龙
梁有宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410448424.8A priority Critical patent/CN118036618B/zh
Publication of CN118036618A publication Critical patent/CN118036618A/zh
Application granted granted Critical
Publication of CN118036618B publication Critical patent/CN118036618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种游戏文本的翻译方法、装置和存储介质及电子设备。其中,该方法包括:获取虚拟游戏的第一游戏文本;在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇;对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示。本申请可应用于人工智能、大数据等技术领域。本申请解决了游戏文本的翻译准确性较低的技术问题。

Description

游戏文本的翻译方法、装置和存储介质及电子设备
技术领域
本申请涉及计算机领域,具体而言,涉及一种游戏文本的翻译方法、装置和存储介质及电子设备。
背景技术
在将虚拟游戏的游戏文本从当前语种翻译为其他语种的过程中,由于虚拟游戏的游戏文本存在着较为复杂的规则,且现有翻译工具无法理解这些规则,进而导致所输出的翻译结果的准确性较低。
例如,游戏文本中会存在着用于描述文本显示信息的特殊标识符,而现有翻译工具对与这些特殊标识符往往会直接忽略,或直接对特殊标志符进行翻译,进而导致游戏文本的信息缺失,或产生其他无效信息。且,游戏文本会具有与大数据所不同的特有翻译方式,而现有翻译工具正是基于大数据所得到的,进而导致游戏文本的翻译结果不适于该虚拟游戏。
故,相关技术中存在游戏文本的翻译准确性较低的技术问题。
发明内容
本申请实施例提供了一种游戏文本的翻译方法、装置和存储介质及电子设备,以至少解决相关技术中存在时序预测的准确性较低的技术问题。
根据本申请实施例的一个方面,提供了一种游戏文本的翻译方法,包括:获取虚拟游戏的第一游戏文本,其中,第一游戏文本是第一语种的游戏文本;在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本的文本含义,第一游戏文本由至少两个游戏词汇组成;对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示,其中,第二游戏文本是第二语种的游戏文本。
根据本申请实施例的另一方面,还提供了一种游戏文本的翻译装置,包括:获取单元,用于获取虚拟游戏的第一游戏文本,其中,第一游戏文本是第一语种的游戏文本;解析单元,用于在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;分词单元,用于在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本的文本含义,第一游戏文本由至少两个游戏词汇组成;翻译单元,用于对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示,其中,第二游戏文本是第二语种的游戏文本。
作为一种可选的方案,分词单元,包括:第一获取模块,用于根据参考信息获取第一游戏文本的指示标签,其中,不同的指示标签对应不同的分词方式;第二获取模块,用于获取指示标签对应的指示分词方式;分词模块,用于按照指示分词方式,对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇。
作为一种可选的方案,第一获取模块,包括:第一确定子模块,用于在参考信息中包括第一游戏文本对应的第一文本标注的情况下,将第一文本标注,确定为指示标签,其中,第一文本标注用于概括第一游戏文本的表意。
作为一种可选的方案,第一获取模块,包括:第二确定子模块,用于从参考信息中确定出第一游戏文本在虚拟游戏中的上下文信息;获取子模块,用于根据上下文信息,获取指示标签。
作为一种可选的方案,获取子模块,包括:确定子单元,用于在参考信息中包括第一游戏文本对应的第二文本标注的情况下,利用上下文信息,对第二文本标注进行优化,并将优化后的文本标注确定为指示标签,其中,第二文本标注用于概括第一游戏文本的表意。
作为一种可选的方案,装置还包括:第三获取模块,用于在虚拟游戏中,按照指定显示方式进行显示之前,获取虚拟游戏的第一显示区域的尺寸信息,其中,第一显示区域用于按照指定显示方式显示第二游戏文本;验证模块,用于在虚拟游戏中,按照指定显示方式进行显示之前,利用尺寸信息,对第二游戏文本的文本数量信息进行验证,其中,验证用于确定第二游戏文本能否按照指定显示方式显示在第一显示区域。
作为一种可选的方案,翻译单元包括:第一翻译模块,用于使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本,其中,多个游戏文本中的各个游戏文本对应一个输出概率;
第一确定模块,用于将多个游戏文本中输出概率最高的游戏文本确定为第二游戏文本;装置还包括:第二确定模块,用于在利用尺寸信息,对第二游戏文本的文本数量信息进行验证之后,在第二游戏文本不能按照指定显示方式显示在第一显示区域的情况下,从多个游戏文本中确定出文本数量信息符合尺寸信息指示的显示条件、且输出概率最高的第三游戏文本;显示模块,用于在利用尺寸信息,对第二游戏文本的文本数量信息进行验证之后,在虚拟游戏的第一显示区域,按照指定显示方式对第三游戏文本进行显示。
作为一种可选的方案,装置还包括:第四获取模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,获取待选的多个基座模型;第一训练模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,使用第一训练数据集,对多个基座模型进行翻译评估,得到评估质量分数最高的第一基座模型,其中,第一训练数据集包括虚拟游戏的游戏文本数据和非虚拟游戏的测试文本数据;第二训练模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,使用第二训练数据集,对第一基座模型进行组合参数调整,得到第二基座模型,其中,组合参数包括训练批次参数、迭代样本参数、训练步长参数,第二训练集合包括第一数量的游戏文本数据;第三训练模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,使用第三训练数据集,对第二基座模型进行模型语料训练,得到翻译模型,第三训练数据集包括第二数量的游戏文本数据,第二数量大于第一数量。
作为一种可选的方案,获取单元包括:第五获取模块,用于从游戏配置表中已写入的游戏文本中获取第一游戏文本,其中,游戏配置表第一列的各行用于写入第一语种的游戏文本,游戏配置表第一列外的其他列的各行用于存储被翻译后的其他语种的游戏文本,其他语种包括第二语种,游戏配置表中相同行的不同列对应一个游戏文本的不同语种类型;装置还包括:存储模块,用于在虚拟游戏中,按照指定显示方式进行显示之前,将第二游戏文本存储在游戏配置表的第一存储区域,其中,在检测到对第一存储区域触发的第一调整请求的情况下,第一存储区域内的第二游戏文本被允许进行调整。
作为一种可选的方案,装置还包括:第四训练模块,用于在检测到第二游戏文本在第一存储区域内进行调整的情况下,将调整后的第二游戏文本作为正样本、调整前的第二游戏文本作为负样本,补充至第三训练数据集,对翻译模型进行模型优化。
作为一种可选的方案,翻译单元包括:第二翻译模块,用于对有序的至少两个游戏词汇进行第一翻译处理,得到第一翻译结果,其中,第一翻译结果为第一语种的、用于解释有序的至少两个游戏词汇的游戏文本;第三翻译模块,用于对第一游戏文本进行第二翻译处理,得到第二翻译结果,其中,第二翻译处理用于将第一翻译结果转换为第二语种的游戏文本;第四翻译模块,用于对第二翻译结果进行第三翻译处理,得到第三翻译结果,其中,第三翻译结果为第二语种的、用于概括第二翻译结果的游戏文本;第三确定模块,用于将第三翻译结果确定为第二游戏文本。
根据本申请实施例的又一个方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序/指令,处理器执行该计算机程序/指令,使得该计算机设备执行如以上游戏文本的翻译方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的游戏文本的翻译方法。
在本申请实施例中,在对第一语种的第一游戏文本进行翻译时,先对第一游戏文本中存在的标识符所包裹的显示数据进行解析,以得到标识符所指示的指定显示方式,既避免了对标识符文本的忽视所导致的游戏文本(显示)信息缺失,又避免了对标识符本身直接进行翻译所导致游戏文本翻译结果错误,进而提高游戏文本的翻译准确性;进一步还利用游戏文本在虚拟游戏中关联的参考信息对游戏文本进行相应的分词处理,以达到结合游戏文本在虚拟游戏中的文本含义,准确对游戏文本进行分词的目的,进而避免了由于分词不当导致的翻译结果不适用该虚拟游戏场景的缺陷,提高游戏文本的翻译准确性。如此,在本申请实施例中,通过准确理解虚拟游戏的游戏文本的文本含义和复杂规则,从而实现了提高游戏文本的翻译准确性的技术效果,解决了相关技术中存在游戏文本的翻译准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的游戏文本的翻译方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的游戏文本的翻译方法的流程的示意图;
图3是根据本申请实施例的一种可选的游戏文本的翻译方法的示意图;
图4是根据本申请实施例的一种可选的游戏文本的翻译方法的示意图;
图5是根据本申请实施例的一种可选的游戏文本的翻译方法的示意图;
图6是根据本申请实施例的一种可选的游戏文本的翻译方法的示意图;
图7是根据本申请实施例的一种可选的游戏文本的翻译方法的示意图;
图8是根据本申请实施例的一种可选的游戏文本的翻译方法的示意图;
图9是根据本申请实施例的一种可选的游戏文本的翻译装置的示意图;
图10根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
预训练模型(Pre-trainingmodel),也称基石模型、基座模型、大模型,指具有大参量的深度神经网络(Deepneuralnetwork,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(finetune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT, CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
根据本申请实施例的一个方面,提供了一种游戏文本的翻译方法,可选地,作为一种可选的实施方式,上述游戏文本的翻译方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括客户端102以及服务器112,该客户端102上可以但不限于包括显示器104、处理器106及存储器108,该服务器112包括数据库114以及处理引擎116。
具体过程可如下步骤:
步骤S102,客户端102获取对第一游戏文本1002触发的翻译请求,其中,翻译请求用于请求将虚拟游戏1001中的第一语种的第一游戏文本1002翻译成第二语种的游戏文本;
步骤S104-S106,客户端102向服务器112发送翻译请求;
步骤S108,服务器112响应翻译请求,对第一游戏文本1002中包括的标识符,所包裹的显示数据进行解析处理,得到第一游戏文本1002在虚拟游戏中的指定显示方式;
步骤S110,利用第一游戏文本1002在虚拟游戏中关联的参考信息,对第一游戏文本1002进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本1002的文本含义,第一游戏文本1002由至少两个游戏词汇组成;
步骤S112,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本1003;
步骤S114-S116,通过网络110将第二游戏文本1003发送至客户端102,其中,客户端102中的处理器106用于接收以及处理第二游戏文本1003,并将第二游戏文本1003显示在显示器104上,以及将相关数据存储在存储器108内,第二游戏文本1003显示在虚拟游戏1001中的、与原第一游戏文本1002相同的显示区域。
除图1示出的示例之外,上述步骤可以由客户端或服务器独立完成,或由客户端和服务器共同协作完成,如由客户端102执行上述S108至S112等步骤,从而减轻服务器112的处理压力。该客户端102包括但不限于笔记本电脑、平板电脑、台式电脑、智能电视等,本申请并不限制客户端102的具体实现方式。服务器112可以是单个的服务器或者是多个服务器构成的服务器集群,也可以是云服务器。
可选地,作为一种可选的实施方式,如图2所示,游戏文本的翻译方法可以由电子设备执行,如图1所示的客户端或服务器,具体步骤包括:
S202,获取虚拟游戏的第一游戏文本,其中,第一游戏文本是第一语种的游戏文本;
S204,在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;
S206,在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本的文本含义,第一游戏文本由至少两个游戏词汇组成;
S208,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示,其中,第二游戏文本是第二语种的游戏文本。
可选地,在本实施例中,上述游戏文本的翻译方法可以但不限于应用在虚拟游戏的翻译场景,例如,将虚拟游戏从当前第一语种翻译为其他语种,其中,其他语种可以但不限于为一个语种,或多个语种。
可选地,在本实施例中,虚拟游戏的第一游戏文本,为虚拟游戏中用于展示给玩家的、第一语种的游戏文本。举例说明,第一游戏文本可以但不限于为虚拟游戏中的虚拟角色的相关文本信息(例如名称、介绍等),还可以但不限于为虚拟游戏中与虚拟角色关联的技能信息、背景故事信息等。
在虚拟游戏展示游戏文本给玩家的过程中,为了提高玩家的用户体验,常常在游戏文本中针对部分文本进行标识符的插入,以达到对部分文本的指定格式显示效果,例如高亮显示、不同颜色显示、不同粗细显示等。
可选地,在本实施例中,游戏文本中包含的标识符,可以但不限于为HTML(HyperText Markup Language,超文本标记语言)标识符,例如<color=#ffd400>,其中,“#ffd400”用于指示该标识符所包裹的显示数据的显示方式为以绿色颜色进行显示。
进一步举例说明,以第一游戏文本为“<color=#ffd400>【技能】</color>期间角色处于霸体状态”为例(#ffd400标识符指示绿色),则第一游戏文本所表达的是:以中文语种显示绿色的“【技能】”和默认颜色的“期间角色处于霸体状态”。在将第一游戏文本翻译为英文语种(也可为其他语种)的情况下,现有技术翻译工具由于不具有标识符预测手段,常常忽略上述标识符所指示的指定显示方式,进而翻译结果为以英文语种显示默认颜色的“【技能】期间角色处于霸体状态”,甚至会将上述标识符本身信息也作为待翻译对象,进而翻译结果为以英文语种显示默认显示的“颜色#ffd400【技能】期间角色处于霸体状态”。
可见,如果缺少对标识符包裹的显示数据进行解析处理的操作,则会出现翻译结果中显示信息缺失或错误信息增加的情况。
进一步,使用本实施例提供的上述解析处理操作,先对标识符所包裹的显示数据(对应上述“【技能】”)进行解析处理,确定上述“【技能】”是要以绿色颜色进行指定显示的,进而确定上述第一游戏文本“<color=#ffd400>【技能】</color>期间角色处于霸体状态”在虚拟游戏中的指定显示方式为以绿色颜色显示“【技能】”、以及已默认颜色显示“期间角色处于霸体状态”,进而再对除去上述标识符的第一游戏文本进行分词、翻译等处理,得到翻译结果,并按照上述指定显示方式对翻译结果进行显示。
可选地,在本实施例中,第一游戏文本在虚拟游戏中关联的参考信息,用于描述第一游戏文本的文本含义,可以但不限于包括游戏文本的指示标签,其中,游戏文本的指示标签用于匹配与之对应的分词方式。
第一游戏文本在虚拟游戏中关联的参考信息,还可以但不限于包括第一游戏文本对应的文本标注,其中,文本标注用于概括第一游戏文本的表意。可以理解的是,文本标注可以但不限于通过对第一游戏文本的各个组成文字进行模块拆分,以实现概括第一游戏文本的表意。
进一步举例说明,在第一游戏文本为“斗破山河”为例,若第一游戏文本只存在一个位于“破”和“山”之间的文本标注的情况下,则第一游戏文本“斗破山河”的表意为“斗破”“山河”,即一个动词加一个名词的组合。而若第一游戏文本存在三个文本标注且分别存在于“斗”“破”之间、“破”“山”之间、“山”“河”之间,则第一游戏文本“斗破山河”的表意为“斗”“破”“山”“河”,即两个动词加两个名词的组合。
可以理解的是,对于同一个游戏文本,不同文本标注下游戏文本的表意是不同的,对应的分词方式和翻译结果也是不同的。
需要说明的是,在利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇之后,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示。
需要说明的是,上述翻译过程,可以但不限于使用预先训练的翻译模型实现,其中,翻译模型可以但不限于为在基座模型的基础上,使用虚拟游戏的游戏文本数据进行训练得到的。
通过本申请提供的实施例,在对第一语种的第一游戏文本进行翻译时,先对第一游戏文本中存在的标识符所包裹的显示数据进行解析,以得到标识符所指示的指定显示方式,既避免了对标识符文本的忽视所导致的游戏文本(显示)信息缺失,又避免了对标识符本身直接进行翻译所导致游戏文本翻译结果错误,进而提高游戏文本的翻译准确性;进一步还利用游戏文本在虚拟游戏中关联的参考信息对游戏文本进行相应的分词处理,以达到结合游戏文本在虚拟游戏中的文本含义,准确对游戏文本进行分词的目的,进而避免了由于分词不当导致的翻译结果不适用该虚拟游戏场景的缺陷,提高游戏文本的翻译准确性。如此,在本申请实施例中,通过准确理解虚拟游戏的游戏文本的文本含义和复杂规则,从而实现了提高游戏文本的翻译准确性的技术效果。
作为一种可选的方案,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,得到有序的至少两个游戏词汇包括:
S1,根据参考信息获取第一游戏文本的指示标签,其中,不同的指示标签对应不同的分词方式;
S2,获取指示标签对应的指示分词方式;
S3,按照指示分词方式,对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇。
可选地,在本实施例中,指示标签可以但不限于为用于指示游戏文本的分词方式,可以但不限于基于参考信息中所包括的文本标注信息确定。
进一步举例说明,以第一游戏文本为“如意金箍棒”且第一游戏文本的参考信息中包括两个文本标注,其中,第一个文本标注位于“意”“金”之间,第二个文本标注位于“箍”“棒”之间,则确定第一游戏文本的指示标签为第一指示标签,其中,第一指示标签用于指示将5个字的“如意金箍棒”按照2个字+2个字+1个字的分词方式进行分词,即“如意”“金箍”“棒”的分词方式。
可选地,在本实施例中,指示标签还可以但不限于基于参考信息中所包括的上下文信息和文本标注信息确定。
可以理解的是,上述游戏文本可以但不限于为虚拟游戏的策划或相关负责人提前写入的文本,上述文本标注信息可以但不限于基于虚拟游戏类型和游戏文本的字数自动生成的,还可以但不限于为由策划或相关负责人手动写入的,还可以但不限于为上述两种方式结合得到的,即先自动生成再可由策划或相关负责人进行调整(增删改)。
因此,还可以但不限于基于游戏文本的上下文信息和文本标注信息共同确定游戏文本的分词方式,即确定游戏文本的指示标签,其中,游戏文本的上下文信息可以但不限于包括以下至少之一:游戏文本在虚拟游戏中的简介信息、游戏文本在虚拟游戏中的背景信息等对游戏文本的含义具有更加明确含义指示性的信息,上下文信息可以但不限于对已有的文本标注信息进行优化,包括以下至少之一:新增文本标注、删除文本标注、改动文本标注(位置)等优化方式。
需要说明的是,不同指示标签对应不同的分词方式,按照指示分词方式,对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇。
通过本申请提供的实施例,根据参考信息获取游戏文本的指示标签,进而确定出游戏文本所对应的分词处理方式,达到结合游戏文本在虚拟游戏中的文本含义,准确对游戏文本进行分词的目的,进而实现了提高游戏文本的翻译准确性的技术效果。
作为一种可选的方案,根据参考信息获取第一游戏文本的指示标签,包括:
S1,在参考信息中包括第一游戏文本对应的第一文本标注的情况下,将第一文本标注,确定为指示标签,其中,第一文本标注用于概括第一游戏文本的表意。
可选地,在本实施例中,指示标签基于参考信息中所包括的文本标注信息确定,以用于指示游戏文本的分词方式。
可选地,在本实施例中,单个的文本标注可以但不限于存在于游戏文本的某两个文字(或某两个字符)之间,以用于指示在该两个文字(或两个字符)之间需要分词处理。一个游戏文本中可以不包括文本标注,以表示该游戏文本作为一个整体进行翻译,也可以包括一个或个文本标注,以表示该游戏文本作为N个局部进行翻译,其中,N为文本标注的数量加1。
进一步举例说明,以第一游戏文本为“如意金箍棒”且第一游戏文本的参考信息中包括两个文本标注,其中,第一个文本标注位于“意”“金”之间,第二个文本标注位于“箍”“棒”之间,则确定第一游戏文本的指示标签为第一指示标签,其中,第一指示标签用于指示将5个字的“如意金箍棒”按照2个字+2个字+1个字的分词方式进行分词,即“如意”“金箍”“棒”的分词方式。
通过本申请提供的实施例,基于参考信息中包括的文本标注信息,确定出指示标签,其中,一种文本标注的组合方式,相当于对应一种指示标签,进而能够确定出游戏文本在虚拟游戏中的分词方式,进而准确指示游戏文本的含义,从而实现了提高游戏文本的翻译准确性的技术效果。
作为一种可选的方案,根据参考信息获取第一游戏文本的指示标签,包括:
S1,从参考信息中确定出第一游戏文本在虚拟游戏中的上下文信息;
S2,根据上下文信息,获取指示标签。
可选地,在本实施例中,游戏文本的上下文信息可以但不限于为基于游戏文本的含义,结合虚拟游戏场景下具有更加明确含义指示性的信息,包括以下至少之一:游戏文本在虚拟游戏中的简介信息、游戏文本在虚拟游戏中的背景信息。
可选地,在本实施例中,根据上下文信息获取指示标签可以但不限于包括:使用上下文信息对已有文本标注信息进行优化,包括以下至少之一:新增文本标注、删除文本标注、改动文本标注(位置)等优化方式。
作为一种可选的方案,根据上下文信息,获取指示标签,包括:
S1,在参考信息中包括第一游戏文本对应的第二文本标注的情况下,利用上下文信息,对第二文本标注进行优化,并将优化后的文本标注确定为指示标签,其中,第二文本标注用于概括第一游戏文本的表意。
可选地,在本实施例中,利用上下文信息,对第二文本标注信息进行优化,可以但不限于包括使用上下文信息对已有文本标注信息进行优化,包括以下至少之一:新增文本标注、删除文本标注、改动文本标注(位置)等优化方式。
进一步举例说明,以第一游戏文本为“获得爱丽樱吹雪皮肤”且第一游戏文本的参考信息中包括的第二文本标注,位于“得”“爱”之间、“丽”“樱”之间、“雪”“皮”之间,也即第二文本标注指示第一游戏文本的表意为“获得/爱丽樱吹雪/皮肤”(表意为获得一个皮肤,且皮肤名称为爱丽樱吹雪),进一步在获取到上下文信息指示第一游戏文本在该虚拟游戏中“爱丽”是一个英雄,名称,“樱吹雪”是一个皮肤名称,则利用上下文信息,对第二文本标注进行优化,包括在“丽”“樱”之间新增一个文本标注,并将优化后的文本标注确定为指示标签,进而指示标签用于指示“获得/爱丽/樱吹雪/皮肤”的分词方式(表意为获得一个英雄的皮肤,且英雄名称为爱丽,皮肤名称为樱吹雪)。
通过本申请提供的实施例,利用游戏文本在虚拟游戏中的简介信息、背景信息,对已有文本标注信息进行新增、删除、改动(位置)的优化操作,进而在原有指示标签的确定方式的基础上,能够灵活进行调整文本标注信息,进而达到灵活调整指示标签的目的,从而实现了提高游戏文本的翻译准确性的技术效果。
作为一种可选的方案,在在虚拟游戏中,按照指定显示方式进行显示之前,方法还包括:
S1,获取虚拟游戏的第一显示区域的尺寸信息,其中,第一显示区域用于按照指定显示方式显示第二游戏文本;
S2,利用尺寸信息,对第二游戏文本的文本数量信息进行验证,其中,验证用于确定第二游戏文本能否按照指定显示方式显示在第一显示区域。
可选地,在本实施例中,第一显示区域可以但不限于为虚拟游戏中显示第一游戏文本的区域,以及用于按照指定显示方式显示第二游戏文本的区域。
可以理解的是,对于虚拟游戏而言,即使存在不同语种的不同游戏版本,但各个游戏版本之间的游戏显示界面、交互界面等框架信息是一致的。因此,在实现对第一游戏文本的语种翻译过程中,还需要保证翻译后的第二游戏文本能够以指定显示方式显示在第一显示区域内,而不会出现超出显示区域的问题。
需要说明的是,对于不同语种的不同游戏版本而言,不同语种的游戏文本往往是以相同字体大小进行显示的。且显示区域也往往是不能随意变更大小、位置等尺寸信息,因此,如果出现翻译结果超出显示区域的情况下,需要对翻译结果进行调整或者替换。
通过本申请提供的实施例,在得到翻译后的翻译结果,进一步对翻译结果的文本数量信息进行验证,以确定是否能够按照指定显示方式显示在相应显示区域。
作为一种可选的方案,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,包括:
S1,使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本,其中,多个游戏文本中的各个游戏文本对应一个输出概率;
S2,将多个游戏文本中输出概率最高的游戏文本确定为第二游戏文本;
在利用尺寸信息,对第二游戏文本的文本数量信息进行验证之后,方法还包括:
S3,在第二游戏文本不能按照指定显示方式显示在第一显示区域的情况下,从多个游戏文本中确定出文本数量信息符合尺寸信息指示的显示条件、且输出概率最高的第三游戏文本;
S4,在虚拟游戏的第一显示区域,按照指定显示方式对第三游戏文本进行显示。
可选地,在本实施例中,翻译模型可以但不限于为在基座模型的基础上,使用虚拟游戏的游戏文本数据进行训练得到的,其中,翻译模型在对有序的至少两个游戏词汇进行翻译的过程中,会得到第二语种的多个游戏文本,每一个游戏文本对应一个输出概率,将输出概率最高的游戏文本确定为第二游戏文本。
可选地,在本实施例中,在第二游戏文本能够按照指定显示方式显示在第一显示区域的情况下,确定第二游戏文本并不会出现显示超框的问题,进而将第二游戏文本按照指定显示方式显示在第一显示区域。
可选地,在本实施例中,在第二游戏文本不能按照指定显示方式显示在第一显示区域的情况下,从多个游戏文本中确定出文本数量信息符合尺寸信息指示的显示条件、且输出概率最高的第三游戏文本。
需要说明的是,在第二游戏文本不能按照指定显示方式显示在第一显示区域且上述确定的第三游戏文本的输出概率低于概率预设阈值的情况下,确定上述第三游戏文本的翻译可信度不佳,进而在这种情况下还可以但不限于对第二游戏文本进行第二语种的翻译压缩处理,即将第二语种的第二游戏文本翻译压缩得到第二语种的第四游戏文本,其中,第四游戏文本符合尺寸信息指示的显示条件;在虚拟游戏的第一显示区域,按照指定显示方式对第四游戏文本进行显示。
通过本申请提供的实施例,在第二游戏文本不能按照指定显示方式显示在第一显示区域的情况下,从多个游戏文本中确定出文本数量信息符合尺寸信息指示的显示条件、且输出概率最高的第三游戏文本,进而实现了在保障翻译结果在显示过程不超框的前提下,最大程度提高翻译结果准确性的技术效果。
作为一种可选的方案,在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,方法还包括:
S1,获取待选的多个基座模型;
S2,使用第一训练数据集,对多个基座模型进行翻译评估,得到评估质量分数最高的第一基座模型,其中,第一训练数据集包括虚拟游戏的游戏文本数据和非虚拟游戏的测试文本数据;
S3,使用第二训练数据集,对第一基座模型进行组合参数调整,得到第二基座模型,其中,组合参数包括训练批次参数、迭代样本参数、训练步长参数,第二训练集合包括第一数量的游戏文本数据;
S4,使用第三训练数据集,对第二基座模型进行模型语料训练,得到翻译模型,第三训练数据集包括第二数量的游戏文本数据,第二数量大于第一数量。
可选地,在本实施例中,在虚拟游戏的整体封闭开发环境下,考虑到保密需求,并不直接选择常用的GPT模型,以避免安全隐患。
可选地,在本实施例中,待选的多个基座模型可以但不限于业内开源模型中的基座模型,例如chatglm、bella(7b、13b)、llama(7b、13b)、llama2(7b、13b)、Qwen14b、baichuan13b等。
可选地,在本实施例中,第一训练数据集包括虚拟游戏的游戏文本数据和非虚拟游戏的测试文本数据,其中,游戏文本数据可以但不限于为游戏术语文案,测试文本数据可以但不限于为WMT(国际机器翻译公开评测)专业翻译领域测试数据集。游戏文本数据和测试文本数据的数量可以设置为相同数量,以确定出最适合该虚拟游戏领域的基座模型。
可选地,在本实施例中,可以但不限于使用质量评估模型进行质量评估,对使用上述第一训练数据集对各个基座模型进行翻译的翻译结果进行质量评估,得到评估质量分数最高的第一基座模型。
需要说明的是,在明确了第一基座模型之后,并不能无法直接使用它,还需要用技术手段对其进行优化。在没有优化之前,对于虚拟游戏内的相关专业术语,如技能描述文案里面所包含的游戏术语,如亥犽,以及游戏文本中所使用的html符号,都在原始基座模型的翻译结果中,没有得到好的体现。
可选地,在本实施例中,第二训练数据集包括第一数量的虚拟游戏的游戏文本数据,其中,第一数量的数值一般较小。
可选地,在本实施例中,对第一基座模型的组合参数进行调整,得到调整后的第二基站模型,其中,调整的组合参数包括训练批次参数、迭代样本参数、训练步长参数。
具体地,上述训练批次参数(epoch)为深度学习里面用于做训练批次的概念,过少的批次,会导致损失函数值过高,学习度不够,模型没有什么学习效果,批次过高,往往会导致模型灾难性遗忘本身的能力知识,产生一个过拟合状态。
上述迭代样本参数(batchsize)为深度学习和机器学习中训练模型时使用的概念。它是指在每次迭代过程中输入到模型中的数据样本数量。
训练步长参数(learning rate)为模型训练的过程中的学习率。在模型训练的过程中,通常使用一种叫做梯度下降(Gradient Descent)的方法来逐步优化模型的参数。在每一步,计算出模型当前参数下的损失函数(Loss Function)的梯度,然后按照梯度的反方向更新参数,希望能够使损失函数的值减小。学习率就是决定按照梯度下降的方向移动的“步长”。
可以理解的是,在对第一基座模型进行组合参数调整过程中,上述参数的不同数值和组合情况,会直接影响到模型训练质量和效率。
在上述组合参数调整过程中,先对迭代样本参数(batchsize)进行确定,受GPU显存影响最大,每个运算迭代送入模型神经网络的数据大小会影响到当前运算所需要开销的显存,而在GPU容器上这块使用的GPU的极限情况下,选择迭代样本参数(batchsize)为2来达到,显存不溢出,且保留一定泛化能力,且损失函数震动情况较少的一个最优解。
在明确迭代样本参数(batchsize)的前提之下,尝试对训练批次参数(epoch)为各个值(如2、3……7)的情况,因为epoch过小,模型拟合程度过低,学习不到太多的知识,epoch过大,模型过拟合概率增大,遗忘本身的能力,所以测试过不同的epoch,在虚拟游戏的垂类知识领域的学习度,以及模型本身知识的泛化能力如何。
例如,在epoch为7的时候找了一个语料遵循度最好且模型泛化能力保持最好的一个状态点,即语料原本要求的翻译完全一致。
在明确迭代样本参数(batchsize)、训练批次参数(epoch)的前提之下,进一步对学习率做了一些尝试和调整,尝试大学习率(如3E4,即3e-4),以及中等学习率(如1E4,即1e-4),以及小学习率(如1E5,即1e-5)的情况下,模型的一个表现,并从中确定出表现最好的学习率。
为使得第二基座模型具备虚拟游戏的语料语境能力,除了上文描述的组合参数调整还不够,还需要使用第三训练数据集进行原始数据的输送,给模型传授该能力,其中,第三训练数据集包括第二数量的虚拟游戏的游戏文本数据,第二数量的数值一般较大,第二数量大于第一数量。
通过本申请提供的实施例,基于基座模型选定、超参数调整优化和模型语料训练等过程,达到了层层递进、全方位提高用于虚拟游戏的游戏文本翻译的翻译模型的训练质量的目的,从而实现了提高游戏文本的翻译准确性的技术效果。
作为一种可选的方案,
获取虚拟游戏的第一游戏文本包括:
S1,从游戏配置表中已写入的游戏文本中获取第一游戏文本,其中,游戏配置表第一列的各行用于写入第一语种的游戏文本,游戏配置表第一列外的其他列的各行用于存储被翻译后的其他语种的游戏文本,其他语种包括第二语种,游戏配置表中相同行的不同列对应一个游戏文本的不同语种类型;
在虚拟游戏中,按照指定显示方式进行显示之前,方法还包括:
S2,将第二游戏文本存储在游戏配置表的第一存储区域,其中,在检测到对第一存储区域触发的第一调整请求的情况下,第一存储区域内的第二游戏文本被允许进行调整。
可选地,在本实施例中,配置表可以但不限于包括多行多列,其中,第一列中的各行用于虚拟游戏的策划或相关负责人写入第一语种的游戏文本,其他列中的各行用于显示上述第一语种的游戏文本的其他语种,每一列对应一种语种,且每一行对应同一游戏文本的不同语种版本。
需要说明的是,从游戏配置表中已写入的游戏文本中获取第一游戏文本,可以但不限于实时获取到配置表中新增的一个游戏文本,将该新增的一个游戏文本确定为第一游戏文本;还可以但不限于周期性获取配置表中新增的多个游戏文本,将多个游戏文本确定为第一游戏文本。一个游戏文本对应配置表的一个行区域。
需要说明的是,在虚拟游戏中,按照指定显示方式进行显示之前,将第二游戏文本存储在游戏配置表的第一存储区域,其中,在检测到对第一存储区域触发的第一调整请求的情况下,第一存储区域内的第二游戏文本被允许进行调整。
可选地,在本实施例中,第一调整请求可以但不限于为翻译校对人员触发的、用于请求对翻译结果进行修改/调整的请求,并在配置表中将修改/调整后的翻译结果进行更新。
进一步举例说明,如图3所示,包括标识列、翻译原文列和翻译结果列,其中,标识列为游戏文本在虚拟游戏内部的唯一标识,翻译原文列为游戏文本的第一语种(中文)的原文,翻译结果列为通过上述翻译模型所输出的第二语种(英文)的翻译结果。
可以理解的是,翻译校对人员可以在上述翻译结果列直接对翻译结果进行调整优化,并且调整优化后的结果返回给翻译模型,进行翻译模型的强化增量学习。
通过本申请提供的实施例,实时或定时从游戏配置表中获取单个或批量的游戏文本进行翻译,并将翻译结果及时反馈在游戏配置表中,能够高效得到游戏文本不同语种的翻译结果并显示存储在同一游戏配置表的界面下,也便于游戏翻译校对人员的后续校对调整工作,从而整体上实现了提高游戏文本的翻译效率的技术效果。
作为一种可选的方案,在检测到第二游戏文本在第一存储区域内进行调整的情况下,方法还包括:
S1,将调整后的第二游戏文本作为正样本、调整前的第二游戏文本作为负样本,补充至第三训练数据集,对翻译模型进行模型优化。
可选地,在本实施例中,将调整后的第二游戏文本作为正样本、调整前的第二游戏文本作为负样本,补充至第三训练数据集,对翻译模型进行模型的强化增量学习,以实现对翻译模型的优化目的。
通过本申请提供的实施例,对于翻译模型输出的翻译结果中存在的一些可以优化的地方,经过翻译人员校对优化后,将校对优化后的正负样本,进行模型的强化增量学习,达到翻译模型可以正确习得知识点的目的,从而提高翻译模型输出的游戏文本的翻译结果准确性的技术效果。
作为一种可选的方案,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本包括:
S1,对有序的至少两个游戏词汇进行第一翻译处理,得到第一翻译结果,其中,第一翻译结果为第一语种的、用于解释有序的至少两个游戏词汇的游戏文本;
S2,对第一游戏文本进行第二翻译处理,得到第二翻译结果,其中,第二翻译处理用于将第一翻译结果转换为第二语种的游戏文本;
S3,对第二翻译结果进行第三翻译处理,得到第三翻译结果,其中,第三翻译结果为第二语种的、用于概括第二翻译结果的游戏文本;
S4,将第三翻译结果确定为第二游戏文本。
可选地,在本实施例中,翻译模型可以但不限于包括第一翻译子模型、第二翻译子模型、第三翻译子模型,其中,第一翻译子模型用于对有序的至少两个游戏词汇在第一语种范围内进行解释,以得到更加详细的第一翻译结果,第二翻译子模型用于对将第一翻译结果从第一语种翻译至第二语种,得到翻译后的第二翻译结果,第三翻译子模型用于对第二翻译结果在第二语种范围内进行概况,以得到更加简洁的第三翻译结果,同时达成能够在显示区域内不超框的显示效果。
进一步举例说明,以第一游戏文本为“大闹天宫”、有序的至少两个游戏词汇为“大闹”“天宫”为例,上述第一翻译处理后的第一翻译结果可以但不限于为“巨大程度上的扰乱”“神王居住的宫殿”,进而对“巨大程度上的扰乱”“神王居住的宫殿”分别进行翻译,得到目标语种的翻译结果,再在该目标语种下,对该翻译结果进行概况,以得到更加简洁且准确的最终翻译结果。
可以理解的是,在虚拟游戏场景下,游戏文本常常是具有概括性的文本,直接进行翻译反而会出现与实际要表达的意思不吻合的问题,进而利用上述方式,能够保证游戏文本的翻译准确性,同时兼顾翻译结果的简洁性。
通过本申请提供的实施例,先在原始的第一语种下进行游戏文本的解释,再对解释结果进行翻译,得到目标的第二语种的初始翻译结果,再对初始翻译结果进行概况,得到目标的第二语种的最终翻译结果,能够保证游戏文本的翻译准确性,同时兼顾翻译结果的简洁性。
作为一种可选的方案,将上述游戏文本的翻译方法应用在基于AIGC(AIgenerated content,生成式AI,意为人工智能生成内容,例如AI文本续写,文字转图像的AI图、AI主持人等,都属于AIGC的应用)进行多语种自动翻译场景。
在该多语种自动翻译场景下,相关技术中常常是把游戏内的翻译,按照版本迭代节奏,固定的时间节点,统一打包提交给外包公司,由外包公司进行翻译,并返回结果,再由一个单独外包的测试团队手工进行验证,再提单返回外包公司修改,再返回研发合入游戏工程。整个过程包括翻译和校对都是纯人工处理,没有自动化和技术手段去解决成本和效率问题。
并且在这个过程中,由于都是外包公司托付给外部去做,在游戏本身是出海的多语言多区域的游戏,语种繁多,翻译和测试量都是成倍增长,成本开销巨大。并且交付出去一次内容,就需要花费较长时间才能正常进包版本,这个周期对海外游戏的版本迭代来说,是非常长的,导致版本本准备好了,但是因为要等待多语言翻译和测试完成,发布时间要为这部分内容滞后较长时间。
对于上述问题,本实施例在该场景下,基于上述游戏文本的翻译方法,提出一套适合做游戏语料语境微调的数据源,并且进行了AIGC模型选型和利用lora微调技术进行超参数优化,实现了一个非常适合游戏翻译垂直领域的AIGC大模型。并且通过工具,将原本在外部实施的流程,全部收归到了项目组内部,实现了全自动化过程并且优化了翻译整套流程。
举例说明,一种基于上述游戏文本的翻译方法的翻译框架示意图,如图4所示,包括自动化翻译工具402、AIGC模型404、游戏工程406、外部平台408。具体地,自动化翻译工具402中包括分词组件、变动diff信息组件、语聊map组件等,用于从游戏工程406中的翻译表中获取待翻译游戏文本,并经过上述多个组件对待翻译游戏文本进行预处理后,调用AIGC模型404进行翻译,得到翻译结果,并将翻译结果返回至游戏工程的结果表。游戏工程406的结果表用于上传至外部平台408,其中,外部平台408包括内部分发模块、翻译审核模块、结果上传模块,分别用于对结果表中的翻译结果进行内部分发、翻译审核和结果确认上传的处理,并将相应处理结果反馈至游戏工程406的结果表。
可选地,在本实施例中,通过预训练好具备游戏语料语境翻译能力的模型服务,稳定提供访问该服务返回翻译的能力。通过一个自动化的脚本,定时启动对配置表待翻译文件的抓取,并且访问模型服务返回翻译,并将结果生成表格(如excel表),提交到外部流程平台,交给语言校对员做校对,审核完成后再自动上库进包。
进一步举例说明,一种基于上述游戏文本的翻译方法的翻译流程示意图如图5所示,具体包括:
步骤S502,策划研发提交游戏文本及其标识信息;
步骤S504,检测新增的游戏文本,获取待翻译信息;
步骤S506,调用翻译模型服务,对待翻译信息进行查询翻译;
步骤S508,生成翻译表;
步骤S510,提交到外部流程平台;
步骤S512,翻译结果审核;
步骤S514,上库进包。
其中,上述步骤S502至步骤S508以及步骤S514属于工具自动化服务流程,步骤S510至步骤S512属于外部流程平台流程。
需要说明的是,在调用翻译模型服务之前,需要先获取训练好的翻译模型,其中,翻译模型的训练流程示意图如图6所示,包括:
步骤S602,基座模型选型;
步骤S604,模型参数调优;
步骤S606,语料数据训练;
步骤S608,模型服务部署。
可选地,在本实施例中,上述AIGC模型选型的过程,出于对游戏数据的安全性和保密性的考虑,并不直接使用openai公司发布的chatgpt作为翻译基座模型,而是在业内开源模型里面择优选择,筛选了若干基座模型,chatglm、bella(7b、13b)、llama(7b、13b)、llama2(7b、13b)、Qwen14b、baichuan13b等,针对这一类模型进行统一的调研,通过不同的prompt去尝试激发模型本身的中英翻译能力。
举例说明,可以但不限于使用如下多种类型的prompt:
(1)你是一个翻译员,进行A语言到B语言的翻译,“XXXX”。
(2)将以下文本从A语言翻译成B语言:“XXXX”。
(3)A语言:“XXX”,对应的B语言是什么。
经过多轮尝试,选择回答最稳定的prompt作为送进AI模型去调教的一个prompt,基于这个prompt,对以上的被测基底模型,进行基础翻译能力的测试,筛选若干条(如1000条)数据,其中一半为游戏术语文案,文本长度从0到100不等,一半个为WMT专业翻译领域测试数据集。对每个模型的翻译结果做了翻译数据的评估,根据综合打分(vreu+模型的质量打分方式),得出最优最适合游戏翻译领域的模型(例如上述Qwen14b-chat)。
进一步,在利用上述方式初步确定出基座模型之后,还需要用技术手段对其进行优化。在没有优化之前,可以看到,对于游戏内技能描述这个文案里面所包含的游戏术语,如游戏角色的名称信息“亥犽”,以及游戏文本中所使用的html符号,都在原始基座模型的翻译结果中,翻译错误或者忽略不翻译。
在GPU容器上(A100),尝试对该模型的超参数进行调整,包括调整批次参数epoch、样本数据参数batchsize、学习率参数learning rate。epoch是深度学习里面用于做训练批次的概念,过少的批次,会导致损失函数值过高,学习度不够,模型没有什么学习效果,批次过高,往往会导致模型灾难性遗忘本身的能力知识,产生一个过拟合状态。batchsize是在深度学习和机器学习中训练模型时使用的概念。它是指在每次迭代过程中输入到模型中的数据样本数量。learning rate是在模型训练的过程中,通常使用一种叫做梯度下降(Gradient Descent)的方法来逐步优化模型的参数。在每一步,计算出模型当前参数下的损失函数(Loss Function)的梯度,然后按照梯度的反方向更新参数,希望能够使损失函数的值减小。学习率就是决定按照梯度下降的方向移动的“步长”。
在大语言模型的训练当中,上诉后关键的超参数,会直接影响到训练质量和效率,在有限的GPU资源的前提和有限的结果产出deadline限制下,对几个超参数做了调研,和组合尝试。因为每一个垂类训练任务,以及要求的结果类型,对超参数的需求程度是不同的,所以往往没有一个成熟的参数配置表,来满足个性化的需求。
首先需要确定的是batchsize,因为batchsize受GPU显存影响最大,每个运算迭代送入模型神经网络的数据大小会影响到当前运算所需要开销的显存,而在GPU容器上A100这块使用的GPU的极限情况下,选择了batchsize为2来达到,显存不溢出,且保留一定泛化能力,且损失函数震动情况较少的一个最优解。
在明确batchsize的前提之下,我们尝试过epoch为2、3、4、5、6、7 的情况,因为epoch过小,模型拟合程度过低,学习不到太多的知识,epoch过大,模型过拟合概率增大,遗忘本身的能力,所以测试过不同的epoch,在垂类知识领域的学习度,以及模型本身知识的泛化能力如何。
进一步举例说明,如表1所示,在epoch为7的时候找了一个语料遵循度最好且模型泛化能力保持最好的一个状态点,翻译结果是和语料原本要求的翻译完全一致。
在batchsize为2,epoch为7的前提下,进一步对学习率做了一些尝试和调整,我们尝试了大学习率3E4,以及中等学习率1E4,以及小学习率1E5的情况下,模型的一个表现。
学习率会影响模型收敛到最优解的速度。较大的学习率可能使模型快速接近最优解,但也可能导致在最优解附近震荡。较小的学习率可能使模型收敛速度较慢,需要更多的迭代次数才能达到最优解。而如果震荡不能得到一个最终的收敛稳定状态,则结果数据也同样是不可用的。如表2所示,学习率较大的3E4目前来看,就是虽然准确率较高,但是仍然有一定优化空间。然而把学习率设置的非常小之后,模型过拟合严重,发生了灾难性遗忘,可以看到准确率得到了断崖式下跌。所以最终在1E4这个适中值,得到了最优解100%,即翻译结果是和语料原本要求的翻译完全一致。
最终确定epoch7、batchsize2、learning rate 1E4可以达到整个模型的结果,对语料的遵循程度高达100%,且模型本身的过拟合情况最低的一个最优解。
且这个过程对显存的占用较低,对于一个14B参数的模型,也仅用了2张A100双卡并行的情况下,单天内可以得到微调训练好的可用模型。
表1
并且在解码参数上,也选择对几个重要超参进行了组合调整,选择了do_sample模式,尝试调整temperature,top_p,top_k。
Top_p、Top_k:是在自然语言处理(NLP)和生成模型中使用的两种策略,它们用于从模型生成的概率分布中选择最可能的单词或字符。这两种策略通常用于控制生成文本的质量和多样性。
temperature也是同理,是决定模型生成文本的大胆程度的,越高则模型产生数据会更加不稳定和多样化,越低则会越倾向于稳定数据输出。
表2
在该游戏的应用场景,是需要模型具备一定的稳定输出能力的,因为游戏内的语境相对是比较固化的,不希望模型每次返回一个文案的输出不同,所以temperature设置的较低,为0.1。
将Top_P设置为0.5,Top_K设置为40,最终达到的一个理想效果,完全会按照语料翻译,以及标点符号正确,以及文案翻译非常的具备游戏特色语境。
为使得该翻译模型基座具备语料语境能力,除了上文描述的参数调优还不够,还需要进行原始数据的输送,给模型传授该能力。经过评估和筛选出当前游戏必须使用到的专业术语若干条(如4000条),进行人工审校核对,以一定的数据格式以及prompt,送入模型进行训练。
进一步举例说明,如图7所示,为训练数据源的一个展示案例。instruction为定义好给模型训练的prompt,input为待翻译文本,output是期望模型学习到的翻译文本。
在以上参数的一个加持下,这份数据,会让模型具备较为良好的游戏语境翻译能力。如果不传入这组数据,模型会按原始基座能力发挥,比如小杰,会翻译成xiaojie,而不是gon freecss。
进一步,在完成上述模型训练之后,实际落地应用在游戏文本翻译的过程,如图8所示,具体包括:
步骤S802,获取配置信息;
步骤S804,根据配置信息,提取需要翻译的游戏数据;
步骤S806,判断是否存在需要翻译的数据;
步骤S808,在不存在需要翻译的数据情况下,结束流程;
步骤S810,在存在需要翻译的数据情况下,调用翻译模型;
步骤S812,翻译结果写入结果表;
步骤S814,通过结果表,将翻译结果上传到翻译平台;
步骤S816,判断翻译平台检查校验进度是否达到100%;
步骤S818,在检查校验进度达到100%的情况下,将翻译结果写入配置表;
其中,在检查校验进度未达到100%的情况下,返回步骤S814;
步骤S820,提交到SVN;
步骤S822,本地化还原;
步骤S824,检查是否有超框漏译;
步骤S826,在无超框漏译的情况下,流程结束;
其中,在有超框漏译的情况下,返回步骤S810。
可以理解的是,每天定时通过拉取游戏工程更新,拿到配置表信息,提取出需要翻译的文案,如果存在需要翻译的数据,调用翻译模型服务,进行自动化翻译,翻译好的数据会按格式写入表格。如图3所示,标识列为文本在游戏内部的一个唯一标识,翻译原文列为文案的中文原文,翻译结果列列为通过调优过的翻译模型翻译出来的英文结果。将该结果自动上传到翻译平台存储,并且通知相关的语言校对员,来进行最后的审核校对。当校对进度100%的时候,自动拉取该结果表格,进行游戏工程内部的一个导表操作,然后上库到游戏svn库。自此游戏应用里面就可以看到该自动翻译过的文案了。
通过本申请提供的实施例,极大的降低整个游戏翻译流程的耗时和人力开销以及成本开销。耗时降低到当天内可以出当天所有变动文案的翻译,人力几乎无需投入。可以解决翻译人员无法根据游戏语境进行特定化翻译的问题,使得翻译更具备游戏世界观。解决多语言翻译需要多家公司提供结果的复杂度,全都交给工具自动化同步获取多语言包括小语种的翻译结果。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述游戏文本的翻译方法的游戏文本的翻译装置。如图9所示,该装置包括:
获取单元902,用于获取虚拟游戏的第一游戏文本,其中,第一游戏文本是第一语种的游戏文本;
解析单元904,用于在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;
分词单元906,用于在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本的文本含义,第一游戏文本由至少两个游戏词汇组成;
翻译单元908,用于对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示,其中,第二游戏文本是第二语种的游戏文本。
作为一种可选的方案,分词单元906,包括:第一获取模块,用于根据参考信息获取第一游戏文本的指示标签,其中,不同的指示标签对应不同的分词方式;第二获取模块,用于获取指示标签对应的指示分词方式;分词模块,用于按照指示分词方式,对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇。
作为一种可选的方案,第一获取模块,包括:第一确定子模块,用于在参考信息中包括第一游戏文本对应的第一文本标注的情况下,将第一文本标注,确定为指示标签,其中,第一文本标注用于概括第一游戏文本的表意。
作为一种可选的方案,第一获取模块,包括:第二确定子模块,用于从参考信息中确定出第一游戏文本在虚拟游戏中的上下文信息;获取子模块,用于根据上下文信息,获取指示标签。
作为一种可选的方案,获取子模块,包括:确定子单元,用于在参考信息中包括第一游戏文本对应的第二文本标注的情况下,利用上下文信息,对第二文本标注进行优化,并将优化后的文本标注确定为指示标签,其中,第二文本标注用于概括第一游戏文本的表意。
作为一种可选的方案,装置还包括:第三获取模块,用于在虚拟游戏中,按照指定显示方式进行显示之前,获取虚拟游戏的第一显示区域的尺寸信息,其中,第一显示区域用于按照指定显示方式显示第二游戏文本;验证模块,用于在虚拟游戏中,按照指定显示方式进行显示之前,利用尺寸信息,对第二游戏文本的文本数量信息进行验证,其中,验证用于确定第二游戏文本能否按照指定显示方式显示在第一显示区域。
作为一种可选的方案,翻译单元908包括:第一翻译模块,用于使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本,其中,多个游戏文本中的各个游戏文本对应一个输出概率;第一确定模块,用于将多个游戏文本中输出概率最高的游戏文本确定为第二游戏文本;装置还包括:第二确定模块,用于在利用尺寸信息,对第二游戏文本的文本数量信息进行验证之后,在第二游戏文本不能按照指定显示方式显示在第一显示区域的情况下,从多个游戏文本中确定出文本数量信息符合尺寸信息指示的显示条件、且输出概率最高的第三游戏文本;显示模块,用于在利用尺寸信息,对第二游戏文本的文本数量信息进行验证之后,在虚拟游戏的第一显示区域,按照指定显示方式对第三游戏文本进行显示。
作为一种可选的方案,装置还包括:第四获取模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,获取待选的多个基座模型;第一训练模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,使用第一训练数据集,对多个基座模型进行翻译评估,得到评估质量分数最高的第一基座模型,其中,第一训练数据集包括虚拟游戏的游戏文本数据和非虚拟游戏的测试文本数据;第二训练模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,使用第二训练数据集,对第一基座模型进行组合参数调整,得到第二基座模型,其中,组合参数包括训练批次参数、迭代样本参数、训练步长参数,第二训练集合包括第一数量的游戏文本数据;第三训练模块,用于在使用翻译模型,对有序的至少两个游戏词汇进行翻译,得到第二语种的多个游戏文本之前,使用第三训练数据集,对第二基座模型进行模型语料训练,得到翻译模型,第三训练数据集包括第二数量的游戏文本数据,第二数量大于第一数量。
作为一种可选的方案,获取单元902包括:第五获取模块,用于从游戏配置表中已写入的游戏文本中获取第一游戏文本,其中,游戏配置表第一列的各行用于写入第一语种的游戏文本,游戏配置表第一列外的其他列的各行用于存储被翻译后的其他语种的游戏文本,其他语种包括第二语种,游戏配置表中相同行的不同列对应一个游戏文本的不同语种类型;装置还包括:存储模块,用于在虚拟游戏中,按照指定显示方式进行显示之前,将第二游戏文本存储在游戏配置表的第一存储区域,其中,在检测到对第一存储区域触发的第一调整请求的情况下,第一存储区域内的第二游戏文本被允许进行调整。
作为一种可选的方案,装置还包括:第四训练模块,用于在检测到第二游戏文本在第一存储区域内进行调整的情况下,将调整后的第二游戏文本作为正样本、调整前的第二游戏文本作为负样本,补充至第三训练数据集,对翻译模型进行模型优化。
作为一种可选的方案,翻译单元908包括:第二翻译模块,用于对有序的至少两个游戏词汇进行第一翻译处理,得到第一翻译结果,其中,第一翻译结果为第一语种的、用于解释有序的至少两个游戏词汇的游戏文本;第三翻译模块,用于对第一游戏文本进行第二翻译处理,得到第二翻译结果,其中,第二翻译处理用于将第一翻译结果转换为第二语种的游戏文本;第四翻译模块,用于对第二翻译结果进行第三翻译处理,得到第三翻译结果,其中,第三翻译结果为第二语种的、用于概括第二翻译结果的游戏文本;第三确定模块,用于将第三翻译结果确定为第二游戏文本。
根据本申请实施例的又一个方面,还提供了一种用于实施上述游戏文本的翻译方法的电子设备,该电子设备可以但不限于为图1中所示的客户端102或服务器112,本实施例以电子设备为客户端102为例说明,进一步如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取虚拟游戏的第一游戏文本,其中,第一游戏文本是第一语种的游戏文本;
S2,在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;
S3,在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本的文本含义,第一游戏文本由至少两个游戏词汇组成;
S4,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示,其中,第二游戏文本是第二语种的游戏文本。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,图10其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本申请实施例中的游戏文本的翻译方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的游戏文本的翻译方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储第一游戏文本、第二游戏文本等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述游戏文本的翻译装置中的获取单元902、解析单元904、分词单元906、翻译单元908。此外,还可以包括但不限于上述游戏文本的翻译装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008,用于显示第一游戏文本、第二游戏文本等信息;和连接总线1010,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述客户端或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以构成点对点网络,任意形式的计算设备,比如服务器、客户端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,电子设备的计算机系统仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
计算机系统包括中央处理器(Central Processing Unit,CPU),其可以根据存储在只读存储器(Read-Only Memory,ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器中,还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口(Input /Output接口,即I/O接口)也连接至总线。
以下部件连接至输入/输出接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请的系统中限定的各种功能。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取虚拟游戏的第一游戏文本,其中,第一游戏文本是第一语种的游戏文本;
S2,在获取到对第一游戏文本触发的翻译请求,且第一游戏文本中包含标识符的情况下,对标识符包裹的显示数据进行解析处理,得到第一游戏文本在虚拟游戏中的指定显示方式;
S3,在获取到第一游戏文本在虚拟游戏中关联的参考信息的情况下,利用参考信息对第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,参考信息用于描述第一游戏文本的文本含义,第一游戏文本由至少两个游戏词汇组成;
S4,对有序的至少两个游戏词汇进行翻译,得到第二游戏文本,并在虚拟游戏中,按照指定显示方式进行显示,其中,第二游戏文本是第二语种的游戏文本。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所记录的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种游戏文本的翻译方法,其特征在于,包括:
获取虚拟游戏的第一游戏文本,其中,所述第一游戏文本是第一语种的游戏文本;
在获取到对所述第一游戏文本触发的翻译请求,且所述第一游戏文本中包含标识符的情况下,对所述标识符包裹的显示数据进行解析处理,得到所述第一游戏文本在所述虚拟游戏中的指定显示方式;
在获取到所述第一游戏文本在所述虚拟游戏中关联的参考信息的情况下,利用所述参考信息对所述第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,所述参考信息用于描述所述第一游戏文本的文本含义,所述第一游戏文本由所述至少两个游戏词汇组成;
对所述有序的至少两个游戏词汇进行第一翻译处理,得到第一翻译结果,其中,所述第一翻译结果为所述第一语种的、用于解释所述有序的至少两个游戏词汇的游戏文本;
对所述第一游戏文本进行第二翻译处理,得到第二翻译结果,其中,所述第二翻译处理用于将所述第一翻译结果转换为第二语种的游戏文本;
对所述第二翻译结果进行第三翻译处理,得到第三翻译结果,其中,所述第三翻译结果为第二语种的、用于概括所述第二翻译结果的游戏文本;
将所述第三翻译结果确定为第二游戏文本,并在所述虚拟游戏中,按照所述指定显示方式对所述第二游戏文本进行显示。
2.根据权利要求1所述的方法,其特征在于,所述利用所述参考信息对所述第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,得到有序的至少两个游戏词汇包括:
根据所述参考信息获取所述第一游戏文本的指示标签,其中,不同的所述指示标签对应不同的分词方式;
获取所述指示标签对应的指示分词方式;
按照所述指示分词方式,对所述第一游戏文本进行分词处理,得到所述有序的至少两个游戏词汇。
3.根据权利要求2所述的方法,其特征在于,所述根据所述参考信息获取所述第一游戏文本的指示标签,包括:
在所述参考信息中包括所述第一游戏文本对应的第一文本标注的情况下,将所述第一文本标注,确定为所述指示标签,其中,所述第一文本标注用于概括所述第一游戏文本的表意。
4.根据权利要求2所述的方法,其特征在于,所述根据所述参考信息获取所述第一游戏文本的指示标签,包括:
从所述参考信息中确定出所述第一游戏文本在所述虚拟游戏中的上下文信息;
根据所述上下文信息,获取所述指示标签。
5.根据权利要求4所述的方法,其特征在于,所述根据所述上下文信息,获取所述指示标签,包括:
在所述参考信息中包括所述第一游戏文本对应的第二文本标注的情况下,利用所述上下文信息,对所述第二文本标注进行优化,并将优化后的文本标注确定为所述指示标签,其中,所述第二文本标注用于概括所述第一游戏文本的表意。
6.根据权利要求1所述的方法,其特征在于,
在所述虚拟游戏中,按照所述指定显示方式对所述第二游戏文本进行显示之前,所述方法还包括:
获取所述虚拟游戏的第一显示区域的尺寸信息,其中,所述第一显示区域用于按照所述指定显示方式显示所述第二游戏文本;
利用所述尺寸信息,对所述第二游戏文本的文本数量信息进行验证,其中,所述验证用于确定所述第二游戏文本能否按照所述指定显示方式显示在所述第一显示区域。
7.根据权利要求6所述的方法,其特征在于,
在所述利用所述参考信息对所述第一游戏文本进行分词处理,得到有序的至少两个游戏词汇之后,所述方法还包括:
使用翻译模型,对所述有序的至少两个游戏词汇进行翻译,得到所述第二语种的多个游戏文本,其中,所述多个游戏文本中的各个游戏文本对应一个输出概率;
将所述多个游戏文本中所述输出概率最高的游戏文本确定为所述第二游戏文本;
在所述利用所述尺寸信息,对所述第二游戏文本的文本数量信息进行验证之后,所述方法还包括:
在所述第二游戏文本不能按照所述指定显示方式显示在所述第一显示区域的情况下,从所述多个游戏文本中确定出文本数量信息符合所述尺寸信息指示的显示条件、且所述输出概率最高的第三游戏文本;
在所述虚拟游戏的第一显示区域,按照所述指定显示方式对所述第三游戏文本进行显示。
8.根据权利要求7所述的方法,其特征在于,在所述使用翻译模型,对所述有序的至少两个游戏词汇进行翻译,得到所述第二语种的多个游戏文本之前,所述方法还包括:
获取待选的多个基座模型;
使用第一训练数据集,对所述多个基座模型进行翻译评估,得到评估质量分数最高的第一基座模型,其中,所述第一训练数据集包括所述虚拟游戏的游戏文本数据和非所述虚拟游戏的测试文本数据;
使用第二训练数据集,对所述第一基座模型进行组合参数调整,得到第二基座模型,其中,所述组合参数包括训练批次参数、迭代样本参数、训练步长参数,所述第二训练集合包括第一数量的所述游戏文本数据;
使用第三训练数据集,对所述第二基座模型进行模型语料训练,得到所述翻译模型,所述第三训练数据集包括第二数量的所述游戏文本数据,所述第二数量大于所述第一数量。
9.根据权利要求1所述的方法,其特征在于,
所述获取虚拟游戏的第一游戏文本包括:
从游戏配置表中已写入的游戏文本中获取所述第一游戏文本,其中,所述游戏配置表第一列的各行用于写入所述第一语种的游戏文本,所述游戏配置表第一列外的其他列的各行用于存储被翻译后的其他语种的游戏文本,所述其他语种包括所述第二语种,所述游戏配置表中相同行的不同列对应一个游戏文本的不同语种类型;
在所述虚拟游戏中,按照所述指定显示方式进行显示之前,所述方法还包括:
将所述第二游戏文本存储在所述游戏配置表的第一存储区域,其中,在检测到对所述第一存储区域触发的第一调整请求的情况下,所述第一存储区域内的所述第二游戏文本被允许进行调整。
10.根据权利要求9所述的方法,其特征在于,在检测到所述第二游戏文本在所述第一存储区域内进行调整的情况下,所述方法还包括:
将调整后的第二游戏文本作为正样本、调整前的第二游戏文本作为负样本,补充至第三训练数据集,对翻译模型进行模型优化。
11.一种游戏文本的翻译装置,其特征在于,包括:
获取单元,用于获取虚拟游戏的第一游戏文本,其中,所述第一游戏文本是第一语种的游戏文本;
解析单元,用于在获取到对所述第一游戏文本触发的翻译请求,且所述第一游戏文本中包含标识符的情况下,对所述标识符包裹的显示数据进行解析处理,得到所述第一游戏文本在所述虚拟游戏中的指定显示方式;
分词单元,用于在获取到所述第一游戏文本在所述虚拟游戏中关联的参考信息的情况下,利用所述参考信息对所述第一游戏文本进行分词处理,得到有序的至少两个游戏词汇,其中,所述参考信息用于描述所述第一游戏文本的文本含义,所述第一游戏文本由所述至少两个游戏词汇组成;
所述装置,还用于对所述有序的至少两个游戏词汇进行第一翻译处理,得到第一翻译结果,其中,所述第一翻译结果为所述第一语种的、用于解释所述有序的至少两个游戏词汇的游戏文本;对所述第一游戏文本进行第二翻译处理,得到第二翻译结果,其中,所述第二翻译处理用于将所述第一翻译结果转换为第二语种的游戏文本;对所述第二翻译结果进行第三翻译处理,得到第三翻译结果,其中,所述第三翻译结果为第二语种的、用于概括所述第二翻译结果的游戏文本;将所述第三翻译结果确定为第二游戏文本,并在所述虚拟游戏中,按照所述指定显示方式对所述第二游戏文本进行显示。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序被电子设备运行时执行所述权利要求1至10任一项中所述的方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至10任一项所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
CN202410448424.8A 2024-04-15 游戏文本的翻译方法、装置和存储介质及电子设备 Active CN118036618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410448424.8A CN118036618B (zh) 2024-04-15 游戏文本的翻译方法、装置和存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410448424.8A CN118036618B (zh) 2024-04-15 游戏文本的翻译方法、装置和存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN118036618A CN118036618A (zh) 2024-05-14
CN118036618B true CN118036618B (zh) 2024-07-12

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639504A (zh) * 2020-05-29 2020-09-08 中国经济信息社有限公司 网页的多语言翻译方法和装置及设备
CN113591437A (zh) * 2021-08-09 2021-11-02 网易(杭州)网络有限公司 游戏文本翻译方法、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639504A (zh) * 2020-05-29 2020-09-08 中国经济信息社有限公司 网页的多语言翻译方法和装置及设备
CN113591437A (zh) * 2021-08-09 2021-11-02 网易(杭州)网络有限公司 游戏文本翻译方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
US20200372218A1 (en) Data-driven automated selection of profiles of translation professionals for translation tasks
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN112835579A (zh) 确定界面代码的方法、装置、电子设备和存储介质
CN112799658B (zh) 模型训练方法、模型训练平台、电子设备和存储介质
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN111859862B (zh) 文本的数据标注方法和装置、存储介质及电子装置
CN108932225A (zh) 用于将自然语言需求转换成为语义建模语言语句的方法和系统
CN118036618B (zh) 游戏文本的翻译方法、装置和存储介质及电子设备
CN109062913B (zh) 国际化资源智能获取方法、存储介质
KR102532216B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 이루어진 esg 데이터베이스를 구축하는 방법 및 이를 수행하는 esg 서비스 제공 시스템
CN116720489A (zh) 页面填充方法及装置、电子设备和计算机可读存储介质
CN116796758A (zh) 对话交互方法、对话交互装置、设备及存储介质
CN118036618A (zh) 游戏文本的翻译方法、装置和存储介质及电子设备
CN113642337B (zh) 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质
CN115292188A (zh) 交互界面合规性检测方法、装置、设备、介质和程序产品
CN111324820B (zh) 邀请方法、装置、终端设备及计算机存储介质
CN113535970A (zh) 信息处理方法和装置、电子设备以及计算机可读存储介质
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质
CN113703819B (zh) 一种动态消息解析方法、装置、设备和介质
CN117349188B (zh) 一种基于大模型的测试用例生成方法和装置
CN117667979B (zh) 基于大语言模型的数据挖掘方法、装置、设备及介质
KR102682244B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버
US20230325205A1 (en) System and computer-implemented method to generate a configuration for external datapoint access
CN115904984A (zh) 一种确定测试用例的系统、方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant