CN117709375A - 文本翻译方法及装置 - Google Patents
文本翻译方法及装置 Download PDFInfo
- Publication number
- CN117709375A CN117709375A CN202410142144.4A CN202410142144A CN117709375A CN 117709375 A CN117709375 A CN 117709375A CN 202410142144 A CN202410142144 A CN 202410142144A CN 117709375 A CN117709375 A CN 117709375A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- translation
- clustered
- glossary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 183
- 238000000034 method Methods 0.000 title claims abstract description 99
- 239000013598 vector Substances 0.000 claims description 107
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000004807 localization Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 6
- 230000014616 translation Effects 0.000 description 170
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012993 chemical processing Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本翻译方法及装置,其中所述文本翻译方法包括:对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集,保证了翻译的一致性和准确性,明确专有名词和术语,提高翻译质量,翻译内容与背景关联性更加紧密,提升用户翻译任务完成效果,增强用户体验感。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种文本翻译方法。本申请同时涉及一种文本翻译装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着计算机技术的发展,文本自动化翻译越来越多的被应用到人们的工作与生活,机器翻译一直是自然语言处理的热门研究领域,从早期基于规则的方法到基于统计的方法,再到深度学习方法,一直受到研究人员的广泛关注。现有技术中,传统的基于深度学习的机器翻译,是基于序列到序列建模,依赖翻译原译文平行语料,然而在具体的使用场景中,传统翻译方法得到的译文会出现前后专有名词描述不一致,翻译句式前后不一致,翻译风格前后不统一等问题。
发明内容
有鉴于此,本申请实施例提供了一种文本翻译方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本翻译装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本翻译方法,包括:
对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;
通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;
根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
可选地,还包括:
抽取所述待处理文本集中的专有名词,基于抽取结果建立术语表,并将所述术语表存储至所述记忆库;
将所述待处理文本集相关的背景信息存储至所述记忆库。
可选地,所述抽取所述待处理文本集中的专有名词,基于抽取结果建立术语表包括:
通过实体抽取技术抽取所述待处理文本集中的所述专有名词;
基于AI翻译和人工本地化校验对所述专有名词进行翻译,得到专有名词翻译文本;
根据所述专有名词与所述专有名词翻译文本建立所述术语表。
可选地,所述对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集包括:
将所述至少一个待处理文本进行向量转换,生成至少一个待处理向量;
通过聚类算法对所述至少一个待处理向量进行处理,生成至少一个聚类向量集;
基于所述至少一个聚类向量集中包含的待处理向量,与所述至少一个待处理文本之间的对应关系,生成聚类文本集。
可选地,还包括:
对所述背景信息进行分词;
根据文本匹配算法对分词结果进行处理,创建所述背景信息的倒排索引。
可选地,所述确定所述至少一个待处理文本相关的上下文信息包括:
将所述背景信息进行向量转换生成背景向量;
根据语义向量匹配,确定所述至少一个待处理文本相关的背景向量为目标背景向量;
基于所述背景信息的倒排索引,查询所述目标背景向量对应的背景信息,并确定为与所述至少一个待处理文本相关的上下文信息。
可选地,所述根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集包括:
将所述术语表与所述至少一个聚类文本集进行匹配,确定与所述至少一个聚类文本集对应的目标术语集;
根据所述目标术语集、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
可选地,所述根据所述目标术语集、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集包括:
选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本;
根据所述待翻译文本对应的聚类文本集、上下文信息和目标术语集生成所述语言模型的提示信息;
基于所述提示信息,通过所述语言模型对所述待翻译文本进行翻译,输出目标文本;
执行所述选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本步骤,直至全部待处理文本被选取,根据所述语言模型输出的目标文本得到目标文本集。
可选地,还包括:
将所述待处理文本集与所述目标文本集存储至所述记忆库。
根据本申请实施例的第二方面,提供了一种文本翻译装置,包括:
聚类模块,被配置为对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;
关联模块,被配置为通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;
输出模块,被配置为根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本翻译方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本翻译方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本翻译方法的步骤。
本申请提供的文本翻译方法,通过对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集,保证了翻译的一致性和准确性,明确专有名词和术语,提高翻译质量,翻译内容与背景关联性更加紧密,提升用户翻译任务完成效果,增强用户体验感。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本申请一实施例提供的一种文本翻译方法的流程图;
图2是本申请一实施例提供的一种文本翻译方法的示意图;
图3是本申请一实施例提供的一种应用于外文书籍的文本翻译方法的处理流程图;
图4是本申请一实施例提供的一种文本翻译装置的结构示意图;
图5是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
ChatGPT:一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,是一种用于处理序列数据的模型,拥有语言理解和文本生成能力。
Prompt:一种输入方式,它将人工智能模型的输入限制在一个特定的范围内,从而更好地控制模型的输出。
Embedding:将高维度的数据映射到低维度空间的过程,是一个N维的实值向量,它可以用来表示文本、音乐、视频等。
BPE分词:将原始文本中重复频率最高的n个子串作为一个子词,并将其替换为一个新的字符,而这个新字符是在词汇表中没有出现过的。通过迭代的过程,将文本分割成尽可能少的子词和单词,从而实现分词。
bm25算法:是一种基于概率检索模型提出的算法,用于评价搜索词和文档之间相关性。
在本申请中,提供了一种文本翻译方法。本申请同时涉及一种文本翻译装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种文本翻译方法的流程图,具体包括以下步骤:
步骤S102:对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集。
其中,待处理文本集为需要进行翻译的文本集合,如游戏汉化场景下,游戏内需要进行翻译的文本内容,外文著作翻译场景下,著作的原文文本内容等。待处理文本为需要进行翻译的文本集合中,对应的一句或一段文本,如游戏汉化场景下,与NPC的对话,装备、任务的简介等,外文著作翻译场景下,原文文本的一个文本句或是一个文本段等。聚类文本集中包含了至少一个待处理文本,且同一聚类文本集中的待处理文本,其语义或表达方式类似,如游戏汉化场景下同一任务的不同环节简介,外文著作翻译中使用的排比句等。
具体的,在文本翻译的过程中,需要进行翻译的文本往往不是单一文本,将需要翻译的文本输入文本翻译装置的过程中,为了翻译效率,需要翻译的文本也不会采用输入一个字段,等待翻译结束再输入下一字段的方式。在读取用户输入的需要翻译的待翻译文本集后,需要判断待翻译文本集中包含的待处理文本之间的关系,并基于它们的关系确定是否需要整体翻译,以保证翻译的句式一致性。所以将需要整体翻译的待翻译文本聚类至聚类文本集,用于后续的统一翻译。需要说明的是待处理文本集与聚类文本集中包含的待处理文本数量由实际使用场景决定,本实施例不进行限定。
基于此,通过对待处理文本的聚类,保证了表达意思相近的待翻译文本处于同一聚类文本集,在后续进行翻译时采取统一翻译的方法,保障了翻译后的句式一致性,提升了翻译质量。
进一步的,在对待处理文本进行聚类的过程中,文本形式的数据难以被计算机程序或是相关硬件装置处理,所以为了保障聚类效率,降低硬件处理难度,需要将文本形式进行转换,本实施例中,具体实现方式如下:
将所述至少一个待处理文本进行向量转换,生成至少一个待处理向量;通过聚类算法对所述至少一个待处理向量进行处理,生成至少一个聚类向量集;基于所述至少一个聚类向量集中包含的待处理向量,与所述至少一个待处理文本之间的对应关系,生成聚类文本集。
其中,待处理向量与待处理文本之间呈一一对应关系,待处理向量是对应的待处理文本的向量表示形式。
基于此,对待处理文本进行向量转化的过程中,可以将待处理文本送入一个嵌入模块,由嵌入模块对待处理文本进行向量转化,嵌入模块中包含相关的向量转换算法,如embedding等,需要说明的是,具体采用的向量转化算法由实际使用场景决定,本实施例不进行限定。将得到的待处理向量进行聚类的过程中,可以采用KNN聚类算法等,具体使用的聚类算法由实际使用场景决定,本实施例不进行限定。最后由于待处理向量与待处理文本之间的一一对应关系,实现通过聚类向量集建立聚类文本集的目的。
举例说明,在游戏汉化场景下,用户a将游戏b中需要翻译的文本1-20输入文本翻译装置,将输入的文本通过嵌入(Embedding)模块进行向量转化,得到向量1-20,之后通过KNN聚类算法对得到的向量进行聚类,得到向量集1-3,其中向量1在向量集1中,向量2-18在向量集2中,向量19-20在向量集3中,根据向量集中向量与需要翻译的文本之间的对应关系,确定文本1所在的聚类文本集1,文本2-18所在的聚类文本集2,以及文本19-20所在的聚类文本集3。
综上,通过将文本转换为向量的形式,有利于提升硬件设备的数据处理效率和准确性,进一步的提升文本翻译的效率和准确性,减少用户等待时间的同时提升了用户的使用体验。
步骤S104:通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息。
具体的,在文本进行翻译的过程中,提升文本翻译质量除了需要保证整体翻译以及句式表达的一致性,文本译文的前后文描述也需要一致,还要保证需要翻译的文本在同一背景下进行翻译,以实现文本译文的整体风格的一致,只注意单一方面得到的译文往往无法满足实际使用需求。
其中,预训练语言模型可以为ChatGPT等语言模型,具体的模型种类由实际使用场景决定,本实施例不进行限定。术语表中记载着专有名词及其译文。上下文信息与待处理文本之间存在对应关系,需要说明的是,待处理文本对应的上下文信息数量不固定,在待处理文本不存在对应的上下文信息时,对该待处理文本进行标记,用以确定其对应的上下文信息为无。
基于此,在预训练的语言模型中,存储着与待处理文本集相关的专有名词及其译文构成的术语表,在获取术语表的同时还需要在语言模型的数据库中查询与待处理文本相关的上下文信息。用以保证后续对待处理文本集的翻译,生成的译文实现前后文描述一致,整体翻译在同一背景下进行,以实现翻译风格一致。
进一步的,与待处理文本集相关的术语表在文本翻译过程中,保证了文本翻译得到的译文前后描述一致,这需要对待处理文本集中包含的专有名词进行确定,而为了保证文本翻译后得到的译文整体风格的一致,还需要在翻译过程中增加相应的背景特征,以保证待翻译文本集是在同一背景下的文本翻译,本实施例中,具体实现方式如下:
抽取所述待处理文本集中的专有名词,基于抽取结果建立术语表,并将所述术语表存储至所述记忆库;将所述待处理文本集相关的背景信息存储至所述记忆库。
具体的,专有名词为文本翻译过程中,为了保证译文前后描述一致,而在全文范围内保持固定形式翻译的字段,如游戏场景下的装备、技能、角色名称,外文著作翻译场景下的特定领域内具有权威性和专业性的术语等。背景信息可以理解为,对待处理文本集具备注释效果的已知信息,如游戏场景下,游戏开发者设定的游戏背景,外文著作翻译场景下,著作的简介,著作相关注释,后人对著作进行的批注等。如图2所示的一种文本翻译方法的示意图,其中左侧的原文与译文信息做为背景信息,其被存储在翻译记忆库中。
基于此,对待处理文本集中包含的待处理文本进行识别,基于识别结果确定在翻译过程中需要保持固定形式进行翻译的字段,之后根据该字段与对应的译文建立术语表。此外,确定待处理文本集的背景信息,并将术语表和背景信息存储,以便于后续翻译过程中进行查询取用。
举例说明,在对游戏b进行汉化的过程中,确定游戏b中需要翻译的文本1-20中包含的角色名1,技能名1与装备名1为专有名词,并且将这三个专有名词以及游戏b在官方网站上的游戏背景故事存储至ChatGPT模型的记忆库。
综上,通过将待处理文本集相关的术语表与背景信息存储至语言模型的记忆库中,使得后续翻译过程中,为专有名词进行固定形式翻译,以及统一背景下翻译提供了基础。
进一步的,由于术语表中存储着专有名词及其对应译文,那么在确定了待处理文本集中的专有名词后,为了构建术语表,还需要确定专有名词对应的译文,本实施例中,具体实现方式如下:
通过实体抽取技术抽取所述待处理文本集中的所述专有名词;基于AI翻译和人工本地化校验对所述专有名词进行翻译,得到专有名词翻译文本;根据所述专有名词与所述专有名词翻译文本建立所述术语表。
具体的,实体抽取即命名实体识别,可以实现对文本中的原子信息元素进行抽取,其可以实现查找命名实体,并对其进行分类。需要说明的是,在实际使用场景中,AI翻译和人工本地化校验可以单独使用,也可以结合使用,如只使用AI翻译对专有名词进行翻译,只使用人工本地化校验对专有名词进行翻译,或是AI翻译与人工本地化校验各自翻译不同的专有名词等,本实施例对具体翻译过程不进行限定。
基于此,通过实体抽取技术对待处理文本集中的专有名词进行查找、分类并进行标记,之后通过AI翻译和/或人工本地化校验的方式对专有名词进行翻译,并基于专有名词以及与专有名词一一对应的专有名词翻译文本构建术语表。
举例说明,在对游戏b进行汉化的过程中,通过实体抽取技术抽取游戏b中需要翻译的文本1-20中包含的专有名词,得到专有名词角色名1,技能名1与装备名1,之后通过AI翻译对这三个专有名词进行翻译,并人工校对翻译结果,得到这三个专有名词对应的译文,之后基于这三个专有名词与对应的译文建立术语表。
综上,通过AI翻译和人工本地化校验相结合的形式对专有名词进行翻译,保证了关键词语的本地化质量,进一步的可以保证对待处理文本集进行翻译的翻译质量。
进一步的,将待处理文本集相关的背景信息存储至所述记忆库,有利于后续待处理文本集在统一背景下进行翻译,然而在翻译过程中,待处理文本集中的待处理文本需要查询相关背景信息,为了简便化查询过程,本实施例中,具体实现方式如下:
对所述背景信息进行分词;根据文本匹配算法对分词结果进行处理,创建所述背景信息的倒排索引。
具体的,背景信息的倒排索引记录了背景信息的各个句段在记忆库中的存储地址,需要说明的是,背景信息在记忆库中存储的方式可以为整体存储也可以为离散存储,具体存储方式由实际使用场景决定,本实施例不进行限定。
基于此,对背景信息进行分词可以采用如BPE分词等分词算法进行,具体的分词算法由实际使用场景决定,本实施例不进行限定。文本匹配算法可以采用如BM25算法等算法进行,具体的文本匹配算法由实际使用场景决定,本实施例不进行限定。
举例说明,在对游戏b进行汉化的过程中,将游戏b在官方网站上的游戏背景故事通过BPE分词算法进行分词,并通过BM25算法确定分词结果与游戏背景故事之间的相关性,之后通过得到的相关性建立游戏背景故事相关的倒排索引,实现通过关键词对游戏背景故事的查询。
综上,通过建立背景信息的倒排索引,有效的降低了对背景信息进行查询的难度,提升了对背景信息的查询效率,进一步的提升了文本翻译的速度,提高用户的使用体验。
进一步的,查询待处理文本相关的上下文信息,也就是在背景信息中确定与待处理文本的相关部分,在简化查询方式的同时,还需要确定待处理文本与背景信息之间的相关性,本实施例中,具体实现方式如下:
将所述背景信息进行向量转换生成背景向量;根据语义向量匹配,确定所述至少一个待处理文本相关的背景向量为目标背景向量;基于所述背景信息的倒排索引,查询所述目标背景向量对应的背景信息,并确定为与所述至少一个待处理文本相关的上下文信息。
具体的,语义向量匹配可以理解为,通过语义算法确定与待处理文本具备关联关系的背景信息,筛选出关联度高于预设阈值的背景信息,需要说明的是,待处理文本与上下文信息之间并非一一对应关系,一个待处理文本可以对应任意数量的上下文信息,用户可以根据自身需求对该数量进行限定。
基于此,通过向量转换和关联度匹配,确定与待处理文本相关的背景信息为上下文信息,这个过程中需要说明的是,上下文信息为背景信息的一部分,如一句、几句、一段或几段文本。对背景信息进行向量转化的过程中,可以将背景信息送入一个嵌入模块,由嵌入模块对背景信息进行向量转化,嵌入模块中包含相关的向量转换算法,如embedding等,需要说明的是,具体采用的向量转化算法由实际使用场景决定,本实施例不进行限定。如图2所示的一种文本翻译方法的示意图,中部的被存储在库中的原文与译文被通过Embedding模块转换成向量形式,同样Embedding模块将待翻译文本也转换成向量形式,这两个向量通过余弦相似度计算,进行关联度确定,得到上下文信息。
举例说明,在对游戏b进行汉化的过程中,将游戏b在官方网站上的游戏背景故事,输入至嵌入(Embedding)模块进行向量转化,得到相关背景向量1-400,通过语义向量匹配,确定需要翻译的文本1-20各自对应的背景向量,通过游戏背景故事的倒排索引,确定需要翻译的文本1-20各自关联的背景信息为上下文信息。
综上,通过将背景信息转化为向量的形式,有利于提升硬件设备的数据处理效率和准确性,也有助于相关硬件设备进行相关的匹配操作,实现文本翻译的效率和准确性提升,减少用户等待时间的同时提升了用户的使用体验。
步骤S106:根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
具体的,通过语言模型对待处理文本集进行翻译,翻译过程中结合已经确认的,待处理文本集相关的术语表、聚类文本集和上下文信息,以此保证得到的译文的一致性,而术语表、聚类文本集和上下文信息分别保证了译文一致性中的术语一致性,翻译句式一致性,翻译背景一致性。
其中,目标文本集中包含至少一个目标文本,目标文本为待处理文本集中包含的待处理文本经过翻译得到的译文,需要说明的是,目标文本集中包含的目标文本与待处理文本集中包含的待处理文本一一对应。
进一步的,对待处理文本集进行翻译的过程中,为了保障翻译的句式一致性,需要结合聚类文本集进行翻译,由于聚类文本集是待处理文本集的一部分,而术语表对应了待处理文本集中全部的专有名词,故此直接基于术语表进行翻译会造成资源浪费,为了避免这种情况,需对术语表进行拆分本实施例中,具体实现方式如下:
将所述术语表与所述至少一个聚类文本集进行匹配,确定与所述至少一个聚类文本集对应的目标术语集;根据所述目标术语集、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
具体的,目标术语集为所述术语表中的一部分,其对应了聚类文本集包含的待处理文本中的专有名词,以及这些专有名词对应的译文。
基于此,将术语表与聚类文本集进行匹配的过程,匹配的方法不唯一,如可以通过对聚类文本进行实体抽取的方式确定其包含的专有名词,并对照术语表确定其相关译文,实现目标术语集的构建;也可以通过将术语表中的包含专有名词依次在聚类文本集中进行对照,以确定聚类文本集中包含的专有名词,实现目标术语集的构建等,具体选取的匹配方法由实际使用场景进行确定,本实施例不进行限定。
举例说明,在对游戏b进行汉化的过程中,对需要翻译的文本1-20进行聚类,得到聚类文本集1-3后,通过对聚类文本集1、2、3进行实体抽取,确定聚类文本集1中包含的专有名词为角色名1,聚类文本集2中包含的专有名词为角色名1,技能名1与装备名1,聚类文本集3中包含的专有名词为技能名1与装备名1,根据各个聚类文本集对应的专有名词,结合术语表中的对应译文,生成各个聚类文本集的目标术语集,最后根据各个聚类文本集、聚类文本集对应的目标术语集以及上下文信息,通过ChatGPT生成游戏b的译文。
综上,通过对术语表的拆分,有效的控制了语言模型对聚类文本集中包含的待处理文本进行翻译时,所要调动的数据数量,减轻设备的硬件压力,提升了翻译效率。
进一步的,在对待处理文本集进行翻译的过程中,其任意一个待处理文本的翻译过程,都需要根据其对应的聚类文本集、上下文信息和目标术语集,对语言模型的输入进行限定,以保证待处理文本集翻译后的一致性,本实施例中,具体实现方式如下:
选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本;根据所述待翻译文本对应的聚类文本集、上下文信息和目标术语集生成所述语言模型的提示信息;基于所述提示信息,通过所述语言模型对所述待翻译文本进行翻译,输出目标文本;执行所述选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本步骤,直至全部待处理文本被选取,根据所述语言模型输出的目标文本得到目标文本集。
具体的,待翻译文本为语言模型当前需要进行处理的文本。提示信息将语言模型的输入限制在一个特定的范围内,从而更好地控制模型的输出。通过依次对待处理文本集中包含的待处理文本进行翻译,之后将翻译得到的全部目标文本进行整合,即可得到目标文本集。如图2所示的一种文本翻译方法的示意图,通过已经确定相关信息构建Prompt,作为ChatGPT的提示词,ChatGPT对输入文本进行翻译后,得到对应的输出结果。
举例说明,在对游戏b进行汉化的过程中,确定需要翻译的文本1-20对应的聚类文本集1-3,对应的上下文信息,对应的目标文本集后,选取游戏b需要翻译文本1-20中的文本1作为待翻译文本,之后确定文本1对应的聚类文本集1,上下文信息和包含专有名词角色名1的目标术语集,之后基于以上三者创建ChatGPT的Prompt,根据Prompt对文本1进行翻译,得到译文文本1,之后再依次选取文本2-19执行上述步骤,得到译文文本2-19,得到的译文文本1-20即为游戏b的翻译结果。
综上,通过提示信息的构建,有效的限定了语言模型的输入,为语言模型的翻译过程构建了翻译标准,保障待处理文本集翻译后的一致性与准确性。
进一步的,在实际使用场景中,语言模型的输入端往往存在限制,无法输入过多的字符,待翻译的文本内容需要多次进行输入,而不同批次的输入内容也需要保证翻译的一致性,本实施例中,具体实现方式如下:
将所述待处理文本集与所述目标文本集存储至所述记忆库。
具体的,待处理文本集与目标文本集被存储至记忆库后,在后续批次的输入中,这些被存入的文本集与目标文本集将会作为新的背景信息与原有背景信息结合,使本批次的翻译内容成为后续批次翻译的参考素材,通过后续的批次的待处理文本集的上下文信息确定过程,为后续批次的翻译提供帮助。
举例说明,在对游戏b进行汉化的过程中,游戏b中需要翻译的字符数为400000个,该文本翻译装置的输入上限为40000字符,故需要分为10次进行输入,在第一批次输入中,将文本1-20进行翻译,得到译文文本1-20,之后将文本1-20以及译文文本1-20存入ChatGPT的记忆库,与原本输入的游戏b在官方网站上的游戏背景故事共同组成新的背景信息,之后完成第二批次的需要翻译的文本21-40的翻译,得到对应译文文本21-40,并将文本21-40与译文文本21-40存入ChatGPT的记忆库,重复该过程直至游戏b中需要翻译的400000个字符被全部翻译。
综上所述,对待处理文本集中包含的待处理文本进行聚类,得到聚类文本集,确定待处理文本集相关的术语表和上下文信息,之后通过得到的聚类文本集、术语表和上下文信息对待处理文本集进行翻译,得到目标文本集,有效的保证了翻译后的一致性,而其一致性具体体现在得到的译文在翻译句式、专有名词和翻译背景的一致,提升用户翻译任务完成效果,增强用户体验感。
下述结合附图3,以本申请提供的文本翻译方法对外文书籍应用为例,对所述文本翻译方法进行进一步说明。其中,图3示出了本申请一实施例提供的一种应用于外文书籍的文本翻译方法的处理流程图,具体包括以下步骤:
S302:通过实体抽取技术抽取待处理文本集中的专有名词。
具体的,对具备1200000字符的外文书籍C使用经过预训练的语言模型进行翻译,该语言模型的输入限制为6000字符,用户将外文书籍C的原文内容分20次进行输入,在首批次的原文翻译中,首先通过实体抽取技术确定该原文中包含的专有名词。
S304:基于AI翻译和人工本地化校验对专有名词进行翻译,得到专有名词翻译文本。
具体的,用户通过AI翻译结合人工校验的方式,对抽取的专有名词进行翻译,得到对应的专有名词译文。
S306:根据专有名词与专有名词翻译文本建立所述术语表。
具体的,根据专有名词以及与专有名词一一对应的专有名词译文构建术语表,需要说明的是,在构建的术语表中专有名词与专有名词译文之间的对应关系也通过表格结构进行明确,明确的方式可以采取位置对应,添加标识等,具体明确方式本实施例不进行限定。
S308:对背景信息进行分词,并根据文本匹配算法对分词结果进行处理,创建背景信息的倒排索引。
具体的,对于书籍C的相关简介,以及对书籍C的专家点评、批注作为背景信息,通过分词算法对背景信息进行分词,并通过文本匹配算法,根据分词结果构建背景信息的倒排索引。
S310:将至少一个待处理文本进行向量转换,生成至少一个待处理向量。
具体的,将书籍C中首批需要进行翻译的文本通过向量转换算法,生成对应的文本向量。
S312:通过聚类算法对至少一个待处理向量进行处理,生成至少一个聚类向量集。
S314:基于至少一个聚类向量集中包含的待处理向量,与至少一个待处理文本之间的对应关系,生成聚类文本集。
具体的,根据聚类算法,将得到的文本向量根据语义进行聚类,之后根据得到的向量集,之后根据向量集中包含的向量,确定对应的原文文本,将原文文本进行集合,得到聚类文本集。
S316:将所述背景信息进行向量转换生成背景向量,根据语义向量匹配,确定至少一个待处理文本相关的背景向量为目标背景向量。
具体的,通过向量转换算法,将背景信息转化为背景向量,通过语义匹配,确定需翻译的原文文本对应的背景向量。
S318:基于背景信息的倒排索引,查询目标背景向量对应的背景信息,并确定为与至少一个待处理文本相关的上下文信息。
具体的,通过需翻译的原文文本对应的背景向量,查询对应的背景信息,查询过程通过上述生成的倒排索引完成,确定被查询出的背景信息为上下文信息。
S320:将术语表与至少一个聚类文本集进行匹配,确定与至少一个聚类文本集对应的目标术语集。
具体的,在术语表中进行查询,查询各个聚类文本集中包含的专有名词,并确定相关译文,之后根据查询结果构建各个聚类文本集的目标术语集。
S322:选取至少一个聚类文本集中包含的一个待处理文本作为待翻译文本。
S324:根据待翻译文本对应的聚类文本集、上下文信息和目标术语集生成语言模型的提示信息。
具体的,选取原文文本中的第一句作为待翻译文本,之后根据待翻译文本对应的聚类文本集、上下文信息和目标术语生成ChatGPT的提示词。
S326:基于提示信息,通过语言模型对待翻译文本进行翻译,输出目标文本。
具体的,根据提示词,ChatGPT对原文的第一句进行翻译,得到第一的翻译译文。
S328:判断待处理文本是否被全部选取;
若否,执行步骤S322;
若是,执行步骤S330。
S330:得到目标文本集,将所述待处理文本集与所述目标文本集存储至所述记忆库。
具体的,在首批次的原文翻译完成,得到首批次对应的译文,之后将该批次的原文与译文存储至ChatGPT的记忆库,在后续批次的原文翻译中,作为其上下文信息的选取素材。
综上所述,对待处理文本集中包含的待处理文本进行聚类,得到聚类文本集,确定待处理文本集相关的术语表和上下文信息,之后通过得到的聚类文本集、术语表和上下文信息对待处理文本集进行翻译,得到目标文本集,有效的保证了翻译后的一致性,而其一致性具体体现在得到的译文在翻译句式、专有名词和翻译背景的一致,提升用户翻译任务完成效果,增强用户体验感。
与上述方法实施例相对应,本申请还提供了文本翻译装置实施例,图4示出了本申请一实施例提供的一种文本翻译装置的结构示意图。如图4所示,该装置包括:
聚类模块402,被配置为对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;
关联模块404,被配置为通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;
输出模块406,被配置为根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
一个可选的实施例中,所述文本翻译装置,还包括:
存储模块,被配置为抽取所述待处理文本集中的专有名词,基于抽取结果建立术语表,并将所述术语表存储至所述记忆库;将所述待处理文本集相关的背景信息存储至所述记忆库。
一个可选的实施例中,所述存储模块进一步被配置为:
通过实体抽取技术抽取所述待处理文本集中的所述专有名词;基于AI翻译和人工本地化校验对所述专有名词进行翻译,得到专有名词翻译文本;根据所述专有名词与所述专有名词翻译文本建立所述术语表。
一个可选的实施例中,所述聚类模块402进一步被配置为:
将所述至少一个待处理文本进行向量转换,生成至少一个待处理向量;通过聚类算法对所述至少一个待处理向量进行处理,生成至少一个聚类向量集;基于所述至少一个聚类向量集中包含的待处理向量,与所述至少一个待处理文本之间的对应关系,生成聚类文本集。
一个可选的实施例中,所述文本翻译装置,还包括:
索引创建模块,被配置为对所述背景信息进行分词;根据文本匹配算法对分词结果进行处理,创建所述背景信息的倒排索引。
一个可选的实施例中,所述索引创建模块进一步被配置为:
将所述背景信息进行向量转换生成背景向量;根据语义向量匹配,确定所述至少一个待处理文本相关的背景向量为目标背景向量;基于所述背景信息的倒排索引,查询所述目标背景向量对应的背景信息,并确定为与所述至少一个待处理文本相关的上下文信息。
一个可选的实施例中,所述输出模块406进一步被配置为:
将所述术语表与所述至少一个聚类文本集进行匹配,确定与所述至少一个聚类文本集对应的目标术语集;根据所述目标术语集、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
一个可选的实施例中,所述输出模块406进一步被配置为:
选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本;根据所述待翻译文本对应的聚类文本集、上下文信息和目标术语集生成所述语言模型的提示信息;基于所述提示信息,通过所述语言模型对所述待翻译文本进行翻译,输出目标文本;执行所述选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本步骤,直至全部待处理文本被选取,根据所述语言模型输出的目标文本得到目标文本集。
一个可选的实施例中,所述文本翻译装置,还包括:
存储模块,被配置为将所述待处理文本集与所述目标文本集存储至所述记忆库。
本申请提供的文本翻译装置,对待处理文本集中包含的待处理文本进行聚类,得到聚类文本集,确定待处理文本集相关的术语表和上下文信息,之后通过得到的聚类文本集、术语表和上下文信息对待处理文本集进行翻译,得到目标文本集,有效的保证了翻译后的一致性,而其一致性具体体现在得到的译文在翻译句式、专有名词和翻译背景的一致,提升用户翻译任务完成效果,增强用户体验感。
上述为本实施例的一种文本翻译装置的示意性方案。需要说明的是,该文本翻译装置的技术方案与上述的文本翻译方法的技术方案属于同一构思,文本翻译装置的技术方案未详细描述的细节内容,均可以参见上述文本翻译方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图5示出了根据本申请一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;
通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;
根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本翻译方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本翻译方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以执行上述的文本翻译方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本翻译方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本翻译方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本翻译方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的 范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种文本翻译方法,其特征在于,包括:
对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;
通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;
根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
2.根据权利要求1所述的方法,其特征在于,所述通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息之前,还包括:
抽取所述待处理文本集中的专有名词,基于抽取结果建立术语表,并将所述术语表存储至所述记忆库;
将所述待处理文本集相关的背景信息存储至所述记忆库。
3.根据权利要求2所述的方法,其特征在于,所述抽取所述待处理文本集中的专有名词,基于抽取结果建立术语表,包括:
通过实体抽取技术抽取所述待处理文本集中的所述专有名词;
基于AI翻译和人工本地化校验对所述专有名词进行翻译,得到专有名词翻译文本;
根据所述专有名词与所述专有名词翻译文本建立所述术语表。
4.根据权利要求1所述的方法,其特征在于,所述对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集,包括:
将所述至少一个待处理文本进行向量转换,生成至少一个待处理向量;
通过聚类算法对所述至少一个待处理向量进行处理,生成至少一个聚类向量集;
基于所述至少一个聚类向量集中包含的待处理向量,与所述至少一个待处理文本之间的对应关系,生成聚类文本集。
5.根据权利要求2所述的方法,其特征在于,所述将所述待处理文本集相关的背景信息存储至所述记忆库之前,还包括:
对所述背景信息进行分词;
根据文本匹配算法对分词结果进行处理,创建所述背景信息的倒排索引。
6.根据权利要求5所述的方法,其特征在于,所述确定所述至少一个待处理文本相关的上下文信息,包括:
将所述背景信息进行向量转换生成背景向量;
根据语义向量匹配,确定所述至少一个待处理文本相关的背景向量为目标背景向量;
基于所述背景信息的倒排索引,查询所述目标背景向量对应的背景信息,并确定为与所述至少一个待处理文本相关的上下文信息。
7.根据权利要求1所述的方法,其特征在于,所述根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集,包括:
将所述术语表与所述至少一个聚类文本集进行匹配,确定与所述至少一个聚类文本集对应的目标术语集;
根据所述目标术语集、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标术语集、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集,包括:
选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本;
根据所述待翻译文本对应的聚类文本集、上下文信息和目标术语集生成所述语言模型的提示信息;
基于所述提示信息,通过所述语言模型对所述待翻译文本进行翻译,输出目标文本;
执行所述选取所述至少一个聚类文本集中包含的一个待处理文本作为待翻译文本步骤,直至全部待处理文本被选取,根据所述语言模型输出的目标文本得到目标文本集。
9.根据权利要求1所述的方法,其特征在于,所述根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集之后,还包括:
将所述待处理文本集与所述目标文本集存储至所述记忆库。
10.一种文本翻译装置,其特征在于,包括:
聚类模块,被配置为对待处理文本集中包含的至少一个待处理文本进行聚类,生成至少一个聚类文本集;
关联模块,被配置为通过预训练语言模型的记忆库,确定所述待处理文本集相关的术语表,以及确定所述至少一个待处理文本相关的上下文信息;
输出模块,被配置为根据所述术语表、所述至少一个聚类文本集和所述上下文信息,通过所述语言模型生成所述待处理文本集的目标文本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410142144.4A CN117709375B (zh) | 2024-02-01 | 2024-02-01 | 文本翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410142144.4A CN117709375B (zh) | 2024-02-01 | 2024-02-01 | 文本翻译方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117709375A true CN117709375A (zh) | 2024-03-15 |
CN117709375B CN117709375B (zh) | 2024-05-24 |
Family
ID=90162693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410142144.4A Active CN117709375B (zh) | 2024-02-01 | 2024-02-01 | 文本翻译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117709375B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118349635A (zh) * | 2024-06-14 | 2024-07-16 | 四川封面传媒科技有限责任公司 | 一种机构名称校对方法、装置、设备、介质及程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110133909A (ko) * | 2010-06-07 | 2011-12-14 | 박동민 | 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 |
CN113792558A (zh) * | 2021-11-16 | 2021-12-14 | 北京百度网讯科技有限公司 | 基于机器翻译和译后编辑的自学习翻译方法及装置 |
CN113935339A (zh) * | 2021-08-31 | 2022-01-14 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及存储介质 |
CN116629283A (zh) * | 2023-06-07 | 2023-08-22 | 平安科技(深圳)有限公司 | 文本翻译方法和装置、计算机设备及存储介质 |
CN116912382A (zh) * | 2023-09-14 | 2023-10-20 | 成都帆点创想科技有限公司 | 一种渲染方法、装置及电子设备和存储介质 |
CN116933807A (zh) * | 2023-09-14 | 2023-10-24 | 成都帆点创想科技有限公司 | 一种文本翻译方法、装置、设备及可读存储介质 |
CN116956954A (zh) * | 2023-06-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、电子设备及存储介质 |
CN117273026A (zh) * | 2023-10-11 | 2023-12-22 | 北京寻医问译科技发展有限公司 | 专业文本翻译方法、装置、电子设备和存储介质 |
-
2024
- 2024-02-01 CN CN202410142144.4A patent/CN117709375B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110133909A (ko) * | 2010-06-07 | 2011-12-14 | 박동민 | 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 |
CN113935339A (zh) * | 2021-08-31 | 2022-01-14 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及存储介质 |
CN113792558A (zh) * | 2021-11-16 | 2021-12-14 | 北京百度网讯科技有限公司 | 基于机器翻译和译后编辑的自学习翻译方法及装置 |
CN116629283A (zh) * | 2023-06-07 | 2023-08-22 | 平安科技(深圳)有限公司 | 文本翻译方法和装置、计算机设备及存储介质 |
CN116956954A (zh) * | 2023-06-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、电子设备及存储介质 |
CN116912382A (zh) * | 2023-09-14 | 2023-10-20 | 成都帆点创想科技有限公司 | 一种渲染方法、装置及电子设备和存储介质 |
CN116933807A (zh) * | 2023-09-14 | 2023-10-24 | 成都帆点创想科技有限公司 | 一种文本翻译方法、装置、设备及可读存储介质 |
CN117273026A (zh) * | 2023-10-11 | 2023-12-22 | 北京寻医问译科技发展有限公司 | 专业文本翻译方法、装置、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
张英杰: "Trados记忆库及术语库在提高翻译效率方面的作用分析", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》, no. 7, 15 July 2019 (2019-07-15), pages 085 - 73 * |
王华树;: "科技翻译项目中的术语管理", 中国科技术语, no. 04, 25 August 2015 (2015-08-25), pages 19 - 23 * |
翻译技术点津: "ChatGPT:如何利用聊天机器人制作双语术语表", Retrieved from the Internet <URL:《weibo.com/ttarticle/p/show?=id2309404874451044139091》> * |
范敏;: "计算机辅助翻译研究的语篇观", 复旦外国语言文学论丛, no. 01, 30 September 2018 (2018-09-30), pages 159 - 166 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118349635A (zh) * | 2024-06-14 | 2024-07-16 | 四川封面传媒科技有限责任公司 | 一种机构名称校对方法、装置、设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN117709375B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN117709375B (zh) | 文本翻译方法及装置 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN110096567A (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN118170894B (zh) | 一种知识图谱问答方法、装置及存储介质 | |
CN115662435B (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
CN113836295B (zh) | 一种文本摘要提取方法、系统、终端及存储介质 | |
CN111539228A (zh) | 向量模型训练方法及装置、相似度确定方法及装置 | |
CN115994535A (zh) | 文本处理方法及装置 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
CN117725183A (zh) | 提升ai大语言模型检索性能的重排序方法和装置 | |
CN115186080A (zh) | 一种智能问答数据处理方法、系统、计算机设备及介质 | |
Dilawari et al. | Neural attention model for abstractive text summarization using linguistic feature space | |
CN113961686A (zh) | 问答模型的训练方法及装置、问答方法及装置 | |
CN118296120A (zh) | 多模态多尺度多路召回的大型语言模型检索增强生成方法 | |
CN113268989B (zh) | 多音字处理方法及装置 | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
CN118210889A (zh) | 基于知识图谱的向量相似性搜索的提示词生成方法及装置 | |
CN114430832A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115796194A (zh) | 一种基于机器学习的英语翻译系统 | |
CN116204615A (zh) | 问题生成模型训练方法及装置 | |
CN115718904A (zh) | 文本处理方法及装置 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
CN114138929A (zh) | 问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |