CN117273026A - 专业文本翻译方法、装置、电子设备和存储介质 - Google Patents
专业文本翻译方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117273026A CN117273026A CN202311317140.7A CN202311317140A CN117273026A CN 117273026 A CN117273026 A CN 117273026A CN 202311317140 A CN202311317140 A CN 202311317140A CN 117273026 A CN117273026 A CN 117273026A
- Authority
- CN
- China
- Prior art keywords
- text
- translation
- information
- term
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000012634 fragment Substances 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000009877 rendering Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 9
- 238000012552 review Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 5
- 108091033409 CRISPR Proteins 0.000 description 5
- 238000010354 CRISPR gene editing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语言技术领域,公开了一种专业文本翻译方法、装置、电子设备和存储介质。方法包括:获取待翻译的专业文本,具有多个文本片段;利用大语言模型对文本片段进行处理得到文本片段内容信息和术语翻译信息;基于文本片段内容信息和术语翻译信息,利用大语言模型对文本片段进行翻译处理得到第一译文片段;基于文本片段内容信息和术语翻译信息,利用大语言模型对第一译文片段进行润色审校处理得到第二译文片段;将与各文本片段对应的第二译文片段合并得到翻译专业文本。装置包括:专业文本获取模块、文本内容得到模块、术语信息得到模块、第一译文得到模块、第二译文得到模块和译文合并模块。通过上述技术方案提高了专业文本的翻译质量。
Description
技术领域
本发明属于语言技术领域,特别涉及一种专业文本翻译方法、装置、电子设备和存储介质。
背景技术
随着全球化的发展,跨语言和跨文化的交流日益增加,尤其在学术界。学术界交流时会使用专业文本,其内含有大量的术语,因此专业文本的翻译是学术界在交流时的关键环节。
目前专业文本的翻译主要依靠机器翻译,虽然随着人工智能的发展,机器翻译技术已经取得了显著的进步。但是由于机器翻译通常依赖于统计方法和神经网络,其对上下文的理解和处理能力相比于人类翻译者要弱得多,导致对专业文本的翻译质量较差。
发明内容
为了解决上述问题,本发明一方面提供了一种专业文本翻译方法,其包括:
获取待翻译的专业文本,所述待翻译的专业文本具有多个文本片段;利用大语言模型对所述文本片段进行处理,得到文本片段内容信息,所述文本片段内容信息包括:学科领域;利用大语言模型对所述文本片段进行处理,得到术语翻译信息;基于所述文本片段内容信息和所述术语翻译信息,利用大语言模型对所述文本片段进行翻译处理,得到第一译文片段;基于所述文本片段内容信息和所述术语翻译信息,利用所述大语言模型对所述第一译文片段进行润色审校处理,得到第二译文片段;将与各所述文本片段对应的第二译文片段合并,得到翻译专业文本。
本发明另一方面提供了一种专业文本翻译装置,其包括:
专业文本获取模块,用于获取待翻译的专业文本,所述待翻译的专业文本具有多个文本片段;文本内容得到模块,用于利用大语言模型对所述文本片段进行处理,得到文本片段内容信息,所述文本片段内容信息包括:学科领域;术语信息得到模块,用于利用大语言模型对所述文本片段进行处理,得到术语翻译信息;第一译文得到模块,用于基于所述文本片段内容信息和所述术语翻译信息,利用大语言模型对所述文本片段进行翻译处理,得到第一译文片段;第二译文得到模块,用于基于所述文本片段内容信息和所述术语翻译信息,利用所述大语言模型对所述第一译文片段进行润色审校处理,得到第二译文片段;译文合并模块,用于将与各所述文本片段对应的第二译文片段合并,得到翻译专业文本。
本发明又一方面提供了一种电子设备,其包括:处理器和用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为执行上述的专业文本翻译方法。
本发明再一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的专业文本翻译方法。
本发明实施例提供的技术方案带来的有益效果是:
通过获取待翻译的专业文本,待翻译的专业文本具有多个文本片段,利用大语言模型对文本片段进行处理,得到文本片段内容信息,文本片段内容信息包括:学科领域,利用大语言模型对文本片段进行处理,得到术语翻译信息,基于文本片段内容信息和术语翻译信息,利用大语言模型对文本片段进行翻译处理,得到第一译文片段,基于文本片段内容信息和术语翻译信息,利用大语言模型对第一译文片段进行润色审校处理,得到第二译文片段,将与各文本片段对应的第二译文片段合并,得到翻译专业文本,实现了专业文本翻译质量的提高。
附图说明
图1为本发明实施例提供的一种专业文本翻译方法的流程示意图;
图2为本发明实施例提供的一种专业文本翻译方法的结构示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。
以专业是医学为例进行说明:目前大多数的医学专业著作(或称医学专业文本)的翻译都面临医学专家不擅长文字表达,时间少工作忙的问题,而翻译者通常因为专业壁垒,很难正确翻译该类文本。加之,医学专业著作通常文本量大,目前传统的翻译模式无法兼顾翻译效率和质量。为此,本发明实施例提供了一种专业文本翻译方法,其包括以下步骤:
步骤101、获取待翻译的专业文本,待翻译的专业文本具有多个文本片段。
需要说明的是,专业文本具有专业术语和专业领域语言风格信息。通常专业文本主要由一本或多本书籍构成,其文字量可以在20万字到200万字之间,含有大量章、节,每节内含有若干自然段。自然段是构成文本作品除词语和句子之外的最小语言单位,因此可以以自然段为单位将专业文本进行划分,得到多个文本片段。划分时可以依据段落标记进行标注。在其他的实施中,为了使翻译专业文本更好地达到通顺和顺畅,可以由若干语义相近的自然段组成文本片段。划分时,可以依据标题进行标注。关于如何将专业文本划分为多个文本片段,本实施例对此不进行限定。为了提高专业文本翻译方法的输出质量,专业文本单元(或称文本片段)的字符数优选小于900,进一步地,小于850,更进一步地,小于800。
步骤102、利用大语言模型对文本片段进行处理,得到文本片段内容信息,文本片段内容信息包括:学科领域。
具体地,该步骤的实现包括:基于文本片段的内容感知提示词(或称内容感知prompt),利用大语言模型(LLM,Large Language Model)对文本片段进行处理,得到文本片段内容信息,从而实现提取输入文本的学科领域等相关信息。在其他的实施例中,文本片段内容信息还包括:关键知识背景,例如:学科领域:生物学,关键知识背景:细胞生物学与遗传学;学科领域:物理学与化学,关键知识背景:燃烧反应与光学成像。
大语言模型是一种深度学习模型,特别是基于transformer架构,用于处理自然语言任务。这些模型通过在大量文本数据上训练,学习到语言的各种模式和结构,从而能够生成文本、回答问题、翻译语言等。OpenAI的GPT系列模型就是大语言模型的代表。提示词工程是提供给大语言模型的一个简短的指导,帮助它更好地理解用户意图和输出预期的答案。它为模型提供了一个指向性,使得模型的回应更为相关和准确。
对于翻译任务,大语言模型有以下优势:1)由于它在多种语言的文本上进行了训练,因此具有跨语言的语义理解能力;2)它能够理解上下文,从而进行更为准确的翻译。而提示词工程则可以使模型明确翻译的要求,从而提高翻译的准确性和流畅性。
大语言模型与传统机器翻译(MT,Machine Translation)模型在多个方面存在差异:
数据处理与训练:传统MT模型通常依赖于成对的双语数据进行训练,例如英文-法文的句子对。而大语言模型如GPT在各种语言的单语数据上进行训练,从而学习跨语言的语义表示。
架构:许多传统MT模型,如序列到序列模型,包含明确的编码器和解码器结构。而像GPT这样的大语言模型主要使用解码器结构进行任务。
上下文理解:大语言模型由于其庞大的模型规模和广泛的训练数据,通常对上下文有更好的理解,从而在处理模糊或多义的句子时更为准确。
泛化能力:由于大语言模型在多种任务和数据上进行训练,它们在没有见过的数据或任务上通常具有更好的泛化能力。
优势有:
多任务能力:大语言模型不仅能进行翻译,还可以处理其他NLP任务,如问答、文本生成等,而无需对模型进行特定的微调。
少量双语数据:即使在双语数据稀缺的语言对上,大语言模型也能展现出不错的翻译性能。
更好的上下文理解:能更好地处理长句子和复杂的语境。
内容感知提示词包括:任务内容、任务要求、和输出要求。
下面对内容感知提示词如何构建进行解释说明:
//prompt开始
阅读输入的段落,该段落可能为任何语言。然后完成以下三项任务(注释:此处对应上述的任务内容):
1.确定该段落所属的学科领域(例如:历史学、物理学等)。
2.从段落中提取一个最关键的知识背景,它可能是一个主要的概念、理论或特定的方法。
3.按输出示例输出结果,不要输出其他内容。
注意事项(注释:此处对应上述的任务要求):
-请尽量精确地识别学科和知识背景,避免使用模糊或一般性的描述。
-“最关键知识背景”是为了理解该段落内容所需的最主要的知识点。
-如果输入的段落信息不足以进行准确判断,请明确指出。
输出格式(注释:此处对应上述的输出要求):
1.学科领域:
2.关键知识背景:
//prompt结束
需要说明的是:LLM在这段prompt的要求下会针对输入的文本片段进行解析,并依照输出要求的格式对结果进行输出,从而为后续prompt构建提供针对性的信息。
步骤103、利用大语言模型对文本片段进行处理,得到术语翻译信息。
该步骤的实现方式包括:术语提取及术语翻译两部分。具体地,基于文本片段的术语提取提示词(或称术语提取prompt),利用大语言模型对文本片段进行处理,得到术语信息,其中,术语提取提示词包含:任务内容、任务要求和输出要求,此步骤的处理对象是文本片段。在其他的实施例中,还可以基于文本片段的术语提取提示词,利用大语言模型对文本片段包含的若干个单句分别进行处理,得到术语信息,此步骤的处理对象是单句。
响应于术语信息未在已有术语知识库中,基于文本片段的术语翻译提示词(或称术语初定prompt),利用大语言模型对文本片段进行处理,得到术语初步翻译信息,其中,术语翻译提示词采用CRISPR框架,包含:能力与角色、背景信息、任务内容、任务要求和输出要求,对术语初步翻译信息进行专家审核,得到术语翻译信息,换言之,如果术语知识库中没有相关信息,则进行术语初定,最后交由专家团队审核;响应于术语信息在已有术语知识库中,将与该术语信息对应的翻译信息作为术语翻译信息,换言之,如果提取出的术语信息存在于已有术语知识库,则直接使用相应的术语知识库的信息。
需要说明的是,已有术语知识库包含:术语信息和与该术语信息对应的翻译信息。实际应用中,已有术语知识库通常包括:术语在线,其是由全国科学技术名词审定委员会主办的规范术语知识服务平台;还可以包括:审核知识库。当术语未被已有术语知识库收录时,将术语对应的初步翻译结果交由专家团队进行审核确认,并将审核确认结果录入至审核知识库。专家团队审核确认时,需要具有相关的专业知识。下面对术语提取提示词的构建进行解释说明:
//prompt开始
请从给定的XX领域(注释:此处用前述步骤中的“学科领域”进行替换)文本中识别并提取所有与该领域相关的专业术语(注释:此处对应上述的任务内容)。
术语应具备专业性、科学性、单义性和系统性等特质(注释:此处对应上述的任务要求)。
每个术语应附带其出现在文章中的完整句子(注释:此处对应上述的任务要求)。
请以表格形式输出这些信息,其中第一列为术语,第二列为术语所在句(注释:此处对应上述的输出要求)。
//prompt结束
需要说明的是:LLM在这段prompt的要求下会针对输入的文本进行解析,提取出文本内相应领域的专业术语。这些术语会在审查完成的术语库中检索相应的信息后确定其翻译,随后为翻译及润色prompt构建准确的术语翻译信息。
下面对术语翻译提示词的构建进行解释说明:
//prompt开始
请扮演一位掌握XX领域(注释:此处用前述步骤中的“学科领域”进行替换)术语的多语言翻译专家,具备中文、日语和英语(注释:此处具体语种可以根据具体要求进行替换)的专业能力(注释:此处对应上述的能力与角色)。
我会给你一个具体的XX领域(注释:此处用前述步骤中的“学科领域”进行替换)术语及一个包含该术语的句子(注释:此处对应上述的背景信息)。你现在面临的任务是翻译上述术语并给出相应解释(注释:此处对应上述的任务内容)。
具体任务要求(注释:此处对应上述的任务内容):
1.翻译任务:将提供的XX领域(注释:用前述步骤中的“学科领域”进行替换)术语翻译成中文、英文和日语。
2.定义与普及解释:给出该术语的定义,并用通俗易懂的方式进一步解释它。
3.例句解释:解析该术语在给定句子中的具体意义和应用。
4.额外实例:请生成包含该XX领域(注释:用前述步骤中的“学科领域”进行替换)术语的其他三个例句,并确保这些例句分别用中文、日语和英语呈现。
输出格式(注释:此处对应上述的输出要求):
1.术语翻译
中文术语:
英文术语:
日文术语:
2.术语的定义及解释:
定义:
解释:
3.术语在句中的含义:
4.例句:
//prompt结束
需要说明的是:LLM在这段prompt的要求下会根据前文提取的术语和所在句,自动输出要求的相应信息。这些信息不会直接用于后续翻译工作,而是交由相应领域的专家评审团队审查后,将这些信息输入审查完成的术语知识库中。
步骤104、基于文本片段内容信息和术语翻译信息,利用大语言模型对文本片段进行翻译处理,得到第一译文片段。
具体地,该步骤的实现方式包括:基于文本片段内容信息,得到文本片段的基础翻译提示词,基础翻译提示词采用CRISPR框架,包括:能力与角色、背景信息、任务内容、任务要求和输出要求;基于术语翻译信息和基础翻译提示词,得到文本片段的翻译提示词;基于文本片段的翻译提示词,利用大语言模型对文本片段进行翻译处理,得到第一译文片段,此步骤的翻译对象是文本片段,其中,翻译提示词也是采用CRISPR框架,包括:能力与角色、背景信息、任务内容、任务要求和输出要求,相对基础翻译提示词,其任务要求还包括:术语翻译信息。
在其他的实施例中,还可以基于文本片段的翻译提示词,利用大语言模型对文本片段包含的若干个单句分别进行翻译处理,得到译文单句,然后各译文单句组合成第一译文片段,此步骤的翻译对象是单句。
下面对翻译提示词的构建进行解释说明:
//prompt开始
请扮演一位日中(注释:翻译专家的语言能力可以根据具体的实际情况进行调整)翻译专家,你对XX领域(注释:用前述步骤中的“学科领域”进行替换)十分了解,并尤其熟悉XX(注释:用前述步骤中的“关键知识背景”进行替换)方面的知识(注释:此处对应上述的能力与角色。
你现在面临的任务是(注释:此处对应上述的任务内容):
将一段XX领域(用前述步骤中的“学科领域”进行替换)的文本翻译成中文。
这篇文章的目标读者主要是一般大众(注释:此处对应上述的背景信息,需要说明的是,背景信息可以根据具体的实际情况进行调整,本实施例对此不进行限定)
请遵循以下准则以确保翻译的高质量(注释:此处对应上述的任务要求):
1.逻辑性:确保翻译逻辑清晰且准确无误。
2.语言流畅性:语言应深入浅出,易于理解。
3.自然度:避免机械翻译,使翻译内容读起来自然。
4.文本忠实度:保持对原文的忠实,避免添加或删除信息,也不要误解原文。
5.请确保下述词语按提供的术语对进行翻译:
(1)“XXX”(本文本中提取到的术语)翻译为“XXX”(已有术语知识库中检索到的术语翻译,或经术语初定专家审核过的术语翻译)。
(2)“XXX”翻译为“XXX”(同上,处理句中提取到的全部术语)
输出要求(注释:此处对应上述的输出要求):仅输出润色后的文本,不要输出过程及其他内容。
//prompt结束
需要说明的是:这段prompt将结合前面针对文本提取出的文本片段内容信息和术语信息,让模型具有针对性的处理当前文本,从而获得最佳的翻译效果。
步骤105、基于文本片段内容信息和术语翻译信息,利用大语言模型对第一译文片段进行润色审校处理,得到第二译文片段。
具体地,该步骤的实现方式包括:基于文本片段内容信息,得到文本片段的基础润色提示词,基础润色提示词采用CRISPR框架,包括:能力与角色、背景信息、任务内容、任务要求和输出要求;基于术语翻译信息和基础润色提示词,得到文本片段的润色提示词;基于文本片段的润色提示词,利用大语言模型对文本片段进行润色审校处理,得到第二译文片段。润色提示词也采用CRISPR框架,包括:能力与角色、背景信息、任务内容、任务要求和输出要求,其任务要求还包括:术语翻译信息。
下面对润色提示词进行举例说明:
//prompt开始
请扮演一名专职于XX领域(用前述步骤中的“学科领域”进行替换)的专业编辑(注释:此处对应上述的能力与角色),负责文本的审查和润色(注释:此处对应上述的任务内容)。
你的主要任务是找出并纠正文章的语法和逻辑问题,同时润色文本,提高其流畅性和可读性,但不包括对原文章进行大规模的内容改动或添加新的信息。(注释:此处对应上述的背景信息)。
请遵循以下准则执行您的任务(注释:此处对应上述的任务要求):
1.语法和句子结构:仔细审查文章以识别并纠正任何语法、拼写或标点错误。同时,优化句子结构,以增加语言的流畅性和可读性。
2.逻辑一致性:确保文章的观点和结论逻辑清晰,确保各个观点和论点之间不存在自相矛盾或逻辑断层。
3.风格与目标读者:请确保您的编辑工作旨在提升文章的专业性,同时保持其对非专业读者友好和易于理解。
4.信息真实与准确:验证所有数据和参考信息的准确性,以维护文章的真实性。
5.专业术语准确性:对所有专业术语和概念进行复核,确保它们被精准且恰当地使用。
请确保下述词语按提供的术语对进行翻译:
(1)“XXX”(本文本中提取到的术语)翻译为“XXX”(已有术语知识库中检索到的术语翻译,或经术语初定专家审核国的术语翻译)。
(2)“XXX”翻译为“XXX”(同上,处理句中提取到的全部术语)
输出要求(注释:此处对应上述的输出要求):仅输出润色后的文本,不要输出过程及其他内容。
//prompt结束
需要说明的是:这段prompt将对翻译后的文本进行审查和润色。
步骤106、将与各文本片段对应的第二译文片段合并,得到翻译专业文本。
对每个文本片段执行步骤102-105,得到各文本片段对应的第二译文片段,将各第二译文片段进行合并,得到翻译专业文本。
在本实施例中,上述步骤中涉及的大语言模型可以为同种大语言模型,也可以为不同种类型,本实施例对此不进行限定。
上述步骤中涉及到的含注释的内容并不属于prompt本身的内容,用于解释相应内容的意思。
通过获取待翻译的专业文本,待翻译的专业文本具有多个文本片段,利用大语言模型对文本片段进行处理,得到文本片段内容信息,文本片段内容信息包括:学科领域,利用大语言模型对文本片段进行处理,得到术语翻译信息,基于文本片段内容信息和术语翻译信息,利用大语言模型对文本片段进行翻译处理,得到第一译文片段,基于文本片段内容信息和术语翻译信息,利用大语言模型对第一译文片段进行润色审校处理,得到第二译文片段,将与各文本片段对应的第二译文片段合并,得到翻译专业文本,实现了专业文本翻译质量的提高。
参见图2,本发明一实施例提供了一种专业文本翻译装置,该装置用于执行上述一实施例所提供的专业文本翻译,该装置包括:专业文本获取模块301、文本内容得到模块302、术语信息得到模块303、第一译文得到模块304、第二译文得到模块305和译文合并模块306。
其中,专业文本获取模块301用于获取待翻译的专业文本,待翻译的专业文本具有多个文本片段。文本内容得到模块302用于利用大语言模型对文本片段进行处理,得到文本片段内容信息,文本片段内容信息包括:学科领域。术语信息得到模块303用于利用大语言模型对文本片段进行处理,得到术语翻译信息。第一译文得到模块304用于基于文本片段内容信息和术语翻译信息,利用大语言模型对文本片段进行翻译处理,得到第一译文片段。第二译文得到模块305用于基于文本片段内容信息和术语翻译信息,利用大语言模型对第一译文片段进行润色审校处理,得到第二译文片段。译文合并模块306用于将与各文本片段对应的第二译文片段合并,得到翻译专业文本。
需要说明的是:上述实施例提供的专业文本翻译装置或称专业文本翻译装置在处理专业文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的专业文本翻译装置与专业文本翻译方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再一一赘述。
本发明一实施例提供了一种电子设备,其包括:存储器和处理器。处理器与存储器连接,被配置为基于存储在存储器中的指令,执行上述网络分路方法。处理器的数量可以为一个或多个,处理器可以是单核或多核。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器可以是下述的计算机可读介质的示例。
本发明一实施例提供了一种计算机可读存储介质,其上存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述网络分路方法。计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘-只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
Claims (10)
1.一种专业文本翻译方法,其特征在于,包括:
获取待翻译的专业文本,所述待翻译的专业文本具有多个文本片段;
利用大语言模型对所述文本片段进行处理,得到文本片段内容信息,所述文本片段内容信息包括:学科领域;
利用大语言模型对所述文本片段进行处理,得到术语翻译信息;
基于所述文本片段内容信息和所述术语翻译信息,利用大语言模型对所述文本片段进行翻译处理,得到第一译文片段;
基于所述文本片段内容信息和所述术语翻译信息,利用所述大语言模型对所述第一译文片段进行润色审校处理,得到第二译文片段;
将与各所述文本片段对应的第二译文片段合并,得到翻译专业文本。
2.根据权利要求1所述的专业文本翻译方法,其特征在于,所述利用大语言模型对所述文本片段进行处理,得到文本片段内容信息,包括:
基于所述文本片段的内容感知提示词,利用大语言模型对所述文本片段进行处理,得到文本片段内容信息;
其中,所述内容感知提示词包括:任务内容、任务要求和输出要求。
3.根据权利要求1所述的专业文本翻译方法,其特征在于,所述利用大语言模型对所述文本片段进行处理,得到术语翻译信息,包括:
基于所述文本片段的术语提取提示词,利用大语言模型对所述文本片段进行处理,得到术语信息;或基于所述文本片段的术语提取提示词,利用大语言模型对所述文本片段包含的若干个单句分别进行处理,得到术语信息;
响应于所述术语信息在已有术语知识库,根据所述已有术语知识库得到与所述术语信息对应的术语翻译信息;
响应于所述术语信息未在已有术语知识库中,基于所述文本片段的术语翻译提示词,利用大语言模型对所述文本片段进行处理,得到术语初步翻译信息,对所述术语初步翻译信息进行专家审核,得到术语翻译信息。
4.根据权利要求3所述的专业文本翻译方法,其特征在于,所述对所述术语初步翻译信息进行专家审核,得到术语翻译信息之后,还包括:
更新已有术语知识库,以存有所述术语翻译信息。
5.根据权利要求1-4中任一项所述的专业文本翻译方法,其特征在于,基于所述文本片段内容信息和所述术语翻译信息,利用大语言模型对所述文本片段进行翻译处理,得到第一译文片段,包括:
基于所述文本片段内容信息,得到所述文本片段的基础翻译提示词,所述基础翻译提示词包括:能力与角色、背景信息、任务内容、任务要求和输出要求;
基于所述术语翻译信息和所述基础翻译提示词,得到所述文本片段的翻译提示词;
基于所述文本片段的翻译提示词,利用大语言模型对所述文本片段进行翻译处理,得到所述第一译文片段;或基于所述文本片段的翻译提示词,利用大语言模型对所述文本片段包含的若干个单句分别进行翻译处理,得到译文单句,各所述译文单句组合成所述第一译文片段。
6.根据权利要求1所述的专业文本翻译方法,其特征在于,所述基于所述文本片段内容信息和所述术语翻译信息,利用所述大语言模型对所述第一译文片段进行润色审校处理,得到第二译文片段,包括:
基于所述文本片段内容信息,得到所述文本片段的基础润色提示词,所述基础润色提示词包括:能力与角色、背景信息、任务内容、任务要求和输出要求;
基于所述术语翻译信息和所述基础润色提示词,得到所述文本片段的润色提示词;
基于所述文本片段的润色提示词,利用大语言模型对所述文本片段进行润色审校处理,得到所述第二译文片段。
7.根据权利要求1所述的专业文本翻译方法,其特征在于,多个所述文本片段之间以自然段划分;和/或
所述文本片段内容信息还包括:关键知识背景。
8.一种专业文本翻译装置,其特征在于,所述专业文本翻译装置包括:
专业文本获取模块,用于获取待翻译的专业文本,所述待翻译的专业文本具有多个文本片段;
文本内容得到模块,用于利用大语言模型对所述文本片段进行处理,得到文本片段内容信息,所述文本片段内容信息包括:学科领域;
术语信息得到模块,用于利用大语言模型对所述文本片段进行处理,得到术语翻译信息;
第一译文得到模块,用于基于所述文本片段内容信息和所述术语翻译信息,利用大语言模型对所述文本片段进行翻译处理,得到第一译文片段;
第二译文得到模块,用于基于所述文本片段内容信息和所述术语翻译信息,利用所述大语言模型对所述第一译文片段进行润色审校处理,得到第二译文片段;
译文合并模块,用于将与各所述文本片段对应的第二译文片段合并,得到翻译专业文本。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7中任一项所述的专业文本翻译方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现权利要求1-7中任一项所述的专业文本翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311317140.7A CN117273026A (zh) | 2023-10-11 | 2023-10-11 | 专业文本翻译方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311317140.7A CN117273026A (zh) | 2023-10-11 | 2023-10-11 | 专业文本翻译方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117273026A true CN117273026A (zh) | 2023-12-22 |
Family
ID=89214193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311317140.7A Pending CN117273026A (zh) | 2023-10-11 | 2023-10-11 | 专业文本翻译方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117273026A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709375A (zh) * | 2024-02-01 | 2024-03-15 | 成都帆点创想科技有限公司 | 文本翻译方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935339A (zh) * | 2021-08-31 | 2022-01-14 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及存储介质 |
CN116681088A (zh) * | 2023-05-25 | 2023-09-01 | 北京中科凡语科技有限公司 | 一种基于大模型的翻译系统、方法及储存介质 |
-
2023
- 2023-10-11 CN CN202311317140.7A patent/CN117273026A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935339A (zh) * | 2021-08-31 | 2022-01-14 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及存储介质 |
CN116681088A (zh) * | 2023-05-25 | 2023-09-01 | 北京中科凡语科技有限公司 | 一种基于大模型的翻译系统、方法及储存介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709375A (zh) * | 2024-02-01 | 2024-03-15 | 成都帆点创想科技有限公司 | 文本翻译方法及装置 |
CN117709375B (zh) * | 2024-02-01 | 2024-05-24 | 成都帆点创想科技有限公司 | 文本翻译方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Quah | Translation and technology | |
Candido Jr et al. | Supporting the adaptation of texts for poor literacy readers: a text simplification editor for brazilian portuguese | |
Way et al. | On the Role of Translations in State‐of‐the‐Art Statistical Machine Translation | |
CN109213851B (zh) | 对话系统中口语理解的跨语言迁移方法 | |
Ermakova et al. | Overview of the CLEF 2022 SimpleText Lab: Automatic simplification of scientific texts | |
CN117273026A (zh) | 专业文本翻译方法、装置、电子设备和存储介质 | |
Melby et al. | Translation memory | |
Dougal et al. | Improving NMT quality using terminology injection | |
Lyons | A review of Thai–English machine translation | |
Gasperin et al. | Natural language processing for social inclusion: a text simplification architecture for different literacy levels | |
CN116861242A (zh) | 基于语言判别提示的语言感知多语言预训练与微调方法 | |
Srivastava et al. | Code-mixed nlg: Resources, metrics, and challenges | |
Bamman et al. | Transferring structural markup across translations using multilingual alignment and projection | |
Cheng et al. | MTNER: a corpus for Mongolian tourism named entity recognition | |
Kazi et al. | Uquad1. 0: development of an urdu question answering training data for machine reading comprehension | |
Zhang et al. | An Enhanced Method for Neural Machine Translation via Data Augmentation Based on the Self-Constructed English-Chinese Corpus, WCC-EC | |
MILAD | Comparative evaluation of translation memory (TM) and machine translation (MT) systems in translation between Arabic and English | |
Clough et al. | Creating a corpus of plagiarised academic texts | |
Rew et al. | The challenges of machine translation of academic publications | |
Alansary et al. | The universal networking language in action in English-Arabic machine translation | |
Melese | Attention-based Neural Machine Translation from English-Wolaytta | |
Тарасюк | Specificity of rendering IT sphere subject field terms (a study of tutorials and references of https://www. w3school. com website) | |
Micher | Addressing Challenges of Machine Translation of Inuit Language | |
Gupta | Translation of Chinese Texts into English: Challenges and Techniques | |
Абдуллах | Advancing contemporary arabic-english-arabic translation: addressing common errors in practice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |