CN117094334A - 基于大型语言模型的数据处理方法、装置和设备 - Google Patents
基于大型语言模型的数据处理方法、装置和设备 Download PDFInfo
- Publication number
- CN117094334A CN117094334A CN202311060261.8A CN202311060261A CN117094334A CN 117094334 A CN117094334 A CN 117094334A CN 202311060261 A CN202311060261 A CN 202311060261A CN 117094334 A CN117094334 A CN 117094334A
- Authority
- CN
- China
- Prior art keywords
- bilingual
- language model
- data
- translation information
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 46
- 238000013519 translation Methods 0.000 claims abstract description 458
- 238000000605 extraction Methods 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 102
- 230000004927 fusion Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 23
- 239000000284 extract Substances 0.000 abstract description 18
- 230000014616 translation Effects 0.000 description 420
- 238000010586 diagram Methods 0.000 description 21
- 238000013461 design Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 18
- 239000008186 active pharmaceutical agent Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000003752 polymerase chain reaction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 3
- 238000006555 catalytic reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 244000303258 Annona diversifolia Species 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例提供了一种基于大型语言模型的数据处理方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法通过利用从双语语料库中获取的平行双语数据对大型语言模型进行微调,以基于经微调的大型语言模型和所设计的翻译信息提取指令从双语语料库中的平行双语数据和非平行双语数据自动且高效地提取翻译信息。通过本公开的实施例的方法能够利用大型语言模型的强大翻译能力,实现从双语语料库的自动化高效翻译信息提取。此外,通过外置显式地保存所提取的双语翻译信息,能够将翻译信息融入大型语言模型的翻译过程,从而进一步优化机器翻译性能。
Description
技术领域
本公开涉及自然语言处理领域,更具体地,涉及一种基于大型语言模型的数据处理方法、装置、设备和存储介质。
背景技术
机器翻译是一项旨在实现自动将一种语言的文本转化为另一种语言的技术。随着全球化的不断发展和跨语言交流的增加,机器翻译在商业和社交领域中变得越来越重要。在机器翻译的背后,有许多关键技术和方法,其中之一是从双语语料库中提取翻译信息。双语语料库是一种同时包含两种语言的文本数据集合,其中通常包含大量的双语句子或文档,其中一种语言是源语言,另一种语言是目标语言。通过从这些语料库中提取翻译信息,机器翻译系统可以学习到不同语言之间的翻译规则和模式。
为了从双语语料库中提取翻译信息,研究人员使用了多种技术和方法。传统的基于统计的方法使用统计模型来学习语言之间的翻译概率,通过分析大量的双语语料库,机器翻译系统可以学习到不同语言之间的翻译模式和词汇选择,继而可以使用这些模式和概率来预测输入文本的翻译结果。基于统计的机器翻译方法在许多实际应用中取得了良好的效果,但对于低频词汇和复杂结构的处理仍然存在挑战。
因此,需要一种自动且高效地从双语语料库中提取翻译信息的方法。
发明内容
为了解决上述问题,本公开通过利用经微调的大型语言模型和经设计用于自动化地从双语语料库中提取翻译信息的指令,自动且高效地从双语语料库中提取出翻译信息。
本公开的实施例提供了一种基于大型语言模型的数据处理方法、装置、设备和计算机可读存储介质。
本公开的实施例提供了一种基于大型语言模型的数据处理方法,包括:从双语语料库中获取平行双语数据和非平行双语数据;基于所获取的平行双语数据对大型语言模型进行微调,其中,所述大型语言模型经过在大规模语料库上的预训练并且具有与所述双语语料库相关的语言知识和翻译能力;以及基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息,所述双语翻译信息包括词对齐信息,用于指示所述双语语料库中的词对齐关系。
本公开的实施例提供了一种基于大型语言模型的数据处理装置,包括:数据获取模块,被配置为从双语语料库中获取平行双语数据和非平行双语数据;模型微调模块,被配置为基于所获取的平行双语数据对大型语言模型进行微调,其中,所述大型语言模型经过在大规模语料库上的预训练并且具有与所述双语语料库相关的语言知识和翻译能力;以及信息提取模块,被配置为基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息,所述双语翻译信息包括词对齐信息,用于指示所述双语语料库中的词对齐关系。
本公开的实施例提供了一种基于大型语言模型的数据处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的基于大型语言模型的数据处理方法。
本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的基于大型语言模型的数据处理方法。
本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的基于大型语言模型的数据处理方法。
本公开的实施例所提供的方法相比于传统的翻译信息提取方法而言,能够利用具有强大翻译能力的大型语言模型,自动化地从双语语料库中挖掘翻译信息,并外置显式地保存大量翻译信息,并且通过将所提取的双语翻译信息融入大型语言模型的翻译过程,能够进一步优化机器翻译性能。
本公开的实施例所提供的方法通过利用从双语语料库中获取的平行双语数据对大型语言模型进行微调,以基于经微调的大型语言模型和所设计的翻译信息提取指令从双语语料库中的平行双语数据和非平行双语数据自动且高效地提取翻译信息。通过本公开的实施例的方法能够利用大型语言模型的强大翻译能力,实现从双语语料库的自动化高效翻译信息提取。此外,通过外置显式地保存所提取的双语翻译信息,能够将翻译信息融入大型语言模型的翻译过程,从而进一步优化机器翻译性能。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是示出根据本公开的实施例的为用户终端提供机器翻译服务的场景示意图;
图2是示出根据本公开的实施例的基于大型语言模型的数据处理方法的流程图;
图3是示出根据本公开的实施例的针对大型语言模型的微调与应用的示意图;
图4是示出根据本公开的实施例的翻译信息从双语语料库的提取与对单语言带翻译文本的应用的示意图;
图5是示出根据本公开的实施例的基于经微调的大型语言模型和翻译信息提取指令执行翻译信息提取任务的示意图;
图6是示出根据本公开的实施例的基于经微调的大型语言模型、翻译信息融合指令和双语翻译信息执行翻译优化任务的示意图;
图7是示出根据本公开的实施例的基于大型语言模型的数据处理装置的示意图;
图8示出了根据本公开的实施例的基于大型语言模型的数据处理设备的示意图;以及
图9示出了根据本公开的实施例的示例性计算设备的架构的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参考附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
为便于描述本公开,以下介绍与本公开有关的概念。
本公开的基于大型语言模型的数据处理方法可以是基于人工智能(Artificialintelligence,AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如,对于基于人工智能的基于大型语言模型的数据处理方法而言,其能够以类似于人类基于其已习得的不同语言的知识实现源语言与目标语言之间的信息转换的方式来利用已学习到大量翻译知识和语言知识的大型语言模型从双语语料库中提取翻译信息。人工智能通过研究各种智能机器的设计原理与实现方法,使本公开的基于大型语言模型的数据处理方法具有自动化且高效地从双语语料库中提取翻译信息的功能。
本公开的基于大型语言模型的数据处理方法可以是基于自然语言处理(NatureLanguage processing,NLP)的。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本公开的基于大型语言模型的数据处理方法中,可以利用自然语言处理技术基于来自各种知识库的原始文本数据对大型语言模型进行微调,以改善大型语言模型对于输入数据的理解和表达能力的功能,并利用经微调的大型语言模型自动化且高效地从双语语料库中提取翻译信息。
本公开的基于大型语言模型的数据处理方法可以是基于大型语言模型(LargeLanguage Model,LLM)的。大型语言模型是NLP领域中利用自回归方式训练在大量语言语料上进行训练以用于对语言文本进行分析和处理的语言模型,其旨在理解和生成人类语言。大型语言模型在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等。大型语言模型的特点是规模庞大,其可以包含数十亿的参数,以帮助其学习语言文本数据中的复杂模式。通过训练大型语言模型,模型可以学习到跨语言的语言特征和上下文信息,这使得它能够理解输入文本的含义,并生成与目标语言相对应的翻译结果,从而完成机器翻译等任务。
本公开的基于大型语言模型的数据处理方法可以基于针对大型语言模型的微调(Tuning)。对大型语言模型进行微调是指在预训练的基础上,通过在特定任务上进行进一步训练,以适应具体任务的需求和特定领域的语言模式。微调可以提高模型在特定任务上的性能、适应性和泛化能力。通过微调,大型语言模型可以根据任务的特点和数据的特征进行定制化,从而提高在特定任务上的表现,并为特定领域中的应用提供更符合需求的语言处理能力。例如,在本公开的实施例中,可以利用双语语料库中的数据对经预训练的大型语言模型进行微调,以使其更适于执行针对该双语语料库所对应的两种语言之间的翻译任务。
综上所述,本公开的实施例提供的方案涉及人工智能、自然语言处理、大型语言模型、针对大型语言模型的微调等技术,下面将结合附图对本公开的实施例进行进一步地描述。
图1是示出根据本公开的实施例的为用户终端提供机器翻译服务的场景示意图。
如图1所示,在为用户终端提供机器翻译服务的场景中,可以由用户通过用户终端向服务器发送待处理的语言文本(例如,源语言文本),以供服务器对该语言文本进行语言转换。随后,服务器可以对所接收的语言文本执行机器翻译任务,并将所生成的经语言转换的文本(例如,目标语言文本)通过网络返回到用户终端。可选地,用户终端具体可以包括智能手机、平板电脑、膝上型便携计算机、台式计算机、车载终端、可穿戴设备等等,但并不局限于此。用户终端还可以是安装浏览器或各种应用(包括系统应用及第三方应用)的客户端。可选地,网络可以是基于互联网和/或电信网的物联网(Intemet ofThings),其可以是有线网也可以是无线网,例如,其可以是局域网(LAN)、城域网(MAN)、广域网(WAN)、蜂窝数据通信网络等能实现信息交换功能的电子网络,用户终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。可选地,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在机器翻译领域中,从双语语料库中抽取诸如词对齐关系、短语对齐关系等的翻译信息是关键任务之一。通过使用不同的方法和技术,机器翻译系统可以学习到语言之间的翻译规则和模式,从而实现自动翻译。为了从双语语料库中提取翻译信息,目前已经研究人员使用了多种技术和方法。例如,一种常用的翻译信息提取方法是基于统计的方法,其使用统计模型和算法来学习语言之间的翻译概率,通过分析大量的双语语料库,机器翻译系统可以学习到不同语言之间的翻译模式和词汇选择,然后,机器翻译系统可以使用这些模式和概率来预测输入文本的翻译结果。但是,传统的基于统计的翻译信息提取方法在处理长文本时需要进行复杂的计算和搜索过程,导致效率较低,这限制了这些方法在大规模语料库中的应用,尤其是对于实时性要求较高的场景。此外,传统方法在面对歧义问题时同样表现不佳,这是由于缺乏上下文和语义信息的考虑,传统方法很难准确地解决多义词和多重翻译选项的问题,导致翻译结果的准确性和一致性受到影响。
最近,随着深度学习技术的发展,神经网络机器翻译成为了机器翻译领域的新热点。神经网络机器翻译使用深度神经网络来建模语言之间的翻译关系。通过训练大规模的神经网络,机器翻译系统可以自动学习到语言之间的复杂映射关系,从而提高翻译质量。传统的神经网络模型通常需要大量的标注数据进行训练,以获得良好的性能。然而,获取大规模的标注数据是一项昂贵和耗时的任务,特别是对于某些专业领域或低资源语言而言更加困难。
因此,在本公开的实施例中,机器翻译任务可以通过配置在其中的大型语言模型来实现。大型语言模型可以使用深度学习技术,将输入文本从一种语言(即,源语言)翻译成另一种语言(即,目标语言)。具体来说,通过训练大型语言模型,模型可以学习到跨语言的语言特征和上下文信息,这使得它能够理解输入文本的含义,并生成与目标语言相对应的翻译结果。一些基于大型语言模型的机器翻译系统可以自动将输入文本翻译成各种语言,其涵盖了广泛的语言对。然而,尽管大型语言模型在翻译任务上表现出很高的灵活性和性能,但仍然存在一些挑战。
本公开基于此,提供了一种基于大型语言模型的数据处理方法,其通过利用经微调的大型语言模型和经设计用于自动化地从双语语料库中提取翻译信息的指令,自动且高效地从双语语料库中提取出翻译信息。
本公开的实施例所提供的方法相比于传统的翻译信息提取方法而言,能够利用具有强大翻译能力的大型语言模型,自动化地从双语语料库中挖掘翻译信息,并外置显式地保存大量翻译信息,并且通过将所提取的双语翻译信息融入大型语言模型的翻译过程,能够进一步优化机器翻译性能。
本公开的实施例所提供的方法通过利用从双语语料库中获取的平行双语数据对大型语言模型进行微调,以基于经微调的大型语言模型和所设计的翻译信息提取指令从双语语料库中的平行双语数据和非平行双语数据自动且高效地提取翻译信息。通过本公开的实施例的方法能够利用大型语言模型的强大翻译能力,实现从双语语料库的自动化高效翻译信息提取。此外,通过外置显式地保存所提取的双语翻译信息,能够将翻译信息融入大型语言模型的翻译过程,从而进一步优化机器翻译性能。相较于传统的神经网络模型,本公开的实施例所提供的方法仅在模型微调阶段需要平行双语数据,之后能够自动化从非平行双语语料中提取翻译信息并应用于翻译任务,整个过程不需要大量标注数据,仍能表现出良好的性能,因此,本公开的实施例所提供的方法在数据量较小的情况下也能够应用于实际场景。
图2是示出根据本公开的实施例的基于大型语言模型的数据处理方法200的流程图。图3是示出根据本公开的实施例的针对大型语言模型的微调与应用的示意图。图4是示出根据本公开的实施例的翻译信息从双语语料库的提取与对单语言带翻译文本的应用的示意图。
如图3所示,本公开的基于大型语言模型的数据处理方法可以根据所使用的大型语言模型的状态而包括模型微调和模型应用两个部分,其中,模型微调部分可以包括基于平行双语数据对大型语言模型进行微调,并且模型应用部分可以包括将经微调的大型语言模型应用于翻译信息提取、以及将经微调的大型语言模型和所提取的翻译信息共同应用于服务器端的双语翻译任务。
接下来,将参考图2所示的步骤201-203来对本公开的基于大型语言模型的数据处理方法进行详细介绍。
在步骤201中,可以从双语语料库中获取平行双语数据和非平行双语数据。
在自然语言处理领域中,双语语料库是机器翻译系统训练和评估的基础,其可以用于训练机器翻译模型、提供翻译候选、评估翻译质量等。双语语料库可以从各种来源收集,包括专门为机器翻译目的创建的平行语料库、翻译记忆库、对齐的双语网页等。应当注意,收集双语语料库时需要遵循相关的法律和道德准则,因为有些双语语料库可能受到版权保护,需要获得合法的授权才能使用。此外,应该确保双语数据的质量和准确性,以避免对模型训练和评估产生不良影响。
在本公开的实施例中,针对双语语料库,可以包括以下一些收集步骤。①URL(Uniform Resource Locator,统一资源定位符)过滤:在URL过滤步骤中,可以通过制定URL的黑白名单来决定保留、丢弃某些文章内容。例如,URL白名单可以包含诸如“arxiv.org”、“wikipedia.org(维基百科)”等的域名,而URL黑名单可以包含与广告或垃圾邮件等相关的域名。此后,可以从收集到的所有URL中过滤掉不在白名单中或在黑名单中的URL。②内容抽取:在获得过滤后的URL集合后,需要提取这些URL中的文本信息。在文本信息抓取中,可以丢弃一些不相关的内容,例如广告、目录、标题等。作为示例,可以通过指定HTML标签的类型来过滤掉不需要的内容。例如,可以指定忽略<table>标签以避免抓取网页中的表格信息。③语言识别:在语言识别步骤中,可以使用一个预训练的语言识别模型(例如,快速文本(FastText)模型等)来识别并过滤非目标语言的文本。例如,该模型可以为每篇文章的语言提供一个置信分数,然后基于预先设定的阈值(例如,0.65)来过滤置信分数低于该阈值的文章,这有助于过滤掉非目标语言的文章以及一些由非自然语言构成的网页。④低质过滤:低质过滤步骤可以包括篇章级别过滤和句子级别过滤。其中,在篇章级别过滤中,可以去除包含重复内容或错误信息的文章,例如某些段落在文章中一直重复或者文章包含诸如“页面加载超时”等的错误信息。此外,也可以通过设置一些规则(例如,文章的长度、标点符号占文章长度的比例等)来过滤掉格式不符合规则的文章。在句子级别过滤中,可以设计一些规则来过滤掉一些无用的句子。例如,如果一个句子中主要由大写字母构成,或者只包含数字,或者包含某些特定的关键词(例如,“关注”、“转发”、“点赞”等词语),则该句子可以被视为无用句子并被过滤掉。⑤文章去重:在文章去重步骤中,可以使用各种算法(例如,最小哈希(MinHash)算法)对文章进行去重。例如,首先可以计算每篇文章的最小哈希值。通过使用确定性去重的方法,可以删除重复片段超过特定数量(例如,50个)的文章。最后,可以根据URL进一步去除重复的文章。例如,如果两篇文章的URL完全一样或者非常相似(只是参数不同),那么可以认为这两篇文章是重复的。
以上给出了对于双语语料库的收集的一些示例性步骤,但是应当理解,本公开还可以包括上述步骤中的一部分或包括除了上述步骤外的其他步骤,这些示例性步骤不应被视作对双语语料库的收集的限制。
可选地,所收集的双语语料库可以包括特定的两种语言(例如,在本公开中为汉语和英语,并且下文中以这两种语言为示例而非限制进行描述)下的文本数据。可选地,这些文本数据基于其数据来源可以被进一步划分为平行双语语料和非平行双语语料。其中,平行双语数据可以指两种语言的文本数据,其中这些数据是一一对应的。对于平行双语数据,其可以包括上述两种语言下存在一一对应关系的文本数据,也就是说,平行双语数据可以包括两种语言下的文本数据对(例如,句子对等)。而非平行双语数据可以指两种语言的文本数据,但这些数据并不是一一对应的。对于非平行双语数据,所收集的双语语料库中不存在与其相对应的上述两种语言中的另一种语言下的文本数据,也就是说,非平行双语数据中的文本数据在两种语言之间没有直接的对应关系。例如,如图3所示,平行双语数据和非平行双语数据分别可以包括两种语言下的句子对(例如,语言A下的句子1-a和语言B下的句子1-b等)和单种语言下的单个句子(例如,语言A下的句子123、语言B下的句子74等)。
如图4所示,所收集的双语语料库可以通过数据预处理来获取平行双语语料和非平行双语语料。可选地,在正式开始图3所示的模型微调和应用之前,首先需要对所收集的双语语料库进行预处理。例如,数据预处理可以包括诸如分词、标记化和句子对齐等步骤,以确保输入数据的格式符合经预训练的大型语言模型的要求。此外,数据预处理还可以包括对双语语料库进行数据清洗和规范化,包括诸如去除超文本标记语言(HyperTextMarkupLanguage,HTML)标签、特殊字符、标点符号、以及进行大小写统一等操作,以提高机器翻译的质量和一致性。例如,考虑到对于来自不同数据库的文本数据,其数据格式、内容都可能不同,为了便于LLM从输入数据中更好地学习并模拟人类的语言能力,可以对所获取的来自各种数据库的文本数据进行数据清洗处理。数据清洗可以指对原始数据进行处理和转换,以去除或修复其中的噪声、错误、不一致性或其他不需要的部分,从而使数据更加准确、一致,以用于后续处理。作为示例,对所收集的双语语料库的数据清洗可以利用待微调的大型语言模型来执行。
当然,数据预处理中的上述操作在本公开中仅用作示例而非限制,其他预处理方法同样可以适用于本公开的数据预处理阶段。
根据本公开的实施例,从双语语料库中获取平行双语数据和非平行双语数据可以包括:对所述两种语言下的句子进行配对,以获取所述平行双语数据,在所述平行双语数据中,对于所述两种语言中的一种语言下的每个句子,都存在另一种语言下的与所述句子相对应的句子;以及基于所述双语语料库生成所述非平行双语数据,在所述非平行双语数据中,不存在所述两种语言下的句子之间的对应关系。
如上所述,平行双语数据可以指双语语料库中存在两种语言下的一一对应关系的文本数据,即每个源语言句子都有与之对应的目标语言句子,而非平行双语数据则可以指双语语料库中不存在两种语言下的一一对应关系的文本数据。因此,在本公开的实施例中,对于平行双语数据,可以通过对齐操作将两种语言下的句子进行配对来获取。
可选地,可以基于文本数据的来源来确定两种语言下的句子之间的配对。例如,基于文本数据的来源属于平行文本数据库,可以从所收集的双语语料库中直接搜索相关的成对的文本数据。作为示例,上述平行文本数据库可以包括官方翻译文本(例如,一些政府机构、国际组织和企业所发布的官方翻译文本,诸如法律文件、合同、报告等,这些文本通常具有高质量的平行双语数据)、多语言网站和新闻(例如,许多网站和新闻机构所提供的多种语言的内容)、平行语料库(例如,存在一些公开可用的平行语料库,诸如欧洲议会(Europarl)数据集、UN、维基百科(Wikipedia)等,这些语料库通常包含法律、科技、医学等领域的平行文本)、研究数据集(例如,一些研究人员会创建自己的双语数据集,并在其研究论文中发布,这些数据集可以在相关的研究论文中找到)等,本公开对此不作限制。通过上述平行文本数据库,可以通过配对直接获得可信度较高的平行双语数据。
此外,可选地,还可以利用大型语言模型来从所收集的双语语料库中获取平行双语数据。其中,该大型语言模型可以为本公开用于执行如图3所示的模型微调和模型应用的、待微调的大型语言模型,其可以为用于双语语料库中的两种语言下的双语翻译任务的经预训练的大型语言模型。该大型语言模型可以是开源的大规模语言模型,其经过在大规模语料库上的预训练而具备广泛的语言知识和翻译能力。因此,可以利用待微调的大型语言模型在所收集的双语语料库中为文本数据搜索与其存在两种语言下的一一对应关系的另一文本数据,从而形成平行双语数据。
可选地,对于非平行双语数据,基于所述双语语料库生成所述非平行双语数据可以包括将双语语料库中不与任何文本数据存在两种语言下的一一对应关系的文本数据作为非平行双语数据的一部分。考虑到在实际所收集到的双语数据库中,非平行双语数据通常较多,而平行双语数据占据相对较小的比例,因为能够获取的双语平行语料往往远少于双语非平行语料,因此从双语语料库中获取平行双语数据和非平行双语数据可以包括首先获取平行双语数据,以及通过从双语语料库中排除平行双语数据来获得非平行双语数据。当然,上述对平行双语数据和非平行双语数据的获取方式在本公开的实施例中仅用作示例而非限制,其他可以实现类似效果的方法同样可以适用。
因此,通过上述操作,可以从所收集的双语语料库中获取用于模型微调和应用的平行双语语料以及用于模型应用的非平行双语语料。为了适应双语翻译任务,需要对经预训练的大型语言模型进行微调。其中,微调是指通过在特定翻译数据集上进行额外的训练,使模型更好地理解和生成翻译结果。
在步骤202中,可以基于所获取的平行双语数据对大型语言模型进行微调。
根据本公开的实施例,基于所获取的平行双语数据对大型语言模型进行微调可以包括:基于所获取的平行双语数据中的句子对,对经预训练的大型语言模型进行微调,其中,所述句子对可以包括经配对的所述两种语言下的句子。
在本公开的实施例中,经预训练的大型语言模型可以通过在收集到的双语平行语料上进行微调来适应于双语翻译任务,以提高双语翻译的质量。其中,大型语言模型作为一个强大的语言模型,通过使用大量的双语语料进行训练,能够理解和生成自然语言。因此,在本公开的基于大型语言模型的数据处理方法中,可以通过对经预训练的大型语言模型进行微调,使模型逐渐适应特定的翻译需求,具备更强的翻译能力,以便更好地处理输入的双语语料。其中,可以利用开源的大型语言模型(例如,LLaMA模型等)作为基础,在特定双语翻译任务上通过定制训练,不断优化模型的参数。当然,除了LLaMA预训练模型,本公开还可以结合其他开源或专有的预训练语言模型(诸如BERT、GPT等)进行微调和融合,通过多模型融合,可以进一步提升翻译信息提取的精度和效果,以适应更广泛的语言和文本类型。
根据本公开的实施例,基于所获取的平行双语数据中的句子对,对经预训练的大型语言模型进行微调可以包括:以所述句子对中的一个句子作为输入,并且以另一个句子作为预期输出,通过监督学习对所述经预训练的大型语言模型的参数进行优化,以生成经微调的大型语言模型。
在模型微调部分,可以使用监督学习方法,将输入数据和预期输出(即,平行双语数据中的句子对)进行对应,并使用适当的优化算法来调整大型语言模型的权重和参数。
具体地,作为示例,对大型语言模型进行微调的步骤可以包括但不限于:①构建任务模型——可以根据特定任务的要求和数据集的特点,从预训练的大型语言模型中构建一个任务特定(例如,双语翻译任务)的模型,例如,常见的解决方案包括添加任务特定的层或微调预训练模型的参数;②微调模型——可以使用任务特定的数据集(例如,上述平行双语数据)对模型进行训练,在训练过程中,通过最小化一个损失函数来优化模型参数;③超参数调整——可以调整微调过程中的超参数,诸如学习率、批量大小等,这有助于提高模型的性能和收敛速度。当然,上述模型微调的具体操作在本公开中同样仅用作示例而非限制。
此外,针对标注数据量(即,平行双语数据)有限的情况,还可以考虑通过半监督学习来对大型语言模型进行微调,即通过使用少量标注数据和大量未标注数据(即,非平行双语数据)对大型语言模型进行微调,结合预训练模型的知识来实现更好的效果和更低的标注成本。
作为示例,除了微调预训练语言模型,还可以在本公开的方法中引入迁移学习技术,利用从其他相关任务中学习到的知识,加速翻译信息提取过程,同时降低对大量标注数据的依赖。
通过基于平行双语语料对大型语言模型进行微调,可以使得经微调的大型语言模型具备更优的上下文信息联系能力和翻译能力,从而基于各种输入实现更准确的结果输出。
接下来,可以将经微调的大型语言模型(LLM)进行应用,如图3和图4所示。
在步骤203中,可以基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息,所述双语翻译信息可以包括词对齐信息,用于指示所述双语语料库中的词对齐关系。
可选地,所提取的双语翻译信息可以包括诸如句子对齐关系、词对齐关系、短语对齐关系等。其中,句子对齐关系可以是从双语语料库中提取的双语句子对,其可以包括两种语言下的句子之间的对应关系。词对齐关系可以是从双语语料库中提取的双语词语对,其可以包括两种语言下的词语之间的对应关系。短语对齐关系可以是从双语语料库中提取的双语短语对,其可以包括两种语言下的短语之间的对应关系。当然,上述双语翻译信息所包括的具体内容种类在本公开中仅用作示例而非限制,本公开的基于大型语言模型的数据处理方法还可以采用其他翻译信息种类。在本公开中,主要以词对齐关系作为示例进行描述,但这不应被视为对翻译信息的内容种类的限制。
可选地,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息可以是基于翻译信息提取指令(Prompt)的。也就是说,可以利用翻译信息提取指令来指示经微调的大型语言模型执行相应的翻译信息提取任务。
具体地,利用翻译信息提取指令来指示经微调的大型语言模型执行相应的翻译信息提取任务可以包括将翻译信息提取指令作为经微调的大型语言模型的输入,以使大型语言模型基于对该翻译信息提取指令的理解和处理来实现翻译信息的提取。
因此,根据本公开的实施例,本公开的基于大型语言模型的数据处理方法200还可以包括:确定所述翻译信息提取指令。
可选地,可以通过构建翻译信息提取指令来自动化地从双语语料库中(即,从平行双语数据和非平行双语数据中)提取双语翻译信息。其中,翻译信息提取指令的设计作为关键步骤,需要结合翻译任务的特点和预训练大型语言模型的要求,引导模型生成准确的翻译结果。可选地,翻译信息提取指令的设计可以包括对输入文本的格式化、特定翻译指令的引入和语义约束的设定等。
下面作为示例给出翻译信息提取指令的设计思路。
第一,在翻译信息提取指令的设计中,可以对输入文本进行特定的格式化,以帮助模型正确处理双语数据。例如,对于句子翻译任务,可以将输入的中英文文本用特殊标记分隔开,以使模型知道哪部分是源语言,哪部分是目标语言。
例如,输入文本为:{中文句子:我喜欢吃苹果。英文句子:I like toeatapples.},对应地,格式化后的翻译信息提取指令可以表示为:{[中文]我喜欢吃苹果。[英文]I like to eat apples.}。
第二,在翻译信息提取指令的设计中,可以引入一些翻译指令,以告知模型如何处理特定的翻译情况。例如,当处理专业术语或特殊领域的翻译时,可以使用指令来指导模型采用特定的翻译策略。
例如,输入文本为:{中文句子:这是一种光学传感器。英文句子:[Translate-Tech]This is an optical sensor.}。在这个示例中,“[Translate-Tech]”就是特定翻译指令,其告知模型这是一个科技领域的术语,应该被翻译为英文中的对应术语。
第三,在翻译信息提取指令的设计中,还可以加入一些语义约束,以确保生成的翻译结果符合特定的语义要求。例如,对于一些特殊的双关词或存在歧义的句子,可以加入特定约束以使模型正确理解并翻译。
例如,输入文本为:{中文句子:他打开窗户。英文句子:[Keep-Semantic]He opensthe window.}。在这个示例中,“[Keep-Semantic]”作为一个语义约束,用于确保模型不会错误地将“窗户”翻译成“门”,从而保持句子的正确语义。
如上所述,翻译信息提取指令的设计可以通过添加特定的标记、指令或约束,来引导大型语言模型更好地处理翻译任务,提供更准确和有用的翻译信息。这些特定的设计可以根据翻译任务的具体需求进行定制。
如上所述,翻译信息提取指令作为一种特定的输入格式或指令,可以指导大型语言模型生成特定类型的输出。通过设计合适的翻译信息提取指令,机器翻译系统同样能够自动从大型语言模型的输出中提取需要的信息,例如,包括本公开的词对齐关系、短语对齐关系等的翻译信息。
根据本公开的实施例,所述翻译信息提取指令可以包括提示信息部分和输入内容部分,所述提示信息部分可以用于指示所述经微调的大型语言模型要执行的翻译信息提取任务,并且所述输入内容部分可以对应于所述任务的输入,所述输入内容部分可以包括所述平行双语数据或所述非平行双语数据中的内容。具体地,所述提示信息部分可以用于指示所述经微调的大型语言模型从所述输入内容部分中提取所述两种语言下的词语对,所述词语对可以包括所述两种语言中的一种语言下的词语和另一种语言下的与所述词语相对应的词语。
可选地,可以采用多条翻译信息提取指令来指示经微调的大型语言模型执行翻译信息提取任务,其中,每条翻译信息提取指令可以包括提示信息部分和输入内容部分,其中提示信息部分指示大型语言模型要对输入内容部分执行的具体操作,并且输入内容部分中包括来自非平行双语数据和平行双语数据中的一部分数据。也就是说,针对非平行双语数据和平行双语数据中的每一部分数据,可以利用相应的一条翻译信息提取指令来指示大型语言模型从该部分数据中提取双语翻译信息。
可选地,对于非平行双语数据和平行双语数据,该部分数据所包括的数据内容可以是不同的,也就是说,基于经微调的大型语言模型和翻译信息提取指令从所获取的平行双语数据中提取双语翻译信息和基于经微调的大型语言模型和翻译信息提取指令从所获取的非平行双语数据中提取双语翻译信息是不同的。具体地,对于平行双语数据,基于经微调的大型语言模型和翻译信息提取指令从所获取的平行双语数据中提取双语翻译信息可以包括对于平行双语数据中的每个句子对,利用与所述句子对相对应的翻译信息提取指令指示所述经微调的大型语言模型从所述句子对中提取双语翻译信息,其中,所述翻译信息提取指令可以包括所述句子对。
图5是示出根据本公开的实施例的基于经微调的大型语言模型和翻译信息提取指令执行翻译信息提取任务的示意图。
如图5所示,图5示出了对于平行双语数据的双语翻译信息提取。其中,翻译信息提取指令的输入内容部分包括平行双语数据中的一个句子对{英文:″The polymerase chainreaction(PCR)is a widely used technique in molecular biology.″中文:″聚合酶链反应(PCR)是分子生物学中广泛使用的技术。″},而提示信息部分为“请从下列双语句子对中提取一些重要的词对齐关系,并为每个词对齐关系提供经对齐的词语对。回答应当以<词语1,词语2>的形式,其中包含来自英文句子和中文句子的两个词语。忽略不明确的词对齐关系。只需返回词对齐关系,忽略完整的句子。”也就是说,该翻译信息提取指令指示大型语言模型对输入内容部分进行重要词对齐关系提取,其中针对每个重要词对齐关系给出相应的词语对,并且指定了回答的格式(例如,<词语1,词语2>)。针对上述翻译信息提取指令,大型语言模型的输出给出了该输入内容部分中所包括的重要词对齐关系,例如<polymerase,聚合酶>、<chainreaction,链反应>、<(PCR),(PCR)>、<molecular biology,分子生物学>等。
可选地,对于非平行双语数据,由于经微调的大型语言模型在这个阶段已经学习到双语语料库中的两种语言之间的词对齐关系,对非平行双语数据的翻译信息提取可以包括对于非平行双语数据中的每个句子,利用与所述句子对相对应的翻译信息提取指令指示所述经微调的大型语言模型生成与所述句子相对应的、所述两种语言中的另一种语言下的句子,并从所述句子和所生成的句子中提取双语翻译信息,例如提取具体的词语对应关系。其中,与所述句子对相对应的翻译信息提取指令可以包括所述句子。
此外,除了通过在源语言下的输入句子上进行单向翻译,然后再进行词对齐抽取,在本公开的实施例中,还可以在源语言和目标语言下的句子之间进行交互翻译,从而增强词对齐关系的准确性和稳定性。
如上所述,对于非平行双语数据和平行双语数据的双语翻译信息提取实际上可以被理解为利用经微调的大型语言模型通过具象化的方式将双语语料库的双语翻译信息(例如,词对齐关系)提取出来,以供后续使用和分析。
可选地,如图3和图4所示,可以利用经微调的大型语言模型从平行双语数据和非平行双语数据中提取双语翻译信息,并进行本地存储。例如,可以对所提取的双语翻译信息进行外置显式地保存。通过本地存储将双语翻译信息外置且显式地保存,可以方便地检索、处理和共享这些信息。具体地,一旦通过翻译信息提取指令提取到关键的翻译结果(例如,词频较低的稀有单词、短语、句子等),这些翻译结果可以被存储在本地,以便后续的使用和分析,例如,这些信息可以供其他应用程序或系统调用,并可以用于进一步的研究、评估和改进。此外,后续处理可以包括翻译信息提取结果的验证、筛选和优化,以确保双语翻译的准确性和可靠性。因此,通过本地存储,可以方便地管理和访问大型语言模型学习到的双语翻译信息。
如上所述,参考步骤201-203以及图3和图4介绍了由经微调的大型语言模型从双语语料库中提取双语翻译信息和本地存储的过程。接下来,将进一步对所提取的双语翻译信息的应用进行介绍。
根据本公开的实施例,基于大型语言模型的数据处理方法还可以包括:基于翻译信息融合指令、所述经微调的大型语言模型和所提取的双语翻译信息,从所述双语语料库中的两种语言中的一种语言下的句子生成另一种语言下的与所述句子相对应的句子。
可选地,如图4所示,可以利用经微调的大语言模型的强大翻译能力,结合翻译信息融合指令与本地存储的双语翻译信息,根据输入的源语言下的待翻译文本生成相应的目标语言下的翻译结果,其中源语言和目标语言为上述双语语料库中的两种语言。其中,翻译信息融合指令可以用于将上述双语翻译信息融合到大型语言模型的机器翻译过程中,从而提升翻译质量。例如,大型语言模型可以根据输入的源语言句子的特征和上下文信息,在执行双语翻译任务时考虑语义、语法和语境等因素进行源语言到目标语言的双语翻译信息选择,从而提高翻译的准确性和流畅性。
可选地,在大型语言模型生成目标语言下的翻译结果的过程中,可以对翻译结果使用隐式结构化标记。此外,在某些情况下,考虑到显式结构化标记可能对翻译信息的提取更有帮助,因此,还可以引入显式结构化标记(例如XML或JSON标记)来帮助实现更精准的双语翻译信息的提取。
根据本公开的实施例,基于大型语言模型的数据处理方法还可以包括:确定所述翻译信息融合指令,所述翻译信息融合指令可以包括提示信息部分和输入内容部分,所述提示信息部分可以用于指示所述经微调的大型语言模型要执行的翻译优化任务和所提取的双语翻译信息,并且所述输入内容部分可以包括所述两种语言中的一种语言下的任何句子。具体地,根据本公开的实施例,所述翻译信息融合指令可以用于指示所述经微调的大型语言模型对所述输入内容部分进行翻译,并基于所提取的双语翻译信息对所述翻译的结果进行优化。
如上针对翻译信息提取指令所述,在本公开的翻译信息融合指令的设计中,同样可以考虑上述设计思路,包括对输入文本的格式化、特定翻译指令的引入和语义约束的设定等。本公开的翻译信息融合指令可以指示大型语言模型针对输入内容部分的内容和上下文信息,从本地存储的双语翻译信息中自适应地选择合适的翻译信息参与双语翻译。此外,本公开的翻译信息融合指令还可以包括由用户指定的双语翻译信息,以指导大型语言模型进行双语翻译。
图6是示出根据本公开的实施例的基于经微调的大型语言模型、翻译信息融合指令和双语翻译信息执行翻译优化任务的示意图。
如图6所示,针对源语言为英文的输入待翻译文本“The enzyme-substratecomplex plays a crucial role in catalytic reactions.”,翻译信息融合指令在提示信息部分结合该输入文本可能涉及的一些双语翻译信息(例如,词对齐关系,诸如<Artificial,人工智能>、<intelligence,(A1)>、<enzyme-substrate,酶-底物>、<complex,复合物>、<Machine,机器>、<learning,学习><algorithms,算法>、<Protein,蛋白质>、<folding,折叠>),指示大型语言模型使用这些双语翻译信息来对原始翻译结果进行优化。针对该翻译信息融合指令,大型语言模型的输出包括原始翻译结果(例如,“复杂的酶-底物在催化反应中起着关键作用”)以及根据翻译信息融合指令所提供的双语翻译信息进行修改的修改翻译结果(例如,“复杂的酶-底物在催化反应中起着关键作用”)。
可选地,上述翻译信息融合指令中的双语翻译信息可以是由大型语言模型根据输入文本从本地存储的双语翻译信息中做出的适应性选择,还可以包括由用户直接指定的双语翻译信息等。
如上所述,在本公开的基于大型语言模型的数据处理方法中,翻译信息提取主要可以针对两种语言进行。此外,在此基础上,通过对语料库以及翻译信息提取和应用过程中的操作进行适应性调整,还可以将本公开的基于大型语言模型的数据处理方法应用于多语言一体化的翻译信息提取,以同时处理多种语言下的语言对之间的翻译信息,使得本发明在多语言应用场景下更具优势。
此外,为了应对实时文本数据的更新和变化,在本公开的实施例中,还可以引入增量学习技术,通过持续地对最新数据进行微调和更新,大型语言模型能够及时适应新的语境和翻译要求,实现更灵活、实用的翻译信息提取。
可选地,基于以上基于经微调的大型语言模型、翻译信息融合指令和双语翻译信息执行翻译优化任务的结果,翻译信息抽取指令还可以自动地基于该结果中的修改翻译结果和所输入的源语言待翻译文本进行翻译信息提取,并将所提取的双语翻译信息添加到本地存储中,从而实现本地存储的动态增长,这体现了本公开的模型整体的自适应拓展能力。
通过上述处理,本公开的基于大型语言模型的数据处理方法可以在以下几个方面具有显著提高。
1.高效性:通过利用大型语言模型的强大翻译能力,可以使得从双语语料库中提取双语翻译信息变得高效和自动化。相较于传统的基于统计的翻译信息提取方法和传统的神经网络机器翻译模型,本公开的基于大型语言模型的数据处理方法显著提升了机器翻译的处理效率和速度。
2.准确性:借助大型语言模型的强大翻译能力,本公开的基于大型语言模型的数据处理方法能够准确地提取出双语翻译信息,有效避免了传统方法中的歧义和错误问题。通过使用平行双语数据对大型语言模型进行微调,经微调的大型语言模型具备出色的上下文信息联系能力,这使得在双语翻译信息提取过程中能够充分利用上下文信息,提高了翻译信息提取的精度和准确性。
3.通用性:本公开的基于大型语言模型的数据处理方法不仅适用于中英或其他双语语料库,而且可轻松扩展到其他语言之间的翻译信息抽取。同时,它适用于各种领域的文本数据,包括科技、金融、医疗等,展现出广泛的通用性和适用性。此外,本公开的基于大型语言模型的数据处理方法的设计使得其能够处理非平行双语数据,这样的数据在实际应用中更为常见。通过生成目标语言下的句子并提取词对齐信息,本公开的方法有效地解决了非平行数据的词对齐翻译问题,拓展了应用场景。
4.自动化:通过翻译信息抽取指令和翻译信息融合指令的设计和大型语言模型的微调,本公开的基于大型语言模型的数据处理方法实现了高度自动化地从双语语料库中提取双语翻译信息。相较于传统方法需要手动设计特征或进行大量标注工作,本公开的方法降低了人力成本并大幅提高了效率。
5.可扩展性:本公开的基于大型语言模型的数据处理方法的不同部分可以通过各种技术或工具来实现,因此具有很好的灵活性和可扩展性。例如,大型语言模型可以根据任务需求选择不同的预训练语言模型,而翻译信息抽取指令和翻译信息融合指令的设计可以灵活调整以适应不同应用场景。
上述性能优化使得本公开的基于大型语言模型的数据处理方法在翻译信息提取领域具有广阔的应用前景,并有助于提高翻译任务的效率和质量。
本公开的实施例所提供的方法通过利用从双语语料库中获取的平行双语数据对大型语言模型进行微调,以基于经微调的大型语言模型和所设计的翻译信息提取指令从双语语料库中的平行双语数据和非平行双语数据自动且高效地提取翻译信息。通过本公开的实施例的方法能够利用大型语言模型的强大翻译能力,实现从双语语料库的自动化高效翻译信息提取。此外,通过外置显式地保存所提取的双语翻译信息,能够将翻译信息融入大型语言模型的翻译过程,从而进一步优化机器翻译性能。
下面,基于如图5和图6所示的示例,给出了机器翻译系统可以提供的API(Application Programming Interface,应用程序编程接口)的两个示例。其中,这两个API可以用于向开发者提供模型的推理服务。开发者可以通过调用API来发送输入数据(例如,源语言下的待翻译文本),并接收模型的输出结果(例如,目标语言下的翻译结果)。因此,开发者可以在自己的应用程序中利用模型的能力,进行本公开所描述的机器翻译以及其他各种任务。
对于如图5所示的情况,对应的第一API示例可以表示如下:
API名称:“‘翻译信息抽取指令’API”
API描述:该API提供了基于大型语言模型的翻译信息提取功能,旨在自动从双语语料库中提取双语翻译信息。
API内容:
前缀文本(Prefix):“请从下列双语句子对中提取一些重要的词对齐关系,并为每个词对齐关系提供经对齐的词语对。回答应当以<词语1,词语2>的形式,其中包含来自英文句子和中文句子的两个词语。忽略不明确的词对齐关系。只需返回词对齐关系,忽略完整的句子。”
对于上述第一API示例,其示例请求和响应可以如图5所示。
对于如图6所示的情况,对应的第二API示例可以表示如下:
API名称:“‘翻译信息融合指令’API”
API描述:该API提供了基于大型语言模型的翻译信息融合功能,旨在将本地存储的双语翻译信息融入大型语言模型的双语翻译过程中。
APl内容:
Prefix:“请使用现有的词对齐关系(<词语1,词语2>)来帮助修改英文句子的翻译结果。以下是词对齐关系:<词语1-a,词语1-b><词语2-a,词语2-b>...”。
请将[源语言文本]从英文翻译为中文。
对于上述第二API示例,其示例请求和响应可以如图6所示。
如上所述,通过设置上述API机制,可以允许开发者通过编程与系统进行交互。通过调用API提供的函数、方法或接口,开发者可以访问系统的功能,并将其集成到自己的应用程序中。这样可以实现系统的复用和扩展,同时提供了一种标准化的方式来与系统进行交互。
图7是示出根据本公开的实施例的基于大型语言模型的数据处理装置700的示意图。
根据本公开的实施例,所述基于大型语言模型的数据处理装置700可以包括数据获取模块701、模型微调模块702、信息提取模块703和模块704。
数据获取模块701可以被配置为从双语语料库中获取平行双语数据和非平行双语数据。可选地,数据获取模块701可以执行如上参考步骤201所描述的操作。
可选地,上述双语语料库可以从各种来源收集,包括专门为机器翻译目的创建的平行语料库、翻译记忆库、对齐的双语网页等。所收集的双语语料库可以包括特定的两种语言(例如,在本公开中为汉语和英语,并且下文中以这两种语言为示例而非限制进行描述)下的文本数据。可选地,这些文本数据基于其数据来源可以被进一步划分为平行双语语料和非平行双语语料。其中,平行双语数据可以指两种语言的文本数据,其中这些数据是一一对应的。对于平行双语数据,其可以包括上述两种语言下存在一一对应关系的文本数据,也就是说,平行双语数据可以包括两种语言下的文本数据对(例如,句子对等)。而非平行双语数据可以指两种语言的文本数据,但这些数据并不是一一对应的。对于非平行双语数据,所收集的双语语料库中不存在与其相对应的上述两种语言中的另一种语言下的文本数据,也就是说,非平行双语数据中的文本数据在两种语言之间没有直接的对应关系。
所收集的双语语料库可以通过数据预处理来获取平行双语语料和非平行双语语料。可选地,在正式开始模型微调和应用之前,首先需要对所收集的双语语料库进行预处理。例如,数据预处理可以包括诸如分词、标记化和句子对齐等步骤,以确保输入数据的格式符合经预训练的大型语言模型的要求。此外,数据预处理还可以包括对双语语料库进行数据清洗和规范化,包括诸如去除超文本标记语言标签、特殊字符、标点符号、以及进行大小写统一等操作,以提高机器翻译的质量和一致性。
考虑到对于平行双语数据,双语语料库中存在两种语言下的一一对应关系的文本数据,即每个源语言句子都有与之对应的目标语言句子,而对于非平行双语数据,双语语料库中不存在两种语言下的一一对应关系的文本数据,因此,可选地,对于平行双语数据,可以通过对齐操作将两种语言下的句子进行配对来获取。例如,可以基于文本数据的来源来确定两种语言下的句子之间的配对。例如,基于文本数据的来源属于平行文本数据库,可以从所收集的双语语料库中直接搜索相关的成对的文本数据。此外,还可以利用大型语言模型来从所收集的双语语料库中获取平行双语数据,例如,可以利用待微调的大型语言模型在所收集的双语语料库中为文本数据搜索与其存在两种语言下的一一对应关系的另一文本数据,从而形成平行双语数据。
可选地,对于非平行双语数据,基于所述双语语料库生成所述非平行双语数据可以包括将双语语料库中不与任何文本数据存在两种语言下的一一对应关系的文本数据作为非平行双语数据的一部分。
因此,通过数据获取模块701,可以从所收集的双语语料库中获取用于模型微调和应用的平行双语语料以及用于模型应用的非平行双语语料。接下来,为了适应双语翻译任务,需要在模型微调模块702中对经预训练的大型语言模型进行微调。
模型微调模块702可以被配置为基于所获取的平行双语数据对所述大型语言模型进行微调。可选地,模型微调模块702可以执行如上参考步骤202所描述的操作。
可选地,经预训练的大型语言模型可以通过在收集到的双语平行语料上进行微调来适应于双语翻译任务,以提高双语翻译的质量。其中,大型语言模型作为一个强大的语言模型,通过使用大量的双语语料进行训练,能够理解和生成自然语言。因此,在本公开的基于大型语言模型的数据处理方法中,可以通过对经预训练的大型语言模型进行微调,使模型逐渐适应特定的翻译需求,具备更强的翻译能力,以便更好地处理输入的双语语料。
在模型微调模块702中,可以使用监督学习方法,将输入数据和预期输出(即,平行双语数据中的句子对)进行对应,并使用适当的优化算法来调整大型语言模型的权重和参数。
通过在模型微调模块702中基于平行双语语料对大型语言模型进行微调,可以使得经微调的大型语言模型具备更优的上下文信息联系能力和翻译能力,从而基于各种输入实现更准确的结果输出。
信息提取模块703可以被配置为基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息,所述双语翻译信息包括词对齐信息,用于指示所述双语语料库中的词对齐关系。可选地,信息提取模块703可以执行如上参考步骤203所描述的操作。
可选地,所提取的双语翻译信息可以包括诸如句子对齐关系、词对齐关系、短语对齐关系等。其中,句子对齐关系可以是从双语语料库中提取的双语句子对,其可以包括两种语言下的句子之间的对应关系。词对齐关系可以是从双语语料库中提取的双语词语对,其可以包括两种语言下的词语之间的对应关系。短语对齐关系可以是从双语语料库中提取的双语短语对,其可以包括两种语言下的短语之间的对应关系。当然,上述双语翻译信息所包括的具体内容种类在本公开中仅用作示例而非限制,本公开的基于大型语言模型的数据处理方法还可以采用其他翻译信息种类。在本公开中,主要以词对齐关系作为示例进行描述,但这不应被视为对翻译信息的内容种类的限制。
可选地,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息可以是基于翻译信息提取指令(Prompt)的。也就是说,可以利用翻译信息提取指令来指示经微调的大型语言模型执行相应的翻译信息提取任务。
具体地,利用翻译信息提取指令来指示经微调的大型语言模型执行相应的翻译信息提取任务可以包括将翻译信息提取指令作为经微调的大型语言模型的输入,以使大型语言模型基于对该翻译信息提取指令的理解和处理来实现翻译信息的提取。
可选地,可以通过构建翻译信息提取指令来自动化地从双语语料库中(即,从平行双语数据和非平行双语数据中)提取双语翻译信息。其中,翻译信息提取指令的设计作为关键步骤,需要结合翻译任务的特点和预训练大型语言模型的要求,引导模型生成准确的翻译结果。可选地,翻译信息提取指令的设计可以包括对输入文本的格式化、特定翻译指令的引入和语义约束的设定等。例如,翻译信息提取指令的设计可以通过添加特定的标记、指令或约束,来引导大型语言模型更好地处理翻译任务,提供更准确和有用的翻译信息。这些特定的设计可以根据翻译任务的具体需求进行定制。
可选地,每条翻译信息提取指令可以包括提示信息部分和输入内容部分,其中提示信息部分指示大型语言模型要对输入内容部分执行的具体操作,并且输入内容部分中包括来自非平行双语数据和平行双语数据中的一部分数据。也就是说,针对非平行双语数据和平行双语数据中的每一部分数据,可以利用相应的一条翻译信息提取指令来指示大型语言模型从该部分数据中提取双语翻译信息。
可选地,对于非平行双语数据和平行双语数据,该部分数据所包括的数据内容可以是不同的,也就是说,基于经微调的大型语言模型和翻译信息提取指令从所获取的平行双语数据中提取双语翻译信息和基于经微调的大型语言模型和翻译信息提取指令从所获取的非平行双语数据中提取双语翻译信息是不同的。
具体地,对于平行双语数据,基于经微调的大型语言模型和翻译信息提取指令从所获取的平行双语数据中提取双语翻译信息可以包括对于平行双语数据中的一个句子对,利用与所述句子对相对应的翻译信息提取指令指示所述经微调的大型语言模型从所述句子对中提取双语翻译信息,其中,所述翻译信息提取指令可以包括所述句子对。
可选地,对于非平行双语数据,由于经微调的大型语言模型在这个阶段已经学习到双语语料库中的两种语言之间的词对齐关系,对非平行双语数据的翻译信息提取可以包括对于非平行双语数据中的每个句子,利用与所述句子对相对应的翻译信息提取指令指示所述经微调的大型语言模型生成与所述句子相对应的、所述两种语言中的另一种语言下的句子,并从所述句子和所生成的句子中提取双语翻译信息,例如提取具体的词语对应关系。其中,与所述句子对相对应的翻译信息提取指令可以包括所述句子。
可选地,可以利用经微调的大型语言模型从平行双语数据和非平行双语数据中提取双语翻译信息,并进行本地存储。例如,可以对所提取的双语翻译信息进行外置显式地保存。通过本地存储将双语翻译信息外置且显式地保存,可以方便地检索、处理和共享这些信息。具体地,一旦通过翻译信息提取指令提取到关键的翻译结果(例如,词频较低的稀有单词、短语、句子等),这些翻译结果可以被存储在本地,以便后续的使用和分析,例如,这些信息可以供其他应用程序或系统调用,并可以用于进一步的研究、评估和改进。此外,后续处理可以包括翻译信息提取结果的验证、筛选和优化,以确保双语翻译的准确性和可靠性。因此,通过本地存储,可以方便地管理和访问大型语言模型学习到的双语翻译信息。
除了上述模块701-模块703外,本公开还可以包括用于执行以下操作的模块(图7中未示出)。
可选地,在该模块中,可以利用经微调的大语言模型的强大翻译能力,结合翻译信息融合指令与本地存储的双语翻译信息,根据输入的源语言下的待翻译文本生成相应的目标语言下的翻译结果,其中源语言和目标语言为上述双语语料库中的两种语言。其中,翻译信息融合指令可以用于将上述双语翻译信息融合到大型语言模型的机器翻译过程中,从而提升翻译质量。例如,大型语言模型可以根据输入的源语言句子的特征和上下文信息,在执行双语翻译任务时考虑语义、语法和语境等因素进行源语言到目标语言的双语翻译信息选择,从而提高翻译的准确性和流畅性。
在本公开的翻译信息融合指令的设计中,同样可以考虑上述设计思路,包括对输入文本的格式化、特定翻译指令的引入和语义约束的设定等。本公开的翻译信息融合指令可以指示大型语言模型针对输入内容部分的内容和上下文信息,从本地存储的双语翻译信息中自适应地选择合适的翻译信息参与双语翻译。此外,本公开的翻译信息融合指令还可以包括由用户指定的双语翻译信息,以指导大型语言模型进行双语翻译。可选地,上述翻译信息融合指令中的双语翻译信息可以是由大型语言模型根据输入文本从本地存储的双语翻译信息中做出的适应性选择,还可以包括由用户直接指定的双语翻译信息等。
除了上述操作外,本公开的基于大型语言模型的数据处理装置还可以包括用于执行以上未提及的、在基于大型语言模型的数据处理方法中涉及的操作的模块。
根据本公开的又一方面,还提供了一种基于大型语言模型的数据处理设备。图8示出了根据本公开的实施例的基于大型语言模型的数据处理设备2000的示意图。
如图8所示,所述基于大型语言模型的数据处理设备2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器2010运行时,可以执行如上所述的基于大型语言模型的数据处理方法。
本公开的实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或ARM架构的。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
例如,根据本公开的实施例的方法或装置也可以借助于图9所示的计算设备3000的架构来实现。如图9所示,计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的基于大型语言模型的数据处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图9所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图9示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。所述计算机存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开的实施例的基于大型语言模型的数据处理方法。本公开的实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DRRAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本公开的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的基于大型语言模型的数据处理方法。
本公开的实施例提供了一种基于大型语言模型的数据处理方法、装置、设备和计算机可读存储介质。
本公开的实施例所提供的方法相比于传统的翻译信息提取方法而言,能够利用具有强大翻译能力的大型语言模型,自动化地从双语语料库中挖掘翻译信息,并外置显式地保存大量翻译信息,并且通过将所提取的双语翻译信息融入大型语言模型的翻译过程,能够进一步优化机器翻译性能。
本公开的实施例所提供的方法通过利用从双语语料库中获取的平行双语数据对大型语言模型进行微调,以基于经微调的大型语言模型和所设计的翻译信息提取指令从双语语料库中的平行双语数据和非平行双语数据自动且高效地提取翻译信息。通过本公开的实施例的方法能够利用大型语言模型的强大翻译能力,实现从双语语料库的自动化高效翻译信息提取。此外,通过外置显式地保存所提取的双语翻译信息,能够将翻译信息融入大型语言模型的翻译过程,从而进一步优化机器翻译性能。相较于传统的神经网络模型,本公开的实施例所提供的方法仅在模型微调阶段需要平行双语数据,之后能够自动化从非平行双语语料中提取翻译信息并应用于翻译任务,整个过程不需要大量标注数据,仍能表现出良好的性能,因此,本公开的实施例所提供的方法在数据量较小的情况下也能够应用于实际场景。
需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
在上面详细描述的本公开的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本公开的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本公开的范围内。
Claims (15)
1.一种基于大型语言模型的数据处理方法,所述大型语言模型为用于双语语料库中的两种语言下的双语翻译任务的经预训练的大型语言模型,所述方法包括:
从所述双语语料库中获取平行双语数据和非平行双语数据;
基于所获取的平行双语数据对所述大型语言模型进行微调;以及
基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息,所述双语翻译信息包括词对齐信息,用于指示所述双语语料库中的词对齐关系。
2.如权利要求1所述的方法,其中,从所述双语语料库中获取平行双语数据和非平行双语数据包括:
对所述两种语言下的句子进行配对,以获取所述平行双语数据,在所述平行双语数据中,对于所述两种语言中的一种语言下的每个句子,都存在另一种语言下的与所述句子相对应的句子;以及
基于所述双语语料库生成所述非平行双语数据,在所述非平行双语数据中,不存在所述两种语言下的句子之间的对应关系。
3.如权利要求1所述的方法,其中,基于所获取的平行双语数据对大型语言模型进行微调包括:
基于所获取的平行双语数据中的句子对,对经预训练的大型语言模型进行微调,其中,所述句子对包括经配对的所述两种语言下的句子。
4.如权利要求3所述的方法,其中,基于所获取的平行双语数据中的句子对,对经预训练的大型语言模型进行微调包括:
以所述句子对中的一个句子作为输入,并且以另一个句子作为预期输出,通过监督学习对所述经预训练的大型语言模型的参数进行优化,以生成经微调的大型语言模型。
5.如权利要求1所述的方法,其中,所述方法还包括:
确定所述翻译信息提取指令,其中,所述翻译信息提取指令包括提示信息部分和输入内容部分,所述提示信息部分用于指示所述经微调的大型语言模型要执行的翻译信息提取任务,并且所述输入内容部分对应于所述任务的输入,所述输入内容部分包括所述平行双语数据或所述非平行双语数据中的内容。
6.如权利要求5所述的方法,其中,所述提示信息部分用于指示所述经微调的大型语言模型从所述输入内容部分中提取所述两种语言下的词语对,所述词语对包括所述两种语言中的一种语言下的词语和另一种语言下的与所述词语相对应的词语。
7.如权利要求1所述的方法,其中,基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息包括:
对于所获取的平行双语数据中的每个句子对,利用与所述句子对相对应的翻译信息提取指令指示所述经微调的大型语言模型从所述句子对中提取双语翻译信息,其中,所述翻译信息提取指令包括所述句子对。
8.如权利要求1所述的方法,其中,基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息包括:
对于所获取的非平行双语数据中的每个句子,利用与所述句子对相对应的翻译信息提取指令指示所述经微调的大型语言模型生成与所述句子相对应的、所述两种语言中的另一种语言下的句子,并从所述句子和所生成的句子中提取双语翻译信息,其中,与所述句子对相对应的翻译信息提取指令包括所述句子。
9.如权利要求1所述的方法,其中,所述方法还包括:
基于翻译信息融合指令、所述经微调的大型语言模型和所提取的双语翻译信息,从所述双语语料库中的两种语言中的一种语言下的句子生成另一种语言下的与所述句子相对应的句子。
10.如权利要求9所述的方法,其中,所述方法还包括:
确定所述翻译信息融合指令,所述翻译信息融合指令包括提示信息部分和输入内容部分,所述提示信息部分用于指示所述经微调的大型语言模型要执行的翻译优化任务和所提取的双语翻译信息,并且所述输入内容部分包括所述两种语言中的一种语言下的任何句子。
11.如权利要求10所述的方法,其中,所述翻译信息融合指令用于指示所述经微调的大型语言模型对所述输入内容部分进行翻译,并基于所提取的双语翻译信息对所述翻译的结果进行优化。
12.一种基于大型语言模型的数据处理装置,所述大型语言模型为用于双语语料库中的两种语言下的双语翻译任务的经预训练的大型语言模型,所述装置包括:
数据获取模块,被配置为从所述双语语料库中获取平行双语数据和非平行双语数据;
模型微调模块,被配置为基于所获取的平行双语数据对所述大型语言模型进行微调;以及
信息提取模块,被配置为基于经微调的大型语言模型和翻译信息提取指令,从所获取的平行双语数据和非平行双语数据中提取双语翻译信息,所述双语翻译信息包括词对齐信息,用于指示所述双语语料库中的词对齐关系。
13.一种基于大型语言模型的数据处理设备,包括:
一个或多个处理器;以及
一个或多个存储器,其中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-11中任一项所述的方法。
14.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311060261.8A CN117094334A (zh) | 2023-08-21 | 2023-08-21 | 基于大型语言模型的数据处理方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311060261.8A CN117094334A (zh) | 2023-08-21 | 2023-08-21 | 基于大型语言模型的数据处理方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117094334A true CN117094334A (zh) | 2023-11-21 |
Family
ID=88781637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311060261.8A Pending CN117094334A (zh) | 2023-08-21 | 2023-08-21 | 基于大型语言模型的数据处理方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094334A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493585A (zh) * | 2023-12-29 | 2024-02-02 | 安徽大学 | 一种基于大语言模型的数据检索系统 |
CN117688176A (zh) * | 2023-12-04 | 2024-03-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于多语言预训练大模型的伪语言族聚类方法及装置 |
CN117709441A (zh) * | 2024-02-06 | 2024-03-15 | 云南联合视觉科技有限公司 | 通过逐步迁移领域训练专业医疗大模型的方法 |
CN117875273A (zh) * | 2024-03-13 | 2024-04-12 | 中南大学 | 基于大型语言模型的新闻摘要自动生成方法、设备及介质 |
CN118071543A (zh) * | 2024-04-17 | 2024-05-24 | 国网天津市电力公司滨海供电分公司 | 一种用电安全评估方法、系统、存储介质和设备 |
-
2023
- 2023-08-21 CN CN202311060261.8A patent/CN117094334A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688176A (zh) * | 2023-12-04 | 2024-03-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于多语言预训练大模型的伪语言族聚类方法及装置 |
CN117493585A (zh) * | 2023-12-29 | 2024-02-02 | 安徽大学 | 一种基于大语言模型的数据检索系统 |
CN117493585B (zh) * | 2023-12-29 | 2024-03-22 | 安徽大学 | 一种基于大语言模型的数据检索系统 |
CN117709441A (zh) * | 2024-02-06 | 2024-03-15 | 云南联合视觉科技有限公司 | 通过逐步迁移领域训练专业医疗大模型的方法 |
CN117709441B (zh) * | 2024-02-06 | 2024-05-03 | 云南联合视觉科技有限公司 | 通过逐步迁移领域训练专业医疗大模型的方法 |
CN117875273A (zh) * | 2024-03-13 | 2024-04-12 | 中南大学 | 基于大型语言模型的新闻摘要自动生成方法、设备及介质 |
CN117875273B (zh) * | 2024-03-13 | 2024-05-28 | 中南大学 | 基于大型语言模型的新闻摘要自动生成方法、设备及介质 |
CN118071543A (zh) * | 2024-04-17 | 2024-05-24 | 国网天津市电力公司滨海供电分公司 | 一种用电安全评估方法、系统、存储介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6845486B2 (ja) | 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法 | |
US11640515B2 (en) | Method and neural network system for human-computer interaction, and user equipment | |
CN117094334A (zh) | 基于大型语言模型的数据处理方法、装置和设备 | |
CN109255118B (zh) | 一种关键词提取方法及装置 | |
CN109165380B (zh) | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 | |
Nguyen et al. | Recurrent neural network-based models for recognizing requisite and effectuation parts in legal texts | |
CN100371927C (zh) | 使用机器翻译技术标识释义的方法和系统 | |
KR20180048624A (ko) | 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램 | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN111859987A (zh) | 文本处理方法、目标任务模型的训练方法和装置 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN113505243A (zh) | 基于医疗知识图谱的智能问答方法和装置 | |
Kenny | Human and machine translation | |
US20240119268A1 (en) | Data processing method and related device | |
CN112084789A (zh) | 文本处理方法、装置、设备及存储介质 | |
Toniuc et al. | Climebot: An argumentative agent for climate change | |
Kumar et al. | Incomplete follow-up question resolution using retrieval based sequence to sequence learning | |
CN114692620A (zh) | 文本处理方法及装置 | |
US20220366135A1 (en) | Extended open information extraction system | |
Landthaler et al. | Extending Thesauri Using Word Embeddings and the Intersection Method. | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN117216200A (zh) | 大型语言模型的微调方法和基于大型语言模型的智能助手 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |