CN117151126A - 文本翻译方法、装置、电子设备和存储介质 - Google Patents
文本翻译方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117151126A CN117151126A CN202311124798.6A CN202311124798A CN117151126A CN 117151126 A CN117151126 A CN 117151126A CN 202311124798 A CN202311124798 A CN 202311124798A CN 117151126 A CN117151126 A CN 117151126A
- Authority
- CN
- China
- Prior art keywords
- text
- translation
- source language
- language text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 258
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000000463 material Substances 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 12
- 239000013077 target material Substances 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 230000014616 translation Effects 0.000 description 216
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本翻译方法、装置、电子设备和存储介质,其中方法包括:获取源语种文本;基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。根据本发明提供的方法、装置、电子设备和存储介质,通过源语种文本所来源资料的资料类型,确定源语种文本对应的翻译场景,并基于翻译场景,对源语种文本进行文本翻译,得到目标语种文本,实现了通过简便的文本输入,得到贴合源语种文本语义和文本风格的目标语种文本,使得目标语种文本更加符合所来源资料的上下文的语境,提升了目标语种文本的准确性和贴合性,进而提升用户的使用体验。
Description
技术领域
本发明涉及自然语言技术领域,尤其涉及一种文本翻译方法、装置、电子设备和存储介质。
背景技术
随着翻译技术的不断进步,更多的用户群体开始借助机器翻译完成文件翻译。当前主要通过建立通用翻译模型进行翻译,或者,部分机器采用结合上下文内容进行翻译。
但是,通过通用翻译模型进行翻译,可能导致翻译的结果不符合实际的翻译需求。比如:“I don’t buy it”可以翻译成:“我不买”,但在更多的场景中会翻译成:“我不相信”。另外,通过结合上下文内容进行翻译,但这种翻译方式需要增加输入数据内容,使用过程繁琐。由此,目前的翻译效果还有待进一步提升。
发明内容
本发明提供一种文本翻译方法、装置、电子设备和存储介质,用以解决现有技术中机器翻译贴合性较低的缺陷。
本发明提供一种文本翻译方法、装置、电子设备和存储介质,包括:
获取源语种文本;
基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;
基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
根据本发明提供的一种文本翻译方法,所述源语种文本所来源资料的资料类型的确定步骤包括:
基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型。
根据本发明提供的一种文本翻译方法,所述基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型,包括:
将所述源语种文本的文本信息与各候选文本的文本信息进行匹配,并基于匹配所得的候选文本所来源资料的资料类型,确定文本资料类型;
将携带有所述源语种文本的页面图像的版面信息与各候选资料类型对应的版面信息进行匹配,并将匹配所得的候选资料类型作为版面资料类型;
基于所述文本资料类型和/或所述版面资料类型,确定所述源语种文本所来源资料的资料类型。
根据本发明提供的一种文本翻译方法,所述版面信息的确定步骤包括:
对携带有所述源语种文本的页面图像进行文字识别,得到所述源语种文本在所述页面图像中的文字展示信息,以及所述页面图像的图文分布信息;
基于所述文字展示信息和/或所述图文分布信息,确定所述版面信息。
根据本发明提供的一种文本翻译方法,所述源语种文本所来源资料的资料类型的确定步骤,还包括:
显示所述各候选资料类型;
接收选择输入,所述选择输入用于指示目标资料类型,所述目标资料类型为所述各候选资料类型中的一个;
响应于所述选择输入,将所述目标资料类型确定为所述源语种文本所来源资料的资料类型。
根据本发明提供的一种文本翻译方法,所述基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本,包括:
从各翻译模型中确定出与所述翻译场景对应的目标翻译模型;
基于所述目标翻译模型,对所述源语种文本进行文本翻译,得到所述目标语种文本;
所述各翻译模型是基于各候选翻译场景下的翻译文本对分别训练得到的。
根据本发明提供的一种文本翻译方法,所述从各翻译模型中确定出与所述翻译场景对应的目标翻译模型,包括:
从所述各翻译模型中确定出与所述翻译场景和目标语种对应的目标翻译模型。
本发明还提供一种文本翻译装置,包括:
获取单元,获取源语种文本;
确定翻译场景单元,基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;
翻译单元,基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本翻译方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本翻译方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本翻译方法。
本发明提供的文本翻译方法、装置、电子设备和存储介质,通过源语种文本所来源资料的资料类型,确定源语种文本对应的翻译场景,并基于翻译场景,对源语种文本进行文本翻译,得到目标语种文本,实现了通过简便的文本输入,得到贴合源语种文本语义和文本风格的目标语种文本,使得目标语种文本更加符合所来源资料的上下文的语境,提升了目标语种文本的准确性和贴合性,进而提升用户的使用体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本翻译方法的流程示意图;
图2是本发明提供的确定源语种文本所来源资料的资料类型的流程示意图;
图3是本发明提供的文本翻译装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前主要通过通用翻译模型进行翻译,即将不同类型的文本,如牛津素材、教材、外文读物等,作为目标文本并通过通用翻译模型进行翻译。但是翻译的结果很可能并不符合实际的翻译需求,比如,“Idon’t buy it”可以翻译成:“我不买”,但在更多的场景中会翻译成:“我不相信”。又比如,“super chicken”可以翻译成“超级小鸟、小鸟超人”等结果,每个翻译结果的含义都不相同。为此,现有技术中通过结合上下文内容进行文本翻译,以提升翻译质量。但是此种翻译方式需要增加输入的待翻译文本的篇幅,且需要整篇文本中寻找需要翻译的句子或段落,由此,通过联系上下文内容提升翻译效果并不理想。
针对上述问题,本发明提供了一种文本翻译方法,以实现贴合源语种文本的精确翻译。图1是本发明提供的文本翻译方法的流程示意图,如图1所示,包括:
步骤110,获取源语种文本;
此处,源语种文本指的是待翻译的文本,可以是通过用户输入获取,比如用户输入英语教材中的一个句子,则将此句子作为源语种文本;或者,也可以通过用户上传的携带有源语种文本的页面图像获取,比如用户通过摄像头拍摄绘本中的一个页面图像,可以通过OCR(Optical Character Recognition,光学字符识别)技术获取页面图像中的文本,并作为源语种文本。需说明的是,源语种文本可以是从不同资料类型的资料中摘取的片段,比如教材中的一个段落、绘本中的一个故事;或者是完整的资料,比如商务文件、合同、报告。
步骤120,基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;
此处,源语种文本所来源资料指的可以是源语种文本节选于的资料,比如,源语种文本为“人之初,性本善”,则源语种文本所来源资料可以是“三字经”。可以理解的是,源语种文本所来源资料可以更全面的反映源语种文本的上下文信息、语境、文本风格、知识背景等信息。另外,源语种文本所来源资料的资料类型可以包括各教学阶段以及语种的教材、各语种的绘本、原文著作、商务文件、商务合同,以及各专业领域行业翻译。由此,源语种文本对应的翻译场景可以包括教材、绘本、原著、行业翻译、商务翻译。
具体地,可以通过接收用户选择确定源语种文本所来源资料的资料类型,也可以通过源语种文本自适应获得源语种文本所来源资料的资料类型。最后,可以直接将所来源资料的资料类型作为源语种文本对应的翻译场景,或者对所来源资料的资料类型进行翻译场景划分,得到源语种文本对应的翻译场景。
需说明的是,源语种文本所来源资料的资料类型,以及基于源语种文本所来源资料的资料类型确定的翻译场景,都可以反映源语种文本涉及的领域、文本语境、专用词汇等信息,可以在对源语种文本进行文本翻译时,提供除源语种文本包含的文本信息以外的翻译信息,比如,领域信息、文本语境、行业信息,以实现贴合源语种文本的语境的文本翻译。
可以理解的是,相较于现有技术中,需要通过输入源语种文本的上下文,才能获取源语种文本的上下文信息,以进行更加准确的文本翻译,本发明实施例提供的方法,通过源语种文本所来源资料的资料类型,确定源语种文本对应的翻译场景,使得用户无需进行繁琐的输入操作,即可得到源语种文本的文本语境,提升了用户的使用体验。
步骤130,基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
具体地,当对源语种文本进行文本翻译得到多个不同语义的目标语种文本时,可以通过翻译场景反映的文本语境,从多个不同语义的目标语种文本中,确定与翻译场景贴合的目标语种文本,作为源语种文本的场景对应的目标语种文本。或者,当源语种文本中包含行业的专业词汇时,可以通过翻译场景反映的该行业的专业词汇,对源语种文本中的专业词汇进行文本翻译时,得到的目标语种文本也为对应的专业词汇。需说明的是,基于翻译场景,对源语种文本进行文本翻译,不仅能够使得目标语种文本贴合源语种文本的文本语境,还能够通过翻译场景反映的源语种文本的文本风格,对源语种文本进行文本翻译时,使目标语种文本能够准确传达源语种文本的文本风格。由此,可以通过建立与翻译场景对应的翻译模型,各翻译场景对应的翻译模型可以完成与源语种文本的意图和文本风格一致的文本翻译,进而使得得到的目标语种文本更加贴合源语种文本的语境,翻译效果更加准确。
可以理解的是,相较于现有技术中仅通过源语种文本本身以及通用的翻译模型,进行文本翻译,基于翻译场景,对源语种文本进行文本翻译,通过翻译场景反映的领域、文本语境、专业词汇等信息,进行指示文本翻译,避免了机械翻译带来的语义不符,实现了意图与文本风格一致的文本翻译,使得进行文本翻译得到的目标语种文本的文本语义以及表达风格更加贴合源语种文本。
本发明实施例提供的方法,基于源语种文本所来源资料的资料类型,确定源语种文本对应的翻译场景,并基于翻译场景,对源语种文本进行文本翻译,得到目标语种文本,实现了通过简便的文本输入,得到贴合源语种文本语义和文本风格的目标语种文本,使得目标语种文本更加符合所来源资料的上下文的语境,提升了目标语种文本的准确性和贴合性,进而提升用户的使用体验。
基于上述任一实施例,步骤120中所述源语种文本所来源资料的资料类型的确定步骤包括:
基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型。
此处,源语种文本的文本信息指的是可以反映源语种文本主题的文本,可以通过对源语种文本进行关键词提取,得到源语种文本的文本信息。需说明的是,可以通过预先建立文本数据库,比如将各教学阶段的教材文本内容、各年龄阶段的绘本文本内容、各年龄阶段推荐阅读的经典著作的原版、各专业领域的文献原文以及专业词汇、商务文件等文本信息录入文本数据库。当得到源语种文本的文本信息后,可以通过源语种文本的文本信息,在文本数据库中检索与源语种文本的文本信息相匹配的资料,作为源语种文本所来源资料,则可以确定源语种文本所来源资料的资料类型。
另外,携带有源语种文本的页面图像的版面信息可以指的是携带有源语种文本的页面图像中字体信息、行距、文字与插图的排版、文本形式等信息,版面信息可以通过对携带有源语种文本的页面图像进行图像识别得到。需说明的是,携带有源语种文本的页面图像的版面信息可以反映源语种文本所来源资料的视图风格。针对页面图像中的字体信息,字体信息可以包括字体名称以及字号,例如,当页面图像中字体的字体名称为正楷体,字号大小不小于3号字,则所来源资料的资料类型可能为小学教材;针对页面图像中的行距,当页面图像中的行距为2倍或者更大时,则所来源资料的资料类型可能为绘本;针对页面图像中文字与插图的排版,当页面图像中的插图占比较大时,所来源资料的资料类型可能为绘本;当页面图像中的插图占比较少时,所来源资料的资料类型可能为教材。针对页面图像中的文本形式,文本形式可以包括文本、插图、表格,当页面图像中包含表格时,所来源资料的资料类型可能为商务翻译或者行业翻译。
可以理解的是,各翻译场景下的资料的版面信息都有各自的特点,由此,可以用过携带有源语种文本的页面图像的版面信息对应的视图风格,确定源语种文本所来源资料的资料类型。
具体地,当仅获取到用户输入的源语种文本时,可以通过源语种文本的文本信息,确定源语种文本所来源资料的资料类型;当获取到用户输入的携带源语种文本的页面图像时,可以通过携带有所述源语种文本的页面图像的版面信息,确定源语种文本所来源资料的资料类型,又或者,可以通过携带源语种文本的页面图像,提取得到源语种文本,并通过源语种文本的文本信息和携带源语种文本的页面图像,共同确定源语种文本所来源资料的资料类型,本发明实施例对此不做具体限定。
本发明实施例提供的方法,通过源语种文本的文本信息,和/或,携带有源语种文本的页面图像的版面信息,确定源语种文本所来源资料的资料类型,实现了自适应获取源语种文本的资料类型,提升了进行源语种文本翻译的便利性,进而提升用户的使用体验。
基于上述任一实施例,图2是本发明提供的确定源语种文本所来源资料的资料类型的流程示意图,如图2所示,所述基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型,包括:
步骤210,将所述源语种文本的文本信息与各候选文本的文本信息进行匹配,并基于匹配所得的候选文本所来源资料的资料类型,确定文本资料类型;
此处的候选文本可以是各翻译场景下的完整资料,或者各翻译场景下的资料中的片段。由此,候选文本的文本信息可以是通过对候选文本进行关键字提取得到,或者是将候选文本的全部文本信息作为候选文本的文本信息。另外,得到的文本资料类型可以反映源语种文本在文本内容上的资料类型。可以理解的是,当源语种文本的文本信息与候选文本的文本信息相匹配时,则可以认为源语种文本和候选文本来源于同一资料,则可以将候选文本所来源资料的资料类型,作为源语种文本所来源资料的资料类型。
具体地,可以通过将源语种文本的文本信息与各候选文本的文本信息进行文本匹配,可以将匹配度大于一定阈值的候选文本所来源资料作为源语种文本的所来源资料,并将匹配所得的候选文本所来源资料的资料类型,作为源语种文本所来源资料的文本资料类型。
步骤220,将携带有所述源语种文本的页面图像的版面信息与各候选资料类型对应的版面信息进行匹配,并将匹配所得的候选资料类型作为版面资料类型;
此处,各候选资料类型可以是各翻译场景,或者是各翻译场景下对应的资料类型。另外,各候选资料类型对应的版面信息可以反映该候选资料类型对应的视图风格,可以包括字体信息、行距、文字与插图的排版、文本形式。需说明的是,可以预先通过各候选资料类型对应的资料的版面信息,提取各候选资料类型对应的资料的版面信息的显著特点,作为各候选资料类型对应的版面信息。比如,可以通过提取全部的小学教材的字体信息、行距、文字与插图的排版、文本形式信息,作为小学教材这一候选资料类型对应的版面信息。
具体地,可以将携带有源语种文本的页面图像的版面信息,与各候选资料类型对应的版面信息进行一一匹配,可以将版面信息匹配结果最优的候选资料类型,作为版面资料类型;版面信息匹配结果可以通过版面信息中的各项信息的匹配结果进行相加得到,或者基于版面信息中各项信息的权重,进行加权计算得到。此处得到的版面资料类型可以反映源语种文本所来源资料在文本排版、格式上的视图风格。可以理解的是,当携带有源语种文本的页面图像的版面信息与候选资料类型对应的版面信息匹配时,则可以将候选资料类型对应的版面信息作为源语种文本所来源资料的资料类型。
需说明的是,此处的步骤210和步骤220不存在逻辑上的先后顺序,可以同时执行或者择一执行。
步骤230,基于所述文本资料类型和/或所述版面资料类型,确定所述源语种文本所来源资料的资料类型。
具体地,当获取的源语种文本为用户输入时,可以直接将文本资料类型,作为源语种文本所来源资料的资料类型;当获取的源语种文本来自于携带有源语种文本的页面图像是,可以直接将版面资料类型作为源语种文本所来源资料的资料类型,又或者,可以通过文本资料类型和版面资料类型,共同得到源语种文本所来源资料的资料类型。比如,可以通过预先设置文本资料类型和版面资料类型的优先级确定。
本发明实施例提供的方法,基于源语种文本的文本信息,和/或,携带有源语种文本的页面图像的版面信息,确定源语种文本所来源资料的资料类型,在实现自适应确定源语种文本所来源资料的资料类型的基础上,基于文本信息和页面视图的版面信息共同确定源语种文本所来源资料的资料类型,提升了确定资料类型的准确性,进而提升确定基于资料类型确定的翻译场景的准确性。同时,也保证了对源语种文本进行文本翻译的准确性。
基于上述任一实施例,所述版面信息的确定步骤包括:
对携带有所述源语种文本的页面图像进行文字识别,得到所述源语种文本在所述页面图像中的文字展示信息,以及所述页面图像的图文分布信息;
基于所述文字展示信息和/或所述图文分布信息,确定所述版面信息。
此处,页面图像的文字展示信息可以是文本的字体名称、字号大小、行距等于文字本身相关的属性信息。另外,页面图像的图文分布信息可以包含插图与文字的占比信息、图像与文字的排版。具体地,可以将文字展示信息或者图文分布信息,作为版面信息,也可以将文字展示信息和图文分布信息,共同作为版面信息。
本发明实施例提供的方法,通过源语种文本的文本信息和/或图文分布信息,得到携带源语种文本的页面视图的版面信息,使得源语种文本的版面信息更加全面,则使得基于携带源语种文本的页面视图的版面信息,得到的源语种文本所来源资料的资料类型更加准确。
基于上述任一实施例,所述源语种文本所来源资料的资料类型的确定步骤,还包括:
显示所述各候选资料类型;
接收选择输入,所述选择输入用于指示目标资料类型,所述目标资料类型为所述各候选资料类型中的一个;
响应于所述选择输入,将所述目标资料类型确定为所述源语种文本所来源资料的资料类型。
具体地,源语种文本所来源资料的资料类型可以通过源语种文本进行自适应得到,还可以通过接收用户选择输入得到。首先,可以在获取源语种文本后,显示各候选资料类型,以供用户进行选择。接着,接收选择输入,比如可以通过接受用户对各候选资料类型的点选操作。在接收选择输入后,可以通过选择输入指示各候选资料类型中的任一资料类型,作为源语种文本的目标资料类型。最后,响应与选择输入,将目标资料类型作为源语种文本所来源资料的资料类型。
可以理解的是,基于接受并响应于用户的选择输入,确定源语种文本所来源资料的资料类型,提升了确定源语种文本所来源资料的资料类型的多样性。
基于上述任一实施例,所述基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本,包括:
从各翻译模型中确定出与所述翻译场景对应的目标翻译模型;
基于所述目标翻译模型,对所述源语种文本进行文本翻译,得到所述目标语种文本;
所述各翻译模型是基于各候选翻译场景下的翻译文本对分别训练得到的。
此处,翻译模型可以是与各翻译场景相对应的,例如各翻译场景设置一个对应的翻译模型。另外,翻译文本对可以通过各候选翻译场景下的样本源语种文本和样本目标语种文本组成的。需说明的是,针对单个翻译场景对应的翻译模型而言,可以通过获取初始翻译模型,将该翻译场景下的翻译文本对作为训练样本,将样本源语种文本作为模型输入,样本目标语种文本作为训练的标签,对初始翻译模型进行预训练,以减少通过翻译模型得到的目标语种文本与翻译文本对中的样本目标语种文本的差距,调整初始翻译模型的参数,最后得到该翻译场景对应的翻译模型。可以理解的是,可以通过此种训练方式训练得到其他翻译场景对应的翻译模型,并将训练得到的各翻译模型预先存在用于进行文本翻译的终端中。
本发明实施例提供的方法,基于与翻译场景对应的目标翻译模型,对源语种文本进行文本翻译,大大提升了目标语种文本的准确性。
基于上述任一实施例,所述从各翻译模型中确定出与所述翻译场景对应的目标翻译模型,包括:
从所述各翻译模型中确定出与所述翻译场景和目标语种对应的目标翻译模型。
具体地,当存在针对如德语、韩语、日语等与语种的文本进行翻译时,在翻译模型训练阶段,可以预先训练得到各语种和各翻译场景对应的翻译模型;在翻译模型应用阶段,则可以从各翻译模型中确定出与翻译场景和目标语种对应的翻译模型,作为目标翻译模型,进一步提升对源语种文本进行文本翻译的准确性。
基于上述任一实施例,本发明还提供一种文本翻译方法,包括:首先,获取源语种文本。接着,显示各候选资料类型,如在终端的显示区域上显示“翻译场景”的选择图标,通过获取用户点选“翻译场景”的选择图标,进行显示各候选资料类型。由此,可以通过获取用户点选的候选资料类型的选择图标,作为用户的选择输入。此处,选择输入用于指示将候选资料类型中的一个资料类型作为目标资料类型。再接着,响应于所述选择输入,将目标资料类型确定为源语种文本所来源资料的资料类型。
进一步地,基于源语种文本所来源资料的资料类型,确定源语种文本对应的翻译场景。最后,从各翻译模型中确定出与翻译场景和目标语种对应的目标翻译模型,用于对源语种文本进行文本翻译,得到目标语种文本。
基于上述任一实施例,图3是本发明提供的文本翻译装置的结构示意图,如图3所示,包括:
获取单元310,获取源语种文本;
确定翻译场景单元320,基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;
翻译单元330,基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
本实施例提供的装置,基于源语种文本所来源资料的资料类型,确定源语种文本对应的翻译场景,并基于翻译场景,对源语种文本进行文本翻译,得到目标语种文本,实现了通过简便的文本输入,得到贴合源语种文本语义和文本风格的目标语种文本,使得目标语种文本更加符合所来源资料的上下文的语境,提升了目标语种文本的准确性和贴合性,进而提升用户的使用体验。
基于上述任一实施例,确定翻译场景单元具体用于:
基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型。
基于上述任一实施例,确定翻译场景单元具体用于:
将所述源语种文本的文本信息与各候选文本的文本信息进行匹配,并基于匹配所得的候选文本所来源资料的资料类型,确定文本资料类型;
将携带有所述源语种文本的页面图像的版面信息与各候选资料类型对应的版面信息进行匹配,并将匹配所得的候选资料类型作为版面资料类型;
基于所述文本资料类型和/或所述版面资料类型,确定所述源语种文本所来源资料的资料类型。
基于上述任一实施例,确定翻译场景单元具体用于:
对携带有所述源语种文本的页面图像进行文字识别,得到所述源语种文本在所述页面图像中的文字展示信息,以及所述页面图像的图文分布信息;
基于所述文字展示信息和/或所述图文分布信息,确定所述版面信息。
基于上述任一实施例,确定翻译场景单元还包括选择输入单元,选择输入单元具体用于:
显示所述各候选资料类型;
接收选择输入,所述选择输入用于指示目标资料类型,所述目标资料类型为所述各候选资料类型中的一个;
响应于所述选择输入,将所述目标资料类型确定为所述源语种文本所来源资料的资料类型。
基于上述任一实施例,翻译单元具体用于:
从各翻译模型中确定出与所述翻译场景对应的目标翻译模型;
基于所述目标翻译模型,对所述源语种文本进行文本翻译,得到所述目标语种文本;
所述各翻译模型是基于各候选翻译场景下的翻译文本对分别训练得到的。
基于上述任一实施例,翻译单元还具体用于:
从所述各翻译模型中确定出与所述翻译场景和目标语种对应的目标翻译模型。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行文本翻译方法,该方法包括:获取源语种文本;基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本翻译方法,该方法包括:获取源语种文本;基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本翻译方法,该方法包括:获取源语种文本;基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本翻译方法,其特征在于,包括:
获取源语种文本;
基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;
基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
2.根据权利要求1所述的文本翻译方法,其特征在于,所述源语种文本所来源资料的资料类型的确定步骤包括:
基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型。
3.根据权利要求2所述的文本翻译方法,其特征在于,所述基于所述源语种文本的文本信息,和/或,携带有所述源语种文本的页面图像的版面信息,确定所述源语种文本所来源资料的资料类型,包括:
将所述源语种文本的文本信息与各候选文本的文本信息进行匹配,并基于匹配所得的候选文本所来源资料的资料类型,确定文本资料类型;
将携带有所述源语种文本的页面图像的版面信息与各候选资料类型对应的版面信息进行匹配,并将匹配所得的候选资料类型作为版面资料类型;
基于所述文本资料类型和/或所述版面资料类型,确定所述源语种文本所来源资料的资料类型。
4.根据权利要求2所述的文本翻译方法,其特征在于,所述版面信息的确定步骤包括:
对携带有所述源语种文本的页面图像进行文字识别,得到所述源语种文本在所述页面图像中的文字展示信息,以及所述页面图像的图文分布信息;
基于所述文字展示信息和/或所述图文分布信息,确定所述版面信息。
5.根据权利要求1所述的文本翻译方法,其特征在于,所述源语种文本所来源资料的资料类型的确定步骤,还包括:
显示所述各候选资料类型;
接收选择输入,所述选择输入用于指示目标资料类型,所述目标资料类型为所述各候选资料类型中的一个;
响应于所述选择输入,将所述目标资料类型确定为所述源语种文本所来源资料的资料类型。
6.根据权利要求1至5中任一项所述的文本翻译方法,其特征在于,所述基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本,包括:
从各翻译模型中确定出与所述翻译场景对应的目标翻译模型;
基于所述目标翻译模型,对所述源语种文本进行文本翻译,得到所述目标语种文本;
所述各翻译模型是基于各候选翻译场景下的翻译文本对分别训练得到的。
7.根据权利要求6所述的文本翻译方法,其特征在于,所述从各翻译模型中确定出与所述翻译场景对应的目标翻译模型,包括:
从所述各翻译模型中确定出与所述翻译场景和目标语种对应的目标翻译模型。
8.一种文本翻译装置,其特征在于,包括:
获取单元,获取源语种文本;
确定翻译场景单元,基于所述源语种文本所来源资料的资料类型,确定所述源语种文本对应的翻译场景;
翻译单元,基于所述翻译场景,对所述源语种文本进行文本翻译,得到目标语种文本。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本翻译方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311124798.6A CN117151126A (zh) | 2023-08-31 | 2023-08-31 | 文本翻译方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311124798.6A CN117151126A (zh) | 2023-08-31 | 2023-08-31 | 文本翻译方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117151126A true CN117151126A (zh) | 2023-12-01 |
Family
ID=88904078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311124798.6A Pending CN117151126A (zh) | 2023-08-31 | 2023-08-31 | 文本翻译方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117151126A (zh) |
-
2023
- 2023-08-31 CN CN202311124798.6A patent/CN117151126A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
CN109670180B (zh) | 向量化译员的翻译个性特征的方法及装置 | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
CN110555213B (zh) | 文本翻译模型的训练方法、文本翻译方法及装置 | |
US20140289238A1 (en) | Document creation support apparatus, method and program | |
US20220012437A1 (en) | Translating method using visually represented elements, and device therefor | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
CN109871534B (zh) | 中英混合语料的生成方法、装置、设备及存储介质 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN109359308B (zh) | 机器翻译方法、装置及可读存储介质 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN117436417A (zh) | 演示文稿生成方法、装置、电子设备和存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN111241276A (zh) | 题目搜索方法、装置、设备及存储介质 | |
US20170154546A1 (en) | Lexical dialect analysis system | |
CN107908792B (zh) | 信息推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |