CN118194883B9 - 基于机器翻译的文献版式还原方法及装置 - Google Patents

基于机器翻译的文献版式还原方法及装置 Download PDF

Info

Publication number
CN118194883B9
CN118194883B9 CN202410328867.3A CN202410328867A CN118194883B9 CN 118194883 B9 CN118194883 B9 CN 118194883B9 CN 202410328867 A CN202410328867 A CN 202410328867A CN 118194883 B9 CN118194883 B9 CN 118194883B9
Authority
CN
China
Prior art keywords
file
document file
paragraph
document
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410328867.3A
Other languages
English (en)
Other versions
CN118194883A (zh
CN118194883B (zh
Inventor
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingke Qianxin Technology Co ltd
Original Assignee
Beijing Yingke Qianxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingke Qianxin Technology Co ltd filed Critical Beijing Yingke Qianxin Technology Co ltd
Priority to CN202410328867.3A priority Critical patent/CN118194883B9/zh
Publication of CN118194883A publication Critical patent/CN118194883A/zh
Application granted granted Critical
Publication of CN118194883B publication Critical patent/CN118194883B/zh
Publication of CN118194883B9 publication Critical patent/CN118194883B9/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种基于机器翻译的文献版式还原方法及装置,方法包括:根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件;本申请能够准确还原多类型、多格式的文献在机器翻译后的文献版式。

Description

基于机器翻译的文献版式还原方法及装置
技术领域
本申请涉及自然语言处理领域,具体涉及一种基于机器翻译的文献版式还原方法及装置。
背景技术
在现有技术中,学术文献(如期刊论文、综述、学术图书、会议论文等)原文文档具有的特殊排版版式在进行机器翻译后无法被还原,造成学术文献读者无法实现原文与译文的精确对照阅读的问题。
发明内容
针对现有技术中的问题,本申请提供一种基于机器翻译的文献版式还原方法及装置,能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种基于机器翻译的文献版式还原方法,包括:
根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
进一步地,还包括:
接收用户发送的段落编辑请求,根据所述段落编辑请求更新所述初始超文本文件的相应段落内容,并确定更新后的所述相应段落内容的段落位置与所述原始文献文件中对应的段落位置的坐标系位置差异;
根据所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
进一步地,所述根据原始文献文件的文件格式类型进行兼容性增强处理,包括:
根据原始文献文件的文件格式类型确定对应的文件转换方式;
根据所述文件转换方式将所述原始文献文件的格式类型转换为通用格式。
进一步地,所述将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分,包括:
确定经过所述兼容性增强处理后的原始文献文件中的标志性分隔符;
根据所述标志性分隔符对所述原始文献文件进行段落切分,得到至少一个经过所述段落切分后的文件块。
进一步地,所述根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件,包括:
根据至少一个所述文件块进行段落信息组织处理;
对所述段落信息组织处理的结果进行机器翻译,得到对应的初始超文本文件。
进一步地,所述监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,包括:
根据所述初始超文本文件和对应的所述文件块中的文字段落、图像以及结构化内容的页面容器高度值,确定对应的坐标系位置差异;
若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
进一步地,在所述得到目标文献文件之后,还包括:
创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件;
接收用户发送的文件阅读指令并根据所述文件阅读指令滚动对应的页面视窗。
进一步地,在所述创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件之后,还包括:
接收所述用户触发的段落点击信号,并根据所述段落点击信号同步高亮显示所述原始文献文件和所述目标文献文件中的对应段落。
进一步地,在所述创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件之后,还包括:
接收所述用户触发的词语点击信号,并根据所述词语点击信号同步高亮显示所述原始文献文件和所述目标文献文件中的对应词语。
第二方面,本申请提供一种基于机器翻译的文献版式还原装置,包括:
段落切分模块,用于根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
格式转换模块,用于根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
格式调整模块,用于监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
进一步地,所述格式调整模块包括:
定位单元,用于根据所述初始超文本文件和对应的所述文件块中的文字段落、图像以及结构化内容的页面容器高度值,确定对应的坐标系位置差异;
调整单元,用于若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于机器翻译的文献版式还原方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于机器翻译的文献版式还原方法的步骤。
第五方面,本申请提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述的基于机器翻译的文献版式还原方法的步骤。
由上述技术方案可知,本申请提供一种基于机器翻译的文献版式还原方法及装置,通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之一;
图2为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之二;
图3为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之三;
图4为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之四;
图5为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之五;
图6为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之六;
图7为本申请实施例中的基于机器翻译的文献版式还原方法的流程示意图之七;
图8为本申请实施例中的基于机器翻译的文献版式还原装置的结构图之一;
图9为本申请实施例中的基于机器翻译的文献版式还原装置的结构图之二;
图10为本申请实施例中的同步高亮显示示意图;
图11为本申请实施例中的自动折行示意图;
图12为本申请实施例中的调小字号示意图;
图13为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
考虑到在现有技术中,学术文献(如期刊论文、综述、学术图书、会议论文等)原文文档具有的特殊排版版式在进行机器翻译后无法被还原,造成学术文献读者无法实现原文与译文的精确对照阅读的问题,本申请提供一种基于机器翻译的文献版式还原方法及装置,通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
为了能够准确还原多类型、多格式的文献在机器翻译后的文献版式,本申请提供一种基于机器翻译的文献版式还原方法的实施例,参见图1,所述基于机器翻译的文献版式还原方法具体包含有如下内容:
步骤S101:根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
可选的,本实施例中获取到经由使用者上传需进行翻译的学术文献文档,可以是多种格式,包括多版本pdf格式文件、docx或doc格式的word文档。对已上传的需进行翻译的学术文献文档(以下简称为“目标文档”)进行格式的判断,以进行相应的格式转换工作准备。
可选的,本实施例中,结合文件格式类型的判断结果,开始进行目标文档的格式转化或兼容性增强,具体的:若上传的待翻译目标文档为pdf格式,则直接通过pdf2htmlEX进行格式转化,目标格式为HTML,即将pdf格式目标文档转换为HTML格式;若待翻译的目标文档为经由非主流pdf编辑器或浏览器生成的,则先使用GhostScript软件工具,实现对多版本pdf文件的兼容性增强,再进一步将其转换为HTML格式;若上传的待翻译目标文档为docx或doc格式的word文档,则通过Word.Application将docx或doc格式的目标文档现行转化为增强pdf格式,进一步将其转化为HTML格式。
可选的,本实施例可以使用文本处理技术,可以将原始文献文件按照段落进行切分。
可选的,本实施例可以使用文本分割的技术,根据文本中的空行或其他标志性的分隔符来划分段落。将切分后的段落信息组织成HTML格式。例如可以使用字符串拼接、HTML模板引擎等方式生成HTML代码。
在一具体实例中,本申请可以将对目标文档进行文本内容的段落切分,例如以20页一份进行pdf格式的文本内容切分,以保证批量翻译时的翻译效果。
步骤S102:根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
可选的,本实施例可以采用第三方系统进行超文本格式转换和机器翻译。
步骤S103:监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
可选的,本实施例中,原始文献文件包含中文字段、图像以及结构化内容的文档,其中每个元素在坐标系中都有特定的位置。初始超文本文件是根据原始文献文件生成的超文本文件,可能包含了文本、图像等元素。在初始超文本文件中,元素的位置可能与原始文献文件中存在差异。同时,本实施例可以监测原始文献文件和初始超文本文件之间存在坐标系位置的差异,这可能是由于不同文件格式、解析算法等因素引起的。
本实施例可以通过自动折行或调整字号等操作,使初始超文本文件中的元素在坐标系中的位置与原始文献文件中的位置保持一致。例如文本内容的排版调整、图像大小的变更等。在进行自动调整操作时,本实施例设置了一个预设的误差范围。只有当坐标系位置的差异处于该范围内时,认为调整操作已经达到了满意的效果。经过自动折行或字号调整操作后的超文本文件,使得其中的元素在坐标系中的位置与原始文献文件的位置差异在预设误差范围内。
这样的流程确保了初始超文本文件在视觉上与原始文献文件更为一致,通过自动调整的方式,使得文本、图像等元素能够更好地适应不同坐标系中的位置要求。
可选的,本实施例中在进行已转化为HTML格式的原文内容的样式调整过程中,将原文内容中的文字段落、图像、结构化内容均以DIV(HTML页面元素,用作页面内容的容器)为单位进行坐标系定位,并对格式转换过程中出现的乱码进行修复调整;在以DIV为单位进行内容的坐标系定位时,每个文字段落、图像、结构化内容只能存在于一个DIV中,每个DIV之间不得出现重叠、覆盖、交叉,以实现进行翻译后,译文当中对原文版式的忠实还原。
可选的,将已转化并完成样式调整的原文内容进行翻译,产出译文,译文实现对原文文档版式的还原,至此,完成对目标文档的机器翻译。
同时,使用者可选择在线进行原文、译文的对照阅读,也可选择对译文进行以原文的格式(pdf、docx/doc)导出且保持版式还原效果;通过使用Chrome驱动实现原格式导出。
由此,本实施例通过多格式文档向HTML格式转化与基于DIV为基础单位的坐标系定位技术原理,本发明能够实现基于学术文献版式还原的原文译文在线对照阅读与译文的输出下载,使学术科研人员与教育教学工作者能够将文献翻译为其母语或偏好语言的同时,实现便利、直观的文献阅读,提高其工作效率。
从上述描述可知,本申请实施例提供的基于机器翻译的文献版式还原方法,能够通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
为了能够提高机器翻译准确率,在本申请的基于机器翻译的文献版式还原方法的一实施例中,参见图2,还可以具体包含如下内容:
步骤S201:接收用户发送的段落编辑请求,根据所述段落编辑请求更新所述初始超文本文件的相应段落内容,并确定更新后的所述相应段落内容的段落位置与所述原始文献文件中对应的段落位置的坐标系位置差异;
步骤S202:根据所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
可选的,本实施例中的前端应用可以监听用户发起的段落编辑请求,例如用户在页面上进行编辑操作,例如修改文本内容、插入、删除等。根据编辑请求更新初始超文本文件的相应段落内容,例如根据用户的编辑请求,前端应用在初始超文本文件中找到对应的段落,并更新其内容。这可能包括替换、插入或删除文本等操作。
可选的,本实施例计算更新后的相应段落内容在初始超文本文件中的段落位置与原始文献文件中对应的段落位置之间的坐标系位置差异。根据坐标系位置差异,前端应用进行自动折行或字号调整操作,调整更新后的初始超文本文件,以使更新后的内容在页面中的位置与原始文献文件中的位置更为一致。在进行自动调整操作时,可能设置了一个预设的误差范围。只有当坐标系位置的差异处于该范围内时,认为调整操作已经达到了满意的效果。经过自动折行或字号调整操作后的初始超文本文件即为目标文献文件,使得更新后的内容在视觉上与原始文献文件更为一致。
这样的流程确保了用户在编辑文献文件时,更新后的内容能够通过自动调整操作,使得其在页面中的位置与原始文献文件中的位置尽可能一致,提高了文献编辑的效率和准确性。
为了能够提高机器翻译准确率,在本申请的基于机器翻译的文献版式还原方法的一实施例中,参见图3,还可以具体包含如下内容:
步骤S301:根据原始文献文件的文件格式类型确定对应的文件转换方式;
步骤S302:根据所述文件转换方式将所述原始文献文件的格式类型转换为通用格式。
可选的,本实施例中根据原始文献文件的文件格式类型进行兼容性增强可以采取一些策略和技术,以确保文件在不同平台和应用中的良好兼容性。
例如,将原始文献文件转换为通用的文件格式,已确保在不同平台和应用中的兼容性。
常见的通用格式包括:
doc/docx格式、ppt/pptx格式、html格式,以及PDF 格式:适用于文档、图表等。
为了能够提高格式转换效率,在本申请的基于机器翻译的文献版式还原方法的一实施例中,参见图4,还可以具体包含如下内容:
步骤S401:确定经过所述兼容性增强处理后的原始文献文件中的标志性分隔符;
步骤S402:根据所述标志性分隔符对所述原始文献文件进行段落切分,得到至少一个经过所述段落切分后的文件块。
可选的,本实施例可以使用文本处理技术,可以将原始文献文件按照段落进行切分。
可选的,本实施例可以使用文本分割的技术,根据文本中的空行或其他标志性的分隔符来划分段落。将切分后的段落信息组织成HTML格式。例如可以使用字符串拼接、HTML模板引擎等方式生成HTML代码。
在一具体实例中,本申请可以将对目标文档进行文本内容的段落切分,例如以20页一份进行pdf格式的文本内容切分,以保证批量翻译时的翻译效果。
为了能够便于进行格式调整,在本申请的基于机器翻译的文献版式还原方法的一实施例中,参见图5,还可以具体包含如下内容:
步骤S501:根据至少一个所述文件块进行段落信息组织处理;
步骤S502:对所述段落信息组织处理的结果进行机器翻译,得到对应的初始超文本文件。
可选的,本实施例可以采用第三方系统进行超文本格式转换和机器翻译。
可选的,本实施例首先进行原始文献文件段落切分,将原始文献文件按照段落进行切分。原始文献文件通常是一个连续的文本,而段落切分就是将文本按照段落的逻辑结构进行拆分,从而得到一个或多个段落。段落通常是由空行或其他特定标志性的分隔符隔开。
然后,本实施例可以进行段落信息组织处理,一旦得到了切分后的段落,接下来的步骤是对每个段落的信息进行组织和处理。例如包括去除多余的空格、标点符号,调整文本格式,或者根据文本的结构进行进一步的分析和处理。
针对机器翻译,本实施例在对段落信息进行组织处理后,接下来的步骤是利用机器翻译技术将文本翻译成其他语言。机器翻译是一种使用计算机进行语言翻译的技术,可以将文本从一种语言翻译成另一种语言。在这个上下文中,机器翻译的目的是将原始文献文件的内容翻译成另一种语言。
最后,通过将翻译后的文本以超文本标记语言(HTML)的形式组织,生成一个初始的超文本文件。这个HTML文件包含翻译后的文本,每个段落可能用<p>标签包裹,形成一个完整的HTML文档结构。
总的来说,本实施例的处理流程描述了将原始文献文件的内容进行段落切分、组织处理,然后通过机器翻译生成初始的超文本文件的过程。这样的处理流程可能是为了将文本内容转化为另一种语言,并以HTML格式呈现。
为了能够准确进行格式调整,在本申请的基于机器翻译的文献版式还原方法的一实施例中,参见图6,还可以具体包含如下内容:
步骤S601:根据所述初始超文本文件和对应的所述文件块中的文字段落、图像以及结构化内容的页面容器高度值,确定对应的坐标系位置差异;
步骤S602:若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
可选的,本实施例中在进行已转化为HTML格式的原文内容的样式调整过程中,将原文内容中的文字段落、图像、结构化内容均以DIV为单位进行坐标系定位,并对格式转换过程中出现的乱码进行修复调整;在以DIV为单位进行内容的坐标系定位时,每个文字段落、图像、结构化内容只能存在于一个DIV中,每个DIV之间不得出现重叠、覆盖、交叉,以实现进行翻译后,译文当中对原文版式的忠实还原。
举例来说,在原始文献文件经过段落切分之后,得到的至少一个文件块。文件块可以是一个段落,也可以是一组相关的段落、图像和结构化内容的集合。在文件块中,文字段落、图像以及结构化内容都被认为是存在于一个坐标系中的元素。这个坐标系用来描述这些元素在文件块中的相对位置关系,即它们在水平和垂直方向上的位置。
接下来,根据上述坐标系,调整初始超文本文件的格式。例如,通过添加事件监听器,实时检测译文区域的初始超文本文件的文本高度和重叠情况,然后,测量各初始超文本文件和经过段落切分后的相应文件块的页面容器高度值,例如通过使用JavaScript中的DOM操作,获取译文区域内每个段落(即每个初始超文本文件)的高度,以此实现对段落文本高度的测量,确定对应的坐标系位置差异。
参见图12,若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,例如通过JavaScript来动态调整译文段落的字号。
参见图11,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,例如对于译文区域,使用CSS属性 white-space: normal; 允许文本根据容器宽度进行动态折行;直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
通过控制文字段落、图像和结构化内容的位置和样式,以确保它们在目标文献文件中以正确的布局和格式呈现。最终的目标是生成一个文档,即目标文献文件。这个文档经过格式调整,确保了文字段落、图像和结构化内容的正确布局,满足了特定的文档结构和样式要求。
整个过程的目的是通过对文件块中的元素进行坐标系的调整,确保在最终生成的目标文献文件中,文本和图像等元素能够以符合预期的结构和格式呈现。这可能涉及到HTML文档的样式表(CSS)的应用,以及对图像和其他媒体资源的处理。
为了能够便于用户对照阅读,在本申请的基于机器翻译的文献版式还原方法的一实施例中,参见图7,还可以具体包含如下内容:
步骤S701:创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件;
步骤S702:接收用户发送的文件阅读指令并根据所述文件阅读指令滚动对应的页面视窗。
同时,使用者可选择在线进行原文、译文的对照阅读,也可选择对译文进行以原文的格式(pdf、docx/doc)导出且保持版式还原效果;通过使用Chrome驱动实现原格式导出。
为了能够便于用户对照阅读,在本申请的基于机器翻译的文献版式还原方法的一实施例中,还可以具体包含如下内容:
接收用户触发的段落点击信号,并根据所述段落点击信号同步高亮显示所述原始文献文件和所述目标文献文件中的对应段落。
以及,接收所述用户触发的词语点击信号,并根据所述词语点击信号同步高亮显示所述原始文献文件和所述目标文献文件中的对应词语。
可选的,本实施例中,在前端页面中可以将原始文献文件和目标文献文件进行相对展示。例如将两个文献文件以一定的布局方式呈现在页面上,例如分割屏幕、垂直对比等。前端应用监听用户在页面上的点击操作,例如针对段落的段落点击信号或者针对某一术语的词语点击信号。这可以通过添加相应的点击事件监听器来实现。
可选的,本实施例可以根据段落点击信号同步高亮显示对应段落,参见图10,当用户点击页面上的某个位置时,前端应用根据鼠标点击的坐标,判断该坐标在原始文献文件和目标文献文件中对应的段落位置。然后,将这两个段落在页面上高亮显示,以提醒用户当前点击位置在两个文献文件中的对应内容。
这样的交互方式允许用户在相对展示的文献文件中通过点击来定位对应的段落,同时通过高亮显示使用户更容易比较原始文献和目标文献中的内容。这种同步高亮显示的操作提高了用户在对比文献文件时的交互体验。
为了能够准确还原多类型、多格式的文献在机器翻译后的文献版式,本申请提供一种用于实现所述基于机器翻译的文献版式还原方法的全部或部分内容的基于机器翻译的文献版式还原装置的实施例,参见图8,所述基于机器翻译的文献版式还原装置具体包含有如下内容:
段落切分模块10,用于根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
格式转换模块20,用于根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
格式调整模块30,用于监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
从上述描述可知,本申请实施例提供的基于机器翻译的文献版式还原装置,能够通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
在本申请的基于机器翻译的文献版式还原装置的一实施例中,参见图9,所述格式调整模块30包括:
定位单元31,用于根据所述初始超文本文件和对应的所述文件块中的文字段落、图像以及结构化内容的页面容器高度值,确定对应的坐标系位置差异;
调整单元32,用于若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
为了更进一步说明本方案,本申请还提供一种应用上述基于机器翻译的文献版式还原装置实现基于机器翻译的文献版式还原方法的系统实例,具体包含有如下内容:
学术文献文档上传模块,用于共使用者进行需翻译的学术文献文档上传;
文档加工转化模块,用于判断需翻译的原文文档格式、进行pdf格式原文文档的兼容性增强、文本内容的解析切分、实现原文文档的格式转化;
HTML格式调整模块,实现转化为HTML格式的原文内容字体转化、分栏版式与段落坐标系定位、乱码恢复/调整;
翻译模块,用于对需翻译的学术文献文档内容进行机器翻译;
输出模块,用于进行原文与译文的在线阅读,或以原文的格式(pdf、docx/doc)导出译文且保持版式还原效果。
从硬件层面来说,为了能够准确还原多类型、多格式的文献在机器翻译后的文献版式,本申请提供一种用于实现所述基于机器翻译的文献版式还原方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor) 、存储器(memory) 、通信接口(Communications Interface) 和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现基于机器翻译的文献版式还原装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的基于机器翻译的文献版式还原方法的实施例,以及基于机器翻译的文献版式还原装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,基于机器翻译的文献版式还原方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图13是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,基于机器翻译的文献版式还原方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
步骤S102:根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
步骤S103:监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
从上述描述可知,本申请实施例提供的电子设备,通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
在另一个实施方式中,基于机器翻译的文献版式还原装置可以与中央处理器9100分开配置,例如可以将基于机器翻译的文献版式还原装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现基于机器翻译的文献版式还原方法功能。
如图13所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图13中所示的所有部件;此外,电子设备9600还可以包括图13中没有示出的部件,可以参考现有技术。
如图13所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的基于机器翻译的文献版式还原方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的基于机器翻译的文献版式还原方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
步骤S102:根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
步骤S103:监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的基于机器翻译的文献版式还原方法中全部步骤的一种计算机程序产品,该计算机程序/指令被处理器执行时实现所述的基于机器翻译的文献版式还原方法的步骤,例如,所述计算机程序/指令实现下述步骤:
步骤S101:根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;
步骤S102:根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;
步骤S103:监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件。
从上述描述可知,本申请实施例提供的计算机程序产品,通过根据原始文献文件的文件格式类型进行兼容性增强处理,将经过所述兼容性增强处理后的原始文献文件按照设定规则进行段落切分;根据所述原始文献文件段落切分的结果进行超文本格式转换和机器翻译,得到对应的初始超文本文件;监测所述原始文献文件中文字段落、图像以及结构化内容与相应所述初始超文本文件的坐标系位置差异,并根据监测到的所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,得到目标文献文件,由此能够准确还原多类型、多格式的文献在机器翻译后的文献版式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种基于机器翻译的文献版式还原方法,其特征在于,所述方法包括:
根据原始文献文件的文件格式类型进行兼容性增强处理,确定经过所述兼容性增强处理后的原始文献文件中的标志性分隔符,根据所述标志性分隔符对所述原始文献文件进行段落切分,得到至少一个经过所述段落切分后的文件块;
根据至少一个所述文件块进行段落信息组织处理,对所述段落信息组织处理的结果进行机器翻译,得到对应的初始超文本文件;
根据所述初始超文本文件和对应的所述文件块中的文字段落、图像以及结构化内容的页面容器高度值,确定对应的坐标系位置差异,若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
2.根据权利要求1所述的基于机器翻译的文献版式还原方法,其特征在于,还包括:
接收用户发送的段落编辑请求,根据所述段落编辑请求更新所述初始超文本文件的相应段落内容,并确定更新后的所述相应段落内容的段落位置与所述原始文献文件中对应的段落位置的坐标系位置差异;
根据所述坐标系位置差异对所述初始超文本文件进行自动折行或字号调整操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
3.根据权利要求1所述的基于机器翻译的文献版式还原方法,其特征在于,所述根据原始文献文件的文件格式类型进行兼容性增强处理,包括:
根据原始文献文件的文件格式类型确定对应的文件转换方式;
根据所述文件转换方式将所述原始文献文件的格式类型转换为通用格式。
4.根据权利要求1所述的基于机器翻译的文献版式还原方法,其特征在于,在所述得到目标文献文件之后,还包括:
创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件;
接收用户发送的文件阅读指令并根据所述文件阅读指令滚动对应的页面视窗。
5.根据权利要求4所述的基于机器翻译的文献版式还原方法,其特征在于,在所述创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件之后,还包括:
接收所述用户触发的段落点击信号,并根据所述段落点击信号同步高亮显示所述原始文献文件和所述目标文献文件中的对应段落。
6.根据权利要求4所述的基于机器翻译的文献版式还原方法,其特征在于,在所述创建两个相对的页面视窗并分别加载所述原始文献文件和所述目标文献文件之后,还包括:
接收所述用户触发的词语点击信号,并根据所述词语点击信号同步高亮显示所述原始文献文件和所述目标文献文件中的对应词语。
7.一种基于机器翻译的文献版式还原装置,其特征在于,包括:
段落切分模块,用于根据原始文献文件的文件格式类型进行兼容性增强处理,确定经过所述兼容性增强处理后的原始文献文件中的标志性分隔符,根据所述标志性分隔符对所述原始文献文件进行段落切分,得到至少一个经过所述段落切分后的文件块;
格式转换模块,用于根据至少一个所述文件块进行段落信息组织处理,对所述段落信息组织处理的结果进行机器翻译,得到对应的初始超文本文件;
格式调整模块,用于根据所述初始超文本文件和对应的所述文件块中的文字段落、图像以及结构化内容的页面容器高度值,确定对应的坐标系位置差异,若所述坐标系位置差异超过预设最高阈值,则对相应所述初始超文本文件进行字号下调操作,若所述坐标系位置差异超过预设最低阈值,则对相应所述初始超文本文件进行自动折行操作,直至所述坐标系位置差异处于预设误差范围内,并得到目标文献文件。
CN202410328867.3A 2024-03-21 2024-03-21 基于机器翻译的文献版式还原方法及装置 Active CN118194883B9 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410328867.3A CN118194883B9 (zh) 2024-03-21 2024-03-21 基于机器翻译的文献版式还原方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410328867.3A CN118194883B9 (zh) 2024-03-21 2024-03-21 基于机器翻译的文献版式还原方法及装置

Publications (3)

Publication Number Publication Date
CN118194883A CN118194883A (zh) 2024-06-14
CN118194883B CN118194883B (zh) 2024-08-13
CN118194883B9 true CN118194883B9 (zh) 2024-09-06

Family

ID=91396024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410328867.3A Active CN118194883B9 (zh) 2024-03-21 2024-03-21 基于机器翻译的文献版式还原方法及装置

Country Status (1)

Country Link
CN (1) CN118194883B9 (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985255A (zh) * 2020-09-01 2020-11-24 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质
CN112765999A (zh) * 2020-12-24 2021-05-07 中国人民解放军战略支援部队信息工程大学 机器翻译双语对照方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5678039A (en) * 1994-09-30 1997-10-14 Borland International, Inc. System and methods for translating software into localized versions
CN113065537B (zh) * 2021-06-03 2021-09-14 江苏联著实业股份有限公司 一种基于模型优化的ocr文件格式转化方法及系统
CN115705474A (zh) * 2021-08-05 2023-02-17 北京字跳网络技术有限公司 文档翻译方法、设备、存储介质及程序产品

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985255A (zh) * 2020-09-01 2020-11-24 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质
CN112765999A (zh) * 2020-12-24 2021-05-07 中国人民解放军战略支援部队信息工程大学 机器翻译双语对照方法及系统

Also Published As

Publication number Publication date
CN118194883A (zh) 2024-06-14
CN118194883B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
CN100454293C (zh) 文档编辑方法和文档编辑设备
CN110362372A (zh) 页面转译方法、装置、介质及电子设备
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN105138586A (zh) 一种文件查找方法及装置
WO2015026750A1 (en) Presenting fixed format documents in reflowed format
CN111930976B (zh) 演示文稿生成方法、装置、设备及存储介质
US11934774B2 (en) Systems and methods for generating social assets from electronic publications
CN112783482B (zh) 一种可视化表单生成方法、装置、设备及存储介质
KR100798465B1 (ko) 출판용 학습자료를 문제풀이가 가능한 포맷으로 변환하는학습데이터생성시스템 및 그 생성방법
CN111932198B (zh) 文件审核方法及相关产品
CN112487883A (zh) 智能笔书写行为特征分析方法、装置及电子设备
CN115659917A (zh) 一种文档版式还原方法、装置、电子设备及存储设备
CN113033162A (zh) 一种可控制编辑规则的电子文档转换方法
CN116992081A (zh) 页面表单的数据处理方法、装置和用户终端
CN113836092A (zh) 基于rpa和ai的文件比对方法、装置、设备及存储介质
CN113297856B (zh) 文档翻译方法、装置及电子设备
US7788283B2 (en) On demand data proxy
US9817913B2 (en) Method and apparatus for collecting, merging and presenting content
CN118194883B9 (zh) 基于机器翻译的文献版式还原方法及装置
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN117032666A (zh) 基于编辑器的页面编辑方法、装置、终端设备及存储介质
CN102360380A (zh) 提供网页的方法、系统、装置及终端
KR20210119923A (ko) 데이터를 주석하는 방법 및 장치
CN110457659B (zh) 条款文档生成方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent
CI03 Correction of invention patent

Correction item: Denomination of Invention|Abstract|Claims|Description

Correct: Method and device for restoring document layout based on machine translation|correct

False: Method and Device for Document Plate Restoration Based on Machine Translation|error

Number: 33-01

Page: ??

Volume: 40

Correction item: Denomination of Invention

Correct: Method and device for restoring document layout based on machine translation

False: Method and Device for Document Plate Restoration Based on Machine Translation

Number: 33-01

Volume: 40

OR01 Other related matters
OR01 Other related matters