CN113378585B - Xml文本数据翻译方法和装置、电子设备、存储介质 - Google Patents

Xml文本数据翻译方法和装置、电子设备、存储介质 Download PDF

Info

Publication number
CN113378585B
CN113378585B CN202110609589.5A CN202110609589A CN113378585B CN 113378585 B CN113378585 B CN 113378585B CN 202110609589 A CN202110609589 A CN 202110609589A CN 113378585 B CN113378585 B CN 113378585B
Authority
CN
China
Prior art keywords
sentence
node
text
paragraph
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110609589.5A
Other languages
English (en)
Other versions
CN113378585A (zh
Inventor
宋超
贺彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Wuhan Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202110609589.5A priority Critical patent/CN113378585B/zh
Publication of CN113378585A publication Critical patent/CN113378585A/zh
Application granted granted Critical
Publication of CN113378585B publication Critical patent/CN113378585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Abstract

本公开是关于一种XML文本数据翻译方法和装置、电子设备、存储介质。该方法包括:获取XML文本数据;XML文本数据采用预设的数据结构实现,预设结构包括至少一个段落节点;遍历各段落节点的文本内容,获得各段落节点的文本内容中所包含的至少一条语句;将各条语句输入到预设的翻译模型,由翻译模型对各条语句进行翻译,获得各条语句对应的第一目标译句;将第一目标译句的文本属性调整为对应语句的目标文本属性,获得第二目标译句;将第二目标译句回填到对应语句在预设结构的节点中,获得XML文本数据对应的目标译文。本实施例可以对文本数据中不同段落实现强制分割,可以避免相邻两个段落中语句因没有标识符号而被合并一起所带来的噪声。

Description

XML文本数据翻译方法和装置、电子设备、存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种XML文本数据翻译方法和装置、电子设备、存储介质。
背景技术
目前,现有的办公软件通常采用可扩展标记语言(EXtensible Markup Language,XML)来存储文件,如文字编辑软件word通常采用docx文件格式,幻灯片演示文稿软件通常采用pptx文件格式,表格编辑软件Excel通常采用xlsx文件格式。
当用户有需要翻译文件的需求时,电子设备先将待翻译文件的XML文本数据中的内容提取出来,将全部内容进行合并得到待翻译文件对应的文本内容;然后,将上述文本内容作为输入数据而输入到预设翻译模型中,由该预设翻译模型对输入数据进行翻译,并获得上述文本内容对应的译文。
然而,相关技术中,从XML文本数据中提取文本内容的过程会引入噪声。以两个句子之间没有标点符号为例,如论文题目为“论中国的发展”和作者“张三”,上述两句子通常位于不同行;合并两个句子后可得到文本内容“论中国的发展张三”;对于翻译模型而言,其会将上述文本内容“论中国的发展张三”作为一个完整句子进行翻译获得包含噪声的译文,从而影响译文的质量。
发明内容
本公开提供一种XML文本数据翻译方法和装置、电子设备、存储介质,以解决相关技术的不足。
根据本公开实施例的第一方面,提供一种XML文本数据翻译方法,包括:
获取XML文本数据;所述XML文本数据采用预设的数据结构实现,所述预设的数据结构包括至少一个段落节点;所述段落节点是指包含同一段文本内容中内容的节点组合;
遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句以及获取所述至少一条语句中各条语句的目标文本属性;
将各条语句输入到预设的翻译模型,由所述翻译模型对所述各条语句进行翻译,获得所述各条语句对应的第一目标译句;
将所述第一目标译句的文本属性调整为对应语句的目标文本属性,获得第二目标译句;
将所述第二目标译句回填到对应语句在所述预设的数据结构的节点中,获得所述XML文本数据对应的目标译文。
可选地,遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句,包括:
针对所述各段落节点中的每一段落节点,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,得到所述段落节点的文本内容中的至少一条语句。
可选地,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,包括:
当检测到遍历到所述段落节点中的其中一个节点包含结束符号时,确定所述段落节点中文本内容的语义结束;
合并该节点上的语句与其之前没有包含所述结束符号的语句。
可选地,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,包括:
当检测到遍历到所述段落节点中的第一节点时,确定所述段落节点中文本内容的语义结束;
合并与所述第一节点之前未包含结束符号或者其他第一节点的语句。
可选地,所述第一节点包括包含占位符号的节点。
可选地,遍历各段落节点的文本内容,包括:
针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第二节点时跳过所述第二节点,并遍历下一节点。
可选地,所述第二节点包括符号节点和非文本节点。
可选地,遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句,包括:
针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第三节点时,将所述第三节点前后的文本内容作为同一条语句合并到结束符号或者第一节点对应的语句,获得所述各段落节点的文本内容中所包含的至少一条语句。
可选地,所述第三节点包括包含预设符号的节点,所述预设符号包括以下至少一种:下划线、上角标识和下角标识。
可选地,获取所述至少一条语句中各条语句的目标文本属性,包括:
针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点对应的文本属性;
将满足预设条件的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
可选地,获取所述至少一条语句中各条语句的目标文本属性,包括:
针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点中字符串的长度;
将字符串长度最大的节点对应的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
可选地,将所述第二目标译句回填到对应语句在所述n叉树的节点中,包括:
基于所述第二目标译句中词语和文本内容的对应关系,将所述第二目标译句中的词语回填到对应节点中并替换节点中的文本内容,以及存储所述词语的目标文本属性。
根据本公开实施例的第二方面,提供一种XML文本数据翻译装置,包括:
文本数据获取模块,用于获取XML文本数据;所述XML文本数据采用预设的数据结构实现,所述预设的数据结构包括至少一个段落节点;所述段落节点是指包含同一段文本内容中内容的节点组合;
文本属性获取模块,用于遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句以及获取所述至少一条语句中各条语句的目标文本属性;
第一译句获取模块,用于将各条语句输入到预设的翻译模型,由所述翻译模型对所述各条语句进行翻译,获得所述各条语句对应的第一目标译句;
第二译句获取模块,用于将所述第一目标译句的文本属性调整为对应语句的目标文本属性,获得第二目标译句;
目标译文获取模块,用于将所述第二目标译句回填到对应语句在所述预设的数据结构的节点中,获得所述XML文本数据对应的目标译文。
可选地,所述文本属性获取模块42用于针对所述各段落节点中的每一段落节点,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,得到所述段落节点的文本内容中的至少一条语句。
可选地,所述文本属性获取模块包括:
语义确定子模块,用于当检测到遍历到所述段落节点中的其中一个节点包含结束符号时,确定所述段落节点中文本内容的语义结束;
语句合并子模块,用于合并该节点上的语句与其之前没有包含所述结束符号的语句。
可选地,所述文本属性获取模块包括:
语义确定子模块,用于当检测到遍历到所述段落节点中的第一节点时,确定所述段落节点中文本内容的语义结束;
语句合并子模块,用于合并与所述第一节点之前未包含结束符号或者其他第一节点的语句。
可选地,所述第一节点包括包含占位符号的节点。
可选地,所述文本属性获取模块包括:
节点跳过子模块,用于针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第二节点时跳过所述第二节点,并遍历下一节点。
可选地,所述第二节点包括符号节点和非文本节点。
可选地,所述文本属性获取模块还用于针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第三节点时,将所述第三节点前后的文本内容作为同一条语句合并到结束符号或者第一节点对应的语句,获得所述各段落节点的文本内容中所包含的至少一条语句。
可选地,所述第三节点包括包含预设符号的节点,所述预设符号包括以下至少一种:下划线、上角标识和下角标识。
可选地,所述文本属性获取模块包括:
属性获取子模块,用于针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点对应的文本属性;
属性删除子模块,用于将满足预设条件的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
可选地,所述文本属性获取模块包括:
长度获取子模块,用于针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点中字符串的长度;
属性删除子模块,用于将字符串长度最大的节点对应的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
可选地,所述目标译文获取模块还用于基于所述第二目标译句中词语和文本内容的对应关系,将所述第二目标译句中的词语回填到对应节点中并替换节点中的文本内容,以及存储所述词语的目标文本属性。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
其中,所述处理器被配置为执行所述存储器中的计算机程序,以实现如第一方面任一项所述方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的可执行的计算机程序由处理器执行时,能够实现如第一方面任一项所述方法的步骤。
根据本公开实施例的第五方面,提供一种应用程序,当该应用程序由处理器执行时,能够实现如第一方面任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开实施例提供的方案中可以获取XML文本数据;该XML文本数据采用预设的数据结构实现,并且该预设的数据结构包括至少一个段落节点;段落节点是指包含同一段文本内容中内容的节点组合;然后,遍历各段落节点的文本内容,获得各段落节点的文本内容中所包含的至少一条语句以及各条语句的目标文本属性。这样,本实施例中通过遍历段落节点来获取各段落节点中的语句,可以对文本数据中不同段落实现强制分割,从而避免相邻两个段落中语句因没有标识符号而被合并到一起所带来的噪声,有利于提高从XML文本数据中所提取语句的准确度,以及后续目标译文的准确度。并且,本实施例中可以将各条语句输入到预设的翻译模型,由翻译模型对各条语句进行翻译,获得各条语句对应的第一目标译句,在调整第一目标译句的文本属性为目标文本属性后,再回填到语句翻译前在数据结构中的节点中,从而获得文本格式与XML文本数据的文本格式趋于一致的目标译文。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种XML文本数据翻译方法的流程图。
图2是根据一示例性实施例示出的一种获取合并后语句的文本属性的流程图。
图3是根据一示例性实施例示出的另一种获取合并后语句的文本属性的流程图。
图4是根据一示例性实施例示出的一种XML文本数据翻译装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。
为解决上述技术问题,本公开实施例提供了一种XML文本数据翻译方法,图1是根据一示例性实施例示出的一种XML文本数据翻译方法的流程图,可以应用于电子设备,该电子设备可以包括但不限于智能手机、平板电脑、个人计算机和服务器等等。参见图1,一种XML文本数据翻译方法,包括步骤11~步骤15:
在步骤11中,获取XML文本数据;所述XML文本数据采用预设的数据结构实现,所述预设的数据结构包括至少一个段落节点;所述段落节点是指包含同一段文本内容中内容的节点组合。
本实施例中,可扩展标记语言(Extensible Markup Language,XML),是一种用于标记电子文件使其具有结构性的标记语言。
本实施例中,XML数据指的是采用XML格式进行存储的数据,可以包括内容数据和该内容数据对应的属性数据。该属性数据可以是用于表示内容数据的格式、来源等数据。进一步的,由于XML格式中的图片、符号等都可以采用文本的形式进行存储,因此,XML数据又可以称为XML文本数据。示例性的,在XML文本数据中,图片可以存储为图片对应的二进制数据或者获取地址;符号可以存储为符号对应的编码。
由于XML已开始被广泛接受,大量的应用标准,特别是针对因特网的应用标准,纷纷采用XML进行制定,因此,本实施例中,对XML文本数据的来源不作限定。
例如,该XML文本数据可以来源于网页对应的超文本标记语言(Hyper TextMarkup Language,HTML)文件,HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。
又例如,该XML文本数据可以来源于办公文件。具体的,文档文件、演示文件、表格文件等办公文件均可以采用Open XML的格式实现,如,docx格式的文档文件、pptx格式的演示文件或者xlsx格式的表格文件,这些都是采用Open XML技术的办公文件。
其中,Open XML是针对字处理文档、演示文稿和电子表格的国际化开放标准,可免费供多个应用程序在多个平台上实现。Microsoft Office(2007、2003、XP、2000)、OpenOffice Novell Edition、开源项目Gnumeric、Neo-Office2.1和PalmOS(Dataviz)已经支持Open XML。
进一步的,采用Open XML技术的办公文件,其实是包括多个XML文件压缩文件。在办公软件打开上述的办公文件时,可以从办公文件读取出该多个XML文件,并将XML文件最终解析和渲染在办公软件的页面上,供用户查看和编辑。
进一步的,本实施例中,对于XML文本数据可以采用预设的数据结构进行读取,方便进一步对XML文本数据进行诸如解析、渲染和翻译等处理。
该数据结构中可以包括至少一个段落节点,每个段落节点是指包含同一段文本内容中内容的节点组合。
示例性的,上述预设的数据结构可以包括如n叉树的树结构。以n叉树为例,在n叉树的根(root)节点下包括多级节点,如段落节点、句子节点等。其中句子节点为段落节点的下级节点。另外,每一句子节点又可以包括若干下级节点,可以用于存储句子中具有不同属性的内容。如句子“这是一条句子,包括:加粗部分、斜体部分和下划线部分。”,整一个句子对应于一个句子节点。在该句子节点中,“这是一条句子,包括:”为一具有默认格式的字符串的下级节点,“加粗部分、”为一具有加粗格式的字符串的下级节点,“斜体部分”为一具有斜体格式的字符串的下级节点,“和下划线部分”为一具有下划线格式的字符串的下级节点。
后续各实施例以预设的数据结构采用n叉树为例描述各实施例。
在步骤12中,遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句以及获取所述至少一条语句中各条语句的目标文本属性。
本实施例中,电子设备可以按照n叉树的遍历方法遍历各该n叉树的各段落节点的文本内容。其中,n叉树的遍历方法可以包括后序遍历算法、中序遍历算法或者前序遍历算法,可以根据具体场景选择相应的遍历算法,在获取各节点内容的过程中若能够保证不出现重复提取、漏提取和语句乱序等情况下,相应方案均落入本公开的保护范围。
本实施例中,遍历各段落节点的文本内容可以包括:
在一示例中,针对各段落节点中的每一段落节点,当遍历到该段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,得到所述段落节点的文本内容中的至少一条语句。
例如,文本内容的语义结束是指该文本内容包括结束符号,该结束符号是指可以表达文本内容语义结束的符号,以文本内容是中文为例,结束符号可以包括但不限于如中文中的句号“。”、分号“;”、感叹号“!”和问号“?”。其中,分号“;”可以表示此文本内容结束但是与后一文本内容可以存在并列关系;句号“。”可以表示此文本内容结束,与后一文本内容没有关系;感叹号“!”可以表示惊讶;问号“?”可以表示为疑问。技术人员可以根据具体场景选择结束符号,相应方案落入本公开的保护范围。
当遍历到该段落节点中的其中一个节点包含结束符号时,电子设备可以合并该节点上的语句与其之前没有包含结束符号的语句,得到段落节点的文本内容中的其中一条语句。也就是说,电子设备可以将同一段落中第一个结束符号之前的所有语句合并为同一条语句,或者将第一个结束符号之后的两个结束符号之间的语句合并为一条语句,最终获得段落节点的至少一条语句。
又例如,文本内容的语义结束是该文本内容包括第一节点,各段落节点中可以包括第一节点。针对各段落节点中的每一段落节点,当遍历到该段落节点中的第一节点时,此时电子设备可以合并所述第一节点之前未包含结束符号或者其他第一节点的语句,得到该段落节点的文本内容中的一条语句。例如,第一节点可以包括包含占位符号的节点或者包含非文本数据的节点,该占位符号可以包括加入引文后未格式化的引文,或者不含域代码的引文,或者制表节点、回车符号等。电子设备可以将第一节点作为一个包含占位符号的节点,因占位符号前后的内容通常不属于同一条语句,因此可以将第一节点对应的语句和之前节点对应的语句合并为同一条语句,即将第一节点之前的语句合并为同一条语句,可以避免合并第一节点前后的语句而获得不准确语句的问题,即可以提高获得语句的准确度。
在一示例中,各段落节点中可以包括第二节点。针对各段落节点中的每一段落节点,当遍历到该段落节点中的第二节点时,此时电子设备可以跳过该节点,并遍历下一节点。例如,该第二节点可以包括符号节点和非文本节点。其中符号节点是指通过办公软件中菜单栏插入无需翻译内容的操作而产生符号的节点(包括符号或者公式等的节点,如Δ、!、○、α等节点)、通过编辑操作(如复制或者粘贴操)产生符号的节点。非文本节点可以包括形状或者图表等节点。
本示例中设置第二节点的目的在于考虑到以下场景:1,用户没有采用“插入”—“公式”操作方式插入公式,而是在文本中直接插入内容,如“H=DC”;2,PDF文本转换成docx文本后,文本中的公式、形状或者图表。该第二节点中符号或者公式通常属于一个单独的语句,为保持公式的格式和完整性,本示例中遍历到第二节点时直接跳过,即不提取该第二节点中的内容,可以避免该第二节点中内容合并到语句中可能引起的各种噪声,有利于提高获得语句的准确度。
在又一示例中,各段落节点中可以包括第三节点。针对各段落节点中的每一段落节点,当遍历到该段落节点中的第三节点时,此时电子设备可以将第三节点前后的文本内容作为同一条语句合并到结束符号或者第一节点对应的语句,获得各段落节点的文本内容中所包含的至少一条语句。例如,第三节点可以包括包含预设符号的节点,该预设符号可以包括以下至少一种:下划线、上角标识和下角标识。可理解的是,该预设符号通常用于对前部分内容进行标识、解释等,是前部分内容所在语句的一部分。为保证语句的完整性,本示例中将第三节点内的文本内容作为同一语句进行提取和合并,可以避免遗漏节点内的内容或者不恰当的分句而影响语句的准确度。
在又一示例中,电子设备还可以获取各条语句的目标文本属性。参见图2,在步骤21中,针对所述至少一条语句中的各条语句,电子设备可以获取所述语句对应的至少一个节点对应的文本属性。在步骤22中,电子设备可以将满足预设条件的文本属性作为所述语句的目标文本属性,并删除语句中其他节点对应的文本属性。其中预设条件可以包括以下至少一种:文本属性中包含格式最少、文本属性中包含格式最多、语句中任一个节点。例如,当预设条件是文本属性中包含格式最少,那么步骤22中可以将格式最少的文本属性赋予所合并出的语句,从而获得语句的目标文本属性。又如,电子设备可以将合并后的语句对应的至少一个节点中首节点对应的文本属性赋予该合并后的语句。
在又一示例中,电子设备还可以获取各条语句的文本属性。参见图3,在步骤31中,针对各段落节点中至少一条语句中的各条语句,电子设备可以获取各语句对应的至少一个节点中字符串的长度。在步骤32中,电子设备可以将字符串长度最大的节点对应的文本属性作为该语句的文本属性,并删除语句中其他节点对应的文本属性。对于合并后的语句对应的节点,本示例中保留字符串最长的节点对应的文本属性,从而可以保证目标译句在后续回填步骤中不会出现错位,提高翻译结果的准确度。
例如,合并后一条语句为“这是一条测试句子”,其在XML文本数据中的数据结构如下:
合并之前文本内容“这是一条测试句子”中,“测试”为粗体格式,“句子”为斜体格式。在遍历过程中,电子设备会获得如下文本内容,如“这是一条”、“这是一条测试”、“这是一条测试的”和“这是一条测试的句子”,字符串长度最在的是“这是一条测试的句子”,那么合并后语句“这是一条测试的句子”的文本属性就与上述长度最大的字符串具有相同的文本属性,并删除加粗格式和斜体格式这两个文本属性。
又如,合并后一条语句为“这是一条加粗且包含斜体的文本”,其在XML文本数据中的数据结构如下:
其中节点A对应的语句为“这是一条加粗且包含斜体的文本”,节点B对应的内容为“这是一条”,节点C对应的内容为“加粗且包含斜体的文本”,字符串长度最大的节点就是节点B+节点C,即节点A,那么只保留节点A对应的文本属性,而删除节点B和C对应的文本属性。即语句“这是一条加粗且包含斜体的文本”的目标文本属性为节点A对应的文本属性。
在步骤13中,将各条语句输入到预设的翻译模型,由所述翻译模型对所述各条语句进行翻译,获得所述各条语句对应的第一目标译句。
本实施例中,电子设备内可以存储预设的翻译模型,该预设的翻译模型为预先完成训练的模型。该翻译模型可以包括以下至少一种:基于规则的翻译模型、基于实例的翻译模型、基于统计的翻译模型和基于神经网络的翻译模型,可以根据具体场景选择合适的翻译模型。该翻译模型可以将输入数据翻译成目标语言的输出数据,如输入数据是待翻译的中文,目标语言为英文、德文等,输出数据为翻译完成的译文。
在获得各段落节点的语句之后,电子设备内可以调用预设的翻译模型。然后,电子设备可以按照次序依次将各语句作为输入数据,输入到翻译模型,由翻译模型将各条语句翻译为对应的第一目标译句。例如一条语句为“这是一条测试句子”可以被翻译为“This isa sentence”。
在步骤14中,将所述第一目标译句的文本属性调整对应语句的目标文本属性,获得第二目标译句。
本实施例中,电子设备可以将第一目标译句的文本属性调整为目标文本属性,例如步骤12中所示例的“这是一条测试句子”,第一目标译文为“This is a sentence”,由于“这是一条测试句子”的格式为删除粗体格式和斜体格式的正常格式,因此可以将该第一目标译文保持上述正常格式即“This is a sentence”,即可得到第二目标语句。当然,根据不同的预设条件,可以得到不同的目标文本属性,如将示例的“这是一条测试句子”,统一设置为粗体格式和/或斜体格式,实现在保留句子格式的前提下进行更为准确的翻译。
在步骤15中,将所述第二目标译句回填到对应语句在所述预设数据结构的节点中,获得所述XML文本数据对应的目标译文。
本实施例中,电子设备可以将第二目标语句回填到对应语句在n叉树的节点中,从而可以获得XML文本数据对应的目标译文。其中,回填是指利用第二目标译文中的译句替代对应的文本内容,以及采用目标文本属性替换原有文本属性。其中,替代文本内容时,如果译句对应2个以上的节点则将该2个以上的节点合并为1个节点,并将该节点的文本属性采用上述目标文本属性替代。
可理解的是,n叉树的段落节点中可能包括跳过的第二节点,此部分内容没有参加翻译过程,因此在回填过程中无需回填此节点对应的内容,也无需修改此节点中内容的格式。
至此,本实施例中通过遍历段落节点来获取各段落节点中的语句,可以对文本数据中不同段落实现强制分割,从而避免相邻两个段落中语句因没有标识符号而被合并到一起所带来的噪声,有利于提高从XML文本数据中所提取语句的准确度,以及后续目标译文的准确度。并且,本实施例中可以将各条语句输入到预设的翻译模型,由翻译模型对各条语句进行翻译,获得各条语句对应的第一目标译句,在调整第一目标译句的文本属性为目标文本属性后,再回填到语句翻译前在数据结构中的节点中,从而获得文本格式与XML文本数据的文本格式趋于一致的目标译文。
图4是根据一示例性实施例示出的一种XML文本数据翻译装置的框图,可以应用于电子设备,该电子设备可以包括但不限于智能手机、平板电脑、个人计算机和服务器等等。参见图4,一种XML文本数据翻译装置,包括:
文本数据获取模块41,用于获取XML文本数据;所述XML文本数据采用预设的数据结构实现,所述预设的数据结构包括至少一个段落节点;所述段落节点是指包含同一段文本内容中内容的节点组合;
文本属性获取模块42,用于遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句以及获取所述至少一条语句中各条语句的目标文本属性;
第一译句获取模块43,用于将各条语句输入到预设的翻译模型,由所述翻译模型对所述各条语句进行翻译,获得所述各条语句对应的第一目标译句;
第二译句获取模块44,用于将所述第一目标译句的文本属性调整为对应语句的目标文本属性,获得第二目标译句;
目标译文获取模块45,用于将所述第二目标译句回填到对应语句在所述预设的数据结构的节点中,获得所述XML文本数据对应的目标译文。
在一实施例中,所述文本属性获取模块42用于针对所述各段落节点中的每一段落节点,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,得到所述段落节点的文本内容中的至少一条语句。
在一实施例中,所述文本属性获取模块42包括:
语义确定子模块,用于当检测到遍历到所述段落节点中的其中一个节点包含结束符号时,确定所述段落节点中文本内容的语义结束;
语句合并子模块,用于合并该节点上的语句与其之前没有包含所述结束符号的语句。
在一实施例中,所述文本属性获取模块42包括:
语义确定子模块,用于当检测到遍历到所述段落节点中的第一节点时,确定所述段落节点中文本内容的语义结束;
语句合并子模块,用于合并与所述第一节点之前未包含结束符号或者其他第一节点的语句。
在一实施例中,所述第一节点包括包含占位符号的节点。
在一实施例中,所述文本属性获取模块42包括:
节点跳过子模块,用于针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第二节点时跳过所述第二节点,并遍历下一节点。
在一实施例中,所述第二节点包括符号节点和非文本节点。
在一实施例中,所述文本属性获取模块42还用于针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第三节点时,将所述第三节点前后的文本内容作为同一条语句合并到结束符号或者第一节点对应的语句,获得所述各段落节点的文本内容中所包含的至少一条语句。
在一实施例中,所述第三节点包括包含预设符号的节点,所述预设符号包括以下至少一种:下划线、上角标识和下角标识。
在一实施例中,所述文本属性获取模块42包括:
属性获取子模块,用于针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点对应的文本属性;
属性删除子模块,用于将满足预设条件的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
在一实施例中,所述文本属性获取模块42包括:
长度获取子模块,用于针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点中字符串的长度;
属性删除子模块,用于将字符串长度最大的节点对应的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
在一实施例中所述目标译文获取模块45还用于基于所述第二目标译句中词语和文本内容的对应关系,将所述第二目标译句中的词语回填到对应节点中并替换节点中的文本内容,以及存储所述词语的目标文本属性。
本公开实施例还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
其中,所述处理器被配置为执行所述存储器中的计算机程序,以实现如上述任一项XML文本数据翻译方法的步骤。
本公开实施例还提供了一种计算机可读存储介质,当所述存储介质中的可执行的计算机程序由处理器执行时,能够实现如上述任一项XML文本数据翻译方法的步骤。
本公开实施例还提供了一种应用程序,当该应用程序由处理器执行时,能够实现如上述任一项XML文本数据翻译方法的步骤
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种XML文本数据翻译方法,其特征在于,包括:
获取XML文本数据;所述XML文本数据采用预设的数据结构实现,所述预设的数据结构包括至少一个段落节点;所述段落节点是指包含同一段文本内容中内容的节点组合;
遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句以及获取所述至少一条语句中各条语句的目标文本属性;所述目标文本属性是根据预设条件从各条语句中至少一个节点对应的文本属性选择得到的;
将各条语句输入到预设的翻译模型,由所述翻译模型对所述各条语句进行翻译,获得所述各条语句对应的第一目标译句;
将所述第一目标译句的文本属性调整为对应语句的目标文本属性,获得第二目标译句;
将所述第二目标译句回填到对应语句在所述预设的数据结构的节点中,获得所述XML文本数据对应的目标译文;
遍历各段落节点的文本内容,包括:
针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第二节点时跳过所述第二节点,并遍历下一节点,所述至少一条语句未提取第二节点中的内容;
遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句,包括:
针对所述各段落节点中的每一段落节点,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,得到所述段落节点的文本内容中的至少一条语句;
当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,包括:
当检测到遍历到所述段落节点中的其中一个节点包含结束符号时,确定所述段落节点中文本内容的语义结束;
合并该节点上的语句与其之前没有包含所述结束符号的语句;
所述获取所述至少一条语句中各条语句的目标文本属性,包括:
针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点对应的文本属性;
将满足预设条件的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
2.根据权利要求1所述的方法,其特征在于,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,包括:
当检测到遍历到所述段落节点中的第一节点时,确定所述段落节点中文本内容的语义结束;
合并与所述第一节点之前未包含结束符号或者其他第一节点的语句。
3.根据权利要求2所述的方法,其特征在于,所述第一节点包括包含占位符号的节点。
4.根据权利要求1所述的方法,其特征在于,所述第二节点包括符号节点和非文本节点。
5.根据权利要求1所述的方法,其特征在于,遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句,包括:
针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第三节点时,将所述第三节点前后的文本内容作为同一条语句合并到结束符号或者第一节点对应的语句,获得所述各段落节点的文本内容中所包含的至少一条语句。
6.根据权利要求5所述的方法,其特征在于,所述第三节点包括包含预设符号的节点,所述预设符号包括以下至少一种:下划线、上角标识和下角标识。
7.根据权利要求1所述的方法,其特征在于,获取所述至少一条语句中各条语句的目标文本属性,包括:
针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点中字符串的长度;
将字符串长度最大的节点对应的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
8.根据权利要求1所述的方法,其特征在于,将所述第二目标译句回填到对应语句在所述预设的数据结构的节点中,包括:
基于所述第二目标译句中词语和文本内容的对应关系,将所述第二目标译句中的词语回填到对应节点中并替换节点中的文本内容,以及存储所述词语的目标文本属性。
9.一种XML文本数据翻译装置,其特征在于,包括:
文本数据获取模块,用于获取XML文本数据;所述XML文本数据采用预设的数据结构实现,所述预设的数据结构包括至少一个段落节点;所述段落节点是指包含同一段文本内容中内容的节点组合;
文本属性获取模块,用于遍历各段落节点的文本内容,获得所述各段落节点的文本内容中所包含的至少一条语句以及获取所述至少一条语句中各条语句的目标文本属性;所述目标文本属性是根据预设条件从各条语句中至少一个节点对应的文本属性选择得到的;
第一译句获取模块,用于将各条语句输入到预设的翻译模型,由所述翻译模型对所述各条语句进行翻译,获得所述各条语句对应的第一目标译句;
第二译句获取模块,用于将所述第一目标译句的文本属性调整为对应语句的目标文本属性,获得第二目标译句;
目标译文获取模块,用于将所述第二目标译句回填到对应语句在所述预设的数据结构的节点中,获得所述XML文本数据对应的目标译文;
所述文本属性获取模块包括:
节点跳过子模块,用于针对所述各段落节点中的每一段落节点,当遍历到所述段落节点中的第二节点时跳过所述第二节点,并遍历下一节点,所述至少一条语句未提取第二节点中的内容;
所述文本属性获取模块还用于针对所述各段落节点中的每一段落节点,当检测到遍历所述段落节点中的文本内容的语义结束时,合并所述段落节点的文本内容中归属于同一语句的内容,得到所述段落节点的文本内容中的至少一条语句;
所述文本属性获取模块包括:
语义确定子模块,用于当检测到遍历到所述段落节点中的其中一个节点包含结束符号时,确定所述段落节点中文本内容的语义结束;
语句合并子模块,用于合并该节点上的语句与其之前没有包含所述结束符号的语句;
所述文本属性获取模块包括:
属性获取子模块,用于针对所述至少一条语句中的各条语句,获取所述语句对应的至少一个节点对应的文本属性;
属性删除子模块,用于将满足预设条件的文本属性作为所述语句的目标文本属性,并删除所述语句中其他节点对应的文本属性。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
其中,所述处理器被配置为执行所述存储器中的计算机程序,以实现如权利要求1~8任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,当所述存储介质中的可执行的计算机程序由处理器执行时,能够实现如权利要求1~8任一项所述方法的步骤。
12.一种应用程序,其特征在于,当该应用程序由处理器执行时,能够实现如权利要求1~8任一项所述方法的步骤。
CN202110609589.5A 2021-06-01 2021-06-01 Xml文本数据翻译方法和装置、电子设备、存储介质 Active CN113378585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110609589.5A CN113378585B (zh) 2021-06-01 2021-06-01 Xml文本数据翻译方法和装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110609589.5A CN113378585B (zh) 2021-06-01 2021-06-01 Xml文本数据翻译方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN113378585A CN113378585A (zh) 2021-09-10
CN113378585B true CN113378585B (zh) 2023-09-22

Family

ID=77575434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110609589.5A Active CN113378585B (zh) 2021-06-01 2021-06-01 Xml文本数据翻译方法和装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN113378585B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952525B (zh) * 2023-02-23 2023-08-11 天津联想协同科技有限公司 在线文档区域权限设置方法、装置、服务器及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178088A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590644B2 (en) * 1999-12-21 2009-09-15 International Business Machine Corporation Method and apparatus of streaming data transformation using code generator and translator
CA2433512C (en) * 2003-06-26 2008-01-15 Ibm Canada Limited - Ibm Canada Limitee File translation
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
BRPI0924401B1 (pt) * 2009-03-18 2020-05-19 Google Inc métodos, sistemas e meios não-transitórios de armazenamento para tradução de web com substituição de exibição
US9547640B2 (en) * 2013-10-16 2017-01-17 International Business Machines Corporation Ontology-driven annotation confidence levels for natural language processing
CN108334481B (zh) * 2018-03-01 2021-08-27 四川语言桥信息技术有限公司 文档处理方法以及装置
CN109783826B (zh) * 2019-01-15 2023-11-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN110688863B (zh) * 2019-09-25 2023-04-07 六维联合信息科技(北京)有限公司 一种文档翻译系统及文档翻译方法
CN111159981B (zh) * 2019-12-31 2023-08-08 北京迈迪培尔信息技术有限公司 一种Excel文档的解析翻译方法和装置
CN112445915A (zh) * 2021-01-28 2021-03-05 京华信息科技股份有限公司 一种基于机器学习的文书图谱抽取方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178088A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法

Also Published As

Publication number Publication date
CN113378585A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
RU2358311C2 (ru) Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml
US20060285746A1 (en) Computer assisted document analysis
US11604930B2 (en) Generation of translated electronic document from an input image by consolidating each of identical untranslated text strings into a single element for translation
RU2579888C2 (ru) Универсальное представление текста с возможностью поддержки различных форматов документов и текстовая подсистема
US20120072831A1 (en) Method for creating a multi-lingual web page
CN113378585B (zh) Xml文本数据翻译方法和装置、电子设备、存储介质
US10671801B2 (en) Markup code generator
Baker et al. Faithful mathematical formula recognition from PDF documents
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
KR102119560B1 (ko) Svg 포맷을 이용한 폰트 편집 방법, 시스템 및 컴퓨터 판독 가능한 기록매체
Wyatt Work in progress: Demystifying PDF through a machine-readable definition
JPH02112068A (ja) テキスト簡略表示方式
CN115328455A (zh) flutter应用的信息显示方法、装置、设备及介质
Thomas et al. Enhancing composite digital documents using xml-based standoff markup
CN114154092B (zh) 用于对网页进行翻译的方法及其相关产品
Semerikov et al. How to format your paper for CTE Workshop
Fan et al. Semantic Annotation of Office Documents
Kiv et al. How to format your paper for CS&SE@ SW Workshop
Hauser OCR-postcorrection of historical texts
CN113505566A (zh) 一种版式文档的处理方法和装置
CN116050360A (zh) Pdf表单文件的快速制作方法及其设备
CN112668299A (zh) 一种裁判文书自动排版方法及系统
Nechitailenko Converting LaTeX to HTML5 and EPUB3: A case study
Dunn Producing directly from LATEX: the warp package

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant