CN110543641B - 一种中外文信息对比方法及装置 - Google Patents
一种中外文信息对比方法及装置 Download PDFInfo
- Publication number
- CN110543641B CN110543641B CN201910750275.XA CN201910750275A CN110543641B CN 110543641 B CN110543641 B CN 110543641B CN 201910750275 A CN201910750275 A CN 201910750275A CN 110543641 B CN110543641 B CN 110543641B
- Authority
- CN
- China
- Prior art keywords
- chinese
- file
- keyword information
- information
- foreign language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种中外文信息对比方法及装置,所述方法包括:提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。所述装置执行上述方法。本发明实施例提供的中外文信息对比方法及装置,通过提取中文关键字信息和外文关键字信息,将与外文关键字信息相对应的中文翻译信息与中文关键字信息进行对比,对比的对象是关键字信息,能够快速查找源目标文件的不同之处,从而能够高效地实现中外文信息对比。
Description
技术领域
本发明涉及轨道交通技术领域,尤其涉及一种中外文信息对比方法及装置。
背景技术
地铁具有安全、准点、快捷、舒适、环保的特点,其庞大的运量,具有地面任何交通工具不可比拟的优越性,而可靠、高效的调度通信又是地铁线路安全运营的有力保障,因此,地铁是解决城市拥堵的最佳交通工具之一。随着国际业务的开展,地铁信号系统相关软件的界面友好性越来越显得重要,能够满足不同国家语言的需要。
目前,大部分的地铁信号系统相关软件的界面显示,是采用与指定文件类型对应的格式配置文件实现的,例如指定文件类型可以是包含有XML的文件类型,是以.XML格式配置文件实现的,如果要满足不同国家语言的需求,一般是将文件中的中文文字部分通过软件或其他的形式替换成外文,在替换的过程中,可能会出现错误,为后期的工作带来不必要的麻烦。现有技术采用软件工具实现对中文文件和外文文件的对比,从而发现错误,例如Beyond Compare软件,对比源文件(即上述中文文件)与目标文件(即与上述中文文件对应的外文文件)的全部文件内容信息,但是,全部文件内容信息很多,且包含很多不必要、重复的信息,因此,现有技术的中外文信息对比方法的效率低下。
因此,如何避免上述缺陷,高效地实现中外文信息对比,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种中外文信息对比方法及装置。
本发明实施例提供一种中外文信息对比方法,包括:
提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;
获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
其中,所述提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息,包括:
根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本;所述规则文本为与所述同一文件类型相对应的文件类型标记元素;所有差异文本均包含所述文件类型标记元素;
根据所有差异文本提取所述中文关键字信息和所述外文关键字信息。
其中,所述根据所有差异文本提取所述中文关键字信息和所述外文关键字信息,包括:
将所有差异文本中的首个差异字符至所述文件类型标记元素之前的所有字符分别作为所述中文关键字信息和所述外文关键字信息;
或,将所有差异文本中的所有差异字符分别作为所述中文关键字信息和所述外文关键字信息;
或,先获取所有差异文本中的所有差异字符,摒弃所有差异字符中的无效字符,再将剩余所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。
其中,所述根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本,包括:
根据预配置的规则文本,逐行对所述源文件和所述目标文件进行对比,以提取与源文件和目标文件分别对应的差异文本。
其中,所述同一文件类型为包含有XML的文件类型;相应的,所述文件类型标记元素包括采用指定标记符号标记的属性名。
其中,所述将所述中文翻译信息与所述中文关键字信息进行对比的步骤之后,所述方法还包括:
根据对比结果确定对所述目标文件的译文测试结果。
其中,所述根据对比结果确定对所述目标文件的译文测试结果,包括:
若判断获知对比结果为一致,则确定所述译文测试结果为测试通过;
若判断获知对比结果为不一致,则确定所述译文测试结果为测试不通过。
本发明实施例提供一种中外文信息对比装置,包括:
提取单元,用于提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;
对比单元,用于获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述计算机程序时实现如下方法步骤:
提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;
获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法步骤:
提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;
获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本发明实施例提供的中外文信息对比方法及装置,通过提取中文关键字信息和外文关键字信息,将与外文关键字信息相对应的中文翻译信息与中文关键字信息进行对比,对比的对象是关键字信息,能够快速查找源目标文件的不同之处,从而能够高效地实现中外文信息对比。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中外文信息对比方法实施例流程图;
图2为本发明实施例模块化设计的系统结构示意图;
图3为本发明实施例文本加载界面;
图4为本发明中外文信息对比方法另一实施例流程图;
图5为本发明中外文信息对比装置实施例流程图;
图6为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明中外文信息对比方法实施例流程图,如图1所示,本发明实施例提供的一种中外文信息对比方法,包括以下步骤:
S101:提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型。
具体的,装置提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型。装置可以是执行该方法的服务器、终端等,不作具体限定。同一文件类型可以为包含有XML的文件类型,对XML作如下简要说明:
XML即可扩展标记语言,XML是互联网数据传输的重要工具,它可以跨越互联网任何的平台,不受编程语言和操作系统的限制,可以说它是一个拥有互联网最高级别通行证的数据携带者。XML是当前处理结构化文档信息中相当给力的技术,XML有助于在服务器之间传输结构化数据,这使得开发人员更加得心应手地控制数据的存储和传输。XML文件在软件工程中得到了广泛的应用,对XML文件的读写技术非常完善,一般有两种模型,分别是文档对象模型(DOM)和流模型。
使用DOM的好处在于:它允许编辑和更新XML文档,可以随机访问文档中的数据,可以使用XPath查询,但是,DOM的缺点在于:它需要一次性地加载整个文档到内存中,对于大型的文档,这会造成硬件资源不足的问题。
流模型很好解决了这个问题,因为它对XML文件的访问采用的是流的概念,也就是说,任何时候在内存中只有当前节点,但它也有它的不足,它是只读的,仅向前的,不能在文档中执行向后导航操作。
对于包含有XML的文件类型:中文关键字信息可以是如下源字符串:
“双主报警:{0};双主报警:{0},{1}”。
外文关键字信息可以是如下目标字符串:
“double host machines are alarming”。
参照上述举例,可以理解:中文关键字信息和外文关键字信息之间没有重复的内容。
S102:获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
具体的,装置获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。可以通过特定工具,例如字典,获取与外文关键字信息相对应的中文翻译信息,参照上述举例,与“double host machines are alarming”相对应的中文翻译信息可以为“双主机报警”,将该“双主机报警”与上述“双主报警:{0};双主报警:{0},{1}”对比,可以确定对比结果并不一致,从而说明上述目标文件中的“doublehost machines are alarming”存在错误。
本发明实施例提供的中外文信息对比方法,通过提取中文关键字信息和外文关键字信息,将与外文关键字信息相对应的中文翻译信息与中文关键字信息进行对比,对比的对象是关键字信息,能够快速查找源目标文件的不同之处,从而能够高效地实现中外文信息对比。
在上述实施例的基础上,所述提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息,包括:
根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本;所述规则文本为与所述同一文件类型相对应的文件类型标记元素;所有差异文本均包含所述文件类型标记元素。
具体的,装置根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本;所述规则文本为与所述同一文件类型相对应的文件类型标记元素;所有差异文本均包含所述文件类型标记元素。文件类型标记元素可以包括采用指定标记符号标记的属性名,参照上述举例,文件类型标记元素可以为<ContentFormat>、</ContentFormat>,指定标记符号即为“<>”属性名即为“ContentFormat”。与源文件对应的差异文本为源字符串:
<ContentFormat>双主报警:{0};双主报警:{0},{1}</ContentFormat>。
与目标文件对应的差异文本为目标字符串:
<ContentFormat>double host machines are alarming</ContentFormat>。
可以确定:上述两个差异文本都包含有<ContentFormat>、</ContentFormat>。
规则文本可以是包含有<ContentFormat>、</ContentFormat>的文本。即将包含<ContentFormat>、</ContentFormat>,以及<ContentFormat>和</ContentFormat>之间的文本内容作为差异文本。
根据所有差异文本提取所述中文关键字信息和所述外文关键字信息。
具体的,装置根据所有差异文本提取所述中文关键字信息和所述外文关键字信息。可以具体包括:将所有差异文本中的首个差异字符至所述文件类型标记元素之前的所有字符分别作为所述中文关键字信息和所述外文关键字信息。参照上述举例,“<ContentFormat>双主报警:{0};双主报警:{0},{1}</ContentFormat>”和“<ContentFormat>double host machines are alarming</ContentFormat>”的首个差异字符分别为“双”和“d”,因此,将“双主报警:{0};双主报警:{0},{1}”作为中文关键字信息、将“double hostmachines are alarming”作为外文关键字信息。
或,将所有差异文本中的所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。参照上述举例,“<ContentFormat>双主报警:{0};双主报警:{0},{1}</ContentFormat>”和“<ContentFormat>double host machines are alarming</ContentFormat>”的所有差异字符依次为“双”和“d”、“主”和“o”等等,直到“{1}”中的“}”和“g”,因此,将“双主报警:{0};双主报警:{0},{1}”作为中文关键字信息、将“double hostmachines are alarming”作为外文关键字信息。
或,先获取所有差异文本中的所有差异字符,摒弃所有差异字符中的无效字符,再将剩余所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。无效字符可以包括空格字符、回车换行键字符等,如果上述与源文件对应的差异文本为“<ContentFormat>双主报警:{0};
双主报警:{0},{1}</ContentFormat>”,即增加了回车换行键字符,与目标文件对应的差异文本不变,则摒弃的无效字符为该回车换行键字符,剩余所有差异字符为“双主报警:{0};双主报警:{0},{1}”、“double host machines are alarming”。
本发明实施例提供的中外文信息对比方法,通过差异文本高效提取中文关键字信息和外文关键字信息,有助于进一步能够高效地实现中外文信息对比。
在上述实施例的基础上,所述根据所有差异文本提取所述中文关键字信息和所述外文关键字信息,包括:
将所有差异文本中的首个差异字符至所述文件类型标记元素之前的所有字符分别作为所述中文关键字信息和所述外文关键字信息。
具体的,装置将所有差异文本中的首个差异字符至所述文件类型标记元素之前的所有字符分别作为所述中文关键字信息和所述外文关键字信息。可参照上述说明,不再赘述。
或,将所有差异文本中的所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。
具体的,装置将所有差异文本中的所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。可参照上述说明,不再赘述。
或,先获取所有差异文本中的所有差异字符,摒弃所有差异字符中的无效字符,再将剩余所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。
具体的,装置先获取所有差异文本中的所有差异字符,摒弃所有差异字符中的无效字符,再将剩余所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。可参照上述说明,不再赘述。
本发明实施例提供的中外文信息对比方法,通过不同的复杂度更加灵活地提取中文关键字信息和外文关键字信息,增加了该方法的通用性。
在上述实施例的基础上,所述根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本,包括:
根据预配置的规则文本,逐行对所述源文件和所述目标文件进行对比,以提取与源文件和目标文件分别对应的差异文本。
具体的,装置根据预配置的规则文本,逐行对所述源文件和所述目标文件进行对比,以提取与源文件和目标文件分别对应的差异文本。由于源文件和目标文件存储文本的存储方式是分行存储,因此采用逐行对源文本和目标文本进行对比的方式提取差异文本,具有更高的效率。
本发明实施例提供的中外文信息对比方法,通过逐行对比的方式高效提取与源文件和目标文件分别对应的差异文本,有助于进一步高效地实现中外文信息对比。
在上述实施例的基础上,所述同一文件类型为包含有XML的文件类型;相应的,所述文件类型标记元素包括采用指定标记符号标记的属性名。
具体的,装置中的所述同一文件类型为包含有XML的文件类型;相应的,所述文件类型标记元素包括采用指定标记符号标记的属性名。可参照上述说明,不再赘述。
本发明实施例提供的中外文信息对比方法,通过将该方法用于源XML文件和目标XML文件中的中外文信息对比,扩展了该方法的应用面。
在上述实施例的基础上,所述将所述中文翻译信息与所述中文关键字信息进行对比的步骤之后,所述方法还包括:
根据对比结果确定对所述目标文件的译文测试结果。
具体的,装置根据对比结果确定对所述目标文件的译文测试结果。进一步地,参照上述对比结果并不一致的示例,说明上述目标文件中的“double host machines arealarming”存在错误,进而,确定译文测试结果为测试不通过。如果上述中文关键字信息为“双主机报警”、外文关键字信息还为“double host machines are alarming”,由于“double host machines are alarming”对应的中文翻译信息还是“双主机报警”可以确定与上述中文关键字信息对比结果一致,说明上述目标文件中的“double host machinesare alarming”不存在错误,进而,确定译文测试结果为测试通过。
本发明实施例提供的中外文信息对比方法,能够有效地测试中外文信息对比结果。
在上述实施例的基础上,所述根据对比结果确定对所述目标文件的译文测试结果,包括:
若判断获知对比结果为一致,则确定所述译文测试结果为测试通过。
具体的,装置若判断获知对比结果为一致,则确定所述译文测试结果为测试通过。可参照上述说明,不再赘述。
若判断获知对比结果为不一致,则确定所述译文测试结果为测试不通过。
具体的,装置若判断获知对比结果为不一致,则确定所述译文测试结果为测试不通过。可参照上述说明,不再赘述。
本发明实施例提供的中外文信息对比方法,进一步能够有效地测试中外文信息对比结果。
为了更好地实现本发明实施例,可以采用模块化设计的方式实现本发明实施例,图2为本发明实施例模块化设计的系统结构示意图,如图2所示,实现本发明实施例的系统可以包括主模块、配置模块、读取模块、界面显示模块和测试报告模块,以源文件和目标文件都为源XML文件和目标XML文件为例,说明如下:
主模块可以用于连接各模块,使得上述配置模块、读取模块、界面显示模块和测试报告模块之间能够进行信息交互。
配置模块用于为系统输入规则文本和多国语言翻译信息,即目标XML文件中的文本内容。配置模块作为该系统的数据和规则来源,包括多国语言翻译信息和规则文本,多国语言翻译信息是中文对应的其他语言的翻译语言。
读取模块用于读取源XML文件和目标XML文件到系统。读取模块作为读取源XML文件与目标XML文件的模块,并将文件进行行数标记,基于本发明实施例中的源XML文件与目标XML文件存储的是字符,并且采用的是C#语言开发,所以,采用C#StreamReader类来读取源XML文件和目标XML文件,它是以字符为单位进行读取,它可以正确读取任何格式的文件,不需要担心文件中使用的编码方式(文本格式)。
界面显示模块,用于将配置模块中的信息、源XML文件和目标XML文件进行显示。界面显示模块作为系统界面友好性的体现是非常重要的,本发明实施例界面可以包括文本加载界面和分析对比界面,图3为本发明实施例文本加载界面,如图3所示,文本加载界面包括加载文本按键和级别选择按键,文件加载按键包括源XML文件加载按键和目标XML文件加载按键;系统可以通过检测源XML文件加载按键和目标XML文件加载按键的触发动作获取到源XML文件和目标XML文件。级别选择按键可以理解为:是对文本对比复杂度的选择按键,按照复杂度由简单到复杂的顺序,可以包括“Fast”、“Medium”、“Slow/Best”三档级别,分别对应上述“将所有差异文本中的首个差异字符至所述文件类型标记元素之前的所有字符分别作为所述中文关键字信息和所述外文关键字信息”、“将所有差异文本中的所有差异字符分别作为所述中文关键字信息和所述外文关键字信息”、“先获取所有差异文本中的所有差异字符,摒弃所有差异字符中的无效字符,再将剩余所有差异字符分别作为所述中文关键字信息和所述外文关键字信息”。分析对比界面包括对比语言模式的选择和测试结果(即上述译文测试结果)显示,对比语言模式可以理解为目标文件中的具体某个外国国家的语言模式选择,例如英语、葡萄牙语等;测试结果显示是把测试结果以界面的形式呈现。
测试报告模块可分为测试对比子模块和报告生成子模块,测试对比子模块用于根据读取模块中的信息,提取中文关键字信息和外文关键字信息,将与外文关键字信息相对应的中文翻译信息与中文关键字信息进行对比,从而得到对比结果,报告生成子模块用于根据对比结果确定对目标文件的译文测试结果,并将译文测试结果以excel报表和/或软件界面显示的形式输出,具体可以将译文测试结果输出到界面显示模块、并存储到本地文件。
图4为本发明中外文信息对比方法另一实施例流程图,如图4所示,包括步骤:数据源文件配置,即上述配置模块中执行的步骤。读取源目标XML文件,即上述读取模块中执行的步骤。级别选择,即可以通过触发上述图3中的级别选择按键来实现。XML文本内容差异对比,即根据配置模块中的信息对读取模块中的源目标XML文件进行XML文本内容差异对比,以获取差异文本。差异处提取关键字对比:即执行与级别选择相对应的方式,根据差异文本提取中文关键字信息和外文关键字信息,并将外文关键字信息对应的中文翻译信息与中文关键字信息进行对比。输出测试结果:即根据对比结果确定测试结果。
本发明实施例的方法可以适用于多语言测试项目,并具有如下效果:
1)支持多种不同语言文件的快速查找和对比,减轻了测试人员的工作强度,提高了效率。
2)实现软件自动对比配置文件,防止因为人为主观因素导致的缺陷漏测、误测等问题,提高测试准确性。
3)实现了非常详细的测试报告功能。
图5为本发明中外文信息对比装置实施例流程图,如图5所示,本发明实施例提供了一种中外文信息对比装置,包括提取单元501和对比单元502,其中:
提取单元501用于提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;对比单元502用于获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
具体的,提取单元501用于提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;对比单元502用于获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本发明实施例提供的中外文信息对比装置,通过提取中文关键字信息和外文关键字信息,将与外文关键字信息相对应的中文翻译信息与中文关键字信息进行对比,对比的对象是关键字信息,能够快速查找源目标文件的不同之处,从而能够高效地实现中外文信息对比。
本发明实施例提供的中外文信息对比装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图6为本发明实施例提供的电子设备实体结构示意图,如图6所示,所述电子设备包括:处理器(processor)601、存储器(memory)602和总线603;
其中,所述处理器601、存储器602通过总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种中外文信息对比方法,其特征在于,包括:
提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;
获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比;
所述提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息,包括:
根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本;所述规则文本为与所述同一文件类型相对应的文件类型标记元素;所有差异文本均包含所述文件类型标记元素;
根据所有差异文本提取所述中文关键字信息和所述外文关键字信息。
2.根据权利要求1所述的中外文信息对比方法,其特征在于,所述根据所有差异文本提取所述中文关键字信息和所述外文关键字信息,包括:
将所有差异文本中的首个差异字符至所述文件类型标记元素之前的所有字符分别作为所述中文关键字信息和所述外文关键字信息;
或,将所有差异文本中的所有差异字符分别作为所述中文关键字信息和所述外文关键字信息;
或,先获取所有差异文本中的所有差异字符,摒弃所有差异字符中的无效字符,再将剩余所有差异字符分别作为所述中文关键字信息和所述外文关键字信息。
3.根据权利要求1所述的中外文信息对比方法,其特征在于,所述根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本,包括:
根据预配置的规则文本,逐行对所述源文件和所述目标文件进行对比,以提取与源文件和目标文件分别对应的差异文本。
4.根据权利要求1至3任一所述的中外文信息对比方法,其特征在于,所述同一文件类型为包含有XML的文件类型;相应的,所述文件类型标记元素包括采用指定标记符号标记的属性名。
5.根据权利要求1至3任一所述的中外文信息对比方法,其特征在于,所述将所述中文翻译信息与所述中文关键字信息进行对比的步骤之后,所述方法还包括:
根据对比结果确定对所述目标文件的译文测试结果。
6.根据权利要求5所述的中外文信息对比方法,其特征在于,所述根据对比结果确定对所述目标文件的译文测试结果,包括:
若判断获知对比结果为一致,则确定所述译文测试结果为测试通过;
若判断获知对比结果为不一致,则确定所述译文测试结果为测试不通过。
7.一种中外文信息对比装置,其特征在于,包括:
提取单元,用于提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息;所述源文件为中文文件、所述目标文件为外文文件;所述源文件和所述目标文件具有同一文件类型;
对比单元,用于获取与所述外文关键字信息相对应的中文翻译信息,并将所述中文翻译信息与所述中文关键字信息进行对比;
所述提取单元提取与源文件和目标文件分别对应的中文关键字信息和外文关键字信息,包括:
根据预配置的规则文本提取与源文件和目标文件分别对应的差异文本;所述规则文本为与所述同一文件类型相对应的文件类型标记元素;所有差异文本均包含所述文件类型标记元素;
根据所有差异文本提取所述中文关键字信息和所述外文关键字信息。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910750275.XA CN110543641B (zh) | 2019-08-14 | 2019-08-14 | 一种中外文信息对比方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910750275.XA CN110543641B (zh) | 2019-08-14 | 2019-08-14 | 一种中外文信息对比方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110543641A CN110543641A (zh) | 2019-12-06 |
CN110543641B true CN110543641B (zh) | 2023-05-26 |
Family
ID=68711388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910750275.XA Active CN110543641B (zh) | 2019-08-14 | 2019-08-14 | 一种中外文信息对比方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110543641B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274458B (zh) * | 2020-01-17 | 2023-12-01 | 中国工商银行股份有限公司 | 一种应用软件的多语言核对方法及系统 |
CN112395852A (zh) * | 2020-12-22 | 2021-02-23 | 江西金格科技股份有限公司 | 多文件格式版式文档的对比方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0855121A (ja) * | 1994-08-09 | 1996-02-27 | Nec Corp | 文対応装置及び原文と訳文の対応付け方法 |
JP2010066926A (ja) * | 2008-09-09 | 2010-03-25 | Funai Electric Advanced Applied Technology Research Institute Inc | 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法 |
CN105608079A (zh) * | 2014-11-04 | 2016-05-25 | 上海兵飞软件有限公司 | 一种世界专利检索法 |
CN109871546A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译系统 |
-
2019
- 2019-08-14 CN CN201910750275.XA patent/CN110543641B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0855121A (ja) * | 1994-08-09 | 1996-02-27 | Nec Corp | 文対応装置及び原文と訳文の対応付け方法 |
JP2010066926A (ja) * | 2008-09-09 | 2010-03-25 | Funai Electric Advanced Applied Technology Research Institute Inc | 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法 |
CN105608079A (zh) * | 2014-11-04 | 2016-05-25 | 上海兵飞软件有限公司 | 一种世界专利检索法 |
CN109871546A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译系统 |
Non-Patent Citations (1)
Title |
---|
基于语料库的《前出师表》英译文本对比分析;袁国廷等;《科技视界》;20131005(第28期);第160,183页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110543641A (zh) | 2019-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680634B (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN111176650B (zh) | 解析器生成方法、检索方法、服务器及存储介质 | |
US20150212983A1 (en) | Quick Font Match | |
CN109857389B (zh) | 模型数据生成方法、装置、计算机设备及存储介质 | |
CN110543641B (zh) | 一种中外文信息对比方法及装置 | |
CN111656453A (zh) | 用于信息提取的层次实体识别和语义建模框架 | |
CN111079408A (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN113158101A (zh) | 一种可视化页面渲染方法、装置、设备及存储介质 | |
US20080052619A1 (en) | Spell Checking Documents with Marked Data Blocks | |
CN111475196B (zh) | 编译告警溯源方法、装置、电子设备及计算机可读介质 | |
CN113723063B (zh) | 一种rtf转html并在pdf文件实现效果的方法 | |
CN113094625B (zh) | 页面元素定位方法、装置、电子设备及存储介质 | |
CN113971205A (zh) | 一种威胁报告攻击行为提取方法、装置、设备及存储介质 | |
WO2022134577A1 (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
CN112965772A (zh) | web页面显示方法、装置和电子设备 | |
CN110162729B (zh) | 建立浏览器指纹以及识别浏览器类型的方法、装置 | |
CN113127776A (zh) | 面包屑路径生成方法、装置及终端设备 | |
CN110688823A (zh) | Xml文件验证方法及装置 | |
CN116204692A (zh) | 网页数据提取方法、装置、电子设备及存储介质 | |
CN113050933B (zh) | 脑图数据处理方法、装置、设备及存储介质 | |
CN112699642B (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
CN114626358A (zh) | 一种语言混写解析方法、装置、设备及存储介质 | |
CN113515588A (zh) | 表单数据检测方法、计算机装置及存储介质 | |
CN113408250B (zh) | 一种项目文件的处理方法和装置 | |
Liu et al. | Detecting Annotation Errors in Morphological Data with the Transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |