CN103440231A - 用于比较文本的设备和方法 - Google Patents

用于比较文本的设备和方法 Download PDF

Info

Publication number
CN103440231A
CN103440231A CN201310392331XA CN201310392331A CN103440231A CN 103440231 A CN103440231 A CN 103440231A CN 201310392331X A CN201310392331X A CN 201310392331XA CN 201310392331 A CN201310392331 A CN 201310392331A CN 103440231 A CN103440231 A CN 103440231A
Authority
CN
China
Prior art keywords
data
text data
tables
text
formatted message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310392331XA
Other languages
English (en)
Inventor
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Netqin Technology Co Ltd
Original Assignee
Beijing Netqin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Netqin Technology Co Ltd filed Critical Beijing Netqin Technology Co Ltd
Priority to CN201310392331XA priority Critical patent/CN103440231A/zh
Publication of CN103440231A publication Critical patent/CN103440231A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种用于比较文本的设备,包括:第一提取单元,被配置为从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中;第二提取单元,被配置为从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中;比较单元,被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较;以及输出单元,被配置为输出通过比较单元获得的、格式化信息不完全相同的文本数据。本发明还提供了一种用于比较文本的方法。本发明节省了比较文本所需的时间,提高了效率。

Description

用于比较文本的设备和方法
技术领域
本发明涉及信息处理领域,更具体地,涉及一种用于比较文本的设备和一种用于比较文本的方法。
背景技术
校对过程(文本比较过程)主要应用在出版领域。一般由经过专业训练的校对人员对稿件进行校对。软件开发过程中,由于设计到本地化的问题,需要对其中使用的语言进行翻译然后进行校对。这些专业校对人员可以完成语义和语法的校对,但对于其中涉及的格式化信息一般很难进行正确的校对。目前常用的方式是:专业校对人员完成语义和语法等校对,然后交由软件开发工程师,完成格式化信息的校对。
格式化信息可以理解为是为了对字符串中的部分内容进行动态替换而定义的格式化字符串。具体地,格式化字符串可以包含一些占位符,表示在运行时要使用可变信息替换的数据。例如,“Hello everyone,myname is%1$s”是格式化字符串,其中的占位符的定义如下:使用%[index]$[type]格式进行标记,index标记替换资源中第index个资源对应的位置,type则标示所要替换的资源的类型(s表示资源为字符串格式)。
然而,这种校对方式将占用软件开发工程师的大量时间,并且随着语言版本的增多,工作量将随之增加。
发明内容
为了解决上述问题,本发明提供了一种用于比较文本的设备和一种用于比较文本的方法。本发明首先提取格式化模板中的格式化信息,然后和待比较的文本进行比较,最后输出包含错误格式化信息的文本数据。
具体地,根据本发明的第一方案,提供了一种用于比较文本的设备,包括:第一提取单元,被配置为从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中;第二提取单元,被配置为从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中;比较单元,被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较;以及输出单元,被配置为输出通过比较单元获得的、格式化信息不完全相同的文本数据。
在一个实施例中,所述第一提取单元和所述第二提取单元均被配置为:将文本数据的ID和文本数据的值保存到所述数据表中。
在一个实施例中,所述比较单元还被配置为:针对第一数据表中的每一项文本数据,将所述文本数据包含的格式化信息保存在第一数组中,并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中;以及比较第一数组和第二数组中的每个元素,只有两个数组中的元素完全相同,才确定该文本数据包含的格式化信息相同。
在一个实施例中,所述输出单元还被配置为:针对每一项具有不同格式化信息的文本数据,输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
根据本发明的第二方案,提供了一种用于比较文本的方法,包括:从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中;从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中;将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较;以及输出通过比较步骤获得的、格式化信息不完全相同的文本数据。
在一个实施例中,将文本数据的ID和文本数据的值保存到所述数据表中。
在一个实施例中,针对第一数据表中的每一项文本数据,将所述文本数据包含的格式化信息保存在第一数组中,并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中;以及比较第一数组和第二数组中的每个元素,只有两个数组中的元素完全相同,才确定该文本数据包含的格式化信息相同。
在一个实施例中,针对每一项具有不同格式化信息的文本数据,输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
通过本发明的方法,可以自动实现新增语言版本中的格式化信息的比较,从而节省了时间成本,提高了效率。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1是示出了根据本发明的一个实施例的用于比较文本的设备的框图。
图2是示出了根据本发明的一个实施例的用于比较文本的方法的流程图。
在本发明的所有附图中,相同或相似的结构均以相同或相似的附图标记标识。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
图1是示出了根据本发明的一个实施例的用于比较文本的设备10的框图。如图1所示,设备10包括第一提取单元110、第二提取单元120、比较单元130和输出单元140。下面,对图1所示的设备10的各个组件进行详细描述。
第一提取单元110被配置为从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中。模板可以是任何语言版本,下文以英语版本作为示例。对于模板,需要经过严格的测试,保证其中的格式化信息完全正确。第一提取单元110通过遍历的方式,依次读取模板中的每一项文本数据。如果其中包含格式化信息,就保存下来。保存时,可以以文本的标识(ID)作为关键字(key),以具体的文本数据为值(value),保存为哈希表中的一项,直至读取模板中的所有文本数据。
第二提取单元120被配置为从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中。这里假设待比较的文本是简体中文文本。同样,第二提取单元120通过遍历的方式,依次读取每一项文本数据。如果其中包含格式化信息,就保存下来,保存方式与上文描述的第一提取单元110的方式相同。
比较单元130被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较。在一个实施例中,比较单元130针对第一数据表中的每一项文本数据,将所述文本数据包含的格式化信息保存在第一数组中,并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中。然后,比较单元130比较第一数组和第二数组中的每个元素,只有两个数组中的元素完全相同,才确定该文本数据包含的格式化信息相同。
输出单元140被配置为输出通过比较单元130获得的、格式化信息不完全相同的文本数据。例如,输出单元140可以针对每一项具有不同格式化信息的文本数据,输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
下面,通过一个示例应用场景,详细描述图1所示的设备10的各个组件的操作。首先,假设模板包括以下字符串数据:
以“<string name=″feature_new_title″>What\’s New?</string>”为例,其中name=″feature_new_title″中的feature_new_title为本条字符串数据的ID,What\’s New?为本条字符串的值。
第一提取单元110判断当前字符串的值中是否包含格式化信息。例如,可以采用正则表达式″%[0-9]*[$]*[0-9]*[a-z]″来判断格式化信息。如果符合此正则表达式,则第一提取单元110将(ID,值)作为一个键值对,存入数据表中。遍历上述数据,则得到的数据表如下:
Figure BDA00003758874100051
表1
假设待比较的中文文本数据包括以下内容:
<string name=″first_guide_agreement″>点击\″开始使用\″%2$s,则表示您已阅读并同意%1$s</string>
<string name=″sms_progress_white_text_first″>短信信箱:已用%1$d%%(共%2$d条)</string>
<string name=″sms_into_db″>共导入%1$s条短信</string>
第二提取单元120以类似的方式,遍历上述数据,则得到的数据表如下:
Figure BDA00003758874100052
Figure BDA00003758874100061
表2
比较单元130可以通过算法getstringFormatterList来提取格式化信息:
Figure BDA00003758874100062
例如,针对表1中的第一项“first_guide_agreement”,比较单元130采用上述getStringFormatterList算法来获取其中的所有格式化信息,保存到第一数组中。结果如下:
数组索引 数组值
0 %1$s
表2中对应的文本数据的值为“点击\″开始使用\″%2$s,则表示您已阅读并同意%1$s”。比较单元130采用上述getStringFormatterList算法来获取其中的所有格式化信息,保存到第二数组中。结果如下:
数组索引 数组值
0 %2$s
1 %1$s
然后,比较单元130比较两个数组中的元素。只有两个数组中的元素完全相同时,才判定格式化信息相同。在上例中,两个数组中的元素不完全相同,因而比较单元130确定该文本数据包含的格式化信息不相同。
对于经过上述比较确定的格式化信息不同的文本数据,输出单元140可以按照如下数据结构S将其保存到数组中。
Figure BDA00003758874100071
其中,idString保存字符串资源的关键字,templateString保存第一数据表中对应的值,destString保存第二数据表中对应的值。
经过对第一数据表的遍历,输出单元140最终得到如下数组:
Figure BDA00003758874100072
Figure BDA00003758874100081
输出单元140可以按照idString,templateString,destString的格式来输出上述数据。
通过本实施例,可以自动实现新增语言版本中的格式化信息的比较,从而节省了时间成本,提高了效率。
图2是示出了根据本发明的一个实施例的用于比较文本的方法20的流程图。如图2所示,方法20在步骤S210处开始。
在步骤S220处,从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中。例如,可以将文本数据的ID和文本数据的值保存到所述数据表中。
在步骤S230处,从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中。同样,可以将文本数据的ID和文本数据的值保存到所述数据表中。
在步骤S240处,将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较。例如,可以针对第一数据表中的每一项文本数据,将所述文本数据包含的格式化信息保存在第一数组中,并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中。比较第一数组和第二数组中的每个元素,只有两个数组中的元素完全相同,才确定该文本数据包含的格式化信息相同。
在步骤S250处,输出通过比较步骤获得的、格式化信息不完全相同的文本数据。例如,可以针对每一项具有不同格式化信息的文本数据,输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
最后,方法20在步骤S260处结束。
应该理解,本发明的上述实施例可以通过软件、硬件或者软件和硬件两者的结合来实现。例如,图1所示的设备10内的各种组件可以通过多种器件来实现,这些器件包括但不限于:模拟电路、数字电路、通用处理器、数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(CPLD),等等。
另外,本领域的技术人员可以理解,本发明实施例中描述的数据可以存储在本地数据库中,也可以存储在分布式数据库中或者可以存储在远程数据库中。
此外,这里所公开的本发明的实施例可以在计算机程序产品上实现。更具体地,该计算机程序产品是如下的一种产品:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,该计算机程序逻辑提供相关的操作以实现本发明的上述技术方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所描述的技术方案。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。

Claims (8)

1.一种用于比较文本的设备,包括:
第一提取单元,被配置为从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中;
第二提取单元,被配置为从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中;
比较单元,被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较;以及
输出单元,被配置为输出通过比较单元获得的、格式化信息不完全相同的文本数据。
2.根据权利要求1所述的设备,其中,所述第一提取单元和所述第二提取单元均被配置为:将文本数据的ID和文本数据的值保存到所述数据表中。
3.根据权利要求1所述的设备,其中,所述比较单元还被配置为:
针对第一数据表中的每一项文本数据,
将所述文本数据包含的格式化信息保存在第一数组中,并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中;以及
比较第一数组和第二数组中的每个元素,只有两个数组中的元素完全相同,才确定该文本数据包含的格式化信息相同。
4.根据权利要求1所述的设备,其中,所述输出单元还被配置为:针对每一项具有不同格式化信息的文本数据,输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
5.一种用于比较文本的方法,包括:
从模板中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第一数据表中;
从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中;
将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较;以及
输出通过比较步骤获得的、格式化信息不完全相同的文本数据。
6.根据权利要求5所述的方法,其中,将文本数据的ID和文本数据的值保存到所述数据表中。
7.根据权利要求5所述的方法,其中,针对第一数据表中的每一项文本数据,
将所述文本数据包含的格式化信息保存在第一数组中,并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中;以及
比较第一数组和第二数组中的每个元素,只有两个数组中的元素完全相同,才确定该文本数据包含的格式化信息相同。
8.根据权利要求5所述的方法,其中,针对每一项具有不同格式化信息的文本数据,输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
CN201310392331XA 2013-09-02 2013-09-02 用于比较文本的设备和方法 Pending CN103440231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310392331XA CN103440231A (zh) 2013-09-02 2013-09-02 用于比较文本的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310392331XA CN103440231A (zh) 2013-09-02 2013-09-02 用于比较文本的设备和方法

Publications (1)

Publication Number Publication Date
CN103440231A true CN103440231A (zh) 2013-12-11

Family

ID=49693923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310392331XA Pending CN103440231A (zh) 2013-09-02 2013-09-02 用于比较文本的设备和方法

Country Status (1)

Country Link
CN (1) CN103440231A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942143A (zh) * 2014-04-09 2014-07-23 烽火通信科技股份有限公司 一种基于版本库比较的PC-Lint代码检查结果筛选方法
CN108021952A (zh) * 2017-12-29 2018-05-11 广州品唯软件有限公司 一种多格式文本对比方法及装置
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111506608A (zh) * 2020-04-16 2020-08-07 泰康保险集团股份有限公司 一种结构化文本的比较方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07253970A (ja) * 1994-03-15 1995-10-03 Fuji Xerox Co Ltd 情報出力システム
CN101582081A (zh) * 2009-05-25 2009-11-18 中兴通讯股份有限公司 一种数据比对的方法及装置
CN101872340A (zh) * 2009-04-23 2010-10-27 北京大学 一种基于版面格式模板的排版方法及装置
CN102043762A (zh) * 2009-10-15 2011-05-04 北大方正集团有限公司 一种版面比对的方法及装置
CN102289407A (zh) * 2011-09-06 2011-12-21 北京信息科技大学 文档格式转换自动测试方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07253970A (ja) * 1994-03-15 1995-10-03 Fuji Xerox Co Ltd 情報出力システム
CN101872340A (zh) * 2009-04-23 2010-10-27 北京大学 一种基于版面格式模板的排版方法及装置
CN101582081A (zh) * 2009-05-25 2009-11-18 中兴通讯股份有限公司 一种数据比对的方法及装置
CN102043762A (zh) * 2009-10-15 2011-05-04 北大方正集团有限公司 一种版面比对的方法及装置
CN102289407A (zh) * 2011-09-06 2011-12-21 北京信息科技大学 文档格式转换自动测试方法及其装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942143A (zh) * 2014-04-09 2014-07-23 烽火通信科技股份有限公司 一种基于版本库比较的PC-Lint代码检查结果筛选方法
CN103942143B (zh) * 2014-04-09 2017-03-15 烽火通信科技股份有限公司 一种基于版本库比较的PC‑Lint代码检查结果筛选方法
CN108021952A (zh) * 2017-12-29 2018-05-11 广州品唯软件有限公司 一种多格式文本对比方法及装置
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111506608A (zh) * 2020-04-16 2020-08-07 泰康保险集团股份有限公司 一种结构化文本的比较方法和装置

Similar Documents

Publication Publication Date Title
CN110334346B (zh) 一种pdf文件的信息抽取方法和装置
WO2020140386A1 (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN108763591B (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US20150169511A1 (en) System and method for identifying floor of main body of webpage
US10691769B2 (en) Methods and apparatus for removing a duplicated web page
CN104268127A (zh) 一种电子档版式文件阅读顺序分析的方法
CN108334609B (zh) Oracle中实现JSON格式数据存取的方法、装置、设备及存储介质
CN104317788A (zh) Android多国语言翻译方法和装置
WO2021179708A1 (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
US8484229B2 (en) Method and system for identifying traditional arabic poems
US20210133212A1 (en) Data archiving method and computing device implementing same
CN103440231A (zh) 用于比较文本的设备和方法
CN111079408A (zh) 一种语种识别方法、装置、设备及存储介质
CN103038762B (zh) 自然语言处理装置、方法
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
CN107436931B (zh) 网页正文抽取方法及装置
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN104516870A (zh) 一种译文检查方法及其系统
CN110866407B (zh) 确定互译文本及文本间相似度分析方法、装置及设备
CN106339381B (zh) 一种信息处理方法及装置
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN107451215B (zh) 特征文本抽取方法及装置
EP3719676A1 (en) Language processing method and device

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131211