CN108108425A - 文本处理比较方法以及装置 - Google Patents

文本处理比较方法以及装置 Download PDF

Info

Publication number
CN108108425A
CN108108425A CN201711360822.0A CN201711360822A CN108108425A CN 108108425 A CN108108425 A CN 108108425A CN 201711360822 A CN201711360822 A CN 201711360822A CN 108108425 A CN108108425 A CN 108108425A
Authority
CN
China
Prior art keywords
text data
file
text
data
log information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711360822.0A
Other languages
English (en)
Inventor
贺燕超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Snail Digital Technology Co Ltd
Original Assignee
Suzhou Snail Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Snail Digital Technology Co Ltd filed Critical Suzhou Snail Digital Technology Co Ltd
Priority to CN201711360822.0A priority Critical patent/CN108108425A/zh
Publication of CN108108425A publication Critical patent/CN108108425A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种该文本处理比较方法及装置,该方法包括以下步骤:(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;(4)输出比对结果。通过第一文本数据和第二文本数据进行比对,简化测试人员工作方式,更直接准确的看到检测数据,以到达减少人力成本,时间成本,减少误差的目的;最后对比两份数据对比差异,如果无差异内容,说明人工检出文件内容完整无误。有差异内容需要再次检出人工检出文件夹内容。

Description

文本处理比较方法以及装置
技术领域
本发明属于信息处理技术领域,尤其是涉及一种文本处理比较方法以及设备。
背景技术
因为工作特殊性,只能由人工检出文件夹差异内容,和原版本库资源文件比较,需要确认内容是否缺失,如果有确实并指出缺失内容。版本库提交内容较多,提交记录多达上千,上万次,每次需要单独取出这些文件,有可能造成遗漏缺失,人工校对,花费时间较多。
在中国专利文献CN101582081A公开了一种数据比对的方法及装置,该方法具体包含以下处理步骤:(1)采集原始数据,生成比对数据和被比对数据;(2)将比对数据读入内存;(3)逐条读取被比对数据,与内存中的比对数据比较,输出比较结果。
上述公开的技术方案首先采集原始数据,生成比对和被比对的两部分数据,进行比对时先将比对数据读入内存,然后逐条读取被比对数据,与内存中的比对数据比较,偷出比较结果。如此,原始数据经过处理生成比对和被比对数据,将比对数据读入内存,逐条读取被比对数据,与内存中的比对数据比较,可以提高了数据比对效率。
但是采用上述专利文献中公开的技术方案并不适用于检测人工检出文件夹是否有差异内容。
发明内容
本发明要解决的技术问题是,提供一种用于检测人工检出文件夹是否有差异内容,且比对效率高的文本处理比较方法。
为解决上述技术问题,本发明采用的技术方案是:该文本处理比较方法,其特征在于,包括以下步骤:
(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;
(4)输出比对结果。
通过对人工检出文件夹内所有的文件夹和文件的全路径和文件名称进行处理,形成第一文本数据,以及对于从版本库获取的提交日志信息进行处理形成第二文本数据,通过全部由软件工具来完成,软件工具可以采用现有的,简化测试人员工作方式,更直接准确的看到检测数据,以到达减少人力成本,时间成本,减少误差的目的;最后对比两份数据对比差异,如果无差异内容,说明人工检出文件内容完整无误。有差异内容需要再次检出人工检出文件夹内容。
优选的方案是,在所述步骤(1)中,填入文件夹路径后,点击搜索文本按钮,通过递归算法,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储于final.txt文本中形成第一文本数据。
优选的方案是,在所述步骤(2)中,所获取的提交日志信息为svn版本提交日志信息,记录在svn.txt文件中,同时选择对应的版本信息,点击整理svn按钮,进行字符串分割处理及重排序,形成第二文本数据。
优选的方案是,在所述步骤(2)中,所获取的提交日志信息来自于版本库,版本库提交日志因提交路径多文件多,通过正则表达算法,排除无用文件及重复文件记录,具体排除文件规则,要根据实际项目需求添加。
优选的方案是,在所述步骤(3)中,根据所述第一文本数据中的人工路径名称数据,以及所述第二文本数据中的日志名称数据,进行比较,核查是否有缺失差异内容。
本发明要解决的另一个问题是,提供一种用于文本处理比较的装置,包括:
第一处理单元,用于存储将从搜索路径位置填入文件夹路径,获取到的人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
第二处理单元,用于存储获取到的提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
比较单元,将第一文本数据中的每项文本数据信息与第二文本数据中的文本数据信息进行比较;
结果输出单元,输出差异信息并标记。
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1是本发明文本处理比较方法的流程示意图;
图2是本发明文本处理比较方法的具体操作流程图;
图3是本发明的用于文本处理比较的装置结构示意图。
具体实施方式
如图1所示,本发明的文本处理比较方法包括以下步骤:
(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;
(4)输出比对结果。
具体的操作流程如图2所示,针对人工检出文件夹内容、提交日志路径名称数据分别采用文本处理工具整合数据,形成处理完成人工路径名称数据的第一文本数据,以及处理完成日志路径名称数据的第二文本数据,再将二者进行路径名称数据比较,得出缺失差异数据结果。
另外,在所述步骤(1)中,填入文件夹路径后,点击搜索文本按钮,通过递归算法,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储于final.txt文本中形成第一文本数据。
在所述步骤(2)中,所获取的提交日志信息为svn版本提交日志信息,记录在svn.txt文件中,同时选择对应的版本信息,点击整理svn按钮,进行字符串分割处理及重排序,形成第二文本数据。
在所述步骤(2)中,所获取的提交日志信息来自于版本库,版本库提交日志因提交路径多文件多,通过正则表达算法,排除无用文件及重复文件记录,具体排除文件规则,要根据实际项目需求添加。
在所述步骤(3)中,根据所述第一文本数据中的人工路径名称数据,以及所述第二文本数据中的日志名称数据,进行比较,核查是否有缺失差异内容。
如图3所示,用于文本处理比较的装置,包括:
第一处理单元,用于存储将从搜索路径位置填入文件夹路径,获取到的人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
第二处理单元,用于存储获取到的提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
比较单元,将第一文本数据中的每项文本数据信息与第二文本数据中的文本数据信息进行比较;
结果输出单元,输出差异信息并标记。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (6)

1.一种文本处理比较方法,其特征在于,包括以下步骤:
(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;
(4)输出比对结果。
2.根据权利要求1所述的文本处理比较方法,其特征在于,在所述步骤(1)中,填入文件夹路径后,点击搜索文本按钮,通过递归算法,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储于final.txt文本中形成第一文本数据。
3.根据权利要求1所述的文本处理比较方法,其特征在于,在所述步骤(2)中,所获取的提交日志信息为svn版本提交日志信息,记录在svn.txt文件中,同时选择对应的版本信息,点击整理svn按钮,进行字符串分割处理及重排序,形成第二文本数据。
4.根据权利要求3所述的文本处理比较方法,其特征在于,在所述步骤(2)中,所获取的提交日志信息来自于版本库,版本库提交日志因提交路径多文件多,通过正则表达算法,排除无用文件及重复文件记录,具体排除文件规则,要根据实际项目需求添加。
5.根据权利要求4所述的文本处理比较方法,其特征在于,在所述步骤(3)中,根据所述第一文本数据中的人工路径名称数据,以及所述第二文本数据中的日志名称数据,进行比较,核查是否有缺失差异内容。
6.一种用于文本处理比较的装置,其特征在于,包括:
第一处理单元,用于存储将从搜索路径位置填入文件夹路径,获取到的人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
第二处理单元,用于存储获取到的提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
比较单元,将第一文本数据中的每项文本数据信息与第二文本数据中的文本数据信息进行比较;
结果输出单元,输出差异信息并标记。
CN201711360822.0A 2017-12-18 2017-12-18 文本处理比较方法以及装置 Pending CN108108425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711360822.0A CN108108425A (zh) 2017-12-18 2017-12-18 文本处理比较方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711360822.0A CN108108425A (zh) 2017-12-18 2017-12-18 文本处理比较方法以及装置

Publications (1)

Publication Number Publication Date
CN108108425A true CN108108425A (zh) 2018-06-01

Family

ID=62216520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711360822.0A Pending CN108108425A (zh) 2017-12-18 2017-12-18 文本处理比较方法以及装置

Country Status (1)

Country Link
CN (1) CN108108425A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829843A (zh) * 2018-06-20 2018-11-16 姜锋 一种文件数据存储方法及装置
CN109213477A (zh) * 2018-09-25 2019-01-15 郑州云海信息技术有限公司 一种实现软件线路差异自动对比的方法和装置
CN110292775A (zh) * 2019-07-01 2019-10-01 网易(杭州)网络有限公司 获取差异数据的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221304A (ja) * 1995-02-17 1996-08-30 Toshiba Corp ファイルシステム及びそのテキストファイル比較方法
CN102693302A (zh) * 2012-05-21 2012-09-26 浙江省公众信息产业有限公司 快速文件比对方法、系统及客户端
CN103942143A (zh) * 2014-04-09 2014-07-23 烽火通信科技股份有限公司 一种基于版本库比较的PC-Lint代码检查结果筛选方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221304A (ja) * 1995-02-17 1996-08-30 Toshiba Corp ファイルシステム及びそのテキストファイル比較方法
CN102693302A (zh) * 2012-05-21 2012-09-26 浙江省公众信息产业有限公司 快速文件比对方法、系统及客户端
CN103942143A (zh) * 2014-04-09 2014-07-23 烽火通信科技股份有限公司 一种基于版本库比较的PC-Lint代码检查结果筛选方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829843A (zh) * 2018-06-20 2018-11-16 姜锋 一种文件数据存储方法及装置
CN109213477A (zh) * 2018-09-25 2019-01-15 郑州云海信息技术有限公司 一种实现软件线路差异自动对比的方法和装置
CN109213477B (zh) * 2018-09-25 2021-07-06 郑州云海信息技术有限公司 一种实现软件线路差异自动对比的方法和装置
CN110292775A (zh) * 2019-07-01 2019-10-01 网易(杭州)网络有限公司 获取差异数据的方法及装置

Similar Documents

Publication Publication Date Title
CN101944094B (zh) 网页信息提取方法和装置
JP6672292B2 (ja) 重複ウェブページを除去する方法および装置
CN110688349B (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
US8190632B2 (en) Computer product, information retrieving apparatus, and information retrieving method
CN108108425A (zh) 文本处理比较方法以及装置
CN103473171A (zh) 一种基于函数调用路径的覆盖率动态跟踪方法及装置
WO2008053583A1 (fr) Procédé et programme de recherche de séquence de bits
CN106960058A (zh) 一种网页结构变更检测方法及系统
KR20140053888A (ko) 판식 파일중 구조화 정보 획득방법 및 장치
CN105068889B (zh) 恢复Ext3/Ext4中已彻底删除文件的方法
CN107943929B (zh) 基于dom树抽象的包装器自动生成方法
CN106909600A (zh) 用户背景信息的收集方法及装置
CN111026815A (zh) 基于用户辅助修正下的实体对特定关系抽取方法
CN100356392C (zh) 一种字符识别的后处理方法
CN103970792A (zh) 一种基于索引进行文件比对的方法和装置
CN108182181B (zh) 一种基于混合相似度的大众贡献合并请求重复性检测方法
CN101425141B (zh) 图像识别装置和图像识别方法
CN112286799B (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN110020640A (zh) 一种纠正身份证信息的方法及终端
CN103902578B (zh) 一种网页信息抽取方法和装置
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
TWI285849B (en) Optical character recognition device, document searching system, and document searching program
US20130144799A1 (en) Computing device and method for extracting patent rejection information
CN115577694B (zh) 标准编写的智能推荐方法
CN114968663B (zh) 一种数据库内容恢复方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180601