CN108108425A - 文本处理比较方法以及装置 - Google Patents
文本处理比较方法以及装置 Download PDFInfo
- Publication number
- CN108108425A CN108108425A CN201711360822.0A CN201711360822A CN108108425A CN 108108425 A CN108108425 A CN 108108425A CN 201711360822 A CN201711360822 A CN 201711360822A CN 108108425 A CN108108425 A CN 108108425A
- Authority
- CN
- China
- Prior art keywords
- text data
- file
- text
- data
- log information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000052 comparative effect Effects 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000012795 verification Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 7
- 206010021703 Indifference Diseases 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种该文本处理比较方法及装置,该方法包括以下步骤:(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;(4)输出比对结果。通过第一文本数据和第二文本数据进行比对,简化测试人员工作方式,更直接准确的看到检测数据,以到达减少人力成本,时间成本,减少误差的目的;最后对比两份数据对比差异,如果无差异内容,说明人工检出文件内容完整无误。有差异内容需要再次检出人工检出文件夹内容。
Description
技术领域
本发明属于信息处理技术领域,尤其是涉及一种文本处理比较方法以及设备。
背景技术
因为工作特殊性,只能由人工检出文件夹差异内容,和原版本库资源文件比较,需要确认内容是否缺失,如果有确实并指出缺失内容。版本库提交内容较多,提交记录多达上千,上万次,每次需要单独取出这些文件,有可能造成遗漏缺失,人工校对,花费时间较多。
在中国专利文献CN101582081A公开了一种数据比对的方法及装置,该方法具体包含以下处理步骤:(1)采集原始数据,生成比对数据和被比对数据;(2)将比对数据读入内存;(3)逐条读取被比对数据,与内存中的比对数据比较,输出比较结果。
上述公开的技术方案首先采集原始数据,生成比对和被比对的两部分数据,进行比对时先将比对数据读入内存,然后逐条读取被比对数据,与内存中的比对数据比较,偷出比较结果。如此,原始数据经过处理生成比对和被比对数据,将比对数据读入内存,逐条读取被比对数据,与内存中的比对数据比较,可以提高了数据比对效率。
但是采用上述专利文献中公开的技术方案并不适用于检测人工检出文件夹是否有差异内容。
发明内容
本发明要解决的技术问题是,提供一种用于检测人工检出文件夹是否有差异内容,且比对效率高的文本处理比较方法。
为解决上述技术问题,本发明采用的技术方案是:该文本处理比较方法,其特征在于,包括以下步骤:
(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;
(4)输出比对结果。
通过对人工检出文件夹内所有的文件夹和文件的全路径和文件名称进行处理,形成第一文本数据,以及对于从版本库获取的提交日志信息进行处理形成第二文本数据,通过全部由软件工具来完成,软件工具可以采用现有的,简化测试人员工作方式,更直接准确的看到检测数据,以到达减少人力成本,时间成本,减少误差的目的;最后对比两份数据对比差异,如果无差异内容,说明人工检出文件内容完整无误。有差异内容需要再次检出人工检出文件夹内容。
优选的方案是,在所述步骤(1)中,填入文件夹路径后,点击搜索文本按钮,通过递归算法,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储于final.txt文本中形成第一文本数据。
优选的方案是,在所述步骤(2)中,所获取的提交日志信息为svn版本提交日志信息,记录在svn.txt文件中,同时选择对应的版本信息,点击整理svn按钮,进行字符串分割处理及重排序,形成第二文本数据。
优选的方案是,在所述步骤(2)中,所获取的提交日志信息来自于版本库,版本库提交日志因提交路径多文件多,通过正则表达算法,排除无用文件及重复文件记录,具体排除文件规则,要根据实际项目需求添加。
优选的方案是,在所述步骤(3)中,根据所述第一文本数据中的人工路径名称数据,以及所述第二文本数据中的日志名称数据,进行比较,核查是否有缺失差异内容。
本发明要解决的另一个问题是,提供一种用于文本处理比较的装置,包括:
第一处理单元,用于存储将从搜索路径位置填入文件夹路径,获取到的人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
第二处理单元,用于存储获取到的提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
比较单元,将第一文本数据中的每项文本数据信息与第二文本数据中的文本数据信息进行比较;
结果输出单元,输出差异信息并标记。
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1是本发明文本处理比较方法的流程示意图;
图2是本发明文本处理比较方法的具体操作流程图;
图3是本发明的用于文本处理比较的装置结构示意图。
具体实施方式
如图1所示,本发明的文本处理比较方法包括以下步骤:
(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;
(4)输出比对结果。
具体的操作流程如图2所示,针对人工检出文件夹内容、提交日志路径名称数据分别采用文本处理工具整合数据,形成处理完成人工路径名称数据的第一文本数据,以及处理完成日志路径名称数据的第二文本数据,再将二者进行路径名称数据比较,得出缺失差异数据结果。
另外,在所述步骤(1)中,填入文件夹路径后,点击搜索文本按钮,通过递归算法,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储于final.txt文本中形成第一文本数据。
在所述步骤(2)中,所获取的提交日志信息为svn版本提交日志信息,记录在svn.txt文件中,同时选择对应的版本信息,点击整理svn按钮,进行字符串分割处理及重排序,形成第二文本数据。
在所述步骤(2)中,所获取的提交日志信息来自于版本库,版本库提交日志因提交路径多文件多,通过正则表达算法,排除无用文件及重复文件记录,具体排除文件规则,要根据实际项目需求添加。
在所述步骤(3)中,根据所述第一文本数据中的人工路径名称数据,以及所述第二文本数据中的日志名称数据,进行比较,核查是否有缺失差异内容。
如图3所示,用于文本处理比较的装置,包括:
第一处理单元,用于存储将从搜索路径位置填入文件夹路径,获取到的人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
第二处理单元,用于存储获取到的提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
比较单元,将第一文本数据中的每项文本数据信息与第二文本数据中的文本数据信息进行比较;
结果输出单元,输出差异信息并标记。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种文本处理比较方法,其特征在于,包括以下步骤:
(1)在搜索路径位置,填入文件夹路径,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
(2)获取提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
(3)比较第一文本数据与第二文本数据,核查是否有缺失差异内容;
(4)输出比对结果。
2.根据权利要求1所述的文本处理比较方法,其特征在于,在所述步骤(1)中,填入文件夹路径后,点击搜索文本按钮,通过递归算法,获取人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储于final.txt文本中形成第一文本数据。
3.根据权利要求1所述的文本处理比较方法,其特征在于,在所述步骤(2)中,所获取的提交日志信息为svn版本提交日志信息,记录在svn.txt文件中,同时选择对应的版本信息,点击整理svn按钮,进行字符串分割处理及重排序,形成第二文本数据。
4.根据权利要求3所述的文本处理比较方法,其特征在于,在所述步骤(2)中,所获取的提交日志信息来自于版本库,版本库提交日志因提交路径多文件多,通过正则表达算法,排除无用文件及重复文件记录,具体排除文件规则,要根据实际项目需求添加。
5.根据权利要求4所述的文本处理比较方法,其特征在于,在所述步骤(3)中,根据所述第一文本数据中的人工路径名称数据,以及所述第二文本数据中的日志名称数据,进行比较,核查是否有缺失差异内容。
6.一种用于文本处理比较的装置,其特征在于,包括:
第一处理单元,用于存储将从搜索路径位置填入文件夹路径,获取到的人工检出文件夹内所有的文件夹和文件的全路径和文件名称,并产生存储形成第一文本数据;
第二处理单元,用于存储获取到的提交日志信息,并将获取到的提交日志信息记录形成第二文本数据;
比较单元,将第一文本数据中的每项文本数据信息与第二文本数据中的文本数据信息进行比较;
结果输出单元,输出差异信息并标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711360822.0A CN108108425A (zh) | 2017-12-18 | 2017-12-18 | 文本处理比较方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711360822.0A CN108108425A (zh) | 2017-12-18 | 2017-12-18 | 文本处理比较方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108108425A true CN108108425A (zh) | 2018-06-01 |
Family
ID=62216520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711360822.0A Pending CN108108425A (zh) | 2017-12-18 | 2017-12-18 | 文本处理比较方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108425A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829843A (zh) * | 2018-06-20 | 2018-11-16 | 姜锋 | 一种文件数据存储方法及装置 |
CN109213477A (zh) * | 2018-09-25 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种实现软件线路差异自动对比的方法和装置 |
CN110292775A (zh) * | 2019-07-01 | 2019-10-01 | 网易(杭州)网络有限公司 | 获取差异数据的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221304A (ja) * | 1995-02-17 | 1996-08-30 | Toshiba Corp | ファイルシステム及びそのテキストファイル比較方法 |
CN102693302A (zh) * | 2012-05-21 | 2012-09-26 | 浙江省公众信息产业有限公司 | 快速文件比对方法、系统及客户端 |
CN103942143A (zh) * | 2014-04-09 | 2014-07-23 | 烽火通信科技股份有限公司 | 一种基于版本库比较的PC-Lint代码检查结果筛选方法 |
-
2017
- 2017-12-18 CN CN201711360822.0A patent/CN108108425A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221304A (ja) * | 1995-02-17 | 1996-08-30 | Toshiba Corp | ファイルシステム及びそのテキストファイル比較方法 |
CN102693302A (zh) * | 2012-05-21 | 2012-09-26 | 浙江省公众信息产业有限公司 | 快速文件比对方法、系统及客户端 |
CN103942143A (zh) * | 2014-04-09 | 2014-07-23 | 烽火通信科技股份有限公司 | 一种基于版本库比较的PC-Lint代码检查结果筛选方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829843A (zh) * | 2018-06-20 | 2018-11-16 | 姜锋 | 一种文件数据存储方法及装置 |
CN109213477A (zh) * | 2018-09-25 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种实现软件线路差异自动对比的方法和装置 |
CN109213477B (zh) * | 2018-09-25 | 2021-07-06 | 郑州云海信息技术有限公司 | 一种实现软件线路差异自动对比的方法和装置 |
CN110292775A (zh) * | 2019-07-01 | 2019-10-01 | 网易(杭州)网络有限公司 | 获取差异数据的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101944094B (zh) | 网页信息提取方法和装置 | |
JP6672292B2 (ja) | 重複ウェブページを除去する方法および装置 | |
CN110688349B (zh) | 一种文档整理方法、装置、终端及计算机可读存储介质 | |
US8190632B2 (en) | Computer product, information retrieving apparatus, and information retrieving method | |
CN108108425A (zh) | 文本处理比较方法以及装置 | |
CN103473171A (zh) | 一种基于函数调用路径的覆盖率动态跟踪方法及装置 | |
WO2008053583A1 (fr) | Procédé et programme de recherche de séquence de bits | |
CN106960058A (zh) | 一种网页结构变更检测方法及系统 | |
KR20140053888A (ko) | 판식 파일중 구조화 정보 획득방법 및 장치 | |
CN105068889B (zh) | 恢复Ext3/Ext4中已彻底删除文件的方法 | |
CN107943929B (zh) | 基于dom树抽象的包装器自动生成方法 | |
CN106909600A (zh) | 用户背景信息的收集方法及装置 | |
CN111026815A (zh) | 基于用户辅助修正下的实体对特定关系抽取方法 | |
CN100356392C (zh) | 一种字符识别的后处理方法 | |
CN103970792A (zh) | 一种基于索引进行文件比对的方法和装置 | |
CN108182181B (zh) | 一种基于混合相似度的大众贡献合并请求重复性检测方法 | |
CN101425141B (zh) | 图像识别装置和图像识别方法 | |
CN112286799B (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN110020640A (zh) | 一种纠正身份证信息的方法及终端 | |
CN103902578B (zh) | 一种网页信息抽取方法和装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
TWI285849B (en) | Optical character recognition device, document searching system, and document searching program | |
US20130144799A1 (en) | Computing device and method for extracting patent rejection information | |
CN115577694B (zh) | 标准编写的智能推荐方法 | |
CN114968663B (zh) | 一种数据库内容恢复方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180601 |