CN110196952B - 程序代码的搜索处理方法、装置、设备及存储介质 - Google Patents

程序代码的搜索处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110196952B
CN110196952B CN201910465618.8A CN201910465618A CN110196952B CN 110196952 B CN110196952 B CN 110196952B CN 201910465618 A CN201910465618 A CN 201910465618A CN 110196952 B CN110196952 B CN 110196952B
Authority
CN
China
Prior art keywords
code
file
files
search
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910465618.8A
Other languages
English (en)
Other versions
CN110196952A (zh
Inventor
刘志伟
于澔
白伟
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu com Times Technology Beijing Co Ltd
Original Assignee
Baidu com Times Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu com Times Technology Beijing Co Ltd filed Critical Baidu com Times Technology Beijing Co Ltd
Priority to CN201910465618.8A priority Critical patent/CN110196952B/zh
Publication of CN110196952A publication Critical patent/CN110196952A/zh
Application granted granted Critical
Publication of CN110196952B publication Critical patent/CN110196952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种程序代码的搜索处理方法、装置、设备及存储介质。其中,该方法包括:获取与用户的代码搜索条件匹配的搜索结果数据,所述搜索结果数据中包括多个代码文件;在所述搜索结果数据中,对重复的代码文件进行筛除处理;将筛除处理后的所述搜索结果数据,反馈给所述用户。本发明实施例可以在代码搜索引擎的搜索结果中识别重复代码文件,可以从识别出的众多重复代码文件中,选择一个代码文件进行展现,不展示其他重复的代码文件,提升了代码搜索引擎的代码搜索结果质量,节省了用户使用代码搜索引擎的成本,提高了用户使用代码搜索引擎使用效率。

Description

程序代码的搜索处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及互联网技术,尤其涉及一种程序代码的搜索处理方法、装置、设备及存储介质。
背景技术
随着互联网的兴起,通用搜索引擎为大家所熟知,能够提供各类的相关信息。而基于满足软件开发人员的需求,出现了代码搜索引擎。代码搜索引擎能够根据软件开发人员的代码搜索请求,提供相关代码文件供软件开发人员参考、复用或者直接使用。在软件开发过程中,代码搜索引擎可以一定程度上大大提高软件的开发质量和效率。
发明人在实现本发明的过程中,发现网络中的代码,例如,企业内网中的代码以及开源社区中的代码,都会存在大量的重复代码。而且重复代码的存在形式也是多种多样的。例如:存放路径或者文件名称不同,但是内容相同,内容不完全相同但是大部分内容一致,或者代码中的局部内容发送了重叠等等。因为代码搜索引擎呈现的结果条目是有限的,重复代码的出现,降低了代码搜索结果质量,影响了用户体验。而且搜索重复代码会浪费计算资源,降低代码搜索引擎的性能。
发明内容
本发明实施例提供一种程序代码的搜索处理方法、装置、设备及存储介质,以实现优化现有的程序代码搜索方法,提高搜索结果质量和代码搜索引擎的性能。
第一方面,本发明实施例提供了一种程序代码的搜索处理,包括:
获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件;
在搜索结果数据中,对重复的代码文件进行筛除处理;
将筛除处理后的搜索结果数据,反馈给用户。
第二方面,本发明实施例还提供了一种程序代码的搜索处理装置,包括:
数据获取模块,用于获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件;
文件筛除模块,用于在搜索结果数据中,对重复的代码文件进行筛除处理;
数据反馈模块,用于将筛除处理后的搜索结果数据,反馈给用户。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例所述的程序代码的搜索处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明实施例所述的程序代码的搜索处理方法。
本发明实施例的技术方案,通过获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件,然后在搜索结果数据中,对重复的代码文件进行筛除处理,并将筛除处理后的搜索结果数据,反馈给用户,解决了网络中存在的大量重复代码降低了代码搜索结果质量,影响用户体验,而且搜索重复代码浪费计算资源,降低代码搜索引擎性能的问题,可以在代码搜索引擎的搜索结果中识别重复代码文件,可以从识别出的众多重复代码文件中,选择一个代码文件进行展现,不展示其他重复的代码文件,提升了代码搜索引擎的代码搜索结果质量,节省了用户使用代码搜索引擎的成本,提高了用户使用代码搜索引擎使用效率。
附图说明
图1为本发明实施例一提供的一种程序代码的搜索处理方法的流程图;
图2为本发明实施例二提供的一种程序代码的搜索处理方法的流程图;
图3为本发明实施例三提供的一种程序代码的搜索处理方法的流程图;
图4为本发明实施例四提供的一种程序代码的搜索处理方法的流程图;
图5为本发明实施例五提供的一种程序代码的搜索处理装置的结构示意图;
图6为本发明实施例六提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种程序代码的搜索处理方法的流程图,本实施例可适用于对程序代码进行搜索处理的情况,该方法可以由本发明实施例提供的程序代码的搜索处理装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在程序代码的搜索处理设备中。程序代码的搜索处理设备包括但不限定于计算机等。如图1所示,本实施例的方法具体包括:
步骤101、获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件。
其中,用户使用终端设备通过网络连接访问代码搜索引擎,并输入代码搜索条件。根据用户输入的代码搜索条件,在根据至少一个代码库的代码文件所建立的索引库中进行搜索,获取与代码搜索条件匹配的搜索结果数据。搜索结果数据是与用户的代码搜索条件匹配的代码文件。搜索结果数据中可以包括多个代码文件。
具体的,代码搜索条件中包含用户想要搜索的代码文件的相关信息。索引库中对应存储着代码文件以及与代码文件匹配的相关信息。在索引库中存储的与各个代码文件匹配的相关信息中进行搜索,查询与用户想要搜索的代码文件的相关信息一致的相关信息,并获取与用户想要搜索的代码文件的相关信息一致的相关信息所匹配的代码文件,作为与代码搜索条件匹配的搜索结果数据。
在一个具体实施例中,代码搜索条件为搜索词。索引库中对应存储着代码文件以及与代码文件匹配的关键词。具体的,根据用户输入的搜索词,在索引库中存储的全部关键词中进行搜索,查询与搜索词一致的关键词。获取与搜索词一致的关键词所匹配的代码文件,作为与代码搜索条件匹配的搜索结果数据。
步骤102、在搜索结果数据中,对重复的代码文件进行筛除处理。
在一个具体实例中,在搜索结果数据中,对重复的代码文件进行筛除处理,可以包括:比较搜索结果数据中任意两个代码文件的文件信息摘要,如果存在文件信息摘要相同的至少两个重复代码文件,则在重复代码文件中选择目标代码文件;筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
其中,预先通过消息摘要算法第五版(Message-Digest Algorithm 5,MD5),计算每一个代码文件的MD5值,即文件信息摘要,并将代码文件以及代码文件的文件信息摘要对应存储于索引库中。
MD5是一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值,用于确保信息传输完整一致。MD5可以为任何文件(不管其大小、格式、数量)产生一个同样独一无二的“数字指纹”。文件的文件信息摘要就像是文件的“数字指纹”。如果任何人对文件做了任何改动,文件的文件信息摘要也就是对应的“数字指纹”都会发生变化。如果两个文件的文件信息摘要是相同的,则这两个文件的文件内容完全重复。
比较任意两个代码文件的文件信息摘要,如果两个代码文件的文件信息摘要是相同的,则可以确定这两个代码文件是两个重复代码文件。这两个代码文件的文件内容完全重复。如果存在文件信息摘要相同的至少两个重复代码文件,则在重复代码文件中选择一个代码文件作为目标代码文件,筛除重复代码文件中,除去目标代码文件之外的其他代码文件。由此,可以至少两个重复代码文件中,仅保留一个代码文件,除去与该代码文件的文件内容完全重复的其他代码文件。
在另一个具体实例中,在搜索结果数据中,对重复的代码文件进行筛除处理,包括:比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度;如果存在满足相似度计算条件的至少两个重复代码文件,则在重复代码文件中选择目标代码文件;筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
其中,信息维度包括:代码文件存储路径、代码文件内容以及代码片段摘要中的一个或者多个。可选的,预先通过相似度算法,分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度:代码文件存储路径相似度、代码文件内容相似度以及代码片段摘要相似度,并在索引库中存储计算结果。
相似度计算条件可以为相似度大于预设相似度阈值。比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度。如果有至少两个代码文件在至少一个信息维度上的相似度大于预设相似度阈值,则可以判定至少两个代码文件为重复代码文件。例如,预设相似度阈值为90%。如果有至少两个代码文件在至少一个信息维度上的相似度大于90%,则可以判定至少两个代码文件为重复代码文件。如果存在满足相似度计算条件的至少两个重复代码文件,则在重复代码文件中选择目标代码文件,并筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
可选的,在重复代码文件中选择目标代码文件,可以包括:获取用于存储各重复代码文件的目标代码库,并根据至少一项重要度因子对各目标代码库进行重要度排序;根据对目标代码库的重要度排序结果,在重复代码文件中选择目标代码文件。
重要度因子可以包括:代码库的被依赖次数、代码库的重要性标签以及代码库是否开放用户写权限。
如果重要度排序结果中仅包括一个重要度最高的目标代码库,则获取与重要度最高的目标代码库对应的代码文件作为目标代码文件。如果重要度排序结果中包括至少两个重要度最高的目标代码库,则获取与至少两个重要度最高的目标代码库对应的代码文件作为备选代码文件;获取文件存储路径最短的一个备选代码文件作为目标代码文件。
步骤103、将筛除处理后的搜索结果数据,反馈给用户。
其中,将筛除处理后的搜索结果数据反馈给用户的终端设备,以使终端设备将筛除处理后的搜索结果数据展现给用户。
本发明实施例提供了一种程序代码的搜索处理方法,通过获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件,然后在搜索结果数据中,对重复的代码文件进行筛除处理,并将筛除处理后的搜索结果数据,反馈给用户,解决了网络中存在的大量重复代码降低了代码搜索结果质量,影响用户体验,而且搜索重复代码浪费计算资源,降低代码搜索引擎性能的问题,可以在代码搜索引擎的搜索结果中识别重复代码文件,可以从识别出的众多重复代码文件中,选择一个代码文件进行展现,不展示其他重复的代码文件,提升了代码搜索引擎的代码搜索结果质量,节省了用户使用代码搜索引擎的成本,提高了用户使用代码搜索引擎使用效率。
实施例二
图2为本发明实施例二提供的一种程序代码的搜索处理方法的流程图。本实施例可以与上述一个或者多个实施例中各个可选方案结合,在本实施例中,获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件,可以包括:获取用户通过代码搜索引擎输入的代码搜索条件;根据代码搜索条件,在根据至少一个代码库的代码文件所建立的索引库中进行搜索,获取与代码搜索条件匹配的搜索结果数据。
以及,在搜索结果数据中,对重复的代码文件进行筛除处理,可以包括:比较搜索结果数据中任意两个代码文件的文件信息摘要,如果存在文件信息摘要相同的至少两个重复代码文件,则在重复代码文件中选择目标代码文件;筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
如图2所示,本实施例的方法具体包括:
步骤201、获取用户通过代码搜索引擎输入的代码搜索条件。
其中,用户使用终端设备通过网络连接访问代码搜索引擎,并输入代码搜索条件。代码搜索条件中包含用户想要搜索的代码文件的相关信息。
步骤202、根据代码搜索条件,在根据至少一个代码库的代码文件所建立的索引库中进行搜索,获取与代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件。
其中,索引库中对应存储着代码文件以及与代码文件匹配的相关信息。在索引库中存储的与各个代码文件匹配的相关信息中进行搜索,查询与用户想要搜索的代码文件的相关信息一致的相关信息,并获取与用户想要搜索的代码文件的相关信息一致的相关信息所匹配的代码文件,作为与代码搜索条件匹配的搜索结果数据。
步骤203、比较搜索结果数据中任意两个代码文件的文件信息摘要,如果存在文件信息摘要相同的至少两个重复代码文件,则在重复代码文件中选择目标代码文件。
其中,预先通过MD5计算每一个代码文件的MD5值,即文件信息摘要,并将代码文件以及代码文件的文件信息摘要对应存储于索引库中。各代码文件的文件信息摘要是不同的。如果两个代码文件的文件信息摘要是相同的,则这两个代码文件的文件内容完全重复。
获取各代码文件的文件信息摘要,比较搜索结果数据中任意两个代码文件的文件信息摘要,如果存在文件信息摘要相同的至少两个重复代码文件,则在重复代码文件中选择目标代码文件。
可选的,在重复代码文件中选择目标代码文件,可以包括:获取用于存储各重复代码文件的目标代码库,并根据至少一项重要度因子对各目标代码库进行重要度排序;根据对目标代码库的重要度排序结果,在重复代码文件中选择目标代码文件。
其中,重要度因子可以包括:代码库的被依赖次数、代码库的重要性标签以及代码库是否开放用户写权限。重要度因子是用于衡量代码库的重要度的标准。重要度高的代码库是高质量代码库。代码库的被依赖次数越多,代码库的重要度越高。代码库的重要性标签是人工标注的代码库重要性信息。例如,重要性标签为数字标签。代码库的重要性标签为“1”的代码库是重要代码库。代码库的重要性标签为“2”的代码库是普通代码库。重要代码库的重要度高于普通代码库。开放用户写权限的代码库的重要度比没有开放用户写权限的代码库高。根据至少一项重要度因子对各目标代码库进行重要度排序。按照重要度从高到低对各目标代码库进行重要度排序,得到重要度排序结果。
如果重要度排序结果中仅包括一个重要度最高的目标代码库,则获取与重要度最高的目标代码库对应的代码文件作为目标代码文件。由此,可以对重复代码文件所在的代码库进行判断,只展示一个高质量代码库的代码文件。
如果重要度排序结果中包括至少两个重要度最高的目标代码库,则获取与至少两个重要度最高的目标代码库对应的代码文件作为备选代码文件,然后获取文件存储路径最短的一个备选代码文件作为目标代码文件。
步骤204、筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
其中,在文件信息摘要相同的至少两个重复代码文件中,仅保留目标代码文件,除去目标代码文件之外的其他代码文件。
步骤205、将筛除处理后的搜索结果数据,反馈给用户。
本发明实施例提供了一种程序代码的搜索处理方法,通过比较搜索结果数据中任意两个代码文件的文件信息摘要识别搜索结果数据中的重复代码文件,并在重复代码文件中选择目标代码文件,筛除重复代码文件中,除去目标代码文件之外的其他代码文件,可以根据代码文件的文件信息摘要,在代码搜索引擎的搜索结果中识别重复代码文件,可以从识别出的众多重复代码文件中,选择一个代码文件进行展现,不展示其他重复的代码文件。
实施例三
图3为本发明实施例三提供的一种程序代码的搜索处理方法的流程图。本实施例可以与上述一个或者多个实施例中各个可选方案结合,在本实施例中,在搜索结果数据中,对重复的代码文件进行筛除处理,可以包括:比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度;如果存在满足相似度计算条件的至少两个重复代码文件,则在重复代码文件中选择目标代码文件;筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
如图3所示,本实施例的方法具体包括:
步骤301、获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件。
步骤302、比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度。
其中,信息维度包括:代码文件存储路径、代码文件内容以及代码片段摘要中的一个或者多个。可选的,预先通过相似度算法,分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度:代码文件存储路径相似度、代码文件内容相似度以及代码片段摘要相似度,并在索引库中存储计算结果。
步骤303、如果存在满足相似度计算条件的至少两个重复代码文件,则在重复代码文件中选择目标代码文件。
其中,相似度计算条件可以为相似度大于预设相似度阈值。比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度。如果有至少两个代码文件在至少一个信息维度上的相似度大于预设相似度阈值,则可以判定至少两个代码文件为重复代码文件。例如,预设相似度阈值为90%。如果有至少两个代码文件在至少一个信息维度上的相似度大于90%,则可以判定至少两个代码文件为重复代码文件。
在一个具体实例中,比较搜索结果数据中任意两个代码文件在代码文件存储路径上的相似度。预设相似度阈值为90%。如果存在至少两个代码文件的代码文件存储路径相似度大于90%,则可以判定至少两个代码文件为重复代码文件。
在另一个具体实例中,比较搜索结果数据中任意两个代码文件在代码文件内容上的相似度。预设相似度阈值为90%。如果存在至少两个代码文件的代码文件内容相似度大于90%,则可以判定至少两个代码文件为重复代码文件。
在另一个具体实例中,比较搜索结果数据中任意两个代码文件在代码片段摘要上的相似度。预设相似度阈值为90%。如果存在至少两个代码文件的代码片段摘要相似度大于90%,则可以判定至少两个代码文件为重复代码文件。
可选的,在重复代码文件中选择目标代码文件,可以包括:获取用于存储各重复代码文件的目标代码库,并根据至少一项重要度因子对各目标代码库进行重要度排序;根据对目标代码库的重要度排序结果,在重复代码文件中选择目标代码文件。
其中,重要度因子可以包括:代码库的被依赖次数、代码库的重要性标签以及代码库是否开放用户写权限。重要度因子是用于衡量代码库的重要度的标准。重要度高的代码库是高质量代码库。代码库的被依赖次数越多,代码库的重要度越高。代码库的重要性标签是人工标注的代码库重要性信息。例如,重要性标签为数字标签。代码库的重要性标签为“1”的代码库是重要代码库。代码库的重要性标签为“2”的代码库是普通代码库。重要代码库的重要度高于普通代码库。开放用户写权限的代码库的重要度比没有开放用户写权限的代码库高。根据至少一项重要度因子对各目标代码库进行重要度排序。按照重要度从高到低对各目标代码库进行重要度排序,得到重要度排序结果。
如果重要度排序结果中仅包括一个重要度最高的目标代码库,则获取与重要度最高的目标代码库对应的代码文件作为目标代码文件。由此,可以对重复代码文件所在的代码库进行判断,只展示一个高质量代码库的代码文件。
如果重要度排序结果中包括至少两个重要度最高的目标代码库,则获取与至少两个重要度最高的目标代码库对应的代码文件作为备选代码文件,然后获取文件存储路径最短的一个备选代码文件作为目标代码文件。
步骤304、筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
其中,在满足相似度计算条件的至少两个重复代码文件中,仅保留目标代码文件,除去目标代码文件之外的其他代码文件。
步骤305、将筛除处理后的搜索结果数据,反馈给用户。
本发明实施例提供了一种程序代码的搜索处理方法,通过比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度,并在存在满足相似度计算条件的至少两个重复代码文件时,在重复代码文件中选择目标代码文件,筛除重复代码文件中,除去目标代码文件之外的其他代码文件,可以根据任意两个代码文件在至少一个信息维度上的相似度,在代码搜索引擎的搜索结果中识别重复代码文件,可以从识别出的众多重复代码文件中,选择一个代码文件进行展现,不展示其他重复的代码文件。
实施例四
图4为本发明实施例四提供的一种程序代码的搜索处理方法的流程图。本实施例可以与上述一个或者多个实施例中各个可选方案结合,在本实施例中,在获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件之前,可以还包括:依次获取一个代码库中的一个代码文件作为目标代码文件;如果目标代码文件为软链接文件,则不将目标代码文件存储于索引库中;如果目标代码文件不为软链接文件,则计算目标代码文件的文件信息摘要后,将目标代码文件以及文件信息摘要对应存储于索引库中;返回执行依次获取一个代码库中的一个代码文件作为目标代码文件的操作,直至完成对全部代码库中的全部代码文件的处理;分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度,并在索引库中存储计算结果。
如图4所示,本实施例的方法具体包括:
步骤401、依次获取一个代码库中的一个代码文件作为目标代码文件;如果目标代码文件为软链接文件,则不将目标代码文件存储于索引库中。
其中,依次获取一个代码库中的一个代码文件作为目标代码文件,判断目标代码文件是否是软链接文件。
软链接又叫符号链接。软链接文件包含了另一个文件的路径名。可以是任意文件或目录,可以链接不同文件系统的文件。软链接文件只是其源文件的一个标记,当删除了源文件后,软链接文件不能独立存在,虽然仍保留文件名,但却不能查看软链接文件的内容了。
具体的,如果目标代码文件的用户数据块中存放的内容是另一文件的路径名的指向,则判定目标代码文件是软链接文件,不将目标代码文件存储于索引库中。由此,对软链接文件不进行重复索引,搜索结果数据里不会有软链接文件导致的重复的搜索结果。
步骤402、如果目标代码文件不为软链接文件,则计算目标代码文件的文件信息摘要后,将目标代码文件以及文件信息摘要对应存储于索引库中。
其中,如果目标代码文件的用户数据块中存放的内容不是另一文件的路径名的指向,则判定目标代码文件不是软链接文件,通过MD5计算目标代码文件的文件信息摘要,并将代码文件以及代码文件的文件信息摘要对应存储于索引库中。
步骤403、返回执行依次获取一个代码库中的一个代码文件作为目标代码文件的操作,直至完成对全部代码库中的全部代码文件的处理。
其中,计算每一个代码文件的文件信息摘要,并将代码文件以及代码文件的文件信息摘要对应存储于索引库中。
步骤404、分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度,并在索引库中存储计算结果。
其中,通过相似度算法,分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度:代码文件存储路径相似度、代码文件内容相似度以及代码片段摘要相似度,并在索引库中存储计算结果。
步骤405、获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件。
步骤406、在搜索结果数据中,对重复的代码文件进行筛除处理。
步骤407、将筛除处理后的搜索结果数据,反馈给用户。
本发明实施例提供了一种程序代码的搜索处理方法,通过依次获取一个代码库中的一个代码文件作为目标代码文件,在确定目标代码文件不为软链接文件时,计算目标代码文件的文件信息摘要,将目标代码文件以及文件信息摘要对应存储于索引库中,直至完成对全部代码库中的全部代码文件的处理,以及分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度,并在索引库中存储计算结果,可以除去代码文件中的软链接文件,对软链接文件不进行重复存储,可以计算并存储每一个代码文件的文件信息摘要,便于根据代码文件的文件信息摘要,在代码搜索引擎的搜索结果中识别重复代码文件,可以计算并存储任意两个代码文件在至少一个信息维度上的相似度,便于根据任意两个代码文件在至少一个信息维度上的相似度,在代码搜索引擎的搜索结果中识别重复代码文件。
实施例五
图5为本发明实施例五提供的一种程序代码的搜索处理装置的结构示意图,如图5所示,所述装置包括:数据获取模块501、文件筛除模块502以及数据反馈模块503。
其中,数据获取模块501,用于获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件;文件筛除模块502,用于在搜索结果数据中,对重复的代码文件进行筛除处理;数据反馈模块503,用于将筛除处理后的搜索结果数据,反馈给用户。
本发明实施例提供了一种程序代码的搜索处理装置,通过获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件,然后在搜索结果数据中,对重复的代码文件进行筛除处理,并将筛除处理后的搜索结果数据,反馈给用户,解决了网络中存在的大量重复代码降低了代码搜索结果质量,影响用户体验,而且搜索重复代码浪费计算资源,降低代码搜索引擎性能的问题,可以在代码搜索引擎的搜索结果中识别重复代码文件,可以从识别出的众多重复代码文件中,选择一个代码文件进行展现,不展示其他重复的代码文件,提升了代码搜索引擎的代码搜索结果质量,节省了用户使用代码搜索引擎的成本,提高了用户使用代码搜索引擎使用效率。
在上述各实施例的基础上,数据获取模块501可以包括:条件获取子模块,用于获取用户通过代码搜索引擎输入的代码搜索条件;数据获取子模块,用于根据代码搜索条件,在根据至少一个代码库的代码文件所建立的索引库中进行搜索,获取与代码搜索条件匹配的搜索结果数据。
在上述各实施例的基础上,文件筛除模块502可以包括:第一比较子模块,用于比较搜索结果数据中任意两个代码文件的文件信息摘要,如果存在文件信息摘要相同的至少两个重复代码文件,则在重复代码文件中选择目标代码文件;第一筛除子模块,用于筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
在上述各实施例的基础上,文件筛除模块502可以包括:第二比较子模块,用于比较搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度;文件选择子模块,用于如果存在满足相似度计算条件的至少两个重复代码文件,则在重复代码文件中选择目标代码文件;第二筛除子模块,用于筛除重复代码文件中,除去目标代码文件之外的其他代码文件。
在上述各实施例的基础上,信息维度可以包括:代码文件存储路径、代码文件内容以及代码片段摘要中的一个或者多个。
在上述各实施例的基础上,文件选择子模块可以包括:代码库获取单元,用于获取用于存储各重复代码文件的目标代码库,并根据至少一项重要度因子对各目标代码库进行重要度排序;文件选择单元,用于根据对目标代码库的重要度排序结果,在重复代码文件中选择目标代码文件。
在上述各实施例的基础上,重要度因子可以包括:代码库的被依赖次数、代码库的重要性标签以及代码库是否开放用户写权限。
在上述各实施例的基础上,文件选择单元可以包括:第一获取子单元,用于如果重要度排序结果中仅包括一个重要度最高的目标代码库,则获取与重要度最高的目标代码库对应的代码文件作为目标代码文件;第二获取子单元,用于如果重要度排序结果中包括至少两个重要度最高的目标代码库,则获取与至少两个重要度最高的目标代码库对应的代码文件作为备选代码文件;第三获取子单元,用于获取文件存储路径最短的一个备选代码文件作为目标代码文件。
在上述各实施例的基础上,可以还包括:文件获取模块,用于依次获取一个代码库中的一个代码文件作为目标代码文件;第一存储模块,用于如果目标代码文件为软链接文件,则不将目标代码文件存储于索引库中;第二存储模块,用于如果目标代码文件不为软链接文件,则计算目标代码文件的文件信息摘要后,将目标代码文件以及文件信息摘要对应存储于索引库中;操作返回模块,用于返回执行依次获取一个代码库中的一个代码文件作为目标代码文件的操作,直至完成对全部代码库中的全部代码文件的处理;相似度计算模块,用于分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度,并在索引库中存储计算结果。
上述程序代码的搜索处理装置可执行本发明任意实施例所提供的程序代码的搜索处理方法,具备执行程序代码的搜索处理方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备612的框图。图6显示的计算机设备612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备612以通用计算设备的形式表现。计算机设备612的组件可以包括但不限于:一个或者多个处理器或者处理单元616,系统存储器628,连接不同系统组件(包括系统存储器628和处理单元616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)630和/或高速缓存存储器632。计算机设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。系统存储器628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如系统存储器628中,这样的程序模块642包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信,还可与一个或者多个使得用户能与该计算机设备612交互的设备通信,和/或与使得该计算机设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元616通过运行存储在系统存储器628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的程序代码的搜索处理方法。也即,获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件;在搜索结果数据中,对重复的代码文件进行筛除处理;将筛除处理后的搜索结果数据,反馈给用户。
实施例七
本发明实施例七提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的程序代码的搜索处理方法。也即,获取与用户的代码搜索条件匹配的搜索结果数据,搜索结果数据中包括多个代码文件;在搜索结果数据中,对重复的代码文件进行筛除处理;将筛除处理后的搜索结果数据,反馈给用户。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种程序代码的搜索处理方法,其特征在于,包括:
依次获取一个代码库中的一个代码文件作为目标代码文件;
如果所述目标代码文件为软链接文件,则不将所述目标代码文件存储于索引库中;
如果所述目标代码文件不为软链接文件,则计算所述目标代码文件的文件信息摘要后,将所述目标代码文件以及所述文件信息摘要对应存储于所述索引库中;
返回执行依次获取一个代码库中的一个代码文件作为目标代码文件的操作,直至完成对全部代码库中的全部代码文件的处理;
分别计算所述索引库中任意两个代码文件在至少一个信息维度上的相似度,并在所述索引库中存储计算结果;
获取与用户的代码搜索条件匹配的搜索结果数据,所述搜索结果数据中包括多个代码文件;
在所述搜索结果数据中,对重复的代码文件进行筛除处理;
将筛除处理后的所述搜索结果数据,反馈给所述用户。
2.根据权利要求1所述的方法,其特征在于,获取与用户的代码搜索条件匹配的搜索结果数据,所述搜索结果数据中包括多个代码文件,包括:
获取用户通过代码搜索引擎输入的代码搜索条件;
根据所述代码搜索条件,在根据至少一个代码库的代码文件所建立的索引库中进行搜索,获取与所述代码搜索条件匹配的搜索结果数据。
3.根据权利要求1所述的方法,其特征在于,在所述搜索结果数据中,对重复的代码文件进行筛除处理,包括:
比较所述搜索结果数据中任意两个代码文件的文件信息摘要,如果存在文件信息摘要相同的至少两个重复代码文件,则在所述重复代码文件中选择目标代码文件;
筛除所述重复代码文件中,除去所述目标代码文件之外的其他代码文件。
4.根据权利要求1所述的方法,其特征在于,在所述搜索结果数据中,对重复的代码文件进行筛除处理,包括:
比较所述搜索结果数据中任意两个代码文件在至少一个信息维度上的相似度;
如果存在满足相似度计算条件的至少两个重复代码文件,则在所述重复代码文件中选择目标代码文件;
筛除所述重复代码文件中,除去所述目标代码文件之外的其他代码文件。
5.根据权利要求4所述的方法,其特征在于,所述信息维度包括:代码文件存储路径、代码文件内容以及代码片段摘要中的一个或者多个。
6.根据权利要求4所述的方法,其特征在于,在所述重复代码文件中选择目标代码文件,包括:
获取用于存储各所述重复代码文件的目标代码库,并根据至少一项重要度因子对各所述目标代码库进行重要度排序;
根据对所述目标代码库的重要度排序结果,在所述重复代码文件中选择所述目标代码文件。
7.根据权利要求6所述的方法,其特征在于,所述重要度因子包括:代码库的被依赖次数、代码库的重要性标签以及代码库是否开放用户写权限。
8.根据权利要求6所述的方法,其特征在于,根据对所述目标代码库的重要度排序结果,在所述重复代码文件中选择所述目标代码文件,包括:
如果所述重要度排序结果中仅包括一个重要度最高的目标代码库,则获取与所述重要度最高的目标代码库对应的代码文件作为所述目标代码文件;
如果所述重要度排序结果中包括至少两个重要度最高的目标代码库,则获取与所述至少两个重要度最高的目标代码库对应的代码文件作为备选代码文件;
获取文件存储路径最短的一个备选代码文件作为所述目标代码文件。
9.一种程序代码的搜索处理装置,其特征在于,包括:
文件获取模块,用于依次获取一个代码库中的一个代码文件作为目标代码文件;
第一存储模块,用于如果目标代码文件为软链接文件,则不将目标代码文件存储于索引库中;
第二存储模块,用于如果目标代码文件不为软链接文件,则计算目标代码文件的文件信息摘要后,将目标代码文件以及文件信息摘要对应存储于索引库中;
操作返回模块,用于返回执行依次获取一个代码库中的一个代码文件作为目标代码文件的操作,直至完成对全部代码库中的全部代码文件的处理;
相似度计算模块,用于分别计算索引库中任意两个代码文件在至少一个信息维度上的相似度,并在索引库中存储计算结果;
数据获取模块,用于获取与用户的代码搜索条件匹配的搜索结果数据,所述搜索结果数据中包括多个代码文件;
文件筛除模块,用于在所述搜索结果数据中,对重复的代码文件进行筛除处理;
数据反馈模块,用于将筛除处理后的所述搜索结果数据,反馈给所述用户。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的程序代码的搜索处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任一所述的程序代码的搜索处理方法。
CN201910465618.8A 2019-05-30 2019-05-30 程序代码的搜索处理方法、装置、设备及存储介质 Active CN110196952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910465618.8A CN110196952B (zh) 2019-05-30 2019-05-30 程序代码的搜索处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910465618.8A CN110196952B (zh) 2019-05-30 2019-05-30 程序代码的搜索处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110196952A CN110196952A (zh) 2019-09-03
CN110196952B true CN110196952B (zh) 2021-11-12

Family

ID=67753609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910465618.8A Active CN110196952B (zh) 2019-05-30 2019-05-30 程序代码的搜索处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110196952B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177313A (zh) * 2019-12-10 2020-05-19 同济大学 一种即时录入编程代码即时查找参考复用程序的搜索方法
CN113238796A (zh) * 2021-05-17 2021-08-10 北京京东振世信息技术有限公司 一种代码重构方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989011A (zh) * 2015-01-28 2016-10-05 深圳富泰宏精密工业有限公司 服务搜索系统及方法
CN106294786A (zh) * 2016-08-12 2017-01-04 北京创新乐知信息技术有限公司 一种代码搜索方法和系统
WO2017134665A1 (en) * 2016-02-03 2017-08-10 Cocycles System for organizing, functionality indexing and constructing of a source code search engine and method thereof
CN109344230A (zh) * 2018-10-31 2019-02-15 任志颖 代码库文件生成、代码搜索、联结、优化以及移植方法
CN109522390A (zh) * 2018-11-14 2019-03-26 山东大学 一种搜索结果展示方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008533544A (ja) * 2004-09-20 2008-08-21 コダーズ,インコーポレイテッド ソースコード・サーチ・エンジンを操作する方法およびシステム
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107832432A (zh) * 2017-11-15 2018-03-23 北京百度网讯科技有限公司 一种搜索结果排序方法、装置、服务器和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989011A (zh) * 2015-01-28 2016-10-05 深圳富泰宏精密工业有限公司 服务搜索系统及方法
WO2017134665A1 (en) * 2016-02-03 2017-08-10 Cocycles System for organizing, functionality indexing and constructing of a source code search engine and method thereof
CN106294786A (zh) * 2016-08-12 2017-01-04 北京创新乐知信息技术有限公司 一种代码搜索方法和系统
CN109344230A (zh) * 2018-10-31 2019-02-15 任志颖 代码库文件生成、代码搜索、联结、优化以及移植方法
CN109522390A (zh) * 2018-11-14 2019-03-26 山东大学 一种搜索结果展示方法和装置

Also Published As

Publication number Publication date
CN110196952A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US8185507B1 (en) System and method for identifying substantially similar files
US10621212B2 (en) Language tag management on international data storage
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
US20160098390A1 (en) Command history analysis apparatus and command history analysis method
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN110196952B (zh) 程序代码的搜索处理方法、装置、设备及存储介质
CN110688111A (zh) 业务流程的配置方法、装置、服务器和存储介质
CN111506608A (zh) 一种结构化文本的比较方法和装置
CN113032834A (zh) 一种数据库表格处理方法、装置、设备及存储介质
CN113157731A (zh) 符号解析方法、装置、设备及存储介质
US8862556B2 (en) Difference analysis in file sub-regions
CN110990346A (zh) 基于区块链的文件数据处理方法、装置、设备及存储介质
US20110107318A1 (en) Simplifying Maintenance of Large Software Systems
CN110287338B (zh) 行业热点确定方法、装置、设备和介质
US20080222149A1 (en) Collation Regression Testing
CN111831750A (zh) 一种区块链数据分析方法、装置、计算机设备及存储介质
US9286349B2 (en) Dynamic search system
CN114237588A (zh) 一种代码仓库选择方法、装置、设备及存储介质
CN112015535B (zh) 任务处理方法、装置、电子设备、存储介质
CN113641873A (zh) 数据处理方法、装置、电子设备及可读存储介质
US20210049008A1 (en) Identifying implicit dependencies between code artifacts
CN113407264A (zh) 基于图像的终端界面识别方法、装置、设备和介质
US20150220599A1 (en) Automobile airbag deployment dependent on passenger size
CN110750569A (zh) 数据提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant