CN102930038A - 一种检索结果相似条目的合并方法及其系统 - Google Patents

一种检索结果相似条目的合并方法及其系统 Download PDF

Info

Publication number
CN102930038A
CN102930038A CN2012104516566A CN201210451656A CN102930038A CN 102930038 A CN102930038 A CN 102930038A CN 2012104516566 A CN2012104516566 A CN 2012104516566A CN 201210451656 A CN201210451656 A CN 201210451656A CN 102930038 A CN102930038 A CN 102930038A
Authority
CN
China
Prior art keywords
subclauses
clauses
retrieval
result
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104516566A
Other languages
English (en)
Inventor
李道远
程鑫
高俊
顾鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU YABROAD INFORMATION CO Ltd
Original Assignee
JIANGSU YABROAD INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU YABROAD INFORMATION CO Ltd filed Critical JIANGSU YABROAD INFORMATION CO Ltd
Priority to CN2012104516566A priority Critical patent/CN102930038A/zh
Publication of CN102930038A publication Critical patent/CN102930038A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种检索结果相似条目的合并方法,包括:获取包含至少一项条目的检索结果;对检索结果中的条目进行相似度对比,获得条目之间的相似度对比值;将相似度对比值与相似度阈值比较,根据比较结果,合并相似条目;显示相似条目合并后的检索结果。本发明减少雷同条目对用户的干扰,减少系统最终返回给用户的条目数,极大程度地改进用户的检索体验。本发明还公开了一种检索结果相似条目的合并系统。

Description

一种检索结果相似条目的合并方法及其系统
技术领域
本发明涉及信息搜索技术,尤其涉及一种检索结果相似条目的合并方法及其系统。
背景技术
随着计算机及信息技术的快速发展,由计算机自动或辅助用户生成的信息越来越多,如何在海量信息中检索特定信息由此变得十分重要。为了解决此类问题,各种计算机信息检索技术应运而生,包括计算机文件检索系统、网络搜索引擎、在线数据库联机检索系统等。计算机用户利用这些系统通过键入关键词而查找所需信息,此类系统在很大程度上解决了用户检索信息的难题,但是它们还缺乏精确检索的能力以及良好的用户体验。例如,用户在使用大多数网络搜索引擎使用关键词检索信息时,经常会得到来自于不同来源的内容雷同的条目。当此类条目数量显著时,用户会收到大量重复信息对其的干扰,不利于用户迅速准确的获取所需信息。
同时,经过多年发展,计算机文件相似度检测技术也逐渐成熟。例如,使用散列算法可以检测文件内容是否相同,通过计算两个文件的Jaccard指数或者其它类似的SimHashing算法可得到两个文件的相似度。此类技术和技术已被广泛的用于检索文本文件的相似度。
随着用户搜索需求的增长,通常单一的搜索引擎难以满足用户搜索的需要,因此出现了一种利用多个搜索引擎资源,通过集成检索结果为用户提供最终结果的元搜索技术。但由于此类技术涉及到整合多个搜索服务提供方资源、不可避免的触及不同搜索厂商的利益,容易引发商业争斗和政治问题,所以元搜索技术至今仍术被广泛应用。
发明内容
本发明提出了一种检索结果相似条目的合并方法,包括如下步骤:
步骤一:获取包含至少一项条目的检索结果;
步骤二:对所述检索结果中的条目进行相似度对比,获得所述条目之间的相似度对比值;
步骤三:将所述相似度对比值与所述相似度阈值比较,根据比较结果,合并相似条目;
步骤四:显示相似条目合并后的检索结果。
其中,所述步骤一中的检索结果的生成步骤包括:
步骤A1:获取关键词,对所述关键词进行预处理;
步骤A2:判断所述预处理后的关键词是否符合要求;若符合要求的,则根据所述关键词进行检索生成检索结果;若不符合要求的,则重新执行所述步骤A1、A2,直至生成检索结果。
其中,所述步骤一中进一步包括:根据权值将所述条目由高到低排序。
其中,进一步包括:权值相同的所述条目根据所述条目被引用次数由高到低排序。
其中,所述步骤三中,所述相似度阈值采用默认值或用户设定值。
其中,所述步骤三中,所述合并相似条目包括:
步骤B1:判断已处理条目集合是否为空;若所述已处理条目集合为空,则初始化所述已处理条目集合,将所述检索结果中的未处理条目集合中的任意一个条目作为起始条目,并将该起始条目存入所述已处理条目集合中,执行步骤B2;若所述已处理条目集合不为空,则执行步骤B2;
步骤B2:将所述未处理条目集合的一个条目与已处理条目集合中的所有条目依次计算相似度对比值,并将所述相似度对比值与相似度阈值比较,若大于等于相似度阈值则将该当前两条目进行合并生成合并条目,将所述条目以所述合并条目的子条目的方式存入所述已处理条目集合;若小于相似度阈值,则将所述条目以所述已处理条目集合的子集的方式存入所述已处理条目集合;
步骤B3:重复执行所述步骤B2,直至所述术处理条目集合为空时为止。
其中,进一步包括:当重新设定相似度阈值时,重新执行所述步骤二至步骤四。
其中,在所述步骤B2中,以所述已合并条目中的权值最高的子条目作为代表项。
本发明还提出了一种检索结果相似条目的合并系统,包括:
条目处理装置,其处理检索结果中的各条目;
相似度对比装置,其与所述条目处理装置连接,对所述检索结果中的条目进行相似度对比,生成所述相似度对比值;
阈值设定装置,其与所述条目处理装置连接,实现设定所述相似度阈值;
显示装置,其与所述条目处理装置连接,向用户显示所述相似条目合并后的检索结果。
其中,进一步包括:
数据库,其存储有海量信息;
检索装置,其与所述数据库及所述条目处理装置连接,用于根据关键词检索所述海量信息生成所述检索结果,并生成所述检索结果中各条目与所述关键词的匹配度的权值。
本发明减少重复信息对用户的干扰,并改进计算机检索系统的用户体验,使用户更迅速的检索查询到其所需信息,为用户提供精确的检索服务。
本发明在对用户提供的关键词进行检索并返回最终检索结果之前,先对检索结果进行过滤,将结果中内容相似的条目进行合并,最后将结果返回给用户。用户亦可以展开合并过的条目以获取更详尽的信息。
本发明还为用户提供了设置合并条目的相似度阈值的功能,方便用户根据实际需要动态调整信息的粒度和合并相似条目的强度。
附图说明
图1表示本发明检索结果相似条目的合并方法的流程示意图。
图2表示本发明检索结果相似条目的合并方法的详细流程图。
图3表示阈值设定装置的阈值设定的流程图。
图4表示合并相似条目的具体实施结果的示意图。
图5表示条目合并的详细流程图。
图6表示本发明检索结果相似条目的合并系统的结构图。
图7表示较佳实施例处理过程中检索结果的示意图。
图8表示较佳实施例处理过程中检索结果的示意图。
图9表示较佳实施例处理过程中检索结果的示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
如图1至图9中,1-数据库,2-检索装置,3-条目处理装置,4-相似度对比装置,5-阈值设定装置,6-显示装置。
如图1与图2所示,本发明检索结果相似条目的合并方法的具体实施步骤包括,:
步骤一:获取包含至少一项条目的检索结果。
检索结果由检索装置2根据关键词检索数据库1的海量信息后获得。检索装置2获取用户输入的关键词,并将关键词进行预处理。这些预处理包括对关键词的修剪、拆分以及合成等操作。预处理完毕之后检索装置2判断该关键词是否符合系统要求,包括关键词的长度要求、敏感信息审查要求等系统要求。如果此关键词不符合系统要求,检索装置2会提示用户重新输入关键词直到关键词符合系统要求或用户退出系统为止。如果此关键词符合系统要求,检索装置2则使用此关键词在数据库1中进行检索生成检索结果。条目处理装置3获取该检索结果。优选地,检索结果中根据关键词与各条目的匹配度(即权值)由高至低对各条目进行排序,当出现有相同匹配度的若干条目时,再根据这些条目被引用的次数由高至低再次排序。
步骤二:对检索结果中的条目进行相似度对比,获得条目之间的相似度对比值。本实施例中,条目处理装置3通过相似度对比装置4对条目之间进行相似度对比,获取条目之间的相似度对比值。
步骤三:将相似度对比值与相似度阈值比较,根据比较结果合并相似条目。本实施例中,如果条目之间的相似度对比值高于或等于设定的相似度阈值,则认定上述条目为相似条目,条目处理装置3将相似条目合并为一个已合并条目。每个已合并条目采用其中的权值最高的子条目作为代表项。已合并条目在显示时只显示代表项的条目的摘要、内容等信息,以及标注该代表项的条目为已合并条目。如果相似度对比值低于相似度阈值,则认定上述条目不是相似条目,条目处理装置3则不合并上述条目。
步骤四:显示相似条目合并后的检索结果。显示装置6将检索结果展示给用户。如果单次显示的条目数量太多,不适合显示装置6展示,则条目处理装置3采取分部的方式展示所有条目。
其中,用户在浏览检索结果的过程中可动态修改了阈值设定装置5的相似度阈值.当用户改变相似度阈值后,阈值设定装置5将采用用户设定的相似度阈值,条目处理装置3按照用户设定的相似度阈值重新对条目进行处理,合并条目后并由显示装置6再次进行展示。
图3显示的是阈值设定装置5的阈值设定过程。本实施例中,阈值设定装置5保存了一个相似度阈值(记为SimilarityThreshold),如果用户术自定义相似度阈值,则相似度阈值为系统默认值(记为DefaultThreshold),此时SimilarityThreshold等于DefaultThreshold;否则该阈值为用户自定义的相似度阈值(记为UserDefinedThreshold)。本发明较佳实施例中,本发明的阈值设定装置5结合软件实现上述功能,具体采用以下的方式实现:
SimilarityThreshold=DefaultThreshold//读入系统默认条目合并相似度阈值IF用户定义了条目合并相似度阈值THEN
读入用户定义的阈值到UserDefinedThreshold
SimilarityThreshold=UserDefinedThreshold//使用用户定义的阈值END IF
本发明的步骤三中合并相似条目的具体实施结果如图4所示。条目处理装置3将条目存入未处理条目集合中,其中包括条目A、条目B等。条目处理装置3判断已处理条目集合为空,将条目A作为起始条目存入已处理条目集合中。此时条目处理装置3将未处理条目集合中的待处理条目B通过相似度对比装置4与条目A进行相似度对比,得出条目B与条目A的相似度对比值为90%,高于阈值设定装置5的默认阈值70%。条目处理装置3根据该结果,将条目B与条目A合并为一个已合并条目,条目B以该已合并条目的子条目存入已处理条目集合中,其中条目A作为该已合并条目的代表项,该已合并条目记为A’。已合并条目的子条目指已合并条目中被合并的条目,例如,已合并条目A’与条目B为上述已合并条目中的两个子条目。
合并完成后,条目处理装置3从未处理条目集合中选取待处理条目C与已处理条目集合中仅有的已合并条目A’进行相似度对比,得到相似度对比值为65%。由于低于默认相似度阈值,条目处理装置3将条目C作为已处理条目集合的子集存入已处理条目集合中,与已合并条目A’并列展示。同样地,条目处理装置3将未处理条目集合中的待处理条目D与已处理条目集合中的已合并条目A’和条目C分别进行相似度对比,由于相似度对比值均小于相似度阈值,条目处理装置3将条目D作为已处理条目集合的子集存入已处理条目集合中,与已合并条目A’、条目C并列展示。条目处理装置3重复执行上述步骤,直到处理完未处理条目集合中的所有条目为止。已处理条目集合的子集是指已处理条目集合中并列展示的项目,已处理条目集合的子集可以是单独的条目或者已合并的条目。例如,已合并条目A’、条目C与条目D为该已处理条目集合的子集。其中,作为子集的已合并条目A’中还包含子条目(条目A与条目B)。
图5显示的是条目合并过程,其中描述了该条目处理装置3对检索条目的处理流程。当条目处理装置3从检索装置2获取检索结果之后,条目处理装置3取得阈值设定装置5的相似度阈值,该阈值可以是默认的相似度阈值,亦可以是用户自定义的。然后,条目处理装置3将一个未处理的条目作为起始条目存入已处理条目集合中,条目处理装置3判断是否仍存在未处理的条目,若存在,则取出当前术处理的条目中的首个条目作为待处理条目,并将其与已处理的条目中的每个条目进行相似度对比;如果该条目与已处理的某个条目的相似度高于或者等于条目处理装置3读取的相似度阈值,则表示已处理条目集合中存在与该待处理条目相似的其它条目,条目处理装置3将这些条目自动合并,并更新已处理条目集合并重新判断未处理条目集合是否为空。条目处理装置3重复执行上述过程,直到处理完全部的条目,不存在未处理的条目时为止。本发明较佳实施例中,本发明的相似度对比装置3结合软件实现上述功能,具体采用以下的方式实现:
Figure BDA00002391305000051
Figure BDA00002391305000061
本发明的相似度对比装置4可根据条目的类型动态选择相似度对比算法,如果条目为非文本文件(例如压缩文档等),则自动选择相应的对比算法;如果条目为文本文件,则选择使用SimHashing算法等相似度对比算法。例如,上述处理过程中运用了相似度对比的指令GetSimilarity(),该指令采用通用的相似度算法,计算两个条目的Jaccard指数:
( A , B ) = | A ∩ B | | A ∪ B | .
本实施例中,当一个待处理的条目将合并至已合并条目中,条目处理装置3将该条目的权值及已合并条目中的最高权值项比较。若该条目的权值大于最高权值项的权值,则该条目作为此已合并条目的代表项。通过显示装置6向用户显示检索结果的所有条目时,显示装置6向用户展示该代表项,并向用户显示该项为已合并的条目。用户亦可选择该代表项,显示装置6向用户显示与该代表项合并的其他条目。例如,上述实施例中使用了合并相似条目的Combine算法,通过该算法实现相似条目的合并过程。其中,Combine算法的具体实施过程如下:
Figure BDA00002391305000063
Figure BDA00002391305000071
其中,Abstract为当前条目的概要;FullContent为当前条目的完整内容;Weight为当前条目权值,用于判断此条目与检索关键词的相似度;SimilarResultSet为已合并的条目。
图7显示的是实施例处理过程中检索结果的示意图。用户使用从状态一开始,用户输入关键字后点击搜索,检索装置2根据关键字搜索后条目处理装置3获得如状态二的检索结果。检索结果中包含如A’,A”等条目,条目根据关键词的权值和被引用次数由高到低排序。状态二的检索结果为中间状态,并不由显示装置6以页面的方式展示。状态二的检索结果中出现大量内容相似条目,该实例中用相同字母开头的项目表示相似条目,且均已按权值由高到低排序,如A’,A”,A”’均为相似条目,其中条目A’为权值最高项。相似条目由相似度对比值装置4根据相似度对比算法计算得出。大量的相似条目会对用户查阅所需内容造成干扰,同时降低了搜索引擎的用户体验。在状态二的基础上,条目处理装置3执行合并操作,最终得到状态三的检索结果。由图7可知,状态三提供的最终检索结果中已经合并了所有相似条目。已合并条目由权值最高的子条目作为代表项进行显示,即已合并条目的内容为其子条目中的一个。例如,已合并条目A的地址链接为子条目A’的地址链接。当用户点击已合并条目A时,显示装置6直接显示作为代表项的条目A’的内容,方便用户检索到最感兴趣的条目。当某一条目不存在相似条目时,其地址链接保持不变。通过上述过程,提高了相似条目对用户查阅效率和搜索引擎的用户体验。
进一步地,基于本发明的基础上,若在合并相似条目时对已合并条目的子条目的文字内容、摘要做整合处理等操作并生成处理后的已合并条目,条目处理装置3为每个子集(包括已合并条目或单独的条目)生成独有的参数以便于指引用户访问经处理后的已合并条目,例如图8中,状态三中已合并条目或单独的条目的参数(地址链接linkto)与状态二的地址链接不同,新的地址链接由条目处理装置3重新定向至子条目或者链接至整合后的页面。例如,本实施例中生成的参数为与状态二中不同的地址链接。条目处理装置3通过显示装置6向用户展示已处理条目集合时,若用户点选已合并条目A 时,条目处理装置3根据已合并条目A的新的地址链接重新定向至其中的子条目中的一个,例如代表项的子条目A’;条目处理装置3亦可根据新的地址链接定向至处理后的已合并条目A的页面中,显示装置6向用户展现整合后的已处理条目A的内容、摘要等信息,并可指引用户进一步访问其中的子条目A’、A”等。其中,本实施例在实施重新定向至子条目的用户体验效果与上一实施例相同,用户在点选已合并条目A时均会显示子条目A’的内容。但是本实施例的中条目处理装置3生成新的参数便于对已合并条目执行后期扩展处理等操作。例如,当更新已合并条目时,只需更改条目处理装置3中地址链接的定向。条目B、条目C和条目F为单独的条目。同样地,例如条目处理装置3为条目B、条目C和条目F生成新的地址链接。若检索结果中出现上述条目的相似条目时,在上述条目的地址链接的页面中添加该类相似条目。
结合上述两个实施例,本实施例对部分已合并条目的内容设定为某一子条目的内容,为其他已合并条目生成新的参数。例如,如图9所示,对于具有相似条目的已合并条目(例如已合并条目A、D、E或G),条目处理装置3生成新的地址链接指向新的页面,该页面中的内容为整合后的已处理条目的内容、摘要等信息,其中亦可对其中的子条目进行进一步访问。对于不具有相似条目的单独条目(例如条目B、C或F),由于不存在其他的地址链接且无需对其内容等进行整合,其地址链接保持不变。
本发明的检索结果相似条目的合并系统,如图6所示,包括条目处理装置3、相似度对比装置4、阈值设定装置5以及显示装置6。相似度对比装置4、阈值设定装置5和显示装置6分别与条目处理装置3连接。
相似度对比装置4负责对比检索结果中各条目之间的相似度。相似度对比装置根据条目的类型动态选择相似度对比算法,如果条目为非文本文件(例如压缩文档等)则合并系统自动选择相应的对比算法;如果条目为文本文件,合并系统则选择使用SimHashing算法。相似度对比装置4通过对条目之间进行对比,生成相似度对比值,作为条目处理装置3在合并条目过程中使用的参数之一。
阈值设定装置5中设定了默认的相似度阈值。用户亦可通过阈值设定装置5调整相似度阈值。当用户调整了相似度阈值后,阈值设定装置5便设定为用户设定的相似度阈值,否则设定为默认的相似度阈值。条目处理装置3采用阈值设定装置5的相似度阈值作为合并条目的另一项参数。
条目处理装置3负责实现合并条目并更新检索结果。条目处理装置3具有存储功能的元件,用于存储已处理条目集合与术处理条目集合。条目处理装置3根据条目的相似度对比值以及相似度阈值,合并相似条目。条目处理装置3将相似度高于或等于相似度阈值的条目合并为一个条目,与其他已合并的条目及独立的解雇条目共同并列展示。已合并条目由其中的一个条目作为代表项进行显示。
显示装置6负责向用户显示条目处理装置3更新后的检索结果。
本发明检索结果相似条目的合并系统进一步包括数据库1与检索装置2。数据库1中存储有海量信息。检索装置2与数据库1及条目处理装置3连接。检索装置2可以是搜索引擎、文献检索引擎等数据检索设备。用户向检索装置2输入关键词,检索装置对关键词实施预处理,并根据符合系统要求的关键词检索数据库1中的海量信息生成检索结果,及检索结果中各条目与关键词的匹配度的权值。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (10)

1.一种检索结果相似条目的合并方法,其特征在于,包括如下步骤:
步骤一:获取包含至少一项条目的检索结果;
步骤二:对所述检索结果中的条目进行相似度对比,获得所述条目之间的相似度对比值;
步骤三:将所述相似度对比值与所述相似度阈值比较,根据比较结果,合并相似条目;
步骤四:显示相似条目合并后的检索结果。
2.如权利要求1所述检索结果相似条目的合并方法,其特征在于,所述步骤一中的检索结果的生成步骤包括:
步骤A1:获取关键词,对所述关键词进行预处理;
步骤A2:判断所述预处理后的关键词是否符合要求;若符合要求的,则根据所述关键词进行检索生成检索结果;若不符合要求的,则重新执行所述步骤A1、A2,直至生成检索结果。
3.如权利要求1所述检索结果相似条目的合并方法,其特征在于,所述步骤一中进一步包括:根据权值将所述条目由高到低排序。
4.如权利要求3所述检索结果相似条目的合并方法,其特征在于,进一步包括:权值相同的所述条目根据所述条目被引用次数由高到低排序。
5.如权利要求1所述检索结果相似条目的合并方法,其特征在于,所述步骤三中,所述相似度阈值采用默认值或用户设定值。
6.如权利要求1所述检索结果相似条目的合并方法,其特征在于,所述步骤三中,所述合并相似条目包括:
步骤B1:判断已处理条目集合是否为空;若所述已处理条目集合为空,则初始化所述已处理条目集合,将所述检索结果中的未处理条目集合中的任意一个条目作为起始条目,并将该起始条目存入所述已处理条目集合中,执行步骤B2;若所述已处理条目集合不为空,则执行步骤B2;
步骤B2:将所述未处理条目集合的一个条目与已处理条目集合中的所有条目依次计算相似度对比值,并将所述相似度对比值与相似度阈值比较,若大于等于相似度阈值则将该当前两条目进行合并生成已合并条目,将所述条目以所述已合并条目的子条目的方式存入所述已处理条目集合;若小于相似度阈值,则将所述条目以所述已处理条目集合的子集的方式存入所述已处理条目集合;
步骤B3:重复执行所述步骤B2,直至所述未处理条目集合为空时为止。
7.如权利要求1所述检索结果相似条目的合并方法,其特征在于,进一步包括:当重新设定相似度阈值时,重新执行所述步骤二至步骤四。
8.如权利要求6所述检索结果相似条目的合并方法,其特征在于,在所述步骤B2中,以所述已合并条目中的权值最高的子条目作为代表项。
9.一种检索结果相似条目的合并系统,其特征在于,包括:
条目处理装置(3),其处理检索结果中的各条目;
相似度对比装置(4),其与所述条目处理装置(3)连接,对所述检索结果中的条目进行相似度对比,生成所述相似度对比值;
阈值设定装置(5),其与所述条目处理装置(3)连接,实现设定所述相似度阈值;
显示装置(6),其与所述条目处理装置(3)连接,向用户显示所述相似条目合并后的检索结果。
10.如权利要求9所述的检索结果相似条目的合并系统,其特征在于,进一步包括:
数据库(1),其存储有海量信息;
检索装置(2),其与所述数据库(1)及所述条目处理装置(3)连接,用于根据关键词检索所述海量信息生成所述检索结果,并生成所述检索结果中各条目与所述关键词的匹配度的权值。
CN2012104516566A 2012-11-12 2012-11-12 一种检索结果相似条目的合并方法及其系统 Pending CN102930038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104516566A CN102930038A (zh) 2012-11-12 2012-11-12 一种检索结果相似条目的合并方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104516566A CN102930038A (zh) 2012-11-12 2012-11-12 一种检索结果相似条目的合并方法及其系统

Publications (1)

Publication Number Publication Date
CN102930038A true CN102930038A (zh) 2013-02-13

Family

ID=47644835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104516566A Pending CN102930038A (zh) 2012-11-12 2012-11-12 一种检索结果相似条目的合并方法及其系统

Country Status (1)

Country Link
CN (1) CN102930038A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166651A (zh) * 2013-05-16 2014-11-26 阿里巴巴集团控股有限公司 基于对同类数据对象整合的数据搜索的方法和装置
CN104572770A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 一种主题提取方法及装置
CN105956070A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种整合重复记录的方法及系统
CN103795644B (zh) * 2014-01-27 2017-04-05 福建星网锐捷网络有限公司 策略表表项配置方法、装置及系统
CN108573057A (zh) * 2018-04-25 2018-09-25 王慧 一种法律文书与法律法规对应性检索方法
CN109522332A (zh) * 2018-11-22 2019-03-26 泰康保险集团股份有限公司 客户信息数据合并方法、装置、设备及可读存储介质
CN109857748A (zh) * 2018-12-24 2019-06-07 深圳市珍爱捷云信息技术有限公司 一种合同数据处理方法、装置及电子设备
CN110765121A (zh) * 2019-10-31 2020-02-07 太原蓝知科技有限公司 一种大数据智能采集处理方法和系统
CN110874755A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN113128595A (zh) * 2021-04-21 2021-07-16 泰康保险集团股份有限公司 整合客户信息的方法、装置、设备和计算机可读介质
CN115146065A (zh) * 2022-09-02 2022-10-04 安徽商信政通信息技术股份有限公司 一种智能的信息上报相似内容合并方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166651A (zh) * 2013-05-16 2014-11-26 阿里巴巴集团控股有限公司 基于对同类数据对象整合的数据搜索的方法和装置
CN104166651B (zh) * 2013-05-16 2017-10-13 阿里巴巴集团控股有限公司 基于对同类数据对象整合的数据搜索的方法和装置
CN104572770A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 一种主题提取方法及装置
CN103795644B (zh) * 2014-01-27 2017-04-05 福建星网锐捷网络有限公司 策略表表项配置方法、装置及系统
CN105956070A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种整合重复记录的方法及系统
CN108573057A (zh) * 2018-04-25 2018-09-25 王慧 一种法律文书与法律法规对应性检索方法
CN110874755A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN110874755B (zh) * 2018-08-31 2024-04-12 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN109522332A (zh) * 2018-11-22 2019-03-26 泰康保险集团股份有限公司 客户信息数据合并方法、装置、设备及可读存储介质
CN109857748A (zh) * 2018-12-24 2019-06-07 深圳市珍爱捷云信息技术有限公司 一种合同数据处理方法、装置及电子设备
CN109857748B (zh) * 2018-12-24 2022-10-14 深圳市珍爱捷云信息技术有限公司 一种合同数据处理方法、装置及电子设备
CN110765121A (zh) * 2019-10-31 2020-02-07 太原蓝知科技有限公司 一种大数据智能采集处理方法和系统
CN110765121B (zh) * 2019-10-31 2022-09-20 上海意臣信息科技有限公司 一种大数据智能采集处理方法和系统
CN113128595A (zh) * 2021-04-21 2021-07-16 泰康保险集团股份有限公司 整合客户信息的方法、装置、设备和计算机可读介质
CN115146065A (zh) * 2022-09-02 2022-10-04 安徽商信政通信息技术股份有限公司 一种智能的信息上报相似内容合并方法及系统

Similar Documents

Publication Publication Date Title
CN102930038A (zh) 一种检索结果相似条目的合并方法及其系统
CN105808685B (zh) 推广信息的推送方法及装置
US9317613B2 (en) Large scale entity-specific resource classification
US10102307B2 (en) Method and system for multi-phase ranking for content personalization
KR101463974B1 (ko) 마케팅을 위한 빅데이터 분석 시스템 및 방법
CN103279513B (zh) 产生内容标签的方法、提供多媒体内容信息的方法及装置
CN101286150B (zh) 生成更新参数的方法和装置、展示相关关键词的方法和装置
KR101870615B1 (ko) 추천 용어들을 제공하기 위한 방법 및 시스템
JP5661200B2 (ja) 検索情報の提供
US7870135B1 (en) System and method for providing tag feedback
US20130297590A1 (en) Detecting and presenting information to a user based on relevancy to the user's personal interest
CN102053977A (zh) 一种搜索结果生成方法及信息搜索系统
KR20080028574A (ko) 통합 검색 서비스 시스템 및 방법
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
CN105512143A (zh) 一种网页分类方法及装置
CN105404680A (zh) 一种搜索推荐方法及装置
Schedl Leveraging microblogs for spatiotemporal music information retrieval
CN104361092A (zh) 搜索方法及装置
CN105095209A (zh) 文档聚类方法及装置、网络设备
CN104050183A (zh) 浏览器输入框的内容匹配结果提示方法及装置
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN106951511A (zh) 一种文本聚类方法及装置
JP6234978B2 (ja) 情報処理装置、情報処理システム、およびプログラム
EP2026216A1 (en) Data processing method, computer program product and data processing system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130213