CN103870520A - 用于搜索信息的设备和方法 - Google Patents

用于搜索信息的设备和方法 Download PDF

Info

Publication number
CN103870520A
CN103870520A CN201210571064.8A CN201210571064A CN103870520A CN 103870520 A CN103870520 A CN 103870520A CN 201210571064 A CN201210571064 A CN 201210571064A CN 103870520 A CN103870520 A CN 103870520A
Authority
CN
China
Prior art keywords
information
item
founder
user
correlativity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210571064.8A
Other languages
English (en)
Other versions
CN103870520B (zh
Inventor
陈超
钟钱杰
郭峰
陈齐彦
刘晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Priority to CN201210571064.8A priority Critical patent/CN103870520B/zh
Priority to US14/100,466 priority patent/US10409871B2/en
Publication of CN103870520A publication Critical patent/CN103870520A/zh
Application granted granted Critical
Publication of CN103870520B publication Critical patent/CN103870520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜索信息的方法和设备,该方法用于响应于从多个用户中的搜索用户接收关键字,在信息库中进行搜索以便获得待返回的一个或多个信息项;以及基于所述一个或多个信息项中每个信息项的重要度,向所述搜索用户返回所述信息项。通过该方法,可以充分利用搜索用户、信息项及其创建者之间的客观存在的内在关系,从而提高了搜索的准确度。

Description

用于搜索信息的设备和方法
技术领域
本发明的实施方式涉及信息搜索领域,更具体地,涉及一种用于搜索信息的设备和方法。
背景技术
随着互联网以及数据库技术的快速发展,对信息的搜索已经成为广泛存在的需求,由此引发了对信息搜索方法的深入研究。
现有技术中对信息的搜索往往是针对关键字进行的。也即用户输入待搜索的关键字,搜素引擎在信息库中搜索该关键字,并返回相应结果。这些搜索技术的共同点或者不足在于,它们没有考虑到搜索所涉及到的各个实体(例如搜索者、所搜索的信息项、以及信息项的创建者等等)之间的可能存在的客观的、内在的联系,因此这种搜索是“平面的”,在搜索者、信息项以及其创建者存在其他内在关系时,不能加以利用,从而准确度较低。
发明内容
为了解决现有技术中存在的上述问题,本说明书提出如下方案。
根据本发明的第一方面,提供一种搜索信息的方法,包括:响应于从多个用户中的搜索用户接收关键字,在信息库中进行搜索以便获得待返回的一个或多个信息项;以及基于所述一个或多个信息项中每个信息项的重要度,向所述搜索用户返回所述信息项。
在本发明的可选实现中,所述每个信息项的重要度与以下中的一个或多个相关联:所述每个信息项的创建者权重、所述创建者与所述搜索用户的相关性、所述搜索用户与所述多个用户中的其它用户的相关性、所述一个或多个信息项之间的相关性、所述多个用户对所述一个或多个信息项的历史兴趣、以及所述创建者对所创建的信息项的影响度。
在本发明的可选实现中,所述创建者权重基于以下中的一个或多个确定:所述创建者的部门、职务、领域知识、所处的地理位置、所述创建者所创建的各信息项的点击率、所述创建者所创建的各信息项的历史评价。
在本发明的可选实现中,所述创建者与所述搜索用户的相关性基于以下中的一个或多个建立:所述创建者与所述搜索用户之间的部门相关性、职务相关性、合作关系、领域知识相关性、地理位置相关性。
在本发明的可选实现中,其中,所述搜索用户与所述多个用户中的其它用户的相关性基于所述搜索用户与所述其它用户之间的搜索历史关系建立。
在本发明的可选实现中,所述多个用户对所述一个或多个信息项的历史兴趣基于所述多个用户对所述信息项的点击历史和/或所述多个用户对所述信息项的评价历史建立。在本发明的进一步可选实现中,在所述历史兴趣的建立过程中,将对彼此具有相关性的信息项集合中一个信息项的历史兴趣确定为对所述信息项集合中其它信息项的历史兴趣。
在本发明的可选实现中,所述创建者对所创建的各信息项的影响度基于所述创建者为创建信息项所耗费的时间和/或所述创建者对所创建的各信息项的评价建立。
在本发明的可选实现中,所述一个或多个信息项之间的相关性基于所述一个或多个信息项之间的内容相关性建立。在本发明的进一步可选实现中,所述内容相关性通过用户、机器学习、和/或分类工具确定。
在本发明的可选实现中,在信息库中进行搜索以便获得待返回的一个或多个信息项进一步包括:将针对所述关键字的全部搜索结果中与所述关键字最为关联的部分搜索结果作为待返回的所述一个或多个信息项。
在本发明的可选实现中,在向所述用户返回所述信息项时,还向所述用户返回所述信息项的创建者信息。
在本发明的可选实现中,所述信息库包括用于组织内部的信息库,和/或所述信息项包括文档。
根据本发明的第二方面,提供一种搜索信息的设备,包括:搜索装置,被配置为响应于从多个用户中的搜索用户接收关键字,在信息库中进行搜索以便获得待返回的一个或多个信息项;以及筛选装置,被配置为基于所述一个或多个信息项中每个信息项的重要度,向所述搜索用户返回所述信息项。
在本发明的可选实现中,所述每个信息项的重要度与以下中的一个或多个相关联:所述每个信息项的创建者权重、所述创建者与所述搜索用户的相关性、所述搜索用户与所述多个用户中的其它用户的相关性、所述一个或多个信息项之间的相关性、所述多个用户对所述一个或多个信息项的历史兴趣、以及所述创建者对所创建的信息项的影响度。
在本发明的可选实现中,所述设备还包括创建者权重确定装置,被配置为基于以下中的一个或多个确定所述创建者权重:所述创建者的部门、职务、领域知识、所处的地理位置、所述创建者所创建的各信息项的点击率、所述创建者所创建的各信息项的历史评价。
在本发明的可选实现中,所述设备还包括创建者-用户相关性建立装置,被配置为基于以下中的一个或多个建立所述创建者与所述搜索用户的相关性:所述创建者与所述搜索用户之间的部门相关性、职务相关性、合作关系、领域知识相关性、地理位置相关性。
在本发明的可选实现中,所述设备还包括用户间相关性建立装置,被配置为基于所述搜索用户与所述其它用户之间的搜索历史关系建立所述搜索用户与所述多个用户中的其它用户的相关性。
在本发明的可选实现中,所述设备还包括用户历史兴趣建立装置,被配置为基于所述多个用户对所述信息项的点击历史和/或所述多个用户对所述信息项的评价历史建立所述多个用户对所述一个或多个信息项的历史兴趣。在本发明的进一步可选实现中,所述用户历史兴趣建立装置可以包括:关联兴趣建立装置,被配置为在所述历史兴趣的建立过程中,将对彼此具有相关性的信息项集合中一个信息项的历史兴趣确定为对所述信息项集合中其它信息项的历史兴趣。
在本发明的可选实现中,所述设备还包括创建者-信息项影响度建立装置,被配置为基于所述创建者为创建信息项所耗费的时间和/或所述创建者对所创建的各信息项的评价建立所述创建者对所创建的各信息项的影响度。
在本发明的可选实现中,所述设备还包括信息项间关系建立装置,被配置为基于所述一个或多个信息项之间的内容相关性建立所述一个或多个信息项之间的相关性。在本发明的进一步可选实现中,所述内容相关性通过用户、机器学习、和/或分类工具确定。
在本发明的可选实现中,所述设备还包括部分结果选取装置,被配置为将针对所述关键字的全部搜索结果中与所述关键字最为关联的部分搜索结果作为待返回的所述一个或多个信息项。
在本发明的可选实现中,所述筛选装置进一步被配置为在向所述用户返回所述信息项时,还向所述用户返回所述信息项的创建者信息。
在本发明的可选实现中,所述信息库包括用于组织内部的信息库,和/或所述信息项包括文档。
通过上述各种实现,可以充分利用信息库中所客观存在的各种内在关系,从而提高搜索的准确度。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图。
图2示出了根据本发明示例性实施方式的、用于搜索信息的方法200的流程图;
图3示出了根据本发明示例性实施方式的用户、信息项以及创建者之间的示例性关系300的示意图;
图4是示出根据本发明实施方式、在例如企业的组织中,创建者的关系如何影响信息项关系的示意图400;
图5示出了根据本发明实施方式的高级数据流500的示意图;
图6示出了根据本发明的用于搜索信息的设备600的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算机系统100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中,与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
现在参看图2,图2示出了根据本发明示例性实施方式的、用于搜索信息的方法200的流程图。根据方法200,当从多个用户中的搜索用户接收到关键字时,方法首先进到步骤S202,在信息库中针对该来自于搜索用户的关键字进行搜索,以获得待返回的一个或多个信息项。本领域技术人员应理解,术语“信息库”的范围是广义的,其可以包括诸如用于组织(如企业)内部的信息库(或数据库)、对公众开放的搜索平台所涉及的信息库、以及各种网络信息库等。术语“信息项”的范围同样是广义的。除包括以上所提及的信息库中的各类信息外,其还可以包括各种文件格式的文档。文档的示例可以包括ECM系统或者wikis/eRooms中的文档,word格式的文档或者企业内部的各种文档,但并不局限于此。步骤S202中所进行的搜索,可以采用现有技术中针对关键字进行搜索的各种方法来进行,所获得的搜索结果也是在搜索过程中对关键字进行匹配之后所获得的通常意义的搜索结果。并且,步骤S202中待返回的一个或多个信息项可以是针对关键字的全部搜索结果,也可以是经筛选的(在搜索结果数量巨大时,例如选取与该关键字最为关联的)部分搜索结果,通常,(作为部分或全部搜索结果)所返回的信息项的数目仍然是极大的,具体哪些信息项才是客观上与搜索用户的关系最为密切的信息项,需要进一步深入发掘确定。因此接下来,方法200进到步骤S204,基于待返回的一个或多个信息项中每个信息项的重要度,向用户返回该信息项。至此,方法200结束。这里,术语“重要度”也即信息项相对于搜索用户的重要程度,实际上,针对特定的信息库而言,搜索获得的信息项除与搜索针对的关键字相关之外,通常还隐含了在特定信息库中所存储的诸多客观存在的内在联系,这些联系例如建立于搜索用户、信息项本身、以及信息项的创建者(以下简称为“创建者”,在信息项为文档的示例中,创建者也可以称为作者)之间,但是并不局限于此。它们均可能影响到信息项对于搜索用户的重要程度,从而影响到向用户返回的搜索结果。以下参照图3详细说明。
图3示出了根据本发明示例性实施方式的用户、信息项以及创建者之间的示例性关系300的示意图。示例性关系300涉及到用户301、信息项302以及创建者303。它们之间存在如下关系在现有的搜索技术中并没有加以利用:
1.不同的创建者303之间的关系
2.创建者303和用户301之间的关系
3.不同的用户301之间的关系
4.用户301和信息项302之间的关系
5.不同的信息项302之间的关系
6.创建者303和信息项302之间的关系
不同的创建者303之间的关系
不同的信息项创建者303之间的关系例如涉及创建者之间的部门关系、职务关系、领域知识(domain expertise)关系、地理位置关系等。在信息库是企业或公司等组织内部的信息库的示例中,可以非常容易地获知内部资源的创建者(例如文档的作者),并且也可以从组织的简档中得到诸如上下级关系、职衔等身份关系或者领域知识等等。多个创建者303可能位于相同或不同的地理位置群组或者技术领域群组中,这类信息也可以容易地获得。此外,创建者还能够基于兴趣将自己注册到虚拟群组中,或者这类虚拟群组也可以由系统管理员进行分配。由于不同创建者在组织(例如企业或公司)内的上述关系,他们各自的相应角色会影响到所创建信息项的重要度,例如,架构师所撰写的规范在重要度方面应当高于初级工程师所撰写的规范。因此,每个信息项的重要度可能与信息项的创建者本身的权重相关联,该权重可以基于以下中的一个或多个确定:创建者的部门、职务、领域知识、所处的地理位置、创建者所创建的各信息项的点击率以及创建者所创建的各信息项的历史评价,但是不限于此。其中,创建者所创建的各信息项的点击率以及创建者所创建的各信息项的历史评价反映了创建者的历史行为对创建者权重的动态影响。作为对创建者关系的附带利用,例如可以在向搜索用户301返回信息项时,也返回信息项的创建者信息,进而可以启动过程来在有疑问时找到则最可能的咨询群组,该群组的邮件列表或首要联系信息也可以同时返回。
创建者303和用户301之间的关系
与前述类似,信息项的创建者303和用户301之间的关系例如涉及创建者与搜索用户之间的部门关系、职务关系、合作关系、领域知识关系以及地理位置关系等。因此,信息项的重要度也可以与创建者和搜索用户之间的相关性关联。该相关性可以基于创建者与搜索用户之间的部门相关性、职务相关性、合作关系、领域知识关系以及地理位置相关性中的一个或多个建立,但并不局限于此。例如,由与搜索用户具有相同业务单元或功能群组或相同地区或相同虚拟群组的创建者所生成的这些信息项将具有更高的重要性,由此可以向用户返回更为准确的结果。
不同的用户301之间的关系
与前述类似,不同的用户301之间的关系例如涉及不同用户301之间的搜索历史关系。用户搜索关键字的历史可以存储在系统中以便进一步分析,共享最常见事项的搜索用户会作为相关的用户加以对待,而相关用户所评价的信息项(将在下文中描述)往往具有更高的重要性。换而言之,针对特定的搜索用户而言,信息项的重要度可以与该搜索用户和其他用户之间的相关性关联。这里所称的相关性包括但不限于用户的搜索历史关系。
用户301和信息项302之间的关系
用户301和信息项302之间的关系可以涉及作为搜索用户的用户与搜索返回的信息项之间的交互关系,例如对信息项的点击和/或对信息项的评价。通常,搜索用户301将点击所返回的结果以获得更多详细内容,因此对结果的“点击”意味着创建了用户和信息项之间的关系。这是搜索用户和文档之间的最简单关系。更加高级的关系包括用户提升(promote)/削弱(depromote)某结果的重要度。例如用户向结果中的某个信息项添加评论。这类关系将被利用以作为其它搜索结果重要度的参考。因此,信息项的重要度可以与用户对信息项的历史兴趣相关联,该历史兴趣例如可以基于用户对信息项的点击历史或评价历史而建立。从另一角度而言,如在不同的创建者303之间的关系中所提及的,当众多搜索用户301都查看/提升某信息项302时,该信息项的创建者303所创建的其它各信息项302的重要性也将能够提升,也即用户和信息项之间的关系又反过来影响了不同创建者之间的关系。
不同的信息项302之间的关系
不同的信息项302之间也存在有待发掘的关系,例如信息项之间的内容相关性或相似度。当包括一个或多个信息项的搜索结果被返回给搜索用户301时,用户301可以向结果例如添加标签,并且他们还可以将不同的结果进行链接,链接页面的默认的值可以是“相关”。用户还可以指定更为准确的一个结果,比如用于进一步复制的副本。在本发明的可选实施方式中,该内容相关性的确定通过与终端用户的交互来完成,或者可以通过机器学习或基于(例如公司优化分类学的)分类工具来完成。不同信息项之间的关系对某一信息项的重要度的影响可能并非是直接的,例如其可以通过如下方式进行:将具有相关性的信息项进行聚类或形成集合,在如前所述建立用户对信息项的历史兴趣时,将对集合中一个信息项具有历史兴趣也认为对该集合中的其他信息项也具有兴趣。而具有相同兴趣的用户例如可以视为前述的“相关用户”,这转而影响了用户之间的关系。
创建者303和信息项302之间的关系
创建者303和信息项302之间的关系例如涉及一个创建者为创建某一信息项所耗费的时间和/或该创建者对其所创建的某一信息项的评价,在本文中也将这些因素称为创建者对所创建的信息项的影响度。同一创建者所创建的信息项的重要度并不等同,它们具有不同的意义,例如花费了作者一年心血的文档对于整个公司来说应当具有更高的价值,并且其最终得分应当比普通文档要高。对于那些作者最为推荐的文档来说也是一样。因此,信息项的重要度还可与信息项的创建者对所创建的信息项的影响度相关联。
以上参照图3详细说明了用户、信息项以及创建者三者之间的内在关系。要注意的是,在本发明的可选实施方式中,可以在初始时,使得信息项(例如文档)仅具有来自于创建者(例如作者)对重要度的影响,例如,由作者的职务、领域关系、作者所耗费的时间或者作者本人的评价等对文档重要度的影响。随着系统的不断演进,更多的影响因子将起作用,这些影响因子可以基于与用户交互来进行和优化,最终反映诸如文档之类的信息项的真实价值。
此外,如前文所述,在搜索结果中对信息项的重要度的应用可以仅针对搜索结果的一部分进行。例如仅针对通过搜索关键字所过滤出的比如前500位小型结果集进行,因此工作量并不大。而且,优选的,诸如用户的权重之类的一些信息并非在运行时计算,而是在离线时计算,并且最终权重的总信息量并不大,其可以在存储器中高速缓存,对它们进行计算不会花费太长时间。
还需说明的是,如前所述,上述六个关系可以相互影响,比如搜索用户和信息项之间的关系将影响不同创建者之间的关系。最终这些关系的“生态系统”将达到平衡状态。例如,图4是示出根据本发明实施方式、在例如企业的组织中,创建者的关系如何影响信息项关系的示意图400。在企业的组织结构表中,架构师(图4中A)具有若干个报告给他的高级工程师(例如图4中B和C),这些高级工程师可能也有向其报告的初级工程师(例如图4中D和E)。架构师例如负责建筑架构,工程师们负责子组件,那么架构师所撰写的建筑学文档(即,信息项)应当与工程师所撰写的组件级文档(即,信息项)具有对应的强关系,如图4所示。
图5示出了根据本发明实施方式的高级数据流的示意图。
如图所示,在搜索之前,诸如组织机构层级结构(比如信息项创建者之间的关系等)之类的企业框架501被映射到关系存储库502中,而由例如全文索引引擎503根据索引所分析的关系也被同步到关系存储库502中,并且这些离线演进和优化的关系可以被放置到计算系统504的例如搜索结果处理器的高速缓存中以便使用,这样,当用户进行搜索时,在全文索引引擎503中由例如关键字之类的搜索标准所命中的结果将不会立即返回给搜索用户,而是会基于高速缓存中所存储的相关内容,根据结果的重要度来向用户接口505返回信息项。并且,搜索用户与结果之间交互(包括点击/提升等)的行为也将被放置到关系存储库502中,用于动态演进整个系统。
接下来参照图6进一步描述根据本发明实施方式的用于搜索信息的设备600的框图。
如图所示,设备600包括:搜索装置601和筛选装置602,其中搜索装置601被配置为响应于从多个用户中的搜索用户接收关键字,在信息库中进行搜索以便获得待返回的一个或多个信息项;而筛选装置602被配置为基于所述一个或多个信息项中每个信息项的重要度,向所述搜索用户返回所述信息项。
在本发明的可选实施方式中,每个信息项的重要度可以与以下中的一个或多个相关联:所述每个信息项的创建者权重、所述创建者与所述搜索用户的相关性、所述搜索用户与所述多个用户中的其它用户的相关性、所述一个或多个信息项之间的相关性、所述多个用户对所述一个或多个信息项的历史兴趣、以及所述创建者对所创建的信息项的影响度。
在本发明的可选实施方式中,设备600还可以包括:创建者权重确定装置603,被配置为基于以下中的一个或多个确定所述创建者权重:所述创建者的部门、职务、领域知识、所处的地理位置、所述创建者所创建的各信息项的点击率、所述创建者所创建的各信息项的历史评价。
在本发明的可选实施方式中,设备600还可以包括:创建者-用户相关性建立装置604,被配置为基于以下中的一个或多个建立所述创建者与所述搜索用户的相关性:所述创建者与所述搜索用户之间的部门相关性、职务相关性、合作关系、领域知识相关性、地理位置相关性。
在本发明的可选实施方式中,设备600还可以包括:用户间相关性建立装置605,被配置为基于所述搜索用户与所述其它用户之间的搜索历史关系建立所述搜索用户与所述多个用户中的其它用户的相关性。
在本发明的可选实施方式中,设备600还可以包括:用户历史兴趣建立装置606,被配置为基于所述多个用户对所述信息项的点击历史和/或所述多个用户对所述信息项的评价历史建立所述多个用户对所述一个或多个信息项的历史兴趣。在本发明的进一步可选实施方式中,用户历史兴趣建立装置606可以包括关联兴趣建立装置610,被配置为在所述历史兴趣的建立过程中,将对彼此具有相关性的信息项集合中一个信息项的历史兴趣确定为对所述信息项集合中其它信息项的历史兴趣。
在本发明的可选实施方式中,设备600还可以包括:创建者-信息项影响度建立装置607,被配置为基于所述创建者为创建信息项所耗费的时间和/或所述创建者对所创建的各信息项的评价建立所述创建者对所创建的各信息项的影响度。
在本发明的可选实施方式中,设备600还可以包括:信息项间关系建立装置608,被配置为基于所述一个或多个信息项之间的内容相关性建立所述一个或多个信息项之间的相关性。
在本发明的可选实施方式中,内容相关性可以通过用户、机器学习、和/或分类工具确定。
在本发明的可选实施方式中,搜索装置601进一步包括:部分结果选取装置609,被配置为将针对所述关键字的全部搜索结果中与所述关键字最为关联的部分搜索结果作为待返回的所述一个或多个信息项。
在本发明的可选实施方式中,筛选装置602进一步被配置为在向所述用户返回所述信息项时,还向所述用户返回所述信息项的创建者信息。
在本发明的可选实施方式中,信息库611包括用于组织内部的信息库,和/或所述信息项包括文档。
至此已经描述了本发明的各种实施方式。通过上述描述可以看出,根据本发明的搜索方法和设备深入挖掘了信息项、信息项创建者以及搜索用户之间的内在的、客观存在的关系,并且将这些关系应用于对信息项的搜索之中,使得能够基于信息项的重要度来返回该信息项,提高了搜索的准确度。同时,根据本发明的方法和设备还可以是动态演进的,从而使得该方法和设备还具有自我学习和完善的技术效果。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (26)

1.一种搜索信息的方法,包括:
响应于从多个用户中的搜索用户接收关键字,在信息库中进行搜索以便获得待返回的一个或多个信息项;以及
基于所述一个或多个信息项中每个信息项的重要度,向所述搜索用户返回所述信息项。
2.根据权利要求1所述的方法,其中,所述每个信息项的重要度与以下中的一个或多个相关联:所述每个信息项的创建者权重、所述创建者与所述搜索用户的相关性、所述搜索用户与所述多个用户中的其它用户的相关性、所述一个或多个信息项之间的相关性、所述多个用户对所述一个或多个信息项的历史兴趣、以及所述创建者对所创建的信息项的影响度。
3.根据权利要求2所述的方法,其中,所述创建者权重基于以下中的一个或多个确定:所述创建者的部门、职务、领域知识、所处的地理位置、所述创建者所创建的各信息项的点击率、所述创建者所创建的各信息项的历史评价。
4.根据权利要求2所述的方法,其中,所述创建者与所述搜索用户的相关性基于以下中的一个或多个建立:所述创建者与所述搜索用户之间的部门相关性、职务相关性、合作关系、领域知识相关性、地理位置相关性。
5.根据权利要求2所述的方法,其中,所述搜索用户与所述多个用户中的其它用户的相关性基于所述搜索用户与所述其它用户之间的搜索历史关系建立。
6.根据权利要求2所述的方法,其中,所述多个用户对所述一个或多个信息项的历史兴趣基于所述多个用户对所述信息项的点击历史和/或所述多个用户对所述信息项的评价历史建立。
7.根据权利要求6所述的方法,其中,在所述历史兴趣的建立过程中,将对彼此具有相关性的信息项集合中一个信息项的历史兴趣确定为对所述信息项集合中其它信息项的历史兴趣。
8.根据权利要求2所述的方法,其中,所述创建者对所创建的各信息项的影响度基于所述创建者为创建信息项所耗费的时间和/或所述创建者对所创建的各信息项的评价建立。
9.根据权利要求2所述的方法,其中,所述一个或多个信息项之间的相关性基于所述一个或多个信息项之间的内容相关性建立。
10.根据权利要求9所述的方法,其中,所述内容相关性通过用户、机器学习、和/或分类工具确定。
11.根据权利要求1所述的方法,其中,在信息库中进行搜索以便获得待返回的一个或多个信息项进一步包括:
将针对所述关键字的全部搜索结果中与所述关键字最为关联的部分搜索结果作为待返回的所述一个或多个信息项。
12.根据权利要求1所述的方法,其中,在向所述用户返回所述信息项时,还向所述用户返回所述信息项的创建者信息。
13.根据权利要求1所述的方法,其中,所述信息库包括用于组织内部的信息库,和/或所述信息项包括文档。
14.一种搜索信息的设备,包括:
搜索装置,被配置为响应于从多个用户中的搜索用户接收关键字,在信息库中进行搜索以便获得待返回的一个或多个信息项;以及
筛选装置,被配置为基于所述一个或多个信息项中每个信息项的重要度,向所述搜索用户返回所述信息项。
15.根据权利要求14所述的设备,其中,所述每个信息项的重要度与以下中的一个或多个相关联:所述每个信息项的创建者权重、所述创建者与所述搜索用户的相关性、所述搜索用户与所述多个用户中的其它用户的相关性、所述一个或多个信息项之间的相关性、所述多个用户对所述一个或多个信息项的历史兴趣、以及所述创建者对所创建的信息项的影响度。
16.根据权利要求15所述的设备,还包括:
创建者权重确定装置,被配置为基于以下中的一个或多个确定所述创建者权重:所述创建者的部门、职务、领域知识、所处的地理位置、所述创建者所创建的各信息项的点击率、所述创建者所创建的各信息项的历史评价。
17.根据权利要求15所述的设备,还包括:
创建者-用户相关性建立装置,被配置为基于以下中的一个或多个建立所述创建者与所述搜索用户的相关性:所述创建者与所述搜索用户之间的部门相关性、职务相关性、合作关系、领域知识相关性、地理位置相关性。
18.根据权利要求15所述的设备,还包括:
用户间相关性建立装置,被配置为基于所述搜索用户与所述其它用户之间的搜索历史关系建立所述搜索用户与所述多个用户中的其它用户的相关性。
19.根据权利要求15所述的设备,还包括:
用户历史兴趣建立装置,被配置为基于所述多个用户对所述信息项的点击历史和/或所述多个用户对所述信息项的评价历史建立所述多个用户对所述一个或多个信息项的历史兴趣。
20.根据权利要求19所述的设备,其中,所述用户历史兴趣建立装置进一步包括:
关联兴趣建立装置,被配置为在所述历史兴趣的建立过程中,将对彼此具有相关性的信息项集合中一个信息项的历史兴趣确定为对所述信息项集合中其它信息项的历史兴趣。
21.根据权利要求15所述的设备,还包括:
创建者-信息项影响度建立装置,被配置为基于所述创建者为创建信息项所耗费的时间和/或所述创建者对所创建的各信息项的评价建立所述创建者对所创建的各信息项的影响度。
22.根据权利要求15所述的设备,还包括:
信息项间关系建立装置,被配置为基于所述一个或多个信息项之间的内容相关性建立所述一个或多个信息项之间的相关性。
23.根据权利要求22所述的设备,其中,所述内容相关性通过用户、机器学习、和/或分类工具确定。
24.根据权利要求14所述的设备,其中,所述搜索装置进一步包括:
部分结果选取装置,被配置为将针对所述关键字的全部搜索结果中与所述关键字最为关联的部分搜索结果作为待返回的所述一个或多个信息项。
25.根据权利要求14所述的设备,其中,筛选装置进一步被配置为在向所述用户返回所述信息项时,还向所述用户返回所述信息项的创建者信息。
26.根据权利要求14所述的设备,其中,所述信息库包括用于组织内部的信息库,和/或所述信息项包括文档。
CN201210571064.8A 2012-12-12 2012-12-12 用于搜索信息的设备和方法 Active CN103870520B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210571064.8A CN103870520B (zh) 2012-12-12 2012-12-12 用于搜索信息的设备和方法
US14/100,466 US10409871B2 (en) 2012-12-12 2013-12-09 Apparatus and method for searching information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210571064.8A CN103870520B (zh) 2012-12-12 2012-12-12 用于搜索信息的设备和方法

Publications (2)

Publication Number Publication Date
CN103870520A true CN103870520A (zh) 2014-06-18
CN103870520B CN103870520B (zh) 2019-09-06

Family

ID=50882145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210571064.8A Active CN103870520B (zh) 2012-12-12 2012-12-12 用于搜索信息的设备和方法

Country Status (2)

Country Link
US (1) US10409871B2 (zh)
CN (1) CN103870520B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004023A (zh) * 2014-12-10 2017-08-01 三星电子株式会社 轨迹数据的语义扩充

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968800B (zh) * 2019-11-26 2023-05-02 北京明略软件系统有限公司 一种信息推荐方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107719A1 (en) * 2001-02-07 2002-08-08 Tsang You Mon System of analyzing networked searches within business markets
US20080221961A1 (en) * 2007-03-09 2008-09-11 Collective Insight Llc Online collaborative goal marketplace
US20090204590A1 (en) * 2008-02-11 2009-08-13 Queplix Corp. System and method for an integrated enterprise search
US20100114561A1 (en) * 2007-04-02 2010-05-06 Syed Yasin Latent metonymical analysis and indexing (lmai)
US20100228711A1 (en) * 2009-02-24 2010-09-09 Microsoft Corporation Enterprise Search Method and System
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005103A1 (en) * 2006-06-08 2008-01-03 Invequity, Llc Intellectual property search, marketing and licensing connection system and method
US8782036B1 (en) 2009-12-03 2014-07-15 Emc Corporation Associative memory based desktop search technology

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107719A1 (en) * 2001-02-07 2002-08-08 Tsang You Mon System of analyzing networked searches within business markets
US20080221961A1 (en) * 2007-03-09 2008-09-11 Collective Insight Llc Online collaborative goal marketplace
US20100114561A1 (en) * 2007-04-02 2010-05-06 Syed Yasin Latent metonymical analysis and indexing (lmai)
US20090204590A1 (en) * 2008-02-11 2009-08-13 Queplix Corp. System and method for an integrated enterprise search
US20100228711A1 (en) * 2009-02-24 2010-09-09 Microsoft Corporation Enterprise Search Method and System
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004023A (zh) * 2014-12-10 2017-08-01 三星电子株式会社 轨迹数据的语义扩充

Also Published As

Publication number Publication date
US10409871B2 (en) 2019-09-10
US20140164397A1 (en) 2014-06-12
CN103870520B (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
US8041729B2 (en) Categorizing queries and expanding keywords with a coreference graph
US11275748B2 (en) Influence score of a social media domain
US20100138428A1 (en) Keyword output apparatus and method
US10102246B2 (en) Natural language consumer segmentation
US9135307B1 (en) Selectively generating alternative queries
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
KR20180126577A (ko) 관련 엔티티 탐색
CN102456057B (zh) 基于网上交易平台的检索方法、装置和服务器
Chen RETRACTED ARTICLE: Research on personalized recommendation algorithm based on user preference in mobile e-commerce
CN109241403A (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN103077254A (zh) 网页获取方法和装置
Gao et al. Seco-lda: Mining service co-occurrence topics for composition recommendation
Suzuki et al. Mutual evaluation of editors and texts for assessing quality of Wikipedia articles
Gui et al. IFC-based partial data model retrieval for distributed collaborative design
KR101683138B1 (ko) 정보검색장치 및 그 동작 방법
CN103870520A (zh) 用于搜索信息的设备和方法
Cha et al. Topic model based approach for improved indexing in content based document retrieval
Huang et al. PFPMine: A parallel approach for discovering interacting data entities in data-intensive cloud workflows
Gao et al. Service recommendation from the evolution of composition patterns
US20230004977A1 (en) Exploiting graph structure to improve results of entity resolution
CN111222918B (zh) 关键词挖掘方法、装置、电子设备及存储介质
Zhao et al. Detecting fake reviews via dynamic multimode network
Johny et al. Towards a social graph approach for modeling risks in big data and Internet of Things (IoT)
Xu et al. Attentive graph-based recursive neural network for collective vertex classification
US20160321575A1 (en) Scoring entries in a repository of business process models to facilitate searching

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200410

Address after: Massachusetts, USA

Patentee after: EMC IP Holding Company LLC

Address before: Massachusetts, USA

Patentee before: EMC Corp.

TR01 Transfer of patent right