CN103092881A - 内联网搜索方法和装置、搜索引擎及终端设备 - Google Patents

内联网搜索方法和装置、搜索引擎及终端设备 Download PDF

Info

Publication number
CN103092881A
CN103092881A CN2011103471703A CN201110347170A CN103092881A CN 103092881 A CN103092881 A CN 103092881A CN 2011103471703 A CN2011103471703 A CN 2011103471703A CN 201110347170 A CN201110347170 A CN 201110347170A CN 103092881 A CN103092881 A CN 103092881A
Authority
CN
China
Prior art keywords
intranet
link
email
search results
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103471703A
Other languages
English (en)
Other versions
CN103092881B (zh
Inventor
王海川
祝慧佳
倪渊
包胜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201110347170.3A priority Critical patent/CN103092881B/zh
Priority to US13/662,585 priority patent/US20130110807A1/en
Priority to GB1219470.0A priority patent/GB2496500A/en
Priority to DE102012219878A priority patent/DE102012219878A1/de
Publication of CN103092881A publication Critical patent/CN103092881A/zh
Application granted granted Critical
Publication of CN103092881B publication Critical patent/CN103092881B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及内联网搜索方法和装置、搜索引擎及终端设备。一种内联网搜索方法包括:接收内联网查询;响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。本发明的一个实施例提高了内联网搜索引擎的性能,使其更能满足员工需要。

Description

内联网搜索方法和装置、搜索引擎及终端设备
技术领域
本发明总体上涉及内联网,特别地,本发明涉及内联网搜索方法和装置、搜索引擎及终端设备。
背景技术
目前,互联网的搜索技术较为成熟,但企业内联网的搜索却发展缓慢。不少企业的员工抱怨,通过企业内联网查找需要的信息困难且耗时。
目前,企业内联网搜索的一种技术是:将互联网搜索的技术移植到企业内联网中。但是,这种移植产生的问题是,由于内联网的数据源隔离、搜索比较零散、信息更新慢等特点,互联网搜索的技术并不完全适用。
企业内联网搜索的另一种技术是专门为企业开发的内联网搜索引擎。图1示出了一个现有技术的内联网搜索引擎及其外部环境的示意图。如图1所示,安装在终端设备212上的内联网搜索引擎201包括搜索引擎前端202、搜索缓存器205、内联网爬行单元208。内联网爬行单元208定期在企业内联网216上搜索新的链接,将搜索到的新的链接存储在搜索缓存器205中。由于该搜索是定期的,因此,通过设置搜索的周期,搜索缓存器205中存储的信息基本反映了企业内联网216目前能找到的所有链接。搜索引擎前端202中的接收单元203接收来自终端用户204的带有关键词的查询。按照该关键词,在搜索缓存器205中搜索与该关键词匹配的链接以便作为搜索结果反馈给终端用户204。
这些现有技术的内联网搜索引擎存在的问题是性能难以满足员工需要,具体体现在以下方面。
企业内联网的数据源之间相互隔离。企业的不同部门可能有不同的包含各种链接的子网页,但这些子网页不一定总是链接到企业的主页。这样,内联网爬行单元208在企业内联网216上寻找信息时,可能与某些信息相关的链接并没有链接在企业内联网216上。如果这些信息恰好是员工所需要的,就会造成员工查找需要的信息困难。
另外,由于员工的搜索比较分散,因此难以统计关键词的热门程度。所以,很多企业内联网不为搜索结果排序。即使排序,这种排序的权威性也差。
另外,企业内联网中更新慢,因此可能包含的很多信息已过时,影响搜索效果。
另外,企业中还有一些独立的数据源没有链接到内联网上,对于这些数据源,内联网搜索显然无能为力。此外,企业的一些信息安全性的考量也阻止了部分信息的共享。
发明内容
本发明的一个实施例解决的一个问题是克服背景技术提到的以上缺点中的至少一种。
根据本发明的一方面,提供了一种内联网搜索方法,包括:接收内联网查询;响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。
根据本发明的一方面,提供了一种内联网搜索装置,包括:接收单元,被配置为接收内联网查询;查询结果生成单元,被配置为响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。
根据本发明的一方面,提供了包括如上所述的内联网搜索装置的内联网搜索引擎。
根据本发明的一方面,提供了包括如上所述的内联网搜索引擎的终端设备。
本发明的一个实施例提高了现有技术的内联网搜索引擎的性能,使其更能满足员工需要。
附图说明
本申请中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。
图1示出了一个现有技术的内联网搜索引擎及其外部环境的示意图。
图2示出了适于用来实现本发明实施方式的示例性计算系统的框图。
图3示出了根据本发明的一个实施例的内联网搜索引擎及其外部环境的示意图。
图4示出了根据本发明的一个实施例的内联网搜索装置的框图。
图5示出了根据本发明的另一个实施例的内联网搜索引擎及其外部环境的示意图。
图6示出了根据本发明的一个实施例的内联网搜索方法的流程图。
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。
图2示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如所示,计算机系统100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中,与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图2所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。
所属技术领域的技术人员知道,本发明的多个方面可以体现为系统、方法或计算机程序产品。因此,本发明的多个方面可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明的多个方面还可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可用的程序码。
可以使用一个或多个计算机可读的介质的任何组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或任何以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任何合适的组合。在本文件的语境中,计算机可读存储介质可以是任何包含或存储程序的有形的介质,该程序被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可包括在基带中或者作为载波一部分传播的、其中体现计算机可读的程序码的传播的数据信号。这种传播的信号可以采用多种形式,包括——但不限于——电磁信号、光信号或任何以上合适的组合。计算机可读的信号介质可以是并非为计算机可读存储介质、但是能发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序的任何计算机可读介质。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者任何合适的上述组合。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者任何合适的上述组合。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C ”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的多个方面。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
本发明的核心思想是:一般来说,企业的电子邮件系统与内联网是相对独立的数据源。实际上,企业的电子邮件系统中含有大量有用的数据源信息。例如,员工要填写年终工作总结,因此需要找到进入年终总结填写页面的入口,但通过现有技术的内联网搜索引擎搜索找不到有用结果(例如,该链接当时可能没有被维护其的相关部门链在内联网上)。然而,实际上,在该员工的上司发给员工的某电子邮件中就有通向该年终总结填写页面的链接,并且在该电子邮件上详细注明了年终总结必须提交的绝限日。如果企业的内联网搜索引擎能够参考电子邮件系统中的信息的话,可能会大大提升搜索效果。
因此,根据本发明的一个实施例的内联网搜索引擎在定期从企业内联网上收集更新的数据的同时还定期搜索电子邮件系统,将电子邮件系统中的电子邮件中出现的链接也进行存储。另外,可选地,由于电子邮件系统中出现的链接甚至比企业内联网上搜索到的结果更重要,还可以在搜索结果排序时给电子邮件中出现的链接更高的评分,使其向搜索用户呈现时更靠前。
这样,本发明的一方面就获得了即使员工需要的某些重要链接可能由于不同部门的数据源互相隔离而没有链在内联网上也可能通过搜索电子邮件系统获得该链接的效果,因为电子邮件往往是跨多个部门广播的。
在另一方面,由于电子邮件系统中可能还包含对非内联网的其它数据源的链接,也扩大了搜索引擎的数据源。
在另一方面,由于获得的电子邮件系统中的电子邮件中包括时间信息,这样在搜索结果排序时就可能考虑到时间性,从而解决过时信息影响搜索效率的问题。另外,由于电子邮件包含大量最新信息,电子邮件中包含的链接比内联网搜索到的普通链接时间性更强。
在另一方面,由于电子邮件中出现的链接在企业中往往比那些没有出现在电子邮件中的链接更重要,且有可能通过电子邮件的发件人级别、收件人数目等判断所含链接的重要程度,提高了搜索结果呈现页面中排序的权威性。另外,由于电子邮件包含大量最新信息,电子邮件中重复出现的内容就包含了热点信息。按照热点程度排序的搜索结果就更具有权威性。
在另一方面,可以使每个用户只能从他/她作为电子邮件的收件人的那些电子邮件中获取信息,保证了搜索的安全性。
图3示出了根据本发明的一个实施例的内联网搜索引擎及其外部环境的示意图。与图1的区别在于:内联网搜索引擎201不但有定期在企业内联网216上搜索新链接的内联网爬行单元208,还有在电子邮件系统中搜索新电子邮件中出现的链接的电子邮件爬行单元207(内联网爬行单元208和电子邮件爬行单元207并称爬行器206)。内联网搜索引擎201还包括元信息提取单元209和排序及索引运算单元210。电子邮件爬行单元207、元信息提取单元209和排序及索引运算单元210组成查询结果生成单元211。如图4所示,查询结果生成单元211和接收单元203组成内联网搜索装置301。该内联网搜索装置301可以单独作为例如插件的产品出现。将该例如插件的产品安装到图1所示的通用内联网搜索引擎中可使通用内联网搜索引擎具有本发明的实施例实现的功能。
电子邮件系统230包含企业电子邮件服务器213和企业电子邮件存储器215。
接收单元203接收内联网查询。在一个实施例中,该内联网查询是带关键词的查询。当然,本领域技术人员还可以作出不使用关键词的其它查询方式。
查询结果生成单元211被配置为响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。在关键词查询的实施例中,查询结果生成单元211响应于该关键词查询,将电子邮件系统中与该关键词匹配的电子邮件中的链接作为搜索结果的一部分返回至搜索结果页面。
在本发明的一方面,所述搜索结果还包括在内联网中搜索到的与该内联网查询匹配的链接。
电子邮件爬行单元207定期搜索电子邮件系统中的新电子邮件中出现的链接,并将其保存到搜索缓存器205。然后,电子邮件爬行单元207将出现链接的新电子邮件通知元信息提取单元209,元信息提取单元209根据该通知提取出现链接的新电子邮件的元信息。元信息包含例如电子邮件标题中的关键词、发件人、收件人、邮件接收时间、邮件所含的截止日、邮件正文中的关键词中的一项或多项。可利用目前成熟的语义分析技术来完成上述提取。
排序及索引运算单元210根据提取的元信息为新保存到搜索缓存器的链接(包括搜索到的电子邮件中的链接和内联网中搜索到的链接)计算索引。对于电子邮件中的链接,主要根据电子邮件标题中的关键词(以及必要时邮件正文中的关键词)为其加索引。对于内联网中搜索到的链接,也可根据题目、摘要等所含的关键词为其加索引。对于加索引,目前已有成熟技术。
当接收单元203接收到内联网查询后,向搜索缓存器205发请求。在搜索缓存器205中,基于排序及索引运算单元210所加的索引与内联网查询的匹配,找到与内联网查询匹配的链接。排序及索引运算单元210响应于所述内联网查询,根据提取的元信息,对与所述内联网查询匹配的链接进行评估,以便根据评估结果对所述链接进行排序。
可选地,基于以下项中的一个或多个对与所述内联网查询匹配的链接进行评估:搜索结果与内联网查询的相似度、搜索结果的重要性、搜索结果的时间性。在内联网查询是关键词查询的情况下,搜索结果与内联网查询的相似度主要体现为搜索结果与关键词的相似度。
当然,还可以基于其它本领域技术人员能够联想到的项目对与所述内联网查询匹配的链接进行评估,只要这种项目对于给作为搜索结果的链接排序是合理的。
作为搜索结果与内联网查询的相似度的一个例子,索引中含有“年终总结报告”的链接与搜索关键词“年终总结报告”的相似度要比索引中含有“年终报告”的链接与搜索关键词“年终总结报告”的相似度高。目前在例如互联网上,根据相似度计算搜索结果的评分(即评估结果)并为其排序已有成熟技术。
可选地,搜索结果的重要性是基于以下项中的一个或多个确定的:链接的来源,即是来自电子邮件的,还是来自普通内联网搜索的;链接在电子邮件系统中被引用的次数;链接在内联网搜索中被其它页面引用的次数;引用链接的电子邮件的发件人级别和收件人数目。
对于链接的来源,链接在电子邮件系统中被引用一次被赋予链接在内联网搜索中被其它页面引用一次更高的重要性。对于链接在电子邮件系统中被引用的次数,链接在电子邮件系统中被引用的次数越多,重要性越高。对于链接在内联网搜索中被其它页面引用的次数,链接在内联网搜索中被其它页面引用的次数越多,重要性越高。对于电子邮件中的链接来说,引用链接的电子邮件的发件人级别越高,重要性越高。对于电子邮件中的链接来说,引用链接的电子邮件的收件人数目越多,重要性越高。
例如,可以规定:链接在电子邮件中出现一次得10分,在内联网搜索中被其它页面引用一次得1分。如果链接在电子邮件中出现,该电子邮件的发件人是部门经理加5分,如发件人是总经理加10分,如发件人是董事长加20分。如果链接在电子邮件中出现,收件人超过10个加1分,超过20个加2分,超过30个加3分,以此类推。
例如,A链接被两个电子邮件引用,没有在内联网搜索中被其它页面引用。这两个电子邮件中的第一个是董事长发出的,收件人为95人。这两个电子邮件中的另一个是部门经理发出的,收件人为5人。计算出重要性为(10+20+9)+(10+5)=54。
例如,B链接被一个电子邮件引用,在内联网搜索中被其它页面引用28次。该电子邮件的发件人是普通员工,收件人为17人。计算出重要性为10+1+28=39。
例如,C链接未被电子邮件引用,在内联网搜索中被其它页面引用25次。计算出重要性=25。
当然,也可以有重要性计算方法的其它规定方式,其对于本领域技术人员来说是容易作出的。
可选地,对于电子邮件中的链接来说,搜索结果的时间性是基于引用链接的电子邮件的接收时间、引用链接的电子邮件中的有效时间确定的,其中有效时间例如电子邮件中出现的截止时间、提交时间等重要日期。对于在内联网搜索中被其它页面引用的链接,搜索结果的时间性设为固定值。
例如,可以规定:对于电子邮件中的链接来说,如当前时间-电子邮件的接收时间≤1分钟,则时间性=40,但如果电子邮件出现的截止时间早于当前时间则该评分取消,变为0;如1分钟<当前时间-电子邮件的接收时间≤1小时,则时间性=30,但如果电子邮件出现的截止时间早于当前时间则该评分取消,变为0;如1小时<当前时间-电子邮件的接收时间≤1天,则时间性=20,但如果电子邮件出现的截止时间早于当前时间则该评分取消,变为0;如1天<当前时间-电子邮件的接收时间≤1周,则时间性=10,但如果电子邮件出现的截止时间早于当前时间则该评分取消,变为0;除此之外,时间性=0。对于在内联网搜索中发现的链接,由于这些链接携带较少的与其相关联的时间信息,因此将这些链接的时间性设为5。
例如,包含D链接的电子邮件的接收时间为2011年9月28日17点30分57秒,该电子邮件中含有截止日2011年9月29日17点30分57秒,当前时间为2011年9月29日18点6分5秒。计算出时间性=0。
例如,E链接是在内联网搜索中发现的链接。计算出时间性=5。
如某链接在多个电子邮件中出现,或既在电子邮件中出现,又在内联网搜索中发现,则针对每次出现计算时间性,然而取平均值或加权平均值。
当然,也可以有时间性计算方法的其它规定方式,其对于本领域技术人员来说是容易作出的。
在一个实施例中,当计算出搜索结果与内联网查询的相似度、搜索结果的重要性、搜索结果的时间性后,就求它们的平均值或加权平均值作为搜索结果的评估结果。当然,也可以规定其它由相似度、重要性、时间性计算评估结果的方法。
例如,对于链接F,搜索结果与关键词的相似度=28,搜索结果的重要性=16,搜索结果的时间性=10,相似度的权重=30%,重要性的权重=50%,时间性的权重=20%,则计算出评估结果=28×30%+16×50%+10×20%=18.4。
例如,对于链接G,搜索结果与关键词的相似度=10,搜索结果的重要性=50,搜索结果的时间性=20,相似度、重要性、时间性的权重不变,则计算出评估结果=10×30%+50×50%+20×20%=32。
搜索到的电子邮件中的链接与在内联网中与内联网查询匹配的链接在搜索结果页面上的呈现顺序基于评估结果。根据上面的例子,链接G在搜索结果页面上排在链接F的前面。在搜索结果页面上,通常是将搜索结果按评估结果从高到低进行排列。
图5示出了根据本发明的另一个实施例的内联网搜索引擎及其外部环境的示意图。图5与图4的区别是,电子邮件爬行单元207不直接在电子邮件系统230中搜索。取而代之的是,元信息提取单元209提取电子邮件系统中全部新电子邮件的元信息,并将出现链接的新电子邮件中的链接发至电子邮件爬行单元207。这样做的好处就是省略了企业电子邮件存储器215与电子邮件爬行单元207的连接,电子邮件爬行单元207可以直接从元信息提取单元209获取需要的链接。这样做的缺点是,元信息提取单元209提取的元数据增多,因为它不但要提取出现链接的新电子邮件的元信息,还要提取未出现链接的新电子邮件的元信息,而未出现链接的新电子邮件的元信息是无用的。
图6示出了根据本发明的一个实施例的内联网搜索方法的流程图。根据本发明的一个实施例的内联网搜索方法包括:在步骤S501,接收内联网查询。在步骤S502,响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (17)

1.一种内联网搜索方法,包括:
接收内联网查询;
响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。
2.根据权利要求1的内联网搜索方法,其中所述搜索结果还包括在内联网中搜索到的与该内联网查询匹配的链接。
3.根据权利要求2的内联网搜索方法,还包括:
对电子邮件系统中与该内联网查询匹配的电子邮件中的链接和在内联网中搜索到的与该内联网查询匹配的链接进行评估;
按评估结果对电子邮件系统中与该内联网查询匹配的电子邮件中的链接和在内联网中搜索到的与该内联网查询匹配的链接进行排序。
4.根据权利要求3的内联网搜索方法,还包括:
将电子邮件系统中的新电子邮件中出现的链接进行保存;
提取电子邮件系统中出现链接的新电子邮件的元信息;以及
根据提取的元信息为新保存的链接计算索引,其中所述索引用来与所述内联网查询进行比较以便确定与所述内联网查询的匹配,且对电子邮件系统中与该内联网查询匹配的电子邮件中的链接的评估基于提取的元信息。
5.根据权利要求3的内联网搜索方法,其中所述对电子邮件系统中与该内联网查询匹配的电子邮件中的链接和在内联网中搜索到的与该内联网查询匹配的链接进行评估的步骤基于以下项中的一个或多个进行:搜索结果与内联网查询的相似度、搜索结果的重要性、搜索结果的时间性。
6.根据权利要求5的内联网搜索方法,其中搜索结果的重要性是基于以下项中的一个或多个确定的:链接的来源;链接在电子邮件系统中被引用的次数;链接在内联网搜索中被其它页面引用的次数;引用链接的电子邮件的发件人级别和收件人数目。
7.根据权利要求5的内联网搜索方法,其中对于电子邮件中的链接来说,搜索结果的时间性是基于引用链接的电子邮件的接收时间、引用链接的电子邮件中的有效时间确定的;对于在内联网搜索中被其它页面引用的链接,搜索结果的时间性设为固定值。
8.一种内联网搜索装置,包括:
接收单元,被配置为接收内联网查询;
查询结果生成单元,被配置为响应于该内联网查询,将电子邮件系统中与该内联网查询匹配的电子邮件中的链接作为搜索结果的一部分返回。
9.根据权利要求8的内联网搜索装置,其中所述搜索结果还包括在内联网中搜索到的与该内联网查询匹配的链接。
10.根据权利要求9的内联网搜索装置,其中查询结果生成单元包括:
电子邮件爬行单元,被配置为将电子邮件系统中的新电子邮件中出现的链接保存到搜索缓存器;
元信息提取单元,被配置为提取电子邮件系统中出现链接的新电子邮件的元信息;
排序及索引运算单元,被配置为根据提取的元信息为新保存到搜索缓存器的链接计算索引,并响应于所述内联网查询,根据提取的元信息,对与所述内联网查询匹配的链接进行评估,以便根据评估结果对所述链接进行排序,其中所述索引用来与所述内联网查询进行比较以便确定与所述内联网查询的匹配。
11.根据权利要求10的内联网搜索装置,其中电子邮件爬行单元将电子邮件系统中的新电子邮件中出现的链接保存到搜索缓存器后,将出现链接的新电子邮件通知元信息提取单元,元信息提取单元根据该通知提取出现链接的新电子邮件的元信息。
12.根据权利要求10的内联网搜索装置,其中元信息提取单元提取电子邮件系统中全部新电子邮件的元信息,并将出现链接的新电子邮件中的链接发至电子邮件爬行单元。
13.根据权利要求10-12中任一个的内联网搜索装置,其中基于以下项中的一个或多个对与所述内联网查询匹配的链接进行评估:搜索结果与内联网查询的相似度、搜索结果的重要性、搜索结果的时间性。
14.根据权利要求13的内联网搜索装置,其中搜索结果的重要性是基于以下项中的一个或多个确定的:链接的来源;链接在电子邮件系统中被引用的次数;链接在内联网搜索中被其它页面引用的次数;引用链接的电子邮件的发件人级别和收件人数目。
15.根据权利要求13的内联网搜索装置,其中对于电子邮件中的链接来说,搜索结果的时间性是基于引用链接的电子邮件的接收时间、引用链接的电子邮件中的有效时间确定的;对于在内联网搜索中被其它页面引用的链接,搜索结果的时间性设为固定值。
16.一种包括根据权利要求8-15中任一个的内联网搜索装置的内联网搜索引擎。
17.一种包括根据权利要求16的内联网搜索引擎的终端设备。
CN201110347170.3A 2011-10-31 2011-10-31 内联网搜索方法和装置、搜索引擎及终端设备 Expired - Fee Related CN103092881B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201110347170.3A CN103092881B (zh) 2011-10-31 2011-10-31 内联网搜索方法和装置、搜索引擎及终端设备
US13/662,585 US20130110807A1 (en) 2011-10-31 2012-10-29 Intranet search, search engine and terminal equipment
GB1219470.0A GB2496500A (en) 2011-10-31 2012-10-30 Intranet search engine that takes account of email data
DE102012219878A DE102012219878A1 (de) 2011-10-31 2012-10-30 Intranetsuche, Suchmaschine und Datenstationseinrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110347170.3A CN103092881B (zh) 2011-10-31 2011-10-31 内联网搜索方法和装置、搜索引擎及终端设备

Publications (2)

Publication Number Publication Date
CN103092881A true CN103092881A (zh) 2013-05-08
CN103092881B CN103092881B (zh) 2015-12-16

Family

ID=47358844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110347170.3A Expired - Fee Related CN103092881B (zh) 2011-10-31 2011-10-31 内联网搜索方法和装置、搜索引擎及终端设备

Country Status (4)

Country Link
US (1) US20130110807A1 (zh)
CN (1) CN103092881B (zh)
DE (1) DE102012219878A1 (zh)
GB (1) GB2496500A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016184359A1 (zh) * 2015-05-21 2016-11-24 阿里巴巴集团控股有限公司 收发电子邮件的方法、电子邮件客户端、服务端和系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399940B (zh) * 2013-08-12 2016-08-10 北京理工大学 基于行为的领域信息检索方法
CN104881497A (zh) * 2015-06-17 2015-09-02 郑州悉知信息技术有限公司 一种搜索方法及客户端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1760867A (zh) * 2004-10-15 2006-04-19 微软公司 用于内联网搜索的方法和装置
US20070219993A1 (en) * 2006-03-17 2007-09-20 International Business Machines Corporation Page-ranking method and system
CN101091155A (zh) * 2004-06-29 2007-12-19 布莱克·布克斯塔夫 用于自动智能电子广告的方法和系统
US7499934B2 (en) * 2005-05-24 2009-03-03 International Business Machines Corporation Method for linking documents

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917480B2 (en) * 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US7617199B2 (en) * 2006-01-31 2009-11-10 Northwestern University Characterizing context-sensitive search results as non-spam
US8868540B2 (en) * 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US9584343B2 (en) * 2008-01-03 2017-02-28 Yahoo! Inc. Presentation of organized personal and public data using communication mediums

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101091155A (zh) * 2004-06-29 2007-12-19 布莱克·布克斯塔夫 用于自动智能电子广告的方法和系统
CN1760867A (zh) * 2004-10-15 2006-04-19 微软公司 用于内联网搜索的方法和装置
US7499934B2 (en) * 2005-05-24 2009-03-03 International Business Machines Corporation Method for linking documents
US20070219993A1 (en) * 2006-03-17 2007-09-20 International Business Machines Corporation Page-ranking method and system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王福荃: "企业信息搜索软件-IBM OmniFind特性简介", 《HTTP://WWW.IBM.COM/DEVELOPERWORKS/CN/DATA/LIBRARY/TECHARTICLES/DM-0711WANGFQ/》, 12 November 2007 (2007-11-12) *
胡伟红: "使用OmniFind进行多种数据源的搜索", 《HTTP://WWW.IBM.COM/DEVELOPERWORKS/CN/DATA/LIBRARY/TECHARTICLES/DM-0610HUWH/》, 25 October 2006 (2006-10-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016184359A1 (zh) * 2015-05-21 2016-11-24 阿里巴巴集团控股有限公司 收发电子邮件的方法、电子邮件客户端、服务端和系统

Also Published As

Publication number Publication date
CN103092881B (zh) 2015-12-16
GB2496500A (en) 2013-05-15
US20130110807A1 (en) 2013-05-02
GB201219470D0 (en) 2012-12-12
DE102012219878A1 (de) 2013-05-02

Similar Documents

Publication Publication Date Title
Fan et al. Adding regular expressions to graph reachability and pattern queries
US9324112B2 (en) Ranking authors in social media systems
US20190005025A1 (en) Performing semantic graph search
US7636713B2 (en) Using activation paths to cluster proximity query results
US10534781B2 (en) Website traffic optimization
CN107256267A (zh) 查询方法和装置
JP5916959B2 (ja) 動的データ取得方法およびシステム
EP3356951B1 (en) Managing a database of patterns used to identify subsequences in logs
CN103778251B (zh) 面向大规模rdf图数据的sparql并行查询方法
CN110046298A (zh) 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN110637316A (zh) 用于使用在线资源和神经网络处理以基于出版资料对组织进行分类的智能预期对象识别的系统和方法
US8489590B2 (en) Cross-market model adaptation with pairwise preference data
US9984161B2 (en) Accounting for authorship in a web log search engine
CN103092881A (zh) 内联网搜索方法和装置、搜索引擎及终端设备
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
US9990406B2 (en) Identifying missing content using searcher skill ratings
Liu et al. Dynamic updating of the knowledge base for a large-scale question answering system
US8489560B1 (en) System and method for facilitating the management of keyword/universal resource locator (URL) data
US20160321575A1 (en) Scoring entries in a repository of business process models to facilitate searching
Ma et al. Real-world RESTful service composition: a transformation-annotation-discovery approach
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质
Santos et al. Mimicking web search engines for expert search
CN110750555A (zh) 用于生成索引的方法、装置、计算设备以及介质
TW201901493A (zh) 資料搜尋方法
CN103870520A (zh) 用于搜索信息的设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151216

Termination date: 20181031

CF01 Termination of patent right due to non-payment of annual fee