CN1395206A - 一种收集、分析和提供网上信息的方法和系统 - Google Patents
一种收集、分析和提供网上信息的方法和系统 Download PDFInfo
- Publication number
- CN1395206A CN1395206A CN 02129500 CN02129500A CN1395206A CN 1395206 A CN1395206 A CN 1395206A CN 02129500 CN02129500 CN 02129500 CN 02129500 A CN02129500 A CN 02129500A CN 1395206 A CN1395206 A CN 1395206A
- Authority
- CN
- China
- Prior art keywords
- entity
- information
- user
- network information
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种收集、分析和提供网上信息的方法和系统。它根据用户预先提供的实体特性在网上为用户自动收集、维护和更新用户期望获得的信息;将经过概念扩展的实体特性描述同收集到的网上信息进行对比和评价,按照网页与实体的定量相关程度生成网页评分表;用户通过此评分便能获得与所关心的实体高度相关的网上信息,从而有效地实现一种个性化的网上信息收集与分发服务。
Description
所属领域:
本发明涉及网络信息服务技术领域,是一种收集、分析和提供网上信息的方法和系统。
背景技术:
随着互联网的不断发展和日益普及,网上的信息量在爆炸性增长,全球Web页面的数目已经超过20亿,中国的网页信息也已超过6000万。目前人们从网上获得信息的主要工具是浏览器,而通过浏览器得到信息通常有三种方式。第一,直接向浏览器输入一个关心的网址(URL),浏览器返回所请求的网页,根据该网页内容及其包含的链接文本的引导,获得自己需要的内容;第二,登录到某个知名门户网站,根据该网站提供的分类信息和相关链接,逐步浏览,寻找自己感兴趣的;第三,登录到某个搜索引擎网站,输入自己关心信息的关键词(字),根据返回的相关信息列表、摘要和链接引导,寻找自己需要的信息。
这三种方式各有特点,各有相对最适合的应用场合。第一种方式的应用是最有针对性的。第二种方式用户不一定有明确的目的,也可能是关心某种主题。第三种方式适用于用户大概知道自己要关心的内容,但不清楚哪里能够找到相关信息(即不知道哪些URL能给出这样的信息),在这种场合,搜索引擎能够为用户提供可能是相关内容的一个或多个网址及其摘要的列表,由用户一个个试探看是否自己需要的。现在的搜索引擎技术已经能做到在多数情况下满足用户的这种需要。
然而,尚有其它形式的网上信息需求没有被上述方法覆盖。例如,一个人可能会关心最近半年来网上出现了哪些关于他(她)的信息,一个企业可能要关心它做了一次大规模促销活动后一个月内网上有什么反响,一个政府机构可能会关心在一项政策法规颁布后的网上舆论。对于这样的信息需求,即“为了特定的目的,遍及网上所有网页,找到相关的精准答案,并可随时间自动更新”,目前已知的网上信息系统都不能很好地满足。
搜索引擎技术仅仅可以勉强地、间接地提供用户所追求的个性化信息服务,但是其实现起来繁复、效率不高、很不方便。比如某总经理“甲”,希望了解最近一段时间来网上有些什么关于他的信息(即他最近在网上的“知名度”如何)。为此,他登上某个搜索引擎,输入名字“甲”。极大的可能是,搜索引擎返回给他上万个条目,大致一看,许多虽含有“甲”的字,但和他一点关系都没有。于是他下一步输入“总经理”,利用搜索引擎提供的“结果中查询”功能,将上万个条目限制减少到上千个,但其中大部分仍然还是和他无关。用户需要一个一个察看,记录下真是和他有关的,然后仔细研究其内容,这显然“繁复、效率不高、很不方便”。这里的问题在于,现在的搜索引擎一般都是通用,要准备响应用户提出的任何查询词,同时没有关于查询用户的任何信息,因此给出的返回信息只能尽量“包罗万象”,谈不上什么针对性。利用多个关键字词进行限制能起到一些作用,但效果还是不够好。
另外,周知的搜索引擎技术也不能定期、持久地为单个用户专门收集和维护类似上述形式的个性化网页集合。德国专利申请DE10060654公布了一种通过搜索引擎自动发布信息的技术,但是有如下原因使得其尚不能支持理想的个性化网页收集与提供服务:
1.它并没有同用户个性化信息服务相结合,其用于搜索信息的原始信息集
合并非直接来源于用户,因此尚不是一种直接针对用户的个性化信息服
务方法。
2.它根据用户所输入的查询关键词扩展为几个相关属性的做法,没有完整
地体现关键词所代表的实体之间的关系(例如人的职务、工作单位或公
司的产品、所在地址等关系)。
3.它没有提出搜集系统采用增量式收集等保证网页新鲜度的措施。
4.它所解决的是西文信息检索的信息发布问题,其中所用的处理西文信息
的方法并不适于用来处理中文信息。
发明目的:
本发明的目的是提供一种根据实体的特性,收集、分析和提供网上相关信息的方法,以及采用该方法设计实现的系统,它以一种简单易用、又便于设计实现的方式支持个性化的网上信息收集与发布,明显改善目前人们在网上查找与特定实体相关信息的效果。发明的技术方案:
为达到上述目的,本发明所采取的技术方案为:一种收集、分析和提供网上信息的方法,以及采用该方法设计实现的系统,包括自动地从信息网络(包括Internet和企业内部网等)上收集信息,并且将收集到的信息提供给用户,这些信息的格式包括HTML/XML页面、以及doc、ppt、pdf、txt等其他网上流行信息格式的文档(以下统称为网页),其特征在于采取如下步骤:
1.取得用户对实体的特性描述,该实体是与用户期望获得的网上信息相关
的、具有特定名称的对象。
2.根据上述实体特性对收集到的网上信息进行匹配和评价,得出信息与该
实体的相关程度;
3.根据上述相关程度的评价将信息以指定的方式提供给用户。
在上述描述中,“用户”是指在系统中注册并享受系统服务的个人、公司或机构;“实体”则是指与用户期望获得的网上信息相关的、具有特定名称和区别特性的对象,包括个人、公司、机构、产品等社会元素对象,以及和行业或者技术领域相关的、具有特定名称和区别属性的非社会元素对象(例如某技术领域中的特定专题、某种程序设计模型、某个系统分析规范等)。
本发明通过考察网页是否与某个实体相关来实现个性化信息服务。因而用户的信息需求是通过指定一批有具体特性的实体来确定的。本发明要求用户预先提供明确的实体描述,即获得有关实体的各种可能的特性。例如,对于个人实体,涉及的特性可以包括姓名、工作单位、行业、社会形象、主要成果或代表作品等;对于公司或机构实体,其特性包括公司/机构名称、所在地、主要业务或产品等;对于产品类实体,其特性可包括名称、型号、规格、功能、表现形式等;对于特定技术领域实体,其特性包括技术名称、所属领域、主要功能或作用、与此有固定语义关系(上下位、部分—整体、同指等)的相关实体等。用户可以指定一个或多个实体(包括指定其自身为一个实体)作为信息收集、分析和提供服务的目标对象。
用户提供实体特性描述的方式包括:通过网上提交,电子邮件提交,或者填写纸质的表格提交。
系统根据用户提供的实体特性描述对每个收集到的网页(或其他格式的网上信息)进行相关程度评价。评价方法包括:实体关系的识别(例如判断人的单位、职务,或公司的地址、产品等),根据实体特性在网页中出现的频度和关系的类别进行分级评分,以及采用基于关键词的余弦算法计算网页与实体的相似度。
根据上述相关度评价,系统把满足要求的网页以用户指定的方式提供给用户,这些方式包括:按照相关度分值、更新时间、文件大小等指标进行排序或分类;自动生成摘要;将超过相关度阈值(例如0.6)的网页生成易于查阅的列表。用户可以上网来查看这样的列表,还可以通过电子邮件获得这样的列表,还可以指定每天或每积累到一定数量(10/20/…篇)的相关网页就获得一次电子邮件简报。有益效果:
与已知的技术相比,本发明可以以很好的效果实现个性化的网上信息服务。普通的搜索引擎做不到具体到实体一级的个性化,而一般的个性化网站也不提供基于搜索引擎、根据实体相关性的信息内容。具体而言,本发明有如下优点和积极效果:1.本发明通过考察收集到的网页是否与用户预先设定的某个实体相关来实现个性化信息收集和提供,用户的信息需求可以非常明确地表示出来。由于用户登记了详细的实体特性,系统可以非常有把握地过滤很大一部分不相关的网页,仅仅深入分析和考察相关的网页与某个实体的相关程度,而不是泛泛地处理网上信息。相关程度也可以很好地进行量化。因此本发明便于得到高效的实现,及时地完成海量网页信息和成千上万实体信息的对比评价。2.本发明可以完善地体现个性化网上信息服务。普通网站,不同的用户上去看的东西都一样;一些具备某些个性化服务的电子商务网站,采用跟踪记录用户以前浏览行为的方法,有区别地引导不同用户尽快到各自想到达的网页面。而本方法所导致的信息服务和这两种有本质的不同。这种不同在于目前流行的个性化服务只是影响浏览路径,基本信息集合对不同的用户是相同的,不同的用户完全可能看到同样的东西;而本方法相当于在原始信息集合上做了一个划分,每个用户只能看到自己的划分。这样,不同的用户访问感觉到的就是完全不同的信息。3.信息内容独特,针对性强,从而可用性高。这里提供的信息就是直接关于实体本身的,比如可以是用户自己的宣传,也可能是别人的评价,因此很容易为用户所关注。这样的信息已在一个网站上编目集中、而不是难以把握地分散在广阔的网络上,因此更容易为用户加以利用。
附图说明:
图1网上信息与实体相关度建立过程的示意图
图2个性化信息服务过程示意图
实施例:
下面结合附图,以实体为“个人”、“公司”、“机构”或“产品”的情况说明如何实施本专利所描述的方法和系统。本实施例提供了一种个性化的网上相关信息服务。
图1示意了建立网页等格式的网上信息与实体(个人,机构等)之间信息相关度的原理。图中R代表“实体信息登记”;A代表实体信息扩展分析;S代表“网上信息收集”;C代表“网上信息处理与对比评估”;L代表“网页或其他格式的网上信息与系统中已注册实体相关度的列表”,在图2中称为“网上信息-实体相关度信息列表总体”。其中,“实体信息登记”指的是用户提供或(和)服务者(设施)收集的实体特征信息。“网上信息收集”指的是一个基于计算机和网络的信息收集设施,包括适当的软件和硬件,从网上收集尽量多的网页或其他格式的信息。“处理与对比”指的是将所有的网上信息根据所有的实体信息进行分析并匹配比较的过程。“建立每个网页或其他格式的网上信息对每个实体的相关度”是这个对比过程的目标,最后要得到这个列表。
图2示意了在“网上信息-实体相关度信息列表总体”的基础上实现个性化信息服务的原理。它表示当已注册的用户登录到系统后,根据其所提供的实体名称(可能就是这个用户姓名),系统在图1中得到的列表L中挑选出和该实体最相关的信息的过程。图中E1代表“实体1的特征信息扩展分析结果”;En代表“实体n的特征信息扩展分析结果”;L(E1)代表“与实体1的特征信息扩展分析结果相关度较高的网上信息列表”;L(En)代表“与实体n的特征信息扩展分析结果相关度较高的网上信息列表”;L代表“网上信息-实体相关度信息列表总体”。
图1和图2分别代表构成本方法和系统两个阶段的工作方式。即图1示意信息收集和处理阶段,图2示意信息服务阶段。
由本发明方法为核心构成的系统有如下典型的应用场景:用户通过浏览器登上一个网站首页,输入自己的用户名和密码后进入系统,看到的信息条目都是和自己预定目标实体直接有关的。也可以进行简单的变形,使用电子邮件或者用普通邮件将信息做成简报定期寄给用户。
本发明可以通过如下步骤来完整地实现:
1)用户注册
2)实体登记
3)实体特性分析
4)网上信息收集与处理
5)实体信息和网上信息的对比评估
6)形成网上信息-实体相关度列表(评分表)
7)根据评分表提供相关信息服务其中2),3),4)和5)的流程关系如图1所示,其中R代表实体登记,A代表实体特性分析,S代表网上信息收集,C代表网上信息处理与对比评估,L代表相关度列表。图2表示的是7)所体现的概念,其中En代表实体n的特征信息分析结果,L(En)代表与实体n的特征信息相关度较高的网上信息列表,L代表网上信息-实体信息相关度列表总体。下面是对各个实施步骤的具体描述。用户注册:
系统要求用户提供关于自己的基本信息,包括用户名、密码等。提供的方式可以是通过网上提交,电子邮件,或者填写纸质的表格。实体登记:
系统要求用户提供关于实体的描述信息。提供的方式也可以是通过网上提交,电子邮件,或者填写纸质的表格。
系统记录用户与所登记实体的对应关系,作为提供个性化信息服务的依据。实体特性的取值要分注册实体属于哪种类型。例如:(1)对应个人的特性有:姓名,主要职业、社会兼职、社会形象、工作单位、代表作品等特性;(2)对应公司的特性有:名称(含别名、缩写名、英文名),属地、所属行业、产品(服务项目)、负责人(可选)等特性;(3)对应机构的特性有:名称(含别名、缩写名、英文名),属地、部门、性质、负责人(可选)等特性;(4)对应产品的特性有:名称(含别名、缩写名、英文名),属地、部门、性质、负责人(可选)等特性;其他类型情况类推。
根据具体的需要,还可以引入其它类型的实体特性。实体特性分析:
实体被登记后,不但要形成实体及其对应主要特性关系表,还要根据计算机中文信息处理技术进行概念分级扩展。概念分级扩展则是指根据中文概念的语义关系来扩充可能的关键词列表。概念分级处理需要依靠相关的中文概念/语义词典。例如若用户选定的是“大学教授,计算机专家”,则相对的两个集合可能是{大学,教授,高等教育,学者,高级知识分子}和{计算机,电脑,专家,软件,网络,信息技术}。这里的依据主要是同义词、近义词,以及词汇的上下位关系。作为方法的执行步骤之一,系统将会让用户看到并确认这个集合。经过上述处理后的实体登记信息,就整理为一个实体关键词元组的集合,每一元组都表示一个用户的特征信息属性集。网上信息收集与处理:
这一步主要是及时地收集网上的信息,包括新出现的和原来就有但现在更新了的;还要标出已经在系统内,但实际已不在网上了的或者网上有了更新版本的。具体来讲,就是要采用增量式收集方法,首先搜到尽量多的一批基础性网页或其他格式的网上信息进行历史存档,记录其内容、“网址”信息和“最近修改时间”信息。并通过采样统计得到各类不同网页的平均更新频率,依照这一频率的高低,确定下一次收集的时间。
网上信息处理就是要找到包含实体特性的那些网页或其他格式的网上信息,提取其关键词。为了更准确地判定网页等格式的网上信息的归属,需要建立起网页或其他格式的网上信息中实体关键词与其它非实体关键词对应关系表。对每一搜来的网上信息都用关键词表来抽象化,体现为每一网上信息都对应若干关键词元组。
这一步中,网上信息除了网页(HTML格式)之外,还可以包括其他格式的信息,例如doc、ppt、pdf、txt等。实体信息和网上信息的对比评估:
这一步采用的评价方法包括:先识别实体的各种关系(例如判断人的单位、职务,或公司的地址、产品等),然后根据实体特性的频度和实体关系的类别进行分级的加权计分。随后再采用基于关键词的余弦算法计算网页与实体的相似度。余弦算法是在前面的“实体信息分析”和“网上信息分析”两部分中,通过将用户实体的注册信息及其概念扩展信息和网上信息中提炼的关键词以元组向量的形式表示。可以通过计算两个向量夹角的余弦来判断相关程度。夹角越小,说明该网页或其他格式的网页链接信息与特定实体的相关度越高,其评分也越高。形成网上信息—实体相关度列表:
这个列表是上一步骤的结果,需要讲究的是其组织的方式,要便利后面所述服务的提供。这样一个相关度列表应能够体现网上信息与实体的对应相关程度。搜索引擎常用的倒排表是一个基本的选择,这种索引组织结构容易地解决类似查询“找出与给定词集相关的的所有文档”的问题。
假设系统有n个用户,m个网页,采用实体信息和网上信息的对比评估后,每一个网页或其他格式的网上信息都获得了n个分值。假设系统的相关度的范围是0到1之间,用户满意的标准是相关度小于等于1大于等于0.6。则每一网上信息的n个分值可以只保留对应于实体的,分值小于等于1大于等于0.6的部分。使用倒排表的方法,则每一用户都相应的获得了不超过m个的满足实体满意相关度的网页或其他格式的网页链接。根据评分表提供相关信息服务:
这是最后一步,基本方式是由用户登录到服务网站上,经过密码确认后即返回给用户上述相关度信息列表中和其预定实体关系比较密切的那些条目(例如相关度大于0.6的),按照分值高低的次序或按日期、事件等方式分类。其他的方式,例如定期给用户邮寄其预定的网上信息汇总简报,被认为是这种服务的扩充。
假设系统用户注册的实体中有三个同名者,都叫“李某”。其中之一的特征信息是大学教授,计算机科技人员,另一个是电视剧编剧,曾编过多部电视剧等,再一个是小说家,写过一些革命题材的小说。系统根据这些信息通过对网上信息内容的分析对比,就能确定出那些含有“李某”这个名字,且内容主要讲的是计算机、大学教育等应该是和第一个李某最相关;那些内容主要涉及影视等就和第二个李某相关;而内容和长篇小说,抗日战争等有关的最有可能是和第三个李某相关。从而系统就能在注册这些同名实体的用户登录时,分别反馈对应于他们注册的那个“李某”的信息。
Claims (10)
1.一种收集、分析和提供网上信息的方法,以及采用该方法设计实现的系统,包括自动地从信息网络上收集信息,并且将收集到的信息有针对性地提供给用户,其特征在于采取如下步骤:(1)取得用户对实体的特性描述,该实体是与用户期望获得的网上信息相关的、具有特定名称的对象;(2)根据上述实体特性对收集到的网上信息进行匹配和评价,定量化地得出信息与该实体的相关程度;(3)根据上述相关程度评价将信息以指定的方式提供给用户。
2.根据权利要求1所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(1)步中用户提供实体特性的方式为通过网上提交,或者通过电子邮件提交,或者填写纸质的表格提交。
3.根据权利要求1或2所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(1)步中用户可以指定一个或多个实体作为相关程度评价的目标对象,包括用户自己。
4.根据权利要求1、2或3所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(2)步中根据用户提供的实体特性描述,按照概念语义关系进行扩展,增加其它关键词,形成关键词列表或关键词元组集合。
5.根据权利要求1至4任一权利要求之一所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(2)步中网页与实体相关程度的评价依照网页中出现的实体描述中包含的实体关系进行评分。
6.根据权利要求1至4任一权利要求之一所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(2)步中网页与实体相关程度的评价按照网页中出现的扩展后实体特性中的关键词的频度进行评分。
7.根据权利要求1至4任一权利要求之一所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(2)步中网页与实体相关程度的评价通过将实体的特性及网页中的关键词表示为向量的形式,计算两个向量余弦的夹角来得到网上信息和实体相关程度的评分。
8.根据权利要求1至7任一权利要求之一所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(3)步把与实体相关的网页或网页的唯一标识加入到一个列表中,所述网页的唯一标识为网页的网上地址(URL)。
9.根据权利要求1至8任一权利要求之一所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(3)步在提供服务的时候,与每个实体相关的网页列表按照网页与实体的相关程度、网页被收集到的时间、或者最近一次修改的时间排序。
10.根据权利要求1至9任一权利要求之一所述的一种收集、分析和提供网上信息的方法和系统,其特征在于:第(3)步用户通过登录到服务网站上来获得信息服务,即看到其所关心实体的相关网页列表;或将所述的相关网页列表通过电子邮件方式提供给用户;或通过普通邮件得到与实体相关信息的简报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 02129500 CN1395206A (zh) | 2002-08-23 | 2002-08-23 | 一种收集、分析和提供网上信息的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 02129500 CN1395206A (zh) | 2002-08-23 | 2002-08-23 | 一种收集、分析和提供网上信息的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1395206A true CN1395206A (zh) | 2003-02-05 |
Family
ID=4746274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 02129500 Pending CN1395206A (zh) | 2002-08-23 | 2002-08-23 | 一种收集、分析和提供网上信息的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1395206A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007041961A1 (fr) * | 2005-10-14 | 2007-04-19 | Huawei Technologies Co., Ltd. | Système, serveur et méthode de réalisation d’un service personnalisé utilisateur |
WO2007071143A1 (fr) * | 2005-12-21 | 2007-06-28 | Tencent Technology (Shenzhen) Company Limited | Procédé et appareil destinés à émettre des informations réseau |
CN100461711C (zh) * | 2007-03-30 | 2009-02-11 | 华为技术有限公司 | 提供个性化体验的方法、装置、服务器系统及网管系统 |
WO2009070990A1 (fr) * | 2007-11-29 | 2009-06-11 | Huawei Technologies Co., Ltd. | Procédé, système et dispositif pour recueillir des informations d'utilisateur |
CN101819616A (zh) * | 2010-03-22 | 2010-09-01 | 北京工业大学 | 一种追踪隐私信息泄露的方法 |
US7962461B2 (en) | 2004-12-14 | 2011-06-14 | Google Inc. | Method and system for finding and aggregating reviews for a product |
CN101515269B (zh) * | 2008-02-20 | 2011-08-31 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101383730B (zh) * | 2008-10-30 | 2012-01-25 | 北京搜狗科技发展有限公司 | 确定权威网站的方法及装置 |
CN104239340A (zh) * | 2013-06-19 | 2014-12-24 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN106095912A (zh) * | 2016-06-08 | 2016-11-09 | 北京百度网讯科技有限公司 | 用于生成扩展查询词的方法和装置 |
-
2002
- 2002-08-23 CN CN 02129500 patent/CN1395206A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8161030B2 (en) | 2004-12-14 | 2012-04-17 | Google Inc. | Method and system for aggregating reviews and searching within reviews for a product |
US7962461B2 (en) | 2004-12-14 | 2011-06-14 | Google Inc. | Method and system for finding and aggregating reviews for a product |
US8380694B2 (en) | 2004-12-14 | 2013-02-19 | Google, Inc. | Method and system for aggregating reviews and searching within reviews for a product |
WO2007041961A1 (fr) * | 2005-10-14 | 2007-04-19 | Huawei Technologies Co., Ltd. | Système, serveur et méthode de réalisation d’un service personnalisé utilisateur |
WO2007071143A1 (fr) * | 2005-12-21 | 2007-06-28 | Tencent Technology (Shenzhen) Company Limited | Procédé et appareil destinés à émettre des informations réseau |
CN100461711C (zh) * | 2007-03-30 | 2009-02-11 | 华为技术有限公司 | 提供个性化体验的方法、装置、服务器系统及网管系统 |
WO2009070990A1 (fr) * | 2007-11-29 | 2009-06-11 | Huawei Technologies Co., Ltd. | Procédé, système et dispositif pour recueillir des informations d'utilisateur |
CN101515269B (zh) * | 2008-02-20 | 2011-08-31 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101383730B (zh) * | 2008-10-30 | 2012-01-25 | 北京搜狗科技发展有限公司 | 确定权威网站的方法及装置 |
CN101819616A (zh) * | 2010-03-22 | 2010-09-01 | 北京工业大学 | 一种追踪隐私信息泄露的方法 |
CN101819616B (zh) * | 2010-03-22 | 2011-08-10 | 北京工业大学 | 一种追踪隐私信息泄露的方法 |
CN104239340A (zh) * | 2013-06-19 | 2014-12-24 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
CN104239340B (zh) * | 2013-06-19 | 2018-03-16 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN104679783B (zh) * | 2013-11-29 | 2019-08-02 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN106095912A (zh) * | 2016-06-08 | 2016-11-09 | 北京百度网讯科技有限公司 | 用于生成扩展查询词的方法和装置 |
CN106095912B (zh) * | 2016-06-08 | 2020-12-08 | 北京百度网讯科技有限公司 | 用于生成扩展查询词的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
US9081861B2 (en) | Uniform resource locator canonicalization | |
CN1858733B (zh) | 信息检索系统和检索方法 | |
US7302646B2 (en) | Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor | |
USRE48437E1 (en) | Collecting and scoring online references | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
US8862580B1 (en) | Category-based search | |
US8682811B2 (en) | User-driven index selection | |
US20070078814A1 (en) | Novel information retrieval systems and methods | |
US20070192309A1 (en) | Method and system for identifying sentence boundaries | |
US20070067294A1 (en) | Readability and context identification and exploitation | |
US20070067217A1 (en) | System and method for selecting advertising | |
US20070185859A1 (en) | Novel systems and methods for performing contextual information retrieval | |
US20070208732A1 (en) | Telephonic information retrieval systems and methods | |
WO2008092254A1 (en) | An automated media analysis and document management system | |
CN101061478A (zh) | 提供与文档相关的信息 | |
CN1853183A (zh) | 用于改进对新闻文章分级的系统和方法 | |
US20050192948A1 (en) | Data harvesting method apparatus and system | |
CN1809804A (zh) | 补充有提供对来自预定义搜索查询的搜索结果的访问的url的搜索引擎 | |
JP2013516022A (ja) | 検索提案のクラスタ化及び提示 | |
KR20070039072A (ko) | 검색 엔진에서의 결과물 기반의 광고 개인화 | |
CN1918568A (zh) | 通用搜索引擎接口 | |
KR100434902B1 (ko) | 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법 | |
KR20020025142A (ko) | 키워드 광고 서비스를 위한 키워드 추천 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |