CN1959674A - 网络搜索方法、网络搜索设备和用户终端 - Google Patents

网络搜索方法、网络搜索设备和用户终端 Download PDF

Info

Publication number
CN1959674A
CN1959674A CNA2006101383548A CN200610138354A CN1959674A CN 1959674 A CN1959674 A CN 1959674A CN A2006101383548 A CNA2006101383548 A CN A2006101383548A CN 200610138354 A CN200610138354 A CN 200610138354A CN 1959674 A CN1959674 A CN 1959674A
Authority
CN
China
Prior art keywords
search
user terminal
archives
network
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101383548A
Other languages
English (en)
Other versions
CN100507915C (zh
Inventor
叶伏君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Innovation Polymerization LLC
Gw Partnership Co ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2006101383548A priority Critical patent/CN100507915C/zh
Publication of CN1959674A publication Critical patent/CN1959674A/zh
Priority to PCT/CN2007/070577 priority patent/WO2008055428A1/zh
Priority to US12/463,064 priority patent/US20090228482A1/en
Application granted granted Critical
Publication of CN100507915C publication Critical patent/CN100507915C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络搜索方法,包括如下步骤:网络侧获取用户终端发送的搜索语句,并根据个人搜索档案和共享搜索档案处理所述搜索语句的关键词;网络侧搜索所述关键词,得到搜索结果;网络侧将所述搜索结果排序并显示。本发明还公开了一种网络搜索设备和用户终端,该网络搜索设备包括存储单元和处理单元,该用户终端包括终端数据存储单元、数据查询单元、数据管理单元和群管理单元。本发明通过用户终端之间的信息共享和对用户浏览搜索结果的反馈,不断完善个人搜索档案和共享搜索档案,并根据个人搜索档案和共享搜索档案丰富和完善用户的搜索语句,从而提高了搜索的准确性和覆盖率,更好的满足用户的搜索需求。

Description

网络搜索方法、网络搜索设备和用户终端
技术领域
本发明涉及网络信息搜索领域,尤其涉及一种根据搜索档案来提高准确性和覆盖率的搜索改进方法。
背景技术
随着网络上信息资源数量的飞速增长,网络搜索技术也正日益完善,现在已有很多的研究致力于提高搜索的准确性。通常方法,如Gmail个性化搜索引擎等,是通过收集用户感兴趣的搜索结果,如文档、视频的文本描述等,建立用户的兴趣档案,并根据该兴趣档案对搜索结果进行优先级排序,从而将用户感兴趣的结果显示在前面,使用户能够尽早找到想要的信息。但这些兴趣档案对用户是隐藏的,用户无法引导或干涉该兴趣档案的建立,且不同用户之间的兴趣档案也没有共享功能。
美国专利号为7031961的专利《System and Method for Searching andRecommending Objects from a Categorically Organized Information Repository》是Google的一个搜索技术专利,它能够根据用户个人的上下文信息或者群用户共享的上下文信息对用户搜索的语句进行扩展,从而提高搜索的准确性。该专利包括个人用户档案和群体用户档案,而档案的建立是根据用户保存的某个主题下的所有书签(bookmark,指向某内容的地址)相对应的文档集,得到包括关键字的数组,即从所有不同主题下的文档提取关键词,作为个人用户档案或群体用户档案。群的建立是根据用户保存同样的书签,每个群为一个主题。上下文信息是书签的题目和目录,以及用户档案。此方法可以在一定程度上提高搜索的准确性,但不能提高搜索的覆盖率,首先书签相对应的地址中的内容通常会改变,信息可能会变得很不相关;另外此专利中的书签目录为用户手工建立,没有自我更新,使得上下文信息很有限,从而限制了搜索范围。
发明内容
本发明要解决的问题是提供一种网络搜索方法,以提高网络搜索结果的准确性和覆盖率。
为达到上述目的,本发明的一实施例提供一种网络搜索方法,包括如下步骤:
网络侧获取用户终端发送的搜索语句,并根据个人搜索档案和共享搜索档案,处理所述搜索语句的关键词;
所述网络侧搜索所述处理后的关键词,获得搜索结果;
所述网络侧将所述搜索结果排序并发送给所述用户终端。
本发明的另一实施例提供一种网络搜索设备,包括存储单元和处理单元;
所述存储单元,用于存储网络侧共享搜索档案以及网络侧资源;
所述处理单元,用于根据所述存储单元中的内容对从用户终端接收到的搜索语句进行处理和搜索,向用户终端发送搜索结果,并根据用户终端对于搜索结果的操作记录更新所述存储单元中的共享搜索档案。
本发明的再一实施例提供一种网络搜索的用户终端,包括终端数据存储单元、数据查询单元和数据管理单元;
所述终端数据存储单元,用于存储用户终端对搜索结果的操作记录以及用户终端浏览过的网址;
所述数据查询单元,用于查询网络侧存储的共享搜索档案和/或个人搜索档案;
所述数据管理单元,用于对网络侧或本地存储的个人搜索档案内容和目录进行添加、和/或修改、和/或删除。
与现有技术相比,本发明具有以下优点:
本发明中网络搜索设备通过用户之间的信息共享和用户对搜索结果的浏览反馈,不断完善个人搜索档案和共享搜索档案;用户也可以根据自身的需要改变个人搜索档案的内容与结构。另外,网络搜索设备根据个人搜索档案和共享搜索档案丰富和完善用户的搜索语句,从而提高了搜索的准确性和覆盖率,更好的满足了用户的搜索需求。
附图说明
图1是本发明中实施例一的网络搜索方法的流程图;
图2是本发明中实施例一的网络侧对搜索语句进行处理的流程图;
图3是本发明中实施例一的网络侧根据处理内容进行搜索的流程图;
图4A是本发明中实施例一的网络侧处理搜索语句得到的目录的示意图;
图4B是本发明中实施例一的同义词库和属性词库的示意图;
图5是本发明中实施例一的更新个人属性词库的流程图;
图6是本发明中实施例一的更新共享属性词库的流程图;
图7A和图7B是本发明中实施例一的属性词库目录结构示意图;
图8A和图8B是本发明中实施例一的另一属性词库目录结构示意图;
图9A和图9B是本发明中实施例一的再一属性词库目录结构示意图;
图10是本发明中实施例二的网络搜索设备和用户终端结构示意图;
图11是本发明中实施例三的网络搜索设备和用户终端结构示意图。
具体实施方式
本发明的实施例一中,一种网络搜索的方法如图1所示,包括以下步骤:
步骤s101、用户终端更新个人搜索档案;
个人搜索档案包括个人同义词库和个人属性词库。用户首先注册帐号,登陆其个人帐号后,便可以添加需要的关键词在个人的同义词库中,并输入该关键词的同义词,得到该用户的个人同义词库;另外,在用户添加同义词时,系统会将系统共享同义词库内其他用户使用的同义词向该用户推荐,发送更新通知,用户可以选择添加或者拒绝添加;最后,系统也可将词典中的同义词向用户推荐,由用户选择添加或者拒绝添加。通过以上几种方法,用户可以在第一次使用时建立其个人同义词库,并在将来对该词库不断扩充。
用户的个人属性词库包括目录和该目录的属性词,在第一次使用时为空。系统在用户的搜索过程中可以不断的对用户的个人属性词库进行扩充,用户也可以对其进行编辑。
属性词库目录结构的建立包括以下四种方式:(1)根据搜索返回结果的标题和网址和结果文档内容来建立目录结构;(2)参考已有Yahoo、Sohu等分类比较成熟的网站的目录结构;(3)用户建立目录结构;(4)根据搜索返回结果的标题和网址来建立目录,可以根据需要对该目录进行添加分支目录和/或合并目录分支和/或删除分支目录。
步骤s102、网络侧根据个人搜索档案更新共享搜索档案;
共享搜索档案包括共享同义词库和共享属性词库。
网络侧将所有用户的个人同义词库进行整理和合并,得到一个总的同义词库,即为共享同义词库。另外,网络侧也可将词典中查询到的同义词添加到共享同义词库中来。根据此共享同义词库,网络侧可以向个人用户推荐同义词,来更新用户的个人同义词库。
共享属性词库包括目录和该目录的属性词,在第一次使用时为空。系统在用户的搜索过程中可以不断的对用户的个人属性词库进行扩充,目录结构的建立方式与个人属性词库的建立方式相同,在此不做重复描述。
步骤s103、用户终端输入搜索语句;
步骤s104、网络侧根据个人搜索档案和共享搜索档案,对搜索语句进行处理,得到处理后的关键词;
步骤s105、网络侧搜索处理后的关键词;
步骤s106、网络侧将搜索结果排序并显示;
步骤s107、网络侧更新个人搜索档案;
步骤s108、网络侧更新共享搜索档案。
其中,步骤s104中,网络侧对搜索语句进行处理的步骤如图2所示,具体包括:
步骤s201、对搜索语句进行切词,得到该搜索语句的关键词;
步骤s202、对关键词进行同义扩展;
同义扩展是指把关键词的同义词以逻辑或(or)的形式进行处理,例如关键词为X,X的同义词有X1、X2、...、Xn,则扩展原关键词为(X1orX2or...orXn)。每个同义词有一个相对应的权值,来显示该同义词被选择的频率。
步骤s203、对关键词进行属性限定;
属性限定是指把关键词的属性词以逻辑与(and)的形式限制原关键词,如X1的属性词为C11、C12、...、C1k,X2的属性词为C21、C22、...、C2k,...,Xn的属性词为Cn1、Cn2、...、Cnk,则限制原关键词为((X1andC11andC12and...andC1k)or(X2andC21andC22and...andC2k)or...or(XnandCn1andCn2and...andCnk));
步骤s204、整理对该关键词进行同义扩展和属性限定后的结果,并以逻辑或的形式表示;
步骤s205、每一逻辑或中为or关系的语句为一个目录;
步骤s206、根据每一目录的内容,计算每一目录的权值。
网络侧在步骤s205中得到对搜索语句的关键词进行处理所得到的多个目录后,对每个目录内容依次进行搜索并将搜索结果排序后显示的步骤如图3所示,包括:
步骤s301、网络侧获取目录内容;
步骤s302、网络侧判断用户个人搜索档案中是否存在该目录内容,不存在则进行步骤s303,否则进行步骤s308;
步骤s303、网络侧判断共享搜索档案中是否存在该目录内容,若不存在则进行步骤s304,否则进行步骤s306;
步骤s304、根据该目录内容在共享搜索档案中建立新的目录;
步骤s305、按照目录内容返回搜索结果,按照目录结构排序显示并结束;
步骤s306、显示包含该目录内容的目录,用户终端选择目录;
步骤s307、根据用户终端选择的目录,和该目录对应的属性词返回搜索结果,按照所选择的目录结构排序显示并结束;
步骤s308、用户终端判断是否需要选择或者编辑该目录,若不对目录进行选择或编辑则进行步骤s309,否则进行步骤s310;
步骤s309、根据用户终端个人搜索档案的目录结构返回搜索结果,按照目录结构排序显示并结束;
步骤s310、用户终端选择或者编辑目录;
步骤s311、根据用户终端选择的目录和目录对应的属性词返回搜索结果,按照选择的目录结构排序显示并结束。
该步骤中如果用户终端用原有的个人搜索档案对处理后的目录信息进行搜索,则根据该同义词、关键词和它的属性词,以及网页或业务与这些关键词的匹配程度排列搜索结果。如果没有该目录内容,就到共享搜索档案中查找,如果在共享搜索档案的关键词中,至少有一个与该目录内容相关的关键词曾被搜索过,则把该关键词相关的目录推荐给用户终端,用户终端可以选择包括该关键词的目录结构,根据用户终端的选择,将搜索结果进行排序显示。如果没有,则在共享搜索档案中根据该目录内容建立目录,并根据搜索返回的结果;根据前N个(如N=200)标题和内容,进行关键词的目录分类。用户终端也可以通过搜索共享搜索档案中的目录,从中选择部分目录添加到该用户终端的个人搜索档案中,修改原有的目录结构。
结合步骤s104和步骤s105,网络侧对搜索语句的关键词进行处理并返回搜索结果的实施例如下:
以用户终端搜索辣餐馆为例,如果找不到完全匹配的网页,则将搜索语句分为辣和餐馆。而辣是餐馆、饭店、辣椒等一级目录的属性词,餐馆、饭店、辣椒作为目录名称本身也是属性词,餐馆则与饭店是同义词:
如图4A所示,先通过辣和餐馆的同义词进行同义扩展为辣and(餐馆or饭店),然后把辣、餐馆和饭店的一级目录进行属性限定,不同的一级目录间以or的方式扩充,把搜索语句辣餐馆整合成:
((辣and餐馆)or(辣and饭店)or(辣and辣椒))and(餐馆or饭店)进行搜索。这里有6个目录,如果把该语句转换成or的形式A1orA2or...orAn,为:
(辣and餐馆)or(辣and餐馆and饭店)or(辣and餐馆)or(辣and饭店)or(辣and辣椒and餐馆)or(辣and辣椒and饭店);
删去重复部分,上述形式被精简为:
(辣and餐馆)or(辣and餐馆and饭店)or(辣and饭店)or(辣and辣椒and餐馆)or(辣and辣椒and饭店);
根据目录下的属性词找到相关目录(○表示目录节点):
餐馆→川菜,饭店→川菜,饭店→湘菜(共3个相关目录)
根据这3个目录分别的属性词(餐馆,川菜,辣)、(饭店,川菜,辣)、(饭店,湘菜,辣)以及各自的权值和内容的匹配程度,来调整搜索结果的排列顺序,并且以3个目录显示。
图4B所示为本发明中同义词库与属性词库的一种存储构造方式。以属性词库中的餐馆为例,在存储时的标识为Can+a,其中a为餐馆的权值;餐馆作为一级目录的目录词,同时也是属性词。同样,以川菜为例,存储时的标识为Chuan+c,c为川菜的权值,川菜所位于的一级目录是餐馆(Can+a)和饭店(Fan+d)。同时,属性词库中的餐馆(Can+a)和饭店(Fan+d)作为同义词存储在同义词库中。由此,本发明中同义词库与属性词库可以按照图4A与图4B所示的方式层层扩展。
步骤s107中,网络侧根据用户终端对搜索结果的浏览记录,对用户终端个人搜索档案进行更新,该更新包括对个人同义词库的更新和对个人属性词库的更新。
其中,对用户个人同义词库的更新包括:
1、同义词的删除:如果某个同义词的出现频率很低或者没有,则网络侧提醒用户删除该同义词。判断标准为:为出现频率设置一个阈值,如某同义词的出现频率低于该值,就做出提醒。阈值的设置有多种方法,例如令td=fck/n,其中n是一个正数,fck是同义词集合中第k个同义词ck在所有拥有该关键词的同义词的用户搜索后浏览的文档中、在所有同义词中出现的频率,即该同义词出现的次数与所有关键词出现的比值:
fc k = Σ i , j δ ck ( Ω ui ( f ) j ) / Σ i , j , k δ ck ( Ω ui ( f ) j )
该式中,ui指第i个用户,Ωui(f)j是指用户ui所浏览的文档集合的第j个文档,如果同义词ck出现在文档中,则δck为1,否则为0。
这种方法需要记录每次搜索时,用户浏览点击的文档中所有同义词出现的次数。也可以采用其他方法,例如根据用户反馈的结果,如当用户删除某个同义词的出现频率或者权值;也可由系统限定一个阈值。
2、同义词的添加:采用与以上也阈值设置相类似的方法,也可以为出现频率高的同义词设置一阈值,如果某同义词的搜索语句或返回结果出现频率高于该阈值,则说明该关键词对用户有用的概率很大,系统就会把该关键词加入用户的个人同义词库。用户也可以增加关键词到同义词库,或者搜索共享同义词库来选择增加同义词。
对用户个人属性词库的更新通过聚类完成,通过如基于DHT(DistributedHashing Table,分布式哈希表)、Bayesian Network(贝叶斯网络)或DecisionTree(决策树)等的聚类方法,可以为文档建立目录,并根据目录下的文档建立属性词。该更新的具体步骤如下:
1、根据用户对搜索结果内容的操作记录,提取用户感兴趣的内容,该操作纪录包括点击、和/或浏览、和/或保存、和/或复制等;
2、根据当前搜索目录,把每个内容文件映射到用户的目录下;
3、网络侧系统从内容中提取关键词到词库,作为该搜索目录的属性词。
对个人属性词库的更新的实施例如图5所示,包括:
步骤s501、记录用户最新浏览的内容;
步骤s502、将该内容与以前目录下的内容一起进行自动多层聚类;
步骤s503、为每一分支节点提取相应的一个属性词,作为目录名称,以最少改变为原则,尽量使用原有的目录名称;
步骤s504、用户从自动分类的某目录属性词中选择某一属性词作为该目录名称;
步骤s505、用户是否接受该目录的组织方式,如果接受,则进行步骤s506,否则进行步骤s507;
步骤s506、将所有的属性词映射到目录分支底层,作为该目录底层分支的属性词并结束,其中属性词之间的类别参数则根据其分类算法得到;
步骤s507、选取原来的目录结构,或用户进行目录修改;
步骤s508、将最新浏览的内容映射到底层目录;
步骤s509、根据目录下的内容用分类等方法提取属性词,属性词之间的类别参数则根据其分类算法得到。
步骤s108中,网络侧根据用户终端对搜索结果的浏览记录,对共享搜索档案进行更新,该更新包括对共享同义词库的更新和对共享属性词库的更新。
其中,对共享同义词库的更新为,网络侧将所有用户终端的个人同义词库进行合并,得到网络侧总的共享同义词库;或者将不同的用户终端根据搜速兴趣的不同分为不同的用户终端群,分别为不同的群更新其群的共享同义词库。
对共享属性词库的更新的步骤与对个人属性词库更新的步骤相似,该步骤的实施例如图6所示,包括:
步骤s601、记录用户最新浏览的内容;
步骤s602、把该内容映射到共享词库中属性词库的目录下;
步骤s603、与该目录下的所有内容一起自动进行多层聚类;
步骤s604、在每个目录分支从对应的属性词集合中选择目录属性词名称;
步骤s605、将属性词映射到底。其中每一个目录底层分支的属性词为这一目录分支的所有属性词。
例如用户想了解最近宝马和奥迪的信息,同时又想知道关于大众车(特定型号,特定城市...)修车,保养,保险等方面的信息。所以有不同的关键词:宝马、奥迪、大众,前两者的属性词主要是新出的车型新闻,而后者的属性词则是关于车的保修维护方面的信息。
该例中属性词库中目录的组织方式如图7A所示,一级目录可以为汽车,下面是大众、宝马、奥迪,大众下面又分为修车、保险,奥迪下面是资讯,宝马下面是资讯;或者经过用户编辑后,如图7B所示,汽车下面是大众和资讯,资讯下面是宝马和奥迪。目录结构不会给搜索结果带来很大的影响,因为聚类模型由目录下面的属性词、目录词和参数决定的(影响可能是非线性的)。图7B右边最底层目录宝马下面的属性词可能有资讯、最新、流行、新款、汽车等属性词。
属性词库中创建目录时,目录的名称可以从用户搜索得到的返回结果的标题中提取。通过标题可以把关键词进行排序,根据用户设定或网络侧系统设定的最大目录层次限定或词频限制,限制属性词的数目,如通过设定阈值,自动抛弃所有出现频率或权值低于该阈值的属性词。
例如用户输入搜索关键词宝马,返回结果的标题中关键词如下:汽车8次,BMW4次,报价4次,其他如指南资讯1次,博客一次,车主会一次,因为宝马、汽车在所有的内容中都出现,可以作为一级目录,如果选择宝马,则宝马作为一级目录。而BMW如存在于同义词库中则认为是同义词;如果不存在同义词库中,则通常将它也作为一级目录的关键词。而其余的词如报价、指南资讯、博客、车主会则为二级目录,所有关键词形成属性词模型。这里对于目录则可以设定最大目录层次。
对于用户的个人属性词库,则是通过记录用户对搜索结果的浏览和点击,获取用户感兴趣的网页、文档以及其它信息,进而产生用户个人目录和对应的属性词。本例中第一层目录可以是宝马,下面是资讯。
如果用户对目录不满意,则进行编辑:可能还有BMW为其中的一个目录,而用户会把该词放入同义词库。
如果用户搜索共享词库,得到共享词库中的目录,用户选择了部分目录结构:宝马下面为资讯,而把BMW作为宝马的同义词。则在一定时间后(共享词库的同义词库更新时间)BMW就会被送到共享词库的同义词库。BMW作为宝马的同义词,就把一些相关文档映射到BMW和宝马下面,建立BMW和宝马的相关目录和属性词。
根据用户浏览搜索结果的反馈,经过自动更新,最初的目录就是宝马,下面是资讯。如果用户又搜索了奥迪,根据用户浏览的情况,自动进行聚类时,汽车(最多的共用关键词,资讯也较多,但只选一个,所有关键词就作为属性词)下面是宝马和奥迪,通常还有很多属性词。
如果用户又搜索了大众,并主要关注大众的维修和保险。如图8A所示,整个目录进行重新的调整,主要是汽车下面多出大众的分支,大众下面是维修和保险。
而BMW作为同义词,如图8B所示,会和宝马在同一分支上,聚类时虽然作为同义词,但对下层对应的文档将分开,形成更下层的聚类目录,拥有自己的专门文档和属性词,以及相对应的权值。
该目录的另一组织方式如图9A与图9B所示。
本发明的实施例二提供了一种网络搜索设备,如图10所示,网络搜索设备100包括网络数据交互单元101、存储单元102和处理单元103。
其中网络数据交互单元101用于网络搜索设备100与各个用户终端之间的信息交互。
存储单元102,用于存储各用户终端个人搜索档案、网络侧共享搜索档案以及网络侧资源;该存储单元102进一步包括网络资源子单元1021、共享档案子单元1022和个人档案子单元1023;
网络资源子单元1021,用于存储网络侧所有的网页资源;
共享档案子单元1022,用于存储网络侧向用户终端共享的词库,包括共享同义词库和共享属性词库;该共享档案子单元对不同的用户终端使用相同的共享内容,或者对不同的用户终端使用不同的用户终端群共享内容。
个人档案子单元1023,用于存储各用户终端的注册信息以及用户终端的词库,该词库包括个人同义词库和个人属性词库。
处理单元103,用于处理从用户终端接收到的搜索命令,并发送搜索结果,该处理单元103进一步包括搜索子单元1031、档案更新子单元1032和搜索语句处理子单元1033;
搜索语句处理子单元1033,用于对从用户终端接收到的搜索语句进行处理,具体实例如下:
(1)接收到用户终端登录的信息(UserID,Password)时,对用户终端进行身份认证,并且返回正确或错误的信息,可以用Boolean表示;
(2)收到用户终端的搜索语句(UserID,搜索语句)时,根据共享档案子单元1022和个人档案子单元1023中存储的内容,将该搜索语句进行完善和丰富,处理包括切词、同义扩展和属性限定;
(3)接收到用户查询搜索档案的功能(UserID,关键词,PersonalProfile)或(UserID,关键词,SharedProfile)时,根据用户请求返回相关目录(UserID,目录结构),并根据用户对目录的选择和编辑,以及相关的属性词模型(UserID,Revised目录结构和属性词模型),对搜索语句进行属性词的扩充;
档案更新子单元1032,用于根据用户终端对搜索结果的点击浏览,更新共享档案子单元1022和个人档案子单元1023;该更新包括同义词库中同义词的添加、修改、合并和删除,以及属性词库中目录和属性词的添加、修改合并和删除。
搜索子单元1031,用于根据所述处理后的搜索命令进行搜索,并将搜索结果排序后发送给用户终端。
本发明的实施例二还提供了一种网络搜索的用户终端,如图10所示,该用户终端200包括终端数据交互单元201、输入单元202、终端数据存储单元203、数据查询单元204、数据管理单元205和群信息单元206。
其中,终端数据交互单元201用于用户终端与网络侧的信息交互;
输入单元202用于用户终端的操作,用户终端通过该单元登录、发送搜索语句、浏览搜索结果;
终端数据存储单元203,用于存储用户终端对于搜索结果的操作以及用户终端浏览过的网页、文档、音频和/或视频等网址;
数据查询单元204,用于查询网络侧存储的共享搜索档案和个人搜索档案;
数据管理单元205,用于对网络侧存储的个人搜索档案内容和目录进行修改;
群信息单元206,用于管理用户终端所在的用户终端群的信息。该用户终端群的加入或退出由用户终端进行控制,并选择共享的目录和文档;或由网络侧根据该用户的搜索记录和浏览记录通过自动聚类进行控制。
本发明的实施例三提供了另一种网络搜索设备,如图11所示,网络搜索设备300包括网络数据交互单元301、存储单元302和处理单元303。
其中网络数据交互单元301用于网络搜索设备300与各个用户终端之间的信息交互。
存储单元302,用于存储网络侧共享搜索档案以及网络侧资源;该存储单元302进一步包括网络资源子单元3021和共享档案子单元3022;
网络资源子单元3021,用于存储网络侧所有的网页资源;
共享档案子单元3022,用于存储网络侧向用户终端共享的词库,包括共享同义词库和共享属性词库;该共享档案子单元对不同的用户终端使用相同的共享内容,或者对不同的用户终端使用不同的用户终端群共享内容。
处理单元303,用于处理从用户终端接收到的搜索命令,并发送搜索结果,该处理单元303进一步包括搜索子单元3031、档案更新子单元3032和搜索语句处理子单元3033;
搜索语句处理子单元3033,用于根据共享档案子单元3022和从用户终端侧获取的用户终端个人档案中存储的内容,对从用户终端接收到的搜索语句进行处理,具体处理操作与实施例二所述相同,在此不做重复描述;
档案更新子单元3032,用于根据用户终端对搜索结果的点击浏览,更新共享档案子单元3022,该更新包括同义词库中同义词的添加、修改、合并和删除,以及属性词库中目录和属性词的添加、修改合并和删除;
搜索子单元3031,用于根据所述处理后的搜索命令进行搜索,并将搜索结果排序后发送给用户终端。
本发明的实施例三还提供了另一种网络搜索的用户终端,如图11所示,该用户终端400包括终端数据交互单元401、输入单元402、终端数据存储单元403、数据查询单元404、数据管理单元405、群信息单元406、和个人档案子单元407。
其中,终端数据交互单元401用于用户终端与网络侧的信息交互;
输入单元402用于用户终端的操作,用户终端通过该单元登录、发送搜索语句、浏览搜索结果;
终端数据存储单元403,用于存储用户终端对于搜索结果的操作以及用户终端浏览过的网页、文档、音频和/或视频等网址;
数据查询单元404,用于查询网络侧存储的共享搜索档案;
数据管理单元405,用于对本地存储的个人搜索档案内容和目录进行管理,包括同义词库中同义词的添加、修改、合并和删除,以及属性词库中目录和属性词的添加、修改合并和删除;
群信息单元406,用于管理用户终端所在的用户终端群的信息。该用户终端群的加入或退出由用户终端进行控制,并选择共享的目录和文档;或由网络侧根据该用户的搜索记录和浏览记录通过自动聚类进行控制;
个人档案子单元407,用于存储各用户终端的注册信息以及用户终端个人搜索档案的词库,该词库包括个人同义词库和个人属性词库。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (29)

1、一种网络搜索方法,其特征在于,包括如下步骤:
网络侧获取用户终端发送的搜索语句,并根据个人搜索档案和共享搜索档案处理所述搜索语句的关键词;
所述网络侧搜索所述处理后的关键词,获得搜索结果;
所述网络侧将所述搜索结果排序并发送给所述用户终端。
2、如权利要求1所述网络搜索方法,其特征在于,所述个人搜索档案包括个人同义词库和个人属性词库,所述共享搜索档案包括共享同义词库和共享属性词库。
3、如权利要求1所述网络搜索方法,其特征在于,所述网络侧获取用户终端发送的搜索语句前还包括:
用户终端更新个人搜索档案;
网络侧根据所述个人搜索档案更新共享搜索档案。
4、如权利要求3所述网络搜索方法,其特征在于,所述用户终端对所述个人搜索档案中的更新具体为:
根据网络侧的更新通知主动添加、和/或修改、和/或删除个人同义词库中的同义词;
通过对原有目录内容的自动聚类主动添加、和/或修改、和/或合并个人属性词库中的目录及目录的属性词。
5、如权利要求3所述网络搜索方法,其特征在于,所述网络侧对所述共享搜索档案的更新具体为,整理各所述用户终端的个人共享目录中的同义词,根据各所述同义词的词频添加、和/或修改、和/或删除共享同义词库中的同义词,并向用户终端发送更新通知。
6、如权利要求1所述网络搜索方法,其特征在于,所述网络侧将搜索结果排序并发送给所述用户终端后还包括:
所述网络侧根据用户终端对所述搜索结果的操作记录更新所述个人搜索档案和所述共享搜索档案。
7、如权利要求6所述网络搜索方法,其特征在于,所述网络侧对所述个人搜索档案的个人同义词库和所述共享搜索档案的共享同义词库的更新具体为,添加、和/或修改、和/或删除同义词。
8、如权利要求6所述网络搜索方法,其特征在于,所述网络侧对所述个人搜索档案的个人属性词库和所述共享搜索档案的共享属性词库的更新具体为,将所述操作记录中的内容分别与所述个人属性词库、所述共享属性词库的原有目录内容通过自动聚类进行目录及目录属性词的添加、和/或修改、和/或合并。
9、如权利要求1所述网络搜索方法,其特征在于,对所述搜索语句的关键词进行处理时,对不同的用户终端使用相同的共享搜索档案。
10、如权利要求1所述网络搜索方法,其特征在于,对所述搜索语句的关键词进行处理时,对不同的用户终端使用所述用户终端所在用户终端群的共享搜索档案。
11、如权利要求10所述网络搜索方法,其特征在于,所述用户终端或所述网络侧选择所述用户终端所在的用户终端群。
12、如权利要求11所述网络搜索方法,其特征在于,所述网络侧通过自动聚类选择所述用户终端所在的用户终端群。
13、如权利要求1所述网络搜索方法,其特征在于,对所述搜索语句的关键词的处理进一步包括以下步骤:
对所述关键词进行同义扩展和属性限定;
根据所述同义扩展和属性限定后的结果建立或选择目录。
14、如权利要求13所述网络搜索方法,其特征在于,所述同义扩展为,根据所述个人同义词库和/或共享同义词库,将所述关键词以逻辑或的形式进行扩展。
15、如权利要求13所述网络搜索方法,其特征在于,所述属性限定为,根据所述个人属性词库和/或共享属性词库,将所述关键词以逻辑与的形式进行限定。
16、如权利要求13所述网络搜索方法,其特征在于,所述目录的建立或选择进一步包括:
整理对所述关键词进行所述同义扩展和属性限定后的结果;
将所述结果以逻辑或的形式表示;
为每一所述逻辑或中为并列关系的语句建立或选择目录并计算每一所述目录的权值。
17、如权利要求16所述网络搜索方法,其特征在于,所述网络侧搜索所述处理后的关键词具体为,对每一所述目录的内容进行搜索。
18、如权利要求16所述网络搜索方法,其特征在于,按照所述搜索结果与所在目录的匹配程度以及所在目录的权值进行排序。
19、一种网络搜索设备,其特征在于,包括存储单元和处理单元;
所述存储单元,用于存储网络侧共享搜索档案以及网络侧资源;
所述处理单元,用于根据所述存储单元中的内容对从用户终端接收到的搜索语句进行处理和搜索,向用户终端发送搜索结果,并根据用户终端对于搜索结果的操作记录更新所述存储单元中的共享搜索档案。
20、如权利要求19所述网络搜索设备,其特征在于,所述存储单元进一步包括共享档案子单元和网络资源子单元;
所述共享档案子单元,用于存储网络侧向用户终端共享的词库,所述词库包括共享同义词库和共享属性词库;
所述网络资源子单元,用于存储网络侧的网页资源。
21、如权利要求20所述网络搜索设备,其特征在于,所述共享档案子单元对不同的用户终端使用相同的共享内容。
22、如权利要求20所述网络搜索设备,其特征在于,所述共享档案子单元对不同的用户终端使用不同的用户终端群共享内容。
23、如权利要求20所述网络搜索设备,其特征在于,所述存储单元还包括个人档案子单元,用于存储各用户终端的词库,所述词库包括个人同义词库和个人属性词库。
24、如权利要求19所述网络搜索设备,其特征在于,所述处理单元进一步包括搜索语句处理子单元、搜索子单元和档案更新子单元;
所述搜索语句处理子单元,用于根据所述共享档案子单元和/或所述个人档案子单元对从用户终端接收到的搜索语句进行处理,其中所述个人档案子单元从本地或者用户终端侧获取;
所述搜索子单元,用于根据所述处理后的搜索语句进行搜索,并将搜索结果排序后发送给用户终端;
所述档案更新子单元,用于根据用户终端对于搜索结果的操作记录更新所述共享档案子单元。
25、如权利要求24所述网络搜索设备,其特征在于,所述搜索语句处理子单元的处理功能包括切词、和/或同义扩展、和/或属性限定。
26、如权利要求24所述网络搜索设备,其特征在于,所述个人档案子单元位于本地时,所述档案更新子单元还用于更新所述个人档案子单元。
27、一种网络搜索的用户终端,其特征在于,包括终端数据存储单元、数据查询单元和数据管理单元;
所述终端数据存储单元,用于存储用户终端对搜索结果的操作记录以及用户终端浏览过的网址;
所述数据查询单元,用于查询网络侧存储的共享搜索档案和/或个人搜索档案;
所述数据管理单元,用于对网络侧或本地存储的个人档案内容和目录进行添加、和/或修改、和/或删除。
28、如权利要求27所述用户终端,其特征在于,还包括个人档案子单元和群信息单元;
所述个人档案子单元,用于存储用户终端个人档案的词库,所述词库包括个人同义词库和个人属性词库;
所述群信息单元,用于管理用户终端所在的用户终端群的信息。
29、如权利要求28所述网络搜索的用户终端,其特征在于,所述用户终端群的加入或退出由网络侧通过自动聚类或由所述用户终端进行控制。
CNB2006101383548A 2006-11-09 2006-11-09 网络搜索方法、网络搜索设备和用户终端 Active CN100507915C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB2006101383548A CN100507915C (zh) 2006-11-09 2006-11-09 网络搜索方法、网络搜索设备和用户终端
PCT/CN2007/070577 WO2008055428A1 (fr) 2006-11-09 2007-08-28 Procédé, système et dispositif de recherche de réseau
US12/463,064 US20090228482A1 (en) 2006-11-09 2009-05-08 Network search method, system and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006101383548A CN100507915C (zh) 2006-11-09 2006-11-09 网络搜索方法、网络搜索设备和用户终端

Publications (2)

Publication Number Publication Date
CN1959674A true CN1959674A (zh) 2007-05-09
CN100507915C CN100507915C (zh) 2009-07-01

Family

ID=38071374

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101383548A Active CN100507915C (zh) 2006-11-09 2006-11-09 网络搜索方法、网络搜索设备和用户终端

Country Status (3)

Country Link
US (1) US20090228482A1 (zh)
CN (1) CN100507915C (zh)
WO (1) WO2008055428A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008055428A1 (fr) * 2006-11-09 2008-05-15 Huawei Technologies Co., Ltd. Procédé, système et dispositif de recherche de réseau
CN101819576A (zh) * 2009-12-22 2010-09-01 无锡语意电子政务软件科技有限公司 一种用户可编程的搜索系统及方法
CN101312406B (zh) * 2007-05-25 2011-07-13 中兴通讯股份有限公司 一种分批上载多网元日志的方法
CN102982099A (zh) * 2012-11-05 2013-03-20 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN104331398A (zh) * 2014-10-30 2015-02-04 百度在线网络技术(北京)有限公司 生成同义词对齐词典的方法及装置
CN104636398A (zh) * 2013-11-15 2015-05-20 腾讯科技(北京)有限公司 搜索用户生成内容的方法、装置、服务器和系统
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN107766420A (zh) * 2011-12-29 2018-03-06 迈克菲公司 协作搜索
CN107992602A (zh) * 2017-12-14 2018-05-04 北京百度网讯科技有限公司 搜索结果展示方法和装置
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9977831B1 (en) 1999-08-16 2018-05-22 Dise Technologies, Llc Targeting users' interests with a dynamic index and search engine server
US9195756B1 (en) * 1999-08-16 2015-11-24 Dise Technologies, Llc Building a master topical index of information
US8504554B2 (en) 1999-08-16 2013-08-06 Raichur Revocable Trust, Arvind A. and Becky D. Raichur Dynamic index and search engine server
CN101420460A (zh) * 2008-12-08 2009-04-29 腾讯科技(深圳)有限公司 创建聚合容器及为用户匹配聚合容器的方法及装置
BR112012026345A2 (pt) 2010-04-14 2020-08-25 The Dun And Bradstreet Corporation imputação de atributos acionáveis a dados que descrevem uma identidade pessoal
CN102737018A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 基于非线性统一权值对检索结果进行排序的方法及装置
US9785628B2 (en) * 2011-09-29 2017-10-10 Microsoft Technology Licensing, Llc System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication
US9772765B2 (en) 2013-07-06 2017-09-26 International Business Machines Corporation User interface for recommended alternative search queries
US9760608B2 (en) * 2013-11-01 2017-09-12 Microsoft Technology Licensing, Llc Real-time search tuning
CN104715066B (zh) * 2015-03-31 2017-04-12 北京奇付通科技有限公司 一种搜索优化方法、装置和系统
CN108153792B (zh) * 2016-12-02 2023-04-18 阿里巴巴集团控股有限公司 一种数据处理方法和相关装置
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots
CN110661925B (zh) * 2019-08-30 2021-10-26 咪咕动漫有限公司 屏蔽方法、服务器及计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493702B1 (en) * 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
CN1320873A (zh) * 2001-04-09 2001-11-07 王纤巧 动态搜索引擎
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
KR20030024297A (ko) * 2001-09-17 2003-03-26 (주)넷피아닷컴 검색 시스템 및 그 방법
JP4378131B2 (ja) * 2003-08-12 2009-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理システムおよびデータベースの検索方法並びにプログラム
EP1665092A4 (en) * 2003-08-21 2006-11-22 Idilia Inc INTERNET SEARCH USING SEMANTIC DISAMBIGUING AND EXPANSION
CN1598814A (zh) * 2003-09-19 2005-03-23 鸿富锦精密工业(深圳)有限公司 同义词分类检索系统及方法
CN1744537A (zh) * 2004-08-30 2006-03-08 上海乐金广电电子有限公司 网络通讯组管理方法
CN100433007C (zh) * 2005-10-26 2008-11-12 孙斌 提供搜索结果的方法
CN100507915C (zh) * 2006-11-09 2009-07-01 华为技术有限公司 网络搜索方法、网络搜索设备和用户终端

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008055428A1 (fr) * 2006-11-09 2008-05-15 Huawei Technologies Co., Ltd. Procédé, système et dispositif de recherche de réseau
CN101312406B (zh) * 2007-05-25 2011-07-13 中兴通讯股份有限公司 一种分批上载多网元日志的方法
CN101819576A (zh) * 2009-12-22 2010-09-01 无锡语意电子政务软件科技有限公司 一种用户可编程的搜索系统及方法
CN107766420A (zh) * 2011-12-29 2018-03-06 迈克菲公司 协作搜索
CN102982099B (zh) * 2012-11-05 2015-11-11 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN102982099A (zh) * 2012-11-05 2013-03-20 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN104636398A (zh) * 2013-11-15 2015-05-20 腾讯科技(北京)有限公司 搜索用户生成内容的方法、装置、服务器和系统
CN104636398B (zh) * 2013-11-15 2021-09-17 腾讯科技(北京)有限公司 搜索用户生成内容的方法、装置、服务器和系统
CN104331398A (zh) * 2014-10-30 2015-02-04 百度在线网络技术(北京)有限公司 生成同义词对齐词典的方法及装置
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN107992602A (zh) * 2017-12-14 2018-05-04 北京百度网讯科技有限公司 搜索结果展示方法和装置
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备

Also Published As

Publication number Publication date
WO2008055428A1 (fr) 2008-05-15
CN100507915C (zh) 2009-07-01
US20090228482A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
CN1959674A (zh) 网络搜索方法、网络搜索设备和用户终端
US11151145B2 (en) Tag selection and recommendation to a user of a content hosting service
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN1284107C (zh) 用于搜索一组信息项的信息检索设备和方法
US9268826B2 (en) System and method for crowdsourced template based search
US8135737B2 (en) Query routing
CN101044481A (zh) 用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品
CN1667609A (zh) 文档信息管理系统和文档信息管理方法
CN1533163A (zh) 电子节目指南数据的自由文本和属性搜索
CN1656478A (zh) 显示来自不同物理位置的不同类型的项目的文件系统
JP5147947B2 (ja) クエリ別検索コレクション生成方法およびシステム
US8713078B2 (en) Method for building taxonomy of topics and categorizing videos
CN1882943A (zh) 使用超单元的搜索处理的系统和方法
CN1877583A (zh) 访问标识索引系统及访问标识索引库生成方法
US20060155693A1 (en) Domain expert search
US20110231411A1 (en) Topic Word Generation Method and System
CN1918571A (zh) 信息检索装置
CN1610907A (zh) 基于共同元素的用于过滤和组织条目的系统
CN1961313A (zh) 用于索引文件并将相关元数据添加到索引和元数据数据库的方法和系统
CN101055580A (zh) 用于检索文档的系统、方法及用户接口
CN1871603A (zh) 处理查询的系统和方法
CN1906615A (zh) 收集和搜索因特网信息资源访问路线的方法及存储用于实现该方法的程序的计算机可读媒体
CN101055585A (zh) 文档聚类系统和方法
US20130275420A1 (en) Computer-Implemented System And Method For Conducting A Document Search Via Metaprints
CN1716244A (zh) 智能搜索、智能文件系统和自动智能助手的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180503

Address after: California, USA

Patentee after: Global innovation polymerization LLC

Address before: London, England

Patentee before: GW partnership Co.,Ltd.

Effective date of registration: 20180503

Address after: London, England

Patentee after: GW partnership Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.