CN102760127B - 基于扩展文本信息来确定资源类型的方法、装置及设备 - Google Patents

基于扩展文本信息来确定资源类型的方法、装置及设备 Download PDF

Info

Publication number
CN102760127B
CN102760127B CN201110105456.0A CN201110105456A CN102760127B CN 102760127 B CN102760127 B CN 102760127B CN 201110105456 A CN201110105456 A CN 201110105456A CN 102760127 B CN102760127 B CN 102760127B
Authority
CN
China
Prior art keywords
resource
information
type
keyword
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110105456.0A
Other languages
English (en)
Other versions
CN102760127A (zh
Inventor
王清翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110105456.0A priority Critical patent/CN102760127B/zh
Publication of CN102760127A publication Critical patent/CN102760127A/zh
Application granted granted Critical
Publication of CN102760127B publication Critical patent/CN102760127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于扩展文本信息来确定资源类型的方法、装置及设备。其中,根据本发明的方法,先将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同;随后,根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息。本发明的优点包括:基于扩展文本信息,能较为准确地确定资源与至少一个预定类型间的第一相关信息。

Description

基于扩展文本信息来确定资源类型的方法、装置及设备
技术领域
本发明涉及计算机领域,尤其涉及一种基于扩展文本信息来确定资源类型的方法、装置及设备。
背景技术
现有技术中,往往需要根据资源所携带的描述信息来确定资源类型,以根据资源类型来将资源提供给用户。然而,由于资源所携带的描述信息往往为短文本信息,该等短文本信息所包含的信息量很少,因此,仅根据短文本信息所确定的资源类型准确度较低。
发明内容
本发明的目的是提供一种基于扩展文本信息来确定资源类型的方法、装置及设备。
根据本发明的一个方面,提供一种计算机实现的基于扩展文本信息来确定资源类型的方法,其中,该方法包括以下步骤:
a将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同;
b根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息。
根据本发明的另一个方面,还提供了一种基于扩展文本信息来确定资源类型的类型确定装置,其中,该类型确定装置包括:
合并装置、用于将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同;
第一确定装置、用于根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息。
根据本发明的又一个方面,还提供了一种计算机设备,其中,该计算机设备包括前述类型确定装置。
与现有技术相比,本发明具有以下优点:1)通过将多个相同或相似的资源对应的资源相关文本信息进行合并来获得扩展文本信息,并根据扩展文本信息来确定该多个相同或相似的资源与预定类型间的相关信息。由于各个资源相关信息对应相同或相似的资源,因此,对该各个资源相关信息进行合并所得的扩展文本信息与该各个资源相关信息所相关的资源间具有较高的关联度,并且,该合并所得的扩展文本信息包含较多的信息量,使得根据该扩展文本信息来确定的所述多个相同或相似的资源与预定类型间的相关信息具有较高的准确性;2)基于扩展文本信息及各关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,能够更为准确地确定资源与预定类型间的第一相关概率信息;3)能将所确定的资源与至少一个预定类型间的第一相关概率信息应用于检索系统,并基于输入序列与至少一个预定类型间的第二相关概率信息来确定资源与输入序列间的相似度,并基于该相似度来对检索结果排序,由此,使得与输入序列相似度高的资源排序靠前,进而使排序更为合理,更符合用户的需求,提高检索系统的可信度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的基于扩展文本信息来确定资源类型的方法的流程图;
图2为本发明一个优选实施例的基于扩展文本信息来确定资源类型的方法的流程图;
图3为本发明一个优选实施例的根据所确定的第一相关信息来对资源排序的流程图;
图4为本发明一个方面的基于扩展文本信息来确定资源类型的类型确定装置示意图;
图5为本发明一个优选实施例的基于扩展文本信息来确定资源类型的类型确定装置示意图;
图6为本发明一个优选实施例的根据所确定的第一相关信息来对资源排序的类型确定装置示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出了本发明一个方面的基于扩展文本信息来确定资源类型的方法的流程图。其中,根据本发明的方法主要通过计算机设备中的操作系统或处理控制器来完成,为简明起见,以下将所述操作系统或处理控制器统称为类型确定装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。所述用户设备包括但不限于计算机、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,所述类型确定装置将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,
其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同。其中,所述资源包括但不限于:1)图片类资源;2)音频类资源;3)视频类资源;4)程序包类资源等。
其中,资源相关文本信息包括与资源相关联的文本信息,例如,资源所在的网页中的文本信息,又例如,资源自身所携带的描述信息等。优选地,所述资源相关文本信息包括以下至少一项文本信息:1)该资源相关文本信息所相关的资源的锚文本信息;2)该资源相关文本信息所相关的资源的描述文本信息,例如,图片的名称等;3)该资源相关文本信息所相关的资源所属网页中包含的预定范围内的文本信息,例如,资源所属网页中包含的主题信息,又例如,资源所属网页中与该资源间的间距小于200个字符的文本信息,再例如,资源所属网页中与该资源间的间距小于2个显示模块的文本信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何能用于描述资源的文本信息,均应包含在本发明的资源相关文本信息范围内。
其中,所述类型确定装置将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息的方式包括但不限于:
1)当所述资源相关文本信息集合所包含的多个资源相关文本信息中的每一个均只包括一个或多个关键词信息,则所述类型确定装置直接根据每一个相关文本信息包含的关键词信息,来进行去除相同关键词的合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息。
例如,所述类型确定装置获取的预建立的资源相关文本信息集合中包含资源相关文本信息A1、资源相关文本信息A2,其中,资源相关文本信息A1包括关键词x1与关键词x2,资源相关文本信息A2包括关键词x1与关键词x3,则所述类型确定装置基于该资源相关文本信息集合所包含的资源相关文本信息,去除一个重复出现的关键词x1,以获得扩展文本信息包括“关键词x1,关键词x2,关键词x3”。
2)当所述资源相关文本信息集合所包含的多个资源相关文本信息中的部分或全部资源相关文本信息包含未经处理的文本信息,则所述类型确定装置先对包含未经处理的文本信息进行诸如切词、去除相同关键词等处理,以获得各个资源相关文本信息分别包含的一个或多个关键词,再根据每一资源相关文本信息包含的关键词,来进行去除相同关键词的合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息。其中,所述未经处理的文本信息包括但不限于:a)多个词组成的长字符串;b)包含词以及诸如“,”、“。”等标点符号的长字符串等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息的方式的实现方式,均应包含在本发明的范围内。
优选地,在本步骤执行前预建立所述资源相关文本信息集合的方式包括但不限于:
1)人工建立资源相关文本信息集合。
2)其他设备预建立该资源相关文本信息集合并提供给所述类型确定装置;
3)所述类型确定装置基于资源聚类来建立所述资源相关文本信息集合。具体地,所述类型确定装置通过执行下述步骤S3(未予图示)、步骤S4(未予图示)及步骤S5(未予图示)来建立所述资源相关文本信息集合:
在步骤S3中,所述类型确定装置获取多个待聚类资源。其中,所述类型确定装置获取多个资源的方式包括但不限于:1)由多个网站中获取所述多个资源;2)由预存储的资源库中获取所述多个资源等等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取多个资源的实现方式,均应包含在本发明的范围内。
接着,在步骤S4中,所述类型确定装置根据所述多个待聚类资源自身所包含的信息,来对该多个待聚类资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源。其中,所述类型确定装置根据资源类型来采用相应的聚类方式。例如,对于图片类资源,所述类型确定装置根据图片包含的像素点信息、图片的颜色直方图信息、局部不变特征(SIFT,Scale-invariant feature transform)、纹理特征(HTD,Homogeneous Texture Descriptor),颜色特征(SCD)等,来进行图片聚类。又例如,对于视频类资源,所述类型确定装置根据视频资源的大小、格式、相同时间点的截图等信息来进行聚类。再例如,对于音频类资源,所述类型确定装置根据音频的格式、大小、音频资源的平均音调、音频资源在各个时间点上的音调等信息来进行聚类。再例如,对于程序包类资源,所述类型确定装置根据程序包包含的源代码信息等来进行聚类。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对资源进行聚类以获得一组或多组聚类资源,且每组聚类资源包括一个或多个相同或相似的资源的聚类方式,均应包含在本发明的范围内。
接着,在步骤S5中,所述类型确定装置根据与所述聚类所得的一组聚类资源相关的资源相关文本信息,来建立所述预建立的资源相关文本信息集合。
例如,所述类型确定装置获得一组聚类资源B1、一组聚类资源B2、一组聚类资源B3,所述类型确定装置根据一组聚类资源B1包含的资源b1、b2和b3分别对应的资源相关文本信息,来建立所述资源相关文本信息集合。
优选地,在步骤S5之前、之后或者同时,所述类型确定装置基于一组聚类资源B2或一组聚类资源B3包含的各个资源分别对应的资源相关文本信息,来建立其他资源相关文本信息集合。
在步骤S2中,所述类型确定装置根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息。
其中,所述类型确定装置获取预定类型的方式包括但不限于:
1)获取人工输入的类型。
2)由预定的类型库中获取。例如,所述类型确定装置将所述类型库中包含的全部类型作为预定类型。
具体地,所述类型确定装置根据所述扩展文本信息中包含的各个关键词,来确定所述多个资源与至少一个预定类型间的第一相关信息。其中,所述第一相关信息包括以下至少一项:
1)所述多个资源与该第一相关信息对应的预定类型相关或不相关;
例如,所述类型确定装置获取的预定类型包括“自然风光”与“手机”,在步骤S1中获得的扩展文本信息包含关键词x1、关键词x2及关键词x3,并基于预定的关键词与预定类型间的关联关系表确定关键词x1、关键词x2及关键词x3均与预定类型“自然风光”无关,但均与预定类型“手机”相关,则所述类型确定装置确定所述多个资源与预定类型“自然风光”间的第一相关信息为“t”,与预定类型“手机”间的第一相关信息为“n”,其中,“t”为预设的用于表示不相关的标识信息,“n”为预设的用于表示相关的标识信息。
2)所述多个资源与至少一个预定类型间的第一相关概率信息。
所述类型确定装置根据所述扩展文本信息,来确定所述多个资源与至少一个预定类型间的第一相关概率信息的确定方式包括但不限于:
a)根据诸如概率潜在语义分析(plsa)、浅层狄利赫雷(LDA,Latent Dirichletallocation)等算法来确定第一相关概率信息;
例如,所述类型确定装置获得扩展文本信息包括“关键词x11,关键词x12,关键词x13”,则所述类型确定装置基于该些关键词采用plsa分析来确定所述多个资源与预定类型库中所包含的全部类型中的每一个预定类型间的第一相关概率信息。
b)根据扩展文本信息所包含的各个关键词所相关的预定类型来确定第一相关概率信息。
例如,所述类型确定装置所获得的扩展文本信息包括“关键词x11,关键词x12,关键词x13”,且所述类型确定装置根据预定的关键词与预定类型的关联关系表,确定关键词x11与预定类型“游戏”和“新闻”相关,关键词x12与预定类型“新闻”相关,关键词x13与预定类型“游戏”和“娱乐”相关,则所述类型确定装置确定资源在预定类型“游戏”上的第一相关概率信息为2/5,在预定类型“新闻”上的第一相关概率信息为2/5,在预定类型“娱乐”上的第一相关概率信息为1/5等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定所述多个资源与至少一个预定类型间的第一相关信息的实现方式,均应包含在本发明的范围内。
根据本发明的方法,通过将多个相同或相似的资源对应的资源相关文本信息进行合并来获得扩展文本信息,并根据扩展文本信息来确定该多个相同或相似的资源与预定类型间的相关信息。由于各个资源相关信息对应相同或相似的资源,因此,对该各个资源相关信息进行合并所得的扩展文本信息与该各个资源相关信息所相关的资源间具有较高的关联度,并且,该合并所得的扩展文本信息包含较多的信息量,使得根据该扩展文本信息来确定的所述多个相同或相似的资源与预定类型间的相关信息具有较高的准确性。
图2示出了本发明一个优选实施例的基于扩展文本信息来确定资源类型的方法的流程图。其中,根据本实施例的方法包括步骤S 1以及步骤S2’。
其中,步骤S1已在图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,在步骤S2’中,所述类型确定装置根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,确定所述多个资源与至少一个预定类型间的第一相关概率信息。
其中,所述关键词的稀缺度包括该关键词在预定预料库中的稀缺程度。具体地,该关键词在预定预料库中出现的次数多,则该关键词的稀缺度就低。所述类型确定装置获取所述多个关键词的稀缺度的方式包括但不限于:1)由所述类型确定装置所能访问的存储设备中获取预存储的各个关键词分别对应的稀缺度;2)所述类型确定装置基于关键词在预定预料库中出现次数来确定等。例如,所述类型确定装置基于关键词x14在预定预料库中出现800次,并基于该800次已超过预定阈值来确定该关键词x14的稀缺度为低级。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取关键词的稀缺度的实现方式,均应包含在本发明的范围内。
其中,所述类型确定装置在本步骤执行前预获取扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息的方式包括但不限于:
1)所述类型确定装置在将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理的过程中获得所述扩展文本信息以及所述分布信息。具体地,所述类型确定装置将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理来获得所述扩展文本信息的同时,统计各个关键词在所有资源相关文本信息中的分布,以获得所述分布信息。
优选地,所述分布信息包括以下至少一项:
a)所述多个关键词中每个关键词在所述所有资源相关文本信息中的出现次数。例如,在步骤S1中,所述类型确定装置获取的预建立的资源相关文本信息集合中包含资源相关文本信息A11与资源相关文本信息A12,其中,资源相关文本信息A11包含关键词x21与关键词x22,资源相关文本信息A12包括关键词x21与关键词x23,则所述类型确定装置对资源相关文本信息A11与资源相关文本信息A12进行去除重复的关键词的合并处理,并在合并过程中记录各个关键词出现的次数,则所述类型确定装置所获得的扩展文本信息以及各个关键词在所述所有资源相关文本信息中的出现次数如下:
关键词出现次数
关键词x21:2
关键词x22:1
关键词x23:1
b)所述多个关键词中每个关键词所在的文本信息的类型,其中,所述文本信息包含于相关文本信息中。例如,所述类型确定装置基于关键词x24出现在锚文本信息A24中来确定关键词x24所在的文本信息的类型为锚文本类;又例如,所述类型确定装置基于关键词x25出现在描述文本信息A25以及锚文本信息A24中来确定关键词x25所在的文本信息的类型为描述文本类以及锚文本类。
c)所述多个关键词中每个关键词所在的文本信息的类型及其在每种文本信息的类型中出现的次数。
2)所述类型确定装置在获取所述扩展文本信息后,再获取所述多个关键词在所有资源相关文本信息中的分布信息。
具体地,所述类型确定装置先将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息;随后,所述类型确定装置再根据所述扩展文本信息中包含的多个关键词在所述所有资源相关文本信息中的分布来获得所述分布信息。
例如,所述类型确定装置在步骤S1中已获取的扩展文本信息包括“关键词x41”,随后,所述类型确定装置统计获得关键词x41在资源相关文本信息集合中的锚文本信息A41中出现2次,在描述文本信息A42中出现1次,则所述类型确定装置获得关键词x41的分布信息如下:
关键词c1:{M:2},{N:1},
其中,“M”为预设的用于表示锚文本类的标识信息,“N”为预设的用于表示描述文本类的标识信息。
其中,所述类型确定装置根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,来确定所述多个资源与至少一个预定类型间的第一相关概率信息的方式包括但不限于:
1)直接根据所述分布信息和所述稀缺度中的至少一者以及所述扩展文本信息,来确定所述多个资源与至少一个预定类型间的第一相关概率信息。
具体地,直接根据所述分布信息和所述稀缺度中的至少一者以及所述扩展文本信息来确定所述第一相关概率信息的方式包括但不限于:
i)所述类型确定装置根据所述分布信息和所述稀缺度中的至少一者以及所述扩展文本信息,采用诸如概率潜在语义分析(ProbabilisticLatent Semantic Analysis)、浅层狄利赫雷(Latent Dirichlet Allocation)等算法来确定第一相关概率信息。
ii)根据扩展文本信息所包含的各个关键词所相关的预定类型,并结合所述分布信息和所述稀缺度中的至少一者,确定第一相关概率信息。
例如,所述类型确定装置获取的扩展文本信息包括“关键词x51,关键词x52”,关键词x51在所有资源相关文本信息中的出现次数为10次,关键词x52在所有资源相关文本信息中的出现次数为2次,所述类型确定装置根据预定的关键词与预定类型间的关联关系表确定关键词x51与预定类型L1相关,关键词x52与预定类型L2相关,则所述类型确定装置确定所述多个资源与预定类型L1的第一相关概率信息为10/(10+2)=5/6,与预定类型L2的第一相关概率信息为2/(10+2)=1/6。
又例如,所述类型确定装置获取的扩展文本信息包括“关键词x51,关键词x52”,并由预建立的关键词稀缺度库中获得关键词x51的稀缺度为0.42,关键词x52的稀缺度为0.74,且所述类型确定装置根据预定的关键词与预定类型间的关联关系表确定关键词x51与预定类型L1相关,关键词x52与预定类型L1和L2相关,则所述类型确定装置根据将与各个预定类型相关的所有关键词的稀缺度平均值作为所述多个资源与各个预定类型的第一相关概率信息的预定规则,确定所述多个资源与预定类型L1的第一相关概率信息为(0.42+0.74)/2=0.58,与预定类型L2的第一相关概率信息为0.74。
2)所述类型确定装置先根据分布信息和/或各个关键词的稀缺度确定所述扩展文本信息包含的各个关键词的权重信息,再根据所述扩展文本信息及各个关键词的权重信息来确定所述多个资源与至少一个预定类型间的第一相关概率信息。
具体地,所述类型确定装置确定所述权重信息的方式包括但不限于:
a)所述类型确定装置根据所述分布信息来确定所述扩展文本信息包含的各个关键词的权重信息。
具体地,该根据分布信息来确定所述权重信息的方式包括但不限于:
i)当所述类型确定装置获取的分布信息仅包括各关键词中每个关键词在所述所有资源相关文本信息中的出现次数或者仅包括所述多个关键词中每个关键词所在的文本信息的类型,则所述类型确定装置仅基于出现次数或仅基于文本信息的类型的预定权重信息来确定各关键词的权重信息。
例如,所述类型确定装置直接将每个关键词在所述所有资源相关文本信息中的出现次数作为相应关键词的权重信息;又例如,当一个关键词在所述所有资源相关文本信息中的出现次数高于预定次数阈值,则所述类型确定装置确定该关键词的权重信息为高级等。再例如,如果一个关键词仅出现在一种类型的文本信息中,则所述类型确定装置直接将该关键词所在的文本信息的类型的预定权重信息作为该的关键词的权重信息;如果一个关键词出现在两种或两种以上类型的文本信息中,则所述类型确定装置求取该两种或两种以上类型的文本信息的预定权重值的乘积、和值、平方和等,以确定该关键词的权重信息。
ii)当所述类型确定装置获取的分布信息包括所述扩展文本信息包含的所有关键词中的每个关键词所在的文本信息的类型及各个关键词在每种文本信息的类型分别中出现的次数,则所述类型确定装置根据所述文本信息的类型对应的预定权重值和各个关键词分别在各个文本信息中出现的次数来确定各个关键词的权重信息。例如,所述类型确定装置将一个关键词所在的各个文本信息的类型的预定权重值和该关键词在各个文本信息中出现次数分别相乘后,再将相乘所得的值相加,以确定该关键词的权重信息。并且,所述类型确定装置重复上述相乘后相加的操作,以获得各个关键词的权重信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于分布信息来确定所述扩展文本信息包含的各关键词的权重信息的实现方式,均包含在本发明的范围内。
b)所述类型确定装置根据所述稀缺度来确定所述扩展文本信息包含的各个关键词的权重信息。
例如,所述类型确定装置直接将各个关键词的稀缺度作为各个关键词的权重信息;或者,所述类型确定装置对各个关键词的稀缺度进行诸如归一化、乘以预定调节值等处理后,将处理所得的值作为各个关键词的权重信息等。
c)所述类型确定装置根据分布信息和各个关键词的稀缺度来确定所述扩展文本信息包含的各关键词的权重信息。
具体地,该根据分布信息和稀缺度来确定权重信息的方式包括但不限于:
i)所述类型确定装置直接根据分布信息和各个关键词的稀缺度确定所述扩展文本信息包含的各关键词的权重信息。例如,对于所述各个关键词中的每个关键词,所述类型确定装置将关键词在所述所有资源相关文本信息中的出现次数和该关键词的稀缺度进行求取乘积、和值、平方和等处理,来将处理所得的值分别作为关键词的权重信息;又例如,对于所述各个关键词中的每个关键词,所述类型确定装置先对关键词在所述所有资源相关文本信息中的出现次数及各个类型的文本信息对应的预定权重值分别进行归一化处理,再将对关键词在所述所有资源相关文本信息中的出现次数进行归一化处理后所得的值、对该关键词所在文本信息的类型的预定权重值进行归一化处理后所得的值以及关键词的稀缺度,进行求取乘积、和值、平方和等处理,来确定关键词的权重信息等。
ii)所述类型确定装置先根据分布信息来初步确定所述扩展文本信息包含的各个关键词的权重信息,再基于各个关键词的稀缺度来调整前述初步确定的各关键词的权重信息,以获得最终的各个关键词的权重信息。其中,所述类型确定装置先根据分布信息来初步确定所述扩展文本信息包含的各关键词的权重信息的方式与前述根据分布信息来确定所述扩展文本信息包含的各个关键词的权重信息的方式相同或相似,在此以引用的方式包含于此,不再赘述。例如,所述类型确定装置初步确定关键词x61的权重信息为5,并获取该关键词x61的稀缺度为0.8,则所述类型确定装置将该稀缺度与权重信息的乘积0.8*5=4作为该关键词x61的最终的权重信息。又例如,所述类型确定装置初步确定关键词x62的权重信息为3,并获取该关键词x62的稀缺度为0.1,则所述类型确定装置基于该稀缺度小于预定稀缺度阈值,将该初步确定的关键词x62的权重信息减去一个预定调节值来获得关键词x62最终的权重信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于分布信息和各个关键词的稀缺度来确定所述扩展文本信息包含的各关键词的权重信息的实现方式,均包含在本发明的范围内。
其中,所述类型确定装置根据所述扩展文本信息及所获得的各个关键词的权重信息来确定所述多个资源与至少一个预定类型间的第一相关概率信息的方式包括但不限于:
1)所述类型确定装置根据所述扩展文本信息及各关键词的权重信息,采用诸如概率潜在语义分析、浅层狄利赫雷等算法来确定第一相关概率信息。
2)所述类型确定装置根据扩展文本信息所包含的各个关键词所相关的预定类型及各个关键词的权重信息,来确定第一相关概率信息。例如,所述类型确定装置确定关键词x63的权重信息为7.5,关键词x64的权重信息为5,并基于关键词与预定类型的关联关系表确定与关键词x63相关的类型为预定类型L11、与关键词x64相关的预定类型为预定类型L12,则所述类型确定装置确定所述多个资源与预定类型L11的第一相关概率信息为7.5/(7.5+5)=0.6,与预定类型L12的第一相关概率信息为5/(7.5+5)=0.4。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述扩展文本信息及各关键词的权重信息来确定所述多个资源与至少一个预定类型间的第一相关概率信息的实现方式,均应包含在本发明的范围内。此外,本领域技术人员还应该理解,任何根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,来确定所述多个资源与至少一个预定类型间的第一相关概率信息的实现方式,也均应包含在本发明的范围内。
作为本实施例的优选方案之一,根据本发明的方法还包括所述类型确定装置根据所述多个资源与至少一个预定类型间的第一相关信息,建立或更新资源类型库的步骤。
优选地,所述类型确定装置根据所述多个资源与至少一个预定类型间的第一相关概率信息,来建立或更新所述资源类型库。
更优选地,所述类型确定装置仅将所对应的预定类型与所述多个资源相关的第一相关信息,或者,所述类型确定装置仅将大于零的第一相关概率信息存储至所述资源类型库中。
更优选地,所述类型确定装置将所述多个资源的每一个所属网站的链接地址信息及评价值信息等存储在所述资源类型库中。
根据本实施例的方法,基于扩展文本信息及各关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,能够更为准确的确定资源与预定类型间的第一相关概率信息。
图3示出了本发明的一个优选实施例的根据所确定的第一相关信息来对资源排序的流程图。根据本实施例的方法包括步骤S6、步骤S7以及步骤S8。
在步骤S6中,所述类型确定装置获取基于来自用户的输入序列进行检索所得的多个待处理资源。
接着,在步骤S7中,所述类型确定装置根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关信息。其中,所述资源类型库的建立及更新过程已在图2所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
具体地,所述类型确定装置根据基于所述输入序列来获得的多个待处理资源,在所述资源类型库中进行查询,以获得包含于所述资源类型库中的一个或多个资源,并获得该一个或多个待处理资源与至少一个预定类型间的第一相关信息;或者,所述类型确定装置根据点击量、资源质量等因素,由该基于所述输入序列来获得的多个待处理资源中选择至少一个待处理资源,并根据所选择的所述至少一个待处理资源在所述资源类型库中进行查询,以获得包含于所述资源类型库中的一个或多个资源,并获得该一个或多个待处理资源与至少一个预定类型间的第一相关信息。
接着,在步骤S8中,所述类型确定装置根据所述一个或多个待处理资源与至少一个预定类型间的第一相关信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关信息,来确定所述多个待处理资源的排序,以提供给所述用户。
其中,在本步骤执行之前预获取所述输入序列与至少一个预定类型间的第二相关信息的方式包括但不限于:1)所述类型确定装置直接通过分析所述输入序列与至少一个预定类型的类型名称间的语义相关性来确定该第二相关信息。例如,来自用户的输入序列为“手机”,则所述类型确定装置基于该输入序列“手机”与预定类型“手机”的类型名称相同,与预定类型“水果”的类型名称不同,来确定该输入序列“手机”与预定类型“手机”的第二相关信息为相关,与预定类型“水果”不相关。2)所述类型确定装置根据自身或其他装置预建立的关键词与至少一个预定类型间的相关信息,来确定所述输入序列与至少一个预定类型间的第二相关信息,该关键词与至少一个预定类型间的相关信息存储在所述类型确定装置中或所述类型确定装置能够访问的存储设备中。优选地,当来自用户的输入序列包含由多个词构成的长字符串,则所述类型确定装置先对输入序列进行切词等处理以获得关键词,并根据切词所得的关键词来确定所述输入序列与至少一个预定类型间的第二相关信息。
其中,所述类型确定装置根据预获取的所述输入序列与至少一个预定类型间的第二相关信息及所述一个或多个待处理资源与至少一个预定类型间的第一相关信息,来确定各待处理资源与所述输入序列之间的相似度,以基于所确定的相似度来确定所述多个待处理资源的排序。
例如,所述类型确定装置预获取的输入序列“手机”与预定类型“手机”间的第二相关信息为1,基于所述输入序列“手机”进行检索所得的待处理资源A5与预定类型“手机”间的第一相关信息为1,所得的待处理资源A6与预定类型“手机”间的第一相关信息为0;则所述类型确定装置基于待处理资源A5与预定类型“手机”的第一相关信息为1以及输入序列“手机”与预定类型“手机”的第二相关信息为1,来确定待处理资源A5与输入序列的相似度为1,并基于待处理资源A6与预定类型“手机”的第一相关信息为0以及输入序列“手机”与预定类型“手机”的第二相关信息为1,来确定待处理资源A6与输入序列的相似度为0,进而确定待处理资源A5排序在待处理资源A6之前。
优选地,所述类型确定装置根据所述相似度,并进一步结合诸如点击量,资源质量,输入序列与资源的匹配度等其他因素,确定所述多个待处理资源的排序。
作为本实施例的优选方案之一,所述资源类型库中包括第一相关概率信息,所述第二相关信息包括第二相关概率信息,所述步骤S7进一步包括步骤S7’(未予图示),所述步骤S8进一步包括步骤S8’(未予图示)。
在步骤S7’中,所述类型确定装置根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关概率信息。
其中,所述类型确定装置查询并获得所述第一相关概率信息的方式与前述步骤S7中所述类型确定装置查询并获得所述第一相关信息的方式相同或相似,在此不再赘述。
在步骤S8’中,所述类型确定装置根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关概率信息,来确定所述多个待处理资源的排序,以提供给所述用户。
其中,在本步骤执行之前预获取所述输入序列与至少一个预定类型间的第二相关概率信息的方式包括但不限于:1)所述类型确定装置直接通过分析所述输入序列与至少一个预定类型的类型名称间的语义相关性来确定该第二相关概率信息。例如,来自用户的输入序列为“移动电话”,所述类型确定装置根据同义词辞典确定该输入序列“移动电话”与预定类型“手机”为同义词,则所述类型确定装置基于预定的同义词对应的第二相关概率信息为0.9的规则,来确定该输入序列“移动电话”与预定类型“手机”的第二相关概率信息为0.9。2)所述类型确定装置根据自身或其他装置预建立的关键词与至少一个预定类型间的相关概率信息,来确定所述输入序列与至少一个预定类型间的第二相关概率信息,该关键词与至少一个预定类型间的相关概率信息存储在所述类型确定装置中或所述类型确定装置能够访问的存储设备中。优选地,当来自用户的输入序列包含由多个词构成的长字符串,则所述类型确定装置先对输入序列进行切词等处理以获得关键词,并根据切词所得的关键词来确定所述输入序列与至少一个预定类型间的第二相关概率信息。
优选地,所述类型确定装置预建立关键词与至少一个预定类型间的第二相关概率信息的方式包括但不限于以下至少一项:
1)基于关键词在资料库中进行检索所获得的与各个预定类型相关的检索结果的数量来确定。其中,各个检索结果对应的预定类型由所述类型确定装置或其他装置经过预处理获得。例如,基于关键词“苹果”在资料库中进行检索,获得与预定类型“水果”相关的检索结果的数量为500,与预定类型“手机”相关的检索结果的数量为8000,则所述类型确定装置确定该关键词“苹果”与预定类型“水果”的第二相关概率信息为500/8000=1/16,与预定类型“手机”的第二相关概率信息为15/16。
2)将基于关键词进行检索所获得的多个资源候选项提供给用户后,根据用户对与预定类型相关的资源候选项的点击量来确定。例如,基于关键词“黎明”进行检索所获得的多个资源候选项中,与预定类型“人名”相关的资源候选项的点击量为3000,与预定类型“风景”相关的资源候选项的点击量为1000,则所述类型确定装置确定该关键词“黎明”与预定类型“人名”的第二相关概率信息为3000/(3000+1000)=0.75,与预定类型“风景”的第二相关概率信息为0.25。
3)基于关键词进行检索所获得多个资源候选项后,根据与预定类型相关的资源候选项被展现给用户的次数来确定。其中,该展现次数为该资源候选项呈现给用户的次数。优选地,当一个包含多个资源候选项的页面呈现给用户时,该页面所包含的所有资源候选项均被认为展现一次。例如,基于关键词x71进行检索所获得的多个资源候选项中,与预定类型L71相关的资源候选项的展现次数为600次,与预定类型L72相关的资源候选项的展现次数为6000次,则所述类型确定装置确定该关键词x71与预定类型L71的第二相关概率信息为600/(600+6000)=1/11,与预定类型L72的第二相关概率信息为10/11。
4)基于关键词的语义分析来确定。例如,所述类型确定装置对关键词“杜鹃”进行语义分析,并根据预定的语义词典确定“杜鹃”包括植物“杜鹃花”与动物“杜鹃鸟”两种含义,则所述类型确定装置根据语义分析结果确定该关键词“杜鹃”与预定类型“植物”的第二相关概率信息为0.5,与预定类型“鸟类”的第二相关概率信息为0.5。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何建立关键词与至少一个预定类型间的第二相关概率信息的方式的实现方式,均应包含在本发明的范围内。
具体地,在本步骤中,所述类型确定装置根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息及所述输入序列与至少一个预定类型间的第二相关概率信息,来确定各待处理资源与所述输入序列之间的相似度,以根据所确定的相似度来确定所述多个待处理资源的排序,提供给用户。
例如,所述类型确定装置将一个待处理资源与至少一个预定类型间的第一相关概率信息作为第一向量,将所述输入序列与至少一个预定类型间的第二相关概率信息作为第二向量,并求取该第一向量与第二向量之间的角度,以确定该待处理资源与所述输入序列的相似度,并根据该相似度来调整基于各个待处理资源的点击量、各个待处理资源的资源质量和各个待处理资源与所述输入序列的匹配度等因素确定的各个待处理资源的初始排序结果,以获得调整后的多个待处理资源的排序结果,提供给用户。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关概率信息,来确定所述多个待处理资源的排序的实现方式,均应包含在本发明的范围内。
根据本实施例的方法,能将所确定的资源与至少一个预定类型间的第一相关概率信息应用于检索系统,并基于输入序列与至少一个预定类型间的第二相关概率信息来确定资源与输入序列间的相似度,并基于该相似度来对检索结果排序,由此,使得与输入序列相似度高的资源排序靠前,进而使排序更为合理,更符合用户的需求,提高检索系统的可信度。
图4示出了本发明一个方面的基于扩展文本信息来确定资源类型的类型确定装置示意图。其中,根据本发明的类型确定装置包括合并装置1与第一确定装置2。
所述合并装置1将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,
其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同。其中,所述资源包括但不限于:1)图片类资源;2)音频类资源;3)视频类资源;4)程序包类资源等。
其中,资源相关文本信息包括与资源相关联的文本信息,例如,资源所在的网页中的文本信息,又例如,资源自身所携带的描述信息等。优选地,所述资源相关文本信息包括以下至少一项文本信息:1)该资源相关文本信息所相关的资源的锚文本信息;2)该资源相关文本信息所相关的资源的描述文本信息,例如,图片的名称等;3)该资源相关文本信息所相关的资源所属网页中包含的预定范围内的文本信息,例如,资源所属网页中包含的主题信息,又例如,资源所属网页中与该资源间的间距小于200个字符的文本信息,再例如,资源所属网页中与该资源间的间距小于2个显示模块的文本信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何能用于描述资源的文本信息,均应包含在本发明的资源相关文本信息范围内。
其中,所述合并装置1将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息的方式包括但不限于:
1)当所述资源相关文本信息集合所包含的多个资源相关文本信息中的每一个均只包括一个或多个关键词信息,则所述合并装置1直接根据每一个相关文本信息包含的关键词信息,来进行去除相同关键词的合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息。
例如,所述合并装置1获取的预建立的资源相关文本信息集合中包含资源相关文本信息A1、资源相关文本信息A2,其中,资源相关文本信息A1包括关键词x1与关键词x2,资源相关文本信息A2包括关键词x1与关键词x3,则所述合并装置1基于该资源相关文本信息集合所包含的资源相关文本信息,去除一个重复出现的关键词x1,以获得扩展文本信息包括“关键词x1,关键词x2,关键词x3”。
2)当所述资源相关文本信息集合所包含的多个资源相关文本信息中的部分或全部资源相关文本信息包含未经处理的文本信息,则所述合并装置1先对包含未经处理的文本信息进行诸如切词、去除相同关键词等处理,以获得各个资源相关文本信息分别包含的一个或多个关键词,再根据每一资源相关文本信息包含的关键词,来进行去除相同关键词的合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息。其中,所述未经处理的文本信息包括但不限于:a)多个词组成的长字符串;b)包含词以及诸如“,”、“。”等标点符号的长字符串等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息的方式的实现方式,均应包含在本发明的范围内。
优选地,在合并装置1将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理前预建立所述资源相关文本信息集合的方式包括但不限于:
1)人工建立资源相关文本信息集合。
2)其他设备预建立该资源相关文本信息集合并提供给所述合并装置1;
3)所述类型确定装置基于资源聚类来建立所述资源相关文本信息集合。具体地,所述类型确定装置通过其所包括的第二获取装置(未予图示)、聚类装置(未予图示)及构建装置(未予图示)来建立所述资源相关文本信息集合。
所述第二获取装置获取多个待聚类资源。其中,所述第二获取装置获取多个资源的方式包括但不限于:1)由多个网站中获取所述多个资源;2)由预存储的资源库中获取所述多个资源等等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取多个资源的实现方式,均应包含在本发明的范围内。
接着,所述聚类装置根据所述多个待聚类资源自身所包含的信息,来对该多个待聚类资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源。其中,所述聚类装置根据资源类型来采用相应的聚类方式。例如,对于图片类资源,所述聚类装置根据图片包含的像素点信息、图片的颜色直方图信息、局部不变特征(SIFT,Scale-invariant feature transform)、纹理特征(HTD,Homogeneous TextureDescriptor),颜色特征(SCD)等,来进行图片聚类。又例如,对于视频类资源,所述聚类装置根据视频资源的大小、格式、相同时间点的截图等信息来进行聚类。再例如,对于音频类资源,所述聚类装置根据音频的格式、大小、音频资源的平均音调、音频资源在各个时间点上的音调等信息来进行聚类。再例如,对于程序包类资源,所述聚类装置根据程序包包含的源代码信息等来进行聚类。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对资源进行聚类以获得一组或多组聚类资源,且每组聚类资源包括一个或多个相同或相似的资源的聚类方式,均应包含在本发明的范围内。
接着,所述构建装置根据与所述聚类所得的一组聚类资源相关的资源相关文本信息,来建立所述预建立的资源相关文本信息集合。
例如,所述聚类装置获得一组聚类资源B1、一组聚类资源B2、一组聚类资源B3,所述构建装置根据一组聚类资源B1包含的资源b1、b2和b3分别对应的资源相关文本信息,来建立所述资源相关文本信息集合。
优选地,所述构建装置在根据该组聚类资源B1包含的资源b1、b2和b3分别对应的资源相关文本信息,来建立所述资源相关文本信息集合之前、之后或者同时,还基于一组聚类资源B2或一组聚类资源B3包含的各个资源分别对应的资源相关文本信息,来建立其他资源相关文本信息集合。
所述第一确定装置2根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息。
其中,所述第一确定装置2获取预定类型的方式包括但不限于:
1)获取人工输入的类型。
2)由预定的类型库中获取。例如,所述第一确定装置2将所述类型库中包含的全部类型作为预定类型。
具体地,所述第一确定装置2根据所述扩展文本信息中包含的各个关键词,来确定所述多个资源与至少一个预定类型间的第一相关信息。其中,所述第一相关信息包括以下至少一项:
1)所述多个资源与该第一相关信息对应的预定类型相关或不相关;
例如,所述第一确定装置2获取的预定类型包括“自然风光”与“手机”,所述合并装置1获得的扩展文本信息包含关键词x1、关键词x2及关键词x3,所述第一确定装置2基于预定的关键词与预定类型间的关联关系表确定关键词x1、关键词x2及关键词x3均与预定类型“自然风光”无关,但均与预定类型“手机”相关,则所述第一确定装置2确定所述多个资源与预定类型“自然风光”间的第一相关信息为“t”,与预定类型“手机”间的第一相关信息为“n”,其中,“t”为预设的用于表示不相关的标识信息,“n”为预设的用于表示相关的标识信息。
2)所述多个资源该第一相关信息对应的预定类型间的第一相关概率信息。
所述类型确定装置还包括第一子确定装置(未予图示),该第一子确定装置根据所述扩展文本信息,来确定所述多个资源与至少一个预定类型间的第一相关概率信息。其中,该第一子确定装置确定所述第一相关概率信息的方式包括但不限于:
a)根据诸如概率潜在语义分析(plsa)、浅层狄利赫雷(LDA,Latent Dirichletallocation)等算法来确定第一相关概率信息;
例如,所述合并装置1获得扩展文本信息包括“关键词x11,关键词x12,关键词x13”,则所述第一子确定装置基于该些关键词采用plsa分析来确定所述多个资源与预定类型库中所包含的全部类型中的每一个预定类型间的第一相关概率信息。
b)根据扩展文本信息所包含的各个关键词所相关的预定类型来确定第一相关概率信息。
例如,所述合并装置1所获得的扩展文本信息包括“关键词x11,关键词x12,关键词x13”,所述第一子确定装置根据预定的关键词与预定类型的关联关系表,确定关键词x11与预定类型“游戏”和“新闻”相关,关键词x12与预定类型“新闻”相关,关键词x13与预定类型“游戏”和“娱乐”相关,则所述第一子确定装置确定资源在预定类型“游戏”上的第一相关概率信息为2/5,在预定类型“新闻”上的第一相关概率信息为2/5,在预定类型“娱乐”上的第一相关概率信息为1/5等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定所述多个资源与至少一个预定类型间的第一相关信息的实现方式,均应包含在本发明的范围内。
根据本发明的类型确定装置,通过将多个相同或相似的资源对应的资源相关文本信息进行合并来获得扩展文本信息,并根据扩展文本信息来确定该多个相同或相似的资源与预定类型间的相关信息。由于各个资源相关信息对应相同或相似的资源,因此,对该各个资源相关信息进行合并所得的扩展文本信息与该各个资源相关信息所相关的资源间具有较高的关联度,并且,该合并所得的扩展文本信息包含较多的信息量,使得根据该扩展文本信息来确定的所述多个相同或相似的资源与预定类型间的相关信息具有较高的准确性。
图5示出了本发明一个优选实施例的基于扩展文本信息来确定资源类型的类型确定装置示意图。其中,根据本实施例的类型确定装置包括合并装置1与第一确定装置2;所述第一确定装置2包括第二子确定装置21。
其中,合并装置1已在图4所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,所述第二子确定装置21根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,确定所述多个资源与至少一个预定类型间的第一相关概率信息。
其中,所述关键词的稀缺度包括该关键词在预定预料库中的稀缺程度。具体地,该关键词在预定预料库中出现的次数多,则该关键词的稀缺度就低。所述第二子确定装置21获取所述多个关键词的稀缺度的方式包括但不限于:1)由所述第二子确定装置21所能访问的存储设备中获取预存储的各个关键词分别对应的稀缺度;2)所述第二子确定装置21基于关键词在预定预料库中出现次数来确定等。例如,所述第二子确定装置21基于关键词x14在预定预料库中出现800次,并基于该800次已超过预定阈值来确定该关键词x14的稀缺度为低级。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取关键词的稀缺度的实现方式,均应包含在本发明的范围内。
其中,在所述第二子确定装置21确定第一相关概率信息前预获取扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息的方式包括但不限于:
1)根据所述合并装置1所包含的子合并装置来获得所述分布信息(未予图示)。其中,所述子合并装置在将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理的过程中获得所述扩展文本信息以及所述分布信息。具体地,所述子合并装置将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理来获得所述扩展文本信息的同时,统计各个关键词在所有资源相关文本信息中的分布,以获得所述分布信息。
优选地,所述分布信息包括以下至少一项:
a)所述多个关键词中每个关键词在所述所有资源相关文本信息中的出现次数。例如,所述子合并装置获取的预建立的资源相关文本信息集合中包含资源相关文本信息A11与资源相关文本信息A12,其中,资源相关文本信息A11包含关键词x21与关键词x22,资源相关文本信息A12包括关键词x21与关键词x23,则所述子合并装置对资源相关文本信息A11与资源相关文本信息A12进行去除重复的关键词的合并处理,并在合并过程中记录各个关键词出现的次数,则所述子合并装置所获得的扩展文本信息以及各个关键词在所述所有资源相关文本信息中的出现次数如下:
关键词出现次数
关键词x21:2
关键词x22:1
关键词x23:1
b)所述多个关键词中每个关键词所在的文本信息的类型,其中,所述文本信息包含于相关文本信息中。例如,所述子合并装置基于关键词x24出现在锚文本信息A24中来确定关键词x24所在的文本信息的类型为锚文本类;又例如,所述子合并装置基于关键词x25出现在描述文本信息A25以及锚文本信息A24中来确定关键词x25所在的文本信息的类型为描述文本类以及锚文本类。
c)所述多个关键词中每个关键词所在的文本信息的类型及其在每种文本信息的类型中出现的次数。
2)所述类型确定装置还包括第一获取装置(未予图示)。在所述合并装置1获取所述扩展文本信息后,所述第一获取装置再获取所述多个关键词在所有资源相关文本信息中的分布信息。
具体地,所述合并装置1先将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息;随后,所述第一获取装置再根据所述扩展文本信息中包含的多个关键词在所述所有资源相关文本信息中的分布来获得所述分布信息。
例如,所述合并装置1已获取的扩展文本信息包括“关键词x41”,随后,所述第一获取装置统计获得关键词x41在资源相关文本信息集合中的锚文本信息A41中出现2次,在描述文本信息A42中出现1次,则所述第一获取装置获得关键词x41的分布信息如下:
关键词c1:{M:2},{N:1},
其中,“M”为预设的用于表示锚文本类的标识信息,“N”为预设的用于表示描述文本类的标识信息。
其中,所述第二子确定装置21根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,来确定所述多个资源与至少一个预定类型间的第一相关概率信息的方式包括但不限于:
1)直接根据所述分布信息和所述稀缺度中的至少一者以及所述扩展文本信息,来确定所述多个资源与至少一个预定类型间的第一相关概率信息。
具体地,直接根据所述分布信息和所述稀缺度中的至少一者以及所述扩展文本信息来确定所述第一相关概率信息的方式包括但不限于:
i)所述第二子确定装置21根据所述分布信息和所述稀缺度中的至少一者以及所述扩展文本信息,采用诸如概率潜在语义分析(Probabilistic Latent SemanticAnalysis)、浅层狄利赫雷(Latent Dirichlet Allocation)等算法来确定第一相关概率信息。
ii)根据扩展文本信息所包含的各个关键词所相关的预定类型,并结合所述分布信息和所述稀缺度中的至少一者,确定第一相关概率信息。
例如,所述子合并装置获取的扩展文本信息包括“关键词x51,关键词x52”,关键词x51在所有资源相关文本信息中的出现次数为10次,关键词x52在所有资源相关文本信息中的出现次数为2次,所述第二子确定装置21根据预定的关键词与预定类型间的关联关系表确定关键词x51与预定类型L1相关,关键词x52与预定类型L2相关,则所述第二子确定装置21确定所述多个资源与预定类型L1的第一相关概率信息为10/(10+2)=5/6,与预定类型L2的第一相关概率信息为2/(10+2)=1/6。
又例如,所述合并装置1获取的扩展文本信息包括“关键词x51,关键词x52”,所述第二子确定装置21由预建立的关键词稀缺度库中获得关键词x51的稀缺度为0.42,关键词x52的稀缺度为0.74,且所述第二子确定装置21根据预定的关键词与预定类型间的关联关系表确定关键词x51与预定类型L1相关,关键词x52与预定类型L1和L2相关,则所述第二子确定装置21根据将与各个预定类型相关的所有关键词的稀缺度平均值作为所述多个资源与各个预定类型的第一相关概率信息的预定规则,确定所述多个资源与预定类型L1的第一相关概率信息为(0.42+0.74)/2=0.58,与预定类型L2的第一相关概率信息为0.74。
2)所述第二子确定装置21先根据分布信息和/或各个关键词的稀缺度确定所述扩展文本信息包含的各个关键词的权重信息,再根据所述扩展文本信息及各个关键词的权重信息来确定所述多个资源与至少一个预定类型间的第一相关概率信息。
具体地,所述第二子确定装置21确定所述权重信息的方式包括但不限于:
a)所述第二子确定装置21根据所述分布信息来确定所述扩展文本信息包含的各个关键词的权重信息。
具体地,该根据分布信息来确定所述权重信息的方式包括但不限于:
i)当所述子合并装置或第一获取装置获取的分布信息仅包括各关键词中每个关键词在所述所有资源相关文本信息中的出现次数或者仅包括所述多个关键词中每个关键词所在的文本信息的类型,则所述第二子确定装置21仅基于出现次数或仅基于文本信息的类型的预定权重信息来确定各关键词的权重信息。
例如,所述第二子确定装置21直接将每个关键词在所述所有资源相关文本信息中的出现次数作为相应关键词的权重信息;又例如,当一个关键词在所述所有资源相关文本信息中的出现次数高于预定次数阈值,则所述第二子确定装置21确定该关键词的权重信息为高级等。再例如,如果一个关键词仅出现在一种类型的文本信息中,则所述第二子确定装置21直接将该关键词所在的文本信息的类型的预定权重信息作为该的关键词的权重信息;如果一个关键词出现在两种或两种以上类型的文本信息中,则所述第二子确定装置21求取该两种或两种以上类型的文本信息的预定权重值的乘积、和值、平方和等,以确定该关键词的权重信息。
ii)当所述子合并装置或第一获取装置获取的分布信息包括所述扩展文本信息包含的所有关键词中的每个关键词所在的文本信息的类型及各个关键词在每种文本信息的类型分别中出现的次数,则所述第二子确定装置21根据所述文本信息的类型对应的预定权重值和各个关键词分别在各个文本信息中出现的次数来确定各个关键词的权重信息。例如,所述第二子确定装置21将一个关键词所在的各个文本信息的类型的预定权重值和该关键词在各个文本信息中出现次数分别相乘后,再将相乘所得的值相加,以确定该关键词的权重信息。并且,所述第二子确定装置21重复上述相乘后相加的操作,以获得各个关键词的权重信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于分布信息来确定所述扩展文本信息包含的各关键词的权重信息的实现方式,均包含在本发明的范围内。
b)所述第二子确定装置21根据所述稀缺度来确定所述扩展文本信息包含的各个关键词的权重信息。
例如,所述第二子确定装置21直接将各个关键词的稀缺度作为各个关键词的权重信息;或者,所述第二子确定装置21对各个关键词的稀缺度进行诸如归一化、乘以预定调节值等处理后,将处理所得的值作为各个关键词的权重信息等。
c)所述第二子确定装置21根据分布信息和各个关键词的稀缺度来确定所述扩展文本信息包含的各关键词的权重信息。
具体地,该根据分布信息和稀缺度来确定权重信息的方式包括但不限于:
i)所述第二子确定装置21直接根据分布信息和各个关键词的稀缺度确定所述扩展文本信息包含的各关键词的权重信息。例如,对于所述各个关键词中的每个关键词,所述第二子确定装置21将关键词在所述所有资源相关文本信息中的出现次数和该关键词的稀缺度进行求取乘积、和值、平方和等处理,来将处理所得的值分别作为关键词的权重信息;又例如,对于所述各个关键词中的每个关键词,所述第二子确定装置21先对关键词在所述所有资源相关文本信息中的出现次数及各个类型的文本信息对应的预定权重值分别进行归一化处理,再将对关键词在所述所有资源相关文本信息中的出现次数进行归一化处理后所得的值、对该关键词所在文本信息的类型的预定权重值进行归一化处理后所得的值以及关键词的稀缺度,进行求取乘积、和值、平方和等处理,来确定关键词的权重信息等。
ii)所述第二子确定装置21先根据分布信息来初步确定所述扩展文本信息包含的各个关键词的权重信息,再基于各个关键词的稀缺度来调整前述初步确定的各关键词的权重信息,以获得最终的各个关键词的权重信息。其中,所述第二子确定装置21先根据分布信息来初步确定所述扩展文本信息包含的各关键词的权重信息的方式与前述根据分布信息来确定所述扩展文本信息包含的各个关键词的权重信息的方式相同或相似,在此以引用的方式包含于此,不再赘述。例如,所述第二子确定装置21初步确定关键词x61的权重信息为5、并获取关键词x61的稀缺度为0.8,则所述第二子确定装置21将该稀缺度与权重信息的乘积0.8*5=4作为该关键词x61的最终的权重信息。又例如,所述第二子确定装置21初步确定关键词x62的权重信息为3,并获取关键词x62的稀缺度为0.1,则所述第二子确定装置21基于该稀缺度小于预定稀缺度阈值,将该初步确定的关键词x62的权重信息减去一个预定调节值来获得关键词x62最终的权重信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于分布信息和各个关键词的稀缺度来确定所述扩展文本信息包含的各关键词的权重信息的实现方式,均包含在本发明的范围内。
其中,所述第二子确定装置21根据所述扩展文本信息及所获得的各个关键词的权重信息来确定所述多个资源与至少一个预定类型间的第一相关概率信息的方式包括但不限于:
1)所述第二子确定装置21根据所述扩展文本信息及各关键词的权重信息,采用诸如概率潜在语义分析、浅层狄利赫雷等算法来确定第一相关概率信息。
2)所述第二子确定装置21根据扩展文本信息所包含的各个关键词所相关的预定类型及各个关键词的权重信息,来确定第一相关概率信息。例如,所述第二子确定装置21确定关键词x63的权重信息为7.5,关键词x64的权重信息为5,并基于关键词与预定类型的关联关系表确定与关键词x63相关的类型为预定类型L11、与关键词x64相关的预定类型为预定类型L12,则所述第二子确定装置21确定所述多个资源与预定类型L11的第一相关概率信息为7.5/(7.5+5)=0.6,与预定类型L12的第一相关概率信息为5/(7.5+5)=0.4。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述扩展文本信息及各关键词的权重信息来确定所述多个资源与至少一个预定类型间的第一相关概率信息的实现方式,均应包含在本发明的范围内。此外,本领域技术人员还应该理解,任何根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,来确定所述多个资源与至少一个预定类型间的第一相关概率信息的实现方式,也均应包含在本发明的范围内。
作为本实施例的优选方案之一,根据本实施例的类型确定装置还包括更新装置(未予图示)。所述更新装置根据所述多个资源与至少一个预定类型间的第一相关信息,建立或更新资源类型库。
优选地,所述更新装置根据所述多个资源与至少一个预定类型间的第一相关概率信息,来建立或更新所述资源类型库。
更优选地,所述更新装置仅将所对应的预定类型与所述多个资源相关的第一相关信息,或者,所述更新装置仅将大于零的第一相关概率信息存储至所述资源类型库中。
更为优选地,所述更新装置将所述多个资源的每一个所属网站的链接地址信息及评价值信息等存储在所述资源类型库中。
根据本实施例的类型确定装置,基于扩展文本信息及各关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,能够更为准确的确定资源与预定类型间的第一相关概率信息。
图6示出了本发明的一个优选实施例的根据所确定的第一相关信息来对资源排序的类型确定装置示意图。根据本实施例的类型确定装置包括第三获取装置6、查询装置7以及排序装置8。
所述第三获取装置6获取基于来自用户的输入序列进行检索所得的多个待处理资源。
接着,所述查询装置7根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关信息。其中,所述资源类型库的建立及更新过程已在图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
具体地,所述查询装置7根据基于所述输入序列来获得的多个待处理资源,在所述资源类型库中进行查询,以获得包含于所述资源类型库中的一个或多个资源,并获得该一个或多个待处理资源与至少一个预定类型间的第一相关信息;或者,所述查询装置7根据点击量、资源质量等因素,由该基于所述输入序列来获得的多个待处理资源中选择至少一个待处理资源,并根据所选择的所述至少一个待处理资源在所述资源类型库中进行查询,以获得包含于所述资源类型库中的一个或多个资源,并获得该一个或多个待处理资源与至少一个预定类型间的第一相关信息。
接着,所述排序装置8根据所述一个或多个待处理资源与至少一个预定类型间的第一相关信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关信息,来确定所述多个待处理资源的排序,以提供给所述用户。
其中,在所述排序装置8确定所述多个待处理资源的排序之前预获取所述输入序列与至少一个预定类型间的第二相关信息的方式包括但不限于:1)所述排序装置8直接通过分析所述输入序列与至少一个预定类型的类型名称间的语义相关性来确定该第二相关信息。例如,来自用户的输入序列为“手机”,则所述排序装置8基于该输入序列“手机”与预定类型“手机”的类型名称相同,与预定类型“水果”的类型名称不同,来确定该输入序列“手机”与预定类型“手机”的第二相关信息为相关,与预定类型“水果”不相关。2)根据所述类型确定装置所包含的第二确定装置(未予图示)来确定所述第二相关信息。其中,所述第二确定装置根据自身或其他装置预建立的关键词与至少一个预定类型间的相关信息,来确定所述输入序列与至少一个预定类型间的第二相关信息。该关键词与至少一个预定类型间的相关信息存储在所述第二确定装置中或所述第二确定装置能够访问的存储设备中。优选地,当来自用户的输入序列包含由多个词构成的长字符串,则所述第二确定装置先对输入序列进行切词等处理以获得关键词,并根据切词所得的关键词来确定所述输入序列与至少一个预定类型间的第二相关信息。
其中,所述排序装置8根据预获取的所述输入序列与至少一个预定类型间的第二相关信息及所述一个或多个待处理资源与至少一个预定类型间的第一相关信息,来确定各待处理资源与所述输入序列之间的相似度,以基于所确定的相似度来确定所述多个待处理资源的排序。
例如,所述第二确定装置预获取的输入序列“手机”与预定类型“手机”间的第二相关信息为1,查询装置7查询获得基于所述输入序列“手机”进行检索所得的待处理资源A5与预定类型“手机”间的第一相关信息为1,所得的待处理资源A6与预定类型“手机”间的第一相关信息为0;则所述排序装置8基于待处理资源A5与预定类型“手机”的第一相关信息为1以及输入序列“手机”与预定类型“手机”的第二相关信息为1,来确定待处理资源A5与输入序列的相似度为1,并基于待处理资源A6与预定类型“手机”的第一相关信息为0以及输入序列“手机”与预定类型“手机”的第二相关信息为1,来确定待处理资源A6与输入序列的相似度为0,进而确定待处理资源A5排序在待处理资源A6之前。
优选地,所述排序装置8根据所述相似度,并进一步结合诸如点击量,资源质量,输入序列与资源的匹配度等其他因素,确定所述多个待处理资源的排序。
作为本实施例的优选方案之一,所述资源类型库中包括第一相关概率信息,所述第二相关信息包括第二相关概率信息,所述查询装置7进一步包括子查询装置(未予图示),所述排序装置8进一步包括子排序装置(未予图示)。
所述子查询装置根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关概率信息。
其中,所述子查询装置查询并获得所述第一相关概率信息的方式与前述查询装置7查询并获得所述第一相关信息的方式相同或相似,在此不再赘述。
所述子排序装置根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关概率信息,来确定所述多个待处理资源的排序,以提供给所述用户。
其中,在子排序装置确定所述多个待处理资源的排序之前预获取所述输入序列与至少一个预定类型间的第二相关概率信息的方式包括但不限于:1)所述子排序装置直接通过分析所述输入序列与至少一个预定类型的类型名称间的语义相关性来确定该第二相关概率信息。例如,来自用户的输入序列为“移动电话”,所述子排序装置根据同义词辞典确定该输入序列“移动电话”与预定类型“手机”为同义词,则所述子排序装置基于预定的同义词对应的第二相关概率信息为0.9的规则,来确定该输入序列“移动电话”与预定类型“手机”的第二相关概率信息为0.9。2)根据所述第二确定装置来获得所述第二相关概率信息。其中,所述第二确定装置根据自身或其他装置预建立的关键词与至少一个预定类型间的相关概率信息,来确定所述输入序列与至少一个预定类型间的第二相关概率信息,该关键词与至少一个预定类型间的相关概率信息存储在所述第二确定装置中或所述第二确定装置能够访问的存储设备中。优选地,当来自用户的输入序列包含由多个词构成的长字符串,则所述第二确定装置先对输入序列进行切词等处理以获得关键词,并根据切词所得的关键词来确定所述输入序列与至少一个预定类型间的第二相关概率信息。
优选地,所述第二确定装置预建立关键词与至少一个预定类型间的第二相关概率信息的方式包括但不限于以下至少一项:
1)基于关键词在资料库中进行检索所获得的与各个预定类型相关的检索结果的数量来确定。其中,各个检索结果对应的预定类型由所述第二确定装置或其他装置经过预处理获得。例如,基于关键词“苹果”在资料库中进行检索,获得与预定类型“水果”相关的检索结果的数量为500,与预定类型“手机”相关的检索结果的数量为8000,则所述第二确定装置确定该关键词“苹果”与预定类型“水果”的第二相关概率信息为500/8000=1/16,与预定类型“手机”的第二相关概率信息为15/16。
2)将基于关键词进行检索所获得的多个资源候选项提供给用户后,根据用户对与预定类型相关的资源候选项的点击量来确定。例如,基于关键词“黎明”进行检索所获得的多个资源候选项中,与预定类型“人名”相关的资源候选项的点击量为3000,与预定类型“风景”相关的资源候选项的点击量为1000,则所述第二确定装置确定该关键词“黎明”与预定类型“人名”的第二相关概率信息为3000/(3000+1000)=0.75,与预定类型“风景”的第二相关概率信息为0.25。
3)基于关键词进行检索所获得多个资源候选项后,根据与预定类型相关的资源候选项被展现给用户的次数来确定。其中,该展现次数为该资源候选项呈现给用户的次数。优选地,当一个包含多个资源候选项的页面呈现给用户时,该页面所包含的所有资源候选项均被认为展现一次。例如,基于关键词x71进行检索所获得的多个资源候选项中,与预定类型L71相关的资源候选项的展现次数为600次,与预定类型L72相关的资源候选项的展现次数为6000次,则所述第二确定装置确定该关键词x71与预定类型L71的第二相关概率信息为600/(600+6000)=1/11,与预定类型L72的第二相关概率信息为10/11。
4)基于关键词的语义分析来确定。例如,所述第二确定装置对关键词“杜鹃”进行语义分析,并根据预定的语义词典确定“杜鹃”包括植物“杜鹃花”与动物“杜鹃鸟”两种含义,则所述第二确定装置根据语义分析结果确定该关键词“杜鹃”与预定类型“植物”的第二相关概率信息为0.5,与预定类型“鸟类”的第二相关概率信息为0.5。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何建立关键词与至少一个预定类型间的第二相关概率信息的方式的实现方式,均应包含在本发明的范围内。
具体地,所述子排序装置根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息及所述输入序列与至少一个预定类型间的第二相关概率信息,来确定各待处理资源与所述输入序列之间的相似度,以根据所确定的相似度来确定所述多个待处理资源的排序,提供给用户。
例如,所述子排序装置将一个待处理资源与至少一个预定类型间的第一相关概率信息作为第一向量,将所述输入序列与至少一个预定类型间的第二相关概率信息作为第二向量,并求取该第一向量与第二向量之间的角度,以确定该待处理资源与所述输入序列的相似度,并根据该相似度来调整基于各个待处理资源的点击量、各个待处理资源的资源质量和各个待处理资源与所述输入序列的匹配度等因素确定的各个待处理资源的初始排序结果,以获得调整后的多个待处理资源的排序结果,提供给用户。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关概率信息,来确定所述多个待处理资源的排序的实现方式,均应包含在本发明的范围内。
根据本实施例的类型确定装置,能将所确定的资源与至少一个预定类型间的第一相关概率信息应用于检索系统,并基于输入序列与至少一个预定类型间的第二相关概率信息来确定资源与输入序列间的相似度,并基于该相似度来对检索结果排序,由此,使得与输入序列相似度高的资源排序靠前,进而使排序更为合理,更符合用户的需求,提高检索系统的可信度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (23)

1.一种计算机实现的基于扩展文本信息来确定资源类型的方法,其中,该方法包括以下步骤:
a将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同;
b根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息;
其中,所述步骤b还包括以下步骤:
-根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,确定所述多个资源与至少一个预定类型间的第一相关概率信息。
2.根据权利要求1所述的方法,其中,所述步骤b还包括以下步骤:
-根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关概率信息。
3.根据权利要求1所述的方法,其中,所述步骤a还包括以下步骤:
-将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得所述扩展文本信息以及所述分布信息。
4.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
-根据所述扩展文本信息中包含的多个关键词在所述所有资源相关文本信息中的分布来获得所述分布信息。
5.根据权利要求1所述的方法,其中,所述分布信息包括以下至少一项:
-所述多个关键词中每个关键词在所述所有资源相关文本信息中的出现次数;
-所述多个关键词中每个关键词所在的文本信息的类型,其中,所述文本信息包含于相关文本信息中;
-所述多个关键词中每个关键词所在的文本信息的类型及其在每种文本信息的类型中出现的次数。
6.根据权利要求1所述的方法,其中,所述资源相关文本信息包括以下至少一项文本信息:
-该资源相关文本信息所相关的资源的锚文本信息;
-该资源相关文本信息所相关的资源的描述文本信息;
-该资源相关文本信息所相关的资源所属网页中包含的预定范围内的文本信息。
7.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
-获取多个待聚类资源;
-根据所述多个待聚类资源自身所包含的信息,来对该多个待聚类资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源;
其中,该方法还包括以下步骤:
-根据与所述聚类所得的一组聚类资源相关的资源相关文本信息,来建立所述预建立的资源相关文本信息集合。
8.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
-根据所述多个资源与至少一个预定类型间的第一相关信息,建立或更新资源类型库。
9.根据权利要求8所述的方法,其中,该方法还包括以下步骤:
x获取基于来自用户的输入序列进行检索所得的多个待处理资源;
y根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关信息;
z根据所述一个或多个待处理资源与至少一个预定类型间的第一相关信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关信息,来确定所述多个待处理资源的排序,以提供给所述用户。
10.根据权利要求9所述的方法,其中,所述第一相关信息包括第一相关概率信息,所述第二相关信息包括第二相关概率信息,所述步骤y还包括以下步骤:
-根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关概率信息;
其中,所述步骤z还包括以下步骤:
-根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关概率信息,来确定所述多个待处理资源的排序,以提供给所述用户。
11.根据权利要求9或10所述的方法,其中,所述方法还包括以下步骤;
-根据预建立的关键词与至少一个预定类型间的相关信息,来确定所述输入序列与至少一个预定类型间的第二相关信息。
12.一种基于扩展文本信息来确定资源类型的类型确定装置,其中,该类型确定装置包括:
合并装置,用于将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得分别与所述多个资源相关文本信息相关的多个资源的扩展文本信息,其中,所述多个资源中的任一资源均与所述多个资源中的其他资源相似或相同;
第一确定装置,用于根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关信息;
其中,所述第一确定装置还包括:
第二子确定装置,用于根据所述扩展文本信息,并结合预获取的所述扩展文本信息中包含的多个关键词在所有资源相关文本信息中的分布信息和/或各个关键词的稀缺度,确定所述多个资源与至少一个预定类型间的第一相关概率信息。
13.根据权利要求12所述的类型确定装置,其中,所述第一确定装置还包括:
第一子确定装置,用于根据所述扩展文本信息,确定所述多个资源与至少一个预定类型间的第一相关概率信息。
14.根据权利要求12所述的类型确定装置,其中,所述合并装置还包括:
子合并装置,用于将预建立的资源相关文本信息集合所包含的多个资源相关文本信息进行合并处理,以获得所述扩展文本信息以及所述分布信息。
15.根据权利要求12所述的类型确定装置,其中,所述类型确定装置还包括:
第一获取装置,用于根据所述扩展文本信息中包含的多个关键词在所述所有资源相关文本信息中的分布来获得所述分布信息。
16.根据权利要求12所述的类型确定装置,其中,所述分布信息包括以下至少一项:
-所述多个关键词中每个关键词在所述所有资源相关文本信息中的出现次数;
-所述多个关键词中每个关键词所在的文本信息的类型,其中,所述文本信息包含于相关文本信息中;
-所述多个关键词中每个关键词所在的文本信息的类型及其在每种文本信息的类型中出现的次数。
17.根据权利要求12所述的类型确定装置,其中,所述资源相关文本信息包括以下至少一项文本信息:
-该资源相关文本信息所相关的资源的锚文本信息;
-该资源相关文本信息所相关的资源的描述文本信息;
-该资源相关文本信息所相关的资源所属网页中包含的预定范围内的文本信息。
18.根据权利要求12所述的类型确定装置,其中,该类型确定装置还包括:
第二获取装置,用于获取多个待聚类资源;
聚类装置,用于根据所述多个待聚类资源自身所包含的信息,来对该多个待聚类资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源;
构建装置,用于根据与所述聚类所得的一组聚类资源相关的资源相关文本信息,来建立所述预建立的资源相关文本信息集合。
19.根据权利要求12所述的类型确定装置,其中,该类型确定装置还包括:
更新装置,用于根据所述多个资源与至少一个预定类型间的第一相关信息,建立或更新资源类型库。
20.根据权利要求19所述的类型确定装置,其中,该类型确定装置还包括:
第三获取装置,用于获取基于来自用户的输入序列进行检索所得的多个待处理资源;
查询装置,用于根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关信息;
排序装置,用于根据所述一个或多个待处理资源与至少一个预定类型间的第一相关信息和预获取的所述输入序列与至少一个预定类型间的第二相关信息,来确定所述多个待处理资源的排序,以提供给所述用户。
21.根据权利要求20所述的类型确定装置,其中,所述第一相关信息包括第一相关概率信息,所述第二相关信息包括第二相关概率信息,所述查询装置还包括:
子查询装置,用于根据所述多个待处理资源来在所述资源类型库中进行查询,以获得所述多个待处理资源中的一个或多个待处理资源与至少一个预定类型间的第一相关概率信息;
其中,所述排序装置还包括:
子排序装置,用于根据所述一个或多个待处理资源与至少一个预定类型间的第一相关概率信息,并结合预获取的所述输入序列与至少一个预定类型间的第二相关概率信息,来确定所述多个待处理资源的排序,以提供给所述用户。
22.根据权利要求20或21所述的类型确定装置,其中,所述类型确定装置还包括;
第二确定装置,用于根据预建立的关键词与至少一个预定类型间的相关信息,来确定所述输入序列与至少一个预定类型间的第二相关信息。
23.一种计算机设备,其中,该计算机设备包括如权利要求12至22中任一项所述的类型确定装置。
CN201110105456.0A 2011-04-26 2011-04-26 基于扩展文本信息来确定资源类型的方法、装置及设备 Active CN102760127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110105456.0A CN102760127B (zh) 2011-04-26 2011-04-26 基于扩展文本信息来确定资源类型的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110105456.0A CN102760127B (zh) 2011-04-26 2011-04-26 基于扩展文本信息来确定资源类型的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN102760127A CN102760127A (zh) 2012-10-31
CN102760127B true CN102760127B (zh) 2017-11-03

Family

ID=47054585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110105456.0A Active CN102760127B (zh) 2011-04-26 2011-04-26 基于扩展文本信息来确定资源类型的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN102760127B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294473B (zh) * 2015-06-03 2020-11-10 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN106294729B (zh) * 2016-08-09 2019-10-18 百度在线网络技术(北京)有限公司 确定目标呈现信息的资源配置概率分布的方法与设备
CN109783616A (zh) * 2018-12-03 2019-05-21 广东蔚海数问大数据科技有限公司 一种文本主题提取方法、系统和存储介质
CN110413737B (zh) * 2019-07-29 2022-10-14 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110704578B (zh) * 2019-10-09 2022-08-09 北京秒针人工智能科技有限公司 关联关系确定方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101491A (en) * 1995-07-07 2000-08-08 Sun Microsystems, Inc. Method and apparatus for distributed indexing and retrieval
CN101165685A (zh) * 2006-10-19 2008-04-23 国际商业机器公司 用于生成动态网页的方法及装置
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
CN101206664A (zh) * 2007-12-17 2008-06-25 张尧森 网页信息单元截取、合并的方法
CN101986306A (zh) * 2010-11-03 2011-03-16 百度在线网络技术(北京)有限公司 一种用于基于查询序列获取黄页信息的方法与设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101491A (en) * 1995-07-07 2000-08-08 Sun Microsystems, Inc. Method and apparatus for distributed indexing and retrieval
CN101165685A (zh) * 2006-10-19 2008-04-23 国际商业机器公司 用于生成动态网页的方法及装置
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
CN101206664A (zh) * 2007-12-17 2008-06-25 张尧森 网页信息单元截取、合并的方法
CN101986306A (zh) * 2010-11-03 2011-03-16 百度在线网络技术(北京)有限公司 一种用于基于查询序列获取黄页信息的方法与设备

Also Published As

Publication number Publication date
CN102760127A (zh) 2012-10-31

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
WO2021143267A1 (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN107609152A (zh) 用于扩展查询式的方法和装置
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
WO2018040069A1 (zh) 信息推荐系统及方法
CN106959966A (zh) 一种信息推荐方法及系统
CN108288208B (zh) 基于图像内容的展示对象确定方法、装置、介质及设备
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN102760127B (zh) 基于扩展文本信息来确定资源类型的方法、装置及设备
CN111400615B (zh) 一种资源推荐方法、装置、设备及存储介质
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
US20130204835A1 (en) Method of extracting named entity
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN108132963A (zh) 资源推荐方法和装置、计算设备和存储介质
CN112633973A (zh) 一种商品推荐方法及其相关设备
CN109033220B (zh) 标注数据的自动选取方法、系统、设备和存储介质
CN108475256A (zh) 从同现矩阵生成特征嵌入
CN112000871A (zh) 确定搜索结果列表的方法、装置、设备及存储介质
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN106354867A (zh) 多媒体资源的推荐方法及装置
CN106919588A (zh) 一种应用程序搜索系统及方法
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN105095385B (zh) 一种检索结果的输出方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant