CN102955813B - 一种信息搜索方法和系统 - Google Patents

一种信息搜索方法和系统 Download PDF

Info

Publication number
CN102955813B
CN102955813B CN201110251443.4A CN201110251443A CN102955813B CN 102955813 B CN102955813 B CN 102955813B CN 201110251443 A CN201110251443 A CN 201110251443A CN 102955813 B CN102955813 B CN 102955813B
Authority
CN
China
Prior art keywords
user
label value
object search
weight
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110251443.4A
Other languages
English (en)
Other versions
CN102955813A (zh
Inventor
简勤
郭正平
王全礼
杨俊拯
郑长松
曾东
廖勤耘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Music Co Ltd
Original Assignee
China Mobile Group Sichuan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Sichuan Co Ltd filed Critical China Mobile Group Sichuan Co Ltd
Priority to CN201110251443.4A priority Critical patent/CN102955813B/zh
Publication of CN102955813A publication Critical patent/CN102955813A/zh
Application granted granted Critical
Publication of CN102955813B publication Critical patent/CN102955813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种信息搜索方法和系统。该方法包括:根据用户针对搜索对象的行为信息,为搜索对象建立标签值;根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应;根据搜索对象在标签值上的权重,确定搜索结果。应用本发明能够提高信息搜索的准确性。

Description

一种信息搜索方法和系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息搜索方法和系统。
背景技术
目前在互联网上进行信息搜索,通常以待搜索信息本身的文本内容为关键字,通过字符匹配进行搜索,无法根据待搜索信息本身所蕴含的深度含义进行搜索。
例如,目前的音乐搜索系统,通常以音乐文件本身的文本内容为关键字,例如,以歌手名、歌曲名、专辑名称等作为关键字进行音乐文件搜索,无法根据歌曲本身所蕴含的深度含义进行搜索。
通常,待搜索信息本身所蕴含的深度含义,只有通过人的感知或综合分析才能提炼出来,仅仅通过字符匹配无法准确搜索到需要的信息,例如,要寻找旋律和情感方面较为忧伤的歌曲,通过简单的字符匹配是很难找到真正相应的歌曲列表的。
可见,目前的信息搜索方法的准确性较差。
发明内容
有鉴于此,本发明提供了一种信息搜索方法和系统,以便提高信息搜索的准确性。
本发明的技术方案具体是这样实现的:
一种信息搜索方法,该方法包括:
通过分析用户针对搜索对象的行为信息,为搜索对象建立标签值;
根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应;
根据搜索对象在标签值上的权重,确定搜索结果。
一种信息搜索系统,该系统包括标签值建立模块、权重确定模块和搜索模块;
所述标签值建立模块,用于根据用户针对搜索对象的行为信息,为搜索对象建立标签值;
所述权重确定模块,用于根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应;
所述搜索模块,用于根据搜索对象在标签值上的权重,确定搜索结果。
由上述技术方案可见,本发明通过分析用户针对搜索对象的行为信息,为搜索对象建立标签值,通过以所述标签值作为信息搜索的一个依据,使得能够根据用户针对搜索对象的行为确定搜索结果,由于用户行为能在一定程度上反映待搜索信息的深层含义,因此能够提高信息搜索的准确性。
另外,本发明根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,通过二维空间的相互影响,即通过用户权重这样的用户空间和标签值权重这样的标签空间的相互影响,使得确定出的搜索对象在标签值上的权重能够反映搜索对象本身的深层含义,因此,本发明在以标签值作为依据进行信息搜索时,准确性较高。
附图说明
图1是本发明提供的信息搜索方法的流程图。
图2是为音乐文件搜索预先确定维度值的方法流程图。
图3是为音乐文件建立标签值的方法流程图。
图4是音乐文件对应标签的数据库结构图。
图5是用户对应音乐文件标签的数据库结构图。
图6是本发明提供的二重维度空间相互依赖的权重模型。
图7是本发明提供的实例模型示意图。
图8是歌曲在标签值上的权重矩阵。
图9是对歌曲按照标签值进行由小到大的排序并以序号作为综合权重系数的矩阵。
图10是本发明提供的信息搜索系统的结构图。
具体实施方式
图1是本发明提供的信息搜索方法的流程图。
如图1所示,该方法包括:
步骤101,根据用户针对搜索对象的行为信息,为搜索对象建立标签值。
步骤102,根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重。
其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应。
步骤103,根据搜索对象在标签值上的权重,确定搜索结果。
图1所述的搜索对象,可以是音乐文件、视频文件、网站、网络上的商品信息等。
所述的用户针对搜索对象的行为信息,可以包括但不限于:用户评论的文字内容、和/或以打分形式出现的用户评论信息、和/或用户是否访问了该搜索对象。通过分析用户针对搜索对象的行为信息,可以挖掘出搜索对象的深层含义,从而为搜索对象建立能够代表其深层含义的标签。
下面以分析用户评论为例,对为搜索对象建立标签值的方法进行示例性说明,所举例子并不用于限制本发明:
预先确定一个或多个维度、以及每个维度包括的维度值,遍历所有维度的所有维度值,将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配,将匹配成功的维度值确定为该搜索对象的标签值。
其中,所述预先确定一个或多个维度、以及每个维度包括的维度值,可以是根据互联网上的用户评论、或者现实生活中的用户评论,由人工预先确定出相应的维度,以及每个维度包括的维度值。
由人工确定维度值的方法有失客观性,无法准确地反映搜索对象的深层含义,因此,本发明提出,所述预先确定一个或多个维度、以及每个维度包括的维度值,可以采用如下的方法提高维度值的客观性:
从网络上获取用户评论,提取同一用户对同一搜索对象的所有用户评论的关键词,根据关键词的出现次数,选择出现次数满足预定条件的关键词,将选出的关键词确定为维度值,将确定出的所有维度值划分为一个或多个维度。
将匹配成功的维度值确定为该搜索对象的标签值之后,为了便于确定用户权重和搜索对象在每个标签值上的权重,本发明还可以在为搜索对象建立了标签值以后,建立所有搜索对象对应标签的数据库,以及所有用户对应标签的数据库。
其中,所有搜索对象对应标签的数据库包括:搜索对象列表、每一搜索对象对应的标签值列表,每一搜索对象的每一标签值对应的用户评论信息列表,该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间。
所有用户对应标签的数据库包括:用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的搜索对象信息列表,该搜索对象信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有搜索对象、以及根据所述用户的用户评论为每一搜索对象建立所述标签值的最新时间。
下面以音乐文件搜索为例,对维度值的确定方法,以及为音乐文件建立标签值的方法进行示例性说明,具体请参见图2~图5,所举例子并不用于限制本发明。
图2是为音乐文件搜索预先确定维度值的方法流程图。
如图2所示,该方法包括:
步骤201,从网络上获取音乐文件的用户评论信息。
步骤202,将同一用户对同一音乐文件的用户评论信息进行结构解析,提取出关键词。
本步骤中,首先对获取的用户评论信息按照如下的结构进行结构化处理:
1)用户评论信息的题目:该用户评论信息所针对的音乐文件名称;
2)用户评论信息的内容、作者(即用户信息)和评论时间,还可以包括其他用户对该用户评论信息的内容的支持与反对(即其他用户是否支持该用户评论信息的内容)。
将同一用户对同一音乐文件的所有评论的内容进行分词处理,在分词处理后,将一些停用词等无意义的词过滤掉,然后将剩余的词作为提取出的关键词。
步骤203,从提取出的所有关键词中选出重复次数满足预定条件的关键词,将该重复次数满足预定条件的关键词确定为维度值。
关键词的重复次数越多,则说明当前越多用户采用该关键词对音乐文件进行评论,因此可以将该关键词作为一个维度值。
其中,为了避免某些用户多次使用相同的关键词对同一音乐文件进行评论而影响关键词的重复次数,如果一个关键词在同一用户对同一音乐文件的所有评论的内容中出现多次,则可以将该多次计为1次,以使得选出的维度值更能够体现大多数用户对音乐文件的评论内容。
通过对大量音乐文件的用户评论信息的分词处理和关键词提取,最终确定了维度值以后,可以将所有维度值划分为多个维度。
其中,每个维度中除了包含通过图2方法确定的维度值外,还可以包括采用其他方法(例如人工方法)确定的维度值。
图3是为音乐文件建立标签值的方法流程图。
如图3所示,该流程包括:
步骤301,对于任意需要建立标签值的音乐文件,获取该音乐文件的用户评论信息。
步骤302,将每个用户对该音乐文件的所有评论信息进行分词处理,过滤掉停用词等无意义的词,将过滤后的分词结果与每个维度中的每个维度值进行匹配,将匹配上的维度值确定为该音乐文件的标签值。
通过步骤302,可以为音乐文件建立标签值。
图4是音乐文件对应标签的数据库结构图。
参见图4,Song1-songN为所有的歌曲列表,label1-labelM为song1对应的若干标签值,歌曲列表中每首歌曲都对应一个标签列表,labelinfo1列表代表该标签对应所有的用户及评论时间。
可见,音乐文件对应标签的数据库包括音乐文件列表、每一音乐文件对应的标签值列表,每一音乐文件的每一标签值对应的用户评论信息列表,该用户评论信息列表包括根据其用户评论为所述音乐文件建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间。
图5是用户对应音乐文件标签的数据库结构图。
参见图5,User1-UserN为所有的参与评论的用户列表,label1-labelM为User1对应的若干标签值,用户列表中每个用户都对应一个标签列表,其中labelinfo2对象列表代表该标签对应所有歌曲及评论时间。
可见,用户对应音乐文件标签的数据库包括用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的音乐文件信息列表,该音乐文件信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有音乐文件的信息、以及根据所述用户的用户评论为每一音乐文件建立所述标签值的最新时间。
图1所示方法中,所述根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,实际上是在用户空间和搜索对象的标签值空间之间建立一种制约关系,使得用户的权重和标签值的权重能够相互影响,从而使得用户权重和标签值的权重能够更加客观而真实。
具体地,所述根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重可以包括:
根据搜索对象在用户对应的各个标签值上的权重,建立该用户的权重方程;根据标签值对应的各个用户的权重,建立搜索对象在该标签值上的权重方程;通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组,确定用户的权重,以及搜索对象在标签值上的权重。
其中,所述根据搜索对象在用户对应的各个标签值上的权重,建立该用户的权重方程包括:
根据搜索对象si在维度dj的维度值vk上的权重sidjvk,以及根据其用户评论为搜索对象si建立维度dj的维度值vk的用户的个数count_voteijk,确定用户Uu在搜索对象si的维度dj的维度值vk上的权重系数为:
SiDjVk_average=sidjvk/count_voteijk
遍历用户Uu在每个搜索对象的每个维度的每个维度值上的权重系数,得到该用户Uu的权重方程为: Score ( U u ) = Σ i = 1 n Σ j = 1 m Σ k = 1 l S i D j V k _ average , 其中,Score(Uu)是用户Uu的权重,n是搜索对象的个数,m是维度的个数,l是维度内维度值个数的最大值。
其中,所述根据标签值对应的各个用户的权重,建立搜索对象在该标签值上的权重方程包括:
遍历根据其用户评论为所述搜索对象建立了所述标签值的所有用户,根据所述所有用户中每个用户在所述搜索对象的所述标签值上的权重系数Ui/countM,得到所述所有用户的所述权重系数Ui/countM的累加和,其中,Ui是用户的权重,countM是所述搜索对象的所有标签值总数;确定所述标签值所属的维度,利用所述搜索对象在所述标签值上得到的投票数countvotex,除以所述搜索对象在所述维度上得到的投票总数sum,将所得的结果确定为所有用户对所述搜索对象在所述标签值上的权重系数,其中,所述搜索对象在所述标签值上得到的投票数,是根据其用户评论,为所述搜索对象建立了所述标签值的用户的个数,所述搜索对象在所述维度上得到的投票总数,是所述搜索对象在所述维度上的所有标签值上得到的投票数之和;根据所述累加和、以及所述所有用户对所述搜索对象在所述标签值上的权重系数,确定所述搜索对象在所述标签值上的权重Score(ax)。
其中,确定所述搜索对象在所述标签值上的权重Score(ax)可以包括:
将所述搜索对象在所述标签值上的权重Score(ax),确定为所述累加和乘以所述所有用户对所述搜索对象在所述标签值上的权重系数所得的结果: Score ( ax ) = Σ i = 1 n ( U i ÷ count M ) × ( count votex ÷ sum ) .
或者,将所述搜索对象在所述标签值上的权重Score(ax),确定为:
Score ( ax ) = Σ i = 1 n ( U i ÷ count M ÷ count i - vote × σ ) × ( count votex ÷ sum )
其中,counti-vote是根据用户i的用户评论为其建立了所述标签值的搜索对象的个数。
σ=(now(t)-last(t))÷(latest(t)-last(t)),now(t)是为所述搜索对象建立所述标签值所依据的用户i的用户评论的最新时间,last(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最老时间,latest(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最新时间。
可见,本发明通过在用户维度和搜索对象维度的二重维度空间中,用户权重与搜索对象标签权重相互依赖的方式,来确定用户的权重和搜索对象在标签值上的权重,使得确定出的权重值能够更加准确。
下面继续音乐文件搜索的例子,对本发明提供的权重确定方法进行示例性说明。
图6是本发明提供的二重维度空间相互依赖的权重模型。
如图6所示,在左半部分的用户维度空间中,包括所有参与评论的用户集合(User1,User2...)、每个用户参与评论的集合(Comments1,Comments2,...)、通过用户评论得到的标签值的个数:按图中显示的标签个数,User1为3个标签,User2为2个标签......在右半部分的歌曲维度空间中,包括被用户评论的所有歌曲集合(Song1,Song2...),及用户为每首歌所打标签值、标签值的个数及投该标签值的用户数:按图中显示,Song1有2个标签值,投Label1的用户数位1个,投Label2的用户数为2个,Song2有1个标签值,投Label3的用户数为2个......
在计算歌曲在标签值上的权重、以及用户的权重时,两者是相互依赖的:计算一首歌曲在一个标签值上的权重时,要根据所有用户为该歌曲投该标签的个数,比如Song1在标签值label2的得票数为2个;同时在计算用户权重时,也要考虑该用户为多少歌曲投票,及每个标签投出的个数。比如按图6中显示User1为2首歌曲投票,在label1上该用户投了两票。两者的权重是相互依赖的。
下面对歌曲在标签值上的权重与用户的权重相互依赖的计算原理及过程进行详细的描述。
所述计算原理包括:
原理1:越多的人在同一个标签值上给同一首歌投票,说明该标签对该歌曲而言权重较高。
原理2:从广度性而言,对越多的歌曲有了解的用户对于歌曲的评价更具有客观性。
原理3:从成长性而言,对于同一个用户,离现在越近的评论比时间久远的评论更有客观性。
原理4:同一个用户,对于同一种标签值,对于越多的歌曲进行了投票,则投票的权重则越低。极端的情况是,对于每首歌,用户都评论都为快乐的,此时这个评论是没有价值的。
原理5:如果用户对于歌曲的评价越准确,则该用户的权重越高,反之亦然。
为了便于描述,对确定用户权重和歌曲在标签值上的权重将要用到的元素定义如下:
一、需要用到的元素:
1)歌曲S
2)用户U
3)维度D
4)维度值V
5)标签值M
二、需要用到的每种元素构成的集合:
1)歌曲集合SU(s1,s2...sn)
2)用户集合UU(u1,u2...um)
3)维度集合DU{d1,d2...dk}
4)对于任意d属于DU,有标签值的集合VU{v1,v2...vo}
5)任意的s属于SU,有标签集合SMU(sm1,sm2...smx);任意的u属于UU,则有标签投票集合UMU(um1,um2...umy)。
在确定用户权重时,用户的权重根据歌曲在该用户对应标签上的权重确定。
在确定歌曲在某一标签值上的权重时,歌曲在某一标签值上的权重由投票人的权重确定,换言之,一首歌曲在一个标签值上的权重,根据在该标签值上投票的所有用户的权重确定。其中,在该标签值上投票的用户,是指根据该用户的用户评论为该歌曲建立了所述标签值。
属于不同维度的标签值的权重的计算相互独立,互不干扰。
例如,假设某一维度为A{a1,a2...an},用户集合U{U1,U2,Um},歌曲集合S{S1,S2...,Sk}。
1)歌曲在标签值上的权重方程为:
Score ( somesong | ax ) = Σ i = 1 n ( U i ÷ count M ) × count votex ÷ sum
其中,标签值ax是在维度A里面的一个维度值;somesong|ax表示一首歌曲在维度A的维度值ax上的权重。
Ui(i=1、2......n)是根据其用户评论为歌曲somesong建立了标签ax的用户的权重,即针对somesong在维度A上投票为ax的用户的权重,n是根据其用户评论为歌曲somesong建立了标签ax的所有用户的总个数。
countM是该歌曲somesong的所有标签的总数。
sum是所有用户对somesong在维度A上的投票的总数,换言之,是歌曲somesong在维度A上的所有标签值上得到的投票数之和。
countvotex是所有用户对somesong在维度A上维度值为ax的投票总数,换言之,是根据其用户评论,为歌曲somesong建立了标签值ax的用户的个数。
countvotex÷sum是所有用户对somesong上在维度A上维度值为ax的权重系数。
根据所述计算原理中的原理3和原理4,本发明提出,还可以在确定somesong在标签值ax上的权重时,进一步考虑考虑时间因素和用户的投票数量,在权重计算公式中加入衰退因子σ,并加上用户的投票数量的影响。其中,在某个标签值上投票越多的用户,该用户的权重对somesong在该标签值上的权重影响越小。因此,歌曲somesong在标签值ax上的权重为:
Score ( ax ) = Σ i = 1 n ( U i ÷ count M ÷ count i - vote × σ ) × ( count votex ÷ sum )
其中,counti-vote是根据用户i的用户评论为其建立了所述标签值ax的歌曲的个数,即用户i在该标签值ax上对所有歌曲的投票数量。
σ=(now(t)-last(t))÷(latest(t)-last(t)),now(t)是为所述搜索对象建立所述标签值所依据的用户i的用户评论的最新时间,last(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最老时间,latest(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最新时间。
2)用户的权重方程为:
Score ( U u ) = Σ i = 1 n Σ j = 1 m Σ k = 1 l S i D j V k _ average
其中,Score(Uu)是用户Uu的权重,SiDjVk_average=sidjvk/count_voteijk,sidjvk是搜索对象si在维度dj的维度值vk上的权重,count_voteijk是根据其用户评论为搜索对象si建立维度dj的维度值vk的用户的个数。
根据歌曲在标签值上的权重方程和用户的权重方程,可以构建权重方程组,通过求解权重方程组确定歌曲在各个标签值上的权重,以及各个用户的权重。
例如,假设歌曲的总数为N,用户的总数为M,维度的个数为C,每个维度上维度值集合元素个数为v,则所有标签值总和则根据上述的用户权重方程及歌曲在标签值上的权重方程,可以建立M+N×V元一次方程组,本发明中,为了便于方程组收敛,可以将歌曲在标签值上的权重方程加1,方程组建立如下:
Score ( Song 1 | label 1 ) = Σ i = 1 N ( U i ÷ count M ÷ count vote × σ ) × count votex ÷ sum + 1 · · · Score ( Song N | label V ) = Σ i = 1 N ( U i ÷ count M ÷ count vote × σ ) × count votex ÷ sum + 1 Score ( U 1 ) = Σ i = 1 N Σ j = 1 C Σ k = 1 1 S i D j V k _ average · · · Score ( U M ) = Σ i = 1 N Σ j = 1 C Σ k = 1 1 S i D j V k _ average
通过求解上述方程组,可以确定用户的权重,以及歌曲在标签值上的权重。
确定出用户的权重和搜索对象在标签值上的权重后,就可以根据搜索对象在标签值上的权重由大到小的顺序确定搜索结果。
具体包括:当搜索关键字为一个标签值时,根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果;和/或,当搜索关键字包括两个以上的标签值时,首先为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序,然后将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加,得到每个搜索对象的综合权重,根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。
下面举一个具体是实例模型对本发明进行说明:
图7是本发明提供的实例模型示意图。
如图7所示,维度集合DU=(A,B),维度值集合VA={A1,A2},VB={B1,B2},歌曲集合SU={Song1,Song2,Song3},用户集合UU={U1,U2,U3,U4}。
图7中,标签总数countM=4,衰退因子σ=1,则构建的权重方程组为:
Song1A1=U1/4/2+1
Song2A1=U2/4/2+1
Song2B2=U1/4+1
Song3A1=U1/4/2×2/3+U2/4/2×2/3+1
Song3A2=U4/4×1/3+1
Song3B1=U3/4+1
U1=Song1A1+Song2B2+Song3A1/2
U2=Song2A1+Song3A1/2
U3=Song3B1
U4=Song3A2
解方程组,得如下值:
U1=4.43
U2=2.021
U3=1.33
U4=1.01
Song1A1=1.554
Song2A1=1.253
Song3A1=1.537
Song2B2=2.108
Song3B1=1.33
Song3A2=1.01
图8是歌曲在标签值上的权重矩阵,图9是对歌曲按照标签值进行由小到大的排序并以序号作为综合权重系数的矩阵。如果用户输入标签值为A1,A2,B1,B2则图9矩阵中按行求和后的和序列为(3,2,4),即Song1、Song2和Song3的综合权重分别为3、2、4,因此返回给用户的歌曲序列为(song3,song1,song2)。
根据上述方法,本发明还提供了一种信息搜索系统,具体请参见图10。
图10是本发明提供的信息搜索系统的结构图。
如图10所示,该系统包括标签值建立模块1001、权重确定模块1002和搜索模块1003。
标签值建立模块1001,用于根据用户针对搜索对象的行为信息,为搜索对象建立标签值。
权重确定模块1002,用于根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应。
搜索模块1003,用于根据搜索对象在标签值上的权重,确定搜索结果。
其中的标签值建立模块1001,可以用于根据预先确定的一个或多个维度、以及每个维度包括的维度值,遍历所有维度的所有维度值,将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配,将匹配成功的维度值确定为该搜索对象的标签值。
标签值建立模块1001可以包括维度建立模块和维度值匹配模块。
所述维度建立模块,用于从网络上获取用户评论,提取同一用户对同一搜索对象的所有用户评论的关键词,根据关键词的出现次数,选择出现次数满足预定条件的关键词,将选出的关键词确定为维度值,将确定出的所有维度值划分为一个或多个维度。
所述维度值匹配模块,用于遍历所有维度的所有维度值,将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配,将匹配成功的维度值确定为该搜索对象的标签值。
该信息搜索系统还可以包括所有搜索对象对应标签的数据库,以及所有用户对应标签的数据库,其中,
所有搜索对象对应标签的数据库包括:搜索对象列表、每一搜索对象对应的标签值列表,每一搜索对象的每一标签值对应的用户评论信息列表,该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间。
所有用户对应标签的数据库包括:用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的搜索对象信息列表,该搜索对象信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有搜索对象、以及根据所述用户的用户评论为每一搜索对象建立所述标签值的最新时间。
其中的权重确定模块1002,可以用于根据搜索对象在用户对应的各个标签值上的权重,建立该用户的权重方程,根据标签值对应的各个用户的权重,建立搜索对象在该标签值上的权重方程,通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组,确定用户的权重,以及搜索对象在标签值上的权重。
其中,权重确定模块1002可以根据本发明提供的信息搜索方法建立权重方程。
例如,权重确定模块1002根据搜索对象si在维度dj的维度值vk上的权重sidjvk,以及根据其用户评论为搜索对象si建立维度dj的维度值vk的用户的个数count_voteijk,确定用户Uu在搜索对象si的维度dj的维度值vk上的权重系数为:SiDjVk_average=sidjvk/count_voteijk,遍历用户Uu在每个搜索对象的每个维度的每个维度值上的权重系数,得到该用户Uu的权重方程为: Score ( U u ) = Σ i = 1 n Σ j = 1 m Σ k = 1 l S i D j V k _ average , 其中,Score(Uu)是用户Uu的权重,n是搜索对象的个数,m是维度的个数,l是维度内维度值个数的最大值。
再例如,权重确定模块1002遍历根据其用户评论为所述搜索对象建立了所述标签值的所有用户,根据所述所有用户中每个用户在所述搜索对象的所述标签值上的权重系数Ui/countM,得到所述所有用户的所述权重系数Ui/countM的累加和,其中,Ui是用户的权重,countM是所述搜索对象的所有标签值总数,确定所述标签值所属的维度,利用所述搜索对象在所述标签值上得到的投票数countvotex,除以所述搜索对象在所述维度上得到的投票总数sum,将所得的结果确定为所有用户对所述搜索对象在所述标签值上的权重系数,其中,所述搜索对象在所述标签值上得到的投票数,是根据其用户评论,为所述搜索对象建立了所述标签值的用户的个数,所述搜索对象在所述维度上得到的投票总数,是所述搜索对象在所述维度上的所有标签值上得到的投票数之和,根据所述累加和、以及所述所有用户对所述搜索对象在所述标签值上的权重系数,确定所述搜索对象在所述标签值上的权重Score(ax)。比如,权重确定模块1002将所述搜索对象在所述标签值上的权重Score(ax),确定为所述累加和乘以所述所有用户对所述搜索对象在所述标签值上的权重系数所得的结果: Score ( ax ) = Σ i = 1 n ( U i ÷ count M ) × ( count votex ÷ sum ) . 或者,权重确定模块1002将所述搜索对象在所述标签值上的权重Score(ax),确定为: Score ( ax ) = Σ i = 1 n ( U i ÷ count M ÷ count i - vote × σ ) × ( count votex ÷ sum ) , 其中,counti-vote是根据用户i的用户评论为其建立了所述标签值的搜索对象的个数,σ=(now(t)-last(t))÷(latest(t)-last(t)),now(t)是为所述搜索对象建立所述标签值所依据的用户i的用户评论的最新时间,last(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最老时间,latest(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最新时间。
其中的搜索模块1003,可以用于在搜索关键字为一个标签值时,根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果,和/或,在搜索关键字包括两个以上的标签值时,为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序,将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加,得到每个搜索对象的综合权重,根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。
本发明描述了一种采用通过分析用户评论给搜索对象建立标签值,同时采用二个维度空间用户权重及搜索对象在标签值上的权重互相依赖的方式,解决深层次信息搜索问题的方案,该方案能够挖掘信息的深层含义,提高信息挖掘的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种信息搜索方法,其特征在于,该方法包括:
根据用户针对搜索对象的行为信息,为搜索对象建立标签值;
根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应;
根据搜索对象在标签值上的权重,确定搜索结果;
其中,所述用户针对搜索对象的行为信息包括用户评论,所述根据用户针对搜索对象的行为信息,为搜索对象建立标签值包括:
预先确定一个或多个维度、以及每个维度包括的维度值,遍历所有维度的所有维度值,将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配,将匹配成功的维度值确定为该搜索对象的标签值;
所述根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重包括:
根据搜索对象在用户对应的各个标签值上的权重,建立该用户的权重方程;
根据标签值对应的各个用户的权重,建立搜索对象在该标签值上的权重方程;
通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组,确定用户的权重,以及搜索对象在标签值上的权重。
2.根据权利要求1所述的方法,其特征在于,所述预先确定一个或多个维度、以及每个维度包括的维度值包括:
从网络上获取用户评论,提取同一用户对同一搜索对象的所有用户评论的关键词,根据关键词的出现次数,选择出现次数满足预定条件的关键词,将选出的关键词确定为维度值,将确定出的所有维度值划分为一个或多个维度。
3.根据权利要求1所述的方法,其特征在于,将匹配成功的维度值确定为该搜索对象的标签值之后,该方法还包括:
建立所有搜索对象对应标签的数据库,以及所有用户对应标签的数据库,其中,
所有搜索对象对应标签的数据库包括:搜索对象列表、每一搜索对象对应的标签值列表,每一搜索对象的每一标签值对应的用户评论信息列表,该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间;
所有用户对应标签的数据库包括:用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的搜索对象信息列表,该搜索对象信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有搜索对象、以及根据所述用户的用户评论为每一搜索对象建立所述标签值的最新时间。
4.根据权利要求1所述的方法,其特征在于,所述根据搜索对象在用户对应的各个标签值上的权重,建立该用户的权重方程包括:
根据搜索对象si在维度dj的维度值vk上的权重sidjvk,以及根据其用户评论为搜索对象si建立维度dj的维度值vk的用户的个数count_voteijk,确定用户Uu在搜索对象si的维度dj的维度值vk上的权重系数为:
SiDjVk_average=sidjvk/count_voteijk
遍历用户Uu在每个搜索对象的每个维度的每个维度值上的权重系数,得到该用户Uu的权重方程为: Score ( U u ) = Σ i = 1 n Σ j = 1 m Σ k = 1 l S i D j V k _ average , 其中,Score(Uu)是用户Uu的权重,n是搜索对象的个数,m是维度的个数,l是维度内维度值个数的最大值。
5.根据权利要求4所述的方法,其特征在于,所述根据标签值对应的各个用户的权重,建立搜索对象在该标签值上的权重方程包括:
遍历根据其用户评论为所述搜索对象建立了所述标签值的所有用户,根据所述所有用户中每个用户在所述搜索对象的所述标签值上的权重系数Ui/countM,得到所述所有用户的所述权重系数Ui/countM的累加和,其中,Ui是用户的权重,countM是所述搜索对象的所有标签值总数;
确定所述标签值所属的维度,利用所述搜索对象在所述标签值上得到的投票数countvotex,除以所述搜索对象在所述维度上得到的投票总数sum,将所得的结果确定为所有用户对所述搜索对象在所述标签值上的权重系数,其中,所述搜索对象在所述标签值上得到的投票数,是根据其用户评论,为所述搜索对象建立了所述标签值的用户的个数,所述搜索对象在所述维度上得到的投票总数,是所述搜索对象在所述维度上的所有标签值上得到的投票数之和;
根据所述累加和、以及所述所有用户对所述搜索对象在所述标签值上的权重系数,确定所述搜索对象在所述标签值上的权重Score(ax)。
6.根据权利要求5所述的方法,其特征在于,确定所述搜索对象在所述标签值上的权重Score(ax)包括:
将所述搜索对象在所述标签值上的权重Score(ax),确定为所述累加和乘以所述所有用户对所述搜索对象在所述标签值上的权重系数所得的结果: Score ( ax ) = Σ i = 1 n ( U i ÷ count M ) × ( count votex ÷ sum ) .
7.根据权利要求5所述的方法,其特征在于,确定所述搜索对象在所述标签值上的权重Score(ax)包括:
将所述搜索对象在所述标签值上的权重Score(ax),确定为:
Score ( ax ) = Σ i = 1 n ( U i ÷ count M ÷ count i - vote × σ ) × ( count votex ÷ sum ) ,
其中,counti-vote是根据用户i的用户评论为其建立了所述标签值的搜索对象的个数,
σ=(now(t)-last(t))÷(latest(t)-last(t)),now(t)是为所述搜索对象建立所述标签值所依据的用户i的用户评论的最新时间,last(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最老时间,latest(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最新时间。
8.根据权利要求1所述的方法,其特征在于,根据搜索对象在标签值上的权重,确定搜索结果包括:
当搜索关键字为一个标签值时,根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果;
和/或,当搜索关键字包括两个以上的标签值时,首先为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序,然后将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加,得到每个搜索对象的综合权重,根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。
9.一种信息搜索系统,其特征在于,该系统包括标签值建立模块、权重确定模块和搜索模块;
所述标签值建立模块,用于根据用户针对搜索对象的行为信息,为搜索对象建立标签值;
所述权重确定模块,用于根据搜索对象在标签值上的权重,确定该标签值对应的用户的权重,根据用户的权重,确定搜索对象在该用户对应的标签值上的权重,其中,用户与根据该用户的行为信息为搜索对象建立的标签值对应;
所述搜索模块,用于根据搜索对象在标签值上的权重,确定搜索结果;
其中,所述标签值建立模块,用于根据预先确定的一个或多个维度、以及每个维度包括的维度值,遍历所有维度的所有维度值,将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配,将匹配成功的维度值确定为该搜索对象的标签值;
所述权重确定模块,用于根据搜索对象在用户对应的各个标签值上的权重,建立该用户的权重方程,根据标签值对应的各个用户的权重,建立搜索对象在该标签值上的权重方程,通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组,确定用户的权重,以及搜索对象在标签值上的权重。
10.根据权利要求9所述的系统,其特征在于,所述标签值建立模块包括维度建立模块和维度值匹配模块;
所述维度建立模块,用于从网络上获取用户评论,提取同一用户对同一搜索对象的所有用户评论的关键词,根据关键词的出现次数,选择出现次数满足预定条件的关键词,将选出的关键词确定为维度值,将确定出的所有维度值划分为一个或多个维度;
所述维度值匹配模块,用于遍历所有维度的所有维度值,将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配,将匹配成功的维度值确定为该搜索对象的标签值。
11.根据权利要求9所述的系统,其特征在于,该系统还包括所有搜索对象对应标签的数据库,以及所有用户对应标签的数据库,其中,
所有搜索对象对应标签的数据库包括:搜索对象列表、每一搜索对象对应的标签值列表,每一搜索对象的每一标签值对应的用户评论信息列表,该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间;
所有用户对应标签的数据库包括:用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的搜索对象信息列表,该搜索对象信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有搜索对象、以及根据所述用户的用户评论为每一搜索对象建立所述标签值的最新时间。
12.根据权利要求9~11任一权利要求所述的系统,其特征在于,
所述搜索模块,用于在搜索关键字为一个标签值时,根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果,和/或,在搜索关键字包括两个以上的标签值时,为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序,将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加,得到每个搜索对象的综合权重,根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。
CN201110251443.4A 2011-08-29 2011-08-29 一种信息搜索方法和系统 Active CN102955813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110251443.4A CN102955813B (zh) 2011-08-29 2011-08-29 一种信息搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110251443.4A CN102955813B (zh) 2011-08-29 2011-08-29 一种信息搜索方法和系统

Publications (2)

Publication Number Publication Date
CN102955813A CN102955813A (zh) 2013-03-06
CN102955813B true CN102955813B (zh) 2015-11-25

Family

ID=47764625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110251443.4A Active CN102955813B (zh) 2011-08-29 2011-08-29 一种信息搜索方法和系统

Country Status (1)

Country Link
CN (1) CN102955813B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015018014A1 (zh) * 2013-08-07 2015-02-12 华为技术有限公司 一种数据传输的方法、装置和系统
CN104951485A (zh) * 2014-09-02 2015-09-30 腾讯科技(深圳)有限公司 音乐文件的数据处理方法和装置
CN104331429B (zh) * 2014-10-21 2018-04-27 北京奇虎科技有限公司 对网络对象进行多特征维度量化的方法及装置
CN104331430B (zh) * 2014-10-21 2019-02-22 北京奇虎科技有限公司 对网络影视对象多特征维度进行图形化展示的方法及装置
CN104765890B (zh) * 2015-04-30 2018-03-13 深圳市优网科技有限公司 一种快速查找方法和装置
CN107291930A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 权重数的计算方法
CN110770778B (zh) * 2017-08-31 2023-11-24 深圳市欢太科技有限公司 信息处理方法及相关产品
CN108959644B (zh) * 2018-07-27 2020-04-14 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
CN112115335A (zh) * 2019-06-20 2020-12-22 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446959A (zh) * 2008-12-30 2009-06-03 深圳市迅雷网络技术有限公司 一种基于互联网的新闻推荐方法和系统
CN101739429A (zh) * 2008-11-18 2010-06-16 中国移动通信集团公司 一种优化聚类搜索结果的方法及其装置
CN101820592A (zh) * 2009-02-27 2010-09-01 华为技术有限公司 移动搜索方法及装置
CN102004774A (zh) * 2010-11-16 2011-04-06 清华大学 基于统一概率模型的个性化用户标签建模与推荐方法
CN102148706A (zh) * 2011-01-26 2011-08-10 西安电子科技大学 动态复杂网络中的进化模式挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110131218A1 (en) * 2008-10-14 2011-06-02 Goldman Jason D Dynamic Content Sorting Using Tags

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739429A (zh) * 2008-11-18 2010-06-16 中国移动通信集团公司 一种优化聚类搜索结果的方法及其装置
CN101446959A (zh) * 2008-12-30 2009-06-03 深圳市迅雷网络技术有限公司 一种基于互联网的新闻推荐方法和系统
CN101820592A (zh) * 2009-02-27 2010-09-01 华为技术有限公司 移动搜索方法及装置
CN102004774A (zh) * 2010-11-16 2011-04-06 清华大学 基于统一概率模型的个性化用户标签建模与推荐方法
CN102148706A (zh) * 2011-01-26 2011-08-10 西安电子科技大学 动态复杂网络中的进化模式挖掘方法

Also Published As

Publication number Publication date
CN102955813A (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
CN102955813B (zh) 一种信息搜索方法和系统
Salloum et al. Mining social media text: extracting knowledge from Facebook
CN103793503B (zh) 一种基于web文本的观点挖掘与分类的方法
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
CN101321190B (zh) 一种异构网络中的推荐方法及推荐系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN101819573B (zh) 一种自适应的网络舆情识别方法
CN103731738A (zh) 基于用户群组行为分析的视频推荐方法及装置
CN103177024A (zh) 一种话题信息展现方法和装置
CN106446287A (zh) 面向众包场景问答系统答案聚合方法和系统
CN103761254B (zh) 多领域服务主题匹配推荐方法
CN104899273A (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN103077190A (zh) 基于排序学习技术的热门事件排名方法
CN101609450A (zh) 基于训练集的网页分类方法
CN101763401A (zh) 一种网络舆情的热点预测和分析方法
CN104133897B (zh) 一种基于话题影响力的微博话题溯源方法
CN104484380A (zh) 个性化搜索方法及装置
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN108460499B (zh) 一种融合用户时间信息的微博客用户影响力排名方法
CN105378730A (zh) 社交媒体分析与输出
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN102737027B (zh) 个性化搜索方法及系统
CN103034726A (zh) 文本过滤系统及方法
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160311

Address after: West high tech Zone Fucheng Road in Chengdu city of Sichuan province 610000 399 No. 6 Building 1 unit 12 floor No. 3

Patentee after: MIGU MUSIC CO., LTD.

Address before: 610041 No. 10 Peng Da Road, hi tech Zone, Sichuan, Chengdu

Patentee before: China Mobile Communication Group Sichuan Co., Ltd.