CN102955813B

CN102955813B - 一种信息搜索方法和系统

Info

Publication number: CN102955813B
Application number: CN201110251443.4A
Authority: CN
Inventors: 简勤; 郭正平; 王全礼; 杨俊拯; 郑长松; 曾东; 廖勤耘
Original assignee: China Mobile Group Sichuan Co Ltd
Current assignee: MIGU Music Co Ltd
Priority date: 2011-08-29
Filing date: 2011-08-29
Publication date: 2015-11-25
Anticipated expiration: 2031-08-29
Also published as: CN102955813A

Abstract

本发明实施例公开了一种信息搜索方法和系统。该方法包括：根据用户针对搜索对象的行为信息，为搜索对象建立标签值；根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重，其中，用户与根据该用户的行为信息为搜索对象建立的标签值对应；根据搜索对象在标签值上的权重，确定搜索结果。应用本发明能够提高信息搜索的准确性。

Description

一种信息搜索方法和系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种信息搜索方法和系统。

背景技术

目前在互联网上进行信息搜索，通常以待搜索信息本身的文本内容为关键字，通过字符匹配进行搜索，无法根据待搜索信息本身所蕴含的深度含义进行搜索。

例如，目前的音乐搜索系统，通常以音乐文件本身的文本内容为关键字，例如，以歌手名、歌曲名、专辑名称等作为关键字进行音乐文件搜索，无法根据歌曲本身所蕴含的深度含义进行搜索。

通常，待搜索信息本身所蕴含的深度含义，只有通过人的感知或综合分析才能提炼出来，仅仅通过字符匹配无法准确搜索到需要的信息，例如，要寻找旋律和情感方面较为忧伤的歌曲，通过简单的字符匹配是很难找到真正相应的歌曲列表的。

可见，目前的信息搜索方法的准确性较差。

发明内容

有鉴于此，本发明提供了一种信息搜索方法和系统，以便提高信息搜索的准确性。

本发明的技术方案具体是这样实现的：

一种信息搜索方法，该方法包括：

通过分析用户针对搜索对象的行为信息，为搜索对象建立标签值；

根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重，其中，用户与根据该用户的行为信息为搜索对象建立的标签值对应；

根据搜索对象在标签值上的权重，确定搜索结果。

一种信息搜索系统，该系统包括标签值建立模块、权重确定模块和搜索模块；

所述标签值建立模块，用于根据用户针对搜索对象的行为信息，为搜索对象建立标签值；

所述权重确定模块，用于根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重，其中，用户与根据该用户的行为信息为搜索对象建立的标签值对应；

所述搜索模块，用于根据搜索对象在标签值上的权重，确定搜索结果。

由上述技术方案可见，本发明通过分析用户针对搜索对象的行为信息，为搜索对象建立标签值，通过以所述标签值作为信息搜索的一个依据，使得能够根据用户针对搜索对象的行为确定搜索结果，由于用户行为能在一定程度上反映待搜索信息的深层含义，因此能够提高信息搜索的准确性。

另外，本发明根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重，通过二维空间的相互影响，即通过用户权重这样的用户空间和标签值权重这样的标签空间的相互影响，使得确定出的搜索对象在标签值上的权重能够反映搜索对象本身的深层含义，因此，本发明在以标签值作为依据进行信息搜索时，准确性较高。

附图说明

图1是本发明提供的信息搜索方法的流程图。

图2是为音乐文件搜索预先确定维度值的方法流程图。

图3是为音乐文件建立标签值的方法流程图。

图4是音乐文件对应标签的数据库结构图。

图5是用户对应音乐文件标签的数据库结构图。

图6是本发明提供的二重维度空间相互依赖的权重模型。

图7是本发明提供的实例模型示意图。

图8是歌曲在标签值上的权重矩阵。

图9是对歌曲按照标签值进行由小到大的排序并以序号作为综合权重系数的矩阵。

图10是本发明提供的信息搜索系统的结构图。

具体实施方式

图1是本发明提供的信息搜索方法的流程图。

如图1所示，该方法包括：

步骤101，根据用户针对搜索对象的行为信息，为搜索对象建立标签值。

步骤102，根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重。

其中，用户与根据该用户的行为信息为搜索对象建立的标签值对应。

步骤103，根据搜索对象在标签值上的权重，确定搜索结果。

图1所述的搜索对象，可以是音乐文件、视频文件、网站、网络上的商品信息等。

所述的用户针对搜索对象的行为信息，可以包括但不限于：用户评论的文字内容、和/或以打分形式出现的用户评论信息、和/或用户是否访问了该搜索对象。通过分析用户针对搜索对象的行为信息，可以挖掘出搜索对象的深层含义，从而为搜索对象建立能够代表其深层含义的标签。

下面以分析用户评论为例，对为搜索对象建立标签值的方法进行示例性说明，所举例子并不用于限制本发明：

预先确定一个或多个维度、以及每个维度包括的维度值，遍历所有维度的所有维度值，将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配，将匹配成功的维度值确定为该搜索对象的标签值。

其中，所述预先确定一个或多个维度、以及每个维度包括的维度值，可以是根据互联网上的用户评论、或者现实生活中的用户评论，由人工预先确定出相应的维度，以及每个维度包括的维度值。

由人工确定维度值的方法有失客观性，无法准确地反映搜索对象的深层含义，因此，本发明提出，所述预先确定一个或多个维度、以及每个维度包括的维度值，可以采用如下的方法提高维度值的客观性：

从网络上获取用户评论，提取同一用户对同一搜索对象的所有用户评论的关键词，根据关键词的出现次数，选择出现次数满足预定条件的关键词，将选出的关键词确定为维度值，将确定出的所有维度值划分为一个或多个维度。

将匹配成功的维度值确定为该搜索对象的标签值之后，为了便于确定用户权重和搜索对象在每个标签值上的权重，本发明还可以在为搜索对象建立了标签值以后，建立所有搜索对象对应标签的数据库，以及所有用户对应标签的数据库。

其中，所有搜索对象对应标签的数据库包括：搜索对象列表、每一搜索对象对应的标签值列表，每一搜索对象的每一标签值对应的用户评论信息列表，该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间。

所有用户对应标签的数据库包括：用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的搜索对象信息列表，该搜索对象信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有搜索对象、以及根据所述用户的用户评论为每一搜索对象建立所述标签值的最新时间。

下面以音乐文件搜索为例，对维度值的确定方法，以及为音乐文件建立标签值的方法进行示例性说明，具体请参见图2～图5，所举例子并不用于限制本发明。

图2是为音乐文件搜索预先确定维度值的方法流程图。

如图2所示，该方法包括：

步骤201，从网络上获取音乐文件的用户评论信息。

步骤202，将同一用户对同一音乐文件的用户评论信息进行结构解析，提取出关键词。

本步骤中，首先对获取的用户评论信息按照如下的结构进行结构化处理：

1)用户评论信息的题目：该用户评论信息所针对的音乐文件名称；

2)用户评论信息的内容、作者(即用户信息)和评论时间，还可以包括其他用户对该用户评论信息的内容的支持与反对(即其他用户是否支持该用户评论信息的内容)。

将同一用户对同一音乐文件的所有评论的内容进行分词处理，在分词处理后，将一些停用词等无意义的词过滤掉，然后将剩余的词作为提取出的关键词。

步骤203，从提取出的所有关键词中选出重复次数满足预定条件的关键词，将该重复次数满足预定条件的关键词确定为维度值。

关键词的重复次数越多，则说明当前越多用户采用该关键词对音乐文件进行评论，因此可以将该关键词作为一个维度值。

其中，为了避免某些用户多次使用相同的关键词对同一音乐文件进行评论而影响关键词的重复次数，如果一个关键词在同一用户对同一音乐文件的所有评论的内容中出现多次，则可以将该多次计为1次，以使得选出的维度值更能够体现大多数用户对音乐文件的评论内容。

通过对大量音乐文件的用户评论信息的分词处理和关键词提取，最终确定了维度值以后，可以将所有维度值划分为多个维度。

其中，每个维度中除了包含通过图2方法确定的维度值外，还可以包括采用其他方法(例如人工方法)确定的维度值。

图3是为音乐文件建立标签值的方法流程图。

如图3所示，该流程包括：

步骤301，对于任意需要建立标签值的音乐文件，获取该音乐文件的用户评论信息。

步骤302，将每个用户对该音乐文件的所有评论信息进行分词处理，过滤掉停用词等无意义的词，将过滤后的分词结果与每个维度中的每个维度值进行匹配，将匹配上的维度值确定为该音乐文件的标签值。

通过步骤302，可以为音乐文件建立标签值。

图4是音乐文件对应标签的数据库结构图。

参见图4，Song1-songN为所有的歌曲列表，label1-labelM为song1对应的若干标签值，歌曲列表中每首歌曲都对应一个标签列表，labelinfo1列表代表该标签对应所有的用户及评论时间。

可见，音乐文件对应标签的数据库包括音乐文件列表、每一音乐文件对应的标签值列表，每一音乐文件的每一标签值对应的用户评论信息列表，该用户评论信息列表包括根据其用户评论为所述音乐文件建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间。

图5是用户对应音乐文件标签的数据库结构图。

参见图5，User1-UserN为所有的参与评论的用户列表，label1-labelM为User1对应的若干标签值，用户列表中每个用户都对应一个标签列表，其中labelinfo2对象列表代表该标签对应所有歌曲及评论时间。

可见，用户对应音乐文件标签的数据库包括用户列表、每一用户对应的标签值列表、以及每一用户的每一标签值对应的音乐文件信息列表，该音乐文件信息列表包括根据所述用户的用户评论为其建立有所述标签值的所有音乐文件的信息、以及根据所述用户的用户评论为每一音乐文件建立所述标签值的最新时间。

图1所示方法中，所述根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重，实际上是在用户空间和搜索对象的标签值空间之间建立一种制约关系，使得用户的权重和标签值的权重能够相互影响，从而使得用户权重和标签值的权重能够更加客观而真实。

具体地，所述根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重可以包括：

根据搜索对象在用户对应的各个标签值上的权重，建立该用户的权重方程；根据标签值对应的各个用户的权重，建立搜索对象在该标签值上的权重方程；通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组，确定用户的权重，以及搜索对象在标签值上的权重。

其中，所述根据搜索对象在用户对应的各个标签值上的权重，建立该用户的权重方程包括：

根据搜索对象s_i在维度d_j的维度值v_k上的权重s_id_jv_k，以及根据其用户评论为搜索对象s_i建立维度d_j的维度值v_k的用户的个数count_vote_ijk，确定用户U_u在搜索对象s_i的维度d_j的维度值v_k上的权重系数为：

S_iD_jV_k_average＝s_id_jv_k/count_vote_ijk

遍历用户U_u在每个搜索对象的每个维度的每个维度值上的权重系数，得到该用户U_u的权重方程为：

Score (U_{u}) = Σ_{i = 1}^{n} Σ_{j = 1}^{m} Σ_{k = 1}^{l} S_{i} D_{j} V_{k}_average,

其中，Score(U_u)是用户U_u的权重，n是搜索对象的个数，m是维度的个数，l是维度内维度值个数的最大值。

其中，所述根据标签值对应的各个用户的权重，建立搜索对象在该标签值上的权重方程包括：

遍历根据其用户评论为所述搜索对象建立了所述标签值的所有用户，根据所述所有用户中每个用户在所述搜索对象的所述标签值上的权重系数U_i/count_M，得到所述所有用户的所述权重系数U_i/count_M的累加和，其中，U_i是用户的权重，count_M是所述搜索对象的所有标签值总数；确定所述标签值所属的维度，利用所述搜索对象在所述标签值上得到的投票数count_votex，除以所述搜索对象在所述维度上得到的投票总数sum，将所得的结果确定为所有用户对所述搜索对象在所述标签值上的权重系数，其中，所述搜索对象在所述标签值上得到的投票数，是根据其用户评论，为所述搜索对象建立了所述标签值的用户的个数，所述搜索对象在所述维度上得到的投票总数，是所述搜索对象在所述维度上的所有标签值上得到的投票数之和；根据所述累加和、以及所述所有用户对所述搜索对象在所述标签值上的权重系数，确定所述搜索对象在所述标签值上的权重Score(ax)。

其中，确定所述搜索对象在所述标签值上的权重Score(ax)可以包括：

将所述搜索对象在所述标签值上的权重Score(ax)，确定为所述累加和乘以所述所有用户对所述搜索对象在所述标签值上的权重系数所得的结果：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M}) \times ({count}_{votex} \div sum) .

或者，将所述搜索对象在所述标签值上的权重Score(ax)，确定为：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M} \div {count}_{i - vote} \times σ) \times ({count}_{votex} \div sum)

其中，count_i-vote是根据用户i的用户评论为其建立了所述标签值的搜索对象的个数。

σ＝(now(t)-last(t))÷(latest(t)-last(t))，now(t)是为所述搜索对象建立所述标签值所依据的用户i的用户评论的最新时间，last(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最老时间，latest(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最新时间。

可见，本发明通过在用户维度和搜索对象维度的二重维度空间中，用户权重与搜索对象标签权重相互依赖的方式，来确定用户的权重和搜索对象在标签值上的权重，使得确定出的权重值能够更加准确。

下面继续音乐文件搜索的例子，对本发明提供的权重确定方法进行示例性说明。

图6是本发明提供的二重维度空间相互依赖的权重模型。

如图6所示，在左半部分的用户维度空间中，包括所有参与评论的用户集合(User1，User2...)、每个用户参与评论的集合(Comments1，Comments2，...)、通过用户评论得到的标签值的个数：按图中显示的标签个数，User1为3个标签，User2为2个标签......在右半部分的歌曲维度空间中，包括被用户评论的所有歌曲集合(Song1，Song2...)，及用户为每首歌所打标签值、标签值的个数及投该标签值的用户数：按图中显示，Song1有2个标签值，投Label1的用户数位1个，投Label2的用户数为2个，Song2有1个标签值，投Label3的用户数为2个......

在计算歌曲在标签值上的权重、以及用户的权重时，两者是相互依赖的：计算一首歌曲在一个标签值上的权重时，要根据所有用户为该歌曲投该标签的个数，比如Song1在标签值label2的得票数为2个；同时在计算用户权重时，也要考虑该用户为多少歌曲投票，及每个标签投出的个数。比如按图6中显示User1为2首歌曲投票，在label1上该用户投了两票。两者的权重是相互依赖的。

下面对歌曲在标签值上的权重与用户的权重相互依赖的计算原理及过程进行详细的描述。

所述计算原理包括：

原理1：越多的人在同一个标签值上给同一首歌投票，说明该标签对该歌曲而言权重较高。

原理2：从广度性而言，对越多的歌曲有了解的用户对于歌曲的评价更具有客观性。

原理3：从成长性而言，对于同一个用户，离现在越近的评论比时间久远的评论更有客观性。

原理4：同一个用户，对于同一种标签值，对于越多的歌曲进行了投票，则投票的权重则越低。极端的情况是，对于每首歌，用户都评论都为快乐的，此时这个评论是没有价值的。

原理5：如果用户对于歌曲的评价越准确，则该用户的权重越高，反之亦然。

为了便于描述，对确定用户权重和歌曲在标签值上的权重将要用到的元素定义如下：

一、需要用到的元素：

1)歌曲S

2)用户U

3)维度D

4)维度值V

5)标签值M

二、需要用到的每种元素构成的集合：

1)歌曲集合SU(s1，s2...sn)

2)用户集合UU(u1，u2...um)

3)维度集合DU{d1，d2...dk}

4)对于任意d属于DU，有标签值的集合VU{v1，v2...vo}

5)任意的s属于SU，有标签集合SMU(sm1，sm2...smx)；任意的u属于UU，则有标签投票集合UMU(um1，um2...umy)。

在确定用户权重时，用户的权重根据歌曲在该用户对应标签上的权重确定。

在确定歌曲在某一标签值上的权重时，歌曲在某一标签值上的权重由投票人的权重确定，换言之，一首歌曲在一个标签值上的权重，根据在该标签值上投票的所有用户的权重确定。其中，在该标签值上投票的用户，是指根据该用户的用户评论为该歌曲建立了所述标签值。

属于不同维度的标签值的权重的计算相互独立，互不干扰。

例如，假设某一维度为A{a1，a2...an}，用户集合U{U1，U2，Um}，歌曲集合S{S1，S2...，Sk}。

1)歌曲在标签值上的权重方程为：

Score (somesong | ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M}) \times {count}_{votex} \div sum

其中，标签值ax是在维度A里面的一个维度值；somesong|ax表示一首歌曲在维度A的维度值ax上的权重。

U_i(i＝1、2......n)是根据其用户评论为歌曲somesong建立了标签ax的用户的权重，即针对somesong在维度A上投票为ax的用户的权重，n是根据其用户评论为歌曲somesong建立了标签ax的所有用户的总个数。

count_M是该歌曲somesong的所有标签的总数。

sum是所有用户对somesong在维度A上的投票的总数，换言之，是歌曲somesong在维度A上的所有标签值上得到的投票数之和。

count_votex是所有用户对somesong在维度A上维度值为ax的投票总数，换言之，是根据其用户评论，为歌曲somesong建立了标签值ax的用户的个数。

count_votex÷sum是所有用户对somesong上在维度A上维度值为ax的权重系数。

根据所述计算原理中的原理3和原理4，本发明提出，还可以在确定somesong在标签值ax上的权重时，进一步考虑考虑时间因素和用户的投票数量，在权重计算公式中加入衰退因子σ，并加上用户的投票数量的影响。其中，在某个标签值上投票越多的用户，该用户的权重对somesong在该标签值上的权重影响越小。因此，歌曲somesong在标签值ax上的权重为：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M} \div {count}_{i - vote} \times σ) \times ({count}_{votex} \div sum)

其中，count_i-vote是根据用户i的用户评论为其建立了所述标签值ax的歌曲的个数，即用户i在该标签值ax上对所有歌曲的投票数量。

2)用户的权重方程为：

Score (U_{u}) = Σ_{i = 1}^{n} Σ_{j = 1}^{m} Σ_{k = 1}^{l} S_{i} D_{j} V_{k}_average

其中，Score(U_u)是用户U_u的权重，S_iD_jV_k_average＝s_id_jv_k/count_vote_ijk，s_id_jv_k是搜索对象s_i在维度d_j的维度值v_k上的权重，count_vote_ijk是根据其用户评论为搜索对象s_i建立维度d_j的维度值v_k的用户的个数。

根据歌曲在标签值上的权重方程和用户的权重方程，可以构建权重方程组，通过求解权重方程组确定歌曲在各个标签值上的权重，以及各个用户的权重。

例如，假设歌曲的总数为N，用户的总数为M，维度的个数为C，每个维度上维度值集合元素个数为v，则所有标签值总和则根据上述的用户权重方程及歌曲在标签值上的权重方程，可以建立M+N×V元一次方程组，本发明中，为了便于方程组收敛，可以将歌曲在标签值上的权重方程加1，方程组建立如下：

\{\begin{matrix} Score ({Song}_{1} | {label}_{1}) = Σ_{i = 1}^{N} (U_{i} \div {count}_{M} \div {count}_{vote} \times σ) \times {count}_{votex} \div sum + 1 \\ \cdot \cdot \cdot \\ Score ({Song}_{N} | {label}_{V}) = Σ_{i = 1}^{N} (U_{i} \div {count}_{M} \div {count}_{vote} \times σ) \times {count}_{votex} \div sum + 1 \\ Score (U_{1}) = Σ_{i = 1}^{N} Σ_{j = 1}^{C} Σ_{k = 1}^{1} S_{i} D_{j} V_{k}_average \\ \cdot \cdot \cdot \\ Score (U_{M}) = Σ_{i = 1}^{N} Σ_{j = 1}^{C} Σ_{k = 1}^{1} S_{i} D_{j} V_{k}_average \end{matrix}

通过求解上述方程组，可以确定用户的权重，以及歌曲在标签值上的权重。

确定出用户的权重和搜索对象在标签值上的权重后，就可以根据搜索对象在标签值上的权重由大到小的顺序确定搜索结果。

具体包括：当搜索关键字为一个标签值时，根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果；和/或，当搜索关键字包括两个以上的标签值时，首先为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序，然后将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加，得到每个搜索对象的综合权重，根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。

下面举一个具体是实例模型对本发明进行说明：

图7是本发明提供的实例模型示意图。

如图7所示，维度集合DU＝(A，B)，维度值集合VA＝{A1，A2}，VB＝{B1，B2}，歌曲集合SU＝{Song1，Song2，Song3}，用户集合UU＝{U1，U2，U3，U4}。

图7中，标签总数count_M＝4，衰退因子σ＝1，则构建的权重方程组为：

Song1A1＝U1/4/2+1

Song2A1＝U2/4/2+1

Song2B2＝U1/4+1

Song3A1＝U1/4/2×2/3+U2/4/2×2/3+1

Song3A2＝U4/4×1/3+1

Song3B1＝U3/4+1

U1＝Song1A1+Song2B2+Song3A1/2

U2＝Song2A1+Song3A1/2

U3＝Song3B1

U4＝Song3A2

解方程组，得如下值：

U1＝4.43

U2＝2.021

U3＝1.33

U4＝1.01

Song1A1＝1.554

Song2A1＝1.253

Song3A1＝1.537

Song2B2＝2.108

Song3B1＝1.33

Song3A2＝1.01

图8是歌曲在标签值上的权重矩阵，图9是对歌曲按照标签值进行由小到大的排序并以序号作为综合权重系数的矩阵。如果用户输入标签值为A1，A2，B1，B2则图9矩阵中按行求和后的和序列为(3，2，4)，即Song1、Song2和Song3的综合权重分别为3、2、4，因此返回给用户的歌曲序列为(song3，song1，song2)。

根据上述方法，本发明还提供了一种信息搜索系统，具体请参见图10。

图10是本发明提供的信息搜索系统的结构图。

如图10所示，该系统包括标签值建立模块1001、权重确定模块1002和搜索模块1003。

标签值建立模块1001，用于根据用户针对搜索对象的行为信息，为搜索对象建立标签值。

权重确定模块1002，用于根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重，其中，用户与根据该用户的行为信息为搜索对象建立的标签值对应。

搜索模块1003，用于根据搜索对象在标签值上的权重，确定搜索结果。

其中的标签值建立模块1001，可以用于根据预先确定的一个或多个维度、以及每个维度包括的维度值，遍历所有维度的所有维度值，将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配，将匹配成功的维度值确定为该搜索对象的标签值。

标签值建立模块1001可以包括维度建立模块和维度值匹配模块。

所述维度建立模块，用于从网络上获取用户评论，提取同一用户对同一搜索对象的所有用户评论的关键词，根据关键词的出现次数，选择出现次数满足预定条件的关键词，将选出的关键词确定为维度值，将确定出的所有维度值划分为一个或多个维度。

所述维度值匹配模块，用于遍历所有维度的所有维度值，将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配，将匹配成功的维度值确定为该搜索对象的标签值。

该信息搜索系统还可以包括所有搜索对象对应标签的数据库，以及所有用户对应标签的数据库，其中，

所有搜索对象对应标签的数据库包括：搜索对象列表、每一搜索对象对应的标签值列表，每一搜索对象的每一标签值对应的用户评论信息列表，该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间。

其中的权重确定模块1002，可以用于根据搜索对象在用户对应的各个标签值上的权重，建立该用户的权重方程，根据标签值对应的各个用户的权重，建立搜索对象在该标签值上的权重方程，通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组，确定用户的权重，以及搜索对象在标签值上的权重。

其中，权重确定模块1002可以根据本发明提供的信息搜索方法建立权重方程。

例如，权重确定模块1002根据搜索对象s_i在维度d_j的维度值v_k上的权重s_id_jv_k，以及根据其用户评论为搜索对象s_i建立维度d_j的维度值v_k的用户的个数count_vote_ijk，确定用户U_u在搜索对象s_i的维度d_j的维度值v_k上的权重系数为：S_iD_jV_k_average＝s_id_jv_k/count_vote_ijk，遍历用户U_u在每个搜索对象的每个维度的每个维度值上的权重系数，得到该用户U_u的权重方程为：

Score (U_{u}) = Σ_{i = 1}^{n} Σ_{j = 1}^{m} Σ_{k = 1}^{l} S_{i} D_{j} V_{k}_average,

再例如，权重确定模块1002遍历根据其用户评论为所述搜索对象建立了所述标签值的所有用户，根据所述所有用户中每个用户在所述搜索对象的所述标签值上的权重系数U_i/count_M，得到所述所有用户的所述权重系数U_i/count_M的累加和，其中，U_i是用户的权重，count_M是所述搜索对象的所有标签值总数，确定所述标签值所属的维度，利用所述搜索对象在所述标签值上得到的投票数count_votex，除以所述搜索对象在所述维度上得到的投票总数sum，将所得的结果确定为所有用户对所述搜索对象在所述标签值上的权重系数，其中，所述搜索对象在所述标签值上得到的投票数，是根据其用户评论，为所述搜索对象建立了所述标签值的用户的个数，所述搜索对象在所述维度上得到的投票总数，是所述搜索对象在所述维度上的所有标签值上得到的投票数之和，根据所述累加和、以及所述所有用户对所述搜索对象在所述标签值上的权重系数，确定所述搜索对象在所述标签值上的权重Score(ax)。比如，权重确定模块1002将所述搜索对象在所述标签值上的权重Score(ax)，确定为所述累加和乘以所述所有用户对所述搜索对象在所述标签值上的权重系数所得的结果：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M}) \times ({count}_{votex} \div sum) .

或者，权重确定模块1002将所述搜索对象在所述标签值上的权重Score(ax)，确定为：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M} \div {count}_{i - vote} \times σ) \times ({count}_{votex} \div sum),

其中，count_i-vote是根据用户i的用户评论为其建立了所述标签值的搜索对象的个数，σ＝(now(t)-last(t))÷(latest(t)-last(t))，now(t)是为所述搜索对象建立所述标签值所依据的用户i的用户评论的最新时间，last(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最老时间，latest(t)是为所述搜索对象建立所述标签值所依据的所有用户的用户评论的最新时间。

其中的搜索模块1003，可以用于在搜索关键字为一个标签值时，根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果，和/或，在搜索关键字包括两个以上的标签值时，为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序，将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加，得到每个搜索对象的综合权重，根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。

本发明描述了一种采用通过分析用户评论给搜索对象建立标签值，同时采用二个维度空间用户权重及搜索对象在标签值上的权重互相依赖的方式，解决深层次信息搜索问题的方案，该方案能够挖掘信息的深层含义，提高信息挖掘的准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种信息搜索方法，其特征在于，该方法包括：

根据用户针对搜索对象的行为信息，为搜索对象建立标签值；

根据搜索对象在标签值上的权重，确定搜索结果；

其中，所述用户针对搜索对象的行为信息包括用户评论，所述根据用户针对搜索对象的行为信息，为搜索对象建立标签值包括：

预先确定一个或多个维度、以及每个维度包括的维度值，遍历所有维度的所有维度值，将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配，将匹配成功的维度值确定为该搜索对象的标签值；

所述根据搜索对象在标签值上的权重，确定该标签值对应的用户的权重，根据用户的权重，确定搜索对象在该用户对应的标签值上的权重包括：

根据搜索对象在用户对应的各个标签值上的权重，建立该用户的权重方程；

根据标签值对应的各个用户的权重，建立搜索对象在该标签值上的权重方程；

通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组，确定用户的权重，以及搜索对象在标签值上的权重。

2.根据权利要求1所述的方法，其特征在于，所述预先确定一个或多个维度、以及每个维度包括的维度值包括：

3.根据权利要求1所述的方法，其特征在于，将匹配成功的维度值确定为该搜索对象的标签值之后，该方法还包括：

建立所有搜索对象对应标签的数据库，以及所有用户对应标签的数据库，其中，

所有搜索对象对应标签的数据库包括：搜索对象列表、每一搜索对象对应的标签值列表，每一搜索对象的每一标签值对应的用户评论信息列表，该用户评论信息列表包括根据其用户评论为所述搜索对象建立了所述标签值的所有用户、以及每一用户的所有所述用户评论的最新评论时间；

4.根据权利要求1所述的方法，其特征在于，所述根据搜索对象在用户对应的各个标签值上的权重，建立该用户的权重方程包括：

S_iD_jV_k_average＝s_id_jv_k/count_vote_ijk，

Score (U_{u}) = Σ_{i = 1}^{n} Σ_{j = 1}^{m} Σ_{k = 1}^{l} S_{i} D_{j} V_{k}_average,

5.根据权利要求4所述的方法，其特征在于，所述根据标签值对应的各个用户的权重，建立搜索对象在该标签值上的权重方程包括：

遍历根据其用户评论为所述搜索对象建立了所述标签值的所有用户，根据所述所有用户中每个用户在所述搜索对象的所述标签值上的权重系数U_i/count_M，得到所述所有用户的所述权重系数U_i/count_M的累加和，其中，U_i是用户的权重，count_M是所述搜索对象的所有标签值总数；

确定所述标签值所属的维度，利用所述搜索对象在所述标签值上得到的投票数count_votex，除以所述搜索对象在所述维度上得到的投票总数sum，将所得的结果确定为所有用户对所述搜索对象在所述标签值上的权重系数，其中，所述搜索对象在所述标签值上得到的投票数，是根据其用户评论，为所述搜索对象建立了所述标签值的用户的个数，所述搜索对象在所述维度上得到的投票总数，是所述搜索对象在所述维度上的所有标签值上得到的投票数之和；

根据所述累加和、以及所述所有用户对所述搜索对象在所述标签值上的权重系数，确定所述搜索对象在所述标签值上的权重Score(ax)。

6.根据权利要求5所述的方法，其特征在于，确定所述搜索对象在所述标签值上的权重Score(ax)包括：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M}) \times ({count}_{votex} \div sum) .

7.根据权利要求5所述的方法，其特征在于，确定所述搜索对象在所述标签值上的权重Score(ax)包括：

将所述搜索对象在所述标签值上的权重Score(ax)，确定为：

Score (ax) = Σ_{i = 1}^{n} (U_{i} \div {count}_{M} \div {count}_{i - vote} \times σ) \times ({count}_{votex} \div sum),

其中，count_i-vote是根据用户i的用户评论为其建立了所述标签值的搜索对象的个数，

8.根据权利要求1所述的方法，其特征在于，根据搜索对象在标签值上的权重，确定搜索结果包括：

当搜索关键字为一个标签值时，根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果；

和/或，当搜索关键字包括两个以上的标签值时，首先为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序，然后将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加，得到每个搜索对象的综合权重，根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。

9.一种信息搜索系统，其特征在于，该系统包括标签值建立模块、权重确定模块和搜索模块；

所述搜索模块，用于根据搜索对象在标签值上的权重，确定搜索结果；

其中，所述标签值建立模块，用于根据预先确定的一个或多个维度、以及每个维度包括的维度值，遍历所有维度的所有维度值，将用户对搜索对象的用户评论与每个维度的每个维度值进行匹配，将匹配成功的维度值确定为该搜索对象的标签值；

所述权重确定模块，用于根据搜索对象在用户对应的各个标签值上的权重，建立该用户的权重方程，根据标签值对应的各个用户的权重，建立搜索对象在该标签值上的权重方程，通过求解包括所述用户的权重方程和所述标签值上的权重方程的方程组，确定用户的权重，以及搜索对象在标签值上的权重。

10.根据权利要求9所述的系统，其特征在于，所述标签值建立模块包括维度建立模块和维度值匹配模块；

所述维度建立模块，用于从网络上获取用户评论，提取同一用户对同一搜索对象的所有用户评论的关键词，根据关键词的出现次数，选择出现次数满足预定条件的关键词，将选出的关键词确定为维度值，将确定出的所有维度值划分为一个或多个维度；

11.根据权利要求9所述的系统，其特征在于，该系统还包括所有搜索对象对应标签的数据库，以及所有用户对应标签的数据库，其中，

12.根据权利要求9～11任一权利要求所述的系统，其特征在于，

所述搜索模块，用于在搜索关键字为一个标签值时，根据各个搜索对象在该标签值上的权重由大到小的顺序返回搜索结果，和/或，在搜索关键字包括两个以上的标签值时，为各个搜索对象在每个作为搜索关键字的标签值上的权重按照由小到大的顺序排序，将每个搜索对象在各个作为搜索关键字的标签值上的排序序号累加，得到每个搜索对象的综合权重，根据各个搜索对象的综合权重由大到小的顺序返回搜索结果。