CN103136212B

CN103136212B - 一种类别新词的挖掘方法及装置

Info

Publication number: CN103136212B
Application number: CN201110376719.1A
Authority: CN
Inventors: 张超; 王强; 费晓旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-11-23
Filing date: 2011-11-23
Publication date: 2016-09-07
Anticipated expiration: 2031-11-23
Also published as: CN103136212A

Abstract

本发明提供了一种类别新词的挖掘方法及装置，其中所述方法包括：获取与特定类别的URL模版匹配的URL及与获取的URL对应的query；利用获取的URL及与获取的URL对应的query生成query簇；从各query簇中挖掘新词作为所述特定类别的新词。通过上述方式，可以实现类别新词的一次性挖掘，提高了新词的有效性。

Description

一种类别新词的挖掘方法及装置

【技术领域】

本发明涉及自然语言处理技术，特别涉及一种类别新词的挖掘方法及装置。

【背景技术】

随着互联网广泛使用，在搜索领域涌现出越来越多的新词。所谓新词，就是未被词库收录的词。识别新词，对搜索引擎理解用户的行为，提高搜索结果的准确度而言非常重要。为了识别用户输入的新词，需要利用已有的用户查询数据对新词进行挖掘。现有的新词挖掘方法虽然能够将未在词库中出现过的词挖掘出来作为新词，但是挖掘出来的词缺乏能够反映使用场景的类别信息。而词语的使用通常是与场景结合的，失去了词语的使用场景，词语的含义就不完整。想要了解新词的使用场景，在现有的挖掘技术下，必须对挖掘到的新词重新进行分类，但是对一个缺乏上下文的新词进行分类是十分困难的。例如一个词语“苹果”在没有上下文信息的情况下，很难确定这个词指的是水果还是品牌。也就是说，现有的新词挖掘方法，只能挖掘到新词，却无法得知挖掘到的新词所属类别信息，如果想要得知挖掘到的新词所属类别，还需要采用其他的分类技术对挖掘到的新词进行分类，即现有技术无法实现一次性地挖掘带有类别信息的新词。

【发明内容】

本发明所要解决的技术问题是提供一种类别新词的挖掘方法及装置，以解决现有技术无法实现一次性地挖掘带有类别信息的新词这一缺陷。

本发明为解决技术问题而采用的技术方案是提供一种类别新词的挖掘方法，包括：获取与特定类别的URL模版匹配的URL及与获取的URL对应的query；利用获取的URL及与获取的URL对应的query生成query簇；从各query簇中挖掘新词作为所述特定类别的新词。

根据本发明之一优选实施例，所述特定类别的URL模版是通过下列方式得到的：利用搜索日志中记录的URL生成URL模版；对生成的URL模版进行分类，得到至少一个特定类别的URL模版。

根据本发明之一优选实施例，利用搜索日志中记录的URL生成URL模版的步骤包括：针对搜索日志中的每个URL，将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符，每替换一个通配符得到一个与该URL对应的URL模版，并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版，其中m为大于或等于1且不超过该URL中最后一个分隔符所处位置的整数；针对每个候选URL模版，根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定，使得该候选URL模版的通配符表示的含义与所述属性一致，以得到最终的URL模版，其中所述属性包括纯数字、纯字母，或者，数字与字母混合。

根据本发明之一优选实施例，利用搜索日志中记录的URL生成URL模版的步骤进一步包括：在对候选URL模版中的通配符进行限定前，将在搜索日志中所覆盖的URL数量不满足要求的候选URL模版过滤掉。

根据本发明之一优选实施例，利用搜索日志中记录的URL生成URL模版的步骤进一步包括：对最终的URL模版中冗余或存在包含关系的URL模版进行归一化处理。

根据本发明之一优选实施例，对生成的URL模版进行分类的步骤包括：对生成的每个URL模版，在搜索日志中确定该URL模版对应的每个query-URL对中的query所属类别，将搜索日志中记录的该query-URL对被点击的次数累计到该query-URL对中的query所属类别的点击次数中，并在该URL模版对应的所有query-URL对的点击次数均已累计到各个类别后，将点击次数最高的类别作为该URL模版所属类别，其中该URL模版对应的query-URL对是该URL模版在搜索日志中覆盖的URL及该URL对应的query所形成的对。

根据本发明之一优选实施例，利用获取的URL及与获取的URL对应的query生成query簇的步骤包括：将与获取的同一URL对应的若干query聚为一个query簇。

根据本发明之一优选实施例，利用获取的URL及与获取的URL对应的query生成query簇的步骤包括：将与获取的URL中主题相同的URL对应的若干query聚为一个query簇。

根据本发明之一优选实施例，利用获取的URL及与获取的URL对应的query生成query簇的步骤进一步包括：从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数不满足要求的query簇。

根据本发明之一优选实施例，从各query簇中挖掘新词作为所述特定类别的新词的步骤包括：从每个query簇中确定与该query簇相关的候选新词；确定每个候选新词属于所述特定类别的置信度；从不包括在预设词库中的候选新词里选取所述置信度满足要求的候选新词作为所述特定类别的新词。

根据本发明之一优选实施例，从一个query簇S中确定与所述S相关的候选新词的步骤包括：将所述S中的每个query切分为片段；从所述S包含的所有切分片段中选取满足预设条件的切分片段作为与所述S相关的候选新词。

根据本发明之一优选实施例，所述预设条件包括以下条件之一或以下多个条件的组合：(一)切分片段在所述S中出现的次数大于预设的第一阈值；(二)包含切分片段的query在所述S中占的比例大于预设的第二阈值；(三)切分片段的组词概率大于预设的第三阈值，其中切分片段的组词概率是切分片段的首字位于词首的概率与切分片段的尾字位于词尾的概率乘积；(四)切分片段不含停留字。

根据本发明之一优选实施例，将所述S中的一个query切分为片段的步骤包括：基于该query中的最小粒度词建立关系矩阵；计算所述关系矩阵的特征值及特征向量；依据所述关系矩阵的特征值确定所述关系矩阵的主特征空间的维数k，并选取与最大的k个特征值对应的特征向量形成所述关系矩阵的主特征空间；利用主特征空间得到代表该query中最小粒度词的词向量，根据各个词向量计算表示该query中相邻的最小粒度词之间相似度的相似度矩阵，并依据该相似度矩阵确定相邻的最小粒度词之间的组合关系，将组合在一起的最小粒度词作为该query的一个切分片段，得到该query的各切分片段。

根据本发明之一优选实施例，确定一个候选新词W属于所述特定类别的置信度的步骤包括：在搜索日志中确定包含所述W的query，对确定的每个query，提取与该query对应的所有URL作为与所述W对应的URL；对每一个与所述W对应的URL，判断该URL与所述特定类别的URL模版是否匹配，如果匹配，则增加所述W的正属性权重，否则，增加所述W的负属性权重；在对所有与所述W对应的URL判断结束后，根据与所述W的正属性正相关且与所述W的负属性负相关的函数计算所述W属于所述特定类别的置信度。

本发明还提供了一种类别新词的挖掘装置，包括：匹配单元，用于获取与特定类别的URL模版匹配的URL及与获取的URL对应的query；簇生成单元，用于利用获取的URL及与获取的URL对应的query生成query簇；挖掘单元，用于从各query簇中挖掘新词作为所述特定类别的新词。

根据本发明之一优选实施例，所述装置进一步包括模版生成单元，用于获得所述特定类别的URL模版，所述模版生成单元包括：模版提取单元，用于利用搜索日志中记录的URL生成URL模版；分类单元，用于对生成的URL模版进行分类，得到至少一个特定类别的URL模版。

根据本发明之一优选实施例，所述模版提取单元包括：泛化单元，用于针对搜索日志中的每个URL，将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符，每替换一个通配符得到一个与该URL对应的URL模版，并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版，其中m为大于或等于1且不超过该URL中最后一个分隔符所处位置的整数；限定单元，用于针对每个候选URL模版，根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定，使得该候选URL模版的通配符表示的含义与所述属性一致，以得到最终的URL模版，其中所述属性包括纯数字、纯字母，或者，数字与字母混合。

根据本发明之一优选实施例，所述模版提取单元进一步包括过滤单元，用于在对候选URL模版中的通配符进行限定前，将在搜索日志中所覆盖的URL数量不满足要求的候选URL模版过滤掉。

根据本发明之一优选实施例，所述模版提取单元进一步包括归一化单元，用于对最终的URL模版中冗余或存在包含关系的URL模版进行归一化处理。

根据本发明之一优选实施例，所述分类单元对生成的URL模版进行分类的方式包括：对生成的每个URL模版，在搜索日志中确定该URL模版对应的每个query-URL对中的query所属类别，将搜索日志中记录的该query-URL对被点击的次数累计到该query-URL对中的query所属类别的点击次数中，并在该URL模版对应的所有query-URL对的点击次数均已累计到各个类别后，将点击次数最高的类别作为该URL模版所属类别，其中该URL模版对应的query-URL对是该URL模版在搜索日志中覆盖的URL及该URL对应的query所形成的对。

根据本发明之一优选实施例，所述簇生成单元利用获取的URL及与获取的URL对应的query生成query簇的方式包括：将与获取的同一URL对应的若干query聚为一个query簇。

根据本发明之一优选实施例，所述簇生成单元利用获取的URL及与获取的URL对应的query生成query簇的方式包括：将与获取的URL中主题相同的URL对应的若干query聚为一个query簇。

根据本发明之一优选实施例，所述簇生成单元进一步还用于从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数不满足要求的query簇。

根据本发明之一优选实施例，所述挖掘单元包括：候选新词确定单元，用于从每个query簇中确定与该query簇相关的候选新词；置信度确定单元，用于确定每个候选新词属于所述特定类别的置信度；新词选取单元，用于从不包括在预设词库中的候选新词里选取置信度满足要求的候选新词作为所述特定类别的新词。

根据本发明之一优选实施例，所述候选新词确定单元包括：切分单元，用于从一个query簇S中确定与所述S相关的候选新词时，将所述S中的每个query切分为片段；候选新词选取单元，用于从所述S包含的所有切分片段中选取满足预设条件的切分片段作为与所述S相关的候选新词。

根据本发明之一优选实施例，所述切分单元包括：矩阵建立单元，用于在将所述S中的一个query切分为片段时，基于该query中的最小粒度词建立关系矩阵；计算单元，用于计算所述关系矩阵的特征值及特征向量；主特征空间确定单元，用于依据所述关系矩阵的特征值确定所述关系矩阵的主特征空间的维数k，并选取与最大的k个特征值对应的特征向量形成所述关系矩阵的主特征空间；相似度矩阵切分单元，用于利用主特征空间得到代表该query中最小粒度词的词向量，根据各个词向量计算表示该query中相邻的最小粒度词之间相似度的相似度矩阵，并依据该相似度矩阵确定相邻的最小粒度词之间的组合关系，将组合在一起的最小粒度词作为该query的一个切分片段，得到该query的各切分片段。

根据本发明之一优选实施例，所述置信度确定单元包括：URL提取单元，用于在确定一个候选新词W属于所述特定类别的置信度时，在搜索日志中确定包含所述W的query，对确定的每个query，提取与该query对应的所有URL作为与所述W对应的URL；判断单元，用于对每一个与所述W对应的URL，判断该URL与所述特定类别的URL模版是否匹配，如果匹配，则增加所述W的正属性权重，否则，增加所述W的负属性权重；置信度计算单元，用于在所述判断单元对所有与所述W对应的URL判断结束后，根据与所述W的正属性正相关且与所述W的负属性负相关的函数计算所述W属于所述特定类别的置信度。

由以上技术方案可以看出，通过利用类别URL模版获取到与类别相关的URL以及对应的query，可以得到与类别相关的query簇，每个与类别相关的query簇代表了一组相关的query，利用query簇的方式，可以从相关query中挖掘出新词，这些挖掘出来的新词也就具有了与query簇相同的类别信息。通过本发明，可以实现类别新词的一次性挖掘，不需要对没有类别信息的新词进行二次分类，提高了新词的有效性。

【附图说明】

图1为本发明中类别新词的挖掘方法的实施例的流程示意图；

图2为本发明中类别新词挖掘的装置的实施例的结构示意框图；

图3为本发明中模版提取单元的实施例的结构示意框图；

图4为本发明中候选新词确定单元的实施例的结构示意框图；

图5为本发明中切分单元的实施例的结构示意框图；

图6为本发明中置信度确定单元的实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中类别新词的挖掘方法的实施例的流程示意图。如图1所示，该方法包括：

步骤S101：获取与特定类别的页面地址(URL)模版匹配的URL及与获取的URL对应的搜索请求(query)。

步骤S102：利用获取的URL及与获取的URL对应的query生成query簇。

步骤S103：从各query簇中挖掘新词作为特定类别的新词。

下面对上述方法进行具体说明。

步骤S101中的特定类别的URL模版是用来限定获取的URL所属类别的模版，特定类别的URL模版既可以是通过某种现有技术得到的模版，也可以是采用本实施例后续将介绍的方法得到的模版。

本实施例中，可从搜索日志(querylog)中获取与特定类别的URL模版匹配的URL。搜索日志是一个记录了用户在搜索时输入的多个query以及用户在输入每个query时对应点击的一个或多个URL的文件。在这个文件中，query和URL之间存在对应关系，一个query可与多个URL对应(当相同的一个query引起了多个URL被点击时)，一个URL也可以与多个query对应(当不同的多个query引起了同一个URL被点击时)。利用这种关系，在得到与特定类别的URL模版匹配的URL时，也可以得到搜索日志中与这些URL对应的query。

步骤S102可以采用的具体实施方式包括方式一：

将与获取的同一URL对应的若干query聚为一个query簇。

例如与招聘类别的一个URL模版匹配的URL有

URL1：http://article.zhaopin.com/pub/view/12345.html

URL2：http://article.zhaopin.com/pub/view/23434.html

与URL1对应的query有“人才招聘”、“计算机人才招聘”、“软件开发人员招聘”、“JAVA工程师招聘”，与URL2对应的query有“财务人员招聘”、“财务主管招聘”。则URL1可得到query簇为“人才招聘、计算机人才招聘、软件开发人员招聘、JAVA工程师招聘”，URL2可得到的query簇为“财务人员招聘、财务主管招聘”。

步骤S102可以采用的具体实施方式还包括方式二：

将与获取的URL中主题相同的URL对应的若干query聚为一个query簇。

采用方式一生成query簇，是因为可以确定同一个URL指向的页面描述的主题是统一的，但是有些时候，多个URL指向的多个页面描述的主题也可能是统一的，例如一篇文章用了多个页面描述，很显然这多个页面描述的主题都是这篇文章。因此在生成query簇时，还可以采用方式二进行。确定获取的URL中主题相同的URL，可采用的一种策略是将获取的URL中所指向的文本可通过“下一页”的超链接联系起来的URL作为主题相同的URL，当然，在上述思想下，本领域技术人员也可采用其他的方式达到相同的目的。

进一步地，在得到query簇后，步骤S102还可以从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数小于特定值的query簇，例如设定阈值为10万，如果在步骤S102的具体实施方式一中所说的URL1被用户点击的总次数为15万次，URL2被用户点击的总次数为7万次，则最终可以得到招聘类别的一个query簇为“人才招聘、计算机人才招聘、软件开发人员招聘、JAVA工程师招聘”。

步骤S103从各query簇中挖掘特定类别的新词包括以下几个步骤：

S1031：从每个query簇中确定与该query簇相关的候选新词。

S1032：确定每个候选新词属于特定类别的置信度。

S1033：从不包括在预设词库中的候选新词里选取置信度满足要求的候选新词作为特定类别的新词。

具体的，步骤S1031中从一个query簇S中确定候选新词的步骤包括：

S10311：将S中的每个query切分为片段。

S10312：从S包含的所有切分片段中选取满足预设条件的切分片段作为候选新词。其中预设条件包括以下条件之一或以下多个条件的组合：

(一)切分片段在S中出现的次数大于第一阈值。

(二)包含切分片段的query在S中占的比例大于第二阈值。

(三)切分片段的组词概率大于第三阈值，其中组词概率是切分片段的首字位于词首的概率与切分片段的尾字位于词尾的概率乘积。

(四)切分片段不含停留字。

上述的预设条件1是为了保证选取的候选新词在query簇S中出现的次数足够多，预设条件2是为了保证选取的候选新词在query簇S的各个query中分布平衡，而不是仅在query簇S的少数query中频繁出现，预设条件3是为了保证候选新词作为一个词出现的正确性，预设条件4是为了保证得到的候选新词中不包含出现频率高但是表意能力差的词。

请参考表2，表2对query簇S及S包含的切分片段进行了示意。

表2

切分片段“步步惊心”在S中共出现了5次，假设第一阈值为3，则“步步惊心”按照预设条件1可被选取为候选新词。“步步惊心”在4个query中出现，其在S的所有query中占的比例为4/5，假设第二阈值为3/5，则按照预设条件2，“步步惊心”也可以被选为候选新词。步步惊心的组词概率为P(步步惊心)＝P(步-词首)*P(心-词尾)，其中字母P表示概率值，P(步-词首)与P(心-词尾)可通过查询对大规模的语料进行统计后得到的字位概率数据库得到。假设P(步步惊心)大于第三阈值，则按照预设条件3，“步步惊心”也可以被选为候选新词。由于“步步惊心”不属于停留字，所以“步步惊心”也满足预设条件4。

S10311中将一个query切分为片段，具体地，可以按照下列步骤进行。

(一)基于query中最小粒度词建立关系矩阵(Affinity Matrix)。

(二)计算关系矩阵的特征值及特征向量。

(三)依据关系矩阵的特征值确定关系矩阵的主特征空间的维数k，并选取与最大的k个特征值对应的特征向量形成关系矩阵的主特征空间。

(四)利用主特征空间得到代表query中的最小粒度词的词向量，根据各个词向量计算表示query中相邻的最小粒度词之间相似度的相似度矩阵，并依据该相似度矩阵确定相邻的最小粒度词之间的组合关系，将组合在一起的最小粒度词作为query的一个切分片段，得到query的各切分片段。

下面通过具体实施例说明上述的切分过程。

对query“w₁w₂w₃w₄w₅”，可以按照下列公式组建立关系矩阵M，其中w_i，i＝1，2，3，4，5表示该query中的一个最小粒度词。

M＝{m_i，j}_n×n (1)

其中m_i，j＝2·m′_i，j/(m′_i，i+m′_j，j) (2)

m_{i, j}^{'} = \{\begin{matrix} F (w_{i}) & ifi = j \\ F (w_{i} w_{i + 1} . . . w_{j}) & ifi < j \\ m_{j, i} & ifi > j \end{matrix} - - - (3)

F (w_{i} w_{i + 1} . . . w_{j}) = \frac{count (w_{i}) w_{i + 1} . . . w_{j}}{Σ_{i = 1}^{n} count (w_{i})} - - - (4)

上面式(4)中的count(w_iw_i+1...w_j)是指由w_iw_i+1...w_j形成的片段在对应的query簇中出现的总次数，count(w_i)是指最小粒度词w_i在对应的query簇中出现的总次数，相应地，指的就是query中每个最小粒度的词在对应的query簇中出现的总次数之和。式(2)的作用是进行归一化处理，使得最终生成的关系矩阵在对角线上的值都为1。

对query“free software testing tools download”建立关系矩阵M可得：

free software testing tools download

M = [\begin{matrix} 1 & 0.26 & 0.155 & 0.098 & 0.085 \\ 0.26 & 1 & 0.373 & 0.181 & 0.085 \\ 0.155 & 0.373 & 1 & 0.223 & 0.085 \\ 0.098 & 0.181 & 0.223 & 1 & 0.098 \\ 0.085 & 0.085 & 0.085 & 0.098 & 1 \end{matrix}]

求上述矩阵M的特征值和特征向量可得：

关系矩阵的主特征空间的维数k，可通过公式(5)得到：

\frac{Σ_{i = 1}^{k} λ_{i}}{Σ_{i = 1}^{n} λ_{i}} &GreaterEqual; {(\frac{n - 1}{n})}^{2} - - - (5)

其中λ_i指的是将关系矩阵的特征值从大到小排列后的第i个特征值。

对上述的矩阵M，得到k＝3，因此主特征空间就是与最大的3个特征值对应的特征向量形成的空间N：

N = [\begin{matrix} 0.408 & 0.115 & 0.699 \\ 0.565 & 0.24 & 0.106 \\ 0.542 & 0.187 & - 0.231 \\ 0.404 & - 0.152 & - 0.646 \\ 0.238 & - 0.933 & 0.173 \end{matrix}] = {[\begin{matrix} α_{1}^{T}, & α_{2}^{T}, & α_{3}^{T}, & α_{4}^{T}, & α_{5}^{T} \end{matrix}]}^{T}

其中分别是代表“free”、“software”、“testing”、“tools”、“download”的词向量。

计算相似度矩阵时，依据公式(6)进行：

S (w_{i}, w_{j}) = \{\begin{matrix} 1, & (α_{i} \cdot α_{j}^{T}) / (| | α_{i} | | \cdot | | α_{j} | |) &GreaterEqual; δ \\ 0, & (α_{i} \cdot α_{j}^{T}) / (| | α_{i} | | \cdot | | α_{j} | |) \leq δ \end{matrix} - - - (6)

其中，S(w_i，w_j)表示词w_i和词w_j之间的相似度，δ为一个阈值，其用于满足依据相似度矩阵得到的query的各切分片段的总数必须等于主特征空间的维数k这一限制条件，阈值δ的值需要在计算中不断调整进行确定。

例如：当δ＝0.5时，query“free software testing tools download”得到的相似度矩阵为：

矩阵中的数字1表示相邻两个词之间的相似度很高，所以这两个词应该切分在一起，因此可以看出根据上述的相似度矩阵，query“free software testing toolsdownload”应该切分为“free software testing tools”和“download”，因为切分片段的总数等于2＜3，所以应该调整δ的值重新计算相似度矩阵。

当δ＝0.7时，query“free software testing tools download”得到的相似度矩阵为：

所以query“free software testing tools download”应该切分为“free”、“software testing tools”、和“download”，此时切分片段的总数等于3，与主特征空间的维数k相等，所以“free”、“software testing tools”、和“download”就是query“freesoftware testing tools download”的各切分片段。

得到query簇中每个query的切分片段后，就可以按照前面所说的预设条件从切分片段中选取候选新词了。

得到候选新词后，步骤S1032需要计算每个候选新词属于特定类别的置信度，以确定步骤S1033是否应该将这个候选新词作为特定类别的新词。

计算一个候选新词W属于特定类别的置信度，可以按照下列步骤进行：

S10321：在搜索日志中确定包含W的query，对确定的每个query，提取与该query对应的所有URL作为与W对应的URL。

S10322：对每一个与W对应的URL，判断该URL与特定类别的URL模版是否匹配，如果匹配，则增加W的正属性权重，否则，增加W的负属性权重。

S10323：在对所有与W对应的URL判断结束后，根据与W的正属性正相关且与W的负属性负相关的函数计算W的置信度。

与W的正属性正相关且与W的负属性负相关的函数，包括本领域技术人员能够想到的各种函数，例如正属性与负属性的比例函数，或者正属性与负属性的差值函数等等，在此不再赘述。

例如在query“百度输入法ipad2”中，提取到两个不包含在预设词库中的候选新词“百度输入法”和“ipad2”，现在需要判断这两个候选新词属于软件下载类别的置信度。对包含“百度输入法”这个候选新词的query，其对应的URL中有50个URL与软件下载类别的URL模版匹配，则“百度输入法”这个新词的正属性权重为50，对应的URL中有3个URL与软件下载类别的URL模版不匹配，则“百度输入法”这个新词的负属性权重为3，如果采用比例函数，可以认为“百度输入法”这个新词的置信度为50/3，如果该置信度值大于预先设定的阈值，则可以认为“百度输入法”这个新词可以作为软件下载类别的新词。采用这种方法，如果“ipad2”作为软件下载类别的新词的置信度不高，则可以将“ipad2”这个新词过滤掉。

下面介绍步骤S101中的特定类别的URL模版的获取方式的一个实施例。在本实施例中，获取特定类别的URL模版包括下列步骤：

S1001：利用搜索日志中记录的URL生成URL模版。

S1002：对生成的URL模版进行分类，得到至少一个特定类别的URL模版。

具体的，S1001包括：

S10011：针对搜索日志中的每个URL，将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符，每替换一个通配符得到一个与该URL对应的URL模版，并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版，其中m为大于或等于1且不超过该URL最后一个分隔符所处位置的整数，优选地，m等于1。

作为本领域技术人员所公知的，URL的构成方式可以表示为：body/x1/...xi.../xn(n≥1，1≤i≤n)，其中符号“/”是URL中的分隔符，分隔符将URL分隔成了若干部分，例如URL“http://baike.baidu.com/view/994462.html”中“http://baike.baidu.com”就是上面所说的body部分，而“view”与“994462.html”构成了上面所说的x1与x2部分。

以URL：body/x1/x2/x3/x4为例，假设m＝1，也就是从第一个分隔符后对各部分轮流替换通配符，可以得到下面4个模版，其中“*”表示模版中的通配符：

body/*/x2/x3/x4

body/x1/*/x3/x4

body/x 1/x2/*/x4

body/x1/x2/x3/*

通过这种方式，搜索日志中的每个URL都可以得到对应的若干个URL模版，将搜索日志中的所有URL得到的全部URL模版中相同的URL模版合并，就可以得到不完全相同的URL模版，这些不完全相同的URL模版就是候选URL模版。

S10012：针对每个候选URL模版，根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定，使得该候选URL模版的通配符表示的含义与所述属性一致，以得到最终的URL模版，其中所述属性包括纯数字、纯字母，或者，数字与字母混合。

假设“http://baike.baidu.com/view/*”是候选URL模版，该模版中的通配符“*”与

http://baike.baidu.com/view/7088.htm

http://baike.baidu.com/view/abcd.htm

中的“7088.htm”和“abcd.htm”匹配。对于“7088.htm”，由于7088属于纯数字，因此可以将通配符“*”限定为数字类型的符号，如：\d+.htm，对于“abcd.html”，由于“abcd”属于纯字母，因此可以将通配符“*”限定为字母类型的符号，如\w+.htm，由此，对候选URL模版“http://baike.baidu.com/view/*”而言，可以得到两个最终的URL模版：

http://baike.baidu.com/view/\d+.htm

http://baike.baidu.com/view/\w+.htm

此外，在步骤S10012前，还可以先从所有候选URL模版中过滤掉在搜索日志中所覆盖的URL数量小于特定值的候选URL模版。这是因为如果一个候选URL模版覆盖的URL数量很少，说明该候选URL模版的通用性就很差。

进一步地，在步骤S10012后，还可以对最终生成的URL模版中冗余或存在包含关系的URL模版进行归一化处理。

例如，下面的几个模版存在冗余关系：

http://6.cn/plist/\d+/0.html

http://6.cn/plist/\d+/1.html

http://6.cn/plist/\d+/2.html

http://6.cn/plist/\d+/3.html

http://6.cn/plist/\d+/6.html

如果通配符“\d+”代表数字，则上述几个模版可以归一化为“http://6.cn/plist/\d+/\d.html”。

又比如下面两个模版存在包含关系：

http://www.lqjob88.com/.+？

http://www.lqjob88.com/vvip/.+？

通配符“.+？”代表任意字符或数字，则模版“http://www.lqjob88.com/.+？”实际上能够将“http://www.lqjob88.com/vvip/.+？”完全覆盖，所以上面这两个模版可以归一化为“http://www.lqjob88.com/.+？”。

步骤S1002中，对最终生成的URL模版进行分类可按照下列方式实施：

对生成的每个URL模版，在搜索日志中确定该URL模版对应的每个query-URL对中的query所属类别，将搜索日志中记录的该query-URL对被点击的次数累计到该query-URL对中的query所属类别的点击次数中，并在该URL模版对应的所有query-URL对的点击次数均已累计到各个类别后，将点击次数最高的类别作为该URL模版所属类别，其中该URL模版对应的query-URL对是该URL模版在搜索日志中覆盖的URL及与该URL对应的query所形成的对。

确定URL模版对应的每个query-URL对中的query所属类别，也就是确定一个query的类别，可以采用任意的现有技术进行，例如采用对短文本进行分类的技术，在此不再做详细介绍。

请参考表1，表1是URL模版及其在搜索日志中对应的query-URL对之间的关系示意。

表1

从表1中可以看出，类别1的点击次数累计为10+14＝24，而类别2与类别4的点击次数累计分别是2和3，因此URL模版1应该被分到类别1。

请参考图2，图2为本发明中类别新词挖掘的装置的结构示意框图。如图2所示，该装置包括：匹配单元201、簇生成单元202、挖掘单元203及模版生成单元204。

其中匹配单元201，用于获取与特定类别的URL模版匹配的URL及与获取的URL对应的query。本实施例中，匹配单元201可从搜索日志中获取与特定类别的URL模版匹配的URL。搜索日志是一个记录了用户在搜索时输入的多个query以及用户在输入每个query时对应点击的一个或多个URL的文件。在这个文件中，query和URL之间存在对应关系，一个query可与多个URL对应(当相同的一个query引起了多个URL被点击时)，一个URL也可以与多个query对应(当不同的多个query引起了同一个URL被点击时)。利用这种关系，匹配单元201在得到与特定类别的URL模版匹配的URL时，也可以得到搜索日志中与这些URL对应的query。

在本实施例中，特定类别的URL模版由模版生成单元204获取得到。在其他的实施例中，特定类别的URL模版也可以由其他方式指定。

模版生成单元204包括模版提取单元2041和分类单元2042。其中模版提取单元2041用于利用搜索日志中记录的URL生成URL模版。分类单元2042用于对生成的URL模版进行分类，得到至少一个特定类别的URL模版。

请参考图3，图3为本发明中模版提取单元的实施例的结构示意框图。

模版提取单元2041包括泛化单元2041_1、过滤单元2041_2、限定单元2041_3和归一化单元2041_4。其中，泛化单元2041_1用于针对搜索日志中的每个URL，将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符，每替换一个通配符得到一个与该URL对应的URL模版，并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版，其中m为大于或等于1且不超过该URL中最后一个分隔符所处位置的整数。过滤单元2041_2用于从泛化单元2041_1得到的候选URL模版中过滤掉在搜索日志中所覆盖的URL数量不满足要求的候选URL模版。限定单元2041_3用于针对过滤单元2041_2过滤后的每个候选URL模版，根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定，使得该候选URL模版的通配符表示的含义与所述属性一致，以得到最终的URL模版，其中所述属性包括纯数字、纯字母，或者，数字与字母混合。归一化单元2041_4用于对最终的URL模版中冗余或存在包含关系的URL模版进行归一化处理。

值得注意的是，图3所示的结构框图是模版提取单元2041的一种优选实施方式，其中的过滤单元2041_2和归一化单元2041_4不是实现本发明所必须的技术特征，作为本领域技术人员应该理解在其他的实施例中，没有这两个单元并不影响本发明的整体实施。

请继续参考图2。分类单元2042对生成的URL模版进行分类的具体方式包括：对生成的每个URL模版，在搜索日志中确定该URL模版对应的每个query-URL对中的query所属类别，将搜索日志中记录的该query-URL对被点击的次数累计到该query-URL对中的query所属类别的点击次数中，并在该URL模版对应的所有query-URL对的点击次数均已累计到各个类别后，将点击次数最高的类别作为该URL模版所属类别，其中该URL模版对应的query-URL对是该URL模版在搜索日志中覆盖的URL及该URL对应的query所形成的对。

簇生成单元202，用于利用获取的URL及与获取的URL对应的query生成query簇。具体地，簇生成单元202将与获取的同一URL对应的若干query聚为一个query簇。或者，簇生成单元202还可以将与获取的URL中主题相同的URL对应的若干query聚为一个query簇。

簇生成单元202进一步还用于从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数不满足要求的query簇。

挖掘单元203，用于从各query簇中挖掘新词作为特定类别的新词。挖掘单元203包括候选新词确定单元2031、置信度确定单元2032及新词选取单元2033。其中候选新词确定单元2031用于从每个query簇中确定与该query簇相关的候选新词。置信度确定单元2032用于确定每个候选新词属于特定类别的置信度。新词选取单元2033用于从不包括在预设词库中的候选新词里选取置信度满足要求的候选新词作为特定类别的新词。

请参考图4，图4为本发明中候选新词确定单元的实施例的结构示意框图。如图4所示，在该实施例中，候选新词确定单元2031包括切分单元2031_1和候选新词选取单元2031_2。其中切分单元2031_1用于从一个query簇S中确定与S相关的候选新词时，将S中的每个query切分为片段。候选新词选取单元2031_2用于从S包含的所有切分片段中选取满足预设条件的切分片段作为与S相关的候选新词。其中预设条件包括以下条件之一或以下多个条件的组合：

(一)切分片段在S中出现的次数大于预设的第一阈值；

(二)包含切分片段的query在S中占的比例大于预设的第二阈值；

(三)切分片段的组词概率大于预设的第三阈值，其中切分片段的组词概率是切分片段的首字位于词首的概率与切分片段的尾字位于词尾的概率乘积；

(四)切分片段不含停留字。

请参考图5，图5为本发明中切分单元的实施例的结构示意框图。如图5所示，切分单元2031_1包括矩阵建立单元2031_11、计算单元2031_12、主特征空间确定单元2031_13及相似矩阵切分单元2031_14。

其中矩阵建立单元2031_11用于在将query簇S中的一个query切分为片段时，基于该query中的最小粒度词建立关系矩阵。计算单元2031_12用于计算关系矩阵的特征值及特征向量。主特征空间确定单元2031_13用于依据关系矩阵的特征值确定关系矩阵的主特征空间的维数k，并选取与最大的k个特征值对应的特征向量形成关系矩阵的主特征空间。相似矩阵切分单元2031_14用于利用主特征空间得到代表该query中最小粒度词的词向量，根据各个词向量计算表示该query中相邻的最小粒度词之间相似度的相似度矩阵，并依据该相似度矩阵确定相邻的最小粒度词之间的组合关系，将组合在一起的最小粒度词作为该query的一个切分片段，得到该query的各切分片段。

请参考图6，图6为本发明中置信度确定单元的实施例的结构示意框图。如图5所示，置信度确定单元2032包括URL提取单元2032_1，用于在确定一个候选新词W属于特定类别的置信度时，在搜索日志中确定包含W的query，对确定的每个query，提取与该query对应的所有URL作为与W对应的URL。判断单元2032_2用于对每一个与W对应的URL，判断该URL与特定类别的URL模版是否匹配，如果匹配，则增加W的正属性权重，否则，增加W的负属性权重。置信度计算单元2032_3用于在判断单元2032_2对所有与W对应的URL判断结束后，根据与W的正属性正相关且与W的负属性负相关的函数计算W属于特定类别的置信度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种类别新词的挖掘方法，其特征在于，所述方法包括：

获取与特定类别的URL模版匹配的URL及与获取的URL对应的query；

利用获取的URL及与获取的URL对应的query生成query簇；

从各query簇中挖掘新词作为所述特定类别的新词。

2.根据权利要求1所述的方法，其特征在于，所述特定类别的URL模版是通过下列方式得到的：

利用搜索日志中记录的URL生成URL模版；

对生成的URL模版进行分类，得到至少一个特定类别的URL模版。

3.根据权利要求2所述的方法，其特征在于，利用搜索日志中记录的URL生成URL模版的步骤包括：

针对搜索日志中的每个URL，将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符，每替换一个通配符得到一个与该URL对应的URL模版，并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版，其中m为大于或等于1且不超过该URL中最后一个分隔符所处位置的整数；

针对每个候选URL模版，根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定，使得该候选URL模版的通配符表示的含义与所述属性一致，以得到最终的URL模版，其中所述属性包括纯数字、纯字母，或者，数字与字母混合。

4.根据权利要求3所述的方法，其特征在于，利用搜索日志中记录的URL生成URL模版的步骤进一步包括：

在对候选URL模版中的通配符进行限定前，将在搜索日志中所覆盖的URL数量不满足要求的候选URL模版过滤掉。

5.根据权利要求3所述的方法，其特征在于，利用搜索日志中记录的URL生成URL模版的步骤进一步包括：

对最终的URL模版中冗余或存在包含关系的URL模版进行归一化处理。

6.根据权利要求2所述的方法，其特征在于，对生成的URL模版进行分类的步骤包括：

对生成的每个URL模版，在搜索日志中确定该URL模版对应的每个query-URL对中的query所属类别，将搜索日志中记录的该query-URL对被点击的次数累计到该query-URL对中的query所属类别的点击次数中，并在该URL模版对应的所有query-URL对的点击次数均已累计到各个类别后，将点击次数最高的类别作为该URL模版所属类别，其中该URL模版对应的query-URL对是该URL模版在搜索日志中覆盖的URL及该URL对应的query所形成的对。

7.根据权利要求1所述的方法，其特征在于，利用获取的URL及与获取的URL对应的query生成query簇的步骤包括：

将与获取的同一URL对应的若干query聚为一个query簇。

8.根据权利要求1所述的方法，其特征在于，利用获取的URL及与获取的URL对应的query生成query簇的步骤包括：

9.根据权利要求7或8所述的方法，其特征在于，利用获取的URL及与获取的URL对应的query生成query簇的步骤进一步包括：

从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数不满足要求的query簇。

10.根据权利要求1所述的方法，其特征在于，从各query簇中挖掘新词作为所述特定类别的新词的步骤包括：

从每个query簇中确定与该query簇相关的候选新词；

确定每个候选新词属于所述特定类别的置信度；

从不包括在预设词库中的候选新词里选取所述置信度满足要求的候选新词作为所述特定类别的新词。

11.根据权利要求10所述的方法，其特征在于，从一个query簇S中确定与所述S相关的候选新词的步骤包括：

将所述S中的每个query切分为片段；

从所述S包含的所有切分片段中选取满足预设条件的切分片段作为与所述S相关的候选新词。

12.根据权利要求11所述的方法，其特征在于，所述预设条件包括以下条件之一或以下多个条件的组合：

(一)切分片段在所述S中出现的次数大于预设的第一阈值；

(二)包含切分片段的query在所述S中占的比例大于预设的第二阈值；

(四)切分片段不含停留字。

13.根据权利要求11所述的方法，其特征在于，将所述S中的一个query切分为片段的步骤包括：

基于该query中的最小粒度词建立关系矩阵；

计算所述关系矩阵的特征值及特征向量；

依据所述关系矩阵的特征值确定所述关系矩阵的主特征空间的维数k，并选取与最大的k个特征值对应的特征向量形成所述关系矩阵的主特征空间；

利用主特征空间得到代表该query中最小粒度词的词向量，根据各个词向量计算表示该query中相邻的最小粒度词之间相似度的相似度矩阵，并依据该相似度矩阵确定相邻的最小粒度词之间的组合关系，将组合在一起的最小粒度词作为该query的一个切分片段，得到该query的各切分片段。

14.根据权利要求10所述的方法，其特征在于，确定一个候选新词W属于所述特定类别的置信度的步骤包括：

在搜索日志中确定包含所述W的query，对确定的每个query，提取与该query对应的所有URL作为与所述W对应的URL；

对每一个与所述W对应的URL，判断该URL与所述特定类别的URL模版是否匹配，如果匹配，则增加所述W的正属性权重，否则，增加所述W的负属性权重；

在对所有与所述W对应的URL判断结束后，根据与所述W的正属性正相关且与所述W的负属性负相关的函数计算所述W属于所述特定类别的置信度。

15.一种类别新词的挖掘装置，其特征在于，所述装置包括：

匹配单元，用于获取与特定类别的URL模版匹配的URL及与获取的URL对应的query；

簇生成单元，用于利用获取的URL及与获取的URL对应的query生成query簇；

挖掘单元，用于从各query簇中挖掘新词作为所述特定类别的新词。

16.根据权利要求15所述的装置，其特征在于，所述装置进一步包括模版生成单元，用于获得所述特定类别的URL模版，所述模版生成单元包括：

模版提取单元，用于利用搜索日志中记录的URL生成URL模版；

分类单元，用于对生成的URL模版进行分类，得到至少一个特定类别的URL模版。

17.根据权利要求16所述的装置，其特征在于，所述模版提取单元包括：

泛化单元，用于针对搜索日志中的每个URL，将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符，每替换一个通配符得到一个与该URL对应的URL模版，并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版，其中m为大于或等于1且不超过该URL中最后一个分隔符所处位置的整数；

限定单元，用于针对每个候选URL模版，根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定，使得该候选URL模版的通配符表示的含义与所述属性一致，以得到最终的URL模版，其中所述属性包括纯数字、纯字母，或者，数字与字母混合。

18.根据权利要求17所述的装置，其特征在于，所述模版提取单元进一步包括过滤单元，用于在对候选URL模版中的通配符进行限定前，将在搜索日志中所覆盖的URL数量不满足要求的候选URL模版过滤掉。

19.根据权利要求17所述的装置，其特征在于，所述模版提取单元进一步包括归一化单元，用于对最终的URL模版中冗余或存在包含关系的URL模版进行归一化处理。

20.根据权利要求16所述的装置，其特征在于，所述分类单元对生成的URL模版进行分类的方式包括：

21.根据权利要求15所述的装置，其特征在于，所述簇生成单元利用获取的URL及与获取的URL对应的query生成query簇的方式包括：

将与获取的同一URL对应的若干query聚为一个query簇。

22.根据权利要求15所述的装置，其特征在于，所述簇生成单元利用获取的URL及与获取的URL对应的query生成query簇的方式包括：

23.根据权利要求21或22所述的装置，其特征在于，所述簇生成单元进一步还用于从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数不满足要求的query簇。

24.根据权利要求15所述的装置，其特征在于，所述挖掘单元包括：

候选新词确定单元，用于从每个query簇中确定与该query簇相关的候选新词；

置信度确定单元，用于确定每个候选新词属于所述特定类别的置信度；

新词选取单元，用于从不包括在预设词库中的候选新词里选取置信度满足要求的候选新词作为所述特定类别的新词。

25.根据权利要求24所述的装置，其特征在于，所述候选新词确定单元包括：

切分单元，用于从一个query簇S中确定与所述S相关的候选新词时，将所述S中的每个query切分为片段；

候选新词选取单元，用于从所述S包含的所有切分片段中选取满足预设条件的切分片段作为与所述S相关的候选新词。

26.根据权利要求25所述的装置，其特征在于，所述预设条件包括以下条件之一或以下多个条件的组合：

(一)切分片段在所述S中出现的次数大于预设的第一阈值；

(四)切分片段不含停留字。

27.根据权利要求25所述的装置，其特征在于，所述切分单元包括：

矩阵建立单元，用于在将所述S中的一个query切分为片段时，基于该query中的最小粒度词建立关系矩阵；

计算单元，用于计算所述关系矩阵的特征值及特征向量；

主特征空间确定单元，用于依据所述关系矩阵的特征值确定所述关系矩阵的主特征空间的维数k，并选取与最大的k个特征值对应的特征向量形成所述关系矩阵的主特征空间；

相似度矩阵切分单元，用于利用主特征空间得到代表该query中最小粒度词的词向量，根据各个词向量计算表示该query中相邻的最小粒度词之间相似度的相似度矩阵，并依据该相似度矩阵确定相邻的最小粒度词之间的组合关系，将组合在一起的最小粒度词作为该query的一个切分片段，得到该query的各切分片段。

28.根据权利要求24所述的装置，其特征在于，所述置信度确定单元包括：

URL提取单元，用于在确定一个候选新词W属于所述特定类别的置信度时，在搜索日志中确定包含所述W的query，对确定的每个query，提取与该query对应的所有URL作为与所述W对应的URL；

判断单元，用于对每一个与所述W对应的URL，判断该URL与所述特定类别的URL模版是否匹配，如果匹配，则增加所述W的正属性权重，否则，增加所述W的负属性权重；

置信度计算单元，用于在所述判断单元对所有与所述W对应的URL判断结束后，根据与所述W的正属性正相关且与所述W的负属性负相关的函数计算所述W属于所述特定类别的置信度。