CN104239402B

CN104239402B - 文档查询方法及装置

Info

Publication number: CN104239402B
Application number: CN201410353033.4A
Authority: CN
Inventors: 周光有; 蒋杰; 王巨宏; 薛伟; 管刚; 赵军
Original assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2017-12-22
Anticipated expiration: 2034-07-23
Also published as: CN104239402A

Abstract

本发明公开了一种文档查询方法及装置，属于数据查询领域。所述方法包括：通过获取待查询的文档q和该文档q对应的类别C_p；通过与类别C_p对应的词‑主题矩阵将该文档q变换到主题空间上的最优表示形式v_q；根据v_q在与类别C_p对应的主题‑文档矩阵V_p中查询与该文档q相似的历史文档；其中，词‑主题矩阵和主题‑文档矩阵V_p是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵；本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题；达到了通过词‑主题矩阵和主题‑文档矩阵V_p来进行文档查询，提高了查询的准确率，优化了文档查询的结果。

Description

文档查询方法及装置

技术领域

本发明涉及数据查询领域，特别涉及一种文档查询方法及装置。

背景技术

CQA(Community question answering，社区问答)已经成为了网络上一个重要的信息资源。常见的社区问答网站有Yahoo！Answers(雅虎问答)、Quora网站和知乎网站。

在社区问答网站中有大规模的历史问题及答案，在用户提出一个新问题时，使用这些历史问题及答案来帮助用户解答问题是非常有效的方式。目前的一种查询方法，包括：用户向服务器输入一个问题；服务器将该问题中的关键字提取出来，然后根据该关键字在历史问题中查询相关联的历史问题；服务器将查询到的历史问题及答案反馈给用户，用户可以根据这些历史问题及答案来获取需要的信息。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：由于问题中的关键字与该问题的实际含义并不一定是强相关的，所以上述查询方法查询到的历史问题并不一定符合用户的预期，查询准确率较低。

发明内容

为了解决目前查询历史文档不一定符合用户预期，查询准确率较低的问题，本发明实施例提供了一种文档查询方法及装置。所述技术方案如下：

第一方面，提供了一种文档查询方法，所述方法包括：

获取待查询的文档q和所述文档q对应的类别C_p；

通过与所述类别C_p对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式v_q，所述词-主题矩阵包括词和主题之间的对应关系；

根据所述v_q在与所述类别C_p对应的主题-文档矩阵V_p中查询与所述文档q相似的历史文档，所述主题-文档矩阵V_p中的每一列对应一个历史文档；

其中，所述词-主题矩阵和所述主题-文档矩阵V_p是对各个历史文档按照不同类别进行组非负矩阵分解GNMFNC所得到的矩阵。

第二方面，提供了一种文档查询装置，所述装置包括：

获取文档模块，用于获取待查询的文档q和所述文档q对应的类别C_p；

变换文档模块，用于通过与所述类别C_p对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式v_q，所述词-主题矩阵包括词和主题之间的对应关系；

查询文档模块，用于根据所述v_q在与所述类别C_p对应的主题-文档矩阵V_p中查询与所述文档q相似的历史文档，所述主题-文档矩阵V_p中的每一列对应一个历史文档；

本发明实施例提供的技术方案带来的有益效果是：

通过获取待查询的文档q和该文档q对应的类别C_p；通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q；根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档；解决了目前查询历史文档不一定符合用户预期的问题；达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询，提高了查询的准确率，优化了文档查询的结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的文档查询方法的方法流程图；

图2是本发明另一个实施例提供的文档查询方法的方法流程图；

图3是本发明另一个实施例提供的文档查询方法所涉及的分解矩阵方法的方法流程图；

图4是本发明另一个实施例提供的文档查询方法所涉及的使目标函数最小方法的方法流程图；

图5是本发明另一个实施例提供的文档查询方法所涉及的查询历史文档方法的方法流程图；

图6是本发明一个实施例提供的文档查询装置的结构方框图；

图7是本发明另一个实施例提供的文档查询装置的结构方框图；

图8是本发明另一个实施例提供的文档查询装置所涉及的分解矩阵方法装置的结构流程图；

图9是本发明另一个实施例提供的文档查询装置所涉及的使确定矩阵的结构方框图；

图10是本发明另一个实施例提供的文档查询装置所涉及的查询历史文档装置的结构方框图；

图11是本发明另一个实施例提供的文档查询装置所涉及的计算相似性的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

首先对本发明实施例中所涉及的基本概念进行阐述：

社区问答档案：社区问答网站中所有历史文档的集合。常见的社区问答网站有Yahoo！Answers(雅虎问答)、Quora网站和知乎网站。

文档：由多个字符构成的文本语义集合。在社区问答档案中，一个问题就可以视为一个历史文档。此外，用户输入的新问题也视为文档。比如：问题“2014年最好看的电影有哪些”，就可以视为一个文档。又比如：问题“你最喜欢的书籍是什么，理由是什么？”，就可以视为另外一个文档。当然，在不同的领域中，文档的表现形式不局限于“问题”这一种形式。

类别：用于对文档进行分类的类别。在社区问答档案中，比如在雅虎问答网站中，所有问题都被划分至26个类别下进行存储，每个类别还可以包括子类别。该26个类别可以包括：电影、美食、互联网、阅读等。类别是社区问答档案组织时的主要层次结构。

由于不同类别下的文档通常会涉及一些通用的主题，而每个类别下的文档通常都还有自身特定的主题。主题可以认为是文档实际含义的一种聚类。为了利用在不同类别下的文档所涉及的这些共享主题和特定主题来帮助检索，本发明中引入了GNMFNC(GroupNon-negative Matrix Factorization,组非负矩阵分解)来对历史文档所对应的词-文档矩阵进行分解。简单来讲，本发明包括两个阶段：

1、预处理阶段：

将不同类别下的各个历史文档表示为词-文档矩阵，然后将该词-文档矩阵通过组非负矩阵分解，分解得到词-主题矩阵和主题-文档矩阵。其中，词-主题矩阵包括词和主题之间的对应关系，可以分为词-共享主题矩阵和词-特定主题矩阵两种。每个主题-文档矩阵表示一个类别所对应的主题空间，该主题-文档矩阵中的每一列对应一个历史文档。

2、查询阶段。

在用户输入一个文档后，利用预处理阶段得到的词-主题矩阵和主题-文档矩阵进行文档查询，得到与该文档最接近的历史文档。

请参考图1，其示出了本发明一个实施例提供的文档查询方法的方法流程图。本实施例以仅包括查询阶段来举例说明。该方法，包括：

步骤102，获取待查询的文档q和该文档q对应的类别C_p；

步骤104，通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q，该词-主题矩阵包括词和主题之间的对应关系；

步骤106，根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档，主题-文档矩阵V_p中的每一列对应一个历史文档。

其中，词-主题矩阵和主题-文档矩阵V_p是预先将各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵。

综上所述，本实施例提供的文档查询方法，通过获取待查询的文档q和该文档q对应的类别C_p；通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q；根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档；解决了目前查询历史文档不一定符合用户预期的问题；达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询，提高了查询的准确率，优化了文档查询的结果。

请参考图2，其示出了本发明另一个实施例提供的文档查询方法的方法流程图。本实施例以同时包括预处理过程和查询过程来举例说明，其中预处理过程可以只执行一次，而查询过程可以执行多次。该方法，包括：

一、预处理过程：

步骤201，将各个历史文档表示为词-文档矩阵D，词-文档矩阵D中的每一行代表一个词，每一列代表一个历史文档，历史文档对应P个类别；

各个历史文档可以是社区问答档案中的历史文档。比如，将社区问答档案中的每个历史问题都作为一个历史文档。

关于将社区问答档案中的历史文档表示为词-文档矩阵D的方式，本实施例不作具体限定。按照不同的类别，词-文档矩阵D可以表示为{D₁，D₂，…，D_p}，是对应于类别C_p的术语问题矩阵，每一行代表一个词,每一列代表一个问题。N_p是类别C_p中问题的数量，这样

作为一种可能的实现方式，从各个历史文档中选取检索词，将检索词作为词-文档矩阵D的行，将各个历史文档作为词-文档矩阵D的列，将检索词在各个历史文档中的TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文件频率)值作为词-文档矩阵D中与该词及历史文档对应的元素的值，从而将各个历史文档表示为词-文档矩阵D。其中，检索词可以为每个历史文档中出现次数较多的词，TF-IDF值为检索词的词频与检索词的逆向文件频率的乘积；词频为检索词在历史文档中出现的次数，检索词的逆向文件频率的计算公式为：lg(所有历史文档的文档数/出现该检索词的历史文档数)，lg表示以10为底的常用对数。由于出现该检索词的历史文档数可能为零，导致上述检索词的逆向文件频率的计算公式中的分母为零，则实际应用中，还可使用公式：lg(所有历史文档的文档数/(出现该检索词的历史文档数+1))，计算检索词的逆向文件频率，本实施例不对检索词的逆向文件频率的计算方式进行限定。

为了便于理解，以某一类别下的历史文档包括历史文档1至历史文档5为例进行说明。从各个历史文档中选取检索词：检索词1至检索词4；在历史文档1中，检索词1至检索词4出现的次数分别为2、0、0及2；在历史文档2中，检索词1至检索词4出现的次数分别为1、2、0及0；在历史文档3中，检索词1至检索词4出现的次数分别为1、0、0及0；在历史文档4中，检索词1至检索词4出现的次数分别为0、0、0及0；在历史文档5中，检索词1至检索词4出现的次数分别为0、2、1及1。因此，在历史文档1中，检索词1至检索词4的词频分别为2、0、0及2；在历史文档2中，检索词1至检索词4的词频分别1、2、0及0；在历史文档3中，检索词1至检索词4的词频分别1、0、0及0；在文档4中，检索词1至检索词4的词频分别0、0、0及0；在历史文档5中，检索词1至检索词4的词频分别0、2、1及1。通过计算可知，检索词1至检索词4的逆向文件频率分别为0.22、0.22、0.40、0.40及0.10，进而得到检索词1在历史文档1至历史文档5中的TF-IDF值分别为0.44、0.22、0.22、0及0，检索词2在历史文档1至历史文档5中的TF-IDF值分别为0、0.44、0、0及0.44，检索词3在历史文档1至历史文档5中的TF-IDF值分别为0、0、0、0及0.40，检索词4在历史文档1至历史文档5中的TF-IDF值分别为0.2、0、0、0及0.1。根据各个检索词在各个历史文档的TF-IDF值可得到如下所示的词-文档矩阵D。该词-文档矩阵D为4*5的矩阵，词-文档矩阵D的行表示检索词1至检索词4，词-文档矩阵D的列表示历史文档1至历史文档5，矩阵中的任一元素x_ij表示检索词i在历史文档j中的TF-IDF值，1≤i≤4,1≤j≤5,i和j均为整数。

本发明实施例提供的方法根据历史文档中的检索词获取词-文档矩阵D。又由于词-文档矩阵为非负，使得矩阵中的每个元素具有实际意义，方便后续的组非负矩阵分解过程。

步骤202，将词-文档矩阵D通过组非负矩阵分解GNMFNC分解得到1个词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

词-共享主题矩阵U_s、P个词-特定主题矩阵U_p可以统称为词-主题矩阵。所有类别对应同一个词-共享主题矩阵U_s、每个类别单独对应一个词-特定主题矩阵U_p。其中，共享主题是所有类别所共享的主题，特定主题是一个类别所特有的主题。

具体来讲，本步骤可以包括如下子步骤，如图3所示：

步骤202A，获取初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p；

关于词-共享主题矩阵U_s、词-特定主题矩阵U_p和主题-文档矩阵V_p的初始化，本发明实施例不做具体限定。作为一种可能的实现方式时，可以使用随机非负值进行填充得到初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p。

步骤202B，根据词-文档矩阵D、初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p确定出使目标函数最小的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p。

作为一种可能的实现方式，请参考图4，根据词-文档矩阵D、初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p确定出使目标函数最小的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p，包括：

步骤202Ba，使用词-文档矩阵D、上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p进行迭代更新，得到更新后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

需要说明的是，在第1次迭代时，上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p即为初始化的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；在第i次迭代(i＞1)时，上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p为第i-1次获取到的更新的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p。

其中，各个矩阵迭代更新的方法包括但不限于：

使用下述公式对上一次得到的词-共享主题矩阵U_s进行迭代更新；

使用下述公式对上一次得到的词-特定主题矩阵U_p进行迭代更新；

使用下述公式对上一次得到的主题-文档矩阵V_p进行迭代更新；

其中，U_s表示词-共享主题矩阵，U_p表示与类别C_p对应的词-特定主题矩阵，V_P表示主题-文档矩阵，P代表各个类别，|| ||_F表示弗罗贝尼乌斯范数，D_p表示对应于类别C_p的词-文档矩阵，表示H_p的转置矩阵，对应U_s的共享主题系数，U'_p＝[U_s,U_p]，V_p ^T表示V_P的转置矩阵，表示U_p的转置矩阵，表示W_p的转置矩阵，对应U_p的特定主题系数，U_l表示与类别C_l对应的词-特定主题矩阵，α_p和β_l是正则化参数，运算符o是点乘结果,是点除结果,并且是点阵平方。

步骤202Bb，使用规范化算子对更新后的词-共享主题矩阵U_s的每一列、P个词-特定主题矩阵U_p的每一列和P个主题-文档矩阵V_p的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

其中，所指的规范化算子是：

其中，

Τr(·)表示一个矩阵的迹线，K'＝K_s+K_p，K_s表示共享主题的数目，K_p表示对应于类别P的特定主题的数目，N_p表示类别P中文档的数目，并且和是U_s、U_p和V_p各自等式约束的拉格朗日乘数，U_s表示词-共享主题矩阵，U_p表示与类别C_p对应的词-特定主题矩阵，U_l表示与类别C_l对应的词-特定主题矩阵，V_P表示主题-文档矩阵，P代表各个类别，|| ||_F表示弗罗贝尼乌斯范数，D_p表示对应于类别C_p的词-文档矩阵，表示U_s的转置矩阵，表示U_p的转置矩阵，α_p和β_l是正则化参数。

步骤202Bc，使用规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p计算目标函数是否已最小化；

作为一种可能的实现方式，根据规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p计算的目标函数为：

其中，

U_s表示词-共享主题矩阵，U_p表示与类别C_p对应的词-特定主题矩阵，U_l表示与类别C_l对应的词-特定主题矩阵，V_P表示主题-文档矩阵，P代表各个类别，|| ||_F表示弗罗贝尼乌斯范数，D_p表示对应于类别C_p的词-文档矩阵，表示U_s的转置矩阵，表示U_p的转置矩阵，K_s表示共享主题的数目，K_p表示对应于类别C_p的特定主题的数目，M表示词的数目，N_p表示类别C_p中历史文档的数目，α_p和β_l是正则化参数，s.t.表示“满足于”。

步骤202Bd，若目标函数尚未最小化，则重新执行上述三个步骤直至该目标函数最小化，从而得出使该目标函数最小的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p。

上述步骤201和步骤202的具体算法可以参考如下：

其中，和均为预设的参数，Iter表示迭代的数量。需要说明的是，合理地采用α_p和β_l的取值，可以优化迭代过程的收敛速度。作为一种可能的实现方式，

和

因此，可以通过网格搜索调整共同参数a来设置α_p和β_l的取值。比如，设置a＝100,使得α_p＝β_l＝0.625。

需要说明的另一点是，K_s和K_p的取值也会影响计算的复杂度，合理地预设K_s和K_p的取值可以提高计算速度。优选地，K_s可以设置范围为区间[10,30]和K_p的设置范围在[5,15]。

二、查询过程：

步骤203，获取待查询的文档q和该文档q对应的类别C_p；

在用户需要查询时，向服务器提供待查询的文档q和该文档q对应的类别C_p。

步骤204，通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q，该词-主题矩阵包括词和主题之间的对应关系；

其中，词-主题矩阵包括词-共享主题矩阵U_s、与类别C_p对应的词-特定主题矩阵U_p。

作为一种可能的实现方式，通过下述公式将文档q变换到主题空间上的最优表示形式v_q；

其中，q为文档q的向量表示，U_s是词-共享主题矩阵，U_p是与类别C_p对应的词-特定主题矩阵，v是文档q在主题空间上的任何一种表示形式。

其中，将文档q表示向量q的过程可以是：使用各个检索词在文档q的TF-IDF(TermFrequency-Inverse Document Frequency，词频-逆向文件频率)值来得到向量q，与步骤201中将历史文档表示为词-文档矩阵的过程类似，此处不再赘述。

步骤205，根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档，主题-文档矩阵V_p中的每一列对应一个历史文档。

具体来讲，本步骤可以包括如下两个子步骤，如图5所示：

步骤205a，对于与类别C_p对应的主题-文档矩阵V_p中的每一列v_d，计算主题空间上的最优表示形式v_q和v_d之间的相似性，v_d是一个历史文档d在V_p中按列索引的表示。也即，V_p中包括总共r列时，v_d＝r-d对应的列的列号。

由于之前已经将待查询文档q变换到主题空间上，将其表示为该主题空间上的最优表示形式v_q，而v_d是一个历史文档在V_p中按列索引的表示，故可以在主题空间上进行计算，得出v_q和v_d之间的相似性。

在v_q和v_d之间的相似性的计算，包括以下两种方法：

方法一：通过下述公式计算主题空间上的最优表示形式v_q和v_d之间的相似性；

其中，S_topic(q,d)中的q和d是基于主题的表示方法；

或，

方法二：通过下述公式计算主题空间上的最优表示形式v_q和v_d之间的相似性；

s(q,d)＝γs_topic(q,d)+(1-γ)s_term(q,d)；

其中，参数γ∈[0,1]，S_topic(q,d)中的q和d是基于主题的表示方法，S_term(q,d)中的q和d是基于词袋的表示方法。

参数γ的一个优选取值为0.6。

步骤205b，根据相似性由高到低的顺序得出与该文档q相似的历史文档。

由于与类别C_p对应的主题-文档矩阵V_p中的每一列v_d都与该最优表示形式v_q计算其相似性，故存在多个相似性结果，将其由高到低进行排序，排在最前面的则是与该待查询文档q最相似的历史文档，可以选取top1或topN个历史文档作为查询结果，并反馈给用户。

综上所述，本实施例提供的文档查询方法，通过获取待查询的文档q和该文档q对应的类别C_p；通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q；根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档；解决了目前查询历史文档不一定符合用户预期的问题；达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询，利用了相同主题的文档的含义具有相似性的特点，提高了查询的准确率，优化了文档查询的结果。

本实施例还通过目标函数的不断迭代更新，让目标函数最小化，能够通过组非负矩阵分解GNMFNC得到较优的词-共享主题矩阵U_s、词-特定主题矩阵U_p和主题-文档矩阵V_p，以便使得查询过程能够得到较好的查询结果_。

本实施例还通过合理地采用α_p和β_l的取值，可以优化迭代过程快速向目标函数收敛，并且确保U_s只捕获共享主题，U_p只捕获特定主题。

本实施例还通过合理地预设K_s和K_p的取值，在保证查询质量的前提下，降低计算复杂度，提高计算速度。

需要说明的是，上述预处理过程和查询过程可以由相同或不同的执行主体单独执行，比如由服务器A执行预处理过程，服务器B利用服务器A的分解结果来执行查询过程。

请参考图6，其示出了本发明一个实施例提供的文档查询装置的结构方框图。该装置600，包括：

获取文档模块620，用于获取待查询的文档q和该文档q对应的类别C_p；

变换文档模块640，用于通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q，该词-主题矩阵包括词和主题之间的对应关系；

查询文档模块660，用于根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档，主题-文档矩阵V_p中的每一列对应一个历史文档。

综上所述，本实施例提供的文档查询装置，通过获取待查询的文档q和该文档q对应的类别C_p；通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q；根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档；解决了目前查询历史文档不一定符合用户预期的问题；达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询，提高了查询的准确率，优化了文档查询的结果。

请参考图7，其示出了本发明另一个实施例提供的文档查询装置的结构方框图。该装置，包括：

历史文档表示模块710，用于将各个历史文档表示为词-文档矩阵D，词-文档矩阵D中的每一行代表一个词，每一列代表一个历史文档，历史文档对应P个类别。

分解矩阵模块720，用于将词-文档矩阵D通过组非负矩阵分解GNMFNC分解得到1个词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

具体来讲，分解矩阵模块720可以包括如下单元，如图8所示：

初始化矩阵单元720A，用于获取初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p；

确定矩阵单元720B，用于根据词-文档矩阵D、初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p确定出使目标函数最小的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p。

作为一种可能的实现方式，请参考图9，确定矩阵单元720B，包括：

迭代更新子单元720Ba，用于使用词-文档矩阵D、上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p进行迭代更新，得到更新后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

迭代更新子单元720Ba，用于使用下述公式对上一次得到的词-共享主题矩阵U_s进行迭代更新；

规范化矩阵子单元720Bb，用于使用规范化算子对更新后的词-共享主题矩阵U_s的每一列、P个词-特定主题矩阵U_p的每一列和P个主题-文档矩阵V_p的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

其中，所指的规范化算子是：

其中，

计算矩阵子单元720Bc，用于使用规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p计算目标函数是否已最小化；

作为一种可能的实现方式，本实施例中采用的目标函数为：

其中，

需要说明的是，合理地采用α_p和β_l的取值，可以优化目标函数的快速收敛。

作为一种可能的实现方式，

和

因此，可以通过网格搜索调整共同参数a来设置α_p和β_l的取值。

需要说明的另一点是，K_s和K_p的取值也会影响计算的复杂度，合理地预设K_s和K_p的取值可以提高计算速度。优选地，K_s的设置区间可以是[10,30]和K_p的设置区间可以是[5,15]。

重新执行子单元720Bd，用于若目标函数尚未最小化，则重新执行上述三个步骤直至该目标函数最小化，从而得出使该目标函数最小的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p。

获取文档模块730，用于获取待查询的文档q和该文档q对应的类别C_p；

变换文档模块740，用于通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q，该词-主题矩阵包括词和主题之间的对应关系；

变换文档模块740，用于通过下述公式将文档q变换到主题空间上的最优表示形式v_q；

查询文档模块750，用于根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档，主题-文档矩阵V_p中的每一列对应一个历史文档。

查询文档模块750包括计算相似性单元750A和得出相似文档单元750B，请参考图10；

计算相似性单元750A，用于对于与类别C_p对应的主题-文档矩阵V_p中的每一列v_d，计算主题空间上的最优表示形式v_q和v_d之间的相似性，v_d是一个历史文档d在V_p中按列索引的表示。也即，V_p中包括总共r列时，v_d＝r-d对应的列的列号。

计算相似性单元750A，可以包括以下两个子单元，参考图11：

第一计算子单元750Aa，用于通过下述公式计算主题空间上的最优表示形式v_q和v_d之间的相似性；

其中，S_topic(q,d)中的q和d是基于主题的表示方法；

或，

第二计算子单元750Ab,用于通过下述公式计算主题空间上的最优表示形式v_q和v_d之间的相似性；

s(q,d)＝γs_topic(q,d)+(1-γ)s_term(q,d)；

参数γ的一个优选取值为0.6。

得出相似文档单元750B，用于根据相似性由高到低的顺序得出与该文档q相似的历史文档。

综上所述，本实施例提供的文档查询装置，通过获取待查询的文档q和该文档q对应的类别C_p；通过与类别C_p对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式v_q；根据v_q在与类别C_p对应的主题-文档矩阵V_p中查询与该文档q相似的历史文档；解决了目前查询历史文档不一定符合用户预期的问题；达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询，利用了相同主题的文档的含义具有相似性的特点，提高了查询的准确率，优化了文档查询的结果。

本实施例还通过目标函数的不断迭代更新，让目标函数最小化，能够通过组非负矩阵分解GNMFNC得到较优的词-共享主题矩阵U_s、词-特定主题矩阵U_p和主题-文档矩阵V_p，以便使得查询过程能够得到较好的查询结果。

需要说明的是：上述实施例提供的文档查询装置在查询文档时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文档查询装置与文档查询方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档查询方法，其特征在于，所述方法包括：

获取待查询的文档q和所述文档q对应的类别C_p；

对于与所述类别C_p对应的主题-文档矩阵V_p中的每一列v_d，计算所述主题空间上的最优表示形式v_q和所述v_d之间的相似性，所述主题-文档矩阵V_p中的每一列对应一个历史文档，所述v_d是一个历史文档在所述V_p中按列索引的表示；

根据所述相似性由高到低的顺序得出与所述文档q相似的历史文档；

其中，所述词-主题矩阵和所述主题-文档矩阵V_p是对各个历史文档按照不同类别进行组非负矩阵分解GNMFNC所得到的矩阵；

所述通过与所述类别C_p对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式v_q之前，还包括：

将各个历史文档表示为词-文档矩阵D，所述词-文档矩阵D中的每一行代表一个词，每一列代表一个历史文档，所述历史文档对应P个类别；

获取初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p；其中，所述共享主题是所有类别所共享的主题，所述特定主题是一个类别所特有的主题；

根据所述词-文档矩阵D、所述初始化的词-共享主题矩阵U_s、P个所述初始化的词-特定主题矩阵U_p和P个所述初始化的主题-文档矩阵V_p确定出使目标函数最小的所述词-共享主题矩阵U_s、P个所述词-特定主题矩阵U_p和P个所述主题-文档矩阵V_p；

所述目标函数是：

其中，

所述U_l表示与类别C_l对应的词-特定主题矩阵，所述P代表各个类别，所述所述|| ||_F表示弗罗贝尼乌斯范数，所述D_p表示对应于类别C_p的词-文档矩阵，所述表示U_s的转置矩阵，所述表示U_p的转置矩阵，K_s表示共享主题的数目，K_p表示对应于类别C_p的特定主题的数目，M表示词的数目，N_p表示类别C_p中历史文档的数目，所述α_p和所述β_l是正则化参数，

2.根据权利要求1所述的方法，其特征在于，所述根据所述词-文档矩阵D、所述初始化的词-共享主题矩阵U_s、P个所述初始化的词-特定主题矩阵U_p和P个所述初始化的主题-文档矩阵V_p确定出使目标函数最小的所述词-共享主题矩阵U_s、P个所述词-特定主题矩阵U_p和P个所述主题-文档矩阵V_p，包括：

使用所述词-文档矩阵D、上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p进行迭代更新，得到更新后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

使用规范化算子对所述更新后的词-共享主题矩阵U_s的每一列、P个词-特定主题矩阵U_p的每一列和P个主题-文档矩阵V_p的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

使用所述规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p计算所述目标函数是否已最小化；

若所述目标函数尚未最小化，则重新执行上述三个步骤直至所述目标函数最小化。

3.根据权利要求2所述的方法，其特征在于，所述使用所述词-文档矩阵D、上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p进行迭代更新，得到更新后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p，包括：

其中，所述P代表各个类别，所述所述|| ||_F表示弗罗贝尼乌斯范数，所述D_p表示对应于类别C_p的词-文档矩阵，所述表示H_p的转置矩阵，所述对应所述U_s的共享主题系数，所述U'_p＝[U_s,U_p]，所述V_p ^T表示所述V_P的转置矩阵，所述所述表示U_p的转置矩阵，所述表示W_p的转置矩阵，所述对应所述U_p的特定主题系数，所述所述所述U_l表示与类别C_l对应的词-特定主题矩阵，所述α_p和所述β_l是正则化参数，运算符o是点乘结果,是点除结果,并且是点阵平方。

4.根据权利要求3所述的方法，其特征在于，所述规范化算子是：

其中，

所述Tr(·)表示一个矩阵的迹线，K'＝K_s+K_p，K_s表示共享主题的数目，K_p表示对应于类别C_p的特定主题的数目，N_p表示类别C_p中历史文档的数目，并且和是所述U_s,所述U_p和所述V_p各自等式约束的拉格朗日乘数，所述U_l表示与类别C_l对应的词-特定主题矩阵，所述P代表各个类别，所述所述|| ||_F表示弗罗贝尼乌斯范数，所述D_p表示对应于类别C_p的词-文档矩阵，所述表示U_s的转置矩阵，所述表示所述U_p的转置矩阵，所述α_p和所述β_l是正则化参数。

5.根据权利要求1至4任一所述的方法，其特征在于，所述通过与所述类别C_p对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式v_q，包括：

通过下述公式将所述文档q变换到主题空间上的最优表示形式v_q；

其中，q为所述文档q的向量表示，所述v是所述文档q在所述主题空间上的任何一种表示形式。

6.根据权利要求1所述的方法，其特征在于，所述计算所述主题空间上的最优表示形式v_q和所述v_d之间的相似性，包括：

通过下述公式计算所述主题空间上的最优表示形式v_q和所述v_d之间的相似性；

其中，S_topic(q,d)中的q和d是基于主题的表示方法；

或，

s(q,d)＝γs_topic(q,d)+(1-γ)s_term(q,d)；

其中，参数γ∈[0,1]，所述S_topic(q,d)中的q和d是基于主题的表示方法，所述S_term(q,d)中的q和d是基于词袋的表示方法。

7.一种文档查询装置，其特征在于，所述装置包括：

计算相似性单元，用于对于与所述类别C_p对应的主题-文档矩阵V_p中的每一列v_d，计算所述主题空间上的最优表示形式v_q和所述v_d之间的相似性，所述主题-文档矩阵V_p中的每一列对应一个历史文档，所述v_d是一个历史文档在所述V_p中按列索引的表示；

得出相似文档单元，用于根据所述相似性由高到低的顺序得出与所述文档q相似的历史文档；

其中，所述词-主题矩阵和所述主题-文档矩阵V_p是对各个历史文档按照预定类别进行组非负矩阵分解GNMFNC所得到的矩阵；

所述装置，还包括：

历史文档表示模块，用于将各个历史文档表示为词-文档矩阵D，所述词-文档矩阵D中的每一行代表一个词，每一列代表一个历史文档，所述历史文档对应P个类别；

初始化矩阵单元，用于获取初始化的词-共享主题矩阵U_s、P个初始化的词-特定主题矩阵U_p和P个初始化的主题-文档矩阵V_p；其中，所述共享主题是所有类别所共享的主题，所述特定主题是一个类别所特有的主题；

确定矩阵单元，用于根据所述词-文档矩阵D、所述初始化的词-共享主题矩阵U_s、P个所述初始化的词-特定主题矩阵U_p和P个所述初始化的主题-文档矩阵V_p确定出使目标函数最小的所述词-共享主题矩阵U_s、P个所述词-特定主题矩阵U_p和P个所述主题-文档矩阵V_p；

所述目标函数是：

其中，

所述U_l表示与所述类别C_l对应的词-特定主题矩阵，所述P代表不同类别，所述所述|| ||_F表示弗罗贝尼乌斯范数，所述D_p表示对应于类别C_p的词-文档矩阵，所述表示U_s的转置矩阵，所述表示U_p的转置矩阵，K_s表示共享主题的数目，K_p表示对应于类别C_p的特定主题的数目，M表示词的数目，N_p表示类别C_p中历史文档的数目，所述α_p和所述β_l是正则化参数，

8.根据权利要求7所述的装置，其特征在于，所述确定矩阵单元，包括：

迭代更新子单元，用于使用所述词-文档矩阵D、上一次得到的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p进行迭代更新，得到更新后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

规范化矩阵子单元，用于使用规范化算子对所述更新后的词-共享主题矩阵U_s的每一列、P个词-特定主题矩阵U_p的每一列和P个主题-文档矩阵V_p的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p；

计算矩阵子单元，用于使用所述规范化后的词-共享主题矩阵U_s、P个词-特定主题矩阵U_p和P个主题-文档矩阵V_p计算所述目标函数是否已最小化；

重新执行子单元，用于若所述目标函数尚未最小化，则重新执行上述三个步骤直至所述目标函数最小化。

9.根据权利要求8所述的装置，其特征在于，所述迭代更新子单元，用于：

10.根据权利要求9所述的装置，其特征在于，所述规范化算子是：

其中，

11.根据权利要求7至10任一所述的装置，其特征在于，所述变换文档模块，用于通过下述公式将所述文档q变换到主题空间上的最优表示形式v_q；

12.根据权利要求7所述的装置，其特征在于，所述计算相似单元，包括：

第一计算子单元，用于通过下述公式计算所述主题空间上的最优表示形式v_q和所述v_d之间的相似性；

其中，S_topic(q,d)中的q和d是基于主题的表示子单元；

或，

第二计算子单元，用于通过下述公式计算所述主题空间上的最优表示形式v_q和所述v_d之间的相似性；

s(q,d)＝γs_topic(q,d)+(1-γ)s_term(q,d)；

其中，参数γ∈[0,1]，所述S_topic(q,d)中的q和d是基于主题的表示子单元，所述S_term(q,d)中的q和d是基于词袋的表示子单元。