CN104239402B - 文档查询方法及装置 - Google Patents

文档查询方法及装置 Download PDF

Info

Publication number
CN104239402B
CN104239402B CN201410353033.4A CN201410353033A CN104239402B CN 104239402 B CN104239402 B CN 104239402B CN 201410353033 A CN201410353033 A CN 201410353033A CN 104239402 B CN104239402 B CN 104239402B
Authority
CN
China
Prior art keywords
matrix
theme
document
word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410353033.4A
Other languages
English (en)
Other versions
CN104239402A (zh
Inventor
周光有
蒋杰
王巨宏
薛伟
管刚
赵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Tencent Cyber Tianjin Co Ltd filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410353033.4A priority Critical patent/CN104239402B/zh
Publication of CN104239402A publication Critical patent/CN104239402A/zh
Application granted granted Critical
Publication of CN104239402B publication Critical patent/CN104239402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档查询方法及装置,属于数据查询领域。所述方法包括:通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词‑主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题‑文档矩阵Vp中查询与该文档q相似的历史文档;其中,词‑主题矩阵和主题‑文档矩阵Vp是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵;本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题;达到了通过词‑主题矩阵和主题‑文档矩阵Vp来进行文档查询,提高了查询的准确率,优化了文档查询的结果。

Description

文档查询方法及装置
技术领域
本发明涉及数据查询领域,特别涉及一种文档查询方法及装置。
背景技术
CQA(Community question answering,社区问答)已经成为了网络上一个重要的信息资源。常见的社区问答网站有Yahoo!Answers(雅虎问答)、Quora网站和知乎网站。
在社区问答网站中有大规模的历史问题及答案,在用户提出一个新问题时,使用这些历史问题及答案来帮助用户解答问题是非常有效的方式。目前的一种查询方法,包括:用户向服务器输入一个问题;服务器将该问题中的关键字提取出来,然后根据该关键字在历史问题中查询相关联的历史问题;服务器将查询到的历史问题及答案反馈给用户,用户可以根据这些历史问题及答案来获取需要的信息。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:由于问题中的关键字与该问题的实际含义并不一定是强相关的,所以上述查询方法查询到的历史问题并不一定符合用户的预期,查询准确率较低。
发明内容
为了解决目前查询历史文档不一定符合用户预期,查询准确率较低的问题,本发明实施例提供了一种文档查询方法及装置。所述技术方案如下:
第一方面,提供了一种文档查询方法,所述方法包括:
获取待查询的文档q和所述文档q对应的类别Cp
通过与所述类别Cp对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式vq,所述词-主题矩阵包括词和主题之间的对应关系;
根据所述vq在与所述类别Cp对应的主题-文档矩阵Vp中查询与所述文档q相似的历史文档,所述主题-文档矩阵Vp中的每一列对应一个历史文档;
其中,所述词-主题矩阵和所述主题-文档矩阵Vp是对各个历史文档按照不同类别进行组非负矩阵分解GNMFNC所得到的矩阵。
第二方面,提供了一种文档查询装置,所述装置包括:
获取文档模块,用于获取待查询的文档q和所述文档q对应的类别Cp
变换文档模块,用于通过与所述类别Cp对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式vq,所述词-主题矩阵包括词和主题之间的对应关系;
查询文档模块,用于根据所述vq在与所述类别Cp对应的主题-文档矩阵Vp中查询与所述文档q相似的历史文档,所述主题-文档矩阵Vp中的每一列对应一个历史文档;
其中,所述词-主题矩阵和所述主题-文档矩阵Vp是对各个历史文档按照不同类别进行组非负矩阵分解GNMFNC所得到的矩阵。
本发明实施例提供的技术方案带来的有益效果是:
通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;解决了目前查询历史文档不一定符合用户预期的问题;达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询,提高了查询的准确率,优化了文档查询的结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的文档查询方法的方法流程图;
图2是本发明另一个实施例提供的文档查询方法的方法流程图;
图3是本发明另一个实施例提供的文档查询方法所涉及的分解矩阵方法的方法流程图;
图4是本发明另一个实施例提供的文档查询方法所涉及的使目标函数最小方法的方法流程图;
图5是本发明另一个实施例提供的文档查询方法所涉及的查询历史文档方法的方法流程图;
图6是本发明一个实施例提供的文档查询装置的结构方框图;
图7是本发明另一个实施例提供的文档查询装置的结构方框图;
图8是本发明另一个实施例提供的文档查询装置所涉及的分解矩阵方法装置的结构流程图;
图9是本发明另一个实施例提供的文档查询装置所涉及的使确定矩阵的结构方框图;
图10是本发明另一个实施例提供的文档查询装置所涉及的查询历史文档装置的结构方框图;
图11是本发明另一个实施例提供的文档查询装置所涉及的计算相似性的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
首先对本发明实施例中所涉及的基本概念进行阐述:
社区问答档案:社区问答网站中所有历史文档的集合。常见的社区问答网站有Yahoo!Answers(雅虎问答)、Quora网站和知乎网站。
文档:由多个字符构成的文本语义集合。在社区问答档案中,一个问题就可以视为一个历史文档。此外,用户输入的新问题也视为文档。比如:问题“2014年最好看的电影有哪些”,就可以视为一个文档。又比如:问题“你最喜欢的书籍是什么,理由是什么?”,就可以视为另外一个文档。当然,在不同的领域中,文档的表现形式不局限于“问题”这一种形式。
类别:用于对文档进行分类的类别。在社区问答档案中,比如在雅虎问答网站中,所有问题都被划分至26个类别下进行存储,每个类别还可以包括子类别。该26个类别可以包括:电影、美食、互联网、阅读等。类别是社区问答档案组织时的主要层次结构。
由于不同类别下的文档通常会涉及一些通用的主题,而每个类别下的文档通常都还有自身特定的主题。主题可以认为是文档实际含义的一种聚类。为了利用在不同类别下的文档所涉及的这些共享主题和特定主题来帮助检索,本发明中引入了GNMFNC(GroupNon-negative Matrix Factorization,组非负矩阵分解)来对历史文档所对应的词-文档矩阵进行分解。简单来讲,本发明包括两个阶段:
1、预处理阶段:
将不同类别下的各个历史文档表示为词-文档矩阵,然后将该词-文档矩阵通过组非负矩阵分解,分解得到词-主题矩阵和主题-文档矩阵。其中,词-主题矩阵包括词和主题之间的对应关系,可以分为词-共享主题矩阵和词-特定主题矩阵两种。每个主题-文档矩阵表示一个类别所对应的主题空间,该主题-文档矩阵中的每一列对应一个历史文档。
2、查询阶段。
在用户输入一个文档后,利用预处理阶段得到的词-主题矩阵和主题-文档矩阵进行文档查询,得到与该文档最接近的历史文档。
请参考图1,其示出了本发明一个实施例提供的文档查询方法的方法流程图。本实施例以仅包括查询阶段来举例说明。该方法,包括:
步骤102,获取待查询的文档q和该文档q对应的类别Cp
步骤104,通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq,该词-主题矩阵包括词和主题之间的对应关系;
步骤106,根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档,主题-文档矩阵Vp中的每一列对应一个历史文档。
其中,词-主题矩阵和主题-文档矩阵Vp是预先将各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵。
综上所述,本实施例提供的文档查询方法,通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;解决了目前查询历史文档不一定符合用户预期的问题;达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询,提高了查询的准确率,优化了文档查询的结果。
请参考图2,其示出了本发明另一个实施例提供的文档查询方法的方法流程图。本实施例以同时包括预处理过程和查询过程来举例说明,其中预处理过程可以只执行一次,而查询过程可以执行多次。该方法,包括:
一、预处理过程:
步骤201,将各个历史文档表示为词-文档矩阵D,词-文档矩阵D中的每一行代表一个词,每一列代表一个历史文档,历史文档对应P个类别;
各个历史文档可以是社区问答档案中的历史文档。比如,将社区问答档案中的每个历史问题都作为一个历史文档。
关于将社区问答档案中的历史文档表示为词-文档矩阵D的方式,本实施例不作具体限定。按照不同的类别,词-文档矩阵D可以表示为{D1,D2,…,Dp},是对应于类别Cp的术语问题矩阵,每一行代表一个词,每一列代表一个问题。Np是类别Cp中问题的数量,这样
作为一种可能的实现方式,从各个历史文档中选取检索词,将检索词作为词-文档矩阵D的行,将各个历史文档作为词-文档矩阵D的列,将检索词在各个历史文档中的TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)值作为词-文档矩阵D中与该词及历史文档对应的元素的值,从而将各个历史文档表示为词-文档矩阵D。其中,检索词可以为每个历史文档中出现次数较多的词,TF-IDF值为检索词的词频与检索词的逆向文件频率的乘积;词频为检索词在历史文档中出现的次数,检索词的逆向文件频率的计算公式为:lg(所有历史文档的文档数/出现该检索词的历史文档数),lg表示以10为底的常用对数。由于出现该检索词的历史文档数可能为零,导致上述检索词的逆向文件频率的计算公式中的分母为零,则实际应用中,还可使用公式:lg(所有历史文档的文档数/(出现该检索词的历史文档数+1)),计算检索词的逆向文件频率,本实施例不对检索词的逆向文件频率的计算方式进行限定。
为了便于理解,以某一类别下的历史文档包括历史文档1至历史文档5为例进行说明。从各个历史文档中选取检索词:检索词1至检索词4;在历史文档1中,检索词1至检索词4出现的次数分别为2、0、0及2;在历史文档2中,检索词1至检索词4出现的次数分别为1、2、0及0;在历史文档3中,检索词1至检索词4出现的次数分别为1、0、0及0;在历史文档4中,检索词1至检索词4出现的次数分别为0、0、0及0;在历史文档5中,检索词1至检索词4出现的次数分别为0、2、1及1。因此,在历史文档1中,检索词1至检索词4的词频分别为2、0、0及2;在历史文档2中,检索词1至检索词4的词频分别1、2、0及0;在历史文档3中,检索词1至检索词4的词频分别1、0、0及0;在文档4中,检索词1至检索词4的词频分别0、0、0及0;在历史文档5中,检索词1至检索词4的词频分别0、2、1及1。通过计算可知,检索词1至检索词4的逆向文件频率分别为0.22、0.22、0.40、0.40及0.10,进而得到检索词1在历史文档1至历史文档5中的TF-IDF值分别为0.44、0.22、0.22、0及0,检索词2在历史文档1至历史文档5中的TF-IDF值分别为0、0.44、0、0及0.44,检索词3在历史文档1至历史文档5中的TF-IDF值分别为0、0、0、0及0.40,检索词4在历史文档1至历史文档5中的TF-IDF值分别为0.2、0、0、0及0.1。根据各个检索词在各个历史文档的TF-IDF值可得到如下所示的词-文档矩阵D。该词-文档矩阵D为4*5的矩阵,词-文档矩阵D的行表示检索词1至检索词4,词-文档矩阵D的列表示历史文档1至历史文档5,矩阵中的任一元素xij表示检索词i在历史文档j中的TF-IDF值,1≤i≤4,1≤j≤5,i和j均为整数。
本发明实施例提供的方法根据历史文档中的检索词获取词-文档矩阵D。又由于词-文档矩阵为非负,使得矩阵中的每个元素具有实际意义,方便后续的组非负矩阵分解过程。
步骤202,将词-文档矩阵D通过组非负矩阵分解GNMFNC分解得到1个词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
词-共享主题矩阵Us、P个词-特定主题矩阵Up可以统称为词-主题矩阵。所有类别对应同一个词-共享主题矩阵Us、每个类别单独对应一个词-特定主题矩阵Up。其中,共享主题是所有类别所共享的主题,特定主题是一个类别所特有的主题。
具体来讲,本步骤可以包括如下子步骤,如图3所示:
步骤202A,获取初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp
关于词-共享主题矩阵Us、词-特定主题矩阵Up和主题-文档矩阵Vp的初始化,本发明实施例不做具体限定。作为一种可能的实现方式时,可以使用随机非负值进行填充得到初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp
步骤202B,根据词-文档矩阵D、初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp确定出使目标函数最小的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
作为一种可能的实现方式,请参考图4,根据词-文档矩阵D、初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp确定出使目标函数最小的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp,包括:
步骤202Ba,使用词-文档矩阵D、上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp进行迭代更新,得到更新后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
需要说明的是,在第1次迭代时,上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp即为初始化的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp;在第i次迭代(i>1)时,上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp为第i-1次获取到的更新的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
其中,各个矩阵迭代更新的方法包括但不限于:
使用下述公式对上一次得到的词-共享主题矩阵Us进行迭代更新;
使用下述公式对上一次得到的词-特定主题矩阵Up进行迭代更新;
使用下述公式对上一次得到的主题-文档矩阵Vp进行迭代更新;
其中,Us表示词-共享主题矩阵,Up表示与类别Cp对应的词-特定主题矩阵,VP表示主题-文档矩阵,P代表各个类别,|| ||F表示弗罗贝尼乌斯范数,Dp表示对应于类别Cp的词-文档矩阵,表示Hp的转置矩阵,对应Us的共享主题系数,U'p=[Us,Up],Vp T表示VP的转置矩阵, 表示Up的转置矩阵,表示Wp的转置矩阵,对应Up的特定主题系数,Ul表示与类别Cl对应的词-特定主题矩阵,αp和βl是正则化参数,运算符o是点乘结果,是点除结果,并且是点阵平方。
步骤202Bb,使用规范化算子对更新后的词-共享主题矩阵Us的每一列、P个词-特定主题矩阵Up的每一列和P个主题-文档矩阵Vp的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
其中,所指的规范化算子是:
其中,
Τr(·)表示一个矩阵的迹线,K'=Ks+Kp,Ks表示共享主题的数目,Kp表示对应于类别P的特定主题的数目,Np表示类别P中文档的数目,并且是Us、Up和Vp各自等式约束的拉格朗日乘数,Us表示词-共享主题矩阵,Up表示与类别Cp对应的词-特定主题矩阵,Ul表示与类别Cl对应的词-特定主题矩阵,VP表示主题-文档矩阵,P代表各个类别,|| ||F表示弗罗贝尼乌斯范数,Dp表示对应于类别Cp的词-文档矩阵,表示Us的转置矩阵,表示Up的转置矩阵,αp和βl是正则化参数。
步骤202Bc,使用规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp计算目标函数是否已最小化;
作为一种可能的实现方式,根据规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp计算的目标函数为:
其中,
Us表示词-共享主题矩阵,Up表示与类别Cp对应的词-特定主题矩阵,Ul表示与类别Cl对应的词-特定主题矩阵,VP表示主题-文档矩阵,P代表各个类别,|| ||F表示弗罗贝尼乌斯范数,Dp表示对应于类别Cp的词-文档矩阵,表示Us的转置矩阵,表示Up的转置矩阵,Ks表示共享主题的数目,Kp表示对应于类别Cp的特定主题的数目,M表示词的数目,Np表示类别Cp中历史文档的数目,αp和βl是正则化参数,s.t.表示“满足于”。
步骤202Bd,若目标函数尚未最小化,则重新执行上述三个步骤直至该目标函数最小化,从而得出使该目标函数最小的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
上述步骤201和步骤202的具体算法可以参考如下:
其中,均为预设的参数,Iter表示迭代的数量。需要说明的是,合理地采用αp和βl的取值,可以优化迭代过程的收敛速度。作为一种可能的实现方式,
因此,可以通过网格搜索调整共同参数a来设置αp和βl的取值。比如,设置a=100,使得αp=βl=0.625。
需要说明的另一点是,Ks和Kp的取值也会影响计算的复杂度,合理地预设Ks和Kp的取值可以提高计算速度。优选地,Ks可以设置范围为区间[10,30]和Kp的设置范围在[5,15]。
二、查询过程:
步骤203,获取待查询的文档q和该文档q对应的类别Cp
在用户需要查询时,向服务器提供待查询的文档q和该文档q对应的类别Cp
步骤204,通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq,该词-主题矩阵包括词和主题之间的对应关系;
其中,词-主题矩阵包括词-共享主题矩阵Us、与类别Cp对应的词-特定主题矩阵Up
作为一种可能的实现方式,通过下述公式将文档q变换到主题空间上的最优表示形式vq
其中,q为文档q的向量表示,Us是词-共享主题矩阵,Up是与类别Cp对应的词-特定主题矩阵,v是文档q在主题空间上的任何一种表示形式。
其中,将文档q表示向量q的过程可以是:使用各个检索词在文档q的TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆向文件频率)值来得到向量q,与步骤201中将历史文档表示为词-文档矩阵的过程类似,此处不再赘述。
步骤205,根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档,主题-文档矩阵Vp中的每一列对应一个历史文档。
具体来讲,本步骤可以包括如下两个子步骤,如图5所示:
步骤205a,对于与类别Cp对应的主题-文档矩阵Vp中的每一列vd,计算主题空间上的最优表示形式vq和vd之间的相似性,vd是一个历史文档d在Vp中按列索引的表示。也即,Vp中包括总共r列时,vd=r-d对应的列的列号。
由于之前已经将待查询文档q变换到主题空间上,将其表示为该主题空间上的最优表示形式vq,而vd是一个历史文档在Vp中按列索引的表示,故可以在主题空间上进行计算,得出vq和vd之间的相似性。
在vq和vd之间的相似性的计算,包括以下两种方法:
方法一:通过下述公式计算主题空间上的最优表示形式vq和vd之间的相似性;
其中,Stopic(q,d)中的q和d是基于主题的表示方法;
或,
方法二:通过下述公式计算主题空间上的最优表示形式vq和vd之间的相似性;
s(q,d)=γstopic(q,d)+(1-γ)sterm(q,d);
其中,参数γ∈[0,1],Stopic(q,d)中的q和d是基于主题的表示方法,Sterm(q,d)中的q和d是基于词袋的表示方法。
参数γ的一个优选取值为0.6。
步骤205b,根据相似性由高到低的顺序得出与该文档q相似的历史文档。
由于与类别Cp对应的主题-文档矩阵Vp中的每一列vd都与该最优表示形式vq计算其相似性,故存在多个相似性结果,将其由高到低进行排序,排在最前面的则是与该待查询文档q最相似的历史文档,可以选取top1或topN个历史文档作为查询结果,并反馈给用户。
综上所述,本实施例提供的文档查询方法,通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;解决了目前查询历史文档不一定符合用户预期的问题;达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询,利用了相同主题的文档的含义具有相似性的特点,提高了查询的准确率,优化了文档查询的结果。
本实施例还通过目标函数的不断迭代更新,让目标函数最小化,能够通过组非负矩阵分解GNMFNC得到较优的词-共享主题矩阵Us、词-特定主题矩阵Up和主题-文档矩阵Vp,以便使得查询过程能够得到较好的查询结果
本实施例还通过合理地采用αp和βl的取值,可以优化迭代过程快速向目标函数收敛,并且确保Us只捕获共享主题,Up只捕获特定主题。
本实施例还通过合理地预设Ks和Kp的取值,在保证查询质量的前提下,降低计算复杂度,提高计算速度。
需要说明的是,上述预处理过程和查询过程可以由相同或不同的执行主体单独执行,比如由服务器A执行预处理过程,服务器B利用服务器A的分解结果来执行查询过程。
请参考图6,其示出了本发明一个实施例提供的文档查询装置的结构方框图。该装置600,包括:
获取文档模块620,用于获取待查询的文档q和该文档q对应的类别Cp
变换文档模块640,用于通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq,该词-主题矩阵包括词和主题之间的对应关系;
查询文档模块660,用于根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档,主题-文档矩阵Vp中的每一列对应一个历史文档。
其中,词-主题矩阵和主题-文档矩阵Vp是预先将各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵。
综上所述,本实施例提供的文档查询装置,通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;解决了目前查询历史文档不一定符合用户预期的问题;达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询,提高了查询的准确率,优化了文档查询的结果。
请参考图7,其示出了本发明另一个实施例提供的文档查询装置的结构方框图。该装置,包括:
历史文档表示模块710,用于将各个历史文档表示为词-文档矩阵D,词-文档矩阵D中的每一行代表一个词,每一列代表一个历史文档,历史文档对应P个类别。
分解矩阵模块720,用于将词-文档矩阵D通过组非负矩阵分解GNMFNC分解得到1个词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
词-共享主题矩阵Us、P个词-特定主题矩阵Up可以统称为词-主题矩阵。所有类别对应同一个词-共享主题矩阵Us、每个类别单独对应一个词-特定主题矩阵Up。其中,共享主题是所有类别所共享的主题,特定主题是一个类别所特有的主题。
具体来讲,分解矩阵模块720可以包括如下单元,如图8所示:
初始化矩阵单元720A,用于获取初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp
确定矩阵单元720B,用于根据词-文档矩阵D、初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp确定出使目标函数最小的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
作为一种可能的实现方式,请参考图9,确定矩阵单元720B,包括:
迭代更新子单元720Ba,用于使用词-文档矩阵D、上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp进行迭代更新,得到更新后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
需要说明的是,在第1次迭代时,上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp即为初始化的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp;在第i次迭代(i>1)时,上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp为第i-1次获取到的更新的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
迭代更新子单元720Ba,用于使用下述公式对上一次得到的词-共享主题矩阵Us进行迭代更新;
使用下述公式对上一次得到的词-特定主题矩阵Up进行迭代更新;
使用下述公式对上一次得到的主题-文档矩阵Vp进行迭代更新;
其中,Us表示词-共享主题矩阵,Up表示与类别Cp对应的词-特定主题矩阵,VP表示主题-文档矩阵,P代表各个类别,|| ||F表示弗罗贝尼乌斯范数,Dp表示对应于类别Cp的词-文档矩阵,表示Hp的转置矩阵,对应Us的共享主题系数,U'p=[Us,Up],Vp T表示VP的转置矩阵, 表示Up的转置矩阵,表示Wp的转置矩阵,对应Up的特定主题系数,Ul表示与类别Cl对应的词-特定主题矩阵,αp和βl是正则化参数,运算符o是点乘结果,是点除结果,并且是点阵平方。
规范化矩阵子单元720Bb,用于使用规范化算子对更新后的词-共享主题矩阵Us的每一列、P个词-特定主题矩阵Up的每一列和P个主题-文档矩阵Vp的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
其中,所指的规范化算子是:
其中,
Τr(·)表示一个矩阵的迹线,K'=Ks+Kp,Ks表示共享主题的数目,Kp表示对应于类别P的特定主题的数目,Np表示类别P中文档的数目,并且是Us、Up和Vp各自等式约束的拉格朗日乘数,Us表示词-共享主题矩阵,Up表示与类别Cp对应的词-特定主题矩阵,Ul表示与类别Cl对应的词-特定主题矩阵,VP表示主题-文档矩阵,P代表各个类别,|| ||F表示弗罗贝尼乌斯范数,Dp表示对应于类别Cp的词-文档矩阵,表示Us的转置矩阵,表示Up的转置矩阵,αp和βl是正则化参数。
计算矩阵子单元720Bc,用于使用规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp计算目标函数是否已最小化;
作为一种可能的实现方式,本实施例中采用的目标函数为:
其中,
Us表示词-共享主题矩阵,Up表示与类别Cp对应的词-特定主题矩阵,Ul表示与类别Cl对应的词-特定主题矩阵,VP表示主题-文档矩阵,P代表各个类别,|| ||F表示弗罗贝尼乌斯范数,Dp表示对应于类别Cp的词-文档矩阵,表示Us的转置矩阵,表示Up的转置矩阵,Ks表示共享主题的数目,Kp表示对应于类别Cp的特定主题的数目,M表示词的数目,Np表示类别Cp中历史文档的数目,αp和βl是正则化参数,s.t.表示“满足于”。
需要说明的是,合理地采用αp和βl的取值,可以优化目标函数的快速收敛。
作为一种可能的实现方式,
因此,可以通过网格搜索调整共同参数a来设置αp和βl的取值。
需要说明的另一点是,Ks和Kp的取值也会影响计算的复杂度,合理地预设Ks和Kp的取值可以提高计算速度。优选地,Ks的设置区间可以是[10,30]和Kp的设置区间可以是[5,15]。
重新执行子单元720Bd,用于若目标函数尚未最小化,则重新执行上述三个步骤直至该目标函数最小化,从而得出使该目标函数最小的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
获取文档模块730,用于获取待查询的文档q和该文档q对应的类别Cp
变换文档模块740,用于通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq,该词-主题矩阵包括词和主题之间的对应关系;
其中,词-主题矩阵包括词-共享主题矩阵Us、与类别Cp对应的词-特定主题矩阵Up
变换文档模块740,用于通过下述公式将文档q变换到主题空间上的最优表示形式vq
其中,q为文档q的向量表示,Us是词-共享主题矩阵,Up是与类别Cp对应的词-特定主题矩阵,v是文档q在主题空间上的任何一种表示形式。
查询文档模块750,用于根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档,主题-文档矩阵Vp中的每一列对应一个历史文档。
查询文档模块750包括计算相似性单元750A和得出相似文档单元750B,请参考图10;
计算相似性单元750A,用于对于与类别Cp对应的主题-文档矩阵Vp中的每一列vd,计算主题空间上的最优表示形式vq和vd之间的相似性,vd是一个历史文档d在Vp中按列索引的表示。也即,Vp中包括总共r列时,vd=r-d对应的列的列号。
计算相似性单元750A,可以包括以下两个子单元,参考图11:
第一计算子单元750Aa,用于通过下述公式计算主题空间上的最优表示形式vq和vd之间的相似性;
其中,Stopic(q,d)中的q和d是基于主题的表示方法;
或,
第二计算子单元750Ab,用于通过下述公式计算主题空间上的最优表示形式vq和vd之间的相似性;
s(q,d)=γstopic(q,d)+(1-γ)sterm(q,d);
其中,参数γ∈[0,1],Stopic(q,d)中的q和d是基于主题的表示方法,Sterm(q,d)中的q和d是基于词袋的表示方法。
参数γ的一个优选取值为0.6。
得出相似文档单元750B,用于根据相似性由高到低的顺序得出与该文档q相似的历史文档。
综上所述,本实施例提供的文档查询装置,通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;解决了目前查询历史文档不一定符合用户预期的问题;达到了根据词-主题矩阵和主题-文档矩阵来进行文档查询,利用了相同主题的文档的含义具有相似性的特点,提高了查询的准确率,优化了文档查询的结果。
本实施例还通过目标函数的不断迭代更新,让目标函数最小化,能够通过组非负矩阵分解GNMFNC得到较优的词-共享主题矩阵Us、词-特定主题矩阵Up和主题-文档矩阵Vp,以便使得查询过程能够得到较好的查询结果。
本实施例还通过合理地采用αp和βl的取值,可以优化迭代过程快速向目标函数收敛,并且确保Us只捕获共享主题,Up只捕获特定主题。
本实施例还通过合理地预设Ks和Kp的取值,在保证查询质量的前提下,降低计算复杂度,提高计算速度。
需要说明的是:上述实施例提供的文档查询装置在查询文档时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文档查询装置与文档查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种文档查询方法,其特征在于,所述方法包括:
获取待查询的文档q和所述文档q对应的类别Cp
通过与所述类别Cp对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式vq,所述词-主题矩阵包括词和主题之间的对应关系;
对于与所述类别Cp对应的主题-文档矩阵Vp中的每一列vd,计算所述主题空间上的最优表示形式vq和所述vd之间的相似性,所述主题-文档矩阵Vp中的每一列对应一个历史文档,所述vd是一个历史文档在所述Vp中按列索引的表示;
根据所述相似性由高到低的顺序得出与所述文档q相似的历史文档;
其中,所述词-主题矩阵和所述主题-文档矩阵Vp是对各个历史文档按照不同类别进行组非负矩阵分解GNMFNC所得到的矩阵;
所述通过与所述类别Cp对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式vq之前,还包括:
将各个历史文档表示为词-文档矩阵D,所述词-文档矩阵D中的每一行代表一个词,每一列代表一个历史文档,所述历史文档对应P个类别;
获取初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp;其中,所述共享主题是所有类别所共享的主题,所述特定主题是一个类别所特有的主题;
根据所述词-文档矩阵D、所述初始化的词-共享主题矩阵Us、P个所述初始化的词-特定主题矩阵Up和P个所述初始化的主题-文档矩阵Vp确定出使目标函数最小的所述词-共享主题矩阵Us、P个所述词-特定主题矩阵Up和P个所述主题-文档矩阵Vp
所述目标函数是:
其中,
所述Ul表示与类别Cl对应的词-特定主题矩阵,所述P代表各个类别,所述所述|| ||F表示弗罗贝尼乌斯范数,所述Dp表示对应于类别Cp的词-文档矩阵,所述表示Us的转置矩阵,所述表示Up的转置矩阵,Ks表示共享主题的数目,Kp表示对应于类别Cp的特定主题的数目,M表示词的数目,Np表示类别Cp中历史文档的数目,所述αp和所述βl是正则化参数,
2.根据权利要求1所述的方法,其特征在于,所述根据所述词-文档矩阵D、所述初始化的词-共享主题矩阵Us、P个所述初始化的词-特定主题矩阵Up和P个所述初始化的主题-文档矩阵Vp确定出使目标函数最小的所述词-共享主题矩阵Us、P个所述词-特定主题矩阵Up和P个所述主题-文档矩阵Vp,包括:
使用所述词-文档矩阵D、上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp进行迭代更新,得到更新后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
使用规范化算子对所述更新后的词-共享主题矩阵Us的每一列、P个词-特定主题矩阵Up的每一列和P个主题-文档矩阵Vp的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
使用所述规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp计算所述目标函数是否已最小化;
若所述目标函数尚未最小化,则重新执行上述三个步骤直至所述目标函数最小化。
3.根据权利要求2所述的方法,其特征在于,所述使用所述词-文档矩阵D、上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp进行迭代更新,得到更新后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp,包括:
使用下述公式对上一次得到的词-共享主题矩阵Us进行迭代更新;
使用下述公式对上一次得到的词-特定主题矩阵Up进行迭代更新;
使用下述公式对上一次得到的主题-文档矩阵Vp进行迭代更新;
其中,所述P代表各个类别,所述所述|| ||F表示弗罗贝尼乌斯范数,所述Dp表示对应于类别Cp的词-文档矩阵,所述表示Hp的转置矩阵,所述对应所述Us的共享主题系数,所述U'p=[Us,Up],所述Vp T表示所述VP的转置矩阵,所述所述表示Up的转置矩阵,所述表示Wp的转置矩阵,所述对应所述Up的特定主题系数,所述所述所述Ul表示与类别Cl对应的词-特定主题矩阵,所述αp和所述βl是正则化参数,运算符o是点乘结果,是点除结果,并且是点阵平方。
4.根据权利要求3所述的方法,其特征在于,所述规范化算子是:
其中,
所述Tr(·)表示一个矩阵的迹线,K'=Ks+Kp,Ks表示共享主题的数目,Kp表示对应于类别Cp的特定主题的数目,Np表示类别Cp中历史文档的数目,并且是所述Us,所述Up和所述Vp各自等式约束的拉格朗日乘数,所述Ul表示与类别Cl对应的词-特定主题矩阵,所述P代表各个类别,所述所述|| ||F表示弗罗贝尼乌斯范数,所述Dp表示对应于类别Cp的词-文档矩阵,所述表示Us的转置矩阵,所述表示所述Up的转置矩阵,所述αp和所述βl是正则化参数。
5.根据权利要求1至4任一所述的方法,其特征在于,所述通过与所述类别Cp对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式vq,包括:
通过下述公式将所述文档q变换到主题空间上的最优表示形式vq
其中,q为所述文档q的向量表示,所述v是所述文档q在所述主题空间上的任何一种表示形式。
6.根据权利要求1所述的方法,其特征在于,所述计算所述主题空间上的最优表示形式vq和所述vd之间的相似性,包括:
通过下述公式计算所述主题空间上的最优表示形式vq和所述vd之间的相似性;
其中,Stopic(q,d)中的q和d是基于主题的表示方法;
或,
通过下述公式计算所述主题空间上的最优表示形式vq和所述vd之间的相似性;
s(q,d)=γstopic(q,d)+(1-γ)sterm(q,d);
其中,参数γ∈[0,1],所述Stopic(q,d)中的q和d是基于主题的表示方法,所述Sterm(q,d)中的q和d是基于词袋的表示方法。
7.一种文档查询装置,其特征在于,所述装置包括:
获取文档模块,用于获取待查询的文档q和所述文档q对应的类别Cp
变换文档模块,用于通过与所述类别Cp对应的词-主题矩阵将所述文档q变换到主题空间上的最优表示形式vq,所述词-主题矩阵包括词和主题之间的对应关系;
计算相似性单元,用于对于与所述类别Cp对应的主题-文档矩阵Vp中的每一列vd,计算所述主题空间上的最优表示形式vq和所述vd之间的相似性,所述主题-文档矩阵Vp中的每一列对应一个历史文档,所述vd是一个历史文档在所述Vp中按列索引的表示;
得出相似文档单元,用于根据所述相似性由高到低的顺序得出与所述文档q相似的历史文档;
其中,所述词-主题矩阵和所述主题-文档矩阵Vp是对各个历史文档按照预定类别进行组非负矩阵分解GNMFNC所得到的矩阵;
所述装置,还包括:
历史文档表示模块,用于将各个历史文档表示为词-文档矩阵D,所述词-文档矩阵D中的每一行代表一个词,每一列代表一个历史文档,所述历史文档对应P个类别;
初始化矩阵单元,用于获取初始化的词-共享主题矩阵Us、P个初始化的词-特定主题矩阵Up和P个初始化的主题-文档矩阵Vp;其中,所述共享主题是所有类别所共享的主题,所述特定主题是一个类别所特有的主题;
确定矩阵单元,用于根据所述词-文档矩阵D、所述初始化的词-共享主题矩阵Us、P个所述初始化的词-特定主题矩阵Up和P个所述初始化的主题-文档矩阵Vp确定出使目标函数最小的所述词-共享主题矩阵Us、P个所述词-特定主题矩阵Up和P个所述主题-文档矩阵Vp
所述目标函数是:
其中,
所述Ul表示与所述类别Cl对应的词-特定主题矩阵,所述P代表不同类别,所述所述|| ||F表示弗罗贝尼乌斯范数,所述Dp表示对应于类别Cp的词-文档矩阵,所述表示Us的转置矩阵,所述表示Up的转置矩阵,Ks表示共享主题的数目,Kp表示对应于类别Cp的特定主题的数目,M表示词的数目,Np表示类别Cp中历史文档的数目,所述αp和所述βl是正则化参数,
8.根据权利要求7所述的装置,其特征在于,所述确定矩阵单元,包括:
迭代更新子单元,用于使用所述词-文档矩阵D、上一次得到的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp进行迭代更新,得到更新后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
规范化矩阵子单元,用于使用规范化算子对所述更新后的词-共享主题矩阵Us的每一列、P个词-特定主题矩阵Up的每一列和P个主题-文档矩阵Vp的转置矩阵的每一列进行规范化,得到规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp
计算矩阵子单元,用于使用所述规范化后的词-共享主题矩阵Us、P个词-特定主题矩阵Up和P个主题-文档矩阵Vp计算所述目标函数是否已最小化;
重新执行子单元,用于若所述目标函数尚未最小化,则重新执行上述三个步骤直至所述目标函数最小化。
9.根据权利要求8所述的装置,其特征在于,所述迭代更新子单元,用于:
使用下述公式对上一次得到的词-共享主题矩阵Us进行迭代更新;
使用下述公式对上一次得到的词-特定主题矩阵Up进行迭代更新;
使用下述公式对上一次得到的主题-文档矩阵Vp进行迭代更新;
其中,所述P代表各个类别,所述所述|| ||F表示弗罗贝尼乌斯范数,所述Dp表示对应于类别Cp的词-文档矩阵,所述表示Hp的转置矩阵,所述对应所述Us的共享主题系数,所述U'p=[Us,Up],所述Vp T表示所述VP的转置矩阵,所述所述表示Up的转置矩阵,所述表示Wp的转置矩阵,所述对应所述Up的特定主题系数,所述所述所述Ul表示与类别Cl对应的词-特定主题矩阵,所述αp和所述βl是正则化参数,运算符o是点乘结果,是点除结果,并且是点阵平方。
10.根据权利要求9所述的装置,其特征在于,所述规范化算子是:
其中,
所述Tr(·)表示一个矩阵的迹线,K'=Ks+Kp,Ks表示共享主题的数目,Kp表示对应于类别Cp的特定主题的数目,Np表示类别Cp中历史文档的数目,并且是所述Us,所述Up和所述Vp各自等式约束的拉格朗日乘数,所述Ul表示与类别Cl对应的词-特定主题矩阵,所述P代表各个类别,所述所述|| ||F表示弗罗贝尼乌斯范数,所述Dp表示对应于类别Cp的词-文档矩阵,所述表示Us的转置矩阵,所述表示所述Up的转置矩阵,所述αp和所述βl是正则化参数。
11.根据权利要求7至10任一所述的装置,其特征在于,所述变换文档模块,用于通过下述公式将所述文档q变换到主题空间上的最优表示形式vq
其中,q为所述文档q的向量表示,所述v是所述文档q在所述主题空间上的任何一种表示形式。
12.根据权利要求7所述的装置,其特征在于,所述计算相似单元,包括:
第一计算子单元,用于通过下述公式计算所述主题空间上的最优表示形式vq和所述vd之间的相似性;
其中,Stopic(q,d)中的q和d是基于主题的表示子单元;
或,
第二计算子单元,用于通过下述公式计算所述主题空间上的最优表示形式vq和所述vd之间的相似性;
s(q,d)=γstopic(q,d)+(1-γ)sterm(q,d);
其中,参数γ∈[0,1],所述Stopic(q,d)中的q和d是基于主题的表示子单元,所述Sterm(q,d)中的q和d是基于词袋的表示子单元。
CN201410353033.4A 2014-07-23 2014-07-23 文档查询方法及装置 Active CN104239402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410353033.4A CN104239402B (zh) 2014-07-23 2014-07-23 文档查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410353033.4A CN104239402B (zh) 2014-07-23 2014-07-23 文档查询方法及装置

Publications (2)

Publication Number Publication Date
CN104239402A CN104239402A (zh) 2014-12-24
CN104239402B true CN104239402B (zh) 2017-12-22

Family

ID=52227466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410353033.4A Active CN104239402B (zh) 2014-07-23 2014-07-23 文档查询方法及装置

Country Status (1)

Country Link
CN (1) CN104239402B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095277B (zh) * 2014-05-13 2019-12-03 中国科学院自动化研究所 跨领域观点数据的分类方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907427B2 (en) * 2001-05-22 2005-06-14 International Business Machines Corporation Information retrieval with non-negative matrix factorization
CN103425768A (zh) * 2013-08-07 2013-12-04 浙江商业职业技术学院 一种视觉与语义相似性约束的图像检索方法
CN103870575A (zh) * 2014-03-19 2014-06-18 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置
CN103886066A (zh) * 2014-03-20 2014-06-25 杭州禧颂科技有限公司 一种基于鲁棒非负矩阵分解的图像检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907427B2 (en) * 2001-05-22 2005-06-14 International Business Machines Corporation Information retrieval with non-negative matrix factorization
CN103425768A (zh) * 2013-08-07 2013-12-04 浙江商业职业技术学院 一种视觉与语义相似性约束的图像检索方法
CN103870575A (zh) * 2014-03-19 2014-06-18 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置
CN103886066A (zh) * 2014-03-20 2014-06-25 杭州禧颂科技有限公司 一种基于鲁棒非负矩阵分解的图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Document Clustering Based On Non-negative Matrix Factorization";Wei Xu, Xin Liu, Yihong Gong,;《SIGIR: International ACM SIGIR Conference on Research and Development in Information Retrieval》;20031231;267-273 *

Also Published As

Publication number Publication date
CN104239402A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN108052588B (zh) 一种基于卷积神经网络的文档自动问答系统的构建方法
Balakrishnan et al. Collaborative ranking
Ye et al. Web services classification based on wide & Bi-LSTM model
US8650138B2 (en) Active metric learning device, active metric learning method, and active metric learning program
US10572473B2 (en) Optimized data visualization according to natural language query
US20090265404A1 (en) Fast singular value decomposition for expediting computer analysis system and application thereof
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN105468596A (zh) 图片检索方法和装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN103559192A (zh) 一种基于跨模态稀疏主题建模的跨媒体检索方法
WO2017040209A1 (en) Data preparation for data mining
CN112434134A (zh) 搜索模型训练方法、装置、终端设备及存储介质
Zhou et al. Novel SDDM rating prediction models for recommendation systems
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
CN111079011A (zh) 一种基于深度学习的信息推荐方法
CN104239402B (zh) 文档查询方法及装置
Kumar et al. Parameterization reduction using soft set theory for better decision making
US9069861B2 (en) Query generation system for an information retrieval system
CN113641789B (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
Qin LiFeng et al. Bag of words feature multi-PCA subspace adaptive fusion for cucumber diseases identification.
CN114491122A (zh) 一种用于同类图像检索的图匹配方法
CN113822039A (zh) 近义词挖掘方法及相关设备
Poibeau et al. Generating navigable semantic maps from social sciences corpora
Li et al. A framework of ontology-based knowledge management system
CN113723008B (zh) 基于几何非纠缠变分自动编码器学习几何解耦表示的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant