CN108052636A

CN108052636A - 确定文本主题相关度的方法、装置及终端设备

Info

Publication number: CN108052636A
Application number: CN201711387857.3A
Authority: CN
Inventors: 徐硕; 翟东升; 赖永
Original assignee: Jilin University; Beijing University of Technology
Current assignee: Jilin University; Beijing University of Technology
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-05-18
Anticipated expiration: 2037-12-20
Also published as: CN108052636B

Abstract

本发明实施例提供了一种确定文本主题关联度的方法、装置及终端设备，其中，确定文本主题关联度的方法，包括：根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，第一文献信息为第一文本资源对应的文献信息，第二文献信息为第二文本资源对应的文献信息；通过预设的实体‑主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题；基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度。能够确定存在异构性的文本资源之间的主题关联度。

Description

确定文本主题相关度的方法、装置及终端设备

技术领域

本发明涉及数据挖掘与分析技术领域，具体而言，本发明涉及一种确定文本主题相关度的方法、装置及终端设备。

背景技术

文本型信息资源是指以文字的方式记录在各种载体上的知识和信息资源，它包括图书、期刊、报纸、专利、标准、会议录、政府出版物、学位论文、政策文件、产品资料、科技报告、网页以及科技档案等。尽管这些信息资源具有传递知识、积累经验、交流思想与感情以及提供科学情报等共性功能，但是每种信息资源还有各自独特的功能，从而导致这些信息资源在表述、目的、质量、颗粒度等方面存在异构性。比如，期刊、会议录和学位论文通常被用于测度基础科学研究活动的水平，而专利被用于测度产业技术的创新水平；政策文件和政府出版物一般比较宏观，颗粒度比较粗，而期刊、专利和学位论文等资源一般比较微观，颗粒度比较细。

任何领域通常都会涉及多种类型的信息资源，每种资源被认为从不同视角对该领域进行刻画，如果可以将多种信息资源进行深度融合分析，将能够更加全面地反映相应领域的全貌。然而，由于各种资源间存在的异构性，使得文本型信息资源的深度有机融合分析变得极为困难，于是，如何有效地确定或分析某一领域的任意两种文本型信息资源之间的主题关联度，成为本领域技术人员面临的一个技术难题。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是无法确定某一领域的任意两种文本型信息资源之间的主题关联度的技术缺陷。

本发明的实施例根据一个方面，提供了一种确定文本主题关联度的方法，包括：

根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，所述第一文献信息为第一文本资源对应的文献信息，所述第二文献信息为第二文本资源对应的文献信息；

通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题；

基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述预设处理方式包括以下至少一项：

句子切分；分词；命名实体提取；停用词过滤。

优选地，预设的实体-主题模型包括以下任一项：

条件独立潜狄利克雷分配模型CI-LDA；对应潜狄利克雷分配模型1 CorrLDA1；对应潜狄利克雷分配模型2 CorrLDA2；开关潜狄利克雷分配模型SwitchLDA；纳入类别的对应潜狄利克雷分配模型2 CCorrLDA2。

优选地，若所述预设的实体-主题模型为所述CCorrLDA2，所述基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

基于预设模型推断方法，通过所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题，估计所述CCorrLDA2的模型参数；

根据预设聚类方法，对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类，得到对应的词项聚簇与实体聚簇；

基于所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述预设聚类方法包括以下任一种：

布朗聚类法；词嵌入法；谱特征对齐法。

优选地，所述预设模型推断方法包括以下任一种：

均值场变分法；马尔科夫蒙特卡洛采样；随机变分推断。

优选地，所述基于所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

根据所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵；

确定满足预设约束条件的所述距离矩阵的最小值；

基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

根据所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定所述第一文本资源与所述第二文本资源间的词汇主题的关联流矩阵；

基于所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述基于所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

基于滤除大于预设距离阈值后的所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，在所述确定所述第一文本资源与所述第二文本资源的主题关联强度之后，还包括：

基于预设展示方式，通过可视化界面展示所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述预设展示方式为关联强度图谱展示方式或二分图展示方式。

本发明的实施例根据另一个方面，还提供了一种确定文本主题关联度的装置，包括：

预处理模块，用于根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，所述第一文献信息为第一文本资源对应的文献信息，所述第二文献信息为第二文本资源对应的文献信息；

主题提取模块，用于通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇超主题；

确定模块，用于基于所述第三预设个数的第一词汇超主题词汇主题与所述第四预设个数的第二词汇超主题词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述预设处理方式包括以下至少一项：

句子切分；分词；命名实体提取；停用词过滤。

优选地，预设的实体-主题模型包括以下任一项：

优选地，若所述预设的实体-主题模型为所述CCorrLDA2，所述确定模块包括估计子模块、聚类子模块与关联强度确定子模块；

所述估计子模块，用于基于预设模型推断方法，通过所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题，估计所述CCorrLDA2的模型参数；

所述聚类子模块，用于根据预设聚类方法，对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类，得到对应的词项聚簇与实体聚簇；

所述关联强度确定子模块，用于基于所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述预设聚类方法包括以下任一种：

布朗聚类法；词嵌入法；谱特征对齐法。

优选地，所述预设模型推断方法包括以下任一种：

均值场变分法；马尔科夫蒙特卡洛采样；随机变分推断。

优选地，所述关联强度确定子模块包括距离矩阵子单元、最小值确定子单元与第一确定子单元；

所述距离矩阵确定子单元，用于根据所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵；

所述最小值确定子单元，用于确定满足预设约束条件的所述距离矩阵的最小值；

所述第一确定子单元，用于基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述第一确定子单元包括第二确定子单元与第三确定子单元；

所述第二确定子单元，用于根据所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定所述第一文本资源与所述第二文本资源间的词汇主题的关联流矩阵；

所述第三确定子单元，用于基于所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，所述第三确定子单元具体用于基于滤除大于预设距离阈值后的所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度。

优选地，该装置还包括展示模块；

所述展示模块，用于基于预设展示方式，通过可视化界面展示所述第一文本资源与所述第二文本资源的主题关联强度。

本发明的实施例根据另一个方面，还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的确定文本主题关联度的方法。

本发明实施例提供的确定文本主题关联度的方法，根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，第一文献信息为第一文本资源对应的文献信息，第二文献信息为第二文本资源对应的文献信息，为后续获取预处理后的第一文献信息的第一词汇主题及预处理后的第二文献信息的第二词汇主题提供了前提保障；通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，便于后续基于第一词汇主题与第二词汇主题，对任意两种文本类型的信息资源之间的主题关联度进行分析，进而确定文本之间的主题关联强度；基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度，不仅能够有效地确定异构文本型信息资源之间的主题关联强度，而且极利于异构性文本之间的深度融合分析，从而更加全面地反映了相应领域的全貌，便于异构资源的知识导航。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明第一实施例的确定文本主题关联度的方法的流程示意图；

图2为本发明第一实施例的实体-主题模型CCorrLDA2的概率图模型表示；

图3为本发明本发明第一实施例的论文文本资源的主题情况示意图；

图4为本发明本发明第一实施例的专利文本资源的主题情况示意图；

图5为本发明本发明第一实施例的词项聚簇、词汇主题、实体类别、实体主题及实体聚簇之间网络结构示意图；

图6为本发明第一实施例的异构文本型信息资源主题关联示意图；

图7为本发明第一实施例的论文文本资源与专利文本资源之间的主题关联强度图谱；

图8为本发明二实施例的确定文本主题关联度的装置的基本结构示意图；

图9为本发明二实施例的确定文本主题关联度的装置的详细结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

传统的分析主题关联度的方法，主要有两种思路，一种是从一种资源的引文入手，筛选其中所含的另外一种资源的文献；另一种是分别对两种资源的引文网络进行聚类分析，然后再建立聚簇间的关联关系。显然，这两种思路均要求待关联的信息资源具有引文信息，然而，由于很多信息资源没有引文信息或者引文信息极少，于是，无法根据传统的分析主题关联度的方法，对该种情况下的信息资源进行关联度分析，为克服传统的分析主题关联度的方法存在的上述缺陷，本发明实施例提供了一种确定文本主题关联度的方法，下面对本发明实施例的确定文本主题关联度的方法进行具体介绍。

本发明的第一实施例提供了一种确定文本主题关联度的方法，具体流程如图1所示，包括：步骤110，根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，第一文献信息为第一文本资源对应的文献信息，第二文献信息为第二文本资源对应的文献信息；步骤120，通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题；步骤130，基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度。

下面对本发明实施提供的确定文本主题关联度的方法进行详细介绍，具体如下：

在步骤110中，根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，第一文献信息为第一文本资源对应的文献信息，第二文献信息为第二文本资源对应的文献信息。

优选地，预设处理方式包括以下至少一项：句子切分；分词；命名实体提取；停用词过滤。

具体地，对于特定领域，例如生物信息领域，首先选定任意两种文本型信息资源，分别记为资源R^(s)和资源R^(t)，例如一种文本型信息资源为论文，记为资源R^(s)，而另一种文本型信息资源为专利，记为资源R^(t)，然后按分类号和/或检索关键词收集这两种资源对应的文献信息，得到资源R^(s)的M^(s)篇文献信息、资源R^(t)的M^(t)篇文献信息，其中，在收集上述两种资源分别对应的文献信息时，可以利用BioCreative组织发布的这两种资源分别对应的文献信息(CHEMDNER和CHEMDNER-patents)，得到资源R^(s)的M^(s)＝10000篇文献信息，资源R^(t)的M^(t)＝14000篇文献信息。也就是说，步骤110中的第一文本资源为论文文本资源R^(s)，第二文本资源为专利文本资源R^(t)，相应的，第一预设个数为M^(s)，第二预设个数为M^(t)，或者说，步骤骤110中的第一文本资源为专利文本资源R^(t)，第二文本资源为论文文本资源R^(s)，相应的，第一预设个数为M^(t)，第二预设个数为M^(s)。需要说明的，本发明实施例以第一文本资源为论文文本资源R^(s)，第二文本资源为专利文本资源R^(t)为例，对确定文本主题关联度的方法进行介绍。

进一步地，在获取到第一文本资源(即论文文本资源R^(s))对应的第一预设个数(即M^(s))的文献信息，及第二文本资源(即专利文本资源R^(t))对应的第二预设个数(即M^(t))的文献信息后，进行获取到的资源R^(s)和R^(t)的文献信息进行预处理，包括句子切分、分词、命名实体抽取以及停用词过滤等等，预处理完成后得到论文文本资源R^(s)和专利文本资源R^(t)清洗后的文献信息，其中，当收集到的数据集已经标注了命名实体时，可以直接跳过命名实体抽取步骤。对于本发明实施例中的上述事先选定的论文文本资源与专利文本资源这两个数据集来说，共涉及7类命名实体，分别为：ABBREVIATION(缩写)、FAMILY(家庭名称)、FORMULA(公式)、IDENTIFIER(标识符)、MULTIPLE(实体组合)、SYSTEMATIC(学名)以及TRIVIAL(俗称)。

在步骤120中，通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题。

优选地，预设的实体-主题模型包括以下任一项：条件独立潜狄利克雷分配模型CI-LDA；对应潜狄利克雷分配模型1 CorrLDA1；对应潜狄利克雷分配模型2 CorrLDA2；开关潜狄利克雷分配模型SwitchLDA；纳入类别的对应潜狄利克雷分配模型2 CCorrLDA2。

具体地，采用预设的实体-主题模型，分别对论文文本资源R^(s)和专利文本资源R^(t)经过预处理后的文献信息进行主题抽取，即利用实体-主题模型从论文文本资源R^(s)的M^(s)篇文献信息中抽取K^(s)个词汇主题、从专利文本资源R^(t)的M^(t)篇文献信息中抽取K^(t)个词汇主题，也即上述步骤120中的第三预设个数为K^(s)，第四预设个数为K^(t)个。其中，此处使用的实体-主题模型包括但不限于条件独立潜狄利克雷分配模型CI-LDA；对应潜狄利克雷分配模型1 CorrLDA1；对应潜狄利克雷分配模型2 CorrLDA2；开关潜狄利克雷分配模型SwitchLDA；纳入类别的对应潜狄利克雷分配模型2 CCorrLDA2。需要说明的是，模型CCorrLDA2有效融入了实体类别的信息，模型CCorrLDA2的概率图模型表示请参考图2，图2中的相应符号说明见表1。

表1：CCorrLDA2中用到的符号

进一步地，采用CCorrLDA2分别对经过预处理的论文文本资源和专利文本资源进行主题抽取分析，即从M^(s)篇论文资源中抽取K^(s)个主题、从M^(t)篇专利资源中抽取K^(t)个主题，图3和图4分别给出了论文文本资源和专利文本资源中的两个主题，从图中容易看出这两上主题均与癌症有关，这说明这两种资源中的确存在可以关联的主题。

在步骤130中，基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度。

优选地，若预设的实体-主题模型为CCorrLDA2，基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度，包括：基于预设模型推断方法，通过第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，估计CCorrLDA2的模型参数；根据预设聚类方法，对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类，得到对应的词项聚簇与实体聚簇；基于模型参数、词项聚簇及实体聚簇，确定第一文本资源与第二文本资源的主题关联强度。

优选地，预设聚类方法包括以下任一种：布朗聚类法；词嵌入法；谱特征对齐法。

优选地，预设模型推断方法包括以下任一种：均值场变分法；马尔科夫蒙特卡洛采样；随机变分推断。

优选地，基于模型参数、词项聚簇及实体聚簇，确定第一文本资源与第二文本资源的主题关联强度，包括：根据模型参数、词项聚簇及实体聚簇，确定第三预设个数的第一词汇主题与第四预设个数的第二词汇主题间的距离矩阵；确定满足预设约束条件的距离矩阵的最小值；基于距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度。

优选地，基于距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度，包括：根据距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定第一文本资源与第二文本资源间的词汇主题的关联流矩阵；基于关联流矩阵，确定第一文本资源与第二文本资源的主题关联强度。

优选地，基于关联流矩阵，确定第一文本资源与第二文本资源的主题关联强度，包括：基于滤除大于预设距离阈值后的关联流矩阵，确定第一文本资源与第二文本资源的主题关联强度。

具体地，若预设的实体-主题模型为CCorrLDA2，在基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度时，需要对CCorrLDA2的模型参数进行估计，即估计出CCorrLDA2的模型参数，其中，需要估计的模型参数为图2中的方框内部的单圆圈中的参数，在估计CCorrLDA2的模型参数时，基于预设模型推断方法，通过第三预设个数(即K^(s))的第一词汇主题与第四预设个数(即K^(t))的第二词汇主题，估计得到CCorrLDA2的模型参数，预设模型推断方法包括但不限于均值场变分法、马尔科夫蒙特卡洛(MCMC)采样、随机变分推断等。

其中，在具体应用场景中，可以采用吉布斯采样法来估计CCorrLDA2的模型参数，其中，吉布斯采样法是马尔科夫蒙特卡洛(MCMC)采样的一种特例，所用到的采样公式为：

其中，表示词汇v对应的词项分配给词汇主题k的数量，表示文档m中的词项被分配到词汇主题k的数量，表示围绕在超主题k周围的属于类别c的命名实体数量，表示围绕在超主题k周围的属于类别c的命名实体被分配给实体主题数量，表示词汇对应的命名实体分配给实体主题的数量。

进一步地，根据预设聚类方法，对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类，得到对应的词项聚簇与实体聚簇。考虑到异构资源在表述上的差异性，使得许多词汇和命名实体仅出现于单一文本资源中，为减少对后续主题相似度计算以及主题关联分析造成负面影响，对经过句子切分、分词、命名实体抽取以及停用词过滤等预处理后的文献信息的词项及命名实体进行聚类分析，得到相应的词项聚簇与命名实体聚簇，其中，所采用的聚类方法包括但不限于布朗聚类法、词嵌入法以及谱特征对齐法等。需要说明的是，在实际应用场景中，可以采用布朗聚类法，同时可以将论文文本资源和专利文本资源中的词项经聚类分析后得到的词项聚簇记作L＝500簇将论文文本资源和专利文本资源中的命名实体经聚类分析后得到的实体聚簇记作簇

进一步地，根据得到的模型参数、词项聚簇及实体聚簇，计算论文文本资源R^(s)中的词汇主题k^(s)和专利文本资源R^(t)中的词汇主题k^(t)之间相似度或距离，得到一个大小为K^(s)×K^(t)的主题相似度或距离矩阵缘于实体-主题模型CCorrLDA2，使得词项聚簇、词汇主题、实体类别、实体主题以及实体聚簇之间存在一种复杂的网络结构，如图5所示。图中箭头表示条件依赖关系，为清晰起见，词汇主题与实体主题之间的箭头并未完全画出。正是由于这种复杂的网络关系，词项聚簇、实体类别以及实体聚簇充当了论文文本资源R^(s)中的词汇主题k^(s)和专利文本资源R^(t)中的词汇主题k^(t)之间的中间媒介，从而方便了主题间的相似度或距离的计算。

在本实施例中，采用以下方式计算论文文本资源R^(s)中的词汇主题k^(s)和专利文本资源R^(t)中的词汇主题k^(t)之间的距离：

其中，表示对称的Kl散度，Pr(c|·)＝ξ_·,c，上式等号的右边三项分别对应于词项聚簇、实体类别以及实体聚簇间的距离，λ和ρ表示三项距离间的权重，本实施例将λ和ρ均设置为1/3，即三项具有同样的重要程度。

进一步地，确定满足预设约束条件的距离矩阵的最小值，在实际应用场景中，可以利用最优运输问题的解决方案求解以下线性规划问题，得到距离矩阵的最小值，即求解其中，约束条件为：用数学表达式可以具体表示为：

其中，p_k(s)和p_k(t)分别表示词汇主题k^(s)和k^(t)在相应资源中的重要程度，本实施例将其设置为与的比值。

进一步地，在计算出距离矩阵的最小值后，可以得到上述两种资源间主题的关联流矩阵，记作F，即上式(4)表示求解满足各项约束条件的两种资源间主题的最优匹配方式，并给出相匹配的程度，即获取最优的关联流矩阵F，其中，也即根据距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定第一文本资源与第二文本资源间的词汇主题的最优的两种资源间主题的关联流矩阵，其中，论文文本资源R^(s)与专利文本资源R^(t)中的关联示意图如图6所示。

进一步地，根据计算得到的关联流矩阵可以得到论文文本资源R^(s)中的词汇主题k^(s)与专利文本资源R^(t)中的词汇主题k^(t)的关联强度为而专利文本资源R^(t)中的词汇主题k^(t)与论文文本资源R^(s)中的词汇主题k^(s)的关联强度为为避免无意义的关联关系，基于滤除大于预设距离阈值后的关联流矩阵，确定论文文本资源与专利文本资源的主题关联强度，其中，本实施例设置的主题距离阈值为所有主题间距离95％百分位数，将高于这个百分位数的关联对删掉。

在本发明第一实施例的另一优选实施方式中，在图1中步骤130之后，还包括步骤140(图中未示出)：基于预设展示方式，通过可视化界面展示第一文本资源与第二文本资源的主题关联强度。

优选地，预设展示方式为关联强度图谱展示方式或二分图展示方式。

具体地，在确定论文文本资源与专利文本资源的主题关联强度后，可视化展示最终的主题关联情况，在本发明的实施例中，所采用的可视化展示方式为关联强度图谱，如图7所示，图中的横轴对应于论文文本资源中的主题编号，纵轴对应于专利文本资源中的主题编号，方框的颜色深浅表示关联的强弱程度，无论图7(a)所表示的论文文本资源到专利文本资源的主题关联强度，还是图7(b)表示的专利文本资源到论文文本资源的主题关联强度，均表现出一种稀疏对角结构，图7(a)中的行或图7(b)中列无方块的(即图7(a)与图7(b)中的空白无填充色的方块)，表示对应于行或列的主题是那种资源里特有的。

另外，为了进一步说明本发明实施例的效果，对主题关联的结果逐一进行了人工分析，并按五分量表的方式进行打分，分值越大表示构建的关联效果越好，同时与对比专利(申请号：CN201310069541)中的方法进行了对比，如表2所示。从表2中容易看出，利用本发明实施例构建的主题关联分值大于3的所占比例共为83.05％，而利用对比专利(申请号：CN201310069541)构建的主题关联分值大于3的所占比例共为72.13％，可见，本发明实施例所构建的主题关联的效果要优于对比专利(申请号：CN201310069541)。

表2：本发明与对比专利(申请号：CN201310069541)的主题关联效果比较

通过上面的描述可以看出，本发明的实施例可以概括为如下9个步骤：

第1步：对于特定领域，选定任意两种文本型信息资源，记为资源R^(s)和资源R^(t)，按分类号和/或检索关键词收集这两种资源对应的文献信息，得到资源R^(s)的M^(s)篇文献信息、资源R^(t)的M^(t)篇文献信息。

第2步：在第1步的基础上，对收集的资源R^(s)和R^(t)的文献信息进行预处理，包括句子切分、分词、命名实体抽取以及停用词过滤等，预处理完成后得到资源R^(s)和R^(t)清洗后的文献信息。

第3步：在第2步的基础上，采用实体-主题模型分别对资源R^(s)和R^(t)经过预处理的文献信息进行主题抽取，即利用实体-主题模型从M^(s)篇文献信息中抽取K^(s)个词汇主题、从资源R^(t)的M^(t)篇文献信息中抽取K^(t)个词汇主题；此处使用的实体-主题模型包括但不限于CI-LDA、CorrLDA1、CorrLDA2、SwitchLDA以及CCorrLDA2，其中，CCorrLDA2有效融入了实体类别的信息。

第4步：在第3步的基础上，完成实体-主题模型CCorrLDA2的模型参数估计，所用到的模型推断方法包括但不限于均值场变分法、马尔科夫蒙特卡洛(MCMC)采样、随机变分推断等。

第5步：考虑到异构资源在表述上的差异性，使得许多词汇和命名实体仅出现于单一资源中，为减少对后续主题相似度计算以及主题关联造成负面影响，在第2步的基础上，对词项和实体提及进行聚类分析，所采用的聚类方法包括但不限于布朗聚类法、词嵌入法以及谱特征对齐法等。

第6步：在第4步和第5步的基础上，计算资源R^(s)中的词汇主题k^(s)和资源R^(t)中的词汇主题k^(t)之间的相似度或距离，得到一个大小为K^(s)×K^(t)的主题相似度或距离矩阵

第7步：在第6步的基础上，利用最优运输问题解决方案，根据上述公式(4)获得关联流矩阵F，其中，

第8步：根据第7步计算完成后得到的关联流矩阵得到资源R^(s)中的词汇主题k^(s)与资源R^(t)中的词汇主题k^(t)的关联强度为而资源R^(t)中的词汇主题k^(t)与资源R^(s)中的词汇主题k^(s)的关联强度为需要说明的是，为避免无意义的关联关系，需要设置相应的主题相似度/距离阈值，将不满足条件的关联对删除掉。

第9步：在第8步的基础上，可视化展示最终的主题关联情况，所采用的可视化展示方式包括但不限于关联强度图谱以及二分图展示等。

需要说明的是，虽然上述是以异构文本信息资源(即两种文本型信息资源属于不同类型，例如一种属于论文文本资源，另一种属于专利文本资源)为例对本发明实施例的确定文本主题关联度的方法进行具体介绍的，但是本发明实施例的确定文本主题关联度的方法也同样适应于相同类型的两种文本资源之间的主题关联度的确定，例如确定一种论文文本资源与另一种论文文本资源之间的主题关联度，其中，相同类型的文本信息资源之间的主题关联度的确定方法，与上述异构文本信息资源间确定文本主题关联度的方法一致，在此不再赘述。

通过本发明实施例提供的确定文本主题关联度的方法，克服了传统方法的缺陷。同时，缘于许多信息资源内嵌大量命名实体，比如人名、机构名、化合物名称等，本发明在构建异构文本型信息资源的主题关联时，也同时考虑这些命名实体本身及其类型信息，提高了主题关联分析的效果。另外，通过本发明实施例，不仅可以揭示单一文本型信息资源的主题结构，而且可以建立异构文本型信息资源之间的关联强度，发挥了多源异构信息资源融合的优势，得到了易于解释的主题关联结果，便于异构资源的知识导航等服务。

本发明第二实施例提供了一种确定文本主题关联度的装置，如图8所示，包括：预处理模块81、主题提取模块82与确定模块83，其中：

预处理模块81用于根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，第一文献信息为第一文本资源对应的文献信息，第二文献信息为第二文本资源对应的文献信息。

主题提取模块82用于通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇超主题。

确定模块83用于基于第三预设个数的第一词汇超主题词汇主题与第四预设个数的第二词汇超主题词汇主题，确定第一文本资源与第二文本资源的主题关联强度。

优选地，若预设的实体-主题模型为CCorrLDA2，确定模块包括估计子模块831、聚类子模块832与关联强度确定子模块833，如图9所示，其中，估计子模块831用于基于预设模型推断方法，通过第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，估计CCorrLDA2的模型参数；聚类子模块832用于根据预设聚类方法，对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类，得到对应的词项聚簇与实体聚簇；关联强度确定子模块833，用于基于模型参数、词项聚簇及实体聚簇，确定第一文本资源与第二文本资源的主题关联强度。

优选地，关联强度确定子模块833包括距离矩阵子单元8331、最小值确定子单元8332与第一确定子单元8333，如图9所示，距离矩阵确定子单元8331用于根据模型参数、词项聚簇及实体聚簇，确定第三预设个数的第一词汇主题与第四预设个数的第二词汇主题间的距离矩阵；最小值确定子单元8332用于确定满足预设约束条件的距离矩阵的最小值；第一确定子单元8333用于基于距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度。

优选地，第一确定子单元8333包括第二确定子单元83331与第三确定子单元83332，如图9所示，第二确定子单元83331用于根据距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定第一文本资源与第二文本资源间的词汇主题的关联流矩阵；第三确定子单元83332，用于基于关联流矩阵，确定第一文本资源与第二文本资源的主题关联强度。

优选地，第三确定子单元具体用于基于滤除大于预设距离阈值后的关联流矩阵，确定第一文本资源与第二文本资源的主题关联强度。

优选地，该装置还包括展示模块84，如图9所示，展示模块84用于基于预设展示方式，通过可视化界面展示第一文本资源与第二文本资源的主题关联强度。

在本发明实施例中，根据预设处理方式，对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理，第一文献信息为第一文本资源对应的文献信息，第二文献信息为第二文本资源对应的文献信息，为后续获取预处理后的第一文献信息的第一词汇主题及预处理后的第二文献信息的第二词汇主题提供了前提保障；通过预设的实体-主题模型，分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息，得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，便于后续基于第一词汇主题与第二词汇主题，对任意两种文本类型的信息资源之间的主题关联度进行分析，进而确定文本之间的主题关联强度；基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题，确定第一文本资源与第二文本资源的主题关联强度，不仅能够有效地确定异构文本型信息资源之间的主题关联强度，而且极利于异构性文本之间的深度融合分析，从而更加全面地反映了相应领域的全貌，便于异构资源的知识导航。

本发明第三实施例根据另一个方面，还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述的确定文本主题关联度的方法。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种确定文本主题关联度的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设处理方式包括以下至少一项：

句子切分；分词；命名实体提取；停用词过滤。

3.根据权利要求1或2所述的方法，其特征在于，预设的实体-主题模型包括以下任一项：

条件独立潜狄利克雷分配模型CI-LDA；对应潜狄利克雷分配模型1CorrLDA1；对应潜狄利克雷分配模型2 CorrLDA2；开关潜狄利克雷分配模型SwitchLDA；纳入类别的对应潜狄利克雷分配模型2 CCorrLDA2。

4.根据权利要求3所述的方法，其特征在于，若所述预设的实体-主题模型为所述CCorrLDA2，所述基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

5.根据权利要求4所述的方法，其特征在于，所述预设聚类方法包括以下任一种：

布朗聚类法；词嵌入法；谱特征对齐法。

6.根据权利要求4所述的方法，其特征在于，所述预设模型推断方法包括以下任一种：

均值场变分法；马尔科夫蒙特卡洛采样；随机变分推断。

7.根据权利要求4所述的方法，其特征在于，所述基于所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

确定满足预设约束条件的所述距离矩阵的最小值；

8.根据权利要求7所述的方法，其特征在于，所述基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度，包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，在所述确定所述第一文本资源与所述第二文本资源的主题关联强度之后，还包括：

11.根据权利要求10所述的方法，其特征在于，所述预设展示方式为关联强度图谱展示方式或二分图展示方式。

12.一种确定文本主题关联度的装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述预设处理方式包括以下至少一项：

句子切分；分词；命名实体提取；停用词过滤。

14.根据权利要求12或13所述的装置，其特征在于，预设的实体-主题模型包括以下任一项：

15.根据权利要求14所述的装置，其特征在于，若所述预设的实体-主题模型为所述CCorrLDA2，所述确定模块包括估计子模块、聚类子模块与关联强度确定子模块；

16.根据权利要求15所述的装置，其特征在于，所述预设聚类方法包括以下任一种：

布朗聚类法；词嵌入法；谱特征对齐法。

17.根据权利要求15所述的装置，其特征在于，所述预设模型推断方法包括以下任一种：

均值场变分法；马尔科夫蒙特卡洛采样；随机变分推断。

18.根据权利要求15所述的装置，其特征在于，所述关联强度确定子模块包括距离矩阵子单元、最小值确定子单元与第一确定子单元；

所述距离矩阵子单元，用于根据所述模型参数、所述词项聚簇及所述实体聚簇，确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵；

19.根据权利要求18所述的装置，其特征在于，所述第一确定子单元包括第二确定子单元与第三确定子单元；

20.根据权利要求19所述的装置，其特征在于，所述第三确定子单元具体用于基于滤除大于预设距离阈值后的所述关联流矩阵，确定所述第一文本资源与所述第二文本资源的主题关联强度。

21.根据权利要求12-20任一项所述的装置，其特征在于，该装置还包括展示模块；

22.根据权利要求21所述的装置，其特征在于，所述预设展示方式为关联强度图谱展示方式或二分图展示方式。

23.一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-11任一项所述的确定文本主题关联度的方法。