CN114424197A

CN114424197A - 使用分层聚类的罕见主题检测

Info

Publication number: CN114424197A
Application number: CN202080066389.3A
Authority: CN
Inventors: R·K·甘缇; M·斯瑞瓦塔萨; S·斯瑞兰格姆斯瑞德哈兰; 林沇燮; D·阿格拉瓦尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-08
Filing date: 2020-09-29
Publication date: 2022-04-29
Also published as: US20210103608A1; AU2020364386A1; JP2022552140A; KR20220050915A; GB2604276A; GB202206094D0; WO2021070005A1; AU2020364386B2

Abstract

可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型，其中在播种完成时，所移除的域词被恢复。

Description

使用分层聚类的罕见主题检测

技术领域

本发明总体上涉及计算系统，并且更具体地涉及用于使用利用计算处理器的分层聚类来提供罕见主题(rare topic)检测的不同实施例。

背景技术

计算机和网络技术的出现使得生活质量的提升同时增强日常活动并简化信息共享成为可能。由于信息技术的最近发展和互联网的日益普及，现在大量信息以数字形式可用。这种信息的可用性提供了许多机会。近年来，诸如例如实时通信消息传送的数字信息和在线信息已经变得非常流行。随着技术的阔步前进取得成效，在这些系统中取得有利于效率和改进的进展的需要更大。

发明内容

提供了用于由处理器使用分层主题建模来提供罕见主题检测的各实施例。可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组(n-grams)、短语、文本片段(text snippet)或其组合来播种以演化分层主题模型，并且在播种完成时，所移除的域词被恢复。

附图说明

为了容易理解本发明的优点，上面简要描述的本发明的更具体描述将通过参考附图中示出的具体实施例来呈现。应理解，这些附图仅描绘了本发明的典型实施例，并且因此不被认为是对其范围的限制，将通过使用附图用附加特征和细节来描述和解释本发明，在附图中：

图1是示出根据本发明的实施例的示例性云计算节点的框图；

图2是描绘根据本发明实施例的示例性云计算环境的附加框图；

图3是描绘根据本发明实施例的抽象模型层的附加框图；

图4是描绘根据本发明各方面的分析实时会话数据和记录消息之间的到达间时间的附加图；

图5是描绘根据本发明各方面的使用分层主题建模的罕见主题检测的图；以及

图6是描绘用于通过处理器使用分层主题建模来提供罕见主题检测的示例性方法的流程图；再次，其中可以实现本发明的各方面。

具体实施方式

随着电子信息量的持续增加，对复杂的信息访问系统的需求也增长。数字或“在线”数据已经变得通过实时、全球计算机网络日益可访问。数据可反映不同组织和组或个体的许多方面，包括科学、政治、政府、教育、企业等。随着协作和社交通信的使用增加，经由基于文本的通信的通信也将增加。出于商业和娱乐的目的，实时通信消息(例如，实时聊天会话)是现代社会的重要部分。然而，对于各个实体，不管大小如何，使用这样的协作和社交通信方式可能是压倒性的体验，特别是当大量基于文本的数据由各个应用和服务生成时。

此外，各种类型的实体(例如，企业、组织、政府机构、教育机构等)经常参与语料库语言学，其是对“实际使用”文本的语料库(即，集合)中所表达的语言的研究。语料库语言学的核心思想是，表达的分析最好在其自然使用内进行。通过收集书写样本，研究人员能够理解个人如何相互交谈。照此，本发明采用有助于理解和解释基于消息的数据的不同技术。

在一个方面，主题建模可以用于发现文本语料库内的语义结构。主题建模可采用一个或多个操作来推断基于文本的文档和/或会话中的主题和含义。主题建模和文本挖掘可以用于获得对不同通信的洞察。例如，如果企业可以挖掘关于特定产品或服务的客户反馈，则该信息可以证明是有价值的。当采用文本挖掘/主题建模技术时，推荐之一是可用于分析的数据越多，总体结果越好。然而，即使使用大数据，从业者可能需要文本挖掘单个对话或小文本语料库以推断含义。

另外，在通信(例如，一个或多个用户之间的可以是文本形式(例如，文档、电子邮件、演示文稿等)和/或音频/视频形式的对话)期间，有必要快速且自适应地理解通信/对话，同时提供与这样的通信/对话的主题有关的智能解释、概述和/或理解。

在一些情况下，例如，文档聚类是将类似的文档分组在一起，从而将它们分配给相同的隐式主题。文档聚类提供了提高信息检索的有效性的能力。最近已采用潜在语义分析操作和聚类分层聚类来基于相似性将对象分组成聚类。例如，潜在语义分析，其中给定n个句子，框架列出在那些句子中引用的概念。即，主题是“词袋”，其中每个文档具有多个主题(具有多项式分布)并且每个主题具有多个词(具有狄利克雷分布)。然而，潜在语义分析的挑战是主题中的通信/对话(例如，对话/口语英语)词不能满足狄利克雷生成过程并且不具有分层主题的概念(例如，数据是一类数据计划并且该数据计划是一类国际数据计划)。

在分层聚类操作中，文档被递归地从下到上合并，从而产生经递归分割的集群的决策树。用于找到相似性的距离测量从单链接变化到计算上更昂贵的链接，但它们与最近相邻距离紧密相关。分层聚类操作通过递归地合并单个最佳文档或集群对来工作，使得对于以数万计的文档集合编号的计算成本过高。即，文档被表示为其间具有距离(例如，欧几里德)的矢量。然而，当“主导(dominant)”词没有从较低层级的矢量中移除时(例如，数据在最高层级处主要并且发生30％的对话，“国际”仅在1％中发生)，距离度量失败。由此，对于向主题提供通信/对话语料库的概述(与仅仅文档相比)仍然存在挑战。

因此，本文中示出了各种实施例，以通过处理器使用分层主题建模提供罕见主题检测。可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型，并且在播种完成时，所移除的域词被恢复。

在一个方面，本发明通过提供聚类到多个主题中的呼叫的概括版本(例如，客户-代理交互的语音-文本转录)来提供分层主题建模。即，分层主题建模在任何类型的文本文档上工作，并且长文本文档可被转换成概述，该概述通常是ngram的集合。

ngram词的概述可以用于生成词矢量，并且词矢量可以根据一个或多个分配的得分被加权。可以在每次迭代中在将词矢量汇总成K个集群时采用K均值聚类操作，其中，“K”是正整数或定义的值。K个集群可以包括一个或多个“王集群”。在一个方面，王集群是来自总数K个集群的最大集群(例如，包含最多文档或数据源的集群)。王集群可以是多个集群内的最大集群。

对于作为王集群的每个集群，分层主题建模操作通过从先前运行/执行中移除一个或多个“相关”词来重复执行(其对于下一个分层主题建模不再有区别)。在这样做时，随着主导词被移除，通过渐进向下钻取操作(例如，从迭代地执行分层主题建模操作)识别一个或多个罕见主题。可以识别用于每个代表性集群的Ngram、片段和建议的主题名称。被移除/抑制的一个或多个词可以用于ngram/片段识别，以改进和提供一个或多个用户的增强的可读性/可解释性。

例如，考虑在第一次迭代(例如，迭代“0”)中移除词“访问”的分层主题建模操作。在下一/后续迭代分层主题建模操作中，可以在一个或多个后续迭代分层主题建模操作(例如，迭代“1”和/或迭代“N”)中移除词“vpn”和“根”。在迭代的分层主题建模操作结束时，主导词可以在使用一个或多个人工智能(“AI”)操作(诸如，例如“不能访问vpn”和/或“根访问失败”)提供可解释的解释(例如，用户可理解的)的同时被恢复/不被抑制。此外，本发明提供了用于迭代分层主题建模的自动配置，诸如例如，可配置为选择多个迭代、同义词以识别“相似”集群。用于使用分层聚类提供罕见主题检测的操作还使得能够进行后处理，以便组合或拆分一个或多个集群，其中每个集群可由一个或多个用户理解/解释。

在一个方面，可以学习用于增量训练和识别差异的一个或多个分层主题模型。可以使用现有分层主题模型(例如，现有树结构)来播种所学习的分层主题模型(例如，新树结构)。可以基于现有分层主题模型来播种每个树节点中的每个聚类模型。需要说明的是，分层主题模型的形式为树形结构，其中每个节点表示主题。对应于王集群的节点在每次迭代中分解。增量训练表示过程，其中训练过程以旧模型开始，然后用新数据集找到最佳模型，而不是从头开始训练主题模型。可以在新数据集上重新训练所学习的现有分层主题模型，并且导致针对先前解决方案的邻域中的聚类问题逐步探索最优解决方案。为了进一步说明，考虑在数据集1上训练的主题模型“v1”(例如，现有主题模型)和主题模型“v2”(例如，以主题模型v1作为种子模型在数据集2上训练的新主题模型)。数据集2是新数据集。在数据集2上，与从头开始学习主题模型相比，本发明发现和/或识别接近主题模型v1的最佳主题模型。使用旧主题模型v1来播种基础K均值聚类以获得新主题模型v2。种子模型是针对特定时间窗口训练的主题模型，并且在下一时间窗口上用新数据集训练新模型。

在一个方面，通过使用(a)已经漂移最多的集群中心被识别为显著改变候选，(b)具有显著差异的集群权重，(c)集群的凝聚性测量已经显著改变，以及(d)已经改变的树结构，一个或多个分层主题模型可被用来识别/检测集群的改变。即，“改变检测”是指如何相对于种子模型改变新训练的主题模型并且如在(a)-(d)中描述的可以观察该改变。

提前理解的是，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储装置、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图1，示出了云计算节点的示例的示意图。云计算节点10仅仅是合适的云计算节点的一个示例，并不旨在对本文所述的本发明的实施例的使用或功能的范围提出任何限制。无论如何，云计算节点10能够被实现和/或执行上文阐述的任何功能。

在云计算节点10中，存在计算机系统/服务器12，其可与许多其他通用或专用计算系统环境或配置一起操作。可以适用于计算机系统/服务器12的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括上述任何系统或设备的分布式云计算环境等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、系统存储器28和将包括系统存储器28的不同系统组件耦合到处理器16的总线18。

总线18表示若干类型的总线结构中的任何一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。

计算机系统/服务器12通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器12访问的任何可用介质，并且其包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器28可包含呈易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)30和/或高速缓冲存储器32。计算机系统/服务器12可以还包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例的方式，存储系统34可以被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为“硬盘驱动器”)中读取和向其写入。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(诸如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线18。如以下将进一步描绘和描述的，系统存储器28可以包括具有被配置为执行本发明的实施例的功能的一组(例如，至少一个)程序模块的至少一个程序产品。

作为示例而非限制，具有一组(至少一个)程序模块42的程序/实用程序40，以及操作系统、一个或多个应用、其他程序模块和程序数据可以存储在系统存储器28中。操作系统、一个或多个应用、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。程序模块42通常执行如在此所描述的本发明的实施例的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(诸如键盘、定点设备、显示器24等)通信；使得用户能够与计算机系统/服务器12交互的一个或多个设备；和/或使得计算机系统/服务器12能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这种通信可经由输入/输出(I/O)接口22进行。此外，计算机系统/服务器12可以通过网络适配器20与一个或多个网络(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如互联网))通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其他组件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机系统/服务器12结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。

在本发明的上下文中，并且如本领域的普通技术人员将理解的，图1中描绘的各种部件可以位于移动的车辆中。例如，与所示实施例的机制相关联的一些处理和数据存储能力可经由本地处理组件在本地发生，而相同组件经由网络连接到远程定位的分布式计算数据处理和存储组件以实现本发明的不同目的。再次，如本领域普通技术人员将理解的，本说明旨在仅传达可以是共同完成不同创造性方面的分布式计算组件的整个连接网络的子集。

现在参见图2，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图2中所示的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图3，示出了由云计算环境50(图2)提供的一组功能抽象层。应当事先理解，图3中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

设备层55包括物理和/或虚拟设备，该物理和/或虚拟设备嵌入有和/或独立于电子器件、传感器、致动器、和其他对象以在云计算环境50中执行不同任务。设备层55中的每个设备将联网能力结合到其他功能抽象层，使得从设备获得的信息可以被提供给其他功能抽象层，和/或来自其他抽象层的信息可以被提供给设备。在一个实施例中，包括设备层55的不同设备可以合并统称为“物联网”(IoT)的实体网络。如本领域普通技术人员将理解的，这样的实体网络允许数据的互通、收集和传播以实现各种各样的目的。

如所示的设备层55包括传感器52、致动器53、具有集成处理的“学习”恒温器56、传感器和网络电子装置、相机57、可控家用插座/插孔58、以及如所示的可控电开关59。其他可能的装置可以包括但不限于各种另外的传感器装置、网络装置、电子装置(诸如远程控制装置)、另外的致动器装置、所谓的“智能”电器(诸如冰箱或洗衣机/干燥机)、以及多种其他可能的互连物体。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储装置72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供云计算资源的预安排和采购，根据该SLA预期该云计算资源的未来要求。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；以及在本发明的所示实施例的上下文中，用于使用分层聚类来提供罕见主题检测的不同工作负载和功能96。此外，用于使用分层聚类提供罕见主题检测的工作负载和功能96可以包括诸如数据分析之类的操作(包括从组织数据库、在线信息、知识域、数据源、和/或社交网络/媒体、和其他数据存储系统的数据收集和处理、以及预测和数据分析功能)。本领域普通技术人员将认识到，用于使用分层聚类提供罕见主题检测的工作负载和功能96还可以结合不同抽象层的其他部分来工作，诸如硬件和软件60、虚拟化70、管理80和其他工作负载90(例如，诸如数据分析和/或可替换性处理94)中的那些部分，以实现本发明所例示的实施例的不同目的。

现在转到图4，框图400描绘了用于使用分层聚类提供罕见主题检测的计算系统。在一个方面中，图1-3中所描述的组件、模块、服务、应用和/或功能中的一者或一者以上可用在图4中。例如，结合处理单元16的图1的计算机系统/服务器12可以用于执行根据本发明的各个方面的不同计算、数据处理和其他功能。

如图4所示，系统400可包括服务器402、一个或多个网络404、以及一个或多个数据源406。服务器402可以包括分层主题建模组件408，其可以包括学习组件410、分层主题组件412、集群组件414、识别组件415、增强组件416和/或播种组件418。服务器402还可以包括至少一个存储器420或者以其他方式与至少一个存储器420相关联。服务器402还可以包括系统总线422，系统总线422可以耦合不同组件，包括但不限于分层主题建模组件408和相关联的组件、存储器420和/或处理器424。虽然在图4中示出了服务器402，但是在其他实施例中，任何数量的不同类型的设备可以与在图4中示出的组件相关联或包括在图4中示出的组件作为分层主题建模组件408的一部分。设想了所有这样的实施例。

分层主题建模组件408可以使用可以从一个或多个数据源406学习的分层主题建模来促进罕见主题检测。数据源406可包括结构化和/或非结构化数据。术语“非结构化数据”可以指代以不受限制的自然语言呈现的并且意在用于人类消费的数据。非结构化数据可以包括但不限于：与用于与一个或多个用户通信的计算系统/应用相关联的会话数据、社交媒体帖子和/或评论、和在促进讨论的一个或多个网站上由一个或多个用户作出的相关联的元数据、新闻帖子和/或评论、和相关联的元数据、和/或帖子和/或评论、和相关联的元数据。非结构化数据可由一个或多个实体(例如，一个或多个用户)生成，并可包括以意图用于人类消费的非数字语言(例如，口语语言)贡献给语料库(例如，互联网、网站、网络等)的信息。

在不同实施例中，一个或多个数据源406可包括可由服务器402直接或经由一个或多个网络404(例如，内联网、互联网、通信系统和/或其组合)访问的数据。例如，一个或多个数据源406可包括可存储用户生成的数据的计算机可读存储设备(例如，主存储设备、次级存储设备、第三存储设备或离线存储设备)。在另一实例中，一个或一个以上数据源406可包含社区主机，所述社区主机包含促进经由网络(例如，互联网)共享用户产生的数据的网站和/或应用。

包括分层主题建模组件408的一个或多个服务器402以及一个或多个数据源406可以直接连接或经由一个或多个网络404连接。这样的网络404可以包括有线和无线网络，包括但不限于蜂窝网络、广域网(WAN)(例如，互联网)或局域网(LAN)。例如，服务器402可以使用几乎任何期望的有线或无线技术(包括例如蜂窝、WAN、无线保真(Wi-Fi)、Wi-Max、WLAN等)与一个或多个数据源406通信(反之亦然)。进一步，尽管在示出的实施例中，分层主题建模组件408被提供在服务器设备402上，但是应当理解，系统400的架构不限于此。例如，分层主题建模组件408或分层主题建模组件408的一个或多个组件可以位于另一设备处，诸如另一服务器设备、客户端设备等。

在一个方面，学习组件410可以从一个或多个数据源406学习分层主题模型。学习组件410可以执行一个或多个机器学习操作，诸如例如自然语言处理(“NLP”)。主题模型数据库426可以存储、维护和访问可以经由主题模型数据库426保持/存储在存储器420中的每个分层主题模型(包括每个新学习的分层主题模型)。

聚类组件414可以根据从一个或多个数据源406获得的数据生成一个或多个词矢量，并且对一个或多个词矢量中的每个词矢量进行评分。聚类组件414还可以从一个或多个词矢量生成多个聚类。可以从多个集群中识别所选集群，并且将其识别/标记为王集群。即，可以在每次迭代中在将词矢量汇总成K个集群时采用K均值聚类操作，其中，“K”是正整数或定义的值。K个集群可以包括一个或多个“王集群”。在一个方面中，王集群是来自总数K个集群的最大集群(例如，包含最多文档或数据源的集群)。王集群并且可以是多个集群中的最大集群。

聚类组件414可以在每次迭代处将所选集群分割成多个集群。与识别组件415相关联的聚类组件414可以从多个集群中识别备选所选集群(例如，第二或备选王集群)，同时迭代地移除备选所选集群中的一个或多个主导词。即，与识别组件415相关联的聚类组件414可以识别多个集群中的每个集群之间的一个或多个差异，同时在每次迭代处迭代地移除所选集群中的一个或多个主导词。在一个方面中，备选所选集群还可为王集群，且所述备选王集群是来自所述多个集群的后续集群迭代的最大集群。

分层主题组件412可以使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。在一个方面，主导词与集群的一个或多个主要主题有关。

播种组件418可以用一个或多个词、n元组、短语、文本片段或其组合来播种学习的分层主题模型，以演化分层主题模型。与播种组件418和/或扩充组件416相关联的分层主题组件412可以在完成播种之后恢复移除的域字。在一个方面，播种组件418可以用现有主题模型来播种该分层主题模型。此外，播种组件418可以根据一个或多个集群模型来播种多个集群中的每一个。

因此，分层主题建模组件408提供可解释性和可理解性，其中主题可由领域专家解释(例如，主题的描述可由用户读取)。分层主题建模组件408提供多级概括(例如，词、ngram、片段、文档)。在一个方面，词和ngram级表示可以用于机器学习，并且ngram和片段级表示用于由领域专家的分析师消费。分层主题建模组件408提供可扩展性和实时评分(实时)，其中训练可从一个或多个语料库发生，并且分层主题模型可被实时训练。

由此，如本文所描述的，分层主题建模组件408提供学习分层主题模型，该分层主题模型渐进地移除(例如，抑制或隐藏)王集群中的一个或多个主导词。王集群可通过(a)大小(例如，王集群由所述集群的大小确定)和(b)内聚性的缺乏(例如，大的集群倾向于具有低内聚性，因为它们更稀疏)来识别。分层主题建模组件408提供用人类可解释的词、短语、和片段来增强学习的分层主题模型。移除的词(例如，被抑制的或隐藏的词)可沿着分层结构恢复(例如，未被抑制和/或未被隐藏)以提供增加的可解释性。分层主题建模组件408通过为增量训练播种主题模型来提供主题演化。度量组可用于捕捉差异(例如，大小、内聚性、质心移位、树结构改变)。在一个方面，度量组可用于捕捉新和旧主题模型之间的差异，诸如，例如：1)大小(例如，集群(主题)大小如何改变，诸如，例如，落在主题下的文档的数量如何改变)，2)内聚性(例如，集群是否变得稀疏或紧密？)3)质心移位(例如，集群中心如何移动？)和/或4)树结构的改变(例如，主题模型的整体结构改变？)。

现在转向图5，图500描绘了使用分层主题建模的罕见主题检测。即，图500描绘了假设文档特征矢量是在二维(“2D”)空间中的多个集群。在一个方面中，图1-5中所描述的组件、模块、服务、应用和/或功能中的一者或一者以上可在图5中使用。为了简洁起见，省略对在本文中描述的其他实施例中采用的相似元件、组件、模块、服务、应用和/或功能的重复描述。

例如，图510(例如，原始分层主题模型510)描绘了具有集群1至4的原始/现有主题模型。图520(例如，新的分层主题模型520)通过使用分层主题建模提供罕见主题检测来描绘主题建模的演进。即，在播种原始分层主题模型510之后获得新的分层主题模型520。如所描绘的，新的分层主题模型520的集群1在尺寸上已经增加。集群2的中心已经移位，并且新的分层主题模型520的中心已经在大小上缩小。新的分层主题模型520的集群3已经消失(例如，已经被消除)。集群4的尺寸减小。应当注意，分层主题模型520仅作为示例使用，并且示出主题模型如何从原始种子模型演进。由此，如所描绘的，基于在新的数据集上播种和再训练分层主题模型520，递增地识别一个或多个最优解决方案以用于聚类，其中聚类演变成一个或多个不同形状、大小和/或甚至存在。

现在转向图6，描绘了用于由处理器使用分层主题建模来提供罕见主题检测的方法600，其中可以实现所示实施例的各个方面。即，图6是根据本发明的示例的用于在计算环境中使用分层主题建模来提供罕见主题检测的附加示例方法600的流程图。功能600可以实现为在机器上执行为指令的方法，其中指令被包括在至少一个计算机可读介质或一个非暂态机器可读存储介质上。功能600可以在框602中开始。

在方框604中，可以从一个或多个数据源学习分层主题模型。在方框606中，可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型，并且在方框608中所移除的域词在完成播种时被恢复。功能600可以在方框610中结束。

在一个方面，结合图6的至少一个方框和/或作为图6的至少一个方框的一部分，600的操作可包括以下每个中的一个或多个。600的操作可以生成一个或多个词矢量并对一个或多个词矢量中的每个词矢量进行评分，并且还可以从一个或多个词矢量生成多个集群，其中所选集群是从多个集群中识别的并且是王集群，其中王集群是来自多个集群的最大集群。600的操作可以在每次迭代时将选择的集群分割成多个集群，和/或在迭代地移除备选所选集群中的一个或多个主导词的同时从多个集群中识别备选所选集群。备选所选集群是王集群并且王集群是来自多个集群中的最大集群。

600的操作可利用现有主题模型来播种分层主题模型，和/或根据一个或多个集群模型来播种多个集群中的每一个。

600的操作可以识别多个集群中的每个集群之间的一个或多个差异，同时在每个迭代处迭代地移除所选集群中的一个或多个主导词。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(一个或多个)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)、以及常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个方框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，方框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，可以顺序地示出的两个方框实际上可以基本上同时执行，或者这些方框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种用于通过处理器使用分层主题建模来提供罕见主题检测的方法，包括：

从一个或多个数据源学习分层主题模型；

使用所述分层主题模型来迭代地移除所选集群中的一个或多个主导词，其中所述主导词与所述集群的一个或多个主要主题相关；以及

用一个或多个词、n元组、短语、文本片段或其组合来对所学习的分层主题模型播种以演化所述分层主题模型，其中在所述播种完成时，所移除的域词被恢复。

2.根据权利要求1所述的方法，还包括：生成一个或多个词矢量，并且对所述一个或多个词矢量中的每个词矢量进行评分。

3.根据权利要求1所述的方法，还包括：从所述一个或多个词矢量生成多个集群，其中，所选集群是从所述多个集群识别的并且是王集群，其中，所述王集群是所述多个集群中的最大集群。

4.根据权利要求1所述的方法，还包括：

在每次迭代时将所选集群分割成多个集群；

在迭代地移除备选所选集群中的一个或多个主导词时，从所述多个集群中识别备选所选集群，其中所述备选所选集群是王集群并且所述王集群是所述多个集群中的最大集群。

5.根据权利要求1所述的方法，还包括：利用现有主题模型对所述分层主题模型播种。

6.根据权利要求1所述的方法，还包括：根据一个或多个集群模型对多个集群中的每一个播种。

7.根据权利要求1所述的方法，还包括：在每次迭代时迭代地移除所选集群中的一个或多个主导词时，识别所述多个集群中的每个集群之间的一个或多个差异。

8.一种用于在计算环境中使用分层主题建模来提供罕见主题检测的系统，包括：

具有可执行指令的一个或多个计算机，所述可执行指令在被执行时使得所述系统：

从一个或多个数据源学习分层主题模型；

9.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统生成一个或多个词矢量并且对所述一个或多个词矢量中的每个词矢量进行评分。

10.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统从所述一个或多个词矢量生成多个集群，其中，所选集群是从所述多个集群识别的并且是王集群，其中，所述王集群是所述多个集群中的最大集群。

11.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统：

在每次迭代时将所选集群分割成多个集群；以及

12.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统利用现有主题模型对所述分层主题模型播种。

13.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统根据一个或多个集群模型对多个集群中的每一个播种。

14.根据权利要求8所述的系统，其中，所述可执行指令在被执行时使所述系统在每次迭代时迭代地移除所选集群中的一个或多个主导词时，识别所述多个集群中的每个集群之间的一个或多个差异。

15.一种用于通过处理器使用分层主题建模来提供罕见主题检测的计算机程序产品，所述计算机程序产品包括具有存储在其中的计算机可读程序代码部分的非暂态计算机可读存储介质，所述计算机可读程序代码部分包括：

从一个或多个数据源学习分层主题模型的可执行部分；

使用所述分层主题模型来迭代地移除所选集群中的一个或多个主导词的可执行部分，其中所述主导词与所述集群的一个或多个主要主题相关；以及

用一个或多个词、n元组、短语、文本片段或其组合来对所学习的分层主题模型播种以演化所述分层主题模型的可执行部分，其中在所述播种完成时，所移除的域词被恢复。

16.根据权利要求15所述的计算机程序产品，还包括：生成一个或多个词矢量并且对所述一个或多个词矢量中的每个词矢量进行评分的可执行部分。

17.根据权利要求15所述的计算机程序产品，还包括：从所述一个或多个词矢量生成多个集群的可执行部分，其中，所选集群是从所述多个集群识别的并且是王集群，其中，所述王集群是所述多个集群中的最大集群。

18.根据权利要求15所述的计算机程序产品，还包括用于以下的可执行部分：

在每次迭代时将所选集群分割成多个集群；以及

19.根据权利要求15所述的计算机程序产品，还包括用于以下的可执行部分：

利用现有主题模型对所述分层主题模型播种；或者

根据一个或多个集群模型对多个集群中的每一个播种。

20.根据权利要求15所述的计算机程序产品，还包括在每次迭代时迭代地移除所选集群中的一个或多个主导词时识别所述多个集群中的每个集群之间的一个或多个差异的可执行部分。