CN111512304B

CN111512304B - 在二维方面立方体上进行方面聚类的方法和系统

Info

Publication number: CN111512304B
Application number: CN201880082113.7A
Authority: CN
Inventors: 福田隆; 菊地弘晶; 四仓晋平
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-12-18
Filing date: 2018-12-12
Publication date: 2023-09-19
Anticipated expiration: 2038-12-12
Also published as: CN111512304A; GB202010822D0; DE112018006438T5; US20190188304A1; US10657145B2; GB2582730A; JP2021508113A; WO2019123113A1; JP7496774B2

Abstract

一种用于在二维方面立方体上进行方面聚类的计算机实现的方法和系统。该方法和系统通过生成二维方面立方体来基于方面执行文本挖掘，以分析一个或多个文档中的非结构化数据，所述二维方面立方体是与一个或多个文档集合相关联的一个或多个方面的相关性矩阵。将所述相关性矩阵中的所述一个或多个方面分组为至少一个聚类；计算所述聚类的中心；并将位于计算出的所述聚类的中心附近的所述方面标识为所述聚类的代表。

Description

在二维方面立方体上进行方面聚类的方法和系统

背景技术

有多种搜索方法。导航搜索使用层次(hierarchy)结构或分类法(taxonomy)来使用户能够浏览信息。直接搜索允许用户使用一个或多个关键字查询信息。方面(facet)搜索通常通过允许用户通过将多个过滤器和/或关键字应用于方面层次(facet hierarchy)来探索信息，从而结合了导航和直接搜索的元素。

所述方面层次沿称为方面的维度对信息进行分类。方面对应于信息的属性，并且通常通过使用各种提取技术对文本或文档进行分析或从与信息关联的元数据中得出。例如，在线零售商经常使用反映产品属性(例如类型、品牌、价格等)的方面层次。可以将方面值手动添加到所述方面层次，也可以使用文本挖掘软件自动提取。

可以使用方面来生成n维方面立方体，其中，所述方面立方体允许对数据进行多维访问。每个方面都是所述方面立方体的一个独立维度，可以计算和显示两个或多个维度的交集，例如在给定时间段内出售的所有特定类型、品牌和价格的产品。这允许用户查询方面值中的复杂关系，并发现所述方面值中以前未知的关系。

然而，在本领域现有技术中有需求改进派生方面值的技术。

发明内容

本文提供的本发明具有多个实施例，这些实施例例如用于实现计算机实现的方法和系统，所述方法和系统用于在二维方面立方体上对方面进行聚类以进行文本挖掘。

所述方法和系统基于方面执行文本挖掘以分析一个或多个文档中的非结构化数据。生成二维方面立方体，所述二维方面立方体是与一个或多个所述文档集合相关联的一个或多个方面的相关(correlation)矩阵。在所述相关性矩阵中将一个或多个方面分组为至少一个聚类。计算所述聚类的中心。位于所述聚类的所述计算出的中心附近的方面被标识为所属聚类的代表。

所述相关性矩阵可以包括自相关(self-correlation)矩阵。所述相关性矩阵的指定行和列的交点具有由所述指定行和列表示的所述方面的相关性值。

将所述相关性矩阵中的所述方面分组为所述聚类进一步包括：为所述相关性矩阵的行或列生成相关性向量；以及将所述相关性向量中的所述方面分组到所述聚类中。

所述方法和系统还可以包括：计算所述聚类中的所述方面的距离相关性；以及计算所述聚类的中心，以基于所述距离相关性来识别所述聚类中最接近所述聚类的所述中心的至少一个方面。

所述方法和系统可以进一步包括迭代地计算方面统计数据并且基于所述方面统计来提炼所述集合，以确定与所述集合中的所述文档相关联的所述方面。

因此，本发明提供了用于分析非结构化文本的文档的改进技术。具体地，本发明通过文本挖掘文档自动地派生方面值。使用作为相关性矩阵的n维方面立方体自动执行所述方面值的动态聚类。结果包括所述发现所述方面值之间以及所述文档本身之间的关系。

附图说明

现在参考附图，其中相同的附图标记始终表示相应的部分：

图1示出了根据一个实施例的内容分析系统的实施例。

图2示出了用户界面，所述界面显示了计算方面的统计数据。

图3示出了文本挖掘器，它迭代地计算一个文档集合的方面统计数据，并基于所述方面统计数据完善所述文档集合。

图4示出了一个文本挖掘器，其针对一个文档集合执行方面统计数据的计算，其中包括计算每个方面的频率。

图5示出了一种使用文本挖掘器减少工作量的方法。

图6示出了文本挖掘器如何使用相关性矩阵执行聚类。

图7示出了文本挖掘器如何在相关性矩阵的行和/或列上执行方面的聚类。

图8示出了使用相关性矩阵执行方面的实时动态聚类的优点。

图9是示出根据一个实施例的由文本挖掘器执行的步骤的流程图。图10示出了一个用户界面，所述界面显示了将方面的实时动态聚类应用于文档语料库的实验结果。

具体实施方式

在下面的描述中，参考形成其一部分的附图，并且在附图中通过图示的方式示出了可以实践本发明的一个或多个具体实施例。应当理解，在不脱离本发明的范围的情况下，可以利用其他实施例，并且可以进行结构和功能上的改变。

总览

用于分析非结构化数据(例如在文档中找到的文本)的改进技术的需求日增。基于方面的文本挖掘是分析非结构化数据的更有效方法之一。

在此上下文中，方面是与一个或多个文档集合相关联的“标签”。具体而言，所述方面与满足一个或多个指定条件的文档相关联。所述指定条件的示例可能包括：所述文档中出现指定的关键字；所述文档是在指定的日期范围内创建的；所述文档包括特定主题等等。

本发明通过文档或其他非结构化文本的文本挖掘自动派生方面值，然后生成用于对所述方面进行聚类的n维方面立方体。这允许发现所述方面之间以及所述文档本身之间的关系。

方面处理

图1示出了内容分析系统100的实施例，其包括一个或多个服务器计算机102，所述服务器计算机处理通过网络106从一个或多个客户端计算机104接收的请求。所述服务器102维护包含文本数据和其他数据的数据存储器108。所述服务器102执行文本挖掘器110，所述文本挖掘器分析一个或多个文档112，以便生成所述文档112的方面114，如下面更详细描述的。具体地，所述文本挖掘器110将文本分析应用于所述文档112以确定所述方面114的值。文本分析是从所述文档112提取信息和知识(例如内容，主题等)并将该信息分类为方面114的值的技术。

方面114的值可以包括要从一个或多个所述文档112确定的特定类型的信息。例如，所述方面114值可以包括所述文档112的主题，所述主题通过文本挖掘文档112来确定其内容。

如图2所示，通过计算所述方面114的统计数据，可以生成所述文档112的概览。具体而言，图2示出了显示在所述客户端104上的用户界面200，例如具有四个象限202-208，其中显示方面114的相关性202、趋势204、偏差206和针对一个或多个所述文档112的方面对208之间的关系。具体地，第一象限202显示词云，其中所述方面114的大小指示与一个或多个所述文档112的相关性(例如，所述方面114越大，与所述文档112的相关性越大)；第二象限204显示趋势图，所述趋势图示出了按日期在一个或多个所述文档112中每个方面114出现的趋势；第三象限206显示偏差图，所述偏差图示出了按日期在一个或多个所述文档112中每个方面114出现的时间偏差；第四象限显示方面对的图形，所述图形显示了一个或多个所述文档112中的方面114之间的关系(圆圈越大，所述方面114一起出现在所述文档112中的数量越多)。尽管象限204和206看起来相似，但是计算略有不同，因为第二象限204中的趋势图使用前几个月的增量(即差异)来计算趋势，而偏差图在第三象限206中，在特定时间段内使用所述方面114的绝对计数来计算偏差。

图3示出了所述文本挖掘器110基于所述方面114统计来迭代地计算所述方面114统计并提炼所述文档112的集合，以确定与所述文档112相关联的所述方面，例如通过所述文件112所提及的概念、主题或其他事实。

在此示例中，所述文本挖掘器110对所述文档112的集合302a执行方面114统计数据的计算300a。基于这些计算300a，一个或多个所述文档112的另一集合302b，即被选择用于初始提炼304a的所述集合302a中的子集302b。

在所述初始提炼304a中，所述文本挖掘器110再次执行所述文档112的子集302b的所述方面114统计的计算300b。基于这些计算300b，一个或多个所述文档112的另一集合302c，即被选择用于迭代提炼304b的所述集合302b中的子集302c。

在所述迭代提炼304b中，所述文本挖掘器110再次执行所选文档112的所述子集302c的所述方面114统计的计算300c。基于这些计算300c，某些信息和知识，在该示例中，方面114包括：针对所选文档112的所述子集302c获得一个或多个主题306。可以根据需要执行进一步的迭代提炼304和计算300，以识别与所述文档112相关联的方面114。

所述方面114统计数据的计算300可以包括计算每个方面114的频率、相关性、时间序列等，以找到适合于提炼304的至少一个方面114，以便从所述文档集合302获得信息和知识。所述文档112的集合302的提炼304包括基于所述方面114统计数据的计算300，提取包含一个或多个所述方面114的所述文档112的子集302。

例如，重复所述方面114统计数据的计算300和重复所述文档112的集合302的所述提炼304是提取与一个或多个所述方面114相关联的所述文档112的集合302的关键操作，例如提到主题306的所述文档112的集合302。

图4示出了所述文本挖掘器110对所述文档112的集合302执行所述方面114统计数据的计算300，其包括计算每个方面114的频率。基于这些计算300，生成高频方面114的列表400(即，方面1114a、方面2114b、方面3114c、方面4114d、方面5114e等)。

假设所述用户想要从所述列表400中发现高度相关的方面114的值。如果所述列表400中的所述高频方面114的数量很大，则手动关联所述高频方面114的所述工作负载402可能会太大。

所述工作负载402通常将包含反复试验的过程，其特征是反复进行各种尝试，直到成功或过程停止为止。因此，如果知识不能从文档112当前的集合302来获得，所述文本挖掘器110可在提炼304之前恢复到以前的文件112集合302，并尝试细化提炼304的另一方面114的目标是减少反复试验过程中的尝试次数。

图5示出了一种使用所述文本挖掘器110减少工作负载402的方法。在此示例中，所述文本挖掘器110在所述列表400中的所述高频方面114上执行聚类500，其中，根据主题306所述方面114被分组为聚类502。

具体地，属于同一主题306的方面114被分组为一个聚类502，其中，方面1114a和方面3114c被分组为与主题A 306a相关联的聚类502a；方面2114b和方面7114g被分组为与主题B 306b相关联的聚类502b；方面4114d和方面5114e被分组为与主题C 306c相关联的聚类502c；方面6114f被分组为与主题D 306d相关联的聚类502d。通过基于主题306适当地将所述方面114聚类500，减少了反复试验过程中涉及的时间量。

图6示出了所述文本挖掘器110如何使用所述聚类500来生成相关性矩阵600。所述相关性矩阵600是n＝2的n维方面立方体，其中每个方面114是单独的维度，并且交集为可以计算和显示两个尺寸。在该示例中，所述相关性矩阵600是自相关性矩阵600，其包括具有相同方面114值的交点。

在所述相关性矩阵600中，相同的方面114值(“引擎”、“白天”、“太阳”、“听觉”、“噪声”、“仪表”)被放置在所述相关性矩阵600的所述行和列上做为标签。在指定的行和列的交点处的每个单元(cell)具有由指定的列和行表示的所述方面114值的相关性值(或绝对频率)。

此外，可以为相关性矩阵600的行和/或列生成相关性向量602。在该示例中，为表示所述方面114的值“噪声”的所述行生成所述相关性向量602，其中所述相关性向量602包括“噪声”行和“引擎”列的交点处的所述单元的“高”相关性值、“噪声”行和“听觉”列交点处的所述单元的“高”相关性值、“噪声”行和“噪声”列相交处的所述单元的“高”相关性值、“噪声”行和“白天”列、“噪声”行和“太阳”列以及“噪声”行和“仪表”列相交处的剩余单元格中的空(空白)相关性值。因此，“噪声”的所述方面114值与“引擎”和“听觉”的方面114值高度相关，但与“白天”、“太阳”和“仪表”的所述方面114值高度不相关。。

图7示出了所述文本挖掘器110如何使用包括主题306的所述方面114在所述相关性矩阵600的行或列上执行所述方面114的所述聚类500。

在该示例中，所述文档112来自与汽车有关的语料库。主题A306a包括所述高度相关的方面114值“引擎”、“听觉”和“噪音”，例如，听到了来自引擎的噪音，而主题B306b包括了高度相关的方面114值“白天”、“太阳””和“仪表”，例如，在晴天很难检查仪表。

具体地，聚类500基于所述相关性向量602，其中属于相同主题306的相关性向量602中的高度相关的所述方面114值在聚类502中被分组或聚集在一起。所述文本挖掘器110还计算每个所述聚类502中的所述方面114值的距离相关性，即统计依赖性，以及用于识别所述聚类520的中心附近的所述方面114值的基于所述距离相关性的每个所述聚类502的中心。

图8示出了从使用所述相关性矩阵600执行实时动态聚类500所获得的好处。具体地说，使用所述相关性矩阵600，可以由所述文本挖掘器110动态地执行聚类500。而且，即使对于大规模分布式系统，所述内容分析系统100也提供用于计算n维立方体结构的索引结构，其可以被应用来使用所述相关性矩阵600实时地执行所述聚类500。

例如，在图8中，所述相关性矩阵600的所述列方面114的值已被动态更改，以对所述行方面114的值进行时间序列分析。具体而言，所述相关性矩阵600的所述列的所述方面114的值已更改为“Jan”(一月)、“Feb”(二月)、“Mar”(三月)、“Apr”(四月)、“May”(5月)和“June”(6月)。从所述相关性矩阵600可以看出，主题A 306a(包括“引擎”、“听觉”和“噪声”的方面114的值)在1月和2月与聚类502高度相关，而主题B3 06b，其中包含“白天”、“太阳”和“仪表”等所述方面114的值与4月和5月的聚类502高度相关。

最终结果是由所述文本挖掘器110执行的实时动态聚类500。使用所述实时动态聚类500，最终用户可以实时地动态更改所述方面114值的分析。

流程图

图9是根据一个实施例的流程图，其示出了基于方面114的文本挖掘110，用以分析一个或多个文档112中的非结构化数据。

块900表示所述文本挖掘器110接收针对所述一个或多个文档112的集合(D)302的方面聚类请求。

块902表示所述文本挖掘器110生成二维方面立方体，所述二维方面立方体是用于与所述集合(D)302关联的所述一个或多个方面的相关性矩阵600。

块904表示所述文本挖掘器110将所述相关性矩阵600的一或多个行聚类500，其包括将所述相关性矩阵600中的相关性向量602中的一个或多个所述方面114分组为至少一个聚类502。

块906表示所述所述文本挖掘器110计算每个所述聚类502的中心。

块908表示所述文本挖掘器110，其通过将位于每个所述聚类502的所计算的中心附近的所述方面114识别为代表所述聚类502，来响应所接收的请求。

实验结果

图10示出了例如显示在所述客户端104上的用户界面1000，其示出了将本发明应用于包括汽车问题报告的文档集112的实验结果。在该示例中，所述用户界面1000包括用于每个方面114的二维相关性向量的图，其被选择并绘制在相关性向量空间上，其中x轴和y轴是通过主成分分析(PCA)而减小或压缩的相关性向量尺寸。

例如，1002表示方面114值“低位”、“球形”和“接头”的相关性，指示存在许多文档112报告关于(较)低位的球形接头的问题，这可能作为召回产品的依据。

计算程序产品

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

结论

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实现的方法，包括：

基于方面的文本挖掘，所述方面对应于信息的属性，通过以下方法分析一个或多个文档中的非结构化数据：

生成二维方面立方体，所述二维方面立方体是与所述一个或多个文档集合相关联的一个或多个方面的相关性矩阵；

将所述相关性矩阵中的所述一个或多个方面分组为至少一个聚类；

计算所述聚类的中心；

将位于计算出的所述聚类中心附近的方面识别为所述聚类的代表；以及

迭代地计算方面统计数据并基于所述方面统计数据来提炼所述集合，以便确定与所述集合中的文档相关联的所述方面。

2.根据权利要求1所述的方法，其中，所述相关性矩阵包括自相关性矩阵。

3.根据权利要求1所述的方法，其中，所述相关性矩阵的指定行和列的交点具有用于由所述指定行和列表示的所述方面的相关性值。

4.根据权利要求3所述的方法，其中将所述一个或多个方面分组还包括：

为所述相关性矩阵的行或列生成相关性向量；以及

将所述相关性向量中的所述方面分组到所述聚类中。

5.根据权利要求4所述的方法，还包括计算所述聚类中的所述方面的距离相关性。

6.根据权利要求5所述的方法，进一步包括基于所述距离相关性来计算所述聚类的中心以识别所述聚类中的最接近所述聚类的中心的所述方面中的至少一个。

7.一种计算机实现的系统，包括：

一台或多台基于方面进行文本挖掘的编程计算机，所述方面对应于信息的属性，通过以下方法分析一个或多个文档中的非结构化数据：

计算所述聚类的中心；

8.根据权利要求7所述的系统，其中，所述相关性矩阵包括自相关性矩阵。

9.根据权利要求7所述的系统，其中，所述相关性矩阵的指定行和列的交点具有用于由所述指定行和列表示的所述方面的相关性值。

10.根据权利要求9所述的系统，其中将所述一个或多个方面分组还包括：

为所述相关性矩阵的行或列生成相关性向量；以及

将所述相关性向量中的所述方面分组到所述聚类中。

11.如权利要求10所述的系统，还包括计算所述聚类中的所述方面的距离相关性。

12.如权利要求11所述的系统，进一步包括基于所述距离相关性来计算所述聚类的中心以识别所述聚类中的最接近所述聚类的中心的所述方面中的至少一个。

13.一种计算机可读存储介质，所述计算机可读存储介质具有体现在其上的程序指令，所述程序指令可由一个或多个计算机执行以使所述计算机执行包括以下内容的方法：

计算所述聚类的中心；

14.根据权利要求13所述的计算机可读存储介质，其中，所述相关性矩阵包括自相关性矩阵。

15.根据权利要求13所述的计算机可读存储介质，其中，所述相关性矩阵的指定行和列的交点具有用于由所述指定行和列表示的所述方面的相关性值。

16.根据权利要求13所述的计算机可读存储介质，其中将所述一个或多个方面分组还包括：

为所述相关性矩阵的行或列生成相关性向量；以及

将所述相关性向量中的所述方面分组到所述聚类中。

17.如权利要求16所述的计算机可读存储介质，其特征在于，还包括计算所述聚类中的所述方面的距离相关性。

18.根据权利要求17所述的计算机可读存储介质，进一步包括基于所述距离相关性来计算所述聚类的中心以识别所述聚类中的最接近所述聚类的中心的所述方面中的至少一个。