CN105164672A - 内容分类 - Google Patents

内容分类 Download PDF

Info

Publication number
CN105164672A
CN105164672A CN201380076169.9A CN201380076169A CN105164672A CN 105164672 A CN105164672 A CN 105164672A CN 201380076169 A CN201380076169 A CN 201380076169A CN 105164672 A CN105164672 A CN 105164672A
Authority
CN
China
Prior art keywords
data object
classification
topics
sub
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380076169.9A
Other languages
English (en)
Inventor
哈达什·科根
多伦·谢克德
希凡·阿尔巴利·基姆
乔治·福曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antite Software Co., Ltd.
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN105164672A publication Critical patent/CN105164672A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于从数据对象(100)的内容确定分类的技术。使用来自于多个类别(200)中每个类别的一个或多个数据对象(100)的内容中的词语,来确定类别(200)中的一个类别的子主题(210)。

Description

内容分类
背景技术
分类系统用于对诸如文档、电子邮件消息和网页之类的数据对象的内容进行分类,并且还用于支持数据对象集合的处理。
附图说明
附图图示出各种示例,并且是说明书的一部分。图示的示例只是示例,而并不限制权利要求的范围。在整个附图中,相同的参考标号表示类似的但不必是相同的元件。
图1是根据各种示例的系统的框图;
图2是图示根据各种示例的数据对象100的要素的示意图;
图3是根据各种示例的系统的框图;
图4是根据各种示例的方法的流程图;
图5是根据各种示例的系统的框图;以及
图6是根据各种示例的方法的流程图。
在整个附图中,相同的部件标号表示相同或者类似的部件。
具体实施方式
组织或企业遇到的一个难题是逐渐增大量的数据对象正在被接收、创建和存储。随着量增大,在这些存储的数据对象中查找相关的数据对象变得日益困难。计算机技术的进步给用户提供了众多的选择来创建数据对象,比如电子文件和文档。例如,许多常见的、可在典型的个人计算机上执行的软件应用能够使用户生成各种类型有用的数据对象。数据对象还可以从远程网络获得、从诸如扫描仪或者数字相机之类的图像获取设备获得,或者他们可以从数据存储设备读入存储器(例如,以文件的形式)。现代的计算机系统使用户能够以电的方式获得或者创建海量的在大小、主题和格式方面变化的数据对象。这样的数据对象例如可以放置在个人计算机上、文件服务器上、网络附加存储器或者存储区域网路上、或者其他存储介质上。
通常,内容分类涉及将比如文档或者文件的数据对象分配到与之有共性的一组或多组或者一类或多类文档中——通常是因为有共享的主题、概念、构思和主题领域。
在某些系统中,可能会提供内容分类,以给数据对象,比如文档、电子邮件消息、网页或者其他数据对象,提供类别分配。在某些系统中,可能会提供内容分类,以能够基于数据对象各自的内容对它们进行处理。内容分类的一个难点是,所分配的类别可能太笼统。对内容分类的典型问题是,所用的类别不足以将数据对象与其他数据对象区分开。例如,“教育”类不足以区分学前图书、大学教材或者文化广告夜校课程,所有这些都可能被有效地描述为在教育的主题下。
在某些系统中,内容分类可能是手动进行的。手动分类的典型问题是,它是一个漫长的活动,并且要求具有内容所在领域的知识才能准确分类。因为资源的限制,手动分类通常只用于分配非常高的、抽象级别的分类。手动分类的另一个问题是,经常会出现两个人对数据对象的分类决定不同,则减少了分类的可用性,因为不能依赖常用的分类词语(term)进行检索和类似的活动。
在某些系统中,可以由计算机系统自动执行内容分类。自动分类的典型问题是,可能会误导系统,而选择了不恰当或者无意义的分类。一个问题是,内容的作者可能会在许多数据对象中使用相同的词语,即使这些数据对象可能是关于不同的主题。这会导致作者的数据对象被给予与在同一个领域内的其他数据对象不同的类别。结果,可能导致按作者分类而不是按数据对象的内容分类。
相应地,开发了本文描述的各种示例,以提供一种能够从具有现有类别的数据对象的内容判断子主题的系统。在本公开的示例中,系统包括:数据存储库;数据对象分析器,包括至少一个处理器,用于执行计算机程序代码,以从多个类别中每个类别的一个或多个数据对象的内容确定词语,并将所述词语整理在所述数据存储库中;以及模式分析器,包括至少一个处理器,用于执行计算机程序代码,以从所述数据存储库中的词语中,为从所述多个类别中选出的一个类别确定子主题,该子主题包括词语集合,该词语集合为所选类别的所述数据对象中至少一个数据对象子集的内容所共有,且基本上不在所选类别之外的数据对象中。
本文所描述的示例的优点包括:利用现有的数据对象分类来指导对有意义的、粒度更细的子分类的选择。
一个优点是,优选地选择每个子主题,使之成为一个稀疏的(小的)词语集合,比如,会在属于所述类别的数据对象(如文档)中一起出现、并且不在该类别之外的数据对象中的词。一个优点是,使用在不同的宽泛类别之间的数据中存在的差异,能够找到有意义的细粒度的子主题集合。一个优点是,子主题的明确性部分由稀疏性(每个子主题中有少量的辨别性词语)控制。一个优点是,现有的类别和子主题的结合使得能够在宽度和粒度级别进行更大范围的分类。很少的词语不能区分开宽泛类别,但是可以捕获不同的子主题,并且最终和其他这样的子主题一起覆盖宽泛类别中的所有或者大多数数据对象。
一个优点是,可以将识别子主题的处理设计成计算有效的。另一个优点是,采用小组词语形式的子主题易于理解,并且在它们自动识别出用标签标出的类别中的子主题的程度上提供对各个类别的上下文理解。
一个优点是,数据对象(比如文档)的子分类使用户能够更容易地定位相关文档。另一个优点是,子分类使得识别数据对象之间的关系成为可能。再一个优点是,子分类使得识别数据对象的主题之间的差异成为可能。
另一个优点是,数据对象处理任务,比如索引、概括和聚类的准确度得到提高,或者在发现分类不够细时,可以按照需要通过将子分类应用于要求进一步细化的类别来增加此准确度。
再一个优点是,可以利用许多源或者类型的现有类别,并可以均衡不同的现有类别类型或者类别分配机制,以提供不同的优点。
如本文所用的,“数据对象”或者“文档”指的是任何电可读取的内容,不管是作为暂态信号存储在存储器、数据存储库、文件、计算机可读介质中还是存储在其他介质中,包括但不限于文本文档、电子邮件消息、数据通信、网页、非结构化数据、以及电子书。数据对象可以包括可被翻译成集合表示的非文本内容。例如,数据对象可以包括具有可提取特征的事件集合、日志集合、图像或者声音数据,和/或其可以由词语表示的描述各个内容的元数据。
图1是图示根据各种示例的系统的框图。图1包括根据各种示例的特定组件、模块等等。但是,根据本文描述的教导,在不同的示例中可以使用更多、更少和/或其他组件、模块、组件/模块的布置等等。另外,本文描述的各种组件、模块等等可以被实现为一个或多个电子电路、软件模块、硬件模块、特殊目的的硬件(例如,专用硬件、专用集成电路(ASIC)、嵌入式控制器、硬接线电路、现场可编程门阵列(FPGA)等等)、或者这些的组合。
图1示出系统10。计算设备20通过通信链路40连接到数据存储库30。在一个示例中,通信链路40经过数据通信网络45,数据通信网络45可以是有线的、无线的、或者有线网络和无线网络的组合。在另一个示例中,通信链路是计算设备20和数据存储库30之间的直接连接,其可以是有线或无线的。在一个示例中,通信链路是总线、USB、IEEE1394类型、串行、并行、IEEE802.11类型、TCP/IP、以太网、射频、光纤或者其他类型的链路,并且客户端计算机设备包括对应的USB、IEEE1394、串行、并行、IEEE802.11、TCP/IP、以太网、射频、光纤接口设备、组件、端口或者模块,以在通信链路上进行通信。
在一个示例中,计算设备20是台式计算机、多合一计算设备、笔记本计算机、服务器计算机、手持式计算设备、智能手机、平板电脑、打印服务器、打印机、自助打印亭、系统的子组件、机器或者设备中的一种。在一个示例中,计算机设备20包括处理器21、存储器22、输入/输出端口23。在一个示例中,处理器是执行存储在存储器中的命令的中央处理单元(CPU)。在另一个示例中,处理器21是执行存储在存储器中的命令的基于半导体的微处理器。在一个示例中,存储器22包括易失性存储器元件(例如,RAM模块)和非易失性存储器元件(例如,硬盘、ROM模块,等等)中的任意一个或者其组合。在一个示例中,输入/输入端口23是到远程输入/输出端口或者队列(比如虚拟端口、共享的网络队列)或者联网的打印设备的逻辑数据连接。
在一个示例中,处理器21执行来自存储器22的计算机程序代码,以执行数据对象分析器50,从而根据多个类别中每个类别的一个或多个数据对象的内容确定词语,并将这些词语整理在数据存储库30中。
在一个示例中,词语由数据对象分析器通过对内容进行文本处理操作而确定,包括导出并去掉短词和/或预先确定的停止词(比如,“该”、“一”等等),以从内容中获得包括单个词和/或词干的词语。在一个示例中,在内容不是纯文本,而是图形、音频或者一些混合的内容类型的情况下,可以进行处理以诠释内容,例如生成将图形数据对象描述为例如一组形状、颜色和/或属性(比如,人和位置)的明显特征的集合;应用识别技术从图形数据或者音频提取出词语;除去文档、电子邮件、网站等等的格式化和/或导航;除去数据对象中的格式化标记、提取出信号中的异常,等等。
在一个示例中,处理器21执行来自存储器22的计算机程序代码,以执行模式分析器61,从而根据数据存储库30中的词语确定多个类别中所选择的一个类别的子主题,该子主题包括词语的集合,该词语的集合为所选类别的所述数据对象中至少一个子集的内容所共有,且基本上不在所选类别之外的数据对象中。
在一个示例中,模式分析器为多个类别中选出的那个类别确定多个子主题。每个子主题包括各自的词语集合,每个词语集合为所选类别的所述数据对象中至少一个子集的内容所共有(并且子集可以重叠,因此数据对象可以是一个以上子集的成员),并且基本上不在所选类别之外的数据对象中。在一个示例中,在该类别中数量占优势、且在该类别外的数据对象中数量不占优势的词语,基本上不在该类别之外的数据对象中。在一个示例中,根据度量或者加权后的度量评估词语,以确定其是否基本上不在该类别之外的数据对象中。在一个示例中,相比较于在类别之外的出现率,在该类别中具有预定量值的出现率的词语基本上不在该类别之外的数据对象中。在一个示例中,类别成员是绝对的,类别的子主题的词语集合中的词语不在所选类别之外的数据对象中。
在一个示例中,模式分析器在确定一个或多个子主题时,受优化标准的影响。
在一个示例中,优化标准包括选择子主题,在该子主题中,该类别中具有该词语集合所共有的内容的数据对象的数目最多。
在一个示例中,优化标准包括使该集合中词语的数目最小化。
在一个示例中,优化标准包括使该集合的词语在该类别之外的数据对象的内容中出现的次数最小化。
在一个示例中,一个或多个数据对象存储在数据存储库30中。在另一个示例中,一个或多个数据对象存储在一个或多个远程数据存储库中,并且例如通过数据通信网络45来访问。
在一个示例中,数据对象分析器50从数据(例如数据对象中的标签,或与数据对象关联的标签)中确定数据对象的多个类别。在另一个示例中,数据对象分析器50将每个数据对象分配到多个类别中的一个类别。
在一个示例中,数据对象分析器50和模式分析器60在分离的计算设备上执行。在一个示例中,数据对象分析器50和模式分析器60在共同的计算设备上执行。在一个示例中,数据对象分析器50和模式分析器60是计算设备执行的系统的子例程。
图2是图示根据各种示例的数据对象100的要素的示意图。图2包括根据各种示例的特定组件、模块等等。但是,在不同的示例中,可以根据本文描述的教导,使用更多、更少和/或其他组件、模块、组件/模块的布置等等。另外,本文所描述的各种组件、模块等等可以实现为软件模块、数据结构、编码数据、文件、数据流或者这些的组合。
图2是数据对象100的示意图。数据对象100包括内容110,比如原文本或者格式化后的文本。数据对象100还具有现有类别,并且包括数据120,比如识别现有类别的标签或者一组标签。在另一示例中,现有类别中的数据可能不与数据对象一起存储,并且可以从数据对象100或者元数据或者其他数据或者数据对象100的信息中继承或者获得。
在一个示例中,现有类别由远程和/或外部系统或源来分配。在一个示例中,现有类别根据宽泛分类来手动或者自动分配。例如,宽泛分类可以包括“教育”、“政治”、“小说”和“科学”的类别。
在一个示例中,现有类别从内容,比如特定关键字在该内容中的出现,来推断出或者确定;从来源,比如创作数据对象的人、组织或应用,来推断出或者确定。
在一个示例中,现有类别从数据对象的发送或者接收机制推断出或者确定,该数据对象比如本地创建的数据对象、电子邮件数据对象、邮件附件数据对象、网页数据对象。
在一个示例中,现有类别从数据对象的作者、元数据或者其他属性推断出或者确定。在一个示例中,现有类别是数据对象的作者的专业领域。
在一个示例中,现有类别从用户输入推断出,或者由用户输入指定。
数据对象的子主题是来自内容110的为数据对象的内容和子主题为之被选择作为辨别者的类别的其他数据对象共有的词语集合。
图3是图示根据各种示例的系统的框图。图3包括根据各种示例的特定组件、模块等等。但是,在不同的示例中,可以根据本文描述的教导,使用更多、更少和/或其他组件、模块、组件/模块的布置等等。另外,本文所描述的各种组件、模块等等可以实现为一个或多个电子电路、软件模块、硬件模块、特殊目的的硬件(例如,专用硬件、专用集成电路(ASIC)、嵌入式控制器、硬接线电路、现场可编程门阵列(FPGA)等等),或者是这些的一些组合。
在一个示例中,如图3所示,系统10接收对存储在相应数据存储库150中的第一类别200的数据对象100a-100e、存储在相应数据存储库151中的第二类别201的数据对象101a-101b、以及存储在相应数据存储库152中的第三类别202的数据对象102a-102c的指派。
在一个示例中,系统10为类别确定一个或多个子主题。在另一个示例中,系统10为指派的一个类别确定一个或多个子主题。为了说明之故,讨论为第一类别200确定子主题,虽然该过程与更多类别的处理相同。
系统10从类别200的数据对象100a-100e中确定两个子主题210、210a,每个子主题包括为第一类别200的数据对象100a-100e的内容所共有、且基本上不存在于第二类别201和第三类别202的数据对象的内容中的一组词语。在图示的示例中,确定数据对象100a、100b和100c,以形成第一子主题201,并确定数据对象100c和100d,以确定第二子主题。在这个示例中,数据对象100c是两个子主题的成员,而数据对象100e没有被选作任一个子主题的成员。这反映了在一个示例中,子主题不是必须要分开。在这个示例中,数据对象100c是两个子主题的部分。在一个示例中,子主题可能不完全覆盖整个类别——数据对象100e是该类别的部分,但是没有被任一子主题选择。在一个示例中,类别或者子主题中数据对象的数目是可变的。图3所示的数据对象的数目只是用于示例。在一个示例中,针对文档“ImageProcessing(图像处理)”的示例第一类别被选择作为子主题的两组不同的词语可以是:
scan(扫描);scanner(扫描仪);rbg;contrast(对比度);grayscal(灰度级);noise(噪声)
blurri(模糊化);blur(模糊);motion(运动);sharp(尖锐);de-blur(去模糊);convolut(卷积)
图4是根据各种示例的方法中的操作的流程图。在讨论图4时,可以参考图1、2、3,以提供上下文示例。但是,实施方式不限于这些示例。
在一个示例中,系统10迭代地确定集合的组成。
在步骤300处,系统10使用来自待考虑类别的数据对象100a-100e中一个数据对象的词语的不同组合,来确定候选子主题的多个初始种子。在一个示例中,待考虑类别的数据对象中的多个数据对象可以用作不同种子的源。
在步骤310处继续,然后依据度量对每个候选子主题进行评分,该度量包括候选子主题的词语集合到该类别的数据对象和非该类别的数据对象的适用性的测量。
在步骤320处继续,保留具有最优分数的候选子主题(或可选的是前N个),并丢弃其余的候选子主题。
在步骤330处,通过将来自源数据对象的内容的新的、不同的词语增加到各个相应的集合,而增长保留的候选子主题,使得候选子主题达到最大度量分数。该处理迭代多次,直到候选的子主题达到预定量的词语。
在步骤340处,选择具有最高度量分数的候选子主题。
在步骤350处,对候选子主题的词语分别根据度量进行评分,并且选择前K个词语以形成类别200的子主题。
在步骤360处,判决是否要确定进一步的子主题,如果是,则在子主题的文档中不予考虑用于子主题的词语的数据,并且操作返回到步骤300。
在一个示例中,类别和子主题的数据以与该类别的各个数据对象的链接或其他关联被写入数据库280或者其他数据存储库,各个数据对象具有和子主题的词语共有的内容。
在一个示例中,数据库280用作搜索、聚类或者数据概括系统290的索引,其中该类别和子主题充当索引,并且与数据对象的链接充当被索引项。
图5是图示根据各种示例的系统的框图。根据各种示例,图5包括特定组件、模块等等。但是,在不同的示例中,根据本文描述的教导,可以使用更多、更少和/或其他组件、模块、组件/模块的布置等等。另外,本文描述的各种组件、模块等等可以被实现为一个或多个电子电路、软件模块、硬件模块、特殊目的的硬件(例如,专用硬件、专用集成电路(ASIC)、嵌入式控制器、硬接线电路、现场可编程门阵列(FPGA)等等),或者是这些的一些组合。
在一个示例中,如图5所示,系统10经由用户界面11输出存储在相应数据存储库150中的第一类别200的数据对象100a-100e和存储在相应数据存储库151中的第二类别201的数据对象101a-101b的视觉表示。
在一个示例中,系统10经由输入/输出接口12接收指定一个或多个类别的用户输入和指定分析操作的用户输入。
在一个示例中,被指定的分析操作为“缩放(zoom)”操作,使系统10返回预定数目的子主题和与代表文档(数据对象)的链接。如果重复执行缩放分析操作,每次重复时,增加所返回的预定数目的子主题(虽然取决于数据对象的内容,但这通常具有增加每个子主题中词语的数目的效果,从而确定多个不同子主题,并且因此增加了可察觉的缩放级别)。
在一个示例中,被指定的分析操作为“diff”操作,该“diff”操作将两个类别或者更多类别的指定(或者来自这些类别的数据对象的子集的指定)视为经由用户接口11和输入/输出接口12的参数,并且使系统10返回这两个类别或更多类别中的第一类别(或者该类别的数据对象子集)唯一的子主题。
图6是根据各种示例的方法中的操作的流程图。在讨论图6时,可以参考图1、2、3、4、5以提供上下文示例。但是,实施方式不限于这些示例。
图6是描绘为实现各种示例所采取的步骤的流程图。
在步骤400处开始,生成二元数据对象词语矩阵A,以表示待考虑类别的数据对象的词语。
A∈{0,1}[n×m]
其中,只有当第i个数据对象包含在词语集合中表示该数据对象的第j个词语时,Aij=1。
矩阵A中的每行表示来自相应数据对象的词语。
矩阵A取决于要考虑的数据对象,但是典型情况下是非常稀疏的,并且唯一词语的数目通常非常大。每个文档具有一个关联的类别。在下文的讨论中,假设有t个类别C={c1,…,ct},并且每个文档与仅仅一个类别关联(单标签)。但是,在另一个示例中,所描述的方法适用于多标签,其中所有被标示到该类别的数据对象用作C,而其他的数据对象用作在另一个示例中,确定“相近类”(例如,那些共同具有许多标示出的文档的类别),在这种情况下,只有那些没有被标示到C类或者其相近类的数据对象用作
标记Ac指的是矩阵A中表示类别c中的数据对象的行,而指的是矩阵A中表示其余行中的数据对象(类别c之外的数据对象)的行。
使用二元稀疏模式向量作为分析词语模式的基础:
X∈{0,1}[m×1]
其中,如果第i个词参与了该模式,则Xi=1。
标记|X|表示属于模式向量X的多个词。注意,乘法操作AX=Y生成计数向量,该计数向量将属于X且出现在第j数据对象中的多个词保存在第j条目中。
权重向量用于引导操作,以查找出现在一类数据对象的相对较小子集中的相对稀有子主题,同时查找足够多的覆盖该类数据对象的大多数或全部数据对象的子主题:
W∈R[n×1],其中 Σ j = 1 n W j = 1 , ∀ jW j ≥ 0
权重向量Wc表示Ac的权重向量,并且表示的权重向量。
模式加权(PW),是Y的加权后LP数,其被计算为:
P W ( X , A . W ) = | | A X | | W p = Σ j = 1 n W j Y j p p
其中,Y=AX,并且
p≥1,且是系统参数(在下文讨论)。
模式增益(PG),是类别内模式加权和类别外模式加权之差的测量值,其被计算为:
P G ( X , A c , A c ‾ , W c , W c ‾ ) = | | A C X | | W c p - λ | | A c ‾ X | | W c ‾ p
其中λ≥1,且是参数。
具有针对具体类别所测量的高模式增益的模式是好的、差别分明的模式,并且是作为子主题的可能候选对象。
在一个示例中,将权重向量初始化为:
W c = 1 | A c | , W c ‾ = 1 | A c ‾ |
将系统参数初始化为:
Phigh=2,且Plow=1
λ=1
Ts(种子大小)=5
Tp(模式最大量)=20
Ns(并行生长的种子数目)=10
在步骤410处继续,选择一组初始种子。在一个示例中,将这个阶段的参数p设置为高值(典型情况是接近2)。
初始种子具有少量的词语,且如下被选择:
P=Phigh=2
{Ii}是指示向量,在第i个位置只有1。指示向量是包含1或0值(或者某个其他二元等同指示)的向量。指示向量指示索引集合(具有1值的索引)。在这种情况下,指示向量各自表示单个的索引。
每个的模式增益被计算如下:
P G ( I i , A c , A c ‾ , W c , W c ‾ ) = | | | | A c I i | | | | W c p - λ | | | | A c ‾ I i | | | | W c ‾ p
确定使模式增益最大化的指示向量则该组种子设置为:
[ X 1 s = I 1 s ... , X N s s = I i N ]
在步骤420处,将该组种子用迭代的方式增长Ts次。
对于每个1≤i≤Ns,选择下一个要加入该模式中的词语,以使模式增益(PG)最大化: j = argmax j ′ { P G ( X i s ∪ I j ′ , A c , A c ‾ , W c , W c ‾ ) }
X i s = X i s ∪ I j
在步骤430处,选择使模式增益最大化的单个种子作为种子估计阶段的输出:
i = argmax i ′ P G ( X i ′ s ) , X s = X i s
然后进行模式估计。将参数p设置为一个低的值(典型情况下,接近于1)。在步骤440,使模式增益最大化的种子被选择作为在步骤430处的种子估计阶段的输出,并且用于如下计算Ac的新权重向量:
W c = A c * X s , W c = W c | W c |
新的权重向量为包括该种子的大多数词语的数据对象分配高权重(因而,期望共享相同的子主题)。
在步骤450处,用新计算出的权重向量查找使模式增益最大化的词语的模式。因为p被设置为plow(典型情况是接近于或者等于1),模式增益是线性的,且可以按照下式独立地计算每个词语i对模式增益的贡献:
PG i ( I i , A c , A c ‾ , W c , W c ‾ ) = W c T * A c - W c ‾ T * A c ‾
在步骤460中,根据各个词语的贡献,对它们进行排序:
idx t e r m s = s o r t ( PG i ( I i , A c , A c ‾ , W c , W c ‾ ) )
在步骤470中,选择从排序中确定的K个具有最高贡献的词语,来生成K词语模式。在一个示例中,选择K为大于种子大小Ts且小于模式最大量Tp。在一个示例中,模式大小是依据词语的各个贡献量级来选择的。在一个示例中,选择模式大小,以包括直到排序后的词语中,单独贡献减小最大的词语。
在步骤480中,将K词语模式存储在存储器中,作为子主题。
在步骤490中,进行检查,以决定是否要识别进一步的子主题。在一个示例中,检查取决于执行的分析操作。在一个示例中,检查取决于考虑中的类别的所有数据对象是否都落入至少一个确定的子主题内。在一个示例中,检查取决于所确定的子主题的数目。如果要识别进一步的子主题,则在步骤495中,对Ac进行更新,以去掉与K词语模式匹配的数据对象中的K个词语的条目,并更新Wc,以为还未和子主题匹配的数据对象分配更大的权重。操作然后循环回步骤410。
算法是迭代的,每次迭代时,从数据中提取并去掉一个模式。参数p引导算法的操作。高p值驱使选择出现在一起的词语的组合,即使它们仅在几个数据对象中出现,而低p值驱使选择出现在许多数据对象中的更多共有的词语,即使它们并不总出现在一起。选择高p值导致聚焦于只出现在几个文档中的、非常少的词,而选择低p值导致选择覆盖更多数据对象的小粒度的子主题。在一个示例中,p用分类进行控制。
关于例如数据对象分析器和/或模式分析器描述的功能和操作可以被实现为计算机可读存储介质,该介质包括由处理器执行并存储在存储器中的指令。处理器通常可以表示任何指令执行系统,比如基于计算机/处理器的系统或者ASIC(专用集成电路)、现场可编程门阵列(FPGA)、计算机,或者是其他能够取得或者获取存储在存储器中的指令或逻辑并执行其中包含的指令或逻辑的系统。存储器通常表示任何被配置为存储程序指令和其他数据的存储器。
可以对所公开的示例和实施方式做出各种修改,而不背离其范围。因此,本文中的例示和示例应当以例示而非限制的意思被解释。

Claims (20)

1.一种系统,包括:
数据存储库;
数据对象分析器,包括至少一个处理器,用于执行计算机程序代码,以从多个类别中每个类别的一个或多个数据对象的内容中确定词语,并将所述词语整理在所述数据存储库中;
模式分析器,包括至少一个处理器,用于执行计算机程序代码,以从所述数据存储库中的所述词语中,为从所述多个类别中选出的一个类别确定子主题,该子主题包括词语集合,该词语集合为所选类别的所述数据对象中至少一个数据对象子集的内容所共有,且基本上不在所选类别之外的数据对象中。
2.根据权利要求1所述的系统,其中所述模式分析器的至少一个处理器进一步执行计算机程序代码以执行优化操作,从而为所述子主题选择词语。
3.根据权利要求2所述的系统,其中所述模式分析器的至少一个处理器进一步执行计算机程序代码以执行所述优化操作包括:使所述类别中具有为所述词语集合所共有的内容的数据对象的数目最大化、以及使所述词语集合中的词语数目最小化。
4.根据权利要求2所述的系统,其中所述模式分析器的至少一个处理器进一步执行计算机程序代码以执行所述优化操作包括:使所述词语集合的词语在所述类别之外的数据对象的内容中出现的次数最小化。
5.根据权利要求1所述的系统,其中所述数据对象分析器的至少一个处理器进一步执行计算机程序代码,以从下列中的一个或多个确定每个数据对象的所述类别:
所述数据对象中关于所述类别的数据;与所述数据对象关联的关于所述类别的数据;关于所述数据对象的元数据;从所述数据对象的内容确定的数据;所述数据对象的来源;所述数据对象的发送或接收机制;数据对象的类型;所述数据对象的作者;所述数据对象的作者的专业领域。
6.根据权利要求1所述的系统,进一步包括至少一个处理器,用于执行计算机程序代码,以接收指定所述类别的一个或多个用户输入。
7.根据权利要求1所述的系统,进一步包括至少一个处理器,用于执行计算机程序代码,使所述数据对象中至少所选的数据对象的图形表现根据所选的数据对象的各自类别和子标题被成组地显示。
8.根据权利要求7所述的系统,进一步包括至少一个处理器,用于执行计算机程序代码,以接收指定所述类别的一个或多个输入,其中对于指定所述类别的每个用户输入,所述模式分析器的至少一个处理器执行所述计算机程序代码,以从所述数据存储库中的所述词语中,以增加的粒度为所选类别确定子主题。
9.根据权利要求7所述的系统,进一步包括至少一个处理器,用于执行计算机程序代码,以接收指定第一类别和第二类别的输入,所述模式分析器的至少一个处理器执行所述计算机程序代码,以从所述数据存储库的所述词语中,确定为所述第一类别所共有的、包括不在所述第二类别中的词语的子主题。
10.一种非暂时性计算机可读存储介质,包含用于为一类数据对象确定一个或多个子主题的指令,所述指令在由处理器执行时使所述处理器:
从多个类别中每个类别的一个或多个数据对象的内容确定词语,并整理所述词语;
从所述词语中,为从所述多个类别中选出的一个类别确定子主题,该子主题包括词语集合,该词语集合为所选类别的所述数据对象中至少一个数据对象子集的内容所共有,且基本上不在所选类别之外的数据对象中。
11.根据权利要求10所述的非易失性计算机可读存储介质,其中所述指令在由所述处理器执行时进一步使所述处理器执行优化操作,以为所述子主题选择词语,包括:使所述类别中具有为所述词语集合所共有的内容的数据对象的数目最大化、使所述词语集合中的词语数目最小化、以及使所述词语集合的词语在所述类别之外的数据对象的内容中出现的次数最小化。
12.根据权利要求10所述的非易失性计算机可读存储介质,其中所述指令在由所述处理器执行时进一步使所述处理器访问数据,以从下列中的一个或多个确定每个数据对象的所述类别:
所述数据对象中关于所述类别的数据;与所述数据对象关联的关于所述类别的数据;关于所述数据对象的元数据;从所述数据对象的内容确定的数据;所述数据对象的来源;所述数据对象的发送或接收机制;数据对象的类型;所述数据对象的作者;所述数据对象的作者的专业领域。
13.根据权利要求10所述的非易失性计算机可读存储介质,其中所述指令在由所述处理器执行时进一步使所述处理器:致使所述数据对象中至少所选的数据对象的图形表现根据所选的数据对象的各自类别和子标题被显示在显示器上。
14.根据权利要求10所述的非易失性计算机可读存储介质,其中所述指令在由所述处理器执行时进一步使所述处理器:接收指定所述类别的一个或多个输入,并且对于指定所述类别的每个用户输入,以增加的粒度为所选类别确定子主题。
15.根据权利要求10所述的非易失性计算机可读存储介质,其中所述指令在由所述处理器执行时进一步使所述处理器:接收指定第一类别和第二类别的输入,并为所述第一类别的包括不在所述第二类别中的词语的一个或多个数据对象确定子主题。
16.根据权利要求10所述的非易失性计算机可读存储介质,其中所述指令在由所述处理器执行时进一步使所述处理器:从所选类别的一个或多个数据对象中确定多个候选子主题,每个候选子主题包括为所选类别的一个或多个数据对象的内容所共有的词语集合;
依据度量对每个候选子主题评分,所述度量包括对所述候选子主题的词语集合到所选类别的数据对象和非所选类别的数据对象的适用性的测量值;以及
依据分数从所述多个候选子主题中选出所述子主题。
17.一种用于确定一个类别的数据对象的子主题的方法,所述类别是多个类别中的一个,所述方法包括:
从所述类别的一个或多个数据对象中确定多个候选子主题,每个候选子主题包括为所述类别的一个或多个数据对象的内容所共有的词语集合;
依据度量对每个候选子主题评分,所述度量包括对所述候选子主题的词语集合到所述类别的数据对象和非所述类别的数据对象的适用性的测量值;
依据分数,从所述多个候选子主题中选择子主题;以及
将关于所选子主题的数据写入存储器,包括关于所述词语集合的、以及关于与所述类别和具有为所述子主题的词语所共有的内容的数据对象的关联的数据。
18.根据权利要求17所述的方法,其中在所述选择子主题的步骤之前,所述方法进一步包括:对于每个候选子标题,
从所述词语集合中的具有为该候选子标题的词语所共有的内容的数据对象的所述内容中选择词语,使所述候选子主题达到最大度量分数;以及
将所述词语添加到所述子主题中。
19.根据权利要求18所述的方法,进一步包括重复选择所述词语的步骤和添加所述词语的步骤。
20.根据权利要求18所述的方法,其中所述选择子主题的步骤进一步包括:依据所述度量为每个候选子主题评分,并依据每个候选子主题的分数为所述子主题选择至少一个词语子集。
CN201380076169.9A 2013-05-01 2013-05-01 内容分类 Pending CN105164672A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/039055 WO2014178859A1 (en) 2013-05-01 2013-05-01 Content classification

Publications (1)

Publication Number Publication Date
CN105164672A true CN105164672A (zh) 2015-12-16

Family

ID=51843828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380076169.9A Pending CN105164672A (zh) 2013-05-01 2013-05-01 内容分类

Country Status (4)

Country Link
US (1) US20160085848A1 (zh)
EP (1) EP2992457A4 (zh)
CN (1) CN105164672A (zh)
WO (1) WO2014178859A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11561987B1 (en) 2013-05-23 2023-01-24 Reveal Networks, Inc. Platform for semantic search and dynamic reclassification
WO2015195955A1 (en) * 2014-06-18 2015-12-23 Social Compass, LLC Systems and methods for categorizing messages
WO2016093836A1 (en) 2014-12-11 2016-06-16 Hewlett Packard Enterprise Development Lp Interactive detection of system anomalies
JP6679943B2 (ja) * 2016-01-15 2020-04-15 富士通株式会社 検知プログラム、検知方法および検知装置
US20170286521A1 (en) * 2016-04-02 2017-10-05 Mcafee, Inc. Content classification
US10419269B2 (en) 2017-02-21 2019-09-17 Entit Software Llc Anomaly detection
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038625A1 (en) * 1999-05-05 2007-02-15 West Publishing Company Document-classification system, method and software
CN102141997A (zh) * 2010-02-02 2011-08-03 三星电子(中国)研发中心 智能决策支持系统及其智能决策方法
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020089677A (ko) * 2001-05-24 2002-11-30 주식회사 네오프레스 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US8762300B2 (en) * 2011-10-18 2014-06-24 Ming Chuan University Method and system for document classification
US8996350B1 (en) * 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9116985B2 (en) * 2011-12-16 2015-08-25 Sas Institute Inc. Computer-implemented systems and methods for taxonomy development

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038625A1 (en) * 1999-05-05 2007-02-15 West Publishing Company Document-classification system, method and software
CN102141997A (zh) * 2010-02-02 2011-08-03 三星电子(中国)研发中心 智能决策支持系统及其智能决策方法
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Also Published As

Publication number Publication date
EP2992457A4 (en) 2016-11-09
US20160085848A1 (en) 2016-03-24
WO2014178859A1 (en) 2014-11-06
EP2992457A1 (en) 2016-03-09

Similar Documents

Publication Publication Date Title
US10347019B2 (en) Intelligent data munging
AU2016225947B2 (en) System and method for multimedia document summarization
CN105164672A (zh) 内容分类
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
JP2017224184A (ja) 機械学習装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN107844533A (zh) 一种智能问答系统及分析方法
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
WO2015061046A2 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
US20190286978A1 (en) Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm)
CN110706015B (zh) 一种面向广告点击率预测的特征选取方法
CN111914159B (zh) 一种信息推荐方法及终端
CN107430604A (zh) 图像内容的语义表示
CN110019790A (zh) 文本识别、文本监控、数据对象识别、数据处理方法
US10162879B2 (en) Label filters for large scale multi-label classification
US11900320B2 (en) Utilizing machine learning models for identifying a subject of a query, a context for the subject, and a workflow
US20230045330A1 (en) Multi-term query subsumption for document classification
US20220101057A1 (en) Systems and methods for tagging datasets using models arranged in a series of nodes
CN110059137A (zh) 事务分类系统
CN111930944B (zh) 文件标签分类方法及装置
Schepers et al. TwoMP: A MATLAB graphical user interface for two-mode partitioning
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN111709475A (zh) 一种基于N-grams的多标签分类方法及装置
EP3489838A1 (en) Method and apparatus for determining an association

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161021

Address after: American Texas

Applicant after: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

Address before: American Texas

Applicant before: Hewlett-Packard Development Company, Limited Liability Partnership

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180611

Address after: American California

Applicant after: Antite Software Co., Ltd.

Address before: American Texas

Applicant before: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151216