CN104364781A

CN104364781A - 用于计算类别比例的系统和方法

Info

Publication number: CN104364781A
Application number: CN201380026232.8A
Authority: CN
Inventors: A·菲拉特; M·布鲁克斯; C·宾汉姆; A·赫德安格迪伦; G·金
Original assignee: CRIMSON HEXAGON Inc
Current assignee: CRIMSON HEXAGON Inc
Priority date: 2012-05-25
Filing date: 2013-05-22
Publication date: 2015-02-18
Anticipated expiration: 2033-05-22
Also published as: EP2856334A4; EP2856334A2; US20140012855A1; US20170046630A1; HK1205583A1; SG11201407609TA; WO2013177279A3; US9483544B2; JP2015520901A; JP6320997B2; KR20150016972A; WO2013177279A2; KR101983538B1; CN104364781B

Abstract

提供了用于基于语言来分类文本的系统和方法。计算机实现的方法包括接收元素的训练集合，在训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一；接收元素的总体集合，在总体集合中的每个元素具有与其相关的多个内容简档之一；以及使用堆叠回归算法、偏差公式算法、噪声消除算法以及由多个算术方法组成的汇总方法中的至少一个基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布，其中，所述多个算术方法的结果被平均化。

Description

用于计算类别比例的系统和方法

相关申请

本申请要求2012年5月25日提交的名称为“Systems and Methods forCalculating Category Proport ions”的美国临时申请61/651,703的优先权，该临时申请通过引用被并入本文。

技术领域

本发明涉及数据挖掘系统的领域。更具体地，本发明涉及用于采用非结构化、结构化或仅部分结构化的源数据的源作为输入数据来估计文档内容在一组类别中的分布或从文档内容得到的结论的系统和方法。

背景技术

通过将源数据分类为给定类别来从源数据——包括包含文本、音频、视频和其它通信媒体的文档和文件——提取信息的努力有很长的历史。数字内容(例如网页、博客、电子邮件、数字化书籍和文章、正式政府报告和立法听证和记录的电子版本以及特别是社交媒体例如TWITTER、FACEBOOK和LINKEDIN的帖子)的数量的增加对希望挖掘这样的丰富信息源以获得有用的信息的人产生了计算挑战。

简化这个问题的一种方法是对内容分类。也就是说，将不同的内容分配到多个类别。用于确定内容在这样的类别中的分布的传统技术聚焦于增加被正确地分类的单独元素的百分比和用于这么做的技术，且然后假设单独分类的元素的总比例表示在未检查的元素的更广总体中的分布。不幸的是，即使具有单独元素的给人印象深刻的分类准确度，在例如这些的总比例中的实质偏离仍会保持，且挑战随着数据集的大小和复杂度而增加，从而使得这些传统技术不适合于很多应用。因此，源数据的元素的单独分类——包括通过自动分析或手工编码——在大规模上是不可行的。

King等人在2008年3月19日提交的并于2009年1月29日公布的US2009/0030862(“System for Estimat ing a Distribut ion of Message ContentCategories in Source Data”)中公开了一种改进的方法，其首先评估具有某些内容简档的文档的带标记的集合并将在带标记的集合中的文档分配到类别，然后直接从文档的总体集合的内容简档计算文档的分布；该方法也可参见2008年3月公布的并在http://gking.harvard.edu/可得到的DanielHopkins和Gary King的“Extracting systemat ic social science meaningfrom text”。虽然这种方法使分析大量数据变得可能，但仍然可以对分类数据时的准确度进行改进。

发明内容

本发明包括用于计算总体集合中的类别比例的系统和方法。在第一方面中，提供了计算机实现的方法。在这个方面中，计算机处理器接收元素的训练集合。在训练集合中的每个元素被分配给多个类别之一并具有与其相关的内容简档。计算机处理器还接收元素的总体集合，在总体集合中的每个元素具有内容简档。计算机处理器然后应用堆叠回归方法基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布。

在本发明的又一方面中，代替第一方面中的堆叠回归方法来应用偏差公式方法。在本发明的另一方面中，代替在第一方面中的堆叠回归方法来应用噪声消除方法。在本发明的再一方面中，代替在第一方面中的堆叠回归方法来应用由多种算术方法组成的汇总方法，这些算术方法的结果被平均化。

在本发明的再一方面中，提供了用于计算总体集合的类别比例的系统。该系统具有训练模块和总体集合类别估计模块。训练模块包括耦合到存储器的训练处理器，存储器包括使训练处理器执行下列操作的软件指令：(i)接收训练数据，训练数据包括多个训练文本元素，(ii)向用户呈现至少一些训练文本元素，从用户接收训练文本元素所属于的类别的指示，并使用所指示的类别给训练文本元素加标签，以及(iii)存储使用类别加标签后的训练文本元素。总体集合类别估计模块包括耦合到存储器的估计处理器，存储器包括使估计处理器执行下列操作的软件指令：(i)接收总体数据，总体数据包括多个总体文本元素，(ii)计算在训练集合中指示的每个类别的内容简档，(iii)计算总体集合的内容简档，以及(iv)基于与为训练集合中的元素指示的类别相关的内容简档和总体集合的内容简档来计算总体集合的属于每个类别中的比例。在执行其计算时，总体集合类别估计模块应用堆叠回归方法、偏差公式方法和噪声消除方法中的至少一个。

附图说明

图1是计算机系统的示例性实施方式的示意图；

图2是本发明的系统的体系结构图；

图3示出了根据本发明将训练集合分类到类别中；

图4A和4B示出了根据本发明的文档的内容简档的创建；

图5A和5B示出了根据本发明的总体集合和类别的内容简档的创建；以及

图6示出了根据本发明的在总体集合中的类别比例的解。

具体实施方式

提供了基于数据的内容使用一个或多个计算机服务器和存储装置来将结构化、非结构化或部分结构化数据分类的系统和方法。这涉及接收元素的第一集合，第一集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一。元素的第二集合接着被接收，第二集合中的每个元素具有与其相关的内容简档之一。接着，计算机处理器使用本文描述的算法并基于与第一集合中的元素相关的内容简档和被分配到第一集合中的元素的类别以及与第二集合中的元素相关的内容简档来计算第二集合的元素在类别上的分布。

本发明可在社交媒体分析学中找到特别的用途，其中监督机器学习算法一般用于将帖子分类成肯定的、否定的和中性的态度。这种类型的分类可能对社交媒体管理员是有用的，社交媒体管理员在提供消费者服务或创建在线社区的努力中设法与具有这些态度的那些表达观点交互。此外，通过衡量这些态度类别的比例如何随着时间的过去而改变，他们可洞察其努力的有效性。

随着社交媒体和社交媒体的相应分析的成熟，分析者寻求复杂的分析。态度类别不能给分析者提供他们需要来做出决定的更深的洞察力，因为大部分商业问题没有可从一般态度方面表达的答案。本发明可使用如下面公开的高级算法和算法汇总来处理这些商业问题。使用这些技术，分析者可为他们自己定义对他们的商业重要的类别，并可准确地衡量那些类别的比例如何随着时间的过去而改变。

与所有监督机器学习算法一样，本发明可通过使用在每个类别中的被标记的帖子例子构建给定数据集的模型来工作。这个模型然后用于分析未被标记的帖子。对于大部分社交媒体分析工具，这个加标记或“训练”由工程师完成。使用本发明，因为分析者定义其自己的类别，因此这个训练可由分析者完成。

此外，由于时间约束，分析者在训练其模型时仅可以给每类别的几打帖子加标记。相对于与传统算法一起使用的训练集合，这个大小的训练集合包含非常少的信息。此外，由分析者训练的模型必须有效地工作，即使被分析的未加标记的帖子与已训练的帖子相比具有非常不同的比例。这是在机器学习中的公知问题。当比例以这种方式不均衡时，模型中的任何含糊将引入误差。因为少量训练几乎确保模型中的含糊，因此小训练集合和不均衡数据的这种组合看起来与准确的分类不相容。

在传统算法失败的场合，本发明可成功，因为它不是分类器。它可使用高级算法或算法汇总来分析集合体中的帖子，允许它准确地衡量类别比例，而不试图将各个帖子分类。这允许本发明在训练模型时以分析者的时间的相对小的投入来展现与分析者相关的洞察力。

现在将描述某些示例性实施方式以提供对本文公开的方法、系统和装置的结构、功能、制造和使用的原理的总体理解。在附图中示出了这些实施方式的一个或多个例子。本领域中的技术人员将理解，在本文中具体描述和在附图中示出的方法、系统和装置是非限制性的示例性实施方式，并且本发明的范围只由权利要求限定。结合一个示例性实施方式示出或描述的特征可与其它实施方式的特征组合。旨在将这样的修改和变化包括在本发明的范围内。

计算机处理器

可使用一个或多个计算机系统(例如图1所示的计算机系统100的示例性实施方式)来实现本文公开的系统和方法。如所示，计算机系统100可包括可控制计算机系统100的操作的一个或多个处理器102。处理器102可包括任何类型的微处理器或中央处理单元(CPU)，其包括可编程通用或专用微处理器和/或各种专有或商业上可获得的单或多处理器系统中的任一个。计算机系统100还可包括一个或多个存储器104，其可提供对由处理器102执行的代码或从一个或多个用户、存储装置和/或数据库获取的数据的临时存储。存储器104可包括只读存储器(ROM)、闪存、一种或多种随机存取存储器(RAM)(例如静态RAM(SRAM)、动态RAM(DRAM)或同步DRAM(SDRAM))和/或存储器技术的组合。

计算机系统100的各种元件可耦合到总线系统112。所示总线系统112是代表由适当的桥、适配器和/或控制器连接的任一个或多个单独的物理总线、通信线/接口和/或多分支或点到点连接的抽象表示。计算机系统100还可包括一个或多个网络接口106、一个或多个输入/输出(IO)接口108和一个或多个存储装置110。

网络接口106可使计算机系统100能够通过网络与远程装置(例如其它计算机系统)通信，并可以是例如远程桌面连接接口、以太网适配器和/或其它局域网(LAN)适配器。IO接口108可包括一个或多个接口部件以使计算机系统100与其它电子设备连接。例如，IO接口108可包括高速数据端口，例如USB端口、1394端口等。此外，计算机系统100可以是人类用户可访问的，且因此IO接口108可包括显示器、扬声器、键盘、指示装置和/或各种其它视频、音频或字母数字接口。存储装置110可包括用于以非易失性和/或非临时性方式存储数据的任何常规介质。存储装置110可因此将数据和/或指令保持在持久状态中(即，值被保留，而不管到计算机系统100的电力的中断)。存储装置110可包括一个或多个硬盘驱动器、闪存驱动器、USB驱动器、光学驱动器、各种媒体卡和/或其任何组合，并可直接连接到计算机系统100或远程地连接到计算机系统100，例如通过网络。图1所示的元件可以是单个物理机器的一些或全部元件。此外，不是所有所示的元件都需要位于同一物理或逻辑机器上或中。相反，所示元件实质上是可分布的，例如通过使用服务器群或基于云的技术。示例性计算机系统包括传统的桌上型计算机、工作站、微计算机、膝上型计算机、平板计算机、PDA、移动电话等。

虽然在本文描绘和描述了示例性计算机系统，但应该认识到，这是为了一般性和方便起见。在其它实施方式中，计算机系统可在体系结构和操作上不同于在这里示出和描述的计算机系统。

由计算机系统100执行的各种功能可在逻辑上被描述为由一个或多个模块执行。应该认识到，这样的模块可以由硬件、软件或其组合来实现。应该进一步认识到，当以软件实现时，模块可以是单个程序的部分或一个或多个单独的程序，并可在各种环境中实现(例如作为操作系统的部分、装置驱动器、独立应用和/或它们的组合)。此外，体现一个或多个模块的软件不是信号，而是可作为可执行程序存储在一个或多个非临时性计算机可读存储介质上。在本文被公开为由特定的模块执行的功能也可由任何其它模块或模块的组合执行。

示例性体系结构

在图2中公开了用于实现本发明的示例性系统10。在这里，内容12(例如社交媒体内容和如特别示出的来自TWITTER、博客、新闻和其它社交媒体的内容或其它内容)可被导入系统10中。各个内容项有时在本文被称为“文档”或“帖子”。通常，这些帖子是文本输入，即，它们包括非结构化数据。然而，本发明可同样应用于结构化数据，例如以结构化格式存储在电子数据表或数据库中的数据，或者应用于结构化和非结构化数据的组合。内容导入器14接收文档并使它们准备好用于分析。在一个示例性预分析步骤中，文档可以被标准化(16)。标准化16可包括将来自各种各样的源的所有文档转换成字段(例如内容、日期、作者、标题等)的标准化集合。每个数据提供者可具有其字段的不同名称或格式化数据的不同方式。标准化的目的是以一致的方式(“标准”形式)存储一切，使得分析可对文档执行而不考虑其起源。标准化也可包括像移除复制品、移除是垃圾消息或具有假URL的帖子、将所有日期转换成GMT等这样的事情。内容导入器也可使用地理位置18数据给帖子加标签。也就是说，在可能的情况下，内容导入器可基于像语言、IP地址、标签或实际上包含地理位置参考的帖子之类的事物来估计帖子的位置，并可使用该位置给帖子加标签。以这种方式，分析也可以是地理特定的，以便可基于相关地理区域来执行分析。此外，导入服务器可应用可确定给定帖子的语言的语言分类器20并用该语言给帖子加标签。如同位置一样，这允许以后的分析基于语言而分离。此外，可在存储之前对内容执行其它类型的预分析以用于根据本发明的分析。

系统10也可包括计算机存储装置22，其存储导入的内容以用于分析。在一个实施方式中，可根据内容产生的时间来存储该内容(在图2中被示为根据月份来存储)。在分析常常是日期特定的情况下，根据日期来将内容布置在存储装置中可允许内容的方便和有效的检索，以用于分析。

系统10还包括分析部件24。在分析部件中，下面描述的算法被用于分析内容。分析可包括数量分析，例如多少内容提到了IPHONE 5。该分析还可包括态度分析，例如发帖人喜欢还是不喜欢IPHONE 5。分析优选地包括基于分析者所选择的类别的发帖人观点。分析部件也可包括其它类型的分析。

系统10可通过首先向人类用户42呈现多个范例帖子40来操作，如图3所示。人类用户将帖子分类为用户定义的类别44——在图3中被示为三种类别，虽然可使用任何数量的类别。由人类用户分类的帖子的集合可被称为训练集合。其余帖子——将由系统分析的帖子——可被称为总体集合。

接着，如图4A所示，可为每个帖子创建内容简档。该简档可指示特征的存在或不存在，其中特征可以是字母、符号、字、字根或这些事物中的任何的组合。在优选实施方式中，简档指示字或字根的存在或不存在。如在图4A中的第一个帖子40中所示的，帖子包含A、C和D。因此，在图表中，A、C和D被指示为存在于该帖子中，而B和E不存在。其它帖子40具有其它组合。在更具体的例子中，TWITTER帖子可被分析以指示一组字根的存在或不存在。可接着在下面描述的进一步分析中使用帖子的这个内容简档。如在图4B中所指示的，在分析的这个部分结束时，在训练集合中和在总体集合中的每个文档具有简档。

现在转到图5A，分析算法选择随机特征组合，例如字或字根组合，并测量其排列在总体集合中和在训练集合的每个类别中的频率。然后针对各种字组合和排列重复这个过程，如图5B所示。这些排列的组合的发生导致用于总体集合和每个类别的唯一内容简档。

现在，有了用于总体集合和每个类别的内容简档，算法可求出类别比例，其当组合时产生接近于总体集合的内容简档的内容简档。由图6中的例子示出的结果提供落在每个类别中的帖子的百分比，而不必分析每个单独的帖子。

分析模块/算法

现在将描述在上面示出的系统和方法中有用的算法。在第一实例中，在King等人的美国公布的编号为2009/0030862的专利申请中描述的算法可与系统一起使用，特别是在不同算法的汇总如下所述被使用的场合。然而，发明人创建了可在各种情况下提供高度准确的结果的算法，其可优选地应用于上面描述的系统和方法。

如上面提到的需要分析的问题是随着时间的过去量化成文本语料库的观点类别比例。用户通过在训练期间(对训练集合进行训练期间)为每个类别提供示例性文档来定义观点类别比例。现在将为了说明在现有技术中的问题的目的而描述用于量化类别比例的两种传统解决方案。第一传统解决方案是基于回归的，并如下操作：

首先，在训练期间被标记的文本文档和将被量化的文本文档都被转变成术语-文档矩阵，其中行对应于文档，列对应于术语，且单元对应于在文档中的术语的存在或不存在，如例如在图4A和4B中所示的。可如在图5A和5B中所示的通过对一组字随机采样并计算所有现有的排列的字-简档频率来将术语-文档矩阵进一步转换成字-简档分布。

令X＝P(S/D)是被给出从训练例子构造的观点类别的字-简档分布，Y＝P(S)是在待量化的文档中的字-简档分布。量化类别比例β＝P(D)然后减小到对下列方程进行求解的任务：

Y＝Xβ

当自变量X在没有任何误差的情况下被测量时，可通过经典多回归来获得这个方程的解。在我们的问题中，经由采样来测量自变量，因而包含采样误差，且经典回归方法不能用于产生无偏差的结果。

可通过使用下面的建模方法来量化这个偏差：

在测试或总体集合中，我们有Y＝Xβ，且在训练集合中我们有Y^*＝X^*β^*。X和X^*都来自相同的特定于类别的字-简档分布，但它们的分布基于样本大小而改变，并可以如下以正态近似来建模：

X_jk～P_jk+u_jk,其中u_jk～N(0,P_jk(1-P_jk)/N_k)

X^* _jk～P_jk+e_jk,其中e_jk～N(0,P_jk(1-P_jk)/n_k)

使用一些简化假设，经典多回归解可被示为具有偏差分量，其为真实类别比例β的函数：

\hat{β} = β - {(P^{'} P + Σ_{E})}^{- 1} Σ_{E} β - - - (1)

简略地，当在自变量中有误差时，已知回归过程产生有偏差的结果。因为在这里通过采样来得到来自训练集合的转换的自变量，因此它们确实会包含误差。虽然不希望被约束到本发明的任何特定的理论，但本发明人认为这会引起误差。这个问题在本文被称为“变量中的误差”。

第二传统解决方案基于使用标记的例子(训练)将分类算法应用于感兴趣(测试)的语料库，并通过简单地数预测的类别标记来构造直方图。这种方法的根本问题是，分类算法的准确度实质上取决于训练和测试文档是否有相同的分布。分类算法在测试时引入偏差，且训练分布是不同的。然而，测试和训练分布被预期实质上不同；因此我们不能使用基于分类的直方图方法。

在一个方面中，本发明包括使用多种不同的方法的平均来估计类别比例的汇总类型解决方案。在这个方面中，大于一的任何数量的方法可被使用和平均化，在一个实施方式中，用于估计类别比例的五种方法被使用和平均化。所选择的方法可包括在上面提到的King等人公布的专利申请中描述的那些方法、下面描述的方法或未在本文或在King等人的申请中公开的方法。

在又一方面中，本发明包括用于估计类别比例的三种新方法中的至少一个。三种新方法中的第一种被称为“堆叠回归”方法。堆叠回归是上面描述的回归方法的变形。这三种方法中的第二种被称为“偏差公式”方法，且它使用堆叠回归作为输入。这三种方法中的第三种被称为“噪声消除”方法。本发明可包括这三种方法之一的应用以估计类别比例，或任意一种或多于一种方法可被使用或与其它方法组合在汇总方法中。

可在计算机系统上用软件(例如使用如上所述的模块)来实现这些方法中的任一种。

堆叠回归：

在现有的基于回归的方法中，使用少量的所产生的数据行一次执行一个术语-文档矩阵到字-简档转换。为了补偿在每个回归中的少量数据行，几百个回归被完成和平均化。

可选的方法是“堆叠”在几百个回归中使用的数据并替代地同时使用所有数据行运行单个回归。在数学上，只进行堆叠不会移除偏差，因为当在变量中有误差时，最小二乘估计是不一致的估计。我们使堆叠方法与加权回归耦合，其中每个数据行的权重是其估计总方差的倒数，如下所示。

W = diag {(\frac{Σ_{k} (P_{jk} (1 - P_{jk})}{n_{k}})}^{- 1}

通过使用权重，我们能够包含高方差行的影响并因此减小预期偏差。

偏差公式：

我们使用用于从简单估计来估计真实类别比例的统计近似来得到偏差公式。偏差校正使用下面的方程来调节简单最小二乘估计

β = {(1 - A^{'} {({AX}^{'} {XA}^{'} + {AE}^{'} {EA}^{'})}^{- 1} {AE}^{'} E)}^{- 1} \hat{β}

其中如下使用gram-schmidt正交标准化来得到A(在像R一样的符号中)：

G＝diag(1,k)

G[1,]＝rep(1/k,k)

G＝gram.schmidt(G.orthnorm＝2:k)

A＝G[2:k,]

E^{'} E = diag (\frac{Σ_{j} (P_{jk} (1 - P_{jk})}{n_{k}}) \approx diag (\frac{Σ_{j} ({X^{*}}_{jk} (1 - {X^{*}}_{jk})}{n_{k} - 1})

噪声消除：

在我们的问题中，Y＝Xβ(test)和z＝X*β(trainzng)(分别对于测试和训练分布X和X^*的任何给定的β和随机变量)都可被考虑为具有相同的平均值但不同的方差的随机变量。如果我们使用正态近似对测试和训练集合中的噪声建模，则我们有：

X_jk～P_jk+u_jk，其中u_jk～N(0,P_jk(1-P_jk)/N_k)

X^* _jk～P_jk+e_jk，其中e_jk～N(0,P_jk(1-P_jk)/n_k)

让我们将Y和X^*β的差异定义为另一随机变量：θ＝(Y-Z)＝(X-X^*)β。

这个新随机变量是纯粹噪声——在测试和训练数据中使用不同的样本大小的结果，且我们想从我们的平方误差计算的和中减去这个噪声(平方)的预期值。更具体地，我们想找到其为下面的最小化问题的解(注意，粗体变量是随机变量，而无格式变量是在测试和训练中这些随机变量的观测值)：

\min f (\hat{β}) = {(Y - X^{*} \hat{β})}^{'} (Y - X^{*} \hat{β}) - E ({(Y - X^{*} \hat{β})}^{'} (Y - X^{*} \hat{β}))

s . t . Σ \hat{β} = 1

的估计被得到为：

Σ_{j = 1}^{M} E ({θ_{j}}^{2}) = E (Σ_{j = 1}^{M} Σ_{k = 1}^{K} {X^{*}}_{jk} (1 - {X^{*}}_{jk})) (\frac{β_{k}}{N} + \frac{{β_{k}}^{2}}{n_{k}} (\frac{n_{k}}{n_{k} - 1}))

这意味着可如下使用我们对P_jk的最佳估计来估计平方误差的和的预期值：

Σ_{j = 1}^{M} Σ_{k = 1}^{K} P_{jk} (1 - P_{jk}) * (\frac{β_{k}}{N} + \frac{{β_{k}}^{2}}{n_{k}})

我们目前执行来对最优化过程求解的数值过程如下：

1)产生真实β某个估计，即，β₀。

2)产生具有α＝25*β₀的5000个狄利克雷(Dirichlet)变量。

3)计算5000个值中的每个的并按升序将它们排序。

4)对来自步骤3的前100个值取平均。

基于上面描述的实施方式和目的，本领域中的普通技术人员将认识到本发明的另外的特征和优点。因此，本发明不被特别示出和描述的内容所限制，除了如所附权利要求或被最终提供的那些权利要求所指示的以外。在本文中引用的所有公布物和参考资料通过引用全部被明确地并入本文，且本发明明确地包括在上文和所合并的参考资料中包括的特征的所有组合和子组合。

Claims

1.一种由计算机处理器执行的计算机实现的方法，包括：

(a)由所述计算机处理器接收元素的训练集合，在所述训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一；

(b)由所述计算机处理器接收元素的总体集合，在所述总体集合中的每个元素具有与其相关的所述多个内容简档之一；以及

(c)由所述计算机处理器应用堆叠回归方法基于与所述训练集合中的元素相关的内容简档和分配到所述训练集合中的元素的类别以及与所述总体集合中的元素相关的内容简档来计算所述总体集合的元素在所述类别上的分布。

2.一种由计算机处理器执行的计算机实现的方法，包括：

(c)由所述计算机处理器应用偏差公式方法基于与所述训练集合中的元素相关的内容简档和分配到所述训练集合中的元素的类别以及与所述总体集合中的元素相关的内容简档来计算所述总体集合的元素在所述类别上的分布。

3.一种由计算机处理器执行的计算机实现的方法，包括：

(c)由所述计算机处理器应用噪声消除方法基于与所述训练集合中的元素相关的内容简档和分配到所述训练集合中的元素的类别以及与所述总体集合中的元素相关的内容简档来计算所述总体集合的元素在所述类别上的分布。

4.一种由计算机处理器执行的计算机实现的方法，包括：

(c)由所述计算机处理器应用由多个算术方法组成的汇总方法基于与所述训练集合中的元素相关的内容简档和分配到所述训练集合中的元素的类别以及与所述总体集合中的元素相关的内容简档来计算所述总体集合的元素在所述类别上的分布，所述多个算术方法的结果被平均化。

5.如权利要求4所述的计算机实现的方法，其中所述汇总包括堆叠回归方法。

6.如权利要求4所述的计算机实现的方法，其中所述汇总包括偏差公式方法。

7.如权利要求4所述的计算机实现的方法，其中所述汇总包括噪声消除方法。

8.一种用于计算总体集合的类别比例的系统，包括：

训练模块，其包括耦合到存储器的训练处理器，所述存储器包括使所述训练处理器执行下列操作的软件指令：

接收训练数据，所述训练数据包括多个训练文本元素；

向用户呈现至少一些训练文本元素，从所述用户接收训练文本元素所属于的类别的指示，并使用所指示的类别给训练文本元素加标签；以及

存储使用类别加标签后的训练文本元素；以及

总体集合类别估计模块，其包括耦合到存储器的估计处理器，所述存储器包括使所述估计处理器执行下列操作的软件指令：

接收总体数据，所述总体数据包括多个总体文本元素；

计算在所述训练集合中指示的每个类别的内容简档；

计算所述总体集合的内容简档；以及

基于与为所述训练集合中的元素指示的类别相关的内容简档和所述总体集合的内容简档来计算所述总体集合的属于每个类别中的比例；

其中，计算所述比例包括应用堆叠回归方法、偏差公式方法和噪声消除方法中的至少一个。

9.如权利要求8所述的系统，其中计算所述比例包括应用汇总中的多种计算方法并对不同的方法的结果取平均。

10.如权利要求8所述的系统，其中计算所述比例包括堆叠回归方法。

11.如权利要求8所述的系统，其中计算所述比例包括偏差公式方法。

12.如权利要求8所述的系统，其中计算所述比例包括噪声消除方法。