CN103782309B - 用于机器学习分类器的自动数据清除 - Google Patents

用于机器学习分类器的自动数据清除 Download PDF

Info

Publication number
CN103782309B
CN103782309B CN201280019651.4A CN201280019651A CN103782309B CN 103782309 B CN103782309 B CN 103782309B CN 201280019651 A CN201280019651 A CN 201280019651A CN 103782309 B CN103782309 B CN 103782309B
Authority
CN
China
Prior art keywords
document
group
documentation
sets
unvds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280019651.4A
Other languages
English (en)
Other versions
CN103782309A (zh
Inventor
H.H.马利克
M.奥洛夫-奥尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Financial and Risk Organisation Ltd
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN103782309A publication Critical patent/CN103782309A/zh
Application granted granted Critical
Publication of CN103782309B publication Critical patent/CN103782309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

公开了用于改进机器学习分类器的训练的系统和技术。使用经验证文档组来训练分类器,所述经验证文档准确地与类标记组相关联。还识别和使用未验证文档的子集来进一步训练分类器和改进分类器的准确率。

Description

用于机器学习分类器的自动数据清除
相关申请的交叉引用
本申请要求2011年2月22日提交的名称为“Information Processing andVisualization Methods and Systems”的美国临时申请No. 61/445,236以及2001年3月11日提交的名称为“Automatic Data Cleaning for Machine Learning Classifiers”的美国非临时申请No. 13/046,266的优先权,上述申请的内容以其整体并入到本文中。
技术领域
本公开涉及机器学习,并且更具体地,涉及用于改进机器学习分类器的准确率的系统和方法。
背景技术
当今,存在对将机器学习用于分析数据的不断增加的兴趣。机器学习是指对允许计算机识别复杂模式并基于经验数据作出智能决定的计算机算法的设计和开发。
通常,对文档执行文本分类的机器学习系统包括分类器。为分类器提供训练数据,在该训练数据中,已经用正确的标记或类对每个文档进行标记(例如,标识)。被标记的文档数据用于训练此后用于标记/分类类似文档的分类器的学习算法。分类器的准确率密不可分地依赖于被包括在训练数据中的正确标记的文档的质量和数量。
通常,从手动地将类标记分配给文档的专家得到用于分类器的训练数据。然而,手动分配固有地展现特定水平的不一致性,这是因为具有不同水平的领域知识和经验的专家可能以不同方式解释相同类。此外,手动分配的繁重性质可能进一步加剧这样的需要:将大量正确标记的文档提供给分类器以便很好地归纳。此外,专家对类标记的手动分配可能是昂贵的过程。
相应地,存在对用于为分类器产生训练数据的改进系统和技术的需要。
发明内容
公开了用于改进机器学习分类器的训练的系统和技术。使用经验证文档的组来训练分类器,所述经验证文档准确地与类标记组相关联。还识别和使用未验证文档的子集来进一步训练分类器和改进分类器的准确率。
所述系统的各方面涉及产生训练数据和使用所产生的训练数据训练分类器。
例如,根据一个方面,公开了一种训练初始受训分类器(ITC)的方法,所述ITC使用与类标记组相关联的经验证文档组而产生。所述经验证文档组被分成训练文档组和测试文档组,并且类标记组的每个类都与类列表相关联。所述训练文档组已经被进一步分成整数个经验证文档组(INVDS),所述方法包括:自动输入未验证文档组到ITC中,所述未验证文档组被分成整数个未验证文档组(UNVDS);以及自动识别来自所述未验证文档组的文档子集。所述方法还包括:基于所述文档子集和所述经验证文档组,自动产生最终训练文档组;以及使用所述最终训练文档组训练所述ITC。所述方法还可以包括:使用所述最终训练文档组训练多个分类器;以及将所述多个分类器应用于所述测试文档组。
在一个实施例中,所述方法还包括:执行包括以计算机编程语言编写的第一循环结构的第一循环代码段,其中所述第一循环代码段在运行时间至少被执行n次,其中n是第一循环终止条件中的第一变量在运行时间的值;执行包括以计算机编程语言编写的第二循环结构的第二循环代码段,其中所述第二循环代码段至少被执行p × n次,其中p是第二循环终止条件中的第二变量在运行时间的值;以及执行包括以计算机编程语言编写的第三循环结构的第三循环代码段,其中所述第三循环代码段被执行p × n × q次,其中q是第三循环终止条件中的第三变量在运行时间的值。
在一个实施例中,对于执行第一循环代码的n次中的每一次,所述方法包括:将INVDS的第一部分分配给第一文档组;将INVDS的第二部分分配给第二文档组,所述第一部分不同于所述第二部分;以及使用所述第一文档组中的文档针对与所述类标记组相关联的每个类训练所述ITC。所述方法还包括:将多个分类器应用于所述第二文档组中的文档;以及计算与所述第二文档组中的文档相关联的第一组F1分数。所述第一文档组和所述第二文档组可以没有共同的文档。
在另一个实施例中,对于执行第二循环代码的p次中的每一次,所述方法包括:将简档组中的至少一个简档应用于UNVDS的每个文档,所述至少一个简档定义了要应用于UNVDS的每个文档的规则;将UNVDS的至少一个文档与被包括在所述第一文档组中的所有文档相比较;以及基于所述比较从UNVDS中删除所述至少一个文档。所述规则可以包括类标记保持方案、类标记添加方案或其组合。
所述方法可以包括:按简档严格性的降序将被包括在所述简档组中的多个简档应用于UNVDS的每个文档。此外,在一个实施例中,如果来自UNVDS的所述至少一个文档类似于被包括在第一文档组中的任何文档,则从UNVDS中删除所述至少一个文档。比较所述至少一个文档包括计算所述至少一个文档的余弦相似性。
在又一个实施例中,对于执行第二循环代码的p次中的每一次,所述方法包括:通过将被包括在第一文档组中的文档与未从UNVDS删除的文档进行合并,形成第三文档组;以及使用集群(clustering)算法对第三文档组进行集群。
所述方法还可以包括:对于执行第三循环代码的q次中的每一次:对于在类标记组中定义的每个类,将ITC应用于UNVDS中的所有文档;形成来自UNVDS的文档子集,所述文档子集中的每个文档具有至少一个与其相关联的类;使用所述第一文档组和所述文档子集中的文档训练第二分类器;以及将第二分类器应用于第二文档组。
在一个实施例中,所述方法还包括:计算与所述第二文档组中的文档相关联的第二组F1分数;将来自第二组F1分数的与类标记相关联的F1分数同来自第一组F1分数的与所述类标记相关联的对应F1分数相比较;基于所述比较来更新所述类标记的最佳分数;以及基于所述比较将来自所述文档子集的文档添加到类标记列表。
公开了包括存储用于实施各种技术的机器可读指令的机器可读介质的系统以及物品。在下文中更详细地讨论各种实施例的细节。
从以下详细描述、附图和权利要求中,附加的特征和优点将显而易见。
附图说明
图1是根据本发明的一个实施例的示例性的基于计算机的分类器系统的示意图;
图2A-B示出了根据本发明的一个实施例的改进用于分类器的训练数据的示例性方法;
图3是根据本发明的一个实施例的标记保持和添加方案的示例。
各个图中相似的附图标记指示相似的元件。
具体实施方式
本发明包括促进用于训练分类器的数据的自动数据清除(例如,除去噪声、不一致数据和误差)的方法和系统。具体地,公开了用于优化可用于训练初始受训分类器(ITC)的训练数据的量的系统和方法。本发明在训练数据有限的场景中特别有益,这可以对分类器的准确率具有显著影响。
已知的是,训练数据的数据清除通常比机器学习算法中的改进产生更高的准确率增益。通过由于对更大组的更清洁数据(cleaner data)的训练而提供分类器准确率的增益,本发明是有用的。由于不需要专家以将类标记手动分配给所有训练文档,还可以获得降低的生产成本。有利的是,本发明可以在不同类型的分类器和领域的情况下被用作要在开发和训练机器学习分类器时使用的通用方法。
提供了以下定义来促进对本公开的理解,并且这些定义是标准机器学习术语。
如此处所使用的那样,术语“分类器”是指接受未标记的文档作为输入且返回离散类的软件组件。在分类器被用在未标记的文档上之前,在已标记的文档上训练该分类器。
如此处所使用的那样,术语“训练”是指下述过程:通过该过程,分类器根据训练数据组产生模型和/或模式。训练数据组包括已经被映射(例如,标记)到“已知良好”的类的文档。
如此处所使用的那样,术语“文档”是指被输入到分类器中的信息的组。示例文档包括但不限于电子文件和记录。
如此处所使用的那样,术语“类”是指文档与之相关联的离散类别。分类器的功能是预测文档所属的离散类别(例如,标记、类)。
如此处所使用的那样,术语“标记”是指将文档与正确类组相关联的过程。
如此处所使用的那样,术语“准确率”是指分类器对测试数据组执行的正确或不正确标记的比率。
如此处所使用的那样,短语“测试数据”是指用于估计准确率的数据组。
现在转到图1,公开了在其内可以实施本发明的实施例的适当计算系统10的示例。计算系统10仅是一个示例,并不意图暗示任何关于本发明的使用范围或功能的限制。也不应当将计算系统10解释为具有与所示组件中的任一个或组合有关的任何依赖性或需求。
例如,本发明可操作于多种其它通用或专用计算消费电子装置、网络PC、小型计算机、大型计算机、膝上型计算机、以及包括上述系统或装置中的任一个的分布式计算环境等等。
可以在被计算机执行的诸如程序模块之类的计算机可执行指令的一般上下文中描述本发明。通常,程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和结构等。本发明可以在分布式计算环境中实施,在分布式计算环境中,任务由通过通信网络链接的远程处理装置执行。在分布式计算环境中,程序模块位于包括存储储存装置的本地和远程计算机储存介质二者中。在下文中并且借助附图描述由程序和模块执行的任务。本领域技术人员可以将说明书和附图实施为处理器可执行指令,所述指令可以被编写在任何形式的计算机可读介质上。
在一个实施例中,参考图1,系统10包括服务器装置12,该服务器装置12被配置成包括:诸如中央处理单元(“CPU”)之类的处理器14、随机存取存储器(“RAM”)16、一个或多个诸如显示装置(未示出)和键盘(未示出)之类的输入-输出装置18、以及非易失性存储器20,它们全部经由公共总线22互连并由处理器14控制。如图1示例中所示,在一个实施例中,非易失性存储器20被配置成包括用于产生训练文档组的分类器分析器24和一个或多个机器学习分类器26,所述机器学习分类器26是使用所产生的训练文档组来训练的。在一个实施例中,机器学习分类器是二进制文本分类器。在下文中更详细地讨论分类器模块24和机器学习分类器26的附加细节。
网络28可以包括各种装置,诸如以内联网、外联网或互联网配置连接的路由器、服务器和交换元件。在一个实施例中,网络28使用有线通信来在访问装置(未示出)、服务器装置12和操作数据储存器30之间传输信息。在另一个实施例中,网络28采用无线通信协议来在访问装置、服务器装置12和操作数据储存器30之间传输信息。在另外其他实施例中,网络采用有线和无线技术的组合来在访问装置、服务器装置12和操作数据储存器30之间传输信息。
操作数据储存器30是维护和存储分类器分析器24和机器学习分类器26所利用的信息的储存库。在一个实施例中,操作数据储存器30是关系数据库。在另一个实施例中,操作数据储存器30是诸如轻型目录访问协议(“LDAP”)之类的目录服务器。在又一个实施例中,操作数据储存器30是服务器12的非易失性存储器20的区域。
如图1中所示,在一个实施例中,操作数据储存器30包括类数据储存器(CLS)32,该类数据储存器32存储在将文档分类为一个或多个离散类别时使用的类标记的分类系统(taxonomy)。还提供了未证明文档数据储存器(UDS)33和证明文档数据储存器(CDS)34,所述未证明文档数据储存器33包括具有与每个文档相关联的零(0)个或多个类标记的文档组,并且尚未被专家独立验证,所述证明文档数据储存器34包括具有与每个文档相关联的一(1)个或多个类标记的文档组,并且已经被专家独立验证。
如图1示例中所示,操作数据储存器30还被配置成维护和存储简档数据储存器(PROFILES(简档))35和结果数据储存器(FTDS)36,所述简档数据储存器35包括对用于添加和保持与文档相关联的类标记的规则/方案进行定义的简档,所述结果数据储存器36包括由分类器分析器24通过组合CDS 34中存储的文档与被存储在UDS 33中的选定文档子集而产生的训练数据。结合图2A-B讨论这些数据储存器32-36中每一个的附加细节。
尽管图1中所示的操作数据储存器30连接到网络28,但是本领域技术人员将理解,操作数据储存器30和/或图1中所示的数据储存器32-36中的任一个可以分布在各种服务器上且对服务器12来说可经由网络28访问,直接耦合到服务器12,或者被配置在服务器12的非易失性存储器20的区域中。
此外,应当注意,图1中所示的系统10是本公开的一个实施例。本公开的其它系统实施例可以包括未示出的附加结构,诸如辅助储存器和附加计算装置。此外,本公开的各种其它实施例包括比图1中所示的那些更少的结构。例如,在一个实施例中,本公开以非联网的独立配置在单个计算装置上实施。经由诸如键盘和/或鼠标之类的输入装置将数据输入传递到计算装置。从计算装置将系统的数据输出传递给诸如计算机监视器之类的显示装置。
现在参考图2A-B,公开了一种用于使用由分类器分析器24产生的训练文档组来训练初始受训分类器(ITC)的计算机实现方法。该方法包括执行多个循环代码段,所述循环代码段包括以计算机编程语言编写的循环结构。基于对应循环终止条件中包括的变量在运行时间的值,在运行时间多次执行每一个所述循环代码段。在一个实施例中,使用三个循环代码段和对应的循环终止条件实施所述方法。在另一个实施例中,如下文中所阐述,使用具有对应循环终止条件的四个循环代码段实施所述方法。
例如,在一个实施例中,如图2A的步骤40处所示,分类器分析器24为在CLS数据储存器32中定义的每个类初始化文档候选列表(LST)。文档列表LST被分类器分析器24用来存储要被添加到训练数据的文档候选。在初始化时,LST不包括文档。接下来,在步骤42处,分类器分析器24将多个计数器变量C1、C2、C3和C4初始化为值一(1)。所述多个计数器变量C1、C2、C3和C4中的每一个用于确定要执行循环代码段的次数。一旦计数器变量和列表初始化完成,则在步骤44处,分类器分析器24将被包括在CDS数据储存器34中的文档分成文档训练组(TRN)和文档测试组(TST)。TRN数据组包括已被准确地标记为已知群组类的文档,而TST数据组包括用于估计在TRN数据组上训练的机器学习分类器的准确率的文档。在一个实施例中,分类器分析器24分别基于与TRN文档组和TST文档组相关联的用户定义的百分比,随机地将文档组分成TRN文档组和TST文档组。
接下来,在步骤46处,分类器分析器24将TRN数据组分成多个K个文档组,其中K是整数值。在一个实施例中,被包括在所述K个文档组中的每一个中的文档的数量近似相等。一旦TRN数据组被分成K个文档组,则在步骤48处,分类器分析器24将K个文档组的所有文档分配给总文档组(TD),除了用计数器变量C1引用的以下被称为K(C1)数据组的文档组之一。接下来,在步骤50处,分类器分析器24将K(C1)数据组分配给单个文档组(SD)。
接下来,在步骤52处,使用TD组中的文档,为CLS数据储存器32中的每个类训练机器学习分类器26中的第一分类器。接下来,在步骤54处,分类器分析器24将所有机器学习分类器26应用于所述SD文档组。在一个实施例中,分类器分析器24为所确定的每个类计算并记录F1分数(例如,考虑测试的精确度(p)和召回率(r)二者的测试准确率的度量,如在本领域中已知)。一旦机器学习分类器26受到训练,则在步骤56处,分类器分析器24将来自UDS33的文档分成UDS文档的N个数据组,其中N是整数值。
一旦来自UDS 33的文档被分为N个数据组,则在步骤58处,分类器分析器24将从PROFILES数据储存器35访问的多个标记保持和添加规则/方案应用于所述N个数据组之一。基于计数器变量C2中存储的值来识别该特定N数据组,以下被称为N(C2),并且,被应用于该N数据组的特定标记保持和添加规则/方案基于计数器变量C3的值。每个规则与在被满足的情况下触发所述规则的准则相关联。在一个实施例中,基于严格性的降序(例如,必须被满足的准则)将所述规则应用于该N数据组。
结合图3示出了示例标记保持和添加方案。这些方案通过考虑现有被标记数据为每个未标记文档预测类有多好来添加或保持标记。短语“集群邻域(neighborhood)”是指出现在任何集群中的文档组。如果将未标记文档与属于类“c”的至少K个被标记的文档进行集群,则该未标记文档被认为是类“c”的“高度信任”集群邻域的一部分。对于将集群邻域认为是“高度信任”,其它集群算法专用准则也是可能的。
例如,图3的第1项中所示的方案的准则需要:为了保持已经被分配给未标记文档“d”的类标记“c”,或者为了将类标记“c”添加到未标记文档“d”,文档“d”必须出现在“c”的“高度信任”邻域中并被在标记数据上训练的分类器分配有类标记“c”。图3的第2项中所示的方案的准则需要:为了保持已经被分配给未标记文档“d”的类标记“c”,或者为了将类标记“c”添加到未标记文档“d”,文档“d”必须出现在还包含被标记有“c”的至少一个现有文档的至少一个集群中,并被在标记数据上训练的分类器分配有类标记“c”。
再次参考图2A,在步骤60处,分类器分析器24除去N(C2)数据组中与TD数据组中的任何文档相似的任何文档。在一个实施例中,分类器分析器24应用余弦相似性来确定文档相似性,并从N(C2)数据组除去所计算的余弦值等于或超过预定值的任何文档。然后,分类器分析器24在步骤62处通过将N(C2)数据组中的所有剩余文档与TD数据组合并来形成新的文档组L。在一个实施例中,然后,在步骤64处,分类器分析器24使用集群算法对所述文档组L进行集群。可以使用本领域中已知的各种集群技术来对文档组L进行集群。
接下来,在步骤66处,在与用存储在C4变量中的值引用的CLS数据储存器32中的类相关联的N(C2)数据组的所有剩余文档上训练机器学习分类器26中的第一分类器。然后,在步骤68处,分类器分析器24针对关联的类向N(C2)数据组中的所有文档应用从PROFILES数据储存器35访问的标记保持和添加规则/方案。
一旦已经应用了标记保持和添加规则,则在步骤70处,分类器分析器24从已分配用C4变量引用的类的N(C2)数据组的子集形成Q文档数据储存器。然后,在步骤72处,使用TD数据组和Q文档数据储存器的文档来训练机器学习分类器26中的第二分类器。接下来,在步骤74处,将机器学习分类器26中的第二分类器应用于SD数据组,并且通过分类器分析器24计算用值C4引用的CLS数据储存器32中的类的F1分数。
在步骤76处,分类器分析器24将用值C4引用的类的所计算出的F1分数与该类的当前最佳分数相比较。如果分类器分析器24确定该类的所计算出的F1分数高于该类的先前存储的最佳分数,如步骤78中所示,则分类器分析器24更新该类的最佳分数值,如步骤80中所指示,将来自Q文档数据储存器的文档添加到文档候选列表LST,如步骤82中所指示,并且然后递增C4,如步骤84中所指示。
接下来,在步骤86处,评估第一循环终止条件。分类器分析器24确定计数器变量C4中存储的值是否大于CLS数据储存器32中存储的类的总数。如果计数器变量C4的值不大于类的总数,则在第一循环代码段中重复上述方法的步骤66-86。否则,如步骤87处所示,分类器分析器24递增C2。
接下来,在步骤88处,评估第二循环终止条件。分类器分析器24确定计数器变量C2中存储的值是否大于N个数据组的数量。如果计数器变量C2的值不大于N个数据组的数量,则重复第二循环代码段的步骤60-88。否则,如果C2变量的值超过N个数据组的数量,则在步骤90处,分类器分析器24递增C3。
接下来,在步骤92处,分类器分析器24将变量C3的值与存储在PROFILES数据储存器35中的标记保持和添加规则/方案的总数相比较。如果计数器变量C3的值未超过存储在PROFILES数据储存器35中的标记保持和添加规则/方案的总数,则重复第三循环代码段的步骤58-92。否则,如果计数器变量C3的值超过标记保持和添加规则/方案的总数,则如步骤94处所示,分类器分析器24递增C1,并在步骤96处确定计数器变量C1的值是否超过K个数据组的总数。如果计数器变量C1的值未超过K个数据组的总数,则重复第四循环代码段的步骤48-96。
否则,在步骤98处,对于在CLS数据储存器中定义的每个类,将预定数量的文档添加到TRN数据组。例如,在一个实施例中,来自文档候选列表LST的顶部20个文档被添加到TRN数据储存器。接下来,在步骤100处,使用作为正文档和负文档二者的原始TRN数据组中的所有文档和从LST数据储存器识别为正的文档,再训练所有机器学习分类器。类“c”的正文档和负文档被机器学习分类器用来产生有可能将类“c”分配给下述未标记文档的模型:所述未标记文档与“c”的被标示为正的文档的较多特征和“c”的被标示为负的文档的较少特征匹配。然后,向TST数据储存器应用所有受到再训练的机器学习分类器26,如步骤102中所指示。最后,如步骤104中所指示,分类器分析器24将TRN数据组中的所有文档存储在FTDS104中,以供机器学习分类器26后续使用。
所述系统的各种特征可以以硬件、软件或硬件和软件的组合实现。例如,所述系统的一些特征可以以在可编程计算机上执行的一个或多个计算机程序实现。每个程序可以以高级过程或面向对象的编程语言实现,以与计算机系统或其它机器通信。此外,每个这种计算机程序可以存储在诸如可由通用或专用可编程计算机或处理器读取的只读存储器(ROM)之类的储存介质上,以用于配置和操作所述计算机来执行上述功能。

Claims (26)

1.一种训练初始受训分类器ITC的方法,该ITC是已使用与类标记组相关联的经验证文档组产生的,所述经验证文档组已被分成训练文档组和测试文档组,并且所述类标记组的每个类与类列表相关联,所述训练文档组已进一步被分成整数个经验证文档组INVDS,该方法包括:
自动输入未验证文档组到ITC中,所述未验证文档组被分成整数个未验证文档组UNVDS;
自动识别来自UNVDS的文档子集;
基于所述文档子集和INVDS,自动产生最终训练文档组;
使用扁平集群或层级集群技术来对来自INVDS的至少一个文档子集和来自UNVDS的一个文档子集进行集群;以及
使用所述最终训练文档组训练所述ITC。
2.根据权利要求1所述的方法,还包括:
执行包括以计算机编程语言编写的第一循环结构的第一循环代码段,其中所述第一循环代码段在运行时间至少被执行n次,其中n是第一循环终止条件中的第一变量在运行时间的值;
执行包括以计算机编程语言编写的第二循环结构的第二循环代码段,其中所述第二循环代码段至少被执行p × n次,其中p是第二循环终止条件中的第二变量在运行时间的值;以及
执行包括以计算机编程语言编写的第三循环结构的第三循环代码段,其中所述第三循环代码段被执行p × n × q次,其中q是第三循环终止条件中的第三变量在运行时间的值。
3.根据权利要求2所述的方法,还包括:对于执行第一循环代码的n次中的每一次:
将INVDS的第一部分分配给第一文档组;
将INVDS的第二部分分配给第二文档组,所述第一部分不同于所述第二部分;
使用所述第一文档组中的文档针对与所述类标记组相关联的每个类训练所述ITC;
将多个分类器应用于所述第二文档组中的文档;以及
计算与所述第二文档组中的文档相关联的第一组F1分数。
4.根据权利要求3所述的方法,其中:所述第一文档组和所述第二文档组没有共同的文档。
5.根据权利要求3所述的方法,还包括:对于执行第二循环代码的p次中的每一次:
将简档组中的至少一个简档应用于UNVDS的每个文档,所述至少一个简档定义了要应用于UNVDS的每个文档的规则;
将UNVDS的至少一个文档与被包括在所述第一文档组中的所有文档相比较;以及
基于所述比较,从UNVDS中删除所述至少一个文档。
6.根据权利要求5所述的方法,其中:所述规则定义了下述一项:类标记保持方案、类标记添加方案、或其组合。
7.根据权利要求5所述的方法,包括:按简档严格性的降序将被包括在所述简档组中的多个简档应用于UNVDS的每个文档。
8.根据权利要求5所述的方法,其中:如果来自UNVDS的所述至少一个文档类似于被包括在第一文档组中的任何文档,则从UNVDS删除所述至少一个文档。
9.根据权利要求5所述的方法,其中:比较所述至少一个文档包括计算所述至少一个文档的余弦相似性。
10.根据权利要求5所述的方法,还包括:对于执行第二循环代码的p次中的每一次:
通过将被包括在第一文档组中的文档与未从UNVDS删除的文档进行合并,形成第三文档组;以及
使用集群算法对第三文档组进行集群。
11.根据权利要求3所述的方法,还包括:对于执行第三循环代码的q次中的每一次:
对于在类标记组中定义的每个类,将ITC应用于UNVDS中的所有文档;
形成来自UNVDS的文档子集,所述文档子集中的每个文档具有至少一个与其相关联的类;
使用所述第一文档组和所述文档子集中的文档训练第二分类器;
将第二分类器应用于第二文档组;
计算与所述第二文档组中的文档相关联的第二组F1分数;
将来自第二组F1分数的与类标记相关联的F1分数同来自第一组F1分数的与所述类标记相关联的对应F1分数相比较;
基于所述比较来更新所述类标记的最佳分数;以及
基于所述比较将来自所述文档子集的文档添加到候选文档列表。
12.根据权利要求11所述的方法,其中:产生所述最终训练文档组包括将与所述候选文档列表相关联的至少一个文档添加到所述训练文档组。
13.根据权利要求1所述的方法,还包括:
使用所述最终训练文档组训练多个分类器;以及
将所述多个分类器应用于所述测试文档组。
14.一种训练初始受训分类器ITC的系统,包括:
数据储存器,该数据储存器包括经验证文档组和未验证文档组,所述经验证文档组被分成训练文档组和测试文档组,所述训练文档组被分成整数个经验证文档组INVDS,并且所述未验证文档组被分成整数个未验证文档组UNVDS;
服务器,其包括操作上耦合到所述数据储存器的存储器和处理器,所述存储器存储响应于接收到对服务进行访问的请求而使所述处理器执行以下操作的指令:
响应于将所述未验证文档组输入到初始受训分类器ITC中,自动识别来自UNVDS的文档子集;
基于所述文档子集和INVDS,自动产生最终训练文档组;
使用扁平集群或层级集群技术来对来自INVDS的至少一个文档子集和来自UNVDS的一个文档子集进行集群;以及
使用所述最终训练文档组训练所述ITC。
15.根据权利要求14所述的系统,其中:所述存储器存储响应于接收到请求而使所述处理器执行以下操作的指令:
执行包括第一循环结构的第一循环代码段,其中所述第一循环代码段在运行时间至少被执行n次,其中n是第一循环终止条件中的第一变量在运行时间的值;
执行包括第二循环结构的第二循环代码段,其中所述第二循环代码段至少被执行p ×n次,其中p是第二循环终止条件中的第二变量在运行时间的值;以及
执行包括第三循环结构的第三循环代码段,其中所述第三循环代码段被执行p × n× q次,其中q是第三循环终止条件中的第三变量在运行时间的值。
16.根据权利要求15所述的系统,其中:所述存储器存储对于所述处理器执行第一循环的n次中的每一次使所述处理器执行以下操作的指令:
将INVDS的第一部分分配给第一文档组;
将INVDS的第二部分分配给第二文档组,所述第一部分不同于所述第二部分;
使用所述第一文档组中的文档针对与类标记组相关联的每个类训练所述ITC;
将多个分类器应用于所述第二文档组中的文档;以及
计算与所述第二文档组中的文档相关联的第一组F1分数。
17.根据权利要求16所述的系统,其中:所述第一文档组和所述第二文档组没有共同的文档。
18.根据权利要求16所述的系统,其中:所述存储器存储对于执行第二循环代码的p次中的每一次使所述处理器执行以下操作的指令:
将简档组中的至少一个简档应用于UNVDS的每个文档,所述至少一个简档定义了要应用于UNVDS的每个文档的规则;
将UNVDS的至少一个文档与被包括在所述第一文档组中的所有文档相比较;以及
基于所述比较,从UNVDS中删除所述至少一个文档。
19.根据权利要求18所述的系统,其中:所述规则定义了类标记保持方案、类标记添加方案或其组合。
20.根据权利要求18所述的系统,其中:所述存储器存储使所述处理器执行以下操作的指令:按简档严格性的降序将被包括在所述简档组中的多个简档应用于UNVDS的每个文档。
21.根据权利要求18所述的系统,其中:所述存储器存储使所述处理器执行以下操作的指令:如果来自UNVDS的所述至少一个文档类似于被包括在第一文档组中的任何文档,则从UNVDS删除所述至少一个文档。
22.根据权利要求18所述的系统,其中:所述存储器存储使所述处理器执行以下操作的指令:计算要在所述比较期间使用的所述至少一个文档的余弦相似性。
23.根据权利要求18所述的系统,其中:所述存储器存储对于执行第二循环代码的p次中的每一次使所述处理器执行以下操作的指令:
通过将被包括在第一文档组中的文档与未从UNVDS删除的文档进行合并,形成第三文档组;以及
使用集群算法对第三文档组进行集群。
24.根据权利要求16所述的系统,其中:所述存储器存储对于执行第三循环代码的q次中的每一次使所述处理器执行以下操作的指令:
对于在类标记组中定义的每个类,将ITC应用于UNVDS中的所有文档;
形成来自UNVDS的文档子集,所述文档子集中的每个文档具有至少一个与其相关联的类;
使用所述第一文档组和所述文档子集中的文档训练第二分类器;
将第二分类器应用于第二文档组;
计算与所述第二文档组中的文档相关联的第二组F1分数;
将来自第二组F1分数的与类标记相关联的F1分数同来自第一组F1分数的与所述类标记相关联的对应F1分数相比较;
基于所述比较来更新所述类标记的最佳分数;以及
基于所述比较将来自所述文档子集的文档添加到候选文档列表。
25.根据权利要求24所述的系统,其中:所述存储器存储响应于接收到请求而使所述处理器执行以下操作的指令:将与所述候选文档列表相关联的至少一个文档添加到所述训练文档组以形成最终训练文档组。
26.根据权利要求14所述的系统,其中:所述存储器存储响应于接收到请求而使所述处理器执行以下操作的指令:
使用所述最终训练文档组训练多个分类器;以及
将所述多个分类器应用于所述测试文档组。
CN201280019651.4A 2011-02-22 2012-02-21 用于机器学习分类器的自动数据清除 Active CN103782309B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161445236P 2011-02-22 2011-02-22
US61/445236 2011-02-22
US13/046266 2011-03-11
US13/046,266 US8626682B2 (en) 2011-02-22 2011-03-11 Automatic data cleaning for machine learning classifiers
PCT/US2012/025930 WO2012115958A2 (en) 2011-02-22 2012-02-21 Automatic data cleaning for machine learning classifiers

Publications (2)

Publication Number Publication Date
CN103782309A CN103782309A (zh) 2014-05-07
CN103782309B true CN103782309B (zh) 2017-06-16

Family

ID=46653595

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201280019651.4A Active CN103782309B (zh) 2011-02-22 2012-02-21 用于机器学习分类器的自动数据清除
CN201280019647.8A Active CN104025130B (zh) 2011-02-22 2012-02-21 计算实体之间的重要性的方法、系统和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201280019647.8A Active CN104025130B (zh) 2011-02-22 2012-02-21 计算实体之间的重要性的方法、系统和设备

Country Status (4)

Country Link
US (3) US8626682B2 (zh)
EP (2) EP2678806A2 (zh)
CN (2) CN103782309B (zh)
WO (2) WO2012115958A2 (zh)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999298B2 (en) 2004-03-02 2021-05-04 The 41St Parameter, Inc. Method and system for identifying users and detecting fraud by use of the internet
US11301585B2 (en) 2005-12-16 2022-04-12 The 41St Parameter, Inc. Methods and apparatus for securely displaying digital images
US8151327B2 (en) 2006-03-31 2012-04-03 The 41St Parameter, Inc. Systems and methods for detection of session tampering and fraud prevention
US9112850B1 (en) 2009-03-25 2015-08-18 The 41St Parameter, Inc. Systems and methods of sharing information through a tag-based consortium
US8682814B2 (en) 2010-12-14 2014-03-25 Symantec Corporation User interface and workflow for performing machine learning
US9015082B1 (en) * 2010-12-14 2015-04-21 Symantec Corporation Data quality assessment for vector machine learning
US9094291B1 (en) 2010-12-14 2015-07-28 Symantec Corporation Partial risk score calculation for a data object
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
US10754913B2 (en) * 2011-11-15 2020-08-25 Tapad, Inc. System and method for analyzing user device information
US8856130B2 (en) * 2012-02-09 2014-10-07 Kenshoo Ltd. System, a method and a computer program product for performance assessment
US9633201B1 (en) 2012-03-01 2017-04-25 The 41St Parameter, Inc. Methods and systems for fraud containment
US9521551B2 (en) 2012-03-22 2016-12-13 The 41St Parameter, Inc. Methods and systems for persistent cross-application mobile device identification
US9116982B1 (en) * 2012-04-27 2015-08-25 Google Inc. Identifying interesting commonalities between entities
WO2014022813A1 (en) 2012-08-02 2014-02-06 The 41St Parameter, Inc. Systems and methods for accessing records via derivative locators
US11126720B2 (en) * 2012-09-26 2021-09-21 Bluvector, Inc. System and method for automated machine-learning, zero-day malware detection
WO2014078569A1 (en) 2012-11-14 2014-05-22 The 41St Parameter, Inc. Systems and methods of global identification
US9146980B1 (en) * 2013-06-24 2015-09-29 Google Inc. Temporal content selection
US10902327B1 (en) 2013-08-30 2021-01-26 The 41St Parameter, Inc. System and method for device identification and uniqueness
US20150088798A1 (en) * 2013-09-23 2015-03-26 Mastercard International Incorporated Detecting behavioral patterns and anomalies using metadata
US11094015B2 (en) 2014-07-11 2021-08-17 BMLL Technologies, Ltd. Data access and processing system
US10091312B1 (en) 2014-10-14 2018-10-02 The 41St Parameter, Inc. Data structures for intelligently resolving deterministic and probabilistic device identifiers to device profiles and/or groups
US10649740B2 (en) * 2015-01-15 2020-05-12 International Business Machines Corporation Predicting and using utility of script execution in functional web crawling and other crawling
WO2016128491A1 (en) 2015-02-11 2016-08-18 British Telecommunications Public Limited Company Validating computer resource usage
CN104615442A (zh) * 2015-02-13 2015-05-13 广东欧珀移动通信有限公司 控件使用统计表的更新方法和装置、软件调整方法和装置
WO2017021153A1 (en) 2015-07-31 2017-02-09 British Telecommunications Public Limited Company Expendable access control
WO2017021155A1 (en) 2015-07-31 2017-02-09 British Telecommunications Public Limited Company Controlled resource provisioning in distributed computing environments
US11347876B2 (en) 2015-07-31 2022-05-31 British Telecommunications Public Limited Company Access control
WO2017032427A1 (en) 2015-08-27 2017-03-02 Longsand Limited Identifying augmented features based on a bayesian analysis of a text document
GB201517462D0 (en) * 2015-10-02 2015-11-18 Tractable Ltd Semi-automatic labelling of datasets
US10062084B2 (en) * 2015-10-21 2018-08-28 International Business Machines Corporation Using ontological distance to measure unexpectedness of correlation
US11200466B2 (en) * 2015-10-28 2021-12-14 Hewlett-Packard Development Company, L.P. Machine learning classifiers
US20170206904A1 (en) * 2016-01-19 2017-07-20 Knuedge Incorporated Classifying signals using feature trajectories
US10878341B2 (en) * 2016-03-18 2020-12-29 Fair Isaac Corporation Mining and visualizing associations of concepts on a large-scale unstructured data
EP3437007B1 (en) 2016-03-30 2021-04-28 British Telecommunications public limited company Cryptocurrencies malware based detection
US11023248B2 (en) 2016-03-30 2021-06-01 British Telecommunications Public Limited Company Assured application services
US11194901B2 (en) 2016-03-30 2021-12-07 British Telecommunications Public Limited Company Detecting computer security threats using communication characteristics of communication protocols
US11159549B2 (en) 2016-03-30 2021-10-26 British Telecommunications Public Limited Company Network traffic threat identification
US11153091B2 (en) 2016-03-30 2021-10-19 British Telecommunications Public Limited Company Untrusted code distribution
CA3008462A1 (en) * 2016-04-05 2017-10-12 Thomson Reuters Global Resources Unlimited Company Self-service classification system
US20170364804A1 (en) * 2016-06-15 2017-12-21 International Business Machines Corporation Answer Scoring Based on a Combination of Specificity and Informativity Metrics
US20170364519A1 (en) * 2016-06-15 2017-12-21 International Business Machines Corporation Automated Answer Scoring Based on Combination of Informativity and Specificity Metrics
US10657482B2 (en) 2016-06-16 2020-05-19 Adp, Llc Dynamic organization structure model
US10606849B2 (en) * 2016-08-31 2020-03-31 International Business Machines Corporation Techniques for assigning confidence scores to relationship entries in a knowledge graph
US10607142B2 (en) * 2016-08-31 2020-03-31 International Business Machines Corporation Responding to user input based on confidence scores assigned to relationship entries in a knowledge graph
CN108121737B (zh) * 2016-11-29 2022-04-26 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
WO2018107128A1 (en) * 2016-12-09 2018-06-14 U2 Science Labs, Inc. Systems and methods for automating data science machine learning analytical workflows
US11003716B2 (en) 2017-01-10 2021-05-11 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data
EP3382591B1 (en) 2017-03-30 2020-03-25 British Telecommunications public limited company Hierarchical temporal memory for expendable access control
EP3602380B1 (en) 2017-03-30 2022-02-23 British Telecommunications public limited company Hierarchical temporal memory for access control
EP3602369B1 (en) 2017-03-30 2022-03-30 British Telecommunications public limited company Anomaly detection for computer systems
WO2018206374A1 (en) * 2017-05-08 2018-11-15 British Telecommunications Public Limited Company Load balancing of machine learning algorithms
US11823017B2 (en) 2017-05-08 2023-11-21 British Telecommunications Public Limited Company Interoperation of machine learning algorithms
WO2018206406A1 (en) * 2017-05-08 2018-11-15 British Telecommunications Public Limited Company Adaptation of machine learning algorithms
EP3622450A1 (en) 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Management of interoperating machine leaning algorithms
EP3622449A1 (en) * 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Autonomous logic modules
US10489722B2 (en) * 2017-07-27 2019-11-26 Disney Enterprises, Inc. Semiautomatic machine learning model improvement and benchmarking
US10929383B2 (en) * 2017-08-11 2021-02-23 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
US10585933B2 (en) 2017-08-16 2020-03-10 International Business Machines Corporation System and method for classification of low relevance records in a database using instance-based classifiers and machine learning
WO2019055553A1 (en) * 2017-09-12 2019-03-21 Schlumberger Technology Corporation DYNAMIC REPRESENTATION OF RELATIONSHIPS OF EXPLORATION AND / OR PRODUCTION ENTITIES
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US10162850B1 (en) 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
EP3811323A4 (en) 2018-06-19 2022-03-09 Thomson Reuters Enterprise Centre GmbH SYSTEMS AND METHODS FOR DETERMINING STRUCTURED PROCESS OUTCOMES
WO2020005986A1 (en) * 2018-06-25 2020-01-02 Diffeo, Inc. Systems and method for investigating relationships among entities
US11144581B2 (en) * 2018-07-26 2021-10-12 International Business Machines Corporation Verifying and correcting training data for text classification
US11120367B2 (en) * 2018-07-30 2021-09-14 International Business Machines Corporation Validating training data of classifiers
CN109635029B (zh) * 2018-12-07 2023-10-13 深圳前海微众银行股份有限公司 基于标签指标体系的数据处理方法、装置、设备及介质
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
JP7261022B2 (ja) * 2019-01-30 2023-04-19 キヤノン株式会社 情報処理システム、端末装置及びその制御方法、プログラム、記憶媒体
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
JP7148444B2 (ja) * 2019-03-19 2022-10-05 株式会社日立製作所 文分類装置、文分類方法及び文分類プログラム
US11270078B2 (en) 2019-05-18 2022-03-08 Exxonmobil Upstream Research Company Method and system for generating a surprisingness score for sentences within geoscience text
US11157777B2 (en) 2019-07-15 2021-10-26 Disney Enterprises, Inc. Quality control systems and methods for annotated content
CN110674840B (zh) * 2019-08-22 2022-03-25 中国司法大数据研究院有限公司 一种多方证据关联模型构建方法和证据链提取方法及装置
US11010606B1 (en) 2019-11-15 2021-05-18 Maxar Intelligence Inc. Cloud detection from satellite imagery
US11386649B2 (en) 2019-11-15 2022-07-12 Maxar Intelligence Inc. Automated concrete/asphalt detection based on sensor time delay
US11250260B2 (en) 2019-11-15 2022-02-15 Maxar Intelligence Inc. Automated process for dynamic material classification in remotely sensed imagery
US11556825B2 (en) * 2019-11-26 2023-01-17 International Business Machines Corporation Data label verification using few-shot learners
US11645579B2 (en) 2019-12-20 2023-05-09 Disney Enterprises, Inc. Automated machine learning tagging and optimization of review procedures
US11086891B2 (en) * 2020-01-08 2021-08-10 Subtree Inc. Systems and methods for tracking and representing data science data runs
US20230162049A1 (en) * 2020-04-03 2023-05-25 Presagen Pty Ltd Artificial intelligence (ai) method for cleaning data for training ai models
US12093245B2 (en) 2020-04-17 2024-09-17 International Business Machines Corporation Temporal directed cycle detection and pruning in transaction graphs
CN113762519B (zh) * 2020-06-03 2024-06-28 杭州海康威视数字技术股份有限公司 一种数据清洗方法、装置及设备
US11288115B1 (en) 2020-11-05 2022-03-29 International Business Machines Corporation Error analysis of a predictive model
US11568319B2 (en) * 2020-12-30 2023-01-31 Hyland Uk Operations Limited Techniques for dynamic machine learning integration
CN112463915B (zh) * 2021-02-02 2021-06-25 冠传网络科技(南京)有限公司 美妆产品社交媒体评论挖掘的方法、系统及存储介质
US11941020B2 (en) * 2021-02-26 2024-03-26 Micro Focus Llc Displaying query results using machine learning model-determined query results visualizations
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5600831A (en) * 1994-02-28 1997-02-04 Lucent Technologies Inc. Apparatus and methods for retrieving information by modifying query plan based on description of information sources
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
EP1170676A1 (de) * 2000-07-05 2002-01-09 Abb Research Ltd. Darstellung einer Informationsstruktur von Dokumenten des Word Wide Web
US20070192863A1 (en) * 2005-07-01 2007-08-16 Harsh Kapoor Systems and methods for processing data flows
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US6693651B2 (en) * 2001-02-07 2004-02-17 International Business Machines Corporation Customer self service iconic interface for resource search results display and selection
US20030046297A1 (en) 2001-08-30 2003-03-06 Kana Software, Inc. System and method for a partially self-training learning system
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US6990485B2 (en) 2002-08-02 2006-01-24 Hewlett-Packard Development Company, L.P. System and method for inducing a top-down hierarchical categorizer
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7451152B2 (en) * 2004-07-29 2008-11-11 Yahoo! Inc. Systems and methods for contextual transaction proposals
EP1776668A4 (en) * 2004-08-12 2009-05-06 Jigsaw Data Corp CONTACT INFORMATION MARKET
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
JP4640591B2 (ja) 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
US20070067320A1 (en) * 2005-09-20 2007-03-22 International Business Machines Corporation Detecting relationships in unstructured text
TWI468969B (zh) * 2005-10-18 2015-01-11 Intertrust Tech Corp 授權對電子內容作存取的方法及授權對該電子內容執行動作之方法
US8903810B2 (en) * 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US7739279B2 (en) * 2005-12-12 2010-06-15 Fuji Xerox Co., Ltd. Systems and methods for determining relevant information based on document structure
US7716217B2 (en) * 2006-01-13 2010-05-11 Bluespace Software Corporation Determining relevance of electronic content
EP1903479B1 (en) 2006-08-25 2014-03-12 Motorola Mobility LLC Method and system for data classification using a self-organizing map
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
US20080195567A1 (en) * 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
AU2008225256B2 (en) * 2007-03-12 2009-07-30 Vortex Technology Services Limited Intentionality matching
WO2008124536A1 (en) 2007-04-04 2008-10-16 Seeqpod, Inc. Discovering and scoring relationships extracted from human generated lists
WO2009019830A1 (ja) * 2007-08-03 2009-02-12 Panasonic Corporation 関連語提示装置
JP5232449B2 (ja) * 2007-11-21 2013-07-10 Kddi株式会社 情報検索装置およびコンピュータプログラム
US8856182B2 (en) * 2008-01-25 2014-10-07 Avaya Inc. Report database dependency tracing through business intelligence metadata
US8082278B2 (en) * 2008-06-13 2011-12-20 Microsoft Corporation Generating query suggestions from semantic relationships in content
US8271422B2 (en) * 2008-11-29 2012-09-18 At&T Intellectual Property I, Lp Systems and methods for detecting and coordinating changes in lexical items
CN101770580B (zh) * 2009-01-04 2014-03-12 中国科学院计算技术研究所 一种跨领域的文本情感分类器的训练方法和分类方法
US8166032B2 (en) * 2009-04-09 2012-04-24 MarketChorus, Inc. System and method for sentiment-based text classification and relevancy ranking
US8375032B2 (en) 2009-06-25 2013-02-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
JP2011013732A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
US8762375B2 (en) * 2010-04-15 2014-06-24 Palo Alto Research Center Incorporated Method for calculating entity similarities
US8346776B2 (en) 2010-05-17 2013-01-01 International Business Machines Corporation Generating a taxonomy for documents from tag data
US9043360B2 (en) * 2010-12-17 2015-05-26 Yahoo! Inc. Display entity relationship
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
关联词约束的半监督文本分类方法;韩红旗等;《计算机工程与应用》;20101231;第46卷(第4期);第113-116页 *
半监督的文本分类—两阶段协同学习;郝秀兰等;《小型微型计算机系统》;20091031;第30卷(第10期);第1921-1926页 *

Also Published As

Publication number Publication date
US10650049B2 (en) 2020-05-12
WO2012115958A3 (en) 2012-10-18
US8626682B2 (en) 2014-01-07
EP2678806A2 (en) 2014-01-01
US20170220674A1 (en) 2017-08-03
EP2678808A1 (en) 2014-01-01
CN103782309A (zh) 2014-05-07
CN104025130A (zh) 2014-09-03
US9495635B2 (en) 2016-11-15
US20120215777A1 (en) 2012-08-23
US20120215727A1 (en) 2012-08-23
CN104025130B (zh) 2018-07-20
WO2012115958A2 (en) 2012-08-30
WO2012115962A1 (en) 2012-08-30

Similar Documents

Publication Publication Date Title
CN103782309B (zh) 用于机器学习分类器的自动数据清除
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
US10824959B1 (en) Explainers for machine learning classifiers
Maleki et al. A comprehensive literature review of the rank reversal phenomenon in the analytic hierarchy process
Shasha et al. Unordered tree mining with applications to phylogeny
Bergmann et al. Approximation of dispatching rules for manufacturing simulation using data mining methods
Basgalupp et al. Predicting software maintenance effort through evolutionary-based decision trees
CN107748783A (zh) 一种基于句向量的多标签公司描述文本分类方法
Yousefnezhad et al. A new selection strategy for selective cluster ensemble based on diversity and independency
Rasiman et al. How effective is automated trace link recovery in model-driven development?
da Costa et al. Clustering interval data through kernel-induced feature space
Tayal et al. A new MapReduce solution for associative classification to handle scalability and skewness in vertical data structure
JP5110950B2 (ja) 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
JP2021179859A (ja) 学習モデル生成システム、及び学習モデル生成方法
Van Oirschot et al. Using trace clustering for configurable process discovery explained by event log data
Guo et al. A latent topic model for linked documents
JP2020077236A (ja) 探索プログラム、探索方法及び探索装置
Chaturvedi Data mining and it's application in EDM domain
Rawat et al. Analyzing the performance of various clustering algorithms
Riesen Graph edit distance
Czibula et al. A Lagrangian relaxation-based heuristic to solve large extended graph partitioning problems
Rigutini et al. A neural network approach for learning object ranking
JP6631139B2 (ja) 検索制御プログラム、検索制御方法および検索サーバ装置
Filippidou et al. Online partitioning of multi-labeled graphs
Irfan et al. Evolving the taxonomy based on hierarchical clustering approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: Thomsen Reuters global resources unlimited company

Address before: Swiss Swiss

Patentee before: Thomson Reuters Globle Resources

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20190819

Address after: England city

Patentee after: Finance and Risk Organizations Limited

Address before: Swiss Swiss

Patentee before: Thomsen Reuters global resources unlimited company

TR01 Transfer of patent right