CN110168579A - 用于利用机器学习分类器来使用知识表示的系统和方法 - Google Patents

用于利用机器学习分类器来使用知识表示的系统和方法 Download PDF

Info

Publication number
CN110168579A
CN110168579A CN201680091990.1A CN201680091990A CN110168579A CN 110168579 A CN110168579 A CN 110168579A CN 201680091990 A CN201680091990 A CN 201680091990A CN 110168579 A CN110168579 A CN 110168579A
Authority
CN
China
Prior art keywords
content item
knowledge
representation
label
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680091990.1A
Other languages
English (en)
Inventor
M·W·威尔森
I·伊利亚斯
P·J·斯威尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Primal Fusion Inc
Original Assignee
Primal Fusion Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Primal Fusion Inc filed Critical Primal Fusion Inc
Publication of CN110168579A publication Critical patent/CN110168579A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了用于为机器学习分类器生成训练数据的系统和方法。基于感兴趣对象被合成的知识表示被用来将标签分配给内容项。标记的内容项可以被用作训练数据以用于训练机器学习分类器。标记的内容项也可以被用作针对分类器的验证数据。

Description

用于利用机器学习分类器来使用知识表示的系统和方法
技术领域
本文描述的教导涉及机器学习和信息检索领域。具体地,本文所公开的教导涉及在数字信息系统环境中部署方法以用于使用与被表达为知识表示的一个或多个数据集相关联的信息来对信息进行分类,训练分类器模型以对信息进行分类和/或使用分类器结果来完善知识表示。
背景技术
信息技术通常被用来向用户提供各种类型的信息,诸如,文本、音频、视频和任何合适的其它类型的信息。在一些情况下,响应于用户采取的动作来向用户提供信息。例如,可以响应于用户输入的搜索查询或者响应于用户已经订阅了诸如电子邮件警报或电子通讯等内容来向用户提供信息。在其它情况下,在用户没有特别请求信息的情况下,将这种信息提供或“推送”给用户。例如,偶尔可能会向用户呈现广告或恳求。
存在可以经由信息技术提供给用户的大量内容和信息。实际上,由于经由互联网、万维网(WWW)和任何其它合适的信息供应源可获得大量信息,并且因为可用信息跨大量独立拥有和操作的网络和服务器分布,所以定位用户感兴趣的信息带来了挑战。当感兴趣的信息跨大型专用网络分布时,存在类似的挑战。
发明内容
本文呈现的发明概念被图示在许多不同的实施例中,每个实施例都示出了一个或多个概念,但是应该理解,一般而言,这些概念不是相互排斥的,并且即使在没有被图示时也可以组合使用。
一些实施例提供了一种为机器学习分类器生成训练数据的方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收内容项的第一集合,其中第一集合包括没有标签的一个或多个内容项,其中标签将内容项分类为一个或多个类别;为第一集合中的一个或多个相应内容项确定一个或多个分数,其中相应内容项的分数基于知识表示和相应内容项的内容;以及通过基于与第一集合中的一个或多个相应内容项相关联的分数将标签分配给第一集合中的一个或多个相应内容项来为机器学习分类器生成训练数据。
一些实施例提供了一种用于为机器学习分类器生成训练数据的系统,该系统包括:至少一个处理器,该至少一个处理器被配置为执行方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收内容项的第一集合,其中第一集合包括没有标签的一个或多个内容项,其中标签将内容项分类为一个或多个类别;为第一集合中的一个或多个相应内容项确定一个或多个分数,其中相应内容项的分数基于知识表示和相应内容项的内容;以及通过基于与第一集合中的一个或多个相应内容项相关联的分数将标签分配给第一集合中的一个或多个相应内容项来为机器学习分类器生成训练数据。
一些实施例提供了一种存储处理器可执行指令的至少一个非瞬态计算机可读存储介质,该处理器可执行指令在由至少一个处理器执行时使至少一个处理器执行为机器学习分类器生成训练数据的方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收内容项的第一集合,其中第一集合包括没有标签的一个或多个内容项,其中标签将内容项分类为一个或多个类别;为第一集合中的一个或多个相应内容项确定一个或多个分数,其中相应内容项的分数基于知识表示和相应内容项的内容;以及通过基于与第一集合中的一个或多个相应内容项相关联的分数将标签分配给第一集合中的一个或多个相应内容项来为机器学习分类器生成训练数据。
一些实施例提供了一种利用机器学习分类器对至少一个未标记的内容项进行分类的方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收训练数据,该训练数据包括具有标签的一个或多个标记的内容项的第一集合,标签将每个内容项分类为一个或多个类别;基于从知识表示得到的一个或多个属性利用标记的内容项的至少一个特征训练机器学习分类器;以及利用机器学习分类器,基于从知识表示得到的一个或多个属性使用未标记的内容项的至少一个特征来将至少一个未标记的内容项分类为一个或多个类别。
一些实施例提供了一种用于利用机器学习分类器对至少一个未标记的内容项进行分类的系统,该系统包括:至少一个处理器,该至少一个处理器被配置为执行方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收训练数据,该训练数据包括具有标签的一个或多个标记的内容项的第一集合,标签将每个内容项分类为一个或多个类别;基于从知识表示得到的一个或多个属性利用标记的内容项的至少一个特征训练机器学习分类器;以及利用机器学习分类器,基于从知识表示得到的一个或多个属性使用未标记的内容项的至少一个特征来将至少一个未标记的内容项分类为一个或多个类别。
一些实施例提供了一种存储处理器可执行指令的至少一个非瞬态计算机可读存储介质,该处理器可执行指令在由至少一个处理器执行时使至少一个处理器执行利用机器学习分类器对至少一个未标记的内容项进行分类的方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收训练数据,该训练数据包括具有标签的一个或多个标记的内容项的第一集合,标签将每个内容项分类为一个或多个类别;基于从知识表示得到的一个或多个属性利用标记的内容项的至少一个特征训练机器学习分类器;以及利用机器学习分类器,基于从知识表示得到的一个或多个属性使用未标记的内容项的至少一个特征来将至少一个未标记的内容项分类为一个或多个类别。
一些实施例提供了一种基于机器学习分类器修改知识表示的方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收验证数据,该验证数据包括具有标签的一个或多个标记的内容项的第一集合,标签将每个内容项分类为一个或多个类别,该一个或多个类别包括已知与感兴趣对象相关的第一类别以及已知与感兴趣对象不相关的第二类别;利用使用从知识表示得到的至少一个属性作为特征的机器学习分类器来将一个或多个标记的内容项中的每一个预测为以下中的其中一个:a)与感兴趣对象相关或者b)与感兴趣对象不相关;以及基于机器学习分类器对第一集合中的每个内容项的预测与每个相应内容项的标签的比较来修改知识表示。
一些实施例提供了一种用于基于机器学习分类器修改知识表示的系统,该系统包括:至少一个处理器,该至少一个处理器被配置为执行方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个更或多个概念之间的关系;接收验证数据,该验证数据包括具有标签的一个或多个标记的内容项的第一集合,标签将每个内容项分类为一个或多个类别,该一个或多个类别包括已知与感兴趣对象相关的第一类别以及已知与感兴趣对象不相关的第二类别;利用使用从知识表示得到的至少一个属性作为特征的机器学习分类器来将一个或多个标记的内容项中的每一个预测为以下中的其中一个:a)与感兴趣对象相关或者b)与感兴趣对象不相关;以及基于机器学习分类器对第一集合中的每个内容项的预测与每个相应内容项的标签的比较来修改知识表示。
一些实施例提供了一种存储处理器可执行指令的至少一个非瞬态计算机可读存储介质,该处理器可执行指令在由至少一个处理器执行时使至少一个处理器执行基于机器学习分类器修改知识表示的方法,该方法包括:基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,该知识表示包括至少一个概念和/或两个或更多个概念之间的关系;接收验证数据,该验证数据包括具有标签的一个或多个标记的内容项的第一集合,标签将每个内容项分类为一个或多个类别,该一个或多个类别包括已知与感兴趣对象相关的第一类别以及已知与感兴趣对象不相关的第二类别;利用使用从知识表示得到的至少一个属性作为特征的机器学习分类器来将一个或多个标记的内容项中的每一个预测为以下中的其中一个:a)与感兴趣对象相关或者b)与感兴趣对象不相关;以及基于机器学习分类器对第一集合中的每个内容项的预测与每个相应内容项的标签的比较来修改知识表示。
以上是由所附权利要求限定的本发明的非限制性发明内容,要理解的是,该发明内容不一定要描述每项权利要求的主题内容,并且每项权利要求涉及一个或一些实施例而非全部实施例。
附图说明
附图不旨在按比例绘制。在实际中,相似的元件由相同或相似的附图标记标识。为了清晰起见,可以不在每个附图中标记每个组件。在附图中:
图1是图示了用于在实践本发明的一些实施例中使用的示例性计算系统的框图;
图2是图示了根据本发明的一些实施例的用于监督学习技术的示例性工作流的流程图;
图3是图示了根据本发明的一些实施例的用于基于感兴趣对象合成知识表示的示例性工作流的流程图;
图4是根据本发明的一些实施例的示例感兴趣对象的图示;
图5是根据本发明的一些实施例的用于基于感兴趣对象提取主题统一资源标识符的示例性工作流的图示;
图6是根据一些实施例的用于基于从感兴趣对象提取的主题统一资源标识符合成知识表示的示例性工作流的图示;
图7是图示了根据本发明的一些实施例的用于标记的内容项的示例性方法的流程图;
图8A是根据本发明的一些实施例的用于训练分类器模型的示例性工作流的图示;
图8B是根据本发明的一些实施例的用于使用图8A的分类器模型来标记内容项的示例性工作流的图示;
图9是用于基于从基于感兴趣对象的知识表示得到的特征来分析内容项的示例性工作流的图示;
图10A是根据本发明的一些实施例的用于使用来自从感兴趣对象得到的知识表示的特征来训练分类器模型的示例性工作流的图示;
图10B是根据本发明的一些实施例的用于使用图10A的分类器模型来标记内容项的示例性工作流的图示;
图11是示出了根据本发明的一些实施例的与内容项相关联的基于属性的特征、内容项的已知相关性和通过分类器的预测的示例表的图示;
图12是示出了根据本发明的一些实施例的与内容项相关联的基于属性的特征、内容项的已知相关性和通过第一分类器和第二分类器的预测的示例表的图示;
图13是示出了根据本发明的一些实施例的由多个分类器模型进行的预测结果的示例表的图示;
图14A是示出了根据本发明的一些实施例的由分类器预测的标签的准确度的示例表的图示;
图14B是根据本发明的一些实施例的分类器的准确度的图形说明;
图15A是示出了根据本发明的一些实施例的与经修改的知识表示相关联的属性值以及由分类器预测的标签的准确度的示例表的图示;
图15B是根据本发明的一些实施例的图15A的分类器的准确度的图形说明;以及
图16是根据本发明的一些实施例的用于基于分类器的结果来修改知识表示的示例性流程图的图示。
具体实施方式
经由数字信息系统可访问的大量内容提出了许多信息检索挑战。一个具有挑战性的问题是如何确定用户可能对大量内容中的哪些信息感兴趣,使得可以将这种信息呈现给用户,而不会让用户被不相关信息淹没。而且,另一具有挑战性的问题是如何以计算有效的方式来标识可能感兴趣的信息。
本文所描述的系统和方法可以以各种方式来实现。图1是图示了用于在实践本文所描述的本发明的一些实施例中使用的示例性计算系统的框图。
计算设备100可以包括一个或多个处理器(例如,微处理器)110以及一个或多个有形的非瞬态计算机可读存储介质(例如,存储器120)。存储器120可以将实现本文所描述的任何功能性的计算机指令存储在有形的非瞬态计算机可读存储介质中。(多个)处理器110可以被耦合至存储器120,并且可以执行这种计算机指令以使功能性被实现和执行。计算设备100还可以包括网络输入/输出(I/O)接口130,计算设备100可以经由该网络I/O接口130与其它计算机通信(例如,通过网络)。在一些实施例中,计算设备还可以包括一个或多个用户I/O接口140,计算机可以经由该用户I/O接口140将输出提供给用户并且接收来自用户的输入。用户I/O接口140可以包括诸如键盘、鼠标、麦克风、显示设备(例如,监测器或触摸屏)、扬声器、相机和/或各种其它类型的I/O设备等设备。
本发明的一些实施例使用机器学习算法来训练分类器,特别地,使用监督学习。监督学习是机器学习的分支,其涉及从标记的训练数据推断出函数的任务。训练数据包括一组训练示例。在监督学习中,每个训练示例可以包括对象(例如,内容项)和标签(例如,其可以将内容项分类为一个或多个类别)。监督学习算法可以分析训练数据,并且产生推断函数(例如,分类器模型),然后该推断函数可以被用来预测针对未标记的内容项的标签(或以其它方式对其进行分类)。
使用例如监督学习训练的机器学习分类器可以被用来将标签分配给未标记的内容项。然而,为了训练分类器,需要大量训练数据。在一些实施例中,训练数据包括具有标签的内容项,该标签将每个内容项分类为类别。在没有足够的训练数据来训练分类器的情况下,机器学习算法难以产生模型,该模型产生准确的结果。
图2是图示了根据本发明的一些实施例的用于监督学习技术的示例性工作流的流程图。过程开始于原始数据210。原始数据210可以包括一个或多个内容项。为了有助于机器学习目的,通过将标签分配给原始数据210中的每个内容项来将原始数据210转换为具有标签220的特征化数据。标签本质上可能是二进制的(例如,“是”或“否”或者“1”或“0”标签)。然而,也可能存在多于两个的可能标签。可以以任何数目的方式来将标签分配给原始数据210。例如,人类操作员可以手动地审查原始数据210中的每个项,并且分配标签。
一旦被标记,特征化数据220就可以被划分为训练集230和验证集240。特征化数据可以按照任何比例在训练集230与验证集240之间被划分。然后,训练集230被用作用于构建(在下文中称为训练)模型250的基础。可以将模型250概念化为从针对内容项的已知标签与该内容项的各种特征之间的相关性推断出的函数。模型250的目的之一是用于按照与被分配给训练集230的标签以及与训练集230相关联的特征一致的方式来基于未标记的内容项的特征将标签分配给未标记的内容项。
一旦训练了模型250,就可以在260处使用验证集240来验证模型250。验证模型250的一种方式是将模型250应用于验证集240并且获得针对验证集240中的每个内容项的标签。由于验证集240已经包含具有已知标签的内容项,因此然后可以将已知标签与由模型250生成的标签相比较以确定模型250在正确预测标签方面的准确度。
然后验证后的模型250可以被应用于未标记的内容项并且被用来生成标签。通过这种方式,可以在合理的准确度程度内由模型对大量数据进行标记和/或分类。然而,如上面提到的,一般需要大量训练数据以便训练模型。期望以计算有效并且不需要手动标记的内容项的方式来获得训练数据。
图3是图示了根据本发明的一些实施例的用于基于感兴趣对象合成知识表示的示例性工作流的流程图。分析感兴趣对象(“OOI”)310,并且包含在OOI 310中的术语和/或其它属性被用来生成一个或多个主题统一资源标识符320(主题URI)。然后主题URI 320被用作用于合成知识表示330的基础,该知识表示330包括多个附加概念和/或概念之间的关系,这些概念中的一些无法在OOI 310中找到。
图4是根据本发明的一些实施例的示例OOI的图示。尽管图4中的示例性OOI 310是单个网页,但是应该了解,OOI可以扩展到覆盖多个网页的网站或多个网站,并且可以包括由呈现感兴趣项目的一个/多个语料库组成的任何合适类型的非结构化数据。在一些实施例中,OOI 310可以包括主题、推文、网页、网站、文档、文档标题、消息、广告和/或搜索查询;在一些实施例中,OOI 310可以是前述对象的单个实例(例如,简单主题、单个文档等),或者可以包括所述对象的集合(例如,与个人兴趣相关的主题集合、与个人兴趣相关的一组文档等)。而且,OOI 310可以包括与特定用户相关的各种类型的项目(例如,用户的推文以及该同一用户感兴趣的文档),并且可以扩展到跨越各种用户的项目(例如,与特定市场或感兴趣的人口段相关的项目)。OOI 310可以包括在线对象和离线对象两者。
如将会了解的,通过改变包含在OOI 310内的内容的范围,从中提取的主题URI320的数量和深度也会改变,并且由此产生的合成的知识表示330将会依次改变。因此,可以获得被包含在知识表示330内的概念和/或关系的集中程度与量之间的平衡。例如,包含更多扩展数据的OOI 310将表示更大的域,并且提供更大的范围,在该范围上生成主题URI320并且合成数据。相比之下,当使用主题(诸如,几个单词的短语)作为OOI 310时,该主题将是用于合成数据的唯一镜头。
图5是根据本发明的一些实施例的用于基于感兴趣对象提取主题URI的示例性工作流的图示。为了清晰起见,图5所示的OOI 310是图4所示的同一网页。以线性和分层方式二者示出了从OOI 310生成的主题URI 320。如可以看到的,标识出术语“皮肤”,并且状况、症状和堵塞的子主题被示出为与皮肤相关。应该注意的是,主题URI 320的分层和线性表示是表示相同关系的两种不同方式。
图6是根据一些实施例的用于基于从感兴趣对象310生成的主题URI 320合成知识表示330的示例性工作流的图示。如可以看到的,知识表示330包含附加概念,即,“器官”、“大脑”、“癌症”和“发红”,其被标识为与主题URI 320中的其它概念具有关系。例如,可以从感兴趣对象外部的源获得这些附加概念和概念之间的关系。例如,同义词词典、词典、其它内容项或各种重言式可以被用来标识附加概念和关系。如上面提到的,应该了解的是,知识表示330可以是各种类型的感兴趣对象的结果,包括广泛的非结构化数据,例如,已知用户感兴趣的文档集合。
应该注意的是,尽管本文提供了特定示例,但是存在许多方式来合成知识表示330。例如,可以在美国专利第9,378,203号和美国专利申请13/345,637中找到进一步的示例,其内容通过整体引用并入本文。在一些实施例中,原子知识表示模型(AKRM)可以包括一个或多个基本数据结构和一个或多个知识处理规则。在一些实施例中,系统可以使用这些规则来解构(分析)一个或多个复杂KR以生成基本数据结构。例如,系统可以包括一个或多个计算机处理器和一个或多个计算机存储器硬件组件,并且存储器可以用计算机可执行指令编码,该计算机可执行指令在由一个或多个处理器执行时使系统的一个或多个处理器在分析一个或多个复杂KR时使用这些规则来生成AKRM的基本数据结构。存储器还可以利用对一个或多个处理器进行编程的指令来编码,以使用这些规则来从基本数据结构合成新的复杂KR。在一些实施例中,计算机存储器可以被实现为利用计算机可执行指令来编码的一个或多个有形的非瞬态计算机可读存储介质,该计算机可执行指令在被执行时使一个或多个处理器执行本文所描述的任何功能。
合成的知识表示330可以被用来评估其它内容项的相关性。例如,使用来自图6的示例,可以针对在合成的知识表示中找到的一个或多个概念的存在来分析其它内容项。可以基于这种分析来生成分数,该分数可以被用作内容项相对于OOI 310的潜在相关性的指示符。而且,可以将权重分配给合成的知识表示330中的不同概念。这种权重可以被用来指示与知识表示中的另一概念相比知识表示330中的特定概念更可能与相关性有关。例如,可以通过获得概念的加权和来确定针对内容项的分数。在一些实施例中,可以基于知识表示330中的一个或多个概念与内容项的内容的交叉来确定针对内容项的分数。
图7是图示了根据本发明的一些实施例的用于根据分数标记的内容项的示例性方法的流程图。在710处,获得一个或多个得分的内容项。在一些实施例中,基于知识表示330来对项目进行评分,该知识表示330基于感兴趣对象310。在720处,将每个内容项与预定阈值分数相比较。如果针对内容项的分数大于阈值,那么在730处将内容项标记为“推荐”。如果针对内容项的分数小于或等于阈值分数,那么将内容项标记为“不推荐”。然后,具有“推荐”和“不推荐”标签的内容项形成标记的内容项的集合750。在一些实施例中,可以通过分数来对内容项进行排名,并且可以基于内容项在集合内的排名来分配标签,而不是纯粹基于分数。例如,针对在710处接收到的十个被评分的内容项,在720处,可以确定内容项是否排名在总共十个内容项的前三位中。
应该注意的是,尽管图7示出了针对内容项的两个可能的标签,但是本发明还设想了使用多于两个标签,并且用于多层标签(例如,多个标签选项),而不是二进制标签(例如,“是”或“否”)。例如,标签可以包括“推荐”,下一个最低层是“建议的”,接着是“不推荐”。这些层可以被扩展到任何合适数目的标签和/或类别。而且,标签不需要是分层的,但是可以建立关联类别(例如,体育、政治、技术等)。
如上面提到的,标记的内容项的集合750包括具有与其相关联的标签的一个或多个内容项。图8A是根据本发明的一些实施例的用于训练分类模型820的示例性工作流的图示。标记的内容项810的集合可以被用作训练数据(例如,本文描述的训练集230)以便构建机器学习分类器模型820。在一些实施例中,通过在图7中描述的过程来生成标记的内容项810的集合。
在一些实施例中,针对每个标记的内容项,基于标记的内容项810来训练分类模型820包括:内容项的各种特征和与内容项相关联的标签的比较。在一些实施例中,这些特征可以包括标准特征,该标准特征的示例包括标题、长度、作者、术语频率和/或逆文档频率。在一些实施例中,这些特征可以包括知识表示的一个或多个属性。分类模型820包括推断函数,该推断函数可以被用来基于特定内容项的特征来确定哪个标签应该被分配给特定内容项。
图8B是根据本发明的一些实施例的用于使用图8A的分类模型820来标记内容项的示例性工作流的图示。一旦训练了分类模型820,并且可选地使用附加的标记的验证数据来验证,分类模型820就可以被用来将标签分配给一个或多个未标记的内容项830的集合。这种分类基于被用来训练分类模型820的相同特征。应该了解的是,这种特征(例如,标题、长度、作者、术语频率和/或逆文档频率)可以从内容项容易地确定,而人类操作员需要最少的分析或者不需要分析。如此,可以相对快速和有效地执行使用分类模型820标记未标记的内容项830。将分类模型820应用于未标记的内容项830产生了标记的内容项850的第二集合。然后,可以将已经分配有有利标签(例如,“推荐”或“建议的”)的标记的内容项850作为可能感兴趣的内容发送给用户或用户组。
可以认为前述过程类似于无监督学习方法,因为分类器不需要任何监督(即,训练数据或未标记的内容)来产生有用的分类。无监督学习是推断出用以从未标记的数据描述隐藏结构的函数的机器学习任务。通过标识知识表示330与未标记的内容项830之间的交叉,生成未标记的内容项830的有用表示/特征(即,包括特定于感兴趣对象310的语义表示的隐藏结构)。而且,图7的过程可以被扩展到用于围绕知识表示的特征得到属性聚类内容项的技术(下面进一步详细描述)。
图9是用于使用从基于感兴趣对象的知识表示得到的属性利用机器学习分类器来对未标记的内容项进行分类的示例性工作流的图示。如上面关于图3至图6所提到的,感兴趣对象310可以被用来合成知识表示330,该知识表示330包括至少一个概念和/或两个或更多个概念之间的关系。在一些实施例中,知识表示被编码为非瞬态计算机可读数据结构。
如图9所示,标记的内容项的集合可以被用作针对机器学习算法的训练数据。可能可以使用知识表示330来作为针对机器学习分类模型的特征源。基于从知识表示得到的属性的内容项特征的示例可以包括:在知识表示与内容项之间概念交叉的总数、在知识表示与内容项之间的更狭窄概念交叉的数目、或者交叉概念的权重之和。本领域技术人员将了解,这些属性的许多组合和加权和也可以被用作针对机器学习分类模型的特征。下文更详细地描述了进一步的示例。
图10A是根据本发明的一些实施例的用于使用来自从感兴趣对象得到的知识表示的特征来训练分类器模型的示例性工作流的图示。训练数据包括一个或多个标记的内容项1010的第一集合。在一些实施例中,每个标签都将内容项分类为一个或多个类别。在一些实施例中,还可能存在包括一个或多个标记的内容项的第二集合的验证数据集。
通过基于从知识表示得到的一个或多个属性以及标记的内容项1010的特征来训练机器学习分类器1020。训练分类模型1020可以包括:基于从知识表示得到的一个或多个属性以及与训练数据集中的内容项相关联的标签,使用训练数据集中的内容项的至少一个特征来推断出一个或多个函数。
图10B是根据本发明的一些实施例的用于使用图10A的分类器模型来对未标记的内容项进行分类的示例性工作流的图示。通过分类模型1020来分析至少一个未标记的内容项1030的集合,该分类模型1020将至少一个未标记的内容项1030分类为至少一个标记的内容项1050的第二集合。在一些实施例中,分类基于从知识表示得到的一个或多个属性以及未标记的内容项的内容来使用至少一个特征。
图11是示出了根据本发明的一些实施例的与内容项相关联的属性、内容项的已知相关性和通过分类器的预测的示例表的图示。在图11中,标记的内容项的训练集包括内容项1至50。在该示例中,标签将内容项分类为与感兴趣对象相关或者与感兴趣对象不相关(在表格中,用Y表示“是”,并且用N表示“否”)。另外,存在验证数据集,该验证数据集包括用内容项51至100表示的标记的内容项的第二集合。内容项101至n是标签未知(因此,与OOI的相关性也未知)的未标记的内容项。
图11进一步示出了基于知识表示的第一属性和第二属性(表示为“属性1”和“属性2”)的训练数据和验证数据项的特征的对应值。尽管在图11中图示了基于两个属性的特征的值,但是一些实施例可以使用基于一个属性的特征以用于训练分类器模型。一些实施例还可以使用基于属性的两个或更多个特征来训练分类器模型。应该进一步注意的是,尽管图11中的示例中的标签是二进制的(即,仅有的选项为Y或N),但是不一定是这种情况,并且本文描述的系统和方法可以被用来将内容项分类为多于两个组。
针对图11中的表格中的每个内容项的基于属性1和属性2的特征的值可以基于这些属性与内容项的内容的交叉。从合成的知识表示得到属性,并且该属性可以包括例如在知识表示与内容项之间交叉的概念的总数、在知识表示与内容项之间交叉的更广泛概念的数目、在知识表示与内容项之间交叉的更狭窄概念的数目以及在知识表示与内容项之间交叉的概念的权重之和。
使用图4所示的示例性OOI 310和图6所示的合成的知识表示330作为示例,可以看到,知识表示300包括具有不同宽度的概念层次。例如,“器官”概念比知识表示330中的“大脑”和“皮肤”概念宽。同样地,“发红”概念比“症状”概念窄。知识表示330中的这些概念中的每一个还可以具有与其相关联的权重。
继续该示例,图11中的属性1是“更广泛概念的数目”,并且属性2是“更狭窄概念的数目”。内容项1可以与知识表示330进行比较和/或交叉,并且可以确定内容项1包含针对属性1分数为7的单词“器官”的7个实例以及针对属性2分数为30的单词“发红”的30个实例。同样地,内容项2可以包含针对属性1分数为15的单词“大脑”的5个实例和单词“皮肤”的10个实例。内容项2还可以包含针对属性2分数为15的单词“癌症”的15个实例,并且不包含单词“发红”的实例。本领域技术人员将了解,尽管属性1和属性2是知识表示300的特性,但是图11的表格中的分数基于与属性交叉的内容项的特征,该特征是从知识表示330得到的。
由于已经已知了针对内容项1和2(更一般地,内容项1至50)的“已知相关性”标签,因此可以基于检测到的基于特征的属性1和属性2的值与所产生的标签之间的关系来开发分类器模型。应该了解的是,当从合成的知识表示300得到的属性被用作用于训练机器学习分类器的特征时,与用于训练机器学习分类器的内容项的所谓“标准特征”(例如,标题、长度、作者等)的使用相比,可能需要更少的训练数据项来开发具有预定义的准确度水平的分类器模型。
利用合成手段以及作为特征产生的属性可以帮助避免数据稀疏性的问题,其中OOI 310或未标记的内容项中的数据的表达太有限,以致于无法仅使用“标准特征”来产生任何有用的分类。例如,OOI 310的单个推文或者未标记的内容项1030的标题可能根本不能为分类器提供足够的信息来准确地对内容项进行分类(并且在一些情况下,多个未标记的内容项1030中的标题的文字表达可能无法彼此充分区分)。相反,通过利用来自知识表示的基于特征的属性,向系统提供大量数据,这可以避免依赖于传统机器学习方法应用的特征的缺点。
一旦已经使用训练数据训练了机器学习分类器,然后就可以使用验证数据项(例如,图11中的内容项51至100)来验证分类器模型。如可以看到的,针对每个验证数据项来确定针对基于属性1和属性2的特征的值,并且在图11的最右列中示出了分类器基于针对基于属性1和属性2的特征的值的预测。被分配给内容项51和100的标签是正确的,而分类器为内容项99预测的标签是错误的。在一些实施例中,可能需要分类器模型的最低的准确度水平。如果针对分类器模型的正确预测率低于可接受的阈值,则系统可以使用附加的训练数据来进一步训练机器学习分类器。例如,在一些实施例中,在仅基于训练数据集的分类器未实现必要的准确度水平的情况下,可以使用训练数据集和验证数据集两者来训练机器学习分类器。
一旦经过训练,然后机器学习分类器就可以被用来对没有标签的内容项进行分类。如图11所示,内容项101和102在“已知相关性”列中包含“?”,并且机器学习分类器已经分别预测了“N”和“Y”标签。
在一些实施例中,可以训练多于一个的机器学习分类器。例如,参照图12,可以使用基于属性1和属性2的训练数据内容项的特征来训练第一分类器(“分类器1”)。可以使用基于属性的不同子集的特征来训练第二分类器(“分类器2”)。例如,可以仅使用基于属性1的特征来训练第二分类器。如可以看到的,针对同一内容项,由第一分类器和第二分类器预测的标签可能不同,这取决于特定属性或属性集合和针对特定内容项的与其相关联的标签之间的相关性。
图13是示出了根据本发明的一些实施例的由多个或全体分类器模型进行的预测结果的示例表的图示。如所示,针对基于不同属性使用特征的不同集合或子集训练的第一、第二和第三分类器示出了未标记的内容项101至105的预测的标签。在一些实施例中,可以根据来自不同分类器的预测的加权和来生成整体标签。在图13所示的示例中,每个分类器都是二进制的(意味着分配了是或否的标签),并且每个分类器被相等地加权。相应地,‘是’预测可以被赋予值1,并且‘否’预测可以被赋予值0。然后可以针对整体标签的每个内容项获得平均分数。在图13所示的示例中,平均分数高于0.5的内容项被赋予‘是’标签,而分数低于0.5的内容项被赋予‘否’标签。在一些实施例中,将标签分配给内容项类似于将内容项分类为多个可能类别中的一个类别(例如,“与OOI相关”或“与OOI不相关”)。
应该注意的是,可以选择被分配给特定分类器的阈值和权重以实现期望结果。图13所示的具有二进制分类器的相等加权系统仅是示例。在一些实施例中,分类器不是相等加权的,并且分类器可以可选地产生多于两个的可能标签(例如,“推荐的”、“建议的”和“不推荐的”)。另一示例分类是“重复”或“未重复”,其中可以训练分类器以将内容项分类为与感兴趣对象太相似而不推荐(例如,如果文章包含与感兴趣对象相同的文本,但是由不同的发布源发布)。
如上面提到的,在一些实施例中,基于感兴趣对象的内容来合成知识表示。在一些实施例中,该合成包括生成至少一个概念和/或两个或更多个概念之间的关系,其中概念和/或关系未被列举在感兴趣对象中。在一些实施例中,合成的知识表示可以将生成性规则应用于基本数据结构以合成新的复杂知识表示。知识表示还可以包括与至少一个概念相关联的权重。而且,知识表示可以考虑特定用户或特定用户组的特质。例如,如果已知特定用户对网球感兴趣,则可以例如通过将更大的权重分配给与网球相关的概念或者通过生成与网球相关的附加概念并且将其添加到知识表示来在知识表示中考虑这一点。相应地,相对于使用来自未特定于特别用户或用户组的知识表示的属性训练的分类器,使用来自为特别用户或用户组定制的知识表示的属性训练的机器学习分类器可以针对同一内容项产生不同的分类。
在一些实施例中,根据上面关于图7所描述的过程来生成被用来训练机器学习分类模型的训练数据。
如上面提到的,通过监督学习算法推断出的函数可以基于训练数据内容项的各种特征与分配给训练数据内容项的标签之间的被观察或检测到的相关性。内容项的一些特征可能对所产生的标签几乎没有影响,而其它特征可能与所产生的标签具有非常紧密的相关性。例如,与基于与更广泛概念的数目相关的属性的特征相比,基于与包含在内容项中的知识表示中的更狭窄概念的数目相关的属性的特征可以具有与标签更强的相关性。
期望标识训练数据内容项的特征和/或知识表示的属性,其倾向于具有与被分配给训练数据对象的标签更高的相关性。训练机器学习分类器更加强调这种特征或属性可以导致针对分类器的整体准确度更高,或者潜在地导致将分类器训练到可接受的准确度范围所需的训练数据项的数量减少。而且,这种特征和/或属性的标识还可以减少要针对每个训练数据项进行评估的属性或特征的数目。这进而可以降低机器学习算法的计算复杂度以及与其相关联的处理成本。
图14A是示出了根据本发明的一些实施例的由分类器预测的标签的准确度的示例表的图示。如可以看到的,机器学习分类器对验证内容项1、2、4和6正确地进行了分类,而验证内容项3、5、7和8被错误地分类。因此,分类器针对这8个验证内容项具有50%的准确率。
图14B是图14A所示的结果的准确度的图形说明。如可以看到的,内容项7和8是相关的,但是被机器学习分类器“遗漏”并且落在所图示的圆圈外。内容项1、2和4被正确地分类。内容项3和5是不相关的,并且被错误地分类为相关。内容项6是不相关的,并且被正确地分类。
用于评估分类器的准确度的一个度量是精度的概念,其被定义为正确标记的相关项的数目除以被分类器标记为相关的项目的总数的比率。在图14B的示例中,分类器的精度将是3/5(因为内容项1、2和4被正确地推荐,而内容项3和5被错误地推荐)。
用于评估分类器的准确度的另一度量是召回的概念,其被定义为正确标记的相关项的数目除以相关项的总数的比率。在图14B的示例中,分类器的召回将是3/5(因为内容项1、2和4被推荐,而相关项7和8不被推荐)。
精度和召回通常是分类器的竞争目标,因为召回的重点是标识每个相关项,即使也包括了不相关项,而精度的重点是仅标识相关项,同时排除不相关项。换言之,当避免漏报(false negative)优于避免误报(false positive)时,召回可能优于精度,而当避免误报优于避免漏报时,精度可能优于召回。
在一些实施例中,可以将由机器学习分类器进行的预测的比较与被分配给每个验证内容数据项的标签相比较。然后可以基于该比较来修改知识表示。
例如,可以在图14A中观察到,基于属性2的特征的较高分数与“Y”标签相关,并且基于属性1的特征的值相对来说不太相关。鉴于这种趋势,可以修改针对OOI的知识表示以反映这种相关性。例如,如果图14A的示例中的基于属性2的特征是知识表示中与每个验证数据项交叉的更狭窄概念的数目,则可以修改知识表示(例如,图6)以包括附加的更狭窄概念。例如,可以将“晒伤”的概念添加到“状况”层级中,并且可以将“瘙痒”的概念添加到“症状”层级中。作为另一示例,可以增大与知识表示中的某些概念(即,更狭窄概念)相关联的权重,和/或可以减小与某些概念(即,更广泛概念)相关联的权重。
然后,经修改的知识表示可以被用来基于每个属性为内容项的特征生成值。图15A反映了基于用于验证内容项1至8的知识表示中的属性的每个特征的更新值。如可以看到的,相对于图14A中的值,基于属性2的特征的值(在该示例中,其对应于更狭窄概念的数目)被夸大。尽管在图15A中未改变属性1的值,但是这可能不一定是这种情况,并且本文图示的值仅是示例。
使用经修改的知识表示来使用基于属性1和属性2的特征的值,然后机器学习分类器可以重新预测用于验证内容项的标签。如上面提到的,属性可以包括在知识表示与一个或多个标记的内容项之间交叉的概念的总数、在知识表示与一个或多个标记的概念项之间交叉的更广泛概念的数目、在知识表示与一个或多个标记的内容项之间交叉的概念的权重之和、和/或在知识表示与一个或多个标记的内容项之间交叉的更狭窄概念的数目中的至少一个。如可以从图15A看到的,使用经修改的知识表示预测的针对某些内容项的相关性是不同的。
图15B提供了使用利用机器学习分类器修改的知识表示的分类器的结果的图形说明。如可以看到的,内容项1、2、4和7现在被正确地推荐,而内容项8仍然被分类器“遗漏”。内容项3仍然被错误地推荐,而内容项5现在被正确地标记为不相关。内容项6仍然被正确地标记为不相关。相应地,在该示例中使用经修改的知识表示的分类器的精度现在是4/5(正确地推荐了四个内容项,并且总共推荐了五个内容项)。使用经修改的知识表示的分类器的召回现在是4/5(正确地推荐了四个内容项,并且省略了一个相关内容项)。因此,在该示例中,机器学习分类器的精度和召回都得到了改进。应该注意的是,一些实施例仅可以通过修改知识表示来改进精度或召回中的一个。
在一些实施例中,可以迭代地修改知识表示,直到已经实现了目标精度或召回阈值为止。例如,如果目标精度是9/10(或90%),那么考虑到图15A和图15B图示了4/5(或80%)精度,图15A和图15B中的结果将需要对知识表示进行进一步的修改,以试图将内容项8标记为相关或者将内容项3标记为不相关。
图16是根据本发明的一些实施例的用于基于分类器的结果来修改知识表示的示例性流程图的图示。在1610处,机器学习分类器预测标记的内容项(例如,验证内容项)的集合的相关性。在1620处,将通过机器学习分类器的预测与验证数据项的已知标签(在该示例中对应于相关性)相比较。在1630处,确定机器学习分类器是否已经实现了目标。在一些实施例中,该目标是精度目标。在一些实施例中,该目标是召回目标。在一些实施例中,该目标是精度和召回目标的组合。
如果未实现目标,那么在1640处,修改知识表示。在1650处,移除针对验证内容项的预测的标签。然后过程返回到1610,其中预测验证内容项的相关性。
如果在1630处,已经实现了目标结果,那么该过程结束,并且机器学习分类器和知识表示可以被用来预测未标记的内容项的相关性。
相应地,本文所描述的方法、系统和计算机可读介质的一些实施例可以有助于进行以下的一项或多项:生成训练数据进行训练机器学习分类器以用于标识与感兴趣对象相关的内容、基于感兴趣对象使用来自合成的知识表示的特征的属性进行训练机器学习分类器、和/或用于基于所观察到的与经训练的机器学习分类器相关联的精度和/或召回值来修改合成的知识表示。
本公开还设想了应用前述的反馈回路来修改知识表示,使得可以在知识表示内形成新的关系和/或概念。例如,如果知识表示中的特定概念或关系的出现导致机器学习分类器的提高的性能,则该方法可以识别出提高的性能,并且修改知识表示以包括所述概念或关系。通过考虑具有或不具有特定概念或关系的内容片段,可以标识内容中的模式以影响知识表示的选区。
本文所描述的类型的机器学习分类器还可以被用来确定已经包含在知识表示内的两个独立概念是否可以被组合以形成新概念(或者备选地,可以通过某种关系类型连接),例如,通过标识两个独立且断开连接的概念(例如,“火”和“水管”)应该通过关系连接(例如,“火”与“水管”相关)或者备选地被组合以形成新概念(例如,“消防带”)。
应该注意的是,各种发明构思可以体现为一种或多种方法,本文提供了其多个示例。作为该方法的一部分而执行的动作可以按照任何合适的方式来进行排序。相应地,可以构造按照与所图示的顺序不同的顺序来执行动作的实施例,其可以包括同时执行一些动作,即使在说明性实施例中被示出为连续动作,反之亦然。
本发明的上述实施例可以按照多种方式中的任何方式来实现。例如,可以使用硬件、软件或其组合来实现这些实施例。当被实现在软件中时,软件代码可以体现为可以在任何合适的处理器或处理器集合(例如,一个或多个微处理器)上被执行的存储的程序指令,无论是被提供在单个计算机中还是分布在多个计算机之间。
应该了解的是,计算机可以体现为多种形式中的任何形式,诸如,机架式计算机、台式计算机、膝上型计算机或平板计算机。附加地,计算机可以体现在一般不被视为计算机但是具有合适的处理能力的设备中,包括个人数字助理(PDA)、智能电话、平板电脑、阅读器或者任何其它合适的便携式或固定式电子设备。
而且,计算机可以具有一个或多个输入和输出设备。除了别的用途之外,这些设备可以被用来呈现用户界面。可以被用来提供用户界面的输出设备的示例包括用于输出的可视呈现的打印机或显示屏以及用于输出的可听呈现的扬声器或其它声音生成设备。可以被用于用户界面的输入设备的示例包括键盘、麦克风和指示设备,诸如,鼠标、触摸板和数字化平板电脑。
这种计算机可以通过一个或多个网络以任何合适的形式互连,包括诸如局域网(LAN)或广域网(WAN)等网络,诸如,企业网络、智能网络(IN)或互联网。这种网络可以基于任何合适的技术并可以根据任何合适的协议操作,并且可以包括无线网络、有线网络和/或光纤网络。
本文概述的各种方法或过程可以被编码为在一个或多个处理器上可执行的软件,该一个或多个处理器采用各种操作系统或平台中的任何一个。附加地,这种软件可以使用多种合适的编程语言和/或编程或脚本工具中的任何一种来编写,并且还可以被编译为在虚拟机或合适框架上被执行的可执行机器语言代码或中间代码。
在这方面,各种发明性构思可以体现为用一个或多个程序编码的至少一个非瞬态有形计算机可读存储介质(例如,计算机存储器、一个或多个软盘、压缩盘、光盘、磁带、闪速存储器、现场可编程门阵列或其它半导体设备中的电路配置等)制品,该一个或多个程序在一个或多个计算机或其它处理器上被执行时实现本发明的各种过程实施例。一个或多个非瞬态计算机可读介质可以是便携式的,使得存储在其上的一个或多个程序可以被加载到任何合适的计算机资源上以实现上面讨论的本发明的各种方面。
一般意义上,在本文中使用术语“程序”或“软件”来指代任何类型的计算机代码或计算机可执行指令集,其可以被用来对计算机或其它处理器进行编程以实现上面讨论的实施例的各种方面。附加地,应该理解,根据一个方面,在被执行时执行本发明的方法的一个或多个计算机程序不需要驻留在单个计算机或处理器上,但是可以以模块化方式分布在不同的计算机或处理器之间以实现本发明的各种方面。
计算机可执行指令可以是由一个或多个计算机或其它设备执行的许多形式,诸如,程序模块。一般,程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、项目、组件、数据结构等。通常,程序模块的功能性可以根据需要组合或分布在各种实施例中。
而且,数据结构可以以任何合适的形式存储在非瞬态有形计算机可读存储介质制品中。为了简化说明,数据结构可以示出为具有通过数据结构中的位置相关的字段。同样地,这种关系可以通过为在非瞬态有形计算机可读介质中具有位置的字段分配存储来实现,该非瞬态有形计算机可读介质传达字段之间的关系。然而,任何合适的机制都可以被用来在数据结构的字段中的信息之间建立关系,包括通过使用指针、标记或在数据元素之间建立关系的其它机制。
本文使用和定义的所有定义都应该被理解为控制词典定义、通过引用并入的文档中的定义和/或所定义的术语的普通含义。
除非有明确的相反指示,否则本文使用的不定冠词“一”和“一个”应该被理解为表示“至少一个”。
如本文使用的,关于一个或多个元素的列表,短语“至少一个”应该被理解为表示从元素列表中的任何一个或多个元素选择的至少一个元素,但是不一定包括在元素列表内具体列举的每个元素中的至少一个,并且不排除元素列表中的元素的任何组合。该定义还允许除了在短语“至少一个”所指的元素列表内具体标识的元素之外,还可能可选地存在其它元素,无论与具体标识的这些元素相关或不相关。因此,作为非限制性示例,在一个实施例中,“A和B中的至少一个”(或等效的“A或B中的至少一个”或者等效的“A和/或B中的至少一个”)可以表示至少一个A,可选地包括多于一个A,不存在B(并且可选地包括除了B之外的元素);在另一实施例中,表示至少一个B,可选地包括多于一个B,不存在A(并且可选地包括除了A之外的元素);在又一实施例中,表示至少一个A(可选地包括多于一个A)和至少一个B(可选地包括多于一个B)(并且可选地包括其它元素);等等。
本文使用的术语“和/或”应该被理解为表示如此结合的元素中的“一个或两个”,即,在一些情况下结合地存在并且在其它情况下分离地存在的元素。用“和/或”列举的多个元素应该以相同的方式解释,即,如此结合的元素中的“一个或多个”。除了通过“和/或”子句具体标识的元素之外,其它元素可以可选地存在,无论与具体标识的这些元素相关或不相关。因此,作为非限制性示例,在与诸如“包括”等开放式语言结合使用时,在一个实施例中,对“A和/或B”的引用可以仅指代A(可选地包括除了B之外的元素);在另一实施例中,仅指代B(可选地包括除了A之外的元素);在又一实施例中,指代A和B(可选地包括其它元素);等等。
如本文所使用的,“或者”应该被理解为具有与上面定义的“和/或”相同的含义。例如,当分离列表中的项目时,“或者”或“和/或”应该被解释为包含性的,即,包含多个元素或元素列表中的至少一个,但是也包括多于一个,并且可选地包括附加的未列举项目。
本文使用的措辞和术语是出于描述的目的,并且不应该被认为是限制性的。使用“包括(including)”、“包括(comprising)”、“具有”、“包含”、“涉及”及其变型意味着涵盖其后列举的项目和附加项目。
已经详细描述了本发明的多个实施例,本领域技术人员将容易地想到各种修改和改进。这种修改和改进旨在落入本发明的精神和范围内。相应地,前面的描述仅是示例性的而非限制性的。

Claims (126)

1.一种针对机器学习分类器生成训练数据的方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收内容项的第一集合,其中所述第一集合包括没有标签的一个或多个内容项,其中所述标签将内容项分类为一个或多个类别;
针对所述第一集合中的一个或多个相应内容项确定一个或多个分数,其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容;以及
通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。
2.根据权利要求1所述的方法,进一步包括基于所述感兴趣对象的内容合成所述知识表示。
3.根据权利要求2所述的方法,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
4.根据权利要求1所述的方法,其中所述知识表示包括与所述至少一个概念相关联的权重。
5.根据权利要求1所述的方法,其中针对所述相应内容项的所述分数基于所述知识表示中的所述至少一个概念与所述相应内容项的所述内容的交叉。
6.根据权利要求1所述的方法,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
7.根据权利要求1所述的方法,进一步包括:
训练分类器以基于被分配给内容项的所述第一集合的所述标签以及与内容项的所述第一集合相关联的一个或多个特征来预测针对一个或多个未分类的内容项的标签。
8.根据权利要求7所述的方法,进一步包括:
接收内容项的第二集合,其中所述第二集合包括没有标签的一个或多个内容项;以及
由所述分类器基于与所述第二集合中的所述一个或多个相应内容项相关联的一个或多个特征来将标签分配给所述第二集合中的所述内容项中的一个或多个内容项。
9.根据权利要求1所述的方法,其中将所述标签分配给所述第一集合中的所述一个或多个相应内容项包括基于针对所述第一集合中的相应内容项的所述分数超过预定阈值来分配所述标签。
10.根据权利要求1所述的方法,其中所述标签是“推荐”或“不推荐”中的一个。
11.根据权利要求7所述的方法,其中所述一个或多个特征包括以下中的至少一项:标题、长度、作者、术语频率和/或逆文档频率。
12.根据权利要求7所述的方法,其中所述一个或多个特征包括所述知识表示的一个或多个属性。
13.一种用于针对机器学习分类器生成训练数据的系统,所述系统包括:
至少一个处理器,被配置为执行方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收内容项的第一集合,其中所述第一集合包括没有标签的一个或多个内容项,其中所述标签将内容项分类为一个或多个类别;
针对所述第一集合中的一个或多个相应内容项确定一个或多个分数,其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容;以及
通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。
14.根据权利要求13所述的系统,其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。
15.根据权利要求14所述的系统,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
16.根据权利要求13所述的系统,其中所述知识表示包括与所述至少一个概念相关联的权重。
17.根据权利要求13所述的系统,其中针对所述相应内容项的所述分数基于所述知识表示中的所述至少一个概念与所述相应内容项的所述内容的交叉。
18.根据权利要求13所述的系统,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
19.根据权利要求13所述的系统,其中所述方法进一步包括:训练分类器以基于被分配给内容项的所述第一集合的所述标签以及与内容项的所述第一集合相关联的一个或多个特征来预测针对一个或多个未分类的内容项的标签。
20.根据权利要求19所述的系统,其中所述方法进一步包括:
接收内容项的第二集合,其中所述第二集合包括没有标签的一个或多个内容项;以及
由所述分类器基于与所述第二集合中的所述一个或多个相应内容项相关联的一个或多个特征来将标签分配给所述第二集合中的所述内容项中的一个或多个内容项。
21.根据权利要求13所述的系统,其中将所述标签分配给所述第一集合中的所述一个或多个相应内容项包括基于针对所述第一集合中的相应内容项的所述分数超过预定阈值来分配所述标签。
22.根据权利要求13所述的系统,其中所述标签是“推荐”或“不推荐”中的一个。
23.根据权利要求19所述的系统,其中所述一个或多个特征包括以下中的至少一项:标题、长度、作者、术语频率和/或逆文档频率。
24.根据权利要求19所述的系统,其中所述一个或多个特征包括所述知识表示的一个或多个属性。
25.存储处理器可执行指令的至少一个非瞬态计算机可读存储介质,所述处理器可执行指令在由至少一个处理器执行时使所述至少一个处理器执行针对机器学习分类器生成训练数据的方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收内容项的第一集合,其中所述第一集合包括没有标签的一个或多个内容项,其中所述标签将内容项分类为一个或多个类别;
针对所述第一集合中的一个或多个相应内容项确定一个或多个分数,其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容;以及
通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。
26.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。
27.根据权利要求26所述的至少一个非瞬态计算机可读存储介质,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
28.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中所述知识表示包括与所述至少一个概念相关联的权重。
29.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中针对所述相应内容项的所述分数基于所述知识表示中的所述至少一个概念与所述相应内容项的所述内容的交叉。
30.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
31.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括:训练分类器以基于被分配给内容项的所述第一集合的所述标签以及与内容项的所述第一集合相关联的一个或多个特征来预测针对一个或多个未分类的内容项的标签。
32.根据权利要求31所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括:
接收内容项的第二集合,其中所述第二集合包括没有标签的一个或多个内容项;以及
由所述分类器基于与所述第二集合中的所述一个或多个相应内容项相关联的一个或多个特征来将标签分配给所述第二集合中的所述内容项中的一个或多个内容项。
33.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中将所述标签分配给所述第一集合中的所述一个或多个相应内容项包括基于针对所述第一集合中的相应内容项的所述分数超过预定阈值来分配所述标签。
34.根据权利要求25所述的至少一个非瞬态计算机可读存储介质,其中所述标签是“推荐”或“不推荐”中的一个。
35.根据权利要求31所述的至少一个非瞬态计算机可读存储介质,其中所述一个或多个特征包括以下中的至少一项:标题、长度、作者、术语频率和/或逆文档频率。
36.根据权利要求31所述的至少一个非瞬态计算机可读存储介质,其中所述一个或多个特征包括所述知识表示的一个或多个属性。
37.一种利用机器学习分类器对至少一个未标记的内容项进行分类的方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收训练数据,所述训练数据包括具有标签的一个或多个标记的内容项的第一集合,所述标签将每个内容项分类为一个或多个类别;
基于从所述知识表示得到的一个或多个属性利用所述标记的内容项的至少一个特征来训练所述机器学习分类器;以及
利用所述机器学习分类器,基于从所述知识表示得到的所述一个或多个属性使用所述未标记的内容项的至少一个特征来将所述至少一个未标记的内容项分类为所述一个或多个类别。
38.根据权利要求37所述的方法,进一步包括基于所述感兴趣对象的内容合成所述知识表示。
39.根据权利要求38所述的方法,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
40.根据权利要求37所述的方法,其中所述知识表示包括与所述至少一个概念相关联的权重。
41.根据权利要求37所述的方法,其中所述一个未标记的内容项的所述至少一个特征基于从所述知识表示得到的所述一个或多个属性的交叉。
42.根据权利要求37所述的方法,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
43.根据权利要求37所述的方法,进一步包括:
接收验证数据,所述验证数据包括一个或多个标记的内容项的第二集合;
利用所述机器学习分类器,基于从所述知识表示得到的所述一个或多个属性使用一个或多个标记的内容项的所述第二集合的至少一个特征来将所述验证数据分类为所述一个或多个类别。
44.根据权利要求43所述的方法,进一步包括:
将针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的经分类的所述类别与针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的一个或多个标签相比较;
确定由所述机器学习分类器进行的正确分类的数目和错误分类的数目;以及
基于所述正确分类的数目和所述错误分类的数目来重新训练所述机器学习分类器。
45.根据权利要求37所述的方法,其中所述标记的内容项的所述至少一个特征包括以下中的至少一项:
在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的总数,
在所述知识表示与所述至少一个未标记的内容项之间交叉的更广泛概念的数目,
在所述知识表示与所述至少一个未标记的内容项之间交叉的更狭窄概念的数目,和/或
在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的权重之和。
46.根据权利要求37所述的方法,其中所述知识表示是用户特定的。
47.根据权利要求37所述的方法,其中所述知识表示是群组特定的。
48.根据权利要求37所述的方法,其中所述标签包括“推荐”和“不推荐”中的一个。
49.根据权利要求37所述的方法,其中所述标签包括“重复”和“未重复”中的一个。
50.根据权利要求37所述的方法,其中训练所述机器学习分类器包括训练至少两个机器学习分类器,其中所述至少两个机器学习分类器中的第一分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第一特征来训练的,并且其中所述至少两个机器学习分类器中的第二分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第二特征来训练的,其中所述第一特征和所述第二特征基于至少一个不同属性。
51.根据权利要求50所述的方法,其中针对所述至少一个未标记的内容项的经分类的所述类别是使用所述至少两个机器学习分类器来确定的。
52.根据权利要求51所述的方法,进一步包括基于通过所述至少两个机器学习分类器中的每个机器学习分类器的正确分类和错误分类的相应数目来将权重与所述至少两个机器学习分类器中的每个机器学习分类器相关联。
53.根据权利要求37所述的方法,其中所述训练数据是基于针对一个或多个未标记的内容项的分数来生成的,其中针对相应未标记的内容项的所述分数基于从所述知识表示得到的所述一个或多个属性以及所述相应内容项的内容。
54.一种用于利用机器学习分类器对至少一个未标记的内容项进行分类的系统,所述系统包括:
至少一个处理器,被配置为执行方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收训练数据,所述训练数据包括具有标签的一个或多个标记的内容项的第一集合,所述标签将每个内容项分类为一个或多个类别;
基于从所述知识表示得到的一个或多个属性利用所述标记的内容项的至少一个特征来训练所述机器学习分类器;以及
利用所述机器学习分类器,基于从所述知识表示得到的所述一个或多个属性使用所述未标记的内容项的至少一个特征来将所述至少一个未标记的内容项分类为所述一个或多个类别。
55.根据权利要求54所述的系统,其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。
56.根据权利要求55所述的系统,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
57.根据权利要求54所述的系统,其中所述知识表示包括与所述至少一个概念相关联的权重。
58.根据权利要求54所述的系统,其中所述一个未标记的内容项的所述至少一个特征基于从所述知识表示得到的所述一个或多个属性的交叉。
59.根据权利要求54所述的系统,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
60.根据权利要求54所述的系统,其中所述方法进一步包括:
接收验证数据,所述验证数据包括一个或多个标记的内容项的第二集合;以及
利用所述机器学习分类器,基于从所述知识表示得到的所述一个或多个属性使用一个或多个标记的内容项的所述第二集合的至少一个特征来将所述验证数据分类为所述一个或多个类别。
61.根据权利要求60所述的系统,其中所述方法进一步包括:
将针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的经分类的所述类别与针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的一个或多个标签相比较;
确定由所述机器学习分类器进行的正确分类的数目和错误分类的数目;以及
基于所述正确分类的数目和所述错误分类的数目来重新训练所述机器学习分类器。
62.根据权利要求54所述的系统,其中所述标记的内容项的所述至少一个特征包括以下中的至少一项:
在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的总数,
在所述知识表示与所述至少一个未标记的内容项之间交叉的更广泛概念的数目,
在所述知识表示与所述至少一个未标记的内容项之间交叉的更狭窄概念的数目,和/或
在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的权重之和。
63.根据权利要求54所述的系统,其中所述知识表示是用户特定的。
64.根据权利要求54所述的系统,其中所述知识表示是群组特定的。
65.根据权利要求54所述的系统,其中所述标签包括“推荐”和“不推荐”中的一个。
66.根据权利要求54所述的系统,其中所述标签包括“重复”和“未重复”中的一个。
67.根据权利要求54所述的系统,其中训练所述机器学习分类器包括训练至少两个机器学习分类器,其中所述至少两个机器学习分类器中的第一分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第一特征来训练的,并且其中所述至少两个机器学习分类器中的第二分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第二特征来训练的,其中所述第一特征和所述第二特征基于至少一个不同属性。
68.根据权利要求67所述的系统,其中针对所述至少一个未标记的内容项的经分类的所述类别是使用所述至少两个机器学习分类器来确定的。
69.根据权利要求68所述的系统,其中所述方法进一步包括基于通过所述至少两个机器学习分类器中的每个机器学习分类器的正确分类和错误分类的相应数目来将权重与所述至少两个机器学习分类器中的每个机器学习分类器相关联。
70.根据权利要求54所述的系统,其中所述训练数据是基于针对一个或多个未标记的内容项的分数来生成的,其中针对相应未标记的内容项的所述分数基于从所述知识表示得到的所述一个或多个属性以及所述相应内容项的内容。
71.存储处理器可执行指令的至少一个非瞬态计算机可读存储介质,所述处理器可执行指令在由至少一个处理器执行时使所述至少一个处理器执行利用机器学习分类器对至少一个未标记的内容项进行分类的方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收训练数据,所述训练数据包括具有标签的一个或多个标记的内容项的第一集合,所述标签将每个内容项分类为一个或多个类别;
基于从所述知识表示得到的一个或多个属性利用所述标记的内容项的至少一个特征来训练所述机器学习分类器;以及
利用所述机器学习分类器,基于从所述知识表示得到的所述一个或多个属性使用所述未标记的内容项的至少一个特征来将所述至少一个未标记的内容项分类为所述一个或多个类别。
72.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。
73.根据权利要求72所述的至少一个非瞬态计算机可读存储介质,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
74.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述知识表示包括与所述至少一个概念相关联的权重。
75.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述未标记的内容项的所述至少一个特征基于从所述知识表示得到的所述一个或多个属性的交叉。
76.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
77.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括:
接收验证数据,所述验证数据包括一个或多个标记的内容项的第二集合;以及
利用所述机器学习分类器,基于从所述知识表示得到的所述一个或多个属性使用一个或多个标记的内容项的所述第二集合的至少一个特征来将所述验证数据分类为所述一个或多个类别。
78.根据权利要求77所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括:
将针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的经分类的所述类别与针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的一个或多个标签相比较;
确定由所述机器学习分类器进行的正确分类的数目和错误分类的数目;以及
基于所述正确分类的数目和所述错误分类的数目来重新训练所述机器学习分类器。
79.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述标记的内容项的所述至少一个特征包括以下中的至少一项:
在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的总数,
在所述知识表示与所述至少一个未标记的内容项之间交叉的更广泛概念的数目,
在所述知识表示与所述至少一个未标记的内容项之间交叉的更狭窄概念的数目,和/或
在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的权重之和。
80.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述知识表示是用户特定的。
81.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述知识表示是群组特定的。
82.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述标签包括“推荐”和“不推荐”中的一个。
83.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述标签包括“重复”和“未重复”中的一个。
84.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中训练所述机器学习分类器包括训练至少两个机器学习分类器,其中所述至少两个机器学习分类器中的第一分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第一特征来训练的,并且其中所述至少两个机器学习分类器中的第二分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第二特征来训练的,其中所述第一特征和所述第二特征基于至少一个不同属性。
85.根据权利要求84所述的至少一个非瞬态计算机可读存储介质,其中针对所述至少一个未标记的内容项的经分类的所述类别是使用所述至少两个机器学习分类器来确定的。
86.根据权利要求85所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括基于通过所述至少两个机器学习分类器中的每个机器学习分类器的正确分类和错误分类的相应数目来将权重与所述至少两个机器学习分类器中的每个机器学习分类器相关联。
87.根据权利要求71所述的至少一个非瞬态计算机可读存储介质,其中所述训练数据是基于针对一个或多个未标记的内容项的分数来生成的,其中针对相应未标记的内容项的所述分数基于从所述知识表示得到的所述一个或多个属性以及所述相应内容项的内容。
88.一种基于机器学习分类器修改知识表示的方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收验证数据,所述验证数据包括具有标签的一个或多个标记的内容项的第一集合,所述标签将每个内容项分类为一个或多个类别,所述一个或多个类别包括已知与所述感兴趣对象相关的第一类别以及已知与所述感兴趣对象不相关的第二类别;
利用使用从所述知识表示得到的至少一个属性作为特征的机器学习分类器来将所述一个或多个标记的内容项中的每个标记的内容项预测为以下中的一项:a)与所述感兴趣对象相关或者b)与所述感兴趣对象不相关;以及
基于由所述机器学习分类器对所述第一集合中的每个内容项的所述预测与每个相应内容项的所述标签的比较来修改所述知识表示。
89.根据权利要求88所述的方法,进一步包括基于所述感兴趣对象的内容合成所述知识表示。
90.根据权利要求89所述的方法,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
91.根据权利要求88所述的方法,其中所述知识表示包括与所述至少一个概念相关联的权重。
92.根据权利要求88所述的方法,其中所述预测基于所述一个或多个标记的内容项与所述特征的交叉。
93.根据权利要求88所述的方法,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
94.根据权利要求88所述的方法,进一步包括:
在修改所述知识表示之后:
使用经修改的所述知识表示来重新预测所述一个或多个标记的内容项的所述第一集合中的每个标记的内容项;以及
基于由所述机器学习分类器对所述第一集合中的每个内容项的所述预测与每个相应内容项的所述标签的比较来修改所述知识表示。
95.根据权利要求94所述的方法,其中所述重新预测和所述修改被重复,直到被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与所述第一类别中的标记的内容项的总数的比率等于或超过精度阈值。
96.根据权利要求94所述的方法,其中所述重新预测和所述修改被重复,直到被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与被预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的总数的比率等于或超过召回阈值。
97.根据权利要求88所述的方法,其中修改所述知识表示包括修改与所述知识表示中的所述至少一个概念相关联的权重和/或将附加概念添加到所述知识表示。
98.根据权利要求88所述的方法,其中基于所述比较修改所述知识表示包括当被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与所述第一类别中的所述一个或多个标记的内容项的总数的比率小于阈值精度值时修改所述知识表示。
99.根据权利要求88所述的方法,其中基于所述比较修改所述知识表示包括当被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与被预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的总数的比率小于阈值召回值时修改所述知识表示。
100.根据权利要求88所述的方法,其中所述至少一个属性包括以下中的至少一项:
在所述知识表示与所述一个或多个标记的内容项之间交叉的概念的总数,
在所述知识表示与所述一个或多个标记的内容项之间交叉的更广泛概念的数目,
在所述知识表示与所述一个或多个标记的内容项之间交叉的概念的权重之和,和/或
在所述知识表示与所述一个或多个标记的内容项之间交叉的更狭窄概念的数目。
101.一种用于基于机器学习分类器修改知识表示的系统,所述系统包括:
至少一个处理器,被配置为执行方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收验证数据,所述验证数据包括具有标签的一个或多个标记的内容项的第一集合,所述标签将每个内容项分类为一个或多个类别,所述一个或多个类别包括已知与所述感兴趣对象相关的第一类别以及已知与所述感兴趣对象不相关的第二类别;
利用使用从所述知识表示得到的至少一个属性作为特征的机器学习分类器来将所述一个或多个标记的内容项中的每个标记的内容项预测为以下中的一项:a)与所述感兴趣对象相关或者b)与所述感兴趣对象不相关;以及
基于由所述机器学习分类器对所述第一集合中的每个内容项的所述预测与每个相应内容项的所述标签的比较来修改所述知识表示。
102.根据权利要求101所述的系统,其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。
103.根据权利要求102所述的系统,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
104.根据权利要求101所述的系统,其中所述知识表示包括与所述至少一个概念相关联的权重。
105.根据权利要求101所述的系统,其中所述预测基于所述一个或多个标记的内容项与所述特征的交叉。
106.根据权利要求101所述的系统,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
107.根据权利要求101所述的系统,其中所述方法进一步包括:
在修改所述知识表示之后:
使用经修改的所述知识表示来重新预测一个或多个标记的内容项的所述第一集合中的每个标记的内容项;以及
基于由所述机器学习分类器对所述第一集合中的每个内容项的所述预测与每个相应内容项的所述标签的比较来修改所述知识表示。
108.根据权利要求107所述的系统,其中所述重新预测和所述修改被重复,直到被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与所述第一类别中的标记的内容项的总数的比率等于或超过精度阈值。
109.根据权利要求107所述的系统,其中所述重新预测和所述修改被重复,直到被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与被预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的总数的比率等于或超过召回阈值。
110.根据权利要求101所述的系统,其中修改所述知识表示包括修改与所述知识表示中的所述至少一个概念相关联的权重和/或将附加概念添加到所述知识表示。
111.根据权利要求101所述的系统,其中基于所述比较修改所述知识表示包括当被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与所述第一类别中的所述一个或多个标记的内容项的总数的比率小于阈值精度值时修改所述知识表示。
112.根据权利要求101所述的系统,其中基于所述比较修改所述知识表示包括当被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与被预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的总数的比率小于阈值召回值时修改所述知识表示。
113.根据权利要求101所述的系统,其中所述至少一个属性包括以下中的至少一项:
在所述知识表示与所述一个或多个标记的内容项之间交叉的概念的总数,
在所述知识表示与所述一个或多个标记的内容项之间交叉的更广泛概念的数目,
在所述知识表示与所述一个或多个标记的内容项之间交叉的概念的权重之和,和/或
在所述知识表示与所述一个或多个标记的内容项之间交叉的更狭窄概念的数目。
114.一种存储处理器可执行指令的至少一个非瞬态计算机可读存储介质,所述处理器可执行指令在由至少一个处理器执行时使所述至少一个处理器执行基于机器学习分类器修改知识表示的方法,所述方法包括:
基于感兴趣对象,接收被编码为非瞬态计算机可读数据结构的知识表示,所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系;
接收验证数据,所述验证数据包括具有标签的一个或多个标记的内容项的第一集合,所述标签将每个内容项分类为一个或多个类别,所述一个或多个类别包括已知与所述感兴趣对象相关的第一类别以及已知与所述感兴趣对象不相关的第二类别;
利用使用从所述知识表示得到的至少一个属性作为特征的机器学习分类器来将所述一个或多个标记的内容项中的每个标记的内容项预测为以下中的一项:a)与所述感兴趣对象相关或者b)与所述感兴趣对象不相关;以及
基于由所述机器学习分类器对所述第一集合中的每个内容项的所述预测与每个相应内容项的所述标签的比较来修改所述知识表示。
115.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。
116.根据权利要求115所述的至少一个非瞬态计算机可读存储介质,其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系,其中所述概念和/或所述关系未被列举在所述感兴趣对象中。
117.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中所述知识表示包括与所述至少一个概念相关联的权重。
118.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中所述预测基于所述一个或多个标记的内容项与所述特征的交叉。
119.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。
120.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中所述方法进一步包括:
在修改所述知识表示之后:
使用经修改的所述知识表示来重新预测所述一个或多个标记的内容项的所述第一集合中的每个标记的内容项;以及
基于由所述机器学习分类器对所述第一集合中的每个内容项的所述预测与每个相应内容项的所述标签的比较来修改所述知识表示。
121.根据权利要求120所述的至少一个非瞬态计算机可读存储介质,其中所述重新预测和所述修改被重复,直到被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与所述第一类别中的标记的内容项的总数的比率等于或超过精度阈值。
122.根据权利要求120所述的至少一个非瞬态计算机可读存储介质,其中所述重新预测和所述修改被重复,直到被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与被预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的总数的比率等于或超过召回阈值。
123.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中修改所述知识表示包括修改与所述知识表示中的所述至少一个概念相关联的权重和/或将附加概念添加到所述知识表示。
124.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中基于所述比较修改所述知识表示包括当被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与所述第一类别中的所述一个或多个标记的内容项的总数的比率小于阈值精度值时修改所述知识表示。
125.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中基于所述比较修改所述知识表示包括当被正确预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的数目与被预测为与所述感兴趣对象相关的所述一个或多个标记的内容项的总数的比率小于阈值召回值时修改所述知识表示。
126.根据权利要求114所述的至少一个非瞬态计算机可读存储介质,其中所述至少一个属性包括以下中的至少一项:
在所述知识表示与所述一个或多个标记的内容项之间交叉的概念的总数,
在所述知识表示与所述一个或多个标记的内容项之间交叉的更广泛概念的数目,
在所述知识表示与所述一个或多个标记的内容项之间交叉的概念的权重之和,和/或
在所述知识表示与所述一个或多个标记的内容项之间交叉的更狭窄概念的数目。
CN201680091990.1A 2016-11-23 2016-11-23 用于利用机器学习分类器来使用知识表示的系统和方法 Pending CN110168579A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CA2016/000288 WO2018094496A1 (en) 2016-11-23 2016-11-23 System and method for using a knowledge representation with a machine learning classifier

Publications (1)

Publication Number Publication Date
CN110168579A true CN110168579A (zh) 2019-08-23

Family

ID=62194629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680091990.1A Pending CN110168579A (zh) 2016-11-23 2016-11-23 用于利用机器学习分类器来使用知识表示的系统和方法

Country Status (5)

Country Link
EP (1) EP3545425A4 (zh)
JP (1) JP6833999B2 (zh)
CN (1) CN110168579A (zh)
CA (1) CA3044530A1 (zh)
WO (1) WO2018094496A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6907179B2 (ja) * 2018-12-20 2021-07-21 ヤフー株式会社 算出装置、算出方法及び算出プログラム
US10867215B2 (en) * 2019-04-11 2020-12-15 Black Sesame International Holding Limited Mixed intelligence data labeling system for machine learning
US11443209B2 (en) * 2020-04-16 2022-09-13 International Business Machines Corporation Method and system for unlabeled data selection using failed case analysis

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
WO2000077690A1 (en) * 1999-06-15 2000-12-21 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US20030084066A1 (en) * 2001-10-31 2003-05-01 Waterman Scott A. Device and method for assisting knowledge engineer in associating intelligence with content
US20030172357A1 (en) * 2002-03-11 2003-09-11 Kao Anne S.W. Knowledge management using text classification
US20080069437A1 (en) * 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
CN101655856A (zh) * 2009-09-15 2010-02-24 西安交通大学 一种获取用户特定知识元兴趣度的方法
CN101706794A (zh) * 2009-11-24 2010-05-12 上海显智信息科技有限公司 基于语义实体关系模型和可视化推荐的信息浏览检索方法
US20120143880A1 (en) * 2008-05-01 2012-06-07 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
WO2012088611A1 (en) * 2010-12-30 2012-07-05 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
CN102947842A (zh) * 2010-06-22 2013-02-27 启创互联公司 用于分析和合成复杂知识表示的系统和方法
US8533134B1 (en) * 2009-11-17 2013-09-10 Google Inc. Graph-based fusion for video classification
US8954358B1 (en) * 2011-11-03 2015-02-10 Google Inc. Cluster-based video classification
WO2016009321A1 (en) * 2014-07-14 2016-01-21 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
US20160042296A1 (en) * 2014-08-11 2016-02-11 Microsoft Corporation Generating and Using a Knowledge-Enhanced Model
CN105431839A (zh) * 2013-03-15 2016-03-23 罗伯特·哈多克 具有提供对知识的一步访问的自适应用户接口的智能互联网系统
CN105612517A (zh) * 2013-10-07 2016-05-25 微软技术许可有限责任公司 上下文洞察及探索
CN105612514A (zh) * 2013-08-05 2016-05-25 脸谱公司 通过将语境线索与图像关联进行图像分类的系统和方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026115A (ja) * 2005-07-15 2007-02-01 Nippon Telegr & Teleph Corp <Ntt> ラベル付与システムおよびラベル付与方法
US7792353B2 (en) * 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
JP4976912B2 (ja) * 2007-04-27 2012-07-18 日本電信電話株式会社 ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体
US9275291B2 (en) * 2013-06-17 2016-03-01 Texifter, LLC System and method of classifier ranking for incorporation into enhanced machine learning

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
WO2000077690A1 (en) * 1999-06-15 2000-12-21 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US20030084066A1 (en) * 2001-10-31 2003-05-01 Waterman Scott A. Device and method for assisting knowledge engineer in associating intelligence with content
US20030172357A1 (en) * 2002-03-11 2003-09-11 Kao Anne S.W. Knowledge management using text classification
US20080069437A1 (en) * 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US20120143880A1 (en) * 2008-05-01 2012-06-07 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
CN101655856A (zh) * 2009-09-15 2010-02-24 西安交通大学 一种获取用户特定知识元兴趣度的方法
US8533134B1 (en) * 2009-11-17 2013-09-10 Google Inc. Graph-based fusion for video classification
CN101706794A (zh) * 2009-11-24 2010-05-12 上海显智信息科技有限公司 基于语义实体关系模型和可视化推荐的信息浏览检索方法
CN102947842A (zh) * 2010-06-22 2013-02-27 启创互联公司 用于分析和合成复杂知识表示的系统和方法
WO2012088611A1 (en) * 2010-12-30 2012-07-05 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US8954358B1 (en) * 2011-11-03 2015-02-10 Google Inc. Cluster-based video classification
CN105431839A (zh) * 2013-03-15 2016-03-23 罗伯特·哈多克 具有提供对知识的一步访问的自适应用户接口的智能互联网系统
CN105612514A (zh) * 2013-08-05 2016-05-25 脸谱公司 通过将语境线索与图像关联进行图像分类的系统和方法
CN105612517A (zh) * 2013-10-07 2016-05-25 微软技术许可有限责任公司 上下文洞察及探索
WO2016009321A1 (en) * 2014-07-14 2016-01-21 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
US20160042296A1 (en) * 2014-08-11 2016-02-11 Microsoft Corporation Generating and Using a Knowledge-Enhanced Model
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VIADISLAV MISKOVIC: "《machine learning of Hybrid classification models for decision support》", 《SINTEZA》 *
孟玲玲: "《基于WordNet的语义相似性度量及其在查询推荐中的应用研究》", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems

Also Published As

Publication number Publication date
JP6833999B2 (ja) 2021-02-24
EP4439403A2 (en) 2024-10-02
JP2019536168A (ja) 2019-12-12
EP3545425A4 (en) 2020-07-15
WO2018094496A1 (en) 2018-05-31
CA3044530A1 (en) 2018-05-31
EP3545425A1 (en) 2019-10-02

Similar Documents

Publication Publication Date Title
Das et al. Applications of artificial intelligence in machine learning: review and prospect
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
Felix et al. The exploratory labeling assistant: Mixed-initiative label curation with large document collections
CN110168579A (zh) 用于利用机器学习分类器来使用知识表示的系统和方法
US20120290293A1 (en) Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
Peddinti et al. Domain adaptation in sentiment analysis of twitter
JP6962532B1 (ja) 事象予測装置および事象予測用プログラム
US20180144269A1 (en) System and method of using a knowledge representation for features in a machine learning classifier
US20180144270A1 (en) System and method for modifying a knowledge representation based on a machine learning classifier
US20230133065A1 (en) System and method for generating training data for machine learning classifier
Rocha et al. Siameseqat: A semantic context-based duplicate bug report detection using replicated cluster information
Ahmed et al. Challenges, comparative analysis and a proposed methodology to predict sentiment from movie reviews using machine learning
CN104484437B (zh) 一种网络短评情感挖掘方法
Zafra et al. DRAL: a tool for discovering relevant e-activities for learners
Kim et al. Categorizing affective response of customer with novel explainable clustering algorithm: The case study of Amazon reviews
Lampridis et al. Explaining short text classification with diverse synthetic exemplars and counter-exemplars
JP2024028697A (ja) 機械学習分類器とともに知識表現を使用するためのシステム及び方法
Zheng The Classification of Music and Art Genres under the Visual Threshold of Deep Learning
US20220319504A1 (en) Generating aspects from attributes identified in digital video audio tracks
Stańczyk Weighting of features by sequential selection
Krishneth et al. Web-plugin to Detect Clickbait in News Articles using RNN and LSTM
Sharma et al. A definitive survey of how to use unsupervised text classifiers
Bhagat Sentiment Analysis using an ensemble of Feature Selection Algorithms
Hua et al. Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing
Demers A Data-Driven Strategy for the Subjective Evaluation of Tacton Perceptual Similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination