CN112889066A

CN112889066A - 用于学习词和多词表达的特性的分类引擎

Info

Publication number: CN112889066A
Application number: CN201980069803.3A
Authority: CN
Inventors: E.拉比诺维奇; B.斯纳杰德; A.斯佩克特; I.什纳伊德曼; R.阿哈罗诺夫; D.科诺普尼基; N.斯洛尼姆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-10-30
Filing date: 2019-10-25
Publication date: 2021-06-01
Anticipated expiration: 2039-10-25
Also published as: US11100287B2; CN112889066B; GB2593606A; JP7465044B2; GB202105726D0; GB2593606B; WO2020089752A1; JP2022504705A; US20200134020A1

Abstract

用于训练和使用词的分类器的方法和装置。实施例包括接收包括与类别相关联的第一词的第一多个句子和包括不与该类别相关联的第二词的第二多个句子。实施例包括使用基于第一多个句子的类别的积极训练数据和基于第二多个句子的类别的消极训练数据来训练分类器。实施例包括通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量。实施例包括使用相关性度量来执行从以下列表中选择的动作：选择要提供给用户的内容；确定自动聊天响应；或过滤一组内容。

Description

用于学习词和多词表达的特性的分类引擎

背景技术

本公开涉及对词和表达进行分类，并且更具体地涉及用于训练分类器以基于包括词或表达的句子来确定词或表达与类别之间的相似性的度量的技术。

词的心理语言特性对认知过程的影响在近几十年来已经成为科学查询的主要主题。最多研究的心理语言学类别中是抽象度、具体性、熟悉性、影像性、以及平均采集年龄。例如，抽象度评估由表达式表示的概念是指人类感觉不能直接感知的实体的程度。确定词和表达的心理语言学类别在人工智能(AI)上下文中通常是有用的，诸如动态地响应于由用户(例如，通过聊天)输入的文本。此外，词和表达的心理语言类别在确定要提供给应用程序的用户的内容的类型时也是有用的。例如，“趣闻(anecdotal)”段落(例如，包含真实事件或人的短账户)通常包括可以被分类为具体而不是抽象的更多词或短语。照此，理解词是抽象的还是具体的可以在特定环境下为用户自动选择内容(诸如趣闻的内容)中是有用的。

由于其固有成本，对心理语言特性或类别的手动确定通常导致创建有限大小的数据集，并且因此具有有限的实用性。照此，本领域中需要确定词和短语的心理语言特性或类别的改进方法。

发明内容

根据本发明的一个实施例，一种方法包括：接收包括与类别相关联的第一词的第一多个句子和包括不与该类别相关联的第二词的第二多个句子。在一些实施例中，该方法还包括使用基于第一多个句子的类别的积极(positive)训练数据和基于第二多个句子的类别的消极(negative)训练数据来训练分类器。在一些实施例中，该方法还包括通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量。在一些实施例中，该方法还包括使用相关性度量来执行从以下列表中选择的动作：选择要提供给用户的内容；确定自动聊天响应；或过滤一组内容。在某些实施例中，计算系统可被配置成执行本文描述的方法。在一些实施例中，非暂时性计算机可读介质可存储指令，所述指令在由一或多个处理器执行时致使所述一或多个处理器执行本文中所描述的方法。

根据第一方面，提供了一种方法，该方法包括：接收包括与类别相关联的第一词的第一多个句子和包括不与该类别相关联的第二词的第二多个句子；使用基于所述第一多个句子的类别的积极训练数据和基于所述第二多个句子的类别的消极训练数据来训练分类器；通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量；以及使用所述相关性度量来执行从以下列表中选择的动作：选择要提供给用户的内容；确定自动聊天响应；或过滤一组内容。

根据第二方面，提供了一种系统，包括：一个或多个处理器；以及存储指令的非暂时性计算机可读介质，所述指令在由所述一个或一个以上处理器执行时，使得所述一个或多个处理器执行一种方法，所述方法包括：接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子；使用基于所述第一多个句子的类别的积极训练数据和基于所述第二多个句子的类别的消极训练数据来训练分类器；通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量；以及使用所述相关性度量来执行从以下列表中选择的动作：选择要提供给用户的内容；确定自动聊天响应；或过滤一组内容。

根据第三方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机可读存储介质，该计算机可读存储介质具有随其体现的计算机可读程序代码，所述计算机可读程序代码可由一个或多个计算机处理器执行以执行方法，所述方法包括：接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子；使用基于所述第一多个句子的类别的积极训练数据和基于所述第二多个句子的类别的消极训练数据来训练分类器；通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量；以及使用所述相关性度量来执行从以下列表中选择的动作：选择要提供给用户的内容；确定自动聊天响应；或过滤一组内容。

附图说明

现在将参考附图仅通过举例来描述本发明的实施例，在附图中：

图1描绘了可以实现本公开的实施例的计算环境。

图2描绘了根据本公开的实施例的与训练分类器相关的组件之间的数据交换。

图3描绘了根据本公开的实施例的与使用分类器来确定单词和类别之间的相似性的度量有关的组件之间的数据交换。

图4描绘了根据本公开的实施例的用于训练分类器的示例操作。

图5描绘了根据本公开的实施例的用于使用分类器来确定单词和类别之间的相似性的度量的示例操作。

图6描绘了可以实现本公开的实施例的计算系统。

具体实施方式

现在将通过参照以下讨论和本申请的附图来更详细地描述本申请。应注意，本申请的附图仅出于说明性目的而提供，且因此，附图未按比例绘制。还应注意，相同和对应的元件由相同的附图标记表示。

在以下描述中，阐述了众多具体细节，如具体结构、部件、材料、尺寸、处理步骤和技术，以便提供对本申请的不同实施例的理解。然而，本领域普通技术人员将认识到，可以在没有这些具体细节的情况下实践本申请的不同实施例。在其他实例中，为了避免模糊本申请，没有详细描述公知的结构或处理步骤。

图1描绘了其中可以实现本公开的实施例的计算环境100。计算环境100包括经由网络110连接的服务器120和客户机140。网络110可包括允许在服务器120和客户端140之间交换数据的任何类型的连接，诸如局域网(LAN)、内联网、蜂窝数据网络、互联网等。

服务器120通常表示计算设备，诸如物理或虚拟服务器、台式计算机或其他计算设备。服务器120包括分类引擎122和应用编程接口(API)124，分类引擎122通常执行与对词和短语进行分类有关的操作，应用编程接口(API)124通常用作用户(例如，客户端140的)通过其与由服务器120提供的服务(诸如分类引擎122)交互的接口。服务器120连接到数据存储130，数据存储130通常表示数据存储实体(例如，数据库、储存库等)，数据存储实体存储诸如根据本公开的实施例在对词和短语进行分类中使用的文本(例如，包括句子)之类的内容。数据存储130中的内容可以是未标记数据，未标记数据意味着还没有被人审阅过，并且还没有与标签或其他元数据相关联。注意，虽然数据存储130被描绘为与服务器120分开，但是数据存储130可以可替代地被包括在服务器120内。

客户端130通常表示计算设备，诸如移动电话、膝上型计算机、台式计算机、平板等。客户端130包括用户接口132，其允许用户提供输入和接收输出(例如，经由与客户端130相关联的显示器)。在一些实施例中，用户接口132允许用户通过API124(例如，经由API方法调用)与服务器120的分类引擎122进行交互。注意，虽然用户接口132被描绘为客户机140的组件，但用户接口132可替代地位于服务器120上。

根据实施例，分类引擎122训练分类器以确定单词或短语与类别之间的相似性的度量。例如，分类器可被训练成基于包括作为输入被提供给分类器的单词或短语的一个或多个句子来输出指示单词或短语与抽象度类别之间的关联强度的分数。在某些实施例中，使用包括已知或推断为与类别相关联的词的多个句子和包括已知或推断为不与类别相关联的词的多个句子来训练分类器。训练分类器以识别句子内的类别的语义指示符，诸如前缀、后缀、词和/或短语的组合等。例如，后缀“ism”和“ness”通常与抽象性类别相关联(例如，因为像高兴和现存的单词表示抽象概念)，并且这些后缀在句子中的存在是该句子包括抽象单词或短语的指示符。此外，分类器能够基于一个或多个句子中的词或短语的词汇邻域(例如，句子中的附近词和语法结构)来确定先前未分类的词或短语的抽象性，因为分类器是基于已知或推断为抽象或非抽象的单词或短语的历史词汇邻域来训练的。

本披露的实施例涉及分类器的使用，该分类器可以使用不同机器学习技术来实现。例如，根据某些实施例的分类器可以包括天然贝叶斯分类模型、双向递归神经网络(RNN)、最近邻算法、或另一种类型的分类模型。机器学习模型通常使用训练数据集来训练，该训练数据集包括与特定训练输出相关联的训练输入。例如，历史上与数据集中的特定输出相关联的某些特征被用于训练模型。

在一个实施例中，分类引擎122训练用于抽象性类别的分类器。分类引擎122从数据存储130中检索第一组句子，所述第一组句子各自包括被标识为与抽象性类(如“实用性”)相关联的第一预分类词。分类引擎122然后从数据存储130中检索第二组句子，该第二组句子各自包括被标识为与具体性类别(如“狗”)相关联的第二预分类词。基于来自用户的手动输入，或者在一些实施例中，基于自动推断，可以将单词预先分类或标识为与类别相关联。例如，词的实用性可基于其后缀(例如，其可存储在指示抽象性的后缀字典中)而被自动推断为与抽象性类别相关联。数据存储130可以例如存储文本内容(例如，百科全书数据、学术文章等)，所述文本内容可以被查询以获得包括特定词或短语的句子。第一组句子被用作积极训练数据(例如，训练用于识别抽象性类别的分类器)，并且第二组句子被用作消极训练数据(例如，训练分类器以识别抽象性的非指示符，诸如具体性的指示符)。在一些实例中，训练分类器可以涉及通过从每个句子中提取特征来“特征化”句子。特征可以是前缀、后缀、词、短语、词的组合、词的数目、词与预分类词(例如，实用性和狗)的接近度等。可以通过句子的语义分析(诸如使用最近邻算法)来提取特征。在一些实施例中，非字母词和包含特殊字符的词被过滤掉或以其他方式不包含在特征中。从第一组句子中提取的特征被用作积极训练数据，而从第二组句子中提取的特征被用作消极训练数据。积极和消极训练数据的生成可以被描述为生成“弱标记的”数据，因为训练数据不是由用户手动标记的，而是与基于自动词法分析的类相关联(或标记)。训练过程因此可以被描述为弱监督训练过程。

一旦被训练，分类器能够确定给定输入数据集(诸如包括单词的一个或多个句子)与抽象度类别之间的相关性的度量。在一个实施例中，客户端140的用户指定待分类的词，诸如通过对用户接口142的输入，并且客户端140向分类引擎122传输(诸如经由对API124的方法的调用)对词进行分类的请求。分类引擎122从数据存储130检索句子组，每个句子组均包括待分类的单词。在一些实施例中，分类引擎122诸如通过句子组的词法分析从句子组提取特征，并且将特征作为输入提供给分类器。在其他实施例中，分类引擎122直接提供句子组作为对分类器的输入，并且分类器识别句子组中的特征。分类器输出语句组与抽象度类别之间的相关性的度量。例如，在某些实施例中，分类器输出指示句子组与类别之间的关联强度的分数。分类引擎122基于来自分类器的输出来确定待分类词与抽象度类别之间的相关性的度量。然后由分类引擎122将相关性的度量提供回用户界面142，诸如经由对从客户端140经由API124发送的请求的响应。

分类器可以使用最近邻算法(例如，基于半径的算法)来确定相关性的量度。在一个示例中，相关性的度量由要以句子中待分类的单词的相邻单词或短语的大多数表决来定义，其中相邻单词或短语仅在其相对于训练数据中包括的单词或短语在相似度阈值以上时才被考虑。例如，待分类的词的抽象度得分可被计算为其抽象邻居与所考虑的邻近度内(例如，在给定句子中待分类的词的指定距离内)的概念总数的比率。多词短语可经受更仔细的处理。例如，分类器可以将多词短语的抽象度得分计算为其个体词的抽象度得分的平均值。在一些实施例中，分类器包括具有一层前向和后向长短期记忆(LSTM)单元的双向递归神经网络(RNN)。在其他实施例中，分类器可以包括简单的概率性朴素贝叶斯(NB)分类器，使用从积极训练数据和消极训练数据提取的词袋(BoW)作为特征集。抽象性的信号可以由单词或短语的直接词法邻域(如由包含该单词或短语的句子所反映的)来表现。因此，在一些实施例中，待分类的词的相关性的度量(例如，抽象度得分)被定义为由分类器确定的后验概率。

一旦相关度量被提供给客户端140，就可以用各种不同的方式来使用它。例如，可以经由用户接口142将相关性的度量提供给用户。在另一示例中，相关性的度量被用作另一过程的一部分。例如，用户可以经由用户接口142与支持的聊天机器人进行交互，并且可以由支持聊天机器人使用相关性的度量基于用户对单词的使用来确定对用户的适当的自动字符(char)响应。例如，具有高抽象度得分的单词可以是支持聊天机器人应当将对话转移到实时支持代理的指示符，因为用户的问题可能太复杂而不能被聊天机器人处理。在另一示例中，相关性的度量用于确定用户的年龄。例如，具有较高抽象度得分的词可由较老用户比由较年轻用户更常用。照此，可以基于用户所使用的词的抽象度来向用户提供不同的内容。此外，抽象度分数可以用于确定给定文本集合是“趣闻”的程度，因为趣闻内容通常包括更多的具体词和更少的抽象词。照此，抽象度分数可被用于标识要提供给用户的趣闻内容。

应注意，抽象性仅作为类的实例而被包含，且本文中所描述的技术可用以确定字或短语与任何类型的类之间的关联。也可包括其他类型的类别，例如争论、情感和事实。应当理解，识别未标记内容中的这些类别的能力对于各种目的(诸如过滤内容和选择内容以在特定情况下提供给用户)可能是有用的。

本公开的实施例构成了对用于对单词或短语进行分类的常规技术(如基于手动标记的训练数据的手动分类或自动分类)的改进。从未标记数据集自动导出训练数据的能力允许利用显著更大量的训练数据来更高效地训练分类器，并且因此改进分类器的功能。此外，使用现有的未标记数据集来训练分类器实质上减少了训练分类器所需的时间和资源。基于弱监督机器学习过程来自动确定词或短语与类别之间的相关性的度量的能力允许改进的自动确定，诸如自动选择要提供给用户的内容、过滤内容、提供自动客户支持、以及标识诸如年龄或专业知识水平之类的用户特性。

图2描绘了根据本公开的实施例的与训练分类器相关的部件之间的数据交换的示例200。

训练模块220通常执行与训练分类器230相关的操作。训练模块220和分类器230可以表示图1的分类引擎122的部件。数据存储130表示图1的数据存储130。

在示例200中，训练模块220向数据存储130发送对包括特定单词的句子的请求202。在一个实施例中，请求202是指定被标识为与类别相关联的第一词(例如，抽象性)和被标识为不与类别相关联的第二词(例如，第二词可以与类别的相反类别相关联，诸如具体性)的查询。响应于请求202，数据存储130向训练模块220发送句子204。句子204包括各自包括第一词的第一组句子和各自包括第二词的第二组句子。训练模块220使用第一组句子来生成用于该类别的积极训练数据，并且使用第二组句子来生成用于该类别的消极训练数据。例如，训练模块220可以对每个句子执行词法分析，以确定作为该类的指示符或非指示符的特征(例如，第一组句子的特征是该类的指示符，并且第二组句子的特征是该类的非指示符)。

训练模块220使用包括积极训练数据和消极训练数据的训练数据206来训练分类器230。例如，分类器230可以是包括基于半径的最近邻域算法的双向递归神经网络(RNN)或者可以是天然贝叶斯分类器。

图3描绘了根据本公开的实施例的与使用分类器来确定单词和类之间的相似性的度量有关的组件之间的数据交换的示例300。

示例200包括图1的客户端140、分类引擎122和数据存储130。客户端120例如在对词304进行分类的请求中将词304发送至分类引擎122(例如，经由图1的API 124)。在一个实施例中，客户端140接收来自用户的词304作为输入，并且发起对词304进行分类的过程以辅助确定如何对用户作出响应。分类引擎122从客户端120接收词304，并且向数据存储130发送对于包括词304的一个或多个句子的请求306。

响应于请求306，数据存储130向分类引擎122提供句子308。句子308中的每一个包括字304。分类引擎122诸如通过提供句子308或从句子308导出的特征作为到经训练的分类器的输入并且接收相关的度量作为来自训练的分类器的输出来确定单词304与特定类别之间的相关性的度量。例如，训练的分类器可以是图2的分类器230。分类引擎122向客户端140提供分数210，该分数210指示字304与该类之间的相关性的度量。客户端140然后可以使用分数210来执行附加处理，诸如确定或过滤内容以提供给用户或确定是否转移到用户以实时支持代理。

图4描绘了根据本公开的实施例的用于训练分类器的示例操作400。例如，操作400可以由图1的分类引擎122执行。

在框402，接收包含与类别相关联的第一词的第一多个句子。例如，分类引擎122可以向图1的数据存储130发送对于包含第一词的句子的请求，并且作为响应，数据存储130可以向分类引擎122发送第一多个句子。

在框404，接收包含不与类别相关联的第二词的第二多个句子。例如，分类引擎122可以向图1的数据存储130发送对于包含第二词的句子的请求，并且作为响应，数据存储130可以向分类引擎122发送第二多个句子。

在框406，使用基于第一多个句子的积极训练数据集和基于第二多个句子的消极训练数据集来针对类别训练分类器。例如，分类引擎122可以对第一多个句子执行词法分析，以确定用作积极训练数据的特征，并且对第二多个句子执行词法分析，以确定用作消极训练数据的特征，并且可以相应地训练分类器。分类器可以与诸如抽象性、具体性、争论性、情感或实际性之类的一个或多个特定心理语言类别相关联。

图5描绘了根据本公开的实施例的用于使用分类器来确定词与类别之间的相似性的度量的示例操作500。操作500可以例如在执行图4的操作400以训练分类器之后由图1的分类引擎122执行。

在框502，接收包括第三词的第三多个句子。例如，分类引擎122可以从图1的客户端140接收请求(例如，基于用户输入)以确定第三词与特定类别之间的相关性的度量，并且可以从数据存储130请求包含第三词的多个句子。作为响应，数据存储130可以将第三多个句子发送到分类引擎122。

在框504，分类引擎122基于第三多个句子向分类器提供输入。在一个示例中，分类引擎122执行第三多个句子的词法分析以确定作为输入提供给分类器的特征，已经使用图4的操作400训练了该分类器。

在框506处，分类引擎122基于来自分类器的输出来确定第三词与特定类别之间的相关性的度量。例如，分类器可以输出指示输入特征与类别之间的相关性的度量的得分，并且分类引擎122可以使用该得分作为第三词与类别之间的相关性的度量(例如，因为输入特征与第三词相关联)。

虽然图5中未描绘，但相关性度量可以用于各种目的。在某些实施例中，相关度量被提供给客户端设备(例如，图1的客户端140)，客户端设备可以使用相关度量来执行附加处理。例如，客户端设备可以使用相关性的度量来确定要提供给用户的内容。

图6描绘了可以利用其实现本公开的实施例的计算系统600。例如，计算系统600可以表示图1的服务器120。

系统600包括中央处理单元(CPU)602、到系统600的一个或多个I/O设备接口604(其可以为不同I/O设备614(诸如键盘、显示器、鼠标设备等)提供连接)、网络接口606(例如，物理网络接口卡)、存储器608、存储设备610和互连612。注意，系统600的一个或多个组件可替代地位于远程并经由诸如网络110之类的网络来访问。还构想了系统600的一个或多个组件可包括物理或虚拟化组件。

CPU602可接收和执行存储在存储器608中的指令。类似地，CPU602可以在存储器608中接收和存储与应用程序相关的数据。互连612在CPU602、I/O设备接口604、网络接口606、存储器608和存储设备610之间传输编程指令和应用程序数据。CPU602被包括以表示单个CPU、多个CPU、具有多个处理核的单个CPU和其他布置。

此外，存储器608可以表示随机存取存储器。存储设备610可以是磁盘驱动器、固态驱动器或分布在多个存储系统上的存储设备的集合。尽管被示出为单个单元，但是存储设备610可以是固定和/或可移动存储设备的组合，诸如固定盘驱动器、可移动存储卡或光存储设备、网络附接存储设备(NAS)或存储区域网络(SAN)。

存储器610包括词622和句子624。例如，词622可以是与来自图1的客户端140的请求一起接收的词。句子624可以是从图1的数据存储130接收的句子，并且根据本公开的实施例的可以被分类引擎614使用以训练和使用分类器。

如所示出的，存储器608包括可以表示图1的分类引擎122和API 124的分类引擎614和API 616。

本发明可以是系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)，静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片或具有记录在其上的指令的凹槽中的凸起结构)，以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备或经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，包括面向对象的Smalltalk、C++等编程语言，以及常规的过程式编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本发明的各方面。

本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机的处理器、专用计算机或其他可编程数据处理装置，以产生机器，其通过计算机或其他可编程数据处理装置的处理器执行，创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质、可编程数据处理装置、和/或以特定方式起作用的其他设备中，使得具有存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

所述计算机可读程序指令还可加载到计算机、其他可编程数据处理设备、或其他设备上，或使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个方框可以代表模块、段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中，框中所标注的功能可以不以图中所标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

可以通过云计算基础设施向终端用户提供本发明的实施例。云计算通常指在网络上提供作为服务的可缩放计算资源。更正式地，云计算可以被定义为在计算资源与其底层技术架构(例如，服务器、存储装置、网络)之间提供抽象的计算能力，使得能够方便地、按需地访问可配置计算资源的共享池，所述可配置计算资源可以用最小的管理努力或服务提供商交互来快速配置和释放。因此，云计算允许用户访问“云”中的虚拟计算资源(例如，存储、数据、应用、以及甚至完整的虚拟化计算系统)，而不考虑用于提供计算资源的底层物理系统(或那些系统的位置)。

通常，云计算资源以每次使用付费为基础被提供给用户，其中，用户仅针对实际使用的计算资源(例如，用户消耗的存储空间量或用户实例化的虚拟化系统的数量)被收费。用户可在任何时间和从互联网上的任何地方访问驻留在云中的任何资源。在本发明的上下文中，用户可访问云中可用的应用(例如，如本文所述的分类引擎)或相关数据。例如，分类引擎可以在云中的计算系统上执行，并且客户端设备可以经由API与分类引擎交互，以便请求单词或短语的分类。在这样的情况下，分类引擎可以使用分类器来生成单词或短语与类之间的相关性的度量，并且可以将相关性的度量存储在云中的存储位置处。这样做允许用户从附接到连接到云的网络(例如，互联网)的任何计算系统访问该信息。

虽然前述内容针对本发明的实施例，但是可以在不背离本发明的基本范围的情况下设计本发明的其他和进一步的实施例，并且其范围由所附权利要求书确定。

Claims

1.一种方法，包括：

接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子；

使用基于所述第一多个句子的所述类别的积极训练数据和基于所述第二多个句子的所述类别的消极训练数据来训练分类器；

通过使用包括第三词的句子作为对所述分类器的输入来确定所述第三词与所述类别之间的相关性的度量；以及

使用所述相关性度量来执行从以下列表中选择的动作：

选择要提供给用户的内容；

确定自动聊天响应；或

过滤一组内容。

2.如权利要求1所述的方法，其中，训练所述分类器包括识别所述第一多个句子中的所述第一词的上下文以及所述第二多个句子中的所述第二词的上下文。

3.如权利要求2的方法，其中，识别所述第一多个句子中的所述第一词的所述上下文和所述第二多个句子中的所述第二词的所述上下文包括：识别所述第一多个句子中的所述第一词附近的词，以及识别所述第二多个句子中的所述第二词附近的词。

4.如权利要求1所述的方法，其中，所述积极训练数据包括以下各项中的一项或多项：词、短语、前缀、或后缀。

5.如权利要求1所述的方法，其中，所述分类器包括以下各项之一：最近邻算法、或天然贝叶斯算法。

6.如权利要求1的方法，其中，选择要提供给所述用户的所述内容包括基于所述相关性度量来识别趣闻内容。

7.如权利要求1的方法，其中，确定所述自动聊天响应的步骤包括：

基于所述相关性的度量来确定问题的难度；以及

基于所述问题的所述难度来选择是否将所述问题升级到现场支持代理。

8.如权利要求1所述的方法，其中，所述类别包括被定义为抽象的词。

9.如权利要求1所述的方法，其中，训练所述分类器包括从所述第一多个句子和所述第二多个句子中滤除非字母词和特殊字符。

10.如权利要求1所述的方法，其中，训练所述分类器包括对所述第一多个句子中的所述第一词掩蔽并且对所述第二多个句子中的所述第二词掩蔽。

11.一种系统，包括：一个或多个处理器；以及存储指令的非暂态计算机可读介质，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行方法，所述方法包括：

使用所述相关性度量来执行从以下列表中选择的动作：

选择要提供给用户的内容；

确定自动聊天响应；或

过滤一组内容。

12.如权利要求11所述的系统，其中，训练所述分类器包括识别所述第一多个句子中的所述第一词的上下文以及所述第二多个句子中的所述第二词的上下文。

13.如权利要求12所述的系统，其中，识别所述第一多个句子中的所述第一词的所述上下文和所述第二多个句子中的所述第二词的所述上下文包括：识别所述第一多个句子中的所述第一词附近的词，并且识别所述第二多个句子中的所述第二词附近的词。

14.如权利要求11所述的系统，其中，所述积极训练数据包括以下各项中的一项或多项：词；短语；前缀；或后缀。

15.如权利要求11所述的系统，其中，所述分类器包括以下各项之一：最近邻算法；或天然贝叶斯算法。

16.如权利要求11的系统，其中，选择要提供给所述用户的所述内容包括基于所述相关性度量来识别趣闻内容。

17.如权利要求11所述的系统，其中确定所述自动聊天响应包括：

基于所述相关性的度量来确定问题的难度；以及

18.如权利要求11所述的系统，其中，所述类别包括被定义为抽象的词。

19.如权利要求11所述的系统，其中，训练所述分类器包括从所述第一多个句子和所述第二多个句子中滤除非字母词和特殊字符。

20.如权利要求11所述的系统，其中，训练所述分类器包括对所述第一多个句子中的所述第一词掩蔽并且对所述第二多个句子中的所述第二词掩蔽。

21.一种计算机程序产品，包括：

计算机可读存储介质，其具有随其体现的计算机可读程序代码，所述计算机可读程序代码可由一个或多个计算机处理器执行以执行方法，所述方法包括：

使用所述相关性度量来执行从以下列表中选择的动作：

选择要提供给用户的内容；

确定自动聊天响应；或

过滤一组内容。

22.一种包括程序代码装置的计算机程序，当所述程序在计算机上运行时，所述程序代码装置适于执行权利要求1至10中任一项的方法。