CN105378699A - 基于机器学习的自动任务分类 - Google Patents

基于机器学习的自动任务分类 Download PDF

Info

Publication number
CN105378699A
CN105378699A CN201480039347.5A CN201480039347A CN105378699A CN 105378699 A CN105378699 A CN 105378699A CN 201480039347 A CN201480039347 A CN 201480039347A CN 105378699 A CN105378699 A CN 105378699A
Authority
CN
China
Prior art keywords
task
classification
user
request
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480039347.5A
Other languages
English (en)
Other versions
CN105378699B (zh
Inventor
H·S·申
R·苏基坦
S·慕克吉
尹红风
Y·孙
秋永和计
P·苏巴希奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN105378699A publication Critical patent/CN105378699A/zh
Application granted granted Critical
Publication of CN105378699B publication Critical patent/CN105378699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种系统和方法,其使用机器学习算法处理多个任务类别中的每一个中的人工生成的请求的训练数据库,以开发任务分类器模型,该任务分类器模型可以应用于随后的用户请求以为随后的用户请求确定任务类别中最可能的一个。

Description

基于机器学习的自动任务分类
相关申请
本申请要求2013年11月27日提交的美国临时专利申请61/909,992的权益,将该临时申请的全部内容并入本文中。
技术领域
本公开大体上涉及个人助理应用,并且更具体地,涉及基于机器学习的用户请求的处理。
背景技术
已经开发了各种个人助理软件应用,它们通过执行相应任务而响应用户的文本或自然语言请求。例如,由智能手机用户访问的个人助理应用可以查找电话号码并且拨打电话,搜索餐馆,起草和发送电子邮件,制定日历项等等。在这方面,特定用户可能通常以与其他用户不同的措辞来表达给定任务的请求。这种差异在人工交互方面是固有的。由于这种差异,传统的个人助理软件应用在正确地执行用户的期望请求方面容易出错。此外,最终的应用趋向于临时性的并且因此难以应用于不同的语言。
因此,在本领域内存在对于独立于语言的改进系统的需求,其在分类和执行用户所需的任务方面具有更好的精确度。
发明内容
为了提供针对任务分类和执行的更高精确度,提供了利用机器学习算法进行任务分类的系统和方法。针对用户如何表达多个任务类别中的请求,从各种用户生成训练数据库。通过调查足够多的用户,单个用户如何表达给定的期望任务的自然变化可以被恰当地采样。例如,针对呼叫特定方(例如,其母亲)的任务,一个用户可以将其表达为“呼叫妈”,而另一用户可能将其表达为“请呼叫妈”或者“呼叫母亲”。例如,可以通过众包(crowdsourcing)生成相对大的训练数据库以表征给定的任务被不同用户表达的方式的这些变化。最终的训练数据库可以包含数以千计的用户针对请求多个任务类别中的特定任务的响应。由于已知用户期望特定的任务的先验,最终的用户请求对于其分类是明确的。因此,训练数据库可以具有各种用户请求的大量实例,其全部都被组织到其适当的任务类别中。
随后,可以通过各种机器学习算法利用这种高质量训练数据库。例如,每个数据库用户请求可以被转换成特征向量或者其他数学表示。因此,训练数据库将会包括对于每个任务类别的各种特征向量,每个特征向量对应于给定的训练数据库用户的请求。每个特征向量的维数取决于期望的复杂度。例如,给定用户的请求中的每个独一的词(或词组)可以对应于特征向量维度。每个特征向量维度的权重可以取决于相应的词或词组在相应的用户的请求中出现了多少次。可选地,权重可以是二进制的,从而加权仅仅取决于给定的词或词组是否在用户请求中出现。然后,最终的特征向量可以用于训练机器学习算法,例如支持向量机,以确定每个任务的各种用户请求是如何在特征向量空间中集群的任务分类器模型。
由于在对于各种任务的人工生成的请求的高质量训练数据库上进行这种先验机器学习以形成任务分类器模型,额外用户请求就可以根据任务分类器模型被稳健地实时分类。换言之,接收的用户请求可以被轻易地转换成文本(在自然语言输入的情况下),并且相应的文本根据预先确定的任务分类器模型被转换成特征向量并被分类成任务类别中的预测任务类别。这个过程不仅增加了任务分类的精确度,还是不依赖于语言的:仅仅需要收集其他语言的训练数据库以扩展该过程,从而适应相应语言的用户请求。
为了增加任务执行的精确度,可以基于预测任务的标识来进一步处理用户的请求,从而确定其具体查询(如果有的话)。在这方面,每个任务类别可以与各种查询类别相关。例如,假设用户请求已经被分类成“餐厅搜索”任务类别。这种任务分类可以与各种查询分类相关,例如“餐厅类型”(例如意大利餐或中餐)和“餐厅位置”(例如,帕罗奥多(PaloAlto))。给定用户请求中的查询分类的实例化在本文中被表示为“查询”。例如,“在PaloAlto找一家好的意大利餐厅”的用户请求可以被处理以提取烹饪查询(意大利)和位置查询(PaloAlto)。为了增加查询提取的精确度,可以开发查询类别和相应的可能查询的词典。例如,词典可以包括对于位置查询类别中的每个可能位置的条目。然后,查询提取可以包括识别用户的请求中匹配的词典条目,其随后被轻易地与词典中的相应查询分类相关联。
任务执行模块可以通过调用适当的应用编程接口(API)来使用预测任务和任何相关的查询。例如,利用提供餐厅搜索服务的外部搜索提供商(例如“Yelp”),可以最佳地执行餐厅搜索任务。另一方面,如果预测任务是呼叫发起,则相关的查询将通过用于用户的便携式设备中的蜂窝电话功能的API被传输。
通过下述详细说明,可以更好地理解本文公开的系统和方法的其他特征和优势。
附图说明
图1是根据本公开实施方式的用于执行用户请求的系统的框图。
图2示出了在用户请求的任务分类之后的从用户请求的查询提取。
图3是图1的系统中的任务分类模块的更详细的框图。
图4示出了用于创建图3的任务分类模块所使用的任务分类器模块的模块。
图5是图1的系统中的查询提取模块的更详细的框图。
图6是图1的系统中的任务执行模块的更详细的框图。
图7示出了根据本公开实施方式的配置成执行用户请求的计算机系统。
通过参阅下文的详细说明将最佳地理解本发明的实施方式及其优势。应该意识到,类似的附图标记用于标识一个或多个附图中的类似元件。
具体实施方式
下文列出的详细说明连同附图旨在描述各种配置,并且不意图代表可以实施本文描述的构思的仅有配置。为了提供对各种概念的透彻理解,详细说明包括具体细节。然而,本领域技术人员显而易见的是,这些构思可以在没有这些具体细节的情况下实施。在一些例子中,为了避免模糊这些构思,公知的结构和部件以框图形式示出。
为了提供用于通过个人助理应用执行用户请求的更大准确性,通过机器学习算法在先前记录的针对一组任务的用户请求的训练数据库上训练任务分类器。例如,众包(crowdsourcing)可以用于生成训练数据库,其包括人工生成的对于众多任务的请求。在这方面,特定用户可能通常以与其他用户不同的措辞来表达给定任务的请求。这种差异在人工交互方面是固有的。由于这种差异,传统的个人助理软件应用经常在正确地执行用户的期望请求方面容易出错。随着时间的推移,这些传统的个人助理应用可以通过用户的校正而从其错误中学习,从而执行适当的任务。但是这种随着时间的学习可能对于用户来说颇为沮丧,从而使得用户放弃使用个人助理应用,而不是花费校正与执行用户意图相关的不可避免的错误所需的时间。
鲜明对比之下,本文公开的系统和方法使用在训练数据库上训练的任务分类器以预测用户请求的相应任务,从而用户不需要克服训练障碍来实现准确的结果。此外,识别的任务可以随后被利用于从用户请求提取查询和相应的查询类别或分类。如本文所使用的,与从用户请求提取查询相关的术语“查询”指给定任务的特定参数。基于任务,这些参数可以被组织为分类。例如,餐厅搜索通常会识别用户期望的烹饪类型以及期望地点。烹饪类型和期望位置均包括查询分类。“查询”随后会包括每个查询分类的具体实例。例如,“在PaloAlto查找意大利餐厅”的用户请求将具有对于烹饪类别“意大利”查询以及对于期望位置“PaloAlto”的查询。注意到,通过响应于预测的任务而执行,这种查询提取的精度被大大提高。对于查询提取,每个任务类别可以与可能的查询以及其相应的查询类别的词典相关联。一旦用户请求被分类成特定的预测任务,就可以将用户请求与对于该任务的相应词典比较,以识别任何查询和相应的查询分类的匹配。
任务执行模块可以随后利用预测的任务以及相应查询的识别来执行用户的请求。例如,任务执行模块可以使用预测的任务来将查询发送至相应的应用编程接口(API)。不论是否选择了API,与常规方法相比,最终的任务执行都显著地更加精确。现在将讨论一些示例性实施方式。
示例性实施方式
现在转到附图,图1示出了用于执行用户请求(例如通过自然语言输入110接收的)的示例性系统100。系统100用于处理例如由自然语言输入110表示的用户请求,以预测用户期望的相应任务。系统100被便捷地配置为将用户请求分类成对应于选自一组潜在任务类别的给定任务。可以由系统100服务的该组潜在任务的大小仅仅是一种设计选择,如本文进一步讨论的。这是尤其有利的,因为系统100由此可以轻易地缩放。此外,如本文将进一步解释的,系统100也可以轻易地适用于除英语之外的其他语言。
输入至文本转换器模块120的自然语言输入将用户的自然语言输入110转换成文本输入130。可选地,用户可以直接提供文本输入130,而不是提供(口头的)自然语言输入110。任务分类器模块140处理文本输入130以预测用户的期望任务,如本文将进一步解释的。基于任务分类器模块140确定的预测任务,查询提取器模块150处理文本输入130以提取查询和相应的查询分类。示例性的查询提取220在图2中示出。在这种情况下,“在PaloAlto找一家好的意大利餐厅”的用户请求已经由图1中的任务分类器模块140被分类为餐厅搜索任务。餐厅搜索任务包括两个查询分类:餐厅的类型以及位置。系统100的查询提取器150分析用户请求以识别每个查询分类的实例化--换句话说,查询提取器150识别每个查询分类的相应查询。在图2的实例中,最终的查询220是意大利餐厅和PaloAlto。再次参考图1,任务执行接口模块160使用预测任务来选择适当的任务执行接口,例如任务执行模块170中的API。
现在将更加详细地讨论系统100中的各种模块的操作。任务分类器模块140的扩展框图在图3中示出。模块140中的特征提取器模块310处理文本输入130以提取特征向量320。这种提取也在图4的训练数据集400上执行。训练数据集400包括许多先前收集的针对各种任务类别或分类的用户请求。在图4的实施方式中,有32种任务分类。每种任务的用户请求被分配有相同的任务ID,其可以包括整数。例如,训练数据集400可以涵盖下面表1中的任务:
表1
应该意识到,对于不同的实施方式,任务类别的数量可以轻易地改变。训练数据集400可以由众包、其他自然语言的现有训练数据的翻译、站点抓取或其他合适的方法来生成。在众包的实施方式中,匿名的人类用户回答与他们对各种任务(例如表1的任务)的措辞有关的调查问卷。用户例如通过自然语言回复来回答问题,这些回复可以随后被转换成输入文本以建立训练数据库,该训练数据库可以使其特征向量被提取以形成训练数据集400。在特征提取之前的输入文本的示例性训练数据库在下表2中示出:
表2
餐厅搜索 附近不错的汉堡店在哪?
电话 打电话给妈。
电话 打电话给Joe。
在该实例中,文本输入以及相应任务的训练数据库以及相应任务的实例中,、可能的任务类别将包括“餐厅搜索”任务类别和“电话”任务类别。餐厅搜索的示例性文本是“附近不错的汉堡店在哪”。可以轻易地扩展训练数据库以包括众多成千上万由人类用户生成的这种示例性餐厅搜索。其他任务也可以由人类用户生成的数以千计的示例性文本表示。在表2中,“电话”任务包括两种示例性文本:“打电话给妈”和“打电话给Joe”。一般而言,能够被输入到训练数据库中的文本越多越好,原因是本文公开的机器学习算法从每个这样的实例中学习。由于任务已经被先验识别,因此训练数据库中的每个数据包括任务名称(任务ID)以及人类用户生成的相应的文本输入。训练数据集400中针对给定类别(例如“交通”)的所有用户请求被给予同一任务ID。相应用户请求的文本通过特征提取模块310或其等价物被转换成训练特征向量。在一种实施方式中,训练数据集400中的每个不同的词对应于二进制值所表示的特征。如果文本输入具有特定词,则对应于该词的特征的二进制值被设置为1。此外,用户请求中的每个不同的N元词(由N个词组成的词组)也可以被分配二进制值。因此,用于训练特征向量的最终特征向量空间将具有数量M的维度,其中M等于训练数据集400中找到的所有不同的词和N元词的总和。在一种实施方式中,除了单个词之外,仅二元词(两个连续词)被分配给单独的特征,以降低最终的复杂性。注意到,可以利用其他加权方案来创造训练特征向量,例如术语频率-反转文档频率(TF-IDF)。例如,图4的训练数据集400中的训练特征向量具有对于其各个维度的非整数系数。
可以考虑训练数据集400中的训练特征向量形成可以用在文本输入130中的特征(单个词和N元词)的词典。再次参考图3,特征提取器模块310针对已经用于构建训练数据集400中的训练特征向量的任何特征(单个词和任何可用的N元词)而分析用户的文本输入130。与训练数据集400中出现的词和N元词不匹配的词和N元词可以被忽略。在一种实施方式中,文本输入130中的每个匹配的特征被赋予1的二进制权重,但如上所述,这种加权可以被修改。随后,可以由任务分类器子模块330根据从训练数据集400中提取的任务分类器模型340来处理最终的特征向量320,从而从构建训练数据集400所使用的任务集中提供预测的任务350。
再次参考图4,由训练器模块410实施的机器学习算法处理训练数据集400中的训练特征向量以生成任务分类器模型340。存在可以由机器学习训练模块410实施的各种合适的机器学习算法例如,支持向量机(SVM)或朴素贝叶斯分类器。基于特定的机器学习算法,训练模块410产生的任务分类器模型340使得任务分类器子模块330能够为特征向量320确定最可能的预测任务350。在这方面,对于给定任务的训练特征向量将趋向于在由各种特征创建的向量空间中集群。基于这种集群,如果特征向量320是用于构建训练数据集400的初始训练特征向量的一部分,则任务分类器子模块330可以随后确定特征向量320将所属的最可能的任务类别。
注意到,训练特征向量上的先验机器学习完全地独立于用户所述的语言,因为特征向量不是词,而是数学实体。因此,可以仅通过生成相应的训练数据集来构建适当的任务分类器模型,而直接将系统100扩展到其他语言。因此,不管用于给定用户市场的具体语言是什么,用户都可以享受本文公开的有利的精确任务分类。不仅仅是这种任务分类比传统个人助理应用中使用的临时性技术更加准确,最终的任务分类也使得查询提取更加准确。
查询提取器模块150在图5中被更详细地示出。对于每个任务,注意到,一些任务不具有相关的查询。例如,烦闷任务涉及想要系统100对其讲笑话的用户。在一种实施方式中,除了任务分类器模块140进行的识别之外,没有烦闷任务的进一步分类。但是对于其他任务,例如呼叫任务,而言并非如此,系统100仅仅识别给定的用户请求对应于呼叫任务是不够的,因为系统100需要知道将要呼叫哪一方。如先前讨论的那样,这些额外的参数被组织到“查询分类”中。例如,餐厅搜索通常会将期望餐厅的类型识别为一个查询分类。此外,同样的餐厅搜索通常也会将地点识别为另一查询分类。给定每种任务(如果可应用)的各种查询分类的标识,随后可以形成词典530。每条词典条目都将是查询分类(也可以被表示为“标签”)和查询分类(相关查询)的特定实例的数据对。
对于词典530的形成,注意到,不能期望识别训练数据集400中的每个可能的查询,因为这必须包括可能由任何给定用户做出的每种可能的用户请求,这当然是不可能的。可能有数十亿用户能够与系统100交互,因此训练数据集400不能已经包含如此多潜在用户的每个可能的查询。但是可以轻易地分析诸如维基百科的数据库以识别给定查询分类(例如“位置”)的所有潜在查询。例如,美国或者另一期望国家的所有城镇可以从这样的数据库中被识别,并且与用于餐厅搜索任务的位置标签一起被输入到词典530。类似地,烹饪的可能类型也可以与用于餐厅搜索任务的烹饪类型标签一起被输入到词典530。其他搜索任务的标签的潜在查询也可以通过适当数据库的搜索而实例化。例如,呼叫任务的“被呼叫方的姓名”标签可以利用名(如果期望的话,也可以是姓)来实例化。这是十分有利的,因为可能的查询因此被轻易地预期并且被输入到词典530,从而一旦预测用户请求属于给定的任务类别,查询提取模块520就轻易地识别相应的查询。为了这样,模块520将文本输入130中的词与词典530中的词典条目就相关标签(查询分类)进行对比。例如,再次参考图2,短语“PaloAlto”可以在词典530中在位置标签下具有匹配。类似的,短语“意大利餐厅”可以在词典530中在烹饪类型标签下具有匹配。以这种方式,给定的文本输入130由系统100轻易地识别以识别其贴切的查询500。
如图6所示,任务执行接口模块160使用预测的任务350来确定任何外部内容提供商是否是必须的。某些任务不需要外部内容提供商,例如呼叫任务。另一方面,可以利用外部搜索提供商执行餐厅搜索。因此,任务执行模块160将任何相关的查询路由至任务执行模块170中的适当API。需要外部搜索提供商的查询被路由至相应的内容提供商的API620。相反,需要用户设备的内部功能的查询被路由至相应的内部功能API610。
可以利用一个或多个计算机来实施系统100,或者替代地,可以利用配置的FPGA或ASIC来实例化系统100。用于实施系统100的一个或多个模块的适当计算机系统700在图7中示出。管理员可以利用显示器711、键盘704和音频/视频I/O705来配置系统700。系统700包括通过总线702耦接到指令的存储器714的至少一个处理器。总线702还通过网络接口706和通信链路718耦接至网络750,例如因特网。以这种方式,用户的交互(例如图1的自然语言输入110)可以轻易地由系统700从网络750接收。存储在存储器714中的指令可以以Java或者其他适当的程序语言编写,其中,这些指令由处理器712执行以实施本文讨论的各种模块。
现在,本领域技术人员将意识到,取决于当前特定的应用,可以在本公开的材料、装置、配置和设备的使用方法中(或对它们)进行许多改进、替换和改变,而不脱离本公开的精神和范围。鉴于这点,本公开的范围不应该被限制于本文所示出和描述的特定实施方式的范围,这是因为这些实施方式仅仅是通过其一些实例来展示,本公开的范围应该与随附权利要求及其功能性等价物的范围完全相当。

Claims (20)

1.一种机器实施的方法,包括:
针对多个任务类别的每一个收集多个人工生成的请求以创建用户请求的训练数据库;
从训练数据库中的每个用户请求提取训练特征向量,以形成对于每个任务类别具有多个训练特征向量的训练数据集;
处理训练数据集中的训练特征向量以为每个任务类别确定任务分类器模型;
从用户接收额外请求,该额外请求可以被分类到任务类别中的一个中;及
在机器中比较来自额外请求的提取的特征向量和任务分类器模型,从而确定额外请求的预测任务类别。
2.如权利要求1所述的机器实施的方法,还包括:
在机器中比较额外请求中的词和预测任务类别的至少一个查询分类的可能值的词典,以识别额外请求中针对至少一个任务参数的匹配词或词组。
3.如权利要求2所述的机器实施的方法,还包括:
通过使用匹配词或词组服务额外请求。
4.如权利要求1所述的机器实施的方法,还包括:
确定预测任务是否需要外部内容提供商来完成预测任务,或者预测任务是否能够由用户的便携式设备执行;
响应于确定预测任务需要外部内容提供商来完成预测任务,调用外部内容提供商的应用程序接口;及
响应于确定预测任务能够由便携式设备执行,调用便携式设备上的程序的应用程序接口。
5.如权利要求4所述的机器实施的方法,其中,便携式设备包括蜂窝电话。
6.如权利要求1所述的机器实施的方法,其中,额外请求包括自然语言请求,该方法还包括:
将自然语言请求转换成文本输入;及
从文本输入中提取特征向量。
7.如权利要求1所述的机器实施的方法,其中,处理训练数据集以确定任务分类器模型包括将机器学习算法应用于训练数据集。
8.如权利要求7所述的机器实施的方法,其中,机器学习算法包括支持向量机器训练算法。
9.如权利要求7所述的机器实施的方法,其中,机器学习算法包括朴素贝叶斯算法。
10.如权利要求1所述的机器实施的方法,其中,任务类别包括餐厅搜索任务类别、呼叫任务类别、电子邮件任务类别和交通任务类别。
11.一种系统,包括:
任务分类器模块,其配置成从对应于多个任务类别中的一个的第一用户请求提取特征向量,并且比较该特征向量和从对于每个任务类别的多个其他用户请求开发的任务分类器模型,以预测对应于第一用户请求的任务类别;
查询提取器模块,其配置成比较第一用户请求和对于预测任务类别的至少一个任务参数的可能值的词典,以识别第一用户请求中针对至少一个任务参数的匹配词或词组;及
任务执行模块,其配置成分析预测任务类别,以确定预测任务类别是否需要外部内容提供商来完成预测任务,或者预测任务类别是否能够由用户的便携式设备执行;及
任务执行模块,其配置成响应于确定预测任务类别需要外部内容提供商来完成预测任务,利用识别的词或词组调用外部内容提供商的应用程序接口。
12.如权利要求11所述的系统,其中,任务执行模块还被配置成响应于确定预测任务类别能够由用户的便携式设备执行,利用识别的词或词组调用用户的便携式设备的应用程序接口。
13.如权利要求11所述的系统,其中,预测任务类别包括餐厅搜索任务类别、呼叫任务类别、电子邮件任务类别和交通任务类别。
14.如权利要求11所述的系统,还包括:
机器学习训练模块,其配置为从对于每个任务类别的多个其他用户请求开发任务分类器模型。
15.如权利要求14所述的系统,其中,机器学习训练模块被配置为利用支持向量机器训练算法开发任务分类器模型。
16.如权利要求14所述的系统,其中,机器学习训练模块被配置为利用朴素贝叶斯算法开发任务分类器模型。
17.如权利要求14所述的系统,还包括自然语言至文本转换器模块,其被配置将自然语言输入转换成包括第一用户的请求的文本输入。
18.一种有形计算机可读介质,其包含存储于其上的程序指令,其中,一个或多个处理器执行程序指令使得一个或多个处理器执行下述步骤:
从训练数据库中的每个用户请求提取训练特征向量,以形成对于多个任务类别中的每一个具有多个训练特征向量的训练数据集;
处理训练数据集以为每个任务类别确定任务分类器模型;
从用户接收额外请求,该额外请求可以被分类到任务类别的一个中;及
比较从额外请求提取的特征向量和任务分类器模型,从而确定额外请求的预测任务类别。
19.如权利要求18所述的有形计算机可读介质,其中,一个或多个处理器执行程序指令还使得一个或多个处理器执行下述步骤:
比较额外请求中的词和对于预测任务类别的至少一个任务参数的可能值的词典,以识别额外请求中针对至少一个任务参数的匹配词或词组。
20.如权利要求18所述的有形计算机可读介质,其中,一个或多个处理器执行程序指令还使得一个或多个处理器执行下述步骤:
通过使用匹配词或词组服务额外请求。
CN201480039347.5A 2013-11-27 2014-11-25 基于机器学习的自动任务分类 Active CN105378699B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361909992P 2013-11-27 2013-11-27
US61/909,992 2013-11-27
PCT/US2014/067475 WO2015081128A1 (en) 2013-11-27 2014-11-25 Automatic task classification based upon machine learning

Publications (2)

Publication Number Publication Date
CN105378699A true CN105378699A (zh) 2016-03-02
CN105378699B CN105378699B (zh) 2018-12-18

Family

ID=53199614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480039347.5A Active CN105378699B (zh) 2013-11-27 2014-11-25 基于机器学习的自动任务分类

Country Status (6)

Country Link
US (1) US9471887B2 (zh)
EP (1) EP3074877A4 (zh)
JP (1) JP6440732B2 (zh)
KR (1) KR101770527B1 (zh)
CN (1) CN105378699B (zh)
WO (1) WO2015081128A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301195A (zh) * 2016-04-14 2017-10-27 百度(美国)有限责任公司 生成用于搜索内容的分类模型方法、装置和数据处理系统
CN108229686A (zh) * 2016-12-14 2018-06-29 阿里巴巴集团控股有限公司 模型训练、预测方法、装置、电子设备及机器学习平台
CN108280021A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种基于机器学习的日志等级分析方法
CN110140133A (zh) * 2016-11-04 2019-08-16 谷歌有限责任公司 机器学习任务的隐式桥接
CN111095331A (zh) * 2017-09-14 2020-05-01 艾玛迪斯简易股份公司 使用机器学习的实时在线旅行者细分的方法和系统
CN111797869A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN111801694A (zh) * 2018-03-12 2020-10-20 亚马逊技术股份有限公司 机器学习存储库服务
CN112189206A (zh) * 2018-04-09 2021-01-05 维达数据方案公司 使用机器学习算法处理个人数据及其应用

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10042923B2 (en) 2015-04-24 2018-08-07 Microsoft Technology Licensing, Llc Topic extraction using clause segmentation and high-frequency words
US9792281B2 (en) 2015-06-15 2017-10-17 Microsoft Technology Licensing, Llc Contextual language generation by leveraging language understanding
US9626627B1 (en) * 2016-01-26 2017-04-18 International Business Machines Corporation Predicting API storytelling mapping
KR102573933B1 (ko) 2016-10-04 2023-09-05 한국전자통신연구원 기계 학습 기반의 실감 미디어 저작 방법 및 장치
US20190207946A1 (en) * 2016-12-20 2019-07-04 Google Inc. Conditional provision of access by interactive assistant modules
US20180211260A1 (en) * 2017-01-25 2018-07-26 Linkedin Corporation Model-based routing and prioritization of customer support tickets
US11270185B1 (en) * 2017-01-27 2022-03-08 Intuit Inc. Methods, systems, and computer program product for generating a personalized flow for a software delivery model
US10592995B1 (en) 2017-01-27 2020-03-17 Intuit Inc. Methods, systems, and computer program product for providing expense information for an electronic tax return preparation and filing software delivery model
US10127227B1 (en) 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
US10466963B2 (en) 2017-05-18 2019-11-05 Aiqudo, Inc. Connecting multiple mobile devices to a smart home assistant account
JP6950362B2 (ja) * 2017-08-29 2021-10-13 京セラドキュメントソリューションズ株式会社 情報処理システムおよびプログラム
CN107957989B9 (zh) * 2017-10-23 2021-01-12 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
CN107767058B (zh) * 2017-10-26 2021-03-19 北京航空航天大学 一种众包软件开发者推荐方法
CN108170663A (zh) 2017-11-14 2018-06-15 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
JP6856498B2 (ja) 2017-11-15 2021-04-07 株式会社東芝 支援システム、支援方法、プログラム、及び記憶媒体
US10176171B1 (en) * 2017-12-29 2019-01-08 Aiqudo, Inc. Language agnostic command-understanding digital assistant
US10963495B2 (en) 2017-12-29 2021-03-30 Aiqudo, Inc. Automated discourse phrase discovery for generating an improved language model of a digital assistant
US10929613B2 (en) 2017-12-29 2021-02-23 Aiqudo, Inc. Automated document cluster merging for topic-based digital assistant interpretation
US10963499B2 (en) 2017-12-29 2021-03-30 Aiqudo, Inc. Generating command-specific language model discourses for digital assistant interpretation
US10417328B2 (en) * 2018-01-05 2019-09-17 Searchmetrics Gmbh Text quality evaluation methods and processes
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
US11803883B2 (en) 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data
US11263035B2 (en) * 2018-04-13 2022-03-01 Microsoft Technology Licensing, Llc Longevity based computer resource provisioning
KR102092617B1 (ko) * 2018-07-05 2020-05-22 인하대학교 산학협력단 단방향 데이터 변환을 이용한 프라이버시 보장형 기계 학습 방법
US11972490B2 (en) 2018-07-20 2024-04-30 Kbc Groep Nv Determining a category of a request by word vector representation of a natural language text string with a similarity value
EP3598377A1 (en) * 2018-07-20 2020-01-22 KBC Groep NV Improved claim handling
DE102018213021A1 (de) * 2018-08-03 2020-02-06 Robert Bosch Gmbh Computerimplementiertes Verfahren und Vorrichtung für Textanalyse
EP3937030A1 (en) 2018-08-07 2022-01-12 Google LLC Assembling and evaluating automated assistant responses for privacy concerns
US10803182B2 (en) 2018-12-03 2020-10-13 Bank Of America Corporation Threat intelligence forest for distributed software libraries
US11562500B2 (en) 2019-07-24 2023-01-24 Squadle, Inc. Status monitoring using machine learning and machine vision
KR102209147B1 (ko) * 2019-07-31 2021-01-28 주식회사 같다 재활용품 또는 중고물품의 자동 분류 시스템 및 이를 이용한 자동 분류 방법
US11449796B2 (en) 2019-09-20 2022-09-20 Amazon Technologies, Inc. Machine learning inference calls for database query processing
US11328715B2 (en) * 2019-09-24 2022-05-10 International Business Machines Corporation Automatic assignment of cooperative platform tasks
TWI728507B (zh) * 2019-10-15 2021-05-21 財團法人資訊工業策進會 產生一對話狀態追蹤模型之裝置及方法
CN111381970B (zh) * 2020-03-16 2023-07-25 第四范式(北京)技术有限公司 集群任务的资源分配方法及装置、计算机装置及存储介质
US11789905B2 (en) * 2020-05-27 2023-10-17 Roblox Corporation Automated generation of game tags
US11514444B2 (en) 2020-11-03 2022-11-29 Capital One Services, Llc Leveraging blockchain based machine learning modeling for expense categorization
US20220245898A1 (en) * 2021-02-02 2022-08-04 Unisys Corporation Augmented reality based on diagrams and videos
US11509746B2 (en) * 2021-02-17 2022-11-22 Salesforce.Com, Inc. Distributing user requests to cloud computing systems across regions using a machine learning model
US20230069285A1 (en) * 2021-08-19 2023-03-02 Bank Of America Corporation Cognitive scrum master assistance interface for developers
WO2023023632A1 (en) * 2021-08-19 2023-02-23 Yohana Llc Systems and methods for recommending tasks for execution by third party services

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111419A1 (en) * 2002-12-05 2004-06-10 Cook Daniel B. Method and apparatus for adapting a search classifier based on user queries
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN102929613A (zh) * 2012-10-16 2013-02-13 无锡江南计算技术研究所 操作系统的调优装置和方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US7231375B2 (en) * 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US8082264B2 (en) * 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
JP2006146621A (ja) * 2004-11-19 2006-06-08 Nec Corp 情報管理装置及び方法並びに情報管理用プログラム
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US7558766B1 (en) * 2006-09-29 2009-07-07 Hewlett-Packard Development Company, L.P. Classification using enhanced feature sets
US20080162117A1 (en) * 2006-12-28 2008-07-03 Srinivas Bangalore Discriminative training of models for sequence classification
US8326859B2 (en) * 2009-11-02 2012-12-04 Microsoft Corporation Task prediction
WO2013124522A1 (en) * 2012-02-22 2013-08-29 Nokia Corporation A system, and a method for providing a predition for controlling a system
EP2639749B1 (en) * 2012-03-15 2016-11-16 cortical.io GmbH Methods, apparatus and products for semantic processing of text
WO2014022441A1 (en) * 2012-07-30 2014-02-06 Khalid Sayood Classification of nucleotide sequences by latent semantic analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111419A1 (en) * 2002-12-05 2004-06-10 Cook Daniel B. Method and apparatus for adapting a search classifier based on user queries
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN102929613A (zh) * 2012-10-16 2013-02-13 无锡江南计算技术研究所 操作系统的调优装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAURO ROJAS HERRERA ETC.: "Exploring features for the automatic identification of user goals in web search", 《INFORMATION PROCESSING & MANAGEMENT》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301195A (zh) * 2016-04-14 2017-10-27 百度(美国)有限责任公司 生成用于搜索内容的分类模型方法、装置和数据处理系统
CN107301195B (zh) * 2016-04-14 2020-12-11 百度(美国)有限责任公司 生成用于搜索内容的分类模型方法、装置和数据处理系统
CN110140133A (zh) * 2016-11-04 2019-08-16 谷歌有限责任公司 机器学习任务的隐式桥接
CN108229686B (zh) * 2016-12-14 2022-07-05 阿里巴巴集团控股有限公司 模型训练、预测方法、装置、电子设备及机器学习平台
CN108229686A (zh) * 2016-12-14 2018-06-29 阿里巴巴集团控股有限公司 模型训练、预测方法、装置、电子设备及机器学习平台
CN111095331A (zh) * 2017-09-14 2020-05-01 艾玛迪斯简易股份公司 使用机器学习的实时在线旅行者细分的方法和系统
CN111095331B (zh) * 2017-09-14 2023-09-22 艾玛迪斯简易股份公司 使用机器学习的实时在线旅行者细分的方法和系统
CN108280021A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种基于机器学习的日志等级分析方法
CN111801694A (zh) * 2018-03-12 2020-10-20 亚马逊技术股份有限公司 机器学习存储库服务
CN111801694B (zh) * 2018-03-12 2022-06-10 亚马逊技术股份有限公司 机器学习存储库服务
CN114925851A (zh) * 2018-03-12 2022-08-19 亚马逊技术股份有限公司 机器学习存储库服务
CN114925851B (zh) * 2018-03-12 2023-04-18 亚马逊技术股份有限公司 机器学习存储库服务
CN112189206A (zh) * 2018-04-09 2021-01-05 维达数据方案公司 使用机器学习算法处理个人数据及其应用
CN111797869A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
EP3074877A1 (en) 2016-10-05
KR20160053905A (ko) 2016-05-13
JP6440732B2 (ja) 2018-12-19
WO2015081128A1 (en) 2015-06-04
US9471887B2 (en) 2016-10-18
JP2017505964A (ja) 2017-02-23
KR101770527B1 (ko) 2017-08-22
US20160019471A1 (en) 2016-01-21
EP3074877A4 (en) 2017-09-06
CN105378699B (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN105378699A (zh) 基于机器学习的自动任务分类
WO2020143844A1 (zh) 意图分析方法、装置、显示终端及计算机可读存储介质
US10387410B2 (en) Method and system of classification in a natural language user interface
CN102110170B (zh) 一种具有信息发布和搜索功能的系统及信息发布方法
US9916829B2 (en) Voice search and response based on relevancy
US10929610B2 (en) Sentence-meaning recognition method, sentence-meaning recognition device, sentence-meaning recognition apparatus and storage medium
CN104919522A (zh) 分布式nlu/nlp
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN110188210B (zh) 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN102750366B (zh) 基于自然交互输入的视频搜索系统及方法
US20130251211A1 (en) Automated processing of documents
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN102651003A (zh) 一种跨语言搜索的方法和装置
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN109766451A (zh) 一种云计算平台及其调度、数据分析方法
CN112182174A (zh) 业务问答知识查询方法、装置、计算机设备和存储介质
CN112148874A (zh) 可自动新增用户潜在意图的意图识别方法及系统
WO2018001040A1 (zh) 业务数据提供方法、装置和计算机存储介质
CN110110143B (zh) 一种视频分类方法及装置
CN110990527A (zh) 自动问答方法及装置、存储介质及电子设备
CN202931393U (zh) 数据发送处理装置
CN109165180A (zh) 一种提高房源经纪人作业效率的方法和系统
CN110929014B (zh) 信息处理方法、装置、电子设备及存储介质
EP2506540B1 (en) Enhanced contact information
CN112382276A (zh) 一种基于语音语义识别的电网物料信息采集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant