CN105378699B - 基于机器学习的自动任务分类 - Google Patents
基于机器学习的自动任务分类 Download PDFInfo
- Publication number
- CN105378699B CN105378699B CN201480039347.5A CN201480039347A CN105378699B CN 105378699 B CN105378699 B CN 105378699B CN 201480039347 A CN201480039347 A CN 201480039347A CN 105378699 B CN105378699 B CN 105378699B
- Authority
- CN
- China
- Prior art keywords
- task
- user
- request
- classification
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 235000015220 hamburgers Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012358 sourcing Methods 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- UOZODPSAJZTQNH-UHFFFAOYSA-N Paromomycin II Natural products NC1C(O)C(O)C(CN)OC1OC1C(O)C(OC2C(C(N)CC(N)C2O)OC2C(C(O)C(O)C(CO)O2)N)OC1CO UOZODPSAJZTQNH-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- ALEXXDVDDISNDU-JZYPGELDSA-N cortisol 21-acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(=O)COC(=O)C)(O)[C@@]1(C)C[C@@H]2O ALEXXDVDDISNDU-JZYPGELDSA-N 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
提供了一种系统和方法,其使用机器学习算法处理多个任务类别中的每一个中的人工生成的请求的训练数据库,以开发任务分类器模型,该任务分类器模型可以应用于随后的用户请求以为随后的用户请求确定任务类别中最可能的一个。
Description
相关申请
本申请要求2013年11月27日提交的美国临时专利申请61/909,992的权益,将该临时申请的全部内容并入本文中。
技术领域
本公开大体上涉及个人助理应用,并且更具体地,涉及基于机器学习的用户请求的处理。
背景技术
已经开发了各种个人助理软件应用,它们通过执行相应任务而响应用户的文本或自然语言请求。例如,由智能手机用户访问的个人助理应用可以查找电话号码并且拨打电话,搜索餐馆,起草和发送电子邮件,制定日历项等等。在这方面,特定用户可能通常以与其他用户不同的措辞来表达给定任务的请求。这种差异在人工交互方面是固有的。由于这种差异,传统的个人助理软件应用在正确地执行用户的期望请求方面容易出错。此外,最终的应用趋向于临时性的并且因此难以应用于不同的语言。
因此,在本领域内存在对于独立于语言的改进系统的需求,其在分类和执行用户所需的任务方面具有更好的精确度。
发明内容
为了提供针对任务分类和执行的更高精确度,提供了利用机器学习算法进行任务分类的系统和方法。针对用户如何表达多个任务类别中的请求,从各种用户生成训练数据库。通过调查足够多的用户,单个用户如何表达给定的期望任务的自然变化可以被恰当地采样。例如,针对呼叫特定方(例如,其母亲)的任务,一个用户可以将其表达为“呼叫妈”,而另一用户可能将其表达为“请呼叫妈”或者“呼叫母亲”。例如,可以通过众包(crowdsourcing)生成相对大的训练数据库以表征给定的任务被不同用户表达的方式的这些变化。最终的训练数据库可以包含数以千计的用户针对请求多个任务类别中的特定任务的响应。由于已知用户期望特定的任务的先验,最终的用户请求对于其分类是明确的。因此,训练数据库可以具有各种用户请求的大量实例,其全部都被组织到其适当的任务类别中。
随后,可以通过各种机器学习算法利用这种高质量训练数据库。例如,每个数据库用户请求可以被转换成特征向量或者其他数学表示。因此,训练数据库将会包括对于每个任务类别的各种特征向量,每个特征向量对应于给定的训练数据库用户的请求。每个特征向量的维数取决于期望的复杂度。例如,给定用户的请求中的每个独一的词(或词组)可以对应于特征向量维度。每个特征向量维度的权重可以取决于相应的词或词组在相应的用户的请求中出现了多少次。可选地,权重可以是二进制的,从而加权仅仅取决于给定的词或词组是否在用户请求中出现。然后,最终的特征向量可以用于训练机器学习算法,例如支持向量机,以确定每个任务的各种用户请求是如何在特征向量空间中集群的任务分类器模型。
由于在对于各种任务的人工生成的请求的高质量训练数据库上进行这种先验机器学习以形成任务分类器模型,额外用户请求就可以根据任务分类器模型被稳健地实时分类。换言之,接收的用户请求可以被轻易地转换成文本(在自然语言输入的情况下),并且相应的文本根据预先确定的任务分类器模型被转换成特征向量并被分类成任务类别中的预测任务类别。这个过程不仅增加了任务分类的精确度,还是不依赖于语言的:仅仅需要收集其他语言的训练数据库以扩展该过程,从而适应相应语言的用户请求。
为了增加任务执行的精确度,可以基于预测任务的标识来进一步处理用户的请求,从而确定其具体查询(如果有的话)。在这方面,每个任务类别可以与各种查询类别相关。例如,假设用户请求已经被分类成“餐厅搜索”任务类别。这种任务分类可以与各种查询分类相关,例如“餐厅类型”(例如意大利餐或中餐)和“餐厅位置”(例如,帕罗奥多(PaloAlto))。给定用户请求中的查询分类的实例化在本文中被表示为“查询”。例如,“在PaloAlto找一家好的意大利餐厅”的用户请求可以被处理以提取烹饪查询(意大利)和位置查询(Palo Alto)。为了增加查询提取的精确度,可以开发查询类别和相应的可能查询的词典。例如,词典可以包括对于位置查询类别中的每个可能位置的条目。然后,查询提取可以包括识别用户的请求中匹配的词典条目,其随后被轻易地与词典中的相应查询分类相关联。
任务执行模块可以通过调用适当的应用编程接口(API)来使用预测任务和任何相关的查询。例如,利用提供餐厅搜索服务的外部搜索提供商(例如“Yelp”),可以最佳地执行餐厅搜索任务。另一方面,如果预测任务是呼叫发起,则相关的查询将通过用于用户的便携式设备中的蜂窝电话功能的API被传输。
通过下述详细说明,可以更好地理解本文公开的系统和方法的其他特征和优势。
附图说明
图1是根据本公开实施方式的用于执行用户请求的系统的框图。
图2示出了在用户请求的任务分类之后的从用户请求的查询提取。
图3是图1的系统中的任务分类模块的更详细的框图。
图4示出了用于创建图3的任务分类模块所使用的任务分类器模块的模块。
图5是图1的系统中的查询提取模块的更详细的框图。
图6是图1的系统中的任务执行模块的更详细的框图。
图7示出了根据本公开实施方式的配置成执行用户请求的计算机系统。
通过参阅下文的详细说明将最佳地理解本发明的实施方式及其优势。应该意识到,类似的附图标记用于标识一个或多个附图中的类似元件。
具体实施方式
下文列出的详细说明连同附图旨在描述各种配置,并且不意图代表可以实施本文描述的构思的仅有配置。为了提供对各种概念的透彻理解,详细说明包括具体细节。然而,本领域技术人员显而易见的是,这些构思可以在没有这些具体细节的情况下实施。在一些例子中,为了避免模糊这些构思,公知的结构和部件以框图形式示出。
为了提供用于通过个人助理应用执行用户请求的更大准确性,通过机器学习算法在先前记录的针对一组任务的用户请求的训练数据库上训练任务分类器。例如,众包(crowd sourcing)可以用于生成训练数据库,其包括人工生成的对于众多任务的请求。在这方面,特定用户可能通常以与其他用户不同的措辞来表达给定任务的请求。这种差异在人工交互方面是固有的。由于这种差异,传统的个人助理软件应用经常在正确地执行用户的期望请求方面容易出错。随着时间的推移,这些传统的个人助理应用可以通过用户的校正而从其错误中学习,从而执行适当的任务。但是这种随着时间的学习可能对于用户来说颇为沮丧,从而使得用户放弃使用个人助理应用,而不是花费校正与执行用户意图相关的不可避免的错误所需的时间。
鲜明对比之下,本文公开的系统和方法使用在训练数据库上训练的任务分类器以预测用户请求的相应任务,从而用户不需要克服训练障碍来实现准确的结果。此外,识别的任务可以随后被利用于从用户请求提取查询和相应的查询类别或分类。如本文所使用的,与从用户请求提取查询相关的术语“查询”指给定任务的特定参数。基于任务,这些参数可以被组织为分类。例如,餐厅搜索通常会识别用户期望的烹饪类型以及期望地点。烹饪类型和期望位置均包括查询分类。“查询”随后会包括每个查询分类的具体实例。例如,“在PaloAlto查找意大利餐厅”的用户请求将具有对于烹饪类别“意大利”查询以及对于期望位置“Palo Alto”的查询。注意到,通过响应于预测的任务而执行,这种查询提取的精度被大大提高。对于查询提取,每个任务类别可以与可能的查询以及其相应的查询类别的词典相关联。一旦用户请求被分类成特定的预测任务,就可以将用户请求与对于该任务的相应词典比较,以识别任何查询和相应的查询分类的匹配。
任务执行模块可以随后利用预测的任务以及相应查询的识别来执行用户的请求。例如,任务执行模块可以使用预测的任务来将查询发送至相应的应用编程接口(API)。不论是否选择了API,与常规方法相比,最终的任务执行都显著地更加精确。现在将讨论一些示例性实施方式。
示例性实施方式
现在转到附图,图1示出了用于执行用户请求(例如通过自然语言输入110接收的)的示例性系统100。系统100用于处理例如由自然语言输入110表示的用户请求,以预测用户期望的相应任务。系统100被便捷地配置为将用户请求分类成对应于选自一组潜在任务类别的给定任务。可以由系统100服务的该组潜在任务的大小仅仅是一种设计选择,如本文进一步讨论的。这是尤其有利的,因为系统100由此可以轻易地缩放。此外,如本文将进一步解释的,系统100也可以轻易地适用于除英语之外的其他语言。
输入至文本转换器模块120的自然语言输入将用户的自然语言输入110转换成文本输入130。可选地,用户可以直接提供文本输入130,而不是提供(口头的)自然语言输入110。任务分类器模块140处理文本输入130以预测用户的期望任务,如本文将进一步解释的。基于任务分类器模块140确定的预测任务,查询提取器模块150处理文本输入130以提取查询和相应的查询分类。示例性的查询提取220在图2中示出。在这种情况下,“在Palo Alto找一家好的意大利餐厅”的用户请求已经由图1中的任务分类器模块140被分类为餐厅搜索任务。餐厅搜索任务包括两个查询分类:餐厅的类型以及位置。系统100的查询提取器150分析用户请求以识别每个查询分类的实例化--换句话说,查询提取器150识别每个查询分类的相应查询。在图2的实例中,最终的查询220是意大利餐厅和Palo Alto。再次参考图1,任务执行接口模块160使用预测任务来选择适当的任务执行接口,例如任务执行模块170中的API。
现在将更加详细地讨论系统100中的各种模块的操作。任务分类器模块140的扩展框图在图3中示出。模块140中的特征提取器模块310处理文本输入130以提取特征向量320。这种提取也在图4的训练数据集400上执行。训练数据集400包括许多先前收集的针对各种任务类别或分类的用户请求。在图4的实施方式中,有32种任务分类。每种任务的用户请求被分配有相同的任务ID,其可以包括整数。例如,训练数据集400可以涵盖下面表1中的任务:
表1
应该意识到,对于不同的实施方式,任务类别的数量可以轻易地改变。训练数据集400可以由众包、其他自然语言的现有训练数据的翻译、站点抓取或其他合适的方法来生成。在众包的实施方式中,匿名的人类用户回答与他们对各种任务(例如表1的任务)的措辞有关的调查问卷。用户例如通过自然语言回复来回答问题,这些回复可以随后被转换成输入文本以建立训练数据库,该训练数据库可以使其特征向量被提取以形成训练数据集400。在特征提取之前的输入文本的示例性训练数据库在下表2中示出:
表2
餐厅搜索 | 附近不错的汉堡店在哪? |
… | … |
电话 | 打电话给妈。 |
… | … |
电话 | 打电话给Joe。 |
在该实例中,文本输入以及相应任务的训练数据库以及相应任务的实例中,、可能的任务类别将包括“餐厅搜索”任务类别和“电话”任务类别。餐厅搜索的示例性文本是“附近不错的汉堡店在哪”。可以轻易地扩展训练数据库以包括众多成千上万由人类用户生成的这种示例性餐厅搜索。其他任务也可以由人类用户生成的数以千计的示例性文本表示。在表2中,“电话”任务包括两种示例性文本:“打电话给妈”和“打电话给Joe”。一般而言,能够被输入到训练数据库中的文本越多越好,原因是本文公开的机器学习算法从每个这样的实例中学习。由于任务已经被先验识别,因此训练数据库中的每个数据包括任务名称(任务ID)以及人类用户生成的相应的文本输入。训练数据集400中针对给定类别(例如“交通”)的所有用户请求被给予同一任务ID。相应用户请求的文本通过特征提取模块310或其等价物被转换成训练特征向量。在一种实施方式中,训练数据集400中的每个不同的词对应于二进制值所表示的特征。如果文本输入具有特定词,则对应于该词的特征的二进制值被设置为1。此外,用户请求中的每个不同的N元词(由N个词组成的词组)也可以被分配二进制值。因此,用于训练特征向量的最终特征向量空间将具有数量M的维度,其中M等于训练数据集400中找到的所有不同的词和N元词的总和。在一种实施方式中,除了单个词之外,仅二元词(两个连续词)被分配给单独的特征,以降低最终的复杂性。注意到,可以利用其他加权方案来创造训练特征向量,例如术语频率-反转文档频率(TF-IDF)。例如,图4的训练数据集400中的训练特征向量具有对于其各个维度的非整数系数。
可以考虑训练数据集400中的训练特征向量形成可以用在文本输入130中的特征(单个词和N元词)的词典。再次参考图3,特征提取器模块310针对已经用于构建训练数据集400中的训练特征向量的任何特征(单个词和任何可用的N元词)而分析用户的文本输入130。与训练数据集400中出现的词和N元词不匹配的词和N元词可以被忽略。在一种实施方式中,文本输入130中的每个匹配的特征被赋予1的二进制权重,但如上所述,这种加权可以被修改。随后,可以由任务分类器子模块330根据从训练数据集400中提取的任务分类器模型340来处理最终的特征向量320,从而从构建训练数据集400所使用的任务集中提供预测的任务350。
再次参考图4,由训练器模块410实施的机器学习算法处理训练数据集400中的训练特征向量以生成任务分类器模型340。存在可以由机器学习训练模块410实施的各种合适的机器学习算法例如,支持向量机(SVM)或朴素贝叶斯分类器。基于特定的机器学习算法,训练模块410产生的任务分类器模型340使得任务分类器子模块330能够为特征向量320确定最可能的预测任务350。在这方面,对于给定任务的训练特征向量将趋向于在由各种特征创建的向量空间中集群。基于这种集群,如果特征向量320是用于构建训练数据集400的初始训练特征向量的一部分,则任务分类器子模块330可以随后确定特征向量320将所属的最可能的任务类别。
注意到,训练特征向量上的先验机器学习完全地独立于用户所述的语言,因为特征向量不是词,而是数学实体。因此,可以仅通过生成相应的训练数据集来构建适当的任务分类器模型,而直接将系统100扩展到其他语言。因此,不管用于给定用户市场的具体语言是什么,用户都可以享受本文公开的有利的精确任务分类。不仅仅是这种任务分类比传统个人助理应用中使用的临时性技术更加准确,最终的任务分类也使得查询提取更加准确。
查询提取器模块150在图5中被更详细地示出。对于每个任务,注意到,一些任务不具有相关的查询。例如,烦闷任务涉及想要系统100对其讲笑话的用户。在一种实施方式中,除了任务分类器模块140进行的识别之外,没有烦闷任务的进一步分类。但是对于其他任务,例如呼叫任务,而言并非如此,系统100仅仅识别给定的用户请求对应于呼叫任务是不够的,因为系统100需要知道将要呼叫哪一方。如先前讨论的那样,这些额外的参数被组织到“查询分类”中。例如,餐厅搜索通常会将期望餐厅的类型识别为一个查询分类。此外,同样的餐厅搜索通常也会将地点识别为另一查询分类。给定每种任务(如果可应用)的各种查询分类的标识,随后可以形成词典530。每条词典条目都将是查询分类(也可以被表示为“标签”)和查询分类(相关查询)的特定实例的数据对。
对于词典530的形成,注意到,不能期望识别训练数据集400中的每个可能的查询,因为这必须包括可能由任何给定用户做出的每种可能的用户请求,这当然是不可能的。可能有数十亿用户能够与系统100交互,因此训练数据集400不能已经包含如此多潜在用户的每个可能的查询。但是可以轻易地分析诸如维基百科的数据库以识别给定查询分类(例如“位置”)的所有潜在查询。例如,美国或者另一期望国家的所有城镇可以从这样的数据库中被识别,并且与用于餐厅搜索任务的位置标签一起被输入到词典530。类似地,烹饪的可能类型也可以与用于餐厅搜索任务的烹饪类型标签一起被输入到词典530。其他搜索任务的标签的潜在查询也可以通过适当数据库的搜索而实例化。例如,呼叫任务的“被呼叫方的姓名”标签可以利用名(如果期望的话,也可以是姓)来实例化。这是十分有利的,因为可能的查询因此被轻易地预期并且被输入到词典530,从而一旦预测用户请求属于给定的任务类别,查询提取模块520就轻易地识别相应的查询。为了这样,模块520将文本输入130中的词与词典530中的词典条目就相关标签(查询分类)进行对比。例如,再次参考图2,短语“PaloAlto”可以在词典530中在位置标签下具有匹配。类似的,短语“意大利餐厅”可以在词典530中在烹饪类型标签下具有匹配。以这种方式,给定的文本输入130由系统100轻易地识别以识别其贴切的查询500。
如图6所示,任务执行接口模块160使用预测的任务350来确定任何外部内容提供商是否是必须的。某些任务不需要外部内容提供商,例如呼叫任务。另一方面,可以利用外部搜索提供商执行餐厅搜索。因此,任务执行模块160将任何相关的查询路由至任务执行模块170中的适当API。需要外部搜索提供商的查询被路由至相应的内容提供商的API 620。相反,需要用户设备的内部功能的查询被路由至相应的内部功能API 610。
可以利用一个或多个计算机来实施系统100,或者替代地,可以利用配置的FPGA或ASIC来实例化系统100。用于实施系统100的一个或多个模块的适当计算机系统700在图7中示出。管理员可以利用显示器711、键盘704和音频/视频I/O 705来配置系统700。系统700包括通过总线702耦接到指令的存储器714的至少一个处理器。总线702还通过网络接口706和通信链路718耦接至网络750,例如因特网。以这种方式,用户的交互(例如图1的自然语言输入110)可以轻易地由系统700从网络750接收。存储在存储器714中的指令可以以Java或者其他适当的程序语言编写,其中,这些指令由处理器712执行以实施本文讨论的各种模块。
现在,本领域技术人员将意识到,取决于当前特定的应用,可以在本公开的材料、装置、配置和设备的使用方法中(或对它们)进行许多改进、替换和改变,而不脱离本公开的精神和范围。鉴于这点,本公开的范围不应该被限制于本文所示出和描述的特定实施方式的范围,这是因为这些实施方式仅仅是通过其一些实例来展示,本公开的范围应该与随附权利要求及其功能性等价物的范围完全相当。
Claims (10)
1.一种机器实施的方法,包括:
请求多个用户针对多个任务类别的每一个生成人工生成的用户请求,以收集人工生成的用户请求从而创建用户请求的训练数据库,人工生成的用户请求中的每个用户请求独一地对应于多个任务类别中的一个;
针对每个任务类别,通过为对应的用户请求中的每个不同词分配数字值而从训练数据库中的对应的用户请求提取训练特征向量,以形成对于每个任务类别具有训练特征向量的训练数据集;
针对每个任务类别,分析训练数据集中的每个人工生成的用户请求以为所述训练特征向量识别至少一个查询分类,用于每个任务类别的所述至少一个查询分类对应于利用用于用户的便携式设备或外部内容提供商中的一个的结果查询,以用于处理;
针对每个任务类别,处理对应于任务类别的训练数据集和所述至少一个查询分类中的训练特征向量,以为任务类别确定任务分类器模型;
从用户接收额外请求,该额外请求可以被分类到多个任务类别中的一个中;及
在机器中比较来自额外请求的提取的特征向量和任务分类器模型,从而识别哪个任务类别对应于额外请求。
2.如权利要求1所述的机器实施的方法,还包括:
在机器中比较额外请求中的词和识别的任务类别的所述至少一个查询分类的可能值的词典,以识别额外请求中的匹配词或词组。
3.如权利要求2所述的机器实施的方法,还包括:
通过使用匹配词或词组服务额外请求。
4.如权利要求1所述的机器实施的方法,还包括:
确定识别的任务类别是否需要所述外部内容提供商来完成,或者识别的任务类别是否能够由用户的所述便携式设备执行;
响应于确定识别的任务类别需要所述外部内容提供商来完成,调用外部内容提供商的应用程序接口;及
响应于确定识别的任务类别能够由便携式设备执行,调用便携式设备上的程序的应用程序接口。
5.如权利要求4所述的机器实施的方法,其中,便携式设备包括蜂窝电话。
6.如权利要求1所述的机器实施的方法,其中,额外请求包括自然语言请求,该方法还包括:
将自然语言请求转换成文本输入;及
从文本输入中提取被提取的特征向量。
7.如权利要求1所述的机器实施的方法,其中,处理训练数据集以确定任务分类器模型包括将机器学习算法应用于训练数据集。
8.如权利要求7所述的机器实施的方法,其中,机器学习算法包括支持向量机器训练算法。
9.如权利要求7所述的机器实施的方法,其中,机器学习算法包括朴素贝叶斯算法。
10.如权利要求1所述的机器实施的方法,其中,任务类别包括餐厅搜索任务类别、呼叫任务类别、电子邮件任务类别和交通任务类别。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361909992P | 2013-11-27 | 2013-11-27 | |
US61/909,992 | 2013-11-27 | ||
PCT/US2014/067475 WO2015081128A1 (en) | 2013-11-27 | 2014-11-25 | Automatic task classification based upon machine learning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105378699A CN105378699A (zh) | 2016-03-02 |
CN105378699B true CN105378699B (zh) | 2018-12-18 |
Family
ID=53199614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480039347.5A Active CN105378699B (zh) | 2013-11-27 | 2014-11-25 | 基于机器学习的自动任务分类 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9471887B2 (zh) |
EP (1) | EP3074877A4 (zh) |
JP (1) | JP6440732B2 (zh) |
KR (1) | KR101770527B1 (zh) |
CN (1) | CN105378699B (zh) |
WO (1) | WO2015081128A1 (zh) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10042923B2 (en) | 2015-04-24 | 2018-08-07 | Microsoft Technology Licensing, Llc | Topic extraction using clause segmentation and high-frequency words |
US9792281B2 (en) | 2015-06-15 | 2017-10-17 | Microsoft Technology Licensing, Llc | Contextual language generation by leveraging language understanding |
US9626627B1 (en) * | 2016-01-26 | 2017-04-18 | International Business Machines Corporation | Predicting API storytelling mapping |
US20170300533A1 (en) * | 2016-04-14 | 2017-10-19 | Baidu Usa Llc | Method and system for classification of user query intent for medical information retrieval system |
KR102573933B1 (ko) | 2016-10-04 | 2023-09-05 | 한국전자통신연구원 | 기계 학습 기반의 실감 미디어 저작 방법 및 장치 |
US10713593B2 (en) * | 2016-11-04 | 2020-07-14 | Google Llc | Implicit bridging of machine learning tasks |
CN108229686B (zh) * | 2016-12-14 | 2022-07-05 | 阿里巴巴集团控股有限公司 | 模型训练、预测方法、装置、电子设备及机器学习平台 |
US20190207946A1 (en) * | 2016-12-20 | 2019-07-04 | Google Inc. | Conditional provision of access by interactive assistant modules |
US20180211260A1 (en) * | 2017-01-25 | 2018-07-26 | Linkedin Corporation | Model-based routing and prioritization of customer support tickets |
US11270185B1 (en) * | 2017-01-27 | 2022-03-08 | Intuit Inc. | Methods, systems, and computer program product for generating a personalized flow for a software delivery model |
US10592995B1 (en) | 2017-01-27 | 2020-03-17 | Intuit Inc. | Methods, systems, and computer program product for providing expense information for an electronic tax return preparation and filing software delivery model |
US10127227B1 (en) | 2017-05-15 | 2018-11-13 | Google Llc | Providing access to user-controlled resources by automated assistants |
US11436417B2 (en) | 2017-05-15 | 2022-09-06 | Google Llc | Providing access to user-controlled resources by automated assistants |
US10466963B2 (en) | 2017-05-18 | 2019-11-05 | Aiqudo, Inc. | Connecting multiple mobile devices to a smart home assistant account |
JP6950362B2 (ja) * | 2017-08-29 | 2021-10-13 | 京セラドキュメントソリューションズ株式会社 | 情報処理システムおよびプログラム |
WO2019052868A1 (en) * | 2017-09-14 | 2019-03-21 | Amadeus S.A.S. | METHOD AND SYSTEM FOR SEGMENTING REAL-TIME ONLINE PASSENGERS USING AUTOMATIC APPRENTICESHIP |
CN107957989B9 (zh) * | 2017-10-23 | 2021-01-12 | 创新先进技术有限公司 | 基于集群的词向量处理方法、装置以及设备 |
CN107767058B (zh) * | 2017-10-26 | 2021-03-19 | 北京航空航天大学 | 一种众包软件开发者推荐方法 |
CN108170663A (zh) | 2017-11-14 | 2018-06-15 | 阿里巴巴集团控股有限公司 | 基于集群的词向量处理方法、装置以及设备 |
JP6856498B2 (ja) | 2017-11-15 | 2021-04-07 | 株式会社東芝 | 支援システム、支援方法、プログラム、及び記憶媒体 |
US10176171B1 (en) * | 2017-12-29 | 2019-01-08 | Aiqudo, Inc. | Language agnostic command-understanding digital assistant |
US10963495B2 (en) | 2017-12-29 | 2021-03-30 | Aiqudo, Inc. | Automated discourse phrase discovery for generating an improved language model of a digital assistant |
US10929613B2 (en) | 2017-12-29 | 2021-02-23 | Aiqudo, Inc. | Automated document cluster merging for topic-based digital assistant interpretation |
US10963499B2 (en) | 2017-12-29 | 2021-03-30 | Aiqudo, Inc. | Generating command-specific language model discourses for digital assistant interpretation |
US10417328B2 (en) * | 2018-01-05 | 2019-09-17 | Searchmetrics Gmbh | Text quality evaluation methods and processes |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
CN108280021A (zh) * | 2018-01-25 | 2018-07-13 | 郑州云海信息技术有限公司 | 一种基于机器学习的日志等级分析方法 |
US11803883B2 (en) | 2018-01-29 | 2023-10-31 | Nielsen Consumer Llc | Quality assurance for labeled training data |
US10572321B2 (en) * | 2018-03-12 | 2020-02-25 | Amazon Technologies, Inc. | Machine learning repository service |
CA3096405A1 (en) * | 2018-04-09 | 2019-10-17 | Veda Data Solutions, Inc. | Processing personal data using machine learning algorithms, and applications thereof |
US11263035B2 (en) * | 2018-04-13 | 2022-03-01 | Microsoft Technology Licensing, Llc | Longevity based computer resource provisioning |
KR102092617B1 (ko) * | 2018-07-05 | 2020-05-22 | 인하대학교 산학협력단 | 단방향 데이터 변환을 이용한 프라이버시 보장형 기계 학습 방법 |
US11972490B2 (en) | 2018-07-20 | 2024-04-30 | Kbc Groep Nv | Determining a category of a request by word vector representation of a natural language text string with a similarity value |
EP3598377A1 (en) * | 2018-07-20 | 2020-01-22 | KBC Groep NV | Improved claim handling |
DE102018213021A1 (de) * | 2018-08-03 | 2020-02-06 | Robert Bosch Gmbh | Computerimplementiertes Verfahren und Vorrichtung für Textanalyse |
EP3937030A1 (en) | 2018-08-07 | 2022-01-12 | Google LLC | Assembling and evaluating automated assistant responses for privacy concerns |
US10803182B2 (en) | 2018-12-03 | 2020-10-13 | Bank Of America Corporation | Threat intelligence forest for distributed software libraries |
CN111797869A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 模型训练方法、装置、存储介质及电子设备 |
US11562500B2 (en) | 2019-07-24 | 2023-01-24 | Squadle, Inc. | Status monitoring using machine learning and machine vision |
KR102209147B1 (ko) * | 2019-07-31 | 2021-01-28 | 주식회사 같다 | 재활용품 또는 중고물품의 자동 분류 시스템 및 이를 이용한 자동 분류 방법 |
US11449796B2 (en) | 2019-09-20 | 2022-09-20 | Amazon Technologies, Inc. | Machine learning inference calls for database query processing |
US11328715B2 (en) * | 2019-09-24 | 2022-05-10 | International Business Machines Corporation | Automatic assignment of cooperative platform tasks |
TWI728507B (zh) * | 2019-10-15 | 2021-05-21 | 財團法人資訊工業策進會 | 產生一對話狀態追蹤模型之裝置及方法 |
CN111381970B (zh) * | 2020-03-16 | 2023-07-25 | 第四范式(北京)技术有限公司 | 集群任务的资源分配方法及装置、计算机装置及存储介质 |
US11789905B2 (en) * | 2020-05-27 | 2023-10-17 | Roblox Corporation | Automated generation of game tags |
US11514444B2 (en) | 2020-11-03 | 2022-11-29 | Capital One Services, Llc | Leveraging blockchain based machine learning modeling for expense categorization |
US20220245898A1 (en) * | 2021-02-02 | 2022-08-04 | Unisys Corporation | Augmented reality based on diagrams and videos |
US11509746B2 (en) * | 2021-02-17 | 2022-11-22 | Salesforce.Com, Inc. | Distributing user requests to cloud computing systems across regions using a machine learning model |
US20230069285A1 (en) * | 2021-08-19 | 2023-03-02 | Bank Of America Corporation | Cognitive scrum master assistance interface for developers |
WO2023023632A1 (en) * | 2021-08-19 | 2023-02-23 | Yohana Llc | Systems and methods for recommending tasks for execution by third party services |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN102929613A (zh) * | 2012-10-16 | 2013-02-13 | 无锡江南计算技术研究所 | 操作系统的调优装置和方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7266559B2 (en) * | 2002-12-05 | 2007-09-04 | Microsoft Corporation | Method and apparatus for adapting a search classifier based on user queries |
US8335683B2 (en) * | 2003-01-23 | 2012-12-18 | Microsoft Corporation | System for using statistical classifiers for spoken language understanding |
US7231375B2 (en) * | 2003-10-10 | 2007-06-12 | Microsoft Corporation | Computer aided query to task mapping |
US8082264B2 (en) * | 2004-04-07 | 2011-12-20 | Inquira, Inc. | Automated scheme for identifying user intent in real-time |
US7624006B2 (en) * | 2004-09-15 | 2009-11-24 | Microsoft Corporation | Conditional maximum likelihood estimation of naïve bayes probability models |
JP2006146621A (ja) * | 2004-11-19 | 2006-06-08 | Nec Corp | 情報管理装置及び方法並びに情報管理用プログラム |
US7949186B2 (en) * | 2006-03-15 | 2011-05-24 | Massachusetts Institute Of Technology | Pyramid match kernel and related techniques |
US7558766B1 (en) * | 2006-09-29 | 2009-07-07 | Hewlett-Packard Development Company, L.P. | Classification using enhanced feature sets |
US20080162117A1 (en) * | 2006-12-28 | 2008-07-03 | Srinivas Bangalore | Discriminative training of models for sequence classification |
US8326859B2 (en) * | 2009-11-02 | 2012-12-04 | Microsoft Corporation | Task prediction |
WO2013124522A1 (en) * | 2012-02-22 | 2013-08-29 | Nokia Corporation | A system, and a method for providing a predition for controlling a system |
EP2639749B1 (en) * | 2012-03-15 | 2016-11-16 | cortical.io GmbH | Methods, apparatus and products for semantic processing of text |
WO2014022441A1 (en) * | 2012-07-30 | 2014-02-06 | Khalid Sayood | Classification of nucleotide sequences by latent semantic analysis |
-
2014
- 2014-11-25 JP JP2016556246A patent/JP6440732B2/ja active Active
- 2014-11-25 KR KR1020167001061A patent/KR101770527B1/ko active IP Right Grant
- 2014-11-25 CN CN201480039347.5A patent/CN105378699B/zh active Active
- 2014-11-25 WO PCT/US2014/067475 patent/WO2015081128A1/en active Application Filing
- 2014-11-25 EP EP14866347.9A patent/EP3074877A4/en not_active Withdrawn
-
2015
- 2015-09-30 US US14/871,595 patent/US9471887B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN102929613A (zh) * | 2012-10-16 | 2013-02-13 | 无锡江南计算技术研究所 | 操作系统的调优装置和方法 |
Non-Patent Citations (1)
Title |
---|
Exploring features for the automatic identification of user goals in web search;MAURO ROJAS HERRERA ETC.;《information processing & management》;20100301;第4卷(第2期);第131-142页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3074877A1 (en) | 2016-10-05 |
KR20160053905A (ko) | 2016-05-13 |
JP6440732B2 (ja) | 2018-12-19 |
WO2015081128A1 (en) | 2015-06-04 |
US9471887B2 (en) | 2016-10-18 |
JP2017505964A (ja) | 2017-02-23 |
CN105378699A (zh) | 2016-03-02 |
KR101770527B1 (ko) | 2017-08-22 |
US20160019471A1 (en) | 2016-01-21 |
EP3074877A4 (en) | 2017-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105378699B (zh) | 基于机器学习的自动任务分类 | |
US10832011B2 (en) | Question answering system using multilingual information sources | |
US10387410B2 (en) | Method and system of classification in a natural language user interface | |
US11263208B2 (en) | Context-sensitive cross-lingual searches | |
JP2019008783A (ja) | ソーシャルネットワークコンテンツを基盤に単語ベクトル化技法を利用して日常言語に拡張するための方法およびシステム | |
CN102750366B (zh) | 基于自然交互输入的视频搜索系统及方法 | |
CN104919522A (zh) | 分布式nlu/nlp | |
CN110795542A (zh) | 对话方法及相关装置、设备 | |
KR20200137601A (ko) | 챗봇을 이용한 질의응답 처리 장치 및 방법 | |
CN111339267A (zh) | 基于知识图谱的问答方法及系统、计算机设备及介质 | |
CA2823835A1 (en) | Voice search and response based on relevancy | |
JP2019191975A (ja) | 人材選定装置、人材選定システム、人材選定方法及びプログラム | |
CN202931393U (zh) | 数据发送处理装置 | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
JP2019204157A (ja) | 問合せ機器特定システム、問合せ機器特定方法 | |
CN109165180A (zh) | 一种提高房源经纪人作业效率的方法和系统 | |
CN110929014B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
US20140165002A1 (en) | Method and system using natural language processing for multimodal voice configurable input menu elements | |
KR20080049452A (ko) | 시멘틱 웹을 이용한 목적지 검색 서비스 제공 방법 및시스템 | |
JP2020067864A (ja) | 知識検索装置、知識検索方法、および、知識検索プログラム | |
US8321458B2 (en) | Related contact and record recommendation for product design | |
CN111859154A (zh) | 一种应用推荐方法及装置 | |
KR102663846B1 (ko) | 아나포라 처리 | |
KR102351388B1 (ko) | 홈페이지의 질의 자동 답변 서비스 제공 시스템 | |
KR101387859B1 (ko) | 애플리케이션 사용 현황 정보 제공 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |