CN1606000A - 计算机辅助的查询-任务映射 - Google Patents

计算机辅助的查询-任务映射 Download PDF

Info

Publication number
CN1606000A
CN1606000A CNA2004100567615A CN200410056761A CN1606000A CN 1606000 A CN1606000 A CN 1606000A CN A2004100567615 A CNA2004100567615 A CN A2004100567615A CN 200410056761 A CN200410056761 A CN 200410056761A CN 1606000 A CN1606000 A CN 1606000A
Authority
CN
China
Prior art keywords
task
inquiry
training data
query
guess
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100567615A
Other languages
English (en)
Other versions
CN100589095C (zh
Inventor
A·拉特纳帕基
B·格罗德尼茨基
F·L·纳兰爵
R·J·拉格诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1606000A publication Critical patent/CN1606000A/zh
Application granted granted Critical
Publication of CN100589095C publication Critical patent/CN100589095C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

一种注释系统辅助用户将大量查询映射到任务来获取用于训练搜索组件的训练数据。该注释系统包括包含先前向搜索引擎提交的大量查询的查询记录。储存了包含多个可能任务的任务列表。机器学习组件处理查询记录数据和任务列表数据。对对应于查询记录的多个查询条目的每一个,机器学习组件将用于潜在查询一任务映射的最佳猜测任务建议为训练数据的函数。图形用户界面生成组件被配置成以将每一显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示查询记录中的多个查询条目。

Description

计算机辅助的查询—任务映射
技术领域
本发明涉及训练用户接口的机器学习组件,尤其涉及通过向任务映射查询来获取训练数据。
背景技术
自然用户接口接受自然语言查询,并且作为响应,返回最可能对应于期望的查询主题的结果的列表。结果通常包括有希望地回答查询的任务、文档、文件、电子邮件或其它项目(所有这部分此处都共同地称为任务)。用于对查询生成结果的期望的技术是机器学习技术。机器学习算法使用统计数据来对特定的查询预测期望的结果。使用机器学习算法,可以在初始训练之后基于来自用户的更多查询的结果经常或频繁地更新统计数据。
在可以提供任一机器学习算法用于自然用户接口,期望它能够提供有意义的结果之前,必须使用准确的注释数据对算法进行“训练”。换言之,算法需要指示来自查询—任务(query-to-task)映射的大列表的统计的训练数据。当要向顾客布置自然用户接口和对应的机器学习算法时,更需要在其布置之前使用准确的注释数据训练机器学习算法。例如,当机器学习算法的一种类型的输出是任务列表,如“安装打印机”或“打印机故障查找”时,该机器学习算法需要表示这部分任务对其为期望的结果的自然语言查询的示例的数据。
为提高自然用户接口的机器学习算法的准确度,训练数据必须表示查询—任务映射的示例的相当大的列表。按照惯例,通过获取包含提交给搜索引擎的相当大量的实际查询的查询记录生成大量的查询—任务映射。例如,查询记录通常包括大约10,000个查询或更多。用户或作者然后可以逐一地仔细检查这部分查询,并手动地注释它们(将它们与特定的任务关联)。
向任务注释查询的一种常见的方法是在电子表格数据库的第一列中表示每一查询,并在电子表格的第二列的同一行表示其对应的预期任务。因此,这一过程是相当劳动力密集型且耗时的。此外,给定要从中选择的潜在任务的相当大的列表,选择哪一任务来与特定的查询注释变得更棘手。
因此,一种能够被用来方便更快且更准确的查询—任务映射来获取训练数据的系统或方法将是本领域中重大的改进。
发明内容
一种注释系统辅助用户将大量查询映射到任务来获取用于训练搜索组件的训练数据。该注释系统包括包含先前向搜索引擎提交的大量查询的查询记录。储存了包含多个可能任务的任务列表。机器学习组件处理查询记录数据和任务列表数据。对于对应于查询记录的多个查询条目的每一个,机器学习组件将用于潜在查询—任务映射的最佳猜测任务建议为训练数据的函数。图形用户界面生成组件被配置成以将所显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示查询记录中的多个查询条目。
附图说明
图1是可使用本发明的一个示例性环境的框图。
图2所示是依照本发明的注释系统的一个示例性实施例的框图。
图3-7所示是可以使用图2所示的系统生成来辅助用户有效地执行查询—任务映射的图形用户界面的图解。
图8-12所示是本发明的方法的实施例的流程图。
图13和14所示是可以使用图2的系统生成来辅助用户有效地执行将查询—任务映射作为以任务为中心的操作的图形用户界面的图解,它与图3-7所示的以查询为中心的操作相反。
图15所示是可使用本发明的一个示例性环境的框图。
图16所示是本发明的方法的一个实施例的流程图。
具体实施方式
对于用于辅助用户执行从查询记录到任务的大量映射来获取用于训练搜索组件的训练数据的注释系统来描述本发明。本发明也包括辅助用户将大量查询映射到对应的任务来获取和/或更新训练数据的方法以及配备了这部分方法的计算机可读媒质。
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本发明的使用或功能的范围的任何局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于,个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明将在计算机可执行指令的一般上下文环境中描述,计算机可执行指令如程序模块,由计算机执行。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,用于实现本发明的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将各类系统组件包括系统存储器耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围部件互连(PCI)总线,也称为夹层(Mezzanine)总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质,信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这部分组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和定点设备161,如鼠标、轨迹球或触摸板向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这部分和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口195连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件,图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
图2示出了依照本发明的注释系统200,它可以在诸如图1示出的处理环境中实现。注释系统200辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据。系统200包括,或在其它实施例中获取,包含表示先前向搜索引擎提交的查询的数据的查询记录205。通常,查询记录包含表示大量查询,如10,000个或更多的数据。然而,也可以使用较小的查询记录。包括了包含表示大量可能任务的数据的任务列表210。为获取并连续地更新训练数据220,系统200辅助用户将查询记录205中的每一查询映射到任务列表210中的任务。
机器学习组件或分类器215从查询记录205中检索查询条目,并从任务列表210中检索任务的列表。如本发明所定义的,查询条目可以是,如,查询记录中个别的查询。可选地,查询条目可以是表示查询记录205被捆扎在一起的多个查询的查询束。通过查询记录群集的原始查询记录来创建查询束。查询束的一个示例是在查询中包括各种单词的小拼写错误的一系列类似的查询。将查询束映射到任务,而不是每次将个别的查询映射到一个任务节省了可观的时间。
对于对应于查询记录的多个查询条目的每一个,机器学习组件使用训练数据220来建议用于潜在查询—任务映射的最佳猜测任务。由机器学习组件基于先前映射的查询的统计信息生成猜测。最初,在训练数据220中只有少量有意义的统计数据,因此最佳猜测不会如所期望的准确。然而,当映射了更多的查询,将提高猜测的准确度。如后文所更详细描述的,用户或作者总是具有选择来丢弃系统的猜测。
实际上,每次作者接受一个猜测,他或她“教”系统如何将查询映射到任务。在通过将特定的查询条目映射到任务来更新训练数据之后,机器学习组件215被配置成对每一剩余的查询条目自动地将最佳猜测任务更新为更新的训练数据220的函数。一旦注释了足够的数据,它可以用来训练机器学习算法以在自然用户接口平台的搜索组件中展开。可以以这一方式连续更新其最佳猜测的机器学习组件或分类器类型的一个示例是单纯贝叶斯分类器(Naive Bayes Classifier)。
在系统200中,包括了图形用户界面(GUI)生成组件225以在机器学习组件215和用户之间通过显示器(如监视器191)和输入设备(如设备161、162)进行接口。组件225被配置成以将每一显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示查询记录中的多个查询条目。组件225也被配置成从用户接收各种类型的输入来促进映射过程。在图3-7中示出了依照示例性实施例由组件225生成的GUI。
现在参考图3,示出了依照本发明的一部分实施例能够在监视器191上显示的GUI 300。GUI 300包括任务列表302、查询条目列表(示出为查询束列表)304、指示每一查询束中的查询数量的列306、指示查询出现的频率的列308、由机器学习组件215生成的对每一查询条目的最佳猜测310、以及指示建议最佳猜测正确的概率的列312。任务列表302是如果作者不对查询—任务映射选择最佳猜测任务则查询条目可以向其映射的任务的列表。同时,当查询条目304是查询束时,对每一查询束的建议最佳猜测任务310可以是对由查询束表示的多个查询的每一个的最佳猜测的加权平均值。
现在参考图4,GUI生成组件225还被配置成当用户想要将特定的查询条目映射到其对应的建议最佳猜测任务时,从用户接收第一类型输入。在图4所示的示例中,用户将由查询束“password(密码)”表示的所有查询映射到由机器学习组件生成的“change password(改变密码)”的最佳猜测任务。用于指示这一映射进行的第一类型输入可以是,例如,将光标340定位在这一查询条目上进行鼠标类定点设备的右键点击。行350表示这一查询条目以及关联的统计和最佳猜测任务的选择或加亮。在通过GUI 300接收第一类型输入之后,机器学习组件215通过将特定的查询条目映射到建议最佳猜测任务来更新训练数据。如上所述,然后基于更新的训练数据更新对剩余查询条目的最佳猜测任务。
现在参考图5,如果用户想要回顾统计地确定的下一最佳猜测任务的列表,而不是将查询条目映射到建议最佳猜测任务,则可以通过提供适当的输入来实现。例如,在一个实施例中,将光标340定位在建议最佳猜测“change password”任务上并点击鼠标,则显示包含下一最佳猜测的列表的下拉菜单360。用户然后可以通过在菜单360中期望的任务上点击将所述的查询条目映射到下一最佳猜测任务的任一个。
现在参考图6,如期望,用户可以察看由查询束类型的查询条目表示的个别查询,例如,在一部分实施例中,GUI生成组件225被配置成当用户想要察看包含由特定的查询束表示的查询的列表的下拉菜单370时,从用户接收第二类型输入。响应于该输入,GUI生成组件显示菜单370。第二类型输入的一个示例是将光标定位在“password”查询束上进行双击。然后如需要,可以每次将菜单370中列出的个别查询映射到一个任务。
现在参考图7,如果没有一个建议最佳猜测任务适合映射到查询条目,则用户能够通过提供适当的输入将该查询条目映射到任务列表302中的一个任务。作为示例,在一个实施例中,适当的输入包括选择一查询条目(如,如选择行380所示的“cd”),然后在列表302中的任务上点击。
现在参考图8-12,示出了本发明的方法的一部分实施例的各种步骤的流程图400、450、500、550和600。这部分流程图概括了如上文参考图1-7所描述的本发明的一部分方面。如图8的流程图400所示,辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的方法包括获取先前向搜索引擎提交的查询的查询记录。这在块402中示出。如块404所示的,该方法也包括获取可能任务的任务列表。在块406,示出该方法包括对对应于查询记录的多个查询条目的每一个,确定用于潜在查询—任务映射的最佳猜测任务。使用机器学习组件将最佳猜测任务确定为训练数据的函数。在块408,示出该方法包括以将显示的多个查询条目的每一个与其对应的建议最佳猜测任务关联的方式显示查询记录中的多个查询条目。
现在参考图9,该方法也可包括当用户想要将特定的查询条目映射到其对应的建议最佳猜测时,从用户接收第一类型输入的步骤,如块452所示,以及使用机器学习组件更新训练数据的步骤,如块454所示。
现在参考图10,在一部分实施例中,本发明的方法还包括块502所示的当用户想要察看对特定查询条目的用于潜在映射的下一最佳猜测任务的列表时,从用户接收第二类型输入的步骤。在这部分实施例中,该方法然后包括块504所示的显示对特定的查询条目,使用机器学习组件被确定为训练数据的函数的下一最佳猜测任务的列表的步骤。
在一部分实施例中,本发明的方法包括图11的流程图550所示的另外的步骤。如块552所示,在这部分实施例中,该方法还包括当用户想要察看由特定查询束表示的查询列表时,从用户接收第二类型输入。如块554所示,然后响应于接收第二类型输入,显示由查询束表示的查询的列表。
现在参考图12,示出了能够包括在一部分实施例中允许用户将特定的查询条目映射到任务列表302中的任务的另外的步骤。例如,如流程图600的块602所示,该方法还可包括当用户想要将特定的查询任务映射到显示的任务列表中不同于建议最佳猜测任务的任务时,从用户接收第二类型输入的步骤。在如块604所示的步骤,然后使用机器学习组件通过将特定的查询条目映射到显示的任务列表中的任务来更新训练数据。
图3-7中所示的GUI实施例将本发明的方法实现为“以查询为中心”的操作。换言之,在这部分实施例中,用户向多个查询的每一个分配最佳猜测任务。然而,本发明也可被实现为“以任务为中心”的操作,其中,向特定的任务分配最佳猜测查询。
例如,参考图13,示出了依照本发明的一部分实施例能够在监视器191上显示的GUI 700。GUI 700包括分层任务列表702。执行查询—任务映射的用户或作者从分层任务列表702中选择一个任务,来察看用于映射到任务的建议查询的列表704。这在图14中示出。
GUI生成组件225被配置成当用户想要将任务列表702中特定的任务映射到对应的建议最佳猜测查询的一个或多个时,从用户接收第一类型输入。例如,可以使用鼠标类定点设备在光标740上点击来提供这类型输入。行750表示这一任务的选择或加亮。响应于这一输入,系统或工具然后显示机器学习组件所建议的查询的列表704。以匹配所选的任务的似然性的顺序显示查询。这一过程允许用户从任务映射到可能的查询,与从查询映射到可能的任务相反。在其它方面,包括随时间的推移获得猜测的改进,这一过程具有与上述的“以查询为中心”的操作相同的行为。
在本发明的实施例中,多于一个用户能够使用查询—任务映射系统将查询映射到任务。例如,考虑图15所示的计算环境800。计算环境800包括中央服务器802和多个用户计算机810(示出了计算机810-1、810-2和810-3)。中央服务器计算机包括储存用于建立分类器模型806的训练数据的训练数据存储804。在所示的系统或处理环境800中,由机器学习组件用来向用户提供猜测的分类器模型806的创建由所有用户提交的映射的集合来训练。这部分映射储存在中央数据库训练数据存储804中。使用这部分映射周期性地训练分类器模型806。尽管示出训练数据存储804和分类器模型806都储存在中央服务器802上,然而在其它实施例中,分类器模型806储存在别处,然后可以向中央服务器802保持,用户可以从其下载映射会话之间的更新的模型。
下载的模型副本(示出为本地分类器模型814-1到814-3)本地地保持在每一用户的计算机上。用户然后能够使用以从所有用户收集的映射数据至少周期性地训练的模型。由于特定的用户进行映射工作,模型的本地副本814适合该个别用户的映射。这由在每一用户计算机上包括本地映射数据存储812-1到812-3示出。由此,因为本地分类器模型考虑其最近的映射,用户可以从中获益。这超出原始保持的模型806提高了猜测的准确度。此外,用户能够调节猜测被定制到最近的映射的程度。周期性地,提供了对应于本地用户机器上所执行的映射的映射数据812-1到812-3,以训练中央服务器802上的数据存储804,用于将来对分类器模型806的更新。
图16的流程图850也示出了本发明的多个用户计算机方面,描述了使用中央服务器和本地计算机执行查询—任务的大量映射的一般方法。如图16的块852所示,该方法包括从中央服务器将分类器模型的副本下载到用户计算机。在块854,示出该方法包括在用户计算机上基于使用下载的分类器模型生成的猜测,作出查询—任务映射的步骤。在块856,示出该方法包括基于本地映射创建或更新本地训练数据存储的步骤。换言之,使用本地映射来更新储存在用户的计算机上的分类器模型的本地版本。最后,如块858所示,该方法包括在中央服务器使用本地映射数据更新训练数据存储。由此,使用包括在每一个别的用户计算机上执行的映射的训练数据存储804更新储存在或下载到中央服务器上的分类器模型806。
当有稀少的查询—任务映射数据可用,可以使用其它信息源来预训练分类器模型806。例如,可以在映射过程的最初阶段频繁地使用这一预训练。然后可以使用由所有用户从本地计算机提交的映射的集合来训练该模型。可以调节这部分信息源的每一个的相关影响。这一预训练可以在任一点上应用到模型生成过程。
标准预训练技术是从与任务关联的数据提取一组特征。然后可以在特征和任务之间的关联上训练该模型。其效果与通过将查询映射到任务所产生的效果类似。在这一预训练的最简单形式中,任务名担当对其引入到任务的映射的查询的角色(尽管未明确地保持这一查询)。也可以使用从另一源的文本映射实现预训练。无需在训练数据存储中展现或保持这部分映射。
在本地计算机810-1到810-3之一上的用户会话过程中,模型的猜测也可以在它们被生成时被影响。例如,如果一个查询已映射到任务,则它不会显示为猜测。这可防止由多个用户作出重复的映射。用户也可以明确地应用过滤器来抑制所呈现的猜测。
尽管参考具体的实施例描述了本发明,然后本领域的技术人员可以认识到,可以在不脱离本发明的精神和范围的情况下在形式和细节上作出变化。

Claims (30)

1.一种用于辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的注释系统,其特征在于,所述注释系统包括:
一查询记录,它包含先前向搜索引擎提交的查询;
一任务列表,它包含多个可能的任务;
一机器学习组件,它将最佳猜测查询—任务映射建议为所述训练数据的函数;以及
一图形用户界面生成组件,它被配置成以关联所述建议的最佳猜测查询—任务映射的方式显示所述查询记录中多个查询条目的至少一部分以及所述任务列表中多个任务的至少一部分。
2.如权利要求1所述的注释系统,其特征在于,所述机器学习组件被配置成对对应于所述查询记录的多个查询条目的每一个,将用于潜在查询—任务映射的最佳猜测任务建议为所述训练数据的函数。
3.如权利要求2所述的机器学习组件,其特征在于,所述图形用户界面生成组件被配置成以将每一所显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示所述查询记录中的多个查询条目。
4.如权利要求3所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要将特定的查询条目映射到其对应的建议最佳猜测任务时,从所述用户接收第一类型输入,并且其中,在通过所述图形用户界面接收所述第一类型输入之后,所述机器学习组件通过将所述特定的查询条目映射到所述建议最佳猜测任务来更新所述训练数据。
5.如权利要求4所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要察看对潜在映射特定查询条目的下一最佳猜测任务的列表时,从所述用户接收第二类型输入。
6.如权利要求4所述的注释系统,其特征在于,对应于所述查询记录的多个查询条目的每一个是一查询束,并且其中每一查询束表示所述查询记录中被捆扎在一起的多个查询。
7.如权利要求6所述的注释系统,其特征在于,在通过所述图形用户界面接收所述第一类型输入之后,所述机器学习组件通过将由所述查询束表示的所述多个查询的每一个映射到所述建议最佳猜测任务来更新所述训练数据。
8.如权利要求6所述的注释系统,其特征在于,对每一查询束的所述建议最佳猜测是对由所述查询束表示的多个查询的每一个的最佳猜测的加权平均值。
9.如权利要求6所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要察看由特定查询束表示的查询的列表时,从所述用户接收第二类型输入,并且响应于接收所述第二类型输入,所述图形用户界面生成组件被配置成显示由所述查询束表示的查询的列表。
10.如权利要求4所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成显示所述任务列表。
11.如权利要求10所述的注释系统,其特征在于,所述图形用户生成组件还被配置成当用户想要将所述特定的查询条目映射到所述显示的任务列表中不同于所述建议最佳猜测任务的任务时,从所述用户接收第二类型输入,并且其中在通过所述图形用户界面接收所述第二类型输入之后,所述机器学习组件被配置成通过将所述特定的查询条目映射到所显示的任务列表中的所述任务来更新所述训练数据。
12.如权利要求4所述的注释系统,其特征在于,在通过将所述特定的查询条目映射到任务来更新所述训练数据之后,所述机器学习组件被配置成对所述多个查询条目的剩余部分的每一个,自动更新所述最佳猜测任务作为所述更新的训练数据的函数。
13.如权利要求12所述的注释系统,其特征在于,所述机器学习组件是单纯贝叶斯分类器。
14.如权利要求1所述的注释系统,其特征在于,所述机器学习组件被配置成对所述任务列表中所述多个可能任务的每一个,建议一个来自所述查询记录中可能用于查询—任务映射的查询的列表作为所述训练数据的函数。
15.一种辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的方法,其特征在于,所述方法包括:
获取包含先前向搜索引擎提交的查询的查询记录;
获取包含多个可能任务的任务列表;
对对应于所述查询记录的多个查询条目的每一个,确定用于潜在查询—任务映射的最佳猜测任务,其中,所述最佳猜测任务使用机器学习组件被确定为所述训练数据的函数;以及
以将所显示的多个查询条目的每一个与其对应的建议最佳猜测任务关联的方式显示所述查询记录中的所述多个查询条目。
16.如权利要求15所述的方法,其特征在于,它还包括:
当用户想要将特定的查询条目映射到其对应的建议最佳猜测任务时,从所述用户接收第一类型输入;以及
在接收所述第一类型输入之后,使用所述机器学习组件通过将所述特定的查询条目映射到所述建议最佳猜测任务来更新所述训练数据。
17.如权利要求16所述的方法,其特征在于,它还包括:
当用户想要察看针对所述特定查询条目的用于潜在映射的下一最佳猜测任务列表时,从所述用户接收第二类型输入;
显示所述下一最佳猜测任务的列表,它使用所述机器学习组件对所述特定的查询条目被确定为所述训练数据的函数。
18.如权利要求16所述的方法,其特征在于,对应于所述查询记录的所述多个查询条目的每一个是一查询束,并且其中,每一查询束表示所述查询记录中被捆扎在一起的多个查询。
19.如权利要求18所述的方法,其特征在于,在接收所述第一类型输入之后,所述方法还包括:
使用所述机器学习组件,通过将由所述查询束表示的所述多个查询的每一个映射到所述建议最佳猜测任务来更新所述训练数据。
20.如权利要求18所述的方法,其特征在于,它还包括:
当用户想要察看由特定的查询束表示的查询的列表时,从所述用户接收第二类型输入;以及
响应于接收所述第二类型输入,显示由所述查询束表示的查询列表。
21.如权利要求16所述的方法,其特征在于,它还包括显示所述任务列表。
22.如权利要求21所述的方法,其特征在于,它还包括:
当用户想要将所述特定的查询条目映射到所显示的任务列表中不同于所述建议最佳猜测任务的任务时,从所述用户接收第二类型输入;以及
在接收所述第二类型输入之后,使用所述机器学习组件,通过将所述特定查询条目映射到所显示的任务列表中的所述任务来更新所述训练数据。
23.如权利要求16所述的方法,其特征在于,在通过将所述特定的查询条目映射到任务来更新所述训练数据之后,它还包括使用所述机器学习组件,对所述多个查询条目的剩余部分的每一个,自动将所述最佳猜测任务更新为所述更新的训练数据的函数。
24.如权利要求23所述的方法,其特征在于,所述机器学习组件是单纯贝叶斯分类器。
25.如权利要求15所述的方法,其特征在于,对对应于所述查询记录的所述多个查询的每一个确定最佳猜测任务还包括,使用所述机器学习组件,对所述任务列表中的每一任务,将所述查询记录中对查询—任务映射可能的查询列表确定为所述训练数据的函数。
26.一种包含用于实现权利要求15的步骤的计算机可执行指令的计算机可读媒质。
27.一种执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的方法,其特征在于,所述方法包括:
从服务器将分类器模型的副本下载到本地计算机;
基于使用所述下载的分类器模型生成的猜测,在所述本地计算机上执行查询—任务映射;
基于所述本地计算机上执行的查询—任务映射,更新本地训练数据存储;以及
使用所述本地训练数据存储更新用于创建所述分类器模型的服务器训练数据存储。
28.如权利要求27所述的方法,其特征在于,它还包括在所述服务器上使用所述更新的服务器训练数据存储来更新所述分类器模型。
29.如权利要求27所述的方法,其特征在于,它还包括对多个本地计算机的每一个重复所述方法的步骤,以使用来自所述多个计算机的每一个的本地训练数据存储来更新所述服务器训练数据存储。
30.一种包含用于实现权利要求27的步骤的计算机可执行指令的计算机可读媒质。
CN200410056761A 2003-10-10 2004-08-16 计算机辅助的查询与任务之间的映射 Expired - Fee Related CN100589095C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/683,807 US7231375B2 (en) 2003-10-10 2003-10-10 Computer aided query to task mapping
US10/683,807 2003-10-10

Publications (2)

Publication Number Publication Date
CN1606000A true CN1606000A (zh) 2005-04-13
CN100589095C CN100589095C (zh) 2010-02-10

Family

ID=34314164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200410056761A Expired - Fee Related CN100589095C (zh) 2003-10-10 2004-08-16 计算机辅助的查询与任务之间的映射

Country Status (7)

Country Link
US (1) US7231375B2 (zh)
EP (1) EP1522933B1 (zh)
JP (1) JP4634105B2 (zh)
KR (1) KR101027848B1 (zh)
CN (1) CN100589095C (zh)
AT (1) ATE430965T1 (zh)
DE (1) DE602004020955D1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102124444A (zh) * 2008-05-20 2011-07-13 本特利系统公司 采用生成组件的可复制程序流的系统、方法和计算机程序产品
CN107016400A (zh) * 2015-12-31 2017-08-04 达索系统公司 训练集的评估
CN108366788A (zh) * 2015-11-30 2018-08-03 任旭彬 利用dnn学习的细胞异常与否诊断系统及诊断管理方法
CN110050281A (zh) * 2016-12-08 2019-07-23 皇家飞利浦有限公司 学习图像中的对象的注释

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1666074B1 (de) 2004-11-26 2008-05-28 BÄ*RO GmbH & Co. KG Entkeimungsleuchte
US20060236254A1 (en) * 2005-04-18 2006-10-19 Daniel Mateescu System and method for automated building of component based applications for visualizing complex data structures
EP1715414A1 (en) * 2005-04-18 2006-10-25 Research In Motion Limited System and method for automated building of component based applications for visualising complex data structures
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7328199B2 (en) * 2005-10-07 2008-02-05 Microsoft Corporation Componentized slot-filling architecture
US7822699B2 (en) * 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US20070106496A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Adaptive task framework
US7933914B2 (en) * 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US20070203869A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Adaptive semantic platform architecture
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
US7620634B2 (en) * 2006-07-31 2009-11-17 Microsoft Corporation Ranking functions using an incrementally-updatable, modified naïve bayesian query classifier
US8316309B2 (en) * 2007-05-31 2012-11-20 International Business Machines Corporation User-created metadata for managing interface resources on a user interface
US20090182732A1 (en) * 2008-01-11 2009-07-16 Jianwei Dian Query based operation realization interface
US7984004B2 (en) * 2008-01-17 2011-07-19 Microsoft Corporation Query suggestion generation
CN101533296A (zh) * 2008-03-12 2009-09-16 深圳富泰宏精密工业有限公司 手持行动电子装置触摸控制系统及方法
WO2009127639A1 (en) * 2008-04-16 2009-10-22 International Business Machines Corporation Query processing visualization system and method of visualizing query processing
US20090313286A1 (en) * 2008-06-17 2009-12-17 Microsoft Corporation Generating training data from click logs
US8001101B2 (en) * 2008-06-23 2011-08-16 Microsoft Corporation Presenting instant answers to internet queries
US8255391B2 (en) * 2008-09-02 2012-08-28 Conductor, Inc. System and method for generating an approximation of a search engine ranking algorithm
US8799279B2 (en) 2008-12-31 2014-08-05 At&T Intellectual Property I, L.P. Method and apparatus for using a discriminative classifier for processing a query
US8373741B2 (en) * 2009-11-20 2013-02-12 At&T Intellectual Property I, Lp Apparatus and method for collaborative network in an enterprise setting
US8768861B2 (en) * 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification
US8707198B2 (en) * 2010-06-04 2014-04-22 Microsoft Corporation Related tasks and tasklets for search
US8639679B1 (en) * 2011-05-05 2014-01-28 Google Inc. Generating query suggestions
US8612496B2 (en) * 2012-04-03 2013-12-17 Python4Fun, Inc. Identification of files of a collaborative file storage system having relevance to a first file
WO2014045291A1 (en) * 2012-09-18 2014-03-27 Hewlett-Packard Development Company, L.P. Mining questions related to an electronic text document
US10585927B1 (en) 2013-06-26 2020-03-10 Google Llc Determining a set of steps responsive to a how-to query
CN105378699B (zh) * 2013-11-27 2018-12-18 Ntt都科摩公司 基于机器学习的自动任务分类
US9990610B2 (en) 2014-08-29 2018-06-05 Google Llc Systems and methods for providing suggested reminders
US10042336B2 (en) * 2014-09-09 2018-08-07 Savant Systems, Llc User-defined scenes for home automation
US9977815B2 (en) * 2014-12-22 2018-05-22 Sap Se Generating secured recommendations for business intelligence enterprise systems
RU2606309C2 (ru) * 2015-06-09 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Способ создания аннотированного поискового индекса и сервер, используемый в нем
CN108701265A (zh) * 2016-03-14 2018-10-23 欧姆龙株式会社 学习服务提供装置
US10789546B2 (en) 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
US10789538B2 (en) 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
US10825227B2 (en) * 2018-04-03 2020-11-03 Sri International Artificial intelligence for generating structured descriptions of scenes
US11574728B2 (en) * 2018-06-22 2023-02-07 Koninklijke Philips N.V. Method for enabling magnetic resonance imaging of a subject
US20220318283A1 (en) * 2021-03-31 2022-10-06 Rovi Guides, Inc. Query correction based on reattempts learning

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269368B1 (en) 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
KR19990047854A (ko) * 1997-12-05 1999-07-05 정선종 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법
JP3495912B2 (ja) 1998-05-25 2004-02-09 シャープ株式会社 学習機能付き検索装置
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6269386B1 (en) * 1998-10-14 2001-07-31 Intel Corporation 3X adder
US6751606B1 (en) * 1998-12-23 2004-06-15 Microsoft Corporation System for enhancing a query interface
US6285998B1 (en) * 1999-02-23 2001-09-04 Microsoft Corporation System and method for generating reusable database queries
US6868525B1 (en) * 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
EP1156430A2 (en) * 2000-05-17 2001-11-21 Matsushita Electric Industrial Co., Ltd. Information retrieval system
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
US6701311B2 (en) * 2001-02-07 2004-03-02 International Business Machines Corporation Customer self service system for resource search and selection
US6728702B1 (en) * 2001-06-18 2004-04-27 Siebel Systems, Inc. System and method to implement an integrated search center supporting a full-text search and query on a database
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
AU2003212463A1 (en) * 2002-03-01 2003-09-16 Paul Jeffrey Krupin A method and system for creating improved search queries

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102124444A (zh) * 2008-05-20 2011-07-13 本特利系统公司 采用生成组件的可复制程序流的系统、方法和计算机程序产品
CN108366788A (zh) * 2015-11-30 2018-08-03 任旭彬 利用dnn学习的细胞异常与否诊断系统及诊断管理方法
CN107016400A (zh) * 2015-12-31 2017-08-04 达索系统公司 训练集的评估
CN107016400B (zh) * 2015-12-31 2023-01-24 达索系统公司 训练集的评估
CN110050281A (zh) * 2016-12-08 2019-07-23 皇家飞利浦有限公司 学习图像中的对象的注释
CN110050281B (zh) * 2016-12-08 2023-06-20 皇家飞利浦有限公司 学习图像中的对象的注释

Also Published As

Publication number Publication date
US20050080782A1 (en) 2005-04-14
KR20050035066A (ko) 2005-04-15
JP2005115931A (ja) 2005-04-28
JP4634105B2 (ja) 2011-02-16
EP1522933A3 (en) 2006-05-03
CN100589095C (zh) 2010-02-10
ATE430965T1 (de) 2009-05-15
EP1522933A2 (en) 2005-04-13
KR101027848B1 (ko) 2011-04-07
EP1522933B1 (en) 2009-05-06
DE602004020955D1 (de) 2009-06-18
US7231375B2 (en) 2007-06-12

Similar Documents

Publication Publication Date Title
CN100589095C (zh) 计算机辅助的查询与任务之间的映射
US8073867B2 (en) Analyzing a query log for use in managing category-specific electronic content
US8689113B2 (en) Methods and apparatus for presenting content
CN1745364B (zh) 用于扩展应用程序首选项类的系统和方法
US20170004831A1 (en) Corrective feedback loop for automated speech recognition
US8326829B2 (en) System and method for displaying publication dates for search results
US10671182B2 (en) Text prediction integration
CN1263231C (zh) 便携式信息终端和信息发送方法
CN1790326A (zh) 语义画布
CN1783072A (zh) 便于使用的数据上下文过滤
CN1680935A (zh) 通过用户建模的有效大写化
CN101305362A (zh) 语音索引删减
CN1752978A (zh) 用于控制由搜索引擎返回的页面的分级的系统和方法
CN1445697A (zh) 参考相关应用的信息搜索系统
CN1758252A (zh) 自动视图选择
CN1806241A (zh) 数据库查询用户界面
CN1295705A (zh) 基于语言模型的信息检索和语音识别
CN1661612A (zh) 用于管理基于评定的讨论线程的系统和方法
CN1734448A (zh) 对用户指定电子表格函数的支持
CN1239253A (zh) 根据历史使用情况调整用户界面元素的方法
WO2009145988A1 (en) Techniques for input recognition and completion
CN1838148A (zh) 电子设备和记录介质
CN1829987A (zh) 用于标签系统的词语数据库扩展
CN1673997A (zh) 以apra标准格式表示经删除插值n字母语言模型
CN1832412A (zh) 用于提供结合在线参考信息的即时消息通信能力的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100210

Termination date: 20130816