CN103425727B - 上下文语音查询扩大方法和系统 - Google Patents

上下文语音查询扩大方法和系统 Download PDF

Info

Publication number
CN103425727B
CN103425727B CN201310174325.7A CN201310174325A CN103425727B CN 103425727 B CN103425727 B CN 103425727B CN 201310174325 A CN201310174325 A CN 201310174325A CN 103425727 B CN103425727 B CN 103425727B
Authority
CN
China
Prior art keywords
expansion
inquiry
word
module
query set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310174325.7A
Other languages
English (en)
Other versions
CN103425727A (zh
Inventor
N·拉伊布
K·什里瓦斯塔瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maple Bear Co ltd
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103425727A publication Critical patent/CN103425727A/zh
Application granted granted Critical
Publication of CN103425727B publication Critical patent/CN103425727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种在语音Web搜索中扩大上下文语音查询的方法、装置和制造品。所述方法包括判定创建语音查询的上下文;根据所述上下文以及语音识别组件得出的与所述语音查询相关的信息产生由多个查询词构成的集;以及使用至少一个扩大算子处理所述查询词集以产生扩大的查询集合。提供一种针对语音查询执行搜索的方法,其中包括根据处理语音查询的语音识别组件得出的信息产生由多个查询词构成的集;使用多个扩大算子处理所述查询词集以产生多个扩大的查询词子集;从每个扩大的子集选择至少一个查询词以构成查询集合;以及针对所述查询集合执行搜索。

Description

上下文语音查询扩大方法和系统
技术领域
本发明的实施例一般地涉及信息技术。更具体地说,本发明涉及语音Web搜索。
背景技术
语音Web搜索涉及将语音查询作为输入并判定作为对查询的适合或相关响应的内容。但是在使用现有方法时,由于例如语音识别系统质量和/或精确性等方面的因素,将语音查询转换为文本可能会引发歧义。如果查询转换不准确,搜索结果会变得不正确。此外,许多现有语音识别系统的语音查询精确性很低,尤其是对于无法实施语法句法的开放式查询和孤立词。
因此,需要改进的语音Web搜索技术。
发明内容
在本发明的一方面,提供了用于上下文语音查询扩大的技术。一种用于在语音Web搜索中的上下文语音查询扩大的示例性计算机实现的方法包括以下步骤:判定创建语音查询的上下文,根据所述上下文以及语音识别组件得出的与所述语音查询相关的信息产生多个查询词的集合,以及使用至少一个扩大算子(operator)处理所述查询词集合以产生扩大的查询集合。
在本发明的另一方面,还提供了针对语音查询执行搜索的技术,包括以下步骤:根据处理语音查询的语音识别组件得出的信息产生多个查询词的集合;使用多个扩大算子处理所述查询词的集合以产生多个扩大的查询词子集;从每个扩大的子集选择至少一个查询词以构成查询集合;以及针对所述查询集合执行搜索。
本发明的另一方面或其元素可以通过有形地包含计算机可读指令的制造品的形式实现,所述计算机可读指令当被实现时,可使计算机执行这里所述的多个方法步骤。此外,本发明的另一方面或其元素可以通过装置的形式实现,所述装置包括存储器和至少一个与所述存储器相连并可操作以执行所述方法步骤的处理器。
更进一步地,本发明的另一方面或其元素可以通过执行此处描述的方法步骤或其元素的装置的形式实现;所述装置可以包括:(i)硬件模块,(ii)软件模块,或(iii)硬件和软件模块的组合;(i)-(iii)中的任一项实现此处描述的具体技术,并且所述软件模块存储在有形计算机可读存储介质(或多个此类介质)中。
通过结合附图阅读下面对本发明的示例性实施例的详细描述,本发明的这些和其它目标、特征和优点将变得显而易见。
附图说明
图1是示出根据本发明的实施例的系统体系结构的图;
图2是示出根据本发明的实施例的扩大机制的图;
图3是示出根据本发明的实施例用于在语音Web搜索中的上下文语音查询扩大的技术的流程图;
图4是上面可实现本发明的至少一个实施例的示例性计算机系统的系统图。
具体实施方式
如此处描述的那样,本发明的一方面包括上下文语音查询扩大以改进语音Web搜索。本发明的至少一个实施例包括判定创建语音查询的上下文以及使用该上下文和对语音识别组件的了解产生多个语音查询。具有大量查询将便利获取更多搜索结果并增加产生用户感兴趣结果的可能性。
如此处所述,本发明的至少一个实施例包括通过指定产生查询的多个可能变形且因此根据查询词或短语创建查询向量估计的机制来消除搜索对一个查询词识别的依赖。因此,在给定查询q的情况下,此处详细描述的技术可以包括产生对查询向量{q’1,q’2,...,q’L}的估计。
本发明的至少一个实施例包括通过语音识别器产生相似(此处称为n最佳)结果列表,由于语音识别器提供一种概率性输出,因此其可被配置为提供一个以上可能结果。n最佳列表指语音识别器可针对给定语音输入提供的n个可能文本结果。在本发明的至少一个实施例中,这样的列表可以用每个可能结果是正确响应的概率分数进行排列。此外,这样的列表可以通过扩大算子进行过滤,下面将进一步描述。如果输出结果较少(例如,如果结果为三个或更少),则本发明的至少一个实施例包括判定扩大算子词与n最佳列表匹配之间的编辑距离(edit-distance)。
此外,结果列表或子集可从每个扩大过滤器的输出进行选择并用于组成查询集合。例如,每个扩大算子可以产生可能的查询词,并且可以根据阈值选择每个此类扩大算子的前k个输出以跨所有扩大算子组成查询集合。可以针对此查询集合执行搜索,且在本发明的至少一个实施例中,可对结果进行排列以便在扩大输出的更多元素中出现的结果排序更高。
因此,本发明的至少一个实施例消除了整个搜索结果集合对语音识别的依赖。此外,此处详细描述的技术可以改进对特定查询的召回率(recall),并且由于特定于用户,搜索结果还可以为用户提供可能与他或她相关的内容,即使此内容不是该用户专门搜索的内容。
如上所述,本发明的至少一个实施例包括使用扩大算子。在本发明的一个示例性实施例中,扩大算子包括根据有关谁、什么、何时和何地的问题扩展查询的算子。例如,一个这样的扩大算子可以包括以下考虑:例如谁是与查询用户具有相似性的其他用户,是否通过人口统计信息、通过对日志的协作过滤等提取用户,以及该组用户通常搜索的搜索词的加权列表。
另一个此类扩大算子可以包括以下考虑:例如识别用户执行的先前搜索,以及使用本体(ontology)对域(domain)进行外推以产生搜索词列表。此外,另一扩大算子可以包括以下考虑:例如用户产生查询的月、周和/或日,以及产生其他用户在这些日期中产生的查询词的列表。进一步地,又一扩大算子可以包括以下考虑:例如在哪里产生查询,从查询创建者的人口统计资料中获取此类信息,以及获取由目标区域中的用户产生的查询词的列表。
图1示出根据本发明的实施例的系统体系结构的图。作为示例,图1示出查询词102,该查询词可包括用户提供给语音识别模块104的语音查询词。例如,任何标准的语音识别系统都可以在模块104中使用。此类语音识别系统的示例包括统计语音识别器,该识别器接收语音输出并根据语音与声学模型中的音素的接近度产生声学模型分数。此类系统还通过判定此类语言结构在语音识别器的语言中使用的可能性产生语言模型分数。统计语音识别器还针对可能的输出值从其声学模型与语言模型分数产生组合分数。进一步地,统计语音识别器可以使用与语言相关的统计信息训练声学和语言模型。
因此,如图1所示,语音识别模型104根据查询词102产生n最佳查询词,并将它们提供给扩大运算模块106。如上所述,扩大运算模块106可以包括诸如“谁”扩大算子108、“什么”扩大算子110、“何时”扩大算子112和“何地”扩大算子114之类的扩大算子。
扩大运算模块106,通过由扩大算子执行的处理,产生查询集合并将该查询集合转发到索引数据库116。索引数据库116将来自查询集合中的每个词的结果进行分隔。例如,扩大算子108的输出可以是可能查询的集合。该集中的每个查询将被传递给索引以从数据库搜索相关文档。因此,将针对来自扩大算子108的查询产生结果集。类似的结果将从其它扩大算子查询产生。这些通过不同扩大算子的查询以及索引产生的独立搜索结果被发送到排列模块118,该模块对查询集合输入进行排列并产生组合的排列列表输出。
在本发明的至少一个实施例中,组合的排列列表输出根据下面的参数产生:指定给扩大算子的权重(gamma参数,下面将进一步详细地描述),每个扩大算子的权重(w1,w2,…wn),以及索引数据库结果输出的分数(w1 n,w2 n,…wn n)。使用这些参数确保系统可通过参数gamma进行配置,如果该参数值高,则表示系统没有给扩大技术很大权重,而是更多地依赖查询本身。在语音转文本质量非常高的情况下,应该使用高的gamma值。但是,如果语音识别器输出不可靠,则应该使用低的gamma值。扩大参数的不同权重(w1至wn,假设存在n个扩大参数)显示出根据应用上下文针对不同的参数确定什么样的值。第n个查询的权重的权重(假设对于特定查询,存在来自索引数据库的k个结果)可以进行标准排列。
如上所述,本发明的至少一个实施例包括结合排列使用gamma参数,如以下详细地描述的:
查询排列结果(γ12,...γn)
扩大的查询
最终的排列结果可以通过α、w1–wn的组合被交付。
图2是示出根据本发明的实施例的扩大机制的图。作为示例,图2示出用户组件202,该组件提供输入以在步骤204产生扩大参数。此外,将查询(例如,用户提供的语音查询词)206与根据扩大参数产生的词和/或短语列表一起提供给过滤模块208。
步骤210包括判定过滤是否产生小于阈值K的结果。该阈值是可配置参数,其控制需要从原始查询创建的查询数。K值较大可提高精确性,但降低召回率,这意味着搜索结果可能包括不正确的文档,但是可检索更多的文档。K值较小将导致更少的文档,但是多数文档将是相关的。如果结果不小于阈值K,则输出部分查询集合。如果结果小于阈值K,则步骤212包括判定K个最接近匹配,并接着输出部分查询集合。
步骤212用于例如语音识别器不能为初始查询提供正确结果的情况。例如,原始查询中的词“Manchester”可能被解码为“Fan wrest her”。在这种情况下,短语“Fan wresther”对扩大步骤204中的词的K个最接近匹配将在步骤212被提供作为输出。可使用字符串编辑距离度量来查找匹配。
图3是示出根据本发明的实施例用于语音Web搜索中的上下文语音查询扩大的技术的流程图。步骤302包括判定语音查询在其中被创建的上下文。该判定步骤可以包括例如分析用户人口统计资料、社交网络信息和先前用户偏好等。此类分析还可以包括判定与语音查询相关的可能查询列表。此外,该判定步骤可以基于查询创建者、创建者创建的其他查询的历史,查询创建时间和/或查询创建地点。
步骤304包括根据上下文以及语音识别组件得出的与语音查询相关的信息产生多个查询词的集合。该产生步骤可以包括根据搜索词本体和/或包含相关搜索词的现有词数据库产生查询。
步骤306包括使用至少一个扩大算子处理查询词的集合以产生扩大的查询集合。处理例如可以包括分析有关其他用户在所判定的时间段期间做出的类似查询的信息,分析与查询用户相似的其他用户,和/或判定相关用户组通常搜索的搜索词的加权列表。此外,处理可以包括识别用户执行的先前搜索,以及判定产生至少一个相关查询的地理位置。
另外,在本发明的至少一个实施例中,查询扩大量可针对不同的搜索事例和/或针对不同的语音识别器质量是可配置的。
此外,如此处描述的那样,本发明的至少一个实施例包括针对语音查询执行搜索的技术。此类技术包括根据处理语音查询的语音识别组件得出的信息产生多个查询词的集合,使用多个扩大算子处理查询词的集合以产生多个扩大的查询词子集;从每个扩大的子集选择至少一个查询词以构成查询集合,以及针对该查询集合执行搜索。搜索结果可进行被排列以便在所述扩大子集的更多元素中出现的结果排序更高。此外,选择步骤可以包括每个扩大算子产生可能的查询词并根据预定阈值选择每个扩大算子的前k个输出。
图3所示的技术还可以包括例如根据至少一个扩大算子中的查询出现来排列扩大的查询集合。
如此处描述的那样,图3所示的技术还可以提供一种系统,其中该系统包括不同软件模块,每个不同软件模块包含在有形计算机可读可记录存储介质中。例如,所有模块(或其任何子集)可以位于同一介质中,或者每个模块可以位于不同的介质中。所述模块可以包括附图所示和/或此处描述的部分或全部组件。在本发明的一方面,所述模块例如可以在硬件处理器上运行。然后可使用上述在硬件处理器上执行的系统的不同软件模块执行方法步骤。进一步地,计算机程序产品可以包括具有代码的有形计算机可读可记录存储介质,所述代码适合于被执行以执行此处描述的至少一个方法步骤,包括为系统提供不同软件模块。
本发明的示例性实施例包括用于在语音Web搜索中的上下文语音查询扩大的系统,所述系统包括存储器、至少一个与所述存储器相连的处理器、以及不同软件模块,每个不同软件模块包含在有形计算机可读介质中,包括以下项:语音识别模块,其在处理器上执行,用于根据语音查询产生多个查询词的集合;扩大运算模块,其在处理器上执行,用于处理查询词的集合以产生扩大的查询集合;以及排列模块,其在处理器上执行,用于排列所述扩大的查询集合以及输出经过排列的查询集合。
此外,结合图3描述的技术可以通过计算机程序产品实现,该计算机程序产品包括存储在数据处理系统的计算机可读存储介质中的计算机可用程序代码,且其中所述计算机可用程序代码是通过网络从远程数据处理系统下载的。另外,在本发明的一方面,计算机程序产品可以包括存储在服务器数据处理系统的计算机可读存储介质中的计算机可用程序代码,且其中所述计算机可用程序代码通过网络下载到远程数据处理系统以便在远程系统的计算机可读存储介质中使用。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
本发明的一方面或其元素可以装置的形式实现,所述装置包括存储器和至少一个与所述存储器相连并可通过运行执行示例性方法步骤的处理器。
此外,本发明的一方面可使用在通用计算机或工作站上运行的软件。现在参考图4,此类实现例如可以使用处理器402、存储器404以及例如由显示器406和键盘408形成的输入/输出接口。如在此使用的那样,术语“处理器”旨在包括任何处理设备,例如,包括CPU(中央处理单元)和/或其它形式处理电路的处理设备。进一步地,术语“处理器”可以指一个以上的单个处理器。术语“存储器”旨在包括与处理器或CPU关联的存储器,例如RAM(随机存取存储器)、ROM(只读存储器)、固定存储器件(例如,硬盘)、可移动存储器件(例如,软盘)、闪存等。
此外,如在此使用的那样,术语“输入/输出接口”例如旨在包括用于将数据输入处理单元的机制(例如,鼠标),以及用于提供与处理单元关联的结果的机制(例如,打印机)。处理器402、存储器404以及诸如显示器406和键盘408之类的输入/输出接口例如可以通过作为数据处理单元412一部分的总线410互连。例如通过总线410的适当互连还可以提供给网络接口414,例如用于与计算机网络接口的网卡,以及提供给媒体接口416,例如用于与媒体418接口的软盘或CD-ROM驱动器。
因此,包括用于执行此处描述的本发明方法的指令或代码的计算机软件可存储在关联的存储器件(例如,ROM、固定存储器或可移动存储器)中,且当准备使用时,由CPU部分或全部加载(例如,加载到RAM中)并执行。此类软件可以包括——但不限于——固件、驻留软件、微代码等。
适合于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线410直接或间接连接到存储器元件404的处理器402。所述存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置检索代码的次数的高速缓冲存储器。
输入/输出或I/O设备(包括——但不限于——键盘408、显示器406、指点设备等)可以直接(例如,通过总线410)或通过中间I/O控制器(为清晰起见,已省略)与系统相连。
诸如网络接口414之类的网络适配器也可以被连接到系统以使所述数据处理系统能够通过中间专用或公共网络变得与其它数据处理系统或远程打印机或存储设备相连。调制解调器、电缆调制解调器和以太网卡只是当前可用的网络适配器类型中的少数几种。
如此处(包括权利要求)使用的那样,“服务器”包括运行服务器程序的物理数据处理系统(例如,图4所示的系统412)。将理解,此类物理服务器可以包括也可以不包括显示器和键盘。
应当注意,本发明的各方面可以采取计算机程序产品的形式,该计算机程序产品体现在上面包含计算机可读程序代码的计算机可读介质中。另外,可以采用计算机可读介质的任意组合。所述计算机可读的介质可以是计算机可读的信号介质或计算机可读存储介质。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以至少一种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、组件、程序段或代码的一部分,所述模块、组件、程序段或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。
也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,此处描述的任何方法可以包括提供一种系统的额外步骤,该系统包括包含在计算机可读存储介质中的不同软件模块;这些模块例如可以包括此处描述的部分或全部组件。然后可以使用如上所述在硬件处理器402上执行的系统的上述不同软件模块和/或子模块执行方法步骤。进一步地,计算机程序产品可以包括具有代码的计算机可读存储介质,该代码适合于被实现以执行此处描述的至少一个方法步骤,包括为系统提供不同软件模块。
在任何情况下都应该理解,此处所示的组件可通过各种形式的硬件、软件或它们的组合来实现;例如,专用集成电路(ASIC)、功能电路、具有关联存储器的适当编程的通用数字计算机等。给出此处描述的本发明教导之后,所属领域的普通技术人员将能够构想本发明组件的其它实现。
此处使用的术语只是为了描述具体实施例,并非旨在限制本发明。如在此使用的那样,单数形式“一”、“一个”和“所述”旨在同样包括复数形式,除非上下文明确地另有所指。还将理解,当在此说明书中使用时,根术语“包括”和/或“包含”指定存在声明的特征、整数、步骤、操作、元素和/或组件,但是并不排除存在或增加其它特征、整数、步骤、操作、元素、组件和/或它们构成的组。
以下的权利要求中的所有装置或步骤加功能性限定的对应结构、材料、操作以及等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。
本发明的至少一方面可以提供有利的效果,例如消除对整个搜索结果集合的语音识别的依赖。
所给出的对本发明的各种实施例的描述的目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所公开的实施例。在不偏离所描述的实施例的范围和精神的情况下,对于本领域的技术人员而言,许多修改和变化都将是显而易见的。在此使用的术语的选择。是为了最佳地解释各实施例的原理、实际应用或对市场中存在的技术的技术改进,或者使本领域的其他技术人员能够理解在此公开的各实施例。

Claims (23)

1.一种在语音Web搜索中扩大上下文语音查询的方法,所述方法包括以下步骤:
判定语音查询在其中被创建的上下文;
根据所述上下文以及语音识别组件得出的与所述语音查询相关的信息产生由多个查询词构成的集;
使用多个扩大算子处理所述查询词集以产生扩大的查询集合,扩大的查询集合中的每个查询对应于所述多个扩大算子中的一个扩大算子;以及
使用扩大的查询集合从数据库中搜索与扩大的查询集合中的每个查询对应的文档,
其中至少一个所述步骤由计算机设备执行。
2.根据权利要求1的方法,包括排列所述扩大的查询集合。
3.根据权利要求2的方法,其中所述排列包括根据所述多个扩大算子中的查询出现顺序执行排列。
4.根据权利要求1的方法,其中所述判定包括分析用户人口统计资料、社交网络信息和先前用户偏好中的至少一项。
5.根据权利要求4的方法,其中所述分析包括判定与所述语音查询相关的可能查询列表。
6.根据权利要求1的方法,其中所述产生包括根据搜索词本体和包含相关搜索词的现有词数据库中的至少一项产生查询。
7.根据权利要求1的方法,其中所述查询包括分析有关其他用户在所判定的时间段期间做出的类似查询的信息。
8.根据权利要求1的方法,其中所述处理包括分析与所述查询用户具有相似度的其他用户。
9.根据权利要求1的方法,其中所述处理包括判定相关用户组通常搜索的搜索词的加权列表。
10.根据权利要求1的方法,其中所述处理包括识别用户执行的先前搜索。
11.根据权利要求1的方法,其中所述处理包括判定产生至少一个相关查询的地理位置。
12.根据权利要求1的方法,其中可针对不同的搜索示例和/或针对不同的语音识别器质量配置任意数量的查询扩大。
13.根据权利要求1的方法,其中所述判定基于所述查询的创建者、所述创建者创建的其它查询的历史记录,所述查询的创建时间和/或所述查询的创建地点。
14.一种在语音Web搜索中扩大上下文语音查询的装置,所述装置包括:
适合于判定语音查询在其中被创建的上下文的模块;
适合于根据所述上下文以及语音识别组件得出的与所述语音查询相关的信息产生由多个查询词构成的集的模块;以及
适合于使用多个扩大算子处理所述查询词集以产生扩大的查询集合的模块,扩大的查询集合中的每个查询对应于所述多个扩大算子中的一个扩大算子;
适合于使用扩大的查询集合从数据库中搜索与扩大的查询集合中的每个查询对应的文档的模块。
15.根据权利要求14的装置,其中所述装置包括适合于排列所述扩大的查询集合的模块。
16.根据权利要求15的装置,其中所述适合于排列所述扩大的查询集合的模块适合于根据所述多个扩大算子中的查询出现顺序执行排列。
17.根据权利要求14的装置,其中所述适合于判定创建语音查询的上下文的模块包括适合于分析用户人口统计资料、社交网络信息和先前用户偏好中的至少一项的模块。
18.根据权利要求14的装置,其中所述适合于处理所述查询词集的模块包括适合于判定相关用户组通常搜索的搜索词的加权列表的模块。
19.根据权利要求14的装置,其中所述适合于处理所述查询词集的模块包括适合于识别用户执行的先前搜索的模块。
20.一种在语音Web搜索中扩大上下文语音查询的系统,包括:
存储器;
至少一个与所述存储器相连的处理器;以及
至少一个独立软件模块,每个独立软件模块包含在有形计算机可读介质中,所述至少一个独立软件模块包括:
语音识别模块,其在所述处理器上执行,用于根据语音查询产生由多个查询词构成的集;
扩大运算模块,其在所述处理器上执行,用于使用多个扩大算子处理所述查询词集以产生扩大的查询集合,扩大的查询集合中的每个查询对应于所述多个扩大算子中的一个扩大算子;
使用扩大的查询集合从数据库中搜索与扩大的查询集合中的每个查询对应的文档的模块;以及
排列模块,其在所述处理器上执行,用于排列所述扩大的查询集合以及输出经过排列的查询集合。
21.一种针对语音查询执行搜索的方法,所述方法包括以下步骤:
根据处理语音查询的语音识别组件得出的信息产生由多个查询词构成的集;
使用多个扩大算子处理所述查询词集以产生多个扩大的查询词子集,扩大的查询集合中的每个查询对应于所述多个扩大算子中的一个扩大算子;
从每个扩大的子集选择至少一个查询词以构成查询集合;以及
针对所述查询集合执行搜索,
其中至少一个所述步骤由计算机设备执行。
22.根据权利要求21的方法,包括排列所述搜索结果以便在所述扩大子集的更多元素中出现的结果排序更高。
23.根据权利要求21的方法,其中所述选择包括每个扩大算子产生可能的查询词并且根据预定阈值选择每个扩大算子的前k个输出。
CN201310174325.7A 2012-05-14 2013-05-13 上下文语音查询扩大方法和系统 Active CN103425727B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/470,548 US8719025B2 (en) 2012-05-14 2012-05-14 Contextual voice query dilation to improve spoken web searching
US13/470,548 2012-05-14

Publications (2)

Publication Number Publication Date
CN103425727A CN103425727A (zh) 2013-12-04
CN103425727B true CN103425727B (zh) 2017-12-12

Family

ID=49549337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310174325.7A Active CN103425727B (zh) 2012-05-14 2013-05-13 上下文语音查询扩大方法和系统

Country Status (2)

Country Link
US (2) US8719025B2 (zh)
CN (1) CN103425727B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
CN106205608A (zh) * 2015-05-29 2016-12-07 微软技术许可有限责任公司 利用知识图的用于语音识别的语言建模
CN106294637A (zh) * 2016-08-03 2017-01-04 王晓光 实现语音搜索的方法及系统
WO2018023482A1 (zh) * 2016-08-03 2018-02-08 王晓光 实现语音搜索的方法及系统
CN106294692A (zh) * 2016-08-06 2017-01-04 马岩 实现语音搜索的方法及系统
CN107704463A (zh) * 2016-08-08 2018-02-16 上海颐为网络科技有限公司 一种基于信息点结构的上溯方法和系统
US10474703B2 (en) 2016-08-25 2019-11-12 Lakeside Software, Inc. Method and apparatus for natural language query in a workspace analytics system
WO2019070244A1 (en) 2017-10-03 2019-04-11 Google Llc DATA STRUCTURE INTERROGATIONS TO MANAGE LOADING TIME IN MULTIMEDIA CONTENT
US11461376B2 (en) * 2019-07-10 2022-10-04 International Business Machines Corporation Knowledge-based information retrieval system evaluation
CN111177551B (zh) 2019-12-27 2021-04-16 百度在线网络技术(北京)有限公司 确定搜索结果的方法、装置、设备和计算机存储介质
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6973429B2 (en) * 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
US7617196B2 (en) * 2003-10-22 2009-11-10 International Business Machines Corporation Context-sensitive term expansion with multiple levels of expansion
US7685118B2 (en) * 2004-08-12 2010-03-23 Iwint International Holdings Inc. Method using ontology and user query processing to solve inventor problems and user problems
US7672931B2 (en) 2005-06-30 2010-03-02 Microsoft Corporation Searching for content using voice search queries
US7685119B2 (en) * 2006-12-20 2010-03-23 Yahoo! Inc. System and method for query expansion
US8209171B2 (en) 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US8046220B2 (en) 2007-11-28 2011-10-25 Nuance Communications, Inc. Systems and methods to index and search voice sites
US7831588B2 (en) * 2008-02-05 2010-11-09 Yahoo! Inc. Context-sensitive query expansion
KR100931025B1 (ko) * 2008-03-18 2009-12-10 한국과학기술원 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법
KR101078864B1 (ko) * 2009-03-26 2011-11-02 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US9081868B2 (en) 2009-12-16 2015-07-14 Google Technology Holdings LLC Voice web search

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置

Also Published As

Publication number Publication date
US20130304468A1 (en) 2013-11-14
CN103425727A (zh) 2013-12-04
US20130304471A1 (en) 2013-11-14
US8719025B2 (en) 2014-05-06
US8731930B2 (en) 2014-05-20

Similar Documents

Publication Publication Date Title
CN103425727B (zh) 上下文语音查询扩大方法和系统
US10769552B2 (en) Justifying passage machine learning for question and answer systems
CN106909654B (zh) 一种基于新闻文本信息的多级分类系统及方法
Nasa et al. Evaluation of different classification techniques for web data
CN105045875B (zh) 个性化信息检索方法及装置
US10049148B1 (en) Enhanced text clustering based on topic clusters
WO2020041234A1 (en) Open source vulnerability prediction with machine learning ensemble
CN109522556A (zh) 一种意图识别方法及装置
CN107609960A (zh) 推荐理由生成方法及装置
CN109299245B (zh) 知识点召回的方法和装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
EP2860672A2 (en) Scalable cross domain recommendation system
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN107958014B (zh) 搜索引擎
US10387805B2 (en) System and method for ranking news feeds
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
US20180137524A1 (en) Discovery of new business openings using web content analysis
CN108804526A (zh) 兴趣确定系统、兴趣确定方法及存储介质
CN108027814A (zh) 停用词识别方法与装置
CN110390094A (zh) 对文档进行分类的方法、电子设备和计算机程序产品
CN109063171B (zh) 基于语义的资源匹配方法
CN109410935A (zh) 一种基于语音识别的目的地搜索方法及装置
CN109471953A (zh) 一种语音数据检索方法及终端设备
CN111382265B (zh) 搜索方法、装置、设备和介质
CN105740476A (zh) 一种相关联问题推荐方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220922

Address after: California, USA

Patentee after: Maple Bear Co.,Ltd.

Address before: USA New York

Patentee before: International Business Machines Corp.

TR01 Transfer of patent right