CN109844740B - 跟进话音查询预测 - Google Patents
跟进话音查询预测 Download PDFInfo
- Publication number
- CN109844740B CN109844740B CN201780042496.0A CN201780042496A CN109844740B CN 109844740 B CN109844740 B CN 109844740B CN 201780042496 A CN201780042496 A CN 201780042496A CN 109844740 B CN109844740 B CN 109844740B
- Authority
- CN
- China
- Prior art keywords
- user
- follow
- initial
- utterance
- transcription
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 claims abstract description 84
- 230000035897 transcription Effects 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 abstract description 11
- 230000015654 memory Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 230000004044 response Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
用于预测对话语的初始转录的跟进查询的方法、系统和装置,其包括编码在计算机存储介质上的计算机程序。在一些实施方式中,识别与用户的初始话语的转录预关联的一个或多个跟进查询。获得新的或修改的语言模型,其中与一个或多个跟进查询相关联的相应概率相对于初始语言模型增加。然后接收与用户的后续话语相对应的后续音频数据。使用新的或修改的语言模型处理后续音频数据,以生成后续话语的转录。然后提供后续话语的转录以输出给用户。
Description
技术领域
本说明书涉及自动语音识别(automated speech recognition,ASR)。
背景技术
语音识别是指使用自动语音识别器(automated speech recognizer,ASR)将口语单词转录成文本。在传统ASR系统中,接收到的音频被转换成计算机可读的声音,然后和与给定语言相关联的单词词典进行比较。
发明内容
一般来说,本说明书中描述的主题的一个创新方面可以体现在通过识别可能后续由用户提供的一组跟进(follow-up)话音查询,并调整语言模型以增加与跟进话音查询相关联的相应概率来提高话音识别准确性的方法中。例如,在从用户接收到初始查询(例如,文本查询)或其他类型的用户输入之后,预测与初始话音查询预关联的一组预测的跟进查询。ASRM然后可以调整与预测的跟进查询相关联的语言模型内的相应概率,使得对来自用户的后续(subsequent)话音查询的处理更有可能将后续话音查询转录为预测的跟进话音查询之一。在这点上,一旦用户已经提供了初始查询,所描述的方法使得ASRM能够更准确地说明与后续话音查询提交相关联的概率的变化。
实施方式可以包括一个或多个以下特征。例如,计算机实施的方法可以包括:识别与用户的初始话语的转录预关联的一个或多个跟进查询;获得新的或修改的语言模型,其中与一个或多个跟进查询相关联的相应概率相对于初始语言模型增加;接收与用户的后续话语相对应的后续音频数据;使用新的或修改的语言模型处理后续音频数据,以生成后续话语的转录;以及提供后续话语的转录以输出给用户。
在一些实施方式中,计算机实施的方法可以包括:识别和与用户的初始话语的转录相关联的一个或多个搜索结果预关联的一个或多个跟进查询;获得新的或修改的语言模型,其中与一个或多个跟进查询相关联的相应概率相对于初始语言模型增加;接收与用户的后续话语相对应的后续音频数据;使用新的或修改的语言模型处理后续音频数据,以生成与后续话语的转录相关联的一个或多个搜索结果;以及提供与跟进话语的转录相关联的一个或多个搜索结果以输出给用户。
在一些实施方式中,计算机实施的方法可以包括:识别和与一个或多个搜索结果相关联的数据预关联的一个或多个跟进查询,该搜索结果与用户的初始话语的转录相关联;获得新的或修改的语言模型,其中与一个或多个跟进查询相关联的相应概率相对于初始语言模型增加;接收与用户的后续话语相对应的后续音频数据;使用新的或修改的语言模型处理后续音频数据,以生成和与后续话语的转录相关联的一个或多个搜索结果相关联的数据;以及提供和与后续话语的转录相关联的一个或多个搜索结果相关联的数据以输出给用户。
其他版本包括对应的系统和计算机程序,其被配置为执行在计算机存储设备上编码的方法的动作。
一个或多个实施方式可以包括以下可选特征。例如,在一些实施方式中,该方法可以进一步包括:接收与用户的初始话语相对应的初始音频数据;以及使用初始语言模型处理音频数据以生成初始话语的转录。
在一些实施方式中,获得新的或修改的语言模型包括:访问包括一个或多个跟进查询映射的数据库,每个跟进查询映射针对(i)用户话语的先前转录、(ii)与用户相关联的先前搜索结果、以及(iii)和与用户相关联的先前搜索结果相关联的数据来指定候选跟进查询的列表;确定用户的初始话语的转录的一个或多个术语包括在一个或多个跟进查询映射内;以及调整初始语言模型以增加与候选跟进查询的列表相关联的相应概率,该候选跟进查询的列表与包括在一个或多个跟进查询映射内的用户的初始话语的转录的一个或多个术语相对应。
在一些实施方式中,确定用户的初始话语的转录的一个或多个术语包括在一个或多个跟进查询映射内包括确定与用户的初始话语相关联的特定上下文和与用户的先前话语的特定转录相关联的上下文相匹配。
在一些实施方式中,一个或多个跟进查询映射中的每一个进一步针对(i)用户话语的先前转录、(ii)与用户相关联的先前搜索结果、以及(iii)和与用户相关联的先前搜索结果相关联的数据来指定一个或多个跟进术语。
在一些实施方式中,使用新的或修改的语言模型处理音频数据包括确定与用户的初始话语相关联的特定上下文和与用户的后续话语相关联的特定上下文相匹配。
在一些实施方式中,使用新的或修改的语言模型处理音频数据包括确定与用户的初始话语相关联的用户位置和与用户的后续话语相关联的用户位置相匹配。
在附图和下面的描述中阐述了一个或多个实施方式的细节。从说明书、附图和权利要求书中,其他潜在的特征和优点将变得显而易见。
这些方面的其他实施方式包括对应的系统、装置和计算机程序,其被配置为执行在计算机存储设备上编码的方法的动作。
附图说明
图1是可以使用针对用户的预测的跟进查询来执行语音识别的示例性系统。
图2示出了使用针对用户的预测跟进查询来改进语音识别的示例性过程。
图3是在其上可以实施本文描述的过程或其部分的计算设备的框图。
在附图中,相同的附图标记始终代表对应的部件。
具体实施方式
由用户顺序提交的话音查询通常被自动语音识别系统错误识别,因为用于处理后续话音查询的语言模型通常不反映初始话音查询和由相同用户在特定时间段或用户上下文中提交的话音查询之间的固有关系。例如,由于语言模型为一组n-gram指定静态概率,所以基于相同语言模型的后续话音查询的查询处理通常无法理解用户提供后续话音查询的增加的可能性,该后续话音查询包括与先前提交的话音查询预关联的术语。这通常会导致错误识别具有由静态语言模型指定的多个候选转录的后续的低质量话音查询。
因此,描述了通过识别可能后续由用户提供的一组跟进话音查询并调整语言模型以增加与跟进话音查询相关联的相应概率来提高话音识别准确性的技术。例如,在从用户接收到初始查询之后,自动语音识别模块(automated speech recognition module,ASRM)可以识别与初始查询预关联的一组预测的跟进查询。ASRM然后可以调整与预测的跟进查询相关联的语言模型内的相应概率,使得对来自用户的后续话音查询的处理更有可能将后续话音查询转录为预测的跟进话音查询之一。在这点上,一旦用户已经提供了初始查询,则所描述的方法使得ASRM能够更准确地说明与后续的话音查询提交相关联的概率的变化。
图1示出了可以用于使用针对用户102的预测的跟进查询来执行语音识别的示例性系统100。系统100包括ASRM 110,ASRM 110能够接收对用户102的话音查询的话语进行编码的音频数据104b以及与音频数据104b相关联的上下文数据104c(例如,用户位置),并且使用下面更详细描述的语音识别技术生成音频数据104b的转录104d。
通常,在接收到音频数据104b和上下文数据104c之后,ASRM 110访问包括一组查询映射的表120,以基于提交的查询和跟进查询之间的特定关系来识别用户102可能提交的跟进查询,例如,在相同用户位置内提交的查询,或者与公共主题相关联的查询。
更详细地,用户102通过用户设备发出初始话音查询104a。该用户设备可以是包括麦克风的任何类型的计算设备,诸如智能手机、平板电脑、膝上型电脑或台式电脑。用户设备可以向用户102呈现通过任何移动或桌面操作系统显示的用户界面,该用户界面响应于用户查询允许用户102提供话音查询和/或显示视觉内容,例如,搜索结果。
话音查询104a可以包括由ASRM 110使用通用语音识别技术识别和处理的各种类型的启用话音的输入,诸如话音搜索、话音命令或口述。
ASRM 110通过最初使用声学模型来语音转录初始话音查询104a的话语,为音频数据104b生成初始转录104d。ASRM 110然后选择在语言模型130内指定的n-gram,该在语言模型130内指定的n-gram表示作为初始话音查询104a的话语的准确转录的最大可能性。在一些情况下,ASRM 110可以基于接收到的上下文数据104c来偏置语言模型130,以选择特定的n-gram,该特定的n-gram反映了在给定由上下文数据104c指示的与用户102相关联的可能上下文的情况下,作为初始话音查询104a的话语的准确转录的最大可能性。响应于接收到的初始话音查询104a,所生成的初始转录104d然后被发送以输出到用户设备。
在图1所示的示例中,响应于接收到编码初始话音查询104a的话语“MU-SE-UMS INPA-RIS”的音频数据104b,ASRM 110基于指定相对于音频数据104b的其他候选转录的最大转录分数“0.9”的语言模型130a,将n-gram“MUSEUMS IN PARIS”转录为初始转录104d。
在接收到来自用户102的话音查询时,ASRM 110还识别在给定话音查询104a内包括的术语的情况下用户102可能提供的一组跟进查询。例如,ASRM 110可以基于访问一组查询映射来识别用户102的跟进查询,该查询映射指定初始话音查询的跟进查询。对于每个查询映射,表120进一步指定反映用户102将在提供指定的初始话音查询之后的预定时间内提供指定的跟进查询的可能性的关联分数。
在一些实施方式中,代替针对特定初始话音查询指定用户102的跟进查询,表120内的查询映射可以改为指定与特定初始话音查询预关联的一个或多个术语或实体。在这样的实施方式中,所识别的术语或实体可以被用于对与初始语言模型130a内的各个术语相关联的各个转录分数进行向上加权,以便生成新的或调整后的语言模型130b。
在一些实施方式中,包括在表120内的查询映射进一步包括由于其与初始话音查询104a的顶部转录假设的语音相似性而被识别为这样的跟进查询。例如,如果特定初始话音查询的转录假设是“OPENING HOURS OF LUFRE”,则表120可以包括基于术语“LUFRE”和“LUVRE”之间的语音相似性指定“OPENING HOURS OF LUFRE”作为跟进查询的查询映射。在这点上,给定用户120在接收到从ASRM 110输出的不正确转录之后重新提交相同查询的增加的可能性的情况下,通常不正确的转录可以与表120内正确识别的跟进查询相关联。
在一些实施方式中,表120内的查询映射可以指定对与初始话音查询104a的话语的初始转录104d相关联的搜索结果的跟进查询。例如,用户102可以将初始话音查询104a作为输入形式提交给搜索引擎,以执行对包括在初始转录104d内的术语的搜索。然后,由搜索引擎返回的搜索结果数据可以被记录并被包括在表120内,以供ASRM 110在处理后续话音查询时使用,该话音查询与初始转录104d的搜索结果内包括的术语相关联,或者包括这些术语。
在一些实施方式中,表120内的查询映射可以另外指定对与转录104d的搜索结果相关联的数据的跟进查询。例如,与搜索结果相关联的数据可以包括:在特定时间段内由用户102发送的先前搜索查询;为搜索查询获得的先前搜索结果,该搜索查询被确定为类似于与初始转录104d相关联的搜索结果;被确定为响应于与初始转录104相关联的搜索查询的文档内包括的术语等等。与搜索结果相关联的数据还可以包括与用户102相关联的用户历史数据和查询日志,诸如先前提交的话音查询、先前候选转录前的浏览活动、或其他类型的用户特定信息。
在一些实施方式中,表120内的查询映射可以另外基于与用户102之外的其他用户相关联的数据来指定跟进查询。例如,表120内的跟进查询可以基于由被确定为类似于用户102的用户(例如,在相同位置的用户或者已经提交了与用户102的类似的查询和/或已经接收到与用户102的类似的搜索结果或跟进查询的用户)的群提交的先前查询来确定。在这些示例中的每一个中,ASRM 110能够使用数据聚类技术来聚集从多个用户接收的数据,以便识别可能与用户102相关的模式或预测。
如上所述,每个指定的初始话音查询和跟进查询之间的关联分数的大小可以基于与用户102相关联的各种类型的数据和/或由与用户102相关联的各种类型的数据来增加。在一些实施方式中,当ASRM 110接收到音频数据104b时,关联分数的大小可以基于与用户102相关联的设备的特定位置。在这样的实施方式中,关联分数的值可以反映特定初始话音查询和跟进查询内包括的术语在特定时间段内被用户102或被确定为类似于用户102的位置处的其他用户重复发送的可能性。在该示例中,该确定可以基于训练数据,该训练数据包括由用户102和特定位置处的其他用户提交的先前查询。
在图1描绘的示例中,表120指定包括被确定与查询104a内的术语(例如,“MUSEUMS”和“PARIS”)相关联的术语(例如,“LOUVRE”,“BAGUETTE”)的跟进查询。表120进一步为跟进查询“OPENING HOURS OF LOUVRE”指定相比“PLACES TO BAGUETTE”更高的关联分数,因为所描述的术语“LOUVRE”涉及博物馆并且位于巴黎,而术语“BAGUETTE”相对于其与巴黎的关系仅与术语“MUSEUM”相关联。
ASRM 110然后使用表120内的所识别的跟进查询来调整语言模型130。特别地,所识别的跟进查询被用于偏置语言模型130,以增加与语言模型130内的特定n-gram相关联的相应概率,该特定n-gram对应于包括在表120内的跟进查询,从而增加ASRM 110选择特定n-gram作为与初始话音查询104a的话语相关联的后续查询的转录的可能性。
相对于初始语言模型130a,和与由表120指定的跟进查询相对应的新的或更新的语言模型130b内的特定n-gram相关联的相应概率的增加被计算到特定值,以防止后续话音查询106a的任何错误转录。例如,在一些情况下,关联分数的值由ASRM 110调制,使得新的或调整的语言模型130b内的内插转录分数的计算相对于初始语言模型130a内的转录分数适度增加。这是为了确保内插转录分数不会显著更高,以在由ASRM 110使用新的或调整的语言模型130b而不是初始语言模型130a时引起查询处理的显著变化。在另一示例中,代替调制跟进查询中的每一个的关联分数,ASRM 110使用的特定计算技术可以改为被调整以得到相同的结果。在这样的示例中,内插转录分数计算技术可以包括使用衰减因子和/或下权重来减小初始计算的内插转录分数的值。
在图1描绘的示例中,ASRM 110最初将具有关联分数“1.4”的跟进查询“OPENINGHOURS OF LOUVRE”识别为初始话音查询104a的最可能的跟进查询。ASRM 110然后生成更新的语言模型130b,该语言模型130b指定n-gram“OPENING HOURS OF LOUVRE”的内插转录分数,该内插转录分数相对于初始语言模型130内相同n-gram的对应转录分数具有更大的值。在该示例中,ASRM 110计算初始转录分数“0.5”和由表指定的关联分数“1.4”的乘积,以分配内插转录分数“0.56”。
尽管图1将初始语言模型130a和调整的语言模型130b描绘为语言模型130的不同动态状态,但是在一些实施方式中,ASRM 110可以改为生成新的语言模型,该新的语言模型提供与为初始话音查询104a指定的跟进查询相对应的特定n-grams的内插到转录分数。在这样的实施方式中,ASRM 110能够从多个可用语言模型当中动态地选择特定语言模型,以基于如本文所述的与用户102相关联的各种类型的数据生成对于后续话音查询的转录。
在一些实施方式中,系统100可以包括单独的硬件或软件模块,用于执行本文所述的语言模型调整或生成。例如,ASRM 110可以最初识别初始话音查询104a的跟进查询,从表120中提取与所识别的跟进查询相对应的数据,然后将所提取的数据发送到初始语言模型130a,并将所提取的数据发送到后处理模块用于语言模块内插。如本文所述,后处理组件可以生成具有内插转录分数的调整的语言模型,或者生成具有对应转录分数的新的语言模型。
在一些情况下,ASRM 110可以内插语言模型130内的多个n-gram的转录分数,该n-gram与表120内的多个识别的跟进查询相对应。例如,ASRM110可以内插具有大于预定阈值的关联分数的对应跟进查询的n-gram的转录分数。可替换地,在其他实施方式中,ASRM 110可以改为仅内插与表120内具有最大关联分数的跟进查询相对应的n-gram的转录分数。在这点上,可以基于ASRM 110使用的特定内插技术来调整用于后续查询的语言模型偏置的敏感度。
在生成新的或调整的语言模型130b之后,ASRM可以后续使用新的或调整的语言模型130b来处理对用户102的后续话音查询106a的话语进行编码的音频数据106b。在ASRM110处理音频数据106b的时间点T2,新的或调整后的语言模型130b已经被内插,以包括对于特定n-gram的增加的转录分数,该特定n-gram与先前针对用户102在时间点T1提交的初始话音查询104a所识别的跟进查询相对应。
使用新的或更新的语言模型130对音频数据106b的处理增加了对于后续转录106d的选择的n-gram将是表120内识别的跟进查询中的至少一个的可能性。当后续话音查询106a包括可能被ASRM 110错误转录的模糊话语时,这一点尤其重要。
例如,在图1描绘的示例中,在发送明确转录的初始用户查询(例如,“MUSEUMS INPARIS”)之后,用户然后发送相对模糊且容易受到不正确转录影响的后续话音查询。例如,话语“AH-WA-AS OF TH-HE LU-UH”可以被转录为“HOURS OF LOO”、“HOURS OF LOUIE’S”或“HOURS OF LOUVRE”。然而,因为ASRM 110使用更新的或新的语言模型130b处理音频数据106b,所以ASRM 110更有可能选择转录“HOURS OF LOUVRE”,因为它在表120中被识别并与先前话音查询104a中包括的“PARIS”术语预关联。因此,至少基于其与初始话音查询104a的关联来选择后续转录106d,并且作为结果,将其提供给与用户102关联的设备以供输出。
在一些实施方式中,ASRM 110基于所识别的跟进查询使用的语音识别技术(如整个关于图1所述),受到确保后续转录104d不会相对于实际上与后续话音查询106a不相关联的跟进查询被无意地和/或不准确地转录的限制。例如,在一些实施方式中,在用特定语言模型处理音频数据106b之前,ASRM110可以最初确定由上下文数据104c指示的可能的用户上下文是否与由上下文数据106指示的可能的用户上下文充分对应。如果用户上下文不充分对应,则ASRM 110可以确定用户上下文已经在时间点T1和T2之间已经改变,其指示后续话音查询106b不太可能反映针对初始话音查询104b的所识别的跟进查询中的至少一个。在这种情况下,ASRM 110可以基于新的或调整的语言模型终止处理,以防止为音频数据106b生成不正确的转录。
在另一示例中,ASRM 110可以使用附加查询处理技术来识别初始话音查询104a和后续话音查询106a之间的语义漂移。例如,ASRM 110可以使用自然语言处理技术来比较初始话音查询104a和后续话音查询106a内的识别的术语,以确定用户102在时间点T2的单词用法(word usage)相对于用户102在时间点T1的单词用法是否已经改变。如果ASRM 110确定语义漂移大于预定阈值,则ASRM 110可以基于新的或调整的语言模型终止对音频数据106b的处理,以防止为音频数据106b生成不正确的转录。
ASRM 110可以另外执行各种后处理技术,以验证接收到的初始话音查询104a和后续话音查询106a之间有足够的连续性,确保使用新的或调整的语言模型130b的查询处理得到准确的转录。例如,初始话音查询104a和后续话音查询106a之间的连续性可以基于与指示查询之间的相似性的因素(例如,用户上下文、查询中包括的术语等)相关联的特定权重计算为累积分数。
在一些实施方式中,ASRM 110能够识别初始话音查询104a内包括的、未在初始语言模型130a或ASRM词汇表内指定的新术语,然后在每一查询的基础上动态地将新术语添加到调整的语言模型130b和/或ASRM词汇表中。例如,在图1描绘的示例中,如果初始语言模型130a不包括术语“LOUVRE”,则ASRM 110可以确定该术语与初始话音查询“MUSEUMS INPARIS”相关联,并且作为响应,将术语“LOUVRE”添加到调整的语言模型130b中。在这一点上,在先前查询内添加新识别的术语使得ASRM 110能够生成候选话音识别假设,否则使用初始语言模型130a会遗漏这些假设。
尽管图1示出了ASRM 110响应于接收到初始话音查询104a而识别一组跟进查询的示例,但是在一些实施方式中,ASRM 110能够响应于接收到其他类型的用户输入而识别跟进查询。在这样的实施方式中,用户输入可以包括键入的查询,例如,提供给搜索引擎的搜索查询、用户102发送的最近消息和/或电子邮件、在与ASRM 110分离的其他应用内提供的查询。在这点上,ASRM 110能够基于包括在先前话音查询和键入查询内的术语来识别跟进查询。
图2示出了用于使用针对用户的预测的跟进查询来改进语音识别的示例性过程200。简而言之,过程200可以包括接收初始音频数据(210),使用初始语言模型处理音频数据(220),识别一个或多个跟进查询(230),获得新的或修改的语言模型(240),接收后续音频数据(250),使用新的或修改的语言模型处理音频数据(260),以及提供处理后的音频数据用于输出(270)。
更详细地,过程200可以包括接收初始音频数据(210)。例如,ASRM 110可以接收与用户102的初始话音查询104a的话语相对应的音频数据104b。
过程200可以包括使用初始语言模型处理音频数据(220)。例如,ASRM110可以使用初始语言模型130a来处理音频数据104b,以生成初始话音查询104a的话语的转录104d。
过程200可以包括识别一个或多个跟进查询(230)。例如,ASRM 110可以从表120中识别一个或多个跟进查询。跟进查询可以与用户102的初始话音查询104a的话语的转录104d预关联。在一些实施方式中,跟进查询还可以与一个或多个搜索结果或一个或多个搜索结果相关联的数据(例如,先前搜索查询、先前搜索结果、响应于对应搜索查询的文档)预关联,该搜索结果与话语的转录104d相关联。
过程200可以包括获得新的或修改的语言模型(240)。例如,ASRM 110可以获得语言模型130b,其中与一个或多个跟进查询相关联的相应转录概率相对于语言模型130a增加。如图1中的示例所示,ASRM 110可以使用表120来预测“OPENING HOURS OF LOUVRE”,作为对来自用户102的初始话音查询“MUSEUMS IN PARIS”的跟进话音查询。这反映在语言模型130b内的“OPENING HOURS OF LOUVRE”的转录分数大于其在语言模型130a内的对应转录分数(例如,分别为0.56和0.4)。
过程200可以包括接收后续音频数据(250)。例如,ASRM 110可以接收与用户102的后续话音查询106a的话语相对应的音频数据106b。
过程200可以包括使用新的或修改的语言模型处理音频数据(260)。例如,ASRM110可以使用语言模型130b来处理后续音频数据106b,以生成后续话音查询106a的话语的转录106d。
过程200可以包括提供处理后的音频数据用于输出(270)。例如,ASRM110可以提供后续话音查询106a的话语的转录106d,以输出到与用户102相关联的设备。
图3是计算设备300、350的框图,计算设备300、350可以作为客户端或者作为服务器或多个服务器被用于实施本文档中描述的系统和方法。计算设备300意图表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算设备350意图表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能手机和其他类似的计算设备。
另外,计算设备300或350可以包括通用串行总线(Universal Serial Bus,USB)闪存驱动器。USB闪存驱动器可以存储操作系统和其他应用。USB闪存驱动器可以包括输入/输出组件,诸如可以插入到另一计算设备的USB端口中的无线发送器或USB连接器。这里示出的组件、它们的连接和关系以及它们的功能仅仅是示例性的,并不意味着限制本文档中描述和/或要求保护的本发明的实施方式。
计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和高速扩展端口310的高速接口308、以及连接到低速总线314和存储设备306的低速接口312。组件302、304、306、308、310和312中的每一个使用各种总线互连,并且可以安装在公共主板上或者以其他适当的方式安装。处理器302可以处理用于在计算设备300内执行的指令,该指令包括存储在存储器304中或存储设备306上的指令,以在外部输入/输出设备上显示GUI的图形信息,诸如耦合到高速接口308的显示器316。在其他实施方式中,可以适当地使用多个处理器和/或多个总线以及多个存储器和各类型的存储器。并且,多个计算设备300可以被连接,其中每个设备提供必要操作的部分,例如,作为服务器组、一组刀片服务器或多处理器系统。
存储器304将信息存储在计算设备300内。在一个实施方式中,存储器304是一个或多个易失性存储器单元。在另一实施方式中,存储器304是非易失性存储器单元。存储器304也可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备306能够为计算设备300提供大容量存储。在一个实施方式中,存储设备306可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其他类似的固态存储器设备,或者设备阵列,包括存储区域网络中的设备或其他配置。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令,当执行这些指令时,执行诸如上述方法的一种或多种方法。信息载体是计算机或机器可读介质,诸如存储器304、存储设备306、或处理器302上的存储器。
高速控制器308管理计算设备300的带宽密集型操作,而低速控制器312管理较低带宽密集型操作。这种功能分配只是示例性的。在一个实施方式中,高速控制器308例如通过图形处理器或加速器耦合到存储器304、显示器316,并且耦合到高速扩展端口310,高速扩展端口310可以接受各种扩展卡(未示出)。在该实施方式中,低速控制器312被耦合到存储设备306和低速扩展端口314。低速扩展端口可以包括各种通信端口,诸如USB、蓝牙、以太网、无线以太网,该低速扩展端口可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、定点设备、麦克风/扬声器对、扫描仪、或网络设备(诸如交换机或路由器)。如图所示,计算设备300可以以多种不同的形式实施。例如,它可以被实施为标准服务器320,或者在一组这样的服务器中多次实施。它也可以被实施为机架服务器系统324的一部分。此外,它可以在诸如膝上型计算机322的个人计算机中实施。可替换地,来自计算设备300的组件可以与移动设备(未示出)中的其他组件组合,诸如设备350。这样的设备中的每一个可以包含计算设备300、350中的一个或多个,并且整个系统可以由彼此通信的多个计算设备300、350组成。
如图所示,计算设备300可以以多种不同的形式实施。例如,它可以被实施为标准服务器320,或者在一组这样的服务器中多次实施。它也可以被实施为机架服务器系统324的一部分。此外,它可以在诸如膝上型计算机322的个人计算机中实施。可替换地,来自计算设备300的组件可以与移动设备(未示出)中的其他组件组合,诸如设备350。这样的设备中的每一个可以包含计算设备300、350中的一个或多个,并且整个系统可以由彼此通信的多个计算设备300、350组成。
计算设备350包括处理器352、存储器364和输入/输出设备,诸如显示器354、通信接口366和收发器368等等。设备350还可以设置有存储设备,诸如微驱动器或其他设备,以提供额外的存储。组件350、352、364、354、366和368中的每一个使用各种总线互连,并且组件中的几个可以安装在公共主板上或者以其他适当的方式安装。
处理器352可以执行计算设备350内的指令,该指令包括存储在存储器364中的指令。处理器可以被实施为芯片的芯片组,其包括独立的和多个模拟和数字处理器。另外,处理器可以使用多个体系结构中的任何一个来实施。例如,处理器310可以是CISC(复杂指令集计算机,Complex Instruction Set Computers)处理器、RISC(精简指令集计算机,Reduced Instruction Set Computer)处理器、或MISC(最小指令集计算机,MinimalInstruction Set Computer)处理器。处理器可以提供例如设备350的其他组件的协调,诸如对用户接口的控制、设备350运行的应用、以及由设备350的无线通信。
处理器352可以通过控制接口358和耦合到显示器354的显示接口356与用户通信。显示器354可以是例如TFT(薄膜晶体管液晶显示器,Thin-Film-Transistor LiquidCrystal Display)显示器或OLED(有机发光二极管,Organic Light Emitting Diode)显示器,或者其他适当的显示技术。显示接口356可以包括用于驱动显示器354向用户呈现图形和其他信息的适当电路。控制接口358可以接收来自用户的命令,并转换它们以提交给处理器352。此外,可以提供与处理器352通信的外部接口362,以便使设备350能够与其他设备的近区通信。外部接口362可以例如在一些实施方式中提供有线通信,或者在其他实施方式中提供无线通信,并且也可以使用多个接口。
存储器364将信息存储在计算设备350内。存储器364可以被实施为计算机可读介质或媒体、一个或多个易失性存储器单元、或一个或多个非易失性存储器单元中的一个或多个。还可以提供扩展存储器374,并通过扩展接口372将其连接到设备350,该扩展接口372可以包括例如SIMM(单线存储器模块,Single In Line Memory Module)卡接口。这种扩展存储器374可以为设备350提供额外的存储空间,或者也可以为设备350存储应用或其他信息。具体地,扩展存储器374可以包括执行或补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器374可以被提供为设备350的安全模块,并且可以用允许安全使用设备350的指令来编程。另外,可以经由SIMM卡提供安全应用以及附加信息,诸如以不可黑客的方式将识别信息放置在SIMM卡上。
存储器可以包括例如闪速存储器和/或NVRAM存储器,如下所述。在一个实施方式中,计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令,当执行这些指令时,执行一种或多种方法,诸如上述方法。信息载体是计算机或机器可读介质,诸如存储器364、扩展存储器374、或处理器352上的存储器,其可以例如通过收发器368或外部接口362接收。
设备350可以通过通信接口366无线通信,该通信接口366在必要时可以包括数字信号处理电路。通信接口366可以提供各种模式或协议下的通信,诸如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。这种通信可以例如通过射频收发器368进行。另外,可以(诸如使用蓝牙、WiFi或其他这种收发器(未示出))进行短程通信。另外,GPS(全球定位系统,Global Positioning System)接收器模块370可以向设备350提供附加的导航和位置相关无线数据,设备350上运行的应用可以适当地使用这些数据。
设备350还可以使用音频编解码器360可听地通信,该音频编解码器360可以接收来自用户的口头信息并将其转换成可用的数字信息。音频编解码器360同样可以(诸如通过扬声器)为用户生成可听声音,例如,在设备350的手机中。这种声音可以包括来自话音电话呼叫的声音,可以包括记录的声音,例如,话音消息、音乐文件等。并且还可以包括由在设备350上操作的应用生成的声音。
如图所示,计算设备350可以以多种不同的形式实施。例如,它可以被实施为蜂窝电话480。它也可以被实施为智能手机382、个人数字助理或其他类似移动设备的一部分。
这里描述的系统和方法的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路,application specific integrated circuit)、计算机硬件、固件、软件和/或这些实施方式的组合中实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式,该计算机程序在包括至少一个可编程处理器的可编程系统上可执行和/或可解释,该可编程处理器可以是专用的或通用的,其被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以用高级过程和/或面向对象的编程语言和/或汇编/机器语言来实施。如这里所使用的,术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备,例如,磁盘、光盘、存储器、可编程逻辑设备(Programmable Logic Device,PLD),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,这里描述的系统和技术可以在计算机上实施,该计算机具有用于向用户显示信息的显示设备,例如,CRT(阴极射线管,cathode ray tube)或LCD(液晶显示器,liquid crystal display)监视器,以及用户可以通过其向计算机提供输入的键盘和定点设备,例如,鼠标或轨迹球。其他种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
这里描述的系统和技术可以在计算系统中实施,该计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有图形用户界面或Web浏览器的客户端计算机,用户可以通过该图形用户界面或Web浏览器与这里描述的系统和技术的实施方式交互),或者这种后端、中间件或前端组件的任意组合。系统的组件可以通过数字数据通信的任何形式或介质互连,例如,通信网络。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助在各自计算机上运行并且彼此之间具有客户机-服务器关系的计算机程序而产生。
已经描述了许多实施例。然而,应当理解,在不脱离本发明的精神和范围的情况下,可以进行各种修改。另外,图中描绘的逻辑流程不需要所示的特定顺序或相继顺序来实现期望的结果。另外,可以从所描述的流程中提供其他步骤,或者可以消除这些步骤,并且可以向所述系统添加其他组件或者从所述系统中移除其他组件。因此,其它实施例在所附权利要求的范围内。
Claims (7)
1.一种计算机实施的方法,包括:
获得在特定位置提供的用户的初始话语;
识别与匹配用户的初始话语的转录的项预关联的一个或多个跟进查询,其中所述跟进查询(i)不同于所述项,以及(ii)基于查询日志数据与所述项预关联,所述查询日志数据指示搜索引擎的其他用户在提交了包括所述特定位置处的项的初始查询之后,先前已经在所述特定位置处提交了跟进查询;
调整初始语言模型以生成修改的语言模型,修改的语言模型指定相对于初始语言模型增加的与一个或多个跟进查询相关联的相应概率;
接收与在所述特定位置提供的用户的后续话语相对应的后续音频数据;
使用所述修改的语言模型处理所述后续音频数据,以生成后续话语的转录;和
提供后续话语的转录以输出给用户。
2.根据权利要求1所述的方法,进一步包括:
接收与用户的初始话语相对应的初始音频数据;和
使用初始语言模型处理所述音频数据以生成初始话语的转录。
3.根据权利要求1所述的方法,其中,调整初始语言模型包括:
访问包括一个或多个跟进查询映射的数据库,每个跟进查询映射针对(i)用户话语的先前转录、(ii)与用户相关联的先前搜索结果、以及(iii)和所述与用户相关联的先前搜索结果相关联的数据来指定候选跟进查询的列表,
确定用户的初始话语的转录的一个或多个术语被包括在所述一个或多个跟进查询映射中;和
调整所述初始语言模型以增加与所述候选跟进查询的列表相关联的相应概率,所述候选跟进查询与包括在所述一个或多个跟进查询映射内的用户的初始话语的转录的一个或多个术语相对应。
4.根据权利要求3所述的方法,其中,包括在所述一个或多个跟进查询映射内的所述候选跟进查询的列表至少基于与用户的初始话语相关联的用户位置。
5.根据权利要求3所述的方法,其中,确定用户的初始话语的转录的一个或多个术语被包括在所述一个或多个跟进查询映射内包括确定与用户的初始话语相关联的特定上下文和与用户的先前话语的特定转录相关联的上下文相匹配。
6.根据权利要求3所述的方法,其中,所述一个或多个跟进查询映射中的每一个进一步针对(i)用户话语的先前转录、(ii)与用户相关联的先前搜索结果、以及(iii)和所述与用户相关联的先前搜索结果相关联的数据来指定一个或多个跟进术语。
7.根据权利要求1所述的方法,其中,使用所述修改的语言模型处理所述音频数据包括确定与用户的初始话语相关联的特定上下文和与用户的后续话语相关联的特定上下文相匹配。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/205,505 US10026398B2 (en) | 2016-07-08 | 2016-07-08 | Follow-up voice query prediction |
US15/205,505 | 2016-07-08 | ||
PCT/US2017/038917 WO2018009351A1 (en) | 2016-07-08 | 2017-06-23 | Follow-up voice query prediction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109844740A CN109844740A (zh) | 2019-06-04 |
CN109844740B true CN109844740B (zh) | 2023-06-20 |
Family
ID=60911024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780042496.0A Active CN109844740B (zh) | 2016-07-08 | 2017-06-23 | 跟进话音查询预测 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10026398B2 (zh) |
EP (1) | EP3469489B1 (zh) |
JP (1) | JP6761100B2 (zh) |
KR (1) | KR102201937B1 (zh) |
CN (1) | CN109844740B (zh) |
WO (1) | WO2018009351A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10403273B2 (en) * | 2016-09-09 | 2019-09-03 | Oath Inc. | Method and system for facilitating a guided dialog between a user and a conversational agent |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10535342B2 (en) * | 2017-04-10 | 2020-01-14 | Microsoft Technology Licensing, Llc | Automatic learning of language models |
US10769210B2 (en) | 2017-09-29 | 2020-09-08 | Rovi Guides, Inc. | Recommending results in multiple languages for search queries based on user profile |
US10747817B2 (en) * | 2017-09-29 | 2020-08-18 | Rovi Guides, Inc. | Recommending language models for search queries based on user profile |
JP7034027B2 (ja) * | 2018-07-26 | 2022-03-11 | ヤフー株式会社 | 認識装置、認識方法及び認識プログラム |
US11404058B2 (en) | 2018-10-31 | 2022-08-02 | Walmart Apollo, Llc | System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions |
US11238850B2 (en) | 2018-10-31 | 2022-02-01 | Walmart Apollo, Llc | Systems and methods for e-commerce API orchestration using natural language interfaces |
US11195524B2 (en) * | 2018-10-31 | 2021-12-07 | Walmart Apollo, Llc | System and method for contextual search query revision |
US11183176B2 (en) | 2018-10-31 | 2021-11-23 | Walmart Apollo, Llc | Systems and methods for server-less voice applications |
US11295732B2 (en) * | 2019-08-01 | 2022-04-05 | Soundhound, Inc. | Dynamic interpolation for hybrid language models |
US11610588B1 (en) * | 2019-10-28 | 2023-03-21 | Meta Platforms, Inc. | Generating contextually relevant text transcripts of voice recordings within a message thread |
US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US11620982B2 (en) * | 2020-06-01 | 2023-04-04 | Rovi Guides, Inc. | Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms |
US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
US20230186898A1 (en) * | 2021-12-14 | 2023-06-15 | Google Llc | Lattice Speech Corrections |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050131695A1 (en) * | 1999-02-04 | 2005-06-16 | Mark Lucente | System and method for bilateral communication between a user and a system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
US7542907B2 (en) * | 2003-12-19 | 2009-06-02 | International Business Machines Corporation | Biasing a speech recognizer based on prompt context |
KR20060070605A (ko) | 2004-12-21 | 2006-06-26 | 한국전자통신연구원 | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US20080154870A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US20080153465A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US9978365B2 (en) * | 2008-10-31 | 2018-05-22 | Nokia Technologies Oy | Method and system for providing a voice interface |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US20110077492A1 (en) | 2009-09-29 | 2011-03-31 | Allegiance DMS, LLC | Systems for Bidirectional Communication With A Patient Via A Medical Measurement Device |
US8990085B2 (en) * | 2009-09-30 | 2015-03-24 | At&T Intellectual Property I, L.P. | System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model |
US9043205B2 (en) | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
CN103871403B (zh) | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
US9466294B1 (en) * | 2013-05-21 | 2016-10-11 | Amazon Technologies, Inc. | Dialog management system |
US9484025B2 (en) * | 2013-10-15 | 2016-11-01 | Toyota Jidosha Kabushiki Kaisha | Configuring dynamic custom vocabulary for personalized speech recognition |
US9196244B2 (en) | 2014-01-08 | 2015-11-24 | Nuance Communications, Inc. | Methodology for enhanced voice search experience |
US20150370787A1 (en) * | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
US9502032B2 (en) | 2014-10-08 | 2016-11-22 | Google Inc. | Dynamically biasing language models |
US10614799B2 (en) * | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
-
2016
- 2016-07-08 US US15/205,505 patent/US10026398B2/en active Active
-
2017
- 2017-06-23 CN CN201780042496.0A patent/CN109844740B/zh active Active
- 2017-06-23 JP JP2019500487A patent/JP6761100B2/ja active Active
- 2017-06-23 WO PCT/US2017/038917 patent/WO2018009351A1/en unknown
- 2017-06-23 KR KR1020197001544A patent/KR102201937B1/ko active IP Right Grant
- 2017-06-23 EP EP17824701.1A patent/EP3469489B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3469489B1 (en) | 2022-11-16 |
EP3469489A4 (en) | 2019-12-18 |
JP6761100B2 (ja) | 2020-09-23 |
US20180012594A1 (en) | 2018-01-11 |
EP3469489A1 (en) | 2019-04-17 |
US10026398B2 (en) | 2018-07-17 |
CN109844740A (zh) | 2019-06-04 |
KR20190021338A (ko) | 2019-03-05 |
JP2019527379A (ja) | 2019-09-26 |
KR102201937B1 (ko) | 2021-01-13 |
WO2018009351A1 (en) | 2018-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109844740B (zh) | 跟进话音查询预测 | |
EP3125234B1 (en) | Individualized hotword detection models | |
CN107430859B (zh) | 将输入映射到表单域 | |
EP3469585B1 (en) | Scalable dynamic class language modeling | |
EP3014608B1 (en) | Computer-implemented method, computer-readable medium and system for pronunciation learning | |
US9805713B2 (en) | Addressing missing features in models | |
US8396709B2 (en) | Speech recognition using device docking context | |
US9589564B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US11282513B2 (en) | Negative n-gram biasing | |
CN107045871B (zh) | 利用外部数据源重新识别语音 | |
US9576578B1 (en) | Contextual improvement of voice query recognition | |
US9135912B1 (en) | Updating phonetic dictionaries | |
WO2016167992A1 (en) | A method and system for speech synthesis for voice queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |