CN105006235B - 基于词比较的语音端点定位 - Google Patents

基于词比较的语音端点定位 Download PDF

Info

Publication number
CN105006235B
CN105006235B CN201510195100.9A CN201510195100A CN105006235B CN 105006235 B CN105006235 B CN 105006235B CN 201510195100 A CN201510195100 A CN 201510195100A CN 105006235 B CN105006235 B CN 105006235B
Authority
CN
China
Prior art keywords
utterance
incomplete
words
transcription
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510195100.9A
Other languages
English (en)
Other versions
CN105006235A (zh
Inventor
M·布坎南
P·K·古普塔
C·B·坦迪奥诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202010581401.6A priority Critical patent/CN111627424A/zh
Publication of CN105006235A publication Critical patent/CN105006235A/zh
Application granted granted Critical
Publication of CN105006235B publication Critical patent/CN105006235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明的各实施例涉及基于词比较的语音端点定位。描述了用于基于词比较的语音端点定位的方法、系统以及包括编码在计算机存储介质上的计算机程序的装置。在一个方面,一种方法包括获得话语的转录的动作。动作进一步包括将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值。动作进一步包括将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值。动作进一步包括至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。

Description

基于词比较的语音端点定位
相关申请的交叉引用
本申请要求于2014年4月23日提交的、申请号为61/983,025的美国专利申请的权益,其内容通过引用并入。
技术领域
本公开内容总体上涉及语音识别,并且一个特定实现方式涉及对语音进行端点定位(endpointing)。
背景技术
自然语言处理系统通常使用端点器(endpointer)来确定用户何时开始以及结束说话。一些传统的端点器在确定话语何时开始或者结束时对词之间的停顿的持续时间进行评价。例如,如果用户说“what is<长停顿>for dinner”,则传统的端点器可以在长停顿处分割话音输入,并且可以指令自然语言处理系统尝试处理不完整的短语“what is”,而不是处理完整的短语“what is for dinner”。如果端点器为话音输入指定了错误的开始点或者结束点,则使用自然语言处理系统处理语音的结果可能是错误的或者不符合需要的。
发明内容
根据在本说明书中所描述的主题内容的创新的方面,一种计算设备可以接收由用户说出的话语的话音输入,并且可以使用连续语音识别器来递增地转录话语。计算设备比较递增地识别的转录与来自文本样本的汇集(诸如,由其他用户之前提交给搜索引擎的搜索查询的汇集)中的文本样本进行比较,以确定转录更可能表示完整的查询还是不完整的查询。
根据一个方式,确定转录更可能表示完整的查询还是不完整的查询包括:确定与转录匹配并且不包括任何附加的词语(term)的文本样本的数量,并且确定与转录匹配并且包括一个或者多个附加的词语的文本样本的数量。计算设备可以然后基于那两个数量确定比率并且比较确定的比率与阈值比率。如果确定的比率不满足阈值比率,则计算设备将话语分类为很可能不完整的话语。如果确定的比率满足阈值比率,则计算设备将话语分类为非很可能不完整的话语。
基于将话语分类为很可能完整的话语或者不完整的话语,设备可以对话音输入进行端点定位,或者可以去激活麦克风或者将麦克风维持在激活状态。如果话语被分类为很可能不完整的话语,则设备可以将麦克风维持在激活状态以接收附加的话语,或者可以在对话音输入进行端点定位之前进一步等待。如果话语被分类为非很可能不完整的话语,则设备可以去激活麦克风并且处理话语,或者可以在对话音输入进行端点定位之前不进行进一步等待。
一般来说,在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法,这些方法包括以下动作:获得话语的转录;将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值;将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值;并且至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。
这些和其他实施例可以各自可选地包括以下特征中的一个或者多个特征。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值的动作包括:在每个文本样本中确定与转录匹配的词语以与在转录中相同的顺序出现。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值的动作包括:在每个文本样本中确定与转录匹配的词语在每个文本样本的前缀处出现。
至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:确定第一值与第二值的比率;确定比率满足阈值比率;并且基于确定比率满足阈值比率来将话语分类为很可能不完整的话语。至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:将话语分类为很可能不完整的话语;并且基于将话语分类为很可能不完整的话语来将麦克风维持在激活状态以接收附加的话语。
至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:将话语分类为非很可能不完整的话语;并且基于将话语分类为非很可能不完整的话语来去激活麦克风。这些动作进一步包括接收指示话语完整的数据;其中至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语包括:将话语分类为很可能不完整的话语;并且基于将话语分类为很可能不完整的话语来覆盖指示话语完整的数据。
这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个均被配置为执行该方法的操作。
一般来说,在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法,这些方法包括以下动作:获得话语的转录;确定在文本样本的汇集中,与话语所匹配的相比,话语是更经常地与(i)包括与转录匹配的词语并且不包括任何附加的词语的文本样本匹配,还是更经常地与(ii)包括与转录匹配的词语并且包括一个或者多个附加的词语的文本样本匹配;并且基于该确定来确定话语是否很可能不完整。
这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个均被配置为执行该方法的操作。
在本说明书中所描述的主题内容的特定实施例可以被实施以使得实现以下优点中的一个或者多个优点。用户可以使用计算设备的话音输入能力并且以对用户来说舒适的速度说话。话语可以在话语的预期的结束处被端点定位,从而得到更精确的或更希望的自然语言处理输出,并且得到自然语言处理系统的更快的处理。在背景噪声存在的情况下,话语可以在话语的预期的结束处被端点定位。
在本说明书中所描述的主题内容的一个或者多个实施例的细节在以下的附图和描述中被阐明。主题内容的其他特征、方面和优点将从描述、附图以及权利要求书变得显而易见。
附图说明
图1A至图1C是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图。
图2是将话语分类为很可能完整或者很可能不完整示例系统的示图。
图3是用于对话语是否很可能不完整进行分类的示例过程的示图。
在各个附图中相同的附图标记和标示指示相同的元件。
具体实施方式
图1是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图100。一般来说,示图100图示了在计算设备110处理传入音频输入102时由计算设备110生成或者检测到的信号102至108。计算设备110通过计算设备的麦克风或者其他音频输入设备来接收音频输入102,并且对音频输入102是很可能完整的话语还是很可能不完整的话语进行分类。
计算设备110接收音频输入102并且以预先指定的频率和分辨率对音频输入102采样。例如,计算设备110可以在8kHz、16kHz、44.1kHz或任何其他采样率对音频输入102采样,并且分辨率可以是16比特、32比特或任何其他分辨率。音频输入102图示了基于来自用户114的话语112的采样的模拟数据。在图1A中所图示的示例中,用户114对着计算设备110说出“What is…the meaning of life?”计算设备110可以记录并且存储对应于话语112的音频输入102。
计算设备110转录由用户114说出的话语112。在一些实现方式中,计算设备110使用运行自动语音识别(ASR)软件的计算设备110的处理器来转录话语112的词。例如,计算设备110可以在计算设备110本地确定初始部分音频输入102包含词语120“what”。随着计算设备110从用户接收话语112,ASR软件接收音频输入102。随着ASR软件在音频输入102中识别词语,ASR软件继而将提供该词语以用于向计算设备110输出。计算设备110记录在ASR软件返回ASR软件识别的词语之间的时间量。例如,ASR软件可以返回词语120“what”,然后一百毫秒之后返回词语122“is”,并且然后两百毫秒之后返回词语124“the”。计算设备110记录词语122“is”在一百毫秒之后跟随词语120“what”并且词语124“the”在两百毫秒之后跟随词语122“is”。在一些实现方式中,通过网络可访问的服务器可以运行ASR软件。在这种情况下,计算设备在网络上向服务器传输音频输入102,从服务器接收词语并且记录在服务器返回词语之间的时间量。
随着计算设备110转录话语112的词语120至130,计算设备110从通用端点器接收通用端点器信号104。计算设备110向通用端点器提供从ASR软件接收的词语和在每个词语之间的记录的时间。通用端点器比较记录的时间与阈值。如果在两个词语之间的记录的时间中的一个记录的时间满足阈值,则通用端点器在将端点标识为在两个词语之间。例如,阈值可以是一百五十毫秒。通用端点器比较在词语120“what”与词语122“is”之间的一百毫秒的时间。因为一百毫秒小于一百五十毫秒的阈值,所以通用端点器不在词语120“what”与词语122“is”之间添加端点。通用端点器也比较在词语122“is”与词语124“the”之间的两百毫秒的时间。因为两百毫秒大于一百五十毫秒的阈值,所以通用端点器在词语122“is”与词语124“the”之间添加端点。通用端点器信号104将端点图示为在活跃的信号与不活跃的信号之间的过渡。通用端点器信号在词语120“what”与词语122“is”之间活跃,并且在词语122“is”与词语124“the”之间变成不活跃。
在一些实现方式中,通用端点器等待在词语的结束之后、在通用端点器标识端点之前的时间的特定时段。在每个词语从ASR软件被接收之后或者在通用端点器接收到ASR标识了词语的指示之后,通用端点器进行等待。如果等待时间满足阈值,等通用端点器标识端点。例如,阈值可以是一百五十毫秒。如果通用端点器接收ASR软件已经标识了词语(诸如词语120“what”)的指示,则通用端点器将开始定时器。一百毫秒之后,通用端点器接收ASR软件已经标识了另一个词语(诸如词语122“is”)的指示。因为通用端点器的定时器没有达到一百五十毫秒的阈值,所以通用端点器在词语120“what”之后不标识端点。作为另一示例,通用端点器接收ASR软件已经标识了词语(诸如词语122“is”)的指示并且通用端点器开始定时器。如果一百五十毫秒之后,通用端点器没有接收到随后的词语的指示,则通用端点器在词语122“is”之后标识端点。
计算设备110使用ASR软件从音频输入102标识的词语来将词语分类为很可能不完整的话语或者非很可能不完整的话语。很可能不完整的话语信号106图示了这一分类的结果。为了将话语112的标识的词语分类为很可能不完整的话语,计算设备110比较标识的词语与文本样本的汇集中的文本样本。计算设备110确定以话语112的标识的词语开始并且包含附加的词语的文本样本的汇集中的文本样本的数量。换句话说,计算设备110确定文本样本的汇集中的包含与话语112的标识的词语匹配的前缀的文本样本的数量。例如,ASR软件将话语112的前两个词语标识为“what is”。计算设备110确定文本样本的汇集中,两千个文本样本以前缀“what is”开始并且包含附加的词语。计算设备还标识文本样本的汇集中的与话语112的标识的词语匹配并且不包含任何附加的词语的文本样本的数量。例如,计算设备110确定文本样本的汇集中,五个文本样本包含词语“what is”并且不包含附加的词语。
利用文本样本的汇集中的以话语112的标识的词语开始的文本样本的数量和包含话语112的标识的词语的文本样本的数量,计算设备110比较两个数量的比率与阈值比率。比较表示包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比较。如果比率小于阈值比率,则计算设备110将标识的词语分类为表示很可能不完整的话语。如果比率大于阈值比率,则计算设备110将标识的词语分类为不表示很可能不完整的话语。例如,如果比率是5:2000并且阈值比率是1:200,则计算设备110将标识的词语分类为表示很可能不完整的话语。
在一些实现方式中,计算设备110可以在数量中的一个或者两个数量都不满足阈值的情况下使比较无效。例如,如果包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比率是1:2,则计算设备可以基于以标识的词语开始并且包含附加的词语的文本样本的数量低于五的阈值来使比较无效。作为另一示例,如果包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比率是11,000:12,000,则然后计算设备110可以基于包含标识的词语并且不包含其他词语的文本样本的数量或者以标识的词语开始并且包含附加的词语的文本样本的数量或者这两者高于一万的阈值(如可能是具有诸如“so”等词语的情况)来使比较无效。
在一些实现方式中,除非通用端点器指示在两个词语之间存在端点,否则计算设备110不比较标识的词语与文本样本的汇集。例如,因为通用端点器信号104在词语120“what”之后是活跃的,所以计算设备110可以不比较词语120“what”与文本样本的汇集。作为另一示例,因为通用端点器信号在词语122之后是不活跃的,所以计算设备可以比较词语120至122“what is”与文本样本的汇集。
在一些实现方式中,除非在词语之间的停顿满足阈值,否则计算设备110不比较标识的词语与文本样本的汇集。例如,如果在词语之间的停顿大于一百五十毫秒,则计算设备110可以比较标识的词语。如果用户114在词语120“what”与词语122“is”之间停顿了一百毫秒,则计算设备将不比较词语120“what”与文本样本的汇集。如果用户114在词语122“is”与词语124“the”之间停顿了两百毫秒,则计算设备比较“what is”与文本样本的汇集。
基于在包含标识的词语并且不包含其他词语的文本样本的数量与以标识的词语开始并且包含附加的词语的文本样本的数量的比率与阈值比率之间的比较,计算设备110标识话语很可能不完整,直到在词语130“life”之后。响应于通用端点器信号104不活跃,计算设备110可能已经利用词语120和122“what is”比较了数量的比率与阈值比率,并且确定了“what is”表示很可能不完整的话语。响应于通用端点器信号104不活跃,计算设备110可能已经利用词语120至130“what is the meaning of life”比较了数量的比率与阈值比率,并且确定了“what is the meaning of life”不表示很可能不完整的话语。计算设备110可能已经确定了词语120至130对应于一百个文本样本的开始并且确定了词语120至130对应于一千个完整的样本。比率将是1000:100,其大于1:200的阈值比率。因此,计算设备110将词语120至130分类为非很可能不完整的话语。如在图1A中所示出的,话语112很可能是不完整的,直到在词语130“life”之后。
如在话语信号108的结束中所图示的,计算设备110断定话语112完整。一旦计算设备110断定话语112完整,计算设备110就将话语112输出为转录135。例如,计算设备110可以将“what is the meaning of life”输出为话语112的转录135。
在一些实现方式中,计算设备110基于将话语分类为很可能不完整来覆盖通用端点定位确定。例如,计算设备110将“what is”分类为很可能不完整的话语。在确定话语的结束被到达之前,计算设备110覆盖通用端点定位确定。
图1B是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图150。示图150图示了处理对应于由用户164说出的话语162“who is Barack Obama”的音频输入152的计算设备160。与图1A中的计算设备110类似,计算设备160接收用于音频输入152的通用端点器信号154。计算设备160从通用端点器接收通用端点器信号154,其中通用端点器基于在词语120至126之间的时间来标识端点。例如,计算设备160确定在词语170“who”与词语172“is”之间的时间是五十毫秒,并且确定在词语172“is”与词语174“Barack”之间的时间是两百毫秒。如果由用于通用端点定位的通用端点器使用的阈值是一百五十毫秒,则通用端点器在词语172“is”与词语174“Barack”之间标识端点,并且在词语170“who”与词语172“is”之间不标识端点。通用端点器信号154图示了在词语170和词语174之前并且在词语172和176之后的这些端点。
随着ASR软件标识话语162的词语并且通用端点器标识端点,计算设备160生成很可能不完整的话语信号156。与图1A中的计算设备110类似,计算设备160确定文本样本的汇集中的与标识的词语匹配的文本样本的数量和文本样本的汇集中的以标识的词语开始并且包含附加的词语的文本样本的数量。例如,计算设备160确定词语170和172“who is”与文本样本的汇集中的五十个文本样本匹配。为了图示,文本样本的汇集可以包含词语128“whois”的五十个样本。计算设备160确定词语170和172“who is”与文本样本的汇集中的三千个文本样本的开头匹配。为了图示,文本样本的汇集可以包含样本,诸如“who is thepope”、“who is my congressman”以及“who is Barack Obama”。
计算设备160计算文本样本的汇集中的与标识的词语匹配的文本样本的数量与文本样本的汇集中的以标识的词语开始的文本样本的数量的比率。计算设备比较这个比率与阈值比率以确定标识的词语是否表示很可能不完整的查询。在这一示例中,比率是50:3000。如以上所描述的,阈值比率可以是1:200。因为50:3000的比率大于1:200的阈值比率,所以如由词语178“whois”所图示的,计算设备160确定词语170和172为非很可能不完整的话语,并且在词语178处的音频输入152的结束处的很可能不完整的话语信号156是少量。
一旦计算设备160不再将标识的词语分类为很可能不完整的话语,计算设备160就确定话语的结束已经被到达。话语信号158的结束指示计算设备160已经在词语178处的音频输入152处标识了话语的结束。计算设备160将词语178输出为话语185。
在一些实现方式中,计算设备160基于标识的词语为非很可能不完整的分类来去激活计算设备160的麦克风。例如,一旦计算设备160确定词语178“whois”为非很可能不完整的词语,计算设备160就可以去激活用来接收音频输入152的麦克风。在一些实现方式中,一旦计算设备将词语标识为非很可能不完整,计算设备160就将端点添加到标识的词语。例如,计算设备可以在词语178“whois”之后对话语进行端点定位。
在一些实现方式中,计算设备可以基于文本样本的汇集中的与标识的词语匹配的文本样本的数量与文本样本的汇集中的以标识的词语开始的文本样本的数量的比率来去激活麦克风。如果比率不满足特定范围,则计算设备可以去激活麦克风,如果比率满足特定范围,则使得麦克风激活特定时段,或者如果比率不满足特定范围,则使得麦克风激活,直到计算设备再次确定话语很可能不完整。例如,比率的特定范围可以是1:200到1:30。如果确定的比率是5:2000,其小于1:200,则计算设备确定使得麦克风激活。如果确定的比率是5:300,其在1:200到1:30之间,则计算设备确定使得麦克风激活特定时段,诸如两秒。如果计算设备在两秒之前接收附加的音频输入,则计算设备处理附加的音频输入。如果计算设备在两秒内没有接收到附加的音频输入,则计算设备去激活麦克风。如果确定的比率是1:20,则计算设备去激活麦克风。
在图1B中,计算设备160在第二点处确定话语为非很可能不完整的。计算设备160确定词语174和176“Brack Obama”对应于非很可能不完整的话语,并且因此计算设备160如利用话语信号158的结束所图示的,在词语176“Obama”之后确定话语的结束。计算设备160输出转录185“whois”和转录188“Brack Obama”两个转录。
图1C是话语和用于在将话语分类为很可能不完整或者非很可能不完整中使用的示例信号的示图200。一般来说,示图200图示了在背景噪声存在的情况下,当计算设备处理传入音频信号时,由计算设备210生成或者检测到的信号202至208。计算设备210通过计算设备210的麦克风或者其他音频输入设备来接收音频输入202和背景噪声,并将音频输入202分类为很可能不完整或者非很可能不完整的话语。在示图200中所图示的示例中,背景噪声是音乐218。
除了计算设备210接收的附加的音乐218之外,在图1C中所图示的示例与在图1A中所图示的示例类似。在图1C中,用户214说出话语212“what is...the meaning of life”。计算设备210接收音频输入202和音乐218并且生成通用端点器信号204。用于音频输入202的初始端点对应于词语220“what”。利用在背景中的音乐218,因为音频输入202的信号强度不会降到阈值以下,所以计算设备210不能标识用于音频输入202的附加的端点。如由通用端点定位信号204所图示的,甚至在用户214完成说出话语212之后,通用端点定位信号204保持活跃。
尽管在音乐218存在的情况下,计算设备210或者在计算设备210上执行的通用端点器不能生成通用端点器信号204,计算设备210还是标识话语212的词语220至230。如上,计算设备210比较标识的词语与文本样本的汇集。计算设备210计算文本样本的汇集中的以话语212的标识的词语开始的文本样本的数量和包含话语212的标识的词语的文本样本的数量。计算设备210确定具有词语220至222“what is”的比率是5:2000和具有词语220至230“what is the meaning of life”的比率是1000:100。如由很可能不完整的话语信号206所图示的,计算设备210比较词语与1:200的阈值,并且确定词语220至230“what is themeaning of life”不对应于很可能不完整的话语。计算设备210基于不对应于很可能不完整的话语的词语220至230“what is the meaning of life”来断定话语212已经到达了话语的结束。计算设备210然后输出转录235“what is the meaning of life”。
图2是将话语分类为很可能完整或者很可能不完整的示例系统300的示图。系统300的组件可以被包含在计算设备中,诸如,计算设备110、160或者210。系统300包括音频子系统305。音频子系统305可以从外部源(诸如,人类的语音)接收音频信号310。音频子系统305包括麦克风315以接收音频信号310。音频子系统使用模数转换器320将通过麦克风315接收的音频转换成数字信号。音频子系统305也包括缓冲器325。缓冲器325可以存储数字化的音频,例如,为系统300的进一步处理做准备。
话语检测器的增强的结束330从音频子系统305接收并处理数字化的音频。话语检测器的增强的结束330通过使用连续语音识别器350来标识数字化的音频的词语并且比较标识的词语与文本语料库345来将数字化的音频分类为很可能不完整的话语或者非很可能不完整的话语。此外,话语检测器的增强的结束330使用通用端点器340来标识用于数字化的音频的通用端点。
随着话语检测器的增强的结束330接收数字化的音频,话语检测器的增强的结束330使用连续语音识别器350来标识对应于数字化的音频的词语。连续语音识别器350使用自动的语音识别来标识对应于数字化的音频的词语。在一些实现方式中,连续语音识别器350可以被本地实现在接收音频信号310的设备上。在一些实现方式中,连续语音识别器350被实现在服务器上,并且接收音频信号310的设备通过网络向服务器传送数字化的音频。随着服务器标识数字化的音频的词语,服务器然后发送回它们。话语检测器的增强的结束330记录在从连续语音识别器350接收词语之间的时间。例如,连续语音识别器350标识词语“what”,向连续语音识别器350传送该词语并且一百毫秒之后标识词语“is”并向连续语音识别器350传送该词语。
随着话语检测器的增强的结束330接收数字化的音频,话语检测器的增强的结束330使用来自通用端点器340的数据以标识对应于数字化的音频的通用端点。在一些实现方式中,通用端点器340分析数字化的音频的能量水平以确定端点。如果能量水平降低到阈值至少特定的时间量,则通用端点器340可以对数字化的音频进行端点定位。例如,如果数字化的音频对应于用户说出“what is”并且然后沉默三百毫秒,则通用端点器340确定沉默低于能量阈值,并且沉默的时段三百毫秒至少长于两百毫秒的阈值时间。在这种情况下,通用端点器340确定在数字化的音频的结束处存在对应于“is”的端点。
在一些实现方式中,通用端点器340接收由连续语音识别器350标识的词语和在每个词语之间的时间。如果在两个词语之间的时间满足阈值,则通用端点器340在这些两个词语之间添加端点。例如,如果在“what”与“is”之间是一百毫秒的时段并且阈值是一百五十毫秒,则因为时间时段低于阈值,所以通用端点器可以不在“what”与“is”之间添加端点。作为另一示例,如果在“is”与“the之间是两百毫秒的时段并且阈值是一百五十毫秒,则因为时间时段高于阈值,所以通用端点器可以在“is”与“the”之间添加端点。
当数字化的音频的能量水平高于阈值时,通用端点器340也可以标识通用端点。例如,如果数字化的音频对应于由说出“the”的用户跟随的沉默,则通用端点器340可以确定对应于“the”的数字化的音频的能量高于阈值。在这种情况下,通用端点器340确定在对应于“the”开始的数字化的音频中存在端点。
话语检测器的增强的结束330使用前缀或者完整的话语计数器335将对应于音频信号310的话语分类为很可能完整的话语或者非很可能完整的话语。在一些实现方式中,随着话语检测器的增强的结束330从连续语音识别器350接收标识的词语,话语检测器的增强的结束330比较那些标识的词语与文本语料库345。文本语料库345可以包括由多个用户执行的搜索查询或者由特定用户执行的搜索查询。在一些实现方式中,话语检测器的增强的结束330确定文本语料库345中的与标识的词语匹配的文本样本的数量和文本语料库345中的以标识的词语开始并且不包含附加的词语的文本样本的数量。例如,如果标识的词语是“what”,则话语检测器的增强的结束330确定“what”与文本语料库345中的文本样本中的三文本样本匹配并且“what”是文本语料库345中的三千个文本样本的前缀。如果标识的词语是“what is”,则话语检测器的增强的结束330确定“what is”与文本语料库345中的文本样本中的三个文本样本匹配并且“what is”是文本语料库345中的两千个文本样本的前缀。
在一些实现方式中,当标识的词语由满足阈值的停顿跟随时,话语检测器的增强的结束330确定文本语料库345中的与标识的词语匹配的文本样本的数量。例如,阈值可以是一百五十毫秒。如果标识的词语是“what”并且接着五十毫秒,则话语检测器的增强的结束330不能确定文本语料库345中的与“what”匹配的文本采样的数量和文本语料库345中的以“what”开始的文本采样的数量。作为另一示例,如果标识的词语是“what is”并且接着两百毫秒,则话语检测器的增强的结束330确定“what is”与文本语料库345中的文本样本中的三个文本样本匹配并且“what is”是文本语料库345中的两千个文本样本的前缀。在一些实现方式中,话语检测器的增强的结束330使用来自通用端点器340的通用端点定位信号,而不是标识由满足阈值的停顿跟随的词语。
前缀或者完整的话语计算器335使用确定的文本样本的数量来将标识的词语分类为很可能不完整的话语或者非很可能不完整的话语。前缀或者完整的话语计算器335使用文本语料库345中的与标识的词语匹配的文本样本的数量和文本语料库345中的以标识的词语开始的文本样本的数量来计算比率。前缀或者完整的话语计算器335比较确定的比率与阈值比率。如果计算出的比率满足阈值比率,则标识的词语为非很可能不完整的话语。如果计算出的比率不满足阈值比率,则标识的词语是很可能不完整的话语。例如,如果阈值比率是1:200并且标识的词语是“what is”,则确定的比率将是3:2000。在这种情况下,计算的比率小于阈值比率,因此前缀或者完整的话语计算器335将标识的词语分类为很可能不完整的话语。作为另一示例,如果阈值比率是1:200并且标识的词语是“who is”,则计算的比率将是1:150。在这种情况下,计算的比率大于阈值比率,因此前缀或者完整的话语计算器335将标识的词语分类为非很可能不完整的话语。
在一些实现方式中,一旦前缀或者完整的话语计算器335将话语分类为非很可能不完整的,话语检测器的增强的结束330就去激活麦克风315,从而使得音频子系统305不接收附加的音频信号。在一些实现方式中,一旦前缀或者完整的话语计算器335将话语分类成很可能不完整,话语检测器的增强的结束330就将麦克风315维持在激活的状态,从而使得音频子系统305接收附加的音频信号。
一旦话语检测器的增强的结束330将话语分类为非很可能不完整的,话语检测器的增强的结束330就将标识的词语输出为转录或者音频片段355。在一些实现方式中,转录或者音频片段355是话语检测器的增强的结束330分类为非很可能不完整的标识的词语的转录。例如,转录或者音频片段355可以是词语“what is the meaning of life”。在一些实现方式中,转录或者音频片段355是话语检测器的增强的结束330分类为非很可能不完整的标识的词语的音频片段。例如,转录或者音频片段355可以是对应于词语“whois”的音频片段。音频片段可以被缩短以仅包括音频信号310的包含标识的词语的部分。音频片段可以带有转录或者附加的元数据。
图3是用于对话语是否很可能不完整进行分类的示例过程的示图。过程400可以由计算设备(诸如来自图1A的计算设备110)执行。过程400分析音频数据并且使用词比较将话语分类为很可能不完整的或者非很可能不完整的。
计算设备获得话语的转录(410)。话语可以从向设备的麦克风中说话的用户以及接收对应于用户说话的音频信号的设备被接收。设备处理音频信号以标识用户正在说出的词语的转录。在一些实现方式中,设备可以记录指定在转录的词语之间的时间的定时数据。
计算设备将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值(420)。文本样本的汇集可以是可以关联于特定用户或者由多个用户生成的搜索查询的汇集。在一些实现方式中,设备标识以与转录相同的顺序包括词语的文本样本的数量。例如,转录是“what is”。设备标识包括词语“what”和“is”并且不包括其他词语的文本样本的汇集中的五个文本样本。设备标识那些文本样本中的三个文本样本以与“what is”相同的顺序包括“what”和“is”。在这一示例中,第一值是三。
计算设备将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值(430)。在一些实现方式中,设备标识包括转录的词语作为文本样本的前缀的文本样本的数量。例如,转录是“what is”。设备标识包括词语“what is”作为前缀的文本样本的汇集中的三千个文本样本。例如,“what is theweather”包括前缀“what is”。设备也可以标识包括词语“what is”作为中缀的文本样本的汇集中的五十个文本样本。例如,“most popular movie what is it”包括“what is”作为中缀。设备也可以标识包括“what is”作为后缀的文本样本的汇集中的两个文本样本。例如,“scary monster what is”包括“what is”作为后缀。在这一示例中,第二值是三千。
计算设备至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语(440)。在一些实现方式中,设备计算第一值与第二值的比率并且比较计算出的比率与阈值比率。基于计算出的比率与阈值比率的比较,设备可以将话语分类为很可能不完整的。例如,如果第一值与第二值的计算出的比率是3:3000并且阈值比率是1:200,则其中计算出的比率小于阈值比率,设备将话语分类为很可能不完整的。如果第一值与第二值的计算出的比率是1:150并且阈值比率是1:200,则其中计算出的比率大于阈值比率,设备将话语分类为不大可能不完整的。
在一些实现方式中,设备将话语分类为很可能不完整的并且将设备的麦克风维持在激活状态以接收附加的话语。在一些实现方式中,设备将话语分类为非很可能不完整的并且去激活设备的麦克风并且开始处理话语。在一些实现方式中,设备可以基于在说话之后用户停顿长时间来将话语分类为完整的。例如,设备可以通过使用通用端点器来断定有长停顿跟随的“what is”是完整的话语。如果设备比较“what is”与文本样本的汇集并且将“what is”分类为很可能不完整的话语,则设备可以覆盖话语完整的初始结论。设备可以将麦克风维持在激活状态中以接收附加的话语。
在一些实现方式中,设备将话语分类为非很可能不完整的并且处理话语。设备可以向搜索引擎或者其他自然语言处理引擎提交话语的转录。在一些情况下,搜索引擎或者其他自然语言处理引擎可以确定对话语的适当的响应并且向设备输出响应以用于向用户回放。搜索引擎或者其他自然语言处理引擎可以确定具有从用户引出答复的可能性的响应。在那种情况下,搜索引擎或者其他自然语言处理引擎可以在响应中包括供设备将麦克风维持在激活状态以使得用户可以回答的标志。例如,设备向搜索引擎提交话语“whattime is it”并且搜索引擎确定是三点钟。在这一示例中,存在较少的可能性用户将在对时间的响应上具有跟随。因此,搜索引擎向设备提供数据以使得设备告诉用户时间是“threeo’clock”并且数据包括供设备在告诉用户时间之后不将麦克风维持在激活状态中的标志。作为另一示例,设备向搜索引擎提交话语“when is the next baseball game”并且搜索引擎确定适当的响应是“The baseball game is on Sunday.Would you like to set areminder?”。在这一示例中,存在较高的可能性用户将在对关于设置提醒的问题的响应上具有跟随。因此,搜索引擎向设备提供数据以使得设备告诉用户“The baseball game ison Sunday.Would you like to set a reminder?”并且数据包括供设备在告诉用户时间之后将麦克风维持在激活状态中的标志,以使得用户在不用手动地激活麦克风或者不使用热词的情况下可以说出答案。
可以在数字电子电路中或者在计算机软件、固件或者硬件(包括在本说明书中所公开的结构及其结构等效物)中或者在它们中的一项或者多项的组合中实施在本说明书中描述的主题内容和操作的实施例。可以将在本说明书中描述的主题内容的实施例实施为一个或者多个计算机程序,即,编码在计算机存储介质上的用于由数据处理装置执行或者控制数据处理装置的操作的一个或者多个计算机程序指令模块。备选地或者附加地,可以在人为生成的传播的信号(例如,机器生成的电、光或者电磁信号)上对程序指令编码,该信号被生成用于对信息编码以用于向适当接收器设备传输以供数据处理装置执行。计算机存储介质可以是或者被包括在计算机可读存储设备、计算机可读存储衬底、随机或者串行访问存储器阵列或者设备或者它们中的一项或者多项的组合。此外,虽然计算机存储介质不是传播的信号,但是计算机存储介质可以是被编码在人工生成的传播的信号中的计算机程序指令的源或者目的地。计算机存储介质也可以是或者被包括在一个或者多个分离的物理组件或者介质(例如,多个CD、磁盘或者其他存储设备)中。
本说明书中所描述的操作可以被实施为在存储在一个或者多个计算机可读存储设备中或者从其他源接收的数据上由数据处理装置执行的操作。
词语“数据处理装置”涵盖各种用于处理数据的装置、设备和机器,举例而言包括可编程处理器、计算机、片上系统、或者多个或者前述的组合。该装置可以包括专用逻辑电路装置,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。该装置除了硬件之外也可以包括为讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统的代码、跨平台运行环境、虚拟机或者它们中的一项或者多项的组合。装置和执行环境可以实现各种不同的计算模型基础设施,诸如web服务、分布式计算以及网格计算基础设施。
计算机程序(也被称为程序、软件、软件应用、脚本或者代码)可以用任何形式的编程语言(包括编译或者解译语言、说明或者过程语言)编写,并且计算机程序可以用任何形式被部署,包括被部署为独立程序或者被部署为适合于在计算环境中使用的模块、组件、子例程、对象或者其他单元。计算机程序可以但是无需对应于文件系统中的文件。程序可以被存储于保持其他程序或者数据的文件(例如,存储于标记语言文档中的一个或者多个脚本)的一部分中、专用于讨论的程序的单个文件中,或者多个协同文件(例如,存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署用于在一个计算机上或者在位于一个地点或者跨多个地点分布并且由通信网络互连的多个计算机上执行。
本说明书中所描述的过程和逻辑流可以由一个或者多个可编程处理器执行,该一个或者多个可编程处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行动作。该过程和逻辑流也可以由专用逻辑电路装置(例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路))执行并且也可以将设备实施为专用逻辑电路。
举例而言,适合于执行计算机程序的处理器可以包括通用微处理器和专用微处理器二者、以及任何之类的数字计算机中的任何一个或者多个处理器。一般而言,处理器将从只读存储器或者随机访问存储器或者二者接收指令和数据。计算机的必要元件是用于执行根据指令的动作的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机还将包括用于存储数据的一个或者多个海量存储设备(例如,磁盘、磁光盘或者光盘)或者被操作地耦合用于从该一个或者多个海量存储设备接收数据或者向该一个或者多个海量存储设备传送数据或者接收和传送二者。然而,计算机无需具有这样的设备。另外,计算机可以被嵌入于另一设备中,聊举数例,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携存储设备(例如,通用串行总线(USB)闪存驱动)。适合于存储计算机程序指令和数据的设备包括各种形式的非易失性存储器、介质、存储器设备,举例而言包括半导体存储设备,例如,EPROM、EEPROM以及闪存设备;磁盘,例如,内部硬盘或者可拆卸磁盘;磁光盘;CD-ROM、以及DVD-ROM磁盘。处理器和存储器可以被补充到或者并入专用逻辑电路中。
为了提供与用户的交互,可以在计算机上实施在本说明书中描述的主题内容的实施例,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指点设备,例如,鼠标或者轨迹球。其他种类的设备也可以用来提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感官反馈,例如,视觉反馈、听觉反馈或者触觉反馈;并且可以接收来自用户的包括声音、语音或者触觉输入的任何形式的输入。此外,计算机可以通过向用户使用的设备发送文档和从该设备接收文档(例如,通过响应于从用户的客户端设备上的web浏览器接收的请求向web浏览器发送网页)来与用户交互。
本说明书中所描述的主题内容的实施例可以在计算系统中被实施,该计算系统包括例如作为数据服务器的后端组件或者包括中间件组件(例如,应用服务器)或者包括前端组件(例如,具有图形用户接口或者Web浏览器(用户可以通过该图形用户接口或者Web浏览器与在本说明书中描述的主题内容的实现方式交互)的客户端计算机)或者一个或者多个这样的后端、中间件或者前端部件的任何组合。系统的组件可以通过任何数字数据通信形式或者介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),互联网络(例如,因特网)以及对等网络(例如,自组织对等网络)。
由于具有安装在操作中的系统上的软件、固件、硬件或者它们的组合引起系统执行动作,一个或者多个计算机的系统可以被配置为执行特定操作或者动作。由于包括当由数据处理装置执行时引起装置执行动作的指令,一个或者多个程序可以被配置为执行特定操作或者动作。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。在一些实施例中,(例如,出于显示数据并且从与客户端设备交互的用户接收用户输入的目的)服务器向客户端设备传送数据(例如,HTML页面)。在客户端设备处生成的数据(例如,用户交互的结果)可以从服务器处的客户端设备被接收。
尽管本说明书包含许多具体实现方式细节,但是不应将这些解释为限制可以要求保护的或者任何创新的内容的范围,而是应解释为对特定创新的特定实施例特有的特征的解释。在本说明书中在分离的实施例的背景中描述的某些特征也可以在单个实施例中被组合实施。相反地,在单个实施例的背景中描述的各种特征也可以在多个实施例中分离地或者在任何适当子组合中被实施。另外,虽然上文可以将特征描述为在某些组合中动作并且甚至起初这样要求保护,但是来自要求保护的组合的一个或者多个特征可以在一些情况下从该组合中被删除,并且要求保护的组合可以涉及子组合或者子组合的变型。
类似地,尽管在附图中以特定顺序描绘操作,但是这不应被理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中要求这样的分离,并且应当理解描述的程序组件和系统一般可以被一起集成于单个软件产品中或者被封装到多个软件产品中。
因此,已经描述了主题内容的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下,在权利要求中记载的动作可以按不同顺序被执行而仍然实现希望的结果。此外,在附图中描绘的过程未必需要所示特定顺序或者依次顺序以实现希望的结果。在某些实现方式中,多任务和并行处理可以是有利的。

Claims (15)

1.一种计算机实现的用于对语音进行端点定位的方法,包括:
获得话语的转录;
确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量;
确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量;
比较所述第一数量和第二数量;
至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语;以及
基于将所述话语分类为很可能不完整的话语,维持麦克风处于激活状态以接收附加的话语,或者基于将所述话语分类为非很可能不完整的话语,去激活所述麦克风。
2.根据权利要求1所述的方法,其中,确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量包括:
在每个文本样本中确定与所述转录匹配的词语以与在所述转录中相同的顺序出现。
3.根据权利要求1所述的方法,其中,确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量包括:
在每个文本样本中确定与所述转录匹配的所述词语在每个文本样本的前缀处出现。
4.根据权利要求1所述的方法,其中,
比较所述第一数量和第二数量包括:
确定所述第一数量与所述第二数量的比率,
确定所述比率满足阈值比率;并且
至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括:
基于确定所述比率满足所述阈值比率来将所述话语分类为很可能不完整的话语。
5.根据权利要求1所述的方法,包括:
接收指示话语完整的数据;
其中至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括:将所述话语分类为很可能不完整的话语;并且
基于将所述话语分类为很可能不完整的话语来覆盖指示话语完整的所述数据。
6.根据权利要求1所述的方法,其中,所述文本样本的汇集是搜索查询的汇集。
7.一种用于对语音进行端点定位的系统,包括:
一个或者多个计算机和一个或者多个存储设备,所述存储设备存储可操作的指令,所述指令当由所述一个或者多个计算机执行时,使得所述一个或者多个计算机执行操作,所述操作包括:
获得话语的转录;
确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量;
确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量;
比较所述第一数量和第二数量;
至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语;以及
基于将所述话语分类为很可能不完整的话语,维持麦克风处于激活状态以接收附加的话语,或者基于将所述话语分类为非很可能不完整的话语,去激活所述麦克风。
8.根据权利要求7所述的系统,其中,确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量包括:
在每个文本样本中确定与所述转录匹配的词语以与在所述转录中相同的顺序出现。
9.根据权利要求7所述的系统,其中,确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量包括:
在每个文本样本中确定与所述转录匹配的所述词语在每个文本样本的前缀处出现。
10.根据权利要求7所述的系统,其中,
比较所述第一数量和第二数量包括:
确定所述第一数量与所述第二数量的比率,
确定所述比率满足阈值比率;并且
至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括:
基于确定所述比率满足所述阈值比率来将所述话语分类为很可能不完整的话语。
11.根据权利要求7所述的系统,所述操作还包括:
接收指示话语完整的数据;
其中至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括:将所述话语分类为很可能不完整的话语;并且
基于将所述话语分类为很可能不完整的话语来覆盖指示话语完整的所述数据。
12.一种存储软件的非瞬态的计算机可读介质,所述软件包括由一个或者多个计算机可执行的指令,所述指令在这样的执行时,使得所述一个或者多个计算机执行操作,所述操作包括:
获得话语的转录;
确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量;
确定文本样本的所述汇集中的(i)包括与所述转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的第二数量;
比较所述第一数量和第二数量;
至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语;以及
基于将所述话语分类为很可能不完整的话语,维持麦克风处于激活状态以接收附加的话语,或者基于将所述话语分类为非很可能不完整的话语,去激活所述麦克风。
13.根据权利要求12所述的介质,其中,确定文本样本的汇集中的(i)包括与所述转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的第一数量包括:
在每个文本样本中确定与所述转录匹配的词语以与在所述转录中相同的顺序出现。
14.根据权利要求12所述的介质,其中,
比较所述第一数量和第二数量包括:
确定所述第一数量与所述第二数量的比率,
确定所述比率满足阈值比率;并且
至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括:
基于确定所述比率满足所述阈值比率来将所述话语分类为很可能不完整的话语。
15.根据权利要求12所述的介质,所述操作还包括:
接收指示话语完整的数据;
其中至少基于比较所述第一数量与所述第二数量来将所述话语分类为很可能不完整的话语或者非很可能不完整的话语包括:将所述话语分类为很可能不完整的话语;并且
基于将所述话语分类为很可能不完整的话语来覆盖指示话语完整的所述数据。
CN201510195100.9A 2014-04-23 2015-04-22 基于词比较的语音端点定位 Active CN105006235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010581401.6A CN111627424A (zh) 2014-04-23 2015-04-22 基于词比较的语音端点定位的方法、系统和介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461983025P 2014-04-23 2014-04-23
US61/983,025 2014-04-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010581401.6A Division CN111627424A (zh) 2014-04-23 2015-04-22 基于词比较的语音端点定位的方法、系统和介质

Publications (2)

Publication Number Publication Date
CN105006235A CN105006235A (zh) 2015-10-28
CN105006235B true CN105006235B (zh) 2020-07-17

Family

ID=52991538

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010581401.6A Pending CN111627424A (zh) 2014-04-23 2015-04-22 基于词比较的语音端点定位的方法、系统和介质
CN201510195100.9A Active CN105006235B (zh) 2014-04-23 2015-04-22 基于词比较的语音端点定位

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010581401.6A Pending CN111627424A (zh) 2014-04-23 2015-04-22 基于词比较的语音端点定位的方法、系统和介质

Country Status (3)

Country Link
US (6) US9607613B2 (zh)
EP (3) EP3767620A3 (zh)
CN (2) CN111627424A (zh)

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US20170069309A1 (en) 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10133821B2 (en) 2016-01-06 2018-11-20 Google Llc Search result prefetching of voice queries
JP6447578B2 (ja) * 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US10593352B2 (en) 2017-06-06 2020-03-17 Google Llc End of query detection
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10276031B1 (en) 2017-12-08 2019-04-30 Motorola Solutions, Inc. Methods and systems for evaluating compliance of communication of a dispatcher
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020214269A1 (en) * 2019-04-16 2020-10-22 Google Llc Joint endpointing and automatic speech recognition
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110619873A (zh) 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210044985A (ko) * 2019-10-16 2021-04-26 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
US11705125B2 (en) * 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants
CN113393840B (zh) * 2021-08-17 2021-11-05 硕广达微电子(深圳)有限公司 一种基于语音识别的移动终端控制系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1180204A (zh) * 1996-05-02 1998-04-29 微软公司 大写和无重音文本的词典处理的方法和系统
US5940794A (en) * 1992-10-02 1999-08-17 Mitsubishi Denki Kabushiki Kaisha Boundary estimation method of speech recognition and speech recognition apparatus
CN1252592A (zh) * 1998-10-28 2000-05-10 国际商业机器公司 会话自然语言的命令边界鉴别器
TW201403590A (zh) * 2012-07-06 2014-01-16 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US6321197B1 (en) 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
WO2000046789A1 (fr) 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
IT1315917B1 (it) 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
SE517005C2 (sv) * 2000-05-31 2002-04-02 Hapax Information Systems Ab Segmentering av text
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
US7277853B1 (en) 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7177810B2 (en) 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
JP3557605B2 (ja) * 2001-09-19 2004-08-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム
US20050108011A1 (en) 2001-10-04 2005-05-19 Keough Steven J. System and method of templating specific human voices
EP1456837B1 (de) * 2001-12-21 2006-03-22 Telefonaktiebolaget LM Ericsson (publ) Verfahren und vorrichtung zur spracherkennung
US7035807B1 (en) 2002-02-19 2006-04-25 Brittain John W Sound on sound-annotations
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US20080294433A1 (en) * 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
JP4732030B2 (ja) * 2005-06-30 2011-07-27 キヤノン株式会社 情報処理装置およびその制御方法
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100762636B1 (ko) * 2006-02-14 2007-10-01 삼성전자주식회사 네트워크 단말의 음성 검출 제어 시스템 및 방법
CA2570744C (en) 2006-04-24 2014-07-15 Bce Inc. Method, system and apparatus for conveying an event reminder
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
CN101197131B (zh) 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
US8364485B2 (en) 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
WO2009101837A1 (ja) 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
CA2680304C (en) 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
DE102008058883B4 (de) 2008-11-26 2023-07-27 Lumenvox Corporation Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
US8494857B2 (en) * 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
KR101622111B1 (ko) * 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
KR101377459B1 (ko) 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
WO2011133924A1 (en) 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
US8762150B2 (en) 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9015048B2 (en) * 2012-11-30 2015-04-21 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
US9437186B1 (en) 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940794A (en) * 1992-10-02 1999-08-17 Mitsubishi Denki Kabushiki Kaisha Boundary estimation method of speech recognition and speech recognition apparatus
CN1180204A (zh) * 1996-05-02 1998-04-29 微软公司 大写和无重音文本的词典处理的方法和系统
CN1252592A (zh) * 1998-10-28 2000-05-10 国际商业机器公司 会话自然语言的命令边界鉴别器
TW201403590A (zh) * 2012-07-06 2014-01-16 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法

Also Published As

Publication number Publication date
US9607613B2 (en) 2017-03-28
US10546576B2 (en) 2020-01-28
EP3188183A1 (en) 2017-07-05
US20200043466A1 (en) 2020-02-06
US20210248995A1 (en) 2021-08-12
EP3767620A3 (en) 2021-04-07
EP2937860B1 (en) 2020-10-14
EP3767620A2 (en) 2021-01-20
US11636846B2 (en) 2023-04-25
EP2937860A1 (en) 2015-10-28
CN111627424A (zh) 2020-09-04
US20230237988A1 (en) 2023-07-27
US20160260427A1 (en) 2016-09-08
CN105006235A (zh) 2015-10-28
US10140975B2 (en) 2018-11-27
US20190043480A1 (en) 2019-02-07
US11004441B2 (en) 2021-05-11
US20150310879A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
CN105006235B (zh) 基于词比较的语音端点定位
US11942083B2 (en) Recognizing speech in the presence of additional audio
US9754584B2 (en) User specified keyword spotting using neural network feature extractor
JP7359886B2 (ja) 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体
KR102205371B1 (ko) 개별화된 핫워드 검출 모델들
CN110825340B (zh) 提供预先计算的热词模型
US8843369B1 (en) Speech endpointing based on voice profile
US20080189106A1 (en) Multi-Stage Speech Recognition System
US9240183B2 (en) Reference signal suppression in speech recognition
DK201770105A1 (en) Improving automatic speech recognition based on user feedback
US9443517B1 (en) Generating sounds for detectability by neural networks
AU2019100034A4 (en) Improving automatic speech recognition based on user feedback

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant