CN104584119A - 确定热词适合度 - Google Patents

确定热词适合度 Download PDF

Info

Publication number
CN104584119A
CN104584119A CN201380043134.5A CN201380043134A CN104584119A CN 104584119 A CN104584119 A CN 104584119A CN 201380043134 A CN201380043134 A CN 201380043134A CN 104584119 A CN104584119 A CN 104584119A
Authority
CN
China
Prior art keywords
hot word
word
candidate
fitness score
speech data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380043134.5A
Other languages
English (en)
Other versions
CN104584119B (zh
Inventor
A·E·鲁宾
J·沙尔克威克
M·C·P·桑马丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201611132499.7A priority Critical patent/CN106782607B/zh
Publication of CN104584119A publication Critical patent/CN104584119A/zh
Application granted granted Critical
Publication of CN104584119B publication Critical patent/CN104584119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • G06F21/46Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

用于确定热词适合度的方法、系统和装置,包括在计算机存储介质上进行编码的计算机程序。一个方面,一种方法包括接收对用户所讲出的候选热词进行编码的语音数据;使用一种或多种预定准则对该语音数据或者候选热词的转录进行评估;使用一种或多种预定准则基于对该语音数据或候选热词的转录的评估而针对候选热词生成热词适合度分数;并且提供该热词适合度分数的表示以便向用户显示。

Description

确定热词适合度
相关申请的交叉引用
本申请要求于2012年7月3日提交的美国临时专利申请第61/667,817号以及于2012年8月6日提交的美国专利申请第13/567,572号的权益,这两个申请的通过引用全文结合于此。
技术领域
本说明书涉及热词适合度的确定。
背景技术
热词有时也被称作“关注词”或“唤醒词”,其为用户提供了与支持语音的计算设备开始交互的免提方式。当该计算设备检测到用户讲出热词时,该设备进入接收进一步的用户命令的准备状态。设备制造商和软件开发商通常提供供用户采用以便与其设备或软件应用进行交互的预定热词。
发明内容
根据该说明书中所描述的主题的一个创新方面,移动设备的用户可以定义其自己的热词以便由移动设备使用。候选热词能够被评估以例如确定该候选热词是否容易被设备与另一个词进行混淆,或者该候选热词是否不适合作为热词使用。该评估结果被显示给用户,用户随后可以确认其是否想要指定该候选热词作为热词,或者提交不同的候选热词进行评估。
作为该说明书中所描述的主题的另一个创新方面,一种过程包括:接收对用户所讲出的候选热词进行编码的语音数据;使用一种或多种预定准则对该语音数据或者候选热词的转录进行评估;使用一种或多种预定准则,基于对该语音数据或该候选热词的转录的评估而针对该候选热词生成热词适合度分数;以及提供该热词适合度分数的表示以便向用户显示。
这些方面的其它实施例包括相应的系统、装置以及在计算机存储设备上编码的计算机程序,其被配置为执行该方法的操作。
这些和其它实施例可选地均可以包括以下一个或多个特征。例如,该热词适合度分数反映候选热词作为热词使用的适合度;热词是用于唤醒设备的关键词或关键短语;热词是用于解锁设备的关键词或关键短语;热词是语音密码;该语音数据从用户所操作的移动设备进行接收;生成热词适合度分数包括使用两个或更多预定准则,基于对该语音数据或者该候选热词的转录的评估而针对该预定准则中的每一个预定准则生成特征分数,对该特征分数进行汇总,并且输出经汇总的特征分数以作为热词适合度分数;评估该语音数据或候选热词的转录包括以帧为单位确定该语音数据的词长度,其中较长的词长度与较高的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定与候选热词相关联的音节或音素的数量,其中较大的音节或音素的数量与较高的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定该候选热词的转录和与该候选热词共享相同语言的一个或多个其它词之间的编辑距离,其中较小的编辑距离与较低的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定针对该候选热词规定的发音的数量,其中较少的发音的数量与较高的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定在该候选热词的转录中出现一个或多个特定音素;特定音素在该转录中的出现与较高的热词适合度分数相关联;特定音素在该转录中的出现与较低的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定语音识别器可用的热词的训练示例的数量,其中较小的训练示例的数量与较低的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定该候选热词的发音在用户对该候选热词的多次表达中发生变化的程度,其中较大的程度与较低的热词适合度分数相关联;热词适合度分数的表示包括指示候选热词适合作为热词的数据;热词适合度分数的表示包括指示候选热词已经被接受作为热词的数据;热词适合度分数的表示包括热词适合度分数的经色彩编码的表示;和/或热词适合度分数的表示包括条(bar)、量计(gauge)或仪表。
有利的实施方式可以包括以下一个或多个特征。在对热词进行评估时可以考虑与候选热词以及特定讲话者(例如,设备用户)相关的准则。可以对各种热词适合度准则进行计分并汇总,这确保了每个准则都被加以考虑,并且特定准则在热词评估过程期间不会占据主导。设备用户可以在为其设备选择热词时接收热词适合度分数以便做出知情决策。使用适当热词可以改进设备执行热词检测的能力,因此改善设备性能和用户体验。此外,使用适当热词可以限制出现“错误肯定”的热词检测而错误地激活设备的可能性,因此节省了设备资源。
附图和以下的描述中给出了一种或多种实施方式的细节。其它可能的特征和优势将由于描述、附图和权利要求变得显而易见。
附图说明
图1和2是可以确定所讲出的热词的适合度的示例系统的示图。
图3是图示用于确定所讲出的关键词并且用于提供适合度的表示的示例处理的流程图。
图4示出了一般计算机设备和一般移动计算机设备的示例。
各图中同样的附图标记和标注指示同样的元素。
具体实施方式
图1是可以确定所讲出的热词的适合度的示例系统100的示图。图1还图示了以阶段(A)至(H)所示的示例数据流。阶段(A)至(H)可以以所图示的顺序进行,或者它们可以以与所图示的顺序不同的顺序进行。
通常,热词适合度可以由系统100作为热词指定处理的一部分来确定。热词可以包括用户所讲出的用于与静态、便携式或移动计算设备进行交互或者对它们进行控制的关键词或关键短语。例如,热词可以由用户讲出以发起与计算设备的通信,这通常将设备置于其可以接收另外的语音命令的状态。例如,在检测到所讲出的热词时,计算设备可以执行各种操作,包括激活(即,从休眠或空闲状态“唤醒”)、解锁、开启设备应用(例如,搜索应用、地图应用等)、加载优选用户设置和/或其它适当操作。
设备用户可能想要选择特定的词或短语来用作其计算设备的热词。例如,对个人具有意义的词或短语可以用来对设备进行定制,可以以幽默的方式对设备进行个性化,并且与设备制造商所提供的词或短语相比用户更易于记住或发音。此外,用户所选择的热词可以提供安全措施,特别是用作密码。然而,一些词或短语与其它词或短语相比可能更容易被计算设备所检测,并且因此可以用作更好的热词。如以下示例中所描述的,热词的可检测性取决于与特定词或短语相关并且与特定讲话者相关的各种因素,诸如词或短语的长度、词或短语中所包括的音节或语音的数量、特定语音的出现、词或短语被识别的发音的数量、讲话者所讲出的词或短语发音的变化、来自各个其它讲话者的词或短语的训练示例的可用性以及所讲出的词或短语与共享语言的其它词或短语之间的编辑距离。每种准则可以进行打分、汇总并且向用户输出,因此提供候选热词的适合度的整体指示。例如,基于热词适合度分数,用户可以在为其设备选择热词时做出知情决策。
更为详细地,系统100包括计算设备102(这里在各个操作阶段被示为计算设备102a、102b和102c),其能够呈现界面104(这里在各个操作阶段被示为界面104a、104b和104c)以便向用户显示。计算设备102包括一个或多个处理器,其被配置为执行由计算机可读介质所存储的用于执行诸如输入/输出、通信、数据处理等的各种设备操作的指令。例如,计算设备102可以包括一个或多个客户端计算设备(例如,台式计算机、膝上型计算机、笔记本计算机、导航系统、智能电话和或者其它适当计算设备)和/或可以包括一个或多个服务器(例如,后端服务器集群)。例如,客户端计算设备所接收的输入可以在本地进行处理,或者可以被提供至后端系统(例如,云端)以便进行处理。作为另一个示例,该处理可以在一个或多个客户端计算设备(例如,处于端对端配置)和/或服务器之间进行分布。
参考示例数据流,在阶段(A),提示用户讲出或键入候选热词。例如,计算设备102(这里被示为102a)可以经由界面104(这里被示为界面104a)向用户提供指令消息“请讲出您所期望的热词”。在当前示例中,用户表达出候选热词“pizza”并且计算设备102基于该表达捕获、编码和/或生成语音数据110。
该语音数据110例如可以包括音频源数据112(例如,音频流、数字采样的音频文件或者另一种适当的数据格式)、相对应的音素(phone)集合114(即,说话声),以及可选地包括转录116。例如,为了识别音素集合114(例如,在用户表达的“pizza”中所检测到的语音声音),计算设备102和/或后端计算设备能够对音频源数据112中所包括的声信号进行分析,并且能够基于该分析来计算声音特征并对其进行分类。另外,为了生成转录116(例如,所转录的词“pizza”),计算设备102和/或后端计算设备能够使用语音识别技术(例如,隐马尔科夫模型、神经网络或其它适当技术)将音素集合114与词或短语相关联。例如,在捕获、编码和/或生成语音数据110时,该数据可以被提供至一个或多个热词强度评估引擎120。
在阶段(B)期间,对语音数据进行处理和评估。在当前示例中,热词强度评估引擎120可以处理并评估语音数据110。热词强度评估引擎120例如可以包括被配置为对语音数据进行处理和评估的一个或多个硬件和/或软件组件(例如,模块、对象、库等),并且可以由计算设备102和/或其它相关联的设备(例如,后端服务器、对等设备等)的一个或多个处理器执行。
通常,可以使用各种准则来评估语音数据。例如,每种准则可以与不同的热词强度评估引擎相关联,后者进而可以基于特定准则产生特征分数。每个不同的热词强度评估引擎例如可以评估音频源数据、所得出的音素集合、转录和/或与候选热词相关联的其它适当语音数据。此外,在一些实施方式中,可以对训练示例(与讲话者和/或其它讲话者所讲出的候选热词的过去表达相关联的语音数据)进行评估。例如,训练示例可以由训练示例数据存储库122进行维护。训练示例数据存储库122能够实施数据库、数据服务、文件系统等以增加、删除并维护系统100所使用的数据。
在当前示例中,热词强度评估引擎120中的一个或多个可以对音频源数据112进行评估以按照帧(即,基于时间的音频分段)来确定词长度。例如,后选热词“pizza”可以被认为与其它词相比相对简短,或者特定讲话者可能与其它词或其它讲话者相比恰好相对快速地表达出词“pizza”。例如,基于词长度准则,热词长度评估引擎120之一可以产生相对应的特征分数124a(例如,低分数)。
继续当前示例,热词强度评估引擎120之一可以对音素集合114和/或转录116进行评估以识别候选热词与讲话者的语言中的其它词或短语的编辑距离或音素混淆度。例如,为了识别编辑距离,可以使用有限状态换能器、音素至音素换能器和/或语言模型来确定可能与候选热词相混淆的最可能的词或短语。在当前示例中,可以确定诸如“visa”、“piece of”和“beet saw”(除其它之外)之类的若干个词或短语很可能与候选热词“pizza”相混淆。基于编辑距离准则,例如,热词强度评估引擎120之一可以确定有中等数量的词或短语与候选热词“pizza”具有小的编辑距离,并且因此可以产生相对应的特征分数124b(例如,中等或低等分)。
另外,在当前示例中,热词强度评估引擎120之一可以对转录116和/或训练示例数据存储库122所提供的数据进行评估以识别针对候选热词所指定的发音数量。例如,为了识别词“pizza”的可能发音,热词强度评估引擎可以基于转录116参考词典或发音指南中的词。作为另一个示例,热词强度评估引擎可以参考训练示例数据存储库122中的词“pizza”,并且可以识别各个讲话者如何对该词进行发音的变化。在当前示例中,可以确定的是,虽然在词典或发音指南中仅找到了词“pizza”的一种官方美式英语发音,但是美国讲话者如何对该词发音则存在一些变化。例如,一些美国讲话者可能会使用词“pizza”的本土意大利讲话者的发音。例如,基于发音数量准则,热词强度评估引擎120之一可以确定针对候选词“pizza”存在少量到中等数量的发音,并且因此可以产生相对应的特征分数124c(例如,高或中等分数)。
在阶段(C)期间,生成热词适合度分数。例如,在生成每个特征分数124a、124b和124c时,特征分数的集合126可以被提供至热词分数生成器128。热词分数生成器128例如可以对分数124a、124b和124c进行汇总并且提供经汇总的特征分数作为热词适合度分数。例如,为了生成热词适合度分数,热词分数生成器128可以使用逻辑回归或可替换分类器来训练用于估计候选热词(例如,词“pizza”)的置信度值的模型。通常,高的置信度值可以与可能适合的热词相关联。作为另一个示例,热词分数生成器可以为每个特征分数124a、124b和124c指定适当权重(例如,基于经验分析)并且可以执行汇总操作。
在阶段(D)期间,提供热词适合度分数的表示以便向用户显示。例如,计算设备102(在这里被示为设备102b)可以经由界面(这里被示为界面104b)向用户提供热词适合度的一个或多个指示(例如,视觉和/或音频的)。在当前示例中,界面104b可以向用户呈现消息(例如,候选热词“pizza”相对“弱”),以及与各种热词打分准则(例如,汇总热词适合度分数12/100)相关联的特征和/或汇总分数的一种或多种文本或图形表示(例如,线状图、柱状图、象限图等)。此外,在当前示例中,用户可以被呈现以提交另一个候选热词的提示(例如,“请重试”)。该提示例如可以在热词适合度分数低于预定阈值的情况下被提供。
同样参考该示例数据流,类似于阶段(A),在阶段(E)期间,用户再次被提示提供候选热词。在当前示例中,用户表达出候选热词“smorgasbord(自助餐)”,并且计算设备102基于该表达捕获、编码和/或生成语音数据130。例如,类似于语音数据110,语音数据130可以包括音频源数据132、相对应的音素集合134,以及可选地包括转录136。例如,在捕获、编码和/或生成语音数据130时,可以向一个或多个热词强度评估引擎120提供该数据。
类似于阶段(B),在阶段(F)期间,对语音数据进行处理和评估。在当前示例中,热词强度评估引擎120可以对语音数据130进行处理和评估。例如,热词强度评估引擎120可以对音频源数据132、音素集合134、转录136以及与候选热词“smorgasbord”相关联的其它适当语音数据进行评估。
在当前示例中,热词强度评估引擎120之一可以对音频源数据132进行评估以按帧确定词长度。例如,候选热词“smorgasbord”可以被认为与其它词相比相对更长(例如,基于平均词长度),或者特定讲话者恰好与其它词或其它讲话者相比相对缓慢地表达出词“pizza”。例如,基于词长度准则,一个或多个热词强度评估引擎120可以产生相对应的特征分数124a(例如,高分数)。
继续当前示例,热词强度评估引擎120之一可以对音素集合134和/或转录136进行评估以识别候选热词与讲话者语言中的其它词或短语的编辑距离。在当前示例中,可以确定词“harpsichord”具有与候选热词“smorgasbord”相混淆的极小可能性。例如,基于编辑距离准则,热词强度评估引擎120之一可以确定少量词或短语与候选热词“smorgasbord”具有中等的编辑距离,并且因此可以产生相对应的特征分数124b(例如,高分数)。
另外,在当前示例中,热词强度评估引擎120之一可以对转录136和/或训练示例数据存储库122所提供的数据进行评估以识别针对该候选热词所指定的发音数量。例如,类似于词“pizza”,可以确定的是,虽然在词典或发音指南中仅找到了词“smorgasbord”的一种官方美式英语发音,但是美国讲话者如何对该词进行发音具有一些变化。例如,一些美国讲话者可能会使用词“smorgasbord”的瑞典发音。例如,基于发音数量准则,热词强度评估引擎120之一可以确定针对候选热词“smorgasbord”存在少量到中等数量的发音,并且因此可以产生相对应的特征分数124c(例如,高或中等分数)。
类似于阶段(C),在阶段(G)期间,生成热词适合度分数。例如,在针对语音数据130生成每个特征分数124a、124b和124c时,特征分数的集合126可以被提供至热词分数生成器128。另外,类似于阶段(D),在阶段(H)期间,提供热地适合度分数的表示以便向用户显示。在当前示例中,界面104(这里被示为界面104c)可以向用户呈现消息(例如,候选热词“smorgasbord”相对“强”),以及与各种热词打分准则(例如,汇总热词适合度分数93/100)相关联的特征和/或汇总分数的一种或多种文本或图形表示。此外,在当前示例中,用户可以被呈现有候选热词被指定为设备热词的消息(例如,热词“被接受”)。该消息例如可以在热词适合度分数高于预定阈值的情况下被提供。
如之前示例中所描述的,在对热词进行评估时可以考虑与候选热词以及特定讲话者相关的准则。设备用户可以对计算设备102所提供的热词适合度信息进行审阅以选择热词。使用适当的热词可以改善设备所进行的热词检测,因此提高设备性能并节约设备资源。在之前示例中已经描述了用于评估语音数据并且用于生成热词适合度分数的若干准则。然而,如以下另外的示例中将要描述的,可以考虑另外的准则、较少的准则和/或不同的准则。
图2是可以确定所讲出的热词的适合度的示例系统200的示图。例如,系统200可以包括一个或多个客户端计算设备和/或后端服务器的硬件和/或软件组件。总体上,系统200可以接收对用户所讲出的候选热词进行编码的语音数据,并且能够对该语音数据进行评估和转录,能够针对候选热词生成热词适合度分数,并且能够提供热词适合度分数的表示以便向用户显示。
系统200可以包括计算机可读介质202(例如,一个或多个软盘设备、硬盘设备、光盘设备、带式设备、闪存设备或其它类似固态存储器设备,或者设备的阵列)以用于存储执行这里所描述的处理的指令(例如,应用程序代码)。另外,系统200可以包括一个或多个处理器204,其被配置为执行指令并且实施各种设备操作,诸如输入/输出、通信、数据处理等。
系统200可以包括用户界面生成器206,其用于在系统200和用户之间提供接口(例如,图形、音频和/或触觉)界面。例如,用户界面生成器206可以提供(图1所示的)界面104a、104b和104c以便向用户提供提示、消息以及热词适合度的表示。另外,系统200可以包括音频接口208。音频接口208例如可以包括一个或多个用于从用户接收所讲出的词和短语的麦克风,以及一个或多个用于向用户提供音频提示和反馈(例如,音调、录音、计算机所生成的语音等)的扬声器。此外,音频接口208可以向处理器204提供与所接收的所讲出的词和短语相关联的音频信号以便进行数字采样和编码。
系统200可以包括n-gram/音素生成器210。例如,n-gram/音素生成器210可以对经由音频接口208和处理器204提供的编码语音数据进行分析,并且可以识别相对应的一系列n-gram和/或音素。例如,n-gram/音素可以被语音识别引擎212用来执行机器翻译和转录。
系统200可以包括多个热词强度评估引擎214。热词强度评估引擎214可以考虑各种预定的准则来评估语音数据。例如,准则可以包括词或短语的长度、词或短语中所包括的音节或音素的数量、特定音素的出现、针对词或短语所识别的发音的数量、讲话者对词或短语的发音可变性、来自各个讲话者的词或短语的训练示例的可用性和/或所讲出的词或短语与共享语言的其它词或短语之间的编辑距离。例如,每个热词强度评估引擎214可以使用一种或多种准则对语音数据进行评估。
系统200可以包括分数生成器216。例如,分数生成器216可以针对每个热词强度评估引擎214确定特征分数,并且总的热词可用性分数可以通过对特征分数进行汇总来确定。热词适合度分数的表示例如可以经由用户界面生成器206所生成的界面而被提供给用户。
图3是图示用于确定所讲出的热词的适合度并且用于提供该适合度的表示的示例过程300的流程图。在一些实施方式中,过程300可以由系统100和/或200执行,并且出于清楚的原因将如此进行描述。简单来讲,过程300包括接收所讲出的热词,对该热词进行评估,对该热词进行打分,并且提供热词适合度的表示。
更为详细地,当过程300开始时(302),接收对用户所讲出的候选热词进行编码的语音数据(304)。例如,用户可能想要提供用于唤醒和/或解锁其静态设备(例如,家庭自动化系统)或移动设备(例如,智能电话)的关键词或关键短语。在当前示例中,用户可以选择提供其能够记住而且还不太可能被其它用户所想到的短语(即,语音密码)。因此,当前示例中的用户讲出了短语“pizzasmorgasbord”。
参考图2,例如,音频接口208能够接收用户所表达出的候选热词并且能够将与所接收到的表达相关联的音频信号提供至处理器204以便进行数字采样和编码。另外,经采样和编码的音频信号能够被n-gram/音素生成器210分解为一系列n-gram和音素,并且能够被语音识别引擎212进行转录。例如,该语音数据和转录可以被提供至热词强度评估引擎214。
使用一种或多种预定准则对该语音数据或者候选热词的转录进行评估(306)。例如,每个热词强度评估引擎214可以被配置为基于特定准则或相关准则集合对语音数据和/或转录进行评估。通常,可以提取并评估可能与热词检测性能相关的热词特征或特性。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定该语音数据的词长度(例如,以帧为单位)。例如,可以使用帧化处理将与候选热词相关联的语音信号划分为较短的语音信号,由此识别相对稳定的频率特性。通常,较长的词长度(例如,较大的帧数量)可以与较高的热词适合度分数相关联。在当前示例中,候选热词“pizza smorgasbord”与典型热词相比可以是相对更长的,并且在考虑词长度特征时可以与相对高的热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定与候选热词相关联的音节或音素的数量。例如,与候选热词相关联的音节数量可以通过使用语音识别引擎212所生成的热词的转录来参考包括各个词的音节计数的词典来确定。作为另一个示例,与候选热词相关联的音素的数量可以通过由n-gram/音素生成器210对针对热词所识别的音素集合进行评估而确定。在当前示例中,候选热词“pizza smorgasbord”可以被识别为总共包括五个音节(例如,单个词“pizza”包括两个音节以及词“smorgasbord”包括三个音节),并且可以被识别为总共包括十个音素(例如,单个词“pizza”包括三个音素以及词“smorgasbord”包括七个音素)。通常,较大的词或音素数量可以与较高的热词适合度分数相关联。当前示例中的候选热词“pizza smorgasbord”与典型热词相比可以具有相对更大数量的音节和/或音素,并且在考虑音节和/或音素数量特征时可以与相对高的热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定候选热词的转录与和该候选热词共享相同语言的一个或多个其它词之间的编辑距离。例如,彼此之间具有小的编辑距离的词或短语一般可能是易混淆的,而彼此之间具有大的编辑距离的词或短语一般更容易区分。在当前示例中,可以确定短语“piece ofharpsichord(大键琴)”与候选热词“pizza smorgasbord”可能具有中等的编辑距离(即,可能稍微容易与其混淆)。通常,较小的编辑距离可以与较低的热词适合度分数相关联。因此,在当前示例中,由于短语“piece of harpsichord”与候选热词“pizza smorgasbord”之间具有中等的编辑距离,所以该候选热词在考虑编辑距离特征时可以与中等的热词适合度分数相关联。
在一些实施方式中,在识别出在候选热词的预定编辑距离范围之内的一个或多个词或短语时,可以在确定编辑距离特征分数时考虑这样的词的数量。例如,短语“piece of harpsichord”可能已经被识别为在候选热词“pizza smorgasbord”的预定编辑距离范围内,但是可能仅有几个(如果存在)其它短语可能同样被识别为在该编辑距离范围内。因此,在当前示例中,该候选热词可以与较高的特征分数相关联。另外,在一些实施方式中,在确定热词适合度分数时可以考虑候选热词和/或处于该候选热词的预定编辑距离范围之内的每个词或短语(即,可能易混淆的词或短语)在一般对话中被使用的可能性。例如,一个或多个候选热词评估引擎214可以确定候选热词“pizza smorgasbord”和/或可能混淆的短语“piece of harpsichord”在一般对话中被讲出(例如,由设备用户和/或一般由人)的可能性相对低,并且该候选热词可以与平均更高的特征分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定针对该候选热词所指定的发音的数量。例如,与候选热词相关联的发音的数量可以通过使用语音识别引擎212所生成的热词的转录来参考包括该热词的常见或被接受的发音的词典而被确定。作为另一个示例,可以对用户和/或其它用户已经讲出的候选热词的录制实例进行评估。通常,较少的发音数量可以与较高的热词适合度分数相关联。例如,热词强度评估引擎214之一可以从词典源识别出短语“pizza smorgasbord”的单个官方发音,但是可以识别出讲话者群体对该短语的较少或中等数量的不同发音。因此,在当前示例中,候选热词“pizza smorgasbord”在考虑发音数量特征时可以与相对高到中等的热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定在候选热词的转录中出现的一个或多个特定音素或音节。例如,为了识别特定音节,候选热词的转录可以被用来参考词典或发音指南,并且可以识别与热词相关联的定义的音节。作为另一个示例,热词强度评估引擎214之一可以评估由n-gram/音素生成器210针对讲出的候选热词所识别出的音素。通常,在转录中出现的某些音素或音节可以与较高的热词适应性分数相关联。例如,短语“pizzasmorgasbord”中所包括的词“pizza”的第二音节(即,“suh”)可以与高的可检测置信水平相关联,并且与相对高的热词适合度相关联。然而,转录中出现的某些其他音素一般可以与较低的热词适合度分数相关联。例如,词“pizza”的第一音节(即,“peet”)可以与低的可检测置信水平相关联(例如,其可能容易与音节“beet相混淆”),并且与相对低的热词适合度相关联。例如,当确定并评估了出现在候选热词中的特定音素或音节时,与每个音素或音节相关联的构成分数可以被用于确定汇总分数。例如,候选热词“pizzasmorgasbord”可以包括与低、中等和高分数相关联的特定音素或音节。因此,当前示例中的候选热词在考虑特定音素和/或音节特征时可以与中等热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定语音识别器可用的热词的训练示例的数量。例如,参考图1,各个个体(例如,设备用户和/或其它用户)已经讲出的各种词和短语的录制实例可以由训练示例数据存储库122维护。此外,训练示例数据存储库122例如可以包括转录和/或索引数据,从而所录制的特定词和/或短语的实例可以被参考并分析。通常,较小数量的训练示例可以与较低的热词适合度分数相关联。当前示例中的候选热词“pizza smorgasbord”与典型热词相比可以具有相对较小数量的训练示例,并且在考虑训练示例数量特征时可以与相对低的热词适合度分数相关联。
如果针对特定候选热词没有找到训练示例,则在一些实施方式中,可以对最接近的相邻热词(即,与相似音素、音节或其它适当特征相关联的词或短语)进行评估。例如,用户可以选择提供所发明的词(即,词典中并不存在的词)作为候选热词。在当前示例中,由于针对所发明的候选热词无法找到训练示例,所以该热词的训练示例特征分数可以较低,但是其它特征分数可以相对较高,因此在确定汇总的热词适合度分数时抵消低的特征分数。例如,特定的所发明的词可以包括与高特征分数相关联的一个或多个音节或音素,并且所发明的词可以在考虑编辑距离特征时与高分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定候选热词的发音在用户所进行的该候选热词的多次表达中发生变化的程度。参考图1,例如,用户可以被计算设备102a多次提示“请讲出您所期望的热词”,并且所讲出的热词的多个实例(例如,相关联的音频信号)可以由一个或多个热词强度评估引擎120针对一致性而进行互相比较。在当前示例中,用户可能在对候选热词“pizza smorgasbord”发音时稍有不一致——该短语对于特定讲话者而言可能难以一致地发音。通常,较大的发音变化程度可以与较低的热词适合度分数相关联。因此,在当前示例中,在考虑发音变化特征时,候选热词“pizza smorgasbord”可以与相对低的热词适合度分数相关联。
之前的示例中已经对各种可能的热词特征,用于评估语音数据的准则以及用于生成热词适合度分数的技术进行了描述。然而,可以采用附加、更少和/或不同的特征、准则和/或技术。通常,可以对分类器进行训练以识别并考虑与语音数据相关的可能有所影响的特征和准则。此外,用于生成热词适合度分数的技术可以在考虑附加语音数据(例如,训练示例)时随时间发生变化。
使用一种或多种预定准则(例如,在之前示例中所描述的准则),基于对语音数据或候选热词的转录的评估而生成候选热词的热词适合度分数(308)。该热词适合度分数可以反映候选热词被作为热词使用的适合度。例如,高的热词适合度分数可以与在被用来激活计算设备时可能工作良好的候选热词相关联,而低的热词适合度分数则可以与可能工作不佳的候选热词相关联。例如,工作良好的热词可以被容易检测到并且不太可能与自然语言对话相混淆。例如,工作不佳的热词令计算设备难以检测并且可能与其它词和短语相混淆。
在一些实施方式中,生成热词适合度分数可以包括使用预定准则,针对两种或更多的预定准则基于对语音数据(或者候选热词的转录)的评估生成特征分数,对该特征分数进行汇总,并且输出经汇总的特征分数作为热词适合度分数。在当前示例中,候选热词“pizza smorgasbord”针对词长度准则、音节或音素数量准则、编辑距离准则、发音数量准则以及出现特定音素或音节的准则而具有高或中等的特征分数。然而,当前示例中的候选热词“pizzasmorgasbord”也可以针对训练示例数量准则和发音变化准则而具有低的特征分数。例如,对热词适合度分数进行汇总可以取决于如何向各个特征分数应用权重,和/或可以取决于如何对生成分数的分类器进行训练。在当前示例中,候选热词“pizza smorgasbord”可以与中等至高的热词适合度分数相关联。
提供热词适合度分数的表示(310)以便向用户显示,由此结束该过程(312)。参考图1,例如,示出界面104b和104c以便向用户显示热词适合度分数的表示。例如,界面104b示出了热词适合度分数的表示,其中该表示包括指示该候选热词不适合作为热词并且该候选热词已经被拒绝的数据。例如,界面104c示出了热词适合度分数的表示,其中该表示包括指示该候选热词适合作为热词并且该候选热词已经被接受的数据。然而,在一些实施方式中,热词适合度分数可以作为关于热词被预测在计算设备上工作得如何的一般信息,并且用户可以选择对该信息施加操作或者将其忽略。
可以向用户提供热词适合度分数的各种表示(例如,视觉和/或音频的)。在一些实施方式中,可以提供文本分数(例如,十分制规模、百分制规模、字母等级等)。例如,界面可以针对候选热词“pizza smorgasbord”显示字母等级“B+”。在一些实施方式中,热词适合度分数的表示可以包括分数的经色彩编码的表示。例如,与交通灯类似,绿色可以与高适合度分数相关联,黄色可以与中等适合度分数相关联,而红色则可以与低适合度分数相关联。在一些实施方式中,热词适合度分数的表示包括条、量计或仪表。例如,高的总体适合度分数可以利用成比例地高(或长)的条状指示器来表示。作为另一个示例,所汇总的热词适合度分数中所包括的每个个体特征分数可以由单独的条、量计或仪表来表示。因此,在当前示例中,如果用户被通知候选热词“pizza smorgasbord”已经针对除了训练示例准则和发音变化准则之外的大多数特征而获得了相对高的分数,则该用户可以使用该信息来改进候选热词(例如,通过提供更多训练示例和/或更为清晰的发音),或者选择不同的候选热词。
图4示出了可与这里所描述的技术一起使用的通用计算设备400和通用移动计算设备450的示例。计算设备400意在表示各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片式服务器、主机和其它适当计算机。计算设备450意在表示各种形式的移动设备,诸如个人数字助理、移动电话、智能电话和其它类似的计算设备。这里所示出的组件、其连接和关系以及其功能仅意在进行示例,而并非意在对本文中所描述和/或要求保护的发明的实施方式进行限制。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408,以及连接到低速总线414和存储设备406的低速接口412。每个组件402、404、406、408、410和412使用各种总线进行互连,并且可以安装在共用主板上,或者以其它适宜方式进行安装。处理器402能够处理指令以便在计算设备400内执行以在诸如耦合到高速接口408的显示器416的外部输入/输出设备上显示用于GUI的图形信息,该指令包括存储在存储器404中或者存储设备406中的指令。在其它实施方式中,如果适宜,可使用多个处理器和/或多个总线,以及多个存储器和存储器类型。而且,多个计算设备400可以与提供各部分必要操作的每个设备进行连接(例如,作为服务器组、刀刃服务器分组或多处理器系统)。
存储器404存储计算设备400内的信息。在一种实施方式中,存储器404是一个或多个易失性存储单元。在另一实施方式中,存储器404是一个或多个非易失性存储单元。存储器404还可以是其它形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供大型存储。在一种实施方式中,存储设备406可以是或者可包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、磁带设备、闪存或其它类似固态存储设备,或者设备阵列,包括存储域网络或其它配置中的设备。计算机程序产品可有形地实现在信息载体中。该计算机程序产品还可以包含指令,当被执行时,该指令执行诸如以上所描述的一个或多个方法。该信息载体是计算机或机器可读介质,诸如存储器404、存储设备406、处理器402上的存储器或传播信号。
高速控制器408管理计算设备400的带宽密集操作,而低速控制器412管理较低带宽密集的操作。这样的功能分配仅是示例性的。在一种实施方式中,高速控制器408耦合到存储器404、显示器416(例如,通过图形处理器或加速器),并且耦合到可接受各种扩展卡(未示出)的高速扩展端口410。在该实施方式中,低速控制器412耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速控制端口414可耦合到一个或多个输入/输出设备,诸如键盘、指示设备、扫描仪,或者例如通过网络适配器耦合到诸如交换机和路由器之类的联网设备。
如图所示,计算设备400能够以各种不同形式来实现。例如,其可以实现为标准服务器420,或者这种服务器的群组中的多个服务器。其还可以被实现为机架式服务器系统424的一部分。此外,其还可以以诸如膝上计算机422的个人计算机来实施。作为选择,来自计算设备400的组件可以与诸如设备450的移动设备(未示出)中的其它组件相结合。每个这样的设备可包含一个或多个计算设备400、450,并且整个系统可由多个互相通信的计算设备400、450所构成。
除其它组件之外,计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发器468。设备450还可以被提供以诸如微驱动器或其它设备的存储设备以提供附加存储。每个组件450、452、464、454、466和468使用各种总线进行互连,并且若干组件可安装在共用主板上或者以其它适宜方式进行安装。
处理器452可以执行计算设备450内的指令,包括存储在存储器464中的指令。该处理器可以被实现为包括单独且多个的模拟和数字处理器的芯片的芯片组。例如,该处理器可提供设备450的其它组件的协同,诸如控制用户接口、设备450所运行的应用程序以及设备450所进行的无线通信。
处理器452可以通过耦合到显示器454的控制接口458和显示接口456与用户进行通信。显示器454例如可以是TFT LCD(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器,或者其它适当的显示技术。显示接口456可以包括用于驱动显示器454以向用户显示图形和其它信息的适当电路。控制接口458可以接收来自用户的命令并且对其进行转以便向提交至处理器452。此外,可提供与处理器452进行通信的外部接口462,从而使得设备450能够与其它设备进行近域通信。例如,外部接口462在一些实施方式中可提供有线通信,或者在其它实施方式中提供无线通信,并且也可使用多个接口。
存储器464存储计算设备450内的信息。存储器464可以实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或者一个或多个非易失性存储器单元。也可以提供扩展存储器474并通过扩展接口442连接到设备450,例如,该扩展接口442可以包括SIMM(单列存储模块)卡接口。这样的扩展存储器474可为设备450提供额外的存储空间,或者还可以为设备450存储应用程序或其它信息。特别地,扩展存储器474可以包括指令以执行或补充以上所描述的处理,并且还可以包括安全信息。例如,扩展存储器474由此可被提供作为设备450的安全模块,并且可利用允许对设备450进行安全使用的指令进行编程。此外,可经由SIMM卡提供安全应用程序以及附加信息,诸如以不可破坏的方式在SIMM卡上设置识别信息。
例如,如以下所描述的,该存储器可以包括闪存和/或NVRAM存储器。在一种实施方式中,计算机程序产品有形地实现在信息载体中。该计算机程序产品还可包含指令,当被执行时,该指令执行诸如以上所描述的一种或多种方法。该信息载体是计算机或机器可读介质,诸如存储器464、扩展存储器474、处理器452上的存储器或者可例如在收发器468或外部接口462上接收的传播信号。
设备450可通过通信接口466进行无线通信,在必要情况下,该通信接口466包括数字信号处理电路。通信接口466可在各种模式或协议下提供通信,除其它之外,该模式或协议诸如GSM语音呼叫、SMS、EMS或MMS消息发送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。例如,这样通信可通过射频收发器468进行。此外,诸如可使用蓝牙、WiFi或其它这样的收发器(未示出)进行短距离通信。此外,GPS(全球定位系统)接收器模块440可为设备450提供附加的导航和位置相关的无线数据,其可由设备450上运行的应用程序适当使用。
设备450还使用音频编解码器460进行可听通信,该音频编解码器460接收来自用户的语音信息并且将其转换为可用的数字信息。音频编解码器460同样可以诸如通过扬声器为用户生成可听声音,例如在设备450的听筒中。这样的声音可以包括来自语音电话呼叫的声音,可以包括录制的声音(例如,语音消息、音乐文件等),并且还可以包括设备450上运行的应用程序所生成的声音。
如图所示,计算设备450可以以多种不同方式来实现。例如,其可以实现为蜂窝电话480。其还可以实现为智能电话482、个人数字助理或其它类似移动设备的一部分。
这里所描述的系统和技术的各种实施方式可以以数字电路、集成电路、专门设计的ASIC(应用特定集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括一个或多个计算机程序中的实施方式,该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程系统可以为专用或通用,其耦合以从存储设备、至少一个输入设备以及至少一个输出设备接收数据和指令并且向其传送数据和指令。
这些计算机程序(也称作程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且能够以高级程序和/或面向对象编程语言来实施,和/或以汇编/机器语言来实施。如这里所使用的,术语“机器可读介质”、“计算机可读介质”是指用来向可编程处理器提供机器指令和/或数据的任意计算机程序产品、装置和/或设备(例如,磁碟、光盘、存储器、可编程逻辑设备PLD),其包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指被用来为可编程处理器提供机器指令和/或数据的任意信号。
为了提供与用户的交互,这里所描述的系统和技术可在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户能够通过其为计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)的计算机上实施。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以为任意形式的传感器反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且来自用户的输入可以以任意形式接收,包括声音、语音或触觉输入。
这里所描述的系统和技术可在计算系统中实现,该计算系统包括后端组件(例如,数据服务器),或者其包括中间件组件(例如,应用服务器),或者其包括前端组件(例如,具有用户能够通过其与这里所描述的系统和技术的实施方式进行交互的图形用户节目或网络浏览器的客户端计算机),或者这些后端、中间件或前端组件的任意组合。该系统的组件可通过任意形式的介质或数字数据通信(例如,通信网络)进行互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。
该计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系源自于在各自计算机上运行的计算机程序并且具有彼此的客户端-服务器关系。
已经描述了多个实施例。然而,将要理解的是,能够进行各种修改而并不背离本发明的精神和范围。此外,图中所描绘的逻辑流程并不要求所示出的特定顺序或连续顺序来实现所期望的结果。此外,可以提供其它步骤,或者可以从所描述的流程中消除捕获,并且可以向所描述的系统增加其它组件或者从中去除组件。因此,其它实施例处于以下权利要求的范围之内。

Claims (22)

1.一种计算机实施的方法,包括:
接收对用户所讲出的候选热词进行编码的语音数据;
使用一种或多种预定准则对所述语音数据或者所述候选热词的转录进行评估;
使用一种或多种预定准则,基于对所述语音数据或所述候选热词的转录的评估而针对所述候选热词生成热词适合度分数;以及
提供所述热词适合度分数的表示以便向用户显示。
2.根据权利要求1所述的方法,其中所述热词适合度分数反映所述候选热词作为热词使用的适合度。
3.根据权利要求2所述的方法,其中热词是用于唤醒设备的关键词或关键短语。
4.根据权利要求2所述的方法,其中热词是用于解锁设备的关键词或关键短语。
5.根据权利要求2所述的方法,其中热词是语音密码。
6.根据权利要求1所述的方法,其中所述语音数据从所述用户所操作的移动设备接收。
7.根据权利要求1所述的方法,其中生成热词适合度分数包括:
使用两个或更多预定准则,基于对所述语音数据或者所述候选热词的所述转录的评估而针对所述预定准则中的每一个预定准则生成特征分数;
对所述特征分数进行汇总;以及
输出经汇总的特征分数以作为所述热词适合度分数。
8.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
以帧为单位确定所述语音数据的词长度,
其中较长的词长度与较高的热词适合度分数相关联。
9.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定与所述候选热词相关联的音节或音素的数量,
其中较大的音节或音素的数量与较高的热词适合度分数相关联。
10.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定所述候选热词的所述转录和与所述候选热词共享相同语言的一个或多个其它词之间的编辑距离,
其中较小的编辑距离与较低的热词适合度分数相关联。
11.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定针对所述候选热词而规定的发音的数量,
其中较少的发音的数量与较高的热词适合度分数相关联。
12.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定在所述候选热词的所述转录中出现一个或多个特定音素。
13.根据权利要求12所述的方法,其中所述特定音素在所述转录中的所述出现与较高的热词适合度分数相关联。
14.根据权利要求12所述的方法,其中所述特定音素在所述转录中的所述出现与较低的热词适合度分数相关联。
15.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定对语音识别器可用的所述热词的训练示例的数量,
其中较小的训练示例的质量与较低的热词适合度分数相关联。
16.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定所述候选热词的发音在所述用户对所述候选热词的多次表达中发生变化的程度,
其中较大的程度与较低的热词适合度分数相关联。
17.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括指示所述候选热词适合作为热词的数据。
18.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括指示所述候选热词已经被接受作为热词的数据。
19.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括所述热词适合度分数的经色彩编码的表示。
20.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括条、量计或仪表。
21.一种系统,包括:
一个或多个计算机以及一个或多个存储指令的存储设备,当所述指令被所述一个或多个计算机执行时,所述指令能够进行操作以使得所述一个或多个计算机执行操作,所述操作包括:
接收对用户所讲出的候选热词进行编码的语音数据;
使用一种或多种预定准则对所述语音数据或者所述候选热词的转录进行评估;
使用一种或多种预定准则,基于对所述语音数据或所述候选热词的转录的评估而针对所述候选热词生成热词适合度分数;以及
提供所述热词适合度分数的表示以便向用户显示。
22.一种计算机可读存储设备,存储包括一个或多个计算机可执行的指令的软件,当所述指令被执行时,所述指令使得所述一个或多个计算机执行操作,所述操作包括:
接收对用户所讲出的候选热词进行编码的语音数据;
使用一种或多种预定准则对所述语音数据或者所述候选热词的转录进行评估;
使用一种或多种预定准则,基于对所述语音数据或所述候选热词的转录的评估而针对所述候选热词生成热词适合度分数;以及
提供所述热词适合度分数的表示以便向用户显示。
CN201380043134.5A 2012-07-03 2013-07-01 确定热词适合度 Active CN104584119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611132499.7A CN106782607B (zh) 2012-07-03 2013-07-01 确定热词适合度

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261667817P 2012-07-03 2012-07-03
US61/667,817 2012-07-03
US13/567,572 2012-08-06
US13/567,572 US9536528B2 (en) 2012-07-03 2012-08-06 Determining hotword suitability
PCT/US2013/048945 WO2014008194A1 (en) 2012-07-03 2013-07-01 Determining hotword suitability

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201611132499.7A Division CN106782607B (zh) 2012-07-03 2013-07-01 确定热词适合度

Publications (2)

Publication Number Publication Date
CN104584119A true CN104584119A (zh) 2015-04-29
CN104584119B CN104584119B (zh) 2017-10-17

Family

ID=49879192

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201611132499.7A Active CN106782607B (zh) 2012-07-03 2013-07-01 确定热词适合度
CN201380043134.5A Active CN104584119B (zh) 2012-07-03 2013-07-01 确定热词适合度

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201611132499.7A Active CN106782607B (zh) 2012-07-03 2013-07-01 确定热词适合度

Country Status (5)

Country Link
US (5) US9536528B2 (zh)
EP (5) EP4239628A3 (zh)
KR (2) KR102072730B1 (zh)
CN (2) CN106782607B (zh)
WO (1) WO2014008194A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782529A (zh) * 2016-12-23 2017-05-31 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106847273A (zh) * 2016-12-23 2017-06-13 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN108536668A (zh) * 2018-02-26 2018-09-14 科大讯飞股份有限公司 唤醒词评估方法及装置、存储介质、电子设备
CN109643542A (zh) * 2016-09-23 2019-04-16 英特尔公司 用于改进的关键词检测的技术
CN109887507A (zh) * 2019-04-22 2019-06-14 成都启英泰伦科技有限公司 一种降低相似语音命令词误识别率的方法
CN109935228A (zh) * 2017-12-15 2019-06-25 富泰华工业(深圳)有限公司 身份信息关联系统与方法、计算机存储介质及用户设备
CN110140168A (zh) * 2016-12-27 2019-08-16 谷歌有限责任公司 上下文热词
CN110832578A (zh) * 2017-07-24 2020-02-21 美的集团股份有限公司 可定制唤醒语音命令
CN111090720A (zh) * 2019-11-22 2020-05-01 北京捷通华声科技股份有限公司 一种热词的添加方法和装置
CN111341317A (zh) * 2020-02-19 2020-06-26 Oppo广东移动通信有限公司 唤醒音频数据的评价方法、装置、电子设备及介质
CN113724688A (zh) * 2021-11-04 2021-11-30 深圳市友杰智新科技有限公司 语音识别的后处理方法、装置和计算机设备

Families Citing this family (267)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
GB2489527B (en) * 2011-04-01 2014-01-01 Voicevault Ltd Voice verification system
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
RU2530268C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9703350B2 (en) * 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9336779B1 (en) * 2013-04-10 2016-05-10 Google Inc. Dynamic image-based voice entry of unlock sequence
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10157272B2 (en) * 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
US10102848B2 (en) 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9335966B2 (en) * 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US10008208B2 (en) 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
US10074360B2 (en) * 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10055767B2 (en) 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
US10510350B2 (en) * 2016-03-30 2019-12-17 Lenovo (Singapore) Pte. Ltd. Increasing activation cue uniqueness
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2017217978A1 (en) 2016-06-15 2017-12-21 Nuance Communications, Inc. Techniques for wake-up word recognition and related systems and methods
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
EP3287921B1 (en) * 2016-08-26 2020-11-04 Nxp B.V. Spoken pass-phrase suitability determination
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
KR102584324B1 (ko) * 2016-10-26 2023-09-27 에스케이텔레콤 주식회사 음성 인식 서비스 제공 방법 및 이를 위한 장치
US10237268B2 (en) * 2016-11-02 2019-03-19 Google Llc Secure passcode processing device
EP3430617B1 (en) 2016-11-07 2019-10-23 Google LLC Recorded media hotword trigger suppression
WO2018086033A1 (en) 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10210866B2 (en) 2017-01-20 2019-02-19 Essential Products, Inc. Ambient assistant device
US10741174B2 (en) * 2017-01-24 2020-08-11 Lenovo (Singapore) Pte. Ltd. Automatic language identification for speech
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN108665890B (zh) * 2017-03-28 2023-10-13 三星电子株式会社 操作语音识别服务的方法、电子设备和支持该设备的系统
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
US10522137B2 (en) 2017-04-20 2019-12-31 Google Llc Multi-user authentication on a device
US10511585B1 (en) * 2017-04-27 2019-12-17 EMC IP Holding Company LLC Smoothing of discretized values using a transition matrix
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR20230151047A (ko) * 2017-05-23 2023-10-31 구글 엘엘씨 어텐션-기반의 시퀀스 변환 신경망
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10964315B1 (en) * 2017-06-30 2021-03-30 Amazon Technologies, Inc. Monophone-based background modeling for wakeword detection
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6844472B2 (ja) * 2017-08-24 2021-03-17 トヨタ自動車株式会社 情報処理装置
KR102067973B1 (ko) * 2017-08-28 2020-02-11 에스케이텔레콤 주식회사 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
CN109542545B (zh) * 2017-09-22 2022-07-29 北京国双科技有限公司 热词展示方法和装置
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11295735B1 (en) * 2017-12-13 2022-04-05 Amazon Technologies, Inc. Customizing voice-control for developer devices
KR102438784B1 (ko) 2018-01-05 2022-09-02 삼성전자주식회사 데이터를 난독화 및 복호화 하는 전자 장치 및 그의 제어 방법
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US20190237069A1 (en) * 2018-01-31 2019-08-01 GM Global Technology Operations LLC Multilingual voice assistance support
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10930278B2 (en) 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
JP7322076B2 (ja) 2018-08-21 2023-08-07 グーグル エルエルシー 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
EP4036910A1 (en) 2018-08-21 2022-08-03 Google LLC Dynamic and/or context-specific hot words to invoke automated assistant
KR20200023088A (ko) * 2018-08-24 2020-03-04 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109767763B (zh) * 2018-12-25 2021-01-26 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
JP6749705B2 (ja) * 2019-01-25 2020-09-02 株式会社インタラクティブソリューションズ プレゼンテーション支援システム
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11132991B2 (en) * 2019-04-23 2021-09-28 Lg Electronics Inc. Method and apparatus for determining voice enable device
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
KR20200132613A (ko) 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
CN110277097B (zh) * 2019-06-24 2022-04-26 北京声智科技有限公司 数据处理方法及相关设备
US11282500B2 (en) * 2019-07-19 2022-03-22 Cisco Technology, Inc. Generating and training new wake words
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
US20210050003A1 (en) * 2019-08-15 2021-02-18 Sameer Syed Zaheer Custom Wake Phrase Training
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN114207710A (zh) 2019-10-15 2022-03-18 谷歌有限责任公司 检测和/或登记热命令以由自动助理触发响应动作
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482222B2 (en) * 2020-03-12 2022-10-25 Motorola Solutions, Inc. Dynamically assigning wake words
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
KR102392992B1 (ko) * 2020-06-04 2022-05-02 주식회사 카카오엔터프라이즈 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
EP3948516A1 (en) * 2020-06-09 2022-02-09 Google LLC Generation of interactive audio tracks from visual content
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11521604B2 (en) * 2020-09-03 2022-12-06 Google Llc User mediation for hotword/keyword detection
US11657814B2 (en) * 2020-10-08 2023-05-23 Harman International Industries, Incorporated Techniques for dynamic auditory phrase completion
US11315575B1 (en) * 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
US11423071B1 (en) * 2021-08-31 2022-08-23 On Time Staffing, Inc. Candidate data ranking method using previously selected candidate data
US11907652B2 (en) 2022-06-02 2024-02-20 On Time Staffing, Inc. User interface and systems for document creation

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200421834A (en) * 2002-08-13 2004-10-16 Qualcomm Inc Annunciators for voice and data applications in wireless communication devices
US20040250139A1 (en) * 2003-04-23 2004-12-09 Hurley John C. Apparatus and method for indicating password quality and variety
US20050235341A1 (en) * 2004-04-16 2005-10-20 Jeremy Stieglitz Dynamically mitigating a noncompliant password
US20080059188A1 (en) * 1999-10-19 2008-03-06 Sony Corporation Natural Language Interface Control System
US20090143057A1 (en) * 2007-11-30 2009-06-04 Verizon Services Organization Inc. Method and apparatus for distinctive alert activation
CN101558442A (zh) * 2006-12-05 2009-10-14 摩托罗拉公司 使用语音识别的内容选择
CN101681412A (zh) * 2007-06-08 2010-03-24 国际商业机器公司 增强的密码安全性
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application

Family Cites Families (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5754977A (en) * 1996-03-06 1998-05-19 Intervoice Limited Partnership System and method for preventing enrollment of confusable patterns in a reference database
EP0980574B1 (en) 1997-10-20 2004-03-10 Koninklijke Philips Electronics N.V. Pattern recognition enrolment in a distributed system
US5987411A (en) * 1997-12-17 1999-11-16 Northern Telecom Limited Recognition system for determining whether speech is confusing or inconsistent
US20010047263A1 (en) * 1997-12-18 2001-11-29 Colin Donald Smith Multimodal user interface
US6134527A (en) 1998-01-30 2000-10-17 Motorola, Inc. Method of testing a vocabulary word being enrolled in a speech recognition system
US6073096A (en) 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6205261B1 (en) * 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6295391B1 (en) * 1998-02-19 2001-09-25 Hewlett-Packard Company Automatic data routing via voice command annotation
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
EP1054387A3 (en) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Method and apparatus for activating voice controlled devices
US20020193989A1 (en) 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
US6978238B2 (en) 1999-07-12 2005-12-20 Charles Schwab & Co., Inc. Method and system for identifying a user by voice
JP2001042891A (ja) * 1999-07-27 2001-02-16 Suzuki Motor Corp 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
US6415257B1 (en) * 1999-08-26 2002-07-02 Matsushita Electric Industrial Co., Ltd. System for identifying and adapting a TV-user profile by means of speech technology
US6748361B1 (en) 1999-12-14 2004-06-08 International Business Machines Corporation Personal speech assistant supporting a dialog manager
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
US6654734B1 (en) 2000-08-30 2003-11-25 International Business Machines Corporation System and method for query processing and optimization for XML repositories
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
WO2002096067A2 (en) 2001-05-22 2002-11-28 Teltone Corporation Pbx control system via remote telephone
US7013276B2 (en) * 2001-10-05 2006-03-14 Comverse, Inc. Method of assessing degree of acoustic confusability, and system therefor
US7167831B2 (en) 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US7099825B1 (en) * 2002-03-15 2006-08-29 Sprint Communications Company L.P. User mobility in a voice recognition environment
US20030212562A1 (en) 2002-05-13 2003-11-13 General Motors Corporation Manual barge-in for server-based in-vehicle voice recognition systems
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7502737B2 (en) 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
AU2002950336A0 (en) 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
US6886009B2 (en) 2002-07-31 2005-04-26 International Business Machines Corporation Query routing based on feature learning of data sources
US7899500B2 (en) 2002-09-24 2011-03-01 At&T Intellectual Property I, L. P. Apparatus and method for providing hands-free operation of a device
US7027842B2 (en) 2002-09-24 2006-04-11 Bellsouth Intellectual Property Corporation Apparatus and method for providing hands-free operation of a device
US7013282B2 (en) 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device
US7363228B2 (en) 2003-09-18 2008-04-22 Interactive Intelligence, Inc. Speech recognition system and method
US7212613B2 (en) 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
US7240049B2 (en) 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7624018B2 (en) 2004-03-12 2009-11-24 Microsoft Corporation Speech recognition using categories and speech prefixing
US20050283764A1 (en) * 2004-04-28 2005-12-22 Leo Chiu Method and apparatus for validating a voice application
US7386448B1 (en) 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
US8407239B2 (en) 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US20060064177A1 (en) 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US20060085183A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
JP3984988B2 (ja) 2004-11-26 2007-10-03 キヤノン株式会社 ユーザインタフェース設計装置およびその制御方法
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7349896B2 (en) 2004-12-29 2008-03-25 Aol Llc Query routing
US7558529B2 (en) * 2005-01-24 2009-07-07 Broadcom Corporation Earpiece/microphone (headset) servicing multiple incoming audio streams
US7343177B2 (en) * 2005-05-03 2008-03-11 Broadcom Corporation Modular ear-piece/microphone (headset) operable to service voice activated commands
EP1884923A4 (en) 2005-05-27 2009-06-03 Panasonic Corp VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8503624B2 (en) 2005-09-28 2013-08-06 Cisco Technology, Inc. Method and apparatus to process an incoming message
JP4260788B2 (ja) 2005-10-20 2009-04-30 本田技研工業株式会社 音声認識機器制御装置
JP4878471B2 (ja) 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US20070143117A1 (en) * 2005-12-21 2007-06-21 Conley Kevin M Voice controlled portable memory storage device
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US7949536B2 (en) 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
US20080133245A1 (en) 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US20080140397A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Sequencing for location determination
US8731146B2 (en) 2007-01-04 2014-05-20 At&T Intellectual Property I, L.P. Call re-directed based on voice command
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
EP1965312A3 (en) * 2007-03-01 2010-02-10 Sony Corporation Information processing apparatus and method, program, and storage medium
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US7877258B1 (en) 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
US8396713B2 (en) 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
US8150699B2 (en) 2007-05-17 2012-04-03 Redstart Systems, Inc. Systems and methods of a structured grammar for a speech recognition command system
US9092781B2 (en) 2007-06-27 2015-07-28 Verizon Patent And Licensing Inc. Methods and systems for secure voice-authenticated electronic payment
US8060366B1 (en) 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
CN101452701B (zh) * 2007-12-05 2011-09-07 株式会社东芝 基于反模型的置信度估计方法及装置
US8370160B2 (en) 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US20090171663A1 (en) 2008-01-02 2009-07-02 International Business Machines Corporation Reducing a size of a compiled speech recognition grammar
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
US7917368B2 (en) 2008-02-25 2011-03-29 Mitsubishi Electric Research Laboratories, Inc. Method for interacting with users of speech recognition systems
CN101315770B (zh) * 2008-05-27 2012-01-25 北京承芯卓越科技有限公司 语音识别片上系统及采用其的语音识别方法
KR101631496B1 (ko) * 2008-06-03 2016-06-17 삼성전자주식회사 로봇 장치 및 그 단축 명령 등록 방법
US8380503B2 (en) 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8332223B2 (en) 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
US8177643B2 (en) * 2008-12-05 2012-05-15 Microsoft Corporation Out-of-band voice communication with interactive voice response services during gameplay
KR101068122B1 (ko) * 2008-12-15 2011-09-28 한국전자통신연구원 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
US8548812B2 (en) 2008-12-22 2013-10-01 Avaya Inc. Method and system for detecting a relevant utterance in a voice session
CA2748695C (en) * 2008-12-31 2017-11-07 Bce Inc. System and method for unlocking a device
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
US9684741B2 (en) 2009-06-05 2017-06-20 Microsoft Technology Licensing, Llc Presenting search results according to query domains
US8639513B2 (en) 2009-08-05 2014-01-28 Verizon Patent And Licensing Inc. Automated communication integrator
US8374868B2 (en) * 2009-08-21 2013-02-12 General Motors Llc Method of recognizing speech
US20110099507A1 (en) 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
US8515734B2 (en) 2010-02-08 2013-08-20 Adacel Systems, Inc. Integrated language model, related systems and methods
US9037615B2 (en) * 2010-05-14 2015-05-19 International Business Machines Corporation Querying and integrating structured and unstructured data
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
US8682661B1 (en) 2010-08-31 2014-03-25 Google Inc. Robust speech recognition
CN102324233B (zh) * 2011-08-03 2014-05-07 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
US8924219B1 (en) 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
ES2409530B1 (es) 2011-10-14 2014-05-14 Telefónica, S.A. Método para gestionar el reconocimiento del habla de llamadas de audio
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US8818810B2 (en) 2011-12-29 2014-08-26 Robert Bosch Gmbh Speaker verification in a health monitoring system
US8699677B2 (en) * 2012-01-09 2014-04-15 Comcast Cable Communications, Llc Voice transcription
GB2514943A (en) 2012-01-24 2014-12-10 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9323912B2 (en) 2012-02-28 2016-04-26 Verizon Patent And Licensing Inc. Method and system for multi-factor biometric authentication
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US20140006825A1 (en) 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9459176B2 (en) 2012-10-26 2016-10-04 Azima Holdings, Inc. Voice controlled vibration data analyzer systems and methods
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US9378733B1 (en) 2012-12-19 2016-06-28 Google Inc. Keyword detection without decoding
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9123330B1 (en) 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US9620123B2 (en) 2013-05-02 2017-04-11 Nice Ltd. Seamless authentication and enrollment
JP2014232258A (ja) 2013-05-30 2014-12-11 株式会社東芝 連携業務支援装置、方法およびプログラム
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9202462B2 (en) * 2013-09-30 2015-12-01 Google Inc. Key phrase detection
US9336781B2 (en) 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US10019985B2 (en) 2013-11-04 2018-07-10 Google Llc Asynchronous optimization for sequence training of neural networks
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US8719039B1 (en) 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9396202B1 (en) 2013-12-27 2016-07-19 Google Inc. Weakly synchronized garbage collection and compaction for aggregated, replicated object stores
US9495959B2 (en) 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US10540979B2 (en) 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US9817750B2 (en) 2014-07-03 2017-11-14 Pure Storage, Inc. Profile-dependent write placement of data into a non-volatile solid-state storage
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US20160189730A1 (en) 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
TWI525532B (zh) * 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
US20190043500A1 (en) * 2017-08-03 2019-02-07 Nowsportz Llc Voice based realtime event logging

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059188A1 (en) * 1999-10-19 2008-03-06 Sony Corporation Natural Language Interface Control System
TW200421834A (en) * 2002-08-13 2004-10-16 Qualcomm Inc Annunciators for voice and data applications in wireless communication devices
US20040250139A1 (en) * 2003-04-23 2004-12-09 Hurley John C. Apparatus and method for indicating password quality and variety
US20050235341A1 (en) * 2004-04-16 2005-10-20 Jeremy Stieglitz Dynamically mitigating a noncompliant password
CN101558442A (zh) * 2006-12-05 2009-10-14 摩托罗拉公司 使用语音识别的内容选择
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
CN101681412A (zh) * 2007-06-08 2010-03-24 国际商业机器公司 增强的密码安全性
US20090143057A1 (en) * 2007-11-30 2009-06-04 Verizon Services Organization Inc. Method and apparatus for distinctive alert activation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JAN ANGUITY ET AL.: "《Word Confusability Prediction in Automatic Speech Recognition》", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING(INTERSPEECH)》 *
RICHARD W.CHRISTIANSEN ET AL.: "《Detecting and Locating Key Words in-continuous Speech Using Linear Predictive Coding》", 《IEEE TRANSACTIONS ON ACOUSTICS ON,SPEECH AND,PROCESSING》 *
V.Z.KEPUSKA ET AL.: "《A novel Wake-Up-Word speech recognition system,Wake-Up-Word recognition task,technology and evaluation》", 《NONLINEAR ANALYSIS:THEORY,METHOD&APPLICATIONS》 *
YASSER SHEKOFTEH ET AL.: "《Confidence Measure Improvement Using Useful Predictor Features and Support Vector Machines》", 《ICEE 2012 20TH IRANIAN CONFERENCE ON ELECTRICAL ENGINEERING》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109643542A (zh) * 2016-09-23 2019-04-16 英特尔公司 用于改进的关键词检测的技术
CN109643542B (zh) * 2016-09-23 2024-01-12 英特尔公司 用于改进的关键词检测的技术
CN106847273A (zh) * 2016-12-23 2017-06-13 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106782529A (zh) * 2016-12-23 2017-05-31 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106782529B (zh) * 2016-12-23 2020-03-10 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106847273B (zh) * 2016-12-23 2020-05-05 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN110140168A (zh) * 2016-12-27 2019-08-16 谷歌有限责任公司 上下文热词
CN110140168B (zh) * 2016-12-27 2022-12-06 谷歌有限责任公司 上下文热词
CN110832578B (zh) * 2017-07-24 2022-04-26 美的集团股份有限公司 可定制唤醒语音命令
CN110832578A (zh) * 2017-07-24 2020-02-21 美的集团股份有限公司 可定制唤醒语音命令
CN109935228A (zh) * 2017-12-15 2019-06-25 富泰华工业(深圳)有限公司 身份信息关联系统与方法、计算机存储介质及用户设备
CN108536668A (zh) * 2018-02-26 2018-09-14 科大讯飞股份有限公司 唤醒词评估方法及装置、存储介质、电子设备
CN109887507A (zh) * 2019-04-22 2019-06-14 成都启英泰伦科技有限公司 一种降低相似语音命令词误识别率的方法
CN111090720B (zh) * 2019-11-22 2023-09-12 北京捷通华声科技股份有限公司 一种热词的添加方法和装置
CN111090720A (zh) * 2019-11-22 2020-05-01 北京捷通华声科技股份有限公司 一种热词的添加方法和装置
CN111341317A (zh) * 2020-02-19 2020-06-26 Oppo广东移动通信有限公司 唤醒音频数据的评价方法、装置、电子设备及介质
CN111341317B (zh) * 2020-02-19 2023-09-01 Oppo广东移动通信有限公司 唤醒音频数据的评价方法、装置、电子设备及介质
CN113724688B (zh) * 2021-11-04 2022-03-29 深圳市友杰智新科技有限公司 语音识别的后处理方法、装置和计算机设备
CN113724688A (zh) * 2021-11-04 2021-11-30 深圳市友杰智新科技有限公司 语音识别的后处理方法、装置和计算机设备

Also Published As

Publication number Publication date
EP3301671B1 (en) 2023-09-06
US10002613B2 (en) 2018-06-19
US9536528B2 (en) 2017-01-03
US11741970B2 (en) 2023-08-29
US20180336906A1 (en) 2018-11-22
US20160133259A1 (en) 2016-05-12
EP3321930B1 (en) 2020-09-30
CN106782607B (zh) 2021-02-05
EP3321930A1 (en) 2018-05-16
EP4239628A3 (en) 2023-12-06
US20140012586A1 (en) 2014-01-09
EP3301671A1 (en) 2018-04-04
CN104584119B (zh) 2017-10-17
EP3761310B1 (en) 2023-02-01
US10714096B2 (en) 2020-07-14
KR20160119274A (ko) 2016-10-12
US20220130399A1 (en) 2022-04-28
EP2870602A1 (en) 2015-05-13
KR102196400B1 (ko) 2020-12-29
CN106782607A (zh) 2017-05-31
US20200302941A1 (en) 2020-09-24
US11227611B2 (en) 2022-01-18
EP3761310A1 (en) 2021-01-06
KR102072730B1 (ko) 2020-02-03
EP2870602B1 (en) 2020-04-22
KR20150037986A (ko) 2015-04-08
EP4239628A2 (en) 2023-09-06
WO2014008194A1 (en) 2014-01-09

Similar Documents

Publication Publication Date Title
CN104584119A (zh) 确定热词适合度
CN108255290B (zh) 移动装置上的模态学习
JP7189248B2 (ja) サーバ側ホットワーディング
KR102151681B1 (ko) 언어 모델용 대화 상태들 결정
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
EP3091535B1 (en) Multi-modal input on an electronic device
EP3593346B1 (en) Graphical data selection and presentation of digital content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.