CN104584119B - 确定热词适合度 - Google Patents
确定热词适合度 Download PDFInfo
- Publication number
- CN104584119B CN104584119B CN201380043134.5A CN201380043134A CN104584119B CN 104584119 B CN104584119 B CN 104584119B CN 201380043134 A CN201380043134 A CN 201380043134A CN 104584119 B CN104584119 B CN 104584119B
- Authority
- CN
- China
- Prior art keywords
- hot word
- candidate
- word
- fitness score
- transcription
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 claims abstract description 66
- 230000035897 transcription Effects 0.000 claims abstract description 66
- 230000014509 gene expression Effects 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 abstract description 10
- 235000013550 pizza Nutrition 0.000 description 40
- 235000021170 buffet Nutrition 0.000 description 32
- 230000015654 memory Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 235000016068 Berberis vulgaris Nutrition 0.000 description 2
- 241000335053 Beta vulgaris Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 230000005501 phase interface Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/45—Structures or tools for the administration of authentication
- G06F21/46—Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
用于确定热词适合度的方法、系统和装置,包括在计算机存储介质上进行编码的计算机程序。一个方面,一种方法包括接收对用户所讲出的候选热词进行编码的语音数据;使用一种或多种预定准则对该语音数据或者候选热词的转录进行评估;使用一种或多种预定准则基于对该语音数据或候选热词的转录的评估而针对候选热词生成热词适合度分数;并且提供该热词适合度分数的表示以便向用户显示。
Description
相关申请的交叉引用
本申请要求于2012年7月3日提交的美国临时专利申请第61/667,817号以及于2012年8月6日提交的美国专利申请第13/567,572号的权益,这两个申请的通过引用全文结合于此。
技术领域
本说明书涉及热词适合度的确定。
背景技术
热词有时也被称作“关注词”或“唤醒词”,其为用户提供了与支持语音的计算设备开始交互的免提方式。当该计算设备检测到用户讲出热词时,该设备进入接收进一步的用户命令的准备状态。设备制造商和软件开发商通常提供供用户采用以便与其设备或软件应用进行交互的预定热词。
发明内容
根据该说明书中所描述的主题的一个创新方面,移动设备的用户可以定义其自己的热词以便由移动设备使用。候选热词能够被评估以例如确定该候选热词是否容易被设备与另一个词进行混淆,或者该候选热词是否不适合作为热词使用。该评估结果被显示给用户,用户随后可以确认其是否想要指定该候选热词作为热词,或者提交不同的候选热词进行评估。
作为该说明书中所描述的主题的另一个创新方面,一种过程包括:接收对用户所讲出的候选热词进行编码的语音数据;使用一种或多种预定准则对该语音数据或者候选热词的转录进行评估;使用一种或多种预定准则,基于对该语音数据或该候选热词的转录的评估而针对该候选热词生成热词适合度分数;以及提供该热词适合度分数的表示以便向用户显示。
这些方面的其它实施例包括相应的系统、装置以及在计算机存储设备上编码的计算机程序,其被配置为执行该方法的操作。
这些和其它实施例可选地均可以包括以下一个或多个特征。例如,该热词适合度分数反映候选热词作为热词使用的适合度;热词是用于唤醒设备的关键词或关键短语;热词是用于解锁设备的关键词或关键短语;热词是语音密码;该语音数据从用户所操作的移动设备进行接收;生成热词适合度分数包括使用两个或更多预定准则,基于对该语音数据或者该候选热词的转录的评估而针对该预定准则中的每一个预定准则生成特征分数,对该特征分数进行汇总,并且输出经汇总的特征分数以作为热词适合度分数;评估该语音数据或候选热词的转录包括以帧为单位确定该语音数据的词长度,其中较长的词长度与较高的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定与候选热词相关联的音节或音素的数量,其中较大的音节或音素的数量与较高的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定该候选热词的转录和与该候选热词共享相同语言的一个或多个其它词之间的编辑距离,其中较小的编辑距离与较低的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定针对该候选热词规定的发音的数量,其中较少的发音的数量与较高的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定在该候选热词的转录中出现一个或多个特定音素;特定音素在该转录中的出现与较高的热词适合度分数相关联;特定音素在该转录中的出现与较低的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定语音识别器可用的热词的训练示例的数量,其中较小的训练示例的数量与较低的热词适合度分数相关联;评估该语音数据或候选热词的转录包括确定该候选热词的发音在用户对该候选热词的多次表达中发生变化的程度,其中较大的程度与较低的热词适合度分数相关联;热词适合度分数的表示包括指示候选热词适合作为热词的数据;热词适合度分数的表示包括指示候选热词已经被接受作为热词的数据;热词适合度分数的表示包括热词适合度分数的经色彩编码的表示;和/或热词适合度分数的表示包括条(bar)、量计(gauge)或仪表。
有利的实施方式可以包括以下一个或多个特征。在对热词进行评估时可以考虑与候选热词以及特定讲话者(例如,设备用户)相关的准则。可以对各种热词适合度准则进行计分并汇总,这确保了每个准则都被加以考虑,并且特定准则在热词评估过程期间不会占据主导。设备用户可以在为其设备选择热词时接收热词适合度分数以便做出知情决策。使用适当热词可以改进设备执行热词检测的能力,因此改善设备性能和用户体验。此外,使用适当热词可以限制出现“错误肯定”的热词检测而错误地激活设备的可能性,因此节省了设备资源。
附图和以下的描述中给出了一种或多种实施方式的细节。其它可能的特征和优势将由于描述、附图和权利要求变得显而易见。
附图说明
图1和2是可以确定所讲出的热词的适合度的示例系统的示图。
图3是图示用于确定所讲出的关键词并且用于提供适合度的表示的示例处理的流程图。
图4示出了一般计算机设备和一般移动计算机设备的示例。
各图中同样的附图标记和标注指示同样的元素。
具体实施方式
图1是可以确定所讲出的热词的适合度的示例系统100的示图。图1还图示了以阶段(A)至(H)所示的示例数据流。阶段(A)至(H)可以以所图示的顺序进行,或者它们可以以与所图示的顺序不同的顺序进行。
通常,热词适合度可以由系统100作为热词指定处理的一部分来确定。热词可以包括用户所讲出的用于与静态、便携式或移动计算设备进行交互或者对它们进行控制的关键词或关键短语。例如,热词可以由用户讲出以发起与计算设备的通信,这通常将设备置于其可以接收另外的语音命令的状态。例如,在检测到所讲出的热词时,计算设备可以执行各种操作,包括激活(即,从休眠或空闲状态“唤醒”)、解锁、开启设备应用(例如,搜索应用、地图应用等)、加载优选用户设置和/或其它适当操作。
设备用户可能想要选择特定的词或短语来用作其计算设备的热词。例如,对个人具有意义的词或短语可以用来对设备进行定制,可以以幽默的方式对设备进行个性化,并且与设备制造商所提供的词或短语相比用户更易于记住或发音。此外,用户所选择的热词可以提供安全措施,特别是用作密码。然而,一些词或短语与其它词或短语相比可能更容易被计算设备所检测,并且因此可以用作更好的热词。如以下示例中所描述的,热词的可检测性取决于与特定词或短语相关并且与特定讲话者相关的各种因素,诸如词或短语的长度、词或短语中所包括的音节或语音的数量、特定语音的出现、词或短语被识别的发音的数量、讲话者所讲出的词或短语发音的变化、来自各个其它讲话者的词或短语的训练示例的可用性以及所讲出的词或短语与共享语言的其它词或短语之间的编辑距离。每种准则可以进行打分、汇总并且向用户输出,因此提供候选热词的适合度的整体指示。例如,基于热词适合度分数,用户可以在为其设备选择热词时做出知情决策。
更为详细地,系统100包括计算设备102(这里在各个操作阶段被示为计算设备102a、102b和102c),其能够呈现界面104(这里在各个操作阶段被示为界面104a、104b和104c)以便向用户显示。计算设备102包括一个或多个处理器,其被配置为执行由计算机可读介质所存储的用于执行诸如输入/输出、通信、数据处理等的各种设备操作的指令。例如,计算设备102可以包括一个或多个客户端计算设备(例如,台式计算机、膝上型计算机、笔记本计算机、导航系统、智能电话和或者其它适当计算设备)和/或可以包括一个或多个服务器(例如,后端服务器集群)。例如,客户端计算设备所接收的输入可以在本地进行处理,或者可以被提供至后端系统(例如,云端)以便进行处理。作为另一个示例,该处理可以在一个或多个客户端计算设备(例如,处于端对端配置)和/或服务器之间进行分布。
参考示例数据流,在阶段(A),提示用户讲出或键入候选热词。例如,计算设备102(这里被示为102a)可以经由界面104(这里被示为界面104a)向用户提供指令消息“请讲出您所期望的热词”。在当前示例中,用户表达出候选热词“pizza”并且计算设备102基于该表达捕获、编码和/或生成语音数据110。
该语音数据110例如可以包括音频源数据112(例如,音频流、数字采样的音频文件或者另一种适当的数据格式)、相对应的音素(phone)集合114(即,说话声),以及可选地包括转录116。例如,为了识别音素集合114(例如,在用户表达的“pizza”中所检测到的语音声音),计算设备102和/或后端计算设备能够对音频源数据112中所包括的声信号进行分析,并且能够基于该分析来计算声音特征并对其进行分类。另外,为了生成转录116(例如,所转录的词“pizza”),计算设备102和/或后端计算设备能够使用语音识别技术(例如,隐马尔科夫模型、神经网络或其它适当技术)将音素集合114与词或短语相关联。例如,在捕获、编码和/或生成语音数据110时,该数据可以被提供至一个或多个热词强度评估引擎120。
在阶段(B)期间,对语音数据进行处理和评估。在当前示例中,热词强度评估引擎120可以处理并评估语音数据110。热词强度评估引擎120例如可以包括被配置为对语音数据进行处理和评估的一个或多个硬件和/或软件组件(例如,模块、对象、库等),并且可以由计算设备102和/或其它相关联的设备(例如,后端服务器、对等设备等)的一个或多个处理器执行。
通常,可以使用各种准则来评估语音数据。例如,每种准则可以与不同的热词强度评估引擎相关联,后者进而可以基于特定准则产生特征分数。每个不同的热词强度评估引擎例如可以评估音频源数据、所得出的音素集合、转录和/或与候选热词相关联的其它适当语音数据。此外,在一些实施方式中,可以对训练示例(与讲话者和/或其它讲话者所讲出的候选热词的过去表达相关联的语音数据)进行评估。例如,训练示例可以由训练示例数据存储库122进行维护。训练示例数据存储库122能够实施数据库、数据服务、文件系统等以增加、删除并维护系统100所使用的数据。
在当前示例中,热词强度评估引擎120中的一个或多个可以对音频源数据112进行评估以按照帧(即,基于时间的音频分段)来确定词长度。例如,后选热词“pizza”可以被认为与其它词相比相对简短,或者特定讲话者可能与其它词或其它讲话者相比恰好相对快速地表达出词“pizza”。例如,基于词长度准则,热词长度评估引擎120之一可以产生相对应的特征分数124a(例如,低分数)。
继续当前示例,热词强度评估引擎120之一可以对音素集合114和/或转录116进行评估以识别候选热词与讲话者的语言中的其它词或短语的编辑距离或音素混淆度。例如,为了识别编辑距离,可以使用有限状态换能器、音素至音素换能器和/或语言模型来确定可能与候选热词相混淆的最可能的词或短语。在当前示例中,可以确定诸如“visa”、“pieceof”和“beet saw”(除其它之外)之类的若干个词或短语很可能与候选热词“pizza”相混淆。基于编辑距离准则,例如,热词强度评估引擎120之一可以确定有中等数量的词或短语与候选热词“pizza”具有小的编辑距离,并且因此可以产生相对应的特征分数124b(例如,中等或低等分)。
另外,在当前示例中,热词强度评估引擎120之一可以对转录116和/或训练示例数据存储库122所提供的数据进行评估以识别针对候选热词所指定的发音数量。例如,为了识别词“pizza”的可能发音,热词强度评估引擎可以基于转录116参考词典或发音指南中的词。作为另一个示例,热词强度评估引擎可以参考训练示例数据存储库122中的词“pizza”,并且可以识别各个讲话者如何对该词进行发音的变化。在当前示例中,可以确定的是,虽然在词典或发音指南中仅找到了词“pizza”的一种官方美式英语发音,但是美国讲话者如何对该词发音则存在一些变化。例如,一些美国讲话者可能会使用词“pizza”的本土意大利讲话者的发音。例如,基于发音数量准则,热词强度评估引擎120之一可以确定针对候选词“pizza”存在少量到中等数量的发音,并且因此可以产生相对应的特征分数124c(例如,高或中等分数)。
在阶段(C)期间,生成热词适合度分数。例如,在生成每个特征分数124a、124b和124c时,特征分数的集合126可以被提供至热词分数生成器128。热词分数生成器128例如可以对分数124a、124b和124c进行汇总并且提供经汇总的特征分数作为热词适合度分数。例如,为了生成热词适合度分数,热词分数生成器128可以使用逻辑回归或可替换分类器来训练用于估计候选热词(例如,词“pizza”)的置信度值的模型。通常,高的置信度值可以与可能适合的热词相关联。作为另一个示例,热词分数生成器可以为每个特征分数124a、124b和124c指定适当权重(例如,基于经验分析)并且可以执行汇总操作。
在阶段(D)期间,提供热词适合度分数的表示以便向用户显示。例如,计算设备102(在这里被示为设备102b)可以经由界面(这里被示为界面104b)向用户提供热词适合度的一个或多个指示(例如,视觉和/或音频的)。在当前示例中,界面104b可以向用户呈现消息(例如,候选热词“pizza”相对“弱”),以及与各种热词打分准则(例如,汇总热词适合度分数12/100)相关联的特征和/或汇总分数的一种或多种文本或图形表示(例如,线状图、柱状图、象限图等)。此外,在当前示例中,用户可以被呈现以提交另一个候选热词的提示(例如,“请重试”)。该提示例如可以在热词适合度分数低于预定阈值的情况下被提供。
同样参考该示例数据流,类似于阶段(A),在阶段(E)期间,用户再次被提示提供候选热词。在当前示例中,用户表达出候选热词“smorgasbord(自助餐)”,并且计算设备102基于该表达捕获、编码和/或生成语音数据130。例如,类似于语音数据110,语音数据130可以包括音频源数据132、相对应的音素集合134,以及可选地包括转录136。例如,在捕获、编码和/或生成语音数据130时,可以向一个或多个热词强度评估引擎120提供该数据。
类似于阶段(B),在阶段(F)期间,对语音数据进行处理和评估。在当前示例中,热词强度评估引擎120可以对语音数据130进行处理和评估。例如,热词强度评估引擎120可以对音频源数据132、音素集合134、转录136以及与候选热词“smorgasbord”相关联的其它适当语音数据进行评估。
在当前示例中,热词强度评估引擎120之一可以对音频源数据132进行评估以按帧确定词长度。例如,候选热词“smorgasbord”可以被认为与其它词相比相对更长(例如,基于平均词长度),或者特定讲话者恰好与其它词或其它讲话者相比相对缓慢地表达出词“pizza”。例如,基于词长度准则,一个或多个热词强度评估引擎120可以产生相对应的特征分数124a(例如,高分数)。
继续当前示例,热词强度评估引擎120之一可以对音素集合134和/或转录136进行评估以识别候选热词与讲话者语言中的其它词或短语的编辑距离。在当前示例中,可以确定词“harpsichord”具有与候选热词“smorgasbord”相混淆的极小可能性。例如,基于编辑距离准则,热词强度评估引擎120之一可以确定少量词或短语与候选热词“smorgasbord”具有中等的编辑距离,并且因此可以产生相对应的特征分数124b(例如,高分数)。
另外,在当前示例中,热词强度评估引擎120之一可以对转录136和/或训练示例数据存储库122所提供的数据进行评估以识别针对该候选热词所指定的发音数量。例如,类似于词“pizza”,可以确定的是,虽然在词典或发音指南中仅找到了词“smorgasbord”的一种官方美式英语发音,但是美国讲话者如何对该词进行发音具有一些变化。例如,一些美国讲话者可能会使用词“smorgasbord”的瑞典发音。例如,基于发音数量准则,热词强度评估引擎120之一可以确定针对候选热词“smorgasbord”存在少量到中等数量的发音,并且因此可以产生相对应的特征分数124c(例如,高或中等分数)。
类似于阶段(C),在阶段(G)期间,生成热词适合度分数。例如,在针对语音数据130生成每个特征分数124a、124b和124c时,特征分数的集合126可以被提供至热词分数生成器128。另外,类似于阶段(D),在阶段(H)期间,提供热地适合度分数的表示以便向用户显示。在当前示例中,界面104(这里被示为界面104c)可以向用户呈现消息(例如,候选热词“smorgasbord”相对“强”),以及与各种热词打分准则(例如,汇总热词适合度分数93/100)相关联的特征和/或汇总分数的一种或多种文本或图形表示。此外,在当前示例中,用户可以被呈现有候选热词被指定为设备热词的消息(例如,热词“被接受”)。该消息例如可以在热词适合度分数高于预定阈值的情况下被提供。
如之前示例中所描述的,在对热词进行评估时可以考虑与候选热词以及特定讲话者相关的准则。设备用户可以对计算设备102所提供的热词适合度信息进行审阅以选择热词。使用适当的热词可以改善设备所进行的热词检测,因此提高设备性能并节约设备资源。在之前示例中已经描述了用于评估语音数据并且用于生成热词适合度分数的若干准则。然而,如以下另外的示例中将要描述的,可以考虑另外的准则、较少的准则和/或不同的准则。
图2是可以确定所讲出的热词的适合度的示例系统200的示图。例如,系统200可以包括一个或多个客户端计算设备和/或后端服务器的硬件和/或软件组件。总体上,系统200可以接收对用户所讲出的候选热词进行编码的语音数据,并且能够对该语音数据进行评估和转录,能够针对候选热词生成热词适合度分数,并且能够提供热词适合度分数的表示以便向用户显示。
系统200可以包括计算机可读介质202(例如,一个或多个软盘设备、硬盘设备、光盘设备、带式设备、闪存设备或其它类似固态存储器设备,或者设备的阵列)以用于存储执行这里所描述的处理的指令(例如,应用程序代码)。另外,系统200可以包括一个或多个处理器204,其被配置为执行指令并且实施各种设备操作,诸如输入/输出、通信、数据处理等。
系统200可以包括用户界面生成器206,其用于在系统200和用户之间提供接口(例如,图形、音频和/或触觉)界面。例如,用户界面生成器206可以提供(图1所示的)界面104a、104b和104c以便向用户提供提示、消息以及热词适合度的表示。另外,系统200可以包括音频接口208。音频接口208例如可以包括一个或多个用于从用户接收所讲出的词和短语的麦克风,以及一个或多个用于向用户提供音频提示和反馈(例如,音调、录音、计算机所生成的语音等)的扬声器。此外,音频接口208可以向处理器204提供与所接收的所讲出的词和短语相关联的音频信号以便进行数字采样和编码。
系统200可以包括n-gram/音素生成器210。例如,n-gram/音素生成器210可以对经由音频接口208和处理器204提供的编码语音数据进行分析,并且可以识别相对应的一系列n-gram和/或音素。例如,n-gram/音素可以被语音识别引擎212用来执行机器翻译和转录。
系统200可以包括多个热词强度评估引擎214。热词强度评估引擎214可以考虑各种预定的准则来评估语音数据。例如,准则可以包括词或短语的长度、词或短语中所包括的音节或音素的数量、特定音素的出现、针对词或短语所识别的发音的数量、讲话者对词或短语的发音可变性、来自各个讲话者的词或短语的训练示例的可用性和/或所讲出的词或短语与共享语言的其它词或短语之间的编辑距离。例如,每个热词强度评估引擎214可以使用一种或多种准则对语音数据进行评估。
系统200可以包括分数生成器216。例如,分数生成器216可以针对每个热词强度评估引擎214确定特征分数,并且总的热词可用性分数可以通过对特征分数进行汇总来确定。热词适合度分数的表示例如可以经由用户界面生成器206所生成的界面而被提供给用户。
图3是图示用于确定所讲出的热词的适合度并且用于提供该适合度的表示的示例过程300的流程图。在一些实施方式中,过程300可以由系统100和/或200执行,并且出于清楚的原因将如此进行描述。简单来讲,过程300包括接收所讲出的热词,对该热词进行评估,对该热词进行打分,并且提供热词适合度的表示。
更为详细地,当过程300开始时(302),接收对用户所讲出的候选热词进行编码的语音数据(304)。例如,用户可能想要提供用于唤醒和/或解锁其静态设备(例如,家庭自动化系统)或移动设备(例如,智能电话)的关键词或关键短语。在当前示例中,用户可以选择提供其能够记住而且还不太可能被其它用户所想到的短语(即,语音密码)。因此,当前示例中的用户讲出了短语“pizza smorgasbord”。
参考图2,例如,音频接口208能够接收用户所表达出的候选热词并且能够将与所接收到的表达相关联的音频信号提供至处理器204以便进行数字采样和编码。另外,经采样和编码的音频信号能够被n-gram/音素生成器210分解为一系列n-gram和音素,并且能够被语音识别引擎212进行转录。例如,该语音数据和转录可以被提供至热词强度评估引擎214。
使用一种或多种预定准则对该语音数据或者候选热词的转录进行评估(306)。例如,每个热词强度评估引擎214可以被配置为基于特定准则或相关准则集合对语音数据和/或转录进行评估。通常,可以提取并评估可能与热词检测性能相关的热词特征或特性。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定该语音数据的词长度(例如,以帧为单位)。例如,可以使用帧化处理将与候选热词相关联的语音信号划分为较短的语音信号,由此识别相对稳定的频率特性。通常,较长的词长度(例如,较大的帧数量)可以与较高的热词适合度分数相关联。在当前示例中,候选热词“pizzasmorgasbord”与典型热词相比可以是相对更长的,并且在考虑词长度特征时可以与相对高的热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定与候选热词相关联的音节或音素的数量。例如,与候选热词相关联的音节数量可以通过使用语音识别引擎212所生成的热词的转录来参考包括各个词的音节计数的词典来确定。作为另一个示例,与候选热词相关联的音素的数量可以通过由n-gram/音素生成器210对针对热词所识别的音素集合进行评估而确定。在当前示例中,候选热词“pizza smorgasbord”可以被识别为总共包括五个音节(例如,单个词“pizza”包括两个音节以及词“smorgasbord”包括三个音节),并且可以被识别为总共包括十个音素(例如,单个词“pizza”包括三个音素以及词“smorgasbord”包括七个音素)。通常,较大的词或音素数量可以与较高的热词适合度分数相关联。当前示例中的候选热词“pizza smorgasbord”与典型热词相比可以具有相对更大数量的音节和/或音素,并且在考虑音节和/或音素数量特征时可以与相对高的热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定候选热词的转录与和该候选热词共享相同语言的一个或多个其它词之间的编辑距离。例如,彼此之间具有小的编辑距离的词或短语一般可能是易混淆的,而彼此之间具有大的编辑距离的词或短语一般更容易区分。在当前示例中,可以确定短语“piece of harpsichord(大键琴)”与候选热词“pizza smorgasbord”可能具有中等的编辑距离(即,可能稍微容易与其混淆)。通常,较小的编辑距离可以与较低的热词适合度分数相关联。因此,在当前示例中,由于短语“piece of harpsichord”与候选热词“pizza smorgasbord”之间具有中等的编辑距离,所以该候选热词在考虑编辑距离特征时可以与中等的热词适合度分数相关联。
在一些实施方式中,在识别出在候选热词的预定编辑距离范围之内的一个或多个词或短语时,可以在确定编辑距离特征分数时考虑这样的词的数量。例如,短语“piece ofharpsichord”可能已经被识别为在候选热词“pizza smorgasbord”的预定编辑距离范围内,但是可能仅有几个(如果存在)其它短语可能同样被识别为在该编辑距离范围内。因此,在当前示例中,该候选热词可以与较高的特征分数相关联。另外,在一些实施方式中,在确定热词适合度分数时可以考虑候选热词和/或处于该候选热词的预定编辑距离范围之内的每个词或短语(即,可能易混淆的词或短语)在一般对话中被使用的可能性。例如,一个或多个候选热词评估引擎214可以确定候选热词“pizza smorgasbord”和/或可能混淆的短语“piece of harpsichord”在一般对话中被讲出(例如,由设备用户和/或一般由人)的可能性相对低,并且该候选热词可以与平均更高的特征分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定针对该候选热词所指定的发音的数量。例如,与候选热词相关联的发音的数量可以通过使用语音识别引擎212所生成的热词的转录来参考包括该热词的常见或被接受的发音的词典而被确定。作为另一个示例,可以对用户和/或其它用户已经讲出的候选热词的录制实例进行评估。通常,较少的发音数量可以与较高的热词适合度分数相关联。例如,热词强度评估引擎214之一可以从词典源识别出短语“pizza smorgasbord”的单个官方发音,但是可以识别出讲话者群体对该短语的较少或中等数量的不同发音。因此,在当前示例中,候选热词“pizzasmorgasbord”在考虑发音数量特征时可以与相对高到中等的热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定在候选热词的转录中出现的一个或多个特定音素或音节。例如,为了识别特定音节,候选热词的转录可以被用来参考词典或发音指南,并且可以识别与热词相关联的定义的音节。作为另一个示例,热词强度评估引擎214之一可以评估由n-gram/音素生成器210针对讲出的候选热词所识别出的音素。通常,在转录中出现的某些音素或音节可以与较高的热词适应性分数相关联。例如,短语“pizza smorgasbord”中所包括的词“pizza”的第二音节(即,“suh”)可以与高的可检测置信水平相关联,并且与相对高的热词适合度相关联。然而,转录中出现的某些其他音素一般可以与较低的热词适合度分数相关联。例如,词“pizza”的第一音节(即,“peet”)可以与低的可检测置信水平相关联(例如,其可能容易与音节“beet相混淆”),并且与相对低的热词适合度相关联。例如,当确定并评估了出现在候选热词中的特定音素或音节时,与每个音素或音节相关联的构成分数可以被用于确定汇总分数。例如,候选热词“pizza smorgasbord”可以包括与低、中等和高分数相关联的特定音素或音节。因此,当前示例中的候选热词在考虑特定音素和/或音节特征时可以与中等热词适合度分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定语音识别器可用的热词的训练示例的数量。例如,参考图1,各个个体(例如,设备用户和/或其它用户)已经讲出的各种词和短语的录制实例可以由训练示例数据存储库122维护。此外,训练示例数据存储库122例如可以包括转录和/或索引数据,从而所录制的特定词和/或短语的实例可以被参考并分析。通常,较小数量的训练示例可以与较低的热词适合度分数相关联。当前示例中的候选热词“pizza smorgasbord”与典型热词相比可以具有相对较小数量的训练示例,并且在考虑训练示例数量特征时可以与相对低的热词适合度分数相关联。
如果针对特定候选热词没有找到训练示例,则在一些实施方式中,可以对最接近的相邻热词(即,与相似音素、音节或其它适当特征相关联的词或短语)进行评估。例如,用户可以选择提供所发明的词(即,词典中并不存在的词)作为候选热词。在当前示例中,由于针对所发明的候选热词无法找到训练示例,所以该热词的训练示例特征分数可以较低,但是其它特征分数可以相对较高,因此在确定汇总的热词适合度分数时抵消低的特征分数。例如,特定的所发明的词可以包括与高特征分数相关联的一个或多个音节或音素,并且所发明的词可以在考虑编辑距离特征时与高分数相关联。
在一些实施方式中,评估语音数据和/或候选热词的转录可以包括确定候选热词的发音在用户所进行的该候选热词的多次表达中发生变化的程度。参考图1,例如,用户可以被计算设备102a多次提示“请讲出您所期望的热词”,并且所讲出的热词的多个实例(例如,相关联的音频信号)可以由一个或多个热词强度评估引擎120针对一致性而进行互相比较。在当前示例中,用户可能在对候选热词“pizza smorgasbord”发音时稍有不一致——该短语对于特定讲话者而言可能难以一致地发音。通常,较大的发音变化程度可以与较低的热词适合度分数相关联。因此,在当前示例中,在考虑发音变化特征时,候选热词“pizzasmorgasbord”可以与相对低的热词适合度分数相关联。
之前的示例中已经对各种可能的热词特征,用于评估语音数据的准则以及用于生成热词适合度分数的技术进行了描述。然而,可以采用附加、更少和/或不同的特征、准则和/或技术。通常,可以对分类器进行训练以识别并考虑与语音数据相关的可能有所影响的特征和准则。此外,用于生成热词适合度分数的技术可以在考虑附加语音数据(例如,训练示例)时随时间发生变化。
使用一种或多种预定准则(例如,在之前示例中所描述的准则),基于对语音数据或候选热词的转录的评估而生成候选热词的热词适合度分数(308)。该热词适合度分数可以反映候选热词被作为热词使用的适合度。例如,高的热词适合度分数可以与在被用来激活计算设备时可能工作良好的候选热词相关联,而低的热词适合度分数则可以与可能工作不佳的候选热词相关联。例如,工作良好的热词可以被容易检测到并且不太可能与自然语言对话相混淆。例如,工作不佳的热词令计算设备难以检测并且可能与其它词和短语相混淆。
在一些实施方式中,生成热词适合度分数可以包括使用预定准则,针对两种或更多的预定准则基于对语音数据(或者候选热词的转录)的评估生成特征分数,对该特征分数进行汇总,并且输出经汇总的特征分数作为热词适合度分数。在当前示例中,候选热词“pizza smorgasbord”针对词长度准则、音节或音素数量准则、编辑距离准则、发音数量准则以及出现特定音素或音节的准则而具有高或中等的特征分数。然而,当前示例中的候选热词“pizza smorgasbord”也可以针对训练示例数量准则和发音变化准则而具有低的特征分数。例如,对热词适合度分数进行汇总可以取决于如何向各个特征分数应用权重,和/或可以取决于如何对生成分数的分类器进行训练。在当前示例中,候选热词“pizzasmorgasbord”可以与中等至高的热词适合度分数相关联。
提供热词适合度分数的表示(310)以便向用户显示,由此结束该过程(312)。参考图1,例如,示出界面104b和104c以便向用户显示热词适合度分数的表示。例如,界面104b示出了热词适合度分数的表示,其中该表示包括指示该候选热词不适合作为热词并且该候选热词已经被拒绝的数据。例如,界面104c示出了热词适合度分数的表示,其中该表示包括指示该候选热词适合作为热词并且该候选热词已经被接受的数据。然而,在一些实施方式中,热词适合度分数可以作为关于热词被预测在计算设备上工作得如何的一般信息,并且用户可以选择对该信息施加操作或者将其忽略。
可以向用户提供热词适合度分数的各种表示(例如,视觉和/或音频的)。在一些实施方式中,可以提供文本分数(例如,十分制规模、百分制规模、字母等级等)。例如,界面可以针对候选热词“pizza smorgasbord”显示字母等级“B+”。在一些实施方式中,热词适合度分数的表示可以包括分数的经色彩编码的表示。例如,与交通灯类似,绿色可以与高适合度分数相关联,黄色可以与中等适合度分数相关联,而红色则可以与低适合度分数相关联。在一些实施方式中,热词适合度分数的表示包括条、量计或仪表。例如,高的总体适合度分数可以利用成比例地高(或长)的条状指示器来表示。作为另一个示例,所汇总的热词适合度分数中所包括的每个个体特征分数可以由单独的条、量计或仪表来表示。因此,在当前示例中,如果用户被通知候选热词“pizza smorgasbord”已经针对除了训练示例准则和发音变化准则之外的大多数特征而获得了相对高的分数,则该用户可以使用该信息来改进候选热词(例如,通过提供更多训练示例和/或更为清晰的发音),或者选择不同的候选热词。
图4示出了可与这里所描述的技术一起使用的通用计算设备400和通用移动计算设备450的示例。计算设备400意在表示各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片式服务器、主机和其它适当计算机。计算设备450意在表示各种形式的移动设备,诸如个人数字助理、移动电话、智能电话和其它类似的计算设备。这里所示出的组件、其连接和关系以及其功能仅意在进行示例,而并非意在对本文中所描述和/或要求保护的发明的实施方式进行限制。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408,以及连接到低速总线414和存储设备406的低速接口412。每个组件402、404、406、408、410和412使用各种总线进行互连,并且可以安装在共用主板上,或者以其它适宜方式进行安装。处理器402能够处理指令以便在计算设备400内执行以在诸如耦合到高速接口408的显示器416的外部输入/输出设备上显示用于GUI的图形信息,该指令包括存储在存储器404中或者存储设备406中的指令。在其它实施方式中,如果适宜,可使用多个处理器和/或多个总线,以及多个存储器和存储器类型。而且,多个计算设备400可以与提供各部分必要操作的每个设备进行连接(例如,作为服务器组、刀刃服务器分组或多处理器系统)。
存储器404存储计算设备400内的信息。在一种实施方式中,存储器404是一个或多个易失性存储单元。在另一实施方式中,存储器404是一个或多个非易失性存储单元。存储器404还可以是其它形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供大型存储。在一种实施方式中,存储设备406可以是或者可包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、磁带设备、闪存或其它类似固态存储设备,或者设备阵列,包括存储域网络或其它配置中的设备。计算机程序产品可有形地实现在信息载体中。该计算机程序产品还可以包含指令,当被执行时,该指令执行诸如以上所描述的一个或多个方法。该信息载体是计算机或机器可读介质,诸如存储器404、存储设备406、处理器402上的存储器或传播信号。
高速控制器408管理计算设备400的带宽密集操作,而低速控制器412管理较低带宽密集的操作。这样的功能分配仅是示例性的。在一种实施方式中,高速控制器408耦合到存储器404、显示器416(例如,通过图形处理器或加速器),并且耦合到可接受各种扩展卡(未示出)的高速扩展端口410。在该实施方式中,低速控制器412耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速控制端口414可耦合到一个或多个输入/输出设备,诸如键盘、指示设备、扫描仪,或者例如通过网络适配器耦合到诸如交换机和路由器之类的联网设备。
如图所示,计算设备400能够以各种不同形式来实现。例如,其可以实现为标准服务器420,或者这种服务器的群组中的多个服务器。其还可以被实现为机架式服务器系统424的一部分。此外,其还可以以诸如膝上计算机422的个人计算机来实施。作为选择,来自计算设备400的组件可以与诸如设备450的移动设备(未示出)中的其它组件相结合。每个这样的设备可包含一个或多个计算设备400、450,并且整个系统可由多个互相通信的计算设备400、450所构成。
除其它组件之外,计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发器468。设备450还可以被提供以诸如微驱动器或其它设备的存储设备以提供附加存储。每个组件450、452、464、454、466和468使用各种总线进行互连,并且若干组件可安装在共用主板上或者以其它适宜方式进行安装。
处理器452可以执行计算设备450内的指令,包括存储在存储器464中的指令。该处理器可以被实现为包括单独且多个的模拟和数字处理器的芯片的芯片组。例如,该处理器可提供设备450的其它组件的协同,诸如控制用户接口、设备450所运行的应用程序以及设备450所进行的无线通信。
处理器452可以通过耦合到显示器454的控制接口458和显示接口456与用户进行通信。显示器454例如可以是TFT LCD(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器,或者其它适当的显示技术。显示接口456可以包括用于驱动显示器454以向用户显示图形和其它信息的适当电路。控制接口458可以接收来自用户的命令并且对其进行转以便向提交至处理器452。此外,可提供与处理器452进行通信的外部接口462,从而使得设备450能够与其它设备进行近域通信。例如,外部接口462在一些实施方式中可提供有线通信,或者在其它实施方式中提供无线通信,并且也可使用多个接口。
存储器464存储计算设备450内的信息。存储器464可以实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或者一个或多个非易失性存储器单元。也可以提供扩展存储器474并通过扩展接口442连接到设备450,例如,该扩展接口442可以包括SIMM(单列存储模块)卡接口。这样的扩展存储器474可为设备450提供额外的存储空间,或者还可以为设备450存储应用程序或其它信息。特别地,扩展存储器474可以包括指令以执行或补充以上所描述的处理,并且还可以包括安全信息。例如,扩展存储器474由此可被提供作为设备450的安全模块,并且可利用允许对设备450进行安全使用的指令进行编程。此外,可经由SIMM卡提供安全应用程序以及附加信息,诸如以不可破坏的方式在SIMM卡上设置识别信息。
例如,如以下所描述的,该存储器可以包括闪存和/或NVRAM存储器。在一种实施方式中,计算机程序产品有形地实现在信息载体中。该计算机程序产品还可包含指令,当被执行时,该指令执行诸如以上所描述的一种或多种方法。该信息载体是计算机或机器可读介质,诸如存储器464、扩展存储器474、处理器452上的存储器或者可例如在收发器468或外部接口462上接收的传播信号。
设备450可通过通信接口466进行无线通信,在必要情况下,该通信接口466包括数字信号处理电路。通信接口466可在各种模式或协议下提供通信,除其它之外,该模式或协议诸如GSM语音呼叫、SMS、EMS或MMS消息发送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。例如,这样通信可通过射频收发器468进行。此外,诸如可使用蓝牙、WiFi或其它这样的收发器(未示出)进行短距离通信。此外,GPS(全球定位系统)接收器模块440可为设备450提供附加的导航和位置相关的无线数据,其可由设备450上运行的应用程序适当使用。
设备450还使用音频编解码器460进行可听通信,该音频编解码器460接收来自用户的语音信息并且将其转换为可用的数字信息。音频编解码器460同样可以诸如通过扬声器为用户生成可听声音,例如在设备450的听筒中。这样的声音可以包括来自语音电话呼叫的声音,可以包括录制的声音(例如,语音消息、音乐文件等),并且还可以包括设备450上运行的应用程序所生成的声音。
如图所示,计算设备450可以以多种不同方式来实现。例如,其可以实现为蜂窝电话480。其还可以实现为智能电话482、个人数字助理或其它类似移动设备的一部分。
这里所描述的系统和技术的各种实施方式可以以数字电路、集成电路、专门设计的ASIC(应用特定集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括一个或多个计算机程序中的实施方式,该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程系统可以为专用或通用,其耦合以从存储设备、至少一个输入设备以及至少一个输出设备接收数据和指令并且向其传送数据和指令。
这些计算机程序(也称作程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且能够以高级程序和/或面向对象编程语言来实施,和/或以汇编/机器语言来实施。如这里所使用的,术语“机器可读介质”、“计算机可读介质”是指用来向可编程处理器提供机器指令和/或数据的任意计算机程序产品、装置和/或设备(例如,磁碟、光盘、存储器、可编程逻辑设备PLD),其包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指被用来为可编程处理器提供机器指令和/或数据的任意信号。
为了提供与用户的交互,这里所描述的系统和技术可在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户能够通过其为计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)的计算机上实施。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以为任意形式的传感器反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且来自用户的输入可以以任意形式接收,包括声音、语音或触觉输入。
这里所描述的系统和技术可在计算系统中实现,该计算系统包括后端组件(例如,数据服务器),或者其包括中间件组件(例如,应用服务器),或者其包括前端组件(例如,具有用户能够通过其与这里所描述的系统和技术的实施方式进行交互的图形用户节目或网络浏览器的客户端计算机),或者这些后端、中间件或前端组件的任意组合。该系统的组件可通过任意形式的介质或数字数据通信(例如,通信网络)进行互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。
该计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系源自于在各自计算机上运行的计算机程序并且具有彼此的客户端-服务器关系。
已经描述了多个实施例。然而,将要理解的是,能够进行各种修改而并不背离本发明的精神和范围。此外,图中所描绘的逻辑流程并不要求所示出的特定顺序或连续顺序来实现所期望的结果。此外,可以提供其它步骤,或者可以从所描述的流程中消除捕获,并且可以向所描述的系统增加其它组件或者从中去除组件。因此,其它实施例处于以下权利要求的范围之内。
Claims (21)
1.一种用于确定热词适合度的方法,包括:
接收对用户所讲出的候选热词进行编码的语音数据;
使用一种或多种预定准则对所述语音数据或者所述候选热词的转录进行评估;
使用一种或多种预定准则,基于对所述语音数据或所述候选热词的转录的评估而针对所述候选热词生成热词适合度分数,其中所述热词适合度分数反映所述候选热词作为热词使用的适合度;以及
提供所述热词适合度分数的表示以便向用户显示。
2.根据权利要求1所述的方法,其中热词是用于唤醒设备的关键词或关键短语。
3.根据权利要求1所述的方法,其中热词是用于解锁设备的关键词或关键短语。
4.根据权利要求1所述的方法,其中热词是语音密码。
5.根据权利要求1所述的方法,其中所述语音数据从所述用户所操作的移动设备接收。
6.根据权利要求1所述的方法,其中生成热词适合度分数包括:
使用两个或更多预定准则,基于对所述语音数据或者所述候选热词的所述转录的评估而针对所述预定准则中的每一个预定准则生成特征分数;
对所述特征分数进行汇总;以及
输出经汇总的特征分数以作为所述热词适合度分数。
7.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
以帧为单位确定所述语音数据的词长度,
其中较长的词长度与较高的热词适合度分数相关联。
8.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定与所述候选热词相关联的音节或音素的数量,
其中较大的音节或音素的数量与较高的热词适合度分数相关联。
9.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定所述候选热词的所述转录和与所述候选热词共享相同语言的一个或多个其它词之间的编辑距离,
其中较小的编辑距离与较低的热词适合度分数相关联。
10.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定针对所述候选热词而规定的发音的数量,
其中较少的发音的数量与较高的热词适合度分数相关联。
11.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定在所述候选热词的所述转录中出现一个或多个特定音素。
12.根据权利要求11所述的方法,其中所述特定音素在所述转录中的所述出现与较高的热词适合度分数相关联。
13.根据权利要求11所述的方法,其中所述特定音素在所述转录中的所述出现与较低的热词适合度分数相关联。
14.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定对语音识别器可用的所述热词的训练示例的数量,
其中较小的训练示例的质量与较低的热词适合度分数相关联。
15.根据权利要求1所述的方法,其中对所述语音数据或者所述候选热词的转录进行评估包括:
确定所述候选热词的发音在所述用户对所述候选热词的多次表达中发生变化的程度,
其中较大的程度与较低的热词适合度分数相关联。
16.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括指示所述候选热词适合作为热词的数据。
17.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括指示所述候选热词已经被接受作为热词的数据。
18.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括所述热词适合度分数的经色彩编码的表示。
19.根据权利要求1所述的方法,其中所述热词适合度分数的所述表示包括条、量计或仪表。
20.一种用于确定热词适合度的系统,包括:
一个或多个计算机以及一个或多个存储指令的存储设备,当所述指令被所述一个或多个计算机执行时,所述指令能够进行操作以使得所述一个或多个计算机执行操作,所述操作包括:
接收对用户所讲出的候选热词进行编码的语音数据;
使用一种或多种预定准则对所述语音数据或者所述候选热词的转录进行评估;
使用一种或多种预定准则,基于对所述语音数据或所述候选热词的转录的评估而针对所述候选热词生成热词适合度分数,其中所述热词适合度分数反映所述候选热词作为热词使用的适合度;以及
提供所述热词适合度分数的表示以便向用户显示。
21.一种计算机可读存储设备,存储包括一个或多个计算机可执行的指令的软件,当所述指令被执行时,所述指令使得所述一个或多个计算机执行操作,所述操作包括:
接收对用户所讲出的候选热词进行编码的语音数据;
使用一种或多种预定准则对所述语音数据或者所述候选热词的转录进行评估;
使用一种或多种预定准则,基于对所述语音数据或所述候选热词的转录的评估而针对所述候选热词生成热词适合度分数,其中所述热词适合度分数反映所述候选热词作为热词使用的适合度;以及
提供所述热词适合度分数的表示以便向用户显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611132499.7A CN106782607B (zh) | 2012-07-03 | 2013-07-01 | 确定热词适合度 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261667817P | 2012-07-03 | 2012-07-03 | |
US61/667,817 | 2012-07-03 | ||
US13/567,572 US9536528B2 (en) | 2012-07-03 | 2012-08-06 | Determining hotword suitability |
US13/567,572 | 2012-08-06 | ||
PCT/US2013/048945 WO2014008194A1 (en) | 2012-07-03 | 2013-07-01 | Determining hotword suitability |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611132499.7A Division CN106782607B (zh) | 2012-07-03 | 2013-07-01 | 确定热词适合度 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104584119A CN104584119A (zh) | 2015-04-29 |
CN104584119B true CN104584119B (zh) | 2017-10-17 |
Family
ID=49879192
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611132499.7A Active CN106782607B (zh) | 2012-07-03 | 2013-07-01 | 确定热词适合度 |
CN201380043134.5A Active CN104584119B (zh) | 2012-07-03 | 2013-07-01 | 确定热词适合度 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611132499.7A Active CN106782607B (zh) | 2012-07-03 | 2013-07-01 | 确定热词适合度 |
Country Status (5)
Country | Link |
---|---|
US (5) | US9536528B2 (zh) |
EP (5) | EP4239628A3 (zh) |
KR (2) | KR102196400B1 (zh) |
CN (2) | CN106782607B (zh) |
WO (1) | WO2014008194A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767763A (zh) * | 2018-12-25 | 2019-05-17 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
Families Citing this family (286)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
GB2489527B (en) * | 2011-04-01 | 2014-01-01 | Voicevault Ltd | Voice verification system |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
RU2530268C2 (ru) | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9703350B2 (en) * | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
US9336779B1 (en) * | 2013-04-10 | 2016-05-10 | Google Inc. | Dynamic image-based voice entry of unlock sequence |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10157272B2 (en) * | 2014-02-04 | 2018-12-18 | Qualcomm Incorporated | Systems and methods for evaluating strength of an audio password |
US10102848B2 (en) | 2014-02-28 | 2018-10-16 | Google Llc | Hotwords presentation framework |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9263042B1 (en) * | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9354687B2 (en) * | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US9335966B2 (en) * | 2014-09-11 | 2016-05-10 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
US10008208B2 (en) | 2014-09-18 | 2018-06-26 | Nuance Communications, Inc. | Method and apparatus for performing speaker recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10055767B2 (en) | 2015-05-13 | 2018-08-21 | Google Llc | Speech recognition for keywords |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9911410B2 (en) * | 2015-08-19 | 2018-03-06 | International Business Machines Corporation | Adaptation of speech recognition |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
JP6495850B2 (ja) * | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
US10510350B2 (en) * | 2016-03-30 | 2019-12-17 | Lenovo (Singapore) Pte. Ltd. | Increasing activation cue uniqueness |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
ES2806204T3 (es) | 2016-06-15 | 2021-02-16 | Cerence Operating Co | Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
EP3287921B1 (en) * | 2016-08-26 | 2020-11-04 | Nxp B.V. | Spoken pass-phrase suitability determination |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10217458B2 (en) * | 2016-09-23 | 2019-02-26 | Intel Corporation | Technologies for improved keyword spotting |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
KR102584324B1 (ko) * | 2016-10-26 | 2023-09-27 | 에스케이텔레콤 주식회사 | 음성 인식 서비스 제공 방법 및 이를 위한 장치 |
US10237268B2 (en) * | 2016-11-02 | 2019-03-19 | Google Llc | Secure passcode processing device |
KR102241970B1 (ko) | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
EP3535751A4 (en) | 2016-11-10 | 2020-05-20 | Nuance Communications, Inc. | METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106782529B (zh) * | 2016-12-23 | 2020-03-10 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
CN106847273B (zh) * | 2016-12-23 | 2020-05-05 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10102856B2 (en) * | 2017-01-20 | 2018-10-16 | Essential Products, Inc. | Assistant device with active and passive experience modes |
US10741174B2 (en) * | 2017-01-24 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Automatic language identification for speech |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10847152B2 (en) * | 2017-03-28 | 2020-11-24 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service, electronic device and system supporting the same |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
WO2018195185A1 (en) | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
US10511585B1 (en) * | 2017-04-27 | 2019-12-17 | EMC IP Holding Company LLC | Smoothing of discretized values using a transition matrix |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10607601B2 (en) * | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
KR102592677B1 (ko) * | 2017-05-23 | 2023-10-23 | 구글 엘엘씨 | 어텐션-기반의 시퀀스 변환 신경망 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10964315B1 (en) * | 2017-06-30 | 2021-03-30 | Amazon Technologies, Inc. | Monophone-based background modeling for wakeword detection |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6844472B2 (ja) * | 2017-08-24 | 2021-03-17 | トヨタ自動車株式会社 | 情報処理装置 |
KR102067973B1 (ko) * | 2017-08-28 | 2020-02-11 | 에스케이텔레콤 주식회사 | 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
CN109542545B (zh) * | 2017-09-22 | 2022-07-29 | 北京国双科技有限公司 | 热词展示方法和装置 |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11295735B1 (en) * | 2017-12-13 | 2022-04-05 | Amazon Technologies, Inc. | Customizing voice-control for developer devices |
CN109935228B (zh) * | 2017-12-15 | 2021-06-22 | 富泰华工业(深圳)有限公司 | 身份信息关联系统与方法、计算机存储介质及用户设备 |
KR102438784B1 (ko) | 2018-01-05 | 2022-09-02 | 삼성전자주식회사 | 데이터를 난독화 및 복호화 하는 전자 장치 및 그의 제어 방법 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US20190237069A1 (en) * | 2018-01-31 | 2019-08-01 | GM Global Technology Operations LLC | Multilingual voice assistance support |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
CN108536668B (zh) * | 2018-02-26 | 2022-06-07 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10930278B2 (en) | 2018-04-09 | 2021-02-23 | Google Llc | Trigger sound detection in ambient audio to provide related functionality on a user interface |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
KR102523982B1 (ko) | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
WO2020040745A1 (en) | 2018-08-21 | 2020-02-27 | Google Llc | Dynamic and/or context-specific hot words to invoke automated assistant |
US11062703B2 (en) | 2018-08-21 | 2021-07-13 | Intel Corporation | Automatic speech recognition with filler model processing |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
JP6749705B2 (ja) * | 2019-01-25 | 2020-09-02 | 株式会社インタラクティブソリューションズ | プレゼンテーション支援システム |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109887507B (zh) * | 2019-04-22 | 2021-03-12 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11222622B2 (en) * | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
KR20200132613A (ko) | 2019-05-16 | 2020-11-25 | 삼성전자주식회사 | 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
CN110277097B (zh) * | 2019-06-24 | 2022-04-26 | 北京声智科技有限公司 | 数据处理方法及相关设备 |
CN112712803B (zh) * | 2019-07-15 | 2022-02-25 | 华为技术有限公司 | 一种语音唤醒的方法和电子设备 |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
US20210050003A1 (en) * | 2019-08-15 | 2021-02-18 | Sameer Syed Zaheer | Custom Wake Phrase Training |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11948556B2 (en) | 2019-10-15 | 2024-04-02 | Google Llc | Detection and/or enrollment of hot commands to trigger responsive action by automated assistant |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN111090720B (zh) * | 2019-11-22 | 2023-09-12 | 北京捷通华声科技股份有限公司 | 一种热词的添加方法和装置 |
JP7248564B2 (ja) * | 2019-12-05 | 2023-03-29 | Tvs Regza株式会社 | 情報処理装置及びプログラム |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) * | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111341317B (zh) * | 2020-02-19 | 2023-09-01 | Oppo广东移动通信有限公司 | 唤醒音频数据的评价方法、装置、电子设备及介质 |
US11482222B2 (en) * | 2020-03-12 | 2022-10-25 | Motorola Solutions, Inc. | Dynamically assigning wake words |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
KR102392992B1 (ko) * | 2020-06-04 | 2022-05-02 | 주식회사 카카오엔터프라이즈 | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
JP7171911B2 (ja) * | 2020-06-09 | 2022-11-15 | グーグル エルエルシー | ビジュアルコンテンツからのインタラクティブなオーディオトラックの生成 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11521604B2 (en) * | 2020-09-03 | 2022-12-06 | Google Llc | User mediation for hotword/keyword detection |
US11657814B2 (en) * | 2020-10-08 | 2023-05-23 | Harman International Industries, Incorporated | Techniques for dynamic auditory phrase completion |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11620990B2 (en) * | 2020-12-11 | 2023-04-04 | Google Llc | Adapting automated speech recognition parameters based on hotword properties |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
US12014727B2 (en) | 2021-07-14 | 2024-06-18 | Google Llc | Hotwording by degree |
US11423071B1 (en) * | 2021-08-31 | 2022-08-23 | On Time Staffing, Inc. | Candidate data ranking method using previously selected candidate data |
CN113724688B (zh) * | 2021-11-04 | 2022-03-29 | 深圳市友杰智新科技有限公司 | 语音识别的后处理方法、装置和计算机设备 |
US11907652B2 (en) | 2022-06-02 | 2024-02-20 | On Time Staffing, Inc. | User interface and systems for document creation |
CN115497463B (zh) * | 2022-09-15 | 2024-08-16 | 思必驰科技股份有限公司 | 用于语音识别的热词替换方法、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200421834A (en) * | 2002-08-13 | 2004-10-16 | Qualcomm Inc | Annunciators for voice and data applications in wireless communication devices |
CN101558442A (zh) * | 2006-12-05 | 2009-10-14 | 摩托罗拉公司 | 使用语音识别的内容选择 |
CN101681412A (zh) * | 2007-06-08 | 2010-03-24 | 国际商业机器公司 | 增强的密码安全性 |
Family Cites Families (134)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5754977A (en) * | 1996-03-06 | 1998-05-19 | Intervoice Limited Partnership | System and method for preventing enrollment of confusable patterns in a reference database |
DE69822296T2 (de) | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
US5987411A (en) * | 1997-12-17 | 1999-11-16 | Northern Telecom Limited | Recognition system for determining whether speech is confusing or inconsistent |
US20010047263A1 (en) * | 1997-12-18 | 2001-11-29 | Colin Donald Smith | Multimodal user interface |
US6134527A (en) | 1998-01-30 | 2000-10-17 | Motorola, Inc. | Method of testing a vocabulary word being enrolled in a speech recognition system |
US6073096A (en) | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6205261B1 (en) * | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6289140B1 (en) * | 1998-02-19 | 2001-09-11 | Hewlett-Packard Company | Voice control input for portable capture devices |
US6295391B1 (en) * | 1998-02-19 | 2001-09-25 | Hewlett-Packard Company | Automatic data routing via voice command annotation |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US20020193989A1 (en) | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
EP1054387A3 (en) * | 1999-05-21 | 2001-11-14 | Winbond Electronics Corporation | Method and apparatus for activating voice controlled devices |
US6978238B2 (en) | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
JP2001042891A (ja) * | 1999-07-27 | 2001-02-16 | Suzuki Motor Corp | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 |
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
JP5118280B2 (ja) * | 1999-10-19 | 2013-01-16 | ソニー エレクトロニクス インク | 自然言語インターフェースコントロールシステム |
US6748361B1 (en) | 1999-12-14 | 2004-06-08 | International Business Machines Corporation | Personal speech assistant supporting a dialog manager |
US6757362B1 (en) * | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
US6654734B1 (en) | 2000-08-30 | 2003-11-25 | International Business Machines Corporation | System and method for query processing and optimization for XML repositories |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
AU2002303825A1 (en) | 2001-05-22 | 2002-12-03 | Teltone Corporation | Pbx control system via remote telephone |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
US7167831B2 (en) | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
US7099825B1 (en) * | 2002-03-15 | 2006-08-29 | Sprint Communications Company L.P. | User mobility in a voice recognition environment |
US20030212562A1 (en) | 2002-05-13 | 2003-11-13 | General Motors Corporation | Manual barge-in for server-based in-vehicle voice recognition systems |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7502737B2 (en) | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
AU2002950336A0 (en) | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
US6886009B2 (en) | 2002-07-31 | 2005-04-26 | International Business Machines Corporation | Query routing based on feature learning of data sources |
US7027842B2 (en) | 2002-09-24 | 2006-04-11 | Bellsouth Intellectual Property Corporation | Apparatus and method for providing hands-free operation of a device |
US7899500B2 (en) | 2002-09-24 | 2011-03-01 | At&T Intellectual Property I, L. P. | Apparatus and method for providing hands-free operation of a device |
US7013282B2 (en) | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7299359B2 (en) | 2003-04-23 | 2007-11-20 | Apple Inc. | Apparatus and method for indicating password quality and variety |
US7363228B2 (en) | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
US7212613B2 (en) | 2003-09-18 | 2007-05-01 | International Business Machines Corporation | System and method for telephonic voice authentication |
US7240049B2 (en) | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US7624018B2 (en) | 2004-03-12 | 2009-11-24 | Microsoft Corporation | Speech recognition using categories and speech prefixing |
US7934101B2 (en) * | 2004-04-16 | 2011-04-26 | Cisco Technology, Inc. | Dynamically mitigating a noncompliant password |
US20050283764A1 (en) * | 2004-04-28 | 2005-12-22 | Leo Chiu | Method and apparatus for validating a voice application |
US7386448B1 (en) | 2004-06-24 | 2008-06-10 | T-Netix, Inc. | Biometric voice authentication |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US20060064177A1 (en) | 2004-09-17 | 2006-03-23 | Nokia Corporation | System and method for measuring confusion among words in an adaptive speech recognition system |
US20060085183A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
JP3984988B2 (ja) | 2004-11-26 | 2007-10-03 | キヤノン株式会社 | ユーザインタフェース設計装置およびその制御方法 |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7349896B2 (en) | 2004-12-29 | 2008-03-25 | Aol Llc | Query routing |
US7558529B2 (en) * | 2005-01-24 | 2009-07-07 | Broadcom Corporation | Earpiece/microphone (headset) servicing multiple incoming audio streams |
US7343177B2 (en) * | 2005-05-03 | 2008-03-11 | Broadcom Corporation | Modular ear-piece/microphone (headset) operable to service voice activated commands |
EP1884923A4 (en) | 2005-05-27 | 2009-06-03 | Panasonic Corp | VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US8503624B2 (en) | 2005-09-28 | 2013-08-06 | Cisco Technology, Inc. | Method and apparatus to process an incoming message |
JP4260788B2 (ja) | 2005-10-20 | 2009-04-30 | 本田技研工業株式会社 | 音声認識機器制御装置 |
JP4878471B2 (ja) | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
US20070143117A1 (en) * | 2005-12-21 | 2007-06-21 | Conley Kevin M | Voice controlled portable memory storage device |
US9245526B2 (en) * | 2006-04-25 | 2016-01-26 | General Motors Llc | Dynamic clustering of nametags in an automated speech recognition system |
US7949536B2 (en) | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US20080133245A1 (en) | 2006-12-04 | 2008-06-05 | Sehda, Inc. | Methods for speech-to-speech translation |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
US20080140397A1 (en) * | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Sequencing for location determination |
US8731146B2 (en) | 2007-01-04 | 2014-05-20 | At&T Intellectual Property I, L.P. | Call re-directed based on voice command |
US7840409B2 (en) | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US20080215577A1 (en) * | 2007-03-01 | 2008-09-04 | Sony Corporation | Information processing apparatus and method, program, and storage medium |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US7877258B1 (en) | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
US8396713B2 (en) | 2007-04-30 | 2013-03-12 | Nuance Communications, Inc. | Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances |
WO2008144638A2 (en) | 2007-05-17 | 2008-11-27 | Redstart Systems Inc. | Systems and methods of a structured grammar for a speech recognition command system |
US9092781B2 (en) | 2007-06-27 | 2015-07-28 | Verizon Patent And Licensing Inc. | Methods and systems for secure voice-authenticated electronic payment |
US8060366B1 (en) | 2007-07-17 | 2011-11-15 | West Corporation | System, method, and computer-readable medium for verbal control of a conference call |
US20090143057A1 (en) * | 2007-11-30 | 2009-06-04 | Verizon Services Organization Inc. | Method and apparatus for distinctive alert activation |
CN101452701B (zh) * | 2007-12-05 | 2011-09-07 | 株式会社东芝 | 基于反模型的置信度估计方法及装置 |
US8370160B2 (en) | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US20090171663A1 (en) | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
US20090210233A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns |
US7917368B2 (en) | 2008-02-25 | 2011-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Method for interacting with users of speech recognition systems |
CN101315770B (zh) * | 2008-05-27 | 2012-01-25 | 北京承芯卓越科技有限公司 | 语音识别片上系统及采用其的语音识别方法 |
KR101631496B1 (ko) * | 2008-06-03 | 2016-06-17 | 삼성전자주식회사 | 로봇 장치 및 그 단축 명령 등록 방법 |
US8489399B2 (en) | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8332223B2 (en) | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8177643B2 (en) * | 2008-12-05 | 2012-05-15 | Microsoft Corporation | Out-of-band voice communication with interactive voice response services during gameplay |
KR101068122B1 (ko) * | 2008-12-15 | 2011-09-28 | 한국전자통신연구원 | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 |
US8548812B2 (en) | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
US8447609B2 (en) * | 2008-12-31 | 2013-05-21 | Intel Corporation | Adjustment of temporal acoustical characteristics |
US9059991B2 (en) * | 2008-12-31 | 2015-06-16 | Bce Inc. | System and method for unlocking a device |
CN101510222B (zh) * | 2009-02-20 | 2012-05-30 | 北京大学 | 一种多层索引语音文档检索方法 |
US9684741B2 (en) | 2009-06-05 | 2017-06-20 | Microsoft Technology Licensing, Llc | Presenting search results according to query domains |
US8639513B2 (en) | 2009-08-05 | 2014-01-28 | Verizon Patent And Licensing Inc. | Automated communication integrator |
US8374868B2 (en) * | 2009-08-21 | 2013-02-12 | General Motors Llc | Method of recognizing speech |
US20110099507A1 (en) | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US8515734B2 (en) | 2010-02-08 | 2013-08-20 | Adacel Systems, Inc. | Integrated language model, related systems and methods |
US8560318B2 (en) * | 2010-05-14 | 2013-10-15 | Sony Computer Entertainment Inc. | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event |
US9037615B2 (en) * | 2010-05-14 | 2015-05-19 | International Business Machines Corporation | Querying and integrating structured and unstructured data |
US8682661B1 (en) | 2010-08-31 | 2014-03-25 | Google Inc. | Robust speech recognition |
CN102324233B (zh) * | 2011-08-03 | 2014-05-07 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
US8924219B1 (en) | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
ES2409530B1 (es) | 2011-10-14 | 2014-05-14 | Telefónica, S.A. | Método para gestionar el reconocimiento del habla de llamadas de audio |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US8818810B2 (en) | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
US8699677B2 (en) * | 2012-01-09 | 2014-04-15 | Comcast Cable Communications, Llc | Voice transcription |
GB2514943A (en) | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9323912B2 (en) | 2012-02-28 | 2016-04-26 | Verizon Patent And Licensing Inc. | Method and system for multi-factor biometric authentication |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US9459176B2 (en) | 2012-10-26 | 2016-10-04 | Azima Holdings, Inc. | Voice controlled vibration data analyzer systems and methods |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US20150279351A1 (en) | 2012-12-19 | 2015-10-01 | Google Inc. | Keyword detection based on acoustic alignment |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9123330B1 (en) | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US9620123B2 (en) | 2013-05-02 | 2017-04-11 | Nice Ltd. | Seamless authentication and enrollment |
JP2014232258A (ja) | 2013-05-30 | 2014-12-11 | 株式会社東芝 | 連携業務支援装置、方法およびプログラム |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9202462B2 (en) * | 2013-09-30 | 2015-12-01 | Google Inc. | Key phrase detection |
US9336781B2 (en) | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US10019985B2 (en) | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US8719039B1 (en) | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US9396202B1 (en) | 2013-12-27 | 2016-07-19 | Google Inc. | Weakly synchronized garbage collection and compaction for aggregated, replicated object stores |
US9495959B2 (en) | 2014-02-27 | 2016-11-15 | Ford Global Technologies, Llc | Disambiguation of dynamic commands |
US9542948B2 (en) | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US10540979B2 (en) | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9484022B2 (en) * | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9817750B2 (en) | 2014-07-03 | 2017-11-14 | Pure Storage, Inc. | Profile-dependent write placement of data into a non-volatile solid-state storage |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
KR102245747B1 (ko) * | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
US20160189730A1 (en) | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US10580401B2 (en) * | 2015-01-27 | 2020-03-03 | Google Llc | Sub-matrix input for neural network layers |
TWI525532B (zh) * | 2015-03-30 | 2016-03-11 | Yu-Wei Chen | Set the name of the person to wake up the name for voice manipulation |
US20190043500A1 (en) * | 2017-08-03 | 2019-02-07 | Nowsportz Llc | Voice based realtime event logging |
-
2012
- 2012-08-06 US US13/567,572 patent/US9536528B2/en active Active
-
2013
- 2013-07-01 EP EP23187389.4A patent/EP4239628A3/en active Pending
- 2013-07-01 CN CN201611132499.7A patent/CN106782607B/zh active Active
- 2013-07-01 EP EP17198918.9A patent/EP3321930B1/en active Active
- 2013-07-01 EP EP17198899.1A patent/EP3301671B1/en active Active
- 2013-07-01 CN CN201380043134.5A patent/CN104584119B/zh active Active
- 2013-07-01 EP EP20191805.9A patent/EP3761310B1/en active Active
- 2013-07-01 WO PCT/US2013/048945 patent/WO2014008194A1/en active Application Filing
- 2013-07-01 KR KR1020167027283A patent/KR102196400B1/ko active IP Right Grant
- 2013-07-01 EP EP13739887.1A patent/EP2870602B1/en active Active
- 2013-07-01 KR KR1020157002936A patent/KR102072730B1/ko active IP Right Grant
-
2016
- 2016-01-20 US US15/002,044 patent/US10002613B2/en active Active
-
2018
- 2018-05-16 US US15/981,376 patent/US10714096B2/en active Active
-
2020
- 2020-06-03 US US16/891,444 patent/US11227611B2/en active Active
-
2022
- 2022-01-06 US US17/570,246 patent/US11741970B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200421834A (en) * | 2002-08-13 | 2004-10-16 | Qualcomm Inc | Annunciators for voice and data applications in wireless communication devices |
CN101558442A (zh) * | 2006-12-05 | 2009-10-14 | 摩托罗拉公司 | 使用语音识别的内容选择 |
CN101681412A (zh) * | 2007-06-08 | 2010-03-24 | 国际商业机器公司 | 增强的密码安全性 |
Non-Patent Citations (4)
Title |
---|
《A novel Wake-Up-Word speech recognition system,Wake-Up-Word recognition task,technology and evaluation》;V.Z.Kepuska et al.;《Nonlinear Analysis:Theory,Method&Applications》;20091215;第71卷(第12期);第e2772-e2789页 * |
《Confidence Measure Improvement Using Useful Predictor Features and Support Vector Machines》;Yasser Shekofteh et al.;《ICEE 2012 20th Iranian Conference on Electrical Engineering》;20120515;第1168-1171页 * |
《Detecting and Locating Key Words in-continuous Speech Using Linear Predictive Coding》;Richard W.Christiansen et al.;《IEEE Transactions on Acoustics On,Speech And,Processing》;19771030;第25卷(第5期);第361-367页 * |
《Word Confusability Prediction in Automatic Speech Recognition》;Jan Anguity et al.;《Proceedings of International Conference on Spoken Language Processing(Interspeech)》;20041004;第1489-1492页 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767763A (zh) * | 2018-12-25 | 2019-05-17 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
Also Published As
Publication number | Publication date |
---|---|
US10714096B2 (en) | 2020-07-14 |
EP3321930B1 (en) | 2020-09-30 |
US9536528B2 (en) | 2017-01-03 |
CN106782607A (zh) | 2017-05-31 |
KR102196400B1 (ko) | 2020-12-29 |
KR20150037986A (ko) | 2015-04-08 |
US11227611B2 (en) | 2022-01-18 |
CN104584119A (zh) | 2015-04-29 |
EP2870602B1 (en) | 2020-04-22 |
WO2014008194A1 (en) | 2014-01-09 |
KR102072730B1 (ko) | 2020-02-03 |
US20180336906A1 (en) | 2018-11-22 |
US10002613B2 (en) | 2018-06-19 |
EP3321930A1 (en) | 2018-05-16 |
EP3761310A1 (en) | 2021-01-06 |
EP4239628A2 (en) | 2023-09-06 |
US11741970B2 (en) | 2023-08-29 |
US20140012586A1 (en) | 2014-01-09 |
KR20160119274A (ko) | 2016-10-12 |
EP3761310B1 (en) | 2023-02-01 |
EP3301671A1 (en) | 2018-04-04 |
US20160133259A1 (en) | 2016-05-12 |
EP2870602A1 (en) | 2015-05-13 |
US20200302941A1 (en) | 2020-09-24 |
CN106782607B (zh) | 2021-02-05 |
US20220130399A1 (en) | 2022-04-28 |
EP3301671B1 (en) | 2023-09-06 |
EP4239628A3 (en) | 2023-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104584119B (zh) | 确定热词适合度 | |
CN110268469B (zh) | 服务器侧热词 | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
US9015043B2 (en) | Choosing recognized text from a background environment | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
EP3593346B1 (en) | Graphical data selection and presentation of digital content | |
EP3155613A1 (en) | Hyper-structure recurrent neural networks for text-to-speech | |
US9613616B2 (en) | Synthesizing an aggregate voice | |
CN107808674A (zh) | 一种测评语音的方法、介质、装置及电子设备 | |
CN112116181B (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN111369975A (zh) | 基于人工智能的大学音乐评分方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder |