CN104718569B - 改进语音发音 - Google Patents

改进语音发音 Download PDF

Info

Publication number
CN104718569B
CN104718569B CN201380053185.6A CN201380053185A CN104718569B CN 104718569 B CN104718569 B CN 104718569B CN 201380053185 A CN201380053185 A CN 201380053185A CN 104718569 B CN104718569 B CN 104718569B
Authority
CN
China
Prior art keywords
equipment
user
data
individual
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380053185.6A
Other languages
English (en)
Other versions
CN104718569A (zh
Inventor
马丁·扬斯什
马克·爱德华·爱泼斯坦
奇普里安·I·凯尔巴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN104718569A publication Critical patent/CN104718569A/zh
Application granted granted Critical
Publication of CN104718569B publication Critical patent/CN104718569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

用于改进的发音的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法中的一个包括从用户设备接收表示个体的名字的可听发音的数据。所述方法包括识别一个或多个其他用户,所述一个或多个其他用户是所述个体作为成员的社交圈的成员。所述方法包括识别与其他用户相关联的一个或多个设备。所述方法还包括提供识别所述个体的信息和表示所述可听发音的数据给所述一个或多个所识别的设备。

Description

改进语音发音
相关申请的交叉引用
本申请要求于2012年9月11日提交的题为“IMPROVING PHONETIC PRONUNCIATION”的美国临时申请No.61/699,335和于2013年7月23日提交的题为“IMPROVINGPHONETICPRONUNCIATION”的美国申请No.13/948,996的优先权,其全部内容在此通过引用合并于此。
技术领域
本说明书涉及语音识别。
背景技术
语音识别是指将说出的词转换成文本的过程。语音识别系统将口头表达翻译成计算机可读声音的序列,其可以与已知词相比较。例如,麦克风可以接受模拟信号,模拟信号被转换成数字形式,数字形式被分割为较小的段。数字段可以与说出的语言的最小元素相比较。通过这一比较,语音识别系统可以通过分析所识别的声音的序列来确定例如对应文本信息从而识别词。
发明内容
一般地,本说明书中所描述的主题的一个创新方面可以体现为包括从用户设备接收表示个体(individual)的名字的可听发音的数据的动作的方法。所述方法包括识别与个体具有预先确定的关联的一个或多个其他用户的动作。所述方法包括识别与其他用户相关联的一个或多个设备的动作。所述方法还包括提供识别个体的信息和表示可听发音的数据给一个或多个所识别的设备的动作。
该方面的其他实施例包括对应的计算机系统、装置、和记录在一个或多个计算机存储设备上的计算机程序,每个都被配置为执行所述方法的动作。一个或多个计算机的系统可以被配置为通过具有安装在操作中的系统上、使得系统执行动作的软件、固件、硬件或它们的组合来执行特定动作。一个或多个计算机程序可以被配置为通过包括当被数据处理装置执行时使得所述装置执行动作的指令来执行特定动作。
前述和其他实施例每个都可以可选地单独或组合地包括下述特征中的一个或多个。一个或多个设备可以能够可听到地再现发音。用户设备可以是在与社交圈相关联的社交网络站点注册的智能电话。发音可以与在所述一个或多个用户设备中的至少一个上与用户相关联的联系人条目相关联。所述方法可包括从表示可听发音的数据生成语音识别数据的动作。所述方法可包括由一个或多个设备中的一个接收语音识别数据的动作。所述方法可包括使用识别信息来识别与个体相关联的联系人条目的动作。所述方法可包括将语音识别数据与联系人条目相关联的动作。所述方法可包括使用语音识别数据来更新设备上的新的发音的动作。
本说明书中所描述的主题的特定实施例可以实现为实现下述优点中的一个或多个。与改进语音识别一起,通过使得设备正确对其名字发音且通过改进用户名字的识别,用户的体验可以得到改进。语音识别可以得到改进。用户名字的正确发音和识别可以改进用户体验。用户体验的个性化可以得到改进。
本说明书中所述的主题的一个或多个实施例的细节在附图以及下面的描述中阐述。根据描述、附图和权利要求,主题的其他特征、方面和优点将变得明显。
附图说明
图1图示用户提供其名字的发音的示例。
图2是社交图信息的示例源的图200。
图3图示用于语音识别的示例系统。
图4是改进名字发音的示例过程的流程图。
各种附图中类似的参考数字和指示表示类似的元素。
具体实施方式
语音识别应用正变得普遍。用户访问在其电话上的语音识别系统来拨叫其联系人。但是,个体名字的发音可能不符合用户语言的标准发音。例如,名字“Mara”可能被发音为“mair-uh”或“mar-uh”;但是,许多语音识别应用不能正确地识别前者的发音。语音识别的质量可以通过允许用户提供对其名字发音的声音文件并且在可能引用其名字的情形下使用该发音来得到改进。
图1图示用户提供其名字或者其社交圈的另一个体的名字的发音的示例,使得由用户提供的该发音可用于应用和其他用户。用户104可以使用麦克风106或其他类型的换能器来提供名字的发音给计算机系统102。在一个安排中,用户104可以访问与社交网络站点相关联的简档页面来收集可听信息。例如,简档页面可以包括链接,允许用户上传声音文件或者直接把用户的名字直接记录到新声音文件中。声音文件可以被发送到托管社交网络站点的计算机系统108。计算机系统108可以处理声音文件以确定发音信息。发音信息可以包括例如用户104陈述其名字的声音文件记录。发音信息还可以包括可以由语音识别或者合成语音软件直接使用来正确地对用户名字发音的信息。
在一些实现中,用户可以通过与社交网络站点相关联的其他设备来提供发音。例如,用户可以提供其名字给智能电话,智能电话可用于访问社交网络站点。通过用户的许可,智能电话可以提供发音给社交网络站点,智能电话能够利用其来传送数据(例如同步的)。
发音信息可以分发(例如在提供给社交网络站点后)给用户104的设备,例如智能电话110和平板112。发音可以由设备使用以定制用户体验。例如,设备可以使用发音信息用于文本到语音应用。
计算机系统108还可以提供发音信息给社交网络站点上与用户104相关联的其他用户(例如用户116和用户118)的设备(例如智能电话114、平板116)。发音信息可以由这些设备使用以正确地识别用户104。例如,发音信息可以连同在智能电话114上存储的联系人信息(诸如在智能电话的存储器中的用户104的联系人条目)一起使用。当用户116使用智能电话114上的语音识别应用提到用户104时,智能电话114可以正确地识别用户104。在一些实现中,智能电话114能够播放用户104的名字的发音给用户116。
在一些实现中,社交网络站点可以以其他方式使用发音信息。例如,当用户104在社交网络站点上进入聊天室或者闲逛时,社交网络站点可以使用发音信息和文本到语音应用来播报该用户并且可以播放用户陈述其名字的声音文件。
社交网络站点还可以分发发音信息给用户社交圈的其他成员。例如,如果用户提供其名字的发音或者社交圈的另一成员的名字,该发音可以被分发给用户社交圈或被提供发音的用户的社交圈的其他成员。
在一些实现中,发音信息可以从若干源被聚合,例如,如果社交网络的若干不同成员提供对特定用户的发音信息,可以聚合发音信息。例如,如果四个不同的用户通过说出“Mair-uh”来提到“Mara”且一个用户通过说出“Mar-uh”来提到“Mara”,则系统可以聚合信息并且达成发音“Mair-uh”。
在一些实现中,发音信息或声音文件可被访问社交网络站点的用户访问。例如,寻找有关用户104的信息的个体可以能够播放声音文件来确定用户如何被适当寻址。类似地,用户104可以播放声音文件来确认发音正确。
图2是社交图信息的示例源的图200。用户的社交图是被识别为在指定分离度内与用户具有关系的连接(例如用户、资源)的集合。用户的社交图可以包括以不同分离度的人和特定内容。例如,用户的社交图可以包括朋友、朋友的朋友(例如被用户、社交图站点或其他度量所定义)、用户的社交圈、用户所关注的人(例如订阅的博客、馈送或网站)、同事、以及其他特别识别的用户感兴趣的内容(例如特定网站)。
图200示出了用户和在系统内并跨越一个或多个外部网络并且以不同分离度示出的可能扩展用户社交图到人和内容二者的不同连接。例如,用户可以具有简档或联系人列表,其包括一组识别的朋友、一组指向外部资源(例如网页)的链接以及对系统(例如提供包括电子邮件、聊天、视频、相册、馈送或博客的各种内容和应用的系统)的内容的订阅。这些组中的每个都可以以与用户的另一分离度连接到其他用户或资源。例如,用户的朋友每个都具有其自己的简档,其包括指向资源的链接以及各朋友的朋友。在指定分离度数内到用户的连接可以被认为是用户的社交图。在一些实现中,确定用户的社交图所使用的分离度数是用户设置的。替选地,使用缺省的分离度数。而且,可以使用动态分离度数,其基于例如连接的类型。
在一些实现中,社交图中的成员和分离度基于其他因素,包括交互的频率。例如,用户交互的频率(例如用户多久访问特定社交图站点一次)或者交互的类型(例如支持或选择与朋友相关联的项目)。随着交互改变,特定联系人在社交图中的关系也可以动态改变。因此,社交图可以是动态的,而非静态的。
在一些替选实现中,社交信号可以层加于社交图之上(例如使用加权边或者社交图形中的连接之间的其他权重)。这些信号(例如用户和特定连接之间的交互的频率或交互的类型)然后可以用来对社交图中的特定连接进行加权,而不修改实际的社交图连接。这些权重可以随着与用户的交互的改变而改变。
图3图示用于语音识别的示例系统。在这个特定安排中,用户104向与计算机系统102通信(或集成于其中)的麦克风106讲话。计算机系统102可以是连接到网络的单机计算机或者连接到麦克风的任何计算设备,例如个人电脑、平板电脑、智能电话等等。
用户的语音被通过例如因特网的网络(未示出)发送给计算机系统108。计算机系统包括语音处理组件310。语音处理组件310包括声学模型312、语言模型314和词典/语音词典316。
声学模型312将从用户104收集到的声音映射到分量部分、被称为音素,并且可以被认为是语音的基本元素。例如,英语语言可以使用大约40-60个音素来说出。声学模型312接受声音并且将它们映射到对应的音素。在一些系统中,音素同相邻音素相组合来创建三音素。这些模型音素在它们出现的环境中。例如,“Tim”中的“t”的发音与“butter”中的“t”不同。根据音素或三音素,声学模型312可以确定用户104可能说出的一个或多个词。
即使当使用合适的声学模型时,语音的基本元素可以是相同的或者非常相似的。例如,声学模型独自不能区分诸如“red”和“read”的同音字。作为另一示例,声学模型可能对不是同音字但声音非常类似的词如“Boston”和“Austin”具有困难。为了改进准确性并且选择正确词,语音处理组件310使用语言模型314。这类语言模型被称为n元模型。其他语言模型存在模型较长期关系,甚至句子内的语法和语义分量。所有这些方法都可以从这里所述的该技术中获益。
语言模型314包含词同现频率的统计表示。如果词在句子中使用而无任何中间词,则词被称为同现。例如,在短语“the quick brown fox jumped over the lazy dog”中,两个词的同现包括“the quick”、“quick brown”、“brown fox”、“fox jumped”、“jumpedover”、“over the”、“the lazy”和“lazy dog”。三个词的同现包括“The quick brown”、“quick brown fox”、“brown fox jumped”、“fox jumped over”、“jumped over the”、“over the lazy”、“the lazy dog”。
词典/语音词典316将词拼写映射到语音音素。例如,词典/语音词典316可以将名字“Mara”映射到“Mar-uh”。用户104所提供的名字的发音和文本版本可以被用来更新词典/语音词典316。例如,语音处理组件310可以使用发音信息来调整词典/语音词典316。发音信息可以提供要与文本相关联的新声学音素,例如“mair ah”可以与Mara相关联。进一步,语言模型可以被更新以增加包括Mara的双元例如“Call Mara”将被视为有效的可能性。
在一些实现中,在更新任何模型之前,语音处理组件310比较用户所提供的发音与所期望的发音。例如,如果用户提供名字“Bob”的发音“Bɑb”,则可能不必更新。
图4是用来改进名字发音的示例过程400的流程图。该过程可以由数据处理装置例如图1的计算机系统108来执行。为了简化,过程400将在执行过程400的系统方面来描述。
接收表示可听发音的数据(402)。该数据可包括音频文件中个体的名字的发音。在一些实现中,该数据可以被处理以生成可用于语音识别系统中的语音识别数据。
识别相关的用户(404)。用户可以与社交圈中的例如社交网络站点上的个体相关。在一些实现中,设备可以包括扬声器或音频输出并且可能能够产生数据的可听表示。
识别相关用户的设备(406)。在一些实现中,设备与社交网络站点上的相关用户相关联。
提供发音数据给识别的设备(408)。在一些实现中,还可以提供识别个体的信息。设备可以将发音数据与例如联系人记录中的个体相关联。设备可以使用数据来更新设备上的语音识别或合成语音应用。
对于这里讨论的系统收集有关用户的个人信息,或者可以利用个人信息的情形,用户可被提供机会来控制程序或特征是否收集个人信息(例如有关用户的社交网络、社交行为或活动、职业、用户的偏好或用户的当前位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更加相关的内容。此外,某些数据在被存储或使用之前可能以一个或多个方式匿名,使得个人可识别的信息被去除。例如,用户的身份可以被匿名,使得不会为用户确定任何个人可识别的信息,或者在获得位置信息时用户的地理位置可以被一般化(诸如被一般化到城市、ZIP代码或州水平),使得不能确定用户的特定位置。这样,用户可具有对怎样收集以及使用有关他或她的信息的控制。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路中实现,在有形体现的计算机软件或固件中实现,在计算机硬件中实现,包括在本说明书中公开的结构及其结构等价物中实现,或者在它们中的一个或多个的组合中实现。本说明书中所述的主题的实施例可以被实现为一个或多个计算机程序,即在有形程序载体上编码的计算机程序指令的一个或多个模块,用于由数据处理装置执行或者控制数据处理装置的操作。替选地或者此外,程序指令可以编码在传播信号上,传播信号是人工生成的信号,例如机器生成的电、光、或者电磁信号,其被生成以编码信息以便传送到合适接收机装置由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基片、随机或序列存取存储器设备、或者它们中的一个或多个的组合。
术语“数据处理装置”包括用于处理数据的所有种类的装置、设备和机器,举例来说包括可编程处理器、计算机、或多处理器或计算机。装置可以包括特殊用途逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件以外,装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。
计算机程序(也可称为程序、软件、软件应用、脚本或代码)可以是用任何形式的编程语言来写成的,包括编译或解释语言、声明性或过程性语言,并且其可以用任何形式部署,包括作为单机程序或者作为模块、组件、子程序、或适合用于计算环境中的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如,在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或者在多个协调的文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或多个计算机上执行,多个计算机位于一个站点或分布在多个站点且通过通信网络互连。
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序来通过对输入数据进行操作并生成输出而执行功能的一个或多个可编程计算机来执行。过程和逻辑流程还可以由特殊用途逻辑电路来执行,且装置也可以实现为特殊用途逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于执行计算机程序的计算机包括(举例来说可以基于)通用或专用微处理器或二者,或者任何其他种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的必要元素是用于执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或者可操作耦合以从以下接收数据或者向以下传送数据,或二者都有:用于存储数据的一个或多个大容量存储设备,例如磁、磁光盘、或光盘。但是,计算机不需要具有这样的设备。而且,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收机、或者便携存储设备(例如通用串行总线(USB)闪存驱动器),仅举上述几个例子。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如EPROM、EEPROM,以及闪存存储器设备;磁盘,例如内部硬盘或可移除盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊用途逻辑电路补充或集成其中。
为了提供与用户的交互,本说明书中所述的主题的实现可以在具有诸如CRT(阴极射线管)或LCD(液晶显示器)监视器的用于显示信息给用户的显示设备、键盘和例如鼠标或轨迹球的指示设备的计算机上实现,用户通过键盘和指示设备可以提供输入给计算机。其他类型的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感知反馈,例如视觉反馈、听觉反馈或触觉反馈;来自用户的输入可以以任何方式接收,包括声学、语音或触觉输入。此外,计算机可以通过发送文档给用户使用的设备或从用户使用的设备接收文档而与用户交互;例如,通过响应于从web浏览器接收到的请求而发送网页给用户的客户端设备上的web浏览器。
本说明书中描述的主题的实施例可以在计算系统中实现,计算系统包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有用户可以用来同本说明书中描述的主题的实现进行交互的图形用户界面或web浏览器的客户端计算机,或者一个或多个这样的后端、中间件、或前端组件的任意组合。系统组件可以以例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系是由于运行在相应计算机上且彼此具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包含许多特定实现细节,但是这些不应被解释为对任何发明的范围或所要求权利的限制,而应解释为可以特定于特定发明的特定实施例的特征的描述。本说明书中在分立的实施例的上下文中所描述的某些特征也可以在单独实施例中组合来实现。反之,在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中实现或者在任何合适的子组合中实现。而且,尽管特征在上面可能被描述为在某些组合中行为而且甚至最初就是这样要求的,但是来自所要求的组合的一个或多个特征在一些情况下可以从组合中去除,并且所要求的组合可以指向子组合或子组合的变体。
类似地,尽管在附图中以特定次序描绘了操作,其不应该被理解为要求这样的操作以所示的特定次序或按顺序的次序来执行,或者所有图示的操作都要执行,才能获得所需结果。在某些情况下,多任务和并行处理可能是有利的。而且,上述实施例中的各个系统组件的分离不应被理解为在所有实施例中都要求这样的分离,而应该理解,所描述的程序组件和系统通常可以一起集成到单个软件产品中或封装在多个软件产品中。
已经描述了主题的特定实施例。其他实施例都在所附权利要求的范围之内。例如,权利要求中所述的动作可以以不同次序来执行并且仍获得所需结果。作为一个示例,附图中描绘的过程不必需要求所示的特定次序、或顺序次序,才能获得所需结果。在某些情况下,多任务和并行处理可能是有利的。

Claims (15)

1.一种由数据处理装置执行的方法,所述方法包括:
由社交网络站点响应于用户选择其社交网络简档页面上的链接从一个或多个用户设备接收表示个体的名字的两个或更多个可听发音的数据;
聚合表示所述个体的所述名字的两个或更多个可听发音的所述数据;
识别在所述个体的社交图中与所述个体具有预先确定的关联的一个或多个其他用户;
识别与所述其他用户相关联的一个或多个设备;
确定所述用户已经指示将响应于所述用户选择其社交网络简档页面上的所述链接而接收的所述数据提供给所述一个或多个所识别的设备的许可;
响应于确定所述用户已经指示将响应于所述用户选择其社交网络简档页面上的所述链接而接收的所述数据提供给所述一个或多个所识别的设备的许可,将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备;
从表示所述个体的所述名字的所述两个或更多个可听发音的所聚合的数据生成语音识别数据,所述语音识别数据被配置用于在实现在一个或多个所识别的设备上的自动语音识别器中使用,所述一个或多个所识别的设备与在所述个体的所述社交图中与所述个体具有预先确定的关联的所述其他用户相关联;以及
提供所生成的语音识别数据作为对由实现在一个或多个所识别的设备上的所述自动语音识别器使用来识别所述名字的词典的更新。
2.如权利要求1所述的方法,其中,所述一个或多个设备能够可听地再现所述发音。
3.如权利要求1所述的方法,其中,所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。
4.如权利要求1所述的方法,其中,所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。
5.如权利要求1所述的方法,进一步包括:
由所述一个或多个设备中的一个接收所述语音识别数据;
使用所述识别信息来识别与所述个体相关联的联系人条目;
将所述语音识别数据与所述联系人条目相关联;以及
使用所述语音识别数据来更新所述设备上的新的发音。
6.一种编码有计算机程序指令的计算机可读存储设备,所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作:
由社交网络站点响应于用户选择其社交网络简档页面上的链接从一个或多个用户设备接收表示个体的名字的两个或更多个可听发音的数据;
聚合表示所述个体的所述名字的两个或更多个可听发音的所述数据;
识别在所述个体的社交图中与所述个体具有预先确定的关联的一个或多个其他用户;
识别与所述其他用户相关联的一个或多个设备;
确定所述用户已经指示将响应于所述用户选择其社交网络简档页面上的所述链接而接收的所述数据提供给所述一个或多个所识别的设备的许可;
响应于确定所述用户已经指示将响应于所述用户选择其社交网络简档页面上的所述链接而接收的所述数据提供给所述一个或多个所识别的设备的许可,将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备;
从表示所述个体的所述名字的所述两个或更多个可听发音的所聚合的数据生成语音识别数据,所述语音识别数据被配置用于在实现在一个或多个所识别的设备上的自动语音识别器中使用,所述一个或多个所识别的设备与在所述个体的所述社交图中与所述个体具有预先确定的关联的所述其他用户相关联;以及
提供所生成的语音识别数据作为对由实现在一个或多个所识别的设备上的所述自动语音识别器使用来识别所述名字的词典的更新。
7.如权利要求6所述的计算机可读存储设备,其中,所述一个或多个设备能够可听地再现所述发音。
8.如权利要求6所述的计算机可读存储设备,其中,所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。
9.如权利要求6所述的计算机可读存储设备,其中,所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。
10.如权利要求6所述的计算机可读存储设备,进一步编码有计算机程序指令,所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作:
由所述一个或多个设备中的一个接收所述语音识别数据;
使用所述识别信息来识别与所述个体相关联的联系人条目;
将所述语音识别数据与所述联系人条目相关联;以及
使用所述语音识别数据来更新所述设备上的新的发音。
11.一种用于语音识别的系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令当被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作:
由社交网络站点响应于用户选择其社交网络简档页面上的链接从一个或多个用户设备接收表示个体的名字的两个或更多个可听发音的数据;
聚合表示所述个体的所述名字的两个或更多个可听发音的所述数据;
识别在所述个体的社交图中与所述个体具有预先确定的关联的一个或多个其他用户;
识别与所述其他用户相关联的一个或多个设备;
确定所述用户已经指示将响应于所述用户选择其社交网络简档页面上的所述链接而接收的所述数据提供给所述一个或多个所识别的设备的许可;
响应于确定所述用户已经指示将响应于所述用户选择其社交网络简档页面上的所述链接而接收的所述数据提供给所述一个或多个所识别的设备的许可,将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备;
从表示所述个体的所述名字的所述两个或更多个可听发音的所聚合的数据生成语音识别数据,所述语音识别数据被配置用于在实现在一个或多个所识别的设备上的自动语音识别器中使用,所述一个或多个所识别的设备与在所述个体的所述社交图中与所述个体具有预先确定的关联的所述其他用户相关联;以及
提供所生成的语音识别数据作为对由实现在一个或多个所识别的设备上的所述自动语音识别器使用来识别所述名字的词典的更新。
12.如权利要求11所述的系统,其中,所述一个或多个设备能够可听地再现所述发音。
13.如权利要求11所述的系统,其中,所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。
14.如权利要求11所述的系统,其中,所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。
15.如权利要求11所述的系统,所述一个或多个存储设备进一步存储指令,所述指令在被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作:
由所述一个或多个设备中的一个接收所述语音识别数据;
使用所述识别信息来识别与所述个体相关联的联系人条目;
将所述语音识别数据与所述联系人条目相关联;以及
使用所述语音识别数据来更新所述设备上的新的发音。
CN201380053185.6A 2012-09-11 2013-09-09 改进语音发音 Active CN104718569B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261699335P 2012-09-11 2012-09-11
US61/699,335 2012-09-11
US13/948,996 2013-07-23
US13/948,996 US20140074470A1 (en) 2012-09-11 2013-07-23 Phonetic pronunciation
PCT/US2013/058754 WO2014043027A2 (en) 2012-09-11 2013-09-09 Improving phonetic pronunciation

Publications (2)

Publication Number Publication Date
CN104718569A CN104718569A (zh) 2015-06-17
CN104718569B true CN104718569B (zh) 2018-12-07

Family

ID=50234200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380053185.6A Active CN104718569B (zh) 2012-09-11 2013-09-09 改进语音发音

Country Status (4)

Country Link
US (1) US20140074470A1 (zh)
EP (1) EP2896039B1 (zh)
CN (1) CN104718569B (zh)
WO (1) WO2014043027A2 (zh)

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9747895B1 (en) * 2012-07-10 2017-08-29 Google Inc. Building language models for a user in a social network from linguistic information
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) * 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
AU2017100208B4 (en) * 2014-09-30 2017-05-11 Apple Inc. A caching apparatus for serving phonetic pronunciations
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9910836B2 (en) 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US10102203B2 (en) 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US10102189B2 (en) 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
US9947311B2 (en) * 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US11322172B2 (en) 2017-06-01 2022-05-03 Microsoft Technology Licensing, Llc Computer-generated feedback of user speech traits meeting subjective criteria
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN110660384B (zh) * 2019-10-14 2022-03-22 内蒙古工业大学 一种基于端到端的蒙古语异形同音词声学建模方法
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US7283964B1 (en) * 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US6397182B1 (en) * 1999-10-12 2002-05-28 Nortel Networks Limited Method and system for generating a speech recognition dictionary based on greeting recordings in a voice messaging system
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
KR100635325B1 (ko) 2002-09-19 2006-10-18 리서치 인 모션 리미티드 통신 장치 상의 컨택 정보에 액세스하기 위한 시스템 및방법
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
US20060215821A1 (en) * 2005-03-23 2006-09-28 Rokusek Daniel S Voice nametag audio feedback for dialing a telephone call
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20070297584A1 (en) * 2006-06-14 2007-12-27 Mahesh Lalwani Computer enabled method and apparatus for connecting individuals via telephone
US20080037720A1 (en) * 2006-07-27 2008-02-14 Speechphone, Llc Voice Activated Communication Using Automatically Updated Address Books
US8502876B2 (en) * 2006-09-12 2013-08-06 Storz Endoskop Producktions GmbH Audio, visual and device data capturing system with real-time speech recognition command and control system
US20080082316A1 (en) * 2006-09-30 2008-04-03 Ms. Chun Yu Tsui Method and System for Generating, Rating, and Storing a Pronunciation Corpus
US20080189122A1 (en) * 2007-02-02 2008-08-07 Coletrane Candice L Competitive friend ranking for computerized social networking
US7826872B2 (en) * 2007-02-28 2010-11-02 Sony Ericsson Mobile Communications Ab Audio nickname tag associated with PTT user
US8719027B2 (en) * 2007-02-28 2014-05-06 Microsoft Corporation Name synthesis
US8416926B2 (en) * 2007-03-26 2013-04-09 Cisco Technology, Inc. Method and system for providing an audio representation of a name
US8401157B2 (en) * 2008-01-24 2013-03-19 Alcatel Lucent System and method for providing audible spoken name pronunciations
WO2010025343A1 (en) * 2008-08-28 2010-03-04 Jonas Lawrence A System for integrating multiple im networks and social networking websites
US20100250592A1 (en) * 2009-03-31 2010-09-30 Paquet Vincent F Unifying Web And Phone Presence
WO2011091516A1 (en) * 2010-01-29 2011-08-04 Antvibes Inc. System, method and computer program for sharing audible name tags
CA2795812A1 (en) * 2010-04-07 2011-10-13 Max Value Solutions INTL, LLC Method and system for name pronunciation guide services
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US9640175B2 (en) * 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
US20130110511A1 (en) * 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication
US9275633B2 (en) * 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
US9620128B2 (en) * 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data

Also Published As

Publication number Publication date
WO2014043027A2 (en) 2014-03-20
EP2896039A4 (en) 2016-05-25
US20140074470A1 (en) 2014-03-13
WO2014043027A3 (en) 2014-05-08
EP2896039A2 (en) 2015-07-22
CN104718569A (zh) 2015-06-17
EP2896039B1 (en) 2020-04-29

Similar Documents

Publication Publication Date Title
CN104718569B (zh) 改进语音发音
CN109844855B (zh) 任务的多重计算代理执行
JP6953559B2 (ja) 計算機アシスタントによる遅延応答
CN109328381B (zh) 检测数字助理的触发
CN111033492B (zh) 为自动化助手提供命令束建议
CN107889533B (zh) 管理对话数据提供者
AU2021203758B2 (en) Tailoring an interactive dialog application based on creator provided content
JP2024001127A (ja) 適切なエージェントの自動化アシスタント呼び出し
KR102155977B1 (ko) 제3자 서비스를 디지털 어시스턴트와 통합하기 위한 시스템 및 방법
CN115485690A (zh) 用于处置聊天机器人的不平衡训练数据的分批技术
CN109313898A (zh) 提供低声语音的数字助理
CN105706083A (zh) 用于支持查询和预测的结构化用户图
CN110289015B (zh) 一种音频处理方法、装置、服务器、存储介质及系统
US20170200455A1 (en) Suggested query constructor for voice actions
US9275034B1 (en) Exceptions to action invocation from parsing rules
TW202032482A (zh) 針對視障群體的保險推薦方法和裝置
US11416686B2 (en) Natural language processing based on user context
CN110249326A (zh) 自然语言内容生成器
Little et al. Community participation and language opportunities for children with and without autism spectrum disorder
CN106354545A (zh) 虚拟应用程序管理方法及装置
AU2017100208A4 (en) A caching apparatus for serving phonetic pronunciations
CN112102820A (zh) 交互方法、交互装置、电子设备和介质
KR20210007138A (ko) 의료 환경에서 음성을 수어로 통역하기 위한 시스템
KR20130134194A (ko) 맞춤화된 전자 교과서 서비스를 제공하기 위한 방법 및 장치
EP2732389A2 (en) Methods and apparatus for identifying and providing information sought by a user

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

GR01 Patent grant
GR01 Patent grant