CN1667699B - 为字母-声音转换生成有互信息标准的大文法音素单元 - Google Patents

为字母-声音转换生成有互信息标准的大文法音素单元 Download PDF

Info

Publication number
CN1667699B
CN1667699B CN2005100527542A CN200510052754A CN1667699B CN 1667699 B CN1667699 B CN 1667699B CN 2005100527542 A CN2005100527542 A CN 2005100527542A CN 200510052754 A CN200510052754 A CN 200510052754A CN 1667699 B CN1667699 B CN 1667699B
Authority
CN
China
Prior art keywords
gram
phoneme unit
count
gram phoneme
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005100527542A
Other languages
English (en)
Other versions
CN1667699A (zh
Inventor
蒋力
M·-Y·黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1667699A publication Critical patent/CN1667699A/zh
Application granted granted Critical
Publication of CN1667699B publication Critical patent/CN1667699B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

提供了一种把单词分割成组成部分的方法和装置。在本发明中,确定在一组单词中发现的文法音素单元对的互信息得分。每个文法音素单元包括至少一个字母。一对文法音素单元的文法音素单元基于所述互信息得分被组合。这形成新的文法音素单元。在本发明的一个实施例中,音节n字母组模型基于使用互信息已经被分割成音节的单词来训练。音节n字母组模型用于把新单词的语音表示分割成音节。类似地,使用互信息形成词素库,并训练词素n字母组,从而可以用于把新单词分割成词素序列。

Description

为字母-声音转换生成有互信息标准的大文法音素单元
技术领域
本发明涉及字母-声音转换系统,尤其涉及生成用于字母-声音转换的文法音素(graphoneme)。
背景技术
在字母-声音转换中,字母序列被转换成表征该字母序列的发音的音素序列。
在近几年中,基于n字母组(n-gram)的系统已经被用于字母-声音转换。n字母组系统使用“文法音素(graphoneme)”,它是表征字母和那些字母的语音发音两者的联合单元。在每个文法音素中,在文法音素的字母部分中可以有零个或多个字母,而在文法音素的音素部分中可以有零个或多个音素。一般而言,文法音素用l*:p*表示,其中l*表示零个或多个字母,而p*表示零个或多个音素。例如,“tion:sh&ax&n”表示有四个字母(tion)和三个音素(sh、ax、n)的文法音素。定界符“&”被加到音素之间,因为音素名可能比一个字符长。
文法音素n字母组模型是基于具有单词的拼写条目和每个单词的音素发音的词典来训练的。该词典被称为训练词典。如果给定训练词典中字母-音素映射,则该训练词典可以被转换成文法音素发音词典。例如,假定
phone ph:f o:ow n:n e:#
以某种方式被给出。每个单词的文法音素定义就被用来估算“n”文法音素序列的似然性。例如,在文法音素三字母组中,三个文法音素序列的概率Pr(g3|g1g2),是根据有文法音素发音的训练词典来估算的。
在使用文法音素的现有技术的许多系统中,当新单词被提供给字母-声音转换系统时,最佳第一搜索算法被用来基于n字母组得分寻找最佳或n-最佳发音。要完成这个搜索,从包含文法音素n字母组模型的起始符号的根节点开始,该起始符号通常被表示为<s>。<s>指示文法音素序列的开始。与根节点相关联的得分(对数概率)是log(Pr(<s>)=1)=0。另外,搜索树中的每个节点跟踪输入单词中的字母位置。我们称它为“输入位置”。<s>的输入位置是0,因为输入单词中还没有字母被使用。概括地说,搜索树中的节点包含最佳第一搜索的下列信息:
struct node{
       int score,input_position;
       node*parent;
       int graphoneme_id;
   };
同时,堆结构被维护,其中搜索节点的最高得分在堆的顶部出现。最初在堆中只有一个元素。这个元素指向搜索树的根节点。在搜索的任一迭代中,堆的顶部元素被除去,它给出到目前为止搜索树中的最佳节点。然后通过在文法音素库(inventory)中查找其字母部分是输入单词中从最佳节点的输入位置开始的剩余字母的前缀的那些文法音素,从这个最佳节点延伸子节点。每个这样的文法音素生成当前最佳节点的子节点。子节点的得分是父节点(即当前最佳节点)的得分加上到该子节点的n字母组音素得分。子节点的输入位置被前进到父节点的输入位置加上子节点中相关联的文法音素的字母部分的长度。最后,子节点被插入到堆中。
在所有输入字母被用完后必须特别注意。如果当前最佳节点的输入位置已经到达输入单词的末端,将到n字母组模型的终止符号的过渡</s>添加到搜索树和堆上。
如果从堆中除去的最佳节点包含</s>作为其文法音素id,就得到了对应于输入单词的完整拼写的语音发音。为了标识该发音,从最后的最佳节点</s>一路回到根节点<s>的路径被跟踪,而沿着这条路径的文法音素单元的音素部分就是输出。
按照文法音素n字母组模型,有</s>的第一最佳节点是最佳发音,因为剩余的搜索节点的得分比这个得分差,而从剩余的搜索节点的任一个到</s>的已有或将有的路径只会得到更差的得分(因为log(概率)<0)。如果元素继续从堆中被除去,第二最佳、第三最佳等等发音可以被标识,直到堆中没有元素,或者第n最佳发音比顶部第一发音差一个阈值。然后n最佳搜索停止。
有多种方法来训练n字母组音素模型,例如最大似然、最大熵等等。文法音素本身也可以用不同方式生成。例如,一些已有技术使用隐型马尔可夫模型来生成训练词典的字母和音素的初始对齐,随后把这些l:p文法音素时常出现的对归并成更大的文法音素单元。或者,文法音素库也可以由把某些字母序列与特定音素序列相关联的语言学家生成。这花费大量时间并易于出错而且有些任意,因为语言学家在把字母和音素组成文法音素时并没有使用严密的技术。
发明内容
提供了一种把单词和语音发音分割成文法音素序列的方法和装置。在本发明中,较小文法音素单元对的互信息被确定。每个文法音素单元包括至少一个字母。在每次迭代中,有最大互信息(mutual information)的最佳对被组合,以形成新的较长的文法音素单元。当合并算法停止时,得到单词的词典,其中,每个词被分割成文法音素单元的最终组中的文法音素序列。
用相同的基于互信息的贪婪算法而不考虑字母,语音发音可以被分割成音节发音。类似地,单词也可以通过将单词的“发音”分配为拼写并再次忽略文法音素单元的字母部分被而分割成词素(morpheme)。
附图说明
图1是可在其中实现本发明的实施例的通用计算环境的框图。
图2是在本发明的一个实施例中生成大文法音素单元的方法的流程图。
图3是用于把单词“phone”分割成文法音素序列的示例解码网格。
图4是基于互信息训练和使用音节n字母组的方法的流程图。
具体实施方式
图1示出可以在其中实现本发明的合适的计算系统环境100的例子。计算系统环境100只是合适的计算环境的一个例子,但不意味着是本发明的使用范围或功能的任何限制。计算环境100也不应该被解释为对示例性操作环境100中所示的元件的任何一个或组合有任何依赖或要求。
本发明可以在许多其它通用或专用计算系统环境或配置上运作。适合使用本发明的众所周知的计算系统、环境和/或配置的例子包括但不限于个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型计算机、电话系统、包括任何上述系统或设备的分布式计算环境等等。
本发明可以在例如由计算机执行的程序模块等计算机可执行的指令的通用上下文中描述。一般而言,程序模块包括完成特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明被设计成在由通过通信网络连接的远程处理设备完成任务的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质两者中,包括存储器存储设备。
参考图1,实现本发明的示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括但不限于处理单元120、系统存储器130和把包括系统存储器在内的各种系统元件耦合到处理单元120的系统总线121。系统总线121可以是多种总线结构的任何一种,包括存储器总线或存储器控制器、外围总线和使用任何一种总线体系结构的局部总线。作为例子但不是限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外设部件互连(PCI)总线(即Mezzanine总线)。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可以由计算机110访问的任何可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为例子但不是限制,计算机可读媒质可以包括计算机存储媒质和通信媒质。计算机存储媒质包括以任何方法或技术实现来存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的易失和非易失、可移动和不可移动媒质。计算机存储媒质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来存储所需信息并可以由计算机110访问的其它任何媒质。通信媒质通常在诸如载波或其它传输机制这样的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任何信息传递媒质。术语“已调制数据信号”是指其一个或多个特征以在信号中编码信息的方式被设置或改变的信号。作为例子但不是限制,通信媒质包括诸如有线网络或直接有线连接这样的有线媒质,和诸如声学、射频、红外或其它无线媒质这样的无线媒质。上面任何媒质的组合也应该被包括在计算机可读媒质的范围内。
系统存储器130包括易失和/或非易失存储器形式的计算机存储媒质,例如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS),包含例如在启动时帮助在个人计算机110中的元件之间传输信息的基本例程,被存储在ROM 131中。RAM 132通常包含处理单元120立刻可以访问和/或正在操作的数据和/或程序模块。作为例子但不是限制,图1示出操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可移动和不可移动、易失和非易失计算机存储媒质。只是作为例子,图1示出对不可移动非易失磁媒质进行读写的硬盘驱动器141、对可移动非易失磁盘152进行读写的磁盘驱动器151和对诸如CD-ROM或其它光媒质这样的可移动非易失光盘156进行读写的光盘驱动器155。可以被用在示例性操作环境中的其它计算机存储媒质包括但不限于磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过接口140这样的不可移动存储接口被连接到系统总线121,而磁盘驱动器151和光盘驱动器155通常通过接口150这样的可移动存储接口被连接到系统总线121。
如上所述并如图1所示的驱动器及其相关联计算机存储媒质,为计算机110提供计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意这些组件可以和操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被给以不同标号来说明它们至少是不同的副本。用户可以通过诸如键盘162、麦克风163和定点设备161(例如鼠标、跟踪球或触摸板)这样的输入设备向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线和扫描仪等。这些和其它输入设备通常通过耦合到系统总线的用户输入接口160连接到处理单元120,但也可以通过其它接口和总线结构连接,例如并行端口、游戏端口或通用串行总线(USB)。显示器191或其它类型的显示设备也通过视频接口190这样的接口被连接到系统总线121。除了显示器之外,计算机也可以包括其它外围输出设备,例如扬声器197和打印机196,它们可以通过输出外围接口195被连接。
计算机110可以在使用到一个或多个远程计算机,例如远程计算机180的逻辑连接的联网环境中操作。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括上面相对计算机110描述的许多或全部元件。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中很常见。
当在LAN联网环境中使用时,计算机110通过网络接口或适配器170连接到LAN 171。当在WAN联网环境中使用时,计算机110通常包括调制解调器172或用于通过诸如因特网这样的WAN 173建立通信的其它装置。调制解调器172可以是内置的或外置的,可以通过用户输入接口160或其它合适机制连接到系统总线121。在联网环境中,相对计算机110描述的程序模块或其中一部分可以被存储在远程存储器存储设备中。作为例子但不是限制,图1示出远程应用程序185驻留在远程计算机180中。可以理解,所示的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
在本发明的一个实施例中,可以用于字母-声音转换的文法音素是使用互信息标准形成的。图2提供了在本发明的一个实施例中形成这种文法音素的流程图。
在图2的步骤200中,词典中的单词被分割成单个字母,而各个字母的每一个和与该单词相关联的音素序列中的单个音素对齐。在一个实施例中,这个对齐是通过整个单词从左到右进行的,使得第一字母和第一音素对齐、第二字母和第二音素对齐,依此类推。如果字母比音素多,则剩余字母映射到静音,静音用“#”表示。如果音素比字母多,则最后一个字母映射到多个音素。例如,单词“phone”和“box”如下作初始映射:
phone:p:f h:ow o:n n:# e:#
box:b:d o:aa x:k&s
这样,每个初始文法音素单元正好有一个字母和零个或多个音素。这些初始单元可以普遍地用1:p*表示。
在初始对齐之后,图2的方法在步骤202为每个字母确定对齐概率。对齐概率可以如下计算:
p ( p * | l ) = c ( p * | l ) &Sigma; S * c ( s * | l ) 等式1
其中,p(p*|l)是音素序列p*和字母l对齐的概率,c(p*|l)是音素序列p*和字母l在词典中对齐的次数的计数,而c(s*|l)是音素序列s*和字母l对齐的次数的计数,其中分母中的和是对词典中与字母l对齐的所有可能的音素序列s*进行的。
在确定了对齐概率后,在步骤204形成新的对齐,再次为有与每个文法音素相关联的零个或多个音素的每一文法音素分配一个字母。这个新的对齐是基于在步骤202确定的对齐概率的。在一个特定实施例中,使用维特比解码系统,其中通过维特比栅格的路径,例如图3所示的示例栅格,从对齐概率中被识别。
图3的栅格用于有语音序列f&ow&n的单词“phone”。栅格包括每个字母的单独状态索引和初始静音状态索引。在每个状态索引,有贯穿音素序列的进程的单独状态。例如,对字母“p”的状态索引,有静音状态300、/f/状态302、/f&ow/状态304和/f&ow&n/状态306。在两个状态之间的每一转移表示可能的文法音素。
对每个状态索引处的每个状态,进入该状态的单个路径是通过确定通向该状态的每一条完整路径的概率来选择的。例如,对状态308,维特比解码选择路径310或路径312。路径310的得分包括路径314对齐p:#的概率和路径310对齐h:f的概率。类似地,路径312的得分包括路径316对齐p:f的概率和路径312对齐h:#的概率。进入每个状态的有最高概率的路径被选中,而其它路径被剪除不作更多考虑。通过这个解码过程,词典中的每个单词都被分割成文法音素序列。例如,在图3中,文法音素序列:
p:f h:# o:ow n:n e:#
可以作为最可能的对齐被选中。
在步骤206,本发明的方法确定是否应当执行更多对齐迭代。如果要执行更多对齐迭代,则过程返回到步骤202,以基于在步骤204形成的新对齐确定对齐概率。步骤202、204和206一直被重复,直到执行了所要求的迭代次数。
步骤202、204和206的迭代的结果是词典中每个单词被分割成文法音素单元序列。每个文法音素单元正好包含拼写部分中的一个字母和音素部分中的零个或多个音素。
在步骤210,为在对齐步骤204之后在词典中发现的文法音素单元的每个连续对确定互信息。在一个实施例中,两个连续的文法音素单元的互信息如下计算:
MI ( u 1 , u 2 ) = Pr ( u 1 , u 2 ) log Pr ( u 1 , u 2 ) Pr ( u 1 ) Pr ( u 2 ) 等式2
其中MI(u1,u2)是文法音素单元对u1和u2的互信息。Pr(u1,u2)是文法音素单元u2直接在文法音素单元u1之后出现的联合概率。Pr(u1)是文法音素单元u1的一元概率(unigram probability),而Pr(u2)是文法音素单元u2的一元概率。等式2的概率如下计算:
Pr ( u 1 ) = count ( u 1 ) count ( * ) 等式3
Pr ( u 2 ) = count ( u 2 ) count ( * ) 等式4
Pr ( u 1 u 2 ) = count ( u 1 u 2 ) count ( * ) 等式5
其中count(u1)是文法音素单元u1在词典中出现的次数,count(u2)是文法音素单元u2在词典中出现的次数,count(u1u2)是文法音素单元u2紧随文法音素单元u1之后在词典中出现的次数,count(*)是词典中所有文法音素单元的实例的数目。
严格地说,等式2并不是两个分布之间的互信息,因此不能保证是非负数。但是,它的公式类似于互信息公式,因而在文献中被错误地称为互信息。所以,在本发明的上下文中,我们继续称等式2的计算是互信息计算。
在步骤210对词典中每对相邻文法音素单元计算了互信息后,在步骤212确定每个新的可能文法音素单元u3的强度。新的可能文法音素单元通过合并两个已有的较小文法音素单元来产生。但是,两对不同的文法音素单元可以产生相同的新文法音素单元。例如,文法音素对(p:f,h:#)和文法音素对(p:#,h:f)在它们被合并到一起时都形成同一个较大文法音素单元(ph:f)。所以,我们定义新的可能文法音素单元u3的强度为通过合并产生同一个新单元u3的不同文法音素单元对而形成的所有互信息的总和:
strength ( u 3 ) = &Sigma; &ForAll; u 1 u 2 = u 3 MI ( u 1 , u 3 ) 等式6
其中,strength(u3)是可能的新单元u3的强度,而u1u2=u3意味着合并u1和u2将产生u3。所以,等式6的总和是在产生u3的所有这样的单元对u1和u2上完成的。
在步骤214,创建有最大强度的新单元。然后通过用新形成单元替代较小单元对,更新包括形成所选中的新单元的组成对的词典条目。
在步骤218,该方法确定是否应该创建更多文法音素单元。如果是,过程返回到步骤210并再次计算文法音素单元对的互信息。注意,在前一次合并后,词典现在可能不再需要一些旧单元(即count(u1)=0)。步骤210、212、214、216和218一直被重复,直到构造了足够大的文法音素单元组。现在词典被分割成文法音素发音。
然后,在步骤222,经分割的词典被用来训练文法音素n字母组。构造n字母组的方法可以包括基于最大熵的训练或基于最大似然的训练等等。构建n字母组领域内的技术人员理解,构建n字母组语言模型的任一合适方法都可用于本发明。
通过使用互信息构造较大文法音素单元,本发明为任何拼写语言提供了生成大文法音素单元的自动技术,而不需要语言学家手工标识文法音素单元。
一旦在图2的步骤222生成了文法音素n字母组,我们然后就可以使用文法音素库和n字母组来导出给定拼写的发音。它们也可以用于把有自己的语音发音的拼写分割成库中文法音素序列。这通过应用一强制对齐来实现,该强制对齐要求文法音素的字母和音素与搜索树中每个节点的剩余字母和音素之间的前缀匹配。然后n字母组中提供最高概率并且与字母和音素都匹配的文法音素序列被标识为给定拼写/发音的文法音素分段。
用相同的算法,也可以通过生成音节库、训练音节n字母组以及在单词的发音上执行强制对齐把语音发音分割成音节发音。图4提供生成并使用音节n字母组以标识单词的音节的方法。在一个实施例中,文法音素用作算法的输入被使用,即使算法忽略每个文法音素的字母端,而只使用每个文法音素的音素。
在图4的步骤400,为词典中的每个音素对确定互信息得分。在步骤402,有最高互信息得分的音素对被选中,并生成由两个音素组成的新“音节”单元。在步骤404,包括该音素对的词典条目被更新,这样音素对作为词典条目中单个音节单元来处理。
在步骤406,本方法确定是否有更多的迭代要进行。如果有更多迭代,过程返回到步骤400,对词典中的每个音素对生成互信息得分。步骤400、402、404和406一直被重复,直到形成合适的一组音节单元。
在步骤408,现在已经被分割成音节单元的词典用于生成音节n字母组。音节n字母组模型提供词典中发现的音节序列的概率。在步骤410,音节n字母组用于在给定新单词的发音时标识新单词的音节。具体地说,使用强制对齐,其中发音的音节基于音节n字母组被组合成最可能的音节单字母组序列。步骤410的结果是单词的音素组合成音节单元。
相同的算法可以被用来把单词分割成词素。作为使用单词的音素的替代,单词的各个字母被用作单词的“发音”。为了直接使用上面描述的贪婪算法,各个字母被用来取代文法音素中的音素,而文法音素中的字母端被忽略。这样在步骤400,训练词典中字母对的互信息被标识,而在步骤402有最高互信息的对被选中。然后为这个对形成新词素单元。在步骤404,用新词素单元更新词典条目。当创建了合适数量的词素单元后,在词典中发现的词素单元被用来训练n字母组词素模型,后者在后来可以被用来用上述强制算法从单词的拼写中标识单词的词素。使用这种技术,象“transition”这样的单词可以被分割成“tran si tion”的词素单元。
虽然本发明是参考特定实施例来描述的,然而本领域的技术人员会理解,可以进行形式和细节上的改动而不脱离本发明的精神和范围。

Claims (17)

1.一种把单词分割成组成部分的方法,其特征在于,所述方法包括:
确定文法音素单元的互信息得分,每个文法音素单元包括单词的拼写中的至少一个字母;
使用所述互信息得分以将文法音素单元组合成较大的文法音素单元;以及
把单词分割成组成部分以形成文法音素序列,
其中所述互信息得分计算为:
MI ( u 1 , u 2 ) = Pr ( u 1 , u 2 ) log Pr ( u 1 , u 2 ) Pr ( u 1 ) Pr ( u 2 )
其中MI(u1,u2)是文法音素单元对u1和u2的互信息;Pr(u1,u2)是文法音素单元u2直接在文法音素单元u1之后出现的联合概率,并被计算为:
Pr ( u 1 u 2 ) = count ( u 1 u 2 ) count ( * ) ;
Pr(u1)是文法音素单元u1的一元概率,并被计算为:
Pr ( u 1 ) = count ( u 1 ) count ( * ) ;
而Pr(u2)是文法音素单元u2的一元概率,并被计算为:
Pr ( u 2 ) = count ( u 2 ) count ( * )
其中count(u1)是文法音素单元u1在词典中出现的次数,count(u2)是文法音素单元u2在词典中出现的次数,count(u1u2)是文法音素单元u2紧随文法音素单元u1之后在词典中出现的次数,count(*)是词典中所有文法音素单元的实例的数目。
2.如权利要求1所述的方法,其特征在于,组合文法音素包括组合每个文法音素的字母以产生所述较大文法音素单元的字母序列,并组合每个文法音素的音素以产生所述较大文法音素单元的音素序列。
3.如权利要求1所述的方法,其特征在于,还包括使用所分割的单词生成模型。
4.如权利要求3所述的方法,其特征在于,所述模型描述给定单词内上下文时文法音素单元的概率。
5.如权利要求4所述的方法,其特征在于,还包括使用所述模型在给定单词的拼写时确定所述单词的发音。
6.如权利要求1所述的方法,其特征在于,使用所述互信息得分包括对为单个较大文法音素单元确定的至少两个互信息得分求和以形成强度。
7.一种用于标识单词的一组文法音素单元的方法,包括:
为在一组单词中发现的文法音素单元对确定互信息得分,每个文法音素单元包括至少一个字母;
基于所述互信息得分组合一文法音素单元对的文法音素单元,以形成一新的文法音素单元;以及
部分地基于所述新的文法音素单元标识单词的一组文法音素单元,
其中所述互信息得分计算为:
MI ( u 1 , u 2 ) = Pr ( u 1 , u 2 ) log Pr ( u 1 , u 2 ) Pr ( u 1 ) Pr ( u 2 )
其中MI(u1,u2)是文法音素单元对u1和u2的互信息;Pr(u1,u2)是文法音素单元u2直接在文法音素单元u1之后出现的联合概率,并被计算为:
Pr ( u 1 u 2 ) = count ( u 1 u 2 ) count ( * ) ;
Pr(u1)是文法音素单元u1的一元概率,并被计算为:
Pr ( u 1 ) = count ( u 1 ) count ( * ) ;
而Pr(u2)是文法音素单元u2的一元概率,并被计算为:
Pr ( u 2 ) = count ( u 2 ) count ( * )
其中count(u1)是文法音素单元u1在词典中出现的次数,count(u2)是文法音素单元u2在词典中出现的次数,count(u1u2)是文法音素单元u2紧随文法音素单元u1之后在词典中出现的次数,count(*)是词典中所有文法音素单元的实例的数目。
8.如权利要求7所述的方法,其特征在于,组合文法音素单元包括组合所述文法音素单元的字母以形成所述新的文法音素单元的字母序列。
9.如权利要求8所述的方法,其特征在于,组合文法音素单元还包括组合所述文法音素单元的音素以形成所述新的文法音素单元的音素序列。
10.如权利要求7所述的方法,其特征在于,还包括为词典中的每个单词标识一组文法音素。
11.如权利要求10所述的方法,其特征在于,还包括使用为词典中的单词标识的各组文法音素来训练模型。
12.如权利要求11所述的方法,其特征在于,所述模型描述在单词中出现的文法音素单元的概率。
13.如权利要求12所述的方法,其特征在于,所述概率基于单词中的至少一个其它文法音素单元。
14.如权利要求11所述的方法,其特征在于,还包括使用所述模型在给定单词的拼写时确定所述单词的发音。
15.如权利要求7所述的方法,其特征在于,基于所述互信息得分组合文法音素单元包括对与新文法音素单元相关联的至少两个互信息得分求和。
16.一种把单词分割成音节的方法,其特征在于,所述方法包括:
使用互信息得分把一组单词分割成语音音节;
使用所分割的单词组训练音节n字母组模型;以及
使用所述音节n字母组模型,通过强制对齐把单词的语音表示分割成音节,
其中所述互信息得分计算为:
MI ( u 1 , u 2 ) = Pr ( u 1 , u 2 ) log Pr ( u 1 , u 2 ) Pr ( u 1 ) Pr ( u 2 )
其中MI(u1,u2)是一组单词中发现的文法音素单元对u1和u2的互信息;Pr(u1,u2)是文法音素单元u2直接在文法音素单元u1之后出现的联合概率,并被计算为:
Pr ( u 1 u 2 ) = count ( u 1 u 2 ) count ( * ) ;
Pr(u1)是文法音素单元u1的一元概率,并被计算为:
Pr ( u 1 ) = count ( u 1 ) count ( * ) ;
而Pr(u2)是文法音素单元u2的一元概率,并被计算为:
Pr ( u 2 ) = count ( u 2 ) count ( * )
其中count(u1)是文法音素单元u1在词典中出现的次数,count(u2)是文法音素单元u2在词典中出现的次数,count(u1u2)是文法音素单元u2紧随文法音素单元u1之后在词典中出现的次数,count(*)是词典中所有文法音素单元的实例的数目。
17.一种把单词分割成词素的方法,其特征在于,所述方法包括:
使用互信息得分把一组单词分割成词素;
使用所分割的单词组训练词素n字母组模型;以及
使用所述词素n字母组模型,通过强制对齐把单词分割成词素,
其中所述互信息得分计算为:
MI ( u 1 , u 2 ) = Pr ( u 1 , u 2 ) log Pr ( u 1 , u 2 ) Pr ( u 1 ) Pr ( u 2 )
其中MI(u1,u2)是一组单词中发现的文法音素单元对u1和u2的互信息;Pr(u1,u2)是文法音素单元u2直接在文法音素单元u1之后出现的联合概率,并被计算为:
Pr ( u 1 u 2 ) = count ( u 1 u 2 ) count ( * ) ;
Pr(u1)是文法音素单元u1的一元概率,并被计算为:
Pr ( u 1 ) = count ( u 1 ) count ( * ) ;
而Pr(u2)是文法音素单元u2的一元概率,并被计算为:
Pr ( u 2 ) = count ( u 2 ) count ( * )
其中count(u1)是文法音素单元u1在词典中出现的次数,count(u2)是文法音素单元u2在词典中出现的次数,count(u1u2)是文法音素单元u2紧随文法音素单元u1之后在词典中出现的次数,count(*)是词典中所有文法音素单元的实例的数目。
CN2005100527542A 2004-03-10 2005-03-10 为字母-声音转换生成有互信息标准的大文法音素单元 Expired - Fee Related CN1667699B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/797,358 US7693715B2 (en) 2004-03-10 2004-03-10 Generating large units of graphonemes with mutual information criterion for letter to sound conversion
US10/797,358 2004-03-10

Publications (2)

Publication Number Publication Date
CN1667699A CN1667699A (zh) 2005-09-14
CN1667699B true CN1667699B (zh) 2010-06-23

Family

ID=34827631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100527542A Expired - Fee Related CN1667699B (zh) 2004-03-10 2005-03-10 为字母-声音转换生成有互信息标准的大文法音素单元

Country Status (7)

Country Link
US (1) US7693715B2 (zh)
EP (1) EP1575029B1 (zh)
JP (1) JP2005258439A (zh)
KR (1) KR100996817B1 (zh)
CN (1) CN1667699B (zh)
AT (1) ATE508453T1 (zh)
DE (1) DE602005027770D1 (zh)

Families Citing this family (228)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4769223B2 (ja) * 2007-04-26 2011-09-07 旭化成株式会社 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
CN101576872B (zh) * 2009-06-16 2014-05-28 北京系统工程研究所 一种中文文本处理方法及装置
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101083455B1 (ko) * 2009-07-17 2011-11-16 엔에이치엔(주) 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120089400A1 (en) * 2010-10-06 2012-04-12 Caroline Gilles Henton Systems and methods for using homophone lexicons in english text-to-speech
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
WO2012134488A1 (en) * 2011-03-31 2012-10-04 Tibco Software Inc. Relational database joins for inexact matching
US9607044B2 (en) 2011-03-31 2017-03-28 Tibco Software Inc. Systems and methods for searching multiple related tables
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9972300B2 (en) * 2015-06-11 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105590623B (zh) * 2016-02-24 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的字母音素转换模型生成方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108962218A (zh) * 2017-05-27 2018-12-07 北京搜狗科技发展有限公司 一种文字发音方法和装置
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN108877777B (zh) * 2018-08-01 2021-04-13 云知声(上海)智能科技有限公司 一种语音识别方法及系统
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN113257234A (zh) * 2021-04-15 2021-08-13 北京百度网讯科技有限公司 生成词典与语音识别的方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1196531A (zh) * 1997-04-14 1998-10-21 英业达股份有限公司 计算机语音信号的发音合成方法
US6092042A (en) * 1997-03-31 2000-07-18 Nec Corporation Speech recognition method and apparatus

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0283594A (ja) * 1988-09-20 1990-03-23 Nec Corp 形態素合成形英単語辞書構成方式
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
JPH09281989A (ja) * 1996-04-09 1997-10-31 Fuji Xerox Co Ltd 音声認識装置および方法
US6185524B1 (en) * 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
US6505151B1 (en) * 2000-03-15 2003-01-07 Bridgewell Inc. Method for dividing sentences into phrases using entropy calculations of word combinations based on adjacent words
JP3881155B2 (ja) * 2000-05-17 2007-02-14 アルパイン株式会社 音声認識方法及び装置
US6973427B2 (en) 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
GB0118184D0 (en) * 2001-07-26 2001-09-19 Ibm A method for generating homophonic neologisms
US20030088416A1 (en) * 2001-11-06 2003-05-08 D.S.P.C. Technologies Ltd. HMM-based text-to-phoneme parser and method for training same
US20050256715A1 (en) * 2002-10-08 2005-11-17 Yoshiyuki Okimoto Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092042A (en) * 1997-03-31 2000-07-18 Nec Corporation Speech recognition method and apparatus
CN1196531A (zh) * 1997-04-14 1998-10-21 英业达股份有限公司 计算机语音信号的发音合成方法

Also Published As

Publication number Publication date
CN1667699A (zh) 2005-09-14
KR100996817B1 (ko) 2010-11-25
JP2005258439A (ja) 2005-09-22
EP1575029A3 (en) 2009-04-29
KR20060043825A (ko) 2006-05-15
ATE508453T1 (de) 2011-05-15
US7693715B2 (en) 2010-04-06
US20050203739A1 (en) 2005-09-15
EP1575029B1 (en) 2011-05-04
DE602005027770D1 (de) 2011-06-16
EP1575029A2 (en) 2005-09-14

Similar Documents

Publication Publication Date Title
CN1667699B (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN100589179C (zh) 从文本中预测误词率的方法和设备
CN1667700B (zh) 把字的语音或声学描述、发音添加到语音识别词典的方法
CN107016994B (zh) 语音识别的方法及装置
CN101371253B (zh) 生成拼写建议的方法和系统
CN109313896B (zh) 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质
CN1542736B (zh) 用于将自然语言输入映射到大纲的系统和方法
CN100535890C (zh) 以arpa标准格式表示经删除插值n字母语言模型
CN1760974B (zh) 用于标识至少一个语音单元的方法
US20070219798A1 (en) Training system for a speech recognition application
US20040111264A1 (en) Name entity extraction using language models
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN101238508A (zh) 使用备选列表重述错误识别的词语
CN101305362A (zh) 语音索引删减
CN101326572A (zh) 具有巨大词汇量的语音识别系统
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
CN100568222C (zh) 歧义消除语言模型
CN113990293A (zh) 语音识别方法及装置、存储介质、电子设备
JP3950957B2 (ja) 言語処理装置および方法
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
CN111489742B (zh) 声学模型训练方法、语音识别方法、装置及电子设备
CN113420121A (zh) 文本处理模型训练方法、语音文本处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100623

Termination date: 20130310