CN1585968A - 用于压缩字典数据的方法 - Google Patents

用于压缩字典数据的方法 Download PDF

Info

Publication number
CN1585968A
CN1585968A CNA028223683A CN02822368A CN1585968A CN 1585968 A CN1585968 A CN 1585968A CN A028223683 A CNA028223683 A CN A028223683A CN 02822368 A CN02822368 A CN 02822368A CN 1585968 A CN1585968 A CN 1585968A
Authority
CN
China
Prior art keywords
unit
phoneme
sequence
entry
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028223683A
Other languages
English (en)
Other versions
CN1269102C (zh
Inventor
J·田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1585968A publication Critical patent/CN1585968A/zh
Application granted granted Critical
Publication of CN1269102C publication Critical patent/CN1269102C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及在数据处理设备中对发音字典进行用于压缩的预处理,该发音字典包括至少一个词条,该词条包括字符单元序列和音素单元序列。根据本发明的一个方面,使用统计算法对字符单元序列和发音单元序列进行排列。通过将每一音素单元插入到相对于对应字符单元的预定位置,对排列后的字符单元序列和排列后的音素单元序列进行交错。

Description

用于压缩字典数据的方法
发明背景
本发明涉及说话者无关的语音识别,更准确的说,涉及发音字典的压缩。
近年来开发出了不同的语音识别应用,例如用于汽车用户接口和比如移动电话、PDA(个人数字助理)装置、便携式计算机等移动终端。已知的用于移动终端的方法包括,用户对着移动终端的麦克风大声说出他或她的名字,然后建立到根据该用户所说姓名的号码的呼叫来呼叫一个特定的人的方法。然而,现今说话者相关的方法通常需要该语音识别系统被训练到能够识别每一个名字的发音。说话者无关的语音识别改善了语音控制的用户接口的可用性,因为该训练阶段可以省略。在说话者无关的名字选择中,名字的发音可以被预先储存,那么用户所说出的名字就可以与预定义的发音例如音素序列进行鉴别。虽然在许多语言中,许多词语的发音可以用规则、甚至模型表示,但是仍然有一些词语的发音不能通过这些规则或者模型正确地产生。然而在多种语言中,该发音不能用常规的发音规则表示,而是每一词语具有一个特定的发音。对于这些语言,语音识别就依赖于使用所谓的发音字典,其中该语言的每一词语的书写形式和它的发音的语音表示都存储在一个列表类结构中。
由于成本和硬件大小的原因,移动电话的存储容量经常受到限制。这样也限制了语音识别的应用。在一个能够具有多种用户接口语言的装置中,说话者无关的语音识别方案通常使用发音字典。因为一个发音字典通常比较大,例如两千个名字需要37KB,所以需要对发音字典进行压缩以存储。概括地讲,大多数文本压缩方法都可以归为两类:基于字典的和基于统计的。基于字典的压缩有几个不同的实现方法,例如LZ77/78和LZW(Lempel-Ziv-Welch)。通过将统计方法——例如算术编码——与强大的建模技术结合,就可以达到比单独使用基于字典的方法更好的性能。然而,基于统计的方法所存在的问题是,在解压过程中它需要巨大的工作空间(缓冲区)。因此该方案不适合在小的便携式的电子装置比如移动终端中使用。
虽然现有的压缩方法通常都很好,但是用于对便携式装置的发音字典的压缩却不是足够有效。
发明概述
本发明的目的是提供一个更有效的用于压缩发音字典的压缩方法。本发明的目的通过具有如独立权利要求中所公开的特征的方法、电子装置、系统和计算机程序产品来实现。本发明的优选实施例在从属权利要求中阐述。
根据本发明的第一方面,压缩前对发音字典进行预处理。预处理可以和任何用于压缩字典的方法一起使用。在预处理中,使用统计算法对发音字典中的每一词条进行排列。在该排列过程中,字符单元序列和音素单元序列被修改成具有相等数目的单元的序列。然后将排列后的字符单元序列和音素单元序列交错,以使得每一音素单元插入到相对于对应字符单元的预定位置。
字符单元序列典型地是包含字母的文本序列。依据语言不同,该字母集可以扩展以包括比常规英语字母表更多的字母或符号。
音素单元序列表示词语的发音,它通常包含字母与符号,例如在SAMPA(语音评价方法语音字母表)标记中的‘@’,‘A:’,‘{’。该语音字母表还可以包含非可打印的字符。因为一个音素可以用多于一个的字母或符号表示,所以使用空白字符将音素隔开。
根据本发明的第二方面,电子装置被配置成将输入文本串转换为音素单元序列的。该装置的存储器中存储有一个预处理过的包括词条的发音字典,该词条包括第一单元集合和第二单元集合,第一单元集合包括字符单元,第二单元集合包括音素单元,其中对第一集合的单元和第二集合的单元进行排列,并通过把每个音素单元插入到相对于对应字符单元的预定位置对第一集合和第二集合进行交错。通过利用词条的第一单元集合的预定位置的单元,就可以从该预处理过的发音字典中找到与输入文本串相匹配的词条。从该匹配词条中选择第二单元集合中的单元,并将其联结成音素单元序列。并且从该音素单元序列中删除空白符。
根据本发明的第三方面,电子装置被配置成将输入语音信息转换为字符单元序列。该装置的存储器中存储有一个预处理过的包括词条的发音字典,该词条包括第一单元集合和第二单元集合,第一单元集合包括字符单元,第二单元集合包括音素单元,其中对第一集合的单元和第二集合的单元进行排列,并通过把每个音素单元插入到相对于对应字符单元的预定位置对第一集合和第二集合进行交错。用于每个词条的语音表示的发音模型或者与发音字典一起被存储在存储器中,或者在处理过程中创建。通过将该语音信息与发音模型比较,选择最一致的词条,就可以找到该语音信息的匹配词条。从该匹配词条中选择第一单元集合中的单元,并将其联结成字符单元序列。最后,从该字符单元序列中删除空白符。
本发明的一个优点是,使用所述的预处理,字典的熵值(H)降低了。根据信息论,低的熵率(H)表示可以达到更有效的压缩,因为熵率决定了压缩的下限(可能达到的最好的无损压缩的压缩率)。这就使得能够得到更好的压缩,并且所需的存储空间更小。进一步地,就使得该发音字典能够相对简单并可快速地应用到语音识别中。
在本发明的一个实施例中,适于采用HMM-Viterbi算法进行排列。HMM-Viterbi算法从统计的角度保证排列是以最优的方式进行的,因此将该字典的词条的余熵最小化。而且在排列中使用HMM-Viterbi算法还有一个优点就是,从统计的角度看可以达到更加优化的排列。
在本发明的另一个实施例中,该预处理中增加有映射步骤。该映射可以在排列之前或者在排列之后进行。在这一步骤中,每一音素单元被映射成一个符号,并且使用单个符号而不是用多个字符来表示音素单元。通过使用映射技术,空白字符可以从词条中删除,并且仍然可以进行交错序列的解码。删除空白字符进一步提高了压缩比。另外,映射还有一个优点就是,该方法可以适用于多语言处理,甚至可以使用一个大的映射表来处理该装置中的所有语言。
附图简述
在下文中,将借助于优选实施例和参照附图对本发明进一步详细描述,其中:
图1是一个数据处理装置的结构框图,用于支持根据本发明的一个优选实施例的对发音字典进行的预处理和压缩;
图2是根据本发明的一个优选实施例的方法流程图;
图3所示为使用HMM算法对发音字典进行排列;
图4所示为对一个字典词条进行预处理的步骤;
图5是一个使用该预处理过的发音字典的电子装置的结构框图;
图6为根据本发明的优选实施例,使用预处理过的发音字典将文本串转换为发音模型的流程图;和
图7为根据本发明的优选实施例,使用预处理过的发音字典将语音信息转换为文本单元序列的流程图;
发明的详细说明
图1说明的是一个数据处理装置(TE)的仅与本发明的优选实施例相关的部分。该数据处理装置(TE)可以是,例如个人电脑(PC)或者移动终端。该数据处理单元(TE)包括I/O(输入输出)装置(I/O),中央处理单元(CPU)和存储器(MEM)。该存储器(MEM)包括只读存储器ROM部分和可重复写部分,比如随机存取存储器RAM和FLASH存储器。用于与不同的外部部件例如CD-rom(光盘驱动器)、其他装置以及用户通讯的信息经由输入输出装置(I/O)传送至中央处理单元(CPU)或从中央处理单元传送过来。中央处理单元(CPU)提供一个预处理模块(PRE)和一个压缩模块(COM)。这些模块的功能典型地通过在处理器中执行软件代码来实现,但是也可以使用硬件方法(例如ASIC)或硬件和软件结合的方式来实现。该预处理模块(PRE)提供图2中详细说明的优选实施例的预处理步骤。压缩模块(COM)提供对发音字典的压缩,为此可以使用几个不同的压缩方法,例如LZ77、LZW或算术编码。该预处理可以与任何其他压缩方法结合使用以提高压缩效率。
需要被预处理和压缩的发音字典存储在存储器(MEM)中。该字典还可以使用输入输出装置(I/O)从外部存储装置中下载,例如从CD-ROM或网络。该发音字典中包括词条,并且每一词条依次包括该词语的字符单元序列(文本序列)和相应的音素单元序列(音素序列)。音素单元序列表示字符单元序列的发音。音素单元的表示取决于所使用的音素标记系统。可以使用几个不同的音素标记系统,例如SAMPA和IPA。SAMPA(语音评价方法语音字母表)是一种可机读的语音字母表。国际语音学会提供一套标记标准:国际音标(IPA),用于多种语言的语音表示。使用SAMPA音素标记系统的字典词条可以是,例如:
文本序列           音素序列           词条
Father             FA:D@              Father fA:D@
熵是表征信号的数据内容的基本属性,用H表示。最简短而又不丢失任何数据的描述信号(压缩它)的方法是有可能找到的。这个最简短描述的长度用信号的熵表示。香农(Shannon)建立了一种估计信号的熵的方法(例如参见,C.E.Shannon,A Mathematical Theory of Communication(通信的数学理论),The Bell System Technical Journal,Vol.27,pp.379-423,623-656,July,October,1948),而不是去计算每个信号的准确熵值。下面对其作一简单介绍。
假定前一个字符是字母表中第i个字母,那么当前字符是第j个字母的条件概率就用P(lj|li)表示,P(li)表示前一字符是字母表中第i个字母的概率。于是二阶统计的熵率H2为:
H 2 = - Σ i - 1 m P ( l i ) · Σ j = 1 m P ( l j | l i ) · log 2 P ( l j | l i ) - - - ( 1 )
在通常情况下,熵率H由下式给出:
H = lim n → ∞ - 1 n Σp ( B n ) · log 2 p ( B n ) - - - ( 2 )
其中Bn代表第一个字符。根据上述等式(2)实际上不可能计算出熵率。使用等式(l)中的这种预测方法,则有可能估计出一篇有27个字符的英语文本的熵率大约是2.3比特/字符。
为了提高对发音字典的压缩,可以使用预处理来降低它的熵。
图2说明了根据本发明的优选实施例的一种方法。该方法主要用于对发音字典进行预处理以降低其熵率(H)。
排列每个词条(200),也就是对该文本和音素序列进行修改,以使得音素序列中的音素单元具有与文本序列中的字符单元相同的数目。例如,在英语中,一个字母可以与零个、一个、或两个音素对应。排列是通过在文本串中的字母之间、或者在音素序列中的音素之间插入字素(graphemic)或音素ε(空值)来实现的。通过引入一个短小的伪音素表就可以避免字素ε的使用,该伪音素短表是通过将两个已知的音素联结起来与单个字母对应而得到的,例如,“x->ks”。为了排列词条,所提供的音素集必须为每一个字母作定义。音素列表包括用于字母的伪音素和可能的ε音素。通常的原则是,在必要时将空字素(定义为ε)插入到文本序列,和/或将空音素(也称为ε)插入到音素序列。以下就是上面用作范例的词语经过排列后的情形。
文本序列       音素序列          排列后的词条
father         fA:D@             father fA:Dεε@
这里,词语‘faher’有6个单元,排列后音素序列中就有6个音素:‘fA:Dεε@’。可以通过几种不同的方式来完成排列。根据本发明的一个实施例,使用HMM-Viterbi算法完成该排列。在图3中更详细地说明和描述了该排列的原理
在排列(200)之后,音素标记系统中所使用的每个音素优选的被映射(202)成单个符号,例如:一个字节的ASCII码。然而,使用映射对达到本发明的效果并不是必需的,但是它可以进一步地改善该效果。映射可以通过例如一个映射表来表示。下面就是在用作范例的词语中该音素如何被映射的例子:
音素符号        ASCII值        ASCII符号
f               0x66           f
A:              0x41           A
D               0x44           D
@               0x40           @
ε              0x5F
通过将每个音素用一个符号表示,表示一个音素单元的两个字符就可以只用一个8位ASCII符号替换。结果该范例如下:
音素序列      映射后序列(ASCII值)             映射后序列(符号)
fA:Dεε@     0x66 0x41 0x44 0x5F 0x5F 0x40   fAD__@
使用一个符号表示该音素之后,这些单元之间的空白就可以被删除。文本序列和该映射并排列后的音素序列之间的空白也可以被删除,因为这两个序列的单元数目相等,从而哪些字符属于文本、哪些字符属于语音表示就很清楚。
排列和映射后的词条
fatherfAD__@
对于交错而言,将音素单元映射成单个符号(202)是一个重要的步骤,因为这样可以避免使用空白字符。由于单个字符所占用的空间更少(例如相比于两个字符组合),所以映射还进一步地改善了最终结果本身,并且加强了与相应文本字符的关联性。排列(200)和映射(202)的次序并不会影响最终结果,映射(202)也可以在排列之前进行。
映射表仅取决于该发音字典中所使用的音素标记方法。它可以被实现成与语言无关的,使得对于不同的方言或者语言不需要使用不同的系统或实施方式。如果使用了多个采用不同音素标记方法的发音字典,那就使得每个音素标记方法都需要有一个独立的映射表。
在排列(200)和映射(202)以后,对词条进行交错(204)。由于字符到音素模式比连续字母模式具有更高的概率(更低的熵),尤其是已经进行了最佳的排列后,从而冗余就增加了。这可以通过在词语的字母之间插入发音音素以形成单个词语来完成。换句话说,该音素单元被插入到相应的字符单元后的相邻位置。在排列(200)以后,该文本序列和该音素序列具有相等数目的符号,该字符一音素对就容易被找到。例如:
文本序列      音素序列      交错后词条
father        FAD__@        ffAtDh_e_r@
其中斜体和黑体符号表示发音音素。很明显从该例子可知,由于被交错的文本序列和音素序列包含相等数目的单元,词条从原始格式组合到新格式以及从新格式分解为原始格式的过程都是惟一确定的。
在预处理之后,就可以对预处理过的音素字典进行压缩(206)。
图3说明了用于排列词条的文本和语音表示的字素(grapheme)HMM。
隐藏马尔可夫模型(HMM)是一种众所周知的并且已经被广泛应用的统计方法,例如应用在语音识别中。这些模型也被称作为马尔可夫源或者马尔可夫链的概率函数。HMM的基础假定是信号可以用参数随机过程很好地表征,并且该随机过程的参数可以以一种精确的、完美的方式来确定/估计。根据指定到每一状态的可观测事件是离散的——比如代码字——或者是连续的,HMM可以分为离散模型和连续模型。这两种情况下,观测都是概率性的。底层随机过程中的模型不是直接可观测的(它是隐藏的),而只能通过另一组产生该观测值序列的随机过程来看。HMM由伴随着状态之间的转移的隐藏状态组成。它的数学表述包括三项:状态之间的状态转移概率,每一状态的观测概率和初始状态分布。对于给定的HMM和观测,可以使用Viterbi算法通过追踪最佳路径给出观测状态排列。
本发明中认为,HMM可用于解决将观测序列最优排列到隐藏马尔可夫模型状态的问题。并且Viterbi算法可以与HMM合使用来查找最优排列。更多有关隐藏马尔可夫模型及其应用的信息可以从例如书籍“Speech RecognitionSystem Design and Implementation Issues(语音识别系统设计及实现问题)”,第322-342页中找到。
首先,对于给定的字母-音素对,如果音素f在字母l的允许音素列表中可以被找到,则惩罚分(penalty)p(f|l)初始化为零,否则就初始化为大的正值。使用该初始惩罚分,字典在两个步骤中就可以被排列。第一步,为字典中每一词条产生所有可能的排列,并根据所有排列的词条对惩罚分重新评分。第二步,为每一词条只找出一个最优的排列。
对于每一词条,使用Viterbi算法在字素HMM中找到最优的排列。字素HMM具有入口(ES),出口(EXS)和字母状态(S1,S2和S3)。可以映射到伪音素的字母被处理成具有一个持续(duration)状态(EPS)。状态1至3(S1,S2,S3)是与单词中的字母对应的状态。状态2(S2)与可以产生伪音素的字母对应。为了支持音素ε,从所有前面状态到当前状态的跳转都是允许的。
每一个状态和持续状态有一个令牌,该令牌包含相对于该字素HMM排列该音素序列的累积惩罚分(作为对数概率的和)和与该累积得分对应的状态序列。音素序列相对于字母的排列是通过一次一个音素地从头至尾遍历音素序列来完成的。为了找到字母和音素之间的Viterbi排列,需要进行令牌传送(tokenpassing)。当该令牌从一个状态传送到另一个状态,每一状态的惩罚分就得到了累计。令牌传送中也可能包括拆分令牌以及组合或者选择令牌以进入下一个状态。最后就可以找到在HMM的所有状态中具有最低累积惩罚分的那个令牌。根据该令牌的状态序列,该单词的字母和音素之间的排列就可以被确定。
上述排列适合于大多数词条,但是也有一些不能被排列的特殊词条。在这种情况下,使用另一个简单的排列:将ε字素或者ε音素添加到字母或者音素序列的末尾。
图4更详细地说明了根据本发明的优选实施例对一个示例词条的预处理。
该原始词条(400)具有两个部分:文本序列‘father’和音素序列‘fA:D@’。这两个序列使用一个空白字符隔开,并且该音素单元之间也使用空白字符隔开。
在排列(402)中,添加ε音素和ε字素以使两个序列具有相同数目的单元。在该范例单词中需要加入两个ε音素,从而该音素序列的结果就是‘fA:Dεε@’。
音素单元到单符号表示的映射(404)只改变该音素序列。映射之后,范例单词的音素序列变成‘fAD__@’。
当映射(404)完词条后,空白字符的删除就成为可能(406)。结果,就得到一个字符串‘fatherfAD__@’。
最后一步是交错(408),该范例词条就变成了‘ffaAtDh_e_r@’。现在该词条就可以被进一步地处理,例如,它可以被压缩。
在图2中更详细地描述所有这些步骤。
如上所述的还包括映射(202)的预处理方法都进行了实验性测试。该实验使用Camegie Mellon University Pronouncing Dictionary(卡耐基梅隆大学发音字典)进行,该字典是一个用于北美英语的字典,它包含超过100,000个单词以及它们的注音。在实验中首先通过使用典型的基于字典的压缩方法LZ77和LZW,以及基于统计的压缩方法二阶算术压缩来评估性能。然后使用该预处理方法和压缩方法(LZ77,LZW和算术)的结合测试该性能。表格1中的结果表明,该预处理方法在所有情况下表现都更好,其中以千字节为单位。通常,它可以和任何压缩算法一起使用。
表格1:压缩性能比较,使用CMU英语发音字典进行测试。该结果的单位是千字节。
方法      压缩前n    无预处理的压缩    有预处理的压缩    提高
LZ77      2580       1181              940               20.4%
LZW       2580       1315              822               37.5%
算术      2580       899               501               44.3%
从表1中可以看出,该预处理与所有的压缩方法结合都提高了压缩性能。与LZ77压缩方法组合,该预处理将压缩性能提高了超过20%。当与LZW方法或者与算术方法组合使用时,这个提高甚至会更大,达到大约40%。
需要理解的是,本发明可以被应用于任何用于语音识别和语言合成的一般用途的字典,或者被应用于当需要以高效的存储器利用率来存储发音字典时的所有应用。也可能将本发明应用到所有其它列表的压缩,所述列表包括在字符层面具有高度相关的文本词条组,例如显示单词全部形式的普通字典和拼写检查程序。
图5说明的是一电子装置(ED)的仅与本发明的一个优选实施例相关的部分。该电子装置(ED)可以是例如PDA装置、移动终端、个人电脑(PC)乃至任何希望和它们一起使用的辅助装置,例如智能耳机或者遥控装置。该电子装置(ED)包括输入输出装置(I/O),中央处理单元(PRO)和存储器(ME)。该存储器(ME)包括只读存储器ROM部分和FLASH存储器。用来与不同的外部部件例如网络、其他装置或者用户通讯的信息经由输入输出装置(IO)传送至中央处理单元(PRO)或从中央处理单元传送过来。因此用户接口——比如麦克风或使得字符序列可以被输入该装置的小键盘——是该输入输出装置(IO)的一部分。预处理过的发音字典可以通过该输入输出装置(IO)从数据处理装置(TE)下载到该电子装置(ED),例如从网络下载。该字典然后存储在存储器(ME)中供进一步使用。
图6和7中所示的步骤可以使用在该电子装置(ED)的中央处理单元(PRO)中执行的计算机程序代码实现。该计算机程序可以通过输入输出装置(IO)被装载到中央处理单元(PRO)中。这一实现过程也可以使用硬件方法(例如ASIC)或者硬件和软件的结合来完成。根据一个优选实施例,如图2所示对存储在该装置(ED)的存储器(ME)中的音素字典进行预处理。
在图6中,该电子装置(ED)的中央处理单元(PRO)接收一个需要被转换为发音模型的文本串输入。该输入文本串可以是例如该用户已经使用输入输出装置(IO)添加到该电子装置(ED)的联系(contact)数据库中的一个名字。首先需要从存储在存储器(ME)中的预处理过的发音字典中找到一个匹配词条(600)。匹配词条的查找是基于将该输入文本串和词条的字符单元进行比较来实现的。因为词条被交错,所以一个词条串就是字符和音素单元的组合。如果交错是根据图2中所述的优选实施例完成的,那么当将该输入串与词条比较时,只有每隔一个的单元被使用。词条的字符单元可以通过从第一个单元开始选择第奇数个单元而被找到。该比较是使用该词条的原始字符串作出的,因此空白符例如ε字素被忽略。此外还有一些为本领域的熟练技术人员熟知的查找匹配词条的方法和算法,由于它们不是本发明的一部分,这里不必描述它们。当字符单元与输入文本串的单元完全匹配时,就找到了该匹配词条。然而需要理解的是,在一些应用中使用非精确的匹配算法代替可能会是有利的,例如利用所谓的通配符。
当该匹配词条被找到后,对该词条的音素单元进行选择(602)。因为交错(根据图2中所述的优选实施例完成)的原因,该词条串的每隔一个的单元被使用。为了确定该音素单元,从第二单元开始进行选择。被选择的单元然后可以被联结以产生音素单元序列。
由于该词条被排列,该音素单元序列可能包括空白符,例如音素ε。为了建立一个只由音素组成的序列,这些空白符被删除(604)。
如果音素字典的预处理过程也包括映射,那就需要一个逆映射(606)。该逆映射可以使用一个和预处理中使用的类似的映射表进行,但是方向是相反的。这一步骤将该音素单元的第一表示方法——例如单字符表示——改变成在该系统中所使用第二表示方法,例如SAMPA。
当该音素单元序列被建立后,它典型地进一步被处理,例如建立该序列的发音模型。根据一个实施例,使用例如HMM算法分别为每一音素建立发音模型。该音素发音模型存储在存储器(ME)中。为了建立词条的发音模型,从存储器中检索出该音素序列的每一音素的发音模型(608)。这些音素模型然后被联结(610),于是就建立了该音素序列的发音模型。
如上所述的输入文本串到发音模型的转换还可以分布在两个电子装置进行。例如,将该预处理过的字典保存在第一个电子装置例如网络中,在该装置中执行查找匹配词条(600)的操作。该匹配词条然后被送到第二电子装置例如移动终端,在其中进行剩下的处理(步骤602-610)。
图7说明了在一个使用预处理过的发音字典的电子装置(ED)中将语音信息转换成字符单元序列的一个优选实施例。该电子装置(ED)的中央处理单元(PRO)通过输入输出装置(IO)接收语音信息输入。此语音信息需要被转换为字符单元序列以供进一步使用,例如作为文本在显示屏上显示,或者把它与语音控制装置的预定语音命令的文本串相比较。
对匹配词条的查找(702)是基于输入语音信息与该发音字典中每一词条的发音模型的比较而进行的。因此在比较之前,每一词条的发音都被建模(700)。根据一个优选实施例,该模型被建立在该电子装置(ED)中。由于该音素字典已经被交错和排列,因此可以按照如图6所述的,遵循步骤602-610来完成建模。当建模是在电子装置(ED)中完成时,对处理能力和工作空间的需求增加,而用于该发音字典的存储消耗则可以保持较低的水平。
根据第二优选实施例,模型是在对发音字典进行预处理之前在数据处理装置(TE)中建立。该建模可以按照如图6中所述,遵循步骤608和610来完成。因为是在预处理之前进行建模,该字典还没有被交错、排列或者映射,从而步骤602-606就不需要了。然后将该发音模型连同词条一起存储在存储器(MEM)中。当该字典被传送到电子装置(ED),该模型也被传送到电子装置。在这种方案中,需要更少的处理能力和工作空间来将语音信息转换成文本序列,而存储器(ME)的存储消耗却增加了。
匹配词条的查找(702)使用该输入语音信息和保存在存储器(ME)中的词条的发音模型来完成。将语音信息与每一词条进行比较,并计算出该输入语音信息与每一词条的发音模型相匹配程度的概率。在计算出该概率之后,就可以通过选择具有最高概率的词条来找到该匹配词条。
然后从该匹配词条中选择出字符单元(704)。因为进行了图2所示的交错,该词条串的每隔一个的单元被使用。该选择操作必须从第一单元开始以获得该字符单元。然后可以联结这些被选择的单元以形成字素单元序列。
因为排列的原因,该字素单元序列可能包括空白符,例如字素ε。为了建立只有字素的序列,该空白符被删除(706)。从而我们就得到了可以在该系统中进一步使用的文本串。
电子装置——例如具有汽车用户接口的移动电话——具有用于声音命令的说话者无关的声音识别。每一声音命令都是该发音字典中的一个词条。用户在驾驶时想打个电话,当该声音识别被激活,用户说‘CALL’。电话通过麦克风接收到该声音命令,并通过输入输出装置将该语音信息传送到中央处理单元。中央处理单元按照图7所述将该语音输入转换成文本序列。该文本序列通过输入输出装置被传送到显示屏,以反馈给用户该装置正在进行的操作。除了在屏幕上显示文本之外,该装置也给出音频反馈。作为语音到文本转换处理的一部分而产生的匹配词条的发音模型通过输入输出装置被传送到扬声器。然后该电话就打电话到该用户已经选择的电话号码。
附图和与它们相关的描述只是用于解释本发明。对本发明的不同变动和修改对于本领域的熟练技术人员来说都是显而易见的,均不脱离所附加的权利要求规定的本发明的精神和范围。

Claims (15)

1.一种在数据处理装置中为了压缩而对发音字典预处理的方法,该发音字典包括至少一个词条,该词条包括字符单元序列和音素单元序列,其特征在于该方法包括步骤:
使用统计算法排列所述字符单元序列和所述音素单元序列,使得所述字符单元序列和所述音素单元序列之间的排列被确定;和
通过在相对于对应字符单元的预定位置插入每一音素单元,将所述排列后的字符单元序列和所述排列后的音素单元序列交错。
2.根据权利要求1的方法,其特征在于,通过应用统计算法HMM-Viterbi算法确定所述排列。
3.根据权利要求1的方法,其特征在于,所述音素单元位于对应字符单元的相邻位置。
4.根据前述任一权利要求的方法,其特征在于,通过将字素ε插入到所述字符单元序列和/或将音素ε插入到所述音素单元序列,使得所述排列后的字符单元序列和所述排列后的音素单元序列包括相等数目的单元。
5.根据前述任一权利要求的方法,其特征在于所述字符单元是字母或空白字符。
6.根据前述任一权利要求的方法,其特征在于,所述音素单元是表示单个音素或ε音素的字母或空白字符,并且一个所述单元至少要用一个字符表示。
7.根据权利要求1的方法,其特征在于该方法包括步骤:将每一音素单元映射到一个符号。
8.一种电子装置,配置成将输入文本串转换成音素单元序列,其特征在于包括:
用于存储预处理过的包括词条的发音字典的装置,该词条包括第一单元集合和第二单元集合,第一单元集合包括字符单元,第二单元集合包括音素单元,其中对第一集合的单元和第二集合的单元进行排列,并通过在相对于对应字符单元的预定位置插入每一音素单元以将第一集合的单元和第二集合的单元交错;
利用所述词条的第一单元集合的预定位置,从所述预处理过的发音字典中为所述输入文本串查找匹配词条的装置;
用于根据预定位置从所述匹配词条中选择所述第二单元集合的音素单元,并将它们联结成音素单元序列的装置;和
用于从所述音素单元序列中删除空白的装置。
9.根据权利要求8的电子装置,其特征在于,所述电子装置是移动通信系统中的移动终端。
10.根据权利要求8的电子装置,其特征在于进一步包括:
用于将每一音索单元从第一音素表示方法映射到第二音素表示方法的装置。
11.一种电子装置,配置成将输入语音信息转换成字符单元序列,其特征在于包括:
用于存储预处理过的包括词条的发音字典的装置,该词条包括第一单元集合和第二单元集合,第一单元集合包括字符单元,第二单元集合包括音素单元,其中对第一集合的单元和第二集合的单元进行排列,并通过在相对于对应字符单元的预定位置插入每一音素单元以将第一集合的单元和第二集合的单元交错
用于存储和创建每一词条的音素表示的发音模型的装置;
通过将所述语音信息和所述发音模型进行比较并选择最一致的词条,从而为所述语音信息查找匹配词条的装置;
用于根据预定位置从所述匹配词条中选择所述第一单元集合的字符单元,并将它们联结成字符单元序列的装置;和
用于从所述字符单元序列中删除空白的装置。
12.一种包括第一电子装置和第二电子装置并且将它们设置成彼此通信连接的系统,,该系统被配置成将输入文本串转换成音素单元序列,其特征在于:
所述第一电子装置包括用于存储预处理过的包括词条的发音字典的装置,其中词条被排列并通过在相对于对应字符单元的预定位置插入每一音素单元而交错,该词条包括第一单元集合和第二单元集合。第一单元集合包括字符单元,第二单元集合包括音素单元;
所述第一电子装置包括利用所述词条的第一单元集合从所述预处理过的发音字典中为所述输入文本串查找匹配词条的装置;
所述第一电子装置包括用于传送所述匹配词条到第二电子装置的装置;
所述第二电子装置包括用于从第一电子装置接收所述匹配词条的装置;
所述第二电子装置包括用于从所述匹配词条中选择所述第二单元集合的单元并将它们联结成音素单元序列的装置;和
所述第二电子装置包括用于从所述音素单元序列中删除空白的装置。
13.一种可以装载到数据处理装置的存储器中的计算机程序产品,其特征在于包括可以在数据处理装置中执行、并使得数据处理装置进行如下操作的代码:
从存储器中检索出包括至少一个词条的发音字典,该词条包括字符单元序列和音素单元序列;
使用统计算法排列所述字符单元序列和所述音素单元序列;和
通过在相对于对应字符单元的预定位置插入每一音素单元,将所述排列后的字符单元序列和所述排列后的音素单元序列交错。
14.一种可以装载到电子装置的存储器中的计算机程序产品,其特征在于包括可以在该电子装置中执行、并使得电子装置进行如下操作的代码:
从存储器中检索出包括词条的预处理过的发音字典,该词条包括第一单元集合和第二单元集合,第一单元集合包括字符单元,第二单元集合包括音素单元,其中对第一单元集合和第二单元集合进行排列,并通过在相对于对应字符单元的预定位置插入每一音素单元以将第一单元集合和第二单元集合交错;
利用所述词条的第一单元集合的预定位置,从所述预处理过的发音字典中为输入文本串查找匹配词条,并且忽略空白;
根据预定位置从所述匹配词条中选择所述第二单元集合的单元,并将它们联结成音素单元序列;和
从所述音素单元序列中删除空白。
15.一种可以装载到电子装置的存储器中的计算机程序产品,其特征在于包括可以在该电子装置中执行、并使得电子装置进行如下操作的代码:
从存储器中检索出包括词条的预处理过的发音字典,该词条包括第一单元集合和第二单元集合,第一单元集合包括字符单元,第二单元集合包括音素单元,其中对第一单元集合和第二单元集合进行排列,并通过在相对于对应字符单元的预定位置插入每一音素单元以将第一单元集合和第二单元集合交错;
存储或创建每一词条的音素表示的发音模型;
通过将所述语音信息与所述发音模型比较并选择最一致的词条,为所述语音信息查找匹配词条;
根据预定位置从所述匹配词条中选择所述第一单元集合的单元,并将它们联结成字符单元序列,和
从所述字符单元序列中删除空白。
CNB028223683A 2001-11-12 2002-11-08 用于压缩字典数据的方法和装置 Expired - Fee Related CN1269102C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20012193A FI114051B (fi) 2001-11-12 2001-11-12 Menetelmä sanakirjatiedon kompressoimiseksi
FI20012193 2001-11-12

Publications (2)

Publication Number Publication Date
CN1585968A true CN1585968A (zh) 2005-02-23
CN1269102C CN1269102C (zh) 2006-08-09

Family

ID=8562237

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028223683A Expired - Fee Related CN1269102C (zh) 2001-11-12 2002-11-08 用于压缩字典数据的方法和装置

Country Status (12)

Country Link
US (2) US7181388B2 (zh)
EP (1) EP1444685B1 (zh)
JP (1) JP2005509905A (zh)
KR (1) KR100597110B1 (zh)
CN (1) CN1269102C (zh)
AT (1) ATE361523T1 (zh)
BR (1) BR0214042A (zh)
CA (1) CA2466652C (zh)
DE (1) DE60219943T2 (zh)
ES (1) ES2284932T3 (zh)
FI (1) FI114051B (zh)
WO (1) WO2003042973A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105340003A (zh) * 2013-06-20 2016-02-17 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
CN109982111A (zh) * 2017-12-28 2019-07-05 贵州白山云科技股份有限公司 文本内容传输优化方法及基于直播网络系统的文本内容传输优化方法、装置

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US8543378B1 (en) * 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US20050190895A1 (en) * 2004-03-01 2005-09-01 Lloyd Ploof Remotely programmable messaging apparatus and method thereof
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1994529B1 (en) * 2006-02-14 2011-12-07 Intellectual Ventures Fund 21 LLC Communication device having speaker independent speech recognition
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20090299731A1 (en) * 2007-03-12 2009-12-03 Mongoose Ventures Limited Aural similarity measuring system for text
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8078454B2 (en) * 2007-09-28 2011-12-13 Microsoft Corporation Two-pass hash extraction of text strings
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100082327A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for mapping phonemes for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US7872596B2 (en) * 2009-02-26 2011-01-18 Red Hat, Inc. Dictionary-based compression
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10387543B2 (en) * 2015-10-15 2019-08-20 Vkidz, Inc. Phoneme-to-grapheme mapping systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
CN113707137B (zh) * 2021-08-30 2024-02-20 普强时代(珠海横琴)信息技术有限公司 解码实现方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4759068A (en) 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US5845238A (en) * 1996-06-18 1998-12-01 Apple Computer, Inc. System and method for using a correspondence table to compress a pronunciation guide
US5861827A (en) * 1996-07-24 1999-01-19 Unisys Corporation Data compression and decompression system with immediate dictionary updating interleaved with string search
US5930754A (en) * 1997-06-13 1999-07-27 Motorola, Inc. Method, device and article of manufacture for neural-network based orthography-phonetics transformation
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US7080005B1 (en) * 1999-07-19 2006-07-18 Texas Instruments Incorporated Compact text-to-phone pronunciation dictionary
DE19942178C1 (de) * 1999-09-03 2001-01-25 Siemens Ag Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
US6789066B2 (en) * 2001-09-25 2004-09-07 Intel Corporation Phoneme-delta based speech compression

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105340003A (zh) * 2013-06-20 2016-02-17 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
CN105340003B (zh) * 2013-06-20 2019-04-05 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
CN109982111A (zh) * 2017-12-28 2019-07-05 贵州白山云科技股份有限公司 文本内容传输优化方法及基于直播网络系统的文本内容传输优化方法、装置

Also Published As

Publication number Publication date
BR0214042A (pt) 2004-10-13
US20030120482A1 (en) 2003-06-26
FI20012193A0 (fi) 2001-11-12
DE60219943T2 (de) 2008-01-17
US7181388B2 (en) 2007-02-20
KR20050044399A (ko) 2005-05-12
FI114051B (fi) 2004-07-30
US20070073541A1 (en) 2007-03-29
CN1269102C (zh) 2006-08-09
ES2284932T3 (es) 2007-11-16
CA2466652A1 (en) 2003-05-22
FI20012193A (fi) 2003-05-13
JP2005509905A (ja) 2005-04-14
KR100597110B1 (ko) 2006-07-04
ATE361523T1 (de) 2007-05-15
DE60219943D1 (de) 2007-06-14
EP1444685A1 (en) 2004-08-11
EP1444685B1 (en) 2007-05-02
CA2466652C (en) 2008-07-22
WO2003042973A1 (en) 2003-05-22

Similar Documents

Publication Publication Date Title
CN1269102C (zh) 用于压缩字典数据的方法和装置
CN1260704C (zh) 语音合成方法
EP1891545B1 (en) Compressing language models with golomb coding
US20080004865A1 (en) Method and apparatus for progressively selecting features from a large feature space in statistical modeling
US8019593B2 (en) Method and apparatus for generating features through logical and functional operations
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
CN1212601C (zh) 一种嵌入式语音合成方法及系统
CN1731511A (zh) 用于对多语言的姓名进行语音识别的方法和系统
CN115840799A (zh) 一种基于深度学习的知识产权综合管理系统
CN1190772C (zh) 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1190773C (zh) 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1284134C (zh) 一种语音识别系统
CN1298171A (zh) 执行句法置换规则的语音识别装置
CN1360301A (zh) 用于恶劣环境中的东方字词的混合键盘/语音识别技术
CN1259648C (zh) 语音识别系统
CN110428839B (zh) 一种基于语音识别的内容匹配方法
Islam et al. Short text compression for smart devices
Rajon et al. An Effective Approach for Compression of Bengali Text
CN1604185A (zh) 利用可变长子字的语音合成系统和方法
CN118014045A (zh) 一种强化向量检索能力的无监督预训练方法和系统
Meron et al. Compression of exception lexicons for small footprint grapheme-to-phoneme conversion
Rexline et al. Substitution coder—A reversible data transform for lossless text compression
KR20000020635A (ko) 메모리 저감을 위한 단어 인식기
CN1398395A (zh) 划分字为词的全局方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NOKIA (CHINA) INVESTMENT CO.,LTD.

Free format text: FORMER OWNER: NOKIA OY

Effective date: 20091211

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20091211

Address after: No. 5 East Ring Road, Beijing economic and Technological Development Zone

Patentee after: Nokia (China) Investment Co., Ltd.

Address before: Espoo, Finland

Patentee before: Nokia Oyj

ASS Succession or assignment of patent right

Owner name: NOKIA OY

Free format text: FORMER OWNER: NOKIA (CHINA) INVESTMENT CO., LTD.

Effective date: 20140415

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140415

Address after: Espoo, Finland

Patentee after: Nokia Oyj

Address before: 100176 No. 5 East Ring Road, Beijing economic and Technological Development Zone

Patentee before: NOKIA (CHINA) INVESTMENT CO., LTD.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160120

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060809

Termination date: 20161108