CN102201235A - 发音词典的构建方法和系统 - Google Patents
发音词典的构建方法和系统 Download PDFInfo
- Publication number
- CN102201235A CN102201235A CN2011100725356A CN201110072535A CN102201235A CN 102201235 A CN102201235 A CN 102201235A CN 2011100725356 A CN2011100725356 A CN 2011100725356A CN 201110072535 A CN201110072535 A CN 201110072535A CN 102201235 A CN102201235 A CN 102201235A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- word
- prediction
- phrase
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013507 mapping Methods 0.000 claims abstract description 72
- 230000008878 coupling Effects 0.000 claims description 73
- 238000010168 coupling process Methods 0.000 claims description 73
- 238000005859 coupling reaction Methods 0.000 claims description 73
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000013011 mating Effects 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000003760 hair shine Effects 0.000 claims 3
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 101100204301 Bacillus subtilis (strain 168) aprE gene Proteins 0.000 description 2
- 101100094447 Escherichia coli (strain K12) rssB gene Proteins 0.000 description 2
- 101100283301 Streptomyces griseus sprE gene Proteins 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明的实施方式公开了通过将未匹配条目变换成匹配条目来构建发音词典的系统和方法。未匹配条目和匹配条目包括单词集和与所述单词集相对应的发音集。该方法通过以下步骤将匹配条目中的各单词与发音子集匹配:确定各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;将各发音预测映射到所述发音子集,以产生与所述发音子集匹配的各发音预测的预测-发音映射;以及使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
Description
技术领域
本发明总体涉及自动语音识别(ASR:Automatic Speech Recognition),更具体地,涉及构建用于ASR的发音词典。
背景技术
信息检索(IR:Information Retrieval)系统通常包括诸如地理兴趣点(POI)或音乐专辑名称的项目的大列表。响应于由用户提供的查询,IR系统检索与查询最匹配的结果列表。可以根据多个因素对结果列表进行等级排序。项目输入列表、查询结果列表通常通过文本以单词的形式表示。
口语查询用于用户无法使用键盘作为用户接口的一部分的环境中,例如,当驾驶或操作机器时,或者用户身体上受到伤害。在该情况下,用户接口包括麦克风,并且自动语音识别器(ASR)用于将语音转换成单词。
ASR使用两个基础数据结构:单词的发音词典和单词的语言模型。通常,IR系统按照发音将单词表示为音素,例如,RESTAURANT被表示为“R EH S T R AAN T”。音素指的是具体语言中声音的基本单位。音素可以包括重音符号、音节边界和表示如何对单词进行发音的其他标音。
发音词典针对ASR系统词表中的各单词来限定用于该单词的一个或可能多个发音。要由IR系统检索的各个项目具有相应的发音。经常,使用单词数据库,来提供用于这些项目的发音。但是,在大多数情况下,发音词典是与图1中所示的类似的未匹配(unaligned)输入文件的形式。
输入文件包括一组条目110,其中各条目包括具有相应发音120的单词集115。但是,单词未与相应发音匹配。
常规方法通过以出现的顺序次序将各单词映射到各发音来执行匹配。对于图1中所示的示例,该方法将单词“HERITAGE”映射到发音“hE|rI|tIdZ”,将单词“ELEMENTARY”映射到发音“E|l@|mEn|t@|ri”,以及将单词“SCHOOL”映射到发音“skul.”。但是,该方法在一些诸如下面的重要情况中是失效的。
发音比单词多:在图1中的第二行,发音“bi”和“dZiz”必须映射到第一个单词“BG’S”。
单词比发音多:在第三行中,单词“CARRER”没有相应的发音并且应当使其保持不被映射。
错误条目:在第四行中,发音中的音节“bAr|b@|kju”已经被错误地合成为一个单词,而不是被留作三个单独的发音,以映射到单词“BAR B QUE”。
因此,需要提供用于将单词与发音匹配的方法,并且需要制作适用于输入到语音识别器的发音词典。
发明内容
主题发明的目的是提供了一种用于将单词匹配到发音,以制作发音词典的方法。
本发明的另一个目的是提供自动匹配单词的方法。
本发明的另一个目的是制作适用于输入到自动语音识别器的最终发音词典。
本发明的实施方式基于这样的认识:单词的拼写表示与相应的发音形式明显不同,这导致了映射错误。因此,实施方式不是直接将单词映射到发音而是确定各单词的发音预测,使得在单词和发音预测之间存在一一对应关系,并且接着,将发音预测映射到发音。实施方式利用另一个认识:两个语音形式之间的映射比拼写形式和语音形式之间的映射更精确。
一种实施方式公开了一种通过将未匹配条目变换成匹配条目来构建发音词典的方法,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配,该方法包括以下步骤:确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;将各发音预测映射到所述发音子集,以产生与所述发音子集匹配的各发音预测的预测-发音映射;以及使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
另一个实施方式公开了一种根据未匹配条目集来构建发音词典的方法,其中,未匹配条目包括单词集和与所述单词集相对应的发音集,该方法包括以下步骤:将各未匹配条目迭代地变换成匹配条目,其中,所述匹配条目中的各单词与所述发音集中的发音子集相匹配;将各匹配条目存储在内部词典中;以及输出所述内部词典作为所述发音词典,其中,所述方法的步骤由处理器来执行。
另一个实施方式公开了一种通过将未匹配条目变换成匹配条目来构建发音词典的系统,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集的发音子集匹配,该系统包括:发音预测子模块,该发音预测子模块用于确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;动态编程子模块,该动态编程子模块用于将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集匹配的预测-发音映射;以及处理器,该处理器被构成为使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
附图说明
图1是包括未匹配条目的常规输入文件的框图;
图2是根据本发明的实施方式的用于将未匹配条目变换成匹配条目的方法的流程图;
图3是与图1中所示的未匹配条目相对应的匹配条目的表;
图4是根据本发明的一个实施方式的用于确定发音词典的方法的流程图;
图5是根据本发明的一个实施方式的变换模块的流程图;
图6A-6B是未匹配条目的表;
图7A-7B是单词的发音预测的表;
图8A-8B是发音和音节的表;
图9A-9B是片语(chunk)和语符列(string)组织的示例的框图;
图10是根据本发明的实施方式的示例性动态编程产生的匹配路径的图;
图11是根据本发明的实施方式的A-字母-B-片语映射表;
图12是根据本发明的实施方式的分解A-字母-B-片语映射的流程图;
图13A-13B是单词和匹配音节的表;
图14A-14B是未删节词典和已删节词典的示例;以及
图15是根据本发明的一个实施方式的用于确定匹配路径的伪代码。
具体实施方式
系统概述
本发明的实施方式基于这样的认识:单词的拼写表示与相应的发音形式明显不同,这导致了将单词映射到发音时的错误。因此,在实施方式中,不是直接将单词映射到发音,而是针对各单词确定发音预测,使得在单词和发音预测之间存在一一对应关系,并且接着,将发音预测映射到发音。实施方式利用了另一个认识:两个语音形式之间的映射比拼写形式和语音形式之间的映射更精确。
图2示出了根据本发明的实施方式的用于将未匹配条目210变换成匹配条目220的方法。使用现有技术中已知的处理器201通过变换模块200来执行该方法。未匹配条目包括单词集212和与该单词集相对应216的发音集214。但是,未匹配条目中的单词和发音不匹配。如文中所限定的,如果该单词集中的各单词映射到该发音集中的发音子集,则该单词集被匹配到该发音集。在多个实施方式中,发音子集包括零个或更多个发音。
图3示出了与图1中所示的未匹配条目的示例相对应的匹配条目220的示例。左手列301中的单词与来自右手列302的发音匹配。在本发明的多个实施方式中,未匹配条目包括相同或不同数目的单词和发音。
根据上述目的,针对该单词集中的各单词,确定230发音预测235,使得在单词和发音预测之间存在一一对应关系。将各发音预测映射240到发音子集,制作使各发音预测与发音子集匹配的预测-发音映射245。基于一一对应关系255,根据发音预测-发音映射确定250匹配条目,使得匹配条目中的单词被匹配225到发音。匹配条目中的单词与未匹配条目中的单词相同。但是,匹配条目中的发音可以与未匹配条目中的发音不同。在多个实施方式中,如下面更详细地所述,发音被分成更小成分(如,音节),由此被重新排列。
确定发音词典
图4示出了根据本发明的一个实施方式的用于构建发音词典470的方法400。该方法在存储器(未示出)中存储的一组未匹配条目410的范围内迭代。各未匹配条目210由变换模块200变换成匹配条目220。匹配条目在迭代460过程中被添加430到由该方法维持的内部词典435。当440所有未匹配条目被变换445时,输出内部词典,作为发音词典470。在一个实施方式中,在输出之前,删节模块450对内部词典进行删节,使得去除具有低准确度的单词发音映射。
图5示出了变换模块的示例。在一个实施方式中,变换模块包括发音预测子模块510、音节划分子模块520、动态编程(DP)子模块530和编辑距离(ED)子模块540。用下面的示例例示出变换模块的操作。
图6B示出了未匹配条目的示例。未匹配条目中的单词是“New York NY Exspresso”,并且相应的发音是“nujOrk nujOrk Ek|sprE|so”。在该示例中,发音数目大于单词数目。
图6A示出了以符号写出的如图6B中的示例,其中,发音Pi被表示为音节SjSk的联结。变量i是发音在该发音集中的索引,并且变量j和k是发音音节的索引。
发音预测子模块
发音预测子模块针对未匹配条目中的各单词进行发音预测。在多个实施方式中,从多个源中的至少一个源导出发音预测。第一源是内部词典435。发音预测子模块确定该单词的单词发音映射是否存在于内部词典中,并且选择频率最高的单词发音作为该单词的发音预测。为此,一个实施方式包括频率计数c(w,p),频率计数表示单词发音映射到目前为止已经出现的次数。如果发音被选择为发音预测,则该单词发音映射的频率计数增加例如,1。
附加地或者另选地,一个实施方式使用字素-音素(G2P)引擎550来确定单词的发音预测。当很少出现该单词时,和/或在变换200开始时,该实施方式是有益的。例如,一个实施方式使用推导G2P引擎550,其是在RWTH Aachen University-Department of Computer Science开发的数据驱动字素-音素转换器,参见M.Bisani和H.Ney.“Joint-Sequence Models for Grapheme-to-Phoneme Conversion,”Speech Communication,第50卷,2008年5月5日发表,第434-451页,此处以引证方式并入。
附加地或另选地,一个实施方式使用单词的拼写形式作为该单词的发音预测。图7A和7B示出了发音预测的示例。
音节划分子模块
音节划分子模块520将未匹配条目中的发音组织为单个音节。音节划分说明了错误条目的问题,即,发音音节被错误地合并成一个单词。将发音组织成音节使得能够重新匹配发音,以校正该问题。
在一个实施方式中,发音是由联结符号(如,“|”)分开的联结音节,并且音节划分子模块用空格替换联结符号。附加地或另选地,单独的音节划分产品用于音节划分。例如,一个实施方式使用由国家标准与技术研究院(NIST:National Institute of Standards and Technology)开发的音节划分工具。图8A和8B示出了音节划分的示例。
动态编程子模块
仅作为术语,各发音的音节被称为A-片语。类似地,发音预测被称为B-片语。A-片语和B-片语的联结被分别称为由A-字母形成的A-语符列和由B-字母形成的B-语符列。图9A示出了A-片语910和B-片语920的示例。图9B示出了A-语符列930和B-语符列940的示例。
动态编程子模块确定具有A-语符列中字母和B-语符列中字母之间的最小编辑距离的匹配路径。两个语符列之间的该编辑距离(还被称为Levenshtein(来文史)距离)被定义为利用每次对单个符号进行插入、删除或替换的允许的编辑操作将第一语符列变换成第二语符列所需的编辑操作的最小数目。
通过由动态编程子模块采用的动态编程来确定编辑距离。如果符号序列的长度分别是n和m,则动态编程涉及确定条目的矩阵尺寸n×m。动态编程子模块基于最小的插入、删除和替换成本,以递归的方式确定矩阵中的各元素。确定矩阵中的所有元素之后,矩阵中的最右下元素是两个语符列之间的编辑距离。在多个实施方式中,插入、删除和替换的成本是相同的或不同的。
图10示出了具有A-语符列930和B-语符列940之间的最小编辑距离的匹配路径。由星号1010来标记匹配路径。为了确定匹配路径,动态编程子模块保持使矩阵中各点的匹配成本最小化的元素的轨迹,即,代表插入、删除或替换成本的元素。例如,一个实施方式确定两个矩阵,即,表示成本的成本矩阵,和表示使成本最小化的元素的索引的索引矩阵。
确定矩阵的所有元素之后,顺着元素的索引,回溯从索引矩阵中的最右下元素开始的路径,以识别语符列之间的匹配路径。星号1010是沿着匹配路径的点。
当索引矩阵中的元素代表删除时,两个星号1015并排水平放置在匹配路径上。参照图10,这两个星号表示语符列930中的元素j和j+1这两者被映射到语符列940中的元素i,即,根据语符列之间的映射删除元素j。
当索引矩阵中的元素表示插入时,两个星号1025并排垂直放置在匹配路径上。这两个星号表示语符列930中的元素j被映射到语符列940中的元素i和i+1,即,在语符列之间的映射中元素j被插入两次。
当索引矩阵中的元素表示替换时,两个星号1035并排对角放置在匹配路径上。这两个星号表示语符列930中的元素j被映射到语符列940中的元素i,并且元素j+1被映射到元素i+1。图15示出了根据本发明的一个实施方式的用于确定匹配路径的伪代码。
编辑距离子模块
编辑距离子模块在B-片语和A-片语中产生一对一映射。基于由动态编程子模块提供的匹配路径来产生映射。初始地,生成A-字母-B-片语映射,其针对各A-语序列字母或B-语序列字母识别该字母属于的相应A-片语或B-片语。例如,如在图10中所示,A-字母/N/映射到B-片语1,A-字母/u/映射到B-片语1,A-字母/j/映射到B-片语2,等。但是,在某些情况下,动态编程将一个A-字母映射到多个B-片语。例如,A-字母/k/被映射到B-片语2和B-片语3。
基于A-字母到B-片语映射,确定A-片语-B-片语映射,如图11所示。如下确定A-片语-B-片语映射:如果一个A-片语中的所有字母都被映射到一个B-片语,则A-片语被映射到相应B-片语。例如,A-片语1被映射到B-片语1。如果A-片语中的字母映射到多个B-片语,则A-片语映射到多个B-片语。例如,A-片语2被映射到B-片语2且被映射到B-片语3。
如果A-字母到B-片语映射是一对一片语映射,即,各A-片语映射到多于一个B-片语,则形成预测-发音映射245,并且基于该映射确定匹配条目。但是,如果至少一个A-片语映射到多个B-片语,即,一对多片语映射,如图11,则A-字母-B-片语映射需要被分解为一对一片语映射。
一个实施方式通过确定由一对多片语映射允许的A-片语-B-片语映射的一对一片语映射的笛卡尔积、计算各一对一片语映射的累计编辑距离、以及选择具有最小累计编辑距离的一对一片语映射,来分解A-字母-B-片语映射。
图12示出了用于分解A-字母-B-片语映射的方法,其中,A-字母-B-片语映射是一对多片语映射。对于各一对一片语映射1210-1240,确定映射后的A-片语和B-片语之间的编辑距离并且进行加和,以产生累计编辑距离1215-1245。具有最小1250值的累计编辑分数1260确定了分解后的A-片语-B-片语映射。在该示例中,因为映射1210具有最低累计编辑分数,即,7,因此映射1210被选择为分解后的映射。
图13A-13B示出了由变换模块输出的匹配条目的示例。变换模块具有与发音“nu”匹配的单词“New”,与发音“jOrk”匹配的单词“York”,与发音“nu|jOrk”匹配的单词“NY”,与发音“Ek|sprE|so”匹配的单词“Exspresso”。
删节模块
删节模块450对内部词典进行删节,使得去除具有低精确度的单词-发音映射。一个实施方式基于上述频率计数c(w,p)来删节单词-发音映射。通过根据下式除以为具有所有其他发音q的单词w而确定的所有频率计数和,各频率计数c(w,p)被转换成单词w映射到发音p的概率P(w,p)
从内部词典(因此,从发音词典)去除概率P在特定阈值之下的单词-发音映射。图14A-14B示出了删节的示例。
尽管以优选实施方式的示例的方式已经描述了本发明,但是应理解的是,可以在本发明的精神和范围之内做出多种其他改写和修改。因此,所附权利要求书旨在覆盖所有落入本发明的真实精神和范围之内的变型和修改。
Claims (20)
1.一种通过将未匹配条目变换成匹配条目来构建发音词典的方法,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配,该方法包括以下步骤:
确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;
将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集相匹配的预测-发音映射;以及
使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目,其中,该方法的步骤由处理器执行。
2.根据权利要求1所述的方法,其中,所述发音和预测被表示为音节的联结,所述方法还包括以下步骤:
联结所述发音集中的发音的音节形成A-语符列,其中,发音的所述音节形成A-片语;
联结所述发音预测的音节形成B-语符列,其中,所述发音预测的所述音节形成B-片语;
确定所述A-语符列中字母和所述B-语符列中字母之间的匹配路径;
基于所述匹配路径来确定A-片语-B-片语映射;以及
基于所述A-片语-B-片语映射来确定所述预测-发音映射。
3.根据权利要求2所述的方法,其中,所述A-片语-B-片语映射是一对一片语映射。
4.根据权利要求2所述的方法,其中,所述A-片语-B-片语映射是一对多片语映射,该方法还包括以下步骤:
将所述A-片语-B-片语映射分解成一对一片语映射。
5.根据权利要求4所述的方法,其中,所述分解步骤还包括以下步骤:
确定所述一对多片语映射所允许的A-片语-B-片语映射的一对一片语映射的笛卡尔积;
计算各一对一片语映射的累计编辑距离;以及
选择具有最小累计编辑距离的所述一对一片语映射。
6.根据权利要求5所述的方法,所述方法还包括以下步骤:
确定各一对一片语映射中的各映射的编辑距离,以产生各一对一片语映射的编辑距离;以及
通过将各一对一片语映射的所述编辑距离进行相加,来确定所述累计编辑距离。
7.根据权利要求1所述的方法,该方法还包括以下步骤:
从内部词典中选择所述发音预测。
8.根据权利要求1所述的方法,该方法还包括以下步骤:
使用字素-音素转换器来确定所述发音预测。
9.根据权利要求1所述的方法,该方法还包括以下步骤:
选择所述单词的拼写形式作为该单词的所述发音预测。
10.根据权利要求2所述的方法,该方法还包括以下步骤:
确定表示所述A-语符列中的字母和所述B-语符列中的字母之间的插入、删除和替换成本的成本矩阵;
确定表示使所述成本最小化的元素的索引的索引矩阵;以及
基于所述索引矩阵来确定所述匹配路径。
11.根据权利要求10所述的方法,其中,所述匹配路径是从所述索引矩阵中的最右下元素开始并且顺着使所述成本最小化的元素的索引而回溯的路径。
12.根据权利要求11所述的方法,其中,所述索引矩阵中的元素表示所述删除的成本,该方法还包括以下步骤:
将两个星号水平并排放置在所述匹配路径上。
13.根据权利要求11所述的方法,其中,所述索引矩阵中的元素表示所述插入的成本,该方法还包括以下步骤:
将两个星号竖直并排放置在所述匹配路径上。
14.根据权利要求11所述的方法,其中,所述索引矩阵中的元素表示所述替换的成本,该方法还包括以下步骤:
将两个星号对角地并排放置在所述匹配路径上。
15.根据权利要求1所述的方法,其中,所述匹配条目包括单词-发音映射集,该方法还包括以下步骤:
去除概率在阈值之下的单词-发音映射。
16.根据权利要求15所述的方法,该方法还包括以下步骤:
确定所述单词集中的各单词的频率计数c(w,p),其中,所述频率计数表示单词w和发音p之间的映射次数;
基于所述频率计数c(w,p)和具有发音q的单词的频率计数,根据下式来确定所述单词w和所述发音p之间的单词-发音映射的概率P(w,p):
17.一种用于根据未匹配条目集来构建发音词典的方法,其中,未匹配条目包括单词集和与所述单词集相对应的发音集,该方法包括以下步骤:
将各未匹配条目迭代地变换成匹配条目,其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配;
将各匹配条目存储在内部词典中;以及
输出所述内部词典作为所述发音词典,其中,该方法的步骤由处理器执行。
18.根据权利要求17所述的方法,其中,所述变换还包括以下步骤:
确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;
将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集相匹配的预测-发音映射;以及
使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
19.根据权利要求17所述的方法,其中,所述匹配条目包括单词-发音映射集,该方法还包括以下步骤:
去除概率在阈值之下的单词-发音映射。
20.一种用于通过将未匹配条目变换成匹配条目来构建发音词典的系统,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配,该系统包括:
发音预测子模块,该发音预测子模块用于确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;
动态编程子模块,该动态编程子模块用于将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集匹配的预测-发音映射;以及
处理器,该处理器被构成为使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/732,231 US20110238412A1 (en) | 2010-03-26 | 2010-03-26 | Method for Constructing Pronunciation Dictionaries |
US12/732,231 | 2010-03-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102201235A true CN102201235A (zh) | 2011-09-28 |
Family
ID=44169030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100725356A Pending CN102201235A (zh) | 2010-03-26 | 2011-03-24 | 发音词典的构建方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110238412A1 (zh) |
EP (1) | EP2378514A1 (zh) |
JP (1) | JP2011209704A (zh) |
CN (1) | CN102201235A (zh) |
Cited By (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014117645A1 (zh) * | 2013-01-29 | 2014-08-07 | 华为终端有限公司 | 信息的识别方法和装置 |
CN104246872A (zh) * | 2012-04-16 | 2014-12-24 | 株式会社电装 | 声音识别装置 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN106663427A (zh) * | 2014-09-30 | 2017-05-10 | 苹果公司 | 用于服务语音发音的高速缓存设备 |
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
WO2017114172A1 (zh) * | 2015-12-29 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN110019667A (zh) * | 2017-10-20 | 2019-07-16 | 沪江教育科技(上海)股份有限公司 | 一种基于语音输入信息的查词方法及装置 |
CN110781270A (zh) * | 2018-07-13 | 2020-02-11 | 北京搜狗科技发展有限公司 | 一种解码网络中非关键词模型的构建方法和装置 |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
CN113257234A (zh) * | 2021-04-15 | 2021-08-13 | 北京百度网讯科技有限公司 | 生成词典与语音识别的方法、装置 |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016029045A2 (en) * | 2014-08-21 | 2016-02-25 | Jobu Productions | Lexical dialect analysis system |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
US9747891B1 (en) * | 2016-05-18 | 2017-08-29 | International Business Machines Corporation | Name pronunciation recommendation |
WO2019014183A1 (en) * | 2017-07-10 | 2019-01-17 | Vox Frontera, Inc. | AUTOMATIC SPEECH RECOGNITION BASED ON SYLLABE |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN113838479B (zh) * | 2021-10-27 | 2023-10-24 | 海信集团控股股份有限公司 | 单词发音评测方法、服务器及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1233803A (zh) * | 1998-04-29 | 1999-11-03 | 松下电器产业株式会社 | 利用判定树生成拼写单词的发音和对其评分的方法和设备 |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
CN101645270A (zh) * | 2008-12-12 | 2010-02-10 | 中国科学院声学研究所 | 一种双向语音识别处理系统及方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7080005B1 (en) * | 1999-07-19 | 2006-07-18 | Texas Instruments Incorporated | Compact text-to-phone pronunciation dictionary |
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
US7146319B2 (en) * | 2003-03-31 | 2006-12-05 | Novauris Technologies Ltd. | Phonetically based speech recognition system and method |
JP2007047412A (ja) * | 2005-08-09 | 2007-02-22 | Toshiba Corp | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 |
EP2135231A4 (en) * | 2007-03-01 | 2014-10-15 | Adapx Inc | SYSTEM AND METHOD FOR DYNAMIC LEARNING |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
US20090240501A1 (en) * | 2008-03-19 | 2009-09-24 | Microsoft Corporation | Automatically generating new words for letter-to-sound conversion |
-
2010
- 2010-03-26 US US12/732,231 patent/US20110238412A1/en not_active Abandoned
-
2011
- 2011-03-03 JP JP2011046186A patent/JP2011209704A/ja not_active Withdrawn
- 2011-03-24 EP EP11002457A patent/EP2378514A1/en not_active Withdrawn
- 2011-03-24 CN CN2011100725356A patent/CN102201235A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1233803A (zh) * | 1998-04-29 | 1999-11-03 | 松下电器产业株式会社 | 利用判定树生成拼写单词的发音和对其评分的方法和设备 |
US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
CN101645270A (zh) * | 2008-12-12 | 2010-02-10 | 中国科学院声学研究所 | 一种双向语音识别处理系统及方法 |
Non-Patent Citations (2)
Title |
---|
CHAROENPORNSAWAT ET AL: "Example-Based Grapheme-to-Phoneme Conversion for Thai", 《INTERSPEECH 2006》 * |
FUNG ET AL: "Pronunciation modeling of Mandarin Casual speech", 《FINAL REPORT AT THE WS00 OF JOHNS HOPKINGS SUMMER WORKSHOP》 * |
Cited By (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
CN104246872A (zh) * | 2012-04-16 | 2014-12-24 | 株式会社电装 | 声音识别装置 |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9390711B2 (en) | 2013-01-29 | 2016-07-12 | Huawei Device Co., Ltd. | Information recognition method and apparatus |
WO2014117645A1 (zh) * | 2013-01-29 | 2014-08-07 | 华为终端有限公司 | 信息的识别方法和装置 |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US12073147B2 (en) | 2013-06-09 | 2024-08-27 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105340004B (zh) * | 2013-06-28 | 2019-09-10 | 谷歌有限责任公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN106663427B (zh) * | 2014-09-30 | 2019-06-28 | 苹果公司 | 用于服务语音发音的高速缓存设备 |
CN106663427A (zh) * | 2014-09-30 | 2017-05-10 | 苹果公司 | 用于服务语音发音的高速缓存设备 |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017114172A1 (zh) * | 2015-12-29 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
CN110019667A (zh) * | 2017-10-20 | 2019-07-16 | 沪江教育科技(上海)股份有限公司 | 一种基于语音输入信息的查词方法及装置 |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US12080287B2 (en) | 2018-06-01 | 2024-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
CN110781270A (zh) * | 2018-07-13 | 2020-02-11 | 北京搜狗科技发展有限公司 | 一种解码网络中非关键词模型的构建方法和装置 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN113257234A (zh) * | 2021-04-15 | 2021-08-13 | 北京百度网讯科技有限公司 | 生成词典与语音识别的方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2378514A1 (en) | 2011-10-19 |
US20110238412A1 (en) | 2011-09-29 |
JP2011209704A (ja) | 2011-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102201235A (zh) | 发音词典的构建方法和系统 | |
KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
Kirchhoff et al. | Novel approaches to Arabic speech recognition: report from the 2002 Johns-Hopkins summer workshop | |
Issar | Estimation of language models for new spoken language applications | |
US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
US7606710B2 (en) | Method for text-to-pronunciation conversion | |
Jung et al. | An english to korean transliteration model of extended markov window | |
EP1623412B1 (en) | Method for statistical language modeling in speech recognition | |
CN101447184A (zh) | 基于音素混淆的中英文双语语音识别方法 | |
EP2595144B1 (en) | Voice data retrieval system and program product therefor | |
CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
CN1731511A (zh) | 用于对多语言的姓名进行语音识别的方法和系统 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
US20020040296A1 (en) | Phoneme assigning method | |
CN101937450B (zh) | 在由粒子表示的信息检索数据库中进行条目检索的方法 | |
Punchimudiyanse et al. | Unicode sinhala and phonetic english bi-directional conversion for sinhala speech recognizer | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
Jannedy et al. | Name pronunciation in German text-to-speech synthesis | |
US8229965B2 (en) | System and method for maximizing edit distances between particles | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
KR20100067727A (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 | |
Schaden | CrossTowns: Automatically Generated Phonetic Lexicons of Cross-lingual Pronunciation Variants of European City Names. | |
Klaithin et al. | LEXiTRON-Pro Editor: An integrated tool for developing Thai pronunciation dictionary | |
CN1979637A (zh) | 文字转音标的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110928 |