CN102201235A - 发音词典的构建方法和系统 - Google Patents

发音词典的构建方法和系统 Download PDF

Info

Publication number
CN102201235A
CN102201235A CN2011100725356A CN201110072535A CN102201235A CN 102201235 A CN102201235 A CN 102201235A CN 2011100725356 A CN2011100725356 A CN 2011100725356A CN 201110072535 A CN201110072535 A CN 201110072535A CN 102201235 A CN102201235 A CN 102201235A
Authority
CN
China
Prior art keywords
pronunciation
word
prediction
phrase
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100725356A
Other languages
English (en)
Inventor
安东尼·伊扎特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN102201235A publication Critical patent/CN102201235A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明的实施方式公开了通过将未匹配条目变换成匹配条目来构建发音词典的系统和方法。未匹配条目和匹配条目包括单词集和与所述单词集相对应的发音集。该方法通过以下步骤将匹配条目中的各单词与发音子集匹配:确定各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;将各发音预测映射到所述发音子集,以产生与所述发音子集匹配的各发音预测的预测-发音映射;以及使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。

Description

发音词典的构建方法和系统
技术领域
本发明总体涉及自动语音识别(ASR:Automatic Speech Recognition),更具体地,涉及构建用于ASR的发音词典。
背景技术
信息检索(IR:Information Retrieval)系统通常包括诸如地理兴趣点(POI)或音乐专辑名称的项目的大列表。响应于由用户提供的查询,IR系统检索与查询最匹配的结果列表。可以根据多个因素对结果列表进行等级排序。项目输入列表、查询结果列表通常通过文本以单词的形式表示。
口语查询用于用户无法使用键盘作为用户接口的一部分的环境中,例如,当驾驶或操作机器时,或者用户身体上受到伤害。在该情况下,用户接口包括麦克风,并且自动语音识别器(ASR)用于将语音转换成单词。
ASR使用两个基础数据结构:单词的发音词典和单词的语言模型。通常,IR系统按照发音将单词表示为音素,例如,RESTAURANT被表示为“R EH S T R AAN T”。音素指的是具体语言中声音的基本单位。音素可以包括重音符号、音节边界和表示如何对单词进行发音的其他标音。
发音词典针对ASR系统词表中的各单词来限定用于该单词的一个或可能多个发音。要由IR系统检索的各个项目具有相应的发音。经常,使用单词数据库,来提供用于这些项目的发音。但是,在大多数情况下,发音词典是与图1中所示的类似的未匹配(unaligned)输入文件的形式。
输入文件包括一组条目110,其中各条目包括具有相应发音120的单词集115。但是,单词未与相应发音匹配。
常规方法通过以出现的顺序次序将各单词映射到各发音来执行匹配。对于图1中所示的示例,该方法将单词“HERITAGE”映射到发音“hE|rI|tIdZ”,将单词“ELEMENTARY”映射到发音“E|l@|mEn|t@|ri”,以及将单词“SCHOOL”映射到发音“skul.”。但是,该方法在一些诸如下面的重要情况中是失效的。
发音比单词多:在图1中的第二行,发音“bi”和“dZiz”必须映射到第一个单词“BG’S”。
单词比发音多:在第三行中,单词“CARRER”没有相应的发音并且应当使其保持不被映射。
错误条目:在第四行中,发音中的音节“bAr|b@|kju”已经被错误地合成为一个单词,而不是被留作三个单独的发音,以映射到单词“BAR B QUE”。
因此,需要提供用于将单词与发音匹配的方法,并且需要制作适用于输入到语音识别器的发音词典。
发明内容
主题发明的目的是提供了一种用于将单词匹配到发音,以制作发音词典的方法。
本发明的另一个目的是提供自动匹配单词的方法。
本发明的另一个目的是制作适用于输入到自动语音识别器的最终发音词典。
本发明的实施方式基于这样的认识:单词的拼写表示与相应的发音形式明显不同,这导致了映射错误。因此,实施方式不是直接将单词映射到发音而是确定各单词的发音预测,使得在单词和发音预测之间存在一一对应关系,并且接着,将发音预测映射到发音。实施方式利用另一个认识:两个语音形式之间的映射比拼写形式和语音形式之间的映射更精确。
一种实施方式公开了一种通过将未匹配条目变换成匹配条目来构建发音词典的方法,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配,该方法包括以下步骤:确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;将各发音预测映射到所述发音子集,以产生与所述发音子集匹配的各发音预测的预测-发音映射;以及使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
另一个实施方式公开了一种根据未匹配条目集来构建发音词典的方法,其中,未匹配条目包括单词集和与所述单词集相对应的发音集,该方法包括以下步骤:将各未匹配条目迭代地变换成匹配条目,其中,所述匹配条目中的各单词与所述发音集中的发音子集相匹配;将各匹配条目存储在内部词典中;以及输出所述内部词典作为所述发音词典,其中,所述方法的步骤由处理器来执行。
另一个实施方式公开了一种通过将未匹配条目变换成匹配条目来构建发音词典的系统,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集的发音子集匹配,该系统包括:发音预测子模块,该发音预测子模块用于确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;动态编程子模块,该动态编程子模块用于将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集匹配的预测-发音映射;以及处理器,该处理器被构成为使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
附图说明
图1是包括未匹配条目的常规输入文件的框图;
图2是根据本发明的实施方式的用于将未匹配条目变换成匹配条目的方法的流程图;
图3是与图1中所示的未匹配条目相对应的匹配条目的表;
图4是根据本发明的一个实施方式的用于确定发音词典的方法的流程图;
图5是根据本发明的一个实施方式的变换模块的流程图;
图6A-6B是未匹配条目的表;
图7A-7B是单词的发音预测的表;
图8A-8B是发音和音节的表;
图9A-9B是片语(chunk)和语符列(string)组织的示例的框图;
图10是根据本发明的实施方式的示例性动态编程产生的匹配路径的图;
图11是根据本发明的实施方式的A-字母-B-片语映射表;
图12是根据本发明的实施方式的分解A-字母-B-片语映射的流程图;
图13A-13B是单词和匹配音节的表;
图14A-14B是未删节词典和已删节词典的示例;以及
图15是根据本发明的一个实施方式的用于确定匹配路径的伪代码。
具体实施方式
系统概述
本发明的实施方式基于这样的认识:单词的拼写表示与相应的发音形式明显不同,这导致了将单词映射到发音时的错误。因此,在实施方式中,不是直接将单词映射到发音,而是针对各单词确定发音预测,使得在单词和发音预测之间存在一一对应关系,并且接着,将发音预测映射到发音。实施方式利用了另一个认识:两个语音形式之间的映射比拼写形式和语音形式之间的映射更精确。
图2示出了根据本发明的实施方式的用于将未匹配条目210变换成匹配条目220的方法。使用现有技术中已知的处理器201通过变换模块200来执行该方法。未匹配条目包括单词集212和与该单词集相对应216的发音集214。但是,未匹配条目中的单词和发音不匹配。如文中所限定的,如果该单词集中的各单词映射到该发音集中的发音子集,则该单词集被匹配到该发音集。在多个实施方式中,发音子集包括零个或更多个发音。
图3示出了与图1中所示的未匹配条目的示例相对应的匹配条目220的示例。左手列301中的单词与来自右手列302的发音匹配。在本发明的多个实施方式中,未匹配条目包括相同或不同数目的单词和发音。
根据上述目的,针对该单词集中的各单词,确定230发音预测235,使得在单词和发音预测之间存在一一对应关系。将各发音预测映射240到发音子集,制作使各发音预测与发音子集匹配的预测-发音映射245。基于一一对应关系255,根据发音预测-发音映射确定250匹配条目,使得匹配条目中的单词被匹配225到发音。匹配条目中的单词与未匹配条目中的单词相同。但是,匹配条目中的发音可以与未匹配条目中的发音不同。在多个实施方式中,如下面更详细地所述,发音被分成更小成分(如,音节),由此被重新排列。
确定发音词典
图4示出了根据本发明的一个实施方式的用于构建发音词典470的方法400。该方法在存储器(未示出)中存储的一组未匹配条目410的范围内迭代。各未匹配条目210由变换模块200变换成匹配条目220。匹配条目在迭代460过程中被添加430到由该方法维持的内部词典435。当440所有未匹配条目被变换445时,输出内部词典,作为发音词典470。在一个实施方式中,在输出之前,删节模块450对内部词典进行删节,使得去除具有低准确度的单词发音映射。
图5示出了变换模块的示例。在一个实施方式中,变换模块包括发音预测子模块510、音节划分子模块520、动态编程(DP)子模块530和编辑距离(ED)子模块540。用下面的示例例示出变换模块的操作。
图6B示出了未匹配条目的示例。未匹配条目中的单词是“New York NY Exspresso”,并且相应的发音是“nujOrk nujOrk Ek|sprE|so”。在该示例中,发音数目大于单词数目。
图6A示出了以符号写出的如图6B中的示例,其中,发音Pi被表示为音节SjSk的联结。变量i是发音在该发音集中的索引,并且变量j和k是发音音节的索引。
发音预测子模块
发音预测子模块针对未匹配条目中的各单词进行发音预测。在多个实施方式中,从多个源中的至少一个源导出发音预测。第一源是内部词典435。发音预测子模块确定该单词的单词发音映射是否存在于内部词典中,并且选择频率最高的单词发音作为该单词的发音预测。为此,一个实施方式包括频率计数c(w,p),频率计数表示单词发音映射到目前为止已经出现的次数。如果发音被选择为发音预测,则该单词发音映射的频率计数增加例如,1。
附加地或者另选地,一个实施方式使用字素-音素(G2P)引擎550来确定单词的发音预测。当很少出现该单词时,和/或在变换200开始时,该实施方式是有益的。例如,一个实施方式使用推导G2P引擎550,其是在RWTH Aachen University-Department of Computer Science开发的数据驱动字素-音素转换器,参见M.Bisani和H.Ney.“Joint-Sequence Models for Grapheme-to-Phoneme Conversion,”Speech Communication,第50卷,2008年5月5日发表,第434-451页,此处以引证方式并入。
附加地或另选地,一个实施方式使用单词的拼写形式作为该单词的发音预测。图7A和7B示出了发音预测的示例。
音节划分子模块
音节划分子模块520将未匹配条目中的发音组织为单个音节。音节划分说明了错误条目的问题,即,发音音节被错误地合并成一个单词。将发音组织成音节使得能够重新匹配发音,以校正该问题。
在一个实施方式中,发音是由联结符号(如,“|”)分开的联结音节,并且音节划分子模块用空格替换联结符号。附加地或另选地,单独的音节划分产品用于音节划分。例如,一个实施方式使用由国家标准与技术研究院(NIST:National Institute of Standards and Technology)开发的音节划分工具。图8A和8B示出了音节划分的示例。
动态编程子模块
仅作为术语,各发音的音节被称为A-片语。类似地,发音预测被称为B-片语。A-片语和B-片语的联结被分别称为由A-字母形成的A-语符列和由B-字母形成的B-语符列。图9A示出了A-片语910和B-片语920的示例。图9B示出了A-语符列930和B-语符列940的示例。
动态编程子模块确定具有A-语符列中字母和B-语符列中字母之间的最小编辑距离的匹配路径。两个语符列之间的该编辑距离(还被称为Levenshtein(来文史)距离)被定义为利用每次对单个符号进行插入、删除或替换的允许的编辑操作将第一语符列变换成第二语符列所需的编辑操作的最小数目。
通过由动态编程子模块采用的动态编程来确定编辑距离。如果符号序列的长度分别是n和m,则动态编程涉及确定条目的矩阵尺寸n×m。动态编程子模块基于最小的插入、删除和替换成本,以递归的方式确定矩阵中的各元素。确定矩阵中的所有元素之后,矩阵中的最右下元素是两个语符列之间的编辑距离。在多个实施方式中,插入、删除和替换的成本是相同的或不同的。
图10示出了具有A-语符列930和B-语符列940之间的最小编辑距离的匹配路径。由星号1010来标记匹配路径。为了确定匹配路径,动态编程子模块保持使矩阵中各点的匹配成本最小化的元素的轨迹,即,代表插入、删除或替换成本的元素。例如,一个实施方式确定两个矩阵,即,表示成本的成本矩阵,和表示使成本最小化的元素的索引的索引矩阵。
确定矩阵的所有元素之后,顺着元素的索引,回溯从索引矩阵中的最右下元素开始的路径,以识别语符列之间的匹配路径。星号1010是沿着匹配路径的点。
当索引矩阵中的元素代表删除时,两个星号1015并排水平放置在匹配路径上。参照图10,这两个星号表示语符列930中的元素j和j+1这两者被映射到语符列940中的元素i,即,根据语符列之间的映射删除元素j。
当索引矩阵中的元素表示插入时,两个星号1025并排垂直放置在匹配路径上。这两个星号表示语符列930中的元素j被映射到语符列940中的元素i和i+1,即,在语符列之间的映射中元素j被插入两次。
当索引矩阵中的元素表示替换时,两个星号1035并排对角放置在匹配路径上。这两个星号表示语符列930中的元素j被映射到语符列940中的元素i,并且元素j+1被映射到元素i+1。图15示出了根据本发明的一个实施方式的用于确定匹配路径的伪代码。
编辑距离子模块
编辑距离子模块在B-片语和A-片语中产生一对一映射。基于由动态编程子模块提供的匹配路径来产生映射。初始地,生成A-字母-B-片语映射,其针对各A-语序列字母或B-语序列字母识别该字母属于的相应A-片语或B-片语。例如,如在图10中所示,A-字母/N/映射到B-片语1,A-字母/u/映射到B-片语1,A-字母/j/映射到B-片语2,等。但是,在某些情况下,动态编程将一个A-字母映射到多个B-片语。例如,A-字母/k/被映射到B-片语2和B-片语3。
基于A-字母到B-片语映射,确定A-片语-B-片语映射,如图11所示。如下确定A-片语-B-片语映射:如果一个A-片语中的所有字母都被映射到一个B-片语,则A-片语被映射到相应B-片语。例如,A-片语1被映射到B-片语1。如果A-片语中的字母映射到多个B-片语,则A-片语映射到多个B-片语。例如,A-片语2被映射到B-片语2且被映射到B-片语3。
如果A-字母到B-片语映射是一对一片语映射,即,各A-片语映射到多于一个B-片语,则形成预测-发音映射245,并且基于该映射确定匹配条目。但是,如果至少一个A-片语映射到多个B-片语,即,一对多片语映射,如图11,则A-字母-B-片语映射需要被分解为一对一片语映射。
一个实施方式通过确定由一对多片语映射允许的A-片语-B-片语映射的一对一片语映射的笛卡尔积、计算各一对一片语映射的累计编辑距离、以及选择具有最小累计编辑距离的一对一片语映射,来分解A-字母-B-片语映射。
图12示出了用于分解A-字母-B-片语映射的方法,其中,A-字母-B-片语映射是一对多片语映射。对于各一对一片语映射1210-1240,确定映射后的A-片语和B-片语之间的编辑距离并且进行加和,以产生累计编辑距离1215-1245。具有最小1250值的累计编辑分数1260确定了分解后的A-片语-B-片语映射。在该示例中,因为映射1210具有最低累计编辑分数,即,7,因此映射1210被选择为分解后的映射。
图13A-13B示出了由变换模块输出的匹配条目的示例。变换模块具有与发音“nu”匹配的单词“New”,与发音“jOrk”匹配的单词“York”,与发音“nu|jOrk”匹配的单词“NY”,与发音“Ek|sprE|so”匹配的单词“Exspresso”。
删节模块
删节模块450对内部词典进行删节,使得去除具有低精确度的单词-发音映射。一个实施方式基于上述频率计数c(w,p)来删节单词-发音映射。通过根据下式除以为具有所有其他发音q的单词w而确定的所有频率计数和,各频率计数c(w,p)被转换成单词w映射到发音p的概率P(w,p)
P ( w , p ) = c ( w , p ) Σ q c ( w , q ) .
从内部词典(因此,从发音词典)去除概率P在特定阈值之下的单词-发音映射。图14A-14B示出了删节的示例。
尽管以优选实施方式的示例的方式已经描述了本发明,但是应理解的是,可以在本发明的精神和范围之内做出多种其他改写和修改。因此,所附权利要求书旨在覆盖所有落入本发明的真实精神和范围之内的变型和修改。

Claims (20)

1.一种通过将未匹配条目变换成匹配条目来构建发音词典的方法,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配,该方法包括以下步骤:
确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;
将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集相匹配的预测-发音映射;以及
使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目,其中,该方法的步骤由处理器执行。
2.根据权利要求1所述的方法,其中,所述发音和预测被表示为音节的联结,所述方法还包括以下步骤:
联结所述发音集中的发音的音节形成A-语符列,其中,发音的所述音节形成A-片语;
联结所述发音预测的音节形成B-语符列,其中,所述发音预测的所述音节形成B-片语;
确定所述A-语符列中字母和所述B-语符列中字母之间的匹配路径;
基于所述匹配路径来确定A-片语-B-片语映射;以及
基于所述A-片语-B-片语映射来确定所述预测-发音映射。
3.根据权利要求2所述的方法,其中,所述A-片语-B-片语映射是一对一片语映射。
4.根据权利要求2所述的方法,其中,所述A-片语-B-片语映射是一对多片语映射,该方法还包括以下步骤:
将所述A-片语-B-片语映射分解成一对一片语映射。
5.根据权利要求4所述的方法,其中,所述分解步骤还包括以下步骤:
确定所述一对多片语映射所允许的A-片语-B-片语映射的一对一片语映射的笛卡尔积;
计算各一对一片语映射的累计编辑距离;以及
选择具有最小累计编辑距离的所述一对一片语映射。
6.根据权利要求5所述的方法,所述方法还包括以下步骤:
确定各一对一片语映射中的各映射的编辑距离,以产生各一对一片语映射的编辑距离;以及
通过将各一对一片语映射的所述编辑距离进行相加,来确定所述累计编辑距离。
7.根据权利要求1所述的方法,该方法还包括以下步骤:
从内部词典中选择所述发音预测。
8.根据权利要求1所述的方法,该方法还包括以下步骤:
使用字素-音素转换器来确定所述发音预测。
9.根据权利要求1所述的方法,该方法还包括以下步骤:
选择所述单词的拼写形式作为该单词的所述发音预测。
10.根据权利要求2所述的方法,该方法还包括以下步骤:
确定表示所述A-语符列中的字母和所述B-语符列中的字母之间的插入、删除和替换成本的成本矩阵;
确定表示使所述成本最小化的元素的索引的索引矩阵;以及
基于所述索引矩阵来确定所述匹配路径。
11.根据权利要求10所述的方法,其中,所述匹配路径是从所述索引矩阵中的最右下元素开始并且顺着使所述成本最小化的元素的索引而回溯的路径。
12.根据权利要求11所述的方法,其中,所述索引矩阵中的元素表示所述删除的成本,该方法还包括以下步骤:
将两个星号水平并排放置在所述匹配路径上。
13.根据权利要求11所述的方法,其中,所述索引矩阵中的元素表示所述插入的成本,该方法还包括以下步骤:
将两个星号竖直并排放置在所述匹配路径上。
14.根据权利要求11所述的方法,其中,所述索引矩阵中的元素表示所述替换的成本,该方法还包括以下步骤:
将两个星号对角地并排放置在所述匹配路径上。
15.根据权利要求1所述的方法,其中,所述匹配条目包括单词-发音映射集,该方法还包括以下步骤:
去除概率在阈值之下的单词-发音映射。
16.根据权利要求15所述的方法,该方法还包括以下步骤:
确定所述单词集中的各单词的频率计数c(w,p),其中,所述频率计数表示单词w和发音p之间的映射次数;
基于所述频率计数c(w,p)和具有发音q的单词的频率计数,根据下式来确定所述单词w和所述发音p之间的单词-发音映射的概率P(w,p):
P ( w , p ) = c ( w , p ) Σ q c ( w , q ) .
17.一种用于根据未匹配条目集来构建发音词典的方法,其中,未匹配条目包括单词集和与所述单词集相对应的发音集,该方法包括以下步骤:
将各未匹配条目迭代地变换成匹配条目,其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配;
将各匹配条目存储在内部词典中;以及
输出所述内部词典作为所述发音词典,其中,该方法的步骤由处理器执行。
18.根据权利要求17所述的方法,其中,所述变换还包括以下步骤:
确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;
将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集相匹配的预测-发音映射;以及
使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
19.根据权利要求17所述的方法,其中,所述匹配条目包括单词-发音映射集,该方法还包括以下步骤:
去除概率在阈值之下的单词-发音映射。
20.一种用于通过将未匹配条目变换成匹配条目来构建发音词典的系统,其中,所述未匹配条目和所述匹配条目包括单词集和与所述单词集相对应的发音集,并且其中,所述匹配条目中的各单词与所述发音集中的发音子集匹配,该系统包括:
发音预测子模块,该发音预测子模块用于确定所述单词集中的各单词的发音预测,使得在所述单词和所述发音预测之间存在一一对应关系;
动态编程子模块,该动态编程子模块用于将各发音预测映射到所述发音子集,以产生各发音预测与所述发音子集匹配的预测-发音映射;以及
处理器,该处理器被构成为使用所述单词和所述发音预测之间的一一对应关系,基于所述预测-发音映射来确定所述匹配条目。
CN2011100725356A 2010-03-26 2011-03-24 发音词典的构建方法和系统 Pending CN102201235A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/732,231 2010-03-26
US12/732,231 US20110238412A1 (en) 2010-03-26 2010-03-26 Method for Constructing Pronunciation Dictionaries

Publications (1)

Publication Number Publication Date
CN102201235A true CN102201235A (zh) 2011-09-28

Family

ID=44169030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100725356A Pending CN102201235A (zh) 2010-03-26 2011-03-24 发音词典的构建方法和系统

Country Status (4)

Country Link
US (1) US20110238412A1 (zh)
EP (1) EP2378514A1 (zh)
JP (1) JP2011209704A (zh)
CN (1) CN102201235A (zh)

Cited By (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
CN104246872A (zh) * 2012-04-16 2014-12-24 株式会社电装 声音识别装置
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN106663427A (zh) * 2014-09-30 2017-05-10 苹果公司 用于服务语音发音的高速缓存设备
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN110019667A (zh) * 2017-10-20 2019-07-16 沪江教育科技(上海)股份有限公司 一种基于语音输入信息的查词方法及装置
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
CN113257234A (zh) * 2021-04-15 2021-08-13 北京百度网讯科技有限公司 生成词典与语音识别的方法、装置
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016029045A2 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
US9747891B1 (en) * 2016-05-18 2017-08-29 International Business Machines Corporation Name pronunciation recommendation
KR20200026295A (ko) * 2017-07-10 2020-03-10 복스 프론테라, 인크. 음절 기반 자동 음성 인식
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN113838479B (zh) * 2021-10-27 2023-10-24 海信集团控股股份有限公司 单词发音评测方法、服务器及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1233803A (zh) * 1998-04-29 1999-11-03 松下电器产业株式会社 利用判定树生成拼写单词的发音和对其评分的方法和设备
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
CN101645270A (zh) * 2008-12-12 2010-02-10 中国科学院声学研究所 一种双向语音识别处理系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080005B1 (en) * 1999-07-19 2006-07-18 Texas Instruments Incorporated Compact text-to-phone pronunciation dictionary
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
WO2008106655A1 (en) * 2007-03-01 2008-09-04 Apapx, Inc. System and method for dynamic learning
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1233803A (zh) * 1998-04-29 1999-11-03 松下电器产业株式会社 利用判定树生成拼写单词的发音和对其评分的方法和设备
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
CN101645270A (zh) * 2008-12-12 2010-02-10 中国科学院声学研究所 一种双向语音识别处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAROENPORNSAWAT ET AL: "Example-Based Grapheme-to-Phoneme Conversion for Thai", 《INTERSPEECH 2006》 *
FUNG ET AL: "Pronunciation modeling of Mandarin Casual speech", 《FINAL REPORT AT THE WS00 OF JOHNS HOPKINGS SUMMER WORKSHOP》 *

Cited By (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
CN104246872A (zh) * 2012-04-16 2014-12-24 株式会社电装 声音识别装置
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9390711B2 (en) 2013-01-29 2016-07-12 Huawei Device Co., Ltd. Information recognition method and apparatus
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105340004B (zh) * 2013-06-28 2019-09-10 谷歌有限责任公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
CN106663427B (zh) * 2014-09-30 2019-06-28 苹果公司 用于服务语音发音的高速缓存设备
CN106663427A (zh) * 2014-09-30 2017-05-10 苹果公司 用于服务语音发音的高速缓存设备
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
CN110019667A (zh) * 2017-10-20 2019-07-16 沪江教育科技(上海)股份有限公司 一种基于语音输入信息的查词方法及装置
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN113257234A (zh) * 2021-04-15 2021-08-13 北京百度网讯科技有限公司 生成词典与语音识别的方法、装置

Also Published As

Publication number Publication date
EP2378514A1 (en) 2011-10-19
JP2011209704A (ja) 2011-10-20
US20110238412A1 (en) 2011-09-29

Similar Documents

Publication Publication Date Title
CN102201235A (zh) 发音词典的构建方法和系统
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
Kirchhoff et al. Novel approaches to Arabic speech recognition: report from the 2002 Johns-Hopkins summer workshop
Issar Estimation of language models for new spoken language applications
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
US5949961A (en) Word syllabification in speech synthesis system
Jung et al. An english to korean transliteration model of extended markov window
US7606710B2 (en) Method for text-to-pronunciation conversion
EP1623412B1 (en) Method for statistical language modeling in speech recognition
CN101447184A (zh) 基于音素混淆的中英文双语语音识别方法
EP2595144B1 (en) Voice data retrieval system and program product therefor
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN1731511A (zh) 用于对多语言的姓名进行语音识别的方法和系统
US20020040296A1 (en) Phoneme assigning method
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Punchimudiyanse et al. Unicode sinhala and phonetic english bi-directional conversion for sinhala speech recognizer
CN101937450A (zh) 将单词集转换成相应的粒子集的方法
CN111429886B (zh) 一种语音识别方法及系统
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Jannedy et al. Name pronunciation in German text-to-speech synthesis
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
US8229965B2 (en) System and method for maximizing edit distances between particles
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
KR20100067727A (ko) 다중 탐색 기반의 음성 인식 장치 및 그 방법
Schaden CrossTowns: Automatically Generated Phonetic Lexicons of Cross-lingual Pronunciation Variants of European City Names.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110928