CN117396879A - 用于生成地区特定语音拼写变体的系统和方法 - Google Patents
用于生成地区特定语音拼写变体的系统和方法 Download PDFInfo
- Publication number
- CN117396879A CN117396879A CN202180098818.XA CN202180098818A CN117396879A CN 117396879 A CN117396879 A CN 117396879A CN 202180098818 A CN202180098818 A CN 202180098818A CN 117396879 A CN117396879 A CN 117396879A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- given
- sequence
- alternative
- likelihood value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 80
- 238000009826 distribution Methods 0.000 claims abstract description 23
- 238000005516 engineering process Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
用于基于地区特定发音生成给定单词的语音拼写变体的系统和方法。音素‑字母密度模型可以被配置为识别与输入单词相对应的音素序列,并且识别可以与输入音素序列相对应的所有字符序列及其相应的概率。音素‑音素误差模型可以被配置为识别可以对应于给定音素序列的地区特定替代音素序列及其相应的概率。使用这两个模型,对于给定输入单词,处理系统可以被配置为基于地区特定发音和/或表示每个替代字符序列对应于输入单词的可能性的概率分布,生成可以对应于输入单词的替代字符序列的列表。
Description
相关申请的交叉引用
本申请要求2021年6月4日提交的第202141024922号印度专利申请的优先权,该申请通过引用整体并入本文。
背景技术
处理书面或口语的各种应用(例如,文字处理应用、搜索引擎、语音识别、自动化助理、自然语言处理模型)可以受益于了解可能对应于给定单词的潜在替代拼写和拼写错误以及替代发音。例如,文字处理应用可以被配置为对照字典和已知拼写错误的数据库检查文本,并用最可能的更正(例如,“the”)替代任何常见拼写错误的单词(例如,“teh”)。尽管这在某些情况下可能很有效,但常见拼写错误的数据库可能无法反映发音的区域差异,这可能会改变某些单词的发音和拼写方式(或拼写错误)。因此,依赖于仅反映常见拼写错误的数据库的系统可能无法自动选择受这种区域发音影响的单词的正确替代,和/或可能无法识别合理的替代。此外,当应用依赖于语音识别(或语音到文本)将口语输入转换为文本时,这种挑战可能会被放大,因为发音变化可能会比用户打字时影响更大比例的输入。
发明内容
目前的技术涉及用于基于地区特定(locale-specific)发音生成给定单词的语音拼写变体(phonetic spelling variation)的系统和方法。对此,当前技术可以利用音素-字母密度模型和音素-音素误差模型。音素-字母密度模型可以被配置为识别与输入单词相对应的音素序列,并且识别可以与输入音素序列相对应的所有字符序列及其相应的概率。音素-音素误差模型可以被配置为识别可以对应于给定音素序列的地区特定替代音素序列及其相应的概率。例如,在“s”可以用“j”发音的地区(locale),并且因此单词“design”可以发音为“dijin”,音素-音素误差模型可以被配置为将“dijin”的音素序列(例如,“/D//IH0//JH//AY1//N/”)识别为“design”的音素序列(例如,“/D//IH0//Z//AY1//N/”)的地区特定替代,以及其被使用的似然值。如下面进一步解释的,使用这两个模型,对于给定输入单词,处理系统可以被配置为基于地区特定发音和/或表示每个替代字符序列对应于输入单词的可能性的概率分布,生成可以对应于输入单词的替代字符序列的列表。
在一个方面,本公开描述了一种生成给定单词的替代拼写的计算机实现的方法,包括:由处理系统的一个或多个处理器确定与给定单词相对应的第一音素序列,所述第一音素序列包括表示给定单词的第一发音的多个音素;由一个或多个处理器识别可用于代替第一音素序列的一个或多个音素的一个或多个替代音素;由一个或多个处理器基于第一音素序列和识别的一个或多个替代音素生成一个或多个替代音素序列;以及对于一个或多个替代音素序列中的每个给定替代音素序列,生成给定单词的给定替代拼写,包括:由一个或多个处理器识别可对应于给定替代音素序列的每个给定音素的一个或多个字形(grapheme);以及由一个或多个处理器组合识别的一个或多个字形中的每一个,以形成给定替代拼写。在一些方面,确定与给定单词相对应的第一音素序列是基于音素-字母密度模型。在一些方面,确定与给定单词相对应的第一音素序列是基于音素词典。在一些方面,识别可用于代替第一音素序列的一个或多个音素的一个或多个替代音素是基于音素-音素误差模型。在一些方面,识别可对应于给定替代音素序列的每个给定音素的一个或多个字形是基于音素-字母密度模型。在一些方面,由一个或多个处理器识别可对应于给定替代音素序列的每个给定音素的一个或多个字形还包括识别表示一个或多个字形可以对应于给定音素的似然值(likelihood)的第一似然值。在一些方面,由一个或多个处理器将识别的一个或多个字形中的每一个组合以形成给定替代拼写还包括:基于所识别的一个或多个字形中的每一个的识别的第一似然值生成给定替代拼写的第二似然值,第二似然值表示给定替代拼写可对应于第一音素序列的似然值。在一些方面,所述方法还包括由一个或多个处理器识别所识别的一个或多个替代音素中的每一个的第三似然值,所述第三似然值表示所识别的一个或多个替代音素的每一个可用于代替第一音素序列的音素的似然值。在一些方面,所述方法还包括由一个或多个处理器基于包括在给定替代音素序列中的每个识别的替代音素的识别的第三似然值生成一个或多个替代音素列中的每个给定替代音素序列的第四似然值,所述第四似然值表示给定替代音素序列可以对应于第一音素序列的似然值。在一些方面,所述方法还包括由一个或多个处理器基于第二似然值和第四似然值生成概率分布,所述概率分布表示每个生成的替代拼写对应于给定单词的可能性。
在另一方面,本公开描述了一种用于生成给定单词的替代拼写的系统,包括:存储器,以及耦合到存储器的一个或多个处理器并且被配置为:确定与给定单词相对应的第一音素序列,所述第一音素序列包括表示给定单词的第一发音的多个音素;识别可用于代替第一音素序列的一个或多个音素的一个或多个替代音素;基于第一音素序列和识别的一个或多个替代音素生成一个或多个替代音素序列;以及对于一个或多个替代音素序列中的每个给定替代音素序列,生成给定单词的给定替代拼写,包括:识别可对应于给定替代音素序列的每个给定音素的一个或多个字形;以及组合识别的一个或多个字形中的每一个,以形成给定替代拼写。在一些方面,一个或多个处理器还被配置为基于音素-字母密度模型确定与给定单词相对应的第一音素序列。在一些方面,一个或多个处理器还被配置为基于音素词典确定与给定单词相对应的第一音素序列。在一些方面,一个或多个处理器还被配置为基于音素-音素误差模型识别可用于代替第一音素序列的一个或多个音素的一个或多个替代音素。在一些方面,一个或多个处理器还被配置为基于音素-字母密度模型识别可对应于给定替代音素序列的每个给定音素的一个或多个字形。在一些方面,识别可对应于给定替代音素序列的每个给定音素的一个或多个字形还包括识别表示一个或多个字形可对应于给定音素的似然值的第一似然值。在一些方面,将识别的一个或多个字形中的每一个组合以形成给定替代拼写还包括基于所识别的一个或多个字形中的每一个的识别的第一似然值生成给定替代拼写的第二似然值,第二似然值表示给定替代拼写可对应于第一音素序列的似然值。在一些方面,一个或多个处理器还被配置为识别所识别的一个或多个替代音素中的每一个的第三似然值,所述第三似然值表示所识别的一个或多个替代音素的每一个可用于代替第一音素序列的音素的似然值。在一些方面,一个或多个处理器还被配置为基于包括在给定替代音素序列中的每个识别的替代音素的识别的第三似然值生成一个或多个替代音素列中的每个给定替代音素序列的第四似然值,所述第四似然值表示给定替代音素序列可以对应于第一音素序列的似然值。在一些方面,一个或多个处理器还被配置为基于第二似然值和第四似然值生成概率分布,所述概率分布表示每个生成的替代拼写对应于给定单词的可能性。
附图说明
图1是根据本公开的各方面的示例系统的功能图。
图2是根据本公开的各方面的示例系统的功能图。
图3是示出根据本公开的各方面的用于生成音素-字母密度模型的示例性方法的流程图。
图4是示出根据本公开的各方面的用于使用音素-字母密度模型识别可以对应于音素序列的一个或多个字符序列及其相应概率的示例性方法的流程图。
图5是示出根据本公开的各方面的用于使用音素-音素误差模型生成可以对应于第一音素序列的替代音素序列的列表及其相应概率的示例性方法的流程图。
图6是示出根据本公开的各方面的用于使用音素-字母密度模型和音素-音素误差模型生成可以对应于输入单词的替代字符序列的列表的示例性方法的流程图。
图7是示出根据本公开的各方面的用于使用音素-字母密度模型和音素-音素误差模型生成表示图6中识别的每个替代字符序列与输入单词相对应的可能性的概率分布的示例性方法的流程图。
具体实施方式
现在将参照以下示例性系统和方法来描述本技术。
示例系统
图1中示出了用于执行本文所述方法的示例性处理系统的高级系统图100。处理系统102可以包括一个或多个处理器104和存储指令108和数据110的存储器106。在图1的示例性处理系统102中,数据110包括下文进一步描述的音素-字母密度模型112和音素-音素误差模型114。处理系统102可以驻留在单个计算设备上。例如,处理系统102可以是服务器、个人计算机或移动设备,并且本文描述的模型因此可以是该单个计算设备的本地模型。类似地,处理系统102可以驻留在云计算系统或其他分布式系统上,使得本文描述的一个或多个模型分布在两个或更多个不同的物理计算设备上。
对此,图2示出了附加的高级系统图200,其中用于执行本文所述方法的示例性处理系统202被示出为n个服务器202a-202n的集合,每个服务器包括一个或多个处理器204和存储指令208和数据210的存储器206。此外,在图2的示例中,处理系统202被示出为与一个或多个网络212通信,通过网络212,处理系统可以与一个或多个其他计算设备通信。例如,一个或多个网络212可以允许用户使用个人计算设备214与处理系统202交互,该个人计算设备被示为膝上型计算机,但是可以采取任何已知的形式,包括台式计算机、平板电脑、智能电话等。同样地,一个或多个网络212可以允许处理系统202与诸如数据库216的一个或多个远程数据库通信。在该技术的一些方面中,本文描述的音素-字母密度模型和/或音素-音素误差模型可以存储在一个或多个服务器202a-202n的存储器210中。同样地,在一些方面中,本文所描述的音素-字母密度模型和/或音素-音素误差模型可以存储在数据库216中,使得数据库216和处理系统202形成用于实践下面所描述的方法的分布式处理系统。
本文描述的处理系统可以在任何类型的(多个)计算设备上实现,诸如任何类型的通用计算设备、服务器或其集合,并且可以进一步包括通常存在于通用计算设备或服务器中的其他组件。存储器106、206存储可由一个或多个处理器104、204访问的信息,包括可由(多个)处理器104、204执行或以其他方式使用的指令108、208和数据110、210。存储器106、206可以是能够存储可由(多个)处理器104、204访问的信息的任何非暂时性类型。例如,存储器106、206可以包括非暂时性介质,诸如硬盘驱动器、存储卡、光盘、固态存储器、磁带存储器等。适合于本文所描述的角色的计算设备可以包括前述的不同组合,从而将指令和数据的不同部分存储在不同类型的介质上。
在所有情况下,本文描述的计算设备还可以包括通常与计算设备结合使用的任何其他组件,诸如用户接口子系统。用户接口子系统可以包括一个或多个用户输入(例如,鼠标、键盘、触摸屏和/或麦克风)和一个或多个电子显示器(例如,具有屏幕的监视器或可操作用于显示信息的任何其他电气设备)。除了电子显示器之外的输出设备,诸如扬声器、灯和振动、脉冲或触觉元件,也可以包括在本文描述的计算设备中。
每个计算设备中包括的一个或多个处理器可以是任何常规处理器,诸如市售的中央处理器(“CPU”)、图形处理单元(“GPU”)、张量处理器(“TPU”)等。可替代地,一个或多个处理器可以是专用设备,诸如ASIC或其他基于硬件的处理器。每个处理器可以具有能够并行操作的多个核。单个计算设备的(多个)处理器、存储器和其他元件可以存储在单个物理外壳内,或者可以分布在两个或多个外壳之间。类似地,计算设备的存储器可以包括硬盘驱动器或位于不同于(多个)处理器的外壳中的其他存储介质,诸如位于外部数据库或联网存储设备中。因此,对处理器或计算设备的引用将被理解为包括对可以或不可以并行操作的处理器或计算设备或存储器的集合的引用,以及负载平衡服务器场(load-balanced serverfarm)或基于云的系统的一个或多个服务器的引用。
本文描述的计算设备可以存储能够由(多个)处理器直接执行(诸如机器代码)或间接执行(诸如脚本)的指令。计算设备还可以存储数据,这些数据可以由一个或多个处理器根据指令来检索、存储或修改。指令可以作为计算设备代码存储在计算设备可读介质上。对此,术语“指令”和“程序”在本文中可以互换使用。指令也可以以对象代码格式存储以供(多个)处理器直接处理,或者以任何其他计算设备语言存储,包括按需解释或预先编译的独立源代码模块的脚本或集合。举例来说,编程语言可以是C#、C++、JAVA或其他计算机编程语言。类似地,指令或程序的任何组件都可以用计算机脚本语言实现,诸如JavaScript、PHP、ASP或任何其他计算机脚本语言。此外,这些组件中的任何一个都可以使用计算机编程语言和计算机脚本语言的组合来实现。
示例方法
图3描绘了根据本公开的各方面的用于生成音素-字母密度模型(例如,音素-字母密度模型112)的示例性方法300。
在步骤302中,处理系统(例如,处理系统102或202)访问包含多个单词的发音的音素词典。音素词典可以是任何合适的数据结构,该数据结构将单词与其以音素表示的发音相关联。对此,音素是在特定语言中区分一个单词和另一个单词的声音单位,音素可以使用任何合适的形式来表示,诸如国际音标(“IPA”)、高级研究计划署的一套被称为ARPABET的音标转录代码等。
在步骤304中,处理系统训练音素-字母密度模型,以基于音素字典中的单词集合与其相应的音素序列之间的关联来识别字符和音素之间的对准。这可以对于音素词典中的每个单词或其合适的子集来完成。处理系统可以使用任何合适的训练方法来训练音素-字母密度模型。
例如,在该技术的一些方面中,处理系统可以使用任何合适的无监督方法来训练音素-字母密度模型以将字符与音素相关联,该无监督方法用于训练翻译模型以将一种语言中的单词与另一种语言中的单词相关联。对此,给定单词的字符可以被视为第一语言中的语句,对应音素序列的音素可以被视为第二语言中的语句,并且音素-字母密度模型可以被训练为基于在训练集的每个示例中这些字符和音素一起被发现的频率将字符与音素相关联(反之亦然)。例如,基于对应于“/R//EY//N/”的“rain”和对应于“/AE//S//ER//T//EY//N/”的“ascertain”,音素-字母密度模型可以识别音素“/EY/”与字符“a”和“i”之间的对准。此外,当音素-字母密度模型遇到“/EY/”的每个下一个示例时,它可以更新关于音素“/EY/”与字符“a”和“i”对准的频率以及与其他字符对准的频率的度量,以便它学会预测音素“/EY/”与字符“a”和“i”对准的可能性(反之亦然)。
在步骤306中,对于音素字典中的每个给定单词,处理系统训练音素-字母密度模型,以将给定单词的每个字形映射到对应音素序列的音素之一。对此,字形可以是单词中对应于给定声音的一个或多个字母。
例如,如果一个单词是“rain”,并且音素词典列出了“/R//EY//N/”的对应音素序列,则处理系统可以训练音素-字母密度模型,以将字形“r”映射到音素“/R/”,将字形“ai”映射到音素“/EY/”,并将字形“n”映射到音素“/N/”。本文也是,处理系统可以使用任何合适的训练方法来训练音素-字母密度模型。因此,在该技术的一些方面中,处理系统可以使用在步骤304的训练期间生成的字符-音素对准概率,并且可以训练音素-字母密度模型以选择实现最高概率的映射。处理系统可以使用动态编程或任何其他合适的方法来识别什么映射实现了最高的总概率。
在步骤308中,对于音素字典中的每个给定音素,处理系统计算给定音素将对应于在步骤306中映射到它的每个字形的似然值。例如,可以假设步骤306只产生1000个涉及音素“/EY/”的映射,并且这些映射只涉及四个字形:字形“a”被映射到音素“/EY/”总共500次,字形“ay”被映射到音素“/EY/”总共300次,字形“ai”被映射到音素“/EY/”总共150次,字形“aigh”被映射到音素“/EY/”总共50次。在这种情况下,处理系统可以计算出“/EY/”对应于字形“a”的几率为50%(1000中的500),“/EY/”对应字形“ay”的几率为30%(1000个中的300),“/EY/”对应字形“ay”的几率为15%(1000个中的150),以及“/EY/”对应于字形“aigh”的几率为5%(1000个中的50)。此示例仅用于说明目的,并不一定反映可能对应于音素“/EY/”的所有字形,或这种对应的似然值。尽管该示例显示可能性被表示为概率,但是可以使用任何其他合适的度量。例如,在该技术的一些方面中,在步骤308中计算的似然值可以表示为可能性。
一旦已经如以上关于图3所描述的那样生成了音素-字母密度模型,则处理系统可以使用音素-字母密度模型生成可以对应于任何给定音素序列的字形列表,以及所识别的字形将对应于给定音素序列的每个单独音素的概率。然后,这可用于生成可能对应于给定音素序列的潜在单词(或字符序列)。
对此,图4描绘了根据本公开的各方面的用于使用音素-字母密度模型(例如,音素-字母密度模型112)来识别可以对应于音素序列的一个或多个单词(或字符序列)及其相应概率的示例性方法400。
在步骤402中,处理系统(例如,处理系统102或202)接收包括一个或多个音素的音素序列。如上所述,该音素序列可以是处理文本的结果,或者它可以是从包括语音的音频数据中识别音素的语音识别引擎的输出。为了帮助说明方法400,将假设音素序列是“/R//EY//N/”。
在步骤404中,对于音素序列的给定音素,处理系统使用音素-字母密度模型识别可以对应于给定音素的一个或多个字形,以及一个或多个字形中的每一个可以对应于给定音素的第一似然值。因此,处理系统可以从第一音素“/R/”开始,并且可以将字形“r”识别为以0.83的可能性对应于音素“/R/”,将字形“wr”识别为以0.15的可能性对应于音素“/R/”,并将字形“rr”识别为以0.019的可能性对应音素“/R/”,将“rh”识别为以0.001的可能性对应于音素“/R/”。
在步骤406中,处理系统确定在音素序列中是否存在另外的音素。如果是,在步骤408中,处理系统将音素序列的下一个音素设置为“给定音素”,然后返回步骤404,如“是”箭头所示。在本示例中,处理系统将返回步骤404,第二次识别可能对应于音素“/EY/”的字形,第三次识别可能对应于音素“/N/”的字形。
一旦在步骤406中没有进一步的音素要处理,方法将移动到步骤410,如“否”箭头所示。在步骤410中,处理系统将基于在步骤404中识别的字形生成一个或多个字符序列。对此,在该技术的一些方面中,处理系统可以使用对于音素序列的每个音素识别的字形的每个可能排列来生成字符序列。同样,在该技术的一些方面中,处理系统可以基于与每个字形相关联的第一概率确定最可能的字符序列或前n个最可能的字符序列。对此,给定字符序列是音素序列的替代发音的似然值可以如下面关于步骤412所描述的那样计算。
在步骤412中,对于一个或多个字符序列中的每个给定字符序列,处理系统基于在步骤404中对于给定字符序列的每个字形识别的第一似然值生成给定字符序列可以对应于音素序列的第二似然值。第二似然值可以使用任何合适的公式来生成。例如,在该技术的一些方面中,第二似然值可以是在步骤404中为给定字符序列的每个字形生成的每个第一似然值的乘积。类似地,在该技术的一些方面中,第二似然值可以是通过取在步骤404中为给定字符序列的每个字形生成的每个第一似然值的乘积的第n根计算的归一化乘积,其中,n是音素序列中的音素的数量。此外,在该技术的一些方面中,第二似然值可以是在步骤404中为给定字符序列的每个字形生成的第一似然值的平均值。
图5描绘了根据本公开的各方面的用于使用音素-音素误差模型(例如,音素-音素误差模型114)来生成可以对应于第一音素序列的替代音素序列列表,以及其相应的概率的示例性方法500。
在步骤502中,处理系统(例如,处理系统102或202)接收包括一个或多个音素的第一音素序列。在此也是,此音素序列可以是处理文本的结果,或者它可以是从包括语音的音频数据中识别音素的语音识别引擎的输出。为了帮助说明方法500,将再次假设音素序列是“/R//EY//N/”。
在步骤504中,对于第一音素序列的给定音素,处理系统使用音素-音素误差模型识别可以对应于给定音素的任何替代音素以及可以使用每个这样的替代音素来代替给定音素的第三似然值。因此,处理系统可以从第一个音素“/R/”开始,并可以将“/W/”识别为具有第三似然值为0.15的替代音素,以替代给定的音素“/R/”。同样,在一些情况下,音素-音素误差模型可以反映出不存在对应于给定音素的替代音素。
音素-音素误差模型可以是任何合适的形式。对此,在该技术的某些方面,音素-音素误差模型可以是数据结构(例如,表、矩阵、数据库等),其中包含来自语言学家的数据,这些数据涉及在给定地区中说话者可以用什么音素代替给定音素,以及其似然值。同样,在该技术的一些方面中,音素-音素误差模型可以是学习模型,其被训练为识别在给定地区中的说话者可以用什么音素代替给定音素。在这种情况下,可以使用任何合适的数据来训练模型,包括已知音素替代的列表(例如,来自语言学家)、由给定地区中的人输入的文本或语音数据的日志(例如,搜索查询日志、拼写校正日志、对由语音到文本系统生成的文本进行的校正的日志等)、监督训练示例等。
在步骤506中,处理系统确定在第一音素序列中是否存在另外的音素。如果是,在步骤508中,处理系统将第一音素序列的下一个音素设置为“给定音素”,然后返回步骤504,如“是”箭头所示。在本示例中,处理系统将返回步骤404,第二次识别可能对应于音素“/EY/”的任何替代音素,第三次识别可能对应于音素“/N/”的任何替代音素。
一旦在步骤506中没有进一步的音素要处理,该方法将移动到步骤510,如“否”箭头所示。在步骤510中,处理系统将基于第一音素序列和在步骤504中识别的替代音素生成一个或多个替代音素序列。对此,在该技术的一些方面中,处理系统可以使用第一音素序列的每个音素的替代音素的每一个可能排列来生成替代音素序列。同样,在该技术的一些方面中,处理系统可以基于与每个替代音素相关联的第三似然值来确定最可能的替代音素序列或前n个最可能的替代音素序列。对此,替代音素序列是第一音素序列的替代发音的似然值可以如下关于步骤512所述计算。
在步骤512中,对于一个或多个替代音素序列中的每个给定替代音素序列,处理系统基于在步骤504中对于给定替代音素序列中的每一个替代音素识别的第三似然值来生成给定替代音素序列可以对应于第一音素序列的第四似然值。可以使用任何合适的公式来生成第四似然值。例如,在该技术的一些方面中,第四似然值可以是在步骤504中为给定替代音素序列的每个替代音素生成的每个第三似然值的乘积。同样,在该技术的一些方面中,第四似然值可以是通过取在步骤504中为给定替代音素序列的每个替代音素生成的每个第三似然值的乘积的第n根来计算的归一化乘积,其中,n是第一音素序列中的音素的数量。此外,在该技术的一些方面中,第四似然值可以是在步骤504中为给定替代音素序列的每个替代音素生成的第三似然值的平均值。
图6是示出根据本公开的各方面的用于使用音素-字母密度模型(例如,音素-字母密度模型112)和音素-音素误差模型(例如,音素-音素误差模型114)生成可以对应于输入单词的替代字符序列的列表的示例性方法600。如上所述,输入单词可以作为文本直接从用户接收,也可以是从应用接收。例如,在该技术的一些方面中,输入单词可以来自由语音识别引擎生成的转录,该语音识别引擎被配置为语音地解释包括语音的音频数据。
在步骤602中,处理系统(例如,处理系统102或202)识别与输入单词相对应的第一音素序列。处理系统可以使用音素-字母密度模型或通用音素词典来实现这一点。在该技术的一些方面中,第一音素序列可以表示输入单词的预期发音或常规发音。例如,第一音素序列可以表示输入单词在世界范围内最常见的发音、输入单词在给定地区的最常见发音、单词的传统“正确”发音等。为了帮助说明方法600,将假设输入单词是“design”,并且第一音素序列是“/D//IH0//Z//AY1//N/”。
在步骤604中,根据图5的步骤502-510,处理系统使用音素-音素误差模型来识别可以对应于第一音素序列的一个或多个替代音素序列。因此,使用“/D//IH0//Z//AY1//N/”的示例性第一音素序列,处理系统可以识别“/D//IH0//JH//AY1//N/”的替代音素序列。例如,这可以基于音素-音素误差模型,该模型反映了给定地区(例如,印度部分地区)的人可能使用“j”音来发音字母“s”。
对于方法600,进一步关于步骤604,处理系统没有必要为包括在一个或多个替代音素序列中的每一个中的每个替代音素确定第三似然值,如以上关于步骤504所描述的。然而,在方法600与方法700相结合的情况下(如下面关于图7所讨论的),将假设在步骤604中为每个识别的替代音素计算第三似然值。
在步骤606中,对于一个或多个替代音素序列中的每个给定替代音素序列,处理系统根据图4的步骤402-410使用音素-字母密度模型来识别可以对应于给定替代音素序列的一个或多个字符序列。因此,使用“/D//IH0//JH//AY1//N/”的示例性替代音素序列,处理系统可以识别“dijin”、“dijine”、“dejine”和“dejain”的字符序列。
在此,同样,对于方法600,处理系统没有必要为包括在一个或多个字符序列中的每一个中的每个字形确定第一似然值,如以上关于步骤404所描述的。然而,在方法600与方法700相结合的情况下(如下面关于图7所描述的),将假设在步骤606中为每个识别的字形计算第一似然值。
图7是示出根据本公开的各方面的用于使用音素-字母密度模型(例如,音素-字母密度模型112)和音素-音素误差模型(例如,音素-音素误差模型114)生成表示图6中识别的每个替代字符序列与输入单词相对应的可能性的概率分布的示例性方法700。
因此,在步骤702中,处理系统执行图6的方法600,包括生成一个或多个替代音素序列中的每一个的每个替代音素的第三似然值和一个或多个字符序列中的每一个的每个字形的第一似然值。因此,处理系统识别对应于输入单词的第一音素序列(如步骤602中所讨论的),识别可以对应于第一音素序列的一个或多个替代音素序列(如在步骤604中所讨论的,并结合图5的步骤502-510),并且识别可以对应一个或多个替代音素序列中的每一个的一个或多个字符序列(如在步骤606中所讨论的,并结合图4的步骤402-410)。此外,处理系统还将生成一个或多个替代音素序列中的每一个的每个替代音素的第三似然值(如关于步骤604所讨论的,并结合步骤504),以及一个或多个字符序列中的每一个的每个字形的第一似然值(如关于步骤606所讨论的,并结合步骤404)。
在步骤704中,对于在步骤606中生成的每个给定字符序列,处理系统生成给定字符序列可以对应于在步骤604中生成的每个给定替代音素序列的第二似然值。如以上关于图4的步骤404和412所讨论的,处理系统基于第一似然值生成这些第二似然值。因此,继续以上关于方法600所讨论的相同示例,处理系统将因此生成第二似然值,其表示字符序列“dijin”、“dijine”、“dejine”和“dejain”对应于替代音素序列“/D//IH0//JH//AY1//N/”的似然值。尽管该示例假设在步骤604中仅识别出一个替代音素序列,但是如果识别出多个替代音素序列,则将基于在步骤606中识别的每个字符序列集合及其对应的替代音素序列生成第二似然值。
在步骤706中,对于在步骤604中生成的每个给定替代音素序列,处理系统生成给定替代音素序列可以对应于第一音素序列的第四似然值。如以上关于图5的步骤504和512所讨论的,处理系统基于第三似然值生成这些第四似然值。因此,使用上面关于方法600讨论的示例,处理系统将识别替代音素序列/D//IH0//JH//AY1//N/”的第四似然值。对此,由于“/D//IH0//Z//AY1//N/”的示例性第一音素序列和“/D//IH0//JH//AY1//N/”的示例替代音素序列之间只有一个音素不同,因此第四似然值将仅基于代替音素“/Z/”使用的音素“/JH/”的单独第三似然值。例如,如果音素-音素误差模型反映了将使用音素“/JH/”代替音素“/Z/”的似然值为0.2,则处理系统可以生成替代音素序列“/D//IH0//JH//AY1//N/”可以对应于的第一音素序列“/D//IH0//Z//AY1//N/”的为0.2的第四似然值。然而,如以上关于图5所解释的,如果替代音素序列包含相对于第一音素序列的多于一个替代,则第四似然值将基于对应于替代音素序列中的每个替代音素的第三似然值。
在步骤708中,处理系统基于在步骤704中生成的第二似然值和在步骤706中生成的第四似然值生成概率分布,该概率分布表示在步骤606中识别的每个字符序列对应于给定输入单词的可能性。因此,使用上面讨论的示例,概率分布将表示字符序列“dijin”、“dijine”、“dejine”和“dejain”对应于输入单词“design”的可能性。步骤708的概率分布可以根据任何合适的公式生成。例如,在该技术的一些方面中,概率分布可以根据下面的等式1生成:
P(w′|w)=∑ph′wP(w′|ph′w)*P(ph′w|phw) (1)
在等式1中,w表示输入单词,phw表示第一音素序列,ph'w表示在步骤604中识别的每个替代音素序列,以及w'表示在步骤606中识别的每个字符序列。这样,对于给定替代音素序列ph'w,概率P(ph'w|phw)表示在步骤706中生成的第四似然值,其表示给定替代音素序列对应于第一音素序列phw的似然值。同样,对于给定替代音素序列ph'w,概率分布P(w'|ph'w)表示在步骤704中生成的第二似然值,其表示每个字符序列w'对应于该给定音素序列的似然值。如等式1所示,概率分布P(w'|w)可以通过对步骤604中生成的每个替代音素序列ph'w的P(w'|ph'w)和P(ph'w|phw)的乘积求和生成。对此,概率分布P(w'|w)表示每个识别的替代拼写w'可以对应于输入单词w的似然值。
如上所述,这些替代字符序列w'可以反映单词w在给定地区中发音的不同方式,从而反映用户试图拼写单词w的不同方式。同样,这些替代字符序列w'可以反映语音到文本应用在用户想要说出单词w时可以转录用户的语音输入(voice entry)的不同方式。因此,在假设输入单词w是发音错误或语音拼写错误的结果的情况下,概率分布P(w'|w)可以表示每个替代拼写w'可能是用户实际想要输入的单词的似然值。同样,在假设输入单词w是预期单词的情况下,方法700可以用于生成反映输入单词w的不同潜在发音或语音拼写错误的替代拼写w'的列表,以及表示每个这种替代拼写发生的可能性的概率分布P(w'|w)。
除非另有说明,否则上述替代示例不是相互排斥的,而是可以以各种组合来实现以实现独特的优点。由于可以在不偏离权利要求所限定的主题的情况下利用上述特征的这些和其他变化和组合,因此示例性系统和方法的前述描述应当以说明的方式进行,而不是以限制权利要求所定义的主题的方式进行。此外,本文所述实例的提供,以及措辞为“诸如”、“包括”、“包含”等的条款,不应被解释为将权利要求的主题限制于特定实例;相反,这些实例旨在仅说明许多可能的实施例中的一些实施例。此外,不同附图中的相同附图标记可以标识相同或相似的元件。
Claims (20)
1.一种生成给定单词的替代拼写的计算机实现的方法,包括:
由处理系统的一个或多个处理器确定与所述给定单词相对应的第一音素序列,所述第一音素序列包括表示所述给定单词的第一发音的多个音素;
由所述一个或多个处理器识别可以用于代替所述第一音素序列的一个或多个音素的一个或多个替代音素;
由所述一个或多个处理器基于所述第一音素序列和所述识别的一个或多个替代音素生成一个或多个替代音素序列;以及
对于所述一个或多个替代音素序列中的每个给定替代音素序列,生成所述给定单词的给定替代拼写,包括:
由所述一个或多个处理器识别可对应于所述给定替代音素序列的每个给定音素的一个或多个字形;以及
由所述一个或多个处理器组合所述识别的一个或多个字形中的每一个,以形成所述给定替代拼写。
2.根据权利要求1所述的方法,其中,确定与所述给定单词相对应的第一音素序列是基于音素-字母密度模型。
3.根据权利要求1所述的方法,其中,确定与所述给定单词相对应的第一音素序列是基于音素词典。
4.根据权利要求1所述的方法,其中,识别可用于代替所述第一音素序列的一个或多个音素的一个或多个替代音素是基于音素-音素误差模型。
5.根据前述权利要求中任一项所述的方法,其中,识别可对应于所述给定替代音素序列的每个给定音素的一个或多个字形是基于音素-字母密度模型。
6.根据前述权利要求中任一项所述的方法,其中,由所述一个或多个处理器识别可对应于所述给定替代音素序列的每个给定音素的一个或多个字形还包括:识别表示所述一个或多个字形可对应于所述给定音素的似然值的第一似然值。
7.根据权利要求6所述的方法,其中,由所述一个或多个处理器将所述识别的一个或多个字形中的每一个组合以形成所述给定替代拼写还包括:基于所述识别的一个或多个字形中的每一个的识别的第一似然值生成所述给定替代拼写的第二似然值,所述第二似然值表示所述给定替代拼写可对应于所述第一音素序列的似然值。
8.根据权利要求7所述的方法,还包括由所述一个或多个处理器识别所述识别的一个或多个替代音素中的每一个的第三似然值,所述第三似然值表示所述识别的一个或多个替代音素中的每一个可以用于代替所述第一音素序列的音素的似然值。
9.根据权利要求8所述的方法,还包括由所述一个或多个处理器基于包括在所述给定替代音素序列中的每个识别的替代音素的识别的第三似然值,生成所述一个或多个替代音素列中的每个给定替代音素序列的第四似然值,所述第四似然值表示所述给定替代音素序列可对应于所述第一音素序列的似然值。
10.根据权利要求9所述的方法,还包括由所述一个或多个处理器基于所述第二似然值和所述第四似然值生成概率分布,所述概率分布表示每个生成的替代拼写对应于所述给定单词的可能性。
11.一种用于生成给定单词的替代拼写的系统,包括:
存储器,以及
一个或多个处理器,耦合到所述存储器并且被配置为:
确定与所述给定单词相对应的第一音素序列,所述第一音素序列包括表示所述给定单词的第一发音的多个音素;
识别可以用于代替所述第一音素序列的一个或多个音素的一个或多个替代音素;
基于所述第一音素序列和所述识别的一个或多个替代音素生成一个或多个替代音素序列;以及
对于所述一个或多个替代音素序列中的每个给定替代音素序列,生成所述给定单词的给定替代拼写,包括:
识别可以对应于所述给定替代音素序列的每个给定音素的一个或多个字形;以及
组合所述识别的一个或多个字形中的每一个,以形成所述给定替代拼写。
12.根据权利要求11所述的系统,其中,所述一个或多个处理器还被配置为基于音素-字母密度模型确定与所述给定单词相对应的第一音素序列。
13.根据权利要求11所述的系统,其中,所述一个或多个处理器还被配置为基于音素词典确定与所述给定单词相对应的第一音素序列。
14.根据权利要求11所述的系统,其中,所述一个或多个处理器还被配置为基于音素-音素误差模型识别可用于代替所述第一音素序列的一个或多个音素的一个或多个替代音素。
15.根据权利要求11-14中的任一项所述的系统,其中,所述一个或多个处理器还被配置为基于音素-字母密度模型识别可对应于所述给定替代音素序列的每个给定音素的一个或多个字形。
16.根据权利要求11-14中的任一项所述的系统,其中,识别可对应于所述给定替代音素序列的每个给定音素的一个或多个字形还包括:识别表示所述一个或多个字形可对应于所述给定音素的似然值的第一似然值。
17.根据权利要求16所述的系统,其中,将所述识别的一个或多个字形中的每一个组合以形成所述给定替代拼写还包括:基于所述识别的一个或多个字形中的每一个的识别的第一似然值生成所述给定替代拼写的第二似然值,所述第二似然值表示所述给定替代拼写可对应于第一音素序列的似然值。
18.根据权利要求17所述的系统,其中,所述一个或多个处理器还被配置为识别所述识别的一个或多个替代音素中的每一个的第三似然值,所述第三似然值表示所述识别的一个或多个替代音素中的每一个可用于代替所述第一音素序列的音素的似然值。
19.根据权利要求18所述的系统,其中,所述一个或多个处理器还被配置为基于包括在所述给定替代音素序列中的每个识别的替代音素的识别的第三似然值,生成所述一个或多个替代音素列中的每个给定替代音素序列的第四似然值,所述第四似然值表示所述给定替代音素序列可对应于所述第一音素序列的似然值。
20.根据权利要求19所述的系统,其中,所述一个或多个处理器还被配置为基于所述第二似然值和所述第四似然值生成概率分布,所述概率分布表示每个生成的替代拼写对应于所述给定单词的可能性。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202141024922 | 2021-06-04 | ||
IN202141024922 | 2021-06-04 | ||
PCT/US2021/043739 WO2022256026A1 (en) | 2021-06-04 | 2021-07-29 | Systems and methods for generating phonetic spelling variations |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117396879A true CN117396879A (zh) | 2024-01-12 |
Family
ID=77431403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180098818.XA Pending CN117396879A (zh) | 2021-06-04 | 2021-07-29 | 用于生成地区特定语音拼写变体的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11893349B2 (zh) |
EP (1) | EP4323908A1 (zh) |
CN (1) | CN117396879A (zh) |
WO (1) | WO2022256026A1 (zh) |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US7277851B1 (en) * | 2000-11-22 | 2007-10-02 | Tellme Networks, Inc. | Automated creation of phonemic variations |
GB0118184D0 (en) * | 2001-07-26 | 2001-09-19 | Ibm | A method for generating homophonic neologisms |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US7912716B2 (en) * | 2005-10-06 | 2011-03-22 | Sony Online Entertainment Llc | Generating words and names using N-grams of phonemes |
US20070150279A1 (en) * | 2005-12-27 | 2007-06-28 | Oracle International Corporation | Word matching with context sensitive character to sound correlating |
US20080244387A1 (en) * | 2007-03-30 | 2008-10-02 | Vadim Fux | Use of a Suffix-Removing Spell Check Algorithm for a Spell Check Function, and Associated Handheld Electronic Device |
US8881004B2 (en) * | 2007-03-30 | 2014-11-04 | Blackberry Limited | Use of multiple data sources for spell check function, and associated handheld electronic device |
TWI391915B (zh) * | 2009-11-17 | 2013-04-01 | Inst Information Industry | 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法 |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
EP2646932A4 (en) * | 2010-12-02 | 2017-04-19 | Accessible Publishing Systems Pty Ltd | Text conversion and representation system |
US9164983B2 (en) * | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
US9275633B2 (en) * | 2012-01-09 | 2016-03-01 | Microsoft Technology Licensing, Llc | Crowd-sourcing pronunciation corrections in text-to-speech engines |
US11295730B1 (en) * | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
GB2533370A (en) * | 2014-12-18 | 2016-06-22 | Ibm | Orthographic error correction using phonetic transcription |
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
US10095683B2 (en) * | 2015-04-10 | 2018-10-09 | Facebook, Inc. | Contextual speller models on online social networks |
US10255905B2 (en) * | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
US10147417B2 (en) * | 2016-10-03 | 2018-12-04 | Avaya Inc. | Electronic speech recognition name directory prognostication system by comparing a spoken name's packetized voice to stored phonemes |
US10319250B2 (en) * | 2016-12-29 | 2019-06-11 | Soundhound, Inc. | Pronunciation guided by automatic speech recognition |
KR102329127B1 (ko) * | 2017-04-11 | 2021-11-22 | 삼성전자주식회사 | 방언을 표준어로 변환하는 방법 및 장치 |
US11068659B2 (en) * | 2017-05-23 | 2021-07-20 | Vanderbilt University | System, method and computer program product for determining a decodability index for one or more words |
US11335333B2 (en) * | 2018-07-20 | 2022-05-17 | Google Llc | Speech recognition with sequence-to-sequence models |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
EP3955243A3 (en) * | 2018-10-11 | 2022-05-11 | Google LLC | Speech generation using crosslingual phoneme mapping |
WO2020226948A1 (en) * | 2019-05-03 | 2020-11-12 | Google Llc | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models |
EP3966808A1 (en) * | 2019-05-10 | 2022-03-16 | Google LLC | Using context information with end-to-end models for speech recognition |
US11217231B2 (en) * | 2019-06-19 | 2022-01-04 | Google Llc | Contextual biasing for speech recognition using grapheme and phoneme data |
US20210049927A1 (en) * | 2019-08-13 | 2021-02-18 | Vanderbilt University | System, method and computer program product for determining a reading error distance metric |
US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
EP4061219A4 (en) * | 2019-11-21 | 2023-12-06 | Cochlear Limited | ASSESSMENT SPEECH AUDIOMETRY |
CA3161400A1 (en) * | 2019-12-11 | 2021-06-17 | Zachary Silverzweig | Unambiguous phonics system |
US11829720B2 (en) * | 2020-09-01 | 2023-11-28 | Apple Inc. | Analysis and validation of language models |
US11645478B2 (en) * | 2020-11-04 | 2023-05-09 | Adobe Inc. | Multi-lingual tagging for digital images |
CN113393830B (zh) * | 2021-06-11 | 2022-10-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 混合声学模型训练及歌词时间戳生成方法、设备、介质 |
CN114495910B (zh) * | 2022-04-07 | 2022-08-02 | 联通(广东)产业互联网有限公司 | 文本纠错方法、系统、设备及存储介质 |
CN115512689A (zh) * | 2022-09-12 | 2022-12-23 | 昆明理工大学 | 一种基于音素对迭代融合的多语种音素识别方法 |
-
2021
- 2021-07-29 CN CN202180098818.XA patent/CN117396879A/zh active Pending
- 2021-07-29 WO PCT/US2021/043739 patent/WO2022256026A1/en active Application Filing
- 2021-07-29 EP EP21758528.0A patent/EP4323908A1/en active Pending
-
2022
- 2022-04-08 US US17/716,430 patent/US11893349B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220391588A1 (en) | 2022-12-08 |
EP4323908A1 (en) | 2024-02-21 |
US11893349B2 (en) | 2024-02-06 |
WO2022256026A1 (en) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
US10210861B1 (en) | Conversational agent pipeline trained on synthetic data | |
US8805684B1 (en) | Distributed speaker adaptation | |
JP5413622B2 (ja) | 言語モデル作成装置、言語モデル作成方法、およびプログラム | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
US11437025B2 (en) | Cross-lingual speech recognition | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
CN112346696A (zh) | 虚拟助理的语音比较 | |
US20230419964A1 (en) | Resolving unique personal identifiers during corresponding conversations between a voice bot and a human | |
Nasr et al. | End-to-end speech recognition for arabic dialects | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
US11893349B2 (en) | Systems and methods for generating locale-specific phonetic spelling variations | |
US20220335951A1 (en) | Speech recognition device, speech recognition method, and program | |
JP2005208483A (ja) | 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置 | |
Li et al. | N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets | |
KR20230156795A (ko) | 단어 분할 규칙화 | |
JP2023007014A (ja) | 応答システム、応答方法、および応答プログラム | |
CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 | |
JP2020042174A (ja) | 語学学習支援装置、その方法、およびプログラム | |
KR20140135358A (ko) | 타국인 발화 음성을 위한 음성 인식 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |