JP4885160B2 - 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 - Google Patents

英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4885160B2
JP4885160B2 JP2008045135A JP2008045135A JP4885160B2 JP 4885160 B2 JP4885160 B2 JP 4885160B2 JP 2008045135 A JP2008045135 A JP 2008045135A JP 2008045135 A JP2008045135 A JP 2008045135A JP 4885160 B2 JP4885160 B2 JP 4885160B2
Authority
JP
Japan
Prior art keywords
pronunciation
phonetic
english
variant
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008045135A
Other languages
English (en)
Other versions
JP2009145856A (ja
Inventor
林瑞堂
許進順
▲霍▼慎由
呉宗憲
李桂銘
謝嘉欣
黄建霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of JP2009145856A publication Critical patent/JP2009145856A/ja
Application granted granted Critical
Publication of JP4885160B2 publication Critical patent/JP4885160B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

本発明は英語発音識別モジュールの構築方法に関し、特に英語変異発音を識別するモジュールを構築する方法に関する。
各国で使用している共通語はその国に住む各民族間で交流、コミュニケーションのために便利を図るものであるので、そこにいる民族の用語もしくはある地域の用語を各民族間の共通語としたりする場合が多く、国と国との間もそうであったりする。
いま国際間で最も使われている共通語は英語である。その発音を習得するために、その発音に対応する、たとえば、米国のJohn Samuel Kenyon氏及びThomas A. Knott氏が確立したKK音標、英国のDaniel Jones氏が確立したDJ音標、もしくはいま全世界で用いている国際標準音標IPA(The International Phonetic Alphabet)のような発声音標が使用されている。一方、コンピュータによって制御される製品が現代の生活の中に満ち溢れている。その中に音声によって操作する製品も多々あるので、音声の識別技術が日に日に注目されるようになってきている。
発音を識別する技術を支えるために、一般的に大衆が使用している国際標準音標で発音された英単語(長文、短文、単語及びアルファベット)の発音の録音を収集し、音声データベース(Corpus)を構築する。たとえば、CMU(Carnegie Mellon University、カーネギーメロン大学)が構築した約12万の英単語を含むCMU発音辞書(pronunciation lexicon)のような発音辞書をセットし、そこに蓄積されている英単語と国際標準音標とを対応させることで、1つ音標が1つの音声特徴値と対応することになる。
いずれかの英語発音識別システムがこのCMU発音辞書を使うときは、受け取った英語発音を対応する音声特徴値に変換し、それをCMU発音辞書に含まれる音声特徴値と比較することで、該当する英単語を取得する。
しかしながら、この先行技術には、避けることができない以下の欠点がある。
その一は、英語を母国語としない者、つまりイギリス英語もしくはアメリカ英語圏に属しない国の者が英語を話すときにその母国語の訛もしくは習慣を混じることが多々あることである。例えば図1Aから1Cに、台湾人が英語を話すときに中国語の影響を受けて間違った英語の発音が示されている。そこには国際標準音標と異なる変異発音が生じている。一方、現在使われている音声識別システムは、一般的に標準アメリカ英語もしくは標準イギリス英語の発音辞書を使用しているため、訛のある英語を分析した音声特徴はそれらの辞書に存在しないので、正しい英単語を抽出することができない。
その二は、今までの音声識別技術のすべてが可能とされる発音(実際の発音および仮の発音)を事前に定義し、かつ、例えばアルファベットの「A」ならその音標および考えられうる変異発音の音声特徴値のように、音声データベース(Corpus)に収集されている従来に変異発音のみを発音辞書(pronunciation lexicon)に定義することである。日本語のある50音(標)および中国語にある37の音標のような、音声データベース(Corpus)に入っていない非英語圏地域の言語発音に対する定義はないので、解析する音声の範囲は相当狭い。
したがって、本発明が解決しようとする問題は、異なる地域で使用されている母国語を基に英語の音標をあわせて、母国語の影響を受けている現地住民が喋る、変異発音を含む英語を識別することができる英語変異発音モジュールの提供にある。ここで、英語変異発音の例として英語を母国語としない人による外国語訛の英語発音が挙げられる。
上述した問題を解決するために、本発明は、異なる母音を有する英語発音の識別に用いる、英語変異発音を識別するモジュールの構築方法であって、まず複数の英単語とそれに対応する発声音標を提供し、英単語に対応する複数の発音情報を収集し、そして、母音と英語の音標とを複数の国際標準音標に対応させることによって複数の発音モジュールを形成させ、次いで、複数の発音モジュールが各英単語の発音情報をコンバートすることを利用し、英単語の発音音標と共に対応する英単語の1つ変異発音ネットワークを構築し、英単語の変異発音の順番の存否を検出し、変異発音順番を集約することで複数の変異発音規則を形成させ、その変異発音モジュールをセーブする、英語変異発音を識別するモジュールの構築方法を提供する。
その中、本発明の方法は記憶媒体の形式で表すことができる。これは、記憶媒体に記録されたプログラムを順に読み出して実行させることによって、上記と同じ方法で同じ問題を解決し、同じ効果を得ることができる。
本発明は、先行技術が達成することができない効果を有し、各地域の変異発音モジュールを構築することによって、現行の英語識別システムがその地域の母国語訛を有する英語発音を識別することができるようになる。また、各地域の研究者がその地域専用の英語識別システムを構築する際において、変異発音モジュールの構築方法にしたがって英語識別システムを構築することができる。変異発音モジュールが前者のもしくは後者の英語識別システムにおいても、英語発音の識別性を高めることができるので、英語識別システムの適用性を高めることができる。
以下は実施例を参照しながら、本発明の目的、構造特徴およびその機能をさらに説明する。
図2は、本発明の実施例で示す変異発音モジュールを構築する際のフローである。この変異発音のモジュールは異なる母国語の訛を有する英語発音を識別することができる。その構築ステップは以下の通りである。
複数の英単語と各英単語に対応する少なくとも1つの発音音標とを提供し、英単語の発音音標に基づいて対応する複数の音声情報を収集する(ステップS210)。このステップはCarnegie Mellon University、カーネギーメロン大学)が構築した約12万単語を含むCMU発音辞書で説明する。
図3は、本発明の実施例のCMU発音辞書部分の概略図である。この発音辞書では英単語毎にその正確な発音音標が付されている。その順序は、左から右に、整理番号と英単語とその発音音標とである。
この例では、発音音標が国際標準音標を基準にしているが、収集している音声情報は英語を母国語とせずに、例えば台湾人のような同一地区、民族、もしくはある国家の国民が提供した英語発音の音声情報のサンプルである。
母国語と英語との音標を複数の国際標準音標に対応させることで、複数の発音モジュールを形成させる(ステップS220)。台湾共通の母国語が使用する発音記号を例として、その37の音声を39の英語の音声にあわせて、対応する計55の国際標準音標(The International Phonetic Alphabet:IPA)を形成させる。
まず、その1つ国際標準音標に対応する複数の音標発音を収集し、各音標発音を対応する特徴値にコンバートする。図4Aから図4Fの示すように、英単語bを例として、まず、台湾民衆のbの音標発音を収集し、フーリエ変換でこの英単語bの音標発音を対応する特徴値401にコンバートする。ついで、特徴値401を1つデータ群に展開し、当該特徴値401が対応する1つ閾値を計算する。その閾値は1つ絶対値ではなく、特徴値401の値によって、統計の方法によって算出された1つ最も好ましい値である。
そして、このデータ群が持つ全ての特徴値401の和を求めてからその平均を求める方法で、当該データ群401の1つ発音平均値402を計算する。ついで、当該発音平均値402が各特徴値401との数値距離を計算し、データ群の中にある、発音平均値402と最も遠い数値距離を有する1つ第一特徴値403を取得する。次いで、同じデータ群にある、第一特徴値403と最も遠い数値距離を有する1つ第二特徴値404との間の数値距離を計算する。
各特徴値401が第一特徴値403と第二特徴値404との間の数値距離を再計算し、各特徴値401が第一特徴値403に対応するかもしくは第二特徴値404に対応するかを判断するために計算結果によって得た比較小さい数値距離を取得し、第一特徴値403に近い特徴値401をデータ群410と、第二特徴値404に近い特徴値401をデータ群420とに分け、そしてこの2つデータ群の群内距離(Between Distance)431と群間距離(Within Distance)432とを取得してデータ群を分ける基準、すなわち分群基準を割り出す。
ここでいう群間距離432は、任意のデータ群と他のデータ群との間の距離で、すなわち、それぞれデータ群の発音平均値の間の距離とである。群内距離431は、同じデータ群の中において、各特徴値401が発音平均値402までのデータ距離の和であり、分群基準は群間距離432/群内距離431の値である。
分群基準が閾値より大きいか否かを比較し、その結果として閾値が大きければ、発音モジュールを含むデータ群を取得する。その結果として閾値が小さければ、群を分けるために、閾値が分群基準より大きくなるまで各データ群の1つ発音平均値402を継続的に計算する。この方法によれば、b発音に対応するモジュールの少なくとも1つデータ群を得ることができる。このデータ群に含まれている特徴値は、母国語に対応する音標で、すなわち発音記号に対応する特徴値、もしくは、英語音標に対応する特徴値である。したがって、全ての母国語の発音記号を英語の国際標準音標に対応し、発音モジュールを形成させることを可能にすることができる。
これらの発音モジュールを利用して各英単語の全ての音声情報をコンバータし、当該英単語の発音音標にあわせて当該英単語の1つ変異発音のネットワークを構築し、英単語に変異発音順番の存否を検出する(ステップ230)。
図5に示すように、英単語「attend」を例にすると、CMU発音辞書において対応する発音の順番は、「AH、T、EN、N、D」の国際標準音標となっている。これらの発音音標の各発音間の距離において変異発音の挿入の有無を検出するためにこの英単語の発音音標を基準として設定し、前記構築した発音モジュールを利用してインプットされる発音と「AH」との間、「AH」と「T」との間、「T」と「EH」との間、「EH」と「N」との間、「N」と「D」との間、「D」と終結発音との間の発音距離に挿入された変異発音があるか否かを検出する。
各発音音標から次の発音音標までの間に変異で欠失された発音の有無を検出する。検出する際に、両隣の発音音標の間で変異発音の欠失の有無を検出する以外に、もし発音音標の後ろに変異発音の挿入があれば、当該発音音標とその変異発音の挿入との間に変異発音の欠失の有無を検出する。
最後に、この変異発音のネットワークを構築するために、各発音音標に対応する代替変異発音を検出する(ステップ240)。そして、変異発音のネットワークの複雑度を簡易化するために、以下の2つの方法で不可能とされる変異発音の順番を削除する。この2つの方法は以下の通りである。
その一は、各発音音標が国際標準音標における発音類型を取得し、同じ発音類型の少なくとも1つ国際標準音標を発音音標の代替変異発音とする。
図6は、国際標準音標に対応して形成した母国語と英語の音標との音標対象表である。それらは以下のように、「有声−破裂音(Voiced plosive)」、「無声−破裂音(Unvoiced plosive)」、「摩擦音(Fricatives)」、「破擦音(Affricatives)」、「鼻音(Nasals)」、「流音(Liquids)」、「前舌母音(Front vowels)」、「中舌母音(Central vowels)」、「後部円唇母音(Back rounded vowels)」、「後部非円唇母音(Back
unrounded vowels)」に区分することができる。
attendの音標「AH、T、EN、N、D」をこの表と比較して同じ発音類別の国際標準音標を取得する。たとえば、「T」の発音類型は「無声−破裂音(Unvoiced plosive)」で、その他の同じ発音類別はただ「P」と「K」としかなく、よって、発音「T」代替変異発音は「P」と「K」としかなく、たとえば「T」は「A」の発音はできないように、別の異なる類型の音標によって代替されることはないので、異なる発音類型の音標はここでは考えないものとする。
その二は、全ての国際標準音標の発音を収集し、各国際標準が発音の誤りによって異なる国際標準音標の発音になる確率を計算して構築された、図7のような1つフォンコンフィジョンマトリックス(phone confusion matrix)である。さらに、英単語の発音音標を基準に、1つ発音確立範囲内の少なくとも1の国際標準音標を取り出し、取り出された国際標準発音を発音音標の代替変異発音として設定する。フォンコンフィジョンマトリックス内の英語対応の発音確率は以下の通りである。(A)=0%-10%, (B)=10%-15%, (C)=15%-20%, (D)=20%-25%, (E)=25%-30%,
(F)=30%-35%, (G)=35%-40%, (H)=40%-45%, (I)=45%-50%, (J)=50%-55%, (K)=55%-60%,
(L)=60%-65%, (M)=65%-70%, (N)=70%-75%, (O)=75%-80%, (P)=80%-85%, (Q)=85%-90%,
(R)=90%-95%, (S)=95%-100%, (T)=100%である。
そして、例えば100%(T)の高い発音確率をとると、間違い生じ、もし例えば0%〜10%という低い発音確率をとると、過半数はよむことができないので、変異発音ネットワークの複雑度を簡素化すると同時に、変異発音の代替を正確に取得するために、上述した形態においてそれらを発音音標の代替発音音標として考慮しなくてもよい。
英単語のattendの発音音標「EH」を例にして、フォンコンフィジョンマトリックスと比較すると、「EH」を正確に発音する確率55%〜60%(K)を得ることができる。「er_M」として発音する確率は10%〜15%(B)で、「AE」として発音する確率は15%〜20%で、その他の確率は0%〜5%(A)である。したがって、音標「er_M」と音標「AE」とのみを音標「EH」の代替訛発音とすれば、その他の音標を考慮する必要はないので、英単語attendの変異発音のネットワークの複雑性を低下させ、変異発音のネットワーク識別性を高めることができる。
しかしながら、全ての変異(挿入変異音、欠失変異音、代替変異音等を含む)は連続した3つの発音によって推測される。この3つの発音は、全て発音できる音(possible pronunciation)である。図8に示すように、CMUの発音辞書を例にすると、そこにある12万の単語のそれぞれの単語の音標を連続する3つの音標を一組音標配列とし、各組音標配列をCMU発音辞書における出現頻度を統計し、その確率を計算する。この方法によって、CMU発音辞書から統計された2万組以上の音標配列は、各組の音標配列が統計係数と確率とに対応し、変異発音が入る可能性が最も高いことを示す、かつ、新しい音標配列参照表になる。
attendを例にすると、その発音音標が「AH、T、EH、N、D」であるので、CMUの発音辞書から「AH、T、EH」と「T、EH、N」と「EH、N、D」との音標配列の係数および確率を割り出す。それによってCMU発音辞書にある全ての音標配列および統計係数と確率とを整理する。
統計の結果で得た音標配列は、その一部を示している図8のようである。その中、第26番の音標配列「t_M-i_M-sil」(全文および図面中のsilは発音しない)の統計確率は5974回、第25番の音標配列「n_M-t_M-i_M」の統計確率は2012回である。これは、第26番の音標配列「t_M-i_M-sil」がCMU発音辞書の12万英単語において発音もしくは変異発音が挿入される可能性は極めて高く、それに対し、第25番の音標配列「n_M-t_M-i_M」が発音される係数と確率とは比較的に少ないことを示している。
例えば台湾人のような、英語もしくはアメリカン英語を母国語としない人々のしゃべる英語を識別する際にこの参照表を利用するだけで、台湾人が英語を発音するときの訛に合致する発音を得ることができる。それによって、複雑度が低く、かつ、正確な変異発音ネットワークを構築することができる。
それから、正常の変異発音以外の変異発音の規則を取得するために、英単語の変異発音ネットワークを基に、英単語を分析することによって、1つ推測された規則(ステップS250)を得ることができる。それは、全ての発音音標を言語学の発音特徴に対応させ、英単語の変異発音ネットワークを分析し、対応する推測された規則を得、同じ発音特徴を有する発音音標が同じ推論された規則を有することを判断するものである。
図9は、本発明の発音音標を言語学の発語学音言特徴に対応した概念図である。
図10に示すように、attendの発音音標「AH、T、EH、N、D」を例とすると、その順番は、「開始-AH-T-EH-N-D-sil」となり、先にattendの変異発音のネットワークを割り出し、データマイニング(Data mining)法を利用して、このattendの変異発音のネットワークから変異発音の態様を取得する。この例の中には、「N-D-sil」の変異発音の態様は3つ種類がある。
その一は、発音のアクセントが重い場合で、「N-D-sil」を「N-D-ER-sil」もしくは「N-D-AH-sil」と発音してしまい、変異音が挿入された場合である。
その二は、一部の発音を省略した場合で、「N-D-sil」を「N- sil」と発音してしまい、変異音が欠失された場合である。
その三は、間違って発音した場合で、「N-D-sil」を「N-T-sil」と発音してしまい、変異音によって代替された場合である。
よって、発音音標が「D」の前に発音音標「N」を有し、そのあとに「sil」を有するときに、この3種の変異発音の態様が生じ、3種発音の変異規則に対応する。
発音音標「D」を図9に示す言語学の発音特徴を示す図と対比すれば、図11に示す結果を得ることができる。発音音標「D」、発音音標「B」、発音音標「G」の発音位置は歯茎音と両唇音と軟口蓋音とであるが、その全ての発音方法は破裂音および有声音である。よって、「N-D-sil」を判断する変異発音規則は発音音標「B」と発音音標「G」との発音に適用する。
データマイニング法(Data mining)を用いて、それぞれの発音変異規則の信頼スコア(confidence
score)を計算し、発音変異規則の相対関係を取得し、各英単語が使用する発音の変異規則の優先度を判断し、最も正確な変異発音の順番を取得する。
図12はattendの変異発音の順番で、前述した方法を利用して、attendの変異発音ネットワークを形成させ、変異発音規則の算出もしくは推測を利用して、最も正確な変異発音順番を取得する。図面から分かるように、発音音標「AH」が正確に発音される確率は72%で、「UH」に間違って発音される確率は28%である。発音音標「N」の後に「D」を発音する確率は60%で、「sil」を発音しない確率は40%である。一方、発音音標「D」の後に、「sil」を発音しない確率は87%で、ミックスされた発音で「AH」を発音する場合は13%である。よって、attendの変異発音の順番はattendの変異発音ネットワークが前述した変異発音規則を利用し、簡素化した後に、最もよき変異順番を形成させる。
本発明を実施するために最良の形態を以上のように開示したが、これらの態様は本発明を限定するものではない。当該技術分野の一般知識を有する者は、本発明の技術的思想の範囲において、本発明の構造に対する代替、変更のいずれとも本発明の技術的範囲にある。
一般音標を間違って発音した場合の対応表。 一般音標を間違って発音した場合の対応表。 一般音標を間違って発音した場合の対応表。 本発明の実施例の変異発音模型構築フロー。 本発明の実施例のCMU発音辞書部分を示す図。 発音モデル(モジュール)の発音特徴値の分布を示す図。 発音モデル(モジュール)の発音特徴値の分布を示す図。 発音モデル(モジュール)の発音特徴値の分布を示す図。 発音モデル(モジュール)の発音特徴値の分布を示す図。 発音モデル(モジュール)の発音特徴値の分布を示す図。 発音モデル(モジュール)の発音特徴値の分布を示す図。 本発明の変異発音ネットワーク構築図。 本発明の実施例の国際標準音標の音標対照表。 本発明の実施例のフォンコンフィジョンマトリックスを示す図。 本発明の実施例の音標配列参照表。 本発明の実施例の発音音標特徴化の対照を示す図 本発明の実施例の変異発音態様を示す図。 本発明の実施例の発音特徴対比を示す図。 本発明の実施例の変異発音順番を示す図。
符号の説明
401 特徴値
402 発音平均値
403 第一特徴値
404 第二特徴値
410 数値群
420 数値群
431 群内距離
432 群間距離

Claims (12)

  1. 異なる母音を有する英語発音の識別に用いられる、英語変異発音を識別するモジュールの構築方法であって、
    複数の英単語と当該各英単語に対応する少なくとも1つ発声音標を提供し、当該英単語の当該発声音標を基にそれに対応する複数の発音情報を収集するステップと、
    当該母音と当該英語の音標とを複数の国際標準音標に対応させることによって複数の発音モジュールを形成させるステップと、
    当該複数の発音モジュールが当該各英単語の当該発音情報をコンバートすることを利用し、当該英単語の当該発音音標と共に対応する当該英単語の1つ変異発音ネットワークを構築することで、当該英単語の変異発音の順番の存否を検出するステップと、
    当該変異発音順番を集約することで複数の変異発音規則を形成させるステップと、
    当該英単語を分析し、その発音音標の変異を基に1つ推測規則を取得するステップと、
    を含んでなる英語変異発音を識別するモジュールの構築方法であって、
    当該対応する英単語の変異発音ネットワークを構築することが、
    当該英単語の当該発音音標を基準に設定するステップと、
    当該複数の発音音標の各発音の間に1つ変異発音の挿入の有無を検出するステップと、
    当該各発音音標と当該次の発音音標との間に1つ変異発音の欠失の有無を検出するステップと、
    当該各発音音標が対応する代替変異発音を検出するステップとを含み、
    前記当該各発音音標が対応する代替変異発音を検出するステップが、
    当該国際標準音標の発音を収集するステップと、
    当該各国際標準音標の発音確率を計算し、フォンコンフィジョンマトリックスを構成させるステップと、
    当該発音音標を基準とし、1つ発音確率範囲の少なくとも1つの国際標準音標を得るステップと、
    当該各発音音標と当該国際標準音標の発音類型とを取得するステップと、
    同じ発音類型の少なくとも1つ当該国際標準音標もしくは当該発音確率範囲の当該国際標準を当該発音音標の当該代替変異発音とするステップとを含むことを特徴とする英語変異発音を識別するモジュールの構築方法。
  2. 前記各発音モジュールを形成するステップは、
    当該1つ国際標準音標に対応する複数音標発音を収集し、当該各音標発音を対応の特徴値にコンバートするステップと、
    当該複数の特徴値を1つ数値群に形成し、当該複数の特徴値が対応する1つの群の閾値を計算するステップと、
    当該数値群の1つ発音平均値を計算するステップと、
    等しい数値群の中から、当該発音平均値との間隔が最も遠い距離にある第一特徴値を取得するステップと、
    等しい数値群の中から、当該第一特徴値との間隔が最も遠い距離にある第二特徴値を計算するステップと、
    当該各特徴値が第一特徴値と第二特徴値との間の数値距離を計算し、当該第一特徴値に近い当該複数の特徴値と当該第二特徴値に近い当該複数の特徴値とを2つ数値群に仕分けるステップと、
    当該2つの数値群の群内距離と群間距離を取得し、1つの群分け基準を計算するステップと、
    当該群分け基準が当該群の閾値により大きければ、当該数値群の1つ発音平均値を計算し、小さければ、当該発音モジュールに含まれている当該複数数値群を取得するステップと、
    からなることを特徴とする請求項1に記載の英語変異発音を識別するモジュールの構築方法。
  3. 前記当該発音モジュールの少なくとも1つの数値群に含まれる当該複数特徴値が当該母音の音標に対応することを特徴とする請求項2に記載の英語変異発音を識別するモジュールの構築方法。
  4. 前記当該発音モジュールの少なくとも1つの数値群に含まれる当該複数特徴値が当該英語の音標に対応することを特徴とする請求項2に記載の英語変異発音を識別するモジュールの構築方法。
  5. フーリエ変換を利用して前記当該音標発音を当該特徴値にコンバートすることを特徴とする請求項2に記載の英語変異発音を識別するモジュールの構築方法。
  6. 当該複数発音音標を言語学の発音特徴に対応させるステップと、
    当該英単語の当該変異発音ネットワークを分析し、当該推測規則を取得するステップと、
    同じ発音特徴を有する当該複数発音音標が同じ当該推測規則を有することを判断するステップと、
    をさらに含むことを特徴とする請求項に記載の英語変異発音を識別するモジュールの構築方法。
  7. 異なる母音を有する英語発音の識別に用いる、英語変異発音を識別するモジュールの構築を実現するプログラムを記憶した、コンピュータが読み取り可能な記録媒体であって、当該英語変異発音を識別するモジュールの構築方法
    複数の英単語と当該各英単語に対応する少なくとも1つ発声音標を提供し、当該英単語の当該発声音標を基にそれに対応する複数の発音情報を収集するステップと、
    当該母音と当該英語の音標とを複数の国際標準音標に対応させることによって複数の発音モジュールを形成させるステップと、
    当該複数の発音モジュールが当該各英単語の当該発音情報をコンバートすることを利用し、当該英単語の当該発音音標と共に対応する当該英単語の1つ変異発音ネットワークを構築することで、当該英単語の変異発音の順番の存否を検出するステップと、
    当該変異発音順番を集約することで複数の変異発音規則を形成させるステップと、
    当該英単語を分析し、その発音音標の変異を基に1つ推測規則を取得するステップと、
    を含んでなる英語変異発音を識別するモジュールの構築方法であって、
    当該対応する英単語の変異発音ネットワークを構築することが、
    当該英単語の当該発音音標を基準に設定するステップと、
    当該複数の発音音標の各発音の間に1つ変異発音の挿入の有無を検出するステップと、
    当該各発音音標と当該次の発音音標との間に1つ変異発音の欠失の有無を検出するステップと、
    当該各発音音標が対応する代替変異発音を検出するステップとを含み、
    前記当該各発音音標が対応する代替変異発音を検出するステップが、
    当該国際標準音標の発音を収集するステップと、
    当該各国際標準音標の発音確率を計算し、フォンコンフィジョンマトリックスを構成させるステップと、
    当該発音音標を基準とし、1つ発音確率範囲の少なくとも1つの国際標準音標を得るステップと、
    当該各発音音標と当該国際標準音標の発音類型とを取得するステップと、
    同じ発音類型の少なくとも1つ当該国際標準音標もしくは当該発音確率範囲の当該国際標準を当該発音音標の当該代替変異発音とするステップとを含むことを特徴とする、英語変異発音を識別するモジュールの構築を実現するプログラムを記憶した、コンピュータが読み取り可能な記録媒体。
  8. 前記各発音モジュールを形成するステップは、
    当該1つ国際標準音標に対応する複数音標発音を収集し、当該各音標発音を対応の特徴値にコンバートするステップと、
    当該複数の特徴値を1つ数値群に形成し、当該複数の特徴値が対応する1つの群の閾値を計算するステップと、
    当該数値群の1つ発音平均値を計算するステップと、
    等しい数値群の中から、当該発音平均値との間隔が最も遠い距離にある第一特徴値を取得するステップと、
    等しい数値群の中から、当該第一特徴値との間隔が最も遠い距離にある第二特徴値を計算するステップと、
    当該各特徴値が第一特徴値と第二特徴値との間の数値距離を計算し、当該第一特徴値に近い当該複数の特徴値と当該第二特徴値に近い当該複数の特徴値とを2つ数値群に仕分けるステップと、
    当該2つの数値群の群内距離と群間距離を取得し、1つの群分け基準を計算するステップと、
    当該群分け基準が当該群の閾値により大きければ、当該数値群の1つ発音平均値を計算し、小さければ、当該発音モジュールに含まれている当該複数数値群を取得するステップと、
    からなることを特徴とする請求項に記載の記録媒体。
  9. 前記当該発音モジュールの少なくとも1つの数値群に含まれる当該複数特徴値が当該母音の音標に対応することを特徴とする請求項に記載の記録媒体。
  10. 前記当該発音モジュールの少なくとも1つの数値群に含まれる当該複数特徴値が当該英語の音標に対応することを特徴とする請求項に記載の記録媒体。
  11. フーリエ変換を利用して前記当該音標発音を当該特徴値にコンバートすることを特徴とする請求項に記載の記録媒体。
  12. 当該複数発音音標を言語学の発音特徴に対応させるステップと、
    当該英単語の当該変異発音ネットワークを分析し、当該推測規則を取得するステップと、
    同じ発音特徴を有する当該複数発音音標が同じ当該推測規則を有することを判断するステップと、
    をさらに含むことを特徴とする請求項に記載の記録媒体。
JP2008045135A 2007-12-12 2008-02-26 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 Expired - Fee Related JP4885160B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW096147548 2007-12-12
TW096147548A TW200926142A (en) 2007-12-12 2007-12-12 A construction method of English recognition variation pronunciation models

Publications (2)

Publication Number Publication Date
JP2009145856A JP2009145856A (ja) 2009-07-02
JP4885160B2 true JP4885160B2 (ja) 2012-02-29

Family

ID=40754411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008045135A Expired - Fee Related JP4885160B2 (ja) 2007-12-12 2008-02-26 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US8000964B2 (ja)
JP (1) JP4885160B2 (ja)
TW (1) TW200926142A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US20120179694A1 (en) * 2009-09-28 2012-07-12 International Business Machines Corporation Method and system for enhancing a search request
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
US9177545B2 (en) * 2010-01-22 2015-11-03 Mitsubishi Electric Corporation Recognition dictionary creating device, voice recognition device, and voice synthesizer
JP5159853B2 (ja) 2010-09-28 2013-03-13 株式会社東芝 会議支援装置、方法およびプログラム
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
TWI475558B (zh) 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
CN113053415B (zh) * 2021-03-24 2023-09-29 北京如布科技有限公司 一种连读的检测方法、装置、设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193350A (ja) * 1997-11-17 2007-08-02 Internatl Business Mach Corp <Ibm> 発音矯正装置、発音矯正方法および記録媒体
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP3712583B2 (ja) * 2000-02-17 2005-11-02 日本電信電話株式会社 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
JP2002082688A (ja) * 2000-09-05 2002-03-22 Mitsubishi Electric Corp 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
US7181395B1 (en) * 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US6738738B2 (en) * 2000-12-23 2004-05-18 Tellme Networks, Inc. Automated transformation from American English to British English
US20020087317A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented dynamic pronunciation method and system
JP3686934B2 (ja) * 2001-01-25 2005-08-24 独立行政法人産業技術総合研究所 異種環境音声データの音声検索方法及び装置
EP1233406A1 (en) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Speech recognition adapted for non-native speakers
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
DE60316912T2 (de) * 2003-04-29 2008-07-31 Sony Deutschland Gmbh Verfahren zur Spracherkennung
JP2005099376A (ja) * 2003-09-24 2005-04-14 Canon Inc 音声認識方法および装置
JP4283133B2 (ja) * 2004-02-23 2009-06-24 株式会社国際電気通信基礎技術研究所 音声認識装置
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
JP2007155833A (ja) * 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2009145856A (ja) 2009-07-02
US20090157402A1 (en) 2009-06-18
TW200926142A (en) 2009-06-16
US8000964B2 (en) 2011-08-16
TWI348152B (ja) 2011-09-01

Similar Documents

Publication Publication Date Title
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN106782560B (zh) 确定目标识别文本的方法及装置
Lee et al. An information-extraction approach to speech processing: Analysis, detection, verification, and recognition
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
CN106782603B (zh) 智能语音评测方法及系统
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
CN114026636A (zh) 用于语音识别的场境偏置
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN109979257B (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
Metze Articulatory features for conversational speech recognition
Ogawa et al. Estimating speech recognition accuracy based on error type classification
CN116434780A (zh) 具备多读音纠错功能的语言学习系统
Arslan et al. Detecting and correcting automatic speech recognition errors with a new model
EP2608196B1 (en) Combinatorial method for generating filler words
JP6637333B2 (ja) 音響モデル生成装置およびそのプログラム
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
Zhang et al. Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition
Hasegawa-Johnson et al. Audiovisual speech recognition with articulator positions as hidden variables
Tian Data-driven approaches for automatic detection of syllable boundaries.
Fosler-Lussier A tutorial on pronunciation modeling for large vocabulary speech recognition
JP2010044171A (ja) 字幕出力装置、字幕出力方法及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101015

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110112

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110210

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110216

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110311

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4885160

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees