JP2007521521A

JP2007521521A - 音声識別と通しての言語学習を容易にするためのシステム，方法，コンピュータープログラム，データの集合

Info

Publication number: JP2007521521A
Application number: JP2006550196A
Authority: JP
Inventors: アンヘル・パラショス・オルエタ
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-01-08
Filing date: 2005-01-07
Publication date: 2007-08-02
Also published as: US20070015122A1; US8408913B2; WO2005066916A1

Abstract

この技術は，音声の知覚と識別をよりよくすることによって言語習得を容易にすることを目指している．外国語学習者たちは，特に学習している外国語の音声の修得に大きな問題を抱えているということは，知られている．可能性のあるいくつかの原因の中でも，これは，目標言語の書記形式と、学習者が脳の中でその書記形式において使用されている文字に対して結び付けている音声との間の，干渉現象のためである．外国語学習の場合において，この結びつきは基本的に学習者の母語からもたらされる．本技術は，書記形式と発話形式の間に干渉を引き起こすことなく，目標言語の音声を操作できるようにしてくれる図による言語習得のための訓練方法を提案する．

Description

この技術は，言語習得の分野，特に言語の口頭理解と発音の学習の領域に該当する．

（参考資料）
技術の現状と一般的な知識を確認するには，以下の文献を参考されたい．これらは，以下の説明において，適宜使われる．
［１］Ａｎｄｅｒｓｏｎ，Ｓ．Ｒ．，Ｌｉｇｈｔｆｏｏｔ，Ｄ．Ｗ．（２００２）：“Ｔｈｅｌａｎｇｕａｇｅｏｒｇａｎ：ｌｉｎｇｕｉｓｔｉｃｓａｓｃｏｇｎｉｔｉｖｅｐｈｙｓｉｏｌｏｇｙ”（言語器官：認知生理学としての言語学），ＮｅｗＹｏｒｋ：ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ．
［２］Ａｕｒａｌｏｇ：Ｃｕｒｓｏｓｄｅｉｄｉｏｍａｓｅｘｔｒａｎｊｅｒｏｓ“Ｔａｌｋｔｏｍｅ”（外国語講座「私に話しかけて」）．
［３］Ｂｏｒｄｅｎ，Ｇ．Ｊ．，Ｈａｒｒｉｓ，Ｋ．Ｓ．，Ｒａｐｈａｅｌ，Ｌ．Ｊ．（１９９４）：“ＳｐｅｅｃｈＳｃｉｅｎｃｅＰｒｉｍｅｒ：Ｐｈｙｓｉｏｌｏｇｙ，ＡｃｏｕｓｔｉｃｓａｎｄＰｅｒｃｅｐｔｉｏｎｏｆＳｐｅｅｃｈ”（ことば科学入門：生理学，音響学，話しことば知覚），ＷｉｌｌｉａｍｓａｎｄＷｉｌｋｉｎｓ．
［４］Ｇｏｌｄｓｍｉｔｈ，Ｊ．（１９９５）：“ＴｈｅＨａｎｄｂｏｏｋｏｆＰｈｏｎｏｌｏｇｉｃａｌＴｈｅｏｒｙ”（音韻理論ハンドブック），ＣａｍｂｒｉｄｇｅＭＡ，ＢｌａｃｋｗｅｌｌＰｕｂｌｉｓｈｅｒｓ．
［５］Ｋａｇｅｒ，Ｒ．（１９９５）：ＴｈｅＭｅｔｒｉｃａｌＴｈｅｏｒｙｏｆＷｏｒｄＳｔｒｅｓｓ（語ストレスの韻律理論），ｅｎ［Ｇｏｌｄｓｍｉｔｈ（１９９５）］
［６］Ｌａｄｅｆｏｇｅｄ，Ｐ．（２００１）：“ＶｏｗｅｌｓａｎｄＣｏｎｓｏｎａｎｔｓ”（母音と子音），Ｍａｌｄｅｎ，ＭＡ：ＢｌａｃｋｗｅｌｌＰｕｂｌｉｓｈｅｒｓ．
［７］Ｏｈａｌａ，Ｊ．（１９９５）：ＥｘｐｅｒｉｍｅｎｔａｌＰｈｏｎｏｌｏｇｙ（実験音韻論），ｅｎ［Ｇｏｌｄｓｍｉｔｈ（１９９５）］
［８］Ｑｕｉｌｉｓ，Ａ．，Ｆｅｒｎａｎｄｅｚ，Ｊ．（１９７５）：“Ｃｕｒｓｏｄｅｆｏｎｅｔｉｃａｙｆｏｎｏｌｏｇｉａｅｓｐａｎｏｌａｓ：ｐａｒａｅｓｔｕｄｉａｎｔｅｓａｎｇｌｏａｍｅｒｉｃａｎｏｓ”（スペイン語音声学・音韻論講座：英米人学生のために），ＣＳＩＣ
［９］Ｔｏｍａｔｉｓ，Ａ．（１９９６）：“ＴｈｅＥａｒａｎｄＬａｎｇｕａｇｅ”（耳と言語），Ｍｏｕｌｉｎ，Ｃａｎａｄａ．

外国語習得は，成人学習者にとって困難の連続である．学習者は，学習している言語が時代遅れになり，学びたいと思っている目標の言語とはかけ離れたものになってしまっているという状況に至りがちである．

習得の最も困難な側面は，発音，つまり音声学と音韻論である．成人がネイティブのような発音を身に付けるに至ることは，極めて稀なことである．これは難しい側面であり，統語論と比較して，音韻論と音声学をどのようにして学ぶかということに関する研究もほとんど存在せず，この問題を解くための方法もほとんどない．

音声学と音韻論の学習の困難さに関するある見方には，問題は発声器官の訓練の不足にあるということがある．この見方に基づいて、目標言語の一節を繰り返し発声すること，というような指導がされがちである．時には，学習者に発声器官の筋肉をどのように運動させるのかを説明する図が示される場合もある．

発声される音声の波形を自動的に評価し，そのメカニズムを使うことで学習者が自分の発音の質を計り，改善するのを助けようとする教育製品もある．［Ａｕｒａｌｏｇ］

この問題へのもうひとつのアプローチは，ＡｌｆｒｅｄＴｏｍａｔｉｓ［Ｔｏｍａｔｉｓ］のものである．Ｔｏｍａｔｉｓは，自身の科学的研究の結果として，問題は実際，聴覚にあると示唆する．特定の周波数を際立たせてそれ以外を縮小させられた音声のサンプルを作るという決まった形式で聴覚を訓練するということに基づく教育システムを提案する．こうしてこの範囲の萎縮を減らすことに役立ち，学習者は言語音をより適切に受け取ることができ，そのためにそれを発音することもより適切にできるという考えである．

残念なことに，これらのアプローチのうち，どれも外国語の発音という特別な学習のための決定的な解答ではない．ここで提案する技術は，主要な問題が起こる領域を特定するために言語習得に関する現存する知識を用い，それを解決するための方法を提案する．

（問題の分析）
（音習得における困難）
言語の発音の学習は，２つの側面に基づく．
・音声学の習得つまり，話者の口頭発声を構成するそれぞれの音声を特徴付ける特徴の習得．これらの特徴は，基本的に音声出力のスペクトルの輪郭と関係する．これらの特徴を習得するために，まずそれらを特定し，記憶することが必要である．
・音韻論の習得つまり，ある単語や句の音声がどのように影響を受け，それら同士を関係付けるか，や，例えば周波数や強さのような決まった特徴の一時的発達が，どのように構造やことばの意味を伝達するのに役立っているがの習得．音韻論はその音声そのものの特徴に基づくため，音韻論の習得は音声学の習得に支えられる．

数週間や数ヶ月の小さな幼児は，問題なくすべての言語の音の特徴を特定することができる．しかしながら，訓練可能な潜在能力は維持されるということはわかっているものの，この能力は少しずつ失われていく．

この音声を特定する難しさにより，特定されていないものをどうして記憶できようか？という理由から記憶することは不可能であるという結論になる．同時に，音声学を習得できないとなれば，音韻論の学習も困難なものになるという影響が生じる．つまり，それぞれの音声が習得できなければ，それらの音声の間の関係をどうやって学べるだろうか？ということである．

音声学と音韻論を学ぶことの難しさのために，学習者は３つの基本的な問題に出くわす．
−単語を習得することが非常に困難となる．ある単語を学ぶということは，音声のある連続を学ぶということであり，それらは学ぶのが困難だからである．

−音韻論を学ばなければ，自動的に無意識に単語を識別するということが非常に困難となる．異なる単語を特定するために脳を働かせるプロセスに関しては，多くの科学的研究が存在する．このプロセスの大部分は，音韻論がもたらす知識に基づいている．例えば，”ｌａｖａｃａｌｅｎｔｉｔａ”という音連続は，”ｌａｖａｃａｌｅｎｔｉｔａ（のろい牛）”ということばにも”ｌａｖａｃａｌｅｎｔｉｔａ（熱い溶岩）”ということばにも相当するが，音韻論は，聞き手がそれぞれの場合に応じたことばを識別することを可能にしてくれる［Ｑｕｉｌｉｓｅｔａｌ１９７５］．音韻論の学習に困難が生じれば，学習者は正しい形のことばを識別することにも問題を抱えることになる．

−音韻論を学ばなければ，聞こえる伝達内容の統語構造を特定する能力も失われてしまう（科学によって，この構造の情報は，言語音の周波数と強さと持続時間の変化によって伝えられるということがわかっている）．

以上の困難を克服するためには，普通，文字化されたテキストを用いることに頼る．学習者にとっては，ほとんどの場合において書かれたものの特徴は簡単に特定され，記憶されやすいため，ある単語を口頭の形よりも文字化された形で記憶する方がずっと簡単なのである．さらに，学習者には，ある決まった句の中にあるすべての単語を分析し，その句の構造を明らかにするための時間もある．

結果，一般的に言って，外国語学習者たちはとても早い段階で文字化された言語に接触する．教科書を使わない外国語の授業が存在することは困難である．これにより，学習される単語の多くは文字で書かれた形からであるということになる．

これから紹介する技術は，外国語学習において早まって文字化されたテキストを使用することは音声学や音韻論の習得を困難にするということを主張する．この側面の分析から，文字化されたテキストを早まって使用することの悪い影響を被ることなく，学習者が単語を識別でき，文の構造を特定できるようにする，言語の学習と練習の方法を提供する．

（書記言語と音声言語の関係の分析）
一般的に，現代の科学は，単語の書かれた文字と実際の音声の間には規則や関係のまとまりが存在し，これらの関係が，話者がその単語を使用できる形に影響を与えているということを受け入れている．

これらの規則や関係は，言語の中で使用される特徴に関する側面も含む．つまり，例えばある人が”ｂ”という文字に特定の音を結びつけるよう習慣づいてしまったら，その音を，外国語においてまでも，読むその文字を含む単語に結びつける傾向を持ってしまうだろう．そしてそのために，書かれた文字からの単語習得はそれに影響されてしまうだろう．

この意味では，ストループ効果を研究する実験の結果が推論されることができる［Ｐｏｓｓｎｅｒｅｔａｌ１９９９］．その効果を紹介するには，実験の対象となる学習者に，色の名前を表すがその色とは違う他の色で書かれた異なる単語を見せる．被験者がやらなければならないことは，それらの単語の色の名前を挙げていくことである．この仕事は一見非常に簡単に見えるが，しかしながら単語を読むことはそれが書かれているのとは違う色の概念を促し，葛藤を生むため，実行するのは非常に難しいということがわかる．

ある外国語における単語の平行関係は，その実際の音声が聞こえる単語を読むとき，思い出す実際の音声とその単語を読むことを促す実際の音声の間に葛藤があり，そうして後者は母語の変換規則に干渉されているだろうということに基づく．

他方で，言語音の知覚は範疇的である．つまり，話者が”ｐ”と”ｂ”の間の音を聞いたとき，それは”ｐ”か”ｂ”のどちらかであり，両者の間の漠然とした音ではないと解釈される傾向がある．ということは，母語の音声を聞かせたとき，書かれている文字との連想によるものであるとしても，その母語の音声が外国語の音声の知覚を妨げるということは予想できる．というのも，範疇的知覚のメカニズムは，それらの音を母語のいずれかの音と同一視する傾向があるからである．

Ｂｏｒｄｅｎｅｔａｌが以下のように述べている．「他の言語の口頭発話の音そのものでさえも，われわれ自身の言語の枠内で知覚されてしまい，親しみの薄い言語を聞いたときは，われわれはそれら親しみの薄い音声をわれわれ自身の言語の発話音声の範疇にはめ込もうとする．」［Ｂｏｒｄｅｎｅｔａｌ（１９９４），ｐ．１７４］

同じ転写規則を有し例外のない２つの音声言語の場合でも，文字と音声の間の結びつきは異なる可能性がある．例えば閉鎖子音”ｐ”と”ｔ”は，英語とスペイン語において異なる特徴を持つ．この状況では，学習者が”ｐ”という文字を見たとき，それを目標言語の”ｐ”の音ではなく，自分の母語の”ｐ”の音と結びつけるだろう．

もう一方では，スペイン語を学んでいるある人が，例えば文字”ｂ”から［ｂ］の音を習得すると，文字”ｂ”のためにあらかじめ持っている他の音解釈の干渉を受けてしまうだけでなく，文字”ｂ”とそれに結びついた音素がスペイン語では異なる方法で実現される，つまり異なる異音を持つということを，理解しないだろう．”ｂｅｃｅｒｒｏ（子牛）”の”ｂ”は”ｈａｂｅｒ”の”ｂ”とは違うのだ．

一般的に，単語を習得するということはある音声の連続を習得するということである．ある人が図で表した文字の連続の学習を通して単語を学ぶ場合，この学習は実際に単語が対応する音声の連続の使用に条件をつけることになる．

Ｏｈａｌａの研究は，言語の書かれた文字と音の形の間には強いつながりがあるのだという見方を裏付ける．「母語話者が母語に関して持っている音韻的知識であると考えられているものの多くは，その言語がどのように書かれるかという知識に，たとえ基づいていなかったとしても，大いに影響を受けているということが明らかになりつつある．」［Ｏｈａｌａ１９９５，ｐ．７１６］

（本技術の要点）
（導入）
以上の分析の結果として，この技術は，発音に関する学習者の主要な問題を，書かれた文字と実際の音声の間の干渉であると位置づける．この問題をなくすために，文字化された言語が不利に働くことなく，よい効果を得られるようにしてくれる解決法を提案する．

この技術は，目標言語の文字で書かれた形式の代わりに，図の形式にしたものを使用する．これらの図の形にしたものは，例えば１本の線であったり，文字のまとまりであったり，波形であったり，その他線状性の特徴を持った形であったりする．この技術は，その図の形にしたものの一節と学習者が習得しようとしている言語の一節の間に対応関係を作り，学習者は目標言語のサンプルの内容を間接的な形で見ることができるようにする．

技術の説明を容易にするため，次にいくつかの定義を挙げる．一般的に，この文書の中では，「学習者」または「利用者」という用語を，目標言語をより適切に修得するためにこの技術を用いる人に言及するために使用する．

この技術はある目標言語の一連のサンプルに関して使用され，その各々のサンプルをこの技術においては原音抽出（ＥｘｔｒａｃｔｏＯｒｉｇｉｎａｌ）と呼ぶ．原音抽出は，学習者が取り組んでいる目標言語のより広範なデータから得られ，目標言語の教授を目的として作られるものである．

原音抽出のひとつひとつに対して，この技術は先に言及した図形を用いて形式抽出（ＥｘｔｒａｃｔｏｓＣｉｅｇｏｓ）というものを設ける．つまり，形式抽出のひとつひとつが原音抽出と対応させられ，その原音抽出のために作られるものである．すでに述べたように，その形式抽出は線状構造を有しており，原音抽出の一節と形式抽出の区切りの間にはある対応関係が存在する．形式抽出は，学習者が、個別の音，音節，単語，句などのような原音抽出に含まれるさまざまな言語的構成要素を理解できるようになるために用いられる．

例として，表１は望ましい実現（詳細は後述）の基準に従って構成された，例文”Ｅｌｈｏｍｂｒｅｄｅｌａｂａｒｒａｅｓｔａｃｏｍｉｅｎｄｏｓｅｕｎｂｏｃａｄｉｌｌｏ（カウンターにいる男性がサンドイッチを食べてしまいつつある）”の原音抽出に対応する，形式抽出のサンプルである．そこに見られるように，各単語の各音節が”Ｘ”というひとつの文字で書き換えられている．さらに，単語間の分離のスペースは保持されている．

この技術は，伝えられる内容の構造を特定するのも大いに容易にしてくれる．これをするには，特許申請で説明されたすべての技術を含め，いろいろな技術が使用されうる［Ｐａｌａｃｉｏｓ２００３］．例として挙げる表２は，従属文に対応する句だけが選ばれた形式抽出の階段状ツリーである．

後述するように，この技術は，形式抽出の一節を選択することができ，それらが対応する原文の分節の一節に到達でき，例えばそれらの聴覚再生が聞けるようなコンピューターシステムにおいて実行されるのが望ましい．

選択的に，他にも相互作用の方法はありうる．例えば形式抽出の特定の分節を何らかの特別な図示方法で目立たせたり，他の種類の情報を手に入れるための方法である．

こうして，見てわかるように，形式抽出は，聞こえる口頭発声に存在する異なる単語を識別したり，それらの単語について，例えば意味を解明したりするのに用いられ，音声の学習が文字化されたテキストの文字によって条件付けられることはない．

この技術は，独立で用いられることができ，言語の理解や／または習得に向けた他のシステムや方法と同時に用いられることもできる．例えば，学習者が特に情報面で関心のある目標言語のサンプル，例えばドキュメンタリー作品や映画やその他の分野の理解に向けたシステムと合わせて用いられることが可能である．

以下に続く説明の大部分は外国語習得に集中するが，この技術は何かしら問題を抱える人の母語の訓練のためにも用いられうる．これは，何かの理由で言語の文字化された形で示すことが不可能であったり都合が悪かったりする人たちに，特に適している．これは例えば，文盲の人たちの場合に起こりうる．また，失読症やある種の失語症である人たちの場合にも適する．

（発明の利点）
すでに述べたように，この技術は，基本的に，早い時期に文字で書かれたテキストを使って学習することの悪い影響を被ることなく，単語を識別し，文構造を特定することを可能にする．続いて，この技術の効果をよりよく評価するために，単語識別の難しさに関するいくつかの側面を説明する．

単語の識別は，普通の母語話者の脳がその母語において驚くほどの容易さをもってして実現する，非常に複雑な仕事である．実際，どのように実行されるのかはまだ完全に解明されていない［Ａｎｄｅｒｓｏｎｅｔａｌ（２００２）］，［Ｋａｇｅｒ，（１９９５）］．

幼児による言語習得という特殊な場合には，Ｂｏｙｓｓｏｎ−Ｂａｒｄｉｅｓは以下のように述べている．「幼児がある言語の単語をどのように獲得するのかを理解しようと試みるときに現れるすべての謎の中で，最初の１年間の発話分割が最もわからないものである．今日でも，幼児が連続した音声の波から単語を識別して取り出す方法については，依然として分からないことが多い．」［Ｂｏｙｓｓｏｎ−Ｂａｒｄｉｅｓ（２００１），ｐ．９５］

もちろん，似たような問題が外国語学習者の場合にも起こる．この場合は，学習者が単語を探っていることを意識しているという表面的な利点がある．しかし他に不利な点もあり，そのひとつは他人と意思疎通するために単語を特定する瞬時の必要性である．

幼児は，自身の母語で初期の単語を発声するまでに約２年をかけるが，一方で成人や年長の子供は第二言語を習得するのにそれほどの時間はかからないであろう．この技術は，目標言語の単語を，音声学や音韻論の学習を悪化させることなく，速く習得することを可能にしてくれる．

この技術のもうひとつの重要な利点は，中国語のように，表記システムがとても複雑で音素に基づかないような言語の習得と関係がある．これらの場合は，学習者は文字で書かれた言語を補助的に使うことに多くの問題を抱えるが，本研究を利用することができる．

要約すると，この技術の主要な利点は以下の２点である．
１．目標言語の音声をより適切に習得させる．それによって，聴覚理解をより適切にし，発音をよりよくし，単語の記憶と習得の能力を改善し，間接的に言語の完全習得を促進する．
２．音韻的な形と書かれた文字の間のつながりを，母語話者のものと同じように作り，それによって読む能力が改善される．

産業上の利用の可能性

このセクションの目的は，ただ望ましい実現を紹介することだけであり，この技術において効果が限定されるということはないということを，理解されたい．

望ましい実現において，この技術はコンピューターシステムと成り立っており，そのコンピューターシステムは，例えば，利用者がシステムに作用できろようにするためのマウスとキーボードがついた，ＤｅｌｌＤｉｍｅｎｓｉｏｎＸＰＳのようなパーソナルコンピューターに基づいたものでありうる．コンピューターシステムには，例えばＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ２０００のようなオペレーションシステムがある．

このコンピューターシステムは，多様な原音抽出が保存されているデータベースを持っている．その原音抽出は，言語を適切に原音抽出に分割したさらに広いサンプルから作られたものであるか，または何らかの理由により独立に選ばれた原音抽出でもありうる．

このコンピューターシステムは，異なる形式抽出を得るための手続きをしたりそれを現したり，利用者の作用を遂行したり，聴覚再生を作ったりちょうどよい形式抽出の各部分を強調したりという役割を果たすコンピュータープログラムも持っている．このコンピュータープログラムは，例えばＭｉｃｒｏｓｏｆｔＶｉｓｕａｌＢａｓｉｃ６．０という開発環境で実現された．

このコンピューターシステムは，例文のデータベースも持っており，そこではその例文が適切にインデックスをつけられている．それにより，利用者は形式抽出のいずれかの一節を選び出すことができ，システムは選ばれた一節に似た言語の例文のいずれかを見せる方法を備えている．例えば，利用者が”ｃａｓａ”という単語に対応する一節を選んだ場合，システムは”ｌａｃａｓａｅｓｇｒａｎｄｅ”や”ｍｉｃａｓａｅｓｔａｅｎＶａｌｅｎｃｉａ”やその他のような例文を示すだろう．利用者が”ｃａ”という音節を選び出せば，システムは”ｖａｃａ”や”ｃａｒｒｏｚａ”といった例文を示すだろう．

（用いられる形式抽出の種類）
望ましい利用法においては，目標言語のサンプルに関して学習者に付加的情報をもたらすために，異なる特徴を持った形式抽出が用いられる．

全体で，以下の表３に列挙するように８種類の形式抽出が存在する．

ここに見られるように，８つの抽出物は４つの特性によって区別される．それらの特性について，このセクションの残りで説明する．各特性は，次に示されるような２つの値をとりうる．
−特性１：「分離／結合」分離抽出は単語の間にスペースと句読記号を示し，一方結合抽出はそれらを示すことはない．
−特性２：「個別／連続」個別抽出では，音節構造が，独立して発音されたときの単語における実際の音節に対応し，連続抽出では，音節構造が，単語がつながって発音されたときの実際の音節に対応する．
−特性３：「構造化／非構造化」構造化抽出では，対応する原音抽出の句構造を反映する内部体系を表示する．非構造化抽出では，その内部構造を表示しない．

８種類の形式抽出が存在するためと，説明を簡単にするため，それらに言及する際は以下のようにする．形式抽出について，可能性のある３つの特性のうちのいずれも特定せずに述べるとき，どのようなタイプの形式抽出でもよい．つまり，ただ「形式抽出」にだけ言及されるとき，それは８種類の形式抽出のうちのいずれでもよい．「形式抽出」に言及し，ある特徴が明示された場合，例えば「個別形式抽出」のような場合，「個別」という特徴を持つ４種類の形式抽出のうちのいずれにも言及していることになる．つまり，分離・個別・音節の形式抽出，結合・個別・音節の形式抽出，分離・個別・音素の形式抽出，そして結合・個別・音素の形式抽出である．すでに述べたように，その４つの特性のうちのいずれかの値が明示されない場合，文脈から，扱われている形式抽出の種類を明示することもある．

「構造化／非構造化」という評価値の原因となる特性は，他のものとは異なる．この特性は，抽出が句の内部で構造化されうるということによって現れる．構造化された抽出は，学習している言語のサンプルの句に関する情報を持つ．構造化されていない抽出や，その抽出のそれぞれに存在する句に関する情報を作り出すのに役立つ．

これにより，次の説明では，構造化されていない抽出について言及している．なぜならそれらは学習者に示されるものだからである．しかし望ましい利用法においては構造化されていない各抽出に対して構造化された抽出が存在するのだということを，理解されたい．

望ましい利用法において，形式抽出は文字”Ｘ”に関連付けられながら作られる．これらの文字は，チェーン（Ｃａｄｅｎａｓ）にグループ分けされる．形式抽出の各チェーンは，原音抽出の単語に一対一対応する文字のグループである．

次に，この技術で作り出せるいろいろな形式抽出を詳しく説明する．

（分離・個別・音節の形式抽出）
分離・個別・音節の形式抽出において，チェーンは，スペースやピリオドのような原音抽出そのものに存在する句読記号の使用により，視覚的に切り離されている．表１の形式抽出は，分離・個別形式抽出である．この形式抽出の特徴は，以下である．
１．チェーンを構成する文字のひとつひとつは，そのチェーンと関連する実際の単語の音節に対応させられる．
２．単語とチェーンは一対一対応の関係にあり，そのため原音抽出にある実際の単語と同じ数だけチェーンが存在する．
３．チェーンは，そのチェーンに対応させられる単語を分けているのと同じスペースや文字によって切り離されている．

（分離・連続・音節の形式抽出）
この抽出は，次のような事実を考慮に入れている．つまり，いくつかの単語がつなげて発音されたとき，そのうちのいくつかの音節の実際の発音は，個別に発音されるときのものとは違っている．それは共時調音現象や言語の韻律規則によって起こるものである．例えば，表１の原音抽出の切れ目のない発声は，表４に示される音節を含んでいる．

ここに見られるように，”ｂａｒｒａ”の最後の音節は”ｅｓｔａ”の最初の音節とつながっており，”ｃｏｍｉｅｎｄｏｓｅ”の最後の音節は単音節語である”ｕｎ”とつながっている．さらに，”Ｅｌ”という単音節語はその子音を失い，その子音は”ｈｏｍｂｒｅ”の最初の音節とつながっている．連続・音節の形式抽出では，原音抽出の切れ目のない発音ではつながっている音節をつなげるのに，図形を使った方法が用いられる．望ましい利用法におけるこの抽出の特徴は，以下のものである．
１．つながる別々の単語の音節にはハイフン（”‐”）を使用し，ハイフンはその音節がつながることになるチェーンの間に位置することになる．
２．それらの開で音節の一部が移動するような音節のために，矢印（”→”または”←”）を使用する．その矢印はその移動に干渉する音節の間に位置することになり，一部分を失った音節からその部分を得る音節へと向けられる．
３．消える音節は，線を引いて消す．
４．他の方法で変換される音節には，赤い文字を用いる．

以下の表５は，望ましい利用法の基準を用いて，表１の原音抽出に対応する連続形式抽出がどのようになるかを示している．

（結合・個別・音節の形式抽出と結合・連続・音節の形式抽出）
結合形式抽出は，発話言語はポーズによって単語が切り離されないという事実を反映するのに役立つ．書記言語では単語はスペースと正書法記号によって明らかに切り離されているが，発話言語ではこのようなことは起こらず，別々の単語の特定は，韻律や時には単語の構造特有の特徴のおかげでなされる．

結合形式抽出は，学習者が発話を構成している異なる単語を区別することを容易にする．単語を示すための分離がないということによって特徴付けられる．つまり，結合・音節の形式抽出は，分離・音節の形式抽出と似たものとなるが，しかしチェーンの間で切り離す文字はない．唯一存在するのは，抽出の音を表す多数の文字連続である．しかしながら，原音抽出の音節と，特定の言語学的構成要素を際立たせるために用いられる連続形式抽出の間には，対応関係が存在し続けている．

分離形式抽出と同様に，連続形式抽出にも２種類が存在する．ひとつは結合・個別形式抽出（Ｅｘｔｒａｃｔｏｃｉｅｇｏｕｎｉｄｏｄｉｓｃｒｅｔｏ）であり，そこでは原音抽出の個々の単語の音節が表される．もうひとつは結合・連続形式抽出（Ｅｘｔｒａｃｔｏｃｉｅｇｏｕｎｉｄｏｃｏｎｔｉｎｕｏ）であり，そこではその原音抽出が切れ目なく発声されるとき，原音抽出の音節が示される．

（形式抽出の句構造）
すでに述べたように，この技術には，形式抽出を通して原音抽出の句構造を示す可能性が存在する．そのために，構造化された形式抽出が用いられ，そこでは適切な句が定義されている．

（音声データの生成）
本コンピューターシステムはさまざまな特徴を持つテキストを発声に変換させる発話技術のシステムを装備している．

（参照データベース）
このシステムは，抽出に用いられるさまざまな単語に関する音声学的・音韻論的情報を含む発話データベースを持っており，このデータベースは，単語が個別に発音される場合のデータと，他の語と共に現れる場合のデータの両方を含んでいる．このデータベースは，以下についての情報を有する．
１．各々の単語の音節構造．例えば，”ｃａｓａ”のような単語は，単語が音節を２つ持つということを示す”ｃａ−ｓａ”のような情報を持つ．
２．文脈上，連続して発話される場合の音節変換規則．例えば，”ｃａｓａ”という単語は，”ａｚｕｌ”のような単語が後続する場合に”ｃａｓａ”の最終音節と”ａｚｕｌ”の最初の音節がつながってひとつの音節になるというような情報を持っている．
３．抽出の統語構造が分節の音韻論的振る舞いに対して持つ効果．例えば，”ｃａｓａ”という単語が，”ｑｕｉｅｒｏｒｅｐａｒａｒｅｌｔｅｃｈｏｄｅｌａｃａｓａａｎｔｅｓｄｅｃｏｍｅｒ”という文において”ａｎｔｅｓ”という単語の直前に現れるとき，”ｃａｓａ”の最終音節は”ａｎｔｅｓ”の最初の音節によらない．これは，両者が文の句構造の異なるレベルにあるからである．
このデータベースは発話技術のシステムにおいて利用されるデータベースと同じであるが，形式抽出を生成するために外側からもアクセス可能である．

（形式抽出の構成）
望ましい利用法において，形式抽出は文字”Ｘ”を付加することによって作られる．文字”Ｘ”のひとつひとつは，連続抽出で何らかの方法によりつなげられたり変換されたりする音節の場合を除いて，音節の単位である．この場合，連続抽出の一音節は，後述するように，図形で示す方法によるつながった”Ｘ”２文字に相当する．

（形式抽出の生成）
分離・個別・音節の形式抽出（ＥＣＳＤＳ）は，各単語を一連の文字”Ｘ”に変換することを通して，形式抽出から作られる．そのため，各文字”Ｘ”はその単語の一音節に相当し，単語の音節構造に関する発話データベースにおいて存在する情報が利用されるわけではない．

分離・連続・音節の形式抽出（ＥＣＳＣＳ）は，発話データベースに存在する音節変換規則を応用してＥＣＳＤＳから作られる．

結合・個別・音節の形式抽出（ＥＣＵＤＳ）は，チェーンを切り離す文字を削除してＥＣＳＤＳから作られる．

結合・連続・音節の形式抽出（ＥＣＵＣＳ）は，チェーンを切り離す文字を削除し，音節変換を示す図示方法は尊重して，ＥＣＳＤＳから作られる．

（システムの実行）
本コンピューターシステムは，実際の音で原音抽出やその一節を，後述するさまざまな方法で再生するための機能性を持っている．例えば，単語や音節や特定の句を強調しながら実際の音で再生することができる．

このコンピューターシステムは，形式抽出を原音抽出に対して同時に，または独立して，さまざまな方法で図形を用いて強調するための機能性を持っている．こうして，原音抽出が再生されるとき，その都度発音される単語や音節を図形によって際立たせていくことができる．

（発明の利用法）
この技術の望ましい利用法は，以下の説明のとおりである．システムを開始するにあたって，学習者は訓練モードで利用するか学習モードで利用するかを選択できる．訓練モードでは，すでに特定されている原音抽出を利用する．学習モードでは，関心のある言語サンプルに存在する原音抽出を利用する．どちらの場合でも，結果はひとつ以上の原音抽出が連続して選ばれることになる．

学習者は，一般的に，結合・連続・音節の形式抽出を用いて学習する．なぜなら，実際の発声の性質をよりよく反映するものだからである．さらに，学習者は８種類の形式抽出を用いて学習するために，それらのうちのいずれをも視覚化することが可能である．

このコンピューターシステムを望ましい形で利用すれば，学習者が後にその内容に関連する情報を引き出せるように，形式抽出を通して原音抽出の特定の構成素を選択できるようになる．連続形式抽出には結合されうる音節が存在してはいるが，この選択はそれらの抽出においても実行されうる．例えそれらが結合されていても，表５が示すように，つながっている両方の音節に属する単語を区別するための方法が存在する．表６は，ある原音抽出の連続抽出の例である．表においては，学習者は”ｒｒａｅｓ”という音節の最初の部分を選択し，この技術によってそれが”ｂａｒｒａ”という単語の終わりの部分であると判断し，その単語を完全に選択したということになる．

ある一部分を選択するために，学習者はまず，形式抽出のうちのひとつ以上の文字を選ぶ．このシステムは，それらの文字に対応する原音抽出の部分を特定する．そのために，学習者が抽出の一部を選択するとき，システムは単語とその単語が中心となってできる句を視覚的に際立たせ，その選択の中に含まれた音節を示すことができる．その際，学習者は次の３つの可能性の中からひとつを選択することが可能である．
１．ひとつ以上の句
２．ひとつ以上の単語
３．ひとつ以上の音節

抽出の何らかの構成素が一度選択されると，本技術によりその当該構成素についていくつかの種類の情報が得られる．
１．まず，当該構成素が音節や単語・句のいずれであっても，それらが現れ，際立たされているような他のテキストが情報として得られる．
２．次に，抽出の一部分の音声データが得られ，それは抽出全体のデータでもある．この音声データは，テキストの前の部分の例についても得ることが可能である．
３．さらに別の情報として，原音抽出やあるいはその一部についての音声データが得られるが，それは学習者が理解しやすいよういくつかの特徴を備えた形で提示される．この特別な特徴というのは，音声データ全体の速度を全体的にあるいは部分的に変更することによって得られたり，音調や音の強さ，そして／あるいは各要素の長さを変更することによって得られる．この音声データは，あらかじめ特殊に録音することによって得られたり，テキスト・音声変換装置を利用したり，それら二つを併用することによって得られる．異なるタイプの音声データは，以下のような特徴を持つと考えられる．
−当該部分を通常より遅い速度で再生する
−当該部分を音節に区切って再生する．つまり，音節を認識しやすくするために，音節を際立たせながら再生する
−当該部分を単語ごとに再生し，各々の単語を認識しやすくする
−当該部分を再生する際に，音素や音節，単語，文の要素のように，決められた単位を際立たせて再生する
−当該部分を再生する際に，２０００ヘルツ辺りの周波数を増幅して再生する．そうすることで，この領域の音の区別が容易になり，このことが摩擦音どうしを区別するのに重要である［Ｂｏｒｄｅｎｅｔａｌ，ｐ．１７７］
４．それから，当該部分のさまざまな箇所をはっきりと目に訴える形で，音声データとシンクロさせた形か，あるいは独立した形で際立たせることによって得られる情報がある．特にシンクロさせたデータは，当該部分の決められた箇所が聴覚的に際立たせられている場合に有用である．

本技術を使用する際，初めは速度の遅い音声データを再生し，その後少しずつ再生速度を上げていき，学習者の苦労を軽減するのが適切であろうと思われる．その一方で，学習者が生の言語データに触れるために，初めの段階から通常の速度のデータを含めておくのもまた重要である．

外国語学習における本技術の理想的な使用開始時期は，学習を始めたときであると思われるが，既に学習をある程度進め，誤った習慣を身につけてしまった学習者がそれを取り除く際にも使用することが可能である．

本技術の利用は，学習者にとって何らかの情報を含んでいる音声言語の一部があるような，あらゆる種類の練習問題や活動に広げることが可能である．この場合，本技術によって，学習者は情報を聞き取り，書記言語に頼ることなく当該部分の決められた箇所を確認することができ，これにより聴解能力を訓練することが出来る．

（その他の可能な利用方法の解説）
本技術をその他の方法で用いることは大いに可能であり，ここではそのうちのいくつかを下に紹介する．

一つの例として，形式抽出を表すのに，Ｘの文字ではない別の記号を用いることもできる．以下の表６に示すように，例えば，水平の罫線を用いることもできる．以下では，罫線を用い，原音抽出との比較が可能なように，形式抽出を引き伸ばしてある．もちろん，波線やその他の記号を使用することも可能である．

Ｘの文字とは異なる記号を用いて書かれる形式抽出を用いると，原音抽出の各々の単語は抽出のそれぞれの区間に対応させられる．また別の利用法としては，形式抽出においてＸの文字とは違う文字を使用するということがありうる．一般的に言って，使用される文字は学習者の目標言語にも母語にも存在しないものであり，そうするのは書記言語と音声言語の干渉をできるだけ小さくするためである．

また別の方法では，分離・形式抽出のさまざまな部分を，最初の利用法で紹介したような記号やスペースとは異なる記述記号で分離することも可能であり，そうすることで特殊な文字や，直線やその他の図形といったもので分離することも可能である．

また別の使用法においては，分離・形式抽出が原音抽出のひとつ以上の単語と対応する何らかのチェーンを含むことも可能であろう．例えば，”ｅｌｈｏｍｂｒｅ”という語句は，”ＸＸＸ”のようなチェーンを連想させる．

また別のやり方においては，形式抽出は原音抽出に現れる単語のいくつかを含みうる．”ｅｌｈｏｍｂｒｅｖｉｖｅｅｎＭａｄｒｉｄ”という原音抽出は，”ｅｌｈｏｍｂｒｅＸＸＸＸＸ”というような分離・個別・音節・形式抽出との連想を可能にする．

あるいは，次のような用い方も可能であろう．原音抽出の一部が形式抽出に含まれていないようにしたり，原音抽出のいずれの部分にも対応しないような形式抽出の部分が現れるようにする用い方である．

また，この技術をコンピュータシステムのサポートなしで用いることもできる．例えば，オーディオ再生機器と紙を組み合わせて用いるやり方である．この利用法であれば，紙面上の形式抽出は音節抽出であろうし，音声データは音節が際立たされているようなデータを含んでいるであろう．

同様に，オーディオ再生機器と紙を用いる利用法において，もともとのシステムにおけるいくつかの特殊な部分を形式抽出において図式的に目立たせるのと同時に，音声面においても際立たせることが可能であろう．

また，コンピュータシステムを使わずに，テレビのような電気機器を用いるという利用法も考えられる．つまり，テレビの画面に形式抽出を表示し，テレビのスピーカーから音声データを流す利用法である．先の例と同じように，画面に現れる形式抽出のある部分を図式的に目立たせることもできるし，音声面についても同じように際立たせることが可能である．

また，最後に音素形式抽出というものを用いることも可能であろう．これは，音節を構成する音素自身を際立たせるものである．音素は音節よりも下位の単位であり，実際の発話言語においで認められるものである．したがって，次の形式抽出が追加として得られることになる．