JP2007114631A

JP2007114631A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2007114631A
Application number: JP2005307995A
Authority: JP
Inventors: Takuya Shinkawa; 拓也新川; Yoshio Miki; 祥男三木
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-10-24
Filing date: 2005-10-24
Publication date: 2007-05-10

Abstract

【課題】従来の情報処理装置においては、母音を同定できない、という課題があった。
【解決手段】音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定部と、前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置により、母音を同定できる。
【選択図】図１

Description

本発明は、日本語の５母音を同定できる情報処理装置等に関するものである。

従来、例えば、構音障害者が発する日本語の5母音の音響特性を計測して、構音障害のレベルを診断しようとする試みはいくつか知られている。従来の第一の技術において、第一フォルマント周波数（Ｆ１）と第二フォルマント周波数（Ｆ２）から「母音の歪み度」を定義して、歪み度によって構音の経時変化を検討している（非特許文献１参照）。
また、従来の第二の技術において、５母音のＦ１とＦ２との相対的位置関係から構音異常を客観的に評価することを試みている（非特許文献２参照）。

従来の第一、第二の技術において、健常者の母音を正常例とし、それを基準にして対比している。しかしながら、音声は個人差が大きく、また発話時の緊張度などの環境による影響も受けるので、どの音声を正常なものと決めるかということは実際には不可能である。
一方、音声の音響特性は個人差が非常に大きいにも拘わらず、聞き手は「ア」は「ア」として聞き取る。これは「母音の話者正規化問題」としてよく知られた問題である（非特許文献３参照）。
さらに、関連する先行技術として、非特許文献４から非特許文献１１がある。
渡辺宏、他、「舌可動部半側切除後の経時的構音変化」、耳鼻、３１、ｐ．３７５−３８１、１９８５年土師知行、他２名、「舌・口腔底腫瘍切除後の母音のフォルマントについて」音声言語医学、３５、ｐ．２６１−２６５、１９９４年レイ・D・ケント,チャールズ・リード（荒井隆行,菅原勉監訳）「音声の音響分析」海文堂出版、2002年、ｐ．108−109頁粕谷英樹、他２名、「年齢、性別による日本語５母音のピッチ周波数とフォルマント周波数の変化」、日本音響学会誌、１９６８年、２４、ｐ．３５５−３６４藤崎博也、「音声認識の諸問題」、１９７２年、日本音響学会誌、２８、ｐ．３３−４１レイ・D・ケント、他１名、（荒井隆行、他１名監訳）、「音声の音響分析」海文堂出版、２００２年、ｐ．１８５−１８７ GLORIA J.BORDEN、他１名、（廣瀬肇訳）「言葉の科学入門」、MRCメディカルリサーチセンター、１９９４年、ｐ．１０２−１０５ GLORIA J.BORDEN、他１名、（廣瀬肇訳）「言葉の科学入門」、MRCメディカルリサーチセンター、１９９４年、ｐ．８５−８６レイ・D・ケント、他１名、（荒井隆行、他１名監訳）「音声の音響分析」、海文堂出版、２００２年、ｐ．３１鈴木久喜、「線形判別関数を用いた母音識別」、電気通信学会雑誌、４７、ｐ．３１６−３２４，１９６４年Ｐ．ラディフォギッド（佐久間章訳）、「音響音声学入門」、大修館書店、１９９７年、ｐ．９５

しかしながら、従来の第一、第二の技術において、健常者の母音を正常例とし、それを基準にして対比している。また、音声は個人差が大きく、また発話時の緊張度などの環境による影響も受けるので、どの音声を正常なものと決めるかということは実際には不可能である。したがって、従来の第一、第二の技術において、日本語の５母音を同定できない、という課題があった。このため、構音障害者が発する音声の音響特性のみから、構音障害のレベルを診断することができなかった。
さらに、上記の他の従来の技術においても同様に、日本語の５母音を同定できない、という課題があった。

本第一の発明の情報処理装置は、音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定部と、前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置である。
かかる構成により、日本語の５母音が正常音であるか異常音であるかを識別できる。

また、本第二の発明の情報処理装置は、第一の発明に対して、前記母音同定部は、前記Ｆ１と前記Ｆ２との関係に関する情報である第一勾配情報を算出する第一勾配情報算出手段と、前記Ｆ２と前記Ｆ３との関係に関する情報である第二勾配情報を算出する第二勾配情報算出手段と、前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定手段を具備する情報処理装置である。
かかる構成により、日本語の５母音が正常音であるか異常音であるかを識別できる。

また、本第三の発明の情報処理装置は、第二の発明に対して、前記第一勾配情報は「Ｆ１／Ｆ２」であり、前記第二勾配情報は「Ｆ３／Ｆ２」であり、前記母音同定手段は、前記第一勾配情報が略５．８〜略１０．８である場合に、前記音声情報の母音を／ｉ／と判断し、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５である場合に、前記音声情報の母音を／ａ／と判断し、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略２．８〜略４．６である場合に、前記音声情報の母音を／ｏ／と判断し、前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２である場合に、前記音声情報の母音を／ｕ／と判断し、前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５である場合に、前記音声情報の母音を／ｅ／と判断する情報処理装置である。
かかる構成により、日本語の５母音を精度高く同定でき、その結果、日本語の５母音が正常音であるか異常音であるかを容易に識別できる。

また、本第四の発明の情報処理装置は、第一から第三いずれかの発明に対して、前記母音同定部は、前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得し、前記スペクトル情報にも基づいて、母音を同定する情報処理装置である。
かかる構成により、日本語の５母音を精度高く同定でき、その結果、日本語の５母音が正常音であるか異常音であるかを容易に識別できる。

また、本第五の発明の情報処理装置は、第三の発明に対して、前記母音同定部は、前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、前記母音同定手段は、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ａ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｏ／と判断し、かつ、前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２でない場合、および前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５でない場合であり、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｅ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｕ／と判断する情報処理装置である。なお、ここで、所定の関係は、好ましくは、スペクトル情報が閾値以上である関係である。また、閾値は、好ましくは、略０．５である。かかることは、他の記述においても同様である。
かかる構成により、日本語の５母音を、精度高く同定でき、その結果、日本語の５母音が正常音であるか異常音であるかを容易に識別できる。

また、本第六の発明の情報処理装置は、第一から第五いずれかの発明に対して、前記母音同定部は、前記第一勾配情報が略５．８〜略１０．８ではなく、かつ、前記第一勾配情報が略１．３〜略２．２ではなく、かつ、前記第一勾配情報が略２．４〜略４．９ではなく、かつ、前記第一勾配情報が略３．０〜略５．５ではない場合に、前記音声情報を異常音と判断する情報処理装置である。
かかる構成により、異常音の検知も可能である。
また、本第七の発明の情報処理装置は、第一から第六いずれかの発明に対して、前記処理部は、前記母音同定部が同定した母音に基づいて、音声認識し、当該認識結果を出力する情報処理装置である。
かかる構成により、日本語の５母音を精度高く認識でき、その結果、日本語の５母音が正常音であるか異常音であるかを容易に識別できる。

また、本第八の発明の情報処理装置は、発音を促す情報である発音情報を出力する発音情報出力部と、第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）、および第三フォルマント周波数（Ｆ３）に関する情報と、母音との対応を示すフォルマント周波数母音対応情報を格納しているフォルマント周波数母音対応情報格納部と、音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、前記Ｆ１取得部が取得したＦ１、前記Ｆ２取得部が取得したＦ２、および前記Ｆ３取得部が取得したＦ３と、前記フォルマント周波数母音対応情報に基づいて、前記音声情報受付部が受け付けた音声情報を評価する評価部と、前記評価部における評価結果を出力する評価結果出力部とを具備する情報処理装置である。
かかる構成により、ユーザが入力した音声の母音に関して、評価ができる。

また、本第九の発明の情報処理装置は、第二から第五の発明に対して、前記母音同定部は、前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、前記母音同定手段は、前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を／ｉ／と判断し、および前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する情報処理装置である。
かかる構成により、日本語の５母音を精度高く同定でき、その結果、日本語の５母音が正常音であるか異常音であるかを容易に識別できる。

本発明による情報処理装置によれば、日本語の５母音を同定でき、その結果、日本語の５母音が正常音であるか異常音であるかを容易に識別できる。

以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）
図１は、本実施の形態における情報処理装置のブロック図である。

情報処理装置は、音声情報受付部１１、Ｆ１取得部１２、Ｆ２取得部１３、Ｆ３取得部１４、母音同定部１５、処理部１６を具備する。母音同定部１５は、第一勾配情報算出手段１５１、第二勾配情報算出手段１５２、スペクトル情報取得手段１５３、母音同定手段１５４を具備する。

音声情報受付部１１は、音声情報を受け付ける。音声情報は、人が発声した音声の情報でも良いし、音声のデジタルデータ等でも良い。つまり、かかる音声情報は、例えば、被験者であるユーザが音声出力した情報である。かかる場合、音声情報受付部１１は、マイクとそのドライバーソフト等で実現され得る。また、かかる音声情報は、例えば、予め、記憶媒体に格納されている。かかる場合、音声情報受付部１１は、記憶媒体から音声情報を読み込むソフトウェア等で実現され得る。
Ｆ１取得部１２は、音声情報受付部１１が受け付けた音声情報から第一フォルマント周波数（Ｆ１）を取得する。
Ｆ２取得部１３は、音声情報受付部１１が受け付けた音声情報から第二フォルマント周波数（Ｆ２）を取得する。
Ｆ３取得部１４は、音声情報受付部１１が受け付けた音声情報から第三フォルマント周波数（Ｆ３）を取得する。

第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）、および第三フォルマント周波数（Ｆ３）は公知の概念である。また、音声情報から第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）、および第三フォルマント周波数（Ｆ３）を取得する技術は公知技術である。従って、それらの詳細な説明は省略する。Ｆ１取得部１２、Ｆ２取得部１３、およびＦ３取得部１４は、通常、ＭＰＵやメモリ等から実現され得る。Ｆ１取得部１２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

母音同定部１５は、Ｆ１、Ｆ２、およびＦ３に基づいて、音声情報の母音を同定する。また、母音同定部１５は、Ｆ１とＦ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得することは好適である。母音同定部１５は、通常、ＭＰＵやメモリ等から実現され得る。母音同定部１５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、「中間領域」とは、間（谷間）の領域である。

第一勾配情報算出手段１５１は、Ｆ１とＦ２との関係に関する情報である第一勾配情報を算出する。第一勾配情報は、例えば、算出式「Ｆ２／Ｆ１」により算出される。なお、第一勾配情報は、Ｆ１とＦ２との関係に関する情報であれば、他の算出式、例えば、「０．８×Ｆ２／Ｆ１」により算出されても良い。算出式「Ｆ２／Ｆ１」により算出される第一勾配情報を、以下、適宜「α」と言う。第一勾配情報算出手段１５１は、通常、ＭＰＵやメモリ等から実現され得る。第一勾配情報算出手段１５１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第二勾配情報算出手段１５２は、Ｆ２とＦ３との関係に関する情報である第二勾配情報を算出する。第二勾配情報は、例えば、算出式「Ｆ３／Ｆ２」により算出される。なお、第二勾配情報は、Ｆ２とＦ３との関係に関する情報であれば、他の算出式、例えば、「０．８×Ｆ３／Ｆ２」により算出されても良い。算出式「Ｆ３／Ｆ２」で算出される第二勾配情報を、以下、適宜「β」と言う。第二勾配情報算出手段１５２は、通常、ＭＰＵやメモリ等から実現され得る。第二勾配情報算出手段１５２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

スペクトル情報取得手段１５３は、Ｆ１とＦ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得する。Ｆ１とＦ２の中間領域の周波数成分の相対的強さとは、周波数が１０〜８０００Ｈｚの領域での振幅の最大値に対する相対値のことである。スペクトル情報取得手段１５３は、ユーザからのスペクトル情報の入力を受け付けるなどして、スペクトル情報を取得しても良い。スペクトル情報取得手段１５３は、公知技術であるので、詳細な説明を省略する。スペクトル情報取得手段１５３は、通常、ＭＰＵやメモリ等から実現され得る。スペクトル情報取得手段１５３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

母音同定手段１５４は、第一勾配情報、および第二勾配情報に基づいて、音声情報の母音を同定する。母音同定手段１５４は、第一勾配情報、第二勾配情報、およびスペクトル情報に基づいて、音声情報の母音を同定しても良い。

具体的には、母音同定手段１５４は、以下のように音声情報の母音を決定する（第一の例）。つまり、母音同定手段１５４は、第一勾配情報（α）が略５．９〜略１０．８である場合に、音声情報の母音を／ｉ／と判断する。また、具体的には、母音同定手段１５４は、αが略１．３〜略２．２であり、第二勾配情報（β）が略１．６〜略２．５である場合に、音声情報の母音を／ａ／と判断する。また、具体的には、母音同定手段１５４は、αが略１．３〜略２．２であり、かつβが略２．８〜略４．６である場合に、音声情報の母音を／ｏ／と判断する。また、具体的には、母音同定手段１５４は、αが略２．４〜略４．５であり、かつβが略１．７〜略３．２である場合に、音声情報の母音を／ｕ／と判断する。さらに、具体的には、母音同定手段１５４は、αが略３．０〜略５．１であり、かつβが略１．１〜略１．４５である場合に、音声情報の母音を／ｅ／と判断する。

また、具体的には、母音同定手段１５４は、以下のように音声情報の母音を決定する（第二の例）。第二の例において、第一の例における判断に加えて、以下のように母音を決定する。母音同定手段１５４は、αが略１．３〜略２．２であり、かつβが略１．６〜略２．５でもなく、かつβが略２．８〜略４．６でもない場合に、スペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合は、音声情報の母音を／ａ／と判断する。また、母音同定手段１５４は、αが略１．３〜略２．２であり、かつβが略１．６〜略２．５でもなく、かつβが略２．８〜略４．６でもない場合に、スペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）は、音声情報の母音を／ｏ／と判断する。また、母音同定手段１５４は、αが略２．４〜略４．５であり、かつβが略１．７〜略３．２でない場合、およびαが略３．０〜略５．１であり、かつβが略１．１〜略１．４５でない場合であり、スペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合は、音声情報の母音を／ｅ／と判断する。母音同定手段１５４は、αが略２．４〜略４．５であり、かつβが略１．７〜略３．２でない場合、およびαが略３．０〜略５．１であり、かつβが略１．１〜略１．４５でない場合であり、スペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）は、音声情報の母音を／ｕ／と判断する。なお、上記の閾値は、例えば、後述するγ「０．５」である。

また、母音同定手段１５４は、αが略５．９〜略１０．８ではなく、かつ、αが略１．３〜略２．２ではなく、かつ、αが略１．３〜略２．２ではなく、かつ、αが略２．４〜略４．５ではなく、かつ、αが略３．０〜略５．１ではない場合に、音声情報を異常音と判断する。なお、異常音とは、母音が同定できなかった音であり、一般成人からみて、正常な日本語の母音と認識されない音と考えて良い。

母音同定手段１５４は、通常、ＭＰＵやメモリ等から実現され得る。母音同定手段１５４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

処理部１６は、母音同定部１５が同定した母音に基づいて処理する。処理部１６は、例えば、母音同定部１５が同定した母音に基づいて、音声認識し、当該認識結果を出力する。処理部１６は、例えば、音声情報を異常音と判断した場合、例えば、最も近い母音のα、βと、受け付けた音声情報のα、βとの差を点数化して、出力しても良い。処理部１６は、同定した母音に関する情報を表示したり、蓄積したり、外部装置に送信したりする等の処理を行うだけでも良い。その他、処理部１６が行う処理は種々考えられる。処理部１６は、通常、ＭＰＵやメモリ等から実現され得る。処理部１６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、情報処理装置の動作について図２、図３のフローチャートを用いて説明する。
（ステップＳ２０１）音声情報受付部１１は、音声情報を受け付けたか否かを判断する。音声情報を受け付ければステップＳ２０２に行き、音声情報を受け付けなければステップＳ２０１に戻る。

（ステップＳ２０２）Ｆ１取得部１２は、ステップＳ２０１で受け付けた音声情報から第一フォルマント周波数（Ｆ１）を取得する。
（ステップＳ２０３）Ｆ２取得部１３は、ステップＳ２０１で受け付けた音声情報から第二フォルマント周波数（Ｆ２）を取得する。
（ステップＳ２０４）Ｆ３取得部１４は、ステップＳ２０１で受け付けた音声情報から第三フォルマント周波数（Ｆ３）を取得する。

（ステップＳ２０５）第一勾配情報算出手段１５１は、Ｆ１とＦ２との関係に関する情報である第一勾配情報を算出する。ここでは、第一勾配情報算出手段１５１は、算出式「Ｆ２／Ｆ１」により第一勾配情報（α）を算出する。

（ステップＳ２０６）第二勾配情報算出手段１５２は、Ｆ２とＦ３との関係に関する情報である第二勾配情報を算出する。ここでは、第二勾配情報算出手段１５２は、算出式「Ｆ３／Ｆ２」により第二勾配情報（β）を算出する。
（ステップＳ２０７）スペクトル情報取得手段１５３は、Ｆ１とＦ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得する。

（ステップＳ２０８）母音同定手段１５４は、第一勾配情報（α）、第二勾配情報（β）、およびスペクトル情報に基づいて、音声情報の母音を同定する。母音を同定するアルゴリズムの例は、図３のフローチャートを用いて詳述する。
（ステップＳ２０９）処理部１６は、ステップＳ２０８における判断結果が、異常音であるとの判断結果か否かを判断する。異常音である場合ステップＳ２１０に行き、異常音でない場合ステップＳ２１１に行く。
（ステップＳ２１０）処理部１６は、異常音であることを示すブザー音を出力する。ステップＳ２０１に戻る。ここで、ブザー音を出力する処理は、処理の一例である。

（ステップＳ２１１）処理部１６は、同定した母音を表示する。母音の表示態様は問わない。例えば、処理部１６は、「／ａ／」「／ｉ／」「／ｕ／」「／ｅ／」「／ｏ／」のうちのいずれかを選択して、ディスプレイに表示する。ステップＳ２０１に戻る。なお、ここで、ディスプレイに表示する処理は、処理の一例である。
なお、図２のフローチャートにおいて、スペクトル情報の取得処理は、ステップＳ２０８における母音の同定に必要な場合のみ行っても良い。
また、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、母音同定の動作について図３のフローチャートを用いて説明する。なお、図３のフローチャートにおいて、リターン値には、同定された母音に関する情報、または異常音を示す情報が格納される。
（ステップＳ３０１）母音同定手段１５４は、「５．９＜＝α＜＝１０．８」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ３０２に行き、αが上記範囲を満たさなければステップＳ３０３に行く。
（ステップＳ３０２）母音同定手段１５４は、リターン値を「／ｉ／」とする。こここで、母音が「／ｉ／」に同定されたことを示す。上位関数にリターンする。

（ステップＳ３０３）母音同定手段１５４は、「１．３＜＝α＜＝２．２」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ３０４に行き、αが上記範囲を満たさなければステップＳ３０８に行く。
（ステップＳ３０４）母音同定手段１５４は、「１．６＜＝β＜＝２．５」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ３０５に行き、βが上記範囲を満たさなければステップＳ３０６に行く。
（ステップＳ３０５）母音同定手段１５４は、リターン値を「／ａ／」とする。上位関数にリターンする。
（ステップＳ３０６）母音同定手段１５４は、「２．８＜＝β＜＝４．６」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ３０７に行き、βが上記範囲を満たさなければステップＳ３１５に行く。
（ステップＳ３０７）母音同定手段１５４は、リターン値を「／ｏ／」とする。上位関数にリターンする。
（ステップＳ３０８）母音同定手段１５４は、「２．４＜＝α＜＝４．５」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ３０９に行き、αが上記範囲を満たさなければステップＳ３１１に行く。
（ステップＳ３０９）母音同定手段１５４は、「１．７＜＝β＜＝３．２」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ３１０に行き、βが上記範囲を満たさなければステップＳ３１８に行く。

（ステップＳ３１０）母音同定手段１５４は、リターン値を「／ｕ／」とする。上位関数にリターンする。
（ステップＳ３１１）母音同定手段１５４は、「３．０＜＝α＜＝５．１」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ３１２に行き、αが上記範囲を満たさなければステップＳ３１４に行く。
（ステップＳ３１２）母音同定手段１５４は、「１．１＜＝β＜＝１．４５」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ３１３に行き、βが上記範囲を満たさなければステップＳ３１８に行く。
（ステップＳ３１３）母音同定手段１５４は、リターン値を「／ｅ／」とする。上位関数にリターンする。

（ステップＳ３１４）母音同定手段１５４は、リターン値を「異常音」とする。上位関数にリターンする。
（ステップＳ３１５）母音同定手段１５４は、「閾値＜＝スペクトル情報」を満たすか否かを判断する。上記を満たせばステップＳ３１６に行き、満たさなければステップＳ３１７に行く。
（ステップＳ３１６）母音同定手段１５４は、リターン値を「／ａ／」とする。上位関数にリターンする。
（ステップＳ３１７）母音同定手段１５４は、リターン値を「／ｏ／」とする。上位関数にリターンする。
（ステップＳ３１８）母音同定手段１５４は、「閾値＜＝スペクトル情報」を満たすか否かを判断する。上記を満たせばステップＳ３１９に行き、満たさなければステップＳ３２０に行く。
（ステップＳ３１９）母音同定手段１５４は、リターン値を「／ｅ／」とする。上位関数にリターンする。
（ステップＳ３２０）母音同定手段１５４は、リターン値を「／ｕ／」とする。上位関数にリターンする。

なお、図３のフローチャートにおいて、α、βの範囲について、多少の誤差の値を考慮した判断を行っても良いことは言うまでもない。
以下、本実施の形態における情報処理装置を用いた実験結果について説明する。下記の実験結果の記載において、実験の結果とその考察について述べる。

本実験において、健常者８４名の音声を収録して、母音の音響的キューを探した。対象者の構成は成人男性５９名（２０代６人、３０代１０人、４０代１６人、５０代２３人、６０代４人）および成人女性２５名（２０代１１人、３０代５人、４０代５人、５０代３人、６０代１人）である。音声は騒音のない通常の部屋（無響音室ではない）で録音し、サンプリング周波数１６ｋＨｚでパソコンに取り込んだ。発話は「アイウエオ」の順に約１秒間隔で吹き込んだ。

後述の音声分析には（株）アニモ製のＳＵＧＩＳｐｅｅｃｈＡｎａｌｙｚｅｒを用いた。分析パラメータは、フォルマント抽出条件はフレームサイズ：３２ｍｓｅｃ、スペクトログラムの設定条件は窓のタイプ：ハミング窓、ＦＦＴサイズ：１０２４である。測定項目は音声波形、フォルマント周波数（Ｆ１，Ｆ２，Ｆ３）、ピッチ（基本周波数Ｆ０）、狭帯域スペクトログラムである。

先行研究（上記の非特許文献３）によってフォルマントＦ１とＦ２が母音を同定する主要なキューとなることが知られている。そこで前記８４名のＦ１とＦ２を図４にプロットした。図４における特徴は、（１）母音ごとに特定の領域に楕円状に分布していること（２）その楕円は長軸の方向がおおよそ原点方向に向いていること（３）男女の観測点が別々の塊となって分布していること（４）／ａ／と／ｏ／および／ｕ／と／ｅ／の領域に重なりが生じていることである。日本語の母音については、幾つか報告（上記の非特許文献４、５など）があるが、上記の特徴は共通している。

図４におけるＦ１とＦ２の間には正の相関があり、その相関係数は図５における表のようになった。また女性の観測点が男性のそれより、周波数の高い側に偏っていることは、よく知られている（上記の非特許文献６、７など）。しかし、人はラジオの音声からでも母音を同定できるから、事前に男女を認識して判断しているわけではない。結局男女差があっても「ア」は「ア」と識別出来なくてはならない。また、図４では／ａ／と／ｏ／の領域が重なり合っていて、図４からだけでは両者を識別することが出来ない。ここに「母音の話者正規化問題」の本質がある。

一方、女性は男性よりピッチ（Ｆ０）が高い。それは主として声帯の膜の長さの差によるものと考えられている（上記の非特許文献６）。然るにピッチとフォルマント周波数の関係については、注目されることが少なかった。これは現在の音声分析理論が拠って立つ音源フィルタ理論では、音源とフィルタはお互いに独立したものとして取り扱われて来たからであろう。ピッチが声帯（音源）の振動数を反映するのに対して、フィルタは声道内の伝達特性を反映するからである。しかし実際の音声について調べてみると、ピッチ（Ｆ０）と第一フォルマント（Ｆ１）の間に相関が認められる。

非特許文献４において、母音について子供と成人男女のＦ０とＦ１を調べ、子供については両者の間に相関を認め、成人については相関を認めなかった。対象者すべてを含めた場合の相関係数を母音別に図６に示す。このような相関が生じたのは声道の長さの違いに起因し、年齢を媒体として間接的に認められる関係であるとした。

そこで、本実験の被験者８４名について調べ、Ｆ１とＦ０の関係を母音別に図７に図示する。両者の相関係数は図６である。どの母音についても相関が認められ、相関係数の検定からいずれも危険率１％で、相関ありという結果となった。

本実験で収録した音声は通常の状態で発声したものである。そこで、故意にピッチを上げて発声したときに、Ｆ１とＦ０がどのような関係になるかを調べた。特定の男性１名に／ａ／なら「ア」と発音しながら、「ドミソド」と音程を変えて何度か発声してもらい、音声を収録した。その結果を図８に示す。／ａ／については、初めての緊張でバラツキが大きかったが、他の母音については、かなりの相関が認められた。その相関係数は、図６である。

図８は１名の対象者のＦ０とＦ１の関係であるが、このような場合でも両者の間で相関が認められる。この理由は声帯や声道の長さの違いでは説明出来ない。しかし、人体構造と単一音響管モデルの摂動理論からある程度説明できる。高い声を出すときは、輪状甲状筋を使って声帯を引き伸ばすようにする。このとき声帯は緊張し、喉頭が挙上する（非特許文献８参照）。これによって声門近辺に声道の狭め（狭窄）が生じると考えられる。ここで声道を単一音響管モデルで近似し、その摂動理論（非特許文献９参照）を適用すると、声門近辺に狭めが生じるとフォルマントＦ１，Ｆ２，Ｆ３が上昇する。すなわち声帯の緊張がフォルマント周波数を高める方向に働く。
かくして、Ｆ０とＦ１の間に相関が生じる理由は、主として次の２つの面から説明される。
（１）Ｆ０は主として声帯の膜の長さが短いほど高くなる。一方、Ｆ１は声道の長さが短いほど高くなる。ところが、声帯の膜の長さも声道の長さも「子供＜成人女性＜成人男性」の関係にあるため、Ｆ０とＦ１は正の相関を持つことになる。
（２）人が故意に音程を違えて発声する場合は、上述の摂動理論からＦ０とＦ１は正の相関を持つことになる。
上記ではＦ０とＦ１の相関のみを論じたが、８４名について調べてみると、Ｆ１と同様の関係がＦ２にもＦ３にも認められた。これは上述の考察からも頷けることである。

いずれにしてもピッチとフォルマント周波数は正の相関にあるので、フォルマント周波数からピッチの影響を排除することを考える。そのために換算フォルマント周波数（Ｖ１，Ｖ２，Ｖ３）をそれぞれ数式１、数式２、数式３で定義する。
換算フォルマント周波数とは、Ｆ０とフォルマント周波数の間に線形関係を仮定した場合に、ピッチが１００Ｈｚであるときのフォルマント周波数である。
ここで、８４名の音声について、Ｖ１とＶ２を図９にプロットした。この図９を図４（Ｆ１＆Ｆ２平面図）と対比してみると、次のことが分る。
（１）母音ごとに観測点は原点を通る直線の周りに分布している。
（２）図４では男女の観測点がそれぞれ塊となっていたが、図９では入り混じっている。

もしすべての観測点が直線上に乗っているなら、その直線の勾配から母音を同定できることになる。実際には、声道の個人差やその場の緊張などの要因が絡み、理想的に１本の直線に乗ることはなかったが、本質的なことは「Ｖ１とＶ２の勾配が母音を決定している」という点である。複数の観測点があるとき、そのＶ１やＶ２の値が何であれ、Ｖ１とＶ２の勾配が同じなら同じ母音に属すると言える。

同様にＶ２＆Ｖ３平面図を図１０に示した。Ｖ２，Ｖ３の値が大きくなったために、バラツキが大きく見えるが、相関係数を求めると図１１のように図９も図１０も差異がない。いずれにおいても、２つの変数間（Ｖ１対Ｖ２、Ｖ２対Ｖ３）に強い相関が認められる。

では、なぜ観測点が原則的に１本の直線上に乗り、その勾配で母音が決まるのであろうか？この点を単一音響管モデルとその摂動理論から考察してみたい。単一音響管モデルによれば、管内に生じる第ｎフォルマント周波数をＦ_ｎと書くと、数式４で表わされる。
ここで、声道の一部に局所的狭めが生じると、フォルマント周波数が変動する。その効果を表わすために数式４に補正係数Ｋ_ｎを導入すると、数式５を得る。
今、Ｖ１とＶ２の勾配をα（第一勾配情報の一例）、Ｖ２とＶ３の勾配をβ（第二勾配情報の一例）と書くと、数式１から数式３の式から、α、βは、それぞれ数式６、７により算出できるものとなる。
よって、数式５から次式の数式８、９を得る。

上記の数式８、９は、勾配α、βが声道の長さには依存せず、狭めの位置即ち声道の形状だけに依存していることを表わしている。このことはまさしく母音の産生そのものに依存していることを意味している。しかも母音が勾配α、βだけで決まるなら、まさしく「母音の正規化問題」が解決されることになる。

以上のことから、図９、図１０で観測点が母音ごとに１本の直線上に乗るというのは偶々のことではなく必然性のある事であることが分かる。しかし、実際の観測点ではいろいろの要因が絡んで完全に１本の線上には乗らず、直線の周辺で重なりが生じ得る。たとえば、図９では／ｅ／と／ｕ／及び／ａ／と／ｏ／の直線が接近し過ぎて重なりが生じる。その重なり具合をみるために、数式６、７を使って、α、βを計算し、図１２にプロットした。

図１２において、母音領域がお互いに重なり合わない領域を「適合領域」として、四角で囲った。Ｆ１，Ｆ２，Ｆ３の値からα、βを計算し、それが或る母音（たとえば「ア」）の「適合領域」内にあれば、年齢・性別・個人差・緊張度合いなどに左右されることなく、その言語音はその母音（たとえば「ア」）と特定できる。これが「母音の話者正規化問題」に対する解答となり得る。言語中枢は、Ｆ２とＦ１の比（α）とＦ３とＦ２の比（β）さえ知覚できれば、どんな年齢の人のどんな人の声であろうと、母音を正しく特定できるのである。

ここで注目すべきは、α、βの間に相関がないことである。このことが母音の同定をやさしくしている。たとえば、図４のような図形を手掛かりに母音を同定するとなると、先ずその図形の認識をしなければならず、母音の持続時間（０．３秒程度）のうちに処理するには中枢の負担が大きい。かかる処理が実際に行われているとは考えにくい。上述のところによれば、α、βの値が幾らということを知覚出来さえすれば、母音を同定出来るのであるから、処理は極めて迅速に行える。図１２から「適合領域」とされるα、βの値を図１３に示した。

またα、βの値は男女間で偏ることもない。このことは数式８、９に声道の長さのようなファクターを含まないことからも想定できることである。このようなファクターに左右されないからこそ、「母音の話者正規化問題」を解決できる。

もう１つ特筆すべきことは、図４の図形が原点方向に向いた楕円状になることを説明できる点である。数式６から「Ｆ２＝α＊Ｆ１」と書き直してみると、αが一定であれば原点を通る直線を表わす。本来αは特定の母音ごとに一定の値を取るのであるが、個人差などにより、多少ばらつく。その結果直線の周りに観測点が集まって楕円状を形成するのである。
図１２から言えることを要約すると、以下のようになる。
（１）αの値が大（約６〜約１１）であれば、母音／ｉ／である。
（２）αの値が中（約２〜約６）であれば、母音／ｕ／か／ｅ／である。
（３）αの値が小（約１〜約２）であれば、母音／ａ／か／ｏ／である。

一方／ｕ／と／ｅ／および／ａ／と／ｏ／を分離するものがβである。βによって、これらは基本的には分離出来ている。しかし、βだけではこれらを完全に分離することは困難である。βの「適合領域」の外にも多くの観測点が見られるからである。
／ｕ／と／ｅ／および／ａ／と／ｏ／を音響特性面から分離することは、非常に難しい（非特許文献４、非特許文献１０参照）と言われていた。

ところで、音声の知覚には特別な特徴がある。その１つは音声波の位相差を認識しないという特徴である。この特徴の故に上述したようにフォルマント周波数だけで母音をほぼ特定できる。次の特徴は、遮蔽（マスキング）と呼ばれる現象である。或る周波数成分の振幅が他の周波数成分のそれよりも大幅に低いと、その周波数成分は聞こえなくなる（非特許文献１１参照）。

図１４に或る男性の母音の音声波形と狭帯域スペクトログラムとスペクトルを示した。これは成人男性の典型的パターンである。スペクトル図には縦軸に周波数、横軸に振幅の相対的強さを取ってある。相対的強さは最大ピーク値を基準に、その相対値で表わしてある。また周波数の測定位置は音声波形上に縦線で示してある。スペクトル図には、線形予測分析から求めた包絡線が描かれている。本実験で採用したフォルマント周波数は包絡線から求めた値である。またスペクトログラムについては、母音は発音中の音声波形変化が少ないので周波数分解能の高い狭帯域スペクトログラムを表示した。

ここで、図１４のスペクトルとスペクトログラムを見ると、母音ごとに特有の形をしている。この図形を特徴付ける第一の特徴は、包絡線の第一ピーク（Ｆ１）と第二ピーク（Ｆ２）の間隔である。それは前述のα（＝Ｆ２／Ｆ１）の値によって表わされる。第二の特徴は第二ピーク（Ｆ２）と第３ピーク（Ｆ３）の間隔で、これはβ（＝Ｆ３／Ｆ２）の値で表わされる。第３の特徴は、／ｕ／と／ｅ／および／ａ／と／ｏ／を分離できる特徴である。スペクトログラム上で／ｕ／と／ｅ／のパターンを比べると、Ｆ２とＦ３の間の中間領域の濃淡がお互いに逆であることが分る。一方／ａ／と／ｏ／でも、同じことが言える。

／ｕ／と／ｏ／では、Ｆ２とＦ３の間の中間領域の相対的強さが低い。／ａ／と／ｅ／では、Ｆ２とＦ３の間の中間領域の相対的強さが高い。そこで、第二ピーク（Ｆ２）と第３ピーク（Ｆ３）の間の領域で、その相対的強さが別途定める閾値以上である領域の比率γを「第３の音響的キュー」と定義する。
そうすると、図１４からから、
（１）γ＞０．５ならば、母音は／ａ，ｉ，ｅ／のいずれかである。つまり聴取音は／ａ，ｉ，ｅ／のいずれかに聞こえる。
（２）γ＜０．５ならば、母音は／ｕ，ｏ／のいずれかである。
この判別式を「第３の音響的キューの規準」と呼ぶことにする。なお、「γ＝０．５」の場合に、いずれに分類するかは、問わない。

ここで、マスキング現象によって、／ａ，ｉ，ｅ／の音はＦ２とＦ３の中間域の周波数成分が聞こえ、／ｕ，ｏ／の音では聞き取りにくいという差が生じる。即ち／ｕ／と／ｅ／あるいは／ａ／と／ｏ／を明確に区分できる。
「第３の音響的キュー」というのは、聴覚印象的に「その母音らしさ」を強調する仕掛けとも言える。ただ、閾値の大きさについては、個人差が大きいかも知れない。
このような現象の存在は、聴覚の欠陥を意味するものではなくて、逆に人が言語を確実に聞き分けるために獲得した特別の能力と考えられる。

この規準の妥当性を検証するために、閾値を−３５ｄＢに取って、スペクトログラムとスペクトル図から目視で８４名の音声について調べた。その結果「第３の音響的キューの規準」が大部分の人で成立したが、それに合わない人も居た。そこで、そのような人だけを抜き出して図１５にプロットした。／ａ／で９点、／ｉ／で１点、／ｅ／で１点あった。これらの観測点は上記の規準が適用できない例外点である。
ここで注目したいのは、これらの例外点はすべて「適合領域」にあることである。したがって、これらの観測点はどの母音に属するものであるかを特定できる。

もう１つの注目点は、適合領域から外れている観測点は、すべてこの規準によって／ｕ／と／ｅ／および／ａ／と／ｏ／のいずれであるかを判別出来たことである。たとえば／ａ／と／ｏ／の適合領域の中間域では、／ａ／と／ｏ／の観測点が入り混じっている。しかし／ａ／の観測点では、いずれもγが０．５以上であった。逆に、／ｏ／の観測点では、いずれもγが０．５以下であった。すなわち適合領域の中間域では、この規準による判定で完全に識別出来た。このことは／ｕ／と／ｅ／の間でも成立した。
このようにα、βの値ではどの母音に属するかを特定できない場合でも、さらに第３の音響的キューの規準によって、すべてを完全に特定できるのである。上記の母音同定プロセスを図１６に示す。
次に、／ｉ／が他の母音に比べると明瞭度が低い被験者（舌切除によって構音障害を起した被験者）の場合について述べる。かかる被験者の場合、五十音表のイ列音の明瞭度が極端に低くなる。

それを改善するために、被験者は、２種類の舌接触補助床を装着している。１つは硬口蓋と接するものでＰＡＰと略称する。もう１つは口腔底に接するものでＬＡＰと略称する。通常は、被験者は、両者を同時に装着しているが、本実験では非装着と装着の場合に分けて測定した。
図１７に、非装着状態の時の音響データを示す。具体的には、図１７は、構音障害者の母音（ＰＡＰ非装着時）の音声波形と狭帯域スペクトログラムとスペクトル図を示す。
図１８に、ＰＡＰとＬＡＰを同時装着の時の音響データを図示す。健常者のデータ（図１４）と対比すると、図１７はかなりの違いがあるが、図１８ではかなり似ている。

図１９に、舌切除によって構音障害を起した被験者の音声のα、βの関係図を示す。図１９において、（１）非装着（２）ＰＡＰ単独（３）ＬＡＰ単独（４）両者の併用（以下、適宜、「併用系」という）の４ケースについてプロットした。

適合領域からはずれたところにあるのは、／ｉ／のすべてと併用系の／ｏ／であった。後者については、上述の「規準」を満足しているので、／ｏ／と正しく聴取される。「規準」に合致していない観測点は、／ｉ／のＰＡＰ単独とＬＡＰ単独であった。しかし、／ｉ／の非装着と併用系でも、閾値を−３０ｄＢにとると、「規準」からはずれた。図１９から判断すると、いずれの／ｉ／も、／ｅ／とも／ｕ／とも／ｉ／とも言えない音になっていることが分かる。別途実施した明瞭度検査から、被験者では他の母音に比べると／ｉ／が他の音に異聴される比率が高く、また／ｉ／を後続母音とする「イ列音」の明瞭度が特に低い傾向が認められる。これは、図１９の結果と良く符号する。一番／ｉ／の適合領域に近いのはＰＡＰとＬＡＰの併用系であった。舌接触補助床の効果は、それなりに認められる。この結果は、症例の実情と良く一致する。
以上、本実施の形態によれば、日本語の５母音を同定できる。また、本方法は、構音障害者の診断にも応用できる。

また、上記の実験において、聴覚上の２つの特殊な能力（１）位相差を聞き分けない（位相差に鈍感になる）という能力、（２）聴覚的マスキング能力、に着目し、３つの音響的キューを見出した。これらの音響的キューは、いずれも聴覚器官から中枢に送られて来る神経インパルスから容易に処理できる単純なものばかりである。しかも音声の時間的・動的情報などを必要としない。それゆえ一瞬にして消滅してしまう音声を捉えるには適性のある認識方法と考えられる。この同定方法は、上述したように８４名の音声で検証された。故に「話者正規化問題」もクリア出来ている。また、声道を単純化した単一音響管モデルの摂動理論からも理論的に説明できた。さらに、本被験者の異常構音に適用した結果、実情と非常によく一致した。

なお、本実施の形態の具体例において、第一勾配情報を「Ｆ１／Ｆ２」、第二勾配情報を「Ｆ３／Ｆ２」としたが、他の算出式でも良い。つまり、第一勾配情報は、Ｆ１とＦ２との関係に関する情報であれば良い。また、第二勾配情報は、Ｆ２とＦ３との関係に関する情報であれば良い。かかることは、他の実施の形態においても同様である。

また、本実施の形態によれば、第三フォルマント周波数（Ｆ３）を用いて母音同定を行う点が特徴である。さらに言えば、第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）、および第三フォルマント周波数（Ｆ３）を用いて母音同定を行う点が特徴である。Ｆ１、Ｆ２、Ｆ３をいかに用いて母音同定するかは、いくつか考えられる。つまり、本実施の形態における情報処理装置は、音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定部と、前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置である。また、かかる場合の処理部の処理は問わない。処理部は、同定結果を蓄積したり、送信したり、表示したり、出力（音声出力、印刷）などするだけでも良い。かかることも、他の実施の形態においても同様である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声情報を受け付ける音声情報受付ステップと、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得ステップと、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得ステップと、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得ステップと、前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定ステップと、を実行させるためのプログラム、である。

また、上記プログラムにおける母音同定ステップは、前記Ｆ１と前記Ｆ２との関係に関する情報である第一勾配情報を算出する第一勾配情報算出ステップと、前記Ｆ２と前記Ｆ３との関係に関する情報である第二勾配情報を算出する第二勾配情報算出ステップと、前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定ステップを具備することは好適である。

また、上記プログラムにおいて、前記第一勾配情報は「Ｆ２／Ｆ１」であり、前記第二勾配情報は「Ｆ３／Ｆ２」であり、前記母音同定ステップにおいて、前記第一勾配情報が略５．９〜略１０．８である場合に、前記音声情報の母音を／ｉ／と判断し、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．６〜略２．５である場合に、前記音声情報の母音を／ａ／と判断し、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略２．８〜略４．６である場合に、前記音声情報の母音を／ｏ／と判断し、前記第一勾配情報が略２．４〜略４．５であり、かつ前記第二勾配情報が略１．７〜略３．２である場合に、前記音声情報の母音を／ｕ／と判断し、前記第一勾配情報が略３．０〜略５．１であり、かつ前記第二勾配情報が略１．１〜略１．４５である場合に、前記音声情報の母音を／ｅ／と判断することは好適である。

上記プログラムにおいて、前記母音同定ステップは、前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、前記母音同定サブステップは、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．６〜略２．５でもなく、かつ略２．８〜略４．６でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ａ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｏ／と判断し、かつ、前記第一勾配情報が略２．４〜略４．５であり、かつ前記第二勾配情報が略１．７〜略３．２でない場合、および前記第一勾配情報が略３．０〜略５．１であり、かつ前記第二勾配情報が略１．１〜略１．４５でない場合であり、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｅ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｕ／と判断することは好適である。

上記プログラムにおいて、前記母音同定ステップにおいて、前記第一勾配情報が略５．９〜略１０．８ではなく、かつ、前記第一勾配情報が略１．３〜略２．２ではなく、かつ、前記第一勾配情報が略１．３〜略２．２ではなく、かつ、前記第一勾配情報が略２．４〜略４．５ではなく、かつ、前記第一勾配情報が略３．０〜略５．１ではない場合に、前記音声情報を異常音と判断することは好適である。

なお、上記プログラムは、母音同定する処理まで行うプログラムであったが、母音同定ステップで同定した母音に基づいて、何らかの処理をする処理ステップを、コンピュータにさらに実行させるプログラムでも良い、ことは言うまでもない。
（実施の形態２）
本実施の形態において、母音の発音の評価を行い、評価結果を出力する装置等について説明する。
図２０は、本実施の形態における情報処理装置のブロック図である。

本情報処理装置は、発音情報出力部２０１、フォルマント周波数母音対応情報格納部２０２、音声情報受付部１１、Ｆ１取得部１２、Ｆ２取得部１３、Ｆ３取得部１４、母音同定部１５、評価部２０３、評価結果出力部２０４を具備する。

発音情報出力部２０１は、ユーザに発音を促す情報である発音情報を出力する。発音情報は、例えば、「ａと発音してください。」などである。ただし、発音情報は、ユーザに発音を促す情報であれば、その内容は問わない。発音情報は、例えば、予め、発音情報出力部２０１が格納している。ここで、出力とは、ディスプレイへの表示、音出力、外部の装置（表示装置）への送信等を含む概念である。発音情報出力部２０１は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。発音情報出力部２０１は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

フォルマント周波数母音対応情報格納部２０２は、第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）、および第三フォルマント周波数（Ｆ３）に関する情報と、母音との対応を示すフォルマント周波数母音対応情報を格納している。フォルマント周波数母音対応情報の具体例は後述する。フォルマント周波数母音対応情報格納部２０２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

評価部２０３は、Ｆ１取得部１２が取得したＦ１、Ｆ２取得部１３が取得したＦ２、およびＦ３取得部１４が取得したＦ３と、フォルマント周波数母音対応情報に基づいて、音声情報受付部１１が受け付けた音声情報を評価する。評価アルゴリズムの具体例は後述する。評価部２０３は、通常、ＭＰＵやメモリ等から実現され得る。評価部２０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評価結果出力部２０４は、評価部２０３における評価結果を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。評価結果出力部２０４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。評価結果出力部２０４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、情報処理装置の動作について図２１、図２２のフローチャートを用いて説明する。
（ステップＳ２１０１）発音情報出力部２０１は、発音情報を出力する。
（ステップＳ２１０２）評価部２０３は、音声情報受付部１１が受け付けた音声情報を評価する。評価部２０３の評価処理に関して、図２２のフローチャートを用いて詳細に説明する。
（ステップＳ２１０３）評価結果出力部２０４は、ステップＳ２１０２における評価結果を出力する。

次に、評価処理の動作について図２２のフローチャートを用いて説明する。
（ステップＳ２２０１）評価部２０３は、ステップＳ２０５で取得したαに最も近いαの範囲を持つ母音を、フォルマント周波数母音対応情報格納部２０２のフォルマント周波数母音対応情報に基づいて決定する。

（ステップＳ２２０２）評価部２０３は、ステップＳ２２０１で決定した母音の（α，β）と、本（α，β）の距離を算出する。母音の（α，β）におけるα，およびβは、範囲を有するデータである。本（α，β）におけるα，およびβは、図２１のフローチャートにおけるステップＳ２０５で取得したα、図２１のフローチャートにおけるステップＳ２０６で取得したβである。また、距離は、「本（α，β）のαと、母音の（α，β）のαの最も近いαとの差の２乗」、および「本（α，β）のβと、母音の（α，β）のβの最も近いβとの差の２乗」の和の平方根により算出される。
（ステップＳ２２０３）評価部２０３は、評価値に「−距離」を代入する。ここでの距離とは、ステップＳ２２０２で算出した距離である。ステップＳ２２０５に行く。
（ステップＳ２２０４）評価部２０３は、評価値に「０」を代入する。

（ステップＳ２２０５）評価部２０３は、リターン値に「評価値，母音」を代入する。上位関数にリターンする。なお、ここでの母音は、「／ａ／」「／ｉ／」「／ｕ／」「／ｅ／」「／ｏ／」「異常音」のいずれかである。
なお、図２２のフローチャートにおいて、リターン値のデータ構造は問わない。

また、図２２のフローチャートにおいて、最も近い母音を決定するために、βの値を用いても良い。かかる場合、例えば、評価部２０３は、フォルマント周波数母音対応情報の全母音のα、βと、取得した音声情報のα、βを用いて、距離を算出し、距離が最も近い母音を最も近い母音として決定しても良い。

さらに、図２１、図２２のフローチャートにおいて、ユーザに発音して欲しい母音（例えば、「ア」）を提示し、「ア」の範囲のα、βと、受け付けた音声情報のα、βとの距離（距離の定義は上記と同様）等から、母音の発音の良し悪しを評価しても良い。

以下、本実施の形態における情報処理装置の具体的な動作について説明する。
今、フォルマント周波数母音対応情報格納部２０２のフォルマント周波数母音対応情報の例を、図１３に示す。
かかる場合、例えば、発音情報出力部２０１は、「練習したい母音を発音して下さい。」という発音情報をディスプレイに表示する。

次に、被験者は、「い」と発音する。
次に、音声情報受付部１１は、被験者が発音した音声を取得し、音声情報に変換する。
次に、Ｆ１取得部１２、Ｆ２取得部１３、Ｆ３取得部１４は、それぞれ、受け付けた音声情報からＦ１、Ｆ２、Ｆ３を取得する。
次に、第一勾配情報算出手段１５１は、算出式「Ｆ２／Ｆ１」により第一勾配情報（α）を算出する。ここでは、「α＝１３．０」と算出された、とする。
次に、第二勾配情報算出手段１５２は、算出式「Ｆ３／Ｆ２」により第二勾配情報（β）を算出する。ここでは、「β＝０．９」と算出された、とする。
次に、スペクトル情報取得手段１５３は、Ｆ１とＦ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得する。
そして、次に、母音同定手段１５４は、母音を「異常音」として同定する。かかるアルゴリズムは、説明済みである。
次に、評価部２０３は、算出した「α＝１３．０」と図２３のフォルマント周波数母音対応情報に基づいて、最も近い母音は「／ｉ／」であると決定する。

次に、評価部２０３は、決定した母音「／ｉ／」の（α，β）と、本（α，β）の距離を算出する。つまり、評価部２０３は、「（（１３．０−１０．８）^２＋（０．９−１．１）^２）^１／２」を算出する。評価部２０３は、評価値「約２．２１」を得る。
次に、評価部２０３は、評価値「約−２．２１」、母音「異常音」を有するリターン値を構成する。
次に、評価結果出力部２０４は、例えば、図２３に示すような評価結果を出力する。
以上、本実施の形態によれば、母音の発音の良し悪し（同定具合）が評価でき、その結果を出力できる。
なお、本情報処理装置において、母音同定部１５の代わりに、後述する母音同定部２４５を用いても良いことは言うまでもない。

また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、発音を促す情報である発音情報を出力する発音情報出力ステップと、音声情報を受け付ける音声情報受付ステップと、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得ステップと、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得ステップと、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得ステップと、前記Ｆ１取得部が取得したＦ１、前記Ｆ２取得部が取得したＦ２、および前記Ｆ３取得部が取得したＦ３と、格納しているフォルマント周波数母音対応情報に基づいて、前記音声情報受付ステップで受け付けた音声情報を評価する評価ステップと、前記評価ステップにおける評価結果を出力する評価結果出力ステップを実行させるためのプログラム、である。
（実施の形態３）
図２４は、本実施の形態における情報処理装置のブロック図である。

情報処理装置は、音声情報受付部１１、Ｆ１取得部１２、Ｆ２取得部１３、Ｆ３取得部１４、母音同定部２４５、処理部１６を具備する。母音同定部２４５は、第一勾配情報算出手段１５１、第二勾配情報算出手段１５２、スペクトル情報取得手段１５３、母音同定手段２４５４を具備する。
本情報処理装置は、実施の形態１の情報処理装置と比較して、母音同定のためのアルゴリズム（母音同定手段２４５４）が異なる。

母音同定手段２４５４は、第一勾配情報、および第二勾配情報に基づいて、音声情報の母音を同定する。母音同定手段２４５４は、第一勾配情報、第二勾配情報、およびスペクトル情報に基づいて、音声情報の母音を同定しても良い。

具体的には、母音同定手段２４５４は、以下のように音声情報の母音を決定する（第一の例）。つまり、母音同定手段２４５４は、第一勾配情報（α）が略５．８〜略１０．８であり、第二勾配情報（β）が略１．２〜略１．８である場合に、音声情報の母音を／ｉ／と判断する。また、具体的には、母音同定手段２４５４は、αが略１．３〜略２．２であり、第二勾配情報（β）が略１．５〜略２．５である場合に、音声情報の母音を／ａ／と判断する。また、具体的には、母音同定手段２４５４は、αが略１．３〜略２．２であり、かつβが略２．８〜略４．６である場合に、音声情報の母音を／ｏ／と判断する。また、具体的には、母音同定手段２４５４は、αが略２．４〜略４．９であり、かつβが略１．６５〜略３．２である場合に、音声情報の母音を／ｕ／と判断する。また、具体的には、母音同定手段２４５４は、αが略３．０〜略５．５であり、かつβが略１．１〜略１．４５である場合に、音声情報の母音を／ｅ／と判断する。

また、具体的には、母音同定手段２４５４は、以下のように音声情報の母音を決定する。つまり、具体的には、母音同定手段２４５４は、第一勾配情報（α）が略５．８〜略１０．８であり、第二勾配情報（β）が略１．２〜略１．８ではなく、スペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合に、音声情報の母音を／ｉ／と判断する。また、具体的には、母音同定手段２４５４は、第一勾配情報（α）が略５．８〜略１０．８であり、第二勾配情報（β）が略１．２〜略１．８ではなく、スペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）に、音声情報を異常音と判断する。また、具体的には、母音同定手段２４５４は、αが略１．３〜略２．２であり、かつ第二勾配情報（β）が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でない場合であり、かつスペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合に、音声情報の母音を／ａ／と判断する。また、具体的には、母音同定手段２４５４は、αが略１．３〜略２．２であり、かつ第二勾配情報（β）が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でない場合であり、かつスペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）に、音声情報の母音を／ｏ／と判断する。

また、母音同定手段１５４は、αが略２．４〜略４．９であり、かつβが略１．６５〜略３．２でない場合、およびαが略３．０〜略５．５であり、かつβが略１．１〜略１．４５でない場合であり、スペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合は、音声情報の母音を／ｅ／と判断する。母音同定手段１５４は、αが略２．４〜略４．９であり、かつβが略１．６５〜略３．２でない場合、およびαが略３．０〜略５．５であり、かつβが略１．１〜略１．４５でない場合であり、スペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）は、音声情報の母音を／ｕ／と判断する。なお、上記の閾値は、例えば、γ「０．５」である。

また、具体的には、母音同定手段１５４は、以下のように音声情報の母音を決定する（第二の例）。第二の例において、第一の例における判断に加えて、以下のように母音を決定する。母音同定手段１５４は、αが略１．３〜略２．２であり、かつβが略１．５〜略２．５でもなく、かつβが略２．８〜略４．６でもない場合に、スペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合は、音声情報の母音を／ａ／と判断する。また、母音同定手段１５４は、αが略１．３〜略２．２であり、かつβが略１．５〜略２．５でもなく、かつβが略２．８〜略４．６でもない場合に、スペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）は、音声情報の母音を／ｏ／と判断する。また、母音同定手段１５４は、αが略２．４〜略４．９であり、かつβが略１．６５〜略３．２でない場合、およびαが略３．０〜略５．１であり、かつβが略１．１〜略１．４５でない場合であり、スペクトル情報が閾値と所定の関係（例えば、閾値以上）にある場合は、音声情報の母音を／ｅ／と判断する。母音同定手段１５４は、αが略２．４〜略４．９であり、かつβが略１．６５〜略３．２でない場合、およびαが略３．０〜略５．５であり、かつβが略１．１〜略１．４５でない場合であり、スペクトル情報が閾値と所定の関係にない場合（例えば、閾値未満の場合）は、音声情報の母音を／ｕ／と判断する。なお、上記の閾値は、例えば、γ「０．５」である。

さらに、具体的には、母音同定手段２４５４は、第一勾配情報（α）が略５．８〜略１０．８でもなく、αが略１．３〜略２．２でもなく、かつαが略３．０〜略５．５でもない場合、音声情報を異常音と判断する。なお、異常音とは、母音が同定できなかった音であり、一般成人からみて、正常な日本語の母音と認識されない音と考えて良い。

母音同定手段１４５４は、通常、ＭＰＵやメモリ等から実現され得る。母音同定手段１４５４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、情報処理装置の動作について図２５、図２６のフローチャートを用いて説明する。
図２５のフローチャートにおいて、図２のフローチャートと比較して、ステップＳ２５０１の母音同定のアルゴリズムが異なるだけである。

（ステップＳ２５０１）母音同定手段２４５４は、第一勾配情報（α）、第二勾配情報（β）、およびスペクトル情報に基づいて、音声情報の母音を同定する。母音を同定するアルゴリズムの例は、図２６のフローチャートを用いて詳述する。
なお、図２５のフローチャートにおいて、スペクトル情報の取得処理は、ステップＳ２５０１における母音の同定に必要な場合のみ行っても良い。
また、図２５のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、母音同定の動作について図２６のフローチャートを用いて説明する。なお、図２６のフローチャートにおいて、リターン値には、同定された母音に関する情報、または異常音を示す情報が格納される。

（ステップＳ２６０１）母音同定手段２４５４は、「５．８＜＝α＜＝１０．８」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ２６０２に行き、αが上記範囲を満たさなければステップＳ２６０５に行く。

（ステップＳ２６０２）母音同定手段２４５４は、「１．２＜＝β＜＝１．８」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ２６０３に行き、βが上記範囲を満たさなければステップＳ２６０４に行く。
（ステップＳ２６０３）母音同定手段２４５４は、リターン値を「／ｉ／」とする。こここで、母音が「／ｉ／」に同定されたことを示す。上位関数にリターンする。
（ステップＳ２６０４）母音同定手段２４５４は、「閾値＜＝スペクトル情報」を満たすか否かを判断する。上記を満たせばステップＳ２６０３に行き、満たさなければステップＳ２６１６に行く。

（ステップＳ２６０５）母音同定手段２４５４は、「１．３＜＝α＜＝２．２」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ２６０６に行き、αが上記範囲を満たさなければステップＳ２６１０に行く。

（ステップＳ２６０６）母音同定手段２４５４は、「１．５＜＝β＜＝２．５」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ２６０７に行き、βが上記範囲を満たさなければステップＳ２６０８に行く。
（ステップＳ２６０７）母音同定手段２４５４は、リターン値を「／ａ／」とする。上位関数にリターンする。

（ステップＳ２６０８）母音同定手段２４５４は、「２．８＜＝β＜＝４．６」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ２６０９に行き、βが上記範囲を満たさなければステップＳ２６１７に行く。
（ステップＳ２６０９）母音同定手段２４５４は、リターン値を「／ｏ／」とする。上位関数にリターンする。

（ステップＳ２６１０）母音同定手段２４５４は、「２．４＜＝α＜＝４．９」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ２６１１に行き、αが上記範囲を満たさなければステップＳ２６１３に行く。

（ステップＳ２６１１）母音同定手段２４５４は、「１．６５＜＝β＜＝３．２」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ２６１２に行き、βが上記範囲を満たさなければステップＳ２６２０に行く。
（ステップＳ２６１２）母音同定手段２４５４は、リターン値を「／ｕ／」とする。上位関数にリターンする。

（ステップＳ２６１３）母音同定手段２４５４は、「３．０＜＝α＜＝５．５」を満たすか否かを判断する。αが上記範囲を満たせばステップＳ２６１４に行き、αが上記範囲を満たさなければステップＳ２６１６に行く。

（ステップＳ２６１４）母音同定手段２４５４は、「１．１＜＝β＜＝１．４５」を満たすか否かを判断する。βが上記範囲を満たせばステップＳ２６１５に行き、βが上記範囲を満たさなければステップＳ２６２０に行く。
（ステップＳ２６１５）母音同定手段２４５４は、リターン値を「／ｅ／」とする。上位関数にリターンする。
（ステップＳ２６１６）母音同定手段２４５４は、リターン値を「異常音」とする。上位関数にリターンする。
（ステップＳ２６１７）母音同定手段２４５４は、「閾値＜＝スペクトル情報」を満たすか否かを判断する。上記を満たせばステップＳ２６１８に行き、満たさなければステップＳ２６１９に行く。

（ステップＳ２６１８）母音同定手段２４５４は、リターン値を「／ａ／」とする。上位関数にリターンする。
（ステップＳ２６１９）母音同定手段２４５４は、リターン値を「／ｏ／」とする。上位関数にリターンする。
（ステップＳ２６２０）母音同定手段２４５４は、「閾値＜＝スペクトル情報」を満たすか否かを判断する。上記を満たせばステップＳ２６２１に行き、満たさなければステップＳ２６２２に行く。
（ステップＳ２６２１）母音同定手段２４５４は、リターン値を「／ｅ／」とする。上位関数にリターンする。
（ステップＳ２６２２）母音同定手段２４５４は、リターン値を「／ｕ／」とする。上位関数にリターンする。

なお、図２６のフローチャートにおいて、α、βの範囲について、多少の誤差の値を考慮した判断を行っても良いことは言うまでもない。

以下、本実施の形態における情報処理装置を用いた実験結果について説明する。下記の実験結果の記載において、実験の結果とその考察について述べる。
実験の条件は、実施の形態１で述べた条件と同じである。

再度、８４名のＦ１とＦ２を図２７にプロットした。図２７における特徴は、図４と同様に、（１）母音ごとに特定の領域に楕円状に分布していること（２）その楕円は長軸の方向がおおよそ原点方向に向いていること（３）男女の観測点が別々の塊となって分布していること（４）／ａ／と／ｏ／および／ｕ／と／ｅ／の領域に重なりが生じていることである。
図２７におけるＦ１とＦ２の間には正の相関があり、その相関係数は図５における表のようになった。

本実験の被験者８４名について調べ、Ｆ１とＦ０の関係を母音別に図２８に図示する。両者の相関係数は図６である。どの母音についても相関が認められ、相関係数の検定からいずれも危険率１％で、相関ありという結果となった。

本実験で収録した音声は通常の状態で発声したものである。そこで、故意にピッチを上げて発声したときに、Ｆ１とＦ０がどのような関係になるかを調べた。特定の男性１名に／ａ／なら「ア」と発音しながら、「ドミソド」と音程を変えて何度か発声してもらい、音声を収録した。その結果を図２９に示す。／ａ／については、初めての緊張でバラツキが大きかったが、他の母音については、かなりの相関が認められた。その相関係数は、図６である。

図２９は１名の対象者のＦ０とＦ１の関係であるが、このような場合でも両者の間で相関が認められる。この理由は声帯や声道の長さの違いでは説明出来ない。しかし、人体構造と単一音響管モデルの摂動理論からある程度説明できる。高い声を出すときは、輪状甲状筋を使って声帯を引き伸ばすようにする。このとき声帯は緊張し、喉頭が挙上する（非特許文献８参照）。これによって声門近辺に声道の狭め（狭窄）が生じると考えられる。ここで声道を単一音響管モデルで近似し、その摂動理論（非特許文献９参照）を適用すると、声門近辺に狭めが生じるとフォルマントＦ１，Ｆ２，Ｆ３が上昇する。すなわち声帯の緊張がフォルマント周波数を高める方向に働く。
かくして、Ｆ０とＦ１の間に相関が生じる理由は、主として次の２つの面から説明される。
（１）Ｆ０は主として声帯の膜の長さが短いほど高くなる。一方、Ｆ１は声道の長さが短いほど高くなる。ところが、声帯の膜の長さも声道の長さも「子供＜成人女性＜成人男性」の関係にあるため、Ｆ０とＦ１は正の相関を持つことになる。
（２）人が故意に音程を違えて発声する場合は、上述の摂動理論からＦ０とＦ１は正の相関を持つことになる。
上記ではＦ０とＦ１の相関のみを論じたが、８４名について調べてみると、Ｆ１と同様の関係がＦ２にもＦ３にも認められた。これは上述の考察からも頷けることである。
上記ではＦ０とＦ１の相関のみを論じたが、８４名について調べてみると、Ｆ１と同様の関係がＦ２にもＦ３にも認められた。これは上述の考察からも頷けることである。

いずれにしてもピッチとフォルマント周波数は正の相関にあるので、フォルマント周波数からピッチの影響を排除することを考える。そのために換算フォルマント周波数（Ｖ１，Ｖ２，Ｖ３）をそれぞれ、上記の数式１、数式２、数式３で定義する。
換算フォルマント周波数とは、Ｆ０とフォルマント周波数の間に線形関係を仮定した場合に、ピッチが１００Ｈｚであるときのフォルマント周波数である。
ここで、８４名の音声について、Ｖ１とＶ２を図３０にプロットした。この図３０を図２７（Ｆ１＆Ｆ２平面図）と対比してみると、次のことが分る。
（１）母音ごとに観測点は原点を通る直線の周りに分布している。
（２）図２７では男女の観測点がそれぞれ塊となっていたが、図３０では入り混じっている。

同様にＶ２＆Ｖ３平面図を図３１に示した。Ｖ２，Ｖ３の値が大きくなったために、バラツキが大きく見えるが、相関係数を求めると図１１のように図３０も図３１も差異がない。いずれにおいても、２つの変数間（Ｖ１対Ｖ２、Ｖ２対Ｖ３）に強い相関が認められる。

以上のことから、図３０、図３１で観測点が母音ごとに１本の直線上に乗るというのは偶々のことではなく必然性のある事であることが分かる。しかし、実際の観測点ではいろいろの要因が絡んで完全に１本の線上には乗らず、直線の周辺で重なりが生じ得る。たとえば、図３０では／ｅ／と／ｕ／及び／ａ／と／ｏ／の直線が接近し過ぎて重なりが生じる。その重なり具合をみるために、数式６、７を使って、α、βを計算し、図３２にプロットした。

図３２において、母音領域がお互いに重なり合わない領域を「適合領域」として、四角で囲った。Ｆ１，Ｆ２，Ｆ３の値からα、βを計算し、それが或る母音（たとえば「ア」）の「適合領域」内にあれば、年齢・性別・個人差・緊張度合いなどに左右されることなく、その言語音はその母音（たとえば「ア」）と特定できる。これが「母音の話者正規化問題」に対する解答となり得る。言語中枢は、Ｆ２とＦ１の比（α）とＦ３とＦ２の比（β）さえ知覚できれば、どんな年齢の人のどんな人の声であろうと、母音を正しく特定できるのである。

ここで注目すべきは、α、βの間に相関がないことである。このことが母音の同定をやさしくしている。たとえば、図２７のような図形を手掛かりに母音を同定するとなると、先ずその図形の認識をしなければならず、母音の持続時間（０．３秒程度）のうちに処理するには中枢の負担が大きい。かかる処理が実際に行われているとは考えにくい。上述のところによれば、α、βの値が幾らということを知覚出来さえすれば、母音を同定出来るのであるから、処理は極めて迅速に行える。図３２から「適合領域」とされるα、βの値を図３３に示した。

もう１つ特筆すべきことは、図２７の図形が原点方向に向いた楕円状になることを説明できる点である。数式６から「Ｆ２＝α＊Ｆ１」と書き直してみると、αが一定であれば原点を通る直線を表わす。本来αは特定の母音ごとに一定の値を取るのであるが、個人差などにより、多少ばらつく。その結果直線の周りに観測点が集まって楕円状を形成するのである。

図３２から言えることを要約すると、以下のようになる。
（１）αの値が大（約６〜約１１）であれば、母音／ｉ／である。
（２）αの値が中（約２〜約６）であれば、母音／ｕ／か／ｅ／である。
（３）αの値が小（約１〜約２）であれば、母音／ａ／か／ｏ／である。

図１４に或る男性の母音の音声波形と狭帯域スペクトログラムとスペクトルを示した。ここで、図１４のスペクトルとスペクトログラムを見ると、母音ごとに特有の形をしている。この図形を特徴付ける第一の特徴は、包絡線の第一ピーク（Ｆ１）と第二ピーク（Ｆ２）の間隔である。それは前述のα（＝Ｆ２／Ｆ１）の値によって表わされる。第二の特徴は第二ピーク（Ｆ２）と第３ピーク（Ｆ３）の間隔で、これはβ（＝Ｆ３／Ｆ２）の値で表わされる。第３の特徴は、／ｕ／と／ｅ／および／ａ／と／ｏ／を分離できる特徴である。スペクトログラム上で／ｕ／と／ｅ／のパターンを比べると、Ｆ２とＦ３の間の中間領域の濃淡がお互いに逆であることが分る。一方／ａ／と／ｏ／でも、同じことが言える。

この規準の妥当性を検証するために、閾値を−３５ｄＢに取って、スペクトログラムとスペクトル図から目視で８４名の音声について調べた。その結果「第３の音響的キューの規準」が大部分の人で成立したが、それに合わない人も居た。そこで、そのような人だけを抜き出して図３４にプロットした。／ａ／で９点、／ｉ／で１点、／ｅ／で１点あった。これらの観測点は上記の規準が適用できない例外点である。
ここで注目したいのは、これらの例外点はすべて「適合領域」にあることである。したがって、これらの観測点はどの母音に属するものであるかを特定できる。

もう１つの注目点は、適合領域から外れている観測点は、すべてこの規準によって／ｕ／と／ｅ／および／ａ／と／ｏ／のいずれであるかを判別出来たことである。たとえば／ａ／と／ｏ／の適合領域の中間域では、／ａ／と／ｏ／の観測点が入り混じっている。しかし／ａ／の観測点では、いずれもγが０．５以上であった。逆に、／ｏ／の観測点では、いずれもγが０．５以下であった。すなわち適合領域の中間域では、この規準による判定で完全に識別出来た。このことは／ｕ／と／ｅ／の間でも成立した。
このようにα、βの値ではどの母音に属するかを特定できない場合でも、さらに第３の音響的キューの規準によって、すべてを完全に特定できるのである。上記の母音同定プロセスを図３５に示す。
次に、／ｉ／が他の母音に比べると明瞭度が低い被験者（舌切除によって構音障害を起した被験者）の場合について述べる。かかる被験者の場合、五十音表のイ列音の明瞭度が極端に低くなる。

図３６に、舌切除によって構音障害を起した被験者の音声のα、βの関係図を示す。図３６において、（１）非装着（２）ＰＡＰ単独（３）ＬＡＰ単独（４）両者の併用（以下、適宜、「併用系」という）の４ケースについてプロットした。

適合領域からはずれたところにあるのは、／ｉ／のすべてと併用系の／ｏ／であった。後者については、上述の「規準」を満足しているので、／ｏ／と正しく聴取される。「規準」に合致していない観測点は、／ｉ／のＰＡＰ単独とＬＡＰ単独であった。しかし、／ｉ／の非装着と併用系でも、閾値を−３０ｄＢにとると、「規準」からはずれた。図３６から判断すると、いずれの／ｉ／も、／ｅ／とも／ｕ／とも／ｉ／とも言えない音になっていることが分かる。別途実施した明瞭度検査から、被験者では他の母音に比べると／ｉ／が他の音に異聴される比率が高く、また／ｉ／を後続母音とする「イ列音」の明瞭度が特に低い傾向が認められる。これは、図３６の結果と良く符号する。一番／ｉ／の適合領域に近いのはＰＡＰとＬＡＰの併用系であった。舌接触補助床の効果は、それなりに認められる。この結果は、症例の実情と良く一致する。
以上、本実施の形態によれば、日本語の５母音を同定できる。また、本方法は、構音障害者の診断にも応用できる。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声情報を受け付ける音声情報受付ステップと、前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得ステップと、前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得ステップと、前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得ステップと、前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定ステップと、を実行させるためのプログラム、である。

また、上記プログラムにおいて、前記第一勾配情報は「Ｆ２／Ｆ１」であり、前記第二勾配情報は「Ｆ３／Ｆ２」であり、前記母音同定ステップにおいて、前記第一勾配情報が略５．８〜略１０．８である場合に、前記音声情報の母音を／ｉ／と判断し、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５である場合に、前記音声情報の母音を／ａ／と判断し、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略２．８〜略４．６である場合に、前記音声情報の母音を／ｏ／と判断し、前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２である場合に、前記音声情報の母音を／ｕ／と判断し、前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５である場合に、前記音声情報の母音を／ｅ／と判断することは好適である。

上記プログラムにおいて、前記母音同定ステップにおいて、前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、前記母音同定サブステップは、前記第一勾配情報が略５．８〜略１０．８であり、かつ前記第二勾配情報が略１．２〜略１．８でもなく、かつ前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｉ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報を異常音と判断しても良い。また、前記母音同定サブステップにおいて、前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ａ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｏ／と判断しても良い。かつ、また、前記母音同定サブステップにおいて、前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２でない場合、および前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５でない場合であり、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｅ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｕ／と判断することは好適である。

上記プログラムにおいて、前記母音同定ステップにおいて、前記第一勾配情報が略５．８〜略１０．８ではなく、かつ、前記第一勾配情報が略１．３〜略２．２ではなく、かつ、前記第一勾配情報が略１．３〜略２．２ではなく、かつ、前記第一勾配情報が略２．４〜略４．９ではなく、かつ、前記第一勾配情報が略３．０〜略５．５ではない場合に、前記音声情報を異常音と判断することは好適である。

なお、上記プログラムは、母音同定する処理まで行うプログラムであったが、母音同定ステップで同定した母音に基づいて、何らかの処理をする処理ステップを、コンピュータにさらに実行させるプログラムでも良い、ことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図３７は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図３７は、このコンピュータシステム３００の概観図であり、図３８は、システム３００のブロック図である。

図３７において、コンピュータシステム３００は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４と、マイク３０５と、スピーカー３０６とを含む。

図３８において、コンピュータ３０１は、ＦＤドライブ３０１１、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１３と、ＣＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２及びＦＤドライブ３０１１に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３０１５と、ＣＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１、またはＦＤ３１０２に記憶されて、ＣＤ−ＲＯＭドライブ３０１２またはＦＤドライブ３０１１に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１、ＦＤ３１０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる情報処理装置は、母音を同定できるという効果を有し、音声認識装置等として有用である。

実施の形態１における情報処理装置のブロック図同情報処理装置の動作について説明するフローチャート同情報処理装置の動作について説明するフローチャート同Ｆ1＆Ｆ2平面図同Ｆ１とＦ２の相関係数表を示す図同対象者すべてを含めた場合の相関係数表を示す図同Ｆ０＆Ｆ１平面図同Ｆ０＆Ｆ１平面図同Ｖ1＆Ｖ2平面図同Ｖ２＆Ｖ３平面図同相関係数表を示す図同α＆β平面図同適合領域とされるα、βの値を示す図同男性の母音の音声波形と狭帯域スペクトログラムとスペクトルを示す図同α＆β平面図同母音同定プロセスを説明する図同非装着状態の時の音響データを示す図同ＰＡＰとＬＡＰを同時装着の時の音響データを示す図同舌切除によって構音障害を起した被験者の音声のα、βの関係図実施の形態２における情報処理装置のブロック図同情報処理装置の動作について説明するフローチャート同情報処理装置の動作について説明するフローチャート同評価結果の出力例を示す図実施の形態３における情報処理装置のブロック図同情報処理装置の動作について説明するフローチャート同情報処理装置の動作について説明するフローチャート同Ｆ1＆Ｆ2平面図同Ｆ０＆Ｆ１平面図同Ｆ０＆Ｆ１平面図同Ｖ1＆Ｖ2平面図同Ｖ２＆Ｖ３平面図同α＆β平面図同適合領域とされるα、βの値を示す図同α＆β平面図同母音同定プロセスを説明する図同舌切除によって構音障害を起した被験者の音声のα、βの関係図同情報処理装置の概観図同情報処理装置のブロック図

符号の説明

１１音声情報受付部
１２Ｆ１取得部
１３Ｆ２取得部
１４Ｆ３取得部
１５、２４５母音同定部
１６処理部
１５１第一勾配情報算出手段
１５２第二勾配情報算出手段
１５３スペクトル情報取得手段
１５４、２４５４母音同定手段
２０１発音情報出力部
２０２フォルマント周波数母音対応情報格納部
２０３評価部
２０４評価結果出力部

Claims

音声情報を受け付ける音声情報受付部と、
前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、
前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、
前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、
前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定部と、
前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置。
前記母音同定部は、
前記Ｆ１と前記Ｆ２との関係に関する情報である第一勾配情報を算出する第一勾配情報算出手段と、
前記Ｆ２と前記Ｆ３との関係に関する情報である第二勾配情報を算出する第二勾配情報算出手段と、
前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定手段を具備する請求項１記載の情報処理装置。
前記第一勾配情報は「Ｆ２／Ｆ１」であり、
前記第二勾配情報は「Ｆ３／Ｆ２」であり、
前記母音同定手段は、
前記第一勾配情報が略５．８〜略１０．８である場合に、前記音声情報の母音を／ｉ／と判断し、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５である場合に、前記音声情報の母音を／ａ／と判断し、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略２．８〜略４．６である場合に、前記音声情報の母音を／ｏ／と判断し、
前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２である場合に、前記音声情報の母音を／ｕ／と判断し、
前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５である場合に、前記音声情報の母音を／ｅ／と判断する請求項２記載の情報処理装置。
前記母音同定部は、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得し、
前記スペクトル情報にも基づいて、母音を同定する請求項１から請求項３いずれか記載の情報処理装置。
前記母音同定部は、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、
前記母音同定手段は、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ａ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｏ／と判断し、
かつ、
前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２でない場合、および
前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５でない場合であり、
前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｅ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｕ／と判断する請求項３記載の情報処理装置。
前記母音同定部は、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、
前記母音同定手段は、
前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を／ｉ／と判断し、および
前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する請求項３記載の情報処理装置。
前記所定の関係は、前記スペクトル情報が閾値以上である関係である請求項５または請求項６記載の情報処理装置。
前記母音同定部は、
前記第一勾配情報が略５．８〜略１０．８ではなく、かつ、
前記第一勾配情報が略１．３〜略２．２ではなく、かつ、
前記第一勾配情報が略２．４〜略４．９ではなく、かつ、
前記第一勾配情報が略３．０〜略５．５ではない場合に、
前記音声情報を異常音と判断する請求項１から請求項７いずれか記載の情報処理装置。
前記処理部は、
前記母音同定部が同定した母音に基づいて、音声認識し、当該認識結果を出力する請求項１から請求項８いずれか記載の情報処理装置。
発音を促す情報である発音情報を出力する発音情報出力部と、
第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）、および第三フォルマント周波数（Ｆ３）に関する情報と、母音との対応を示すフォルマント周波数母音対応情報を格納しているフォルマント周波数母音対応情報格納部と、
音声情報を受け付ける音声情報受付部と、
前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、
前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、
前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、
前記Ｆ１取得部が取得したＦ１、前記Ｆ２取得部が取得したＦ２、および前記Ｆ３取得部が取得したＦ３と、前記フォルマント周波数母音対応情報に基づいて、前記音声情報受付部が受け付けた音声情報を評価する評価部と、
前記評価部における評価結果を出力する評価結果出力部と、を具備する情報処理装置。
受け付けた音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得部と、
前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得部と、
前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得部と、
前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定部と、を具備する母音同定装置。
コンピュータに、
音声情報を受け付ける音声情報受付ステップと、
前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得ステップと、
前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得ステップと、
前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得ステップと、
前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定ステップと、を実行させるためのプログラム。
前記母音同定ステップは、
前記Ｆ１と前記Ｆ２との関係に関する情報である第一勾配情報を算出する第一勾配情報算出サブステップと、
前記Ｆ２と前記Ｆ３との関係に関する情報である第二勾配情報を算出する第二勾配情報算出サブステップと、
前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定サブステップを具備する請求項１２記載のプログラム。
前記第一勾配情報は「Ｆ２／Ｆ１」であり、
前記第二勾配情報は「Ｆ３／Ｆ２」であり、
前記母音同定サブステップにおいて、
前記第一勾配情報が略５．８〜略１０．８である場合に、前記音声情報の母音を／ｉ／と判断し、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５である場合に、前記音声情報の母音を／ａ／と判断し、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略２．８〜略４．６である場合に、前記音声情報の母音を／ｏ／と判断し、
前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２である場合に、前記音声情報の母音を／ｕ／と判断し、
前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５である場合に、前記音声情報の母音を／ｅ／と判断する請求項１３記載のプログラム。
前記母音同定ステップは、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
前記母音同定サブステップは、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ａ／と判断し、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｏ／と判断し、
かつ、
前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２でない場合、および
前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５でない場合であり、
前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｅ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｕ／と判断する請求項１４記載のプログラム。
前記母音同定ステップは、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
前記母音同定サブステップは、
前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を／ｉ／と判断し、および
前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する請求項１４記載のプログラム。
前記所定の関係は、前記スペクトル情報が閾値以上である関係である請求項１５または請求項１６記載のプログラム。
前記母音同定ステップにおいて、
前記第一勾配情報が略５．８〜略１０．８ではなく、かつ、
前記第一勾配情報が略１．３〜略２．２ではなく、かつ、
前記第一勾配情報が略２．４〜略４．９ではなく、かつ、
前記第一勾配情報が略３．０〜略５．５ではない場合に、
前記音声情報を異常音と判断する請求項１２から請求項１７いずれか記載のプログラム。
音声情報の第一フォルマント周波数（Ｆ１）、前記音声情報の第二フォルマント周波数（Ｆ２）、および前記音声情報の第三フォルマント周波数（Ｆ３）に基づいて、前記音声情報の母音を同定する母音同定方法。
音声情報を受け付ける音声情報受付ステップと、
前記音声情報から第一フォルマント周波数（Ｆ１）を取得するＦ１取得ステップと、
前記音声情報から第二フォルマント周波数（Ｆ２）を取得するＦ２取得ステップと、
前記音声情報から第三フォルマント周波数（Ｆ３）を取得するＦ３取得ステップと、
前記Ｆ１、前記Ｆ２、および前記Ｆ３に基づいて、前記音声情報の母音を同定する母音同定ステップと、を具備する母音同定方法。
前記母音同定ステップは、
前記Ｆ１と前記Ｆ２との関係に関する情報である第一勾配情報を算出する第一勾配情報算出サブステップと、
前記Ｆ２と前記Ｆ３との関係に関する情報である第二勾配情報を算出する第二勾配情報算出サブステップと、
前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定サブステップを具備する請求項２０記載の母音同定方法。
前記第一勾配情報は「Ｆ２／Ｆ１」であり、
前記第二勾配情報は「Ｆ３／Ｆ２」であり、
前記母音同定サブステップにおいて、
前記第一勾配情報が略５．８〜略１０．８である場合に、前記音声情報の母音を／ｉ／と判断し、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５である場合に、前記音声情報の母音を／ａ／と判断し、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略２．８〜略４．６である場合に、前記音声情報の母音を／ｏ／と判断し、
前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２である場合に、前記音声情報の母音を／ｕ／と判断し、
前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５である場合に、前記音声情報の母音を／ｅ／と判断する請求項２１記載の母音同定方法。
前記母音同定ステップは、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
前記母音同定サブステップは、
前記第一勾配情報が略１．３〜略２．２であり、かつ前記第二勾配情報が略１．５〜略２．５でもなく、かつ略２．８〜略４．６でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ａ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｏ／と判断し、
かつ、
前記第一勾配情報が略２．４〜略４．９であり、かつ前記第二勾配情報が略１．６５〜略３．２でない場合、および
前記第一勾配情報が略３．０〜略５．５であり、かつ前記第二勾配情報が略１．１〜略１．４５でない場合であり、
前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を／ｅ／と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を／ｕ／と判断する請求項２２記載の母音同定方法。
前記母音同定ステップは、
前記Ｆ１と前記Ｆ２の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
前記母音同定サブステップは、
前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を／ｉ／と判断し、および
前記第一勾配情報が略５．８〜略１０．８であり、かつ、前記第一勾配情報が略１．２〜略１．８ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する請求項２２記載の母音同定方法。
前記所定の関係は、前記スペクトル情報が閾値以上である関係である請求項２３または請求項２５記載のプログラム。
前記母音同定ステップにおいて、
前記第一勾配情報が略５．８〜略１０．８ではなく、かつ、
前記第一勾配情報が略１．３〜略２．２ではなく、かつ、
前記第一勾配情報が略２．４〜略４．９ではなく、かつ、
前記第一勾配情報が略３．０〜略５．５ではない場合に、
前記音声情報を異常音と判断する請求項２０から請求項２４いずれか記載の母音同定方法。