JP2007114631A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2007114631A
JP2007114631A JP2005307995A JP2005307995A JP2007114631A JP 2007114631 A JP2007114631 A JP 2007114631A JP 2005307995 A JP2005307995 A JP 2005307995A JP 2005307995 A JP2005307995 A JP 2005307995A JP 2007114631 A JP2007114631 A JP 2007114631A
Authority
JP
Japan
Prior art keywords
information
approximately
vowel
gradient
gradient information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005307995A
Other languages
English (en)
Inventor
Takuya Shinkawa
拓也 新川
Yoshio Miki
祥男 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2005307995A priority Critical patent/JP2007114631A/ja
Publication of JP2007114631A publication Critical patent/JP2007114631A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】従来の情報処理装置においては、母音を同定できない、という課題があった。
【解決手段】音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定部と、前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置により、母音を同定できる。
【選択図】図1

Description

本発明は、日本語の5母音を同定できる情報処理装置等に関するものである。
従来、例えば、構音障害者が発する日本語の5母音の音響特性を計測して、構音障害のレベルを診断しようとする試みはいくつか知られている。従来の第一の技術において、第一フォルマント周波数(F1)と第二フォルマント周波数(F2)から「母音の歪み度」を定義して、歪み度によって構音の経時変化を検討している(非特許文献1参照)。
また、従来の第二の技術において、5母音のF1とF2との相対的位置関係から構音異常を客観的に評価することを試みている(非特許文献2参照)。
従来の第一、第二の技術において、健常者の母音を正常例とし、それを基準にして対比している。しかしながら、音声は個人差が大きく、また発話時の緊張度などの環境による影響も受けるので、どの音声を正常なものと決めるかということは実際には不可能である。
一方、音声の音響特性は個人差が非常に大きいにも拘わらず、聞き手は「ア」は「ア」として聞き取る。これは「母音の話者正規化問題」としてよく知られた問題である(非特許文献3参照)。
さらに、関連する先行技術として、非特許文献4から非特許文献11がある。
渡辺宏、他、「舌可動部半側切除後の経時的構音変化」、耳鼻、31、p.375−381、1985年 土師知行、他2名、「舌・口腔底腫瘍切除後の母音のフォルマントについて」音声言語医学、35、p.261−265、1994年 レイ・D・ケント,チャールズ・リード(荒井隆行,菅原勉 監訳)「音声の音響分析」海文堂出版、2002年、p.108−109頁 粕谷英樹、他2名、「年齢、性別による日本語5母音のピッチ周波数とフォルマント周波数の変化」、日本音響学会誌、1968年、24、p.355−364 藤崎博也、「音声認識の諸問題」、1972年、日本音響学会誌、28、p.33−41 レイ・D・ケント、他1名、(荒井隆行、他1名 監訳)、「音声の音響分析」海文堂出版、2002年、p.185−187 GLORIA J.BORDEN、他1名、(廣瀬肇訳)「言葉の科学入門」、MRCメディカルリサーチセンター、1994年、p.102−105 GLORIA J.BORDEN、他1名、(廣瀬肇訳)「言葉の科学入門」、MRCメディカルリサーチセンター、1994年、p.85−86 レイ・D・ケント、他1名、(荒井隆行、他1名 監訳)「音声の音響分析」、海文堂出版、2002年、p.31 鈴木久喜、「線形判別関数を用いた母音識別」、電気通信学会雑誌、47、p.316−324,1964年 P.ラディフォギッド(佐久間章訳)、「音響音声学入門」、大修館書店、1997年、p.95
しかしながら、従来の第一、第二の技術において、健常者の母音を正常例とし、それを基準にして対比している。また、音声は個人差が大きく、また発話時の緊張度などの環境による影響も受けるので、どの音声を正常なものと決めるかということは実際には不可能である。したがって、従来の第一、第二の技術において、日本語の5母音を同定できない、という課題があった。このため、構音障害者が発する音声の音響特性のみから、構音障害のレベルを診断することができなかった。
さらに、上記の他の従来の技術においても同様に、日本語の5母音を同定できない、という課題があった。
本第一の発明の情報処理装置は、音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定部と、前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置である。
かかる構成により、日本語の5母音が正常音であるか異常音であるかを識別できる。
また、本第二の発明の情報処理装置は、第一の発明に対して、前記母音同定部は、前記F1と前記F2との関係に関する情報である第一勾配情報を算出する第一勾配情報算出手段と、前記F2と前記F3との関係に関する情報である第二勾配情報を算出する第二勾配情報算出手段と、前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定手段を具備する情報処理装置である。
かかる構成により、日本語の5母音が正常音であるか異常音であるかを識別できる。
また、本第三の発明の情報処理装置は、第二の発明に対して、前記第一勾配情報は「F1/F2」であり、前記第二勾配情報は「F3/F2」であり、前記母音同定手段は、前記第一勾配情報が略5.8〜略10.8である場合に、前記音声情報の母音を/i/と判断し、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5である場合に、前記音声情報の母音を/a/と判断し、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略2.8〜略4.6である場合に、前記音声情報の母音を/o/と判断し、前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2である場合に、前記音声情報の母音を/u/と判断し、前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45である場合に、前記音声情報の母音を/e/と判断する情報処理装置である。
かかる構成により、日本語の5母音を精度高く同定でき、その結果、日本語の5母音が正常音であるか異常音であるかを容易に識別できる。
また、本第四の発明の情報処理装置は、第一から第三いずれかの発明に対して、前記母音同定部は、前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得し、前記スペクトル情報にも基づいて、母音を同定する情報処理装置である。
かかる構成により、日本語の5母音を精度高く同定でき、その結果、日本語の5母音が正常音であるか異常音であるかを容易に識別できる。
また、本第五の発明の情報処理装置は、第三の発明に対して、前記母音同定部は、前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、前記母音同定手段は、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/a/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/o/と判断し、かつ、前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2でない場合、および前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45でない場合であり、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/e/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/u/と判断する情報処理装置である。なお、ここで、所定の関係は、好ましくは、スペクトル情報が閾値以上である関係である。また、閾値は、好ましくは、略0.5である。かかることは、他の記述においても同様である。
かかる構成により、日本語の5母音を、精度高く同定でき、その結果、日本語の5母音が正常音であるか異常音であるかを容易に識別できる。
また、本第六の発明の情報処理装置は、第一から第五いずれかの発明に対して、前記母音同定部は、前記第一勾配情報が略5.8〜略10.8ではなく、かつ、前記第一勾配情報が略1.3〜略2.2ではなく、かつ、前記第一勾配情報が略2.4〜略4.9ではなく、かつ、前記第一勾配情報が略3.0〜略5.5ではない場合に、前記音声情報を異常音と判断する情報処理装置である。
かかる構成により、異常音の検知も可能である。
また、本第七の発明の情報処理装置は、第一から第六いずれかの発明に対して、前記処理部は、前記母音同定部が同定した母音に基づいて、音声認識し、当該認識結果を出力する情報処理装置である。
かかる構成により、日本語の5母音を精度高く認識でき、その結果、日本語の5母音が正常音であるか異常音であるかを容易に識別できる。
また、本第八の発明の情報処理装置は、発音を促す情報である発音情報を出力する発音情報出力部と、第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、および第三フォルマント周波数(F3)に関する情報と、母音との対応を示すフォルマント周波数母音対応情報を格納しているフォルマント周波数母音対応情報格納部と、音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、前記F1取得部が取得したF1、前記F2取得部が取得したF2、および前記F3取得部が取得したF3と、前記フォルマント周波数母音対応情報に基づいて、前記音声情報受付部が受け付けた音声情報を評価する評価部と、前記評価部における評価結果を出力する評価結果出力部とを具備する情報処理装置である。
かかる構成により、ユーザが入力した音声の母音に関して、評価ができる。
また、本第九の発明の情報処理装置は、第二から第五の発明に対して、前記母音同定部は、前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、前記母音同定手段は、前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を/i/と判断し、および前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する情報処理装置である。
かかる構成により、日本語の5母音を精度高く同定でき、その結果、日本語の5母音が正常音であるか異常音であるかを容易に識別できる。
本発明による情報処理装置によれば、日本語の5母音を同定でき、その結果、日本語の5母音が正常音であるか異常音であるかを容易に識別できる。
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における情報処理装置のブロック図である。
情報処理装置は、音声情報受付部11、F1取得部12、F2取得部13、F3取得部14、母音同定部15、処理部16を具備する。母音同定部15は、第一勾配情報算出手段151、第二勾配情報算出手段152、スペクトル情報取得手段153、母音同定手段154を具備する。
音声情報受付部11は、音声情報を受け付ける。音声情報は、人が発声した音声の情報でも良いし、音声のデジタルデータ等でも良い。つまり、かかる音声情報は、例えば、被験者であるユーザが音声出力した情報である。かかる場合、音声情報受付部11は、マイクとそのドライバーソフト等で実現され得る。また、かかる音声情報は、例えば、予め、記憶媒体に格納されている。かかる場合、音声情報受付部11は、記憶媒体から音声情報を読み込むソフトウェア等で実現され得る。
F1取得部12は、音声情報受付部11が受け付けた音声情報から第一フォルマント周波数(F1)を取得する。
F2取得部13は、音声情報受付部11が受け付けた音声情報から第二フォルマント周波数(F2)を取得する。
F3取得部14は、音声情報受付部11が受け付けた音声情報から第三フォルマント周波数(F3)を取得する。
第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、および第三フォルマント周波数(F3)は公知の概念である。また、音声情報から第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、および第三フォルマント周波数(F3)を取得する技術は公知技術である。従って、それらの詳細な説明は省略する。F1取得部12、F2取得部13、およびF3取得部14は、通常、MPUやメモリ等から実現され得る。F1取得部12等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
母音同定部15は、F1、F2、およびF3に基づいて、音声情報の母音を同定する。また、母音同定部15は、F1とF2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得することは好適である。母音同定部15は、通常、MPUやメモリ等から実現され得る。母音同定部15の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、「中間領域」とは、間(谷間)の領域である。
第一勾配情報算出手段151は、F1とF2との関係に関する情報である第一勾配情報を算出する。第一勾配情報は、例えば、算出式「F2/F1」により算出される。なお、第一勾配情報は、F1とF2との関係に関する情報であれば、他の算出式、例えば、「0.8×F2/F1」により算出されても良い。算出式「F2/F1」により算出される第一勾配情報を、以下、適宜「α」と言う。第一勾配情報算出手段151は、通常、MPUやメモリ等から実現され得る。第一勾配情報算出手段151の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第二勾配情報算出手段152は、F2とF3との関係に関する情報である第二勾配情報を算出する。第二勾配情報は、例えば、算出式「F3/F2」により算出される。なお、第二勾配情報は、F2とF3との関係に関する情報であれば、他の算出式、例えば、「0.8×F3/F2」により算出されても良い。算出式「F3/F2」で算出される第二勾配情報を、以下、適宜「β」と言う。第二勾配情報算出手段152は、通常、MPUやメモリ等から実現され得る。第二勾配情報算出手段152の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
スペクトル情報取得手段153は、F1とF2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得する。F1とF2の中間領域の周波数成分の相対的強さとは、周波数が10〜8000Hzの領域での振幅の最大値に対する相対値のことである。スペクトル情報取得手段153は、ユーザからのスペクトル情報の入力を受け付けるなどして、スペクトル情報を取得しても良い。スペクトル情報取得手段153は、公知技術であるので、詳細な説明を省略する。スペクトル情報取得手段153は、通常、MPUやメモリ等から実現され得る。スペクトル情報取得手段153の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
母音同定手段154は、第一勾配情報、および第二勾配情報に基づいて、音声情報の母音を同定する。母音同定手段154は、第一勾配情報、第二勾配情報、およびスペクトル情報に基づいて、音声情報の母音を同定しても良い。
具体的には、母音同定手段154は、以下のように音声情報の母音を決定する(第一の例)。つまり、母音同定手段154は、第一勾配情報(α)が略5.9〜略10.8である場合に、音声情報の母音を/i/と判断する。また、具体的には、母音同定手段154は、αが略1.3〜略2.2であり、第二勾配情報(β)が略1.6〜略2.5である場合に、音声情報の母音を/a/と判断する。また、具体的には、母音同定手段154は、αが略1.3〜略2.2であり、かつβが略2.8〜略4.6である場合に、音声情報の母音を/o/と判断する。また、具体的には、母音同定手段154は、αが略2.4〜略4.5であり、かつβが略1.7〜略3.2である場合に、音声情報の母音を/u/と判断する。さらに、具体的には、母音同定手段154は、αが略3.0〜略5.1であり、かつβが略1.1〜略1.45である場合に、音声情報の母音を/e/と判断する。
また、具体的には、母音同定手段154は、以下のように音声情報の母音を決定する(第二の例)。第二の例において、第一の例における判断に加えて、以下のように母音を決定する。母音同定手段154は、αが略1.3〜略2.2であり、かつβが略1.6〜略2.5でもなく、かつβが略2.8〜略4.6でもない場合に、スペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合は、音声情報の母音を/a/と判断する。また、母音同定手段154は、αが略1.3〜略2.2であり、かつβが略1.6〜略2.5でもなく、かつβが略2.8〜略4.6でもない場合に、スペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)は、音声情報の母音を/o/と判断する。また、母音同定手段154は、αが略2.4〜略4.5であり、かつβが略1.7〜略3.2でない場合、およびαが略3.0〜略5.1であり、かつβが略1.1〜略1.45でない場合であり、スペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合は、音声情報の母音を/e/と判断する。母音同定手段154は、αが略2.4〜略4.5であり、かつβが略1.7〜略3.2でない場合、およびαが略3.0〜略5.1であり、かつβが略1.1〜略1.45でない場合であり、スペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)は、音声情報の母音を/u/と判断する。なお、上記の閾値は、例えば、後述するγ「0.5」である。
また、母音同定手段154は、αが略5.9〜略10.8ではなく、かつ、αが略1.3〜略2.2ではなく、かつ、αが略1.3〜略2.2ではなく、かつ、αが略2.4〜略4.5ではなく、かつ、αが略3.0〜略5.1ではない場合に、音声情報を異常音と判断する。なお、異常音とは、母音が同定できなかった音であり、一般成人からみて、正常な日本語の母音と認識されない音と考えて良い。
母音同定手段154は、通常、MPUやメモリ等から実現され得る。母音同定手段154の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
処理部16は、母音同定部15が同定した母音に基づいて処理する。処理部16は、例えば、母音同定部15が同定した母音に基づいて、音声認識し、当該認識結果を出力する。処理部16は、例えば、音声情報を異常音と判断した場合、例えば、最も近い母音のα、βと、受け付けた音声情報のα、βとの差を点数化して、出力しても良い。処理部16は、同定した母音に関する情報を表示したり、蓄積したり、外部装置に送信したりする等の処理を行うだけでも良い。その他、処理部16が行う処理は種々考えられる。処理部16は、通常、MPUやメモリ等から実現され得る。処理部16の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置の動作について図2、図3のフローチャートを用いて説明する。
(ステップS201)音声情報受付部11は、音声情報を受け付けたか否かを判断する。音声情報を受け付ければステップS202に行き、音声情報を受け付けなければステップS201に戻る。
(ステップS202)F1取得部12は、ステップS201で受け付けた音声情報から第一フォルマント周波数(F1)を取得する。
(ステップS203)F2取得部13は、ステップS201で受け付けた音声情報から第二フォルマント周波数(F2)を取得する。
(ステップS204)F3取得部14は、ステップS201で受け付けた音声情報から第三フォルマント周波数(F3)を取得する。
(ステップS205)第一勾配情報算出手段151は、F1とF2との関係に関する情報である第一勾配情報を算出する。ここでは、第一勾配情報算出手段151は、算出式「F2/F1」により第一勾配情報(α)を算出する。
(ステップS206)第二勾配情報算出手段152は、F2とF3との関係に関する情報である第二勾配情報を算出する。ここでは、第二勾配情報算出手段152は、算出式「F3/F2」により第二勾配情報(β)を算出する。
(ステップS207)スペクトル情報取得手段153は、F1とF2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得する。
(ステップS208)母音同定手段154は、第一勾配情報(α)、第二勾配情報(β)、およびスペクトル情報に基づいて、音声情報の母音を同定する。母音を同定するアルゴリズムの例は、図3のフローチャートを用いて詳述する。
(ステップS209)処理部16は、ステップS208における判断結果が、異常音であるとの判断結果か否かを判断する。異常音である場合ステップS210に行き、異常音でない場合ステップS211に行く。
(ステップS210)処理部16は、異常音であることを示すブザー音を出力する。ステップS201に戻る。ここで、ブザー音を出力する処理は、処理の一例である。
(ステップS211)処理部16は、同定した母音を表示する。母音の表示態様は問わない。例えば、処理部16は、「/a/」「/i/」「/u/」「/e/」「/o/」のうちのいずれかを選択して、ディスプレイに表示する。ステップS201に戻る。なお、ここで、ディスプレイに表示する処理は、処理の一例である。
なお、図2のフローチャートにおいて、スペクトル情報の取得処理は、ステップS208における母音の同定に必要な場合のみ行っても良い。
また、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、母音同定の動作について図3のフローチャートを用いて説明する。なお、図3のフローチャートにおいて、リターン値には、同定された母音に関する情報、または異常音を示す情報が格納される。
(ステップS301)母音同定手段154は、「5.9<=α<=10.8」を満たすか否かを判断する。αが上記範囲を満たせばステップS302に行き、αが上記範囲を満たさなければステップS303に行く。
(ステップS302)母音同定手段154は、リターン値を「/i/」とする。こここで、母音が「/i/」に同定されたことを示す。上位関数にリターンする。
(ステップS303)母音同定手段154は、「1.3<=α<=2.2」を満たすか否かを判断する。αが上記範囲を満たせばステップS304に行き、αが上記範囲を満たさなければステップS308に行く。
(ステップS304)母音同定手段154は、「1.6<=β<=2.5」を満たすか否かを判断する。βが上記範囲を満たせばステップS305に行き、βが上記範囲を満たさなければステップS306に行く。
(ステップS305)母音同定手段154は、リターン値を「/a/」とする。上位関数にリターンする。
(ステップS306)母音同定手段154は、「2.8<=β<=4.6」を満たすか否かを判断する。βが上記範囲を満たせばステップS307に行き、βが上記範囲を満たさなければステップS315に行く。
(ステップS307)母音同定手段154は、リターン値を「/o/」とする。上位関数にリターンする。
(ステップS308)母音同定手段154は、「2.4<=α<=4.5」を満たすか否かを判断する。αが上記範囲を満たせばステップS309に行き、αが上記範囲を満たさなければステップS311に行く。
(ステップS309)母音同定手段154は、「1.7<=β<=3.2」を満たすか否かを判断する。βが上記範囲を満たせばステップS310に行き、βが上記範囲を満たさなければステップS318に行く。
(ステップS310)母音同定手段154は、リターン値を「/u/」とする。上位関数にリターンする。
(ステップS311)母音同定手段154は、「3.0<=α<=5.1」を満たすか否かを判断する。αが上記範囲を満たせばステップS312に行き、αが上記範囲を満たさなければステップS314に行く。
(ステップS312)母音同定手段154は、「1.1<=β<=1.45」を満たすか否かを判断する。βが上記範囲を満たせばステップS313に行き、βが上記範囲を満たさなければステップS318に行く。
(ステップS313)母音同定手段154は、リターン値を「/e/」とする。上位関数にリターンする。
(ステップS314)母音同定手段154は、リターン値を「異常音」とする。上位関数にリターンする。
(ステップS315)母音同定手段154は、「閾値<=スペクトル情報」を満たすか否かを判断する。上記を満たせばステップS316に行き、満たさなければステップS317に行く。
(ステップS316)母音同定手段154は、リターン値を「/a/」とする。上位関数にリターンする。
(ステップS317)母音同定手段154は、リターン値を「/o/」とする。上位関数にリターンする。
(ステップS318)母音同定手段154は、「閾値<=スペクトル情報」を満たすか否かを判断する。上記を満たせばステップS319に行き、満たさなければステップS320に行く。
(ステップS319)母音同定手段154は、リターン値を「/e/」とする。上位関数にリターンする。
(ステップS320)母音同定手段154は、リターン値を「/u/」とする。上位関数にリターンする。
なお、図3のフローチャートにおいて、α、βの範囲について、多少の誤差の値を考慮した判断を行っても良いことは言うまでもない。
以下、本実施の形態における情報処理装置を用いた実験結果について説明する。下記の実験結果の記載において、実験の結果とその考察について述べる。
本実験において、健常者84名の音声を収録して、母音の音響的キューを探した。対象者の構成は成人男性59名(20代6人、30代10人、40代16人、50代23人、60代4人)および成人女性25名(20代11人、30代5人、40代5人、50代3人、60代1人)である。音声は騒音のない通常の部屋(無響音室ではない)で録音し、サンプリング周波数16kHzでパソコンに取り込んだ。発話は「アイウエオ」の順に約1秒間隔で吹き込んだ。
後述の音声分析には(株)アニモ製のSUGI SpeechAnalyzerを用いた。分析パラメータは、フォルマント抽出条件はフレームサイズ:32msec、スペクトログラムの設定条件は窓のタイプ:ハミング窓、FFTサイズ:1024である。測定項目は音声波形、フォルマント周波数(F1,F2,F3)、ピッチ(基本周波数F0)、狭帯域スペクトログラムである。
先行研究(上記の非特許文献3)によってフォルマントF1とF2が母音を同定する主要なキューとなることが知られている。そこで前記84名のF1とF2を図4にプロットした。図4における特徴は、(1)母音ごとに特定の領域に楕円状に分布していること(2)その楕円は長軸の方向がおおよそ原点方向に向いていること(3)男女の観測点が別々の塊となって分布していること(4)/a/と/o/および/u/と/e/の領域に重なりが生じていることである。日本語の母音については、幾つか報告(上記の非特許文献4、5など)があるが、上記の特徴は共通している。
図4におけるF1とF2の間には正の相関があり、その相関係数は図5における表のようになった。また女性の観測点が男性のそれより、周波数の高い側に偏っていることは、よく知られている(上記の非特許文献6、7など)。しかし、人はラジオの音声からでも母音を同定できるから、事前に男女を認識して判断しているわけではない。結局男女差があっても「ア」は「ア」と識別出来なくてはならない。また、図4では/a/と/o/の領域が重なり合っていて、図4からだけでは両者を識別することが出来ない。ここに「母音の話者正規化問題」の本質がある。
一方、女性は男性よりピッチ(F0)が高い。それは主として声帯の膜の長さの差によるものと考えられている(上記の非特許文献6)。然るにピッチとフォルマント周波数の関係については、注目されることが少なかった。これは現在の音声分析理論が拠って立つ音源フィルタ理論では、音源とフィルタはお互いに独立したものとして取り扱われて来たからであろう。ピッチが声帯(音源)の振動数を反映するのに対して、フィルタは声道内の伝達特性を反映するからである。しかし実際の音声について調べてみると、ピッチ(F0)と第一フォルマント(F1)の間に相関が認められる。
非特許文献4において、母音について子供と成人男女のF0とF1を調べ、子供については両者の間に相関を認め、成人については相関を認めなかった。対象者すべてを含めた場合の相関係数を母音別に図6に示す。このような相関が生じたのは声道の長さの違いに起因し、年齢を媒体として間接的に認められる関係であるとした。
そこで、本実験の被験者84名について調べ、F1とF0の関係を母音別に図7に図示する。両者の相関係数は図6である。どの母音についても相関が認められ、相関係数の検定からいずれも危険率1%で、相関ありという結果となった。
本実験で収録した音声は通常の状態で発声したものである。そこで、故意にピッチを上げて発声したときに、F1とF0がどのような関係になるかを調べた。特定の男性1名に/a/なら「ア」と発音しながら、「ドミソド」と音程を変えて何度か発声してもらい、音声を収録した。その結果を図8に示す。/a/については、初めての緊張でバラツキが大きかったが、他の母音については、かなりの相関が認められた。その相関係数は、図6である。
図8は1名の対象者のF0とF1の関係であるが、このような場合でも両者の間で相関が認められる。この理由は声帯や声道の長さの違いでは説明出来ない。しかし、人体構造と単一音響管モデルの摂動理論からある程度説明できる。高い声を出すときは、輪状甲状筋を使って声帯を引き伸ばすようにする。このとき声帯は緊張し、喉頭が挙上する(非特許文献8参照)。これによって声門近辺に声道の狭め(狭窄)が生じると考えられる。ここで声道を単一音響管モデルで近似し、その摂動理論(非特許文献9参照)を適用すると、声門近辺に狭めが生じるとフォルマントF1,F2,F3が上昇する。すなわち声帯の緊張がフォルマント周波数を高める方向に働く。
かくして、F0とF1の間に相関が生じる理由は、主として次の2つの面から説明される。
(1) F0は主として声帯の膜の長さが短いほど高くなる。一方、F1は声道の長さが短いほど高くなる。ところが、声帯の膜の長さも声道の長さも「子供<成人女性<成人男性」の関係にあるため、F0とF1は正の相関を持つことになる。
(2) 人が故意に音程を違えて発声する場合は、上述の摂動理論からF0とF1は正の相関を持つことになる。
上記ではF0とF1の相関のみを論じたが、84名について調べてみると、F1と同様の関係がF2にもF3にも認められた。これは上述の考察からも頷けることである。
いずれにしてもピッチとフォルマント周波数は正の相関にあるので、フォルマント周波数からピッチの影響を排除することを考える。そのために換算フォルマント周波数(V1,V2,V3)をそれぞれ数式1、数式2、数式3で定義する。
換算フォルマント周波数とは、F0とフォルマント周波数の間に線形関係を仮定した場合に、ピッチが100Hzであるときのフォルマント周波数である。
ここで、84名の音声について、V1とV2を図9にプロットした。この図9を図4(F1&F2平面図)と対比してみると、次のことが分る。
(1)母音ごとに観測点は原点を通る直線の周りに分布している。
(2)図4では男女の観測点がそれぞれ塊となっていたが、図9では入り混じっている。
もしすべての観測点が直線上に乗っているなら、その直線の勾配から母音を同定できることになる。実際には、声道の個人差やその場の緊張などの要因が絡み、理想的に1本の直線に乗ることはなかったが、本質的なことは「V1とV2の勾配が母音を決定している」という点である。複数の観測点があるとき、そのV1やV2の値が何であれ、V1とV2の勾配が同じなら同じ母音に属すると言える。
同様にV2&V3平面図を図10に示した。V2,V3の値が大きくなったために、バラツキが大きく見えるが、相関係数を求めると図11のように図9も図10も差異がない。いずれにおいても、2つの変数間(V1対V2、V2対V3)に強い相関が認められる。
では、なぜ観測点が原則的に1本の直線上に乗り、その勾配で母音が決まるのであろうか? この点を単一音響管モデルとその摂動理論から考察してみたい。単一音響管モデルによれば、管内に生じる第nフォルマント周波数をFと書くと、数式4で表わされる。
ここで、声道の一部に局所的狭めが生じると、フォルマント周波数が変動する。その効果を表わすために数式4に補正係数Kを導入すると、数式5を得る。
今、V1とV2の勾配をα(第一勾配情報の一例)、V2とV3の勾配をβ(第二勾配情報の一例)と書くと、数式1から数式3の式から、α、βは、それぞれ数式6、7により算出できるものとなる。
よって、数式5から次式の数式8、9を得る。
上記の数式8、9は、勾配α、βが声道の長さには依存せず、狭めの位置即ち声道の形状だけに依存していることを表わしている。このことはまさしく母音の産生そのものに依存していることを意味している。しかも母音が勾配α、βだけで決まるなら、まさしく「母音の正規化問題」が解決されることになる。
以上のことから、図9、図10で観測点が母音ごとに1本の直線上に乗るというのは偶々のことではなく必然性のある事であることが分かる。しかし、実際の観測点ではいろいろの要因が絡んで完全に1本の線上には乗らず、直線の周辺で重なりが生じ得る。たとえば、図9では/e/と/u/及び/a/と/o/の直線が接近し過ぎて重なりが生じる。その重なり具合をみるために、数式6、7を使って、α、βを計算し、図12にプロットした。
図12において、母音領域がお互いに重なり合わない領域を「適合領域」として、四角で囲った。F1,F2,F3の値からα、βを計算し、それが或る母音(たとえば「ア」)の「適合領域」内にあれば、年齢・性別・個人差・緊張度合いなどに左右されることなく、その言語音はその母音(たとえば「ア」)と特定できる。これが「母音の話者正規化問題」に対する解答となり得る。言語中枢は、F2とF1の比(α)とF3とF2の比(β)さえ知覚できれば、どんな年齢の人のどんな人の声であろうと、母音を正しく特定できるのである。
ここで注目すべきは、α、βの間に相関がないことである。このことが母音の同定をやさしくしている。たとえば、図4のような図形を手掛かりに母音を同定するとなると、先ずその図形の認識をしなければならず、母音の持続時間(0.3秒程度)のうちに処理するには中枢の負担が大きい。かかる処理が実際に行われているとは考えにくい。上述のところによれば、α、βの値が幾らということを知覚出来さえすれば、母音を同定出来るのであるから、処理は極めて迅速に行える。図12から「適合領域」とされるα、βの値を図13に示した。
またα、βの値は男女間で偏ることもない。このことは数式8、9に声道の長さのようなファクターを含まないことからも想定できることである。このようなファクターに左右されないからこそ、「母音の話者正規化問題」を解決できる。
もう1つ特筆すべきことは、図4の図形が原点方向に向いた楕円状になることを説明できる点である。数式6から「F2=α*F1」と書き直してみると、αが一定であれば原点を通る直線を表わす。本来αは特定の母音ごとに一定の値を取るのであるが、個人差などにより、多少ばらつく。その結果直線の周りに観測点が集まって楕円状を形成するのである。
図12から言えることを要約すると、以下のようになる。
(1)αの値が大(約6〜約11)であれば、母音/i/である。
(2)αの値が中(約2〜約6)であれば、母音/u/か/e/である。
(3)αの値が小(約1〜約2)であれば、母音/a/か/o/である。
一方/u/と/e/および/a/と/o/を分離するものがβである。βによって、これらは基本的には分離出来ている。しかし、βだけではこれらを完全に分離することは困難である。βの「適合領域」の外にも多くの観測点が見られるからである。
/u/と/e/および/a/と/o/を音響特性面から分離することは、非常に難しい(非特許文献4、非特許文献10参照)と言われていた。
ところで、音声の知覚には特別な特徴がある。その1つは音声波の位相差を認識しないという特徴である。この特徴の故に上述したようにフォルマント周波数だけで母音をほぼ特定できる。次の特徴は、遮蔽(マスキング)と呼ばれる現象である。或る周波数成分の振幅が他の周波数成分のそれよりも大幅に低いと、その周波数成分は聞こえなくなる(非特許文献11参照)。
図14に或る男性の母音の音声波形と狭帯域スペクトログラムとスペクトルを示した。これは成人男性の典型的パターンである。スペクトル図には縦軸に周波数、横軸に振幅の相対的強さを取ってある。相対的強さは最大ピーク値を基準に、その相対値で表わしてある。また周波数の測定位置は音声波形上に縦線で示してある。スペクトル図には、線形予測分析から求めた包絡線が描かれている。本実験で採用したフォルマント周波数は包絡線から求めた値である。またスペクトログラムについては、母音は発音中の音声波形変化が少ないので周波数分解能の高い狭帯域スペクトログラムを表示した。
ここで、図14のスペクトルとスペクトログラムを見ると、母音ごとに特有の形をしている。この図形を特徴付ける第一の特徴は、包絡線の第一ピーク(F1)と第二ピーク(F2)の間隔である。それは前述のα(=F2/F1)の値によって表わされる。第二の特徴は第二ピーク(F2)と第3ピーク(F3)の間隔で、これはβ(=F3/F2)の値で表わされる。第3の特徴は、/u/と/e/および/a/と/o/を分離できる特徴である。スペクトログラム上で/u/と/e/のパターンを比べると、F2とF3の間の中間領域の濃淡がお互いに逆であることが分る。一方/a/と/o/でも、同じことが言える。
/u/と/o/では、F2とF3の間の中間領域の相対的強さが低い。/a/と/e/では、F2とF3の間の中間領域の相対的強さが高い。そこで、第二ピーク(F2)と第3ピーク(F3)の間の領域で、その相対的強さが別途定める閾値以上である領域の比率γを「第3の音響的キュー」と定義する。
そうすると、図14からから、
(1)γ>0.5ならば、母音は/a,i,e/のいずれかである。つまり聴取音は/a,i,e/のいずれかに聞こえる。
(2)γ<0.5ならば、母音は/u,o/のいずれかである。
この判別式を「第3の音響的キューの規準」と呼ぶことにする。なお、「γ=0.5」の場合に、いずれに分類するかは、問わない。
ここで、マスキング現象によって、/a,i,e/の音はF2とF3の中間域の周波数成分が聞こえ、/u,o/の音では聞き取りにくいという差が生じる。即ち/u/と/e/あるいは/a/と/o/を明確に区分できる。
「第3の音響的キュー」というのは、聴覚印象的に「その母音らしさ」を強調する仕掛けとも言える。ただ、閾値の大きさについては、個人差が大きいかも知れない。
このような現象の存在は、聴覚の欠陥を意味するものではなくて、逆に人が言語を確実に聞き分けるために獲得した特別の能力と考えられる。
この規準の妥当性を検証するために、閾値を−35dBに取って、スペクトログラムとスペクトル図から目視で84名の音声について調べた。その結果「第3の音響的キューの規準」が大部分の人で成立したが、それに合わない人も居た。そこで、そのような人だけを抜き出して図15にプロットした。/a/で9点、/i/で1点、/e/で1点あった。これらの観測点は上記の規準が適用できない例外点である。
ここで注目したいのは、これらの例外点はすべて「適合領域」にあることである。したがって、これらの観測点はどの母音に属するものであるかを特定できる。
もう1つの注目点は、適合領域から外れている観測点は、すべてこの規準によって/u/と/e/および/a/と/o/のいずれであるかを判別出来たことである。たとえば/a/と/o/の適合領域の中間域では、/a/と/o/の観測点が入り混じっている。しかし/a/の観測点では、いずれもγが0.5以上であった。逆に、/o/の観測点では、いずれもγが0.5以下であった。すなわち適合領域の中間域では、この規準による判定で完全に識別出来た。このことは/u/と/e/の間でも成立した。
このようにα、βの値ではどの母音に属するかを特定できない場合でも、さらに第3の音響的キューの規準によって、すべてを完全に特定できるのである。上記の母音同定プロセスを図16に示す。
次に、/i/が他の母音に比べると明瞭度が低い被験者(舌切除によって構音障害を起した被験者)の場合について述べる。かかる被験者の場合、五十音表のイ列音の明瞭度が極端に低くなる。
それを改善するために、被験者は、2種類の舌接触補助床を装着している。1つは硬口蓋と接するものでPAPと略称する。もう1つは口腔底に接するものでLAPと略称する。通常は、被験者は、両者を同時に装着しているが、本実験では非装着と装着の場合に分けて測定した。
図17に、非装着状態の時の音響データを示す。具体的には、図17は、構音障害者の母音(PAP非装着時)の音声波形と狭帯域スペクトログラムとスペクトル図を示す。
図18に、PAPとLAPを同時装着の時の音響データを図示す。健常者のデータ(図14)と対比すると、図17はかなりの違いがあるが、図18ではかなり似ている。
図19に、舌切除によって構音障害を起した被験者の音声のα、βの関係図を示す。図19において、(1)非装着(2)PAP単独(3)LAP単独(4)両者の併用(以下、適宜、「併用系」という)の4ケースについてプロットした。
適合領域からはずれたところにあるのは、/i/のすべてと併用系の/o/であった。後者については、上述の「規準」を満足しているので、/o/と正しく聴取される。「規準」に合致していない観測点は、/i/のPAP単独とLAP単独であった。しかし、/i/の非装着と併用系でも、閾値を−30dBにとると、「規準」からはずれた。図19から判断すると、いずれの/i/も、/e/とも/u/とも/i/とも言えない音になっていることが分かる。別途実施した明瞭度検査から、被験者では他の母音に比べると/i/が他の音に異聴される比率が高く、また/i/を後続母音とする「イ列音」の明瞭度が特に低い傾向が認められる。これは、図19の結果と良く符号する。一番/i/の適合領域に近いのはPAPとLAPの併用系であった。舌接触補助床の効果は、それなりに認められる。この結果は、症例の実情と良く一致する。
以上、本実施の形態によれば、日本語の5母音を同定できる。また、本方法は、構音障害者の診断にも応用できる。
また、上記の実験において、聴覚上の2つの特殊な能力(1)位相差を聞き分けない(位相差に鈍感になる)という能力、(2)聴覚的マスキング能力、に着目し、3つの音響的キューを見出した。これらの音響的キューは、いずれも聴覚器官から中枢に送られて来る神経インパルスから容易に処理できる単純なものばかりである。しかも音声の時間的・動的情報などを必要としない。それゆえ一瞬にして消滅してしまう音声を捉えるには適性のある認識方法と考えられる。この同定方法は、上述したように84名の音声で検証された。故に「話者正規化問題」もクリア出来ている。また、声道を単純化した単一音響管モデルの摂動理論からも理論的に説明できた。さらに、本被験者の異常構音に適用した結果、実情と非常によく一致した。
なお、本実施の形態の具体例において、第一勾配情報を「F1/F2」、第二勾配情報を「F3/F2」としたが、他の算出式でも良い。つまり、第一勾配情報は、F1とF2との関係に関する情報であれば良い。また、第二勾配情報は、F2とF3との関係に関する情報であれば良い。かかることは、他の実施の形態においても同様である。
また、本実施の形態によれば、第三フォルマント周波数(F3)を用いて母音同定を行う点が特徴である。さらに言えば、第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、および第三フォルマント周波数(F3)を用いて母音同定を行う点が特徴である。F1、F2、F3をいかに用いて母音同定するかは、いくつか考えられる。つまり、本実施の形態における情報処理装置は、音声情報を受け付ける音声情報受付部と、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定部と、前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置である。また、かかる場合の処理部の処理は問わない。処理部は、同定結果を蓄積したり、送信したり、表示したり、出力(音声出力、印刷)などするだけでも良い。かかることも、他の実施の形態においても同様である。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声情報を受け付ける音声情報受付ステップと、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得ステップと、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得ステップと、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得ステップと、前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定ステップと、を実行させるためのプログラム、である。
また、上記プログラムにおける母音同定ステップは、前記F1と前記F2との関係に関する情報である第一勾配情報を算出する第一勾配情報算出ステップと、前記F2と前記F3との関係に関する情報である第二勾配情報を算出する第二勾配情報算出ステップと、前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定ステップを具備することは好適である。
また、上記プログラムにおいて、前記第一勾配情報は「F2/F1」であり、前記第二勾配情報は「F3/F2」であり、前記母音同定ステップにおいて、前記第一勾配情報が略5.9〜略10.8である場合に、前記音声情報の母音を/i/と判断し、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.6〜略2.5である場合に、前記音声情報の母音を/a/と判断し、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略2.8〜略4.6である場合に、前記音声情報の母音を/o/と判断し、前記第一勾配情報が略2.4〜略4.5であり、かつ前記第二勾配情報が略1.7〜略3.2である場合に、前記音声情報の母音を/u/と判断し、前記第一勾配情報が略3.0〜略5.1であり、かつ前記第二勾配情報が略1.1〜略1.45である場合に、前記音声情報の母音を/e/と判断することは好適である。
上記プログラムにおいて、前記母音同定ステップは、前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、前記母音同定サブステップは、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.6〜略2.5でもなく、かつ略2.8〜略4.6でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/a/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/o/と判断し、かつ、前記第一勾配情報が略2.4〜略4.5であり、かつ前記第二勾配情報が略1.7〜略3.2でない場合、および前記第一勾配情報が略3.0〜略5.1であり、かつ前記第二勾配情報が略1.1〜略1.45でない場合であり、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/e/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/u/と判断することは好適である。
上記プログラムにおいて、前記母音同定ステップにおいて、前記第一勾配情報が略5.9〜略10.8ではなく、かつ、前記第一勾配情報が略1.3〜略2.2ではなく、かつ、前記第一勾配情報が略1.3〜略2.2ではなく、かつ、前記第一勾配情報が略2.4〜略4.5ではなく、かつ、前記第一勾配情報が略3.0〜略5.1ではない場合に、前記音声情報を異常音と判断することは好適である。
なお、上記プログラムは、母音同定する処理まで行うプログラムであったが、母音同定ステップで同定した母音に基づいて、何らかの処理をする処理ステップを、コンピュータにさらに実行させるプログラムでも良い、ことは言うまでもない。
(実施の形態2)
本実施の形態において、母音の発音の評価を行い、評価結果を出力する装置等について説明する。
図20は、本実施の形態における情報処理装置のブロック図である。
本情報処理装置は、発音情報出力部201、フォルマント周波数母音対応情報格納部202、音声情報受付部11、F1取得部12、F2取得部13、F3取得部14、母音同定部15、評価部203、評価結果出力部204を具備する。
発音情報出力部201は、ユーザに発音を促す情報である発音情報を出力する。発音情報は、例えば、「aと発音してください。」などである。ただし、発音情報は、ユーザに発音を促す情報であれば、その内容は問わない。発音情報は、例えば、予め、発音情報出力部201が格納している。ここで、出力とは、ディスプレイへの表示、音出力、外部の装置(表示装置)への送信等を含む概念である。発音情報出力部201は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。発音情報出力部201は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
フォルマント周波数母音対応情報格納部202は、第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、および第三フォルマント周波数(F3)に関する情報と、母音との対応を示すフォルマント周波数母音対応情報を格納している。フォルマント周波数母音対応情報の具体例は後述する。フォルマント周波数母音対応情報格納部202は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
評価部203は、F1取得部12が取得したF1、F2取得部13が取得したF2、およびF3取得部14が取得したF3と、フォルマント周波数母音対応情報に基づいて、音声情報受付部11が受け付けた音声情報を評価する。評価アルゴリズムの具体例は後述する。評価部203は、通常、MPUやメモリ等から実現され得る。評価部203の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価結果出力部204は、評価部203における評価結果を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。評価結果出力部204は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。評価結果出力部204は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、情報処理装置の動作について図21、図22のフローチャートを用いて説明する。
(ステップS2101)発音情報出力部201は、発音情報を出力する。
(ステップS2102)評価部203は、音声情報受付部11が受け付けた音声情報を評価する。評価部203の評価処理に関して、図22のフローチャートを用いて詳細に説明する。
(ステップS2103)評価結果出力部204は、ステップS2102における評価結果を出力する。
次に、評価処理の動作について図22のフローチャートを用いて説明する。
(ステップS2201)評価部203は、ステップS205で取得したαに最も近いαの範囲を持つ母音を、フォルマント周波数母音対応情報格納部202のフォルマント周波数母音対応情報に基づいて決定する。
(ステップS2202)評価部203は、ステップS2201で決定した母音の(α,β)と、本(α,β)の距離を算出する。母音の(α,β)におけるα,およびβは、範囲を有するデータである。本(α,β)におけるα,およびβは、図21のフローチャートにおけるステップS205で取得したα、図21のフローチャートにおけるステップS206で取得したβである。また、距離は、「本(α,β)のαと、母音の(α,β)のαの最も近いαとの差の2乗」、および「本(α,β)のβと、母音の(α,β)のβの最も近いβとの差の2乗」の和の平方根により算出される。
(ステップS2203)評価部203は、評価値に「−距離」を代入する。ここでの距離とは、ステップS2202で算出した距離である。ステップS2205に行く。
(ステップS2204)評価部203は、評価値に「0」を代入する。
(ステップS2205)評価部203は、リターン値に「評価値,母音」を代入する。上位関数にリターンする。なお、ここでの母音は、「/a/」「/i/」「/u/」「/e/」「/o/」「異常音」のいずれかである。
なお、図22のフローチャートにおいて、リターン値のデータ構造は問わない。
また、図22のフローチャートにおいて、最も近い母音を決定するために、βの値を用いても良い。かかる場合、例えば、評価部203は、フォルマント周波数母音対応情報の全母音のα、βと、取得した音声情報のα、βを用いて、距離を算出し、距離が最も近い母音を最も近い母音として決定しても良い。
さらに、図21、図22のフローチャートにおいて、ユーザに発音して欲しい母音(例えば、「ア」)を提示し、「ア」の範囲のα、βと、受け付けた音声情報のα、βとの距離(距離の定義は上記と同様)等から、母音の発音の良し悪しを評価しても良い。
以下、本実施の形態における情報処理装置の具体的な動作について説明する。
今、フォルマント周波数母音対応情報格納部202のフォルマント周波数母音対応情報の例を、図13に示す。
かかる場合、例えば、発音情報出力部201は、「練習したい母音を発音して下さい。」という発音情報をディスプレイに表示する。
次に、被験者は、「い」と発音する。
次に、音声情報受付部11は、被験者が発音した音声を取得し、音声情報に変換する。
次に、F1取得部12、F2取得部13、F3取得部14は、それぞれ、受け付けた音声情報からF1、F2、F3を取得する。
次に、第一勾配情報算出手段151は、算出式「F2/F1」により第一勾配情報(α)を算出する。ここでは、「α=13.0」と算出された、とする。
次に、第二勾配情報算出手段152は、算出式「F3/F2」により第二勾配情報(β)を算出する。ここでは、「β=0.9」と算出された、とする。
次に、スペクトル情報取得手段153は、F1とF2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得する。
そして、次に、母音同定手段154は、母音を「異常音」として同定する。かかるアルゴリズムは、説明済みである。
次に、評価部203は、算出した「α=13.0」と図23のフォルマント周波数母音対応情報に基づいて、最も近い母音は「/i/」であると決定する。
次に、評価部203は、決定した母音「/i/」の(α,β)と、本(α,β)の距離を算出する。つまり、評価部203は、「((13.0−10.8)+(0.9−1.1)1/2」を算出する。評価部203は、評価値「約2.21」を得る。
次に、評価部203は、評価値「約−2.21」、母音「異常音」を有するリターン値を構成する。
次に、評価結果出力部204は、例えば、図23に示すような評価結果を出力する。
以上、本実施の形態によれば、母音の発音の良し悪し(同定具合)が評価でき、その結果を出力できる。
なお、本情報処理装置において、母音同定部15の代わりに、後述する母音同定部245を用いても良いことは言うまでもない。
また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、発音を促す情報である発音情報を出力する発音情報出力ステップと、音声情報を受け付ける音声情報受付ステップと、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得ステップと、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得ステップと、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得ステップと、前記F1取得部が取得したF1、前記F2取得部が取得したF2、および前記F3取得部が取得したF3と、格納しているフォルマント周波数母音対応情報に基づいて、前記音声情報受付ステップで受け付けた音声情報を評価する評価ステップと、前記評価ステップにおける評価結果を出力する評価結果出力ステップを実行させるためのプログラム、である。
(実施の形態3)
図24は、本実施の形態における情報処理装置のブロック図である。
情報処理装置は、音声情報受付部11、F1取得部12、F2取得部13、F3取得部14、母音同定部245、処理部16を具備する。母音同定部245は、第一勾配情報算出手段151、第二勾配情報算出手段152、スペクトル情報取得手段153、母音同定手段2454を具備する。
本情報処理装置は、実施の形態1の情報処理装置と比較して、母音同定のためのアルゴリズム(母音同定手段2454)が異なる。
母音同定手段2454は、第一勾配情報、および第二勾配情報に基づいて、音声情報の母音を同定する。母音同定手段2454は、第一勾配情報、第二勾配情報、およびスペクトル情報に基づいて、音声情報の母音を同定しても良い。
具体的には、母音同定手段2454は、以下のように音声情報の母音を決定する(第一の例)。つまり、母音同定手段2454は、第一勾配情報(α)が略5.8〜略10.8であり、第二勾配情報(β)が略1.2〜略1.8である場合に、音声情報の母音を/i/と判断する。また、具体的には、母音同定手段2454は、αが略1.3〜略2.2であり、第二勾配情報(β)が略1.5〜略2.5である場合に、音声情報の母音を/a/と判断する。また、具体的には、母音同定手段2454は、αが略1.3〜略2.2であり、かつβが略2.8〜略4.6である場合に、音声情報の母音を/o/と判断する。また、具体的には、母音同定手段2454は、αが略2.4〜略4.9であり、かつβが略1.65〜略3.2である場合に、音声情報の母音を/u/と判断する。また、具体的には、母音同定手段2454は、αが略3.0〜略5.5であり、かつβが略1.1〜略1.45である場合に、音声情報の母音を/e/と判断する。
また、具体的には、母音同定手段2454は、以下のように音声情報の母音を決定する。つまり、具体的には、母音同定手段2454は、第一勾配情報(α)が略5.8〜略10.8であり、第二勾配情報(β)が略1.2〜略1.8ではなく、スペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合に、音声情報の母音を/i/と判断する。また、具体的には、母音同定手段2454は、第一勾配情報(α)が略5.8〜略10.8であり、第二勾配情報(β)が略1.2〜略1.8ではなく、スペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)に、音声情報を異常音と判断する。また、具体的には、母音同定手段2454は、αが略1.3〜略2.2であり、かつ第二勾配情報(β)が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でない場合であり、かつスペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合に、音声情報の母音を/a/と判断する。また、具体的には、母音同定手段2454は、αが略1.3〜略2.2であり、かつ第二勾配情報(β)が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でない場合であり、かつスペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)に、音声情報の母音を/o/と判断する。
また、母音同定手段154は、αが略2.4〜略4.9であり、かつβが略1.65〜略3.2でない場合、およびαが略3.0〜略5.5であり、かつβが略1.1〜略1.45でない場合であり、スペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合は、音声情報の母音を/e/と判断する。母音同定手段154は、αが略2.4〜略4.9であり、かつβが略1.65〜略3.2でない場合、およびαが略3.0〜略5.5であり、かつβが略1.1〜略1.45でない場合であり、スペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)は、音声情報の母音を/u/と判断する。なお、上記の閾値は、例えば、γ「0.5」である。
また、具体的には、母音同定手段154は、以下のように音声情報の母音を決定する(第二の例)。第二の例において、第一の例における判断に加えて、以下のように母音を決定する。母音同定手段154は、αが略1.3〜略2.2であり、かつβが略1.5〜略2.5でもなく、かつβが略2.8〜略4.6でもない場合に、スペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合は、音声情報の母音を/a/と判断する。また、母音同定手段154は、αが略1.3〜略2.2であり、かつβが略1.5〜略2.5でもなく、かつβが略2.8〜略4.6でもない場合に、スペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)は、音声情報の母音を/o/と判断する。また、母音同定手段154は、αが略2.4〜略4.9であり、かつβが略1.65〜略3.2でない場合、およびαが略3.0〜略5.1であり、かつβが略1.1〜略1.45でない場合であり、スペクトル情報が閾値と所定の関係(例えば、閾値以上)にある場合は、音声情報の母音を/e/と判断する。母音同定手段154は、αが略2.4〜略4.9であり、かつβが略1.65〜略3.2でない場合、およびαが略3.0〜略5.5であり、かつβが略1.1〜略1.45でない場合であり、スペクトル情報が閾値と所定の関係にない場合(例えば、閾値未満の場合)は、音声情報の母音を/u/と判断する。なお、上記の閾値は、例えば、γ「0.5」である。
さらに、具体的には、母音同定手段2454は、第一勾配情報(α)が略5.8〜略10.8でもなく、αが略1.3〜略2.2でもなく、かつαが略3.0〜略5.5でもない場合、音声情報を異常音と判断する。なお、異常音とは、母音が同定できなかった音であり、一般成人からみて、正常な日本語の母音と認識されない音と考えて良い。
母音同定手段1454は、通常、MPUやメモリ等から実現され得る。母音同定手段1454の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置の動作について図25、図26のフローチャートを用いて説明する。
図25のフローチャートにおいて、図2のフローチャートと比較して、ステップS2501の母音同定のアルゴリズムが異なるだけである。
(ステップS2501)母音同定手段2454は、第一勾配情報(α)、第二勾配情報(β)、およびスペクトル情報に基づいて、音声情報の母音を同定する。母音を同定するアルゴリズムの例は、図26のフローチャートを用いて詳述する。
なお、図25のフローチャートにおいて、スペクトル情報の取得処理は、ステップS2501における母音の同定に必要な場合のみ行っても良い。
また、図25のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、母音同定の動作について図26のフローチャートを用いて説明する。なお、図26のフローチャートにおいて、リターン値には、同定された母音に関する情報、または異常音を示す情報が格納される。
(ステップS2601)母音同定手段2454は、「5.8<=α<=10.8」を満たすか否かを判断する。αが上記範囲を満たせばステップS2602に行き、αが上記範囲を満たさなければステップS2605に行く。
(ステップS2602)母音同定手段2454は、「1.2<=β<=1.8」を満たすか否かを判断する。βが上記範囲を満たせばステップS2603に行き、βが上記範囲を満たさなければステップS2604に行く。
(ステップS2603)母音同定手段2454は、リターン値を「/i/」とする。こここで、母音が「/i/」に同定されたことを示す。上位関数にリターンする。
(ステップS2604)母音同定手段2454は、「閾値<=スペクトル情報」を満たすか否かを判断する。上記を満たせばステップS2603に行き、満たさなければステップS2616に行く。
(ステップS2605)母音同定手段2454は、「1.3<=α<=2.2」を満たすか否かを判断する。αが上記範囲を満たせばステップS2606に行き、αが上記範囲を満たさなければステップS2610に行く。
(ステップS2606)母音同定手段2454は、「1.5<=β<=2.5」を満たすか否かを判断する。βが上記範囲を満たせばステップS2607に行き、βが上記範囲を満たさなければステップS2608に行く。
(ステップS2607)母音同定手段2454は、リターン値を「/a/」とする。上位関数にリターンする。
(ステップS2608)母音同定手段2454は、「2.8<=β<=4.6」を満たすか否かを判断する。βが上記範囲を満たせばステップS2609に行き、βが上記範囲を満たさなければステップS2617に行く。
(ステップS2609)母音同定手段2454は、リターン値を「/o/」とする。上位関数にリターンする。
(ステップS2610)母音同定手段2454は、「2.4<=α<=4.9」を満たすか否かを判断する。αが上記範囲を満たせばステップS2611に行き、αが上記範囲を満たさなければステップS2613に行く。
(ステップS2611)母音同定手段2454は、「1.65<=β<=3.2」を満たすか否かを判断する。βが上記範囲を満たせばステップS2612に行き、βが上記範囲を満たさなければステップS2620に行く。
(ステップS2612)母音同定手段2454は、リターン値を「/u/」とする。上位関数にリターンする。
(ステップS2613)母音同定手段2454は、「3.0<=α<=5.5」を満たすか否かを判断する。αが上記範囲を満たせばステップS2614に行き、αが上記範囲を満たさなければステップS2616に行く。
(ステップS2614)母音同定手段2454は、「1.1<=β<=1.45」を満たすか否かを判断する。βが上記範囲を満たせばステップS2615に行き、βが上記範囲を満たさなければステップS2620に行く。
(ステップS2615)母音同定手段2454は、リターン値を「/e/」とする。上位関数にリターンする。
(ステップS2616)母音同定手段2454は、リターン値を「異常音」とする。上位関数にリターンする。
(ステップS2617)母音同定手段2454は、「閾値<=スペクトル情報」を満たすか否かを判断する。上記を満たせばステップS2618に行き、満たさなければステップS2619に行く。
(ステップS2618)母音同定手段2454は、リターン値を「/a/」とする。上位関数にリターンする。
(ステップS2619)母音同定手段2454は、リターン値を「/o/」とする。上位関数にリターンする。
(ステップS2620)母音同定手段2454は、「閾値<=スペクトル情報」を満たすか否かを判断する。上記を満たせばステップS2621に行き、満たさなければステップS2622に行く。
(ステップS2621)母音同定手段2454は、リターン値を「/e/」とする。上位関数にリターンする。
(ステップS2622)母音同定手段2454は、リターン値を「/u/」とする。上位関数にリターンする。
なお、図26のフローチャートにおいて、α、βの範囲について、多少の誤差の値を考慮した判断を行っても良いことは言うまでもない。
以下、本実施の形態における情報処理装置を用いた実験結果について説明する。下記の実験結果の記載において、実験の結果とその考察について述べる。
実験の条件は、実施の形態1で述べた条件と同じである。
再度、84名のF1とF2を図27にプロットした。図27における特徴は、図4と同様に、(1)母音ごとに特定の領域に楕円状に分布していること(2)その楕円は長軸の方向がおおよそ原点方向に向いていること(3)男女の観測点が別々の塊となって分布していること(4)/a/と/o/および/u/と/e/の領域に重なりが生じていることである。
図27におけるF1とF2の間には正の相関があり、その相関係数は図5における表のようになった。
本実験の被験者84名について調べ、F1とF0の関係を母音別に図28に図示する。両者の相関係数は図6である。どの母音についても相関が認められ、相関係数の検定からいずれも危険率1%で、相関ありという結果となった。
本実験で収録した音声は通常の状態で発声したものである。そこで、故意にピッチを上げて発声したときに、F1とF0がどのような関係になるかを調べた。特定の男性1名に/a/なら「ア」と発音しながら、「ドミソド」と音程を変えて何度か発声してもらい、音声を収録した。その結果を図29に示す。/a/については、初めての緊張でバラツキが大きかったが、他の母音については、かなりの相関が認められた。その相関係数は、図6である。
図29は1名の対象者のF0とF1の関係であるが、このような場合でも両者の間で相関が認められる。この理由は声帯や声道の長さの違いでは説明出来ない。しかし、人体構造と単一音響管モデルの摂動理論からある程度説明できる。高い声を出すときは、輪状甲状筋を使って声帯を引き伸ばすようにする。このとき声帯は緊張し、喉頭が挙上する(非特許文献8参照)。これによって声門近辺に声道の狭め(狭窄)が生じると考えられる。ここで声道を単一音響管モデルで近似し、その摂動理論(非特許文献9参照)を適用すると、声門近辺に狭めが生じるとフォルマントF1,F2,F3が上昇する。すなわち声帯の緊張がフォルマント周波数を高める方向に働く。
かくして、F0とF1の間に相関が生じる理由は、主として次の2つの面から説明される。
(1) F0は主として声帯の膜の長さが短いほど高くなる。一方、F1は声道の長さが短いほど高くなる。ところが、声帯の膜の長さも声道の長さも「子供<成人女性<成人男性」の関係にあるため、F0とF1は正の相関を持つことになる。
(2) 人が故意に音程を違えて発声する場合は、上述の摂動理論からF0とF1は正の相関を持つことになる。
上記ではF0とF1の相関のみを論じたが、84名について調べてみると、F1と同様の関係がF2にもF3にも認められた。これは上述の考察からも頷けることである。
上記ではF0とF1の相関のみを論じたが、84名について調べてみると、F1と同様の関係がF2にもF3にも認められた。これは上述の考察からも頷けることである。
いずれにしてもピッチとフォルマント周波数は正の相関にあるので、フォルマント周波数からピッチの影響を排除することを考える。そのために換算フォルマント周波数(V1,V2,V3)をそれぞれ、上記の数式1、数式2、数式3で定義する。
換算フォルマント周波数とは、F0とフォルマント周波数の間に線形関係を仮定した場合に、ピッチが100Hzであるときのフォルマント周波数である。
ここで、84名の音声について、V1とV2を図30にプロットした。この図30を図27(F1&F2平面図)と対比してみると、次のことが分る。
(1)母音ごとに観測点は原点を通る直線の周りに分布している。
(2)図27では男女の観測点がそれぞれ塊となっていたが、図30では入り混じっている。
もしすべての観測点が直線上に乗っているなら、その直線の勾配から母音を同定できることになる。実際には、声道の個人差やその場の緊張などの要因が絡み、理想的に1本の直線に乗ることはなかったが、本質的なことは「V1とV2の勾配が母音を決定している」という点である。複数の観測点があるとき、そのV1やV2の値が何であれ、V1とV2の勾配が同じなら同じ母音に属すると言える。
同様にV2&V3平面図を図31に示した。V2,V3の値が大きくなったために、バラツキが大きく見えるが、相関係数を求めると図11のように図30も図31も差異がない。いずれにおいても、2つの変数間(V1対V2、V2対V3)に強い相関が認められる。
では、なぜ観測点が原則的に1本の直線上に乗り、その勾配で母音が決まるのであろうか? この点を単一音響管モデルとその摂動理論から考察してみたい。単一音響管モデルによれば、管内に生じる第nフォルマント周波数をFと書くと、数式4で表わされる。
ここで、声道の一部に局所的狭めが生じると、フォルマント周波数が変動する。その効果を表わすために数式4に補正係数Kを導入すると、数式5を得る。
今、V1とV2の勾配をα(第一勾配情報の一例)、V2とV3の勾配をβ(第二勾配情報の一例)と書くと、数式1から数式3の式から、α、βは、それぞれ数式6、7により算出できるものとなる。
よって、数式5から次式の数式8、9を得る。
上記の数式8、9は、勾配α、βが声道の長さには依存せず、狭めの位置即ち声道の形状だけに依存していることを表わしている。このことはまさしく母音の産生そのものに依存していることを意味している。しかも母音が勾配α、βだけで決まるなら、まさしく「母音の正規化問題」が解決されることになる。
以上のことから、図30、図31で観測点が母音ごとに1本の直線上に乗るというのは偶々のことではなく必然性のある事であることが分かる。しかし、実際の観測点ではいろいろの要因が絡んで完全に1本の線上には乗らず、直線の周辺で重なりが生じ得る。たとえば、図30では/e/と/u/及び/a/と/o/の直線が接近し過ぎて重なりが生じる。その重なり具合をみるために、数式6、7を使って、α、βを計算し、図32にプロットした。
図32において、母音領域がお互いに重なり合わない領域を「適合領域」として、四角で囲った。F1,F2,F3の値からα、βを計算し、それが或る母音(たとえば「ア」)の「適合領域」内にあれば、年齢・性別・個人差・緊張度合いなどに左右されることなく、その言語音はその母音(たとえば「ア」)と特定できる。これが「母音の話者正規化問題」に対する解答となり得る。言語中枢は、F2とF1の比(α)とF3とF2の比(β)さえ知覚できれば、どんな年齢の人のどんな人の声であろうと、母音を正しく特定できるのである。
ここで注目すべきは、α、βの間に相関がないことである。このことが母音の同定をやさしくしている。たとえば、図27のような図形を手掛かりに母音を同定するとなると、先ずその図形の認識をしなければならず、母音の持続時間(0.3秒程度)のうちに処理するには中枢の負担が大きい。かかる処理が実際に行われているとは考えにくい。上述のところによれば、α、βの値が幾らということを知覚出来さえすれば、母音を同定出来るのであるから、処理は極めて迅速に行える。図32から「適合領域」とされるα、βの値を図33に示した。
またα、βの値は男女間で偏ることもない。このことは数式8、9に声道の長さのようなファクターを含まないことからも想定できることである。このようなファクターに左右されないからこそ、「母音の話者正規化問題」を解決できる。
もう1つ特筆すべきことは、図27の図形が原点方向に向いた楕円状になることを説明できる点である。数式6から「F2=α*F1」と書き直してみると、αが一定であれば原点を通る直線を表わす。本来αは特定の母音ごとに一定の値を取るのであるが、個人差などにより、多少ばらつく。その結果直線の周りに観測点が集まって楕円状を形成するのである。
図32から言えることを要約すると、以下のようになる。
(1)αの値が大(約6〜約11)であれば、母音/i/である。
(2)αの値が中(約2〜約6)であれば、母音/u/か/e/である。
(3)αの値が小(約1〜約2)であれば、母音/a/か/o/である。
一方/u/と/e/および/a/と/o/を分離するものがβである。βによって、これらは基本的には分離出来ている。しかし、βだけではこれらを完全に分離することは困難である。βの「適合領域」の外にも多くの観測点が見られるからである。
/u/と/e/および/a/と/o/を音響特性面から分離することは、非常に難しい(非特許文献4、非特許文献10参照)と言われていた。
ところで、音声の知覚には特別な特徴がある。その1つは音声波の位相差を認識しないという特徴である。この特徴の故に上述したようにフォルマント周波数だけで母音をほぼ特定できる。次の特徴は、遮蔽(マスキング)と呼ばれる現象である。或る周波数成分の振幅が他の周波数成分のそれよりも大幅に低いと、その周波数成分は聞こえなくなる(非特許文献11参照)。
図14に或る男性の母音の音声波形と狭帯域スペクトログラムとスペクトルを示した。ここで、図14のスペクトルとスペクトログラムを見ると、母音ごとに特有の形をしている。この図形を特徴付ける第一の特徴は、包絡線の第一ピーク(F1)と第二ピーク(F2)の間隔である。それは前述のα(=F2/F1)の値によって表わされる。第二の特徴は第二ピーク(F2)と第3ピーク(F3)の間隔で、これはβ(=F3/F2)の値で表わされる。第3の特徴は、/u/と/e/および/a/と/o/を分離できる特徴である。スペクトログラム上で/u/と/e/のパターンを比べると、F2とF3の間の中間領域の濃淡がお互いに逆であることが分る。一方/a/と/o/でも、同じことが言える。
/u/と/o/では、F2とF3の間の中間領域の相対的強さが低い。/a/と/e/では、F2とF3の間の中間領域の相対的強さが高い。そこで、第二ピーク(F2)と第3ピーク(F3)の間の領域で、その相対的強さが別途定める閾値以上である領域の比率γを「第3の音響的キュー」と定義する。
そうすると、図14からから、
(1)γ>0.5ならば、母音は/a,i,e/のいずれかである。つまり聴取音は/a,i,e/のいずれかに聞こえる。
(2)γ<0.5ならば、母音は/u,o/のいずれかである。
この判別式を「第3の音響的キューの規準」と呼ぶことにする。なお、「γ=0.5」の場合に、いずれに分類するかは、問わない。
ここで、マスキング現象によって、/a,i,e/の音はF2とF3の中間域の周波数成分が聞こえ、/u,o/の音では聞き取りにくいという差が生じる。即ち/u/と/e/あるいは/a/と/o/を明確に区分できる。
「第3の音響的キュー」というのは、聴覚印象的に「その母音らしさ」を強調する仕掛けとも言える。ただ、閾値の大きさについては、個人差が大きいかも知れない。
このような現象の存在は、聴覚の欠陥を意味するものではなくて、逆に人が言語を確実に聞き分けるために獲得した特別の能力と考えられる。
この規準の妥当性を検証するために、閾値を−35dBに取って、スペクトログラムとスペクトル図から目視で84名の音声について調べた。その結果「第3の音響的キューの規準」が大部分の人で成立したが、それに合わない人も居た。そこで、そのような人だけを抜き出して図34にプロットした。/a/で9点、/i/で1点、/e/で1点あった。これらの観測点は上記の規準が適用できない例外点である。
ここで注目したいのは、これらの例外点はすべて「適合領域」にあることである。したがって、これらの観測点はどの母音に属するものであるかを特定できる。
もう1つの注目点は、適合領域から外れている観測点は、すべてこの規準によって/u/と/e/および/a/と/o/のいずれであるかを判別出来たことである。たとえば/a/と/o/の適合領域の中間域では、/a/と/o/の観測点が入り混じっている。しかし/a/の観測点では、いずれもγが0.5以上であった。逆に、/o/の観測点では、いずれもγが0.5以下であった。すなわち適合領域の中間域では、この規準による判定で完全に識別出来た。このことは/u/と/e/の間でも成立した。
このようにα、βの値ではどの母音に属するかを特定できない場合でも、さらに第3の音響的キューの規準によって、すべてを完全に特定できるのである。上記の母音同定プロセスを図35に示す。
次に、/i/が他の母音に比べると明瞭度が低い被験者(舌切除によって構音障害を起した被験者)の場合について述べる。かかる被験者の場合、五十音表のイ列音の明瞭度が極端に低くなる。
それを改善するために、被験者は、2種類の舌接触補助床を装着している。1つは硬口蓋と接するものでPAPと略称する。もう1つは口腔底に接するものでLAPと略称する。通常は、被験者は、両者を同時に装着しているが、本実験では非装着と装着の場合に分けて測定した。
図17に、非装着状態の時の音響データを示す。具体的には、図17は、構音障害者の母音(PAP非装着時)の音声波形と狭帯域スペクトログラムとスペクトル図を示す。
図18に、PAPとLAPを同時装着の時の音響データを図示す。健常者のデータ(図14)と対比すると、図17はかなりの違いがあるが、図18ではかなり似ている。
図36に、舌切除によって構音障害を起した被験者の音声のα、βの関係図を示す。図36において、(1)非装着(2)PAP単独(3)LAP単独(4)両者の併用(以下、適宜、「併用系」という)の4ケースについてプロットした。
適合領域からはずれたところにあるのは、/i/のすべてと併用系の/o/であった。後者については、上述の「規準」を満足しているので、/o/と正しく聴取される。「規準」に合致していない観測点は、/i/のPAP単独とLAP単独であった。しかし、/i/の非装着と併用系でも、閾値を−30dBにとると、「規準」からはずれた。図36から判断すると、いずれの/i/も、/e/とも/u/とも/i/とも言えない音になっていることが分かる。別途実施した明瞭度検査から、被験者では他の母音に比べると/i/が他の音に異聴される比率が高く、また/i/を後続母音とする「イ列音」の明瞭度が特に低い傾向が認められる。これは、図36の結果と良く符号する。一番/i/の適合領域に近いのはPAPとLAPの併用系であった。舌接触補助床の効果は、それなりに認められる。この結果は、症例の実情と良く一致する。
以上、本実施の形態によれば、日本語の5母音を同定できる。また、本方法は、構音障害者の診断にも応用できる。
また、上記の実験において、聴覚上の2つの特殊な能力(1)位相差を聞き分けない(位相差に鈍感になる)という能力、(2)聴覚的マスキング能力、に着目し、3つの音響的キューを見出した。これらの音響的キューは、いずれも聴覚器官から中枢に送られて来る神経インパルスから容易に処理できる単純なものばかりである。しかも音声の時間的・動的情報などを必要としない。それゆえ一瞬にして消滅してしまう音声を捉えるには適性のある認識方法と考えられる。この同定方法は、上述したように84名の音声で検証された。故に「話者正規化問題」もクリア出来ている。また、声道を単純化した単一音響管モデルの摂動理論からも理論的に説明できた。さらに、本被験者の異常構音に適用した結果、実情と非常によく一致した。
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声情報を受け付ける音声情報受付ステップと、前記音声情報から第一フォルマント周波数(F1)を取得するF1取得ステップと、前記音声情報から第二フォルマント周波数(F2)を取得するF2取得ステップと、前記音声情報から第三フォルマント周波数(F3)を取得するF3取得ステップと、前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定ステップと、を実行させるためのプログラム、である。
また、上記プログラムにおける母音同定ステップは、前記F1と前記F2との関係に関する情報である第一勾配情報を算出する第一勾配情報算出ステップと、前記F2と前記F3との関係に関する情報である第二勾配情報を算出する第二勾配情報算出ステップと、前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定ステップを具備することは好適である。
また、上記プログラムにおいて、前記第一勾配情報は「F2/F1」であり、前記第二勾配情報は「F3/F2」であり、前記母音同定ステップにおいて、前記第一勾配情報が略5.8〜略10.8である場合に、前記音声情報の母音を/i/と判断し、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5である場合に、前記音声情報の母音を/a/と判断し、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略2.8〜略4.6である場合に、前記音声情報の母音を/o/と判断し、前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2である場合に、前記音声情報の母音を/u/と判断し、前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45である場合に、前記音声情報の母音を/e/と判断することは好適である。
上記プログラムにおいて、前記母音同定ステップにおいて、前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、前記母音同定サブステップは、前記第一勾配情報が略5.8〜略10.8であり、かつ前記第二勾配情報が略1.2〜略1.8でもなく、かつ前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/i/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報を異常音と判断しても良い。また、前記母音同定サブステップにおいて、前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/a/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/o/と判断しても良い。かつ、また、前記母音同定サブステップにおいて、前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2でない場合、および前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45でない場合であり、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/e/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/u/と判断することは好適である。
上記プログラムにおいて、前記母音同定ステップにおいて、前記第一勾配情報が略5.8〜略10.8ではなく、かつ、前記第一勾配情報が略1.3〜略2.2ではなく、かつ、前記第一勾配情報が略1.3〜略2.2ではなく、かつ、前記第一勾配情報が略2.4〜略4.9ではなく、かつ、前記第一勾配情報が略3.0〜略5.5ではない場合に、前記音声情報を異常音と判断することは好適である。
なお、上記プログラムは、母音同定する処理まで行うプログラムであったが、母音同定ステップで同定した母音に基づいて、何らかの処理をする処理ステップを、コンピュータにさらに実行させるプログラムでも良い、ことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、図37は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図37は、このコンピュータシステム300の概観図であり、図38は、システム300のブロック図である。
図37において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、マイク305と、スピーカー306とを含む。
図38において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置は、母音を同定できるという効果を有し、音声認識装置等として有用である。
実施の形態1における情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作について説明するフローチャート 同F1&F2平面図 同F1とF2の相関係数表を示す図 同対象者すべてを含めた場合の相関係数表を示す図 同F0&F1平面図 同F0&F1平面図 同V1&V2平面図 同V2&V3平面図 同相関係数表を示す図 同α&β平面図 同適合領域とされるα、βの値を示す図 同男性の母音の音声波形と狭帯域スペクトログラムとスペクトルを示す図 同α&β平面図 同母音同定プロセスを説明する図 同非装着状態の時の音響データを示す図 同PAPとLAPを同時装着の時の音響データを示す図 同舌切除によって構音障害を起した被験者の音声のα、βの関係図 実施の形態2における情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作について説明するフローチャート 同評価結果の出力例を示す図 実施の形態3における情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作について説明するフローチャート 同F1&F2平面図 同F0&F1平面図 同F0&F1平面図 同V1&V2平面図 同V2&V3平面図 同α&β平面図 同適合領域とされるα、βの値を示す図 同α&β平面図 同母音同定プロセスを説明する図 同舌切除によって構音障害を起した被験者の音声のα、βの関係図 同情報処理装置の概観図 同情報処理装置のブロック図
符号の説明
11 音声情報受付部
12 F1取得部
13 F2取得部
14 F3取得部
15、245 母音同定部
16 処理部
151 第一勾配情報算出手段
152 第二勾配情報算出手段
153 スペクトル情報取得手段
154、2454 母音同定手段
201 発音情報出力部
202 フォルマント周波数母音対応情報格納部
203 評価部
204 評価結果出力部

Claims (26)

  1. 音声情報を受け付ける音声情報受付部と、
    前記音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、
    前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、
    前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、
    前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定部と、
    前記母音同定部が同定した母音に基づいて処理する処理部と、を具備する情報処理装置。
  2. 前記母音同定部は、
    前記F1と前記F2との関係に関する情報である第一勾配情報を算出する第一勾配情報算出手段と、
    前記F2と前記F3との関係に関する情報である第二勾配情報を算出する第二勾配情報算出手段と、
    前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定手段を具備する請求項1記載の情報処理装置。
  3. 前記第一勾配情報は「F2/F1」であり、
    前記第二勾配情報は「F3/F2」であり、
    前記母音同定手段は、
    前記第一勾配情報が略5.8〜略10.8である場合に、前記音声情報の母音を/i/と判断し、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5である場合に、前記音声情報の母音を/a/と判断し、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略2.8〜略4.6である場合に、前記音声情報の母音を/o/と判断し、
    前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2である場合に、前記音声情報の母音を/u/と判断し、
    前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45である場合に、前記音声情報の母音を/e/と判断する請求項2記載の情報処理装置。
  4. 前記母音同定部は、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得し、
    前記スペクトル情報にも基づいて、母音を同定する請求項1から請求項3いずれか記載の情報処理装置。
  5. 前記母音同定部は、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、
    前記母音同定手段は、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/a/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/o/と判断し、
    かつ、
    前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2でない場合、および
    前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45でない場合であり、
    前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/e/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/u/と判断する請求項3記載の情報処理装置。
  6. 前記母音同定部は、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得手段をさらに具備し、
    前記母音同定手段は、
    前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を/i/と判断し、および
    前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する請求項3記載の情報処理装置。
  7. 前記所定の関係は、前記スペクトル情報が閾値以上である関係である請求項5または請求項6記載の情報処理装置。
  8. 前記母音同定部は、
    前記第一勾配情報が略5.8〜略10.8ではなく、かつ、
    前記第一勾配情報が略1.3〜略2.2ではなく、かつ、
    前記第一勾配情報が略2.4〜略4.9ではなく、かつ、
    前記第一勾配情報が略3.0〜略5.5ではない場合に、
    前記音声情報を異常音と判断する請求項1から請求項7いずれか記載の情報処理装置。
  9. 前記処理部は、
    前記母音同定部が同定した母音に基づいて、音声認識し、当該認識結果を出力する請求項1から請求項8いずれか記載の情報処理装置。
  10. 発音を促す情報である発音情報を出力する発音情報出力部と、
    第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、および第三フォルマント周波数(F3)に関する情報と、母音との対応を示すフォルマント周波数母音対応情報を格納しているフォルマント周波数母音対応情報格納部と、
    音声情報を受け付ける音声情報受付部と、
    前記音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、
    前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、
    前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、
    前記F1取得部が取得したF1、前記F2取得部が取得したF2、および前記F3取得部が取得したF3と、前記フォルマント周波数母音対応情報に基づいて、前記音声情報受付部が受け付けた音声情報を評価する評価部と、
    前記評価部における評価結果を出力する評価結果出力部と、を具備する情報処理装置。
  11. 受け付けた音声情報から第一フォルマント周波数(F1)を取得するF1取得部と、
    前記音声情報から第二フォルマント周波数(F2)を取得するF2取得部と、
    前記音声情報から第三フォルマント周波数(F3)を取得するF3取得部と、
    前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定部と、を具備する母音同定装置。
  12. コンピュータに、
    音声情報を受け付ける音声情報受付ステップと、
    前記音声情報から第一フォルマント周波数(F1)を取得するF1取得ステップと、
    前記音声情報から第二フォルマント周波数(F2)を取得するF2取得ステップと、
    前記音声情報から第三フォルマント周波数(F3)を取得するF3取得ステップと、
    前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定ステップと、を実行させるためのプログラム。
  13. 前記母音同定ステップは、
    前記F1と前記F2との関係に関する情報である第一勾配情報を算出する第一勾配情報算出サブステップと、
    前記F2と前記F3との関係に関する情報である第二勾配情報を算出する第二勾配情報算出サブステップと、
    前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定サブステップを具備する請求項12記載のプログラム。
  14. 前記第一勾配情報は「F2/F1」であり、
    前記第二勾配情報は「F3/F2」であり、
    前記母音同定サブステップにおいて、
    前記第一勾配情報が略5.8〜略10.8である場合に、前記音声情報の母音を/i/と判断し、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5である場合に、前記音声情報の母音を/a/と判断し、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略2.8〜略4.6である場合に、前記音声情報の母音を/o/と判断し、
    前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2である場合に、前記音声情報の母音を/u/と判断し、
    前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45である場合に、前記音声情報の母音を/e/と判断する請求項13記載のプログラム。
  15. 前記母音同定ステップは、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
    前記母音同定サブステップは、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/a/と判断し、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/o/と判断し、
    かつ、
    前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2でない場合、および
    前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45でない場合であり、
    前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/e/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/u/と判断する請求項14記載のプログラム。
  16. 前記母音同定ステップは、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
    前記母音同定サブステップは、
    前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を/i/と判断し、および
    前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する請求項14記載のプログラム。
  17. 前記所定の関係は、前記スペクトル情報が閾値以上である関係である請求項15または請求項16記載のプログラム。
  18. 前記母音同定ステップにおいて、
    前記第一勾配情報が略5.8〜略10.8ではなく、かつ、
    前記第一勾配情報が略1.3〜略2.2ではなく、かつ、
    前記第一勾配情報が略2.4〜略4.9ではなく、かつ、
    前記第一勾配情報が略3.0〜略5.5ではない場合に、
    前記音声情報を異常音と判断する請求項12から請求項17いずれか記載のプログラム。
  19. 音声情報の第一フォルマント周波数(F1)、前記音声情報の第二フォルマント周波数(F2)、および前記音声情報の第三フォルマント周波数(F3)に基づいて、前記音声情報の母音を同定する母音同定方法。
  20. 音声情報を受け付ける音声情報受付ステップと、
    前記音声情報から第一フォルマント周波数(F1)を取得するF1取得ステップと、
    前記音声情報から第二フォルマント周波数(F2)を取得するF2取得ステップと、
    前記音声情報から第三フォルマント周波数(F3)を取得するF3取得ステップと、
    前記F1、前記F2、および前記F3に基づいて、前記音声情報の母音を同定する母音同定ステップと、を具備する母音同定方法。
  21. 前記母音同定ステップは、
    前記F1と前記F2との関係に関する情報である第一勾配情報を算出する第一勾配情報算出サブステップと、
    前記F2と前記F3との関係に関する情報である第二勾配情報を算出する第二勾配情報算出サブステップと、
    前記第一勾配情報、および前記第二勾配情報に基づいて、前記音声情報の母音を同定する母音同定サブステップを具備する請求項20記載の母音同定方法。
  22. 前記第一勾配情報は「F2/F1」であり、
    前記第二勾配情報は「F3/F2」であり、
    前記母音同定サブステップにおいて、
    前記第一勾配情報が略5.8〜略10.8である場合に、前記音声情報の母音を/i/と判断し、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5である場合に、前記音声情報の母音を/a/と判断し、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略2.8〜略4.6である場合に、前記音声情報の母音を/o/と判断し、
    前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2である場合に、前記音声情報の母音を/u/と判断し、
    前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45である場合に、前記音声情報の母音を/e/と判断する請求項21記載の母音同定方法。
  23. 前記母音同定ステップは、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
    前記母音同定サブステップは、
    前記第一勾配情報が略1.3〜略2.2であり、かつ前記第二勾配情報が略1.5〜略2.5でもなく、かつ略2.8〜略4.6でもない場合に、前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/a/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/o/と判断し、
    かつ、
    前記第一勾配情報が略2.4〜略4.9であり、かつ前記第二勾配情報が略1.65〜略3.2でない場合、および
    前記第一勾配情報が略3.0〜略5.5であり、かつ前記第二勾配情報が略1.1〜略1.45でない場合であり、
    前記スペクトル情報が閾値と所定の関係にある場合は、前記音声情報の母音を/e/と判断し、前記スペクトル情報が閾値と所定の関係にない場合は、前記音声情報の母音を/u/と判断する請求項22記載の母音同定方法。
  24. 前記母音同定ステップは、
    前記F1と前記F2の中間領域の周波数成分の相対的強さであるスペクトル情報を取得するスペクトル情報取得サブステップをさらに具備し、
    前記母音同定サブステップは、
    前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にある場合に、前記音声情報の母音を/i/と判断し、および
    前記第一勾配情報が略5.8〜略10.8であり、かつ、前記第一勾配情報が略1.2〜略1.8ではなく、かつ、前記スペクトル情報が閾値と所定の関係にない場合に、前記音声情報を異常音と判断する請求項22記載の母音同定方法。
  25. 前記所定の関係は、前記スペクトル情報が閾値以上である関係である請求項23または請求項25記載のプログラム。
  26. 前記母音同定ステップにおいて、
    前記第一勾配情報が略5.8〜略10.8ではなく、かつ、
    前記第一勾配情報が略1.3〜略2.2ではなく、かつ、
    前記第一勾配情報が略2.4〜略4.9ではなく、かつ、
    前記第一勾配情報が略3.0〜略5.5ではない場合に、
    前記音声情報を異常音と判断する請求項20から請求項24いずれか記載の母音同定方法。

JP2005307995A 2005-10-24 2005-10-24 情報処理装置、情報処理方法、およびプログラム Pending JP2007114631A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005307995A JP2007114631A (ja) 2005-10-24 2005-10-24 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005307995A JP2007114631A (ja) 2005-10-24 2005-10-24 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2007114631A true JP2007114631A (ja) 2007-05-10

Family

ID=38096846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005307995A Pending JP2007114631A (ja) 2005-10-24 2005-10-24 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2007114631A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048173A (ja) * 2010-08-30 2012-03-08 Secom Co Ltd 悲鳴検知装置
WO2013052292A1 (en) * 2011-09-23 2013-04-11 Waveform Communications, Llc Waveform analysis of speech
CN110958859A (zh) * 2017-08-28 2020-04-03 松下知识产权经营株式会社 认知能力评估装置、认知能力评估系统、认知能力评估方法及程序

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048173A (ja) * 2010-08-30 2012-03-08 Secom Co Ltd 悲鳴検知装置
WO2013052292A1 (en) * 2011-09-23 2013-04-11 Waveform Communications, Llc Waveform analysis of speech
CN110958859A (zh) * 2017-08-28 2020-04-03 松下知识产权经营株式会社 认知能力评估装置、认知能力评估系统、认知能力评估方法及程序
US11766209B2 (en) 2017-08-28 2023-09-26 Panasonic Intellectual Property Management Co., Ltd. Cognitive function evaluation device, cognitive function evaluation system, and cognitive function evaluation method

Similar Documents

Publication Publication Date Title
Rusz et al. Guidelines for speech recording and acoustic analyses in dysarthrias of movement disorders
Gaudrain et al. Discrimination of voice pitch and vocal-tract length in cochlear implant users
Bachorowski et al. The acoustic features of human laughter
Mendoza et al. Differences in voice quality between men and women: Use of the long-term average spectrum (LTAS)
US9149202B2 (en) Device, method, and program for adjustment of hearing aid
Kozou et al. The effect of different noise types on the speech and non-speech elicited mismatch negativity
Roy et al. Exploring the clinical utility of relative fundamental frequency as an objective measure of vocal hyperfunction
Laures et al. Perceptual effects of a flattened fundamental frequency at the sentence level under different listening conditions
US11826161B2 (en) Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium
Fletcher et al. Assessing vowel centralization in dysarthria: A comparison of methods
EP3954278A1 (en) Apnea monitoring method and device
US20110178799A1 (en) Methods and systems for identifying speech sounds using multi-dimensional analysis
Chiu et al. Predicting intelligibility deficits in Parkinson's disease with perceptual speech ratings
Khan et al. Assessing Parkinson's disease severity using speech analysis in non-native speakers
WO2021035067A1 (en) Measuring language proficiency from electroencephelography data
Jacks Bite block vowel production in apraxia of speech
Vojtech et al. Surface electromyography–based recognition, synthesis, and perception of prosodic subvocal speech
JP2007114631A (ja) 情報処理装置、情報処理方法、およびプログラム
Studer-Eichenberger et al. Statistical learning, syllable processing, and speech production in healthy hearing and hearing-impaired preschool children: A mismatch negativity study
Chen et al. Audio privacy: reducing speech intelligibility while preserving environmental sounds
Müller et al. Comparison of the effects of two cochlear implant fine structure coding strategies on speech perception
Richard et al. Comparison of objective and subjective methods for evaluating speech quality and intelligibility recorded through bone conduction and in-ear microphones
JP7307507B2 (ja) 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム
McGlashan Evaluation of the Voice
Toles et al. Acoustic and physiologic correlates of vocal effort in individuals with and without primary muscle tension dysphonia