JP3112254B2

JP3112254B2 - 音声検出装置

Info

Publication number: JP3112254B2
Application number: JP09048839A
Authority: JP
Inventors: 正明原田; 伸竹内; 基文福井; 正清水
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1997-03-04
Filing date: 1997-03-04
Publication date: 2000-11-27
Anticipated expiration: 2017-03-04
Also published as: JPH10243938A; EP0863474A3; US6272466B1; EP0863474A2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声情報をコード
化してコンピュータやワープロ等の情報機器へ入力する
分野で利用される技術に関する。本発明は、特に、騒音
環境下や多数の人間が同時に話し合う会議や会話の席で
の音声情報の検出に適している。また、本技術は、聾
者、難聴者や高齢者への円滑な情報伝達を可能とするバ
リアフリーな機器を提供するための音声入力装置として
も利用される。

【０００２】

【従来の技術】機械による音声入力装置の目標は、どの
ような環境下にあっても使用者の音声を正確にしかも高
速に入力できるようにすることである。従来、音声入力
装置としては、音声の周波数分析を行うことによって、
音声を認識し処理するものが提案されてきた。しかし、
このような音声認識手法では、騒音や雑音が生じる環境
下における認識率の低下が問題であった。これを防止す
るためには、音声以外の情報から発話情報を獲得するこ
とが望ましい。専門書によって分類法は異なるが、人間
の発声に直接関与する音声器官は、図９に示すように、
気流機構である肺９０１、発声機構である喉頭９０２、
口・鼻腔作用を受け持つ口腔９０３、鼻腔９０４、調音
作用をつかさどる口唇９０５と舌９０６である。これら
の音声器官の中でも口唇９０５の視覚情報によって発話
情報を得ようとする研究は以前から聴覚障害者のための
技術として行われてきた。さらに音声情報に話者の口唇
９０５の動きの視覚的情報を加味することにより音声の
認識精度の向上が指摘されている（Ｃ．Ｂｒｅｇｌｅ
ｒ，Ｈ．Ｈｉｌｄ，Ｓ．ＭａｎｋｅａｎｄＡ．Ｗａ
ｉｂｌｅ，"Ｉｍｐｒｏｖｉｎｇｃｏｎｎｅｃｔｅｄ
ｌｅｔｔｅｒｒｅｃｏｇｎｉｔｉｏｎｂｙｌｉ
ｐｒｅａｄｉｎｇ"，Ｐｒｏｃ．ＩＥＥＥＩＣＡＳ
ＳＰ，ｐｐ．５５７−５６０，１９９３など）。

【０００３】口唇の視覚情報による発話認識手法として
はビデオカメラにより入力された画像を用いた画像処理
による手法が最も一般的である。例えば特開平６−４３
８９７号公報では話者の口唇９０５及びその周囲に取り
付けられた１０個の反射性マーカＭ０，Ｍ１，Ｍ２，Ｍ
３，Ｍ４，Ｍ５，Ｍ６，Ｍ７，Ｍ８，Ｍ９自体の画像を
ビデオカメラに取り込み、それらマーカの二次元的な動
きを検出し５つの口唇特徴ベクトルの成分１０１、１０
２、１０３、１０４、１０５を求め口唇の動きを観察し
ょうとした（図１０）。特開昭５２−１１２２０５号公
報では口唇及びその周辺に貼り付けられた黒色マーカの
位置をビデオカメラ走査線上から読み取ることにより音
声認識精度の向上を図った。この技術は、マーカの抽出
法に関して具体的な記述がなされていないが、鼻や唇に
より生ずる影や、ひげ、皮膚の色の違い、ほくろ、傷等
により生ずる濃度差とマーカとを識別する二次元画像の
前処理および特徴量抽出技術が必要となる。この問題を
解決するため特開昭６０−３７９３号公報では口唇上に
発光ダイオードなどの高輝度マーカを４つ取り付けマー
カの位置検出を容易とし、これらマーカ自体の動きをビ
デオカメラで撮影し、高速マルチポイントＸ−Ｙトラッ
カーと呼ばれる位置センサによって得られた電圧波形を
パターン認識することにより達成される口唇情報解析装
置を堤案した。しかし、この技術においても明室中で音
声を検出しようとする場合は、話者の眼鏡や金歯等によ
る高輝度の反射光成分の雑音を防止する手段が必要にな
る。このためにテレビカメラで入力された二次元画像の
前処理および特徴量抽出技術が必要となるが、特開昭６
０−３７９３号公報にはこの技術に関する記述はなされ
ていない。マーカを使用せずに口唇およびその周囲を直
接ビデオカメラに取り込み、画像処理により音声器官の
特徴量抽出を行う方式もいくつか提案されている。例え
ば特開平６−１２４８３号公報では、口唇及びそれらの
周囲の画像をカメラで取り込み、画像処理により得られ
た輪郭画像からバックプロパゲーション法によって発声
単語の推定を行っている。特開昭６２−２３９２３１号
公報では口唇画像情報を単純化するために口唇開口面積
と口唇縦横比を用いた手法を提案している。特開平３−
４０１７７号公報では不特定話者に対して認識を行うた
めに発話音と口唇の動きの相関をデータベースとして所
有する音声認識装置を考案している。しかしながらこれ
らの従来方法は、口唇及びそれら周辺の二次元画像から
得られる位置情報のみしか扱っておらず、微妙な口唇の
角度変化情報や皮膚収縮の情報を有する音素の判別には
不十分であった。また、これらの従来方法は情報量の多
い二次元画像を処理しマーカや特徴量を抽出するため高
速化に適しているとは言えなかった。

【０００４】ビデオカメラを用いる以外にもいくつかの
方法が提案されている。口唇周囲の筋電位波形から発話
情報を抽出する手法が提案されている。例えば特開平６
−１２４８３号公報では画像処理の代替手段として筋電
位波形の２値化情報を利用した装置を考案している。ま
た栗田らの（「口唇の調音動作を実現する生理学モデ
ル」，日本音響学会誌五十巻６号（１９９４），ｐｐ．
４６５−４７３）では筋電位信号から口唇形状を算出す
るモデルを考案した。しかし筋電位による発話情報抽出
は、測定用のコードが付随した電極を口唇周囲に貼り付
けねばならず話者への負担が大きいという問題がある。
また、パラトグラフ信号を得るために人工口蓋を装着す
ることにより、話者の発声に伴う舌の動きを検出し、音
声入力装置に利用する発明もいくつかなされている。例
えば特開昭５５−１２１４９９号公報では人工口蓋付随
の送信電極と舌の接触の有無を電気信号に置き換える手
段を堤案した。特開昭５７−１６０４４０号公報では人
工口蓋に付随する電極数の低減を図ることにより舌触り
をよくする工夫を行った。特開平４−２５７９００号公
報ではパラトグラフの受光信号を神経回路網（以下、ニ
ューラルネットワークという）に通すことにより不特定
話者への対応を可能とした。舌の動き以外には特開昭６
４−６２１２３号公報でブッシュロッド先端部を軟口蓋
に接触させることにより軟口蓋の振動を観察する装置が
堤案されている。しかしながら人体内部への装置取り付
けを必要とするため自然な発話行為を妨げる可能性があ
り、話者への負担も大きい。発話状態の検出装置として
は人体への接触を極力控えることが望ましい。

【０００５】マーカを貼り付けた従来技術による位置検
出の方法を特開平６−４３８９７号公報を例に示す（図
１０）。従来技術においては、マーカＭ０、Ｍ
１、．．．、Ｍ９の画像は、口唇９０５およびその周辺
部の特徴量を最も良く把握できる正面から入力してい
た。このため発話に伴うマーカの上下方向１０１、１０
２、１０４、左右方向１０３、１０５の位置移動の二次
元的な検出は可能であるが、さらに発話に伴うマーカＭ
０、Ｍ１、．．．、Ｍ９の前後方向の移動を捉えること
はできなかった（ＤａｉｖｉｄＧ．Ｓｔｏｒｋ，
ＧｒｅｇＷｏｌｆｆ，ＥａｒｌＬｅｖｉｎｅ， "
Ｎｅｕｒａｌｎｅｔｗｏｒｋｌｉｐｒｅａｄｉｎｇ
ｓｙｓｔｅｍｆｏｒｉｍｐｒｏｖｅｄｓｐｅｅ
ｃｈｒｅｃｏｇｎｉｔｉｏｎ"，ｉｎＰｒｏｃ．
ＩＪＣＮＮ，ＩＥＥＥ，Ｖｏｌ．ＩＩ１９９
２）。正面と前後方向の三次元の動きを同時に検出する
ためには、従来技術では複数台のテレビカメラを用意し
口唇等の音声器官の位置を立体的に計測する必要があっ
た。これら技術は、リアルタイム３次元座標出力技術と
して光学測定機器展等で複数のメーカーから紹介されて
いる。計測時間のサンプリングレートは６０Ｈｚであ
り、高速性を確保するため上記マーカの抽出処理が容易
なようにマーカのサイズを大きくし（直径２０ｍｍ程
度）かつ球形に設定してあり、撮影位置によらずマーカ
画像が同じ円形を示すように工夫されている。さらに各
マーカが抽出されやすいように目立つ着色が施されてい
る。しかし、このように大きなマーカは、口唇および口
唇周辺部面積の多くを覆うため口唇および口唇周辺部の
微妙な動きを高い精度で検出することには適していなか
った。これを改善するためマーカのサイズを小さくし発
話の妨げとならないよう薄いシート状にすると、上記特
開平６−４３８９７号公報等の説明で示したように、マ
ーカの検出や発声器官の特徴量を抽出するための二次元
画像処理に時間を要し、リアルタイムでの位置検出は困
難となるという問題があった。また三次元計測では、カ
メラ２台以上を同時に使用するため、画像処理が煩雑で
あり装置コストが高くサイズも大きくなるという欠点を
有していた。

【０００６】なお、以上の問題点を改善するため本発明
で提案する技術と見かけ上類似した技術として特開平７
−３０６６９２号公報が提案されている。これは口唇及
びその周辺部に光線を照射し、外皮表面からの拡散反射
光を受光器で検出し上記拡散反射光の強度変化を測定す
ることにより、発話者の音声情報を検出するものであ
る。しかし、口唇およびその周辺には、マーカ等の反射
板や本発明の正反射板は貼り付けれていない。上記反射
光の強度と口唇の位置や動きの関係は必ずしも明確では
なく、認識処理にニューラルネットワークを利用してい
る。この技術は明細書中にも述べられているように音声
の検出精度が低く、音声認識技術の補助手段として音素
を粗くカテゴリー分けする技術と説明されている。用途
の一例として状況が限定され会話が予想されるゲームが
特開平８−１８７３６８号公報に示されている。これに
対し、本発明は発声器官およびその周辺部の外皮部分に
正反射板を貼り付けることにより測定場所を特定し、特
定部分の位置・角度変動を正反射を用い幾何光学的に正
確に求める技術であり、特開平７−３０６６９２号公報
とは全く異なる発明である。

【０００７】

【発明が解決しようとする課題】本発明は、従来技術と
比べ利用者への負担が少なく音声の検出率を向上させる
こと、およびリアルタイムの音声検出を可能とすること
を課題とする。従来の画像を用いた音声検出技術は、テ
レビカメラ等で口唇周辺部の二次元画像を取り込み発音
時の特徴量を抽出することにより音声を検出していた。
具体的には、口唇周辺部の入力画像に対して、前処理、
特徴量抽出、分類記述を行い標準パターンとの最適マッ
チングにより音声を検出しいている。前処理技術には、
雑音除去、濃度変換、歪補正、正規化等があり、特徴量
抽出技術は、線抽出技術、領域抽出技術、テクスチャア
抽出技術等に分類される。線抽出は、入力画像の微分操
作や二次微分操作により輪郭を明確にし二値化処理を行
う。このようにして抽出した線に欠損個所がある場合に
は、上記欠損個所を修正するための曲線当てはめ技術を
利用する。領域抽出技術には、濃度ヒストグラムやカラ
ー画像の色差等が利用される。テクスチャアの抽出に
は、二次元フーリエ変換により得られる画像の周期的な
微細構造の特徴量が用いられる。分類記述技術には、抽
出領域や抽出線に対して、各音声を分類し得る特徴ベク
トルを定義し、上記特徴ベクトルにより形成される特徴
空間において標準パターンと統計的に最良マッチングす
る音声を選択する技術があげられる。また、特徴パター
ンの構造面に着目し構文的パターン認識を行う分類記述
技術や近年では構造決定、音素検出のためにニューラル
ネットワークを適用する方法が提案されている。これら
の技術は、上述のように極めて煩雑であり、特に前処理
や特徴量抽出においては、二次元画像に対する処理に時
間がかかりリアルタイムでの音声検出には不適切という
欠点があった。また口唇の開閉量が少ない小声等での発
話の際には、口唇や口唇に配置したマーカの移動量が小
さく精度の良い位置検出ができないことが問題であっ
た。

【０００８】一方、発話器官の状態・位置を直接計測す
る技術では、対象部位の測定精度は高いが利用者への負
担が極めて大きく、たとえ高精度に特定の調音器官の状
態を計測しても調音器官の総合的な動きにより生ずる音
声を検出するには至っていなかった。

【０００９】本発明は、これらの課題を解決することを
狙いとしている。

【００１０】

【課題を解決するための手段】本発明によれば、上述の
課題を解決するために、話者の発声に伴い変化する音声
器官およびその周辺の外皮において、上記外皮表面の角
度及び角度の時間的変化の一方又は双方から特徴量を抽
出し音声を検出するようにしている。もちろん上記外皮
表面の角度に加えて上記外皮の位置から上記特徴量が決
定されてもよい。

【００１１】この構成においては、発話の状態に応じて
変化する音声器官やその周辺の外皮の表面角度を利用し
て音声を検出するので騒音等があっても確実に音声の検
出を行える。光線の照射及び正反射を利用すれば、外皮
表面の角度を確実かつ迅速に検出することができる。

【００１２】また、本発明によれば、上述の課題を解決
するために、音声検出装置に、話者の発声に伴い移動す
る正反射光スポットを受光する位置検出センサと、上記
正反射光スポットの座標位置を算出する出力座標演算部
と、上記座標位置または上記座標位置の時間的変化の情
報より特徴量を抽出する特徴量抽出部と、あらかじめ上
記正反射光スポットの座標位置または上記座標位置の時
間的変化より得られる特徴量の標準パターンを記憶させ
た標準パターン記憶部と、上記特徴量抽出部からの信号
と上記標準パターン記憶部に記憶された上記特徴量の標
準パターンとを比較する比較部とを設けている。

【００１３】この構成においては、正反射スポットの座
標位置を検出して確実かつ迅速に音声に応じた特徴量を
抽出でき、この特徴量に基づき音声を検出することがで
きる。

【００１４】また、上記特徴量抽出部において上記正反
射光スポットの座標位置の時間的変化から停留点を検出
し、上記停留点より上記特徴量を抽出するようにしても
よい。

【００１５】また、可視光、赤外光、または紫外光の光
線を発生し上記話者の音声器官及びその周辺の外皮部に
照射させる光源部と、上記話者の音声器官及びその周辺
の外皮に取り付けられ上記光線を正反射する正反射板と
により、上記正反射スポット光を形成するようにしても
よい。

【００１６】また、上記位置検出センサと上記光源部と
が一体として構成され、上記話者の頭部に装着されるよ
うにしてもよい。

【００１７】また、上記話者の音声器官及びその周辺の
外皮部に上記正反射板を複数個取り付け、各正反射板か
ら正反射される各々の正反射光スポットを識別する識別
手段を設け、識別された個々の正反射光スポットから算
出された個々の座標位置相互の関係から特徴量を抽出す
るようにしてもよい。

【００１８】また、上記複数個の正反射板からの複数の
正反射光スポットを分離して検出するため複数個の位置
検出センサを用いるようにしてもよい。

【００１９】また、上記複数個の正反射板を照射する光
源部が複数の光源から成り、各光源が組み分けされた上
記正反射板の各々の組を分担して照射するようにしても
よい。

【００２０】また、上記話者の音声器官及びその周辺の
外皮の正中部に取り付けられた上記正反射板によって正
反射された上記正反射光スポットを受光する上記位置検
出センサが、１次元の位置検出センサであるようにして
もよい。

【００２１】また、上記話者の音声器官及びその周辺の
外皮の正中部から外れた位置に取り付けられた上記正反
射板によって正反射された上記正反射光スポットを受光
する上記位置検出センサが、２次元の位置検出センサで
あるようにしてもよい。

【００２２】また、上記光源部が、異なった分光特性を
有する複数の光源から構成されるようにしてもよい。

【００２３】また、上記光源部の上記複数の光源が順次
点滅作動するようにスイッチング回路を具備するように
してもよい。

【００２４】また、上記複数の正反射板が複数の異なっ
た分光反射特性を有するようにしてもよい。

【００２５】また、２次元の位置検出センサとして、ス
クリーンと２次元ＣＣＤカメラとを一対として配置し上
記スクリーン上に投影された上記正反射光スポットの撮
影が可能な構成とし上記正反射光スポットの位置をＣＣ
Ｄセンサ出力より算出するようにしてもよい。

【００２６】また、上記話者の音声器官及びその周辺の
外皮に取り付ける上記正反射板の取り付け位置が、上記
話者の舌骨上部、顎下三角、頚動脈三角、頚正中部の少
なくとも１つに含まれるようにしてもよい。

【００２７】また、上記話者の音声器官及びその周辺の
外皮に取り付ける上記正反射板の取り付け位置が、上記
話者の口唇正中部内周上部および口唇正中部内周下部で
あるようにしてもよい。この場合、一次元の検出センサ
で検出を行ってもよいし、二次元の位置検出センサで検
出を行ってもよい。

【００２８】また、上記話者の音声器官及びその周辺の
外皮に取り付ける上記正反射板の取り付け位置が、特に
話者の口唇正中外周上部および口唇正中部外周下部であ
るようにしてもよい。この場合も、一次元の検出センサ
で検出を行ってもよいし、二次元の位置検出センサで検
出を行ってもよい。

【００２９】

【発明の実施の態様】以下、上記課題を解決するため本
技術で採用した手段を、主に図１を参照して詳細に説明
する。まず、利用者の負担軽減のため本発明では、生体
の直接計測を避け非接触計測法を採用した。また、リア
ルタイムでの検出を可能とするため本発明では、ＴＶカ
メラ等の手段により入力された、二次元画像を利用する
場合は、画像情報を二次元情報のまま前処理し特徴量抽
出後に位置信号を算出する方式は採用せず、画像信号か
らの情報を簡易な前処理で直接座標信号へ変換する方式
を採用した。これにより前処理に用いられる情報量が大
幅に削減されリアルタイムでの音声検出が可能となっ
た。また、ＴＶカメラ等の二次元画像を利用せずに発声
器官の変位情報を座標信号へ直接変換する方法として、
単純な光電的位置計測法を採用した。これらの方法には
後述するよう、正反射板１２の利用が極めて有効であっ
た。

【００３０】さらに音声の検出精度を高めるため、従来
技術のマーカと異なり本発明においては正反射板を採用
し生体発声器官の微少な角度変化と位置変化の計測を幾
何光学に基づく技術により可能とすることで発声器官形
状の検出精度を向上させた。

【００３１】本発明は、具体的には、発話者１５の音声
器官及びその周辺に取り付けられた正反射板１２と、上
記正反射板１２へ光線１３（可視光の他、赤外線、紫外
線であっても可）を照射する光源部１０と、上記正反射
板１２により正反射された光線１４により形成される正
反射光スポット６９、７０を受光し、上記正反射光スポ
ット投影位置を検出する位置検出センサ１６を含む位置
検出部２３とから実現される。このような構成により、
発話者１５の発声に伴ない、音声器官及びその周辺の外
皮に取り付けられた上記正反射板１２の位置及び角度が
変動する。そして、この結果、上記光源部１０から照射
された光線１３は反射の法則に従い一意的に上記正反射
板１２により反射され、光線の方向が変動することにな
る。上記位置検出センサ１６の面上を移動する上記正反
射光スポット６９、７０を上記位置検出センサ１６が受
光することにより、発話者１５の発声に伴い生ずる発声
器官及びその周辺部の形状に対応する上記正反射光スポ
ットの位置が検出される。検出された正反射光スポット
位置に関し、その座標表示された情報から時間的変化及
び位置変化の特徴量が抽出される。上記特徴量とあらか
じめ記憶されていた各音声信号ごとの時間的変化及び位
置変化の特徴量を示す標準パターンとを比較し検定する
ことにより、入力された音声の分類が行われる。本技術
では上記正反射光スポットのみが抽出されるため、従来
技術のように人体の口唇周辺部や周囲の構造物および背
景等の画像がマーカと一緒にセンサ上に結像されること
がまったくなく、パターン認識に時間がかからず上記正
反射光スポットの座標位置を検出できるという極めて優
れた長所を有する。

【００３２】本発明において発話器官の変動を精密に検
出するための検出技術の作用を説明する。以降におけ
る、正反射板１２の貼り付け位置の説明を容易とするた
め、人体の音声器官及びその周辺の外皮部分の名称を図
１２に示す。図１２は解剖学の資料を参考に本発明に必
要な部位の名称を説明するため新たに描き出したもので
ある。図中に番号が示された破線で囲まれた部分は、顔
面および頚部の医学用語に対応し順に鼻部１２１、口部
１２２、オトガイ部１２３、眼窩下部１２４、頬部１２
５、頬骨部１２６、耳下腺交筋部１２７、舌骨上部１２
８、顎下三角１２９、下顎後窩１３０、頚動脈三角１３
１、頚正中部１３２、胸鎖乳突筋部１３３、外側頚三角
部１３４と呼ばれる。また、人体左右の中心である正中
面１１１及び正中(線)１１２の関係を図１１に示す。さ
て、音声検出のために発話時の音声器官の動きによって
生ずる生体表面の微妙な空間的変化を捉える方法を説明
する。正反射板１２は、例えば、図５に示す取り付け位
置、a１（５１）、ａ２（５２）、ｂ１（５３）、b２
（５４）、c１（５５）、ｃ２（５６）、d（５７）およ
びe（５８）に配置する。正反射板１２は話者の口部１
２２の外皮表面に粘着テープ等の貼り付け手段により接
着する。配置された正反射板１２は、話者の発話による
皮膚の動きにより微妙に移動回転する。

【００３３】この動きを捕らえるために、話者の皮膚に
配置した上記正反射板１２の取り付け位置a１（５
１）、ａ２（５２）、ｂ１（５３）、b２（５４）、c１
（５５）、ｃ２（５６）、d（５７）、e（５８）の内の
一つに着目し、図６に示すように、この正反射板を６７
とする（話者は図示せず）。上記正反射板６７を指向性
を持たせた光線６６で照明する。この光線６６の方向
を、単位ベクトルe^*=（ex,ey,ez）で表わす（＊はベク
トルを表す。以下同様）。光線６６は図示しないコリメ
ータレンズ等の光学手段により得られる平行光線束であ
ってもよいし、発光点の位置が定められた図示しない点
光源等の発散光線束であってもよい。また、図示しない
レンズ、球面鏡等により定められた点に収束する収束光
線束であってもよい。

【００３４】上記正反射板６７の位置座標をP(xｐ,yｐ,
zｐ)とする。また上記正反射板６７の法線方向を単位ベ
クトルs^*=(sx,sy,sz)で表わすことにする。上記正反射
板６７に入射した光線６６は、上記正反射板６７により
正反射され、受光位置であるｘ−ｙ平面のＱ点に正反射
光スッポット６９が到達する。この際反射光６８の方向
を単位ベクトルr^*=(rx,ry,rz)で表わすと、単位ベクト
ルの各成分は、以下のようである。

【００３５】

【数１】ｒｘ＝ｅｘ−２ｓｘ（ｅ^*・ｓ^*）（１）ｒｙ＝ｅｙ−２ｓｙ（ｅ^*・ｓ^*）（２）ｒｚ＝ｅｚ−２ｓｚ（ｅ^*・ｓ^*）（３）反射光線６８の方程式は次式で与えられる。

【００３６】

【数２】（ｘ−ｘｐ）／ｒｘ＝（ｙ−ｙｐ）／ｒｙ＝（ｚ−ｚｐ）／ｒｚ (４) この方程式と受光面（ｘ−ｙ平面）との交点であるＱ点
の座標(x,y,z)は下式のようになる。

【００３７】

【数３】ｘ＝（ｒｘ／ｒｚ）・（ｚ−ｚｐ）＋ｘｐ（５）ｙ＝（ｒｙ／ｒｚ）・（ｚ−ｚｐ）＋ｙｐ（６）（１）（２）（３）式と（５）（６）式よりｘとｙは、
次式のようになる。

【００３８】

【数４】ｘ＝（（ｅｘ−２ｓｘ（ｅ^*・ｓ^*））／（ｅｚ−２ｓｚ（ｅ^*・ｓ^*））・（ｚ−ｚｐ）＋ｘｐ（７）ｙ＝（（ｅｙ−２ｓｙ（ｅ^*・ｓ^*））／（ｅｚ−２ｓｚ（ｅ^*・ｓ^*））・（ｚ−ｚｐ）＋ｙｐ（８）ｘとｙは、Ｐ点とベクトルｓ^*の関数であることが分か
る。言い換えると上記正反射板６７の位置Ｐ点と上記正
反射板６７の方向余弦s^*の情報が含まれた指標がＱ点の
座標となる。Ｑ点を計測することにより音声器官の位置
と角度の含まれた情報が定量化されたことになる。これ
によって、上記正反射板６７自体の位置変動成分（ｘ
ｐ,ｙｐ）が少ない発話においても（ｚ−ｚｐ）成分が
あれば、口唇の微妙な角度変化により上記正反射光スポ
ット６９の位置は大きく変化する。つまり口唇の変化が
増幅して捉えられるため、音声の検出精度を飛躍的に向
上させることが可能となる。これが本発明の第1の作用
である。

【００３９】この効果を示すため口唇部に上記正反射板
を取り付けた場合の上記正反射光スポットの発話時の移
動量と同時にマーカを取り付けた場合の上記マーカの位
置の移動量を計測した結果を図７、図８に示す。図中の
移動量とは、上記正反射光スポットまたは上記マーカの
発話前の口唇を閉じた位置から、上記正反射光スポット
または上記マーカが発話時に動いた縦方向の最大の移動
量を示す。この時の上記正反射板および上記マーカの配
置位置は、図５に示される口唇正中部外周上部a１（５
１）、口唇正中部外周下部a2（５２）、口角部横d（５
７）の位置とした。また発声した音素は、／a／、／m
／、／i／、／u／とし、1音づつゆっくり発音した。上
記マーカ位置の移動量は、スケールと共に撮影した口唇
画像をビデオデッキで再生しテレビ画面上の移動量を実
寸法に換算して求めた。上記正反射光スポット移動量の
計測は、図１の装置における上記位置検出センサ１６上
の寸法から求めた。正反射光スポットの移動量が上記位
置検出センサ１６の長さを超える場合には、目視により
スケールを用いてその移動量を測定した。口唇の上記マ
ーカ位置の移動量を示す図７と上記正反射板による上記
正反射光スポット位置の変化を示す図８を比較すると、
図７の上記マーカ位置の変化はその大半が口唇正中部外
周下部a２（５２）、の位置移動によるものであり、口
唇正中部外周上部a１（５１）や口角部横d（５７）の移
動によるものは少なく高々３ｍｍ程度である。これに対
して図８の上記正反射光スポット位置の変化では、口唇
正中部外周下部ａ2（５２）での移動量のみならず口唇
正中部外周上部a１（５１）や口角部横d（５７）での移
動量も大きく、少なくとも１００ｍｍ程度にまで達して
いる。このことは、／ｍ／、／ｕ／の口角部横の移動量
に見られるように、各正反射板の貼り付け箇所によら
ず、それぞれの箇所の動きを万遍なく検出でき音声の特
徴量を抽出する優れた技術であることを示す。本発明の
作用により従来技術では検出できなかった音声器官の微
妙な動きの検出が可能となった。

【００４０】第二の作用は、上記のように精度良く検出
した音声器官及びその周辺の外皮部の微妙な位置・角度
変位から話者が発声した音声の特徴量を抽出し、これと
あらかじめ記憶させておいた標準の音声パターンの特徴
量とを比較検定することにより、話者の発声した音声を
検出し、コード化された信号として出力することであ
る。この際検出する音声は、音素または拍レベルとしそ
の数は数十から百程度である。したがって標準音声の種
類もこの数となる。（拍とは発音の単位であり、日本語
の場合「あ」、「い」、「う」、「え」、「お」、
「か」、「き」、「く」、「け」、
「こ」、．．．．．．．「ん」等の五十音に濁音、半濁
音、拗音を加えたもので百余種類あり、その多くは一組
の子音と母音からなる。）なお、本発明において、「停留点」とは、正反射光スポ
ットが一定速度以下である座標をいう。その場合の一定
速度とは、正反射光スポットの通常の速度より遅い速度
または速度ゼロ（停止している場合）をいう。

【００４１】

【実施例】以下、実施例に即して本発明をより詳細に説
明する。

【００４２】［実施例１］発話時の音声器官及びその周
辺の外皮の動きを精密に定量化することが、正確な音声
の検出に欠かせない。本発明ではこれを実現するため
に、基本構成として正反射板１２、光源部１０、位置検
出部２３、音声検出部２８を採用している。（図１、図
２参照）以下、順を追ってそれらを説明する。

【００４３】本発明において検出対象となりうる音声器
官及びその周辺部の外皮部分は、非接触計測を狙いとす
るため、通常の生活環境で人体が外気に触れている顔面
および頚部とする。実施例１〜４において採用した計測
部位は、この中でも図５と図１２に示すように。口部１
２２の口唇正中部外周上部ａ１（５１）、外周下部ａ２
（５２）と口唇正中部内周上部ｂ１（５３）、内周下部
ｂ２（５４）及び口角部横ｄ（５７）、舌骨上部１２８
顎下三角１２９と頚動脈三角1３１および頚正中部１３
２とが交わる付近の点ｅ（５８）とし、各点に上記正反
射板１２を両面粘着テープで貼り付けた。上記正反射板
１２は塗銀されたマイラーをプラスチックシートに貼り
付けて作製した。この正反射板１２は光線を正反射させ
るものであり、実験では光線の減衰を防ぐため鏡面で反
射率が高い１〜５ｍｍ角の正方形のものを採用した。反
射率は、計測の結果８３％であった。しかし、通常の職
場環境などでは人体に貼り付けて使用されることを考え
ると上記正反射板１２は目立ちにくい透明な材料で製作
されていることが望ましい。透明部材であっても反射表
面が鏡面のように平滑であれば光線は正反射する。その
反射率はフレネルの式に従い透明部材の屈折率が１．４
であれば通常の入射角度においては反射率が２．８％程
度となる。この程度の反射率であっても正反射光の検出
は可能である。上記正反射板１２を目立たなくするのと
は逆にアクセサリー的な用途も持たせて上記正反射板１
２にファッション性を有する彩色やデザインの付与も可
能である。また、形状も正方形のほか、長方形、台形、
円形、楕円形、三角形、六角形、星型など入射光線を正
反射しうる平面を有する形状であればよい。本発明で用
いる正反射板１２とは光線を正反射させうる平滑な面を
有する反射板のことを指す、正反射光を検出できれれば
形状は問わず、反射率は上記のように低くても良い。一
方、従来技術に用いられるマーカ（Ｍ０〜Ｍ９）は、マ
ーカ自体を撮影し画像処理により上記マーカの位置情報
を検出するため上記マーカ材料表面の拡散反射成分を利
用している。このため拡散反射成分を大きくとり、さら
に口唇や肌の色とのコントラストが大きい濃度や色彩を
上記マーカに付与しており、本技術で用いられる正反射
成分の多い鏡面反射板や口唇や肌の色とのコントラスト
が小さい透明板は、従来技術のマーカには利用できな
い。また上記のファッション性を持たせた正反射板は、
比較的大きな拡散反射成分を有するが、花や幾何学模様
など細かく複雑なデザインで多彩な色使いが施されてい
るため、画像処理による位置検出が極めて困難であり、
やはり従来技術のマーカ（Ｍ０〜Ｍ９）には不向きであ
る。

【００４４】上記正反射板１２を口唇正中部の内周上部
ｂ１（５３）、内周下部ｂ２（５４）に貼り付けた場合
の発話者１５の音声器官の変位を検出するため、上記正
反射板に光線１３を照射する光源部１０および、その正
反射光スポット６９、７０を受光し受光位置を検出する
位置検出センサ１６を図１のように構成する。照明手段
として光源部１０は、１２Ｖ５０Ｗのレフ型ハロゲンラ
ンプからの光を光ファイバーライトガイド１１の一端か
ら入射させ上記光ファイバーライトガイド１１を経由さ
せて他端より射出する光ファイバー照明装置を使用し
た。上記光ファイバーライトガイド１１から射出する光
線１３は、凸レンズ２０によりその収束の度合いを調節
できる構造とした。赤外線成分が多いハロゲンランプか
らの光線を顔面に向けて照射するため、赤外線が長時間
網膜に照射することにより発生する目の障害を防止する
ため、赤外線吸収フィルター２１（ＨＡ−３０：ＨＯＹ
Ａ(株)製）をレンズ２０の前面に挿入した。上記光ファ
イバー照明装置からなる光源部１０を話者１５の前面に
固定し、光線１３を口唇正中の内周上部ｂ１（５３）、
内周下部ｂ２（５４）に取り付けた上記正反射板１２に
向けて照射する。上記正反射板１２は、この光線１３を
正反射し話者１５の前面下方に配置した位置検出センサ
１６の受光面２２上に正反射光スポット６９、７０とし
て投影される。上記正反射光スポット６９、７０は、口
唇正中部に貼り付けられた上記正反射板１２からの正反
射によるものであるため、上記投影光は、人体正面の中
心線から大きく左右に振れることはなく、その軌跡は人
体の正中面１１１と位置検出センサ１６の受光面２２と
が交わる直線上に概略投影される。このため上記位置検
出センサ１６には、一次元の受光センサが利用できる。
本実施例では受光範囲の長さが５１２mmと長いため受光
ダイオード３３を複数個、発話者１５の正中面前方に直
線的に配列することにより位置検出センサ１６を形成し
た。センサとしては一次元方向の光線の受光位置を特定
できるものであれば、一次元ＣＣＤセンサの利用でも、
ＰＤＳと呼ばれる受光位置により左右電極に発生する電
位の差から受光位置の座標を検出する、位置検出センサ
の利用でも、また他の受光素子の使用も可能である。本
実施例１で用いた位置検出センサ１６は、個々の受光ダ
イオード素子３３を個別に固定する４ｍｍ間隔ピッチの
小さな長方形セル３４（４×５０ｍｍ）の集合からなる
ケースに実装したものである（図３参照）。また、上記
位置検出センサ１６は、合計１２８個の受光ダイオード
３３を配置したものであり全長５１２×５０ｍｍの細長
い長方形をしている。形状は、図３に示すような長方形
でなくても、人体の正中面１１１上に配列できる形状で
あれば、曲面で形成されていてもよい。受光ダイオード
３３が取り付けられる小さなセル３４に幅５０ｍｍを持
たせているのは、上記正反射光１４による正反射光スポ
ット位置が人体の正中面上と位置センサー面とが交わる
直線から、多少外れても上記正反射光スポット６９、７
０を検出できるためである。実験においては、頭部固定
用の棒１８に話者の頭を軽く押し当てることで上記正反
射光スポット６９、７０が、正中面１１１から外れる度
合いは±５〜１５ｍｍ程に収まっていた。上記長方形セ
ル３４の内面は拡散性の白色塗料で塗装されており、そ
の中に入射した光は、拡散され128個の受光ダイオード
３３のいずれかで検出される構造となっている。上記位
置検出センサ１６は、入射した光によるいずれかの受光
ダイオード３３からの電位と図４で示すセンサ・スイッ
チング回路１７のシフトレジスタ４１からのタイミング
情報によって上記正反射光スポット６９、７０の位置を
判別する。座標位置をより確実に判別するため、上記セ
ンサ・スイッチング回路１７からの出力は、さらに出力
座標演算部１９に入力される。上記出力座標演算部１９
では、最大出力を示す受光ダイオード３３の位置を座標
として判定する方式、または出力電圧の分布から重心を
演算し、重心に当たる受光ダイオード３３の位置を座標
として判定する方式を採用した。ここでのシフトレジス
タ４１のスイッチング周波数は４０ＫＨｚであり、上記
正反射光スポットの位置信号を取り込み３１２．５Ｈｚ
のインターバル（３．２ｍｓｅｃの検出周期）で上記正
反射光スポット６９、７０の受光部位置を検出できる。
上記のように上記位置検出センサ１６、上記センサ・ス
イッチング回路１７、上記出力座標演算部１９により構
成される上記位置検出部２３により口唇正中部の内周上
下部に取り付けた上記正反射板ｂ１（５３）、ｂ２（５
４）の正反射光スポットの動きを、リアルタイムで捕ら
えることが可能となる。また、発声時に音声が出ている
時間は、音素の種類や話者により、また話者の状態によ
り大きく異なるが、村上らの測定によると、約１０〜１
００ｍｓｅｃの間にあることが示されており、母音は長
く子音は短い傾向にある（「自由発話音声における音響
的な特徴の検討」電子情報通信学会論文誌Vol.J78-D-Ｉ
Ｉ，No.12 pp.1741-1749 1995年12月）。通常のビデオ
レート１／３０ｓｅｃまたは１／６０ｓｅｃにおいては
録画のインターバルは、１６．６ｍｓｅｃか３３．３ｍ
ｓｅｃであり、音素の発声時間内に画像を捕らえられな
い可能性も高い。しかし、本発明の位置検出部２３を用
いれば、声が出ている時間内で音声器官の形状検出が可
能となる。これにより上記口唇正中部の内周上部ｂ１
（５３）からの正反射光スポット７０の位置と上記口唇
正中部の内周下部ｂ２（５４）からの正反射光スポット
６９の位置の関係を求めることができる。

【００４５】次に、ｂ１（５３）およびｂ２（５４）の
位置などに貼り付けられた２つの正反射板からの正反射
光スポット６９、７０を、リアルタイムで同時に検出す
る４つの手段を示す。

【００４６】第一の手段は、それぞれの上記正反射光ス
ポット６９、７０を独立して測定できる位置に各々位置
検出センサ２０１、２０２を２つ配置する方法である
（図２０参照）。２つの正反射板１２を口唇の上部と下
部に正中線１１２からそれぞれ左と右に多少ずらせた位
置に配置することにより各反射光スポット６９、７０を
別々に位置検出センサ２０１と２０２に投影させてい
る。この場合の位置検出部２３のブロック図を図２１に
示す。上記位置検出センサ２０１から出力される上記正
反射光スポット６９の位置情報は、上記センサ・スイッ
チング回路１７中の上記シフトレジスタ４１からのタイ
ミング情報に含まれている。同様に位置検出センサ２０
２から出力される上記正反射光スポット７０の位置情報
も他のセンサ・スイッチング回路１７中のシフトレジス
タ４１からのタイミング情報に含まれている。これら2
つの位置情報は、チャンネル切り替え部２０３において
交互に出力座標演算部１９に送られる。上記位置検出セ
ンサ２０１と２０２に投影される位置情報は、出力座標
演算部19で決定され音声検出部28の特徴量抽出部２５へ
出力される。図示しないが本技術においては、チャンネ
ル切り替え部２０３を通さずに位置検出センサ２０１と
２０２の信号を直接２つの出力座標演算部１９に並列に
出力し処理を行っても構わない。この第一の手段では、
２つの位置検出センサと正反射板を２枚使用したが、よ
り多くの位置検出を行うために２つ以上の位置検出セン
サと2枚以上の正反射板を使用することも可能であり本
技術に含まれる。

【００４７】第二の手段は、位置検出センサ１６を1つ
だけ用い光源部１０に2つの光源２２０、２２１を使用
する。２つの正反射板１２は、口唇の上部と下部にそれ
ぞれ配置される。この各正反射板１２へ照射するそれぞ
れの光源２２０、２２１は、図２２のように配置する。
光源２２０の点灯時には、対応する口唇下部に配置され
た正反射板１２の正反射光スポット６９が上記位置検出
センサ１６に入射し、かつもう一方の口唇上部に配置さ
れた正反射板１２の正反射光スポット２２２が上記位置
検出センサ１６に入射しない位置に投影するように、光
源２２０とそれに対応する口唇下部に配置された正反射
板１２を配置する。また、光源２２１点灯時には、対応
する口唇上部に配置された正反射板１２の正反射光スポ
ット７０が上記位置検出センサ１６に入射し、かつ他方
の口唇下部に配置された正反射板１２の正反射光スポッ
ト２２３が上記位置検出センサ１６に入射しない位置
に、光源２２１と対応する口唇上部に配置された正反射
板１２を配置する。各正反射板１２は、正中線１１２か
らそれぞれ左と右に多少ずらせた位置に配置することに
より、異なる光源２２０と２２１によって照射された各
反射光スポット６９、７０の位置を1つの位置検出セン
サ１６面上に投影させている。個々の正反射光スポット
６９、７０を独立に検出するため光源２２０、２２１
は、交互に点滅するように光源スイッチング回路２２４
により切り替えられている。この光源の点滅と同期する
ようチャンネル切り替え部２０３へ光源スイッチング回
路２２４から同期信号を送ることによりどちらの正反射
光スポット６９、７０の位置信号かを識別する。（図２
３参照）この第二の手段では、２組みの光源と正反射板
を使用した技術であるが、より多くの点の位置検出のた
め2組以上の光源と正反射板を利用することも可能であ
り、本技術に含まれる。

【００４８】第三の手段は、分光特性の異なる2種類の
正反射板２４１と２４２を利用する。正反射板２４１と
２４２の分光反射特性は、両者の分光反射成分が実用上
重なり合わない程度に分離したものとする（図２４参
照）。正反射板２４１は、中心波長６００ｎｍのバンド
パスフィルターをアルミマイラー製の正反射板表面に貼
り付けたものであり、正反射板２４２は、同様に中心波
長４７０ｎｍのバンドパスフィルターをアルミマイラー
製の正反射板表面に貼り付けたものである。位置検出セ
ンサ２５１は、上記正反射板の分光特性とそれぞれ対応
した２種類の分光特性を有するよう、各正反射板と同等
の分光透過率を有するフィルターを受光センサ表面にそ
れぞれ貼り付け、近接して配置した受光センサ２５２と
受光センサ２５３とにより構成されている。（図２５参
照）。光源は、１つの光源部１０よりなり、上記光源部
１０の分光特性は上記正反射板２４１と２４２両者の分
光反射特性範囲を含むものとする。上記正反射板２４
１、２４２と上記受光センサ２５２、２５３および上記
光源部１０の分光特性の一例を図２４に示す。分光特性
は、上記の値に限らず、赤外領域であっても紫外領域で
あってもよい。本構成によれば正反射板２４１の正反射
光は受光センサ２５２と同じ波長範囲に収まっているた
め上記受光センサ２５２で検出できるが、受光センサ２
５３とは異なる波長範囲であるため上記受光センサ２５
３で検出しないように上記受光センサ２５３の出力電圧
に適切な閾値を設けることが可能である。同様に正反射
板２４２の正反射光は受光センサ２５３と同じ波長範囲
に収まっているため上記受光センサ２５３で検出できる
が、受光センサ２５２とは異なる波長範囲であるため上
記受光センサ２５２の出力電圧に適切な閾値を設けるこ
とにより検出しないことが可能である。このようにして
各反射光スポット６９、７０の位置を分離して検出する
ことができる。各正反射板２４１と２４２は、正中線１
１２の近傍位置に配置することにより各反射光スポット
６９、７０を上記位置検出センサ２５１上に同時に投影
するように配置している。この場合の位置検出部２３の
ブロック図を図２６に示す。受光センサ２５２から出力
される正反射光スポット６９の位置情報は、センサ・ス
イッチング回路１７中のシフトレジスタ４１(図４)から
のタイミング情報に含まれている。同様に受光センサ２
５３から出力される正反射光スポット７０の位置情報も
別のセンサ・スイッチング回路１７中のシフトレジスタ
４１からのタイミング情報に含まれている。これら2つ
の位置情報は、チャンネル切り替え部２０３において交
互に出力座標演算部１９に送られる。位置検出センサ２
５１の受光センサ２５２と受光センサ２５３に投影され
た、各正反射光スポットの位置情報は、出力座標演算部
19で決定され音声検出部28の特徴量抽出部２５へ出力さ
れる。図示しないが本技術においては、チャンネル切り
替え部２０３を通さずに位置検出センサ２５１の各々の
受光センサ２５２と２５３の信号を直接２つの出力座標
演算部１９に並列に出力し処理を行っても構わない。こ
の第三の手段では、2種類の正反射板２４１、２４２と2
種類の受光センサ２５２、２５３を使用したが、分光特
性が対応した正反射板と受光センサの組みを2組み以上
使用することも可能であり、本技術に含まれる。

【００４９】第四の手段は、位置検出センサ１６を1つ
だけ使用し、光源と正反射板は、それぞれ分光反射特性
が異なる2種類のものを使用する。光源部１０は、それ
ぞれ分光特性の異なる２つの光源２７１と２７２を使用
した。２つの正反射板は、第三の手段で用いたものと同
じ正反射板２４１と２４２を使用した(図２７参照)。上
記光源２７１、２７２および各正反射板２４１、２４２
は、図２８のように配置する。上記光源２７１は、６０
５ｎｍの赤色発光ダイオードを使用し、上記光源２７２
には、４７０ｎｍの緑色発光ダイオードを使用した。こ
れに対応する上記正反射板２４１の中心波長は６００ｎ
ｍであり、上記正反射板２４２の中心波長は４７０ｎｍ
である。異なる上記光源２７１と２７２によって照射さ
れた各反射光スポット６９、７０の位置は、1つの位置
検出センサ１６面上に投影されている。上記位置検出セ
ンサ１６は、上記光源２７１と２７２の分光特性および
上記正反射板２４１と２４２両者の分光反射特性の範囲
を含むものとする。上記正反射板２４１、２４２と上記
光源２７１、２７２および上記位置検出センサ１６の分
光特性の一例を図２７に示す。分光特性は、赤外領域で
あっても紫外領域であってもよくこの値に限らない。本
構成によれば上記正反射板２４１の正反射光は上記光源
２７１と同じ波長範囲で重なっているため上記位置検出
センサ１６で検出できるが、上記光源２７２とは異なる
波長範囲であるため上記位置検出センサ１６で検出しな
いように上記位置検出センサ１６の出力電圧に適切な閾
値を設けることが可能である。同様に上記正反射板２４
２の正反射光は上記光源２７２と同じ波長範囲で重なっ
ているため上記位置検出センサ１６で検出できるが、上
記光源２７１とは異なる波長範囲であるため上記位置検
出センサ１６の出力電圧に適切な閾値を設けることによ
り検出しないことが可能である。このようにして各反射
光スポット６９、７０の位置を分離して検出することが
できる。各正反射板２４１と２４２は、正中線１１２の
近傍位置に配置することにより各反射光スポット６９、
７０を上記位置検出センサ１６上に同時に投影するよう
に配置している。

【００５０】個々の正反射光スポット６９、７０を独立
に検出するため上記光源２７１、２７２は、交互に点滅
するように光源スイッチング回路2７３により切り替え
られている。この光源の点滅と同期するようチャンネル
切り替え部２０３へ上記光源スイッチング回路２７３か
ら同期信号を送ることによりどちらの正反射光スポット
６９、７０の位置信号かが識別される。（図２９参照）
この第四の手段では、分光特性が同等の光源と正反射板
の組を２組用いた例を示したが、より多くの点の位置を
検出するために２組以上を用いることも可能であり、本
技術に含まれる。以上に示すように同時に複数の正反射
光スポット位置を検出する４つの手段を説明したが、こ
れらの手段を組み合わせて更に多くの点を同時に検出す
ることも可能であり、これらも本技術に含まれることは
勿論である。

【００５１】次に上記技術を用いて、音声を検出する方
法を示すが説明を簡単にするため、図１および図２に示
す、最も単純な音声検出装置で二つの正反射光スポット
位置を個別に検出した場合で説明する。音声入力の例と
して母音／ａ，ｉ，ｕ，ｅ，ｏ／を単音ずつ区切りなが
ら入力した場合の各音素と反射光スポット６９、７０位
置との関係を検出する方法を以下に示す。始めに口唇を
閉じた状態で上記口唇正中の内周上部ｂ１（５３）と上
記口唇正中の内周下部ｂ２（５４）の正反射板１２から
の反射光スポット位置の座標を上記位置検出センサ１６
で、それぞれ検出し各正反射板貼り付け位置からの正反
射光スポット位置６９、７０の初期値として出力座標演
算部１９の座標記憶部２４にＸ０１、Ｘ０２として記憶
する。

【００５２】

【数５】Ｘ０１：口唇を閉じた状態のｂ１（５３）から
の反射光スポット７０の座標Ｘ０２：口唇を閉じた状態のｂ２（５４）からの反射光
スポット６９の座標次に音声を発声した時の正反射光スポット６９、７０位
置の検出方法に関して説明する。単音ずつ区切った音声
入力では、口唇の形状は、発話の最後で２５０ｍｓほど
停留する傾向がある。この停留状態の口唇の形状を上記
口唇正中の内周上部ｂ１（５３）からの反射光スポット
７０の位置と上記口唇正中の内周下部ｂ２（５４）から
の反射光スポット６９位置の２つの座標点として以下の
処理により検出する。すなわち各正反射光スポット６
９、７０の位置の動きをそれぞれ時間微分し、上記微分
値が許容値以下に収まり、且つその状態が所定の時間以
上継続した場合には、反射光スポット位置の移動は少な
いと見做し、この座標点を停留点として検出する。本実
施例においては、１１２ｍｓの時間間隔においてｄＸ／
ｄｔの平均値が、３３．３ｍｍ／ｓ未満の場所を停留点
として採用した。これは１１２ｍｓの間に上記正反射光
スポット位置が上記正反射光スポット６９、７０を受光
している上記位置検出センサ１６のセル３４から隣接す
るセルに移動しない場合に相当する。この値は本実験装
置の配置において採用した値であり、実験装置の寸法形
状の変化、および正反射板１２の貼り付け位置の変化に
より設定値の変更が必要である。このようにして検出し
た上記口唇正中の内周上部と上記口唇正中の内周下部の
反射光スポット６９、７０の座標を以下の記号で示す。

【００５３】

【数６】Ｘ１１：ｂ１（５３）からの正反射光スポット
７０の停留点の座標Ｘ１２：ｂ２（５４）からの正反射光スポット６９の停
留点の座標これら停留点の座標から口唇を閉じた状態の各々の初期
値座標Ｘ０１、Ｘ０２を引くことにより各反射光スポッ
ト停留点までの移動量が算出される。これらの移動量を
以下の記号で示す。

【００５４】

【数７】ｂ１（５３）からの正反射光スポット７０の移
動量：Ｘ１＝Ｘ１１−Ｘ０１ｂ２（５４）からの正反射光スポット６９の移動量：Ｘ
２＝Ｘ１２−Ｘ０２実験は、３０代〜４０代の男性３名に対して３回づつ
の繰り返しで実施した。話者１５の顔の動きを少なく押
さえるため、図１に示すよう頭部固定用の棒１８に頭を
軽く押し当てた状態で発話した。この時顔の動きをモニ
ターする目的で鼻部１２１の頭に正反射部材ｆを配置し
た（図５参照）。上記正反射部材ｆからの正反射光は、
上記位置検出センサ１６の受光面２２に入射しないよ
う、上記正反射部材ｆ（５９）の貼り付け位置を正中面
から２ｍｍ程右にずらせた。発話時の上記反射光スポッ
ト位置の移動は、被験者３名とも少なく±５ｍｍの範囲
に収まっていた。これは口唇からの正反射光スポット６
９、７０位置の移動量（〜４００ｍｍ）に比べ十分小さ
い。このため顔の動きを無視して口唇からの正反射光ス
ポット６９、７０の位置を算出した。発声により生ずる
正反射光スポットの移動量Ｘ１、Ｘ２は被験者毎に異な
っていた。被験者ごとの上記座標位置の違いは、発声法
の差、顔立ちや口唇形状の違い、正反射板１２の貼り付
け位置の差、上記位置検出センサ１６から話者１５の顔
までの高さの差等が原因と推定される。しかし、同一話
者による繰り返し実験では上記座標位置の再現性は±
３．２度以内に収まり優れていた。また、Ｘ１、Ｘ２座
標で示される音素ごとの方向は、話者によらず同様な傾
向が見られた。

【００５５】上記口唇正中の内周上部ｂ１（５３）から
の正反射光スポット７０の移動量ｘ１を縦軸とし上記口
唇正中の内周下部ｂ２（５４）からの正反射光スポット
６９の移動量ｘ２を横軸として、記入した４０代男性被
験者の特徴ベクトルのグラフを図１３に示す。口唇を閉
じた状態の反射光スポット位置の座標は、このグラフ上
では原点に当たり、母音／ａ，ｉ，ｕ，ｅ，ｏ／におけ
る反射光スポット位置の停留点は、原点からのベクトル
（ａ^*，ｉ^*，ｕ^*，ｅ^*，ｏ^*）としてそれぞれ示され
る。このグラフより、母音／ａ，ｉ，ｅ／のベクトルａ
^*，ｉ^*，ｅ^*は同じ方向性を持ち一つの集団を形成して
いる。ａ^*，ｉ^*，ｅ^*と方向は異なるが、同様に母音／
ｕ，ｏ／のベクトルｕ^*，ｏ^*も同じ方向性を持ち一つの
集団を形成している。これらから、母音／ａ，ｉ，ｅ／
と母音／ｕ，ｏ／は、異なる音声器官の形状を持つ音声
として分類することが可能となる。音声学においては、
母音／ｕ，ｏ／は唇音と呼ばれる、これに対して母音／
ａ，ｉ，ｅ／は非唇音である。このように本実施例によ
り音声を分類できることが示された。このｘ１，ｘ２と
で示される音素に対応するベクトルの方向、すなわち角
度範囲を特徴量抽出部２５にて算出し、この角度範囲と
あらかじめ標準パターン記憶部２７に記憶させてあった
各音素の標準の角度範囲とを比較部２６において比較・
検定することにより入力された音素を分類することが可
能となる。

【００５６】単音づつ区切った音声入力程顕著ではない
が、上記の村上らによると話者が連続的に発話する場合
には、音声の発生時間は日本語の場合１拍あたり１２０
ｍｓ程度である。このうち大半の時間は、母音に費やさ
れる。１拍中で子音から母音へ切り変わる際、また母音
から次の拍の子音または母音に切り替わる際、一瞬反射
光スポットの動きが停止することが実験により判明して
いる。静止時間は大体１０〜３０ｍｓである。このよう
な静止点は、反射光スポット位置の微分値が０となるこ
とにより求められる。また、反射光スポット位置の二次
微分を求め、その値が０となる変曲点を捉えることによ
り、次の静止点を予測することも可能である。単音づつ
区切った音声入力よりも精度は落ちるが、本技術によっ
て連続発話時の音素の位置座標の検出も可能となる。

【００５７】［実施例２］音声の分類を行う他の実施例
として、実施例１と同じ装置を用いて同様の方法で、上
記正反射板１２を口唇正中の外周上部a1（５１）、外周
下部a2（５２）に貼り付け音声を分離する例を示す(図
５参照)。音声入力の例として母音／ａ，ｉ，ｕ，ｅ，
ｏ／を単音ずつ区切りながら入力した場合の各音素と正
反射光スポット位置との関係を検出する方法を以下に示
す。始めに口唇を閉じた状態で上記口唇正中の外周上部
a1（５１）と上記口唇正中の外周下部a2（５２）の各正
反射板１２からの正反射光スポット６９、７０の位置の
座標をそれぞれ検出し各正反射板の貼り付け部からの正
反射光スポット６９、７０の位置の初期値とし出力座標
演算部１９の座標記憶部２４にＸ０３、Ｘ０４として記
憶させる。

【００５８】

【数８】Ｘ０３：口唇を閉じた状態の口唇a1（５１）か
らの正反射光スポット７０の座標Ｘ０４：口唇を閉じた状態の口唇a2（５２）からの正反
射光スポット６９の座標次に実施例１と同様にして検出した、発声時の上記口唇
正中部の外周上部a1（５１）と外周下部a2（５２）の正
反射光スポット６９、７０の停留点の座標を以下の記号
で示す。

【００５９】

【数９】Ｘ１３：ａ１（５１）からの正反射光スポット
７０の停留点座標Ｘ１４：ａ２（５２）からの正反射光スポット６９の停
留点座標これら停留点の座標から口唇を閉じた状態の各々の初期
値座標を引くことにより各正反射光スポットの停留点ま
での移動量が算出される。これら移動量を以下の記号で
示す。

【００６０】

【数１０】口唇部ａ１（５１）からの正反射光スポット
７０の移動量：ｘ３＝Ｘ１３−Ｘ０３口唇部ａ２（５２）からの正反射光スポット６９の移動
量：ｘ４＝Ｘ１４−Ｘ０４話者は、実施例１と同じ４０代男性である。上記口唇正
中の外周上部a1（５１）からの正反射光スポット７０の
移動量ｘ３を縦軸とし上記口唇正中の外周下部a2（５
２）からの反射光スポット６９の移動量ｘ４を横軸とし
て記入したグラフを図１４に示す。口唇を閉じた状態の
正反射光スポット６９、７０の位置の座標は、このグラ
フ上では原点であり、母音／ａ，ｉ，ｕ，ｅ，ｏ／にお
ける正反射光スポット位置の停留点は、原点からのベク
トル（ａ^*，ｉ^*，ｕ^*，ｅ^*，ｏ^*）としてそれぞれ示さ
れる。このグラフより、母音／ａ，ｉ，ｏ／のベクトル
ａ^*，ｉ^*，ｏ^*は同じ方向性を持ち一つの集団を形成し
ている。また母音／ｕ／のベクトルｕ^*、母音／ｅ／の
ベクトルｅ^*は、それぞれ別の方向性を有している。こ
れらから、母音／ａ，ｉ，ｏ／と母音／ｕ／及び母音／
ｅ／は、それぞれ口唇正中部の外周上a1（５１）、a2
（５２）において異なる音声器官の形状を持つ音声とし
て分類することが可能となる。他の話者においても一見
異なるがベクトルの方向の類似が示された（図１５参
照）。このように本実施例２においても音声を分類でき
ることが示された。しかし、音声検出の精度を向上する
ためには、話者の特定が望ましいことも図１４と図１５
の比較から示唆された。このｘ３，ｘ４とで示される音
素に対応するベクトルの方向、すなわち角度範囲を特徴
量抽出部２５にて算出し、この角度範囲とあらかじめ記
憶部２７に記憶させてあった各音素を分類する標準の角
度範囲とを比較部において検定・比較することにより入
力された音素を分類する事ができる。

【００６１】図１４において母音／ａ，ｉ，ｏ／のベク
トルａ^*，ｉ^*，ｏ^*は同じ方向性を持つが、母音／ａ，
ｉ／のベクトルａ^*，ｉ^*と母音／ｏ／のベクトルｏ^*と
はその長さが顕著に異なっている事が分かる。この現象
は音声の分類に有用な情報であるが、同じ音素を発声し
ても口唇を開く大きさ、たとえば話者の声の大きさによ
り、ベクトルの長さは変化する。このため単にベクトル
の長さで音声の検出を行っても誤差が多く正確な検出は
困難であった。しかし、本技術では通常の会話程度の口
唇の動きがあれば母音を表現するベクトルの方向性は同
一話者であればほとんど変化しないため精度の高い音声
検出方法となる。実施例１と実施例２との検出法を組み
合わせることにより母音を／ａ，ｉ／、／ｕ／、／ｅ
／、／ｏ／の４種類に分類することが可能となる。音声
をより厳密に検出するために、以上に示した口部１２２
のみならず、オトガイ部１２３、舌骨上部１２８、頚正
中部１３２の正中線１１２近傍の外皮に上記正反射板１
２を配置することも本技術に含まれることは勿論であ
る。

【００６２】［実施例３］上記実施例においては、音声
器官及びその周辺部の正中線１１２の近傍にあたる部分
の動きを上記正反射板１２の正反射光スポット６９、７
０の位置で検出し、音声を分類する方法を示したが。本
実施例３においては、正中線１１２の近傍以外に上記正
反射板１２を配置し音声器官の動きを上記正反射板１２
の正反射光スポット位置で検出する技術を説明する。正
中線１１２の近傍以外に上記正反射板１２を配置する場
合、その正反射光スポットの投影位置は実施例１、及び
実施例２とは異なり、正中線１１２の左右方向に振れ
る。このため、その軌跡のほとんどは人体正中面と受光
部平面２２とが交わる直線から外れた位置に投影される
ことになる。従って上記正反射光スポット位置を検出す
る位置検出センサとして、二次元の情報を受光するセン
サが必要となる。本実施例では、垂直４８８画素、水平
３７８画素を有するイメージサイズ１２．７ｍｍの二次
元ＣＣＤを用いたビデオカメラを使用した。検出装置の
構成と配置を図１６に示す。本検出装置は光源部１０、
正反射板１２、スクリーン１６２、二次元ＣＣＤカメラ
１６１よりなる。上記光源部１０は、発光ダイオード１
６５とその電源回路１６４より構成される。実験では正
反射光スポット１６３が目視できるよう中心波長５８０
nmの赤色発光ダイオードを使用した。なお、光線の動き
が見えないように赤外発光ダイオードの利用も可能であ
る。上記光源部１０からの光線１３は、舌骨上部１２
８、顎下三角１２９と頚動脈三角１３１および頚正中部
１３２とが交わる付近の下顎側部の点ｅ（５８）に配置
された正反射板１２を照明する。上記正反射板１２から
の正反射光１４は、上記下顎側部ｅ（５８）の位置と角
度に応じて正反射光の方向を変え、上記スクリーン１６
２面上に正反射光スポット１６３として投影される。上
記正反射光スポット１６３の画像は、上記二次元ＣＣＤ
カメラ１６１により撮影され、その出力信号１７４は、
図１７に示すように二次元ＣＣＤセンサ１７１の主走
査、副走査方向の信号としてＣＣＤ駆動回路１７２を介
して出力座標演算部１７３へ出力される。上記スクリー
ン１６２面上に投影される上記正反射光スポット１６３
の強度は上記正反射光スポット１６３が当たらない部分
と比較すると数倍強く、上記正反射光スポット１６３検
出のために閾値を設定することにより屋内であれば、容
易に周囲の光線の影響を除去し、上記正反射光スポット
１６３のみの抽出が可能である。上記二次元ＣＣＤの主
走査開始信号からの時間で上記正反射光スポット１６３
のｘ軸座標が求まり副走査の時間よりy軸座標が求めら
れる。この検出精度をより確かなものとするためには、
光源として単色性の強い発光ダイオードを使用し、上記
正反射光スポット１６３から二次元ＣＣＤまでの光路中
に上記発光ダイオードの発光波長に対応したバンドパス
光学フィルターを挿入し他の分光特性を有する光線を遮
断するすることにより周囲の光線からの影響を低減させ
正反射光スポット１６３のコントラストを高く検出する
ことができる。また電源回路１６４にスイッチング回路
機能を設け上記二次元ＣＣＤカメラ１６１の駆動周波数
と同期させてフレーム毎に発光ダイオード１６５を点滅
させることにより、上記発光ダイオード１６５点灯中の
１フレームの画像信号をフレーム記憶装置に記憶させ、
これと上記発光ダイオード消灯中の次フレームの画像信
号との差をとることにより、上記二次元ＣＣＤ出力のフ
レーム間の差分、すなわち上記正反射光スポット１６３
のみを検出することができる。この場合位置信号のサン
プリング周期は、２倍の１／３０秒となる。

【００６３】本実施例では、音声の分類実験として、口
唇を閉じた状態から母音／ａ，ｉ，ｕ，ｅ，ｏ／を区切
って発音し下顎側部e（５８）に配置した上記正反射板
１２から正反射し投影されたスクリーン１６２上での正
反射光スポット１６３のx−y位置の座標を出力座標演算
部１７３で求めた。被験者は40代の男性とした、口唇を
閉じた状態から各母音を発声し口唇を閉じるまでの間を
撮影した。上記下顎側部ｅ（５８）に配置された上記正
反射板１２からの正反射光がスクリーン１６２上に投影
する上記正反射光スポット１６３の軌跡の測定結果を図
１８に示す。グラフ上の原点は、口唇を閉じた状態での
上記下顎側部e（５８）から投影される上記正反射光ス
ポット１６３の位置を示す。グラフ上の各音素の終点
は、発音の最終段階の停留点位置の座標である。グラフ
上の各母音の発声に伴う上記正反射光スポットの軌跡
は、人体の向かって右側に上記正反射板１２を貼り付け
た場合は、／ａ／，／ｏ／，／ｅ／，／ｕ／，／ｉ／の
順に反時計回りに第三象現から第四象現に向かってい
る。これにより母音の種類を口唇を閉じた状態の原点位
置から、発音の最終段の停留点位置との軌跡、または二
点を結ぶベクトルの方向により分類することができる。
あらかじめ記憶部に記憶させておいた各音声ごとの標準
のベクトル方向と測定結果とを比較部２６で比較するこ
とより音声の分類が可能となる。本実施例においては、
二次元ＣＣＤカメラを用いたが、スクリ―ン部に二次元
位置検出センサを配置して直接反射光を検出することも
本技術に含まれる。また、正反射板１２の貼り付け位置
は、下顎側部の点ｅ（５８）以外でもよい。

【００６４】［実施例４］本実施例においては、実施例
3の装置構成で検出した正反射光スポットの位置座表か
ら軌跡データを求めこのデータをパターン認識すること
により音素を検出する方法を示す（図１６参照）。被験
者は40代の男性1名の特定話者で、正反射板１２は、実
施例3と同じ下顎部側部ｅ（５８）に配置した。音声
は、５つの母音／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ
／を1音ずつ区切って通常の声量ではっきりと発音し
た。同じ発声とならないよう間隔を数秒空け、発声する
母音の順番はランダムとした。始めに標準とするマップ
データとして利用するため各母音を5回ずつ計25回入力
して正反射光スポット座標の軌跡を求めた。各音素デー
タは、上記正反射光スポットのｙ成分が動きだしてから
静止するまでの時間で切り出した。本実施例の装置にお
いては、上記正反射光スポットの移動量が隣接するフレ
ーム間で３画素以内でありこれが3フレーム以上続く場
合を静止とみなした。切り出された軌跡をｘ成分とｙ成
分に分解し、横軸を時間軸として示したグラフの一部を
図３０および図３１に示す。縦軸はＣＣＤセンサの垂直
方向の画素位置を表わし、横軸は画像のフレーム数を時
間に換算して表わした。

【００６５】これらマップデータに対して認識データと
しての母音を、同じ方法で各母音ごとに３７個づつ合計
１７５個採取する。発声時の声の大きさや時間間隔の差
により、上記正反射光スポットのｘ成分とｙ成分の振幅
や継続時間が異なるため、そのままの形でパターン認識
を行うと誤差が多く認識率が低下する。通常このような
時系列パターンを認識する場合、認識データの時系列パ
ターンを標準とするマップデータの時系列パターンと比
較するために、動的に時間軸を正規化する方法が用いら
れる。その代表的な手法として動的計画法（Dynamic Pr
ogramming:以下、ＤＰマッチング法と呼ぶ）がある。本
実施例では、上記のｘ成分、ｙ成分の微分値を各成分毎
にＤＰマッチング法によって時間軸を規格化した。以下
にその方法を示す。

【００６６】今二つの時系列パターンAとBが式(９)で表
現されるとする。

【００６７】

【数１１】 A=a1,a2,・・・ai,・・・aI B=b1,b2,・・・bj,・・・bJ (９) ただしaiはAの第iフレームを示し、bjはBの第jフレーム
を示すものとする。I及びJはA及びBの時間長で画像フレ
ームの総数とする。

【００６８】aiとbjの距離をd(i,j)とすると、AとBの距
離D(A,B)は、式(10)に従いi,を1からIまで、jを1からJ
まで順次g(i,j)を算出してg(I,J)を求め、これを(11)式
に代入することで求められる。

【００６９】

【数１２】 g(1,1)=2d(1,1) g(1,j)=g(1,j-1)+d(1,j) (1<j<=J) g(i,1)=g(i-1,1)+d(i,1) (1<i<=I) g(i,j)=min{g(i,j-1)+d(i,j),g(i-1,j-1)+2d(i,j),g(i-1,j)+d(i,j)} (10) D(A,B)=g(I,J)/(I+J) (11) 本実施例で扱う時系列パターンのフレームデータは二次
元であることから(9)式のaiは(Xai,Yai)にbjは(Xbj,Yb
j)とする。また、同じ音素でも正反射光スポットの初期
点の位置が異なる場合がある。この影響を減少させるた
めフレームデータとしてX座標とY座標の微分値(X'ai Y'
ai)と(X'bj,Y'bj)を代入した。これにより距離d(i,j)
は、式(12)のように定義される。

【００７０】

【数１３】 d(i,j)=sqrt{(X'ai-X'bj)2+(Y'ai-Y'bj)2} (sqrtは平方根を意味する) (12) 認識対象をＡとし、標準パターンをB(n)（n=1,2,3,4,
5）とする。ここでnは標準パターンの種類、すなわち母
音／ａ／、／ｉ／、／ｕ／、／ｅ／、／ｏ／を意味す
る。Dn=D(A,B(n))を上述の方法で計算し、最小のDnを与
える標準パターンnの母音を認識データAに対する認識結
果とする。本実施例では、各音素ごとに５個づつの標準
パターンを採用したためDnは5個づつ求まり、それらの
合計が最小となるｎを認識データAに対する認識結果と
した。

【００７１】以上の処理により得られた認識率を表１に
示す。

【００７２】５つの母音の平均認識率は、９２．４％で
あり下顎側部は音声の検出点として極めて優れた点であ
ることが見いだされた。

【００７３】

【表１】本実施例では、ＤＰマチング法を用いてパターン認識を
行ったが、より厳密なパターン認識を行うため、ニュー
ロネットワーク等他の技術の利用も可能である。また、
本実施例では正反射板１２を１枚だけ使用したが、認識
率を高めるため複数個の正反射板を使用することも可能
であり、さらに前述した実施例１、２、３の技術を組み
合わせることも可能である。各技術を組み合わせて使用
した場合の本発明装置の構成例を図１９に示す。本構成
例の装置は、発光ダイオードが埋め込まれた光源３０
１、３０２、３０３、３０４、３０５と、一次元位置検
出センサ３０６、３０７および二次元位置検出センサ３
０８を一体として構成し、被験者１５の頭部に装着可能
なヘッドセット３０９とした。これにより被験者の音声
器官及びその周辺部の外皮に配置された図示しない正反
射板からの正反射光スポットの一次元位置検出センサ３
０６、３０７および二次元位置検出センサ３０８への投
影位置が、たとえ被験者の頭部全体が発話中に移動して
も、実用上変動しないことになる。

【００７４】本発明においては、正反射板の貼り付け位
置として図５に示す点を主に説明したが、他の部分でも
有用な音声および音声以外の特徴量を抽出することが可
能である。オトガイ部１２３は母音、音素／ｍ／などの
特徴量抽出点として有効である。頬部１２５は、母音、
唇音、破裂音などの検出に有効である。また、耳下腺交
筋部１２７は、発音による口の動きか咀嚼による口の動
きかを区別する上で重要な検出点である。下顎後窩１３
０は、上記正反射板の位置移動が少なく顎の動きを上記
正反射板の角度変動を主に取り出す際有効な検出点であ
る。さらに、鼻部１２１特に鼻翼部は、鼻音や呼吸を取
り出す際に有効な検出点となる。眼窩下部１２４は、母
音の／i／や子音の／j／、拗音などを検出する際に有効
な測定点となる。頚動脈三角１３１は、声帯の振動を捉
える点として優れた検出点である。頚正中部１３２は、
声帯自身の動きを捉える点として有効であり、発声にお
けるピッチ情報の検出に特に有効である。同時に頚正中
部１３２は、発声以外の動きとして、嚥下、咳、くしゃ
み、あくび、おくび、シャックリ等音声情報のノイズ成
分となる生理作用を検出する際の中心的な検出点でもあ
る。更にこれらの検出点は、泣き、笑い、怒り、喜び、
悲しみ、驚き、恐怖など顔の表情を捉える技術としても
有効と考えられる。このように本発明における、音声器
官およびその周辺の外皮の角度成分検出法は、従来技術
と比べより広範囲な外皮部分で音声検出および他の情報
を採取できるという特徴を有している。

【００７５】

【発明の効果】以上説明したように、本発明によれば、
音声器官およびその周辺の外皮の表面角度に基づく特徴
量を利用して音声を検出することができる。

【図面の簡単な説明】

【図１】本発明の実施例１および実施例２で用いられ
た音声検出装置の基本構成を示す図である。

【図２】図１の音声検出装置の詳細を示すブロック図
である。

【図３】上述実施例１および実施例２で用いられた位
置検出センサの構成例を示す斜視図である。

【図４】本発明の位置検出部のセンサ・スイッチング
回路例を示す回路図である。

【図５】話者の音声器官およびその周辺の外皮に取り
付けられた正反射板の配置位置を説明する図である。

【図６】正反射板の位置・角度と正反射光スポット投
影点との関係を説明する図である。

【図７】従来技術のマーカの移動量を示す図である。

【図８】本発明の検出精度の高さの根拠となる、正反
射光スポット移動量を示す図である。

【図９】音声器官を説明する図である。

【図１０】従来技術のマーカ貼り付け位置と抽出する
特徴量とを説明する図である。

【図１１】人体頭部の正中面、正中線を説明する図で
ある。

【図１２】音声器官およびその周辺の外皮部分の名称
を説明する図である。

【図１３】話者１の実施例１における母音の特徴ベク
トルを示す図である。

【図１４】話者１の実施例２における母音の特徴ベク
トルを示す図である。

【図１５】話者２の実施例２における母音の特徴ベク
トルを示す図である。

【図１６】本発明の実施例３実施例４で用いられた音
声検出装置の基本構成を示す図である。

【図１７】ＣＣＤセンサ出力を説明する図である。

【図１８】話者１の実施例３における母音の特徴ベク
トルを説明する図である。

【図１９】実施例１、２、３、４で説明した本発明の
技術を組み合わせた場合の音声検出装置の構成例を示す
斜視図である。

【図２０】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第一の手段の構成を示
す図である。

【図２１】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第一の手段の構成例を
示すブロック図である。

【図２２】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第二の手段の構成を示
す図である。

【図２３】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第二の手段の構成例を
示すブロック図である。

【図２４】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第三の手段のセンサ・
正反射板の分光特性を示す図である。

【図２５】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第三の手段の構成を示
す図である。

【図２６】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第三の手段の構成を示
すブロック図である。

【図２７】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第四の手段の光源・正
反射板の分光特性を示す図である。

【図２８】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第四の手段の構成を示
す図である。

【図２９】実施例１に示す、複数の正反射板からの正
反射光スポットを同時に検出する第四の手段の構成例を
示すブロック図である。

【図３０】実施例４に示す、母音「あ」のデータ例を
示すグラフである。

【図３１】実施例４に示す、母音「い」のデータ例を
示すグラフである。

【符号の説明】

１０光源部１１光ファイバーライトガイド１２正反射板１３光線１４正反射された光線１５話者１６位置検出センサ１７センサ・スイッチング回路１８頭部固定用の棒１９出力座標演算部２０凸レンズ２１赤外線吸収フィルター２２受光部平面２３位置検出部２４座標記憶部２５特徴量抽出部２６比較部２７標準パターン記憶部３１長方形セル・アレイ３２接続線３３受光ダイオード３４小さな長方形セル４１シフトレジスタ５１口唇正中部外周上部a１５２口唇正中部外周下部ａ２５３口唇正中部内周上部ｂ１５４口唇正中部内周下部b２５５口唇上側部ｃ１５６口唇下側部ｃ２５７口角部横d ５８下顎側部e ６６光線６７正反射板６８正反射光線６９正反射光スポット７０正反射光スポット１０１口唇特徴ベクトルの成分１０２口唇特徴ベクトルの成分１０３口唇特徴ベクトルの成分１０４口唇特徴ベクトルの成分１０５口唇特徴ベクトルの成分１１１正中面１１２正中(線) １２１鼻部１２２口部１２３オトガイ部１２４眼窩下部１２５頬部１２６頬骨部１２７耳下腺交筋部１２８舌骨上部１２９顎下三角１３０下顎後窩１３１頚動脈三角１３２頚正中部１３３胸鎖乳突筋部１３４外側頚三角部１６１二次元ＣＣＤカメラ１６２スクリーン１６３正反射光スポット１６４電源回路１６５発光ダイオード１７１二次元ＣＣＤセンサ１７２ＣＣＤ駆動回路１７３出力座標演算部１７４正反射光スポット出力信号２０１位置検出センサ２０２位置検出センサ２０３チャンネル切り替え部２２０光源２２１光源２２２正反射光スポット２２３正反射光スポット２２４光源スイッチング回路２３１電源２３２電源２４１正反射板２４２正反射板２５１位置検出センサ２５２受光センサ２５３受光センサ２７１光源２７２光源２７３光源スイッチング回路２７４電源２７５電源３０１光源３０２光源３０３光源３０４光源３０５光源３０６一次元位置検出センサ３０７一次元位置検出センサ３０８二次元位置検出センサ３０９ヘッドセット９０１肺９０２喉頭９０３口腔９０４鼻腔９０５口唇９０６舌９０７咽頭９０８上唇９０９下唇９１０鼻９１１鼻孔９１２食道Ｍ０従来技術のマーカＭ１従来技術のマーカＭ２従来技術のマーカＭ３従来技術のマーカＭ４従来技術のマーカＭ５従来技術のマーカＭ６従来技術のマーカＭ７従来技術のマーカＭ８従来技術のマーカＭ９従来技術のマーカ

───────────────────────────────────────────────────── フロントページの続き (72)発明者福井基文神奈川県足柄上郡中井町境430 グリーンテクなかい富士ゼロックス株式会社内 (72)発明者清水正神奈川県足柄上郡中井町境430 グリーンテクなかい富士ゼロックス株式会社内 (56)参考文献特開平10−11089（ＪＰ，Ａ) 特開平８−187368（ＪＰ，Ａ) 特開平７−306692（ＪＰ，Ａ) 特開平６−43897（ＪＰ，Ａ) 特開平６−12483（ＪＰ，Ａ) 特開平４−257900（ＪＰ，Ａ) 特開平３−40177（ＪＰ，Ａ) 特開昭64−62123（ＪＰ，Ａ) 特開昭62−239231（ＪＰ，Ａ) 特開昭60−3793（ＪＰ，Ａ) 特開昭57−160440（ＪＰ，Ａ) 特開昭55−121499（ＪＰ，Ａ) 特開昭52−112205（ＪＰ，Ａ) 米国特許5473726（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) A61B 5/11 G06T 1/00 G10L 11/02 G10L 15/04 G10L 15/24 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】話者の発声に伴い変化する音声器官およ
びその周辺の外皮において、上記外皮表面の角度及び角
度の時間的変化の一方又は双方から特徴量を抽出し音声
を検出することを特徴とする音声検出装置。
【請求項２】話者の発声に伴い移動する正反射光スポ
ットを受光する位置検出センサと、上記正反射光スポッ
トの座標位置を算出する出力座標演算部と、上記座標位
置または上記座標位置の時間的変化の情報より特徴量を
抽出する特徴量抽出部と、あらかじめ上記正反射光スポ
ットの座標位置または上記座標位置の時間的変化より得
られる特徴量の標準パターンを記憶させた標準パターン
記憶部と、上記特徴量抽出部からの信号と上記標準パタ
ーン記憶部に記憶された上記特徴量の標準パターンとを
比較する比較部とを有することを特徴とする音声検出装
置。
【請求項３】上記特徴量抽出部において上記正反射光
スポットの座標位置の時間的変化から停留点を検出し、
上記停留点より上記特徴量を抽出することを特徴とする
請求項２記載の音声検出装置。
【請求項４】可視光、赤外光、または紫外光の光線を
発生し上記話者の音声器官及びその周辺の外皮部に照射
させる光源部と、上記話者の音声器官及びその周辺の外
皮に取り付けられ上記光線を正反射する正反射板とによ
り、上記正反射光スポットを形成することを特徴とする
請求項２または３記載の音声検出装置。
【請求項５】上記位置検出センサと上記光源部とが一
体として構成され、上記話者の頭部に装着されることを
特徴とする請求項４記載の音声検出装置。
【請求項６】上記話者の音声器官及びその周辺の外皮
部に上記正反射板を複数個取り付け、各正反射板から正
反射される各々の正反射光スポットを識別する識別手段
を有し、識別された個々の正反射光スポットから算出さ
れた個々の座標位置相互の関係から特徴量を抽出するこ
とを特徴とする請求項３、４または５記載の音声検出装
置。
【請求項７】上記複数個の正反射板からの複数の正反
射光スポットを分離して検出するため複数個の位置検出
センサを用いることを特徴とする請求項６記載の音声検
出装置。
【請求項８】上記複数個の正反射板を照射する光源部
が複数の光源から成り、各光源が組み分けされた上記正
反射板の各々の組を分担して照射することを特徴とする
請求項６または７記載の音声検出装置。
【請求項９】上記話者の音声器官及びその周辺の外皮
の正中部に取り付けられた上記正反射板によって正反射
された上記正反射光スポットを受光する上記位置検出セ
ンサが、１次元の位置検出センサであることを特徴とす
る請求項４、５、６、７または８記載の音声検出装置。
【請求項１０】上記話者の音声器官及びその周辺の外
皮の正中部から外れた位置に取り付けられた上記正反射
板によって正反射された上記正反射光スポットを受光す
る上記位置検出センサが、２次元の位置検出センサであ
ることを特徴とする請求項４、５、６、７または８記載
の音声検出装置。
【請求項１１】上記光源部が、異なった分光特性を有
する複数の光源から構成されることを特徴とする請求項
８記載の音声検出装置。
【請求項１２】上記光源部の上記複数の光源が順次点滅
作動するようにスイッチング回路を具備したことを特徴
とする請求項８または１１記載の音声検出装置。
【請求項１３】上記複数の正反射板が複数の異なった
分光反射特性を有することを特徴とする請求項６、７、
８、９、１０、１１または１２記載の音声検出装置。
【請求項１４】２次元の位置検出センサとして、スク
リーンと２次元ＣＣＤカメラとを一対として配置し上記
スクリーン上に投影された上記正反射光スポットの撮影
が可能な構成とし上記正反射光スポットの位置をＣＣＤ
センサ出力より算出することを特徴とする請求項１０記
載の音声検出装置。
【請求項１５】上記話者の音声器官及びその周辺の外
皮に取り付ける上記正反射板の取り付け位置が、上記話
者の舌骨上部、顎下三角、頚動脈三角、頚正中部の少な
くとも１つに含まれることを特徴とする請求項４、５、
６、７、８、９、１０、１１、１２、１３または１４記
載の音声検出装置。
【請求項１６】上記話者の音声器官及びその周辺の外
皮に取り付ける上記正反射板の取り付け位置が、上記話
者の口唇正中部内周上部および口唇正中部内周下部であ
ることを特徴とする請求項４、５、６、７、８、９、１
０、１１、１２または１４記載の音声検出装置。
【請求項１７】上記話者の音声器官及びその周辺の外
皮に取り付ける上記正反射板の取り付け位置が、特に話
者の口唇正中外周上部および口唇正中部外周下部である
ことを特徴とする請求項４、５、６、７、８、９、１
０、１１、１２または１４記載の音声検出装置。