JP3112254B2 - 音声検出装置 - Google Patents

音声検出装置

Info

Publication number
JP3112254B2
JP3112254B2 JP09048839A JP4883997A JP3112254B2 JP 3112254 B2 JP3112254 B2 JP 3112254B2 JP 09048839 A JP09048839 A JP 09048839A JP 4883997 A JP4883997 A JP 4883997A JP 3112254 B2 JP3112254 B2 JP 3112254B2
Authority
JP
Japan
Prior art keywords
voice
speaker
specular reflection
light
light spot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09048839A
Other languages
English (en)
Other versions
JPH10243938A (ja
Inventor
正明 原田
伸 竹内
基文 福井
正 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP09048839A priority Critical patent/JP3112254B2/ja
Priority to US09/032,979 priority patent/US6272466B1/en
Priority to EP98103721A priority patent/EP0863474A3/en
Publication of JPH10243938A publication Critical patent/JPH10243938A/ja
Application granted granted Critical
Publication of JP3112254B2 publication Critical patent/JP3112254B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声情報をコード
化してコンピュータやワープロ等の情報機器へ入力する
分野で利用される技術に関する。本発明は、特に、騒音
環境下や多数の人間が同時に話し合う会議や会話の席で
の音声情報の検出に適している。また、本技術は、聾
者、難聴者や高齢者への円滑な情報伝達を可能とするバ
リアフリーな機器を提供するための音声入力装置として
も利用される。
【0002】
【従来の技術】機械による音声入力装置の目標は、どの
ような環境下にあっても使用者の音声を正確にしかも高
速に入力できるようにすることである。従来、音声入力
装置としては、音声の周波数分析を行うことによって、
音声を認識し処理するものが提案されてきた。しかし、
このような音声認識手法では、騒音や雑音が生じる環境
下における認識率の低下が問題であった。これを防止す
るためには、音声以外の情報から発話情報を獲得するこ
とが望ましい。専門書によって分類法は異なるが、人間
の発声に直接関与する音声器官は、図9に示すように、
気流機構である肺901、発声機構である喉頭902、
口・鼻腔作用を受け持つ口腔903、鼻腔904、調音
作用をつかさどる口唇905と舌906である。これら
の音声器官の中でも口唇905の視覚情報によって発話
情報を得ようとする研究は以前から聴覚障害者のための
技術として行われてきた。さらに音声情報に話者の口唇
905の動きの視覚的情報を加味することにより音声の
認識精度の向上が指摘されている(C.Bregle
r,H.Hild,S.Manke and A.Wa
ible,"Improving connected
letter recognition by li
preading", Proc.IEEE ICAS
SP,pp.557−560,1993など)。
【0003】口唇の視覚情報による発話認識手法として
はビデオカメラにより入力された画像を用いた画像処理
による手法が最も一般的である。例えば特開平6−43
897号公報では話者の口唇905及びその周囲に取り
付けられた10個の反射性マーカM0,M1,M2,M
3,M4,M5,M6,M7,M8,M9自体の画像を
ビデオカメラに取り込み、それらマーカの二次元的な動
きを検出し5つの口唇特徴ベクトルの成分101、10
2、103、104、105を求め口唇の動きを観察し
ょうとした(図10)。特開昭52−112205号公
報では口唇及びその周辺に貼り付けられた黒色マーカの
位置をビデオカメラ走査線上から読み取ることにより音
声認識精度の向上を図った。この技術は、マーカの抽出
法に関して具体的な記述がなされていないが、鼻や唇に
より生ずる影や、ひげ、皮膚の色の違い、ほくろ、傷等
により生ずる濃度差とマーカとを識別する二次元画像の
前処理および特徴量抽出技術が必要となる。この問題を
解決するため特開昭60−3793号公報では口唇上に
発光ダイオードなどの高輝度マーカを4つ取り付けマー
カの位置検出を容易とし、これらマーカ自体の動きをビ
デオカメラで撮影し、高速マルチポイントX−Yトラッ
カーと呼ばれる位置センサによって得られた電圧波形を
パターン認識することにより達成される口唇情報解析装
置を堤案した。しかし、この技術においても明室中で音
声を検出しようとする場合は、話者の眼鏡や金歯等によ
る高輝度の反射光成分の雑音を防止する手段が必要にな
る。このためにテレビカメラで入力された二次元画像の
前処理および特徴量抽出技術が必要となるが、特開昭6
0−3793号公報にはこの技術に関する記述はなされ
ていない。マーカを使用せずに口唇およびその周囲を直
接ビデオカメラに取り込み、画像処理により音声器官の
特徴量抽出を行う方式もいくつか提案されている。例え
ば特開平6−12483号公報では、口唇及びそれらの
周囲の画像をカメラで取り込み、画像処理により得られ
た輪郭画像からバックプロパゲーション法によって発声
単語の推定を行っている。特開昭62−239231号
公報では口唇画像情報を単純化するために口唇開口面積
と口唇縦横比を用いた手法を提案している。特開平3−
40177号公報では不特定話者に対して認識を行うた
めに発話音と口唇の動きの相関をデータベースとして所
有する音声認識装置を考案している。しかしながらこれ
らの従来方法は、口唇及びそれら周辺の二次元画像から
得られる位置情報のみしか扱っておらず、微妙な口唇の
角度変化情報や皮膚収縮の情報を有する音素の判別には
不十分であった。また、これらの従来方法は情報量の多
い二次元画像を処理しマーカや特徴量を抽出するため高
速化に適しているとは言えなかった。
【0004】ビデオカメラを用いる以外にもいくつかの
方法が提案されている。口唇周囲の筋電位波形から発話
情報を抽出する手法が提案されている。例えば特開平6
−12483号公報では画像処理の代替手段として筋電
位波形の2値化情報を利用した装置を考案している。ま
た栗田らの(「口唇の調音動作を実現する生理学モデ
ル」,日本音響学会誌五十巻6号(1994),pp.
465−473)では筋電位信号から口唇形状を算出す
るモデルを考案した。しかし筋電位による発話情報抽出
は、測定用のコードが付随した電極を口唇周囲に貼り付
けねばならず話者への負担が大きいという問題がある。
また、パラトグラフ信号を得るために人工口蓋を装着す
ることにより、話者の発声に伴う舌の動きを検出し、音
声入力装置に利用する発明もいくつかなされている。例
えば特開昭55−121499号公報では人工口蓋付随
の送信電極と舌の接触の有無を電気信号に置き換える手
段を堤案した。特開昭57−160440号公報では人
工口蓋に付随する電極数の低減を図ることにより舌触り
をよくする工夫を行った。特開平4−257900号公
報ではパラトグラフの受光信号を神経回路網(以下、ニ
ューラルネットワークという)に通すことにより不特定
話者への対応を可能とした。舌の動き以外には特開昭6
4−62123号公報でブッシュロッド先端部を軟口蓋
に接触させることにより軟口蓋の振動を観察する装置が
堤案されている。しかしながら人体内部への装置取り付
けを必要とするため自然な発話行為を妨げる可能性があ
り、話者への負担も大きい。発話状態の検出装置として
は人体への接触を極力控えることが望ましい。
【0005】マーカを貼り付けた従来技術による位置検
出の方法を特開平6−43897号公報を例に示す(図
10)。従来技術においては、マーカM0、M
1、...、M9の画像は、口唇905およびその周辺
部の特徴量を最も良く把握できる正面から入力してい
た。このため発話に伴うマーカの上下方向101、10
2、104、左右方向103、105の位置移動の二次
元的な検出は可能であるが、さらに発話に伴うマーカM
0、M1、...、M9の前後方向の移動を捉えること
はできなかった(Daivid G. Stork,
Greg Wolff,Earl Levine, "
Neural network lipreading
system for improved spee
ch recognition", in Proc.
IJCNN, IEEE, Vol.II 199
2)。正面と前後方向の三次元の動きを同時に検出する
ためには、従来技術では複数台のテレビカメラを用意し
口唇等の音声器官の位置を立体的に計測する必要があっ
た。これら技術は、リアルタイム3次元座標出力技術と
して光学測定機器展等で複数のメーカーから紹介されて
いる。計測時間のサンプリングレートは60Hzであ
り、高速性を確保するため上記マーカの抽出処理が容易
なようにマーカのサイズを大きくし(直径20mm程
度)かつ球形に設定してあり、撮影位置によらずマーカ
画像が同じ円形を示すように工夫されている。さらに各
マーカが抽出されやすいように目立つ着色が施されてい
る。しかし、このように大きなマーカは、口唇および口
唇周辺部面積の多くを覆うため口唇および口唇周辺部の
微妙な動きを高い精度で検出することには適していなか
った。これを改善するためマーカのサイズを小さくし発
話の妨げとならないよう薄いシート状にすると、上記特
開平6−43897号公報等の説明で示したように、マ
ーカの検出や発声器官の特徴量を抽出するための二次元
画像処理に時間を要し、リアルタイムでの位置検出は困
難となるという問題があった。また三次元計測では、カ
メラ2台以上を同時に使用するため、画像処理が煩雑で
あり装置コストが高くサイズも大きくなるという欠点を
有していた。
【0006】なお、以上の問題点を改善するため本発明
で提案する技術と見かけ上類似した技術として特開平7
−306692号公報が提案されている。これは口唇及
びその周辺部に光線を照射し、外皮表面からの拡散反射
光を受光器で検出し上記拡散反射光の強度変化を測定す
ることにより、発話者の音声情報を検出するものであ
る。しかし、口唇およびその周辺には、マーカ等の反射
板や本発明の正反射板は貼り付けれていない。上記反射
光の強度と口唇の位置や動きの関係は必ずしも明確では
なく、認識処理にニューラルネットワークを利用してい
る。この技術は明細書中にも述べられているように音声
の検出精度が低く、音声認識技術の補助手段として音素
を粗くカテゴリー分けする技術と説明されている。用途
の一例として状況が限定され会話が予想されるゲームが
特開平8−187368号公報に示されている。これに
対し、本発明は発声器官およびその周辺部の外皮部分に
正反射板を貼り付けることにより測定場所を特定し、特
定部分の位置・角度変動を正反射を用い幾何光学的に正
確に求める技術であり、特開平7−306692号公報
とは全く異なる発明である。
【0007】
【発明が解決しようとする課題】本発明は、従来技術と
比べ利用者への負担が少なく音声の検出率を向上させる
こと、およびリアルタイムの音声検出を可能とすること
を課題とする。従来の画像を用いた音声検出技術は、テ
レビカメラ等で口唇周辺部の二次元画像を取り込み発音
時の特徴量を抽出することにより音声を検出していた。
具体的には、口唇周辺部の入力画像に対して、前処理、
特徴量抽出、分類記述を行い標準パターンとの最適マッ
チングにより音声を検出しいている。前処理技術には、
雑音除去、濃度変換、歪補正、正規化等があり、特徴量
抽出技術は、線抽出技術、領域抽出技術、テクスチャア
抽出技術等に分類される。線抽出は、入力画像の微分操
作や二次微分操作により輪郭を明確にし二値化処理を行
う。このようにして抽出した線に欠損個所がある場合に
は、上記欠損個所を修正するための曲線当てはめ技術を
利用する。領域抽出技術には、濃度ヒストグラムやカラ
ー画像の色差等が利用される。テクスチャアの抽出に
は、二次元フーリエ変換により得られる画像の周期的な
微細構造の特徴量が用いられる。分類記述技術には、抽
出領域や抽出線に対して、各音声を分類し得る特徴ベク
トルを定義し、上記特徴ベクトルにより形成される特徴
空間において標準パターンと統計的に最良マッチングす
る音声を選択する技術があげられる。また、特徴パター
ンの構造面に着目し構文的パターン認識を行う分類記述
技術や近年では構造決定、音素検出のためにニューラル
ネットワークを適用する方法が提案されている。これら
の技術は、上述のように極めて煩雑であり、特に前処理
や特徴量抽出においては、二次元画像に対する処理に時
間がかかりリアルタイムでの音声検出には不適切という
欠点があった。また口唇の開閉量が少ない小声等での発
話の際には、口唇や口唇に配置したマーカの移動量が小
さく精度の良い位置検出ができないことが問題であっ
た。
【0008】一方、発話器官の状態・位置を直接計測す
る技術では、対象部位の測定精度は高いが利用者への負
担が極めて大きく、たとえ高精度に特定の調音器官の状
態を計測しても調音器官の総合的な動きにより生ずる音
声を検出するには至っていなかった。
【0009】本発明は、これらの課題を解決することを
狙いとしている。
【0010】
【課題を解決するための手段】本発明によれば、上述の
課題を解決するために、話者の発声に伴い変化する音声
器官およびその周辺の外皮において、上記外皮表面の角
度及び角度の時間的変化の一方又は双方から特徴量を抽
出し音声を検出するようにしている。もちろん上記外皮
表面の角度に加えて上記外皮の位置から上記特徴量が決
定されてもよい。
【0011】この構成においては、発話の状態に応じて
変化する音声器官やその周辺の外皮の表面角度を利用し
て音声を検出するので騒音等があっても確実に音声の検
出を行える。光線の照射及び正反射を利用すれば、外皮
表面の角度を確実かつ迅速に検出することができる。
【0012】また、本発明によれば、上述の課題を解決
するために、音声検出装置に、話者の発声に伴い移動す
る正反射光スポットを受光する位置検出センサと、上記
正反射光スポットの座標位置を算出する出力座標演算部
と、上記座標位置または上記座標位置の時間的変化の情
報より特徴量を抽出する特徴量抽出部と、あらかじめ上
記正反射光スポットの座標位置または上記座標位置の時
間的変化より得られる特徴量の標準パターンを記憶させ
た標準パターン記憶部と、上記特徴量抽出部からの信号
と上記標準パターン記憶部に記憶された上記特徴量の標
準パターンとを比較する比較部とを設けている。
【0013】この構成においては、正反射スポットの座
標位置を検出して確実かつ迅速に音声に応じた特徴量を
抽出でき、この特徴量に基づき音声を検出することがで
きる。
【0014】また、上記特徴量抽出部において上記正反
射光スポットの座標位置の時間的変化から停留点を検出
し、上記停留点より上記特徴量を抽出するようにしても
よい。
【0015】また、可視光、赤外光、または紫外光の光
線を発生し上記話者の音声器官及びその周辺の外皮部に
照射させる光源部と、上記話者の音声器官及びその周辺
の外皮に取り付けられ上記光線を正反射する正反射板と
により、上記正反射スポット光を形成するようにしても
よい。
【0016】また、上記位置検出センサと上記光源部と
が一体として構成され、上記話者の頭部に装着されるよ
うにしてもよい。
【0017】また、上記話者の音声器官及びその周辺の
外皮部に上記正反射板を複数個取り付け、各正反射板か
ら正反射される各々の正反射光スポットを識別する識別
手段を設け、識別された個々の正反射光スポットから算
出された個々の座標位置相互の関係から特徴量を抽出す
るようにしてもよい。
【0018】また、上記複数個の正反射板からの複数の
正反射光スポットを分離して検出するため複数個の位置
検出センサを用いるようにしてもよい。
【0019】また、上記複数個の正反射板を照射する光
源部が複数の光源から成り、各光源が組み分けされた上
記正反射板の各々の組を分担して照射するようにしても
よい。
【0020】また、上記話者の音声器官及びその周辺の
外皮の正中部に取り付けられた上記正反射板によって正
反射された上記正反射光スポットを受光する上記位置検
出センサが、1次元の位置検出センサであるようにして
もよい。
【0021】また、上記話者の音声器官及びその周辺の
外皮の正中部から外れた位置に取り付けられた上記正反
射板によって正反射された上記正反射光スポットを受光
する上記位置検出センサが、2次元の位置検出センサで
あるようにしてもよい。
【0022】また、上記光源部が、異なった分光特性を
有する複数の光源から構成されるようにしてもよい。
【0023】また、上記光源部の上記複数の光源が順次
点滅作動するようにスイッチング回路を具備するように
してもよい。
【0024】また、上記複数の正反射板が複数の異なっ
た分光反射特性を有するようにしてもよい。
【0025】また、2次元の位置検出センサとして、ス
クリーンと2次元CCDカメラとを一対として配置し上
記スクリーン上に投影された上記正反射光スポットの撮
影が可能な構成とし上記正反射光スポットの位置をCC
Dセンサ出力より算出するようにしてもよい。
【0026】また、上記話者の音声器官及びその周辺の
外皮に取り付ける上記正反射板の取り付け位置が、上記
話者の舌骨上部、顎下三角、頚動脈三角、頚正中部の少
なくとも1つに含まれるようにしてもよい。
【0027】また、上記話者の音声器官及びその周辺の
外皮に取り付ける上記正反射板の取り付け位置が、上記
話者の口唇正中部内周上部および口唇正中部内周下部で
あるようにしてもよい。この場合、一次元の検出センサ
で検出を行ってもよいし、二次元の位置検出センサで検
出を行ってもよい。
【0028】また、上記話者の音声器官及びその周辺の
外皮に取り付ける上記正反射板の取り付け位置が、特に
話者の口唇正中外周上部および口唇正中部外周下部であ
るようにしてもよい。この場合も、一次元の検出センサ
で検出を行ってもよいし、二次元の位置検出センサで検
出を行ってもよい。
【0029】
【発明の実施の態様】以下、上記課題を解決するため本
技術で採用した手段を、主に図1を参照して詳細に説明
する。まず、利用者の負担軽減のため本発明では、生体
の直接計測を避け非接触計測法を採用した。また、リア
ルタイムでの検出を可能とするため本発明では、TVカ
メラ等の手段により入力された、二次元画像を利用する
場合は、画像情報を二次元情報のまま前処理し特徴量抽
出後に位置信号を算出する方式は採用せず、画像信号か
らの情報を簡易な前処理で直接座標信号へ変換する方式
を採用した。これにより前処理に用いられる情報量が大
幅に削減されリアルタイムでの音声検出が可能となっ
た。また、TVカメラ等の二次元画像を利用せずに発声
器官の変位情報を座標信号へ直接変換する方法として、
単純な光電的位置計測法を採用した。これらの方法には
後述するよう、正反射板12の利用が極めて有効であっ
た。
【0030】さらに音声の検出精度を高めるため、従来
技術のマーカと異なり本発明においては正反射板を採用
し生体発声器官の微少な角度変化と位置変化の計測を幾
何光学に基づく技術により可能とすることで発声器官形
状の検出精度を向上させた。
【0031】本発明は、具体的には、発話者15の音声
器官及びその周辺に取り付けられた正反射板12と、上
記正反射板12へ光線13(可視光の他、赤外線、紫外
線であっても可)を照射する光源部10と、上記正反射
板12により正反射された光線14により形成される正
反射光スポット69、70を受光し、上記正反射光スポ
ット投影位置を検出する位置検出センサ16を含む位置
検出部23とから実現される。このような構成により、
発話者15の発声に伴ない、音声器官及びその周辺の外
皮に取り付けられた上記正反射板12の位置及び角度が
変動する。そして、この結果、上記光源部10から照射
された光線13は反射の法則に従い一意的に上記正反射
板12により反射され、光線の方向が変動することにな
る。上記位置検出センサ16の面上を移動する上記正反
射光スポット69、70を上記位置検出センサ16が受
光することにより、発話者15の発声に伴い生ずる発声
器官及びその周辺部の形状に対応する上記正反射光スポ
ットの位置が検出される。検出された正反射光スポット
位置に関し、その座標表示された情報から時間的変化及
び位置変化の特徴量が抽出される。上記特徴量とあらか
じめ記憶されていた各音声信号ごとの時間的変化及び位
置変化の特徴量を示す標準パターンとを比較し検定する
ことにより、入力された音声の分類が行われる。本技術
では上記正反射光スポットのみが抽出されるため、従来
技術のように人体の口唇周辺部や周囲の構造物および背
景等の画像がマーカと一緒にセンサ上に結像されること
がまったくなく、パターン認識に時間がかからず上記正
反射光スポットの座標位置を検出できるという極めて優
れた長所を有する。
【0032】本発明において発話器官の変動を精密に検
出するための検出技術の作用を説明する。 以降におけ
る、正反射板12の貼り付け位置の説明を容易とするた
め、人体の音声器官及びその周辺の外皮部分の名称を図
12に示す。図12は解剖学の資料を参考に本発明に必
要な部位の名称を説明するため新たに描き出したもので
ある。図中に番号が示された破線で囲まれた部分は、顔
面および頚部の医学用語に対応し順に鼻部121、口部
122、オトガイ部123、眼窩下部124、頬部12
5、頬骨部126、耳下腺交筋部127、舌骨上部12
8、顎下三角129、下顎後窩130、頚動脈三角13
1、頚正中部132、胸鎖乳突筋部133、外側頚三角
部134と呼ばれる。また、人体左右の中心である正中
面111及び正中(線)112の関係を図11に示す。さ
て、音声検出のために発話時の音声器官の動きによって
生ずる生体表面の微妙な空間的変化を捉える方法を説明
する。正反射板12は、例えば、図5に示す取り付け位
置、a1(51)、a2(52)、b1(53)、b2
(54)、c1(55)、c2(56)、d(57)およ
びe(58)に配置する。正反射板12は話者の口部1
22の外皮表面に粘着テープ等の貼り付け手段により接
着する。配置された正反射板12は、話者の発話による
皮膚の動きにより微妙に移動回転する。
【0033】この動きを捕らえるために、話者の皮膚に
配置した上記正反射板12の取り付け位置a1(5
1)、a2(52)、b1(53)、b2(54)、c1
(55)、c2(56)、d(57)、e(58)の内の
一つに着目し、図6に示すように、この正反射板を67
とする(話者は図示せず)。上記正反射板67を指向性
を持たせた光線66で照明する。この光線66の方向
を、単位ベクトルe*=(ex,ey,ez)で表わす(*はベク
トルを表す。以下同様)。光線66は図示しないコリメ
ータレンズ等の光学手段により得られる平行光線束であ
ってもよいし、発光点の位置が定められた図示しない点
光源等の発散光線束であってもよい。また、図示しない
レンズ、球面鏡等により定められた点に収束する収束光
線束であってもよい。
【0034】上記正反射板67の位置座標をP(xp,yp,
zp)とする。また上記正反射板67の法線方向を単位ベ
クトルs*=(sx,sy,sz)で表わすことにする。上記正反射
板67に入射した光線66は、上記正反射板67により
正反射され、受光位置であるx−y平面のQ点に正反射
光スッポット69が到達する。この際反射光68の方向
を単位ベクトルr*=(rx,ry,rz)で表わすと、単位ベクト
ルの各成分は、以下のようである。
【0035】
【数1】rx=ex−2sx(e*・s*) (1) ry=ey−2sy(e*・s*) (2) rz=ez−2sz(e*・s*) (3) 反射光線68の方程式は次式で与えられる。
【0036】
【数2】 (x−xp)/rx=(y−yp)/ry=(z−zp)/rz (4) この方程式と受光面(x−y平面)との交点であるQ点
の座標(x,y,z)は下式のようになる。
【0037】
【数3】 x=(rx/rz)・(z−zp)+xp (5) y=(ry/rz)・(z−zp)+yp (6) (1)(2)(3)式と(5)(6)式よりxとyは、
次式のようになる。
【0038】
【数4】 x=((ex−2sx(e*・s*))/(ez−2sz(e*・s*))・( z−zp)+xp (7) y=((ey−2sy(e*・s*))/(ez−2sz(e*・s*))・( z−zp)+yp (8) xとyは、P点とベクトルs*の関数であることが分か
る。言い換えると上記正反射板67の位置P点と上記正
反射板67の方向余弦s*の情報が含まれた指標がQ点の
座標となる。Q点を計測することにより音声器官の位置
と角度の含まれた情報が定量化されたことになる。これ
によって、上記正反射板67自体の位置変動成分(x
p,yp)が少ない発話においても(z−zp)成分が
あれば、口唇の微妙な角度変化により上記正反射光スポ
ット69の位置は大きく変化する。つまり口唇の変化が
増幅して捉えられるため、音声の検出精度を飛躍的に向
上させることが可能となる。これが本発明の第1の作用
である。
【0039】この効果を示すため口唇部に上記正反射板
を取り付けた場合の上記正反射光スポットの発話時の移
動量と同時にマーカを取り付けた場合の上記マーカの位
置の移動量を計測した結果を図7、図8に示す。図中の
移動量とは、上記正反射光スポットまたは上記マーカの
発話前の口唇を閉じた位置から、上記正反射光スポット
または上記マーカが発話時に動いた縦方向の最大の移動
量を示す。この時の上記正反射板および上記マーカの配
置位置は、図5に示される口唇正中部外周上部a1(5
1)、口唇正中部外周下部a2(52)、口角部横d(5
7)の位置とした。また発声した音素は、/a/、/m
/、/i/、/u/とし、1音づつゆっくり発音した。上
記マーカ位置の移動量は、スケールと共に撮影した口唇
画像をビデオデッキで再生しテレビ画面上の移動量を実
寸法に換算して求めた。上記正反射光スポット移動量の
計測は、図1の装置における上記位置検出センサ16上
の寸法から求めた。正反射光スポットの移動量が上記位
置検出センサ16の長さを超える場合には、目視により
スケールを用いてその移動量を測定した。口唇の上記マ
ーカ位置の移動量を示す図7と上記正反射板による上記
正反射光スポット位置の変化を示す図8を比較すると、
図7の上記マーカ位置の変化はその大半が口唇正中部外
周下部a2(52)、の位置移動によるものであり、口
唇正中部外周上部a1(51)や口角部横d(57)の移
動によるものは少なく高々3mm程度である。これに対
して図8の上記正反射光スポット位置の変化では、口唇
正中部外周下部a2(52)での移動量のみならず口唇
正中部外周上部a1(51)や口角部横d(57)での移
動量も大きく、少なくとも100mm程度にまで達して
いる。このことは、/m/、/u/の口角部横の移動量
に見られるように、各正反射板の貼り付け箇所によら
ず、それぞれの箇所の動きを万遍なく検出でき音声の特
徴量を抽出する優れた技術であることを示す。本発明の
作用により従来技術では検出できなかった音声器官の微
妙な動きの検出が可能となった。
【0040】第二の作用は、上記のように精度良く検出
した音声器官及びその周辺の外皮部の微妙な位置・角度
変位から話者が発声した音声の特徴量を抽出し、これと
あらかじめ記憶させておいた標準の音声パターンの特徴
量とを比較検定することにより、話者の発声した音声を
検出し、コード化された信号として出力することであ
る。この際検出する音声は、音素または拍レベルとしそ
の数は数十から百程度である。したがって標準音声の種
類もこの数となる。(拍とは発音の単位であり、日本語
の場合「あ」、「い」、「う」、「え」、「お」、
「か」、「き」、「く」、「け」、
「こ」、.......「ん」等の五十音に濁音、半濁
音、拗音を加えたもので百余種類あり、その多くは一組
の子音と母音からなる。) なお、本発明において、「停留点」とは、正反射光スポ
ットが一定速度以下である座標をいう。その場合の一定
速度とは、正反射光スポットの通常の速度より遅い速度
または速度ゼロ(停止している場合)をいう。
【0041】
【実施例】以下、実施例に即して本発明をより詳細に説
明する。
【0042】[実施例1]発話時の音声器官及びその周
辺の外皮の動きを精密に定量化することが、正確な音声
の検出に欠かせない。本発明ではこれを実現するため
に、基本構成として正反射板12、光源部10、位置検
出部23、音声検出部28を採用している。(図1、図
2参照)以下、順を追ってそれらを説明する。
【0043】本発明において検出対象となりうる音声器
官及びその周辺部の外皮部分は、非接触計測を狙いとす
るため、通常の生活環境で人体が外気に触れている顔面
および頚部とする。実施例1〜4において採用した計測
部位は、この中でも図5と図12に示すように。口部1
22の口唇正中部外周上部a1(51)、外周下部a2
(52)と口唇正中部内周上部b1(53)、内周下部
b2(54)及び口角部横d(57)、舌骨上部128
顎下三角129と頚動脈三角131および頚正中部13
2とが交わる付近の点e(58)とし、各点に上記正反
射板12を両面粘着テープで貼り付けた。上記正反射板
12は塗銀されたマイラーをプラスチックシートに貼り
付けて作製した。この正反射板12は光線を正反射させ
るものであり、実験では光線の減衰を防ぐため鏡面で反
射率が高い1〜5mm角の正方形のものを採用した。反
射率は、計測の結果83%であった。しかし、通常の職
場環境などでは人体に貼り付けて使用されることを考え
ると上記正反射板12は目立ちにくい透明な材料で製作
されていることが望ましい。透明部材であっても反射表
面が鏡面のように平滑であれば光線は正反射する。その
反射率はフレネルの式に従い透明部材の屈折率が1.4
であれば通常の入射角度においては反射率が2.8%程
度となる。この程度の反射率であっても正反射光の検出
は可能である。上記正反射板12を目立たなくするのと
は逆にアクセサリー的な用途も持たせて上記正反射板1
2にファッション性を有する彩色やデザインの付与も可
能である。また、形状も正方形のほか、長方形、台形、
円形、楕円形、三角形、六角形、星型など入射光線を正
反射しうる平面を有する形状であればよい。本発明で用
いる正反射板12とは光線を正反射させうる平滑な面を
有する反射板のことを指す、正反射光を検出できれれば
形状は問わず、反射率は上記のように低くても良い。一
方、従来技術に用いられるマーカ(M0〜M9)は、マ
ーカ自体を撮影し画像処理により上記マーカの位置情報
を検出するため上記マーカ材料表面の拡散反射成分を利
用している。このため拡散反射成分を大きくとり、さら
に口唇や肌の色とのコントラストが大きい濃度や色彩を
上記マーカに付与しており、本技術で用いられる正反射
成分の多い鏡面反射板や口唇や肌の色とのコントラスト
が小さい透明板は、従来技術のマーカには利用できな
い。また上記のファッション性を持たせた正反射板は、
比較的大きな拡散反射成分を有するが、花や幾何学模様
など細かく複雑なデザインで多彩な色使いが施されてい
るため、画像処理による位置検出が極めて困難であり、
やはり従来技術のマーカ(M0〜M9)には不向きであ
る。
【0044】上記正反射板12を口唇正中部の内周上部
b1(53)、内周下部b2(54)に貼り付けた場合
の発話者15の音声器官の変位を検出するため、上記正
反射板に光線13を照射する光源部10および、その正
反射光スポット69、70を受光し受光位置を検出する
位置検出センサ16を図1のように構成する。照明手段
として光源部10は、12V50Wのレフ型ハロゲンラ
ンプからの光を光ファイバーライトガイド11の一端か
ら入射させ上記光ファイバーライトガイド11を経由さ
せて他端より射出する光ファイバー照明装置を使用し
た。上記光ファイバーライトガイド11から射出する光
線13は、凸レンズ20によりその収束の度合いを調節
できる構造とした。赤外線成分が多いハロゲンランプか
らの光線を顔面に向けて照射するため、赤外線が長時間
網膜に照射することにより発生する目の障害を防止する
ため、赤外線吸収フィルター21(HA−30:HOY
A(株)製)をレンズ20の前面に挿入した。上記光ファ
イバー照明装置からなる光源部10を話者15の前面に
固定し、光線13を口唇正中の内周上部b1(53)、
内周下部b2(54)に取り付けた上記正反射板12に
向けて照射する。上記正反射板12は、この光線13を
正反射し話者15の前面下方に配置した位置検出センサ
16の受光面22上に正反射光スポット69、70とし
て投影される。上記正反射光スポット69、70は、口
唇正中部に貼り付けられた上記正反射板12からの正反
射によるものであるため、上記投影光は、人体正面の中
心線から大きく左右に振れることはなく、その軌跡は人
体の正中面111と位置検出センサ16の受光面22と
が交わる直線上に概略投影される。このため上記位置検
出センサ16には、一次元の受光センサが利用できる。
本実施例では受光範囲の長さが512mmと長いため受光
ダイオード33を複数個、発話者15の正中面前方に直
線的に配列することにより位置検出センサ16を形成し
た。センサとしては一次元方向の光線の受光位置を特定
できるものであれば、一次元CCDセンサの利用でも、
PDSと呼ばれる受光位置により左右電極に発生する電
位の差から受光位置の座標を検出する、位置検出センサ
の利用でも、また他の受光素子の使用も可能である。本
実施例1で用いた位置検出センサ16は、個々の受光ダ
イオード素子33を個別に固定する4mm間隔ピッチの
小さな長方形セル34(4×50mm)の集合からなる
ケースに実装したものである(図3参照)。また、上記
位置検出センサ16は、合計128個の受光ダイオード
33を配置したものであり全長512×50mmの細長
い長方形をしている。形状は、図3に示すような長方形
でなくても、人体の正中面111上に配列できる形状で
あれば、曲面で形成されていてもよい。受光ダイオード
33が取り付けられる小さなセル34に幅50mmを持
たせているのは、上記正反射光14による正反射光スポ
ット位置が人体の正中面上と位置センサー面とが交わる
直線から、多少外れても上記正反射光スポット69、7
0を検出できるためである。実験においては、頭部固定
用の棒18に話者の頭を軽く押し当てることで上記正反
射光スポット69、70が、正中面111から外れる度
合いは±5〜15mm程に収まっていた。上記長方形セ
ル34の内面は拡散性の白色塗料で塗装されており、そ
の中に入射した光は、拡散され128個の受光ダイオード
33のいずれかで検出される構造となっている。上記位
置検出センサ16は、入射した光によるいずれかの受光
ダイオード33からの電位と図4で示すセンサ・スイッ
チング回路17のシフトレジスタ41からのタイミング
情報によって上記正反射光スポット69、70の位置を
判別する。座標位置をより確実に判別するため、上記セ
ンサ・スイッチング回路17からの出力は、さらに出力
座標演算部19に入力される。上記出力座標演算部19
では、最大出力を示す受光ダイオード33の位置を座標
として判定する方式、または出力電圧の分布から重心を
演算し、重心に当たる受光ダイオード33の位置を座標
として判定する方式を採用した。ここでのシフトレジス
タ41のスイッチング周波数は40KHzであり、上記
正反射光スポットの位置信号を取り込み312.5Hz
のインターバル(3.2msecの検出周期)で上記正
反射光スポット69、70の受光部位置を検出できる。
上記のように上記位置検出センサ16、上記センサ・ス
イッチング回路17、上記出力座標演算部19により構
成される上記位置検出部23により口唇正中部の内周上
下部に取り付けた上記正反射板b1(53)、b2(5
4)の正反射光スポットの動きを、リアルタイムで捕ら
えることが可能となる。また、発声時に音声が出ている
時間は、音素の種類や話者により、また話者の状態によ
り大きく異なるが、村上らの測定によると、約10〜1
00msecの間にあることが示されており、母音は長
く子音は短い傾向にある(「自由発話音声における音響
的な特徴の検討」電子情報通信学会論文誌Vol.J78-D-I
I,No.12 pp.1741-1749 1995年12月)。通常のビデオ
レート1/30secまたは1/60secにおいては
録画のインターバルは、16.6msecか33.3m
secであり、音素の発声時間内に画像を捕らえられな
い可能性も高い。しかし、本発明の位置検出部23を用
いれば、声が出ている時間内で音声器官の形状検出が可
能となる。これにより上記口唇正中部の内周上部b1
(53)からの正反射光スポット70の位置と上記口唇
正中部の内周下部b2(54)からの正反射光スポット
69の位置の関係を求めることができる。
【0045】次に、b1(53)およびb2(54)の
位置などに貼り付けられた2つの正反射板からの正反射
光スポット69、70を、リアルタイムで同時に検出す
る4つの手段を示す。
【0046】第一の手段は、それぞれの上記正反射光ス
ポット69、70を独立して測定できる位置に各々位置
検出センサ201、202を2つ配置する方法である
(図20参照)。2つの正反射板12を口唇の上部と下
部に正中線112からそれぞれ左と右に多少ずらせた位
置に配置することにより各反射光スポット69、70を
別々に位置検出センサ201と202に投影させてい
る。この場合の位置検出部23のブロック図を図21に
示す。上記位置検出センサ201から出力される上記正
反射光スポット69の位置情報は、上記センサ・スイッ
チング回路17中の上記シフトレジスタ41からのタイ
ミング情報に含まれている。同様に位置検出センサ20
2から出力される上記正反射光スポット70の位置情報
も他のセンサ・スイッチング回路17中のシフトレジス
タ41からのタイミング情報に含まれている。これら2
つの位置情報は、チャンネル切り替え部203において
交互に出力座標演算部19に送られる。上記位置検出セ
ンサ201と202に投影される位置情報は、出力座標
演算部19で決定され音声検出部28の特徴量抽出部25へ
出力される。図示しないが本技術においては、チャンネ
ル切り替え部203を通さずに位置検出センサ201と
202の信号を直接2つの出力座標演算部19に並列に
出力し処理を行っても構わない。この第一の手段では、
2つの位置検出センサと正反射板を2枚使用したが、よ
り多くの位置検出を行うために2つ以上の位置検出セン
サと2枚以上の正反射板を使用することも可能であり本
技術に含まれる。
【0047】第二の手段は、位置検出センサ16を1つ
だけ用い光源部10に2つの光源220、221を使用
する。2つの正反射板12は、口唇の上部と下部にそれ
ぞれ配置される。この各正反射板12へ照射するそれぞ
れの光源220、221は、図22のように配置する。
光源220の点灯時には、対応する口唇下部に配置され
た正反射板12の正反射光スポット69が上記位置検出
センサ16に入射し、かつもう一方の口唇上部に配置さ
れた正反射板12の正反射光スポット222が上記位置
検出センサ16に入射しない位置に投影するように、光
源220とそれに対応する口唇下部に配置された正反射
板12を配置する。また、光源221点灯時には、対応
する口唇上部に配置された正反射板12の正反射光スポ
ット70が上記位置検出センサ16に入射し、かつ他方
の口唇下部に配置された正反射板12の正反射光スポッ
ト223が上記位置検出センサ16に入射しない位置
に、光源221と対応する口唇上部に配置された正反射
板12を配置する。各正反射板12は、正中線112か
らそれぞれ左と右に多少ずらせた位置に配置することに
より、異なる光源220と221によって照射された各
反射光スポット69、70の位置を1つの位置検出セン
サ16面上に投影させている。個々の正反射光スポット
69、70を独立に検出するため光源220、221
は、交互に点滅するように光源スイッチング回路224
により切り替えられている。この光源の点滅と同期する
ようチャンネル切り替え部203へ光源スイッチング回
路224から同期信号を送ることによりどちらの正反射
光スポット69、70の位置信号かを識別する。(図2
3参照)この第二の手段では、2組みの光源と正反射板
を使用した技術であるが、より多くの点の位置検出のた
め2組以上の光源と正反射板を利用することも可能であ
り、本技術に含まれる。
【0048】第三の手段は、分光特性の異なる2種類の
正反射板241と242を利用する。正反射板241と
242の分光反射特性は、両者の分光反射成分が実用上
重なり合わない程度に分離したものとする(図24参
照)。正反射板241は、中心波長600nmのバンド
パスフィルターをアルミマイラー製の正反射板表面に貼
り付けたものであり、正反射板242は、同様に中心波
長470nmのバンドパスフィルターをアルミマイラー
製の正反射板表面に貼り付けたものである。位置検出セ
ンサ251は、上記正反射板の分光特性とそれぞれ対応
した2種類の分光特性を有するよう、各正反射板と同等
の分光透過率を有するフィルターを受光センサ表面にそ
れぞれ貼り付け、近接して配置した受光センサ252と
受光センサ253とにより構成されている。(図25参
照)。光源は、1つの光源部10よりなり、上記光源部
10の分光特性は上記正反射板241と242両者の分
光反射特性範囲を含むものとする。上記正反射板24
1、242と上記受光センサ252、253および上記
光源部10の分光特性の一例を図24に示す。分光特性
は、上記の値に限らず、赤外領域であっても紫外領域で
あってもよい。本構成によれば正反射板241の正反射
光は受光センサ252と同じ波長範囲に収まっているた
め上記受光センサ252で検出できるが、受光センサ2
53とは異なる波長範囲であるため上記受光センサ25
3で検出しないように上記受光センサ253の出力電圧
に適切な閾値を設けることが可能である。同様に正反射
板242の正反射光は受光センサ253と同じ波長範囲
に収まっているため上記受光センサ253で検出できる
が、受光センサ252とは異なる波長範囲であるため上
記受光センサ252の出力電圧に適切な閾値を設けるこ
とにより検出しないことが可能である。このようにして
各反射光スポット69、70の位置を分離して検出する
ことができる。各正反射板241と242は、正中線1
12の近傍位置に配置することにより各反射光スポット
69、70を上記位置検出センサ251上に同時に投影
するように配置している。この場合の位置検出部23の
ブロック図を図26に示す。受光センサ252から出力
される正反射光スポット69の位置情報は、センサ・ス
イッチング回路17中のシフトレジスタ41(図4)から
のタイミング情報に含まれている。同様に受光センサ2
53から出力される正反射光スポット70の位置情報も
別のセンサ・スイッチング回路17中のシフトレジスタ
41からのタイミング情報に含まれている。これら2つ
の位置情報は、チャンネル切り替え部203において交
互に出力座標演算部19に送られる。位置検出センサ2
51の受光センサ252と受光センサ253に投影され
た、各正反射光スポットの位置情報は、出力座標演算部
19で決定され音声検出部28の特徴量抽出部25へ出力さ
れる。図示しないが本技術においては、チャンネル切り
替え部203を通さずに位置検出センサ251の各々の
受光センサ252と253の信号を直接2つの出力座標
演算部19に並列に出力し処理を行っても構わない。こ
の第三の手段では、2種類の正反射板241、242と2
種類の受光センサ252、253を使用したが、分光特
性が対応した正反射板と受光センサの組みを2組み以上
使用することも可能であり、本技術に含まれる。
【0049】第四の手段は、位置検出センサ16を1つ
だけ使用し、光源と正反射板は、それぞれ分光反射特性
が異なる2種類のものを使用する。光源部10は、それ
ぞれ分光特性の異なる2つの光源271と272を使用
した。2つの正反射板は、第三の手段で用いたものと同
じ正反射板241と242を使用した(図27参照)。上
記光源271、272および各正反射板241、242
は、図28のように配置する。上記光源271は、60
5nmの赤色発光ダイオードを使用し、上記光源272
には、470nmの緑色発光ダイオードを使用した。こ
れに対応する上記正反射板241の中心波長は600n
mであり、上記正反射板242の中心波長は470nm
である。異なる上記光源271と272によって照射さ
れた各反射光スポット69、70の位置は、1つの位置
検出センサ16面上に投影されている。上記位置検出セ
ンサ16は、上記光源271と272の分光特性および
上記正反射板241と242両者の分光反射特性の範囲
を含むものとする。上記正反射板241、242と上記
光源271、272および上記位置検出センサ16の分
光特性の一例を図27に示す。分光特性は、赤外領域で
あっても紫外領域であってもよくこの値に限らない。本
構成によれば上記正反射板241の正反射光は上記光源
271と同じ波長範囲で重なっているため上記位置検出
センサ16で検出できるが、上記光源272とは異なる
波長範囲であるため上記位置検出センサ16で検出しな
いように上記位置検出センサ16の出力電圧に適切な閾
値を設けることが可能である。同様に上記正反射板24
2の正反射光は上記光源272と同じ波長範囲で重なっ
ているため上記位置検出センサ16で検出できるが、上
記光源271とは異なる波長範囲であるため上記位置検
出センサ16の出力電圧に適切な閾値を設けることによ
り検出しないことが可能である。このようにして各反射
光スポット69、70の位置を分離して検出することが
できる。各正反射板241と242は、正中線112の
近傍位置に配置することにより各反射光スポット69、
70を上記位置検出センサ16上に同時に投影するよう
に配置している。
【0050】個々の正反射光スポット69、70を独立
に検出するため上記光源271、272は、交互に点滅
するように光源スイッチング回路273により切り替え
られている。この光源の点滅と同期するようチャンネル
切り替え部203へ上記光源スイッチング回路273か
ら同期信号を送ることによりどちらの正反射光スポット
69、70の位置信号かが識別される。(図29参照)
この第四の手段では、分光特性が同等の光源と正反射板
の組を2組用いた例を示したが、より多くの点の位置を
検出するために2組以上を用いることも可能であり、本
技術に含まれる。以上に示すように同時に複数の正反射
光スポット位置を検出する4つの手段を説明したが、こ
れらの手段を組み合わせて更に多くの点を同時に検出す
ることも可能であり、これらも本技術に含まれることは
勿論である。
【0051】次に上記技術を用いて、音声を検出する方
法を示すが説明を簡単にするため、図1および図2に示
す、最も単純な音声検出装置で二つの正反射光スポット
位置を個別に検出した場合で説明する。音声入力の例と
して母音/a,i,u,e,o/を単音ずつ区切りなが
ら入力した場合の各音素と反射光スポット69、70位
置との関係を検出する方法を以下に示す。始めに口唇を
閉じた状態で上記口唇正中の内周上部b1(53)と上
記口唇正中の内周下部b2(54)の正反射板12から
の反射光スポット位置の座標を上記位置検出センサ16
で、それぞれ検出し各正反射板貼り付け位置からの正反
射光スポット位置69、70の初期値として出力座標演
算部19の座標記憶部24にX01、X02として記憶
する。
【0052】
【数5】X01:口唇を閉じた状態のb1(53)から
の反射光スポット70の座標 X02:口唇を閉じた状態のb2(54)からの反射光
スポット69の座標 次に音声を発声した時の正反射光スポット69、70位
置の検出方法に関して説明する。単音ずつ区切った音声
入力では、口唇の形状は、発話の最後で250msほど
停留する傾向がある。この停留状態の口唇の形状を上記
口唇正中の内周上部b1(53)からの反射光スポット
70の位置と上記口唇正中の内周下部b2(54)から
の反射光スポット69位置の2つの座標点として以下の
処理により検出する。すなわち各正反射光スポット6
9、70の位置の動きをそれぞれ時間微分し、上記微分
値が許容値以下に収まり、且つその状態が所定の時間以
上継続した場合には、反射光スポット位置の移動は少な
いと見做し、この座標点を停留点として検出する。本実
施例においては、112msの時間間隔においてdX/
dtの平均値が、33.3mm/s未満の場所を停留点
として採用した。これは112msの間に上記正反射光
スポット位置が上記正反射光スポット69、70を受光
している上記位置検出センサ16のセル34から隣接す
るセルに移動しない場合に相当する。この値は本実験装
置の配置において採用した値であり、実験装置の寸法形
状の変化、および正反射板12の貼り付け位置の変化に
より設定値の変更が必要である。このようにして検出し
た上記口唇正中の内周上部と上記口唇正中の内周下部の
反射光スポット69、70の座標を以下の記号で示す。
【0053】
【数6】X11:b1(53)からの正反射光スポット
70の停留点の座標 X12:b2(54)からの正反射光スポット69の停
留点の座標 これら停留点の座標から口唇を閉じた状態の各々の初期
値座標X01、X02を引くことにより各反射光スポッ
ト停留点までの移動量が算出される。これらの移動量を
以下の記号で示す。
【0054】
【数7】b1(53)からの正反射光スポット70の移
動量:X1=X11−X01 b2(54)からの正反射光スポット69の移動量:X
2=X12−X02 実験は、30代 〜40代の男性3名に対して3回づつ
の繰り返しで実施した。話者15の顔の動きを少なく押
さえるため、図1に示すよう頭部固定用の棒18に頭を
軽く押し当てた状態で発話した。この時顔の動きをモニ
ターする目的で鼻部121の頭に正反射部材fを配置し
た(図5参照)。上記正反射部材fからの正反射光は、
上記位置検出センサ16の受光面22に入射しないよ
う、上記正反射部材f(59)の貼り付け位置を正中面
から2mm程右にずらせた。発話時の上記反射光スポッ
ト位置の移動は、被験者3名とも少なく±5mmの範囲
に収まっていた。これは口唇からの正反射光スポット6
9、70位置の移動量(〜400mm)に比べ十分小さ
い。このため顔の動きを無視して口唇からの正反射光ス
ポット69、70の位置を算出した。発声により生ずる
正反射光スポットの移動量X1、X2は被験者毎に異な
っていた。被験者ごとの上記座標位置の違いは、発声法
の差、顔立ちや口唇形状の違い、正反射板12の貼り付
け位置の差、上記位置検出センサ16から話者15の顔
までの高さの差等が原因と推定される。しかし、同一話
者による繰り返し実験では上記座標位置の再現性は±
3.2度以内に収まり優れていた。また、X1、X2座
標で示される音素ごとの方向は、話者によらず同様な傾
向が見られた。
【0055】上記口唇正中の内周上部b1(53)から
の正反射光スポット70の移動量x1を縦軸とし上記口
唇正中の内周下部b2(54)からの正反射光スポット
69の移動量x2を横軸として、記入した40代男性被
験者の特徴ベクトルのグラフを図13に示す。口唇を閉
じた状態の反射光スポット位置の座標は、このグラフ上
では原点に当たり、母音/a,i,u,e,o/におけ
る反射光スポット位置の停留点は、原点からのベクトル
(a*,i*,u*,e*,o*)としてそれぞれ示され
る。このグラフより、母音/a,i,e/のベクトルa
*,i*,e*は同じ方向性を持ち一つの集団を形成して
いる。a*,i*,e*と方向は異なるが、同様に母音/
u,o/のベクトルu*,o*も同じ方向性を持ち一つの
集団を形成している。これらから、母音/a,i,e/
と母音/u,o/は、異なる音声器官の形状を持つ音声
として分類することが可能となる。音声学においては、
母音/u,o/は唇音と呼ばれる、これに対して母音/
a,i,e/は非唇音である。このように本実施例によ
り音声を分類できることが示された。このx1,x2と
で示される音素に対応するベクトルの方向、すなわち角
度範囲を特徴量抽出部25にて算出し、この角度範囲と
あらかじめ標準パターン記憶部27に記憶させてあった
各音素の標準の角度範囲とを比較部26において比較・
検定することにより入力された音素を分類することが可
能となる。
【0056】単音づつ区切った音声入力程顕著ではない
が、上記の村上らによると話者が連続的に発話する場合
には、音声の発生時間は日本語の場合1拍あたり120
ms程度である。このうち大半の時間は、母音に費やさ
れる。1拍中で子音から母音へ切り変わる際、また母音
から次の拍の子音または母音に切り替わる際、一瞬反射
光スポットの動きが停止することが実験により判明して
いる。静止時間は大体10〜30msである。このよう
な静止点は、反射光スポット位置の微分値が0となるこ
とにより求められる。また、反射光スポット位置の二次
微分を求め、その値が0となる変曲点を捉えることによ
り、次の静止点を予測することも可能である。単音づつ
区切った音声入力よりも精度は落ちるが、本技術によっ
て連続発話時の音素の位置座標の検出も可能となる。
【0057】[実施例2]音声の分類を行う他の実施例
として、実施例1と同じ装置を用いて同様の方法で、上
記正反射板12を口唇正中の外周上部a1(51)、外周
下部a2(52)に貼り付け音声を分離する例を示す(図
5参照)。音声入力の例として母音/a,i,u,e,
o/を単音ずつ区切りながら入力した場合の各音素と正
反射光スポット位置との関係を検出する方法を以下に示
す。始めに口唇を閉じた状態で上記口唇正中の外周上部
a1(51)と上記口唇正中の外周下部a2(52)の各正
反射板12からの正反射光スポット69、70の位置の
座標をそれぞれ検出し各正反射板の貼り付け部からの正
反射光スポット69、70の位置の初期値とし出力座標
演算部19の座標記憶部24にX03、X04として記
憶させる。
【0058】
【数8】X03:口唇を閉じた状態の口唇a1(51)か
らの正反射光スポット70の座標 X04:口唇を閉じた状態の口唇a2(52)からの正反
射光スポット69の座標 次に実施例1と同様にして検出した、発声時の上記口唇
正中部の外周上部a1(51)と外周下部a2(52)の正
反射光スポット69、70の停留点の座標を以下の記号
で示す。
【0059】
【数9】X13:a1(51)からの正反射光スポット
70の停留点座標 X14:a2(52)からの正反射光スポット69の停
留点座標 これら停留点の座標から口唇を閉じた状態の各々の初期
値座標を引くことにより各正反射光スポットの停留点ま
での移動量が算出される。これら移動量を以下の記号で
示す。
【0060】
【数10】口唇部a1(51)からの正反射光スポット
70の移動量:x3=X13−X03 口唇部a2(52)からの正反射光スポット69の移動
量:x4=X14−X04 話者は、実施例1と同じ40代男性である。上記口唇正
中の外周上部a1(51)からの正反射光スポット70の
移動量x3を縦軸とし上記口唇正中の外周下部a2(5
2)からの反射光スポット69の移動量x4を横軸とし
て記入したグラフを図14に示す。口唇を閉じた状態の
正反射光スポット69、70の位置の座標は、このグラ
フ上では原点であり、母音/a,i,u,e,o/にお
ける正反射光スポット位置の停留点は、原点からのベク
トル(a*,i*,u*,e*,o*)としてそれぞれ示さ
れる。このグラフより、母音/a,i,o/のベクトル
*,i*,o*は同じ方向性を持ち一つの集団を形成し
ている。また母音/u/のベクトルu*、母音/e/の
ベクトルe*は、それぞれ別の方向性を有している。こ
れらから、母音/a,i,o/と母音/u/及び母音/
e/は、それぞれ口唇正中部の外周上a1(51)、a2
(52)において異なる音声器官の形状を持つ音声とし
て分類することが可能となる。他の話者においても一見
異なるがベクトルの方向の類似が示された(図15参
照)。このように本実施例2においても音声を分類でき
ることが示された。しかし、音声検出の精度を向上する
ためには、話者の特定が望ましいことも図14と図15
の比較から示唆された。このx3,x4とで示される音
素に対応するベクトルの方向、すなわち角度範囲を特徴
量抽出部25にて算出し、この角度範囲とあらかじめ記
憶部27に記憶させてあった各音素を分類する標準の角
度範囲とを比較部において検定・比較することにより入
力された音素を分類する事ができる。
【0061】図14において母音/a,i,o/のベク
トルa*,i*,o*は同じ方向性を持つが、母音/a,
i/のベクトルa*,i*と母音/o/のベクトルo*
はその長さが顕著に異なっている事が分かる。この現象
は音声の分類に有用な情報であるが、同じ音素を発声し
ても口唇を開く大きさ、たとえば話者の声の大きさによ
り、ベクトルの長さは変化する。このため単にベクトル
の長さで音声の検出を行っても誤差が多く正確な検出は
困難であった。しかし、本技術では通常の会話程度の口
唇の動きがあれば母音を表現するベクトルの方向性は同
一話者であればほとんど変化しないため精度の高い音声
検出方法となる。実施例1と実施例2との検出法を組み
合わせることにより母音を/a,i/、/u/、/e
/、/o/の4種類に分類することが可能となる。音声
をより厳密に検出するために、以上に示した口部122
のみならず、オトガイ部123、舌骨上部128、頚正
中部132の正中線112近傍の外皮に上記正反射板1
2を配置することも本技術に含まれることは勿論であ
る。
【0062】[実施例3]上記実施例においては、音声
器官及びその周辺部の正中線112の近傍にあたる部分
の動きを上記正反射板12の正反射光スポット69、7
0の位置で検出し、音声を分類する方法を示したが。本
実施例3においては、正中線112の近傍以外に上記正
反射板12を配置し音声器官の動きを上記正反射板12
の正反射光スポット位置で検出する技術を説明する。正
中線112の近傍以外に上記正反射板12を配置する場
合、その正反射光スポットの投影位置は実施例1、及び
実施例2とは異なり、正中線112の左右方向に振れ
る。このため、その軌跡のほとんどは人体正中面と受光
部平面22とが交わる直線から外れた位置に投影される
ことになる。従って上記正反射光スポット位置を検出す
る位置検出センサとして、二次元の情報を受光するセン
サが必要となる。本実施例では、垂直488画素、水平
378画素を有するイメージサイズ12.7mmの二次
元CCDを用いたビデオカメラを使用した。検出装置の
構成と配置を図16に示す。本検出装置は光源部10、
正反射板12、スクリーン162、二次元CCDカメラ
161よりなる。上記光源部10は、発光ダイオード1
65とその電源回路164より構成される。実験では正
反射光スポット163が目視できるよう中心波長580
nmの赤色発光ダイオードを使用した。なお、光線の動き
が見えないように赤外発光ダイオードの利用も可能であ
る。上記光源部10からの光線13は、舌骨上部12
8、顎下三角129と頚動脈三角131および頚正中部
132とが交わる付近の下顎側部の点e(58)に配置
された正反射板12を照明する。上記正反射板12から
の正反射光14は、上記下顎側部e(58)の位置と角
度に応じて正反射光の方向を変え、上記スクリーン16
2面上に正反射光スポット163として投影される。上
記正反射光スポット163の画像は、上記二次元CCD
カメラ161により撮影され、その出力信号174は、
図17に示すように二次元CCDセンサ171の主走
査、副走査方向の信号としてCCD駆動回路172を介
して出力座標演算部173へ出力される。上記スクリー
ン162面上に投影される上記正反射光スポット163
の強度は上記正反射光スポット163が当たらない部分
と比較すると数倍強く、上記正反射光スポット163検
出のために閾値を設定することにより屋内であれば、容
易に周囲の光線の影響を除去し、上記正反射光スポット
163のみの抽出が可能である。上記二次元CCDの主
走査開始信号からの時間で上記正反射光スポット163
のx軸座標が求まり副走査の時間よりy軸座標が求めら
れる。この検出精度をより確かなものとするためには、
光源として単色性の強い発光ダイオードを使用し、上記
正反射光スポット163から二次元CCDまでの光路中
に上記発光ダイオードの発光波長に対応したバンドパス
光学フィルターを挿入し他の分光特性を有する光線を遮
断するすることにより周囲の光線からの影響を低減させ
正反射光スポット163のコントラストを高く検出する
ことができる。また電源回路164にスイッチング回路
機能を設け上記二次元CCDカメラ161の駆動周波数
と同期させてフレーム毎に発光ダイオード165を点滅
させることにより、上記発光ダイオード165点灯中の
1フレームの画像信号をフレーム記憶装置に記憶させ、
これと上記発光ダイオード消灯中の次フレームの画像信
号との差をとることにより、上記二次元CCD出力のフ
レーム間の差分、すなわち上記正反射光スポット163
のみを検出することができる。この場合位置信号のサン
プリング周期は、2倍の1/30秒となる。
【0063】本実施例では、音声の分類実験として、口
唇を閉じた状態から母音/a,i,u,e,o/を区切
って発音し下顎側部e(58)に配置した上記正反射板
12から正反射し投影されたスクリーン162上での正
反射光スポット163のx−y位置の座標を出力座標演算
部173で求めた。被験者は40代の男性とした、口唇を
閉じた状態から各母音を発声し口唇を閉じるまでの間を
撮影した。上記下顎側部e(58)に配置された上記正
反射板12からの正反射光がスクリーン162上に投影
する上記正反射光スポット163の軌跡の測定結果を図
18に示す。グラフ上の原点は、口唇を閉じた状態での
上記下顎側部e(58)から投影される上記正反射光ス
ポット163の位置を示す。グラフ上の各音素の終点
は、発音の最終段階の停留点位置の座標である。グラフ
上の各母音の発声に伴う上記正反射光スポットの軌跡
は、人体の向かって右側に上記正反射板12を貼り付け
た場合は、/a/,/o/,/e/,/u/,/i/の
順に反時計回りに第三象現から第四象現に向かってい
る。これにより母音の種類を口唇を閉じた状態の原点位
置から、発音の最終段の停留点位置との軌跡、または二
点を結ぶベクトルの方向により分類することができる。
あらかじめ記憶部に記憶させておいた各音声ごとの標準
のベクトル方向と測定結果とを比較部26で比較するこ
とより音声の分類が可能となる。本実施例においては、
二次元CCDカメラを用いたが、スクリ―ン部に二次元
位置検出センサを配置して直接反射光を検出することも
本技術に含まれる。また、正反射板12の貼り付け位置
は、下顎側部の点e(58)以外でもよい。
【0064】[実施例4]本実施例においては、実施例
3の装置構成で検出した正反射光スポットの位置座表か
ら軌跡データを求めこのデータをパターン認識すること
により音素を検出する方法を示す(図16参照)。被験
者は40代の男性1名の特定話者で、正反射板12は、実
施例3と同じ下顎部側部e(58)に配置した。音声
は、5つの母音/a/,/i/,/u/,/e/,/o
/を1音ずつ区切って通常の声量ではっきりと発音し
た。同じ発声とならないよう間隔を数秒空け、発声する
母音の順番はランダムとした。始めに標準とするマップ
データとして利用するため各母音を5回ずつ計25回入力
して正反射光スポット座標の軌跡を求めた。各音素デー
タは、上記正反射光スポットのy成分が動きだしてから
静止するまでの時間で切り出した。本実施例の装置にお
いては、上記正反射光スポットの移動量が隣接するフレ
ーム間で3画素以内でありこれが3フレーム以上続く場
合を静止とみなした。切り出された軌跡をx成分とy成
分に分解し、横軸を時間軸として示したグラフの一部を
図30および図31に示す。縦軸はCCDセンサの垂直
方向の画素位置を表わし、横軸は画像のフレーム数を時
間に換算して表わした。
【0065】これらマップデータに対して認識データと
しての母音を、同じ方法で各母音ごとに37個づつ合計
175個採取する。発声時の声の大きさや時間間隔の差
により、上記正反射光スポットのx成分とy成分の振幅
や継続時間が異なるため、そのままの形でパターン認識
を行うと誤差が多く認識率が低下する。通常このような
時系列パターンを認識する場合、認識データの時系列パ
ターンを標準とするマップデータの時系列パターンと比
較するために、動的に時間軸を正規化する方法が用いら
れる。その代表的な手法として動的計画法(Dynamic Pr
ogramming:以下、DPマッチング法と呼ぶ)がある。本
実施例では、上記のx成分、y成分の微分値を各成分毎
にDPマッチング法によって時間軸を規格化した。以下
にその方法を示す。
【0066】今二つの時系列パターンAとBが式(9)で表
現されるとする。
【0067】
【数11】 A=a1,a2,・・・ai,・・・aI B=b1,b2,・・・bj,・・・bJ (9) ただしaiはAの第iフレームを示し、bjはBの第jフレーム
を示すものとする。I及びJはA及びBの時間長で画像フレ
ームの総数とする。
【0068】aiとbjの距離をd(i,j)とすると、AとBの距
離D(A,B)は、式(10)に従いi,を1からIまで、jを1からJ
まで順次g(i,j)を算出してg(I,J)を求め、これを(11)式
に代入することで求められる。
【0069】
【数12】 g(1,1)=2d(1,1) g(1,j)=g(1,j-1)+d(1,j) (1<j<=J) g(i,1)=g(i-1,1)+d(i,1) (1<i<=I) g(i,j)=min{g(i,j-1)+d(i,j),g(i-1,j-1)+2d(i,j),g(i-1,j)+d(i,j)} (10) D(A,B)=g(I,J)/(I+J) (11) 本実施例で扱う時系列パターンのフレームデータは二次
元であることから(9)式のaiは(Xai,Yai)にbjは(Xbj,Yb
j)とする。また、同じ音素でも正反射光スポットの初期
点の位置が異なる場合がある。この影響を減少させるた
めフレームデータとしてX座標とY座標の微分値(X'ai Y'
ai)と(X'bj,Y'bj)を代入した。これにより距離d(i,j)
は、式(12)のように定義される。
【0070】
【数13】 d(i,j)=sqrt{(X'ai-X'bj)2+(Y'ai-Y'bj)2} (sqrtは平方根を意味する) (12) 認識対象をAとし、標準パターンをB(n)(n=1,2,3,4,
5)とする。ここでnは標準パターンの種類、すなわち母
音/a/、/i/、/u/、/e/、/o/を意味す
る。Dn=D(A,B(n))を上述の方法で計算し、最小のDnを与
える標準パターンnの母音を認識データAに対する認識結
果とする。本実施例では、各音素ごとに5個づつの標準
パターンを採用したためDnは5個づつ求まり、それらの
合計が最小となるnを認識データAに対する認識結果と
した。
【0071】以上の処理により得られた認識率を表1に
示す。
【0072】5つの母音の平均認識率は、92.4%で
あり下顎側部は音声の検出点として極めて優れた点であ
ることが見いだされた。
【0073】
【表1】 本実施例では、DPマチング法を用いてパターン認識を
行ったが、より厳密なパターン認識を行うため、ニュー
ロネットワーク等他の技術の利用も可能である。また、
本実施例では正反射板12を1枚だけ使用したが、認識
率を高めるため複数個の正反射板を使用することも可能
であり、さらに前述した実施例1、2、3の技術を組み
合わせることも可能である。各技術を組み合わせて使用
した場合の本発明装置の構成例を図19に示す。本構成
例の装置は、発光ダイオードが埋め込まれた光源30
1、302、303、304、305と、一次元位置検
出センサ306、307および二次元位置検出センサ3
08を一体として構成し、被験者15の頭部に装着可能
なヘッドセット309とした。これにより被験者の音声
器官及びその周辺部の外皮に配置された図示しない正反
射板からの正反射光スポットの一次元位置検出センサ3
06、307および二次元位置検出センサ308への投
影位置が、たとえ被験者の頭部全体が発話中に移動して
も、実用上変動しないことになる。
【0074】本発明においては、正反射板の貼り付け位
置として図5に示す点を主に説明したが、他の部分でも
有用な音声および音声以外の特徴量を抽出することが可
能である。オトガイ部123は母音、音素/m/などの
特徴量抽出点として有効である。頬部125は、母音、
唇音、破裂音などの検出に有効である。また、耳下腺交
筋部127は、発音による口の動きか咀嚼による口の動
きかを区別する上で重要な検出点である。下顎後窩13
0は、上記正反射板の位置移動が少なく顎の動きを上記
正反射板の角度変動を主に取り出す際有効な検出点であ
る。さらに、鼻部121特に鼻翼部は、鼻音や呼吸を取
り出す際に有効な検出点となる。眼窩下部124は、母
音の/i/や子音の/j/、拗音などを検出する際に有効
な測定点となる。頚動脈三角131は、声帯の振動を捉
える点として優れた検出点である。頚正中部132は、
声帯自身の動きを捉える点として有効であり、発声にお
けるピッチ情報の検出に特に有効である。同時に頚正中
部132は、発声以外の動きとして、嚥下、咳、くしゃ
み、あくび、おくび、シャックリ等音声情報のノイズ成
分となる生理作用を検出する際の中心的な検出点でもあ
る。更にこれらの検出点は、泣き、笑い、怒り、喜び、
悲しみ、驚き、恐怖など顔の表情を捉える技術としても
有効と考えられる。このように本発明における、音声器
官およびその周辺の外皮の角度成分検出法は、従来技術
と比べより広範囲な外皮部分で音声検出および他の情報
を採取できるという特徴を有している。
【0075】
【発明の効果】以上説明したように、本発明によれば、
音声器官およびその周辺の外皮の表面角度に基づく特徴
量を利用して音声を検出することができる。
【図面の簡単な説明】
【図1】 本発明の実施例1および実施例2で用いられ
た音声検出装置の基本構成を示す図である。
【図2】 図1の音声検出装置の詳細を示すブロック図
である。
【図3】 上述実施例1および実施例2で用いられた位
置検出センサの構成例を示す斜視図である。
【図4】 本発明の位置検出部のセンサ・スイッチング
回路例を示す回路図である。
【図5】 話者の音声器官およびその周辺の外皮に取り
付けられた正反射板の配置位置を説明する図である。
【図6】 正反射板の位置・角度と正反射光スポット投
影点との関係を説明する図である。
【図7】 従来技術のマーカの移動量を示す図である。
【図8】 本発明の検出精度の高さの根拠となる、正反
射光スポット移動量を示す図である。
【図9】 音声器官を説明する図である。
【図10】 従来技術のマーカ貼り付け位置と抽出する
特徴量とを説明する図である。
【図11】 人体頭部の正中面、正中線を説明する図で
ある。
【図12】 音声器官およびその周辺の外皮部分の名称
を説明する図である。
【図13】 話者1の実施例1における母音の特徴ベク
トルを示す図である。
【図14】 話者1の実施例2における母音の特徴ベク
トルを示す図である。
【図15】 話者2の実施例2における母音の特徴ベク
トルを示す図である。
【図16】 本発明の実施例3実施例4で用いられた音
声検出装置の基本構成を示す図である。
【図17】 CCDセンサ出力を説明する図である。
【図18】 話者1の実施例3における母音の特徴ベク
トルを説明する図である。
【図19】 実施例1、2、3、4で説明した本発明の
技術を組み合わせた場合の音声検出装置の構成例を示す
斜視図である。
【図20】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第一の手段の構成を示
す図である。
【図21】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第一の手段の構成例を
示すブロック図である。
【図22】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第二の手段の構成を示
す図である。
【図23】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第二の手段の構成例を
示すブロック図である。
【図24】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第三の手段のセンサ・
正反射板の分光特性を示す図である。
【図25】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第三の手段の構成を示
す図である。
【図26】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第三の手段の構成を示
すブロック図である。
【図27】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第四の手段の光源・正
反射板の分光特性を示す図である。
【図28】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第四の手段の構成を示
す図である。
【図29】 実施例1に示す、複数の正反射板からの正
反射光スポットを同時に検出する第四の手段の構成例を
示すブロック図である。
【図30】 実施例4に示す、母音「あ」のデータ例を
示すグラフである。
【図31】 実施例4に示す、母音「い」のデータ例を
示すグラフである。
【符号の説明】
10 光源部 11 光ファイバーライトガイド 12 正反射板 13 光線 14 正反射された光線 15 話者 16 位置検出センサ 17 センサ・スイッチング回路 18 頭部固定用の棒 19 出力座標演算部 20 凸レンズ 21 赤外線吸収フィルター 22 受光部平面 23 位置検出部 24 座標記憶部 25 特徴量抽出部 26 比較部 27 標準パターン記憶部 31 長方形セル・アレイ 32 接続線 33 受光ダイオード 34 小さな長方形セル 41 シフトレジスタ 51 口唇正中部外周上部a1 52 口唇正中部外周下部a2 53 口唇正中部内周上部b1 54 口唇正中部内周下部b2 55 口唇上側部c1 56 口唇下側部c2 57 口角部横d 58 下顎側部e 66 光線 67 正反射板 68 正反射光線 69 正反射光スポット 70 正反射光スポット 101 口唇特徴ベクトルの成分 102 口唇特徴ベクトルの成分 103 口唇特徴ベクトルの成分 104 口唇特徴ベクトルの成分 105 口唇特徴ベクトルの成分 111 正中面 112 正中(線) 121 鼻部 122 口部 123 オトガイ部 124 眼窩下部 125 頬部 126 頬骨部 127 耳下腺交筋部 128 舌骨上部 129 顎下三角 130 下顎後窩 131 頚動脈三角 132 頚正中部 133 胸鎖乳突筋部 134 外側頚三角部 161 二次元CCDカメラ 162 スクリーン 163 正反射光スポット 164 電源回路 165 発光ダイオード 171 二次元CCDセンサ 172 CCD駆動回路 173 出力座標演算部 174 正反射光スポット出力信号 201 位置検出センサ 202 位置検出センサ 203 チャンネル切り替え部 220 光源 221 光源 222 正反射光スポット 223 正反射光スポット 224 光源スイッチング回路 231 電源 232 電源 241 正反射板 242 正反射板 251 位置検出センサ 252 受光センサ 253 受光センサ 271 光源 272 光源 273 光源スイッチング回路 274 電源 275 電源 301 光源 302 光源 303 光源 304 光源 305 光源 306 一次元位置検出センサ 307 一次元位置検出センサ 308 二次元位置検出センサ 309 ヘッドセット 901 肺 902 喉頭 903 口腔 904 鼻腔 905 口唇 906 舌 907 咽頭 908 上唇 909 下唇 910 鼻 911 鼻孔 912 食道 M0 従来技術のマーカ M1 従来技術のマーカ M2 従来技術のマーカ M3 従来技術のマーカ M4 従来技術のマーカ M5 従来技術のマーカ M6 従来技術のマーカ M7 従来技術のマーカ M8 従来技術のマーカ M9 従来技術のマーカ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 福井 基文 神奈川県足柄上郡中井町境430 グリー ンテクなかい 富士ゼロックス株式会社 内 (72)発明者 清水 正 神奈川県足柄上郡中井町境430 グリー ンテクなかい 富士ゼロックス株式会社 内 (56)参考文献 特開 平10−11089(JP,A) 特開 平8−187368(JP,A) 特開 平7−306692(JP,A) 特開 平6−43897(JP,A) 特開 平6−12483(JP,A) 特開 平4−257900(JP,A) 特開 平3−40177(JP,A) 特開 昭64−62123(JP,A) 特開 昭62−239231(JP,A) 特開 昭60−3793(JP,A) 特開 昭57−160440(JP,A) 特開 昭55−121499(JP,A) 特開 昭52−112205(JP,A) 米国特許5473726(US,A) (58)調査した分野(Int.Cl.7,DB名) A61B 5/11 G06T 1/00 G10L 11/02 G10L 15/04 G10L 15/24 JICSTファイル(JOIS)

Claims (17)

    (57)【特許請求の範囲】
  1. 【請求項1】 話者の発声に伴い変化する音声器官およ
    びその周辺の外皮において、上記外皮表面の角度及び角
    度の時間的変化の一方又は双方から特徴量を抽出し音声
    を検出することを特徴とする音声検出装置。
  2. 【請求項2】 話者の発声に伴い移動する正反射光スポ
    ットを受光する位置検出センサと、上記正反射光スポッ
    トの座標位置を算出する出力座標演算部と、上記座標位
    置または上記座標位置の時間的変化の情報より特徴量を
    抽出する特徴量抽出部と、あらかじめ上記正反射光スポ
    ットの座標位置または上記座標位置の時間的変化より得
    られる特徴量の標準パターンを記憶させた標準パターン
    記憶部と、上記特徴量抽出部からの信号と上記標準パタ
    ーン記憶部に記憶された上記特徴量の標準パターンとを
    比較する比較部とを有することを特徴とする音声検出装
    置。
  3. 【請求項3】 上記特徴量抽出部において上記正反射光
    スポットの座標位置の時間的変化から停留点を検出し、
    上記停留点より上記特徴量を抽出することを特徴とする
    請求項2記載の音声検出装置。
  4. 【請求項4】 可視光、赤外光、または紫外光の光線を
    発生し上記話者の音声器官及びその周辺の外皮部に照射
    させる光源部と、上記話者の音声器官及びその周辺の外
    皮に取り付けられ上記光線を正反射する正反射板とによ
    り、上記正反射光スポットを形成することを特徴とする
    請求項2または3記載の音声検出装置。
  5. 【請求項5】 上記位置検出センサと上記光源部とが一
    体として構成され、上記話者の頭部に装着されることを
    特徴とする請求項4記載の音声検出装置。
  6. 【請求項6】 上記話者の音声器官及びその周辺の外皮
    部に上記正反射板を複数個取り付け、各正反射板から正
    反射される各々の正反射光スポットを識別する識別手段
    を有し、識別された個々の正反射光スポットから算出さ
    れた個々の座標位置相互の関係から特徴量を抽出するこ
    とを特徴とする請求項3、4または5記載の音声検出装
    置。
  7. 【請求項7】 上記複数個の正反射板からの複数の正反
    射光スポットを分離して検出するため複数個の位置検出
    センサを用いることを特徴とする請求項6記載の音声検
    出装置。
  8. 【請求項8】 上記複数個の正反射板を照射する光源部
    が複数の光源から成り、各光源が組み分けされた上記正
    反射板の各々の組を分担して照射することを特徴とする
    請求項6または7記載の音声検出装置。
  9. 【請求項9】 上記話者の音声器官及びその周辺の外皮
    の正中部に取り付けられた上記正反射板によって正反射
    された上記正反射光スポットを受光する上記位置検出セ
    ンサが、1次元の位置検出センサであることを特徴とす
    る請求項4、5、6、7または8記載の音声検出装置。
  10. 【請求項10】 上記話者の音声器官及びその周辺の外
    皮の正中部から外れた位置に取り付けられた上記正反射
    板によって正反射された上記正反射光スポットを受光す
    る上記位置検出センサが、2次元の位置検出センサであ
    ることを特徴とする請求項4、5、6、7または8記載
    の音声検出装置。
  11. 【請求項11】 上記光源部が、異なった分光特性を有
    する複数の光源から構成されることを特徴とする請求項
    8記載の音声検出装置。
  12. 【請求項12】上記光源部の上記複数の光源が順次点滅
    作動するようにスイッチング回路を具備したことを特徴
    とする請求項8または11記載の音声検出装置。
  13. 【請求項13】 上記複数の正反射板が複数の異なった
    分光反射特性を有することを特徴とする請求項6、7、
    8、9、10、11または12記載の音声検出装置。
  14. 【請求項14】 2次元の位置検出センサとして、スク
    リーンと2次元CCDカメラとを一対として配置し上記
    スクリーン上に投影された上記正反射光スポットの撮影
    が可能な構成とし上記正反射光スポットの位置をCCD
    センサ出力より算出することを特徴とする請求項10記
    載の音声検出装置。
  15. 【請求項15】 上記話者の音声器官及びその周辺の外
    皮に取り付ける上記正反射板の取り付け位置が、上記話
    者の舌骨上部、顎下三角、頚動脈三角、頚正中部の少な
    くとも1つに含まれることを特徴とする請求項4、5、
    6、7、8、9、10、11、12、13または14記
    載の音声検出装置。
  16. 【請求項16】 上記話者の音声器官及びその周辺の外
    皮に取り付ける上記正反射板の取り付け位置が、上記話
    者の口唇正中部内周上部および口唇正中部内周下部であ
    ることを特徴とする請求項4、5、6、7、8、9、1
    0、11、12または14記載の音声検出装置。
  17. 【請求項17】 上記話者の音声器官及びその周辺の外
    皮に取り付ける上記正反射板の取り付け位置が、特に話
    者の口唇正中外周上部および口唇正中部外周下部である
    ことを特徴とする請求項4、5、6、7、8、9、1
    0、11、12または14記載の音声検出装置。
JP09048839A 1997-03-04 1997-03-04 音声検出装置 Expired - Fee Related JP3112254B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP09048839A JP3112254B2 (ja) 1997-03-04 1997-03-04 音声検出装置
US09/032,979 US6272466B1 (en) 1997-03-04 1998-03-02 Speech detection apparatus using specularly reflected light
EP98103721A EP0863474A3 (en) 1997-03-04 1998-03-03 Optical feature extraction for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09048839A JP3112254B2 (ja) 1997-03-04 1997-03-04 音声検出装置

Publications (2)

Publication Number Publication Date
JPH10243938A JPH10243938A (ja) 1998-09-14
JP3112254B2 true JP3112254B2 (ja) 2000-11-27

Family

ID=12814427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09048839A Expired - Fee Related JP3112254B2 (ja) 1997-03-04 1997-03-04 音声検出装置

Country Status (3)

Country Link
US (1) US6272466B1 (ja)
EP (1) EP0863474A3 (ja)
JP (1) JP3112254B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0895190A3 (en) * 1997-07-18 2001-01-17 Artwings Co., Ltd. Motion detection system
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2002152397A (ja) * 2000-11-10 2002-05-24 Honda Motor Co Ltd 通話装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US7155393B2 (en) * 2001-08-18 2006-12-26 Visionrx, Llc Method for establishing fixation employing speech recognition
JP4075670B2 (ja) * 2003-04-09 2008-04-16 トヨタ自動車株式会社 変化情報認識装置および変化情報認識方法
DE102006004197A1 (de) * 2006-01-26 2007-08-09 Klett, Rolf, Dr.Dr. Verfahren und Vorrichtung zur Aufzeichnung von Körperbewegungen
US9101279B2 (en) 2006-02-15 2015-08-11 Virtual Video Reality By Ritchey, Llc Mobile user borne brain activity data and surrounding environment data correlation system
US20100036657A1 (en) * 2006-11-20 2010-02-11 Mitsunori Morisaki Speech estimation system, speech estimation method, and speech estimation program
JP4849630B2 (ja) * 2007-05-15 2012-01-11 学校法人東海大学 発話内容識別装置及び個人識別装置
WO2010073174A1 (en) * 2008-12-25 2010-07-01 Koninklijke Philips Electronics N.V. System and method for image capturing
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
WO2012127477A1 (en) * 2011-03-21 2012-09-27 Hewlett-Packard Development Company, L.P. Lip activity detection
US9171548B2 (en) * 2011-08-19 2015-10-27 The Boeing Company Methods and systems for speaker identity verification
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
RU2523220C1 (ru) * 2013-02-19 2014-07-20 Михаил Сергеевич Беллавин Электронно-вычислительное устройство
US20140379588A1 (en) 2013-03-15 2014-12-25 Compology, Inc. System and method for waste managment
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10699538B2 (en) 2016-07-27 2020-06-30 Neosensory, Inc. Method and system for determining and providing sensory experiences
US10198076B2 (en) * 2016-09-06 2019-02-05 Neosensory, Inc. Method and system for providing adjunct sensory information to a user
US10181331B2 (en) 2017-02-16 2019-01-15 Neosensory, Inc. Method and system for transforming language inputs into haptic outputs
US10744058B2 (en) 2017-04-20 2020-08-18 Neosensory, Inc. Method and system for providing information to a user
CN107679449B (zh) * 2017-08-17 2018-08-03 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
NL2021041B1 (nl) * 2018-01-31 2019-08-07 Iebm B V Spraakherkenning met beeld signaal
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method
US10516939B1 (en) * 2018-07-03 2019-12-24 Fuji Xerox Co., Ltd. Systems and methods for steering speaker array and microphone array with encoded light rays
US10798522B1 (en) 2019-04-11 2020-10-06 Compology, Inc. Method and system for container location analysis
US11467667B2 (en) 2019-09-25 2022-10-11 Neosensory, Inc. System and method for haptic stimulation
US11467668B2 (en) 2019-10-21 2022-10-11 Neosensory, Inc. System and method for representing virtual object information with haptic stimulation
US11079854B2 (en) 2020-01-07 2021-08-03 Neosensory, Inc. Method and system for haptic stimulation
US11497675B2 (en) 2020-10-23 2022-11-15 Neosensory, Inc. Method and system for multimodal stimulation
US20240070251A1 (en) * 2021-08-04 2024-02-29 Q (Cue) Ltd. Using facial skin micromovements to identify a user
US11862147B2 (en) 2021-08-13 2024-01-02 Neosensory, Inc. Method and system for enhancing the intelligibility of information for a user

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52112205A (en) 1976-03-17 1977-09-20 Kuniaki Miyazawa Method of identifying audio or language
US4063035A (en) * 1976-11-12 1977-12-13 Indiana University Foundation Device for visually displaying the auditory content of the human voice
JPS55121499A (en) 1979-03-15 1980-09-18 Rion Co Voice identification system using electroparatograph
JPS57160440A (en) 1981-03-25 1982-10-02 Dainippon Printing Co Ltd Artificial oral cavity for sound input
US4571739A (en) * 1981-11-06 1986-02-18 Resnick Joseph A Interoral Electrolarynx
US4586931A (en) * 1981-12-11 1986-05-06 Hansa Medical Products, Inc. Auto actuatable switch, speech simulator and method for tracheotomized individuals
US4718096A (en) * 1983-05-18 1988-01-05 Speech Systems, Inc. Speech recognition system
JPS603793A (ja) 1983-06-21 1985-01-10 Agency Of Ind Science & Technol 口唇情報解析装置
US4633864A (en) * 1984-10-22 1987-01-06 Dacomed Corporation Speaking endotracheal tube
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
US4726066A (en) * 1985-11-26 1988-02-16 P. O. Vox Medical, Inc. Inter-oral speech aid
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPS6462123A (en) 1987-08-31 1989-03-08 Toshiyuki Horiguchi Apparatus for measuring palatal motion
US4862503A (en) * 1988-01-19 1989-08-29 Syracuse University Voice parameter extractor using oral airflow
US5147205A (en) * 1988-01-29 1992-09-15 Gross Theodore D Tachistoscope and method of use thereof for teaching, particularly of reading and spelling
JPH0340177A (ja) 1989-07-07 1991-02-20 Seiko Epson Corp 音声認識装置
US5035242A (en) * 1990-04-16 1991-07-30 David Franklin Method and apparatus for sound responsive tactile stimulation of deaf individuals
CA2081910C (en) * 1990-05-01 2000-04-25 Donald E. Drumm Hands-free hardware keyboard
JP2985976B2 (ja) 1991-02-12 1999-12-06 日本電信電話株式会社 舌動作検出型音節認識装置
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5586215A (en) 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JPH0612483A (ja) 1992-06-26 1994-01-21 Canon Inc 音声入力方法及び装置
US5689575A (en) * 1993-11-22 1997-11-18 Hitachi, Ltd. Method and apparatus for processing images of facial expressions
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH07306692A (ja) 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
US5943233A (en) * 1994-12-26 1999-08-24 Sharp Kabushiki Kaisha Input device for a computer and the like and input processing method
JP3471964B2 (ja) * 1995-03-28 2003-12-02 キヤノン株式会社 撮像装置
JPH08305277A (ja) 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 発声訓練装置
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JPH11160952A (ja) * 1997-11-21 1999-06-18 Canon Inc 画像形成装置

Also Published As

Publication number Publication date
JPH10243938A (ja) 1998-09-14
EP0863474A3 (en) 2001-11-28
US6272466B1 (en) 2001-08-07
EP0863474A2 (en) 1998-09-09

Similar Documents

Publication Publication Date Title
JP3112254B2 (ja) 音声検出装置
JP3893763B2 (ja) 音声検出装置
Rosenblum et al. An audiovisual test of kinematic primitives for visual speech perception.
Summerfield Lipreading and audio-visual speech perception
Luettin Visual speech and speaker recognition
TWI576826B (zh) Discourse Recognition System and Unit
US7082393B2 (en) Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US6185529B1 (en) Speech recognition aided by lateral profile image
Hirose Investigating the physiology of laryngeal structures
Mase et al. Lip reading: Automatic visual recognition of spoken words
Freitas et al. An introduction to silent speech interfaces
JPH09134194A (ja) 読話のための画像認識システム
EP4139917A1 (en) Voice grafting using machine learning
EP3599065A1 (en) Communication robot and control program therefor
Rudzicz Production knowledge in the recognition of dysarthric speech
US20220208194A1 (en) Devices, systems, and methods for personal speech recognition and replacement
US11373653B2 (en) Portable speech recognition and assistance using non-audio or distorted-audio techniques
Fletcher et al. Speech modification by a deaf child through dynamic orometric modeling and feedback
Dalston et al. Nasometric and phototransductive measurements of reaction times among normal adult speakers
FLETCHER New prospects for speech by the hearing impaired
Hakanpää Emotion expression in the singing voice: testing a parameter modulation technique for improving communication of emotions through voice qualities
Petermann et al. Evaluation of analytical modeling functions for the phonation onset process
Mizoguchi Articulation of the Japanese moraic nasal: Place of articulation, assimilation, and L2 transfer
AU2020102872A4 (en) A kind of intelligent glasses for the blind people to socialize
TWM560061U (zh) 具有感測影像聲音之生物辨識裝置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070922

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees