JP4286860B2 - 動作内容判定装置 - Google Patents

動作内容判定装置 Download PDF

Info

Publication number
JP4286860B2
JP4286860B2 JP2006513753A JP2006513753A JP4286860B2 JP 4286860 B2 JP4286860 B2 JP 4286860B2 JP 2006513753 A JP2006513753 A JP 2006513753A JP 2006513753 A JP2006513753 A JP 2006513753A JP 4286860 B2 JP4286860 B2 JP 4286860B2
Authority
JP
Japan
Prior art keywords
image
detection
feature amount
process proceeds
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006513753A
Other languages
English (en)
Other versions
JPWO2005114576A1 (ja
Inventor
祥宏 野口
敬士 嶋田
憲 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Publication of JPWO2005114576A1 publication Critical patent/JPWO2005114576A1/ja
Application granted granted Critical
Publication of JP4286860B2 publication Critical patent/JP4286860B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Navigation (AREA)

Description

【技術分野】
【0001】
本発明は、対象者の動作内容を判定する装置に係り、特に、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法に関する。
【背景技術】
【0002】
対象者の顔の部位の表情からその人の状態及び行為を認知し、それを応用したアプリケーションが知られている。例えば、自動車内に設置されるカーナビゲーションシステム(以下、CNSと称す)の一機能として、音声による行き先の指示等のCNSの操作を車内に設置されたマイク等への音声入力により行う音声操作機能がある。マイクから入力された音声は、音声認識によりその内容が認識される。運転手が目的地(例えば、地名や施設名等の目的地)を音声入力した場合は、音声認識により目的地を示す単語を認識し、認識した単語が示す場所へのルート検索や情報の表示等を行う。しかしながら、音声操作機能を利用する場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等によってマイクに余計な音が入力されてしまうため音声認識の精度が著しく低下してしまうといった問題がある。このような問題に対処する技術として、特許文献1の音声認識装置及び特許文献2の画像認識装置がある。
【0003】
特許文献1の音声認識装置は、カメラにより発話者を撮影し、画像処理ECUにより撮影画像を処理して、発話者の外観面の状態から発声の有無を判定する。例えば、顔の向き、唇の動き、視線の向きといった外観状態から発声の有無を判定する。顔の向き、唇の動き、視線の向きを検出するための撮影画像の処理においてはパターン・マッチング方式を用いている。つまり、発話者が発話をしていると判定されたときに音声認識を行うことにより、認識精度を向上させる。ここで、パターン・マッチング方式の中のテンプレート・マッチング方式は、予め検出しようとする顔やその他の部位の代表的な画像パターンや平均的な画像パターンをテンプレートとして用意し、そのテンプレート画像と最も近い画像領域を全体画像から探索することにより顔検出やその他の部位検出を実現する手法である。
【0004】
また、特許文献2の画像認識装置は、対象物体に対する距離画像ストリームを取得するための画像取得部と、画像取得部により取得された距離画像ストリームから口腔部分を抽出する口腔部分抽出部と、口腔部分抽出部により抽出された口腔部分の距離画像ストリームに基づいて、口唇の形状および口唇の動きの少なくとも一方を認識するための画像認識部とを具備している。口腔部分の抽出には特許文献1の音声認識装置と同様にテンプレート・マッチング方式等を用いている。更に、画像認識部では、予め「あ」、「い」といった発音に対応する口腔部分の形状画像のテンプレートを用意し、これらテンプレートと抽出された口腔部分の画像とのマッチングを行うことにより発話内容を認識する。
【0005】
また、対象者の顔画像を撮影し、当該撮影画像を画像処理して、運転者が覚醒状態にあるか否かを検出する技術として、特許文献3に記載の運転状態検出装置、特許文献4に記載の居眠り状態検出装置及び特許文献5に記載の居眠り運転防止装置がある。
特許文献3記載の運転状態検出装置は、撮像された画像に対して、対象テンプレートを用いて相関演算を行って運転者の目領域を検出し、検出された目領域の画像から運転者の運転状態を判定する。
【0006】
また、特許文献4記載の居眠り状態検出装置は、顔画像の縦方向の画素列に沿って画素の濃度を検出し、画素列における濃度の局所的な高まり毎に1個づつの画素を定めて抽出点とし、隣接する画素列の画素列方向に近接した抽出点を連結して顔の横方向に伸びる曲線群から眼の位置を検出し、その後、眼を含む所定領域内で眼の位置を検出し、その後、眼を含む所定領域内で、眼の開閉状態を判定し、その開閉状態の変化により居眠り状態を検出する。
【0007】
また、特許文献5記載の居眠り運転防止装置は、自動車の運転者の眼部を含む映像を、ビデオカメラにより動画像として順次的に撮像し、最新の映像と、フレームメモリに記憶された前の映像との間で輝度の変化した領域の面積を算出し、輝度が増加した領域と減少した領域との面積差の時系列的なパターンと標準の瞬目波形との間で相関係数をとる演算を行う。相関係数が基準値を超えると、瞬目の時点が抽出され、瞬目の抽出に基づいて運転者の覚醒状態が判定される。
【特許文献1】
特開平11−352987号公報
【特許文献2】
特開平11−219421号公報
【特許文献3】
特開平8−175218号公報
【特許文献4】
特開平10−275212号公報
【特許文献5】
特開2000−40148号公報
【0008】
しかしながら、上記特許文献1及び特許文献2の従来技術においては、固定カメラによって撮影された画像からの口唇部分の検出にテンプレート・マッチング方式を用いているため、例えば、運転中に起こる顔向きの変化により斜めや横向きになった顔画像から口唇部分を検出するような場合に、用意されたテンプレートの内容によっては著しく検出精度が低下する恐れがある。更に、顔全体の画像に対して口唇部分の探索を行っているため探索ポイント数が多くなり処理が重くなるという問題もある。
また、上記特許文献2の画像認識装置においては、開口時の口腔領域の大きさなどをある閾値で判断し発話区間を検出しているため、例えば、欠伸と発話とを区別するといった曖昧な画像から動作内容の判断を行うことが困難であった。
【0009】
また、上記特許文献3乃至特許文献5の従来技術においては、一定時間内のまばたきの回数頻度、一定時間内のまばたきの開閉時間の積算値などを覚醒状態の判定に用いているが、このような構成では、生理学の見地において覚醒状態の判定に有効であるとされている、1回1回のまばたきの振幅、持続時間及び速度などの情報を考慮して覚醒状態を判定することはできない。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法を提供することを目的としている。
【発明の開示】
【0039】
記目的を達成するために、本発明に係る請求項記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者の特定種類のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、
前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定する動作内容判定手段と、を備えることを特徴としている。
【0040】
このような構成であれば、画像撮影手段によって、対象者の顔を構成する眼部分を含む撮影画像を撮影することが可能であり、特徴量抽出手段によって、前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定することが可能である。
従って、公知のHMMを用いることにより、時間的概念を伴う眼部分のまばたきに関連した動作内容を判定することができるので、より高精度に覚醒状態の判定を行うことが可能である。
例えば、まばたき時の眼の状況を、筋肉の筋電位波形として表現した際の、対象者の特定の性質を有した特定種類のまばたきを示す波形を精度良く判定することが可能である。
例えば、生理学の見地において覚醒状態の判定に有効であるとされている、まばたき時の眼の筋肉の筋電位の変化を表す筋電位波形には、多種類の波形パターンが存在するが、まばたきの速度、振幅などのまばたきにとって重要な要素の特徴に着目することによって、これら多種類のうち特定種類(例えば、3種類)の波形パターンを判定に用いることで、覚醒状態を十分に判定できるとされている。従って、このような構成であれば、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等も可能である。
更に、生理学の見地において覚醒状態の判定に有効であるとされている、所定時間内における特定種類のまばたきの発生頻度の変化または特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定するようにしたので、例えば、覚醒している状態、睡眠しかかっている状態、睡眠状態などの覚醒状態の程度を判定することが可能である。
ここで、HMMは時系列信号の確率モデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。また、例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。HMMはそのような揺らぎを吸収することができる統計的モデルである。HMMは、どのような単位で定義されても良く(例えば、音声認識をするのであれば単語や音素)、各HMM(ここで「各」というのは例えば単語であれば複数の単語が存在し、音素においても複数の音素が存在するため。)は、図31に示すように、複数の状態からなり、各状態は統計的に学習された、状態遷移確率(a)と出力確率(b:正規分布、混合正規分布等の確率分布)で構成されている。例えば、遷移確率は音声の時間伸縮の揺らぎを、出力確率はスペクトルの揺らぎを吸収する。
また、特徴量としては、眼部分の画像をフーリエ変換したスペクトル成分、眼部分の画像をフーリエ変換した周波数スペクトルに対する対数成分、眼部分の画像をフーリエ変換した周波数スペクトルに対しての現フレームとその前後のフレームとのフレーム間差分成分、眼部分の画像に対するメル・ケプストラム(MFCC)成分、眼部分の画像に対するフレーム内モーメント成分、眼部分の画像に対するフレーム間モーメント成分、眼部分の画像をフーリエ変換した周波数スペクトルに対するフレーム内モーメント成分、眼部分の画像をフーリエ変換した周波数スペクトルに対するフレーム間モーメント成分などがある。以下、請求項4記載の動作内容判定プログラム及び請求項5の動作内容判定方法において同じである。
また、請求項2に係る発明は、請求項1の動作内容判定装置において、前記動作内容判定手段は、所定時間内における前記特定種類のまばたき波形のそれぞれの出現間隔を求め、前記特定種類のまばたき波形のなかの同一種類のまばたき波形が連続的に発生する頻度に基づき、前記対象者の覚醒状態を判定することを特徴としている。
生理学において、眠気が増してきたときにまばたきの群発と言われる現象が起こることが知られている。
上記構成であれば、特定種類のまばたき波形の出現間隔から、特定種類のまばたき波形のなかの同一種類のまばたき波形が連続的に発生する頻度に基づき、対象者の覚醒状態を判定するようにしたので、特定の一種類のまばたきが連続的に発生する頻度が高くなった場合に、覚醒状態が低くなった(眠気が増した)と判定することが可能である。
【0050】
た、上記目的を達成するために、請求項記載の警報システムは、請求項1又は請求項2に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。
【0051】
このような構成であれば、通知手段によって、請求項1又は請求項に記載の動作内容判定装置によって判定された、対象者の覚醒状態の判定結果を対象者又は関係者に通知することが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
【0055】
また、上記目的を達成するために、請求項記載の動作内容判定プログラムは、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記眼部分を含む撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者の特定種類のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量とを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項記載の動作内容判定装置と同等の作用及び効果が得られる。
【0059】
また、上記目的を達成するために、請求項記載の動作内容判定方法は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定方法であって、
前記眼部分を含む画像を撮影する画像撮影ステップと、
前記画像撮影ステップの撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出ステップと、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者の特定種類のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMを記憶する眼状態判定用HMM記憶ステップと、
前記特徴量抽出ステップにおいて抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項記載の動作内容判定装置と同等の効果が得られる
【図面の簡単な説明】
[0060]
[図1]本発明に係る発話区間検出装置の構成を示すブロック図である。
[図2](a)は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、(b)は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、(c)は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。
[図3](a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。
[図4]HMMへの特徴量の入力における時間的概念を示す図である。
[図5]HMMの出力に基づく発話開始点の判定処理の流れを示す図である。
[図6]HMMの出力に基づく発話終了点の判定処理の流れを示す図である。
[図7]様々な顔向きに対する発話/非発話の判定結果の一例を示す図である。
[図8]発話区間検出装置1の動作処理を示すフローチャートである。
【図9】画像処理部12における検出用画像データの生成処理を示すフローチャートである。
【図10】唇領域検出部13における口唇領域の検出処理を示すフローチャートである。
【図11】特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。
【図12】は、発話区間検出部15における発話区間の検出処理を示すフローチャートである。
【図13】発話区間判定部15における発話開始点判定処理を示すフローチャートである。
【図14】発話区間判定部15における発話終了点判定処理を示すフローチャートである。
【図15】(a)〜(c)は、顔向きに応じて検出される口唇領域の一例を示す図である。
【図16】第1の実施の形態の変形例の口唇領域検出部13における口唇領域の検出処理を示すフローチャートである。
【図17】第1の実施の形態の変形例の特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。
【図18】第1の実施の形態の変形例の発話区間検出部15における発話区間の検出処理を示すフローチャートである。
【図19】顔向きを考慮しないHMMを用いた場合と、考慮したHMMを用いた場合とにおける発話区間の識別確率を示す図である。
【図20】本発明に係る覚醒状態判定装置の構成を示すブロック図である。
【図21】(a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。
【図22】1回のまばたきに対する覚醒状態判定用の筋電図波形を示す図である。
【図23】まばたき波形のパターンを示す図である。
【図24】図23における波形Oに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。
【図25】図23における波形Aに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。
【図26】図23における波形Bに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。
【図27】まばたきの間隔と群発の波形パターンの一例を示す図である。
【図28】眼領域検出部33における左眼領域の検出処理を示すフローチャートである。
【図29】特徴量抽出部34における特徴量の抽出処理を示すフローチャートである。
【図30】覚醒状態判定部35における覚醒状態の判定処理を示すフローチャートである。
【図31】HMM及び該HMMの各状態に対応するスペクトル包絡の一例を示す図である。
【発明を実施するための最良の形態】
【0061】
〔第1の実施の形態〕
以下、本発明の第1の実施の形態を図面に基づき説明する。図1〜図14は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第1の実施の形態を示す図である。
【0062】
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の発話開始から発話終了までの区間である発話区間を検出する発話区間検出装置に適用した場合を説明する。
まず、本発明に係る発話区間検出装置の構成を図1に基づき説明する。図1は、本発明に係る発話区間検出装置の構成を示すブロック図である。
【0063】
図1に示すように、発話区間検出装置1は、画像撮影部10と、データ記憶部11と、画像処理部12と、口唇領域検出部13と、特徴量抽出部14と、発話区間検出部15とを含んだ構成となっている。なお、本実施の形態において、発話区間検出装置1は、自動車室内に設置され、且つ、図示しない自動車室内に設置された音声認識機能を有したカーナビゲーションシステム(以下、CNSと称す)と連動可能に接続される。そして、発話区間検出装置1の出力はCNSに入力され、CNSは入力された情報に基づき音声認識を行い、その認識結果に基づき所定の動作を行う。
【0064】
画像撮影部10は、CCD(charge coupled device)カメラを含んだ構成となっており、フレーム単位で撮影した画像をデジタルのデータで出力する。そして、出力画像データは、データ記憶部11に伝送される。本実施の形態において、CCDカメラは、自動車室内におけるインナーミラーに、運転席に座った人(運転手)の顔全体を含む像を撮影可能な状態で取り付けられている。なお、CCDカメラの設置位置は、インナーミラーに限らず、撮影対象者の顔全体を含む画像が撮影可能な位置であれば、ステアリング・コラム位置、センター・パネル位置、フロント・ピラー位置等の別の場所でも良い。
【0065】
データ記憶部11は、全体顔検出用SVM、口唇領域検出用SVM、発話区間検出用のHMM、画像撮影部10によって撮影された画像等、発話区間の検出に必要なデータを記憶する。本実施の形態においては、撮影画像のフレームに合わせて音声データも記憶する。従って、本実施の形態においては、自動車内に、運転席に座った人の発話した音声データを取得するためのマイクが設置されている。
画像処理部12は、口唇領域検出部13において行われる、撮影画像から口唇領域を検出する処理の前処理として、撮影画像の各フレーム毎にグレースケール化による色情報の削減やサブ・サンプリングによる画像サイズの縮小等を行う。以下、グレースケール化及び画像サイズの縮小された撮影画像を検出用画像と称すこととする。
【0066】
口唇領域検出部13は、SVMを用いて画像処理部12から取得した検出用画像から撮影対象者の口唇領域を検出する。本実施の形態においては、検出用画像から撮影対象者の顔全体の領域を検出する全体顔検出用SVMと、全体顔検出用SVMによって検出された全体顔画像から口唇領域を検出する口唇領域検出用SVMとの2種類のSVMを用いて2段階で口唇領域を検出する。また、一度口唇領域が検出されると、次のフレームの検出用画像に対しては、前のフレームで検出された口唇領域の位置情報(例えば、画像の左上の画素を座標(1,1)とした場合の座標情報)に基づき口唇領域の探索範囲を設定し、この探索範囲に対して口唇領域検出用SVMを適用する。つまり、一度口唇領域が検出されると、口唇領域が未検出となるまで次フレームからの検出用画像に対して全体顔検出用SVMによる顔全体の画像領域の検出処理を省略する。このとき、最初に口唇領域を検出する際の探索範囲よりも狭い範囲の探索範囲を設定することで口唇領域の検出処理を高速化する。以下、上記した2種類のSVMを用いた口唇領域の検出処理を行うモードを検出モードと称し、前のフレームで検出された口唇領域の位置情報に基づき口唇領域の探索範囲を設定し、この探索範囲に対して口唇領域検出用SVMを適用して口唇領域の検出処理を行うモードをトラッキングモードと称すこととする。なお、検出結果の情報は、特徴量抽出部14に伝送される。
【0067】
特徴量抽出部14は、口唇領域検出部13からの検出結果の情報を取得すると、この情報に基づき、対応する元の撮影画像をデータ記憶部11から読み出し、当該読み出した画像から口唇領域の画像を切り取り、当該切り取った口唇領域画像から後述する発話区間検出用のHMMに入力する特徴量を抽出する。本実施の形態においては、抽出した特徴量に対して、主成分分析や独立成分分析を用いて次元数の削減を行う。また、本実施の形態においては、切り取った口唇領域画像をフーリエ変換してその周波数スペクトル成分を特徴量として抽出する。また、抽出された特徴量は、連続する5フレーム分を一組として発話区間検出部15に伝送される。
【0068】
発話区間検出部15は、特徴量抽出部14から取得した口唇領域画像の特徴量を発話区間検出用のHMMに入力し、この入力に対するHMMからの出力に基づき、対象者の発話開始から終了までの発話区間を検出する。検出された発話区間の情報は、図示しないカーナビゲーションシステムに伝送される。
ここで、本実施の形態において、発話区間検出装置1は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。
【0069】
また、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【0070】
更に、図2〜図7に基づき、発話区間検出装置1のより具体的な動作を説明する。ここで、図2(a)は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、(b)は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、(c)は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。また、図3(a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。また、図4は、HMMへの特徴量の入力における時間的概念を示す図であり、図5は、HMMの出力に基づく発話開始点の判定処理の流れを示す図であり、図6は、HMMの出力に基づく発話終了点の判定処理の流れを示す図である。また、図7は、様々な顔向きに対する発話/非発話の判定結果の一例を示す図である。
【0071】
発話区間検出装置1は、発話区間の検出処理が開始されると、まず、画像撮影部10において、インナーミラーに取り付けられたCCDカメラにより、図3(a)に示すような自動車の運転席に座っている撮影対象者の顔全体を含む画像を撮影し、この撮影された画像データを、フレーム(ここでは、1/30秒とする)単位で且つ撮影した順番にデータ記憶部11に記憶する。ここで、本実施の形態において撮影画像はカラー画像とする。データ記憶部11は、撮影画像データを記憶すると、そのことを画像処理部12に通知する。
【0072】
画像処理部12は、データ記憶部11からの通知を受けると、当該データ記憶部から撮影画像データを読み出し、読み出した画像データに対してグレースケース化による色情報の削減処理及びサブ・サンプリングによる画像サイズの縮小処理を行う。例えば、撮影画像が640×480画素のサイズのフルカラー画像であったとすると、グレイスケール化によりフルカラーは白と黒の中間色だけからなる色の階調を有したデータに変換され、更に、画像の縦及び横方向にそれぞれ1/10にサブ・サンプリングされ64×48画素のサイズの画像に変換される。これにより、画素数を1/100に減少する。このようにして生成された検出用画像は、口唇領域検出部13に伝送される。
【0073】
口唇領域検出部13は、画像処理部12から検出用画像を取得すると、検出モードに移行し、図2(a)に示すように、64×48画素の検出用画像20の全体に対して、20×30画素のサーチウィンドウ22により顔全体の画像領域のスキャニングを行う。更に、スキャニングされた20×30画素の計600画素のグレイスケール値を600次元の値として全体顔検出用SVMに入力する。全体顔検出用SVMでは、予め600次元空間における全体顔クラスと非全体顔クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い20×30画素の領域画像を顔全体の画像領域200として検出する。顔全体の画像領域200が検出されると、次に、図2(b)に示すように、顔全体の画像領域200の下半分の画像領域を含む20×15画素の探索領域23を設定し、当該設定した探索領域23に対して10×10画素のサーチウィンドウ24により口唇領域のスキャニングを行う。つまり、実際の画像においては、図3(b)に示すようになる。そして、スキャニングされた10×10画素の計100画素のグレイスケール値を100次元の値として口唇領域検出用SVMに入力する。口唇領域検出用SVMでは、予め100次元空間における口唇領域クラスと非口唇領域クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い10×10画素の領域画像を口唇領域画像として検出する。更に、口唇領域画像が検出されるとその位置情報(座標情報)を取得し、次のフレームの検出用画像に対してトラッキングモードへと移行する。
【0074】
口唇領域検出部13は、トラッキングモードに移行すると、次のフレームの検出用画像に対して、図2(c)に示すように、前のフレームで検出された口唇領域画像の位置座標を中心に縦方向及び横方向に5画素ずつ広げた15×15画素の探索領域25を設定し、当該設定された探索領域25に対して10×10画素のサーチウィンドウ24により口唇領域のスキャニングを行う。実際の画像においては、図3(c)に示すようになる。つまり、顔全体の画像領域の検出処理を省き、且つ、20×15画素の探索領域23よりも狭い15×15画素の探索領域25に範囲を限定して口唇領域の探索を行うことで処理を高速化する。スキャニングされた10×10画素の計100画素のグレイスケール値は、上記検出モードと同様に口唇領域検出用SVMに入力され、口唇領域の検出処理が行われる。なお、口唇領域が検出されると、本実施の形態においては、口唇領域の中心座標が特徴量抽出部14に伝送される。また、トラッキングモードにおいては、口唇領域の検出が成功している間はこのモードを維持し、口唇領域の検出が失敗した場合は顔検出モードへと移行する。
【0075】
特徴量抽出部14は、口唇領域検出部13から各フレームの検出用画像における口唇領域の中心座標を取得すると、データ記憶部11によって記憶された対応する撮影画像から、前記取得した中心座標を中心に64×64画素のグレイスケールの口唇画像を切り出す。そして切り出した各フレームの口唇画像に対して、口唇部分以外の鼻や顎などが含まれていた場合の影響をなるべく少なくするような処理をハミング窓などの窓関数により行い。その後、2次元フーリエ変換処理を施し、口唇画像の振幅スペクトルを特徴量として求める。本実施の形態において、求めた特徴量は、更に、演算量削減及び識別に無用な情報の除去のために主成分分析によって次元削減を行う。ここで、主成分分析に用いる固有ベクトルは、予め不特定多数の人の様々な口唇画像を使用してオフラインで求めておき、例えば、固有ベクトルの第10成分までを使って主成分分析を行うことで、10次元よりも多次元の特徴量の次数を10次元に削減する。このような特徴量の抽出を1フレーム毎に実施し、抽出した特徴量を、撮影した順番に5フレーム分を一組として、発話区間検出部15に伝送する。
【0076】
発話区間検出部15は、特徴量抽出部14から5フレーム一組の特徴量を取得すると、図4に示すように、一つ前に入力した特徴量の一組400aの最初のフレームに対応する特徴量に対して、次の特徴量の一組400bの最初のフレームに対応する特徴量が1フレームだけずれるように、特徴量の一組400bの最初のフレームに対応する特徴量を発話区間検出用のHMMに入力する。これにより、特徴量の一組400aの2フレーム目から5フレーム目と特徴量の一組400bの最初のフレームから4フレーム目までがオーバーラップして発話区間検出用のHMMに入力されることになる。同様に、特徴量の一組400bの次の一組400cも、当該400bの最初のフレームに対応する特徴量に対して、次の一組400cの最初のフレームに対応する特徴量が1フレームずれるように、特徴量の一組400cの最初のフレームに対応する特徴量を発話区間検出用のHMMに入力することになる。このようにして、前のフレームに対して1フレームずつずらして特徴量を発話区間検出用のHMMに入力させることにより、1フレーム毎の時間解像度によってHMMの出力を得ることが可能となる。
【0077】
また、発話区間検出用のHMMは、入力された5フレーム一組の特徴量に対して発話/非発話の識別を行うもので、予め不特定多数の人の様々な口唇画像を用いて学習により求めたものを用いる。つまり、発話用のHMM及び非発話用のHMMの各々に5フレーム一組の特徴量を入力し、生起確率の大きい方のモデルを識別結果として出力する。例えば、5フレーム一組の特徴量を上記各々のHMM入力したときに、発話用のHMMからの出力確率が非発話用のHMMの出力確率より大きかった場合は、その5フレームの識別結果は発話となる。
発話区間検出部15は、更に、HMMの出力に基づき、上記撮影対象者の発話開始点及び発話終了点を判定する処理を行う。発話開始点及び発話終了点は、5フレーム一組の特徴量に対する上記発話用のHMM及び非発話用のHMMを用いた発話/非発話の出力に対して判定が行われるものであり、まず、発話開始点の判定処理について説明する。
【0078】
発話開始点は、図5に示すような流れで判定処理が行われる。ここで、図5中「S」は、発話候補点が未決定の状態を示し、「C」は、発話候補点が決定した状態を示し、「D」は、発話候補点が降格した状態を示し、状態遷移における「0」はHMMの出力が非発話の状態を示し、「1」はHMMの出力が発話の状態を示す。図5に示すように、HMMの出力が1フレーム目から2フレーム連続して発話の状態(図5中区間A)であった場合は、1フレーム目が発話開始点の候補として設定され、3フレーム目からは「C」の状態に遷移する。その後、「C」の状態から3フレーム連続してHMMの出力が発話の状態(図5中区間B)になると、発話候補点として設定された1フレーム目(図5中S1)は、発話開始点と判定される。一方、「C」の状態から3フレーム以内においてHMMの出力が非発話の状態になると、非発話の発生したフレームの次のフレームは「D」の状態へと遷移する。そして、「D」の状態で10フレーム連続してHMMの出力が非発話の状態(図5中区間C)になると発話候補点として設定された1フレーム目は降格して発話候補点から除外される。
【0079】
次に、発話終了点の判定処理について説明する。発話終了点は、図6に示すような流れで判定処理が行われる。ここで、図6中「S」は、6フレーム連続してHMMの出力が非発話となる区間(区間D)を探索している状態を示し、「C」は、発話終了点を探索している状態を示し、状態遷移における「0」はHMMの出力が非発話の状態を示し、「1」はHMMの出力が発話の状態を示す。図6に示すように、HMMの出力が1フレーム目から6フレーム以上連続して非発話の状態(図6中区間D)になったときは、発話終了点を探索する「C」の状態に遷移する。そして、「C」の状態からは、単発でHMMの出力が発話の状態になったときと、2フレーム連続でHMMの出力が発話の状態になったときとを無視して、HMMの出力が非発話になる状態を継続してカウントする。一方、「C」の状態からHMMの出力が3回連続して「1」の状態となったときは、状態「S1」に遷移する。最終的に、非発話の状態がトータルで20回カウントされたときに1フレーム目(図6中の状態「S1」)を発話終了点として判定する。
【0080】
上記した判定処理により、発話開始点及び発話終了点が決定されると、これらの情報を発話区間情報としてCNSに入力する。
以上のように、SVMにより撮影画像から切り出した口唇領域画像に対する、発話区間検出用のHMMによる発話/非発話の判定に加え、上記した発話開始点判定処理及び発話終了点判定処理を行うことにより、図7(a)〜(d)に示すような様々な顔向きの口唇画像に対しても正しく発話区間の検出を行うことが可能である。例えば、図7においては、発話区間検出用のHMMにより、(a)〜(c)の口唇画像が発話状態であると判定され、(d)の口唇画像が非発話状態であると判定される。
【0081】
また、CNSにおいては、発話区間検出装置1からの発話開始点及び発話終了点の情報に基づき、発話開始点のフレームから発話終了点のフレームまでの撮影画像に対応する音声データをデータ記憶部11から読み出し、当該読み出した音声データを音声認識する。そして、音声認識結果に基づき経路探索や情報の表示等の所定の処理を行う。
更に、図8に基づき、発話区間検出装置1の動作処理の流れを説明する。図8は、発話区間検出装置1の動作処理を示すフローチャートである。
【0082】
図8に示すように、発話区間の検出処理が開始すると、まずステップS100に移行し、画像撮影部10において、撮影対象者の画像を撮影してステップS102に移行する。
【0083】
ステップS102では、データ記憶部11において、画像撮影部10において撮影された画像データを記憶してステップS104に移行する。
ステップS104では、画像処理部12において、データ記憶部11によって記憶された撮影画像データを読み出しステップS106に移行する。
ステップS106では、画像処理部12において、上記読み出した撮影画像データから検出用画像データを生成し、当該生成した検出用画像データを口唇領域検出部13に伝送してステップS108に移行する。
【0084】
ステップS108では、口唇領域検出部13において、検出用画像から口唇領域を検出し、検出された口唇領域の位置情報を特徴量抽出部14に伝送してステップS110に移行する。
ステップS110では、特徴量抽出部14において、上記検出された口唇領域の位置情報に基づき撮影画像から口唇領域の画像を切り出し、当該切り出した画像から特徴量を抽出し、当該抽出した特徴量を発話区間検出部15に伝送してステップS112に移行する。
【0085】
ステップS112では、発話区間検出部15において、特徴量抽出部14から取得した特徴量を発話区間検出用HMMに入力して、発話/非発話の状態を判定し、当該判定結果に基づき発話区間を検出してステップS114に移行する。
ステップS114では、発話区間検出部15において、検出した発話区間の情報をCNSに伝送して処理を終了する。
【0086】
更に、図9に基づき、画像処理部12における検出用画像データの生成処理の流れを説明する。図9は、画像処理部12における検出用画像データの生成処理を示すフローチャートである。
図9に示すように、まずステップS200に移行し、データ記憶部11から撮影画像データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS202に移行し、そうでない場合(No)は取得するまで待機する。
【0087】
ステップS202に移行した場合は、上記取得した撮影画像に対してサブ・サンプリング処理を行いステップS204に移行する。
ステップS204では、サブ・サンプリングした撮影画像データをグレイスケール化して検出用撮影画像データを生成しステップS206に移行する。
ステップS206では、上記生成した検出用画像データを口唇領域検出部13に伝送して処理を終了する。
【0088】
更に、図10に基づき、口唇領域検出部13における口唇領域の検出処理の流れを説明する。図10は、口唇領域検出部13における口唇領域の検出処理を示すフローチャートである。
図10に示すように、まずステップS300に移行し、画像処理部12から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS302に移行し、そうでない場合(No)は取得するまで待機する。
【0089】
ステップS302に移行した場合は、検出モードに移行し、検出用画像における20×30画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用SVMを用いて識別処理を行いステップS304に移行する。
ステップS304では、ステップS302の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS306に移行し、そうでない場合(No)はステップS330に移行する。
【0090】
ステップS306に移行した場合は、上記検出された顔全体の領域画像における下半分の領域を含む、20×15画素の口唇領域の探索領域を検出用画像に対して設定しステップS308に移行する。
ステップS308では、ステップS306で設定された探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS310に移行する。
【0091】
ステップS310では、ステップS308の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS312に移行し、そうでない場合(No)はステップS330に移行する。
ステップS312に移行した場合は、ステップS310で検出された口唇領域の位置情報を取得してステップS314に移行する。
【0092】
ステップS314では、検出モードからトラッキングモードに設定を切り換えステップS316に移行する。
ステップS316では、ステップS310で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップS318に移行する。
ステップS318では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、15×15画素の口唇領域の探索領域を設定してステップS320に移行する。
【0093】
ステップS320では、ステップS318で設定された15×15画素の探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS322に移行する。
ステップS322では、ステップS320の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS324に移行し、そうでない場合(No)はステップS330に移行する。
ステップS324に移行した場合は、ステップS322で検出された口唇領域の位置情報を取得してステップS326に移行する。
【0094】
ステップS326では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS316に移行し、そうでない場合(No)はステップS328に移行する。
ステップS328に移行した場合は、取得した位置情報を特徴量抽出部14に伝送してステップS300に移行する。
【0095】
また、ステップS330に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS332に移行し、そうでない場合(No)はステップS300に移行する。
ステップS332に移行した場合は、次フレームの検出用画像データを取得してステップS302に移行する。
【0096】
更に、図11に基づき、特徴量抽出部14における特徴量の抽出処理の流れを説明する。図11は、特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。
図11に示すように、まずステップS400に移行し、口唇領域検出部13から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS402に移行し、そうでない場合(No)は取得するまで待機する。
【0097】
ステップS402に移行した場合は、データ記憶部11に記憶された撮影画像から上記取得した位置情報に基づき口唇領域の画像を切り出してステップS404に移行する。
ステップS404では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップS406に移行する。
ステップS406では、窓関数による処理後の画像に対して、2次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップS408に移行する。
【0098】
ステップS408では、ステップS406で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップS410に移行する。
ステップS410では、上記生成した特徴量を5フレーム分を一組にして発話区間判定部15に伝送してステップS400に移行する。
更に、図12に基づき、発話区間検出部15における発話区間の検出処理の流れを説明する。図12は、発話区間検出部15における発話区間の検出処理を示すフローチャートである。
【0099】
図12に示すように、まずステップS500に移行し、特徴量抽出部14から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS502に移行し、そうでない場合(No)は取得するまで待機する。
ステップS502に移行した場合は、発話区間検出用HMMである発話用のHMM及び非発話用のHMMの各々に上記取得した5フレーム一組の特徴量を入力して、5フレーム毎の発話/非発話を判定してステップS504に移行する。
【0100】
ステップS504では、ステップS502の判定結果に基づき、発話開始点の判定処理を行いステップS506に移行する。
ステップS506では、ステップS504の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS508に移行し、そうでない場合(No)はステップS500に移行する。
ステップS508に移行した場合は、ステップS502の判定結果に基づき、発話終了点の判定処理を行いステップS510に移行する。
【0101】
ステップS510では、ステップS508に判定処理により、発話終了点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS512に移行し、そうでない場合(No)はステップS500に移行する。
ステップS512に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をCNSに伝送して処理を終了する。
【0102】
更に、図13に基づき、発話区間判定部15における発話開始点判定処理の流れを説明する。図13は、発話区間判定部15における発話開始点判定処理を示すフローチャートである。
図13に示すように、まずステップS600に移行し、発話区間検出用HMMによる発話/非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS602に移行し、そうでない場合(No)は取得するまで待機する。
【0103】
ステップS602に移行した場合は、上記判定結果に基づき、該当するフレームから発話状態が連続して2回続いたか否かを判定し、続いたと判定された場合(Yes)はステップS604に移行し、そうでない場合(No)は続くフレームに対して判定処理を継続する。
ステップS604に移行した場合は、該当フレームを1フレーム目(S1)として、このフレームを発話開始点の候補に設定してステップS606に移行する。
【0104】
ステップS606では、S1から3フレーム目以降を状態「C」に遷移させてステップS608に移行する。
ステップS608では、状態「C」におけるフレームにおいて、非発話の状態が発生したか否かを判定し、非発話の状態が発生したと判定された場合(Yes)はステップS610に移行し、そうでない場合(No)はステップS620に移行する。
【0105】
ステップS610に移行した場合は、非発話の発生したフレームの次フレーム以降を状態「D」に遷移させてステップS612に移行する。
ステップS612では、状態「D」におけるフレームにおいて、発話状態が発生したか否かを判定し発生したと判定された場合(Yes)はステップS614に移行し、そうでない場合(No)はステップS616に移行する。
【0106】
ステップS614に移行した場合は、1フレーム目(S1)を発話開始点と判定して処理を終了する。
一方、ステップS616に移行した場合は、状態「D」におけるフレームにおいて、非発話状態が連続して10回続いたか否かを判定し、続いたと判定された場合(Yes)はステップS618に移行し、そうでない場合(No)はステップS612に移行する。
【0107】
ステップS618に移行した場合は、1フレーム目(S1)を発話候補点から降格してステップS602に移行する。
一方、ステップS608において、状態「C」において非発話の状態が発生せずステップS620に移行した場合は、発話状態の発生回数をカウントすると共に、3フレーム連続して発話状態が発生したか否かを判定し、発生したと判定された場合(Yes)はステップS622に移行し、そうでない場合(No)はステップS608に移行する。
【0108】
ステップS622に移行した場合は、1フレーム目(S1)を発話開始点と判定して処理を終了する。
更に、図14に基づき、発話区間判定部15における発話終了点判定処理の流れを説明する。図14は、発話区間判定部15における発話終了点判定処理を示すフローチャートである。
図14に示すように、まずステップS700に移行し、発話区間検出用HMMによる発話/非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS702に移行し、そうでない場合(No)は取得するまで待機する。
【0109】
ステップS702に移行した場合は、フレームの順番に非発話の発生回数をカウントしてステップS704に移行する。
ステップS704では、非発話の状態が6回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップS706に移行し、そうでない場合(No)はステップS702に移行する。
ステップS706に移行した場合は、上記6回連続後のフレーム以降を状態「C」に遷移させてステップS708に移行する。
【0110】
ステップS708では、発話の発生回数もカウントし、且つ、状態「C」におけるフレームにおいて、発話の状態が3回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップS710に移行し、そうでない場合(No)はステップS712に移行する。
ステップS710に移行した場合は、非発話の発生回数のカウントをクリアしてステップS702に移行する。
一方、ステップS712に移行した場合は、非発話の発生回数のカウントを継続して行いステップS714に移行する。
【0111】
ステップS714では、非発話の発生回数がトータルで20回となったか否かを判定し、20回になったと判定された場合(Yes)はステップS716に移行し、そうでない場合(No)はステップS708に移行する。
ステップS716に移行した場合は、ステップS704における6回連続したフレームの1フレーム目(S1)を発話終了点と判定し処理を終了する。
【0112】
以上、発話区間検出装置1は、画像撮影部10により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部11により、撮影画像データを記憶することが可能であり、画像処理部12により、撮影画像データをグレイスケール化し、且つ、サブ・サンプリングによりサイズを縮小することにより検出用画像を生成することが可能であり、口唇領域検出部13により、全体顔検出用SVM及び口唇領域検出用SVMを用いて検出用画像から口唇領域を検出することが可能であり、特徴量抽出部14により、検出された口唇領域の位置情報に基づき、元の撮影画像から口唇領域画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部15により、発話区間検出用HMMを用いて、発話区間の検出を行うことが可能である。
【0113】
なお、上記実施の形態において、口唇画像の検出と同様に、専用のSVMにより眼の画像を検出し、その特徴量を抽出して専用のHMMを用いて眼の動きに関連する動作内容を判定できる構成としても良い。このような構成であれば、居眠り等の動作を判定することが可能となり、音声による警告を与える等の運転支援を行うことが可能となる。
【0114】
また、上記実施の形態において、特徴量抽出部14において抽出された特徴量を、発話内容判定用のHMMに入力することにより、発話区間では無くて、発話内容を直接識別する構成も可能である。この場合は、予め不特定多数の人の様々な口唇画像を用いて学習により、「あ」、「い」等の発音内容を識別するためのHMMを作成する。このような構成であれば、口唇の動きのみから発話内容を判定することが可能となるので、音声情報が不要となり音声認識に必要なデータ量を削減することが可能となる。
[0115]
また、上記実施の形態において、全体顔検出用SVM及び口唇領域検出用SVMを用いて、検出用画像から顔全体の画像領域及び口唇画像の領域を検出した後に、これらの位置関係を用いて撮影対象者の顔の向きを判定する構成も可能である。この構成により、例えば、発話者の顔向きの判定結果を用いて自動車内に設置された集音装置の集音部(マイク等)の向きを制御したり、自動車内に複数設置された集音部のうち、発話者の向いている方向にある集音部を選択して動作させる制御等を行うことにより、発話者の音声データをより確実且つ正確に取得することが可能となる。
【0118】
〔第1の実施の形態の変形例〕
次に、本発明の第1の実施の形態の変形例を図面に基づき説明する。図15乃至図19は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第1の実施の形態の変形例を示す図である。
【0119】
上記第1の実施の形態と異なるのは、対象者の顔の向きに応じた発話区間検出用のHMMをそれぞれ設定した顔向き毎に用意する点、上記口唇領域検出部13において、対象者の顔の向きを判定すると共に、判定結果の顔向きに応じて検出する口唇領域の領域サイズを変更する点、発話区間検出部15において、前記判定結果の顔向きに応じた発話区間検出用のHMMを選択し、当該選択したHMMによって発話区間を検出する点である。以下、上記第1の実施の形態と異なる部分についてのみ説明し、上記第1の実施の形態と重複する部分については説明を省略する。
【0120】
まず、上記第1の実施の形態の発話区間検出装置1における上記第1の実施の形態とは異なる部分を説明する。
データ記憶部11は、上記発話区間検出用のHMMとして、予め設定された複数方向の顔向きに対応して生成されたものを記憶する。
【0121】
口唇領域検出部13は、上記第1の実施の形態の機能に加え、全体顔検出用SVMによって検出された撮影対象者の顔全体の領域と、口唇領域の位置情報とに基づき、撮影対象者の顔向き方向を判定する機能を有している。更に、この判定された顔向き方向に基づき、口唇領域の検出サイズを変更する。つまり、撮影対象者の顔向き方向によって、撮影される口唇部分の形状が異なるため、口唇部分を含むのに必要な口唇領域のサイズもそれに応じて異なってくるので、全ての形状を考慮した1種類のサイズにするよりも、形状に応じてサイズを可変とすることで、後段の処理を効率化し高性能化することが可能となる。なお、検出結果の情報及び顔向き方向の判定結果は、特徴量抽出部14に伝送される。
【0122】
特徴量抽出部14は、口唇領域検出部13からの検出結果の情報及び顔向き方向の判定結果を取得すると、これらの情報に基づき、対応する元の撮影画像をデータ記憶部11から読み出し、当該読み出した画像から顔向き方向に応じたサイズの口唇領域の画像を切り取り、当該切り取った口唇領域画像から後述する発話区間検出用のHMMに入力する特徴量を抽出する。つまり、上記第1の実施の形態とは、顔向き方向に応じて切り出すサイズを変更している点が異なる。
【0123】
発話区間検出部15は、口唇領域検出部13からの判定結果の顔向き方向の情報に基づき、当該顔向きに対応した発話区間検出用のHMMをデータ記憶部11から選択して読み出し、特徴量抽出部14から取得した口唇領域画像の特徴量を、当該選択した発話区間検出用のHMMに入力し、この入力に対するHMMからの出力に基づき、対象者の発話開始から終了までの発話区間を検出する。
更に、図15に基づき、本変形例における発話区間検出装置1のより具体的な動作を説明する。ここで、図15(a)〜(c)は、顔向きに応じて検出される口唇領域の一例を示す図である。
【0124】
本変形例においては、インナーミラーの鏡面の向きと平行となるようにCCDカメラが設置されており、撮影対象者がインナーミラーの方を向くと当該撮影対象者の顔が正面から撮影されるようになっている。また、データ記憶部11は、撮影対象者が、運転席に座った状態において、右の窓の方を向いた方向(以下、右窓方向と略す)、右のドアミラーの方を向いた方向(以下、右ミラー方向と略す)、正面を向いた方向(以下、正面方向と略す)、インナーミラーの方を向いた方向(以下、インナーミラー方向と略す)、左のドアミラーの方を向いた方向(以下、左ミラー方向と略す)、左の窓の方を向いた方向(以下、左窓方向と略す)にそれぞれ対応する6種類の発話区間検出用のHMMが記憶されている。これらHMMは、それぞれの顔向き毎に、不特定多数の撮影対象者の撮影画像から抽出された口唇部分の画像の特徴量を学習データとして学習を行い生成されたもので、口唇部分の画像から抽出される特徴量を入力とし、撮影対象者の発話状態に対する尤度、非発話状態に対する尤度を出力とするものである。
【0125】
本変形例において、口唇領域検出部13は、画像処理部12から検出用画像を取得すると、上記第1の実施の形態と同様に、検出モードに移行し、全体顔検出用SVMを用いて20×30画素の領域画像を顔全体の画像領域200として検出する。顔全体の画像領域200が検出されると、次に、上記第1の実施の形態と同様に、口唇領域検出用SVMを用いて10×10画素の口唇領域画像を検出する。更に、口唇領域画像が検出されるとその位置情報(座標情報)を取得し、顔全体の画像領域200と、当該取得した位置情報に基づき、撮影された画像における対象者の顔の向き(上記した6種類のいずれか)を判定する。具体的には、上記した6種類の顔の向きによって、顔全体の画像領域200における口唇部分の位置座標が異なるので、これら位置座標の違いからそれぞれの顔向きを判断する。更に、顔向きが判定されると、判定結果の顔向きに応じて縦×横が10×10画素の口唇領域を10×8画素、10×5画素等のサイズに変更する。
【0126】
例えば、図15(a)〜(c)は、撮影対象者の顔向きが、正面方向、インナーミラー方向及び右窓方向のときの口唇領域の検出結果を示す図であるが、CCDカメラの設置位置との関係から、インナーミラー方向を向いているときに口唇部分が正面から撮影されるため口唇部分の画素数が最も多くなるので、図15(b)に示すように、口唇領域は10×10画素のサイズとなり、次いで、正面方向(又は左ミラー方向)を向いているときが口唇部分の画素数が二番目に多くなるので、図15(a)に示すように、10×10画素が10×8画素のサイズに変更され、右窓方向を向いたときの口唇部分の画素数が最も少なくなるので、図15(c)に示すように、10×10画素が10×8画素のサイズに変更される。図示しないが、10×8画素と10×5画素との間に、右ミラー方向及び左窓方向に対応したサイズ(例えば、10×7画素)がある。
このようにして、口唇領域のサイズが変更されると、次のフレームの検出用画像に対してトラッキングモードへと移行する。
【0127】
口唇領域検出部13は、トラッキングモードに移行すると、上記第1の実施の形態と同様に、次のフレームの検出用画像に対して、図2(c)に示すように、前のフレームで検出された口唇領域画像の位置座標を中心に縦方向及び横方向に5画素ずつ広げた15×15画素の探索領域25を設定し、当該設定された探索領域25に対して10×10画素のサーチウィンドウ24により口唇領域のスキャニングを行う。スキャニングされた10×10画素の計100画素のグレイスケール値は、上記検出モードと同様に口唇領域検出用SVMに入力され、口唇領域の検出処理が行われる。なお、口唇領域が検出され、座標情報が取得されると、既に検出されている顔全体の画像領域200と座標情報とに基づき上記同様に顔向きを判定し、判定結果の顔向きに基づき口唇領域のサイズ変更を行う。また、本変形例においては、顔向き方向の情報及び口唇領域の中心座標が、特徴量抽出部14に伝送される。
【0128】
特徴量抽出部14は、口唇領域検出部13から各フレームの検出用画像における顔向き方向の情報及び口唇領域の中心座標を取得すると、データ記憶部11によって記憶された対応する撮影画像から、前記取得した中心座標を中心に顔向き方向に応じた画素数(例えば、縦×横が64×48画素〜64×64画素の範囲)のグレイスケールの口唇画像を切り出す。つまり、上記口唇領域と同様に、インナーミラー方向を最大サイズ(64×64画素)とし、右窓方向を最小サイズ(64×48画素)にする。以降は、上記第1の実施の形態と同様の処理を行い、口唇画像の振幅スペクトルを特徴量として求める。そして、このような特徴量の抽出を1フレーム毎に実施し、抽出した特徴量を、撮影した順番に5フレーム分を一組として、発話区間検出部15に伝送すると共に、5フレーム一組に対応した顔向き判定結果を発話区間検出部15に伝送する。
【0129】
発話区間検出部15は、特徴量抽出部14から顔向き判定結果及び5フレーム一組の特徴量を取得すると、まず、顔向き判定結果に基づき、データ記憶部11から当該顔向き方向に対応する発話区間検出用のHMMを選択して読み出す。つまり、上記した6種類の顔向き方向に対応したHMMから、判定結果の顔向きに対応したHMMを選択する。以降は、選択したHMMを用いて、上記第1の実施の形態と同様の処理によって、発話区間が検出される。
【0130】
更に、図16に基づき、本変形例における口唇領域検出部13における口唇領域の検出処理の流れを説明する。図16は、第1の実施の形態の変形例の口唇領域検出部13における口唇領域の検出処理を示すフローチャートである。
図16に示すように、まずステップS800に移行し、画像処理部12から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS802に移行し、そうでない場合(No)は取得するまで待機する。
【0131】
ステップS802に移行した場合は、検出モードに移行し、検出用画像における20×30画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用SVMを用いて識別処理を行いステップS804に移行する。
ステップS804では、ステップS802の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS806に移行し、そうでない場合(No)はステップS838に移行する。
【0132】
ステップS806に移行した場合は、上記検出された顔全体の領域画像における下半分の領域を含む、20×15画素の口唇領域の探索領域を検出用画像に対して設定しステップS808に移行する。
ステップS808では、ステップS806で設定された探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS810に移行する。
【0133】
ステップS810では、ステップS808の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS812に移行し、そうでない場合(No)はステップS838に移行する。
ステップS812に移行した場合は、ステップS810で検出された口唇領域の位置情報を取得してステップS814に移行する。
ステップS814では、ステップS804で検出された顔全体の領域画像と、ステップS812で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップS816に移行する。
【0134】
ステップS816では、ステップS814で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップS818に移行する。ここで、領域サイズの決定は、CCDカメラに対して撮影対象者の顔が正面となる顔向き方向(インナーミラー方向)において、10×10画素の最大サイズとし、その他の顔向きの場合は、顔向き方向に応じて予め設定された10×10画素よりも小さいサイズの領域に変更する。
ステップS818では、検出モードからトラッキングモードに設定を切り換えステップS820に移行する。
【0135】
ステップS820では、ステップS810で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップS822に移行する。
ステップS822では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、15×15画素の口唇領域の探索領域を設定してステップS824に移行する。
ステップS824では、ステップS822で設定された15×15画素の探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS826に移行する。
【0136】
ステップS826では、ステップS824の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS828に移行し、そうでない場合(No)はステップS838に移行する。
ステップS828に移行した場合は、ステップS826で検出された口唇領域の位置情報を取得してステップS838に移行する。
【0137】
ステップS830では、ステップS804で検出された顔全体の領域画像と、ステップS828で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップS832に移行する。
ステップS832では、ステップS830で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップS834に移行する。
【0138】
ステップS834では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS820に移行し、そうでない場合(No)はステップS836に移行する。
ステップS836に移行した場合は、取得した位置情報及び判定結果の顔向き方向の情報を特徴量抽出部14に伝送してステップS800に移行する。
【0139】
また、ステップS838に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS840に移行し、そうでない場合(No)はステップS800に移行する。
ステップS840に移行した場合は、次フレームの検出用画像データを取得してステップS802に移行する。
【0140】
更に、図17に基づき、特徴量抽出部14における特徴量の抽出処理の流れを説明する。図17は、特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。
図17に示すように、まずステップS900に移行し、口唇領域検出部13から顔向き方向の情報及び位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS902に移行し、そうでない場合(No)は取得するまで待機する。
【0141】
ステップS902に移行した場合は、データ記憶部11に記憶された撮影画像から上記取得した顔向き方向情報及び位置情報に基づき、顔向き方向に応じたサイズの口唇領域の画像を切り出してステップS904に移行する。ここで、顔向き方向に応じたサイズとは、CCDカメラに対して撮影対象者の顔が正面となる顔向き方向(インナーミラー方向)において、最大サイズとし、その他の顔向きの場合は、顔向き方向に応じて予め設定された最大サイズよりも小さいサイズの領域となる。
【0142】
ステップS904では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップS906に移行する。
ステップS906では、窓関数による処理後の画像に対して、2次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップS908に移行する。
ステップS908では、ステップS906で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップS910に移行する。
【0143】
ステップS910では、上記生成した特徴量を5フレーム分を一組にして発話区間判定部15に伝送してステップS900に移行する。
更に、図18に基づき、発話区間検出部15における発話区間の検出処理の流れを説明する。図18は、第1の実施の形態の変形例の発話区間検出部15における発話区間の検出処理を示すフローチャートである。
【0144】
図18に示すように、まずステップS1000に移行し、特徴量抽出部14から顔向き方向の情報及び特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1002に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1002に移行した場合は、顔向き方向の情報に基づき、データ記憶部11に記憶された複数方向の顔向きに対応した発話区間検出用のHMMから、顔向き方向の情報の示す顔向き方向に対応したHMMを選択して読み出しステップS1004に移行する。
【0145】
ステップS1004では、ステップS1002で選択した、発話区間検出用のHMMである発話用のHMM及び非発話用のHMMの各々に上記取得した5フレーム一組の特徴量を入力して、5フレーム毎の発話/非発話を判定してステップS1006に移行する。
ステップS1006では、ステップS1004の判定結果に基づき、発話開始点の判定処理を行いステップS1008に移行する。
【0146】
ステップS1008では、ステップS1006の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS1010に移行し、そうでない場合(No)はステップS1000に移行する。
ステップS1010に移行した場合は、ステップS1004の判定結果に基づき、発話終了点の判定処理を行いステップS1012に移行する。
【0147】
ステップS1012では、ステップS1010に判定処理により、発話終了点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS1014に移行し、そうでない場合(No)はステップS1000に移行する。
ステップS1014に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をCNSに伝送して処理を終了する。
【0148】
更に、本変形例の効果を示すために、図19に基づき、上記第1の実施の形態における発話区間の検出方法と、本変形例における発話区間の検出方法とを比較する。ここで、図19は、顔向きを考慮しないHMMを用いた場合と、考慮したHMMを用いた場合とにおける発話区間の識別確率を示す図である。つまり、上記第1の実施の形態における顔向き方向を考慮しない全方向に対応した1種類のHMMを用いて発話区間の検出をおこなった実施例における当該発話区間の識別確率と、本変形例で用いた上記6種類の顔向き方向毎にそれぞれ生成された6種類のHMMを用いて発話区間の検出を行った実施例における当該発話区間の識別確率とを比較する。
【0149】
図16の例においては、撮影対象者の顔向き方向を考慮せずに、本変形例で説明した撮影対象者の上記6種類の顔向き方向に対するそれぞれの発話区間を、全顔向き方向に対応した1種類のHMMを用いて検出した場合の識別確率と、撮影対象者の顔向き方向を考慮して、上記6種類の顔向き方向毎にそれぞれ対応したHMMを生成し、これら6種類のHMMを用いて、上記6種類の顔向き方向に対するそれぞれの発話区間を検出した場合の識別確率とが示されている。
【0150】
上記第1の実施の形態の方法の識別確率と、本変形例の方法の識別確率とを比較してみると、CCDカメラの撮影方向に対する、撮影対象者の顔向き方向の角度が特に大きくなる右ミラー方向と右窓方向において、本変形例の顔向きを考慮した方法が、上記第1の実施の形態の方法より4%も識別確率が向上しているのが解る。これは、前記角度が異なることによって、CCDカメラによって撮影される口唇部分の画像形状が、角度の大きさに応じて異なる形状となってくるためである。つまり、口唇部分の画像の変形度合いが大きければ大きいほど(前記角度が大きければ大きいほど)、変形度合いが小さい(前記角度が小さい)画像から抽出される特徴量とは違った特徴量が抽出されるようになるため、このように角度によって違った特徴量が得られるものに対して1種類のHMMを用いて発話区間を検出するよりも、それぞれの方向(角度範囲)に応じたHMMを用いた方が発話区間の検出精度が向上する。このことは、図16に示すように、HMMを各顔向き方向毎に作成した方が、1種類のHMMで全方向の発話区間を検出するよりも、全ての方向において識別確率が向上していることからも解る。
【0151】
以上、本変形例における発話区間検出装置1は、画像撮影部10により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部11により、撮影対象者の複数方向の顔向き方向に対応した発話区間検出用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部12により、撮影画像データをグレイスケール化し、且つ、サブ・サンプリングによりサイズを縮小することにより検出用画像を生成することが可能であり、口唇領域検出部13により、全体顔検出用SVM及び口唇領域検出用SVMを用いて検出用画像から口唇領域を検出すると共に、顔全体の領域画像と検出した口唇領域の座標情報とに基づき、撮影対象者の顔向き方向を判定し、当該判定結果に基づき口唇領域の検出サイズを変更することが可能であり、特徴量抽出部14により、検出された口唇領域の位置情報及び判定結果の顔向き方向に基づき、元の撮影画像から顔向き方向に応じたサイズの口唇領域画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部15により、判定結果の顔向き方向に対応した発話区間検出用のHMMを用いて、発話区間の検出を行うことが可能である。
[0154]
〔第2の実施の形態〕
次に、本発明の第2の実施の形態を図面に基づき説明する。図20〜図30は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第2の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の覚醒状態を判定する覚醒状態判定装置に適用した場合を説明する。
【0155】
まず、本発明に係る覚醒状態判定装置の構成を図20に基づき説明する。図20は、本発明に係る覚醒状態判定装置の構成を示すブロック図である。
図20に示すように、覚醒状態判定装置2は、画像撮影部30と、データ記憶部31と、画像処理部32と、眼領域検出部33と、特徴量抽出部34と、覚醒状態判定部35とを含んだ構成となっている。なお、本実施の形態において、覚醒状態判定装置2は、自動車室内に設置され、且つ、図示しない自動車室内に設置された警報システムと連動可能に接続される。そして、覚醒状態判定装置2の出力は警報システムに入力され、警報システムは入力された情報に基づき、運転者が睡眠状態や睡眠しかかった状態にあると判定された場合には、判定結果の画面表示、警告音や警告音声メッセージを発する等の動作を行う。
【0156】
画像撮影部30は、CCD(charge coupled device)カメラを含んだ構成となっており、フレーム単位で撮影した画像をデジタルのデータで出力する。そして、出力画像データは、データ記憶部31に伝送される。本実施の形態において、CCDカメラは、自動車室内におけるインナーミラーに、運転席に座った人(運転手)の顔全体を含む像を撮影可能な状態で取り付けられている。なお、CCDカメラの設置位置は、インナーミラーに限らず、撮影対象者の顔全体を含む画像が撮影可能な位置であれば、ステアリング・コラム位置、センター・パネル位置、フロント・ピラー位置等の別の場所でも良い。
【0157】
データ記憶部31は、全体顔検出用SVM、眼領域検出用SVM、覚醒状態判定用のHMM、画像撮影部30によって撮影された画像等、覚醒状態の判定に必要なデータを記憶する。
画像処理部32は、眼領域検出部33において行われる、撮影画像から眼領域を検出する処理の前処理として、画像サイズの縮小等を行う。以下、画像サイズの縮小された撮影画像を検出用画像と称すこととする。
【0158】
眼領域検出部33は、SVMを用いて画像処理部32から取得した検出用画像から撮影対象者の眼領域を検出する。本実施の形態においては、検出用画像から撮影対象者の顔全体の領域200を検出する全体顔検出用SVMと、全体顔検出用SVMによって検出された全体顔画像から撮影対象者の左眼を含む左眼領域(右眼は含まない)を検出する左眼領域検出用SVMとの2種類のSVMを用いて2段階で左眼領域を検出する。また、一度左眼領域が検出されると、次のフレームの検出用画像に対しては、前のフレームで検出された左眼領域の位置情報(例えば、画像の左上の画素を座標(1,1)とした場合の座標情報)に基づき左眼領域の探索範囲を設定し、この探索範囲に対して左眼領域検出用SVMを適用する。つまり、一度左眼領域が検出されると、左眼領域が未検出となるまで次フレームからの検出用画像に対して全体顔検出用SVMによる顔全体の画像領域の検出処理を省略する。このとき、最初に左眼領域を検出する際の探索範囲よりも狭い範囲の探索範囲を設定することで左眼領域の検出処理を高速化する。以下、上記した2種類のSVMを用いた左眼領域の検出処理を行うモードを検出モードと称し、前のフレームで検出された左眼領域の位置情報に基づき左眼領域の探索範囲を設定し、この探索範囲に対して左眼領域検出用SVMを適用して左眼領域の検出処理を行うモードをトラッキングモードと称すこととする。なお、検出結果の情報は、特徴量抽出部34に伝送される。
【0159】
特徴量抽出部34は、眼領域検出部33からの検出結果の情報を取得すると、この情報に基づき、対応する元の撮影画像をデータ記憶部11から読み出し、当該読み出した画像から左眼領域の画像を切り取り、当該切り取った左眼領域画像から後述する覚醒状態判定用のHMMに入力する特徴量を抽出する。本実施の形態においては、抽出した特徴量に対して、主成分分析や独立成分分析を用いて次元数の削減を行う。また、本実施の形態においては、切り取った左眼領域画像をフーリエ変換してその周波数スペクトル成分を特徴量として抽出する。また、抽出された特徴量は、連続する所定フレーム(例えば、10フレーム)分を一組として覚醒状態判定部35に伝送される。
【0160】
覚醒状態判定部35は、特徴量抽出部34から取得した左眼領域画像の特徴量を覚醒状態判定用のHMMに入力し、この入力に対するHMMからの出力に基づき、対象者の覚醒状態を判定する。判定結果の情報は、図示しない警報システムに伝送される。
ここで、本実施の形態において、覚醒状態判定装置2は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。
【0161】
また、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【0162】
更に、図21〜図27に基づき、覚醒状態判定装置2のより具体的な動作を説明する。ここで、図21(a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。また、図22は、1回のまばたきに対する覚醒状態判定用の筋電図波形の構成を示す図である。また、図23は、まばたき波形のパターンを示す図である。図24は、図23における波形Oに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図であり、図25は、図23における波形Aに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図であり、図26は、図23における波形Bに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。また、図27は、まばたきの間隔と群発の波形パターンの一例を示す図である。
【0163】
覚醒状態判定装置2は、覚醒状態の判定処理が開始されると、まず、画像撮影部10において、インナーミラーに取り付けられたCCDカメラにより、図21(a)に示すような自動車の運転席に座っている撮影対象者(運転者)の顔全体を含む画像を撮影し、この撮影された画像データを、フレーム(ここでは、1/30秒とする)単位で且つ撮影した順番にデータ記憶部31に記憶する。ここで、本実施の形態において撮影画像はカラー画像とする。データ記憶部31は、撮影画像データを記憶すると、そのことを画像処理部32に通知する。
【0164】
画像処理部32は、データ記憶部31からの通知を受けると、当該データ記憶部31から撮影画像データを読み出し、読み出した画像データに対してサブ・サンプリングによる画像サイズの縮小処理を行う。例えば、撮影画像が640×480(縦×横)画素のサイズのフルカラー画像であったとすると、画像の縦及び横方向にそれぞれ1/8にサブ・サンプリングされ80×60(縦×横)画素のサイズの画像に変換される。サブ・サンプリングは、例えば、640×480画素の撮影画像を、80×80画素の矩形領域単位に分割し、各矩形領域を当該各矩形領域の画素の輝度値の平均値を輝度値とした1画素に置換することにより行われる。これにより、画素数を1/64に減少する。このようにして生成された検出用画像は、眼領域検出部33に伝送される。
【0165】
眼領域検出部33は、画像処理部32から検出用画像を取得すると、検出モードに移行し、上記第1の実施の形態と同様の方法により、80×60画素の検出用画像の全体に対して、20×20画素のサーチウィンドウにより顔全体の画像領域のスキャニングを行う。更に、スキャニングされた20×20画素の計400画素の画素値を400次元の値として全体顔検出用SVMに入力する。全体顔検出用SVMでは、予め400次元空間における全体顔クラスと非全体顔クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い20×20画素の領域画像を顔全体の画像領域として検出する。顔全体の画像領域200が検出されると、次に、上記第1の実施の形態と同様の方法により、顔全体の画像領域200の上半分の画像領域(左眼を含む領域)を含む10×20(縦×横)画素の探索領域26を設定し、当該設定した探索領域に対して4×8(縦×横)画素のサーチウィンドウ27により左眼領域のスキャニングを行う。つまり、実際の画像においては、図21(b)に示すようになる。そして、スキャニングされた4×8画素の計32画素の画素値を32次元の値として左眼領域検出用SVMに入力する。左眼領域検出用SVMでは、予め32次元空間における左眼領域クラスと非左眼領域クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い4×8画素の領域画像を左眼領域画像として検出する。更に、左眼領域画像が検出されるとその位置情報(座標情報)を取得し、次のフレームの検出用画像に対してトラッキングモードへと移行する。
【0166】
眼領域検出部33は、トラッキングモードに移行すると、次のフレームの検出用画像に対して、上記第1の実施の形態と同様の方法により、前のフレームで検出された左眼領域画像の位置座標を中心に縦方向及び横方向に5画素ずつ広げた15×15画素の探索領域28を設定し、当該設定された探索領域に対して4×8画素のサーチウィンドウにより左眼領域のスキャニングを行う。実際の画像においては、図21(c)に示すようになる。スキャニングされた4×8画素の計32画素の画素値は、上記検出モードと同様に左眼領域検出用SVMに入力され、左眼領域の検出処理が行われる。なお、左眼領域が検出されると、本実施の形態においては、左眼領域の中心座標が特徴量抽出部34に伝送される。また、トラッキングモードにおいては、左眼領域の検出が成功している間はこのモードを維持し、左眼領域の検出が失敗した場合は顔検出モードへと移行する。
【0167】
特徴量抽出部34は、左眼領域検出部33から各フレームの検出用画像における左眼領域の中心座標を取得すると、データ記憶部31によって記憶された対応する撮影画像から、前記取得した中心座標を中心に4×8画素の左眼領域画像を切り出す。そして切り出した各フレームの左眼領域画像に対して、FFTなどにより分散フーリエ変換処理を施し、その変換後の実部係数と、1つ前のフレームの左眼領域画像の分散フーリエ変換後の実部係数との差分値を特徴量として求める。なお、特徴量としては、他にも、左目領域画像をフーリエ変換した周波数スペクトル成分、左目領域画像をフーリエ変換した周波数スペクトルに対する対数成分、左目領域画像をフーリエ変換した周波数スペクトルに対しての前後のフレームとのフレーム間差分成分、左目領域画像に対するメル・ケプストラム(MFCC)成分、左目領域画像に対するフレーム内モーメント成分、左目領域画像に対するフレーム間モーメント成分、左目領域画像をフーリエ変換した周波数スペクトルに対するフレーム内モーメント成分、左目領域画像をフレーム変換した周波数スペクトルに対するフレーム間モーメント成分などや、これらの組合せなどがある。これらは、システムの構成などに応じて適切なものを用いるようにする。
【0168】
本実施の形態において、求めた特徴量は、更に、上記第1の実施の形態と同様に、演算量削減及び識別に無用な情報の除去のために主成分分析によって次元削減を行う。このような特徴量の抽出を1フレーム毎に実施し、抽出した特徴量を、撮影した順番に所定フレーム(例えば、10フレーム)分を一組として、覚醒状態判定部35に伝送する。ここで、所定フレーム(例えば、10フレーム)分を一組とすることで、まばたき1回分の画像に対する特徴量を含ませるようにしている。
覚醒状態判定部35は、特徴量抽出部34から所定フレーム(例えば、10フレーム)一組の特徴量を取得すると、この特徴量を覚醒状態判定用のHMMに入力する。
【0169】
ここで、図22及び図23に基づき、覚醒状態の判定に有効なまばたきの特性について説明する。まばたきの特性を識別するための要素として、図22に示すように、1回のまばたきの筋電図波形における、振幅、瞼を開いた状態(図22中の開始点)から閉じ(図22中の頂点)、そして再び開くまでにかかる時間(まばたきの速度)、振幅が50%の位置におけるまばたき速度(図22中の振幅50%ウィンドウ持続時間)、瞼を開いた状態(図22中の開始点)から瞼が閉じるまでの時間(図22中の閉瞼時間)、振幅が50%の位置から瞼が閉じるまでの時間(図22中の下降時間)などがある。また、生理学においては、まばたきに対する筋電図波形として、図23に示すように、人間の覚醒時の標準のまばたき波形である波形O、標準波形O以外の波形A〜波形Lといったように、様々なまばたき波形が確認されている。これらまばたき波形の中でも、特に眠気のある状態(以下、眠気状態という)を判断するのに代表的な波形は、波形A及び波形Bであり、1回1回のまばたきの振幅及びまばたきの速度から、これら波形A及び波形Bの判断を行い、これらの出現パターンや出現頻度などを解析することによって、対象者が覚醒状態にあるか否かを高精度に判定することが可能である。
【0170】
従って、本実施の形態においては、上記特徴量抽出部34で抽出された特徴量を入力とし、上記標準のまばたき波形O、まばたき波形A、まばたき波形B、及びこれら以外のまばたき波形(波形C〜L)の計4種類の波形に対する尤度を出力とする覚醒状態判定用のHMMを用意する。つまり、不特定多数の人の左眼に対する1回のまばたきに対応したまばたき映像(動画像)に対して、まばたきの振幅や速度でラベル付け(波形O、A、B、これら以外の波形(波形C〜L)に分類)を行い、これらの映像から検出された左眼領域画像から抽出された特徴量を学習データとしてHMMによる学習を行い、上記4種類の波形の各波形をそれぞれ識別可能な4種類のHMM(各波形に1対1に対応したHMM)を生成する。
【0171】
覚醒状態判定部35は、上記のようにして生成された4種類の覚醒状態判定用のHMMに対して、特徴量抽出部34から取得した所定フレーム(例えば、10フレーム)一組の特徴量をそれぞれ入力して、上記4種類のまばたき波形にそれぞれ対応したHMMのいずれが最も高い尤度を出力するかを調べ、最も出力尤度が高かったまばたき波形を、入力された特徴量に対する対象者の1回のまばたきの波形として確定する。
【0172】
ここで、図24〜図26に基づき、覚醒状態判定用のHMMを用いて上記波形O、A、Bを識別することの有効性を説明する。図24〜図26は、実際に、被験者に電極を右眼及び左眼の筋電位測定位置にそれぞれ付けてもらい、1回のまばたきに対する筋電位の変化を測定した際の筋電図の筋電位波形と、このときの被験者の撮影画像から1回のまばたきに対する左眼領域画像を本発明の手法を用いて検出し、当該検出した左眼領域画像の1回のまばたき分の特徴量を、上記4種類の覚醒状態判定用のHMMにそれぞれ入力し、これらの出力のうち最も尤度が高くなるHMMに対応した波形とを示した図である。図24〜図26に示す画面は、いずれも検証用のアプリケーションソフトの画面を図面化したものであり、画面の上部に表示されるまばたきの動画(左眼のみ)に合わせて、当該動画の下に右眼及び左眼の筋電位の測定波形(筋電図波形)が表示され、このまばたき動画に対して本発明を適用して識別した波形O、A、B、それ以外の波形の4種類の波形のいずれかの識別結果の情報が画面右側に表示される。図24は、被験者が標準のまばたきに分類されるまばたきをしたときの筋電図波形と、覚醒状態判定用のHMMによって識別された波形とが表示された画面を示す図であるが、このときのまばたきの映像から抽出される特徴量に対して覚醒状態判定用のHMMはその識別結果として、図24の画面右側に示すように、波形O(通常のまばたき波形)を表示しており、被験者のまばたき波形の種類を正確に識別していることが解る。同様に、図25、図26は、眠気状態の判定において代表的なまばたき波形である、波形A及び波形Bに分類されるまばたきを被験者がしたときの筋電図波形と、このときのまばたきの映像から抽出される特徴量に対して覚醒状態判定用のHMMによって識別された波形とをそれぞれ示す図であるが、これらに対しても、覚醒状態判定用のHMMはその識別結果として、図25及び図26に示すように、波形A及び波形Bをそれぞれ表示しており、被験者のまばたき波形の種類を正確に識別していることが解る。
【0173】
また、上記図24〜図26に示したようなまばたき波形の識別を、多くの被験者に対して行ったところ、標準のまばたき(波形O)に分類されるまばたきに対しては「99%」の識別率が得られ、眠気状態の判定において代表的なまばたきである、波形Aに分類されるまばたきに対しては「84%」、波形Bに分類されるまばたきに対しては「79%」の識別率がそれぞれ得られた。
従って、覚醒状態判定用のHMMを用いて、筋電位測定のための電極などを装着することなく、撮影対象者に非接触で撮影対象者の左眼領域映像から1回のまばたきに対するまばたき波形の識別を行うことは有効であると言える。
【0174】
更に、覚醒状態判定部35は、まばたき波形の種類が確定すると、以前に確定されたまばたき波形と合わせて、各波形の出現パターンや出現頻度等を解析し、当該解析結果に基づき対象者の覚醒状態(覚醒している状態、睡眠しかかっている状態、睡眠状態など)を判定する。本実施の形態においては、1回1回のまばたき波形の識別結果を所定の時間単位でヒストグラム処理することにより、4つのまばたきパターンの発生頻度変化を捉え、対象者の覚醒状態の推定を行う。具体的には、波形A〜波形Lの発生頻度が高くなってきた場合に覚醒状態が低くなった(眠気が増した)と判断する。また、生理学において、図27に示すように、眠気が増してきたときにおいてまばたきの群発と言われる現象が起こることが知られている。このことから、本実施の形態においては、識別された上記4種類のまばたき波形の出現間隔を求め、まばたきが連続的に発生する頻度が高くなった場合には、この状態も覚醒状態が低くなった(眠気が増した)と判断する。このようにして判定(推定)された判定結果の情報は、図示しない警報システムへと出力される。
【0175】
更に、図28に基づき、眼領域検出部33における左眼領域の検出処理の流れを説明する。図28は、眼領域検出部33における左眼領域の検出処理を示すフローチャートである。
図28に示すように、まずステップS1100に移行し、画像処理部32から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1102に移行し、そうでない場合(No)は取得するまで待機する。
【0176】
ステップS1102に移行した場合は、検出モードに移行し、検出用画像における20×20画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用SVMを用いて識別処理を行いステップS1104に移行する。
【0177】
ステップS1104では、ステップS1102の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS1106に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1106に移行した場合は、上記検出された顔全体の領域画像における上半分の領域を含む、10×20画素の眼領域の探索領域を検出用画像に対して設定しステップS1108に移行する。
【0178】
ステップS1108では、ステップS1106で設定された探索領域における4×8画素のサーチウィンドウによりスキャニングした領域に対して左眼領域検出用SVMを用いて識別処理を行いステップS1110に移行する。
ステップS1110では、ステップS1108の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS1112に移行し、そうでない場合(No)はステップS1130に移行する。
【0179】
ステップS1112に移行した場合は、ステップS1110で検出された左眼領域の位置情報を取得してステップS1114に移行する。
ステップS1114では、検出モードからトラッキングモードに設定を切り換えステップS1116に移行する。
【0180】
ステップS1116では、ステップS1110で左眼領域の検出された検出用画像の次フレームの画像データを取得してステップS1118に移行する。
ステップS1118では、一つ前のフレームの検出用画像における左眼領域の位置情報に基づき、15×15画素の左眼領域の探索領域を設定してステップS1120に移行する。
【0181】
ステップS1120では、ステップS1118で設定された15×15画素の探索領域における4×8画素のサーチウィンドウによりスキャニングした領域に対して左眼領域検出用SVMを用いて識別処理を行いステップS1122に移行する。
ステップS1122では、ステップS1120の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS1124に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1124に移行した場合は、ステップS1122で検出された左眼領域の位置情報を取得してステップS1126に移行する。
【0182】
ステップS1126では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS1116に移行し、そうでない場合(No)はステップS1128に移行する。
ステップS1128に移行した場合は、取得した位置情報を特徴量抽出部34に伝送してステップS1100に移行する。
【0183】
また、ステップS1130に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS1132に移行し、そうでない場合(No)はステップS1100に移行する。
ステップS1132に移行した場合は、次フレームの検出用画像データを取得してステップS1102に移行する。
【0184】
更に、図29に基づき、特徴量抽出部34における特徴量の抽出処理の流れを説明する。図29は、特徴量抽出部34における特徴量の抽出処理を示すフローチャートである。
図29に示すように、まずステップS1200に移行し、眼領域検出部33から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1202に移行し、そうでない場合(No)は取得するまで待機する。
【0185】
ステップS1202に移行した場合は、データ記憶部31に記憶された撮影画像から上記取得した位置情報に基づき左眼領域の画像を切り出してステップS1204に移行する。
ステップS1204では、窓関数により、右眼や眉などの左眼以外の画像による影響を少なくする処理を行いステップS1206に移行する。
【0186】
ステップS1206では、窓関数による処理後の画像に対して、分散フーリエ変換処理を施し、左眼領域画像の振幅スペクトルを得てステップS1208に移行する。
ステップS1208では、ステップS1206で得られた振幅スペクトルと、一つ前のフレームの振幅スペクトルとにおける実部係数の差分を算出してステップS1210に移行する。
【0187】
ステップS1210では、ステップS1208で算出された実部係数の差分に対して主成分分析を行い、実部係数の次元数を削減して特徴量を生成しステップS1212に移行する。
ステップS1212では、上記生成した特徴量の所定フレーム(例えば、10フレーム)分を一組にして覚醒状態判定部35に伝送してステップS1200に移行する。
【0188】
更に、図30に基づき、覚醒状態判定部35における覚醒状態の判定処理の流れを説明する。図30は、覚醒状態判定部35における覚醒状態の判定処理を示すフローチャートである。
図30に示すように、まずステップS1300に移行し、特徴量抽出部34から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1302に移行し、そうでない場合(No)は取得するまで待機する。
【0189】
ステップS1302に移行した場合は、覚醒状態判定用HMMである、上記4種類のまばたき波形をそれぞれ識別する4種類のHMMに上記取得した所定フレーム(例えば、10フレーム)一組の特徴量をそれぞれ入力して、これら4種類のHMMの尤度に基づく所定フレーム毎のまばたき波形の種類を判定してステップS1304に移行する。
ステップS1304では、ステップS1302の判定結果を、データ記憶部31に判定順に記憶してステップS1306に移行する。
【0190】
ステップS1306では、データ記憶部31に所定期間分の判定結果が蓄積されたか否かを判定し、蓄積されたと判定された場合(Yes)は、ステップS1308に移行し、そうでない場合(No)は、ステップS1300に移行する。
ステップS1308に移行した場合は、所定期間の判定結果に基づき、覚醒状態を判定してステップS1310に移行する。ここで、覚醒状態の判定は、所定期間のまばたき波形の判定結果に基づき、各波形パターンをヒストグラム処理して、各まばたき波形パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形O以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。
[0191]
ステップS1310では、ステップS1308で判定された結果を警報システムに伝送して処理を終了する。
以上、本変形例における覚醒状態判定装置2は、画像撮影部30により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部31により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部32により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部33により、全体顔検出用SVM及び左眼領域検出用SVMを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部34により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部35により、覚醒状態判定用のHMMを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第2の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。
【0192】
上記実施の形態において、画像撮影部30及びデータ記憶部31による撮影対象者の画像データの取得処理は、請求項1に記載の画像撮影手段に対応する
【0193】
また、上記実施の形態において、特徴量抽出部34は、請求項1又は4に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部35は、請求項1又は4に記載の動作内容判定手段に対応する。
[0194]
なお、上記第1の実施の形態及び上記第1の実施の形態の変形例においては、撮影画像から検出した口唇領域画像から、発話区間の検出、発話内容の検出を行っているが、これに限らず、ガムを噛んでいる状態や、欠伸をしている状態など他の動作内容を判定するようにしても良い。
また、上記第1の実施の形態又は上記第1の実施の形態の変形例における発話区間検出装置1の機能と、上記第2の実施の形態における覚醒状態判定装置2の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。
[0195]
また、上記第1及び第2の実施の形態においては、撮影画像から口唇領域画像を検出して、口唇の動きに関連した動作内容(発話区間)の判定と、撮影画像から眼の画像を検出して、眼の動きに関連した動作内容(居眠り等)の判定を行っているが、これに限らず、その他の顔を構成する鼻や眉等の部位の画像を検出し、これらの動きに関連した動作内容を判定するようにしても良い。
[0196]
また、上記第2の実施の形態においては、上記第1の実施の形態の変形例のように対象者の顔向き方向を考慮していないが、これに限らず、対象者の顔向き方向を考慮し、各顔向き方向に対応した覚醒状態判定用のHMMを用意し、顔向き方向を判定して、これらHMMから判定された顔向き方向に対応したHMMを選択し、当該選択したHMMを用いて、対象者のまばたき波形の種類判定を行う構成としても良い。これにより、より高精度にまばたき波形の種類を判定することが可能となる。
【産業上の利用可能性】
【0202】
以上説明したように、本発明に係る請求項記載の動作内容判定装置によれば、公知のHMMを用いることにより、時間的概念を伴う眼部分のまばたきに関連した動作内容を判定することができるので、より高精度に覚醒状態の判定を行うことが可能である。例えば、まばたき時の眼の状況を、筋肉の筋電位波形として表現した際の、対象者の特定の性質を有した特定種類のまばたきを示す波形を精度良く判定することが可能である。更に、所定時間内における特定種類のまばたきの発生頻度の変化または特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、対象者の覚醒状態を判定するようにしたので、例えば、覚醒している状態、睡眠しかかっている状態、睡眠状態などの覚醒状態の程度を判定することが可能である。
また、請求項2記載の動作内容判定装置によれば、請求項1の前記利用の可能性に加え、特定種類のまばたき波形の出現間隔から、特定種類のまばたき波形のなかの同一種類のまばたき波形が連続的に発生する頻度に基づき、対象者の覚醒状態を判定するようにしたので、特定の一種類のまばたきが連続的に発生する頻度が高くなった場合に、覚醒状態が低くなった(眠気が増した)と判定することが可能である。
【0206】
また、請求項記載の警報システムによれば、例えば、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である
【0207】
た、請求項記載の動作内容判定プログラムによれば、請求項の動作内容判定装置と同等の効果が得られる。
【0208】
また、請求項5記載の動作内容判定方法によれば、請求項1の動作内容判定装置と同等の効果が得られる。

Claims (5)

  1. 対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
    前記眼部分を含む画像を撮影する画像撮影手段と、
    前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
    前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者の特定種類のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、
    前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。
  2. 前記動作内容判定手段は、所定時間内における前記特定種類のまばたき波形のそれぞれの出現間隔を求め、前記特定種類のまばたき波形のなかの同一種類のまばたき波形が連続的に発生する頻度に基づき、前記対象者の覚醒状態を判定することを特徴とする請求項1記載の動作内容判定装置。
  3. 請求項1又は請求項2に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴とする警報システム。
  4. 対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
    前記眼部分を含む画像を撮影する画像撮影手段と、
    前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
    前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者の特定種類のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量とを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする動作内容判定プログラム。
  5. 対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定方法であって、
    前記眼部分を含む画像を撮影する画像撮影ステップと、
    前記画像撮影ステップの撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出ステップと、
    前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者の特定種類のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量とを用いて当該特徴量に対する特定の性質を有した前記特定種類のまばたき波形に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形の種類を判定し、所定時間内における前記特定種類のまばたき波形のそれぞれの発生頻度の変化または前記特定種類のまばたき波形のそれぞれの出現パターンの少なくとも一方に基づき、前記対象者の覚醒状態を判定する動作内容判定ステップと、を含むことを特徴とする動作内容判定方法。
JP2006513753A 2004-05-21 2005-05-23 動作内容判定装置 Active JP4286860B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004151579 2004-05-21
JP2004151579 2004-05-21
PCT/JP2005/009376 WO2005114576A1 (ja) 2004-05-21 2005-05-23 動作内容判定装置

Publications (2)

Publication Number Publication Date
JPWO2005114576A1 JPWO2005114576A1 (ja) 2008-07-31
JP4286860B2 true JP4286860B2 (ja) 2009-07-01

Family

ID=35428570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006513753A Active JP4286860B2 (ja) 2004-05-21 2005-05-23 動作内容判定装置

Country Status (4)

Country Link
US (1) US7894637B2 (ja)
EP (1) EP1748387B1 (ja)
JP (1) JP4286860B2 (ja)
WO (1) WO2005114576A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011200412A (ja) * 2010-03-25 2011-10-13 Panasonic Electric Works Co Ltd 生体情報計測システム

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK1667991T3 (da) * 2003-09-16 2008-08-18 Astrazeneca Ab Quinazolinderivater som tyrosinkinaseinhibitorer
JP5292671B2 (ja) * 2006-03-06 2013-09-18 トヨタ自動車株式会社 覚醒度推定装置及びシステム並びに方法
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP4137969B2 (ja) * 2006-12-04 2008-08-20 アイシン精機株式会社 眼部検出装置、眼部検出方法及びプログラム
JP2008171107A (ja) * 2007-01-10 2008-07-24 Matsushita Electric Ind Co Ltd 顔状況判定処理装置および撮像装置
JP2008171108A (ja) * 2007-01-10 2008-07-24 Matsushita Electric Ind Co Ltd 顔状況判定処理装置および撮像装置
WO2008088070A1 (ja) 2007-01-19 2008-07-24 Asahi Kasei Kabushiki Kaisha 覚醒状態判定モデル生成装置、覚醒状態判定装置及び警告装置
JP4895847B2 (ja) * 2007-02-08 2012-03-14 アイシン精機株式会社 瞼検出装置及びプログラム
KR100795160B1 (ko) * 2007-03-22 2008-01-16 주식회사 아트닉스 얼굴영역검출장치 및 검출방법
JP4891144B2 (ja) * 2007-05-08 2012-03-07 キヤノン株式会社 画像検索装置及び画像検索方法
JP4375448B2 (ja) * 2007-06-26 2009-12-02 ソニー株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
JP4458173B2 (ja) * 2008-03-19 2010-04-28 カシオ計算機株式会社 画像記録方法、画像記録装置、およびプログラム
JP5189893B2 (ja) * 2008-05-20 2013-04-24 旭化成株式会社 瞬目種別識別装置、瞬目種別識別方法、及び瞬目種別識別プログラム
US20100005169A1 (en) * 2008-07-03 2010-01-07 Von Hilgers Philipp Method and Device for Tracking Interactions of a User with an Electronic Document
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
JP2010074399A (ja) * 2008-09-17 2010-04-02 Sony Corp 構図判定装置、構図判定方法、画像処理装置、画像処理方法、プログラム
US20100074557A1 (en) * 2008-09-25 2010-03-25 Sanyo Electric Co., Ltd. Image Processing Device And Electronic Appliance
KR101179497B1 (ko) * 2008-12-22 2012-09-07 한국전자통신연구원 얼굴 검출 방법 및 장치
JP2010165052A (ja) * 2009-01-13 2010-07-29 Canon Inc 画像処理装置及び画像処理方法
JP5270415B2 (ja) * 2009-03-19 2013-08-21 トヨタ自動車株式会社 眠気判定装置及びプログラム
DE112009004768B4 (de) * 2009-05-12 2018-01-04 Toyota Jidosha Kabushiki Kaisha Abschätzvorrichtung für den visuellen erkennungsbereich und antriebsunterstützungsvorrichtung
CN102460469A (zh) * 2009-06-12 2012-05-16 皇家飞利浦电子股份有限公司 用于生物识别的系统和方法
EP2437213A1 (en) 2009-06-16 2012-04-04 Intel Corporation Camera applications in a handheld device
US8745250B2 (en) * 2009-06-30 2014-06-03 Intel Corporation Multimodal proximity detection
JP2011053915A (ja) * 2009-09-02 2011-03-17 Sony Corp 画像処理装置、画像処理方法、プログラム及び電子機器
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP2012003326A (ja) * 2010-06-14 2012-01-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2012068948A (ja) * 2010-09-24 2012-04-05 Renesas Electronics Corp 顔属性推定装置およびその方法
JP5569990B2 (ja) * 2010-10-22 2014-08-13 Necソリューションイノベータ株式会社 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
TW201226245A (en) * 2010-12-31 2012-07-01 Altek Corp Vehicle apparatus control system and method thereof
US20140093142A1 (en) * 2011-05-24 2014-04-03 Nec Corporation Information processing apparatus, information processing method, and information processing program
JP5914992B2 (ja) * 2011-06-02 2016-05-11 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
JP5837341B2 (ja) * 2011-06-24 2015-12-24 株式会社ブリヂストン 路面状態判定方法とその装置
US9094539B1 (en) * 2011-09-22 2015-07-28 Amazon Technologies, Inc. Dynamic device adjustments based on determined user sleep state
JP5836095B2 (ja) * 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
US20130188825A1 (en) * 2012-01-19 2013-07-25 Utechzone Co., Ltd. Image recognition-based startup method
US20130243077A1 (en) * 2012-03-13 2013-09-19 Canon Kabushiki Kaisha Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern
JP5649601B2 (ja) * 2012-03-14 2015-01-07 株式会社東芝 照合装置、方法及びプログラム
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
JP5888205B2 (ja) * 2012-11-02 2016-03-16 ソニー株式会社 画像表示装置並びに情報入力装置
JP6181925B2 (ja) * 2012-12-12 2017-08-16 キヤノン株式会社 画像処理装置、画像処理装置の制御方法およびプログラム
DE102014100364B4 (de) * 2013-01-18 2020-08-13 Carnegie Mellon University Verfahren zum Bestimmen, ob eine Augen-abseits-der-Straße-Bedingung vorliegt
US20140229568A1 (en) * 2013-02-08 2014-08-14 Giuseppe Raffa Context-rich communication between a device and a vehicle
JP6182917B2 (ja) * 2013-03-15 2017-08-23 ノーリツプレシジョン株式会社 監視装置
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
WO2014201347A1 (en) 2013-06-14 2014-12-18 Intercontinental Great Brands Llc Interactive video games
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR101621774B1 (ko) * 2014-01-24 2016-05-19 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
CN104269172A (zh) * 2014-07-31 2015-01-07 广东美的制冷设备有限公司 基于视频定位的语音控制方法和系统
CN104202694B (zh) * 2014-07-31 2018-03-13 广东美的制冷设备有限公司 语音拾取装置的定向方法和系统
US9952675B2 (en) * 2014-09-23 2018-04-24 Fitbit, Inc. Methods, systems, and apparatuses to display visibility changes responsive to user gestures
US9269374B1 (en) 2014-10-27 2016-02-23 Mattersight Corporation Predictive video analytics system and methods
US9535905B2 (en) * 2014-12-12 2017-01-03 International Business Machines Corporation Statistical process control and analytics for translation supply chain operational management
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN104834222B (zh) * 2015-04-30 2018-11-27 广东美的制冷设备有限公司 家用电器的控制方法和装置
JP6651989B2 (ja) 2015-08-03 2020-02-19 株式会社リコー 映像処理装置、映像処理方法、及び映像処理システム
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
DE102015225109A1 (de) * 2015-12-14 2017-06-14 Robert Bosch Gmbh Verfahren und Vorrichtung zum Klassieren von Augenöffnungsdaten zumindest eines Auges eines Insassen eines Fahrzeugs und Verfahren und Vorrichtung zum Erfassen einer Schläfrigkeit und/oder eines Sekundenschlafes eines Insassen eines Fahrzeugs
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
CN106920558B (zh) * 2015-12-25 2021-04-13 展讯通信(上海)有限公司 关键词识别方法及装置
CN107103271A (zh) * 2016-02-23 2017-08-29 芋头科技(杭州)有限公司 一种人脸检测方法
JP6649306B2 (ja) * 2017-03-03 2020-02-19 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US10332515B2 (en) 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
CN107123423B (zh) * 2017-06-07 2021-05-18 微鲸科技有限公司 语音拾取装置及多媒体设备
CN107910009B (zh) * 2017-11-02 2020-12-01 中国科学院声学研究所 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统
CN108875535B (zh) * 2018-02-06 2023-01-10 北京旷视科技有限公司 图像检测方法、装置和系统及存储介质
WO2019159364A1 (ja) * 2018-02-19 2019-08-22 三菱電機株式会社 搭乗者状態検出装置、搭乗者状態検出システム及び搭乗者状態検出方法
DE112018007226T5 (de) * 2018-03-06 2020-12-17 Mitsubishi Electric Corporation Fahrassistenzvorrichtung, Fahrassistenzverfahren und die Fahrassistenzvorrichtung aufweisendes Fahrassistenzsystem
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
KR20200067465A (ko) * 2018-12-04 2020-06-12 삼성전자주식회사 영상 처리 방법 및 장치
CN109624844A (zh) * 2018-12-05 2019-04-16 电子科技大学成都学院 一种基于图像识别和语音传控的公交车行车保护系统
JP7211441B2 (ja) * 2019-02-01 2023-01-24 日本電気株式会社 覚醒度推定装置、覚醒度推定方法、及びプログラム
WO2021114224A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 语音检测方法、预测模型的训练方法、装置、设备及介质
JP7415611B2 (ja) * 2020-01-30 2024-01-17 富士通株式会社 計算プログラム、計算方法及び計算装置
CN112101201B (zh) * 2020-09-14 2024-05-24 北京数衍科技有限公司 行人状态的检测方法、装置及电子设备
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
US20220415003A1 (en) * 2021-06-27 2022-12-29 Realtek Semiconductor Corp. Video processing method and associated system on chip
JP2023036262A (ja) * 2021-09-02 2023-03-14 株式会社トランストロン 通報装置、通報方法及び通報プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2600834B2 (ja) 1988-08-23 1997-04-16 オムロン株式会社 居眠り検出装置
JPH0398078A (ja) 1989-09-12 1991-04-23 Seiko Epson Corp 音声評価システム
JP2541688B2 (ja) * 1990-05-21 1996-10-09 日産自動車株式会社 眼位置検出装置
JPH0779937A (ja) 1993-09-17 1995-03-28 Nissan Motor Co Ltd 覚醒度判定装置
JPH07156682A (ja) 1993-12-03 1995-06-20 Nissan Motor Co Ltd 覚醒状態検出装置
JP3296118B2 (ja) 1994-11-17 2002-06-24 トヨタ自動車株式会社 顔位置判定装置及び瞬き検出装置
JPH08175218A (ja) 1994-12-26 1996-07-09 Toyota Motor Corp 運転状態検出装置
JP3710205B2 (ja) 1996-06-05 2005-10-26 沖電気工業株式会社 音声認識装置
US6070098A (en) * 1997-01-11 2000-05-30 Circadian Technologies, Inc. Method of and apparatus for evaluation and mitigation of microsleep events
JP3577882B2 (ja) 1997-03-31 2004-10-20 日産自動車株式会社 居眠り状態検出装置
JP3688879B2 (ja) 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
JP2948186B2 (ja) * 1998-02-10 1999-09-13 株式会社エイ・ティ・アール知能映像通信研究所 顔動画像からの表情抽出方法
JPH11352987A (ja) 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
JP3012226B2 (ja) 1998-07-24 2000-02-21 マルチメディアシステム事業協同組合 居眠り運転防止装置
JP4517457B2 (ja) 2000-06-13 2010-08-04 カシオ計算機株式会社 音声認識装置、及び音声認識方法
AU2001296459A1 (en) * 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing
JP4590717B2 (ja) 2000-11-17 2010-12-01 ソニー株式会社 顔識別装置及び顔識別方法
JP4675492B2 (ja) 2001-03-22 2011-04-20 本田技研工業株式会社 顔画像を使用した個人認証装置
JP2003158643A (ja) * 2001-11-20 2003-05-30 Shibasoku:Kk 信号処理方法及び信号処理装置
US7209883B2 (en) * 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
CN100398065C (zh) * 2002-10-15 2008-07-02 沃尔沃技术公司 解释对象的头部和眼睛活动的方法和装置
US7359529B2 (en) * 2003-03-06 2008-04-15 Samsung Electronics Co., Ltd. Image-detectable monitoring system and method for using the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011200412A (ja) * 2010-03-25 2011-10-13 Panasonic Electric Works Co Ltd 生体情報計測システム

Also Published As

Publication number Publication date
WO2005114576A1 (ja) 2005-12-01
EP1748387A4 (en) 2015-04-29
EP1748387B1 (en) 2018-12-05
US7894637B2 (en) 2011-02-22
JPWO2005114576A1 (ja) 2008-07-31
US20080037837A1 (en) 2008-02-14
EP1748387A1 (en) 2007-01-31

Similar Documents

Publication Publication Date Title
JP4286860B2 (ja) 動作内容判定装置
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US20240087565A1 (en) Determining input for speech processing engine
JP4633043B2 (ja) 画像処理装置
KR102429822B1 (ko) 운전자의 감정상태 인식 장치 및 방법
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
US20040122675A1 (en) Visual feature extraction procedure useful for audiovisual continuous speech recognition
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2000112496A (ja) ビデオ・イメ―ジ及びビデオ・デ―タの獲得装置及び方法
Hassanat Visual speech recognition
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
CN111767785A (zh) 人机交互控制方法及装置、智能机器人及存储介质
JP4730812B2 (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
US20140222425A1 (en) Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information
JP6819633B2 (ja) 個人識別装置および特徴収集装置
CN114282621B (zh) 一种多模态融合的话者角色区分方法与系统
JP2002312796A (ja) 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
US11315362B2 (en) Emotion-recognition-based service provision apparatus for vehicle and method of controlling the same
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
Amin et al. HMM based automatic Arabic sign language translator using Kinect
CN113939871A (zh) 讲话区间检测装置、讲话区间检测方法及讲话区间检测程序
JP2012059017A (ja) ワードスポッティング読唇装置及び方法
Hassanat et al. Visual words for lip-reading
JP2019152737A (ja) 話者推定方法および話者推定装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090325

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4286860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350