JP4394532B2 - 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 - Google Patents

音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4394532B2
JP4394532B2 JP2004217785A JP2004217785A JP4394532B2 JP 4394532 B2 JP4394532 B2 JP 4394532B2 JP 2004217785 A JP2004217785 A JP 2004217785A JP 2004217785 A JP2004217785 A JP 2004217785A JP 4394532 B2 JP4394532 B2 JP 4394532B2
Authority
JP
Japan
Prior art keywords
section
voice
laughing
laughter
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004217785A
Other languages
English (en)
Other versions
JP2005037953A (ja
Inventor
啓子 綿貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004217785A priority Critical patent/JP4394532B2/ja
Publication of JP2005037953A publication Critical patent/JP2005037953A/ja
Application granted granted Critical
Publication of JP4394532B2 publication Critical patent/JP4394532B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、人の感情に対応する音声信号及び動作に関する情報を処理する音声処理装置及び動画像処理装置に関し、詳細には、ユーザと情報処理機器との間で自然な対話を実現するマルチモーダルインタフェースの対話データベースに用いて好適な音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体に関する。
近年、音声認識技術が発展し、テレビジョン受像機、ラジオ受信機、車載ナビゲーション、携帯電話、パーソナルコンピュータ(以下、パソコンという)等の機器に搭載されつつある。音声認識装置は通常それぞれの機器の一部として内蔵されている。この音声認識装置、手書き文字認識装置、マウス、ライトペン、タブレット等のポインティングデバイスなど、複数の入力装置をコンピュータに接続して、ユーザがその局面局面において自分にとって最も都合の良い入力装置を使って入力できれば非常に使いやすいインタフェースとなる。このように複数の異なる入力モードから、ユーザが任意の入力モードを選択し、組み合わせて自分の意図をシステムに伝えることができるインタフェースのことをマルチモーダルインタフェースという。
また、高性能のワークステーションやパソコンの普及に伴って、記憶容量の大きな光磁気ディスク等の記憶媒体も低廉化し、高解像度の表示装置やマルチメディアに適応した周辺機器の価格も大幅に低下している。文書処理、画像データ処理その他の分野では、処理対象となるデータの情報量の増大に適応可能なデータ処理機能の向上が要求され、従来、主として文字や数値に施されていた処理に併せて音声や動画にも多様な処理を施すことが可能な種々の処理装置が開発されつつある。
ところで、上記ワークステーションやパソコン等において、音声処理をするにあたり、特に対話の場合、人間は常に淀みなくしゃべり続けるわけではなく、楽しく笑いながら、あるいは失笑しながらしゃべる。これら笑い声は、音声認識のレベルを上げるためにも、また、対話者の感情を分析する上でも重要である。同様に、動画像処理をするにあたり、笑いの動作を認識することが重要になる。
特開平9−206291号公報 特開平5−12023号公報 特開平8−153120号公報 特開平7−253986号公報
このような従来の音声・動画像処理装置にあっては、以下のような問題点があった。
例えば、上記特許文献1には、音声信号から周波数スペクトラムを抽出し、そのスペクトラムの中心(周波数重心)Gを求めて、この周波数重心Gが所定の閾値より大きいかどうかで笑いや拍手、歓声等の感情を認識する方法が提案されている。この方法は、笑いや拍手等の感情表現では、周波数重心が高いことを利用しているが、笑いと拍手の区別はつけられない。さらに、上記特許文献1に記載された装置は、例えば笑い等の音の種類に対応する標準波形パターン辞書をあらかじめ用意しておいて、パターンマッチングにより判定する方法も記載されている。しかしこの方法では、あらゆる笑いのパターンを用意しておかなければならず、また、マッチングの過程において、すべての波形パターンに対して処理を行わなければならず、膨大な演算量とメモリサイズを必要とする。
また、上記特許文献2には、音声認識を利用し、継続長やピッチなどの音声信号の特徴を抽出して、基準となる音声信号とのずれ量を検出することで感情状態を判定する方法が開示されている。しかしこの方法は、発話音声に含まれる喜びや怒り等の感情を認識するためのものであり、笑い声を認識することはできない。
一方、動画情報を含むビデオ素材から人間等の笑いの動作に関してデータベースを作成する場合、例えば上記特許文献3には、動画像データをフレーム毎に分割して静止画像に変換し、各フレームにラベルを付与して画像データベースを生成し、そのラベルに基づいて検索する方法が開示されている。また、上記特許文献4には、音声及び動画像を含むデータベースから、例えば笑いの音声や表情が見られるフレーム区間に、[warai]等のラベル(タグ)を付与し、検索時にそのラベルを入力すると、登録時に関連したラベルを付与されていた動画像及び音声を抽出する方法が開示されている。さらに、画像から観察者が人間等の頭の動きや向き、手の形などをコード化して手動でラベルを付ける試みがある(参考文献:“Hand and Mind”D.McNeille著)。しかし、人手による上記ラベル付けは時間も労力もかかる上に、作業者の個人差や主観によるばらつきが生じることが多かった。また、同じ「笑い」でも、激しい笑いやかすかな笑い等の区別をラベルに反映させることが難しかった。
本発明は、このような課題に鑑みてなされたものであって、笑い声区間を自動的に、しかも少ない演算量とメモリサイズで抽出することができる音声処理装置及び音声処理プログラムを記録した記録媒体を提供することを目的としている。
また、本発明は、動画像から、笑い動作区間を自動的に抽出することができる動画像処理装置及び動画像処理プログラムを記録した記録媒体を提供することを目的としている。
さらに、本発明は、音声信号と動画像から、笑い動作、笑い声、笑いを伴う音声区間を区別して抽出することができる音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体を提供することを目的としている。
本発明の音声処理装置は、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素(例えば、母音又は母音に類似した周波数成分の音素)が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備えることを特徴とするものである。
また、より好ましくは、前記振幅情報は、rms振幅値であってもよく、前記閾値は、前記区間の長さに応じて変更されるものであってもよい。
さらに、前記抽出した笑い声区間に対して、笑い声に含まれる音声パターンとのマッチングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づいて笑い声区間と笑いを伴う音声区間を区別して、笑い声区間をさらに限定する限定手段と、を備えることを特徴とする。
このように構成された本発明の音声処理装置は、音声信号から笑い声区間を抽出することができる。特に、区間において、「ははは」のように、同じ母音が断続的に続くかどうかを判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除することができる。rms振幅値が大きい音声区間でのみ音声認識を行うので、少ない演算量とメモリサイズで笑い声区間を抽出することが可能になる。
本発明の動画像処理装置は、フレームの集合からなる動画像を処理する動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、を備えることを特徴としている。
また、より好ましくは、前記人間等の身体の各部分が、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手のうちの、少なくとも一つ以上であってもよい。また、動き情報としては、身体各部位の移動量の大きさ、速度、又は加速度でもよい。
また、好ましい具体的な態様としては、前記規則は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に始まるという規則であってもよく、また、前記所定の規則は、手の動きが、頭や肩の動きの始まりより遅れて始まるという規則であってもよい。
また、好ましい具体的な態様としては、前記規則は、頭と肩の動きが、前後の動きであってもよく、また、前記所定の規則は、人間等の身体の各部分の速度又は加速度の関数であってもよい。
このように構成された本発明の動画像処理装置は、明瞭な母音を伴わない笑いや、口を閉じたままの押し殺した笑い、音声を伴わない笑い、しゃべりを伴って起こる笑いに伴う、笑い動作を抽出することが可能になる。
本発明の音声・動画像処理装置は、請求項1記載の音声処理装置と、請求項5記載の動画像処理装置とを備える音声・動画像処理装置であって、前記笑い動作に対して、音声の有無を確認し、音声有りのフレームを笑い声区間と判定する判定手段を備えることで、音声情報と動き情報を統合して判定することにより、より精密な笑い区間を抽出することができ、笑いが単独で起こっているのか、しゃべりを伴う笑いなのか、あるいは、無言の笑い動作だけなのかの区別が可能になる。
さらに、本発明は、コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備える音声処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。
また、本発明は、コンピュータを、フレームの集合からなる動画像を処理する動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、を備える動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。
また、本発明は、コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備える音声処理装置と、フレームの集合からなる動画像を処理する動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、を備える動画像処理装置とを備える音声・動画像処理装置であって、前記笑い動作に対して、音声の有無を確認し、音声有りのフレームを笑い声区間と判定する判定手段を備える音声・動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。
以上、詳述したように、本発明によれば、笑い声区間を自動的に、しかも少ない演算量とメモリサイズで抽出することができる音声処理装置を実現することができる。
また、本発明によれば、動画像から、笑い動作区間を自動的に抽出することができる動画像処理装置を実現することができる。
また、本発明によれば、音声信号と動画像から、笑い動作、笑い声、笑いを伴う音声区間をより正確に区別して抽出することができる音声・動画像処理装置を実現することができる。
以下、添付図面を参照しながら本発明の好適な音声処理装置、動画像処理装置及び音声・動画像処理装置の実施の形態について詳細に説明する。
まず、本発明の基本的な考え方について説明する。
(1)笑い声は一般に気分の高揚を伴うことから、音波の振幅が大きい傾向がある。本発明者は、このことに着目して、音声の各区間の振幅情報から変化の平均を求め、所定の閾値よりも大きい区間を笑い声区間と判定する。このとき用いる振幅情報は、rms(root mean square:平方自乗平均)振幅値が望ましい。さらに、「ははは」のように、笑いは、/h/(「//」は、音素の境界記号を示す)音に母音/a/,/i/,/u/,/e/,/o/が後続することが多いことを利用し、同じ母音が断続的に続く区間を判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除する。音声の各区間は、常に一定区間でなくてもよいが、閾値は区間の長さに応じて変化させる。
(2)画像処理又は、先願に係る発明(特願平11−125991号)を用いて求めた人間等の身体各部位の動きから、笑い動作区間を抽出する。人間等の身体の各部分としては、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手の11箇所を用いる。動き情報としては、身体各部位の移動量の大きさ、速度、又は加速度でもよい。さらに、笑い動作を判定するには、頭と肩の動きが、笑い動作区間の直前かほぼ同時に始まること、手の動きが、前記頭や肩の動きより後に始まること、頭と肩の動きは、前後の動きであるという規則を利用する。
(3)音声信号と動画像を統合することで、まず、動画像を基に動き情報から笑い動作区間を抽出し、前記笑い動作区間に音声が含まれるかどうかを判定し、含まれる場合は、前記音声区間を笑い声区間と判定する。さらに、前記音声区間に「ははは」のような笑い音声が含まれるかどうかを判定し、含まれる区間は笑い声区間と判定し、含まれない区間は笑いながらの発話区間と判定する。
図1は、上記基本的な考え方に基づく本発明の第1の実施の形態の音声処理装置の基本構成を示すブロック図である。音声処理装置として、マルチモーダルインタフェースを用いた情報処理装置に適用した例である。
図1において、音声処理装置10は、所定の動作を行う人間(被験者)の音声データをデジタルデータに変換するA/D変換部100、所定の処理単位毎に音声パワー、ピッチ、音声波の振幅、周波数スペクトルなどを格納するデータベース101、データベース101に格納されたデータから音声の区間を抽出する音声区間判定部102(区分手段)、抽出された音声区間から振幅情報及び音韻情報に基づいて笑い声区間を抽出する笑い声区間抽出部103、笑い声区間抽出部103を構成する振幅判定部104(計算手段)及び音声認識部105(笑い声判定手段)、抽出した笑い声区間を格納する笑い声区間格納部106、及び笑い声区間を示す音声情報を出力(例えば表示)する出力部107から構成される。
図2は、音声処理装置10の具体的なシステム構成を示す図である。
図2において、音声処理装置10は、CPU1、RAMからなるワークメモリ2、音声信号を入力する入力部3、入力音声信号及びCPU1の演算処理結果を格納するデータベース4、ドットマトリクス構成の液晶表示装置(LCD)からなる表示部5、電源バックアップにより書き込まれた情報を保持するSRAM(Static RAM)カード,FD,CD−ROM等の外部記憶装置7、外部記憶装置7の読み取り装置である外部記憶ドライバ6から構成される。
CPU1は、音声・動画像処理の実行を含む装置全体の制御を行う制御部であり、内蔵のシステムプログラムに従い、演算に使用するデータを記憶したワークメモリ2を使用して笑い声区間抽出処理プログラムを実行してワークメモリ2上に抽出処理結果を作成する。
ワーキングメモリ2は、文字表示に関するデータや演算に使用するデータ及び演算結果等を一時的に記憶するいわゆるワーキングメモリであり、CPU1により実行されるプログラム処理において利用されるプログラム、音声処理データ等を格納する。なお、このプログラムは、システムプログラムとして図示しないROMに格納されるものでもよい。また、ワークメモリとして用いられるRAMの一部の記憶領域は、電源バックアップするか、あるいはEEPROM(electrically erasable programmable ROM)やフラッシュメモリ等の不揮発性メモリにより構成され、電源OFF後も設定条件を保持する。この記憶領域には、各種設定データや処理データ等が格納される。
表示部5は、データベース4に格納された音声情報やCPU1の演算処理結果を表示する。
外部記憶ドライバ6は、笑い声抽出処理プログラムを記録した外部記憶装置7の読み取り装置である。メモリカード,FD,CD−ROM等の外部記憶装置7は、本音声処理機能を実現するためのプログラム、後述する実施の形態における動画像処理及び音声・動画像処理プログラム等を記録した記憶媒体である。
以下、上述のように構成された音声処理装置の動作を説明する。まず、音声処理装置10の基本動作について述べる。
図1において、マイクにより検出された所定の動作を行う人間等(被験者)の音声データは、A/D変換器100によりA/D変換され、フレーム(1/30sec)毎にデータベース101に格納される。データベース101に格納された音声データは、1フレーム毎に読み出され、音声区間判定部102により音声の区間が抽出される。
笑い声区間抽出部103は、振幅判定部104及び音声認識部105から構成され、音声区間判定部102で抽出された音声区間から、振幅情報及び音韻情報に基づいて笑い声区間を抽出し、抽出した笑い声区間を笑い声区間格納部106に格納し、笑い声区間を示す音声情報を出力部107に表示する。
本音声処理装置10では、図1に示すように、被験者の音声データがA/D変換され、所定の処理単位(例えば1フレーム=1/30sec)毎に音声パワー、ピッチ、音声波の振幅、周波数スペクトルなどが検出され、データベース101にフレーム毎に格納されている。
次に、上記笑い声区間抽出部103による音声処理動作について具体的に説明する。
図3は、データベース4に格納されているある音声データ例を示す図であり、図3(a)はその音声波形、図3(b)はそのrms振幅、図3(c)はその周波数スペクトラムをそれぞれ示す。また、図中の数値はフレーム番号である。
図3に示す音声データは、マイクより入力され、A/D変換されてデータベース101に格納されている音声「大丈夫カットしてくれるから。ははははは。」の音声波形、rms振幅、周波数スペクトルである。
区間Aが「大丈夫カットしてくれるから」という音声部分、区間Bが「ははははは」という笑い声部分である。
図3に示すように、人間は常に淀みなくしゃべり続けるわけではなく、楽しく笑いながら、あるいは失笑しながらしゃべる。データを処理するにあたって、この笑いの箇所を抽出することは重要な課題である。
ここでは、この「ははははは」という笑い声を抽出する方法を例にとる。
音声区間判定部102では、A/D変換された音声信号の音声パワーから、所定の閾値を超える区間を音声区間として判定し、該当する始点・終点フレーム番号を振幅判定部104に出力する。振幅判定部104では、音声区間判定部102で判定された始点・終点フレーム内において、フレーム毎にrms振幅値を求め、その平均値が所定の閾値を超える区間を抽出し、その始点・終点フレーム番号を音声認識部105に出力する。rms振幅とは、音声波の音圧の変化の平均であり、音の大きさはrms振幅に依存する。
笑いは一般に、気分の高揚を伴うことから、図3(b)の区間bに見られるように、振幅が大きい傾向がある。また、笑いは、吸気に続く横隔膜や腹筋の収縮、咽喉の緊張と弛緩による断続的な音声を伴う呼気であるから、図3(b)の区間bに見られるような断続的なrms振幅を示す。したがって、笑い声区間のrms振幅値の平均値は、所定の閾値よりも大きい傾向がある。
しかし、rms振幅の平均値が大きい箇所が必ずしも笑い声部分であるとは限らない。しゃべり箇所でも、強い喜びや怒りなどの気分の高揚を伴う箇所ではrms振幅が大きな値を示すことがある。そこで、音声認識部105では、笑い声に含まれる特徴的な音声を抽出する。一般に、笑いは「ははは」「ひひひ」「ふふふ」「ヘヘヘ」「ほほほ」(これのバリエーションとして、「あはは」「いひひ」「うふふ」「えヘヘ」「おほほ」というのもある)と標記されるように、/h/音に母音/a/,/i/,/u/,/e/,/o/が後続する発音が基本である場合が多い。/h/音は、発声時に声帯が振動しないため、基本周波数を持たないが、その調音器官の位置は、/h/の次にくる母音と同じであるから周波数成分は母音に似た相対振幅をもつ。
さらに、笑いでは、「ははは」のように、同じ母音(この場合は/a/音)が続く場合が多い。そこで、音声認識部105では、この性質を利用して、音声区間判定部102で抽出された始点・終点フレーム内(図3(a)の区間A,B参照)において、「はは」や「ははは」のように、同じ母音が断続的に続く区間(図3(c)の区間c参照)を笑い声区間と判定し、その始点・終点フレーム番号を笑い声区間格納部106に出力する。
このように、rms振幅値が大きい音声区間でのみ音声認識を行うので、少ない演算量とメモリサイズで笑い声区間を抽出することが可能になる。
図4は、笑い声区間抽出部103の動作を示すフローチャートであり、本フローはCPU1において実行される。図中、Sはフローの各ステップを示す。
笑い声区間抽出処理がスタートすると、音声区間判定部102では、A/D変換された音声信号の音声パワーから、所定の閾値を超える区間を音声区間Vとして抽出し、その始点フレーム番号Sv(n)、終点フレーム番号Ev(n)、及びフレーム長L(n)を求め、振幅判定部104に出力する(ステップS101)。
振幅判定部104では、音声区間判定部102で抽出された音声区間Vにおいてフレーム毎にrms振幅R(n)を抽出し、各区間のR(n)の平均値を求める(ステップS102)。
ステップS103では、各区間のR(n)の平均値R(n)/L(n)が、所定の閾値T(例えば1.1e+0.3)を超えるか否かを判定し、平均値R(n)/L(n)が閾値Tを超える場合は該当区間Vの始点フレーム番号Sv(n)及び終点フレーム番号Ev(n)を音声認識部105に出力する。平均値R(n)/L(n)が閾値Tを超えない場合は、笑い声区間とは判定されずに本フローによる処理を終了する。
音声認識部105では、振幅判定部104で抽出された区間Vにおいて、/h/音+母音の音声が連続するか否かを判定し(ステップS104)、連続する区間Wを笑い声区間と判定した場合は、ステップS105でその始点フレーム番号Sw(n)及び終点フレーム番号Ew(n)を求め、笑い声区間格納部106に出力して本フローによる処理を終了する。一方、区間Vにおいて、/h/音+母音の音声が連続しない場合は、区間Vは笑い声区間とは判定されずに本フローによる処理を終了する。
このようにして対話中の笑い声区間が抽出される例を、図3を用いて説明する。音声区間判定部102によって、区間A,Bが音声区間として抽出される。
振幅判定部104では、区間A,Bのうち、区間Bのrms振幅である区間bが、rms振幅の平均値が所定の閾値Tを超えるので抽出される。
音声認識部105では、上記区間bのうち周波数スペクトラム区間cが、/ha/音の連続音として抽出されるので、笑い声区間として判定される。したがって、区間cの始点・終点フレーム番号が、笑い声区間格納部106に格納される。
このように、抽出された笑い声区間のrms振幅値から、笑い声の大きさを判定することが可能であり、感情の程度を判定することができる。
以上のように、本実施の形態の音声処理装置10は、1フレーム毎に音声パワー、ピッチ、音声波の振幅、周波数スペクトルなどを格納するデータベース101、データベース101に格納されたデータから音声の区間を抽出する音声区間判定部102、抽出された音声の各区間の振幅情報に対してrms振幅値を求め、各区間の音圧変化の平均を計算する振幅判定部104、振幅判定部104の結果を閾値と比較し、該結果が閾値より大きい状態が所定時間続くときは区間が笑い声区間であると判定する音声認識部105、抽出した笑い声区間を格納する笑い声区間格納部106と、及び笑い声区間を示す音声情報を出力する出力部107を備え、笑い声区間のrms振幅値の平均値は、前記閾値よりも大きい傾向があることを利用することにより、音声信号から笑い声区間を抽出することができる。特に、本実施の形態では、前記区間において、「ははは」のように、同じ母音が断続的に続くかどうかを判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除することができる。
したがって、rms振幅値が大きい音声区間でのみ音声認識を行うので、少ない演算量とメモリサイズで笑い声区間を抽出することができる。
第2の実施の形態
図5は、本発明の第2の実施の形態の動画像処理装置の構成を示す図である。本実施の形態の説明にあたり、図1と同一構成部分には同一符号を付して重複部分の説明を省略する。
図5において、動画像処理装置20は、所定の動作を行う人間(被験者)の動画像データをデジタルデータに変換するA/D変換部200、人間等の身体の一以上の部分の位置情報を格納する位置情報格納部201、動画像データを格納するデータベース101、データベース101に格納された動画像データ及び位置情報から身体の各部位の動きの移動量を抽出し、動き情報から笑いの動作の区間を判定する笑い動作区間抽出部202、笑い動作区間抽出部202を構成する移動量判定部203(識別手段,動き抽出手段)及び動作判定部204(笑い動作判定手段)、抽出した笑い動作区間を格納する笑い動作区間格納部205、及び笑い動作区間を示す情報を出力(例えば表示)する出力部107から構成される。
動画像処理装置20の具体的なシステム構成は、図2と同様である。
以下、上述のように構成された動画像処理装置の動作を説明する。
所定の動作を行う人間等(被験者)の動画像データは、A/D変換器200によりA/D変換され、フレーム(1/30sec)毎にデータベース101に入力される。また、データベース101には、人間等の身体の一以上の部分の位置情報を入力する位置情報格納部201が接続されており、動画像データがデータベース101に、身体各部位の位置データが位置情報格納部201に、共にフレーム毎に、それぞれ同期をとって格納される。笑い動作区間抽出部202は、移動量判定部203及び動作判定部204から構成され、位置情報から身体の各部位の動きの移動量を抽出し、動き情報から笑いの動作の区間を判定して、笑い動作区間格納部205に格納する。
第1の実施の形態で述べたように、笑いは、「ははは」という笑いが多い。しかし、必ずしも明瞭な母音を伴わない笑いもある。また、口を閉じたままの押し殺した笑いや、音声を伴わない笑いもある。しゃべりを伴って起こる笑いもある。このような笑いを抽出するには、身体の特徴的な動きが役に立つ。笑いは、顔の表情の変化を伴うと同時に、頭部や肩、胸の筋肉など、身体の活動を伴う。本実施の形態では、身体の各部位の位置の変化から動きを抽出して、笑いの箇所を判定する。
まず、位置情報格納部201について説明する。ここでは、人間等の身体の一以上の部分の位置情報を得る手段として、光学式のモーションキャプチャシステムを用いた場合で説明する。
図6は、モーションキャプチャシステムを説明する図であり、図6(a)は、モーションキャプチャシステムにおいて、被験者の身体上に装着するマーカ位置を、図6(b)は図6(a)のマーカ位置を基に設定された人間の骨格を表わすスケルトンの各セグメント位置を表わす。
光学式モーションキャプチャシステムでは、一人の被験者を複数(ここでは4台)の赤外線カメラでとらえることにより、図6(a)に示す18箇所のマーカ位置(●印参照)の3次元座標の時系列データを作成する。さらに、本光学式モーションキャプチャシステムでは、これら体の外側に付いているマーカの位置を基に、人間等の骨格を表わすスケルトンの各関節を表わすバーチャルマーカを計算・設定することにより、スケルトン構造(図6(b)参照)の階層構造を決定し、その各セグメント(関節:図6(b)に示す11箇所)の設定されているローカル座標での相対位置座標を計算することができる。
本実施の形態で捉えるセグメントは、図6(b)に示すように、上半身の、[Herd],[Neck],[Upper Torso],[L Collar Bone],[R Collar Bone],[L Up Arm],[R Up Arm],[L Low Arm],[R Low Arm],[L Hand],[R Hand]の11箇所である。
本光学式モーションキャプチャシステムにより得られる前記各セグメントのローカル座標での相対位置座標が、位置情報格納部201に格納される。位置情報格納部201に入力されているファイルの例を図7に示す。
図7は、位置情報格納部201に格納されているファイルの例を示す図である。図7に示すように、位置情報格納部201に格納されているファイルには、各セグメントのローカル座標での3次元相対位置座標(x,y,z)の時系列データ(フレーム毎)が含まれている。例えば、セグメント[Herd]の第3フレームでの座標は(0.000002,-0.886932,0.000004)である。
図8は、位置情報格納部201に入力されている位置データをグラフ化した図であり、図3に示した発話区間における頭部、肩、手の3次元位置座標を基に描画したものである。x軸は左右方向、y軸は上下方向、z軸は前後方向の動きである。
図8において、区間cが第1の実施の形態で笑い声区間として抽出された区間である。図8からわかるように、頭と肩の移動量は笑い声とほぼ同時かその直前に現れるのに対し、手の動きはその後に起こる。また、笑いの動作は笑い声が収まった後まで残る傾向があり(区間e参照)、その動きの大きさは、笑いの大きさに比例する。このように、頭や肩など、身体の各部位の位置座標におけるx,y,z軸方向の移動量を調べることにより、笑いの区間を抽出することができる。
ここでは、笑い箇所では、頭と肩(右肩)のセグメント[Herd],[Rshouler]のz軸(前後方向)の移動量が共に大きくなる傾向があることを利用して笑いの動作区間を抽出することを例にとり、笑い動作区間抽出部202の動作を説明する。
図9は、笑い動作区間抽出部202の動作を示すフローチャートであり、本フローは図2のCPU1において実行される。
笑い動作区間抽出処理がスタートすると、移動量判定部203では、[Herd],[Rshouler]それぞれのz軸の移動量を並列に調べる。
頭と肩(右肩)についての並列処理のうち、まず頭[Herd]のz軸に対する移動量判定処理(ステップS200)の説明をする。
頭[Herd]のz軸方向の移動量を抽出するために、ステップS201で位置情報格納部201に格納されているセグメント[Herd]のz軸方向の各フレームの座標値Hz(n)を基に、z軸座標値の変化率Phz(n)を次式(1)により求める。
Figure 0004394532
ここで、nは現フレーム番号である。変化率Phz(n)がプラスであれば頭は前方向に動いていることを表わし、マイナスであれば、後ろ方向に動いていることを示す。
次に、抽出された動きが単なる体の揺れ等に伴う微かな動きではなく、笑いに伴う動作の区間を見つけるために、ステップS202でフレームnでの変化率Phz(n)の絶対値(ここでは移動の方向は関係なく、移動量だけが問題であるので絶対値を使う)がある閾値D1(ここでは0.05)を超えているか(|Phz(n)|>D1か)否かを判別し、|Phz(n)|が閾値D1を超えていなければ、笑い動作とは判定されずに本フローによる処理を終了する。
|Phz(n)|が閾値D1を超えている場合は、ステップS203で該当区間Hの始点フレーム番号Sphz(n)及び終点フレーム番号Ephz(n)を求め、動作判定処理(ステップS400)のステップS401に進む。
同様に、肩[Rshouler]のz軸の移動量を抽出する移動量判定処理(ステップS300)を行う。
肩[Rshouler]の前後方向(z軸方向)の移動量を抽出するために、ステップS301で位置情報格納部201に格納されているセグメント[Rshouler]のz軸方向の各フレームの座標値RSz(n)を基に、z軸座標値の変化率Prsz(n)を次式(2)により求める。
Figure 0004394532
ここで、nは現フレーム番号である。変化率Prsz(n)がプラスであれば肩は前方向に動いていることを表わし、マイナスであれば、後ろ方向に動いていることを示す。
笑いに伴う動きの区間を抽出するために、ステップS302でフレームnでの変化率Prsz(n)の絶対値がある閾値D2(ここでは0.05)を超えているか(|Phsz(n)|>D2か)否かを判別し、|Phsz(n)|が閾値D2を超えていなければ、笑い動作とは判定されずに本フローによる処理を終了する。
|Phsz(n)|が閾値D2を超えている場合は、ステップS303で超えている区間Sの始点フレーム番号Sprsz(n)及び終点フレーム番号Eprsz(n)を求め、動作判定処理(ステップS400)のステップS401に進む。
動作判定部204では、笑い動作の区間を判定するために、動作判定処理(ステップS400)を行う。まず、ステップS401で上記ステップS203及びステップS303で得られたフレーム区間を基に、頭[Herd]から抽出された区間Hと肩[Rshouler]から抽出された区間Sの重複区間Mを笑い動作区間と判定し、その区間Mの始点フレーム番号Sm(n)と終点フレーム番号Em(n)を求め、笑い動作区間格納部205に格納して本フローによる処理を終了する。
上述した笑い動作区間抽出処理を実行することにより笑い動作区間を抽出することができる。
例えば、図8に示す区間fでは、z軸方向に頭と肩の移動量が共に大きいので笑い動作区間と判定されるが、区間dは、z軸方向に頭の移動量は大きいが、肩の移動量が小さいので、笑い動作区間と判定されていない。
このように、身体の部位の動きの移動量から、笑いの区間を抽出することが可能になる。すなわち、抽出された笑い動作区間の動きの移動量から、笑い動作の大きさを判定することが可能になり、感情の程度を判定することができる。
ここで、本実施の形態では、笑いに特徴的な動きを示す部位として、頭と肩(右肩)の移動量を例にとり説明したが、これは一例に過ぎず、図6(b)に示す上半身の各セグメントについて同様の処理方法により、移動量の判定及び笑い動作判定を行うようにしてもよい。例えば、頭と肩(右肩)の判定に、さらに喉,左肩,胸等の判定を加えるようにすれば笑い動作区間判定の精度を向上させることができる。
さらに、笑いの動作に特徴的な身体各部位の移動パターンを登録しておいて、パターンマッチングの手法により、笑いの動作区間を抽出してもよい。
以上のように、本実施の形態の動画像処理装置20は、人間等の身体の一以上の部分の位置情報を格納する位置情報格納部201、動画像データを格納するデータベース101、データベース101に格納された動画像データ及び位置情報から身体の各部位の動きの移動量する移動量判定部203、抽出された動きを所定の規則と比較し、その一致度に応じて前記複数のフレームが笑い動作区間であると判定する動作判定部204、抽出した笑い動作区間を格納する笑い動作区間格納部205、及び笑い動作区間を示す情報を出力する出力部107を備え、笑いは頭部や肩、胸の筋肉など、身体の活動を伴うことを利用することにより、身体の各部位の動きから、笑い動作を抽出することができ、明瞭な母音を伴わない笑いや、口を閉じたままの押し殺した笑い、音声を伴わない笑い、しゃべりを伴って起こる笑いに伴う、笑い動作を抽出することができる。
また、本実施の形態では、人間等の身体の各部分として、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手の11箇所のうち、例えば頭、右肩を用い、さらに、笑い動作の判定には、頭と肩の動きが、笑い動作区間の直前かほぼ同時に始まること、手の動きが、前記頭や肩の動きより遅れて始まること、頭と肩の動きは、前後の動きであるという規則を利用している。このような笑い動作の特徴を処理に反映させることにより、比較的少ない計算量で笑いの箇所を精度良く抽出することができる。
第3の実施の形態
笑い動作は、人間等の身体の各部位の位置情報に基づいて計算される各セグメントの、所定のフレーム毎(例えば10フレーム毎)の速度や加速度情報を用いて抽出することも可能である。
所定の動作をしている人間等の動きを解析するには、その移動量だけでなく、速度や加速度といった運動量も重要な情報である。笑い動作を例にとると、全身の動きを伴う大きな笑いや、細かな運動が複数回繰り返されるこらえた笑いなど、様々なパターンがある。そこで、速度又は加速度を利用して、笑い動作の区間を抽出することが可能である。
まず、速度は、時刻tにおける位置を座標値x(t),y(t),z(t)とすると、(x(t),y(t),z(t))を時間微分した次式(3)で求めることができる。
(u,v,w)≡(dx/dt,dy/dt,dz/dt) …(3)
また、加速度は、速度を微分、すなわち位置を2階微分することにより、次式(4)で求めることができる。
(u’,v’,w’)≡(d2x/dt2,d2y/dt2,d2z/dt2
…(4)
速度又は加速度から笑い動作を抽出するには、例えば頭や肩などの各セグメントの速度又は加速度がそれぞれ一定の閾値を超えている区間を見つければよい。このため、各セグメントのフレーム毎の速度情報や加速度情報を基に、各セグメント毎に予め設定した閾値を超えるフレーム区間を笑い動作区間として抽出する。また、動きの強度は連続的なものであるから、例えば、頭の速度又は加速度V(x,y,z)を抽出する関数f(vh)を設定し、動きの強度に応じて笑いの動作の区間を抽出するようにしてもよい。これにより、笑いが急に激しくなったり、だんだん弱くなるなどの区間も抽出できるようになる。また、単一のセグメントの動きからだけではなく、複数セグメントの動きの相互関係から、動きの強度に応じて笑いの動作区間を抽出することも可能になり、さらには、笑いの動作から、感情の程度を抽出することも可能になる。
第4の実施の形態
第1の実施の形態では、音声情報を基に笑い声区間を抽出し、第2及び第3の実施の形態では、身体上の各部位の動きを基に、笑い動作区間を抽出した。本実施の形態は、音声情報と動き情報を統合処理することで笑いの区間を抽出するものである。
図10は、本発明の第4の実施の形態の音声・動画像処理装置の構成を示す図である。本実施の形態の説明にあたり、図1及び図9と同一構成部分には同一符号を付して重複部分の説明を省略する。
図10において、音声・動画像処理装置30は、所定の動作を行う人間(被験者)の音声データをデジタルデータに変換するA/D変換部100、動画像データをデジタルデータに変換するA/D変換部200、人間等の身体の一以上の部分の位置情報を格納する位置情報格納部201、動画像データを格納するデータベース101、位置情報と音声情報から笑いの区間を判定する笑い区間抽出部301(判定手段)、抽出した笑い間を格納する笑い区間格納部302、及び笑い区間を示す情報を出力(例えば表示)する出力部107から構成される。
また、笑い区間抽出部301は、データベース101に格納された動画像データ及び位置情報から身体の各部位の動きの移動量を抽出し、動き情報から笑いの動作の区間を判定する笑い動作区間抽出部202、笑い動作区間抽出部202を構成する移動量判定部203及び動作判定部204、データベース101に格納されたデータから音声の区間を抽出する音声区間判定部、抽出された音声区間から振幅情報及び音韻情報に基づいて笑い声区間を抽出する笑い声区間抽出部103、笑い声区間抽出部103を構成する振幅判定部104及び音声認識部105から構成される。
所定の動作を行う人間等(被験者)の音声及び動画像データはA/D変換されフレーム(1/30sec)毎にデータベース101に入力される。
笑い区間抽出部301は、第2の実施の形態の移動量判定部203及び動作判定部204からなる笑い動作区間抽出部202と、第1の実施の形態の音声区間判定部102、振幅判定部104及び音声認識部105からなる笑い声区間抽出部103とを組合せたものである。
音声・動画像処理装置30の具体的なシステム構成は、図2と同様である。
以下、上述のように構成された音声・動画像処理装置の動作を説明する。
前記図3及び図8は、同じ発話区間を示したものであるが、比較して分かるように、図3に示す音声データから抽出された笑い声区間cと、図8に示すファイルデータから抽出された笑い動作区間fとは、笑いとして抽出された範囲が異なる。これは、一般に、動きは急に止まれるものではなく、特に動きが大きければ大きいほど、その動きが収まるには時間がかかるためである。このように、笑い声が止まった後も、笑いの動作が続くことが多い(図8e参照)。
そこで、本実施の形態では、音声情報と動き情報を統合して判定することで、笑いの区間を抽出する。この方法を用いれば、例えば笑いながらしゃべっている区間を抽出することが可能になる。第1の実施の形態においては、笑い声を抽出することを目的としており、笑いながらしゃべっている区間は抽出されない。一方、第2及び第3の実施の形態では、笑い動作を抽出することを目的としていたため、抽出された箇所で被験者が無言で笑っているのか、笑っているだけなのか、あるいは笑いながらしゃべっているかの区別はできない。本実施の形態によれば、音声情報と動き情報を統合して判定することにより、より精密な笑い区間抽出方法を実現することができ、笑いが単独で起こっているのか、しゃべりを伴う笑いなのか、あるいは、無言の笑い動作だけなのかの区別をも判別可能になる。
例えば、図3と図8を統合的に見てみると、
区間fで笑い動作が起こっている
区間cで笑い声と笑い動作が同時に起こっている
区間eで区間cに続く余韻の笑い動作のみが起こっている
ことが分かる。
図11は、データベース4に格納されている別の音声データ例を示す図であり、図11(a)はその音声波形、図11(b)はそのrms振幅、図11(c)はその周波数スペクトラムをそれぞれ示す。また、図中の数値はフレーム番号である。
図12は、位置情報格納部201に入力されている別のファイルデータ(位置データ)をグラフ化した図であり、図11に示した発話区間における頭部、肩、手の3次元位置座標を基に描画したものである。x軸は左右方向、y軸は上下方向、z軸は前後方向の動きである。
図11に示す音声データは、「あの、私(あたし)の電話機が、嫌(や)なの。違う、違(ちが)、そういう意味じゃなくて」と発話している部分の音声情報を示したものである。図12は、同区間の位置情報である。
図11と図12を比較してみると、
図11(b)に示す区間h,i,jの振幅は大きいが、同区間h,i,jのスペクトルパターン(図11(c))は、いわゆる「ははは」という笑い声のパターンを示していない。
図12に示す区間g(図11の区間h,iに相当する)で笑い動作が起こっている。
ことがわかる。このような場合、区間gでは、笑いながらしゃべっていることが多い。したがって、振幅判定部104、音声認識部105、移動量判定部203及び動作判定部204の結果を統合して判定することで、区間gでは笑いながらしゃべっている箇所であると判定できることがわかる。
このように動き情報と音声情報を統合して判定する笑い区間抽出処理を図13のフローチャートを用いて説明する。
図13は、笑い区間抽出部301の動作を示すフローチャートであり、本フローは図2のCPU1において実行される。
本処理では、まず動き情報から笑い動作区間を抽出し、次にその区間に笑い声が含まれるか、あるいは笑いを伴ったしゃべりが含まれるかを判定するという処理手順をとる。
まず、図4に示すフローチャートの手順に従い、移動量判定部203及び動作判定部204は、頭と肩の動きの移動量から笑い動作区間Mを抽出し、その区間の始点フレーム番号Sm(n)及び終点フレーム番号Em(n)を求める(ステップS501)。
次いで、音声区間判定部102では前記動作区間Mに音声区間が含まれるか否かを判定し(ステップS502)、含まれる場合は、ステップS503で該当音声区間Vの始点フレーム番号Sv(n)及び終点フレーム番号Ev(n)、及びフレーム長L(n)を求め、振幅判定部104に出力する。一方、動作区間Mに音声区間が含まれない場合は、ステップS601で動作区間Mは音声を伴わない笑い動作のみと判断して、区間Mの始点フレーム番号Sm(m)及び終点フレーム番号Em(n)を笑い区間格納部302に出力して本フローによる処理を終了する。
振幅判定部104では、前記音声区間Vにおいてフレーム毎にrms振幅R(n)を抽出し(ステップS504)、さらにその平均値(R(n)/L(n))が所定の閾値T(例えば1.1e+0.3)を超えるか否かを判定する(ステップS505)。平均値(R(n)/L(n))が閾値Tを超える場合は、区間Vの始点フレーム番号Sv(n)及び終点フレーム番号Ev(n)を音声認識部105に出力する。平均値(R(n)/L(n))が閾値Tを超えない場合は、振幅が小さいことから、笑い声とは異なる発話があると判断され、同区間Vに現れる動作は笑い動作とは異なる動作と判定されて本フローによる処理を終了する。
音声認識部105では、前記音声区間Vにおいて、/h/音+母音の音声が連続して現れるか否かを判定し(ステップS506)、/h/音+母音の音声が連続する場合は、ステップS602で区間Mを笑い動作の区間として、また、区間Mに含まれる区間Vを笑い声区間として判定し、それぞれの始点フレームSm(n)と終点フレームEm(n)、始点フレームSw(n)と終点フレームEw(n)を笑い区間格納部302に出力して本フローによる処理を終了する。
一方、上記ステップS506で、音声区間Vにおいて、/h/音+母音の音声が連続しない場合は、ステップS603で区間Mを笑い動作の区間として、また、区間Mに含まれる区間Vを笑いながらの発話区間として判定し、それぞれの始点フレームSm(n)と終点フレームEm(n)、始点フレームSs(n)と終点フレームEs(n)を笑い区間格納部302に出力して本フローによる処理を終了する。
このように、本実施の形態では、音声情報と動き情報を統合して判定することにより、笑い単独の区間と笑いを伴ったしゃべりの区間を区別することが可能となる。抽出された笑い動作区間の動きの移動量の大きさ、及び笑い声区間のrms振幅値から、笑いの大きさを判定することが可能になるため、感情の程度を判定することができる。
すなわち、第1の実施の形態においては、笑い声を抽出することを目的としているので、笑いながらしゃべっている区間は抽出されず、第2及び第3の実施の形態では、笑い動作を抽出することを目的としているので、抽出された箇所で被験者が無言で笑っているのか、笑っているだけなのか、あるいは笑いながらしゃべっているかの区別はできなかったが、本実施の形態では、音声情報と動き情報を統合して判定することにより、より精密な笑い区間を抽出することが可能になり、笑いが単独で起こっているのか、しゃべりを伴う笑いなのか、あるいは、無言の笑い動作だけなのかの区別が可能になる。
なお、本発明の音声処理装置及び動画像処理装置は、上述の実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、上述したようなマルチモーダルインタフェースを用いた情報処理装置に適用することもできるが、これには限定されず、全ての装置に適用可能である。
また、本実施の形態に係る処理装置が、PDA(Personal Digital Assistant)等の携帯情報端末やパーソナルコンピュータの音声・動画像処理機能として組み込まれたものでもよい。
さらに、上記音声処理装置及び動画像処理装置を構成する各回路部等の種類、データベースなどは前述した実施形態に限られない。
以上説明した音声処理装置及び動画像処理装置は、この処理装置を機能させるためのプログラムでも実現される。このプログラムはコンピュータで読み取り可能な記録媒体に格納されている。本発明では、この記録媒体として、メインメモリそのものがプログラムメディアであってもよいし、また外部記憶装置としてプログラム読み取り装置が設けられ、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。いずれの場合においても、格納されているプログラムはCPUがアクセスして実行させる構成であってもよいし、あるいはいずれの場合もプログラムを読み出し、読み出されたプログラムは、図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であってもよい。このダウンロード用のプログラムは予め本体装置に格納されているものとする。
ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、例えばPCカード(SRAMカード)のほか、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード/光カード等のカード系、あるいはマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する媒体であってもよい。
さらに、外部の通信ネットワークとの接続が可能な通信装置を備えている場合には、その通信装置を介して通信ネットワークからプログラムをダウンロードするように、流動的にプログラムを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。なお、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。
本発明の第1の実施の形態の音声処理装置の基本構成を示すブロック図である。 本発明の実施の形態の音声処理装置の具体的なシステム構成を示す図である。 本実施の形態の音声処理装置のデータベースに格納されているある音声データ例を示す図である。 本実施の形態の音声処理装置の笑い声区間抽出部の動作を示すフローチャートである。 本発明の第2の実施の形態の動画像処理装置の構成を示す図である。 本実施の形態の動画像処理装置のモーションキャプチャシステムを説明する図である。 本実施の形態の動画像処理装置の位置情報格納部に格納されているファイルの例を示す図である。 本実施の形態の動画像処理装置の位置情報格納部に入力されている位置データをグラフ化した図である。 本実施の形態の動画像処理装置の笑い動作区間抽出部の動作を示すフローチャートである。 本発明の第4の実施の形態の音声・動画像処理装置の構成を示す図である。 本実施の形態の音声・動画像処理装置のデータベースに格納されている別の音声データ例を示す図である。 本実施の形態の音声・動画像処理装置の位置情報格納部に入力されている別のファイルデータをグラフ化した図である。 本実施の形態の音声・動画像処理装置の笑い区間抽出部の動作を示すフローチャートである。
符号の説明
1 CPU
2 ワークメモリ
3 入力部
4 データベース
5 表示部
6 外部記憶ドライバ
7 外部記憶装置(記録媒体)
10 音声処理装置
20 動画像処理装置
30 音声・動画像処理装置
100,200 A/D変換部
101 データベース
102 音声区間判定部(区分手段)
103 笑い声区間抽出部
104 振幅判定部(計算手段)
105 音声認識部(笑い声判定手段)
106 笑い声区間格納部
107 出力部
201 位置情報格納部
202 笑い動作区間抽出部
203 移動量判定部(識別手段,動き抽出手段)
204 動作判定部(笑い動作判定手段)
205 笑い動作区間格納部
301 笑い区間抽出部(判定手段)
302 笑い区間格納部

Claims (11)

  1. 音声を時間的に区分する区分手段と、
    前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、
    前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、
    を備え
    前記閾値は、前記区間の長さに応じて変更される
    ことを特徴とする音声処理装置。
  2. 前記振幅情報は、rms(root mean square)振幅値であることを特徴とする請求項1記載の音声処理装置。
  3. 請求項1または2に記載の音声処理装置であって、
    前記抽出した笑い声区間に対して、笑い声に含まれる音声パターンとのマッチングを行うマッチング手段と、
    前記マッチング手段のマッチング結果に基づいて笑い声区間と笑いを伴う音声区間を区別して、笑い声区間をさらに限定する限定手段と、
    を備えることを特徴とする音声処理装置。
  4. 請求項1から3までのいずれか1項に記載の音声処理装置と、
    フレームの集合からなる動画像を処理してその動画像に笑い動作が含まれるか否かを判定する動画像処理装置と、
    前記動画像処理装置が判定した笑い動作に音声がともなう区間を出力する判定手段と、
    を備える音声・動画像処理装置であって
    前記動画像処理装置は、
    人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、
    前記各部分の動きを抽出する動き抽出手段と、
    前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、
    を備え
    前記笑い声判定手段は、
    前記笑い動作に音声がともなうと前記判定手段が判定した区間について、前記笑い声区間であるか否かを判定する
    ことを特徴とする音声・動画像処理装置。
  5. 前記人間等の身体の各部分が、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手のうちの、少なくとも一つ以上であることを特徴とする請求項記載の音声・動画像処理装置。
  6. 前記規則は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に始まるという規則であることを特徴とする請求項記載の音声・動画像処理装置。
  7. 前記規則は、手の動きが、頭や肩の動きの始まりより遅れて始まるという規則であることを特徴とする請求項又はに記載の音声・動画像処理装置。
  8. 前記規則は、頭と肩の動きが、前後の動きであることを特徴とする請求項4、6又は7のいずれか一項に記載の音声・動画像処理装置。
  9. 前記規則は、人間等の身体の各部分の速度又は加速度の関数であることを特徴とする請求項4、6、7又は8のいずれか一項に記載の音声・動画像処理装置。
  10. コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備え、前記閾値は、前記区間の長さに応じて変更される音声処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  11. コンピュータを、
    音声を時間的に区分する区分手段と、
    前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、
    前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、
    を備え
    前記閾値は、前記区間の長さに応じて変更される音声処理装置と、
    フレームの集合からなる動画像を処理してその動画像に笑い動作が含まれるか否かを判定する動画像処理装置において、
    人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、
    前記各部分の動きを抽出する動き抽出手段と、
    前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、
    を備える動画像処理装置と
    前記動画像処理装置が判定した笑い動作に音声がともなう区間を出力する判定手段と、
    を備える音声・動画像処理装置であって、
    前記笑い声判定手段は、
    前記笑い動作に音声がともなうと前記判定手段が判定した区間について、前記笑い声区間であるか否かを判定する
    音声・動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2004217785A 2004-07-26 2004-07-26 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 Expired - Fee Related JP4394532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004217785A JP4394532B2 (ja) 2004-07-26 2004-07-26 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004217785A JP4394532B2 (ja) 2004-07-26 2004-07-26 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000193118A Division JP3652961B2 (ja) 2000-06-27 2000-06-27 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2005037953A JP2005037953A (ja) 2005-02-10
JP4394532B2 true JP4394532B2 (ja) 2010-01-06

Family

ID=34214340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004217785A Expired - Fee Related JP4394532B2 (ja) 2004-07-26 2004-07-26 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4394532B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5055781B2 (ja) * 2006-02-14 2012-10-24 株式会社日立製作所 会話音声分析方法、及び、会話音声分析装置
US8498435B2 (en) 2010-02-25 2013-07-30 Panasonic Corporation Signal processing apparatus and signal processing method
JP6329753B2 (ja) * 2013-11-18 2018-05-23 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム、および、音判定方法
JP6169526B2 (ja) * 2014-04-28 2017-07-26 日本電信電話株式会社 特定音声抑圧装置、特定音声抑圧方法及びプログラム
CN110459234B (zh) * 2019-08-15 2022-03-22 思必驰科技股份有限公司 用于车载的语音识别方法及系统
CN114999453B (zh) * 2022-05-25 2023-05-30 中南大学湘雅二医院 一种基于语音识别的术前访视系统及相应语音识别方法

Also Published As

Publication number Publication date
JP2005037953A (ja) 2005-02-10

Similar Documents

Publication Publication Date Title
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
JP5616325B2 (ja) ユーザ命令に基づいて表示を変更する方法
US8131551B1 (en) System and method of providing conversational visual prosody for talking heads
US7349852B2 (en) System and method of providing conversational visual prosody for talking heads
JP3652961B2 (ja) 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
Tran et al. Improvement to a NAM-captured whisper-to-speech system
Johar Emotion, affect and personality in speech: The Bias of language and paralanguage
Benoit et al. Audio-visual and multimodal speech systems
Yang et al. Modeling dynamics of expressive body gestures in dyadic interactions
Gibbon et al. Audio-visual and multimodal speech-based systems
JPH08339446A (ja) 対話装置
CN110148406A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
Okada et al. Context-based conversational hand gesture classification in narrative interaction
JP4394532B2 (ja) 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
Ding et al. Perceptual enhancement of emotional mocap head motion: An experimental study
Fujie et al. Recognition of para-linguistic information and its application to spoken dialogue system
Verma et al. Animating expressive faces across languages
JP2003228449A (ja) 対話装置及び対話処理プログラムを記録した記録媒体
Cafaro et al. Nonverbal behavior in multimodal performances
Huang et al. Sensitive talking heads [Applications corner]
Ripperda The Communicative Face
Balomenos et al. An introduction to emotionally rich man-machine intelligent systems
JP2002108388A (ja) 対話装置及び対話処理プログラムを記録した記録媒体
Cafaro et al. Nonverbal Behavior in
Haider Improving Social Intelligence of Machines in the Context of Public Speaking Situations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees