JP4394532B2

JP4394532B2 - 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Info

Publication number: JP4394532B2
Application number: JP2004217785A
Authority: JP
Inventors: 啓子綿貫
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2004-07-26
Filing date: 2004-07-26
Publication date: 2010-01-06
Anticipated expiration: 2020-06-27
Also published as: JP2005037953A

Description

本発明は、人の感情に対応する音声信号及び動作に関する情報を処理する音声処理装置及び動画像処理装置に関し、詳細には、ユーザと情報処理機器との間で自然な対話を実現するマルチモーダルインタフェースの対話データベースに用いて好適な音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体に関する。

近年、音声認識技術が発展し、テレビジョン受像機、ラジオ受信機、車載ナビゲーション、携帯電話、パーソナルコンピュータ（以下、パソコンという）等の機器に搭載されつつある。音声認識装置は通常それぞれの機器の一部として内蔵されている。この音声認識装置、手書き文字認識装置、マウス、ライトペン、タブレット等のポインティングデバイスなど、複数の入力装置をコンピュータに接続して、ユーザがその局面局面において自分にとって最も都合の良い入力装置を使って入力できれば非常に使いやすいインタフェースとなる。このように複数の異なる入力モードから、ユーザが任意の入力モードを選択し、組み合わせて自分の意図をシステムに伝えることができるインタフェースのことをマルチモーダルインタフェースという。

また、高性能のワークステーションやパソコンの普及に伴って、記憶容量の大きな光磁気ディスク等の記憶媒体も低廉化し、高解像度の表示装置やマルチメディアに適応した周辺機器の価格も大幅に低下している。文書処理、画像データ処理その他の分野では、処理対象となるデータの情報量の増大に適応可能なデータ処理機能の向上が要求され、従来、主として文字や数値に施されていた処理に併せて音声や動画にも多様な処理を施すことが可能な種々の処理装置が開発されつつある。

ところで、上記ワークステーションやパソコン等において、音声処理をするにあたり、特に対話の場合、人間は常に淀みなくしゃべり続けるわけではなく、楽しく笑いながら、あるいは失笑しながらしゃべる。これら笑い声は、音声認識のレベルを上げるためにも、また、対話者の感情を分析する上でも重要である。同様に、動画像処理をするにあたり、笑いの動作を認識することが重要になる。

特開平９−２０６２９１号公報特開平５−１２０２３号公報特開平８−１５３１２０号公報特開平７−２５３９８６号公報

このような従来の音声・動画像処理装置にあっては、以下のような問題点があった。
例えば、上記特許文献１には、音声信号から周波数スペクトラムを抽出し、そのスペクトラムの中心（周波数重心）Ｇを求めて、この周波数重心Ｇが所定の閾値より大きいかどうかで笑いや拍手、歓声等の感情を認識する方法が提案されている。この方法は、笑いや拍手等の感情表現では、周波数重心が高いことを利用しているが、笑いと拍手の区別はつけられない。さらに、上記特許文献１に記載された装置は、例えば笑い等の音の種類に対応する標準波形パターン辞書をあらかじめ用意しておいて、パターンマッチングにより判定する方法も記載されている。しかしこの方法では、あらゆる笑いのパターンを用意しておかなければならず、また、マッチングの過程において、すべての波形パターンに対して処理を行わなければならず、膨大な演算量とメモリサイズを必要とする。

また、上記特許文献２には、音声認識を利用し、継続長やピッチなどの音声信号の特徴を抽出して、基準となる音声信号とのずれ量を検出することで感情状態を判定する方法が開示されている。しかしこの方法は、発話音声に含まれる喜びや怒り等の感情を認識するためのものであり、笑い声を認識することはできない。

一方、動画情報を含むビデオ素材から人間等の笑いの動作に関してデータベースを作成する場合、例えば上記特許文献３には、動画像データをフレーム毎に分割して静止画像に変換し、各フレームにラベルを付与して画像データベースを生成し、そのラベルに基づいて検索する方法が開示されている。また、上記特許文献４には、音声及び動画像を含むデータベースから、例えば笑いの音声や表情が見られるフレーム区間に、[warai]等のラベル（タグ）を付与し、検索時にそのラベルを入力すると、登録時に関連したラベルを付与されていた動画像及び音声を抽出する方法が開示されている。さらに、画像から観察者が人間等の頭の動きや向き、手の形などをコード化して手動でラベルを付ける試みがある（参考文献：“Hand and Mind”D.McNeille著）。しかし、人手による上記ラベル付けは時間も労力もかかる上に、作業者の個人差や主観によるばらつきが生じることが多かった。また、同じ「笑い」でも、激しい笑いやかすかな笑い等の区別をラベルに反映させることが難しかった。

本発明は、このような課題に鑑みてなされたものであって、笑い声区間を自動的に、しかも少ない演算量とメモリサイズで抽出することができる音声処理装置及び音声処理プログラムを記録した記録媒体を提供することを目的としている。

また、本発明は、動画像から、笑い動作区間を自動的に抽出することができる動画像処理装置及び動画像処理プログラムを記録した記録媒体を提供することを目的としている。

さらに、本発明は、音声信号と動画像から、笑い動作、笑い声、笑いを伴う音声区間を区別して抽出することができる音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体を提供することを目的としている。

本発明の音声処理装置は、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素（例えば、母音又は母音に類似した周波数成分の音素）が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備えることを特徴とするものである。

また、より好ましくは、前記振幅情報は、ｒｍｓ振幅値であってもよく、前記閾値は、前記区間の長さに応じて変更されるものであってもよい。

さらに、前記抽出した笑い声区間に対して、笑い声に含まれる音声パターンとのマッチングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づいて笑い声区間と笑いを伴う音声区間を区別して、笑い声区間をさらに限定する限定手段と、を備えることを特徴とする。

このように構成された本発明の音声処理装置は、音声信号から笑い声区間を抽出することができる。特に、区間において、「ははは」のように、同じ母音が断続的に続くかどうかを判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除することができる。ｒｍｓ振幅値が大きい音声区間でのみ音声認識を行うので、少ない演算量とメモリサイズで笑い声区間を抽出することが可能になる。

本発明の動画像処理装置は、フレームの集合からなる動画像を処理する動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、を備えることを特徴としている。

また、より好ましくは、前記人間等の身体の各部分が、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手のうちの、少なくとも一つ以上であってもよい。また、動き情報としては、身体各部位の移動量の大きさ、速度、又は加速度でもよい。

また、好ましい具体的な態様としては、前記規則は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に始まるという規則であってもよく、また、前記所定の規則は、手の動きが、頭や肩の動きの始まりより遅れて始まるという規則であってもよい。

また、好ましい具体的な態様としては、前記規則は、頭と肩の動きが、前後の動きであってもよく、また、前記所定の規則は、人間等の身体の各部分の速度又は加速度の関数であってもよい。

このように構成された本発明の動画像処理装置は、明瞭な母音を伴わない笑いや、口を閉じたままの押し殺した笑い、音声を伴わない笑い、しゃべりを伴って起こる笑いに伴う、笑い動作を抽出することが可能になる。

本発明の音声・動画像処理装置は、請求項１記載の音声処理装置と、請求項５記載の動画像処理装置とを備える音声・動画像処理装置であって、前記笑い動作に対して、音声の有無を確認し、音声有りのフレームを笑い声区間と判定する判定手段を備えることで、音声情報と動き情報を統合して判定することにより、より精密な笑い区間を抽出することができ、笑いが単独で起こっているのか、しゃべりを伴う笑いなのか、あるいは、無言の笑い動作だけなのかの区別が可能になる。

さらに、本発明は、コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備える音声処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。

また、本発明は、コンピュータを、フレームの集合からなる動画像を処理する動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、を備える動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。

また、本発明は、コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備える音声処理装置と、フレームの集合からなる動画像を処理する動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、を備える動画像処理装置とを備える音声・動画像処理装置であって、前記笑い動作に対して、音声の有無を確認し、音声有りのフレームを笑い声区間と判定する判定手段を備える音声・動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体である。

以上、詳述したように、本発明によれば、笑い声区間を自動的に、しかも少ない演算量とメモリサイズで抽出することができる音声処理装置を実現することができる。

また、本発明によれば、動画像から、笑い動作区間を自動的に抽出することができる動画像処理装置を実現することができる。

また、本発明によれば、音声信号と動画像から、笑い動作、笑い声、笑いを伴う音声区間をより正確に区別して抽出することができる音声・動画像処理装置を実現することができる。

以下、添付図面を参照しながら本発明の好適な音声処理装置、動画像処理装置及び音声・動画像処理装置の実施の形態について詳細に説明する。

まず、本発明の基本的な考え方について説明する。
（１）笑い声は一般に気分の高揚を伴うことから、音波の振幅が大きい傾向がある。本発明者は、このことに着目して、音声の各区間の振幅情報から変化の平均を求め、所定の閾値よりも大きい区間を笑い声区間と判定する。このとき用いる振幅情報は、ｒｍｓ（root mean square：平方自乗平均）振幅値が望ましい。さらに、「ははは」のように、笑いは、／ｈ／（「／／」は、音素の境界記号を示す）音に母音／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／が後続することが多いことを利用し、同じ母音が断続的に続く区間を判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除する。音声の各区間は、常に一定区間でなくてもよいが、閾値は区間の長さに応じて変化させる。

（２）画像処理又は、先願に係る発明（特願平１１−１２５９９１号）を用いて求めた人間等の身体各部位の動きから、笑い動作区間を抽出する。人間等の身体の各部分としては、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手の１１箇所を用いる。動き情報としては、身体各部位の移動量の大きさ、速度、又は加速度でもよい。さらに、笑い動作を判定するには、頭と肩の動きが、笑い動作区間の直前かほぼ同時に始まること、手の動きが、前記頭や肩の動きより後に始まること、頭と肩の動きは、前後の動きであるという規則を利用する。

（３）音声信号と動画像を統合することで、まず、動画像を基に動き情報から笑い動作区間を抽出し、前記笑い動作区間に音声が含まれるかどうかを判定し、含まれる場合は、前記音声区間を笑い声区間と判定する。さらに、前記音声区間に「ははは」のような笑い音声が含まれるかどうかを判定し、含まれる区間は笑い声区間と判定し、含まれない区間は笑いながらの発話区間と判定する。

図１は、上記基本的な考え方に基づく本発明の第１の実施の形態の音声処理装置の基本構成を示すブロック図である。音声処理装置として、マルチモーダルインタフェースを用いた情報処理装置に適用した例である。

図１において、音声処理装置１０は、所定の動作を行う人間（被験者）の音声データをデジタルデータに変換するＡ／Ｄ変換部１００、所定の処理単位毎に音声パワー、ピッチ、音声波の振幅、周波数スペクトルなどを格納するデータベース１０１、データベース１０１に格納されたデータから音声の区間を抽出する音声区間判定部１０２（区分手段）、抽出された音声区間から振幅情報及び音韻情報に基づいて笑い声区間を抽出する笑い声区間抽出部１０３、笑い声区間抽出部１０３を構成する振幅判定部１０４（計算手段）及び音声認識部１０５（笑い声判定手段）、抽出した笑い声区間を格納する笑い声区間格納部１０６、及び笑い声区間を示す音声情報を出力（例えば表示）する出力部１０７から構成される。

図２は、音声処理装置１０の具体的なシステム構成を示す図である。
図２において、音声処理装置１０は、ＣＰＵ１、ＲＡＭからなるワークメモリ２、音声信号を入力する入力部３、入力音声信号及びＣＰＵ１の演算処理結果を格納するデータベース４、ドットマトリクス構成の液晶表示装置（ＬＣＤ）からなる表示部５、電源バックアップにより書き込まれた情報を保持するＳＲＡＭ（Static RAM）カード，ＦＤ，ＣＤ−ＲＯＭ等の外部記憶装置７、外部記憶装置７の読み取り装置である外部記憶ドライバ６から構成される。

ＣＰＵ１は、音声・動画像処理の実行を含む装置全体の制御を行う制御部であり、内蔵のシステムプログラムに従い、演算に使用するデータを記憶したワークメモリ２を使用して笑い声区間抽出処理プログラムを実行してワークメモリ２上に抽出処理結果を作成する。

ワーキングメモリ２は、文字表示に関するデータや演算に使用するデータ及び演算結果等を一時的に記憶するいわゆるワーキングメモリであり、ＣＰＵ１により実行されるプログラム処理において利用されるプログラム、音声処理データ等を格納する。なお、このプログラムは、システムプログラムとして図示しないＲＯＭに格納されるものでもよい。また、ワークメモリとして用いられるＲＡＭの一部の記憶領域は、電源バックアップするか、あるいはＥＥＰＲＯＭ（electrically erasable programmable ROM）やフラッシュメモリ等の不揮発性メモリにより構成され、電源ＯＦＦ後も設定条件を保持する。この記憶領域には、各種設定データや処理データ等が格納される。

表示部５は、データベース４に格納された音声情報やＣＰＵ１の演算処理結果を表示する。

外部記憶ドライバ６は、笑い声抽出処理プログラムを記録した外部記憶装置７の読み取り装置である。メモリカード，ＦＤ，ＣＤ−ＲＯＭ等の外部記憶装置７は、本音声処理機能を実現するためのプログラム、後述する実施の形態における動画像処理及び音声・動画像処理プログラム等を記録した記憶媒体である。

以下、上述のように構成された音声処理装置の動作を説明する。まず、音声処理装置１０の基本動作について述べる。

図１において、マイクにより検出された所定の動作を行う人間等（被験者）の音声データは、Ａ／Ｄ変換器１００によりＡ／Ｄ変換され、フレーム（１／３０ｓｅｃ）毎にデータベース１０１に格納される。データベース１０１に格納された音声データは、１フレーム毎に読み出され、音声区間判定部１０２により音声の区間が抽出される。

笑い声区間抽出部１０３は、振幅判定部１０４及び音声認識部１０５から構成され、音声区間判定部１０２で抽出された音声区間から、振幅情報及び音韻情報に基づいて笑い声区間を抽出し、抽出した笑い声区間を笑い声区間格納部１０６に格納し、笑い声区間を示す音声情報を出力部１０７に表示する。

本音声処理装置１０では、図１に示すように、被験者の音声データがＡ／Ｄ変換され、所定の処理単位（例えば１フレーム＝１／３０ｓｅｃ）毎に音声パワー、ピッチ、音声波の振幅、周波数スペクトルなどが検出され、データベース１０１にフレーム毎に格納されている。

次に、上記笑い声区間抽出部１０３による音声処理動作について具体的に説明する。
図３は、データベース４に格納されているある音声データ例を示す図であり、図３（ａ）はその音声波形、図３（ｂ）はそのｒｍｓ振幅、図３（ｃ）はその周波数スペクトラムをそれぞれ示す。また、図中の数値はフレーム番号である。

図３に示す音声データは、マイクより入力され、Ａ／Ｄ変換されてデータベース１０１に格納されている音声「大丈夫カットしてくれるから。ははははは。」の音声波形、ｒｍｓ振幅、周波数スペクトルである。

区間Ａが「大丈夫カットしてくれるから」という音声部分、区間Ｂが「ははははは」という笑い声部分である。

図３に示すように、人間は常に淀みなくしゃべり続けるわけではなく、楽しく笑いながら、あるいは失笑しながらしゃべる。データを処理するにあたって、この笑いの箇所を抽出することは重要な課題である。

ここでは、この「ははははは」という笑い声を抽出する方法を例にとる。
音声区間判定部１０２では、Ａ／Ｄ変換された音声信号の音声パワーから、所定の閾値を超える区間を音声区間として判定し、該当する始点・終点フレーム番号を振幅判定部１０４に出力する。振幅判定部１０４では、音声区間判定部１０２で判定された始点・終点フレーム内において、フレーム毎にｒｍｓ振幅値を求め、その平均値が所定の閾値を超える区間を抽出し、その始点・終点フレーム番号を音声認識部１０５に出力する。ｒｍｓ振幅とは、音声波の音圧の変化の平均であり、音の大きさはｒｍｓ振幅に依存する。

笑いは一般に、気分の高揚を伴うことから、図３（ｂ）の区間ｂに見られるように、振幅が大きい傾向がある。また、笑いは、吸気に続く横隔膜や腹筋の収縮、咽喉の緊張と弛緩による断続的な音声を伴う呼気であるから、図３（ｂ）の区間ｂに見られるような断続的なｒｍｓ振幅を示す。したがって、笑い声区間のｒｍｓ振幅値の平均値は、所定の閾値よりも大きい傾向がある。

しかし、ｒｍｓ振幅の平均値が大きい箇所が必ずしも笑い声部分であるとは限らない。しゃべり箇所でも、強い喜びや怒りなどの気分の高揚を伴う箇所ではｒｍｓ振幅が大きな値を示すことがある。そこで、音声認識部１０５では、笑い声に含まれる特徴的な音声を抽出する。一般に、笑いは「ははは」「ひひひ」「ふふふ」「ヘヘヘ」「ほほほ」（これのバリエーションとして、「あはは」「いひひ」「うふふ」「えヘヘ」「おほほ」というのもある）と標記されるように、／ｈ／音に母音／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／が後続する発音が基本である場合が多い。／ｈ／音は、発声時に声帯が振動しないため、基本周波数を持たないが、その調音器官の位置は、／ｈ／の次にくる母音と同じであるから周波数成分は母音に似た相対振幅をもつ。

さらに、笑いでは、「ははは」のように、同じ母音（この場合は／ａ／音）が続く場合が多い。そこで、音声認識部１０５では、この性質を利用して、音声区間判定部１０２で抽出された始点・終点フレーム内（図３（ａ）の区間Ａ，Ｂ参照）において、「はは」や「ははは」のように、同じ母音が断続的に続く区間（図３（ｃ）の区間ｃ参照）を笑い声区間と判定し、その始点・終点フレーム番号を笑い声区間格納部１０６に出力する。

このように、ｒｍｓ振幅値が大きい音声区間でのみ音声認識を行うので、少ない演算量とメモリサイズで笑い声区間を抽出することが可能になる。

図４は、笑い声区間抽出部１０３の動作を示すフローチャートであり、本フローはＣＰＵ１において実行される。図中、Ｓはフローの各ステップを示す。

笑い声区間抽出処理がスタートすると、音声区間判定部１０２では、Ａ／Ｄ変換された音声信号の音声パワーから、所定の閾値を超える区間を音声区間Ｖとして抽出し、その始点フレーム番号Ｓｖ（ｎ）、終点フレーム番号Ｅｖ（ｎ）、及びフレーム長Ｌ（ｎ）を求め、振幅判定部１０４に出力する（ステップＳ１０１）。

振幅判定部１０４では、音声区間判定部１０２で抽出された音声区間Ｖにおいてフレーム毎にｒｍｓ振幅Ｒ（ｎ）を抽出し、各区間のＲ（ｎ）の平均値を求める（ステップＳ１０２）。

ステップＳ１０３では、各区間のＲ（ｎ）の平均値Ｒ（ｎ）／Ｌ（ｎ）が、所定の閾値Ｔ（例えば１．１ｅ＋０．３）を超えるか否かを判定し、平均値Ｒ（ｎ）／Ｌ（ｎ）が閾値Ｔを超える場合は該当区間Ｖの始点フレーム番号Ｓｖ（ｎ）及び終点フレーム番号Ｅｖ（ｎ）を音声認識部１０５に出力する。平均値Ｒ（ｎ）／Ｌ（ｎ）が閾値Ｔを超えない場合は、笑い声区間とは判定されずに本フローによる処理を終了する。

音声認識部１０５では、振幅判定部１０４で抽出された区間Ｖにおいて、／ｈ／音＋母音の音声が連続するか否かを判定し（ステップＳ１０４）、連続する区間Ｗを笑い声区間と判定した場合は、ステップＳ１０５でその始点フレーム番号Ｓｗ（ｎ）及び終点フレーム番号Ｅｗ（ｎ）を求め、笑い声区間格納部１０６に出力して本フローによる処理を終了する。一方、区間Ｖにおいて、／ｈ／音＋母音の音声が連続しない場合は、区間Ｖは笑い声区間とは判定されずに本フローによる処理を終了する。

このようにして対話中の笑い声区間が抽出される例を、図３を用いて説明する。音声区間判定部１０２によって、区間Ａ，Ｂが音声区間として抽出される。

振幅判定部１０４では、区間Ａ，Ｂのうち、区間Ｂのｒｍｓ振幅である区間ｂが、ｒｍｓ振幅の平均値が所定の閾値Ｔを超えるので抽出される。

音声認識部１０５では、上記区間ｂのうち周波数スペクトラム区間ｃが、／ｈａ／音の連続音として抽出されるので、笑い声区間として判定される。したがって、区間ｃの始点・終点フレーム番号が、笑い声区間格納部１０６に格納される。

このように、抽出された笑い声区間のｒｍｓ振幅値から、笑い声の大きさを判定することが可能であり、感情の程度を判定することができる。

以上のように、本実施の形態の音声処理装置１０は、１フレーム毎に音声パワー、ピッチ、音声波の振幅、周波数スペクトルなどを格納するデータベース１０１、データベース１０１に格納されたデータから音声の区間を抽出する音声区間判定部１０２、抽出された音声の各区間の振幅情報に対してｒｍｓ振幅値を求め、各区間の音圧変化の平均を計算する振幅判定部１０４、振幅判定部１０４の結果を閾値と比較し、該結果が閾値より大きい状態が所定時間続くときは区間が笑い声区間であると判定する音声認識部１０５、抽出した笑い声区間を格納する笑い声区間格納部１０６と、及び笑い声区間を示す音声情報を出力する出力部１０７を備え、笑い声区間のｒｍｓ振幅値の平均値は、前記閾値よりも大きい傾向があることを利用することにより、音声信号から笑い声区間を抽出することができる。特に、本実施の形態では、前記区間において、「ははは」のように、同じ母音が断続的に続くかどうかを判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除することができる。

したがって、ｒｍｓ振幅値が大きい音声区間でのみ音声認識を行うので、少ない演算量とメモリサイズで笑い声区間を抽出することができる。

第２の実施の形態
図５は、本発明の第２の実施の形態の動画像処理装置の構成を示す図である。本実施の形態の説明にあたり、図１と同一構成部分には同一符号を付して重複部分の説明を省略する。

図５において、動画像処理装置２０は、所定の動作を行う人間（被験者）の動画像データをデジタルデータに変換するＡ／Ｄ変換部２００、人間等の身体の一以上の部分の位置情報を格納する位置情報格納部２０１、動画像データを格納するデータベース１０１、データベース１０１に格納された動画像データ及び位置情報から身体の各部位の動きの移動量を抽出し、動き情報から笑いの動作の区間を判定する笑い動作区間抽出部２０２、笑い動作区間抽出部２０２を構成する移動量判定部２０３（識別手段，動き抽出手段）及び動作判定部２０４（笑い動作判定手段）、抽出した笑い動作区間を格納する笑い動作区間格納部２０５、及び笑い動作区間を示す情報を出力（例えば表示）する出力部１０７から構成される。

動画像処理装置２０の具体的なシステム構成は、図２と同様である。
以下、上述のように構成された動画像処理装置の動作を説明する。

所定の動作を行う人間等（被験者）の動画像データは、Ａ／Ｄ変換器２００によりＡ／Ｄ変換され、フレーム（１／３０ｓｅｃ）毎にデータベース１０１に入力される。また、データベース１０１には、人間等の身体の一以上の部分の位置情報を入力する位置情報格納部２０１が接続されており、動画像データがデータベース１０１に、身体各部位の位置データが位置情報格納部２０１に、共にフレーム毎に、それぞれ同期をとって格納される。笑い動作区間抽出部２０２は、移動量判定部２０３及び動作判定部２０４から構成され、位置情報から身体の各部位の動きの移動量を抽出し、動き情報から笑いの動作の区間を判定して、笑い動作区間格納部２０５に格納する。

第１の実施の形態で述べたように、笑いは、「ははは」という笑いが多い。しかし、必ずしも明瞭な母音を伴わない笑いもある。また、口を閉じたままの押し殺した笑いや、音声を伴わない笑いもある。しゃべりを伴って起こる笑いもある。このような笑いを抽出するには、身体の特徴的な動きが役に立つ。笑いは、顔の表情の変化を伴うと同時に、頭部や肩、胸の筋肉など、身体の活動を伴う。本実施の形態では、身体の各部位の位置の変化から動きを抽出して、笑いの箇所を判定する。

まず、位置情報格納部２０１について説明する。ここでは、人間等の身体の一以上の部分の位置情報を得る手段として、光学式のモーションキャプチャシステムを用いた場合で説明する。

図６は、モーションキャプチャシステムを説明する図であり、図６（ａ）は、モーションキャプチャシステムにおいて、被験者の身体上に装着するマーカ位置を、図６（ｂ）は図６（ａ）のマーカ位置を基に設定された人間の骨格を表わすスケルトンの各セグメント位置を表わす。

光学式モーションキャプチャシステムでは、一人の被験者を複数（ここでは４台）の赤外線カメラでとらえることにより、図６（ａ）に示す１８箇所のマーカ位置（●印参照）の３次元座標の時系列データを作成する。さらに、本光学式モーションキャプチャシステムでは、これら体の外側に付いているマーカの位置を基に、人間等の骨格を表わすスケルトンの各関節を表わすバーチャルマーカを計算・設定することにより、スケルトン構造（図６（ｂ）参照）の階層構造を決定し、その各セグメント（関節：図６（ｂ）に示す１１箇所）の設定されているローカル座標での相対位置座標を計算することができる。

本実施の形態で捉えるセグメントは、図６（ｂ）に示すように、上半身の、[Herd]，[Neck]，[Upper Torso]，[L Collar Bone]，[R Collar Bone]，[L Up Arm]，[R Up Arm]，[L Low Arm]，[R Low Arm]，[L Hand]，[R Hand]の１１箇所である。

本光学式モーションキャプチャシステムにより得られる前記各セグメントのローカル座標での相対位置座標が、位置情報格納部２０１に格納される。位置情報格納部２０１に入力されているファイルの例を図７に示す。

図７は、位置情報格納部２０１に格納されているファイルの例を示す図である。図７に示すように、位置情報格納部２０１に格納されているファイルには、各セグメントのローカル座標での３次元相対位置座標（ｘ，ｙ，ｚ）の時系列データ（フレーム毎）が含まれている。例えば、セグメント[Herd]の第３フレームでの座標は（0.000002,-0.886932,0.000004）である。

図８は、位置情報格納部２０１に入力されている位置データをグラフ化した図であり、図３に示した発話区間における頭部、肩、手の３次元位置座標を基に描画したものである。ｘ軸は左右方向、ｙ軸は上下方向、ｚ軸は前後方向の動きである。

図８において、区間ｃが第１の実施の形態で笑い声区間として抽出された区間である。図８からわかるように、頭と肩の移動量は笑い声とほぼ同時かその直前に現れるのに対し、手の動きはその後に起こる。また、笑いの動作は笑い声が収まった後まで残る傾向があり（区間ｅ参照）、その動きの大きさは、笑いの大きさに比例する。このように、頭や肩など、身体の各部位の位置座標におけるｘ，ｙ，ｚ軸方向の移動量を調べることにより、笑いの区間を抽出することができる。

ここでは、笑い箇所では、頭と肩（右肩）のセグメント[Herd]，[Rshouler]のｚ軸（前後方向）の移動量が共に大きくなる傾向があることを利用して笑いの動作区間を抽出することを例にとり、笑い動作区間抽出部２０２の動作を説明する。

図９は、笑い動作区間抽出部２０２の動作を示すフローチャートであり、本フローは図２のＣＰＵ１において実行される。

笑い動作区間抽出処理がスタートすると、移動量判定部２０３では、[Herd]，[Rshouler]それぞれのｚ軸の移動量を並列に調べる。

頭と肩（右肩）についての並列処理のうち、まず頭[Herd]のｚ軸に対する移動量判定処理（ステップＳ２００）の説明をする。

頭[Herd]のｚ軸方向の移動量を抽出するために、ステップＳ２０１で位置情報格納部２０１に格納されているセグメント[Herd]のｚ軸方向の各フレームの座標値Ｈｚ（ｎ）を基に、ｚ軸座標値の変化率Ｐｈｚ（ｎ）を次式（１）により求める。

ここで、ｎは現フレーム番号である。変化率Ｐｈｚ（ｎ）がプラスであれば頭は前方向に動いていることを表わし、マイナスであれば、後ろ方向に動いていることを示す。

次に、抽出された動きが単なる体の揺れ等に伴う微かな動きではなく、笑いに伴う動作の区間を見つけるために、ステップＳ２０２でフレームｎでの変化率Ｐｈｚ（ｎ）の絶対値（ここでは移動の方向は関係なく、移動量だけが問題であるので絶対値を使う）がある閾値Ｄ１（ここでは０．０５）を超えているか（｜Ｐｈｚ（ｎ）｜＞Ｄ１か）否かを判別し、｜Ｐｈｚ（ｎ）｜が閾値Ｄ１を超えていなければ、笑い動作とは判定されずに本フローによる処理を終了する。

｜Ｐｈｚ（ｎ）｜が閾値Ｄ１を超えている場合は、ステップＳ２０３で該当区間Ｈの始点フレーム番号Ｓｐｈｚ（ｎ）及び終点フレーム番号Ｅｐｈｚ（ｎ）を求め、動作判定処理（ステップＳ４００）のステップＳ４０１に進む。

同様に、肩[Rshouler]のｚ軸の移動量を抽出する移動量判定処理（ステップＳ３００）を行う。

肩[Rshouler]の前後方向（ｚ軸方向）の移動量を抽出するために、ステップＳ３０１で位置情報格納部２０１に格納されているセグメント[Rshouler]のｚ軸方向の各フレームの座標値ＲＳｚ（ｎ）を基に、ｚ軸座標値の変化率Ｐｒｓｚ（ｎ）を次式（２）により求める。

ここで、ｎは現フレーム番号である。変化率Ｐｒｓｚ（ｎ）がプラスであれば肩は前方向に動いていることを表わし、マイナスであれば、後ろ方向に動いていることを示す。

笑いに伴う動きの区間を抽出するために、ステップＳ３０２でフレームｎでの変化率Ｐｒｓｚ（ｎ）の絶対値がある閾値Ｄ２（ここでは０．０５）を超えているか（｜Ｐｈｓｚ（ｎ）｜＞Ｄ２か）否かを判別し、｜Ｐｈｓｚ（ｎ）｜が閾値Ｄ２を超えていなければ、笑い動作とは判定されずに本フローによる処理を終了する。

｜Ｐｈｓｚ（ｎ）｜が閾値Ｄ２を超えている場合は、ステップＳ３０３で超えている区間Ｓの始点フレーム番号Ｓｐｒｓｚ（ｎ）及び終点フレーム番号Ｅｐｒｓｚ（ｎ）を求め、動作判定処理（ステップＳ４００）のステップＳ４０１に進む。

動作判定部２０４では、笑い動作の区間を判定するために、動作判定処理（ステップＳ４００）を行う。まず、ステップＳ４０１で上記ステップＳ２０３及びステップＳ３０３で得られたフレーム区間を基に、頭[Herd]から抽出された区間Ｈと肩[Rshouler]から抽出された区間Ｓの重複区間Ｍを笑い動作区間と判定し、その区間Ｍの始点フレーム番号Ｓｍ（ｎ）と終点フレーム番号Ｅｍ（ｎ）を求め、笑い動作区間格納部２０５に格納して本フローによる処理を終了する。

上述した笑い動作区間抽出処理を実行することにより笑い動作区間を抽出することができる。

例えば、図８に示す区間ｆでは、ｚ軸方向に頭と肩の移動量が共に大きいので笑い動作区間と判定されるが、区間ｄは、ｚ軸方向に頭の移動量は大きいが、肩の移動量が小さいので、笑い動作区間と判定されていない。

このように、身体の部位の動きの移動量から、笑いの区間を抽出することが可能になる。すなわち、抽出された笑い動作区間の動きの移動量から、笑い動作の大きさを判定することが可能になり、感情の程度を判定することができる。

ここで、本実施の形態では、笑いに特徴的な動きを示す部位として、頭と肩（右肩）の移動量を例にとり説明したが、これは一例に過ぎず、図６（ｂ）に示す上半身の各セグメントについて同様の処理方法により、移動量の判定及び笑い動作判定を行うようにしてもよい。例えば、頭と肩（右肩）の判定に、さらに喉，左肩，胸等の判定を加えるようにすれば笑い動作区間判定の精度を向上させることができる。

さらに、笑いの動作に特徴的な身体各部位の移動パターンを登録しておいて、パターンマッチングの手法により、笑いの動作区間を抽出してもよい。

以上のように、本実施の形態の動画像処理装置２０は、人間等の身体の一以上の部分の位置情報を格納する位置情報格納部２０１、動画像データを格納するデータベース１０１、データベース１０１に格納された動画像データ及び位置情報から身体の各部位の動きの移動量する移動量判定部２０３、抽出された動きを所定の規則と比較し、その一致度に応じて前記複数のフレームが笑い動作区間であると判定する動作判定部２０４、抽出した笑い動作区間を格納する笑い動作区間格納部２０５、及び笑い動作区間を示す情報を出力する出力部１０７を備え、笑いは頭部や肩、胸の筋肉など、身体の活動を伴うことを利用することにより、身体の各部位の動きから、笑い動作を抽出することができ、明瞭な母音を伴わない笑いや、口を閉じたままの押し殺した笑い、音声を伴わない笑い、しゃべりを伴って起こる笑いに伴う、笑い動作を抽出することができる。

また、本実施の形態では、人間等の身体の各部分として、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手の１１箇所のうち、例えば頭、右肩を用い、さらに、笑い動作の判定には、頭と肩の動きが、笑い動作区間の直前かほぼ同時に始まること、手の動きが、前記頭や肩の動きより遅れて始まること、頭と肩の動きは、前後の動きであるという規則を利用している。このような笑い動作の特徴を処理に反映させることにより、比較的少ない計算量で笑いの箇所を精度良く抽出することができる。

第３の実施の形態
笑い動作は、人間等の身体の各部位の位置情報に基づいて計算される各セグメントの、所定のフレーム毎（例えば１０フレーム毎）の速度や加速度情報を用いて抽出することも可能である。

所定の動作をしている人間等の動きを解析するには、その移動量だけでなく、速度や加速度といった運動量も重要な情報である。笑い動作を例にとると、全身の動きを伴う大きな笑いや、細かな運動が複数回繰り返されるこらえた笑いなど、様々なパターンがある。そこで、速度又は加速度を利用して、笑い動作の区間を抽出することが可能である。

まず、速度は、時刻ｔにおける位置を座標値ｘ（ｔ），ｙ（ｔ），ｚ（ｔ）とすると、（ｘ（ｔ），ｙ（ｔ），ｚ（ｔ））を時間微分した次式（３）で求めることができる。
（ｕ，ｖ，ｗ）≡（ｄｘ／ｄｔ，ｄｙ／ｄｔ，ｄｚ／ｄｔ） …（３）

また、加速度は、速度を微分、すなわち位置を２階微分することにより、次式（４）で求めることができる。
（ｕ’，ｖ’，ｗ’）≡（ｄ²ｘ／ｄｔ²，ｄ²ｙ／ｄｔ²，ｄ²ｚ／ｄｔ²）
…（４）

速度又は加速度から笑い動作を抽出するには、例えば頭や肩などの各セグメントの速度又は加速度がそれぞれ一定の閾値を超えている区間を見つければよい。このため、各セグメントのフレーム毎の速度情報や加速度情報を基に、各セグメント毎に予め設定した閾値を超えるフレーム区間を笑い動作区間として抽出する。また、動きの強度は連続的なものであるから、例えば、頭の速度又は加速度Ｖ（ｘ，ｙ，ｚ）を抽出する関数ｆ（ｖｈ）を設定し、動きの強度に応じて笑いの動作の区間を抽出するようにしてもよい。これにより、笑いが急に激しくなったり、だんだん弱くなるなどの区間も抽出できるようになる。また、単一のセグメントの動きからだけではなく、複数セグメントの動きの相互関係から、動きの強度に応じて笑いの動作区間を抽出することも可能になり、さらには、笑いの動作から、感情の程度を抽出することも可能になる。

第４の実施の形態
第１の実施の形態では、音声情報を基に笑い声区間を抽出し、第２及び第３の実施の形態では、身体上の各部位の動きを基に、笑い動作区間を抽出した。本実施の形態は、音声情報と動き情報を統合処理することで笑いの区間を抽出するものである。

図１０は、本発明の第４の実施の形態の音声・動画像処理装置の構成を示す図である。本実施の形態の説明にあたり、図１及び図９と同一構成部分には同一符号を付して重複部分の説明を省略する。

図１０において、音声・動画像処理装置３０は、所定の動作を行う人間（被験者）の音声データをデジタルデータに変換するＡ／Ｄ変換部１００、動画像データをデジタルデータに変換するＡ／Ｄ変換部２００、人間等の身体の一以上の部分の位置情報を格納する位置情報格納部２０１、動画像データを格納するデータベース１０１、位置情報と音声情報から笑いの区間を判定する笑い区間抽出部３０１（判定手段）、抽出した笑い間を格納する笑い区間格納部３０２、及び笑い区間を示す情報を出力（例えば表示）する出力部１０７から構成される。

また、笑い区間抽出部３０１は、データベース１０１に格納された動画像データ及び位置情報から身体の各部位の動きの移動量を抽出し、動き情報から笑いの動作の区間を判定する笑い動作区間抽出部２０２、笑い動作区間抽出部２０２を構成する移動量判定部２０３及び動作判定部２０４、データベース１０１に格納されたデータから音声の区間を抽出する音声区間判定部、抽出された音声区間から振幅情報及び音韻情報に基づいて笑い声区間を抽出する笑い声区間抽出部１０３、笑い声区間抽出部１０３を構成する振幅判定部１０４及び音声認識部１０５から構成される。

所定の動作を行う人間等（被験者）の音声及び動画像データはＡ／Ｄ変換されフレーム（１／３０ｓｅｃ）毎にデータベース１０１に入力される。

笑い区間抽出部３０１は、第２の実施の形態の移動量判定部２０３及び動作判定部２０４からなる笑い動作区間抽出部２０２と、第１の実施の形態の音声区間判定部１０２、振幅判定部１０４及び音声認識部１０５からなる笑い声区間抽出部１０３とを組合せたものである。

音声・動画像処理装置３０の具体的なシステム構成は、図２と同様である。
以下、上述のように構成された音声・動画像処理装置の動作を説明する。

前記図３及び図８は、同じ発話区間を示したものであるが、比較して分かるように、図３に示す音声データから抽出された笑い声区間ｃと、図８に示すファイルデータから抽出された笑い動作区間ｆとは、笑いとして抽出された範囲が異なる。これは、一般に、動きは急に止まれるものではなく、特に動きが大きければ大きいほど、その動きが収まるには時間がかかるためである。このように、笑い声が止まった後も、笑いの動作が続くことが多い（図８ｅ参照）。

そこで、本実施の形態では、音声情報と動き情報を統合して判定することで、笑いの区間を抽出する。この方法を用いれば、例えば笑いながらしゃべっている区間を抽出することが可能になる。第１の実施の形態においては、笑い声を抽出することを目的としており、笑いながらしゃべっている区間は抽出されない。一方、第２及び第３の実施の形態では、笑い動作を抽出することを目的としていたため、抽出された箇所で被験者が無言で笑っているのか、笑っているだけなのか、あるいは笑いながらしゃべっているかの区別はできない。本実施の形態によれば、音声情報と動き情報を統合して判定することにより、より精密な笑い区間抽出方法を実現することができ、笑いが単独で起こっているのか、しゃべりを伴う笑いなのか、あるいは、無言の笑い動作だけなのかの区別をも判別可能になる。

例えば、図３と図８を統合的に見てみると、
区間ｆで笑い動作が起こっている
区間ｃで笑い声と笑い動作が同時に起こっている
区間ｅで区間ｃに続く余韻の笑い動作のみが起こっている
ことが分かる。

図１１は、データベース４に格納されている別の音声データ例を示す図であり、図１１（ａ）はその音声波形、図１１（ｂ）はそのｒｍｓ振幅、図１１（ｃ）はその周波数スペクトラムをそれぞれ示す。また、図中の数値はフレーム番号である。

図１２は、位置情報格納部２０１に入力されている別のファイルデータ（位置データ）をグラフ化した図であり、図１１に示した発話区間における頭部、肩、手の３次元位置座標を基に描画したものである。ｘ軸は左右方向、ｙ軸は上下方向、ｚ軸は前後方向の動きである。

図１１に示す音声データは、「あの、私（あたし）の電話機が、嫌（や）なの。違う、違（ちが）、そういう意味じゃなくて」と発話している部分の音声情報を示したものである。図１２は、同区間の位置情報である。

図１１と図１２を比較してみると、
図１１（ｂ）に示す区間ｈ，ｉ，ｊの振幅は大きいが、同区間ｈ，ｉ，ｊのスペクトルパターン（図１１（ｃ））は、いわゆる「ははは」という笑い声のパターンを示していない。

図１２に示す区間ｇ（図１１の区間ｈ，ｉに相当する）で笑い動作が起こっている。
ことがわかる。このような場合、区間ｇでは、笑いながらしゃべっていることが多い。したがって、振幅判定部１０４、音声認識部１０５、移動量判定部２０３及び動作判定部２０４の結果を統合して判定することで、区間ｇでは笑いながらしゃべっている箇所であると判定できることがわかる。

このように動き情報と音声情報を統合して判定する笑い区間抽出処理を図１３のフローチャートを用いて説明する。

図１３は、笑い区間抽出部３０１の動作を示すフローチャートであり、本フローは図２のＣＰＵ１において実行される。

本処理では、まず動き情報から笑い動作区間を抽出し、次にその区間に笑い声が含まれるか、あるいは笑いを伴ったしゃべりが含まれるかを判定するという処理手順をとる。

まず、図４に示すフローチャートの手順に従い、移動量判定部２０３及び動作判定部２０４は、頭と肩の動きの移動量から笑い動作区間Ｍを抽出し、その区間の始点フレーム番号Ｓｍ（ｎ）及び終点フレーム番号Ｅｍ（ｎ）を求める（ステップＳ５０１）。

次いで、音声区間判定部１０２では前記動作区間Ｍに音声区間が含まれるか否かを判定し（ステップＳ５０２）、含まれる場合は、ステップＳ５０３で該当音声区間Ｖの始点フレーム番号Ｓｖ（ｎ）及び終点フレーム番号Ｅｖ（ｎ）、及びフレーム長Ｌ（ｎ）を求め、振幅判定部１０４に出力する。一方、動作区間Ｍに音声区間が含まれない場合は、ステップＳ６０１で動作区間Ｍは音声を伴わない笑い動作のみと判断して、区間Ｍの始点フレーム番号Ｓｍ（ｍ）及び終点フレーム番号Ｅｍ（ｎ）を笑い区間格納部３０２に出力して本フローによる処理を終了する。

振幅判定部１０４では、前記音声区間Ｖにおいてフレーム毎にｒｍｓ振幅Ｒ（ｎ）を抽出し（ステップＳ５０４）、さらにその平均値（Ｒ（ｎ）／Ｌ（ｎ））が所定の閾値Ｔ（例えば１．１ｅ＋０．３）を超えるか否かを判定する（ステップＳ５０５）。平均値（Ｒ（ｎ）／Ｌ（ｎ））が閾値Ｔを超える場合は、区間Ｖの始点フレーム番号Ｓｖ（ｎ）及び終点フレーム番号Ｅｖ（ｎ）を音声認識部１０５に出力する。平均値（Ｒ（ｎ）／Ｌ（ｎ））が閾値Ｔを超えない場合は、振幅が小さいことから、笑い声とは異なる発話があると判断され、同区間Ｖに現れる動作は笑い動作とは異なる動作と判定されて本フローによる処理を終了する。

音声認識部１０５では、前記音声区間Ｖにおいて、／ｈ／音＋母音の音声が連続して現れるか否かを判定し（ステップＳ５０６）、／ｈ／音＋母音の音声が連続する場合は、ステップＳ６０２で区間Ｍを笑い動作の区間として、また、区間Ｍに含まれる区間Ｖを笑い声区間として判定し、それぞれの始点フレームＳｍ（ｎ）と終点フレームＥｍ（ｎ）、始点フレームＳｗ（ｎ）と終点フレームＥｗ（ｎ）を笑い区間格納部３０２に出力して本フローによる処理を終了する。

一方、上記ステップＳ５０６で、音声区間Ｖにおいて、／ｈ／音＋母音の音声が連続しない場合は、ステップＳ６０３で区間Ｍを笑い動作の区間として、また、区間Ｍに含まれる区間Ｖを笑いながらの発話区間として判定し、それぞれの始点フレームＳｍ（ｎ）と終点フレームＥｍ（ｎ）、始点フレームＳｓ（ｎ）と終点フレームＥｓ（ｎ）を笑い区間格納部３０２に出力して本フローによる処理を終了する。

このように、本実施の形態では、音声情報と動き情報を統合して判定することにより、笑い単独の区間と笑いを伴ったしゃべりの区間を区別することが可能となる。抽出された笑い動作区間の動きの移動量の大きさ、及び笑い声区間のｒｍｓ振幅値から、笑いの大きさを判定することが可能になるため、感情の程度を判定することができる。

すなわち、第１の実施の形態においては、笑い声を抽出することを目的としているので、笑いながらしゃべっている区間は抽出されず、第２及び第３の実施の形態では、笑い動作を抽出することを目的としているので、抽出された箇所で被験者が無言で笑っているのか、笑っているだけなのか、あるいは笑いながらしゃべっているかの区別はできなかったが、本実施の形態では、音声情報と動き情報を統合して判定することにより、より精密な笑い区間を抽出することが可能になり、笑いが単独で起こっているのか、しゃべりを伴う笑いなのか、あるいは、無言の笑い動作だけなのかの区別が可能になる。

なお、本発明の音声処理装置及び動画像処理装置は、上述の実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、上述したようなマルチモーダルインタフェースを用いた情報処理装置に適用することもできるが、これには限定されず、全ての装置に適用可能である。

また、本実施の形態に係る処理装置が、ＰＤＡ（Personal Digital Assistant）等の携帯情報端末やパーソナルコンピュータの音声・動画像処理機能として組み込まれたものでもよい。

さらに、上記音声処理装置及び動画像処理装置を構成する各回路部等の種類、データベースなどは前述した実施形態に限られない。

以上説明した音声処理装置及び動画像処理装置は、この処理装置を機能させるためのプログラムでも実現される。このプログラムはコンピュータで読み取り可能な記録媒体に格納されている。本発明では、この記録媒体として、メインメモリそのものがプログラムメディアであってもよいし、また外部記憶装置としてプログラム読み取り装置が設けられ、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。いずれの場合においても、格納されているプログラムはＣＰＵがアクセスして実行させる構成であってもよいし、あるいはいずれの場合もプログラムを読み出し、読み出されたプログラムは、図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であってもよい。このダウンロード用のプログラムは予め本体装置に格納されているものとする。

ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、例えばＰＣカード（ＳＲＡＭカード）のほか、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカード／光カード等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する媒体であってもよい。

さらに、外部の通信ネットワークとの接続が可能な通信装置を備えている場合には、その通信装置を介して通信ネットワークからプログラムをダウンロードするように、流動的にプログラムを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。なお、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。

本発明の第１の実施の形態の音声処理装置の基本構成を示すブロック図である。本発明の実施の形態の音声処理装置の具体的なシステム構成を示す図である。本実施の形態の音声処理装置のデータベースに格納されているある音声データ例を示す図である。本実施の形態の音声処理装置の笑い声区間抽出部の動作を示すフローチャートである。本発明の第２の実施の形態の動画像処理装置の構成を示す図である。本実施の形態の動画像処理装置のモーションキャプチャシステムを説明する図である。本実施の形態の動画像処理装置の位置情報格納部に格納されているファイルの例を示す図である。本実施の形態の動画像処理装置の位置情報格納部に入力されている位置データをグラフ化した図である。本実施の形態の動画像処理装置の笑い動作区間抽出部の動作を示すフローチャートである。本発明の第４の実施の形態の音声・動画像処理装置の構成を示す図である。本実施の形態の音声・動画像処理装置のデータベースに格納されている別の音声データ例を示す図である。本実施の形態の音声・動画像処理装置の位置情報格納部に入力されている別のファイルデータをグラフ化した図である。本実施の形態の音声・動画像処理装置の笑い区間抽出部の動作を示すフローチャートである。

符号の説明

１ＣＰＵ
２ワークメモリ
３入力部
４データベース
５表示部
６外部記憶ドライバ
７外部記憶装置（記録媒体）
１０音声処理装置
２０動画像処理装置
３０音声・動画像処理装置
１００，２００Ａ／Ｄ変換部
１０１データベース
１０２音声区間判定部（区分手段）
１０３笑い声区間抽出部
１０４振幅判定部（計算手段）
１０５音声認識部（笑い声判定手段）
１０６笑い声区間格納部
１０７出力部
２０１位置情報格納部
２０２笑い動作区間抽出部
２０３移動量判定部（識別手段，動き抽出手段）
２０４動作判定部（笑い動作判定手段）
２０５笑い動作区間格納部
３０１笑い区間抽出部（判定手段）
３０２笑い区間格納部

Claims

音声を時間的に区分する区分手段と、
前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、
前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、
を備え、
前記閾値は、前記区間の長さに応じて変更される
ことを特徴とする音声処理装置。
前記振幅情報は、ｒｍｓ（root mean square）振幅値であることを特徴とする請求項１記載の音声処理装置。
請求項１または２に記載の音声処理装置であって、
前記抽出した笑い声区間に対して、笑い声に含まれる音声パターンとのマッチングを行うマッチング手段と、
前記マッチング手段のマッチング結果に基づいて笑い声区間と笑いを伴う音声区間を区別して、笑い声区間をさらに限定する限定手段と、
を備えることを特徴とする音声処理装置。
請求項１から３までのいずれか１項に記載の音声処理装置と、
フレームの集合からなる動画像を処理してその動画像に笑い動作が含まれるか否かを判定する動画像処理装置と、
前記動画像処理装置が判定した笑い動作に音声がともなう区間を出力する判定手段と、
を備える音声・動画像処理装置であって、
前記動画像処理装置は、
人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、
前記各部分の動きを抽出する動き抽出手段と、
前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、
を備え、
前記笑い声判定手段は、
前記笑い動作に音声がともなうと前記判定手段が判定した区間について、前記笑い声区間であるか否かを判定する
ことを特徴とする音声・動画像処理装置。
前記人間等の身体の各部分が、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手のうちの、少なくとも一つ以上であることを特徴とする請求項４記載の音声・動画像処理装置。
前記規則は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に始まるという規則であることを特徴とする請求項４記載の音声・動画像処理装置。
前記規則は、手の動きが、頭や肩の動きの始まりより遅れて始まるという規則であることを特徴とする請求項４又は６に記載の音声・動画像処理装置。
前記規則は、頭と肩の動きが、前後の動きであることを特徴とする請求項４、６又は７のいずれか一項に記載の音声・動画像処理装置。
前記規則は、人間等の身体の各部分の速度又は加速度の関数であることを特徴とする請求項４、６、７又は８のいずれか一項に記載の音声・動画像処理装置。
コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備え、前記閾値は、前記区間の長さに応じて変更される音声処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
コンピュータを、
音声を時間的に区分する区分手段と、
前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、
前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、
を備え、
前記閾値は、前記区間の長さに応じて変更される音声処理装置と、
フレームの集合からなる動画像を処理してその動画像に笑い動作が含まれるか否かを判定する動画像処理装置において、
人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、
前記各部分の動きを抽出する動き抽出手段と、
前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、
を備える動画像処理装置と、
前記動画像処理装置が判定した笑い動作に音声がともなう区間を出力する判定手段と、
を備える音声・動画像処理装置であって、
前記笑い声判定手段は、
前記笑い動作に音声がともなうと前記判定手段が判定した区間について、前記笑い声区間であるか否かを判定する
音声・動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。