以下、実施の形態に従って本発明を詳細に説明する。
図1に、本発明の適用されるIP電話システムのシステム構成を図示する。
この図に示すように、本発明の適用されるIP電話システムは、本発明を具備するIP電話発呼支援装置1とIP電話機能および画像表示機能を持つ複数のユーザ端末2-i(i=1〜n)とがIPネットワーク3を介して接続されることで構成される。
〔1〕第1の実施形態例
図2に、第1の実施形態例で構成される本発明のIP電話発呼支援装置1の装置構成を図示する。
本発明のIP電話発呼支援装置1は、本実施形態例に従ってIP電話の発呼を支援する処理を実行する場合には、図2に示すように、メディア入力部100と、映像記憶部101と、映像処理部102と、識別子付与部103と、送信メディア記憶部104と、メディア送信部105と、発呼先アドレス入力部106と、識別子・発呼先アドレス対応関係記憶部107と、対応関係登録部108と、IP電話受信部109と、発呼先決定部110と、IP電話送信部111とを備える。
ここで、図3に示すように、本発明のIP電話発呼支援装置1は、ハードウェア構成的には、CPU1000と、バス2000と、バス2000を介してCPU1000に接続されるプログラムメモリ3000と、バス2000を介してCPU1000に接続されるデータメモリ4000と、バス2000を介してCPU1000に接続される通信インタフェース5000とから構成される。
この構成を採るときに、図2に示すメディア入力部100、映像処理部102、識別子付与部103、メディア送信部105、発呼先アドレス入力部106、対応関係登録部108、IP電話受信部109、発呼先決定部110およびIP電話送信部111についてはプログラムメモリ3000に記憶される。また、図2に示す映像記憶部101、送信メディア記憶部104および識別子・発呼先アドレス対応関係記憶部107についてはデータメモリ4000に記憶される。
また、通信インタフェース5000は、CPU1000の制御の下、インターネット上のサーバおよびインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、TCP/IP(Transmission Control Protocol/Internet Protocol) が使用される。
次に、本発明のIP電話発呼支援装置1の備える各処理部について説明する。
メディア入力部100は、画像提供元のユーザから送信されてくる画像提供先のユーザに提供するメディア情報(静止画や映像で構成され、音響データを含むこともある)を入力するとともに、そのメディア情報に対応付けて送信されてくる画像提供先端末のアドレス情報を入力する。
映像記憶部101は、メディア入力部100がメディア情報として映像を入力する場合に、メディア入力部100から、その映像および画像提供先端末のアドレス情報を受け取って記憶する。
映像処理部102は、映像記憶部101に記憶される映像を1枚または複数枚数の静止画に再構成する。なお、このときに映像処理部102が実行することになる処理については後述する。
識別子付与部103は、メディア入力部100がメディア情報として静止画を入力した場合には、メディア入力部100から、その静止画とその静止画に対応付けて入力されてきた画像提供先端末のアドレス情報とを受け取り、その静止画に対して、例えば整数値を1つずつインクリメントする形で識別子を付与する。一方、メディア入力部100がメディア情報として映像を入力した場合には、映像処理部102から、その映像から生成された静止画とその映像に対応付けて入力されてきた画像提供先端末のアドレス情報とを受け取り、その静止画に対して、例えば整数値を1つずつインクリメントする形で識別子を付与する。
送信メディア記憶部104は、識別子付与部103の付与した識別子に対応付けて、その識別子の付与された静止画(ユーザ端末2-iへの提供画像となるもの)と、その静止画に対応付けて入力されてきた画像提供先端末のアドレス情報とを記憶する。
メディア送信部105は、送信メディア記憶部104に記憶される提供画像となる静止画を、その静止画に付与された識別子とともに、その静止画に対応付けて入力されてきた画像提供先端末アドレス情報の指すユーザ端末2-iに送信する。
発呼先アドレス入力部106は、画像提供元のユーザから送信されてくる、メディア入力部100が入力したメディア情報(メディア送信部105が送信することになる静止画)に対応付けて定義される発呼先端末のアドレス情報を入力する。
識別子・発呼先アドレス対応関係記憶部107は、図4に示すようなデータ構造を有して、識別子付与部103が付与した識別子と、その識別子の付与された静止画(ユーザ端末2-iへの提供画像となるもの)に対応付けて定義される発呼先端末のアドレス情報との対応関係を記憶する。
対応関係登録部108は、識別子付与部103が付与した識別子と、発呼先アドレス入力部106が入力した発呼先端末のアドレス情報との対応関係を、図4に示すようなデータ構造を持つ識別子・発呼先アドレス対応関係記憶部107に登録する。
IP電話受信部109は、メディア送信部105による静止画の送信に応答して、いずれかのユーザ端末2-iから、識別子付与部103の付与した識別子を指定してIP電話の発呼要求があると、それを受信する。
発呼先決定部110は、IP電話受信部109の受信したIP電話の発呼要求で指定される識別子をキーにして、識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指すユーザ端末2-iをIP電話の発呼先として決定する。
IP電話送信部111は、発呼先決定部110の決定したユーザ端末2-iに対してIP電話を発呼することで、IP電話の発呼要求を行ったユーザ端末2-iと、そのIP電話の発呼先端末となるユーザ端末2-iとの間でIP電話を成立させる。
図5および図6に、このように構成される本発明のIP電話発呼支援装置1の実行するフローチャートの一例を図示する。
次に、このフローチャートに従って、本発明のIP電話発呼支援装置1の実行する処理について説明する。
本発明のIP電話発呼支援装置1は、ユーザ端末2-iを操作する画像提供元のユーザから、画像提供先端末のアドレス情報を指定して画像の提供要求があると、図5のフローチャートに示すように、まず最初に、ステップS100で、画像提供元のユーザから、提供画像と画像提供先端末のアドレス情報とを入力する。
例えば、画像提供元のユーザとなる東京に住むA男が、横浜に住む妹のB子の家族が写っている写真を九州に住む父親のC男に見せたいと思うときには、その写真とC男の操作するユーザ端末2-iのアドレス情報とを送信してくるので、提供画像となるその写真と、画像提供先端末のアドレス情報となるC男の操作するユーザ端末2-iのアドレス情報とを入力するのである。
続いて、ステップS101で、入力した提供画像が映像であるのか静止画であるのかを判断して、入力した提供画像が映像であることを判断するときには、ステップS102に進んで、後述する処理を実行することで、入力した映像を静止画に再構成して、それを提供画像として設定する。一方、ステップS101の判断処理で、入力した提供画像が静止画であることを判断するときには、このステップS102の処理を省略する。
続いて、ステップS103で、提供画像に対して、例えば整数値を1つずつインクリメントする形で識別子を付与する。
例えば、上記のようなB子の家族が写っている写真に対して、例えば“0100”というような識別子を付与するのである。
続いて、ステップS104で、画像提供元のユーザから、提供画像に対応付けて定義される発呼先端末のアドレス情報を入力する。
例えば、画像提供元のユーザとなるA男は、上記のような写真を父親のC男に送信する場合にあって、C男がその写真をクリックしてIP電話の発呼要求をするときに、その発呼先をB子としようと考える場合には、B子の操作するユーザ端末2-iのアドレス情報を発呼先端末のアドレス情報として入力してくるので、そのアドレス情報を入力するのである。
続いて、ステップS105で、ステップS103で付与した識別子とステップS104で入力した発呼先端末のアドレス情報との対応関係を、図4に示すようなデータ構造を持つ識別子・発呼先アドレス対応関係記憶部107に登録する。
例えば、上記のような写真に対して、ステップS103において、“0100”という識別子を付与するとともに、ステップS104において、発呼先端末のアドレス情報としてB子の操作するユーザ端末2-iのアドレス情報を入力する場合には、この2つの対応関係を識別子・発呼先アドレス対応関係記憶部107に登録するのである。
続いて、ステップS106で、ステップS100で入力した画像提供先端末のアドレス情報の指すユーザ端末2-iに対して、提供画像とそれに付与した識別子とを送信して、処理を終了する。
例えば、ステップS100において、A男が妹のB子の家族が写っている写真を提供画像として入力するとともに、画像提供先端末のアドレス情報として父親のC男の操作するユーザ端末2-iのアドレス情報を入力する場合には、そのアドレス情報の指すC男の操作するユーザ端末2-iに対して、その写真とその写真に付与した識別子(上記の例で説明するならば“0100”)とを送信するのである。
この提供画像の送信を受けて、この提供画像を受け取るユーザ端末2-iは、図7に示すように、送信されてきた提供画像を表示エリア20に表示するように処理する。
このとき、ユーザ端末2-iは、本発明のIP電話発呼支援装置1から複数枚数の提供画像を受け取るときには、例えば、それらの提供画像を順番に選択して表示エリア20に表示するなどの処理を行うことになる。
また、例えば、新着の提供画像である場合には、図中の21に示すように、「New!」というような新着を知らせるテキストを表示するようにしたり、図中の22に示すように、提供画像を際立たせるような強調表示を施すようにしてもよい。
なお、図7では、父親のC男に、息子のA男から、娘のB子の子供のD子が運動会で演技するときに撮影された写真が送られてきたことを想定している。
この提供画像の表示を受けて、ユーザ端末2-iを操作するユーザは、その表示される提供画像を指先でタッチすることなどにより、IP電話の発呼を要求する。
このとき、図8に示すように、ユーザ端末2-iにカメラ23やマイク24が装着されている場合には、画像や音声をトリガーにしてIP電話の発呼を実施するようにしてもよい。例えば、カメラ23に手を広げた状態を向けると発呼要求と判断して発呼するようにしてもよく、また、マイク24に“電話”と発声することにより発呼と判断して発呼するようにしてもよい。
このIP電話の発呼要求を受けて、ユーザ端末2-iは、本発明のIP電話発呼支援装置1に対して、その発呼要求の起点となった提供画像の識別子を指定して、IP電話の発呼要求を送信する。
上記の例で説明するならば、識別子“0100”を指定して、IP電話の発呼要求を送信するのである。
このIP電話の発呼要求があると、本発明のIP電話発呼支援装置1は、図6のフローチャートに示すように、まず最初に、ステップS200で、このIP電話の発呼要求を受信する。
続いて、ステップS201で、受信したIP電話の発呼要求で指定される提供画像の識別子を抽出する。
続いて、ステップS202で、抽出した識別子をキーにして識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子の指す発呼先端末のアドレス情報を読み出す。
例えば、“0100”という識別子に対応付けて、発呼先端末のアドレス情報としてB子の操作するユーザ端末2-iのアドレス情報が記憶されている場合には、B子の操作するユーザ端末2-iのアドレス情報を読み出すのである。
続いて、ステップS203で、読み出したアドレス情報の指すユーザ端末2-iをIP電話の発呼先端末として、IP電話を発呼する。
このようにして、父親のC男の操作するユーザ端末2-iに、図7に示すように、娘のB子の子供のD子が運動会で演技するときに撮影された写真が表示されているときに、C男がその写真からIP電話の発呼を要求すると、B子に対してIP電話が発呼されることになる。
このようにして、本発明のIP電話発呼支援装置1によれば、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。
〔2〕第2の実施形態例
図9に、第2の実施形態例で構成される本発明のIP電話発呼支援装置1の装置構成を図示する。
第2の実施形態例では、第1の実施形態例で備える発呼先アドレス入力部106に代えて、発呼先アドレス設定部120を備えるという構成を採っている。
この発呼先アドレス設定部120は、メディア入力部100の入力した静止画や映像処理部102の生成した静止画を画像提供元ユーザに提示し、それを使って画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行する。
例えば、図10に示すように、二人の人物が写っている写真が提供画像となるときにあって、画像提供元ユーザは、左側の人物と右側の人物とに対して別々の発呼先端末のアドレス情報を設定したいと思うことがあるので、このような要求に応えるべく、発呼先アドレス設定部120は、画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域(例えば、左上位置の座標と、縦横の大きさの情報)を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行するのである。
これを受けて、対応関係登録部108は、識別子付与部103の付与した識別子と、発呼先アドレス設定部120の設定した画像領域の領域情報と、発呼先アドレス設定部120の設定した発呼先端末のアドレス情報との対応関係を、識別子・発呼先アドレス対応関係記憶部107に登録する。
これにより、識別子・発呼先アドレス対応関係記憶部107は、図11に示すように、識別子付与部103の付与した識別子と、その識別子の付与された静止画から切り出された画像領域の領域情報と、その識別子およびその領域情報に対応付けて定義される発呼先端末のアドレス情報との対応関係を記憶することになる。
第2の実施形態例の場合、ユーザ端末2-iは、IP電話の発呼を要求する場合、提供画像の識別子を指定することに加えて、ユーザからの指示に従って提供画像の中から切り出した画像領域の領域情報を指定して(単に1点を指定することで画像領域を指定することもある)、本発明のIP電話発呼支援装置1に対して、IP電話の発呼要求を送信するように処理する。
このIP電話の発呼要求を受けて、発呼先決定部110は、IP電話受信部109の受信したIP電話の発呼要求で指定される識別子および領域情報をキーにして、識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子およびその領域情報の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指す端末をIP電話の発呼先として決定する。
そして、IP電話送信部111は、発呼先決定部110の決定したユーザ端末2-iに対してIP電話を発呼することで、IP電話の発呼要求を行ったユーザ端末2-iと、そのIP電話の発呼先端末となるユーザ端末2-iとの間でIP電話を成立させる。
このようにして、第2の実施形態例に従うと、例えば、画像提供元のユーザとなる東京に住むA男が、自分の家族と横浜に住む妹のB子の家族とが写っている写真を九州に住む父親のC男に送信する場合にあって、A男の家族の画像部分に対してA男の操作するユーザ端末2-iのアドレス情報を発呼先端末のアドレス情報として設定するとともに、B子の家族の画像部分に対してB子の操作するユーザ端末2-iのアドレス情報を発呼先端末のアドレス情報として設定することで、C男がその写真に写っているA男の家族をクリックしてIP電話の発呼要求をするときにはA男に発呼され、一方、C男がその写真に写っているB子の家族をクリックしてIP電話の発呼要求をするときにはB子に発呼されることになる、ということを実現することができるようになる。
〔3〕第3の実施形態例
図12に、第3の実施形態例で構成される本発明のIP電話発呼支援装置1の装置構成を図示する。
第2の実施形態例に従う場合には、発呼先アドレス設定部120が画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける画像領域を設定するとともに、その画像領域に対して発呼先端末のアドレス情報を設定するという処理を実行することになる。
この点について、第3の実施形態例では、画像提供元ユーザとの対話処理に依らずに画像領域および発呼先端末のアドレス情報の設定を実現可能とするために、第2の実施形態例で備える発呼先アドレス設定部120に代えて、特徴量・発呼先アドレス対応関係記憶部130、特徴量抽出部131および発呼先アドレス設定部132を備えるという構成を採っている。
この特徴量・発呼先アドレス対応関係記憶部130は、画像の持つ特徴量(例えば、人物の顔などの特徴量)と、その特徴量に対して割り付けられた発呼先端末のアドレス情報との対応関係を記憶する。
例えば、過去に処理された提供画像から切り出された画像領域の持つ特徴量と、その画像領域に対して割り付けられた発呼先端末のアドレス情報とに従って、その対応関係を記憶したり、あるいは、画像提供元ユーザがその対応関係の構築用に入力してきた画像領域の持つ特徴量と、その画像領域に対して割り付けを指示してきた発呼先端末のアドレス情報とに従って、その対応関係を記憶したりする。
ここで、被写体の顔画像に着目する場合には、下記の参考文献1に記載される技術を用いて人物の顔の特徴量を抽出することが可能である。
参考文献1:増井信彦, 赤松茂, 末永康仁,"3D計測による顔画像認識の基礎検討: 画像通信システム画像応用", Vol.14, No.36(19900629), pp.7-12,映像 情報メディア学会テレビジョン学会技術報告.
特徴量・発呼先アドレス対応関係記憶部130は、画像の持つ特徴量とその特徴量に対して割り付けられた発呼先端末のアドレス情報との対応関係を記憶するものであるが、例えば、図13に示すように、画像提供元ユーザごとに、その画像提供元ユーザがどのような特徴量に対してどのような発呼先端末のアドレス情報を割り付けたかという形で、この情報を記憶するようにしてもよい。
特徴量抽出部131は、メディア入力部100の入力した静止画や映像処理部102の生成した静止画を抽出対象として、その静止画のどの画像領域にどのような特徴量を持つ画像部分があるのかということを抽出する。
発呼先アドレス設定部132は、特徴量抽出部131の抽出した特徴量をキーにして、特徴量・発呼先アドレス対応関係記憶部130の記憶情報を参照することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域(特徴量抽出部131の抽出した画像領域である)を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行する。
この構成に従って、第3の実施形態例では、画像提供元ユーザとの対話処理に依らずに、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域を設定することができるようになるとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定することができるようになる。
第3の実施形態例の場合も、第2の実施形態例と同様に、ユーザ端末2-iは、IP電話の発呼を要求する場合、提供画像の識別子を指定することに加えて、ユーザからの指示に従って提供画像の中から切り出した画像領域の領域情報を指定して(単に1点を指定することで画像領域を指定することもある)、本発明のIP電話発呼支援装置1に対して、IP電話の発呼要求を送信するように処理する。
このIP電話の発呼要求を受けて、発呼先決定部110は、IP電話受信部109の受信したIP電話の発呼要求で指定される識別子および領域情報をキーにして、識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子およびその領域情報の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指す端末をIP電話の発呼先として決定する。
そして、IP電話送信部111は、発呼先決定部110の決定したユーザ端末2-iに対してIP電話を発呼することで、IP電話の発呼要求を行ったユーザ端末2-iと、そのIP電話の発呼先端末となるユーザ端末2-iとの間でIP電話を成立させる。
このようにして、第3の実施形態例に従うと、画像提供元のユーザとなる東京に住むA男が、自分の家族と横浜に住む妹のB子の家族とが写っている写真を九州に住む父親のC男に送信する場合に、A男の家族の画像部分に対してA男の操作するユーザ端末2-iのアドレス情報が発呼先端末のアドレス情報として自動設定されるとともに、B子の家族の画像部分に対してB子の操作するユーザ端末2-iのアドレス情報が発呼先端末のアドレス情報として自動設定されることで、C男がその写真に写っているA男の家族をクリックしてIP電話の発呼要求をするときにはA男に発呼され、一方、C男がその写真に写っているB子の家族をクリックしてIP電話の発呼要求をするときにはB子に発呼されることになる、ということを実現することができるようになる。
〔4〕映像処理部102の構成および処理について
映像処理部102は、前述したように、メディア入力部100がメディア情報として映像を入力する場合に、映像記憶部101に記憶されるその映像を1枚または複数枚数の静止画に再構成するという処理を実行する。この静止画を見ると、ユーザは、その静止画の生成元となった映像を視聴することなく、その映像がどのようなものであるのかを把握することができるという特徴がある。
このようにして生成された静止画については、メディア入力部100が入力した静止画と同様に処理され、これにより、本発明のネットワーク電話発呼支援装置によれば、映像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。
次に、映像を静止画に再構成するという処理を実行する映像処理部102の構成および処理について説明する。
図14に、映像処理部102の装置構成の一例を図示する。
この図に示すように、映像処理部は、映像入力部300と、第1の素材データ記憶部301と、画像・音響特徴量検出部302と、画像・音響特徴量記憶部303と、優先グループ種別判定部304と、静止画優先順位付与部305と、素材データ記憶構造変更部306と、第2の素材データ記憶部307と、静止画再構成部308と、編集データ記憶部309と、再構成静止画出力部310とを備える。
ここで、図2では、説明の便宜上、映像処理部102についてはプログラムメモリ3000に記憶されることで説明したが、映像処理部102の備える第1の素材データ記憶部301、画像・音響特徴量記憶部303、第2の素材データ記憶部307および編集データ記憶部309については、データメモリ4000に記憶されることになる。
〔4−1〕各処理部について
〔4−1−1〕映像入力部300の処理
映像入力部300は、処理対象となる映像を入力して第1の素材データ記憶部301に格納する処理を実行する。
この処理にあたって、映像入力部300は、入力した映像から音声情報を抽出する処理を行う。例えば、avi フォーマットであれば、visual/audio 情報が格納されており、映像からaudio 情報を抽出する。なお、本発明において、音声と言う場合、音声および音楽などの楽音を指すものとする。
〔4−1−2〕画像・音響特徴量検出部302の処理
画像・音響特徴量検出部302は、第1の素材データ記憶部301に格納される映像を処理対象として、その映像の各フレーム(各静止画)の持つ画像特徴量および音響特徴量を検出して画像・音響特徴量記憶部303に格納する処理を実行する。
画像・音響特徴量検出部302は、画像特徴量については、例えば、
・画(i) : 笑顔検出
・画(ii) : カット点検出
・画(iii) : カメラワーク検出
・画(iv) : アップショット検出
という4つの画像特徴量を検出する。
これらの画像特徴量の内、“画(i) ”の笑顔の検出については、例えば、特許第3098276 号に示される“表情認識装置”の発明に基づいて実施すればよい。ここで、この発明では、顔面全体にわたって筋肉の微少な動きを計測し、その時間的変化をパタン化し、そのパタンに基づいて、感情を表す表情の認識を行っている。
また、“画(ii)”のカット点の検出については、例えば、特許第2839132 号に示される“映像カット点検出方法及び装置”の発明に基づいて実施すればよい。
また、“画(iii) ”のカメラワークの検出については、例えば、特許第3408117 号に示される「カメラ操作推定方法およびカメラ操作推定プログラムを記録した記録媒体」の発明に基づいて実施すればよい。
また、“画(iv)”のアップショットの検出(動物体の検出)については、例えば、特開2006-244074 に示される「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」の発明に基づいて実施すればよい。
一方、画像・音響特徴量検出部302は、音響特徴量については、例えば、
・音(i) : 強調状態検出
・音(ii) : 感性状態検出
・音(iii) : 音楽区間検出
という3つの音響特徴量を検出する。
これらの音響特徴量の内、“音(i) ”の強調状態の検出については、例えば、特許第3803311 号に示される「音声処理方法及びその方法を使用した装置及びそのプログラム」の発明に基づいて実施すればよい。
この特許第3803311 号に示される発明では、1つの区間(ラベル区間A)内のフレーム数をnとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でC1,C2,C3,.....,Cn であるときに、そのラベル区間Aが音声の強調状態となる確率PAempをN-gram モデルに基づいて求めるようにしているので、このときに求められる強調状態の出現確率PAemp(音声小段落ごとの強調確率PSemp、平静確率PSnrmの比や差を用いることでもよい)を使って、音の強調状態の程度(強調状態の確率値と、その確率値を閾値と比較することで求められる強調状態であるのか否かという情報)を検出することが可能である。
また、“音(ii)”感性状態の検出については、例えば、下記の参考文献2に示される発明に基づいて実施すればよい。
参考文献2:入江豪,日高浩太,宮下直也,佐藤隆,谷口行信,「個人撮影映像を対 象とした映像速覧のための“笑い”シーン検出法」,映像情報メディア 学会誌,vol.62, no.2, pp.227-233, 2008.
この参考文献2に示される発明では、韻律特徴ベクトルxt と状態et (“笑い”か“笑い以外”の2値を取る)の関係を表現する音響モデルp(xt |et )と、状態et の遷移に関する特性を単純マルコフ過程の仮定の下に表現する遷移モデルp(et |et-1 )とに基づいて、時刻tまでの韻律特徴量ベクトルの時系列Xt ={xt,xt-1,xt-2,..... }を観測した下での状態et の出現確率p(et |Xt )を求めるようにしているので、このときに求められる笑い状態の出現確率p(et |Xt )を使って、感性状態の程度(感性状態の確率値と、その確率値を閾値と比較することで求められる感性状態であるのか否かという情報)を検出することが可能である。
また、“音(iii) ”の音楽区間の検出については、例えば、特許第3475317 号に示される“映像分類方法および装置”の発明に基づいて実施すればよい。
画像・音響特徴量検出部302は、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてを検出する必要はなく、何れか一つ以上を検出すればよいが、以下の説明では、説明の便宜上、これらのすべてを検出することを想定している。
〔4−1−3〕画像・音響特徴量記憶部303のデータ構造
図15に、画像・音響特徴量記憶部303のデータ構造の一例を図示する。
画像・音響特徴量記憶部303は、図15に示すように、処理対象の映像の各フレームについて、画像・音響特徴量検出部302の検出した“画(i) ”の検出結果の情報(笑顔の有無)と、“画(ii)”の検出結果の情報(カット点の有無)と、“画(iii) ”の検出結果の情報(カメラワークの有無)と、“画(iv)”の検出結果の情報(動物体の有無)と、“音(i) ”の検出結果の情報(強調状態であるのか否かということと、その強調状態の確率値)と、“音(ii)”の検出結果の情報(感性状態であるのか否かということと、その感性状態の確率値)と、“音(iii) ”の検出結果の情報(音楽区間の有無)とを記憶する。
さらに、これらの情報に加えて、画像・音響特徴量記憶部303は、図15に示すように、処理対象の映像の各フレームがどの暫定優先グループに属するのかという情報(優先グループ種別判定部304により格納されることになる情報)と、処理対象の映像の各フレームに付与される暫定優先グループ内の優先順位の情報(静止画優先順位付与部305により格納されることになる情報)とを記憶する。
〔4−1−4〕優先グループ種別判定部304の処理
優先グループ種別判定部304は、大枠の優先順位を示す暫定優先グループの区分けを設定して、画像・音響特徴量記憶部303に格納される画像・音響特徴量検出部302の検出した画像特徴量および音響特徴量に基づいて、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定して、その判定結果の情報を画像・音響特徴量記憶部303に格納する処理を実行する。
優先グループ種別判定部304は、例えば、図16に示すように、
(1)“画(i) ”、“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームを優 先順位が最上位の暫定グループである第1暫定優先グループとし、
(2)“画(i) ”、“画(iv)”の検出結果が有りとなったフレームをその次の優先順位 の暫定グループである第2暫定優先グループとし、
(3)“画(i) ”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順 位の暫定グループである第3暫定優先グループとし、
(4)“画(i) ”の検出結果が有りとなったフレームをその次の優先順位の暫定グルー プである第4暫定優先グループとし、
(5)“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順 位の暫定グループである第5暫定優先グループとし、
(6)“画(iv)”の検出結果が有りとなったフレームを優先順位が最下位の暫定グルー プである第6暫定優先グループ
として設定して、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定し、その判定結果の情報を画像・音響特徴量記憶部303に格納するのである。
〔4−1−5〕静止画優先順位付与部305の処理
静止画優先順位付与部305は、画像・音響特徴量記憶部303に格納される画像・音響特徴量検出部302の検出した“音(i) ”の強調状態確率値および/または“音(ii)”の感性状態確率値を用いて、各暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与して、その付与結果の情報を画像・音響特徴量記憶部303に格納する処理を実行する。
この優先順位の付与にあたって、強調状態確率値と感性状態確率値の両方を用いて優先順位を付与する場合には、2つの確率値の加算値を用いて優先順位を決定したり、2つの確率値の乗算値を用いて優先順位を決定するなどの処理を行うことになるが、その際に、笑い声をより優先したいとの理由から、例えば、“音(ii)”の感性状態確率値を2倍するなどのように重み付けを施してもよい。また、これとは逆に、強調音声を重要視して、“音(i) ”の強調状態確率値を大きくするような重み付けを施してもよい。
映像処理部102は、映像から1枚以上の重要な静止画群(フレーム群)を選択して、それらの静止画を1枚の静止画に再構成することで、画像提供先のユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにすることを実現する。
これから、この優先順位の付与にあたって、静止画として見づらいフレームについては、優先順位を低くすることが望ましい。
そこで、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定されるので、“画(iii) ”によってカメラワークが生じていることが検出される画像(フレーム)については、優先順位を最低にするとか、優先順位をマイナスn(例えば、n=10などと設定しておく)にするなどの処理を施すようにしてもよい。
また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iv)”のアップショット検出により検出される動きベクトルの大きさに閾値を設定して、その閾値以上の動きを示す動物体を有する画像(フレーム)については、前述と同様に、優先順位を最低にするとか、優先順位をマイナスnにするなどの処理を施すようにしてもよい。
映像は時系列の画像群ではあるが、撮りはじめからよいシーンでないことも想定される。例えば、未編集のホームビデオなどでは、思いつきで撮影を開始することも多く見られる。
そこで、“音(i) ”の強調状態確率値や“音(ii)”の感性状態確率値の結果に対して、図17に示すような、カット点(撮影開始)からの時間に対する重み付けを施すようにしてもよい。
例えば、図17に示すパタン1では、次のカット点までの時刻に向かって重み付けが二次関数的に上昇していくものを示している。この場合に、重み付けが一次関数的に上昇していくものであってもよい。
また、図17に示すパタン2では、所定の時間tc になるまでは、重み付けが一次関数あるいは二次関数で上昇し、その後は一定値となるものを示している。ここで、tc は、例えば30秒などというように設定されることになる。
また、図17に示すパタン3では、次のカット点までの中間時刻で最大となるように、重み付けが一次関数あるいは二次関数で設定されるものを示している。
いずれのパタンを用いるのかについては画像提供元のユーザが予め設定しておけばよく、この設定が行われない場合には、例えば、カメラワークがカット点直後にない場合にはパタン2を用い、カメラワークが頻出する場合にはパタン1を用いるというように、システム側で予め設定したパタンを用いることになる。
以上に説明した静止画優先順位付与部305の処理では、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてが検出されている場合について説明したが、以上の説明から分かるように、最低でも音(i) 、音(ii)の内の1つが検出されていれば、静止画に対して優先順位を付与することは可能である.
〔4−1−6〕素材データ記憶構造変更部306の処理
素材データ記憶構造変更部306は、画像・音響特徴量記憶部303に格納される暫定優先グループ情報および優先順位情報に基づいて、第1の素材データ記憶部301に格納される映像のフレームを、暫定優先グループごとに優先順位の順番に従って並び替えて、図18に示すようなデータ構造を持つ第2の素材データ記憶部307に格納する処理を実行する。
〔4−1−7〕静止画再構成部308の処理
静止画再構成部308は、第2の素材データ記憶部307に格納される映像のフレームを処理対象として、それらのフレームの中から1枚以上の重要な静止画群(フレーム群)を選択し、それらの静止画を1枚の静止画に再構成して、それを編集データ記憶部309に格納する処理を実行する。
この重要な静止画群の選択にあたって、静止画再構成部308は、図18に示すようなデータ構造を持つ第2の素材データ記憶部307を参照して、第1暫定優先グループを最優先にして、その第1暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第1暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第2暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って静止画群を選択するように処理する。
このようにして1枚の静止画に再構成された静止画(再構成静止画)は、再構成静止画出力部310の処理に従って、編集データ記憶部309から読み出されて図2などに示す識別子付与部103に出力されることになる。
次に、静止画再構成部308の実行する再構成静止画の生成方法について説明する。ここで、ユーザ端末2-iの持つ表示解像度により規定される出力解像度がm×n(m:縦の解像度,n:横の解像度)で、第2の素材データ記憶部307から読み出すフレーム(静止画)の解像度がm’×n’(m’:縦の解像度,n’:横の解像度)であるとする。
静止画再構成部308は、
m’>m かつ、n’>n ・・・・ 式(1)
である場合には、最優先順位となる静止画をそのまま再構成静止画として生成するようにすればよい。
また、閾値thm, thnを設けて、
m’±thm >m かつ、n’±thn >n ・・・・ 式(2)
である場合には、同様に、最優先順位をなる静止画をそのまま再構成静止画として生成するようにしてもよい。ここで、thm とthn については、例えば、
thm = 0.3 ×m ,thn = 0.3 ×n
などというように予め設定しておけばよい。
式(1)および式(2)を満足しない場合には、図19〜図21に示すように、複数の画像によって静止画を再構成することで再構成静止画を生成する。
ここで、図21では、優先順位の順にどの表示域に配置するのかを決定するようにしているが、図21における時系列情報が、
優先順位3→優先順位2→優先順位1→優先順位4
である場合には、その時系列の順にどの表示域に配置するのかを決定することで、図22のように生成するようにしてもよい。
以上に説明した静止画再構成部308の処理では、式(1)や式(2)を満足する場合には、最優先順位となる静止画のみを配置することで再構成静止画を生成するという構成を採ったが、そのような構成を採らずに、優先順位の高い順番に従って所定の枚数の静止画を選択して、それらの静止画を縮小しつつ配置することで再構成静止画を生成するという構成を採るようにしてもよい。
また、以上に説明した静止画再構成部308の処理では、1枚のみの再構成静止画を生成することで説明したが、複数の再構成静止画を生成するようにしてもよい。その場合には、図19〜図22の何れかの再構成静止画を適宜、繰り返し優先順位を降順に生成していけばよく、そのようにして生成した複数の再構成静止画を編集データ記憶部309に格納することになる。
〔4−1−8〕再構成静止画出力部310の処理
再構成静止画出力部310は、編集データ記憶部309から静止画再構成部308の生成した再構成静止画を読み出して、図2などに示す識別子付与部103に対して出力するという処理を実行する。
このとき、静止画再構成部308が複数の再構成静止画を生成する場合には、再構成静止画出力部310は、それらの再構成静止画を優先順位順に順番に出力する。
〔4−2〕映像処理部102の実行する処理
図23に、図14のように構成される映像処理部102の実行するフローチャートを図示する。
次に、このフローチャートに従って、図14のように構成される映像処理部102の実行する処理について詳細に説明する。
映像処理部102は、図2などに示すメディア入力部100が映像を入力したことで再構成静止画の生成要求があると、図23のフローチャートに示すように、まず最初に、ステップS300で、図2などに示す映像記憶部101から処理対象の映像を入力する。
続いて、ステップS301で、入力映像の全フレーム(全静止画)について処理を行ったのか否かを判断して、全フレームについて処理を行っていないことを判断するときには、ステップS302に進んで、先頭フレームからの順番に従って未処理のフレームを1つ選択する。
続いて、ステップS303で、選択したフレームの持つ画像特徴量および音響特徴量を検出する。
例えば、画像特徴量として、前述した“画(i) ”の笑顔検出、“画(ii)”のカット点検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出という4つの画像特徴量を検出するとともに、音響特徴量として、前述した“音(i) ”の強調状態検出、“音(ii)”の感性状態検出、“音(iii) ”の音楽区間検出という3つの音響特徴量を検出するのである。
続いて、ステップS304で、選択したフレームについてのカット点からの時間経過量を測定して(“画(ii)”のカット点検出によりカット点となったフレームが検出されているので、そのフレームからの時間経過量を測定する)、その測定した時間経過量に基づいて、ステップS303で検出した特徴量に含まれる値属性特徴量(検出結果が特徴量の程度を示す値となる特徴量)を補正する。
ステップS303で検出した特徴量に含まれる値属性特徴量としては、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という2つの値属性特徴量があるので、これらの値属性特徴量を、例えば図17に示すパタン2の重み付け曲線に従って重み付けすることで、それらの値属性特徴量を補正するのである。
続いて、ステップS305で、ステップS303で検出した特徴量に含まれる有無属性特徴量(検出結果が特徴量の有無となる特徴量)に基づいて、選択したフレームが図16に示す6つの暫定優先グループの内のどの暫定優先グループに属するのかを判定して、ステップS301の処理に戻る。
ステップS303では、“画(ii)”のカット点検出を除いた有無属性特徴量として、“画(i) ”の笑顔検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出、“音(iii) ”の音楽区間検出という4つの有無属性特徴量を検出しているので、これらの有無属性特徴量の検出結果に基づいて、図16に示す判定基準に基づいて、選択したフレームがどの暫定優先グループに属するのかを判定して、ステップS301の処理に戻るのである。
このようにしてステップS302〜ステップS305の処理を繰り返すことで、入力映像の全フレームについて、画像特徴量および音響特徴量を検出・補正するとともに、どの暫定優先グループに属するのかを判定すると、ステップS301で、入力映像の全フレームについてこの処理を行ったことを判断することになるので、このことを判断するときには、ステップS306に進んで、検出した値属性特徴量に基づいて、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与する。
例えば、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という2つの確率値の加算値を求めて、その加算値の大小を比較することで、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与するのである。
続いて、ステップS307で、静止画として見づらいものとなるフレームを特定して、その特定したフレームの優先順位を低いものに変更する。
前述したように、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定され、また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iii) ”のカメラワーク検出により著しく大きなカメラワークが生じていることが検出されるフレームや、“画(iv)”のアップショット検出により極端に大きな動きを示す動物体の存在が検出されるフレームについては、その優先順位を低いものに変更するのである。
続いて、ステップS308で、出力解像度とフレーム(静止画)の解像度とに基づいて、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定する。
例えば、出力解像度とフレームの解像度との間に、前述の式(1)や式(2)の関係が成立するのか否かを判断することで、再構成静止画を構成する静止画を1枚にするのかそれ以上の枚数にするのかを決定したり、あるいは、複数の静止画を縮小して再構成静止画を生成するという構成を採る場合には、画像提供元のユーザとの対話処理などに従って、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定したりするのである。
続いて、ステップS309で、再構成静止画を構成する静止画を1枚にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置する1枚の静止画(フレーム)を選択し、また、再構成静止画を構成する静止画を所定の枚数にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置するその所定の枚数の静止画(フレーム)を選択する。
すなわち、図18に示すようなデータ構造を持つ第2の素材データ記憶部307を参照して、第1暫定優先グループを最優先にして、その第1暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第1暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第2暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って、再構成静止画に配置する静止画を選択するのである。
続いて、ステップS310で、画像提供元のユーザとの対話処理などに従って、再構成静止画に配置する静止画の配置方法を決定する。
すなわち、複数の静止画を再構成静止画に配置することで再構成静止画を生成する場合に、図21に示すような優先順位の順にどの表示域に配置するのかを決定するという配置方法と、図22に示すような時系列の順にどの表示域に配置するのかを決定するという配置方法という2種類の配置方法があるので、ユーザとの対話処理などに従って、その内のどちらの配置方法を用いるのかを決定するのである。
続いて、ステップS311で、ステップS309で選択した静止画を、予め決定されている配置位置に、ステップS310で決定した配置方法に従って配置することで、複数の再構成静止画を生成する。ここで、配置位置については、再構成静止画を構成する静止画の枚数に応じて予め決定されているものとする。また、生成する再構成静止画の枚数についても予め決定されているものとする。
続いて、ステップS312で、生成した再構成静止画を、図2などに示す識別子付与部103に出力して、処理を終了する。
このようにして、映像処理部102は、図2などに示すメディア入力部100が映像を入力したことで再構成静止画の生成要求があると、図23のフローチャートに従って、その映像から1枚以上の重要な静止画群を選択し、それらを1枚の静止画に再構成して図2などに示す識別子付与部103に出力することを実行するのである。
〔5〕ユーザ端末2-iの構成
図24に、本発明のIP電話発呼支援装置1により提供される提供画像を受信するユーザ端末2-iの装置構成を図示する。
この図に示すように、本発明のIP電話発呼支援装置1により提供される提供画像を受信するユーザ端末2-iは、本発明のIP電話発呼支援装置1から識別子とともに送信されてくる提供画像を受信する提供画像受信部200と、提供画像受信部200の受信した提供画像を記憶する提供画像記憶部201と、提供画像記憶部201に記憶される提供画像をディスプレイ203に表示する提供画像表示制御部202と、IP電話の送受信処理を実行するIP電話送受信部204と、IP電話送受信部204に展開されて、本発明のIP電話発呼支援装置1に対して、提供画像の識別子を指定してIP電話の発呼を要求するIP電話発呼部205とを備える。
このIP電話発呼部205は、ユーザ端末2-iがIP電話の発呼側となるときに動作するものであり、提供画像表示制御部202による提供画像の表示に応答して、ユーザからIP電話の発呼要求があるときに、提供画像記憶部201からその提供画像の識別子を読み出して、本発明のIP電話発呼支援装置1に対して、その読み出した識別子を指定してIP電話の発呼を要求する処理を実行する。
この構成に従って、ユーザ端末2-iは、本発明のIP電話発呼支援装置1により提供される提供画像を受信すると、その提供画像をディスプレイ203に表示して、その表示に応答してユーザからIP電話の発呼要求があると、本発明のIP電話発呼支援装置1に対して、その提供画像の識別子を指定してIP電話の発呼を要求する。
このIP電話の発呼要求を受けて、例えば、図2のように構成される本発明のIP電話発呼支援装置1は、前述したように、その提供画像に対応付けて設定された発呼先端末のアドレス情報を特定して、それに基づいて、発呼先端末との間でIP電話を成立させるように処理することになる。