JP2010268252A

JP2010268252A - ネットワーク電話発呼支援装置およびネットワーク電話発呼支援プログラム

Info

Publication number: JP2010268252A
Application number: JP2009118136A
Authority: JP
Inventors: Kota Hidaka; 浩太日高; Akira Kojima; 明小島; Takeshi Irie; 豪入江
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-05-15
Filing date: 2009-05-15
Publication date: 2010-11-25
Anticipated expiration: 2029-05-15
Also published as: JP5204034B2

Abstract

【課題】本発明は、画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることを実現する新たな技術の提供を目的とする。
【解決手段】画像提供元のユーザから、画像提供先のユーザ端末のアドレス情報と提供画像とを入力すると、その提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する。続いて、提供画像に対して識別子を付与して、その識別子と設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録してから、提供画像をそれに付与した識別子とともに画像提供先ユーザに送信する。この送信に応答して、提供画像の識別子を指定してネットワーク電話の発呼要求があると、その発呼要求で指定される識別子をキーにして記憶手段の記憶情報を参照することで、発呼先ユーザ端末のアドレス情報を取得して、その取得したアドレス情報の指すユーザ端末に対してネットワーク電話を発呼する。
【選択図】図２

Description

本発明は、電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するネットワーク電話の発呼を支援するネットワーク電話発呼支援装置と、そのネットワーク電話発呼支援装置の実現に用いられるネットワーク電話発呼支援プログラムとに関し、特に、画像からネットワーク電話を発呼できるようにするネットワーク電話発呼支援装置と、そのネットワーク電話発呼支援装置の実現に用いられるネットワーク電話発呼支援プログラムとに関する。

最近では、ＶｏＩＰ(Voice over IP：電話音声をＩＰパケットに変換する技術）を利用したＩＰ電話やＩＰを経由したテレビ電話により、ユーザは電話コミュニケーションを享受することが可能となっている（例えば、非特許文献１参照）。

一方、デジタルカメラの普及に伴って、これまでに用いられている写真立てに換わるものとして、電子的な写真を表示する電子写真立てが用いられるようになりつつある（例えば、非特許文献２参照）。

この電子写真立ては、デジタルカメラなどにより撮影された電子的な写真を表示するものであり、今後、広く普及することが予想される商品の１つである。

福田浩司, 安藤大, 林泰仁, 小谷野浩, "国際標準に準拠したインターネットテレビ電話構成法の検討", 情報処理学会研究報告, オーディオビジュアル複合情報処理, vol.98, num.111, pp.9-14, 1998. 新井浩一, 安藤進夫, "教育に使用できるデジタルフォトフレームの開発", 第４９回日本歯科理工学会学術講演会, vol.26, num.2, p.118, 2007．

このように、最近では、ＩＰ電話が普及しつつあるとともに、電子写真立てが普及しつつある。

しかるに、この２つの技術には、技術的にみて接点がないばかりか、利用の観点からみても共通性がなく、これから、従来技術では、電子写真立てから電話コミュニケーションを実現するという技術は提案されていないというのが実情である。

しかしながら、電子写真立てに表示されている写真を見るときに、その写真に写っている人物に電話をかけたいと思うことがあることは誰しもが経験することである。

このような場合、従来技術に従っていると、結局のところ、電話をかけたいと思う人は、携帯電話や固定電話などを使って、写真に写っている人物に対して電話をかけることになる。

しかし、これでは手間もかかるし、思い立ったときに電話コミュニケーションが実現できないという問題もある。

本発明はかかる事情に鑑みてなされたものであって、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることを実現する新たなネットワーク電話発呼支援技術を提供することを目的とする。

この目的を達成するために、本発明のネットワーク電話発呼支援装置は、電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するという処理を行うネットワーク電話の発呼を支援するために、（１）画像提供元のユーザから、画像提供先のユーザの操作する端末のアドレス情報と、その画像提供先ユーザに提供する１枚または複数枚数の提供画像とを入力する入力手段と、（２）入力手段の入力した提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する設定手段と、（３）入力手段の入力した提供画像に対して識別子を付与して、その識別子と設定手段の設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録する登録手段と、（４）入力手段の入力した画像提供先ユーザ端末のアドレス情報に従って、入力手段の入力した提供画像をそれに付与した識別子とともに画像提供先ユーザに送信する送信手段と、（５）送信手段の実行する提供画像の送信に応答して、提供画像の識別子を指定してネットワーク電話の発呼要求があるときに、その発呼要求を受信する受信手段と、（６）受信手段の受信した発呼要求で指定される識別子をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得する取得手段と、（７）取得手段の取得したアドレス情報の指すユーザ端末に対して発呼する発呼手段とを備えるように構成する。

このように構成されるときにあって、提供画像として映像が入力された場合に、その映像を１枚または複数枚数の静止画に再構成することで画像提供先ユーザに提供する最終的な提供画像を生成する生成手段を備えることがある。

また、各端末がネットワーク電話で発生するエコーをキャンセルするためのエコーキャンセラを備えるようにしなくても済むようにするために、ネットワーク電話で発生するエコーをキャンセルするエコーキャンセラ手段を備えることがある。

また、設定手段は、提供画像から切り出される複数の画像領域に対して、それぞれ異なる発呼先ユーザ端末のアドレス情報を設定することがあり、この場合には、登録手段は、提供画像の識別子およびそれらの画像領域の領域情報とそれらの画像領域に対して設定された発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録し、受信手段は、提供画像の識別子および画像領域の領域情報を指定するネットワーク電話の発呼要求を受信し、取得手段は、受信手段の受信した発呼要求で指定される提供画像の識別子および画像領域の領域情報をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得することになる。

以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明のネットワーク電話発呼支援装置では、画像提供元のユーザから、画像提供先のユーザの操作する端末のアドレス情報と、その画像提供先ユーザに提供する１枚または複数枚数の提供画像とを入力すると、その提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する。

この設定処理は、例えば、（ｉ）画像提供元のユーザから、発呼先ユーザ端末のアドレス情報を入力して、それを提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することで行ったり、（ii）画像の持つ特徴量（例えば顔の特徴量）とその特徴量に割り付けられた発呼先ユーザ端末のアドレス情報との対応関係を記憶する第２の記憶手段を備える場合には、提供画像の持つ特徴量（例えば顔の特徴量）を抽出して、その抽出した特徴量をキーにして第２の記憶手段の記憶情報を参照したりすることで、提供画像に割り付ける発呼先ユーザ端末のアドレス情報を特定して、それを提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することで行う。

続いて、提供画像に対して識別子を付与して、その識別子と設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録してから、入力した画像提供先ユーザ端末のアドレス情報に従って、提供画像をそれに付与した識別子とともに画像提供先ユーザに送信する。

この提供画像の送信を受けて、画像提供先のユーザは、自分の操作する端末に提供画像が表示されることになるので、その提供画像に写っている人物に電話をかけたいと思う場合には、例えば、その提供画像をクリックすることなどにより選択してネットワーク電話の発呼を要求し、これを受けて、画像提供先のユーザの操作する端末は、本発明のネットワーク電話発呼支援装置に対して、その提供画像の識別子を指定してネットワーク電話の発呼を要求する。

本発明のネットワーク電話発呼支援装置は、この発呼要求を受信すると、その受信した発呼要求で指定される識別子をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得して、その取得したアドレス情報の指すユーザ端末に対してネットワーク電話を発呼する。

このようにして、本発明のネットワーク電話発呼支援装置によれば、画像提供先のユーザは、自分の操作する端末に表示される提供画像を選択してネットワーク電話の発呼を要求するだけで、その提供画像に写っている人物に対してネットワーク電話をかけることができるようになる。

この構成を採るときに、提供画像に複数の人物が写っている場合には、それぞれの人物に対して別々の発呼先ユーザ端末のアドレス情報を設定するようにすれば、画像提供先のユーザは、１枚の提供画像から、Ａさんにネットワーク電話をかけたり、Ｂさんにネットワーク電話をかけたりというようなことを実行できることになる。

そこで、本発明のネットワーク電話発呼支援装置は、提供画像から切り出される複数の画像領域に対して、それぞれ異なる発呼先ユーザ端末のアドレス情報を設定するようにして、提供画像の識別子およびそれらの画像領域の領域情報とそれらの画像領域に対して設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録するようにする。

この構成を採る場合には、画像提供先のユーザは、提供画像に写っているある人物に電話をかけたいと思う場合には、例えば、その人物をクリックすることなどにより選択してネットワーク電話の発呼を要求し、これを受けて、画像提供先のユーザの操作する端末は、本発明のネットワーク電話発呼支援装置に対して、その提供画像の識別子およびその人物の写っている画像領域の領域情報を指定してネットワーク電話の発呼を要求する。

本発明のネットワーク電話発呼支援装置は、この発呼要求を受信すると、その受信した発呼要求で指定される提供画像の識別子および画像領域の領域情報をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得して、その取得したアドレス情報の指すユーザ端末に対してネットワーク電話を発呼する。

このようにして、本発明のネットワーク電話発呼支援装置によれば、画像提供先のユーザは、自分の操作する端末に表示される提供画像に写っている人物の中から電話をかけたいと思う人物を選択してネットワーク電話の発呼を要求するだけで、その人物に対してネットワーク電話をかけることができるようになる。

以上に説明したように、本発明によれば、ユーザは、自分の操作する端末に表示される画像を選択してネットワーク電話の発呼を要求するだけで、その画像に写っている人物に対してネットワーク電話をかけることができるようになる。そして、ユーザは、自分の操作する端末に表示される画像に写っている電話をかけたいと思う人物を選択してネットワーク電話の発呼を要求するだけで、その人物に対してネットワーク電話をかけることができるようになる。

このようにして、本発明によれば、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。

本発明の適用されるＩＰ電話システムのシステム構成図である。本発明のＩＰ電話発呼支援装置の装置構成図である。本発明のＩＰ電話発呼支援装置のハードウェア構成図である。識別子・発呼先アドレス対応関係記憶部のデータ構造の説明図である。本発明のＩＰ電話発呼支援装置の実行するフローチャートである。本発明のＩＰ電話発呼支援装置の実行するフローチャートである。ユーザ端末の表示する提供画像の説明図である。ユーザ端末の説明図である。本発明のＩＰ電話発呼支援装置の装置構成図である。発呼先端末のアドレス情報の設定処理の説明図である。識別子・発呼先アドレス対応関係記憶部のデータ構造の説明図である。本発明のＩＰ電話発呼支援装置の装置構成図である。特徴量・発呼先アドレス対応関係記憶部のデータ構造の説明図である。映像処理部の装置構成図である。画像・音響特徴量記憶部のデータ構造の説明図である。優先グループ種別判定部の判定する暫定優先グループの説明図である。強調状態確率値や感性状態確率値に対しての重み付けの説明図である。第２の素材データ記憶部のデータ構造の説明図である。再構成静止画の説明図である。再構成静止画の説明図である。再構成静止画の説明図である。再構成静止画の説明図である。映像処理部の実行するフローチャートである。ユーザ端末の装置構成図である。

以下、実施の形態に従って本発明を詳細に説明する。

図１に、本発明の適用されるＩＰ電話システムのシステム構成を図示する。

この図に示すように、本発明の適用されるＩＰ電話システムは、本発明を具備するＩＰ電話発呼支援装置１とＩＰ電話機能および画像表示機能を持つ複数のユーザ端末２-i（ｉ＝１〜ｎ）とがＩＰネットワーク３を介して接続されることで構成される。

〔１〕第１の実施形態例
図２に、第１の実施形態例で構成される本発明のＩＰ電話発呼支援装置１の装置構成を図示する。

本発明のＩＰ電話発呼支援装置１は、本実施形態例に従ってＩＰ電話の発呼を支援する処理を実行する場合には、図２に示すように、メディア入力部１００と、映像記憶部１０１と、映像処理部１０２と、識別子付与部１０３と、送信メディア記憶部１０４と、メディア送信部１０５と、発呼先アドレス入力部１０６と、識別子・発呼先アドレス対応関係記憶部１０７と、対応関係登録部１０８と、ＩＰ電話受信部１０９と、発呼先決定部１１０と、ＩＰ電話送信部１１１とを備える。

ここで、図３に示すように、本発明のＩＰ電話発呼支援装置１は、ハードウェア構成的には、ＣＰＵ１０００と、バス２０００と、バス２０００を介してＣＰＵ１０００に接続されるプログラムメモリ３０００と、バス２０００を介してＣＰＵ１０００に接続されるデータメモリ４０００と、バス２０００を介してＣＰＵ１０００に接続される通信インタフェース５０００とから構成される。

この構成を採るときに、図２に示すメディア入力部１００、映像処理部１０２、識別子付与部１０３、メディア送信部１０５、発呼先アドレス入力部１０６、対応関係登録部１０８、ＩＰ電話受信部１０９、発呼先決定部１１０およびＩＰ電話送信部１１１についてはプログラムメモリ３０００に記憶される。また、図２に示す映像記憶部１０１、送信メディア記憶部１０４および識別子・発呼先アドレス対応関係記憶部１０７についてはデータメモリ４０００に記憶される。

また、通信インタフェース５０００は、ＣＰＵ１０００の制御の下、インターネット上のサーバおよびインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、ＴＣＰ／ＩＰ(Transmission Control Protocol/Internet Protocol) が使用される。

次に、本発明のＩＰ電話発呼支援装置１の備える各処理部について説明する。

メディア入力部１００は、画像提供元のユーザから送信されてくる画像提供先のユーザに提供するメディア情報（静止画や映像で構成され、音響データを含むこともある）を入力するとともに、そのメディア情報に対応付けて送信されてくる画像提供先端末のアドレス情報を入力する。

映像記憶部１０１は、メディア入力部１００がメディア情報として映像を入力する場合に、メディア入力部１００から、その映像および画像提供先端末のアドレス情報を受け取って記憶する。

映像処理部１０２は、映像記憶部１０１に記憶される映像を１枚または複数枚数の静止画に再構成する。なお、このときに映像処理部１０２が実行することになる処理については後述する。

識別子付与部１０３は、メディア入力部１００がメディア情報として静止画を入力した場合には、メディア入力部１００から、その静止画とその静止画に対応付けて入力されてきた画像提供先端末のアドレス情報とを受け取り、その静止画に対して、例えば整数値を１つずつインクリメントする形で識別子を付与する。一方、メディア入力部１００がメディア情報として映像を入力した場合には、映像処理部１０２から、その映像から生成された静止画とその映像に対応付けて入力されてきた画像提供先端末のアドレス情報とを受け取り、その静止画に対して、例えば整数値を１つずつインクリメントする形で識別子を付与する。

送信メディア記憶部１０４は、識別子付与部１０３の付与した識別子に対応付けて、その識別子の付与された静止画（ユーザ端末２-iへの提供画像となるもの）と、その静止画に対応付けて入力されてきた画像提供先端末のアドレス情報とを記憶する。

メディア送信部１０５は、送信メディア記憶部１０４に記憶される提供画像となる静止画を、その静止画に付与された識別子とともに、その静止画に対応付けて入力されてきた画像提供先端末アドレス情報の指すユーザ端末２-iに送信する。

発呼先アドレス入力部１０６は、画像提供元のユーザから送信されてくる、メディア入力部１００が入力したメディア情報（メディア送信部１０５が送信することになる静止画）に対応付けて定義される発呼先端末のアドレス情報を入力する。

識別子・発呼先アドレス対応関係記憶部１０７は、図４に示すようなデータ構造を有して、識別子付与部１０３が付与した識別子と、その識別子の付与された静止画（ユーザ端末２-iへの提供画像となるもの）に対応付けて定義される発呼先端末のアドレス情報との対応関係を記憶する。

対応関係登録部１０８は、識別子付与部１０３が付与した識別子と、発呼先アドレス入力部１０６が入力した発呼先端末のアドレス情報との対応関係を、図４に示すようなデータ構造を持つ識別子・発呼先アドレス対応関係記憶部１０７に登録する。

ＩＰ電話受信部１０９は、メディア送信部１０５による静止画の送信に応答して、いずれかのユーザ端末２-iから、識別子付与部１０３の付与した識別子を指定してＩＰ電話の発呼要求があると、それを受信する。

発呼先決定部１１０は、ＩＰ電話受信部１０９の受信したＩＰ電話の発呼要求で指定される識別子をキーにして、識別子・発呼先アドレス対応関係記憶部１０７の記憶情報を参照することで、その識別子の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指すユーザ端末２-iをＩＰ電話の発呼先として決定する。

ＩＰ電話送信部１１１は、発呼先決定部１１０の決定したユーザ端末２-iに対してＩＰ電話を発呼することで、ＩＰ電話の発呼要求を行ったユーザ端末２-iと、そのＩＰ電話の発呼先端末となるユーザ端末２-iとの間でＩＰ電話を成立させる。

図５および図６に、このように構成される本発明のＩＰ電話発呼支援装置１の実行するフローチャートの一例を図示する。

次に、このフローチャートに従って、本発明のＩＰ電話発呼支援装置１の実行する処理について説明する。

本発明のＩＰ電話発呼支援装置１は、ユーザ端末２-iを操作する画像提供元のユーザから、画像提供先端末のアドレス情報を指定して画像の提供要求があると、図５のフローチャートに示すように、まず最初に、ステップＳ１００で、画像提供元のユーザから、提供画像と画像提供先端末のアドレス情報とを入力する。

例えば、画像提供元のユーザとなる東京に住むＡ男が、横浜に住む妹のＢ子の家族が写っている写真を九州に住む父親のＣ男に見せたいと思うときには、その写真とＣ男の操作するユーザ端末２-iのアドレス情報とを送信してくるので、提供画像となるその写真と、画像提供先端末のアドレス情報となるＣ男の操作するユーザ端末２-iのアドレス情報とを入力するのである。

続いて、ステップＳ１０１で、入力した提供画像が映像であるのか静止画であるのかを判断して、入力した提供画像が映像であることを判断するときには、ステップＳ１０２に進んで、後述する処理を実行することで、入力した映像を静止画に再構成して、それを提供画像として設定する。一方、ステップＳ１０１の判断処理で、入力した提供画像が静止画であることを判断するときには、このステップＳ１０２の処理を省略する。

続いて、ステップＳ１０３で、提供画像に対して、例えば整数値を１つずつインクリメントする形で識別子を付与する。

例えば、上記のようなＢ子の家族が写っている写真に対して、例えば“０１００”というような識別子を付与するのである。

続いて、ステップＳ１０４で、画像提供元のユーザから、提供画像に対応付けて定義される発呼先端末のアドレス情報を入力する。

例えば、画像提供元のユーザとなるＡ男は、上記のような写真を父親のＣ男に送信する場合にあって、Ｃ男がその写真をクリックしてＩＰ電話の発呼要求をするときに、その発呼先をＢ子としようと考える場合には、Ｂ子の操作するユーザ端末２-iのアドレス情報を発呼先端末のアドレス情報として入力してくるので、そのアドレス情報を入力するのである。

続いて、ステップＳ１０５で、ステップＳ１０３で付与した識別子とステップＳ１０４で入力した発呼先端末のアドレス情報との対応関係を、図４に示すようなデータ構造を持つ識別子・発呼先アドレス対応関係記憶部１０７に登録する。

例えば、上記のような写真に対して、ステップＳ１０３において、“０１００”という識別子を付与するとともに、ステップＳ１０４において、発呼先端末のアドレス情報としてＢ子の操作するユーザ端末２-iのアドレス情報を入力する場合には、この２つの対応関係を識別子・発呼先アドレス対応関係記憶部１０７に登録するのである。

続いて、ステップＳ１０６で、ステップＳ１００で入力した画像提供先端末のアドレス情報の指すユーザ端末２-iに対して、提供画像とそれに付与した識別子とを送信して、処理を終了する。

例えば、ステップＳ１００において、Ａ男が妹のＢ子の家族が写っている写真を提供画像として入力するとともに、画像提供先端末のアドレス情報として父親のＣ男の操作するユーザ端末２-iのアドレス情報を入力する場合には、そのアドレス情報の指すＣ男の操作するユーザ端末２-iに対して、その写真とその写真に付与した識別子（上記の例で説明するならば“０１００”）とを送信するのである。

この提供画像の送信を受けて、この提供画像を受け取るユーザ端末２-iは、図７に示すように、送信されてきた提供画像を表示エリア２０に表示するように処理する。

このとき、ユーザ端末２-iは、本発明のＩＰ電話発呼支援装置１から複数枚数の提供画像を受け取るときには、例えば、それらの提供画像を順番に選択して表示エリア２０に表示するなどの処理を行うことになる。

また、例えば、新着の提供画像である場合には、図中の２１に示すように、「Ｎｅｗ！」というような新着を知らせるテキストを表示するようにしたり、図中の２２に示すように、提供画像を際立たせるような強調表示を施すようにしてもよい。

なお、図７では、父親のＣ男に、息子のＡ男から、娘のＢ子の子供のＤ子が運動会で演技するときに撮影された写真が送られてきたことを想定している。

この提供画像の表示を受けて、ユーザ端末２-iを操作するユーザは、その表示される提供画像を指先でタッチすることなどにより、ＩＰ電話の発呼を要求する。

このとき、図８に示すように、ユーザ端末２-iにカメラ２３やマイク２４が装着されている場合には、画像や音声をトリガーにしてＩＰ電話の発呼を実施するようにしてもよい。例えば、カメラ２３に手を広げた状態を向けると発呼要求と判断して発呼するようにしてもよく、また、マイク２４に“電話”と発声することにより発呼と判断して発呼するようにしてもよい。

このＩＰ電話の発呼要求を受けて、ユーザ端末２-iは、本発明のＩＰ電話発呼支援装置１に対して、その発呼要求の起点となった提供画像の識別子を指定して、ＩＰ電話の発呼要求を送信する。

上記の例で説明するならば、識別子“０１００”を指定して、ＩＰ電話の発呼要求を送信するのである。

このＩＰ電話の発呼要求があると、本発明のＩＰ電話発呼支援装置１は、図６のフローチャートに示すように、まず最初に、ステップＳ２００で、このＩＰ電話の発呼要求を受信する。

続いて、ステップＳ２０１で、受信したＩＰ電話の発呼要求で指定される提供画像の識別子を抽出する。

続いて、ステップＳ２０２で、抽出した識別子をキーにして識別子・発呼先アドレス対応関係記憶部１０７の記憶情報を参照することで、その識別子の指す発呼先端末のアドレス情報を読み出す。

例えば、“０１００”という識別子に対応付けて、発呼先端末のアドレス情報としてＢ子の操作するユーザ端末２-iのアドレス情報が記憶されている場合には、Ｂ子の操作するユーザ端末２-iのアドレス情報を読み出すのである。

続いて、ステップＳ２０３で、読み出したアドレス情報の指すユーザ端末２-iをＩＰ電話の発呼先端末として、ＩＰ電話を発呼する。

このようにして、父親のＣ男の操作するユーザ端末２-iに、図７に示すように、娘のＢ子の子供のＤ子が運動会で演技するときに撮影された写真が表示されているときに、Ｃ男がその写真からＩＰ電話の発呼を要求すると、Ｂ子に対してＩＰ電話が発呼されることになる。

このようにして、本発明のＩＰ電話発呼支援装置１によれば、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。

〔２〕第２の実施形態例
図９に、第２の実施形態例で構成される本発明のＩＰ電話発呼支援装置１の装置構成を図示する。

第２の実施形態例では、第１の実施形態例で備える発呼先アドレス入力部１０６に代えて、発呼先アドレス設定部１２０を備えるという構成を採っている。

この発呼先アドレス設定部１２０は、メディア入力部１００の入力した静止画や映像処理部１０２の生成した静止画を画像提供元ユーザに提示し、それを使って画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行する。

例えば、図１０に示すように、二人の人物が写っている写真が提供画像となるときにあって、画像提供元ユーザは、左側の人物と右側の人物とに対して別々の発呼先端末のアドレス情報を設定したいと思うことがあるので、このような要求に応えるべく、発呼先アドレス設定部１２０は、画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域（例えば、左上位置の座標と、縦横の大きさの情報）を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行するのである。

これを受けて、対応関係登録部１０８は、識別子付与部１０３の付与した識別子と、発呼先アドレス設定部１２０の設定した画像領域の領域情報と、発呼先アドレス設定部１２０の設定した発呼先端末のアドレス情報との対応関係を、識別子・発呼先アドレス対応関係記憶部１０７に登録する。

これにより、識別子・発呼先アドレス対応関係記憶部１０７は、図１１に示すように、識別子付与部１０３の付与した識別子と、その識別子の付与された静止画から切り出された画像領域の領域情報と、その識別子およびその領域情報に対応付けて定義される発呼先端末のアドレス情報との対応関係を記憶することになる。

第２の実施形態例の場合、ユーザ端末２-iは、ＩＰ電話の発呼を要求する場合、提供画像の識別子を指定することに加えて、ユーザからの指示に従って提供画像の中から切り出した画像領域の領域情報を指定して（単に１点を指定することで画像領域を指定することもある）、本発明のＩＰ電話発呼支援装置１に対して、ＩＰ電話の発呼要求を送信するように処理する。

このＩＰ電話の発呼要求を受けて、発呼先決定部１１０は、ＩＰ電話受信部１０９の受信したＩＰ電話の発呼要求で指定される識別子および領域情報をキーにして、識別子・発呼先アドレス対応関係記憶部１０７の記憶情報を参照することで、その識別子およびその領域情報の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指す端末をＩＰ電話の発呼先として決定する。

そして、ＩＰ電話送信部１１１は、発呼先決定部１１０の決定したユーザ端末２-iに対してＩＰ電話を発呼することで、ＩＰ電話の発呼要求を行ったユーザ端末２-iと、そのＩＰ電話の発呼先端末となるユーザ端末２-iとの間でＩＰ電話を成立させる。

このようにして、第２の実施形態例に従うと、例えば、画像提供元のユーザとなる東京に住むＡ男が、自分の家族と横浜に住む妹のＢ子の家族とが写っている写真を九州に住む父親のＣ男に送信する場合にあって、Ａ男の家族の画像部分に対してＡ男の操作するユーザ端末２-iのアドレス情報を発呼先端末のアドレス情報として設定するとともに、Ｂ子の家族の画像部分に対してＢ子の操作するユーザ端末２-iのアドレス情報を発呼先端末のアドレス情報として設定することで、Ｃ男がその写真に写っているＡ男の家族をクリックしてＩＰ電話の発呼要求をするときにはＡ男に発呼され、一方、Ｃ男がその写真に写っているＢ子の家族をクリックしてＩＰ電話の発呼要求をするときにはＢ子に発呼されることになる、ということを実現することができるようになる。

〔３〕第３の実施形態例
図１２に、第３の実施形態例で構成される本発明のＩＰ電話発呼支援装置１の装置構成を図示する。

第２の実施形態例に従う場合には、発呼先アドレス設定部１２０が画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける画像領域を設定するとともに、その画像領域に対して発呼先端末のアドレス情報を設定するという処理を実行することになる。

この点について、第３の実施形態例では、画像提供元ユーザとの対話処理に依らずに画像領域および発呼先端末のアドレス情報の設定を実現可能とするために、第２の実施形態例で備える発呼先アドレス設定部１２０に代えて、特徴量・発呼先アドレス対応関係記憶部１３０、特徴量抽出部１３１および発呼先アドレス設定部１３２を備えるという構成を採っている。

この特徴量・発呼先アドレス対応関係記憶部１３０は、画像の持つ特徴量（例えば、人物の顔などの特徴量）と、その特徴量に対して割り付けられた発呼先端末のアドレス情報との対応関係を記憶する。

例えば、過去に処理された提供画像から切り出された画像領域の持つ特徴量と、その画像領域に対して割り付けられた発呼先端末のアドレス情報とに従って、その対応関係を記憶したり、あるいは、画像提供元ユーザがその対応関係の構築用に入力してきた画像領域の持つ特徴量と、その画像領域に対して割り付けを指示してきた発呼先端末のアドレス情報とに従って、その対応関係を記憶したりする。

ここで、被写体の顔画像に着目する場合には、下記の参考文献１に記載される技術を用いて人物の顔の特徴量を抽出することが可能である。

参考文献１：増井信彦, 赤松茂, 末永康仁,"３Ｄ計測による顔画像認識の基礎検討：画像通信システム画像応用", Vol.14, No.36(19900629), pp.7-12,映像情報メディア学会テレビジョン学会技術報告．
特徴量・発呼先アドレス対応関係記憶部１３０は、画像の持つ特徴量とその特徴量に対して割り付けられた発呼先端末のアドレス情報との対応関係を記憶するものであるが、例えば、図１３に示すように、画像提供元ユーザごとに、その画像提供元ユーザがどのような特徴量に対してどのような発呼先端末のアドレス情報を割り付けたかという形で、この情報を記憶するようにしてもよい。

特徴量抽出部１３１は、メディア入力部１００の入力した静止画や映像処理部１０２の生成した静止画を抽出対象として、その静止画のどの画像領域にどのような特徴量を持つ画像部分があるのかということを抽出する。

発呼先アドレス設定部１３２は、特徴量抽出部１３１の抽出した特徴量をキーにして、特徴量・発呼先アドレス対応関係記憶部１３０の記憶情報を参照することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域（特徴量抽出部１３１の抽出した画像領域である）を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行する。

この構成に従って、第３の実施形態例では、画像提供元ユーザとの対話処理に依らずに、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域を設定することができるようになるとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定することができるようになる。

第３の実施形態例の場合も、第２の実施形態例と同様に、ユーザ端末２-iは、ＩＰ電話の発呼を要求する場合、提供画像の識別子を指定することに加えて、ユーザからの指示に従って提供画像の中から切り出した画像領域の領域情報を指定して（単に１点を指定することで画像領域を指定することもある）、本発明のＩＰ電話発呼支援装置１に対して、ＩＰ電話の発呼要求を送信するように処理する。

このようにして、第３の実施形態例に従うと、画像提供元のユーザとなる東京に住むＡ男が、自分の家族と横浜に住む妹のＢ子の家族とが写っている写真を九州に住む父親のＣ男に送信する場合に、Ａ男の家族の画像部分に対してＡ男の操作するユーザ端末２-iのアドレス情報が発呼先端末のアドレス情報として自動設定されるとともに、Ｂ子の家族の画像部分に対してＢ子の操作するユーザ端末２-iのアドレス情報が発呼先端末のアドレス情報として自動設定されることで、Ｃ男がその写真に写っているＡ男の家族をクリックしてＩＰ電話の発呼要求をするときにはＡ男に発呼され、一方、Ｃ男がその写真に写っているＢ子の家族をクリックしてＩＰ電話の発呼要求をするときにはＢ子に発呼されることになる、ということを実現することができるようになる。

〔４〕映像処理部１０２の構成および処理について
映像処理部１０２は、前述したように、メディア入力部１００がメディア情報として映像を入力する場合に、映像記憶部１０１に記憶されるその映像を１枚または複数枚数の静止画に再構成するという処理を実行する。この静止画を見ると、ユーザは、その静止画の生成元となった映像を視聴することなく、その映像がどのようなものであるのかを把握することができるという特徴がある。

このようにして生成された静止画については、メディア入力部１００が入力した静止画と同様に処理され、これにより、本発明のネットワーク電話発呼支援装置によれば、映像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。

次に、映像を静止画に再構成するという処理を実行する映像処理部１０２の構成および処理について説明する。

図１４に、映像処理部１０２の装置構成の一例を図示する。

この図に示すように、映像処理部は、映像入力部３００と、第１の素材データ記憶部３０１と、画像・音響特徴量検出部３０２と、画像・音響特徴量記憶部３０３と、優先グループ種別判定部３０４と、静止画優先順位付与部３０５と、素材データ記憶構造変更部３０６と、第２の素材データ記憶部３０７と、静止画再構成部３０８と、編集データ記憶部３０９と、再構成静止画出力部３１０とを備える。

ここで、図２では、説明の便宜上、映像処理部１０２についてはプログラムメモリ３０００に記憶されることで説明したが、映像処理部１０２の備える第１の素材データ記憶部３０１、画像・音響特徴量記憶部３０３、第２の素材データ記憶部３０７および編集データ記憶部３０９については、データメモリ４０００に記憶されることになる。

〔４−１〕各処理部について
〔４−１−１〕映像入力部３００の処理
映像入力部３００は、処理対象となる映像を入力して第１の素材データ記憶部３０１に格納する処理を実行する。

この処理にあたって、映像入力部３００は、入力した映像から音声情報を抽出する処理を行う。例えば、avi フォーマットであれば、visual／audio 情報が格納されており、映像からaudio 情報を抽出する。なお、本発明において、音声と言う場合、音声および音楽などの楽音を指すものとする。

〔４−１−２〕画像・音響特徴量検出部３０２の処理
画像・音響特徴量検出部３０２は、第１の素材データ記憶部３０１に格納される映像を処理対象として、その映像の各フレーム（各静止画）の持つ画像特徴量および音響特徴量を検出して画像・音響特徴量記憶部３０３に格納する処理を実行する。

画像・音響特徴量検出部３０２は、画像特徴量については、例えば、
・画(i) ：笑顔検出
・画(ii) ：カット点検出
・画(iii) ：カメラワーク検出
・画(iv) ：アップショット検出
という４つの画像特徴量を検出する。

これらの画像特徴量の内、“画(i) ”の笑顔の検出については、例えば、特許第3098276 号に示される“表情認識装置”の発明に基づいて実施すればよい。ここで、この発明では、顔面全体にわたって筋肉の微少な動きを計測し、その時間的変化をパタン化し、そのパタンに基づいて、感情を表す表情の認識を行っている。

また、“画(ii)”のカット点の検出については、例えば、特許第2839132 号に示される“映像カット点検出方法及び装置”の発明に基づいて実施すればよい。

また、“画(iii) ”のカメラワークの検出については、例えば、特許第3408117 号に示される「カメラ操作推定方法およびカメラ操作推定プログラムを記録した記録媒体」の発明に基づいて実施すればよい。

また、“画(iv)”のアップショットの検出（動物体の検出）については、例えば、特開2006-244074 に示される「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」の発明に基づいて実施すればよい。

一方、画像・音響特徴量検出部３０２は、音響特徴量については、例えば、
・音(i) ：強調状態検出
・音(ii) ：感性状態検出
・音(iii) ：音楽区間検出
という３つの音響特徴量を検出する。

これらの音響特徴量の内、“音(i) ”の強調状態の検出については、例えば、特許第3803311 号に示される「音声処理方法及びその方法を使用した装置及びそのプログラム」の発明に基づいて実施すればよい。

この特許第3803311 号に示される発明では、１つの区間（ラベル区間Ａ）内のフレーム数をｎとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でＣ₁,Ｃ₂,Ｃ₃,.....,Ｃ_nであるときに、そのラベル区間Ａが音声の強調状態となる確率Ｐ_AempをＮ-gram モデルに基づいて求めるようにしているので、このときに求められる強調状態の出現確率Ｐ_Aemp（音声小段落ごとの強調確率Ｐ_Semp、平静確率Ｐ_Snrmの比や差を用いることでもよい）を使って、音の強調状態の程度（強調状態の確率値と、その確率値を閾値と比較することで求められる強調状態であるのか否かという情報）を検出することが可能である。

また、“音(ii)”感性状態の検出については、例えば、下記の参考文献２に示される発明に基づいて実施すればよい。

参考文献２：入江豪，日高浩太，宮下直也，佐藤隆，谷口行信，「個人撮影映像を対象とした映像速覧のための“笑い”シーン検出法」，映像情報メディア学会誌，vol.62, no.2, pp.227-233, 2008.
この参考文献２に示される発明では、韻律特徴ベクトルｘ_tと状態ｅ_t（“笑い”か“笑い以外”の２値を取る）の関係を表現する音響モデルｐ（ｘ_t｜ｅ_t）と、状態ｅ_tの遷移に関する特性を単純マルコフ過程の仮定の下に表現する遷移モデルｐ（ｅ_t｜ｅ_t-1）とに基づいて、時刻ｔまでの韻律特徴量ベクトルの時系列Ｘ_t＝｛ｘ_t,ｘ_t-1,ｘ_t-2,..... ｝を観測した下での状態ｅ_tの出現確率ｐ（ｅ_t｜Ｘ_t）を求めるようにしているので、このときに求められる笑い状態の出現確率ｐ（ｅ_t｜Ｘ_t）を使って、感性状態の程度（感性状態の確率値と、その確率値を閾値と比較することで求められる感性状態であるのか否かという情報）を検出することが可能である。

また、“音(iii) ”の音楽区間の検出については、例えば、特許第3475317 号に示される“映像分類方法および装置”の発明に基づいて実施すればよい。

画像・音響特徴量検出部３０２は、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてを検出する必要はなく、何れか一つ以上を検出すればよいが、以下の説明では、説明の便宜上、これらのすべてを検出することを想定している。

〔４−１−３〕画像・音響特徴量記憶部３０３のデータ構造
図１５に、画像・音響特徴量記憶部３０３のデータ構造の一例を図示する。

画像・音響特徴量記憶部３０３は、図１５に示すように、処理対象の映像の各フレームについて、画像・音響特徴量検出部３０２の検出した“画(i) ”の検出結果の情報（笑顔の有無）と、“画(ii)”の検出結果の情報（カット点の有無）と、“画(iii) ”の検出結果の情報（カメラワークの有無）と、“画(iv)”の検出結果の情報（動物体の有無）と、“音(i) ”の検出結果の情報（強調状態であるのか否かということと、その強調状態の確率値）と、“音(ii)”の検出結果の情報（感性状態であるのか否かということと、その感性状態の確率値）と、“音(iii) ”の検出結果の情報（音楽区間の有無）とを記憶する。

さらに、これらの情報に加えて、画像・音響特徴量記憶部３０３は、図１５に示すように、処理対象の映像の各フレームがどの暫定優先グループに属するのかという情報（優先グループ種別判定部３０４により格納されることになる情報）と、処理対象の映像の各フレームに付与される暫定優先グループ内の優先順位の情報（静止画優先順位付与部３０５により格納されることになる情報）とを記憶する。

〔４−１−４〕優先グループ種別判定部３０４の処理
優先グループ種別判定部３０４は、大枠の優先順位を示す暫定優先グループの区分けを設定して、画像・音響特徴量記憶部３０３に格納される画像・音響特徴量検出部３０２の検出した画像特徴量および音響特徴量に基づいて、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定して、その判定結果の情報を画像・音響特徴量記憶部３０３に格納する処理を実行する。

優先グループ種別判定部３０４は、例えば、図１６に示すように、
（１）“画(i) ”、“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームを優先順位が最上位の暫定グループである第１暫定優先グループとし、
（２）“画(i) ”、“画(iv)”の検出結果が有りとなったフレームをその次の優先順位の暫定グループである第２暫定優先グループとし、
（３）“画(i) ”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順位の暫定グループである第３暫定優先グループとし、
（４）“画(i) ”の検出結果が有りとなったフレームをその次の優先順位の暫定グループである第４暫定優先グループとし、
（５）“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順位の暫定グループである第５暫定優先グループとし、
（６）“画(iv)”の検出結果が有りとなったフレームを優先順位が最下位の暫定グループである第６暫定優先グループ
として設定して、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定し、その判定結果の情報を画像・音響特徴量記憶部３０３に格納するのである。

〔４−１−５〕静止画優先順位付与部３０５の処理
静止画優先順位付与部３０５は、画像・音響特徴量記憶部３０３に格納される画像・音響特徴量検出部３０２の検出した“音(i) ”の強調状態確率値および／または“音(ii)”の感性状態確率値を用いて、各暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与して、その付与結果の情報を画像・音響特徴量記憶部３０３に格納する処理を実行する。

この優先順位の付与にあたって、強調状態確率値と感性状態確率値の両方を用いて優先順位を付与する場合には、２つの確率値の加算値を用いて優先順位を決定したり、２つの確率値の乗算値を用いて優先順位を決定するなどの処理を行うことになるが、その際に、笑い声をより優先したいとの理由から、例えば、“音(ii)”の感性状態確率値を２倍するなどのように重み付けを施してもよい。また、これとは逆に、強調音声を重要視して、“音(i) ”の強調状態確率値を大きくするような重み付けを施してもよい。

映像処理部１０２は、映像から１枚以上の重要な静止画群（フレーム群）を選択して、それらの静止画を１枚の静止画に再構成することで、画像提供先のユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにすることを実現する。

これから、この優先順位の付与にあたって、静止画として見づらいフレームについては、優先順位を低くすることが望ましい。

そこで、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定されるので、“画(iii) ”によってカメラワークが生じていることが検出される画像（フレーム）については、優先順位を最低にするとか、優先順位をマイナスｎ（例えば、ｎ＝１０などと設定しておく）にするなどの処理を施すようにしてもよい。

また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iv)”のアップショット検出により検出される動きベクトルの大きさに閾値を設定して、その閾値以上の動きを示す動物体を有する画像（フレーム）については、前述と同様に、優先順位を最低にするとか、優先順位をマイナスｎにするなどの処理を施すようにしてもよい。

映像は時系列の画像群ではあるが、撮りはじめからよいシーンでないことも想定される。例えば、未編集のホームビデオなどでは、思いつきで撮影を開始することも多く見られる。

そこで、“音(i) ”の強調状態確率値や“音(ii)”の感性状態確率値の結果に対して、図１７に示すような、カット点（撮影開始）からの時間に対する重み付けを施すようにしてもよい。

例えば、図１７に示すパタン１では、次のカット点までの時刻に向かって重み付けが二次関数的に上昇していくものを示している。この場合に、重み付けが一次関数的に上昇していくものであってもよい。

また、図１７に示すパタン２では、所定の時間ｔc になるまでは、重み付けが一次関数あるいは二次関数で上昇し、その後は一定値となるものを示している。ここで、ｔc は、例えば３０秒などというように設定されることになる。

また、図１７に示すパタン３では、次のカット点までの中間時刻で最大となるように、重み付けが一次関数あるいは二次関数で設定されるものを示している。

いずれのパタンを用いるのかについては画像提供元のユーザが予め設定しておけばよく、この設定が行われない場合には、例えば、カメラワークがカット点直後にない場合にはパタン２を用い、カメラワークが頻出する場合にはパタン１を用いるというように、システム側で予め設定したパタンを用いることになる。

以上に説明した静止画優先順位付与部３０５の処理では、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてが検出されている場合について説明したが、以上の説明から分かるように、最低でも音(i) 、音(ii)の内の１つが検出されていれば、静止画に対して優先順位を付与することは可能である．
〔４−１−６〕素材データ記憶構造変更部３０６の処理
素材データ記憶構造変更部３０６は、画像・音響特徴量記憶部３０３に格納される暫定優先グループ情報および優先順位情報に基づいて、第１の素材データ記憶部３０１に格納される映像のフレームを、暫定優先グループごとに優先順位の順番に従って並び替えて、図１８に示すようなデータ構造を持つ第２の素材データ記憶部３０７に格納する処理を実行する。

〔４−１−７〕静止画再構成部３０８の処理
静止画再構成部３０８は、第２の素材データ記憶部３０７に格納される映像のフレームを処理対象として、それらのフレームの中から１枚以上の重要な静止画群（フレーム群）を選択し、それらの静止画を１枚の静止画に再構成して、それを編集データ記憶部３０９に格納する処理を実行する。

この重要な静止画群の選択にあたって、静止画再構成部３０８は、図１８に示すようなデータ構造を持つ第２の素材データ記憶部３０７を参照して、第１暫定優先グループを最優先にして、その第１暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第１暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第２暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って静止画群を選択するように処理する。

このようにして１枚の静止画に再構成された静止画（再構成静止画）は、再構成静止画出力部３１０の処理に従って、編集データ記憶部３０９から読み出されて図２などに示す識別子付与部１０３に出力されることになる。

次に、静止画再構成部３０８の実行する再構成静止画の生成方法について説明する。ここで、ユーザ端末２-iの持つ表示解像度により規定される出力解像度がｍ×ｎ（ｍ：縦の解像度，ｎ：横の解像度）で、第２の素材データ記憶部３０７から読み出すフレーム（静止画）の解像度がｍ’×ｎ’（ｍ’：縦の解像度，ｎ’：横の解像度）であるとする。

静止画再構成部３０８は、
ｍ’＞ｍかつ、ｎ’＞ｎ・・・・式（１）
である場合には、最優先順位となる静止画をそのまま再構成静止画として生成するようにすればよい。

また、閾値thm, thnを設けて、
ｍ’±thm ＞ｍかつ、ｎ’±thn ＞ｎ・・・・式（２）
である場合には、同様に、最優先順位をなる静止画をそのまま再構成静止画として生成するようにしてもよい。ここで、thm とthn については、例えば、
thm = 0.3 ×ｍ，thn = 0.3 ×ｎ
などというように予め設定しておけばよい。

式（１）および式（２）を満足しない場合には、図１９〜図２１に示すように、複数の画像によって静止画を再構成することで再構成静止画を生成する。

ここで、図２１では、優先順位の順にどの表示域に配置するのかを決定するようにしているが、図２１における時系列情報が、
優先順位３→優先順位２→優先順位１→優先順位４
である場合には、その時系列の順にどの表示域に配置するのかを決定することで、図２２のように生成するようにしてもよい。

以上に説明した静止画再構成部３０８の処理では、式（１）や式（２）を満足する場合には、最優先順位となる静止画のみを配置することで再構成静止画を生成するという構成を採ったが、そのような構成を採らずに、優先順位の高い順番に従って所定の枚数の静止画を選択して、それらの静止画を縮小しつつ配置することで再構成静止画を生成するという構成を採るようにしてもよい。

また、以上に説明した静止画再構成部３０８の処理では、１枚のみの再構成静止画を生成することで説明したが、複数の再構成静止画を生成するようにしてもよい。その場合には、図１９〜図２２の何れかの再構成静止画を適宜、繰り返し優先順位を降順に生成していけばよく、そのようにして生成した複数の再構成静止画を編集データ記憶部３０９に格納することになる。

〔４−１−８〕再構成静止画出力部３１０の処理
再構成静止画出力部３１０は、編集データ記憶部３０９から静止画再構成部３０８の生成した再構成静止画を読み出して、図２などに示す識別子付与部１０３に対して出力するという処理を実行する。

このとき、静止画再構成部３０８が複数の再構成静止画を生成する場合には、再構成静止画出力部３１０は、それらの再構成静止画を優先順位順に順番に出力する。

〔４−２〕映像処理部１０２の実行する処理
図２３に、図１４のように構成される映像処理部１０２の実行するフローチャートを図示する。

次に、このフローチャートに従って、図１４のように構成される映像処理部１０２の実行する処理について詳細に説明する。

映像処理部１０２は、図２などに示すメディア入力部１００が映像を入力したことで再構成静止画の生成要求があると、図２３のフローチャートに示すように、まず最初に、ステップＳ３００で、図２などに示す映像記憶部１０１から処理対象の映像を入力する。

続いて、ステップＳ３０１で、入力映像の全フレーム（全静止画）について処理を行ったのか否かを判断して、全フレームについて処理を行っていないことを判断するときには、ステップＳ３０２に進んで、先頭フレームからの順番に従って未処理のフレームを１つ選択する。

続いて、ステップＳ３０３で、選択したフレームの持つ画像特徴量および音響特徴量を検出する。

例えば、画像特徴量として、前述した“画(i) ”の笑顔検出、“画(ii)”のカット点検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出という４つの画像特徴量を検出するとともに、音響特徴量として、前述した“音(i) ”の強調状態検出、“音(ii)”の感性状態検出、“音(iii) ”の音楽区間検出という３つの音響特徴量を検出するのである。

続いて、ステップＳ３０４で、選択したフレームについてのカット点からの時間経過量を測定して（“画(ii)”のカット点検出によりカット点となったフレームが検出されているので、そのフレームからの時間経過量を測定する）、その測定した時間経過量に基づいて、ステップＳ３０３で検出した特徴量に含まれる値属性特徴量（検出結果が特徴量の程度を示す値となる特徴量）を補正する。

ステップＳ３０３で検出した特徴量に含まれる値属性特徴量としては、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という２つの値属性特徴量があるので、これらの値属性特徴量を、例えば図１７に示すパタン２の重み付け曲線に従って重み付けすることで、それらの値属性特徴量を補正するのである。

続いて、ステップＳ３０５で、ステップＳ３０３で検出した特徴量に含まれる有無属性特徴量（検出結果が特徴量の有無となる特徴量）に基づいて、選択したフレームが図１６に示す６つの暫定優先グループの内のどの暫定優先グループに属するのかを判定して、ステップＳ３０１の処理に戻る。

ステップＳ３０３では、“画(ii)”のカット点検出を除いた有無属性特徴量として、“画(i) ”の笑顔検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出、“音(iii) ”の音楽区間検出という４つの有無属性特徴量を検出しているので、これらの有無属性特徴量の検出結果に基づいて、図１６に示す判定基準に基づいて、選択したフレームがどの暫定優先グループに属するのかを判定して、ステップＳ３０１の処理に戻るのである。

このようにしてステップＳ３０２〜ステップＳ３０５の処理を繰り返すことで、入力映像の全フレームについて、画像特徴量および音響特徴量を検出・補正するとともに、どの暫定優先グループに属するのかを判定すると、ステップＳ３０１で、入力映像の全フレームについてこの処理を行ったことを判断することになるので、このことを判断するときには、ステップＳ３０６に進んで、検出した値属性特徴量に基づいて、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与する。

例えば、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という２つの確率値の加算値を求めて、その加算値の大小を比較することで、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与するのである。

続いて、ステップＳ３０７で、静止画として見づらいものとなるフレームを特定して、その特定したフレームの優先順位を低いものに変更する。

前述したように、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定され、また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iii) ”のカメラワーク検出により著しく大きなカメラワークが生じていることが検出されるフレームや、“画(iv)”のアップショット検出により極端に大きな動きを示す動物体の存在が検出されるフレームについては、その優先順位を低いものに変更するのである。

続いて、ステップＳ３０８で、出力解像度とフレーム（静止画）の解像度とに基づいて、再構成静止画を構成する静止画を１枚にするのかそれに以上の枚数にするのかを決定する。

例えば、出力解像度とフレームの解像度との間に、前述の式（１）や式（２）の関係が成立するのか否かを判断することで、再構成静止画を構成する静止画を１枚にするのかそれ以上の枚数にするのかを決定したり、あるいは、複数の静止画を縮小して再構成静止画を生成するという構成を採る場合には、画像提供元のユーザとの対話処理などに従って、再構成静止画を構成する静止画を１枚にするのかそれに以上の枚数にするのかを決定したりするのである。

続いて、ステップＳ３０９で、再構成静止画を構成する静止画を１枚にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置する１枚の静止画（フレーム）を選択し、また、再構成静止画を構成する静止画を所定の枚数にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置するその所定の枚数の静止画（フレーム）を選択する。

すなわち、図１８に示すようなデータ構造を持つ第２の素材データ記憶部３０７を参照して、第１暫定優先グループを最優先にして、その第１暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第１暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第２暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って、再構成静止画に配置する静止画を選択するのである。

続いて、ステップＳ３１０で、画像提供元のユーザとの対話処理などに従って、再構成静止画に配置する静止画の配置方法を決定する。

すなわち、複数の静止画を再構成静止画に配置することで再構成静止画を生成する場合に、図２１に示すような優先順位の順にどの表示域に配置するのかを決定するという配置方法と、図２２に示すような時系列の順にどの表示域に配置するのかを決定するという配置方法という２種類の配置方法があるので、ユーザとの対話処理などに従って、その内のどちらの配置方法を用いるのかを決定するのである。

続いて、ステップＳ３１１で、ステップＳ３０９で選択した静止画を、予め決定されている配置位置に、ステップＳ３１０で決定した配置方法に従って配置することで、複数の再構成静止画を生成する。ここで、配置位置については、再構成静止画を構成する静止画の枚数に応じて予め決定されているものとする。また、生成する再構成静止画の枚数についても予め決定されているものとする。

続いて、ステップＳ３１２で、生成した再構成静止画を、図２などに示す識別子付与部１０３に出力して、処理を終了する。

このようにして、映像処理部１０２は、図２などに示すメディア入力部１００が映像を入力したことで再構成静止画の生成要求があると、図２３のフローチャートに従って、その映像から１枚以上の重要な静止画群を選択し、それらを１枚の静止画に再構成して図２などに示す識別子付与部１０３に出力することを実行するのである。

〔５〕ユーザ端末２-iの構成
図２４に、本発明のＩＰ電話発呼支援装置１により提供される提供画像を受信するユーザ端末２-iの装置構成を図示する。

この図に示すように、本発明のＩＰ電話発呼支援装置１により提供される提供画像を受信するユーザ端末２-iは、本発明のＩＰ電話発呼支援装置１から識別子とともに送信されてくる提供画像を受信する提供画像受信部２００と、提供画像受信部２００の受信した提供画像を記憶する提供画像記憶部２０１と、提供画像記憶部２０１に記憶される提供画像をディスプレイ２０３に表示する提供画像表示制御部２０２と、ＩＰ電話の送受信処理を実行するＩＰ電話送受信部２０４と、ＩＰ電話送受信部２０４に展開されて、本発明のＩＰ電話発呼支援装置１に対して、提供画像の識別子を指定してＩＰ電話の発呼を要求するＩＰ電話発呼部２０５とを備える。

このＩＰ電話発呼部２０５は、ユーザ端末２-iがＩＰ電話の発呼側となるときに動作するものであり、提供画像表示制御部２０２による提供画像の表示に応答して、ユーザからＩＰ電話の発呼要求があるときに、提供画像記憶部２０１からその提供画像の識別子を読み出して、本発明のＩＰ電話発呼支援装置１に対して、その読み出した識別子を指定してＩＰ電話の発呼を要求する処理を実行する。

この構成に従って、ユーザ端末２-iは、本発明のＩＰ電話発呼支援装置１により提供される提供画像を受信すると、その提供画像をディスプレイ２０３に表示して、その表示に応答してユーザからＩＰ電話の発呼要求があると、本発明のＩＰ電話発呼支援装置１に対して、その提供画像の識別子を指定してＩＰ電話の発呼を要求する。

このＩＰ電話の発呼要求を受けて、例えば、図２のように構成される本発明のＩＰ電話発呼支援装置１は、前述したように、その提供画像に対応付けて設定された発呼先端末のアドレス情報を特定して、それに基づいて、発呼先端末との間でＩＰ電話を成立させるように処理することになる。

本発明は、電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するネットワーク電話システムに適用できるものであり、本発明を適用することで、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。

１ＩＰ電話発呼支援装置
１００メディア入力部
１０１映像記憶部
１０２映像処理部
１０３識別子付与部
１０４送信メディア記憶部
１０５メディア送信部
１０６発呼先アドレス入力部
１０７識別子・発呼先アドレス対応関係記憶部
１０８対応関係登録部
１０９ＩＰ電話受信部
１１０発呼先決定部
１１１ＩＰ電話送信部
１２０発呼先アドレス設定部
１３０特徴量・発呼先アドレス対応関係記憶部
１３１特徴量抽出部
１３２発呼先アドレス設定部

Claims

電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するネットワーク電話の発呼を支援するネットワーク電話発呼支援装置であって、
画像提供元のユーザから、画像提供先のユーザの操作する端末のアドレス情報と、その画像提供先ユーザに提供する提供画像とを入力する手段と、
前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する手段と、
前記提供画像に対して識別子を付与して、その識別子と前記設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録する手段と、
前記入力した画像提供先ユーザ端末のアドレス情報に従って、前記提供画像をそれに付与した前記識別子とともに画像提供先ユーザに送信する手段と、
前記提供画像の送信に応答して、前記識別子を指定してネットワーク電話の発呼要求があるときに、その発呼要求を受信する手段と、
前記受信した発呼要求で指定される前記識別子をキーにして前記記憶手段を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得する手段と、
前記取得したアドレス情報の指すユーザ端末に対して発呼する手段とを備えることを、
特徴とするネットワーク電話発呼支援装置。
請求項１に記載のネットワーク電話発呼支援装置において、
前記提供画像として映像が入力された場合に、その映像を静止画に再構成することで画像提供先ユーザに提供する最終的な提供画像を生成する手段を備えることを、
特徴とするネットワーク電話発呼支援装置。
請求項１または２に記載のネットワーク電話発呼支援装置において、
前記設定する手段は、前記提供画像から切り出される複数の画像領域に対して、それぞれ異なる発呼先ユーザ端末のアドレス情報を設定し、
前記登録する手段は、前記識別子および前記複数の画像領域の領域情報とそれらの画像領域に対して設定された発呼先ユーザ端末のアドレス情報との対応関係を前記記憶手段に登録し、
前記受信する手段は、前記識別子および画像領域の領域情報を指定するネットワーク電話の発呼要求を受信し、
前記取得する手段は、前記受信した発呼要求で指定される前記識別子および画像領域の領域情報をキーにして前記記憶手段を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得することを、
特徴とするネットワーク電話発呼支援装置。
請求項１ないし３のいずれか１項に記載のネットワーク電話発呼支援装置において、
前記設定する手段は、画像提供元のユーザから、発呼先ユーザ端末のアドレス情報を入力して、それを前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することを、
特徴とするネットワーク電話発呼支援装置。
請求項１ないし３のいずれか１項に記載のネットワーク電話発呼支援装置において、
画像の持つ特徴量とその特徴量に割り付けられた発呼先ユーザ端末のアドレス情報との対応関係を記憶する第２の記憶手段を備え、
前記設定する手段は、前記提供画像の持つ特徴量を抽出して、その抽出した特徴量をキーにして前記第２の記憶手段を参照することで、前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報を特定して、それを前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することを、
特徴とするネットワーク電話発呼支援装置。
請求項１ないし５のいずれか１項に記載のネットワーク電話発呼支援装置を構成する手段としてコンピュータを機能させるためのネットワーク電話発呼支援プログラム。