JP2014096156A

JP2014096156A - 情報処理装置、制御方法、制御プログラム及び記憶媒体

Info

Publication number: JP2014096156A
Application number: JP2013258144A
Authority: JP
Inventors: Tsuneichi Arai; 常一新井
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-05-22

Abstract

【課題】コンテンツの内容に影響を与えずに、ユーザが容易な操作で意図するコンテンツの分類を行える環境を提供することを目的とする。
【解決手段】本発明は、複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置であって、表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第１の軌跡の入力を受け付け、前記受け付けた第１の軌跡に基づいて前記第１の軌跡が入力されたコンテンツを分類する分類情報を保持し、前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第２の軌跡の入力を受け付け、前記保持された分類情報に基づいて、前記複数のコンテンツのうち、前記受け付けた第２の軌跡と形状が類似する第１の軌跡が入力されたコンテンツを取得し、前記取得したコンテンツを前記表示部に表示させる。
【選択図】図２

Description

本発明は、予めコンテンツと軌跡を対応付けて登録した辞書データを用いて、認識された軌跡からコンテンツを検索する情報処理装置に関する。

従来、コンテンツにメタデータを持たせ、メタデータからコンテンツを分類していた。
特許文献１の画像表示装置では、画像データのサムネイルデータから特徴量抽出条件にて各サムネールの特徴量を抽出し分類を行っていた。
また、特許文献２の情報処理装置では、検索キー生成部でストロークデータの入力時におけるペンの操作過程および操作結果から得られる作成日時、入力座標位置、表示面積、線の太さ、記入速度等を検索キーとして検索を行っていた。
また、特許文献３のペンベースコンピューターシステムでは、ファイル名として絵文字イメージを用いて検索を行っていた。

特開２００５−２３６６４６号公報特開平１０−１７１８３５号公報特開平０７−０７３１９０号公報

しかしながら、上記特許文献１は、全てが似通った特徴量になった場合、上手く分類されないという問題があった。又、画像による分類であると、ユーザの意図とは異なる分類になる事が多かった。
また、特許文献２は、入力座標位置や作成日時等の操作過程を記憶する必要があった。
また、特許文献３は、ファイル名としての絵文字イメージを全ファイルに対して検索するため処理時間がかかった。
また、これらの特許文献では、１つの分類に対するコンテンツの量が多量になった場合でも初期の分類のままであった。
本発明は上記従来の問題点に鑑み、コンテンツの内容に影響を与えずに、ユーザが容易な操作で意図するコンテンツの分類を行える環境を提供することを目的とする。

上記課題を解決するために、本発明は、複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置であって、表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第１の軌跡の入力を受け付ける第１の受付手段と、前記第１の受付手段が入力を受け付けた第１の軌跡に基づいて、前記第１の軌跡が入力されたコンテンツを分類する分類情報を保持する保持手段と、前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第２の軌跡の入力を受け付ける第２の受付手段と、前記保持手段が保持する分類情報に基づいて、前記複数のコンテンツのうち、前記第２の受付手段が入力を受け付けた第２の軌跡と形状が類似する第１の軌跡が入力されたコンテンツを取得する取得手段と、前記取得手段が取得したコンテンツを前記表示部に表示させる表示制御手段と、を有することを特徴とする。

本発明によれば、表示部に表示されたコンテンツ上に、コンテンツ自体のデータに反映されない第１の軌跡を入力することできるので、コンテンツの内容に影響を与えずに、ユーザが容易な操作で意図するコンテンツの分類を行うことが可能となる。

第１の実施形態の使用形態を表す図である。第１の実施形態の情報処理装置のブロック図である。第１の実施形態の情報処理装置の構成図である。コンテンツ選択画面の例を示す図である。選択されたコンテンツの全画面表示例を示す図である。第１の実施形態の軌跡分類辞書のデータ構造を表した構造図である。コンテンツへの軌跡入力処理を表したフローチャートである。検索時の軌跡入力画面を示す図である。検索結果の表示画面を示す図である。軌跡による検索処理を表したフローチャートである。第２の実施形態の構成図である。入力軌跡の形状と辞書軌跡の形状の例を表した図である。辞書データの例を示す図である。追加変更された辞書を示す図である。第２の実施形態のコンテンツへの軌跡入力処理を表したフローチャートである。第３の実施形態の構成図である。音声分類辞書１６０４のデータ構成を表した構造図である。コンテンツへの音声分類情報入力処理を表したフローチャートである。音声入力によるコンテンツ検索処理を表したフローチャートである。

以下、添付の図面を参照して本発明の好適な実施形態について説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

〈第１の実施形態〉
図１は第１の実施形態の使用形態を表している。１０１はデジタルＴＶであり、液晶表示部、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＨＤ、記録メディアを差し込むスロット、他のネットワーク接続機能をもったパーソナルコンピュータと接続するネットワークインターフェイス部とで構成されている。また、他のネットワーク上にある、静止画や動画のコンテンツデータを表示再生するソフトウェアが組込まれている。１０２は、一般的なローカルエリアネットワークであり、それによりハードディスクレコーダー等の動画や静止画の記録蓄積装置等と接続する。１０３は、一般的なメディアサーバーで、ローカルエリアネットワーク等で本発明の情報処理装置と接続されている。このメディアサーバー１０３には、静止画や、動画が記録されており、ローカルエリアネットワークを通して送られてくるデータの送信要求に応じて静止画等のデータをローカルエリアネットワークを通じて送出する。

１０４は、本発明の情報処理装置で、液晶表示部と、その上に取り付けられている透明抵抗膜方式等のデジタイザ、ＣＰＵ、メモリ、無線ＬＡＮチップ等で構成されている。１０５は、一般的な透明抵抗膜デジタイザ用のペンである。１０５のペンを利用して、液晶表示部に表示している静止画等に対して、軌跡を入力し、本発明の処理を実施する。

図２は第１の実施形態の情報処理装置のブロック図である。２０１は、一般的な透明抵抗膜デジタイザで構成される位置座標入力部で、ペン等で表面上を押下されると、押下された位置のＸＹ位置座標データが２０７のシステムバス経由で２０３のＣＰＵに送られる。

２０２は、一般的な液晶表示部で、液晶表示素子、液晶制御回路、表示メモリから構成され、システムバス２０７経由でＣＰＵ２０３に接続されている。ＣＰＵ２０３からの指示で、画像の表示が実行される。２０３は、一般的なＣＰＵであり、システムバス２０７を介して、ＲＡＭ２０４、ＲＯＭ２０５、液晶表示部２０２等と接続されており、ＲＯＭ２０５に記憶されているプログラムによって処理動作を行う。以後のフローチャートの処理はこのＣＰＵ２０３によって実行される。２０４は、一般的なＲＡＭであり、ワーク領域として使われる。２０５は、一般的なＲＯＭであり、ここに以後に説明するコンテンツの分類軌跡作成処理手順等が記憶されている。２０６は一般的な情報機器で使用されるフラッシュメモリで、システムバス２０７経由でＣＰＵ２０３に接続しているため、ローカルな動画や静止画のコンテンツファイルや、設定情報等が記憶されている。２０７は、一般的なシステムバスで、ＣＰＵ２０３、ＲＯＭ２０５、ＲＡＭ２０４や他のデバイス等とのデータのやり取りを行う。２０８は、一般的な無線ローカルエリアネットワークチップであり、それにより他のパーソナルコンピュータと通信を行う。尚、コンテンツの例として、以後、静止画を用いて説明するが、動画や音声やテキスト、またそれらを示すサムネールやフォルダ等でも構わない。

図３は、第１の実施形態の情報処理装置の構成図である。３０１は、一般的な位置座標入力部で透明抵抗膜デジタイザ等で構成されている。ペンで書かれた軌跡等の位置座標データが検出され、図２のＣＰＵ２０３に送られて処理され、図２のＲＡＭ２０４内の特定領域に記憶される。３０３は、軌跡認識処理手段で、位置座標入力部３０１から送られてくる軌跡データの形状特徴と軌跡分類辞書３０４に登録されている辞書内の軌跡特徴データとマッチング処理を行ってその候補辞書データと類似度を返す。

３０４は、軌跡辞書で、軌跡の特徴データ、その軌跡が書かれたコンテンツのファイル情報等が記録されている。３０５は、新規登録判定手段で、軌跡認識処理手段３０３の認識結果に応じて、入力された軌跡を新規登録するか、既存辞書データに情報を追加するかの決定を行う。３０６は、既存軌跡分類情報追加手段で、既存の軌跡分類辞書データに現在のコンテンツのファイル情報と入力軌跡の位置情報を記録する処理を行う。３０７は、新規軌跡辞書作成手段で、入力された軌跡の特徴データを辞書データとして、３０４の軌跡分類辞書に登録する処理を行う。３０８は、コンテンツ選択手段で、コンテンツのファイルを画面上に表示させる一般的な選択指示処理を行う。３０２は、一般的な液晶表示部で構成された表示手段で、コンテンツデータ選択手段３０８で選択されたコンテンツを表示したり、入力された軌跡を描画したりする。

図４は、コンテンツ選択画面の例である。４０１は、コンテンツの一覧表示領域である。４０２は一般的なスクロールバーで、座標入力手段で操作する事により画面をスクロールさせる。４０３は、選択されているコンテンツを表している。選択された状態で、決定すると、そのコンテンツを全画面表示する。

図５は、選択されたコンテンツの全画面表示例である。５０１がコンテンツを表し、５０２は、コンテンツ上に記入された軌跡を表している。図１のペン１０５で、コンテンツ上に自由に軌跡を入力することができる。この記入された軌跡自体は、コンテンツとは別データであるので、表示させたり、隠したりすることができる。

図６は、本実施形態の軌跡分類辞書のデータ構造を表した構造図である。

一つの軌跡の辞書データは、軌跡の特徴データ６０１と複数の軌跡画面位置情報とファイル情報６０２〜６０４で構成されている。

例えば、６０５の「〇」の軌跡特徴データ、「〇」が書かれた「０１．ｊｐｇ」ファイル上での軌跡の入力位置の座標データ、「〇」が書かれた「０２．ｊｐｇ」ファイル上での軌跡の入力位置の座標データの樣に構成さている。

書かれたファイルが１つだけだと、例えば、「△」軌跡の特徴データの樣に、「△」が書かれた「０４．ｊｐｇ」ファイル上での軌跡の入力位置の座標データの樣になっている。

この軌跡分類辞書から判るように、ユーザ入力した任意の種類の軌跡の形状が記憶されている。

図７は、コンテンツへの軌跡入力処理を表したフローチャートである。この処理は、コンテンツ上に軌跡が入力され、その軌跡の入力が確定したら開始される。例えばペンでの軌跡入力後、決定キーが押されたら開始される。このフローチャートに沿って処理を説明する。

Ｓ７０１で、コンテンツへの軌跡入力処理を開始する。辞書データの記憶バッファ等が初期化される。Ｓ７０２で、現在表示されているコンテンツのファイル名を記憶する処理を行う。例えば、図５の例だと花の写真（０６．ｊｐｇ）のファイル名を記憶する。又此処では、ローカルファイルで説明するが、ネットワーク上のコンテンツであれば例えば、ネットワーク上のファイル名（例えば、￥￥ｎｅｔ．ｃｏｍ￥￥ｖｉｄｅｏ￥０６．ｊｐｇ）を記憶する。Ｓ７０３で、画面上に入力された軌跡のＸＹ位置座標データ列を作業バッファに記憶する。Ｓ７０４、記憶した軌跡データ列から軌跡の特徴データを抽出する処理を行う。従来からある軌跡の認識アルゴリズムを適応すればいい。ユーザが記入した手書きを登録し、そのユーザが使用するので、高い認識率が予想される。例えば、入力された軌跡を２５６＊２５６に正規化し、１筆の軌跡を２０等分し、例えばその位置座標を記憶する。

Ｓ７０９で、辞書データの形状特徴データをバッファに読み込む処理を行う。図６の例だと、軌跡特徴データ６０１、「〇」、「△」、「∠」、「☆」が読み込まれる。Ｓ７０６において、辞書データに同一形状があるかをチェックする。同一形状の辞書データがある場合は、Ｓ７０７に進み、同一形状の辞書データが存在しない場合はＳ７０８に進む。この判断は、入力データの特徴データと各辞書データの特徴データとマッチング処理を行い、特徴同士のデータの差分を抽出し、一番差分が少い辞書データが０に近ければ、同一形状で、ある閾値以上であれば、同一形状の物はないと判断する。Ｓ７０７で、マッチした形状データに軌跡画面位置情報、ファイル情報を追加する処理を行う。例えば、図５の５０２例だと、「〇」の形状であるので、図６の辞書の「〇」形状６０５のデータにマッチングする。そこで、「〇」が書かれたファイル「０２．ｊｐｇ」ファイル上での軌跡の入力位置の座標データの後に、ファイル名「０６．ｊｐｇ」と入力軌跡の外接枠の最大最小のＸＹ座標データを辞書上に挿入する。

Ｓ７０８において、特徴データを追加するメッセージを表示する処理を行う。これは、軌跡の記入に失敗したのに気付かずに登録してしまうとまずいので、メッセージを表示する。例えば”新規軌跡を登録します。よろしければＯＫを押して、そうでなければキャンセルを押してください。”のような表示を行う。又システム設定で表示を今後しないような設定ができる。Ｓ７０９において、形状特徴データを辞書データに追加する処理を行う。Ｓ７０４で抽出した特徴データを図３の３０４の辞書に追加する。例えば、辞書のデータが図６の樣な状態だと、辞書データの終端である「☆」の形状データの後ろに、入力特徴データを追加する。そのデータが辞書データの終端になる。

Ｓ７１０において、上記ステップで追加した辞書データに軌跡画面位置情報、ファイル情報を追加する処理を行う。例えば、図５の花の写真「０６．ｊｐｇ」上に「３」の軌跡を入力すると、「☆」の形状特徴データの後ろに、「３」の形状特徴データが登録され、ファイル名「０６．ｊｐｇ」と入力軌跡の外接枠の最大最小のＸＹ座標データが登録される。Ｓ７１１において、コンテンツへの軌跡入力処理を終了する。

図８は、検索時の軌跡入力画面である。図９は検索結果の表示画面である。図８の８０１が検索時の軌跡入力ウィンドウである。中止キー８０２が押下されると、この軌跡による検索処理を中止する。クリアキー８０３が押下されると、軌跡入力領域８０５に書かれている軌跡が消去される。検索開始キー８０４の押下で、軌跡入力領域８０５に書かれている軌跡を元に検索を開始する。検索開始キー８０４が押されると図１０のフローチャートで表した処理が開始される。

図１０は、軌跡による検索処理を表したフローチャートである。フローチャートに沿って処理を説明する。Ｓ１００１において、入力軌跡による検索処理を開始する。バッファ等の確保、初期化を行う。Ｓ１００２において、入力された軌跡のＸＹ位置座標データを読み込む処理を行う。図８の軌跡入力領域８０５内に書かれた軌跡データをバッファに読み込む。Ｓ１００３において、読み込んだ軌跡データの形状特徴データを抽出する処理を行う。軌跡データＸＹ位置座標値を２５６＊２５６に正規化し、１筆の軌跡を２０等分しその等分した場所の位置座標をデータ列として記憶する。

Ｓ１００４において、辞書データを作業バッファ領域に読み込む処理を行う。例えば、辞書データが図６の例の場合、軌跡特徴データ６０１、「〇」、「△」、「∠」、「☆」が読み込まれる。Ｓ１００５において、形状特徴が一番類似しているものを検出する処理を行う。入力軌跡データから抽出した特徴データＸＹデータと辞書データＸＹデータとの距離差を計算し、一番距離差が小さい辞書データが一番形状が類似しているとする。入力データが、図８の８０５の樣な「○」であれば、辞書データの「○」８０５が一番類似している。

Ｓ１００６において、一致した形状データの軌跡画面ＸＹ位置座標データとコンテンツファイル情報をバッファに読み込む処理を行う。図６の辞書データの場合、「〇」が書かれたファイル「０１．ｊｐｇ」ファイル上での軌跡の入力位置の座標データ、「〇」が書かれたファイル「０２．ｊｐｇ」ファイル上での軌跡の入力位置の座標データが読み込まれる。Ｓ１００７において、入力軌跡の外接枠の面積Ｓを計算する処理を次式にて行う。

Ｓ＝ｄｘ＊ｄｙ（ｘｍａｘ−ｘｍｉｎ＝ｄｘ，ｙｍａｘ−ｙｍｍｉｎ＝ｄｙ）（式１）
Ｓ１００８において、辞書のコンテンツ記入軌跡データの筆跡面積の近い順にソートする処理を行う。例えば、面積の大きさを大、中、小の三段階とし、検索入力データの筆跡の面積が大なら、大、中、小順にする。Ｓ１００９において、同一面積の辞書データでは、入力筆跡の外接枠の中心と辞書データの外接枠の中心を比較し、距離の近い順に並べる処理を行う。例えば、入力データが、左上隅に書かれたとして、辞書データが中央、右下隅、左上隅、存在する場合。ソートされて、左上隅、中央、右下隅になる。Ｓ１０１０において、ソートした辞書データのファイル名からファイルデータを読み込む処理を行う。例えば、ソートした結果が、図９に示す０１．ｊｐｇ，０２．ｊｐｇ，０６．ｊｐｇなら、そのファイルを読み込む。Ｓ１０１１において、読み込んだファイルからサムネール画像を作成し表示する処理を行う。例えば、０１．ｊｐｇ，０２．ｊｐｇ，０６．ｊｐｇなら、そのファイルからサムネール画像を作成し、図９に示すように０１．ｊｐｇ９０２，０２．ｊｐｇ９０３，０６．ｊｐｇ９０４と順に表示する。そして画像上に軌跡を表示する。Ｓ１０１２において、処理を終了する。ワーク領域等を開放する。

この樣に処理を構成することにより、静止画等のコンテンツデータを任意の形状で任意の種類に分類することができる情報処理装置を実現できる。これにより、キー入力やメニューよる選択等の必要なしに、分類や種類を後から追加できるので、簡単にユーザの意図する分類が可能となる。また、分類したコンテンツを辞書データを用いて入力された軌跡を認識して検索するので、コンテンツを全て検索するより高速に処理を行うことが可能となる。

〈第２の実施形態〉
第１の実施形態では、入力軌跡データと辞書データとの判定基準は閾値が１種類で、新規登録か既存軌跡辞書にデータ追加かの２者択一であった。しかし、ユーザによっては、登録した辞書形状が不安定な場合もあり、辞書データとの一致度が低い場合もあるのでそれを改善する処理も考えられる。そこで、判定基準の閾値を２種類定め、閾値の１以下の時は、既存軌跡辞書にデータ追加とし、閾値の１以上で閾値の２以下の時は、既存の形状データに同一形状の別データを追加する構成とする。尚、図１の使用形態及び図２のブロック図は第１の実施形態で説明したものと同様であるので省略する。

図１１は、第２の実施形態の構成図である。１１０１〜１１０８は第１の実施形態の図３の構成図の３０１〜３０８であるので説明を省略する。１１０９は既存軌跡情報追加手段で、既存の形状データに同一形状の別データを追加する物である。

図１２は、入力軌跡の形状と辞書軌跡の形状の例を表した図である。１２０１と１２０４は入力軌跡の例で、１２０２と１２０３は辞書データの例である。

図１３は、辞書データの例であり、図１４は、図の１３の辞書データに軌跡形状データ１つが追加された例である。

図１５は、第２の実施形態のコンテンツへの軌跡入力処理を表したフローチャートである。フローチャートに沿って処理を説明する。

第１の実施形態の図７の７０１〜７０５は図１５の１５０１〜１５０５と、７０７は１５１１と、７０８〜７１０は１５１２〜１５１４と同一の処理であるので説明は省く。

Ｓ１５０６において、入力軌跡の特徴データに一番近い辞書データを検出する処理を行う。単純な例で説明すると、図１２の「辞書データ１」１２０２と「入力データ１」１２０１とマッチングを行い、（正規化した軌跡の特徴点同士の距離差を加算したものを相違度とする。）相違度を計算し記憶する。次に「辞書データ２」１２０３と「入力データ１」１２０１とマッチングを行い、相違度を計算し記憶する。「辞書データ１」１２０２の相違度と「辞書データ２」１２０３の相違度と比較し、相違度が小さい方を入力筆跡に一番近い辞書データに決定する。

Ｓ１５０８において、Ｓ１５０７で決定した相違度と閾値１と比較し、閾値１以下であれば、Ｓ１５１１に進む。閾値１以上であればＳ１５０９に進む処理を行う。図１２に示すように、「入力データ１」１２０１と「辞書データ１」１２０１の場合であると、形状は大体同じでこの場合だと相違度は閾値１以下となり、ステップ３１の処理が適応される。Ｓ１５０９において、Ｓ１５０７で決定した相違度と閾値２と比較し、閾値２以下であれば、Ｓ１５１０に進み、Ｓ１５１２に進む。例えば、「入力データ２」１２０４と「辞書データ１」１２０２との相違度を計算すると、「入力データ１」１２０１との相違度に比べておおきな相違度になる。その場合、閾値１以上で閾値２以下となり、Ｓ１５１０の処理が適応される。

Ｓ１５１０において、入力形状特徴データをマッチした辞書データに追加する処理を行う。図１２、図１３、図１４の例で説明すると、追加される前の辞書データは図３のように、一つの形状データと、「３」が書かれたファイル「０１．ｊｐｇ」ファイル上での軌跡の入力位置の座標データ、「３」が書かれたファイル「０２．ｊｐｇ」ファイル上での軌跡の入力位置の座標データとで構成されている。

そこで入力データとして、図１２の１２０４の軌跡が入力され、「入力データ２」１２０４と「辞書データ１」１２０２との相違度が閾値１以上閾値２以下になる。そして、「入力データ２」１２０４の入力形状特徴データをの「辞書データ１」１２０２の辞書の形状データの後ろに追加する。図１４は追加変更された辞書である。辞書データ１の形状特徴データ１４０１、今回追加された「入力データ２」１２０４から作られた形状特徴データ１４０２、「３」が書かれたファイル「０１．ｊｐｇ」ファイル上での軌跡の入力位置の座標データ１４０３、「３」が書かれたファイル「０２．ｊｐｇ」ファイル上での軌跡の入力位置の座標データ１４０４、「３」が書かれた今回追加の「０３．ｊｐｇ」ファイル上での軌跡の入力位置の座標データ１４０５で構成される。

以上の説明したように、登録した辞書形状が不安定な場合には、形状データを追加していくことによって、分類、検索の効率を上げることが実現できる。

〈第３の実施形態〉
第１の実施形態、第２の実施形態では、コンテンツに自由な形状の筆跡を入力して、分類、検索が出来る情報処理装置を説明したが、ＴＶ等でコンテンツを見ながら分類、検索する時の入力手段として音声の応用も考えられる。第１の実施形態の構成の軌跡入力部分軌跡の辞書部分を音声入力手段と音声分類辞書の構成に変更すれば良い。図１、図２の位置座標入力部を音声入力部に置き換えた以外は第１の実施形態と同様の構成であるので、説明は省略する。

図１６は、第３の実施形態の構成図である。１６０２は音声入力部で、一般的なマイクとＡＤコンバーターで構成されていて、入力された音声がデジタルデータとして取り込まれる。１６０３は、音声マッチング処理手段で、入力された音声データの特徴と辞書データの特徴とマッチングを行う。このマッチングアルゴリズムは従来の音声認識で用いられる一般的な物でいい。１６０４は音声分類辞書で、登録された音声特徴データ、その時のコンテンツデータのファイル名で構成されている。１６０５は新規登録判定手段で、入力された音声データに一致する音声データが登録されていれば、既存音声分類情報追加手段を呼び、辞書に登録されていなければ、新規音声辞書作成手段を呼ぶ処理を行う。１６０６は、既存音声分類情報追加手段で現在のコンテンツ情報をマッチングした音声データに追加する処理を行う。１６０７は、新規音声辞書作成手段で、今回入力された音声データの特徴を７１の辞書に追加する処理を行う。１６０８は、コンテンツデータ選択指示手段でコンテンツのファイルを画面上に表示させる一般的な選択指示処理を行う。

図１７は、音声分類辞書１６０４のデータ構成を表した構造図である。一つの音声分類辞書データは、音声特徴データ１７０１、各コンテンツに対して入力時の音声の音量とコンテンツのファイル名１７０２〜１７０４で構成されている。例えば、花の写真に、「はな」の音声を入力すると、「はな」の音声特徴と、「１３．ｊｐｇ（花が写っている写真のファイル名）」が記録される。

図１８がコンテンツへの音声分類情報入力処理を表したフローチャートである。コンテンツを表示して、そこでマイクに向って、開始ボタンを押し、例えば「みけ」と発話し、記録決定ボタンを押し、音声データがデジタルかされてからこの処理が呼ばれる。Ｓ１８０１において、コンテンツへの音声入力処理を開始する。記憶バッファ等の領域を確保する。Ｓ１８０２において、コンテンツのファイル名を記憶する。現在表示されているコンテンツのファイル名を記憶する処理である。今、「１３．ｊｐｇ」（花の写真）を表示しているならそのファイル名「１３．ｊｐｇ」を記憶する。

１８０３において、入力音声データをバッファに読み込む処理を行う。１８０４において、入力音声データの特徴抽出処理を行う。例えば、特開２００５−１７５８３９号公報に記載されている樣に音声データから特徴パラメータ列に変換する。Ｓ１８０５おいて、図１７に表した辞書データをバッファに読み込む処理を行う。Ｓ１８０１において、入力音声データに類似する辞書音声データが存在するかをチェックする。存在する場合はＳ１８０２に進み、存在しない場合はＳ１８０８に進む。入力された音声の特徴パラメータ列と登録されている音声の特徴パラメータ列とマッチングを行い、一番類似度が高い辞書データの類似度が、閾値以上似ていれば辞書データと同一とする。

Ｓ１８０７において、マッチした音声辞書データに入力音声の音量の値、コンテンツのファイル名を追加する。例えば、「１６．ｊｐｇ」ファイルを見ながら、「みけ」と音量２５ｄｂで発声すると、図１７の辞書の「みけ」とマッチし、音声大きさ「３０ｄｂ」、「１２．ｊｐｇ」の後に「２５ｄｂ」、「１６．ｊｐｇ」が追加される。Ｓ１８０８において、新規音声データを追加するメッセージを表示する。「この音声を追加しますがいいですか、よければＯＫを押し、そうでなければキャンセルを押してください。」の様なメッセージを画面上に表示する。ＯＫが押されれば、１８０９に進み、キャンセルが押されたら、登録しないで、Ｓ１８１１に進む。

Ｓ１８０９において、入力音声データの特徴パラメータを辞書データとして追加する処理を行う。もし、図１７の辞書の状態で、「うみ」と発声すると、図１７の辞書の音声特徴データ内には存在しない為、辞書データ「ふうけい」の後に、「うみ」の音声特徴データを追加する。

Ｓ１８０５において、新規音声辞書特徴データに音声の音量の値、コンテンツのファイル名を追加する。例えば、海の写真「１６．ｊｐｇ」に、３０ｄｂの音量で「うみ」と発声すると、図１７の辞書の音声特徴データ内には存在しない為、辞書データ「ふうけい」の後に、「うみ」の音声特徴データを追加し、その音声特徴データの後ろに、「３０ｄｂ」、「１６．ｊｐｇ」を追加する。以上の処理により、音声分類辞書１６０４が作られる。

図１９は、音声入力によるコンテンツ検索処理を表したフローチャートである。フローチャートに沿って処理を説明する。検索メニューから、音声入力を選択し、検索したいコンテンツの音声を発声すると、このコンテンツ検索処理が開始される。
１９０１において、音声入力による検索処理を開始する。記憶バッファ等の領域を確保する。１９０２で、検索キーとなる音声データをバッファに読み込む処理を行う。１９０３において、読み込んだ音声データから特徴抽出処理を行う。例えば、特開２００５−１７５８３９号公報に記載されている樣に音声データから特徴パラメータ列に変換する。

１９０４において、入力音声データの音量を決定する。例えば、２０ｄｂで発声したら、２０ｄｂに音量測定で決定する。１９０５において、辞書データをバッファに読み込む処理を行う。例えば、図１７に表した辞書データをバッファに読み込む。Ｓ１９０６において、辞書データの音声特徴データと入力音声特徴データの類似度でソートする処理を行う。図１７の辞書データに対して、「ふうけい」と発声して検索すると、ふうけい、音声大きさ「２０ｄｂ」、「１５．ｊｐｇ」が一番になるようにソートされる。

Ｓ１９０７において、各辞書データの音量情報と入力音量情報との比較でソートする。例えば、発声「みけ」で音量３０ｄｂで検索すると、辞書の音声大きさ「３０ｄｂ」、「１２．ｊｐｇ」、音声大きさ「２０ｄｂ」、「１１．ｊｐｇ」にソートされる。Ｓ１９０８において、ソートされた検索結果のコンテンツのサムネールを表示する。例えば、辞書の音声大きさ「３０ｄｂ」、「１２．ｊｐｇ」、音声大きさ「２０ｄｂ」、「１１．ｊｐｇ」が検索結果であれば、最初に「１２．ｊｐｇ」のファイルの画像データを読み込みサムネール画像を作成、検索結果の表示画面に表示する。次に、「１１．ｊｐｇ」のファイルの画像データを読み込みサムネール画像を作成、検索結果の表示画面に表示する。Ｓ１９０９において、この音声入力による検索処理を終了する。

以上の様に構成することにより、コンテンツデータを音声で分類し、音声で高速に検索する情報処理装置を実現できる。音声自体は、使用するユーザの音声データを登録することにより実現するので、高い検索率が実現できる。

以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したプログラムである。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては以下が挙げられる。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などである。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記録媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどとの協働で実施形態の機能が実現されてもよい。この場合、ＯＳなどが、実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行なう。

１０１デジタルＴＶ
１０２ローカルエリアネットワーク
１０３メディアサーバー
１０４情報処理装置
１０５ペン

Claims

複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置であって、
表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第１の軌跡の入力を受け付ける第１の受付手段と、
前記第１の受付手段が入力を受け付けた第１の軌跡に基づいて、前記第１の軌跡が入力されたコンテンツを分類する分類情報を保持する保持手段と、
前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第２の軌跡の入力を受け付ける第２の受付手段と、
前記保持手段が保持する分類情報に基づいて、前記複数のコンテンツのうち、前記第２の受付手段が入力を受け付けた第２の軌跡と形状が類似する第１の軌跡が入力されたコンテンツを取得する取得手段と、
前記取得手段が取得したコンテンツを前記表示部に表示させる表示制御手段と、
を有することを特徴とする情報処理装置。
前記分類情報では、前記第１の受付手段が入力を受け付けた第１の軌跡に対して、前記第１の軌跡が入力された１以上のコンテンツが対応付けられ、
前記取得手段は、前記分類情報に基づいて、前記複数のコンテンツのうち、前記第２の受付手段が入力を受け付けた第２の軌跡と形状が類似する第１の軌跡に対応づけられた１以上のコンテンツを取得する
ことを特徴とする請求項１に記載の情報処理装置。
前記第１の受付手段が入力を受け付けた第１の軌跡と、前記分類情報に含まれている第１の軌跡とを比較する比較手段と、
前記比較手段による比較結果に基き、前記分類情報を更新する更新手段と、
を更に有することを特徴とする請求項２に記載の情報処理装置。
前記第２の受付手段が入力を受け付けた第２の軌跡と、前記コンテンツに対応付けられた第１の軌跡に基づいて前記取得手段が取得したコンテンツをソートするソート手段を更に有し、
前記表示制御手段は、前記ソート手段によるソートに基づいて前記取得手段が取得したコンテンツを前記表示部に表示させる
ことを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置の制御方法であって、
第１の受付手段により、表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第１の軌跡の入力を受け付ける第１の受付工程と、
保持手段により、前記第１の受付工程で入力を受け付けた第１の軌跡に基づいて、前記第１の軌跡が入力されたコンテンツを分類する分類情報を保持する保持工程と、
第２の受付手段により、前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第２の軌跡の入力を受け付ける第２の受付工程と、
取得手段により、前記保持された分類情報に基づいて、前記複数のコンテンツのうち、前記第２の受付工程で入力を受け付けた第２の軌跡と形状が類似する第１の軌跡が入力されたコンテンツを取得する取得工程と、
表示制御手段により、前記取得工程で取得したコンテンツを前記表示部に表示させる表示制御工程と、
を有することを特徴とする情報処理装置の制御方法。
前記分類情報では、前記第１の受付工程で入力を受け付けた第１の軌跡に対して、前記第１の軌跡が入力された１以上のコンテンツが対応付けられ、
前記取得工程では、前記分類情報に基づいて、前記複数のコンテンツのうち、前記第２の受付工程で入力を受け付けた第２の軌跡と形状が類似する第１の軌跡に対応づけられた１以上のコンテンツを取得する
ことを特徴とする請求項５に記載の情報処理装置の制御方法。
比較手段により、前記第１の受付工程で入力を受け付けた第１の軌跡と、前記分類情報に含まれている第１の軌跡とを比較する比較工程と、
更新手段により、前記比較工程での比較結果に基き、前記分類情報を更新する更新工程と、
を更に有することを特徴とする請求項６に記載の情報処理装置の制御方法。
ソート手段により、前記第２の受付工程で入力が受け付けられた第２の軌跡と、前記コンテンツに対応付けられた第１の軌跡に基づいて前記取得工程で取得されたコンテンツをソートするソート工程を更に有し、
前記表示制御工程では、前記ソート工程におけるソートに基づいて前記取得工程で取得されたコンテンツを前記表示部に表示させる
ことを特徴とする請求項５乃至７のいずれか１項に記載の情報処理装置の制御方法。
請求項５に記載の方法をコンピュータに実行させるための制御プログラム。
請求項９に記載の制御プログラムを記憶したコンピュータが読み取り可能な記憶媒体。