JP2014096156A - 情報処理装置、制御方法、制御プログラム及び記憶媒体 - Google Patents

情報処理装置、制御方法、制御プログラム及び記憶媒体 Download PDF

Info

Publication number
JP2014096156A
JP2014096156A JP2013258144A JP2013258144A JP2014096156A JP 2014096156 A JP2014096156 A JP 2014096156A JP 2013258144 A JP2013258144 A JP 2013258144A JP 2013258144 A JP2013258144 A JP 2013258144A JP 2014096156 A JP2014096156 A JP 2014096156A
Authority
JP
Japan
Prior art keywords
trajectory
content
input
data
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013258144A
Other languages
English (en)
Inventor
Tsuneichi Arai
常一 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013258144A priority Critical patent/JP2014096156A/ja
Publication of JP2014096156A publication Critical patent/JP2014096156A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 コンテンツの内容に影響を与えずに、ユーザが容易な操作で意図するコンテンツの分類を行える環境を提供することを目的とする。
【解決手段】 本発明は、複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置であって、表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第1の軌跡の入力を受け付け、前記受け付けた第1の軌跡に基づいて前記第1の軌跡が入力されたコンテンツを分類する分類情報を保持し、前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第2の軌跡の入力を受け付け、前記保持された分類情報に基づいて、前記複数のコンテンツのうち、前記受け付けた第2の軌跡と形状が類似する第1の軌跡が入力されたコンテンツを取得し、前記取得したコンテンツを前記表示部に表示させる。
【選択図】 図2

Description

本発明は、予めコンテンツと軌跡を対応付けて登録した辞書データを用いて、認識された軌跡からコンテンツを検索する情報処理装置に関する。
従来、コンテンツにメタデータを持たせ、メタデータからコンテンツを分類していた。
特許文献1の画像表示装置では、画像データのサムネイルデータから特徴量抽出条件にて各サムネールの特徴量を抽出し分類を行っていた。
また、特許文献2の情報処理装置では、検索キー生成部でストロークデータの入力時におけるペンの操作過程および操作結果から得られる作成日時、入力座標位置、表示面積、線の太さ、記入速度等を検索キーとして検索を行っていた。
また、特許文献3のペンベースコンピューターシステムでは、ファイル名として絵文字イメージを用いて検索を行っていた。
特開2005−236646号公報 特開平10−171835号公報 特開平07−073190号公報
しかしながら、上記特許文献1は、全てが似通った特徴量になった場合、上手く分類されないという問題があった。又、画像による分類であると、ユーザの意図とは異なる分類になる事が多かった。
また、特許文献2は、入力座標位置や作成日時等の操作過程を記憶する必要があった。
また、特許文献3は、ファイル名としての絵文字イメージを全ファイルに対して検索するため処理時間がかかった。
また、これらの特許文献では、1つの分類に対するコンテンツの量が多量になった場合でも初期の分類のままであった。
本発明は上記従来の問題点に鑑み、コンテンツの内容に影響を与えずに、ユーザが容易な操作で意図するコンテンツの分類を行える環境を提供することを目的とする。
上記課題を解決するために、本発明は、複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置であって、表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第1の軌跡の入力を受け付ける第1の受付手段と、前記第1の受付手段が入力を受け付けた第1の軌跡に基づいて、前記第1の軌跡が入力されたコンテンツを分類する分類情報を保持する保持手段と、前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第2の軌跡の入力を受け付ける第2の受付手段と、前記保持手段が保持する分類情報に基づいて、前記複数のコンテンツのうち、前記第2の受付手段が入力を受け付けた第2の軌跡と形状が類似する第1の軌跡が入力されたコンテンツを取得する取得手段と、前記取得手段が取得したコンテンツを前記表示部に表示させる表示制御手段と、を有することを特徴とする。
本発明によれば、表示部に表示されたコンテンツ上に、コンテンツ自体のデータに反映されない第1の軌跡を入力することできるので、コンテンツの内容に影響を与えずに、ユーザが容易な操作で意図するコンテンツの分類を行うことが可能となる。
第1の実施形態の使用形態を表す図である。 第1の実施形態の情報処理装置のブロック図である。 第1の実施形態の情報処理装置の構成図である。 コンテンツ選択画面の例を示す図である。 選択されたコンテンツの全画面表示例を示す図である。 第1の実施形態の軌跡分類辞書のデータ構造を表した構造図である。 コンテンツへの軌跡入力処理を表したフローチャートである。 検索時の軌跡入力画面を示す図である。 検索結果の表示画面を示す図である。 軌跡による検索処理を表したフローチャートである。 第2の実施形態の構成図である。 入力軌跡の形状と辞書軌跡の形状の例を表した図である。 辞書データの例を示す図である。 追加変更された辞書を示す図である。 第2の実施形態のコンテンツへの軌跡入力処理を表したフローチャートである。 第3の実施形態の構成図である。 音声分類辞書1604のデータ構成を表した構造図である。 コンテンツへの音声分類情報入力処理を表したフローチャートである。 音声入力によるコンテンツ検索処理を表したフローチャートである。
以下、添付の図面を参照して本発明の好適な実施形態について説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
〈第1の実施形態〉
図1は第1の実施形態の使用形態を表している。101はデジタルTVであり、液晶表示部、CPU、ROM、RAM、HD、記録メディアを差し込むスロット、他のネットワーク接続機能をもったパーソナルコンピュータと接続するネットワークインターフェイス部とで構成されている。また、他のネットワーク上にある、静止画や動画のコンテンツデータを表示再生するソフトウェアが組込まれている。102は、一般的なローカルエリアネットワークであり、それによりハードディスクレコーダー等の動画や静止画の記録蓄積装置等と接続する。103は、一般的なメディアサーバーで、ローカルエリアネットワーク等で本発明の情報処理装置と接続されている。このメディアサーバー103には、静止画や、動画が記録されており、ローカルエリアネットワークを通して送られてくるデータの送信要求に応じて静止画等のデータをローカルエリアネットワークを通じて送出する。
104は、本発明の情報処理装置で、液晶表示部と、その上に取り付けられている透明抵抗膜方式等のデジタイザ、CPU、メモリ、無線LANチップ等で構成されている。105は、一般的な透明抵抗膜デジタイザ用のペンである。105のペンを利用して、液晶表示部に表示している静止画等に対して、軌跡を入力し、本発明の処理を実施する。
図2は第1の実施形態の情報処理装置のブロック図である。201は、一般的な透明抵抗膜デジタイザで構成される位置座標入力部で、ペン等で表面上を押下されると、押下された位置のXY位置座標データが207のシステムバス経由で203のCPUに送られる。
202は、一般的な液晶表示部で、液晶表示素子、液晶制御回路、表示メモリから構成され、システムバス207経由でCPU203に接続されている。CPU203からの指示で、画像の表示が実行される。203は、一般的なCPUであり、システムバス207を介して、RAM204、ROM205、液晶表示部202等と接続されており、ROM205に記憶されているプログラムによって処理動作を行う。以後のフローチャートの処理はこのCPU203によって実行される。204は、一般的なRAMであり、ワーク領域として使われる。205は、一般的なROMであり、ここに以後に説明するコンテンツの分類軌跡作成処理手順等が記憶されている。206は一般的な情報機器で使用されるフラッシュメモリで、システムバス207経由でCPU203に接続しているため、ローカルな動画や静止画のコンテンツファイルや、設定情報等が記憶されている。207は、一般的なシステムバスで、CPU203、ROM205、RAM204や他のデバイス等とのデータのやり取りを行う。208は、一般的な無線ローカルエリアネットワークチップであり、それにより他のパーソナルコンピュータと通信を行う。尚、コンテンツの例として、以後、静止画を用いて説明するが、動画や音声やテキスト、またそれらを示すサムネールやフォルダ等でも構わない。
図3は、第1の実施形態の情報処理装置の構成図である。301は、一般的な位置座標入力部で透明抵抗膜デジタイザ等で構成されている。ペンで書かれた軌跡等の位置座標データが検出され、図2のCPU203に送られて処理され、図2のRAM204内の特定領域に記憶される。303は、軌跡認識処理手段で、位置座標入力部301から送られてくる軌跡データの形状特徴と軌跡分類辞書304に登録されている辞書内の軌跡特徴データとマッチング処理を行ってその候補辞書データと類似度を返す。
304は、軌跡辞書で、軌跡の特徴データ、その軌跡が書かれたコンテンツのファイル情報等が記録されている。305は、新規登録判定手段で、軌跡認識処理手段303の認識結果に応じて、入力された軌跡を新規登録するか、既存辞書データに情報を追加するかの決定を行う。306は、既存軌跡分類情報追加手段で、既存の軌跡分類辞書データに現在のコンテンツのファイル情報と入力軌跡の位置情報を記録する処理を行う。307は、新規軌跡辞書作成手段で、入力された軌跡の特徴データを辞書データとして、304の軌跡分類辞書に登録する処理を行う。308は、コンテンツ選択手段で、コンテンツのファイルを画面上に表示させる一般的な選択指示処理を行う。302は、一般的な液晶表示部で構成された表示手段で、コンテンツデータ選択手段308で選択されたコンテンツを表示したり、入力された軌跡を描画したりする。
図4は、コンテンツ選択画面の例である。401は、コンテンツの一覧表示領域である。402は一般的なスクロールバーで、座標入力手段で操作する事により画面をスクロールさせる。403は、選択されているコンテンツを表している。選択された状態で、決定すると、そのコンテンツを全画面表示する。
図5は、選択されたコンテンツの全画面表示例である。501がコンテンツを表し、502は、コンテンツ上に記入された軌跡を表している。図1のペン105で、コンテンツ上に自由に軌跡を入力することができる。この記入された軌跡自体は、コンテンツとは別データであるので、表示させたり、隠したりすることができる。
図6は、本実施形態の軌跡分類辞書のデータ構造を表した構造図である。
一つの軌跡の辞書データは、軌跡の特徴データ601と複数の軌跡画面位置情報とファイル情報602〜604で構成されている。
例えば、605の「〇」の軌跡特徴データ、「〇」が書かれた「01.jpg」ファイル上での軌跡の入力位置の座標データ、「〇」が書かれた「02.jpg」ファイル上での軌跡の入力位置の座標データの樣に構成さている。
書かれたファイルが1つだけだと、例えば、「△」軌跡の特徴データの樣に、「△」が書かれた「04.jpg」ファイル上での軌跡の入力位置の座標データの樣になっている。
この軌跡分類辞書から判るように、ユーザ入力した任意の種類の軌跡の形状が記憶されている。
図7は、コンテンツへの軌跡入力処理を表したフローチャートである。この処理は、コンテンツ上に軌跡が入力され、その軌跡の入力が確定したら開始される。例えばペンでの軌跡入力後、決定キーが押されたら開始される。このフローチャートに沿って処理を説明する。
S701で、コンテンツへの軌跡入力処理を開始する。辞書データの記憶バッファ等が初期化される。S702で、現在表示されているコンテンツのファイル名を記憶する処理を行う。例えば、図5の例だと花の写真(06.jpg)のファイル名を記憶する。又此処では、ローカルファイルで説明するが、ネットワーク上のコンテンツであれば例えば、ネットワーク上のファイル名(例えば、¥¥net.com¥¥video¥06.jpg)を記憶する。S703で、画面上に入力された軌跡のXY位置座標データ列を作業バッファに記憶する。S704、記憶した軌跡データ列から軌跡の特徴データを抽出する処理を行う。従来からある軌跡の認識アルゴリズムを適応すればいい。ユーザが記入した手書きを登録し、そのユーザが使用するので、高い認識率が予想される。例えば、入力された軌跡を256*256に正規化し、1筆の軌跡を20等分し、例えばその位置座標を記憶する。
S709で、辞書データの形状特徴データをバッファに読み込む処理を行う。図6の例だと、軌跡特徴データ601、「〇」、「△」、「∠」、「☆」が読み込まれる。S706において、辞書データに同一形状があるかをチェックする。同一形状の辞書データがある場合は、S707に進み、同一形状の辞書データが存在しない場合はS708に進む。この判断は、入力データの特徴データと各辞書データの特徴データとマッチング処理を行い、特徴同士のデータの差分を抽出し、一番差分が少い辞書データが0に近ければ、同一形状で、ある閾値以上であれば、同一形状の物はないと判断する。S707で、マッチした形状データに軌跡画面位置情報、ファイル情報を追加する処理を行う。例えば、図5の502例だと、「〇」の形状であるので、図6の辞書の「〇」形状605のデータにマッチングする。そこで、「〇」が書かれたファイル「02.jpg」ファイル上での軌跡の入力位置の座標データの後に、ファイル名「06.jpg」と入力軌跡の外接枠の最大最小のXY座標データを辞書上に挿入する。
S708において、特徴データを追加するメッセージを表示する処理を行う。これは、軌跡の記入に失敗したのに気付かずに登録してしまうとまずいので、メッセージを表示する。例えば”新規軌跡を登録します。よろしければOKを押して、そうでなければキャンセルを押してください。”のような表示を行う。又システム設定で表示を今後しないような設定ができる。S709において、形状特徴データを辞書データに追加する処理を行う。S704で抽出した特徴データを図3の304の辞書に追加する。例えば、辞書のデータが図6の樣な状態だと、辞書データの終端である「☆」の形状データの後ろに、入力特徴データを追加する。そのデータが辞書データの終端になる。
S710において、上記ステップで追加した辞書データに軌跡画面位置情報、ファイル情報を追加する処理を行う。例えば、図5の花の写真「06.jpg」上に「3」の軌跡を入力すると、「☆」の形状特徴データの後ろに、「3」の形状特徴データが登録され、ファイル名「06.jpg」と入力軌跡の外接枠の最大最小のXY座標データが登録される。S711において、コンテンツへの軌跡入力処理を終了する。
図8は、検索時の軌跡入力画面である。図9は検索結果の表示画面である。図8の801が検索時の軌跡入力ウィンドウである。中止キー802が押下されると、この軌跡による検索処理を中止する。クリアキー803が押下されると、軌跡入力領域805に書かれている軌跡が消去される。検索開始キー804の押下で、軌跡入力領域805に書かれている軌跡を元に検索を開始する。検索開始キー804が押されると図10のフローチャートで表した処理が開始される。
図10は、軌跡による検索処理を表したフローチャートである。フローチャートに沿って処理を説明する。S1001において、入力軌跡による検索処理を開始する。バッファ等の確保、初期化を行う。S1002において、入力された軌跡のXY位置座標データを読み込む処理を行う。図8の軌跡入力領域805内に書かれた軌跡データをバッファに読み込む。S1003において、読み込んだ軌跡データの形状特徴データを抽出する処理を行う。軌跡データXY位置座標値を256*256に正規化し、1筆の軌跡を20等分しその等分した場所の位置座標をデータ列として記憶する。
S1004において、辞書データを作業バッファ領域に読み込む処理を行う。例えば、辞書データが図6の例の場合、軌跡特徴データ601、「〇」、「△」、「∠」、「☆」が読み込まれる。S1005において、形状特徴が一番類似しているものを検出する処理を行う。入力軌跡データから抽出した特徴データXYデータと辞書データXYデータとの距離差を計算し、一番距離差が小さい辞書データが一番形状が類似しているとする。入力データが、図8の805の樣な「○」であれば、辞書データの「○」805が一番類似している。
S1006において、一致した形状データの軌跡画面XY位置座標データとコンテンツファイル情報をバッファに読み込む処理を行う。図6の辞書データの場合、「〇」が書かれたファイル「01.jpg」ファイル上での軌跡の入力位置の座標データ、「〇」が書かれたファイル「02.jpg」ファイル上での軌跡の入力位置の座標データが読み込まれる。S1007において、入力軌跡の外接枠の面積Sを計算する処理を次式にて行う。
S=dx*dy (xmax−xmin=dx,ymax−ymmin=dy)(式1)
S1008において、辞書のコンテンツ記入軌跡データの筆跡面積の近い順にソートする処理を行う。例えば、面積の大きさを大、中、小の三段階とし、検索入力データの筆跡の面積が大なら、大、中、小順にする。S1009において、同一面積の辞書データでは、入力筆跡の外接枠の中心と辞書データの外接枠の中心を比較し、距離の近い順に並べる処理を行う。例えば、入力データが、左上隅に書かれたとして、辞書データが中央、右下隅、左上隅、存在する場合。ソートされて、左上隅、中央、右下隅になる。S1010において、ソートした辞書データのファイル名からファイルデータを読み込む処理を行う。例えば、ソートした結果が、図9に示す01.jpg,02.jpg,06.jpgなら、そのファイルを読み込む。S1011において、読み込んだファイルからサムネール画像を作成し表示する処理を行う。例えば、01.jpg,02.jpg,06.jpgなら、そのファイルからサムネール画像を作成し、図9に示すように01.jpg902,02.jpg903,06.jpg904と順に表示する。そして画像上に軌跡を表示する。S1012において、処理を終了する。ワーク領域等を開放する。
この樣に処理を構成することにより、静止画等のコンテンツデータを任意の形状で任意の種類に分類することができる情報処理装置を実現できる。これにより、キー入力やメニューよる選択等の必要なしに、分類や種類を後から追加できるので、簡単にユーザの意図する分類が可能となる。また、分類したコンテンツを辞書データを用いて入力された軌跡を認識して検索するので、コンテンツを全て検索するより高速に処理を行うことが可能となる。
〈第2の実施形態〉
第1の実施形態では、入力軌跡データと辞書データとの判定基準は閾値が1種類で、新規登録か既存軌跡辞書にデータ追加かの2者択一であった。しかし、ユーザによっては、登録した辞書形状が不安定な場合もあり、辞書データとの一致度が低い場合もあるのでそれを改善する処理も考えられる。そこで、判定基準の閾値を2種類定め、閾値の1以下の時は、既存軌跡辞書にデータ追加とし、閾値の1以上で閾値の2以下の時は、既存の形状データに同一形状の別データを追加する構成とする。尚、図1の使用形態及び図2のブロック図は第1の実施形態で説明したものと同様であるので省略する。
図11は、第2の実施形態の構成図である。1101〜1108は第1の実施形態の図3の構成図の301〜308であるので説明を省略する。1109は既存軌跡情報追加手段で、既存の形状データに同一形状の別データを追加する物である。
図12は、入力軌跡の形状と辞書軌跡の形状の例を表した図である。1201と1204は入力軌跡の例で、1202と1203は辞書データの例である。
図13は、辞書データの例であり、図14は、図の13の辞書データに軌跡形状データ1つが追加された例である。
図15は、第2の実施形態のコンテンツへの軌跡入力処理を表したフローチャートである。フローチャートに沿って処理を説明する。
第1の実施形態の図7の701〜705は図15の1501〜1505と、707は1511と、708〜710は1512〜1514と同一の処理であるので説明は省く。
S1506において、入力軌跡の特徴データに一番近い辞書データを検出する処理を行う。単純な例で説明すると、図12の「辞書データ1」1202と「入力データ1」1201とマッチングを行い、(正規化した軌跡の特徴点同士の距離差を加算したものを相違度とする。)相違度を計算し記憶する。次に「辞書データ2」1203と「入力データ1」1201とマッチングを行い、相違度を計算し記憶する。「辞書データ1」1202の相違度と「辞書データ2」1203の相違度と比較し、相違度が小さい方を入力筆跡に一番近い辞書データに決定する。
S1508において、S1507で決定した相違度と閾値1と比較し、閾値1以下であれば、S1511に進む。閾値1以上であればS1509に進む処理を行う。図12に示すように、「入力データ1」1201と「辞書データ1」1201の場合であると、形状は大体同じでこの場合だと相違度は閾値1以下となり、ステップ31の処理が適応される。S1509において、S1507で決定した相違度と閾値2と比較し、閾値2以下であれば、S1510に進み、S1512に進む。例えば、「入力データ2」1204と「辞書データ1」1202との相違度を計算すると、「入力データ1」1201との相違度に比べておおきな相違度になる。その場合、閾値1以上で閾値2以下となり、S1510の処理が適応される。
S1510において、入力形状特徴データをマッチした辞書データに追加する処理を行う。図12、図13、図14の例で説明すると、追加される前の辞書データは図3のように、一つの形状データと、「3」が書かれたファイル「01.jpg」ファイル上での軌跡の入力位置の座標データ、「3」が書かれたファイル「02.jpg」ファイル上での軌跡の入力位置の座標データとで構成されている。
そこで入力データとして、図12の1204の軌跡が入力され、「入力データ2」1204と「辞書データ1」1202との相違度が閾値1以上閾値2以下になる。そして、「入力データ2」1204の入力形状特徴データをの「辞書データ1」1202の辞書の形状データの後ろに追加する。図14は追加変更された辞書である。辞書データ1の形状特徴データ1401、今回追加された「入力データ2」1204から作られた形状特徴データ1402、「3」が書かれたファイル「01.jpg」ファイル上での軌跡の入力位置の座標データ1403、「3」が書かれたファイル「02.jpg」ファイル上での軌跡の入力位置の座標データ1404、「3」が書かれた今回追加の「03.jpg」ファイル上での軌跡の入力位置の座標データ1405で構成される。
以上の説明したように、登録した辞書形状が不安定な場合には、形状データを追加していくことによって、分類、検索の効率を上げることが実現できる。
〈第3の実施形態〉
第1の実施形態、第2の実施形態では、コンテンツに自由な形状の筆跡を入力して、分類、検索が出来る情報処理装置を説明したが、TV等でコンテンツを見ながら分類、検索する時の入力手段として音声の応用も考えられる。第1の実施形態の構成の軌跡入力部分軌跡の辞書部分を音声入力手段と音声分類辞書の構成に変更すれば良い。図1、図2の位置座標入力部を音声入力部に置き換えた以外は第1の実施形態と同様の構成であるので、説明は省略する。
図16は、第3の実施形態の構成図である。1602は音声入力部で、一般的なマイクとADコンバーターで構成されていて、入力された音声がデジタルデータとして取り込まれる。1603は、音声マッチング処理手段で、入力された音声データの特徴と辞書データの特徴とマッチングを行う。このマッチングアルゴリズムは従来の音声認識で用いられる一般的な物でいい。1604は音声分類辞書で、登録された音声特徴データ、その時のコンテンツデータのファイル名で構成されている。1605は新規登録判定手段で、入力された音声データに一致する音声データが登録されていれば、既存音声分類情報追加手段を呼び、辞書に登録されていなければ、新規音声辞書作成手段を呼ぶ処理を行う。1606は、既存音声分類情報追加手段で現在のコンテンツ情報をマッチングした音声データに追加する処理を行う。1607は、新規音声辞書作成手段で、今回入力された音声データの特徴を71の辞書に追加する処理を行う。1608は、コンテンツデータ選択指示手段でコンテンツのファイルを画面上に表示させる一般的な選択指示処理を行う。
図17は、音声分類辞書1604のデータ構成を表した構造図である。一つの音声分類辞書データは、音声特徴データ1701、各コンテンツに対して入力時の音声の音量とコンテンツのファイル名1702〜1704で構成されている。例えば、花の写真に、「はな」の音声を入力すると、「はな」の音声特徴と、「13.jpg(花が写っている写真のファイル名)」が記録される。
図18がコンテンツへの音声分類情報入力処理を表したフローチャートである。コンテンツを表示して、そこでマイクに向って、開始ボタンを押し、例えば「みけ」と発話し、記録決定ボタンを押し、音声データがデジタルかされてからこの処理が呼ばれる。S1801において、コンテンツへの音声入力処理を開始する。記憶バッファ等の領域を確保する。S1802において、コンテンツのファイル名を記憶する。現在表示されているコンテンツのファイル名を記憶する処理である。今、「13.jpg」(花の写真)を表示しているならそのファイル名「13.jpg」を記憶する。
1803において、入力音声データをバッファに読み込む処理を行う。1804において、入力音声データの特徴抽出処理を行う。例えば、特開2005−175839号公報に記載されている樣に音声データから特徴パラメータ列に変換する。S1805おいて、図17に表した辞書データをバッファに読み込む処理を行う。S1801において、入力音声データに類似する辞書音声データが存在するかをチェックする。存在する場合はS1802に進み、存在しない場合はS1808に進む。入力された音声の特徴パラメータ列と登録されている音声の特徴パラメータ列とマッチングを行い、一番類似度が高い辞書データの類似度が、閾値以上似ていれば辞書データと同一とする。
S1807において、マッチした音声辞書データに入力音声の音量の値、コンテンツのファイル名を追加する。例えば、「16.jpg」ファイルを見ながら、「みけ」と音量25dbで発声すると、図17の辞書の「みけ」とマッチし、音声大きさ「30db」、「12.jpg」の後に「25db」、「16.jpg」が追加される。S1808において、新規音声データを追加するメッセージを表示する。「この音声を追加しますがいいですか、よければOKを押し、そうでなければキャンセルを押してください。」の様なメッセージを画面上に表示する。OKが押されれば、1809に進み、キャンセルが押されたら、登録しないで、S1811に進む。
S1809において、入力音声データの特徴パラメータを辞書データとして追加する処理を行う。もし、図17の辞書の状態で、「うみ」と発声すると、図17の辞書の音声特徴データ内には存在しない為、辞書データ「ふうけい」の後に、「うみ」の音声特徴データを追加する。
S1805において、新規音声辞書特徴データに音声の音量の値、コンテンツのファイル名を追加する。例えば、海の写真「16.jpg」に、30dbの音量で「うみ」と発声すると、図17の辞書の音声特徴データ内には存在しない為、辞書データ「ふうけい」の後に、「うみ」の音声特徴データを追加し、その音声特徴データの後ろに、「30db」、「16.jpg」を追加する。以上の処理により、音声分類辞書1604が作られる。
図19は、音声入力によるコンテンツ検索処理を表したフローチャートである。フローチャートに沿って処理を説明する。検索メニューから、音声入力を選択し、検索したいコンテンツの音声を発声すると、このコンテンツ検索処理が開始される。
1901において、音声入力による検索処理を開始する。記憶バッファ等の領域を確保する。1902で、検索キーとなる音声データをバッファに読み込む処理を行う。1903において、読み込んだ音声データから特徴抽出処理を行う。例えば、特開2005−175839号公報に記載されている樣に音声データから特徴パラメータ列に変換する。
1904において、入力音声データの音量を決定する。例えば、20dbで発声したら、20dbに音量測定で決定する。1905において、辞書データをバッファに読み込む処理を行う。例えば、図17に表した辞書データをバッファに読み込む。S1906において、辞書データの音声特徴データと入力音声特徴データの類似度でソートする処理を行う。図17の辞書データに対して、「ふうけい」と発声して検索すると、ふうけい、音声大きさ「20db」、「15.jpg」が一番になるようにソートされる。
S1907において、各辞書データの音量情報と入力音量情報との比較でソートする。例えば、発声「みけ」で音量30dbで検索すると、辞書の音声大きさ「30db」、「12.jpg」、音声大きさ「20db」、「11.jpg」にソートされる。S1908において、ソートされた検索結果のコンテンツのサムネールを表示する。例えば、辞書の音声大きさ「30db」、「12.jpg」、音声大きさ「20db」、「11.jpg」が検索結果であれば、最初に「12.jpg」のファイルの画像データを読み込みサムネール画像を作成、検索結果の表示画面に表示する。次に、「11.jpg」のファイルの画像データを読み込みサムネール画像を作成、検索結果の表示画面に表示する。S1909において、この音声入力による検索処理を終了する。
以上の様に構成することにより、コンテンツデータを音声で分類し、音声で高速に検索する情報処理装置を実現できる。音声自体は、使用するユーザの音声データを登録することにより実現するので、高い検索率が実現できる。
以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したプログラムである。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては以下が挙げられる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などである。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記録媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどとの協働で実施形態の機能が実現されてもよい。この場合、OSなどが、実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行なう。
101 デジタルTV
102 ローカルエリアネットワーク
103 メディアサーバー
104 情報処理装置
105 ペン

Claims (10)

  1. 複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置であって、
    表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第1の軌跡の入力を受け付ける第1の受付手段と、
    前記第1の受付手段が入力を受け付けた第1の軌跡に基づいて、前記第1の軌跡が入力されたコンテンツを分類する分類情報を保持する保持手段と、
    前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第2の軌跡の入力を受け付ける第2の受付手段と、
    前記保持手段が保持する分類情報に基づいて、前記複数のコンテンツのうち、前記第2の受付手段が入力を受け付けた第2の軌跡と形状が類似する第1の軌跡が入力されたコンテンツを取得する取得手段と、
    前記取得手段が取得したコンテンツを前記表示部に表示させる表示制御手段と、
    を有することを特徴とする情報処理装置。
  2. 前記分類情報では、前記第1の受付手段が入力を受け付けた第1の軌跡に対して、前記第1の軌跡が入力された1以上のコンテンツが対応付けられ、
    前記取得手段は、前記分類情報に基づいて、前記複数のコンテンツのうち、前記第2の受付手段が入力を受け付けた第2の軌跡と形状が類似する第1の軌跡に対応づけられた1以上のコンテンツを取得する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の受付手段が入力を受け付けた第1の軌跡と、前記分類情報に含まれている第1の軌跡とを比較する比較手段と、
    前記比較手段による比較結果に基き、前記分類情報を更新する更新手段と、
    を更に有することを特徴とする請求項2に記載の情報処理装置。
  4. 前記第2の受付手段が入力を受け付けた第2の軌跡と、前記コンテンツに対応付けられた第1の軌跡に基づいて前記取得手段が取得したコンテンツをソートするソート手段を更に有し、
    前記表示制御手段は、前記ソート手段によるソートに基づいて前記取得手段が取得したコンテンツを前記表示部に表示させる
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 複数のコンテンツを分類して、前記分類に基づいてコンテンツを検索することが可能な情報処理装置の制御方法であって、
    第1の受付手段により、表示部に表示されているコンテンツ上で、該コンテンツの分類を指示し、かつ該コンテンツ自体には反映されない第1の軌跡の入力を受け付ける第1の受付工程と、
    保持手段により、前記第1の受付工程で入力を受け付けた第1の軌跡に基づいて、前記第1の軌跡が入力されたコンテンツを分類する分類情報を保持する保持工程と、
    第2の受付手段により、前記表示部に表示された検索画面上で、前記複数のコンテンツのうち前記表示部に表示させるコンテンツを指示する第2の軌跡の入力を受け付ける第2の受付工程と、
    取得手段により、前記保持された分類情報に基づいて、前記複数のコンテンツのうち、前記第2の受付工程で入力を受け付けた第2の軌跡と形状が類似する第1の軌跡が入力されたコンテンツを取得する取得工程と、
    表示制御手段により、前記取得工程で取得したコンテンツを前記表示部に表示させる表示制御工程と、
    を有することを特徴とする情報処理装置の制御方法。
  6. 前記分類情報では、前記第1の受付工程で入力を受け付けた第1の軌跡に対して、前記第1の軌跡が入力された1以上のコンテンツが対応付けられ、
    前記取得工程では、前記分類情報に基づいて、前記複数のコンテンツのうち、前記第2の受付工程で入力を受け付けた第2の軌跡と形状が類似する第1の軌跡に対応づけられた1以上のコンテンツを取得する
    ことを特徴とする請求項5に記載の情報処理装置の制御方法。
  7. 比較手段により、前記第1の受付工程で入力を受け付けた第1の軌跡と、前記分類情報に含まれている第1の軌跡とを比較する比較工程と、
    更新手段により、前記比較工程での比較結果に基き、前記分類情報を更新する更新工程と、
    を更に有することを特徴とする請求項6に記載の情報処理装置の制御方法。
  8. ソート手段により、前記第2の受付工程で入力が受け付けられた第2の軌跡と、前記コンテンツに対応付けられた第1の軌跡に基づいて前記取得工程で取得されたコンテンツをソートするソート工程を更に有し、
    前記表示制御工程では、前記ソート工程におけるソートに基づいて前記取得工程で取得されたコンテンツを前記表示部に表示させる
    ことを特徴とする請求項5乃至7のいずれか1項に記載の情報処理装置の制御方法。
  9. 請求項5に記載の方法をコンピュータに実行させるための制御プログラム。
  10. 請求項9に記載の制御プログラムを記憶したコンピュータが読み取り可能な記憶媒体。
JP2013258144A 2013-12-13 2013-12-13 情報処理装置、制御方法、制御プログラム及び記憶媒体 Pending JP2014096156A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013258144A JP2014096156A (ja) 2013-12-13 2013-12-13 情報処理装置、制御方法、制御プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013258144A JP2014096156A (ja) 2013-12-13 2013-12-13 情報処理装置、制御方法、制御プログラム及び記憶媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006344275A Division JP5464786B2 (ja) 2006-12-21 2006-12-21 情報処理装置、制御方法、及び制御プログラム

Publications (1)

Publication Number Publication Date
JP2014096156A true JP2014096156A (ja) 2014-05-22

Family

ID=50939132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013258144A Pending JP2014096156A (ja) 2013-12-13 2013-12-13 情報処理装置、制御方法、制御プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2014096156A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015028778A (ja) * 2014-07-06 2015-02-12 洋彰 宮崎 自律学習型パターン認識機

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63228874A (ja) * 1987-03-17 1988-09-22 Nec Corp 画像フアイル方式とその装置
JPH03142663A (ja) * 1989-10-30 1991-06-18 Hitachi Ltd 文書ファイル装置
JP2000322423A (ja) * 1999-05-10 2000-11-24 Nec Viewtechnology Ltd 画像管理装置、及び画像管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63228874A (ja) * 1987-03-17 1988-09-22 Nec Corp 画像フアイル方式とその装置
JPH03142663A (ja) * 1989-10-30 1991-06-18 Hitachi Ltd 文書ファイル装置
JP2000322423A (ja) * 1999-05-10 2000-11-24 Nec Viewtechnology Ltd 画像管理装置、及び画像管理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015028778A (ja) * 2014-07-06 2015-02-12 洋彰 宮崎 自律学習型パターン認識機

Similar Documents

Publication Publication Date Title
US9058375B2 (en) Systems and methods for adding descriptive metadata to digital content
JP5791605B2 (ja) メタデータのタグ付けシステム、イメージ検索方法、デバイス及びそれに適用されるジェスチャーのタグ付け方法
CA2970728C (en) Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
US9348906B2 (en) Method and system for performing an audio information collection and query
KR101929301B1 (ko) 필기 제스처 인식을 통한 휴대단말의 기능 실행 제어 방법 및 장치
TW201523426A (zh) 顯示於觸控螢幕上的可動作內容
US9335965B2 (en) System and method for excerpt creation by designating a text segment using speech
CN108509107A (zh) 应用功能信息显示方法、装置及终端设备
CN105474207A (zh) 用于搜索多媒体内容的用户界面方法和设备
US7451090B2 (en) Information processing device and information processing method
KR20130082339A (ko) 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
CN109325143B (zh) 制作歌单的方法及装置、存储介质、处理器
JP5464786B2 (ja) 情報処理装置、制御方法、及び制御プログラム
WO2013189317A1 (zh) 基于人脸信息的多媒体交互方法及装置及终端
EP2682931A1 (en) Method and apparatus for recording and playing user voice in mobile terminal
CN108256071B (zh) 录屏文件的生成方法、装置、终端及存储介质
JP2020009011A (ja) フォトブック作製システム及びサーバ装置
JP2014096156A (ja) 情報処理装置、制御方法、制御プログラム及び記憶媒体
US20120059855A1 (en) Method and computer program product for enabling organization of media objects
CN104978389A (zh) 方法、系统、服务器和客户端
JP2019008684A (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP2020009012A (ja) フォトブック作製システム及びサーバ装置
JP7288491B2 (ja) 情報処理装置、及び制御方法
KR20240097324A (ko) 섬네일 이미지를 이용하여 음성데이터에 대한 직관적인 검색을 지원하는 장치 및 방법
CN118151811A (zh) 信息录入方法、电子设备和可读存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140729

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150203