JP2005276187A - 画像識別方法および端末装置 - Google Patents

画像識別方法および端末装置 Download PDF

Info

Publication number
JP2005276187A
JP2005276187A JP2005049662A JP2005049662A JP2005276187A JP 2005276187 A JP2005276187 A JP 2005276187A JP 2005049662 A JP2005049662 A JP 2005049662A JP 2005049662 A JP2005049662 A JP 2005049662A JP 2005276187 A JP2005276187 A JP 2005276187A
Authority
JP
Japan
Prior art keywords
image
file
image file
voice
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005049662A
Other languages
English (en)
Inventor
Edward M Sugiyama
マサミ スギヤマ エドワード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2005276187A publication Critical patent/JP2005276187A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27467Methods of retrieving data
    • H04M1/27475Methods of retrieving data using interactive graphical means or pictorial representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 手動でファイル名を入力することなく、撮影した画像を表す画像ファイルを識別する。
【解決手段】 カメラ付き移動通信装置における音声認識システムを用いた画像ファイルの識別方法(10)は、上記移動通信装置のデジタルカメラを用いて、画像ファイルに画像を収集する工程(12)と、上記画像ファイルに音声タグを付加する工程(14)と、上記移動通信装置に画像ファイルおよび音声タグを格納する工程(16)と、上記音声タグを発声することにより、画像の検索を起動する工程(18)と、上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程(20)と、上記入力された音声タグに対して格納された画像を検索する工程(22)と、上記入力された音声タグに対応する画像を表示する工程(24)とを含んでいる。
【選択図】 図1



Description

本発明は、移動通信装置(mobile communication handsets)、および、特に、画像を格納するカメラ付きGSM通信機に関する。
近年のカメラ付き移動通信装置(たとえば、パナソニックGU−87、ノキア3650、サムソンV205、シャープGX−20)は、取得した画像を、別々のフォルダーまたはアルバムに、自動的に分類したり、名前付けしたりすることがない。その代わりに、画像に対応した固有のファイル名を装置内で生成して、このファイル名を画像に付して格納する。移動通信装置は、このようなファイル名を、画像に対して任意に設定する。このようにして画像に付される名前は、移動通信装置に格納されている画像(またはグループ化された複数の画像)をユーザが見つける際の助けにならない。特に、移動通信装置が、画像をサムネイル状態にプレビューする機能を有していない場合、どのような特定の画像も、どこに格納されているのかわからなくなってしまう。
ユーザが既に知っているファイル名か、または画像を説明するためのファイル名を、画像に定義する方法の1つに、移動通信装置に備えられるキーパッドを用いて、ファイル名を手動で入力するものがある。しかし、このような、手動でキーを入力する方法は、極めて面倒である。たとえば、移動通信装置において「soccer」という単語を入力するとする。このとき、ユーザは、「7」キーを4回、「6」キーを3回、「2」キーを3回押下し、いったん休止し、「2」キーを3回、「6」キーを3回、「3」キーを2回、「7」キーを3回、押下する必要がある。たとえ、たとえばT9のような最適化されたキーパッド入力方法を利用できるとはいえ、このような入力方法は依然として面倒である。したがって、これらの解決策は、画像に素早く名前を付することに適さない。
特許文献1には、(1)住所録、(2)データ・ブック、(3)メモ帳、(4)To‐Doリスト、(5)予定管理ソフト、(6)家計簿(expense tracker)、(7)e‐mailクライアント、および、(8)プロジェクト・マネージャのうちの少なくとも1つ(これは、多重データ入力を含んでいる)を表示する表示部を含んでいる、携帯型データ収集装置が開示されている。このデータ収集装置には、入力装置が接続されているため、ユーザからの音声データを適切に受信できる。また、このデータ収集装置は、音声データを格納し、かつ、音声データを少なくとも1つのデータ項目と対応付ける。
特許文献2には、音声認識機能および音声合成機能を有する携帯電話が開示されている。この形態電話は、1組の音声コマンドに対応した1組の音声認識テンプレートを格納する記憶装置と、音声コマンドを電気的信号に変換する変換器とを備えている。また、記憶装置に格納され、変換された音声コマンドが1組の音声コマンドのうちの1つに対応しているかどうかを識別する上記テンプレートと共に、変換された音声コマンドを解析する信号処理装置が備えられている。電話のユーザは、選択された言語用の1組のテンプレートを、中央局から無線伝送チャネルを介して(電話の記憶装置に)ダウンロードすることを選択できる。この文献2には、ユーザが発した音声と、装置に格納されている指示テンプレートとが一致しているかどうかを決定するために、移動装置において音声認識を使用することが記載されている。すなわち、この装置に向けて発せられた音声は、タグとして用いられない。
特許文献3には、医用画像を識別するデータを入力し、これらの識別データを医用画像と組み合わせる、識別局(identification station)が開示されている。この識別局には、音声認識用のサブ装置と、音声識別を介してデータを入力するマイクとが備えられている。この引例では、ネットワークに接続されているPCまたはワークステーションを使用する必要がある。また、このシステムは、医用画像を格納するための音声識別データを使用する。
特許文献4には、第1ユーザ選択可能オプション(first−user−selectable options)を提供するUI(ユーザインタフェース)を備えている電子装置が開示されている。この電子装置では、第1ユーザ選択可能オプションのうちの特定の1つを選択するために、第2ユーザ選択可能オプション(second−user−selectable options)が用いられる。提供された場合(when rendered)の第1オプションの情報解像度(information resolution)は、提供された場合の第2オプションの情報解像度とは異なっている。さらに、第1オプションから選択するためのUIと、ユーザとの相互関係の第1様式は、第2オプションから選択するためのUIと、ユーザとの相互関係の第2様式と異なっている。この引例には、装置(携帯電話を含む)に格納されている特定の電話番号またはアドレスを表示するために、音声認識システムを使用することが記載されている。
特許文献5には、PDA用の音声認識モジュールが開示されている。この音声認識モジュールは、PDAの付属機能(たとえば付属スロット、音声コマンドをユーザから受信するマイク、および、音声認識システム)との連動用に設計されたモジュールハウジングを含んでいる。この装置では、音声コマンド電気信号が、ポータブルコンピュータデバイスに伝送される。これにより、ポータブルコンピュータデバイスにおいて実行されるソフトウェアアプリケーションプログラムの動作を制御できる。特に、メニュー項目を、たとえば体重調節プログラム中のユーザ用のダイエットログを作成するために選択する。このシステムは、音声認識ソフトウェアを有するPDAを使用する。
特許文献6には、ハードコピーまたは電子的形態によって、ユーザに画像を示すシステムが開示されている。画像が有する特定のピクチャ機能は、それぞれ、ユーザに示される情報を有している。ユーザは、たとえば、機能選択ツールを用いてピクチャ機能を選択することにより、このような情報を求める。また、ユーザが、情報を提供しないピクチャ機能を選択するとき、この機能の識別子(たとえば画像の座標)が出力され、ピクチャおよびそれに対応する情報をユーザに提供する。好ましくは、ピクチャ機能についての情報を求めるために、ユーザは、この機能を選択すると共に、音声によってクエリを入力する。たとえば、選択された機能がその情報を有していない場合に、ユーザのクエリも、ピクチャおよびそれに対応する情報の提供に関わる人物に返信される。この引例は、サーバから画像またはピクチャにアクセスするために、音声ブラウザを使用することについて記載している。音声コマンドは、携帯電話を介して送信してもよく、また、サーバからこの携帯電話に画像を送信してもよい。
Majaniemi、米国特許番号第6,178,403、Mobile communication devices having speech recognition functionality(特許付与日:2002年5月21日)。 Detlef、米国特許番号第6,393,403、Distributed voice capture and recognition system(特許付与日:2001年1月23日)。 Dewaele、米国特許番号第6,047,257、Identification of medical images through speech recognition」、特許付与日:2000年4月4日) Shteyn、米国特許公開番号第20030117365、UI with graphics−assisted voice control system、公開日:2003年6月26日) Mauli、米国特許公開番号第20030163321、Speech recognition capability for a personal digital assistant(公開日:2003年8月28日) Belrose、アメリカ特許公開番号第20030144843、Method and system for collecting user−interest information regarding a picture、公開日:2003年7月31日
しかし、上述した各特許文献には、以下に示す問題点がある。
特許文献1は、カメラ付き移動通信装置に関するものではなく、また、音声タグを、端末装置によって収集された画像や動画に関連づける点に関して、何ら開示していない。
特許文献2では、端末装置に入力される音声は、タグとして利用されない。
特許文献3では、ネットワークを利用する必要があり、また、医療用の画像を扱うことに限定されている。
特許文献4は、格納されている画像や動画に音声タグを関連づける点に関して、何ら開示していない。
特許文献5では、ユーザが入力した音声を、タグとして利用していない。
特許文献6では、保存されている画像を取得して表示するために、サーバに接続する必要がある。
本発明の目的は、音声タグを用いて画像ファイルを識別する方法を提供することにある。本発明の他の目的は、格納された画像を、手動のキーパッド入力を行わないで識別することにある。また、本発明のさらに他の目的は、埋込み型音声タグを備えた、画像、1組の画像、または、ビデオを提供することにある。また、本発明の他の目的は、格納された音声タグ付きの画像の検索を、音声認識の開始によって行うことを提供することにある。
本発明の概要および目的は、本発明を迅速に理解できるように記載したものである。本発明の好ましい実施形態についての以下の詳細な説明を、図面と共に参照することにより、本発明をより詳しく理解できる。
本発明は上記の課題を解決するためになされたものであり、その目的は、画像識別方法および端末装置を提供することにある。
本発明に係る画像ファイルの識別方法は、上記の課題を解決するために、カメラ付き移動通信装置における音声認識システムを用いた画像ファイルの識別方法であって、上記移動通信装置のデジタルカメラを用いて、画像ファイルに画像を収集する工程と、上記画像ファイルに音声タグを付加する工程と、上記移動通信装置に画像ファイルおよび音声タグを格納する工程と、上記音声タグを発声することにより、画像の検索を起動する工程と、上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程と、上記入力された音声タグに対して格納された画像を検索する工程と、上記入力された音声タグに対応する画像を表示する工程とを含んでいることを特徴としている。
また、本発明に係る画像ファイルの識別方法では、単一の音声タグが、関連する1群の画像に対応していることが好ましい。
また、本発明に係る画像ファイルの識別方法では、上記画像がビデオ画像であることが好ましい。
本発明に係る画像ファイルの識別方法は、上記の課題を解決するために、カメラ付き移動通信装置の音声認識システムを用いた画像ファイルの識別方法であって、上記移動通信装置のデジタルカメラを用いて、画像ファイルに、単一の画像と、1組の画像と、ビデオとを含んだ1組の画像を収集する工程と、上記画像ファイルに、音声タグを付加する工程と、上記移動通信装置に、画像ファイルおよび音声タグを格納する工程と、上記音声タグを発声することにより、画像の検索を起動する工程と、上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程と、上記入力された音声タグに対して格納された画像を検索する工程と、上記入力された音声タグに対応する画像を表示する工程とを含んでいることを特徴としている。
本発明に係る画像ファイルの識別方法は、上記の課題を解決するために、カメラ付き移動通信装置の音声認識システムを用いた画像ファイルの識別方法であって、上記移動通信装置のデジタルカメラを用いて、画像ファイルに画像を収集する工程と、上記画像ファイルに音声タグを付ける工程と、上記移動通信装置に、画像ファイルおよび音声タグを格納する工程とを含んでいることを特徴としている。
また、本発明に係る画像ファイルの識別方法は、上記音声タグを発声することにより、画像の検索を起動する工程と、上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程と、上記入力された音声タグに対して格納された画像を検索する工程と、上記入力された音声タグに対応した画像を表示する工程とをさらに含んでいることが好ましい。
また、本発明に係る画像ファイルの識別方法では、単一の音声タグが、関連する1群の画像に対応していることが好ましい。
また、本発明に係る画像ファイルの識別方法では、上記画像がビデオ画像であることが好ましい。
本発明に係る端末装置は、上記の課題を解決するために、カメラ、マイク、および記憶部を備えた端末装置において、上記カメラを操作して画像を撮影し、当該撮影した画像を表す画像ファイルを生成する画像撮影手段と、上記マイクを通じて入力された音声を録音し、当該録音した音声を表す音声ファイルを生成する音声録音手段と、上記音声ファイルを、上記画像ファイルを識別するための音声タグとして上記画像ファイルに関連づけ、上記画像ファイルと共に上記記憶部に保存する画像ファイル保存手段とを備えていることを特徴としている。
上記の構成によれば、本装置では、画像撮影手段が、カメラを操作して画像を撮影する。これにより、カメラによって撮影された画像を表す画像ファイルを生成する。この画像ファイルとして、たとえば、ビットマップファイルや、JPEGファイルを生成する。
本装置では、音声録音手段が、マイクを通じて入力された音声を録音する。これにより、マイクを通じて録音された音声を表す音声ファイルを生成する。この音声ファイルとして、たとえば、WAVEファイルやMP3ファイルを生成する。
さらに、本装置では、画像ファイル保存手段が、画像ファイルを記憶部に保存する。このとき、画像ファイル保存手段は、音声ファイルを、画像ファイルを識別するための音声タグとして画像ファイルに関連づけ、画像ファイルと共に記憶部に保存する。たとえば、画像ファイルに音声ファイルを付加することによって、音声ファイル付き画像ファイルを生成し記憶部に保存する。
以上の処理によって、本装置に備えられる記憶部には、音声ファイル付き画像ファイルが格納される。このとき格納される画像ファイルには、画像ファイルを識別するための音声タグとしての音声ファイルが付加されている。すなわち、画像ファイルに付加されている音声ファイルは、画像ファイルの識別に用いることが可能なファイル名としての役割が与えられる。
このように、本装置では、画像を撮影することによって取得した画像ファイルに、名前を設定する(ファイル名を付する)際、ユーザは、キーパッドなどの手入力を要する入力手段を用いる必要がない。したがって、ユーザは、わずらわしい手入力を要することなく、画像ファイルに簡単にファイル名を設定し、画像ファイルを識別できる効果を奏する。
また、本発明に係る端末装置は、上記マイクを通じて入力された検索用音声を記録し、当該記録した検索用音声を表す検索用音声ファイルを生成する検索用音声録音手段と、上記検索用音声録音手段によって生成された上記検索用音声ファイルと、上記記憶部に格納されている画像ファイルに関連付けられている音声ファイルとを比較することによって、上記検索用音声ファイルに少なくとも部分的に一致する音声ファイルに関連づけられている画像ファイルを検索する画像ファイル検索手段とをさらに備えていることが好ましい。
本装置では、検索用音声録音手段が、マイクを通じて入力された検索用音声を録音する。これにより、マイクを通じて録音された検索用音声を表す音声ファイルを生成する。この音声ファイルとして、たとえば、WAVEファイルやMP3ファイルを生成する。
さらに、本装置では、画像ファイル検索手段が、検索用音声録音手段によって生成された検索用音声ファイルと、記憶部に格納されている画像ファイルに関連付けられている音声ファイルとを比較する。これにより、検索用音声ファイルに少なくとも部分的に一致する音声ファイルに関連づけられている画像ファイルを、記憶部から検索する。ここでいう「少なくとも部分的に一致する」とは、検索用音声ファイルの少なくとも一部が、音声ファイルの少なくとも一部に一致することを意味する。すなわち、この表現には、検索用音声ファイルと音声ファイルとが完全に一致する意味も含まれる。
さらに、ここでいう「一致」とは、比較対象のデータ列が実質的に一致することを意味する。すなわち、この表現には、比較対象のデータ構造そのものが完全に一致する意味、および、比較対象のデータによって表される音声が互いに一致する意味を含んでいる。
以上のように、本装置では、音声タグとしての音声ファイルによってファイル名が付されている画像ファイルを、ユーザが発した検索用音声に基づき検索し見つけ出すことができる。したがって、画像ファイルを検索する際、ユーザは、画像ファイルのファイル名を、キーパッドなどの手入力を要する入力手段を用いる必要がない。これにより、ユーザは、わずらわしい手入力を要することなく、画像ファイルを簡単に検索できる効果を奏する。
以上のように、本発明に係る画像ファイルの識別方法は、画像ファイルに音声タグを関連づけて格納する工程を含んでいるため、手動でファイル名を入力することなく、撮影した画像を表す画像ファイルを識別することができる効果を奏する。
本発明の一実施形態について、図1〜図4を参照して以下に説明する。
本発明に係る方法は、画像を「名前付け」するものである。ここでいう「画像」とは、カメラ付き移動端末装置が収集し、かつ、音声タグを用いて格納する、デジタル画像およびビデオの少なくともいずれかであると定義される。本発明に係る方法における音声タグを、画像を後に検索するために使用してもよい。本発明に係る方法の利点は、ユーザが手動でキー入力を全く行わずに、端末装置に組み込まれた音声記録機能および音声検出機能を使用することにより、格納された画像を名前付けできる点にある。さらに、ユーザは、音声タグによって識別された画像を、迅速に検索かつ表示できる。ユーザが画像を検索した後、画像を、スライドショーの一部として表示してもよいし、PCまたは他の画像取得装置に電子メールによって送信してもよいし、あるいは、他のマルチメディア装置(たとえばTV)に伝送してもよい。
以下に、図1を参照しながら、本発明に係る方法の概略を10に示す。図1は、本発明の方法を示すブロック図である。デジタル画像を、移動端末装置に内蔵されているCCDカメラを用いて収集する(12)。端末装置のコーデックを用いて、音声タグを、デジタル画像の一部として記録する(14)。
画像を格納するために、ユーザは、端末装置のカメラ機能を用いて、所望の画像を収集する。音声タグは、端末装置のマイクによって記録される。この画像および音声タグに了解すると、ユーザは、画像および音声タグを、端末装置の記憶装置に、単一のオブジェクトとして格納する(16)。単一のイベントに対応した複数の画像については、ユーザは、このイベントに対する1組の画像の中のどの画像に対しても、単一の音声タグを用いることができる。
ユーザが、画像、1組の画像、または、ビデオを取り出すことができる状態にある場合、ユーザは、この画像の音声タグを用いて、端末装置に音声で語る。この音声認識アルゴリズム(標準的には、音声起動ダイアル操作)は、入力される音声と、音声タグとを比較し、解析する。音声タグを用いた結果として、一致する画像を端末装置に表示する。検索工程では、ユーザが、正確な音声タグを用いて端末装置のマイクに音声を語ることが求められる(18)。入ってくる音声を音声符号/復号化器が処理し(20)、音声タグと一致しているかを判断する(22)。全て一致していることが明らかになると、特定の音声タグに対応した画像が表示される(24)。ユーザは、画像を1つずつ表示する必要はなく、表示された全ての画像を、メールサーバ、他の端末装置、フォルダー、または、PCに送信できる。さらに、画像はビデオを含んでいてもよい。そのため、所望の画像を、今後観賞するために、TVまたはビデオレコーダに伝送してもよい。TVを用いた場合、ビデオと静止画像とを鑑賞できる。
以上のように、音声認識を用いて移動通信装置の画像を識別し分類するための方法およびシステムを開示した。特許請求の範囲に規定するような本発明の範囲内で、本発明をさらに変更および修正してもよいことが理解されるだろう。
以上に説明した画像識別方法を実行する通信端末装置1の詳細について、図2〜図4を参照して以下に説明する。まず、通信端末装置1の構成の一例について、図2を参照して以下に説明する。
図2は、本発明の一実施形態に係る通信端末装置1の構成を詳細に示すブロック図である。この図に示すように、通信端末装置1は、制御部30、操作部32、表示部34、通信部36、無線アンテナ38、カメラ40、画像撮影部42(画像撮影手段)、画像ファイル処理部44、画像ファイル保存部46(画像ファイル保存手段)、記憶部48、マイク50、音声録音部52(音声録音手段)、音声ファイル処理部54、および画像ファイル検索部56(画像ファイル検索手段)を備えている。
制御部30は、通信端末装置1全体の動作を統括的に制御する。
操作部32は、ユーザによる操作を受け付け、受け付けた操作に対応するコマンド信号を制御部30に出力する。
表示部34は、ユーザによる操作を受け付けるための画面を表示したり、後述するカメラ40によって撮影された画像を表示したり、後述する画像ファイル検索部56によって検索された画像ファイルが表す画像を表示したりする。
通信部36は、無線アンテナ38を介して、他の装置やサーバとの間でデータをやり取りする。
カメラ40は、画像を撮影する。このカメラ40は、たとえばデジタルカメラである。
画像撮影部42は、カメラ40を操作して画像を撮影する。これにより、撮影した画像を表す画像ファイルを生成する。
画像ファイル処理部44は、画像撮影部42によって生成された画像ファイルに、圧縮等の所定の処理を施す。
画像ファイル保存部46は、画像ファイルを記憶部48に保存する。その際、後述する音声録音部52によって生成される音声ファイルを、画像ファイルを識別するための音声タグとして画像ファイルに関連づける。これにより、画像ファイル保存部46は、音声ファイル付きの画像ファイルを、記憶部48に保存する。
記憶部48は、音声ファイル付きの画像ファイルを格納する。この記憶部48は、たとえばハードディスクなどの、不揮発性の記憶装置である。
マイク50は、音声を録音する。このマイク50は、一般に知られている通常のマイクであればよい。
音声録音部52は、マイク50を通じて入力された音声を録音する。これにより、録音した音声を表す音声ファイルを生成する。
音声ファイル処理部54は、音声ファイルに、圧縮処理や、音声の特徴部分の切り出し処理などの所定の処理を施す。
画像ファイル検索部56は、音声録音部52によって生成された検索用音声ファイルと、記憶部48に格納されている画像ファイルに関連付けられている音声ファイルとを比較する。これにより、検索用音声ファイルに少なくとも部分的に一致する音声ファイルに関連づけられている画像ファイルを検索する。
通信端末装置1が、撮影した画像を表す画像ファイルに、録音した音声を表す音声ファイルを音声タグとして関連づけて記憶部48に保存する処理の流れの一例を、図3を参照して以下に説明する。図3は、通信端末装置1が、画像ファイルに音声タグを関連づけて記憶部48に保存する処理の流れの一例を示すフローチャートである。
この図に示すように、通信端末装置1は、画像の撮影処理を開始する前に、ユーザによる撮影操作を待つ。具体的には、ユーザが操作部32を通じて、カメラ40のシャッター操作を行うことを待つ。ここで、ユーザによって、カメラ40のシャッターがオンにされたか否かを、制御部30が判定する(S30)。シャッターがオンにされない場合(No)、制御部30は、S30における判定を繰り返す。シャッターがオンにされた場合(Yes)、画像撮影部42が、カメラ40を操作して画像を撮影する。そして、撮影した画像を表す画像ファイルを生成し、画像ファイル処理部44に出力する。画像ファイル処理部44は、圧縮などの所定の処理を画像ファイルに施し、処理後の画像ファイルを画像ファイル保存部46に出力する。
次に、通信端末装置1は、ユーザに対して、撮影した画像を保存するか否かを問い合わせる(S31)。具体的には、表示部34に、ユーザに対して撮影した画像を保存するか否かを問い合わせる画面を表示する。ここで、ユーザが、表示部34に表示されている「保存」ボタンを押下するなどして、撮影した画像を保存することを選択する(Yes)と、画像ファイル保存部46は、入力された画像ファイルを、いったん、記憶部48に保存する(S32)一方、ユーザが、表示部34に表示されている「No」ボタンを押下するなどして、撮影した画像を保存しないことを選択する(No)と、画像ファイル保存部46は、入力された画像ファイルを消去する。このとき撮影処理はS30に戻り、繰り返される。
次に、通信端末装置1は、音声の録音を開始する(S33)。具体的には、ユーザが、操作部32の一部としての録音開始スイッチを操作して、録音処理を開始する。ユーザは、マイク50に向かって、画像ファイルに付加する名前を音声として発声する。通信端末装置1では、音声録音部52が、マイク50を通じて入力された音声を録音する。
ここで、音声録音部52による音声の録音中、制御部30は、ユーザが音声の録音を終了させる操作を行ったか否かを判定する(S34)。具体的には、制御部30は、ユーザが、操作部32の一部である録音停止スイッチを押下したか否かを判定する。制御部30が、ユーザによる録音停止スイッチの押下を検出しない場合(No)、音声録音部52は、音声の録音を続ける。一方、制御部30が、ユーザによる録音停止スイッチの押下を検出した場合(Yes)、音声録音部52は、音声の録音を終了し、録音した音声を表す音声ファイルを生成する。これにより、音声録音部52は、生成した音声ファイルを音声ファイル処理部54に出力する。音声ファイル処理部54は、入力された音声ファイルに、圧縮や、音声の特徴部分の切り出しなどの所定の処理を施し(S35)、処理後の音声ファイルを画像ファイル保存部46に出力する。
音声ファイルが入力されると、画像ファイルは、一時的に保存した画像ファイルを記憶部48から読み出す。そして、入力された音声ファイルを、画像ファイルを識別するための音声タグとして画像ファイルに関連づける。たとえば、画像ファイルに音声ファイルを付加して、音声ファイル付きの画像ファイルを生成する。これにより、画像ファイル保存部46は、音声ファイル付きの画像ファイルを記憶部48に保存する(S36)。
この後、通信端末装置1は、ユーザに対して、画像の撮影を終了するべきか否かを問い合わせる(S37)。具体的には、表示部34に、撮影を終了するべきか否かを問い合わせる画面を表示する。ここで、ユーザが、操作部32を通じて、表示部34に表示されている「終了」ボタンを押下するなどして、撮影を終了すべきことを選択する(Yes)と、通信端末装置1における画像の撮影処理は終了する。一方、ユーザが、操作部32を通じて、表示部34に表示されている「No」ボタン押下するなどして、撮影を終了すべきでないことを選択する(No)と、処理はS30に戻って、上述した一連の撮影処理が繰り返される。
以上の処理によって、通信端末装置1に備えられる記憶部48には、音声ファイル付き画像ファイルが格納される。このとき格納される画像ファイルには、画像ファイルを識別するための音声タグとしての音声ファイルが付加されている。すなわち、画像ファイルに付加されている音声ファイルは、画像ファイルの識別に用いることが可能なファイル名としての役割が与えられる。
このように、通信端末装置1では、画像を撮影することによって取得した画像ファイルに、名前を設定する(ファイル名を付する)際、ユーザは、キーパッドなどの手入力を要する入力手段を用いる必要がない。したがって、ユーザは、わずらわしい手入力を要することなく、画像ファイルに簡単にファイル名を設定でき、画像ファイルを識別できる。
通信端末装置1が、録音した検索用音声に基づき、記憶部48に格納されている画像ファイルを検索する処理の流れの一例を、図4を参照して以下に説明する。図4は、通信端末装置1が、入力された検索用音声に基づき、記憶部48に格納されている画像ファイルを検索する処理の流れの一例を示すフローチャートである。
ユーザは、マイク50に向かって、画像ファイルを検索するための検索用音声を発声する。通信端末装置1では、音声録音部52が、マイク50を通じて入力された検索用音声を録音する(S40)。音声録音部52は、録音した検索用音声を表す検索用音声ファイルを生成し、音声ファイル処理部54に出力する。音声ファイル処理部54は、入力された検索用音声ファイルを、画像ファイル検索部56に出力する。
上述したように、記憶部48には、音声ファイル付き画像ファイルが格納されている。そこで、画像ファイル検索部56は、記憶部48に格納されている最初の音声ファイル付き画像ファイルを読み出す。画像ファイル検索部56は、画像ファイルに付加されている音声ファイルと、入力された検索用音声ファイルとを比較して、両者が一致しているか否かを判定する(S41)
ここで、両者が一致していると判定した場合(Yes)、画像ファイル検索部56は、一致していると判定した音声ファイルに関連している画像ファイルを選択する(S42)。具体的には、たとえば、画像ファイルに選択フラッグを立てる。一方、両者が一致していないと判定した場合(No)、画像ファイル検索部56は、一致していないと判定した音声ファイルを選択しない(S43)。そのため、このような画像ファイルには選択フラッグを立てない。
画像ファイル検索部56は、記憶部48にアクセスし、他に、検索の対象としていない、音声ファイル付き画像ファイルが存在するか否かを判定する。すなわち、画像ファイル検索部56は、一致性を判定した画像ファイルが、最後の画像ファイルであるか否かを判定する(S44)。ここで、最後の画像ファイルでないと判定した場合(No)、画像ファイル検索部56は、記憶部48から、まだ検索の対象としていない音声ファイル付き画像ファイルを、次の候補として選択する(S45)。これにより、処理はS41に戻って、画像ファイル検索部56は、次の候補としての音声ファイル付き画像ファイルを対象に、上述した一致性判定処理を行う。
一方、画像ファイル検索部56は、一致性を判定した画像ファイルが、最後の画像ファイルであると判定した場合(Yes)、選択した画像を一括して処理する(S46)。具体的には、選択フラッグを立てた画像ファイル(複数の画像ファイルであってもよい)を、制御部30に出力する。これにより、制御部30は、入力された画像ファイルが表す画像を表示部34に表示する。
以上のように、通信端末装置1では、音声タグとしての音声ファイルによってファイル名が付されている画像ファイルを、ユーザが発した検索用音声に基づき検索し見つけ出すことができる。したがって、画像ファイルを検索する際、ユーザは、画像ファイルのファイル名を、キーパッドなどの手入力を要する入力手段を用いる必要がない。これにより、ユーザは、わずらわしい手入力を要することなく、画像ファイルを簡単に検索できる。
なお、本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
たとえば、カメラ40は、画像に加え、動画を撮影することもできる。したがって、画像ファイル保存部46は、動画を表す動画ファイルに、音声を表す音声ファイルを音声タグとして関連づけ、共に記憶部48に保存してもよい。このことから、画像ファイル検索部56は、音声ファイル付き動画ファイルを、検索の対象とすることもできる。
また、画像ファイル検索部56は、検索用音声ファイルに少なくとも部分的に一致する音声ファイルに関連づけられている画像ファイルを、記憶部48から検索すればよい。ここでいう「少なくとも部分的に一致する」とは、検索用音声ファイルの少なくとも一部が、音声ファイルの少なくとも一部に一致することを意味する。したがって、画像ファイル検索部56は、検索用音声ファイルの少なくとも一部と、音声ファイルの少なくとも一部が互いに一致するか否かを判定すればよい。ここで、両者が一致する場合、画像ファイル検索部56は、一致すると判定した音声ファイルに関連づけられている画像ファイルを検索する。
また、「少なくとも部分的に一致する」とは、検索用音声ファイルと音声ファイルとが完全に一致する意味も含んでいる。したがって、画像ファイル検索部56は、検索用音声ファイルと、音声ファイルとが、互いに完全に同一なファイルである場合、両者が一致していると判定すればよい。
さらに、ここでいう「一致」とは、比較対象のデータ列が実質的に一致することを意味する。すなわち、この表現は、比較対象のデータ構造そのものが完全に一致する意味、および、比較対象のデータによって表される音声が互いに一致する意味を含んでいる。後者の場合、画像ファイル検索部56は、検索用音声ファイルおよび音声ファイルを音声解析(音声認識)する機能を有していればよい。これにより、検索用音声ファイルが表す音声の一部と、音声ファイルが表す音声の一部とが、互い一致している場合に、検索用音声ファイルと音声ファイルとが互いに一致していると判定すればよい。このとき、画像ファイル検索部56は、音声ファイルが部分的に一致する画像ファイルを検索するため、完全一致の場合に比べてより多くの画像ファイルを検索できる。
画像ファイルのファイル形式は、画像をコードする形式であれば、どのようなものでもかまわない。たとえば、ビットマップファイル形式や、JPEGファイル形式であればよいし、これらに限定されるものでもない。
音声ファイルのファイル形式は、音声をコードする形式であれば、どのようなものでもかまわない。たとえば、WAVE形式や、MP3形式であればよいし、これらに限定されるものでもない。また、画像ファイル検索部56は、音声ファイルのファイル形式に対応して、音声ファイルが表す音声の特徴を抽出できればよい。
画像ファイル保存部46は、画像ファイルに付加されている音声ファイルを更新してもよい。具体的には、記憶部48に保存されている画像ファイルに付加されている音声ファイルを、入力された他の音声ファイルに置き換えてもよい。この場合、ユーザは、画像にいったん付した名前を、別の名前に変換できる。
さらに、画像ファイル保存部46は、互いに関連する複数の画像ファイル群に、一つの音声ファイルを関連づけてもよい。たとえば、連続して撮影した一連の画像を表す複数の画像ファイルの全てに、録音した日付に関する音声を表す音声ファイルを関連づけてもよい。このようにすれば、画像ファイルをより効率的に管理、識別できる。また、画像ファイル検索部56が画像ファイルを検索する際に、関連した画像ファイル群に一度にヒットできる。
通信端末装置1は、音声ファイルを関連づけた画像ファイルを、通信ネットワーク回線を介して、他の装置やサーバに送信してもよい。このとき、通信部36が、音声ファイル付き画像ファイルを記憶部48から読み出し、無線アンテナ38を介して送信する。
また、通信端末装置1は、検索用音声が入力されることをトリガとして、上述した、画像ファイルの検索処理を自動的に実行してもよい。
また、通信端末装置1では、移動通信装置のデジタルカメラを用いて、画像ファイルに画像を収集する工程を、画像撮影部42が実行する。画像ファイルに音声タグを付加する工程を、画像ファイル保存部46が実行する。移動通信装置に画像ファイルおよび音声タグを格納する工程を、画像ファイル保存部46が実行する。音声タグを発声することにより、画像の検索を起動する工程を、音声録音部52が実行する。移動通信装置の音声認識装置によって入力された音声タグを処理する工程を、音声ファイル処理部54が実行する。入力された音声タグに対して格納された画像を検索する工程を、画像ファイル検索部56が実行する。入力された音声タグに対応する画像を表示する工程を、表示部34が実行する。
また、本発明の名称を、カメラ付き移動通信端末装置の画像を識別および分類するための音声認識の使用であると表現してもよい。
なお、上述した各部材は、いずれも機能ブロックである。したがって、これらの部材は、CPUなどの演算手段が、図示しない記憶部に格納された画像識別プログラムを実行し、図示しない入出力回路などの周辺回路を制御することによって、実現される。
したがって、本発明の目的は、上述した機能を実現するソフトウェアである画像識別プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータによって読み取り可能に記録している記録媒体を、通信端末装置1に供給し、通信端末装置1に備えられるコンピュータ(またはCPUやMPU、DSP)が、記録媒体に記録されているプログラムコードを読み出し実行することによって、達成可能である。
この場合、記録媒体から読み出されたプログラムコード自体が、上述した機能を実現する。そのため、そのプログラムコードを記録している記録媒体は、本発明を構成することになる。
一方で、上述した各部材は、上述したソフトウェアと同様の処理を行うハードウェアとして実現してもよい。この場合、本発明の目的は、ハードウェアとしての通信端末装置によって達成されることになる。
ここで、プログラムコードを読み出し実行する演算手段は、単体の構成であればよい。または、通信端末装置内部のバスや各種の通信路を介して接続されている複数の演算手段が、プログラムコードを協同して実行する構成であってもよい。
演算手段によって直接的に実行可能なプログラムコードを、このプログラムコードを格納しているコンピュータ読み取り可能な記録媒体を通じて、通信端末装置に配布すればよい。また、プログラムコードを、後述する解凍などの処理によってプログラムコードを生成可能なデータとして、当該データを格納しているコンピュータ読み取り可能な記録媒体に通じて、通信端末装置に配布してもよい。あるいは、これらのプログラムコードまたはデータを、有線または無線の通信路を介してデータを伝送する通信ネットワークを通じて、通信端末装置に配布または送信してもよい。いずれの手段によって配布または送信されても、プログラムコードは、通信端末装置に備えられる演算手段によって実行される。
このとき、特定のものに限定されない各種の通信ネットワークを通じて、プログラムコードまたはデータを伝送できる。このような通信ネットワークの具体例を挙げると、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等がある。また、通信ネットワークを構成する伝送媒体(通信路)も、特に限定されない。具体的には、IEEE1394規格による回線、USB回線、電力線、ケーブルTV回線、電話線、およびADSL回線等の有線を、伝送媒体として利用できる。さらに、IrDAやリモコンに用いられている赤外線を利用した無線、Bluetooth規格またはIEEE802.11無線規格に規定されている無線、HDR、携帯電話網、衛星回線、地上波デジタル網等を利用した無線も、伝送媒体として利用できる。
なお、プログラムコードを通信端末装置に配布するための記録媒体は、プログラムコードの配布前には、取り外し可能になっていることが好ましい。しかし、プログラムコードを配布した後には、通信端末装置装置から取り外し可能になっていてもよく、通信端末装置と一体化されて取り外し不可能になっていてもよい。
また、記録媒体は、プログラムコードが記録されてさえいれば、書き換え(書き込み)可能であってもよく、不可能であってもよい。また、揮発性であってもよく、非揮発性であってもよい。さらに、記録媒体へのプログラムコードの記録方法、および記録媒体の形状も、任意のものでよい。
このような条件を満たす記録媒体を例示すると、磁気テープやカセットテープなどのテープ、フロッピー(登録商標)ディスクやハードディスクなどの磁気ディスク、CD−ROMや光磁気ディスク(MO)、ミニディスク(MD)、デジタルビデオディスク(DVD)などのディスクがある。さらに、ICカードや光カードのようなカード型メモリ、あるいは、マスクROMやEPROM、EEPROMまたはフラッシュROMなどの半導体メモリも該当する。さらに、CPUなどの演算手段内に形成されているメモリも該当する。
なお、プログラムコードを記録媒体から読み出して主記憶に格納するためのプログラムは、あらかじめ、通信端末装置内に、コンピュータによって実行可能に格納されている。また、プログラムコードを通信ネットワークを通じて通信端末装置に配布する場合、通信ネットワークからプログラムコードをダウンロードするプログラムは、あらかじめ、通信端末装置内に、コンピュータによって実行可能に格納されている。
また、プログラムコードは、上述した各処理の全手段を演算手段へ指示するコードであればよい。なお、コンピュータには、プログラムコードによる各処理の一部または全部を所定の手順で呼び出すことによって実行可能な基本プログラム(たとえば、オペレーティングシステムやライブラリなど)がすでに存在している場合がある。この場合、プログラムコードにおける全手順の一部または全部を、この基本プログラムの呼び出しを演算手段へ指示するコードやポインタなどに置き換えたプログラムコードものを、画像識別プログラムのプログラムコードとしてもよい。
また、記録媒体に、実メモリにプログラムコードを配置した状態のように、画像識別プログラムを格納すればよい。具体的には、演算手段が記録媒体にアクセスしてプログラムコードを実行できる形式によって、画像識別プログラムを記録媒体に格納すればよい。または、実メモリにプログラムコードを配置する前であり、かつ、演算手段が常時アクセス可能なローカルな記録媒体(たとえばハードディスクなど)にインストールした後の格納形式によって、画像識別プログラムを記録媒体に格納してもよい。あるいは、通信ネットワークや搬送可能な記録媒体などからローカルな記録媒体にインストールする前の格納形式によって、画像識別プログラムを記録媒体に格納してもよい。
画像識別プログラムは、コンパイルされた後のオブジェクトコードに限られない。たとえば、画像識別プログラムは、ソースコードとして記録媒体に格納されていてもよい。あるいは、インタプリトまたはコンパイルの途中において生成される中間コードとして、記録媒体に格納されていてもよい。上述したいずれの場合であっても、記録媒体に格納されているプログラムコード(中間コード)は、演算手段が実行可能な形式に変換可能なものであればよい。
すなわち、プログラムコード(中間コード)は、所定の形式変換プログラムが、圧縮されたプログラムコードを解凍したり、符号化されたプログラムコードを復元したり、ソースコードをインタプリト、コンパイル、リンク、または、実メモリへ配置したりすることによって、あるいはこれらの処理を組み合わせて実行することによって、演算手段が実行可能な形式に変換されるものであればよい。これにより、画像識別プログラムを記録媒体に格納する際の格納形式にかかわらず、同様の効果を得ることができる。
本発明は、携帯電話などの移動通信端末装置における画像ファイルの整理、識別に広く利用できる。また、通信機能は必ずしも必須ではないので、PDAなどの端末装置にも利用できる。
本発明の方法を示すブロック図である。 本発明の一実施形態に係る通信端末装置の構成を詳細に示すブロック図である。 通信端末装置が、画像ファイルに音声タグを関連づけて記憶部に保存する処理の流れの一例を示すフローチャートである。 通信端末装置が、入力された検索用音声に基づき、記憶部に格納されている画像ファイルを検索する処理の流れの一例を示すフローチャートである。
符号の説明
1 通信端末装置(端末装置)
30 制御部(制御手段)
32 操作部
34 表示部
36 通信部(通信手段)
38 無線アンテナ
40 カメラ
42 画像撮影部(画像撮影手段)
44 画像ファイル処理部(画像ファイル処理手段)
46 画像ファイル保存部(画像ファイル保存手段)
48 記憶部
50 マイク
52 音声録音部(音声録音手段、検索用音声録音手段)
54 音声ファイル処理部(音声ファイル処理手段)
56 画像ファイル検索部(画像ファイル検索手段)

Claims (10)

  1. カメラ付き移動通信装置における音声認識システムを用いた画像ファイルの識別方法であって、
    上記移動通信装置のデジタルカメラを用いて、画像ファイルに画像を収集する工程と、
    上記画像ファイルに音声タグを付加する工程と、
    上記移動通信装置に画像ファイルおよび音声タグを格納する工程と、
    上記音声タグを発声することにより、画像の検索を起動する工程と、
    上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程と、
    上記入力された音声タグに対して格納された画像を検索する工程と、
    上記入力された音声タグに対応する画像を表示する工程とを含んでいることを特徴とする方法。
  2. 単一の音声タグが、関連する1群の画像に対応していることを特徴とする請求項1に記載の方法。
  3. 上記画像がビデオ画像であることを特徴とする請求項1に記載の方法。
  4. カメラ付き移動通信装置の音声認識システムを用いた画像ファイルの識別方法であって、
    上記移動通信装置のデジタルカメラを用いて、画像ファイルに、単一の画像と、1組の画像と、ビデオとを含んだ1組の画像を収集する工程と、
    上記画像ファイルに、音声タグを付加する工程と、
    上記移動通信装置に、画像ファイルおよび音声タグを格納する工程と、
    上記音声タグを発声することにより、画像の検索を起動する工程と、
    上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程と、
    上記入力された音声タグに対して格納された画像を検索する工程と、
    上記入力された音声タグに対応する画像を表示する工程とを含んでいることを特徴とする方法。
  5. カメラ付き移動通信装置の音声認識システムを用いた画像ファイルの識別方法であって、
    上記移動通信装置のデジタルカメラを用いて、画像ファイルに画像を収集する工程と、
    上記画像ファイルに音声タグを付ける工程と、
    上記移動通信装置に、画像ファイルおよび音声タグを格納する工程とを含んでいることを特徴とする方法。
  6. 上記音声タグを発声することにより、画像の検索を起動する工程と、
    上記移動通信装置の音声認識装置によって入力された音声タグを処理する工程と、
    上記入力された音声タグに対して格納された画像を検索する工程と、
    上記入力された音声タグに対応した画像を表示する工程とをさらに含んでいることを特徴とする請求項5に記載の方法。
  7. 単一の音声タグが、関連する1群の画像に対応していることを特徴とする請求項5に記載の方法。
  8. 上記画像がビデオ画像であることを特徴とする請求項5に記載の方法。
  9. カメラ、マイク、および記憶部を備えた端末装置において、
    上記カメラを操作して画像を撮影し、当該撮影した画像を表す画像ファイルを生成する画像撮影手段と、
    上記マイクを通じて入力された音声を録音し、当該録音した音声を表す音声ファイルを生成する音声録音手段と、
    上記音声ファイルを、上記画像ファイルを識別するための音声タグとして上記画像ファイルに関連づけ、上記画像ファイルと共に上記記憶部に保存する画像ファイル保存手段とを備えていることを特徴とする端末装置。
  10. 上記マイクを通じて入力された検索用音声を記録し、当該記録した検索用音声を表す検索用音声ファイルを生成する検索用音声録音手段と、
    上記検索用音声録音手段によって生成された上記検索用音声ファイルと、上記記憶部に格納されている画像ファイルに関連付けられている音声ファイルとを比較することによって、上記検索用音声ファイルに少なくとも部分的に一致する音声ファイルに関連づけられている画像ファイルを検索する画像ファイル検索手段とを備えていることを特徴とする請求項9に記載の端末装置。

JP2005049662A 2004-02-26 2005-02-24 画像識別方法および端末装置 Pending JP2005276187A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/789,286 US20050192808A1 (en) 2004-02-26 2004-02-26 Use of speech recognition for identification and classification of images in a camera-equipped mobile handset

Publications (1)

Publication Number Publication Date
JP2005276187A true JP2005276187A (ja) 2005-10-06

Family

ID=34887241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005049662A Pending JP2005276187A (ja) 2004-02-26 2005-02-24 画像識別方法および端末装置

Country Status (2)

Country Link
US (1) US20050192808A1 (ja)
JP (1) JP2005276187A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009516268A (ja) * 2005-11-10 2009-04-16 メロディス コーポレイション 非テキストベースの情報を記憶し、検索するシステムおよび方法
JP2010278612A (ja) * 2009-05-27 2010-12-09 Kyocera Corp 携帯端末、電子カメラおよび連続撮影プログラム
KR20110001551A (ko) * 2009-06-30 2011-01-06 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR20110035036A (ko) * 2009-09-29 2011-04-06 엘지전자 주식회사 휴대 단말기 및 그 제어방법
US8185577B2 (en) 2006-09-26 2012-05-22 Sony Corporation Content management apparatus, web server, network system, content management method, content information management method, and program
JP2013521567A (ja) * 2010-03-05 2013-06-10 インターナショナル・ビジネス・マシーンズ・コーポレーション クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
JP2013534764A (ja) * 2010-10-28 2013-09-05 ▲華▼▲為▼▲終▼端有限公司 メディアファイルを関連付けるための方法およびデバイス
KR101356006B1 (ko) * 2012-02-06 2014-02-12 한국과학기술원 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치
KR101449862B1 (ko) 2013-07-02 2014-10-08 주식회사 엘지유플러스 촬영 영상을 음성 인식된 정보와 매칭시켜 저장하기 위한 촬영 장치, 그 제어방법 및, 기록 매체
KR20150092390A (ko) * 2014-02-03 2015-08-13 주식회사 엠앤엘솔루션 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
JP2020509504A (ja) * 2017-03-20 2020-03-26 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. 画像のタグ付け方法、装置及び電子機器
JP2020205014A (ja) * 2019-06-19 2020-12-24 レクシスノア株式会社 サーバ

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US20060154642A1 (en) * 2004-02-20 2006-07-13 Scannell Robert F Jr Medication & health, environmental, and security monitoring, alert, intervention, information and network system with associated and supporting apparatuses
JP4429081B2 (ja) * 2004-06-01 2010-03-10 キヤノン株式会社 情報処理装置及び情報処理方法
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
TWI247545B (en) * 2004-11-12 2006-01-11 Quanta Comp Inc Video conferencing system utilizing a mobile phone and the method thereof
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
KR100790177B1 (ko) * 2006-04-28 2008-01-02 삼성전자주식회사 휴대단말기에서 이미지 디스플레이 방법 및 장치
US20080063156A1 (en) 2006-08-28 2008-03-13 Sony Ericsson Mobile Communications Ab System and method for coordinating audiovisual content with contact list information
US20080075433A1 (en) * 2006-09-22 2008-03-27 Sony Ericsson Mobile Communications Ab Locating digital images in a portable electronic device
JP5144424B2 (ja) * 2007-10-25 2013-02-13 キヤノン株式会社 撮像装置及び情報処理方法
US20090150158A1 (en) * 2007-12-06 2009-06-11 Becker Craig H Portable Networked Picting Device
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
KR101604692B1 (ko) * 2009-06-30 2016-03-18 엘지전자 주식회사 이동 단말기 및 그 제어 방법
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US20120252353A1 (en) * 2011-03-29 2012-10-04 Ronald Steven Cok Image collection annotation using a mobile communicator
KR101787178B1 (ko) * 2011-07-12 2017-11-15 휴렛 팩커드 엔터프라이즈 디벨롭먼트 엘피 오디오 샘플
EP2779621B1 (en) 2011-11-07 2021-12-22 Sony Interactive Entertainment Inc. Image generation device, image generation method and program
EP2779620B8 (en) 2011-11-07 2016-09-28 Sony Interactive Entertainment Inc. Image generation device, and image generation method
US9894272B2 (en) 2011-11-07 2018-02-13 Sony Interactive Entertainment Inc. Image generation apparatus and image generation method
US10284776B2 (en) * 2011-11-07 2019-05-07 Sony Interactive Entertainment Inc. Image generation apparatus and image generation method
US20130250139A1 (en) * 2012-03-22 2013-09-26 Trung Tri Doan Method And System For Tagging And Organizing Images Generated By Mobile Communications Devices
EP3474523B1 (en) * 2012-04-12 2020-04-08 Telefonaktiebolaget LM Ericsson (publ) Pairing a mobile terminal with a wireless device
CN103092981B (zh) * 2013-01-31 2015-12-23 华为终端有限公司 一种建立语音标记的方法及电子设备
KR102252072B1 (ko) * 2014-10-14 2021-05-14 삼성전자주식회사 음성 태그를 이용한 이미지 관리 방법 및 그 장치
US9769367B2 (en) 2015-08-07 2017-09-19 Google Inc. Speech and computer vision-based control
US10732809B2 (en) 2015-12-30 2020-08-04 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US9836819B1 (en) 2015-12-30 2017-12-05 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US9838641B1 (en) 2015-12-30 2017-12-05 Google Llc Low power framework for processing, compressing, and transmitting images at a mobile image capture device
US9836484B1 (en) 2015-12-30 2017-12-05 Google Llc Systems and methods that leverage deep learning to selectively store images at a mobile image capture device
US10225511B1 (en) 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
US10623935B2 (en) * 2017-04-27 2020-04-14 Phillip Lucas Williams Wireless system for improved storage management
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
CN111355912A (zh) * 2020-02-17 2020-06-30 江苏济楚信息技术有限公司 一种执法记录方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0471070A (ja) * 1990-07-11 1992-03-05 Minolta Camera Co Ltd カメラシステム
JPH0998367A (ja) * 1995-10-03 1997-04-08 Canon Inc 信号処理装置
JPH11341421A (ja) * 1998-03-25 1999-12-10 Sanyo Electric Co Ltd デジタルカメラ
JP2003274320A (ja) * 2002-03-15 2003-09-26 Konica Corp 画像撮像装置、画像情報処理装置及び画像情報処理方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3399674B2 (ja) * 1994-12-19 2003-04-21 エヌイーシーインフロンティア株式会社 画面制御装置とその方法
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition
US6047257A (en) * 1997-03-01 2000-04-04 Agfa-Gevaert Identification of medical images through speech recognition
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
US6101338A (en) * 1998-10-09 2000-08-08 Eastman Kodak Company Speech recognition camera with a prompting display
US6178403B1 (en) * 1998-12-16 2001-01-23 Sharp Laboratories Of America, Inc. Distributed voice capture and recognition system
US6718308B1 (en) * 2000-02-22 2004-04-06 Daniel L. Nolting Media presentation system controlled by voice to text commands
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
US7392193B2 (en) * 2000-06-16 2008-06-24 Microlife Corporation Speech recognition capability for a personal digital assistant
US6804652B1 (en) * 2000-10-02 2004-10-12 International Business Machines Corporation Method and apparatus for adding captions to photographs
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
US6791529B2 (en) * 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system
GB0129787D0 (en) * 2001-12-13 2002-01-30 Hewlett Packard Co Method and system for collecting user-interest information regarding a picture
GB2409365B (en) * 2003-12-19 2009-07-08 Nokia Corp Image handling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0471070A (ja) * 1990-07-11 1992-03-05 Minolta Camera Co Ltd カメラシステム
JPH0998367A (ja) * 1995-10-03 1997-04-08 Canon Inc 信号処理装置
JPH11341421A (ja) * 1998-03-25 1999-12-10 Sanyo Electric Co Ltd デジタルカメラ
JP2003274320A (ja) * 2002-03-15 2003-09-26 Konica Corp 画像撮像装置、画像情報処理装置及び画像情報処理方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053183B2 (en) 2005-11-10 2015-06-09 Soundhound, Inc. System and method for storing and retrieving non-text-based information
JP2009516268A (ja) * 2005-11-10 2009-04-16 メロディス コーポレイション 非テキストベースの情報を記憶し、検索するシステムおよび方法
US10650090B2 (en) 2006-09-26 2020-05-12 Sony Corporation Content management apparatus, web server, network system, content management method, content information management method, and program
US8185577B2 (en) 2006-09-26 2012-05-22 Sony Corporation Content management apparatus, web server, network system, content management method, content information management method, and program
US8635301B2 (en) 2006-09-26 2014-01-21 Sony Corporation Content management apparatus, web server, network system, content management method, content information management method, and program
US9172585B2 (en) 2006-09-26 2015-10-27 Sony Corporation Content management apparatus, web server, network system, content management method, content information management method, and program
JP2010278612A (ja) * 2009-05-27 2010-12-09 Kyocera Corp 携帯端末、電子カメラおよび連続撮影プログラム
KR20110001551A (ko) * 2009-06-30 2011-01-06 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR101578006B1 (ko) * 2009-06-30 2015-12-16 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR101597102B1 (ko) * 2009-09-29 2016-02-24 엘지전자 주식회사 휴대 단말기 및 그 제어방법
KR20110035036A (ko) * 2009-09-29 2011-04-06 엘지전자 주식회사 휴대 단말기 및 그 제어방법
JP2013521567A (ja) * 2010-03-05 2013-06-10 インターナショナル・ビジネス・マシーンズ・コーポレーション クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
JP2013534764A (ja) * 2010-10-28 2013-09-05 ▲華▼▲為▼▲終▼端有限公司 メディアファイルを関連付けるための方法およびデバイス
KR101356006B1 (ko) * 2012-02-06 2014-02-12 한국과학기술원 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치
KR101449862B1 (ko) 2013-07-02 2014-10-08 주식회사 엘지유플러스 촬영 영상을 음성 인식된 정보와 매칭시켜 저장하기 위한 촬영 장치, 그 제어방법 및, 기록 매체
KR20150092390A (ko) * 2014-02-03 2015-08-13 주식회사 엠앤엘솔루션 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
KR101592981B1 (ko) 2014-02-03 2016-02-12 주식회사 엠앤엘솔루션 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
JP2020509504A (ja) * 2017-03-20 2020-03-26 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. 画像のタグ付け方法、装置及び電子機器
US11321583B2 (en) 2017-03-20 2022-05-03 Cloudminds Robotics Co., Ltd. Image annotating method and electronic device
JP2020205014A (ja) * 2019-06-19 2020-12-24 レクシスノア株式会社 サーバ

Also Published As

Publication number Publication date
US20050192808A1 (en) 2005-09-01

Similar Documents

Publication Publication Date Title
JP2005276187A (ja) 画像識別方法および端末装置
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
US8462231B2 (en) Digital camera with real-time picture identification functionality
US8615395B2 (en) Generating a display screen in response to detecting keywords in speech
US6903767B2 (en) Method and apparatus for initiating data capture in a digital camera by text recognition
US8301995B2 (en) Labeling and sorting items of digital data by use of attached annotations
WO2007148188A2 (en) System, device, method, and computer program product for annotating media files
US20040119837A1 (en) Image pickup apparatus
US20070239457A1 (en) Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management
US20030189642A1 (en) User-designated image file identification for a digital camera
US11611600B1 (en) Streaming data processing for hybrid online meetings
JP2005065286A (ja) カメラ付き携帯用端末機での住所録管理装置及び方法
JP2017021672A (ja) 検索装置
JP2019135609A (ja) 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム
CN102402570B (zh) 数据管理设备和记录介质
JP2008205963A (ja) 情報処理端末装置、そのデータ保存方法及びプログラム
JP5023932B2 (ja) 撮像装置、シナリオによる画像撮影方法、およびプログラム
JP4392179B2 (ja) デジタルカメラ装置
JP2004192118A (ja) 電子機器
JP2006133433A (ja) 音声/文字変換システムならびに携帯型端末装置および変換サーバならびにそれらの制御方法
JP2012014332A (ja) 文書編集装置
KR20230008687A (ko) 스마트폰에서 사진 자동 레이블링 및 녹음 장치 및 방법
JP2009055630A (ja) 通信機器
KR20080099009A (ko) 이동통신 단말기 및 그의 사용 제한 방법
JP3652047B2 (ja) デジタルスチルビデオカメラ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406