JP2014155122A - 情報処理装置およびその制御方法、システム、ならびにプログラム - Google Patents
情報処理装置およびその制御方法、システム、ならびにプログラム Download PDFInfo
- Publication number
- JP2014155122A JP2014155122A JP2013024918A JP2013024918A JP2014155122A JP 2014155122 A JP2014155122 A JP 2014155122A JP 2013024918 A JP2013024918 A JP 2013024918A JP 2013024918 A JP2013024918 A JP 2013024918A JP 2014155122 A JP2014155122 A JP 2014155122A
- Authority
- JP
- Japan
- Prior art keywords
- image
- captured image
- character
- captured
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
【課題】撮影画像の中からユーザーが必要とする文字情報を含む画像を抽出し、効率的に保存する。
【解決手段】情報処理装置は、撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得手段と、前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定手段と、前記近傍領域に文字が含まれているか否かを判定する判定手段と、前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存手段とを有する。
【選択図】図9
【解決手段】情報処理装置は、撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得手段と、前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定手段と、前記近傍領域に文字が含まれているか否かを判定する判定手段と、前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存手段とを有する。
【選択図】図9
Description
本発明は、情報の記録を効果的に行うための情報処理装置およびその制御方法、システム、並びにプログラムに関する。
人の頭部に装着することで、その人物が実際に見ている映像(視界映像)を記録するデバイスがある(例えば特許文献1)。このようなデバイスを日常的に利用することにより、何かについて詳しい情報を忘れてしまった時に、過去の自分の視界映像を振り返る事で思い出す事ができる。例えば、「掲示板にイベントのポスターが貼ってあり、それを見た時は興味が無かったが、後から興味が湧いた。しかし、詳細を忘れてしまった。」という状況を考える。このような状況では、詳細を知るためには、再度ポスターを参照する必要がある。このとき、視界映像の記録を行っていれば、その映像を見直すだけで、詳細な情報を思い出す事ができる。
ただし、動画像は一般的に情報量が多く、記録容量が大きくなってしまう。そのため、画像解像度の削減や圧縮率を上げる事により、可能な限り容量を抑える事が必要になる。しかし、このような処理を行う場合、動画像の画質が悪化し、動画中の文字列など細かい部分の参照が困難になってしまう。
一方で、動画像の撮影中にユーザーの指示に基づいて高精細な静止画を保存するカメラがある(例えば特許文献2)。このような技術を用いれば、動画を撮影すると同時に、ユーザーが希望する場面で高画質な静止画を記録することが可能となる。すなわち、動画の画質がどんなに悪くとも、ユーザーが希望する場面では高質な情報を記録できる。
特許文献2に挙げたような技術により、特定の場面において高画質な静止画を残す事が可能となる。しかし、ユーザーが意図的にその場面を記録したいと考えた時以外には、その情報を残す事ができない。つまり、上記で例に挙げたような「以前は興味が無かったが、後から興味が湧いた」という状況に対しては本質的に対処不可能である。
そこで、本発明では、ユーザーが特別に意識することなく、細かい情報を後から思い出す事を容易にするための文字情報に係る情報を効率的に記録する。
上記課題を解決するために本願発明は以下の構成を有する。すなわち、情報処理装置は、撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得手段と、前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定手段と、前記近傍領域に文字が含まれているか否かを判定する判定手段と、前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存手段とを有する。
撮影画像の中から、ユーザーが必要とすると想定される文字情報を含む画像を抽出して効率的に記録することが可能となる。
以下、本発明を実施するための形態について図面を用いて説明する。
<実施例1>
[システム構成]
図1は、実施例1に係るシステム構成の例を示す図である。本実施例のシステムは、ユーザー1が装着しているHMD(ヘッドマウントディスプレイ)200、アクセスポイント100、処理サーバー300、およびネットワーク9000を含む。HMD200とアクセスポイント100は無線通信を行い、HMD200はアクセスポイント100を介してネットワーク9000と接続されている。処理サーバー300とアクセスポイント100はネットワーク9000を介して接続されている。なお、ネットワーク9000は有線/無線のいずれであっても構わない。 [HMD]
本実施例で用いるHMD200は、情報処理装置であり、フレームでユーザー1の頭部に装着するように構成される。又、HMD200は、片目若しくは両目に透過型のディスプレイ201が取り付けられた構造を有し、ユーザー1はディスプレイ201に表示された人工像(表示画像)と、ディスプレイ201の先にある実像を同時に見ることが出来る。HMD200には撮影部であるカメラ202も取り付けられており、ユーザーの目に近い視点で撮影することが可能である。
[システム構成]
図1は、実施例1に係るシステム構成の例を示す図である。本実施例のシステムは、ユーザー1が装着しているHMD(ヘッドマウントディスプレイ)200、アクセスポイント100、処理サーバー300、およびネットワーク9000を含む。HMD200とアクセスポイント100は無線通信を行い、HMD200はアクセスポイント100を介してネットワーク9000と接続されている。処理サーバー300とアクセスポイント100はネットワーク9000を介して接続されている。なお、ネットワーク9000は有線/無線のいずれであっても構わない。 [HMD]
本実施例で用いるHMD200は、情報処理装置であり、フレームでユーザー1の頭部に装着するように構成される。又、HMD200は、片目若しくは両目に透過型のディスプレイ201が取り付けられた構造を有し、ユーザー1はディスプレイ201に表示された人工像(表示画像)と、ディスプレイ201の先にある実像を同時に見ることが出来る。HMD200には撮影部であるカメラ202も取り付けられており、ユーザーの目に近い視点で撮影することが可能である。
図2は、本実施例で用いるHMD200のハードウェアの構成例のブロック図である。HMD200は、コントローラ220、ディスプレイ201、カメラ202、視線入力装置212、および操作部213を有する。
コントローラ220の構成についてさらに詳細に説明する。内部バス211は、メモリコントローラ207とI/Oコントローラ209と間で情報の伝達が出来るように電気信号を送受信する。メモリコントローラ207は、メインメモリ208に対するメモリアクセス全般を統括する。I/Oコントローラ209は、ROM210、記憶装置214、ネットワークI/F203、カメラ202、視線入力装置212、操作部213、および内部バス211に接続され、それらを介して接続している処理部との情報の送受信を行う。ネットワークI/F203は、アクセスポイント100および/またはネットワーク9000を介して接続されている処理サーバー300などの他の機器や、I/Oコントローラ209との情報の送受信を行う。
ROM210は、不図示のブートローダプログラム及びHMD制御プログラムを格納する。記憶装置214は、書き換え可能な記憶領域であり、カメラ202で撮影された映像や外部から取得したデータが格納される。メインメモリ208は、揮発性メモリであり、高速アクセスが可能であるため、ROM210に記憶されている情報や一時的に使用する情報はここに格納される。HMD200の電源投入時には、CPU204がブートローダプログラムを読み出して実行し、ROM210に格納されているHMD制御プログラムを取り出し、メインメモリ208に格納する。そして、CPU204がメインメモリ208に格納されているHMD制御プログラムを実行し、HMD200の有する各機能を実行する。また、CPU204がこのHMD制御プログラムを実行することで、図6および図7に示されるHMD200の行う処理が実行される。
HMD200は、情報を表示する透過型のディスプレイ201を備える。グラフィックコントローラ206は、ディスプレイ201への表示を制御する。HMD200は、ユーザー1に情報を提示する際にはディスプレイ201上に情報を表示する。HMD200は、カメラ202を備える。カメラ202は、撮影した撮影画像をデジタル変換する。カメラ202は、I/Oコントローラ209との情報の送受信を行う。
HMD200は、視線入力装置212を備える。視線入力装置212は、ユーザー1の視線位置を取得する。視線情報として扱われる視線位置(撮影画像上の座標情報)については、図4を用いて後述する。HMD200は、操作部213を備える。操作部213はボタン(不図示)を備え、ユーザー1によってボタンが押下された場合、その入力をI/Oコントローラ209に送信する。ユーザーは、このボタンによって、撮影の開始/停止を操作できる。バッテリー205は、電力をHMD200全体に供給する。
なお、ディスプレイ201は透過型に限らず、カメラ202で撮影した映像をリアルタイムに表示する非透過型としても良い。
[処理サーバー]
図3は、本実施例で用いる処理サーバー300のハードウェアの構成例のブロック図である。処理サーバー300はコントローラ320、ディスプレイ301、キーボード302、及びマウス303を有する。
図3は、本実施例で用いる処理サーバー300のハードウェアの構成例のブロック図である。処理サーバー300はコントローラ320、ディスプレイ301、キーボード302、及びマウス303を有する。
コントローラ320の構成についてさらに詳細に説明する。内部バス311は、メモリコントローラ307とI/Oコントローラ309との間で情報の伝達が出来るよう電気信号を送受信する。
メモリコントローラ307は、メインメモリ308に対するメモリアクセス全般を統括する。I/Oコントローラ309は、HDD310、ネットワークI/F304、キーボード302、マウス303、および内部バス311に接続され、それらを介して接続している処理部との情報の送受信を行う。ネットワークI/F304は、ネットワーク9000やワイヤレスアクセスポイントを介して接続されている他の機器や、I/Oコントローラ309との情報の送受信を行う。
HDD310は、記録部であり、不図示のブートローダプログラム及び処理サーバー制御プログラムを格納する。メインメモリ308は、揮発性メモリであり、高速アクセスが可能であるので、HDD310に記憶されている情報や一時的に使用する情報はここに格納される。処理サーバー300の電源投入時には、CPU305がブートローダプログラムを読み出して実行し、HDD310に格納されている処理サーバー制御プログラムを取り出し、メインメモリ308に格納する。そして、CPU305がメインメモリ308に格納されている処理サーバー制御プログラムを実行し、処理サーバー300が有する各機能を実行する。また、CPU305が処理サーバー制御プログラムを実行することで、図7に示される処理サーバー300の行う処理が実行される。
処理サーバー300は、情報を表示するためのディスプレイ301を備える。グラフィックコントローラ306は、ディスプレイ301への表示を制御する。処理サーバー300は、ユーザー1に情報を提示する際にはディスプレイ301に情報を表示し、ユーザー1は、キーボード302又はマウス303に対する操作で処理サーバー300への情報入力が可能である。
[視線情報]
続いて視線入力装置212により生成される視線情報について説明する。視線入力装置212はまず、角膜と強膜で光に対する反射率が異なることを利用した眼球運動を測定する強膜反射法などによってユーザーの眼球運動を測定し、これにより見ている方向(中心位置からの角度)を検出する。次に、眼球の角度と、予め与えられたカメラ202の画角を用いることで、撮影画像上でのユーザー1の視線位置座標を算出する。
続いて視線入力装置212により生成される視線情報について説明する。視線入力装置212はまず、角膜と強膜で光に対する反射率が異なることを利用した眼球運動を測定する強膜反射法などによってユーザーの眼球運動を測定し、これにより見ている方向(中心位置からの角度)を検出する。次に、眼球の角度と、予め与えられたカメラ202の画角を用いることで、撮影画像上でのユーザー1の視線位置座標を算出する。
図4は、本実施例における視線の座標情報について説明する図である。撮影画像403はカメラ202により取得される画像の例である。視線位置401は視線の位置を示し、座標(Xe,Ye)はカメラ202で撮影した撮影画像403上のピクセル位置を示す。すなわち、撮影画像403上の位置(Xe,Ye)が、ユーザーが見ている場所である。
視線近傍領域402は、視線位置401を中心とした1辺の長さをLとする矩形として特定される視線位置401の近傍領域である。視線近傍領域402は、図7のフローにおいて、文字領域が存在するか否かを判定する領域として使用する。辺の長さLは環境やユーザーの好みに応じて変更可能である。
[撮影映像]
図5は、カメラ202によって取得される映像の例を示す図である。撮影映像は、複数の撮影画像(静止画)から構成される。撮影映像500はカメラ202によって取得される映像を模式的に表したものであり、ユーザー1の会話相手506と、会話相手506が資料505を提示するところを示している。
図5は、カメラ202によって取得される映像の例を示す図である。撮影映像は、複数の撮影画像(静止画)から構成される。撮影映像500はカメラ202によって取得される映像を模式的に表したものであり、ユーザー1の会話相手506と、会話相手506が資料505を提示するところを示している。
撮影画像A501〜撮影画像D504は、カメラ202によって連続的に取得される撮影映像に含まれる撮影画像であり、撮影画像A501が一番古く、撮影画像D504が一番新しい画像である。視線位置401、視線近傍領域402は、撮影画像A501〜撮影画像D504それぞれで異なっている。具体的には、会話相手506が資料505を提示する前、及び途中(撮影画像A,B)は、ユーザー1は会話相手506を見ており、資料505が提示された後(撮影画像C,D)は資料505を見ている。
[保存データテーブル]
図10は、HDD310に格納され、過去に保存された記録データの一覧を示す保存データテーブル1000を示す図である。図10(a)は図6、図7のフローチャートを実施する前に記録されている保存データテーブルの状態である。図10(b)は図6、図7のフローチャートを実施した後に記録されている保存データテーブルの状態である。
図10は、HDD310に格納され、過去に保存された記録データの一覧を示す保存データテーブル1000を示す図である。図10(a)は図6、図7のフローチャートを実施する前に記録されている保存データテーブルの状態である。図10(b)は図6、図7のフローチャートを実施した後に記録されている保存データテーブルの状態である。
保存データテーブル1000に含まれる各レコードには静止画のID(識別子)、記録日時、静止画と関連する動画のファイル名(動画名)、静止画のファイル名(静止画名)、およびその静止画に含まれるテキスト情報(テキストデータ)が含まれる。
[撮影処理]
図6は、HMD200による撮影処理を説明する図である。このフローチャートは、ユーザー1が操作部213のボタンを押した時にHMD200のコントローラ220により実行される。
図6は、HMD200による撮影処理を説明する図である。このフローチャートは、ユーザー1が操作部213のボタンを押した時にHMD200のコントローラ220により実行される。
S601にてCPU204は、カメラ202から撮影画像を取得し、メインメモリ208に格納する。
S602にてCPU204は、前回の静止画記録処理の実施時から一定時間以上経過しているかを判定する。一定時間以上経過しているか、初めて処理される場合(S602にてYES)、S603へ進み、それ以外の場合(S602にてNO)、S604へ進む。この処理は、静止画保存処理(S603)の実行頻度を最小限に抑えることで、CPU204や処理サーバー300のCPU305の処理負荷を軽減し、保存される静止画の容量を抑制するための施策である。
S603にてCPU204は、処理サーバー300と連携することにより、静止画保存処理を行う。この処理については、図7を用いて後述する。
S604にてCPU204は、S601で取得した撮影画像を用いてMotionJPEG形式の圧縮映像を作成する。CPU204はまず、S601で取得した撮影画像を、所定の画素数になるように縮小し、さらに所定の圧縮率でJPEG圧縮を施すことで撮影画像のデータ量を削減する。CPU204は、次回以降のループでは、そのループ内で作成した圧縮画像を順次連結することにより圧縮映像を作成し、記憶装置214に格納する。S604の処理は、記録する映像の容量を小さくする事で記憶装置214の記憶容量を節約するための施策である。なお、動画の保存形式は他のものであっても良い。また圧縮処理はCPU204によってではなく、専用のハードウェアによって実現しても良い。
[静止画保存処理]
図7は、静止画保存処理のフローチャートを示す図である。S701〜S703はHMD200のコントローラ220によって実行され、S711〜S716は処理サーバー300のコントローラ320によって実行される。なお、図5の撮影映像500中の撮影画像を処理した場合の結果についても併せて例示する。
図7は、静止画保存処理のフローチャートを示す図である。S701〜S703はHMD200のコントローラ220によって実行され、S711〜S716は処理サーバー300のコントローラ320によって実行される。なお、図5の撮影映像500中の撮影画像を処理した場合の結果についても併せて例示する。
まず、HMD200側の処理について説明する。S701にてHMD200のCPU204は、視線入力装置212から視線情報を取得すると共に、撮影画像403と、その時の視線位置401を処理サーバー300に送信する。S702にてCPU204は、処理サーバー300における静止画の保存処理の結果を示す情報を受信する。
S703にてCPU204は、S702の受信結果に基づいて静止画が保存された場合、保存された旨を表すメッセージをディスプレイ201に表示する。図8は、静止画が保存された場合の表示例である。ディスプレイ201越しに見える会話相手506及び資料505に重畳される形で、ディスプレイ201上に結果ダイアログ801が表示される。
次に、処理サーバー300側の処理について説明する。S711にて処理サーバー300のCPU305は、HMD200から撮影画像403と視線位置401を示す視線情報を受信する。
S712にてCPU305は、S711で受信した撮影画像の視線近傍領域402に文字が含まれるかを判定することで文字判定処理を行う。視線近傍領域402内に文字が含まれている場合(S712にてYES)、S713に進み、文字が含まれていない場合(S712にてNO)S716に進む。例えば、S712の処理を撮影画像A501および撮影画像B502について行った場合、視線近傍領域402内には文字が含まれないと判定される。一方、撮影画像C503および撮影画像D504について処理した場合、視線近傍領域0402内に文字が含まれると判定される。
文字判定処理の一手法としては、例えば以下のような手法がある。まず判定したい領域のイメージデータを白黒に2値化し、黒画素輪郭で囲まれる画素塊を抽出する。さらに、このように抽出された黒画素塊の大きさを評価し、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡を行う。白画素塊に対する大きさ評価、内部の黒画素塊の追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部の画素塊の抽出および輪郭追跡を行う。
画素塊の大きさは、例えば画素塊の面積によって評価される。このようにして得られた画素塊に外接する矩形ブロックを生成し、矩形ブロックの大きさもしくは形状に基づき属性を判定する。例えば、縦横比が1に近く、大きさが一定の範囲の矩形ブロックは文字領域の矩形ブロックの可能性がある文字相当ブロックとする。また、近接する文字相当ブロックが規則正しく整列しているときに、これら文字相当ブロックを纏めた新たな矩形ブロックを生成し、新たな矩形ブロックを文字領域の矩形ブロックとする。なお、文字判定の方法はこれに限定するものではなく、公知のいずれの方法を用いても構わない。
S713にてCPU305は、文字認識処理を行う。文字認識処理は画像中に含まれる文字列を検出し、テキストデータとして抽出する処理である。CPU305は撮影画像403全体に対して文字認識処理を施し、そこに含まれる文字列を検出し、テキストデータとして保存する。例えば、S713の処理を撮影画像C503及び撮影画像D504について行った場合、文字認識結果はどちらも「特別講演会のお知らせ 日時:2XXX年12月10日14時30分 場所:東京○○会館 詳細:xxxxxxxxxxxxxxxx」となる。なお、文字認識処理の具体的な方法については種々の公知手法があり、ここではその方法は問わない。一例として、パターン整合法、構造解析法、その他各種特徴抽出技術を用いる方法が挙げられる。
S714にてCPU305は、S711で受信した撮影画像に似た撮影画像が過去に記録されていないかを判定する。具体的には、CPU305は、図10(a)の保存データテーブル1000から、過去に保存した撮影画像一覧を取得し、その文字認識結果(テキストデータ)を取得する。CPU305は、それぞれのテキストデータに対して、S713で取得した文字認識結果と類似しているか否かを判定する。
例えば類似判定において、撮影画像C503の文字認識結果である「特別講演会のお知らせ・・・」というテキストは、図10(a)の保存データテーブル1000のテキストデータ列には存在しない。この場合、過去に類似した撮影画像は保存していないと判定される。類似判定は、一例としてベクトル空間法を用いる。類似度が所定の閾値以下の場合、類似した情報は記録していないものと判定し(S714にてYES)、S715に進む。閾値以上の場合、過去に類持した情報を記録したと判定し(S714にてNO)、S716に進む。
なお、S714の類似判定は、文字認識結果による比較でなくとも、画像データ同士の比較でも良い。例えば、過去に記録した撮影画像と今回取得した撮影画像との間で画像特徴量を比較する事によって、判定しても良い。また、比較対象として、過去の全記録データと比較するのではなく、直近に記録した撮影画像とのみ比較するようにしてもよく、これにより処理負荷を小さくする事ができる。さらに、類似した画像が見つかった場合に、古い撮影画像を残すのではなく、新しい撮影画像を残しても良い。
S715にてCPU305は、S711で受信した撮影画像と、S713で実施した文字認識処理結果をHDD310に格納し、さらに保存データテーブル1000に追記する。例えば、S715の処理を撮影画像C503について行った場合、保存データテーブル1000は図10(a)の状態からID5の行が追加されて、図10(b)の状態となる。この場合、HMD200側にて行われる図6のS604の処理とは異なり、圧縮等のデータ量を削減する処理は行わない。
S716にてCPU305は、撮影画像を保存処理の結果、すなわちS715を実施したか否かの情報をHMD200に送信する。そして、本処理フローを終了する。
[保存結果]
図9は、図5の撮影映像500が入力された場合の、図6及び図7の処理フローの出力結果を示している。圧縮映像901は、図6のS604により、撮影画像A〜Dそれぞれを、縮小・圧縮してデータ量を削減し、連結することによって生成された映像である。本実施例において圧縮映像901は、HMD200の記憶装置214に記録されている。
図9は、図5の撮影映像500が入力された場合の、図6及び図7の処理フローの出力結果を示している。圧縮映像901は、図6のS604により、撮影画像A〜Dそれぞれを、縮小・圧縮してデータ量を削減し、連結することによって生成された映像である。本実施例において圧縮映像901は、HMD200の記憶装置214に記録されている。
静止画902は、図7のS715により保存された画像(撮影画像C503)である。本実施例において静止画902は、処理サーバー300のHDD310に記録されている。撮影画像A〜Dについて図6、図7のフローを実施した場合、保存される静止画は撮影画像C503のみである。つまり、撮影画像A、Bについては図7のS712により視線領域中に文字が含まれないと判定され、保存処理(S715)が実施されない。また、撮影画像Dについては、S714にてこの時に既に保存されている撮影画像Cの情報と比較され、類似の静止画が既に記録されていると判定され、保存処理(S715)は実施されない。このため、保存処理(S715)が実施される撮影画像C503のみが保存される。また、図9に示す圧縮映像901の解像度よりも高い解像度で静止画902は保存される。
テキスト情報903は、S715にて保存される撮影画像Cの文字認識処理(S713)の結果としての文字情報である。撮影画像Cの文字認識処理結果のみが記録される理由は、撮影画像Cの静止画902だけが記録される理由と同じである。
[実施例1の効果]
実施例1によれば、ユーザーが文字を見ている時に視野全体の画像とテキスト情報を記録するため、後からそれらの情報を思い出したい時に、記録された情報を参照することで簡単に思い出す事ができる。例えば、後から「あの時見たポスターには何と書いてあったか思い出せない」という状況に対しては、処理サーバー300に記録された静止画を見直せば、詳しい情報を見直すことができる。あるいは、「前にポスターで見た特別講演会の詳細を忘れた」という状況に対しては「特別講演会」というキーワードで保存データテーブル1000を検索すれば、ID5のテキストデータがヒットし、即座にそれがどのポスターに書かれていたかがわかる。これを基に、そのポスターの静止画やテキストを見直す事で、詳細情報を思い出す事ができる。また、漠然と過去の記憶を思い出したいときは圧縮映像を再生し、細かい情報がほしい場面で、その時の静止画やテキストを参照すれば良い。
実施例1によれば、ユーザーが文字を見ている時に視野全体の画像とテキスト情報を記録するため、後からそれらの情報を思い出したい時に、記録された情報を参照することで簡単に思い出す事ができる。例えば、後から「あの時見たポスターには何と書いてあったか思い出せない」という状況に対しては、処理サーバー300に記録された静止画を見直せば、詳しい情報を見直すことができる。あるいは、「前にポスターで見た特別講演会の詳細を忘れた」という状況に対しては「特別講演会」というキーワードで保存データテーブル1000を検索すれば、ID5のテキストデータがヒットし、即座にそれがどのポスターに書かれていたかがわかる。これを基に、そのポスターの静止画やテキストを見直す事で、詳細情報を思い出す事ができる。また、漠然と過去の記憶を思い出したいときは圧縮映像を再生し、細かい情報がほしい場面で、その時の静止画やテキストを参照すれば良い。
さらに、実施例1によれば、記録容量を必要最小限に留めることができる。すなわち、細かい情報を記録するという点においては、高画質の動画を撮り続けるのとほぼ同等の効果を持ちながら、実際には低画質の動画と抽出された静止画の追加容量だけで済み、全体の記録容量を大幅に削減できる。なお、容量削減の要望がより強い場合には、動画を記録しなくても良く、さらに容量削減を行いたい場合は、静止画さえ記録せず、テキスト情報だけを記録するようにしてもよい。また、動画を記録する場合には、この記録される動画の画質よりも高い画質で抽出された静止画を記録するため、記録された静止画を明確に認識することが可能になる。
<実施例2>
実施例1は、図7の静止画保存処理において、HMD200と処理サーバー300が連携し、処理サーバー300にて文字領域判定処理や文字認識処理を行った。これに対し、これらの処理はHMD200内で行っても良い。
実施例1は、図7の静止画保存処理において、HMD200と処理サーバー300が連携し、処理サーバー300にて文字領域判定処理や文字認識処理を行った。これに対し、これらの処理はHMD200内で行っても良い。
図11は、本実施例に係る静止画保存処理のフローチャートである。このフローチャートは、実施例1にて示した図6のS603にて図7の代わりに実行される。S1101〜S1105はそれぞれ、図7のS712〜S715、S703に対応する。
S1101にてHMD200のCPU204は、視線入力装置212から視線情報を取得すると共に、S712と同様の方法で撮影画像403の視線近傍領域402に文字が含まれるか否かを判定する。文字が含まれている場合(S1101にてYES)S1102に進み、文字が含まれていない場合(S1101にてNO)S1105に進む。
S1102にてCPU204は、S713と同様の方法で文字認識処理を行う。S1103にてCPU0204は、S714と同様の方法で、類似する撮影画像が過去に記録されていないかを判定する。類似の撮影画像が過去に記録されていない場合(S1103にてYES)、S1104へ進む。類似の撮影画像が記録されている場合(S1103にてNO)S1105に進む。
S1104にてCPU204は、撮影画像とS1103で実施した文字認識結果を記憶装置214に格納し、さらに保存データテーブル1000に追記する。なお、実施例2において、保存データテーブル1000はHMD200の記憶装置214に格納される。
S1105にてCPU204は、保存処理(S1104)が実施された場合、ディスプレイ201上に、保存された旨を表すメッセージを表示する。
[実施例2の効果]
実施例2によれば、実施例1と同様の処理をHMD単体で実現できる。
実施例2によれば、実施例1と同様の処理をHMD単体で実現できる。
<実施例3>
実施例1および実施例2では、撮影画像中の視線近傍領域に文字が含まれるか否かを判定し(図7のS712、図11のS1101)、その結果に応じてその撮影画像を保存するか否かが決定された。しかし、この処理の本質は、ユーザーが文字を見ているか否かを判定するものであり、別の手段によってユーザーが文字を見ているか否かを判定しても良い。
実施例1および実施例2では、撮影画像中の視線近傍領域に文字が含まれるか否かを判定し(図7のS712、図11のS1101)、その結果に応じてその撮影画像を保存するか否かが決定された。しかし、この処理の本質は、ユーザーが文字を見ているか否かを判定するものであり、別の手段によってユーザーが文字を見ているか否かを判定しても良い。
例えば、次の2つの判定方法が考えられる。1つ目の判定方法として、通常人間は視界の中心付近を見ているという仮定に基づいて、撮影画像の中心付近の所定の領域内に文字が存在するか否かを調べることによって判定しても良い。2つ目の判定方法として、撮影画像に文字が含まれる場合において、その文字の領域が撮影画像の全体に対してどの程度の割合を占めるか否かによって判定しても良い。
図12は、本実施例における撮影画像の例と文字判定結果を示す図である。図12(a)は、ユーザー1の顔が会話相手506を向いている時の撮影画像1201を示している。図12(b)は、ユーザー1の顔が資料505を向いている時の撮影画像1202を示している。また、図12(c)、(d)はそれぞれ、図12(a)、(b)に対して図7のS712で実施したのと同様の文字判定処理を行った結果を示している。文字領域1206は撮影画像中の文字の領域を示している。中心近傍領域1205は撮影画像の中心に位置する所定の大きさの矩形領域である。
(中心領域に基づく判定)
まず、撮影画像の中心付近の所定の領域に文字が存在するか否かを判定することにより文字を注視しているか否かを判定する方法について述べる。この処理は、実施例1おける図7のS712、もしくは実施例2における図11のS1101の代わりに実施される。ここでは実施例1の場合を例に説明する。
まず、撮影画像の中心付近の所定の領域に文字が存在するか否かを判定することにより文字を注視しているか否かを判定する方法について述べる。この処理は、実施例1おける図7のS712、もしくは実施例2における図11のS1101の代わりに実施される。ここでは実施例1の場合を例に説明する。
図7のS712にてCPU305は、まず、撮影画像において中心近傍領域1205を定義する。次に撮影画像全体または中心近傍領域1205に対してS712と同様の文字判定処理を行う。中心近傍領域1205に文字領域1206が含まれる場合、CPU305は文字を注視していると判定し(S712にてYES)、S713に進む。中心近傍領域1205に文字領域1206が含まれない場合、CPU305は文字を注視していないと判定し(S712にてNO)、S716に進む。
例えば撮影画像1201(図12(a))は中心近傍領域1205において文字領域1206が含まれないため、文字を注視していないと判定される。一方、撮影画像1202(図12(b))は中心近傍領域1205において文字領域1206が含まれるため、文字を注視していると判定される。
(文字領域の割合に基づく判定)
次に、撮影画像全体に対して文字領域がどれ程の割合で含まれるかに基づいて文字を見ていると判定する方法について述べる。この処理も、実施例1における図7のS712、もしくは実施例2における図11のS1101の代わりに実施される。ここでは実施例1の場合を例に説明する。
次に、撮影画像全体に対して文字領域がどれ程の割合で含まれるかに基づいて文字を見ていると判定する方法について述べる。この処理も、実施例1における図7のS712、もしくは実施例2における図11のS1101の代わりに実施される。ここでは実施例1の場合を例に説明する。
図7のS712にてCPU305は、まず、与えられた画像において文字領域判定処理を行う。次に、CPU305は、文字領域1206が撮影画像中を占める割合を算出する。割合が所定の閾値よりも大きい場合、CPU305は文字を注視していると判定し(S712にてYES)、S713に進む。所定の閾値以下である場合、CPU305は注視していないと判定し(S712にてNO)、S716に進む。
例えば、文字領域の割合に対する所定の閾値が5%であり、図12(c)において文字が占める領域の割合が3%であり、図12(d)において文字が占める領域の割合が10%であるとする。この場合、図12(c)の撮影画像1201においては文字を注視していないと判定され、図12(d)の撮影画像1202においては文字を注視していると判定される。また、所定の閾値が0%であれば、画像中に文字領域があると判定された画像をS716にて保存する。
なお、本実施例において、視線情報は用いない。したがって、視線情報を用いない場合には、HMD0200において、視線入力装置212は不要としてもよい。また、S701及びS711において視線情報の送受信は不要となる。
[実施例3による効果]
実施例3によれば、視線入力装置がなくとも、実施例1と同様の処理を実施する事ができる。
実施例3によれば、視線入力装置がなくとも、実施例1と同様の処理を実施する事ができる。
<その他の実施例>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (14)
- 撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得手段と、
前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定手段と、
前記近傍領域に文字が含まれているか否かを判定する判定手段と、
前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存手段と
を有することを特徴とする情報処理装置。 - 前記保存手段は、前記判定手段により前記近傍領域に文字が含まれていると判定された場合、当該文字を文字情報として抽出して記録することを特徴とする請求項1に記載の情報処理装置。
- 前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記記録部に当該撮影画像に類似した画像が存在するか否かを判定する類似判定手段を更に有し、
前記保存手段は、類似した画像が存在しない場合に前記撮影画像を記録することを特徴とする請求項1または2に記載の情報処理装置。 - 前記撮影画像上におけるユーザーの視線の位置は、当該撮影画像の中心とすることを特徴とする請求項1乃至3のいずれか一項に記載の情報処理装置。
- 前記特定手段は、前記撮影画像の全体を前記近傍領域とし、
前記判定手段は、前記近傍領域に文字が含まれている場合、更に文字の領域の前記撮影画像の全体に対する割合が所定の閾値よりも大きいか否かを判定し、
前記保存手段は、前記判定手段により前記近傍領域に文字が含まれ、かつ当該文字の領域が前記所定の閾値よりも大きいと判定された場合に当該撮影画像を記録する
ことを特徴とする請求項1乃至3のいずれか一項に記載の情報処理装置。 - 前記撮影画像は動画を構成する静止画であることを特徴とする請求項1乃至5のいずれか一項に記載の情報処理装置。
- 前記取得手段は、前回の撮影画像の記録から一定の時間が経過している場合に、撮影画像と当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得することを特徴とする請求項1乃至6のいずれか一項に記載の情報処理装置。
- 撮影画像である動画を取得する取得手段と、
前記取得された動画を構成する静止画の中に文字が含まれる静止画が含まれると判定された場合、該文字が含まれる静止画を前記動画の解像度よりも高い解像度の静止画として記録部に保存する保存手段と
を有することを特徴とする情報処理装置。 - 撮影部を有する情報処理装置と、画像を記録するためのサーバーとを含むシステムであって、
前記サーバーは、
前記情報処理装置から、前記撮影部にて撮影された撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得手段と、
前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定手段と、
前記近傍領域に文字が含まれているか否かを判定する判定手段と、
前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存手段と
を有することを特徴とするシステム。 - 前記情報処理装置は、撮影画像のデータ量を削減して記憶する記録部を更に有し、
前記保存手段は、データ量を削減せずに撮影画像を前記サーバーの記録部に記録することを特徴とする請求項9に記載のシステム。 - 撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得工程と、
前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定工程と、
前記近傍領域に文字が含まれているか否かを判定する判定工程と、
前記判定工程により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存工程と
を有することを特徴とする情報処理装置の制御方法。 - 撮影画像である動画を取得する取得工程と、
前記取得された動画を構成する静止画の中に文字が含まれる静止画が含まれると判定された場合、該文字が含まれる静止画を前記動画の解像度よりも高い解像度の静止画として記録部に保存する保存工程と
を有することを特徴とする情報処理装置の制御方法。 - コンピュータを、
撮影画像と、当該撮影画像を撮影した際の当該撮影画像上におけるユーザーの視線の位置の情報とを取得する取得手段、
前記撮影画像上におけるユーザーの視線の位置の近傍領域を特定する特定手段、
前記近傍領域に文字が含まれているか否かを判定する判定手段、
前記判定手段により前記近傍領域に文字が含まれていると判定された場合、前記撮影画像を記録部に記録する保存手段
として機能させるためのプログラム。 - コンピュータを、
撮影画像である動画を取得する取得手段、
前記取得された動画を構成する静止画の中に文字が含まれる静止画が含まれると判定された場合、該文字が含まれる静止画を前記動画の解像度よりも高い解像度の静止画として記録部に保存する保存手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013024918A JP2014155122A (ja) | 2013-02-12 | 2013-02-12 | 情報処理装置およびその制御方法、システム、ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013024918A JP2014155122A (ja) | 2013-02-12 | 2013-02-12 | 情報処理装置およびその制御方法、システム、ならびにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014155122A true JP2014155122A (ja) | 2014-08-25 |
Family
ID=51576574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013024918A Pending JP2014155122A (ja) | 2013-02-12 | 2013-02-12 | 情報処理装置およびその制御方法、システム、ならびにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014155122A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113542541A (zh) * | 2020-04-15 | 2021-10-22 | 丰田自动车株式会社 | 信息处理装置、信息处理方法以及系统 |
-
2013
- 2013-02-12 JP JP2013024918A patent/JP2014155122A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113542541A (zh) * | 2020-04-15 | 2021-10-22 | 丰田自动车株式会社 | 信息处理装置、信息处理方法以及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929561B2 (en) | Removing personally identifiable data before transmission from a device | |
US9491366B2 (en) | Electronic device and image composition method thereof | |
US20190331914A1 (en) | Experience Sharing with Region-Of-Interest Selection | |
WO2021129669A1 (zh) | 图像处理方法及系统、电子设备、计算机可读介质 | |
US10943115B2 (en) | Processing image data to perform object detection | |
US9679415B2 (en) | Image synthesis method and image synthesis apparatus | |
JP6570840B2 (ja) | 電子機器および方法 | |
CN112639870B (zh) | 图像处理装置、图像处理方法和图像处理程序 | |
US20220309682A1 (en) | Object tracking apparatus, object tracking method, and program | |
US11310430B2 (en) | Method and apparatus for providing video in portable terminal | |
WO2020044916A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115486091B (zh) | 使用虚拟现实设备进行视频处理的系统和方法 | |
KR20160046399A (ko) | 텍스쳐 맵 생성 방법 및 장치와 데이터 베이스 생성 방법 | |
KR101308184B1 (ko) | 윈도우 형태의 증강현실을 제공하는 장치 및 방법 | |
JP6858007B2 (ja) | 画像処理システム、画像処理方法 | |
EP4198772A1 (en) | Method and device for making music recommendation | |
KR101931295B1 (ko) | 원격지 영상 재생 장치 | |
JP2014155122A (ja) | 情報処理装置およびその制御方法、システム、ならびにプログラム | |
JP2020123280A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
US20210350625A1 (en) | Augmenting live images of a scene for occlusion | |
JP2021118522A (ja) | 画像処理装置、画像処理方法、監視システム | |
US20240094812A1 (en) | Method, non-transitory computer readable medium, and terminal apparatus | |
US11461957B2 (en) | Information processing device, information processing method, and program | |
US20230291865A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US20240355066A1 (en) | Information processing apparatus |