JP2021131617A - 情報処理方法、プログラム、及び情報処理装置 - Google Patents

情報処理方法、プログラム、及び情報処理装置 Download PDF

Info

Publication number
JP2021131617A
JP2021131617A JP2020025389A JP2020025389A JP2021131617A JP 2021131617 A JP2021131617 A JP 2021131617A JP 2020025389 A JP2020025389 A JP 2020025389A JP 2020025389 A JP2020025389 A JP 2020025389A JP 2021131617 A JP2021131617 A JP 2021131617A
Authority
JP
Japan
Prior art keywords
information
character
image
information processing
screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020025389A
Other languages
English (en)
Other versions
JP7382847B2 (ja
Inventor
慧 ▲柳▼澤
慧 ▲柳▼澤
Kei Yanagisawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercari Inc
Original Assignee
Mercari Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mercari Inc filed Critical Mercari Inc
Priority to JP2020025389A priority Critical patent/JP7382847B2/ja
Publication of JP2021131617A publication Critical patent/JP2021131617A/ja
Application granted granted Critical
Publication of JP7382847B2 publication Critical patent/JP7382847B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】所定画面からユーザインタフェースを用いて設定等がされる場合に、適切なガイドを行うことを可能にする仕組みを提供する。【解決手段】情報処理方法は、情報処理装置に含まれる1又は複数のプロセッサが、撮影装置により撮影中の画像を表示制御することと、前記画像内に表示される他の情報処理装置の画面を特定することと、特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、前記認識結果に対応するガイド情報を取得することと、前記ガイド情報を、対応する文字情報に関連付けて前記撮影中の画像に重畳して表示制御することと、を実行する。【選択図】図1

Description

本開示は、情報処理方法、プログラム、及び情報処理装置に関する。
以前から、CtoC(Customer To Customer)マーケットプレイスなどの電子商取引プラットフォームにおいて、個人売買を仲介するシステムが公開されている(例えば、特許文献1参照)。
特開2001−167163号公報
しかしながら、従来技術では、電子商取引などのユーザインタフェースに慣れないユーザにとって、どのように設定、登録等したら利用可能になるのかを理解することが難しい場合に、説明文などの情報しか存在せず、設定方法等を適切に理解することができなかった。
本開示は、所定画面からユーザインタフェースを用いて設定等がされる場合に、適切なガイドを行うことを可能にする仕組みを提供する情報処理方法、プログラム、及び情報処理装置を提供することを目的の一つとする。
本開示の一実施形態に係る情報処理方法は、情報処理装置に含まれる1又は複数のプロセッサが、撮影装置により撮影中の画像を表示制御することと、前記画像内に表示される他の情報処理装置の画面を特定することと、特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、前記認識結果に対応するガイド情報を取得することと、前記ガイド情報を、対応する文字情報に関連付けて前記撮影中の画像に重畳して表示制御することと、を実行する。
開示の技術によれば、所定画面からユーザインタフェースを用いて設定等がされる場合に、適切なガイドを行うことを可能にする仕組みを提供することができる。
実施形態における情報処理システム1の各構成例を示す図である。 実施形態に係るユーザ端末10Aの一例を示すブロック図である。 実施形態に係るサーバ20の一例を示すブロック図である。 実施形態に係る物体データ233の一例を示す図である。 実施形態に係る文字認識データ234の一例を示す図である。 実施形態に係るガイド格納先データ235の一例を示す図である。 実施形態に係る情報処理システム1の登録処理の一例を示すシーケンス図である。 実施形態に係る情報処理システム1の表示処理の一例を示すシーケンス図である。 実施形態に係るユーザ端末10Aにおける画面遷移の一例を示す図である。
以下、本開示の実施形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。
[実施形態]
実施形態では、情報処理装置の撮影装置により撮影中の画像を表示し、他の情報処理装置の表示部に表示された所定画面を特定し、所定画面に含まれる各項目に対してユーザが設定する場合に、各項目の入力方法をガイドするためのガイド情報を重畳表示する方法、プログラム、装置、システム等について説明する。
実施形態では、情報処理装置としてウェラブル端末のスマートグラスを例にし、他の情報処理装置としてスマートフォンを例にして説明するが、この例に限られないことはいうまでもない。例えば、情報処理装置は、撮影装置を内蔵する又は外付け可能な装置でもよく、他の情報処理装置は、画面からユーザが操作するような装置であればよい。
ユーザは、所定画面の設定方法に関するガイド情報が表示部に重畳表示されるので、適切なガイドを容易に把握することができる。また、ガイド情報が重畳表示されることにより、ユーザは、別途説明文を読んだりせずにすむ。
<システムの適用例>
図1は、実施形態における情報処理システム1の各構成例を示す図である。図1に示す例では、ユーザが利用する各情報処理装置10A、10B・・・と、物体認識処理を実行したり、文字認識処理を実行したり、ガイド情報を記憶したりするサーバ20とが、ネットワークNを介して接続される。なお、サーバ20は、複数のサーバやデータベースで構成されてもよく、機能ごとに1つのサーバで処理されたり、各データを1つのデータベースで保存したりしてもよい。
情報処理装置10Aは、例えば、ウェアラブル端末(限定でなく例として、メガネ型デバイスなど)である。ウェアラブル端末は、ユーザが装着する電子デバイスである。ウェアラブル端末は、例えば、メガネ型端末(スマートグラス)、コンタクトレンズ型端末(スマートコンタクトレンズ)、拡張現実(AR: Augmented Reality)技術を用いたヘッドマウントディスプレイ、義眼、ブレイン・マシン・インタフェース等であってもよい。また、ウェアラブル端末はスマートスピーカー、ロボット等、ユーザが装着できない端末でもよい。本実施形態においては、上述したように、ウェアラブル端末がメガネ型端末(スマートグラス)である場合を例に説明する。なお、情報処理装置10Aは、ウェアラブル端末に限らず、スマートフォンやタブレット端末などの情報処理端末であってもよい。また、以下、情報処理装置10Aは、ユーザ端末10Aとも呼ばれる。
情報処理装置10Bは、例えば、スマートフォン、携帯電話(フィーチャーフォン)、コンピュータ、PDA(Personal Digital Assistant)、券売機、宅配ロッカーや宅配ボックス、テレビ、家電のリモートコントローラー、スクリーンを含む表示装置などである。また、情報処理装置10Bは、所定画面を用いてユーザに操作を行わせるような装置であればよい。また、以下、情報処理装置10Bは、ユーザ端末10Bとも呼ばれる。
情報処理装置20は、例えばサーバであり、1又は複数の装置により構成されてもよい。また、情報処理装置20は、物体認識処理を実行したり、文字認識処理を実行したり、ガイド情報を記憶したり、電子商取引プラットフォームを管理したりするサーバである。
図1に示す例では、ユーザ端末10Bは、所定画面を表示し、例えば電子商取引プラットフォームに会員登録するための登録画面を表示するとする。ユーザ端末10Aは、内蔵又は外付けの撮影装置(例えばカメラ)を用いて、ユーザ端末10Bの画面に表示された登録画面を撮影する。
このとき、ユーザは、表示された登録画面に対してジェスチャを行ったり、音声で登録画面が撮影されていることを指示したりすると、ユーザ端末10Aは、登録画面を含む画像を取得し、取得した画像をサーバ20に送信する。
サーバ20は、取得した画像から物体(例えばスマートフォンや、券売機など)を認識し、認識した物体を識別する物体識別情報(物体ID)と、画像内における画面の位置情報を取得する。サーバ20は、取得した物体IDと位置情報とをユーザ端末10Bに送信する。
ユーザ端末10Bは、サーバ20から取得した位置情報に基づき、画像から文字認識する領域を特定し、特定した領域の画像(領域画像)から文字認識を行う。文字認識処理について、領域画像がサーバ20に送信され、ユーザ端末10Bは、サーバ20による文字の認識結果を取得するようにしてもよい。認識結果は、例えば、「登録画面」の画面名、「氏名」、「メールアドレス」などの各入力項目である。
ユーザ端末10Bは、認識結果に基づいて、「登録画面」に対応するガイド情報をサーバ20から取得し、ガイド情報を表示部に重畳表示する。これにより、物体認識によりガイド情報を特定しつつ、適切なガイド情報を重畳表示することで、ユーザ端末10Bの実際の登録画面はそのまま表示し、ユーザ端末10Bとは異なるユーザ端末10Aを用いて、登録画面の入力や設定をアシストすることができる。
<構成の一例>
図2は、実施形態に係るユーザ端末10Aの一例を示すブロック図である。ユーザ端末10Aは典型的には、1つ又は複数の処理装置(CPU)110、1つ又は複数のネットワーク又は他の通信インタフェース120、メモリ130、ユーザインタフェース150、撮影装置160、及びこれらの構成要素を相互接続するための1つ又は複数の通信バス170を含む。
ユーザインタフェース150は、例えば、ディスプレイ装置151及び入力装置(キーボード及び/又はマウス、又は他の何らかのポインティングデバイス、音を入力可能なマイク等)152を備えるユーザインタフェース150である。また、ユーザインタフェース150は、タッチパネルでもよい。また、ユーザ端末10Aがウェアラブル端末10Aの場合、ディスプレイ装置151はレンズ、入力装置152はマイク等でもよい。
撮影装置160は、画像(静止画像及び動画像を含む)を撮影するためのデバイスである。例えば、撮影装置160は、CCDイメージセンサ、CMOSイメージセンサ、レンズ等の撮影素子を含んでいてもよい。
メモリ130は、例えば、DRAM、SRAM、DDR RAM又は他のランダムアクセス固体記憶装置などの高速ランダムアクセスメモリであり、また、1つ又は複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、又は他の不揮発性固体記憶装置などの不揮発性メモリでもよい。
また、メモリ130の他の例として、CPU110から遠隔に設置される1つ又は複数の記憶装置でもよい。ある実施形態において、メモリ130は次のプログラム、モジュール及びデータ構造、又はそれらのサブセットを格納する。
オペレーティングシステム131は、例えば、様々な基本的なシステムサービスを処理するとともにハードウェアを用いてタスクを実行するためのプロシージャを含む。
ネットワーク通信モジュール132は、例えば、ユーザ端末10Aを他のコンピュータに、1つ又は複数のネットワーク通信インタフェース120及び、インターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つ又は複数の通信ネットワークを介して接続するために使用される。
画像関連データ133は、撮影中に撮影された画像データに関連して取得可能なデータである。例えば、画像関連データ133は、画像データを識別するための画像ID、画像内の物体の物体ID、画面の位置情報、領域画像などを含む。これらのデータは、画像データから物体認識に関連して取得可能である。
テキスト関連データ134は、撮影中の画像から文字認識して抽出された文字を含むテキストデータや、ユーザにより入力されたテキストデータに関連するデータを含む。また、テキスト関連データは、ユーザの音声データを音声認識して取得されたりしてもよい。ユーザにより入力装置152を操作されることで取得されたりする。
メモリ130には、ガイド情報を表示する表示処理を行うモジュールと、ガイド情報を登録する登録処理を行うモジュールとを有する。まず、表示処理を行うモジュールについて説明する。
<表示処理>
特定モジュール135は、撮影中の画像内に表示される他の情報処理装置(例えばユーザ端末10B)の画面を特定する。例えば、特定モジュール135は、撮影中の画像から一の画像を取得し、サーバ20に物体認識をリクエストする。特定モジュール135は、サーバ20から、認識された物体の画面情報(例えば画像内における画面の位置情報)を取得する。具体例として、特定モジュール135は、サーバ20側が公開する物体認識APIを用いて、認識された物体の物体IDや位置情報を取得してもよい。
取得モジュール136は、特定された画面内に表示される文字が認識され、この文字の文字情報を含む認識結果を取得する。例えば、取得モジュール136は、画面の位置情報に基づいて切り出した領域画像をサーバ20に送信し、サーバ20側で領域画像内の文字列が認識されて、その文字列の文字情報を含む認識結果をサーバ20から取得する。具体例として、取得モジュール136は、サーバ20側が公開する文字認識APIを用いて、領域画像内の文字列(テキスト)や文字列の位置情報(例えば氏名、メールアドレスなど)を取得してもよい。
また、取得モジュール136は、文字の認識結果に対応するガイド情報を取得する。例えば、取得モジュール136は、認識結果の文字情報を項目ごとにサーバ20に送信し、サーバ20側で各項目の文字情報に対応するガイド情報が特定され、特定されたガイド情報をサーバ20から取得する。
表示制御モジュール137は、撮影装置160により撮影中の画像をディスプレイ151(表示部)に表示制御する。また、表示制御モジュール137は、取得されたガイド情報を、対応する項目又は文字情報に関連付けて、撮影中の画像に重畳して表示制御する。例えば、表示制御モジュール137は、取得されたガイド情報を、対応する文字情報の位置に関連付けて、入力項目の表示を維持するようにガイド情報を、AR(Augmented Reality)技術を用いて重畳して表示制御する。表示制御モジュール137は、入力項目の表示を維持するため、ガイド情報を透明化したり、入力項目の位置に重複しないように重畳表示したりしてもよい。また、以下においてガイド情報が重畳して表示される場合は、AR技術等が用いられてもよい。
これにより、ユーザは、所定画面の設定方法に関するガイド情報が表示部に重畳表示されるので、適切なガイドを容易に把握することができる。また、物体認識によりガイド情報を特定しつつ、適切なガイド情報が表示部に重畳表示されることで、ユーザ端末10Bの所定画面はそのまま表示し、ユーザ端末10Bとは異なるユーザ端末10Aを用いて、所定画面の入力や設定をアシストすることができる。
取引制御モジュール138は、電子商取引プラットフォームにおいて商品の売買を制御し、例えば、出品や購入の手続き処理を制御する。なお、ガイド情報は、電子商取引プラットフォームにおけるデータベースに格納されているガイド情報から検索されてもよい。
検知モジュール139は、撮影された画像からユーザのジェスチャを検知する。例えば、検知モジュール139は、タップなどの所定のジェスチャを検知する。また、検知モジュール139により検知されたモジュールに対応する処理が実行されてもよい。
また、表示制御モジュール137は、ガイド情報を重畳して表示制御することに、
ユーザのハンドの位置に対応する文字情報を特定すること、
特定された文字情報に対応するガイド情報を特定すること、
特定されたガイド情報を、特定された文字情報に関連付けて撮影中の画像に重畳して表示制御すること、
を含んでもよい。
例えば、表示制御モジュール137は、物体認識処理によりユーザの指先が認識され、認識された指先の位置が所定範囲内にある文字情報を特定することを含む。例えば、表示制御モジュール137は、特定された文字情報に対応付けられたガイド情報をサーバ20から取得して特定することを含む。例えば、表示制御モジュール137は、特定されたガイド情報を、特定された文字情報の位置に関連付けて撮影中の画像に重畳して表示制御することを含む。
これにより、ユーザが指定した位置に対応するガイド情報を個別に表示することができ、ユーザの選択順に応じて各文字情報に対応するガイド情報を表示することが可能になる。
また、特定モジュール135は、情報処理装置(ユーザ端末10B)の画面が識別され、この画面の識別情報と、この画面の位置情報とを取得し、この位置情報に基づき文字認識する領域を特定してもよい。例えば、特定モジュール135は、物体IDにより示される物体の画面部分の位置情報により示される領域を特定する。位置情報は、画像内の位置情報を含む。
また、取得モジュール136は、特定された領域内の画像から文字が認識され、この文字の文字情報を含む認識結果を取得してもよい。例えば、取得モジュール136は、各入力項目又は設定項目に対応する項目名(文字列)の文字情報を含む文字認識結果をサーバ20から取得する。
これにより、認識された物体により文字認識する領域を特定し、特定された領域内の画像について文字認識すればよいため、処理負荷を軽減することができる。
また、ガイド情報は、各項目名を含む文字情報に対応する他のユーザのハンド操作に関する動画を含んでもよい。例えば、ハンド操作に関する動画は、熟練者による同じ項目への入力又は設定方法を示すハンドの動きを含む動画である。また、ハンド操作に関する動画は、実際に撮影された平面動画でも立体動画(Volumetric Video)でも、実際に撮影された動画に基づく疑似のハンドが動くアニメーションでもよい。
これにより、ユーザは、実際のハンド操作を確認しつつ、所定画面への入力又は設定を容易に行うことができる。
また、警告モジュール140は、項目に対して入力される文字が認識され、この文字の認識結果が、この項目に関連付けられた入力条件を満たさない場合、警告を出力する。例えば、警告モジュール140は、メールアドレスの入力欄に入力される文字情報を認識し、認識結果が、所定のメールアドレスの形式の条件を満たすか否かを判定する。所定の条件を満たさない場合、警告モジュール140は、ポップアップや音声などで入力内容や設定内容が条件を満たさないことをユーザに通知する。所定の条件は、例えば@がメールアドレスに含まれていないなどである。
これにより、ユーザは、所定画面内の項目に入力や設定をする際に警告を報知され、入力ミスや設定ミスに気付くことができる。
また、表示制御モジュール137は、ガイド情報を重畳して表示制御することに、認識結果に含まれる各文字情報を表示制御し、ユーザにより選択された文字情報に対応するガイド情報を撮影中の画像に重畳して表示制御することを含んでもよい。例えば、表示制御モジュール137は、所定画面内に表示される文字列を全て認識し、認識された各文字列の文字情報を選択可能にする一覧情報(リスト)を表示制御する。ユーザにより所定の文字情報が選択された場合、表示制御モジュール137は、選択された文字情報に対応するガイド情報を撮影中の画像に重畳して表示制御する。選択について、音声認識により認識された音声の音声情報と、文字情報とが一致する場合に選択と判断されたり、所定の文字情報の位置でタップ処理が行われた場合に選択と判断されたりする。
これにより、認識された文字情報の一覧情報が表示されることで、ユーザは認識結果を確認することができ、また、一覧情報から文字情報(項目名)を選択してガイド情報を確認することができる。
<登録処理>
次に、ガイド情報が登録される処理について説明する。登録処理の場合、ユーザは、熟練者であり、自身のハンド操作をガイド情報としてサーバ20に記録して登録する。
表示制御モジュール137は、撮影装置160により撮影中の画像を表示制御する。特定モジュール135は、画像内に表示される他の情報処理装置(ユーザ端末10B)の画面を特定する。画面の特定の仕方は上述したとおりである。取得モジュール136は、特定された画面内に表示される文字が認識され、この文字の文字情報を含む認識結果を取得する。
また、撮影装置160は、認識された各文字情報に対応する、ユーザ(熟練者)のハンド操作を含む各ガイド情報を撮影する。ネットワーク通信モジュール132は、認識された各項目名を含む各文字情報と、各項目名に対応する各ガイド情報とをサーバ20に送信する。これにより、サーバ20側では、項目名を含む文字情報と、その文字情報又は項目名に対応するガイド情報とを関連付けて保存することができる。
また、ガイド情報は、ユーザ(熟練者)による文字入力を含んでもよい。これにより、初心者であるユーザは、熟練者が実際に何を入力したかを参考にして、所定画面内の項目に入力等することが可能になる。
また、熟練者であるユーザの文字入力により個人情報が含まれる場合、ガイド情報は、個人情報を含まないようにする。例えば、サーバ20側で、メールアドレスや氏名、ニックネームなどの文字情報にはぼかしを入れたり、他の記号に置き換えたりしてもよい。これにより、個人情報保護の観点からセキュリティを向上させることができる。
また、特定モジュール135は、ユーザ端末10Bの画面が識別され、この画面の識別情報と、この画面の位置情報とを取得し、この位置情報に基づき文字認識する領域を特定することを含んでもよい。また、取得モジュール136は、特定された領域内の画像から文字が認識され、この文字の文字情報を含む認識結果を取得してもよい。これにより、文字認識する領域を特定することができるので、処理負荷の軽減や、不要な情報を分析せずにプライバシーの尊重を図ることができる。
なお、1つ又は複数の処理装置(CPU)110は、メモリ130から、必要に応じて各モジュールを読み出して実行する。例えば、1つ又は複数の処理装置(CPU)110は、メモリ130に格納されているネットワーク通信モジュール132を実行することで、通信部(送信部、受信部を含む)を構成してもよい。また、1つ又は複数の処理装置(CPU)110は、メモリ130に格納されている特定モジュール135、取得モジュール136、表示制御モジュール137、取引制御モジュール138、検知モジュール139、警告モジュール140をそれぞれ実行することで、特定部、取得部、表示制御部、検知部、警告部を構成してもよい。
他の実施形態において、特定モジュール135、取得モジュール136、表示制御モジュール137、取引制御モジュール138、検知モジュール139、警告モジュール140は、ユーザ端末10Aのメモリ130に格納されるスタンドアロンアプリケーションであってもよい。スタンドアロンアプリケーションとしては、限定はされないが、特定アプリケーション、取得アプリケーション、表示制御アプリケーション、取引制御アプリケーション、検知アプリケーション、警告アプリケーションが挙げられる。さらに他の実施形態において、特定モジュール135、取得モジュール136、表示制御モジュール137、取引制御モジュール138、検知モジュール139、警告モジュール140は別のアプリケーションへのアドオン又はプラグインであってもよい。
上記に示した要素の各々は、先述の記憶装置の1つ又は複数に格納され得る。上記に示したモジュールの各々は、上述される機能を実行するための命令のセットに対応する。上記に示したモジュール又はプログラム(すなわち、命令のセット)は別個のソフトウェアプログラム、プロシージャ又はモジュールとして実装される必要はないとともに、従ってこれらのモジュールの様々なサブセットは様々な実施形態で組み合わされるか、或いは再構成されてもよい。ある実施形態において、メモリ130は上記に示されるモジュール及びデータ構造のサブセットを格納し得る。さらには、メモリ130は上述されない追加的なモジュール及びデータ構造を格納し得る。
図3は、実施形態に係るサーバ20の一例を示すブロック図である。サーバ20は典型的には、1つ又は複数の処理装置(CPU)210、1つ又は複数のネットワーク又は他の通信インタフェース220、メモリ230、及びこれらの構成要素を相互接続するための1つ又は複数の通信バス270を含む。図3に示すサーバ20は、図1に示すサーバ20として説明するが、少なくとも1つの機能を有する別個のサーバとして構成されてもよい。
サーバ20は、場合によりユーザインタフェース250を含んでもよく、これとしては、ディスプレイ装置(図示せず)、及びキーボード及び/又はマウス(又は他の何らかのポインティングデバイス等の入力装置。図示せず)を挙げることができる。
メモリ230は、例えば、DRAM、SRAM、DDR RAM又は他のランダムアクセス固体記憶装置などの高速ランダムアクセスメモリであり、また、1つ又は複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、又は他の不揮発性固体記憶装置などの不揮発性メモリでもよい。
また、メモリ230の他の例は、CPU210から遠隔に設置される1つ又は複数の記憶装置を挙げることができる。ある実施形態において、メモリ230は次のプログラム、モジュール及びデータ構造、又はそれらのサブセットを格納する。
オペレーティングシステム231は、例えば、様々な基本的なシステムサービスを処理するとともにハードウェアを用いてタスクを実行するためのプロシージャを含む。
ネットワーク通信モジュール232は、例えば、サーバ20を他のコンピュータに、1つ又は複数の通信ネットワークインタフェース220及びインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つ又は複数の通信ネットワークを介して接続するために使用される。
物体データ233は、認識対象となり得る物体の情報が格納される。例えば、物体データ233は、物体を特定するための物体ID、物体の名称、物体を含む画像データ等を含む(例えば、図4参照)。物体の画像データは、認識精度を上げるため、画面を含む様々な角度からの画像データを含んでもよい。
文字認識データ234は、認識対象となりうる画面画像の文字情報を含む情報が格納される。例えば、文字認識データ234は、どの物体かを示すための物体ID、どの画面かを示すための画面ID、画面名、画面に含まれる項目名を含む各文字情報、及びその文字情報の位置を示す位置情報等を含む。位置情報は、例えば画面内における文字情報や項目の位置を示す情報を含む。
ガイド格納先データ235は、所定画面の入力や設定にガイドを要するユーザ向けの情報が格納される。例えば、ガイド格納先データ235は、画面ID、文字情報(項目名を含む)、その文字情報に対応するガイドの内容を含むガイド情報等を含む。ガイド情報は、熟練者のハンドの動きを示す動画、熟練者のハンドの動きに基づくアニメーション、または音声ガイド等の少なくとも1つを含む。例えば、ガイド情報は、画面IDが「配送画面」を示し、文字情報が「配送選択」を示す場合、ガイド情報は、熟練者が配送をどのように選択するかを示す動画等を含む。
物体認識モジュール236は、ユーザ端末10Aから送信された画面を含む画像データを、物体認識API(Application Programming Interface)を介して取得し、この画像データに対し、物体認識処理を実行し、物体認識の結果データを、画像データの送信元のユーザ端末10Aに送信する。結果データには、認識された物体の物体IDと、認識された物体内の画面の位置を示す位置情報が含まれてもよい。
文字認識モジュール237は、ユーザ端末10Aから送信された画面を含む画像データ(例えば領域画像データ)に対して、文字認識APIを介して取得し、この画像データに対して文字認識処理を実行し、認識結果データを、画像データの送信元のユーザ端末10Aに送信する。文字認識処理は、公知のOCR(Optical Character Recognition)技術が用いられればよい。その際、文字認識モジュール237は、文字認識した文字列の位置情報を、認識結果に関連づけておいてもよい。
ガイド制御モジュール238は、ガイド情報を登録したり、送信したりするための処理を実行する。例えば、ガイド制御モジュール238は、ネットワーク通信モジュール232を介して、ユーザ端末10Aから、様々なデータや情報、リクエストを取得し、ガイド情報の制御を行う。
具体例として、ガイド制御モジュール238は、ガイド情報の取得リクエストや、ガイド情報のアップロードのリクエストや、物体認識のための画像データを学習させるリクエストなどを取得する。また、ガイド制御モジュール238は、各リクエストに基づいて、ガイド情報をデータベースにアップロードしたり、リクエストされたガイド情報をデータベース(DB)から取得したりする。
電子商取引モジュール239は、商品やサービスの売買処理を実行する。例えば、電子商取引モジュール239は、商品やサービスの出品処理を実行したり、販売処理を実行したりする。また、電子商取引モジュール239は、ユーザ端末10Bにおいて起動されるアプリケーションの所定画面を用いて、会員登録、販売対象の商品の登録、売買の取引、配送の設定、評価などを制御する。
音声認識モジュール239は、ユーザ端末10Aから送信された音声データを、音声認識APIを介して取得し、この音声データに対して音声認識し、認識結果のテキストデータを、音声データの送信元のユーザ端末10に送信したり、データベースに登録したりする。
上記に示した要素の各々は先述される記憶装置の1つ又は複数に格納され得る。上記に示したモジュールの各々は、上述される機能を実行するための命令のセットに対応する。上記に示したモジュール又はプログラム(すなわち、命令のセット)は別個のソフトウェアプログラム、プロシージャ又はモジュールとして実装される必要はないとともに、従ってこれらのモジュールの様々なサブセットが様々な実施形態で組み合わされるか、或いは再構成され得る。ある実施形態において、メモリ230は上記に示されるモジュール及びデータ構造のサブセットを格納し得る。さらには、メモリ230は上述されない追加的なモジュール及びデータ構造を格納し得る。
なお、1つ又は複数の処理装置(CPU)210は、メモリ230から、必要に応じて各モジュールを読み出して実行する。例えば、1つ又は複数の処理装置(CPU)210は、メモリ230に格納されているネットワーク通信モジュール232を実行することで、通信部(送信部、受信部を含む)を構成してもよい。また、1つ又は複数の処理装置(CPU)210は、メモリ230に格納されている物体認識モジュール236、文字認識モジュール237、ガイド制御モジュール238、電子商取引モジュール239、音声認識モジュール240をそれぞれ実行することで、物体認識部、文字認識部、ガイド制御部、電子商取引部、音声認識部を構成してもよい。
図3は「サーバ」を示すが、図3は、本明細書に記載される実施形態の構造的な概略としてよりも、サーバのセットに存在し得る様々な特徴についての説明が意図されている。実際には、当業者により認識されるとおり、別個に示される項目が組み合わされ得るであろうとともに、ある項目が別個にされ得るであろう。例えば、図3において別個に示される項目は単一サーバ上に実装され得るであろうとともに、単一の項目が1台又は複数のサーバにより実装され得るであろう。
<データ構造の一例>
図4は、実施形態に係る物体データ233の一例を示す図である。図4に示す例では、物体データ233は、物体IDに関連付けて、物体名、物体の画像データなどを含む。これらのデータは、機械学習の学習データとして用いられてもよい。物体データ233の一例として、画像ID「T−000100」には、物体名「スマートフォン」、物体の画像データ「画像A」などのデータが関連付けられる。なお、他にも、物体の画面の位置を示す位置情報などが関連付けられてもよい。
図5は、実施形態に係る文字認識データ234の一例を示す図である。図5に示す例では、文字認識データ234は、物体IDに関連付けて、画面ID、画面名、文字情報1、位置情報1、文字情報2などのデータを含む。文字認識データ234の一例として、物体ID「T−000100」には、画面ID「D1」、画面名「登録画面」、項目名を含む文字情報「氏名」、その項目の位置を示す位置情報「(x1、y1)」などが関連付けられる。
図6は、実施形態に係るガイド格納先データ235の一例を示す図である。図6に示す例では、ガイド格納先データ235は、画面IDに関連付けて、文字情報、ガイド情報の格納先情報などが関連付けられる。ガイド格納先データ235の一例として、画面ID「D1」に、文字情報「氏名」、この氏名の入力に関するガイド情報の格納先のURL「URL1」などが関連付けられる。
上述したデータ構造は、あくまでも一例であって、この例に限られない。例えば図6に示すガイド格納先データ235は、文字情報に関連する項目にIDを設けて、この項目IDにガイド情報の格納先情報が関連付けられてもよい。
<動作説明>
次に、実施形態に係る情報処理システム1の動作について図7及び図8を用いて説明する。図7及び図8に示す例では、サーバ20が機能ごとに分かれている。例えば、サーバ20Aが物体認識モジュール236を有するサーバであり、サーバ20Bが文字認識モジュール237を有するサーバであり、DB1が物体の画像データ等の学習データの格納先やガイド情報の格納先であり、DB2は、物体データ235、文字認識データ236、ガイド格納先データ236等を保存し、ガイド制御モジュール238の機能を有する。図7は、実施形態に係る情報処理システム1の登録処理の一例を示すシーケンス図である。
(ステップS102)
ユーザは、ユーザ端末10Aを用いて、所定のアプリケーション(以下、「Aアプリ」とも称する。)の登録起動ボタンを押下する。また、ユーザは、ユーザ端末10Aに向かって、「Hey ○○、Aアプリを起動して」等と発話し、Aアプリを起動する。このとき、ユーザは、「Aアプリの登録機能を起動して」等と発話し、Aアプリの登録機能を起動するようにしてもよい。
(ステップS104)
ユーザ端末10Aは、Aアプリの起動に伴い、撮影装置160を起動し、撮影中のカメラ画像をディスプレイ151に表示する。
(ステップS106)
ユーザは、ディスプレイ151越しに見えるユーザ端末10B(物体)をタップする。ユーザ端末10Aの検知モジュール139は、タップのジェスチャを検知する。また、ユーザは、音声等でユーザ端末10Bの存在をユーザ端末10Aに知らせてもよい。
(ステップS108)
ユーザ端末10Aの特定モジュール135は、撮影装置160からのカメラ画像内における、タップした位置情報と、カメラ画像に基づき、物体認識用の学習データを生成する。
(ステップS110)
ユーザ端末10Aの特定モジュール135は、学習データをDB1にアップロードする。DB1は、学習データにIDを付与し、格納先のURLを取得する。
(ステップS112)
ユーザ端末10Aの特定モジュール135は、DB1からアップロードした学習データのIDと、学習データの格納先を示すURLを取得する。
(ステップS114)
ユーザ端末10Aの特定モジュール135は、学習データのIDとURLとをDB2にアップロードする。
(ステップS116)
ユーザ端末10Aの特定モジュール135は、DB2から学習データのIDとURLとの格納が完了した旨の通知を取得する。
(ステップS118)
ユーザ端末10Aの特定モジュール135は、カメラ画像を基に、物体の物体認識を行うリクエストをサーバ20Aに送信する。
(ステップS120)
サーバ20Aの物体認識モジュール236は、取得されたカメラ画像の画像データに基づき、画像データ内の物体に最も類似する物体の情報を取得するようDB2にリクエストする。なお、DB2は、カメラ画像の画像データと、画像内の物体IDとを含む学習データを用いて学習された学習済みモデルを保持しており、サーバ20Aからカメラ画像の画像データが入力されると、この画像データに対応する物体IDを出力してもよい。
(ステップS122)
サーバ20Aは、DB2から、物体IDと、物体の画面内の位置を含む位置情報とを取得する。
(ステップS124)
サーバ20Aの物体認識モジュール236は、物体IDと位置情報とをユーザ端末10Aに送信する。
(ステップS126)
ユーザ端末10Aの特定モジュール135は、物体の位置情報に基づき、カメラ画像の所定領域をクロップする(切り出す)。
(ステップS128)
ユーザ端末10Aの特定モジュール135は、クロップ済み画像内の文字列を認識するようリクエストをサーバ20Bに送信する。
(ステップS130)
サーバ20Bの文字認識モジュール237は、クロップ済み画像内から文字列を認識し、画像内における文字列の位置情報を取得する。サーバ20Bの文字認識モジュール237は、認識された文字列の文字情報と位置情報とを含む認識結果をユーザ端末10Aに送信する。
(ステップS132)
ユーザ端末10Aの取得モジュール136は、認識結果に含まれる文字列の一番上の行(文字情報)を、画面の名称(画面名)とし、以下の行(文字情報)を画面の内容(項目名)として保存する。
(ステップS134)
ユーザ端末10Aの表示制御モジュール137は、録画中であることをディスプレイ151に表示制御し、ユーザ(例えば熟練者)に録画中であることを報知する。
(ステップS136)
ユーザは、ユーザ端末10Bの画面上に対して手を用いて設定、入力等の作業を行うことで、撮影装置160は、作業中の手と、認識対象の物体(ユーザ端末10B)を撮影する。
(ステップS138)
ユーザ端末10Aは、例えば、手の動きに基づいてアニメーションを作成する作成モジュール(不図示)を有してもよい。手のアニメーションは、ガイド情報に含まれる。
(ステップS140)
ユーザは、作業終了ボタンを押下する。作業終了ボタンは、物理的なボタンでもよいし、ディスプレイ151上に表示されたボタンでもよい。表示されたボタンの場合、ユーザの手のタップがボタン上で検知されれば、ユーザ端末10Aの作成モジュールは、作業終了を検知してもよい。
(ステップS142)
ユーザ端末10Aは、ガイド情報をDB1にアップロードする。DB1は、ガイド情報の格納先を示すURLを取得する。
(ステップS144)
ユーザ端末10Aの取得モジュール136は、ガイド情報の格納先を示すURLと、画面の内容(項目名又は文字情報)とをDB1から取得する。
(ステップS146)
ユーザ端末10Aの取得モジュール136は、ガイド情報の格納先を示すURLと、画面の内容(項目名又は文字情報)とを関連付けて、DB2に送信する。DB2は、ガイド格納先データとして、ガイド情報のURLと、格納先データとを保存する。
(ステップS148)
ユーザ端末10Aの取得モジュール136は、DB2から保存が完了した旨の通知を取得する。
図8は、実施形態に係る情報処理システム1の表示処理の一例を示すシーケンス図である。
(ステップS202)
ユーザは、ユーザ端末10Aを用いて、Aアプリの表示起動ボタンを押下する。また、ユーザは、ユーザ端末10Aに向かって、「Hey ○○、Aアプリを起動して」等と発話し、Aアプリを起動する。このとき、ユーザは、「Aアプリの表示機能を起動して」等と発話し、Aアプリの表示機能を起動するようにしてもよい。
(ステップS204)
ユーザ端末10Aは、Aアプリの起動に伴い、撮影装置160を起動し、撮影中のカメラ画像をディスプレイ151に表示する。
(ステップS206)
ユーザは、ディスプレイ151越しに見えるユーザ端末10B(物体)をタップする。ユーザ端末10Aの検知モジュール139は、タップのジェスチャを検知する。また、ユーザは、音声等でユーザ端末10Bの存在をユーザ端末10Aに知らせてもよい。
(ステップS208)
ユーザ端末10Aの特定モジュール135は、撮影装置160からのカメラ画像内における、タップした位置情報と、カメラ画像とに基づき、物体認識を行うようサーバ20Aにリクエストする。
(ステップS210)
サーバ20Aの物体認識モジュール236は、取得されたカメラ画像の画像データに基づき、画像データ内の物体に最も類似する物体の情報を取得するようDB2にリクエストする。なお、DB2は、カメラ画像の画像データと、画像内の物体IDとを含む学習データを用いて学習された学習済みモデルを保持しており、サーバ20Aからカメラ画像の画像データが入力されると、この画像データに対応する物体IDを出力してもよい。
(ステップS212)
サーバ20Aの物体認識モジュール236は、DB2から、物体IDと、物体の画面内の位置を含む位置情報とを取得する。
(ステップS214)
サーバ20Aの物体認識モジュール236は、物体IDと位置情報とをユーザ端末10Aに送信する。
(ステップS216)
ユーザ端末10Aの特定モジュール135は、物体の位置情報に基づき、カメラ画像の所定領域をクロップする(切り出す)。
(ステップS218)
ユーザ端末10Aの特定モジュール135は、クロップ済み画像内の文字列を認識するようリクエストをサーバ20Bに送信する。
(ステップS220)
サーバ20Bの文字認識モジュール237は、クロップ済み画像内から文字列を認識し、画像内における文字列の位置情報を取得する。サーバ20Bの文字認識モジュール237は、認識された文字列の文字情報と位置情報とを含む認識結果をユーザ端末10Aに送信する。
(ステップS222)
ユーザ端末10Aの取得モジュール136は、認識結果に含まれる文字列の一番上の行(文字情報)を、画面の名称(画面名)とし、以下の行(文字情報)を画面の内容(項目名)として保存する。
(ステップS224)
ユーザ端末10Aの取得モジュール136は、画面の名称(画面名)と画面の内容(項目名又は文字情報)に基づいて、ガイド情報をダウンロードするためのURLを取得するようDB2にリクエストする。
(ステップS226)
ユーザ端末10Aの取得モジュール136は、DB2からガイド情報のダウンロードURLを取得する。
(ステップS228)
ユーザ端末10Aの取得モジュール136は、ガイド情報のダウンロードURLを用いて、DB1に格納されたガイド情報のファイルを取得するよう、DB1にリクエストする。
(ステップS230)
ユーザ端末10Aの取得モジュール136は、DB1からガイド情報のファイルをダウンロードして取得する。
(ステップS232)
ユーザ端末10Aの表示制御モジュール137は、例えば、手の3Dモデルに設定したガイド情報(手のアニメーション)を、項目名の文字列(文字情報)の位置情報に基づいて再生制御する。
(ステップS234)
ユーザは、ディスプレイ151越しに見るユーザ端末10Bの所定画面に対し、ユーザ端末10Aのディスプレイ151に表示されるガイド情報に従って、操作を行う。また、ユーザは、「次へ」などの音声を発したり、次に進むことを示す所定のジェスチャや、ハンドアニメーションと同じ手の位置(二次元や三次元データは問わず)で同じ動きをしたりすることで、ユーザ端末10側でこれらの言動を認識し、次の行の項目名の文字列に対応するガイド情報を表示させることができる。
以上、本開示技術は、所定画面からユーザインタフェースを用いて設定等がされる場合に、適切なガイドを行うことを可能にする仕組みを提供することができる。また、物体認識により所定画面でのガイド情報を特定しつつ、適切なガイド情報を他の装置に重畳表示することで、ユーザ端末10Bの所定画面はそのまま表示し、ユーザ端末10Bとは異なるユーザ端末10Aを用いて、所定画面の入力や設定をアシストすることができる。
<画面例>
次に、ユーザ端末10Aのディスプレイ151に表示される例について説明する。図9は、実施形態に係るユーザ端末10Aにおける画面遷移の一例を示す図である。図9に示す画面H10は、携帯電話の枠G10が表示制御モジュール137により表示され、ユーザに対してユーザ端末10Bの位置を知らせる例を示す。枠G10は表示されなくてもよい。
次に、画面H12は、ユーザが、所定画面が表示されたユーザ端末10Bを枠G10の位置にもってきた例を示す。画面H12において、ユーザの手UHは、ユーザ端末10Bをタップすると(図8に示すステップS206)、検知モジュール139がタップのジェスチャを検知し、ユーザ端末10Aにおいてガイド機能が開始される。
次に、画面H14では、物体認識、文字認識がなされ、ガイド情報が重畳表示される例を示す。表示制御モジュール137は、所定画面に対応するガイド情報を取得すると、ガイド情報をディスプレイ151に重畳表示するよう制御する。画面H14に示す例では、3DのアニメーションGHがAR技術を用いて重畳表示される。
なお、開示技術は、上述した各実施形態に限定されるものではなく、開示技術の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記各実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。
本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。 記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。プログラムは、限定でなく例として、ソフトウェアプログラムやコンピュータプログラムを含む。
[変形例]
また、上述した各実施形態における変形例を以下に示す。
<変形例1>
変形例1では、物体認識において、以下の技術を組み合わせてもよい。例えば、VPS(Visual Positioning System)、GPS(Global Positioning System)などの位置情報、信号強度などから通信状況を判定するネットワーク情報、超音波等である。例えば、複数の同じような物体として、券売機や宅配ロッカー、宅配ボックスなどがある場合に、位置情報と画像とに基づいて、どの物体かが特定されてもよい。
<変形例2>
物体の特定と認識に用いる画像は矩形でなくてもよい。また、物体認識において、動的ではなく事前に準備した学習データを活用してもよい。例えば、Semantic Segmentation、Instance Segmentation、立体認識などを用いて物体認識を行ってもよい。
<変形例3>
ユーザが次の操作に移る際のトリガとして、音声等が用いられてもよい。この場合、ユーザ端末10Aは、スピーカやマイクが設けられる。また、画像認識が状況判断の際に適宜組み合わされてもよい。また、ガイドの進め方は音声認識でなくてもよい。例えば、ハンドジェスチャ、画像認識による設定されそうな項目の分析、画面をタップなどで用いられてもよい。
<変形例4>
ガイド情報は、ハンドモーションだけでなく、次の情報を追加してもよい。例えば、音声、テキスト、動画像、静止画像などの画像、熱等の触覚や煙の匂い等の嗅覚、食べ物の味等の味覚などの情報である。また、ガイド情報は、ユーザ端末10Aに保存しておいたハンドモーションをアニメーションとして、手の3Dモデルに反映させて動かしてもよい。
<変形例5>
ガイド情報の登録が可能な情報処理装置(物体)としては、スマートフォン、文字が書いてあるポスターやノート、パーソナルコンピュータ、スタジアムの大型スクリーン、コンビニエンスストアのマルチメディア端末、郵便局や宅配便の送り状 (ゆうプリタッチ等)、宅配便ロッカーや宅配ボックス (Pudo等)、リモコン (クーラー等)、券売機、テレビ等が挙げられる。
<変形例6>
視覚障害者が使用する点字等を含む文字認識で取得したテキストを用いて、画面を分析する方法は、アイコン等の画像認識と組み合わせてもよく、フォントのサイズや太さ、位置、色を用いてのテキストの重要性を判別し、重要性に基づいてガイド情報の表示の順を変更したりしてもよい。
<変形例7>
また、ガイド情報を表示する装置としては、スマートフォン、タブレット端末、スマートグラス、HMD(Head Mounted Display)、スマートコンタクトレンズ、脳侵襲型デバイス、脳非侵襲型デバイス、ロボットなどが挙げられる。
<変形例8>
また、サーバ20が有する各機能のうち、少なくとも1部はユーザ端末10Aに設けられてもよい。また、サーバ20が記憶する各データのうち、少なくとも1部はユーザ端末10Aに設けられてもよい。
1 情報処理システム
10A、10B 情報処理装置(ユーザ端末)
20、20A、20B 情報処理装置(サーバ)
110、210 処理装置(CPU)
120、220 ネットワーク通信インタフェース
130、230 メモリ
131、231 オペレーティングシステム
132、232 ネットワーク通信モジュール
133 画像関連データ
134 テキスト関連データ
135 特定モジュール
136 取得モジュール
137 表示制御モジュール
138 取引制御モジュール
139 検知モジュール
140 警告モジュール
150 ユーザインタフェース
160 撮影装置
170、270 通信バス
233 物体データ
234 文字認識データ
235 ガイド格納先データ
236 物体認識モジュール
237 文字認識モジュール
238 ガイド制御モジュール
239 電子商取引モジュール
240 音声認識モジュール

Claims (14)

  1. 情報処理装置に含まれる1又は複数のプロセッサが、
    撮影装置により撮影中の画像を表示制御することと、
    前記画像内に表示される他の情報処理装置の画面を特定することと、
    特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、
    前記認識結果に対応するガイド情報を取得することと、
    前記ガイド情報を、対応する文字情報に関連付けて前記撮影中の画像に重畳して表示制御することと、を実行する情報処理方法。
  2. 前記ガイド情報を重畳して表示制御することは、
    ユーザのハンドの位置に対応する文字情報を特定し、
    特定された文字情報に対応するガイド情報を特定し、
    特定されたガイド情報を、特定された文字情報に関連付けて前記撮影中の画像に重畳して表示制御することを含む、請求項1に記載の情報処理方法。
  3. 前記画面を特定することは、
    前記情報処理装置の画面が識別され、当該画面の識別情報と、当該画面の位置情報とを取得し、
    前記位置情報に基づき文字認識する領域を特定することを含み、
    前記文字の認識結果を取得することは、
    特定された領域内の画像から文字が認識され、当該文字の文字情報を含む認識結果を取得することを含む、請求項1又は2に記載の情報処理方法。
  4. 前記ガイド情報は、各文字情報に関連する各項目に対応する他のユーザのハンド操作に関する動画を含む、請求項1乃至3のいずれか一項に記載の情報処理方法。
  5. 前記1又は複数のプロセッサが、
    前記文字情報に関連する項目に対して入力される文字が認識され、当該文字の認識結果が、前記項目に関連付けられた入力条件を満たさない場合、警告を出力すること、をさらに実行する請求項1乃至4のいずれか一項に記載の情報処理方法。
  6. 前記ガイド情報を重畳して表示制御することは、
    前記認識結果に含まれる各文字情報を表示制御し、
    ユーザにより選択された文字情報に対応するガイド情報を前記撮影中の画像に重畳して表示制御することを含む、請求項1乃至5のいずれか一項に記載の情報処理方法。
  7. 情報処理装置に含まれる1又は複数のプロセッサに、
    撮影装置により撮影中の画像を表示制御することと、
    前記画像内に表示される他の情報処理装置の画面を特定することと、
    特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、
    前記認識結果に対応するガイド情報を取得することと、
    前記ガイド情報を、対応する文字情報に関連付けて前記撮影中の画像に重畳して表示制御することと、を実行させるプログラム。
  8. 1又は複数のプロセッサを含む情報処理装置であって、
    前記1又は複数のプロセッサが、
    撮影装置により撮影中の画像を表示制御することと、
    前記画像内に表示される他の情報処理装置の画面を特定することと、
    特定された画面内に表示される文字が識別され、当該文字の文字情報を含む認識結果を取得することと、
    前記認識結果に対応するガイド情報を取得することと、
    前記ガイド情報を、対応する文字情報に関連付けて前記撮影中の画像に重畳して表示制御することと、を実行する情報処理装置。
  9. 情報処理装置に含まれる1又は複数のプロセッサが、
    撮影装置により撮影中の画像を表示制御することと、
    前記画像内に表示される他の情報処理装置の画面を特定することと、
    特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、
    認識された各文字情報に対応する、ユーザのハンド操作を含む各ガイド情報を前記撮影装置により撮影することと、
    前記各文字情報と、前記各ガイド情報とをサーバに送信することと、を実行する情報処理方法。
  10. 前記ガイド情報は、前記ユーザによる文字入力を含む、請求項9に記載の情報処理方法。
  11. 前記文字入力により個人情報が含まれる場合、前記ガイド情報は、前記個人情報を含まない、請求項9に記載の情報処理方法。
  12. 前記画面を特定することは、
    前記情報処理装置の画面が識別され、当該画面の識別情報と、当該画面の位置情報とを取得し、
    前記位置情報に基づき文字認識する領域を特定することを含み、
    前記文字の認識結果を取得することは、
    特定された領域内の画像から文字が認識され、当該文字の文字情報を含む認識結果を取得することを含む、請求項9乃至11の何れか一項に記載の情報処理方法。
  13. 情報処理装置に含まれる1又は複数のプロセッサに、
    撮影装置により撮影中の画像を表示制御することと、
    前記画像内に表示される他の情報処理装置の画面を特定することと、
    特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、
    認識された各文字情報に対応する、ユーザのハンド操作を含む各ガイド情報を前記撮影装置により撮影することと、
    前記各文字情報と、前記各ガイド情報とをサーバに送信することと、を実行させる情報処理方法。
  14. 1又は複数のプロセッサを含む情報処理装置であって、
    前記1又は複数のプロセッサが、
    撮影装置により撮影中の画像を表示制御することと、
    前記画像内に表示される他の情報処理装置の画面を特定することと、
    特定された画面内に表示される文字が認識され、当該文字の文字情報を含む認識結果を取得することと、
    認識された各文字情報に対応する、ユーザのハンド操作を含む各ガイド情報を前記撮影装置により撮影することと、
    前記各文字情報と、前記各ガイド情報とをサーバに送信することと、を実行する情報処理装置。
JP2020025389A 2020-02-18 2020-02-18 情報処理方法、プログラム、及び情報処理装置 Active JP7382847B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020025389A JP7382847B2 (ja) 2020-02-18 2020-02-18 情報処理方法、プログラム、及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020025389A JP7382847B2 (ja) 2020-02-18 2020-02-18 情報処理方法、プログラム、及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2021131617A true JP2021131617A (ja) 2021-09-09
JP7382847B2 JP7382847B2 (ja) 2023-11-17

Family

ID=77551059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020025389A Active JP7382847B2 (ja) 2020-02-18 2020-02-18 情報処理方法、プログラム、及び情報処理装置

Country Status (1)

Country Link
JP (1) JP7382847B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6275011B2 (ja) 2014-10-15 2018-02-07 ソフトバンク株式会社 作業支援システム及びプログラム
US9804813B2 (en) 2014-11-26 2017-10-31 The United States Of America As Represented By Secretary Of The Navy Augmented reality cross-domain solution for physically disconnected security domains
JP6190027B1 (ja) 2016-10-20 2017-08-30 三菱電機インフォメーションシステムズ株式会社 作業支援装置および作業支援プログラム
JP2018112802A (ja) 2017-01-10 2018-07-19 京セラドキュメントソリューションズ株式会社 情報提供装置

Also Published As

Publication number Publication date
JP7382847B2 (ja) 2023-11-17

Similar Documents

Publication Publication Date Title
US9911239B2 (en) Augmenting a live view
US10891671B2 (en) Image recognition result culling
US9959467B2 (en) Image processing client
US20190333478A1 (en) Adaptive fiducials for image match recognition and tracking
US11023106B2 (en) Digital supplement association and retrieval for visual search
US20140211067A1 (en) User-guided object identification
WO2016033495A2 (en) Methods and arrangements including data migration among computing platforms, e.g., through use of steganographic screen encoding
KR102014761B1 (ko) 공간객체 검색결과 정렬 방법, 시스템 및 컴퓨터 독취가능 저장장치
US9575995B2 (en) Image processing methods
US9600720B1 (en) Using available data to assist in object recognition
US10825048B2 (en) Image processing methods
US20230315788A1 (en) Digital supplement association and retrieval for visual search
US20160342624A1 (en) Image Tagging System
US11159590B1 (en) Content recognition while screen sharing
US9639867B2 (en) Image processing system including image priority
US20150341541A1 (en) Methods and systems of remote acquisition of digital images or models
US20230298073A1 (en) Media processing techniques for enhancing content
WO2015140922A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP7382847B2 (ja) 情報処理方法、プログラム、及び情報処理装置
US20150220569A1 (en) Priority Based Image Processing Methods
EP3811238A1 (en) Digital supplement association and retrieval for visual search
KR20220123900A (ko) 실감 콘텐츠 제공 시스템 및 그 방법
JP2024018302A (ja) 情報処理装置、方法及びプログラム並びに情報処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231107

R150 Certificate of patent or registration of utility model

Ref document number: 7382847

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150