JP7355785B2

JP7355785B2 - ポインティングに基づく情報提供方法およびシステム

Info

Publication number: JP7355785B2
Application number: JP2021104963A
Authority: JP
Inventors: ヘウンシン; ジエホ; ヨンミンペク; ソクフンキム
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-04-23
Filing date: 2021-06-24
Publication date: 2023-10-03
Anticipated expiration: 2041-06-24
Also published as: JP2024001050A; JP7626566B2; KR102597069B1; JP2022167734A; CN115331253A; KR20220146058A

Description

特許法第３０条第２項適用２０２１年２月８日のホームページ（ＵＲＬ：ｈｔｔｐｓ：／／ｂｌｏｇ．ｎａｖｅｒ．ｃｏｍ／ｃｌｏｖａ＿ａｉ／２２２２３６６４５７３３）における掲載

以下の説明は、ポインティングに基づく情報提供方法およびシステムに関する。

本（ｂｏｏｋ）のようなオフライン掲示物の文字を認識し、認識した文字を音声として合成してスピーカから出力することにより、オフライン掲示物の読み上げを行う装置および／またはサービスが存在する。このとき、オフライン掲示物のテキストに不明な単語が現れるとき、ユーザが分からない単語や、より正確な意味が知りたい単語などが存在する。人工知能スピーカを活用する場合には、不明な単語をユーザが直接発話しながら単語の意味を直接問うことがある。あるいは、ユーザが分からない単語を他のデバイスや辞書を利用して直接調べることもある。このとき、発話やタイピングの過程でエラーが発生する可能性が存在する。

また、指や特定のポインティング機器を使用しながら不明な単語を選択すれば、単語領域がハイライティングされて辞書にある意味が提供される従来技術が存在する。このとき、指先やフィンガーチップポイントなどを探知することは周知の技術であるし、モバイルで手のジェスチャを認知しながら特定のシンボルをキャッチすることも周知の技術である。さらに、多角度のカメラと視線の角度を利用しながら指先から遠く離れているデバイスを調節する技術も存在する。

しかし、撮影したイメージから指の座標を得るための従来技術は、（処理）速度が遅く、イメージに複数本の指が現れる場合にはエラーが多く発生するという問題がある。

韓国公開特許第１０－２０２０－００４９４３５号公報

ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれる文字を認識する過程において、指座標を得るためのトリガーを利用して文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる、情報提供方法およびシステムを提供する。

指座標に対応する単語に基づき、ユーザが希望する部分からオフライン掲示物の読み上げを始めるように開始位置を設定可能にすることにより、ユーザの利便性を高めることができる、情報提供方法およびシステムを提供する。

指座標に対応する単語が含まれた文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる、情報提供方法およびシステムを提供する。

少なくとも１つのプロセッサを含むコンピュータ装置の情報提供方法であって、前記少なくとも１つのプロセッサが、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、前記少なくとも１つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および前記少なくとも１つのプロセッサが、前記決定された単語の追加情報を提供する段階を含む、情報提供方法を提供する。

一側面によると、前記ユーザ指定座標を決定する段階は、前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを特徴としてよい。

他の側面によると、前記ユーザ指定座標を決定する段階は、前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴としてよい。

また他の側面によると、前記イメージ上に含まれる文字は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）によって少なくとも１つの文字を含むボックスの単位で認識され、前記単語を決定する段階は、前記ユーザ指定座標との距離が最も近いボックスに含まれる単語を前記ユーザ指定座標に対応する単語として選択することを特徴としてよい。

また他の側面によると、前記距離は、前記ユーザ指定座標と前記ボックスを形成する４本のラインのうちの下端ラインとの距離を含むか、あるいは前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴としてよい。

また他の側面によると、前記単語を決定する段階は、前記ボックスに含まれる文字に対する自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）により、前記ボックスから前記単語を抽出する段階を含むことを特徴としてよい。

また他の側面によると、前記追加情報を提供する段階は、オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも１つを提供するサーバから前記決定された単語の追加情報を受信する段階、前記受信した追加情報を音声に変換する段階、および前記変換された音声を出力する段階を含むことを特徴としてよい。

また他の側面によると、前記ユーザ指定座標を決定する段階は、ユーザの発話から予め設定された意図を認識することによって前記トリガーを発生させる段階を含むことを特徴としてよい。

また他の側面によると、前記ユーザ指定座標を決定する段階は、イメージの入力を受け、イメージに含まれる複数の指のうちの１つを決定するように学習されたマシンラーニングモジュールによって前記トリガーに対応するイメージを入力して前記トリガーに対応するイメージに含まれる複数の指のうちから１つの指を決定する段階、および前記決定された指の指座標を前記ユーザ指定座標として決定する段階を含むことを特徴としてよい。

また他の側面によると、前記単語を決定する段階は、指またはポインティングツールによって単語の少なくとも一部が隠れることによって前記ユーザ指定座標に対応する単語が認識できない場合、前記オフライン掲示物を撮影した以前のイメージから前記ユーザ指定座標に対応する単語を認識することを特徴としてよい。

また他の側面によると、前記情報提供方法は、前記少なくとも１つのプロセッサが、前記決定された単語の位置を前記オフライン掲示物に対する読み取りのための開始位置に指定する段階、および前記少なくとも１つのプロセッサが、前記開始位置から認識された文字を音声で出力する段階をさらに含んでよい。

さらに他の側面によると、前記情報提供方法は、前記少なくとも１つのプロセッサが、前記決定された単語を含む文章を認識する段階、および前記少なくとも１つのプロセッサが、前記認識された文章を複数回にわたり繰り返して音声で出力する段階をさらに含んでよい。

コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサが、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、前記決定された単語の追加情報を提供することを特徴とする、コンピュータ装置を提供する。

ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれる文字を認識する過程において、指座標を得るためのトリガーを利用して文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる。

指座標に対応する単語に基づき、ユーザが願う部分からオフライン掲示物の読み上げが始まるように開始位置を設定可能にすることにより、ユーザの利便性を高めることができる。

指座標に対応する単語が含まれる文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、情報提供システムの例を示した図である。本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。本発明の一実施形態における、情報提供方法の例を示したフローチャートである。本発明の一実施形態における、１つの指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。本発明の一実施形態における、複数の指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。本発明の一実施形態における、１つの指がポインティングされており、文字が隠れているが単語の認識が可能な場合の例を示したイメージである。本発明の一実施形態における、複数の指がポインティングされており、文字が隠れている場合の例を示したイメージである。本発明の一実施形態における、開始位置を設定する過程の例を示した図である。本発明の一実施形態における、反復領域を設定する過程の例を示した図である。本発明の一実施形態における、反復領域を設定する他の例を示した図である。本発明の一実施形態における、反復領域を設定する他の例を示した図である。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係る情報提供システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る情報提供方法は、情報提供システムを実現する少なくとも１つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行するコンピュータプログラムの制御にしたがって本発明の実施形態に係る情報提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して情報提供方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に格納されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境のうちの１つを説明するための一例に過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、コンテンツ提供サービス、グループ通話サービス（または、音声会議サービス）、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示すコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワークを介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置として構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

図３は、本発明の一実施形態における、情報提供システムの例を示した図である。図３は、情報提供装置３００、ユーザ３１０、オフライン掲示物３２０、およびサーバ３３０を示している。図３では１つのサーバ３３０を示しているが、サービスごとに多数のサーバが存在してもよい。

情報提供装置３００は、ユーザ３１０のオフライン掲示物３２０に含まれる文字を認識し、認識した文字を音声に変換して出力することによってユーザ３１０にオフライン掲示物３２０を読み上げる、物理的な電子装置であってよい。情報提供装置３００は、一例として、図２を参照しながら説明したコンピュータ装置２００によって実現されてよく、オフライン掲示物３２０に含まれる文字を認識するためにカメラ３０１を含んでよく、音声を出力するためにスピーカ３０２を含んでよく、実施形態によっては、ユーザ３１０の音声に基づく命令を受信するためにマイク３０３を含んでよい。このようなカメラ３０１、スピーカ３０２、およびマイク３０３などは、図２を参照しながら説明した入力／出力装置２５０に含まれてよい。実施形態によって、情報提供装置３００は、オフライン掲示物３２０を読み上げるための専用装置で構成されてもよい。一例として、情報提供装置３００は、照明形態で作製されるか、人工知能スピーカの形態で作製された装置であってよい。

ここで、オフライン掲示物３２０が本に限定されてはならず、雑誌や広告紙などのように文字を含むオフライン上の掲示物であれば限定されることはない。

報提供装置３００は、文字を認識するためにＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）技術を活用してよい。一例として、情報提供装置３００は、カメラに入力されたイメージから文字を認識するＯＣＲエンジン３０４を含んでよい。ＯＣＲ技術は周知の技術であるため、具体的な説明については省略する。ただし、本発明の実施形態では、ＯＣＲエンジン３０４によって文字だけを認識するのではなく、特定のトリガーに応答して指座標をさらに認識して提供してよい。

このとき、ＯＣＲエンジン３０４は、手の爪を認識し、イメージ上の爪に対する中央座標を指座標として抽出してよい。また、オフライン掲示物３２０と指の多様な位置を解決するために、大量の学習イメージを利用して学習されたマシンラーニングが活用されてよい。一例として、マシンラーニングモジュールは、複数の指が含まれたイメージ上で、どの指が正解であるかに関する情報を含む多数の学習イメージを利用しながら複数の指のうちから１つの指を決定するように学習されてよい。この場合、ＯＣＲエンジン３０４は、指座標を計算するためのイメージを学習されたマシンラーニングモジュールに入力し、学習されたマシンラーニングモジュールによって特定の指が決定されれば、決定された指に対する指座標を計算して提供してよい。上述では爪に対する中央座標を活用する例について説明したが、これに限定されることはない。一例として、指座標は、指の終端部分座標を含んでもよい。

一方、トリガーは、多様な方式で実現されてよい。一例として、トリガーは、ユーザ３１０の音声発話に基づいて発生してよい。ユーザ３１０がオフライン掲示物３２０の特定の単語の下に指を置きながらトリガーのための発話（一例として「Ｈｅｉ、この単語の意味は何？」（ここで、「Ｈｅｉ」は、情報提供装置３００の人工知能スピーカをアクティブ化させるために予め設定された発話の一例を意味しており、設定によって異なることがある）と発した場合、情報提供装置３００は、マイク３０３でユーザ３１０の発話を認識することによってトリガーを発生させてよい。この場合、ＯＣＲエンジン３０４は、発生したトリガーに応答して指座標を認識して提供してよい。他の例として、トリガーは、情報提供装置３００が提供する特定のボタン入力などによって発生してもよい。特定の単語に対する追加的な情報が提供されることを願うユーザ３１０の意図を認識することのできる方法であれば、限定されることなく、トリガーの発生のためのイベントとして活用されてよい。例えば、情報提供装置３００は、オフライン掲示物３２０のページが捲られることを認知するためにオフライン掲示物３２０を周期的に撮影してよい。このとき、情報提供装置３００は、撮影されたイメージから特定のポインティングツールやマークが認識される場合、トリガーを発生させてよい。

オフライン掲示物３２０を読み上げる過程において、ＯＣＲエンジン３０４は、カメラ３０１に入力されるオフライン掲示物３２０に対するイメージのうちの少なくとも一部に対する文字認識結果を提供してよい。この過程においてトリガーが発生すれば、ＯＣＲエンジン３０４は、トリガーと関連するイメージの文字認識結果とともに、認識された指座標を提供してよい。この場合、情報提供装置３００は、提供された指座標に対応する単語を特定してよく、特定された単語の追加情報を提供してよい。追加情報は、情報提供装置３００のローカル格納場所に格納された情報に基づいて生成されてもよいが、好ましくは、インターネットなどを介して接続するサーバ３３０から得られる情報に基づいて生成されてもよい。一例として、サーバ３３０は、オンライン辞書サービスを提供するサーバであるか、オンライン翻訳サービスを提供するサーバであってよい。この場合、情報提供装置３００は、サーバ３３０から単語の辞書的意味に関する情報や単語の翻訳情報を得てよく、得られた情報に基づいてユーザ３１０に提供する追加情報を生成して提供してよい。

一例として、情報提供装置３００は、追加情報を音声に変換した後、変換された音声をスピーカ３０２から出力することによって追加情報をユーザ３１０に提供してよい。追加情報の音声変換は、周知のＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）技術が活用されてよい。

一方、実施形態によって、ＯＣＲエンジン３０４の文字認識および指座標提供、ユーザ３１０の発話の認識、および／または追加情報の音声変換などは、サーバ３３０で提供するサービスによって処理されてもよい。一例として、情報提供装置３００は、カメラ３０２に入力されるイメージのうちの少なくとも一部とトリガーをサーバ３３０に送信してよく、サーバ３３０がイメージに含まれる文字の認識および指座標の生成などを実行してよい。この場合、情報提供装置３００は、サーバ３３０から文字認識結果や指座標などを受信して活用してよい。これと同じように、ユーザ３１０の発話の認識や追加情報の音声変換などがサーバ３３０で処理されてもよい。言い換えれば、本明細書において情報提供装置３００が特定の動作を処理（一例として、ユーザ３１０の発話認識）するという表現は、情報提供装置３００がサーバ３３０によって特定の動作を処理することを排除しない。

一方、ＯＣＲエンジン３０４は、文字認識結果として認識されたテキスト単位にボックス（ｂｏｘ）を設定して提供する。このとき、ＯＣＲエンジン３０４が文字認識結果と指座標を提供すれば、情報提供装置３００は、指座標との距離が最も近いボックスの単語をユーザ３１０が意図した単語として決定してよい。このとき、情報提供装置３００は、ボックス上の特定の位置と指座標との間の距離を測定してよい。一例として、情報提供装置３００は、ボックスの下端ラインの中間点と指座標との間の距離を測定してよい。他の例として、情報提供装置３００は、指座標とボックスの下端ラインの間の距離を測定してよい。点と点との距離または点と線との距離を測定する方法は周知であるため、具体的な説明は省略する。

一方、ＯＣＲエンジン３０４は、文字認識結果として認識されたテキスト単位にボックス（ｂｏｘ）を設定して提供する。このとき、ボックス単位が必ずしも単語単位ではないため、情報提供装置３００は、自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）の校正結果による分かち書き単位の単語を検索して認識してよい。一方、１つのボックスが多数の単語を含む場合には、認識された多数の単語のうちで指座標から最も近い単語を選択してよい。

また、トリガーに対応するイメージにおいて、ユーザ３１０の指によって認識すべき単語の少なくとも一部が隠れる場合がある。このような場合、情報提供装置３００は、ユーザ３１０に追加情報を提供する単語の取得が困難になる。これを解決するために、情報提供装置３００は、以前のイメージから指に対応する単語を認識してもよい。一例として、指座標が得られた状態で指座標に対応するボックス上の単語を認識することができない場合、情報提供装置３００は、以前のイメージ上の指座標に対応するボックスから単語を認識することを試みてよい。

図４～６は、本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。

図４は、ユーザ（一例として、図３のユーザ３１０）がオフライン掲示物４１０上の特定の単語を指でさした状態で、「Ｈｅｉ、この単語の意味は何？」のように発話することによって情報提供装置３００がカメラ３０２で撮影したイメージ４００の例を示している。

図５は、情報提供装置３００がＯＣＲエンジン３０４によってイメージ４００で指座標を決定する過程の例を示している。ここで、指座標は、イメージ４００上の座標であってよく、爪の中心座標であってよいが、これに限定されることはない。

図６は、情報提供装置３００がＯＣＲエンジン３０４から提供される文字認識結果と指座標に基づき、指座標から最も近い単語を決定する過程の例を示している。本実施形態では、単語「ｍｅｅｔ」が指座標から最も近い単語として決定されている。上述したように、情報提供装置３００は、ボックスの下端線の中心位置（イメージ４００上での位置）と指座標との距離に基づいて特定のボックスを選択してよく、選択されたボックスに含まれる単語を指座標に対応する単語として決定してよい。ただし、上述したように、ボックスの位置が下端線の中心位置に限定されることはない。

ユーザが意図する単語が決定されれば、情報提供装置３００は、サーバ３３０によって決定された単語の辞書的意味や翻訳結果などを検索して決定された単語の追加情報を生成してよく、生成された追加情報を音声に変換してユーザに提供してよい。

図７は、本発明の一実施形態における、情報提供方法の例を示したフローチャートである。本実施形態に係る情報提供方法は、コンピュータ装置２００によって実行されてよい。このとき、コンピュータ装置２００のプロセッサ２２０は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのコンピュータプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ２２０は、コンピュータ装置２００に記録されたコードが提供する制御命令にしたがってコンピュータ装置２００が図７の方法に含まれる段階７１０～７３０を実行するようにコンピュータ装置２００を制御してよい。

段階７１０で、コンピュータ装置２００は、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上の指座標を決定してよい。一例として、コンピュータ装置２００は、イメージ上で認識される手の爪に対する中央座標を前記指座標として決定してよい。ただし、これは一例に過ぎず、指の終端部分を指座標として活用するなどの多様な実施形態が可能であることは容易に理解できるであろう。

一方、コンピュータ装置２００は、ユーザの発話に基づいて予め設定された意図が認識されることによってトリガーを発生させてよい。上述では「Ｈｅｉ、この単語の意味は何？」のような特定の発話を利用する例を説明したが、同じ意図の他の表現（一例として、「Ｈｅｉ、この単語はどんな意味？」）によってトリガーが発生されてもよい。表現の意図を決定することは、周知の技術である。

また、イメージから複数の指が認識されることもある。このとき、オフライン掲示物の領域から離れた指や手の指ではない物体（一例として、足の指）などは、認識から除外してよい。また、オフライン掲示物が含むテキストから一定の距離以上が離れた位置にある指も、認識から除外してよい。オフライン掲示物が含むテキストから一定の距離以内に位置する指として複数が認識される場合、ＯＣＲエンジンは、認識された複数の指それぞれの座標を出力してよい。この場合、コンピュータ装置２００は、座標とテキストとの距離に基づき、ＯＣＲエンジンが出力する複数の座標のうちからユーザの意図に適する座標を決定してよい。

一方、コンピュータ装置２００は、イメージの入力を受け、イメージに含まれる複数の指のうちから１つを決定するように学習されたマシンラーニングモジュールによってトリガーに対応するイメージを入力して１つの指を決定してよく、決定された指の指座標を決定してよい。このようなマシンラーニングモジュールは、１つのイメージ上に複数の指が存在する場合に、ユーザが意図する指を決定するために使用されてよい。実施形態によって、ＯＣＲエンジンは、認識される指それぞれの指座標を決定した後にマシンラーニングモジュールを利用して指座標のうちから１本の指座標を選択してもよい。この場合、マシンラーニングモジュールは、イメージ、複数の指座標、および正解指座標が含まれた学習イメージで複数の指座標のうちから１つの指座標を出力するように学習されてもよい。

段階７２０で、コンピュータ装置２００は、イメージ上に含まれる文字のうちから、決定された指座標に対応する単語を決定してよい。一例として、上述したように、イメージ上に含まれる文字は、ＯＣＲにより、少なくとも１つの文字を含むボックスの単位で認識されてよい。この場合、コンピュータ装置２００は、指座標との距離が最も近いボックスに含まれる単語を前記指座標に対応する単語として選択してよい。ここで、距離は、指座標とボックスを形成する４つのラインのうちの下端ラインとの距離を含むか、または指座標と下端ラインの中間点との距離を含んでよい。また、コンピュータ装置２００は、ボックスに含まれる文字に対する自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）によってボックスから単語を抽出してよい。これは、ボックスが単語単位で文字を区分しない場合に活用されてよい。

また、コンピュータ装置２００は、指によって単語の少なくとも一部が隠れて指座標に対応する単語が認識できない場合、オフライン掲示物を撮影した以前のイメージから指座標に対応する単語を認識してよい。

段階７３０で、コンピュータ装置２００は、決定された単語の追加情報を提供してよい。一例として、コンピュータ装置２００は、オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも１つを提供するサーバから、決定された単語の追加情報を受信してよい。このとき、コンピュータ装置２００は、受信された追加情報を音声に変換してよく、変換された音声を出力することによって追加情報をユーザに提供してよい。上述したように、追加情報を音声に変換することは、ＴＴＳ技術に基づいてよく、音声は、コンピュータ装置２００が含むかコンピュータ装置２００と接続するスピーカから出力されてよい。また、実施形態によって、コンピュータ装置２００は、サーバを経ずに、コンピュータ装置２００のローカル格納場所に格納された情報を利用して追加情報を生成して提供してもよい。

実施形態によって、コンピュータ装置２００は、段階７２０で決定された単語の位置を、オフライン掲示物を読み上げるための開始位置に指定し、開始位置から認識された文字を音声で出力してよい。言い換えれば、コンピュータ装置２００は、ユーザが指で指示した単語からオフライン掲示物の読み上げを始めてよい。本実施形態については、図１２を参照しながらさらに詳しく説明する。

他の実施形態によって、コンピュータ装置２００は、段階７２０で決定された単語を含む文章を認識し、認識された文章を複数回にわたり繰り返して音声で出力してよい。言い換えれば、コンピュータ装置２００は、ユーザが指で指示した単語を含む文章を複数回にわたり繰り返して読み上げてよい。本実施形態については、図１３を参照しながらさらに詳しく説明する。

図８は、本発明の一実施形態における、１つの指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。図８では、１つの指が文字「ｙｏｕｎｇ」をさしており、ＯＣＲエンジン３０４が該当の文字「ｙｏｕｎｇ」を明確に認識可能な場合のイメージを示している。このとき、ＯＣＲエンジン３０４は、一例として、以下の表１のように、文字「ｙｏｕｎｇ」に対するＯＣＲ認識結果と指座標を提供してよい。

表１において、「ｂｏｕｎｄｉｎｇＢｏｘ」はイメージ上のボックスの四つ角の座標を、「ｃｏｎｆｉｄｅｎｃｅ」は該当のボックスに対応して認識された文字の信頼度を、「ｉｓＶｅｒｔｉｃａｌ」は認識された文字が縦方向であるかどうかを、「ｔｅｘｔ」は該当のボックスに対応して認識された文字を、それぞれ示している。「ｇｒｏｕｐ」は、１度の認識から出た結果を１つのグループに束ねるための基準であってよく、「ｓｕｂＧｒｏｕｐ」は、全体の認識結果内で整列（ｓｏｒｔｉｎｇ）と位置的な距離に基づいてクラスタリングされた値であって、該当の領域の正確度を判断するために使用されてよい。また、「ｆｉｎｇｅｒｔｉｐｓ」はイメージ上の指の指座標を、「ｓｕｃｃｅｅｄｅｄ」は指座標の認識が成功したかどうかを、それぞれ示している。この場合、情報提供装置３００は、一例として、指座標［９４０，６００］とボックスの座標［８９７，５８８］との距離を計算してよい。情報提供装置３００は、認識された他のボックスに対しても指座標との距離を計算してよく、距離が最も近いボックスが選択されてよい。

以下の表２は、図８のイメージに対してＯＣＲエンジン３０４が提供する全体の文字認識結果の例を示している。

図９は、本発明の一実施形態における、複数の指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。図９では、１つの指が文字

をさしているが、他の指もオフライン掲示物上に存在する場合の例を示している。

このとき、以下の表３は、図９のイメージでＯＣＲエンジン３０４が提供する文字

の認識結果と指座標を示している。

上述したように、複数の指座標が認識される場合には、マシンラーニングなどを利用して１つの指を決定してよい。または、認識されたボックスの位置に基づき、距離が一定の距離以上の指座標は予め除外してもよい。

図１０は、本発明の一実施形態における、１つの指がポインティングされており、文字が隠れているが単語の認識が可能な場合の例を示したイメージである。図１０では、１つの指によって文字「ｆａｓｔｅｒ！」の一部が隠れているが、単語の認識が可能な場合の例を示している。

このとき、以下の表４は、図１０のイメージでＯＣＲエンジン３０４が提供する文字「ｉｔｆａｓｔｅｒ」の認識結果と指座標を示している。

一方、図１０の例では、文字「ｉｔｆａｓｔｅｒ」が「ｉｔｆａｓｔｅｒ」に間違って認識された例を示しているが、これは自然語処理などの技術によって分離可能である。このとき、上述したように、２つの単語「ｉｔ」と「ｆａｓｔｅｒ」のうちで指座標に最も近い単語である「ｆａｓｔｅｒ」が選択され、追加情報の提供のために使用されてよい。

図１１は、本発明の一実施形態における、複数の指がポインティングされており、文字が隠れている場合の例を示したイメージである。図１１では、４つの指が認識され、そのうちの１つの指によって文字の一部が隠れることによって単語の認識が困難な場合の例を示している。

このとき、以下の表５は、図１１のイメージでＯＣＲエンジン３０４が提供する文字認識結果と指座標を示している。

このとき、ユーザが意図する単語は

であったが、表５では

という単語が認識された例を示している。この場合、上述したように、情報提供装置３００は、マシンラーニングを活用して４つの指座標のうちから１つを選択してよい。上述したように、認識される文字との距離が一定の距離以上の指座標は、予め除去されてもよい。また、指によって隠れている場合、情報提供装置３００は、以前のイメージを活用して文字を再認識してもよい。

実施形態によって、情報提供装置３００は、ポインティングの再実行やオフライン掲示物の位置を調整することなどをユーザに要求して認識を再実行してもよい。

また、実施形態によって、情報提供装置３００は、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、オフライン掲示物の特定の領域から読み上げを始めるように指座標を利用して開始位置を設定できる機能を提供してよい。

図１２は、本発明の一実施形態における、開始位置を設定する過程の例を示した図である。図１２は、ユーザ（一例として、図３のユーザ３１０）がオフライン掲示物１２１０上の特定の単語を指でさした状態で「Ｈｅｉ、ここから読んで」のように発話することによって情報提供装置３００がカメラ３０２によって撮影したイメージ１２００の例を示している。上述したように、情報提供装置３００は、指座標を抽出してよく、オフライン掲示物１２１０を撮影したイメージ１２００上で指座標を決定してよく、イメージ１２００上に含まれた文字のうちから、決定された指座標に対応する単語（図１２の実施形態では単語「Ｍｙ」）を決定してよい。このとき、情報提供装置３００は、ユーザの発話「Ｈｅｉ、ここから読んで」に対する応答として、決定された単語「Ｍｙ」から読み上げを始めてよい。言い換えれば、単語「Ｍｙ」の位置が読み上げ開始位置に設定されてよい。上述したように、情報提供装置３００の読み上げは、オフライン掲示物に含まれる文字を認識して音声で出力する過程であってよい。この場合、図１２の実施形態において、情報提供装置３００は、開始位置である単語「Ｍｙ」から、「ＭｙｎａｍｅｉｓＧｉｌ－ｄｏｎｇＨｏｎｇ．Ｗｈａｔ’ｓｙｏｕｒｎａｍｅ．」に対応する音声を出力してよい。

指座標に対応する単語が「Ｇｉｌ－ｄｏｎｇ」であれば、情報提供装置３００は、開始位置である単語「Ｇｉｌ－ｄｏｎｇ」から、「Ｇｉｌ－ｄｏｎｇＨｏｎｇ．Ｗｈａｔ’ｓｙｏｕｒｎａｍｅ．」に対応する音声を出力するようになるであろう。

このように、本実施形態によると、オフライン掲示物の最初の部分からテキストを読み上げるだけでなく、ユーザが簡単かつ便利に指定することのできる開始位置からテキストを読み上げることが可能になる。

また他の実施形態において、情報提供装置３００は、指座標を活用しながら、ユーザが読み上げの繰り返しを願う特定の領域を識別してよい。言い換えれば、ユーザは、繰り返して読み上げてほしい特定の領域を、指座標を利用して直接指定することができる。

図１３は、本発明の一実施形態における、反復領域を設定する過程の例を示した図である。図１３は、ユーザ（一例として、図３のユーザ３１０）がオフライン掲示物１３１０上の特定の単語を指でさした状態で「Ｈｅｉ、この文章を３回読んで」のように発話することによって情報提供装置３００がカメラ３０２で撮影したイメージ１３００の例を示している。この場合、情報提供装置３００は、指座標を抽出してよく、オフライン掲示物１３１０を撮影したイメージ１３００上で指座標を決定してよい。また、情報提供装置３００は、イメージ１３００上に含まれた文字のうちから、指座標に対応する単語（図１３の実施形態では単語「ｍｅｅｔ」）を決定してよい。このとき、情報提供装置３００は、ユーザの発話「Ｈｅｉ、この文章を３回読んで」に対する応答として、決定された単語「ｍｅｅｔ」が含まれた文章「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ．」を認識してよく、認識された文章「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ．」に対応する音声を３回繰り返して出力してよい。

このように、図１３の実施形態によると、情報提供装置３００が、ユーザによって指定された単語が含まれた文章を複数回にわたり繰り返して読み上げることを可能にすることにより、多様な学習用機能を追加することが可能になる。

実施形態によっては、ユーザが指の位置を変えながら「Ｈｅｉ、ここからここまで３回読んで」のように発話することがある。この場合、情報提供装置は、ユーザの発話の最初の「ここ」に対応する第１指座標、次にユーザの発話の２番目の「ここ」に対応する第２指座標を活用しながら、ユーザが読み上げの繰り返しを願う特定の部分を認識してもよい。

図１４および図１５は、本発明の一実施形態における、反復領域を設定する他の例を示した図である。図１４および図１５は、ユーザ（一例として、図３のユーザ３１０）がオフライン掲示物１４１０で指の位置を変更しながら「Ｈｅｉ、ここからここまで３回読んで」のように発話した場合の例を示している。このとき、情報提供装置３００は、最初の「ここ」が発話された時点に対応する第１イメージ１４００で第１指座標を決定してよく、２番目の「ここ」が発話された時点に対応する第２イメージ１５００で第２指座標を決定してよい。実施形態によっては、ユーザの発話がすべて分析された後にイメージが撮影されてもよい。この場合には、１つのイメージで認識された２つの指座標に基づいて第１指座標と第２指座標が決定されてもよい。この場合、第１指座標と第２指座標のうちのどちらの座標が先なのかは、第１、２指座標のテキストを分析することで決定されてよい。他の実施形態として、ユーザの発話が２回にわたって入力されることもある。一例として、「Ｈｅｉ、ここから」という最初の発話と「Ｈｅｉ、ここまで３回読んで」という２番目の発話の合計２回の発話、そして２回の発話それぞれと関連して撮影されたイメージからそれぞれ第１指座標と第２指座標が決定されてよい。また、情報提供装置３００は、第１、２指座標それぞれに対応する単語［Ｎｉｃｅ、ｎａｍｅ］が決定されることにより、ユーザが読み上げの繰り返しを願う特定の部分のテキストである［Ｎｉｃｅｔｏｍｅｅｔｙｏｕ．ＭｙｎａｍｅｉｓＧｉｌ－ｄｏｎｇＨｏｎｇ．Ｗｈａｔ’ｓｙｏｕｒｎａｍｅ］を認識してよい。この場合、情報提供装置３００は、認識された特定の部分のテキストである［Ｎｉｃｅｔｏｍｅｅｔｙｏｕ．ＭｙｎａｍｅｉｓＧｉｌ－ｄｏｎｇＨｏｎｇ．Ｗｈａｔ’ｓｙｏｕｒｎａｍｅ］に対応する音声を３回繰り返して出力してよい。

本実施形態では「ここ」という発話を使用する例について説明したが、ユーザが願う部分の開始部分と終了部分を指定するための発話を個別に定義して使用することも可能である。一例として、「Ｈｅｉ、開始部分から終了部分まで３回読んで」のような「開始」と「終了」のような特定の用語が、特定の部分のテキストを認識するための用語として予め定義されて使用されてもよい。

一方、座標の認識のための「指」は、ペン（ｐｅｎ）のようなポインティングツールに置き換えられてもよい。このようなポインティングツールは、座標の認識のために提供される専用ツールであるか、ＱＲコードのような特定のマーク、またはユーザが任意に使用するツールであってよい。マークはカメラのプレビュー段階で位置が直ぐに認識可能であるし、必要時にはトリガーとしても活用可能である。この場合、上述した指座標は、イメージ上で特定のポインティングツールやマーカーの位置を認識した座標を意味してよい。例えば、任意のボールペンがポインティングツールとして使用される場合、情報提供装置３００は、イメージ上でボールペンの先端部分に対するイメージ上の座標を認識して活用してよい。専用ツールは、情報提供装置３００がイメージ上で座標を容易に認識できるように予め設定された模様や表式などを含んでもよい。この場合、情報提供装置３００は、イメージ上で予め設定された模様や表式などが存在する位置の座標を指座標として認識して活用してよい。このため、「指座標」という用語は、ユーザが指定しようとする位置に対する座標である「ユーザ指定座標」に拡張して使用されてよい。

また、上述した実施形態では、イメージ上で複数の指が検出される場合には、マシンラーニングなどを利用して１つの指を決定するか、認識されたボックスの位置に基づいて距離が一定の距離以上の指座標は予め除外させる例について説明した。一方、実施形態によっては、複数の指座標（ユーザ指定座標）が検出される場合、情報提供装置３００は、複数の指座標それぞれに優先順位を指定してよい。一例として、優先順位は、本を読み上げる方式によって決定されてよい。本を読み上げる方式が、上から下に、さらに左から右に進む場合、指座標の優先順位は、本の上側に位置する指座標であるほど、高さが同一／類似するのであれば本の左側に位置する指座標であるほどより高い優先順位を有するように、情報提供装置３００が複数の指座標に優先順位を設定してよい。この後、情報提供装置３００は、設定された優先順位にしたがって順に各単語の追加情報を提供してよい。ただし、この場合にも、認識されたボックスの位置に基づき、距離が一定の距離以上の指座標は予め除外してよい。または、文章を読み上げるための開始位置と終了位置を同時に指定するために、少なくとも２つの指座標が同時に活用されてもよい。

このように、本発明の実施形態によると、ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれた文字を認識する過程において、指座標を得るためのトリガーに基づいて文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる。また、指座標に対応する単語に基づき、ユーザが願う部分からオフライン掲示物の読み上げを始めるように開始位置を設定可能することにより、ユーザの利便性を高めることができる。さらに、指座標に対応する単語が含まれた文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる。

上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

３００：情報提供装置
３０１：カメラ
３０２：スピーカ
３０３：マイク
３０４：ＯＣＲエンジン
３１０：ユーザ
３２０：オフライン掲示物
３３０：サーバ

Claims

少なくとも１つのプロセッサを含むコンピュータ装置の情報提供方法であって、
前記少なくとも１つのプロセッサが、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、
前記少なくとも１つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および
前記少なくとも１つのプロセッサが、前記決定された単語の追加情報を提供する段階
を含み、
前記ユーザ指定座標を決定する段階は、
イメージの入力を受け、イメージに含まれる複数の指のうちから１つを決定するように学習されたマシンラーニングモジュールに前記トリガーに対応するイメージを入力し、前記トリガーに対応するイメージに含まれる複数の指のうちから１つの指を決定する段階、および
前記決定された指の指座標を前記ユーザ指定座標として決定する段階
を含むことを特徴とする、情報提供方法。
前記ユーザ指定座標を決定する段階は、
前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを特徴とする、請求項１に記載の情報提供方法。
前記ユーザ指定座標を決定する段階は、
前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴とする、請求項１に記載の情報提供方法。
前記イメージ上に含まれた文字は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）によって少なくとも１つの文字を含むボックスの単位で認識され、
前記単語を決定する段階は、
前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択することを特徴とする、請求項１～３のうちのいずれか一項に記載の情報提供方法。
前記距離は、前記ユーザ指定座標と前記ボックスを形成する４本のラインのうちの下端ラインとの距離を含むか、または前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴とする、請求項４に記載の情報提供方法。
前記単語を決定する段階は、
前記ボックスに含まれた文字に対する自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）によって前記ボックスから前記単語を抽出する段階
を含むことを特徴とする、請求項４に記載の情報提供方法。
前記追加情報を提供する段階は、
オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも１つを提供するサーバから、前記決定された単語の追加情報を受信する段階、
前記受信した追加情報を音声に変換する段階、および
前記変換された音声を出力する段階
を含むことを特徴とする、請求項１～６のうちのいずれか一項に記載の情報提供方法。
前記ユーザ指定座標を決定する段階は、
ユーザの発話によって予め設定された意図が認識されることにより、前記トリガーを発生させる段階
を含むことを特徴とする、請求項１～７のうちのいずれか一項に記載の情報提供方法。
少なくとも１つのプロセッサを含むコンピュータ装置の情報提供方法であって、
前記少なくとも１つのプロセッサが、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、
前記少なくとも１つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および
前記少なくとも１つのプロセッサが、前記決定された単語の追加情報を提供する段階
を含み、
前記単語を決定する段階は、
指またはポインティングツールによって単語の少なくとも一部が隠れて前記ユーザ指定座標に対応する単語が認識できない場合、前記オフライン掲示物を撮影した以前のイメージから前記ユーザ指定座標に対応する単語を認識することを特徴とする、情報提供方法。
前記少なくとも１つのプロセッサが、前記決定された単語の位置を、前記オフライン掲示物に対する読み上げための開始位置に指定する段階、および
前記少なくとも１つのプロセッサが、前記開始位置から認識された文字を音声で出力する段階
をさらに含む、請求項１～９のうちのいずれか一項に記載の情報提供方法。
前記少なくとも１つのプロセッサが、前記決定された単語を含む文章を認識する段階、および
前記少なくとも１つのプロセッサが、前記認識された文章を複数回にわたり繰り返して音声で出力する段階
をさらに含む、請求項１～１０のうちのいずれか一項に記載の情報提供方法。
コンピュータ装置と結合して請求項１～１１のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
請求項１～１１のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサが、
ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、
前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、
前記決定された単語の追加情報を提供することを行い、
前記ユーザ指定座標を決定することは、前記少なくとも１つのプロセッサが、
イメージの入力を受け、イメージに含まれる複数の指のうちから１つを決定するように学習されたマシンラーニングモジュールに前記トリガーに対応するイメージを入力し、前記トリガーに対応するイメージに含まれる複数の指のうちから１つの指を決定し、および
前記決定された指の指座標を前記ユーザ指定座標として決定することを行うこと
を含むことを特徴とする、コンピュータ装置。
前記ユーザ指定座標を決定するために、前記少なくとも１つのプロセッサが、
前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを行うこと
を特徴とする、請求項１４に記載のコンピュータ装置。
前記イメージ上に含まれた文字は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）によって少なくとも１つの文字を含むボックスの単位で認識され、
前記単語を決定するために、前記少なくとも１つのプロセッサが、
前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択することを行うこと
を特徴とする、請求項１４または１５に記載のコンピュータ装置。
前記追加情報を提供するために、前記少なくとも１つのプロセッサが、
オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも１つを提供するサーバから、前記決定された単語の追加情報を受信し、
前記受信した追加情報を音声に変換し、
前記変換された音声を出力することを行うこと
を特徴とする、請求項１４～１６のうちのいずれか一項に記載のコンピュータ装置。
前記少なくとも１つのプロセッサが、
前記決定された単語の位置を、前記オフライン掲示物に対する読み上げのための開始位置に指定し、
前記開始位置から認識された文字を音声で出力することを行うこと
を特徴とする、請求項１４～１７のうちのいずれか一項に記載のコンピュータ装置。
前記少なくとも１つのプロセッサが、
前記決定された単語を含む文章を認識し、
前記認識された文章を複数回にわたり繰り返して音声で出力することを行うこと
を特徴とする、請求項１４～１８のうちのいずれか一項に記載のコンピュータ装置。