JP7355785B2 - ポインティングに基づく情報提供方法およびシステム - Google Patents

ポインティングに基づく情報提供方法およびシステム Download PDF

Info

Publication number
JP7355785B2
JP7355785B2 JP2021104963A JP2021104963A JP7355785B2 JP 7355785 B2 JP7355785 B2 JP 7355785B2 JP 2021104963 A JP2021104963 A JP 2021104963A JP 2021104963 A JP2021104963 A JP 2021104963A JP 7355785 B2 JP7355785 B2 JP 7355785B2
Authority
JP
Japan
Prior art keywords
user
word
image
finger
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021104963A
Other languages
English (en)
Other versions
JP2022167734A (ja
Inventor
ヘウン シン
ジエ ホ
ヨンミン ペク
ソクフン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022167734A publication Critical patent/JP2022167734A/ja
Priority to JP2023155442A priority Critical patent/JP2024001050A/ja
Application granted granted Critical
Publication of JP7355785B2 publication Critical patent/JP7355785B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)
  • Position Input By Displaying (AREA)

Description

特許法第30条第2項適用 2021年2月8日のホームページ(URL:https://blog.naver.com/clova_ai/222236645733)における掲載
以下の説明は、ポインティングに基づく情報提供方法およびシステムに関する。
本(book)のようなオフライン掲示物の文字を認識し、認識した文字を音声として合成してスピーカから出力することにより、オフライン掲示物の読み上げを行う装置および/またはサービスが存在する。このとき、オフライン掲示物のテキストに不明な単語が現れるとき、ユーザが分からない単語や、より正確な意味が知りたい単語などが存在する。人工知能スピーカを活用する場合には、不明な単語をユーザが直接発話しながら単語の意味を直接問うことがある。あるいは、ユーザが分からない単語を他のデバイスや辞書を利用して直接調べることもある。このとき、発話やタイピングの過程でエラーが発生する可能性が存在する。
また、指や特定のポインティング機器を使用しながら不明な単語を選択すれば、単語領域がハイライティングされて辞書にある意味が提供される従来技術が存在する。このとき、指先やフィンガーチップポイントなどを探知することは周知の技術であるし、モバイルで手のジェスチャを認知しながら特定のシンボルをキャッチすることも周知の技術である。さらに、多角度のカメラと視線の角度を利用しながら指先から遠く離れているデバイスを調節する技術も存在する。
しかし、撮影したイメージから指の座標を得るための従来技術は、(処理)速度が遅く、イメージに複数本の指が現れる場合にはエラーが多く発生するという問題がある。
韓国公開特許第10-2020-0049435号公報
ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれる文字を認識する過程において、指座標を得るためのトリガーを利用して文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる、情報提供方法およびシステムを提供する。
指座標に対応する単語に基づき、ユーザが希望する部分からオフライン掲示物の読み上げを始めるように開始位置を設定可能にすることにより、ユーザの利便性を高めることができる、情報提供方法およびシステムを提供する。
指座標に対応する単語が含まれた文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる、情報提供方法およびシステムを提供する。
少なくとも1つのプロセッサを含むコンピュータ装置の情報提供方法であって、前記少なくとも1つのプロセッサが、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、前記少なくとも1つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および前記少なくとも1つのプロセッサが、前記決定された単語の追加情報を提供する段階を含む、情報提供方法を提供する。
一側面によると、前記ユーザ指定座標を決定する段階は、前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを特徴としてよい。
他の側面によると、前記ユーザ指定座標を決定する段階は、前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴としてよい。
また他の側面によると、前記イメージ上に含まれる文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、前記単語を決定する段階は、前記ユーザ指定座標との距離が最も近いボックスに含まれる単語を前記ユーザ指定座標に対応する単語として選択することを特徴としてよい。
また他の側面によると、前記距離は、前記ユーザ指定座標と前記ボックスを形成する4本のラインのうちの下端ラインとの距離を含むか、あるいは前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴としてよい。
また他の側面によると、前記単語を決定する段階は、前記ボックスに含まれる文字に対する自然語処理(Natural Language Processing)により、前記ボックスから前記単語を抽出する段階を含むことを特徴としてよい。
また他の側面によると、前記追加情報を提供する段階は、オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから前記決定された単語の追加情報を受信する段階、前記受信した追加情報を音声に変換する段階、および前記変換された音声を出力する段階を含むことを特徴としてよい。
また他の側面によると、前記ユーザ指定座標を決定する段階は、ユーザの発話から予め設定された意図を認識することによって前記トリガーを発生させる段階を含むことを特徴としてよい。
また他の側面によると、前記ユーザ指定座標を決定する段階は、イメージの入力を受け、イメージに含まれる複数の指のうちの1つを決定するように学習されたマシンラーニングモジュールによって前記トリガーに対応するイメージを入力して前記トリガーに対応するイメージに含まれる複数の指のうちから1つの指を決定する段階、および前記決定された指の指座標を前記ユーザ指定座標として決定する段階を含むことを特徴としてよい。
また他の側面によると、前記単語を決定する段階は、指またはポインティングツールによって単語の少なくとも一部が隠れることによって前記ユーザ指定座標に対応する単語が認識できない場合、前記オフライン掲示物を撮影した以前のイメージから前記ユーザ指定座標に対応する単語を認識することを特徴としてよい。
また他の側面によると、前記情報提供方法は、前記少なくとも1つのプロセッサが、前記決定された単語の位置を前記オフライン掲示物に対する読み取りのための開始位置に指定する段階、および前記少なくとも1つのプロセッサが、前記開始位置から認識された文字を音声で出力する段階をさらに含んでよい。
さらに他の側面によると、前記情報提供方法は、前記少なくとも1つのプロセッサが、前記決定された単語を含む文章を認識する段階、および前記少なくとも1つのプロセッサが、前記認識された文章を複数回にわたり繰り返して音声で出力する段階をさらに含んでよい。
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサが、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、前記決定された単語の追加情報を提供することを特徴とする、コンピュータ装置を提供する。
ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれる文字を認識する過程において、指座標を得るためのトリガーを利用して文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる。
指座標に対応する単語に基づき、ユーザが願う部分からオフライン掲示物の読み上げが始まるように開始位置を設定可能にすることにより、ユーザの利便性を高めることができる。
指座標に対応する単語が含まれる文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、 情報提供システムの例を示した図である。 本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。 本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。 本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。 本発明の一実施形態における、情報提供方法の例を示したフローチャートである。 本発明の一実施形態における、1つの指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。 本発明の一実施形態における、複数の指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。 本発明の一実施形態における、1つの指がポインティングされており、文字が隠れているが単語の認識が可能な場合の例を示したイメージである。 本発明の一実施形態における、複数の指がポインティングされており、文字が隠れている場合の例を示したイメージである。 本発明の一実施形態における、開始位置を設定する過程の例を示した図である。 本発明の一実施形態における、反復領域を設定する過程の例を示した図である。 本発明の一実施形態における、反復領域を設定する他の例を示した図である。 本発明の一実施形態における、反復領域を設定する他の例を示した図である。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係る情報提供システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る情報提供方法は、情報提供システムを実現する少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行するコンピュータプログラムの制御にしたがって本発明の実施形態に係る情報提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して情報提供方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの1つを説明するための一例に過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示すコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワークを介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置として構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
図3は、本発明の一実施形態における、 情報提供システムの例を示した図である。図3は、情報提供装置300、ユーザ310、オフライン掲示物320、およびサーバ330を示している。図3では1つのサーバ330を示しているが、サービスごとに多数のサーバが存在してもよい。
情報提供装置300は、ユーザ310のオフライン掲示物320に含まれる文字を認識し、認識した文字を音声に変換して出力することによってユーザ310にオフライン掲示物320を読み上げる、物理的な電子装置であってよい。情報提供装置300は、一例として、図2を参照しながら説明したコンピュータ装置200によって実現されてよく、オフライン掲示物320に含まれる文字を認識するためにカメラ301を含んでよく、音声を出力するためにスピーカ302を含んでよく、実施形態によっては、ユーザ310の音声に基づく命令を受信するためにマイク303を含んでよい。このようなカメラ301、スピーカ302、およびマイク303などは、図2を参照しながら説明した入力/出力装置250に含まれてよい。実施形態によって、情報提供装置300は、オフライン掲示物320を読み上げるための専用装置で構成されてもよい。一例として、情報提供装置300は、照明形態で作製されるか、人工知能スピーカの形態で作製された装置であってよい。
ここで、オフライン掲示物320が本に限定されてはならず、雑誌や広告紙などのように文字を含むオフライン上の掲示物であれば限定されることはない。
報提供装置300は、文字を認識するためにOCR(Optical Character Reader)技術を活用してよい。一例として、情報提供装置300は、カメラに入力されたイメージから文字を認識するOCRエンジン304を含んでよい。OCR技術は周知の技術であるため、具体的な説明については省略する。ただし、本発明の実施形態では、OCRエンジン304によって文字だけを認識するのではなく、特定のトリガーに応答して指座標をさらに認識して提供してよい。
このとき、OCRエンジン304は、手の爪を認識し、イメージ上の爪に対する中央座標を指座標として抽出してよい。また、オフライン掲示物320と指の多様な位置を解決するために、大量の学習イメージを利用して学習されたマシンラーニングが活用されてよい。一例として、マシンラーニングモジュールは、複数の指が含まれたイメージ上で、どの指が正解であるかに関する情報を含む多数の学習イメージを利用しながら複数の指のうちから1つの指を決定するように学習されてよい。この場合、OCRエンジン304は、指座標を計算するためのイメージを学習されたマシンラーニングモジュールに入力し、学習されたマシンラーニングモジュールによって特定の指が決定されれば、決定された指に対する指座標を計算して提供してよい。上述では爪に対する中央座標を活用する例について説明したが、これに限定されることはない。一例として、指座標は、指の終端部分座標を含んでもよい。
一方、トリガーは、多様な方式で実現されてよい。一例として、トリガーは、ユーザ310の音声発話に基づいて発生してよい。ユーザ310がオフライン掲示物320の特定の単語の下に指を置きながらトリガーのための発話(一例として「Hei、この単語の意味は何?」(ここで、「Hei」は、情報提供装置300の人工知能スピーカをアクティブ化させるために予め設定された発話の一例を意味しており、設定によって異なることがある)と発した場合、情報提供装置300は、マイク303でユーザ310の発話を認識することによってトリガーを発生させてよい。この場合、OCRエンジン304は、発生したトリガーに応答して指座標を認識して提供してよい。他の例として、トリガーは、情報提供装置300が提供する特定のボタン入力などによって発生してもよい。特定の単語に対する追加的な情報が提供されることを願うユーザ310の意図を認識することのできる方法であれば、限定されることなく、トリガーの発生のためのイベントとして活用されてよい。例えば、情報提供装置300は、オフライン掲示物320のページが捲られることを認知するためにオフライン掲示物320を周期的に撮影してよい。このとき、情報提供装置300は、撮影されたイメージから特定のポインティングツールやマークが認識される場合、トリガーを発生させてよい。
オフライン掲示物320を読み上げる過程において、OCRエンジン304は、カメラ301に入力されるオフライン掲示物320に対するイメージのうちの少なくとも一部に対する文字認識結果を提供してよい。この過程においてトリガーが発生すれば、OCRエンジン304は、トリガーと関連するイメージの文字認識結果とともに、認識された指座標を提供してよい。この場合、情報提供装置300は、提供された指座標に対応する単語を特定してよく、特定された単語の追加情報を提供してよい。追加情報は、情報提供装置300のローカル格納場所に格納された情報に基づいて生成されてもよいが、好ましくは、インターネットなどを介して接続するサーバ330から得られる情報に基づいて生成されてもよい。一例として、サーバ330は、オンライン辞書サービスを提供するサーバであるか、オンライン翻訳サービスを提供するサーバであってよい。この場合、情報提供装置300は、サーバ330から単語の辞書的意味に関する情報や単語の翻訳情報を得てよく、得られた情報に基づいてユーザ310に提供する追加情報を生成して提供してよい。
一例として、情報提供装置300は、追加情報を音声に変換した後、変換された音声をスピーカ302から出力することによって追加情報をユーザ310に提供してよい。追加情報の音声変換は、周知のTTS(Text To Speech)技術が活用されてよい。
一方、実施形態によって、OCRエンジン304の文字認識および指座標提供、ユーザ310の発話の認識、および/または追加情報の音声変換などは、サーバ330で提供するサービスによって処理されてもよい。一例として、情報提供装置300は、カメラ302に入力されるイメージのうちの少なくとも一部とトリガーをサーバ330に送信してよく、サーバ330がイメージに含まれる文字の認識および指座標の生成などを実行してよい。この場合、情報提供装置300は、サーバ330から文字認識結果や指座標などを受信して活用してよい。これと同じように、ユーザ310の発話の認識や追加情報の音声変換などがサーバ330で処理されてもよい。言い換えれば、本明細書において情報提供装置300が特定の動作を処理(一例として、ユーザ310の発話認識)するという表現は、情報提供装置300がサーバ330によって特定の動作を処理することを排除しない。
一方、OCRエンジン304は、文字認識結果として認識されたテキスト単位にボックス(box)を設定して提供する。このとき、OCRエンジン304が文字認識結果と指座標を提供すれば、情報提供装置300は、指座標との距離が最も近いボックスの単語をユーザ310が意図した単語として決定してよい。このとき、情報提供装置300は、ボックス上の特定の位置と指座標との間の距離を測定してよい。一例として、情報提供装置300は、ボックスの下端ラインの中間点と指座標との間の距離を測定してよい。他の例として、情報提供装置300は、指座標とボックスの下端ラインの間の距離を測定してよい。点と点との距離または点と線との距離を測定する方法は周知であるため、具体的な説明は省略する。
一方、OCRエンジン304は、文字認識結果として認識されたテキスト単位にボックス(box)を設定して提供する。このとき、ボックス単位が必ずしも単語単位ではないため、情報提供装置300は、自然語処理(Natural Language Processing)の校正結果による分かち書き単位の単語を検索して認識してよい。一方、1つのボックスが多数の単語を含む場合には、認識された多数の単語のうちで指座標から最も近い単語を選択してよい。
また、トリガーに対応するイメージにおいて、ユーザ310の指によって認識すべき単語の少なくとも一部が隠れる場合がある。このような場合、情報提供装置300は、ユーザ310に追加情報を提供する単語の取得が困難になる。これを解決するために、情報提供装置300は、以前のイメージから指に対応する単語を認識してもよい。一例として、指座標が得られた状態で指座標に対応するボックス上の単語を認識することができない場合、情報提供装置300は、以前のイメージ上の指座標に対応するボックスから単語を認識することを試みてよい。
図4~6は、本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。
図4は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物410上の特定の単語を指でさした状態で、「Hei、この単語の意味は何?」のように発話することによって情報提供装置300がカメラ302で撮影したイメージ400の例を示している。
図5は、情報提供装置300がOCRエンジン304によってイメージ400で指座標を決定する過程の例を示している。ここで、指座標は、イメージ400上の座標であってよく、爪の中心座標であってよいが、これに限定されることはない。
図6は、情報提供装置300がOCRエンジン304から提供される文字認識結果と指座標に基づき、指座標から最も近い単語を決定する過程の例を示している。本実施形態では、単語「meet」が指座標から最も近い単語として決定されている。上述したように、情報提供装置300は、ボックスの下端線の中心位置(イメージ400上での位置)と指座標との距離に基づいて特定のボックスを選択してよく、選択されたボックスに含まれる単語を指座標に対応する単語として決定してよい。ただし、上述したように、ボックスの位置が下端線の中心位置に限定されることはない。
ユーザが意図する単語が決定されれば、情報提供装置300は、サーバ330によって決定された単語の辞書的意味や翻訳結果などを検索して決定された単語の追加情報を生成してよく、生成された追加情報を音声に変換してユーザに提供してよい。
図7は、本発明の一実施形態における、情報提供方法の例を示したフローチャートである。本実施形態に係る情報提供方法は、コンピュータ装置200によって実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図7の方法に含まれる段階710~730を実行するようにコンピュータ装置200を制御してよい。
段階710で、コンピュータ装置200は、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上の指座標を決定してよい。一例として、コンピュータ装置200は、イメージ上で認識される手の爪に対する中央座標を前記指座標として決定してよい。ただし、これは一例に過ぎず、指の終端部分を指座標として活用するなどの多様な実施形態が可能であることは容易に理解できるであろう。
一方、コンピュータ装置200は、ユーザの発話に基づいて予め設定された意図が認識されることによってトリガーを発生させてよい。上述では「Hei、この単語の意味は何?」のような特定の発話を利用する例を説明したが、同じ意図の他の表現(一例として、「Hei、この単語はどんな意味?」)によってトリガーが発生されてもよい。表現の意図を決定することは、周知の技術である。
また、イメージから複数の指が認識されることもある。このとき、オフライン掲示物の領域から離れた指や手の指ではない物体(一例として、足の指)などは、認識から除外してよい。また、オフライン掲示物が含むテキストから一定の距離以上が離れた位置にある指も、認識から除外してよい。オフライン掲示物が含むテキストから一定の距離以内に位置する指として複数が認識される場合、OCRエンジンは、認識された複数の指それぞれの座標を出力してよい。この場合、コンピュータ装置200は、座標とテキストとの距離に基づき、OCRエンジンが出力する複数の座標のうちからユーザの意図に適する座標を決定してよい。
一方、コンピュータ装置200は、イメージの入力を受け、イメージに含まれる複数の指のうちから1つを決定するように学習されたマシンラーニングモジュールによってトリガーに対応するイメージを入力して1つの指を決定してよく、決定された指の指座標を決定してよい。このようなマシンラーニングモジュールは、1つのイメージ上に複数の指が存在する場合に、ユーザが意図する指を決定するために使用されてよい。実施形態によって、OCRエンジンは、認識される指それぞれの指座標を決定した後にマシンラーニングモジュールを利用して指座標のうちから1本の指座標を選択してもよい。この場合、マシンラーニングモジュールは、イメージ、複数の指座標、および正解指座標が含まれた学習イメージで複数の指座標のうちから1つの指座標を出力するように学習されてもよい。
段階720で、コンピュータ装置200は、イメージ上に含まれる文字のうちから、決定された指座標に対応する単語を決定してよい。一例として、上述したように、イメージ上に含まれる文字は、OCRにより、少なくとも1つの文字を含むボックスの単位で認識されてよい。この場合、コンピュータ装置200は、指座標との距離が最も近いボックスに含まれる単語を前記指座標に対応する単語として選択してよい。ここで、距離は、指座標とボックスを形成する4つのラインのうちの下端ラインとの距離を含むか、または指座標と下端ラインの中間点との距離を含んでよい。また、コンピュータ装置200は、ボックスに含まれる文字に対する自然語処理(Natural Language Processing)によってボックスから単語を抽出してよい。これは、ボックスが単語単位で文字を区分しない場合に活用されてよい。
また、コンピュータ装置200は、指によって単語の少なくとも一部が隠れて指座標に対応する単語が認識できない場合、オフライン掲示物を撮影した以前のイメージから指座標に対応する単語を認識してよい。
段階730で、コンピュータ装置200は、決定された単語の追加情報を提供してよい。一例として、コンピュータ装置200は、オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、決定された単語の追加情報を受信してよい。このとき、コンピュータ装置200は、受信された追加情報を音声に変換してよく、変換された音声を出力することによって追加情報をユーザに提供してよい。上述したように、追加情報を音声に変換することは、TTS技術に基づいてよく、音声は、コンピュータ装置200が含むかコンピュータ装置200と接続するスピーカから出力されてよい。また、実施形態によって、コンピュータ装置200は、サーバを経ずに、コンピュータ装置200のローカル格納場所に格納された情報を利用して追加情報を生成して提供してもよい。
実施形態によって、コンピュータ装置200は、段階720で決定された単語の位置を、オフライン掲示物を読み上げるための開始位置に指定し、開始位置から認識された文字を音声で出力してよい。言い換えれば、コンピュータ装置200は、ユーザが指で指示した単語からオフライン掲示物の読み上げを始めてよい。本実施形態については、図12を参照しながらさらに詳しく説明する。
他の実施形態によって、コンピュータ装置200は、段階720で決定された単語を含む文章を認識し、認識された文章を複数回にわたり繰り返して音声で出力してよい。言い換えれば、コンピュータ装置200は、ユーザが指で指示した単語を含む文章を複数回にわたり繰り返して読み上げてよい。本実施形態については、図13を参照しながらさらに詳しく説明する。
図8は、本発明の一実施形態における、1つの指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。図8では、1つの指が文字「young」をさしており、OCRエンジン304が該当の文字「young」を明確に認識可能な場合のイメージを示している。このとき、OCRエンジン304は、一例として、以下の表1のように、文字「young」に対するOCR認識結果と指座標を提供してよい。
Figure 0007355785000001
表1において、「boundingBox」はイメージ上のボックスの四つ角の座標を、「confidence」は該当のボックスに対応して認識された文字の信頼度を、「isVertical」は認識された文字が縦方向であるかどうかを、「text」は該当のボックスに対応して認識された文字を、それぞれ示している。「group」は、1度の認識から出た結果を1つのグループに束ねるための基準であってよく、「subGroup」は、全体の認識結果内で整列(sorting)と位置的な距離に基づいてクラスタリングされた値であって、該当の領域の正確度を判断するために使用されてよい。また、「fingertips」はイメージ上の指の指座標を、「succeeded」は指座標の認識が成功したかどうかを、それぞれ示している。この場合、情報提供装置300は、一例として、指座標[940,600]とボックスの座標[897,588]との距離を計算してよい。情報提供装置300は、認識された他のボックスに対しても指座標との距離を計算してよく、距離が最も近いボックスが選択されてよい。
以下の表2は、図8のイメージに対してOCRエンジン304が提供する全体の文字認識結果の例を示している。
Figure 0007355785000002
図9は、本発明の一実施形態における、複数の指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。図9では、1つの指が文字
Figure 0007355785000003
をさしているが、他の指もオフライン掲示物上に存在する場合の例を示している。
このとき、以下の表3は、図9のイメージでOCRエンジン304が提供する文字

Figure 0007355785000004
の認識結果と指座標を示している。
Figure 0007355785000005
上述したように、複数の指座標が認識される場合には、マシンラーニングなどを利用して1つの指を決定してよい。または、認識されたボックスの位置に基づき、距離が一定の距離以上の指座標は予め除外してもよい。
図10は、本発明の一実施形態における、1つの指がポインティングされており、文字が隠れているが単語の認識が可能な場合の例を示したイメージである。図10では、1つの指によって文字「faster!」の一部が隠れているが、単語の認識が可能な場合の例を示している。
このとき、以下の表4は、図10のイメージでOCRエンジン304が提供する文字「itfaster」の認識結果と指座標を示している。
Figure 0007355785000006
一方、図10の例では、文字「it faster」が「itfaster」に間違って認識された例を示しているが、これは自然語処理などの技術によって分離可能である。このとき、上述したように、2つの単語「it」と「faster」のうちで指座標に最も近い単語である「faster」が選択され、追加情報の提供のために使用されてよい。
図11は、本発明の一実施形態における、複数の指がポインティングされており、文字が隠れている場合の例を示したイメージである。図11では、4つの指が認識され、そのうちの1つの指によって文字の一部が隠れることによって単語の認識が困難な場合の例を示している。
このとき、以下の表5は、図11のイメージでOCRエンジン304が提供する文字認識結果と指座標を示している。
Figure 0007355785000007
このとき、ユーザが意図する単語は
Figure 0007355785000008
であったが、表5では
Figure 0007355785000009
という単語が認識された例を示している。この場合、上述したように、情報提供装置300は、マシンラーニングを活用して4つの指座標のうちから1つを選択してよい。上述したように、認識される文字との距離が一定の距離以上の指座標は、予め除去されてもよい。また、指によって隠れている場合、情報提供装置300は、以前のイメージを活用して文字を再認識してもよい。
実施形態によって、情報提供装置300は、ポインティングの再実行やオフライン掲示物の位置を調整することなどをユーザに要求して認識を再実行してもよい。
また、実施形態によって、情報提供装置300は、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、オフライン掲示物の特定の領域から読み上げを始めるように指座標を利用して開始位置を設定できる機能を提供してよい。
図12は、本発明の一実施形態における、開始位置を設定する過程の例を示した図である。図12は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物1210上の特定の単語を指でさした状態で「Hei、ここから読んで」のように発話することによって情報提供装置300がカメラ302によって撮影したイメージ1200の例を示している。上述したように、情報提供装置300は、指座標を抽出してよく、オフライン掲示物1210を撮影したイメージ1200上で指座標を決定してよく、イメージ1200上に含まれた文字のうちから、決定された指座標に対応する単語(図12の実施形態では単語「My」)を決定してよい。このとき、情報提供装置300は、ユーザの発話「Hei、ここから読んで」に対する応答として、決定された単語「My」から読み上げを始めてよい。言い換えれば、単語「My」の位置が読み上げ開始位置に設定されてよい。上述したように、情報提供装置300の読み上げは、オフライン掲示物に含まれる文字を認識して音声で出力する過程であってよい。この場合、図12の実施形態において、情報提供装置300は、開始位置である単語「My」から、「My name is Gil-dong Hong.What’s your name.」に対応する音声を出力してよい。
指座標に対応する単語が「Gil-dong」であれば、情報提供装置300は、開始位置である単語「Gil-dong」から、「Gil-dong Hong.What’s your name.」に対応する音声を出力するようになるであろう。
このように、本実施形態によると、オフライン掲示物の最初の部分からテキストを読み上げるだけでなく、ユーザが簡単かつ便利に指定することのできる開始位置からテキストを読み上げることが可能になる。
また他の実施形態において、情報提供装置300は、指座標を活用しながら、ユーザが読み上げの繰り返しを願う特定の領域を識別してよい。言い換えれば、ユーザは、繰り返して読み上げてほしい特定の領域を、指座標を利用して直接指定することができる。
図13は、本発明の一実施形態における、反復領域を設定する過程の例を示した図である。図13は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物1310上の特定の単語を指でさした状態で「Hei、この文章を3回読んで」のように発話することによって情報提供装置300がカメラ302で撮影したイメージ1300の例を示している。この場合、情報提供装置300は、指座標を抽出してよく、オフライン掲示物1310を撮影したイメージ1300上で指座標を決定してよい。また、情報提供装置300は、イメージ1300上に含まれた文字のうちから、指座標に対応する単語(図13の実施形態では単語「meet」)を決定してよい。このとき、情報提供装置300は、ユーザの発話「Hei、この文章を3回読んで」に対する応答として、決定された単語「meet」が含まれた文章「Nice to meet you.」を認識してよく、認識された文章「Nice to meet you.」に対応する音声を3回繰り返して出力してよい。
このように、図13の実施形態によると、情報提供装置300が、ユーザによって指定された単語が含まれた文章を複数回にわたり繰り返して読み上げることを可能にすることにより、多様な学習用機能を追加することが可能になる。
実施形態によっては、ユーザが指の位置を変えながら「Hei、ここからここまで3回読んで」のように発話することがある。この場合、情報提供装置は、ユーザの発話の最初の「ここ」に対応する第1指座標、次にユーザの発話の2番目の「ここ」に対応する第2指座標を活用しながら、ユーザが読み上げの繰り返しを願う特定の部分を認識してもよい。
図14および図15は、本発明の一実施形態における、反復領域を設定する他の例を示した図である。図14および図15は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物1410で指の位置を変更しながら「Hei、ここからここまで3回読んで」のように発話した場合の例を示している。このとき、情報提供装置300は、最初の「ここ」が発話された時点に対応する第1イメージ1400で第1指座標を決定してよく、2番目の「ここ」が発話された時点に対応する第2イメージ1500で第2指座標を決定してよい。実施形態によっては、ユーザの発話がすべて分析された後にイメージが撮影されてもよい。この場合には、1つのイメージで認識された2つの指座標に基づいて第1指座標と第2指座標が決定されてもよい。この場合、第1指座標と第2指座標のうちのどちらの座標が先なのかは、第1、2指座標のテキストを分析することで決定されてよい。他の実施形態として、ユーザの発話が2回にわたって入力されることもある。一例として、「Hei、ここから」という最初の発話と「Hei、ここまで3回読んで」という2番目の発話の合計2回の発話、そして2回の発話それぞれと関連して撮影されたイメージからそれぞれ第1指座標と第2指座標が決定されてよい。また、情報提供装置300は、第1、2指座標それぞれに対応する単語[Nice、name]が決定されることにより、ユーザが読み上げの繰り返しを願う特定の部分のテキストである[Nice to meet you.My name is Gil-dong Hong.What’s your name]を認識してよい。この場合、情報提供装置300は、認識された特定の部分のテキストである[Nice to meet you.My name is Gil-dong Hong.What’s your name]に対応する音声を3回繰り返して出力してよい。
本実施形態では「ここ」という発話を使用する例について説明したが、ユーザが願う部分の開始部分と終了部分を指定するための発話を個別に定義して使用することも可能である。一例として、「Hei、開始部分から終了部分まで3回読んで」のような「開始」と「終了」のような特定の用語が、特定の部分のテキストを認識するための用語として予め定義されて使用されてもよい。
一方、座標の認識のための「指」は、ペン(pen)のようなポインティングツールに置き換えられてもよい。このようなポインティングツールは、座標の認識のために提供される専用ツールであるか、QRコードのような特定のマーク、またはユーザが任意に使用するツールであってよい。マークはカメラのプレビュー段階で位置が直ぐに認識可能であるし、必要時にはトリガーとしても活用可能である。この場合、上述した指座標は、イメージ上で特定のポインティングツールやマーカーの位置を認識した座標を意味してよい。例えば、任意のボールペンがポインティングツールとして使用される場合、情報提供装置300は、イメージ上でボールペンの先端部分に対するイメージ上の座標を認識して活用してよい。専用ツールは、情報提供装置300がイメージ上で座標を容易に認識できるように予め設定された模様や表式などを含んでもよい。この場合、情報提供装置300は、イメージ上で予め設定された模様や表式などが存在する位置の座標を指座標として認識して活用してよい。このため、「指座標」という用語は、ユーザが指定しようとする位置に対する座標である「ユーザ指定座標」に拡張して使用されてよい。
また、上述した実施形態では、イメージ上で複数の指が検出される場合には、マシンラーニングなどを利用して1つの指を決定するか、認識されたボックスの位置に基づいて距離が一定の距離以上の指座標は予め除外させる例について説明した。一方、実施形態によっては、複数の指座標(ユーザ指定座標)が検出される場合、情報提供装置300は、複数の指座標それぞれに優先順位を指定してよい。一例として、優先順位は、本を読み上げる方式によって決定されてよい。本を読み上げる方式が、上から下に、さらに左から右に進む場合、指座標の優先順位は、本の上側に位置する指座標であるほど、高さが同一/類似するのであれば本の左側に位置する指座標であるほどより高い優先順位を有するように、情報提供装置300が複数の指座標に優先順位を設定してよい。この後、情報提供装置300は、設定された優先順位にしたがって順に各単語の追加情報を提供してよい。ただし、この場合にも、認識されたボックスの位置に基づき、距離が一定の距離以上の指座標は予め除外してよい。または、文章を読み上げるための開始位置と終了位置を同時に指定するために、少なくとも2つの指座標が同時に活用されてもよい。
このように、本発明の実施形態によると、ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれた文字を認識する過程において、指座標を得るためのトリガーに基づいて文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる。また、指座標に対応する単語に基づき、ユーザが願う部分からオフライン掲示物の読み上げを始めるように開始位置を設定可能することにより、ユーザの利便性を高めることができる。さらに、指座標に対応する単語が含まれた文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる。
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
300:情報提供装置
301:カメラ
302:スピーカ
303:マイク
304:OCRエンジン
310:ユーザ
320:オフライン掲示物
330:サーバ

Claims (19)

  1. 少なくとも1つのプロセッサを含むコンピュータ装置の情報提供方法であって、
    前記少なくとも1つのプロセッサが、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、
    前記少なくとも1つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および
    前記少なくとも1つのプロセッサが、前記決定された単語の追加情報を提供する段階
    を含み、
    前記ユーザ指定座標を決定する段階は、
    イメージの入力を受け、イメージに含まれる複数の指のうちから1つを決定するように学習されたマシンラーニングモジュールに前記トリガーに対応するイメージを入力し、前記トリガーに対応するイメージに含まれる複数の指のうちから1つの指を決定する段階、および
    前記決定された指の指座標を前記ユーザ指定座標として決定する段階
    を含むことを特徴とする、情報提供方法。
  2. 前記ユーザ指定座標を決定する段階は、
    前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを特徴とする、請求項1に記載の情報提供方法。
  3. 前記ユーザ指定座標を決定する段階は、
    前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴とする、請求項1に記載の情報提供方法。
  4. 前記イメージ上に含まれた文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、
    前記単語を決定する段階は、
    前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択することを特徴とする、請求項1~3のうちのいずれか一項に記載の情報提供方法。
  5. 前記距離は、前記ユーザ指定座標と前記ボックスを形成する4本のラインのうちの下端ラインとの距離を含むか、または前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴とする、請求項4に記載の情報提供方法。
  6. 前記単語を決定する段階は、
    前記ボックスに含まれた文字に対する自然語処理(Natural Language Processing)によって前記ボックスから前記単語を抽出する段階
    を含むことを特徴とする、請求項4に記載の情報提供方法。
  7. 前記追加情報を提供する段階は、
    オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、前記決定された単語の追加情報を受信する段階、
    前記受信した追加情報を音声に変換する段階、および
    前記変換された音声を出力する段階
    を含むことを特徴とする、請求項1~6のうちのいずれか一項に記載の情報提供方法。
  8. 前記ユーザ指定座標を決定する段階は、
    ユーザの発話によって予め設定された意図が認識されることにより、前記トリガーを発生させる段階
    を含むことを特徴とする、請求項1~7のうちのいずれか一項に記載の情報提供方法。
  9. 少なくとも1つのプロセッサを含むコンピュータ装置の情報提供方法であって、
    前記少なくとも1つのプロセッサが、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、
    前記少なくとも1つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および
    前記少なくとも1つのプロセッサが、前記決定された単語の追加情報を提供する段階
    を含み、
    前記単語を決定する段階は、
    指またはポインティングツールによって単語の少なくとも一部が隠れて前記ユーザ指定座標に対応する単語が認識できない場合、前記オフライン掲示物を撮影した以前のイメージから前記ユーザ指定座標に対応する単語を認識することを特徴とする、情報提供方法。
  10. 前記少なくとも1つのプロセッサが、前記決定された単語の位置を、前記オフライン掲示物に対する読み上げための開始位置に指定する段階、および
    前記少なくとも1つのプロセッサが、前記開始位置から認識された文字を音声で出力する段階
    をさらに含む、請求項1~のうちのいずれか一項に記載の情報提供方法。
  11. 前記少なくとも1つのプロセッサが、前記決定された単語を含む文章を認識する段階、および
    前記少なくとも1つのプロセッサが、前記認識された文章を複数回にわたり繰り返して音声で出力する段階
    をさらに含む、請求項1~10のうちのいずれか一項に記載の情報提供方法。
  12. コンピュータ装置と結合して請求項1~11のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
  13. 請求項1~11のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
  14. コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサが、
    ーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、
    前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、
    前記決定された単語の追加情報を提供することを行い、
    前記ユーザ指定座標を決定することは、前記少なくとも1つのプロセッサが、
    イメージの入力を受け、イメージに含まれる複数の指のうちから1つを決定するように学習されたマシンラーニングモジュールに前記トリガーに対応するイメージを入力し、前記トリガーに対応するイメージに含まれる複数の指のうちから1つの指を決定し、および
    前記決定された指の指座標を前記ユーザ指定座標として決定することを行うこと
    を含むことを特徴とする、コンピュータ装置。
  15. 前記ユーザ指定座標を決定するために、前記少なくとも1つのプロセッサ
    前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを行うこと
    を特徴とする、請求項14に記載のコンピュータ装置。
  16. 前記イメージ上に含まれた文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、
    前記単語を決定するために、前記少なくとも1つのプロセッサ
    前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択することを行うこと
    を特徴とする、請求項14または15に記載のコンピュータ装置。
  17. 前記追加情報を提供するために、前記少なくとも1つのプロセッサ
    オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、前記決定された単語の追加情報を受信し、
    前記受信した追加情報を音声に変換し、
    前記変換された音声を出力することを行うこと
    を特徴とする、請求項1416のうちのいずれか一項に記載のコンピュータ装置。
  18. 前記少なくとも1つのプロセッサが、
    前記決定された単語の位置を、前記オフライン掲示物に対する読み上げのための開始位置に指定し、
    前記開始位置から認識された文字を音声で出力することを行うこと
    を特徴とする、請求項1417のうちのいずれか一項に記載のコンピュータ装置。
  19. 前記少なくとも1つのプロセッサが、
    前記決定された単語を含む文章を認識し、
    前記認識された文章を複数回にわたり繰り返して音声で出力することを行うこと
    を特徴とする、請求項1418のうちのいずれか一項に記載のコンピュータ装置。
JP2021104963A 2021-04-23 2021-06-24 ポインティングに基づく情報提供方法およびシステム Active JP7355785B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023155442A JP2024001050A (ja) 2021-04-23 2023-09-21 ポインティングに基づく情報提供方法およびシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0052876 2021-04-23
KR1020210052876A KR102597069B1 (ko) 2021-04-23 2021-04-23 포인팅에 기반한 정보 제공 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023155442A Division JP2024001050A (ja) 2021-04-23 2023-09-21 ポインティングに基づく情報提供方法およびシステム

Publications (2)

Publication Number Publication Date
JP2022167734A JP2022167734A (ja) 2022-11-04
JP7355785B2 true JP7355785B2 (ja) 2023-10-03

Family

ID=83852312

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021104963A Active JP7355785B2 (ja) 2021-04-23 2021-06-24 ポインティングに基づく情報提供方法およびシステム
JP2023155442A Pending JP2024001050A (ja) 2021-04-23 2023-09-21 ポインティングに基づく情報提供方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023155442A Pending JP2024001050A (ja) 2021-04-23 2023-09-21 ポインティングに基づく情報提供方法およびシステム

Country Status (3)

Country Link
JP (2) JP7355785B2 (ja)
KR (1) KR102597069B1 (ja)
CN (1) CN115331253A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240126632A (ko) * 2023-02-14 2024-08-21 네이버 주식회사 이미지 내 텍스트 검출 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063318A (ja) 2012-09-20 2014-04-10 Sharp Corp 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2015049866A1 (ja) 2013-10-02 2015-04-09 日本電気株式会社 インターフェース装置、モジュール、制御部品、制御方法およびプログラム記憶媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02194470A (ja) * 1989-01-24 1990-08-01 Seiko Epson Corp 電子翻訳機
GB9103768D0 (en) * 1991-02-22 1991-04-10 King Reginald A Educational apparatus
JP4019114B1 (ja) * 2006-09-04 2007-12-12 株式会社I・Pソリューションズ 情報出力装置
KR20110094569A (ko) * 2010-02-17 2011-08-24 최우범 일반 책자에 대한 좌표 검출 방식의 뷰어 기능을 갖는 전자책
KR102124466B1 (ko) * 2018-11-22 2020-06-19 주식회사 데이터코볼트 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
KR102431663B1 (ko) * 2019-06-27 2022-08-12 네이버 주식회사 스탠드형 스마트 리딩 기기 및 그 제어 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063318A (ja) 2012-09-20 2014-04-10 Sharp Corp 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2015049866A1 (ja) 2013-10-02 2015-04-09 日本電気株式会社 インターフェース装置、モジュール、制御部品、制御方法およびプログラム記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
きだてたく,分からない単語を指差すだけ!机上で高速翻訳する電子辞書「Yiida」をレビュー,日本,株式会社ワン・パブリッシング,2019年11月22日,[2022年8月16日検索]、インターネット<URL:https://getnavi.jp/stationery/446989/>

Also Published As

Publication number Publication date
JP2024001050A (ja) 2024-01-09
CN115331253A (zh) 2022-11-11
JP2022167734A (ja) 2022-11-04
KR102597069B1 (ko) 2023-11-01
KR20220146058A (ko) 2022-11-01

Similar Documents

Publication Publication Date Title
US10395654B2 (en) Text normalization based on a data-driven learning network
JP6278893B2 (ja) 対話型マルチモード画像検索
US9299342B2 (en) User query history expansion for improving language model adaptation
JP4416643B2 (ja) マルチモーダル入力方法
US20170345411A1 (en) Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN114365075B (zh) 用于选择图形对象的方法和对应装置
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
WO2018068176A1 (en) Combo of language understanding and information retrieval
JPH07295784A (ja) 音声による情報処理装置
JP6432405B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
CN110136689B (zh) 基于迁移学习的歌声合成方法、装置及存储介质
JP4027269B2 (ja) 情報処理方法及び装置
US11635883B2 (en) Indication of content linked to text
EP3407173B1 (en) Input display control device, input display control method, and input display system
JP2024001050A (ja) ポインティングに基づく情報提供方法およびシステム
CN104182381A (zh) 文字输入用方法和系统
CN111079494A (zh) 一种学习内容推送方法及电子设备
GB2538360A (en) Improved handwriting data search
CN114223021A (zh) 电子装置及其处理手写输入的方法
EP2835734A1 (en) Apparatus and method for selecting a control object by voice recognition
CN115083222B (zh) 信息交互方法、装置、电子设备及存储介质
JP2002196879A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ、プログラム
CN116430999A (zh) 一种语音助手实现指尖视觉交互技术的方法和系统
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210624

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210706

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230921

R150 Certificate of patent or registration of utility model

Ref document number: 7355785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350