JP2024001050A - ポインティングに基づく情報提供方法およびシステム - Google Patents

ポインティングに基づく情報提供方法およびシステム Download PDF

Info

Publication number
JP2024001050A
JP2024001050A JP2023155442A JP2023155442A JP2024001050A JP 2024001050 A JP2024001050 A JP 2024001050A JP 2023155442 A JP2023155442 A JP 2023155442A JP 2023155442 A JP2023155442 A JP 2023155442A JP 2024001050 A JP2024001050 A JP 2024001050A
Authority
JP
Japan
Prior art keywords
user
word
coordinates
image
finger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023155442A
Other languages
English (en)
Inventor
ヘウン シン
Hyeeun Shin
ジエ ホ
Ji Ae Heo
ヨンミン ペク
Yong-Min Baek
ソクフン キム
Seokhoon Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Z Intermediate Global Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Z Intermediate Global Corp, Naver Corp filed Critical Z Intermediate Global Corp
Publication of JP2024001050A publication Critical patent/JP2024001050A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Character Discrimination (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

【課題】指座標に対応する単語の情報を提供するポインティングに基づく情報提供方法およびシステムを提供する。【解決手段】情報提供方法は、ユーザのオフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階および前記決定された単語の追加情報を提供する段階を含む。【選択図】図7

Description

特許法第30条第2項適用申請有り 2021年2月8日のホームページ(URL:https://blog.naver.com/clova_ai/222236645733)における掲載
以下の説明は、ポインティングに基づく情報提供方法およびシステムに関する。
本(book)のようなオフライン掲示物の文字を認識し、認識した文字を音声として合成してスピーカから出力することにより、オフライン掲示物の読み上げを行う装置および/またはサービスが存在する。このとき、オフライン掲示物のテキストに不明な単語が現れるとき、ユーザが分からない単語や、より正確な意味が知りたい単語などが存在する。人工知能スピーカを活用する場合には、不明な単語をユーザが直接発話しながら単語の意味を直接問うことがある。あるいは、ユーザが分からない単語を他のデバイスや辞書を利用して直接調べることもある。このとき、発話やタイピングの過程でエラーが発生する可能性が存在する。
また、指や特定のポインティング機器を使用しながら不明な単語を選択すれば、単語領域がハイライティングされて辞書にある意味が提供される従来技術が存在する。このとき、指先やフィンガーチップポイントなどを探知することは周知の技術であるし、モバイルで手のジェスチャを認知しながら特定のシンボルをキャッチすることも周知の技術である。さらに、多角度のカメラと視線の角度を利用しながら指先から遠く離れているデバイスを調節する技術も存在する。
しかし、撮影したイメージから指の座標を得るための従来技術は、(処理)速度が遅く、イメージに複数本の指が現れる場合にはエラーが多く発生するという問題がある。
韓国公開特許第10-2020-0049435号公報
ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれる文字を認識する過程において、指座標を得るためのトリガーを利用して文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる、情報提供方法およびシステムを提供する。
指座標に対応する単語に基づき、ユーザが希望する部分からオフライン掲示物の読み上げを始めるように開始位置を設定可能にすることにより、ユーザの利便性を高めることができる、情報提供方法およびシステムを提供する。
指座標に対応する単語が含まれた文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる、情報提供方法およびシステムを提供する。
少なくとも1つのプロセッサを含むコンピュータ装置の情報提供方法であって、前記少なくとも1つのプロセッサが、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、前記少なくとも1つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および前記少なくとも1つのプロセッサが、前記決定された単語の追加情報を提供する段階を含む、情報提供方法を提供する。
一側面によると、前記ユーザ指定座標を決定する段階は、前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを特徴としてよい。
他の側面によると、前記ユーザ指定座標を決定する段階は、前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴としてよい。
また他の側面によると、前記イメージ上に含まれる文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、前記単語を決定する段階は、前記ユーザ指定座標との距離が最も近いボックスに含まれる単語を前記ユーザ指定座標に対応する単語として選択することを特徴としてよい。
また他の側面によると、前記距離は、前記ユーザ指定座標と前記ボックスを形成する4本のラインのうちの下端ラインとの距離を含むか、あるいは前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴としてよい。
また他の側面によると、前記単語を決定する段階は、前記ボックスに含まれる文字に対する自然語処理(Natural Language Processing)により、前記ボックスから前記単語を抽出する段階を含むことを特徴としてよい。
また他の側面によると、前記追加情報を提供する段階は、オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから前記決定された単語の追加情報を受信する段階、前記受信した追加情報を音声に変換する段階、および前記変換された音声を出力する段階を含むことを特徴としてよい。
また他の側面によると、前記ユーザ指定座標を決定する段階は、ユーザの発話から予め設定された意図を認識することによって前記トリガーを発生させる段階を含むことを特徴としてよい。
また他の側面によると、前記ユーザ指定座標を決定する段階は、イメージの入力を受け、イメージに含まれる複数の指のうちの1つを決定するように学習されたマシンラーニングモジュールによって前記トリガーに対応するイメージを入力して前記トリガーに対応するイメージに含まれる複数の指のうちから1つの指を決定する段階、および前記決定された指の指座標を前記ユーザ指定座標として決定する段階を含むことを特徴としてよい。
また他の側面によると、前記単語を決定する段階は、指またはポインティングツールによって単語の少なくとも一部が隠れることによって前記ユーザ指定座標に対応する単語が認識できない場合、前記オフライン掲示物を撮影した以前のイメージから前記ユーザ指定座標に対応する単語を認識することを特徴としてよい。
また他の側面によると、前記情報提供方法は、前記少なくとも1つのプロセッサが、前記決定された単語の位置を前記オフライン掲示物に対する読み取りのための開始位置に指定する段階、および前記少なくとも1つのプロセッサが、前記開始位置から認識された文字を音声で出力する段階をさらに含んでよい。
さらに他の側面によると、前記情報提供方法は、前記少なくとも1つのプロセッサが、前記決定された単語を含む文章を認識する段階、および前記少なくとも1つのプロセッサが、前記認識された文章を複数回にわたり繰り返して音声で出力する段階をさらに含んでよい。
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサが、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、前記オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、前記決定された単語の追加情報を提供することを特徴とする、コンピュータ装置を提供する。
ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれる文字を認識する過程において、指座標を得るためのトリガーを利用して文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる。
指座標に対応する単語に基づき、ユーザが願う部分からオフライン掲示物の読み上げが始まるように開始位置を設定可能にすることにより、ユーザの利便性を高めることができる。
指座標に対応する単語が含まれる文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、 情報提供システムの例を示した図である。 本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。 本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。 本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。 本発明の一実施形態における、情報提供方法の例を示したフローチャートである。 本発明の一実施形態における、1つの指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。 本発明の一実施形態における、複数の指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。 本発明の一実施形態における、1つの指がポインティングされており、文字が隠れているが単語の認識が可能な場合の例を示したイメージである。 本発明の一実施形態における、複数の指がポインティングされており、文字が隠れている場合の例を示したイメージである。 本発明の一実施形態における、開始位置を設定する過程の例を示した図である。 本発明の一実施形態における、反復領域を設定する過程の例を示した図である。 本発明の一実施形態における、反復領域を設定する他の例を示した図である。 本発明の一実施形態における、反復領域を設定する他の例を示した図である。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係る情報提供システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る情報提供方法は、情報提供システムを実現する少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行するコンピュータプログラムの制御にしたがって本発明の実施形態に係る情報提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して情報提供方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの1つを説明するための一例に過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示すコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワークを介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置として構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
図3は、本発明の一実施形態における、 情報提供システムの例を示した図である。図3は、情報提供装置300、ユーザ310、オフライン掲示物320、およびサーバ330を示している。図3では1つのサーバ330を示しているが、サービスごとに多数のサーバが存在してもよい。
情報提供装置300は、ユーザ310のオフライン掲示物320に含まれる文字を認識し、認識した文字を音声に変換して出力することによってユーザ310にオフライン掲示物320を読み上げる、物理的な電子装置であってよい。情報提供装置300は、一例として、図2を参照しながら説明したコンピュータ装置200によって実現されてよく、オフライン掲示物320に含まれる文字を認識するためにカメラ301を含んでよく、音声を出力するためにスピーカ302を含んでよく、実施形態によっては、ユーザ310の音声に基づく命令を受信するためにマイク303を含んでよい。このようなカメラ301、スピーカ302、およびマイク303などは、図2を参照しながら説明した入力/出力装置250に含まれてよい。実施形態によって、情報提供装置300は、オフライン掲示物320を読み上げるための専用装置で構成されてもよい。一例として、情報提供装置300は、照明形態で作製されるか、人工知能スピーカの形態で作製された装置であってよい。
ここで、オフライン掲示物320が本に限定されてはならず、雑誌や広告紙などのように文字を含むオフライン上の掲示物であれば限定されることはない。
報提供装置300は、文字を認識するためにOCR(Optical Character Reader)技術を活用してよい。一例として、情報提供装置300は、カメラに入力されたイメージから文字を認識するOCRエンジン304を含んでよい。OCR技術は周知の技術であるため、具体的な説明については省略する。ただし、本発明の実施形態では、OCRエンジン304によって文字だけを認識するのではなく、特定のトリガーに応答して指座標をさらに認識して提供してよい。
このとき、OCRエンジン304は、手の爪を認識し、イメージ上の爪に対する中央座標を指座標として抽出してよい。また、オフライン掲示物320と指の多様な位置を解決するために、大量の学習イメージを利用して学習されたマシンラーニングが活用されてよい。一例として、マシンラーニングモジュールは、複数の指が含まれたイメージ上で、どの指が正解であるかに関する情報を含む多数の学習イメージを利用しながら複数の指のうちから1つの指を決定するように学習されてよい。この場合、OCRエンジン304は、指座標を計算するためのイメージを学習されたマシンラーニングモジュールに入力し、学習されたマシンラーニングモジュールによって特定の指が決定されれば、決定された指に対する指座標を計算して提供してよい。上述では爪に対する中央座標を活用する例について説明したが、これに限定されることはない。一例として、指座標は、指の終端部分座標を含んでもよい。
一方、トリガーは、多様な方式で実現されてよい。一例として、トリガーは、ユーザ310の音声発話に基づいて発生してよい。ユーザ310がオフライン掲示物320の特定の単語の下に指を置きながらトリガーのための発話(一例として「Hei、この単語の意味は何?」(ここで、「Hei」は、情報提供装置300の人工知能スピーカをアクティブ化させるために予め設定された発話の一例を意味しており、設定によって異なることがある)と発した場合、情報提供装置300は、マイク303でユーザ310の発話を認識することによってトリガーを発生させてよい。この場合、OCRエンジン304は、発生したトリガーに応答して指座標を認識して提供してよい。他の例として、トリガーは、情報提供装置300が提供する特定のボタン入力などによって発生してもよい。特定の単語に対する追加的な情報が提供されることを願うユーザ310の意図を認識することのできる方法であれば、限定されることなく、トリガーの発生のためのイベントとして活用されてよい。例えば、情報提供装置300は、オフライン掲示物320のページが捲られることを認知するためにオフライン掲示物320を周期的に撮影してよい。このとき、情報提供装置300は、撮影されたイメージから特定のポインティングツールやマークが認識される場合、トリガーを発生させてよい。
オフライン掲示物320を読み上げる過程において、OCRエンジン304は、カメラ301に入力されるオフライン掲示物320に対するイメージのうちの少なくとも一部に対する文字認識結果を提供してよい。この過程においてトリガーが発生すれば、OCRエンジン304は、トリガーと関連するイメージの文字認識結果とともに、認識された指座標を提供してよい。この場合、情報提供装置300は、提供された指座標に対応する単語を特定してよく、特定された単語の追加情報を提供してよい。追加情報は、情報提供装置300のローカル格納場所に格納された情報に基づいて生成されてもよいが、好ましくは、インターネットなどを介して接続するサーバ330から得られる情報に基づいて生成されてもよい。一例として、サーバ330は、オンライン辞書サービスを提供するサーバであるか、オンライン翻訳サービスを提供するサーバであってよい。この場合、情報提供装置300は、サーバ330から単語の辞書的意味に関する情報や単語の翻訳情報を得てよく、得られた情報に基づいてユーザ310に提供する追加情報を生成して提供してよい。
一例として、情報提供装置300は、追加情報を音声に変換した後、変換された音声をスピーカ302から出力することによって追加情報をユーザ310に提供してよい。追加情報の音声変換は、周知のTTS(Text To Speech)技術が活用されてよい。
一方、実施形態によって、OCRエンジン304の文字認識および指座標提供、ユーザ310の発話の認識、および/または追加情報の音声変換などは、サーバ330で提供するサービスによって処理されてもよい。一例として、情報提供装置300は、カメラ302に入力されるイメージのうちの少なくとも一部とトリガーをサーバ330に送信してよく、サーバ330がイメージに含まれる文字の認識および指座標の生成などを実行してよい。この場合、情報提供装置300は、サーバ330から文字認識結果や指座標などを受信して活用してよい。これと同じように、ユーザ310の発話の認識や追加情報の音声変換などがサーバ330で処理されてもよい。言い換えれば、本明細書において情報提供装置300が特定の動作を処理(一例として、ユーザ310の発話認識)するという表現は、情報提供装置300がサーバ330によって特定の動作を処理することを排除しない。
一方、OCRエンジン304は、文字認識結果として認識されたテキスト単位にボックス(box)を設定して提供する。このとき、OCRエンジン304が文字認識結果と指座標を提供すれば、情報提供装置300は、指座標との距離が最も近いボックスの単語をユーザ310が意図した単語として決定してよい。このとき、情報提供装置300は、ボックス上の特定の位置と指座標との間の距離を測定してよい。一例として、情報提供装置300は、ボックスの下端ラインの中間点と指座標との間の距離を測定してよい。他の例として、情報提供装置300は、指座標とボックスの下端ラインの間の距離を測定してよい。点と点との距離または点と線との距離を測定する方法は周知であるため、具体的な説明は省略する。
一方、OCRエンジン304は、文字認識結果として認識されたテキスト単位にボックス(box)を設定して提供する。このとき、ボックス単位が必ずしも単語単位ではないため、情報提供装置300は、自然語処理(Natural Language Processing)の校正結果による分かち書き単位の単語を検索して認識してよい。一方、1つのボックスが多数の単語を含む場合には、認識された多数の単語のうちで指座標から最も近い単語を選択してよい。
また、トリガーに対応するイメージにおいて、ユーザ310の指によって認識すべき単語の少なくとも一部が隠れる場合がある。このような場合、情報提供装置300は、ユーザ310に追加情報を提供する単語の取得が困難になる。これを解決するために、情報提供装置300は、以前のイメージから指に対応する単語を認識してもよい。一例として、指座標が得られた状態で指座標に対応するボックス上の単語を認識することができない場合、情報提供装置300は、以前のイメージ上の指座標に対応するボックスから単語を認識することを試みてよい。
図4~6は、本発明の一実施形態における、指がさす単語の情報を提供する過程の例を示した図である。
図4は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物410上の特定の単語を指でさした状態で、「Hei、この単語の意味は何?」のように発話することによって情報提供装置300がカメラ302で撮影したイメージ400の例を示している。
図5は、情報提供装置300がOCRエンジン304によってイメージ400で指座標を決定する過程の例を示している。ここで、指座標は、イメージ400上の座標であってよく、爪の中心座標であってよいが、これに限定されることはない。
図6は、情報提供装置300がOCRエンジン304から提供される文字認識結果と指座標に基づき、指座標から最も近い単語を決定する過程の例を示している。本実施形態では、単語「meet」が指座標から最も近い単語として決定されている。上述したように、情報提供装置300は、ボックスの下端線の中心位置(イメージ400上での位置)と指座標との距離に基づいて特定のボックスを選択してよく、選択されたボックスに含まれる単語を指座標に対応する単語として決定してよい。ただし、上述したように、ボックスの位置が下端線の中心位置に限定されることはない。
ユーザが意図する単語が決定されれば、情報提供装置300は、サーバ330によって決定された単語の辞書的意味や翻訳結果などを検索して決定された単語の追加情報を生成してよく、生成された追加情報を音声に変換してユーザに提供してよい。
図7は、本発明の一実施形態における、情報提供方法の例を示したフローチャートである。本実施形態に係る情報提供方法は、コンピュータ装置200によって実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が図7の方法に含まれる段階710~730を実行するようにコンピュータ装置200を制御してよい。
段階710で、コンピュータ装置200は、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、ユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上の指座標を決定してよい。一例として、コンピュータ装置200は、イメージ上で認識される手の爪に対する中央座標を前記指座標として決定してよい。ただし、これは一例に過ぎず、指の終端部分を指座標として活用するなどの多様な実施形態が可能であることは容易に理解できるであろう。
一方、コンピュータ装置200は、ユーザの発話に基づいて予め設定された意図が認識されることによってトリガーを発生させてよい。上述では「Hei、この単語の意味は何?」のような特定の発話を利用する例を説明したが、同じ意図の他の表現(一例として、「Hei、この単語はどんな意味?」)によってトリガーが発生されてもよい。表現の意図を決定することは、周知の技術である。
また、イメージから複数の指が認識されることもある。このとき、オフライン掲示物の領域から離れた指や手の指ではない物体(一例として、足の指)などは、認識から除外してよい。また、オフライン掲示物が含むテキストから一定の距離以上が離れた位置にある指も、認識から除外してよい。オフライン掲示物が含むテキストから一定の距離以内に位置する指として複数が認識される場合、OCRエンジンは、認識された複数の指それぞれの座標を出力してよい。この場合、コンピュータ装置200は、座標とテキストとの距離に基づき、OCRエンジンが出力する複数の座標のうちからユーザの意図に適する座標を決定してよい。
一方、コンピュータ装置200は、イメージの入力を受け、イメージに含まれる複数の指のうちから1つを決定するように学習されたマシンラーニングモジュールによってトリガーに対応するイメージを入力して1つの指を決定してよく、決定された指の指座標を決定してよい。このようなマシンラーニングモジュールは、1つのイメージ上に複数の指が存在する場合に、ユーザが意図する指を決定するために使用されてよい。実施形態によって、OCRエンジンは、認識される指それぞれの指座標を決定した後にマシンラーニングモジュールを利用して指座標のうちから1本の指座標を選択してもよい。この場合、マシンラーニングモジュールは、イメージ、複数の指座標、および正解指座標が含まれた学習イメージで複数の指座標のうちから1つの指座標を出力するように学習されてもよい。
段階720で、コンピュータ装置200は、イメージ上に含まれる文字のうちから、決定された指座標に対応する単語を決定してよい。一例として、上述したように、イメージ上に含まれる文字は、OCRにより、少なくとも1つの文字を含むボックスの単位で認識されてよい。この場合、コンピュータ装置200は、指座標との距離が最も近いボックスに含まれる単語を前記指座標に対応する単語として選択してよい。ここで、距離は、指座標とボックスを形成する4つのラインのうちの下端ラインとの距離を含むか、または指座標と下端ラインの中間点との距離を含んでよい。また、コンピュータ装置200は、ボックスに含まれる文字に対する自然語処理(Natural Language Processing)によってボックスから単語を抽出してよい。これは、ボックスが単語単位で文字を区分しない場合に活用されてよい。
また、コンピュータ装置200は、指によって単語の少なくとも一部が隠れて指座標に対応する単語が認識できない場合、オフライン掲示物を撮影した以前のイメージから指座標に対応する単語を認識してよい。
段階730で、コンピュータ装置200は、決定された単語の追加情報を提供してよい。一例として、コンピュータ装置200は、オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、決定された単語の追加情報を受信してよい。このとき、コンピュータ装置200は、受信された追加情報を音声に変換してよく、変換された音声を出力することによって追加情報をユーザに提供してよい。上述したように、追加情報を音声に変換することは、TTS技術に基づいてよく、音声は、コンピュータ装置200が含むかコンピュータ装置200と接続するスピーカから出力されてよい。また、実施形態によって、コンピュータ装置200は、サーバを経ずに、コンピュータ装置200のローカル格納場所に格納された情報を利用して追加情報を生成して提供してもよい。
実施形態によって、コンピュータ装置200は、段階720で決定された単語の位置を、オフライン掲示物を読み上げるための開始位置に指定し、開始位置から認識された文字を音声で出力してよい。言い換えれば、コンピュータ装置200は、ユーザが指で指示した単語からオフライン掲示物の読み上げを始めてよい。本実施形態については、図12を参照しながらさらに詳しく説明する。
他の実施形態によって、コンピュータ装置200は、段階720で決定された単語を含む文章を認識し、認識された文章を複数回にわたり繰り返して音声で出力してよい。言い換えれば、コンピュータ装置200は、ユーザが指で指示した単語を含む文章を複数回にわたり繰り返して読み上げてよい。本実施形態については、図13を参照しながらさらに詳しく説明する。
図8は、本発明の一実施形態における、1つの指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。図8では、1つの指が文字「young」をさしており、OCRエンジン304が該当の文字「young」を明確に認識可能な場合のイメージを示している。このとき、OCRエンジン304は、一例として、以下の表1のように、文字「young」に対するOCR認識結果と指座標を提供してよい。
Figure 2024001050000002

表1において、「boundingBox」はイメージ上のボックスの四つ角の座標を、「confidence」は該当のボックスに対応して認識された文字の信頼度を、「isVertical」は認識された文字が縦方向であるかどうかを、「text」は該当のボックスに対応して認識された文字を、それぞれ示している。「group」は、1度の認識から出た結果を1つのグループに束ねるための基準であってよく、「subGroup」は、全体の認識結果内で整列(sorting)と位置的な距離に基づいてクラスタリングされた値であって、該当の領域の正確度を判断するために使用されてよい。また、「fingertips」はイメージ上の指の指座標を、「succeeded」は指座標の認識が成功したかどうかを、それぞれ示している。この場合、情報提供装置300は、一例として、指座標[940,600]とボックスの座標[897,588]との距離を計算してよい。情報提供装置300は、認識された他のボックスに対しても指座標との距離を計算してよく、距離が最も近いボックスが選択されてよい。
以下の表2は、図8のイメージに対してOCRエンジン304が提供する全体の文字認識結果の例を示している。
Figure 2024001050000003

図9は、本発明の一実施形態における、複数の指がポインティングされており、単語が明確に認識可能な場合の例を示したイメージである。図9では、1つの指が文字
Figure 2024001050000004
をさしているが、他の指もオフライン掲示物上に存在する場合の例を示している。
このとき、以下の表3は、図9のイメージでOCRエンジン304が提供する文字

Figure 2024001050000005
の認識結果と指座標を示している。
Figure 2024001050000006

上述したように、複数の指座標が認識される場合には、マシンラーニングなどを利用して1つの指を決定してよい。または、認識されたボックスの位置に基づき、距離が一定の距離以上の指座標は予め除外してもよい。
図10は、本発明の一実施形態における、1つの指がポインティングされており、文字が隠れているが単語の認識が可能な場合の例を示したイメージである。図10では、1つの指によって文字「faster!」の一部が隠れているが、単語の認識が可能な場合の例を示している。
このとき、以下の表4は、図10のイメージでOCRエンジン304が提供する文字「itfaster」の認識結果と指座標を示している。
Figure 2024001050000007

一方、図10の例では、文字「it faster」が「itfaster」に間違って認識された例を示しているが、これは自然語処理などの技術によって分離可能である。このとき、上述したように、2つの単語「it」と「faster」のうちで指座標に最も近い単語である「faster」が選択され、追加情報の提供のために使用されてよい。
図11は、本発明の一実施形態における、複数の指がポインティングされており、文字が隠れている場合の例を示したイメージである。図11では、4つの指が認識され、そのうちの1つの指によって文字の一部が隠れることによって単語の認識が困難な場合の例を示している。
このとき、以下の表5は、図11のイメージでOCRエンジン304が提供する文字認識結果と指座標を示している。
Figure 2024001050000008

このとき、ユーザが意図する単語は
Figure 2024001050000009
であったが、表5では
Figure 2024001050000010
という単語が認識された例を示している。この場合、上述したように、情報提供装置300は、マシンラーニングを活用して4つの指座標のうちから1つを選択してよい。上述したように、認識される文字との距離が一定の距離以上の指座標は、予め除去されてもよい。また、指によって隠れている場合、情報提供装置300は、以前のイメージを活用して文字を再認識してもよい。
実施形態によって、情報提供装置300は、ポインティングの再実行やオフライン掲示物の位置を調整することなどをユーザに要求して認識を再実行してもよい。
また、実施形態によって、情報提供装置300は、オフライン掲示物に含まれる文字を認識して音声で出力する過程において、オフライン掲示物の特定の領域から読み上げを始めるように指座標を利用して開始位置を設定できる機能を提供してよい。
図12は、本発明の一実施形態における、開始位置を設定する過程の例を示した図である。図12は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物1210上の特定の単語を指でさした状態で「Hei、ここから読んで」のように発話することによって情報提供装置300がカメラ302によって撮影したイメージ1200の例を示している。上述したように、情報提供装置300は、指座標を抽出してよく、オフライン掲示物1210を撮影したイメージ1200上で指座標を決定してよく、イメージ1200上に含まれた文字のうちから、決定された指座標に対応する単語(図12の実施形態では単語「My」)を決定してよい。このとき、情報提供装置300は、ユーザの発話「Hei、ここから読んで」に対する応答として、決定された単語「My」から読み上げを始めてよい。言い換えれば、単語「My」の位置が読み上げ開始位置に設定されてよい。上述したように、情報提供装置300の読み上げは、オフライン掲示物に含まれる文字を認識して音声で出力する過程であってよい。この場合、図12の実施形態において、情報提供装置300は、開始位置である単語「My」から、「My name is Gil-dong Hong.What’s your name.」に対応する音声を出力してよい。
指座標に対応する単語が「Gil-dong」であれば、情報提供装置300は、開始位置である単語「Gil-dong」から、「Gil-dong Hong.What’s your name.」に対応する音声を出力するようになるであろう。
このように、本実施形態によると、オフライン掲示物の最初の部分からテキストを読み上げるだけでなく、ユーザが簡単かつ便利に指定することのできる開始位置からテキストを読み上げることが可能になる。
また他の実施形態において、情報提供装置300は、指座標を活用しながら、ユーザが読み上げの繰り返しを願う特定の領域を識別してよい。言い換えれば、ユーザは、繰り返して読み上げてほしい特定の領域を、指座標を利用して直接指定することができる。
図13は、本発明の一実施形態における、反復領域を設定する過程の例を示した図である。図13は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物1310上の特定の単語を指でさした状態で「Hei、この文章を3回読んで」のように発話することによって情報提供装置300がカメラ302で撮影したイメージ1300の例を示している。この場合、情報提供装置300は、指座標を抽出してよく、オフライン掲示物1310を撮影したイメージ1300上で指座標を決定してよい。また、情報提供装置300は、イメージ1300上に含まれた文字のうちから、指座標に対応する単語(図13の実施形態では単語「meet」)を決定してよい。このとき、情報提供装置300は、ユーザの発話「Hei、この文章を3回読んで」に対する応答として、決定された単語「meet」が含まれた文章「Nice to meet you.」を認識してよく、認識された文章「Nice to meet you.」に対応する音声を3回繰り返して出力してよい。
このように、図13の実施形態によると、情報提供装置300が、ユーザによって指定された単語が含まれた文章を複数回にわたり繰り返して読み上げることを可能にすることにより、多様な学習用機能を追加することが可能になる。
実施形態によっては、ユーザが指の位置を変えながら「Hei、ここからここまで3回読んで」のように発話することがある。この場合、情報提供装置は、ユーザの発話の最初の「ここ」に対応する第1指座標、次にユーザの発話の2番目の「ここ」に対応する第2指座標を活用しながら、ユーザが読み上げの繰り返しを願う特定の部分を認識してもよい。
図14および図15は、本発明の一実施形態における、反復領域を設定する他の例を示した図である。図14および図15は、ユーザ(一例として、図3のユーザ310)がオフライン掲示物1410で指の位置を変更しながら「Hei、ここからここまで3回読んで」のように発話した場合の例を示している。このとき、情報提供装置300は、最初の「ここ」が発話された時点に対応する第1イメージ1400で第1指座標を決定してよく、2番目の「ここ」が発話された時点に対応する第2イメージ1500で第2指座標を決定してよい。実施形態によっては、ユーザの発話がすべて分析された後にイメージが撮影されてもよい。この場合には、1つのイメージで認識された2つの指座標に基づいて第1指座標と第2指座標が決定されてもよい。この場合、第1指座標と第2指座標のうちのどちらの座標が先なのかは、第1、2指座標のテキストを分析することで決定されてよい。他の実施形態として、ユーザの発話が2回にわたって入力されることもある。一例として、「Hei、ここから」という最初の発話と「Hei、ここまで3回読んで」という2番目の発話の合計2回の発話、そして2回の発話それぞれと関連して撮影されたイメージからそれぞれ第1指座標と第2指座標が決定されてよい。また、情報提供装置300は、第1、2指座標それぞれに対応する単語[Nice、name]が決定されることにより、ユーザが読み上げの繰り返しを願う特定の部分のテキストである[Nice to meet you.My name is Gil-dong Hong.What’s your name]を認識してよい。この場合、情報提供装置300は、認識された特定の部分のテキストである[Nice to meet you.My name is Gil-dong Hong.What’s your name]に対応する音声を3回繰り返して出力してよい。
本実施形態では「ここ」という発話を使用する例について説明したが、ユーザが願う部分の開始部分と終了部分を指定するための発話を個別に定義して使用することも可能である。一例として、「Hei、開始部分から終了部分まで3回読んで」のような「開始」と「終了」のような特定の用語が、特定の部分のテキストを認識するための用語として予め定義されて使用されてもよい。
一方、座標の認識のための「指」は、ペン(pen)のようなポインティングツールに置き換えられてもよい。このようなポインティングツールは、座標の認識のために提供される専用ツールであるか、QRコードのような特定のマーク、またはユーザが任意に使用するツールであってよい。マークはカメラのプレビュー段階で位置が直ぐに認識可能であるし、必要時にはトリガーとしても活用可能である。この場合、上述した指座標は、イメージ上で特定のポインティングツールやマーカーの位置を認識した座標を意味してよい。例えば、任意のボールペンがポインティングツールとして使用される場合、情報提供装置300は、イメージ上でボールペンの先端部分に対するイメージ上の座標を認識して活用してよい。専用ツールは、情報提供装置300がイメージ上で座標を容易に認識できるように予め設定された模様や表式などを含んでもよい。この場合、情報提供装置300は、イメージ上で予め設定された模様や表式などが存在する位置の座標を指座標として認識して活用してよい。このため、「指座標」という用語は、ユーザが指定しようとする位置に対する座標である「ユーザ指定座標」に拡張して使用されてよい。
また、上述した実施形態では、イメージ上で複数の指が検出される場合には、マシンラーニングなどを利用して1つの指を決定するか、認識されたボックスの位置に基づいて距離が一定の距離以上の指座標は予め除外させる例について説明した。一方、実施形態によっては、複数の指座標(ユーザ指定座標)が検出される場合、情報提供装置300は、複数の指座標それぞれに優先順位を指定してよい。一例として、優先順位は、本を読み上げる方式によって決定されてよい。本を読み上げる方式が、上から下に、さらに左から右に進む場合、指座標の優先順位は、本の上側に位置する指座標であるほど、高さが同一/類似するのであれば本の左側に位置する指座標であるほどより高い優先順位を有するように、情報提供装置300が複数の指座標に優先順位を設定してよい。この後、情報提供装置300は、設定された優先順位にしたがって順に各単語の追加情報を提供してよい。ただし、この場合にも、認識されたボックスの位置に基づき、距離が一定の距離以上の指座標は予め除外してよい。または、文章を読み上げるための開始位置と終了位置を同時に指定するために、少なくとも2つの指座標が同時に活用されてもよい。
このように、本発明の実施形態によると、ユーザのオフライン掲示物を読み上げるためにオフライン掲示物に含まれた文字を認識する過程において、指座標を得るためのトリガーに基づいて文字認識エンジンで指座標を提供することにより、指座標に対応する単語の情報を提供することができる。また、指座標に対応する単語に基づき、ユーザが願う部分からオフライン掲示物の読み上げを始めるように開始位置を設定可能することにより、ユーザの利便性を高めることができる。さらに、指座標に対応する単語が含まれた文章を複数回にわたり繰り返して読み上げることのできる機能を提供することができる。
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
300:情報提供装置
301:カメラ
302:スピーカ
303:マイク
304:OCRエンジン
310:ユーザ
320:オフライン掲示物
330:サーバ





Claims (14)

  1. 少なくとも1つのプロセッサを含むコンピュータ装置の情報提供方法であって、
    前記少なくとも1つのプロセッサが、ユーザ発話を含むユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、
    前記少なくとも1つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および
    前記少なくとも1つのプロセッサが、前記決定された単語の追加情報を提供する段階
    を含む、情報提供方法。
  2. 前記ユーザ指定座標を決定する段階は、
    前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定することを特徴とする、請求項1に記載の情報提供方法。
  3. 前記ユーザ指定座標を決定する段階は、
    前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴とする、請求項1に記載の情報提供方法。
  4. 前記イメージ上に含まれた文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、
    前記単語を決定する段階は、
    前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択することを特徴とする、請求項1~3のうちのいずれか一項に記載の情報提供方法。
  5. 前記距離は、前記ユーザ指定座標と前記ボックスを形成する4本のラインのうちの下端ラインとの距離を含むか、または前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴とする、請求項4に記載の情報提供方法。
  6. 前記単語を決定する段階は、
    前記ボックスに含まれた文字に対する自然語処理(Natural Language Processing)によって前記ボックスから前記単語を抽出する段階
    を含むことを特徴とする、請求項4に記載の情報提供方法。
  7. 前記追加情報を提供する段階は、
    オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、前記決定された単語の追加情報を受信する段階、
    前記受信した追加情報を音声に変換する段階、および
    前記変換された音声を出力する段階
    を含むことを特徴とする、請求項1~6のうちのいずれか一項に記載の情報提供方法。
  8. 前記ユーザ指定座標を決定する段階は、
    ユーザの発話によって予め設定された意図が認識されることにより、前記トリガーを発生させる段階
    を含むことを特徴とする、請求項1~7のうちのいずれか一項に記載の情報提供方法。
  9. コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサが、
    ユーザ発話を含むユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、
    前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、
    前記決定された単語の追加情報を提供すること
    を特徴とする、コンピュータ装置。
  10. 前記ユーザ指定座標を決定するために、前記少なくとも1つのプロセッサにより、
    前記イメージ上で認識される手の爪に対する中央座標を前記ユーザ指定座標として決定すること
    を特徴とする、請求項9に記載のコンピュータ装置。
  11. 前記イメージ上に含まれた文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、
    前記単語を決定するために、前記少なくとも1つのプロセッサにより、
    前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択すること
    を特徴とする、請求項9または10に記載のコンピュータ装置。
  12. 前記追加情報を提供するために、前記少なくとも1つのプロセッサにより、
    オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、前記決定された単語の追加情報を受信し、
    前記受信した追加情報を音声に変換し、
    前記変換された音声を出力すること
    を特徴とする、請求項9~11のうちのいずれか一項に記載のコンピュータ装置。
  13. 前記少なくとも1つのプロセッサが、
    前記決定された単語の位置を、前記オフライン掲示物に対する読み上げのための開始位置に指定し、
    前記開始位置から認識された文字を音声で出力すること
    を特徴とする、請求項9~12のうちのいずれか一項に記載のコンピュータ装置。
  14. 前記少なくとも1つのプロセッサが、
    前記決定された単語を含む文章を認識し、
    前記認識された文章を複数回にわたり繰り返して音声で出力すること
    を特徴とする、請求項9~13のうちのいずれか一項に記載のコンピュータ装置。





JP2023155442A 2021-04-23 2023-09-21 ポインティングに基づく情報提供方法およびシステム Pending JP2024001050A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2021-0052876 2021-04-23
KR1020210052876A KR102597069B1 (ko) 2021-04-23 2021-04-23 포인팅에 기반한 정보 제공 방법 및 시스템
JP2021104963A JP7355785B2 (ja) 2021-04-23 2021-06-24 ポインティングに基づく情報提供方法およびシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021104963A Division JP7355785B2 (ja) 2021-04-23 2021-06-24 ポインティングに基づく情報提供方法およびシステム

Publications (1)

Publication Number Publication Date
JP2024001050A true JP2024001050A (ja) 2024-01-09

Family

ID=83852312

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021104963A Active JP7355785B2 (ja) 2021-04-23 2021-06-24 ポインティングに基づく情報提供方法およびシステム
JP2023155442A Pending JP2024001050A (ja) 2021-04-23 2023-09-21 ポインティングに基づく情報提供方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021104963A Active JP7355785B2 (ja) 2021-04-23 2021-06-24 ポインティングに基づく情報提供方法およびシステム

Country Status (3)

Country Link
JP (2) JP7355785B2 (ja)
KR (1) KR102597069B1 (ja)
CN (1) CN115331253A (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02194470A (ja) * 1989-01-24 1990-08-01 Seiko Epson Corp 電子翻訳機
GB9103768D0 (en) * 1991-02-22 1991-04-10 King Reginald A Educational apparatus
JP4019114B1 (ja) * 2006-09-04 2007-12-12 株式会社I・Pソリューションズ 情報出力装置
KR20110094569A (ko) * 2010-02-17 2011-08-24 최우범 일반 책자에 대한 좌표 검출 방식의 뷰어 기능을 갖는 전자책
JP5989479B2 (ja) 2012-09-20 2016-09-07 シャープ株式会社 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
JPWO2015049866A1 (ja) 2013-10-02 2017-03-09 日本電気株式会社 インターフェース装置、モジュール、制御部品、制御方法およびコンピュータプログラム
KR102124466B1 (ko) * 2018-11-22 2020-06-19 주식회사 데이터코볼트 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
KR102431663B1 (ko) * 2019-06-27 2022-08-12 네이버 주식회사 스탠드형 스마트 리딩 기기 및 그 제어 방법

Also Published As

Publication number Publication date
CN115331253A (zh) 2022-11-11
KR102597069B1 (ko) 2023-11-01
JP2022167734A (ja) 2022-11-04
JP7355785B2 (ja) 2023-10-03
KR20220146058A (ko) 2022-11-01

Similar Documents

Publication Publication Date Title
JP6278893B2 (ja) 対話型マルチモード画像検索
US20180330729A1 (en) Text normalization based on a data-driven learning network
JP2021009701A (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN109189879B (zh) 电子书籍显示方法及装置
WO2018068176A1 (en) Combo of language understanding and information retrieval
JP6432405B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP2006048628A (ja) マルチモーダル入力方法
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
US9749582B2 (en) Display apparatus and method for performing videotelephony using the same
CN110136689B (zh) 基于迁移学习的歌声合成方法、装置及存储介质
CN114365075B (zh) 用于选择图形对象的方法和对应装置
JP4027269B2 (ja) 情報処理方法及び装置
EP2806336A1 (en) Text prediction in a text input associated with an image
US20210255759A1 (en) Indication of content linked to text
CN111079494A (zh) 一种学习内容推送方法及电子设备
US9710701B2 (en) Handwriting data search
JP7355785B2 (ja) ポインティングに基づく情報提供方法およびシステム
JP2002196879A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ、プログラム
CN114223021A (zh) 电子装置及其处理手写输入的方法
CN112309389A (zh) 信息交互方法和装置
JP6391064B2 (ja) 音声出力処理装置、音声出力処理プログラムおよび音声出力処理方法
CN115083222B (zh) 信息交互方法、装置、电子设备及存储介质
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
JP6372577B2 (ja) プレゼンテーション支援方法、プレゼンテーション支援プログラム及びプレゼンテーション支援装置
CN105279526B (zh) 分割轨迹的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230921

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231130

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231222