JP6970145B2 - 音声出力方法および装置 - Google Patents

音声出力方法および装置 Download PDF

Info

Publication number
JP6970145B2
JP6970145B2 JP2019122908A JP2019122908A JP6970145B2 JP 6970145 B2 JP6970145 B2 JP 6970145B2 JP 2019122908 A JP2019122908 A JP 2019122908A JP 2019122908 A JP2019122908 A JP 2019122908A JP 6970145 B2 JP6970145 B2 JP 6970145B2
Authority
JP
Japan
Prior art keywords
character
image
current
browsing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019122908A
Other languages
English (en)
Other versions
JP2020008853A (ja
Inventor
シャオニン・シィー
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, シャンハイ シャオドゥ テクノロジー カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020008853A publication Critical patent/JP2020008853A/ja
Application granted granted Critical
Publication of JP6970145B2 publication Critical patent/JP6970145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本願の実施例はコンピュータ技術分野に関し、具体的にはインターネット技術分野に関し、特に音声出力方法及び装置に関する。
閲覧は日常生活において非常に一般的な活動である。視力及び識別能力等の理由により、高齢者及び子供は様々な程度の閲覧障害でがあるので、自己閲覧することができない。従来技術において、電子デバイバスは文字を識別して、文字に対応する音声を再生することにより、閲覧を支援する機能を実現することができる。
本願の実施例は音声出力方法及び装置を提供する。
第1態様では、本願の実施例は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することと、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することとを含む音声出力方法を提供する。
いくつかの実施例において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、コンテンツを読み取ることに応答して文字を含み、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することは、画像における文字の文字認識結果を取得することと、画像における文字が位置する領域を複数のサブ領域に分割することと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定することと、決定されたサブ領域における開始文字を現在の閲覧文字とすることとを含む。
いくつかの実施例において、画像における文字が位置する領域を複数のサブ領域に分割することは、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することとを含む。
いくつかの実施例において、決定されたサブ領域における開始文字を現在の閲覧文字とすることは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすることと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とすることとをさらに含む。
いくつかの実施例において、ユーザの現在の閲覧状態を示すための画像を取得することは、初期画像を取得することと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定することと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することとを含む。
いくつかの実施例において、ユーザの現在の閲覧状態を示すための画像を取得することは、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とすることと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定することとをさらに含む。
いくつかの実施例において、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力する前に、方法は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信することをさらに含む。
いくつかの実施例において、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することは、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換することと、音声オーディオを再生することとを含む。
第2態様では、本願の実施例は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成される取得手段と、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように構成される決定手段と、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するように構成される出力手段とを備える音声出力装置を提供する。
いくつかの実施例において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、決定手段は、画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールとを含む。
いくつかの実施例において、分割モジュールは、さらに、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定して、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される。
いくつかの実施例において、文字決定モジュールは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第1決定サブモジュールと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第2決定サブモジュールとをさらに含む。
いくつかの実施例において、取得手段は、初期画像を取得するように構成される画像取得モジュールと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールとを含む。
いくつかの実施例において、取得手段は、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールとをさらに含む。
いくつかの実施例において、装置は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信するように構成される再収集モジュールをさらに備える。
いくつかの実施例において、出力手段は、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、音声オーディオを再生するように構成される再生モジュールとを含む。
第3の態様では、本願の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を備える電子デバイスであって、1つまたは複数のプログラムを1つまたは複数のプロセッサに実行させることにより、音声出力方法にかかるいずれか1つの実施例の方法を1つまたは複数のプロセッサに実現させる電子デバイスを提供する。
第4の態様では、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、このコンピュータプログラムが実行される場合、音声出力方法にかかるいずれか1つの実施例の方法を実現させる、コンピュータ可読媒体を提供する。
本願の実施例が提供する音声出力にかかる技術手段は、まず、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得する。その後、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定する。最後、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力する。本出願の実施例が提供する方法にかかる技術手段は、ユーザの現在の動作情報に基づいてユーザの意図を決定することができ、それにより、画像においてユーザが現在閲覧している文字と最も関連性のある対応する音声を出力する。このように、本願の実施例は、画像における全ての文字に対応する音声を出力するのではなく、ユーザの動作に基づいて現在の閲覧文字を決定することができ、音声出力の柔軟性を実現する。
本願の他の特徴、目的および利点は、以下の図面を参照して説明される非限定的な実施例を読むことによって、より明らかになる。
本発明を適用可能なシステム構成の一例を示す図である。 本願の音声出力方法にかかる一実施例のフローチャートである。 本願の音声出力方法にかかる適用シーンの概略図である。 本願の音声出力方法にかかる別の実施例を示すフローチャートである。 本願の音声出力装置にかかる一実施例の構成概略図である。 本願の実施例の電子デバイスを実現するのに適したコンピュータシステムの構成概略図である。
以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。
なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。
図1は、本願の音声出力方法または音声出力装置を適用可能な実施例の例示的なシステム構成100を示す。
図1に示されるように、システム構成100は、端末101、102、103、ネットワーク104およびサーバ105を含むことができる。ネットワーク104は、端末101、102、103とサーバ105との間で通信リンクの媒体を提供するために使用される。ネットワーク104は、例えば、有線や無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
ユーザは、端末101、102、103を使用して、ネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。端末101、102、103には、カメラが取り付けされてもよく、また、各種の通信クライアントアプリケーション、例えば画像認識アプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされてもよい。
ここでの端末101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末101、102、103がハードウェアである場合、表示パネルを有する様々な電子デバイスであってもよく、スマートフォン、タブレット型コンピュータ、電子ブックリーダ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。端末101、102、103がソフトウェアである場合、上記例示された電子デバイスにインストールされることができる。複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供するために使用される複数のソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。
サーバ105は、端末101、102、103にサポートを提供するバックグラウンドサーバなどの様々なサービスを提供するサーバとすることができる。バックグラウンドサーバは、受信したデータ(例えば画像)に対して分析などの処理を行って、処理結果(例えば画像における文字情報)を端末にフィードバックすることができる。
なお、本願の実施例が提供する音声出力方法は、サーバ105又は端末101、102、103によって実行されてもよく、それに応じて、音声出力装置は、サーバ105又は端末101、102、103に設置されてもよい。
図1の端末、ネットワークおよびサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末、ネットワークおよびサーバを有することができる。
次に、図2を参照すると、本願の音声出力方法にかかる一実施例のフロー200が示されている。この音声出力方法は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するステップ201を含む。
本実施例において、音声出力方法の実行主体(例えば、図1に示す端末又はサーバ)は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び/又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。
本実施例におけるいくつかの選択可能な実施形態において、ステップ201は、初期画像を取得することと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定することと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することとを含む。
これらの実施形態では、上記実行主体は、初期画像を取得し、且つ遮蔽領域を決定することができる。ここでの遮蔽領域は、画像の上方にある指やペンなどの物品によって画像において遮蔽される領域であってもよい。例えば、初期画像を2値化して、2値化された画像における数値が単一である特定の領域(例えば、領域面積が予め設定された面積よりも大きい領域および/または領域形状が予め設定された形状と一致する領域)を決定して、この領域を遮蔽領域とすることができる。遮蔽領域が位置する遮蔽位置に対して領域を表す座標値を付すことができ、例えば、座標値は遮蔽領域の境界を表す複数の座標値であってもよい。先に遮蔽領域を決定して、その後に遮蔽領域の最小外接矩形の2つの対角の座標を表す座標値を遮蔽領域の座標値とすることができる。その後、上述した遮蔽領域を表す座標値を現在の動作情報とすることができる。
上記実行主体は、初期画像をユーザに提示することができ、又は初期画像を端末に送信してユーザに提示させることができる。このようにして、ユーザは、初期画像において部分画像を選択して閲覧コンテンツが位置する領域とすることができる。そして、上記実行主体は、閲覧コンテンツが位置する領域を決定することができる。
上記実現形態では、画像におけるユーザの動作する遮蔽領域及び閲覧コンテンツが位置する領域を予めマーキングすることができる。これにより、現在の動作情報を正確に決定することができ、それにより、閲覧コンテンツにおける現在の閲覧文字をより正確に決定することができる。
本実施例におけるいくつかの選択可能な実施形態において、上記実施形態に基づいて、ステップ201は、初期画像に遮蔽領域が存在しないことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とすることと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像に対して現在の動作情報をマッキングすることとを含むことができる。
これらの実施形態において、上記実行主体は、初期画像に遮蔽領域が存在しないことに応答して、画像収集装置が視野を調整して調整された視野に基づいて画像を再取得するように、実行主体と通信可能に接続する画像収集装置に命令を送信することができる。画像収集装置は、カメラ又はカメラ付きの電子デバイスであってもよい。ここでの視野調整は、視野拡大であってもよいし、カメラを回転させることにより撮影方向を変更することであってもよい。
上記実現形態における実行主体は、ユーザによる遮蔽領域に基づいて、画像収集命令を送信することを自律的に行うことができる。初期画像に遮蔽領域が存在しない場合に、適時に調整を行い、画像を再取得することが保証される。
上記音声出力方法は、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するステップ202を含む。
本実施例において、上記実行主体は、上記画像における閲覧コンテンツに文字が含まれる場合に、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように応答する。現在の閲覧文字は、ユーザが現在閲覧している文字である。
実際には、閲覧コンテンツの現在の閲覧文字は、様々な方法で決定されることができる。例えば、現在の動作情報が画像においてユーザの指によって指される位置であれば、該位置の文字を現在の閲覧文字として決定することができる。また、現在の動作情報は、画像においてユーザの指によって遮蔽される位置であってもよく、この場合、前記実行主体は、指による遮蔽位置から最も近い文字を現在の閲覧文字として決定することができる。
本実施例におけるいくつかの選択可能な実施形態において、ステップ201の後に、方法は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔閾値の間隔よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信することをさらに含むことができる。
これらの実施形態では、実行主体は、画像における閲覧コンテンツが不完全であると判定した場合に、画像を再取得することができる。実際には、画像に閲覧コンテンツの左半分のみが存在する場合があり、すなわち、画像に不完全な文字があり、例えば、画像のエッジに「好」の左半分である「女」のみが表示される場合がある。または、文字が画像のエッジに現れ、画像エッジからの距離が所定の間隔の閾値よりも小さくなる。上記の場合には、取得された画像にユーザが現在閲覧しているコンテンツの全てが含まれないと考えることができる。この場合、画像を再収集することにより、完全な閲覧コンテンツを取得することができる。
上記実現形態における実行主体は、閲覧コンテンツが完全であるか否かを自律的に判断することができ、それにより、完全な閲覧コンテンツを適時に取得することができる。同時に、上記実現形態では、画像における閲覧コンテンツが不完全であることによるユーザが閲覧したコンテンツと出力コンテンツとの不一致を回避して、音声出力の精度を向上させる。
上記音声出力方法は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するステップ203を含む。
本実施例において、上記実行主体は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することができる。このように、画像における文字については、ユーザの動作に基づいて、画像におけるユーザが閲覧している箇所に対して文字認識を行い、識別された文字を音声に変換して出力することができる。
実際には、上記実行主体は、複数の方法で音声を出力することができる。例えば、上記実行主体は、現在の閲覧文字を出力の開始文字として、現在の閲覧文字から文字の末尾までの文字に対応する音声を生成して連続的に出力することができる。上記実行主体は、現在の閲覧文字を開始として、現在の閲覧文字から文字の末尾までの文字に対応する音声を生成して分割出力することができる。
次に、図3を参照すると、図3は本実施例に係る音声出力方法の適用シーンの概略図である。図3の適用シーンにおいて、実行主体301は、ユーザの現在の閲覧状態であって、閲覧コンテンツとユーザの現在の動作情報である「指で文字を指す」303を含む現在の閲覧状態を示すための画像302を取得して、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報303に基づいて、閲覧コンテンツの現在の閲覧文字304を決定して、現在の閲覧文字304から、閲覧コンテンツにおける文字に対応する音声305を出力する。
本願の上記実施例が提供する方法は、ユーザの現在の動作情報に基づいて、画像における文字に対応する音声を出力することができる。このように、本願の実施例は、画像における全ての文字に対応する音声を出力するのではなく、ユーザの動作に基づいて現在の閲覧文字を決定して、音声を柔軟に出力することができる。そして、本実施例は、閲覧コンテンツのすべての文字を音声に変換する必要がなく、そのうちの一部を変換することができ、それにより音声の出力効率を向上させる。
さらに図4を参照すると、音声出力方法の別の実施例のフロー400が示されている。この音声出力方法のフロー400は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するステップ401を含む。
本実施例において、音声出力方法の実行主体(例えば、図1に示す端末又はサーバ)は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び/又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。
上記音声出力方法のフロー400は、画像における文字の文字認識結果を取得するステップ402を含む。
本実施例において、上記実行主体は、ローカル又は他の電子デバイス(例えばサーバ)から文字認識結果を取得することができる。文字認識結果を取得すると、画像の閲覧コンテンツに文字が含まれると判定することができる。文字認識結果は、画像における文字を認識することで得られる結果である。ここで識別される文字は、閲覧コンテンツにおけるすべての文字であってもよいし、一部の文字であってもよく、例えば現在の閲覧文字から末尾までの文字である。具体的には、文字認識プロセスは上記実行主体によって実行さてもよいし、上記実行主体が閲覧コンテンツをサーバに送信した後に、サーバによって実行されてもよい。
上記音声出力方法のフロー400は、画像における文字が位置する領域を複数のサブ領域に分割するステップ403を含む。
本実施例において、現在の動作情報は、ユーザによる画像の遮蔽位置を含む。上記実行主体は、画像の閲覧コンテンツに文字が含まれることに応答して、画像における文字が位置する領域を複数のサブ領域に分割することができる。
実際には、上記実行本体は、複数の方法でサブ領域への分割を行うことができる。例えば、上記実行主体は、予め設定されたサブ領域数に応じて、文字が位置する領域を均等な大きさのサブ領域に分割することができる。
本実施例におけるいくつかの選択可能な実施形態において、ステップ403は、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することとを含む。
これらの実現形態では、画像内の隣接する2組の文字同時の間隔が一致するとともに、いずれも予め設定された間隔の閾値よりも大きく、且つ各組の文字数がある値よりも大きいと、この2組の文字は隣接する文字列である。文字列内の文字の間隔がある値よりも大きいと、該間隔を2つのサブ領域の境界とすることもできる。文字列内のカンマ、ピリオド、セミコロンなどで区切られた2つの文間の間隔及び2つのセグの会話間の間隔などは、いずれも隣接するサブ領域の境界とすることができる。サブ領域への分割中において、上記実行主体は、ある間隔の位置に間隔線分を描くことにより、各サブ領域を区別して各サブ領域の位置をマッキングすることができる。文字列において描かれた間隔線分は、該文字列の上方又は下方の間隔線分に対して垂直であってもよい。
上記音声出力方法のフロー400は、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するステップ404を含む。
本実施例において、上記実行主体は、分割された複数のサブ領域から、遮蔽位置が位置するサブ領域を決定することができる。具体的には、上記実行主体は、画像を2値化して、2値化された画像における数値が単一である特定の領域を決定して、この領域を遮蔽領域とすることができる。遮蔽領域が位置するサブ領域は、1つであってもよく、又は複数であってもよい。複数であれば、その中から一つのサブ領域をランダムに選択してもよく、位置が最も上方にあるサブ領域を選択してもよい。
上記音声出力方法のフロー400は、決定されたサブ領域における開始文字を現在の閲覧文字とするステップ405を含む。
本実施例において、上記実行主体は、決定されたサブ領域における開始位置の文字を現在の閲覧文字とすることができる。具体的には、開始文字は文字閲覧順序に応じて決定されてもよい。例えば、文字は横列レイアウトであれば、サブ領域の最左辺の文字を開始文字とすることができる。文字が縦列レイアウトであれば、サブ領域の最上辺の文字を開始文字とすることができる。
本実施例におけるいくつかの選択可能な実施形態において、ステップ405は、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすること、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とすることとを含むことができる。
これらの実施形態では、上記実行主体は、画像における文字の文字認識結果を取得する過程において、決定されたサブ領域から文字認識結果を取得することができる。取得に成功すると、決定されたサブ領域に識別可能な文字が含まれていることを示す。予め設定された期間内に、決定されたサブ領域の文字認識結果が取得されないと、決定されたサブ領域に識別可能な文字が含まれない可能性があることを示す。ユーザの動作に対応する文字は前の文字列に存在する可能性がある。これにより、前記実行主体は、隣接するサブ領域において現在の閲覧文字を決定することができる。
上記音声出力方法のフロー400は、文字認識結果に基づいて、現在の文字から末尾までの文字を音声オーディオに変換するステップ406を含む。
本実施例において、上記実行主体は、文字認識結果を取得した後に、文字認識結果を利用して現在の閲覧文字から末尾文字まで文字形式から音声形式に変換することにより、音声オーディオを得ることができる。
上記音声出力方法のフロー400は、音声オーディオを再生するステップ407を含む。
本実施例では、上記実行主体は、現在の閲覧文字から末尾文字までの音声オーディオを再生することができる。このようにして、画像における文字については、ユーザの動作により、異なる音声オーディオを再生することができる。
本実施例は、サブ領域への分割により、ユーザの現在の閲覧文字を正確に決定する。同時に、間隔によって文字列を決定し且つ文字列を分割することにより、サブ領域分割の安定性及び正確度を増加させることができる。また、本実施例では、同じ閲覧コンテンツによっても、再生された音声オーディオはユーザの動作に応じて異なるため、ユーザのニーズをより正確に満たすことができる。
更に図5を参照すると、上記各図に示される方法の実施として、本願は音声出力装置の一実施例を提供して、この装置の実施例は図2に示される方法の実施例に対応して、この装置は具体的に様々な電子デバイスに適用されることができる。
図5に示すように、本実施例の音声出力装置500は、取得手段501、決定手段502及び出力手段503を含む。ここで、取得手段501は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成され、決定手段502は、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように構成され、出力手段503は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するように構成される。
いくつかの実施例において、音声出力装置500の取得手段501は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び/又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。
いくつかの実施例において、決定手段502は、上記画像における閲覧コンテンツに文字が含まれる場合に、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように応答する。現在の閲覧文字は、ユーザが現在閲覧している文字である。
いくつかの実施例において、出力手段503は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することができる。このようにして、画像における文字は、ユーザの動作に応じて、音声に変換されて出力されることができる。
本実施例のいくつかの選択可能な実施態様において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、決定手段は、画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールとを含む。
本実施例のいくつかの選択可能な実施態様において、分割モジュールは、さらに、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定して、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される。
本実施例のいくつかの選択可能な実施形態において、文字決定モジュールは、画像における文字の文字認識結果を取得するように構成される取得サブモジュールを含む。
本実施例のいくつかの選択可能な実施形態において、文字決定モジュールは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第1決定サブモジュールと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第2決定サブモジュールとをさらに含む。
本実施例のいくつかの選択可能な実施形態において、取得手段は、初期画像を取得するように構成される画像取得モジュールと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールとを含む。
本実施例のいくつかの選択可能な実施形態において、取得手段は、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールとをさらに含む。
本実施例のいくつかの選択可能な実施形態において、装置は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信するように構成される再収集モジュールをさらに備える。
本実施例のいくつかの選択可能な実施形態において、出力手段は、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、音声オーディオを再生するように構成される再生モジュールとを含む。
以下、図6を参照すると、本願の実施例の電子デバイスを実現するのに適したコンピュータシステム600の構成概略図が示されている。図6に示す電子デバイスは一例であり、本願の実施例の機能及び使用範囲を限定するものではない。
図6に示すように、コンピュータシステム600は、ROM(Read Only Memory)602に格納されているプログラム、または記憶部608からRAM(Random Access Memory)603にロードされたプログラムに従って各種の適切な動作および処理を実行するCPU(Central Processing Unit)601を備える。RAM603には、システム600が動作するために必要な各種プログラムやデータも格納されている。CPU601、ROM602及びRAM603は、バス604を介して相互に接続されている。また、バス604には、入出力(I/O)インタフェース605も接続されている。
I/Oインタフェース605には、キーボードやマウスなどを含む入力部606と、CRT(Cathode Ray Tube)や液晶ディスプレイ(LCD)など及びスピーカなどを含む出力部607と、ハードディスクなどを含む記憶部608と、LANカードやモデムなどのネットワークインタフェースカードを含む通信部609が接続されている。通信部609は、インターネットのようなネットワークを介して通信処理を行う。ドライブ610も、必要に応じてI/Oインタフェース605に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア611は、必要に応じてドライブ610にインストールされることにより、リムーバブルメディア611から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされ、および/またはリムーバブルメディア611からインストールされることができる。このコンピュータプログラムが中央処理ユニット(CPU)601によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線または半導体のシステム、装置またはデバイスであってもく、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、1つまたは複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、または上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みかまたは格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置またはデバイスによって使用されてもよく、またはそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドでまたはキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、または上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置またはデバイスによって使用され、またはそれらとともに使用されるプログラムを送信、伝播または伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、RFなど、またはそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されてることができるが、これらに限定されない。
図面におけるフローチャートおよびブロック図は、本願の様々な実施例によるシステム、方法およびコンピュータプログラム製品の実施可能な構成、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実施するための1つまたは複数の実行可能な命令を含むモジュール、ブロックまたはコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される2つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組合せは、所定の機能または動作を実行する専用のハードウェアによるシステムによって実施されてもよく、または専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。
本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは取得手段と、決定手段と、出力手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、分類手段は、「ユーザの現在の閲覧状態を示すための画像を取得する手段」として説明されることができる。
別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、または、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、1つまたは複数のプログラムが担持され、上記1つまたは複数のプログラムが装置により実行される場合、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することと、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することを、この装置に実行させる。
以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されべきである。例えば、上記特徴が本願に開示された(これに限定されない)同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。

Claims (19)

  1. ユーザの現在の閲覧状態であって、
    閲覧コンテンツ及び前記ユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、
    前記閲覧コンテンツに文字が含まれることに応答して、前記ユーザの現在の動作情報に基づいて前記閲覧コンテンツの現在の閲覧文字を決定することと、
    前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力することと、
    を含み、
    前記ユーザの現在の動作情報は、前記画像における前記ユーザにより遮蔽された遮蔽位置の情報を含む、
    声出力方法。
  2. 記閲覧コンテンツに文字が含まれることに応答して、前記ユーザの現在の動作情報に基づいて前記閲覧コンテンツの現在の閲覧文字を決定することは、
    前記画像における文字の文字認識結果を取得することと、
    前記画像における文字が位置する領域を複数のサブ領域に分割することと、
    前記複数のサブ領域から、前記遮蔽位置が位置するサブ領域を決定することと、
    決定されたサブ領域における開始文字を現在の閲覧文字とすることと、を含む、請求項1に記載の方法。
  3. 前記画像における文字が位置する領域を複数のサブ領域に分割することは、
    前記画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、
    各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することと、を含む、請求項2に記載の方法。
  4. 前記決定されたサブ領域における開始文字を現在の閲覧文字とすることは、
    決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすること、
    決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とすることと、をさらに含む、請求項2に記載の方法。
  5. 前記ユーザの現在の閲覧状態を示すための画像を取得することは、
    初期画像を取得することと、
    前記初期画像に遮蔽領域が存在することに応答して、前記初期画像の現在の動作情報を決定することと、
    初期画像のユーザ選択領域情報を取得し、前記ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、
    決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することと、を含む、請求項1に記載の方法。
  6. 前記ユーザの現在の閲覧状態を示すための画像を取得することは、
    前記初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信し、再取得された画像を初期画像とすることと、
    再取得された初期画像における遮蔽された領域を遮蔽領域として決定し、再取得された初期画像の現在の動作情報を決定することと、をさらに含む、請求項5に記載の方法。
  7. 前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力する前に、前記方法は、
    前記画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと前記画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように前記画像収集装置に再収集命令を送信すること、をさらに含む、請求項1に記載の方法。
  8. 前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力することは、
    前記文字認識結果に基づいて、前記現在の閲覧文字から末尾までの文字を音声オーディオに変換することと、
    前記音声オーディオを再生することと、を含む、請求項2に記載の方法。
  9. ユーザの現在の閲覧状態であって、閲覧コンテンツ及び前記ユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成される取得手段と、
    前記閲覧コンテンツに文字が含まれることに応答して、前記ユーザの現在の動作情報に基づいて前記閲覧コンテンツの現在の閲覧文字を決定するように構成される決定手段と、
    前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力するように構成される出力手段と、を備え、
    前記ユーザの現在の動作情報は、前記画像における前記ユーザにより遮蔽された遮蔽位置の情報を含む、
    声出力装置。
  10. 記決定手段は、
    前記画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、
    前記画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、
    前記複数のサブ領域から、前記遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、
    決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールと、を含む、請求項9に記載の装置。
  11. 前記分割モジュールは、さらに、
    前記画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定し、
    各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される、請求項10に記載の装置。
  12. 前記文字決定モジュールは、
    決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第1決定サブモジュールと、
    決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第2決定サブモジュールと、をさらに含む、請求項10に記載の装置。
  13. 前記取得手段は、
    初期画像を取得するように構成される画像取得モジュールと、
    前記初期画像に遮蔽領域が存在することに応答して、前記初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、
    初期画像のユーザ選択領域情報を取得して、前記ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、
    決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールと、を含む、請求項9に記載の装置。
  14. 前記取得手段は、
    前記初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、
    再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールと、をさらに含む、請求項13に記載の装置。
  15. 前記画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと前記画像のエッジとの距離が所定の間隔の閾値よりも小さい、と判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように前記画像収集装置に再収集命令を送信するように構成される再収集モジュール、をさらに備える、請求項10に記載の装置。
  16. 前記出力手段は、
    前記文字認識結果に基づいて、前記現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、
    前記音声オーディオを再生するように構成される再生モジュールと、を含む、請求項10に記載の装置。
  17. 1つ又は複数のプロセッサと、
    1つまたは複数のプログラムを記憶する記憶装置と、を備える電子デバイスであって、
    前記1つまたは複数のプログラムを前記1つまたは複数のプロセッサに実行させることにより、請求項1〜8のいずれか1項に記載の方法を1つまたは複数のプロセッサに実現させる、電子デバイス。
  18. コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが実行された場合に、請求項1〜8のいずれか1項に記載の方法が実現される、コンピュータ可読媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行された場合に、請求項1〜8のいずれか一項に記載の方法が実現される、
    コンピュータプログラム。
JP2019122908A 2018-07-04 2019-07-01 音声出力方法および装置 Active JP6970145B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810726724.2 2018-07-04
CN201810726724.2A CN108875694A (zh) 2018-07-04 2018-07-04 语音输出方法和装置

Publications (2)

Publication Number Publication Date
JP2020008853A JP2020008853A (ja) 2020-01-16
JP6970145B2 true JP6970145B2 (ja) 2021-11-24

Family

ID=64299117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019122908A Active JP6970145B2 (ja) 2018-07-04 2019-07-01 音声出力方法および装置

Country Status (3)

Country Link
US (1) US20200013386A1 (ja)
JP (1) JP6970145B2 (ja)
CN (1) CN108875694A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070080A (zh) * 2019-03-12 2019-07-30 上海肇观电子科技有限公司 一种文字检测方法及装置、设备和计算机可读存储介质
CN110059678A (zh) * 2019-04-17 2019-07-26 上海肇观电子科技有限公司 一种检测方法、装置及计算机可读存储介质
WO2020235167A1 (ja) * 2019-05-23 2020-11-26 日本電気株式会社 撮像装置、撮像方法及び記憶媒体
KR20220027081A (ko) 2019-06-10 2022-03-07 넥스트브이피유 (상하이) 코포레이트 리미티드 텍스트 검출 방법, 판독 지원 디바이스 및 매체
CN110032994B (zh) * 2019-06-10 2019-09-20 上海肇观电子科技有限公司 文字检测方法、阅读辅助设备、电路及介质
CN111125314B (zh) * 2019-12-25 2020-11-10 掌阅科技股份有限公司 书籍查询页面的展示方法、电子设备及计算机存储介质
CN112309389A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 信息交互方法和装置
CN112307867A (zh) * 2020-03-03 2021-02-02 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN112307869A (zh) * 2020-04-08 2021-02-02 北京字节跳动网络技术有限公司 语音点读方法、装置、设备和介质
CN111814800A (zh) * 2020-07-24 2020-10-23 广州广杰网络科技有限公司 基于5G+AIoT技术的老人书报阅读器及其使用方法
CN113535017B (zh) * 2020-09-28 2024-03-15 腾讯科技(深圳)有限公司 一种绘本文件的处理、同步显示方法、装置及存储介质
CN112230876A (zh) * 2020-10-13 2021-01-15 华南师范大学 人工智能伴读方法和伴读机器人

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
JP2004310250A (ja) * 2003-04-03 2004-11-04 Konica Minolta Medical & Graphic Inc 文字認識方法および文字認識装置
JP2010205136A (ja) * 2009-03-05 2010-09-16 Fujitsu Ltd 音声読み上げ装置、携帯電話機及びコンピュータプログラム
JP5964078B2 (ja) * 2012-02-28 2016-08-03 学校法人東京電機大学 文字認識装置、文字認識方法およびプログラム
JP5963584B2 (ja) * 2012-07-12 2016-08-03 キヤノン株式会社 電子機器及びその制御方法
CN106791262A (zh) * 2013-01-25 2017-05-31 陈旭 图文采集识别装置
CN103391480B (zh) * 2013-07-15 2017-11-28 Tcl集团股份有限公司 一种向电视机输入字符的方法及系统
CN104157171B (zh) * 2014-08-13 2016-11-09 三星电子(中国)研发中心 一种点读系统及其方法
CN104317398B (zh) * 2014-10-15 2017-12-01 天津三星电子有限公司 一种手势控制方法、穿戴式设备及电子设备
JP2016194612A (ja) * 2015-03-31 2016-11-17 株式会社ニデック 視覚認識支援装置および視覚認識支援プログラム
CN106484297B (zh) * 2016-10-10 2020-03-27 努比亚技术有限公司 一种文字拾取装置和方法
CN107315355B (zh) * 2017-06-30 2021-05-18 京东方科技集团股份有限公司 一种电器控制设备及方法

Also Published As

Publication number Publication date
CN108875694A (zh) 2018-11-23
US20200013386A1 (en) 2020-01-09
JP2020008853A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
JP6970145B2 (ja) 音声出力方法および装置
US9256784B1 (en) Eye event detection
US20190130185A1 (en) Visualization of Tagging Relevance to Video
WO2017124116A1 (en) Searching, supplementing and navigating media
US10984065B1 (en) Accessing embedded web links in real-time
CN107209756B (zh) 在标记语言文档中支持数字墨水
WO2020029466A1 (zh) 图像处理方法和装置
CN109862100B (zh) 用于推送信息的方法和装置
CN104823183A (zh) 基于特征的候选选择
US20200160489A1 (en) Scaling content on touch-based systems
CN113408208A (zh) 模型训练方法、信息提取方法、相关装置及存储介质
CN105184838A (zh) 一种图片处理方法及终端
JP2024502400A (ja) グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出
CN114501064A (zh) 一种视频生成方法、装置、设备、介质及产品
CN109034085B (zh) 用于生成信息的方法和装置
US10915778B2 (en) User interface framework for multi-selection and operation of non-consecutive segmented information
CN109472028B (zh) 用于生成信息的方法和装置
CN103631872A (zh) 一种多媒体文件播放方法及电子终端
CN114598921B (zh) 视频帧提取方法、装置、终端设备和存储介质
KR20170055345A (ko) 만화에서의 이미지 추출과 변형 시스템을 활용한 소셜 네트워크 서비스 및 방법
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
US20180300301A1 (en) Enhanced inking capabilities for content creation applications
CN115134317B (zh) 消息显示方法、装置、存储介质和电子装置
KR102624944B1 (ko) 라이브 커머스 플랫폼에서의 실시간 인스펙터를 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
TWI672946B (zh) 播放視頻的方法及裝置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210609

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211028

R150 Certificate of patent or registration of utility model

Ref document number: 6970145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150