JP6970145B2

JP6970145B2 - 音声出力方法および装置

Info

Publication number: JP6970145B2
Application number: JP2019122908A
Authority: JP
Inventors: シャオニン・シィー
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2018-07-04
Filing date: 2019-07-01
Publication date: 2021-11-24
Anticipated expiration: 2039-07-01
Also published as: CN108875694A; US20200013386A1; JP2020008853A

Description

本願の実施例はコンピュータ技術分野に関し、具体的にはインターネット技術分野に関し、特に音声出力方法及び装置に関する。

閲覧は日常生活において非常に一般的な活動である。視力及び識別能力等の理由により、高齢者及び子供は様々な程度の閲覧障害でがあるので、自己閲覧することができない。従来技術において、電子デバイバスは文字を識別して、文字に対応する音声を再生することにより、閲覧を支援する機能を実現することができる。

本願の実施例は音声出力方法及び装置を提供する。

第１態様では、本願の実施例は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することと、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することとを含む音声出力方法を提供する。

いくつかの実施例において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、コンテンツを読み取ることに応答して文字を含み、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することは、画像における文字の文字認識結果を取得することと、画像における文字が位置する領域を複数のサブ領域に分割することと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定することと、決定されたサブ領域における開始文字を現在の閲覧文字とすることとを含む。

いくつかの実施例において、画像における文字が位置する領域を複数のサブ領域に分割することは、画像における文字列であって、隣接する２つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することとを含む。

いくつかの実施例において、決定されたサブ領域における開始文字を現在の閲覧文字とすることは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすることと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とすることとをさらに含む。

いくつかの実施例において、ユーザの現在の閲覧状態を示すための画像を取得することは、初期画像を取得することと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定することと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することとを含む。

いくつかの実施例において、ユーザの現在の閲覧状態を示すための画像を取得することは、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とすることと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定することとをさらに含む。

いくつかの実施例において、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力する前に、方法は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信することをさらに含む。

いくつかの実施例において、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することは、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換することと、音声オーディオを再生することとを含む。

第２態様では、本願の実施例は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成される取得手段と、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように構成される決定手段と、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するように構成される出力手段とを備える音声出力装置を提供する。

いくつかの実施例において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、決定手段は、画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールとを含む。

いくつかの実施例において、分割モジュールは、さらに、画像における文字列であって、隣接する２つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定して、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される。

いくつかの実施例において、文字決定モジュールは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第１決定サブモジュールと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第２決定サブモジュールとをさらに含む。

いくつかの実施例において、取得手段は、初期画像を取得するように構成される画像取得モジュールと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールとを含む。

いくつかの実施例において、取得手段は、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールとをさらに含む。

いくつかの実施例において、装置は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信するように構成される再収集モジュールをさらに備える。

いくつかの実施例において、出力手段は、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、音声オーディオを再生するように構成される再生モジュールとを含む。

第３の態様では、本願の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶する記憶装置と、を備える電子デバイスであって、１つまたは複数のプログラムを１つまたは複数のプロセッサに実行させることにより、音声出力方法にかかるいずれか１つの実施例の方法を１つまたは複数のプロセッサに実現させる電子デバイスを提供する。

第４の態様では、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、このコンピュータプログラムが実行される場合、音声出力方法にかかるいずれか１つの実施例の方法を実現させる、コンピュータ可読媒体を提供する。

本願の実施例が提供する音声出力にかかる技術手段は、まず、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得する。その後、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定する。最後、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力する。本出願の実施例が提供する方法にかかる技術手段は、ユーザの現在の動作情報に基づいてユーザの意図を決定することができ、それにより、画像においてユーザが現在閲覧している文字と最も関連性のある対応する音声を出力する。このように、本願の実施例は、画像における全ての文字に対応する音声を出力するのではなく、ユーザの動作に基づいて現在の閲覧文字を決定することができ、音声出力の柔軟性を実現する。

本願の他の特徴、目的および利点は、以下の図面を参照して説明される非限定的な実施例を読むことによって、より明らかになる。
本発明を適用可能なシステム構成の一例を示す図である。本願の音声出力方法にかかる一実施例のフローチャートである。本願の音声出力方法にかかる適用シーンの概略図である。本願の音声出力方法にかかる別の実施例を示すフローチャートである。本願の音声出力装置にかかる一実施例の構成概略図である。本願の実施例の電子デバイスを実現するのに適したコンピュータシステムの構成概略図である。

以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。

なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。

図１は、本願の音声出力方法または音声出力装置を適用可能な実施例の例示的なシステム構成１００を示す。

図１に示されるように、システム構成１００は、端末１０１、１０２、１０３、ネットワーク１０４およびサーバ１０５を含むことができる。ネットワーク１０４は、端末１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するために使用される。ネットワーク１０４は、例えば、有線や無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５と対話して、メッセージなどを送受信することができる。端末１０１、１０２、１０３には、カメラが取り付けされてもよく、また、各種の通信クライアントアプリケーション、例えば画像認識アプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされてもよい。

ここでの端末１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末１０１、１０２、１０３がハードウェアである場合、表示パネルを有する様々な電子デバイスであってもよく、スマートフォン、タブレット型コンピュータ、電子ブックリーダ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。端末１０１、１０２、１０３がソフトウェアである場合、上記例示された電子デバイスにインストールされることができる。複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供するために使用される複数のソフトウェア又はソフトウェアモジュール）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。

サーバ１０５は、端末１０１、１０２、１０３にサポートを提供するバックグラウンドサーバなどの様々なサービスを提供するサーバとすることができる。バックグラウンドサーバは、受信したデータ（例えば画像）に対して分析などの処理を行って、処理結果（例えば画像における文字情報）を端末にフィードバックすることができる。

なお、本願の実施例が提供する音声出力方法は、サーバ１０５又は端末１０１、１０２、１０３によって実行されてもよく、それに応じて、音声出力装置は、サーバ１０５又は端末１０１、１０２、１０３に設置されてもよい。

図１の端末、ネットワークおよびサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末、ネットワークおよびサーバを有することができる。

次に、図２を参照すると、本願の音声出力方法にかかる一実施例のフロー２００が示されている。この音声出力方法は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するステップ２０１を含む。

本実施例において、音声出力方法の実行主体（例えば、図１に示す端末又はサーバ）は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び／又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。

本実施例におけるいくつかの選択可能な実施形態において、ステップ２０１は、初期画像を取得することと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定することと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することとを含む。

これらの実施形態では、上記実行主体は、初期画像を取得し、且つ遮蔽領域を決定することができる。ここでの遮蔽領域は、画像の上方にある指やペンなどの物品によって画像において遮蔽される領域であってもよい。例えば、初期画像を２値化して、２値化された画像における数値が単一である特定の領域（例えば、領域面積が予め設定された面積よりも大きい領域および／または領域形状が予め設定された形状と一致する領域）を決定して、この領域を遮蔽領域とすることができる。遮蔽領域が位置する遮蔽位置に対して領域を表す座標値を付すことができ、例えば、座標値は遮蔽領域の境界を表す複数の座標値であってもよい。先に遮蔽領域を決定して、その後に遮蔽領域の最小外接矩形の２つの対角の座標を表す座標値を遮蔽領域の座標値とすることができる。その後、上述した遮蔽領域を表す座標値を現在の動作情報とすることができる。

上記実行主体は、初期画像をユーザに提示することができ、又は初期画像を端末に送信してユーザに提示させることができる。このようにして、ユーザは、初期画像において部分画像を選択して閲覧コンテンツが位置する領域とすることができる。そして、上記実行主体は、閲覧コンテンツが位置する領域を決定することができる。

上記実現形態では、画像におけるユーザの動作する遮蔽領域及び閲覧コンテンツが位置する領域を予めマーキングすることができる。これにより、現在の動作情報を正確に決定することができ、それにより、閲覧コンテンツにおける現在の閲覧文字をより正確に決定することができる。

本実施例におけるいくつかの選択可能な実施形態において、上記実施形態に基づいて、ステップ２０１は、初期画像に遮蔽領域が存在しないことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とすることと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像に対して現在の動作情報をマッキングすることとを含むことができる。

これらの実施形態において、上記実行主体は、初期画像に遮蔽領域が存在しないことに応答して、画像収集装置が視野を調整して調整された視野に基づいて画像を再取得するように、実行主体と通信可能に接続する画像収集装置に命令を送信することができる。画像収集装置は、カメラ又はカメラ付きの電子デバイスであってもよい。ここでの視野調整は、視野拡大であってもよいし、カメラを回転させることにより撮影方向を変更することであってもよい。

上記実現形態における実行主体は、ユーザによる遮蔽領域に基づいて、画像収集命令を送信することを自律的に行うことができる。初期画像に遮蔽領域が存在しない場合に、適時に調整を行い、画像を再取得することが保証される。

上記音声出力方法は、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するステップ２０２を含む。

本実施例において、上記実行主体は、上記画像における閲覧コンテンツに文字が含まれる場合に、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように応答する。現在の閲覧文字は、ユーザが現在閲覧している文字である。

実際には、閲覧コンテンツの現在の閲覧文字は、様々な方法で決定されることができる。例えば、現在の動作情報が画像においてユーザの指によって指される位置であれば、該位置の文字を現在の閲覧文字として決定することができる。また、現在の動作情報は、画像においてユーザの指によって遮蔽される位置であってもよく、この場合、前記実行主体は、指による遮蔽位置から最も近い文字を現在の閲覧文字として決定することができる。

本実施例におけるいくつかの選択可能な実施形態において、ステップ２０１の後に、方法は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔閾値の間隔よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信することをさらに含むことができる。

これらの実施形態では、実行主体は、画像における閲覧コンテンツが不完全であると判定した場合に、画像を再取得することができる。実際には、画像に閲覧コンテンツの左半分のみが存在する場合があり、すなわち、画像に不完全な文字があり、例えば、画像のエッジに「好」の左半分である「女」のみが表示される場合がある。または、文字が画像のエッジに現れ、画像エッジからの距離が所定の間隔の閾値よりも小さくなる。上記の場合には、取得された画像にユーザが現在閲覧しているコンテンツの全てが含まれないと考えることができる。この場合、画像を再収集することにより、完全な閲覧コンテンツを取得することができる。

上記実現形態における実行主体は、閲覧コンテンツが完全であるか否かを自律的に判断することができ、それにより、完全な閲覧コンテンツを適時に取得することができる。同時に、上記実現形態では、画像における閲覧コンテンツが不完全であることによるユーザが閲覧したコンテンツと出力コンテンツとの不一致を回避して、音声出力の精度を向上させる。

上記音声出力方法は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するステップ２０３を含む。

本実施例において、上記実行主体は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することができる。このように、画像における文字については、ユーザの動作に基づいて、画像におけるユーザが閲覧している箇所に対して文字認識を行い、識別された文字を音声に変換して出力することができる。

実際には、上記実行主体は、複数の方法で音声を出力することができる。例えば、上記実行主体は、現在の閲覧文字を出力の開始文字として、現在の閲覧文字から文字の末尾までの文字に対応する音声を生成して連続的に出力することができる。上記実行主体は、現在の閲覧文字を開始として、現在の閲覧文字から文字の末尾までの文字に対応する音声を生成して分割出力することができる。

次に、図３を参照すると、図３は本実施例に係る音声出力方法の適用シーンの概略図である。図３の適用シーンにおいて、実行主体３０１は、ユーザの現在の閲覧状態であって、閲覧コンテンツとユーザの現在の動作情報である「指で文字を指す」３０３を含む現在の閲覧状態を示すための画像３０２を取得して、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報３０３に基づいて、閲覧コンテンツの現在の閲覧文字３０４を決定して、現在の閲覧文字３０４から、閲覧コンテンツにおける文字に対応する音声３０５を出力する。

本願の上記実施例が提供する方法は、ユーザの現在の動作情報に基づいて、画像における文字に対応する音声を出力することができる。このように、本願の実施例は、画像における全ての文字に対応する音声を出力するのではなく、ユーザの動作に基づいて現在の閲覧文字を決定して、音声を柔軟に出力することができる。そして、本実施例は、閲覧コンテンツのすべての文字を音声に変換する必要がなく、そのうちの一部を変換することができ、それにより音声の出力効率を向上させる。

さらに図４を参照すると、音声出力方法の別の実施例のフロー４００が示されている。この音声出力方法のフロー４００は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するステップ４０１を含む。

上記音声出力方法のフロー４００は、画像における文字の文字認識結果を取得するステップ４０２を含む。

本実施例において、上記実行主体は、ローカル又は他の電子デバイス（例えばサーバ）から文字認識結果を取得することができる。文字認識結果を取得すると、画像の閲覧コンテンツに文字が含まれると判定することができる。文字認識結果は、画像における文字を認識することで得られる結果である。ここで識別される文字は、閲覧コンテンツにおけるすべての文字であってもよいし、一部の文字であってもよく、例えば現在の閲覧文字から末尾までの文字である。具体的には、文字認識プロセスは上記実行主体によって実行さてもよいし、上記実行主体が閲覧コンテンツをサーバに送信した後に、サーバによって実行されてもよい。

上記音声出力方法のフロー４００は、画像における文字が位置する領域を複数のサブ領域に分割するステップ４０３を含む。

本実施例において、現在の動作情報は、ユーザによる画像の遮蔽位置を含む。上記実行主体は、画像の閲覧コンテンツに文字が含まれることに応答して、画像における文字が位置する領域を複数のサブ領域に分割することができる。

実際には、上記実行本体は、複数の方法でサブ領域への分割を行うことができる。例えば、上記実行主体は、予め設定されたサブ領域数に応じて、文字が位置する領域を均等な大きさのサブ領域に分割することができる。

本実施例におけるいくつかの選択可能な実施形態において、ステップ４０３は、画像における文字列であって、隣接する２つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することとを含む。

これらの実現形態では、画像内の隣接する２組の文字同時の間隔が一致するとともに、いずれも予め設定された間隔の閾値よりも大きく、且つ各組の文字数がある値よりも大きいと、この２組の文字は隣接する文字列である。文字列内の文字の間隔がある値よりも大きいと、該間隔を２つのサブ領域の境界とすることもできる。文字列内のカンマ、ピリオド、セミコロンなどで区切られた２つの文間の間隔及び２つのセグの会話間の間隔などは、いずれも隣接するサブ領域の境界とすることができる。サブ領域への分割中において、上記実行主体は、ある間隔の位置に間隔線分を描くことにより、各サブ領域を区別して各サブ領域の位置をマッキングすることができる。文字列において描かれた間隔線分は、該文字列の上方又は下方の間隔線分に対して垂直であってもよい。

上記音声出力方法のフロー４００は、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するステップ４０４を含む。

本実施例において、上記実行主体は、分割された複数のサブ領域から、遮蔽位置が位置するサブ領域を決定することができる。具体的には、上記実行主体は、画像を２値化して、２値化された画像における数値が単一である特定の領域を決定して、この領域を遮蔽領域とすることができる。遮蔽領域が位置するサブ領域は、１つであってもよく、又は複数であってもよい。複数であれば、その中から一つのサブ領域をランダムに選択してもよく、位置が最も上方にあるサブ領域を選択してもよい。

上記音声出力方法のフロー４００は、決定されたサブ領域における開始文字を現在の閲覧文字とするステップ４０５を含む。

本実施例において、上記実行主体は、決定されたサブ領域における開始位置の文字を現在の閲覧文字とすることができる。具体的には、開始文字は文字閲覧順序に応じて決定されてもよい。例えば、文字は横列レイアウトであれば、サブ領域の最左辺の文字を開始文字とすることができる。文字が縦列レイアウトであれば、サブ領域の最上辺の文字を開始文字とすることができる。

本実施例におけるいくつかの選択可能な実施形態において、ステップ４０５は、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすること、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とすることとを含むことができる。

これらの実施形態では、上記実行主体は、画像における文字の文字認識結果を取得する過程において、決定されたサブ領域から文字認識結果を取得することができる。取得に成功すると、決定されたサブ領域に識別可能な文字が含まれていることを示す。予め設定された期間内に、決定されたサブ領域の文字認識結果が取得されないと、決定されたサブ領域に識別可能な文字が含まれない可能性があることを示す。ユーザの動作に対応する文字は前の文字列に存在する可能性がある。これにより、前記実行主体は、隣接するサブ領域において現在の閲覧文字を決定することができる。

上記音声出力方法のフロー４００は、文字認識結果に基づいて、現在の文字から末尾までの文字を音声オーディオに変換するステップ４０６を含む。

本実施例において、上記実行主体は、文字認識結果を取得した後に、文字認識結果を利用して現在の閲覧文字から末尾文字まで文字形式から音声形式に変換することにより、音声オーディオを得ることができる。

上記音声出力方法のフロー４００は、音声オーディオを再生するステップ４０７を含む。

本実施例では、上記実行主体は、現在の閲覧文字から末尾文字までの音声オーディオを再生することができる。このようにして、画像における文字については、ユーザの動作により、異なる音声オーディオを再生することができる。

本実施例は、サブ領域への分割により、ユーザの現在の閲覧文字を正確に決定する。同時に、間隔によって文字列を決定し且つ文字列を分割することにより、サブ領域分割の安定性及び正確度を増加させることができる。また、本実施例では、同じ閲覧コンテンツによっても、再生された音声オーディオはユーザの動作に応じて異なるため、ユーザのニーズをより正確に満たすことができる。

更に図５を参照すると、上記各図に示される方法の実施として、本願は音声出力装置の一実施例を提供して、この装置の実施例は図２に示される方法の実施例に対応して、この装置は具体的に様々な電子デバイスに適用されることができる。

図５に示すように、本実施例の音声出力装置５００は、取得手段５０１、決定手段５０２及び出力手段５０３を含む。ここで、取得手段５０１は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成され、決定手段５０２は、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように構成され、出力手段５０３は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するように構成される。

いくつかの実施例において、音声出力装置５００の取得手段５０１は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び／又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。

いくつかの実施例において、決定手段５０２は、上記画像における閲覧コンテンツに文字が含まれる場合に、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように応答する。現在の閲覧文字は、ユーザが現在閲覧している文字である。

いくつかの実施例において、出力手段５０３は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することができる。このようにして、画像における文字は、ユーザの動作に応じて、音声に変換されて出力されることができる。

本実施例のいくつかの選択可能な実施態様において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、決定手段は、画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールとを含む。

本実施例のいくつかの選択可能な実施態様において、分割モジュールは、さらに、画像における文字列であって、隣接する２つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定して、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される。

本実施例のいくつかの選択可能な実施形態において、文字決定モジュールは、画像における文字の文字認識結果を取得するように構成される取得サブモジュールを含む。

本実施例のいくつかの選択可能な実施形態において、文字決定モジュールは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第１決定サブモジュールと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第２決定サブモジュールとをさらに含む。

本実施例のいくつかの選択可能な実施形態において、取得手段は、初期画像を取得するように構成される画像取得モジュールと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールとを含む。

本実施例のいくつかの選択可能な実施形態において、取得手段は、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールとをさらに含む。

本実施例のいくつかの選択可能な実施形態において、装置は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信するように構成される再収集モジュールをさらに備える。

本実施例のいくつかの選択可能な実施形態において、出力手段は、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、音声オーディオを再生するように構成される再生モジュールとを含む。

以下、図６を参照すると、本願の実施例の電子デバイスを実現するのに適したコンピュータシステム６００の構成概略図が示されている。図６に示す電子デバイスは一例であり、本願の実施例の機能及び使用範囲を限定するものではない。

図６に示すように、コンピュータシステム６００は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０２に格納されているプログラム、または記憶部６０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０３にロードされたプログラムに従って各種の適切な動作および処理を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１を備える。ＲＡＭ６０３には、システム６００が動作するために必要な各種プログラムやデータも格納されている。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して相互に接続されている。また、バス６０４には、入出力（Ｉ／Ｏ）インタフェース６０５も接続されている。

Ｉ／Ｏインタフェース６０５には、キーボードやマウスなどを含む入力部６０６と、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）や液晶ディスプレイ（ＬＣＤ）など及びスピーカなどを含む出力部６０７と、ハードディスクなどを含む記憶部６０８と、ＬＡＮカードやモデムなどのネットワークインタフェースカードを含む通信部６０９が接続されている。通信部６０９は、インターネットのようなネットワークを介して通信処理を行う。ドライブ６１０も、必要に応じてＩ／Ｏインタフェース６０５に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア６１１は、必要に応じてドライブ６１０にインストールされることにより、リムーバブルメディア６１１から読み出されたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードしてインストールされ、および／またはリムーバブルメディア６１１からインストールされることができる。このコンピュータプログラムが中央処理ユニット（ＣＰＵ）６０１によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線または半導体のシステム、装置またはデバイスであってもく、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、１つまたは複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みかまたは格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置またはデバイスによって使用されてもよく、またはそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドでまたはキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、または上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置またはデバイスによって使用され、またはそれらとともに使用されるプログラムを送信、伝播または伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、ＲＦなど、またはそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されてることができるが、これらに限定されない。

図面におけるフローチャートおよびブロック図は、本願の様々な実施例によるシステム、方法およびコンピュータプログラム製品の実施可能な構成、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実施するための１つまたは複数の実行可能な命令を含むモジュール、ブロックまたはコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される２つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、ならびにブロック図および／またはフローチャートにおけるブロックの組合せは、所定の機能または動作を実行する専用のハードウェアによるシステムによって実施されてもよく、または専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。

本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは取得手段と、決定手段と、出力手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、分類手段は、「ユーザの現在の閲覧状態を示すための画像を取得する手段」として説明されることができる。

別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、または、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、１つまたは複数のプログラムが担持され、上記１つまたは複数のプログラムが装置により実行される場合、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することと、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することを、この装置に実行させる。

以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されべきである。例えば、上記特徴が本願に開示された（これに限定されない）同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。

Claims

ユーザの現在の閲覧状態であって、
閲覧コンテンツ及び前記ユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、
前記閲覧コンテンツに文字が含まれることに応答して、前記ユーザの現在の動作情報に基づいて前記閲覧コンテンツの現在の閲覧文字を決定することと、
前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力することと、
を含み、
前記ユーザの現在の動作情報は、前記画像における前記ユーザにより遮蔽された遮蔽位置の情報を含む、
音声出力方法。
前記閲覧コンテンツに文字が含まれることに応答して、前記ユーザの現在の動作情報に基づいて前記閲覧コンテンツの現在の閲覧文字を決定することは、
前記画像における文字の文字認識結果を取得することと、
前記画像における文字が位置する領域を複数のサブ領域に分割することと、
前記複数のサブ領域から、前記遮蔽位置が位置するサブ領域を決定することと、
決定されたサブ領域における開始文字を現在の閲覧文字とすることと、を含む、請求項１に記載の方法。
前記画像における文字が位置する領域を複数のサブ領域に分割することは、
前記画像における文字列であって、隣接する２つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、
各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することと、を含む、請求項２に記載の方法。
前記決定されたサブ領域における開始文字を現在の閲覧文字とすることは、
決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすること、
決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とすることと、をさらに含む、請求項２に記載の方法。
前記ユーザの現在の閲覧状態を示すための画像を取得することは、
初期画像を取得することと、
前記初期画像に遮蔽領域が存在することに応答して、前記初期画像の現在の動作情報を決定することと、
初期画像のユーザ選択領域情報を取得し、前記ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、
決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することと、を含む、請求項１に記載の方法。
前記ユーザの現在の閲覧状態を示すための画像を取得することは、
前記初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信し、再取得された画像を初期画像とすることと、
再取得された初期画像における遮蔽された領域を遮蔽領域として決定し、再取得された初期画像の現在の動作情報を決定することと、をさらに含む、請求項５に記載の方法。
前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力する前に、前記方法は、
前記画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと前記画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように前記画像収集装置に再収集命令を送信すること、をさらに含む、請求項１に記載の方法。
前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力することは、
前記文字認識結果に基づいて、前記現在の閲覧文字から末尾までの文字を音声オーディオに変換することと、
前記音声オーディオを再生することと、を含む、請求項２に記載の方法。
ユーザの現在の閲覧状態であって、閲覧コンテンツ及び前記ユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成される取得手段と、
前記閲覧コンテンツに文字が含まれることに応答して、前記ユーザの現在の動作情報に基づいて前記閲覧コンテンツの現在の閲覧文字を決定するように構成される決定手段と、
前記現在の閲覧文字から、前記閲覧コンテンツにおける文字に対応する音声を出力するように構成される出力手段と、を備え、
前記ユーザの現在の動作情報は、前記画像における前記ユーザにより遮蔽された遮蔽位置の情報を含む、
音声出力装置。
前記決定手段は、
前記画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、
前記画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、
前記複数のサブ領域から、前記遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、
決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールと、を含む、請求項９に記載の装置。
前記分割モジュールは、さらに、
前記画像における文字列であって、隣接する２つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定し、
各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される、請求項１０に記載の装置。
前記文字決定モジュールは、
決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第１決定サブモジュールと、
決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第２決定サブモジュールと、をさらに含む、請求項１０に記載の装置。
前記取得手段は、
初期画像を取得するように構成される画像取得モジュールと、
前記初期画像に遮蔽領域が存在することに応答して、前記初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、
初期画像のユーザ選択領域情報を取得して、前記ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、
決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールと、を含む、請求項９に記載の装置。
前記取得手段は、
前記初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、
再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールと、をさらに含む、請求項１３に記載の装置。
前記画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと前記画像のエッジとの距離が所定の間隔の閾値よりも小さい、と判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように前記画像収集装置に再収集命令を送信するように構成される再収集モジュール、をさらに備える、請求項１０に記載の装置。
前記出力手段は、
前記文字認識結果に基づいて、前記現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、
前記音声オーディオを再生するように構成される再生モジュールと、を含む、請求項１０に記載の装置。
１つ又は複数のプロセッサと、
１つまたは複数のプログラムを記憶する記憶装置と、を備える電子デバイスであって、
前記１つまたは複数のプログラムを前記１つまたは複数のプロセッサに実行させることにより、請求項１〜８のいずれか１項に記載の方法を１つまたは複数のプロセッサに実現させる、電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが実行された場合に、請求項１〜８のいずれか１項に記載の方法が実現される、コンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行された場合に、請求項１〜８のいずれか一項に記載の方法が実現される、
コンピュータプログラム。