JP2006171544A - 音声ブラウザ装置、音声ブラウザ方法およびプログラム - Google Patents

音声ブラウザ装置、音声ブラウザ方法およびプログラム Download PDF

Info

Publication number
JP2006171544A
JP2006171544A JP2004366138A JP2004366138A JP2006171544A JP 2006171544 A JP2006171544 A JP 2006171544A JP 2004366138 A JP2004366138 A JP 2004366138A JP 2004366138 A JP2004366138 A JP 2004366138A JP 2006171544 A JP2006171544 A JP 2006171544A
Authority
JP
Japan
Prior art keywords
voice
sound
reading
unit
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004366138A
Other languages
English (en)
Inventor
Masahiro Watanabe
昌洋 渡辺
Aya Okano
紋 岡野
Yoko Asano
陽子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004366138A priority Critical patent/JP2006171544A/ja
Publication of JP2006171544A publication Critical patent/JP2006171544A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract


【課題】 ウェブページ全体における現在の読み上げ位置を知る場合、わざわざキーを押す動作を実行せずに、現在の読み上げ位置を知ることができ、また、読み上げを一時停止せずに、ウェブページ全体における現在の読み上げ位置を知ることができる音声ブラウザ装置、音声ブラウザ方法およびプログラムを提供することを目的とするものである。

【解決手段】 ウェブページ全体における読み上げ位置が、どの位置であるのかを、音声の高低や、長さ、強さ等の音の属性を変化させて提示する。

【選択図】 図1

Description

本発明は、ウェブコンテンツを音声読み上げして提示する音声ブラウザにおいて、コンテンツの読み上げ位置を、音声の属性によって示し、これによって、読み上げ音声を聞きながら、同時に読み上げ位置を把握することができる音声ブラウザ装置、音声ブラウザ方法およびプログラムに関する。
インターネットの普及によって、テレビやラジオ等の放送以外でも、様々な情報を得ることができる。インターネットの利用方法のうちの1つが、ウェブサイトの閲覧である。ウェブサイトの特徴は、様々な写真や文章を、ウェブページ作者の思う通りに2次元上に配置し、ユーザに提供できる点である。マルチメディア情報として、動画や音楽等を扱うことができるが、ウェブによって提供される情報の多くは、視覚的な情報である。したがって、視覚に障害があるユーザには、情報が提供されないという欠点がある。
このようなユーザを対象に、表示されているテキストを点字で表す点字ディスプレイや、表示されているテキストを音声で読み上げる音声ディスプレイが開発された。点字ディスプレイでは、ユーザが点字を理解していなければならないので、使えるユーザが限られるという欠点がある。
一方、音声ディスプレイでは、情報が音声としてユーザに提供されるので、特別な訓練等をせずに、PCを扱うことができる(たとえば、特許文献1参照)。つまり、音声ブラウザでは、ウェブページに書かれているテキスト情報を、合成音声等で読み上げることによって、視覚に障害があるユーザがウェブページを閲覧することができる。
音声ブラウザは、音声ディスプレイの一種であり、ウェブコンテンツ読み上げ専用に開発されたものである。この音声ブラウザが開発されてから、目で見る代わりに合成音声を聞くことによって、視覚に障害があるユーザがウェブコンテンツから情報を得ることができる。
しかし、音声という異なるメディアでの表示の試みは、まだ始まったばかりであり、使い易さという観点からは工夫の余地がある。
特開平11−249867号公報
音は、出力された瞬間のみ存在するという特徴がある。このために、ウェブ画面上のテキストが音声化されると、現在読み上げられている箇所が、ページ全体のどの位置であるのかを認識することが困難であるという欠点がある。
読み上げ場所が、ページ全体のどこであるかを知るには、読み上げ開始からの時間を憶えておくことが考えられる。しかし、読み上げ開始からの時間を覚えておくことは実際上、困難であるので、IBMホームページリーダ3.01では、ヘルプ機能に、現在位置表示機能が実装されている。上記現在位置表示機能は、AltキーとF1キーとを同時に押すと、たとえば、「ページの10%」のように、現在位置が音声で提示される。この現在位置表示機能によって、現在どの部分を読み上げているかを知ることができる。
しかし、上記従来例では、現在の読み上げ位置を知る場合、わざわざキーを押す動作を実行する必要があり、その操作が煩雑であるという問題があり、また、読み上げを一時停止してから、現在読み上げ位置が音声提示されるので、読み上げの内容を理解することに集中できないという問題がある。
本発明は、ウェブページ全体における現在の読み上げ位置を知る場合、わざわざキーを押す動作を実行せずに、現在の読み上げ位置を知ることができ、また、読み上げを一時停止せずに、ウェブページ全体における現在の読み上げ位置を知ることができる音声ブラウザ装置、音声ブラウザ方法およびプログラムを提供することを目的とするものである。
本発明は、ウェブページ全体における読み上げ位置が、どの位置であるのかを、音声の高低や、長さ、強さ等の音の属性を変化させて提示する。
ページ内の読み上げ位置が進む毎に、上記音の属性が変化するので、音の属性に着目して、読み上げ音声を聞けば、読み上げ部分がページ全体のどの位置であるのかを認識することができる。
本発明によれば、読み上げている部分が、ウェブページ全体のどの位置にあるのかを、音声の高低や、長さ、強さ等の音の属性に置き換えて表示し、ページ内の読み上げ位置が進む毎に、上記音の属性が変化するので、音の属性に着目して、読み上げ音声を聞けば、読み上げ位置が、ウェブページ全体のどの位置であるのかを認識することができ、したがって、わざわざキーを押す動作を実行せずに、現在の読み上げ位置を知ることができ、また、読み上げを一時停止せずに、ウェブページ全体における現在の読み上げ位置を知ることができるという効果を奏する。
発明を実施するための最良の形態は、次の実施例である。
図1は、本発明の実施例1である音声ブラウザ10と、ウェブサーバWSと、ネットワークNWとを示すブロック図である。
音声ブラウザ10は、ネットワークNWを介して、ウェブサーバWSと通信し、ウェブコンテンツを受信し、表示する。また、パーソナルコンピュータ(PC)で実現する場合、情報入力部11と、制御部12と、送受信部13と、情報解析部14と、情報蓄積部15と、音声合成部16と、音声変形部17と、情報出力部18とを有する。
情報入力部11は、キーボード、マウス等の入力装置であり、音声変形部17は、PC本体で構成され、情報出力部18は、モニタやスピーカで構成されている。
実施例1は、音声の高さを変えることによって、ウェブページ全体における読み上げ位置を提示する実施例である。つまり、読み上げ位置に応じた倍数を、読み上げ音声の周波数に乗じ、これによって、読み上げ位置を提示する実施例である。
なお、情報解析部14は、音声に変換し音声出力している部分のウェブページ全体における位置である読み上げ位置を、判断し、記憶装置に記憶する読み上げ位置判断手段の例である。
制御部12は、上記判断された読み上げ位置に基づいて、読み上げ音声の属性を変化させ、記憶装置に記憶する属性変換手段の例である。
なお、上記「記憶装置」は、半導体メモリ、ハードディスク等の外部記憶装置を含む概念である。
また、音声変換部17と、情報出力部18とは、上記属性変換手段によって、属性が変換された読み上げ音声を介して、読み上げ位置を提示する読み上げ位置提示手段の例である。
次に、音声ブラウザ10の動作について説明する。
図2は、音声ブラウザ10の動作を示すフローチャートである。
S11で、キーボード等の情報入力部11を介して、URLを入力する。S12で、制御部12が制御することによって、ネットワークNWを介して、送受信部13が入力したURLのウェブサーバWSと通信し、ウェブコンテンツを送受信部13が受信する。S13で、受信したウェブコンテンツを、情報解析部14が解析し、ウェブコンテンツに含まれているHTMLタグや文章を解析し、読み上げる文章と、その属性とを決定する。
S14で、読み上げ文章と音属性とを、情報蓄積部15に記録し、S15で、読み上げ単位区間の総数と、読み上げの順番とを記録する。
上記「読み上げ単位区間」は、読み上げるときに、読み上げ対象の文章が複数に区切られたうちの1つの範囲である。
図3は、実施例1において、情報蓄積部15に記憶されている音声情報データ(リンクの有無、読み上げ音声)の例を示す図である。
HTMLタグを解析した結果、読み上げ対象の文章(読み上げ対象文章)が、「明日の天気は、曇り時々雨、午後には晴れるでしょう。詳しい予報は、各地の天気をご覧ください。」であるとする。読み上げ対象の文章が、句読点で区切られた5つの部分(読み上げ単位区間)によって構成されている。
このうちで、読み上げ対象(読み上げ単位区間)「各地の天気をご覧ください。」には、リンクが張られているので、女声で読み上げ、その他の読み上げ対象には、リンクが張られていないので、男声で読み上げる。リンク部分をどの音声属性で読み上げ、リンク部分以外の部分をどの音声属性で読み上げるかは、情報蓄積部15に予め設定、記録されている。
上記のように、音声ブラウザにおいて、通常の部分(リンクが張られていない部分)のコンテンツと、リンクが張られている部分のコンテンツとの違いを、音声の属性(男声と女声)で区別して聞き取れるように、音声合成し、提示する。
なお、上記読み上げ対象の文章を区切る場合、句読点で区切る以外に、単語や文字で区切ってもよく、文章や段落で区切ってもよい。
ただ、単語単位で、区切って音の高さを変えると、アクセントが変化し、誤解を招く可能性がある。この誤解を排除するためには、句読点単位で、読み上げ音声の高さを変えることが好ましいので、実施例1では、句読点単位で、読み上げ音声の高さを変えている。逆に言えば、実施例1では、句読点で区切られている読み上げ単位区間内では、読み上げ音声の高さを同一にしている。
さて、S15で、受信したウェブコンテンツ全体の読み上げ対象の文章について、情報解析部14が解析すると、読み上げ単位区間の総数が分かる。また、所定の読み上げ単位区間が、上記総数のうちの何番目であるのか(読み上げの順番)が分かる。この読み上げ単位区間の総数と、読み上げ単位区間の順番とから、任意の読み上げ単位区間が、全体のどの部分に当たるのかが分かる。これらの情報を、図3に示すデータに追記する。
図4は、実施例1において、情報蓄積部15に記憶されている音声情報データに、読み上げの順番と、読み上げ単位区間の総数との音声データを追記した例を示す図である。
なお、読み上げ単位区間の総数は、1000個である。ただし、1000個は、一例であり、読み上げ単位区間の総数が1000個以外の個数であってもよい。また、後述の図6、図11、図14に示す場合においても、読み上げ単位区間の総数は、1000個であるが、読み上げ単位区間の総数が1000個以外の個数であってもよい。
次に、図2に示すS16で、音声合成部16が音声を合成し、S17で、この合成された音声は、音声変形部17において、その音声の高さが変化される。
次に、音声の高さを変化させる方法について、説明する。
任意の瞬間の合成音声を、周波数解析すると、異なる純音によって構成されていると考えられる。
図5は、実施例1において、音声変形部17の動作を示す図である。
音声合成部16が合成した音声は、音圧A1の周波数f1の純音と、音圧A2の周波数f2の純音と、音圧A3の周波数f3の純音と、音圧A4の周波数f4の純音と、音圧A5の周波数f5の純音との5つの純音によって構成されているとする。この音声を、図5において、斜線が付されている5つの長方形で示し、これらによって、合成音声xが構成されている。
実際の合成音声では、さらに多くの純音によって構成されている。ここで、音声変形部17が、音声を高くするには、5つの純音の周波数を、それぞれ、a倍すればよい。なお、上記「a」は、シフト係数である。この結果、音圧A1の周波数f1の純音、音圧A2の周波数f2の純音、音圧A3の周波数f3の純音、音圧A4の周波数f4の純音、音圧A5の周波数f5の純音が、それぞれ、音圧A1の周波数f1’の純音、音圧A2の周波数f2’の純音、音圧A3の周波数f3’の純音、音圧A4の周波数f4’の純音、音圧A5の周波数f5’の純音になる。ここで、f1<f2<f3<f4<f5であり、各周波数は、f1’=af1、f2’=af2、f3’=af3、f4’=af4、f5’=af5である。
これら周波数がa倍された純音を、図5では、斜線のない5つの長方形で示し、これら周波数がa倍された5つの純音によって、合成音声x’が構成されている。このようにすることによって、その倍音関係を変化させることなく、音声を高くすることができる。
音声合成部16、情報出力部18での制限から、出力できる最高の周波数、最低の周波数、シフト係数aの値には、制限がある。これらの制限から、最高周波数(fmax)、最低周波数(fmin)、最大シフト係数(amax)を決定する。これらの値を、情報蓄積部15に予め設定しておく。
図5に示す例では、fmin<f1、amaxf5<fmaxとなるように設定する。周波数が段々高くなるようにするためには、シフト係数aを1以上にすればよい。そのため、シフト係数aを以下のように設定する。つまり、x番目のファイル(読み上げ単位区間がx番目である読み上げ対象文章(読み上げ対象))のシフト係数をa(x)とし、かつbを、正の定数とすると、以下の式(1)のようにすれば、シフト係数a(x)を線形的に増加させることができる。
a(x)=1+bx(x−1) , b>0 ……式(1)
これによって、1番目の読み上げ単位区間では、シフト係数a(x)が1であるので、周波数変化はない。以下、シフト係数a(2)=1+b、シフト係数a(3)=1+2b…となり、1000番目の読み上げ単位区間(読み上げ対象文章)のシフト係数a(1000)は、1+999bである。
このようにシフト係数aを設定して、周波数を変化させればよい。このときに、周波数が離散的にしか変更できなければ、より近い値に合わせればよい。このようにして、音声変形部17において、合成音声の構成純音を、各シフト係数だけシフトする。
図6は、実施例1において、図4に示す音声情報データに、シフト係数とファイル名とを追記した例であって、情報蓄積部15に記憶されている音声情報データの例を示す図である。
作成された音ファイル1〜5のデータは、図6に示すように、情報蓄積部15に蓄積されている音声情報データに追記される。
ここで、読み上げ単位を、任意に決めることができることは既に説明した。音ファイルの合成単位も、任意に決めるようにしてもよい。
なお、上記「音ファイル」は、読み上げ対象文章を読み上げた音声波形のデジタルデータを記録したファイルであり、読み上げ対象文章とは異なる。
図7は、実施例1において、情報蓄積部15に記憶されている音声情報データの例を示す図である。
音ファイル1を、図7に示すように、短い音ファイルに区切って、構成するようにしてもよい。この場合、文章を任意の長さで区切って、音ファイルに変換してもよい。
図7に示す音ファイル1−1、1−2、1−3をつなぎ合わせて、音ファイル1を作るようにしてもよい。
図2に示すS18で、音ファイルを情報蓄積部15から読み出し、情報出力部18が出力する。このようにして、ページ内の読み上げ位置に応じて、高さを変えた音声でウェブコンテンツを読み上げることができる。
本発明の実施例2は、読み上げ位置を、音声の長さで提示する実施例であり、つまり、具体的には、音の長さを、線形に変化させることによって、読み上げ位置を提示する実施例である。
図8は、本発明の実施例2である音声ブラウザ装置20を示すブロック図である。
音声ブラウザ装置20は、基本的には、音声ブラウザ装置10と同じであり、情報蓄積部15の代わりに、情報蓄積部25が設けられ、音声変形部17の代わりに、音声変形部27が設けられている点が、音声ブラウザ装置10とは異なる。
音声変形部27は、ページ内の読み上げ位置に応じて、合成された音声の長さを変化させる。
図9は、本発明の実施例2の動作を示すフローチャートである。
実施例2の動作において、S11〜S13の動作は、実施例1におけるS11〜S16と同様である。S24で、読み上げ文章と音属性とを情報蓄積部25に記録し、S25で、読み上げ単位区間の総数と、読み上げ単位区間の順番とを記録し、S26で、音声合成部16が音ファイルを作成し、情報蓄積部25に記録し、S26において合成された音声は、S27において、ページ内の読み上げ位置に応じて、音声変形部27が、音声の長さを変化させる。
次に、実施例2において、音声の長さを変化させる方法について説明する。
図10は、実施例2における音声変形部27の動作の説明図である。
長さを変化させる前の音声x(x番目の音ファイル)の長さを、図10に示すように、txであるとする。ここで、音声変形部27において、音声を長くするには、たとえば、音声xを構成する波形を時間方向に伸ばせばよい。この場合、音の高さも同時に変化する。また、音を伸ばしたい長さの分だけ、音声xを構成する波形を、同じ波形で補間するようにしてもよい。つまり、音声xを構成する波形のうちで、周期的な部分の波形を複製し、挿入することによって、波形を伸ばすようにしてもよい。
すなわち、母声は、子音と母音とからなり、母音は、周期的な波形であるので、周期的な部分の一部をコピーして付け足すことによって、波形を延ばすことができ、これによって、音声xを補間することができる。
この場合、音の高さは一定になる。図10に示す例では、音声xの長さtxを時間方向にBx倍して、音声x’に変換している。この結果、音声x’の長さは、Bxtxになったとする。この長さ(変換後の音ファイルの長さ)を、「f(tx)」と呼び、Bxを、「シフト係数」と呼ぶ。
ところで、音ファイルの長さは一定ではなく、所定の基準長さをt0とし、x番目の音ファイルの長さがtxであるとすると、基準長さとの比はtx/t0である。このように、各音ファイルの長さを、基準長さt0との比で表す。
ファイルの順番に応じて、変換後の基準長さt0を、Δtずつ長くする場合を考える。x番目の音ファイルの変換後の基準長さは、t0+(x−1)Δtである。すなわち、x番目の音ファイルの長さがtxである場合、基準長さt0との比を求める。音ファイルの長さtxは、基準長さt0のtx/t0倍であり、つまり、各音ファイルの長さは、基準長さとの比で表され、各音ファイルの長さを変換するときに、基準長さを変化させ、基準長さとの比を変えないようにすると、変換後の長さf(x)は、次の式(2)に示すようになる。
f(tx)=tx/t0×{t0+(x−1)Δt}=tx+tx/t0(x−1)Δt ……式(2)
この変換を元の長さtxをBx倍してf(tx)になったとすると、シフト係数Bxは、次の式(3)で求めることができる。
Bx=f(tx)/tx=1+1/t0(x−1)Δt ……式(3)
音ファイルの長さを変換する場合、上記式(3)に従って、音ファイルを時間方向に、シフト係数Bx倍してやればよい。シフト係数の最大値は、B1000=1+999Δt/t1であるので、このシフト係数の最大値が、所望の長さになるように、Δtを設定すればよい。
上記説明では、1番目の音ファイルの長さt1を基準として、音ファイルの長さを変換したが、音ファイルの長さは、母音の数に比例すると考えられる。母音の数を調べて、1母音当たりの長さを、Bx倍するようにしてもよい。また、ここでは、1番目の音ファイルの長さt1の値を、基準にしているが、任意の順番の音ファイルの長さを基準にするようにしてもよい。このときに、音ファイルの長さが離散的にしか変更できない場合、より近い値に合わせればよい。このようにして、音声変形部27において、長さが変更された合成音声が作成される。
図11は、実施例2において、情報蓄積部15に記憶されている音声情報データの例を示す図である。
作成された音ファイル1〜5は、図11に示すように、データに追記される。
本発明の実施例3は、読み上げ位置を、音声の強さ(大きさ)で提示する実施例である。
具体的には、実施例3は、その瞬間までに再生された音ファイルの再生時間とそのページ全ての音ファイルの再生時間との比に応じて、音声の強さを変え、ウェブページ全体における読み上げ位置を呈示する実施例である。
すなわち、実施例1、2では、読み上げ区間に応じて、ウェブページ全体における読み上げ位置を提示する。実施例3では、音ファイル単位ではなく時間単位で、読み上げ経過時間に応じて読み上げ位置を提示する。
図12は、本発明の実施例3である音声ブラウザ装置30を示すブロック図である。
音声ブラウザ装置30は、基本的には、音声ブラウザ装置10と同じであり、情報蓄積部15の代わりに、情報蓄積部35が設けられ、音声変形部17の代わりに、音声変形部37が設けられている点が、音声ブラウザ装置10とは異なる。
音声変形部37は、読み上げ位置に応じて、音ファイル(音声)の強さを変化させる。
図13は、本発明の実施例3である音声ブラウザ装置30の動作を示すフローチャートである。
図13のS11〜S13の動作は、実施例1、2におけるS11〜S13の動作と同様である。続いて、S34で、読み上げる文章と音属性とを情報蓄積部35に記録し、S35で、音ファイルを作る前に、音ファイルの再生時間を計算する。たとえば、音ファイルの種類とその再生時間とをデータベースに入れておけば、合成される予定の音ファイルの再生時間を知ることができる。これを、情報蓄積部35に記録する。
S36において合成された音声を、S37で、音声変形部37が、読み上げ位置に応じて、合成音声の強さを変化させ、情報蓄積部35に記録する。
図14は、実施例3において、情報蓄積部35に記憶されている音声情報データの例を示す図である。
図14では、音ファイルxの再生時間を、txで示してある。この実施例では、音ファイルの数が1000個存在し、それぞれの再生時間がt1,t2,t3,…,t999,t1000であるときに、全ての再生時間を求めるには、それぞれを足し合わせればよい。つまり、全ての再生時間Tallを、次の式(4)で求めることができる。
Tall=t1+t2+t3+…+t999+t1000 ……式(4)
ここで、x番目の音ファイルが始まる前のファイルまでに再生された時間を、次の式(5)で求めることができる。
Tx=t1+…+tx−1 ……式(5)
よって、全ての再生時間Tallに対する、x番目の音ファイルが始まる前のファイルまでに再生された時間Txの割合Pxは、次の式(6)が示すようになる。
Px=Tx/Tall ……式(6)
これに応じて、音声を変化させればよい。
次に、実施例3において、音声の強さを変化させる方法について説明する。
図15は、本発明の実施例3において、音声変形部37が、音声の強さを変化させる動作の説明図である。
変化前の音声xの強さ(音圧レベル)が、図15に示すように、Axであるとする。ここで、音声変形部37において、この音声xの音圧レベルを上げるには、音声を構成する波形の振幅を大きくすればよい。
図15に示す例では、音声xの振幅AxをCx倍して、音声x’に変換している。その結果、音声x’の振幅は、CxAxになる。
上記倍数Cxを求める場合、次の式(7)に示すように、定数cを用いて求める。
Cx=1−xPx=1−cTx/Tall ……式(7)
本発明の実施例4は、音の聞こえる方向を変えることによって、読み上げ位置を提示する実施例である。
つまり、実施例4は、音の聞こえる方向、すなわち、音の聞こえてくる方向を制御する因子を線形に変化させることによって、読み上げ位置を提示する実施例である。
図16は、本発明の実施例4である音声ブラウザ装置40を示すブロック図である。
音声ブラウザ装置40は、基本的には、音声ブラウザ装置10と同じであり、情報蓄積部15の代わりに、情報蓄積部45が設けられ、音声変形部17の代わりに、音声変形部47が設けられている点が、音声ブラウザ装置10とは異なる。
音声変形部47は、読み上げ位置に応じて、音の聞こえる方向を変え、これによって、読み上げ位置を提示する。
図17は、本発明の実施例4の動作を示すフローチャートである。
実施例4の動作において、S11〜S13の動作は、実施例1におけるS11〜S13と同様である。
S44で、読み上げ文章と音属性とを情報蓄積部45に記録し、S45で、読み上げ単位区間の総数と、読み上げ単位区間の順序とを記録し、S46で、音声合成部16が音ファイルを作成し、情報蓄積部45に記録する。S46で合成された音声は、S47で、音声変形部47が、読み上げ位置に応じて、音の聞こえる方向を変化させ、情報蓄積部45に記録する。
音の聞こえる方向を左右に制御するには、左右の耳に同じ音を提示し、その音圧を変化させる。音圧の差がないと、中央から音が聞こえる。しかし、音圧を変化させると、音圧の大きい方向から音が聞こえるように感じる。この音圧の差を制御すればよい。
次に、実施例4において、音圧を変化させる方法について、説明する。
図18は、本発明の実施例4において、音声変形部47の動作の説明図である。
左右の耳に、音圧Axの音を提示していたとする。音の聞こえる方向を右方向にずらす場合、右耳に提示する音の振幅を、図18(1)に示すように、音圧AxからAx’に増やす。音声変形部47において、音圧を上げるには、音声xを構成する波形の振幅を大きくすればよい。一方、左耳に提示する音の振幅は、音圧Axのままである。なお、左右の耳に提示する音の振幅の双方を変化させるようにしてもよい。振幅をどの程度増やすかについては、実施例3と同様にすればよい。
また、音の聞こえる方向の左右を制御する他の方法は、左右の耳に同じ音を提示し、その音の聞こえ始めるタイミングを変化させる方法である。
図19は、本発明の実施例4において、音声変形部47の動作の説明図である。
音の提示開始時間の差がなければ、中央から音が聞こえる。しかし、図19に示すように、音の提示開始時間を、図19(1)に示すタイミングから、図19(2)に示すように、時間Δtずらすと、先に音が聞こえた方、図19に示す例では、右方向から音が聞こえてくるように感じる。時間Δtが大きくなる程、より右方向から聞こえるように感じる。ただし、時間Δtがあまり大きくなり過ぎると、左右が異なる音として聞こえる。同じ音であると聞こえる範囲で、時間Δtを決めることが必要である。
または、ユーザの頭部伝達関数を、計算するか、仮定することによって、音の方向を上下、または前後の位置に変換して、提示することができる。上記「頭部伝達関数」は、ある方向からくる音が、聞くユーザの頭部の影響でどのように変形されるかを計算する関数である。つまり、音がある方向から聞こえたときに、頭部の影響で、音は周波数スペクトラムや時間構造に歪みが生じる。逆に、そのときの歪みを、たとえば、複数の音源を用いることによって再現できれば、音はその方向から聞こえたと感じる。
上記のようにして、音の聞こえる方向を、下方向から上方向に徐々に変化させたり、後ろから前へと徐々に変化させたりすることができる。上記頭部伝達関数は、ユーザの頭部の形状によって異なるので、ユーザ一人一人によって異なる。ユーザが変わる度に、頭部伝達関数を計算し、記録して使用してもよい。また、平均的な頭部伝達関数を求めて、記録し、上記記録した平均的な頭部伝達関数を使用するようにしてもよい。
上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、ネットワークを介して受信したウェブコンテンツを音声変換し、読み上げる音声ブラウザにおいて、音声に変換し、音声出力している部分のウェブページ全体における位置である読み上げ位置を、判断し、記憶装置に記憶する読み上げ位置判断手順と、上記判断された読み上げ位置に基づいて、読み上げ音声の属性を変化させ、記憶装置に記憶する属性変換手順と、上記属性変換手順で、属性が変換された読み上げ音声を介して、また、音声出力装置から、読み上げ位置を提示する読み上げ位置提示手順とをコンピュータに実行させるプログラムの例である。
この場合、上記読み上げ音声の属性は、音声の高さ、長さ、強さ、音の聞こえてくる方向のうちの少なくとも1つである。
つまり、上記実施例を、コンピュータとプログラムとによって実現することができ、上記プログラムを、記録媒体に記録するようにしてもよく、また、上記プログラムを、ネットワークを通して提供するようにしてもよい。
本発明の実施例1である音声ブラウザ10と、ウェブサーバWSと、ネットワークNWとを示すブロック図である。 音声ブラウザ10の動作を示すフローチャートである。 実施例1において、情報蓄積部15に記憶されている音声情報データ(リンクの有無、読み上げ音声)の例を示す図である。 実施例1において、情報蓄積部15に記憶されている音声情報データに、読み上げの順番と、読み上げ単位区間の総数との音声データを追記した例を示す図である。 実施例1において、音声変形部17の動作を示す図である。 実施例1において、図4に示す音声情報データに、シフト係数とファイル名とを追記した例であって、情報蓄積部15に記憶されている音声情報データの例を示す図である。 実施例1において、情報蓄積部15に記憶されている音声情報データの例を示す図である。 本発明の実施例2である音声ブラウザ装置20を示すブロック図である。 本発明の実施例2の動作を示すフローチャートである。 実施例2における音声変形部27の動作の説明図である。 実施例2において、情報蓄積部15に記憶されている音声情報データの例を示す図である。 本発明の実施例3である音声ブラウザ装置30を示すブロック図である。 本発明の実施例3である音声ブラウザ装置30の動作を示すフローチャートである。 実施例3において、情報蓄積部35に記憶されている音声情報データの例を示す図である。 本発明の実施例3において、音声変形部37が、音声の強さを変化させる動作の説明図である。 本発明の実施例4である音声ブラウザ装置40を示すブロック図である。 本発明の実施例4の動作を示すフローチャートである。 本発明の実施例4において、音声変形部47の動作の説明図である。 本発明の実施例4において、音声変形部47の動作の説明図である。
符号の説明
10,20、30、40…音声ブラウザ装置、
11…情報入力部、
12…制御部、
13…送受信部、
14…情報解析部、
15、25、35、45…情報蓄積部、
16…音声号税部、
17、27、37、47…音声変形部。

Claims (7)

  1. ネットワークを介して受信したウェブコンテンツを音声変換し、読み上げる音声ブラウザにおいて、
    音声に変換し、音声出力している部分のウェブページ全体における位置である読み上げ位置を、判断し、記憶装置に記憶する読み上げ位置判断手段と;
    上記判断された読み上げ位置に基づいて、読み上げ音声の属性を変化させ、記憶装置に記憶する属性変換手段と;
    を有することを特徴とする音声ブラウザ装置。
  2. 請求項1において、
    上記属性変換手段によって属性が変換された読み上げ音声を介して、読み上げ位置を提示する読み上げ位置提示手段を有することを特徴とする音声ブラウザ装置。
  3. 請求項1において、
    上記読み上げ音声の属性は、音声の高さ、長さ、強さ、音の聞こえてくる方向のうちの少なくとも1つであることを特徴とする音声ブラウザ装置。
  4. ネットワークを介して受信したウェブコンテンツを音声変換し、読み上げる音声ブラウザにおいて、
    音声に変換し、音声出力している部分のウェブページ全体における位置である読み上げ位置を、判断し、記憶装置に記憶する読み上げ位置判断工程と;
    上記判断された読み上げ位置に基づいて、読み上げ音声の属性を変化させ、記憶装置に記憶する属性変換工程と;
    を有することを特徴とする音声ブラウザ方法。
  5. 請求項4において、
    上記属性変換工程で属性が変換された読み上げ音声を介して、また、音声出力装置から、読み上げ位置を提示する読み上げ位置提示工程を有することを特徴とする音声ブラウザ方法。
  6. 請求項4において、
    上記読み上げ音声の属性は、音声の高さ、長さ、強さ、音の聞こえてくる方向のうちの少なくとも1つであることを特徴とする音声ブラウザ方法。
  7. 請求項4〜請求項6のいずれか1項に記載の方法を、コンピュータに実行させることを特徴とするプログラム。
JP2004366138A 2004-12-17 2004-12-17 音声ブラウザ装置、音声ブラウザ方法およびプログラム Pending JP2006171544A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004366138A JP2006171544A (ja) 2004-12-17 2004-12-17 音声ブラウザ装置、音声ブラウザ方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004366138A JP2006171544A (ja) 2004-12-17 2004-12-17 音声ブラウザ装置、音声ブラウザ方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2006171544A true JP2006171544A (ja) 2006-06-29

Family

ID=36672363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004366138A Pending JP2006171544A (ja) 2004-12-17 2004-12-17 音声ブラウザ装置、音声ブラウザ方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2006171544A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340424B2 (en) 2009-07-30 2012-12-25 International Business Machines Corporation Visualization program, visualization method and visualization apparatus for visualizing reading order of content
US20230401980A1 (en) * 2022-06-09 2023-12-14 Red Hat, Inc. Screen Reader Software For Generating A Background Tone Based On A Spatial Location of a Graphical Object

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883089A (ja) * 1994-09-12 1996-03-26 Fujitsu Ltd ハイパーテキスト読上装置
JP2002342212A (ja) * 2001-04-27 2002-11-29 Internatl Business Mach Corp <Ibm> 情報アクセス方法、情報アクセスシステムおよびプログラム
JP2003099078A (ja) * 2001-09-20 2003-04-04 Seiko Epson Corp 合成音声再生方法および合成音声再生装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883089A (ja) * 1994-09-12 1996-03-26 Fujitsu Ltd ハイパーテキスト読上装置
JP2002342212A (ja) * 2001-04-27 2002-11-29 Internatl Business Mach Corp <Ibm> 情報アクセス方法、情報アクセスシステムおよびプログラム
JP2003099078A (ja) * 2001-09-20 2003-04-04 Seiko Epson Corp 合成音声再生方法および合成音声再生装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340424B2 (en) 2009-07-30 2012-12-25 International Business Machines Corporation Visualization program, visualization method and visualization apparatus for visualizing reading order of content
US8588526B2 (en) 2009-07-30 2013-11-19 International Business Machines Corporation Visualization program, visualization method and visualization apparatus for visualizing reading order of content
US20230401980A1 (en) * 2022-06-09 2023-12-14 Red Hat, Inc. Screen Reader Software For Generating A Background Tone Based On A Spatial Location of a Graphical Object

Similar Documents

Publication Publication Date Title
US7197462B2 (en) System and method for information access
JP5030617B2 (ja) デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理のための方法、システム、およびプログラム(デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理)
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
CN100570735C (zh) 调用内容管理指令的方法和系统
US6334104B1 (en) Sound effects affixing system and sound effects affixing method
US10102834B2 (en) Method, device and computer program product for scrolling a musical score
Freitas et al. Speech technologies for blind and low vision persons
JP5634853B2 (ja) 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法
US20090326953A1 (en) Method of accessing cultural resources or digital contents, such as text, video, audio and web pages by voice recognition with any type of programmable device without the use of the hands or any physical apparatus.
US20080005656A1 (en) Apparatus, method, and file format for text with synchronized audio
KR20160111335A (ko) 외국어 학습 시스템 및 외국어 학습 방법
James Presenting HTML structure in audio: User satisfaction with audio hypertext
US6205427B1 (en) Voice output apparatus and a method thereof
WO2012086359A1 (ja) ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2018142286A (ja) 電子図書製作用プログラム
JP2000231475A (ja) マルチメディア情報閲覧システムにおける音声読み上げ方法
KR20060088175A (ko) 멀티 포맷을 갖는 전자책 파일 생성 방법 및 시스템
JP2006171544A (ja) 音声ブラウザ装置、音声ブラウザ方法およびプログラム
US9293124B2 (en) Tempo-adaptive pattern velocity synthesis
KR102020341B1 (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
KR101124798B1 (ko) 전자 그림책 편집 장치 및 방법
KR20180078197A (ko) 이 보이스북 편집장치 및 재생장치
US8050927B2 (en) Apparatus and method for outputting voice relating to the preferences of a user
Zhou et al. The effect of allophonic variability on L2 contrast perception: Evidence from perception of English vowels
KR20170018281A (ko) 이 보이스북 편집장치 및 재생장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091023

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100507