JP3195279B2 - 音声出力システムおよびその方法 - Google Patents

音声出力システムおよびその方法

Info

Publication number
JP3195279B2
JP3195279B2 JP23071497A JP23071497A JP3195279B2 JP 3195279 B2 JP3195279 B2 JP 3195279B2 JP 23071497 A JP23071497 A JP 23071497A JP 23071497 A JP23071497 A JP 23071497A JP 3195279 B2 JP3195279 B2 JP 3195279B2
Authority
JP
Japan
Prior art keywords
speed
data
text data
audio
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23071497A
Other languages
English (en)
Other versions
JPH1173298A (ja
Inventor
藤 隆 伊
川 智 恵 子 浅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP23071497A priority Critical patent/JP3195279B2/ja
Priority to US09/114,802 priority patent/US6205427B1/en
Publication of JPH1173298A publication Critical patent/JPH1173298A/ja
Application granted granted Critical
Publication of JP3195279B2 publication Critical patent/JP3195279B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば、テキストデー
タに含まれる複数の文章の先頭部分を、ユーザが聞き取
り可能な速度の音声に変換し、その他の部分をこれより
も速い速度の音声に変換して出力することにより、出力
された音声を聴いたユーザが、文章を斜め読みする感覚
で、素早くその内容を把握することを可能にする音声出
力装置およびその方法に関する。
【0002】
【従来の技術】従来から、テキストデータを音声信号に
変換し、内容を読み上げる装置(テキスト音声合成装
置)が用いられている。このようなテキスト音声合成装
置において、テキストデータの内容を短時間で読み上げ
るためには、例えば、テキストデータを通常よりも高速
な音声信号に変換する方法が採られる。しかしながら、
この方法によると、テキストデータを読み上げる音声信
号が高速になるにつれて内容の聞き取りが難しくなる。
具体的には、聞き手の訓練にもよるが、テキストデータ
を一般のラジオ放送の3倍程度の速さで読み上げると、
内容の聞き取りが極めて困難になる。
【0003】また、例えば、テキストデータの一部のみ
を聞き取り可能な速度の音声信号に変換し、他の部分を
省略(スキップ)する方法が採られることがある。しか
しながら、この方法によると、聞き手がスキップした部
分のテキストデータの長さを把握することができず、例
えば、テキストデータのどの部分が読み上げられている
かを判断することができない、あるいは、テキストデー
タの重要な部分が全く音声出力されないために、その部
分を聞き取り可能な速度で聞きなおすことができない等
の不具合が生じる。このような不具合は、例えば、テキ
スト合成装置を用いて、視覚障害者が、あたかも晴眼者
が文書を斜め読みするかのように、テキストデータの内
容を把握しようとする場合の妨げになる。
【0004】また、例えば、特開平8−83089号公
報、特開平6−308998号公報、特公平7−697
15号公報、特開平9−50294号公報、特開平8−
171395号公報、特開平6−337976号公報、
特開平6−35913号公報、特開平5−265695
号公報、特開平4−268631号公報、特開平4−1
99420号公報、特開平1−88599号公報、特開
昭63−62032号公報、特開昭62−21906
6、特開昭62−156730号公報、特開昭61−4
3778号公報、特開平7−152532号公報、特開
平4−51099号公報および特開平8−191254
号公報(文献1〜18)は、ディジタルデータを音声信
号に変換する方法を開示する。
【0005】しかしながら、これらの文献に記載された
いずれの方法も、テキストデータの内容を聞き取り可能
に短時間で読み上げることと、テキストデータのいずれ
の部分が読み上げられているかを示す等の、聞き手に対
するテキストデータの内容の把握の支援との両立が不十
分である。
【0006】
【発明が解決しようとする課題】本発明は、上述した従
来技術の問題点に鑑みてなされたものであり、テキスト
データを短時間で読み上げることと、聞き手のテキスト
データの内容把握の支援とを充分に両立させた音声出力
装置およびその方法とを提供することを目的とする。
【0007】また、本発明は、テキストデータを短時間
で読み上げた場合に、その時点で、テキストデータのい
ずれの部分が読み上げられているかを聞き手に把握させ
ることができ、しかも、テキストデータの重要な部分を
聞きなおすきっかけを聞き手に与えることができる音声
出力装置およびその方法とを提供することを目的とす
る。
【0008】また、本発明は、例えば、視覚障害者が、
あたかも晴眼者が文書を斜め読みするかのように、テキ
ストデータの内容を把握することを可能にする音声出力
装置およびその方法を提供することを目的とする。
【0009】
【課題を解決するための手段】本発明は、所定の区切り
データで区切られたテキストデータを音声信号で読み上
げる音声出力システムに関する。本発明のシステムは、
早送り速度再生を指示するための入力手段と、前記区切
りデータに基いて前記テキストデータを文字列データに
分割する手段と、前記早送り速度再生の指示に応答し
て、前記文字列データの所定の第1の範囲の部分を聞き
取り可能な第1の速度の音声信号に変換し、第2の範囲
の部分を前記第1の速度よりも速い第2の速度の音声信
号に変換して出力する音声出力手段とを有する。
【0010】具体的には、前記第1の速度の音声信号は
通常の読み上げ速度よりも速いが聞き取り可能である。
前記第1の範囲は前記区切りデータから所定の待ち時間
Mが経過するまでの文字列データ部分に対応し、前記第
2の範囲は残りの文字列データ部分に対応する。前記待
ち時間Mは任意に設定可能である。
【0011】
【0012】
【0013】
【0014】本発明にかかる音声出力システムにおい
て、テキストデータを音声信号に変換して出力する際
に、例えば、テキストデータ中の句読点、スペースおよ
び改行等の文章の区切りを示す部分でテキストデータを
文字列データに分割し、分割した文字列データそれぞれ
の先頭から所定の範囲(第1の範囲)を、聞き手にとっ
て聞き取りが容易な遅い速度(第1の速度)の音声信号
に変換して出力し、その他の範囲(第2の範囲)を、聞
き手がテキストの長さ等を把握可能な程度に速い速度
[第2の速度(必ずしも聞き取り可能である必要はな
い)]の音声信号に変換して出力する。
【0015】
【0016】音声出力手段は、分割により得られた文字
列データの第1の範囲を、例えば、一般のラジオ放送に
おいて文章を読み上げる速度と同じ、あるいは、聞き手
が容易に内容を把握することができる程度に速度を上げ
た音声信号に変換し、出力する。このように第1の範囲
の音声信号を出力することにより、テキストデータ内の
文章の内容を、あたかも斜め読みするかのように、聞き
手に把握させる。
【0017】また、音声出力手段は、分割により得られ
た文字列データの第2の範囲を、この範囲のテキストデ
ータの長さ、およびこの範囲を読み上げる音声信号の音
程を聞き手が把握可能な程度の速度(必ずしも聞き取り
可能である必要はない)で音声信号に変換し、出力す
る。このように第2の範囲の音声信号を出力することに
より、聞き手にテキストデータのいずれの部分がその時
点で読み上げられているかを把握させるとともに、テキ
ストデータ内の文章のリズムあるいは雰囲気を把握させ
て、聞き手に重要な部分を聞き取り可能な速度の音声信
号で聞きなおすきっかけを与える。
【0018】また、本発明にかかる音声出力方法は、入
力手段で早送り速度再生を指示するステップと、前記区
切りデータに基いて前記テキストデータを文字列データ
に分割するステップと、前記早送り速度再生の指示に応
答して、前記文字列データの所定の第1の範囲の部分を
聞き取り可能な第1の速度の音声信号に変換し、第2の
範囲の部分を前記第1の速度よりも速い第2の速度の音
声信号に変換して出力するステップとを有する。
【0019】また、本発明にかかるコンピュータ読み取
り可能な記録媒体は、テキストデータに含まれる所定の
区切りデータに基いてテキストデータを文字列データに
分割するステップと、早送り速度再生の指示に応答し
て、前記文字列データの所定の第1の範囲の部分を聞き
取り可能な第1の速度の音声信号に変換し、第2の範囲
の部分を前記第1の速度よりも速い第2の速度の音声信
号に変換して出力するステップとをコンピュータに実行
させるプログラムを記録する。
【0020】
【発明の実施の形態】以下、本発明の実施形態を説明す
る。
【0021】[ネットワークシステム1の構成]図1
は、本発明にかかる音声出力方法が適応されるネットワ
ークシステム1の構成を例示する図である。図1に示す
ように、ネットワークシステム1は、例えばインターネ
ットであって、WWW(world wide web)サーバ10、I
SDN通信網、データ通信網あるいは電話網等のデータ
伝送が可能な通信網12および端末装置14を含む。な
お、実際にはネットワークシステム1は多くのWWWサ
ーバ10および端末装置14を含むが、図示および説明
の簡略化のために、以下、ネットワークシステム1がW
WWサーバ10および端末装置14を1台ずつ含む場合
を例に説明する。ネットワークシステム1は、これらの
構成部分により、WWWサーバ10から通信網12を介
して端末装置14にHTML(ハイパーテキスト記述言
語;hyper text markup language)により記述され、テ
キスト、音声および画像等の複数のメディアのデータを
含むHTMLデータを伝送する。
【0022】また、図1に示すように、端末装置14
は、通信網12に適合する通信インターフェース、CP
U、メモリ、モニタ装置、マウス、キーボードおよびハ
ードディスク等(いずれも図示せず)から構成され、デ
ータ通信機能を有し、本発明にかかる音声出力方法を実
現する音声出力処理ソフトウェア160を実行するマル
チメディアコンピュータ16(PC)、補助的な入力装
置として用いられ、通常モードキー180、早送りモー
ドキー182およびその他のキー(テンキー等;図示せ
ず)を有するキーパッド18、および、コンピュータ1
6が合成した音声をスピーカ(SP)を介して出力する
音声出力装置20を含む。端末装置14は、これらの構
成部分により、ユーザのキーパッド18の通常モードキ
ー180および早送りモードキー182に対する操作に
応じて、WWWサーバ10から送られてきたHTMLデ
ータに含まれるテキストデータを、部分ごとに異なった
速度の音声信号に変換して出力する。以下、ネットワー
クシステム1の各構成部分を説明する。
【0023】[WWWサーバ10]WWWサーバ10
は、WWW機能を有し、端末装置14から要求されたH
TMLデータを通信網12を介して端末装置14に対し
て送信する。
【0024】[通信網12]通信網12は、WWWサー
バ10と端末装置14との間でデータを伝送する。
【0025】[コンピュータ16]端末装置14におい
て、コンピュータ16は、WWWサーバ10から通信網
12を介してHTMLデータを受信し、HTMLデータ
に含まれる画像データおよびテキストデータをモニタ装
置(図示せず)に表示し、さらに、HTMLデータに含
まれる音声データを、音声信号の波形を示す波形データ
に変換して出力する(ブラウザ機能)。なお、コンピュ
ータ16のブラウザ機能は、図2に示して後述する音声
出力処理ソフトウェア160のブラウザ部164により
実現される。
【0026】また、コンピュータ16は、HTMLデー
タに含まれるテキストデータを読み上げる音声の波形を
示す音声波形データに変換して出力する機能を有し、例
えば、ユーザがキーパッド18の通常モードキー180
を押下した場合には、受信したHTMLデータに含まれ
るテキストデータを通常速度(例えば、ラジオ放送にお
いてアナウンサーがニュースを読む速さ)の音声波形を
示す音声波形データに変換して出力する(通常モー
ド)。
【0027】また、コンピュータ16は、ユーザがキー
パッド18の早送りモードキー182を押下した後に、
移行時間Pが経過していない場合には、受信したHTM
Lデータに含まれるテキストデータを、通常速度よりも
速く、しかも、ユーザが聞き取り可能な速度[可聴早送
り速度(第1の速度);例えば、通常速度の1.5〜2
倍の速さ]の音声波形データに変換して出力する(早送
りモード)。
【0028】また、コンピュータ16は、ユーザがキー
パッド18の早送りモードキー182を押下してから上
記一定時間が経過した後には、テキストデータの内、ユ
ーザの内容理解に有効な範囲[可聴早送り範囲(第1の
範囲)]のみを可聴早送り速度の音声波形データに変換
し、その他の範囲[スキップ範囲(第2の範囲)]を、
可聴早送り速度よりも速く、ユーザが聞き取り可能であ
るか否かを問わず、少なくともユーザがテキストデータ
の長さと、テキストデータの変換の結果として得られる
音声の音程とを把握可能な程度の速度[スキップ速度
(第2の速度)]の音声波形データに変換して出力する
(スキップモード)。
【0029】具体例を挙げると、スキップモードにおい
て、コンピュータ16は、ユーザにより設定される早送
り倍率N(スキップ範囲を通常速度の何倍の速度で読み
上げるかを示す倍数)に応じて、テキストデータに含ま
れる句読点、改行、スペースおよびハイパーリンク開始
点等のテキストデータの区切りを示すデータ(区切りデ
ータ)から、所定の時間分のテキストデータのみを可聴
早送り範囲として可聴早送り速度で読み上げ、その他の
テキストデータをスキップ範囲としてスキップ速度(例
えば通常の速度の3〜15倍の速度)で読み上げる。
【0030】なお、この例においては、スキップ範囲の
テキストデータから得られる音声は、あたかもアナログ
テープレコーダを用いて高速早送り再生して得られる音
声であるかのように、「きゅるきゅる・・・・」と聞こ
える。また、以上述べたコンピュータ16によるテキス
トデータの音声波形データへの各変換モードは、図2を
参照して後述する音声出力処理ソフトウェア160の各
構成部分により実現され、コンピュータ16が生成した
音声波形データは音声出力装置20に対して出力され
る。
【0031】[音声出力装置20]音声出力装置20
は、ディジタル/アナログ変換回路等から構成され、コ
ンピュータ16から入力されるディジタル形式の音声波
形データを、アナログ形式の音声信号に変換し、スピー
カを介して外部に出力する。
【0032】[音声出力処理ソフトウェア160]図2
は、図1に示した音声出力処理ソフトウェア160の構
成部分を示す図である。図2に示すように、音声出力処
理ソフトウェア160は、再生制御部162、ブラウザ
部164、HTML解析部166、音声波形生成部16
8および圧縮部170から構成される。以下、音声出力
処理ソフトウェア160の各構成部分を説明する。
【0033】[再生制御部162]再生制御部162
は、ユーザのキーパッド18に対する操作、例えば、通
常モードキー180、早送りモードキー182およびそ
の他のボタンそれぞれの状態、つまり、これらが押下さ
れている状態か、あるいは、これらが押下されていない
状態かを監視し、キーパッド18のボタンそれぞれの状
態に応じてブラウザ部164〜圧縮部170の動作を制
御する。
【0034】具体的には、再生制御部162は、HTM
L解析部166に対して、HTMLデータの内、音声出
力の対象となる部分を指定する。なお、再生制御部16
2は、例えば、通常モードで音声出力を行なっている際
に、早送りモードキー182が押下され、早送りモード
に移行する場合に、HTML解析部166を制御して、
最後に音声出力された部分から遡ってテキストデータを
音声波形生成部168に対して出力させるように指定を
行なう。
【0035】また、再生制御部162は、音声信号の速
度、つまり、テキストの内容を、通常速度(通常モー
ド)および可聴早送り速度(早送りモード)で読み上げ
る場合それぞれにおいて、1秒間に表音文字、何文字分
のテキストデータを音声波形データに変換するかを示す
データ(速度データ)を音声波形生成部168に設定す
る。
【0036】また、再生制御部162は、いずれもユー
ザにより設定され、区切りデータの後のテキストデータ
を何秒間、可聴早送り速度で音声出力するかを示す待ち
時間Mと、早送りモードキー182が押下されてからス
キップモードに移行するまでの移行時間Pとを、圧縮部
170に設定する。
【0037】[ブラウザ部164]ブラウザ部164
は、WebExplorer(IBM社商標)あるいはNetscapeNav
igator(Netscape Communications Co.商標)等のWWW
ブラウザソフトウェアであって、ユーザの操作を受け入
れて、ユーザが選択したWWWのHTMLデータの送信
をWWWサーバ10に要求し、この要求に応じてWWW
サーバ10から通信網12を介して送られてきたHTM
Lデータを受信し、HTML解析部166に対して出力
するとともに、上述したコンピュータ16のブラウザ機
能を実現する。
【0038】[HTML解析部166]HTML解析部
166は、ブラウザ部164から入力されたHTMLデ
ータを解析し、再生制御部162により指定された部分
のテキストデータを分離して音声波形生成部168に対
して出力する。
【0039】[音声波形生成部168]音声波形生成部
168は、HTML解析部166から入力されるテキス
トデータの文字列を、再生制御部162により設定され
た速度データが示す速度で読み上げる音声波形を示す音
声波形データを生成し、生成した音声波形データと、テ
キストデータ中の区切りデータの位置を示すタイミング
信号とを、圧縮部170に対して出力する。つまり、音
声波形生成部168は、通常モードにおいては、テキス
トデータを通常速度で読み上げる音声波形データを生成
し、早送りモードおよびスキップモードにおいては、テ
キストデータを可聴早送り速度で読み上げる音声波形デ
ータを生成して、タイミング信号とともに圧縮部170
に対して出力する。
【0040】[圧縮部170]圧縮部170は、通常モ
ードおよび早送りモードにおいては、音声波形生成部1
68から入力される通常速度および可聴早送り速度の音
声波形データをそのまま音声出力装置20に対して出力
する。また、スキップモードにおいて、圧縮部170
は、音声波形生成部168から入力される音声波形デー
タの内、テキストデータの可聴早送り範囲に対応する部
分をそのまま音声出力装置20に対して出力し、音声波
形データの内、テキストデータのスキップ範囲に対応す
る部分を圧縮し、音声出力装置20に対して出力する。
【0041】つまり、圧縮部170は、キーパッド18
の早送りモードキー182が押下されたまま移行時間P
が経過してスキップモードに移行した後は、音声波形生
成部168からのタイミング信号が、区切りデータの時
間的位置を示してから、待ち時間Mが経過するまで(可
聴早送り範囲)のテキストデータそれぞれに相当する可
聴早送り速度の音声波形データを、そのまま音声出力装
置20に対して出力する。さらに、スキップモードに移
行した後には、圧縮部170は、区切りデータの時間的
位置から待ち時間Mが経過した後(スキップ範囲)のテ
キストデータに相当する可聴早送り速度の音声波形デー
タを、例えば間引き等により時間的に1/Nに圧縮し、
スキップ速度の圧縮音声波形データに変換して音声出力
装置20に対して出力する。
【0042】[ネットワークシステム1の動作]以下、
ネットワークシステム1の動作を説明する。
【0043】[音声出力処理ソフトウェア160の処
理]まず、図3を参照して音声出力処理ソフトウェア1
60の処理を説明する。図3は、図1に示したネットワ
ークシステム1のコンピュータ16が実行する音声出力
処理ソフトウェア160(図2)の処理内容を示すフロ
ーチャート図である。
【0044】コンピュータ16(図1)において、音声
出力処理ソフトウェア160のブラウザ部164(図
2)が、ユーザのキーパッド18等に対する操作に応じ
て、通信網12を介してWWWサーバ10に対してユー
ザが希望するWWWのHTMLデータを要求すると、W
WWサーバ10は、要求されたHTMLデータを通信網
12を介して端末装置14に対して送信する。音声出力
処理ソフトウェア160のブラウザ部164は、WWW
サーバ10からのHTMLデータを受信し、HTML解
析部166に対して出力する。
【0045】図3に示すように、ステップ100(S1
00)において、再生制御部162は、HTMLデータ
に含まれるテキストデータの音声出力を開始する位置
を、先頭(初期値)として記憶する。
【0046】ステップ102(S102)において、再
生制御部162は、ユーザによるキーパッド18に対す
るキー操作(通常モードキー180、早送りモードキー
182またはその他のキーの押下)があったか否かを判
断する。再生制御部162は、キーパッド18に対する
キー操作があった場合にのみS104の処理に進む。
【0047】ステップ104(S104)において、再
生制御部162は、押下されたキーが通常モードキー1
80または早送りモードキー182であるか否かを判断
する。再生制御部162は、押下されたキーが、通常モ
ードキー180である場合にはS110の処理に進んで
通常モードの音声出力処理を開始し、早送りモードキー
182である場合にはS120の処理に進んで早送りモ
ードの音声出力処理を開始し、これら以外のキーである
場合にはその他の処理を行なう。
【0048】ステップ110(S110)において、再
生制御部162は、S100,S152,S162のい
ずれか処理において記憶したHTMLデータ内のテキス
トデータの音声出力の開始位置をHTML解析部166
に設定し、音声波形生成部168に通常速度を設定し、
圧縮部170に通常モードの音声出力をするようにモー
ド設定を行なう(早送りモードOFF)。さらに、再生
制御部162は、S110の処理においてと同様に、H
TML解析部166に対してHTMLデータからのテキ
ストデータの分離および音声波形生成部168への出力
を指示する。ステップ120(S120)において、再
生制御部162は、HTML解析部166にHTMLデ
ータ内のテキストデータの音声出力の開始位置を設定
し、音声波形生成部168に可聴早送り速度を設定し、
圧縮部170に早送りモードの音声出力をするようにモ
ード設定を行なう(早送りモードON)。さらに、再生
制御部162は、S110の処理においてと同様に、H
TML解析部166に対してHTMLデータからのテキ
ストデータの分離および音声波形生成部168への出力
を指示する。
【0049】ステップ130(S130)において、H
TML解析部166は、再生制御部162の指示に従
い、設定された音声出力開始位置以降のテキストデータ
を分離し、音声波形生成部168に対して出力する。
【0050】ステップ132(S132)において、音
声波形生成部168は、HTML解析部166から入力
されたテキストデータの区切りデータを探し、最後に音
声出力した直後から区切りデータまでのテキストデータ
(文字列データ)を取得する。
【0051】ステップ134(S134)において、音
声波形生成部168は、テキストデータが取得できたか
否かを判断し、テキストデータが取得できた場合にはS
136の処理に進み、これ以外の場合には処理を終了す
る。
【0052】ステップ136(S136)において、音
声波形生成部168は、取得したテキストデータを、再
生制御部162により設定された速度で読み上げる音声
波形データを生成し、区切りデータの時間的位置を示す
タイミング信号とともに圧縮部170に対して出力す
る。
【0053】ステップ138(S138)において、圧
縮部170は、タイミング信号が示す区切りデータの時
間的位置から、待ち時間Mが経過したか否かを判断し、
待ち時間Mが経過した場合にはスキップモードに移行し
てS140の処理に進み、これ以外の場合にはS142
の処理に進む。
【0054】ステップ140(S140)において、圧
縮部170は、音声波形生成部168から入力された音
声波形データを時間的に1/Nに圧縮し、圧縮音声波形
データとして音声出力装置20に対して出力する。
【0055】ステップ142(S142)において、圧
縮部170は、音声波形データまたは圧縮音声波形デー
タを音声出力装置20に対して出力する。つまり、圧縮
部170は、スキップモードに移行後は、テキストデー
タのスキップ範囲を可聴早送り速度で読み上げる音声波
形データを、さらに時間的に1/Nに圧縮した圧縮音声
波形データを音声出力装置20に対して出力し、テキス
トデータの可聴早送り範囲を圧縮せずに音声出力装置2
0に対して出力する。また、圧縮部170は、通常モー
ドおよび早送りモードそれぞれにおいては、通常速度ま
たは可聴早送り速度の音声波形データを圧縮せずにその
まま音声出力装置20に対して出力する。
【0056】ステップ144(S144)において、音
声出力装置20は、音声波形データまたは圧縮音声波形
データをアナログ音声信号に変換し、スピーカを介して
出力する。
【0057】ステップ146(S146)において、再
生制御部162は、圧縮部170がスキップモードにあ
るか否かを判断し、スキップモードにある場合にはS1
50の処理に進み、スキップモードにない場合にはS1
60の処理に進む。
【0058】ステップ150(S150)において、再
生制御部162は、ユーザにより早送りモードキー18
2が押下されているか否かを判断し、押下されている場
合にはS132の処理に進み、押下されていない場合に
はS152の処理に進む。
【0059】ステップ152(S152)において、再
生制御部162は、音声波形生成部168が最後に見つ
けた区切りデータを、次に音声出力を開始するテキスト
データの位置として記憶する。
【0060】ステップ160(S160)において、再
生制御部162は、ユーザにより早送りモードキー18
2が押下されているか否かを判断し、押下されている場
合にはS162の処理に進み、押下されていない場合に
S132の処理に進む。
【0061】ステップ162(S162)において、再
生制御部162は、音声波形生成部168が最後に見つ
けた区切りデータを、次に音声出力を開始するテキスト
データの位置として記憶する。
【0062】[端末装置14に対する操作]以下、ユー
ザがいかにして端末装置14を操作するか、および、端
末装置14からどのような音声が出力されるかを、音声
出力処理ソフトウェア160の処理と関連付けて、実例
を挙げて説明する。図4は、図1に示した端末装置14
が出力する音声を例示する図である。
【0063】まず、ユーザは、ブラウザ部164のブラ
ウザ機能を用いてWWWサーバ10からHTMLデータ
を受信し、さらに、キーパッド18の通常モードキー1
80を押下する。HTML解析部166は、ユーザによ
る早送りモードキー182の押下に応じて、ブラウザ部
164が受信したHTMLデータから、例えば、下表に
示す文例を内容とするテキストデータを取得する。
【0064】
【表1】 「目が見えない人がWWWを利用するには:目が見えな
い人(全盲の人)にとって、インターネット、特にWW
W(ワールドワイド・ウェブ)は、閉ざされた世界なの
でしょうか。WWWでは、テキストの他に、写真や絵な
どの「イメージ」が多く使われています。また、画面に
表示された内容の一部を選択すると、リンクされた内容
が表示される「ハイパーリンク」の機能もよく使われて
います。これらのWWWの機能は、全盲の人は利用する
ことができないと思われがちですが、ここで紹介するよ
うな方法によって、全盲の人も、目が見える人と同様に
WWWの機能を利用することが可能です。ここでは、全
盲の人が実際にWWWを利用している場合の機器の構成
と使い方をご紹介します。(文例)」・・・(1)
【0065】なお、この文例を通常速度で読み上げると
52秒を要し、可聴早送り速度で読み上げると31秒
(通常速度の1.7倍の場合)を要することから、テキ
ストデータを目で見て読む場合に比べて、音声で読み上
げる場合には、意外に時間がかかってしまうことが分か
る。
【0066】一方、ユーザによる早送りモードキー18
2の連続的な押下が移行時間P以上続き、スキップモー
ドに移行すると、例えば、待ち時間Mが0.3秒であ
り、可聴早送り速度が通常速度の1.5倍であり、スキ
ップ速度を通常速度の4倍の速さである場合には、音声
波形生成部168および圧縮部170は、上記文例を内
容とするテキストデータの可聴早送り範囲の文字列と、
スキップ範囲の文字列とを、下表に示すように音声出力
する。
【0067】
【表2】 「目が見えない」,「・・・・・」, 「目が見えない」,「・・・・・」, 「インターネット、特にW」,「・・・・・」, 「閉ざされ」,「・・・・・」, 「WWW」,「・・・・・」, 「テキスト」,「・・・・・」 「写真や」,「・・・・・」, 「また、画面に」,「・・・・・」, 「これらの」,「・・・・・」, 「全盲の」,「・・・・・」, 「ここで紹」,「・・・・・」, 「全盲の」,「・・・・・」, 「目が見える」,「・・・・・」, 「ここでは」,「・・・・・」, 「全盲の」,「・・・・・」 ・・・(2) ただし、表2は、説明の便宜のため、移行時間Pが0の
場合を示す。なお、"「」"内は、句読点等の区切りデー
タの後に続く待ち時間Mに含まれるテキストデータの可
聴早送り範囲の文字列であって、可聴早送り速度で音声
出力される。また、"「・・・・」"は、テキストデータ
のスキップ範囲の文字列が、スキップ速度で音声出力さ
れていることを示す。
【0068】このように、音声出力処理ソフトウェア1
60により、表2において文字列として示した可聴早送
り範囲内のテキストデータは、可聴早送り速度の音声波
形データに、「・・・・・」として示したスキップ範囲
内のテキストデータは、ユーザからは「きゅるきゅる・
・・・」という音に聞こえ、内容の聞き取りはできない
ながら、文字列の長さおよび音程が把握可能な程度のス
キップ速度の圧縮音声波形データに変換され、出力され
る。なお、この条件でテキストデータを音声出力する時
間は、約11秒ですむ。
【0069】さらに、待ち時間Mが0.15秒であり、
スキップ速度を通常速度の8倍である場合には、音声波
形生成部168および圧縮部170は、上記文例を内容
とするテキストデータの可聴早送り範囲の文字列と、ス
キップ範囲の文字列とを、下表に示すように音声出力す
る。
【0070】
【表3】 「目が」,「・・・・・」, 「目が」,「・・・・・」, 「インター」,「・・・・・」, 「閉ざさ」,「・・・・・」, 「W」,「・・・・・」, 「テキス」,「・・・・・」 「写真」,「・・・・・」, 「また、画面」,「・・・・・」, 「これ」,「・・・・・」, 「全」,「・・・・・」, 「ここ」,「・・・・・」, 「全」,「・・・・・」, 「目が」,「・・・・・」, 「ここ」,「・・・・・」, 「全」,「・・・・・」 ・・・(3) ただし、表2においてと同様に、説明の便宜のため、移
行時間Pが0の場合を示し、、"「」"内の文字列は、テ
キストデータの可聴早送り範囲を示し、"「・・・・」"
は、テキストデータのスキップ範囲の文字列を示す。
【0071】このように、音声出力処理ソフトウェア1
60により、表3において文字列として示した可聴早送
り範囲内のテキストデータは、可聴早送り速度の音声波
形データに、「・・・・・」として示したスキップ範囲
内のテキストデータは、表2に示した場合よりも高い
「ちゅるちゅる・・・・」という音質の圧縮音声波形デ
ータに変換され、出力される。なお、この条件でテキス
トデータを音声出力する時間は、約7秒ですみ、この時
間は、上記文例を早く黙読するために要する時間と同じ
か、むしろ短い。
【0072】ここまで述べたように、ユーザは、例え
ば、図4(5)に示すように、可聴速度とスキップ速度
とで交互に音声出力されるテキストデータの内容を聞
く。次に、ユーザは、図4(3)に示す聞き取り可能な
速度で音声出力される文字列の意味と、図4(4)に示
すスキップ速度で音声出力される音声の雰囲気等とに基
づいて、通常速度および可聴早送り速度で聞き直すべき
部分[例えば、図4(1)に示すテキストデータ中の
「世界なのでしょうか」および「写真や絵などの「イメ
ージ」が多く使われ」の部分の文字列]を判断し、ま
た、スキップ速度で音声出力される音声の長さから、こ
れらの部分のテキストデータにおける位置を判断する。
【0073】更にユーザは、図4(6)に示すようにテ
キストデータの音声出力を聞いている最中に、キーパッ
ド18等を操作してテキストデータ中の所望の部分[図
4において(1)を付した文字列]の大体の位置を、再
生制御部162に指定する。再生制御部162は、ユー
ザにより指定された部分のテキストデータの文字列を、
HTML解析部166〜圧縮部170を制御して通常速
度または可聴早送り速度で音声出力する。
【0074】このように、ユーザは、端末装置14のス
キップモードを利用して、あたかもテキストデータを斜
め読みするかのように概要を把握し、重要な部分のみを
聞き返してその内容を理解することができる。また、ユ
ーザは、任意の値の待ち時間M、可聴早送り速度および
スキップ速度をコンピュータ16に設定できるので、テ
キストデータの内容に応じた速度、あるいは、自分が聞
き取りやすい速度でテキストデータを音声出力し、内容
を理解することができる。
【0075】例えば、単純に一定の早い速度で、表1に
示した文例を11秒程度で音声出力しようとすると、音
声の速度を通常速度の4.2倍とする必要があり、7秒
程度で音声出力しようとすると通常速度の6.7倍とす
る必要がある。ユーザは、いくら訓練を積んでも、この
ような速度の音声の内容を聞き取ることはできない。し
かしながら、ネットワークシステム1における音声出力
方法を用いると、このような短時間でテキストデータを
読み上げるにもかかわらず、ユーザは、その内容を把握
することができる。
【0076】また、視覚障害者にとって、晴眼者が文章
を黙読する速度で文章の概要を把握することは困難であ
ったが、ネットワークシステム1における音声出力方法
によれば、視覚障害者が、あたかも文章を斜め読みする
かのような速度で文章の概要を把握することができ、し
かも、文章中の不要な部分を飛ばしつつ、重要な部分を
確実に理解することができる。
【0077】従って、ネットワークシステム1における
音声出力方法によれば、視覚障害者が文章の内容を把握
するための作業効率を大幅に向上させることができる。
例えば、ネットワークシステム1における音声出力方法
を用いると、初心者でも通常速度でテキストデータを読
み上げた場合の4倍以上の速さでテキストデータの内容
を把握でき、熟練者になると7倍以上の速さで内容を把
握することができるようになる。
【0078】また、ネットワークシステム1における音
声出力方法によれば、ユーザーインターフェース用の機
器としてキーパッド18をコンピュータ16に付加する
だけで、テキストデータを早送りモードおよびスキップ
モードの両方で音声出力することができる。従って、コ
ンピュータに慣れていないユーザにとっても、操作が非
常に容易である。
【0079】また、このように、音声の速度を頻繁に変
えてテキストデータの内容を音声出力する方法を、CD
プレーヤあるいはテープレコーダ等の機械的に記録媒体
を送る必要がある装置を用いて実現することは難しい
が、音声合成技術を応用すると、実現は非常に簡単であ
る。
【0080】なお、ネットワークシステム1における音
声出力方法は、HTMLデータに含まれるテキストデー
タの音声出力の他、例えば、ディジタルテキストを音声
出力する装置、例えば、いわゆる電子ブック等、他の装
置に応用することができる。また、ネットワークシステ
ム1における音声出力方法と、テキストデータの構文解
析技術とを組み合わせ、例えば、句読点等の他に、名詞
等の文字列を区切りデータとして用いることも可能であ
り、あるいは、ユーザが設定した語句の文字列を区切り
データとして用いることも可能である。
【0081】また、再生制御部162に対して待ち時間
Mを0秒と、倍率Nを1と設定することにより、端末装
置14を用いてテキストデータを、スキップモードに移
行しない単純な早送りモードで音声出力することもでき
る。
【0082】
【発明の効果】以上説明したように本発明にかかる音声
出力装置およびその方法によれば、テキストデータを短
時間で読み上げることと、聞き手のテキストデータの内
容把握の支援とを充分に両立させることができる。
【0083】また、本発明にかかる音声出力装置および
その方法によれば、テキストデータを短時間で読み上げ
た場合に、その時点で、テキストデータのいずれの部分
が読み上げられているかを聞き手に把握させることがで
き、しかも、テキストデータの重要な部分を聞きなおす
きっかけを聞き手に与えることができる。
【図面の簡単な説明】
【図1】本発明にかかる音声出力方法が適応されるネッ
トワークシステムの構成を例示する図である。
【図2】図1に示した音声出力処理ソフトウェアの構成
部分を示す図である。
【図3】図1に示したネットワークシステムのコンピュ
ータが実行する音声出力処理ソフトウェア(図2)の処
理内容を示すフローチャート図である。
【図4】図1に示した端末装置が出力する音声を例示す
る図である。
【符号の説明】
1・・・ネットワークシステム 10・・・WWWサーバ 12・・・通信網 14・・・端末装置 16・・・コンピュータ 160・・・音声出力処理ソフトウェア 162・・・再生制御部 164・・・ブラウザ部 166・・・HTML解析部 168・・・音声波形生成部 170・・・圧縮部 18・・・キーパッド 180・・・通常モードキー 182・・・早送りモードキー 20・・・音声出力装置
フロントページの続き (72)発明者 浅 川 智 恵 子 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 大和事業所 内 (56)参考文献 特開 昭63−220296(JP,A) 実開 昭59−160348(JP,U) (58)調査した分野(Int.Cl.7,DB名) G06F 3/16 G10L 13/04

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】所定の区切りデータで区切られたテキスト
    データを音声信号で読み上げる音声出力システムにおい
    て、 早送り速度再生を指示するための入力手段と、 前記区切りデータに基いて前記テキストデータを文字列
    データに分割する手段と、 前記早送り速度再生の指示に応答して、前記文字列デー
    タの所定の第1の範囲の部分を聞き取り可能な第1の速
    度の音声信号に変換し、第2の範囲の部分を前記第1の
    速度よりも速い第2の速度の音声信号に変換して出力す
    る音声出力手段とを有する音声出力システム。
  2. 【請求項2】前記第1の速度の音声信号が通常の読み上
    げ速度よりも速い、請求項1に記載の音声出力システ
    ム。
  3. 【請求項3】前記第1の範囲が前記区切りデータから所
    定の待ち時間Mが経過するまでの文字列データ部分に対
    応し、前記第2の範囲が残りの文字列データ部分に対応
    する、請求項1または2に記載の音声出力システム。
  4. 【請求項4】前記待ち時間Mが任意に設定可能である、
    請求項3に記載の音声出力システム。
  5. 【請求項5】所定の区切りデータで区切られたテキスト
    データを音声信号で読み上げる音声出力方法において、 入力手段で早送り速度再生を指示するステップと、 前記区切りデータに基いて前記テキストデータを文字列
    データに分割するステップと、 前記早送り速度再生の指示に応答して、前記文字列デー
    タの所定の第1の範囲の部分を聞き取り可能な第1の速
    度の音声信号に変換し、第2の範囲の部分を前記第1の
    速度よりも速い第2の速度の音声信号に変換して出力す
    るステップとを有する音声出力方法。
  6. 【請求項6】前記第1の速度の音声信号が通常の読み上
    げ速度よりも速い、請求項5に記載の音声出力方法。
  7. 【請求項7】前記第1の範囲が前記区切りデータから所
    定の待ち時間Mが経過するまでの文字列データ部分に対
    応し、前記第2の範囲が残りの文字列データ部分に対応
    する、請求項5または6に記載の音声出力方法。
  8. 【請求項8】前記待ち時間Mが任意に設定可能である、
    請求項7に記載の音声出力方法。
  9. 【請求項9】テキストデータに含まれる所定の区切りデ
    ータに基いて前記テキストデータを文字列データに分割
    するステップと、 早送り速度再生の指示に応答して、前記文字列データの
    所定の第1の範囲の部分を聞き取り可能な第1の速度の
    音声信号に変換し、第2の範囲の部分を前記第1の速度
    よりも速い第2の速度の音声信号に変換して出力するス
    テップとをコンピュータに実行させるプログラムを記録
    したコンピュータ読み取り可能な記録媒体。
  10. 【請求項10】前記第1の速度の音声信号が通常の読み
    上げ速度よりも速い、請求項9に記載の記録媒体。
  11. 【請求項11】前記第1の範囲が前記区切りデータから
    所定の待ち時間Mが経過するまでの文字列データ部分に
    対応し、前記第2の範囲が残りの文字列データ部分に対
    応する、請求項9または10に記載の記録媒体。
  12. 【請求項12】前記待ち時間Mが任意に設定可能であ
    る、請求項12に記載の記録媒体。
JP23071497A 1997-08-27 1997-08-27 音声出力システムおよびその方法 Expired - Fee Related JP3195279B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP23071497A JP3195279B2 (ja) 1997-08-27 1997-08-27 音声出力システムおよびその方法
US09/114,802 US6205427B1 (en) 1997-08-27 1998-07-13 Voice output apparatus and a method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23071497A JP3195279B2 (ja) 1997-08-27 1997-08-27 音声出力システムおよびその方法

Publications (2)

Publication Number Publication Date
JPH1173298A JPH1173298A (ja) 1999-03-16
JP3195279B2 true JP3195279B2 (ja) 2001-08-06

Family

ID=16912165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23071497A Expired - Fee Related JP3195279B2 (ja) 1997-08-27 1997-08-27 音声出力システムおよびその方法

Country Status (2)

Country Link
US (1) US6205427B1 (ja)
JP (1) JP3195279B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510674A (ja) * 1999-09-10 2003-03-18 エブリーパス・インコーポレイテッド 2次元データを標準的表示に変換する方法
AU4200600A (en) * 1999-09-16 2001-04-17 Enounce, Incorporated Method and apparatus to determine and use audience affinity and aptitude
US6978127B1 (en) * 1999-12-16 2005-12-20 Koninklijke Philips Electronics N.V. Hand-ear user interface for hand-held device
US6539406B1 (en) * 2000-02-17 2003-03-25 Conectron, Inc. Method and apparatus to create virtual back space on an electronic document page, or an electronic document element contained therein, and to access, manipulate and transfer information thereon
JP3607598B2 (ja) * 2000-11-08 2005-01-05 株式会社東芝 スキップ機能を備えた画像記録再生装置
US7020663B2 (en) * 2001-05-30 2006-03-28 George M. Hay System and method for the delivery of electronic books
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP3884951B2 (ja) * 2001-12-14 2007-02-21 キヤノン株式会社 情報処理装置及びその方法、プログラム
US20040267527A1 (en) * 2003-06-25 2004-12-30 International Business Machines Corporation Voice-to-text reduction for real time IM/chat/SMS
JP3856774B2 (ja) * 2003-08-29 2006-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声出力装置、情報入力装置、ファイル選択装置、電話機、及びそのプログラムと記録媒体
JP4743686B2 (ja) * 2005-01-19 2011-08-10 京セラ株式会社 携帯端末装置、およびその音声読み上げ方法、並びに音声読み上げプログラム
JP2007172597A (ja) * 2005-11-28 2007-07-05 Canon Inc 音声処理装置及び音声処理方法
EP1952756A1 (de) * 2007-01-31 2008-08-06 F.Hoffmann-La Roche Ag Datenverarbeitungsvorrichtung zur Verarbeitung von Messwerten von einem Blutzuckermessgerät
JP4996750B1 (ja) 2011-01-31 2012-08-08 株式会社東芝 電子機器
KR101939253B1 (ko) * 2012-05-21 2019-01-16 엘지전자 주식회사 음성 녹음 중에 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
US9095423B2 (en) * 2013-03-15 2015-08-04 OrCam Technologies, Ltd. Apparatus and method for providing failed-attempt feedback using a camera on glasses
US9620124B2 (en) 2014-02-28 2017-04-11 Comcast Cable Communications, Llc Voice enabled screen reader
US10984036B2 (en) 2016-05-03 2021-04-20 DISH Technologies L.L.C. Providing media content based on media element preferences
US11196826B2 (en) 2016-12-23 2021-12-07 DISH Technologies L.L.C. Communications channels in media systems
CN110892475A (zh) * 2017-07-19 2020-03-17 索尼公司 信息处理装置、信息处理方法和程序

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer

Also Published As

Publication number Publication date
US6205427B1 (en) 2001-03-20
JPH1173298A (ja) 1999-03-16

Similar Documents

Publication Publication Date Title
JP3195279B2 (ja) 音声出力システムおよびその方法
JP3864197B2 (ja) 音声クライアント端末装置
US8046229B2 (en) Method and apparatus for website navigation by the visually impaired
US6377925B1 (en) Electronic translator for assisting communications
US7985910B2 (en) Musical content utilizing apparatus
US20030124502A1 (en) Computer method and apparatus to digitize and simulate the classroom lecturing
US20040025111A1 (en) Reading device and method thereof using display
JP2001014319A (ja) ハイパーテキストアクセス装置
JP2004048732A (ja) マルチメディア再生装置及びその方法
US20060257827A1 (en) Method and apparatus to individualize content in an augmentative and alternative communication device
JP3623820B2 (ja) 音声処理装置
JP2005326811A (ja) 音声合成装置および音声合成方法
JP2005062420A (ja) コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP6230131B2 (ja) 教育支援システム及び端末装置
JP4520375B2 (ja) 音声操作支援装置、電子機器、画像形成装置およびプログラム
JP2007156888A (ja) 情報提示装置及び情報提示プログラム
JP4407119B2 (ja) 命令コード作成装置
JP3957798B2 (ja) カラオケシステム
JP6896828B2 (ja) 出力制御プログラム、情報処理装置及び出力制御方法
JPH02252020A (ja) 情報伝達装置
JPH10315546A (ja) 点字出力システム
JP2797643B2 (ja) カラオケ装置
JP3267193B2 (ja) 音声読み上げ装置
JP2021157813A (ja) 出力制御プログラム、情報処理装置及び出力制御方法
JP2002222186A (ja) 議事録作成装置及び方法並びにこれに利用される記憶媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees