JPH09325796A - 文書朗読装置 - Google Patents

文書朗読装置

Info

Publication number
JPH09325796A
JPH09325796A JP8143990A JP14399096A JPH09325796A JP H09325796 A JPH09325796 A JP H09325796A JP 8143990 A JP8143990 A JP 8143990A JP 14399096 A JP14399096 A JP 14399096A JP H09325796 A JPH09325796 A JP H09325796A
Authority
JP
Japan
Prior art keywords
voice
commentary
sentence
reading device
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8143990A
Other languages
English (en)
Inventor
Tetsuo Yoshida
哲雄 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8143990A priority Critical patent/JPH09325796A/ja
Publication of JPH09325796A publication Critical patent/JPH09325796A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 原文を音声によって正確にかつ確実に理解で
きると共に、効率的に聞き取ることができるようにす
る。 【解決手段】 入力された原文のテキストデータから音
声合成手段により音声出力を得る文書朗読装置である。
音声では分からない原文中の文字列に解説文を付加する
と共に、この原文と解説文の音声タイプ及び音像定位を
異ならせる。一度聞いた内容を選択的に聞き直す聞き直
し制御手段(401、402)と、朗読内容を一定単位
ごとに選択的に省略するスキップ手段(401)とを備
え、聞き取れなかった部分を聞き直し、必要がない部分
は省略する。また、囲み記事内等の原文の文書配置の変
化に伴って音声タイプ又は音像定位を変化させる。これ
により、朗読中の文章の本文に対する位置付けを認識で
き、より正確に理解できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータと
して取り込んだ文字情報を、音声合成手段により音声出
力する文書朗読装置に関するものである。
【0002】
【従来の技術】
参考文献『匂坂 芳典「音声合成のための言語処理と音
律制御」 人工知能学会誌 Vol.3 No.4 pp.431-437
1988年7月』 音声合成システムは日本語テキストデータから音声合成
する技術である。近年の音声合成技術の進歩により、こ
の音声合成システムを用いてテキストデータを音声変換
することで、任意の文章をより自然に近い音声で出力す
る文書朗読装置の実現が可能な状況になってきた。
【0003】このような文書朗読装置に用いる従来の音
声合成システムとしては、図2に示すものが一般に知ら
れている。図2は従来の音声合成システムの構成例を示
す説明図である。
【0004】この音声合成システムは、テキスト解析部
S1と音声制御情報生成部S2と音声合成パラメータ生
成部S3とから構成されている。
【0005】テキスト解析部S1においては、テキスト
データとして電子化された漢字仮名混じりの文章が入力
されると、先ず入力文章の解析が行われ、構成単語・形
態素の同定及び簡単な構文処理等がなされる。この解析
により、各単語の読み、アクセント等が読み出され、品
詞・活用、係り受け関係等の構文情報が得られる。
【0006】音声制御情報生成部S2においては、テキ
スト解析部S1でのテキスト解析結果を受け、単語の読
みに対して音韻規則が適用されて、単語の連なりによる
連濁、音便等の情報が生成され、基本アクセント等に対
して音律規則が適用されて、音韻時間長等の音声合成に
必要な制御情報が生成される。
【0007】音声合成パラメータ生成部S3において
は、音韻規則によって得られた音韻系列に従って、音声
合成単位のデータファイルから声道共振特性等を表すス
ペクトル・パラメータの時系列が得られる。また、句の
アクセントや発話境界等の情報を元に声帯の基本周波数
の時間変化パタンが生成される。そして、音声合成単位
のデータファイルから得られる音源情報と声帯の基本周
波数の時間変化パタンに基づいて、音源生成部で駆動音
源信号が生成される。生成された駆動音源信号は声道特
性を模擬するディジタルフィルタを励振する。この励振
されたディジタルフィルタにより音声波形が生成され
る。
【0008】このように、人間の朗読過程を模擬して、
電子化された漢字仮名混じりの文章から自然に近い音声
出力を得ることができる。
【0009】この音声合成システムを文書朗読装置に用
いることで、任意の文章をより自然に近い音声で出力す
ることができるようになる。
【0010】
【発明が解決しようとする課題】しかしながら、前記従
来の音声合成システムを用いた文書朗読装置では、電子
化された文章の内容をそのまま音声にするだけであるた
め、文章を音声として聞いただけでは判断がつかず、意
味が分からない場合がある。例えば、新聞記事等のよう
に、目で読むことを想定して書かれた文章が、そのまま
の内容で機械的に朗読された場合、その音声がいかに正
確かつ流暢であっても、目で見た場合と異なり、どうし
ても理解できない単語、漢字、文字、語句、熟語、用語
等の文字列や相互に区別できない文字列が存在する。具
体的な例としては、文章の前後関係からも推測不可能は
同音異義語や固有名詞の漢字等があり、このような状況
は少なからず発生する。
【0011】この結果、従来の文書朗読装置では、音声
を聞き取ることは容易であっても、聞き取った文章の内
容を理解することは容易ではないという問題点がある。
【0012】さらに、固有名詞等について常に正しい読
み方ができるようにするには、日本語単語辞書に大容量
の知識情報を登録しなければならず、装置が大型化して
しまうという問題点がある。
【0013】
【課題を解決するための手段】前記課題を解決するため
に第1の発明は、入力された原文のテキストデータを音
声出力させる文書朗読装置において、文字列を解説する
解説文が記憶された解説文記憶手段と、この解説文記憶
手段に記憶された解説文の解説対象文字列と原文とを照
合する照合手段と、この照合手段によって検出された原
文中の解説が必要な文字列に解説文を付加して音声出力
の対象とさせる解説文付加手段とを備えたことを特徴と
する。
【0014】解説文を付加することにより、原文を音声
として聞いただけでは分からない文字列を正確にかつ確
実に理解することができるようになる。
【0015】第2の発明は、前記原文を朗読する音声出
力と前記解説文を朗読する音声出力とで、音声合成特性
を変化させる音声合成手段と、音像定位特性を変化させ
る音像定位特性付与手段の一方又は両方を備えたことを
特徴とする。
【0016】原文を朗読する音声出力と解説文を朗読す
る音声出力の音声合成特性を変化させると、声質タイプ
が互いに異なったものになる。また、音像定位特性を変
化させると、原文と解説文の音声が異なった位置、方向
から聞こえる。これにより、原文と解説文とを明確に区
別することができる。
【0017】第3の発明は、前記解説文が、解説を要す
る文字列の内容に応じて複数レベルの解説内容を有し、
これらのうちの1又は複数を選択して、原文に付加する
ことを特徴とする。
【0018】聴取者の好みに合わせて解説内容のレベル
を選択することで、理解しやすくて聞きやすい文書の朗
読が可能になる。
【0019】第4の発明では、一度聞いた内容を選択的
に聞き直す聞き直し制御手段を備えたことを特徴とす
る。
【0020】よく理解できなかったり、聞き取れなかっ
た場合等において聞き直したいときは、聞き直し制御手
段によって選択的に聞き直す。これにより、より確実に
かつ正確に原文の内容を理解することができるようにな
る。
【0021】第5の発明は、音声出力する内容を一定単
位に区分し、この単位ごとに選択的に音声出力を省略し
得るスキップ手段を備えたことを特徴とする。
【0022】文書の朗読を聞いているときに、不要と思
ったり、飛ばし読みをしたい部分がある場合等には、ス
キップ手段によって、一定単位ごとに選択的に音声出力
を省略する。これにより、効率的に文書の内容を聞くこ
とができる。
【0023】第6の発明は、音声出力する内容を一定単
位に区分し、この単位ごとに選択的に音声出力を省略し
得るスキップ手段と、このスキップ手段によるスキップ
処理に際して音声によりスキップ処理をするか否かの確
認をするスキップ確認手段と、このスキップ確認手段に
よる確認動作に対して音声又はスイッチ操作によりスキ
ップ処理をするか否かを指示する応答手段とを備えたこ
とを特徴とする。
【0024】朗読途中でスキップ確認手段によってスキ
ップをするか否かの確認があると、応答手段によってス
キップ処理をするか否かを指示する。スキップ処理をす
る場合は、スキップ手段によって一定単位ごとに選択的
に音声出力を省略する。これにより、より効率的に原文
の内容を聞き取ることができる。
【0025】第7の発明は、原文入力の際に文書配置情
報を同時に入力し、文書配置の変化に伴って音声合成特
性又は音像定位特性の一方又は両方を変化させることを
特徴とする。
【0026】文書配置の変化、例えば囲みの中の文章や
図中の文章等と他の文章とで、音声合成特性又は音像定
位特性を変化させるので、朗読されている文章が本文と
異なる位置付けのものであることを認識することができ
る。これにより、原文の内容をより正確に理解すること
ができる。
【0027】
【発明の実施の形態】以下に、本発明の実施形態を添付
図面を参照しながら説明する。
【0028】[第1の実施形態]図1は本発明に係る文
書朗読装置の第1の実施形態の説明図である。
【0029】本実施形態の文書朗読装置1は主に、バッ
ファメモリ101とテキスト解析部102と音声制御情
報生成部103と音声合成部104と音像制御部105
とラウドスピーカーシステム106R,106Lと文書
属性管理部108とを備えて構成されている。
【0030】バッファメモリ101には日本語の漢字仮
名混じりの文章がテキストデータtdとして格納されて
いる。例えば、新聞紙面をOCR装置のような文書認識
装置によってテキストに変換されたデータが格納され、
テキスト解析部102に適宜出力される。
【0031】テキスト解析部102は、バッファメモリ
101からのテキストデータtdを解析して、構成単語
・形態素の同定及び簡単な構文処理等を行う。さらに、
テキスト解析部102には、後述する要解説単語辞書1
07及び解説モード設定メモリ109がそれぞれ接続さ
れ、解説が必要な単語等を検出して、解説文が付加され
るようになっている。
【0032】音声制御情報生成部103では、テキスト
解析部102からの語彙情報及び構文情報を受けて、音
韻系列及び音韻時間長等の制御情報が生成される。
【0033】音声合成部104では、音声制御情報生成
部103からの制御情報を受け、これに基づいて合成音
声データが生成されると共に、この合成音声データと同
期した文書属性境界情報が生成される。さらに、音声合
成部104は、声質タイプを切り替える機能を有し、複
数種類の声質の音声合成を可能にしている。この声質タ
イプの切り替えは、文書属性管理部108からの文書属
性データに基づいて、原文と解説文との境界で行われ
る。
【0034】音像制御部105は、音声合成部104か
らの合成音声データに基づいて、左右のラウドスピーカ
ーシステム106R,106Lを駆動する。この音像制
御部105の具体的な構成例を図3に示す。図中の30
1は音像定位特性付与部である。この音像定位特性付与
部301は、音声合成部104からの合成音声データが
入力される入力端子10から先が2系統の回路に分岐さ
れ、前記各ラウドスピーカーシステム106R,106
Lにそれぞれ接続されている。この2系統の回路はそれ
ぞれ、フィルタ12,13と分岐器14,19と前方強調
フィルタ15,20と後方強調フィルタ16,21と合成
器17,22と出力端子18,23とから構成されてい
る。各系統の前方強調フィルタ15,20及び後方強調
フィルタ16,21には選択器24が接続されている。
フィルタ12,13は音像定位の畳み込み演算を行うF
IR型のフィルタである。分岐器14,19では、フィ
ルタ12,13から出力される音響信号が分岐されて、
前方強調フィルタ15,20と後方強調フィルタ16,2
1と合成器17,22にそれぞれ出力される。前方強調
フィルタ15,20は、入力された音響信号に対してク
ロストーク成分を付加することによって音像の前方への
定位の距離感を強調して出力する。後方強調フィルタ1
6,21は前方強調フィルタ15,20と逆のフィルタ特
性を有する。合成器17,22は、分岐器14,19、前
方強調フィルタ15,20及び後方強調フィルタ16,2
1から出力される音響信号を合成し、特性付与音響信号
を出力する。選択器24は、前方強調フィルタ15,2
0又は後方強調フィルタ16,21を選択する。
【0035】各出力端子18,23には出力増幅器30
6R,306Lが接続され、これらの出力増幅器306
R,306Lが各出力端子307R,307Lを介して各
ラウドスピーカーシステム106R,106Lにそれぞ
れ接続されている。各出力増幅器306R,306L
は、出力バッファ及びディジタル・アナログ変換器(い
ずれも図示せず)を含んで構成され、各出力端子18,
23からの出力データである左及び右チャンネル用の音
声出力データがこの出力増幅器306R,306Lでア
ナログ音声信号に変換されて、各ラウドスピーカーシス
テム106R,106Lを駆動するようになっている。
【0036】選択器24には音像位置決定回路305が
接続されている。この音像位置決定回路305の音像位
置決定回路入力端子303には、音声合成部104から
の合成音声データと同期した文書属性境界情報が入力さ
れる。文書属性管理部入力端子304には、文書属性管
理部108からの属性管理情報が入力される。選択器2
4は、これらの情報を基に前方強調フィルタ15,20
と後方強調フィルタ16,21を選択的に制御する(音
像定位特性付与部301の詳細は特開平6−26139
9参照)。
【0037】図1中の文書属性管理部108は、前記テ
キスト解析部102、音声制御情報生成部103、音声
合成部104及び音像制御部105にそれぞれ接続さ
れ、文書属性の管理を行う。この文書属性管理とは、主
に原文と解説文とを区別することであり、各処理データ
に対して文書属性の対応付けを行う。即ち、各処理部1
02,103,104,105に入力したデータの文書属
性を判断して、その文書属性情報を各処理部102,1
03,104,105に出力する。各処理部102,10
3,104,105では、それぞれの部分に入力されたデ
ータを、その文書属性に応じて処理する。
【0038】要解説単語辞書107は、解説が必要な単
語、漢字、文字、語句、熟語、用語等の文字列が格納さ
れた辞書である。この要解説単語辞書107は、テキス
ト解析部102においてバッファメモリ101からのテ
キストデータtdが解析される際に、各単語等の文字列
が要解説単語辞書107と照合され、解説が必要な文字
列が検出される。要解説単語辞書107では、前記解説
が必要な文字列が下記の解説レベルに応じて区分されて
いる。
【0039】 m=0 :解説なし m=1 :耳で聞いただけでは難解な一般的ではない
専門用語等のみ解説 m=2 :一般的でない固有名詞のみ解説 m=3 :m=1とm=2の両方の解説 m=4 :比較的難解な語句全般の解説 要解説単語辞書107には、この区分に応じて、解説が
必要な文字列とそれに対応した短い解説文が登録されて
いる。例えば「河崎」という文字に対しては「カワはサ
ンズイの河と書きます。」という解説文が登録されてい
る。さらに、要解説単語辞書107には、比較的読み方
の問題の多い漢字(複数の読み方があって特定できない
漢字等)とその解説文が登録されており、テキスト解析
部102において読み方が特定できない文字等に対して
適用される。
【0040】解説モード設定メモリ109は、テキスト
解析部102において付加される解説文の解説レベルを
予め設定しておくメモリで、モード設定操作によって、
聴取者の好みのレベルに予め設定される。テキスト解析
部102では、この解説モード設定メモリ109で設定
された解説レベルの解説文が付加される。
【0041】[動作]以上のように構成された文書朗読
装置1は、次のように動作する。
【0042】OCR装置等によって新聞や書籍等の文章
が読み込まれ、テキストデータtdに変換されてバッフ
ァメモリ101に格納される。このバッファメモリ10
1に格納されたテキストデータtdはテキスト解析部1
02に入力される。このテキスト解析部102では、入
力文章の解析が行われ、構成単語・形態素の同定及び簡
単な構文処理がなされる。この解析により、各単語の読
み、アクセント等が読み出され、品詞・活用、係り受け
関係等の構文情報が得られる。これと同時に、各単語等
が要解説単語辞書107と照合され、解説が必要な文字
列が検出される。
【0043】要解説単語辞書107との照合によって、
解説文の付与が必要な単語等が検出された場合は、解説
文挿入処理がなされる。テキスト解析部102では、要
解説単語辞書107からの要解説単語検出信号を受け
て、バッファメモリ101に中断指示信号Wを送出して
テキストデータtdの読み出しを中断する。これと同時
に、要解説単語辞書107から対応する解説文データを
入力し、前記単語等に付加する。この解説文データとし
ては、解説モード設定メモリ109によって設定された
解説レベルmに応じた内容のデータが要解説単語辞書1
07から出力される。
【0044】その後、再びバッファメモリ101からテ
キストデータtdが読み出され、このデータが処理され
ると同時に要解説単語辞書107と照合され、必要な場
合には解説文挿入処理が行われる。このようにして生成
された原文及び付加解説文の語彙情報と構文情報は、音
声制御情報生成部103に入力されると共に、文書属性
管理部108にも入力されて原文と付加解説文が区別さ
れた状態で管理される。
【0045】音声制御情報生成部103では、テキスト
解析部102からの入力データ及び文書属性管理部10
8からの文書属性情報に対して音韻規則及び韻律規則が
適用されて、音韻系列すなわち音声表記データ、音韻時
間長、発話境界ポーズ長、文節アクセント、原文と解説
文の境界情報である文書属性境界等の制御情報が生成さ
れる。これらの制御情報は、原文及び解説文のデータと
共に音声合成部104へ出力される。
【0046】音声合成部104では、音韻規則によって
得られた音韻系列に従って、音声合成単位のデータファ
イルから、声道共振特性等を表すスペクトル・パラメー
タの時系列が生成される。また、句のアクセントや発話
境界等の情報を元に、声帯の基本周波数の時間変化パタ
ンが生成される。さらに、文書属性境界で原文の声質タ
イプと付加解説文の声質タイプとが切り替えられる。こ
のようにして音声合成単位のデータファイルから得られ
る音源情報と、声帯の基本周波数の時間変化パタンとに
基づいて、音源生成部(図示せず)で駆動音源信号が生
成される。この駆動音源信号によって声道特性を模擬す
るディジタルフィルタが励振されることにより、音声波
形が生成される。このようにして生成された原文朗読音
声信号及び付加解説文音声信号は音像制御部105に入
力される。
【0047】音像制御部105では、音像定位特性付与
部301に入力された原文朗読音声信号及び付加解説文
音声信号が、各ラウドスピーカーシステム106R,1
06Lに対応して、左チャンネル及び右チャンネルのス
テレオ音響信号に分けられ、それぞれに音像定位特性が
付与される。具体的には、それぞれの文書属性に応じた
音声の発生位置(ステレオ音響再生空間にいる聴取者に
とって発生音声の聞こえる方向)である音像の定位する
位置が、原文朗読音声と付加解説文音声とで区別して設
定される。
【0048】このようにして音像定位特性が付与された
原文朗読音声信号及び付加解説文音声信号によって各ラ
ウドスピーカーシステム106R,106Lが駆動され
る。これにより、例えば原文朗読音声は前方から聞こ
え、付加解説文音声は原文朗読音声と異なる声質で後方
から聞こえる。
【0049】[効果]以上のように、要解説単語辞書1
07に、耳で聞いただけでは分からない単語、漢字、文
字、語句、熟語、同音異義語、用語等や読み方が特定で
きない漢字等の解説文を登録して、対応する単語等に解
説文を付加するようにしたので、朗読の内容を全て正確
に理解することができるようになる。この結果、聴取者
にとって非常に分かりやすい文書朗読装置1を実現する
ことができるようになる。
【0050】特に、読み方が複数あって特定できない漢
字に解説文を付加するようにしたので、聴取者はその漢
字を容易に理解することができるようになる。さらに、
このような単語等の読み方の正解度を上げるために、文
章を理解して対処する機能や大容量の知識辞書を文書朗
読装置1に備える必要がなくなり、小型で簡易な文書朗
読装置1を実現することができるようになる。
【0051】また、原文朗読音声と付加解説文音声と
で、その音像位置及び声質を変えるようにしたので、こ
れらを明確に区別して認識することができるようにな
り、原文の内容を損ねることなく、朗読される原文の内
容を全て明確に理解することができるようになる。
【0052】[第2の実施形態]次に本発明の第2の実
施形態を図4に基づいて説明する。本実施形態の文書朗
読装置2は、解説文等の聞き直し及びスキップの機能を
備え、聴取者が解説文等を聞き直したい場合には再度朗
読し、聞きたくない場合にはスキップさせることができ
るようにしたものである。なお、文書朗読装置2の全体
構成は、前述した第1の実施形態の文書朗読装置1とほ
ぼ同様であるので、同一部分には同一符号を付してその
説明を省略する。
【0053】本実施形態の文書朗読装置2を第1の実施
形態の文書朗読装置1と比較した場合の構成的な特徴は
次の2点である。その1点は、聞き直し/スキップ要求
選択制御手段401、聞き直し記事/所望記事キーワー
ド入力手段402、キーワード検索手段403及び直前
テキストバッファ404を追加した点である。他の1点
は、文書属性管理部108が、原文と付加解説文との区
別以外に、見出し、囲み記事内等の原文の構成情報を扱
う点である。
【0054】バッファメモリ101では、電子化された
テキストデータtdを一時的に記憶してテキスト解析部
102に出力するが、このとき同時に構成の種類を区別
する属性指示データadが出力されるようになってい
る。ここで、構成の種類とは、OCR装置により新聞、
雑誌、書籍等を読み取った場合に、前記テキストデータ
tdと共に得られる情報であって、例えば見出し、囲み
記事内、図や表中の挿入文、章・節・段落等を区別する
文書配置情報である。この構成の種類を基準にして聞き
直しやスキップ処理が行われる。この構成の種類のデー
タは、文書属性管理部108によって管理される。この
文書属性管理部108では、構成の種類のデータは、付
加解説文と区別された状態で、文書データと対応させて
管理される。
【0055】聞き直し/スキップ要求選択制御手段40
1及び聞き直し記事/所望記事キーワード入力手段40
2は、その入力部分をスイッチ操作、ペン入力、音声入
力等で実現することができる。音声入力の場合は、例え
ば単語単位の認識が可能なレベルの単語音声認識装置に
よる音声制御インターフェースを用いることで実現が可
能である。
【0056】聞き直し/スキップ要求選択制御手段40
1はテキスト解析部102に接続され、聞き直し要求又
はスキップ要求をテキスト解析部102に出力する。こ
の聞き直し要求又はスキップ要求は、前述したように、
聞き直しスイッチ(図示せず)等を用いたり、単語音声
認識装置(図示せず)による音声制御によって行われ
る。特に、音声制御による場合には、聞き直し要求等の
ために、単語音声認識装置に「もう一度」「スキップ」
等の単語を予め登録しておく。そして、入力された音声
情報から、単語音声認識技術により最も類似度の高い登
録単語を特定し、テキスト解析部102に聞き直し要求
又はスキップ要求の制御情報を送出する。
【0057】聞き直し要求の場合は、文書属性管理部1
08で管理されている構成の種類、例えば改行によって
区切られるブロックを単位として、1つ前のブロックか
ら朗読を再開する。そして、聞き直し要求による再朗読
箇所については、要解説単語辞書107での解説レベル
の設定モードmを、解説が多くなる方向に自動的にレベ
ル変更して、理解を助けるように設定されている。
【0058】スキップ要求の場合も同様に、一定単位ご
とにスキップするように、テキスト解析部102にて処
理される。このスキップ動作のときには、例えば「スキ
ップしますか?」というスキップの希望を確認する要確
認箇所を、見出し、目次の項目、段落等の文書属性区分
境界ごとに予め設定しておく。例えば、新聞記事の場合
は各見出しや囲み記事ごとに、雑誌の場合は目次の項目
ごとに、章・節構成の書籍の場合は章ごとに、設定して
おく。
【0059】聞き直し記事/所望記事キーワード入力手
段402は、聞き直したい部分を検索するためのキーワ
ードを入力する手段である。この聞き直し記事/所望記
事キーワード入力手段402により入力されたキーワー
ドを手がかりにして、聞き直したい部分を検索し、再朗
読させる。この聞き直し記事/所望記事キーワード入力
手段402は、具体的には、キーボード、ペン入力、音
声入力等の手段で構成されている。
【0060】キーワード検索手段403は、聞き直し記
事/所望記事キーワード入力手段402によって入力さ
れたキーワードを手がかりにして聞き直したい部分を検
索する手段である。このキーワード検索手段403で
は、既に朗読されたテキストデータの中に複数のキーワ
ードがある場合には直前に位置するものが対象になる。
【0061】直前テキストバッファ404は、テキスト
解析部102に接続された一時記憶メモリであり、バッ
ファメモリ101からテキスト解析部102に入力され
たテキストデータtdが先入れ先出し方式で一時的に記
憶される。この直前テキストバッファ404に記憶され
たテキストデータtdは、聞き直し要求時に、テキスト
解析部102に読み出されて、聞き直し処理がなされ
る。これにより、バッファメモリ101を再アクセスせ
ずに、聞き直しをすることを可能にしている。
【0062】[動作]まず、OCR装置によって雑誌、
新聞、書籍等を読み取る。読み取られたデータは、文章
に関するテキストデータtdと、本文、見出し、表や図
等を区別する情報である構成の種類に関する属性指示デ
ータadとからなり、バッファメモリ101に入力され
る。バッファメモリ101内の文章に関するテキストデ
ータtdは、テキスト解析部102に入力されて、前記
第1実施形態と同様にして処理され、解説文の付加等が
行われる。
【0063】属性指示データadは、テキスト解析部1
02で処理されて、原文中の見出し、囲み記事内、目次
の項目等の文書属性区分境界が知覚され、構成の種類と
共に文書属性管理部108に、原文及び付加解説文と区
別して、格納される。さらに、文書属性区分境界情報に
基づいて、原文の中のスキップ希望の要確認箇所にスキ
ップ確認のことば「スキップしますか?」が挿入され
る。
【0064】その後、音声制御情報生成部103で制御
情報が生成され、音声合成部104で原文、付加解説文
及びスキップ確認の音声信号がその声質タイプを切り替
えた状態で生成され、音像制御部105で音像定位特性
が付与される。このようにして生成された音声信号によ
って、各ラウドスピーカーシステム106R,106L
が駆動され、例えば原文朗読音声は前方から聞こえ、付
加解説文音声は原文朗読音声と異なる声質で後方から聞
こえ、さらにスキップ確認音声は付加解説文音声及び原
文朗読音声と異なる声質で側方から聞こえるようにす
る。これにより、原文朗読音声と付加解説文音声とスキ
ップ確認音声とがそれぞれ明確に区別される。
【0065】また、囲みの中の文章や図中の単語、文章
等がある場合には、これらの文章は、原文、付加解説文
及びスキップ確認の声質及び音像位置と異なるように設
定され、各音声をそれぞれ明確に区別できるようにす
る。
【0066】一方、原文朗読音声又は付加解説文音声を
聞いているときに、よく理解できなかったり、聞き取れ
なかった場合には、聞き直し要求を行う。具体的には、
聞き直し/スキップ要求選択制御手段401に対してス
イッチ操作や音声(「もう一度」等の音声指示)によっ
て聞き直しを要求する。これにより、テキスト解析部1
02へ聞き直し制御情報が送出され、予め設定されたブ
ロック単位で、直前の段落や節の始め等から再度朗読が
開始される。なお、聞き直しの際の再朗読開始位置は、
キーワードの指定がないため、デフォルト設定となり、
直前の段落等から朗読を再開する。このとき、付加解説
文の解説レベルの設定モードは、再朗読する内容をより
よく理解できるように、解説が多くなる方向に自動的に
レベル変更される。
【0067】キーワードによる聞き直しを行う場合は、
聞き直し記事/所望記事キーワード入力手段402によ
ってキーワードを入力する。キーワード検索手段403
では、入力されたキーワードを基に検索処理が行われ
る。検索処理では、第1段階として、直前テキストバッ
ファ404を対象に検索が行われる。該当するキーワー
ドであって直前のものが見つかれば、そのキーワードを
含むブロックの始めから再朗読が行われる。
【0068】第1段階の検索でキーワードが見つからな
い場合には、第2段階として直前テキストバッファ40
4に一時記憶されたデータよりも古いテキストデータt
dをバッファメモリ101から読み込み、解析して検索
する。該当するキーワードであって直前のものが見つか
れば、そのキーワードを含むブロックの始めから再朗読
を行う。
【0069】また、スキップ要求の際には、朗読途中で
スキップ希望の要確認箇所にかかると、それまでと異な
った声質及び音像位置で「スキップしますか?」という
スキップ希望の確認の付加音声が流れる。これに対し
て、聞き直し/スキップ要求選択制御手段401により
スキップ要求を選択すると、次のブロックの始めにスキ
ップする。
【0070】[効果]以上の構成の文書朗読装置2にお
いても、前記第1実施形態の文書朗読装置1と同様の作
用、効果を奏することができる。
【0071】さらに、本実施形態の文書朗読装置2では
聞き直し機能を備えたので、よく聞き取れなかった部分
を聞き直すことができ、原文の内容をより確実にかつ正
確に理解することができるようになる。
【0072】また、キーワードを用いて聞き直す部分を
検索できるようにしたので、目で読む読書のときに行う
読み直しと同様に、理解が不十分だった場所を特定して
聞き直すことができ、原文の内容全体をより確実にかつ
正確に理解することができるようになる。さらに、キー
ワードの検索を行う場合に、検索処理の第1段階とし
て、直前テキストバッファ404を検索するようにした
ので、速やかにキーワードを見つけ出すことができ、高
速の聞き直しができるようになる。
【0073】また、原文と付加解説文とスキップ確認と
で、その声質及び音像位置を異ならせて設定したので、
各音声を明確に区別できるようになり、聴取者に原文の
構成や配置の情報を分かりやすく知覚させることができ
る。
【0074】さらに、囲みの中の文章や図中の文章等
を、他の文章と、その声質及び音像位置を異ならせたの
で、朗読されている文章が本文と異なる位置付けのもの
であることを認識することができ、原文の内容をより正
確に理解することができるようになる。
【0075】[変形例] (1) 前記実施例では、文書朗読装置1,2を複数の
処理ブロックによって構成したが、この構成は、それぞ
れの機能を有する個別の回路によって実現してもよく、
LSI(大規模集積回路)等を用いてソフトウエアによっ
て機能を分割して実現してもよい。
【0076】(2) 前記各実施形態に係る文書朗読装
置1,2は、主に視覚障害者による利用を対象にしてい
るが、視覚の利用が制限された状態や手で本等を持てな
い状態、例えば車の運転中、満員電車の車内でも利用す
ることができる。また、音声通話だけが可能な電話機等
の通信端末でも、文書データにアクセスして情報を得る
ことができる。
【0077】(3) テキストデータtdから音声を合
成する技術については、前記各実施形態に示した技術に
限らず、既存の他の技術を用いてもよいことはいうまで
もない。
【0078】(4) 原文朗読音声、付加解説文音声等
のすべてについて、その声質及び音像位置を異ならせた
が、声質のみ又は音像位置のみを異ならせるようにして
もよい。この場合にも十分に区別することができる。さ
らに、原文の内容等から他の付加説明文等と十分に区別
できる場合には、声質又は音像位置を異ならせなくても
よい。
【0079】(6) 第2の実施形態では、スキップ処
理において文書属性区分境界ごとに「スキップしますか
?」という確認のことばを挿入したが、この確認のこと
ばは挿入せずに、任意の位置でスキップ処理を行えるよ
うにしてもよい。この場合、1つのブロックの始めや途
中の位置でスキップ要求が行われると、次のブロックに
スキップすることになる。
【0080】
【発明の効果】以上、詳述したように本発明の文書朗読
装置によれば次のような効果を奏することができる。
【0081】(1) 原文中の解説が必要な文字列に解
説文を付加して音声合成を行うようにしたので、原文を
音声として聞いただけでは分からない文字列を正確にか
つ確実に理解することができるようになる。
【0082】(2) 原文を朗読する音声出力と解説文
を朗読する音声出力とで、音声合成特性又は音像定位特
性の一方又は両方を変化させるようにしたので、原文と
解説文とを、異なる声質タイプで、異なった位置、方向
から聞くことができ、原文と解説文とを明確に区別する
ことができるようになる。
【0083】(3) 解説文が、解説を要する文字列の
内容に応じて複数レベルの解説内容を有し、これらのう
ちの1又は複数を選択して、原文に付加するようにした
ので、聴取者の好みに合わせて解説内容のレベルを選択
することができ、理解しやすくて聞きやすい文書の朗読
が可能になる。
【0084】(4) 一度聞いた内容を選択的に聞き直
す聞き直し制御手段を備えたので、一度聞いた内容を選
択的に聞き直すことができ、より確実にかつ正確に原文
の内容を理解することができるようになる。
【0085】(5) 音声出力する内容を一定単位に区
分し、この単位ごとに選択的に音声出力を省略し得るス
キップ手段を備えたので、朗読内容を選択的に省略する
ことができ、朗読文書の内容を効率的に聞くことができ
るようになる。
【0086】(6) スキップ手段によるスキップ処理
をするか否かを確認するスキップ確認手段と、スキップ
処理をするか否かを指示する応答手段とを備えたので、
朗読文章を一定単位ごとに選択的に省略することがで
き、より効率的に原文の内容を聞き取ることができるよ
うになる。
【0087】(7) 原文の文書配置の変化に伴って、
音声合成特性又は音像定位特性の一方又は両方を変化さ
せることにより、原文の内容を、その文書配置の相違に
応じて音声タイプ又は音像定位の異なった音声出力とす
ることができるため、囲みの中の文章や図中の文章等が
朗読されているときに、その文章が本文と異なる位置付
けのものであることを認識することができる。これによ
り、原文の内容をより正確に理解することができる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る文書朗読装置の構
成を示すブロック図である。
【図2】従来の文書朗読装置に用いられる音声合成シス
テムの構成を示すブロック図である。
【図3】本発明に係る音像制御部を示すブロック図であ
る。
【図4】本発明の第2実施形態に係る文書朗読装置の構
成を示すブロック図である。
【符号の説明】
101:バッファメモリ、102:テキスト解析部、1
03:音声制御情報生成部、104:音声合成部、10
5:音像制御部、106R,106L:ラウンドスピー
カーシステム、107:要解説単語辞書、108:文書
属性管理部、109:解説モード設定メモリ、401:
聞き直し/スキップ要求選択制御手段、402:聞き直
し記事/所望記事キーワード入力手段、403:キーワ
ード検索手段。404:直前テキストバッファ。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力された原文のテキストデータを音声
    出力させる文書朗読装置において、 文字列を解説する解説文が記憶された解説文記憶手段
    と、 この解説文記憶手段に記憶された解説文の解説対象文字
    列と原文とを照合する照合手段と、 この照合手段によって検出された原文中の解説が必要な
    文字列に解説文を付加して音声出力の対象とさせる解説
    文付加手段とを備えたことを特徴とする文書朗読装置。
  2. 【請求項2】 請求項1に記載の文書朗読装置におい
    て、 前記原文を朗読する音声出力と前記解説文を朗読する音
    声出力とで、音声合成特性を変化させる音声合成手段
    と、音像定位特性を変化させる音像定位特性付与手段の
    一方又は両方を備えたことを特徴とする文書朗読装置。
  3. 【請求項3】 請求項1又は2に記載の文書朗読装置に
    おいて、 前記解説文が、解説を要する文字列の内容に応じて複数
    レベルの解説内容を有し、これらのうちの1又は複数を
    選択して、原文に付加することを特徴とする文書朗読装
    置。
  4. 【請求項4】 請求項1ないし3のいずれかに記載の文
    書朗読装置において、 一度聞いた内容を選択的に聞き直す聞き直し制御手段を
    備えたことを特徴とする文書朗読装置。
  5. 【請求項5】 請求項1ないし4のいずれかに記載の文
    書朗読装置において、 音声出力する内容を一定単位に区分し、この単位ごとに
    選択的に音声出力を省略し得るスキップ手段を備えたこ
    とを特徴とする文書朗読装置。
  6. 【請求項6】 請求項1ないし5のいずれかに記載の文
    書朗読装置において、 音声出力する内容を一定単位に区分し、この単位ごとに
    選択的に音声出力を省略し得るスキップ手段と、 このスキップ手段によるスキップ処理に際して音声によ
    りスキップ処理をするか否かの確認をするスキップ確認
    手段と、 このスキップ確認手段による確認動作に対して音声又は
    スイッチ操作によりスキップ処理をするか否かを指示す
    る応答手段とを備えたことを特徴とする文書朗読装置。
  7. 【請求項7】 請求項1ないし6のいずれかに記載の文
    書朗読装置において、 原文入力の際に文書配置情報を同時に入力し、文書配置
    の変化に伴って音声合成特性又は音像定位特性の一方又
    は両方を変化させることを特徴とする文書朗読装置。
JP8143990A 1996-06-06 1996-06-06 文書朗読装置 Pending JPH09325796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8143990A JPH09325796A (ja) 1996-06-06 1996-06-06 文書朗読装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8143990A JPH09325796A (ja) 1996-06-06 1996-06-06 文書朗読装置

Publications (1)

Publication Number Publication Date
JPH09325796A true JPH09325796A (ja) 1997-12-16

Family

ID=15351749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8143990A Pending JPH09325796A (ja) 1996-06-06 1996-06-06 文書朗読装置

Country Status (1)

Country Link
JP (1) JPH09325796A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191687A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 自然言語処理装置及びその方法
JPH11296340A (ja) * 1998-04-08 1999-10-29 Nippon Telegr & Teleph Corp <Ntt> 情報出力装置および方法と情報出力プログラムを記録した記録媒体
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP2000267687A (ja) * 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
JP2001042883A (ja) * 1999-07-30 2001-02-16 Nec Corp テキスト音声合成装置
JP2001331191A (ja) * 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2001343991A (ja) * 2000-05-31 2001-12-14 Sharp Corp 音声合成処理装置
JP2003099078A (ja) * 2001-09-20 2003-04-04 Seiko Epson Corp 合成音声再生方法および合成音声再生装置
JP2007071447A (ja) * 2005-09-07 2007-03-22 Matsushita Electric Ind Co Ltd 加熱装置
JP2010072641A (ja) * 2008-08-21 2010-04-02 Yamaha Corp 音声再生装置
JP2010134203A (ja) * 2008-12-04 2010-06-17 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2011090483A (ja) * 2009-10-22 2011-05-06 Fujitsu Ltd 情報処理装置およびプログラム
JP2017215971A (ja) * 2015-09-08 2017-12-07 アップル インコーポレイテッド メディア環境内におけるインテリジェント自動アシスタント
WO2024004651A1 (ja) * 2022-06-29 2024-01-04 ソニーグループ株式会社 音声再生装置、音声再生方法及び音声再生プログラム

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191687A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 自然言語処理装置及びその方法
JPH11296340A (ja) * 1998-04-08 1999-10-29 Nippon Telegr & Teleph Corp <Ntt> 情報出力装置および方法と情報出力プログラムを記録した記録媒体
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP2000267687A (ja) * 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
JP2001042883A (ja) * 1999-07-30 2001-02-16 Nec Corp テキスト音声合成装置
JP2001331191A (ja) * 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2001343991A (ja) * 2000-05-31 2001-12-14 Sharp Corp 音声合成処理装置
JP2003099078A (ja) * 2001-09-20 2003-04-04 Seiko Epson Corp 合成音声再生方法および合成音声再生装置
JP2007071447A (ja) * 2005-09-07 2007-03-22 Matsushita Electric Ind Co Ltd 加熱装置
JP2010072641A (ja) * 2008-08-21 2010-04-02 Yamaha Corp 音声再生装置
JP2010134203A (ja) * 2008-12-04 2010-06-17 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2011090483A (ja) * 2009-10-22 2011-05-06 Fujitsu Ltd 情報処理装置およびプログラム
JP2017215971A (ja) * 2015-09-08 2017-12-07 アップル インコーポレイテッド メディア環境内におけるインテリジェント自動アシスタント
JP2018502345A (ja) * 2015-09-08 2018-01-25 アップル インコーポレイテッド メディア環境内におけるインテリジェント自動アシスタント
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10379715B2 (en) 2015-09-08 2019-08-13 Apple Inc. Intelligent automated assistant in a media environment
KR20200011555A (ko) * 2015-09-08 2020-02-03 애플 인크. 미디어 환경에서 지능형 자동화 어시스턴트
US10956006B2 (en) 2015-09-08 2021-03-23 Apple Inc. Intelligent automated assistant in a media environment
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
WO2024004651A1 (ja) * 2022-06-29 2024-01-04 ソニーグループ株式会社 音声再生装置、音声再生方法及び音声再生プログラム

Similar Documents

Publication Publication Date Title
US6990451B2 (en) Method and apparatus for recording prosody for fully concatenated speech
JPH10274997A (ja) 文書読み上げ装置
JPH09325796A (ja) 文書朗読装置
JPH08212228A (ja) 要約文作成装置および要約音声作成装置
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
JP2000267687A (ja) 音声応答装置
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP3518898B2 (ja) 音声合成装置
AU769036B2 (en) Device and method for digital voice processing
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
JPH10171485A (ja) 音声合成装置
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JPH06119144A (ja) 文書読み上げ装置
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JPH0712581A (ja) 車輌用音声出力装置
KR101576683B1 (ko) 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법
JP2001350490A (ja) テキスト音声変換装置及び方法
JP2017194546A (ja) 電子機器、その制御方法および制御プログラム
JP3090238B2 (ja) 合成音声ポーズ設定方法
Das et al. Twee: A Novel Text-To-Speech Engine
KR100382827B1 (ko) 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법
JPH09325789A (ja) 音声合成装置及び音声合成装置を備えた情報検索システム
Tatham et al. Speech synthesis in dialogue systems