JPH09311775A - 音声出力装置及びその方法 - Google Patents

音声出力装置及びその方法

Info

Publication number
JPH09311775A
JPH09311775A JP8237403A JP23740396A JPH09311775A JP H09311775 A JPH09311775 A JP H09311775A JP 8237403 A JP8237403 A JP 8237403A JP 23740396 A JP23740396 A JP 23740396A JP H09311775 A JPH09311775 A JP H09311775A
Authority
JP
Japan
Prior art keywords
reference level
voice
user
document
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8237403A
Other languages
English (en)
Other versions
JP3707872B2 (ja
Inventor
Shigenobu Seto
重宣 瀬戸
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP23740396A priority Critical patent/JP3707872B2/ja
Publication of JPH09311775A publication Critical patent/JPH09311775A/ja
Application granted granted Critical
Publication of JP3707872B2 publication Critical patent/JP3707872B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書を音声で売上げる際に、その指示入力頻
度等の状況に応じて斜め読みであるかどうかを判断し、
音声合成の売上げスタイルに反映させる音声出力装置を
提供する。 【解決手段】 文書の取り込みを要求するユーザ入力部
とユーザからの要求入力の頻度からユーザによる文書の
参照レベルを判断する文書参照レベル管理部と、文書中
のテキストを解析するテキスト解析部と文書の参照レベ
ルに応じてテキスト解析結果に対して読み上げスタイル
の付与を変更した制御パラメータを生成する読み上げス
タイル制御手段と制御パラメータにしたがって読み上げ
合成音声を生成出力する音声合成部から構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書情報中のテキ
スト情報は少なくとも音声に変換して出力する音声出力
装置及びその方法に関する。
【0002】
【従来の技術】入力テキストから合成音声を得るTTS
(Text−To−Speech)変換の研究は以前か
ら行われており、例えば、文献:岩田他:“パソコン向
けソフトウェア日本語テキスト音声合成,”日本音響学
会講演論文集,2−8−13,pp.245−246
(平成5年10月)にあるようなTTSシステムは現在
までに数多く実現されている。これらのTTSシステム
では、様々な他のアプリケーションからテキストを受け
取り、合成音声で読み上げる1つのアプリケーションや
ハードウェアとして実現されている。
【0003】一方、単調でない合成音声を生成のための
知見を得るために、読み上げスタイル、即ち、アナウン
ス調や朗読調や対話調や、あるいは、早口やゆっくりと
した口調や高い声や低い声などを様々に変え、その音声
のピッチや発話速度などを変えた場合の特徴を分析した
研究が報告されている。例えば、阿部他:“異なる初話
様式の特徴分析,”電子情報通信学会技術研究報告,S
P93−7,pp.37−42(平成5年5月)や、阪
田他:“対話音声の韻律的特徴と合成,”電子情報通信
学会研究報告,SP95−17,pp.55−62(平
成7年5月)や、新居他:“発生速度を考慮したピッチ
パターン生成規則の利用,”日本音響学会講演論文集,
2−0−10,pp.238−284(平成6年3月)
などがその分析に関する研究報告である。
【0004】読み上げスタイルは、ピッチや発話速度、
パワーなどの韻律パラメータやその時間変化や、音声合
成のためのデータベース中の素片そのものやその選択規
則などに深く関係しており、読み上げスタイルを変えた
合成音声を生成することは、すなわち、これらの制御パ
ラメータを、それぞれのスタイルに対応するように祖の
値やその時間変化を制御することに対応する。
【0005】ところで、音声合成技術は、視覚障害者用
の画面読み上げソフトとしての応用システムがいくつか
開発されている。例えば、文献、斎藤:“視覚障害者支
援ソフトウェアの製作,”情報処理,Vol.36,N
o.12,pp.1116−−1121(Dec.19
95)にあるように、操作時に視覚的なフィードバック
の困難な視覚障害者が、キーの操作だけで文書を読み上
げ可能となるための工夫が行われている。具体的には、
読み上げスキップ繰り返し再生などの読み上げ方を変え
たり、画面表示メモリを監視して、画面に表示しつつあ
るテキストの読み上げやユーザのカーソル操作等によっ
てすでに表示された指定箇所のテキスト読み上げ、キー
操作による読み上げ中断、文字種や音声読み上げ操作キ
ー種に応じた文章読み、音読み、詳細(例えば「田んぼ
の田」)読みを自動変更する機能が開発されている。こ
のスキップ、繰り返し再生などの読み上げ方に関する指
示は、視覚障害者が指示を即座に出せるように、あらか
じめこれらの指示に直接対応づけられたキーをユーザが
操作することによって実現している。また、基本的に読
み上げ機能は、視覚障害者が視認できない画面上のテキ
ストの表示箇所を把握するためのものであり、読み上げ
箇所は、画面に表示しようとしているか、あるいは今、
画面中に表示されているテキストである。
【0006】
【発明が解決しようとする課題】一般に、じっくり参照
したい文書を読む際には、声に出して音読するのと同じ
程度の速度で読んでもさほどストレスを感じにくいが、
斜め読みないしは目視検索をする場合は、音読のスピー
ドよりもずっと早く目を走らせるのが普通である。した
がって、文書中のテキストを合成音声で読み上げる際に
も、斜め読みをしている文書の場合はじっくり参照した
い文書の場合よりもてきぱきとした読み上げスタイルで
読み上げる方がより自然である。
【0007】また、じっくり読む場合と斜め読みする場
合とでは、文書中のテキストのうち、どこに注意を払う
か、あるいは、どこに注目して読むかが変わってくる。
例えば、じっくり読みの場合には文書を隅々まで読む傾
向があるのが、長い文書を斜め読みする場合には文書の
大まかな構造に注意を払ったり、多くの文書を目視検索
する場合には文書のスタイルなど特定の箇所に注目す
る。
【0008】本発明では、呈示している文書のテキスト
のうちのどこを読み上げるかを、文書の参照状況に応じ
て切替える。例えば、じっくり読む場合には文書中のテ
キストを順に全て読み上げたり、斜め読みの場合にはま
ず文書構造上のキーとなるテキストを読み上げるなど、
文書の参照状況に応じて読み上げ対象となる箇所を切り
替える。
【0009】ところで、このような斜め読みやじっくり
読みといった文書の参照状況に応じて、合成音声の読み
上げスタイルや読み上げ箇所を決めるという音声読み上
げ機能の利用は、これまで行なわれてこなかった。
【0010】従来のTTSシステムにおいて、合成音声
の読み上げスタイルは、あらかじめ行っておいた発話速
度やピッチの高さなどの設定にしたがって、読み上げ対
象としてユーザが指定したテキスト全体に対して一様に
付与される。また、ユーザが読み上げスタイルの設定を
明示的に変更し、その後ユーザが設定を変更するまでの
あいだ同じ読み上げスタイルで読み上げを続ける。これ
は、単に音声合成をテキストから音声へのメディア変換
機能としてとらえ、読み上げる合成音声を生成する際に
可変なパラメータの設定をユーザに委ねているだけに過
ぎない。
【0011】視覚障害者用の画面読み上げの場合も、操
作キーにあらかじめ対応づけられた読み上げスタイルが
対応づけられていて、ユーザはカーソルによって読み上
げ箇所を指定し、読み上げ操作キーによって読み上げス
タイルを選択しているに過ぎない。
【0012】
【課題を解決するための手段】文書情報に対するユーザ
の参照時間か参照速度のうち少なくとも一方を検出し
て、参照時間か参照速度のうち少なくとも一方が短いほ
ど、ユーザの文書情報に対する参照レベルが低くなるよ
うに参照レベルを求める参照レベル判断手段と、この参
照レベル判断手段で求めた参照レベルに従って文書情報
中のテキスト情報は少なくとも音声に変換して出力する
音声合成手段を有することを特徴とするものである。
【0013】次に、参照する文書情報を表示する表示手
段を有し、この表示手段に同時に表示可能な文字数もし
くは行数もしくは表示面積と参照する文書情報中に含ま
れるテキストの文字数もしくは行数もしくは文書情報の
表示面積の比、ないしは、表示文字の大きさ、が大きい
ほど、ユーザの文書情報に対する参照レベルが低くなる
ように参照レベルを求める参照レベル判断手段と、この
参照レベル判断手段で求めた参照レベルにしたがって文
書情報中のテキスト情報は少なくとも音声に変換して出
力する音声合成手段を有することを特徴とするものであ
る。
【0014】参照する文書情報を表示する表示手段を有
し、表示手段に同時に表示可能な文字数もしくは行数も
しくは表示面積と参照する文書情報中に含まれるテキス
ト情報の文字数もしくは行数もしくは文書情報の表示面
積の比、ないしは、表示文字の大きさが小さいほど、ユ
ーザの文書情報に対する参照レベルが低くなるように参
照レベルを求める参照レベル判断手段と、この参照レベ
ル判断手段で求めた参照レベルにしたがって文書情報中
のテキスト情報は少なくとも音声に変換する音声合成手
段を有することを特徴とするものである。。
【0015】更に、ユーザからの音声を入力するユーザ
入力手段と、ユーザ入力手段で入力された音声を認識す
る音声認識手段を備え、この音声認識手段でユーザの音
声認識結果に応じて参照レベルを変化させる参照レベル
ユーザ変更手段と、この参照レベル変更手段で求めた参
照レベルにしたがって文章情報中のテスキト情報は少な
くとも音声に変換して出力する音声合成手段を有するこ
とを特徴とするものである。
【0016】次に、ユーザからの手動操作入力を受け付
けるユーザ入力手段を備え、ユーザ入力手段へのユーザ
の入力操作の持続時間もしくは頻度を検出して、これら
に応じて参照レベルを変化させる参照レベルユーザ変更
手段と、この参照レベル判断手段で求めた参照レベルに
したがって文章情報中のテキスト情報は少なくとも音声
に変換して出力する音声合成手段を有することを特徴と
するものである。
【0017】更には、ユーザからの手動操作入力を受け
付けるユーザ入力手段を複数備え、これらのうちいずれ
かのユーザ入力手段によってユーザが入力操作したかど
うかを検出して、これに応じて参照レベルを変化させる
参照レベルユーザ変更手段と、この参照レベル判断手段
で求めた参照レベルにしたがって文章情報中のテキスト
情報は少なくとも音声に変換して出力する音声合成手段
を有することを特徴とするものである。
【0018】次にユーザからの文字列入力を受け付ける
ユーザ入力手段と、ユーザ入力手段から入力された文字
列を検索対象文字列として参照する文書情報中を検索す
る文字列検索手段と、この文字列検索手段が検索対象文
字列を参照する文章情報中に検出した箇所の数が多いほ
ど参照レベルを高くなるように参照レベルを求める参照
レベル判断手段と、この参照レベル判断手段で求めた参
照レベルにしたがって文章情報中のテスキト情報は少な
くとも音声に変換して出力する音声合成手段を有するこ
とを特徴とするものである。
【0019】更にユーザからの単語入力を受け付けるユ
ーザ入力手段と、ユーザ入力手段から入力された単語の
同義語を得る同義語辞書と、同義語を検索対象文字列と
して参照する文書情報中を検索する文字列検索手段と、
この文字列検索手段が検索対象文字列を前記参照する文
章情報中に検出した箇所の数が多いほど参照レベルを高
くなるように参照レベルを求める参照レベル判断手段
と、この参照レベル判断手段で求めた参照レベルにした
がって文章情報中のテキスト情報は少なくとも音声に変
換する音声合成手段を有することを特徴とするものであ
る。
【0020】更には、文書情報に対するユーザの参照時
間か参照速度のうち少なくとも一方を検出するステップ
と、参照時間か参照速度のうち少なくとも一方が短いほ
ど、ユーザの文書情報に対する参照レベルが低くなるよ
うに参照レベルを求めるステップと、求められた参照レ
ベルに従って文書情報中のテキスト情報は少なくとも音
声に変換して出力するステップを有することを特徴とす
るものである。
【0021】
【発明の実施の形態】図1は、本実施例の音声出力装置
10の基本構成を示している。音声出力装置10は、ユ
ーザ入力部20、文書入力部30、音声合成部40、文
書参照レベル管理部50より構成される。
【0022】図2に、より詳細な構成図を示す。以下、
各装置を説明して行く。 文書入力部における処理 文書入力部30は、文書引出し部32と文書蓄積部34
とを有する。文書入力部30の扱う文書はテキストが含
まれており、文書中のテキストを音声合成部40が読上
げる。
【0023】なお、「テキスト」とは、文字あるいは記
号。数字も含む。また、「文書」とは、テキストが含ま
れていることを前提としているが、テキストだけでなく
画像やオーディオデータ等を含むマルチメディアドキュ
メントであっても構わない。また、HTML(Hype
r Text Markup Language)文書
やオンラインドキュメント(オンラインヘルプ)のよう
なハンパードキュメントであってもよい。
【0024】文書引出し部32は、文書蓄積部34から
文書を引き出す。文書蓄積部34は、ディスクやメモリ
等の記憶デバイスであって、内部に文書を蓄積してお
り、文書入力部30の内部に設けられている。また、ネ
ットワークで接続された外部に置かれ、ネットワークア
ドレスや文書探索パスによって文書が管理されている。
【0025】文書入力部30は、新しい文字の呈示を要
求するユーザ入力がユーザ入力部20から伝えられる
と、文書引き出し部32が対応する文書を文書蓄積部3
4から引き出す。
【0026】文書にアクセスするための方法は、アドレ
スやファイル探索パス等の形でユーザからの指示内容と
して指定されているとする。このような文書管理方法
は、ネットワークファイルシステムあるいはWWW(W
orld Wide Web)等で既に実現されている
方法が利用できる。
【0027】音声合成部における通常の処理 音声合成部40は、テキスト解析部42、読上げスタイ
ル管理部44、音声合成器46とを有する。
【0028】音声合成部40は、文書引出し部32が新
しい文書を引き出すと、その文書あるいは文書に含まれ
るテキストの内容はテキスト解析部42に送られ、その
解析結果は売上げスタイル管理部44へ、さらに音声合
成器46に順次送られて、テキストが合成音声で読上げ
られる。なお、「売上げ箇所」とは、音声合成器46で
文書中のテキストのうち、合成音声で読上げる部分をい
う。
【0029】テキスト解析部42から音声合成器46ま
での一連の処理は、既存のTTS(Text−To−S
peech テキストからの音声合成)の技術が利用で
きる。
【0030】例えば、佐藤他「日本語テキストからの音
声合成」研究実用化報告,Vol.32,No.11,
pp.2243−2252(1983年)はその例であ
り、具体的には、下記のようにする。
【0031】テキスト解析を行ない、ピッチやパワーや
発話速度等の韻律的な制御や音声素片の選択及び接続、
さらには音質制御等音韻的な制御を行ない、波形の生成
を行なう音声合成の処理のうち、韻律的な制御や音韻的
な制御が読上げスタイル管理部44の処理に相当し、波
形生成処理が音声合成器46で行なう処理に相当する。
【0032】さらに、詳しく説明する。 (テキスト解析部42)テキスト解析部42において文
書中のテキスト解析を行い、読みとアクセントやイント
ネーションを与える韻律制御の単位を決定する。読みや
アクセントやイントネーションを与える韻律制御の単位
は、言語解析に利用する辞書の中にある各語彙毎の読み
やアクセントに関する情報や、品詞や活用に関する文法
情報等から規則的に決定される。
【0033】(読上げスタイル管理部44)読上げスタ
イル管理部44は、アナウンス調や朗読調や対話調や、
あるいは、早口やゆっくりとした口調や高い声や低い声
といった声の調子になるように、合成音声のピッチや発
話速度やパワーといった韻律的特徴パラメータや、音質
を左右する音声素片の選択やスペクトル変形等の音韻的
特徴パラメータの制御を行なう。
【0034】なお、「読上げスタイル」とは、アナウン
ス調や朗読調や対話調、あるいは、早口やゆっくりとし
た口調、高い声や低い声といった「声の調子」を指し、
その違いは、具体的には、声のピッチや発話速度やパワ
ー等の韻律的な特徴パラメータや声質のスペクトル的な
特徴パラメータの制御を変えることにより実現する。
【0035】読上げスタイル管理部44は、指定された
読上げスタイルに対応する制御規則セットを用いて、韻
律的あるいは音韻的特徴パラメータを制御する。これら
の制御規則は、所望の読上げスタイルの自然音声の発声
データを多く集め、韻律的あるいは音韻的特徴パラメー
タの分析を行ない、パラメータの制御規則を導出する。
【0036】このような規則導出の例として、阪田他
「対話音声の韻律的特徴と合成」電子情報通信学会技術
研究報告,SP95−17,pp.55−62(平成7
年5月)が挙げられる。
【0037】具体的には、対話音声の発声データを多く
集め、声のピッチの制御パラメータを分析し、合成時に
ピッチ制御モデルに与えるパラメータとして妥当な値を
決定することにより、制御規則を導出する。これらのパ
ラメータ値は、同一の読み上げスタイルに対して文中の
位置やアクセント型の違い等に応じてそれぞれ妥当な値
を決定しておく。この対応をピッチ制御規則と呼ぶ。
【0038】これらの読上げスタイル毎に導出された規
則は、図3に示すように、売上げスタイルと組み合わせ
た表の形で読上げスタイル管理部44の中に格納され、
読上げスタイルを指定することにより対応する規則が合
成時に適用される。合成時には、入力テキストのテキス
ト解析により文中の位置やアクセント型を得て、上記規
制からそれぞれに対応するパラメータを得て合成音声の
生成が可能になる。
【0039】ここではピッチ制御について説明したが、
他のパラメータについても同様の方法が適用できる。 文書参照レベル管理における処理 文書参照レベル管理部50は、対応表52とレベル判断
部54とを有する。
【0040】文書参照レベル管理部50では、図2に示
すように、レベル判断部54において、新しい文書の呈
示の要求の入力状況を監視し、ユーザの文書の参照レベ
ルを判断する。
【0041】なお、「参照レベル」とは、文書をユーザ
がどのように読んでいるかを示す状況であり、例えば、
斜め読み、じっくり読んでいるかの状態を、段階的に表
したものである。そして、参照レベルは、今の瞬間だけ
で決定されるとは限らず、むしろ、時間的に若干の幅を
持ってとらえた文書を読んでいる状態であり、例えば、
同じ文書を呈示状態を変えず(頁送りやスクロールや拡
大をせず)にいるとか、頻繁に次々と新しい文書を呈示
するように要求しているといった状況を想定している。
【0042】参照レベルを判断する方法としては、下記
のようなものがある。 (1)第1の方法 図4の(例1)に示すように、新しい文書の呈示要求が
入力される毎に要求が入力された時刻T0を対応表52
に記憶しておく。
【0043】レベル判断部54は、新しい文書の呈示要
求が入力されると、直前まで呈示されていた文書の呈示
を要求した時刻T1との差を調べ、その時間差T0−T
1がある閾値Tthよりも長ければじっくりと参照して
いると判断し、逆に短ければ斜め読みしていると判断す
る。
【0044】この処理のフローを図5に示す。図5にお
いて、ステップ11からステップ14の流れはテキスト
からの音声合成を行なう処理であり、ステップ21から
ステップ24の流れは文書参照レベルを決定する処理で
ある。この場合、ステップ231あるいはステップ23
2における文書参照レベルの決定処理は、ステップ13
における文書の参照レベルに応じた売上げスタイルの変
更処理よりも先に行なう必要があるが、それ以外は、ス
テップ11からステップ14までの処理の流れとステッ
プ21からステップ24の処理の流れは並行に処理して
よい。
【0045】(2)第2の方法 音声合成は比較的処理時間がかかることが多いため、対
照となるテキスト全体を一度に処理せずに、句読点や構
文上の境界等で切れ目を設定し、切れ目までのテキスト
を一回の処理単位として音声合成することがある。図6
にその場合の処理を示す。
【0046】図6におけるテキスト解析処理(ステップ
12)では、解析の最後の段階で切れ目を見つけるため
の処理(ステップ122)を行なう。ステップ122か
ら参照レベルに対応した読上げスタイルによる制御パラ
メータ生成処理(ステップ13)及び制御パラメータに
したがった音声合成処理(ステップ14)までを、テキ
スト全体の処理が終わるまで繰り返し処理する。
【0047】(3)第3の方法 また、これらのような直前の文書呈示要求からの時間差
に注目する方法だけでなく、文書の呈示要求の単位時間
あたりの入力回数等で得た入力頻度に対して同様にある
閾値を設定して斜め読みをしているかじっくり読んでい
るかを判断してもよい。
【0048】(4)第4の方法 図4の(例2)に示すように、時間経過に重みづけをし
て足し合わせたパラメータpをある閾値Pthと比較し
て判断してよい。
【0049】この場合、これらのユーザ入力部20のイ
ンタフェースに対するユーザの操作開始時刻と操作終了
時刻を検知しその時間差からユーザの操作持続時間を求
め、その値が閾値を越えた場合に、その文書に対する参
照レベルを低くするように判断してもよい。これはユー
ザ入力部20のインタフェースに対する継続的な操作を
文書の拾い読みないしは早読みを要求するユーザ入力と
判断して、参照レベルを低くすることに相当する。
【0050】また逆に、ユーザの操作持続時間を求め、
その値が閾値を越えた場合に、その文書に対する参照レ
ベルを高くするように判断してもよい。これは、ユーザ
入力部20のインタフェースに対する継続的な操作を文
書の精読を要求するユーザ入力と判断して、参照レベル
を高くすることに相当する。
【0051】さらに、ユーザの操作持続時間のほか、ユ
ーザ入力部20のインタフェースに対するユーザの操作
の単位時間当たりの頻度に対する閾値を設定し、ユーザ
操作の頻度が閾値を越えるか否かに応じて参照レベルを
設定してもよい。
【0052】また、ユーザ入力部20がインタフェース
を複数個持つ場合には、それぞれユーザの「精読」「拾
い読み」「早読み」の要求として判断して、対応する参
照レベルを設定してもよい。
【0053】(5)第5の方法 文書参照レベルは、上記のように自動的に判断する以外
に、ユーザが直接に入力することによって変更してもよ
い。例えば、斜め読みやじっくり読みといった切替えを
行なうボタンやスイッチをユーザ入力部20のインタフ
ェースとして利用して、ユーザの操作によって文書参照
レベルを切り替えさせる。
【0054】また、図7に示すインタフェースのように
じっくり読んでいる状況から斜め読み状況までの間に中
間的なレベルの状況を設けて、それをスライダーでユー
ザにレベル調整させてもよい。図7の(a)は、スライ
ダにより文書参照レベルを設定させるインタフェースで
の説明図であり、図7の(b)は、ボタンにより文書参
照レベルを設定させるインタフェースの説明図である。
【0055】また、ユーザ入力部20のインタフェース
として音声認識部を有し、例えば「詳細」「詳しく」
「え?」などの音声認識結果が得られた場合に、その文
書に対する参照レベルを高くするように判断し、「スキ
ップ」「飛ばす」などの音声認識結果が得られた場合
に、その文書に対する参照レベルを低くするように判断
してもよい。
【0056】音声合成部における文書参照レベルによる
処理 このような文書参照レベルを反映して、音声合成部40
における読上げスタイル管理部44ではそれぞれの文書
参照レベルに対応する制御規則セットを用いて制御パラ
メータ系列を生成する。
【0057】例えば、文書参照レベルが斜め読みと判断
されている場合は、発話速度を速める制御規制セットを
用いたり、ピッチの上げ下げの幅を小さくする制御規制
セットを用いて、合成音声を生成する。逆に、じっくり
と読んでいると判断される場合は、ピッチやパワーの上
げ下げの幅を大きくする制御規制セットを用いて合成音
声を生成する。もちろん、この例の通りだけではなく、
斜め読みと判断される場合にはピッチやパワーの上げ下
げの幅を大きく、逆にじっくり読んでいると判断される
場合にはピッチやパワーの上げ下げ幅を小さくする制御
規制セットを用いて合成音声を生成してもよい。
【0058】図3に、このような読上げスタイル管理部
44における処理を、文書参照レベルと読上げスタイル
の対応表及び読上げスタイルと制御規制セットの対応表
によって実現する例を示す。
【0059】図8のフローチャートに示すように、音声
合成部40におけるテキスト解析部42では、言語解析
時に利用する辞書の品詞や活用等の文法情報等を用い
て、情報量の少ない語かどうかを判定することができ
る。この例では、自立語であるか付属語であるかを分類
して、自立語であれば情報量が多い語、付属語であれば
情報量が少ない語であると判定する。また、副詞的に用
いられる名詞や、代名詞等、自立語であるもののその語
自体の持つ意味が弱い場合は、情報量が少ない語である
と判定してもよい。
【0060】情報量が少ない語であると判定された場合
は、図9のフローチャートに示すように、売上げスタイ
ル管理部44において、発話速度を速めるように売上げ
スタイルを変更し、それにしたがった合成音声を生成す
る。あるいは、テキスト解析部42において、重要でな
い語を除いた句の連鎖に変えたものに対して、読みとア
クセントやイントネーションを与える韻律制御の単位を
決定し、この合成音声を生成してもよい。
【0061】音声合成部40のテキスト解析部42にお
いて、HTMLやSGML、TeXのような構造化タグ
の埋められた文書の構造解析を行なうことにより、文書
中のテキストの構造が得ることができる。これは構造化
のためのタグを検索することにより容易に構造が得られ
る。この場合、文書参照レベル管理部50で管理してい
る文書参照レベルに応じて、テキストの読上げる箇所を
変えることが可能になる。
【0062】例えば、図10のフローチャートに示すよ
うに、文書参照レベルが斜め読みの場合には、構造上の
上位のテキストから順次読上げ、文の構造を音声で呈示
することが可能になる。
【0063】また、このような構造化されたテキストを
読上げる場合、例えば、章タイトルを読上げる場合、ス
クロール方向の先にある章タイトルを順次読上げ、章タ
イトルを読上げている際にユーザ入力部20から指示入
力があると、その章のテキストが見えるように表示画面
上でジャンプしたり、あるいはその章の下位構造にあた
る節のテキストを読上げることができる。
【0064】なお、上記処理をFDやCD−ROM等の
記録媒体に記憶させておき、音声合成装置を有するコン
ピュータにインストールして、上記処理をこのコンピュ
ータに実行させてもよい。
【0065】第2の実施例 第2の実施例の音声出力装置100を図11に示す。第
1の実施例の音声出力装置10と異なる構成は、ユーザ
に呈示する文書呈示部60を加えることにある。この文
書呈示部60は文書引出し部32から受け取った文書を
呈示する。
【0066】「呈示」とは、ディスプレイを用いた視覚
的表示を基本とするが、視覚的なディスプレイに限定す
るものではない。例えば、オーディオデータを含む場合
はその再生出力も呈示の一種とみなす。
【0067】「呈示状態」とは、文書内容をユーザに出
力している状態。視覚的にどのくらいの大きさに表示し
ているとか、文書全体のうちのどの部分を表示してい
て、どの部分が表示されずに隠れているといった(今の
瞬間における)表示状態。オーディオ出力の音量や全体
でどれだけの長さのオーディオデータのうちどこまで再
生しているといった(今の瞬間における)再生状態をい
う。
【0068】文書呈示部60は、ディスプレイのような
視覚的な出力手段を持つ場合、ユーザの指示に応じて拡
大や縮小等の呈示状態を変えることができる。また、文
書の大きさがディスプレイの大きさに収まらない状態は
ページめくりやスクロール等を行なうことができる。こ
れらの呈示状態の変更はユーザ入力部20を介して行な
われる。
【0069】文書呈示部60が、マルチメディア文書の
オーディオデータを再生する場合は、このような呈示状
態の変更は、音量の調整や巻戻しや早送りや中断等に相
当する。
【0070】ユーザ入力部20は、例えば、キーあるい
はマウスやペン、タッチパネル等のポインティング機能
を持つデバイスをディスプレイと組み合わせたタブレッ
トのようなデバイスとしてもよい。あるいはスイッチボ
ダンあるいはダイヤル等のレベル設定可能なデバイスと
して実装してもよい。
【0071】本発明であると、ユーザが文書を斜め読
み、または、精読しているか等のユーザの関心度に応じ
て合成音声の読上げスタイルを変化させて出力すること
ができる。
【0072】このように文書呈示部60を持つ場合、拡
大や縮小、スクロール等の文書の呈示状態の変更を要求
するユーザからの入力の頻度を調べて、入力頻度が高け
れば同じ文書を丁寧に参照しているとみなし、じっくり
と読んでいると判断することもできる。あるいは、スク
ロールや頁めくり等の文書の呈示状態のへ変更を要求す
るユーザからの入力の頻度を同様に調べて、入力頻度が
高ければ、斜め読みしていると判断できる。このような
入力の頻度や時刻のチェックは、図2に示した方法と同
様に、ユーザ入力部20へのユーザからの入力された時
刻を記録する対応表を利用して、図11のように行なう
ことができる。
【0073】なお、上記処理をFDやCD−ROM等の
記憶媒体に記憶させておき、音声合成装置を有するコン
ピュータにインストールして、上記処理をこのコンピュ
ータに実行させてもよい。 第3の実施例 第3の実施例の音声出力装置200を図12に示す。
【0074】この音声出力装置200は、文書引出し部
32が新たに呈示するために文書の引出しをしている際
の文書データの流量について文書参照レベル管理部50
がチェックし、単位時間あたりの流量が多ければ飛ばし
読みしていると判断することもできる。
【0075】なお、上記処理をFDやCD−ROM等の
記憶媒体に記憶させておき、音声合成装置を有するコン
ピュータにインストールして、上記処理をこのコンピュ
ータに実行させてもよい。
【0076】
【発明の効果】本発明により、文書ブラウザへのユーザ
の操作から、じっくり読んだり斜め読みしているという
状況に適した読み上げスタイルを自動的に切り替える。
また、斜め読み時の合成音声の発話速度を変えることに
より、斜め読みをスピーディに行なえる。また、斜め読
み時に、ピッチ制御の話調成分を大きくしたりベースラ
インを高くとることにより声の高い読み上げを行なうこ
とにより、文書を視覚的に確認しなくても、ブラウジン
グモードにあるかどうかを耳で判断できる。
【0077】さらに、文書の構造解析を行って文書中の
テキストの構造を調べ、斜め読みと判断された時には、
画面に表示しきれなかった文書中のテキストの章タイト
ルとか節タイトルなどの階層上の上位のテキストを順次
読み上げ、画面を確認しなくても音声で文構造を示すこ
とができる。
【図面の簡単な説明】
【図1】第1の実施例の音声出力装置のブロック図であ
る。
【図2】第1の実施例の音声出力装置の詳細なブロック
図である。
【図3】読上げスタイル管理部での処理図である。
【図4】レベル判断部における文書参照レベルの判断を
示す図である。
【図5】ユーザによる新しい文書の呈示要求の入力時刻
の間隔からの文書参照レベルの決定のフローチャートで
ある。
【図6】ユーザによる新しい文書の呈示要求の入力時刻
の間隔からの文書参照レベルの決定のフローチャートで
ある。
【図7】(a)は、スライダにより文書参照レベルを設
定させるインタフェースでの説明図であり、(b)は、
ボタンにより文書参照レベルを設定させるインタフェー
スの説明図であり、
【図8】品詞と情報量の対応テーブルを用いた売上げテ
キスト中の語の情報量判定を示す図である。
【図9】売上げテキスト中の語の情報量の判定結果を用
いた読上げのフローチャートである。
【図10】文書参照レベルに応じた構造化文書に対する
読上げ箇所のフローチャートである。
【図11】第2の実施例の音声出力装置の詳細なブロッ
ク図である。
【図12】第3の実施例の音声出力装置の詳細なブロッ
ク図である。
【符号の説明】
20…ユーザ入力部 30…文書入力部 32…文書引出し部 34…文書蓄積部 42…テキスト解析部 44…売上げスタイル管理部 46…音声合成器 50…文書参照レベル管理部 52…対応表 54…レベル判断部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】文書情報に対するユーザの参照時間か参照
    速度のうち少なくとも一方を検出して、前記参照時間か
    参照速度のうち少なくとも一方が短いほど、前記ユーザ
    の前記文書情報に対する参照レベルが低くなるように前
    記参照レベルを求める参照レベル判断手段と、 この参照レベル判断手段で求めた参照レベルに従って前
    記文書情報中のテキスト情報は少なくとも音声に変換し
    て出力する音声合成手段を有することを特徴とする音声
    合成装置。
  2. 【請求項2】参照する文書情報を表示する表示手段を有
    し、 この表示手段に同時に表示可能な文字数もしくは行数も
    しくは表示面積と参照する文書情報中に含まれるテキス
    トの文字数もしくは行数もしくは文書情報の表示面積の
    比、ないしは、表示文字の大きさ、が大きいほど、 前記ユーザの前記文書情報に対する参照レベルが低くな
    るように参照レベルを求める参照レベル判断手段と、 この参照レベル判断手段で求めた参照レベルにしたがっ
    て前記文章情報中のテキスト情報は少なくとも音声に変
    換して出力する音声合成手段を有することを特徴とする
    音声合成装置。
  3. 【請求項3】参照する文書情報を表示する表示手段を有
    し、 表示手段に同時に表示可能な文字数もしくは行数もしく
    は表示面積と参照する文書情報中に含まれるテキスト情
    報の文字数もしくは行数もしくは文書情報の表示面積の
    比、ないしは表示文字の大きさが小さいほど、 前記ユーザの前記文書情報に対する参照レベルが低くな
    るように参照レベルを求める参照レベル判断手段と、 この参照レベル判断手段で求めた参照レベルにしたがっ
    て前記文書情報中のテキスト情報は少なくとも音声に変
    換する音声合成手段を有することを特徴とする音声合成
    装置。
  4. 【請求項4】ユーザからの音声を入力するユーザ入力手
    段と、前記ユーザ入力手段で入力された前記音声を認識
    する音声認識手段を備え、 この音声認識手段で前記ユーザの音声認識結果に応じて
    参照レベルを変化させる参照レベルユーザ変更手段と、 この参照レベル変更手段で求めた参照レベルにしたがっ
    て前記文章情報中のテスキト情報は少なくとも音声に変
    換して出力する音声合成手段を有することを特徴とする
    音声出力装置。
  5. 【請求項5】ユーザからの手動操作入力を受け付けるユ
    ーザ入力手段を備え、 ユーザ入力手段への前記ユーザの入力操作の持続時間も
    しくは頻度を検出して、これらに応じて参照レベルを変
    化させる参照レベルユーザ変更手段とこの参照レベル判
    断手段で求めた参照レベルにしたがって前記文章情報中
    のテキスト情報は少なくとも音声に変換して出力する音
    声合成手段を有することを特徴とする音声出力装置。
  6. 【請求項6】ユーザからの手動操作入力を受け付けるユ
    ーザ入力手段を複数備え、 これらのうちいずれかのユーザ入力手段によって前記ユ
    ーザが入力操作したかどうかを検出して、これに応じて
    参照レベルを変化させる参照レベルユーザ変更手段と、 この参照レベル判断手段で求めた参照レベルにしたがっ
    て前記文章情報中のテキスト情報は少なくとも音声に変
    換して出力する音声合成手段を有することを特徴とする
    音声出力装置。
  7. 【請求項7】ユーザからの文字列入力を受け付けるユー
    ザ入力手段と、 ユーザ入力手段から入力された文字列を検索対象文字列
    として参照する文書情報中を検索する文字列検索手段
    と、 この文字列検索手段が前記検索対象文字列を前記参照す
    る文章情報中に検出した箇所の数が多いほど参照レベル
    を高くなるように参照レベルを求める参照レベル判断手
    段と、 この参照レベル判断手段で求めた参照レベルにしたがっ
    て前記文章情報中のテスキト情報は少なくとも音声に変
    換して出力する音声合成手段を有することを特徴とする
    音声合成装置。
  8. 【請求項8】ユーザからの単語入力を受け付けるユーザ
    入力手段と、 ユーザ入力手段から入力された単語の同義語を得る同義
    語辞書と、 前記同義語を検索対象文字列として参照する文書情報中
    を検索する文字列検索手段と、 この文字列検索手段が前記検索対象文字列を前記参照す
    る文章情報中に検出した箇所の数が多いほど参照レベル
    を高くなるように参照レベルを求める参照レベル判断手
    段と、 この参照レベル判断手段で求めた参照レベルにしたがっ
    て前記文章情報中のテキスト情報は少なくとも音声に変
    換する音声合成手段を有することを特徴とする音声出力
    装置。
  9. 【請求項9】文書情報に対するユーザの参照時間か参照
    速度のうち少なくとも一方を検出するステップと、前記
    参照時間か参照速度のうち少なくとも一方が短いほど、
    前記ユーザの前記文書情報に対する参照レベルが低くな
    るように前記参照レベルを求めるステップと、 求められた前記参照レベルに従って前記文書情報中のテ
    キスト情報は少なくとも音声に変換して出力するステッ
    プを有することを特徴とする音声合成方法。
JP23740396A 1996-03-18 1996-09-09 音声出力装置及びその方法 Expired - Fee Related JP3707872B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23740396A JP3707872B2 (ja) 1996-03-18 1996-09-09 音声出力装置及びその方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6088796 1996-03-18
JP8-60887 1996-03-18
JP23740396A JP3707872B2 (ja) 1996-03-18 1996-09-09 音声出力装置及びその方法

Publications (2)

Publication Number Publication Date
JPH09311775A true JPH09311775A (ja) 1997-12-02
JP3707872B2 JP3707872B2 (ja) 2005-10-19

Family

ID=26401945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23740396A Expired - Fee Related JP3707872B2 (ja) 1996-03-18 1996-09-09 音声出力装置及びその方法

Country Status (1)

Country Link
JP (1) JP3707872B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510625A (ja) * 1998-10-09 2003-03-18 ヘジェナ, ドナルド ジェイ. ジュニア リスナ関心によりフィルタリングされた創作物を準備する方法および装置
WO2003052370A1 (en) * 2001-12-14 2003-06-26 Canon Kabushiki Kaisha Information processing apparatus and method, and program
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
JP2016027415A (ja) * 2015-09-15 2016-02-18 株式会社東芝 文書読み上げ支援装置、方法及びプログラム
JPWO2014069220A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 再生装置、設定装置、再生方法およびプログラム
CN108847215B (zh) * 2018-08-29 2020-07-17 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184772A (ja) * 1984-10-03 1986-04-30 Hitachi Ltd 音声タイプライタ
JPS63231493A (ja) * 1987-03-20 1988-09-27 三洋電機株式会社 音声規則合成装置を用いた文章読み上げ方法
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
JPH05265695A (ja) * 1991-08-29 1993-10-15 Philips Gloeilampenfab:Nv ユーザインタフェース手段を有する装置
JPH06309359A (ja) * 1991-09-24 1994-11-04 Hitachi Maxell Ltd 携帯形電子読書装置
JPH07210573A (ja) * 1993-12-24 1995-08-11 Kano Densan Hongkong Yugenkoshi 情報検索装置及びその制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184772A (ja) * 1984-10-03 1986-04-30 Hitachi Ltd 音声タイプライタ
JPS63231493A (ja) * 1987-03-20 1988-09-27 三洋電機株式会社 音声規則合成装置を用いた文章読み上げ方法
JPH05265695A (ja) * 1991-08-29 1993-10-15 Philips Gloeilampenfab:Nv ユーザインタフェース手段を有する装置
JPH06309359A (ja) * 1991-09-24 1994-11-04 Hitachi Maxell Ltd 携帯形電子読書装置
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
JPH07210573A (ja) * 1993-12-24 1995-08-11 Kano Densan Hongkong Yugenkoshi 情報検索装置及びその制御方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510625A (ja) * 1998-10-09 2003-03-18 ヘジェナ, ドナルド ジェイ. ジュニア リスナ関心によりフィルタリングされた創作物を準備する方法および装置
WO2003052370A1 (en) * 2001-12-14 2003-06-26 Canon Kabushiki Kaisha Information processing apparatus and method, and program
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
JPWO2014069220A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 再生装置、設定装置、再生方法およびプログラム
JP2016027415A (ja) * 2015-09-15 2016-02-18 株式会社東芝 文書読み上げ支援装置、方法及びプログラム
CN108847215B (zh) * 2018-08-29 2020-07-17 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置

Also Published As

Publication number Publication date
JP3707872B2 (ja) 2005-10-19

Similar Documents

Publication Publication Date Title
US5850629A (en) User interface controller for text-to-speech synthesizer
US5983184A (en) Hyper text control through voice synthesis
EP1096472B1 (en) Audio playback of a multi-source written document
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
KR100590553B1 (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
JP2001014306A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2001209662A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JPH10274997A (ja) 文書読み上げ装置
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
JPH10207685A (ja) ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法
JPH07219576A (ja) 音声合成システム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2002197118A (ja) 情報アクセス方法、情報アクセスシステムおよび記録媒体
US7373299B2 (en) Variable voice rate apparatus and variable voice rate method
JP3707872B2 (ja) 音声出力装置及びその方法
JP2007257341A (ja) 音声データ再生装置および音声データ再生装置のデータ表示方法
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
US20050187772A1 (en) Systems and methods for synthesizing speech using discourse function level prosodic features
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041005

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees