JP2004240217A

JP2004240217A - 文書／音声変換装置および文書／音声変換方法

Info

Publication number: JP2004240217A
Application number: JP2003030063A
Authority: JP
Inventors: Hiroshi Ishida; 寛石田; Takahiro Asai; 貴浩浅井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-02-06
Filing date: 2003-02-06
Publication date: 2004-08-26

Abstract

【課題】読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができる文書／音声変換装置を提供する。
【解決手段】文書／音声変換装置１は、音声読み上げ用に構造化した文書を受け取る文字情報入力部１１と、文字情報入力部により受け取った文書を音声情報に変換する読み上げ処理部１２１と、読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部１３と、変換処理部からの音声信号を入力して音声を出力する音声情報出力部１４と、音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部１６と、割込み受付け部が前記割込みを受け付けたときは、音声情報の文書の所定部分の読み上げ直しを行う繰返し処理部１２２とを備えたことを特徴とする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ＶｏｉｃｅＸＭＬやＨＴＭＬ等の、文字情報を構造化して記述した文書を解釈し、その解釈結果を音声合成技術により音声化する文書／音声変換装置および文書／音声変換方法に関する。
【０００２】
【従来の技術】
従来、ＷｏｒｌｄＷｉｄｅＷｅｂに接続する機能を持たない通常の電話機からインターネットにアクセスした通話者に、文字情報を音声として提供する技術や、無人の電話応答装置において文字情報を音声情報に変換して通話者に提供する技術が知られている。
【０００３】
この種の技術は、文章等の文書の読上げを行うものである。聴解性を向上させる文書の読み上げ方式として、ＨＴＭＬのように構造化された文書の構造を捉え、その構造をもとに、文書中の構造の区切りごとにランダムアクセスする方式（特許文献１）、通常の文書に下線や太字と言った文字属性を付加し、その属性ごとに音色を変えて読み上げる方式（特許文献２）等がある。
【０００４】
また、ＶｏｉｃｅＸＭＬという構造化された文書を受け取ってこれを解釈し、音声合成技術を用いて音声情報に変換するボイスブラウザと称されるソフトウェアも知られている。このソフトウェアでは、ＶｏｉｃｅＸＭＬを冒頭から順に解釈しながら音声に変換していく。
【０００５】
上記の従来技術は文書の構造等の情報を元に聴解性を向上させるものであり、所望の情報に辿り着くことを目指したものではなく、与えられた情報の理解を助けることに主眼を置いたものである。
【０００６】
【特許文献１】
特開平１１−５２９７３
【０００７】
【特許文献２】
特開平８−２６３２６０
【０００８】
【発明が解決しようとする課題】
ところで、例えば、ウェブブラウザ上で、天気予報情報の音声の聴取している途中で目的とする地域（例えば自分の居住している地域）の情報を聞き逃したときや、株価を読み上げている音声を聴取している場合に目的とする銘柄の情報を聞き逃したときは、一番最初から音声出力をし直さなければならない。
【０００９】
本発明の目的は、読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができる文書／音声変換装置および文書／音声変換方法を提供することにある。
【００１０】
本発明の他の目的は、読み上げられる情報のうち注意を喚起したい部分を、繰り返し再現することができる文書／音声変換装置および文書／音声変換方法を提供することにある。
【００１１】
本発明のさらに他の目的は、読み上げられる情報のうち必要な部分のみを音声出力することができる文書／音声変換装置および文書／音声変換方法を提供することにある。
【００１２】
【課題を解決するための手段】
本発明の文書／音声変換装置の第１態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部と、前記割込み受付け部が前記割込みを受け付けたときは、前記読み上げ処理部は、前記音声情報の前記文書の所定部分（一部または全部）の読み上げ直しを行うことを特徴とする。
【００１３】
第１態様の文書／音声変換装置では、所望の情報を聞き逃してしまったときに、簡単に聞き逃した部分を聞き返せるようにすることにより、聞きなおす際の手間や時間を省くことができる。特に、第１態様の文書／音声変換装置では、簡単な操作で聞き逃した部分を聞き返せるようになり、聞きなおす際の手間や時間を省くことができる。
【００１４】
本発明の文書／音声変換装置の第２態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部により受け取った前記文書を音声情報Ｖに変換する読み上げ処理部と、前記文字情報入力部が前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を取得する繰返し指定取得部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、前記繰返し指定取得部が前記繰返し読み上げ指定を受け付けたときは、前記音声情報の前記文書の所定部分の読み上げ直しを行う繰返し処理部とを備えたことを特徴とする。
【００１５】
第２態様の文書／音声変換装置では、情報を提供する側が重要だと判断した部分に何らかの印をつけておいて重要な情報を、繰り返し音声出力することで、聞き逃しを避けることができる。
【００１６】
本発明の文書／音声変換装置の第３態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部が受け取った前記文書を蓄積する記憶手段と、前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更する蓄積／読み出し処理部と、前記蓄積／読み出し処理部から受け取った変更後の文書を音声情報に変換する読み上げ処理部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部とを備えたことを特徴とする。
【００１７】
第３態様の文書／音声変換装置では、前記文書が付帯情報と内容を持ったコンテンツの一覧であり、各コンテンツの付帯情報または内容の一部を前記記憶装置に蓄えることができる。
【００１８】
第３態様の文書／音声変換装置では、前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ順の並び替えを行う並び替え処理機能を有することができる。これにより、一覧に含まれる各項目の情報を用いて、並び替えや検索ができるようにでき、所望の情報が探しやすくなる。
【００１９】
第３態様の文書／音声変換装置では、前記蓄積／読み出し処理部１２３は、前記コンテンツの前記付帯情報または内容の一部について、読み上げるか否かの選択を行う読上げ選択処理機能を有することができる。これにより、一覧に含まれる各項目を番号で並び替えたり、五十音順で並び替えたりすることにより所望の情報を探しやすくすることである。
【００２０】
第３態様の文書／音声変換装置では、前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ方を変える読み分け処理機能を有することができる。これにより、一覧に含まれる各項目を予めある条件に沿って取捨選択しておくことができ、所望の情報を探しやすくなる。
【００２１】
第３態様の文書／音声変換装置では、前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げるか否かを決定するカテゴリ別読み上げ処理機能を有することができる。これにより、一覧に含まれている各項目の情報の中で、所望の情報がどれかを判断しやすくなる。
【００２２】
第３態様の文書／音声変換装置では、読み上げるべきカテゴリか否かがユーザにより指定されるようにできる。分類ごとに読み上げる項目を取捨選択できるので、所望の情報が探しやすくなる。
【００２３】
第３態様の文書／音声変換装置では、前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げ方を変更するカテゴリ別読み分け処理機能を有することができる。これにより、分類ごとに読み上げる項目を取捨選択することで、所望の情報が探しやすくなる。
【００２４】
第３態様の文書／音声変換装置では、前記読み上げ方の変更および／または前記読み上げ方の内容がユーザにより指定されることを特徴とする。特に、一覧に含まれている各項目を分類した際に、分類ごとに読み上げる際の声色や早さを異ならせることで、現在読み上げている情報がどの分類に属するかを判断しやすくなる。
【００２５】
第１から第３態様の文書／音声変換装置では、前記文書は、電子文書とすることができる。
【００２６】
本発明の文書／音声変換方法の第１態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を音声情報に変換し、前記音声情報を音声信号に変換し、前記音声信号を音声出力するもので、前記音声出力の最中に、特定の割込みを受け、前記音声情報の前記文書の所定部分（一部または全部）の読み上げ直しを行うことを特徴とする。
【００２７】
本発明の文書／音声変換方法の第２態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を音声情報に変換し、前記音声情報を音声信号に変換するもので、前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を受け付け、前記音声情報の前記文書ＴＩの所定部分の読み上げ直しを行うことを特徴とする。
【００２８】
本発明の文書／音声変換方法の第３態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を記憶手段に蓄積するもので、前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更し、前記変更後の文書を音声情報に変換し、前記音声情報を音声信号に変換し、これを音声出力することを特徴とする。
【００２９】
【発明の実施の形態】
図１は、本発明の実施形態を示すブロック図である。
【００３０】
図１において、文書／音声変換装置１は、文字情報入力部１１と、入力解釈部１２と、変換処理部１３と、音声情報出力部１４と、記憶装置１５と、割込受付部１６とを備えている。なお、入力解釈部１２は、文書／音声変換装置１が本発明の第２態様の文書／音声変換装置として動作するときには、繰返し指定取得部としても動作することができる。
【００３１】
文字情報入力部１１は、電子文書の文字情報を音声読み上げ用に構造化した文書を入力として受け取り、これを入力解釈部１２に渡す。
【００３２】
入力解釈部１２は、入力された文書情報を、変換処理部１３が理解できる情報に変換する。このとき、変換の態様の指定や、文の区切り等の設定等を行い文書／音声変換の準備を行う。
【００３３】
変換処理部１３は、入力解釈部１２により解釈された情報を音声情報に変換する。
【００３４】
音声情報出力部１４は、変換処理部１３から音声情報を受け取り、音声出力する。
【００３５】
記憶装置１５は、入力解釈部１２により解釈した情報を一時的に保持しておくことができる。
【００３６】
割込受付部１６は、典型的には、音声情報出力部１４による音声出力中にユーザによる操作などの割込みを受け付けることができる。
【００３７】
図２は、文書／音声変換装置１の詳細構成を示すブロック図である。文字情報入力部１１は、図１に示した文字情報入力部１１と同じであり、電子文書の文字情報を音声読み上げ用に構造化した文書を入力として受け取り、入力解釈部１２に渡す。
【００３８】
入力解釈部１２は、読み上げ処理部１２１と、繰返し処理部１２２と、蓄積／読み出し処理部１２３とからなる。
【００３９】
読み上げ処理部１２１は、本発明の文書／音声変換装置の第１態様における読み上げ処理を行うとともに、割込受付部１６からの割込み情報を受け取り、読み上げ直しの処理を行う。繰返し処理部１２２は、本発明の文書／音声変換装置の第２態様における繰返し処理を行う。
【００４０】
蓄積／読み出し処理部１２３は、本発明の文書／音声変換装置の第３態様において、各情報を記憶装置１５に蓄え、または蓄えた情報を取り出すことができる。さらに、その蓄積された情報を用いて以下の機能を実現する。
【００４１】
並び替え処理機能Ｆ１は、本発明の文書／音声変換装置の第３態様における、並び替えの処理を行う。
【００４２】
読み上げ選択処理機能Ｆ２は、本発明の文書／音声変換装置の第３態様における読み上げ選択の処理を行う。この際、読み上げ条件入力部から読み上げる項目を選択する際の判断条件を受け取る。
【００４３】
読み上げ条件入力機能Ｆ３は、記憶装置１５から読み上げる項目を取り出し、またはユーザからの入力を受け取り、読み上げ選択処理機能Ｆ２やカテゴリ別読み上げ処理機能Ｆ６１にその情報を渡す。
【００４４】
読み分け処理機能Ｆ４は、本発明の文書／音声変換装置の第３態様における読み分けの処理を行う。この際、読み方データ入力機能Ｆ５から読み上げ方の情報を受け取る。
【００４５】
読み方データ入力機能Ｆ５は、記憶装置１５から読み方のデータとその条件を取り出し、またはユーザからの入力を受け取り、読み分け処理機能Ｆ４やカテゴリ別読み上げ処理機能Ｆ６１にその情報を渡す。
【００４６】
カテゴリ分け処理機能Ｆ６は、本発明の文書／音声変換装置の第３態様における各情報のカテゴリ別に分ける処理を行う。その分けた情報を使い、カテゴリ別読み上げ処理機能Ｆ６１、カテゴリ別読み分け処理機能Ｆ６２の機能の全部または一部を実現する。
【００４７】
カテゴリ別読み上げ処理機能Ｆ６１は、本発明の文書／音声変換装置の第３態様におけるカテゴリ別の読み上げ選択の処理を行う。この際、読み上げ条件入力機能Ｆ３から読み上げるカテゴリを選択する際の判断条件を受け取る。
【００４８】
カテゴリ別読み分け処理機能Ｆ６２は、本発明の文書／音声変換装置の第３態様におけるカテゴリ別の読み分けの処理を行う。この際、読み方データ入力機能Ｆ５から読み上げ方の情報を受け取る。
【００４９】
入力解釈部１２は、解釈の終わった情報から音声情報に変換するべき部分を順次、変換処理部１３に渡し、変換処理部１３は、入力解釈部１２から受け取った情報を音声合成などの技術を使って音声データに変換し、音声情報出力部１４に渡す。すなわち、音声情報出力部１４では、変換処理部１３から受け取った音声データを電話線やネットワーク、スピーカなど、外部に送出する。
【００５０】
記憶装置１５は、蓄積／読み出し処理部１２３の各機能との間で、情報の受け渡しをする。
【００５１】
割込み受付部１６は、ユーザ操作などの割込みを入力として受け付け、必要に応じて読み上げ処理部１２１にその情報を渡す。
【００５２】
図１および図２の文書／音声変換装置１の動作を、図３〜図１３を用いて説明する。なお、以下でボイスブラウザと言うときは、ＶｏｉｃｅＸＭＬなどの、情報を構造化して記録してある文書を入力として受け取り、それを解釈して音声のデータに変換する装置ないし手段をさす。
【００５３】
まず、図１の文書／音声変換装置１の動作を図３に示す流れ図を用いて説明する。
【００５４】
ボイスブラウザは、入力として受け取った文書の段落を表す構造を表すもの（ＨＴＭＬ文書で言えば、＜ｐ＞タグなど）を認識することができる。
【００５５】
ボイスブラウザは、読上げ処理を開始すると（Ｓ１０１）、まずその段落の始まりを設定する（Ｓ１０２）。そして、段落の始めから一文ずつ読み上げ始める（Ｓ１０３）。ここで、一文を読み上げている間にユーザから読み上げ直し要求の割込み（例えば、特定の発声を音声認識したものや、特定のＤＴＭＦ信号など）があった場合には（Ｓ１０４の「ＹＥＳ」）、先ほど記憶した段落の始まりまで戻り、そこから再び読み上げ直す。
【００５６】
割込みがなかった場合には（Ｓ１０４の「ＮＯ」）、そこが段落の終わりかを判断し（Ｓ１０５）、終わりでなければ（Ｓ１０５の「ＮＯ」）次の一文に進み（Ｓ１０６）、終わりであれば（Ｓ１０６の「ＹＥＳ」）文章の終わりまで読み上げたかを判断し（Ｓ１０７）、終わりでなければ（Ｓ１０７の「ＮＯ」）次の段落に進み、終わりであれば（Ｓ１０７の「ＹＥＳ」）処理を終了する（Ｓ１０８）。
【００５７】
こうして、これを文章の終わりまで繰り返す。ここで、「段落」と「一文」の単位で処理を進める例を提示したが、これは「一文」と「一文節」という単位のような文章の区切り方はない。また、「段落の始まり」ではなく「現在読み上げている部分の１０秒前に読み上げた部分」と言うように、時間単位の区切り方にしても構わない。
【００５８】
ここで、この説明を図４の受信メールの一覧を読み上げる場合を例にとって説明しなおす。図５は図４の表を読み上げる場合の読み上げ例を表示したものである。ユーザが図５の読み上げ文章を聞いているうちに、何らかの原因により、「２送信者○×商事」の部分を聞き逃したとする。この場合、例えばユーザが「待て」と言う音声命令を発すると、ボイスブラウザがこれを認識し、再び「２送信者○×商事・・・」から読み上げ始める。
【００５９】
本発明の文書／音声変換装置の第２態様における第１実施形態を、図６に示す流れ図を用いて説明する。
【００６０】
ここでは、繰返しの指示がタグによってなされており、そのタグには繰返しの回数が書いてあるとする。例えば、「＜ｒｅｐｅａｔｔｉｍｅｓ＝２＞ＸＸＸＸ＜／ｒｅｐｅａｔ＞」等としていることにする。ただし、タグによって構造を記述する文書以外の場合は他の方法で繰返し指示を書くことになる。また、タグの名前もｒｅｐｅａｔではなくても良い。ボイスブラウザはこの繰返し指示を見つけると、繰返し処理を開始する（Ｓ２０１）。繰返しの回数を変数Ｎに代入し、別の変数ｎを０に初期化する（Ｓ２０２）。
【００６１】
そしてその指示が示す範囲を読み上げ（Ｓ２０３）、ｎを１インクリメントする（Ｓ２０４）。次にｎとＮを比較し（Ｓ２０５）、ｎの方がＮよりも小さければもう一度繰返し指示の示す範囲の先頭まで戻り（Ｓ２０５の「ＮＯ」）、読み上げなおす。ｎとＮが同じ値ならば（Ｓ２０５の「ＹＥＳ」）、繰返しの処理を終えて次の処理に移る（Ｓ２０６）。図５の例で示すと、図５の「送信者」の次の氏名を示す部分をすべて＜ｒｅｐｅａｔｔｉｍｅｓ＝２＞＜／ｒｅｐｅａｔ＞タグで囲むとすると、図５の冒頭の部分は「１送信者山田太郎山田太郎
２００２年・・・」と読み上げられることとなる。
【００６２】
図６の流れ図の、読上げの繰返し処理は、通常の文書で強調するときに太字や斜体を使用するのと同じ様に使用できる。本発明の文書／音声変換装置の第３態様における第１実施形態を説明する。
【００６３】
図４の送信者や受信日時など、情報をボイスブラウザが受け取った際に、そのまま読み上げ処理をさせるのではなく所定のメモリ上に展開しておく。その展開したデータのイメージを図７に示す。このようにメモリ上に展開することにより、日付のデータであればその数字自体を、文字や文章のデータであれば、それを辞書の並び順にしたものを検索のキーなどに使用できる。
【００６４】
また、添付ファイルの有無も検索のキーとして使用できる。本発明の文書／音声変換装置の第３態様における第２実施形態を、図８に示す流れ図を用いて説明する。まず、並び替え処理が開始されると（Ｓ３０１）、ユーザは「日付順」、「添付ファイルのあるものから先に」などと、音声入力、またはＤＴＭＦ信号などで並び換えの順を指定する（Ｓ３０２）。ボイスブラウザは図７のように展開された文書のデータをメモリから取り出し、指示された順に並び替えて読み上げ（Ｓ３０３）、この後処理を終了する（Ｓ３０４）。ここで、ＤＴＭＦ信号で並び替え条件を入力するときは、入力前に並び替え順の候補を読み上げて提示することなどができる。また、音声入力による指示も、フリーワードの認識やいくつかの選択肢の中から選ぶ形式など、指示の方法は問わない。
【００６５】
本発明の文書／音声変換装置の第３態様における第３実施形態を、図９に示す処理の流れ図を用いて説明する。
【００６６】
読み上げ選択処理が開始され（Ｓ４０１）、ユーザが「添付ファイルのあるもの以外」、「○×商事から受信したもののみ」、「請求と言う単語を含むもののみ」などと、音声入力またはＤＴＭＦ信号などで読み上げる条件を指定する（Ｓ４０２）。このときの指示の方法は、上記した第２実施形態の場合と同様、どのような方法であるかを問わない。ボイスブラウザは図７のように展開された文書のデータをメモリから一つずつ順に読み出し（Ｓ４０３）、与えられた条件にマッチしていれば（Ｓ４０４の「ＹＥＳ」）、読み上げる（Ｓ４０５）。一つの処理が終わると、取り出したデータが最後のデータか否かを判断し（Ｓ４０６）、最後のデータであれば（Ｓ４０６の「ＹＥＳ」）処理を終了し（Ｓ４０７）、最後のデータでなければ（Ｓ４０６の「ＮＯ」）次のデータを読み出す。
【００６７】
また、図８および図９に示した処理を組み合わせると、ユーザは例えば「請求と言う単語を含むものを日付の順に」などといった指定も可能となる。
【００６８】
本発明の文書／音声変換装置の第３態様における第４実施形態を、図１０に示す流れ図を用いて説明する。まず、処理が開始されると（Ｓ５０１）、ユーザは「請求と言う単語を含むものは女性の声で」、「添付ファイルのあるものは読み上げ速度を若干早く」と言ったような、読み上げ方のデータを入力する（Ｓ５０２）。ここで、ユーザが読み上げ方のデータを入力しなくとも、このデータがデフォルトで設定されていてもよい。また、入力の方法は、第２実施形態の場合と同様、どのような方法であるかを問わない。次に、ボイスブラウザは図７のように展開された文書のデータをメモリから一つずつ順に取り出し（Ｓ５０３）、前もって指定されている条件にマッチするかどうかを判断し（Ｓ５０４）、マッチするときは（Ｓ５０４の「ＹＥＳ」）そのデータに対応した読み上げ方（声色、速度、音量など）で読み上げる（Ｓ５０５）。条件にマッチしない場合は（Ｓ５０４の「ＮＯ」）、通常の音声で読み上げる（Ｓ５０６）。そして、今のデータが最後のデータかどうかを判断し（Ｓ５０７）、最後でなければ（Ｓ５０７の「ＮＯ」）次のデータの処理へ移り、最後であれば（Ｓ５０７の「ＹＥＳ」）処理を終了する（Ｓ５０８）。
【００６９】
本発明の文書／音声変換装置の第３態様における第５実施形態を、図１１に示す処理の流れ図を用いて説明する。処理が開始されると（Ｓ６０１）ユーザは音声入力やＤＴＭＦ信号による指示などで「請求と言う単語を含むもの」、「見積と言う単語を含むもの」などとＮ個のカテゴリの条件を指定する（Ｓ６０２）。ここで、それぞれのカテゴリにわかりやすい名前をつけることも考えられる。ボイスブラウザはカテゴリを指定されたときにそれぞれに１からＮの通し番号を振っておき、カテゴリの指定が終わると変数ｎを１に初期化する（Ｓ６０３）。そして図７の展開したデータを一つずつ取り出し（Ｓ６０４）、番号ｎのカテゴリに含まれるかどうかをチェックし（Ｓ６０５）、取り出したデータが番号ｎのカテゴリに含まれない場合は次のデータを取り出す。Ｓ６０５において、取り出したデータが番号ｎのカテゴリに含まれる場合は図７のデータにカテゴリの情報ｎを付加し（Ｓ６０６）、取り出したデータが最後のデータか否かを判断する（Ｓ６０７）。最後のデータないときは、次のデータを取り出す（Ｓ６０７の「ＮＯ」）。この作業を最後のデータまで繰返し、最後のデータについてこの処理が終わると、ｎを１インクリメントする（Ｓ６０８）。そして、ｎとＮを比較してｎがＮより大きくなければ（Ｓ６０９の「ＮＯ」）再度先頭のデータから上記の処理を繰返し（Ｓ６１０）、ｎがＮより方が大きければ（Ｓ６０９の「ＹＥＳ」）処理を終了する（Ｓ６１１）。カテゴリの指示の方法は、第２実施形態の場合と同様、どのような方法であるかを問わない。
【００７０】
本発明の文書／音声変換装置の第３態様における第６実施形態を、図１２に示す処理の流れ図を用いて説明する。カテゴリ別読み上げ処理が開始されると（Ｓ７０１）、まず、図１１で説明したカテゴリ分けの処理を行う（Ｓ７０２）。ユーザは読み上げ条件を入力する。すなわち、「このカテゴリだけを読み上げる」といった指示を音声入力またはＤＴＭＦ信号などにより行う（Ｓ７０３）。このときの指示の方法は、第２実施形態の場合と同様、どのような方法であるかを問わない。ボイスブラウザは、最初のカテゴリから順にデータをすべて取り出し（Ｓ７０４）、そのカテゴリが入力された読み上げ条件にマッチするかを判断する（Ｓ７０５）。マッチする場合はそのカテゴリのデータを読み上げ（Ｓ７０６）、そのカテゴリが最後のカテゴリかどうかを判断する。マッチしない場合は読み上げないで、そのカテゴリが最後のカテゴリかどうかを判断する（Ｓ７０７）。それが最後でなければ次のカテゴリの処理に移り（Ｓ７０７の「ＮＯ」）、以上の処理を繰り返す。最後であれば（Ｓ７０７の「ＹＥＳ」）、そこで処理を終了する（Ｓ７０８）。
【００７１】
本発明の文書／音声変換装置の第３態様における第７実施形態を、図１３に示す処理の流れ図を用いて説明する。カテゴリ別読み分け処理が開始されると（Ｓ８０１）、まず、図１１で示したカテゴリ分けの処理を行う（Ｓ８０２）。ユーザはカテゴリ別読み方データを入力する。すなわち、「請求と言う単語を含むカテゴリは女性の声で」、「添付ファイルのあるものというカテゴリは読み上げ速度を若干早く」と言ったような、カテゴリ別の読み方データを入力する（Ｓ８０３）。ここで、ユーザがカテゴリ別の読み上げ方のデータを入力しなくとも、このデータがデフォルトで設定されていてもよい。また、入力の方法は、第２実施形態の場合と同様、どのような方法であるかを問わない。次に、ボイスブラウザはカテゴリに含まれるデータをすべて取り出し（Ｓ８０４）、前もって指定されているそのカテゴリに対応した読み上げ方（声色、速度、音量など）で読み上げる（Ｓ８０５）。そして、今のカテゴリが最後のカテゴリかどうかを判断し（Ｓ８０６）、最後でなければ（Ｓ８０６の「ＮＯ」）次のカテゴリの処理へ移り、最後であれば（Ｓ８０６の「ＹＥＳ」）処理を終了する（Ｓ８０７）。
【００７２】
【発明の効果】
本発明によれば、読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができ、読み上げられる情報のうち注意を喚起したい部分を、繰り返し再現することができ、読み上げられる情報のうち必要な部分のみを音声出力することができる。
【図面の簡単な説明】
【図１】本発明の文書／音声変換装置の一実施形態を示すブロック図である。
【図２】図１の文書／音声変換装置の詳細構成を示すブロック図である。
【図３】図１の文書／音声変換装置の動作を示す流れ図である。
【図４】受信メールの一覧を示す図である。
【図５】図４の一覧を読み上げる場合の読み上げ例を示す図である。
【図６】本発明の文書／音声変換装置の第３態様における第１実施形態を示す流れ図である。
【図７】メモリ上に展開した文書データのイメージ図である。
【図８】本発明の文書／音声変換装置の第３態様における第２実施形態を示す図である。
【図９】本発明の文書／音声変換装置の第３態様における第３実施形態を示す図である。
【図１０】本発明の文書／音声変換装置の第３態様における第４実施形態を示す図である。
【図１１】本発明の文書／音声変換装置の第３態様における第５実施形態を示す図である。
【図１２】本発明の文書／音声変換装置の第３態様における第６実施形態を示す図である。
【図１３】本発明の文書／音声変換装置の第３態様における第７実施形態を示す図である。
【符号の説明】
１文書／音声変換装置
１１文字情報入力部
１２入力解釈部
１３変換処理部
１４音声情報出力部
１５記憶装置
１６割込み受付部
１２１読み上げ処理部
１２２繰返し処理部
１２３蓄積／読み出し処理部
Ｆ１並び替え処理機能
Ｆ２読み上げ選択処理機能
Ｆ３読み上げ条件入力機能
Ｆ４読み分け処理機能
Ｆ５読み方データ入力機能
Ｆ６カテゴリ分け処理機能
Ｆ６１カテゴリ別読み上げ処理機能
Ｆ６２カテゴリ別読み分け処理機能

Claims

音声読み上げ用に構造化した文書を受け取る文字情報入力部と、
前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、
前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、
前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、
音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部と、
を備えた文書／音声変換装置であって、
前記割込み受付け部が前記割込みを受け付けたときは、前記読み上げ処理部は、前記音声情報の前記文書の所定部分の読み上げ直しを行う、
ことを備えたことを特徴とする文書／音声変換装置。
音声読み上げ用に構造化した文書を受け取る文字情報入力部と、
前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、
前記文字情報入力部が前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定ＲＲを取得する繰返し指定取得部と、
前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、
前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、
前記繰返し指定取得部が前記繰返し読み上げ指定を受け付けたときは、前記音声情報の前記文書の所定部分の読み上げ直しを行う繰返し処理部と、
を備えたことを特徴とする文書／音声変換装置。
音声読み上げ用に構造化した文書を受け取る文字情報入力部と、
前記文字情報入力部が受け取った前記文書を蓄積する記憶手段と、
前記記憶手段に蓄積した前記文書ＴＩを読み出し、前記文書の文書構成を変更する蓄積／読み出し処理部と、
前記蓄積／読み出し処理部から受け取った変更後の文書を音声情報に変換する読み上げ処理部と、
前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、
前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、を備えたことを特徴とする文書／音声変換装置。
前記文書が付帯情報と内容を持ったコンテンツの一覧であり、各コンテンツの付帯情報または内容の一部が前記記憶装置に蓄えられることを特徴とする請求項３に記載の文書／音声変換装置。
前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ順の並び替えを行う並び替え処理機能を有することを特徴とする請求項４に記載の文書／音声変換装置。
前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げるか否かの選択を行う読上げ選択処理機能を有することを特徴とする請求項４または５に記載の文書／音声変換装置。
前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ方を変える読み分け処理機能を有することを特徴とする請求項４から６の何れかに記載の文書／音声変換装置。
前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げるか否かを決定するカテゴリ別読み上げ処理機能を有することを特徴とする請求項４から７の何れかに記載の文書／音声変換装置。
読み上げるべきカテゴリか否かがユーザにより指定されることを特徴とする請求項８に記載の文書／音声変換装置。
前記蓄積／読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げ方を変更するカテゴリ別読み分け処理機能を有することを特徴とする請求項４から７の何れかに記載の文書／音声変換装置。
前記読み上げ方の変更および／または前記読み上げ方の内容がユーザにより指定されることを特徴とする請求項１０に記載の文書／音声変換装置。
前記文書は、電子文書であることを特徴とする請求項１から１１の何れかに記載の文書／音声変換装置。
音声読み上げ用に構造化した文書を受け取り、
前記文書を音声情報に変換し、
前記音声情報を音声信号に変換し、
前記音声信号を音声出力する文書／音声変換方法において、
前記音声出力の最中に、特定の割込みを受け、前記音声情報の前記文書の所定部分（一部または全部）の読み上げ直しを行う、
ことを特徴とする文書／音声変換方法。
音声読み上げ用に構造化した文書を受け取り、
前記文書を音声情報に変換し、
前記音声情報を音声信号に変換する文書／音声変換方法において、
前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を受け付け、前記音声情報の前記文書の所定部分の読み上げ直しを行う、
ことを特徴とする文書／音声変換方法。
音声読み上げ用に構造化した文書を受け取り、
前記文書を記憶手段に蓄積する文書／音声変換方法において、
前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更し、
前記変更後の文書を音声情報に変換し、
前記音声情報を音声信号に変換し、これを音声出力する、
ことを特徴とする文書／音声変換方法。