JP2004240217A - 文書/音声変換装置および文書/音声変換方法 - Google Patents
文書/音声変換装置および文書/音声変換方法 Download PDFInfo
- Publication number
- JP2004240217A JP2004240217A JP2003030063A JP2003030063A JP2004240217A JP 2004240217 A JP2004240217 A JP 2004240217A JP 2003030063 A JP2003030063 A JP 2003030063A JP 2003030063 A JP2003030063 A JP 2003030063A JP 2004240217 A JP2004240217 A JP 2004240217A
- Authority
- JP
- Japan
- Prior art keywords
- document
- reading
- information
- processing unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができる文書/音声変換装置を提供する。
【解決手段】文書/音声変換装置1は、音声読み上げ用に構造化した文書を受け取る文字情報入力部11と、文字情報入力部により受け取った文書を音声情報に変換する読み上げ処理部121と、読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部13と、変換処理部からの音声信号を入力して音声を出力する音声情報出力部14と、音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部16と、割込み受付け部が前記割込みを受け付けたときは、音声情報の文書の所定部分の読み上げ直しを行う繰返し処理部122とを備えたことを特徴とする。
【選択図】 図1
【解決手段】文書/音声変換装置1は、音声読み上げ用に構造化した文書を受け取る文字情報入力部11と、文字情報入力部により受け取った文書を音声情報に変換する読み上げ処理部121と、読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部13と、変換処理部からの音声信号を入力して音声を出力する音声情報出力部14と、音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部16と、割込み受付け部が前記割込みを受け付けたときは、音声情報の文書の所定部分の読み上げ直しを行う繰返し処理部122とを備えたことを特徴とする。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、VoiceXMLやHTML等の、文字情報を構造化して記述した文書を解釈し、その解釈結果を音声合成技術により音声化する文書/音声変換装置および文書/音声変換方法に関する。
【0002】
【従来の技術】
従来、World Wide Webに接続する機能を持たない通常の電話機からインターネットにアクセスした通話者に、文字情報を音声として提供する技術や、無人の電話応答装置において文字情報を音声情報に変換して通話者に提供する技術が知られている。
【0003】
この種の技術は、文章等の文書の読上げを行うものである。聴解性を向上させる文書の読み上げ方式として、HTMLのように構造化された文書の構造を捉え、その構造をもとに、文書中の構造の区切りごとにランダムアクセスする方式(特許文献1)、通常の文書に下線や太字と言った文字属性を付加し、その属性ごとに音色を変えて読み上げる方式(特許文献2)等がある。
【0004】
また、VoiceXMLという構造化された文書を受け取ってこれを解釈し、音声合成技術を用いて音声情報に変換するボイスブラウザと称されるソフトウェアも知られている。このソフトウェアでは、VoiceXMLを冒頭から順に解釈しながら音声に変換していく。
【0005】
上記の従来技術は文書の構造等の情報を元に聴解性を向上させるものであり、所望の情報に辿り着くことを目指したものではなく、与えられた情報の理解を助けることに主眼を置いたものである。
【0006】
【特許文献1】
特開平11−52973
【0007】
【特許文献2】
特開平8−263260
【0008】
【発明が解決しようとする課題】
ところで、例えば、ウェブブラウザ上で、天気予報情報の音声の聴取している途中で目的とする地域(例えば自分の居住している地域)の情報を聞き逃したときや、株価を読み上げている音声を聴取している場合に目的とする銘柄の情報を聞き逃したときは、一番最初から音声出力をし直さなければならない。
【0009】
本発明の目的は、読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができる文書/音声変換装置および文書/音声変換方法を提供することにある。
【0010】
本発明の他の目的は、読み上げられる情報のうち注意を喚起したい部分を、繰り返し再現することができる文書/音声変換装置および文書/音声変換方法を提供することにある。
【0011】
本発明のさらに他の目的は、読み上げられる情報のうち必要な部分のみを音声出力することができる文書/音声変換装置および文書/音声変換方法を提供することにある。
【0012】
【課題を解決するための手段】
本発明の文書/音声変換装置の第1態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部と、前記割込み受付け部が前記割込みを受け付けたときは、前記読み上げ処理部は、前記音声情報の前記文書の所定部分(一部または全部)の読み上げ直しを行うことを特徴とする。
【0013】
第1態様の文書/音声変換装置では、所望の情報を聞き逃してしまったときに、簡単に聞き逃した部分を聞き返せるようにすることにより、聞きなおす際の手間や時間を省くことができる。特に、第1態様の文書/音声変換装置では、簡単な操作で聞き逃した部分を聞き返せるようになり、聞きなおす際の手間や時間を省くことができる。
【0014】
本発明の文書/音声変換装置の第2態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部により受け取った前記文書を音声情報Vに変換する読み上げ処理部と、前記文字情報入力部が前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を取得する繰返し指定取得部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、前記繰返し指定取得部が前記繰返し読み上げ指定を受け付けたときは、前記音声情報の前記文書の所定部分の読み上げ直しを行う繰返し処理部とを備えたことを特徴とする。
【0015】
第2態様の文書/音声変換装置では、情報を提供する側が重要だと判断した部分に何らかの印をつけておいて重要な情報を、繰り返し音声出力することで、聞き逃しを避けることができる。
【0016】
本発明の文書/音声変換装置の第3態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部が受け取った前記文書を蓄積する記憶手段と、前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更する蓄積/読み出し処理部と、前記蓄積/読み出し処理部から受け取った変更後の文書を音声情報に変換する読み上げ処理部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部とを備えたことを特徴とする。
【0017】
第3態様の文書/音声変換装置では、前記文書が付帯情報と内容を持ったコンテンツの一覧であり、各コンテンツの付帯情報または内容の一部を前記記憶装置に蓄えることができる。
【0018】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ順の並び替えを行う並び替え処理機能を有することができる。これにより、一覧に含まれる各項目の情報を用いて、並び替えや検索ができるようにでき、所望の情報が探しやすくなる。
【0019】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部123は、前記コンテンツの前記付帯情報または内容の一部について、読み上げるか否かの選択を行う読上げ選択処理機能を有することができる。これにより、一覧に含まれる各項目を番号で並び替えたり、五十音順で並び替えたりすることにより所望の情報を探しやすくすることである。
【0020】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ方を変える読み分け処理機能を有することができる。これにより、一覧に含まれる各項目を予めある条件に沿って取捨選択しておくことができ、所望の情報を探しやすくなる。
【0021】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げるか否かを決定するカテゴリ別読み上げ処理機能を有することができる。これにより、一覧に含まれている各項目の情報の中で、所望の情報がどれかを判断しやすくなる。
【0022】
第3態様の文書/音声変換装置では、読み上げるべきカテゴリか否かがユーザにより指定されるようにできる。分類ごとに読み上げる項目を取捨選択できるので、所望の情報が探しやすくなる。
【0023】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げ方を変更するカテゴリ別読み分け処理機能を有することができる。これにより、分類ごとに読み上げる項目を取捨選択することで、所望の情報が探しやすくなる。
【0024】
第3態様の文書/音声変換装置では、前記読み上げ方の変更および/または前記読み上げ方の内容がユーザにより指定されることを特徴とする。特に、一覧に含まれている各項目を分類した際に、分類ごとに読み上げる際の声色や早さを異ならせることで、現在読み上げている情報がどの分類に属するかを判断しやすくなる。
【0025】
第1から第3態様の文書/音声変換装置では、前記文書は、電子文書とすることができる。
【0026】
本発明の文書/音声変換方法の第1態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を音声情報に変換し、前記音声情報を音声信号に変換し、前記音声信号を音声出力するもので、前記音声出力の最中に、特定の割込みを受け、前記音声情報の前記文書の所定部分(一部または全部)の読み上げ直しを行うことを特徴とする。
【0027】
本発明の文書/音声変換方法の第2態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を音声情報に変換し、前記音声情報を音声信号に変換するもので、前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を受け付け、前記音声情報の前記文書TIの所定部分の読み上げ直しを行うことを特徴とする。
【0028】
本発明の文書/音声変換方法の第3態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を記憶手段に蓄積するもので、前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更し、前記変更後の文書を音声情報に変換し、前記音声情報を音声信号に変換し、これを音声出力することを特徴とする。
【0029】
【発明の実施の形態】
図1は、本発明の実施形態を示すブロック図である。
【0030】
図1において、文書/音声変換装置1は、文字情報入力部11と、入力解釈部12と、変換処理部13と、音声情報出力部14と、記憶装置15と、割込受付部16とを備えている。なお、入力解釈部12は、文書/音声変換装置1が本発明の第2態様の文書/音声変換装置として動作するときには、繰返し指定取得部としても動作することができる。
【0031】
文字情報入力部11は、電子文書の文字情報を音声読み上げ用に構造化した文書を入力として受け取り、これを入力解釈部12に渡す。
【0032】
入力解釈部12は、入力された文書情報を、変換処理部13が理解できる情報に変換する。このとき、変換の態様の指定や、文の区切り等の設定等を行い文書/音声変換の準備を行う。
【0033】
変換処理部13は、入力解釈部12により解釈された情報を音声情報に変換する。
【0034】
音声情報出力部14は、変換処理部13から音声情報を受け取り、音声出力する。
【0035】
記憶装置15は、入力解釈部12により解釈した情報を一時的に保持しておくことができる。
【0036】
割込受付部16は、典型的には、音声情報出力部14による音声出力中にユーザによる操作などの割込みを受け付けることができる。
【0037】
図2は、文書/音声変換装置1の詳細構成を示すブロック図である。文字情報入力部11は、図1に示した文字情報入力部11と同じであり、電子文書の文字情報を音声読み上げ用に構造化した文書を入力として受け取り、入力解釈部12に渡す。
【0038】
入力解釈部12は、読み上げ処理部121と、繰返し処理部122と、蓄積/読み出し処理部123とからなる。
【0039】
読み上げ処理部121は、本発明の文書/音声変換装置の第1態様における読み上げ処理を行うとともに、割込受付部16からの割込み情報を受け取り、読み上げ直しの処理を行う。繰返し処理部122は、本発明の文書/音声変換装置の第2態様における繰返し処理を行う。
【0040】
蓄積/読み出し処理部123は、本発明の文書/音声変換装置の第3態様において、各情報を記憶装置15に蓄え、または蓄えた情報を取り出すことができる。さらに、その蓄積された情報を用いて以下の機能を実現する。
【0041】
並び替え処理機能F1は、本発明の文書/音声変換装置の第3態様における、並び替えの処理を行う。
【0042】
読み上げ選択処理機能F2は、本発明の文書/音声変換装置の第3態様における読み上げ選択の処理を行う。この際、読み上げ条件入力部から読み上げる項目を選択する際の判断条件を受け取る。
【0043】
読み上げ条件入力機能F3は、記憶装置15から読み上げる項目を取り出し、またはユーザからの入力を受け取り、読み上げ選択処理機能F2やカテゴリ別読み上げ処理機能F61にその情報を渡す。
【0044】
読み分け処理機能F4は、本発明の文書/音声変換装置の第3態様における読み分けの処理を行う。この際、読み方データ入力機能F5から読み上げ方の情報を受け取る。
【0045】
読み方データ入力機能F5は、記憶装置15から読み方のデータとその条件を取り出し、またはユーザからの入力を受け取り、読み分け処理機能F4やカテゴリ別読み上げ処理機能F61にその情報を渡す。
【0046】
カテゴリ分け処理機能F6は、本発明の文書/音声変換装置の第3態様における各情報のカテゴリ別に分ける処理を行う。その分けた情報を使い、カテゴリ別読み上げ処理機能F61、カテゴリ別読み分け処理機能F62の機能の全部または一部を実現する。
【0047】
カテゴリ別読み上げ処理機能F61は、本発明の文書/音声変換装置の第3態様におけるカテゴリ別の読み上げ選択の処理を行う。この際、読み上げ条件入力機能F3から読み上げるカテゴリを選択する際の判断条件を受け取る。
【0048】
カテゴリ別読み分け処理機能F62は、本発明の文書/音声変換装置の第3態様におけるカテゴリ別の読み分けの処理を行う。この際、読み方データ入力機能F5から読み上げ方の情報を受け取る。
【0049】
入力解釈部12は、解釈の終わった情報から音声情報に変換するべき部分を順次、変換処理部13に渡し、変換処理部13は、入力解釈部12から受け取った情報を音声合成などの技術を使って音声データに変換し、音声情報出力部14に渡す。すなわち、音声情報出力部14では、変換処理部13から受け取った音声データを電話線やネットワーク、スピーカなど、外部に送出する。
【0050】
記憶装置15は、蓄積/読み出し処理部123の各機能との間で、情報の受け渡しをする。
【0051】
割込み受付部16は、ユーザ操作などの割込みを入力として受け付け、必要に応じて読み上げ処理部121にその情報を渡す。
【0052】
図1および図2の文書/音声変換装置1の動作を、図3〜図13を用いて説明する。なお、以下でボイスブラウザと言うときは、VoiceXMLなどの、情報を構造化して記録してある文書を入力として受け取り、それを解釈して音声のデータに変換する装置ないし手段をさす。
【0053】
まず、図1の文書/音声変換装置1の動作を図3に示す流れ図を用いて説明する。
【0054】
ボイスブラウザは、入力として受け取った文書の段落を表す構造を表すもの(HTML文書で言えば、<p>タグなど)を認識することができる。
【0055】
ボイスブラウザは、読上げ処理を開始すると(S101)、まずその段落の始まりを設定する(S102)。そして、段落の始めから一文ずつ読み上げ始める(S103)。ここで、一文を読み上げている間にユーザから読み上げ直し要求の割込み(例えば、特定の発声を音声認識したものや、特定のDTMF信号など)があった場合には(S104の「YES」)、先ほど記憶した段落の始まりまで戻り、そこから再び読み上げ直す。
【0056】
割込みがなかった場合には(S104の「NO」)、そこが段落の終わりかを判断し(S105)、終わりでなければ(S105の「NO」)次の一文に進み(S106)、終わりであれば(S106の「YES」)文章の終わりまで読み上げたかを判断し(S107)、終わりでなければ(S107の「NO」)次の段落に進み、終わりであれば(S107の「YES」)処理を終了する(S108)。
【0057】
こうして、これを文章の終わりまで繰り返す。ここで、「段落」と「一文」の単位で処理を進める例を提示したが、これは「一文」と「一文節」という単位のような文章の区切り方はない。また、「段落の始まり」ではなく「現在読み上げている部分の10秒前に読み上げた部分」と言うように、時間単位の区切り方にしても構わない。
【0058】
ここで、この説明を図4の受信メールの一覧を読み上げる場合を例にとって説明しなおす。図5は図4の表を読み上げる場合の読み上げ例を表示したものである。ユーザが図5の読み上げ文章を聞いているうちに、何らかの原因により、「2 送信者○×商事」の部分を聞き逃したとする。この場合、例えばユーザが「待て」と言う音声命令を発すると、ボイスブラウザがこれを認識し、再び「2 送信者○×商事・・・」から読み上げ始める。
【0059】
本発明の文書/音声変換装置の第2態様における第1実施形態を、図6に示す流れ図を用いて説明する。
【0060】
ここでは、繰返しの指示がタグによってなされており、そのタグには繰返しの回数が書いてあるとする。例えば、「<repeat times=2>XXXX</repeat>」等としていることにする。ただし、タグによって構造を記述する文書以外の場合は他の方法で繰返し指示を書くことになる。また、タグの名前もrepeatではなくても良い。ボイスブラウザはこの繰返し指示を見つけると、繰返し処理を開始する(S201)。繰返しの回数を変数Nに代入し、別の変数nを0に初期化する(S202)。
【0061】
そしてその指示が示す範囲を読み上げ(S203)、nを1インクリメントする(S204)。次にnとNを比較し(S205)、nの方がNよりも小さければもう一度繰返し指示の示す範囲の先頭まで戻り(S205の「NO」)、読み上げなおす。nとNが同じ値ならば(S205の「YES」)、繰返しの処理を終えて次の処理に移る(S206)。図5の例で示すと、図5の「送信者」の次の氏名を示す部分をすべて<repeat times=2></repeat>タグで囲むとすると、図5の冒頭の部分は「1 送信者 山田太郎 山田太郎
2002年・・・」と読み上げられることとなる。
【0062】
図6の流れ図の、読上げの繰返し処理は、通常の文書で強調するときに太字や斜体を使用するのと同じ様に使用できる。本発明の文書/音声変換装置の第3態様における第1実施形態を説明する。
【0063】
図4の送信者や受信日時など、情報をボイスブラウザが受け取った際に、そのまま読み上げ処理をさせるのではなく所定のメモリ上に展開しておく。その展開したデータのイメージを図7に示す。このようにメモリ上に展開することにより、日付のデータであればその数字自体を、文字や文章のデータであれば、それを辞書の並び順にしたものを検索のキーなどに使用できる。
【0064】
また、添付ファイルの有無も検索のキーとして使用できる。本発明の文書/音声変換装置の第3態様における第2実施形態を、図8に示す流れ図を用いて説明する。まず、並び替え処理が開始されると(S301)、ユーザは「日付順」、「添付ファイルのあるものから先に」などと、音声入力、またはDTMF信号などで並び換えの順を指定する(S302)。ボイスブラウザは図7のように展開された文書のデータをメモリから取り出し、指示された順に並び替えて読み上げ(S303)、この後処理を終了する(S304)。ここで、DTMF信号で並び替え条件を入力するときは、入力前に並び替え順の候補を読み上げて提示することなどができる。また、音声入力による指示も、フリーワードの認識やいくつかの選択肢の中から選ぶ形式など、指示の方法は問わない。
【0065】
本発明の文書/音声変換装置の第3態様における第3実施形態を、図9に示す処理の流れ図を用いて説明する。
【0066】
読み上げ選択処理が開始され(S401)、ユーザが「添付ファイルのあるもの以外」、「○×商事から受信したもののみ」、「請求と言う単語を含むもののみ」などと、音声入力またはDTMF信号などで読み上げる条件を指定する(S402)。このときの指示の方法は、上記した第2実施形態の場合と同様、どのような方法であるかを問わない。ボイスブラウザは図7のように展開された文書のデータをメモリから一つずつ順に読み出し(S403)、与えられた条件にマッチしていれば(S404の「YES」)、読み上げる(S405)。一つの処理が終わると、取り出したデータが最後のデータか否かを判断し(S406)、最後のデータであれば(S406の「YES」)処理を終了し(S407)、最後のデータでなければ(S406の「NO」)次のデータを読み出す。
【0067】
また、図8および図9に示した処理を組み合わせると、ユーザは例えば「請求と言う単語を含むものを日付の順に」などといった指定も可能となる。
【0068】
本発明の文書/音声変換装置の第3態様における第4実施形態を、図10に示す流れ図を用いて説明する。まず、処理が開始されると(S501)、ユーザは「請求と言う単語を含むものは女性の声で」、「添付ファイルのあるものは読み上げ速度を若干早く」と言ったような、読み上げ方のデータを入力する(S502)。ここで、ユーザが読み上げ方のデータを入力しなくとも、このデータがデフォルトで設定されていてもよい。また、入力の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。次に、ボイスブラウザは図7のように展開された文書のデータをメモリから一つずつ順に取り出し(S503)、前もって指定されている条件にマッチするかどうかを判断し(S504)、マッチするときは(S504の「YES」)そのデータに対応した読み上げ方(声色、速度、音量など)で読み上げる(S505)。条件にマッチしない場合は(S504の「NO」)、通常の音声で読み上げる(S506)。そして、今のデータが最後のデータかどうかを判断し(S507)、最後でなければ(S507の「NO」)次のデータの処理へ移り、最後であれば(S507の「YES」)処理を終了する(S508)。
【0069】
本発明の文書/音声変換装置の第3態様における第5実施形態を、図11に示す処理の流れ図を用いて説明する。処理が開始されると(S601)ユーザは音声入力やDTMF信号による指示などで「請求と言う単語を含むもの」、「見積と言う単語を含むもの」などとN個のカテゴリの条件を指定する(S602)。ここで、それぞれのカテゴリにわかりやすい名前をつけることも考えられる。ボイスブラウザはカテゴリを指定されたときにそれぞれに1からNの通し番号を振っておき、カテゴリの指定が終わると変数nを1に初期化する(S603)。そして図7の展開したデータを一つずつ取り出し(S604)、番号nのカテゴリに含まれるかどうかをチェックし(S605)、取り出したデータが番号nのカテゴリに含まれない場合は次のデータを取り出す。S605において、取り出したデータが番号nのカテゴリに含まれる場合は図7のデータにカテゴリの情報nを付加し(S606)、取り出したデータが最後のデータか否かを判断する(S607)。最後のデータないときは、次のデータを取り出す(S607の「NO」)。この作業を最後のデータまで繰返し、最後のデータについてこの処理が終わると、nを1インクリメントする(S608)。そして、nとNを比較してnがNより大きくなければ(S609の「NO」)再度先頭のデータから上記の処理を繰返し(S610)、nがNより方が大きければ(S609の「YES」)処理を終了する(S611)。カテゴリの指示の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。
【0070】
本発明の文書/音声変換装置の第3態様における第6実施形態を、図12に示す処理の流れ図を用いて説明する。カテゴリ別読み上げ処理が開始されると(S701)、まず、図11で説明したカテゴリ分けの処理を行う(S702)。ユーザは読み上げ条件を入力する。すなわち、「このカテゴリだけを読み上げる」といった指示を音声入力またはDTMF信号などにより行う(S703)。このときの指示の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。ボイスブラウザは、最初のカテゴリから順にデータをすべて取り出し(S704)、そのカテゴリが入力された読み上げ条件にマッチするかを判断する(S705)。マッチする場合はそのカテゴリのデータを読み上げ(S706)、そのカテゴリが最後のカテゴリかどうかを判断する。マッチしない場合は読み上げないで、そのカテゴリが最後のカテゴリかどうかを判断する(S707)。それが最後でなければ次のカテゴリの処理に移り(S707の「NO」)、以上の処理を繰り返す。最後であれば(S707の「YES」)、そこで処理を終了する(S708)。
【0071】
本発明の文書/音声変換装置の第3態様における第7実施形態を、図13に示す処理の流れ図を用いて説明する。カテゴリ別読み分け処理が開始されると(S801)、まず、図11で示したカテゴリ分けの処理を行う(S802)。ユーザはカテゴリ別読み方データを入力する。すなわち、「請求と言う単語を含むカテゴリは女性の声で」、「添付ファイルのあるものというカテゴリは読み上げ速度を若干早く」と言ったような、カテゴリ別の読み方データを入力する(S803)。ここで、ユーザがカテゴリ別の読み上げ方のデータを入力しなくとも、このデータがデフォルトで設定されていてもよい。また、入力の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。次に、ボイスブラウザはカテゴリに含まれるデータをすべて取り出し(S804)、前もって指定されているそのカテゴリに対応した読み上げ方(声色、速度、音量など)で読み上げる(S805)。そして、今のカテゴリが最後のカテゴリかどうかを判断し(S806)、最後でなければ(S806の「NO」)次のカテゴリの処理へ移り、最後であれば(S806の「YES」)処理を終了する(S807)。
【0072】
【発明の効果】
本発明によれば、読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができ、読み上げられる情報のうち注意を喚起したい部分を、繰り返し再現することができ、読み上げられる情報のうち必要な部分のみを音声出力することができる。
【図面の簡単な説明】
【図1】本発明の文書/音声変換装置の一実施形態を示すブロック図である。
【図2】図1の文書/音声変換装置の詳細構成を示すブロック図である。
【図3】図1の文書/音声変換装置の動作を示す流れ図である。
【図4】受信メールの一覧を示す図である。
【図5】図4の一覧を読み上げる場合の読み上げ例を示す図である。
【図6】本発明の文書/音声変換装置の第3態様における第1実施形態を示す流れ図である。
【図7】メモリ上に展開した文書データのイメージ図である。
【図8】本発明の文書/音声変換装置の第3態様における第2実施形態を示す図である。
【図9】本発明の文書/音声変換装置の第3態様における第3実施形態を示す図である。
【図10】本発明の文書/音声変換装置の第3態様における第4実施形態を示す図である。
【図11】本発明の文書/音声変換装置の第3態様における第5実施形態を示す図である。
【図12】本発明の文書/音声変換装置の第3態様における第6実施形態を示す図である。
【図13】本発明の文書/音声変換装置の第3態様における第7実施形態を示す図である。
【符号の説明】
1 文書/音声変換装置
11 文字情報入力部
12 入力解釈部
13 変換処理部
14 音声情報出力部
15 記憶装置
16 割込み受付部
121 読み上げ処理部
122 繰返し処理部
123 蓄積/読み出し処理部
F1 並び替え処理機能
F2 読み上げ選択処理機能
F3 読み上げ条件入力機能
F4 読み分け処理機能
F5 読み方データ入力機能
F6 カテゴリ分け処理機能
F61 カテゴリ別読み上げ処理機能
F62 カテゴリ別読み分け処理機能
【発明の属する技術分野】
本発明は、VoiceXMLやHTML等の、文字情報を構造化して記述した文書を解釈し、その解釈結果を音声合成技術により音声化する文書/音声変換装置および文書/音声変換方法に関する。
【0002】
【従来の技術】
従来、World Wide Webに接続する機能を持たない通常の電話機からインターネットにアクセスした通話者に、文字情報を音声として提供する技術や、無人の電話応答装置において文字情報を音声情報に変換して通話者に提供する技術が知られている。
【0003】
この種の技術は、文章等の文書の読上げを行うものである。聴解性を向上させる文書の読み上げ方式として、HTMLのように構造化された文書の構造を捉え、その構造をもとに、文書中の構造の区切りごとにランダムアクセスする方式(特許文献1)、通常の文書に下線や太字と言った文字属性を付加し、その属性ごとに音色を変えて読み上げる方式(特許文献2)等がある。
【0004】
また、VoiceXMLという構造化された文書を受け取ってこれを解釈し、音声合成技術を用いて音声情報に変換するボイスブラウザと称されるソフトウェアも知られている。このソフトウェアでは、VoiceXMLを冒頭から順に解釈しながら音声に変換していく。
【0005】
上記の従来技術は文書の構造等の情報を元に聴解性を向上させるものであり、所望の情報に辿り着くことを目指したものではなく、与えられた情報の理解を助けることに主眼を置いたものである。
【0006】
【特許文献1】
特開平11−52973
【0007】
【特許文献2】
特開平8−263260
【0008】
【発明が解決しようとする課題】
ところで、例えば、ウェブブラウザ上で、天気予報情報の音声の聴取している途中で目的とする地域(例えば自分の居住している地域)の情報を聞き逃したときや、株価を読み上げている音声を聴取している場合に目的とする銘柄の情報を聞き逃したときは、一番最初から音声出力をし直さなければならない。
【0009】
本発明の目的は、読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができる文書/音声変換装置および文書/音声変換方法を提供することにある。
【0010】
本発明の他の目的は、読み上げられる情報のうち注意を喚起したい部分を、繰り返し再現することができる文書/音声変換装置および文書/音声変換方法を提供することにある。
【0011】
本発明のさらに他の目的は、読み上げられる情報のうち必要な部分のみを音声出力することができる文書/音声変換装置および文書/音声変換方法を提供することにある。
【0012】
【課題を解決するための手段】
本発明の文書/音声変換装置の第1態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部と、前記割込み受付け部が前記割込みを受け付けたときは、前記読み上げ処理部は、前記音声情報の前記文書の所定部分(一部または全部)の読み上げ直しを行うことを特徴とする。
【0013】
第1態様の文書/音声変換装置では、所望の情報を聞き逃してしまったときに、簡単に聞き逃した部分を聞き返せるようにすることにより、聞きなおす際の手間や時間を省くことができる。特に、第1態様の文書/音声変換装置では、簡単な操作で聞き逃した部分を聞き返せるようになり、聞きなおす際の手間や時間を省くことができる。
【0014】
本発明の文書/音声変換装置の第2態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部により受け取った前記文書を音声情報Vに変換する読み上げ処理部と、前記文字情報入力部が前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を取得する繰返し指定取得部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、前記繰返し指定取得部が前記繰返し読み上げ指定を受け付けたときは、前記音声情報の前記文書の所定部分の読み上げ直しを行う繰返し処理部とを備えたことを特徴とする。
【0015】
第2態様の文書/音声変換装置では、情報を提供する側が重要だと判断した部分に何らかの印をつけておいて重要な情報を、繰り返し音声出力することで、聞き逃しを避けることができる。
【0016】
本発明の文書/音声変換装置の第3態様は、音声読み上げ用に構造化した文書を受け取る文字情報入力部と、前記文字情報入力部が受け取った前記文書を蓄積する記憶手段と、前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更する蓄積/読み出し処理部と、前記蓄積/読み出し処理部から受け取った変更後の文書を音声情報に変換する読み上げ処理部と、前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部とを備えたことを特徴とする。
【0017】
第3態様の文書/音声変換装置では、前記文書が付帯情報と内容を持ったコンテンツの一覧であり、各コンテンツの付帯情報または内容の一部を前記記憶装置に蓄えることができる。
【0018】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ順の並び替えを行う並び替え処理機能を有することができる。これにより、一覧に含まれる各項目の情報を用いて、並び替えや検索ができるようにでき、所望の情報が探しやすくなる。
【0019】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部123は、前記コンテンツの前記付帯情報または内容の一部について、読み上げるか否かの選択を行う読上げ選択処理機能を有することができる。これにより、一覧に含まれる各項目を番号で並び替えたり、五十音順で並び替えたりすることにより所望の情報を探しやすくすることである。
【0020】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ方を変える読み分け処理機能を有することができる。これにより、一覧に含まれる各項目を予めある条件に沿って取捨選択しておくことができ、所望の情報を探しやすくなる。
【0021】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げるか否かを決定するカテゴリ別読み上げ処理機能を有することができる。これにより、一覧に含まれている各項目の情報の中で、所望の情報がどれかを判断しやすくなる。
【0022】
第3態様の文書/音声変換装置では、読み上げるべきカテゴリか否かがユーザにより指定されるようにできる。分類ごとに読み上げる項目を取捨選択できるので、所望の情報が探しやすくなる。
【0023】
第3態様の文書/音声変換装置では、前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げ方を変更するカテゴリ別読み分け処理機能を有することができる。これにより、分類ごとに読み上げる項目を取捨選択することで、所望の情報が探しやすくなる。
【0024】
第3態様の文書/音声変換装置では、前記読み上げ方の変更および/または前記読み上げ方の内容がユーザにより指定されることを特徴とする。特に、一覧に含まれている各項目を分類した際に、分類ごとに読み上げる際の声色や早さを異ならせることで、現在読み上げている情報がどの分類に属するかを判断しやすくなる。
【0025】
第1から第3態様の文書/音声変換装置では、前記文書は、電子文書とすることができる。
【0026】
本発明の文書/音声変換方法の第1態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を音声情報に変換し、前記音声情報を音声信号に変換し、前記音声信号を音声出力するもので、前記音声出力の最中に、特定の割込みを受け、前記音声情報の前記文書の所定部分(一部または全部)の読み上げ直しを行うことを特徴とする。
【0027】
本発明の文書/音声変換方法の第2態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を音声情報に変換し、前記音声情報を音声信号に変換するもので、前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を受け付け、前記音声情報の前記文書TIの所定部分の読み上げ直しを行うことを特徴とする。
【0028】
本発明の文書/音声変換方法の第3態様は、音声読み上げ用に構造化した文書を受け取り、前記文書を記憶手段に蓄積するもので、前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更し、前記変更後の文書を音声情報に変換し、前記音声情報を音声信号に変換し、これを音声出力することを特徴とする。
【0029】
【発明の実施の形態】
図1は、本発明の実施形態を示すブロック図である。
【0030】
図1において、文書/音声変換装置1は、文字情報入力部11と、入力解釈部12と、変換処理部13と、音声情報出力部14と、記憶装置15と、割込受付部16とを備えている。なお、入力解釈部12は、文書/音声変換装置1が本発明の第2態様の文書/音声変換装置として動作するときには、繰返し指定取得部としても動作することができる。
【0031】
文字情報入力部11は、電子文書の文字情報を音声読み上げ用に構造化した文書を入力として受け取り、これを入力解釈部12に渡す。
【0032】
入力解釈部12は、入力された文書情報を、変換処理部13が理解できる情報に変換する。このとき、変換の態様の指定や、文の区切り等の設定等を行い文書/音声変換の準備を行う。
【0033】
変換処理部13は、入力解釈部12により解釈された情報を音声情報に変換する。
【0034】
音声情報出力部14は、変換処理部13から音声情報を受け取り、音声出力する。
【0035】
記憶装置15は、入力解釈部12により解釈した情報を一時的に保持しておくことができる。
【0036】
割込受付部16は、典型的には、音声情報出力部14による音声出力中にユーザによる操作などの割込みを受け付けることができる。
【0037】
図2は、文書/音声変換装置1の詳細構成を示すブロック図である。文字情報入力部11は、図1に示した文字情報入力部11と同じであり、電子文書の文字情報を音声読み上げ用に構造化した文書を入力として受け取り、入力解釈部12に渡す。
【0038】
入力解釈部12は、読み上げ処理部121と、繰返し処理部122と、蓄積/読み出し処理部123とからなる。
【0039】
読み上げ処理部121は、本発明の文書/音声変換装置の第1態様における読み上げ処理を行うとともに、割込受付部16からの割込み情報を受け取り、読み上げ直しの処理を行う。繰返し処理部122は、本発明の文書/音声変換装置の第2態様における繰返し処理を行う。
【0040】
蓄積/読み出し処理部123は、本発明の文書/音声変換装置の第3態様において、各情報を記憶装置15に蓄え、または蓄えた情報を取り出すことができる。さらに、その蓄積された情報を用いて以下の機能を実現する。
【0041】
並び替え処理機能F1は、本発明の文書/音声変換装置の第3態様における、並び替えの処理を行う。
【0042】
読み上げ選択処理機能F2は、本発明の文書/音声変換装置の第3態様における読み上げ選択の処理を行う。この際、読み上げ条件入力部から読み上げる項目を選択する際の判断条件を受け取る。
【0043】
読み上げ条件入力機能F3は、記憶装置15から読み上げる項目を取り出し、またはユーザからの入力を受け取り、読み上げ選択処理機能F2やカテゴリ別読み上げ処理機能F61にその情報を渡す。
【0044】
読み分け処理機能F4は、本発明の文書/音声変換装置の第3態様における読み分けの処理を行う。この際、読み方データ入力機能F5から読み上げ方の情報を受け取る。
【0045】
読み方データ入力機能F5は、記憶装置15から読み方のデータとその条件を取り出し、またはユーザからの入力を受け取り、読み分け処理機能F4やカテゴリ別読み上げ処理機能F61にその情報を渡す。
【0046】
カテゴリ分け処理機能F6は、本発明の文書/音声変換装置の第3態様における各情報のカテゴリ別に分ける処理を行う。その分けた情報を使い、カテゴリ別読み上げ処理機能F61、カテゴリ別読み分け処理機能F62の機能の全部または一部を実現する。
【0047】
カテゴリ別読み上げ処理機能F61は、本発明の文書/音声変換装置の第3態様におけるカテゴリ別の読み上げ選択の処理を行う。この際、読み上げ条件入力機能F3から読み上げるカテゴリを選択する際の判断条件を受け取る。
【0048】
カテゴリ別読み分け処理機能F62は、本発明の文書/音声変換装置の第3態様におけるカテゴリ別の読み分けの処理を行う。この際、読み方データ入力機能F5から読み上げ方の情報を受け取る。
【0049】
入力解釈部12は、解釈の終わった情報から音声情報に変換するべき部分を順次、変換処理部13に渡し、変換処理部13は、入力解釈部12から受け取った情報を音声合成などの技術を使って音声データに変換し、音声情報出力部14に渡す。すなわち、音声情報出力部14では、変換処理部13から受け取った音声データを電話線やネットワーク、スピーカなど、外部に送出する。
【0050】
記憶装置15は、蓄積/読み出し処理部123の各機能との間で、情報の受け渡しをする。
【0051】
割込み受付部16は、ユーザ操作などの割込みを入力として受け付け、必要に応じて読み上げ処理部121にその情報を渡す。
【0052】
図1および図2の文書/音声変換装置1の動作を、図3〜図13を用いて説明する。なお、以下でボイスブラウザと言うときは、VoiceXMLなどの、情報を構造化して記録してある文書を入力として受け取り、それを解釈して音声のデータに変換する装置ないし手段をさす。
【0053】
まず、図1の文書/音声変換装置1の動作を図3に示す流れ図を用いて説明する。
【0054】
ボイスブラウザは、入力として受け取った文書の段落を表す構造を表すもの(HTML文書で言えば、<p>タグなど)を認識することができる。
【0055】
ボイスブラウザは、読上げ処理を開始すると(S101)、まずその段落の始まりを設定する(S102)。そして、段落の始めから一文ずつ読み上げ始める(S103)。ここで、一文を読み上げている間にユーザから読み上げ直し要求の割込み(例えば、特定の発声を音声認識したものや、特定のDTMF信号など)があった場合には(S104の「YES」)、先ほど記憶した段落の始まりまで戻り、そこから再び読み上げ直す。
【0056】
割込みがなかった場合には(S104の「NO」)、そこが段落の終わりかを判断し(S105)、終わりでなければ(S105の「NO」)次の一文に進み(S106)、終わりであれば(S106の「YES」)文章の終わりまで読み上げたかを判断し(S107)、終わりでなければ(S107の「NO」)次の段落に進み、終わりであれば(S107の「YES」)処理を終了する(S108)。
【0057】
こうして、これを文章の終わりまで繰り返す。ここで、「段落」と「一文」の単位で処理を進める例を提示したが、これは「一文」と「一文節」という単位のような文章の区切り方はない。また、「段落の始まり」ではなく「現在読み上げている部分の10秒前に読み上げた部分」と言うように、時間単位の区切り方にしても構わない。
【0058】
ここで、この説明を図4の受信メールの一覧を読み上げる場合を例にとって説明しなおす。図5は図4の表を読み上げる場合の読み上げ例を表示したものである。ユーザが図5の読み上げ文章を聞いているうちに、何らかの原因により、「2 送信者○×商事」の部分を聞き逃したとする。この場合、例えばユーザが「待て」と言う音声命令を発すると、ボイスブラウザがこれを認識し、再び「2 送信者○×商事・・・」から読み上げ始める。
【0059】
本発明の文書/音声変換装置の第2態様における第1実施形態を、図6に示す流れ図を用いて説明する。
【0060】
ここでは、繰返しの指示がタグによってなされており、そのタグには繰返しの回数が書いてあるとする。例えば、「<repeat times=2>XXXX</repeat>」等としていることにする。ただし、タグによって構造を記述する文書以外の場合は他の方法で繰返し指示を書くことになる。また、タグの名前もrepeatではなくても良い。ボイスブラウザはこの繰返し指示を見つけると、繰返し処理を開始する(S201)。繰返しの回数を変数Nに代入し、別の変数nを0に初期化する(S202)。
【0061】
そしてその指示が示す範囲を読み上げ(S203)、nを1インクリメントする(S204)。次にnとNを比較し(S205)、nの方がNよりも小さければもう一度繰返し指示の示す範囲の先頭まで戻り(S205の「NO」)、読み上げなおす。nとNが同じ値ならば(S205の「YES」)、繰返しの処理を終えて次の処理に移る(S206)。図5の例で示すと、図5の「送信者」の次の氏名を示す部分をすべて<repeat times=2></repeat>タグで囲むとすると、図5の冒頭の部分は「1 送信者 山田太郎 山田太郎
2002年・・・」と読み上げられることとなる。
【0062】
図6の流れ図の、読上げの繰返し処理は、通常の文書で強調するときに太字や斜体を使用するのと同じ様に使用できる。本発明の文書/音声変換装置の第3態様における第1実施形態を説明する。
【0063】
図4の送信者や受信日時など、情報をボイスブラウザが受け取った際に、そのまま読み上げ処理をさせるのではなく所定のメモリ上に展開しておく。その展開したデータのイメージを図7に示す。このようにメモリ上に展開することにより、日付のデータであればその数字自体を、文字や文章のデータであれば、それを辞書の並び順にしたものを検索のキーなどに使用できる。
【0064】
また、添付ファイルの有無も検索のキーとして使用できる。本発明の文書/音声変換装置の第3態様における第2実施形態を、図8に示す流れ図を用いて説明する。まず、並び替え処理が開始されると(S301)、ユーザは「日付順」、「添付ファイルのあるものから先に」などと、音声入力、またはDTMF信号などで並び換えの順を指定する(S302)。ボイスブラウザは図7のように展開された文書のデータをメモリから取り出し、指示された順に並び替えて読み上げ(S303)、この後処理を終了する(S304)。ここで、DTMF信号で並び替え条件を入力するときは、入力前に並び替え順の候補を読み上げて提示することなどができる。また、音声入力による指示も、フリーワードの認識やいくつかの選択肢の中から選ぶ形式など、指示の方法は問わない。
【0065】
本発明の文書/音声変換装置の第3態様における第3実施形態を、図9に示す処理の流れ図を用いて説明する。
【0066】
読み上げ選択処理が開始され(S401)、ユーザが「添付ファイルのあるもの以外」、「○×商事から受信したもののみ」、「請求と言う単語を含むもののみ」などと、音声入力またはDTMF信号などで読み上げる条件を指定する(S402)。このときの指示の方法は、上記した第2実施形態の場合と同様、どのような方法であるかを問わない。ボイスブラウザは図7のように展開された文書のデータをメモリから一つずつ順に読み出し(S403)、与えられた条件にマッチしていれば(S404の「YES」)、読み上げる(S405)。一つの処理が終わると、取り出したデータが最後のデータか否かを判断し(S406)、最後のデータであれば(S406の「YES」)処理を終了し(S407)、最後のデータでなければ(S406の「NO」)次のデータを読み出す。
【0067】
また、図8および図9に示した処理を組み合わせると、ユーザは例えば「請求と言う単語を含むものを日付の順に」などといった指定も可能となる。
【0068】
本発明の文書/音声変換装置の第3態様における第4実施形態を、図10に示す流れ図を用いて説明する。まず、処理が開始されると(S501)、ユーザは「請求と言う単語を含むものは女性の声で」、「添付ファイルのあるものは読み上げ速度を若干早く」と言ったような、読み上げ方のデータを入力する(S502)。ここで、ユーザが読み上げ方のデータを入力しなくとも、このデータがデフォルトで設定されていてもよい。また、入力の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。次に、ボイスブラウザは図7のように展開された文書のデータをメモリから一つずつ順に取り出し(S503)、前もって指定されている条件にマッチするかどうかを判断し(S504)、マッチするときは(S504の「YES」)そのデータに対応した読み上げ方(声色、速度、音量など)で読み上げる(S505)。条件にマッチしない場合は(S504の「NO」)、通常の音声で読み上げる(S506)。そして、今のデータが最後のデータかどうかを判断し(S507)、最後でなければ(S507の「NO」)次のデータの処理へ移り、最後であれば(S507の「YES」)処理を終了する(S508)。
【0069】
本発明の文書/音声変換装置の第3態様における第5実施形態を、図11に示す処理の流れ図を用いて説明する。処理が開始されると(S601)ユーザは音声入力やDTMF信号による指示などで「請求と言う単語を含むもの」、「見積と言う単語を含むもの」などとN個のカテゴリの条件を指定する(S602)。ここで、それぞれのカテゴリにわかりやすい名前をつけることも考えられる。ボイスブラウザはカテゴリを指定されたときにそれぞれに1からNの通し番号を振っておき、カテゴリの指定が終わると変数nを1に初期化する(S603)。そして図7の展開したデータを一つずつ取り出し(S604)、番号nのカテゴリに含まれるかどうかをチェックし(S605)、取り出したデータが番号nのカテゴリに含まれない場合は次のデータを取り出す。S605において、取り出したデータが番号nのカテゴリに含まれる場合は図7のデータにカテゴリの情報nを付加し(S606)、取り出したデータが最後のデータか否かを判断する(S607)。最後のデータないときは、次のデータを取り出す(S607の「NO」)。この作業を最後のデータまで繰返し、最後のデータについてこの処理が終わると、nを1インクリメントする(S608)。そして、nとNを比較してnがNより大きくなければ(S609の「NO」)再度先頭のデータから上記の処理を繰返し(S610)、nがNより方が大きければ(S609の「YES」)処理を終了する(S611)。カテゴリの指示の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。
【0070】
本発明の文書/音声変換装置の第3態様における第6実施形態を、図12に示す処理の流れ図を用いて説明する。カテゴリ別読み上げ処理が開始されると(S701)、まず、図11で説明したカテゴリ分けの処理を行う(S702)。ユーザは読み上げ条件を入力する。すなわち、「このカテゴリだけを読み上げる」といった指示を音声入力またはDTMF信号などにより行う(S703)。このときの指示の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。ボイスブラウザは、最初のカテゴリから順にデータをすべて取り出し(S704)、そのカテゴリが入力された読み上げ条件にマッチするかを判断する(S705)。マッチする場合はそのカテゴリのデータを読み上げ(S706)、そのカテゴリが最後のカテゴリかどうかを判断する。マッチしない場合は読み上げないで、そのカテゴリが最後のカテゴリかどうかを判断する(S707)。それが最後でなければ次のカテゴリの処理に移り(S707の「NO」)、以上の処理を繰り返す。最後であれば(S707の「YES」)、そこで処理を終了する(S708)。
【0071】
本発明の文書/音声変換装置の第3態様における第7実施形態を、図13に示す処理の流れ図を用いて説明する。カテゴリ別読み分け処理が開始されると(S801)、まず、図11で示したカテゴリ分けの処理を行う(S802)。ユーザはカテゴリ別読み方データを入力する。すなわち、「請求と言う単語を含むカテゴリは女性の声で」、「添付ファイルのあるものというカテゴリは読み上げ速度を若干早く」と言ったような、カテゴリ別の読み方データを入力する(S803)。ここで、ユーザがカテゴリ別の読み上げ方のデータを入力しなくとも、このデータがデフォルトで設定されていてもよい。また、入力の方法は、第2実施形態の場合と同様、どのような方法であるかを問わない。次に、ボイスブラウザはカテゴリに含まれるデータをすべて取り出し(S804)、前もって指定されているそのカテゴリに対応した読み上げ方(声色、速度、音量など)で読み上げる(S805)。そして、今のカテゴリが最後のカテゴリかどうかを判断し(S806)、最後でなければ(S806の「NO」)次のカテゴリの処理へ移り、最後であれば(S806の「YES」)処理を終了する(S807)。
【0072】
【発明の効果】
本発明によれば、読み上げられている情報を聞き逃したときであっても、簡単に聞き逃した部分を再現することができ、読み上げられる情報のうち注意を喚起したい部分を、繰り返し再現することができ、読み上げられる情報のうち必要な部分のみを音声出力することができる。
【図面の簡単な説明】
【図1】本発明の文書/音声変換装置の一実施形態を示すブロック図である。
【図2】図1の文書/音声変換装置の詳細構成を示すブロック図である。
【図3】図1の文書/音声変換装置の動作を示す流れ図である。
【図4】受信メールの一覧を示す図である。
【図5】図4の一覧を読み上げる場合の読み上げ例を示す図である。
【図6】本発明の文書/音声変換装置の第3態様における第1実施形態を示す流れ図である。
【図7】メモリ上に展開した文書データのイメージ図である。
【図8】本発明の文書/音声変換装置の第3態様における第2実施形態を示す図である。
【図9】本発明の文書/音声変換装置の第3態様における第3実施形態を示す図である。
【図10】本発明の文書/音声変換装置の第3態様における第4実施形態を示す図である。
【図11】本発明の文書/音声変換装置の第3態様における第5実施形態を示す図である。
【図12】本発明の文書/音声変換装置の第3態様における第6実施形態を示す図である。
【図13】本発明の文書/音声変換装置の第3態様における第7実施形態を示す図である。
【符号の説明】
1 文書/音声変換装置
11 文字情報入力部
12 入力解釈部
13 変換処理部
14 音声情報出力部
15 記憶装置
16 割込み受付部
121 読み上げ処理部
122 繰返し処理部
123 蓄積/読み出し処理部
F1 並び替え処理機能
F2 読み上げ選択処理機能
F3 読み上げ条件入力機能
F4 読み分け処理機能
F5 読み方データ入力機能
F6 カテゴリ分け処理機能
F61 カテゴリ別読み上げ処理機能
F62 カテゴリ別読み分け処理機能
Claims (15)
- 音声読み上げ用に構造化した文書を受け取る文字情報入力部と、
前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、
前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、
前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、
音声情報出力部による音声出力の最中に、特定の割込みを受け付ける割込み受付け部と、
を備えた文書/音声変換装置であって、
前記割込み受付け部が前記割込みを受け付けたときは、前記読み上げ処理部は、前記音声情報の前記文書の所定部分の読み上げ直しを行う、
ことを備えたことを特徴とする文書/音声変換装置。 - 音声読み上げ用に構造化した文書を受け取る文字情報入力部と、
前記文字情報入力部により受け取った前記文書を音声情報に変換する読み上げ処理部と、
前記文字情報入力部が前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定RRを取得する繰返し指定取得部と、
前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、
前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、
前記繰返し指定取得部が前記繰返し読み上げ指定を受け付けたときは、前記音声情報の前記文書の所定部分の読み上げ直しを行う繰返し処理部と、
を備えたことを特徴とする文書/音声変換装置。 - 音声読み上げ用に構造化した文書を受け取る文字情報入力部と、
前記文字情報入力部が受け取った前記文書を蓄積する記憶手段と、
前記記憶手段に蓄積した前記文書TIを読み出し、前記文書の文書構成を変更する蓄積/読み出し処理部と、
前記蓄積/読み出し処理部から受け取った変更後の文書を音声情報に変換する読み上げ処理部と、
前記読み上げ処理部により変換した音声情報を音声信号に変換する変換処理部と、
前記変換処理部からの音声信号を入力して音声を出力する音声情報出力部と、を備えたことを特徴とする文書/音声変換装置。 - 前記文書が付帯情報と内容を持ったコンテンツの一覧であり、各コンテンツの付帯情報または内容の一部が前記記憶装置に蓄えられることを特徴とする請求項3に記載の文書/音声変換装置。
- 前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ順の並び替えを行う並び替え処理機能を有することを特徴とする請求項4に記載の文書/音声変換装置。
- 前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げるか否かの選択を行う読上げ選択処理機能を有することを特徴とする請求項4または5に記載の文書/音声変換装置。
- 前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容の一部について、読み上げ方を変える読み分け処理機能を有することを特徴とする請求項4から6の何れかに記載の文書/音声変換装置。
- 前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げるか否かを決定するカテゴリ別読み上げ処理機能を有することを特徴とする請求項4から7の何れかに記載の文書/音声変換装置。
- 読み上げるべきカテゴリか否かがユーザにより指定されることを特徴とする請求項8に記載の文書/音声変換装置。
- 前記蓄積/読み出し処理部は、前記コンテンツの前記付帯情報または内容をカテゴリ分けし、当該カテゴリごとに読み上げ方を変更するカテゴリ別読み分け処理機能を有することを特徴とする請求項4から7の何れかに記載の文書/音声変換装置。
- 前記読み上げ方の変更および/または前記読み上げ方の内容がユーザにより指定されることを特徴とする請求項10に記載の文書/音声変換装置。
- 前記文書は、電子文書であることを特徴とする請求項1から11の何れかに記載の文書/音声変換装置。
- 音声読み上げ用に構造化した文書を受け取り、
前記文書を音声情報に変換し、
前記音声情報を音声信号に変換し、
前記音声信号を音声出力する文書/音声変換方法において、
前記音声出力の最中に、特定の割込みを受け、前記音声情報の前記文書の所定部分(一部または全部)の読み上げ直しを行う、
ことを特徴とする文書/音声変換方法。 - 音声読み上げ用に構造化した文書を受け取り、
前記文書を音声情報に変換し、
前記音声情報を音声信号に変換する文書/音声変換方法において、
前記文書を受け取る際に、前記文書の所定部分の繰返し読み上げ指定を受け付け、前記音声情報の前記文書の所定部分の読み上げ直しを行う、
ことを特徴とする文書/音声変換方法。 - 音声読み上げ用に構造化した文書を受け取り、
前記文書を記憶手段に蓄積する文書/音声変換方法において、
前記記憶手段に蓄積した前記文書を読み出し、前記文書の文書構成を変更し、
前記変更後の文書を音声情報に変換し、
前記音声情報を音声信号に変換し、これを音声出力する、
ことを特徴とする文書/音声変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003030063A JP2004240217A (ja) | 2003-02-06 | 2003-02-06 | 文書/音声変換装置および文書/音声変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003030063A JP2004240217A (ja) | 2003-02-06 | 2003-02-06 | 文書/音声変換装置および文書/音声変換方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240217A true JP2004240217A (ja) | 2004-08-26 |
Family
ID=32957053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003030063A Pending JP2004240217A (ja) | 2003-02-06 | 2003-02-06 | 文書/音声変換装置および文書/音声変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240217A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006208793A (ja) * | 2005-01-28 | 2006-08-10 | Alpine Electronics Inc | 音声処理装置、音声処理方法およびプログラム |
JP2006317876A (ja) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声読み上げ装置およびプログラム |
JP2006317875A (ja) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声読み上げ装置およびプログラム |
US9812120B2 (en) | 2008-04-23 | 2017-11-07 | Sony Mobile Communications Inc. | Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system |
WO2022195750A1 (ja) * | 2021-03-17 | 2022-09-22 | パイオニア株式会社 | 出力装置、出力方法及び出力プログラム |
-
2003
- 2003-02-06 JP JP2003030063A patent/JP2004240217A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006208793A (ja) * | 2005-01-28 | 2006-08-10 | Alpine Electronics Inc | 音声処理装置、音声処理方法およびプログラム |
JP2006317876A (ja) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声読み上げ装置およびプログラム |
JP2006317875A (ja) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声読み上げ装置およびプログラム |
JP4514144B2 (ja) * | 2005-05-16 | 2010-07-28 | 日本電信電話株式会社 | 音声読み上げ装置およびプログラム |
US9812120B2 (en) | 2008-04-23 | 2017-11-07 | Sony Mobile Communications Inc. | Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system |
US10720145B2 (en) | 2008-04-23 | 2020-07-21 | Sony Corporation | Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system |
WO2022195750A1 (ja) * | 2021-03-17 | 2022-09-22 | パイオニア株式会社 | 出力装置、出力方法及び出力プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
JP4225703B2 (ja) | 情報アクセス方法、情報アクセスシステムおよびプログラム | |
US7092496B1 (en) | Method and apparatus for processing information signals based on content | |
US8364487B2 (en) | Speech recognition system with display information | |
JP5671557B2 (ja) | クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法 | |
JPH10274997A (ja) | 文書読み上げ装置 | |
JP2010236858A (ja) | ナビゲーション装置 | |
JPWO2008114811A1 (ja) | 情報検索システム、情報検索方法及び情報検索用プログラム | |
KR20090111825A (ko) | 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치 | |
CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
JP2012194245A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4724051B2 (ja) | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 | |
JPH11110186A (ja) | ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体 | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
JP2004240217A (ja) | 文書/音声変換装置および文書/音声変換方法 | |
KR20220121455A (ko) | Stt를 활용한 화자구분 시스템 | |
JP5059080B2 (ja) | 音声情報検索システム及び音声情報検索方法 | |
JP6365520B2 (ja) | 音声出力装置、音声出力方法、およびプログラム | |
JPH10274999A (ja) | 文書読み上げ装置 | |
KR101103029B1 (ko) | 인덱스 인식에 따라 데이터를 추출하는 시스템 및 그 운용방법 | |
JP2003099089A (ja) | 音声認識・合成装置および方法 | |
JP2010113678A (ja) | 姓名解析方法、姓名解析装置、音声認識装置、および姓名頻度データ生成方法 | |
JP2001014309A (ja) | 文字変換装置及びその方法と文字変換のためのプログラムを記録した記録媒体 | |
JP2003333203A (ja) | 音声合成システム、サーバ装置および情報処理方法ならびに記録媒体、プログラム | |
JP2000099072A (ja) | 文書読み上げ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080122 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080708 |