JP2007172597A

JP2007172597A - 音声処理装置及び音声処理方法

Info

Publication number: JP2007172597A
Application number: JP2006320876A
Authority: JP
Inventors: Yasuo Okuya; 泰夫奥谷; Masaaki Yamada; 雅章山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-11-28
Filing date: 2006-11-28
Publication date: 2007-07-05

Abstract

【課題】音声合成において、文書作成者が意図した箇所において、音声出力の早送りを制限可能にする。
【解決手段】音声合成の対象となる発声内容情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別し、早送り設定がされている場合に発声内容情報を音声合成する際に、許可部分については早送り設定による音声合成を実行する。また、早送り設定において発声内容情報を音声合成する際に、制限部分については、上記許可部分とは異なる態様で、例えば通常の発声速度で音声合成を実行する。
【選択図】図３

Description

本発明は、早送りモードを備えた音声処理に関する。

Ｗｅｂページ等の文書データを音声合成により音声出力することにより、視覚障害者に文書データの内容を伝えることが提案されている。また、視覚障害者がＷｅｂページ等の文書の概要を迅速に効率よく把握することを目的として、音声合成における音声の早送り、巻き戻し機能が研究されている。最も一般的な音声の早送りの方法は、合成音声の発声速度を速くするという方法である。また、さらに迅速に、且つ効率よく文書内容を把握するための音声合成による音声の早送りの方法が非特許文献１や特許文献１により提案されている。非特許文献１では、リンクのみを読み上げる方法、読み上げ位置を示すためのカーソルを固定単位で進める方法の２種類の読み飛ばし方法による音声の早送りに関する研究が報告されている。また、特許文献１では、早送りモードの場合に見出しのみを読み上げる方法が提案されている。
特開昭６３−２３１４９３号公報電子情報通信学会信学技報 TL2004-39 WIT2004-63 (2005-01)

しかしながら、発声速度を速くする方法や、非特許文献１や特許文献１で示す早送り方法では、文書作成者が意図するその文書の重要な個所とは無関係に早送りや読み飛ばしが実行される。そのため、文書の重要な個所が聴き取りにくくなってしまったり、読み上げられなかったりするという課題があった。

本発明は上記の課題に鑑みてなされたものであり、音声合成において、文書作成者が意図した箇所において、音声出力の早送りを制限可能にすることを目的とする。

上記の目的を達成するための本発明による音声処理装置は、
音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について、前記早送り設定による音声合成を実行する第１合成手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について、前記第１合成手段と異なる態様で音声合成を実行する第２合成手段とを備える。

また、上記の目的を達成するための本発明による音声処理方法は
音声処理装置による音声処理方法であって、
識別手段が、音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別工程と、
第１合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について前記早送り設定による音声合成を実行する第１合成工程と、
第２合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について前記第１合成工程と異なる態様で音声合成を実行する第２合成工程とを備える。

本発明によれば、音声合成において、文書作成者が予め指定した箇所において、音声出力の早送りを制限することが可能となる。このため、文書作成者が予め指定した箇所について音声出力の早送りを制限することができ、文書の重要な個所が聴き取りにくくなってしまったり読み飛ばされてしまったりする可能性を低減させることができる。

以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。

［第１実施形態］
第１実施形態では、ＨＴＭＬなどに代表されるタグ付きテキストを入力とし、タグ付きテキストから抽出されたコンテンツを音声に変換する音声処理装置について説明する。なお、第１実施形態における「早送り」とは、通常より速い発声速度の音声合成を行うことであり、そのような音声合成を実行するモードを早送りモードという。また、通常の発声速度で発声するモードを通常モードという。

図４は、第１実施形態の音声合成による読み上げの対象となるタグ付きテキストの一例を示す図である。開始タグ〈h1〉と終了タグ〈/h1〉や、開始タグ〈p〉と終了タグ〈/p〉で囲まれた部分は、音声合成による読み上げ対象箇所である。ここではこのようにタグで囲まれた部分をコンテンツと呼ぶ。読み上げ対象を示すタグで囲まれたコンテンツは発声内容を表す発声内容情報である。また、文書作成者は開始タグ〈mustRead〉および終了タグ〈/mustRead〉を使って、早送りモード（早送り設定ともいう）でも通常の発声速度で音声合成されるべき個所を指定する。このように早送りモードでも早送りを行わないように制限した部分を制限部分と称する。図４では、「なお、シンポジウム…ご連絡ください。」の部分が開始タグ〈mustRead〉および終了タグ〈/mustRead〉で囲まれており、制限部分となっている。

図４に示すタグ付きテキストが本実施形態の音声処理装置に入力されると、次のように音声の合成処理が行われる。出力モードが早送りに設定されている場合、開始タグ〈mustRead〉と終了タグ〈/mustRead〉で囲まれた部分以外は早送りで音声合成される。また、開始タグ〈mustRead〉と終了タグ〈/mustRead〉で囲まれた部分は通常の発声速度で音声合成される。一方、出力モードが早送り設定（早送りモード）でない場合は、開始タグ〈mustRead〉と終了タグ〈/mustRead〉で囲まれているか否かにかかわらず、通常の発声速度で音声合成される。以上のように、本実施形態では、発声内容情報は、制限部分の発声内容を表すテキスト列が予め定義されたタグによって囲まれたタグ付きテキスト情報となっている。

以上のような機能を実現する本実施形態の音声処理装置の構成および動作について、図１〜図３を用いて、以下、説明する。

図１は、第１実施形態における音声処理装置のハードウエア構成を示すブロック図である。

図１において、制御メモリ１０１には本実施形態の音声処理の手順や必要な固定的データが格納される。中央処理装置１０２は、数値演算／制御等の処理を行う。メモリ１０３には一時的なデータが格納される。外部記憶装置１０４には処理対象の文書データ等、各種データやプログラムが格納され、それらは必要に応じてメモリ１０３にロードされる。入力装置１０５は、ユーザが本装置に対してデータを入力したり、動作を指示したりするのに用いられる。出力装置１０６は、中央処理装置１０２の制御下でユーザに対して各種の情報を提示する。出力装置１０６としては、ＣＲＴやＬＣＤ等の表示装置が一般的である。音声出力装置１０７は、音声合成処理によって生成された合成音声を出力する。上述した各装置はバス１０８に接続されており、各装置間のデータのやり取りはバス１０８を通じて行われる。

図２は、第１実施形態における音声処理装置のモジュール構成を示すブロック図である。なお、各モジュールは中央処理装置１０２が制御メモリ１０１あるいは外部記憶装置１０４からメモリ１０３にロードされた制御プログラムを実行することにより実現される。

図２において、モード識別部２０１は出力モードを取得して早送りモードか否かの識別を行う。早送りモード及び通常モード等のモード設定は入力装置１０５を介して行われる。モード保持部２０２はモード識別部２０１の識別結果を保持する。テキスト保持部２０３は図４に示したような、音声合成対象のタグ付きテキストを保持する。テキスト構造解析部２０４はテキスト保持部２０３によって保持されたタグ付きテキストを解析し、コンテンツもしくは制御情報を取得する。テキスト構造保持部２０５は、テキスト構造解析部２０４によって得られたコンテンツもしくは制御情報を保持する。早送り可否情報取得部２０６は、テキスト構造保持部２０５が保持する制御情報から早送り可否情報を取得する。可否情報保持部２０７は、早送り可否情報取得部２０６が取得した早送り可否情報を保持する。発声速度決定部２０９は、モード保持部２０２が保持するモード情報および可否情報保持部２０７が保持する早送り可否情報から音声合成の発声速度を決定する。発声速度保持部２１０は、発声速度を保持する。音声合成部２０８は、発声速度保持部２１０が保持する発声速度にしたがって音声合成を行う。

なお、本実施形態におけるテキスト構造解析部２０４は、タグ付きテキストを逐次解析するものとする。また、上記各保持部（２０２，２０３，２０５，２０７，２１０）は、メモリ１０３を用いて各種データの保持を行う。

図３は第１実施形態における音声処理装置の処理を示すフローチャートである。以下、図３のフローチャートを参照して第１実施形態による音声処理を説明する。なお、図３に示す処理の開始時においてテキスト保持部２０３には発声すべき文字列（タグ〈p〉と〈/p〉で囲まれた文字列）を含む図４の如きテキストが保持されている。

ステップＳ３０１において、テキスト構造解析部２０４は、テキスト保持部２０３に保持されているタグ付きテキストの中に未処理の部分が存在するかどうかを識別する。未処理の部分が存在すると識別された場合はステップＳ３０２に移り、未処理の部分が存在しないと識別された場合は本処理を終了する。

ステップＳ３０２において、テキスト構造解析部２０４は、テキスト保持部２０３に保持されているタグ付きテキストの未処理部分の先頭から特定の範囲の文字列を抽出する。
ここで一度に抽出される単位はタグ（“〈”から“〉”の範囲）、或いは、タグによって囲まれた部分とする。テキスト構造解析部２０４はテキスト保持部２０３から抽出した文字列をテキスト構造保持部２０５に保持する。例えば、図４の例の場合、「〈h1〉」→「音声合成シンポジウム開催のご案内」→「〈/h1〉」…というように文字列が抽出される。

次に、ステップＳ３０３において、テキスト構造保持部２０５に保持されている文字列が制御情報か否かを判定する。この判定の結果、制御情報であった場合はステップＳ３０４に処理が進む。本例において、制御情報である場合とは、保持されている文字列が「タグ」を記述する文字列であった場合である。即ち、〈h1〉や〈/h1〉は制御情報と判定される。また、制御情報以外の場合とは、タグとタグの間に記述されたコンテンツに該当する文字列である。

ステップＳ３０４において、早送り可否情報取得部２０６は、テキスト構造保持部２０５が保持する文字列によって表される制御情報が早送りの適用を制限するものであるか否かを識別する。本例では、早送りを制限する制御情報として、図４に示した〈mustRead〉と〈/mustRead〉を用いており、それぞれ早送りの制限範囲の開始と終了に対応する。ステップＳ３０４において、テキスト構造保持部２０５に保持されている制御情報が、早送りの制限開始タグ（〈mustRead〉タグ）であった場合は、早送りが否であることを可否情報保持部２０７に保持してステップＳ３０１に戻る。一方、早送り制限の終了タグ（〈/mustRead〉タグ）であった場合は、早送りが可であることを可否情報保持部２０７に保持してステップＳ３０１に戻る。また、制御情報がそれ以外の場合は、そのままステップＳ３０１に戻る。

ステップＳ３０３においてテキスト構造保持部２０５に保持されている文字列が制御情報ではない場合、本実施形態では、当該文字列はコンテンツを示す文字列である。この場合、処理はステップＳ３０３からステップＳ３０５へ進む。ステップＳ３０５では、モード識別部２０１が現在の出力モードを取得し、出力モードが早送りモードであるか否かをモード保持部２０２に保持する。続いて、ステップＳ３０６〜Ｓ３０８において、発声速度決定部２０９は、可否情報保持部２０７が保持する早送り可否情報とモード保持部２０２が保持するモード情報から音声合成の発声速度を決定し、結果を発声速度保持部２１０に保持する。即ち、早送り可否情報が可で、かつ、出力モードが早送りである場合はステップＳ３０６からステップＳ３０７に処理が進む。ステップＳ３０７において、発声速度決定部２０９は早送りに対応した発声速度を発声速度保持部２１０に保持する。そして、音声合成部２０８は、発声速度保持部２１０が保持する早送りの発声速度にしたがって、テキスト構造保持部２０５に保持されている文字列を音声合成する。この結果、テキスト構造保持部２０５に保持されている文字列は早送りで音声合成される。本実施形態では、通常の発声速度よりも早いピッチで発声することにより、早送りの音声合成を実現する。その後、ステップＳ３０１に戻る。

一方、ステップＳ３０６において、早送り可否情報が否であった場合、或いは出力モードが早送りでない場合は、ステップＳ３０８へ進む。ステップＳ３０８において、発声速度決定部２０９は通常の発声速度を発声速度保持部２１０に保持する。音声合成部２０８は、発声速度保持部２１０が保持する通常の発声速度にしたがって、テキスト構造保持部２０５に保持されている文字列を音声合成し、ステップＳ３０１に戻る。この結果、テキスト構造保持部２０５に保持されている文字列は通常の速度で音声合成される。以上のステップＳ３０２〜Ｓ３０８の処理では、早送り可否情報取得部２０６が、音声合成の対象となる発声内容情報（コンテンツ）から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する。そして、早送り可否情報取得部２０６は、その識別結果を可否情報保持部２０７に保持する（Ｓ３０４）。次に、発声速度決定部２０９、発声速度保持部２１０、音声合成部２０８は、早送り設定（早送りモード）において、各発声内容情報（コンテンツ）を音声合成する際に、上記許可部分については、早送り設定による音声合成を実行する（Ｓ３０５〜Ｓ３０７）。一方、発声速度決定部２０９、発声速度保持部２１０、音声合成部２０８は、早送り設定において、制限部分と識別されたコンテンツに対しては、第１合成手段と異なる態様で、上記例では通常の速度で音声合成を実行する（Ｓ３０８）。

以上のステップＳ３０２〜Ｓ３０６の処理は、タグで囲まれたコンテンツが、早送り許可であるか、早送り制限であるかを、当該コンテンツを囲むタグの内容に基づいて判定するものであり、上記はその判定方法の一例に過ぎない。また、上記ではタグ付きテキストを用いたが、コンテンツが早送り許可であるか、早送り制限であるかが明示されたものであればタグ付きテキスト以外であってもよい。

以上説明したように、第１実施形態によれば、出力モードが早送りであった場合でも、所定の制御情報によって指定された範囲（上記の例では〈mustRead〉と〈/mustRead〉で囲まれた範囲）の文字列に対しては通常速度で音声合成される。このため、音声合成対象の文書の作成者は、出力モードが早送りであった場合でも通常速度で発声させたい部分を容易に指定することができる。

［第２実施形態］
第１実施形態では、テキスト保持部２０３が保持するテキストをテキスト構造解析部２０４が逐次処理する場合について説明した。しかしながら、本発明はこのような形態に限定されるものではない。例えば、テキスト全体を一括で解析するようにしてもよく、第２実施形態ではそのような処理を説明する。

図５は、第２実施形態における音声処理装置の処理を示すフローチャートである。なお、第２実施形態における音声処理装置のモジュール構成は、第１実施形態と同様であるため省略する。

まず、ステップＳ５０１において、テキスト構造解析部２０４はテキスト保持部２０３に保持されているタグ付きテキストの構造解析を行う。すなわち、タグ付きテキストのツリー構造（図６により後述する）および各ノードの制御情報とコンテンツを識別し、それら識別結果をテキスト構造保持部２０５に保持する。次に、ステップＳ５０２において、ルートからツリー構造を辿って最初のコンテンツに関する未処理ノードが選択される。コンテンツに関する未処理のノードが存在する場合はステップＳ５０３に移り、未処理のノードが存在しない場合は本処理を終了する。

ステップＳ５０３において、早送り可否情報取得部２０６は、ステップＳ２０５において選択されたノードからルートに向かってノードを逆に辿り、この過程で各ノードが早送り制限タグのノードであるかどうかを識別する。ルートまで辿る間に早送り制限タグが存在した場合は早送り可否情報を「否（即ち、制限部分）」とし、存在しなかった場合は早送り可否情報を「可（即ち、許可部分）」として可否情報保持部２０７に保持する。続いて、ステップＳ５０４において、モード識別部２０１は現在の出力モードが早送りモードであるか否かを識別し、その識別結果をモード保持部２０２に保持する。

ステップＳ５０５において、発声速度決定部２０９は、可否情報保持部２０７が保持する早送り可否情報とモード保持部２０２が保持するモード情報から音声合成の発声速度を決定し、処理を分岐する。すなわち、早送り可否情報が可で、かつ、出力モードが早送りである場合はステップＳ５０６に進む。ステップＳ５０６では、早送りの発声速度を音声合成速度として発声速度保持部２１０に保持し、音声合成部２０８は早送りで音声合成を実行する。一方、早送り可否情報が否、或いは、出力モードが通常モードであった場合は、ステップＳ５０７へ進む。ステップＳ５０７では、通常の発声速度を音声合成速度として発声速度保持部２１０に保持し、音声合成部２０８は通常の速度で音声合成を実行する。ステップＳ５０６或いはステップＳ５０７によって当該ノードに関する音声合成を終えると、処理はステップＳ５０２に戻る。

図６は、テキスト構造解析部２０４によって図４に示したタグ付きテキストが解析された場合に得られるツリー構造の一例を示した図である。図６において、６０１はツリーのルートノードである。ノード６０２や６０８のように角の丸い四角形で示されたノードは制御情報を表す。特に、ノード６０８は、早送り制限のための制御情報である。一方、ノード６０３〜６０７はコンテンツを示すノードである。

例えば、コンテンツに関するノード６０６を処理する際は、ルートに向かってノードを辿る過程で早送り制限のための制御情報であるノード６０８を通過する（Ｓ５０３）。よって、ノード６０６を音声合成する場合は、出力モードが早送りモードでも早送りせずに通常の発声速度で音声合成が行われることになる（Ｓ５０４，Ｓ５０５，Ｓ５０７）。一方、ノード６０４、６０５、６０７では、ルートに向かってノードを辿る過程で早送り制限のための制御情報を示すノードを通過しない。よって、ノード６０４、６０５、６０７を音声合成する場合は、出力モードが早送りであれば早送りで音声合成が行われることになる（Ｓ５０５，Ｓ５０６）。なお、ノード６０３はheadの中のtitleタグにつながっており、ここでは音声合成の対象としない。また、図４における改行タグ〈br〉に相当するノードは、本実施形態の本質に関係がないので図６では省略した。

以上説明したように、第２実施形態によれば、ツリー構造を参照して音声合成処理時の早送りモードの可否が識別される。

［第３実施形態］
第１実施形態および第２実施形態では、「早送りモード」の実現方法として通常より速い発声速度で音声合成を行うようにした。しかしながら、早送りモードの実現形態はこれに限定されるものではなく、例えば、コンテンツを読み飛ばすことにより「早送りモード」を実現するようにしてもよい。第３実施形態では、そのような「早送りモード」の実現形態を利用した場合の構成の例を説明する。なお、第３実施形態では、第２実施形態をベースに、品詞が名詞である単語だけを読み上げることで、即ち、発声内容情報を間引いて合成音声を生成することで「早送り」を実現する場合について説明する。

図７は、第３実施形態における音声処理装置のモジュール構成を示すブロック図である。なお、図７の各モジュールは、図１の中央処理装置１０２が制御メモリ１０１あるいは外部記憶装置１０４からメモリ１０３にロードされた制御プログラムを実行することにより実現される。図７において、２０１〜２０７の各処理部は第２実施形態と同じ処理を行う。読み上げ対象決定部７０１は、モード保持部２０２が保持するモード情報および可否情報保持部２０７が保持する早送り可否情報を基に、通常通り読み上げるのか、それとも、早送りモードのための読み飛ばしを実行するかを決定する。そして、読み上げ対象決定部７０１は、読み飛ばしを実行する場合は、コンテンツを形態素解析して品詞を特定し、名詞と判定された単語を読み上げ対象とする。読み上げ対象保持部７０２は、形態素解析によって名詞と判定された単語のみを読み上げ対象として保持する。音声合成部７０３は、読み上げ対象保持部７０２が保持する名詞の単語を音声合成して出力する。一方、読み飛ばしを行わない場合は、読み上げ対象決定部７０１はコンテンツの全体を読み上げ対象として読み上げ対象保持部７０２に保持する。音声合成部７０３は、読み上げ対象保持部７０２が保持する読み上げ対象を音声合成して出力する。

図８は、第３実施形態における音声処理装置の処理の流れを示すフローチャートである。図８において、ステップＳ５０１〜ステップＳ５０４の各ステップは第２実施形態（図５）と同じ処理を行う。

ステップＳ８０１において、読み上げ対象決定部７０１は、可否情報保持部２０７が保持する早送り可否情報とモード保持部２０２が保持するモード情報から早送りモードによる発声を行うか否か、すなわち読み飛ばしを行うか否かを決定する。早送り可否情報が可で、かつ、出力モードが早送りである場合は「早送りモード」による音声合成を行うため、ステップＳ８０１からステップＳ８０２に進む。ステップＳ８０２において、読み上げ対象決定部７０１は当該ノードのコンテンツを形態素解析して各単語の品詞を特定する。そして、品詞が名詞である単語を読み上げ対象保持部７０２に保持して、ステップＳ８０３に処理を進める。ステップＳ８０３では、音声合成部７０３が、読み上げ対象保持部７０２に保持された単語を音声合成することにより、読み飛ばしによる早送りモードの音声合成出力が得られる。その後、当該ノードに関して音声合成を終えると処理はステップＳ５０２に戻る。

一方、早送り可否情報が否である場合、或いは、出力モードが早送りでない場合は、通常の速度による音声合成を行うため、当該ノードのコンテンツを読み上げ対象保持部７０２に保持してステップＳ８０１からステップＳ８０３へ進む。ステップＳ８０３では、音声合成部７０３が読み上げ対象保持部７０２が保持する読み上げ対象を音声合成する。この結果、当該ノードの全コンテンツが音声合成されて、通常速度による音声合成出力が得られることになる。当該ノードの読み上げ対象の音声合成を終えると処理はステップＳ５０２に戻る。

以上説明したように、早送りモードにおいてコンテンツを間引きして音声合成する場合においても、早送りの制限が指定された範囲に関しては通常の発声速度で音声合成されるので、文書作成者が指定した部分のコンテンツを確実に聴き取ることが容易になる。

［第４実施形態］
第３実施形態では、「早送り」の方法として品詞が名詞である単語だけを読み上げ、早送り不可の場合には読み飛ばさずに音声合成する場合について説明した。即ち、「早送りモード」における音声合成として、発声速度を変更するのではなく、発声の内容を変更する（読み飛ばす）ことにより「早送り」を実現した。しかしながら読み上げ対象の変更方法は読み飛ばしに限られるものではない。第３実施形態では、コンテンツを要約して読み上げることにより「早送り」を実現する場合を説明する。

第４実施形態のモジュール構成及び処理の流れは第３実施形態と同様であるので、以下では、図７および図８を用いて第４実施形態を説明する。

図７において、読み上げ対象決定部７０１は、モード保持部２０２が保持するモード情報および可否情報保持部２０７が保持する早送り可否情報を基に、通常通り読み上げるのか、コンテンツの要約を行うかを決定する。要約を行う場合は、意味解析や単語の重要度などを鑑みて行う既存の手法を用いてコンテンツの要約を行う。なお、それ以外のモジュールは第３実施形態と同じ処理であるため説明を省略する。

図８において、ステップＳ８０１では、読み上げ対象決定部７０１が、モード保持部２０２が保持するモード情報および可否情報保持部２０７が保持する早送り可否情報を基に、通常通り読み上げるか、コンテンツを要約して読み上げるかを決定する。コンテンツの要約を行う場合はステップＳ８０２に移り、それ以外の場合はコンテンツを読み上げ対象保持部７０２に保持して、ステップＳ８０３に移る。

ステップＳ８０２では、読み上げ対象決定部７０１が、当該ノードのコンテンツを要約し、読み上げ対象保持部７０２に保持して、ステップＳ８０３に移る。なお、それ以外の工程は第２実施形態と同じ処理であるため説明を省略する。

以上のように、早送りモードにおいてコンテンツを要約して音声合成が行われる場合においても、早送りの制限が指定された範囲に関しては通常の発声速度で音声合成されるので、文書作成者が指定した部分のコンテンツを確実に聴き取ることが容易になる。

［第５実施形態］
第１実施形態乃至第４実施形態では、タグ付きテキストを音声合成で読み上げる際に、タグで指定される早送りの可否情報に基づいて早送りを制限する場合について説明したが、これに限定されるものではない。例えば、早送りの可否情報が付与された音声データを再生する際に、その可否情報に基づいて早送りを制限するようにしてもよい。このようにすることで、本発明は、発声内容情報がタグ付きテキストではなく音声データの場合にも適用できる。以下、早送りの可否情報が付与された音声データの再生制御を説明する。

図９は、早送りの可否情報とそれに対応する音声データを示した模式図である。図９において、９０１〜９０４は音声データに対応する時間情報もしくは波形の位置に対応する点を表す（以下、時点という）ものとする。時点９０１から時点９０２の間は早送り可（許可部分）、時点９０２から時点９０３の間は早送り不可（制限部分）、時点９０３から時点９０４の間は早送り可（許可部分）が設定されているとする。なお、９０５は音声データを表示した音声波形である。このようにコンテンツ作成者は、予め音声データと早送り可否情報を対応付けておくものとする。この対応付けの方法は、対象となる音声データを選択して早送り可否を指定したり、早送り箇所を指定するモードにして対象となる音声データから区間を選択したりする等、どのような方法を用いても構わない。上記のように、第５実施形態の声内容情報は音声データであり、この音声データは、音声データを区切って設定された各音声区間に制限部分と許可部分の何れであるかを識別可能な情報が付加されている。

図１０は、第５実施形態における音声処理装置のモジュール構成を示すブロック図である。なお、図１０の各モジュールは、図１の中央処理装置１０２が制御メモリ１０１あるいは外部記憶装置１０４からメモリ１０３にロードされた制御プログラムを実行することにより実現される。モード識別部１００１は出力モードを取得して早送りモードか否かの識別を行う。なお、出力モードとしては、例えば早送りモードと通常モードの何れかをユーザ操作によって設定可能であるとする。モード保持部１００２はモード識別部１００１の識別結果、即ち設定されている出力モードを示す出力モード情報を保持する。早送り可否情報取得部１００３は、音声データに付与されている早送り可否情報を取得する。可否情報保持部１００４は、早送り可否情報取得部１００３が取得した早送り可否情報を保持する。再生速度決定部１００５は、モード保持部１００２が保持する出力モード情報および可否情報保持部１００４が保持する早送り可否情報から再生速度を決定する。再生速度保持部１００６は、再生速度決定部１００５で決定された再生速度を保持する。音声再生部１００７は、再生速度保持部１００６が保持する再生速度にしたがって音声データの再生を行う。再生速度保持部１００６には早送りモードのための再生速度か通常モードのための再生速度が保持されることになる。

図１１は、第５実施形態における音声処理装置の処理の流れを示すフローチャートである。本実施形態では、音声データの再生は所定のフレーム単位で行うものとして説明する。なお、言うまでもないことであるが、再生単位はフレームに限らず、１サンプルごとでもよく、任意の単位でよいものとする。

まず、ステップＳ１１０１において、未処理の音声データが存在する場合はステップＳ１１０２に移り、未処理の音声データが存在しなければ本処理を終了する。ステップＳ１１０２では、早送り可否情報取得部１００３が、当該フレームに対応する早送り可否情報を取得し、可否情報保持部１００４に保持する。本実施形態では、時点９０１〜９０２、９０３〜９０４の間のフレームには早送り許可が、時点９０２〜９０３の間のフレームには早送り不可が設定されているものとする。但し、早送り可否の取得はこれに限られるものではない。例えば、時点９０１〜９０２、時点９０３〜９０４には早送り可を設定し、時点９０２〜９０３には早送り不可を設定しておき、処理対象フレームがどの時点に属するかに基づいて早送り可否情報を取得するようにしてもよい。

ステップＳ１１０３において、モード識別部１００１は、早送りモードか否かを識別し、その結果をモード保持部１００２に保持する。次に、ステップＳ１１０４〜Ｓ１１０６において、再生速度決定部１００５は、可否情報保持部１００４が保持する早送り可否情報とモード保持部１００２が保持するモード情報から再生速度を決定し、再生速度保持部１００６に保持する。即ち、早送り可否情報が可で、かつ、出力モードが早送りである場合はステップＳ１１０５に移る。そして、ステップＳ１１０５において、再生速度決定部１００５は、早送りに対応した再生速度を再生速度保持部１００６に保持する。音声再生部１００７は、再生速度保持部１００６に保持されている再生速度にしたがって、当該フレームを早送りで再生し、その後、ステップＳ１１０１に戻る。一方、ステップＳ１１０４において、早送り可否情報が否、或いは、出力モードが通常モードであった場合は、ステップＳ１１０６へ進む。ステップＳ１１０６において、再生速度決定部１００５は、通常の発声速度に対応した再生速度を再生速度保持部１００６に保持する。音声再生部１００７は、再生速度保持部１００６に保持されている再生速度にしたがって当該フレームを通常速度で再生し、ステップＳ１１０１に戻る。

以上のように、第５実施形態によれば、音声データに直接的に早送りの可否を設定できる。

［第６実施形態］
第１実施形態では、早送りを制限する開始タグ〈mustRead〉と終了タグ〈/mustRead〉で囲まれた部分を通常の発声速度で合成する場合について説明したが、これに限定されるものではない。例えば、早送りの速度制限を行うようにすることも可能である。

図１２は、速度制限を記述したタグ付きテキストの一例を示す図である。第１実施形態の図４との違いは、開始タグ〈mustRead〉に属性speakingRateLimitが追加され、属性値が“2.0”に設定されている点である。

開始タグ〈mustRead〉に属性speakingRateLimitおよびその属性値を指定することにより、前記属性値よりも速い発声速度で音声合成することを抑制する。すなわち、この属性値は発声速度の制限速度を意味している。また、ユーザが設定した発声速度（以下、設定速度）がタグで指定された制限速度以下の場合は、設定速度で音声合成を行う。

以下、第６実施形態における音声処理装置の構成および動作について、図１３および図１４を用いて説明する。

図１３は、第６実施形態における音声処理装置のモジュール構成を示すブロック図である。第１実施形態の図２で示したモジュールと同じ処理を行うモジュールは図２と同じ符号を付与し、説明を省略する。

図１３において、設定速度識別部１３０１は、ユーザが設定した現在の設定速度を識別する。設定速度保持部１３０２は、設定速度識別部１３０１が識別した設定速度を保持する。早送り制限情報取得部１３０３は、テキスト構造保持部２０５が保持する制御情報から早送り制限情報を取得する。本実施形態における早送り制限情報とは、早送りの制限速度である。制限情報保持部１３０４は、早送りの制限速度を保持する。

図１４は第６実施形態における音声処理装置の処理を示すフローチャートである。以下、図１４のフローチャートを参照して第６実施形態による音声処理を説明する。なお、第１実施形態の図３に記載したステップと同じ処理を行う工程には図３と同じ符号を付与し、説明を省略する。

ステップＳ１４０１において、早送り制限情報取得部１３０３は、テキスト構造保持部２０５が保持する文字列によって表される制御情報から早送りの制限速度を抽出する。本例では、タグ〈mustRead〉の属性“speakingRateLimit”の属性値を取得することに相当する。制限速度を制限情報保持部１３０４に保持して、ステップＳ３０１に戻る。一方、早送り制限の終了タグ（〈/mustRead〉タグ）であった場合は、既に設定されている制限速度を未設定の状態（制限なし）に戻して、ステップＳ３０１に戻る。また、制御情報がそれ以外の場合は、そのままステップＳ３０１に戻る。以上のように、ステップＳ３０１〜Ｓ３０３の処理によれば、早送り制限情報取得部１３０３は、音声合成の対象となる発声内容情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する。そして、制限部分に関しては、発声速度の上限値を取得し、これを制限情報保持部１３０４に保持する。

ステップＳ３０３においてテキスト構造保持部２０５に保持されている文字列が制御情報ではない場合、本実施形態では、当該文字列は発声内容を示すコンテンツである。この場合、処理はステップＳ３０３からステップＳ１４０２へ進む。ステップＳ１４０２では、設定速度識別部１３０１が現在ユーザによって設定されている設定速度を取得し、設定速度を設定速度保持部１３０２に保持する。続いて、ステップＳ１４０３において、発声速度決定部２０９は、制限情報保持部１３０４が保持する早送りの制限速度と設定速度保持部１３０２が保持する設定速度を比較する。そして、当該コンテンツが制限対象（制限部分）であり、制限速度が設定されており、かつ、設定速度が制限速度より大きい場合はステップＳ１４０４に進む。ステップＳ１４０４では、発声速度決定部２０９が、制限情報保持部１３０４に保持されている制限速度を発声速度保持部２１０に保持する。そして、音声合成部２０８が、発声速度保持部２１０が保持する発声速度（制限速度）にしたがって、テキスト構造保持部２０５に保持されている文字列（コンテンツ）を早送りで音声合成する。その後、ステップＳ３０１に戻る。

一方、ステップＳ１４０３において、早送り制限速度が設定されていない場合、或いは設定速度が制限速度以下の場合は、ステップＳ１４０５へ進む。これは、例えば、ユーザが早送りモードのために設定した発声速度が制限速度を超えていない場合があげられる。ステップＳ１４０５では、発声速度決定部２０９が、設定速度保持部１３０２に保持されている設定速度を発声速度保持部２１０に保持する。そして、音声合成部２０８は、発声速度保持部２１０が保持する発声速度（設定速度）にしたがって、テキスト構造保持部２０５に保持されている文字列（コンテンツ）を音声合成し、ステップＳ３０１に戻る。以上のように、設定速度識別部１３０１は、ユーザが指定する発声のための設定速度を取得し、これを設定速度保持部１３０２に保持する（Ｓ１４０２）。そして、制限部分について声内容情報を音声合成する際には、発声速度決定部２０９及び音声合成部２０８は、設定速度が制限速度より大きい場合は当該制限速度にしたがって音声合成を実行する（Ｓ１４０４）。

以上のステップＳ３０２、Ｓ３０３、Ｓ１４０１、Ｓ１４０２、Ｓ１４０３の処理は、タグで囲まれたコンテンツを音声合成する際の発声速度を、当該テキスト列を囲むタグの内容に基づいて判定するものであり、上記はその判定方法の一例に過ぎない。また、上記ではタグ付きテキストを用いたが、発声内容を音声合成する際の発声速度が明示されたものであればタグ付きテキスト以外であってもよい。尚、第６実施形態では、早送りモードと通常モードに分け、早送りモードにおける発声速度を制限したがこれに限られるものではない。例えば、早送りモードと通常モードを区別せずに、発声速度（設定速度）を段階的に変更することが可能な構成において、ステップＳ１４０３〜Ｓ１４０５の処理を随時実行するようにしてもよい。このようにすれば、発声速度を好みの速度に設定可能な構成において、制限部分については常に制限速度以下で発声を行わせることができる。

以上説明したように、第６実施形態によれば、所定の制御情報によって指定された範囲の文字列に対して制限速度が設定されている場合は、ユーザによって設定された設定速度が制限速度より大きくても発声対象の文字列は制限速度で音声合成される。尚、第６実施形態の例では、所定の制御情報によって指定された範囲の文字列は、〈mustRead〉と〈/mustRead〉で囲まれた範囲の文字列である。このため、音声合成対象の文書の作成者は、ユーザが設定した設定速度に関わらず制限速度以下で発声させたい部分を容易に指定することができる。

［他の実施形態］
上記第３実施形態では、早送り方法の一例として名詞だけを読み上げ、それ以外を読み飛ばす場合について説明したがこれに限定されるものではない。例えば、名詞に限らず品詞に基づく選択、自立語／付属語に基づく選択、あるいは、文単位、節単位、句単位、単語単位、固定文字長単位、固定時間長単位など任意の方法で実現することができる。

また、第５実施形態では、早送りの実現方法として再生速度を早くする場合について説明したが、これに限定されるものではない。例えば、読み飛ばしによる「早送り」を行う場合ようにしてもよい。第５実施形態における読み飛ばしの方法としては、所定時間間隔で音声データを抽出して再生することが挙げられる。或いは、音声の無音部分を検知し、無音から次の無音までを１つの単位として、１つ置きに再生するようにしてもよい。このような読み飛ばしを採用した場合においても、早送り不可の情報が付与されている音声データについては通常の速度で、読み飛ばすことなく再生がなされることは言うまでもない。

また、第３の実施形態では、「早送り」を音声合成の読み飛ばしにより実現し、早送り不可の場合には通常の発声速度で読み飛ばさずに音声合成する場合について説明したが、これに限定されるものではない。早送りモードにおける効率性を重視するような場合には、早送り不可のコンテンツに対しては、読み飛ばしを行わずに発声速度を早くした音声合成を行うように構成してもよい。

また、第６実施形態では、早送りを制限する開始タグ〈mustRead〉に発声速度の上限値を表す属性“speakingRateLimit”を設定した場合について説明したが、これに限定されるものではない。例えば、開始タグ〈mustRead〉に属性“speakingRateLimit”が設定されていない場合は、第１実施形態と同様に早送りを制限する、つまり、通常の発声速度で音声合成を行う場合もよいものとする。

以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、１つの機器からなる装置に適用しても良い。

なお、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したプログラムである。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては以下が挙げられる。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などである。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記録媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどとの協働で実施形態の機能が実現されてもよい。この場合、ＯＳなどが、実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。

第１実施形態における音声処理装置のハードウエア構成を示すブロック図である。第１実施形態における音声処理装置のモジュール構成を示すブロック図である。第１実施形態における音声合成処理を示すフローチャートである。タグ付きテキストの一例を示す図である。第２実施形態における音声合成処理を示すフローチャートである。テキスト構造解析部２０４が図４に示したタグ付きテキストの構造解析を行った場合に得られるツリー構造の例を示した図である。第３実施形態における音声処理装置のモジュール構成を示すブロック図である。第３実施形態における音声合成処理を示すフローチャートである。予め録音された音声波形に対して、コンテンツ作成者が早送りの可否情報を付与した音声データを示した模式図である。第５実施形態における音声処理装置のモジュール構成を示すブロック図である。第５実施形態における音声処理装置の処理の流れを示すフローチャートである。速度制限を記述したタグ付きテキストの一例を示す図である。第６実施形態における音声処理装置のモジュール構成を示すブロック図である。第６実施形態における音声合成処理を示すフローチャートである。

Claims

音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について、前記早送り設定による音声合成を実行する第１合成手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について、前記第１合成手段と異なる態様で音声合成を実行する第２合成手段とを備えることを特徴とする音声処理装置。
前記テキスト情報は、前記制限部分の発声内容を表すコンテンツが予め定義されたタグによって囲まれたタグ付きテキストであることを特徴とする請求項１に記載の音声処理装置。
前記第１合成手段は、早送り設定がされていない場合よりも大きい発声速度で音声合成を行うことを特徴とする請求項１に記載の音声処理装置。
前記第１合成手段は、前記テキスト情報を間引いて合成音声を生成することを特徴とする請求項１に記載の音声処理装置。
前記第１合成手段は、前記テキスト情報を要約して合成音声を生成することを特徴とする請求項１に記載の音声処理装置。
前記第２合成手段は、早送り設定がされていない場合に用いられる速度による音声合成を行うことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
前記識別手段は、前記テキスト情報を解析して、コンテンツまたはタグを単位としたノードを有するツリーを生成し、前記ツリーを参照してコンテンツが前記制限部分と前記許可部分の何れであるかを識別することを特徴とする請求項２に記載の音声処理装置。
音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別手段と、
早送りの適用を制限する制限部分に関する発声速度の上限値を取得する制限速度取得手段と、
ユーザにより設定された設定速度を取得する設定速度取得手段と、
前記制限部分に関して前記設定速度が前記制限速度より大きい場合、前記制限速度にしたがって前記制限部分の音声合成を実行する合成手段を備えることを特徴とする音声処理装置。
音声処理装置による音声処理方法であって、
識別手段が、音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別工程と、
第１合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について前記早送り設定による音声合成を実行する第１合成工程と、
第２合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について前記第１合成工程と異なる態様で音声合成を実行する第２合成工程とを備えることを特徴とする音声処理方法。
前記テキスト情報は、前記制限部分の発声内容を表すコンテンツが予め定義されたタグによって囲まれたタグ付きテキストであることを特徴とする請求項９に記載の音声処理方法。
前記第１合成工程では、早送り設定がされていない場合よりも大きい発声速度で音声合成を行うことを特徴とする請求項９に記載の音声処理方法。
前記第１合成工程では、前記テキスト情報を間引いて合成音声を生成することを特徴とする請求項９に記載の音声処理方法。
前記第１合成工程では、前記テキスト情報を要約して合成音声を生成することを特徴とする請求項９に記載の音声処理方法。
前記第２合成工程では、早送り設定がされていない場合に用いられる速度による音声合成を行うことを特徴とする請求項９乃至１１のいずれか１項に記載の音声処理方法。
前記識別工程では、前記テキスト情報を解析して、コンテンツまたはタグを単位としたノードを有するツリーを生成し、前記ツリーを参照してコンテンツが前記制限部分と前記許可部分の何れであるかを識別することを特徴とする請求項１０に記載の音声処理方法。
音声処理装置による音声処理方法であって、
識別手段が、音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別工程と、
制限速度取得手段が、早送りの適用を制限する制限部分に関する発声速度の上限値を取得する制限速度取得工程と、
設定速度取得手段が、ユーザにより設定された設定速度を取得する設定速度取得工程と、
合成手段が、前記制限部分に関して前記設定速度が前記制限速度より大きい場合、前記制限速度にしたがって前記制限部分の音声合成を実行する合成工程を備えることを特徴とする音声処理方法。
請求項９乃至請求項１６のいずれか１項に記載の音声処理方法をコンピュータに実行させるための制御プログラム。