JP2007172597A - 音声処理装置及び音声処理方法 - Google Patents
音声処理装置及び音声処理方法 Download PDFInfo
- Publication number
- JP2007172597A JP2007172597A JP2006320876A JP2006320876A JP2007172597A JP 2007172597 A JP2007172597 A JP 2007172597A JP 2006320876 A JP2006320876 A JP 2006320876A JP 2006320876 A JP2006320876 A JP 2006320876A JP 2007172597 A JP2007172597 A JP 2007172597A
- Authority
- JP
- Japan
- Prior art keywords
- fast
- speech
- forwarding
- synthesis
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音声合成の対象となる発声内容情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別し、早送り設定がされている場合に発声内容情報を音声合成する際に、許可部分については早送り設定による音声合成を実行する。また、早送り設定において発声内容情報を音声合成する際に、制限部分については、上記許可部分とは異なる態様で、例えば通常の発声速度で音声合成を実行する。
【選択図】 図3
Description
音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について、前記早送り設定による音声合成を実行する第1合成手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について、前記第1合成手段と異なる態様で音声合成を実行する第2合成手段とを備える。
音声処理装置による音声処理方法であって、
識別手段が、音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別工程と、
第1合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について前記早送り設定による音声合成を実行する第1合成工程と、
第2合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について前記第1合成工程と異なる態様で音声合成を実行する第2合成工程とを備える。
第1実施形態では、HTMLなどに代表されるタグ付きテキストを入力とし、タグ付きテキストから抽出されたコンテンツを音声に変換する音声処理装置について説明する。なお、第1実施形態における「早送り」とは、通常より速い発声速度の音声合成を行うことであり、そのような音声合成を実行するモードを早送りモードという。また、通常の発声速度で発声するモードを通常モードという。
ここで一度に抽出される単位はタグ(“〈”から“〉”の範囲)、或いは、タグによって囲まれた部分とする。テキスト構造解析部204はテキスト保持部203から抽出した文字列をテキスト構造保持部205に保持する。例えば、図4の例の場合、「〈h1〉」→「音声合成シンポジウム開催のご案内」→「〈/h1〉」…というように文字列が抽出される。
第1実施形態では、テキスト保持部203が保持するテキストをテキスト構造解析部204が逐次処理する場合について説明した。しかしながら、本発明はこのような形態に限定されるものではない。例えば、テキスト全体を一括で解析するようにしてもよく、第2実施形態ではそのような処理を説明する。
第1実施形態および第2実施形態では、「早送りモード」の実現方法として通常より速い発声速度で音声合成を行うようにした。しかしながら、早送りモードの実現形態はこれに限定されるものではなく、例えば、コンテンツを読み飛ばすことにより「早送りモード」を実現するようにしてもよい。第3実施形態では、そのような「早送りモード」の実現形態を利用した場合の構成の例を説明する。なお、第3実施形態では、第2実施形態をベースに、品詞が名詞である単語だけを読み上げることで、即ち、発声内容情報を間引いて合成音声を生成することで「早送り」を実現する場合について説明する。
第3実施形態では、「早送り」の方法として品詞が名詞である単語だけを読み上げ、早送り不可の場合には読み飛ばさずに音声合成する場合について説明した。即ち、「早送りモード」における音声合成として、発声速度を変更するのではなく、発声の内容を変更する(読み飛ばす)ことにより「早送り」を実現した。しかしながら読み上げ対象の変更方法は読み飛ばしに限られるものではない。第3実施形態では、コンテンツを要約して読み上げることにより「早送り」を実現する場合を説明する。
第1実施形態乃至第4実施形態では、タグ付きテキストを音声合成で読み上げる際に、タグで指定される早送りの可否情報に基づいて早送りを制限する場合について説明したが、これに限定されるものではない。例えば、早送りの可否情報が付与された音声データを再生する際に、その可否情報に基づいて早送りを制限するようにしてもよい。このようにすることで、本発明は、発声内容情報がタグ付きテキストではなく音声データの場合にも適用できる。以下、早送りの可否情報が付与された音声データの再生制御を説明する。
第1実施形態では、早送りを制限する開始タグ〈mustRead〉と終了タグ〈/mustRead〉で囲まれた部分を通常の発声速度で合成する場合について説明したが、これに限定されるものではない。例えば、早送りの速度制限を行うようにすることも可能である。
上記第3実施形態では、早送り方法の一例として名詞だけを読み上げ、それ以外を読み飛ばす場合について説明したがこれに限定されるものではない。例えば、名詞に限らず品詞に基づく選択、自立語/付属語に基づく選択、あるいは、文単位、節単位、句単位、単語単位、固定文字長単位、固定時間長単位など任意の方法で実現することができる。
Claims (17)
- 音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について、前記早送り設定による音声合成を実行する第1合成手段と、
早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について、前記第1合成手段と異なる態様で音声合成を実行する第2合成手段とを備えることを特徴とする音声処理装置。 - 前記テキスト情報は、前記制限部分の発声内容を表すコンテンツが予め定義されたタグによって囲まれたタグ付きテキストであることを特徴とする請求項1に記載の音声処理装置。
- 前記第1合成手段は、早送り設定がされていない場合よりも大きい発声速度で音声合成を行うことを特徴とする請求項1に記載の音声処理装置。
- 前記第1合成手段は、前記テキスト情報を間引いて合成音声を生成することを特徴とする請求項1に記載の音声処理装置。
- 前記第1合成手段は、前記テキスト情報を要約して合成音声を生成することを特徴とする請求項1に記載の音声処理装置。
- 前記第2合成手段は、早送り設定がされていない場合に用いられる速度による音声合成を行うことを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
- 前記識別手段は、前記テキスト情報を解析して、コンテンツまたはタグを単位としたノードを有するツリーを生成し、前記ツリーを参照してコンテンツが前記制限部分と前記許可部分の何れであるかを識別することを特徴とする請求項2に記載の音声処理装置。
- 音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別手段と、
早送りの適用を制限する制限部分に関する発声速度の上限値を取得する制限速度取得手段と、
ユーザにより設定された設定速度を取得する設定速度取得手段と、
前記制限部分に関して前記設定速度が前記制限速度より大きい場合、前記制限速度にしたがって前記制限部分の音声合成を実行する合成手段を備えることを特徴とする音声処理装置。 - 音声処理装置による音声処理方法であって、
識別手段が、音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別工程と、
第1合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記許可部分について前記早送り設定による音声合成を実行する第1合成工程と、
第2合成手段が、早送り設定がされている場合において、前記テキスト情報を音声合成する際に、前記制限部分について前記第1合成工程と異なる態様で音声合成を実行する第2合成工程とを備えることを特徴とする音声処理方法。 - 前記テキスト情報は、前記制限部分の発声内容を表すコンテンツが予め定義されたタグによって囲まれたタグ付きテキストであることを特徴とする請求項9に記載の音声処理方法。
- 前記第1合成工程では、早送り設定がされていない場合よりも大きい発声速度で音声合成を行うことを特徴とする請求項9に記載の音声処理方法。
- 前記第1合成工程では、前記テキスト情報を間引いて合成音声を生成することを特徴とする請求項9に記載の音声処理方法。
- 前記第1合成工程では、前記テキスト情報を要約して合成音声を生成することを特徴とする請求項9に記載の音声処理方法。
- 前記第2合成工程では、早送り設定がされていない場合に用いられる速度による音声合成を行うことを特徴とする請求項9乃至11のいずれか1項に記載の音声処理方法。
- 前記識別工程では、前記テキスト情報を解析して、コンテンツまたはタグを単位としたノードを有するツリーを生成し、前記ツリーを参照してコンテンツが前記制限部分と前記許可部分の何れであるかを識別することを特徴とする請求項10に記載の音声処理方法。
- 音声処理装置による音声処理方法であって、
識別手段が、音声合成の対象となるテキスト情報から、早送りの適用を許可する許可部分と、早送りの適用を制限する制限部分を識別する識別工程と、
制限速度取得手段が、早送りの適用を制限する制限部分に関する発声速度の上限値を取得する制限速度取得工程と、
設定速度取得手段が、ユーザにより設定された設定速度を取得する設定速度取得工程と、
合成手段が、前記制限部分に関して前記設定速度が前記制限速度より大きい場合、前記制限速度にしたがって前記制限部分の音声合成を実行する合成工程を備えることを特徴とする音声処理方法。 - 請求項9乃至請求項16のいずれか1項に記載の音声処理方法をコンピュータに実行させるための制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006320876A JP2007172597A (ja) | 2005-11-28 | 2006-11-28 | 音声処理装置及び音声処理方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005342844 | 2005-11-28 | ||
JP2006320876A JP2007172597A (ja) | 2005-11-28 | 2006-11-28 | 音声処理装置及び音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007172597A true JP2007172597A (ja) | 2007-07-05 |
JP2007172597A5 JP2007172597A5 (ja) | 2009-11-26 |
Family
ID=38299019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006320876A Pending JP2007172597A (ja) | 2005-11-28 | 2006-11-28 | 音声処理装置及び音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007172597A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167384A (ja) * | 2016-03-17 | 2017-09-21 | 独立行政法人国立高等専門学校機構 | 音声出力処理装置、音声出力処理プログラムおよび音声出力処理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
JPH1173298A (ja) * | 1997-08-27 | 1999-03-16 | Internatl Business Mach Corp <Ibm> | 音声出力装置およびその方法 |
JP2004212665A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 話速可変装置及び話速変換方法 |
JP2005266009A (ja) * | 2004-03-16 | 2005-09-29 | Matsushita Electric Ind Co Ltd | データ変換プログラムおよびデータ変換装置 |
-
2006
- 2006-11-28 JP JP2006320876A patent/JP2007172597A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
JPH1173298A (ja) * | 1997-08-27 | 1999-03-16 | Internatl Business Mach Corp <Ibm> | 音声出力装置およびその方法 |
JP2004212665A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 話速可変装置及び話速変換方法 |
JP2005266009A (ja) * | 2004-03-16 | 2005-09-29 | Matsushita Electric Ind Co Ltd | データ変換プログラムおよびデータ変換装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167384A (ja) * | 2016-03-17 | 2017-09-21 | 独立行政法人国立高等専門学校機構 | 音声出力処理装置、音声出力処理プログラムおよび音声出力処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3610083B2 (ja) | マルチメディアプレゼンテーション装置および方法 | |
AU2016202974B2 (en) | Automatically creating a mapping between text data and audio data | |
JP4558308B2 (ja) | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム | |
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
JP2004523039A (ja) | 音声xmlファイルを自動的に生成する方法およびシステム | |
JP2007264792A (ja) | 音声ブラウザプログラム | |
JP2011100355A (ja) | 発言記録装置、発言記録方法、プログラム及び記録媒体 | |
JP4324089B2 (ja) | 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 | |
JP2007249653A (ja) | マークアップ言語情報の処理装置、情報処理方法、およびプログラム | |
KR20060088175A (ko) | 멀티 포맷을 갖는 전자책 파일 생성 방법 및 시스템 | |
JP2005181960A (ja) | Tts探索機能を支援する方法及びこれを用いたマルチメディア装置 | |
JP6791063B2 (ja) | 画像データ再生装置、情報処理装置、画像データ再生方法および画像データのデータ構造 | |
JP2007172597A (ja) | 音声処理装置及び音声処理方法 | |
US7353175B2 (en) | Apparatus, method, and program for speech synthesis with capability of providing word meaning immediately upon request by a user | |
JP2009283020A (ja) | 記録装置、再生装置、及びプログラム | |
JP2004325905A (ja) | 外国語学習装置および外国語学習プログラム | |
CN105890612A (zh) | 一种导航过程中的语音提示方法及装置 | |
JP2007127994A (ja) | 音声合成方法及び音声合成装置並びにプログラム | |
JP5383608B2 (ja) | 解説放送文作成支援装置及びプログラム | |
US20070124148A1 (en) | Speech processing apparatus and speech processing method | |
JP2006235880A (ja) | 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 | |
Turunen et al. | Mobidic-a mobile dictation and notetaking application. | |
JP2005148307A (ja) | 話速変換装置、話速変換方法、プログラム及び記録媒体 | |
Bigi et al. | The Automatic Search for Sounding Segments of SPPAS: Application to Cheese! Corpus | |
JP2006047866A (ja) | 電子辞書装置およびその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091013 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120807 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130208 |