JP5819147B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP5819147B2 JP5819147B2 JP2011201459A JP2011201459A JP5819147B2 JP 5819147 B2 JP5819147 B2 JP 5819147B2 JP 2011201459 A JP2011201459 A JP 2011201459A JP 2011201459 A JP2011201459 A JP 2011201459A JP 5819147 B2 JP5819147 B2 JP 5819147B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- speech
- synthesized
- text
- synthesized speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
特に、最近、ユーザが増えているタブレット端末やスマートフォン等は、処理能力がPCほど高くないため、次の文への移動指示の後、合成音声が再生出力されるまでに多くの時間を必要とするという問題が生じる場合がある。
第1実施形態では、ユーザが読み上げ対象文(以降、合成対象テキストまたは入力テキストとも称する。)を選択し、音声合成装置100(図1参照)に合成対象テキストのデータが入力されると、音声合成装置100が、入力された合成対象テキストの先頭部分に対応する、予め生成済みの合成音声を記憶部から読み出して即座に再生出力する。そして、音声合成装置100は、先頭部分に対応する合成音声データを再生出力している間に、先頭部分の後続のテキストのデータに対応する合成音声データを生成しつつ、後続のテキストに対応する合成音声データを先頭部分に対応する合成音声に連続して(途切れることなく)再生出力する。
第1実施形態にかかる音声合成装置100の構成について、図1を用いて説明する。
図1に示すように、音声合成装置100は、処理部110と記憶部120とを備える。処理部110は、先頭断片テキスト抽出部(第1の手段)111、先頭断片音声選択部(第2の手段)112、合成音声構成情報生成部(第3の手段、第4の手段)113、構成情報指定付き音声合成部(第3の手段、第5の手段)114、および音声再生部115を機能として有する。処理部110は図示しないCPU(Central Processing Unit)およびメインメモリによって構成され、処理部110内の各部は記憶部120に記憶されているアプリケーションプログラムをメインメモリに展開して具現化される。
また、先頭断片記憶部121は、先頭断片テキストに対応する先頭断片情報(図2の符号200であり詳細は後記する。)を記憶している。先頭断片テキストとは、文章の先頭の文字列を断片として抽出したテキストのことである。また、先頭断片情報とは、(1)先頭断片テキストを示す先頭断片テキスト情報(図2の符号201)と、(2)その先頭断片テキストの合成音声データを示す先頭断片音声情報(図2の符号202)と、(3)合成音声データの生成に用いた先頭断片テキストの音韻情報、その音韻の長さおよび高さを含む合成音声構成情報(図2の符号203であり、詳細は図3を用いて後記する。)と、を関連付けた情報である。
先頭断片音声選択部112は、先頭断片テキスト抽出部111によって抽出された先頭断片テキストに一致する先頭断片テキスト情報(図2の符号201)を、先頭断片記憶部121を参照して抽出する機能を有する。そして、先頭断片音声選択部112は、抽出した先頭断片テキストに関連付けられた合成音声データ(第1の合成音声データ132)を音声再生部115に直接出力する機能を有しており、入力テキストの先頭部分の合成音声データ(第1の合成音声データ132)を即座に再生出力する。
構成情報指定付き音声合成部114は、合成音声構成情報生成部113によって生成された合成音声構成情報を取得して、その合成音声構成情報に基づいて合成音声データ(第2の合成音声データ134)を生成し、音声再生部115に出力する機能を有する。つまり、この構成情報指定付き音声合成部114は、合成音声構成情報生成部113とともに、先頭断片テキストに後続するテキストに対して、合成音声データ(第2の合成音声データ134)を生成する役割を担っている。
音声再生部115は、先頭断片音声選択部112または構成情報指定付き音声合成部114から出力された合成音声データを取得して、合成音声として再生出力する機能を有する。
なお、先頭断片音声選択部112、合成音声構成情報生成部113、構成情報指定付き音声合成部114それぞれの機能の詳細については後記する。
次に、音声合成装置100の動作の概要について説明する(適宜、図1参照)。
音声合成装置100に合成対象テキストが入力されると、先頭断片テキスト抽出部111は、入力テキストの先頭部分の文字列を、テキスト長を異ならせて複数出力する。これら複数の文字列は、先頭断片テキストの候補文字列となる。例えば、入力テキストが「本日の天気は晴れです。」という文章であった場合、先頭断片テキスト抽出部111は、「本」「本日」「本日の」・・・「本日の天気は晴れです。」という文字列を候補文字列群として出力する。ただし、先頭断片記憶部121に記憶されている先頭断片情報内の先頭断片テキストの文字数の最長値が予め決められている場合には、先頭断片テキスト抽出部111は、その最長値よりも長い文字数の候補文字列を生成する必要はない。
次に、先頭断片音声選択部112、合成音声構成情報生成部113、および構成情報指定付き音声合成部114の機能の詳細について説明する(適宜、図1,2,3参照)。
先頭断片音声選択部112は、先頭断片テキスト抽出部111から入力された候補文字列群に一致する先頭断片テキストを抽出し、さらに、その抽出したものの中からテキスト長が最も長いものを選択する機能を有する。つまり、先頭断片音声選択部112では、主に文字列検索処理が実行される。
合成対象テキストが入力されてから合成音声データを再生出力するまでの時間を示す再生遅延時間を重視しないケースであれば、入力された候補文字列のうち、文字数が多いものから順番に先頭断片記憶部121を検索し、一致する先頭断片テキストを選択するという手法を用いても良い。例えば、「本」「本日」「本日の」・・・「本日の天気は晴れです。」という候補文字列群があったとして、文字数が最も多い「本日の天気は晴れです。」の候補文字列から先頭断片記憶部121の検索を開始するケースである。しかしながら、このような手法では、入力テキストが長くなるほど、一致する先頭断片テキストを見つけるための比較処理の回数が増加して、再生遅延時間が増加するという虞がある。
図4に示すように、合成音声構成情報生成部113は、テキスト解析部401および韻律解析部402を備えている。
テキスト解析部401は、漢字かな混じりの入力テキストを、自然言語処理技術を用いて音韻文字と韻律指定文字を含む中間言語表現に変換する。例えば、例文「本日の天気は晴れです。」の場合、「ホ’ンジツノ/テ’ンキワ/ハレ’デス%.」のような中間言語に変換される。ここでカタカナは音を示す音韻文字であり、ピリオド(.)は文末指定文字、パーセント(%)は直前の音韻が無声化されていることを示す記号である。また、アポストロフィー(’)はアクセント核位置を示す韻律記号、スラッシュ(/)はアクセント句の区切りを示す韻律記号である。入力テキストを中間言語表現に変換する処理手法は、公知技術(非特許文献1参照)であるため詳細な説明を省略するが、形態素解析処理と、音声合成処理に独特のアクセント句およびアクセント核位置の解析処理を組み合わせることで実現される。
韻律解析部402には、先頭断片テキスト抽出部111から、合成音声構成情報203の「ホ(20,80,220,230)ン(0,60,230,220)ジ(20,50,220,210)ツ(30,60,210,200)ノ(20,70,200,180)」が入力される。そして、韻律解析部402は、入力された合成音声構成情報203に続く部分の合成音声構成情報303を生成する。
構成情報指定付き音声合成部114は、例えば、波形接続手法やパラメータ合成手法等、公知技術による音声合成手法(非特許文献1参照)を用いることによって合成音声データを生成する。
第2実施形態では、図5を用いて、先頭断片記憶部121内(図5参照)に入力テキストに対応する先頭断片情報200(図2参照)が記憶されていない場合に、先頭断片情報200をあらたに追加していく登録機能を有する音声合成装置500について説明する(適宜、図2,3参照)。これにより、以前と同じ合成対象テキストが再度入力された場合または先頭部分が同じ合成対象テキストが再度入力された場合は、一致する先頭断片情報200を利用することができ、即座に音声再生を行うことができる。
なお、音声合成装置500から先頭断片情報200の登録機能(先頭断片情報抽出部116)を切り離し、先頭断片記憶部121に先頭断片情報200の登録のみを行う専用装置を設けても良い。例えば、電子書籍やニュースの読み上げでは、先頭断片テキストはいろいろな分野にわたって多種になるため、先頭断片記憶部121内で先頭断片情報200が抽出されずに、新規に先頭断片情報200を生成し追加するケースが多くなると考えられる。このような場合には、図8に示す先頭断片情報登録装置800は、新規の先頭断片情報200を登録するための登録処理専用の装置として好適である。
第3実施形態では、マーカ前後のスムーズな接続に関して、第1実施形態で記載した方法とは異なる別法について説明する(適宜、図1,5参照)。この別法は、第1実施形態で説明した方法に比較して、マーカ以降の合成音声データの生成を開始する時間をより早めることができる。
前記3つの方式のうち、パラメータ合成方式および波形重畳方式は、それぞれ、合成する音素に対応する音響パラメータと音声素片とを、ピッチ(基本周波数)間隔で駆動する(それぞれフィルタ合成、ピッチ波形の重畳加算を実行する)ことによって合成音声データを生成する。このとき、生成された合成音声データの末尾部分は、次の音素の合成処理に必要なデータとなる。このように、パラメータ合成方式および波形重畳方式では、前の音素の合成処理で生成されたデータが後の音素の合成処理で必要となるので、合成対象テキストの先頭から逐次的に音声合成していく必要がある。なお、以下の説明では、後の音素の合成に必要なデータを中間音声データと呼ぶこととすると、パラメータ合成方式および波形重畳方式は、中間音声データを必要とするアルゴリズムであると言える。
110,110a,110b 処理部
111 先頭断片テキスト抽出部(第1の手段)
112 先頭断片音声選択部(第2の手段)
113 合成音声構成情報生成部(第3の手段、第4の手段)
114 構成情報指定付き音声合成部(第3の手段、第5の手段)
115 音声再生部(音声再生手段)
116 先頭断片情報抽出部(第6の手段)
117 文分解部
132 第1の合成音声データ
134 第2の合成音声データ
120 記憶部(記憶手段)
121 先頭断片記憶部
200 先頭断片情報
201 先頭断片テキスト情報
202 先頭断片音声情報
203 合成音声構成情報(第1の合成音声構成情報)
300 合成音声構成情報
301 音韻情報
302 韻律情報
303 合成音声構成情報(第2の合成音声構成情報)
401 テキスト解析部
402 韻律解析部
600 合成音声構成情報
601 音韻情報
602 韻律情報
603 文字対応情報
700 合成音声構成情報
701 音韻情報
702 韻律情報
703 再生開始時刻
800 先頭断片情報登録装置
Claims (11)
- 取得したテキストの合成音声データを生成して音声再生手段で再生する音声合成装置であって、
前記テキストの先頭の断片文字列と、前記断片文字列に対応する第1の合成音声データを関連付けて記憶している記憶手段と、
前記取得したテキストの先頭からの長さが異なる複数の文字列からなる候補文字列群を出力する第1の手段と、
前記記憶手段を参照して、前記候補文字列群の長さの長い方の文字列から前記記憶手段の前記断片文字列に一致する文字列を検索し、一致した文字列に対応する第1の合成音声データを取得する第2の手段と、
前記第1の合成音声データを再生している間に、前記取得したテキストの前記第2の手段により検索された文字列より後の文字列に対応する第2の合成音声データを生成する第3の手段と、
前記第2の手段で検索された先頭の断片文字列に対応する前記記憶手段の第1の合成音声データと、前記第3の手段で生成された前記第2の合成音声データを再生出力する音声再生手段と、
を備えることを特徴とする音声合成装置。 - 前記第3の手段は、
前記第2の合成音声データを生成するために用いる、テキストの音韻情報とその音韻の長さおよび高さとを少なくとも含む第2の合成音声構成情報を生成する第4の手段と、
前記第2の合成音声構成情報に基づいて前記第2の合成音声データを生成する第5の手段と
を備えることを特徴とする請求項1に記載の音声合成装置。 - 前記記憶手段は、さらに、前記第1の合成音声データを生成したときに用いた、テキストの音韻情報とその音韻の長さおよび高さとを少なくとも含む第1の合成音声構成情報を前記テキストの文字列に関連付けて記憶しており、
前記第2の手段は、さらに、前記一致した文字列に関連付けられた前記第1の合成音声構成情報を、前記記憶手段から取得し、
前記第4の手段は、第2の手段から取得した前記第1の合成音声構成情報と前記第2の合成音声構成情報とを用いて、前記第2の合成音声データの再生音の高さを前記第1の合成音声データの再生音の高さに一致させ、前記第2の合成音声構成情報内の平均音韻時間長を前記第1の合成音声構成情報内の平均音韻時間長に一致させる
ことを特徴とする請求項2に記載の音声合成装置。 - 前記第2の手段において前記先頭の文字列に一致する文字列を抽出できなかった場合、前記取得したテキストの文字列からテキストの先頭側の文字列を選択し、前記取得したテキストに対応する第3の合成音声データを生成し、前記第3の合成音声データから前記先頭側の文字列に対応する断片を切り出し、前記先頭側の文字列と前記第3の合成音声データの断片とを関連付けて、前記記憶手段に記憶する第6の手段
をさらに備えることを特徴とする請求項1ないし請求項3のいずれか一項に記載の音声合成装置。 - 前記第6の手段は、前記先頭側の文字列の長さを、当該先頭側の文字列に対応する前記第3の合成音声データの断片の再生時間が所定時間以上となるように決定する
ことを特徴とする請求項4に記載の音声合成装置。 - 取得したテキストに対応する合成音声データを生成して音声再生手段で再生する音声合成装置の音声合成方法であって、
前記音声合成装置は、
前記テキストの先頭の断片文字列と、前記断片文字列に対応する第1の合成音声データを関連付けて記憶している記憶手段と音声再生手段とを備え、
前記取得したテキストの先頭からの長さが異なる複数の文字列からなる候補文字列群を出力する第1のステップと、
前記記憶手段を参照して、前記候補文字列群の長さの長い方の文字列から前記記憶手段の前記断片文字列に一致する文字列を検索し、一致した文字列に対応する第1の合成音声データを取得し、取得した前記第1の合成音声データを前記音声再生手段に出力する第2のステップと、
前記音声再生手段が前記第1の合成音声データを再生している間に、前記第2のステップで検索したテキストの先頭の文字列より後の文字列に対応する第2の合成音声データの生成処理を開始して、生成した前記第2の合成音声データを前記音声再生手段に出力する第3のステップと、
を実行することを特徴とする音声合成方法。 - 前記第3のステップは、
前記第2の合成音声データを生成するために用いる、テキストの音韻情報とその音韻の長さおよび高さとを少なくとも含む第2の合成音声構成情報を生成する第4のステップと、
前記第2の合成音声構成情報に基づいて前記第2の合成音声データを生成する第5のステップと
を備えることを特徴とする請求項6に記載の音声合成方法。 - 前記記憶手段は、さらに、前記第1の合成音声データを生成したときに用いた、テキストの音韻情報とその音韻の長さおよび高さとを少なくとも含む第1の合成音声構成情報を前記テキストの文字列に関連付けて記憶しており、
前記第2のステップでは、さらに、前記一致した文字列に関連付けられた前記第1の合成音声構成情報を、前記記憶手段から取得し、
前記第4のステップでは、第2のステップから取得した前記第1の合成音声構成情報と前記第2の合成音声構成情報とを用いて、前記第2の合成音声データの再生音の高さを前記第1の合成音声データの再生音の高さに一致させ、前記第2の合成音声構成情報内の平均音韻時間長を前記第1の合成音声構成情報内の平均音韻時間長に一致させる
ことを特徴とする請求項7に記載の音声合成方法。 - 前記第2のステップにおいて前記先頭の文字列に一致する文字列を抽出できなかった場合、前記取得したテキストの文字列からテキストの先頭側の文字列を選択し、前記取得したテキストに対応する第3の合成音声データを生成し、前記第3の合成音声データから前記先頭側の文字列に対応する断片を切り出し、前記先頭側の文字列と前記第3の合成音声データの断片とを関連付けて、前記記憶手段に記憶する第6のステップ
をさらに実行することを特徴とする請求項6ないし請求項8のいずれか一項に記載の音声合成方法。 - 前記第6のステップでは、前記先頭側の文字列の長さを、当該先頭側の文字列に対応する前記第3の合成音声データの断片の再生時間が所定時間以上となるように決定する
ことを特徴とする請求項9に記載の音声合成方法。 - 請求項6ないし請求項10のいずれか一項に記載の音声合成方法を、コンピュータである前記音声合成装置に実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011201459A JP5819147B2 (ja) | 2011-09-15 | 2011-09-15 | 音声合成装置、音声合成方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011201459A JP5819147B2 (ja) | 2011-09-15 | 2011-09-15 | 音声合成装置、音声合成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013061591A JP2013061591A (ja) | 2013-04-04 |
JP5819147B2 true JP5819147B2 (ja) | 2015-11-18 |
Family
ID=48186284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011201459A Expired - Fee Related JP5819147B2 (ja) | 2011-09-15 | 2011-09-15 | 音声合成装置、音声合成方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5819147B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6139430B2 (ja) * | 2014-02-13 | 2017-05-31 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
JP6139429B2 (ja) * | 2014-02-13 | 2017-05-31 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
JP6083654B2 (ja) * | 2015-02-23 | 2017-02-22 | 株式会社プロフィールド | データ処理装置、データ構造、データ処理方法、およびプログラム |
JP6551848B2 (ja) * | 2016-12-13 | 2019-07-31 | 株式会社プロフィールド | データ処理装置、データ構造、データ処理方法、およびプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2189574C (en) * | 1994-05-23 | 2000-09-05 | Andrew Paul Breen | Speech engine |
JP2000293187A (ja) * | 1999-04-09 | 2000-10-20 | Nec Soft Ltd | データ音声合成装置及びデータ音声合成方法 |
JP2004109534A (ja) * | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | データベース探索用辞書およびデータベース探索用辞書作成方法、データベース探索用辞書作成回路、データベース探索用辞書作成プログラムならびに音声合成装置 |
JP2004271976A (ja) * | 2003-03-10 | 2004-09-30 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP4414864B2 (ja) * | 2004-11-08 | 2010-02-10 | 日本電信電話株式会社 | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 |
JP2008064972A (ja) * | 2006-09-06 | 2008-03-21 | Nissan Motor Co Ltd | 音声合成装置、音声合成方法及び音声合成用プログラム |
JP2008201217A (ja) * | 2007-02-19 | 2008-09-04 | Nissan Motor Co Ltd | 情報提供装置、情報提供方法及び情報提供システム |
-
2011
- 2011-09-15 JP JP2011201459A patent/JP5819147B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013061591A (ja) | 2013-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH10274997A (ja) | 文書読み上げ装置 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP5398295B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
JP5819147B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP5451982B2 (ja) | 支援装置、プログラムおよび支援方法 | |
JP5343293B2 (ja) | 音声編集合成装置及び音声編集合成方法 | |
JP5334716B2 (ja) | 文字情報提示制御装置及びプログラム | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
JP2005018037A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP2005018036A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP5098932B2 (ja) | 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム | |
JP2006349787A (ja) | 音声合成方法および装置 | |
JP4287664B2 (ja) | 音声合成装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JP4574333B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2005091551A (ja) | 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム | |
JPH11282494A (ja) | 音声合成装置および記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5819147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |