JP2012078755A - 話速調整装置、音声合成システム、およびプログラム - Google Patents

話速調整装置、音声合成システム、およびプログラム Download PDF

Info

Publication number
JP2012078755A
JP2012078755A JP2010226680A JP2010226680A JP2012078755A JP 2012078755 A JP2012078755 A JP 2012078755A JP 2010226680 A JP2010226680 A JP 2010226680A JP 2010226680 A JP2010226680 A JP 2010226680A JP 2012078755 A JP2012078755 A JP 2012078755A
Authority
JP
Japan
Prior art keywords
speech
synthesized
data
speed
speech speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010226680A
Other languages
English (en)
Other versions
JP5620776B2 (ja
Inventor
Nobumasa Seiyama
信正 清山
Hiroyuki Segi
寛之 世木
Reiko Tako
礼子 田高
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2010226680A priority Critical patent/JP5620776B2/ja
Publication of JP2012078755A publication Critical patent/JP2012078755A/ja
Application granted granted Critical
Publication of JP5620776B2 publication Critical patent/JP5620776B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)

Abstract

【課題】複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる話速調整装置およびプログラムを提供する。
【解決手段】複数の音声データベースから合成された合成音声データの話速の平均値を、識別番号jに基づいて合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段11と、合成音声データの時間長の累計値を、合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段12と、該平均値、該累計値、および、番組放送時間に基づいて、合成音声データの時間長の伸縮倍率を、合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段14と、該倍率で前記合成音声データの話速を変換する話速変換手段15と、を含む。
【選択図】図5

Description

本発明は、話速調整装置、音声合成システム、およびプログラムに関し、特に、放送番組に用いられる音声の話速を変換し、音声全体の時間長を既定の番組放送時間内に収めるための話速調整装置、音声合成システム、およびプログラムに関する。
近年、放送番組用の原稿を自動的に音声に変換して放送する自動音声放送が注目されている。例えば、天気予報番組など同じ定型文を繰り返し用いる放送を自動音声放送とすることが徐々に実用段階に至っている。
一般に、自動音声化の方法としてコンピュータが発生した単語音声を合成する方法があるが、この方法では放送番組で使用できる品質の合成音声を得ることが容易ではない。このため、予めアナウンサが発話した音声を収録して音声データベースを作成しておき、該音声データベースから放送番組用の原稿に対応した音声データを切り出して音声合成を行うことが現実的である。
このように放送番組用の原稿に含まれ得る音声データを予め取得し、それらを接続することにより音声合成を行う録音編集方式による音声合成装置は、例えば特許文献1、2に開示されている。
特許文献1に開示された装置は、複数の項目シナリオファイルからなる台本ファイルに従って複数の音声データを繋ぎ合わせることにより、合成音声データを生成するようになっている。
さらに、特許文献1に開示された装置は、番組全体の放送時間(以下、番組放送時間と記す)と合成音声データ全体の再生時間とが一致するように、台本ファイルの項目シナリオファイルごとに合成音声データの再生時間を伸縮する話速変換手段を備えている。なお、この話速変換手段が用いている話速変換技術は公知である。
一方、特許文献2に開示された装置は、録音編集方式の音声合成処理において、複数の音声データを接続する際に、自然な聴感が得られる音声データ間の休止時間長を算出するものである。ここで、各音声データの話速は、音声データに予め設定されている拍数(モーラ数)を、音声データの音声区間長で除することにより算出される。
特許第4537886号明細書 特開2008−116826号公報
上述のように、天気予報番組用などの定められた用途での音声合成を目的として音声を収録して音声データベースを構築する場合、合成音声データの品質を保つために一定の話速で発話された音声を収録することが多い。しかしながら、異なる時期に収録した音声で構築した音声データベースでは、同一話者であっても音声データベースごとに音声データの話速が異なる場合が少なくない。
複数の異なる音声データベースを用いて高品質な音声合成を行うためには、それぞれの音声データベースから合成された合成音声データを連続して再生する際に、話速の不一致による違和感が生じないように、話速を調整して再生(もしくは生成)する方法が必要である。
しかしながら、特許文献1に開示された装置は、番組放送時間と合成音声データ全体の再生時間とが一致するまで、順次各項目シナリオファイルに対応する音声データの再生時間を伸縮するものであり、合成音声データ全体の話速を一定とするものではない。また、特許文献2に開示された装置も、合成音声データの話速を一定とすることを目的とするものではない。
従来より、番組放送時間と合成音声データ全体の再生時間とを一致させ、かつ、合成音声データ全体の話速を一定に揃えるためには、例えば、音声合成処理の前に話速変換を用いて複数の音声データベースの話速を揃える方法が用いられるが、最終的に合成音声データ全体の長さを番組放送時間に合わせるために再度話速変換を行う必要があり、処理を重ねることにより音質劣化が生じてしまうという問題があった。
本発明は、このような従来の課題を解決するためになされたものであって、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる話速調整装置、音声合成システム、およびプログラムを提供することを目的とする。
本発明の話速調整装置は、複数の音声データベースから合成された合成音声データの話速の平均値を、該合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段と、前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える構成を有している。
この構成により、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる。即ち、話速変換が1回で済むため、音質の劣化を抑制することができる。
また、この構成により、各音声データベースから合成された合成音声データの話速を用いて合成音声データの時間長の伸縮倍率を算出するため、実態に即した精緻な話速調整を行うことができる。
また、本発明の話速調整装置は、複数の音声データベースが有する音声データの話速の平均値を、該音声データベースごとに算出する話速平均値算出手段と、前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える構成を有している。
この構成により、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる。
また、この構成により、各音声データベースを構成する音声データの話速を用いて合成音声データの時間長の伸縮倍率を算出するため、計算処理が簡易となり、効率的に話速調整を行うことができる。
また、本発明の話速調整装置は、前記伸縮倍率算出手段が、前記伸縮倍率を以下の式(1)に従って算出する構成を有していてもよい。
Figure 2012078755
本発明の音声合成システムは、音声データと、該音声データに対応するテキストおよびその音素表記と、を有する複数の音声データベースを備え、放送内容に応じた放送用テキストと、該放送用テキストに対応する音声データが蓄積されている前記音声データベースの識別情報と、に基づいて前記複数の音声データベースから合成音声データを生成し、生成した該合成音声データ、該合成音声データの時間長、および、該合成音声データまたは該音声データの話速、を出力する音声合成装置と、上記の話速調整装置と、を備える構成を有していてもよい。
本発明は、複数の音声データベースから合成された合成音声データの時間長の伸縮倍率を、識別情報に基づいて合成音声データの生成源の音声データベースごとに算出することにより、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる話速調整装置、音声合成システム、およびプログラムを提供するものである。
複数の音声データベースから合成音声データを作成する音声合成装置の構成を示す概略図 放送用テキストと音声データベースの内容の一例を示す説明図 放送用テキストと複数の音声データベースとの対応関係を示す説明図 複数の音声データベースから合成音声データを作成する音声合成装置の他の構成を示す概略図 本発明に係る話速調整装置の構成を示すブロック図 本発明に係る話速調整装置のハードウエア構成を示すブロック図 本発明に係る話速調整装置のCPUが実行する話速調整プログラムのフローチャート 本発明に係る話速調整装置の他の構成を示すブロック図
以下、本発明に係る話速調整装置、音声合成システム、およびプログラムの実施形態について、図面を用いて説明する。本発明に係る話速調整装置は、複数の音声データベースから合成された合成音声データの話速を調整するものである。まず、本発明に係る話速調整装置に入力される合成音声データの作成方法についてその概要を述べる。
図1は、複数の音声データベースDB−1、・・・、DB−N(Nは2以上の自然数)から合成音声データを作成する音声合成装置60の構成の一例を示すブロック図である。
音声データベースDB−1、・・・、DB−Nは、音声データと、該音声データに対応するテキストおよびその音素表記と、を蓄積しており、音声データを任意の単位(例えば、一文単位、形態素単位)に切り出して出力できるようになっている。
図1の構成において、放送内容に応じた漢字仮名交じり文の放送用テキストと、該放送用テキストに対応する音声データが蓄積されている音声データベースの識別情報と、が音声合成エンジン50に入力される。ここで、識別情報は識別番号j(j=1,・・・,N)であるとする。
音声合成エンジン50は、識別番号jにより指定された音声データベースを用いて合成音声データを作成する。図2に放送用テキストと音声データベースDB−1、・・・、DB−Nの内容の一例を示し、図3に図2の例における放送用テキストと音声データベースDB−1、・・・、DB−Nとの対応関係を示す。なお、図2、3に示した音声データベースの構成はあくまでも説明上の一例であり、実際の音声データベースの構成はこれに限定されない。
例えば、図2、3に示した例では、音声合成エンジン50は、放送用テキストの「石垣島では、東の風、風力2、天気は、にわか雨、気圧は、1010ヘクトパスカル、気温は、27度。」との一文に相当する合成音声データの作成に当たって、識別番号1に対応する音声データベースDB−1から8個の音声データ(「では、」、「の風、」、「風力」、「天気は、」、「気圧は、」、「ヘクトパスカル、」、「気温は、」、「度。」)、識別番号2に対応する音声データベースDB−2から3個の音声データ(「2」、「1010」、「27」)、識別番号3〜5に対応する音声データベースDB−3、DB−4、DB−5からそれぞれ1個の音声データ(「石垣島」、「東」、「にわか雨」)を用いる。
ここで、識別番号j(j=1,・・・,N)に対応する各音声データベースDB−1、・・・、DB−Nにおける音声合成に用いられた音声データの累積番号をi(i=1,・・・,Mj)、放送用テキストに対応する合成音声データをSji(j=1,・・・,N、i=1,・・・,Mj)とする。即ち、音声合成エンジン50は、図3に示すように、合成音声データをS31、S11、S41、S12、S13、S21、S14、S51、S15、S22、S16、S17、S23、S18、の順に繋ぎ合わせた合成音声データを生成する。なお、各合成音声データS11〜S18、S21〜S23、S31、S41、S51の話速は、音声合成の過程で、音声合成前の音声データの話速から変化している場合がある。
また、音声合成エンジン50は、例えば特許第3958908号明細書に開示されているような公知の方法で、放送用テキストから音素表記を求め、求めた音素表記の母音、撥音、促音をカウントしてモーラ数を求める。さらに、音声合成エンジン50は、合成音声データのファイルサイズから時間長を求め、モーラ数を時間長で除算して1秒あたりのモーラ数を求めることにより話速を算出する。
音声合成エンジン50は、このようにして得られた放送用テキストに対応する合成音声データSjiと、合成音声データSjiの時間長Tjiと話速Rjiを、合成音声データの生成源の音声データベースDB−1、・・・、DB−Nの識別番号j(j=1,・・・,N)、および、各音声データベースDB−1、・・・、DB−Nにおける累積番号i(i=1,・・・,Mj)に対応づけて出力する。例えば、図2、3に示した例では、M1=8、M2=3、M3〜M5=1であり、「風力」に対応する合成音声データはS13であり、「にわか雨」に対応する合成音声データはS51である。
図4に、複数の音声データベースDB−1、・・・、DB−Nから合成音声データを作成する音声合成装置の他の構成例を示す。ここでは、音声合成装置に符号70を付して図1に示した音声合成装置60と区別する。
図4の構成は、音声合成エンジン50が合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiを出力する点は図1の構成と同様であるが、各音声データベースDB−1、・・・、DB−Nを構成する文章(あるいは、文、形態素)k(k=1,・・・,Lj)に対応した音声データWjkの話速Rjkを各音声データベースDB−1、・・・、DB−Nから直接出力可能である点が図1の構成と異なる。ここで、Ljは、各音声データベースDB−1、・・・、DB−Nを構成する全ての文章kの総数を示すパラメータである。
(第1の実施形態)
本発明に係る話速調整装置の第1の実施形態を図1、図5〜図7を参照しながら説明する。本実施形態の話速調整装置1は、図1の構成で作成された合成音声データの話速を調整するものである。
本実施形態の話速調整装置1は、図5に示すように、複数の音声データベースDB−1、・・・、DB−Nから合成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)の話速Rjiの平均値を、識別情報(識別番号j)に基づいて合成音声データの生成源の複数の音声データベースDB−1、・・・、DB−Nごとに算出する話速平均値算出手段11と、合成音声データの時間長の累計値Tjを、合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段12と、番組放送時間TPを設定する番組放送時間設定手段13と、話速平均値算出手段11で算出された平均値、時間長累計値算出手段12で算出された累計値Tj、および、番組放送時間TPに基づいて、合成音声データ全体の時間長を番組放送時間TPと一致させ、かつ、合成音声データの生成源の複数の音声データベースごとの話速の平均値を互いに等しくする合成音声データSjiの伸縮倍率Pjを、合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段14と、伸縮倍率算出手段14で算出された伸縮倍率Pjで合成音声データSjiの話速を変換する話速変換手段15と、話速変換手段15により話速が変換された合成音声データ(以下、話速調整音声データSと記す)を記憶する記憶手段16と、を備える。
ここで、話速調整装置1には、複数の音声データベースDB−1、・・・、DB−Nから合成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiおよび話速Rjiが図1に示した音声合成エンジン50から入力されるようになっている。合成音声データSji、時間長Tji、話速Rjiはいずれも生成源の音声データベースDB−1、・・・、DB−Nの識別番号j(j=1,・・・,N)に対応づけられている。
図6は、本実施形態の話速調整装置1のハードウエア構成を示すブロック図である。図6に示すように、本実施形態の話速調整装置1は、表示パネル31、キーボード32、およびマウス33等のインターフェイスと、パーソナルコンピュータ等の演算装置34と、を含む。
演算装置34は、合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiおよび話速Rjiが入力される入力インターフェイス(I/F)35、話速調整音声データSを出力する出力I/F36、CPU(Central Processing Unit)37、メモリ38、話速調整音声データSを記憶する記憶手段16を構成するハードディスク(HDD)39、および周辺機器I/F40がバス41を介して相互に結合された構成を有する。表示パネル31、キーボード32、およびマウス33等のインターフェイスは周辺機器I/F40に接続される。
入力I/F35には音声合成エンジン50が接続される。さらに、入力I/F35に、音声データベースDB−1、・・・、DB−Nからの音声データを直接入力できる構成としてもよい。音声データベースDB−1、・・・、DB−Nは、ハードディスク、光磁気ディスク、半導体メモリ、CD−ROM等の記録媒体により構成される。
出力I/F36は、例えば、増幅器(図示せず)を介してスピーカ(図示せず)を接続可能な構成であるとよい。また、出力I/F36は、CPU37からの制御指令に応じて、HDD39に蓄積された話速調整音声データSを出力できるようになっている。
なお、話速平均値算出手段11、時間長累計値算出手段12、伸縮倍率算出手段14、および話速変換手段15は、メモリ38にプログラムをインストールすることにより、演算装置34内にソフトウエア的に構成される。また、番組放送時間設定手段13は、例えば、予め作成された台本ファイルから番組放送時間TPを取得するようになっていてもよく、あるいは、操作者がキーボード32またはマウス33を介して番組放送時間TPを手動で入力できる構成になっていてもよい。
図7は、CPU37が実行する話速調整プログラムのフローチャートである。CPU37は、話速平均値算出手段11に対応する話速平均値算出処理(ステップS100)と、時間長累計値算出手段12に対応する時間長累計値算出処理(ステップS101)と、伸縮倍率算出手段14に対応する伸縮倍率算出処理(ステップS102)と、話速変換手段15に対応する話速変換処理(ステップS103)と、を実行するようになっている。
まず、CPU37は話速平均値算出処理(ステップS100)において、各音声データベースDB−1、・・・、DB−Nから作成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)の話速Rjiの平均値を、合成音声データの生成源の音声データベースごとに[数2]より算出する。なお、以下の数式中では、「Rj」にアッパーラインを付したものをRjiの平均値としている。
Figure 2012078755
次に、CPU37は、時間長累計値算出処理(ステップS101)において、合成音声データの時間長の累計値Tjを、合成音声データの生成源の音声データベースごとに次式に従って算出する。
Figure 2012078755
次に、CPU37は、伸縮倍率算出処理(ステップS102)において、話速平均値算出処理(ステップS100)の[数2]で得られた平均値を、全ての生成源の音声データベースDB−1、・・・、DB−Nに亘って[数4]のように平均する。即ち、[数4]で得られる平均値は合成音声データ全体の平均話速である。
Figure 2012078755
さらに、CPU37は、伸縮倍率算出処理(ステップS102)において、[数2]で算出した合成音声データの話速の平均値を[数4]で算出した合成音声データ全体の平均話速に合わせるように、合成音声データSjiを伸縮した場合の時間長の累計値Tj'を、合成音声データの生成源の音声データベースごとに次式に従って算出する。なお、ここでは実際に合成音声データの時間長を伸縮するわけではない。
Figure 2012078755
このとき、合成音声データ全体の時間長TSは次式で表わされる。
Figure 2012078755
さらに、CPU37は、伸縮倍率算出処理(ステップS102)において、上述のように話速を一定とした場合の合成音声データ全体の時間長TSを番組放送時間TPに合わせるための合成音声データ全体の伸縮倍率Pを次式に従って算出する。
Figure 2012078755
さらに、CPU37は、伸縮倍率算出処理(ステップS102)において、合成音声データSjiの時間長Tjiを伸縮する伸縮倍率Pjを、合成音声データの生成源の音声データベースごとに次式に従って算出する。
Figure 2012078755
最後に、CPU37は、話速変換処理(ステップS103)において、合成音声データSjiを伸縮倍率Pj(j=1,・・・,N)で伸縮し、話速調整音声データSとしてHDD39に蓄積する。さらに、CPU37は、出力I/F36を介して、HDD39に蓄積された話速調整音声データSを出力する。なお、個々の話速の調整方法としては公知の話速変換技術を用いればよい。
以上の説明では、CPU37は、話速平均値算出処理(ステップS100)で[数2]の計算処理、時間長累計値算出処理(ステップS101)で[数3]の計算処理、伸縮倍率算出処理(ステップS102)で[数4]〜[数8]の計算処理をそれぞれ行うとした。なお、[数8]は、[数7]、[数6]、[数5]を順次代入することにより、次式のように整理できる。
Figure 2012078755
従って、CPU37が、伸縮倍率算出処理(ステップS102)において[数4]〜[数8]の計算処理の代わりに[数9]の計算処理を行う構成としてもよい。
以上説明したように、本実施形態の話速調整装置およびプログラムは、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる。即ち、話速変換が1回で済むため音質の劣化を抑制することができる。
また、本実施形態の話速調整装置およびプログラムは、各音声データベースから合成された合成音声データの話速を用いて合成音声データの時間長を伸縮する伸縮倍率を算出するため、実態に即した精緻な話速調整を行うことができる。
なお、本実施形態の話速調整装置と、図1に示した合成音声データを作成する音声合成装置と、を組み合わせることにより、話速調整機能を有する音声合成システムを実現することもできる。
(第2の実施形態)
本発明に係る話速調整装置の第2の実施形態を図4、図8を参照しながら説明する。本実施形態の話速調整装置2は、図4の構成で作成された合成音声データの話速を調整するものである。なお、第1の実施形態と同様の構成については説明を省略する。
本実施形態の話速調整装置2は、図8に示すように、話速平均値算出手段が、複数の音声データベースDB−1、・・・、DB−Nが有する音声データWjk(j=1,・・・,N、k=1,・・・,Lj)の話速Rjkの平均値を、識別情報(識別番号j)に基づいて合成音声データの生成源の音声データベースごとに算出する点が第1の実施形態と異なる。このため、本実施形態においては、話速平均値算出手段に符号21を付して第1の実施形態の話速平均値算出手段11と区別する。
ここで、話速調整装置2には、複数の音声データベースDB−1、・・・、DB−Nから合成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiが音声合成エンジン50から入力されるとともに、音声データWjk(j=1,・・・,N、k=1,・・・,Lj)の話速Rjkが各音声データベースDB−1、・・・、DB−Nから直接入力されるようになっている。合成音声データSji、時間長Tji、音声データWjk、話速Rjkはいずれも音声データベースDB−1、・・・、DB−Nの識別番号j(j=1,・・・,N)に対応づけられている。
本実施形態の話速調整装置2のハードウエア構成は、図6に示した第1の実施形態における構成と同様である。話速平均値算出手段21、時間長累計値算出手段12、伸縮倍率算出手段14、および話速変換手段15は、メモリ38にプログラムをインストールすることにより、演算装置34内にソフトウエア的に構成される。
CPU37は、第1の実施形態における話速平均値算出処理(ステップS100)の代わりに、各音声データベースDB−1、・・・、DB−Nから直接入力される音声データWjk(j=1,・・・,N、k=1,・・・,Lj)の話速Rjkの平均値を、識別番号jに基づいて合成音声データの生成源の音声データベースごとに次式に従って算出する処理を行う。
Figure 2012078755
この処理は、各音声データベースDB−1、・・・、DB−Nを構成する全ての文章k(k=1,・・・,Lj)に対応する音声データWjkの話速Rjkの平均値を算出するものである。即ち、この処理は、実際の放送用テキストの内容に含まれない音声データの話速も含めて平均値を算出することになるが、第1の実施形態における話速平均値算出処理(ステップS100)と比較して計算処理を簡易化できる。
以上説明したように、本実施形態の話速調整装置およびプログラムは、各音声データベースを構成する音声データの話速を用いて合成音声データの時間長を伸縮する伸縮倍率を算出するため、計算処理が簡易となり、効率的に話速調整を行うことができる。
なお、本実施形態の話速調整装置と、図4に示した合成音声データを作成する音声合成装置と、を組み合わせることにより、話速調整機能を有する音声合成システムを実現することもできる。
本発明に係る話速調整装置、音声合成システム、およびプログラムは、音声合成技術により放送番組に用いられる合成音声データを制作する番組音声制作装置や、合成音声データを再生する音声再生装置に適用可能な話速調整装置、音声合成システム、およびプログラムとして有用である。
1、2 話速調整装置
11、21 話速平均値算出手段
12 時間長累計値算出手段
13 番組放送時間設定手段
14 伸縮倍率算出手段
15 話速変換手段
16 記憶手段
50 音声合成エンジン
60、70 音声合成装置
DB−1、・・・、DB−N 音声データベース

Claims (6)

  1. 複数の音声データベースから合成された合成音声データの話速の平均値を、該合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段と、
    前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
    前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
    前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
    前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える話速調整装置。
  2. 複数の音声データベースが有する音声データの話速の平均値を、該音声データベースごとに算出する話速平均値算出手段と、
    前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
    前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
    前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
    前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える話速調整装置。
  3. 前記伸縮倍率算出手段が、前記伸縮倍率を以下の式(1)に従って算出する請求項1または請求項2に記載の話速調整装置。
    Figure 2012078755
  4. 音声データと、該音声データに対応するテキストおよびその音素表記と、を有する複数の音声データベースを備え、放送内容に応じた放送用テキストと、該放送用テキストに対応する音声データが蓄積されている前記音声データベースの識別情報と、に基づいて前記複数の音声データベースから合成音声データを生成し、生成した該合成音声データ、該合成音声データの時間長、および、該合成音声データまたは該音声データの話速、を出力する音声合成装置と、
    請求項1から請求項3のいずれか一項に記載の話速調整装置と、を備える音声合成システム。
  5. コンピュータに、
    複数の音声データベースから合成された合成音声データの話速の平均値を、該合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段と、
    前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
    前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
    前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
    前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を実現させるプログラム。
  6. コンピュータに、
    複数の音声データベースが有する音声データの話速の平均値を、該音声データベースごとに算出する話速平均値算出手段と、
    前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
    前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
    前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
    前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を実現させるプログラム。
JP2010226680A 2010-10-06 2010-10-06 話速調整装置、音声合成システム、およびプログラム Expired - Fee Related JP5620776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010226680A JP5620776B2 (ja) 2010-10-06 2010-10-06 話速調整装置、音声合成システム、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010226680A JP5620776B2 (ja) 2010-10-06 2010-10-06 話速調整装置、音声合成システム、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012078755A true JP2012078755A (ja) 2012-04-19
JP5620776B2 JP5620776B2 (ja) 2014-11-05

Family

ID=46239044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010226680A Expired - Fee Related JP5620776B2 (ja) 2010-10-06 2010-10-06 話速調整装置、音声合成システム、およびプログラム

Country Status (1)

Country Link
JP (1) JP5620776B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018179209A1 (ja) * 2017-03-30 2018-10-04 三菱電機株式会社 電子機器、音声制御方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132179A (ja) * 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体
JP2001265374A (ja) * 2000-03-14 2001-09-28 Omron Corp 音声合成装置及び記録媒体
JP2004361766A (ja) * 2003-06-06 2004-12-24 Kenwood Corp 話速変換装置、話速変換方法及びプログラム
JP2006313274A (ja) * 2005-05-09 2006-11-16 Nhk Computer Service:Kk 番組音声制作装置および番組音声制作プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132179A (ja) * 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体
JP2001265374A (ja) * 2000-03-14 2001-09-28 Omron Corp 音声合成装置及び記録媒体
JP2004361766A (ja) * 2003-06-06 2004-12-24 Kenwood Corp 話速変換装置、話速変換方法及びプログラム
JP2006313274A (ja) * 2005-05-09 2006-11-16 Nhk Computer Service:Kk 番組音声制作装置および番組音声制作プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014029489; 今井篤他: '"話速変換技術を利用したインターネットでのラジオニュースサービス"' 映像情報メディア学会誌 Vol.59,No.2, 200502, pp.265-270 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018179209A1 (ja) * 2017-03-30 2018-10-04 三菱電機株式会社 電子機器、音声制御方法、およびプログラム
JP6486582B2 (ja) * 2017-03-30 2019-03-20 三菱電機株式会社 電子機器、音声制御方法、およびプログラム
JPWO2018179209A1 (ja) * 2017-03-30 2019-04-11 三菱電機株式会社 電子機器、音声制御方法、およびプログラム

Also Published As

Publication number Publication date
JP5620776B2 (ja) 2014-11-05

Similar Documents

Publication Publication Date Title
JP5482042B2 (ja) 合成音声テキスト入力装置及びプログラム
US7716052B2 (en) Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
CN102543081B (zh) 可调控式韵律重估测系统与方法及计算机程序产品
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
JPS62160495A (ja) 音声合成装置
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP2012118385A (ja) 音声合成情報編集装置
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP5758713B2 (ja) 音声合成装置、ナビゲーション装置および音声合成方法
JP2007264503A (ja) 音声合成装置及びその方法
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2010128103A (ja) 音声合成装置、音声合成方法、および音声合成プログラム
JP4953767B2 (ja) 音声生成装置
JP5620776B2 (ja) 話速調整装置、音声合成システム、およびプログラム
JP2007271910A (ja) 合成音声生成装置
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2002525663A (ja) ディジタル音声処理装置及び方法
JP3109778B2 (ja) 音声規則合成装置
JP5935545B2 (ja) 音声合成装置
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP5218971B2 (ja) 音声メッセージ作成装置及び方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140919

R150 Certificate of patent or registration of utility model

Ref document number: 5620776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees