JP5782751B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5782751B2
JP5782751B2 JP2011048778A JP2011048778A JP5782751B2 JP 5782751 B2 JP5782751 B2 JP 5782751B2 JP 2011048778 A JP2011048778 A JP 2011048778A JP 2011048778 A JP2011048778 A JP 2011048778A JP 5782751 B2 JP5782751 B2 JP 5782751B2
Authority
JP
Japan
Prior art keywords
speech
unit
segment
value
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011048778A
Other languages
English (en)
Other versions
JP2012185356A (ja
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011048778A priority Critical patent/JP5782751B2/ja
Publication of JP2012185356A publication Critical patent/JP2012185356A/ja
Application granted granted Critical
Publication of JP5782751B2 publication Critical patent/JP5782751B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声素片を利用して音声(発話音や歌唱音)を合成する技術に関する。
音声合成の対象として指定された音響(以下「合成対象音」という)を、事前に採取された複数の音声素片の接続で生成する素片接続型の音声合成が従来から提案されている。音声素片の波形を示す素片データが音声素片毎に事前に採取されたうえで記憶装置に格納され、合成対象音の発音文字(例えば歌詞)に対応する各音声素片の素片データを記憶装置から選択して相互に接続することで合成対象音の音声信号が生成される。
特開2007−240564号公報
しかし、素片接続型の音声合成で聴感的に自然な音声信号を合成するには多数の素片データ(例えば音高毎の音声データ)が必要であり、素片データの記憶に大容量の記憶装置が要求されるという問題がある。以上の問題は、記憶容量の制約が大きい携帯機器等に音声合成を実行させる場合に特に深刻化する。以上の事情を考慮して、本発明は、音声合成に必要な素片データの個数を削減することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音声合成装置は、音声素片の波形を示す素片データ(例えば素片データW)を複数の音声素片の各々について特徴量の数値毎に記憶する素片記憶手段(例えば記憶装置12)と、合成対象音の各音声素片について特徴量(例えば継続長Dや音高Pや制御変数X)を指定する合成情報(例えば合成情報Z)を取得する取得手段(例えば情報生成部24)と、合成対象音の音声素片毎に素片記憶手段から素片データを選択する手段であって、合成対象音の第1音声素片(例えば音声素片[#-bh])について、合成情報にて第1音声素片に指定される特徴量が第1値(例えば範囲QA内の数値)である場合には、第1音声素片の第1値に対応する素片データ(例えば素片データW[#-bh]_n)を選択し、合成情報にて第1音声素片に指定される特徴量が第2値(例えば範囲QA外の数値)である場合には、第1音声素片とは相違する第2音声素片(例えば音声素片[#-b])の第2値に対応する素片データ(例えば素片データW[#-b]_n)を選択する素片選択手段(例えば素片選択部26)と、素片選択手段が選択した素片データを利用して音声信号(例えば音声信号SOUT)を合成する音声合成手段(例えば音声合成部28)とを具備する。
以上の構成では、第1音声素片に指定される特徴量が第1値である場合には自身の素片データが選択される一方、特徴量が第2値である場合には他の音声素片の素片データが選択されるから、第1音声素片については第2値に対応する素片データを記憶する必要がない。すなわち、音声合成に必要な素片データの個数を削減することが可能である。なお、聴感的に自然な音響を合成するという観点からすると、第1音声素片と第2音声素片とで音響特性が相互に類似する構成が好適である。例えば、発音文字(音節)が相互に共通する2個の音声素片が第1音声素片および第2音声素片として好適である。
本発明の好適な態様において、素片選択手段は、合成情報にて第1音声素片に指定される特徴量が、第1値を含む第1範囲(例えば範囲QA)内にある場合には、第1音声素片の素片データを選択し、第1音声素片の特徴量が、第2値を含み第1範囲とは相違する第2範囲(例えば範囲QB)内にある場合には第2音声素片の素片データを選択する。
なお、音声素片の継続長が長いほど受聴者が音声素片の相違を聴感的に弁別し易いという傾向がある。したがって、音声素片の継続長を特徴量として指定する構成では、第1値を第2値よりも長い継続長に設定した構成が好適である。以上の態様では、音声素片の継続長が長い場合(第1値)に自身の素片データが選択され、音声素片の継続長が短い場合(第2値)に他の音声素片の素片データが流用される。したがって、音声素片の継続長が長い場合に他の音声素片の素片データを流用する構成と比較して、素片データの流用が受聴者に知覚され難いという利点がある。なお、以上の態様の具体例は例えば第1実施形態として後述される。
また、音声素片の音高が所定の範囲内にある場合に受聴者が音声素片の相違を聴感的に弁別し易いという傾向がある。したがって、音声素片の音高を特徴量として指定する構成では、第1値を含む所定の範囲の高域側の音高を第2値とする構成や、第1値を含む所定の範囲の低域側の音高を第2値とする構成が好適である。以上の態様では、音声素片の音高が所定の範囲内にある場合に自身の素片データが選択され、音声素片の音高がその範囲の高域側または低域側にある場合に他の音声素片の素片データが流用される。したがって、音声素片の音高が所定の範囲内にある場合にも他の音声素片の素片データを流用する構成と比較して、素片データの流用が受聴者に知覚され難いという利点がある。なお、以上の態様の具体例は例えば第2実施形態として後述される。
音声素片の強度(音量やベロシティ)が大きいほど受聴者が音声素片の相違を聴感的に弁別し易いという傾向がある。したがって、音声素片の強度を特徴量として指定する構成では、第1値を第2値よりも大きい強度に設定した構成が好適である。以上の態様では、音声素片の強度が大きい場合(第1値)に自身の素片データが選択され、音声素片の強度が小さい場合(第2値)に他の音声素片の素片データが流用される。したがって、音声素片の強度が高い場合にも他の音声素片の素片データを流用する構成と比較して、素片データの流用が受聴者に知覚され難いという利点がある。なお、以上の態様の具体例は例えば第3実施形態として後述される。
以上の各態様に係る音声合成装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、音声素片の波形を示す素片データを複数の音声素片の各々について特徴量の数値毎に記憶する素片記憶手段を具備するコンピュータに、合成対象音の各音声素片について特徴量を指定する合成情報を取得する取得処理と、合成対象音の音声素片毎に素片記憶手段から素片データを選択する処理であって、合成対象音の第1音声素片について、合成情報にて第1音声素片に指定される特徴量が第1値である場合には、第1音声素片の第1値に対応する素片データを選択し、合成情報にて第1音声素片に指定される特徴量が第2値である場合には、第1音声素片とは相違する第2音声素片の第2値に対応する素片データを選択する素片選択処理と、素片選択処理で選択した素片データを利用して音声信号を合成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 素片群の模式図である。 編集画像および音声素片の時系列の模式図である。 合成情報の模式図である。 素片選択テーブルの模式図である。 第2実施形態における素片選択テーブルの模式図である。 第3実施形態における素片選択テーブルの模式図である。 変形例における素片選択部の動作のフローチャートである。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音や発話音等の合成対象音を素片接続型の音声合成で生成する音響処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。
演算処理装置10(CPU)は、記憶装置12に格納されたプログラムPGMの実行で、合成対象音の音声信号SOUTを生成するための複数の機能(表示制御部22,情報生成部24,素片選択部26,音声合成部28)を実現する。音声信号SOUTは、合成対象音の波形を表す音響信号である。なお、演算処理装置10の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置16(例えば液晶表示装置)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成する音声信号SOUTに応じた音波を放射する。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種の情報(素片群GA,基礎情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として採用される。
素片群GAは、複数の素片データWの集合(音声合成ライブラリ)である。各素片データWは、音声素片の時間軸上の波形を示すサンプル系列であり、音声合成の素材として利用される。音声素片は、言語的な意味の最小単位に相当する1個の音素(phoneme)または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。なお、以下では便宜的に、無音を1個の音素(記号#)として説明する。
図2に示すように、1個の音声素片について複数の素片データWが記憶装置12に格納される。1個の音声素片に対応する複数の素片データWの各々は、始点から終点までの時間長(以下「継続長」という)が相違する。例えば無音[#]から音素[b]への遷移に相当する音声素片[#-b](音素連鎖)については、継続長が相違するN個(Nは自然数)の素片データW[#-b]_1〜W[#-b]_Nが記憶装置12に記憶される。
記憶装置12に格納された基礎情報GBは、合成対象音(例えば歌唱曲の各音符)を時系列に指定する情報であり、図1に示すように、音高情報GB1と発音情報GB2と制御情報GB3とを含んで構成される。音高情報GB1は、合成対象音毎に音高(ノートナンバ)と発音時刻と継続長とを指定する。発音情報GB2は、合成対象音毎に発音文字(例えば歌詞の音節)を指定する。制御情報GB3は、合成対象音の特性を示す制御変数(例えば音楽的な表情を示す合成パラメータ)の経時的な変化を指定する。第1実施形態では音量(dynamics)を制御変数として例示する。図1の情報生成部24は、入力装置14に対する利用者からの指示に応じて基礎情報GBを生成および編集する。
表示制御部22は、基礎情報GBの生成および編集のために利用者が視認する図3の部分(A)の編集画面40を表示装置16に表示させる。図3の部分(A)に示すように、編集画面40は、相互に交差する時間軸(横軸)と音高軸(縦軸)とが設定された画像(五線紙型またはピアノロール型の画像)である。表示制御部22は、入力装置14に対する利用者からの指示に応じて各合成対象音の音符画像42を編集画面40に配置する。
利用者は、各音符画像42の位置やサイズを入力装置14に対する操作で適宜に変更する。情報生成部24は、音高情報GB1が指定する音高を音符画像42の音高軸上の位置に応じて設定し、音高情報GB1が指定する発音時刻を音符画像42の時間軸上の位置に応じて設定し、音高情報GB1が指定する継続長を音符画像42の時間軸上のサイズに応じて設定する。また、情報生成部24は、発音情報GB2が指定する発音文字や制御情報GB3が指定する制御変数を利用者からの指示に応じて設定する。図3では、1個の合成対象音(音符画像42)の発音文字として単語“bag”が指定された場合が例示されている。なお、編集画面40の形式は任意である。例えば、音高情報GB1(音高,発音時刻,継続長)や発音情報GB2(発音文字)や制御情報GB3の各数値のリストを編集画面40として表示することも可能である。
音声合成の開始が利用者から指示されると、情報生成部24は、記憶装置12に格納された基礎情報GBから合成情報Z(スコアデータ)を生成する。図4に示すように、合成情報Zは、素片系列Z1と音高系列Z2と変数系列Z3とを含んで構成される。音高系列Z2は、各合成対象音(音声素片)の音高Pと発音時刻Tと継続長Dとを時系列に指定し、変数系列Z3は制御変数Xを時系列に指定する。音高系列Z2は基礎情報GBの音高情報GB1から生成され、変数系列Z3は基礎情報GBの制御情報GB3から生成される。
素片系列Z1は、各合成対象音を構成する音声素片Sと各音声素片Sの発音時刻Tおよび継続長Dとを時系列に指定する。情報生成部24は、基礎情報GBの発音情報GB2が指定する各発音文字を複数の音声素片Sの時系列に変換し、各音声素片Sの発音時刻Tおよび継続長Dを、基礎情報GBの音高情報GB1が各合成対象音について指定する発音時刻および継続長に応じて設定する。
例えば図3の部分(A)のように単語“bag”が発音文字として指定された合成対象音については、図3の部分(B)に示すように、[#-bh],[bh-{],[{],[{-g],[g-#]という5個の音声素片Sを指定する素片系列Z1が生成される。なお、記号[{]は、音声素片[a]を意味する。また、記号[bh]は、単語“big”を発音する場合の“b”の音素を意味し、単語“rob”を発音する場合の“b”の音素[b]とは区別される。
図1の素片選択部26は、素片系列Z1が指定する各音声素片Sに対応する素片データWを記憶装置12の素片群GAから順次に選択する。音声合成部28は、素片選択部26が選択した素片データWを調整したうえで各素片データWを時間軸上で相互に連結することで音声信号SOUTを生成する。具体的には、音声合成部28は、素片選択部26が選択した素片データWを、素片系列Z1が指定する発音時刻Tおよび継続長Dと、音高系列Z2が指定する音高Pと、変数系列Z3が指定する制御変数X(音量)とに調整したうえで相互に連結する。音声合成部28が生成した音声信号SOUTが放音装置18に供給されて音波として再生される。
次に、素片選択部26が音声素片毎に素片データWを選択する動作を説明する。第1実施形態の素片選択部26は、記憶装置12に記憶された素片選択テーブルTBLaを参照して各音声素片Sに対応する素片データWを選択する。
図5は、素片選択テーブルTBLaの模式図である。図5に示すように、素片選択テーブルTBLaは、複数の音声素片の各々について、素片系列Z1で指定され得る継続長Dの数値範囲を区分したN個の範囲q[1]〜q[N]の各々に対して1個の素片データWを対応させたテーブルである。変数nが大きい範囲q[n]ほど継続長Dが長い場合が図5では想定されている。N個の範囲q[1]〜q[N]は、所定の閾値DTHを境界として正側(継続長Dが長い側)の範囲QAと負側(継続長Dが短い側)の範囲QBとに区分される。範囲QAは範囲q[K+1]から範囲q[N]で構成され、範囲QBは範囲q[1]〜q[K]で構成される。
素片選択部26は、素片系列Z1が指定する音声素片Sに対して素片選択テーブルTBLaで対応付けられた複数の素片データWのうち、素片系列Z1がその音声素片Sに指定する継続長Dの属する範囲q[n]に対応する1個の素片データWを選択する。したがって、継続長Dの属する範囲q[n]が相違するならば、音声素片Sが共通する場合でも、素片選択部26が選択する素片データWは相違し得る。
第1実施形態の音声素片Sのなかには、それ自身について用意された素片データWが選択される音声素片S(例えば音声素片[#-b])と、音響特性が類似する他の音声素片Sの素片データWが流用される音声素片(例えば音声素片[#-bh])とがある。なお、以下の説明では、音響特性が類似する音声素片の組合せとして音声素片[#-b]と音声素片[#-bh]とを便宜的に例示するが、音響特性が類似する他の組合せについても同様に処理される。
図5に示すように、音声素片[#-b]については、継続長Dが範囲QAおよび範囲QBの何れに属するかに関わらず、その音声素片[#-b]自身について用意された素片データW[#-b]_nが素片選択テーブルTBLaにて指定される。したがって、素片系列Z1が音声素片[#-b]を指定する場合、素片選択部26は、その音声素片[#-b]自身について用意されたN個の素片データW(W[#-b]_1〜W[#-b]_N)のうち、素片系列Z1にて指定される継続長Dが属する範囲q[n]に対応する素片データW[#-b]_nを選択する。
他方、図5の音声素片[#-bh]に着目すると、範囲QA内の継続長Dの各範囲q[n](すなわち閾値DTHよりも長い継続長D)についてはその音声素片[#-bh]自身の素片データW[#-bh]_nが素片選択テーブルTBLaにて指定されるが、範囲QB内の継続長Dの各範囲q[n](すなわち閾値DTHよりも短い継続長D)については、音響特性が類似する他の音声素片[#-b]の素片データW[#-b]_nが指定される。したがって、素片系列Z1が音声素片[#-bh]を指定する場合、素片選択部26は、素片系列Z1にて指定される継続長Dが範囲QA内の数値(第1値)であれば、その音声素片[#-bh]自身の複数の素片データW(W[#-bh]_K+1〜W[#-bh]_N)のうちその継続長Dの属する範囲q[n]に対応する素片データW[#-bh]_nを選択し、継続長Dが範囲QB内の数値(第2値)であれば、他の音声素片[#-b]に対応する複数の素片データW[#-b]_1〜W[#-b]_Nのうちその継続長Dの属する範囲q[n]に対応する素片データW[#-b]_nを選択する。
すなわち、継続長Dが範囲QB内の数値である場合には、音声素片[#-b]の素片データW[#-b]_nが音声素片[#-bh]について流用される。したがって、図2に示すように、音声素片[#-bh]については、範囲QA内の継続長Dに対応する素片データW[#-bh]_K+1〜W[#-bh]_Nのみが記憶装置12に記憶され、範囲QB内の継続長Dに対応する素片データ(W[#-bh]_1〜W[#-bh]_K)は記憶装置12に記憶されない。
以上の構成によれば、音声素片[#-bh]についても継続長Dの全部の範囲q[1]〜q[N]の素片データW(W[#-bh]_1〜W[#-bh]_N)を記憶する構成と比較して、素片データWの個数を削減することが可能である。したがって、記憶装置12に要求される記憶容量が低減される(ひいては音声合成装置100の製造コストや装置規模が低減される)という利点がある。携帯電話機や携帯情報端末等の携帯機器では、例えば据置型の情報処理装置と比較して記憶容量の制約が大きいから、第1実施形態の前述の効果は、音声合成装置100を携帯機器等に搭載した場合に格別に有効である。
また、範囲QBは範囲QAと比較して継続長Dが短い側に設定される。すなわち、音声素片[#-bh]の継続長Dが閾値DTHよりも長い場合(範囲QA)には自身の素片データW[#-bh]_nが選択され、音声素片[#-bh]について他の音声素片[#-b]の素片データW[#-b]_nが流用されるのは、音声素片[#-bh]の継続長Dが閾値DTHよりも短い場合(範囲QB)に限定される。継続長Dが短いほど音声素片の識別は困難であるという傾向を考慮すると、第1実施形態によれば、継続長Dが長い場合(例えば継続長が範囲QA内にある場合)にも他の音声素片の素片データWを流用する構成と比較して、音声素片[#-bh]について自身の素片データWを使用せずに他の音声素片[#-b]の素片データW[#-b]_nを流用していること(更には素片データWの流用に起因した音響の不自然さ)が受聴者に知覚され難いという利点がある。すなわち、第1実施形態によれば、聴感的に自然な音声信号SOUTの生成と素片データWの個数の削減とを両立することが可能である。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の記憶装置12には、相異なる音高で発音された音声素片の波形を示す複数の素片データWが音声素片毎に記憶装置12に格納される。例えば音声素片[#-b]については、音高が相違するN個の素片データW[#-b]_1〜W[#-b]_Nが記憶装置12に記憶される。
図6は、第2実施形態の素片選択部26が素片データWの選択に使用する素片選択テーブルTBLbの模式図である。図6に示すように、素片選択テーブルTBLbは、複数の音声素片の各々について、音高系列Z2で指定され得る音高Pの数値範囲を区分した範囲q[n](q[1]〜q[N])毎に1個の素片データWを対応させる。変数nが大きい範囲q[n]ほど音高Pが高い場合(範囲q[n]が範囲q[n-1]の高域側に位置する場合)が図6では想定されている。N個の範囲q[1]〜q[N]は、範囲QAと範囲QB1と範囲QB2とに区分される。範囲QAは、所定の音高Pを含む範囲q[K]に相当する。範囲QB1は範囲QAの低域側に位置し、範囲QB2は範囲QAの高域側に位置する。なお、範囲QAが複数の範囲q[n]を含む構成も採用され得る。
素片選択部26は、素片系列Z1が指定する音声素片Sに対して素片選択テーブルTBLbにて対応付けられた複数の素片データWのうち、音高系列Z2がその音声素片に指定する音高Pの属する範囲q[n]に対応する1個の素片データWを選択する。例えば素片系列Z1が音声素片[#-b]を指定する場合、素片選択部26は、その音声素片[#-b]自身について用意されたN個の素片データW(W[#-b]_1〜W[#-b]_N)のうち音高Pの属する範囲q[n]に対応する素片データW[#-b]_nを選択する。
他方、図6から理解されるように、素片系列Z1が音声素片[#-bh]を指定する場合、素片選択部26は、音高系列Z2にて指定される音高Pが範囲QA内の数値(第1値)であれば、音声素片[#-bh]自身の素片データWであってその音高Pの属する範囲q[n]に対応する素片データW[#-bh]_nを選択し、音高Pが低域側の範囲QB1または高域側の範囲QB2内の数値(第2値)であれば、音響特性が類似する他の音声素片[#-b]の複数の素片データW(W[#-b]_1〜W[#-b]_N)のうちその音高Pの属する範囲q[n]に対応する素片データW[#-b]_nを選択する。したがって、音声素片[#-bh]については、範囲QA(q[K])内の音高Pに対応する素片データW(W[#-bh]_K)のみが記憶装置12に記憶され、範囲QB1に対応する素片データW(W[#-bh]_1〜W[#-bh]_K-1)や範囲QB2に対応する素片データW(W[#-bh]_K+1〜W[#-bh]_N)は記憶装置12に記憶されない。すなわち、第2実施形態でも、第1実施形態と同様に、素片データWの個数を削減することが可能である。
なお、音高Pが高い場合や低い場合には音声素片の識別が困難であるという傾向がある。第2実施形態では、音声素片[#-bh]に指定された音高Pが低域側の範囲QB1または高域側の範囲QB2内の数値である場合に他の音声素片[#-b]の素片データW[#-b]_nを流用するから、音声素片[#-bh]の音高Pが範囲QA内にある場合に素片データW[#-b]_nを流用する構成と比較して、素片データW[#-b]_nの流用が受聴者に知覚され難いという利点がある。
<C:第3実施形態>
本発明の第3実施形態を以下に説明する。第3実施形態の記憶装置12には、相異なる音量で発音された音声素片の波形を示す複数の素片データWが音声素片毎に記憶装置12に格納される。例えば音声素片[#-b]については、音量が相違するN個の素片データW[#-b]_1〜W[#-b]_Nが記憶装置12に記憶される。
図7は、第3実施形態の素片選択部26が素片データWの選択に使用する素片選択テーブルTBLcの模式図である。図7に示すように、素片選択テーブルTBLcは、複数の音声素片の各々について、変数系列Z3で指定され得る制御変数X(音量)の数値範囲を区分した範囲q[n](q[1]〜q[N])毎に1個の素片データWを対応させる。変数nが大きい範囲q[n]ほど制御変数Xが大きい(音量が大きい)場合が図7では想定されている。N個の範囲q[1]〜q[N]は、所定の閾値XTHを上回る範囲QA(範囲q[K+1]〜q[N])と閾値XTHを下回る範囲QB(範囲q[1]〜q[K])とに区分される。
素片選択部26は、素片系列Z1が指定する音声素片Sに対して素片選択テーブルTBLcにて対応付けられた複数の素片データWのうち、変数系列Z3がその音声素片Sに指定する制御変数Xの属する範囲q[n]に対応する1個の素片データWを選択する。例えば素片系列Z1が音声素片[#-b]を指定する場合、素片選択部26は、その音声素片[#-b]自身のN個の素片データW(W[#-b]_1〜W[#-b]_N)のうち制御変数Xの属する範囲q[n]に対応する素片データW[#-b]_nを選択する。
他方、図7から理解されるように、素片系列Z1が音声素片[#-bh]を指定する場合、素片選択部26は、変数系列Z3にて指定される制御変数X(音量)が範囲QA内の数値(第1値)であれば、その音声素片[#-bh]自身の素片データWのうちその制御変数Xの属する範囲q[n]に対応する素片データW[#-bh]_nを選択し、制御変数Xが範囲QB内の数値(第2値)であれば、音響特性が類似する他の音声素片[#-b]の複数の素片データW(W[#-b]_1〜W[#-b]_N)のうちその制御変数Xの範囲q[n]に対応する素片データW[#-b]_nを選択する。したがって、音声素片[#-bh]については、図2の例示と同様に、範囲QAに対応する素片データW(W[#-bh]_K+1〜W[#-bh]_N)のみが記憶装置12に記憶され、範囲QBに対応する素片データW(W[#-bh]_1〜W[#-bh]_K)は記憶装置12に記憶されない。すなわち、第3実施形態によれば、第1実施形態と同様に、素片データWの個数を削減することが可能である。
なお、音量が小さい場合には音声素片の識別が困難であるという傾向がある。第3実施形態では、音声素片[#-bh]に指定された制御変数X(音量)が小音量側の範囲QB内の数値である場合に他の音声素片[#-b]の素片データW[#-b]_nを流用するから、制御変数Xが大音量側の範囲QA内の数値である場合に素片データW[#-b]_nを流用する構成と比較して、素片データW[#-b]_nの流用が受聴者に知覚され難いという利点がある。なお、以上の説明では制御変数Xが音量を示す場合を例示したが、音量の代わりにベロシティ(典型的には発音開始直後の強度)を制御変数Xとして指定することも可能である。
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
音声素片の特徴量は以上の例示(継続長D,音高P,制御変数X(音量))に限定されない。例えば、音響の明瞭度が制御変数Xとして指定される構成では、音声素片[#-bh]に指定された明瞭度が高い場合に自身の素片データW[#-bh]_nを選択し、明瞭度が低い場合に他の音声素片[#-b]の素片データW[#-b]_bを選択することが可能である。すなわち、以上の各形態における合成情報Zは、合成対象音の各音声素片Sについて特徴量(例えば継続長D,音高P,制御変数X)を指定する情報として包括される。
(2)変形例2
以上の各形態では、合成情報Zを基礎情報GBから生成したが、編集画面40に対する利用者からの指示に応じて情報生成部24が合成情報Zを直接に(すなわち基礎情報GBを経ずに)生成する構成も採用され得る。また、合成情報Zが他装置(例えば通信端末や可搬型の記録媒体)から提供される構成や、合成情報Zが記憶装置12に事前に記憶された構成も採用され得る。以上の例示から理解されるように、前述の各形態における情報生成部24は、合成情報Zを取得する手段(取得手段)の例示であり、合成情報Zを取得する方法の如何(基礎情報GBから生成するか直接に合成情報Zを生成するか,音声合成装置100内で生成するか他装置で生成された合成情報Zを取得するか)は本発明において不問である。
(3)変形例3
前述の各形態では、音声素片の時間軸上の波形を示す素片データWを例示したが、素片データWの形態は任意である。例えば、素片データWが音声素片の周波数スペクトルを示す構成も採用され得る。素片データWの調整等を周波数領域で実行することも可能である。
(4)変形例4
前述の各形態では、音声素片[#-bh]について自身の素片データW[#-bh]_nと他の音声素片[#-b]の素片データW[#-b]_nとの何れを選択するかを素片選択テーブルTBL(TBLa,TBLb,TBLc)にて指定したが、他の音声素片の素片データWを流用するか否かを、合成情報Zが指定する特徴量(例えば継続長D,音高P,制御変数X)に応じて素片選択部26が判定する構成も採用され得る。例えば図8に示すように、素片選択部26は、音声素片[#-bh]について合成情報Zが指定する特徴量が範囲QA内の数値(第1値)であるか否かを判定し(S1)、判定の結果が肯定であれば、自身の素片データW[#-bh]_nを特徴量に応じて選択する一方(S2)、判定の結果が否定であれば、他の音声素片の素片データW[#-b]_nを特徴量に応じて選択する(S3)。
(5)変形例5
聴感的に音声素片を弁別可能な特徴量(例えば継続長D,音高P,制御変数X)の範囲QAは音声素片毎に相違する。したがって、自身について用意された素片データWを選択する(すなわち他の音声素片の素片データWを流用しない)特徴量の範囲QAと他の音声素片の素片データWを流用する特徴量の範囲QB(QB1,QB2)とを音声素片毎に相違させた構成も好適である。例えば、聴感的に容易に弁別可能な音声素片については、範囲QAが広い範囲に設定されるとともに範囲QBが狭い範囲に設定される。すなわち、特徴量の広い範囲にわたって自身の素片データWが選択され、素片データWの流用に起因した聴感的な不自然さが低減される。他方、聴感的な弁別が比較的に困難な音声素片については、範囲QAが狭い範囲に設定されるとともに範囲QBが広い範囲に設定される。すなわち、特徴量の広い範囲にわたって他の音声素片の素片データWが流用され、素片データWの個数が削減される。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……素片選択部、28……音声合成部、40……編集画面、42……音符画像、W……素片データ、TBLa,TBLb,TBLc……素片選択テーブル。

Claims (6)

  1. 合成対象音の各音声素片について特徴量を指定する合成情報を取得する取得手段と、
    音声素片の波形を示す素片データを複数の音声素片の各々について特徴量の数値毎に含む素片群から、前記合成情報による音声素片の指定毎に素片データを選択する手段であって、前記合成対象音の第1音声素片について、前記合成情報にて前記第1音声素片に指定される特徴量が第1値である場合には、前記第1音声素片の前記第1値に対応する素片データを選択し、前記合成情報にて前記第1音声素片に指定される特徴量が第2値である場合には、前記第1音声素片とは相違する第2音声素片の前記第2値に対応する素片データを選択する素片選択手段と、
    前記素片選択手段が選択した素片データを利用して音声信号を合成する音声合成手段と
    を具備する音声合成装置。
  2. 前記素片選択手段は、前記合成情報にて前記第1音声素片に指定される特徴量が、前記第1値を含む第1範囲内にある場合には、前記第1音声素片の素片データを選択し、前記第1音声素片の特徴量が、前記第2値を含み前記第1範囲とは相違する第2範囲内にある場合には前記第2音声素片の素片データを選択する
    請求項1の音声合成装置。
  3. 前記特徴量は、音声素片の継続長であり、
    前記第1値が示す継続長は、前記第2値が示す継続長よりも長い
    請求項1または請求項2の音声合成装置。
  4. 前記特徴量は合成対象音の音高を含み、
    前記第2値が示す音高は、前記第1値を含む範囲の高域側および低域側の音高である
    請求項1または請求項2の音声合成装置。
  5. 前記特徴量は、音声素片の強度であり、
    前記第1値が示す強度は、前記第2値が示す強度よりも大きい
    請求項1または請求項2の音声合成装置。
  6. 前記特徴量は、音声の明瞭度であり、
    前記第1値が示す明瞭度は、前記第2値が示す明瞭度よりも高い
    請求項1または請求項2の音声合成装置。
JP2011048778A 2011-03-07 2011-03-07 音声合成装置 Expired - Fee Related JP5782751B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011048778A JP5782751B2 (ja) 2011-03-07 2011-03-07 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011048778A JP5782751B2 (ja) 2011-03-07 2011-03-07 音声合成装置

Publications (2)

Publication Number Publication Date
JP2012185356A JP2012185356A (ja) 2012-09-27
JP5782751B2 true JP5782751B2 (ja) 2015-09-24

Family

ID=47015488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011048778A Expired - Fee Related JP5782751B2 (ja) 2011-03-07 2011-03-07 音声合成装置

Country Status (1)

Country Link
JP (1) JP5782751B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0642158B2 (ja) * 1983-11-01 1994-06-01 日本電気株式会社 音声合成装置
JP2001022375A (ja) * 1999-07-06 2001-01-26 Matsushita Electric Ind Co Ltd 音声認識合成装置
JP2003066983A (ja) * 2001-08-30 2003-03-05 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP4586386B2 (ja) * 2004-03-16 2010-11-24 株式会社国際電気通信基礎技術研究所 素片接続型音声合成装置及び方法
JP4762553B2 (ja) * 2005-01-05 2011-08-31 三菱電機株式会社 テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
TWI260582B (en) * 2005-01-20 2006-08-21 Sunplus Technology Co Ltd Speech synthesizer with mixed parameter mode and method thereof

Also Published As

Publication number Publication date
JP2012185356A (ja) 2012-09-27

Similar Documents

Publication Publication Date Title
JP6171711B2 (ja) 音声解析装置および音声解析方法
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP6024191B2 (ja) 音声合成装置および音声合成方法
JP6620462B2 (ja) 合成音声編集装置、合成音声編集方法およびプログラム
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP2006215204A (ja) 音声合成装置およびプログラム
US9711123B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program recorded thereon
WO2016152715A1 (ja) 音制御装置、音制御方法、および音制御プログラム
JP2018077283A (ja) 音声合成方法
JP5782751B2 (ja) 音声合成装置
JP5092905B2 (ja) 歌唱合成装置およびプログラム
JP5935545B2 (ja) 音声合成装置
JP6413220B2 (ja) 合成情報管理装置
EP2634769B1 (en) Sound synthesizing apparatus and sound synthesizing method
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP5251381B2 (ja) 音処理装置およびプログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP2018077281A (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
JP5782799B2 (ja) 音声合成装置
JP6497065B2 (ja) 音声合成用ライブラリ生成装置および音声合成装置
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法
JP5915264B2 (ja) 音声合成装置
JP2015038622A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150115

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150706

R151 Written notification of patent or utility model registration

Ref document number: 5782751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees