JP5648347B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5648347B2
JP5648347B2 JP2010159544A JP2010159544A JP5648347B2 JP 5648347 B2 JP5648347 B2 JP 5648347B2 JP 2010159544 A JP2010159544 A JP 2010159544A JP 2010159544 A JP2010159544 A JP 2010159544A JP 5648347 B2 JP5648347 B2 JP 5648347B2
Authority
JP
Japan
Prior art keywords
speech
unit
segment
sound
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010159544A
Other languages
English (en)
Other versions
JP2012022121A (ja
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010159544A priority Critical patent/JP5648347B2/ja
Publication of JP2012022121A publication Critical patent/JP2012022121A/ja
Application granted granted Critical
Publication of JP5648347B2 publication Critical patent/JP5648347B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声素片を利用して音声(発話音や歌唱音)を合成する技術に関する。
所望の音声(以下「指定音」という)を合成する技術が従来から提案されている。例えば特許文献1や特許文献2には、歌詞等の目的の発音文字に応じて選択された複数の音声素片を相互に接続することで音声信号を生成する素片接続型の音声合成技術が開示されている。例えば1個の音素で構成されるモノフォンや複数の音素で構成される音素連鎖が音声素片として利用される。音素連鎖には、2個の音素で構成されるダイフォンや3個の音素で構成されるトライフォンがある。
特開2002−202790号公報 特開2007−240564号公報
ところで、音素数が相違する複数種の音声素片を併用する構成(例えばモノフォンとダイフォンとトライフォンとを併用する構成)では、音素数が相違する2個以上の音声素片が1個の指定音に対する選択の候補となり得る。したがって、例えば複数の候補の何れかを利用者が任意に選択する構成が想定される。しかし、音声合成に最適な音素数の音声素片を利用者が選択することは困難である
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の第1態様に係る音声合成装置は、指定音毎に音声素片を選択する素片選択手段(例えば素片選択部26)と、素片選択手段が選択した音声素片の素片データを利用して音声信号(例えば音声信号SOUT)を生成する音声合成手段(例えば音声合成部28)とを具備し、前記素片選択手段は、各指定音に対する音声素片の選択の履歴を示す履歴情報(例えば履歴情報H)を参照して、一の指定音に合致または類似する指定音(例えば対応指定音)について前記履歴情報が示す履歴に係る音声素片を前記一の指定音について選択する。以上の構成では、音声素片の過去の選択の結果が新たな指定音の音声素片の選択に反映されるから、各指定音に対する適切な音声素片の選択が効率化されるという利点がある。
第1態様の好適例に係る音声合成装置は、各指定音に対応する音符画像(例えば音符画像52)が時系列に配置された楽譜領域(例えば楽譜領域42)と、素片選択手段が各指定音について選択した音声素片の音素数を識別可能な音素数画像(例えば音素数画像56)が配置された音素領域(例えば音素領域44)とを含む画像(例えば編集画面40)を表示装置に表示させる表示制御手段(例えば表示制御部22)を具備する。以上の態様においては、音声素片の音素数を識別可能な音素数画像が各指定音の音符画像とともに表示装置に表示されるから、各指定音の合成に適用される音声素片の音素数を利用者が直感的に把握できるという利点がある。
なお、相異なる複数の音素で構成される複数種の音声素片が併用される構成では、各指定音の音声素片の音素数を利用者が認識することは困難である。以上の課題を解決するために、本発明の第2態様に係る音声合成装置は、指定音毎に音声素片を選択する素片選択手段(例えば素片選択部26)と、素片選択手段が選択した音声素片の素片データを利用して音声信号(例えば音声信号SOUT)を生成する音声合成手段(例えば音声合成部28)と、素片選択手段が各指定音について選択した音声素片の音素数を識別可能な音素数画像(例えば音素数画像56)が配置された音素領域(例えば音素領域44)を含む画像(例えば編集画面40)を表示装置に表示させる表示制御手段(例えば表示制御部22)とを具備する。以上の構成では、各指定音について選択された音声素片の音素数を識別可能な音素数画像表示装置に表示されるから、各指定音の合成に適用される音声素片の音素数を利用者が直感的に把握できるという利点がある。なお、表示装置に表示される画像は、各指定音に対応する音符画像(例えば音符画像52)が時系列に配置された楽譜領域(例えば楽譜領域42)を包含し得る。また、第2態様の音声合成装置において素片選択手段が音声素片を選択する方法は任意である。
第1態様または第2態様の好適例において、素片選択手段は、指定音に対して選択した音声素片を、利用者からの指示に応じて、音素数が相違する音声素片に変更し、表示制御手段は、素片選択手段による音声素片の変更に応じて音素数画像を更新する。以上の態様においては、音声素片の音素数の変化に応じて音素数画像が更新されるから、音素数の変化を利用者が直感的に把握できるという利点がある。
音声素片の音素数が音素数画像から識別可能となる構成の典型例は、音素数毎に相異なる表示態様で音素数画像を表示する構成である。音素数画像の表示態様とは、利用者が視覚的に知覚できる画像の状態を意味する。具体的には、画像の形状や寸法,階調の濃淡,表示色(色相,明度,彩度),模様,またはこれらの組合せが、画像の表示態様の概念に包含される。例えば、第1態様または第2態様の好適例において、表示制御手段は、音声素片の音素数に対応する個数の単位図形(例えば単位図形562)を配列した音素数画像を表示させる。以上の態様においては、音声素片の音素数に対応する個数(例えば音素数と同数)の単位図形を配列した音素数画像が表示されるから、利用者が各音声素片の音素数を直感的に把握できるという利点がある。
以上の各態様に係る音声合成装置の好適例において、素片選択手段は、音素数が相違する2以上の音声素片を含む複数の音声素片から指定音毎に音声素片を選択し、音素数が相違する2以上の音声素片が1個の指定音に対する選択の候補として存在する場合には、音素数が多い音声素片を選択する。以上の態様では、音素数が多い音声素片から優先的に選択されて指定音の合成に適用される。したがって、多数の音声素片が用意された構成でも、利用者による音声素片の選択を必要とせずに、聴感的に自然な印象の合成音を生成し得る適切な音声素片を選択することが可能である。
本発明の第3態様に係る音声合成装置は、音素数が相違する2以上の音声素片を含む複数の音声素片から指定音毎に音声素片を選択する素片選択手段と、素片選択手段が選択した音声素片の素片データを利用して音声信号を生成する音声合成手段とを具備し、素片選択手段は、利用者が一の指定音について音声素片を指定した場合に当該音声素片を選択し、一の指定音について利用者が音声素片を指定しない場合に、音素数が相違する2以上の音声素片が当該一の指定音に対する選択の候補として存在するならば、音素数が多い音声素片を選択する。また、本発明の第4態様に係る音声合成装置は、音素数が相違する2以上の音声素片を含む複数の音声素片から指定音毎に音声素片を選択する素片選択手段と、前記素片選択手段が選択した音声素片の素片データを利用して音声信号を生成する音声合成手段とを具備し、前記素片選択手段は、音素数が相違する2以上の音声素片が一の指定音に対する選択の候補として存在する場合に、利用者から指示された音素数の音声素片を選択する。
以上の各態様に係る音声合成装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 素片群の模式図である。 楽譜情報の模式図である。 編集画面の模式図である。 素片選択部の動作のフローチャートである。 素片選択の具体例の説明図である。 素片選択の具体例の説明図である。 音声素片の変更(結合)の具体例の説明図である。 音声素片の変更(分割)の具体例の説明図である。 音声素片の結合/分割に係る素片選択部の動作のフローチャートである。 履歴情報の模式図である。 第2実施形態における素片選択部の動作のフローチャートである。 第2実施形態における素片選択部の動作のフローチャートである。 変形例における設定画面の模式図である。 変形例における設定画面の模式図である。 変形例における設定画面の模式図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、素片接続型の音声合成で歌唱音や発話音等の合成音を生成する音響処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。
演算処理装置(CPU)10は、記憶装置12に格納されたプログラムPGMの実行で、合成音の音声信号SOUTの生成に必要な複数の機能(表示制御部22,情報生成部24,素片選択部26,音声合成部28)を実現する。音声信号SOUTは、合成音の波形を表す時間領域信号である。なお、演算処理装置10の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置10の各機能を複数の集積回路に分散した構成も採用され得る。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置(例えば液晶表示装置)16は、演算処理装置10から指示された画像を表示する。放音装置(例えばスピーカやヘッドホン)18は、演算処理装置10が生成する音声信号SOUTに応じた音波を放射する。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータ(素片群V,楽譜情報S)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として採用される。なお、プログラムPGMや各種のデータ(素片群V,楽譜情報S)を複数の記録媒体に分散して記憶した構成も採用され得る。
素片群Vは、図2に示すように、相異なる音声素片に対応する素片データDVの集合(音声合成ライブラリ)である。素片データDVは、例えば音声素片の波形のサンプル系列であり、合成音の素材として利用される。音声素片は、単数または複数の音素(phoneme)で構成される音声合成単位である。1個の音素は、言語上の意味の区別の最小単位(例えば母音や子音)に相当する。なお、以下では便宜的に、無音を1個の音素(記号#)として説明する。また、相異なる音高や音量に対応する複数の素片データDVを1種類の音声素片について用意した構成も採用され得る。
図2に示すように、素片群Vの各素片データDVが示す音声素片は、音声素片を構成する音素の個数に応じて複数種(モノフォンP1,ダイフォンP2,トライフォンP3)に区分される。モノフォン(monophone)P1は、子音c(例えば図2の音素/h/)または母音v(例えば図1の音素/a/)に対応する1個の音素で構成される。ダイフォン(diphone)P2は、2個の音素(例えばc-v,v-c,v-v,c-c,#-c,#-v,c-#,v-#)を連結した音素連鎖である。例えば図2の例示のように子音の音素/h/と母音の音素/a/とを連結した音素連鎖/h-a/がダイフォンP2に該当する。また、トライフォン(triphone)P3は、3個の音素(例えばc-v-c,v-c-v,#-c-v,v-c-#)を連結した音素連鎖である。例えば図1の例示のように母音の音素/a/と子音の音素/n/と母音の音素/a/とを連結した音素連鎖/a-n-a/(v-c-v)がトライフォンP3に該当する。
図1の記憶装置12に格納された楽譜情報Sは、指定音の時系列を指定する情報(スコアデータ)である。図3に示すように、楽譜情報Sは、相異なる指定音に対応する複数の単位情報DSの時系列で構成される。各単位情報DSは、指定音の音高(ノートナンバ)s1と発音期間s2と発音文字s3と素片識別子s4とを含んで構成される。発音期間s2は、例えば発音の開始の時刻と発音の継続長とで規定される。発音文字s3は、指定音の発音の内容を指定する文字(例えば音節)である。素片識別子s4は、指定音の合成に使用される音声素片(素片群V内の複数の素片データDVのうち発音文字s3に対応する素片データDV)を識別するための情報である。
図1の表示制御部22は、楽譜情報Sの生成および編集のために利用者が視認する図4の編集画面40を表示装置16に表示させる。図4に示すように、編集画面40は、指定音の時系列を利用者に提示する楽譜領域42と、各指定音の合成に使用される音声素片の時系列を利用者に提示する音素領域44とを含んで構成される。
楽譜領域42は、相互に交差する時間軸(横軸)と音高軸(縦軸)とが設定されたピアノロール型の画像領域である。利用者が入力装置14に対する操作で指定音の音高と発音期間と発音文字とを指示すると、表示制御部22は、その指定音に対応する画像(以下「音符画像」という)52を楽譜領域42に配置する。音高軸の方向における音符画像52の位置は指定音の音高に応じて決定され、時間軸の方向における音符画像52の位置および全長は指定音の発音期間に応じて決定される。また、指定音の発音文字が音符画像52に付加される。
図1の情報生成部24は、利用者による指定音の指示毎に、その指定音の音高s1と発音期間s2と発音文字s3とを含む単位情報DSを記憶装置12の楽譜情報Sに追加する。素片選択部26は、利用者が以上の手順で指示した指定音の合成に使用される音声素片(素片データDV)を指定音毎に順次に選択し、その音声素片の素片識別子s4を楽譜情報Sの単位情報DSに追加する。表示制御部22は、以下に詳述するように、素片選択部26が選択した音声素片の時系列を編集画面40の音素領域44に表示する。
図4に示すように、音素領域44は、第1領域46と第2領域48とを含んで構成される。第1領域46には、各指定音の合成に使用される音声素片(素片データDV)の時系列を利用者に提示する帯状の画像(以下「素片画像」という)54が、楽譜領域42と共通の時間軸のもとで配置される。各素片画像54には音声素片の記号(例えば/h/,/a/)が付加される。他方、第2領域48には、各音声素片を構成する音素の個数を利用者に提示する画像(以下「音素数画像」という)56が配置される。音素数画像56は、1個の音素に相当する単位図形562(円形)を音声素片の音素数と同数だけ配列した画像である。各単位図形562には音素の記号が付加される。
図1の音声合成部28は、記憶装置12に格納された楽譜情報Sが示す各指定音を合成して音声信号SOUTを生成する。具体的には、音声合成部28は、楽譜情報Sの素片識別子s4が指定する音声素片(すなわち素片選択部26が選択した音声素片)の素片データDVを素片群Vから順次に取得し、各素片データDVを楽譜情報Sの音高s1や発音期間s2に調整したうえで相互に連結して音声信号SOUTを生成する。素片データDVの調整(加工)には公知の技術が任意に採用される。以上の処理で生成された音声信号SOUTが放音装置18に供給されて音波として再生される。
次に、各指定音の音声素片の選択について詳述する。図5は、素片選択部26が音声素片(素片データDV)を選択する動作のフローチャートである。利用者が入力装置14の操作で新たな指定音(以下「新規指定音」という)を指示するたびに図5の処理が実行される。
利用者は、入力装置14を適宜に操作することで新規指定音の音声素片を任意に選択することが可能である。図5の処理を開始すると、素片選択部26は、新規指定音の音声素片が利用者から指定されたか否かを判定する(SA1)。音声素片が指定された場合、素片選択部26は、利用者が指定した音声素片の素片識別子s4を選択して楽譜情報Sに追加する(SA2)。他方、利用者が音声素片を指定しない場合(SA1:NO)、新規指定音に対応する音声素片を素片選択部26が自動的に選択する。
ところで、記憶装置12の素片群Vには、音素数が相違する複数種の音声素片の素片データDVが包含されるから、音素数が相違する2個以上の音声素片が、1個の指定音を合成可能な音声素片として素片選択部26による選択の候補となる可能性がある。例えば、発音文字「は(ha)」については、1個のダイフォン/h-a/と、モノフォン/h/およびモノフォン/a/の組合せとが選択の候補となり得る。第1実施形態では、音素数が多い音声素片を利用したほうが聴感的に自然な合成音を生成できることを考慮して、以下に詳述するように、音素数が多い音声素片を優先的に(すなわち、トライフォンP3→ダイフォンP2→モノフォンP1の順番で)選択する。
素片選択部26は、新規指定音の先頭部の合成にトライフォンP3を利用できるか否か(新規指定音の先頭の音素に対応するトライフォンP3の素片データDVが素片群V内に存在するか否か)を判定する(SA11)。手順SA11の結果が肯定である場合、素片選択部26は、新規指定音の発音文字s3に対応するトライフォンP3を選択し、そのトライフォンP3の素片識別子s4を楽譜情報Sに追加する(SA12)。すなわち、新規指定音のダイフォンP2やモノフォンP1を利用可能な場合でもトライフォンP3が優先的に選択される。
他方、手順SA11の結果が否定である場合(発音文字s3の先頭に対応するトライフォンP3が存在しない場合)、素片選択部26は、新規指定音の先頭部の合成にダイフォンP2を利用できるか否か(新規指定音の先頭の音素に対応するダイフォンP2の素片データDVが素片群V内に存在するか否か)を判定する(SA13)。手順SA13の結果が肯定である場合、素片選択部26は、新規指定音の発音文字s3に対応するダイフォンP2を選択し、そのダイフォンP2の素片識別子s4を楽譜情報Sに追加する(SA14)。すなわち、新規指定音のモノフォンP1を利用可能な場合でもダイフォンP2が優先的に選択される。
図6の部分(A)に示すように、前後が無音(#)となる位置に利用者が発音文字「は[ha]」の新規指定音が追加された状況を想定する。素片選択部26は、図6の部分(B)に示すように、新規指定音の先頭部の合成にトライフォン/#-h-a/を利用できる場合(SA11:YES)にはそのトライフォン/#-h-a/を選択し(SA12)、図6の部分(C)に示すように、トライフォン/#-h-a/は利用できないがダイフォン/#-h/とダイフォン/h-a/とを利用できる場合(SA13:YES)にはダイフォン/#-h/およびダイフォン/h-a/を選択する(SA14)。
手順SA12のトライフォンP3の選択または手順SA14のダイフォンP2の選択を実行すると、素片選択部26は、新規指定音の末尾部の合成にトライフォンP3を利用できるか否か(新規指定音の末尾の音素に対応するトライフォンP3の素片データDVが素片群V内に存在するか否か)を判定する(SA15)。手順SA15の結果が肯定である場合、素片選択部26は、新規指定音の発音文字s3に対応するトライフォンP3を選択し、そのトライフォンP3の素片識別子s4を楽譜情報Sに追加する(SA16)。すなわち、新規指定音のダイフォンP2やモノフォンP1を利用可能な場合でもトライフォンP3が優先的に選択される。なお、素片選択部26は、新規指定音の中間部に相当する母音のモノフォンP1を手順SA16にて選択して楽譜情報Sに追加する。
他方、手順SA15の結果が否定である場合、素片選択部26は、新規指定音の末尾部の合成にダイフォンP2を利用できるか否か(新規指定音の末尾の音素に対応するダイフォンP2の素片データDVが素片群V内に存在するか否か)を判定する(SA17)。手順SA17の結果が肯定である場合、素片選択部26は、新規指定音の発音文字s3に対応するダイフォンP2を選択し、そのダイフォンP2の素片識別子s4を楽譜情報Sに追加する(SA18)。すなわち、新規指定音のモノフォンP1を利用可能な場合でもダイフォンP2が優先的に選択される。なお、素片選択部26は、新規指定音の中間部に相当する母音のモノフォンP1を手順SA18にて選択して楽譜情報Sに追加する。
例えば、図6の部分(A)の場合を想定すると、直後が無音となる発音文字「は[ha]」に対応するトライフォン/h-a-#/は素片群Vに存在しないから、素片選択部26は、図6の部分(B)や部分(C)に示すように、ダイフォン/a-#/を利用できる場合(SA17:YES)にそのダイフォン/a-#/を選択する(SA18)。他方、図7の部分(A)は、発音文字「は[ha]」の指定音と発音文字「が[ga]」の指定音との間に発音文字「な[na]」の新規指定音を追加した場合が想定されている。素片選択部26は、図7の部分(B)に示すように、新規指定音の末尾部の合成にトライフォン/a-g-a/を利用できる場合(SA15:YES)にはそのトライフォン/a-g-a/を選択し(SA16)、図7の部分(C)に示すように、トライフォン/a-g-a/は利用できないがダイフォン/a-g/を利用できる場合(SA17:YES)にはそのダイフォン/a-g/を選択する(SA18)。
他方、手順SA13または手順SA17の結果が否定である場合(トライフォンP3もダイフォンP2も存在しない場合)、素片選択部26は、新規指定音の発音文字s3に対応するモノフォンP1を利用できるか否かを判定する(SA19)。手順SA19の結果が否定である場合、素片選択部26は、音声素片の不足(合成音を生成できないこと)を例えば表示装置16から利用者に報知する(SA20)。
他方、手順SA19の結果が肯定である場合、素片選択部26は、新規指定音の発音文字s3に対応するモノフォンP1を選択し、そのモノフォンP1の素片識別子s4を楽譜情報Sに追加する(SA21)。例えば、素片選択部26は、例えば図6の部分(A)の場合には、図6の部分(D)に示すようにモノフォン/h/およびモノフォン/a/を選択し(SA21)、図7の部分(A)の場合には、図7の部分(D)に示すようにモノフォン/n/およびモノフォン/a/を選択する(SA21)。以上に説明したように、素片選択部26は、トライフォンP3をダイフォンP2やモノフォンP1に優先して選択し、ダイフォンP2をモノフォンP1に優先して選択する。
素片選択部26が図5の処理で選択した音声素片は、利用者からの指示に応じて変更され得る。第1に、利用者は、相前後する2個の音声素片を1個の音声素片に変更する指示(以下「素片結合指示」という)を入力装置14に付与することが可能である。例えば、利用者は、図8の部分(A)に示すように、表示装置16に表示される結合指示子62(マウスポインタ)を任意に移動させて2個の音声素片を指定することで素片結合指示を付与する。
第2に、利用者は、複数の音素で構成される1個の音声素片を2個の音声素片に変更する指示(以下「素片分割指示」という)を入力装置14に付与することが可能である。例えば、利用者は、図9の部分(A)に示すように、表示装置16に表示される分割指示子64(マウスポインタ)を任意に移動させて1個の音声素片を指定することで素片分割指示を付与する。
図10は、素片結合指示や素片分割指示に関連する素片選択部26の動作のフローチャートである。図10の処理は、例えば所定の時間毎に反復される。図10の処理を開始すると、素片選択部26は、素片結合指示が利用者から付与されたか否かを判定する(SB11)。
手順SB11の結果が否定である場合、素片選択部26は、以下の手順SB12から手順SB14の処理を実行せずに手順SC11を開始する。他方、素片結合指示が付与された場合(SB11:YES)、素片結合指示が指定された2個の音声素片の各々の音素で構成される1個の音声素片(以下「結合素片」という)を利用できるか否か(結合素片の素片データDVが素片群V内に存在するか否か)を判定する(SB12)。例えば、図8の部分(A)に示すように、相前後する既存のダイフォン/a-n/とダイフォン/n-a/とを指定した素片結合指示が付与された場合、素片選択部26は、図8の部分(B)のように、双方の素片の音素を配列したトライフォン/a-n-a/(結合素片)の素片データDVが素片群V内に存在するか否かを判定する。
結合素片を利用できない場合(SB12:NO)、素片選択部26は、音声素片を結合できないことを例えば表示装置16から利用者に報知する(SB13)。他方、結合素片を利用できる場合(SB12:YES)、素片選択部26は、結合素片を選択し、楽譜情報Sのうち素片結合指示で指定された2個の音声素片の素片識別子s4を1個の結合素片の素片識別子s4に変更する(SB14)。表示制御部22は、図8の部分(B)に示すように、編集画面40のうち第1領域46内の各素片画像54と第2領域48内の各音素数画像56とを手順SB14の変更後の内容に更新する。なお、図8では2個のダイフォンP2を1個のトライフォンP3に変更する場合を例示したが、2個のモノフォンP1を1個のダイフォンP2に変更する場合にも同様の処理が実行される。
以上の処理が完了すると、素片選択部26は、素片分割指示が利用者から付与されたか否かを判定する(SC11)。手順SC11の結果が否定である場合、素片選択部26は、以下の手順SC12から手順SC14の処理を実行せずに図10の処理を終了する。他方、素片分割指示が付与された場合(SC11:YES)、素片分割指示で指定された1個の音声素片の前半部および後半部に相当する2個の音声素片(以下「分割素片」という)を利用できるか否か(各分割素片の素片データDVが素片群V内に存在するか否か)を判定する(SC12)。例えば、図9の部分(A)に示すように、1個のトライフォン/a-n-a/を指定した素片分割指示が付与された場合、素片選択部26は、図9の部分(B)のように、前半部に相当するダイフォン/a-n/と後半部に相当するダイフォン/n-a/との各々(分割素片)の素片データDVが素片群V内に存在するか否かを判定する。
2個の分割素片を利用できない場合(SC12:NO)、素片選択部26は、音声素片を分割できないことを例えば表示装置16から利用者に報知する(SC13)。他方、2個の分割素片を利用できる場合(SC12:YES)、素片選択部26は、各分割素片を選択し、楽譜情報Sのうち素片分割指示で指定された1個の音声素片の素片識別子s4を2個の分割素片の各々の素片識別子s4に変更する(SC14)。表示制御部22は、図9の部分(B)に示すように、編集画面40のうち第1領域46内の各素片画像54と第2領域48内の各音素数画像56とを手順SC14の変更後の内容に更新する。なお、図9では1個のトライフォンP3を2個のダイフォンP2に変更する場合を例示したが、1個のダイフォンP2を2個のモノフォンP1に変更する場合にも同様の処理が実行される。
以上に説明したように、本実施形態では、音素数が相違する複数の音声素片(モノフォンP1,ダイフォンP2,トライフォンP3)の素片データDVが素片群Vに収録され、音素数が多い音声素片から優先的に選択されて指定音の合成に適用される。したがって、多数の音声素片が素片群Vに収録された構成でも、利用者による音声素片の選択を必要とせずに、聴感的に自然な印象の合成音を生成し得る適切な音声素片を選択することが可能である。しかも、素片選択部26が選択した音声素片は、利用者からの指示(素片結合指示,素片分割指示)に応じて音素数が相違する音声素片に変更されるから、利用者の所望の音素数を利用して利用者の意図を反映した多様な合成音を生成できるという利点もある。
また、第1実施形態では、音声素片の音素数と同数の単位図形562を配列した音素数画像56が表示されるから、利用者が各指定音の音声素片の音素数を直感的に把握できるという利点がある。しかも、素片結合指示や素片分割指示に応じて音声素片の音素数が変化すると音素数画像56の態様も更新されるから、各音声素片の音素数の変化を利用者が直感的に把握することも可能である。
<B:第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の記憶装置12は、第1実施形態と同様の素片群Vおよび楽譜情報Sに加えて、各指定音に対する音声素片の選択の履歴を示す図11の履歴情報Hを記憶する。図11に例示するように、履歴情報Hは、各指定音に対する音声素片の選択の履歴を示す情報である。具体的には、履歴情報Hは、図11に示すように、素片選択部26が過去に音声素片を選択した各指定音の特徴量Fと、素片選択部26がその指定音について選択した音声素片の素片識別子s4とを含むデータテーブルである。特徴量Fは、指定音の音高s1や時間長(発音期間s2が示す継続長)を含んで構成される。
図12は、第2実施形態における素片選択部26の動作のフローチャートである。図12に示すように、素片選択部26は、利用者からの指示に応じて音声素片を選択する処理(SA1,SA2)や自動的に指定音の音声素片を選択する処理(SA11〜SA21)に加えて、記憶装置12内の履歴情報Hを参照して指定音の音声素片を選択する処理(SD11〜SD13)と、音声素片の選択の結果を履歴情報Hに反映させる処理(SD20)とを実行する。
利用者が新規指定音の音声素片を選択しない場合(SA1:NO)、素片選択部26は、新規指定音に特徴量Fが近似または合致する指定音(以下「対応指定音」という)が履歴情報Hに登録されているか否かを判定する(SD11)。例えば、特徴量Fが示す音高が新規指定音の音高s1を含む所定の範囲内にあり、かつ、特徴量Fが示す時間長が新規指定音の発音期間s2の継続長を含む所定の範囲内にある指定音が、対応指定音として履歴情報Hから検索される。
履歴情報H内に対応指定音が存在する場合(SD11:YES)、素片選択部26は、履歴情報Hのうち対応指定音に対応する音声素片を利用できるか否か(対応指定音について過去に選択された音声素片の素片データDVが素片群V内に存在するか否か)を判定する(SD12)。履歴情報Hに登録された音声素片は素片選択部26が過去に実際に選択した音声素片であるから、基本的にはその音声素片の素片データDVは素片群Vに包含される(SD12:YES)。しかし、記憶装置12の素片群Vが更新された場合や部分的に削除された場合には、過去に選択された音声素片の素片データDVが素片群V内に存在しない可能性がある(SD12:NO)。
履歴情報Hにて対応指定音に対応する音声素片を利用可能である場合(SD12:YES)、素片選択部26は、対応指定音に対応する音声素片を今回の新規指定音についても同様に選択し、その音声素片の素片識別子s4を楽譜情報Sに追加する(SD13)。すなわち、新規指定音に近似または合致する対応指定音が履歴情報Hに登録されている場合には対応指定音の音声素片が新規指定音についても選択される。
他方、履歴情報H内に対応指定音が存在しない場合(SD11:NO)または対応指定音の過去の音声素片を利用できない場合(SD12:NO)、素片選択部26は、第1実施形態と同様の方法で新規指定音の音声素片を選択する(SA11〜SA21)。そして、新規指定音の音声素片を選択した素片選択部26は、今回の新規指定音の特徴量Fと自身が選択した音声素片とを対応させて履歴情報Hに登録する(SD20)。なお、利用者からの指示に応じて新規指定音の音声素片を選択した場合(SA2)にも同様に、新規指定音の特徴量Fと利用者からの指示に応じた音声素片とが履歴情報Hに登録される(SD20)。
図13は、素片結合指示や素片分割指示に関連する素片選択部26の動作のフローチャートである。図13に例示された動作は、図12の動作に手順SB15および手順SC15を追加した内容である。素片結合指示に応じた結合素片を手順SB14で選択すると、素片選択部26は、履歴情報Hのうち今回の編集(素片結合)の対象とされた指定音に対応する素片識別子s4を、手順SB14で選択した結合素片の素片識別子s4に更新する(SB15)。同様に、素片分割指示に応じた各分割素片を手順SC14で選択すると、素片選択部26は、履歴情報Hのうち編集対象の指定音に対応する素片識別子s4を、手順SC14で選択した各分割素片の素片識別子s4に更新する(SC15)。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、新規指定音に類似または合致する指定音について過去に素片選択部26が選択した音声素片が新規指定音についても選択されるから、例えば音高が共通する複数の指定音については同じ音声素片が選択される。したがって、利用者が例えば手順SA2で選択した音声素片や図13の処理での変更後の音声素片を効率的に選択できるという利点がある。
<C:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
以上の各形態では、素片群Vの全部の音声素片を素片選択部26による選択の候補としたが、例えば利用者からの指示に応じた音素数の音声素片のみを選択の候補とする構成(他の音素数の音声素片を選択の候補から除外する構成)も採用され得る。例えば、表示制御部22は、図14の設定画面81を表示装置16に表示させる。利用者は、素片選択部26による選択の有効/無効を、設定画面81に対する操作(チェックの付加/解除)で音素数毎に個別に設定する。素片選択部26は、設定画面81にて選択が有効化された音素数の音声素片のみを選択の候補とし、設定画面81にて選択が無効化された音素数の音声素片は選択の候補から除外する。例えば、図14の例示の場合にはダイフォンP2およびトライフォンP3のみが選択の候補となる。以上の構成によれば、利用者の所望の音素数の音声素片のみが選択的に利用されるから、利用者の意図を高度に反映した多様な合成音を生成できるという利点がある。
(2)変形例2
以上の各形態では、各指定音の全部の音声素片について音素数画像56を編集画面40の第2領域48に表示したが、例えば利用者からの指示に応じた音素数の音声素片を音素数画像56の表示の対象から除外する構成も採用され得る。例えば、表示制御部22は、図15の設定画面82を表示装置16に表示させる。利用者は、音素数画像56の表示の有効/無効を、設定画面82に対する操作で音素数毎に個別に設定する。表示制御部22は、設定画面82にて表示が有効化された音素数の音声素片のみについて第2領域48に音素数画像56を表示し、設定画面82にて表示が無効化された音素数の音声素片については音素数画像56を表示しない。例えば、図15の例示の場合にはダイフォンP2およびトライフォンP3のみについて音素数画像56が表示され、モノフォンP1については音素数画像56が表示されない。なお、音素数画像56(音素数は不問)の表示/非表示を利用者が可変に設定できる構成も好適である。
(3)変形例3
以上の各形態では、音素数と同数の単位図形562を配列した音素数画像56を表示したが、音素数画像56の態様は適宜に変更される。ただし、音素数画像56を視認した利用者が音素数の相違を視覚的に識別できるように音素数毎に相異なる表示態様で音素数画像56を表示する構成が好適である。表示態様とは、利用者が視覚的に知覚できる画像の状態を意味する。例えば、画像の形状や寸法,階調の濃淡,表示色(色相,明度,彩度),模様,またはこれらの組合せが、画像の表示態様の概念に包含される。
(4)変形例4
第2実施形態において、履歴情報Hの参照や更新(登録)の有効/無効を利用者が可変に設定できる構成も好適である。例えば、表示制御部22は、図16の設定画面83を表示装置16に表示させる。利用者は、履歴情報Hの参照の有効/無効(履歴参照)と、履歴情報Hの更新の有効/無効(履歴更新)とを、設定画面83に対する操作で可変に設定する。素片選択部26は、履歴情報Hの参照が有効化されている場合には履歴情報Hを利用した音声素片の選択(SD11〜SD13)を実行し、履歴情報Hの参照が無効化されている場合には手順SD11から手順SD13を省略する。また、素片選択部26は、履歴情報Hの更新が有効化されている場合には音声素片の選択後に履歴情報Hの更新(SD20)を実行し、履歴情報Hの更新が無効化されている場合には手順SD20を省略する。
また、履歴情報Hのうち音声素片の選択時に参照する範囲を制限する構成も採用され得る。例えば、素片選択部26は、履歴情報Hに登録された複数の指定音のうち最新のN1個のみを新規指定音の音声素片の選択時に参照する。また、履歴情報Hに登録する履歴数を制限する構成も採用され得る。例えば、素片選択部26は、音声素片を選択した過去の指定音のうち最新のN2個のみについて履歴情報Hに履歴を登録する(さらに過去の情報は破棄する)。参照履歴の個数N1や登録履歴の個数N2は利用者からの指示に応じて可変に設定される。
(5)変形例5
音声素片の素片データDVは波形のサンプル系列に限定されない。例えば時間領域または周波数領域で音声素片について抽出される特徴量(例えば周波数スペクトルやケプストラム)も素片データDVとして利用され得る。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……素片選択部、28……音声合成部、40……編集画面、42……楽譜領域、44……音素領域、46……第1領域、48……第2領域、52……音符画像、54……素片画像、56……音素数画像、562……単位図形、62……結合指示子、64……分割指示子。

Claims (6)

  1. 指定音毎に音声素片を選択する素片選択手段と、
    前記素片選択手段が選択した音声素片の素片データを利用して音声信号を生成する音声合成手段とを具備し、
    前記素片選択手段は、各指定音に対する音声素片の選択の履歴を示す履歴情報を参照して、一の指定音に合致または類似する指定音について前記履歴情報が示す履歴に係る音声素片を前記一の指定音について選択する
    音声合成装置。
  2. 音素数が相違する2以上の音声素片を含む複数の音声素片から指定音毎に音声素片を選択する手段であって、音素数が相違する2以上の音声素片が1個の指定音に対する選択の候補として存在する場合に音素数が多い音声素片を選択する素片選択手段と、
    前記素片選択手段が選択した音声素片の素片データを利用して音声信号を生成する音声合成手段と、
    前記素片選択手段が各指定音について選択した音声素片の音素数を識別可能な音素数画像が配置された音素領域を含む画像を表示装置に表示させる表示制御手段と
    を具備する音声合成装置。
  3. 前記素片選択手段は、指定音に対して選択した音声素片を、利用者からの指示に応じて、音素数が相違する音声素片に変更し、
    前記表示制御手段は、前記素片選択手段による音声素片の変更に応じて前記音素数画像を更新する
    請求項2の音声合成装置。
  4. 前記表示制御手段は、音声素片の音素数に対応する個数の単位図形を配列した前記音素数画像を表示させる
    請求項2または請求項3の音声合成装置。
  5. 音素数が相違する2以上の音声素片を含む複数の音声素片から指定音毎に音声素片を選択する素片選択手段と、
    前記素片選択手段が選択した音声素片の素片データを利用して音声信号を生成する音声合成手段とを具備し、
    前記素片選択手段は、利用者が一の指定音について音声素片を指定した場合に当該音声素片を選択し、前記一の指定音について利用者が音声素片を指定しない場合に、音素数が相違する2以上の音声素片が当該一の指定音に対する選択の候補として存在するならば、音素数が多い音声素片を選択する
    音声合成装置。
  6. 音素数が相違する2以上の音声素片を含む複数の音声素片から指定音毎に音声素片を選択する素片選択手段と、
    前記素片選択手段が選択した音声素片の素片データを利用して音声信号を生成する音声合成手段とを具備し、
    前記素片選択手段は、音素数が相違する2以上の音声素片が一の指定音に対する選択の候補として存在する場合に、利用者から指示された音素数の音声素片を選択する
    音声合成装置。
JP2010159544A 2010-07-14 2010-07-14 音声合成装置 Expired - Fee Related JP5648347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010159544A JP5648347B2 (ja) 2010-07-14 2010-07-14 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010159544A JP5648347B2 (ja) 2010-07-14 2010-07-14 音声合成装置

Publications (2)

Publication Number Publication Date
JP2012022121A JP2012022121A (ja) 2012-02-02
JP5648347B2 true JP5648347B2 (ja) 2015-01-07

Family

ID=45776456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010159544A Expired - Fee Related JP5648347B2 (ja) 2010-07-14 2010-07-14 音声合成装置

Country Status (1)

Country Link
JP (1) JP5648347B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5990962B2 (ja) * 2012-03-23 2016-09-14 ヤマハ株式会社 歌唱合成装置
JP6056394B2 (ja) * 2012-11-12 2017-01-11 ヤマハ株式会社 音声処理装置
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP7260312B2 (ja) * 2019-02-01 2023-04-18 株式会社河合楽器製作所 音楽データ表示プログラム及び音楽データ表示装置
JP7260313B2 (ja) * 2019-02-01 2023-04-18 株式会社河合楽器製作所 音楽データ表示プログラム及び音楽データ表示装置
JPWO2022074753A1 (ja) * 2020-10-07 2022-04-14

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2894447B2 (ja) * 1987-08-12 1999-05-24 株式会社 エイ・ティ・アール自動翻訳電話研究所 複合音声単位を用いた音声合成装置
JP3515406B2 (ja) * 1999-02-08 2004-04-05 日本電信電話株式会社 音声合成方法及び装置
JP4026512B2 (ja) * 2003-02-27 2007-12-26 ヤマハ株式会社 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP2005181998A (ja) * 2003-11-28 2005-07-07 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP4664194B2 (ja) * 2005-11-29 2011-04-06 パナソニック株式会社 声質制御装置および方法およびプログラム記憶媒体
JP4858173B2 (ja) * 2007-01-05 2012-01-18 ヤマハ株式会社 歌唱音合成装置およびプログラム
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP5136128B2 (ja) * 2008-03-12 2013-02-06 ヤマハ株式会社 音声合成装置
JP5223433B2 (ja) * 2008-04-15 2013-06-26 ヤマハ株式会社 音声データ処理装置およびプログラム
JP5509536B2 (ja) * 2008-04-15 2014-06-04 ヤマハ株式会社 音声データ処理装置およびプログラム

Also Published As

Publication number Publication date
JP2012022121A (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
JP5648347B2 (ja) 音声合成装置
CN104347080B (zh) 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质
JP6465136B2 (ja) 電子楽器、方法、及びプログラム
CN107430849B (zh) 声音控制装置、声音控制方法和存储声音控制程序的计算机可读记录介质
JP6127371B2 (ja) 音声合成装置および音声合成方法
US9711123B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program recorded thereon
JPH1138989A (ja) 音声合成装置及び方法
JP2011128186A (ja) 音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP6136202B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP5515986B2 (ja) 情報編集装置およびプログラム
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP5614262B2 (ja) 音楽情報表示装置
US11437016B2 (en) Information processing method, information processing device, and program
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP5092905B2 (ja) 歌唱合成装置およびプログラム
JP2006330484A (ja) 音声案内装置及び音声案内プログラム
JP6809608B2 (ja) 歌唱音生成装置及び方法、プログラム
JP2001042879A (ja) カラオケ装置
JP2004258564A (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JPWO2019240042A1 (ja) 表示制御方法、表示制御装置およびプログラム
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP7158331B2 (ja) カラオケ装置
JPH07244496A (ja) テキスト朗読装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141027

R150 Certificate of patent or registration of utility model

Ref document number: 5648347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees