JP6191094B2

JP6191094B2 - 音声素片切出装置

Info

Publication number: JP6191094B2
Application number: JP2012109824A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-05-11
Filing date: 2012-05-11
Publication date: 2017-09-06
Anticipated expiration: 2032-05-11
Also published as: JP2013238664A

Description

本発明は、音声素片切出装置に関する。

人間の肉声を模した音声を合成するための種々の技術が提案されている。例えば、特許文献１には、人間の肉声（以下「入力音声」という）を音素ごとに切り出して音声素片を採取しておき、これらの音声素片を相互に連結することによって任意の音声を合成する技術が開示されている。また、入力音声から音声素片を切り出す技術として、例えば、特許文献２には、音声音響信号に対して自動的に音素セグメンテーションを行いセグメント境界の候補を算出し、セグメンテーション候補を画面に表示して作業者がそれらを選択または修正したり、聴取や読図による確認を行いながらセグメンテーション作業を行ったりする技術が提案されている。

特開２００３−２５５９７４号公報特開２０００−４７６８３号公報

ところで、入力音声から音声素片を切り出す作業においては、入力音声の波形の形状や、波形の再生音を参考にして音声素片を切り出す必要があるため、作業者が音声波形についての知識をある程度有している必要がある。音声波形についての知識が不十分である作業者が作業を行うと、音声素片の切り出しを効率的に行うことができない場合がある。特許文献２に記載されているような自動切出装置では、言語学的な音素毎の区切り位置をある程度自動的に行うことができるものの、音声素片の種々の用途においては、言語学的な音素の切り出し位置と一致しない切り出し位置が求められる場合がある。従来の装置では、このような音声素片の種々の用途に応じた音素の切り出しを自動的に行うことはできなかった。そのため、作業者が区切り位置を逐一手作業で修正する必要があり、この作業は煩雑である場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声素片を作業者の所望する態様で切り出す際の作業負荷を軽減することのできる技術を提供することを目的とする。

上述した課題を解決するために、本発明は、音声波形を解析し、解析結果に応じて該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定する音声認識部と、前記音声認識部によって特定された音素毎の区切り位置を、利用者によって操作される操作部から出力される情報に従って変更する区切り位置変更部と、前記区切り位置変更部によって変更された区切り位置に従って、前記音声認識部により特定される音素の区切り位置が前記区切り位置変更部により変更された区切り位置に近づくように、前記音声認識部における前記区切り位置の特定態様を変更する学習部と、前記音声認識部によって特定された音素又は音素連鎖と該特定された音素又は音素連鎖に対応する音声波形を切り出すための情報を出力する出力部とを具備し、前記音声認識部は、音声の特徴量を表すパラメータを音素毎に記憶するパラメータ記憶部に記憶されたパラメータを用いて、該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定し、前記学習部は、前記区切り位置変更部により変更された区切り位置に対応する音声波形の音声の特徴量を特定し、前記記憶されたパラメータの値を、前記特定された特徴量を表すパラメータの値との差分が予め定められた閾値となる値、前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値との中間値、又は、複数の前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値の平均値に変更し、前記学習部は、前記音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、前記音素又は音素連鎖の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更することを特徴とする音声素片切出装置を提供する。

また、本発明の更に好ましい態様において、前記学習部は、前記音声認識部により特定された音素の種別に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更してもよい。

また、本発明の更に好ましい態様において、前記学習部は、前記音声認識部により特定された音素の種別を特定し、特定した種別の音素のそれぞれについて、各音素に対応する前記パラメータの値を変更してもよい。

また、本発明の更に好ましい態様において、前記学習部は、音素連鎖中の音素の位置（ｎ番目）に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更してもよい。

本発明によれば、音声素片を作業者の所望する態様で切り出す際の作業負荷を軽減することができる。

音声合成システムの構成の一例を示すブロック図音声合成装置のハードウェア構成の一例を表すブロック図音声素片の一例を示す図音声素片データベースの内容の一例を示す図音声素片切出装置のハードウェア構成の一例を示すブロック図音声合成装置の機能的構成の一例を示すブロック図音声素片切出装置の機能的構成の一例を示すブロック図表示部に表示される画面の一例を示す図表示部に表示される画面の一例を示す図音声合成システムの構成の一例を示すブロック図音声素片切出装置の機能的構成の一例を示すブロック図

図面を参照しながら本発明の実施の形態を説明する。以下に示す各実施形態は、楽曲の歌唱音声を合成するために本発明を適用した態様である。

１．構成
図１は、本発明の第１の実施形態に係る音声合成システム１の構成の一例を示すブロック図である。音声合成システム１は、文字列及び音符列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する音声合成装置１００と、音声合成装置１００が音声合成処理を行う際に用いる音声素片データベースを生成する音声素片切出装置２００とを備えている。音声合成装置１００と音声素片切出装置２００とは、有線ＬＡＮ（Local Area Network）等により有線接続されていてもよく、また、無線ＬＡＮ等の無線通信により無線接続されていてもよい。

図２は、音声合成装置１００のハードウェア構成の一例を示すブロック図である。音声合成装置１００は、制御部１０、記憶部２０、操作部３０、表示部４０、音声処理部６０、マイクロホン６１、及びスピーカ６２を有し、これら各部がバス７０を介して接続されている。制御部１０は、ＣＰＵ（Central Processing Unit）等のプロセッサーや、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を有している。制御部１０において、ＣＰＵ等のプロセッサーが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、音声合成装置１００の各部を制御する。操作部３０は、各種の操作子を備え、利用者による操作内容を表す操作信号を制御部１０に出力する。表示部４０は、例えば液晶パネルを備え、制御部１０による制御の下、各種の画像を表示する。

マイクロホン６１は、収音した音声を表すアナログの音声信号を音声処理部６０に出力する。音声処理部６０は、Ａ／Ｄ（Analog / Digital）コンバータを有し、マイクロホン６１が出力したアナログの音声信号をデジタルの音声データに変換して制御部１０に出力し、制御部１０はこれを取得する。また、音声処理部６０は、Ｄ／Ａ（Digital / Analog）コンバータを有し、制御部１０から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ６２に出力する。スピーカ６２は、音声処理部６０から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン６１とスピーカ６２とが音声合成装置１００に含まれている場合について説明するが、音声処理部６０に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン６１から出力されるオーディオ信号及びスピーカ６２へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部６０にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。操作部３０や表示部４０についても同様であり、外部出力端子を設け、外部モニタやキーボード等を接続する構成としてもよい。

記憶部２０は、各種のデータを記憶するための記憶部である。記憶部２０としては、磁気ディスクを内蔵したハードディスク装置や、ＣＤ−ＲＯＭに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部２０は、図示のように、音声素片データベース２１を有している。音声素片データベース２１は、単数又は複数の音素（ｐｈｏｎｅｍｅ）で構成される音声素片を表すデータ（以下「音声素片データ」という）を記憶するデータベースである。本実施形態において「音素」とは、言語上の意味の区別の最小単位（例えば母音や子音）に相当するものであり、ある言語の実際の調音と音韻体系全体を考慮して設定される、その言語の音韻論上の最小単位である。音声素片は、特定の発声者によって発声された入力音声のうち所望の音素や音素連鎖に相当する区間が切り出されたものである。本実施形態における音声素片データは、音声素片の周波数スペクトルを示すデータである。以下の説明では、「音声素片」の語は、単一の音素（例えばモノフォン）や、音素連鎖（例えばダイフォンやトライフォン）を含むものとして用いる。

具体的には、音声素片データベース２１には、「ａ」、「ｉ」といったような単一の音素の音声素片データや、「ａ_ｉ」、「ａ_ｐ」といったような音素連鎖の音声素片データが記憶されている。この実施形態では、音素を表す発音記号としてＳＡＭＰＡ（Speech Assessment Methods Phonetic Alphabet）で規定された発音記号を用いる。なお、音素を表す記号はこれに限らず、例えばＸ−ＳＡＭＰＡ（Extended SAM Phonetic Alphabet，拡張ＳＡＭ音声記号）やＩＰＡ（国際音声記号）等の他の規格に沿ったものであってもよい。

図３は、音声素片の一例を示す図である。図３の（ａ１）は、子音の音素［ｓ］とこれに続く母音の音素［ａ］とを組み合わせた音素連鎖［ｓ_ａ］の波形を示す。区間の端部は、音声素片切出装置２００が後述する音素切出処理を行うことによって選定される。音声素片切出装置２００が行う音素特定処理については、後述するためここではその詳細な説明を省略する。図３の（ａ１）に示す波形は、時点Ｔａ１が音素［ｓ］の始点として指定されるとともに時点Ｔａ３が音素［ａ］の終点として指定され、さらに時点Ｔａ２が音素［ｓ］と音素［ａ］との境界として指定された場合が想定されている。図３の（ａ１）に示されるように、音素［ａ］の波形は、その発声のために口を開いていく発声者の動作に対応するように時点Ｔａ２から徐々に振幅が増大していき、発声者が口を開き切った時点Ｔａ０を越えると振幅が略一定に維持される形状となる。音素［ａ］の終点Ｔａ３としては、音素［ａ］の波形が定常的な状態に遷移した後の時点（すなわち図３の（ａ１）に示される時点Ｔａ０以降の時点）が選定される。

一方、図３の（ｂ１）は、母音の音素［ａ］を含む音声素片［ａ_＃］の波形を示す。「＃」は無音を表す記号である。この音声素片［ａ_＃］に含まれる音素［ａ］の波形は、発声者が口を開き切った状態にて発声してから徐々に口を閉じていって最後には完全に口が閉じられるという発声の動作に対応した形状となる。すなわち、音素［ａ］の波形は、初めに振幅が略一定に維持され、発声者が口を閉じる動作を開始する時点（定常点）Ｔｂ０から振幅が徐々に減少していく。このような音声素片の始点Ｔｂ１は、音素［ａ］の波形が定常的な状態に維持されている期間内の時点（すなわち定常点Ｔｂ０よりも前の時点）として選定される。

以上のようにして時間軸上における範囲が画定された音声素片は所定の時間長（例えば５ｍｓないし１０ｍｓ）のフレームＦに区分される。図３の（ａ１）に示されるように、各フレームＦは時間軸上において相互に重なり合うように選定される。これらのフレームＦは簡易的には同一の時間長の区間とされるが、例えば音声素片のピッチに応じて各フレームＦの時間長を変化させてもよい。こうして区分された各フレームＦの波形にＦＦＴ（Fast Fourier Transform）処理を含む周波数分析が実施されることによって周波数スペクトルが特定され、これらの周波数スペクトルを示すデータが音声素片データとして記憶部２０に記憶される。したがって、図３の（ａ２）および（ｂ２）に示されるように、各音声素片の音声素片データは、各々が別個のフレームＦの周波数スペクトルを示す複数の単位データＤ（Ｄ1、Ｄ2、……）を含む。

図４は、音声素片データベース２１の内容の一例を示す図である。図示のように、このデータベースには、音声素片データが音素又は音素連鎖毎に記憶されている。なお、ひとつの音素又はひとつの音素連鎖について、ピッチ毎、ゲイン毎、波長毎に複数の音声素片データが記憶されていてもよい。例えば、ピッチに関して、ひとつの音素（又はひとつの音素連鎖）について高音用の音声素片データ、中音用の音声素片データ、低音用の音声素片データ、の３つの音声素片データが記憶されていてもよい。

図５は、音声素片切出装置２００のハードウェア構成の一例を示すブロック図である。音声素片切出装置２００は、制御部２１０、記憶部２２０、操作部２３０、表示部２４０、音声処理部２６０、マイクロホン２６１、及びスピーカ２６２を有し、これら各部がバス２７０を介して接続されている。制御部２１０は、ＣＰＵ等のプロセッサーや、ＲＡＭ、及びＲＯＭ等を有している。制御部２１０において、ＣＰＵ等のプロセッサーが、ＲＯＭや記憶部２２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、音声素片切出装置２００の各部を制御する。操作部２３０は、各種の操作子を備え、利用者による操作内容を表す操作信号を制御部２１０に出力する。表示部２４０は、例えば液晶パネルを備え、制御部２１０による制御の下、各種の画像を表示する。マイクロホン２６１、音声処理部２６０、スピーカ２６２の構成はそれぞれ、上述した音声合成装置１００のマイクロホン６１、音声処理部６０、スピーカ６２のそれと同様であり、ここではその詳細な説明を省略する。

記憶部２２０は、各種のデータを記憶するための記憶部である。記憶部２２０としては、磁気ディスクを内蔵したハードディスク装置や、ＣＤ−ＲＯＭに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部２２０は、図示のように、音響モデルＭ１記憶領域２２１と、言語モデルＭ２記憶領域２２２とを有している。

音響モデルＭ１記憶領域２２１には、制御部２１０が音声認識処理を行う際に参照される音響モデルＭ１が格納されている。音響モデルＭ１は音声の音響的な特徴を表したものであり、認識対象の音素がそれぞれどのような特徴を持っているかを表すデータの集合である。この実施形態では、音声の特徴量を表す複数の特徴パラメータ（データ）が音響モデルＭ１記憶領域２２１に記憶されている。音声の特徴量を表す特徴パラメータとしては、この実施形態では、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient：メル周波数ケプストラム係数）係数を用いる。音響モデルＭ１記憶領域２２１は本発明に係るパラメータ記憶部の一例である。

言語モデルＭ２記憶領域２２２には、制御部２１０が音声認識処理を行う際に参照される言語モデルＭ２が格納されている。言語モデルＭ２は音声の言語的な特徴を表したものであり、音素の並び方に関する制約を表すデータの集合である。音響モデルと言語モデルについては従来の音声認識技術において用いられている音響モデルと言語モデルと同様のものを用いればよい。

次に、図６に示すブロック図を参照しながら、音声合成装置１００の機能的構成の一例について説明する。図６において、データ取得部１２と、音声処理部１３と、出力部１４は、制御部１０のＣＰＵ等のプロセッサーが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。

データ取得部１２は、楽曲の演奏に関するデータを取得する。具体的には、データ取得部１２は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の文字列を指定するデータである。一方、音符データは、楽曲のうちメインメロディ（例えばボーカルパート）を構成する各楽音のピッチ（音高）と、その楽音の発音開始時刻とその継続されるべき時間長（以下「音符長」という）とを指定するデータである。なお、発音の開始時刻と発音終了時刻の指定によって音符長が指定されるものであってもよい。歌詞データおよび音符データは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠したデータである。また、データ取得部１２は、歌詞データと音符データに加えて、例えばビブラートなどの演奏表現とその演奏表現を付与する箇所を表す演奏表現データを取得してもよい。データ取得部１２は、歌詞データや音符データを図示しない記憶装置から読み出すことによって歌詞データや音符データを取得してもよく、また、外部に設置されたＭＩＤＩ機器から歌詞データや音符データを受信することによって歌詞データや音符データを取得してもよい。

音声処理部１３は、素片取得部１３１と音声合成部１３２とを有する。データ取得部１２によって取得された歌詞データは素片取得部１３１に供給され、同じくデータ取得部１２によって取得された音符データは音声合成部１３２に供給される。素片取得部１３１は、音声素片データベース２１から、複数の音声素片データのいずれかを歌詞データに基づいて順次に選択し、この選択した音声素片データを読み出して音声合成部１３２に出力する。より具体的には、素片取得部１３１は、歌詞データによって指定される文字に対応した音声素片データを記憶部２０から読み出す。例えば、歌詞データによって「さいた（ｓａｉｔａ）」という文字列が指定された場合には、音声素片データベース２１から、音声素片［＃ｓ］、［ｓ_ａ］、［ａ_ｉ］、［ｉ_ｔ］、［ｔ_ａ］および［ａ＃］の各々に対応する音声素片データが記憶部２０から読み出される。

音声合成部１３２は、複数の音声素片を相互に連結する。音声合成部１３２は、素片取得部１３１によって順次に供給される各音声素片データ（単位データＤの集合）を連結することによって音声を合成する。音声合成部１３２は、データ取得部１２によって取得された音符データの示す音符長に応じて音声素片データの一部又は全部を用いて補間処理を行って音声を合成してもよい。また、データ取得部１２によって演奏表現データを取得した場合には、音声合成部１３２は、演奏表現データの示す演奏表現が付与されるように音声素片データを加工して音声を合成してもよい。

出力部１４は、音声合成部１３２から出力された音声合成データを構成するフレームＦごとの単位データＤに逆ＦＦＴ処理を施して時間領域の信号を生成する。さらに、出力部１４は、こうして生成されたフレームＦごとの信号に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号を生成する。出力部１４は、生成した出力音声信号を音声処理部６０に出力する。音声処理部６０は、供給される出力音声信号をＤ／Ａ変換し、変換したアナログオーディオ信号をスピーカ６２に出力する。スピーカ６２は、供給されるアナログオーディオ信号に応じて放音する。

次いで、図７に示すブロック図を参照しながら、音声素片切出装置２００の機能的構成の一例について説明する。図７において、波形取得部２１１、前処理部２１２は音声処理部２６０により実現されるものであり、特徴パラメータ抽出部２１３、認識演算部２１４１、区切り位置変更部２１５、出力部２１６、学習部２１７は、制御部２１０のプロセッサーが、ＲＯＭや記憶部２２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。波形取得部２１１は、入力音声を表す波形（以下「音声波形」という）を取得する。波形取得部２１１は、音声波形を図示しない記憶装置から読み出すことによって音声波形を取得してもよく、また、外部に設置された機器から音声波形を受信することによって音声波形を取得してもよい。また、波形取得部２１１は、マイクロホン６１によって入力される音声波形を取得してもよい。前処理部２１２は、音声波形に対してＡ／Ｄ変換処理を施し、正規化処理やノイズ除去処理等の前処理を行う。

特徴パラメータ抽出部２１３は、前処理部２１２によって前処理が施された音声波形を解析し、音声波形の表す音声の特徴量を特定する。この実施形態では、特徴パラメータ抽出部２１３は、前処理部２１２から出力される音声信号からＭＦＣＣ係数を特定する。

音声認識部２１４は、認識演算部２１４１と、音響モデルＭ１と、言語モデルＭ２とで構成される。認識演算部２１４１は、記憶部２２０に記憶された音響モデルＭ１及び言語モデルＭ２を参照して、特徴パラメータ抽出部２１３によって抽出された特徴量に基づいて音声認識処理を行い、音声波形に対応する音素列と各音素の区切り位置とを特定する。特徴パラメータ抽出部２１３と認識演算部２１４１は本発明に係る音声認識部の一例である。ここにおいて、認識演算部２１４１は、例えば隠れマルコフモデルに基づく手法等周知の音声認識技術を用いて、音声認識処理を行う。なお、認識演算部２１４１が行う音声認識処理は上述したものに限らず、他の手法を用いたものであってもよい。

具体的には、例えば、音素［ｓ］と音素［ａ］とを表す音声波形が取得された場合は、認識演算部２１４１は、音素［ｓ］と音素［ａ］とを特定するとともに、音素［ｓ］の始点（図３の時点Ｔａ１参照）や、音素［ｓ］と音素［ａ］の境界（図３の時点Ｔａ２参照）、音素［ａ］の終点（図３の終点Ｔａ３参照）を特定する。認識演算部２１４１が行う音素の特定処理及び各音素の区切り位置の特定処理については、従来と同様である（例えば、特公平６−３３７６９２号公報、特公平７−１３５８７号公報、等参照）ため、ここではその詳細な説明を省略する。認識演算部２１４１は、特定した音素列と各音素の区切り位置とを示す情報を区切り位置変更部２１５に出力する。

区切り位置変更部２１５は、音声認識部２１４によって特定された音素毎の区切り位置を、利用者によって操作される操作部２３０から出力される情報に従って変更する。より詳細には、まず、区切り位置変更部２１５は、音声認識部２１４によって特定された音素毎の区切り位置を表示部２４０に表示して利用者に区切り位置の修正を促す。利用者は、操作部２３０を用いて区切り位置を変更する操作を行う。区切り位置変更部２１５は、操作部２３０から出力される情報に従って音素毎の区切り位置を変更する。

図８は、表示部２４０に表示される画面の一例を示す図である。この実施形態では、区切り位置変更部２１５は、音声波形を表す画像データや、音素の列（発音記号の列）を示すデータ、音素毎の区切り位置を示すデータを表示部２４０に出力することによって、音声波形を表示させるとともに、音素の列（発音記号の列）を表す文字画像や、音声波形の区切り位置を表す画像を表示部２４０に表示させる。図８に示す例では、表示部２４０には、音声波形Ａ１０が表示されるとともに、音素の列を表す文字画像Ａ２０や、音素毎の区切り位置を表す区切り線Ａ３３、Ａ３４、…が表示される。図８に表示される画面において、利用者は、操作部２３０を用いて、音素の区切り位置Ａ３３、Ａ３４、…を調整することができる。区切り位置変更部２１５は、操作部２３０から出力される情報に従って、各音素の区切り位置を変更する。

図９は、利用者によって音素の区切り位置が修正された状態の一例を示す図である。図９に示す例では、「＃」と「ａ」の音素に対応する音声波形（音声素片）の区切り位置を変更した場合の一例を図示している。図示のように、図８に示した区切り線Ａ３３、Ａ３４、…の位置がそれぞれ変更され、区切り線Ａ１３３、Ａ１３４、…となっている。このように、音声認識を行う装置においては、装置によって特定される区切り位置Ａ３３、Ａ３４、…と、利用者が所望する区切り位置Ａ１３３、Ａ１３４、…とが異なる場合がある。これは以下のような理由によるものである。まず、音素「ａ」の終点は、音声認識部２１４によって、次に続く音素との境界である区切り位置Ａ３５（図８参照）と特定されている。しかしながら、音声素片データベースに蓄積されるべき音声素片データは、音声波形の振幅が十分安定したところまであれば十分であり、それ以降は不要である場合がある。これは、区切り線Ａ１３５の時刻において音声波形は十分安定しているため、この安定している箇所の波形を用いて補間処理等を施すことによって音声合成が可能であるためである。このように切り出し幅を小さくすることで音声素片のデータ量を小さくすることがでる。すなわち、音素「ａ」の音声素片は区切り線Ａ１３５までの音声波形があれば足り、区切り線Ａ１３５から区切り線Ａ３５までの間の音声波形は不要である。以上の理由により、利用者は、操作部２３０を用いて「ａ」の音素の終点を区切り線Ａ１３５の位置に移動させる。

一方、音素「ａ」の始点は、音声認識部２１４によって、無音部分との境界である区切り線Ａ３４（図８参照）の位置が特定されている。しかしながら、音声合成装置１００の仕様によっては、始点をもう少し前にずらして無音部分の音声波形を音素「ａ」の音声波形に含めたほうが、音声合成装置１００において自然な合成音声が生成される場合がある。利用者は、このような音声合成装置１００の仕様や音声合成処理の特徴等に応じて、「ａ」の音素の始点を調整する。

また、音声素片データの区切り位置の調整が必要な他の具体例を説明する。例えば、複数の音声素片を連結する際に両者の音声波形をクロスフェードさせる仕様の音声合成装置の場合、子音の音素の切り出し位置を調整しないと発音がぼやけてしまう場合がある。具体的には、例えば、「いた（ｉｔａ）」という合成音声を生成する場合、「ｉ_ｔ」の音声素片と「ｔ_ａ」の音声素片とをクロスフェードさせて合成音声を生成すると、「ｉ_ｔ」の「ｔ」の部分がフェードアウトするとともに「ｔ_ａ」の「ｔ」の部分がフェードインすることとなり、「ｔ」の部分の発音がぼやけてしまう。そのため、このような音声合成装置１００で用いられる音声素片データベースを生成する際には、クロスフェードさせても「ｔ」の発音がぼやけてしまわないように区切り位置の調整を行うことが好ましい。例えば、［ｉ_ｔ］のｔ部分は実質無音とし、［ｔ_ａ］のｔ部分は音素ｔをあらわす波形となるようにするなどが考えられる。つまり、同じ音素であっても、音声素片中の該当音素の位置によって、適切な区切り位置が異なる場合がある。以上のように、利用者は、自身が把握している音声合成装置の合成処理の仕様や特徴、また、自身の嗜好等に応じて、各音素の始点と終点を操作部２３０を用いて所望の位置に変更する。

利用者によって各音素の区切り位置が変更されると、区切り位置変更部２１５は、認識演算部２１４１によって特定された音素列と各音素の区切り位置と示す情報を、出力部２１６と学習部２１７に出力する。

学習部２１７は、区切り位置変更部２１５によって変更された区切り位置を音声認識部２１４にフィードバックする機能を備える。すなわち、学習部２１７は、区切り位置変更部２１５によって変更された区切り位置に従って、音声認識部２１４により特定される音素の区切り位置が、利用者によって変更された区切り位置に近づくように、音声認識部２１４における区切り位置の特定態様を変更する。より詳細には、この実施形態では、学習部２１７は、利用者によって変更された区切り位置によって切り出された場合の音声波形（音声素片）の音声の特徴量を特定し、特定した特徴量に従って、音響モデルＭ１記憶領域２２１に記憶された特徴パラメータを更新する。

パラメータの更新の態様としては、例えば、学習部２１７は、音響モデルＭ１記憶領域２２１に記憶された特徴パラメータと、区切り位置変更部２１５が変更した区切り位置に従って特定される特徴パラメータ（以下「特定パラメータ」という）との中間値を新たな特徴パラメータとしてもよい。また、例えば、区切り位置変更部２１５が変更した区切り位置に従って特定される特定パラメータを記憶部２２０の予め定められた記憶領域に蓄積していく構成とし、学習部２１７が、蓄積された複数の特定パラメータと音響モデルＭ１記憶領域２２１に記憶された特徴パラメータとの平均値を新たな特徴パラメータの値としてもよい。また、他の例として、例えば、特定パラメータとの差分が予め定められた閾値以下となるように、音響モデルＭ１記憶領域２２１に記憶された特徴パラメータの値を変更してもよい。また、特徴パラメータの更新の態様は上述したものに限らず、他の手法を用いて特定パラメータをフィードバックさせるものであってもよい。要は、学習部２１７は、音声認識部２１４により特定される音素の区切り位置が、区切り位置変更部２１５により変更された区切り位置に近づくように、音響モデルＭ１の特徴パラメータの値を変更するものであればどのようなものであってもよい。

また、ひとつの音素又はひとつの音素連鎖について、ピッチ毎、ゲイン毎、波長毎等、属性毎に複数の音声素片データが音声素片データベース２１に記憶されている場合には、学習部２１７は、ひとつの音素（音素連鎖）に対応する一の属性の音声素片データの切り出し処理についての学習結果を、その音素（音素連鎖）に対応する他の属性の音声素片データの切り出し処理に反映させるようにしてもよい。例えば、学習部２１７は、同じ音素（音素連鎖）でピッチに関して高音用／中音用／低音用の音声素片データを切り出す場合に、１度目（例えば高音）の学習結果を用いるようにしてもよい。このようにすることで、残り（中音・低音）について効率・精度高く音素切出処理を行うことができる。

出力部２１６は、区切り位置変更部２１５によって変更された音素毎の区切り位置に従って、音声波形を音素又は音素連鎖毎に切り出し、切り出した音声素片データを出力する。この実施形態では、出力部２１６は、音素又は音素連鎖毎の音声素片データを、音声合成装置１００の音声素片データベース２１に登録する。

２．動作
次に、本実施形態に係る音声合成システム１の動作を説明する。
２−１．音声素片データベースの生成動作
まず、音声素片切出装置２００の波形取得部２１１が音声波形を取得する。次いで、前処理部２１２が取得された音声波形に対して各種の前処理を行う。特徴パラメータ抽出部２１３は、前処理が施された音声波形を解析し、音声の特徴量を表す特徴パラメータを特定する。特徴パラメータ抽出部２１３によって特徴パラメータが特定されると、音声認識部２１４は、特定された特徴パラメータに基づいて、音響モデルＭ１や言語モデルＭ２を参照して音声認識処理を行い、音声波形に対応する音素の列と各音素の区切り位置とを特定する。

音声認識部２１４によって音素の列と各音素の区切り位置とが特定されると、区切り位置変更部２１５は、図８に示されるような画面を表示部２４０に表示し、利用者に音素の区切り位置の調整を行わせる。利用者によって区切り位置の調整が行われると、区切り位置変更部２１５は、音声認識部２１４によって特定された音素の列と、操作部２３０から出力される情報に従って変更した区切り位置を示す情報を出力部２１６と学習部２１７に出力する。学習部２１７は、変更された区切り位置に対応する音声素片についての特徴パラメータを特定し、特定した特徴パラメータを音声認識部２１４にフィードバックして、音響モデルＭ１の特徴パラメータを更新する。

出力部２１６は、区切り位置変更部２１５によって変更された区切り位置で音声波形を区切って音声素片データを生成し、生成した各音素（又は音素連鎖）の音声素片データを出力する。この実施形態では、出力部２１６は、各音素（又は音素連鎖）の音声素片データを音声合成装置１００に送信することによって出力する。音声合成装置１００の制御部１０は、各音素（又は音素連鎖）の音声素片データを受信すると、受信した音声素片データを音声素片データベース２１に登録する。このように音声素片切出装置２００によって切り出された音声素片が音声素片データベース２１に登録されることにより、音声素片データベース２１が生成される。

この実施形態では、上述したように、学習部２１７によって、利用者によって変更された区切り位置に基づいた特徴パラメータが音声認識部２１４の音響モデルＭ１にフィードバックされる。これにより、それ以降の音声素片切出処理においては、修正された特徴パラメータを用いて音声認識処理が行われる。修正された特徴パラメータは利用者による変更をフィードバックしてものであるから、音声認識処理により特定される音素や音素連鎖の切り出し位置は、利用者の意向が反映されたものとなる。更に、音声素片切出処理が行われる毎にその都度学習部２１７によりフィードバック処理が行われることにより、音声素片切り出し処理が繰り返し行われるほど、音声認識処理により特定される音素や音素連鎖の切り出し位置（区切り位置）は、利用者の所望する位置に近づくことになる。このように本実施形態によれば、利用者によって変更された区切り位置に基づいて音響モデルＭ１の特徴パラメータを修正するから、装置が特定する音素や音素連鎖の切り出し位置を、利用者の所望する切り出し位置に近づけることができる。

２−２．音声合成動作
次いで、音声合成装置１００が行う音声合成動作について説明する。音声処理部１３の素片取得部１３１は、データ取得部１２から供給される歌詞データに対応した音声素片データを音声素片データベース２１から順次に読み出して音声合成部１３２に出力する。ここでは、歌詞データによって文字「さ（ｓａ）」が指定された場合を想定する。この場合、素片取得部１３１は、音声素片［＃_ｓ］、［ｓ_ａ］および［ａ_＃］の各々に対応する音声素片データを音声素片データベース２１から読み出してこの順番にて音声合成部１３２に出力する。

次に、音声合成部１３２は、以下の手順によって複数の音声素片を相互に連結して合成音声データを生成する。すなわち、音声合成部１３２は、まず、データ取得部１２から供給された音声素片データを構成する各単位データＤに所定の処理を施すことによって合成音声データを生成する。ここで実行される処理は、各単位データＤが示す音声のピッチを、音符データによって指定されるピッチに調整するための処理を含む。このようにピッチを調整するための方法としては公知である各種の方法が採用される。例えば、各単位データＤが示す周波数スペクトルを、音符データが示すピッチに応じた分だけ周波数軸上において移動させることによってピッチを調整することができる。また、音声合成部１３２が、合成音声データによって示される音声に対して各種の効果を付与するための処理を実行する構成としてもよい。例えば、音符長が長い場合には、音声合成部１３２が、音声合成データが示す音声に対して微小な揺らぎやビブラートを付加してもよい。また、音声合成部１３２が、音声合成データに対して音量の変化の効果を与えてもよい。以上の手順によって生成された合成音声データは出力部１４に出力される。出力部１４は、この合成音声データを時間領域の信号である出力音声信号に変換したうえで出力する。そして、この出力音声信号に応じた合成音声がスピーカ６２から出力される。

このとき、音声素片データベース２１に登録された音声素片データは、音声合成装置１００の仕様や特徴に応じて利用者が区切り位置を調整して作成されたデータであるから、音声合成装置１００によって生成される合成音声は、利用者の意向が反映された合成音声となる。

３．変形例
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。

３−１．変形例（１）
音声素片データの態様は上記実施形態に示したものに限られない。例えば、各音声素片のフレームＦごとのスペクトル包絡（スペクトルエンベロープ）を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をＳＭＳ（Spectral Modeling Synthesis）技術によって調和成分（Deterministic Component）と非調和成分（Stochastic Component）とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部１３２による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部１３２の後段の加算部によって加算されることになる。また、各音声素片をフレームＦに区分したうえで各フレームＦのスペクトル包絡に関する複数の特徴量（例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど）を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。

３−２．変形例（２）
上記実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ（例えばテキストファイル）に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部１３１が音声素片データを音声素片データベース２１から読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。

また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号（文字）とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。また、音符に代えて、ピッチカーブのような音の並びを表すデータが与えられる構成とし、そのピッチカーブに応じた音声を合成する処理であってもよい。

３−３．変形例（３）
上述の実施形態において、区切り位置の学習を行うか否かを利用者が選択できるようにしてもよい。この場合は、例えば、学習を行うか否かを選択するためのフラグを記憶部２２０の予め定められた記憶領域に記憶しておく構成とし、利用者が操作部２３０を用いて学習を行うか否かを選択し、選択結果に応じてフラグの値を変更するようにしてもよい。この場合は、学習部２１７は、フラグの値を参照して学習処理を行うか否かを判定し、学習処理を行うと判定された場合に、変更された区切り位置に対応する特徴パラメータを用いて音響モデルＭ１を更新するようにすればよい。

また、上述の実施形態では、音声認識部２１４が音響モデルＭ１と言語モデルＭ２とを参照して音声認識を行い、学習部２１７は、変更された区切り位置に従って音響モデルＭ１の特徴パラメータを更新したが、学習部２１７が更新するものは音響モデルのパラメータに限らない。例えば、学習部２１７は、変更された区切り位置に対応する音声波形の音声の特徴に従って、言語モデルＭ２に含まれる各種のデータを更新する構成であってもよい。また、他の例として、例えば、学習部２１７が、変更された区切り位置に従って、音声認識部２１４が行う音声認識処理のアルゴリズムそのものを変更するようにしてもよい。学習部２１７行う変更の手法は様々であり、公知の学習アルゴリズムを用いて音声認識部２１４に学習を行わせてもよい。要は、学習部２１７が、利用者によって変更された区切り位置に従って、音声認識部２１４により特定される音素の区切り位置が利用者によって変更された区切り位置に近づくように、音声認識部２１４における区切り位置の特定態様を変更するものであればどのようなものであってもよい。

３−４．変形例（４）
上述の実施形態において、学習部２１７が、音響モデルＭ１のパラメータの変更態様を、音素種別（例えば、母音、子音、等）毎に異ならせてもよい。すなわち、学習部２１７は、音声認識部２１４により特定された音素の種別に対応する変更態様で、音声認識部２１４により特定された音素に対応するパラメータの値を変更してもよい。具体的には、例えば、学習部２１７が、音声認識部２１４により特定された音素が母音である場合には、特定パラメータと音響モデルＭ１のパラメータとの中央値を新たなパラメータ値とする一方、音声認識部２１４により特定された音素が子音である場合には、特定パラメータとの差分が予め定められた閾値以下となるように音響モデルＭ１記憶されているパラメータの値を修正するようにしてもよい。このように音素の種別毎に学習態様を異ならせることで、各音素の種別に適した学習処理を行うことができる。

また、上述の実施形態において、学習部２１７が、音響モデルＭ１のパラメータ値の変更態様を、音素毎に異ならせてもよい。すなわち、学習部２１７が、音声認識部２１４により特定された音素に対応する変更態様で、音声認識部２１４により特定された音素に対応するパラメータの値を変更してもよい。このように音素毎に学習態様を異ならせることで、各音素に適した学習処理を行うことができる。

また、上述の実施形態において、音素を複数の種別（例えば、母音、子音、等）に予め分類しておく構成とし、例えば、「ａ」という音素について区切り位置が変更された場合に、学習部２１７が、音素「ａ」に対応するパラメータだけでなく、種別が「母音」である全ての音素（例えば、「ｉ」、「ｕ」等）のパラメータを更新するようにしてもよい。すなわち、学習部２１７は、音声認識部２１４により特定された音素の種別を特定し、特定した種別の音素それぞれについて、各音素に対応するパラメータの値を同様の変更態様で変更してもよい。このようにすることにより、例えば「ａ」という音素について区切り位置の変更がなされると、その変更が母音の音素全てにフィードバックされる。これにより、利用者の意向を音声認識部２１４の認識処理に反映し易くすることができる。

また、ダイフォンやトライフォンのような音素連鎖を音声素片として切り出す場合、学習部２１７が、その位置（ダイフォンなら１番目と２番目、トライフォンなら１番目と２番目と３番目）で異なった学習をしてもよい。具体例として、「いた（ｉｔａ）」という合成音声を生成する際に用いられる［ｉ_ｔ］という音声素片と［ｔ_ａ］という音声素片の切り出しを行う場合において、［ｉ_ｔ］のｔ部分は実質無音とし、［ｔ_ａ］のｔ部分は音素ｔをあらわす波形となるように切り出しを行う場合について説明する。ダイフォンを切り出す場合に［ｉ_ｔ］のようにダイフォンの２番目の音素については、実質無音とするため、切り出しの終点Ｔａ０（図３の（ａ１）参照）が限りなく時点Ｔａ２に近づくような切り出し位置が学習される。一方、［ｔ_ａ］のようなダイフォンの１番目の音素については、切り出しの始点Ｔｂ０（図３の（ｂ１）参照）が限りなく時点Ｔｂ１に近づくような切り出し位置が学習される。このように、ダイフォンやトライフォンの中のｘ番目（ｘは自然数）によって切り出し位置の傾向が異なる場合があるため、それぞれで異なる学習を行うようにしてもよい。なお、トライフォンの場合の２番目の場合はその始点も終点もあまり変更されない（２番目の音素は始点や終点を変更する必要がないため）という学習がされてもよい。

また、上述の実施形態において、学習部２１７が、音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、音素の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更してもよい。このようにすることにより、音素の先頭部分と終わり部分とのそれぞれに適した学習処理を行うことができる。

また、上述の実施形態において、学習部２１７が、入力される音声波形の種別（例えば、言語種別、性別、大人／子供の種別、等）毎にパラメータ値の変更態様を異ならせてもよい。このように音声波形の種別毎に学習態様を異ならせることで、音声波形の種別に応じた学習処理を行うことができる。

３−５．変形例（５）
上述の実施形態において、学習部２１７に代えて、図１１に示すような、切り出し位置学習モデルＭ３を設ける構成としてもよい。図１１は、音声素片切出装置の機能的構成の一例を示すブロック図であり、上述した実施形態において図７に示したブロック図に対応するものである。図１１に示す構成が上述した図７に示す構成と異なる点は、学習部２１７に代えて切り出し位置モデルＭ３を備えている点である。切り出し位置学習モデルＭ３には、区切り位置変更部２１５によって変更された切り出し位置に基づく各種のデータ（パラメータ）が記憶される。区切り位置変更部２１５は、利用者によって変更された区切り位置に従って音声認識処理において参照される各種のデータを生成し、生成したデータを切り出し位置学習モデルＭ３に蓄積していく。認識演算部２１４１は、音響モデルＭ１、言語モデルＭ２、切り出し位置学習モデルＭ３を参照して、音声波形に含まれる音素の列と各音素の区切り位置とを特定する。この場合、図８や図９のような画面に、言語モデルＭ１による（通常の）区切り位置と言語モデルＭ３による学習された区切り位置との両方を同時にユーザに提示し、ユーザがどのような学習を行ったかを確認・把握することができる。

３−６．変形例（６）
音声素片切出装置２００のハードウェア構成は、図５で説明したものに限定されない。図７に示される機能を実装できるものであれば、音声素片切出装置２００はどのようなハードウェア構成であってもよい。例えば、音声素片切出装置２００は、図７に示される機能要素の各々に対応する専用のハードウェア（回路）を有していてもよい。また、例えば、図７に示す認識演算部２１４１が、ＤＳＰなどの音声処理に専用されるハードウェアによって実現されてもよい。

また、上述の実施形態において、複数の装置が、上記実施形態の音声素片切出装置２００に係る機能を分担するようにしてもよい。例えば、図７の波形取得部２１１、前処理部２１２、特徴パラメータ抽出部２１３の機能を実現する第１の装置と、認識演算部２１４１、区切り位置変更部２１５、出力部２１６、学習部２１７の機能を実現する第２の装置とが別体となって構成されていてもよい。また、通信ネットワークで接続された２以上の装置が、上記実施形態の音声素片切出装置２００に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声素片切出装置２００を実現するようにしてもよい。

また、上述の実施形態では、音声合成装置１００と音声素片切出装置２００とが別体として構成されていたが、音声合成装置１００の機能と音声素片切出装置２００の機能との両方の機能を実現する一体の装置として構成されていてもよい。

また、上述の実施形態では、音声合成装置１００が音声素片データベース２１を記憶する構成について説明したが、これに限らず、例えば、図１０に示すように、音声素片データベース４００が音声合成装置１００と別体として構成されていてもよい。図１０に示す例では、音声合成装置１００、音声素片切出装置２００、音声素片データベース４００が、ネットワーク５００により接続されている。また、他の例として、例えば、音声素片切出装置２００が音声素片データベースを有する構成であってもよい。

３−７．変形例（７）
上述の実施形態では、特徴パラメータ抽出部２１３が抽出する音声の特徴量としてＭＦＣＣ係数を用いたが、抽出される音声の特徴量はこれに限らない。音声の特徴は、音声認識処理を行う際に用いられることによって音素や各音素の区切り位置を特定し得るものであればどのようなものであってもよい。

３−８．変形例（８）
また、上述の実施形態では、出力部２１６は、音声認識部２１４によって特定された音素列と音声波形から切り出した音声素片とを出力したが、出力部２１６が出力する情報はこれに限らない。例えば、出力部２１６は、音声素片を出力せずに、利用者によって修正された区切り位置を示す情報を出力してもよい。出力部２１６は、音声認識部２１４によって特定された音素に対応する音声素片（音声波形）を切り出すための情報を出力するものであればどのようなものであってもよい。

３−９．変形例（９）
上述の実施形態では、音響モデルＭ１と言語モデルＭ２とを音声素片切出装置２００の内部に設けられた記憶部２２０に記憶しておく構成としたが、音響モデルや言語モデルは音声素片切出装置の外部の装置に記憶される構成であってもよい。例えば、通信ネットワークを介して接続されたサーバ装置に音響モデルや言語モデルを記憶しておく構成とし、音声素片装置がサーバ装置に問い合わせることによって音声認識処理を行うようにしてもよい。
また、上述の実施形態では、図２に示す各部がバス７０によって接続されている構成について説明したが、バス７０に代えて通信ネットワークで各部が接続される構成であってもよい。

３−１０．変形例（１０）
本発明は、音声素片切出装置以外にも、これらを実現するための方法や、コンピュータに音声素片切出機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。

１…音声合成システム、１０，２１０…制御部、１２…データ取得部、１３…音声処理部、１４…出力部、２０，２２０…記憶部、２１…音声素片データベース、３０，２３０…操作部、４０，２４０…表示部、６０，２６０…音声処理部、６１，２６１…マイクロホン、６２，２６２…スピーカ、７０，２７０…バス、１００…音声合成装置、１３１…素片取得部、１３２…音声合成部、２００…音声素片切出装置、２１１…波形取得部、２１２…前処理部、２１３…特徴パラメータ抽出部、２１４…音声認識部、２１５…区切り位置変更部、２１６…出力部、２１７…学習部、Ｍ１…音響モデル、Ｍ２…言語モデル

Claims

音声波形を解析し、解析結果に応じて該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定する音声認識部と、
前記音声認識部によって特定された音素毎の区切り位置を、利用者によって操作される操作部から出力される情報に従って変更する区切り位置変更部と、
前記区切り位置変更部によって変更された区切り位置に従って、前記音声認識部により特定される音素の区切り位置が前記区切り位置変更部により変更された区切り位置に近づくように、前記音声認識部における前記区切り位置の特定態様を変更する学習部と、
前記音声認識部によって特定された音素又は音素連鎖と該特定された音素又は音素連鎖に対応する音声波形を切り出すための情報を出力する出力部と
を具備し、
前記音声認識部は、音声の特徴量を表すパラメータを音素毎に記憶するパラメータ記憶部に記憶されたパラメータを用いて、該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定し、
前記学習部は、前記区切り位置変更部により変更された区切り位置に対応する音声波形の音声の特徴量を特定し、前記記憶されたパラメータの値を、前記特定された特徴量を表すパラメータの値との差分が予め定められた閾値となる値、前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値との中間値、又は、複数の前記特定された特徴量を表すパラメータの値と当該記憶されたパラメータの値の平均値に変更し、
前記学習部は、前記音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、前記音素又は音素連鎖の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更する
ことを特徴とする音声素片切出装置。
前記学習部は、前記音声認識部により特定された音素の種別に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更する
ことを特徴とする請求項１に記載の音声素片切出装置。
前記学習部は、前記音声認識部により特定された音素の種別を特定し、特定した種別の音素のそれぞれについて、各音素に対応する前記パラメータの値を変更する
ことを特徴とする請求項１又は２に記載の音声素片切出装置。