JP6191094B2 - 音声素片切出装置 - Google Patents

音声素片切出装置 Download PDF

Info

Publication number
JP6191094B2
JP6191094B2 JP2012109824A JP2012109824A JP6191094B2 JP 6191094 B2 JP6191094 B2 JP 6191094B2 JP 2012109824 A JP2012109824 A JP 2012109824A JP 2012109824 A JP2012109824 A JP 2012109824A JP 6191094 B2 JP6191094 B2 JP 6191094B2
Authority
JP
Japan
Prior art keywords
speech
unit
phoneme
data
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012109824A
Other languages
English (en)
Other versions
JP2013238664A (ja
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012109824A priority Critical patent/JP6191094B2/ja
Publication of JP2013238664A publication Critical patent/JP2013238664A/ja
Application granted granted Critical
Publication of JP6191094B2 publication Critical patent/JP6191094B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声素片切出装置に関する。
人間の肉声を模した音声を合成するための種々の技術が提案されている。例えば、特許文献1には、人間の肉声(以下「入力音声」という)を音素ごとに切り出して音声素片を採取しておき、これらの音声素片を相互に連結することによって任意の音声を合成する技術が開示されている。また、入力音声から音声素片を切り出す技術として、例えば、特許文献2には、音声音響信号に対して自動的に音素セグメンテーションを行いセグメント境界の候補を算出し、セグメンテーション候補を画面に表示して作業者がそれらを選択または修正したり、聴取や読図による確認を行いながらセグメンテーション作業を行ったりする技術が提案されている。
特開2003−255974号公報 特開2000−47683号公報
ところで、入力音声から音声素片を切り出す作業においては、入力音声の波形の形状や、波形の再生音を参考にして音声素片を切り出す必要があるため、作業者が音声波形についての知識をある程度有している必要がある。音声波形についての知識が不十分である作業者が作業を行うと、音声素片の切り出しを効率的に行うことができない場合がある。特許文献2に記載されているような自動切出装置では、言語学的な音素毎の区切り位置をある程度自動的に行うことができるものの、音声素片の種々の用途においては、言語学的な音素の切り出し位置と一致しない切り出し位置が求められる場合がある。従来の装置では、このような音声素片の種々の用途に応じた音素の切り出しを自動的に行うことはできなかった。そのため、作業者が区切り位置を逐一手作業で修正する必要があり、この作業は煩雑である場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声素片を作業者の所望する態様で切り出す際の作業負荷を軽減することのできる技術を提供することを目的とする。
上述した課題を解決するために、本発明は、音声波形を解析し、解析結果に応じて該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定する音声認識部と、前記音声認識部によって特定された音素毎の区切り位置を、利用者によって操作される操作部から出力される情報に従って変更する区切り位置変更部と、前記区切り位置変更部によって変更された区切り位置に従って、前記音声認識部により特定される音素の区切り位置が前記区切り位置変更部により変更された区切り位置に近づくように、前記音声認識部における前記区切り位置の特定態様を変更する学習部と、前記音声認識部によって特定された音素又は音素連鎖と該特定された音素又は音素連鎖に対応する音声波形を切り出すための情報を出力する出力部とを具備し、前記音声認識部は、音声の特徴量を表すパラメータを音素毎に記憶するパラメータ記憶部に記憶されたパラメータを用いて、該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定し、前記学習部は、前記区切り位置変更部により変更された区切り位置に対応する音声波形の音声の特徴量を特定し、前記記憶されたパラメータの値を、前記特定された特徴量を表すパラメータの値との差分が予め定められた閾値となる値、前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値との中間値、又は、複数の前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値の平均値に変更し、前記学習部は、前記音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、前記音素又は音素連鎖の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更することを特徴とする音声素片切出装置を提供する。
また、本発明の更に好ましい態様において、前記学習部は、前記音声認識部により特定された音素の種別に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更してもよい。
また、本発明の更に好ましい態様において、前記学習部は、前記音声認識部により特定された音素の種別を特定し、特定した種別の音素のそれぞれについて、各音素に対応する前記パラメータの値を変更してもよい。
た、本発明の更に好ましい態様において、前記学習部は、音素連鎖中の音素の位置(n番目)に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更してもよい。
本発明によれば、音声素片を作業者の所望する態様で切り出す際の作業負荷を軽減することができる。
音声合成システムの構成の一例を示すブロック図 音声合成装置のハードウェア構成の一例を表すブロック図 音声素片の一例を示す図 音声素片データベースの内容の一例を示す図 音声素片切出装置のハードウェア構成の一例を示すブロック図 音声合成装置の機能的構成の一例を示すブロック図 音声素片切出装置の機能的構成の一例を示すブロック図 表示部に表示される画面の一例を示す図 表示部に表示される画面の一例を示す図 音声合成システムの構成の一例を示すブロック図 音声素片切出装置の機能的構成の一例を示すブロック図
図面を参照しながら本発明の実施の形態を説明する。以下に示す各実施形態は、楽曲の歌唱音声を合成するために本発明を適用した態様である。
1.構成
図1は、本発明の第1の実施形態に係る音声合成システム1の構成の一例を示すブロック図である。音声合成システム1は、文字列及び音符列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する音声合成装置100と、音声合成装置100が音声合成処理を行う際に用いる音声素片データベースを生成する音声素片切出装置200とを備えている。音声合成装置100と音声素片切出装置200とは、有線LAN(Local Area Network)等により有線接続されていてもよく、また、無線LAN等の無線通信により無線接続されていてもよい。
図2は、音声合成装置100のハードウェア構成の一例を示すブロック図である。音声合成装置100は、制御部10、記憶部20、操作部30、表示部40、音声処理部60、マイクロホン61、及びスピーカ62を有し、これら各部がバス70を介して接続されている。制御部10は、CPU(Central Processing Unit)等のプロセッサーや、RAM(Random Access Memory)、及びROM(Read Only Memory)等を有している。制御部10において、CPU等のプロセッサーが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、音声合成装置100の各部を制御する。操作部30は、各種の操作子を備え、利用者による操作内容を表す操作信号を制御部10に出力する。表示部40は、例えば液晶パネルを備え、制御部10による制御の下、各種の画像を表示する。
マイクロホン61は、収音した音声を表すアナログの音声信号を音声処理部60に出力する。音声処理部60は、A/D(Analog / Digital)コンバータを有し、マイクロホン61が出力したアナログの音声信号をデジタルの音声データに変換して制御部10に出力し、制御部10はこれを取得する。また、音声処理部60は、D/A(Digital / Analog)コンバータを有し、制御部10から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ62に出力する。スピーカ62は、音声処理部60から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン61とスピーカ62とが音声合成装置100に含まれている場合について説明するが、音声処理部60に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン61から出力されるオーディオ信号及びスピーカ62へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部60にてA/D変換やD/A変換を行う必要はない。操作部30や表示部40についても同様であり、外部出力端子を設け、外部モニタやキーボード等を接続する構成としてもよい。
記憶部20は、各種のデータを記憶するための記憶部である。記憶部20としては、磁気ディスクを内蔵したハードディスク装置や、CD−ROMに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部20は、図示のように、音声素片データベース21を有している。音声素片データベース21は、単数又は複数の音素(phoneme)で構成される音声素片を表すデータ(以下「音声素片データ」という)を記憶するデータベースである。本実施形態において「音素」とは、言語上の意味の区別の最小単位(例えば母音や子音)に相当するものであり、ある言語の実際の調音と音韻体系全体を考慮して設定される、その言語の音韻論上の最小単位である。音声素片は、特定の発声者によって発声された入力音声のうち所望の音素や音素連鎖に相当する区間が切り出されたものである。本実施形態における音声素片データは、音声素片の周波数スペクトルを示すデータである。以下の説明では、「音声素片」の語は、単一の音素(例えばモノフォン)や、音素連鎖(例えばダイフォンやトライフォン)を含むものとして用いる。
具体的には、音声素片データベース21には、「a」、「i」といったような単一の音素の音声素片データや、「a_i」、「a_p」といったような音素連鎖の音声素片データが記憶されている。この実施形態では、音素を表す発音記号としてSAMPA(Speech Assessment Methods Phonetic Alphabet)で規定された発音記号を用いる。なお、音素を表す記号はこれに限らず、例えばX−SAMPA(Extended SAM Phonetic Alphabet,拡張SAM音声記号)やIPA(国際音声記号)等の他の規格に沿ったものであってもよい。
図3は、音声素片の一例を示す図である。図3の(a1)は、子音の音素[s]とこれに続く母音の音素[a]とを組み合わせた音素連鎖[s_a]の波形を示す。区間の端部は、音声素片切出装置200が後述する音素切出処理を行うことによって選定される。音声素片切出装置200が行う音素特定処理については、後述するためここではその詳細な説明を省略する。図3の(a1)に示す波形は、時点Ta1が音素[s]の始点として指定されるとともに時点Ta3が音素[a]の終点として指定され、さらに時点Ta2が音素[s]と音素[a]との境界として指定された場合が想定されている。図3の(a1)に示されるように、音素[a]の波形は、その発声のために口を開いていく発声者の動作に対応するように時点Ta2から徐々に振幅が増大していき、発声者が口を開き切った時点Ta0を越えると振幅が略一定に維持される形状となる。音素[a]の終点Ta3としては、音素[a]の波形が定常的な状態に遷移した後の時点(すなわち図3の(a1)に示される時点Ta0以降の時点)が選定される。
一方、図3の(b1)は、母音の音素[a]を含む音声素片[a_#]の波形を示す。「#」は無音を表す記号である。この音声素片[a_#]に含まれる音素[a]の波形は、発声者が口を開き切った状態にて発声してから徐々に口を閉じていって最後には完全に口が閉じられるという発声の動作に対応した形状となる。すなわち、音素[a]の波形は、初めに振幅が略一定に維持され、発声者が口を閉じる動作を開始する時点(定常点)Tb0から振幅が徐々に減少していく。このような音声素片の始点Tb1は、音素[a]の波形が定常的な状態に維持されている期間内の時点(すなわち定常点Tb0よりも前の時点)として選定される。
以上のようにして時間軸上における範囲が画定された音声素片は所定の時間長(例えば5msないし10ms)のフレームFに区分される。図3の(a1)に示されるように、各フレームFは時間軸上において相互に重なり合うように選定される。これらのフレームFは簡易的には同一の時間長の区間とされるが、例えば音声素片のピッチに応じて各フレームFの時間長を変化させてもよい。こうして区分された各フレームFの波形にFFT(Fast Fourier Transform)処理を含む周波数分析が実施されることによって周波数スペクトルが特定され、これらの周波数スペクトルを示すデータが音声素片データとして記憶部20に記憶される。したがって、図3の(a2)および(b2)に示されるように、各音声素片の音声素片データは、各々が別個のフレームFの周波数スペクトルを示す複数の単位データD(D1、D2、……)を含む。
図4は、音声素片データベース21の内容の一例を示す図である。図示のように、このデータベースには、音声素片データが音素又は音素連鎖毎に記憶されている。なお、ひとつの音素又はひとつの音素連鎖について、ピッチ毎、ゲイン毎、波長毎に複数の音声素片データが記憶されていてもよい。例えば、ピッチに関して、ひとつの音素(又はひとつの音素連鎖)について高音用の音声素片データ、中音用の音声素片データ、低音用の音声素片データ、の3つの音声素片データが記憶されていてもよい。
図5は、音声素片切出装置200のハードウェア構成の一例を示すブロック図である。音声素片切出装置200は、制御部210、記憶部220、操作部230、表示部240、音声処理部260、マイクロホン261、及びスピーカ262を有し、これら各部がバス270を介して接続されている。制御部210は、CPU等のプロセッサーや、RAM、及びROM等を有している。制御部210において、CPU等のプロセッサーが、ROMや記憶部220に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、音声素片切出装置200の各部を制御する。操作部230は、各種の操作子を備え、利用者による操作内容を表す操作信号を制御部210に出力する。表示部240は、例えば液晶パネルを備え、制御部210による制御の下、各種の画像を表示する。マイクロホン261、音声処理部260、スピーカ262の構成はそれぞれ、上述した音声合成装置100のマイクロホン61、音声処理部60、スピーカ62のそれと同様であり、ここではその詳細な説明を省略する。
記憶部220は、各種のデータを記憶するための記憶部である。記憶部220としては、磁気ディスクを内蔵したハードディスク装置や、CD−ROMに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部220は、図示のように、音響モデルM1記憶領域221と、言語モデルM2記憶領域222とを有している。
音響モデルM1記憶領域221には、制御部210が音声認識処理を行う際に参照される音響モデルM1が格納されている。音響モデルM1は音声の音響的な特徴を表したものであり、認識対象の音素がそれぞれどのような特徴を持っているかを表すデータの集合である。この実施形態では、音声の特徴量を表す複数の特徴パラメータ(データ)が音響モデルM1記憶領域221に記憶されている。音声の特徴量を表す特徴パラメータとしては、この実施形態では、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)係数を用いる。音響モデルM1記憶領域221は本発明に係るパラメータ記憶部の一例である。
言語モデルM2記憶領域222には、制御部210が音声認識処理を行う際に参照される言語モデルM2が格納されている。言語モデルM2は音声の言語的な特徴を表したものであり、音素の並び方に関する制約を表すデータの集合である。音響モデルと言語モデルについては従来の音声認識技術において用いられている音響モデルと言語モデルと同様のものを用いればよい。
次に、図6に示すブロック図を参照しながら、音声合成装置100の機能的構成の一例について説明する。図6において、データ取得部12と、音声処理部13と、出力部14は、制御部10のCPU等のプロセッサーが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。
データ取得部12は、楽曲の演奏に関するデータを取得する。具体的には、データ取得部12は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の文字列を指定するデータである。一方、音符データは、楽曲のうちメインメロディ(例えばボーカルパート)を構成する各楽音のピッチ(音高)と、その楽音の発音開始時刻とその継続されるべき時間長(以下「音符長」という)とを指定するデータである。なお、発音の開始時刻と発音終了時刻の指定によって音符長が指定されるものであってもよい。歌詞データおよび音符データは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したデータである。また、データ取得部12は、歌詞データと音符データに加えて、例えばビブラートなどの演奏表現とその演奏表現を付与する箇所を表す演奏表現データを取得してもよい。データ取得部12は、歌詞データや音符データを図示しない記憶装置から読み出すことによって歌詞データや音符データを取得してもよく、また、外部に設置されたMIDI機器から歌詞データや音符データを受信することによって歌詞データや音符データを取得してもよい。
音声処理部13は、素片取得部131と音声合成部132とを有する。データ取得部12によって取得された歌詞データは素片取得部131に供給され、同じくデータ取得部12によって取得された音符データは音声合成部132に供給される。素片取得部131は、音声素片データベース21から、複数の音声素片データのいずれかを歌詞データに基づいて順次に選択し、この選択した音声素片データを読み出して音声合成部132に出力する。より具体的には、素片取得部131は、歌詞データによって指定される文字に対応した音声素片データを記憶部20から読み出す。例えば、歌詞データによって「さいた(saita)」という文字列が指定された場合には、音声素片データベース21から、音声素片[#s]、[s_a]、[a_i]、[i_t]、[t_a]および[a#]の各々に対応する音声素片データが記憶部20から読み出される。
音声合成部132は、複数の音声素片を相互に連結する。音声合成部132は、素片取得部131によって順次に供給される各音声素片データ(単位データDの集合)を連結することによって音声を合成する。音声合成部132は、データ取得部12によって取得された音符データの示す音符長に応じて音声素片データの一部又は全部を用いて補間処理を行って音声を合成してもよい。また、データ取得部12によって演奏表現データを取得した場合には、音声合成部132は、演奏表現データの示す演奏表現が付与されるように音声素片データを加工して音声を合成してもよい。
出力部14は、音声合成部132から出力された音声合成データを構成するフレームFごとの単位データDに逆FFT処理を施して時間領域の信号を生成する。さらに、出力部14は、こうして生成されたフレームFごとの信号に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号を生成する。出力部14は、生成した出力音声信号を音声処理部60に出力する。音声処理部60は、供給される出力音声信号をD/A変換し、変換したアナログオーディオ信号をスピーカ62に出力する。スピーカ62は、供給されるアナログオーディオ信号に応じて放音する。
次いで、図7に示すブロック図を参照しながら、音声素片切出装置200の機能的構成の一例について説明する。図7において、波形取得部211、前処理部212は音声処理部260により実現されるものであり、特徴パラメータ抽出部213、認識演算部2141、区切り位置変更部215、出力部216、学習部217は、制御部210のプロセッサーが、ROMや記憶部220に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。波形取得部211は、入力音声を表す波形(以下「音声波形」という)を取得する。波形取得部211は、音声波形を図示しない記憶装置から読み出すことによって音声波形を取得してもよく、また、外部に設置された機器から音声波形を受信することによって音声波形を取得してもよい。また、波形取得部211は、マイクロホン61によって入力される音声波形を取得してもよい。前処理部212は、音声波形に対してA/D変換処理を施し、正規化処理やノイズ除去処理等の前処理を行う。
特徴パラメータ抽出部213は、前処理部212によって前処理が施された音声波形を解析し、音声波形の表す音声の特徴量を特定する。この実施形態では、特徴パラメータ抽出部213は、前処理部212から出力される音声信号からMFCC係数を特定する。
音声認識部214は、認識演算部2141と、音響モデルM1と、言語モデルM2とで構成される。認識演算部2141は、記憶部220に記憶された音響モデルM1及び言語モデルM2を参照して、特徴パラメータ抽出部213によって抽出された特徴量に基づいて音声認識処理を行い、音声波形に対応する音素列と各音素の区切り位置とを特定する。特徴パラメータ抽出部213と認識演算部2141は本発明に係る音声認識部の一例である。ここにおいて、認識演算部2141は、例えば隠れマルコフモデルに基づく手法等周知の音声認識技術を用いて、音声認識処理を行う。なお、認識演算部2141が行う音声認識処理は上述したものに限らず、他の手法を用いたものであってもよい。
具体的には、例えば、音素[s]と音素[a]とを表す音声波形が取得された場合は、認識演算部2141は、音素[s]と音素[a]とを特定するとともに、音素[s]の始点(図3の時点Ta1参照)や、音素[s]と音素[a]の境界(図3の時点Ta2参照)、音素[a]の終点(図3の終点Ta3参照)を特定する。認識演算部2141が行う音素の特定処理及び各音素の区切り位置の特定処理については、従来と同様である(例えば、特公平6−337692号公報、特公平7−13587号公報、等参照)ため、ここではその詳細な説明を省略する。認識演算部2141は、特定した音素列と各音素の区切り位置とを示す情報を区切り位置変更部215に出力する。
区切り位置変更部215は、音声認識部214によって特定された音素毎の区切り位置を、利用者によって操作される操作部230から出力される情報に従って変更する。より詳細には、まず、区切り位置変更部215は、音声認識部214によって特定された音素毎の区切り位置を表示部240に表示して利用者に区切り位置の修正を促す。利用者は、操作部230を用いて区切り位置を変更する操作を行う。区切り位置変更部215は、操作部230から出力される情報に従って音素毎の区切り位置を変更する。
図8は、表示部240に表示される画面の一例を示す図である。この実施形態では、区切り位置変更部215は、音声波形を表す画像データや、音素の列(発音記号の列)を示すデータ、音素毎の区切り位置を示すデータを表示部240に出力することによって、音声波形を表示させるとともに、音素の列(発音記号の列)を表す文字画像や、音声波形の区切り位置を表す画像を表示部240に表示させる。図8に示す例では、表示部240には、音声波形A10が表示されるとともに、音素の列を表す文字画像A20や、音素毎の区切り位置を表す区切り線A33、A34、…が表示される。図8に表示される画面において、利用者は、操作部230を用いて、音素の区切り位置A33、A34、…を調整することができる。区切り位置変更部215は、操作部230から出力される情報に従って、各音素の区切り位置を変更する。
図9は、利用者によって音素の区切り位置が修正された状態の一例を示す図である。図9に示す例では、「#」と「a」の音素に対応する音声波形(音声素片)の区切り位置を変更した場合の一例を図示している。図示のように、図8に示した区切り線A33、A34、…の位置がそれぞれ変更され、区切り線A133、A134、…となっている。このように、音声認識を行う装置においては、装置によって特定される区切り位置A33、A34、…と、利用者が所望する区切り位置A133、A134、…とが異なる場合がある。これは以下のような理由によるものである。まず、音素「a」の終点は、音声認識部214によって、次に続く音素との境界である区切り位置A35(図8参照)と特定されている。しかしながら、音声素片データベースに蓄積されるべき音声素片データは、音声波形の振幅が十分安定したところまであれば十分であり、それ以降は不要である場合がある。これは、区切り線A135の時刻において音声波形は十分安定しているため、この安定している箇所の波形を用いて補間処理等を施すことによって音声合成が可能であるためである。このように切り出し幅を小さくすることで音声素片のデータ量を小さくすることがでる。すなわち、音素「a」の音声素片は区切り線A135までの音声波形があれば足り、区切り線A135から区切り線A35までの間の音声波形は不要である。以上の理由により、利用者は、操作部230を用いて「a」の音素の終点を区切り線A135の位置に移動させる。
一方、音素「a」の始点は、音声認識部214によって、無音部分との境界である区切り線A34(図8参照)の位置が特定されている。しかしながら、音声合成装置100の仕様によっては、始点をもう少し前にずらして無音部分の音声波形を音素「a」の音声波形に含めたほうが、音声合成装置100において自然な合成音声が生成される場合がある。利用者は、このような音声合成装置100の仕様や音声合成処理の特徴等に応じて、「a」の音素の始点を調整する。
また、音声素片データの区切り位置の調整が必要な他の具体例を説明する。例えば、複数の音声素片を連結する際に両者の音声波形をクロスフェードさせる仕様の音声合成装置の場合、子音の音素の切り出し位置を調整しないと発音がぼやけてしまう場合がある。具体的には、例えば、「いた(ita)」という合成音声を生成する場合、「i_t」の音声素片と「t_a」の音声素片とをクロスフェードさせて合成音声を生成すると、「i_t」の「t」の部分がフェードアウトするとともに「t_a」の「t」の部分がフェードインすることとなり、「t」の部分の発音がぼやけてしまう。そのため、このような音声合成装置100で用いられる音声素片データベースを生成する際には、クロスフェードさせても「t」の発音がぼやけてしまわないように区切り位置の調整を行うことが好ましい。例えば、[i_t]のt部分は実質無音とし、[t_a]のt部分は音素tをあらわす波形となるようにするなどが考えられる。つまり、同じ音素であっても、音声素片中の該当音素の位置によって、適切な区切り位置が異なる場合がある。以上のように、利用者は、自身が把握している音声合成装置の合成処理の仕様や特徴、また、自身の嗜好等に応じて、各音素の始点と終点を操作部230を用いて所望の位置に変更する。
利用者によって各音素の区切り位置が変更されると、区切り位置変更部215は、認識演算部2141によって特定された音素列と各音素の区切り位置と示す情報を、出力部216と学習部217に出力する。
学習部217は、区切り位置変更部215によって変更された区切り位置を音声認識部214にフィードバックする機能を備える。すなわち、学習部217は、区切り位置変更部215によって変更された区切り位置に従って、音声認識部214により特定される音素の区切り位置が、利用者によって変更された区切り位置に近づくように、音声認識部214における区切り位置の特定態様を変更する。より詳細には、この実施形態では、学習部217は、利用者によって変更された区切り位置によって切り出された場合の音声波形(音声素片)の音声の特徴量を特定し、特定した特徴量に従って、音響モデルM1記憶領域221に記憶された特徴パラメータを更新する。
パラメータの更新の態様としては、例えば、学習部217は、音響モデルM1記憶領域221に記憶された特徴パラメータと、区切り位置変更部215が変更した区切り位置に従って特定される特徴パラメータ(以下「特定パラメータ」という)との中間値を新たな特徴パラメータとしてもよい。また、例えば、区切り位置変更部215が変更した区切り位置に従って特定される特定パラメータを記憶部220の予め定められた記憶領域に蓄積していく構成とし、学習部217が、蓄積された複数の特定パラメータと音響モデルM1記憶領域221に記憶された特徴パラメータとの平均値を新たな特徴パラメータの値としてもよい。また、他の例として、例えば、特定パラメータとの差分が予め定められた閾値以下となるように、音響モデルM1記憶領域221に記憶された特徴パラメータの値を変更してもよい。また、特徴パラメータの更新の態様は上述したものに限らず、他の手法を用いて特定パラメータをフィードバックさせるものであってもよい。要は、学習部217は、音声認識部214により特定される音素の区切り位置が、区切り位置変更部215により変更された区切り位置に近づくように、音響モデルM1の特徴パラメータの値を変更するものであればどのようなものであってもよい。
また、ひとつの音素又はひとつの音素連鎖について、ピッチ毎、ゲイン毎、波長毎等、属性毎に複数の音声素片データが音声素片データベース21に記憶されている場合には、学習部217は、ひとつの音素(音素連鎖)に対応する一の属性の音声素片データの切り出し処理についての学習結果を、その音素(音素連鎖)に対応する他の属性の音声素片データの切り出し処理に反映させるようにしてもよい。例えば、学習部217は、同じ音素(音素連鎖)でピッチに関して高音用/中音用/低音用の音声素片データを切り出す場合に、1度目(例えば高音)の学習結果を用いるようにしてもよい。このようにすることで、残り(中音・低音)について効率・精度高く音素切出処理を行うことができる。
出力部216は、区切り位置変更部215によって変更された音素毎の区切り位置に従って、音声波形を音素又は音素連鎖毎に切り出し、切り出した音声素片データを出力する。この実施形態では、出力部216は、音素又は音素連鎖毎の音声素片データを、音声合成装置100の音声素片データベース21に登録する。
2.動作
次に、本実施形態に係る音声合成システム1の動作を説明する。
2−1.音声素片データベースの生成動作
まず、音声素片切出装置200の波形取得部211が音声波形を取得する。次いで、前処理部212が取得された音声波形に対して各種の前処理を行う。特徴パラメータ抽出部213は、前処理が施された音声波形を解析し、音声の特徴量を表す特徴パラメータを特定する。特徴パラメータ抽出部213によって特徴パラメータが特定されると、音声認識部214は、特定された特徴パラメータに基づいて、音響モデルM1や言語モデルM2を参照して音声認識処理を行い、音声波形に対応する音素の列と各音素の区切り位置とを特定する。
音声認識部214によって音素の列と各音素の区切り位置とが特定されると、区切り位置変更部215は、図8に示されるような画面を表示部240に表示し、利用者に音素の区切り位置の調整を行わせる。利用者によって区切り位置の調整が行われると、区切り位置変更部215は、音声認識部214によって特定された音素の列と、操作部230から出力される情報に従って変更した区切り位置を示す情報を出力部216と学習部217に出力する。学習部217は、変更された区切り位置に対応する音声素片についての特徴パラメータを特定し、特定した特徴パラメータを音声認識部214にフィードバックして、音響モデルM1の特徴パラメータを更新する。
出力部216は、区切り位置変更部215によって変更された区切り位置で音声波形を区切って音声素片データを生成し、生成した各音素(又は音素連鎖)の音声素片データを出力する。この実施形態では、出力部216は、各音素(又は音素連鎖)の音声素片データを音声合成装置100に送信することによって出力する。音声合成装置100の制御部10は、各音素(又は音素連鎖)の音声素片データを受信すると、受信した音声素片データを音声素片データベース21に登録する。このように音声素片切出装置200によって切り出された音声素片が音声素片データベース21に登録されることにより、音声素片データベース21が生成される。
この実施形態では、上述したように、学習部217によって、利用者によって変更された区切り位置に基づいた特徴パラメータが音声認識部214の音響モデルM1にフィードバックされる。これにより、それ以降の音声素片切出処理においては、修正された特徴パラメータを用いて音声認識処理が行われる。修正された特徴パラメータは利用者による変更をフィードバックしてものであるから、音声認識処理により特定される音素や音素連鎖の切り出し位置は、利用者の意向が反映されたものとなる。更に、音声素片切出処理が行われる毎にその都度学習部217によりフィードバック処理が行われることにより、音声素片切り出し処理が繰り返し行われるほど、音声認識処理により特定される音素や音素連鎖の切り出し位置(区切り位置)は、利用者の所望する位置に近づくことになる。このように本実施形態によれば、利用者によって変更された区切り位置に基づいて音響モデルM1の特徴パラメータを修正するから、装置が特定する音素や音素連鎖の切り出し位置を、利用者の所望する切り出し位置に近づけることができる。
2−2.音声合成動作
次いで、音声合成装置100が行う音声合成動作について説明する。音声処理部13の素片取得部131は、データ取得部12から供給される歌詞データに対応した音声素片データを音声素片データベース21から順次に読み出して音声合成部132に出力する。ここでは、歌詞データによって文字「さ(sa)」が指定された場合を想定する。この場合、素片取得部131は、音声素片[#_s]、[s_a]および[a_#]の各々に対応する音声素片データを音声素片データベース21から読み出してこの順番にて音声合成部132に出力する。
次に、音声合成部132は、以下の手順によって複数の音声素片を相互に連結して合成音声データを生成する。すなわち、音声合成部132は、まず、データ取得部12から供給された音声素片データを構成する各単位データDに所定の処理を施すことによって合成音声データを生成する。ここで実行される処理は、各単位データDが示す音声のピッチを、音符データによって指定されるピッチに調整するための処理を含む。このようにピッチを調整するための方法としては公知である各種の方法が採用される。例えば、各単位データDが示す周波数スペクトルを、音符データが示すピッチに応じた分だけ周波数軸上において移動させることによってピッチを調整することができる。また、音声合成部132が、合成音声データによって示される音声に対して各種の効果を付与するための処理を実行する構成としてもよい。例えば、音符長が長い場合には、音声合成部132が、音声合成データが示す音声に対して微小な揺らぎやビブラートを付加してもよい。また、音声合成部132が、音声合成データに対して音量の変化の効果を与えてもよい。以上の手順によって生成された合成音声データは出力部14に出力される。出力部14は、この合成音声データを時間領域の信号である出力音声信号に変換したうえで出力する。そして、この出力音声信号に応じた合成音声がスピーカ62から出力される。
このとき、音声素片データベース21に登録された音声素片データは、音声合成装置100の仕様や特徴に応じて利用者が区切り位置を調整して作成されたデータであるから、音声合成装置100によって生成される合成音声は、利用者の意向が反映された合成音声となる。
3.変形例
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
3−1.変形例(1)
音声素片データの態様は上記実施形態に示したものに限られない。例えば、各音声素片のフレームFごとのスペクトル包絡(スペクトルエンベロープ)を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をSMS(Spectral Modeling Synthesis)技術によって調和成分(Deterministic Component)と非調和成分(Stochastic Component)とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部132による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部132の後段の加算部によって加算されることになる。また、各音声素片をフレームFに区分したうえで各フレームFのスペクトル包絡に関する複数の特徴量(例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど)を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。
3−2.変形例(2)
上記実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部131が音声素片データを音声素片データベース21から読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。
また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。また、音符に代えて、ピッチカーブのような音の並びを表すデータが与えられる構成とし、そのピッチカーブに応じた音声を合成する処理であってもよい。
3−3.変形例(3)
上述の実施形態において、区切り位置の学習を行うか否かを利用者が選択できるようにしてもよい。この場合は、例えば、学習を行うか否かを選択するためのフラグを記憶部220の予め定められた記憶領域に記憶しておく構成とし、利用者が操作部230を用いて学習を行うか否かを選択し、選択結果に応じてフラグの値を変更するようにしてもよい。この場合は、学習部217は、フラグの値を参照して学習処理を行うか否かを判定し、学習処理を行うと判定された場合に、変更された区切り位置に対応する特徴パラメータを用いて音響モデルM1を更新するようにすればよい。
また、上述の実施形態では、音声認識部214が音響モデルM1と言語モデルM2とを参照して音声認識を行い、学習部217は、変更された区切り位置に従って音響モデルM1の特徴パラメータを更新したが、学習部217が更新するものは音響モデルのパラメータに限らない。例えば、学習部217は、変更された区切り位置に対応する音声波形の音声の特徴に従って、言語モデルM2に含まれる各種のデータを更新する構成であってもよい。また、他の例として、例えば、学習部217が、変更された区切り位置に従って、音声認識部214が行う音声認識処理のアルゴリズムそのものを変更するようにしてもよい。学習部217行う変更の手法は様々であり、公知の学習アルゴリズムを用いて音声認識部214に学習を行わせてもよい。要は、学習部217が、利用者によって変更された区切り位置に従って、音声認識部214により特定される音素の区切り位置が利用者によって変更された区切り位置に近づくように、音声認識部214における区切り位置の特定態様を変更するものであればどのようなものであってもよい。
3−4.変形例(4)
上述の実施形態において、学習部217が、音響モデルM1のパラメータの変更態様を、音素種別(例えば、母音、子音、等)毎に異ならせてもよい。すなわち、学習部217は、音声認識部214により特定された音素の種別に対応する変更態様で、音声認識部214により特定された音素に対応するパラメータの値を変更してもよい。具体的には、例えば、学習部217が、音声認識部214により特定された音素が母音である場合には、特定パラメータと音響モデルM1のパラメータとの中央値を新たなパラメータ値とする一方、音声認識部214により特定された音素が子音である場合には、特定パラメータとの差分が予め定められた閾値以下となるように音響モデルM1記憶されているパラメータの値を修正するようにしてもよい。このように音素の種別毎に学習態様を異ならせることで、各音素の種別に適した学習処理を行うことができる。
また、上述の実施形態において、学習部217が、音響モデルM1のパラメータ値の変更態様を、音素毎に異ならせてもよい。すなわち、学習部217が、音声認識部214により特定された音素に対応する変更態様で、音声認識部214により特定された音素に対応するパラメータの値を変更してもよい。このように音素毎に学習態様を異ならせることで、各音素に適した学習処理を行うことができる。
また、上述の実施形態において、音素を複数の種別(例えば、母音、子音、等)に予め分類しておく構成とし、例えば、「a」という音素について区切り位置が変更された場合に、学習部217が、音素「a」に対応するパラメータだけでなく、種別が「母音」である全ての音素(例えば、「i」、「u」等)のパラメータを更新するようにしてもよい。すなわち、学習部217は、音声認識部214により特定された音素の種別を特定し、特定した種別の音素それぞれについて、各音素に対応するパラメータの値を同様の変更態様で変更してもよい。このようにすることにより、例えば「a」という音素について区切り位置の変更がなされると、その変更が母音の音素全てにフィードバックされる。これにより、利用者の意向を音声認識部214の認識処理に反映し易くすることができる。
また、ダイフォンやトライフォンのような音素連鎖を音声素片として切り出す場合、学習部217が、その位置(ダイフォンなら1番目と2番目、トライフォンなら1番目と2番目と3番目)で異なった学習をしてもよい。具体例として、「いた(ita)」という合成音声を生成する際に用いられる[i_t]という音声素片と[t_a]という音声素片の切り出しを行う場合において、[i_t]のt部分は実質無音とし、[t_a]のt部分は音素tをあらわす波形となるように切り出しを行う場合について説明する。ダイフォンを切り出す場合に[i_t]のようにダイフォンの2番目の音素については、実質無音とするため、切り出しの終点Ta0(図3の(a1)参照)が限りなく時点Ta2に近づくような切り出し位置が学習される。一方、[t_a]のようなダイフォンの1番目の音素については、切り出しの始点Tb0(図3の(b1)参照)が限りなく時点Tb1に近づくような切り出し位置が学習される。このように、ダイフォンやトライフォンの中のx番目(xは自然数)によって切り出し位置の傾向が異なる場合があるため、それぞれで異なる学習を行うようにしてもよい。なお、トライフォンの場合の2番目の場合はその始点も終点もあまり変更されない(2番目の音素は始点や終点を変更する必要がないため)という学習がされてもよい。
また、上述の実施形態において、学習部217が、音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、音素の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更してもよい。このようにすることにより、音素の先頭部分と終わり部分とのそれぞれに適した学習処理を行うことができる。
また、上述の実施形態において、学習部217が、入力される音声波形の種別(例えば、言語種別、性別、大人/子供の種別、等)毎にパラメータ値の変更態様を異ならせてもよい。このように音声波形の種別毎に学習態様を異ならせることで、音声波形の種別に応じた学習処理を行うことができる。
3−5.変形例(5)
上述の実施形態において、学習部217に代えて、図11に示すような、切り出し位置学習モデルM3を設ける構成としてもよい。図11は、音声素片切出装置の機能的構成の一例を示すブロック図であり、上述した実施形態において図7に示したブロック図に対応するものである。図11に示す構成が上述した図7に示す構成と異なる点は、学習部217に代えて切り出し位置モデルM3を備えている点である。切り出し位置学習モデルM3には、区切り位置変更部215によって変更された切り出し位置に基づく各種のデータ(パラメータ)が記憶される。区切り位置変更部215は、利用者によって変更された区切り位置に従って音声認識処理において参照される各種のデータを生成し、生成したデータを切り出し位置学習モデルM3に蓄積していく。認識演算部2141は、音響モデルM1、言語モデルM2、切り出し位置学習モデルM3を参照して、音声波形に含まれる音素の列と各音素の区切り位置とを特定する。この場合、図8や図9のような画面に、言語モデルM1による(通常の)区切り位置と言語モデルM3による学習された区切り位置との両方を同時にユーザに提示し、ユーザがどのような学習を行ったかを確認・把握することができる。
3−6.変形例(6)
音声素片切出装置200のハードウェア構成は、図5で説明したものに限定されない。図7に示される機能を実装できるものであれば、音声素片切出装置200はどのようなハードウェア構成であってもよい。例えば、音声素片切出装置200は、図7に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。また、例えば、図7に示す認識演算部2141が、DSPなどの音声処理に専用されるハードウェアによって実現されてもよい。
また、上述の実施形態において、複数の装置が、上記実施形態の音声素片切出装置200に係る機能を分担するようにしてもよい。例えば、図7の波形取得部211、前処理部212、特徴パラメータ抽出部213の機能を実現する第1の装置と、認識演算部2141、区切り位置変更部215、出力部216、学習部217の機能を実現する第2の装置とが別体となって構成されていてもよい。また、通信ネットワークで接続された2以上の装置が、上記実施形態の音声素片切出装置200に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声素片切出装置200を実現するようにしてもよい。
また、上述の実施形態では、音声合成装置100と音声素片切出装置200とが別体として構成されていたが、音声合成装置100の機能と音声素片切出装置200の機能との両方の機能を実現する一体の装置として構成されていてもよい。
また、上述の実施形態では、音声合成装置100が音声素片データベース21を記憶する構成について説明したが、これに限らず、例えば、図10に示すように、音声素片データベース400が音声合成装置100と別体として構成されていてもよい。図10に示す例では、音声合成装置100、音声素片切出装置200、音声素片データベース400が、ネットワーク500により接続されている。また、他の例として、例えば、音声素片切出装置200が音声素片データベースを有する構成であってもよい。
3−7.変形例(7)
上述の実施形態では、特徴パラメータ抽出部213が抽出する音声の特徴量としてMFCC係数を用いたが、抽出される音声の特徴量はこれに限らない。音声の特徴は、音声認識処理を行う際に用いられることによって音素や各音素の区切り位置を特定し得るものであればどのようなものであってもよい。
3−8.変形例(8)
また、上述の実施形態では、出力部216は、音声認識部214によって特定された音素列と音声波形から切り出した音声素片とを出力したが、出力部216が出力する情報はこれに限らない。例えば、出力部216は、音声素片を出力せずに、利用者によって修正された区切り位置を示す情報を出力してもよい。出力部216は、音声認識部214によって特定された音素に対応する音声素片(音声波形)を切り出すための情報を出力するものであればどのようなものであってもよい。
3−9.変形例(9)
上述の実施形態では、音響モデルM1と言語モデルM2とを音声素片切出装置200の内部に設けられた記憶部220に記憶しておく構成としたが、音響モデルや言語モデルは音声素片切出装置の外部の装置に記憶される構成であってもよい。例えば、通信ネットワークを介して接続されたサーバ装置に音響モデルや言語モデルを記憶しておく構成とし、音声素片装置がサーバ装置に問い合わせることによって音声認識処理を行うようにしてもよい。
また、上述の実施形態では、図2に示す各部がバス70によって接続されている構成について説明したが、バス70に代えて通信ネットワークで各部が接続される構成であってもよい。
3−10.変形例(10)
本発明は、音声素片切出装置以外にも、これらを実現するための方法や、コンピュータに音声素片切出機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
1…音声合成システム、10,210…制御部、12…データ取得部、13…音声処理部、14…出力部、20,220…記憶部、21…音声素片データベース、30,230…操作部、40,240…表示部、60,260…音声処理部、61,261…マイクロホン、62,262…スピーカ、70,270…バス、100…音声合成装置、131…素片取得部、132…音声合成部、200…音声素片切出装置、211…波形取得部、212…前処理部、213…特徴パラメータ抽出部、214…音声認識部、215…区切り位置変更部、216…出力部、217…学習部、M1…音響モデル、M2…言語モデル

Claims (3)

  1. 音声波形を解析し、解析結果に応じて該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定する音声認識部と、
    前記音声認識部によって特定された音素毎の区切り位置を、利用者によって操作される操作部から出力される情報に従って変更する区切り位置変更部と、
    前記区切り位置変更部によって変更された区切り位置に従って、前記音声認識部により特定される音素の区切り位置が前記区切り位置変更部により変更された区切り位置に近づくように、前記音声認識部における前記区切り位置の特定態様を変更する学習部と、
    前記音声認識部によって特定された音素又は音素連鎖と該特定された音素又は音素連鎖に対応する音声波形を切り出すための情報を出力する出力部と
    を具備し、
    前記音声認識部は、音声の特徴量を表すパラメータを音素毎に記憶するパラメータ記憶部に記憶されたパラメータを用いて、該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定し、
    前記学習部は、前記区切り位置変更部により変更された区切り位置に対応する音声波形の音声の特徴量を特定し、前記記憶されたパラメータの値を、前記特定された特徴量を表すパラメータの値との差分が予め定められた閾値となる値、前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値との中間値、又は、複数の前記特定された特徴量を表すパラメータの値と当該記憶されたパラメータの値の平均値に変更し、
    前記学習部は、前記音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、前記音素又は音素連鎖の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更する
    ことを特徴とする音声素片切出装置。
  2. 前記学習部は、前記音声認識部により特定された音素の種別に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更する
    ことを特徴とする請求項1に記載の音声素片切出装置。
  3. 前記学習部は、前記音声認識部により特定された音素の種別を特定し、特定した種別の音素のそれぞれについて、各音素に対応する前記パラメータの値を変更する
    ことを特徴とする請求項1又は2に記載の音声素片切出装置。
JP2012109824A 2012-05-11 2012-05-11 音声素片切出装置 Expired - Fee Related JP6191094B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012109824A JP6191094B2 (ja) 2012-05-11 2012-05-11 音声素片切出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012109824A JP6191094B2 (ja) 2012-05-11 2012-05-11 音声素片切出装置

Publications (2)

Publication Number Publication Date
JP2013238664A JP2013238664A (ja) 2013-11-28
JP6191094B2 true JP6191094B2 (ja) 2017-09-06

Family

ID=49763747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012109824A Expired - Fee Related JP6191094B2 (ja) 2012-05-11 2012-05-11 音声素片切出装置

Country Status (1)

Country Link
JP (1) JP6191094B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7246851B2 (ja) * 2017-11-20 2023-03-28 ユニ・チャーム株式会社 プログラム、育児支援方法、及び、育児支援システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047683A (ja) * 1998-07-30 2000-02-18 Matsushita Electric Ind Co Ltd セグメンテーション補助装置及び媒体
JP2001306087A (ja) * 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体
JP2002140095A (ja) * 2000-11-02 2002-05-17 Ricoh Co Ltd 音声データベース作成支援システム

Also Published As

Publication number Publication date
JP2013238664A (ja) 2013-11-28

Similar Documents

Publication Publication Date Title
US11468870B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US20190392799A1 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
JP2015034920A (ja) 音声解析装置
JP6561499B2 (ja) 音声合成装置および音声合成方法
US11495206B2 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
JP7036141B2 (ja) 電子楽器、方法及びプログラム
JP2012083722A (ja) 音声処理装置
JP2006030575A (ja) 音声合成装置およびプログラム
CN109416911B (zh) 声音合成装置及声音合成方法
US11854521B2 (en) Electronic musical instruments, method and storage media
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP6060520B2 (ja) 音声合成装置
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2017045073A (ja) 音声合成方法および音声合成装置
JP6044284B2 (ja) 音声合成装置
JP6191094B2 (ja) 音声素片切出装置
JP5573529B2 (ja) 音声処理装置およびプログラム
JP2013195928A (ja) 音声素片切出装置
JP4353174B2 (ja) 音声合成装置
JP6056190B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170724

R151 Written notification of patent or utility model registration

Ref document number: 6191094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees