JP2013195928A - 音声素片切出装置 - Google Patents
音声素片切出装置 Download PDFInfo
- Publication number
- JP2013195928A JP2013195928A JP2012065627A JP2012065627A JP2013195928A JP 2013195928 A JP2013195928 A JP 2013195928A JP 2012065627 A JP2012065627 A JP 2012065627A JP 2012065627 A JP2012065627 A JP 2012065627A JP 2013195928 A JP2013195928 A JP 2013195928A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- phoneme
- phonemes
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることのできる技術を提供する。
【解決手段】音声素片切出装置の波形取得部211が音声波形を取得する。音声認識部212は、取得された音声波形を日本語の音声認識を行うためのアルゴリズムに従って解析し、音素と各音素の区切り位置とを特定する。置換部214は、言語選択部213によって選択された言語に対応する対応テーブルに記憶された対応関係に従って、音声認識部212によって特定された各音素を他の言語の音素に置換する。出力部215は、音声認識部212によって特定された区切り位置に従って音声素片を切り出し、切り出した音声素片データと置換部214によって置換された音素とを出力する。
【選択図】図9
【解決手段】音声素片切出装置の波形取得部211が音声波形を取得する。音声認識部212は、取得された音声波形を日本語の音声認識を行うためのアルゴリズムに従って解析し、音素と各音素の区切り位置とを特定する。置換部214は、言語選択部213によって選択された言語に対応する対応テーブルに記憶された対応関係に従って、音声認識部212によって特定された各音素を他の言語の音素に置換する。出力部215は、音声認識部212によって特定された区切り位置に従って音声素片を切り出し、切り出した音声素片データと置換部214によって置換された音素とを出力する。
【選択図】図9
Description
本発明は、音声素片切出装置に関する。
人間の肉声を模した音声を合成するための種々の技術が提案されている。例えば、特許文献1には、人間の肉声(以下「入力音声」という)を音素ごとに切り出して音声素片を採取しておき、これらの音声素片を相互に連結することによって任意の音声を合成する技術が開示されている。また、入力音声から音声素片を切り出す技術として、例えば、特許文献2には、音声音響信号に対して自動的に音素セグメンテーションを行いセグメント境界の候補を算出し、セグメンテーション候補を画面に表示して作業者がそれらを選択または修正したり、聴取や読図による確認を行いながらセグメンテーション作業を行ったりする技術が提案されている。
ところで、音声素片の切り出しのアルゴリズムは言語毎にそれぞれ異なるため、複数の言語に対応する音声素片データベースを作成するためには、音声素片を切り出すための装置(又はソフトウェア)を言語の種類の数だけ用意する必要があり、装置構成が大掛かりなものとなってしまう場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることのできる技術を提供することを目的とする。
本発明は上述の背景に鑑みてなされたものであり、音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることのできる技術を提供することを目的とする。
上述した課題を解決するために、本発明は、音声波形を第1の発音体系に対応するアルゴリズムに従って解析し、該音声波形の表す音声に含まれる第1の音素を特定する音声認識部と、前記音声認識部によって特定された第1の音素のそれぞれを、前記第1の発音体系で用いられる第1の音素と第2の発音体系で用いられる第2の音素との対応関係を記憶する記憶部に記憶された対応関係に従って第2の音素に置換する置換部と、前記置換部によって置換された第2の音素と、該置換された第2の音素に対応する音声波形を切り出すための情報を出力する出力部とを具備することを特徴とする音声素片切出装置を提供する。
本発明の好ましい態様において、前記置換部は、前記音声認識部によって特定された第1の音素に対応する第2の音素が複数ある場合に、該複数の第2の音素を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該複数の第2の音素のうちのいずれかを選択し、該特定された第1の音素を該選択した第2の音素に置換してもよい。
また、本発明の更に好ましい態様において、前記第2の音素の列を取得する取得部を具備し、前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第1の音素に対応する第2の音素が複数ある場合に、前記取得部によって取得された第2の音素の列及び前記対応関係に従って、前記置換を行ってもよい。
また、本発明の更に好ましい態様において、前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第1の音素に対応する第2の音素がない場合に、その旨を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該特定された第1の音素に対応する第2の音素を特定し、両者の対応関係を前記記憶部に記憶してもよい。
また、本発明の更に好ましい態様において、前記出力部は、前記置換部によって置換された第2の音素に対応する区切り位置を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該区切り位置を変更し、変更した区切り位置に従って前記音声波形から切り出された音声素片を出力してもよい。
本発明によれば、音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることができる。
図面を参照しながら本発明の実施の形態を説明する。以下に示す各実施形態は、楽曲の歌唱音声を合成するために本発明を適用した態様である。
1.第1の実施形態
1−1.構成
図1は、本発明の第1の実施形態に係る音声合成システムの構成の一例を示すブロック図である。音声合成システムは、文字列及び音符列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する音声合成装置100と、音声合成装置100が音声合成処理を行う際に用いる音声素片データベースを生成する音声素片切出装置200とを備えている。音声合成装置100と音声素片切出装置200とは、有線LAN等により有線接続されていてもよく、また、無線LAN等の無線通信により無線接続されていてもよい。
1−1.構成
図1は、本発明の第1の実施形態に係る音声合成システムの構成の一例を示すブロック図である。音声合成システムは、文字列及び音符列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する音声合成装置100と、音声合成装置100が音声合成処理を行う際に用いる音声素片データベースを生成する音声素片切出装置200とを備えている。音声合成装置100と音声素片切出装置200とは、有線LAN等により有線接続されていてもよく、また、無線LAN等の無線通信により無線接続されていてもよい。
図2は、音声合成装置100のハードウェア構成の一例を示すブロック図である。音声合成装置100は、制御部10、記憶部20、操作部30、表示部40、音声処理部60、マイクロホン61、及びスピーカ62を有し、これら各部がバス70を介して接続されている。制御部10は、CPU(Central Processing Unit)等のプロセッサーや、RAM(Random Access Memory)、及びROM(Read Only Memory)等を有している。制御部10において、CPU等のプロセッサーが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、音声合成装置100の各部を制御する。操作部30は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部10に出力する。表示部40は、例えば液晶パネルを備え、制御部10による制御の下、各種の画像を表示する。
マイクロホン61は、収音した音声を表すアナログの音声信号を音声処理部60に出力する。音声処理部60は、A/D(Analog / Digital)コンバータを有し、マイクロホン61が出力したアナログの音声信号をデジタルの音声データに変換して制御部10に出力し、制御部10はこれを取得する。また、音声処理部60は、D/A(Digital / Analog)コンバータを有し、制御部10から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ62に出力する。スピーカ62は、音声処理部60から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン61とスピーカ62とが音声合成装置100に含まれている場合について説明するが、音声処理部60に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン61から出力されるオーディオ信号及びスピーカ62へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部60にてA/D変換やD/A変換を行う必要はない。操作部30や表示部40についても同様であり、外部出力端子を設け、外部モニタ等を接続する構成としてもよい。
記憶部20は、各種のデータを記憶するための記憶部である。記憶部20としては、磁気ディスクを内蔵したハードディスク装置や、CD−ROMに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部20は、図示のように、第1の音声素片データベース21と、第2の音声素片データベース22と、第3の音声素片データベース23とを有している。第1の音声素片データベース21、第2の音声素片データベース22、及び第3の音声素片データベース23は、単数又は複数の音素(phoneme)で構成される音声素片を表すデータ(以下「音声素片データ」という)を記憶するデータベースである。本実施形態において「音素」とは、言語(発音体系)上の意味の区別の最小単位(例えば母音や子音)に相当するものであり、ある言語(発音体系)の実際の調音と音韻体系全体を考慮して設定される、その言語の音韻論上の最小単位である。音声素片は、特定の発声者によって発声された入力音声のうち所望の音声素片に相当する区間が切り出されたものである。本実施形態における音声素片データは、音声素片の周波数スペクトルを示すデータである。以下の説明では、「音声素片」の語は、単一の音素(例えばモノフォン)や、音素連鎖(例えばダイフォンやトライフォン)を含むものとして用いる。
第1の音声素片データベース21、第2の音声素片データベース22、第3の音声素片データベース23はそれぞれ、日本語(第1の発音体系)、英語(第2の発音体系)、中国語(第3の発音体系)に対応する音声素片データベースである。すなわち、第1の音声素片データベース21には、日本語の音声を合成するための音声素片データが記憶されている。具体的には、第1の音声素片データベース21には、「a」、「i」といったような単一の音素や、「a_i」、「a_p」といったような音素連鎖を示すデータが記憶されている。第2の音声素片データベース22には、英語の音声を合成するための音声素片を示すデータが記憶されている。また、第3の音声素片データベース23には、中国語の音声を合成するための音声素片データが記憶されている。この実施形態では、音素を表す発音記号としてX−SAMPA(Extended SAM Phonetic Alphabet,拡張SAM音声記号)で規定された発音記号を用いる。なお、音素を表す記号はこれに限らず、例えばSAMPAやIPA(国際音声記号)等の他の規格に沿ったものであってもよい。以下の説明では、説明の便宜上、第1の音声素片データベース21、第2の音声素片データベース22、第3の音声素片データベース23を各々区別する必要がない場合には、これらを「音声素片データベース2x」と称して説明する。
図3は、日本語の音声素片の一例を示す図である。図3の(a1)は、子音の音素[s]とこれに続く母音の音素[a]とを組み合わせた音素連鎖[s_a]の波形を示す。区間の端部は、音声素片切出装置200が後述する音素切出処理を行うことによって選定される。音声素片切出装置200が行う音素特定処理については、後述するためここではその詳細な説明を省略する。図3の(a1)に示す波形は、時点Ta1が音素[s]の始点として指定されるとともに時点Ta3が音素[a]の終点として指定され、さらに時点Ta2が音素[s]と音素[a]との境界として指定された場合が想定されている。図3の(a1)に示されるように、音素[a]の波形は、その発声のために口を開いていく発声者の動作に対応するように時点Ta2から徐々に振幅が増大していき、発声者が口を開き切った時点Ta0を越えると振幅が略一定に維持される形状となる。音素[a]の終点Ta3としては、音素[a]の波形が定常的な状態に遷移した後の時点(すなわち図3の(a1)に示される時点Ta0以降の時点)が選定される。
一方、図3の(b1)は、母音の音素[a]を含む音声素片[a_#]の波形を示す。「#」は無音を表す記号である。この音声素片[a_#]に含まれる音素[a]の波形は、発声者が口を開き切った状態にて発声してから徐々に口を閉じていって最後には完全に口が閉じられるという発声の動作に対応した形状となる。すなわち、音素[a]の波形は、初めに振幅が略一定に維持され、発声者が口を閉じる動作を開始する時点(定常点)Tb0から振幅が徐々に減少していく。このような音声素片の始点Tb1は、音素[a]の波形が定常的な状態に維持されている期間内の時点(すなわち定常点Tb0よりも前の時点)として選定される。
以上のようにして時間軸上における範囲が画定された音声素片は所定の時間長(例えば5msないし10ms)のフレームFに区分される。図3の(a1)に示されるように、各フレームFは時間軸上において相互に重なり合うように選定される。これらのフレームFは簡易的には同一の時間長の区間とされるが、例えば音声素片のピッチに応じて各フレームFの時間長を変化させてもよい。こうして区分された各フレームFの波形にFFT(Fast Fourier Transform)処理を含む周波数分析が実施されることによって周波数スペクトルが特定され、これらの周波数スペクトルを示すデータが音声素片データとして記憶部20に記憶される。したがって、図3の(a2)および(b2)に示されるように、各音声素片の音声素片データは、各々が別個のフレームFの周波数スペクトルを示す複数の単位データD(D1、D2、……)を含む。
図4は、第1の音声素片データベース21の内容の一例を示す図である。図示のように、このデータベースには、日本語で用いられる音素に対応する音声素片データが音素又は音素連鎖毎に記憶されている。なお、第2の音声素片データベース22、第3の音声素片データベース23も同様であり、各言語(各発音体系)で用いられる音素に対応する音声素片データが音素又は音素連鎖毎に記憶されている。
図5は、音声素片切出装置200のハードウェア構成の一例を示すブロック図である。音声素片切出装置200は、制御部210、記憶部220、操作部230、表示部240、音声処理部260、マイクロホン261、及びスピーカ262を有し、これら各部がバス270を介して接続されている。制御部210は、CPU等のプロセッサーや、RAM、及びROM等を有している。制御部210において、CPU等のプロセッサーが、ROMや記憶部220に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、音声素片切出装置200の各部を制御する。操作部230は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部210に出力する。表示部240は、例えば液晶パネルを備え、制御部210による制御の下、各種の画像を表示する。
マイクロホン261、音声処理部260、スピーカ262の構成はそれぞれ、上述した音声合成装置100のマイクロホン61、音声処理部60、スピーカ62のそれと同様であり、ここではその詳細な説明を省略する。
記憶部220は、各種のデータを記憶するための記憶部である。記憶部220としては、磁気ディスクを内蔵したハードディスク装置や、CD−ROMに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部220は、図示のように、第1の対応テーブル221と、第2の対応テーブル222とを有している。
図6は、第1の対応テーブル221の内容の一例を示す図である。第1の対応テーブル221には、第1の言語の音素と第2の言語の音素とが対応付けて記憶されている。第1の対応テーブル221は、第1の言語で用いられる第1の音素と第2の言語で用いられる第2の音素との対応関係を記憶する記憶部の一例である。図6に示す例では、日本語の音素(第1の言語で用いられる第1の音素)と、英語の音素(第2の言語で用いられる第2の音素)とが互いに対応付けて記憶されている。このテーブルには、互いに発音が似通った音素同士が対応付けられている。より具体的には、英語の音声波形に対して日本語の音声認識処理を施した場合に、認識され得る日本語の音素がその音声波形に含まれる英語の音素に対応付けられている。具体的には、例えば、英語の「a」、「Q」、「V」、「{」といった音素は、日本語で音声認識処理が施された場合に全て「a」という音素として認識されると考えられる。これは、日本語においては、「a」、「Q」、「V」、「{」の音素の発音が区別されないためである。このように、第1の対応テーブルには、互いに発音が似通った日本語の音素と英語の音素とが対応付けられている。
図7は、第2の対応テーブルの内容の一例を示す図である。第2の対応テーブル222には、日本語で用いられる音素と中国語で用いられる音素とが対応付けて記憶されている。このテーブルも、第1のテーブルと同様に、互いに発音が似通った音素同士が対応付けられている。具体的には、中国語の音声波形に対して日本語の音声認識処理を施した場合に、認識され得る日本語の音素がその音声波形に含まれる中国語の音素に対応付けられている。このように、第2の対応テーブルには、互いに発音が似通った日本語の音素と中国語の音素とが対応付けられている。
次に、図8に示すブロック図を参照しながら、音声合成装置100の機能的構成の一例について説明する。図8において、言語選択部11と、データ取得部12と、音声処理部13と、出力部14は、制御部10のCPU等のプロセッサーが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。制御部10のプロセッサーは、言語選択部11、データ取得部12、音声処理部13、出力部14の一例である。
言語選択部11は、音声合成を行う言語(発音体系)の種別(日本語、英語、中国語、等)を選択する。言語選択部11は、利用者の操作内容に応じて操作部30から出力される情報に従って言語の種別を選択してもよく、また、楽曲の演奏に関するデータ(歌詞データや音符データ)に付与されたデータに従って言語の種別を選択してもよい。この実施形態では、言語選択部11は、言語の種別として「日本語」、「英語」、「中国語」のいずれかを選択する。
データ取得部12は、楽曲の演奏に関するデータを取得する。具体的には、データ取得部12は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の文字列を指定するデータである。一方、音符データは、楽曲のうちメインメロディ(例えばボーカルパート)を構成する各楽音のピッチ(音高)と、その楽音が継続されるべき時間長(以下「音符長」という)とを指定するデータである。歌詞データおよび音符データは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したデータである。また、データ取得部12は、歌詞データと音符データに加えて、例えばビブラートなどの演奏表現とその演奏表現を付与する箇所を表す演奏表現データを取得してもよい。データ取得部12は、歌詞データや音符データを図示しない記憶装置から読み出すことによって歌詞データや音符データを取得してもよく、また、外部に設置されたMIDI機器から歌詞データや音符データを受信することによって歌詞データや音符データを取得してもよい。
音声処理部13は、素片取得部131と音声合成部132とを有する。データ取得部12によって取得された歌詞データは素片取得部131に供給され、同じくデータ取得部12によって取得された音符データは音声合成部132に供給される。素片取得部131は、言語選択部11によって選択された言語に対応する音声素片データベースから音声素片データを取得する。素片取得部131は、言語選択部11によって選択された言語に対応する音声素片データベースから、複数の音声素片データのいずれかを歌詞データに基づいて順次に選択し、この選択した音声素片データを読み出して音声合成部132に出力する。より具体的には、素片取得部131は、歌詞データによって指定される文字に対応した音声素片データを記憶部20から読み出す。例えば、言語選択部11によって「日本語」が選択され、歌詞データによって「さいた(saita)」という文字列が指定された場合には、第1の音声素片データベース21から、音声素片[#s]、[s_a]、[a_i]、[i_t]、[t_a]および[a#]の各々に対応する音声素片データが記憶部20から読み出される。
音声合成部132は、複数の音声素片を相互に連結する。音声合成部132は、素片取得部131によって順次に供給される各音声素片データ(単位データDの集合)を連結することによって音声を合成する。音声合成部132は、データ取得部12によって取得された音符データの示す音符長に応じて音声素片データの一部又は全部を用いて補間処理を行って音声を合成してもよい。また、データ取得部12によって演奏表現データを取得した場合には、音声合成部132は、演奏表現データの示す演奏表現が付与されるように音声素片データを加工して音声を合成してもよい。
出力部14は、音声合成部132から出力された音声合成データを構成するフレームFごとの単位データDに逆FFT処理を施して時間領域の信号を生成する。さらに、出力部14は、こうして生成されたフレームFごとの信号に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号を生成する。出力部14は、生成した出力音声信号を音声処理部60に出力する。音声処理部60は、供給される出力音声信号をD/A変換し、変換したアナログオーディオ信号をスピーカ62に出力する。スピーカ62は、供給されるアナログオーディオ信号に応じて放音する。
次いで、図9に示すブロック図を参照しながら、音声素片切出装置200の機能的構成の一例について説明する。図9において、波形取得部211、音声認識部212、言語選択部213、置換部214、出力部215は、制御部210のプロセッサーが、ROMや記憶部220に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。制御部210のプロセッサーは、波形取得部211、音声認識部212、言語選択部213、置換部214、出力部215の一例である。
波形取得部211は、入力音声を表す波形(以下「音声波形」という)を取得する。波形取得部211は、音声波形を図示しない記憶装置から読み出すことによって音声波形を取得してもよく、また、外部に設置された機器から音声波形を受信することによって音声波形を取得してもよい。また、波形取得部211は、マイクロホン61によって入力される音声波形を取得してもよい。
音声認識部212は、波形取得部211によって取得された音声波形を音素単位に区切る。すなわち、音声認識部212は、第1の言語(発音体系)に対応するアルゴリズムに従って解析し、音声波形の表す音声に含まれる音素(第1の音素)と各音素の区切り位置とを特定する。この実施形態では、音声認識部212は、日本語の発音を認識するためのアルゴリズムに従って音声波形を解析し、音声波形の表す音声に含まれる音素(日本語で用いられる音素)と各音素の区切り位置とを特定する。具体的には、例えば、音素[s]と音素[a]とを表す音声波形が取得された場合は、音声認識部212は、音素[s]と音素[a]とを特定するとともに、音素[s]と音素[a]の境界(図3の時点Ta2参照)や、音素[a]の終点(図3の終点Ta3参照)を特定する。音声認識部212が行う音素の特定処理及び各音素の区切り位置の特定処理については、従来と同様である(例えば、特公平6−337692号公報、特公平7−13587号公報、等参照)ため、ここではその詳細な説明を省略する。
言語選択部213は、生成する音声素片の言語の種別(日本語、英語、中国語、等)を選択する。言語選択部213は、利用者の操作内容に応じて操作部230から出力される情報に従って言語の種別を選択してもよく、また、波形取得部211によって取得される音声波形に付与されたデータに従って言語の種別を選択してもよい。この実施形態では、言語選択部213は、言語の種別として「日本語」、「英語」、「中国語」のいずれかを選択する。
置換部214は、音声認識部212によって特定された音素のそれぞれを、記憶部220に記憶された第1の対応テーブル221又は第2の対応テーブル222に従って第2の音素に置換する。この実施形態では、置換部214は、言語選択部213によって「英語」が選択された場合には、第1の対応テーブル221の対応関係に従って、日本語の音素を英語の音素に置換する。一方、置換部214は、言語選択部213によって「中国語」が選択された場合には、第2の対応テーブル222の対応関係に従って、日本語の音素を中国語の音素に置換する。置換部214は、言語選択部213によって選択された言語が「日本語」である場合には、置換処理を行わずに、音声認識結果をそのまま出力部215へ出力する。
ところで、第1の対応テーブル221及び第2の対応テーブル222は、音素が1対1で対応しているに限らず、1つの音素に対して複数の音素が対応している場合がある。具体的には、例えば、図6に示したように、日本語で用いられる「a」の音素には、英語の「a」、「Q」、「V」、「{」といった複数の音素が対応付けられている。このように、置換の候補となる音素が複数ある場合には、この実施形態では、置換部214は、置換の候補となる複数の音素のうちのいずれかをデフォルトとして選択する。デフォルトとして選択する音素の特定処理の態様としては、例えば、第1の対応テーブル221や第2の対応テーブル222に、デフォルトとなる音素を表すデフォルト選択情報を予め記憶しておく構成とし、置換部214が、第1の対応テーブル221や第2の対応テーブル222に登録されたデフォルト選択情報に従ってデフォルトとする音素を特定してもよい。また、他の例として、例えば、置換部214が、その音素について利用者によって選択された音素の履歴を選択履歴として第1の対応テーブル221や第2の対応テーブル222(又は記憶部220の所定の記憶領域)に蓄積する構成としてもよい。この場合、置換部214が、選択履歴を参照して、利用者が前回選択した音素をデフォルトとして選択してもよい。また、置換部214が、蓄積された選択履歴の統計をとり、統計結果に従って、最も多く選択された音素をデフォルトとして選択してもよい。デフォルトとする音素の特定の態様は上述したものに限らず、複数の音素から予め定められたアルゴリズムに従っていずれかを選択するものであればどのようなものであってもよい。また、置換の候補となる音素が複数ある場合のデフォルト選択の変換ルールをユーザが設定できるようにしてもよい。
置換部214は、音声認識部212によって特定された音素に対応する複数の音素を表示部240に表示する。このとき、ユーザは、デフォルトとして選択された音素が所望の音素と異なる場合は、操作部230を用いて所望する音素を選択する操作を行う。置換部214は、操作部230から出力される情報に応じて複数の音素からいずれかを選択する。置換部214は選択した音素で置換処理を行う。置換部214は、置換処理を施した音素の列(発音記号の列)を出力部215に出力する。
出力部215は、音声認識部212によって特定された音素毎の区切り位置に従って、音声波形を音素毎に切り出し、切り出した音声素片を出力する。この実施形態では、出力部215は、音声認識部212によって特定された音素毎の区切り位置を表示部240に表示して利用者に区切り位置の修正を促し、利用者によって操作される操作部230から出力される情報に従って、音素毎の区切り位置を変更し、変更した区切り位置に従って音素毎の音声素片を切り出す。
図10は、表示部240に表示される画面の一例を示す図である。この実施形態では、出力部215は、音声波形を表す画像データや、音素の列(発音記号の列)を示すデータ、音素毎の区切り位置を示すデータを表示部240に出力することによって、音声波形を表示させるとともに、音素の列(発音記号の列)を表す文字画像や、音声波形の区切り位置を表す画像を表示部240に表示させる。図示のように、表示部240には、音声波形A10が表示されるとともに、音素の列を表す文字画像A20や、音素毎の区切り位置を表す区切り線A33、A34、…が表示される。図10に表示される画面において、利用者は、操作部230を用いて、音素の区切り位置を調整することができる。具体的には、利用者は、音声認識部212により得られた各音素の切り出し開始位置、音素間の境界位置、音素の終了位置を修正する。出力部215は、操作部230から出力される情報に従って、各音素の区切り位置を変更する。
図11は、利用者によって音素の区切り位置が修正された状態の一例を示す図である。図示のように、区切り線A33、A34、…が変更される。出力部215は、変更された区切り位置に従って音素毎の音声素片の切り出しを行う。
出力部215は、置換部214によって置換された各音素(各音素の発音記号)と、各音素に対応する位置(例えば、各音素の区切り位置が好適)に従って切り出した音声波形(すなわち音声素片)とを対応付けて出力する。この実施形態では、出力部215は、音素毎の音声素片を、音声合成装置100の音声素片データベース2xに登録する。
1−2.動作
次に、本実施形態に係る音声合成システム1の動作を説明する。
1−2−1.音声素片データベースの生成動作
まず、音声素片切出装置200の波形取得部211が音声波形を取得する。次いで、音声認識部212が、波形取得部211によって取得された音声波形を、日本語の音声認識を行うためのアルゴリズムに従って解析し、音声波形の表す音声に含まれる音素(日本語で用いられる音素)と各音素の区切り位置とを特定する。また、言語選択部213は、操作部230から出力される情報等に従って言語を選択する。置換部214は、言語選択部213によって選択された言語に対応するテーブルに記憶された対応関係に従って、音声認識部212によって特定された音素(日本語の音素)を他の言語の音素に置換する。
次に、本実施形態に係る音声合成システム1の動作を説明する。
1−2−1.音声素片データベースの生成動作
まず、音声素片切出装置200の波形取得部211が音声波形を取得する。次いで、音声認識部212が、波形取得部211によって取得された音声波形を、日本語の音声認識を行うためのアルゴリズムに従って解析し、音声波形の表す音声に含まれる音素(日本語で用いられる音素)と各音素の区切り位置とを特定する。また、言語選択部213は、操作部230から出力される情報等に従って言語を選択する。置換部214は、言語選択部213によって選択された言語に対応するテーブルに記憶された対応関係に従って、音声認識部212によって特定された音素(日本語の音素)を他の言語の音素に置換する。
図12は、置換部214が行う処理の流れを示すフローチャートである。置換部214は、音声認識部212によって特定された音素の列に含まれる音素を先頭から順に置換する。まず、置換部214は、特定された音素の列の先頭の音素を、言語選択部213によって選択された言語に対応するテーブルの対応関係に従って、他の言語の音素に置換する。具体的には、例えば、言語選択部213によって「英語」が選択された場合には、置換部214は、第1の対応テーブル221を参照し、置換対象である音素に対応する音素を読み出す(ステップS1)。このとき、対応する音素が複数ある場合には(ステップS2;YES)、置換部214は、読み出した複数の音素を表示部240に出力して、複数の音素を表示部240に表示させる(ステップS3)。
図13は、表示部240に表示される画面の一例を示す図である。図13に示す例においては、図11に例示した、音声波形A10、文字画像A20、区切り線A33、A34、…が表示されるとともに、置換対象である音素が反転表示され、置換の候補となる複数の音素の発音記号が表示部240に表示される。このとき、置換部214は、「音素の候補が複数あります。選択してください」といったメッセージを表示してもよい。図13に示す例では、「Q」の音素がデフォルトとして予め選択されている例を示している。
利用者は、操作部230を用いて、表示された音素のいずれかを選択する。置換部214は、利用者によって選択がなされるまで待機し(ステップS4;NO)、利用者によって選択がなされると(ステップS4;YES)、置換部214は、操作部230から出力される情報に従って音素を選択し、選択した音素で置換する(ステップS5)。具体的には、例えば、置換対象である音素が「a」であって、利用者によって「Q」が選択された場合には、置換部214は、音素「a」を音素「Q」に置換する。なお、置換の候補となる音素の表示態様は図13に例示するものに限らず、他の態様であってもよい。例えば、置換部214は、音声波形や区切り線、文字画像を表示せずに、置換対象である音素と、その音素に対応する(すなわち置換の候補となる)音素を表示してもよい。
ステップS2において、置換対象である音素に対応する音素がひとつである場合は(ステップS2;NO)、置換部214は、対応する音素で置換する(ステップS6)。すなわち、置換部214は、置換対象である音素に対応する音素が複数ある場合には、それら複数の音素を表示240に表示して利用者に選択させ、選択された音素に置換し、対応する音素がひとつである場合には、対応する音素に置換する。置換部214は、音声認識部212によって特定された音素の列に含まれる各音素について上述のステップS1乃至ステップS6の処理を行い、列の次の音素がある場合には(ステップS7;YES)、次の音素についてステップS1乃至ステップS6の処理を行う。一方、列の最後まで置換処理を行った場合には(ステップS7;NO)、置換部214はそのまま処理を終了する。
置換部214によって置換処理が行われると、出力部215は、図10に示されるような画面を表示部240に表示し、利用者に音素間の区切り位置の調整を行わせる。利用者によって区切り位置の調整が行われると、出力部215は、操作部230から出力される情報に応じて区切り位置を変更し、変更した区切り位置で音声波形を区切って音声素片データを生成する。出力部215は、生成した音声素片データと、置換部214によって置換された音素を表す発音記号とを出力する。この実施形態では、出力部215は、音声素片データと発音記号との対を音声合成装置100に送信することによって出力する。音声合成装置100の制御部10は、音声素片データと発音記号との対を受信すると、受信した音声素片データと発音記号とを対応付けて、第1の音声素片データベース21、第2の音声素片データベース22、第3の音声素片データベース23の少なくともいずれかひとつに登録する。このように音声素片切出装置200によって切り出された音声素片が音声素片データベース2xに登録されることにより、音声素片データベース2xが生成される。
1−2−2.音声合成動作
次いで、音声合成装置100が行う音声合成動作について説明する。まず、言語選択部11が操作部30から出力される情報等の情報に従って言語を選択する。音声処理部13の素片取得部131は、データ取得部12から供給される歌詞データに対応した音声素片データを音声素片データベース2xから順次に読み出して音声合成部132に出力する。ここでは、言語選択部11によって「日本語」が選択され、歌詞データによって文字「さ(sa)」が指定された場合を想定する。この場合、素片取得部131は、音声素片[#_s]、[s_a]および[a_#]の各々に対応する音声素片データを第1の音声素片データベース21から読み出してこの順番にて音声合成部132に出力する。
次いで、音声合成装置100が行う音声合成動作について説明する。まず、言語選択部11が操作部30から出力される情報等の情報に従って言語を選択する。音声処理部13の素片取得部131は、データ取得部12から供給される歌詞データに対応した音声素片データを音声素片データベース2xから順次に読み出して音声合成部132に出力する。ここでは、言語選択部11によって「日本語」が選択され、歌詞データによって文字「さ(sa)」が指定された場合を想定する。この場合、素片取得部131は、音声素片[#_s]、[s_a]および[a_#]の各々に対応する音声素片データを第1の音声素片データベース21から読み出してこの順番にて音声合成部132に出力する。
次に、音声合成部132は、以下の手順によって複数の音声素片を相互に連結して合成音声データを生成する。すなわち、音声合成部132は、まず、データ取得部12から供給された音声素片データを構成する各単位データD(補間単位データDfを含む)に所定の処理を施すことによって合成音声データを生成する。ここで実行される処理は、各単位データDが示す音声のピッチを、音符データによって指定されるピッチに調整するための処理を含む。このようにピッチを調整するための方法としては公知である各種の方法が採用される。例えば、各単位データDが示す周波数スペクトルを、音符データが示すピッチに応じた分だけ周波数軸上において移動させることによってピッチを調整することができる。また、音声合成部132が、合成音声データによって示される音声に対して各種の効果を付与するための処理を実行する構成としてもよい。例えば、音符長が長い場合には、音声合成データが示す音声に対して微小な揺らぎやビブラートを付加してもよい。以上の手順によって生成された合成音声データは出力部14に出力される。出力部14は、この合成音声データを時間領域の信号である出力音声信号に変換したうえで出力する。そして、この出力音声信号に応じた合成音声がスピーカ62から出力される。
以上に説明したように、本実施形態においては、音声素片データを切り出す際に、日本語の音声認識を行って日本語の音素で認識処理を行い、認識された日本語の音素を、第1の対応テーブル221又は第2の対応テーブル222の対応関係に従って英語や中国語の音素に変換する。すなわち、本実施形態によれば、英語で音声認識を行うための音声認識部(又はソフトウェア)や、中国語で音声認識を行うための音声認識部(又はソフトウェア)を設ける必要がない。そのため、音声素片データを切り出すための装置構成を簡易なものとすることができる。
2.第2の実施形態
次に、本発明の第2の実施形態に係る音声合成システムについて説明する。本実施形態に係る音声合成システムが、上述した第1の実施形態と異なる点は、音声素片切出装置の機能的構成が異なる点である。以下の説明においては、説明の便宜上、上述した第1の実施形態と同様の構成要素や処理につては、共通の符号を付してその説明を適宜に省略する。
次に、本発明の第2の実施形態に係る音声合成システムについて説明する。本実施形態に係る音声合成システムが、上述した第1の実施形態と異なる点は、音声素片切出装置の機能的構成が異なる点である。以下の説明においては、説明の便宜上、上述した第1の実施形態と同様の構成要素や処理につては、共通の符号を付してその説明を適宜に省略する。
図14は、本実施形態に係る音声素片切出装置300の機能的構成の一例を示す図である。図14に示す音声素片切出装置300の構成が、上述した第1の実施形態において図9に示した音声素片切出装置200の構成と異なる点は、波形取得部311と置換部314の処理が異なる点であり、他の構成要素や処理については上述した第1の実施形態において示したそれと同様である。波形取得部311は、音声波形を取得するに加えて、発音記号列データ(第2の音素の列)を取得する。発音記号列データは、音声波形の発音内容を表すデータである。波形取得部311は、発音記号列データを図示しない記憶装置から読み出すことによって発音記号列データを取得してもよく、また、外部に設置された機器から発音記号列データを受信することによって発音記号列データを取得してもよい。また、波形取得部311は、操作部230から出力される情報に応じて発音記号列データを生成することによって発音記号列データを取得してもよい。
置換部314は、波形取得部311によって取得された発音記号列データの示す発音記号列と第1の対応テーブル221(又は第2の対応テーブル222)に記憶された対応関係に従って、音素の置換を行う。より具体的には、この実施形態では、置換部314は、言語選択部213によって「英語」が選択された場合には、第1の対応テーブル221の対応関係に従って、日本語の音素を英語の音素に置換する。一方、置換部314は、言語選択部213によって「中国語」が選択された場合には、第2の対応テーブル222の対応関係に従って、日本語の音素を中国語の音素に置換する。置換部314は、言語選択部213によって選択された言語が「日本語」である場合には、置換処理を行わずに、音声認識結果をそのまま出力部215へ出力する。第1の対応テーブル221(又は第2の対応テーブル222)において第1の音素と第2の音素とが1対1で対応している場合の置換処理は、上述した第1実施形態と同様である。
一方、第1の対応テーブル221(又は第2の対応テーブル222)において、音声認識部によって特定された音素に対応する音素が複数ある場合は、置換部314は、波形取得部311によって取得された発音記号列データの示す発音記号列と第1の対応テーブル221(又は第2の対応テーブル222)に記憶された対応関係に従って音素の置換を行う。具体的には、置換部314は、置換の候補が複数ある音素については、その音素に対応する発音記号を、音声認識部212によって特定された音素列と発音記号列データの示す発音記号列とを互いに対応付けることによって特定し、特定した音素に置換する。置換部314は、置換処理を終えると、置換処理を施した音素の列を出力部215に出力する。
この実施形態では、置換部314は、置換候補が複数ある場合に、取得される発音記号列に従って複数の候補のうちのいずれかを選択する。この実施形態においても、上述の実施形態と同様に、第1の対応テーブル221又は第2の対応テーブル222を用いて音素の変換を行うから、英語や中国語で音声認識を行うための音声認識部(又はソフトウェア)を言語毎に設ける必要がない。そのため、音声素片データを切り出すための装置構成を簡易なものとすることができる。
3.変形例
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
3−1.変形例(1)
音声素片データの態様は上記各実施形態に示したものに限られない。例えば、各音声素片のフレームFごとのスペクトル包絡(スペクトルエンベロープ)を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をSMS(Spectral Modeling Synthesis)技術によって調和成分(Deterministic Component)と非調和成分(Stochastic Component)とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部132による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部132の後段の加算部によって加算されることになる。また、各音声素片をフレームFに区分したうえで各フレームFのスペクトル包絡に関する複数の特徴量(例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど)を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。
音声素片データの態様は上記各実施形態に示したものに限られない。例えば、各音声素片のフレームFごとのスペクトル包絡(スペクトルエンベロープ)を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をSMS(Spectral Modeling Synthesis)技術によって調和成分(Deterministic Component)と非調和成分(Stochastic Component)とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部132による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部132の後段の加算部によって加算されることになる。また、各音声素片をフレームFに区分したうえで各フレームFのスペクトル包絡に関する複数の特徴量(例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど)を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。
3−2.変形例(2)
上記各実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部131が音声素片データを音声素片データベース2xから読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。
上記各実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部131が音声素片データを音声素片データベース2xから読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。
また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。また、音符に代えて、ピッチカーブのような音の並びを表すデータが与えられる構成とし、そのピッチカーブに応じた音声を合成する処理であってもよい。
3−3.変形例(3)
音声素片切出装置200,300のハードウェア構成は、図5で説明したものに限定されない。図9又は図14に示される機能を実装できるものであれば、音声素片切出装置200,300はどのようなハードウェア構成であってもよい。例えば、音声素片切出装置200,300は、図9又は図14に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。また、例えば、図9に示す音声認識部212が、DSPなどの音声処理に専用されるハードウェアによって実現されてもよい。
音声素片切出装置200,300のハードウェア構成は、図5で説明したものに限定されない。図9又は図14に示される機能を実装できるものであれば、音声素片切出装置200,300はどのようなハードウェア構成であってもよい。例えば、音声素片切出装置200,300は、図9又は図14に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。また、例えば、図9に示す音声認識部212が、DSPなどの音声処理に専用されるハードウェアによって実現されてもよい。
また、上述の実施形態において、複数の装置が、上記実施形態の音声素片切出装置200,300に係る機能を分担するようにしてもよい。例えば、図9の音声認識部212の機能を実現する第1の装置と、言語選択部213、置換部214、出力部215の機能を実現する第2の装置とが別体となって構成されていてもよい。また、通信ネットワークで接続された2以上の装置が、上記実施形態の音声素片切出装置200,300に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声素片切出装置200,300を実現するようにしてもよい。
また、上述の実施形態では、音声合成装置100と音声素片切出装置200,300とが別体として構成されていたが、音声合成装置100の機能と音声素片切出装置200,300の機能との両方の機能を実現する一体の装置として構成されていてもよい。
また、上述の実施形態では、音声合成装置100が音声素片データベース2xを記憶する構成について説明したが、これに限らず、例えば、図15に示すように、音声素片データベース400が音声合成装置100と別体として構成されていてもよい。図15に示す例では、音声合成装置100、音声素片切出装置200、音声素片データベース400が、ネットワーク500により接続されている。また、他の例として、例えば、音声素片切出装置200,300が音声素片データベースを有する構成であってもよい。
3−4.変形例(4)
上述の実施形態では、日本語の音素を英語又は中国語の音素に変換する場合について説明したが、発音体系の種類はこれらに限らず、例えばフランス語やスペイン語等、他の言語であってもよい。また、例えば、アメリカ英語、イギリス英語、オーストラリア英語、といったように、共通の言語についての異なる発音体系の音素を変換する構成であってもよい。具体的には、例えば、アメリカ英語を第1の発音体系とし、イギリス英語を第2の発音体系とする構成であってもよい。また、他の例として、例えば、Aさんの発話を第1の発音体系の音声とし、Bさんの発話を第2の発音体系の音声としてもよい。この場合、AさんとBさんのそれぞれについて音声素片データベースを設ける構成とし、Aさんの発話音声に含まれる音素を対応テーブルに従ってBさんの発話音声に含まれる音素に変換するといった処理を行ってもよい。また、他の例として、例えば、X−SAMPAの発音記号体系と、SAMPAの発音記号体系、IPAの発音記号体系、といったように、それぞれ異なる発音記号体系(複数の言語をまたいだ発音体系)を用いてもよい。このような発音記号体系を発音体系として用いる場合には、各発音記号は1対1で対応付けられるため、ユーザによる選択操作(すなわち図13に例示したような選択ダイアログの表示)は必要ない。本発明に係る「発音体系」には、日本語、英語、といった言語の種別に限らず、アメリカ英語、イギリス英語、といった、共通の言語についての異なる言語体系も含まれ、更に、個人毎の発話体系(発話の特徴)といった概念も含まれる。また、本発明に係る「発音体系」には、発音記号体系も含まれる。
どのような発音体系を用いる場合であっても、要は、第1の発音体系で用いられる音素と第2の発音体系で用いられる音素とが対応付けて対応テーブルに記憶され、置換部214,314が、対応テーブルを参照して音素の置換処理を行う構成であればよい。また、上述の実施形態では、第1の対応テーブル221と第2の対応テーブル222との2つのテーブルを用いたが、対応テーブルの数はこれに限らず、これより多くても少なくてもよい。発音体系の種類に応じた数の対応テーブルを用意すればよい。
上述の実施形態では、日本語の音素を英語又は中国語の音素に変換する場合について説明したが、発音体系の種類はこれらに限らず、例えばフランス語やスペイン語等、他の言語であってもよい。また、例えば、アメリカ英語、イギリス英語、オーストラリア英語、といったように、共通の言語についての異なる発音体系の音素を変換する構成であってもよい。具体的には、例えば、アメリカ英語を第1の発音体系とし、イギリス英語を第2の発音体系とする構成であってもよい。また、他の例として、例えば、Aさんの発話を第1の発音体系の音声とし、Bさんの発話を第2の発音体系の音声としてもよい。この場合、AさんとBさんのそれぞれについて音声素片データベースを設ける構成とし、Aさんの発話音声に含まれる音素を対応テーブルに従ってBさんの発話音声に含まれる音素に変換するといった処理を行ってもよい。また、他の例として、例えば、X−SAMPAの発音記号体系と、SAMPAの発音記号体系、IPAの発音記号体系、といったように、それぞれ異なる発音記号体系(複数の言語をまたいだ発音体系)を用いてもよい。このような発音記号体系を発音体系として用いる場合には、各発音記号は1対1で対応付けられるため、ユーザによる選択操作(すなわち図13に例示したような選択ダイアログの表示)は必要ない。本発明に係る「発音体系」には、日本語、英語、といった言語の種別に限らず、アメリカ英語、イギリス英語、といった、共通の言語についての異なる言語体系も含まれ、更に、個人毎の発話体系(発話の特徴)といった概念も含まれる。また、本発明に係る「発音体系」には、発音記号体系も含まれる。
どのような発音体系を用いる場合であっても、要は、第1の発音体系で用いられる音素と第2の発音体系で用いられる音素とが対応付けて対応テーブルに記憶され、置換部214,314が、対応テーブルを参照して音素の置換処理を行う構成であればよい。また、上述の実施形態では、第1の対応テーブル221と第2の対応テーブル222との2つのテーブルを用いたが、対応テーブルの数はこれに限らず、これより多くても少なくてもよい。発音体系の種類に応じた数の対応テーブルを用意すればよい。
3−5.変形例(5)
上述の実施形態では、音声素片切出装置200の制御部210は、置換処理を行った後に、区切り位置の変更処理を行ったが、処理の順序はこれに限らず、区切り位置の変更処理を行った後に、音素の置換処理を行ってもよい。また、置換処理と区切り位置の変更処理とを並行して行ってもよい。具体的には、例えば、図13に例示する画面において、区切り位置の変更処理と置換処理との両方を操作できるようにしてもよい。
上述の実施形態では、音声素片切出装置200の制御部210は、置換処理を行った後に、区切り位置の変更処理を行ったが、処理の順序はこれに限らず、区切り位置の変更処理を行った後に、音素の置換処理を行ってもよい。また、置換処理と区切り位置の変更処理とを並行して行ってもよい。具体的には、例えば、図13に例示する画面において、区切り位置の変更処理と置換処理との両方を操作できるようにしてもよい。
また、上述の実施形態では、出力部215は、音声認識部212によって特定された区切り位置を表示部240に表示して利用者に区切り位置の修正を促し、修正された区切り位置に従って音声素片を切り出した。出力部215が利用者に区切り位置の修正を促す構成とせず、音声認識部212によって特定された区切り位置をそのまま用いて音声素片を切り出す構成としてもよい。
また、上述の実施形態では、出力部215は、音声認識部212によって特定された音素と音声波形から切り出した音声素片とを出力したが、出力部215が出力する情報はこれに限らない。例えば、出力部215は、音声素片を出力せずに、利用者によって修正された区切り位置を示す情報を出力してもよい。出力部215は、置換部214によって置換された音素に対応する音声素片(音声波形)を切り出すための情報を出力するものであればよい。
3−6.変形例(6)
上述の実施形態において、置換部214,314が、音声認識部212によって特定された音素に対応する音素が第1の対応テーブル221(又は第2の対応テーブル222)に登録されていない場合に、利用者に置換の候補となる音素の入力を促すようにしてもよい。この場合、置換部214,314は、置換の候補となる音素が第1の対応テーブル221(又は第2の対応テーブル222)に記憶されていない旨を表示部240に表示する。このとき、置換部214,314は、例えば、「対応する音素がありません。登録してください」といったメッセージを表示してもよい。利用者は、表示部240に表示される画面を確認しつつ、操作部230を用いて置換の候補となる音素を入力する。置換部214,314は、操作部230から出力される情報に従って、特定された音素と入力された音素とを対応付けて第1の対応テーブル221(又は第2の対応テーブル222)に登録する。この態様によれば、音素の切り出し処理を行いながら並行して対応テーブルを生成することができる。
上述の実施形態において、置換部214,314が、音声認識部212によって特定された音素に対応する音素が第1の対応テーブル221(又は第2の対応テーブル222)に登録されていない場合に、利用者に置換の候補となる音素の入力を促すようにしてもよい。この場合、置換部214,314は、置換の候補となる音素が第1の対応テーブル221(又は第2の対応テーブル222)に記憶されていない旨を表示部240に表示する。このとき、置換部214,314は、例えば、「対応する音素がありません。登録してください」といったメッセージを表示してもよい。利用者は、表示部240に表示される画面を確認しつつ、操作部230を用いて置換の候補となる音素を入力する。置換部214,314は、操作部230から出力される情報に従って、特定された音素と入力された音素とを対応付けて第1の対応テーブル221(又は第2の対応テーブル222)に登録する。この態様によれば、音素の切り出し処理を行いながら並行して対応テーブルを生成することができる。
また、上述の実施形態では、置換部214は、図12に示したように、音声認識部212によって特定された音素の列に含まれる音素を先頭から順に走査し、置換の候補となる音素が複数ある場合には、複数の音素を表示部240に表示させて、いずれの音素を選択するかをユーザに促す構成となっていた。この場合、ユーザは、置換の候補となる音素が複数ある音素について逐一操作部230を用いて選択操作を行う必要があり、その操作が煩雑である場合がある。そこで、置換部214が、候補が複数ある場合であってもユーザに逐一選択を促さない構成としてもよい。この場合は、例えば、置換部214は、置換の候補が複数ある音素については予め定められたアルゴリズムに従ってデフォルトとしていずれかの音素を選択し、全ての音素について置換処理を終えた後に第2の音素の列を表示してもよい。この場合は、ユーザは、置換部214によって置換された第2の音素の列を確認し、デフォルト選択された音素と自身の所望する音素とが異なる箇所についてのみ、操作部230を用いて音素の変更を行えばよい。これにより、ユーザの操作に係る負担が軽減される。また、この態様において、デフォルト選択の変換ルールをユーザが設定できるようにしてもよい。
3−7.変形例(7)
上述の実施形態において、認識間違いされそうな音素同士を対応付けてテーブルに登録しておくようにしてもよい。具体的には、認識間違いされそうな音素同士(例えば、「あ」と「お」、等)を対応付けて記憶する類似音素テーブル223(図9に点線で図示)を音声素片切出装置200の記憶部220に記憶しておく構成とする。置換部214は、第1の対応テーブル221(又は第2の対応テーブル222)において音声認識部212によって特定された音素に対応する音素が複数ある場合にそれらの音素を表示部240に表示するとともに、特定された音素が類似音素テーブル223に登録されている場合には、特定された音素に対応する音素についても、候補として表示部240に表示する。この態様によれば、認識間違いされた可能性のある音素を利用者に提示することにより、認識結果の訂正が容易になる。
上述の実施形態において、認識間違いされそうな音素同士を対応付けてテーブルに登録しておくようにしてもよい。具体的には、認識間違いされそうな音素同士(例えば、「あ」と「お」、等)を対応付けて記憶する類似音素テーブル223(図9に点線で図示)を音声素片切出装置200の記憶部220に記憶しておく構成とする。置換部214は、第1の対応テーブル221(又は第2の対応テーブル222)において音声認識部212によって特定された音素に対応する音素が複数ある場合にそれらの音素を表示部240に表示するとともに、特定された音素が類似音素テーブル223に登録されている場合には、特定された音素に対応する音素についても、候補として表示部240に表示する。この態様によれば、認識間違いされた可能性のある音素を利用者に提示することにより、認識結果の訂正が容易になる。
3−8.変形例(8)
上述の実施形態では、第1の対応テーブル221と第2の対応テーブル222とを音声素片切出装置200の内部に設けられた記憶部220に記憶しておく構成としたが、これらの対応テーブルは音声素片切出装置の外部の装置に記憶されている構成であってもよい。例えば、通信ネットワークを介して接続されたサーバ装置にこれらの対応テーブルを記憶しておく構成とし、音声素片切出装置がサーバ装置に問い合わせることによって置換する音素を特定するようにしてもよい。
また、上述の実施形態では、図2に示す各部がバス70によって接続されている構成について説明したが、バス70に代えて通信ネットワークで各部が接続される構成であってもよい。
上述の実施形態では、第1の対応テーブル221と第2の対応テーブル222とを音声素片切出装置200の内部に設けられた記憶部220に記憶しておく構成としたが、これらの対応テーブルは音声素片切出装置の外部の装置に記憶されている構成であってもよい。例えば、通信ネットワークを介して接続されたサーバ装置にこれらの対応テーブルを記憶しておく構成とし、音声素片切出装置がサーバ装置に問い合わせることによって置換する音素を特定するようにしてもよい。
また、上述の実施形態では、図2に示す各部がバス70によって接続されている構成について説明したが、バス70に代えて通信ネットワークで各部が接続される構成であってもよい。
3−9.変形例(9)
本発明は、音声素片切出装置以外にも、これらを実現するための方法や、コンピュータに音声素片切出機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
本発明は、音声素片切出装置以外にも、これらを実現するための方法や、コンピュータに音声素片切出機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
10,210…制御部、11…言語選択部、12…データ取得部、13…音声処理部、14…出力部、20,220…記憶部、21…第1の音声素片データベース、22…第2の音声素片データベース、23…第3の音声素片データベース、30,230…操作部、40,240…表示部、60,260…音声処理部、61,261…マイクロホン、62,262…スピーカ、70,270…バス、100…音声合成装置、131…素片取得部、132…音声合成部、200…音声素片切出装置、211…波形取得部、212…音声認識部、213…言語選択部、214…置換部、215…出力部、221…第1の対応テーブル、222…第2の対応テーブル、223…類似音素テーブル。
Claims (5)
- 音声波形を第1の発音体系に対応するアルゴリズムに従って解析し、該音声波形の表す音声に含まれる第1の音素を特定する音声認識部と、
前記音声認識部によって特定された第1の音素のそれぞれを、前記第1の発音体系で用いられる第1の音素と第2の発音体系で用いられる第2の音素との対応関係を記憶する記憶部に記憶された対応関係に従って第2の音素に置換する置換部と、
前記置換部によって置換された第2の音素と、該置換された第2の音素に対応する音声波形を切り出すための情報を出力する出力部と
を具備することを特徴とする音声素片切出装置。 - 前記置換部は、前記音声認識部によって特定された第1の音素に対応する第2の音素が複数ある場合に、該複数の第2の音素を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該複数の第2の音素のうちのいずれかを選択し、該特定された第1の音素を該選択した第2の音素に置換する
ことを特徴とする請求項1に記載の音声素片切出装置。 - 前記第2の音素の列を取得する取得部
を具備し、
前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第1の音素に対応する第2の音素が複数ある場合に、前記取得部によって取得された第2の音素の列及び前記対応関係に従って、前記置換を行う
ことを特徴とする請求項1に記載の音声素片切出装置。 - 前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第1の音素に対応する第2の音素がない場合に、その旨を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該特定された第1の音素に対応する第2の音素を特定し、両者の対応関係を前記記憶部に記憶する
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声素片切出装置。 - 前記出力部は、前記置換部によって置換された第2の音素に対応する区切り位置を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該区切り位置を変更し、変更した区切り位置に従って前記音声波形から切り出された音声素片を出力する
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声素片切出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012065627A JP2013195928A (ja) | 2012-03-22 | 2012-03-22 | 音声素片切出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012065627A JP2013195928A (ja) | 2012-03-22 | 2012-03-22 | 音声素片切出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013195928A true JP2013195928A (ja) | 2013-09-30 |
Family
ID=49394898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012065627A Pending JP2013195928A (ja) | 2012-03-22 | 2012-03-22 | 音声素片切出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013195928A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015060340A1 (ja) * | 2013-10-23 | 2015-04-30 | ヤマハ株式会社 | 歌唱音声の合成 |
JP2018128607A (ja) * | 2017-02-09 | 2018-08-16 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007015319A1 (ja) * | 2005-08-02 | 2007-02-08 | Matsushita Electric Industrial Co., Ltd. | 音声出力装置、音声通信装置および音声出力方法 |
JP2010009034A (ja) * | 2008-05-28 | 2010-01-14 | National Institute Of Advanced Industrial & Technology | 歌声合成パラメータデータ推定システム |
WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
-
2012
- 2012-03-22 JP JP2012065627A patent/JP2013195928A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007015319A1 (ja) * | 2005-08-02 | 2007-02-08 | Matsushita Electric Industrial Co., Ltd. | 音声出力装置、音声通信装置および音声出力方法 |
JP2010009034A (ja) * | 2008-05-28 | 2010-01-14 | National Institute Of Advanced Industrial & Technology | 歌声合成パラメータデータ推定システム |
WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015060340A1 (ja) * | 2013-10-23 | 2015-04-30 | ヤマハ株式会社 | 歌唱音声の合成 |
JP2018128607A (ja) * | 2017-02-09 | 2018-08-16 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US7716052B2 (en) | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US8886538B2 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP2008545995A (ja) | ハイブリッド音声合成装置、方法および用途 | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2009265276A (ja) | 支援装置、プログラムおよび支援方法 | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
JP2010026223A (ja) | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム | |
JP2006030609A (ja) | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2006139162A (ja) | 語学学習装置 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
JP3685648B2 (ja) | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160426 |