JP2013195928A

JP2013195928A - 音声素片切出装置

Info

Publication number: JP2013195928A
Application number: JP2012065627A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山; Motoi Ogasawara; 基小笠原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-03-22
Filing date: 2012-03-22
Publication date: 2013-09-30

Abstract

【課題】音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることのできる技術を提供する。
【解決手段】音声素片切出装置の波形取得部２１１が音声波形を取得する。音声認識部２１２は、取得された音声波形を日本語の音声認識を行うためのアルゴリズムに従って解析し、音素と各音素の区切り位置とを特定する。置換部２１４は、言語選択部２１３によって選択された言語に対応する対応テーブルに記憶された対応関係に従って、音声認識部２１２によって特定された各音素を他の言語の音素に置換する。出力部２１５は、音声認識部２１２によって特定された区切り位置に従って音声素片を切り出し、切り出した音声素片データと置換部２１４によって置換された音素とを出力する。
【選択図】図９

Description

本発明は、音声素片切出装置に関する。

人間の肉声を模した音声を合成するための種々の技術が提案されている。例えば、特許文献１には、人間の肉声（以下「入力音声」という）を音素ごとに切り出して音声素片を採取しておき、これらの音声素片を相互に連結することによって任意の音声を合成する技術が開示されている。また、入力音声から音声素片を切り出す技術として、例えば、特許文献２には、音声音響信号に対して自動的に音素セグメンテーションを行いセグメント境界の候補を算出し、セグメンテーション候補を画面に表示して作業者がそれらを選択または修正したり、聴取や読図による確認を行いながらセグメンテーション作業を行ったりする技術が提案されている。

特開２００３−２５５９７４号公報特開２０００−４７６８３号公報

ところで、音声素片の切り出しのアルゴリズムは言語毎にそれぞれ異なるため、複数の言語に対応する音声素片データベースを作成するためには、音声素片を切り出すための装置（又はソフトウェア）を言語の種類の数だけ用意する必要があり、装置構成が大掛かりなものとなってしまう場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることのできる技術を提供することを目的とする。

上述した課題を解決するために、本発明は、音声波形を第１の発音体系に対応するアルゴリズムに従って解析し、該音声波形の表す音声に含まれる第１の音素を特定する音声認識部と、前記音声認識部によって特定された第１の音素のそれぞれを、前記第１の発音体系で用いられる第１の音素と第２の発音体系で用いられる第２の音素との対応関係を記憶する記憶部に記憶された対応関係に従って第２の音素に置換する置換部と、前記置換部によって置換された第２の音素と、該置換された第２の音素に対応する音声波形を切り出すための情報を出力する出力部とを具備することを特徴とする音声素片切出装置を提供する。

本発明の好ましい態様において、前記置換部は、前記音声認識部によって特定された第１の音素に対応する第２の音素が複数ある場合に、該複数の第２の音素を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該複数の第２の音素のうちのいずれかを選択し、該特定された第１の音素を該選択した第２の音素に置換してもよい。

また、本発明の更に好ましい態様において、前記第２の音素の列を取得する取得部を具備し、前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第１の音素に対応する第２の音素が複数ある場合に、前記取得部によって取得された第２の音素の列及び前記対応関係に従って、前記置換を行ってもよい。

また、本発明の更に好ましい態様において、前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第１の音素に対応する第２の音素がない場合に、その旨を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該特定された第１の音素に対応する第２の音素を特定し、両者の対応関係を前記記憶部に記憶してもよい。

また、本発明の更に好ましい態様において、前記出力部は、前記置換部によって置換された第２の音素に対応する区切り位置を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該区切り位置を変更し、変更した区切り位置に従って前記音声波形から切り出された音声素片を出力してもよい。

本発明によれば、音声素片の切り出しを行う装置の構成を従来と比較して簡易にすることができる。

音声合成システムの構成の一例を示すブロック図音声合成装置のハードウェア構成の一例を表すブロック図音声素片の一例を示す図音声素片データベースの内容の一例を示す図音声素片切出装置のハードウェア構成の一例を示すブロック図第１の対応テーブルの内容の一例を示す図第２の対応テーブルの内容の一例を示す図音声合成装置の機能的構成の一例を示すブロック図音声素片切出装置の機能的構成の一例を示すブロック図表示部に表示される画面の一例を示す図表示部に表示される画面の一例を示す図置換部が行う処理の流れを示すフローチャート表示部に表示される画面の一例を示す図音声素片切出装置の機能的構成の一例を示すブロック図音声合成システムの構成の一例を示すブロック図

図面を参照しながら本発明の実施の形態を説明する。以下に示す各実施形態は、楽曲の歌唱音声を合成するために本発明を適用した態様である。

１．第１の実施形態
１−１．構成
図１は、本発明の第１の実施形態に係る音声合成システムの構成の一例を示すブロック図である。音声合成システムは、文字列及び音符列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する音声合成装置１００と、音声合成装置１００が音声合成処理を行う際に用いる音声素片データベースを生成する音声素片切出装置２００とを備えている。音声合成装置１００と音声素片切出装置２００とは、有線ＬＡＮ等により有線接続されていてもよく、また、無線ＬＡＮ等の無線通信により無線接続されていてもよい。

図２は、音声合成装置１００のハードウェア構成の一例を示すブロック図である。音声合成装置１００は、制御部１０、記憶部２０、操作部３０、表示部４０、音声処理部６０、マイクロホン６１、及びスピーカ６２を有し、これら各部がバス７０を介して接続されている。制御部１０は、ＣＰＵ（Central Processing Unit）等のプロセッサーや、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を有している。制御部１０において、ＣＰＵ等のプロセッサーが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、音声合成装置１００の各部を制御する。操作部３０は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部１０に出力する。表示部４０は、例えば液晶パネルを備え、制御部１０による制御の下、各種の画像を表示する。

マイクロホン６１は、収音した音声を表すアナログの音声信号を音声処理部６０に出力する。音声処理部６０は、Ａ／Ｄ（Analog / Digital）コンバータを有し、マイクロホン６１が出力したアナログの音声信号をデジタルの音声データに変換して制御部１０に出力し、制御部１０はこれを取得する。また、音声処理部６０は、Ｄ／Ａ（Digital / Analog）コンバータを有し、制御部１０から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ６２に出力する。スピーカ６２は、音声処理部６０から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン６１とスピーカ６２とが音声合成装置１００に含まれている場合について説明するが、音声処理部６０に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン６１から出力されるオーディオ信号及びスピーカ６２へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部６０にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。操作部３０や表示部４０についても同様であり、外部出力端子を設け、外部モニタ等を接続する構成としてもよい。

記憶部２０は、各種のデータを記憶するための記憶部である。記憶部２０としては、磁気ディスクを内蔵したハードディスク装置や、ＣＤ−ＲＯＭに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部２０は、図示のように、第１の音声素片データベース２１と、第２の音声素片データベース２２と、第３の音声素片データベース２３とを有している。第１の音声素片データベース２１、第２の音声素片データベース２２、及び第３の音声素片データベース２３は、単数又は複数の音素（ｐｈｏｎｅｍｅ）で構成される音声素片を表すデータ（以下「音声素片データ」という）を記憶するデータベースである。本実施形態において「音素」とは、言語（発音体系）上の意味の区別の最小単位（例えば母音や子音）に相当するものであり、ある言語（発音体系）の実際の調音と音韻体系全体を考慮して設定される、その言語の音韻論上の最小単位である。音声素片は、特定の発声者によって発声された入力音声のうち所望の音声素片に相当する区間が切り出されたものである。本実施形態における音声素片データは、音声素片の周波数スペクトルを示すデータである。以下の説明では、「音声素片」の語は、単一の音素（例えばモノフォン）や、音素連鎖（例えばダイフォンやトライフォン）を含むものとして用いる。

第１の音声素片データベース２１、第２の音声素片データベース２２、第３の音声素片データベース２３はそれぞれ、日本語（第１の発音体系）、英語（第２の発音体系）、中国語（第３の発音体系）に対応する音声素片データベースである。すなわち、第１の音声素片データベース２１には、日本語の音声を合成するための音声素片データが記憶されている。具体的には、第１の音声素片データベース２１には、「ａ」、「ｉ」といったような単一の音素や、「ａ_ｉ」、「ａ_ｐ」といったような音素連鎖を示すデータが記憶されている。第２の音声素片データベース２２には、英語の音声を合成するための音声素片を示すデータが記憶されている。また、第３の音声素片データベース２３には、中国語の音声を合成するための音声素片データが記憶されている。この実施形態では、音素を表す発音記号としてＸ−ＳＡＭＰＡ（Extended SAM Phonetic Alphabet，拡張ＳＡＭ音声記号）で規定された発音記号を用いる。なお、音素を表す記号はこれに限らず、例えばＳＡＭＰＡやＩＰＡ（国際音声記号）等の他の規格に沿ったものであってもよい。以下の説明では、説明の便宜上、第１の音声素片データベース２１、第２の音声素片データベース２２、第３の音声素片データベース２３を各々区別する必要がない場合には、これらを「音声素片データベース２ｘ」と称して説明する。

図３は、日本語の音声素片の一例を示す図である。図３の（ａ１）は、子音の音素［ｓ］とこれに続く母音の音素［ａ］とを組み合わせた音素連鎖［ｓ_ａ］の波形を示す。区間の端部は、音声素片切出装置２００が後述する音素切出処理を行うことによって選定される。音声素片切出装置２００が行う音素特定処理については、後述するためここではその詳細な説明を省略する。図３の（ａ１）に示す波形は、時点Ｔａ１が音素［ｓ］の始点として指定されるとともに時点Ｔａ３が音素［ａ］の終点として指定され、さらに時点Ｔａ２が音素［ｓ］と音素［ａ］との境界として指定された場合が想定されている。図３の（ａ１）に示されるように、音素［ａ］の波形は、その発声のために口を開いていく発声者の動作に対応するように時点Ｔａ２から徐々に振幅が増大していき、発声者が口を開き切った時点Ｔａ０を越えると振幅が略一定に維持される形状となる。音素［ａ］の終点Ｔａ３としては、音素［ａ］の波形が定常的な状態に遷移した後の時点（すなわち図３の（ａ１）に示される時点Ｔａ０以降の時点）が選定される。

一方、図３の（ｂ１）は、母音の音素［ａ］を含む音声素片［ａ_＃］の波形を示す。「＃」は無音を表す記号である。この音声素片［ａ_＃］に含まれる音素［ａ］の波形は、発声者が口を開き切った状態にて発声してから徐々に口を閉じていって最後には完全に口が閉じられるという発声の動作に対応した形状となる。すなわち、音素［ａ］の波形は、初めに振幅が略一定に維持され、発声者が口を閉じる動作を開始する時点（定常点）Ｔｂ０から振幅が徐々に減少していく。このような音声素片の始点Ｔｂ１は、音素［ａ］の波形が定常的な状態に維持されている期間内の時点（すなわち定常点Ｔｂ０よりも前の時点）として選定される。

以上のようにして時間軸上における範囲が画定された音声素片は所定の時間長（例えば５ｍｓないし１０ｍｓ）のフレームＦに区分される。図３の（ａ１）に示されるように、各フレームＦは時間軸上において相互に重なり合うように選定される。これらのフレームＦは簡易的には同一の時間長の区間とされるが、例えば音声素片のピッチに応じて各フレームＦの時間長を変化させてもよい。こうして区分された各フレームＦの波形にＦＦＴ（Fast Fourier Transform）処理を含む周波数分析が実施されることによって周波数スペクトルが特定され、これらの周波数スペクトルを示すデータが音声素片データとして記憶部２０に記憶される。したがって、図３の（ａ２）および（ｂ２）に示されるように、各音声素片の音声素片データは、各々が別個のフレームＦの周波数スペクトルを示す複数の単位データＤ（Ｄ1、Ｄ2、……）を含む。

図４は、第１の音声素片データベース２１の内容の一例を示す図である。図示のように、このデータベースには、日本語で用いられる音素に対応する音声素片データが音素又は音素連鎖毎に記憶されている。なお、第２の音声素片データベース２２、第３の音声素片データベース２３も同様であり、各言語（各発音体系）で用いられる音素に対応する音声素片データが音素又は音素連鎖毎に記憶されている。

図５は、音声素片切出装置２００のハードウェア構成の一例を示すブロック図である。音声素片切出装置２００は、制御部２１０、記憶部２２０、操作部２３０、表示部２４０、音声処理部２６０、マイクロホン２６１、及びスピーカ２６２を有し、これら各部がバス２７０を介して接続されている。制御部２１０は、ＣＰＵ等のプロセッサーや、ＲＡＭ、及びＲＯＭ等を有している。制御部２１０において、ＣＰＵ等のプロセッサーが、ＲＯＭや記憶部２２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、音声素片切出装置２００の各部を制御する。操作部２３０は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部２１０に出力する。表示部２４０は、例えば液晶パネルを備え、制御部２１０による制御の下、各種の画像を表示する。

マイクロホン２６１、音声処理部２６０、スピーカ２６２の構成はそれぞれ、上述した音声合成装置１００のマイクロホン６１、音声処理部６０、スピーカ６２のそれと同様であり、ここではその詳細な説明を省略する。

記憶部２２０は、各種のデータを記憶するための記憶部である。記憶部２２０としては、磁気ディスクを内蔵したハードディスク装置や、ＣＤ−ＲＯＭに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が採用される。記憶部２２０は、図示のように、第１の対応テーブル２２１と、第２の対応テーブル２２２とを有している。

図６は、第１の対応テーブル２２１の内容の一例を示す図である。第１の対応テーブル２２１には、第１の言語の音素と第２の言語の音素とが対応付けて記憶されている。第１の対応テーブル２２１は、第１の言語で用いられる第１の音素と第２の言語で用いられる第２の音素との対応関係を記憶する記憶部の一例である。図６に示す例では、日本語の音素（第１の言語で用いられる第１の音素）と、英語の音素（第２の言語で用いられる第２の音素）とが互いに対応付けて記憶されている。このテーブルには、互いに発音が似通った音素同士が対応付けられている。より具体的には、英語の音声波形に対して日本語の音声認識処理を施した場合に、認識され得る日本語の音素がその音声波形に含まれる英語の音素に対応付けられている。具体的には、例えば、英語の「ａ」、「Ｑ」、「Ｖ」、「｛」といった音素は、日本語で音声認識処理が施された場合に全て「ａ」という音素として認識されると考えられる。これは、日本語においては、「ａ」、「Ｑ」、「Ｖ」、「｛」の音素の発音が区別されないためである。このように、第１の対応テーブルには、互いに発音が似通った日本語の音素と英語の音素とが対応付けられている。

図７は、第２の対応テーブルの内容の一例を示す図である。第２の対応テーブル２２２には、日本語で用いられる音素と中国語で用いられる音素とが対応付けて記憶されている。このテーブルも、第１のテーブルと同様に、互いに発音が似通った音素同士が対応付けられている。具体的には、中国語の音声波形に対して日本語の音声認識処理を施した場合に、認識され得る日本語の音素がその音声波形に含まれる中国語の音素に対応付けられている。このように、第２の対応テーブルには、互いに発音が似通った日本語の音素と中国語の音素とが対応付けられている。

次に、図８に示すブロック図を参照しながら、音声合成装置１００の機能的構成の一例について説明する。図８において、言語選択部１１と、データ取得部１２と、音声処理部１３と、出力部１４は、制御部１０のＣＰＵ等のプロセッサーが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。制御部１０のプロセッサーは、言語選択部１１、データ取得部１２、音声処理部１３、出力部１４の一例である。

言語選択部１１は、音声合成を行う言語（発音体系）の種別（日本語、英語、中国語、等）を選択する。言語選択部１１は、利用者の操作内容に応じて操作部３０から出力される情報に従って言語の種別を選択してもよく、また、楽曲の演奏に関するデータ（歌詞データや音符データ）に付与されたデータに従って言語の種別を選択してもよい。この実施形態では、言語選択部１１は、言語の種別として「日本語」、「英語」、「中国語」のいずれかを選択する。

データ取得部１２は、楽曲の演奏に関するデータを取得する。具体的には、データ取得部１２は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の文字列を指定するデータである。一方、音符データは、楽曲のうちメインメロディ（例えばボーカルパート）を構成する各楽音のピッチ（音高）と、その楽音が継続されるべき時間長（以下「音符長」という）とを指定するデータである。歌詞データおよび音符データは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠したデータである。また、データ取得部１２は、歌詞データと音符データに加えて、例えばビブラートなどの演奏表現とその演奏表現を付与する箇所を表す演奏表現データを取得してもよい。データ取得部１２は、歌詞データや音符データを図示しない記憶装置から読み出すことによって歌詞データや音符データを取得してもよく、また、外部に設置されたＭＩＤＩ機器から歌詞データや音符データを受信することによって歌詞データや音符データを取得してもよい。

音声処理部１３は、素片取得部１３１と音声合成部１３２とを有する。データ取得部１２によって取得された歌詞データは素片取得部１３１に供給され、同じくデータ取得部１２によって取得された音符データは音声合成部１３２に供給される。素片取得部１３１は、言語選択部１１によって選択された言語に対応する音声素片データベースから音声素片データを取得する。素片取得部１３１は、言語選択部１１によって選択された言語に対応する音声素片データベースから、複数の音声素片データのいずれかを歌詞データに基づいて順次に選択し、この選択した音声素片データを読み出して音声合成部１３２に出力する。より具体的には、素片取得部１３１は、歌詞データによって指定される文字に対応した音声素片データを記憶部２０から読み出す。例えば、言語選択部１１によって「日本語」が選択され、歌詞データによって「さいた（ｓａｉｔａ）」という文字列が指定された場合には、第１の音声素片データベース２１から、音声素片［＃ｓ］、［ｓ_ａ］、［ａ_ｉ］、［ｉ_ｔ］、［ｔ_ａ］および［ａ＃］の各々に対応する音声素片データが記憶部２０から読み出される。

音声合成部１３２は、複数の音声素片を相互に連結する。音声合成部１３２は、素片取得部１３１によって順次に供給される各音声素片データ（単位データＤの集合）を連結することによって音声を合成する。音声合成部１３２は、データ取得部１２によって取得された音符データの示す音符長に応じて音声素片データの一部又は全部を用いて補間処理を行って音声を合成してもよい。また、データ取得部１２によって演奏表現データを取得した場合には、音声合成部１３２は、演奏表現データの示す演奏表現が付与されるように音声素片データを加工して音声を合成してもよい。

出力部１４は、音声合成部１３２から出力された音声合成データを構成するフレームＦごとの単位データＤに逆ＦＦＴ処理を施して時間領域の信号を生成する。さらに、出力部１４は、こうして生成されたフレームＦごとの信号に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号を生成する。出力部１４は、生成した出力音声信号を音声処理部６０に出力する。音声処理部６０は、供給される出力音声信号をＤ／Ａ変換し、変換したアナログオーディオ信号をスピーカ６２に出力する。スピーカ６２は、供給されるアナログオーディオ信号に応じて放音する。

次いで、図９に示すブロック図を参照しながら、音声素片切出装置２００の機能的構成の一例について説明する。図９において、波形取得部２１１、音声認識部２１２、言語選択部２１３、置換部２１４、出力部２１５は、制御部２１０のプロセッサーが、ＲＯＭや記憶部２２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。制御部２１０のプロセッサーは、波形取得部２１１、音声認識部２１２、言語選択部２１３、置換部２１４、出力部２１５の一例である。

波形取得部２１１は、入力音声を表す波形（以下「音声波形」という）を取得する。波形取得部２１１は、音声波形を図示しない記憶装置から読み出すことによって音声波形を取得してもよく、また、外部に設置された機器から音声波形を受信することによって音声波形を取得してもよい。また、波形取得部２１１は、マイクロホン６１によって入力される音声波形を取得してもよい。

音声認識部２１２は、波形取得部２１１によって取得された音声波形を音素単位に区切る。すなわち、音声認識部２１２は、第１の言語（発音体系）に対応するアルゴリズムに従って解析し、音声波形の表す音声に含まれる音素（第１の音素）と各音素の区切り位置とを特定する。この実施形態では、音声認識部２１２は、日本語の発音を認識するためのアルゴリズムに従って音声波形を解析し、音声波形の表す音声に含まれる音素（日本語で用いられる音素）と各音素の区切り位置とを特定する。具体的には、例えば、音素［ｓ］と音素［ａ］とを表す音声波形が取得された場合は、音声認識部２１２は、音素［ｓ］と音素［ａ］とを特定するとともに、音素［ｓ］と音素［ａ］の境界（図３の時点Ｔａ２参照）や、音素［ａ］の終点（図３の終点Ｔａ３参照）を特定する。音声認識部２１２が行う音素の特定処理及び各音素の区切り位置の特定処理については、従来と同様である（例えば、特公平６−３３７６９２号公報、特公平７−１３５８７号公報、等参照）ため、ここではその詳細な説明を省略する。

言語選択部２１３は、生成する音声素片の言語の種別（日本語、英語、中国語、等）を選択する。言語選択部２１３は、利用者の操作内容に応じて操作部２３０から出力される情報に従って言語の種別を選択してもよく、また、波形取得部２１１によって取得される音声波形に付与されたデータに従って言語の種別を選択してもよい。この実施形態では、言語選択部２１３は、言語の種別として「日本語」、「英語」、「中国語」のいずれかを選択する。

置換部２１４は、音声認識部２１２によって特定された音素のそれぞれを、記憶部２２０に記憶された第１の対応テーブル２２１又は第２の対応テーブル２２２に従って第２の音素に置換する。この実施形態では、置換部２１４は、言語選択部２１３によって「英語」が選択された場合には、第１の対応テーブル２２１の対応関係に従って、日本語の音素を英語の音素に置換する。一方、置換部２１４は、言語選択部２１３によって「中国語」が選択された場合には、第２の対応テーブル２２２の対応関係に従って、日本語の音素を中国語の音素に置換する。置換部２１４は、言語選択部２１３によって選択された言語が「日本語」である場合には、置換処理を行わずに、音声認識結果をそのまま出力部２１５へ出力する。

ところで、第１の対応テーブル２２１及び第２の対応テーブル２２２は、音素が１対１で対応しているに限らず、１つの音素に対して複数の音素が対応している場合がある。具体的には、例えば、図６に示したように、日本語で用いられる「ａ」の音素には、英語の「ａ」、「Ｑ」、「Ｖ」、「｛」といった複数の音素が対応付けられている。このように、置換の候補となる音素が複数ある場合には、この実施形態では、置換部２１４は、置換の候補となる複数の音素のうちのいずれかをデフォルトとして選択する。デフォルトとして選択する音素の特定処理の態様としては、例えば、第１の対応テーブル２２１や第２の対応テーブル２２２に、デフォルトとなる音素を表すデフォルト選択情報を予め記憶しておく構成とし、置換部２１４が、第１の対応テーブル２２１や第２の対応テーブル２２２に登録されたデフォルト選択情報に従ってデフォルトとする音素を特定してもよい。また、他の例として、例えば、置換部２１４が、その音素について利用者によって選択された音素の履歴を選択履歴として第１の対応テーブル２２１や第２の対応テーブル２２２（又は記憶部２２０の所定の記憶領域）に蓄積する構成としてもよい。この場合、置換部２１４が、選択履歴を参照して、利用者が前回選択した音素をデフォルトとして選択してもよい。また、置換部２１４が、蓄積された選択履歴の統計をとり、統計結果に従って、最も多く選択された音素をデフォルトとして選択してもよい。デフォルトとする音素の特定の態様は上述したものに限らず、複数の音素から予め定められたアルゴリズムに従っていずれかを選択するものであればどのようなものであってもよい。また、置換の候補となる音素が複数ある場合のデフォルト選択の変換ルールをユーザが設定できるようにしてもよい。

置換部２１４は、音声認識部２１２によって特定された音素に対応する複数の音素を表示部２４０に表示する。このとき、ユーザは、デフォルトとして選択された音素が所望の音素と異なる場合は、操作部２３０を用いて所望する音素を選択する操作を行う。置換部２１４は、操作部２３０から出力される情報に応じて複数の音素からいずれかを選択する。置換部２１４は選択した音素で置換処理を行う。置換部２１４は、置換処理を施した音素の列（発音記号の列）を出力部２１５に出力する。

出力部２１５は、音声認識部２１２によって特定された音素毎の区切り位置に従って、音声波形を音素毎に切り出し、切り出した音声素片を出力する。この実施形態では、出力部２１５は、音声認識部２１２によって特定された音素毎の区切り位置を表示部２４０に表示して利用者に区切り位置の修正を促し、利用者によって操作される操作部２３０から出力される情報に従って、音素毎の区切り位置を変更し、変更した区切り位置に従って音素毎の音声素片を切り出す。

図１０は、表示部２４０に表示される画面の一例を示す図である。この実施形態では、出力部２１５は、音声波形を表す画像データや、音素の列（発音記号の列）を示すデータ、音素毎の区切り位置を示すデータを表示部２４０に出力することによって、音声波形を表示させるとともに、音素の列（発音記号の列）を表す文字画像や、音声波形の区切り位置を表す画像を表示部２４０に表示させる。図示のように、表示部２４０には、音声波形Ａ１０が表示されるとともに、音素の列を表す文字画像Ａ２０や、音素毎の区切り位置を表す区切り線Ａ３３、Ａ３４、…が表示される。図１０に表示される画面において、利用者は、操作部２３０を用いて、音素の区切り位置を調整することができる。具体的には、利用者は、音声認識部２１２により得られた各音素の切り出し開始位置、音素間の境界位置、音素の終了位置を修正する。出力部２１５は、操作部２３０から出力される情報に従って、各音素の区切り位置を変更する。

図１１は、利用者によって音素の区切り位置が修正された状態の一例を示す図である。図示のように、区切り線Ａ３３、Ａ３４、…が変更される。出力部２１５は、変更された区切り位置に従って音素毎の音声素片の切り出しを行う。

出力部２１５は、置換部２１４によって置換された各音素（各音素の発音記号）と、各音素に対応する位置（例えば、各音素の区切り位置が好適）に従って切り出した音声波形（すなわち音声素片）とを対応付けて出力する。この実施形態では、出力部２１５は、音素毎の音声素片を、音声合成装置１００の音声素片データベース２ｘに登録する。

１−２．動作
次に、本実施形態に係る音声合成システム１の動作を説明する。
１−２−１．音声素片データベースの生成動作
まず、音声素片切出装置２００の波形取得部２１１が音声波形を取得する。次いで、音声認識部２１２が、波形取得部２１１によって取得された音声波形を、日本語の音声認識を行うためのアルゴリズムに従って解析し、音声波形の表す音声に含まれる音素（日本語で用いられる音素）と各音素の区切り位置とを特定する。また、言語選択部２１３は、操作部２３０から出力される情報等に従って言語を選択する。置換部２１４は、言語選択部２１３によって選択された言語に対応するテーブルに記憶された対応関係に従って、音声認識部２１２によって特定された音素（日本語の音素）を他の言語の音素に置換する。

図１２は、置換部２１４が行う処理の流れを示すフローチャートである。置換部２１４は、音声認識部２１２によって特定された音素の列に含まれる音素を先頭から順に置換する。まず、置換部２１４は、特定された音素の列の先頭の音素を、言語選択部２１３によって選択された言語に対応するテーブルの対応関係に従って、他の言語の音素に置換する。具体的には、例えば、言語選択部２１３によって「英語」が選択された場合には、置換部２１４は、第１の対応テーブル２２１を参照し、置換対象である音素に対応する音素を読み出す（ステップＳ１）。このとき、対応する音素が複数ある場合には（ステップＳ２；ＹＥＳ）、置換部２１４は、読み出した複数の音素を表示部２４０に出力して、複数の音素を表示部２４０に表示させる（ステップＳ３）。

図１３は、表示部２４０に表示される画面の一例を示す図である。図１３に示す例においては、図１１に例示した、音声波形Ａ１０、文字画像Ａ２０、区切り線Ａ３３、Ａ３４、…が表示されるとともに、置換対象である音素が反転表示され、置換の候補となる複数の音素の発音記号が表示部２４０に表示される。このとき、置換部２１４は、「音素の候補が複数あります。選択してください」といったメッセージを表示してもよい。図１３に示す例では、「Ｑ」の音素がデフォルトとして予め選択されている例を示している。

利用者は、操作部２３０を用いて、表示された音素のいずれかを選択する。置換部２１４は、利用者によって選択がなされるまで待機し（ステップＳ４；ＮＯ）、利用者によって選択がなされると（ステップＳ４；ＹＥＳ）、置換部２１４は、操作部２３０から出力される情報に従って音素を選択し、選択した音素で置換する（ステップＳ５）。具体的には、例えば、置換対象である音素が「ａ」であって、利用者によって「Ｑ」が選択された場合には、置換部２１４は、音素「ａ」を音素「Ｑ」に置換する。なお、置換の候補となる音素の表示態様は図１３に例示するものに限らず、他の態様であってもよい。例えば、置換部２１４は、音声波形や区切り線、文字画像を表示せずに、置換対象である音素と、その音素に対応する（すなわち置換の候補となる）音素を表示してもよい。

ステップＳ２において、置換対象である音素に対応する音素がひとつである場合は（ステップＳ２；ＮＯ）、置換部２１４は、対応する音素で置換する（ステップＳ６）。すなわち、置換部２１４は、置換対象である音素に対応する音素が複数ある場合には、それら複数の音素を表示２４０に表示して利用者に選択させ、選択された音素に置換し、対応する音素がひとつである場合には、対応する音素に置換する。置換部２１４は、音声認識部２１２によって特定された音素の列に含まれる各音素について上述のステップＳ１乃至ステップＳ６の処理を行い、列の次の音素がある場合には（ステップＳ７；ＹＥＳ）、次の音素についてステップＳ１乃至ステップＳ６の処理を行う。一方、列の最後まで置換処理を行った場合には（ステップＳ７；ＮＯ）、置換部２１４はそのまま処理を終了する。

置換部２１４によって置換処理が行われると、出力部２１５は、図１０に示されるような画面を表示部２４０に表示し、利用者に音素間の区切り位置の調整を行わせる。利用者によって区切り位置の調整が行われると、出力部２１５は、操作部２３０から出力される情報に応じて区切り位置を変更し、変更した区切り位置で音声波形を区切って音声素片データを生成する。出力部２１５は、生成した音声素片データと、置換部２１４によって置換された音素を表す発音記号とを出力する。この実施形態では、出力部２１５は、音声素片データと発音記号との対を音声合成装置１００に送信することによって出力する。音声合成装置１００の制御部１０は、音声素片データと発音記号との対を受信すると、受信した音声素片データと発音記号とを対応付けて、第１の音声素片データベース２１、第２の音声素片データベース２２、第３の音声素片データベース２３の少なくともいずれかひとつに登録する。このように音声素片切出装置２００によって切り出された音声素片が音声素片データベース２ｘに登録されることにより、音声素片データベース２ｘが生成される。

１−２−２．音声合成動作
次いで、音声合成装置１００が行う音声合成動作について説明する。まず、言語選択部１１が操作部３０から出力される情報等の情報に従って言語を選択する。音声処理部１３の素片取得部１３１は、データ取得部１２から供給される歌詞データに対応した音声素片データを音声素片データベース２ｘから順次に読み出して音声合成部１３２に出力する。ここでは、言語選択部１１によって「日本語」が選択され、歌詞データによって文字「さ（ｓａ）」が指定された場合を想定する。この場合、素片取得部１３１は、音声素片［＃_ｓ］、［ｓ_ａ］および［ａ_＃］の各々に対応する音声素片データを第１の音声素片データベース２１から読み出してこの順番にて音声合成部１３２に出力する。

次に、音声合成部１３２は、以下の手順によって複数の音声素片を相互に連結して合成音声データを生成する。すなわち、音声合成部１３２は、まず、データ取得部１２から供給された音声素片データを構成する各単位データＤ（補間単位データＤfを含む）に所定の処理を施すことによって合成音声データを生成する。ここで実行される処理は、各単位データＤが示す音声のピッチを、音符データによって指定されるピッチに調整するための処理を含む。このようにピッチを調整するための方法としては公知である各種の方法が採用される。例えば、各単位データＤが示す周波数スペクトルを、音符データが示すピッチに応じた分だけ周波数軸上において移動させることによってピッチを調整することができる。また、音声合成部１３２が、合成音声データによって示される音声に対して各種の効果を付与するための処理を実行する構成としてもよい。例えば、音符長が長い場合には、音声合成データが示す音声に対して微小な揺らぎやビブラートを付加してもよい。以上の手順によって生成された合成音声データは出力部１４に出力される。出力部１４は、この合成音声データを時間領域の信号である出力音声信号に変換したうえで出力する。そして、この出力音声信号に応じた合成音声がスピーカ６２から出力される。

以上に説明したように、本実施形態においては、音声素片データを切り出す際に、日本語の音声認識を行って日本語の音素で認識処理を行い、認識された日本語の音素を、第１の対応テーブル２２１又は第２の対応テーブル２２２の対応関係に従って英語や中国語の音素に変換する。すなわち、本実施形態によれば、英語で音声認識を行うための音声認識部（又はソフトウェア）や、中国語で音声認識を行うための音声認識部（又はソフトウェア）を設ける必要がない。そのため、音声素片データを切り出すための装置構成を簡易なものとすることができる。

２．第２の実施形態
次に、本発明の第２の実施形態に係る音声合成システムについて説明する。本実施形態に係る音声合成システムが、上述した第１の実施形態と異なる点は、音声素片切出装置の機能的構成が異なる点である。以下の説明においては、説明の便宜上、上述した第１の実施形態と同様の構成要素や処理につては、共通の符号を付してその説明を適宜に省略する。

図１４は、本実施形態に係る音声素片切出装置３００の機能的構成の一例を示す図である。図１４に示す音声素片切出装置３００の構成が、上述した第１の実施形態において図９に示した音声素片切出装置２００の構成と異なる点は、波形取得部３１１と置換部３１４の処理が異なる点であり、他の構成要素や処理については上述した第１の実施形態において示したそれと同様である。波形取得部３１１は、音声波形を取得するに加えて、発音記号列データ（第２の音素の列）を取得する。発音記号列データは、音声波形の発音内容を表すデータである。波形取得部３１１は、発音記号列データを図示しない記憶装置から読み出すことによって発音記号列データを取得してもよく、また、外部に設置された機器から発音記号列データを受信することによって発音記号列データを取得してもよい。また、波形取得部３１１は、操作部２３０から出力される情報に応じて発音記号列データを生成することによって発音記号列データを取得してもよい。

置換部３１４は、波形取得部３１１によって取得された発音記号列データの示す発音記号列と第１の対応テーブル２２１（又は第２の対応テーブル２２２）に記憶された対応関係に従って、音素の置換を行う。より具体的には、この実施形態では、置換部３１４は、言語選択部２１３によって「英語」が選択された場合には、第１の対応テーブル２２１の対応関係に従って、日本語の音素を英語の音素に置換する。一方、置換部３１４は、言語選択部２１３によって「中国語」が選択された場合には、第２の対応テーブル２２２の対応関係に従って、日本語の音素を中国語の音素に置換する。置換部３１４は、言語選択部２１３によって選択された言語が「日本語」である場合には、置換処理を行わずに、音声認識結果をそのまま出力部２１５へ出力する。第１の対応テーブル２２１（又は第２の対応テーブル２２２）において第１の音素と第２の音素とが１対１で対応している場合の置換処理は、上述した第１実施形態と同様である。

一方、第１の対応テーブル２２１（又は第２の対応テーブル２２２）において、音声認識部によって特定された音素に対応する音素が複数ある場合は、置換部３１４は、波形取得部３１１によって取得された発音記号列データの示す発音記号列と第１の対応テーブル２２１（又は第２の対応テーブル２２２）に記憶された対応関係に従って音素の置換を行う。具体的には、置換部３１４は、置換の候補が複数ある音素については、その音素に対応する発音記号を、音声認識部２１２によって特定された音素列と発音記号列データの示す発音記号列とを互いに対応付けることによって特定し、特定した音素に置換する。置換部３１４は、置換処理を終えると、置換処理を施した音素の列を出力部２１５に出力する。

この実施形態では、置換部３１４は、置換候補が複数ある場合に、取得される発音記号列に従って複数の候補のうちのいずれかを選択する。この実施形態においても、上述の実施形態と同様に、第１の対応テーブル２２１又は第２の対応テーブル２２２を用いて音素の変換を行うから、英語や中国語で音声認識を行うための音声認識部（又はソフトウェア）を言語毎に設ける必要がない。そのため、音声素片データを切り出すための装置構成を簡易なものとすることができる。

３．変形例
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。

３−１．変形例（１）
音声素片データの態様は上記各実施形態に示したものに限られない。例えば、各音声素片のフレームＦごとのスペクトル包絡（スペクトルエンベロープ）を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をＳＭＳ（Spectral Modeling Synthesis）技術によって調和成分（Deterministic Component）と非調和成分（Stochastic Component）とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部１３２による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部１３２の後段の加算部によって加算されることになる。また、各音声素片をフレームＦに区分したうえで各フレームＦのスペクトル包絡に関する複数の特徴量（例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど）を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。

３−２．変形例（２）
上記各実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ（例えばテキストファイル）に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部１３１が音声素片データを音声素片データベース２ｘから読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。

また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号（文字）とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。また、音符に代えて、ピッチカーブのような音の並びを表すデータが与えられる構成とし、そのピッチカーブに応じた音声を合成する処理であってもよい。

３−３．変形例（３）
音声素片切出装置２００，３００のハードウェア構成は、図５で説明したものに限定されない。図９又は図１４に示される機能を実装できるものであれば、音声素片切出装置２００，３００はどのようなハードウェア構成であってもよい。例えば、音声素片切出装置２００，３００は、図９又は図１４に示される機能要素の各々に対応する専用のハードウェア（回路）を有していてもよい。また、例えば、図９に示す音声認識部２１２が、ＤＳＰなどの音声処理に専用されるハードウェアによって実現されてもよい。

また、上述の実施形態において、複数の装置が、上記実施形態の音声素片切出装置２００，３００に係る機能を分担するようにしてもよい。例えば、図９の音声認識部２１２の機能を実現する第１の装置と、言語選択部２１３、置換部２１４、出力部２１５の機能を実現する第２の装置とが別体となって構成されていてもよい。また、通信ネットワークで接続された２以上の装置が、上記実施形態の音声素片切出装置２００，３００に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声素片切出装置２００，３００を実現するようにしてもよい。

また、上述の実施形態では、音声合成装置１００と音声素片切出装置２００，３００とが別体として構成されていたが、音声合成装置１００の機能と音声素片切出装置２００，３００の機能との両方の機能を実現する一体の装置として構成されていてもよい。

また、上述の実施形態では、音声合成装置１００が音声素片データベース２ｘを記憶する構成について説明したが、これに限らず、例えば、図１５に示すように、音声素片データベース４００が音声合成装置１００と別体として構成されていてもよい。図１５に示す例では、音声合成装置１００、音声素片切出装置２００、音声素片データベース４００が、ネットワーク５００により接続されている。また、他の例として、例えば、音声素片切出装置２００，３００が音声素片データベースを有する構成であってもよい。

３−４．変形例（４）
上述の実施形態では、日本語の音素を英語又は中国語の音素に変換する場合について説明したが、発音体系の種類はこれらに限らず、例えばフランス語やスペイン語等、他の言語であってもよい。また、例えば、アメリカ英語、イギリス英語、オーストラリア英語、といったように、共通の言語についての異なる発音体系の音素を変換する構成であってもよい。具体的には、例えば、アメリカ英語を第１の発音体系とし、イギリス英語を第２の発音体系とする構成であってもよい。また、他の例として、例えば、Ａさんの発話を第１の発音体系の音声とし、Ｂさんの発話を第２の発音体系の音声としてもよい。この場合、ＡさんとＢさんのそれぞれについて音声素片データベースを設ける構成とし、Ａさんの発話音声に含まれる音素を対応テーブルに従ってＢさんの発話音声に含まれる音素に変換するといった処理を行ってもよい。また、他の例として、例えば、Ｘ−ＳＡＭＰＡの発音記号体系と、ＳＡＭＰＡの発音記号体系、ＩＰＡの発音記号体系、といったように、それぞれ異なる発音記号体系（複数の言語をまたいだ発音体系）を用いてもよい。このような発音記号体系を発音体系として用いる場合には、各発音記号は１対１で対応付けられるため、ユーザによる選択操作（すなわち図１３に例示したような選択ダイアログの表示）は必要ない。本発明に係る「発音体系」には、日本語、英語、といった言語の種別に限らず、アメリカ英語、イギリス英語、といった、共通の言語についての異なる言語体系も含まれ、更に、個人毎の発話体系（発話の特徴）といった概念も含まれる。また、本発明に係る「発音体系」には、発音記号体系も含まれる。
どのような発音体系を用いる場合であっても、要は、第１の発音体系で用いられる音素と第２の発音体系で用いられる音素とが対応付けて対応テーブルに記憶され、置換部２１４，３１４が、対応テーブルを参照して音素の置換処理を行う構成であればよい。また、上述の実施形態では、第１の対応テーブル２２１と第２の対応テーブル２２２との２つのテーブルを用いたが、対応テーブルの数はこれに限らず、これより多くても少なくてもよい。発音体系の種類に応じた数の対応テーブルを用意すればよい。

３−５．変形例（５）
上述の実施形態では、音声素片切出装置２００の制御部２１０は、置換処理を行った後に、区切り位置の変更処理を行ったが、処理の順序はこれに限らず、区切り位置の変更処理を行った後に、音素の置換処理を行ってもよい。また、置換処理と区切り位置の変更処理とを並行して行ってもよい。具体的には、例えば、図１３に例示する画面において、区切り位置の変更処理と置換処理との両方を操作できるようにしてもよい。

また、上述の実施形態では、出力部２１５は、音声認識部２１２によって特定された区切り位置を表示部２４０に表示して利用者に区切り位置の修正を促し、修正された区切り位置に従って音声素片を切り出した。出力部２１５が利用者に区切り位置の修正を促す構成とせず、音声認識部２１２によって特定された区切り位置をそのまま用いて音声素片を切り出す構成としてもよい。

また、上述の実施形態では、出力部２１５は、音声認識部２１２によって特定された音素と音声波形から切り出した音声素片とを出力したが、出力部２１５が出力する情報はこれに限らない。例えば、出力部２１５は、音声素片を出力せずに、利用者によって修正された区切り位置を示す情報を出力してもよい。出力部２１５は、置換部２１４によって置換された音素に対応する音声素片（音声波形）を切り出すための情報を出力するものであればよい。

３−６．変形例（６）
上述の実施形態において、置換部２１４，３１４が、音声認識部２１２によって特定された音素に対応する音素が第１の対応テーブル２２１（又は第２の対応テーブル２２２）に登録されていない場合に、利用者に置換の候補となる音素の入力を促すようにしてもよい。この場合、置換部２１４，３１４は、置換の候補となる音素が第１の対応テーブル２２１（又は第２の対応テーブル２２２）に記憶されていない旨を表示部２４０に表示する。このとき、置換部２１４，３１４は、例えば、「対応する音素がありません。登録してください」といったメッセージを表示してもよい。利用者は、表示部２４０に表示される画面を確認しつつ、操作部２３０を用いて置換の候補となる音素を入力する。置換部２１４，３１４は、操作部２３０から出力される情報に従って、特定された音素と入力された音素とを対応付けて第１の対応テーブル２２１（又は第２の対応テーブル２２２）に登録する。この態様によれば、音素の切り出し処理を行いながら並行して対応テーブルを生成することができる。

また、上述の実施形態では、置換部２１４は、図１２に示したように、音声認識部２１２によって特定された音素の列に含まれる音素を先頭から順に走査し、置換の候補となる音素が複数ある場合には、複数の音素を表示部２４０に表示させて、いずれの音素を選択するかをユーザに促す構成となっていた。この場合、ユーザは、置換の候補となる音素が複数ある音素について逐一操作部２３０を用いて選択操作を行う必要があり、その操作が煩雑である場合がある。そこで、置換部２１４が、候補が複数ある場合であってもユーザに逐一選択を促さない構成としてもよい。この場合は、例えば、置換部２１４は、置換の候補が複数ある音素については予め定められたアルゴリズムに従ってデフォルトとしていずれかの音素を選択し、全ての音素について置換処理を終えた後に第２の音素の列を表示してもよい。この場合は、ユーザは、置換部２１４によって置換された第２の音素の列を確認し、デフォルト選択された音素と自身の所望する音素とが異なる箇所についてのみ、操作部２３０を用いて音素の変更を行えばよい。これにより、ユーザの操作に係る負担が軽減される。また、この態様において、デフォルト選択の変換ルールをユーザが設定できるようにしてもよい。

３−７．変形例（７）
上述の実施形態において、認識間違いされそうな音素同士を対応付けてテーブルに登録しておくようにしてもよい。具体的には、認識間違いされそうな音素同士（例えば、「あ」と「お」、等）を対応付けて記憶する類似音素テーブル２２３（図９に点線で図示）を音声素片切出装置２００の記憶部２２０に記憶しておく構成とする。置換部２１４は、第１の対応テーブル２２１（又は第２の対応テーブル２２２）において音声認識部２１２によって特定された音素に対応する音素が複数ある場合にそれらの音素を表示部２４０に表示するとともに、特定された音素が類似音素テーブル２２３に登録されている場合には、特定された音素に対応する音素についても、候補として表示部２４０に表示する。この態様によれば、認識間違いされた可能性のある音素を利用者に提示することにより、認識結果の訂正が容易になる。

３−８．変形例（８）
上述の実施形態では、第１の対応テーブル２２１と第２の対応テーブル２２２とを音声素片切出装置２００の内部に設けられた記憶部２２０に記憶しておく構成としたが、これらの対応テーブルは音声素片切出装置の外部の装置に記憶されている構成であってもよい。例えば、通信ネットワークを介して接続されたサーバ装置にこれらの対応テーブルを記憶しておく構成とし、音声素片切出装置がサーバ装置に問い合わせることによって置換する音素を特定するようにしてもよい。
また、上述の実施形態では、図２に示す各部がバス７０によって接続されている構成について説明したが、バス７０に代えて通信ネットワークで各部が接続される構成であってもよい。

３−９．変形例（９）
本発明は、音声素片切出装置以外にも、これらを実現するための方法や、コンピュータに音声素片切出機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。

１０，２１０…制御部、１１…言語選択部、１２…データ取得部、１３…音声処理部、１４…出力部、２０，２２０…記憶部、２１…第１の音声素片データベース、２２…第２の音声素片データベース、２３…第３の音声素片データベース、３０，２３０…操作部、４０，２４０…表示部、６０，２６０…音声処理部、６１，２６１…マイクロホン、６２，２６２…スピーカ、７０，２７０…バス、１００…音声合成装置、１３１…素片取得部、１３２…音声合成部、２００…音声素片切出装置、２１１…波形取得部、２１２…音声認識部、２１３…言語選択部、２１４…置換部、２１５…出力部、２２１…第１の対応テーブル、２２２…第２の対応テーブル、２２３…類似音素テーブル。

Claims

音声波形を第１の発音体系に対応するアルゴリズムに従って解析し、該音声波形の表す音声に含まれる第１の音素を特定する音声認識部と、
前記音声認識部によって特定された第１の音素のそれぞれを、前記第１の発音体系で用いられる第１の音素と第２の発音体系で用いられる第２の音素との対応関係を記憶する記憶部に記憶された対応関係に従って第２の音素に置換する置換部と、
前記置換部によって置換された第２の音素と、該置換された第２の音素に対応する音声波形を切り出すための情報を出力する出力部と
を具備することを特徴とする音声素片切出装置。
前記置換部は、前記音声認識部によって特定された第１の音素に対応する第２の音素が複数ある場合に、該複数の第２の音素を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該複数の第２の音素のうちのいずれかを選択し、該特定された第１の音素を該選択した第２の音素に置換する
ことを特徴とする請求項１に記載の音声素片切出装置。
前記第２の音素の列を取得する取得部
を具備し、
前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第１の音素に対応する第２の音素が複数ある場合に、前記取得部によって取得された第２の音素の列及び前記対応関係に従って、前記置換を行う
ことを特徴とする請求項１に記載の音声素片切出装置。
前記置換部は、前記記憶部に記憶された対応関係において、前記音声認識部によって特定された第１の音素に対応する第２の音素がない場合に、その旨を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該特定された第１の音素に対応する第２の音素を特定し、両者の対応関係を前記記憶部に記憶する
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声素片切出装置。
前記出力部は、前記置換部によって置換された第２の音素に対応する区切り位置を表示部に表示し、利用者によって操作される操作部から出力される情報に従って、該区切り位置を変更し、変更した区切り位置に従って前記音声波形から切り出された音声素片を出力する
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声素片切出装置。