JP2006154212A

JP2006154212A - 音声評価方法および評価装置

Info

Publication number: JP2006154212A
Application number: JP2004343854A
Authority: JP
Inventors: Tadahisa Hashido; 忠久橋戸; Mariko Hoshikawa; 麻理子星川; Junji Kojima; 順治小島; Kazuo Hakoda; 和雄箱田; Ryuichi Kawamura; 隆一河村; Michiyuki Satomura; 通之里村; Kimihide Izumi; 公英和泉; Yuhei Takahashi; 佑平高橋
Original assignee: NTT Advanced Technology Corp; NTT Communications Corp
Current assignee: NTT Advanced Technology Corp; NTT Communications Corp
Priority date: 2004-11-29
Filing date: 2004-11-29
Publication date: 2006-06-15

Abstract

【課題】声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価する。
【解決手段】音声評価装置は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部１０２と、ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出するマッチング部１０４とを有する。
【選択図】図１

Description

本発明は、人の声を定量的に評価する技術に係り、特に声の掠れや息づかい、摩擦音や破裂音の発声を評価する音声評価方法および評価装置に関するものである。

声帯模写とは、一般的には、ある特定の人の発声の癖や声質を意図的に模倣する行為であり、例えば有名人の声の真似や歌手の歌い方の特徴を真似するものである。このような声帯模写において声色の類似性の判断を、人の感覚ではなく、システマティックに評価するためには、音声を定量化する必要がある。

現在、音声を定量的に評価する身近な応用例として、カラオケの採点システムが提案されている（例えば、特許文献１、特許文献２参照）。この採点システムは、人の歌唱を評価する技術として、人の音声の高低（ピッチ）と楽譜の音符との類似度評価を時系列で行うものである。
一方、人の音声を特定する技術として、声紋と呼ばれる音声の周波数成分、とりわけフォルマントと呼ばれる周波数成分が強く現れている部分を用いて時系列的にあるいは瞬間的に音声のマッチングを行うものがある（例えば、非特許文献１、非特許文献２参照）。

なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
特開平１１−２５９０８１号公報特開２０００−１３２１７６号公報鹿野清宏，中村哲，伊勢史郎共著，「音声・音情報のディジタル信号処理ディジタル信号処理シリーズ第５巻」，昭晃堂，１９９７年，ｐ．３５−５８今井聖著，「音声信号処理音声の性質と聴覚の特性を考慮した信号処理」，森北出版株式会社，１９９６年，ｐ．５８−９４

従来のカラオケの採点システムでは、音声のピッチと楽譜の音符とが対応しているか否かを評価するだけであり、音程に対する忠実さを評価することはできるが、それは人の音声の中の一部の要素であり、発声の癖を評価することはできないという問題点があった。
人の声を特徴づける要素として、「ハスキーボイス」と呼ばれる声質や息づかい、サ行などの摩擦音の発声、「チ、ツ」などの破裂音の発声等が挙げられる。とりわけ、「ハスキーボイス」は、人が歌声を聴く際に、最も知覚しやすい特徴であるといえる。前述のように、人の声質を評価する技術として、フォルマント成分を用いて音声のマッチングを行う技術があるが、この方法では、「ハスキーボイス」と呼ばれる声の掠れ具合や息づかい、摩擦音や破裂音の発声を評価することは困難である。

本発明の目的は、声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価することができる音声評価方法および評価装置を提供することにある。

本発明の音声評価方法は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出手順と、このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価する評価手順とを有するものである。
また、本発明の音声評価方法の１構成例において、前記評価手順は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出手順を含むものである。

また、本発明の音声評価装置は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部と、このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価するマッチング部とを有するものである。
また、本発明の音声評価装置の１構成例において、前記マッチング部は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出部を含むものである。

本発明によれば、単なる音程の忠実度を測るのではなく、音声特徴パラメータであるゼロクロス数を求めることにより、声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価することができる。これにより、本発明では、発声者に固有の声の掠れ具合や発声方法の癖を評価することができる。

また、本発明では、ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出することにより、ゼロクロス数に基づく声の掠れ等の定量的評価を実現することができる。また、歌や台詞回しなどの声色の類似度を評価する際の１つの有効な尺度として、声の掠れ等の類似度を用いることが可能になる。

本発明は、ゼロクロス数を用いて人の声の掠れ具合や、発声中に現われる息づかい、摩擦音や破裂音の発声等を評価することを最も主要な特徴とする。これまでの技術である、人の声の高さを表わす物理パラメータであるピッチを用いた時系列マッチングは、実用サービスとしてカラオケの採点システムなどで用いられている。この評価方法では、楽譜の音程に対する忠実度を測ることができるが、発声の癖まで評価することはできない。

人の声の中で、とりわけ人が知覚しやすいものとして、「ハスキーボイス」と呼ばれる掠れた声が挙げられる。スペクトログラムを観察すると、声が掠れている部分や息づかいの部分では、連続的な雑音エネルギが現われていることが分かる。しかしながら、雑音エネルギの有無、あるいは雑音エネルギの濃さをスペクトログラムから定量的に測ることは難しい。

単位時間あたりのゼロクロス数は、音声波形がゼロレベルと交差した回数、つまり音声波形の振幅の密度を表わし、一般的には、音声とノイズの判別に用いられている。本実施の形態では、このゼロクロス数を音声特徴パラメータとして用いる。声の掠れや息づかい、あるいは摩擦音や破裂音が強くなると、ゼロクロス数が大きくなる。そこで、本実施の形態では、このゼロクロス数を用いて、声の掠れや息づかい、摩擦音や破裂音の発声等を定量的に評価する。

図１は本発明の実施の形態となる音声評価装置の構成を示すブロック図である。この評価装置は、前処理部１０１と、パラメータ抽出部１０２と、データベース部１０３と、マッチング部１０４とから構成される。各構成の動作は以下のとおりである。

前処理部１０１は、入力部１と、音声分析部２とを有する。比較対象となる音声データは、図示しない音声入力装置（マイクやコンピュータ、磁気ディスク装置、光ディスク装置等）から入力部１に入力される。入力信号がアナログ音声信号の場合、入力部１は、音声信号をＤ／Ａ変換して音声データを生成する。

音声分析部２は、図２に示すようにノイズ・ＢＧＭ除去フィルター２０を有し、入力部１から入力された図３（Ａ）のような音声データからノイズやＢＧＭ（background music ）などを除去して、対象となる人の音声を抽出する。ノイズやＢＧＭ除去後の音声データを図３（Ｂ）に示す。なお、音声データはデジタル信号であるが、図３（Ａ）、図３（Ｂ）では、音声データをアナログで表している。

パラメータ抽出部１０２は、ゼロクロス数抽出部３を有する。ゼロクロス数抽出部３は、前処理部１０１から入力された音声データ中のゼロクロスの数をカウントすることにより、単位時間（フレーム）あたりのゼロクロス数を求める。図４はゼロクロス数の導出方法を示す図、図５はゼロクロス数の時間分布の１例を示す図である。図４に示すように、ゼロクロス数抽出部３は、音声のレベルが０となるゼロクロスの出現回数を単位時間毎に数える。

データベース部１０３は、リファレンスデータ記憶部４を有する。リファレンスデータ記憶部４は、音声特徴パラメータの比較対象となるリファレンスデータを特徴ベクトルとして予め記憶している。
マッチング部１０４は、パラメータ抽出部１０２から入力された音声特徴パラメータとデータベース部１０３に格納されているリファレンスデータとを比較して距離値（類似度）を算出する。このマッチング部１０４は、類似度算出部５を有する。

類似度算出部５は、ゼロクロス数抽出部３で得られたゼロクロス数とリファレンスデータ記憶部４に格納されているゼロクロス数データとの類似度を算出する。このときの類似度をＳとすると、類似度Ｓは次式で計算される。

式（１）において、Ｎはフレーム数である。類似度算出部５は、ゼロクロス数抽出部３で得られた、フレームｉにおけるゼロクロス数を式（１）のｘｉに代入し、リファレンスデータ記憶部４に格納されている、フレームｉにおけるゼロクロス数データを式（１）のｙｉに代入する。このような代入をｉ＝１〜Ｎのそれぞれについて行うことにより、類似度Ｓを算出する。

以上のように、本実施の形態では、音声特徴パラメータとしてゼロクロス数を用いることにより、声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価することができる。また、本実施の形態では、声の掠れ具合などの定量的評価の１例として、ゼロクロス数と予め登録されたリファレンスデータとの類似度を算出している。これにより、本実施の形態では、歌の物真似を評価する際の１つの尺度、あるいは歌に限らず、台詞回しなどの物真似を評価する際の１つの尺度として、声の掠れや息づかい、摩擦音や破裂音の発声等の類似度を用いることが可能になる。

なお、本実施の形態で説明した評価装置のうちパラメータ抽出部１０２とデータベース部１０３とマッチング部１０４とは、ＣＰＵ、メモリ及びインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。ＣＰＵは、メモリに格納されたプログラムに従って本実施の形態で説明したような処理を実行する。

本発明は、人の声を定量的に評価する技術に適用することができる。

本発明の実施の形態となる音声評価装置の構成を示すブロック図である。図１の音声分析部の構成を示すブロック図である。入力音声データとノイズやＢＧＭを除去した後の音声データの波形図である。ゼロクロス数の導出方法を示す図である。ゼロクロス数の時間分布の１例を示す図である。

符号の説明

１０１…前処理部、１０２…パラメータ抽出部、１０３…データベース部、１０４…マッチング部、１…入力部、２…音声分析部、３…ゼロクロス数抽出部、４…リファレンスデータ記憶部、５…類似度算出部、２０…ノイズ・ＢＧＭ除去フィルター、Ｓ…類似度。

Claims

入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出手順と、
このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価する評価手順とを有することを特徴とする音声評価方法。
請求項１記載の音声評価方法において、
前記評価手順は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出手順を含むことを特徴とする音声評価方法。
入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部と、
このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価するマッチング部とを有することを特徴とする音声評価装置。
請求項３記載の音声評価装置において、
前記マッチング部は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出部を含むことを特徴とする音声評価装置。