JP2006154212A - 音声評価方法および評価装置 - Google Patents
音声評価方法および評価装置 Download PDFInfo
- Publication number
- JP2006154212A JP2006154212A JP2004343854A JP2004343854A JP2006154212A JP 2006154212 A JP2006154212 A JP 2006154212A JP 2004343854 A JP2004343854 A JP 2004343854A JP 2004343854 A JP2004343854 A JP 2004343854A JP 2006154212 A JP2006154212 A JP 2006154212A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- zero
- similarity
- evaluation
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価する。
【解決手段】音声評価装置は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部102と、ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出するマッチング部104とを有する。
【選択図】 図1
【解決手段】音声評価装置は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部102と、ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出するマッチング部104とを有する。
【選択図】 図1
Description
本発明は、人の声を定量的に評価する技術に係り、特に声の掠れや息づかい、摩擦音や破裂音の発声を評価する音声評価方法および評価装置に関するものである。
声帯模写とは、一般的には、ある特定の人の発声の癖や声質を意図的に模倣する行為であり、例えば有名人の声の真似や歌手の歌い方の特徴を真似するものである。このような声帯模写において声色の類似性の判断を、人の感覚ではなく、システマティックに評価するためには、音声を定量化する必要がある。
現在、音声を定量的に評価する身近な応用例として、カラオケの採点システムが提案されている(例えば、特許文献1、特許文献2参照)。この採点システムは、人の歌唱を評価する技術として、人の音声の高低(ピッチ)と楽譜の音符との類似度評価を時系列で行うものである。
一方、人の音声を特定する技術として、声紋と呼ばれる音声の周波数成分、とりわけフォルマントと呼ばれる周波数成分が強く現れている部分を用いて時系列的にあるいは瞬間的に音声のマッチングを行うものがある(例えば、非特許文献1、非特許文献2参照)。
一方、人の音声を特定する技術として、声紋と呼ばれる音声の周波数成分、とりわけフォルマントと呼ばれる周波数成分が強く現れている部分を用いて時系列的にあるいは瞬間的に音声のマッチングを行うものがある(例えば、非特許文献1、非特許文献2参照)。
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
特開平11−259081号公報
特開2000−132176号公報
鹿野清宏,中村哲,伊勢史郎共著,「音声・音情報のディジタル信号処理 ディジタル信号処理シリーズ第5巻」,昭晃堂,1997年,p.35−58
今井聖著,「音声信号処理 音声の性質と聴覚の特性を考慮した信号処理」,森北出版株式会社,1996年,p.58−94
従来のカラオケの採点システムでは、音声のピッチと楽譜の音符とが対応しているか否かを評価するだけであり、音程に対する忠実さを評価することはできるが、それは人の音声の中の一部の要素であり、発声の癖を評価することはできないという問題点があった。
人の声を特徴づける要素として、「ハスキーボイス」と呼ばれる声質や息づかい、サ行などの摩擦音の発声、「チ、ツ」などの破裂音の発声等が挙げられる。とりわけ、「ハスキーボイス」は、人が歌声を聴く際に、最も知覚しやすい特徴であるといえる。前述のように、人の声質を評価する技術として、フォルマント成分を用いて音声のマッチングを行う技術があるが、この方法では、「ハスキーボイス」と呼ばれる声の掠れ具合や息づかい、摩擦音や破裂音の発声を評価することは困難である。
人の声を特徴づける要素として、「ハスキーボイス」と呼ばれる声質や息づかい、サ行などの摩擦音の発声、「チ、ツ」などの破裂音の発声等が挙げられる。とりわけ、「ハスキーボイス」は、人が歌声を聴く際に、最も知覚しやすい特徴であるといえる。前述のように、人の声質を評価する技術として、フォルマント成分を用いて音声のマッチングを行う技術があるが、この方法では、「ハスキーボイス」と呼ばれる声の掠れ具合や息づかい、摩擦音や破裂音の発声を評価することは困難である。
本発明の目的は、声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価することができる音声評価方法および評価装置を提供することにある。
本発明の音声評価方法は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出手順と、このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価する評価手順とを有するものである。
また、本発明の音声評価方法の1構成例において、前記評価手順は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出手順を含むものである。
また、本発明の音声評価方法の1構成例において、前記評価手順は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出手順を含むものである。
また、本発明の音声評価装置は、入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部と、このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価するマッチング部とを有するものである。
また、本発明の音声評価装置の1構成例において、前記マッチング部は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出部を含むものである。
また、本発明の音声評価装置の1構成例において、前記マッチング部は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出部を含むものである。
本発明によれば、単なる音程の忠実度を測るのではなく、音声特徴パラメータであるゼロクロス数を求めることにより、声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価することができる。これにより、本発明では、発声者に固有の声の掠れ具合や発声方法の癖を評価することができる。
また、本発明では、ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出することにより、ゼロクロス数に基づく声の掠れ等の定量的評価を実現することができる。また、歌や台詞回しなどの声色の類似度を評価する際の1つの有効な尺度として、声の掠れ等の類似度を用いることが可能になる。
本発明は、ゼロクロス数を用いて人の声の掠れ具合や、発声中に現われる息づかい、摩擦音や破裂音の発声等を評価することを最も主要な特徴とする。これまでの技術である、人の声の高さを表わす物理パラメータであるピッチを用いた時系列マッチングは、実用サービスとしてカラオケの採点システムなどで用いられている。この評価方法では、楽譜の音程に対する忠実度を測ることができるが、発声の癖まで評価することはできない。
人の声の中で、とりわけ人が知覚しやすいものとして、「ハスキーボイス」と呼ばれる掠れた声が挙げられる。スペクトログラムを観察すると、声が掠れている部分や息づかいの部分では、連続的な雑音エネルギが現われていることが分かる。しかしながら、雑音エネルギの有無、あるいは雑音エネルギの濃さをスペクトログラムから定量的に測ることは難しい。
単位時間あたりのゼロクロス数は、音声波形がゼロレベルと交差した回数、つまり音声波形の振幅の密度を表わし、一般的には、音声とノイズの判別に用いられている。本実施の形態では、このゼロクロス数を音声特徴パラメータとして用いる。声の掠れや息づかい、あるいは摩擦音や破裂音が強くなると、ゼロクロス数が大きくなる。そこで、本実施の形態では、このゼロクロス数を用いて、声の掠れや息づかい、摩擦音や破裂音の発声等を定量的に評価する。
図1は本発明の実施の形態となる音声評価装置の構成を示すブロック図である。この評価装置は、前処理部101と、パラメータ抽出部102と、データベース部103と、マッチング部104とから構成される。各構成の動作は以下のとおりである。
前処理部101は、入力部1と、音声分析部2とを有する。比較対象となる音声データは、図示しない音声入力装置(マイクやコンピュータ、磁気ディスク装置、光ディスク装置等)から入力部1に入力される。入力信号がアナログ音声信号の場合、入力部1は、音声信号をD/A変換して音声データを生成する。
音声分析部2は、図2に示すようにノイズ・BGM除去フィルター20を有し、入力部1から入力された図3(A)のような音声データからノイズやBGM(background music )などを除去して、対象となる人の音声を抽出する。ノイズやBGM除去後の音声データを図3(B)に示す。なお、音声データはデジタル信号であるが、図3(A)、図3(B)では、音声データをアナログで表している。
パラメータ抽出部102は、ゼロクロス数抽出部3を有する。ゼロクロス数抽出部3は、前処理部101から入力された音声データ中のゼロクロスの数をカウントすることにより、単位時間(フレーム)あたりのゼロクロス数を求める。図4はゼロクロス数の導出方法を示す図、図5はゼロクロス数の時間分布の1例を示す図である。図4に示すように、ゼロクロス数抽出部3は、音声のレベルが0となるゼロクロスの出現回数を単位時間毎に数える。
データベース部103は、リファレンスデータ記憶部4を有する。リファレンスデータ記憶部4は、音声特徴パラメータの比較対象となるリファレンスデータを特徴ベクトルとして予め記憶している。
マッチング部104は、パラメータ抽出部102から入力された音声特徴パラメータとデータベース部103に格納されているリファレンスデータとを比較して距離値(類似度)を算出する。このマッチング部104は、類似度算出部5を有する。
マッチング部104は、パラメータ抽出部102から入力された音声特徴パラメータとデータベース部103に格納されているリファレンスデータとを比較して距離値(類似度)を算出する。このマッチング部104は、類似度算出部5を有する。
類似度算出部5は、ゼロクロス数抽出部3で得られたゼロクロス数とリファレンスデータ記憶部4に格納されているゼロクロス数データとの類似度を算出する。このときの類似度をSとすると、類似度Sは次式で計算される。
式(1)において、Nはフレーム数である。類似度算出部5は、ゼロクロス数抽出部3で得られた、フレームiにおけるゼロクロス数を式(1)のxiに代入し、リファレンスデータ記憶部4に格納されている、フレームiにおけるゼロクロス数データを式(1)のyiに代入する。このような代入をi=1〜Nのそれぞれについて行うことにより、類似度Sを算出する。
以上のように、本実施の形態では、音声特徴パラメータとしてゼロクロス数を用いることにより、声の掠れや息づかい、摩擦音や破裂音の発声を定量的に評価することができる。また、本実施の形態では、声の掠れ具合などの定量的評価の1例として、ゼロクロス数と予め登録されたリファレンスデータとの類似度を算出している。これにより、本実施の形態では、歌の物真似を評価する際の1つの尺度、あるいは歌に限らず、台詞回しなどの物真似を評価する際の1つの尺度として、声の掠れや息づかい、摩擦音や破裂音の発声等の類似度を用いることが可能になる。
なお、本実施の形態で説明した評価装置のうちパラメータ抽出部102とデータベース部103とマッチング部104とは、CPU、メモリ及びインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。CPUは、メモリに格納されたプログラムに従って本実施の形態で説明したような処理を実行する。
本発明は、人の声を定量的に評価する技術に適用することができる。
101…前処理部、102…パラメータ抽出部、103…データベース部、104…マッチング部、1…入力部、2…音声分析部、3…ゼロクロス数抽出部、4…リファレンスデータ記憶部、5…類似度算出部、20…ノイズ・BGM除去フィルター、S…類似度。
Claims (4)
- 入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出手順と、
このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価する評価手順とを有することを特徴とする音声評価方法。 - 請求項1記載の音声評価方法において、
前記評価手順は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出手順を含むことを特徴とする音声評価方法。 - 入力音声データからゼロクロス数を音声特徴パラメータとして抽出するパラメータ抽出部と、
このゼロクロス数を基に声の掠れや息づかい、摩擦音や破裂音の発声を評価するマッチング部とを有することを特徴とする音声評価装置。 - 請求項3記載の音声評価装置において、
前記マッチング部は、前記ゼロクロス数と予め登録された比較対象となるリファレンスデータとの類似度を算出する類似度算出部を含むことを特徴とする音声評価装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004343854A JP2006154212A (ja) | 2004-11-29 | 2004-11-29 | 音声評価方法および評価装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004343854A JP2006154212A (ja) | 2004-11-29 | 2004-11-29 | 音声評価方法および評価装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006154212A true JP2006154212A (ja) | 2006-06-15 |
Family
ID=36632618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004343854A Withdrawn JP2006154212A (ja) | 2004-11-29 | 2004-11-29 | 音声評価方法および評価装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006154212A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100802984B1 (ko) | 2006-11-24 | 2008-02-14 | 연세대학교 산학협력단 | 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치 |
JP2008145940A (ja) * | 2006-12-13 | 2008-06-26 | Yamaha Corp | 音声評価装置及び音声評価方法 |
JP2008170263A (ja) * | 2007-01-11 | 2008-07-24 | Teijin Fibers Ltd | 布帛摩擦時の摩擦音測定方法 |
JP2010164971A (ja) * | 2009-01-16 | 2010-07-29 | Internatl Business Mach Corp <Ibm> | 口語技能の評価 |
JP2012098749A (ja) * | 2012-01-18 | 2012-05-24 | Casio Comput Co Ltd | 歌唱採点装置および歌唱採点プログラム |
CN103971674A (zh) * | 2014-05-22 | 2014-08-06 | 天格科技(杭州)有限公司 | 一种评分准确、用户体验好的演唱实时评分方法 |
WO2020103550A1 (zh) * | 2018-11-19 | 2020-05-28 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、终端设备及计算机存储介质 |
CN112309429A (zh) * | 2019-07-30 | 2021-02-02 | 上海流利说信息技术有限公司 | 一种失爆检测方法、装置、设备及计算机可读存储介质 |
-
2004
- 2004-11-29 JP JP2004343854A patent/JP2006154212A/ja not_active Withdrawn
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100802984B1 (ko) | 2006-11-24 | 2008-02-14 | 연세대학교 산학협력단 | 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치 |
JP2008145940A (ja) * | 2006-12-13 | 2008-06-26 | Yamaha Corp | 音声評価装置及び音声評価方法 |
JP4595934B2 (ja) * | 2006-12-13 | 2010-12-08 | ヤマハ株式会社 | 音声評価装置及び音声評価方法 |
JP2008170263A (ja) * | 2007-01-11 | 2008-07-24 | Teijin Fibers Ltd | 布帛摩擦時の摩擦音測定方法 |
JP2010164971A (ja) * | 2009-01-16 | 2010-07-29 | Internatl Business Mach Corp <Ibm> | 口語技能の評価 |
US8775184B2 (en) | 2009-01-16 | 2014-07-08 | International Business Machines Corporation | Evaluating spoken skills |
JP2012098749A (ja) * | 2012-01-18 | 2012-05-24 | Casio Comput Co Ltd | 歌唱採点装置および歌唱採点プログラム |
CN103971674A (zh) * | 2014-05-22 | 2014-08-06 | 天格科技(杭州)有限公司 | 一种评分准确、用户体验好的演唱实时评分方法 |
WO2020103550A1 (zh) * | 2018-11-19 | 2020-05-28 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、终端设备及计算机存储介质 |
CN112309429A (zh) * | 2019-07-30 | 2021-02-02 | 上海流利说信息技术有限公司 | 一种失爆检测方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yegnanarayana et al. | Epoch-based analysis of speech signals | |
JP5961950B2 (ja) | 音声処理装置 | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
Le Cornu et al. | Reconstructing intelligible audio speech from visual speech features. | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
Nema et al. | Preprocessing signal for speech emotion recognition | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
JP2009020460A (ja) | 音声処理装置およびプログラム | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Staroniewicz | Influence of natural voice disguise techniques on automatic speaker recognition | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
WO2021152786A1 (ja) | 訓練装置、その方法、およびプログラム | |
Tomchuk | Spectral masking in MFCC calculation for noisy speech | |
Alam et al. | Neural response based phoneme classification under noisy condition | |
Mehendale et al. | Speaker identification | |
Kumar et al. | Formant measure of Indian English vowels for speaker identity | |
JP2008224911A (ja) | 話者認識システム | |
Patil et al. | Person recognition using humming, singing and speech | |
Sudro et al. | Modification of Devoicing Error in Cleft Lip and Palate Speech. | |
Amin et al. | Nine voices, one artist: Linguistic and acoustic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080205 |