JP2011141540A - 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 - Google Patents

音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 Download PDF

Info

Publication number
JP2011141540A
JP2011141540A JP2010273976A JP2010273976A JP2011141540A JP 2011141540 A JP2011141540 A JP 2011141540A JP 2010273976 A JP2010273976 A JP 2010273976A JP 2010273976 A JP2010273976 A JP 2010273976A JP 2011141540 A JP2011141540 A JP 2011141540A
Authority
JP
Japan
Prior art keywords
voice
audio signal
audio
unit
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010273976A
Other languages
English (en)
Inventor
Osamu Fujii
修 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010273976A priority Critical patent/JP2011141540A/ja
Publication of JP2011141540A publication Critical patent/JP2011141540A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】インパルス等の試験用音源を用いることなく、実際の発話音声である入力された音声信号における音声の明瞭度に応じて、自動的に発話音声の強調度合いを変更する音声信号処理装置を提供する。
【解決手段】音声信号処理装置1は、入力された音声信号における、音声の明瞭度を算出する類似度算出部52と、類似度算出部52が算出した明瞭度に応じて、上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性を変更する制御部53とを備えている。
【選択図】図1

Description

本発明は、テレビ受信装置またはラジオ受信装置などに設けられ、放送中の番組などの音声信号における音声を強調する音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体に関するものである。
リビングまたは台所などにおいてテレビ放送などのコンテンツを視聴する場合には、音量が小さくても、台詞などの人の声が正確に認識できることが要求される。また、音声(人の声)を聞き取り易くするため、騒音または効果音については強調されないことが好ましい。
以上のことから、放送中、または再生中のコンテンツにおいて、状況に応じて音声のみを強調して、騒音や音楽などを抑制する必要がある。
この音声における音声明瞭度の評価方法としてSTI(Speech Transmission Index)等が周知となっている。STIは、ホールの音響設計などの空間特性を把握するための指標として用いられる。STIは、音源位置において発せられた音声波形の包絡線が、受音位置においてどのくらい保たれているかに着目した明瞭度評価指標によって表現される。STIの測定には、実際の音声信号ではなく、帯域ノイズに正弦波変調を掛け合わせたインパルス等の試験信号が用いられる。受音位置におけるこの試験信号の波形が、ホールの残響または騒音等により変化する度合い、すなわち変調度(正弦波の振幅の比)が変化する度合いによりSTIは求められる。また、STIは、伝送系のインパルス応答から求められることも周知となっている。
また、特許文献1には、発話音声の明瞭度を評価する明瞭度評価装置が開示されている。具体的には、入力された音声信号を有音部と無音部とに分離し、その各々に対して位相相関分析をする。次に、有音部に対する位相相関分析結果と無音部に対する位相相関分析結果との類似度に基づいて、発話音声の位相相関関数PCIを求め、このPCIに基づいて発話音声の明瞭度を評価する。
また、特許文献2には、電話のマイクロホンを通して暗騒音レベルを測定し、この測定結果に基づいて、低周波数を強調するイコライザの動作を変更する電話装置が開示されている。
また、特許文献3には、音楽シーン、音声シーンなどを、各種の音の特性に基づいて精度よく判別する音楽検出装置、および音声検出装置が開示されている。
また、特許文献4には、主に人の声を表す音声信号である共通成分を抽出し、左右チャンネルから当該共通成分を減算して得られる人の声以外の周囲の音(雑音、背景音楽、または効果音)を生成し、人の声と効果音等との周波数特性またはレベルを調整する音声信号変換装置が開示されている。
特開2006−323265号公報(公開日:2006年11月30日) 特開平9−135194号公報(公開日:1997年5月20日) 特開2009−69425号公報(公開日:2009年4月2日) 特開2009−193031号公報(公開日:2009年8月27日)
しかし、上述した従来技術には次のような問題がある。
STIは、上述したように、実際の音声信号ではなくインパルス等の試験用音源といった試験信号を用いる。このため、入力されたコンテンツまたは再生機における実際の音声信号の明瞭度を評価し、その評価結果に応じてコンテンツまたは再生機の音声信号における音声を強調することができない。したがって、STIは実用性に欠けている。
また、特許文献1に記載の技術においては、PCIに基づいて発話音声の明瞭度を評価する。そして、明瞭度を評価し、明瞭度に応じて音声の出力レベルを制御するといった用途に利用可能との記載はあるが、その具体的方法は示されていない。
また、特許文献2に記載の技術は、暗騒音レベルの測定結果に基づいて、低周波数を強調するイコライザの動作を変更するものではある。しかしながら、暗騒音の増幅を抑えるものであり、明瞭度を高めるようにコンテンツに含まれる音声信号そのものを強調することはできない。
また、特許文献3に記載の技術は、音楽シーン、音声シーンなどを、各種の音の特性に基づいて精度よく判別できる。しかしながら、判別結果に応じて音声信号における音声を強調することはできない。
また、特許文献4に記載の技術は、左右チャンネルから主に人の声を表すスペクトルの共通成分を抽出し、当該共通成分の周波数特性またはレベルを調整する。しかしながら、特許文献4に記載の技術においては、抽出する共通成分に対する重み付け、すなわち人の声を聞こえ易くするための、共通成分を乗算する乗数の値が固定値であり、またイコライザの周波数特性も固定値である。したがって、共通成分の特性例えば標準音声との類似度に応じて音声信号における音声を強調するといったことはできない。
本発明は上記の問題に鑑みてなされたものであり、その目的は、インパルス等の試験用音源を用いることなく、実際の発話音声である入力された音声信号における音声の明瞭度に応じて、自動的に発話音声の強調度合いを変更する音声信号処理装置を提供することにある。
上記課題を解決するために、本発明に係る音声信号処理装置は、入力された音声信号における、音声の明瞭度を算出する算出手段と、上記算出手段が算出した明瞭度に応じて上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性のうち少なくともいずれか一方を変更する制御手段とを備えていることを特徴としている。
上記の構成によれば、本発明の音声信号処理装置は、実際の発話音声である入力された音声信号を一定時刻毎に解析し、音声信号における音声の明瞭度を算出する。次に、算出した明瞭度の値に応じて音声信号における音声を強調するように音声のミキシング割合または音声の周波数特性のうち少なくともいずれか一方を変更する。したがって、実際の発話音声である入力された音声信号における音声の明瞭度に応じて音声信号における音声を強調するため、インパルス等の試験用音源を用いる必要がない。このため、即座に音声信号における音声を強調できる。また、入力された音声信号における音声の明瞭度に応じて、自動的に当該音声信号の強調度合いを変更できる。例えば、音声の明瞭度が高い場合、すなわち音声信号における音声を強調する必要がない場合に無駄に音声信号における音声を強調することを防止できる。また、音声の明瞭度がより低い場合に、音声信号における音声をより大きく強調することができる。以上のように、音声信号処理装置は、インパルス等の試験用音源を用いることなく、実際の発話音声である入力された音声信号における音声の明瞭度に応じて、自動的に発話音声の強調度合いを変更することによって、音声信号における音声を強調できるという効果を奏する。
上記課題を解決するために、本発明に係る音声信号処理方法は、入力された音声信号における、音声の明瞭度を算出する工程と、上記算出した明瞭度に応じて、上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性のうち少なくともいずれか一方を変更する工程とを含んでいることを特徴としている。
上記の構成によれば、本発明に係る音声信号処理装置と同様の作用効果を奏する。
本発明に係る音声信号処理装置は、上記音声信号における音声区間を検出する音声区間検出手段をさらに備え、上記算出手段は、上記音声区間における音声の明瞭度を算出することが好ましい。
上記の構成によれば、上記音声信号処理装置は、上記音声信号における音声区間を検出することができる。したがって、算出手段は、入力された音声信号における音声区間における音声を確実に検出することができるという更なる効果を奏する。
また、上記音声信号処理装置は、音声を含んだ区間の明瞭度を算出するため、音声信号における全ての区間の明瞭度を算出する場合と比べ、省電力効果を得ることができる。
本発明に係る音声信号処理装置における上記算出手段は、上記音声信号における音声と標準音声との類似度を算出することによって、上記明瞭度を算出することが好ましい。
上記の構成によれば、算出手段は、実際の発話音声である入力された音声信号を一定時刻毎に解析し、音声信号における音声と標準音声との類似度を算出する。次に、算出した類似度の値に応じて音声信号における音声を強調する。したがって、実際の発話音声である入力された音声信号の類似度に応じて音声信号における音声を強調するため、インパルス等の試験用音源を用いる必要がない。このため、音声信号における音声をより確実に強調できる。また、入力された音声信号の類似度に応じて、自動的に当該音声信号の強調度合いを変更できる。例えば、標準音声との類似度が高い場合、すなわち音声信号における音声を強調する必要がない場合に無駄に音声信号における音声を強調することを防止できる。また、類似度がより低い場合に、音声信号における音声をより大きく強調することができる。以上のように、音声信号処理装置は、インパルス等の試験用音源を用いることなく、実際の発話音声である入力された音声信号を一定時刻毎に解析し、音声信号における音声と標準音声との類似度に応じて、自動的に発話音声の強調度合いを変更することによって、音声信号における音声を強調できるという効果を奏する。
本発明に係る音声信号処理装置は、上記音声信号の基本周波数を抽出する基本周波数抽出手段をさらに備えており、上記算出手段は、上記基本周波数抽出手段によって抽出された基本周波数に対応する、予め定められた所定周波数を複数抽出する所定周波数抽出手段と、上記予め定められた所定周波数各々に対応する、期待値として予め定められた複数の振幅各々と、上記音声信号の上記予め定められた所定周波数各々における実際の振幅各々との比率を上記所定周波数ごとに算出する比率算出手段と、上記算出された複数の比率に基づいて類似度を算出する比率処理手段とを備えていることが好ましい。
上記の構成によれば、上記基本周波数抽出手段は、入力された音声信号の基本周波数を抽出する。上記所定周波数抽出手段は、抽出された基本周波数に対応する、予め定められた所定周波数を複数抽出する。上記比率算出手段は、上記予め定められた所定周波数各々に対応する、期待値として予め定められた複数の振幅各々と、上記音声信号の上記予め定められた所定周波数各々における実際の振幅各々との比率を上記所定周波数ごとに算出する。上記比率処理手段は、上記算出された複数の比率に基づいて類似度を算出する。したがって、上記類似度算出手段は、入力された音声信号の周波数を測定することによって類似度を算出できるという更なる効果を奏する。
本発明に係る音声信号処理装置における上記比率処理手段は、上記算出された複数の比率の標準偏差を算出することによって、類似度を算出することが好ましい。
上記の構成によれば、上記比率処理手段は、上記算出された複数の比率の標準偏差を算出することによって、入力された音声信号の類似度を算出できるという更なる効果を奏する。
本発明に係る音声信号処理装置における上記予め定められた所定周波数は、ホルマント周波数であることが好ましい。
上記の構成によれば、上記類似度算出手段は、ホルマント周波数を用いて、入力された音声信号の類似度を算出できるという更なる効果を奏する。
本発明に係る音声信号処理装置は、右チャンネルに対応する右側音声信号のスペクトルおよび左チャンネルに対応する左側音声信号のスペクトルに共通して含まれている共通成分を抽出する共通成分抽出手段をさらに備えていることが好ましい。
上記の構成によれば、上記音声信号処理装置の上記共通成分抽出手段は、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する。共通成分とは、右側音声信号のスペクトルと左側音声信号のスペクトルとに共通して含まれるスペクトル成分である。つまり、共通成分とは、全ての周波数帯域において、右側音声信号のスペクトルと左側音声信号のスペクトルのうち、絶対値が小さい方のスペクトル成分を抽出したものである。したがって、音声信号処理装置は共通成分として、右側音声信号および左側音声信号に共通して含まれている主として人の声を表す音声信号の成分を抽出できるという更なる効果を奏する。
本発明に係る音声信号処理装置は、上記右側音声信号のスペクトルに第1の乗数を乗じる第1の乗算手段、上記左側音声信号のスペクトルに第2の乗数を乗じる第2の乗算手段、および上記共通成分のスペクトルに第3の乗数を乗じる第3の乗算手段をさらに備えており、上記制御手段は、上記第3の乗数を1より大きくするか、上記第1の乗数を1より小さくするか、または上記第2の乗数を1より小さくするように、上記第1、第2および第3の乗算手段の少なくとも1つを制御することが好ましい。
上記の構成によれば、上記音声信号処理装置の上記制御手段は、上記音声区間検出手段が検出した音声区間において、共通成分のスペクトルに乗じる第3の乗数を1より大きくするように第3の乗算手段を制御する。これにより、共通成分のスペクトルすなわち主に人の声に対応する音声信号における音声を強調する。または、上記制御手段は、上記音声区間において、第1の乗数を1より小さくするように第1の乗算手段を制御する。これにより、右側音声信号のスペクトルすなわち周囲の音に対応する音声信号を減衰することによって、相対的に主に人の声に対応する音声信号における音声を強調する。または、上記制御手段は、上記音声区間において、第2の乗数を1より小さくする第2の乗算手段を制御する。これにより、左側音声信号のスペクトルすなわち周囲の音に対応する音声信号を減衰することによって、相対的に主に人の声に対応する音声信号における音声を強調する。
以上のことから、上記音声信号処理装置は、入力された音声信号における音声区間において、乗算手段の少なくとも1つを制御することによって主に人の声に対応する音声信号における音声を強調できるという更なる効果を奏する。
本発明に係る音声信号処理装置は、上記右チャンネルに対応するイコライザである第1のレベル調整手段、上記左チャンネルに対応するイコライザである第2のレベル調整手段、および上記共通成分に対応する中央チャンネルに対応するイコライザである第3のレベル調整手段をさらに備えており、上記制御手段は、上記第3のレベル調整手段が音声信号を増幅するか、上記第1のレベル調整手段が音声信号を減衰するか、または上記第2のレベル調整手段が音声信号を減衰するように、上記第1、第2および第3のレベル調整手段の少なくとも1つを制御することが好ましい。
上記の構成によれば、上記音声信号処理装置の上記制御手段は、上記音声区間検出手段が検出した音声区間において、主に人の声を出力する中央チャンネルに対応する第3のレベル調整手段の音声信号を増幅する。これにより、主に人の声に対応する音声信号における音声を強調する。または、上記制御手段は、上記音声区間において、第1のレベル調整手段の音声信号すなわち周囲の音に対応する音声信号を減衰する。これにより、相対的に主に人の声に対応する音声信号における音声を強調する。または、上記制御手段は、上記音声区間において、第2のレベル調整手段の音声信号すなわち周囲の音に対応する音声信号を減衰する。これにより、相対的に主に人の声に対応する音声信号における音声を強調する。
以上のことから、上記音声信号処理装置は、入力された音声信号における音声区間において、レベル調整手段の少なくとも1つを制御することによって主に人の声に対応する音声信号における音声を強調できるという更なる効果を奏する。
本発明に係る音声信号処理装置は、上記共通成分における音声区間を検出する音声区間検出手段をさらに備え、上記制御手段は、上記音声区間検出手段が検出した音声区間以外の区間である非音声区間において、上記第1、第2および第3の乗数を1とすることが好ましい。
上記の構成によれば、上記音声信号処理装置の上記制御手段は、上記音声区間検出手段が検出した音声区間以外の区間である非音声区間において、上記第1、第2および第3の乗数を1とする。したがって、上記非音声区間において、無駄に音声信号における音声を強調する処理をしないという更なる効果を奏する。
また、上記音声信号処理装置を備えたテレビジョン受像機も本発明の範疇に含まれる。
なお、上記音声信号処理装置は、コンピュータによって実現してもよい。この場合、コンピュータを上記各手段として動作させることにより上記音声信号処理装置をコンピュータにおいて実現するプログラム、およびそのプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
以上のように、本発明に係る音声信号処理装置は、入力された音声信号における、音声の明瞭度を算出する算出手段と、上記算出手段が算出した明瞭度に応じて上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性のうち少なくともいずれか一方を変更する制御手段とを備えている。したがって、インパルス等の試験用音源を用いることなく、実際の発話音声である入力された音声信号を一定時刻毎に解析し、音声信号における音声の明瞭度に応じて、自動的に発話音声の強調度合いを変更できる。
また、本発明に係る音声信号処理方法は、入力された音声信号における、音声の明瞭度を算出する工程と、上記算出した明瞭度に応じて、上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性のうち少なくともいずれか一方を変更する工程とを含んでいる。したがって、インパルス等の試験用音源を用いることなく、実際の発話音声である入力された音声信号を一定時刻毎に解析し、音声信号における音声の明瞭度に応じて、自動的に発話音声の強調度合いを変更できる。
本発明に係る音声信号処理装置の構成を示すブロック図である。 共通成分を説明するための図であり、(a)は右側音声信号スペクトル(Rチャンネル)と左側音声信号スペクトル(Lチャンネル)との共通成分を示す図であり、(b)は共通成分のみを示す図である。 右側音声信号スペクトル(Rチャンネル)、および、左側音声信号スペクトル(Lチャンネル)から共通成分スペクトルを除いた残りの成分を示す図であり、(a)は左成分スペクトルXL’(k)を示す図であり、(b)は右成分スペクトルXR’(k)を示す図である。 右成分出力スペクトルXR”(k)、および、左成分出力スペクトルXL”(k)を示す図であり、(a)は図3(a)に示す右成分スペクトルに所定の乗数を乗じて算出された右成分出力スペクトルXR”(k)を示す図であり、(b)は図3(b)に示す左成分スペクトルに所定の乗数を乗じて算出された左成分出力スペクトルXL”(k)を示す図である。 略2kHzをピークとした人の声の帯域を強調するパラメトリックイコライザの周波数特性例を示す図である。 等ラウドネス曲線に基づいて作成した略4kHzを最小値とするパラメトリックイコライザの周波数特性例を示す図である。 ロビンソンらが測定した等ラウドネス曲線を示す図である。 本発明に係る音声信号処理装置の構成を示すブロック図である。 本発明に係る音声検出装置の音声区間検出部、類似度算出部、および制御部の構成を示すブロック図である。 ある音声における所定の周波数を示す図である。 本発明に係る音声信号処理装置1aの構成を示すブロック図である。 本発明に係る音声信号処理装置1bの構成を示すブロック図である。 テレビジョン受像機に本発明の音声信号処理装置を適用した場合の一例を示すブロック図である。
〔実施形態1〕
本発明に係る音声信号処理装置1の一実施形態について、図1〜図10を参照して以下に説明する。
(音声信号処理装置1)
図1は、本発明に係る音声信号処理装置1の構成を示すブロック図である。本発明に係る音声信号処理装置1は、スペクトル変換部2と共通成分抽出部3(共通成分抽出手段)と乗算部4と逆変換部5とパラメトリックイコライザ(PEQ;Parametric Equalizer)部6と減算器7、8と入力端子12と出力端子13と音声区間検出部(音声区間検出手段)51と類似度算出部(算出手段)52と制御部(制御手段)53とを備えている。
スペクトル変換部2は、スペクトル変換部2a、および2bを含んで構成される。乗算部4は、乗算部4a(左右成分低減手段、左右成分増幅手段)、乗算部4b(中央音声出力信号増幅手段、中央音声出力信号低減手段)、および乗算部4c(左右成分低減手段、左右成分増幅手段)を含んで構成される。逆変換部5は、逆変換部5a(左右音声出力信号生成手段)、逆変換部5b(中央音声出力信号生成手段)、および逆変換部5c(左右音声出力信号生成手段)を含んで構成される。PEQ部6は、PEQ部6a(左右レベル調整手段)、PEQ部6b(中央レベル調整手段)、およびPEQ部6c(左右レベル調
整手段)を含んで構成される。入力端子12は、入力端子12a、および12bを含んで構成される。出力端子13は、出力端子13a、および13b、13cを含んで構成される。
音声信号処理装置1は、テレビ受信装置などに実装され、放送中の番組の音声信号における音声を強調する装置である。ここで、音声とは、台詞やボーカルなどの人の声を指し、人の声以外の音(例えば、周囲の雑音やBGMや効果音など)と区別する。つまり、音声信号処理装置1は、放送番組中の人の声を強調する装置である。なお、音声信号と表現した場合、番組中の音声と音声以外の音も含めた全ての音を表す信号を指す。
本実施の形態では、音声信号処理装置1には、PCM(Pulse Code Modulation)によってデジタル符号化された2チャンネルの音声信号が入力される。通常、ステレオ放送などでは、入力された2チャンネルの音声信号に基づいて、テレビに備えられている左右のスピーカに異なる音声信号が供給され、左右のスピーカからは異なる音声が出力される。
以下では、通常のステレオ放送において左右のスピーカに供給される音声信号を、それぞれ、左側音声信号(左チャンネルに対応する左側音声信号)、および右側音声信号(右チャンネルに対応する右側音声信号)と呼ぶ。右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号処理装置1に入力される。
また、本実施の形態では、音声信号処理装置1は、上記の右側音声信号と左側音声信号との2チャンネルの音声信号に基づいて、左右、および、中央の3つのスピーカを介して音声を出力する。つまり、音声信号処理装置1は、入力された2チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの3チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。
以下に、図1に示す音声信号処理装置1における音声強調の処理について説明する。
スペクトル変換部2は、各チャンネルの音声信号のスペクトルを算出するための各種の処理を行う。スペクトル変換部2について詳細に説明すれば次のとおりである。
まず、スペクトル変換部2aは、入力端子12aを介して入力された右側音声信号を、1フレームあたり1024サンプルに分割する。音声信号のサンプリング周波数が44.1kHzの場合、1フレームあたりの時間は、23ms(=(1÷44100)×1024)となる。
次に、スペクトル変換部2aは、フレーム分割された音声信号に対し、ハニング窓などの窓関数を掛ける。窓関数を適用することにより、フレーム分割された音声信号についての周波数解析の誤差を低減できる。本実施の形態では、窓関数としてハニング窓を用いているが、ハニング窓以外の窓関数であってもよく、特に限定はされない。
次に、スペクトル変換部2aは、フレームごとに、窓関数が適用された音声信号に対して高速フーリエ変換(FFT:Fast Fourier Transform)を行い、時間領域の音声信号を周波数領域のデータ、すなわち、スペクトル(以下では、右側音声信号スペクトルと呼ぶ)に変換して、共通成分抽出部3と減算器7とに出力する。
ここで、右側音声信号をxr(n)、右側音声信号スペクトルをXR(k)、窓関数w(n)とすると、スペクトル変換部2aは、次式によって右側音声信号スペクトルXR(k)を算出する。なお、nはサンプリング番号である。本実施の形態においては、上述したとおり、1フレームに1024サンプルが含まれており、スペクトル変換部2aは1024ポイントのFFTを行う。
Figure 2011141540
本実施の形態では、音声信号から周波数スペクトルを算出するためにFFTを行っているが、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)によって周波数スペクトルを算出する構成であってもよく、特に限定はされない。
また、スペクトル変換部2bは、スペクトル変換部2aと同様の処理により、入力端子12bを介して入力された左側音声信号のスペクトル(以下では、左側音声信号スペクトルと呼ぶ)を算出し、共通成分抽出部3と減算器8とに出力する。ここで、左側音声信号をxl(n)、左側音声信号スペクトルをXL(k)、窓関数w(n)とすると、スペクトル変換部2aは、次式によって左側音声信号スペクトルXL(k)を算出する。
Figure 2011141540
共通成分抽出部3は、右側音声信号スペクトルと左側音声信号スペクトルとの共通成分を抽出する。図2は、共通成分を説明するための図であり、(a)は右側音声信号スペクトル(Rチャンネル)と左側音声信号スペクトル(Lチャンネル)との共通成分を示す図であり、(b)は共通成分のみを示す図である。
共通成分抽出部3は、共通成分スペクトルC(k)をC(k)=MIN(XL(k),XR(k))によって算出し、減算器7、8および音声区間検出部51に出力する。つまり、共通成分抽出部3は、XR(k)とXL(k)との小さいほうのスペクトルを共通成分として抽出する。
上述したとおり、本発明の音声信号処理装置1には、ステレオ放送の番組などにおける2チャンネルの入力信号が入力される。一般的なステレオ放送の番組では、音声は音声収録用の1チャンネルマイクによって収録され、ボーカルを除くBGMや効果音等は、予め左右の2つのマイク(ステレオ)で収録されている。これら3つのマイクによって録音された番組を2チャンネルでステレオ放送する場合、3チャンネルの信号を2チャンネルにダウンミックスすることになる。すなわち、音声収録用の1チャンネルマイクによって録音された人の声の信号は、左右の2つのマイクによって録音された周囲の音の信号とミックスされて、2チャンネルの音声信号が送出されることになる。このとき、人の声の信号と周囲の音の信号とをミックスする比率は、放送局において設定される。この場合、上記の右側音声信号は右マイク、および、音声収録用の1チャンネルマイクによって録音された音声をミックスした音声信号である。また、上記の左側音声信号は、左マイク、および、音声収録用の1チャンネルマイクによって録音された音声をミックスした音声信号である。そのため、この場合にも、人の声を表す音声信号は、左側音声信号、および、右側音声信号に共通して含まれる。なお、ボーカルを含む音楽は、同様にボーカルが、音声収録用の1チャンネルマイクによって収録され、楽器音は左右の2つのマイク(ステレオ)で収録されたのち、レコーディングエンジニアによって2チャンネルにダウンミックスされている。前述のような背景を利用してダウンミックスされた2チャンネルの音声信号を、元のダウンミックス前の3チャンネルにおおよそ復元する。ここで、おおよそとは、予め左右の2つのマイク(ステレオ)で収録された信号にも共通成分があり、完全に復元するものではないことを意味する。
つまり、共通成分抽出部3は、右側音声信号、および、左側音声信号に共通して含まれている主として人の声を表す音声信号の成分を、共通成分として抽出する。
減算器7は、スペクトル変換部2aから出力された右側音声信号スペクトルXR(k)から、共通成分抽出部3から出力された共通成分スペクトルC(k)を減算して、右成分スペクトルXR’(k)を算出し、乗算部4aに出力する。つまり、減算器7は、XR’(k)=XR(k)−C(k)の演算を行う。
減算器8は、スペクトル変換部2bから出力された左側音声信号スペクトルXL(k)から、共通成分抽出部3から出力された共通成分スペクトルC(k)を減算して、左成分スペクトルXL’(k)を算出し、乗算部4cに出力する。つまり、減算器8は、XL’(k)=XL(k)−C(k)の演算を行う。
図3は、右側音声信号スペクトル(Rチャンネル)、および、左側音声信号スペクトル(Lチャンネル)から共通成分スペクトルを除いた残りの成分を示す図であり、(a)は左成分スペクトルXL’(k)を示す図であり、(b)は右成分スペクトルXR’(k)を示す図である。
ここで、左成分スペクトルXL’(k)、および、右成分スペクトルXR’(k)は、主として人の声以外の音(BGMや効果音や雑音などの周囲の音)を表す成分である。
乗算部4aは、減算器7から出力されたXR’(k)に乗数M1(0≦M1≦1)を乗じてXR”(k)(=M1×XR’(k))を算出し、逆変換部5aに出力する。また、乗算部4bは、共通成分抽出部3から出力されたC(k)に乗数M2(0≦M2≦1)を乗じてC”(k)(=M2×C(k))を算出し、逆変換部5bに出力する。さらに、乗算部4cは、減算器8から出力されたXL’(k)に乗数M1を乗じてXL”(k)(=M1×XL’(k))を算出し、逆変換部5cに出力する。
以下では、XR”(k)、C”(k)、および、XL”(k)を、それぞれ、右成分出力スペクトル、共通成分出力スペクトル、および、左成分出力スペクトルと称する。
図4は、右成分出力スペクトルXR”(k)、および、左成分出力スペクトルXL”(k)を示す図であり、(a)は図3(a)に示す右成分スペクトルに乗数M1を乗じて算出された右成分出力スペクトルXR”(k)を示す図であり、(b)は図3(b)に示す左成分スペクトルに乗数M1を乗じて算出された左成分出力スペクトルXL”(k)を示す図である。
左成分出力スペクトルXL”(k)、および、右成分出力スペクトルXR”(k)は、周囲の音(人の声以外の音)を表す音声信号の成分である。
逆変換部5aは、周波数領域の情報である右成分出力スペクトルXR”(k)を逆FFTによって時間領域の信号波形に変換して右のスピーカに出力する音声出力信号(右チャンネルに対応する右側音声出力信号)を生成し、PEQ部6aに出力する。また、逆変換部5bは、逆変換部5aと同様の処理を行い、周波数領域の情報である共通成分出力スペクトルC”(k)を逆FFTによって時間領域の信号波形に変換して中央のスピーカに出力する音声出力信号(中央チャンネルに対応する中央音声出力信号)を生成し、PEQ部
6bに出力する。逆変換部5cは、逆変換部5aと同様の処理を行い、周波数領域の情報である左成分出力スペクトルXL”(k)を逆FFTによって時間領域の信号波形に変換して左のスピーカに出力する音声出力信号(左チャンネルに対応する左側音声出力信号)を生成し、PEQ部6cに出力する。
なお、時間波形をFFTして周波数領域に変換し、上記共通成分抽出等を行った後、逆FFTにより再度時間軸の信号波形に戻す場合、フレームのつなぎ目で発生する歪み(高調波成分)を軽減するため、FFT処理前の時間波形の切り出しの始めと終わりの部分を、滑らかに0に近づける窓関数をかける。本実施の形態では、フレームの切り出し時間をtとすると、切り出し時間を1/2tだけずらして、切り出した夫々の波形にハニング窓関数を掛け、逆FFT後のデータに前後1/2tのオーバーラップを行って加算し、連続する時間波形に戻す。本実施の形態では、ハニング窓の形状にあわせて、1/2tのオーバーラップを行っているが、窓の形状に応じたオーバーラップ長を設定すればよく、特に限定はされない。
臨場感を高めたい場合、すなわち、周囲の音を強調したい場合、PEQ部6aは、逆変換部5aから出力される右チャンネルの音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13aを介して右チャンネルのスピーカに出力する。あるいは、乗算部4aにおいて、減算された右側音声信号に対し、1より大きい乗数を乗じることによっても臨場感を高めることができる。
図5は、略2kHzをピークとした人の声の帯域を強調するパラメトリックイコライザの周波数特性例を示す図であり、図6は、等ラウドネス曲線に基づいて作成した略4kHzを最小値とするパラメトリックイコライザの周波数特性例を示す図である。また、図7はロビンソンらが測定した等ラウドネス曲線を示す図である。
人の声を聞こえ易くしたい場合、すなわち、人の声を強調したい場合、PEQ部6bは、逆変換部5bから出力される中央チャンネルの音声出力信号に対し、図5の如く、2kHzをピークとした音声帯域を強調するパラメトリックイコライザを施し、出力端子13bを介して中央チャンネルのスピーカに出力する。あるいは、乗算部4bにおいて、抽出された共通成分に対し、1より大きい乗数を乗じることによっても人の声を聞こえ易くできる。
また、PEQ部6cは、PEQ部6aと同様、臨場感を高めたい場合、すなわち、周囲の音を強調したい場合、逆変換部5cから出力される左チャンネルの音声出力信号に対し、図6の如く、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13cを介して左チャンネルのスピーカに出力する。あるいは、乗算部4cにおいて、減算された左側音声信号に対し、1より大きい乗数を乗じることによっても臨場感を高めることができる。
ここで、ラウドネスとは、人間の音の感じ方を感覚量として表した数値である。ラウドネスは、音の強度を表す物理量である音圧とは区別される。一般的に人間の聴覚は4kHz付近(赤ちゃんの鳴き声など)において最も感度がよく、そこから低周波または高周波になるにつれ、感度が悪くなる。そのため、同じ音の大きさに聞こえた場合であっても、実際の物理的な音圧レベルは異なる。また、音圧が2倍になったとしても、人は音の大きさが2倍大きくなったと感じるわけではない。そして、等ラウドネス曲線とは、1kHzの基準音と等しいラウドネスに聞こえた他の周波数の音圧をプロットしたものであり、図7の如く、4kHz付近において最小値をとる略V字の曲線となる。また、等ラウドネス曲線は、音圧が高くなるにつれて特性が平坦に近づくため、図6で示すパラメトリックイコライザの特性も入力音声信号の入力レベルに応じて変更することが好ましい。
また、パラメトリックイコライザは、オーディオ周波数帯域を数分割することによって、それぞれの帯域ごとに通過レベルのゲイン(1以下を含む)等を調整できるイコライザであり、「中心周波数」、「ゲイン」、「Q(Quality factor)」という3つのパラメータにより、通過帯域の中心周波数や周波数帯域幅を独立に変更調節することができる。ここでQ値とは、中心周波数のレベルから3dB減衰した、または増幅された周波数帯域幅
(Δω)と中心周波数ω0の比Q=ω0/Δωで表される。
つまり、上述したPEQ部6a、および、PEQ部6cでは、等ラウドネス曲線の特性、すなわち、4kHzにおいて通過レベルが最小となる略V字の特性を示すように「中心周波数」と「ゲイン」と「Q(Quality factor)」とが設定されたイコライザが施される。
なお、本実施の形態では、2kHzをピークとした音声帯域を強調する手段として、PEQ部6bを使用したが、PEQ以外のフィルタと増幅器の組み合わせを用いて実現されてもよい。また、FFT後のスペクトルに対して、乗算部4bを用い、2kHzをピークとする重み付けを直接行っても良い。また、周囲の音を強調する手段として、PEQ部6aとPEQ部6cを使用したが、PEQ以外のフィルタと増幅器の組み合わせを用いて実現されてもよい。また、FFT後のスペクトルに対して、乗算部4aと乗算部4cを用いて、等ラウドネス曲線の特性の重み付けを行っても良く、特に限定されない。
また、PEQ部6はパラメトリックイコライザに限定されず、パラメトリックイコライザ以外のイコライザを使用してもよい。例えば、グラフィックイコライザなど、他のイコライザを用いて実現されてもよい。
本発明に係る音声信号処理装置1では、左成分スペクトルXL’(k)と右成分スペクトルXR’(k)とに乗じる乗数M1を小さくすれば音声信号における音声を強調することができる。例えば、共通成分スペクトルに乗じる乗数を1として共通成分スペクトルを生成し、右成分スペクトルと左成分スペクトルとに1未満の乗数を乗じて、左成分出力スペクトル、および右成分出力スペクトルを小さくした場合、人の声に対応する音声出力信号の大きさは変化せず、周囲の音に対応する音声出力信号のみが小さくなるため、共通成分出力スペクトル、左成分出力スペクトル、および右成分出力スペクトルから生成された各音声出力信号に基づいてスピーカから出力される音声は、人の声が強調される。また、右成分スペクトルと左成分スペクトルとに乗数として0を乗じれば、より人の声を強調できる。
一方、共通成分スペクトルの大きさを変化させることなく、左成分スペクトルXL’(k)と右成分スペクトルXR’(k)とに乗じる乗数M1を大きくすれば、周囲の音に対応する音声出力信号が大きくなり、スピーカから出力される周囲の音が大きくなるため、臨場感を高めることができる。
また、右成分スペクトルと左成分スペクトルの大きさを変化させることなく、共通成分スペクトルC(k)に乗じる乗数を大きくすれば音声信号における音声を強調することができる。一方、共通成分スペクトルC(k)に乗じる乗数を小さくすれば臨場感を高めることができる。さらに、共通成分スペクトルに乗数として0を乗じれば、より臨場感を高めることができる。
本実施の形態では、右成分出力スペクトルXR”(k)、共通成分出力スペクトルC”(k)、および、左成分出力スペクトルXL”(k)を算出する場合、右成分スペクトルXR’(k)、共通成分スペクトルC(k)、および、左成分スペクトルXL’(k)に、乗数M1、M2として0〜1の間の数値を乗じる構成だが、1以上の乗数を乗じる構成であってもよく、特に限定はされない。また、左成分スペクトルXL’(k)と右成分スペクトルXR’(k)とに、それぞれ、異なる乗数を乗じる構成であってもよく、特に限定はされない。
なお、本実施の形態では、左成分スペクトルXL’(k)、右成分スペクトルXR’(k)、および共通成分スペクトルC(k)にM1(0〜1の乗数)を乗じることによって、最終的に左チャンネル、右チャンネル、および中央チャンネルに出力される音声出力信号のレベルバランスを変化させる構成であるが、左成分スペクトルXL’(k)、右成分スペクトルXR’(k)、および共通成分スペクトルC(k)に乗数を乗じることなく逆FFTを施して時間波形に変換し、変換により得られた左チャンネル、右チャンネル、および中央チャンネルに対応する音声出力信号を乗数M1、M2と同じ入出力特性となる増幅、減衰器によってそれぞれ増幅、減衰して、各音声出力信号のレベルバランスを変化させる構成であってもよく、特に限定はされない。
すなわち、乗算部4は、スペクトル成分に乗数を乗じる構成のほか、スペクトル成分に逆FFTなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成、あるいは、増幅器によって増幅させる構成によって実現されてもよく、特に限定はされない。
また、乗算部4は、加減算器によって構成されることは周知の事実である。このように、乗算部4は、乗算器に限定されず、加算器、減算器、または除算器、或いは、これらの組み合わせによって実現される構成であってもよい。
また、この音声出力信号のレベルバランスを変化させる処理は、PEQ部6において実現されてもよいし、PEQ部6以外のフィルタと増幅器の組み合わせを用いて実現されてもよく、特に限定はされない。例えば、PEQ部6bにおいて主に人の声に対応する音声信号を増幅すれば、人の声を強調する構成を実現できる。また、PEQ部6aまたは6cにおいて周囲の音に対応する音声信号を増幅すれば、臨場感を高める構成を実現できる。
次に、音声信号処理装置1において、乗算部4の乗数M1および乗数M2、またはPEQ部6の音声信号の増幅を、実際の音声の類似度に基づき変化させることによって、音声出力信号のレベルバランスを変化させる処理の概要を図1を参照して説明する。
音声区間検出部51は、共通成分抽出部3の出力から実際に人の声が発音されている、すなわち発話中の時刻間を検出する。次に、音声区間検出部51は、検出した時刻間に基づいて、共通成分のうちの音声区間のデータそのものを類似度算出部52に出力する。類似度算出部52は、この音声区間のデータにおける類似度を算出する。次に、制御部53は、類似度算出部52が算出した類似度に基づいて、乗算部4の乗数を変更するか、PEQ部6の特性を変化させる。これにより、音声信号処理装置1は、音声出力信号のレベルバランスを変化させる。
次に、音声区間検出部51、類似度算出部52、および制御部53における処理について、図8〜図10を参照して詳細に説明する。
図8は、音声区間検出部51の構成を示すブロック図である。音声区間検出部51は、フレーム分割部37、窓掛け部38、スペクトル変換部39、および音声検出部40を備えている。音声検出部40はさらに、対数スペクトル算出部41、ケプストラム算出部42、基本周波数抽出部43、基本周波数保存部44、ローパスフィルタ部45、フレーズ成分解析部46、アクセント成分解析部47、および音楽/非音声判定部48を備えている。
フレーム分割部37は、共通成分抽出部3から入力された主として音声信号である共通成分をフレーム分割し、窓かけ部36に出力する。本実施の形態では、フレーム分割部37は、1フレームあたり1024サンプルに分割する。共通成分のサンプリング周波数が44.1kHzの場合、1フレームあたりの時間は、23ms(=(1÷44100)×1024)となる。
窓掛け部38は、フレーム分割された共通成分に対しハニング窓などの窓関数を掛けて、スペクトル変換部39に出力する。窓掛け部38において窓関数を適用することにより、フレーム分割された共通成分についての周波数解析の誤差を低減できる。
スペクトル変換部39は、窓掛け部38から出力された共通成分に対してFFT(Fast Fourier Transform)を行い、時間領域の共通成分を周波数領域のデータ、すなわち、スペクトルに変換して、音階スペクトル算出部に出力する。スペクトル変換部39では、フレーム単位にFFTが行われることになる。本実施の形態においては、上述したとおり、1フレームには1024サンプルが含まれており、スペクトル変換部39は、1024ポイントのFFTを行う。
対数スペクトル算出部41は、スペクトル変換部39から受け取るフレームごとのスペクトル(以下では、入力スペクトルと呼ぶ)を基底10の対数に変換する。つまり、対数スペクトル算出部41は、入力スペクトルをspとするとlog10|sp|を算出する。以下では、log10|sp|を対数スペクトルと呼ぶ。そして、対数スペクトル算出部41は、対数スペクトルをケプストラム算出部42に出力する。
ケプストラム算出部42は、対数スペクトル算出部41から出力される対数スペクトルに対して1024ポイントのIFFT(Inverse Fast Fourier Transform)を施し、時間領域のデータであるケプストラムに変換する。そして、ケプストラム算出部42は、算出したケプストラムを、基本周波数抽出部43に出力する。
基本周波数抽出部43は、ケプストラム算出部42から出力されるケプストラムの高次側(約fs/800以上)の最大ケプストラムを抽出し、最大ケプストラムとなるケフレンシーの逆数を基本周波数(F0)として算出する。基本周波数抽出部43は、基本周波数(F0)を基本周波数保存部44とローパスフィルタ部45とに出力する。
なお、基本周波数抽出部43が基本周波数を抽出する方法は、上述した方法に限定されない。例えば、基本周波数抽出部43は、調波成分の瞬時周波数を求めることによって、基本周波数を算出してもよい。
基本周波数保存部44は、基本周波数抽出部43から出力される基本周波数(F0)を記憶する。つまり、基本周波数保存部44は、全てのフレームについて基本周波数(F0)を履歴データとして記憶している。
ローパスフィルタ部45は、基本周波数抽出部43から出力された基本周波数(F0)、すなわち、現在フレームの基本周波数(F0)を低域濾過して、フレーズ成分解析部46に出力する。また、ローパスフィルタ部45は、基本周波数保存部44から、過去フレームについて基本周波数(F0)を取り出し、現在フレームの基本周波数(F0)と同様に、低域濾過して、フレーズ成分解析部46に出力する。ローパスフィルタ部45において低域の基本周波数(F0)、すなわち、ノイズとなるような基本周波数(F0)の情報についてはフレーズ成分解析部46やアクセント成分解析部47に出力されずに、除去される。ローパスフィルタ部45における低域濾過の結果、現在フレームの基本周波数(F0)が出力されない場合、現在フレームについて音声シーンであるか否かの判定は行われない。
本実施の形態では、ローパスフィルタ部45は、基本周波数保存部44から、時間的に現在フレームに近い順に、順次、過去フレームの基本周波数(F0)を取り出して低域濾過して出力する処理を繰り返す。この処理は、4つの基本周波数(F0)がフレーズ成分解析部46に出力されるまで繰り返される。最終的に、ローパスフィルタ部45は、現在フレームと4つの過去フレームとの合計5つのフレームについて、基本周波数(F0)をフレーズ成分解析部46に出力する。
フレーズ成分解析部46は、ローパスフィルタ部45から出力された5つのフレームの基本周波数(F0)について、基本周波数(F0)が単調減少、または、単調増加しているか(すなわち、単調に変化しているか)を解析する。そして、フレーズ成分解析部46は、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間)にあるか否かを判定する。さらに、フレーズ成分解析部46は、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加(すなわち、単調に変化していること)を検出した場合、その単調減少、または、単調増加における基本周波数(F0)の変化の幅が所定の範囲内(例えば、120Hz以内)にあるか否かを判定する。
フレーズ成分解析部46は、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間であり、特許請求の範囲における予め定められた周波数の範囲内)にあり、かつ、その単調減少、または、単調増加の変化の幅が所定の範囲内(例えば、120Hz以内であり、特許請求の範囲における予め定められた周波数の幅)にあった場合、その単調減少、または、単調増加を、人の声によるフレーズを表すフレーズ成分であると判定する。そして、フレーズ成分解析部46は、フレーズ成分が含まれているか否かを表すフレーズ解析結果情報をアクセント成分解析部47に出力する。また、本実施の形態においては、フレーズ成分解析部46は、ローパスフィルタ部45からの5つのフレームの基本周波数(F0)を、フレーズ解析結果情報とともにアクセント成分解析部47に出力する。
アクセント成分解析部47は、フレーズ成分解析部46から出力された5つのフレームの基本周波数(F0)について、基本周波数(F0)が単調増加からフラットへの遷移(変化なし)または、単調減少からフラットへの遷移(変化なし)であるか(すなわち、単調変化から一定周波数へ変化)を解析する。また、アクセント成分解析部47は、フラット(変化なし)から単調減少への遷移、または、フラット(変化なし)から単調増加への遷移であるか(すなわち、一定周波数から単調変化へ変化)を解析する。そして、アクセント成分解析部47は、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間であり、特許請求の範囲における予め定められた周波数の範囲内)にあるか否かを判定する。さらに、アクセント成分解析部47は、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移を検出した場合、その基本周波数(F0)の変化の幅が所定の範囲内(例えば、120Hz以内であり、特許請求の範囲における予め定められた周波数の幅)にあるか否かを判定する。
アクセント成分解析部47は、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間)にあり、かつ、その変化の幅が所定の範囲内(例えば、120Hz以内)にあった場合、人の声によるアクセントを表すアクセント成分であると判定する。そして、アクセント成分解析部47は、アクセント成分が含まれているか否かを表すアクセント解析結果情報を音声/非音声判定部48に出力する。また、本実施の形態においては、アクセント成分解析部47は、フレーズ成分解析部46からのフレーズ解析結果情報を、アクセント解析結果情報とともに音声/非音声判定部48に出力する。
音声/非音声判定部48は、アクセント解析結果情報とフレーズ解析情報とに基づいて、アクセント成分、または、フレーズ成分のいずれかが含まれているか否かを判定し、アクセント成分、または、フレーズ成分のいずれかが含まれている場合には、音声シーン(音響信号に音声が含まれているシーン)と判定する。すなわち、音声を検出する。一方、アクセント成分、および、フレーズ成分のいずれも含まれていない場合には、非音声シーンであると判定する。以上により、音声区間検出部51は、共通成分における音声シーンすなわち音声区間と、非音声シーンすなわち非音声区間とを検出する。
以上により、音声区間検出部51は共通成分における実際に人の声が発音されている、すなわち発話中の時刻間すなわち音声区間を検出する。換言すれば、音声が発せられている時間を検出する。次に、音声区間検出部51は、この検出した時刻間に基づいて、音声区間における共通成分のデータそのものを類似度算出部52に送る。類似度算出部52は、音声区間における共通成分のデータを一定時刻毎に解析する。具体的には、標準音声との類似度を算出する。
次に、類似度算出部52の処理を図9を参照して説明する。類似度算出部52は、ホルマント周波数抽出部61、比率算出部62、および比率処理部63を備えている。ホルマント周波数抽出部61は、基本周波数抽出部43が算出した基本周波数に対応する第1、第2、および第3のホルマント周波数を抽出する。これを、図10を参照して説明する。図10は、ある一定数の人の測定の平均に基づいた、音声における期待される周波数を示す図である。なお、本発明は、図10における数値に限定されるものではない。すなわち、音声において期待される一般的な周波数に基づいて本発明を実現することができる。
一例として、図10は、女性が発する音声「オ」における期待される第2ホルマント周波数が「1250Hz(ヘルツ)」であることを示している。また、Lは、基本周波数の振幅を0dBとした場合に、期待される第1ホルマントの振幅が何dB減衰するかをマイナスで示している。同様に、L、およびL各々は、基本周波数の振幅を0dBとした場合に、期待される第2ホルマントおよび第3ホルマント各々の振幅が、何dB減衰するかを示している。
まず、ホルマント周波数抽出部61は、基本周波数抽出部43が算出した音声の基本周波数が「190Hz」である場合に、図10に示す表に基づいて、この音が男性の「ア」であると判定する。次に、音「ア」における予め定められている第1のホルマント周波数「700Hz」、第2のホルマント周波数「1300Hz」、および第3のホルマント周波数「2750Hz」を抽出する。ホルマント周波数抽出部61は、基本周波数が図10に示す基本周波数の期待値と一致しない場合は、最も近い値である期待値を選択する。また、基本周波数が、2つの期待値の丁度中間値である場合、例えば男性の「ア(190Hz)」と女性の「ア(230Hz)」との中間である「210Hz」である場合は、後述する標準偏差値を各々求め、求めた標準偏差値が、最終的に標準偏差の期待値と近い方を選択する。
次に、比率算出部62は、この抽出した第1、第2、および第3のホルマント周波数各々に対応する予め定められているホルマント振幅各々を期待値として抽出する。すなわち、音声「ア」に対応するホルマント振幅「−1dB(デシベル)」、「−10dB」、および「−27dB」を抽出する。次に、比率算出部62は、抽出した第1、第2、および第3のホルマント周波数各々における、音声区間検出部51から送られた実際の共通成分のデータにおけるホルマント振幅を測定する。すなわち、基本周波数の振幅から周波数「700Hz」、「1300Hz」、および「2750Hz」の振幅が何dB減衰しているかを算出する。なお、周波数の振幅は、音量の大きさに影響されることはない。
次に比率算出部62は、このホルマント周波数「700Hz」、「1300Hz」、および「2750Hz」各々において、期待値であるホルマント振幅、すなわち「−1dB」、「−10dB」、および「−27dB」を分母とし、実際のデータから測定したホルマント振幅を分子として比率を算出する。
次に、比率処理部63は、比率算出部62が算出した第1、第2、および第3のホルマント周波数各々における比率の標準偏差σ(f)を算出する。この値は、予め定められている標準偏差の期待値と完全に一致する場合に0となる。すなわち、この値は類似度が最も高い場合に0となる。ここで、ホルマント周波数をf、またホルマント周波数の振幅をL(f)とすると、比率処理部63は、2つの次式によって比率の標準偏差σ(f)を算出できる。
Figure 2011141540
Figure 2011141540
制御部53は、比率処理部63が算出したこの値が予め定められている所定値の範囲外である場合、例えば0.01以上である場合に、乗算部4の乗数を変更するか、PEQ部6の特性を変化させることによって、音声信号を大きくする処理をする。すなわち、制御部53は、この算出した値に応じて、自動的に音声信号における音声を強調する。なお、所定値の範囲内である場合、例えば0.01未満である場合は、標準偏差が実質的に0であるため類似度は極めて高い。したがって、音声信号における音声を大きくする必要はない。音声信号における音声を大きくする処理は、具体的には、上述したように、乗算部4bが乗じる乗数を1より大きくするか、乗算部4aと乗算部4cが乗じる乗数を1より小さくする。これにより、音声信号における音声を強調する。また、PEQ部6bにおいて音声帯域を強調するパラメトリックイコライザを施し、音声信号における音声を増幅するか、または、PEQ部6aまたは6cにおいて周囲の音に対応する音声信号(つまり、非音声)を減衰することによって、相対的に人の声を強調する。なお、乗算部4の乗数は、人が音声を認識する際に違和感を覚えない程度に徐々に変化させることが好ましい。例えば、dB単位において6スケールに分割して1スケールずつ徐々に変化させるようにしてもよい。このように乗数を徐々に変化させることにより、波形の不連続を原因としたノイズを防止できる。
さらに、制御部53は、算出した値の程度に応じて音声信号における音声を強調する度合いを変更するようにしてもよい。例えば、算出した値が0.01以上かつ0.02未満である場合に乗算部4bに1.3を乗じるようにし、0.02以上である場合に乗算部4bに1.5を乗じるようにしてもよい。このように、音声信号処理装置1は、標準音声との類似度の程度に応じて適切に音声信号における音声を強調できる。
一方、音声が発せられていると音声区間検出部51が検出した音声区間以外の時刻間(非音声区間)においては、制御部53は、乗算部4各々に乗算する乗数を1とする。なお、本実施形態においては、類似度を判定するためにホルマント周波数を用いたが、本発明はこれに限定されない。例えば、STIを用いて類似度を判定してもよい。
また、比率処理部63は、比率算出部62が算出した第1、第2、および第3のホルマント周波数各々における比率を加算することによって類似度を算出してもよい。すなわち、上述した例すなわち音が男性の「ア」である場合には、比率算出部62は、期待値である第1ホルマント周波数のホルマント振幅「−1dB」を仮に分母とし、第1ホルマント周波数「700Hz」における実際のデータから測定したホルマント振幅を仮に分子として比率を算出する。同様に、第2ホルマント周波数のホルマント振幅「−10dB」を仮に分母とし、第2ホルマント周波数「1300Hz」における実際のデータから測定したホルマント振幅を仮に分子として比率を算出する。また、第3ホルマント周波数のホルマント振幅「−27dB」を仮に分母とし、第3ホルマント周波数「2750Hz」における実際のデータから測定したホルマント振幅を仮に分子として比率を算出する。
この比率各々は、1より大きい場合もあるし、1以下となる場合もある。すなわち、分母となる期待値が、分子となる実際のデータから測定した値以上である場合には1以下となり、一方、実際のデータから測定した値が期待値より大きい場合には1より大きくなる。ここで、比率処理部63は、実際のデータから測定した値が期待値より大きい場合には、分母と分子とを逆転させる。すなわち、逆数を算出することによって、この比率各々の値が全て1以下となるようにする。次に、比率処理部63は、この各々の値を加算する。すなわち、この比率各々が0.7、0.7および1.0である場合には、2.4を算出する。
制御部53は、この比率を加算した値2.4が、予め定められている所定値の範囲外例えば2.5未満である場合に、自動的に乗算部4の乗数を変更するか、PEQ部6の特性を変化させることによって、音声信号における音声を大きくする処理をする。なお、所定値の範囲内である場合、例えば2.5以上である場合は、類似度は極めて高い。したがって、この場合には音声信号における音声を大きくする必要はない。以上のように、制御部53は、この算出した値に応じて発話音声の強調度合いを変更することによって、自動的に音声信号における音声を強調できる。なお、音声信号における音声を大きくする具体的な処理は、上述した標準偏差を用いた処理と同様のため、説明は省略する。
また、比率処理部63は、この比率各々の値が1からどの程度ずれているかを算出することによって、類似度を算出してもよい。すなわち、第1のホルマント周波数における比率が1.3であれば0.3を算出する。同様に、第2のホルマント周波数における比率が0.7であれば0.3を算出し、また、第3のホルマント周波数における比率が1であれば0を算出する。次に、比率処理部63は、この各々の値を加算する。すなわち、この場合には、0.3と0.3と0とを加算して、0.6を算出する。
制御部53は、この比率を加算した値0.6が、予め定められている所定値の範囲外例えば0.5以上である場合に、自動的に乗算部4の乗数を変更するか、PEQ部6の特性を変化させることによって、音声信号を大きくする処理をする。なお、所定値の範囲内である場合、例えば0.5未満である場合は、類似度は極めて高い。したがって、この場合には音声信号を大きくする必要はない。なお、音声信号を大きくする具体的な処理は、上述した標準偏差を用いた処理と同様のため、説明は省略する。
以上説明したように、音声信号処理装置1は、実際の発話音声である入力された音声信号の類似度に応じて音声信号における音声のミキシング割合または音声の周波数特性のうち少なくともいずれか一方変更することにより音声を強調するため、インパルス等の試験用音源を用いる必要がない。このため、即座に音声信号における音声を強調できる。また、入力された音声信号を一定時刻毎に解析し、標準音声との類似度に応じて発話音声の強調度合いを変更することによって、自動的に音声信号における音声を強調できる。例えば、標準音声との類似度が高い場合、すなわち音声信号における音声を強調する必要がない場合に無駄に音声信号における音声を強調することを防止できる。以上のことから、音声信号処理装置1は、入力された音声信号における音声を、標準音声との類似度に応じて即座に強調できる。
なお、本実施形態では、入力された音声信号における音声と標準音声との類似度を算出することによって、音声の明瞭度の算出することを説明したが、本発明はこれに限定されない。音声の明瞭度の算出は、例えば、特許文献1に記載されているようにPCIに基づいて明瞭度を算出してもよい。
なお、上述したように、本実施形態においては、類似度を判定するためにホルマント周波数を用いたが、本発明はこれに限定されない。
なお、本実施形態において、音声区間検出部51は、共通成分のうちの音声区間を検出することに限定されない。音声区間検出部51は、例えば、入力された音声信号における音声区間を検出してもよい。これにより、音声信号処理装置1は、音声を含んだ区間の明瞭度を算出するため、音声信号における全ての区間の明瞭度を算出する場合と比べ、省電力効果を得ることができる。
〔実施の形態2〕
以下では、図11〜12を参照して、人の声をより強調することが可能な音声信号処理装置1a、1bについて説明する。
音声信号処理装置1a、1bは、音声信号処理装置1と同様、テレビ受信装置などに実装され、放送中の番組の音声信号における音声を強調する装置である。ここで、音声とは、台詞やボーカルなどの人の声を指し、人の声以外の音(例えば、周囲の雑音やBGMや効果音など)と区別する。つまり、音声信号処理装置1aは、放送番組中の人の声を強調する装置である。なお、音声信号と表現した場合、番組中の音声と音声以外の音も含めた全ての音を表す信号を指す。
本実施の形態では、音声信号処理装置1a、1bには、PCM(Pulse Code Modulation)によってデジタル符号化された2チャンネルの音声信号が入力される。通常、ステレオ放送などでは、入力された2チャンネルの音声信号に基づいて、テレビに備えられている左右のスピーカに異なる音声信号が供給され、左右のスピーカからは異なる音声が出力される。
以下では、通常のステレオ放送において左右のスピーカに供給される音声信号を、それぞれ、左側音声信号(左チャンネルに対応する左側音声信号)、および右側音声信号(右チャンネルに対応する右側音声信号)と呼ぶ。右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号処理装置1a、1bに入力される。
本実施の形態に係る音声信号処理装置1a、1bは、いずれも、入力される右側音声信号および左側音声信号について、高域成分の音声信号と低域成分の音声信号とに分けて、右側音声信号の高域成分(以下では、右側音声高域信号と称す)と左側音声信号の高域成分(以下では、左側音声高域信号と称する)について、共通成分を抽出する構成である。ここで、共通成分は、主としてボーカルや台詞などの人の声に対応しているが、厳密には、楽器の低音や騒音等も含んでいる。そこで、共通成分を、例えば、人の声に相当する100Hz以上の高域成分について抽出すれば、共通成分から人の声以外の成分をより厳密に除去することができる。これにより、人の声をより正確に強調することが可能となる。以下に、音声信号処理装置1a、1bにおける音声強調の処理について、より詳細に説明する。
(音声信号処理装置1a)
本発明に係る音声信号処理装置1aについて、図11を参照して説明すれば、以下のとおりである。音声信号処理装置1aは、上記の右側音声信号と左側音声信号との2チャンネルの音声信号に基づいて、左右、および、中央の3つのスピーカを介して音声を出力する。つまり、音声信号処理装置1aは、入力された2チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの3チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。
図11は、本発明に係る音声信号処理装置1aの構成を示すブロック図である。音声信号処理装置1aは、スペクトル変換部2と共通成分抽出部(共通成分抽出手段)3と乗算部4と逆変換部(共通信号生成手段、音声出力信号生成手段)5とパラメトリックイコライザ(PEQ;Parametric Equalizer)部6と減算器7、8と入力端子12と出力端子13と、遅延部(高域信号生成手段)21、23と減算器(高域信号生成手段)27、28と低域通過フィルタ部(低域信号生成手段)22、24と加算器(音声出力信号生成手段)25、26と音声区間検出部(音声区間検出手段)51と類似度算出部(算出手段)52と制御部(制御手段)53とを備えている。
右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号処理装置1aに入力される。そして、入力端子12aに入力された右側音声信号は、遅延部21と低域通過フィルタ部22(例えばローパスフィルタ)とに入力される。また、入力端子12bに入力された左側音声信号は、遅延部23と低域通過フィルタ部24とに入力される。
低域通過フィルタ部22は、入力された右側音声信号を低域濾波して、加算器25と減算器27とに出力する。すなわち、右側音声信号の低域成分(以下では、右側音声低域信号と称する)のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略100Hzである。しかしながら、遮断周波数は、要求される精度に応じて100Hz以外の遮断周波数であってもよく、特に限定はされない。
遅延部21は、入力された右側音声信号を遅延させて、減算器27に出力する。ここで、遅延部21における遅延量は、低域通過フィルタ部22における遅延量(すなわち、入力された右側音声信号が低域濾波されて右側音声低域信号として出力されるまでに要する時間)と同じであることが好ましい。これにより、遅延部21からの遅延した右側音声信号と低域通過フィルタ部22からの右側音声低域信号の位相を合わせることができる。
減算器27は、遅延部21からの遅延した右側音声信号から、低域通過フィルタ部22からの右側音声低域信号を減算して、スペクトル変換部2aに出力する。上述のとおり、遅延部21からの遅延した右側音声信号と低域通過フィルタ部22からの右側音声低域信号の位相は同期しているため、減算器27からは、右側音声信号の高域成分(以下では、右側音声高域信号と称する)が出力される。
なお、本実施の形態においては、低域通過フィルタ部22と遅延部21および減算器27との組み合わせによって低域信号および高域信号を出力する構成であるが、高域通過フィルタ部と遅延部および減算器との組み合わせによって高域信号および低域信号を出力する構成であってもよく特に限定はされない。
スペクトル変換部2aは、FFTなどによって、右側音声高域信号から周波数スペクトル(以下では、右側音声高域信号スペクトルXR(k)と呼ぶ)を算出し、共通成分抽出部3と減算器7とに出力する。なお、スペクトル変換部2の処理は、音声信号処理装置1における処理と同じであるため、詳細な説明は省略する。
また、入力端子12bに入力された左側音声信号は、入力端子12aに入力された右側音声信号と同様に、遅延部23と低域通過フィルタ部24とに入力され、それぞれ、遅延した左側音声信号と左側音声信号の低域成分(以下では、左側音声低域信号と称する)とを減算器28に出力する。ここで、遅延部23における遅延量は、低域通過フィルタ部24における遅延量と同じであることが好ましい。なお、低域通過フィルタ部24は、左側音声低域信号を加算器26にも出力する。そして、減算器28は、遅延部23からの遅延した左側音声信号から、低域通過フィルタ部24からの左側音声低域信号を減算して、左側音声信号の高域成分(以下では、左側音声高域信号と称する)をスペクトル変換部2bに出力する。そして、スペクトル変換部2bは、FFTなどによって、左側音声高域信号から周波数スペクトル(以下では、左側音声高域信号スペクトルXL(k)と呼ぶ)を算出し、共通成分抽出部3と減算器8とに出力する。なお、スペクトル変換部2の処理は、音声信号処理装置1における処理と同じであるため、詳細な説明は省略する。
共通成分抽出部3は右側音声高域信号スペクトルXR(k)と左側音声高域信号スペクトルXL(k)との小さいほうのスペクトルを共通成分として抽出する。つまり、共通成分抽出部3は、右側音声高域信号、および、左側音声高域音声信号に共通して含まれている主として人の声を表す音声信号の成分を、高域共通成分C(k)として抽出する。なお、共通成分抽出部3の処理は、音声信号処理装置1における処理と同じであるため、詳細な説明は省略する。
減算器7は、スペクトル変換部2aから出力された右側音声高域信号スペクトルXR(k)から、共通成分抽出部3から出力された高域共通成分スペクトルC(k)を減算して、右高域成分スペクトルXR’(k)を算出し、乗算部4aに出力する。つまり、減算器7は、XR’(k)=XR(k)−C(k)の演算を行う。
減算器8は、スペクトル変換部2bから出力された左側音声高域信号スペクトルXL(k)から、共通成分抽出部3から出力された高域共通成分スペクトルC(k)を減算して、左高域成分スペクトルXL’(k)を算出し、乗算部4cに出力する。つまり、減算器8は、XL’(k)=XL(k)−C(k)の演算を行う。
ここで、左高域成分スペクトルXL’(k)、および、右高域成分スペクトルXR’(k)は、主として人の声以外の音(BGMや効果音や雑音などの周囲の音)を表す成分である。
乗算部4aは、減算器7から出力されたXR’(k)に乗数M1(0≦M1≦1)を乗じてXR”(k)(=M1×XR’(k))を算出し、逆変換部5aに出力する。また、乗算部4bは、共通成分抽出部3から出力されたC(k)に乗数M2(0≦M2≦1)を乗じてC”(k)(=M2×C(k))を算出し、逆変換部5bに出力する。さらに、乗算部4cは、減算器8から出力されたXL’(k)に乗数M1を乗じてXL”(k)(=M1×XL’(k))を算出し、逆変換部5cに出力する。
以下では、XR”(k)、C”(k)、および、XL”(k)を、それぞれ、右高域成分出力スペクトル、高域共通成分出力スペクトル、および、左高域成分出力スペクトルと称する。
左高域成分出力スペクトルXL”(k)、および、右高域成分出力スペクトルXR”(k)は、周囲の音(人の声以外の音)を表す音声信号の成分である。
逆変換部5aは、周波数領域の情報である右高域成分出力スペクトルXR”(k)を逆FFTによって時間領域の信号波形に変換して、加算器25に出力する。また、逆変換部5bは、逆変換部5aと同様の処理を行い、周波数領域の情報である共通成分出力スペクトルC”(k)を逆FFTによって時間領域の信号波形に変換して、中央のスピーカに出力する音声出力信号(中央チャンネルに対応する中央音声出力信号)を生成し、PEQ部6bに出力する。逆変換部5cは、逆変換部5aと同様の処理を行い、周波数領域の情報である左高域成分出力スペクトルXL”(k)を逆FFTによって時間領域の信号波形に変換して、加算器26に出力する。
また、上述のとおり、加算器25には、低域通過フィルタ部22から左側音声低域信号が入力されており、加算器26には、低域通過フィルタ部24から右側音声低域信号が入力されている。
加算器25は、右高域成分出力スペクトルXR”(k)を逆FFTして得られる信号と右側音声低域信号とを加算して、右チャンネルに対応する右側音声出力信号を生成し、PEQ部6aに出力する。また、加算器26は、左高域成分出力スペクトルXL”(k)を逆FFTして得られる信号と左側音声低域信号とを加算して、左チャンネルに対応する左側音声出力信号を生成し、PEQ部6cに出力する。
PEQ部6aは、加算器25から出力される右側音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13aを介して右チャンネルのスピーカに出力する。また、PEQ部6bは、逆変換部5bから出力される中央チャンネルの音声出力信号に対し、2kHzをピークとした音声帯域を強調するパラメトリックイコライザを施し、出力端子13bを介して中央チャンネルのスピーカに出力する。また、PEQ部6cは、加算器26から出力される左側音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13cを介して左チャンネルのスピーカに出力する。
音声区間検出部51は、共通成分抽出部3から人の声を表す音声信号として出力された共通成分における実際の音声が出力されている時刻を検出し、検出した時刻に基づいて、共通成分のうちの音声区間のデータそのものを類似度算出部52に出力する。類似度算出部52は、この音声区間のデータにおける類似度を一定時刻毎に算出する。制御部53は、類似度算出部52が算出した類似度に基づいて、乗算部4の乗数を変更するか、PEQ部6の特性を変化させる。
これにより、音声信号処理装置1aは、入力された音声信号における音声と、標準音声との類似度の値に応じて音声信号における音声を強調する。実際の発話音声である入力された音声信号の類似度に応じて音声信号における音声を強調するため、インパルス等の試験用音源を用いる必要がない。このため、即座に音声信号における音声を強調できる。また、入力された音声信号を一定時刻毎に解析し、標準音声との類似度に応じて発話音声の強調度合いを変更することによって、自動的に音声信号における音声を強調できる。例えば、標準音声との類似度が高い場合、すなわち音声信号における音声を強調する必要がない場合に無駄に音声信号における音声を強調することを防止できる。なお、音声区間検出部51、類似度算出部52、および制御部53における処理は、音声信号処理装置1と同様のため、詳しい説明は省略する。
以上のとおり、音声信号処理装置1aは入力された左右の音声信号の高域成分について共通成分を抽出する構成であるため、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となる。したがって、より厳密に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とが生成される。これにより、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができるため、人の声を強調する場合においても精度を高めることができるようになる。
なお、本実施の形態では、遅延部21、23において遅延させた入力信号から、低域通過フィルタ部22、24において低域濾波して得られた右側音声低域信号および左側音声低域信号を減算して、右側音声高域信号および左側音声高域信号を生成する構成であるが、高域通過フィルタ部をさらに備えている構成であってもよい。すなわち、遅延部において遅延させた入力信号から、高域通過フィルタ部において高域濾波して得られた右側音声高域信号および左側音声高域信号を減算して右側音声低域信号および左側音声低域信号を生成する構成であってもよく、特に限定はされない。
(音声信号処理装置1b)
本発明に係る音声信号処理装置1bについて、図12を参照して説明すれば、以下のとおりである。音声信号処理装置1bは、上記の右側音声信号と左側音声信号との2チャンネルの音声信号に基づいて、左右、および、中央の3つのスピーカを介して音声を出力する。つまり、音声信号処理装置1bは、入力された2チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの3チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。
図12は、本発明に係る音声信号処理装置1bの構成を示すブロック図である。音声信号処理装置1aは、スペクトル変換部2と共通成分抽出部(共通成分抽出手段)3と乗算部(成分低減手段)4と逆変換部(共通信号生成手段、音声出力信号生成手段)5とパラメトリックイコライザ(PEQ;Parametric Equalizer)部6と減算器7、8と入力端子12と出力端子13と、高域通過フィルタ部(高域信号生成手段)31、33と低域通過フィルタ部(低域信号生成手段)32、34と加算器(音声出力信号生成手段)35、36と音声区間検出部(音声区間検出手段)51と類似度算出部(算出手段)52と制御部(制御手段)53とを備えている。
音声信号処理装置1bは、高域通過フィルタ部31、33および低域通過フィルタ部32、34以外の各部については、音声信号処理装置1aと同様の構成のため、以下では、音声信号処理装置1aと異なる構成についてのみ説明する。
右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号処理装置1aに入力される。そして、入力端子12aに入力された右側音声信号は、高域通過フィルタ部31(例えばハイパスフィルタ)と低域通過フィルタ部32とに入力される。また、入力端子12bに入力された左側音声信号は、高域通過フィルタ部33と低域通過フィルタ部34とに入力される。
高域通過フィルタ部31は、入力された右側音声信号を高域濾波して、スペクトル変換部2aに出力する。すなわち、右側音声信号の高域成分(以下では、右側音声高域信号と称する)のみを通過させる。同様に、高域通過フィルタ部33は、入力された右側音声信号を高域濾波して、スペクトル変換部2bに出力する。すなわち、左側音声信号の高域成分(以下では、左側音声高域信号と称する)のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略100Hzである。しかしながら、遮断周波数は、要求される精度に応じて100Hz以外の遮断周波数であってもよく、特に限定はされない。
低域通過フィルタ部32は、入力された右側音声信号を低域濾波して、加算器35に出力する。すなわち、右側音声信号の低域成分(以下では、右側音声低域信号と称する)のみを通過させる。同様に、低域通過フィルタ部34は、入力された左側音声信号を低域濾波して、加算器36に出力する。すなわち、左側音声信号の低域成分(以下では、左側音声低域信号と称する)のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略100Hzである。しかしながら、遮断周波数は、要求される精度に応じて100Hz以外の遮断周波数であってもよく、特に限定はされない。ここで、高域通過フィルタ部31、33における遅延量と低域通過フィルタ部32、34における遅延量とは、同じであることが好ましい。
音声信号処理装置1aは、遅延部21、23と低域通過フィルタ部22、24とを用い、入力された音声信号の低域成分について直接抽出し、高域成分については原信号から低域成分を減算して抽出する構成であるのに対して、音声信号処理装置1bは、高域通過フィルタ部31、33と低域通過フィルタ部32、34とを用いることによって、入力された音声信号から、直接、高域成分と低域成分とを抽出する構成であり、この点においてのみ、音声信号処理装置1aと異なる。音声信号処理装置1bを構成する他の各部の動作については、音声信号処理装置1aと同様であり、説明は省略する。
また、音声信号処理装置1bは、音声信号処理装置1aと同様に音声区間検出部51、類似度算出部52、および制御部53を備えている。これにより、音声信号処理装置1bは、入力された音声信号における音声と、標準音声との類似度の値に応じて音声信号における音声を強調する。実際の発話音声である入力された音声信号の類似度に応じて音声信号における音声を強調するため、インパルス等の試験用音源を用いる必要がない。このため、即座に音声信号における音声を強調できる。また、入力された音声信号を一定時刻毎に解析し、標準音声との類似度に応じて発話音声の強調度合いを変更することによって、自動的に音声信号における音声を強調できる。例えば、標準音声との類似度が高い場合、すなわち音声信号における音声を強調する必要がない場合に無駄に音声信号における音声を強調することを防止できる。
(テレビジョン受像機110)
次に、本発明における音声信号処理装置1をテレビジョン受像機110に適応した場合について図13を参照して説明する。図13はテレビジョン受像機110に音声信号処理装置1を適用した場合の一例を示すブロック図である。
本発明の音声信号装置1は、図13のテレビジョン受像機110における、音声出力変換部127、音声区間検出部51、類似度算出部52、及び制御部53に相当する。なお、音声出力変換部127は、音声信号装置1のスペクトル変換部2、共通成分抽出部3、乗算部4、逆変換部5、PEQ部6、減算器7、減算器8、入力端子12、及び出力端子13に相当する。
ここで、制御部53は、テレビ受像機110を包括的に制御してもよい。このようにテレビジョン受像機110を制御する制御部53は、音声出力変換部127を制御し、音声を出力する。
従って、本発明における音声信号処理装置1は、テレビジョン受像機110に好適に利用することができる。
また、本発明における音声信号処理装置1は、出力装置13bを介して、中央チャンネルのスピーカに音声を出力する。テレビジョン受像機110が大型である場合、左チャンネルのスピーカと右チャンネルのスピーカが離れて配置されるため、このように中央チャンネルのスピーカに音声を出力する構成の音声信号処理装置1は、好適にテレビジョン受像機110に利用することができる。
(プログラムおよび記憶媒体)
最後に、音声信号処理装置1に含まれている各ブロックは、ハードウェアロジックによって構成すればよい。または、次のように、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
すなわち音声信号処理装置1は、各機能を実現する制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録していればよい。音声信号処理装置1(またはCPUやMPU)が、供給された記録媒体に記録されているプログラムコードを読み出し、実行すればよい。
プログラムコードを音声信号処理装置1に供給する記録媒体は、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などとすることができる。
また音声信号処理装置1は、通信ネットワークと接続可能に構成しても、本発明の目的を達成できる。この場合、上記のプログラムコードを、通信ネットワークを介して音声信号処理装置1に供給する。この通信ネットワークは、音声信号処理装置1にプログラムコードを供給できるものであればよく、特定の種類または形態に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、移動体通信網、衛星通信網等であればよい。
この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な任意の媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE1394、USB(Universal Serial Bus)、電力線搬送、ケーブルTV回線、電話線、ADSL(Asymmetric Digital Subscriber Line)回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
(付記事項)
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明は、例えば、以下のように表現することもできる。
1.音声区間と非音声区間を算出し、さらに、音声区間の明瞭度を算出し、前記算出した音声区間と非音声区間及び明瞭度に基づいて、複数のチャンネルの乗数を変更する手段を有することを特徴とする音声信号処理装置。
なお、音声区間とは、音声(人の声)が含まれることを要件とするものであって、この区間に音声以外の音(例えば、周囲の雑音やBGMや効果音など)があっても、無くてもよい。また、非音声区間とは、音声が含まれていない区間であって、音声以外の音がある、または、何も音が無い区間である。
2.前記複数のチャンネルは、L/R成分と中央定位成分(センター成分)であることを特徴とする1に記載の音声信号処理装置。
3.前記明瞭度が低い場合には、中央定位成分の乗数を大きくすることを特徴とする1、2に記載の音声信号処理装置。
本発明に係る音声信号処理装置は、放送中または再生中のコンテンツのボーカルやセリフなどの人の声を強調することができるため、テレビ受信装置またはラジオ受信装置などにおいて好適に利用できる。
1 音声信号処理装置
2 スペクトル変換部
3 共通成分抽出部(共通成分抽出手段)
4 乗算部(乗算手段)
4a 乗算部(第1の乗算手段)
4b 乗算部(第3の乗算手段)
4c 乗算部(第2の乗算手段)
5 逆変換部
5a 逆変換部
5b 逆変換部
5c 逆変換部
6 PEQ部(レベル調整手段)
6a PEQ部(第1のレベル調整手段)
6b PEQ部(第3のレベル調整手段)
6c PEQ部(第2のレベル調整手段)
7 減算器
8 減算器
12 入力端子
13 出力端子
21、23 遅延部
22、24 低域通過フィルタ部
25、26 加算器
27、28 減算器
31、33 高域通過フィルタ部
32、34 低域通過フィルタ部
35、36 加算器
37 フレーム分割部
38 窓掛け部
39 スペクトル変換部
40 音声検出部
41 対数スペクトル算出部
42 ケプストラム算出部
43 基本周波数抽出部(基本周波数抽出手段)
44 基本周波数保存部
45 ローパスフィルタ部
46 フレーズ成分解析部
47 アクセント成分解析部
48 音声/非音声判定部
51 音声区間検出部(音声区間検出手段)
52 類似度算出部(算出手段)
53 制御部(制御手段)
61 ホルマント周波数抽出部(所定周波数抽出手段)
62 比率算出部(比率算出手段)
63 比率処理部(比率処理手段)

Claims (14)

  1. 入力された音声信号における、音声の明瞭度を算出する算出手段と、
    上記算出手段が算出した明瞭度に応じて上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性のうち少なくともいずれか一方を変更する制御手段とを備えていることを特徴とする音声信号処理装置。
  2. 上記音声信号における音声区間を検出する音声区間検出手段をさらに備え、
    上記算出手段は、上記音声区間における音声の明瞭度を算出することを特徴とする請求項1に記載の音声信号処理装置。
  3. 上記算出手段は、上記音声信号における音声と標準音声との類似度を算出することによって、上記明瞭度を算出することを特徴とする請求項1又は2に記載の音声信号処理装置。
  4. 上記音声信号の基本周波数を抽出する基本周波数抽出手段をさらに備えており、
    上記算出手段は、
    上記基本周波数抽出手段によって抽出された基本周波数に対応する、予め定められた所定周波数を複数抽出する所定周波数抽出手段と、
    上記予め定められた所定周波数各々に対応する、期待値として予め定められた複数の振幅各々と、上記音声信号の上記予め定められた所定周波数各々における実際の振幅各々との比率を上記所定周波数ごとに算出する比率算出手段と、
    上記算出された複数の比率に基づいて類似度を算出する比率処理手段とを備えていることを特徴とする請求項3に記載の音声信号処理装置。
  5. 上記比率処理手段は、上記算出された複数の比率の標準偏差を算出することによって、類似度を算出することを特徴とする請求項4に記載の音声信号処理装置。
  6. 上記予め定められた所定周波数は、ホルマント周波数であることを特徴とする請求項4または5に記載の音声信号処理装置。
  7. 右チャンネルに対応する右側音声信号のスペクトルおよび左チャンネルに対応する左側音声信号のスペクトルに共通して含まれている共通成分を抽出する共通成分抽出手段をさらに備えていることを特徴とする請求項3から6のいずれか1項に記載の音声信号処理装置。
  8. 上記右側音声信号のスペクトルに第1の乗数を乗じる第1の乗算手段、上記左側音声信号のスペクトルに第2の乗数を乗じる第2の乗算手段、および上記共通成分のスペクトルに第3の乗数を乗じる第3の乗算手段をさらに備えており、
    上記制御手段は、上記第3の乗数を1より大きくするか、上記第1の乗数を1より小さくするか、または上記第2の乗数を1より小さくするように、上記第1、第2および第3の乗算手段の少なくとも1つを制御することを特徴とする請求項7に記載の音声信号処理装置。
  9. 上記右チャンネルに対応するイコライザである第1のレベル調整手段、上記左チャンネルに対応するイコライザである第2のレベル調整手段、および上記共通成分に対応する中央チャンネルに対応するイコライザである第3のレベル調整手段をさらに備えており、
    上記制御手段は、上記第3のレベル調整手段が音声信号を増幅するか、上記第1のレベル調整手段が音声信号を減衰するか、または上記第2のレベル調整手段が音声信号を減衰するように、上記第1、第2および第3のレベル調整手段の少なくとも1つを制御することを特徴とする請求項7または8に記載の音声信号処理装置。
  10. 上記共通成分における音声区間を検出する音声区間検出手段をさらに備え、
    上記制御手段は、上記音声区間検出手段が検出した音声区間以外の区間である非音声区間において、上記第1、第2および第3の乗数を1とすることを特徴とする請求項8または9に記載の音声信号処理装置。
  11. 請求項1から10のいずれか1項に記載の音声信号処理装置を備えたテレビジョン受像機。
  12. 入力された音声信号における、音声の明瞭度を算出する工程と、
    上記算出した明瞭度に応じて、上記音声信号における音声を強調するように上記音声のミキシング割合または上記音声の周波数特性のうち少なくともいずれか一方を変更する工程とを含んでいることを特徴とする音声信号処理方法。
  13. 請求項1から10のいずれか1項に記載の音声信号処理装置を動作させるプログラムであって、コンピュータを上記の各手段として機能させるためのプログラム。
  14. 請求項13に記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。

JP2010273976A 2009-12-09 2010-12-08 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 Pending JP2011141540A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010273976A JP2011141540A (ja) 2009-12-09 2010-12-08 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009279774 2009-12-09
JP2009279774 2009-12-09
JP2010273976A JP2011141540A (ja) 2009-12-09 2010-12-08 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Publications (1)

Publication Number Publication Date
JP2011141540A true JP2011141540A (ja) 2011-07-21

Family

ID=44457386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010273976A Pending JP2011141540A (ja) 2009-12-09 2010-12-08 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP2011141540A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027101A (ja) * 2010-07-20 2012-02-09 Sharp Corp 音声再生装置、音声再生方法、プログラム、及び、記録媒体
WO2023095470A1 (ja) * 2021-11-25 2023-06-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、信号処理方法及び信号処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027101A (ja) * 2010-07-20 2012-02-09 Sharp Corp 音声再生装置、音声再生方法、プログラム、及び、記録媒体
WO2023095470A1 (ja) * 2021-11-25 2023-06-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、信号処理方法及び信号処理プログラム

Similar Documents

Publication Publication Date Title
TWI459828B (zh) 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
JP6104629B2 (ja) ダイナミックサウンド提供システム及び方法
TWI579834B (zh) 調整聲音清晰度強化的方法與系統
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP5665134B2 (ja) ヒアリングアシスタンス装置
KR101935183B1 (ko) 멀티-채널 오디오 신호 내의 음성 성분을 향상시키는 신호 처리 장치
JP4219898B2 (ja) 音声強調装置
TWI422147B (zh) 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體
JP3243174B2 (ja) 狭帯域音声信号の周波数帯域拡張回路
US20100179808A1 (en) Speech Enhancement
JPWO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
EP4115413A1 (en) Voice optimization in noisy environments
JP2009296298A (ja) 音声信号処理装置および方法
JP2010091897A (ja) 音声信号強調装置
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP2006333396A (ja) 音声信号拡声装置
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体
JP5547414B2 (ja) 音声信号調整装置及びその調整方法
JPH10341123A (ja) 音響再生装置
JP3213145B2 (ja) 車載用オーディオ装置