JP6669277B2

JP6669277B2 - 音声ノイズ検出装置、デジタル放送受信装置、及び音声ノイズ検出方法

Info

Publication number: JP6669277B2
Application number: JP2018557717A
Authority: JP
Inventors: 勇哉西牟田; 高木　和也; 和也高木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-12-20
Filing date: 2017-12-14
Publication date: 2020-03-18
Anticipated expiration: 2037-12-14
Also published as: WO2018116944A1; JPWO2018116944A1

Description

この発明は、移動中にデジタル放送を受信するデジタル放送受信装置における音声ノイズの検出を行なう音声ノイズ検出装置に関する。

デジタルテレビやデジタルラジオを移動中に受信して視聴できるデジタル放送受信装置が普及してきており、例えば、自動車の車内で視聴する車載デジタル放送受信装置、又はデジタル放送受信機能を内蔵したカーナビゲーションシステムが近年普及している。

デジタル放送受信装置が自動車等の移動体に搭載される場合、電波受信環境が周辺の環境変化や高速移動における影響を受けるため、デジタル放送受信装置が受信する電波に乱れが発生する場合がある。例えば、デジタル放送受信装置が放送局から遠く離れた場所にある場合、放送局から受信アンテナに届く電波の強度が弱くなる。また、デジタル放送受信装置が高層ビルに囲まれた都市部にある場合、ビル壁における反射の影響により受信電波に不要な干渉波が含まれる。さらに移動中に電波を受信すると、ドップラーシフトの影響を受けて受信信号の振幅変動や位相の時間変動が現れる。

デジタル放送は、送信側で映像データ及び音声データをＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）などの圧縮方式で圧縮されたデータについて誤り訂正符号を施して送信される。受信側は送信側で用いた誤り訂正符号を用いて誤り訂正を行なうことで受信データのエラーを訂正することができるが、受信データのエラーが多ければ誤り訂正がしきれない場合がある。このため、送信側で用いた圧縮方式によってこの受信データをデコードする場合、デコード結果に異常が発生してデジタル音声信号の一部がノイズとなって出力されてしまう場合がある。

そこで、デジタル音声信号を周波数領域に変換した周波数スペクトル信号を複数の帯域に分割して、分割した帯域ごとに、ノイズの発生区間を検出し、該当区間の音声信号を補正することで、音声ノイズの影響を低減する方法がある（例えば、特許文献１参照）。

特開２０１０−２４９９３９号公報（第６−３６頁、第５図）

しかしながら、特許文献１の方法では、ノイズの検出に周波数のピークを使用しているため、周波数方向に広範囲に強い成分が分布している場合、正しくノイズを検出することができないという問題があった。

この発明は、上述のような課題を解決するためになされたもので、周波数方向に広範囲に強い成分が分布しているようなノイズ成分があるデジタル音声信号に対してもノイズを検出する音声ノイズ検出装置を提供することを目的とする。

この発明に係る音声ノイズ検出装置においては、デジタル音声信号を入力する音声信号入力部と、設定された時間幅に基づいてデジタル音声信号から区間音声信号を生成する区間音声信号生成部と、区間音声信号から周波数スペクトル信号の高域成分を抽出する高域成分抽出部と、周波数スペクトル信号の高域成分から成分値の高い周波数値を抽出し、成分値と周波数値とを乗算した値から音声特徴データを生成する特徴量算出部と、音声特徴データから区間音声信号のノイズ成分を検出する音声ノイズ検出部とを備えることを特徴とするものである。

この発明は、周波数スペクトル信号の高域成分から成分値の高い周波数値を抽出し、成分値及び周波数値を乗算したものから音声特徴データを生成してノイズ成分を検出するので、周波数方向に広範囲に強い成分が分布しているようなノイズ成分があるデジタル音声信号に対してもノイズを検出することができるという効果を奏する。

実施の形態１にかかるデジタル放送受信装置の構成を概略的に示すブロック図である。実施の形態１にかかる音声ノイズ検出装置の構成を概略的に示すブロック図である。実施の形態１にかかる区間音声信号生成部の抽出区間とオーバーラップ率の関係を示す図である。実施の形態１にかかる高域成分抽出部の構成を概略的に示すブロック図である。サポートベクターマシンでの境界線決定を説明する図である。実施の形態１にかかる音声信号処理部の構成を概略的に示すブロック図である。実施の形態１にかかる音声信号処理部の処理の一例を示す図である。実施の形態１にかかる音声信号処理部の処理の別の例を示す図である。実施の形態１にかかる音声ノイズ検出処理の一例を示すフローチャートである。実施の形態２にかかる音声ノイズ検出装置の構成を概略的に示すブロック図である。実施の形態２にかかる品質情報とオーバーラップ率との関係の一例を示す表である。実施の形態３にかかるデジタル放送受信装置の構成を概略的に示すブロック図である。品質情報マップの一例を示すブロック図である。

実施の形態１．
図１は、本実施の形態にかかる音声ノイズ検出装置１０を備えたデジタル放送受信装置の構成を概略的に示すブロック図である。デジタル放送受信装置は、音声ノイズ検出装置１０と受信部２０とデマルチプレクス部３０と音声デコード部４０と音声信号処理部５０と制御部６０とを備える。

受信部２０は、選局したデジタル放送の電波を受信して復調する。受信部２０は、複数のアンテナから受信した信号を復調するものであってもよい。ここで、本実施の形態で扱うデジタル放送は、音声信号を圧縮処理し、圧縮処理されたデータを他のデータ（例えば映像信号を圧縮処理したデータの圧縮）とマルチプレクス処理（多重化処理ともいう）を行なった上でデジタル変調をして送信されるものとする。他のデータとは、例えば映像信号を圧縮処理したデータなどである。このようなデジタル放送として、日本で採用されているデジタルテレビ放送規格であるＩＳＤＢ−Ｔ（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＢｒｏａｄｃａｓｔｉｎｇ − Ｔｅｒｒｅｓｔｒｉａｌ）だけでなく、欧州のデジタルテレビ放送規格であるＤＶＢ−Ｔ（ＤｉｇｉｔａｌＶｉｄｅｏＢｒｏａｄｃａｓｔｉｎｇ − Ｔｅｒｒｅｓｔｒｉａｌ）、中国のデジタルテレビ放送規格であるＤＴＭＢ（ＤｉｇｉｔａｌＴｅｒｒｅｓｔｒｉａｌＭｕｌｔｉｍｅｄｉａＢｒｏａｄｃａｓｔ）、中国のモバイル端末向けの放送規格であるＣＭＭＢ（ＣｈｉｎａＭｏｂｉｌｅＭｕｌｔｉｍｅｄｉａＢｒｏａｄｃａｓｔｉｎｇ）などを対象としてもよい。また、デジタルラジオ放送規格であるＤＡＢ（ＤｉｇｉｔａｌＡｕｄｉｏＢｒｏａｄｃａｓｔ）を対象としてもよいし、他のデジタル放送規格を対象としてもよい。

デマルチプレクス部３０は、復調されたデータについてデマルチプレクス処理（分離化処理ともいう）を行ない、音声圧縮データを取得して音声デコード部４０へ供給する。

音声デコード部４０は、デマルチプレクス部３０からの音声圧縮データについてデコード処理（復号化処理ともいう）を行なってデジタル音声信号を生成する。

音声ノイズ検出装置１０は、音声デコード部４０からのデジタル音声信号を入力として音声信号のノイズ成分を検出する。検出方法については後述する。

音声信号処理部５０は、音声デコード部４０からのデジタル音声信号について、音声ノイズ検出装置１０が検出したデジタル音声信号のノイズ成分の情報を用いてノイズ成分のあった期間について補正を行い、音声出力するデジタル音声信号を生成する。音声信号処理部５０の補正については後述する。

制御部６０は、受信部２０、デマルチプレクス部３０、音声デコード部４０、音声信号処理部５０、音声ノイズ検出装置１０の動作及び設定について制御を行う。例えば、選局に必要な情報や、その中からデマルチプレクス処理をするべき情報をそれぞれの構成要素に送信して制御を行う。また、音声デコード部４０が設定したラベルを管理している場合、単位音声信号の対応付けを指示する制御信号を音声デコード部４０、音声信号処理部５０、及び音声ノイズ検出装置１０に送信する。

図２は、本実施の形態にかかる音声ノイズ検出装置１０の構成を概略的に示すブロック図である。音声ノイズ検出装置１０は、音声信号入力部１０１と音声特徴データ生成部１０２と音声ノイズ検出部１０３とを備える。音声特徴データ生成部１０２は、区間音声信号生成部１０２１と高域成分抽出部１０２２と特徴量算出部１０２３とを有する。また、音声ノイズ検出部１０３は、ノイズ識別情報記憶領域１０３１と音声ノイズ検出処理部１０３２と検出結果記憶領域１０３３とを有する。ここで、ノイズ識別情報記憶領域１０３１と検出結果記憶領域１０３３とは共通の記憶部の中で記憶されるものとして構成されても構わない。

音声信号入力部１０１は、音声デコード部４０からのデジタル音声信号を入力する。

区間音声信号生成部１０２１は、音声信号入力部１０１が入力したデジタル音声信号について設定された時間幅に基づいて抽出することによって区間音声信号を生成する。ここで時間幅は、例えばＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実施する場合ではサンプリング単位で２の累乗に対応する時間幅で設定すればよい。

また、区間音声信号生成部１０２１は、デジタル音声信号から区間音声信号を抽出するときに前回の抽出区間と時間方向に重複（オーバーラップ）する区間を設定して抽出しても構わない。つまり、連続する区間音声信号が時間方向にオーバーラップする区間と前記設定された時間幅とに基づいて前記区間音声信号を抽出しても構わない。図３は、区間音声信号生成部１０２１の抽出区間とオーバーラップ率の関係を示す図である。図３は、入力されたデジタル音声信号に対して時間幅Ｌ及びオーバーラップ率Ｒ＿ｏ（０≦Ｒ＿ｏ≦０．５）で第１区間、第２区間、及び第３区間と順に抽出する状況を示している。図３に示すように、それぞれの抽出区間の間の重複区間は時間幅Ｌにオーバーラップ率Ｒ＿ｏを乗算した区間となる。

図４は、高域成分抽出部１０２２の構成を概略的に示すブロック図である。高域成分抽出部１０２２は、区間音声信号から周波数の高域成分の抽出を行う。高域成分抽出部１０２２は、低周波領域の成分を除去するハイパスフィルタである高域通過フィルタ１０２２１又は１０２２３と、周波数領域変換部１０２２２とを有し、区間音声信号生成部１０２１で生成される区間音声信号から、周波数の高域成分のみを抽出する。これにより、周波数スペクトル信号の高域成分、すなわち周波数と対応する電力値（以下、成分値ともいう）とを獲得する。ここで高域成分の抽出は、図４（ａ）のように、先に低域成分を除去したデジタル音声信号を周波数変換してもよいし、図４（ｂ）のように先に周波数変換を行ってから低域成分を除去してもよい。除去する低域の範囲は、正常な音声信号の成分を抑制することができればよく、例えば、人の音声であれば、主な成分が含まれる４，０００Ｈｚ以下の周波数領域を抑制すればよい。この場合、高域成分は４，０００Ｈｚを超える周波数領域の成分である。つまり、高域成分は人の音声の主な成分が含まれる周波数領域よりも高い周波数領域の成分である。

特徴量算出部１０２３は、高域成分抽出部１０２２から受け取った、周波数スペクトル信号の高域成分から特徴量を算出する。特徴量算出部１０２３は、周波数スペクトル信号から、その電力値が大きい順に上位Ｎ個のサンプル（Ｎ：自然数）を抽出し、抽出した周波数及び電力値を取得する。そして、それぞれの電力値に周波数で重み付けして音声特徴データである特徴量Ｆ＿ｎｏｉｓｅを算出する。

特徴量算出処理の一例を示す。抽出した周波数をＤｆ、電力値をＤｐとすると、特徴量算出処理では、以下の（１）式にように、Ｎ個のサンプルそれぞれの電力値Ｄｐに周波数Ｄｆで乗算した平均を特徴量Ｆ＿ｎｏｉｓｅとして算出する。なお、この特徴量の算出は一例であり、周波数で重み付けした電力値であれば、この式だけによるものではない。

このように、音声特徴データ生成部１０２は、設定された時間幅に基づいてデジタル音声信号を抽出することによって区間音声信号を生成し、区間音声信号に対して周波数スペクトル信号への周波数変換、及び周波数の高域成分の抽出を行い、周波数スペクトル信号から成分値の高い周波数値を抽出し、成分値及び周波数値を乗算したものから区間音声信号における特徴量Ｆ＿ｎｏｉｓｅを生成する。

次に音声ノイズ検出部１０３について説明する。音声ノイズ検出部１０３は、ノイズ識別情報記憶領域１０３１と音声ノイズ検出処理部１０３２と検出結果記憶領域１０３３とを有し、音声特徴データ生成部１０２が生成する該当する区間音声信号における特徴量Ｆ＿ｎｏｉｓｅから、該当する区間音声信号にノイズがあるかノイズがないかの判定を行う。

ノイズ識別情報記憶領域１０３１は、ノイズの検出に使用される情報であるノイズ識別情報を記憶する領域であって独立した記憶部の記憶領域であっても共通の記憶部における一部の記憶領域であっても構わない。ここで、ノイズ識別情報とは、特徴量からノイズか否かを判定する識別器の情報である。

音声ノイズ検出処理部１０３２は、ノイズ識別情報に基づいて特徴量Ｆ＿ｎｏｉｓｅからノイズがあるかノイズがないかの判定を行う。

例えば、識別器が線形識別器である場合、識別器は以下の（２）式に示す判別多項式Ｄで表わされる。

ここで、Ｆ＿ｎｏｉｓｅは特徴量、Ａ、及びＢは判別多項式Ｄを構成する係数、Ｍは特徴量の次元数である。ノイズ識別情報記憶領域１０３１には判別多項式Ｄにおける各次元の係数Ａ及び係数Ｂの情報が記憶される。

判別多項式Ｄは、例えばサポートベクターマシンとよばれる線形識別器を構築するアルゴリズムによって決定される。サポートベクターマシンでは、ノイズの有無をラベル付けした特徴量、すなわち学習データを用いて、ノイズの有無を識別する判別多項式Ｄを決定する。

図５は、２次元の特徴量からサポートベクターマシンで２つのクラス（クラス１及びクラス２）に識別する境界線の決定を説明する図である。サポートベクターマシンは、２次元の特徴量から２つのクラスを最適に分離するために、マージン最大化の考えに基づいて境界を決定する。マージン最大化とは、クラス間のマージン（距離）を最大にするというものであり、図５の例では、点Ｘ、及び、点Ｙの双方からの距離が最大となる直線を判別多項式Ｄとして求める。図５の例であれば、（２）式に示す判別多項式Ｄに特徴量１及び特徴量２の値を代入し、その値が正であれば直線の上側にあるクラス１、値が負であれば直線の下側にあるクラス２であると判定する。

本実施の形態では、判別多項式Ｄをサポートベクターマシンによって決定し、音声ノイズ検出処理部１０３２で使用するために、その係数Ａ及び係数Ｂをノイズ識別情報としてノイズ識別情報記憶領域１０３１に事前に記憶する。

音声ノイズ検出処理部１０３２は、ノイズ識別情報記憶領域１０３１に保持されたノイズ識別情報である係数Ａ及び係数Ｂを取得し、（２）式に示す判別多項式Ｄを計算し、計算結果の正負によってノイズの有無を判定する。

なお、ここではサポートベクターマシンによる線形分離識別面による２クラスの分類を例に取ったが、非線形分離識別面を構築するアルゴリズムを使用してもよいし、ニューラルネットワークなど他のアルゴリズムを使用してもよい。

ノイズ有無の判定は、区間音声信号ごとに行われる。ここで、入力のデジタル音声信号に対応したノイズ検出結果を得るために、入力のデジタル音声信号を分割した区間音声信号全てのノイズ判定が終了するまで検出結果記憶領域１０３３に検出結果を蓄積し、入力のデジタル音声信号分の検出結果を蓄積した後に、外部に出力する。ノイズ検出結果の蓄積方法は、区間音声信号ノイズ発生区間のみＯＮとなる０又は１で表わす１ビットの信号でもよいし、ノイズ発生区間の開始時刻及び終了時刻のリストであってもよい。

以上のように音声ノイズ検出装置１０で検出されたノイズ成分の情報を用いて音声信号処理部５０は、音声デコード部４０からのデジタル音声信号について、音声ノイズ検出装置１０が検出したノイズ成分の情報を用いてノイズ成分のあった期間について補正を行い、音声出力するデジタル音声信号を生成することができる。

図６は、音声信号処理部５０の構成を概略的に示すブロック図である。音声信号処理部５０は、バッファ制御部５０１と過去信号記憶領域５０２と補正音声信号生成部５０３と音声信号補正部５０４とを有し、デジタル音声信号から音声ノイズ検出装置１０で検出されたノイズ成分に基づく補正を行なう。

バッファ制御部５０１は、音声デコード部４０からのデジタル音声信号を過去信号記憶領域５０２に記憶し、それに対応するノイズ検出結果から補正を行う際に、記憶したデジタル音声信号を補正音声信号生成部５０３へ出力する。

過去信号記憶領域５０２は、音声デコード部４０からのデジタル音声信号を記憶する領域であって独立した記憶部の記憶領域であっても共通の記憶部における一部の記憶領域であっても構わない。

補正音声信号生成部５０３は、過去信号記憶領域５０２から記憶したデジタル音声信号と、音声ノイズ検出装置１０で検出されたノイズ成分の情報とを入力し、ノイズ成分が検出された区間について補正を行うための補正音声信号を生成する。音声信号補正部５０４は、補正音声信号生成部５０３から補正音声信号を入力する。音声信号補正部５０４は、ノイズが検出された区間では、音声デコード部４０からのデジタル音声信号を補正音声信号に切り替えて出力し、デジタル音声信号の補正を行う。

図７は、音声信号処理部の処理の一例を示す図である。図７の上図は音声デコード部４０からのデジタル音声信号であって、時刻ｔａから時刻ｔｂの区間は音声ノイズ検出装置１０においてノイズ成分があると検出した結果を示す。図７の下図は補正音声信号生成部５０３が音声デコード部４０からのデジタル音声信号の時刻ｔａから時刻ｔｂの区間について補正をした補正音声信号を示す。図７のように、ノイズが検出された区間時刻ｔａから時刻ｔｂを振幅のない信号に切り替えたものを補正音声信号として生成する。振幅のない信号は無音信号となる。

図８は、音声信号処理部の処理の別の例を示す図である。図８の上図は音声デコード部４０からのデジタル音声信号であって、時刻ｔａから時刻ｔｂの区間は音声ノイズ検出装置１０においてノイズ成分があると検出した結果を示す。図８の下図は補正音声信号生成部５０３が音声デコード部４０からのデジタル音声信号の時刻ｔａから時刻ｔｂの区間について補正をした補正音声信号を示す。時刻ｔｃから時刻ｔｄの区間は時刻ｔａから時刻ｔｂの区間と同じ長さ（設定された時間幅）で音声ノイズ検出装置１０からノイズ成分がない区間であることが示された区間である。時刻ｔｃから時刻ｔｄの区間はノイズ成分が発生する直前である。図８のように、ノイズ成分がない区間であることが示された区間時刻ｔｃから時刻ｔｄの振幅のないデジタル音声信号をコピーして、ノイズが検出された区間時刻ｔａから時刻ｔｂに差替えたものを補正音声信号として生成する。特に振幅の小さい音が続いているような区間であれば、ノイズ成分が発生する直前のノイズ成分がない区間を繰り返すことで無音信号よりも違和感が軽減するという効果を奏する。

図９は、音声ノイズ検出処理の一例を示すフローチャートである。音声信号入力部１０１は、音声デコード部４０からのデジタル音声信号を入力する（ステップＳ１）。区間音声信号生成部１０２１は、音声信号入力部１０１が入力したデジタル音声信号について設定された時間幅に基づいて抽出することによって区間音声信号を生成する（ステップＳ２）。高域成分抽出部１０２２は、区間音声信号から周波数の高域成分の抽出を行う（ステップＳ３）。

特徴量算出部１０２３は、高域成分抽出部１０２２から受け取った、周波数スペクトル信号の高域成分から成分値の高い周波数値を抽出し、成分値と周波数値とを乗算した値から音声特徴データを生成する（ステップＳ４）。音声ノイズ検出部１０３は、特徴量算出部１０２３が生成する該当する区間音声信号における音声特徴データから、該当する区間音声信号にノイズがあるかノイズがないかの判定を行い、区間音声信号のノイズ成分を検出する（ステップＳ５）。そして、音声信号処理部５０は、音声デコード部４０からのデジタル音声信号について、音声ノイズ検出部１０３が検出したノイズ成分の情報を用いてノイズ成分のあった期間について補正を行い、音声出力するデジタル音声信号を生成する（ステップＳ６）。

以上のように、本実施の形態にかかる音声ノイズ検出装置１０は、周波数方向に広範囲に強い成分が分布しているようなノイズ成分がある信号に対してもノイズを検出することができる。また、音声ノイズ検出装置１０で検出されたノイズ成分のある区間について補正を行うことで、検出したノイズ成分を出力することなく、デジタル放送受信装置が出力するデジタル音声信号の品質を向上することが可能となる。

また、本実施の形態にかかる音声ノイズ検出装置は、例えば一つのプロセッサーと、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの記録部とを用いてノイズ検出を行うことができるという効果がある。

実施の形態２．
実施の形態２にかかる音声ノイズ検出装置は、品質情報を入力する品質情報入力部と、入力された品質情報に基づいて区間音声信号生成部で用いるオーバーラップ率を変更するパラメータ決定部とをさらに備える。

図１０は、本実施の形態にかかる音声ノイズ検出装置１１の構成を概略的に示すブロック図である。音声ノイズ検出装置１１は、音声信号入力部１０１と音声特徴データ生成部１０２と音声ノイズ検出部１０３とに加えて、品質情報入力部１１４とパラメータ決定部１１５とをさらに備える。符号が同一の構成要素については上述と構成及び作用が同じであるため説明を省略する。

品質情報入力部１１４は、品質情報を入力する。ここで品質情報は、入力されるデジタル音声信号の品質に関連する情報であって、例えば受信部２０が選局して受信したデジタル放送の電波の電波強度、復調時に得られる情報から推定するＣＮＲ（ＣａｒｒｉｅｒｔｏＮｏｉｓｅＲａｔｉｏ）又はＳＮＲ（ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）、及びパケットエラーレートなどが挙げられる。

パラメータ決定部１１５は、入力された品質情報に基づいて区間音声信号生成部１０２１で設定する抽出区間のオーバーラップ率を設定する。入力された品質情報が悪い受信状態であることを示す値であればあるほどオーバーラップ率を大きく設定する。

図１１は、品質情報とオーバーラップ率との関係の一例を示す表である。図１１では、入力された品質情報に対して閾値を設定して、品質情報の分類を「良い（Ｇ）」又は「悪い（Ｂ）」の２値に分類してオーバーラップ率を設定する例を示した。図１１では品質情報の分類がＧ（音声品質：良）の場合はオーバーラップ率を０．０つまりオーバーラップすることなく区間分割するように設定する。一方、品質情報の分類がＢ（音声品質：悪）の場合はオーバーラップ率を０．５つまり分割する区間の半分は前後それぞれの抽出区間と重複するように設定する。

なお、品質情報の分類は２値に限らず分類数を増やして段階的に設定するようにしても構わないことは明らかであり、品質情報に基づく音声品質が低いときほどオーバーラップ率を高く（オーバーラップ区間を長く）設定して抽出する。また、複数種類の品質情報を入力してそれぞれの閾値で分類した結果の組合せで最終分類結果を決め、最終分類結果に基づいてオーバーラップ率を設定しても構わない。

これらにより、悪い受信状態であればあるほど区間音声信号生成部１０２１が抽出する重複期間を増やすことでノイズ検出の取りこぼしを削減することができる。

一方、良い受信状態であればあるほど区間音声信号生成部１０２１が抽出する重複期間を減らすことで効率よくノイズ検出をすることができる。例えば一つのプロセッサーと、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの記録部とを用いてノイズ検出を行う場合は、ノイズ検出に関連するプロセッサーの負荷を減らすことで他のプロセッサーのプロセス実行に負荷を割り当てることができるという効果がある。

実施の形態３．
実施の形態２にかかる音声ノイズ検出装置が入力する品質情報はデジタル放送受信装置が受信して推定した品質情報であったが、実施の形態３にかかる音声ノイズ検出装置はデジタル放送受信装置の外部から位置情報を入力し、位置情報と品質情報とを対応付けて記憶された品質情報マップに基づいて品質情報を音声ノイズ検出装置へ供給する。

図１２は、本実施の形態にかかる音声ノイズ検出装置１１を備えたデジタル放送受信装置の構成を概略的に示すブロック図である。デジタル放送受信装置は、音声ノイズ検出装置１１と受信部２０とデマルチプレクス部３０と音声デコード部４０と音声信号処理部５０と制御部６０とに加えて入力部（位置情報入力部ともいう）７０と品質情報マップ記憶領域８０とを備える。符号が同一の構成要素については上述と構成及び作用が同じであるため説明を省略する。

入力部７０は、外部から電波を受信している環境に関する情報を取得する。例えば、デジタル放送受信装置を搭載した車などの移動体から位置情報を取得する。位置情報は、カーナビなどの車載装置が取得するＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）の情報などがある。

入力部７０は、外部から位置情報を入力し、品質情報マップ記憶領域８０が記憶する品質情報マップに基づいて、入力された位置情報に対応した品質情報を音声ノイズ検出装置１１へ品質情報を供給する。

品質情報マップ記憶領域８０は、位置情報と品質情報とを対応付けて記憶する領域であって独立した記憶部の記憶領域であっても共通の記憶部における一部の記憶領域であっても構わない。

なお、品質情報は、デジタル放送受信装置を搭載した車などの移動体が実際に受信したときの電波強度、復調時に得られる情報から推定するＣＮＲ又はＳＮＲ、及びパケットエラーレートなどが挙げられる。

図１３は、品質情報マップ記憶領域８０で記憶する品質情報マップの一例を示すブロック図である。図１３では、品質情報マップは格子状に分割された地図情報であり、各格子に対応する位置での品質情報を有する。各格子が有する品質情報は、例えば前記した「良い（Ｇ），悪い（Ｂ）」の２値を保持する。

例えば品質情報マップのあるブロックに位置したときにデジタル放送受信装置が受信して得られた品質情報をそのブロック全体での品質情報として品質情報マップ記憶領域８０で記憶する。これにより同じブロックの中で異なる位置で受信した場合も以前受信した位置での品質情報を用いて設定することができるので、常時品質情報を推定することなく品質情報を得られる。

また、受信品質の推定が未実施のブロックについて、周辺ブロックにおける品質情報からそのブロックの品質情報を推定して記憶しておくものとしても構わない。さらに、同じブロックの中で受信品質を再度推定した結果と品質情報マップ記憶領域８０で記憶されている品質情報とに違いがあった場合は、新しい情報で再記憶するものとしても構わない。

図１２では、品質情報マップ記憶領域８０をデジタル放送受信装置側に記憶するものとしているが、デジタル放送受信装置がインターネットに接続している場合は、品質情報マップ記憶領域８０を外部サーバーなどのクラウドの記憶領域として、入力した位置情報のブロックでの品質情報をインターネット経由で品質情報マップ記憶領域８０にアクセスして取得するものとしても所期の目的を果たすことはいうまでもない。

以上実施の形態１〜３において、音声ノイズ検出装置、及びデジタル放送受信装置の一部は、処理回路により実現される。処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するＣＰＵであってもよい。例えば、図１のうち、受信部２０、デマルチプレクス部３０、音声デコード部４０、音声信号処理部５０、及び制御部６０の機能をそれぞれ別個の処理回路で実現してもよいし、上記の複数の部分の機能をまとめて一つの処理回路で実現してもよい。

同様に、図２のうち、音声信号入力部１０１、音声特徴データ生成部１０２、及び音声ノイズ検出部１０３の機能をそれぞれ別個の処理回路で実現してもよいし、上記の複数の部分の機能をまとめて一つの処理回路で実現してもよい。

処理回路がＣＰＵの場合、上記の複数の部分の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリに格納される。ＣＰＵは、メモリに記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。また、デジタル放送受信装置の上記の複数の部分の機能のうち、一部の機能を専用のハードウェアで実現し、他の一部の機能をソフトウェア又はファームウェアで実現するようにしてもよい。

１０，１１音声ノイズ検出装置、２０受信部、３０デマルチプレクス部、４０音声デコード部、５０音声信号処理部、６０制御部、７０入力部、８０品質情報マップ記憶領域、１０１音声信号入力部、１０２音声特徴データ生成部、１０３音声ノイズ検出部、１１４品質情報入力部、１１５パラメータ決定部、５０１バッファ制御部、５０２過去信号記憶領域、５０３補正音声信号生成部、５０４音声信号補正部、１０２１区間音声信号生成部、１０２２高域成分抽出部、１０２３特徴量算出部、１０３１ノイズ識別情報記憶領域、１０３２音声ノイズ検出処理部、１０３３検出結果記憶領域、１０２２１、１０２２３高域通過フィルタ、１０２２２周波数領域変換部。

Claims

デジタル音声信号を入力する音声信号入力部と、
設定された時間幅に基づいて前記デジタル音声信号から区間音声信号を生成する区間音声信号生成部と、
前記区間音声信号から周波数スペクトル信号の高域成分を抽出する高域成分抽出部と、
前記周波数スペクトル信号の高域成分から成分値の高い周波数値を抽出し、前記成分値と前記周波数値とを乗算した値から音声特徴データを生成する特徴量算出部と、
前記音声特徴データから前記区間音声信号のノイズ成分を検出する音声ノイズ検出部と
を備える音声ノイズ検出装置。
前記高域成分抽出部は、前記周波数スペクトル信号を入力として低周波領域の成分を除去するハイパスフィルタをさらに有し、
前記特徴量算出部は、前記ハイパスフィルタの出力から前記成分値の高い周波数値を抽出する
ことを特徴とする請求項１に記載の音声ノイズ検出装置。
前記区間音声信号生成部は、連続する前記区間音声信号が時間方向にオーバーラップする区間と前記設定された時間幅とに基づいて前記区間音声信号を生成する
ことを特徴とする請求項１または請求項２に記載の音声ノイズ検出装置。
前記時間方向にオーバーラップする区間は、前記デジタル音声信号の品質情報が示す音声品質が低いときほど長く設定される
ことを特徴とする請求項３に記載の音声ノイズ検出装置。
受信した電波から復調してデジタル音声信号を生成する受信部と、
請求項１から請求項３のいずれか１項に記載の音声ノイズ検出装置と、
前記デジタル音声信号から前記音声ノイズ検出装置で検出されたノイズ成分に基づく補正を行なって生成したデジタル音声信号を出力する音声信号処理部と
を備えるデジタル放送受信装置。
受信した電波から復調してデジタル音声信号を生成する受信部と、
請求項４に記載の音声ノイズ検出装置と、
前記デジタル音声信号から前記音声ノイズ検出装置で検出されたノイズ成分に基づく補正を行なって生成したデジタル音声信号を出力する音声信号処理部と
を備え、
前記受信部は、前記受信部が受信した電波の電波強度、前記復調した信号からＣＮ比を推定した情報、または前記復調した信号から得られるパケットエラーレートを用いて前記品質情報を生成する
ことを特徴とするデジタル放送受信装置。
位置情報を入力する位置情報入力部と、
前記位置情報とその位置での前記品質情報とを対応して記憶する記憶部と
をさらに備える
ことを特徴とする請求項６に記載のデジタル放送受信装置。
前記音声信号処理部は、前記音声ノイズ検出装置が前記区間音声信号のうちノイズ成分があると検出した区間について、無音信号または前記ノイズ成分が発生する直前の前記時間幅のデジタル音声信号に切り替えて補正することを特徴とする
請求項５から請求項７のいずれか１項に記載のデジタル放送受信装置。
デジタル音声信号を入力する音声信号入力ステップと、
設定された時間幅に基づいて前記デジタル音声信号から区間音声信号を生成する区間音声信号生成ステップと、
前記区間音声信号から周波数スペクトル信号の高域成分を抽出する高域成分抽出ステップと、
前記周波数スペクトル信号の高域成分から成分値の高い周波数値を抽出し、前記成分値と前記周波数値とを乗算した値から音声特徴データを生成する特徴量算出ステップと、
前記音声特徴データから前記区間音声信号のノイズ成分を検出する音声ノイズ検出ステップと
を備える音声ノイズ検出方法。