JP6784758B2 - ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置 - Google Patents

ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置 Download PDF

Info

Publication number
JP6784758B2
JP6784758B2 JP2018519388A JP2018519388A JP6784758B2 JP 6784758 B2 JP6784758 B2 JP 6784758B2 JP 2018519388 A JP2018519388 A JP 2018519388A JP 2018519388 A JP2018519388 A JP 2018519388A JP 6784758 B2 JP6784758 B2 JP 6784758B2
Authority
JP
Japan
Prior art keywords
signal
noise
frame signal
frame
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018519388A
Other languages
English (en)
Other versions
JP2018534618A5 (ja
JP2018534618A (ja
Inventor
ドゥ,ヂージュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2018534618A publication Critical patent/JP2018534618A/ja
Publication of JP2018534618A5 publication Critical patent/JP2018534618A5/ja
Application granted granted Critical
Publication of JP6784758B2 publication Critical patent/JP6784758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)

Description

本願は、2015年10月13日に提出され「ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置」と題された中国特許出願第201510670697.8号の優先権を主張し、上記中国特許出願は参照によってその全体が本願に組み込まれる。
本願は音声ノイズ除去技術の分野に関し、特に、ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置に関する。
音声ノイズ除去技術は、音声信号から環境ノイズを除去することによって音声の品質を改善できる。先ず、音声ノイズ除去工程において、音声信号中のノイズ信号のパワースペクトルを判定する必要があり、その上で、判定したノイズ信号のパワースペクトルに応じて音声信号からノイズを除去できる。
従来技術において、音声信号中のノイズ信号のパワースペクトルは通常、次の方法によって判定できる。即ち、音声信号セグメントの最初のN個のフレーム信号がノイズ信号である(即ち、非人声信号を含む)との仮定に基づき最初のN個のフレーム信号を解析して音声信号中のノイズ信号のパワースペクトルを得る。
実際の適用シナリオにおいて、従来技術においてノイズ信号であると仮定される音声信号中の最初のN個のフレーム信号は、実際のノイズ信号とは一致しないことがある。これにより、得られたノイズ信号のパワースペクトルの精度が悪影響を受ける。
本願の実施の形態は、従来技術における課題、即ちノイズ信号であると仮定される最初のN個のフレーム信号が実際のノイズ信号と一致せず、得られたノイズ信号のパワースペクトルの精度が悪影響を受けるという課題を解決するための、ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置を提供することを目的とする。
上記の技術的課題を解決するための、本発明の実施の形態に係るノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、以下の通りである:
ノイズ信号判定方法であって:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップと;を含む。
音声ノイズ除去方法であって:
処理対象音声に含まれる解析対象音声信号セグメントを判定するステップと;
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定して前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するステップと;
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、そして前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するステップと;を含む。
ノイズ信号判定装置であって:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と;
各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を、前記フレーム信号の前記パワースペクトルに基づき判定するよう構成される分散判定部と;
前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部と;を含む。
音声ノイズ除去装置であって:、
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部と;
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するよう構成される分散判定部と;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するよう構成されるノイズ判定部と;
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するよう構成される音声ノイズ除去部と;を含む。
本願の実施の形態において提供される上記の技術的解決策から分かるように、解析対象音声信号セグメントにフーリエ変換を行って各フレーム信号のパワースペクトルを取得し、各周波数における解析対象音声信号セグメントの各フレーム信号のパワー値の分散を判定し、そして最終的に、分散に基づきフレーム信号がノイズ信号であるか否かを判定することにより、本願の実施の形態において提供されるノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、解析対象音声信号セグメントに含まれる幾つかのノイズフレームを精度よく得られる。処理対象音声は音声ノイズ除去工程において、判定されたノイズフレームの平均パワーに基づきノイズ除去でき、よって、音声ノイズ除去効果が向上する。
本願の実施の形態における技術的解決策又は従来技術をより明確に説明するために、以下では、実施の形態又は従来技術の説明に用いる添付図面について簡単に触れる。なお、以下で説明する添付図面は本願において取り上げる幾つかの実施の形態に過ぎず、当業者であれば、創造的な努力を伴わずともこれらの添付図面から他の図面を導くことができる。
図1は、本願の実施の形態に係るノイズ信号判定方法のフローチャートである。 図2は、本願の実施の形態に係る、フレーム信号がノイズ信号であるか否かを判定するための各ステップのフローチャートである。 図3は、本願の実施の形態に係る、各サンプリングポイントでのフレーム信号のパワー値の分散を判定するための各ステップのフローチャートである。 図4は、本願の実施の形態に係るパワー値の分散の曲線グラフである。 図5は、本願の実施の形態に係る音声ノイズ除去方法のフローチャートである。 図6は、本願の実施の形態に係るノイズ信号判定装置のブロック図である。 図7は、本願の実施の形態に係る音声ノイズ除去装置のブロック図である。 図8は、本願で提供される装置のハードウェアの実装例の概略構造図である。
当業者が本願の技術的解決策をよりよく理解できるように、以下では、本願の実施の形態における添付図面を参照しつつ本願の実施の形態の技術的解決策を明確且つ完全に説明する。説明する実施の形態は本願の実施の形態のうちの一部であって、全てではないことは明らかである。当業者であれば、創造的な努力をせずとも、本願の実施の形態に基づいて他の実施の形態を得られるものの、それらの実施の形態は全て本願の保護の範囲に含まれる。
図1は、本願の実施の形態に係るノイズ信号判定方法のフローチャートを示す。解析対象音声信号セグメント中のノイズ信号を判定するため、この実施の形態のノイズ信号判定方法は以下の各ステップを含む:
S101:解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得する。
解析対象音声信号セグメントは、特定の規則に基づき処理対象音声から獲得できる。解析対象音声信号セグメントは、事前の判定に基づき場合によっては多数のノイズフレームを含む「ノイズフレームセグメントの候補」であり得る。
好ましくは、ステップS101よりも前に、本方法は更に以下のステップを含む:
処理対象音声の時間領域信号の振幅変動に基づき、処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、解析対象音声信号セグメントと判定するステップ;又は、
処理対象音声中の最初のN個のフレーム音声信号を、解析対象音声信号セグメントとして獲得するステップ。
本願の実施の形態では、音声信号の時間領域において、ノイズ信号は通常、振幅変動の少ない又は振幅が均一な音声信号セグメントであり、一方、人間の発話音声を含む音声信号セグメントは通常、振幅変動が大きい。このような法則に基づいて、処理対象音声(即ち、ノイズ除去対象音声)に含まれる「ノイズフレームセグメントの候補」の認識に用いられる所定の閾値を、予め設定することができる。よって、処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを解析対象音声信号セグメントとして判定できる。
本願の実施の形態においては、先ず、音声信号をフレーム化してよい。フレーム信号は単一フレームの音声信号を意味し、1つの音声信号セグメントは幾つかのフレーム信号を含み得る。1つのフレーム信号は幾つかのサンプリングポイント、例えば1024個のサンプリングポイントを含み得る。隣り合う2つのフレーム信号は相互に重複し得る(例えば、重複率は50%であってよい)。この実施の形態においては、時間領域の音声信号に対して短時間フーリエ変換(STFT)を行って音声信号のパワースペクトル(周波数領域)を取得してよい。パワースペクトルは異なる周波数に対応する複数のパワー値、例えば1024個のパワー値を含み得る。
本願の実施の形態では、人声を含む音声信号セグメントにおいて、人が話す前の期間(例えば、1.5秒)の音声信号はノイズ信号(環境ノイズ)であることが、デフォルトにより一般に仮定できる。よって、本願の実施の形態では、解析対象音声信号を音声信号セグメントの最初のN個のフレーム信号であると判定できる。例えば、解析対象音声信号:{f’,f’,・・・,f’}は、最初の1.5秒の音声信号である。ただし、f’,f’,・・・,f’はそれぞれ音声信号に含まれるフレーム信号を表わしている。本願の実施の形態では、解析音声信号のフレーム信号からノイズ信号を判定する。
各フレーム信号に対応する複数のパワー値は、解析対象音声信号:f’,f’,・・・,f’のSTFT後に得たパワースペクトルに基づき算出できる。或る周波数におけるフレーム信号のパワースペクトルがa+biであると仮定する。式中、実数部aは振幅を、虚数部bは位相を表わすものであってよい。その場合、その周波数におけるフレーム信号のパワー値はa+bであってよい。異なる周波数における各フレーム信号のパワー値は、上記の処理に基づき得られる。例えば、フレーム信号{f’,f’,・・・,f’}の各々が1024個のサンプリングポイントを含む場合、異なる周波数における各フレーム信号の1024個のパワー値は、パワースペクトルに基づいて得られる。例えば、フレーム信号f’に対応するパワー値は{p ,p ,・・・,p 1024}であり、フレーム信号f’に対応するパワー値は{p ,p ,・・・,p 1024}であり、そして、フレーム信号f’に対応するパワー値は{p ,p ,・・・,p 1024}である。
S102:各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定する。
各周波数におけるフレーム信号{f’,f’,・・・,f’}のパワー値に基づき、フレーム信号{f’,f’,・・・,f’}のパワー値の分散{Var(f’),Var(f’),・・・,Var(f’)}を、分散を計算するための公式を用いて算出できる。例えば、各フレーム信号が1024個のサンプリングポイントを含む場合、Var(f’)は{p ,p ,・・・,p 1024}の分散であり、Var(f’)は{p ,p ,・・・,p 1024}の分散であり、そして、Var(f’)は{p ,p ,・・・,p 1024}の分散である。
S103:分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する。
本願の実施の形態においては、発話セグメントを含むフレーム信号のエネルギー(即ち、パワー値)は、通常、帯域によって大きく異なる一方、発話セグメントを含まないフレーム信号(即ち、ノイズ信号)のエネルギーの帯域による変動はわずかであり、均等に分布する。よって、各フレーム信号がノイズ信号であるか否かは、フレーム信号のパワー値の分散に基づいて判定できる。
図2は、本願の実施の形態に係る、フレーム信号がノイズ信号であるか否かを判定するための各ステップのフローチャートを示す。本願の実施の形態において、上記のステップS103は以下の各ステップを含むことができる:
S1031:フレーム信号のパワー値の分散が第1の閾値Tを超えているか否かを判定する。
S1032:否定(No)であれば、フレーム信号をノイズ信号と判定する。
フレーム信号のパワー値の分散が第1の閾値Tを超えている場合、それは、フレーム信号のエネルギー(即ち、パワー値)の帯域による変動の振幅が第1の閾値Tを超えていることを意味する。よって、フレーム信号はノイズ信号でないと判定できる。一方、フレーム信号のパワー値の分散が第1の閾値Tを超えていない場合、それは、フレーム信号のエネルギー(即ち、パワー値)の帯域による変動の振幅が第1の閾値Tを超えていないことを意味する。よって、フレーム信号はノイズ信号であると判定できる。
上記処理に基づき、解析対象音声信号{f’,f’,・・・,f’}中で、ノイズフレーム信号{f’,f’,・・・,f’}及び非ノイズフレーム信号{fm+1’,fm+2’,・・・,f’}の判定を順次に行うことができる。よって、音声信号セグメントに含まれるノイズ信号を判定でき、これらのノイズ信号{f’,f’,・・・,f’}に従い音声ノイズ除去を行うことができる。
図3を参照するに、本願の実施の形態において上記のステップS102は具体的に以下の各ステップを含むことができる:
S1021:各周波数におけるフレーム信号{f’,f’,・・・,f’}の各々のパワー値は、フレーム信号のパワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類される。第1の周波数間隔は第2の周波数間隔よりも小さい。
或る実施の形態では、統計を通じて、周波数領域において各フレーム信号の分散を取得できる。非ノイズ信号は一般に低中周波数帯域に集中し、ノイズ信号は一般に全ての周波数帯域に均一に分布する。よって、各周波数における各フレーム信号のパワー値の分散は少なくとも2つの異なる周波数帯域(即ち、上述の各周波数間隔)における統計を通じて取得できる。
例えば、第1の周波数間隔は0〜2000Hz(低周波数帯域)であってよく、第2の周波数間隔は2000〜4000Hz(高周波数帯域)であってよい。各フレーム信号が1024個のサンプリングポイントを含む場合、各フレーム信号に対応する1024個のパワー値は、各パワー値に対応する周波数間隔に応じて、0〜2000Hzに対応する第1のパワー値集合A及び2000〜4000Hzに対応する第2のパワー値集合Bに分類される。フレーム信号f’を例にとれば、パワー値に対応する1024個のデータは{p ,p ,・・・,p 1024}である。各周波数間隔によれば、第2のパワー値集合Bに含まれるパワー値は、例えば{p ,p ,・・・,p 126}であり、第1のパワー集合Aに含まれるパワー値は、例えば{p 127,p 128,・・・,p 1024}であると導き出すことができ、残部は類推により推測してよい。
なお、本願の異なる実施の形態においては、信号パワー値の分散は2つよりも多い周波数帯域における統計を通じて取得してもよいことに留意されたい。
S1022:第1のパワー値集合に含まれるパワー値の第1の分散を判定する。
上記の通り、フレーム信号f’を例にとれば、第1のパワー値集合Aに含まれるパワー値は、例えば{p 127,p 128,・・・,p 1024}である。よって、パワー値p 127〜p 1024の第1の変動Varhigh(f’)は、分散を計算するための公式に従い算出できる。
S1023:第2のパワー値集合に含まれるパワー値の第2の分散を判定する。
上記の通り、フレーム信号f’を例にとれば、第2のパワー値集合Bに含まれるパワー値は、例えば{p ,p ,・・・,p 126}である。よって、パワー値p 〜p 126の第2の変動Varlow(f’)は、分散を計算するための公式に従い算出できる。
図4は、本願の実施の形態に係る分散の概略曲線グラフである。このグラフにおいて、横軸はフレーム信号のフレーム数を示し、縦軸は分散の大きさを示す。第1の分散曲線は各フレーム信号の第1の分散の傾向を表し、第2の分散曲線は各フレーム信号の第2の分散の傾向を表す。このグラフから明らかなように、高周波数帯域2000〜4000Hzにおいて分散は殆ど変動せず、低周波数帯域0〜2000Hzにおいて分散は大きく変動する。このことから、非ノイズ信号は低周波数帯域に集中することを確認できる。
上記の通り、本願の好適な実施の形態において、ステップS1031は以下のステップを具体的に含む:
フレーム信号のパワー値の第1の分散が第1の閾値Tを超えているか否かを判定し、肯定である場合、フレーム信号をノイズ信号と判定する。フレーム信号f’を例にとれば、第1の分散Varhigh(f’)が第1の閾値Tを超えているか否かが判定される。
本願の実施の形態において、上記のステップS103は更に以下のステップを具体的に含むことができる:
第1の分散と第2の分散との間の差分が第2の閾値Tを超えているか否かを判定し、否定であれば、フレーム信号をノイズ信号と判定する。
フレーム信号f’を例にとれば、第1の分散と第2の分散との間の差分は|Varhigh(f’)−Varlow(f’)|である。|Varhigh(f’)−Varlow(f’)|<Tである場合、フレーム信号f’はノイズ信号と判定される。このステップにより、解析対象音声信号{f’,f’,・・・,f’}から順次ノイズ信号を判定できる。
本願の実施の形態において、本方法は、ステップS102とステップS103との間に更に以下のステップを含むことができる:
各分散の大きさに応じて、解析対象音声信号セグメントのフレーム信号を順位付ける。
それに即して、分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップは、以下のステップを含む:
各周波数における順位付けられた各フレーム信号のパワー値の分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する。
上記の通り、この実施の形態においては、フレーム信号{f’,f’,・・・,f’}のパワー値の分散{Var(f’),Var(f’),・・・,Var(f’)}を判定できる。フレーム信号はパワー値の分散の低い順に順位付けてよい。分散が小さい信号はノイズ信号である可能性が高い。よって、解析対象音声信号のノイズフレーム信号を先頭に順位付けることができる。本願の実施の形態において、低周波数帯域(例えば、0〜2000Hz)及び高周波数帯域(例えば、2000〜4000Hz)における統計を通じて各分散がそれぞれ取得される場合、各周波数におけるフレーム信号{f’,f’,・・・,f’}の各々のパワー値は、フレーム信号のパワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、第1の周波数間隔(例えば、0〜2000Hz)に対応する第1のパワー値集合A及び第2の周波数間隔(例えば、2000〜4000Hz)に対応する第2のパワー値集合Bに分類できる。それにより、フレーム信号{f’,f’,・・・,f’}に対応する第1のパワー値集合に含まれるパワー値の第1の分散{Varlow(f’),Varlow(f’),・・・,Varlow(f’)}をそれぞれ判定でき、フレーム信号{f’,f’,・・・,f’}に対応する第2のパワー値集合に含まれるパワー値の第2の分散Varhigh(f’),Varhigh(f’),・・・,Varhigh(f’)}をそれぞれ判定できる。上記のステップS104では、高周波数および低周波数における分散の統計に基づき、解析対象音声信号に含まれるノイズ信号(当該ノイズ信号は、分散の大きさに応じて順位付けられた音声信号であってよい)は以下のように判定され得る:
Varlow(f’)>T (1)
|Varhigh(f’)−Varlow(f’)|>T (2)
Varhigh(f’i+1)−Varhigh(f’i−1)>T (3)
Varlow(f’i+1)−Varlow(f’i−1)>T (4)
なお、i∈(1,n)である。式(1)により、各フレーム信号f’のパワー値の第1の分散が第1の閾値Tを超えているか否かを判定できる。否定であれば、フレーム信号f’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合が、ノイズ信号と判定される。
式(2)により、各フレーム信号f’のパワー値の第2の分散が第2の閾値Tを超えているか否かを判定できる。否定であれば、フレーム信号f’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合が、ノイズ信号と判定される。
式(3)により、あるフレーム信号f’の前のフレーム信号f’i−lのパワー値の第2の分散Varhigh(f’i−l)と、フレーム信号f’の次のフレーム信号f’i+1のパワー値の第2の分散Varhigh(f’i+1)との間の差分Varhigh(f’i+1)−Varhigh(f’i−1)が、第3の閾値Tを超えているか否かを判定できる。否定であれば、フレーム信号f’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合がノイズ信号と判定される。
式(4)により、あるフレーム信号f’の前のフレーム信号f’i―lのパワー値の第1の分散Varlow(f’i−1)と、フレーム信号f’の次のフレーム信号f’i+lのパワー値の第1の分散Varlow(f’i+1)との間の差分Varlow(f’i+1)−Varlow(f’i−1)が、第4の閾値Tを超えているか否かを判定できる。否定であれば、フレーム信号f’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合がノイズ信号と判定される。
本願の実施の形態において、解析対象音声信号に含まれるノイズフレームは、上記の式(1)から(4)を用いて認識できる。即ち、上記の式(1)から(4)のいずれかと合致するフレーム信号f’はいずれも非ノイズ信号(ノイズ終了フレーム)と判定できる。換言すれば、上記の式(1)から(4)のいずれとも合致しないフレーム信号f’は、いずれもノイズ信号と判定できる。ノイズ終了フレームf’は上記の工程に基づき判定でき、その場合、ノイズフレームは{f’,f’,・・・,fm−1’}を含む。
なお、本願の他の実施の形態においては、ノイズ終了フレームを式(1)から(4)の一部、例えば、式(1)と(2)又は式(2)と(3)に基づき判定してもよいことに留意されたい。また、本願の実施の形態においてノイズ終了フレームを判定する式は、以上で挙げた各式に限定されない。閾値T、T、T、及びTはいずれも大量の試験サンプルの統計から得られる。
図5は、以下のステップを含む、本願の実施の形態に係る音声ノイズ除去方法のフローチャートである:
S201:処理対象音声に含まれる解析対象音声信号セグメントを判定する。
S202:解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得する。
S203:各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定する。
S204:分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、音声信号セグメントに含まれる幾つかのノイズフレームを得る。
S205:音声信号セグメントに含まれる幾つかのノイズフレームに対応する平均パワーを判定し、ノイズフレームの平均パワーに基づき処理対象音声をノイズ除去する。
本願の実施の形態においては、上記の方法に従い解析対象音声セグメントに含まれるノイズフレーム{f’,f’,・・・,fm−1’}を取得した後、各ノイズフレームにそれぞれ対応する元の(順位付け前の)信号のフレーム数を判定でき、ノイズ信号のパワースペクトル推定値Pnoiseを得るためこれらのフレーム信号の平均パワーを、統計を通じて得てよい。ノイズ信号のパワースペクトル推定値Pnoiseを得た後は、音声をノイズ除去できる。ノイズ除去の方法は当業者にとって周知であり、ここで具体的な説明は行わない。
当然ながら、本願の他の実施可能な実施の形態において、分散に応じてフレーム信号を順位付けるステップは省略してよく、元の各信号の分散に基づきノイズフレームを直接的に判定してもよい。また、本願において、ノイズ信号の複数のフレームを判定した後、パワースペクトル推定値Pnoiseは通常一部のフレームを用いて算出する。これは、過剰な推定を避けるためである。例えば、判定されたノイズ信号が50個のフレームを含む場合、最初の30個のフレームを獲得してパワースペクトル推定値Pnoiseを算出してよい。これにより、パワースペクトル推定値の精度を向上できる。
本願の実施の形態は、上記の処理の実施に対応するノイズ信号判定装置を更に提供する。当該装置はソフトウェアにより実現されてもよく、ハードウェアにより実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアにより実現される態様を例にとれば、論理的な意味においての装置は、サーバの中央処理装置(CPU)を通じて対応するコンピュータプログラムをメモリに読み出し実行することによって形成できる。装置のハードウェア構造については図8を参照されたい。
図6は、本願の実施の形態に係るノイズ信号判定装置のブロック図である。この実施の形態において、装置の各部の機能は、上記のノイズ信号判定方法の各ステップの機能に対応してよい。詳細については上記の方法を参照されたい。ノイズ信号判定装置100は以下を含む:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部101と、
各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定するよう構成される分散判定部102と、
前記分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部103。
好ましくは、本装置は、処理対象音声の時間領域信号の振幅変動に基づき、処理対象音声における所定の閾値よりも小さい振幅変動の音声信号セグメントを解析対象音声信号セグメントとして判定する、又は、処理対象音声における最初のN個のフレーム音声信号を解析対象音声信号セグメントとして獲得するよう構成されるセグメント取得部を更に含む。
好ましくは、ノイズ判定部103は:
音声信号セグメントの各フレーム信号に対応する分散が第1の閾値を超えているか否かを判定し、否定であれば、フレーム信号をノイズ信号と判定するよう構成される。
好ましくは、分散判定部102は:
各周波数におけるフレーム信号のパワー値を、パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類し、
第1のパワー値集合に含まれるパワー値の第1の分散を判定するよう構成される。
それに即して、ノイズ判定部103は:
第1の分散が第1の閾値を超えるか否かを判定し、
否定であれば、フレーム信号をノイズ信号と判定するよう構成される。
好ましくは、分散判定部102は、具体的に:
各周波数における各フレーム信号のパワー値を、フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類し、第1の周波数間隔は第2の周波数間隔よりもその周波数が小さく、
第1のパワー値集合に含まれるパワー値の第1の分散を判定し、
第2のパワー値集合に含まれるパワー値の第2の分散を判定するよう構成される。
それに則して、ノイズ判定部103は:
各フレーム信号に対応する第1の分散と第2の分散との間の差分が第2の閾値を超えているか否かを判定し、
否定であれば、フレーム信号をノイズ信号と判定する。
本願の実施の形態は、上記処理の実施に対応する音声ノイズ除去装置を更に提供する。この装置はソフトウェアにより実現されてもよく、ハードウェアにより実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアによって実現される態様を例にとれば、論理的な意味においての装置は、サーバの中央処理装置(CPU)を通じて対応するコンピュータプログラムをメモリに読み出し実行することによって形成できる。装置のハードウェア構造については図8を参照されたい。
図7は、本願の実施の形態に係る音声ノイズ除去装置のブロック図である。この実施の形態において、装置の各部の機能は、上記の音声ノイズ除去方法の各ステップの機能に対応してよい。詳細については上記の方法を参照されたい。この実施の形態において、音声ノイズ除去装置200は以下を含む:
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部201と、
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部202と、
各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定するよう構成される分散判定部203と、
分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、音声信号セグメントに含まれる幾つかのノイズフレームを得るよう構成されるノイズ判定部205と、
音声信号セグメントに含まれる幾つかのノイズフレームに対応する平均パワーを判定し、ノイズフレームの平均パワーに基づき処理対象音声をノイズ除去するよう構成される音声ノイズ除去部10。
好ましくは、本装置は更に以下を含む:
各分散の大きさに応じて、解析対象音声信号セグメントのフレーム信号を順位付けるよう構成される順位付け部204。
それに則して、ノイズ判定部205は具体的に:
各周波数における順位付けられた各フレーム信号のパワー値の分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成される。
解析対象音声信号セグメントにフーリエ変換を行って各フレーム信号のパワースペクトルを取得し、各周波数における解析対象音声信号セグメントの各フレーム信号のパワー値の分散を判定し、最終的に分散に基づきフレーム信号がノイズ信号であるか否かを判定することにより、本願の実施の形態において提供されるノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、解析対象音声信号セグメントに含まれる幾つかのノイズフレームを精度よく判定できる。処理対象音声は、音声ノイズ除去処理において、判定された幾つかのノイズフレームの平均パワーに基づきノイズ除去されることができ、よって音声ノイズ除去効果が向上する。
説明を容易にするため、諸説明において、本装置は機能の観点から複数の各部に分割されている。当然ながら、本願を実装ないし実行するにあたって、各部の機能は、単一のソフトウェア及び/又はハードウェア要素によって実現してもよいし、複数のソフトウェア及び/又はハードウェア要素によって実現してもよい。
当業者であれば、本願の実施の形態が、方法、システム、又はコンピュータプログラム製品として提供され得るものであることを理解するであろう。よって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェア及びハードウェアを組み合わせた実施の形態として実現され得る。また、本発明は、コンピュータで用いることができるプログラムコードを含む1以上のコンピュータが使用可能な記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリ等を含み、且つそれらに限定されない)上で実装されるコンピュータプログラム製品の形をとってもよい。
本発明について、本発明の実施の形態に係る方法、デバイス(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しつつ説明した。なお、各工程及び/又はブロックを実現するため、また各フローチャート及び/又はブロック図に示す工程及び/又はブロックの組み合わせを実現するために、コンピュータプログラム指示を用いてよいことを理解すべきである。コンピュータプログラム指示は、装置を生成するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサや他のプログラム化可能なデータ処理デバイスへ提供されてよく、それにより、当該コンピュータや他のプログラム化可能なデータ処理デバイスのプロセッサは、フローチャートに示す1以上の工程及び/又はブロック図に示す1以上のブロックで指定される機能を実現するよう構成される装置を生成するための指示を実行してよい。
また、コンピュータプログラムの指示は、コンピュータ又は他のプログラム化可能なデータ処理デバイスに特定の動作をさせるべくガイド可能なコンピュータ読取可能ストレージに記憶されてもよく、それにより、コンピュータ読取可能なストレージに記憶された指示が、フローチャートに示す1以上の工程及び/又はブロック図に示す1以上のブロックによって指定される機能を実現する指示装置を含む製品を生成してよい。
また、コンピュータプログラムの指示は、コンピュータ又は他のプログラム化可能なデータ処理デバイスに読み込まれてもよく、それにより、コンピュータにより実現される処理を生成すべく一連の動作ステップがコンピュータ又は他のプログラム化可能なデバイス上で実行されてよい。これにより、コンピュータ又は他のプログラム化可能なデバイスで実行される指示は、フローチャートに示す1以上の処理及び/又はブロック図に示す1以上のブロックによって指定される機能を実現するための各ステップを提供する。
また、「含む」、「備える」といった表現又はそれらの変形は、排他的でないものを含むことを意図するものであり、よって、一連の要素を含む工程、方法、商品、若しくはデバイスが、当該要素を含むだけでなく、他の明記されない諸要素を含む、又は、当該プロセス、方法、商品、又はデバイスに本来備わる諸要素を更に含むことに更に留意されたい。他に限定がない場合、「〜を含む」によって定義される要素は、当該要素を含む上記工程、方法、商品、又はデバイスが更に他の同一の要素を有する場合を排除するものではない。
当業者であれば、本願の実施の形態が、方法、システム、又はコンピュータプログラム製品として提供され得ることを理解できよう。よって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェア及びハードウェアを組み合わせた実施の形態として実現され得る。また、本発明は、コンピュータで用いることができるプログラムコードを含む1以上のコンピュータが使用可能な記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリ等を含み、且つそれらに限定されない)上で実現されるコンピュータプログラム製品の形をとってもよい。
本願は、プログラムモジュール等の、コンピュータによって実行されるコンピュータ実行可能な指示の共通のコンテキストで説明されてもよい。プログラムモジュールは、通常、特定のタスクを実行するために、又は、特定の抽象データタイプを実装するために用いられるルーティン、プログラム、オブジェクト、アセンブリ、データ構造等を含む。本願は、通信ネットワークを介して接続された遠隔処理デバイスを用いてタスクが実行される分散コンピューティング環境において実装されてもよい。分散コンピューティング環境において、プログラムモジュールを、ストレージデバイスを含むローカル及びリモートコンピュータ記憶媒体に配置してよい。
本明細書における実施の形態は漸次に説明され、実施の形態の同一又は類似する部分については相互に参照することができ、各実施の形態は、他の実施の形態と異なる部分が強調されている。特に、システムの実施の形態は基本的に方法の実施の形態と類似しているので、その説明は簡略化されている。関連する部分については、方法の実施の形態の各部分の説明を参照されたい。
以上の説明は本願の幾つかの実施の形態に過ぎず、本願を限定するものではない。当業者であれば、本願の様々な変更又は変形が可能である。本願の本質及び原理の範囲内で行われる変更、均等物との置換、改良等は全て本願の請求の範囲に包含される。
以下、本発明の実施の態様の例を列挙する。
[第1の局面]
ノイズ信号判定方法であって:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップと;を備える、
ノイズ信号判定方法。
[第2の局面]
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得する前記ステップよりも前に、
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するステップ、又は、処理対象音声における最初のN個のフレーム音声信号を、前記解析対象音声信号セグメントとして獲得するステップを備える、
第1の局面に記載の方法。
[第3の局面]
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは:
前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを判定するステップと;
否定であれば、当該フレーム信号をノイズ信号と判定するステップと;を備える、
第1の局面に記載の方法。
[第4の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは:
各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類するステップと;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップと;を備え、
それに即して、前記分散が第1の閾値を超えているか否かを判定する前記ステップが、
前記第1の分散が前記第1の閾値を超えているか否かを判定するステップを備える、
第3の局面に記載の方法。
[第5の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは:
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類するステップであって、前記第1の周波数間隔は前記第2の周波数間隔よりもその周波数が小さい、分類するステップと;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップと;
前記第2のパワー値集合に含まれるパワー値の第2の分散を判定するステップと;を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは:
各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを判定するステップと;
否定であれば、当該フレーム信号をノイズ信号と判定するステップと;を備える、
第1の局面に記載の方法。
[第6の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップよりも後で、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップよりも前に:
各分散の大きさに応じて、前記解析対象音声信号セグメントの各フレーム信号を順位付けるステップ;をさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップを備える、
第1の局面に記載の方法。
[第7の局面]
音声ノイズ除去方法であって:
処理対象音声に含まれる解析対象音声信号セグメントを判定するステップと;
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定して前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するステップと;
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、そして前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するステップと;を備える、
音声ノイズ除去方法。
[第8の局面]
処理対象音声に含まれる解析対象音声信号セグメントを判定する前記ステップが:
前記処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するステップ、又は、前記処理対象音声における最初のN個のフレーム音声信号を前記解析対象音声信号セグメントとして獲得するステップを備える、
第7の局面に記載の方法。
[第9の局面]
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップが:
前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを判定するステップと;
否定であれば、当該フレーム信号をノイズ信号と判定するステップと;を備える、
第7の局面に記載の方法。
[第10の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは、各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類するステップと、前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップとを備え、
それに即して、前記分散が第1の閾値を超えるか否かを判定する前記ステップは、前記第1の分散が前記第1の閾値を超えるか否かを判定するステップを備える、
第9の局面に記載の方法。
[第11の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは:
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類するステップであって、前記第1の周波数間隔は前記第2の周波数間隔よりも小さい、分類するステップと;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップと;
前記第2のパワー値集合に含まれるパワー値の第2の分散を判定するステップと;を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを判定するステップと、否定であれば、当該フレーム信号をノイズ信号と判定するステップとを備える、
第7の局面に記載の方法。
[第12の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップよりも後、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップよりも前に、各分散の大きさに応じて、前記解析対象音声信号セグメントの各フレーム信号を順位付けるステップをさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップを備える、
第7の局面に記載の方法。
[第13の局面]
ノイズ信号判定装置であって:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と;
各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を、前記フレーム信号の前記パワースペクトルに基づき判定するよう構成される分散判定部と;
前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部と;を備える、
ノイズ信号判定装置。
[第14の局面]
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するよう、又は、処理対象音声における最初のN個のフレーム音声信号を、前記解析対象音声信号セグメントとして獲得するよう構成されるセグメント取得部をさらに備える、
第13の局面に記載の装置。
[第15の局面]
前記ノイズ判定部は、前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第13の局面に記載の装置。
[第16の局面]
前記分散判定部は、各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類し、前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するよう構成されており、
それに即して、前記ノイズ判定部が、前記第1の分散が前記第1の閾値を超えるか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第13の局面に記載の装置。
[第17の局面]
前記分散判定部は、具体的に:
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類し、前記第1の周波数間隔は前記第2の周波数間隔よりもその周波数が小さく;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定し;
前記第2のパワー値集合に含まれるパワー値の第2の分散を判定する;よう構成されており、
それに即して、前記ノイズ判定部は:
各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第13の局面に記載の装置。
[第18の局面]
音声ノイズ除去装置であって:
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部と;
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するよう構成される分散判定部と;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するよう構成されるノイズ判定部と;
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するよう構成される音声ノイズ除去部と;を備える、
音声ノイズ除去装置。
10 音声ノイズ除去部
100 ノイズ信号判定装置
101、202 パワースペクトル取得部
102、203 分散判定部
103、205 ノイズ判定部
200 音声ノイズ除去装置
201 セグメント判定部
204 順位付け部

Claims (6)

  1. 音声信号セグメント内のノイズ信号を特定する方法であって、
    理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記音声信号セグメントと特定するステップと;
    前記音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップであって、前記パワースペクトルは、異なる周波数に対応する複数のパワー値で構成される、ステップ(S101)と;
    各フレーム信号の前記パワースペクトルに基づき、複数の周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定するステップ(S102)と;
    前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定するステップ(S103)と;を備える、
    ノイズ信号を特定する方法。
  2. 前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、
    前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを特定するステップ(S1031)と;
    否定であれば、当該フレーム信号をノイズ信号と特定するステップ(S1032)と;を備える、
    請求項1に記載の方法。
  3. 各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップは、
    各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類するステップと;
    前記第1のパワー値集合に含まれるパワー値の第1の分散を特定するステップ(S1022)と;を備え、
    それに即して、前記分散が第1の閾値を超えているか否かを特定する前記ステップが、
    前記第1の分散が前記第1の閾値を超えているか否かを特定するステップを備える、
    請求項2に記載の方法。
  4. 各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップは、
    各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類するステップであって、前記第1の周波数間隔は前記第2の周波数間隔よりもその周波数が小さい、ステップ(S1021)と;
    前記第1のパワー値集合に含まれるパワー値の第1の分散を特定するステップ(S1022)と;
    前記第2のパワー値集合に含まれるパワー値の第2の分散を特定するステップ(S1023)と;を備え、
    それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、
    各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを特定するステップと;
    否定であれば、当該フレーム信号をノイズ信号と特定するステップと;を備える、
    請求項1に記載の方法。
  5. 各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップよりも後で、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップよりも前に、
    各分散の大きさに応じて、前記音声信号セグメントの各フレーム信号を順位付けるステップ;をさらに備え、
    それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定するステップを備える、
    請求項1に記載の方法。
  6. 請求項1乃至請求項5のいずれか1項に記載の方法を実行するように構成された複数のユニット(101、102、103)を備える、
    音声信号セグメント内のノイズ信号を特定するための装置(100)。
JP2018519388A 2015-10-13 2016-10-08 ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置 Active JP6784758B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510670697.8 2015-10-13
CN201510670697.8A CN106571146B (zh) 2015-10-13 2015-10-13 噪音信号确定方法、语音去噪方法及装置
PCT/CN2016/101444 WO2017063516A1 (zh) 2015-10-13 2016-10-08 噪音信号确定方法、语音去噪方法及装置

Publications (3)

Publication Number Publication Date
JP2018534618A JP2018534618A (ja) 2018-11-22
JP2018534618A5 JP2018534618A5 (ja) 2020-07-09
JP6784758B2 true JP6784758B2 (ja) 2020-11-11

Family

ID=58508605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018519388A Active JP6784758B2 (ja) 2015-10-13 2016-10-08 ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置

Country Status (9)

Country Link
US (1) US10796713B2 (ja)
EP (1) EP3364413B1 (ja)
JP (1) JP6784758B2 (ja)
KR (1) KR102208855B1 (ja)
CN (1) CN106571146B (ja)
ES (1) ES2807529T3 (ja)
PL (1) PL3364413T3 (ja)
SG (2) SG10202005490WA (ja)
WO (1) WO2017063516A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220208175A1 (en) * 2019-09-26 2022-06-30 Yamaha Corporation Information processing method, estimation model construction method, information processing device, and estimation model constructing device

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
KR102096533B1 (ko) * 2018-09-03 2020-04-02 국방과학연구소 음성 구간을 검출하는 방법 및 장치
CN110689901B (zh) * 2019-09-09 2022-06-28 苏州臻迪智能科技有限公司 语音降噪的方法、装置、电子设备及可读存储介质
KR20220018271A (ko) 2020-08-06 2022-02-15 라인플러스 주식회사 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
CN116134834A (zh) * 2020-12-31 2023-05-16 深圳市韶音科技有限公司 生成音频的方法和系统
CN112967738B (zh) * 2021-02-01 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2966452B2 (ja) * 1989-12-11 1999-10-25 三洋電機株式会社 音声認識装置の雑音除去システム
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
CN101197130B (zh) 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
WO2008111462A1 (ja) 2007-03-06 2008-09-18 Nec Corporation 雑音抑圧の方法、装置、及びプログラム
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
JP2009216733A (ja) * 2008-03-06 2009-09-24 Nippon Telegr & Teleph Corp <Ntt> フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
EP2546831B1 (en) 2010-03-09 2020-01-15 Mitsubishi Electric Corporation Noise suppression device
CN101853661B (zh) * 2010-05-14 2012-05-30 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP4937393B2 (ja) 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
CN101968957B (zh) * 2010-10-28 2012-02-01 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103903629B (zh) * 2012-12-28 2017-02-15 联芯科技有限公司 基于隐马尔科夫链模型的噪声估计方法和装置
CN103489446B (zh) * 2013-10-10 2016-01-06 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220208175A1 (en) * 2019-09-26 2022-06-30 Yamaha Corporation Information processing method, estimation model construction method, information processing device, and estimation model constructing device
US11875777B2 (en) * 2019-09-26 2024-01-16 Yamaha Corporation Information processing method, estimation model construction method, information processing device, and estimation model constructing device

Also Published As

Publication number Publication date
CN106571146B (zh) 2019-10-15
CN106571146A (zh) 2017-04-19
ES2807529T3 (es) 2021-02-23
US10796713B2 (en) 2020-10-06
SG11201803004YA (en) 2018-05-30
US20180293997A1 (en) 2018-10-11
SG10202005490WA (en) 2020-07-29
EP3364413A1 (en) 2018-08-22
EP3364413B1 (en) 2020-06-10
JP2018534618A (ja) 2018-11-22
EP3364413A4 (en) 2019-06-26
WO2017063516A1 (zh) 2017-04-20
KR20180067608A (ko) 2018-06-20
KR102208855B1 (ko) 2021-01-29
PL3364413T3 (pl) 2020-10-19

Similar Documents

Publication Publication Date Title
JP6784758B2 (ja) ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置
US11670325B2 (en) Voice activity detection using a soft decision mechanism
JP6999012B2 (ja) 音声信号検出方法及び装置
US20130035933A1 (en) Audio signal processing apparatus and audio signal processing method
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
JP6236282B2 (ja) 異常検出装置、異常検出方法、及びコンピュータ読み取り可能な記憶媒体
US9997168B2 (en) Method and apparatus for signal extraction of audio signal
WO2017045429A1 (zh) 一种音频数据的检测方法、系统及存储介质
JP2019053321A (ja) 音声信号を検出するための方法および装置
US20170249957A1 (en) Method and apparatus for identifying audio signal by removing noise
JP2018534618A5 (ja)
CN112331188A (zh) 一种语音数据处理方法、系统及终端设备
CN106847299B (zh) 延时的估计方法及装置
EP3254282A1 (en) Determining features of harmonic signals
JPWO2012105386A1 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
CN106910494B (zh) 一种音频识别方法和装置
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
US10109298B2 (en) Information processing apparatus, computer readable storage medium, and information processing method
CN114255785A (zh) 音频检测方法、装置、终端及存储介质
CN112863548A (zh) 训练音频检测模型的方法、音频检测方法及其装置
US20160217809A1 (en) Speech processing apparatus, speech processing method, and computer program product
Das et al. Detection of voiced, unvoiced and silence regions of assamese speech by using acoustic features
JP2016139025A (ja) パラメータ決定装置、パラメータ決定方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200528

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200528

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200605

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201023

R150 Certificate of patent or registration of utility model

Ref document number: 6784758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250