JP4740609B2 - 有声音および無声音の検出装置、並びにその方法 - Google Patents

有声音および無声音の検出装置、並びにその方法 Download PDF

Info

Publication number
JP4740609B2
JP4740609B2 JP2005032916A JP2005032916A JP4740609B2 JP 4740609 B2 JP4740609 B2 JP 4740609B2 JP 2005032916 A JP2005032916 A JP 2005032916A JP 2005032916 A JP2005032916 A JP 2005032916A JP 4740609 B2 JP4740609 B2 JP 4740609B2
Authority
JP
Japan
Prior art keywords
parameter
gradient
voiced
spectrum
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005032916A
Other languages
English (en)
Other versions
JP2005227782A (ja
Inventor
光 哲 ▼呉▲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2005227782A publication Critical patent/JP2005227782A/ja
Application granted granted Critical
Publication of JP4740609B2 publication Critical patent/JP4740609B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • DTEXTILES; PAPER
    • D06TREATMENT OF TEXTILES OR THE LIKE; LAUNDERING; FLEXIBLE MATERIALS NOT OTHERWISE PROVIDED FOR
    • D06QDECORATING TEXTILES
    • D06Q1/00Decorating textiles
    • D06Q1/10Decorating textiles by treatment with, or fixation of, a particulate material, e.g. mica, glass beads
    • DTEXTILES; PAPER
    • D04BRAIDING; LACE-MAKING; KNITTING; TRIMMINGS; NON-WOVEN FABRICS
    • D04DTRIMMINGS; RIBBONS, TAPES OR BANDS, NOT OTHERWISE PROVIDED FOR
    • D04D9/00Ribbons, tapes, welts, bands, beadings, or other decorative or ornamental strips, not otherwise provided for
    • D04D9/06Ribbons, tapes, welts, bands, beadings, or other decorative or ornamental strips, not otherwise provided for made by working plastics

Landscapes

  • Engineering & Computer Science (AREA)
  • Textile Engineering (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本発明は、有声音および無声音の検出に関し、より詳細には、所定の帯域における音声信号のメルスケールフィルタバンクスペクトルから得られる平滑度および傾度を利用して、有声音帯域および無声音帯域を検出するための装置および方法に関する。
時間領域や周波数領域において、音声信号の属性と人間の聴覚特性とを利用して、信号圧縮を行う多様な符号化方法が提案されている。音声信号を符号化するために、入力された音声信号が有声音であるか無声音であるかの判定した情報が通常利用されている。入力された音声信号から有声音および無声音を検出する方法は、時間領域で行われる方法と周波数領域で行われる方法とに分類することができる。時間領域で行われる方法では、音声信号のフレーム平均エネルギーとゼロ交差率のうち、少なくとも一つを複合的に使用し、一方、周波数領域で行われる方法では、音声信号の低周波数成分および高周波数成分についての情報を利用するか、またはピッチ高調波情報を利用する。しかし、前記のような既存の方法を使用する場合、クリーン環境では良好な検出性能を保証できるが、白色ノイズが存在する環境では、検出性能が著しく劣化するという問題がある。
本発明が解決しようとする技術的課題は、音声信号処理のために提供される音声信号を一定のブロック単位に分割し、任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、特に白色ノイズが存在する環境であっても、該当ブロックの音声信号の有声音帯域と無声音帯域とを高性能に検出するための装置および方法を提供することである。
前記課題を解決するために本発明による有声音および無声音の検出装置は、受信した音声信号をブロック単位に分割するためのブロッキング部と、任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、有声音判別のための第1パラメータと無声音判別のための第2パラメータとを算出するパラメータ算出部と、前記第1および第2パラメータを所定の臨界値と比較し、比較結果によって前記ブロックで有声音帯域と無声音帯域とを判定する判定部と、を含む。
前記課題を解決するために本発明による有声音および無声音の検出方法は、(1)受信する音声信号をブロック単位に分割するステップと、(2)任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、有声音判別のための第1パラメータと無声音判別のための第2パラメータとを算出するステップと、(3)前記第1および第2パラメータを所定の臨界値と比較し、比較結果によって前記ブロックで有声音帯域と無声音帯域とを判定するステップと、を含む。
前記方法は、コンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体で実施されることが好ましい。
ここで、「臨界値」とは、有声音判別のための基準値である第1臨界値と、無声音判別のための基準値である第2臨海値とを含み、予め実験またはシミュレーションを通して求めた値である。
本発明によれば、音声信号を一定のブロック単位に分割し、任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度および平滑度を利用して、該当ブロックの音声信号の有声音帯域と無声音帯域とを判定する装置および方法は、判別が正確なだけでなく、特に、白色ノイズの環境でその性能に優れるという利点がある。また、音声認識で使われるメルスケールフィルタバンクを利用して有声音帯域および無声音帯域を判定することによって、高価なハードウェアやソフトウェアを追加する必要がないので、実装コストが低いという利点がある。
以下、添付された図面を参照して、本発明の好適な実施形態について詳細に説明する。
図1は、黙音、有声音および無声音のメルスケールフィルタバンクスペクトルの特性を表すグラフである。本発明では、受信した音声データからメルスケールフィルタバンクスペクトルを取得し、メルスケールフィルタバンクスペクトルの平滑度と傾度のうち少なくとも1つを利用して、有声音帯域および無声音帯域を検出する。
図2は、本発明による有声音帯域および無声音帯域の検出装置の1実施形態の構成を表すブロック図であって、フィルタリング部210、ブロッキング部220、第1スペクトル獲得部230、第1パラメータ算出部240、第2スペクトル獲得部250、第2パラメータ算出部260および判定部270より構成される。ここで、第1スペクトル獲得部230、第1パラメータ算出部240、第2スペクトル獲得部250、および第2パラメータ算出部260によってパラメータ算出部が構成されている。
図2を参照して説明すると、フィルタリング部210は、IIR(Infinite Impulse Response)またはFIR(Finite Impulse Response)デジタルフィルタで実装され、カットオフ周波数が、例えば、230Hzの低域通過フィルタとして機能する。フィルタリング部210は、アナログ/デジタル(A/D)変換で得られた音声データについて低域通過フィルタリングを行って不必要な高域成分を除去して、該音声データをブロッキング部220に提供する。
ブロッキング部220は、フィルタリング部210から提供された音声データを所定の単位時間に分割することにより、該音声データをフレーム単位で作成し、各フレームとそれから一定の期間、例えば、15msec延長した期間を含むブロックを作成する。例えば、フレームサイズが10msecである場合、ブロックサイズは25msecとなる。
第1スペクトル獲得部230は、ブロッキング部220で作成されたブロック単位の音声データを受信し、受信した音声データのメルスケールフィルタバンクスペクトルを取得する。これを、図3Aないし図3Dを参照して、さらに詳細に説明する。ブロッキング部220から提供される図3Aに示す第nブロックの音声データに、例えば、高速フーリエ変換を行って、図3Bに示す線形スペクトルを取得する。図3Bの線形スペクトルについて、図3Cに示すP個、ここでは、19個のメルスケールフィルタバンクを適用して、図3Dに示すメルスケールフィルタバンクスペクトル、すなわち、第1スペクトルX(k)を取得する。
第1パラメータ算出部240は、第1スペクトル獲得部230から提供された第1スペクトルX(k)の傾度を算出する。これを、図4を参照してさらに詳細に説明すれば、まず、第1スペクトルX(k)の1次関数Y(k)を下記の数式1のように定義する。
Figure 0004740609
前記のような1次関数について、ラインフィッティングを利用して傾度aおよびbを求める。ラインフィッティングに関する技術は、「Numerical Recipes in FORTRAN 77」(William H. Press著、Brian P. Flannery著、Saul A. Teukolsky著、William T. Vetterling著)に詳述されており、ここでは詳細な説明を省略する。求められた傾度aが有声音に対して、通常負の値を示すため、−1を乗算して正の値を示すように調整した後、これを有声音判別のための第1パラメータp1と設定する。この時、第1パラメータp1を設定する第1の実施形態では、フィルタバンク帯域全体について求めた第1傾度を利用できる。また、第2の実施形態では、フィルタバンク帯域全体について求めた第1傾度、全体フィルタバンク帯域を低域周波数帯域と高域周波数帯域とに分割し、各帯域についてラインフィッティングを行って求めた第2および第3傾度を利用できる。これについては、図7ないし図9を参照して後述する。第2スペクトル獲得部250は、第1スペクトル獲得部230で提供される第1スペクトルX(k)から傾度を除去して、図5のような第2スペクトルZ(k)を取得する。この時、第2スペクトルZ(k)は、下記の数式2で表すことができる。
Figure 0004740609
ここで、Xm(k)は、第1スペクトルX(k)の平均を表す。
第2パラメータ算出部260は、第2スペクトル獲得部250から提供される第2スペクトルの平滑度(Spectral Flatness Measure、以下SFMとする)を算出する。この時、SFMは、下記の数式3で定義できる。
Figure 0004740609
ここで、GM(Geometric Mean)は、第2スペクトルZ(k)の幾何平均を表し、AM(Arithmetic Mean)は、第2スペクトルZ(k)の算術平均をそれぞれ表し、下記の数式4のように定義され得る。
Figure 0004740609
ここで、Pは、使われたフィルタバンクの数を表す。
前記のように算出されたSFMおよび傾度を利用して、下記の数式5のように無声音算出のための第2パラメータp2を算出する。
Figure 0004740609
ここで、λは、無声音パラメータで傾度の寄与度を表す任意の定数であり、その範囲は、1に近接した値であって、ここでは0.75を使用する。
判定部270は、第1パラメータ算出部240から得られる有声音判別のための第1パラメータp1を第1臨界値θ1と、第2パラメータ算出部260から得られる無声音判別のための第2パラメータp2を第2臨界値θ2とそれぞれ比較する。比較結果によって、該当ブロックの音声信号について有声音帯域と無声音帯域とを判定する。ここで、第1臨界値θ1および第2臨界値θ2は、黙音帯域であらかじめ実験的に求められる。まず、第1パラメータp1が第1臨界値θ1より大きい帯域は、有声音帯域と判断し、第1パラメータp1が第1臨界値θ1より小さな帯域は、無声音または黙音帯域と判断する。すなわち、有声音帯域は、傾度aが負の値を有し、無声音または黙音帯域は、傾度aが正の値を有するか、またはゼロ(0)に近い値を示す。一方、第2パラメータが第2臨界値θ2より大きい帯域は、無声音帯域と判断し、第2パラメータp2が第2臨界値θ2より小さな帯域は、有声音または黙音帯域と判断する。すなわち、有声音帯域は、SFMが小さく、傾度aが負(−)の値を有し、無声音帯域は、SFMおよび傾度aが大きく、黙音帯域では、SFMが小さく、傾度が0に近い。
図6は、本発明の1実施形態による有声音および無声音の検出方法を説明するフローチャートである。図6を参照すれば、ステップ610では、ブロッキング部220から提供される所定ブロックの音声信号についてフーリエ変換を行うことにより、該音声信号を周波数領域の信号に変換する。ステップ620では、ステップ610で変換された所定ブロックの音声信号についてP個のメルスケールフィルタバンクを適用して第1スペクトルX(k)を取得する。
ステップ630では、ラインフィッティングを適用して第1スペクトルを1次関数としてモデリングし、1次関数の傾度を有声音判別のための第1パラメータp1として算出する。ステップ640では、ステップ620で得られた第1スペクトルX(k)で傾度が除去された第2スペクトルZ(k)を取得する。
ステップ650では、ステップ640で得られた第2スペクトルZ(k)の幾何平均および算出平均を利用してSFMを求め、第1スペクトルの傾度と第2スペクトルZ(k)の平滑度とから無声音判別のための第2パラメータp2を算出する。
ステップ660では、該当ブロックの音声信号に第1パラメータを適用して得られた波形で、第1臨界値より大きい帯域を有声音帯域と判定し、ステップ670では、該当ブロックの音声信号に第2パラメータを適用して得られた波形で、第2臨界値より大きい帯域を無声音帯域と判定する。
図7は、図6におけるステップ630の第1の実施形態を表すフローチャートである。図7を参照して説明すると、ステップ710では、ステップ620で得られた第1スペクトルX(k)の周波数帯域全体についての第1傾度atを算出する。ステップ720では、ステップ710で求めた第1傾度atに−1を乗算して第1パラメータp1と設定する。
図8は、図6におけるステップ630の第2の実施形態を表すフローチャートである。図8を参照して説明すると、ステップ810では、ステップ620で得られた第1スペクトルX(k)の周波数帯域全体についての第1傾度atを算出する。ステップ820では、第1スペクトルX(k)の周波数帯域全体を2つの帯域、すなわち、例えば、19個のフィルタバンクのうち第10フィルタバンクのメル周波数を基準として高周波数帯域と低周波数帯域とに分け、低周波数帯域についての第2傾度alを算出する。ステップ830では、ステップ810および820で求めた第1傾度atと第2傾度alとを合算した後、−1を乗算して第1パラメータp1と設定する。
図9は、図6におけるステップ630の第3の実施形態を表すフローチャートである。図9を参照して説明すると、ステップ910では、ステップ620で得られた第1スペクトルX(k)の周波数帯域全体についての第1傾度atを算出する。ステップ920および930では、第1スペクトルX(k)の全体周波数帯域を2つの帯域、すなわち、高周波数帯域と低周波数帯域とに分け、低周波数帯域についての第2傾度alと高周波数帯域についての第3傾度ahとを算出する。ステップ940では、ステップ910ないし930で求めた第1傾度at、第2傾度alおよび第3傾度ahを合算した後、−1を乗算することにより、第1パラメータp1を設定する。
図10は、オリジナルの信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフであって、(a)に示すオリジナルの信号について、(b)と(c)には、それぞれフレーム平均エネルギーとゼロ交差率を適用することで得られる波形が示され、一方、(d)と(e)には、それぞれ本発明による第1パラメータp1と第2パラメータp2とを適用して得られる波形が示されている。これによれば、(a)に存在する無声音帯域P2と有声音帯域P1,P3,P4は、(d)および(e)にてより正確に区別されていることが分かる。
図11(a)ないし図11(e)は、20dBの白色ノイズが混在する信号、図12(a)ないし図12(e)は、10dBの白色ノイズが混在する信号、図13(a)ないし図13(e)は、0dBの白色ノイズが混在する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。これによれば、図10の場合と同様に、(a)に存在する無声音帯域P2と有声音帯域P1,P3,P4とは、(d)および(e)にてより正確に区別されていることが分かる。
前記比較結果を要約すると、本発明による検出アルゴリズムを適用することにより、白色ノイズが混入されていない純粋な音声信号だけでなく、白色ノイズが混入された音声信号についてもより正確に有声音帯域および無声音帯域を検出することができる。
前記実施形態では、第1パラメータと第2パラメータによって得られる波形を互いに対比するために算出された傾度に、−1を乗算して第1パラメータと設定したが、算出された傾度自体を第1パラメータと設定しても良い。
本発明はまた、コンピュータ可読記録媒体のコンピュータ可読コードとして実装可能である。コンピュータ可読記録媒体は、コンピュータシステムによって読取り可能なデータが保存される全ての種類の記録媒体を含む。コンピュータ可読記録媒体の例としては、ROM(read only memory)、RAM(random access memory)、CD−ROM、磁気テープ、フロッピーディスク、光学式データ記録媒体があり、また搬送波(例えば、インターネットを介した伝送)として実装されるものも含む。また、コンピュータ可読記録媒体は、ネットワークに接続されたコンピュータシステムに分散され、配信方式でコンピュータ可読コードが保存され、かつ実行されることが可能である。更に、本発明を実施するための機能的なプログラム、コードおよびコードセグメントは、当業者によって容易に理解できるであろう。
本発明について、前記実施形態を参考として説明したが、これは例示的なものに過ぎず、当業者ならば、これから多様な変形および類似の他の実施形態が実施可能であることが理解できるであろう。したがって、本発明の技術範囲は、特許請求の範囲の技術的趣旨によって決定されなければならない。
本発明による有声音および無声音の検出方法および装置は、一般的な音声認識で音声を検出する用途、対話形音声認識のための韻律情報を抽出する用途、あるいは音声符号化および混入されたノイズ除去の用途など多様な用途に適用され得る。
黙音、有声音、および無声音のメルスケールフィルタバンクスペクトルの特性を表すグラフである。 本発明の1実施形態による有声音および無声音の検出装置の構成を表すブロック図である。 図2に示す第1スペクトル獲得部の動作を説明する波形図である。 図2に示す第1スペクトル獲得部の動作を説明する波形図である。 図2に示す第1スペクトル獲得部の動作を説明する波形図である。 図2に示す第1スペクトル獲得部の動作を説明する波形図である。 図2に示す第1パラメータ計算部の動作を説明する波形図である。 図2に示す第2スペクトル獲得部の動作を説明する波形図である。 本発明の1実施形態による有声音および無声音の検出方法を説明するフローチャートである。 図6において、ステップ630の第1の実施形態を表すフローチャートである。 図6において、ステップ630の第2の実施形態を表すフローチャートである。 図6において、ステップ630の第3の実施形態を表すフローチャートである。 原信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。 20dBの白色ノイズを有する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。 10dBの白色ノイズを有する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。 0dBの白色ノイズを有する信号の所定帯域について、従来の技術および本発明による有声音および無声音の検出方法の性能を比較するグラフである。
符号の説明
210 フィルタリング部
220 ブロッキング部
230 第1スペクトル獲得部
240 第1パラメータ算出部
250 第2スペクトル獲得部
260 第2パラメータ算出部
270 判定部

Claims (15)

  1. 受信した音声信号をブロック単位に分割するステップと、
    任意のブロックに存在する前記音声信号から得られるメルスケールフィルタバンクスペクトルの傾度を用いて有声音を決定する第1パラメータと、前記傾度と平滑度を用いて無声音を決定する第2パラメータとを算出するステップと、
    前記第1パラメータを第1臨界値と比較して有声音区間を判定し、前記第2パラメータを第2臨界値と比較して無声音区間を判定するステップと、
    を含むことを特徴とする有声音および無声音の検出方法。
  2. 前記第2のパラメータを算出するステップは、
    前記メルスケールフィルタバンクスペクトルを1次関数でモデリングして前記傾度を算出するステップと、
    前記メルスケールフィルタバンクスペクトルから前記傾度を除去して得られるスペクトルの算術平均および幾何平均を利用して、前記平滑度を算出するステップと、
    を含むことを特徴とする請求項1に記載の有声音および無声音の検出方法。
  3. 前記有声音帯域と無声音帯域とを判定するステップは、
    前記傾度から求めた前記第1パラメータを前記任意のブロックの音声信号に適用して得られた第1信号波形を第1臨界値と比較するステップと、
    前記傾度および前記平滑度から求めた前記第2パラメータを前記任意のブロックの音声信号に適用して得られた第2信号波形を第2臨界値と比較するステップと、
    前記第1臨界値と比較するステップでの結果から、前記第1信号波形で前記第1臨界値より大きい帯域を有声音帯域と判断するステップと、
    前記第2臨界値と比較するステップでの結果から、前記第2信号波形で前記第2臨界値より大きい帯域を無声音帯域と判断するステップと、
    を含むことを特徴とする請求項1に記載の有声音および無声音の検出方法。
  4. 前記第1パラメータは、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された第1傾度を利用して得られることを特徴とする請求項3に記載の有声音および無声音の検出方法。
  5. 前記第1パラメータは、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された第1傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出された第2傾度とを利用して得られることを特徴とする請求項3に記載の有声音および無声音の検出方法。
  6. 前記第1パラメータは、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された第1傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出された第2傾度と、前記周波数帯域全体のうち所定の高周波数帯域について算出された第3傾度と、を利用して得られることを特徴とする請求項3に記載の有声音および無声音の検出方法。
  7. 前記第2パラメータは、前記平滑度と前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された傾度との差によって得られることを特徴とする請求項3に記載の有声音および無声音の検出方法。
  8. 受信した音声信号をブロック単位に分割するためのブロッキング部と、
    任意のブロックに存在する音声信号から得られるメルスケールフィルタバンクスペクトルの傾度を用いて有声音を決定する第1パラメータと、前記傾度と平滑度を用いて無声音を決定する第2パラメータとを算出するパラメータ算出部と、
    前記第1パラメータを第1臨界値と比較して有声音区間を判定し、前記第2パラメータを第2臨界値と比較して無声音区間を判定する判定部と、
    を備えることを特徴とする有声音および無声音の検出装置。
  9. 前記パラメータ算出部は、
    前記ブロッキング部から提供される任意のブロックに存在する音声信号からメルスケールフィルタバンクスペクトルを獲得するための第1スペクトル獲得部と、
    前記第1スペクトル獲得部から提供されるメルスケールフィルタバンクスペクトルの傾度を算出し、前記傾度を利用して有声音判別のための第1パラメータを算出するための第1パラメータ算出部と、
    前記メルスケールフィルタバンクスペクトルから周波数帯域全体に対する前記傾度が除去されたスペクトルを獲得するための第2スペクトル獲得部と、
    前記第2スペクトル獲得部から提供される第2スペクトルの平滑度を算出し、前記傾度および平滑度を利用して無声音判別のための第2パラメータを算出するための第2パラメータ算出部と、
    を備えることを特徴とする請求項8に記載の有声音および無声音の検出装置。
  10. 前記第1パラメータ算出部が、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出した第1傾度を前記第1パラメータと設定することを特徴とする請求項9に記載の有声音および無声音の検出装置。
  11. 前記第1パラメータ算出部が、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出した第1傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出した第2傾度とを加算した後、加算結果を前記第1パラメータと設定することを特徴とする請求項9に記載の有声音および無声音の検出装置。
  12. 前記第1パラメータ算出部が、前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出した第1傾度と、前記周波数帯域全体のうち所定の低周波数帯域について算出した第2傾度と、前記周波数帯域全体のうち所定の高周波数帯域について算出した第3傾度と、を加算した後、加算結果を前記第1パラメータと設定することを特徴とする請求項9に記載の有声音および無声音の検出装置。
  13. 前記第2パラメータ算出部が、前記平滑度と前記メルスケールフィルタバンクスペクトルの周波数帯域全体について算出された傾度との差を前記第2パラメータと設定することを特徴とする請求項9に記載の有声音および無声音の検出装置。
  14. 前記判定部は、前記第1パラメータを前記任意のブロックの音声信号に適用して得られた第1信号波形を第1臨界値と比較し、前記第1信号波形で前記第1臨界値より大きい帯域を有声音帯域と判断することを特徴とする請求項8に記載の有声音および無声音の検出装置。
  15. 前記判定部は、前記第2パラメータを前記任意のブロックの音声信号に適用して得られた第2信号波形を第2臨界値と比較し、前記第2信号波形で前記第2臨界値より大きい帯域を無声音帯域と判断することを特徴とする請求項8に記載の有声音および無声音の検出装置。
JP2005032916A 2004-02-10 2005-02-09 有声音および無声音の検出装置、並びにその方法 Expired - Fee Related JP4740609B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR2004-008740 2004-02-10
KR1020040008740A KR101008022B1 (ko) 2004-02-10 2004-02-10 유성음 및 무성음 검출방법 및 장치

Publications (2)

Publication Number Publication Date
JP2005227782A JP2005227782A (ja) 2005-08-25
JP4740609B2 true JP4740609B2 (ja) 2011-08-03

Family

ID=34698966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005032916A Expired - Fee Related JP4740609B2 (ja) 2004-02-10 2005-02-09 有声音および無声音の検出装置、並びにその方法

Country Status (4)

Country Link
US (1) US7809554B2 (ja)
EP (1) EP1564720A3 (ja)
JP (1) JP4740609B2 (ja)
KR (1) KR101008022B1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4965891B2 (ja) * 2006-04-25 2012-07-04 キヤノン株式会社 信号処理装置およびその方法
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
US8346559B2 (en) * 2007-12-20 2013-01-01 Dean Enterprises, Llc Detection of conditions from sound
ES2539304T3 (es) * 2008-07-11 2015-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Un aparato y un método para generar datos de salida por ampliación de ancho de banda
US8862476B2 (en) * 2012-11-16 2014-10-14 Zanavox Voice-activated signal generator
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
JP6333043B2 (ja) * 2014-04-23 2018-05-30 山本 裕 音声信号処理装置
US9286888B1 (en) 2014-11-13 2016-03-15 Hyundai Motor Company Speech recognition system and speech recognition method
CN109994127B (zh) * 2019-04-16 2021-11-09 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置、电子设备及存储介质
KR102218151B1 (ko) * 2019-05-30 2021-02-23 주식회사 위스타 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质
CN113643689B (zh) * 2021-07-02 2023-08-18 北京华捷艾米科技有限公司 一种数据滤波方法和相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03114100A (ja) * 1989-09-28 1991-05-15 Matsushita Electric Ind Co Ltd 音声区間検出装置
JPH04100099A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
JPH06161494A (ja) * 1992-11-18 1994-06-07 Nippon Hoso Kyokai <Nhk> 音声のピッチ区間自動抽出方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
DE3266204D1 (en) * 1981-09-24 1985-10-17 Gretag Ag Method and apparatus for redundancy-reducing digital speech processing
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
GB2297465B (en) * 1995-01-25 1999-04-28 Dragon Syst Uk Ltd Methods and apparatus for detecting harmonic structure in a waveform
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US6230122B1 (en) * 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7318030B2 (en) * 2003-09-17 2008-01-08 Intel Corporation Method and apparatus to perform voice activity detection
US20060089836A1 (en) * 2004-10-21 2006-04-27 Motorola, Inc. System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03114100A (ja) * 1989-09-28 1991-05-15 Matsushita Electric Ind Co Ltd 音声区間検出装置
JPH04100099A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
JPH06161494A (ja) * 1992-11-18 1994-06-07 Nippon Hoso Kyokai <Nhk> 音声のピッチ区間自動抽出方法

Also Published As

Publication number Publication date
KR101008022B1 (ko) 2011-01-14
US20050177363A1 (en) 2005-08-11
US7809554B2 (en) 2010-10-05
EP1564720A2 (en) 2005-08-17
EP1564720A3 (en) 2007-01-24
JP2005227782A (ja) 2005-08-25
KR20050080649A (ko) 2005-08-17

Similar Documents

Publication Publication Date Title
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
US8320583B2 (en) Noise reducing device and noise determining method
JP4818335B2 (ja) 信号帯域拡張装置
JP4733727B2 (ja) 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
US7917358B2 (en) Transient detection by power weighted average
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
RU2595889C1 (ru) Устройство, способ и компьютерная программа для свободно выбираемых сдвигов частоты в области поддиапазонов
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
KR20130031849A (ko) 대역폭 확장기
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
RU2719543C1 (ru) Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала
KR20020070374A (ko) 오디오 신호들의 매개변수적 코딩
Drugman Residual excitation skewness for automatic speech polarity detection
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP2007293059A (ja) 信号処理装置およびその方法
US20210201938A1 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using hilbert envelope
Kadiri et al. Speech polarity detection using strength of impulse-like excitation extracted from speech epochs
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
JP2006505818A (ja) オーディオ成分を生成する方法および装置
Kereliuk et al. Improved hidden Markov model partial tracking through time-frequency analysis
JP4166405B2 (ja) 駆動信号分析装置
JP2003317368A (ja) パルス性ノイズのデジタル信号処理による検出および除去方法
JP4381383B2 (ja) 判別装置、判別方法、プログラム、及び記録媒体
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Rahman et al. Frame Length Dependency for Fundamental Frequency Extraction in Noisy Speech

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110311

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees