JP2010102129A - 基本周波数抽出方法、基本周波数抽出装置、およびプログラム - Google Patents

基本周波数抽出方法、基本周波数抽出装置、およびプログラム Download PDF

Info

Publication number
JP2010102129A
JP2010102129A JP2008273605A JP2008273605A JP2010102129A JP 2010102129 A JP2010102129 A JP 2010102129A JP 2008273605 A JP2008273605 A JP 2008273605A JP 2008273605 A JP2008273605 A JP 2008273605A JP 2010102129 A JP2010102129 A JP 2010102129A
Authority
JP
Japan
Prior art keywords
fundamental frequency
data
information
cepstrum
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008273605A
Other languages
English (en)
Other versions
JP5282523B2 (ja
Inventor
Masayoshi Kato
正良 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008273605A priority Critical patent/JP5282523B2/ja
Publication of JP2010102129A publication Critical patent/JP2010102129A/ja
Application granted granted Critical
Publication of JP5282523B2 publication Critical patent/JP5282523B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】従来の発明をそのまま携帯型情報端末に適用したとしても、処理負荷や実際に要する処理時間が実用的でなく、発話によるコミュニケーションの音声データを携帯型情報端末によって計測することが実質的には不可能である問題点に鑑み、簡単な演算工程を用いて、より精度の高い基本周波数情報の抽出を高速に行う。
【解決手段】パワースペクトルデータとその平滑化処理したデータとの差分データをケプトラム処理して得られたピーク値から抽出した基本周波数候補データの群を、連続する所定のデータ数ずつ時系列にそのデータ値の大小を比較してその昇順もしくは降順にソートしたその中央値またはその近傍の代表値のケフレンシー情報から、基本周波数値とする代表値判定を行う基本周波数抽出方法を特徴とする。
【選択図】図1

Description

本発明は、音声処理や認識(認証などのセキュリティ、機器操作等のユーザインタフェイス等)を行うための基本周波数抽出方法、基本周波数抽出装置、およびプログラムに関し、特に組み込み機器等の処理能力や消費電力などに制限がある際の基本周波数抽出方法、基本周波数抽出装置、およびプログラムに関する。
近年において、人間の行動を記録して解析したいという需要がある。例えば組織内での人間同士のコミュニケーションを定量化したり、それを解析することによって、マネジメントの改善やコンサルティングの支援に活用することが考えられる。
人間同士のコミュニケーションの中でも、特に発話によるコミュニケーションは、重要なデータの一つである。人間の発話を録音した音声情報に基づいて、いつ、誰が、誰に向かってどんな会話をしたのかが解析できれば、人間同士のコミュニケーションを定量化できる。
そして人間の発話を計測する方法の一つに、音声情報を録音および解析する音声タグや各種センサなどの携帯型情報端末を人間自身に取り付け、それを用いて計測等し、多種多様な社会生活に役立てることが考えられる。
このような携帯型情報端末が実行する音声データ処理の一つに、基本周波数を抽出する技術が知られている。基本周波数は、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す技術である音声認識にとって、非常に重要な特徴である。この基本周波数を抽出する際に、ドアを閉める音や事務機器が発する機械音などの環境雑音、すなわちノイズの影響は極力排除することが望まれる。
このような音声認識のため、ケプトストラム解析手法が知られている。このケプストラムによる基本周波数抽出方法は、従来、以下のようなものが知られている。
非特許文献1には、新しい基本周波数抽出法として、ケプストラム型抽出法において、原対数パワースペクトルと移動平均スペクトルの差分に帯域制限処理をするMABC(Moving Average and Band-limitation in Cepstrum method)が開示されている。これにより、帯域制限やスペクトル領域の周期性を補うことにより抽出性能が改善されている。
またケプストラム型の基本周波数抽出する装置として、特許文献1に開示された高調波ピッチ検出装置が知られている。本装置では、図8に示すように、この装置のケプストラム処理部において、入力信号をFFT処理部において周波数領域の信号に変換したのち周波数平均処理器において周波数平均処理及び時間平均処理器において時間平均処理を行い、再度時間領域の信号にFFT処理器で変換することによりケプストラム信号を求めて、周期信号の高調波の間隔(高調波ピッチ)を検出している。これを音声データに採用することで基本周波数の抽出が可能であるとしている。
特許第2932996号公報 「移動平均と帯域制限を用いたケプストラム型基本周波数抽出とその応用」,電子情報通信学会技術報告,SP94-95,1995年2月,pp29-36
しかしながら、非特許文献1では、図7に示すように、実際のノイズ環境内の音声データにおいて、S/N比の低い場合、基本周波数情報の抽出時の誤検出により性能が低下するなどの問題が残る。また特許文献1に記載された高調波ピッチ検出装置を携帯型情報端末に適用しようとしても、携帯型情報端末は大型の情報端末と比較して処理機能に制限があり、音声認識に関して、特許文献1に開示された高調波ピッチ検出装置の携帯型情報端末へそのまま適用しても、十分な性能を備えることはできないといえる。また特許文献1では、音声認識の前処理として用いるためにはパワースペクトル処理結果やケプストラム処理結果後に、さらに時間平均処理をとるため、実時間処理が難しくなるなどの問題が残る。よって、装置構成として多大な処理能力を有する装置が必要であったり、または実用的な時間内で処理可能な装置として提供することができないのが実情である。
したがって、従来の発明をそのまま携帯型情報端末に適用したとしても、処理負荷や実際に要する処理時間が実用的ではなく、発話によるコミュニケーションの音声データを携帯型情報端末によって計測することが実質的には不可能であると言う困難で重大な問題があった。
本発明は以上のような問題点に鑑み、簡単な演算工程を用いてより精度の高い基本周波数情報の抽出を高速に行う方法、装置及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明は、以下の解決手段を有する。
(1) パワースペクトルデータとその平滑化処理したデータとの差分データをケプトラム処理して得られたピーク値から抽出した基本周波数候補データの群を、連続する所定のデータ数ずつ時系列にそのデータ値の大小を比較してその昇順もしくは降順にソートしたその中央値またはその近傍の代表値のケフレンシー情報から、基本周波数値とする代表値判定を行う基本周波数抽出方法を特徴とする。
(2) 音声データから基本周波数情報を抽出する基本周波数抽出方法であって、少なくともフーリエ変換と対数演算処理によるパワースペクトル情報の算出処理工程と、フーリエ変換もしくは逆フーリエ変換によるケプストラム情報抽出処理を含む基本周波数候補抽出工程と、前記基本周波数候補抽出工程後に、複数の連続するケプストラム情報を、連続する所定数ごとに比較処理を行い、前記比較結果により得られる中央値またはその近傍の代表値のケフレンシー情報から、基本周波数を決定する基本周波数情報抽出工程を有することを特徴とする。
(3) 前記(2)に記載の基本周波数抽出方法において、前記比較処理は、前記ケプストラムデータを平滑化処理により演算処理したデータ群を用いて行う基本周波数抽出方法を特徴とする。
(4) 前記(2)または(3)に記載の基本周波数抽出方法において、前記パワースペクトル情報の算出処理工程で切り出された所定数の音声データごとの分散値を算出し、前記閾値未満の所定数の音声データに対して、前記パワースペクトル情報の算出処理工程と、基本周波数候補抽出工程とを省略する判定処理を行う基本周波数抽出方法を特徴とする。
(5) 所定数のケプストラム情報を入力し、前記所定数のケプストラム情報ごとに比較を行い、前記比較結果により得られる中央値またはその近傍の代表値のケフレンシー情報から基本周波数を決定する中央値判定手段により基本周波数情報を抽出する基本周波数抽出装置を特徴とする。
(6) 前記(5)に記載の基本周波数抽出装置において、音声データから基本周波数情報を抽出する装置であって、少なくともフーリエ変換と対数演算処理によるパワースペクトル情報の変換処理手段と、フーリエ変換もしくは逆フーリエ変換処理によるケプストラム情報抽出過程から基本周波数情報を算出する基本周波数情報抽出手段とを前段に有し、前記複数の所定数のケプストラム情報が当該前段から前記中央値判定手段に入力される基本周波数抽出装置を特徴とする。
(7) 前記(5)または(6)に記載の基本周波数抽出装置において、前記中央値判定手段は、所定数のケプストラムデータごとにケプストラム値の比較を行う際に、前記ケプストラムデータを平滑化処理部により平滑化処理されたデータ群を用いて前記中央値比較処理を行う基本周波数抽出装置を特徴とする。
(8) 前記(5)〜(7)に記載の基本周波数抽出装置において、前記基本周波数抽出装置において、前記パワースペクトル情報の変換処理手段により切り出された所定数のデータごとの分散値を算出し、前記分散値が閾値未満の前記所定数のデータに対して、前記パワースペクトル情報の変換処理手段と、基本周波数情報抽出手段における処理を省略する判定手段を有する基本周波数抽出装置を特徴とする。
(9) 音声データから基本周波数情報を抽出させるプログラムであって、少なくともフーリエ変換と対数演算によるパワースペクトル情報の変換処理と、フーリエ変換もしくは逆フーリエ変換処理によるケプストラム情報抽出過程からピッチ情報を算出するピッチ情報抽出処理により基本周波数情報を抽出する処理とを有し、前記ピッチ情報抽出処理において所定数のケプストラム情報ごとの比較を行い、前記比較結果により得られる中央値およびその近傍を含む代表値のケフレンシー情報から基本周波数を決定する処理を実行させるためのプログラムを特徴とする。
(10) 前記(9)に記載の前記基本周波数情報抽出処理において、所定数のケプストラムデータごとのケプストラム値の比較を行う際に、前記ケプストラムデータを平滑化処理したデータ群を用いて前記中央値比較処理を行わせるプログラムを特徴とする。
(11) 前記(9)または(10)に記載のプログラムにおいて、前記パワースペクトル情報算出処理により切り出された所定数のデータごとの分散値を算出し、前記分散値が閾値未満のデータの場合には前記パワースペクトル情報の算出処理と、前記基本周波数候補抽出処理とを省略し、前記分散値が閾値以上のデータの場合には続行する判定処理を行わせることを特徴とする。
本発明によれば、簡単な演算工程により精度の高い基本周波数情報の抽出を確実に行うことが可能になり、たとえば、S/Nの低い音声データに対しても安定した抽出性能を得ることができる。
さらに本発明によれば、不必要な演算処理を抑制でき、高速で低消費エネルギーでの駆動(演算工程処理)により、精度の高い基本周波数情報の抽出が可能になる。
以下、図面を参照しながら、本発明の基本周波数抽出方法、その装置およびその方法を装置に実施させるための読み取り可能なプログラムなどについて詳細に説明する。
[基本周波数抽出方法]
まず、本発明の基本周波数抽出方法について、図1〜図4を用いて説明する。
音声データに含まれる声帯の音響的特長を有する周波数成分(以下この周波数成分を基本周波数(ピッチ:Pitch)という)は、話者の特定やその感情などの個人性を示す韻律情報(Prosodic Information)を含んでいる。このため、この基本周波数に含まれる特徴量(平均値や変動量の幅、時間的変化量など)は、話者認識や感情推定等の音声認識(Speech Recognition)に広く用いられる。そのため、簡単かつ高速・高精度にこの基本周波数を求めることが要求される。
本発明では、デジタルデータ化された音声データから、基本周波数を抽出する方法に関するものであり、特に組み込み機器等の処理能力や消費電力などに制限がある装置、システム等に用いることを目的として発明されたものである。図1に本発明の基本周波数の抽出方法の典型例を示すフローチャートを示す。また図2に処理される信号の各処理後の結果を説明するための図である。
本発明では、記憶手段等に保存された解析対象となる音声データ20(たとえばステレオやモノラル録音されWAVE形式で保存されている音声デジタルデータを用いることとして説明する)に対し、所定の連続するデータ数ずつFFT(Fast Fourier Transform)によりフーリエ変換処理(処理S1〜S3)を行う。
まず、図1〜図2に示すように、図2(A)に示すような音声データ20から所定のデータを切り出し(S1)、各データに対しハミング窓関数などの窓関数を用いた重み付けを行い(S2)、フーリエ変換(離散フーリエ変換[DFT:Discrete Fourier Transform]もしくは高速フーリエ変換[FFT:Fast Fourier Transform])処理と、その処理結果に対して各データの対数演算を行うパワースペクトル処理を行なう(S3)。これらの処理の結果、得られた処理データである図2(B)に示すパワースペクトルデータ21に対し、連続する所定のデータ数ずつ平均値を算出する移動平均による平滑化処理を行なう(S4)。この平滑化した平滑処理データ22(図2(C)参照)と、前記パワースペクトルデータ21との差分を算出する(S5)。必要ならば、前記差分処理したデータの所定の高域周波数成分を0にする帯域制限を行って高周波のノイズ成分を抑制しても良い(25に示す部分:図2(D)参照)。本処理により音声データに含まれる声道の音響的特長を主成分とするフォルマント周波数情報を抑制する。帯域制限に関しては、後述する中央値処理によるノイズ抑制効果により高域成分による影響を低減可能なため、省略することも可能である。
次に図2(D)に示す前記差分データ23に逆フーリエ変換もしくはフーリエ変換の演算を行うケプストラム算出処理を行う(S6)。これによりケプストラム係数として、低次にフォルマント情報に起因するローカルピーク、ならびに高次にピッチ情報に起因する上記した基本周波数とその調和成分によるローカルピーク26を含むケプストラムデータ24が得られる(図2(E)参照)。従来例では、たとえばこの高次ピーク値のうち最低次数のピーク値26aのケフレンシー次数から下記の式に従って音声データのサンプリング周波数をもちいて基本周波数を算出する。
基本周波数=サンプリング周波数/ケフレンシー次数 (式A)
しかし、従来例では図3に示すように、実際のオフィス環境などの比較的低ノイズ環境において取得された音声データに関して上記処理を行っても、音声以外のノイズ等による誤検出が多数検出されてしまう(図3の30に示すデータ群)。これはケプストラム解析においてS/N比が下がると上記ローカルピーク26に対し、ノイズに起因するピーク値が優勢になるために誤検出されてしまうためである。
そこで本発明では、前記誤検出のピーク値がノイズに起因するためケフレンシー次数がほぼランダムに出力されることに着目し、上記に説明した処理で得られたピーク値からの抽出基本周波数候補データ群を切り出し(S9)、連続する所定のデータ数ずつ時系列にそのデータ値の大小を比較、すなわち昇順もしくは降順にソートした場合の中央値を前記比較データ群の中央データに対する基本周波数値とする中央値判定S10を行って、誤判定を低減している。その後、このような手法により抽出された基本周波数データの上記S10における処理が終わったか否かを判断し(S11)、終わっていない場合にはS9に戻ってS10までの処理を継続して行い、S11において終了した場合には抽出された基本周波数のデータを保存し(S11/Yes→S12)、終了する。
図3に、本発明による処理を実際のデータに適用したときの結果例を示す。
従来の手法で求めた基本周波数をひし形「◇」で示し(図3の30に示すデータ群参照)、本発明を適用して求めた基本周波数を丸でプロットした(図3の31に示すデータ群参照)。本データは典型的なオフィス環境で男性が発話したものを用い、パワースペクトルの移動平均処理(S4の平滑化処理)を、連続する15データずつで行い、本発明では、その中央値判定には、連続する9データずつ昇順(または降順)にソートした際の5番目のデータ値を、前記9データの中間データである5番目のデータ値として入れ替えることにより算出した。100Hz付近のデータが本被験者の基本周波数である。音素(発話の最小単位“あ”、“い”などの一単語(一音節))単位での、立ち上がり、立下りにおける基本周波数の検出精度は欠落する(=本手法では検出されず欠落する)が、発話中の主要な基本周波数成分は十分に抽出されている。たとえば環境ノイズに起因する誤検出を効果的に抑制できる(この環境ノイズはオフィス等の実環境におけるノイズ成分中の大部分を占めるものであり、調和構造を有しないものである)。よって本発明の方法により、全体的に良好な基本周波数の抽出を安定して行うことが可能になる。なお環境ノイズとして、たとえば機械の動作音やキーボード操作音、歩行時のノイズや空調などが挙げられる。
さらに、図4に示すように、音声データを切り出す処理後(S1)、図1に示すような上記処理S2以降の処理を順次行う前に、前記切り出したデータ群の分散値を算出し(S40)、あらかじめ設定した閾値以上かどうかを判断し(S41)、閾値以上の場合には上記処理(S2〜S7)を順次行い、またS41において閾値未満であれば上記処理(S2〜S7)をスキップ(省略)する。こうすることにより、不必要な音声処理を行わずに済むので、全体の処理時間を短縮することが可能になる。特に組み込み機器等の処理能力や消費電力などに制限がある装置(システムも含む)に搭載する場合には、消費電力の低減などに有効である。
また、図5に示すように、中央値比較を行う処理(中央値判定処理)S10の前に、ケプストラムデータを平滑化する処理S50を行うことにより、ノイズ成分に起因する誤検出をさらに低減することが可能である。図5に関しては図1に示すフローに組み入れてもよいし、図4に示すフローに組み入れてもよい。
以上、本発明の基本周波数抽出方法について述べた。なお本発明において、前記した中央値を後述する代表値にして前記した中央値判定(S10)を行なうことも本発明の基本周波数抽出方法に適用できることは、言を待たない。代表値としてはデータ切り出し数に依存するが、中央値およびその前後程度である。たとえば10データのソートをしての1乃至2個程度の中央値からのずれ(中央値からの1割程度)でも許容可能である。またデータの切り出しは全データに対して特に制限は無いが、データ処理が現実的な時間で処理できることを考慮すると、5〜20%程度であってもよい。
[基本周波数抽出装置]
次に図6を用いて、本発明の基本周波数抽出装置について説明する。
本装置は図6に示すように、前処理部60と、パワースペクトル処理部61と、平滑化(帯域制限)処理部62と、差分処理部63と、ケプストラム処理部64と、ピーク値検出部65と、中央値判定部66と、後処理部67とを有して構成される。前処理部はマイクロホン及びフィルタ回路、A/D変換部などにより音声データを生成したり、他の装置で録音作成された音声データの転送データ等の音声デジタルデータを取得する。またパワースペクトル処理部61は、所定の連続するデータ数に対してFFTなどのフーリエ変換及び対数演算を行う。移動平均(平滑化)処理部62は、連続する所定のデータ数ずつ切り出してその平均値を算出する(必要ならば高周波成分の帯域制限処理も)、差分処理部63は、前記2つのスペクトルデータ群(パワースペクトル処理部61で得られたデータ群と平滑化(帯域制限)処理部62のデータ群)の差分を算出する。ケプストラム処理部64は、前記差分データに逆フーリエ変換(もしくはフーリエ変換)演算を行う。ピーク値検出部65は、高次ピッチ情報からピーク値のケフレンシー次数を検出する。中央値判定部66は、前記検出部で得られた基本周波数候補データ群を、連続する所定のデータ数ずつ時系列にその値の大小を比較してその中央値を基本周波数値とする。後処理部67は、最終結果の基本周波数データを記憶部に格納する。
たとえば本発明の基本周波数抽出装置として、装置全体の制御を行う制御演算処理部(図示せず)に汎用のCPUを用い、上記のパワースペクトル処理部61や平滑化処理部62、差分処理部63やケプストラム処理部64などの高速な処理を行う演算処理部68として、DSPとその内部の記憶装置へ格納する処理プログラムとから構成する。このようなDSP搭載のコンピュータ機能を有する装置に、処理プログラムを用いることにより、本発明の基本周波数抽出装置としてDSP搭載のコンピュータ機能を有する装置(好ましくは携帯型情報端末を基本周波数抽出装置)とすることができる。このような装置により、装置全体での演算負荷を分散でき、処理能力や消費電力などに制限がある組み込み機器等において実装可能である。
さらに前処理部60から切り出された音声データに対する分散値を算出する処理部(分散値算出部69−1)を演算処理部68の前段(パワースペクトル処理部61の前段)に設け、その結果を演算処理部68の後段のピーク値検出部65に送ることにより、上記した基本周波数抽出方法における実施例での処理ステップのスキップ処理(処理S40およびS41でのNoのルート)を実行させることも可能であり、またピーク値検出部65と中央値判定部66との間に平滑化処理部69−2を設けることにより、上記したノイズ成分に起因する誤検出を低減する処理(処理S50の平滑化処理)が可能となる。
なお、上記実施例で最もノイズの影響を抑える効果を示すために中央値判定に中央値を採用しているが、中央値に限定しなくとも本発明の効果は得られる。すなわち、ソートした場合の比較データ群において値の大きさが中間範囲に含まれるデータ(中央値の前後付近のデータ:中央値前後付近という表現はどこまでなのかが不明確として、記載不備とされる可能性があります。)のうち1点を中央値以外に選択してもよく、判定に採用する値は中央値に限定されない。
また、前記した音素単位での立ち上がり、立下りでの基本周波数の検出精度が落ちる問題は、中央値からシフトさせたデータを採用することによって解決できる。すなわち、中央値判定において、比較データ群のうち、立ち上がりまたは立下りと判断された場合に、中央値からシフトさせたデータを採用することによって、データの欠落を防ぐことができる。
本発明の基本周波数抽出装置は、上記したように、図6およびその説明で述べたように、パーソナルコンピュータなどのコンピュータ機能を有する装置(好ましくはDSP搭載の携帯型情報端末)を用い、基本周波数抽出装置の各部の機能を発揮できるようにするプログラムをソートさせることによって、基本周波数抽出装置として、用いることができる。また本発明では、基本周波数抽出方法をこのようなコンピュータ機能を有する装置に読み取り可能なプログラムを用いてその各工程を実行させることができる。このように本発明は、プログラムによって、基本周波数抽出装置を実現させたり、また、基本周波数抽出方法を実行するためのプログラムも、本発明に含まれる。このようなプログラムは揮発性または不揮発性の記録媒体等に記録されており、このような記録媒体に一次的に記憶されているか、永久的に記録されているかは問わない。
また本発明基本周波数抽出装置を、所定数のケプストラム情報を入力し、前記所定数のケプストラム情報ごとに比較を行い、前記比較結果により得られる中央値またはその近傍の代表値のケフレンシー情報から基本周波数を決定する中央値判定部66により基本周波数情報を抽出する構成とすることもできる。
そして、前記したパワースペクトル処理部61と、フーリエ変換もしくは逆フーリエ変換処理によるケプストラム情報抽出処理部64を有する基本周波数情報抽出部を前段に有し、この前段の演算処理部68から、複数の所定数のケプストラム情報が中央値判定手段に入力されるようにすることもできる。このような基本周波数抽出装置において、前記した分散値算出部69−1あるいは平滑化処理部69−2を前記したように、自在に設けた装置構成も、本発明の基本周波数抽出装置に含まれる。
本発明は音声データのみの適用に限定されるものではない。たとえば、調和構造を有する音源(たとえば楽器の奏でる音等)に対する前処理の手法としても有用であり、有効である。
本発明に係る基本周波数抽出方法を示すフローチャートである。 本発明に係る方法によって処理されるデータの流れを示す図である。 本発明に係る基本周波数抽出方法を用いて得られる効果を示す図である。 本発明に係る基本周波数抽出方法の他の例を示すフローチャートである。 本発明に係る基本周波数抽出方法の他の例を示すフローチャートである。 本発明に係る基本周波数抽出装置を示すブロック構成図である。 従来技術に記載の基本周波数抽出方法を説明する(非特許文献1の図1:MABC基本周波数抽出アルゴリズム)図である。 従来技術における装置構成を示す図(特許文献1の図1)である。
符号の説明
20 解析対象となる音声データ
21 パワースペクトルデータ
22 平滑処理データ
23 差分データ
24 ケプストラムデータ
25 帯域制限による高周波のノイズ成分を抑制した部分
26 ローカルピーク
26a ピーク値
30 音声以外のノイズ等による誤検出が多数検出された例(従来の手法で求めた基本周波数のデータ群)
31 本発明を適用して求めた基本周波数のデータ群
60 前処理部
61 パワースペクトル処理部
62 平滑化(帯域制限)処理部
63 差分処理部
64 ケプストラム処理部
65 ピーク値検出部
66 中央値判定部
67 後処理部
68 演算処理部
69−1 分散値算出部
69−2 平滑化処理部

Claims (11)

  1. パワースペクトルデータとその平滑化処理したデータとの差分データをケプトラム処理して得られたピーク値から抽出した基本周波数候補データの群を、連続する所定のデータ数ずつ時系列にそのデータ値の大小を比較してその昇順もしくは降順にソートしたその中央値またはその近傍の代表値のケフレンシー情報から、基本周波数値とする代表値判定を行うことを特徴とする基本周波数抽出方法。
  2. 音声データから基本周波数情報を抽出する基本周波数抽出方法であって、少なくともフーリエ変換と対数演算処理によるパワースペクトル情報の算出処理工程と、フーリエ変換もしくは逆フーリエ変換によるケプストラム情報抽出処理を含む基本周波数候補抽出工程と、前記基本周波数候補抽出工程後に、複数の連続するケプストラム情報を、連続する所定数ごとに比較処理を行い、前記比較結果により得られる中央値またはその近傍の代表値のケフレンシー情報から、基本周波数を決定する基本周波数情報抽出工程を有することを特徴とする基本周波数抽出方法。
  3. 前記比較処理は、前記ケプストラムデータを平滑化処理により演算処理したデータ群を用いて行うことを特徴とする請求項2に記載の基本周波数抽出方法。
  4. 前記パワースペクトル情報の算出処理工程で切り出された所定数の音声データごとの分散値を算出し、前記閾値未満の所定数の音声データに対して、前記パワースペクトル情報の算出処理工程と、基本周波数候補抽出工程とを省略する判定処理を行うことを特徴とする請求項2または3に記載の基本周波数抽出方法。
  5. 所定数のケプストラム情報を入力し、前記所定数のケプストラム情報ごとに比較を行い、前記比較結果により得られる中央値またはその近傍の代表値のケフレンシー情報から基本周波数を決定する中央値判定手段により基本周波数情報を抽出することを特徴とする基本周波数抽出装置。
  6. 音声データから基本周波数情報を抽出する装置であって、
    少なくともフーリエ変換と対数演算処理によるパワースペクトル情報の変換処理手段と、フーリエ変換もしくは逆フーリエ変換処理によるケプストラム情報抽出過程から基本周波数情報を算出する基本周波数情報抽出手段とを前段に有し、
    前記複数の所定数のケプストラム情報が当該前段から前記中央値判定手段に入力されることを特徴とする請求項5に記載の基本周波数抽出装置。
  7. 前記中央値判定手段は、所定数のケプストラムデータごとにケプストラム値の比較を行う際に、前記ケプストラムデータを平滑化処理部により平滑化処理されたデータ群を用いて前記中央値比較処理を行うことを特徴とする請求項5または6に記載の基本周波数抽出装置。
  8. 前記基本周波数抽出装置において、前記パワースペクトル情報の変換処理手段により切り出された所定数のデータごとの分散値を算出し、前記分散値が閾値未満の前記所定数のデータに対して、前記パワースペクトル情報の変換処理手段と、基本周波数情報抽出手段における処理を省略する判定手段を有することを特徴とする請求項第5から7のいずれか1項に記載の基本周波数抽出装置。
  9. 音声データから基本周波数情報を抽出させるプログラムであって、
    少なくともフーリエ変換と対数演算によるパワースペクトル情報の変換処理と、フーリエ変換もしくは逆フーリエ変換処理によるケプストラム情報抽出過程からピッチ情報を算出するピッチ情報抽出処理により基本周波数情報を抽出する処理とを有し、前記ピッチ情報抽出処理において所定数のケプストラム情報ごとの比較を行い、前記比較結果により得られる中央値およびその近傍を含む代表値のケフレンシー情報から基本周波数を決定する処理を実行させるためのプログラム。
  10. 前記基本周波数情報抽出処理において、所定数のケプストラムデータごとのケプストラム値の比較を行う際に、前記ケプストラムデータを平滑化処理したデータ群を用いて前記中央値比較処理を行わせることを特徴とする請求項9に記載のプログラム。
  11. 前記プログラムにおいて、前記パワースペクトル情報算出処理により切り出された所定数のデータごとの分散値を算出し、前記分散値が閾値未満のデータの場合には前記パワースペクトル情報の算出処理と、前記基本周波数候補抽出処理とを省略し、前記分散値が閾値以上のデータの場合には続行する判定処理を行わせることを特徴とする請求項9または10に記載のプログラム。
JP2008273605A 2008-10-23 2008-10-23 基本周波数抽出方法、基本周波数抽出装置、およびプログラム Expired - Fee Related JP5282523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008273605A JP5282523B2 (ja) 2008-10-23 2008-10-23 基本周波数抽出方法、基本周波数抽出装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008273605A JP5282523B2 (ja) 2008-10-23 2008-10-23 基本周波数抽出方法、基本周波数抽出装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010102129A true JP2010102129A (ja) 2010-05-06
JP5282523B2 JP5282523B2 (ja) 2013-09-04

Family

ID=42292827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008273605A Expired - Fee Related JP5282523B2 (ja) 2008-10-23 2008-10-23 基本周波数抽出方法、基本周波数抽出装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5282523B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器
CN106776664A (zh) * 2015-11-25 2017-05-31 北京搜狗科技发展有限公司 一种基频序列处理方法及装置
KR102164306B1 (ko) * 2019-12-31 2020-10-12 브레인소프트주식회사 디제이변환에 기초한 기본주파수 추출 방법
CN112597331A (zh) * 2020-12-25 2021-04-02 腾讯音乐娱乐科技(深圳)有限公司 显示音域匹配信息的方法、装置、设备和存储介质
WO2022019425A1 (ko) * 2020-07-21 2022-01-27 브레인소프트 주식회사 복합음을 구성하는 순음의 추출 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379438B (zh) * 2019-07-24 2020-05-12 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63124100A (ja) * 1986-11-13 1988-05-27 藤崎 博也 基本周波数分析装置
JPH04176244A (ja) * 1990-11-09 1992-06-23 Hitachi Ltd 音声情報処理装置
JPH09210763A (ja) * 1996-02-07 1997-08-15 Nec Corp 高調波ピッチ検出装置
JPH1124698A (ja) * 1997-07-09 1999-01-29 Sony Corp 信号識別装置、コードブツク切換装置、信号識別方法及びコードブツク切換方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63124100A (ja) * 1986-11-13 1988-05-27 藤崎 博也 基本周波数分析装置
JPH04176244A (ja) * 1990-11-09 1992-06-23 Hitachi Ltd 音声情報処理装置
JPH09210763A (ja) * 1996-02-07 1997-08-15 Nec Corp 高調波ピッチ検出装置
JPH1124698A (ja) * 1997-07-09 1999-01-29 Sony Corp 信号識別装置、コードブツク切換装置、信号識別方法及びコードブツク切換方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199900763005; 加藤誠二他: '"移動平均と帯域制限を用いたケプストラム型基本周波数抽出とその応用"' 電子情報通信学会技術研究報告 Vol.94,No.522(1995-02), pp.29-36 *
JPN6012033233; 加藤誠二他: '"移動平均と帯域制限を用いたケプストラム型基本周波数抽出とその応用"' 電子情報通信学会技術研究報告 Vol.94,No.522(1995-02), pp.29-36 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器
CN106776664A (zh) * 2015-11-25 2017-05-31 北京搜狗科技发展有限公司 一种基频序列处理方法及装置
KR102164306B1 (ko) * 2019-12-31 2020-10-12 브레인소프트주식회사 디제이변환에 기초한 기본주파수 추출 방법
WO2021137419A1 (ko) * 2019-12-31 2021-07-08 브레인소프트 주식회사 디제이변환에 기초한 기본주파수 추출 방법
US11574646B2 (en) 2019-12-31 2023-02-07 Brainsoft Inc. Fundamental frequency extraction method using DJ transform
WO2022019425A1 (ko) * 2020-07-21 2022-01-27 브레인소프트 주식회사 복합음을 구성하는 순음의 추출 방법
CN112597331A (zh) * 2020-12-25 2021-04-02 腾讯音乐娱乐科技(深圳)有限公司 显示音域匹配信息的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JP5282523B2 (ja) 2013-09-04

Similar Documents

Publication Publication Date Title
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
CN109256138B (zh) 身份验证方法、终端设备及计算机可读存储介质
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
WO2014153800A1 (zh) 语音识别系统
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
US20090177468A1 (en) Speech recognition with non-linear noise reduction on mel-frequency ceptra
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN112951259B (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP3006677B2 (ja) 音声認識装置
CN108682432B (zh) 语音情感识别装置
JP4736632B2 (ja) ボーカル・フライ検出装置及びコンピュータプログラム
Labied et al. An overview of automatic speech recognition preprocessing techniques
KR100571574B1 (ko) 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
Hanilçi et al. Comparing spectrum estimators in speaker verification under additive noise degradation
Revathy et al. Performance comparison of speaker and emotion recognition
JP4677548B2 (ja) パラ言語情報検出装置及びコンピュータプログラム
KR20070069631A (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
Shome et al. Reference free speech quality estimation for diverse data condition
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Lu Reduction of musical residual noise using block-and-directional-median filter adapted by harmonic properties
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Tomchuk Spectral masking in MFCC calculation for noisy speech
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110811

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R151 Written notification of patent or utility model registration

Ref document number: 5282523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees