JP2006523331A5 - - Google Patents

Download PDF

Info

Publication number
JP2006523331A5
JP2006523331A5 JP2006509610A JP2006509610A JP2006523331A5 JP 2006523331 A5 JP2006523331 A5 JP 2006523331A5 JP 2006509610 A JP2006509610 A JP 2006509610A JP 2006509610 A JP2006509610 A JP 2006509610A JP 2006523331 A5 JP2006523331 A5 JP 2006523331A5
Authority
JP
Japan
Prior art keywords
pitch
frame
candidate
information
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006509610A
Other languages
English (en)
Other versions
JP4755585B2 (ja
JP2006523331A (ja
JP4755585B6 (ja
Filing date
Publication date
Priority claimed from US10/403,792 external-priority patent/US6988064B2/en
Application filed filed Critical
Publication of JP2006523331A publication Critical patent/JP2006523331A/ja
Publication of JP2006523331A5 publication Critical patent/JP2006523331A5/ja
Publication of JP4755585B2 publication Critical patent/JP4755585B2/ja
Application granted granted Critical
Publication of JP4755585B6 publication Critical patent/JP4755585B6/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Claims (13)

  1. 音声信号をサンプリングするステップと、
    サンプリングされた音声信号を重複フレームに分割するステップと、
    周波数領域分析を使用して、1つのフレームから第1のピッチ情報を抽出するステップと、
    それぞれが前記第1のピッチ情報からのスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を提供するステップステップと、
    時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出するステップと、 前記第2のピッチ情報から前記少なくとも1つのピッチ候補に関する相関スコアを提供するステップと、
    前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補のうちの1つを選択するステップと、
    を有する方法。
  2. 選択するステップが、
    スペクトル・スコアと相関スコアとの最良の組合せを有する前記少なくとも1つのピッチ候補のうちの前記1つを選択し、それにより、前記フレームのピッチと一致する最良確率を有する1つのピッチ候補を示すステップ
    を有する、請求項1に記載の方法。
  3. 選択するステップが、
    前記少なくとも1つのピッチ候補のそれぞれの可能なピッチ推定値と前のフレームについて選択されたピッチ推定値との間の一致尺度を計算するステップと、
    スペクトル・スコア、相関スコアおよび前記一致尺度の最良の組合せを有する前記少なくとも1つのピッチ候補のうちの前記1つを選択し、それにより、前記フレームのピッチと一致する最良確率を有する1つのピッチ候補を示すステップと、
    を有する、請求項2に記載の方法。
  4. 前記少なくとも1つのピッチ候補が、前記フレームについて可能な6個以下のピッチ推定値を表す6個以下のピッチ候補を有する、請求項1に記載の方法。
  5. 前記少なくとも1つのピッチ候補のスペクトル・スコアが、前記フレームのスペクトル内で検出されたスペクトル・ピークに対するピッチ値の互換性の尺度を示す、請求項1に記載の方法。
  6. 時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出するステップが、 前記フレームと前のフレームとをまとめて拡張フレームに結合するステップと、
    前記拡張フレームを低域フィルタリングしダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを計算するステップと、
    を有する、請求項1に記載の方法。
  7. 相関スコアを提供するステップが、
    ダウンサンプリングされた拡張フレームの2つのフラグメント間の相互相関を計算するステップ
    を有する、請求項1に記載の方法。
  8. 前記2つのフラグメントが、事前定義長さのものであり、前記少なくとも1つのピッチ候補のそれぞれに対応する遅れ値分だけ相互に対して遅延される、請求項7に記載の方法。
  9. ダウンサンプリングされた拡張フレーム内の2つのフラグメントの位置が、フラグメントの全エネルギを最大化することによって選択される、請求項8に記載の方法。
  10. サンプリングされた音声信号の複数のフレームの複数のピッチ推定値を選択するステップと、
    前記複数のピッチ推定値を有する、サンプリングされた音声信号の表現を符号化するステップと、
    をさらに有する、請求項1に記載の方法。
  11. サンプリングされた音声信号の符号化表現が分散音声認識システムで使用される、請求項10に記載の方法。
  12. 音声信号の特徴を抽出するための分散音声認識フロントエンドを有する分散音声認識システムであって、前記分散音声認識フロントエンドが、
    メモリと、
    前記メモリに通信可能に結合されたプロセッサと、
    前記メモリおよび前記プロセッサに通信可能に結合されたピッチ抽出プロセッサであって、
    音声信号をサンプリングし、
    サンプリングされた音声信号を重複フレームに分割し、
    周波数領域分析を使用して、1つのフレームから第1のピッチ情報を抽出し、
    それぞれが前記第1のピッチ情報からのスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を提供し、
    時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出し、
    前記第2のピッチ情報から前記少なくとも1つのピッチ候補に関する相関スコアを提供し、
    前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補のうちの1つを選択する
    ことによって音声信号からピッチ情報を抽出するためのピッチ抽出プロセッサと、
    を有する、分散音声認識システム。
  13. 音声処理システムのためのコンピュータ・プログラムを有するコンピュータ可読媒体であって、前記コンピュータ・プログラムが、
    音声信号をサンプリングするステップと、
    サンプリングされた音声信号を重複フレームに分割するステップと、
    周波数領域分析を使用して、1つのフレームから第1のピッチ情報を抽出するステップと、
    それぞれが前記第1のピッチ情報からのスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を提供するステップと、
    時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出するステップと、 前記第2のピッチ情報から前記少なくとも1つのピッチ候補に関する相関スコアを提供するステップと、
    前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補のうちの1つを選択するステップと、
    をコンピュータに実行させる、コンピュータ可読媒体。
JP2006509610A 2003-03-31 2004-03-31 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体 Expired - Lifetime JP4755585B6 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/403,792 2003-03-31
US10/403,792 US6988064B2 (en) 2003-03-31 2003-03-31 System and method for combined frequency-domain and time-domain pitch extraction for speech signals
PCT/US2004/010119 WO2004090865A2 (en) 2003-03-31 2004-03-31 System and method for combined frequency-domain and time-domain pitch extraction for speech signals

Publications (4)

Publication Number Publication Date
JP2006523331A JP2006523331A (ja) 2006-10-12
JP2006523331A5 true JP2006523331A5 (ja) 2007-05-10
JP4755585B2 JP4755585B2 (ja) 2011-08-24
JP4755585B6 JP4755585B6 (ja) 2011-12-28

Family

ID=

Similar Documents

Publication Publication Date Title
WO2004090865A3 (en) System and method for combined frequency-domain and time-domain pitch extraction for speech signals
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
US20120150890A1 (en) Method of searching for multimedia contents and apparatus therefor
CN106294331B (zh) 音频信息检索方法及装置
WO2015090215A1 (zh) 区分地域性口音的语音数据识别方法、装置和服务器
US20130139674A1 (en) Musical fingerprinting
CN104200804A (zh) 一种面向人机交互的多类信息耦合的情感识别方法
JP2007065659A (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
KR101666521B1 (ko) 입력 신호의 피치 주기 검출 방법 및 그 장치
CN106098079B (zh) 音频信号的信号提取方法与装置
US20170154056A1 (en) Matching image searching method, image searching method and devices
CN112259123B (zh) 一种鼓点检测方法、装置及电子设备
Dixit et al. Improved MFCC and LPC algorithm for bundelkhandi isolated digit speech recognition
CN110647656A (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
CN109461503A (zh) 一种对象的认知评估方法、装置、设备及可读存储介质
Zhang et al. Speech rhythm guided syllable nuclei detection
CN104217731A (zh) 一种快速识别独奏乐曲乐谱的方法
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
JP2006523331A5 (ja)
CN102214219A (zh) 音视频内容检索系统及其方法
Wang et al. Automatic audio segmentation using the generalized likelihood ratio
CN116771662A (zh) 一种基于多特征融合的机泵故障诊断方法
CN103458323A (zh) 一种基于语音时域指纹的对讲模式开启方法
CN111108553A (zh) 一种声音采集对象声纹检测方法、装置和设备