JP2006523331A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2006523331A5 JP2006523331A5 JP2006509610A JP2006509610A JP2006523331A5 JP 2006523331 A5 JP2006523331 A5 JP 2006523331A5 JP 2006509610 A JP2006509610 A JP 2006509610A JP 2006509610 A JP2006509610 A JP 2006509610A JP 2006523331 A5 JP2006523331 A5 JP 2006523331A5
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- frame
- candidate
- information
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 claims 8
- 238000004458 analytical method Methods 0.000 claims 7
- 230000005236 sound signal Effects 0.000 claims 7
- 230000003595 spectral Effects 0.000 claims 6
- 238000004590 computer program Methods 0.000 claims 2
- 238000000605 extraction Methods 0.000 claims 2
- 238000001228 spectrum Methods 0.000 claims 2
- 230000000875 corresponding Effects 0.000 claims 1
- 230000003111 delayed Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
Claims (13)
- 音声信号をサンプリングするステップと、
サンプリングされた音声信号を重複フレームに分割するステップと、
周波数領域分析を使用して、1つのフレームから第1のピッチ情報を抽出するステップと、
それぞれが前記第1のピッチ情報からのスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を提供するステップステップと、
時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出するステップと、 前記第2のピッチ情報から前記少なくとも1つのピッチ候補に関する相関スコアを提供するステップと、
前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補のうちの1つを選択するステップと、
を有する方法。 - 選択するステップが、
スペクトル・スコアと相関スコアとの最良の組合せを有する前記少なくとも1つのピッチ候補のうちの前記1つを選択し、それにより、前記フレームのピッチと一致する最良確率を有する1つのピッチ候補を示すステップ
を有する、請求項1に記載の方法。 - 選択するステップが、
前記少なくとも1つのピッチ候補のそれぞれの可能なピッチ推定値と前のフレームについて選択されたピッチ推定値との間の一致尺度を計算するステップと、
スペクトル・スコア、相関スコアおよび前記一致尺度の最良の組合せを有する前記少なくとも1つのピッチ候補のうちの前記1つを選択し、それにより、前記フレームのピッチと一致する最良確率を有する1つのピッチ候補を示すステップと、
を有する、請求項2に記載の方法。 - 前記少なくとも1つのピッチ候補が、前記フレームについて可能な6個以下のピッチ推定値を表す6個以下のピッチ候補を有する、請求項1に記載の方法。
- 前記少なくとも1つのピッチ候補のスペクトル・スコアが、前記フレームのスペクトル内で検出されたスペクトル・ピークに対するピッチ値の互換性の尺度を示す、請求項1に記載の方法。
- 時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出するステップが、 前記フレームと前のフレームとをまとめて拡張フレームに結合するステップと、
前記拡張フレームを低域フィルタリングしダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを計算するステップと、
を有する、請求項1に記載の方法。 - 相関スコアを提供するステップが、
ダウンサンプリングされた拡張フレームの2つのフラグメント間の相互相関を計算するステップ
を有する、請求項1に記載の方法。 - 前記2つのフラグメントが、事前定義長さのものであり、前記少なくとも1つのピッチ候補のそれぞれに対応する遅れ値分だけ相互に対して遅延される、請求項7に記載の方法。
- ダウンサンプリングされた拡張フレーム内の2つのフラグメントの位置が、フラグメントの全エネルギを最大化することによって選択される、請求項8に記載の方法。
- サンプリングされた音声信号の複数のフレームの複数のピッチ推定値を選択するステップと、
前記複数のピッチ推定値を有する、サンプリングされた音声信号の表現を符号化するステップと、
をさらに有する、請求項1に記載の方法。 - サンプリングされた音声信号の符号化表現が分散音声認識システムで使用される、請求項10に記載の方法。
- 音声信号の特徴を抽出するための分散音声認識フロントエンドを有する分散音声認識システムであって、前記分散音声認識フロントエンドが、
メモリと、
前記メモリに通信可能に結合されたプロセッサと、
前記メモリおよび前記プロセッサに通信可能に結合されたピッチ抽出プロセッサであって、
音声信号をサンプリングし、
サンプリングされた音声信号を重複フレームに分割し、
周波数領域分析を使用して、1つのフレームから第1のピッチ情報を抽出し、
それぞれが前記第1のピッチ情報からのスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を提供し、
時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出し、
前記第2のピッチ情報から前記少なくとも1つのピッチ候補に関する相関スコアを提供し、
前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補のうちの1つを選択する
ことによって音声信号からピッチ情報を抽出するためのピッチ抽出プロセッサと、
を有する、分散音声認識システム。 - 音声処理システムのためのコンピュータ・プログラムを有するコンピュータ可読媒体であって、前記コンピュータ・プログラムが、
音声信号をサンプリングするステップと、
サンプリングされた音声信号を重複フレームに分割するステップと、
周波数領域分析を使用して、1つのフレームから第1のピッチ情報を抽出するステップと、
それぞれが前記第1のピッチ情報からのスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を提供するステップと、
時間領域分析を使用して、前記フレームから第2のピッチ情報を抽出するステップと、 前記第2のピッチ情報から前記少なくとも1つのピッチ候補に関する相関スコアを提供するステップと、
前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補のうちの1つを選択するステップと、
をコンピュータに実行させる、コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/403,792 | 2003-03-31 | ||
US10/403,792 US6988064B2 (en) | 2003-03-31 | 2003-03-31 | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
PCT/US2004/010119 WO2004090865A2 (en) | 2003-03-31 | 2004-03-31 | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
Publications (4)
Publication Number | Publication Date |
---|---|
JP2006523331A JP2006523331A (ja) | 2006-10-12 |
JP2006523331A5 true JP2006523331A5 (ja) | 2007-05-10 |
JP4755585B2 JP4755585B2 (ja) | 2011-08-24 |
JP4755585B6 JP4755585B6 (ja) | 2011-12-28 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2004090865A3 (en) | System and method for combined frequency-domain and time-domain pitch extraction for speech signals | |
JP5826291B2 (ja) | 音声信号からの特徴フィンガープリントの抽出及びマッチング方法 | |
US20120150890A1 (en) | Method of searching for multimedia contents and apparatus therefor | |
CN106294331B (zh) | 音频信息检索方法及装置 | |
WO2015090215A1 (zh) | 区分地域性口音的语音数据识别方法、装置和服务器 | |
US20130139674A1 (en) | Musical fingerprinting | |
CN104200804A (zh) | 一种面向人机交互的多类信息耦合的情感识别方法 | |
JP2007065659A (ja) | オーディオ信号からの特徴的な指紋の抽出とマッチング | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
KR101666521B1 (ko) | 입력 신호의 피치 주기 검출 방법 및 그 장치 | |
CN106098079B (zh) | 音频信号的信号提取方法与装置 | |
US20170154056A1 (en) | Matching image searching method, image searching method and devices | |
CN112259123B (zh) | 一种鼓点检测方法、装置及电子设备 | |
Dixit et al. | Improved MFCC and LPC algorithm for bundelkhandi isolated digit speech recognition | |
CN110647656A (zh) | 一种利用变换域稀疏化和压缩降维的音频检索方法 | |
CN109461503A (zh) | 一种对象的认知评估方法、装置、设备及可读存储介质 | |
Zhang et al. | Speech rhythm guided syllable nuclei detection | |
CN104217731A (zh) | 一种快速识别独奏乐曲乐谱的方法 | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
JP2006523331A5 (ja) | ||
CN102214219A (zh) | 音视频内容检索系统及其方法 | |
Wang et al. | Automatic audio segmentation using the generalized likelihood ratio | |
CN116771662A (zh) | 一种基于多特征融合的机泵故障诊断方法 | |
CN103458323A (zh) | 一种基于语音时域指纹的对讲模式开启方法 | |
CN111108553A (zh) | 一种声音采集对象声纹检测方法、装置和设备 |