JP4277745B2 - 信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体 - Google Patents

信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP4277745B2
JP4277745B2 JP2004185247A JP2004185247A JP4277745B2 JP 4277745 B2 JP4277745 B2 JP 4277745B2 JP 2004185247 A JP2004185247 A JP 2004185247A JP 2004185247 A JP2004185247 A JP 2004185247A JP 4277745 B2 JP4277745 B2 JP 4277745B2
Authority
JP
Japan
Prior art keywords
frequency
power
signal processing
storage means
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004185247A
Other languages
English (en)
Other versions
JP2006010857A (ja
Inventor
尚子 小杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004185247A priority Critical patent/JP4277745B2/ja
Publication of JP2006010857A publication Critical patent/JP2006010857A/ja
Application granted granted Critical
Publication of JP4277745B2 publication Critical patent/JP4277745B2/ja
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体に係り、特に、電話機と電話回線を用いて収音された音声に対して、各発声の基本周波数を推定するための信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体に関する。
人の声の基本周波数情報を必要とするアプリケーションとして、例えば、人の歌唱を入力として、その歌唱と最も似ているメロディを持つ音楽を検索する、ハミング検索アプリケーション等が考えられる。このハミング検索では、入力される音声信号はマイクを用いて収音される(例えば、特許文献1〜4参照)。
特開2001−109471号公報「音楽検索装置、音楽検索方法及び音楽検索プログラムを格納した記憶媒体」西原、小杉、紺谷、山室 特開2002−175073号公報「演奏採取装置、演奏採取方法及び演奏採取用プログラム記憶媒体」片岡、小杉、小島 特開2000−347659号公報「音楽検索装置、音楽検索方法及び音楽検索プログラムを記録した記録媒体」西原、小杉、坂田、山室、梅田、紺谷 特開2002−123287号公報「音楽特徴量生成方法及び装置と音楽情報検索装置と音楽特徴量生成用プログラムの記録媒体」小杉
音声を使ったサービスにおいて、最も普及率が高く身近なインタフェースは電話であると考えられるが、電話を通じて収音された音声信号からは300Hzから3.4kHzの周波数成分しか得られない。しかし、例えば、一般的な男性の歌声は、98Hz(G2)から277Hz(C#4)の間に基本周波数が存在し、一般的な女性の歌声は、175Hz(F3)から466Hzの間に基本周波数が存在していると言われている(文献:UlrichMichels/角倉一朗、図解音楽事典、白水社、1998)。従って、男性の場合は略すべて、女性の場合でも約半分は、電話回線を経由して収音された歌声から基本周波数成分を直接得ることができない。
本発明は、上記の点に鑑みなされたもので、人の声の調和構造を利用して、電話を通して得られた音声信号(300Hzから3.4kHzの周波数成分)から、実際の発声の基本周波数を推定する方法を示すものである。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、ネットワークを介して収音された音声に対して、各発声の基本周波数を求めるための信号処理方法において、
ネットワークを介して取得した入力音声信号に対して、フーリエ変換を行って周波数成分を算出し、該周波数成分を用いて各周波数チャネルのパワーを算出し、パワー値を記憶手段に格納するフーリエ変換ステップ(ステップ1)と、
周波数チャネルのパワー値の中から特定の閾値を超えて、かつ極大値を持つ周波数チャネルのいくつかを基本周波数算出用周波数チャネルとして選出し、記憶手段に格納する基本周波数算出用周波数チャネル選出ステップ(ステップ2)と、
周波数チャネルのパワーを極大にした原因となる周波数fpを特定し、記憶手段に格納する周波数算出ステップ(ステップ3)と、
特定された周波数fpを基本周波数、あるいは、該基本周波数の倍音の1つであると仮定して、jを1から所定数の範囲の変数として、それぞれのfp及び各jについて、fp/jと倍音関係にある複数の周波数のパワーを合計し、合計されたパワーを記憶手段に格納するパワー合算ステップ(ステップ4)と、
合計されたパワーの中から最大値を選んで、該最大値となったfp、jとに基づいて実際の発声の基本周波数を決定する基本周波数決定ステップ(ステップ5)と、からなる。
また、本発明(請求項2)は、パワー合算ステップにおいて、
複数の周波数のパワーの合算は、
hを定数とし、fp/jのj倍音からj+h倍音の周波数のパワーの合算である。
また、本発明(請求項3)は、周波数算出ステップにおいて、周波数チャネルのパワーを極大にした原因となる周波数fpを、補完式を用いて特定し、記憶手段に格納する。
図2は、本発明の原理構成図である。
本発明(請求項4)は、ネットワークを介して収音された音声に対して、各発声の基本周波数を求めるための信号処理装置であって、
ネットワークを介して取得した入力音声信号に対して、フーリエ変換を行って周波数成分を算出し、該周波数成分を用いて各周波数チャネルのパワーを算出し、パワー値を記憶手段に格納するフーリエ変換手段1と、
周波数チャネルのパワー値の中から特定の閾値を超えて、かつ極大値を持つ周波数チャネルのいくつかを基本周波数算出用周波数チャネルとして選出し、記憶手段に格納する基本周波数算出用周波数チャネル選出手段2と、
周波数チャネルのパワーを極大にした原因となる周波数fpを特定し、記憶手段に格納する周波数算出手段3と、
特定された周波数fpを基本周波数、あるいは、該基本周波数の倍音の1つであると仮定して、jを1から所定数の範囲の変数として、それぞれのfp及び各jについて、fp/jと倍音関係にある複数の周波数のパワーを合計し、合計されたパワーを記憶手段に格納するパワー合算手段4と、
合計されたパワーの中から最大値を選んで、該最大値となったfp、jとに基づいて実際の発声の基本周波数を決定する基本周波数決定手段5と、を有する。
また、本発明(請求項5)は、パワー合算手段において、複数の周波数のパワーの合算は、
hを定数とし、fp/jのj倍音からj+h倍音の周波数のパワーの合算である。
また、本発明(請求項6)は、周波数算出手段において、
周波数チャネルのパワーを極大にした原因となる周波数fpを、補完式を用いて特定し、記憶手段に格納する
本発明(請求項)は、請求項4乃至6のいずれか1項に記載の信号処理装置を構成する各手段としてコンピュータを機能させるための信号処理プログラムである。
本発明(請求項)は、請求項7記載の信号処理プログラムを格納した記憶媒体である。
上記のように、本発明によれば、音声をフーリエ変換して周波数分布を求め、パワーが極大となる周波数(チャネル)を定め、その近傍でパワー極大となる周波数(f)を求め、jを1〜hとし、f/jの整数倍の周波数を合計し、合計されたP(p,j)が最大となるパワーを選択し、実際の発声の基本周波数を決定することにより、電話を通して収音された音声信号のように、基本周波数成分を直接得ることができない音声信号に対して、基本周波数を推定することができるようになる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における信号処理装置の構成を示す。
同図に示す信号処理装置は、フーリエ変換部1、基本周波数算出用周波数チャネル選出部2、周波数算出部3、パワー合算部4、基本周波数決定部5から構成される。なお、これらの各部には、それぞれ計算結果等を格納するメモリやバッファ等の記憶手段を有するものとする。
以下に、上記の構成における動作を説明する。
(1) フーリエ変換部1は、入力された音声信号を一定の長さずらしながら一定の長さ(フレームと呼ぶ)の信号データを順次切り出してフーリエ変換し、周波数チャネルc毎にそのチャネルのパワーp(c)を計算する。また、併せて該フレームの平均パワーも算出する。平均パワーは、全チャネルのパワーを全チャネル数で除算したものである。計算された周波数チャネル毎のパワーp(c)及び平均パワーをメモリ(図示せず)等の記憶手段に格納する。
(2) 基本周波数算出用周波数チャネル選出部2は、フーリエ変換部1で算出され、メモリに格納されている周波数チャネルの中から、フレームの平均パワーである一定の割合tを越え、かつ極大値となるパワーを持つチャネルをn個選出し、メモリ(図示せず)等の記憶手段に格納する。選出された周波数チャネル(基本周波数算出用周波数チャネル)の中のp番目のチャネルをc (1≦p≦n)と表す。kはチャネル番号とする。
(3) 周波数算出部3は、基本周波数算出用周波数チャネル選出部2で選出され、メモリに格納されているチャネルc とその周囲の周波数チャネル(c k−2〜c k+2)のパワー値(p(c k−2)〜p(c k+2))から、後述する補完式(式(1)〜式(5))を用いてそのチャネルc で最も大きいパワーを持つと思われる周波数fを算出し、メモリ(図示せず)等の記憶手段に格納する。補完式は、c k−2からc k+2のパワー値によって、適切なものを1つ使用する。
(5) パワー合算部4は、周波数算出部3で算出され、メモリに格納されている周波数fを、基本周波数f/jのj倍音であると仮定して、その基本周波数に対するj倍音からj+h倍音までの周波数のパワーP(p,j)を合算し、合計パワー値をメモリ(図示せず)等の記憶手段に格納する。
(5) 基本周波数決定部5は、パワー合算部4で算出した合計パワー値P(p,j)を最大にするpとjを選出し、それらから後述する式(8)を用いて基本周波数Fを算出することで出力結果を得る。
以下に、上記の構成の動作を詳細に説明する。
上記の基本周波数算出用周波数チャネル選出部2におけるフレームの平均パワーのある一定の割合(閾値)tは、例えば、“0.5”などである。チャネル個数nは、例えば“5”などである。また、周波数チャネル選出方法としては、例えば、300Hz以上の周波数チャネルの中で、「フレームの平均パワーのある一定の割合tを越え、かつ極大値となるパワーを持つ」という条件を満たす周波数チャネルを、周波数の低いものから順に選出する方法などが考えられる。
上記の周波数算出部3における補完式は、図に示す各ケース毎に異なる。
1.ケースA:d≦d,d≦d(図(a))
(a)ケースA−1(d>|d|)
Figure 0004277745

(b)ケースA−2(d≦|d|)
Figure 0004277745
2.ケースB:d>d,d>d(図(b))
Figure 0004277745
3.ケースC:d≦d,d>d(図(c))
Figure 0004277745
4.ケースD:d>d,d≦d(図(d))
Figure 0004277745
上記のパワー合算部4におけるhは、例えば“7”などである。また、周波数のパワーP(p,j)の算出アルゴリズムは図5に示すとおりである。図6を用いてパワー合算部4の動作を説明する。
ステップ101) 初期値p=1、j=1を設定する。
ステップ102) p≦nかを判断し、そうである場合には、ステップ103に移行し、p>nである場合には、処理を終了する。
ステップ103) j≦hかを判定し、そうである場合には、ステップ105に移行し、j>hである場合には、ステップ104に移行する。
ステップ104) pを1インクリメントし、jの値を1戻す。
ステップ105) 周波数のパワーP(p,j)を算出する。
ステップ106) jの値をインクリメントしてステップ103に移行する。
基本周波数決定部5における基本周波数Fは、以下の式(8)を用いて算出する。
Figure 0004277745
なお、上記の例えば、信号処理装置の(1)〜(5)の動作をプログラムとして構築し、信号処理装置として利用されるコンピュータにインストールし、CPU等の制御手段に実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを信号処理装置として利用されるコンピュータに接続されたディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、実行時にインストールするようにしてもよい。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、電話機や電話回線を介して収音された音声の基本周波数を推定する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における信号処理装置の構成図である。 本発明の一実施の形態における周波数算出のための場合分けを示す図である。 本発明の一実施の形態におけるP(p,j)算出アルゴリズムである。 本発明の一実施の形態におけるパワー合算部の動作のフローチャートである。
符号の説明
1 フーリエ変換手段、フーリエ変換部
2 基本周波数算出用周波数チャネル送出手段、基本周波数算出用周波数チャネル送出部
3 周波数算出手段、周波数算出部
4 パワー合算手段、パワー合算部
5 基本周波数決定手段、基本周波数決定部

Claims (8)

  1. ネットワークを介して収音された音声に対して、各発声の基本周波数を求めるための信号処理方法において、
    前記ネットワークを介して取得した入力音声信号に対して、フーリエ変換を行って周波数成分を算出し、該周波数成分を用いて各周波数チャネルのパワーを算出し、パワー値を記憶手段に格納するフーリエ変換ステップと、
    前記周波数チャネルのパワー値の中から特定の閾値を超えて、かつ極大値を持つ周波数チャネルのいくつかを基本周波数算出用周波数チャネルとして選出し、記憶手段に格納する基本周波数算出用周波数チャネル選出ステップと、
    前記周波数チャネルのパワーを極大にした原因となる周波数fpを特定し、記憶手段に格納する周波数算出ステップと、
    特定された周波数fpを基本周波数、あるいは、該基本周波数の倍音の1つであると仮定して、jを1から所定数の範囲の変数として、それぞれのfp及び各jについて、fp/jと倍音関係にある複数の周波数のパワーを合計し、合計されたパワーを記憶手段に格納するパワー合算ステップと、
    前記合計されたパワーの中から最大値を選んで、該最大値となったfp、jとに基づいて実際の発声の基本周波数を決定する基本周波数決定ステップと、
    からなることを特徴とする信号処理方法。
  2. 前記パワー合算ステップにおいて、
    前記複数の周波数のパワーの合算は、
    hを定数とし、fp/jのj倍音からj+h倍音の周波数のパワーの合算である
    請求項1記載の信号処理方法。
  3. 前記周波数算出ステップは、
    前記周波数チャネルのパワーを極大にした原因となる周波数fpを、補完式を用いて特定し、記憶手段に格納する
    請求項1記載の信号処理方法。
  4. ネットワークを介して収音された音声に対して、各発声の基本周波数を求めるための信号処理装置であって、
    前記ネットワークを介して取得した入力音声信号に対して、フーリエ変換を行って周波数成分を算出し、該周波数成分を用いて各周波数チャネルのパワーを算出し、パワー値を記憶手段に格納するフーリエ変換手段と、
    前記周波数チャネルのパワー値の中から特定の閾値を超えて、かつ極大値を持つ周波数チャネルのいくつかを基本周波数算出用周波数チャネルとして選出し、記憶手段に格納する基本周波数算出用周波数チャネル選出手段と、
    前記周波数チャネルのパワーを極大にした原因となる周波数fpを特定し、記憶手段に格納する周波数算出手段と、
    特定された周波数fpを基本周波数、あるいは、該基本周波数の倍音の1つであると仮定して、jを1から所定数の範囲の変数として、それぞれのfp及び各jについて、fp/jと倍音関係にある複数の周波数のパワーを合計し、合計されたパワーを記憶手段に格納するパワー合算手段と、
    前記合計されたパワーの中から最大値を選んで、該最大値となったfp、jとに基づいて実際の発声の基本周波数を決定する基本周波数決定手段と、
    を有することを特徴とする信号処理装置。
  5. 前記パワー合算手段の前記複数の周波数のパワーの合算は、
    hを定数とし、fp/jのj倍音からj+h倍音の周波数のパワーの合算である
    請求項4記載の信号処理装置。
  6. 前記周波数算出手段は、
    前記周波数チャネルのパワーを極大にした原因となる周波数fpを、補完式を用いて特定し、記憶手段に格納する
    請求項4記載の信号処理装置。
  7. 請求項4乃至6のいずれか1項に記載の信号処理装置を構成する各手段としてコンピュータを機能させるための信号処理プログラム。
  8. 請求項7記載の信号処理プログラムを格納したことを特徴とする信号処理プログラムを格納した記憶媒体。
JP2004185247A 2004-06-23 2004-06-23 信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体 Active JP4277745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004185247A JP4277745B2 (ja) 2004-06-23 2004-06-23 信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004185247A JP4277745B2 (ja) 2004-06-23 2004-06-23 信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2006010857A JP2006010857A (ja) 2006-01-12
JP4277745B2 true JP4277745B2 (ja) 2009-06-10

Family

ID=35778221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004185247A Active JP4277745B2 (ja) 2004-06-23 2004-06-23 信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP4277745B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102184932B1 (ko) * 2018-07-19 2020-12-01 한국과학기술원 다채널을 이용한 음성인식 방법

Also Published As

Publication number Publication date
JP2006010857A (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
US20150094835A1 (en) Audio analysis apparatus
JP2005250472A (ja) オーディオサムネイルを生成するためのシステムおよび方法
US6476308B1 (en) Method and apparatus for classifying a musical piece containing plural notes
CN106095925B (zh) 一种基于声乐特征的个性化歌曲推荐方法
EP1394770A1 (en) Voice recognition apparatus and voice recognition method
KR20080030922A (ko) 정보처리 장치 및 방법, 프로그램, 및 기록 매체
KR101637282B1 (ko) 음악 플레이리스트 생성방법, 및 음악 플레이리스트 생성장치
WO2008032787A1 (fr) ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
CN104143339B (zh) 音乐信号处理设备和方法
WO2015114216A2 (en) Audio signal analysis
CN105718486B (zh) 在线哼唱检索方法及系统
CN110010159A (zh) 声音相似度确定方法及装置
JP6729515B2 (ja) 楽曲解析方法、楽曲解析装置およびプログラム
US20090132508A1 (en) System and method for associating a category label of one user with a category label defined by another user
Abreu et al. Computer-aided musical orchestration using an artificial immune system
JP4277745B2 (ja) 信号処理方法及び装置及びプログラム及び信号処理プログラムを格納した記憶媒体
JP4486527B2 (ja) 音響信号分析装置およびその方法、プログラム、記録媒体
KR101041037B1 (ko) 음성과 음악을 구분하는 방법 및 장치
Tjahyanto et al. Fft-based features selection for javanese music note and instrument identification using support vector machines
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
CN107368609B (zh) 获取多媒体文件的方法、装置及计算机可读存储介质
JP6308706B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
JP7176114B2 (ja) 楽曲解析装置、プログラムおよび楽曲解析方法
JP2008257020A (ja) メロディーの類似度算出方法及び類似度算出装置
JP2020038252A (ja) 情報処理方法および情報処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090302

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4277745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350