JP2003271177A - 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム - Google Patents

特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム

Info

Publication number
JP2003271177A
JP2003271177A JP2002071392A JP2002071392A JP2003271177A JP 2003271177 A JP2003271177 A JP 2003271177A JP 2002071392 A JP2002071392 A JP 2002071392A JP 2002071392 A JP2002071392 A JP 2002071392A JP 2003271177 A JP2003271177 A JP 2003271177A
Authority
JP
Japan
Prior art keywords
information
feature
image
voice
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002071392A
Other languages
English (en)
Inventor
Masanori Ihara
正典 伊原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002071392A priority Critical patent/JP2003271177A/ja
Publication of JP2003271177A publication Critical patent/JP2003271177A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 特徴情報の統計的判断において、時間差分や
空間差分における境界のように、平均付近値の頻度が低
く、正負に大きく分散する情報は平均化されると、その
値は0に近づくため統計的評価判定が行いにくい。この
ような場合でも、精度の高い特徴抽出が可能な特徴量抽
出方法を提供する。 【解決手段】 正負の値それぞれの絶対値を求め、その
両方を特徴とすることで、分散の大きな正負の値を統計
的に判定しやすくする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、特徴量抽出方
法、音声および音響に関する識別装置、画像および画像
状態に関する識別装置ならびに特徴量抽出プログラムに
関し、特に情報処理装置を用いた特徴抽出を行なう各種
識別装置に用いられる特徴量抽出方法、音声および音響
に関する識別装置、画像および画像状態に関する識別装
置ならびに特徴量抽出プログラムに関する。
【0002】
【従来の技術】従来の音声における特徴情報の抽出とし
ては、検出器より得られた情報を入力として、スペクト
ルを構成する情報に対して次のような方法が用いられて
いる。まず、スペクトルベクトル場と呼ばれる単純に時
間軸と周波数軸との変化に基づいた差分を用いて二つの
値を得る方法である。この方法は特開昭60−5939
4号公報に開示されており、たとえば、図2において表
現される音声波形(301)の特徴を抽出する場合、時
刻t0(302)とt1(303)とから次のように処理
を行う。
【0003】Fn,m=tn{fm、fm+1、fm+2、f…} において、 F0,0=10 F0,1=70 F0,2=100 F0,3=60 F1,0=30 F1,1=40 F1,2=50 F1,3=10 と値が設定される。なお、図3において、符号304
は、時刻t0におけるスペクトルパターンの仮想表示で
あり、符号305は時刻t1におけるスペクトルパター
ンの仮想表示である。
【0004】図4を参照して、F0をt0におけるf0
らf3(306)と、F1をt1におけるf0からf3(3
07)で表す場合、スペクトルベクトル場特徴の抽出処
理は図4、図5の順で行われる。特徴を時間軸および周
波数軸の差分から求めると、
【0005】
【数1】
【0006】と処理され、周波数軸、時間軸の差分が求
められる。これらの値はここでは、 Xi={Δxi、Δyi} X0=+20、0 X1=−30、−60 X2=−50、−30 X3=−50、+40 となる。このXiを周波数軸ごとにあらわしたものが図
5の符号(204、205)である。この際、y0の場
合において、周波数軸の差分は自分より低い周波数の情
報が存在しないため便宜的に0を代入してある。差分の
とり方が逆の場合であれば、y3=0となる。このよう
なスペクトルベクトル場に基づく特徴抽出を応用した技
術が、特開平11−249681号公報に開示されてい
る。
【0007】この方法は、前述の例に加えて、チャネル
ごとに8方向の差分を求め特徴としているが、正負の値
を異なる正の変数として扱ってはいない。
【0008】次に、方向性パターンと呼ばれる時間軸と
周波数軸の変化に基づいた差分を用い方向性を判定し、
その方向にベクトルから構成される出力を割り当てる方
法がある。この特徴抽出方法は特許第2613108号
に開示されており、8方向性の認識実験が示されてい
る。また、この方法は4方向性パターンであれば図5の
ようになり、同一周波数帯域における時間軸からみた出
力の変化に基づく差分と同一時間軸における近接する周
波数帯域との出力の差分のうち、周波数軸の差分と時間
軸の差分の中から一番大きな差分を持つ軸とその増減を
選択し、特徴量とする。
【0009】この際、代入される値は二つのベクトルの
内積となる。この結果、これまでの例に基づくと処理は
次のように表現される。
【0010】
【数2】
【0011】以上のように処理が行われることで、周波
数軸、時間軸の差分が求められる。これらの値に基づ
き、 pi=√(Δxi 2+Δyi 2) ri=atan(Δxi、Δyi)×180/π という演算により、二つのベクトルにより求められるパ
ワーpとそのベクトルによって表される角度rが求めら
れる。
【0012】
【数3】
【0013】その後角度ごとに分類し、本方法による特
徴の解を求めると Xi={ai0、ai1、ai2、ai3} X0={20、0、0、0} X1={0、0、0、67} X2={0、0、58、0} X3={0、0、64、0} となる。ここでは単純化のために整数を用いているが、
時間軸と周波数軸を用いて4方向それぞれに、正負の方
向に基づいて4つの特徴量を構成する。そして、この4
方向のうち、一番変化の大きい個所に対し、その変化量
を特徴量として割り当てるのである。
【0014】
【発明が解決しようとする課題】しかし、前記スペクト
ルベクトル場特徴や方向性パターン特徴の処理は、次の
ような課題を有している。
【0015】スペクトルベクトル場特徴は、単純に近接
する情報の差分を用いて情報を構成するが、複数の時間
的に異なる情報を統計的に評価しようとすると、増減の
大きな情報はその平均が比較的小さい値となり統計的判
定において効率的でないという課題があった。この課題
は、音声であれば渡りと呼ばれる音韻と音韻のつなぎ目
に発生しやすく、画像であれば輪郭部といった情報の境
界部分に発生しやすい傾向がある。
【0016】方向性パターンでは指定された方向の数に
情報の変化状態が量子化されるため、その情報が持つ微
妙な特徴が量子化されてしまっていた。このため、元の
情報に対してベクトルの量子化誤差が発生してしまい正
確な特徴表現が不可能であった。特に4方向や8方向に
おいて、各々の方向の境界に位置する情報は方向が不安
定となり、量子化雑音が混入されてしまうという課題が
ある。
【0017】この発明は上記課題を解決するためになさ
れたものであり、精度の高い特徴抽出が可能な特徴量抽
出方法、音声および音響に関する識別装置、画像および
画像状態に関する識別装置ならびに特徴量抽出プログラ
ムを提供することを目的としている。
【0018】
【課題を解決するための手段】上記目的を達成するた
め、この発明のある局面に従うと、複数の数値による入
力情報に基づき情報の特徴量を抽出する方法は、各情報
Fに対し二つの記憶領域xp、xmを与える処理と、各
情報の正負を判定する処理と、その判定結果に基づいて
正の値であればxpにFの絶対値を、xmに0を代入
し、負の値であればxmにFの絶対値を、xpに0を代
入する処理とを実施することを特徴とする。
【0019】この発明の他の局面に従うと、上記特徴量
抽出方法を実施する装置は、音声情報において、音声を
入力する手段と、音声特徴を抽出する手段と、音声を評
価する手段と、音声の評価結果を出力する手段とを備
え、音声特徴抽出において少なくとも時間軸差分、もし
くは周波数軸差分、またはそれらを組み合わせた情報に
基づく特徴量を抽出することを特徴とする。
【0020】この発明のさらに他の局面に従うと、上記
特徴量抽出方法を実施する装置は、動画像や静止画像等
の映像情報において、映像を入力する手段と、映像特徴
を抽出する手段と、映像を評価する手段と、映像の評価
結果を出力する手段とを備え、映像特徴抽出において少
なくとも時間軸差分、色相、若しくは隣接画素との輝
度、色相、彩度その他の画像情報に関わる差分、または
それらを組み合わせた情報に基づく特徴量を抽出するこ
とを特徴とする。
【0021】この発明のさらに他の局面に従うと、上記
特徴量抽出方法をコンピュータに実行させるプログラム
は、演算部と記憶部と出力部とを有する情報処理装置を
用いて特徴量抽出方法をコンピュータに実行させる。
【0022】
【発明の実施の形態】特徴情報の統計的判断において、
時間差分や空間差分における境界のように、平均付近値
の頻度が低く、正負に大きく分散する情報が平均化され
ると、その値は0に近づくため統計的評価判定を行うこ
とが難しいという問題がある。本実施の形態において
は、正負の値それぞれの絶対値を求め、その両方を特徴
とすることで、分散の大きな正負の値を統計的に判定し
やすくしている。以下により詳しい実施の形態について
述べる。
【0023】[実施の形態1]図1を参照して、本実施
の形態における手法を説明する。図1のフローチャート
に示される処理は、コンピュータを動作させるプログラ
ムによって実行される。
【0024】まず、情報列Fnが入力される(80
1)。次に、xp、xmに関してn次元の情報領域の確
保を行う(802)。そして、入力情報列Fnの全てに
対しaを添字として、その位置ごとに正負の値の判定を
行う(803〜807)。この際、Faが正であればx
pにはFaの絶対値を代入しxmには0を代入する(8
05)。負であればxpには0を代入しxmにはFa
絶対値を代入する(806)。そして、これまでの処理
をn次元分繰返す(807)。
【0025】本実施の形態における処理を、音声認識に
用いる場合について説明する。まず、1つの特徴xに関
し正負の値を代入する変数xp、xmを用意する。そし
て、xが0以上であれば、xpにxを代入し、xmに0
を代入する。逆に、xが0未満であれば、xpに0を代
入し、xmに−xを代入する。そして、これを必要な特
徴の数にあわせて処理する。
【0026】例えば、従来の技術の説明に基づくと、特
徴量は次のように表現される。
【0027】
【数4】
【0028】以上のようにして、周波数軸、時間軸の差
分が求められる。これらの値は、
【0029】
【数5】
【0030】と各々の正負の状態により適切な変数に対
し絶対値を与える処理がなされ、チャネルごとに分類さ
れる。ここでは、 Xi={xpi、ypi、xmi、ymi} X0={20、0、0、0} X1={0、0、30、60} X2={0、0、50、30} X3={0、40、50、0} となる。この状態についてxp、yp、xm、ymの各
々を周波数軸上に表したものが図6の符号(104、1
03)である。この処理過程は図4、図5、図6の順で
行われる。このように各々の特徴量が素直に収録される
ため、特徴量の変化が指定の方向性により量子化される
ことなく用いることができる。この結果、より正確な特
徴表現が実現可能となる。
【0031】この際、近接する特徴との差分は、時間軸
や周波数軸、画像における座標軸において直前や直後に
隣接しなくてもよく、時間軸で数フレーム離れていた
り、周波数軸で数チャンネル離れていたり、画素位置と
して上下左右や3次元画像における前後に数画素離れて
いてもよい。
【0032】音声認識による実験調査において、ATR
503文Bセットを用いた。298806フレーム、メ
ルスケール20チャネル、1/62.5秒間、1/12
5秒間隔の音声に対し、FFTを用いたメルスケールフ
ィルタバンクを用い、本実施の形態における特徴抽出
(連続性パターン)による認識、および、スペクトルベ
クトル場、4方向性パターン、メルケプストラムを用い
た認識を行ない、ベイズ判定による統計的音素モデルに
基づくオープン話者の音声認識を実施した。
【0033】
【表1】
【0034】
【表2】
【0035】
【表3】
【0036】
【表4】
【0037】この結果を例にしてみると、本発明の特徴
抽出方法を用いる場合の認識結果である表1によれば、
母音平均の認識率はスペクトルベクトル場特徴(表2)
の母音平均より1%程度、4方向性パターン特徴(表
3)の母音平均より13%程度の改善が見受けられる。
半母音の認識率についてはスペクトルベクトル場特徴
(表2)の半母音平均より12%程度、4方向性パター
ン特徴(表3)の半母音平均より2%程度の改善が見受
けられる。同様に、鼻音に関してはスペクトルベクトル
場特徴(表2)より8%程度、4方向性パターン特徴
(表3)より13%程度の改善が見受けられる。有声破
裂音に関しては、スペクトルベクトル場特徴(表2)よ
り11%程度、4方向性パターン特徴(表3)より11
%程度の改善が見受けられる。摩擦音に関しては、スペ
クトルベクトル場特徴(表2)より4%程度、4方向性
パターン特徴(表3)より2%程度の改善が見受けられ
る。無声破裂音に関しては、スペクトルベクトル場特徴
(表2)より12%程度、4方向性パターン特徴(表
3)より4%程度の改善が見受けられる。また、音声に
おいて従来から一般的に用いられるメルケプストラム特
徴(表4)に対しては、母音の認識率はさほど違いがな
いものの、半母音に関し11%、鼻音系に関し17%、
有声破裂音系に関し13%、摩擦音系に関し17%、無
声破裂音系に関し18%の改善が図られている。
【0038】この結果から、本実施の形態によると、全
体としての認識率の向上に貢献するとともに、ある特定
の音の出現頻度に関係なく認識率を改善することが可能
となり、子音の認識率の向上が伺える結果となってい
る。このように、音声認識や音楽認識といった音響特徴
として用いる場合においては音声における周波数軸上の
nチャネルの情報xnt、xn(t-1)から、隣接する周波数
との出力の差分および、同じ周波数における時間軸上の
出力の差分を求めることになる。
【0039】この情報はチャネルごとに周波数軸と時間
軸の変化という2つの特徴量をもつため、本発明によれ
ば4つの特徴がチャネルごとに構成される。このため、
nチャネルの音声特徴情報は4×n個の特徴として構成
される。これらを音声特徴であれば音素ラベルなどによ
り分類し、ベイズ推定のような統計的判定手法を行うこ
とで判定が可能であり、音楽であれば楽器ごとに分類す
ることでベイズ推定により楽器判定ができる。また、音
階ごとに分類することで音程をベイズ推定することも可
能である。また、波の音や雨の音、風の音、鳥の鳴き声
などを用いれば環境音の判定も可能である。
【0040】このような判定を行なう装置は、図7に示
されるように、集音機(401)もしくは音声再生器
(402)といった音声を信号に変える装置と、その信
号に基づいて特徴を抽出する装置(403)と、その特
徴を他の特徴と比較し評価する装置(404)と、評価
のために必要な特徴情報が分類蓄積された装置(特徴辞
書405)と、評価結果を出力する装置(406)とか
ら構成されており、本発明により得られた特徴で評価情
報蓄積装置(405)の内容情報が構成され、特徴抽出
装置(404)において本発明の特徴抽出方法が実施さ
れている。
【0041】図8は音判定処理の過程を示すフローチャ
ートである。図を参照して、音声を量子化する処理(6
01)の施された情報の分析処理(602)が実施され
る。次に、本発明に基づく一連の処理(603、図1)
を実施し、そこから得られた特徴により、特徴の判定評
価(604)が実施され、認識結果(605)として出
力される。
【0042】この際、入力装置は一般的なマイクやテー
プなどの記録装置の出力を入力する装置、パソコンなど
に用いられるデジタル記憶媒体などの人間の聴覚や視覚
などを刺激する情報を記録できる装置や他の情報処理装
置に出力可能な装置を指す。また、出力装置はスピーカ
ーやディスプレイなどの人間の聴覚や視覚を刺激するも
のや、他の情報処理装置に対し処理結果を出力するもの
であっても良い。また、本装置を組み込んでラベリング
を施し、検索を実施しても良い。
【0043】[実施の形態2]映像認識に本発明を用い
る場合においては映像における輝度や彩度、色相に関す
る時間軸上のnチャネルの情報atxy、a(t-1)xy
ら、隣接する4方向の画素に対する輝度の差分および、
同じ画像位置における時間軸上の輝度や彩度、色相の差
分を求める。この情報はチャネルごとに画像面と時間軸
の変化という3つの特徴量と輝度や彩度、色相といった
3つの特徴、あわせて9つの特徴をもつため、本発明に
よれば18の特徴がチャネルごとに構成される。
【0044】このため、n画素の情報は18×n個の特
徴となる。この情報は音声と同様に特徴判定に用いるこ
とができる。また、色相といった二つの情報の配分によ
って構成される情報は、赤を0度、青を+120度、緑
を−120度とした場合の正負の値に関し、加法混色に
よる補色となる水色の値が+π(+180度)もしくは
−π(−180度)として表現される。信号の揺らぎを
考慮するとXpとXmにそれぞれ、片方が0でもう片方
の値がπ以下であり0.99π程度の値が入る。
【0045】従来の方法によれば、この値が1つの値と
して表されるため、水色は+πもしくは−πとして表現
され、非常に分散が大きくなり統計的判定を行えないと
いう問題があった。しかし、本発明によって+πもしく
は−πは二つの独立した変数が同時にπになることで、
平均が0となることはない。この結果、本発明に用いた
特徴によって、色ごとに情報を分類したり、形状ごとに
分類し学習させることで、画像特徴の判定や画像の認識
が可能である。
【0046】この装置は図9にあるように、撮像機(5
01)もしくは映像再生器(502)といった映像を信
号に変える装置と、その信号に基づいて特徴を抽出する
装置(503)と、その特徴を他の特徴と比較し評価す
る評価装置(504)と、評価のために必要な特徴情報
が分類蓄積された評価情報蓄積装置(特徴辞書505)
と、評価結果を出力する装置(506)とから構成され
ており、本発明により得られた特徴で評価情報蓄積装置
(505)の内容情報が構成され、特徴抽出装置(50
4)において本発明の特徴抽出方法が実施されている。
【0047】図10は画像判定処理の過程を示すフロー
チャートである。図を参照して、映像を量子化する処理
(701)の施された情報の分析処理(702)が実施
される。次に、本発明に基づく一連の処理(703、図
1)を実施し、そこから得られた特徴により、特徴の判
定評価(704)が実施され、認識結果(705)とし
て出力される。
【0048】この際、入力装置は一般的なカメラやVT
Rなどの記録装置の出力を入力する装置、パソコンなど
に用いられるデジタル記憶媒体などの人間の聴覚や視覚
などを刺激する情報を記録できる装置や他の情報処理装
置に出力可能な装置を指す。また出力装置はスピーカー
やディスプレイなどの人間の聴覚や視覚を刺激するもの
や、他の情報処理装置に対し処理結果を出力するもので
あっても良い。また、本装置を組み込んでラベリングを
施し、検索を実施しても良い。
【0049】これらの実施の形態の手法を用いること
で、音声認識や画像認識をはじめとして、科学成分分析
や地質調査などのスペクトル分析など、特徴をはじめと
した正負の値を持ち複数の軸を持つ情報の分析において
効果的な特徴抽出が可能となる。
【0050】なお、上記プログラムは、FD、CD、H
DD、DVD、テープ、メモリLSI等の情報記憶媒体
に記録して提供することができる。
【0051】本発明はスペクトルパターンの時系列的変
化といった2次元空間と各座標における出力により構成
された3次元ベクトル場のような多次元により構成され
た情報を統計的に評価する場合においてその効果を発揮
する技術であり、今回開示された実施の形態はすべての
点で例示であって制限的なものではないと考えられるべ
きである。本発明の範囲は上記した説明ではなくて特許
請求の範囲によって示され、特許請求の範囲と均等の意
味および範囲内でのすべての変更が含まれることが意図
される。
【0052】
【発明の効果】本発明によれば、正負の値にそれぞれ独
立した変数を持たせることにより、従来であれば情報軸
にあわせて量子化されていたために欠損部分のあった情
報が連続的に捕らえられるようになり、より精度の高い
特徴抽出が可能となる。このため、音声や画像認識など
の実験においては、従来の方向性パターンより高い認識
率をえることが可能となった。また、他の特徴抽出にお
いても、ベクトル場により構成された特徴情報において
は同様の効果が期待できる。
【図面の簡単な説明】
【図1】 本発明の実施の形態における特徴抽出処理を
示すフローチャートである。
【図2】 波形情報の具体例を示す図である。
【図3】 波形からスペクトルを構成する処理を示す図
である。
【図4】 スペクトルをチャネルごとに分割する処理を
示す図である。
【図5】 チャネルごとに分割されたスペクトル情報を
用いてスペクトルベクトル場を構成する処理を示す図で
ある。
【図6】 スペクトル場の特徴を用いて連続性パターン
を構成する処理を示す図である。
【図7】 本発明を用いた音声判別装置の構成例を示す
図である。
【図8】 音声判別処理の具体例を示すフローチャート
である。
【図9】 本発明を用いた画像判別装置の構成例を示す
図である。
【図10】 画像判別処理の具体例を示すフローチャー
トである。
【符号の説明】
101 スペクトルベクトル場情報の周波数軸差分、1
02 スペクトルベクトル場情報の時間軸差分、103
分離されたスペクトルベクトル場情報の周波数軸差
分、104 分離されたスペクトルベクトル場情報の時
間軸差分、201時間t0の周波数軸上において複数の
チャネル出力に分離されたスペクトル、202 時間t
1の周波数軸上において複数のチャネル出力に分離され
たスペクトル、203 t1とt0の特徴の時間軸差分を
求める処理、204 t1における周波数軸上の隣接チ
ャネルの差分、205 t1とt0による時間軸上の同一
チャネルの差分、301 音声波形のサンプル、302
分析対象となる時間t0、303 分析対象となる時
間t1、304 t0におけるスペクトルパターンの仮想
表示、305 t1におけるスペクトルパターンの仮想
表示、306 t0におけるスペクトルパターンが複数
のチャネルに分離された状態、307 t1におけるス
ペクトルパターン複数のチャネルに分離された状態、4
01 音声を入力する装置、402 音声信号を再生す
る装置、403 音声特徴を分析する装置、404 音
声特徴からその特徴を有する記号を選択する装置、40
5 評価用の特徴情報が蓄積された装置、406 選択
された記号を出力する装置、501 画像を入力する装
置、502 画像信号を再生する装置、503 画像特
徴を分析する装置、504 画像特徴からその特徴を有
する記号を選択する装置、505 評価用の特徴情報が
蓄積された装置、506 選択された記号を出力する装
置、601 AD変換等により音声を量子化する処理、
602 量子化された音声情報を分析する処理、603
特徴化処理、604 抽出された特徴を評価判定する
処理、605 評価判定結果を出力する処理、701
AD変換等により映像を量子化する処理、702 量子
化された映像情報を分析する処理、703 特徴化処
理、704 抽出された特徴を評価判定する処理、70
5 評価判定結果を出力する処理、801 n次元の配
列Fnを入力する処理、802n次元の配列xp、xm
の記憶領域確保を行う処理、803 n次元の位置を示
す変数aの初期化する処理、804 情報列Fnにおけ
るFaを評価する処理、805 Faが0より大きい場
合の処理、806 Faが0より小さい場合の処理、8
07 aが配列の終端nに達したかどうかを判断する処
理。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の数値による入力情報に基づき情報
    の特徴量を抽出する方法であって、 各情報Fに対し二つの記憶領域xp、xmを与える処理
    と、 各情報の正負を判定する処理と、 その判定結果に基づいて正の値であればxpにFの絶対
    値を、xmに0を代入し、負の値であればxmにFの絶
    対値を、xpに0を代入する処理とを実施することを特
    徴とする、特徴量抽出方法。
  2. 【請求項2】 請求項1に記載の特徴量抽出方法を実施
    する装置であって、 音声情報において、音声を入力する手段と、 音声特徴を抽出する手段と、 音声を評価する手段と、 音声の評価結果を出力する手段とを備え、 音声特徴抽出において少なくとも時間軸差分、もしくは
    周波数軸差分、またはそれらを組み合わせた情報に基づ
    く特徴量を抽出することを特徴とする、音声および音響
    に関する識別装置。
  3. 【請求項3】 請求項1に記載の特徴量抽出方法を実施
    する装置であって、 動画像や静止画像等の映像情報において、映像を入力す
    る手段と、 映像特徴を抽出する手段と、 映像を評価する手段と、 映像の評価結果を出力する手段とを備え、 映像特徴抽出において少なくとも時間軸差分、色相、若
    しくは隣接画素との輝度、色相、彩度その他の画像情報
    に関わる差分、またはそれらを組み合わせた情報に基づ
    く特徴量を抽出することを特徴とする、画像および画像
    状態に関する識別装置。
  4. 【請求項4】 請求項1に記載の特徴量抽出方法をコン
    ピュータに実行させるプログラムであって、 演算部と記憶部と出力部とを有する情報処理装置を用い
    て特徴量抽出方法をコンピュータに実行させるための、
    特徴量抽出プログラム。
JP2002071392A 2002-03-15 2002-03-15 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム Pending JP2003271177A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002071392A JP2003271177A (ja) 2002-03-15 2002-03-15 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002071392A JP2003271177A (ja) 2002-03-15 2002-03-15 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム

Publications (1)

Publication Number Publication Date
JP2003271177A true JP2003271177A (ja) 2003-09-25

Family

ID=29201683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002071392A Pending JP2003271177A (ja) 2002-03-15 2002-03-15 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム

Country Status (1)

Country Link
JP (1) JP2003271177A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010515991A (ja) * 2007-01-10 2010-05-13 ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ 改良された画像識別
JP2011501257A (ja) * 2007-10-10 2011-01-06 ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ 拡張画像識別

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010515991A (ja) * 2007-01-10 2010-05-13 ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ 改良された画像識別
JP2011501257A (ja) * 2007-10-10 2011-01-06 ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ 拡張画像識別
US8515158B2 (en) 2007-10-10 2013-08-20 Mitsubishi Electric Corporation Enhanced image identification

Similar Documents

Publication Publication Date Title
Zhao et al. The sound of motions
Zhao et al. The sound of pixels
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Stöter et al. Countnet: Estimating the number of concurrent speakers using supervised learning
US7636662B2 (en) System and method for audio-visual content synthesis
Casanovas et al. Blind audiovisual source separation based on sparse redundant representations
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
Wang et al. Audio event detection and classification using extended R-FCN approach
Amin et al. Detecting voice disguise from speech variability: Analysis of three glottal and vocal tract measures
JP2011013731A (ja) 情報処理装置、情報処理方法、およびプログラム
Gillet et al. Automatic transcription of drum sequences using audiovisual features
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Prasad et al. Information theoretic optimal vocal tract region selection from real time magnetic resonance images for broad phonetic class recognition
JP2017520016A (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
Barbulescu et al. Audio-visual speaker conversion using prosody features
Borgstrom et al. A low-complexity parabolic lip contour model with speaker normalization for high-level feature extraction in noise-robust audiovisual speech recognition
Kumagai et al. Detection of inconsistency between subject and speaker based on the co-occurrence of lip motion and voice towards speech scene extraction from news videos
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN112687280B (zh) 一种具有频谱-时间空间界面的生物多样性监测系统
CN112735444B (zh) 一种具有模型匹配的中华凤头燕鸥识别系统及其模型匹配方法
JP2003271177A (ja) 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Saraf et al. A Zero-Shot Approach to Identifying Children's Speech in Automatic Gender Classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Effective date: 20060509

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20060707

Free format text: JAPANESE INTERMEDIATE CODE: A523

A131 Notification of reasons for refusal

Effective date: 20070403

Free format text: JAPANESE INTERMEDIATE CODE: A131

A02 Decision of refusal

Effective date: 20070904

Free format text: JAPANESE INTERMEDIATE CODE: A02