JP2002196784A

JP2002196784A - 時系列信号の識別方法及び装置

Info

Publication number: JP2002196784A
Application number: JP2000398599A
Authority: JP
Inventors: Hiroyasu Kumaki; 弘泰熊木; Naoya Miyano; 尚哉宮野; Muneo Harada; 宗生原田
Original assignee: Sumitomo Metal Industries Ltd
Current assignee: Nippon Steel Corp
Priority date: 2000-12-27
Filing date: 2000-12-27
Publication date: 2002-07-12

Abstract

(57)【要約】【課題】コストを抑えつつ、信号の識別精度を向上さ
せることが可能な信号処理方法及び装置を提供するこ
と。【解決手段】基準となる参照データと識別対象となる
観測データとの因果的な相関度合いを示す平均相互情報
量を求め、この平均相互情報量に基づいて、参照データ
と観測データの類似度を判定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音響信号や画像信号等
のように時系列的に変化する信号の処理方法及び処理装
置に関する。更に詳しくは、音響信号や画像信号の特徴
量からこれらを識別するための方法及び装置に関する。

【０００２】

【従来の技術】時系列的にレベルが変化する信号として
は、音響信号や画像（動画）信号がある。現在よく知ら
れている音声自動認識、話者自動認識、装置の作動音を
用いた故障診断、異常検出などの音響信号処理は、音響
信号の周波数スペクトルの特徴を何らかの方法で数値化
し、参照データと照合して、どの登録カテゴリーに近い
かを判定するものである。そして、信号の特徴抽出の際
には、例えば、パワースペクトル推定後に線形予測法等
に基づく処理を行っていた。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
たような従来技術では、信号の特徴を抽出するのに多大
な計算コストを要する。また、特徴を抽出するプロセス
で除去されたスペクトル成分中に重要な特徴が残ってい
る可能性があり、抽出された特徴量と登録された信号の
特徴量との類似度を推定する際の判定誤差を緩和できな
いという間題点がある。

【０００４】従って、本発明の目的は、コストを抑えつ
つ、信号の識別精度を向上させることが可能な信号処理
方法及び装置を提供することにある。

【０００５】

【課題を解決するための手段】本発明の第１の態様に係
る方法においては、基準となる参照データと識別対象と
なる観測データとの因果的な相関度合いを示す平均相互
情報量を求め、この平均相互情報量に基づいて、参照デ
ータと観測データの類似度を判定する。

【０００６】また、本発明の第２の態様に係るシステム
は、基準となる参照データと識別対象となる観測データ
との因果的な相関度合いを示す平均相互情報量を求める
演算装置と；演算回路によって算出された平均相互情報
量に基づいて、参照データと観測データの類似度を判定
する判定装置とを含む。

【０００７】更に、本発明の第３の態様はコンピュータ
読みとり可能な記録媒体であり、基準となる参照データ
と識別対象となる観測データとの因果的な相関度合いを
示す平均相互情報量を求める手順と；求められた平均相
互情報量に基づいて、参照データと観測データの類似度
を判定する手順とをコンピュータに実行させるためのプ
ログラムを記録している。

【０００８】ここで、平均相互情報量とは、二つの事象
系の確率分布関数から求められ、事象系間の因果的相関
関係を表すものである。平均相互情報量を用いて音響信
号処理を行う場合、予め登録された音響信号と新たに観
測された音響信号を事象系とし、それぞれの確率分布関
数から平均相互情報量を算出して二つの音響信号の因果
的相関関係を表す。平均相互情報量に基づいた音響信号
処理においては、音響信号から推定した周波数パワース
ペクトルから度数分布（ヒストグラム）を作成し、これ
を確率分布関数として音響信号の特徴とする。このた
め、音響信号から得られるパワースペクトルについて、
パワースペクトルの特徴を再抽出する必要がない。全周
波数領域のパワースペクトルから音響信号の特徴を抽出
することができ、スペクトル成分中の重要な音響信号の
特徴を正確に抽出することが可能となる。

【０００９】本発明の各態様において、例えば、参照デ
ータ及び観測データのパワースペクトルに基づいて各々
のヒストグラムを生成する。そして、参照データのヒス
トグラムと観測データのヒストグラムとに基づいて、参
照データと観測データの平均相互情報量を求める。好ま
しくは、参照データ及び観測データを各々事象系Ｘ，事
象系Ｙとし、周波数およびパワースペクトルを軸とする
２次元のヒストグラムを二分法によって各々生成する。

【００１０】相互情報量を計算するには、本来ｘ，ｙの
分布関数を知る必要があるが、数学的に無限個のデータ
が無いとこの分布関数はできない。そこで、本発明にお
いては、この分布関数を有限個のデータのヒストグラム
で近似する。これにより、各区間ごとに確率を近似で
き、各区間ごとの相互情報量を求めることが可能とな
る。これを全区間に拡大するために、全区間にわたり、
各区間の相互情報量の平均をとった値として平均相互情
報量を求める。

【００１１】更に、本発明の各態様において、複数の異
なる共振周波数を有するカンチレバーによって構成され
る共振子アレイセンサをデータ入力デバイスとして使用
し、参照データ及び観測データのパワースペクトルを直
接求めることが好ましい。

【００１２】

【発明の実施の形態】以下、本発明の実施の形態につい
て、音声入力用デバイスとして音声入力用マイクロフォ
ンと、共振子アレイセンサを用いた２つの場合を例にと
って説明する。なお、本発明の対象となる信号として
は、音響信号のほかに、画像信号などの時系列的に変化
する各種の信号がある。そして、本発明は、音声認識、
話者認識、故障診断、異常検出などに応用できるもので
ある。故障診断としては、例えば、機械、自動車、飛行
機などの大型機械のほかに、ＣＤ−ＲＯＭ又はＣＤ−Ｒ
／ＲＷドライブやハードディスクドライブなどの精密機
械がある。また、本発明の形態（カテゴリー）として
は、信号処理方法；装置；ソフトウエアそのもの；ソフ
トウエアをコンピュータによって読みとり可能な状態で
記憶した記録媒体；通信回線などによって伝送されるプ
ログラムデータ等のあらゆる形態を含むものである。

【００１３】最初に、音声識別の対象となる人物の音声
信号を音声入力用マイクロフォンから入力する場合につ
いて説明する。音声入力用マイクロフォンを用いる場
合、入力された音声信号をＡ／Ｄ（アナログ／ディジタ
ル）変換し、適当な標本化間隔で検出された標本点N個
の音声信号ｈ（ｋ）、ｋ＝０，１，２，・・・、Ｎ−１
からパワースペクトルを推定する。パワースペクトル推
定を行った後、所定の範囲の周波数領域でのパワースペ
クトルからヒストグラムを生成し、登録する。その後、
新たに計測した音声信号においても上記と同様にして入
力、変換を行い、周波数領域のパワースペクトルからヒ
ストグラムを生成する。音声入力用マイクロフォンから
のパワースペクトルの推定は、例えば、高速フーリエ変
換アルゴリズム（ＦＦＴ）などを基に実行可能である。

【００１４】次に、（１）音声識別の対象となる人物に
ついて予め登録しておいたヒストグラムと、（２）新た
に計測した人物のパワースペクトルから作成したヒスト
グラムと、から平均相互情報量を求める。そして、この
平均相互情報量から因果的相関関係を求め、「予め登録
しておいた人物と新たに計測した人物とは同一人物であ
る」または、「予め登録しておいた人物と新たに計測し
た人物は一致しない」という判定をする。

【００１５】音声入力デバイスとして音声入力用マイク
ロフォンを用いた場合の平均相互情報量を求めるアルゴ
リズムは以下の通りである。予め登録しておいた周波数
パワースペクトルデータを X{f(n), Z(n)} とし、新た
に計測した周波数パワースペクトルデータを Y{f’(n),
Z’(n)} とする。ここで、f(n) は周波数成分、Z(n)は
f(n)におけるパワースペクトル密度を示す。また、f'
(n)は周波数成分、Z'(n)はf'(n)におけるパワースペク
トル密度を示す。次に、予め登録しておいた周波数パワ
ースペクトルデータを事象系X X{f(0),Z(0)},X{f(1),Z(1)1},X{f(2),Z(2)},…,X{f(N-
1),Z(N-1)}とし、新たに計測した周波数パワースペクト
ルデータを事象系Y Y{f'(0),Z'(0)},Y{f'(1),Z'(1)},Y{f'(2),Z'(2)},...,Y
{f'(N-1),Z'(N-1)}とする。

【００１６】それぞれの事象系（Ｘ，Ｙ）について、周
波数およびパワースペクトルを軸とする２次元のヒスト
グラムを二分法によって生成する。生成するヒストグラ
ムは周波数情報を含まず、パワースペクトルのみから成
るmeasure space histogramと呼ばれる。

【００１７】二分法のアルゴリズムは、以下の通りであ
る。通常、ある１つのデータを２次元の度数分布にプロ
ットするときグリッド数をＮとすると、当てはまるグリ
ッドを求めるためには約（Ｎ／２）^２の計算を行わなけ
ればならない。二分法を用いて度数分布のグリッドを２
進数表示すると計算回数を大幅に減らすことができ、処
理速度を向上させることができる。実際のアルゴリズム
は、まず、Ｎ＝２^ｍ個のグリッドを持つ度数分布におい
てデータの値をｍビットの２進数表示する。次に、デー
タの最大値＋θ、最小値−θをグリッドの右端と左端に
とる。θは非常に小さい値にし、最大値及び最小値とも
に格納できるようにする。このときグリッドの右端と左
端の中点よりもデータの値が大きいとき、最上位ビット
に１を代入して、グリッドの左端を中点で置き換える。
逆にグリッドの右端と左端の中点よりもデータの値が小
さいときは、最上位ビットに０を代入して、グリッドの
右端を中点で置き換える。新たに右端と左端が決まった
後、同じ処理を最下位ビットに値が格納されるまで行
う。このようにしてｍ回の計算でデータの値をグリッド
に格納することが可能となる。２次元の度数分布におい
ては、2log₂Ｎ回の計算回数となる。図６に３ビットの
二分法の例を示す。

【００１８】次に、これらのヒストグラムから２つの事
象系（Ｘ，Ｙ）の周波数およびパワースペクトルの４つ
の軸を有する４次元の結合ヒストグラムを生成し、これ
ら３つのヒストグラムからそれぞれの事象の出現確率を
求める。この出現確率から以下の式に従って、事象系
（Ｘ，Ｙ）の情報エントロピーＨ（Ｘ），Ｈ（Ｙ）を求
める。

【００１９】

【数1】

【００２０】

【数２】

【００２１】また、4次元の結合ヒストグラムから結合
情報エントロピーＨ（Ｘ，Ｙ）を、以下の式に従って求
める。ここで、P{X(i), Y(i)}は、事象X{f(i), Z(i)}と
事象Y{f'(j), Z'(j)}との結合確率である。

【００２２】

【数３】

【００２３】これらの値を用いて事象系Yが事象系Xにつ
いての情報をどれだけ含んでいるか、観測された事象系
Yが登録された事象系Xのうちのどの事象系と因果的な相
関が強いかを示す平均相互情報量 I(X:Y) を、以下の式
に従って求める。

【００２４】

【００２５】平均相互情報量とは、二つの事象系の確率
分布関数から求められ、事象系間の因果的相関関係を表
すものである。相互情報量を計算するには、本来ｘ，ｙ
の分布関数を知る必要があるが、数学的に無限個のデー
タが無いとこの分布関数はできない。そこで、本発明に
おいては、この分布関数を有限個のデータのヒストグラ
ムで近似する。これにより、各区間ごとに確率を近似で
き、各区間ごとの相互情報量を求めることが可能とな
る。これを全区間に拡大するために、全区間にわたり、
各区間の相互情報量の平均をとった値として平均相互情
報量をもとめる。

【００２６】平均相互情報量を用いて音響信号処理を行
う場合、予め登録された音響信号と新たに観測された音
響信号を事象系とし、それぞれの確率分布関数から平均
相互情報量を算出して二つの音響信号の因果的相関関係
を表す。平均相互情報量に基づいた音響信号処理におい
ては、音響信号から推定した周波数パワースペクトルか
ら度数分布（ヒストグラム）を作成し、これを確率分布
関数として音響信号の特徴とする。このため、音響信号
から得られるパワースペクトルについて、パワースペク
トルの特徴を再抽出する必要がない。全周波数領域のパ
ワースペクトルから音響信号の特徴を抽出することがで
き、スペクトル成分中の重要な音響信号の特徴を正確に
抽出することが可能となる。

【００２７】なお、パワースペクトル密度を1ビットで
表現する、すなわち、2値化すると、パワースペクトル
密度が、Z(n)=1となる周波数成分だけが重要な音声特徴
を形成することになる。この場合には、２次元ヒストグ
ラムは１次元に、４次元ヒストグラムは２次元に低次元
化される。

【００２８】上述したように、予め登録しておいた人物
の音声信号と新たに計測した人物の音声信号との照合
は、計測した音声信号が登録された音声信号の情報をど
の程度含んでいるか平均相互情報量により評価すること
で容易に行える。

【００２９】平均相互情報量の閾値を定め、登録された
パワースペクトルと計測されたパワースペクトルとの平
均相互情報量が閾値を超えるならば二人は同一人物とみ
なす。閾値を超えないならば二人は異なった人物である
と判定する。

【００３０】次に、共振子アレイセンサを音声入力デバ
イスとして用いた場合について説明する。共振子アレイ
センサは、複数の異なる共振周波数を有するカンチレバ
ーを集合したものであり、同時に複数の周波数に参照信
号をセンシングできる。そして、共振子アレイセンサの
出力は直接パワースペクトルを表すアナログ信号とな
る。このアナログ出力にＡ／Ｄ変換を施す。その後、マ
イクロフォンを用いた場合と同様に、量子化されたパワ
ースペクトルからヒストグラムを作成する。共振子アレ
イセンサを用いることにより、ＤＳＰ（ディジタル・シ
グナル・プロセッサ）を介さずに音声信号の特徴量（パ
ワースペクトル）を直接抽出することができる。

【００３１】さらに、平均相互情報量を求めるアルゴリ
ズムは以下のとおり。音声入力用マイクロフォンを用い
た時と同様に、音声入力デバイスとして予め登録してお
いた周波数パワースペクトルデータをX{f(n),Z(n)}、新
たに計測した周波数パワースペクトルデータをY{f'(n),
Z'(n)}とみなす。予め記憶しておいた周波数パワースペ
クトルデータを事象系Ｘ X{f(0),Z(0)},X{f(1),Z(1)},X{f(2),Z(2)},….,X{f(N-
1),Z(N-1)} 新たに計測した周波数パワースペクトルデータを事象系
Ｙ Y{f'(0),Z'(0)},Y{f'(1),Z'(1)},Y{f'(2),Z'(2)},...,Y
{f'(N-1),Z'(N-1)}とおく。以降の判定処理について
は、マイクロフォンを用いた場合と同様である。

【００３２】共振子アレイセンサを音響信号入力デバイ
スとして用いることにより、音響信号から直接パワース
ペクトルの推定が行え、また推定されたパワースペクト
ルからヒストグラムを作成することで処理速度の向上を
図ることができる。

【００３３】

【具体的な形態】以下、本発明の音声入力デバイスとし
て音声入力用マイクロフォンと共振子アレイセンサを用
いた２つの実施の形態を具体的に説明する。

【００３４】図１は、本発明の話者認識システムの構成
を示すブロック図である。第１の形態に係る話者認識シ
ステムは、音声測定器１として、音声入力用マイクロフ
ォンを使用する。測定器１に人物の音声信号を入力す
る。測定器１の出力は、アナログ/ディジタル（Ａ／
Ｄ）変換器２においてディジタル信号に変換される。こ
のディジタル信号は、コンピュータ３に備えられたメモ
リ３２に、時系列データとして記憶される。

【００３５】メモリ３２に記憶された時系列データは、
中央処理装置３１によって演算部３３に送られる。演算
部３３は、後述するように平均相互情報量を算出し、そ
れを判断部３４に供給する。判断部３４には、予め閾値
が設定してあり、演算部３３から与えられた平均相互情
報量とその閾値を比較する。そして、平均相互情報量が
閾値以上であった場合は二つの音声信号は同じで二人は
同一人物であると判断して、出力部３５から外部装置４
へ認識された話者のコードを出力する。

【００３６】図２及び図３は、図１に示したコンピュー
タ３による話者認識の手順を示すフロ一チャートであ
る。コンピュータ３の演算部３３にはデータ数N、標本
化間隔△、ヒストグラムのグリッド数等が設定してあ
る。また、判断部３４には平均相互情報量の閾値が設定
してある（ステップＳ１）。コンピュ一タ３のメモリ３
２は、Ａ／Ｄ変換器２から与えられたディジタル信号を
時系列データとして記憶する(ステップＳ２、Ｓ３)。メ
モリ３２に記憶された時系列データは、中央処理装置３
１によって演算部３３に与えられる。

【００３７】上記の動作をまとめると、音声識別の対象
となる人物の音声信号を入力し、Ａ／Ｄ変換を行った
後、標本化間隔が△、標本点N個の音声時系列データと
してh(k),k=0,1,2,…,N-1をメモリ３２に記憶する(ステ
ップＳ１，Ｓ２，Ｓ３)。

【００３８】演算部３３は、データの特徴を表すものと
して、データを周波数領域におけるパワースペクトルに
変換する。パワースペクトルの推定方法としては、音声
時系列データに高速フーリエ変換を施し、データを周波
数スペクトル特性H(n)に変換した後、パワースペクトル
密度Z(n)＝｜H(n)｜²を求める方法がある。ただし、パ
ワースペクトルの推定方法は、フーリエ変換に限定され
るものではない。次に、音声時系列データの周波数及び
パワースペクトルを変数とするX{f(n),Z(n)}の集合 X{f(0),Z(0)},X{f(1),Z(1)},X{f(2),Z(2)},….,X{f(N-
1),Z(N-1)} を１つの事象系（Ｘ）と考え、この事象系
Ｘから得られる周波数f(n)及びパワースペクトル密度Z
(n)を軸とする２次元ヒストグラムを生成し、参照デー
タとして登録する（ステップＳ４，Ｓ５）。

【００３９】次に、演算部３３は、計測された音声時系
列データについて上記と同様に入力、高速フーリエ変換
を施し、周波数f'(n)及びパワースペクトルZ'(n)を変数
とするY{f'(n),Z'(n)}の集合 Y{f'(0),Z'(0)},Y{f'(1),Z'(1)},Y{f'(2),Z'(2)},…,Y
{f'(N-1),Z'(N-1)}を１つの、事象系（Ｙ）と考え、こ
の事象系Ｙから得られる周波数及びパワースペクトルを
軸とする２次元ヒストグラムを生成する。(ステップＳ
６，Ｓ７，Ｓ８，Ｓ９)。

【００４０】次に、予め参照データとして登録してある
ヒストグラムにおいて周波数及びパワースペクトルを変
数とするX{f(n),Z(n)}を確率変数として出現確率p[X{f
(n),Z(n)}]から、事象系Xの情報エントロピーH(X)を求
める。その後、計測データから得られたヒストグラムに
おいてY{f'(n),Z'(n)}を確率変数として出現確率p[X{f'
(n),Z'(n)}]から事象系Yの情報エントロピーH（Y）を求
める。次に、登録された事象系Xと計測された事象系Yと
の間における結合エントロピーH（X,Y）を、登録された
事象系Xと計測された事象系Yのヒストグラムから求め
る。そして、これら３つの情報エントロピーに基づき、
計測された音声が登録された音声のうちのどの音声と因
果的相関関係が強いかを示す平均相互情報量を求める
（ステップＳ１０，Ｓ１１）。

【００４１】演算部３３は、求めた平均相互情報量を判
断部３４に与える。判断部３４は、演算部３３から与え
られた平均相互情報量と予め設定された閾値とを比較す
る（ステップＳ１２）。そして、平均相互情報量が閾値
を超えるならば２つの音声は同一である（この二人は同
一人物である）と判断し（ステップＳ１３）、出力部３
５から外部装置４へ認識された話者のコードを出力させ
る（ステップＳ１４）。

【００４２】次に、本発明の第２の実施形態について説
明する。図４及び図５は、コンピュータ３における第２
の実施形態よる話者認識の手順を示す。本実施形態にお
いては、音声測定器１として、共振子アレイセンサを使
用する。共振子アレイセンサに人物の音声信号を入力す
る。共振子アレイセンサを用いることにより、その出力
として直接パワースペクトルの推定を行う。出力として
のパワースペクトルは、アナログ／ディジタル（Ａ／
Ｄ）変換器２においてディジタル化され、コンピュータ
３に備えられたメモリ３２に保持される。

【００４３】メモリ３２に記憶されたパワースペクトル
データは、中央処理装置３１によって演算部３３に与え
られる。演算部３３は、第１の実施形態（音声入力デバ
イスとして音声入力用マイクロフォンを用いた場合）と
同様に、参照する音声信号のパワースペクトルからヒス
トグラムを生成、登録する。そして、計測された音声信
号のパワースペクトルから同じくヒストグラムを生成す
る。得られたヒストグラムから、第１の実施形態と同様
に、平均相互情報量を算出する。求めた平均相互情報量
と予め設定しておいた閾値と比較し、平均相互情報量が
閾値以上であった場合は二つの音声は同じで二人は同一
人物であると判定し、出力部３５から外部装置４へ認識
された話者のコードを出力する。

【００４４】本実施形態においては、Ａ／Ｄ変換器で離
散化を行った音声信号にＤＳＰを介してパワースペクト
ルを推定するのではなく、共振子アレイセンサを用いる
ことにより、アナログ音声信号から直接にパワースペク
トルを推定できる。さらにパワースペクトル密度を１ビ
ットで表現する、すなわち、２値化することでパワース
ペクトルをヒストグラムと見做せる。アナログ音声信号
から直接パワースペクトルを推定し、パワースペクトル
を直接ヒストグラムとすることにより処理速度の向上が
可能となる。

【００４５】

【実施例】次に、本発明による話者認識の２つの実施例
（実験例）について説明する。第１の実施例は、一人の
女性F及び二人の男性Ａ，Ｂの三人の母音をマイクロフ
ォンに入力して話者認識を行う事例である。音声入力
後、Ａ／Ｄ変換によりデータをディジタル化し、周波数
領域１５０Ｈｚ〜４０００Ｈｚにおけるパワースペクト
ルに変換する。サンプリング周波数は２０ＫＨｚ、ディ
ジタル化精度は５ビットである。

【００４６】こうしてディジタル化された信号をコンピ
ュータに送信し、高速フーリエ変換によりパワースペク
トルを推定する。女性Ｆ、男性Ａ，Ｂについて予め計測
された母音音声信号から周波数及びパワースペクトル密
度を軸とする２次元ヒストグラムを生成し、参照データ
としてこのヒストグラムを登録する。

【００４７】このパワースペクトルを求める過程におい
て、音声信号の急激な立ち上がり及び立ち下がりを防止
するために、適切な窓関数を用いる。これにより、パワ
ースペクトルの算出誤差が低滅できる。また、データを
より広いレンジで得るために、パワースペクトル及び周
波数について対数変換を行なう。ただし、パワースペク
トルの推定方法及び窓関数の使用は、これらに限定され
るものではない。

【００４８】女性Ｆ、男性Ａ，Ｂのそれぞれの母音の周
波数及びパワースペクトルを変数とするX{f(n),Z(n)}の
集合を１つの事象系と考え、音声時系列データから得ら
れたX{f(n),Z(n)}を確率変数とする。そして、参照デー
タとして登録したヒストグラムから出現確率p[X{f(n),Z
(n)}]を求め、さらにこの事象系の情報エントロピーH
(X)を求める。

【００４９】次に、計測された女性Ｆ、男性Ａ，Ｂの母
音における音声時系列データについて、上記と同様にし
て周波数及びパワースペクトル密度を軸とする２次元ヒ
ストグラムを生成する。さらに生成したヒストグラムか
らp[Y{f'(n),Z'(n)}]を計算し、情報エントロピーH(Y)
を求める。また、登録された事象系X{f(n),Z(n)}と計測
された事象系Y{f'(n),Z'(n)}との間における結合エント
ロピーH(X,Y)を求める。これら三つの情報エントロピー
に基づき、計測された事象系Y{f'(n),Z'(n)}と登録され
た事象系X{f(n),Z(n)}との因果的な相関関係を示す平均
相互情報量を求める。

【００５０】このように、計測された音声信号が登録さ
れたどの音声信号と因果的な相関が強いかを調べる。こ
の実施例では、計測された音声信号と登録された音声信
号が同一であると判別する閾値を６ビット以上と定め
る。

【００５１】判定例を表１，表２，表３に示す。表１は
同一人物の同一音声における平均相互情報量、表２は女
性Ｆと男性Ａの音声における平均相互情報量、表３は男
性ＡとＢの音声における平均相互情報量である。

【００５２】

【表１】

【００５３】

【表２】

【００５４】

【表３】

【００５５】表１，表２，表３から、同一人物の同一音
声における平均相互情報量はすべて６ビットを越え、話
者の識別が可能である。

【００５６】第２の実施例は、女性Ｆ、男性Ａ，Ｂの母
音における音声信号の入力として共振子アレイセンサを
用いる話者認識である。音声信号のセンシング及びパワ
ースペクトルヘの変換のプロセスを同時に行うものとし
て、Fish bone構造を利用した共振子アレイセンサを用
いる。

【００５７】共振子アレイセンサの出力は、アナログ信
号のパワースペクトルであるため、出力信号にＡ／Ｄ変
換を行い離散化する。この実施例では、パワースペクト
ルを２値化してヒストグラムを作成し、参照データとし
て登録する。同様にして計測された音声信号からヒスト
グラムを生成する。前記の実施例と同様にして、登録さ
れた音声と計測データとの因果的相関の程度を平均相互
情報量で評価する。求められた平均相互情報量を予め設
定しておいた閾値と比較し、話者認識を実施する。

【００５８】以上、本発明の実施例（実施形態、実施態
様）について説明したが、本発明はこれらの実施例に何
ら限定されるものではなく、特許請求の範囲に示された
技術的思想の範疇において変更可能なものである。

【００５９】

【発明の効果】本発明は、パワースペクトル間の因果的
相関を相互情報量で直接評価する手法を採用しているた
めに、推定精度が向上するという格別の効果がある。ま
た、音声入力デバイスとして共振子アレイセンサを用い
た場含には、機械的共振現象の利用により音声計測の実
時間性及び高感度性の向上を図ることが可能となる。

【図面の簡単な説明】

【図１】図１は、本発明にかかる話者認識システムの構
成を示すブロック図である。

【図２】図２は、音声入力デバイスとして音声入力用マ
イクロフォンを用いたケースでの、図１に示したコンピ
ュータによる話者認識手順を示すフローチャートであ
る。

【図３】図３は、音声入力デバイスとして音声入力用マ
イクロフォンを用いたケースで、図１に示したコンピュ
ータによる話者認識手順を示すフローチャートである。

【図４】図４は、音声入力デバイスとして共振子アレイ
センサを用いたケースで、図１に示したコンピュータに
よる話者認識手順を示すフローチャートである。

【図５】図５は、音声入力デバイスとして共振子アレイ
センサを用いたケースで、図１に示したコンピュータに
よる話者認識手順を示すフローチャートである。

【図６】図６は、音響信号の２次元のヒストグラムを生
成するのに用いられる二分法のアルゴリズムを示す説明
図である。

【符号の説明】

１測定器（音声入力用マイクロフォン、共振子ア
レイセンサ）３コンピュータ３１中央処理装置３２メモリ３３演算部３４判断部

───────────────────────────────────────────────────── フロントページの続き (72)発明者原田宗生兵庫県尼崎市扶桑町１番８号住友金属工業株式会社内Ｆターム(参考） 5D015 HH04

Claims

【特許請求の範囲】

【請求項１】時系列的に変化する信号を識別する方法に
おいて、基準となる参照データと識別対象となる観測データとの
因果的な相関度合いを示す平均相互情報量を求める工程
と；前記平均相互情報量に基づいて、前記参照データと
観測データの類似度を判定する工程とを含むことを特徴
とする信号識別方法。
【請求項２】前記平均相互情報量を求める工程は、前記
参照データのパワースペクトルを生成する手順と；前記
参照データのパワースペクトルに基づいて当該参照デー
タのヒストグラムを生成する手順と；前記観測データの
パワースペクトルを生成する手順と；前記観測データの
パワースペクトルに基づいて当該観測データのヒストグ
ラムを生成する手順と；前記参照データのヒストグラム
と観測データのヒストグラムとに基づいて、前記参照デ
ータと観測データの平均相互情報量を求める手順とを含
み、前記平均相互情報量を所定の基準値と比較することによ
って、前記参照データと観測データとの類似度を判定す
ることを特徴とする請求項１に記載の信号識別方法。
【請求項３】前記参照データ及び観測データを各々事象
系Ｘ，事象系Ｙとし、周波数およびパワースペクトルを
軸とする２次元のヒストグラムを二分法によって各々生
成することを特徴とする請求項２に記載の信号識別方
法。
【請求項４】複数の異なる共振周波数を有するカンチレ
バーによって構成される共振子アレイセンサを用い、当
該センサによって前記参照データ及び観測データのパワ
ースペクトルを直接求めることを特徴とする請求項１，
２又は３に記載の信号識別方法。
【請求項５】前記参照データ及び観測データは、音響デ
ータ又は画像データであることを特徴とする請求項１，
２，３又は４に記載の信号識別方法。
【請求項６】時系列的に変化する信号を識別するシステ
ムにおいて、基準となる参照データと識別対象となる観測データとの
因果的な相関度合いを示す平均相互情報量を求める演算
装置と；前記演算回路によって算出された平均相互情報
量に基づいて、前記参照データと観測データの類似度を
判定する装置とを含むことを特徴とする信号識別装置。
【請求項７】前記演算装置は、前記参照データ及び観測
データのパワースペクトルを生成する測定器と；前記参
照データ及び観測データのパワースペクトルに基づいて
各データのヒストグラムを生成し、前記参照データのヒ
ストグラムと観測データのヒストグラムとに基づいて、
前記参照データと観測データの平均相互情報量を求める
演算部とを備え、前記判定装置は、前記平均相互情報量を所定の基準値と
比較することによって、前記参照データと観測データと
の類似度を判定することを特徴とする請求項６に記載の
システム。
【請求項８】前記測定器は、複数の異なる共振周波数を
有するカンチレバーによって構成される共振子アレイセ
ンサであり、当該センサによって前記参照データ及び観
測データのパワースペクトルを直接求めることを特徴と
する請求項７に記載のシステム。
【請求項９】前記演算装置は、前記参照データ及び観測
データを各々事象系Ｘ，事象系Ｙとし、周波数およびパ
ワースペクトルを軸とする２次元のヒストグラムを二分
法によって各々生成することを特徴とする請求項７又は
８に記載のシステム。
【請求項１０】前記参照データ及び観測データは、音響
データ又は画像データであることを特徴とする請求項
６，７，８又は９に記載のシステム。
【請求項１１】コンピュータに時系列的に変化する信号
を識別する手順を実行させるプログラムを記録したコン
ピュータ読みとり可能な記録媒体において、基準となる参照データと識別対象となる観測データとの
因果的な相関度合いを示す平均相互情報量を求める手順
と；前記平均相互情報量に基づいて、前記参照データと
観測データの類似度を判定する手順とを実行させるため
のプログラムを記録したコンピュータ読みとり可能な記
録媒体。
【請求項１２】前記平均相互情報量を求める手順は、前
記参照データのパワースペクトルを生成する手順と；前
記参照データのパワースペクトルに基づいて当該参照デ
ータのヒストグラムを生成する手順と；前記観測データ
のパワースペクトルを生成する手順と；前記観測データ
のパワースペクトルに基づいて当該観測データのヒスト
グラムを生成する手順と；前記参照データのヒストグラ
ムと観測データのヒストグラムとに基づいて、前記参照
データと観測データの平均相互情報量を求める手順とを
含み、前記類似度を判定する手順は、前記平均相互情報量を所
定の基準値と比較することによって実行されることを特
徴とする請求項１１に記載の記録媒体。
【請求項１３】前記参照データ及び観測データのパワー
スペクトルを、複数の異なる共振周波数を有するカンチ
レバーによって構成される共振子アレイセンサによって
直接求めることを特徴とする請求項１２に記載の記録媒
体。
【請求項１４】前記参照データ及び観測データを各々事
象系Ｘ，事象系Ｙとし、周波数およびパワースペクトル
を軸とする２次元のヒストグラムを二分法によって各々
生成することを特徴とする請求項１２又は１３に記載の
記録媒体。
【請求項１５】前記参照データ及び観測データは、音響
データ又は画像データであることを特徴とする請求項１
１，１２，１３又は１４に記載の記録媒体。