本発明は、情報検索装置及び方法に関するものであり、特に、音声データ又は音声画像データの検索を行うための情報検索装置及びその方法に関するものである。
近年のマルチメディアの普及とともに、大量のAV(Audio Visual)データを効率的に管理し、分類、検索、抽出などを行う必要性が増してきた。例えば、ある登場人物のシーンやその人物の会話シーンを大量のAVデータから検索したり、また、ある人物の会話シーンだけをAVデータから抽出して再生したりということが必要となっている。
従来は、このようなAVデータにおいて特定の話者が会話している時間軸上の位置の検索等を行う場合は、人間が直接AVデータを視聴しながら、その時間軸上の位置や区間を探す必要があった。
一方、音声の話者を識別する技術としては、自動話者識別・照合技術が研究されている。この技術についての従来の技術の概要を説明する。先ず、話者認識には、話者識別と話者照合がある。話者識別とは、入力された音声が予め登録された話者うちのどの話者であるかを判定するものであり、話者照合とは、入力された音声を予め登録された話者のデータと比較して本人であるか否かを判定するものである。また、話者認識には、認識時に発声する言葉(キーワード)が予め決められた発声内容依存型と、任意の言葉を発声して認識をする発生内容独立型がある。
一般的な音声認識技術としては、例えば次のような技術がよく用いられる。先ず、ある話者の音声信号の個人性を表す特徴量を抽出して、予め学習データとして記録しておく。照会・識別の際には、入力された話者音声を分析して、その個人性を表す特徴量を抽出して、学習データとの類似度を評価することで、話者の識別・照合を行う。ここで、音声の個人性を表す特徴量としては、ケプストラム(Cepstrum)等がよく用いられる。ケプストラムは、対数スペクトルをフーリエ逆変換したもので、その低次の項の係数によって音声スペクトルの包絡を表現できる。また、ケプストラム時系列の多項式展開係数をデルタケプストラムと呼び、これも音声スペクトルの時間的変化を表現する特徴量としてよく用いられる。この他、ピッチやデルタピッチ(ピッチの多項式展開係数)等も用いられることがある。
このようにして抽出されたLPC(Linear Predictive Coding)ケプストラム等の特徴量を標準パターンとして学習データを作成するが、その方法としては、ベクトル量子化歪みによる方法と隠れマルコフモデル(HMM:Hidden Markov Model)による方法が代表的である。
ベクトル量子化歪みによる方法では、予め話者ごとの特徴量をグループ化してその重心を符号帳(コードブック)の要素(コードベクトル)として蓄えておく。そして、入力された音声の特徴量を各話者のコードブックでベクトル量子化して、その入力音声全体に対する各コードブックの平均量子化歪みを求める。
そして話者識別の場合は、その平均量子化歪みの最も小さいコードブックの話者を選択し、話者照合の場合は、該当する話者のコードブックによる平均量子化歪みを閾値と比較して本人かどうかを判定する。
このように、従来の話者認識技術において、特徴量として音声のLPCケプストラムを抽出し、その特徴量のベクトル量子化歪みを利用して話者識別を行う方法について、詳しく説明する。
先ず、入力された音声信号をブロック単位にLPC分析(線形予測分析)を行い線形予測係数(LPC係数)を求める。分析ブロック長としては、音声では一般的に20〜30ミリ秒程度が用いられる。入力信号のサンプルxtを過去のP個のサンプルから以下の式(1)のように予測する。なお、一般的に線形予測の次数Pとしては、10〜20次程度が用いられる。
そして線形予測誤差ε=x't−xtを最小化する線形予測係数aiを最小二乗法によって求める。最小二乗法の解を求める方法としては、共分散法と自己相関法があり、特に自己相関法は、その係数行列の正定値性が保証されて解を必ず求めることができ、また、Durbinの再帰法によって効率的に求めることが可能であることから広く利用されている。求めたP個の線形予測係数により、推定される全極型音声モデルの生成関数は以下の式(2)のように表される。
ケプストラムは、音声の対数スペクトルの逆フーリエ変換であるから、LPC分析による音声モデルのケプストラムは、ケプストラムのフーリエ変換を C(ω)とすると、以下の式(3)で表される。
ここでフーリエ変換をZ変換に拡張して一般化すると、式(4)のように記述できる。
C(z)の逆Z変換ciは、複素ケプストラムと呼ばれている。ここで、LPC係数aiを直接複素ケプストラムciに変換する方法が知られている。すなわち、以下の式(5)、式(6)、式(7)のような漸化式から複素ケプストラムを順次求めることができる。このようにしてLPC分析から求めたcnを特にLPCケプストラムと呼ぶ。
次に、上述のようにして抽出した特徴量(LPCケプストラム等)にベクトル量子化を施し、その量子化歪みを利用して話者を識別する。基本的には、求めた特徴量ベクトルを複数の話者のコードブックでベクトル量子化を施し、その平均量子化歪みを最小にするコードブックを選出する。以下、詳しく説明する。
まずi番目のLPC分析ブロックにおけるP個の特徴量ベクトルxiを以下の式(8)とする。特徴量ベクトルの要素としては、たとえば、前述したような1〜P次のLPCケプストラムを用いる。
また、コードブックCBkのj番目のセントロイド(コードベクトル)rj kを以下の式(9)とする。
ここで、特徴量ベクトルxiとセントロイドrj kとの重み付距離を以下の式(10)のように定義する。
第iブロックのコードブックCBkによるベクトル量子化歪みdk(i)を以下の式(11)のように求める。
各ブロック毎のベクトル量子化歪みdk(i)を求め、さらに、話者認識区間の全ブロック(i=1,2,・・・L)における、コードブックCBkの平均量子化歪みDkを以下の式(12)のようにして求める。
この平均量子化歪みDkを最小にするコードブックCBk’を求め、そのコードブックに対応する話者を話者評価区間における話者として選出する。
一方、HMMによる方法では、上記と同様にして求めた話者の特徴量は、隠れマルコフモデル(HMM)の状態間の遷移確率と、各状態での特徴量の出現確率によって表現され、入力音声区間全体でモデルとの平均尤度によって判定をする。
また、予め登録されていない不特定話者が含まれる話者識別の場合は、上述した話者識別と話者照合とを組合せた方法によって判定する。すなわち、登録された話者セットから最も類似した話者を候補として選び、その候補の量子化歪み又は尤度を閾値と比較して本人かどうかを判定する。
話者照合又は不特定話者を含む話者識別において、本人の判定をするために、話者の尤度若しくは量子化歪みを閾値と比較して判定するが、その際、これらの値は特徴量の時期変動、発声文章の違い、雑音等の影響により、同一の話者であっても入力データと学習データ(モデル)とのばらつきが大きく、一般的にその絶対値に閾値を設定しても安定して十分な認識率が得られない。
そこで、HMMにおける話者認識においては、尤度を正規化することが一般的に行われる。例えば、以下の式(13)に示すような対数尤度比LRを判定に用いる方法がある。
式(13)において、L(X/Sc)は、照合対象話者Sc(本人)の入力音声Xに対する尤度であり、L(X/Sr)は、話者Sc以外の話者Srの入力音声Xに対する尤度である。すなわち、入力音声Xに対する尤度に合わせて動的に閾値を設定することになり、発声内容の違いや時期変動に対して頑健となる。
或いはまた、事後確率の概念を用いて、以下の式(14)に示すような事後確立によって判定を行う方法も研究されている。ここで、P(Sc)、P(Sr)はそれぞれ話者Sc、Srの出現確率である。
これらのHMMを用いた尤度の正規化の方法は、後述する非特許文献4等に詳しく記されている。
一方、上述したHMMによる方法で述べた尤度を、特徴量の標準パターンと入力データから抽出した特徴量のマハラノビス距離によって求める方法もある。
入力データXの特徴量ベクトルxと特徴量の標準パターンのベクトルrとを用いて、入力データXの話者Sに対する尤度L(X/S)は、以下の式(15)のように求められる。
ここで、特徴量ベクトルxと特徴量の標準パターンのベクトルrとは、それぞれ以下の式(16)、式(17)のように与えられる。
式(15)において、Pはベクトル次数、Σは話者Sの特徴量データの共分散行列である。また、(x−r)TΣ−1(x−r)は、マハラノビス距離と呼ばれる。式(15)より、話者の特徴量の共分散係数を予め求めておけば、入力データXの尤度が求められる。また、これより、上述したような話者Scと話者Srの対数尤度比LRは、それぞれの話者のマハラノビス距離の差によって表現される。すなわち、上述したような話者照合のための尤度正規化において、対数尤度に閾値を設定することと、マハラノビス距離の差に閾値を設定することとは同等である。詳しくは、後述する非特許文献5等に記されている。
話者認識に関する従来技術について詳しくは、例えば、以下の特許文献1〜7や非特許文献1〜6等に記述されている。
特許文献1には、話者認識の技術を応用して、AVデータにおいて、同一話者の連続会話区間と話者切り換わり位置とを検出する技術が提案されている。この特許文献1に記載の技術では、AVデータの音声信号を小区間(1〜2秒程度)毎に話者グループに分類識別し、いくつかの連続した認識区間(数秒〜10秒程度)内において話者グループの判別頻度の変位を求め、その頻度が閾値を上回る位置又は閾値を下回る位置を検出することで、話者の切り換わり位置を検出し、話者が切り換わる間の区間をその話者の同一話者連続会話区間として検出している。
特開2002−169592号公報
特開2001−134613号公報
特開平10−097274号公報
特開平06−167990号公報
特開平11−203326号公報
特開平08−329013号公報
特開平04−082357号公報
古井:"ケプストラムの統計的特徴による話者認識", 信学論 volJ65-A, No.2 183-190(1982)
F.K.Soong and A.E.Rosenberg: "On the Use of Instantaneous and Transitional Spectral Information in Speaker Recognition.", IEEE Trans. ASSP, Vol.36, No.6, pp.871-879 (1988)
古井:"声の個人性の話",日本音響学会誌, 51,11, pp.876-881, (1995)
松井:"HMMによる話者認識", 信学技報, Vol.95, No.467, (SP95 109-116) pp.17-24 (1996)
THE DIGITAL SIGNAL PROCESSING HANDBOOK, IEEE PRESS (CRC Press),1998
杉山雅英,"音響情報の検索",電子情報通信学会技術研究報告,1999年6月17日,Vol.99,No.120,p.57-64
従来の話者認識技術は、セキュリティシステムなどにおける単一話者の識別・照合を主な応用として研究、開発されており、1つの音声データにおいて複数の話者が短時間で交互に発声をしたり、時折同時に発声したり、背景に音楽や雑音があったりといった実際の複雑な会話場面に適用できるものではなかった。従って、AVデータにおける話者の会話区間の検索を、従来の話者認識の技術によって自動的に行うとすると、その識別性能が著しく低下してしまうといった問題があった。
また、上述した特許文献1に記載されている技術では、数秒〜10秒程度の頻度評価区間ごとに判別頻度の変位によって話者の切り換わりを検出しているため、その評価区間の間は同一の話者がほぼ連続して会話をしている必要がある。すなわち、同一の話者が、評価区間長である10秒程度の時間の間、単独で連続的に会話をしており、その判別誤り率が十分に低い場合には適用できるが、複数の話者が短時間、例えば数秒以内に交互に発声をしたり、同時に発声することが多かったり、背景雑音や音楽などで話者の認識誤りが大きくなる場合には、話者の切り換わり位置を正確に検出できず、会話区間の検出を適切に行うことができないという問題があった。
さらに、特許文献1に記載の技術では、入力データを話者グループの何れかに割り当てる方法によって話者を識別しているため、登録されていない未知の話者であっても分類が行える一方で、話者の本人照合を行っていないために、分類誤りが起こりやすく、また、音声以外のデータが入力された場合でも何れかの話者グループに分類してしまうという問題があった。
このようなAVデータの話者検出において、未登録の話者や音声以外の入力データを誤って識別することを避ける手法として話者照合の技術があるが、従来の話者の尤度正規化による話者照合方法は、HMMを用いて尤度を求めた場合には適用できるが、より簡単に識別を行うことのできるベクトル量子化歪みを利用した識別方法ではそのまま適用できないという問題がある。
また、標準パターンからのマハラノビス距離を用いて尤度を求めるには話者の共分散係数などが既知でなければならず、計算も非常に複雑であり、さらにこの手法をベクトル量子化歪みを用いた場合に適用するのは、事前に共分散係数を求める等の複雑な計算を要するものであり、実用的なものではなかった。
本発明は、このような従来の実情に鑑みて提案されたものであり、自動的且つ効率的にAVデータにおける話者の会話区間を検出し、また、効率的に検索する情報検索装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る情報検索装置は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、所望の話者の検索条件を入力する検索条件入力手段と、入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力手段とを備える。
ここで、上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、上記判別の尺度として、そのベクトル量子化歪みを用い、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をすることが好ましい。さらに、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムを用いることが好ましい。
このような情報検索装置は、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を検索する。
また、上述した目的を達成するために、本発明に係る情報検索方法は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、所望の話者の検索条件を入力する検索条件入力工程と、入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力工程とを有する。
ここで、上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、上記判別の尺度として、そのベクトル量子化歪みを用い、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をすることが好ましい。さらに、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムを用いることが好ましい。
このような情報検索方法は、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を検索する。
上述のような情報検索装置によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
上述のような情報検索方法によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
本実施の形態における情報抽出装置の概念構成を説明する図である。
同情報抽出装置の構成例を説明する図である。
同情報抽出装置における話者出現頻度情報の記録形式の一例を説明する図である。
同情報抽出装置における頻度評価区間、話者認識ブロック及びLPC分析ブロックの関係を説明する図である。
同情報抽出装置の動作を説明するフローチャートである。
同情報抽出装置における話者認識ブロック単位での話者識別処理を説明するフローチャートである。
同情報抽出装置における話者照合判定処理を説明するフローチャートである。
同情報抽出装置における話者照合判定用の閾値データの記録形式の一例を説明する図である。
本実施の形態における情報検索装置の概念構成を説明する図である。
同情報検索装置の構成を説明する図である。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
先ず、本実施の形態における情報抽出装置の概念構成図を図1に示す。図1に示すように、情報抽出装置においては、情報源となる音声信号が話者識別手段1に入力され、ベクトル量子化歪みを評価して話者が識別される。
話者識別手段1によって識別された話者は、話者判別頻度計算手段2に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算される。求められた話者判別頻度は、話者の出現頻度情報として出力される。
この図1に示した情報抽出装置の具体的な構成例を図2に示す。図2に示すように、情報抽出装置10は、AV(Audio Visual)データの音声信号を入力する入力部11と、音声信号を分析してLPC(Linear Predictive Coding)ケプストラム係数を抽出するケプストラム抽出部12と、LPCケプストラム係数をベクトル量子化するベクトル量子化部13と、ベクトル量子化歪みを評価して話者を識別する話者識別部14と、認識された話者の判別頻度を用いて話者の出現頻度を求める話者判別頻度計算部15とを備える。
また、図2において、コードブック群CBは、ベクトル量子化に用いる各話者のコードブックデータが格納されたものであり、閾値表ファイルTFは、話者の判別を行うための閾値データが格納されたものであり、それぞれ図示しない記録部に記録されている。また、話者頻度ファイルSFは、区間毎の各話者の頻度が記録されたものである。
このように構成された情報抽出装置10の動作を以下に説明する。入力部11から入力されたAVデータの音声信号D11は、ブロック単位にケプストラム抽出部12に入力されて、LPC分析が施され、得られたLPC係数がLPCケプストラム係数に変換される。
得られたLPCケプストラム係数の一部D12は、ベクトル量子化部13に入力されて、コードブック群CBからの各話者のコードブックデータD13を用いてそれぞれベクトル量子化が施される。それぞれのコードブックでベクトル量子化された結果(量子化歪み)D14は、話者識別部14に入力されて評価され、さらに閾値表ファイルTFから読みこんだ閾値データD15を用いて、所定の認識ブロック毎に話者の識別及び判定を行う。
識別された話者D16は、話者判別頻度計算部15に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算される。求められた話者判別頻度は、話者の出現頻度情報D17として、例えば図3に示すような記録形式で各AVデータ毎、各話者毎、各評価区間毎に話者頻度ファイルSFに記録される。なお、話者頻度ファイルSFは、図示しない送受信部により通信回線を介して通信されるものであってもよく、また、磁気ディスク、光磁気ディスク等の記録媒体や半導体メモリ等の記憶媒体等の蓄積媒体に蓄積されるものであってもよい。
図3の記録形式は、入力部11から入力された音声信号のAVデータ名と、登録された各話者を識別する識別名と、頻度区間の開始時刻と、同区間の終了時刻と、上記AVデータの上記頻度区間における上記話者の判別頻度とを情報として有する。この記録形式は、一例であり、図3に示した情報に限定されるものではない。
以下、図2及び図4を参照しながら、話者識別を行い話者判別頻度を求める際の処理について、さらに詳しく説明する。
入力されたAVデータの音声信号は、ケプストラム抽出部12において、図4に示すようなLPC分析ブロックAB単位にLPC分析が施されて、得られたLPC係数が変換されてLPCケプストラム係数が抽出される。LPC分析ブロックABのブロック長aは、音声信号の場合、通常20ミリ秒〜30ミリ秒程度がよく用いられる。また、分析性能を向上させるために隣接ブロックと若干オーバーラップさせることが多い。
図4の話者認識ブロックRBは、話者を識別する最小単位であり、このブロック単位に、話者の識別を行う。話者認識ブロックRBのブロック長bは、数秒程度が望ましい。従って、1つの話者認識ブロックRBは、50〜数百程度のLPC分析ブロックABを含んでいる。話者認識ブロックRBも、隣接区間と若干オーバーラップしていてもよい。オーバーラップ長は、通常、区間長の10%〜50%程度である。
図4の頻度区間FIは、話者の出現頻度を求める評価単位であり、同区間内において、各話者認識ブロックRBで識別された話者の判別頻度に基づいて各話者の出現頻度を求める。頻度区間FIIの区間開始時刻はSI、区間終了時刻はEIであり、区間長(EI‐SI)は、数分〜数十分程度が適当である。また、評価区間も隣接区間と若干オーバーラップしていてもよい。
情報抽出装置10の動作を表すフローチャートを図5に示す。先ずステップS10において、初期化処理として、区間番号Iを0とする。区間番号Iとは、話者の頻度を求める頻度区間FIにつけた連続番号である。
次にステップS11において、上述した話者認識ブロックRB単位で話者候補を識別して話者候補を選定する。話者候補の選定方法については、後で詳述する。
ステップS12では、選定された話者候補が正しい話者か否かを照合判定する。すなわち、未知の不特定話者や、音声以外のデータが入力された場合、ステップS11で選定された候補話者は、入力音声に一番類似している話者を候補として選出するが、それが本当にその話者本人とは限らない。そこで、ステップS12では、ベクトル量子化歪みを評価し、図2に示した閾値表ファイルTFに記録された閾値データと比較することで、選定された話者候補本人のデータであるか否かの判定を行う。判定方法については、後で詳述する。ステップS12において、本人であると判定されれば、その話者候補をこの話者認識ブロックにおける話者として確定し、本人ではないと判定されれば、この話者認識ブロックにおける話者を未知話者として確定する。
続いてステップS13では、頻度区間FIIの最後の話者認識ブロックRBまで処理したか否かが判定される。ステップS13において、最後の話者認識ブロックRBでなければ、ステップS14において、次の話者認識ブロックRBに進み、ステップS11に戻る。ステップS13において、最後の話者認識ブロックRBであると判定されれば、ステップS15に進む。
ステップS15では、現在の頻度区間FIIにおける、それぞれの登録話者の判別頻度を出現頻度情報として求める。なお、未知話者と判定された話者認識ブロックRBは頻度の計算に含めない。求めた話者出現頻度は、図2に示した話者頻度ファイルSFに、図3のような記録形式で記録する。
ステップS16では、データの末尾に到達したか否かが判定される。データの末尾に到達している場合は、処理を終了し、データの末尾に到達していない場合は、ステップS17に進む。
ステップS17では、区間番号Iを1つ増やし、次の頻度区間に進み、ステップS11に戻る。
続いて、図5のステップS11における話者候補の識別方法の詳細を図6に示す。先ず、ステップS20において、上述したLPC分析ブロックABごとに音声データを入力データから読みこむ。
次にステップS21において、話者認識ブロックRBの最後のLPC分析ブロックABまで処理を終えたか否かを判定し、最後のLPC分析ブロックABの処理を終えている場合は、ステップS26に進む。ステップS21において最後のLPC分析ブロックABでない場合は、ステップS22に進む。
ステップS22では、得られたLPC分析ブロックABのデータを評価してこのブロックが音声ブロックであるか否かを判定する。ステップS22において、このLPC分析ブロックABが無音ブロック又は非音声ブロックであると判定されれば、このブロックの分析をスキップしてステップS25に進み、次のLPC分析ブロックABに進んでステップS20からの処理を行う。音声ブロックであるか否かの判定方法は、例えば、最も簡単な方法として、そのブロックのパワー平均及び最大値を評価して無音ブロックであるか否かの検出を行うだけでもよい。また、信号の平均パワー、ゼロ交差数、ピッチの有無、スペクトル形状等から分析して音声データであるか否かを判定する種々の方法があるが、本実施の形態では、特にその手法は限定せず、或いはこのステップを省略してもよい。
ステップS22において音声ブロックであると判定された場合は、次にステップS23において、このブロックのLPC分析を行い、得られたLPC係数を変換してLPCケプストラム係数を抽出する。ここでは、1次〜14次程度の低次のケプストラム係数を抽出する。
次にステップS24において、予め作成された複数のコードブックを用いて、ステップS23で得られたLPCケプストラム係数にそれぞれベクトル量子化を施す。それぞれのコードブックは登録された話者に一対一に対応する。ここで、コードブックCBkによるこのブロックのLPCケプストラム係数のベクトル量子化歪みをdkとする。
ステップS25では、次のLPC分析ブロックABに進み、ステップS20に戻り、同様にしてステップS20からステップS25の処理を繰り返す。
ステップS26では、話者認識ブロックRB全体にわたる各コードブックCBの量子化歪みdkの平均である平均量子化歪みDkを求める。
続いてステップS27では、平均量子化歪みDkを最小にする話者Sk’に対応するコードブックCBk’を選出し、ステップS28では、この話者Sk’を話者候補Scとして出力する。
このようにして、コードブックが登録されている話者のうち、最も入力データの音声が類似している話者を、その話者認識ブロックRBにおける話者候補Scとして選出する。
次に、図5のステップS12における話者候補Scの照合判定方法の詳細を図7に示す。先ずステップS30において、話者候補Scの平均量子化歪みをD0とする。次にステップS31において、話者候補Sc以外の各コードブックによる平均量子化歪みを小さい順に並び替え、そのうち、小さいものから順にn個を、D1,D2,・・・Dn(D0<D1<D2<・・・<Dn)とする。nの値は、任意に選択可能である。
続いてステップS32において、評価の尺度として、話者候補Scの量子化歪みD0とそれ以外のn個の量子化歪みについて、以下の式(18)又は式(19)を用いて歪差分量ΔDを求める。
式(18)、式(19)において、例えばnが1の場合は、話者候補Scに次いで量子化歪みが小さいD1とD0との量子化歪みの差を求めることになる。
続いてステップS33において、図2に示した閾値表ファイルTFから話者候補Scに対応する閾値データを読みこむ。
閾値表ファイルTFには、各登録話者ごとに、例えば図8のような形式で記録されている。すなわち、図8に示すように、各登録話者の話者識別名と、閾値データである量子化歪みの最大歪み絶対値Dmax及び最小歪み差分ΔDminが予め記録されている。
図7に戻り、ステップS34では、読みこんだ閾値データDmax,ΔDminを、求めたD0及びΔDと比較して判別する。すなわち、ステップS34において、量子化歪みの絶対値D0が閾値データDmaxよりも小さく、且つ、歪み差分ΔDが閾値データΔDminより大きければ、ステップS35に進み、本人であると判定し、候補を確定する。そうでなければ、ステップS36に進み、未知話者と判定し、候補を棄却する。このように、話者候補Scの平均量子化歪みD0と歪差分量ΔDとをそれぞれ閾値と比較することで、登録話者の音声データの識別誤りが減少し、また、登録話者以外の音声データを未知話者として判定することが可能となる。
以上説明したように、本実施の形態における情報抽出装置は、AVデータの音声信号中の話者の音声の特徴量に基づいて、話者認識ブロック毎に話者を識別すると共に、所定の区間における話者の出現頻度を検出し、話者の出現頻度情報を生成する。この出現頻度情報が通信回線又は記録媒体を介して後述する情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。
次に、本実施の形態における情報検索装置について説明する。先ず、情報検索装置の概念構成図を図9に示す。図9に示すように、情報検索装置においては、話者出現頻度読み込み手段3によって、上述した情報抽出装置にて生成された話者の出現頻度情報が読み込まれ、また、検索条件が、検索条件入力手段4に入力される。話者出現区間出力手段5は、これらの出現頻度情報と検索条件とに基づいて検索された話者出現区間情報を出力する。
この図9に示した情報抽出装置の具体的な構成例を図10に示す。図10に示すように、情報検索装置20は、検索条件を入力する条件入力部21と、入力された条件から情報を検索するデータ検索部22と、検索結果を出力する出力部23とを備える。また、話者頻度ファイルSFは、話者の出現頻度情報が記録されたものであり、上述した図3に示すような記録形式で情報が記録されている。
このように構成された情報検索装置20の動作を以下に説明する。条件入力部21はAVデータを検索するための検索条件を入力する。検索条件としては、例えば、所望の話者の名前や識別番号、その話者の会話頻度、検索対象とするAVデータ等が挙げられる。
入力された検索条件D22はデータ検索部22に入力されて、検索条件にあった情報が検索される。データ検索部22は、話者頻度情報ファイルSFを参照して話者の出現頻度情報D23を読込み、これを検索条件D22と比較し、検索結果D24を出力部23に供給する。出力部23は、この検索結果D24を話者出現区間情報D25として出力する。
このように、本実施の形態における情報検索装置は、通信回線又は記録媒体を介して入力したAVデータの音声信号中の所望の話者の出現頻度情報と入力した検索条件とを比較することにより、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
以上詳細に説明したように本発明に係る情報抽出装置は、所定の情報源から所望の情報を抽出するための情報抽出装置において、上記情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別する話者識別手段と、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求める話者判別頻度計算手段とを備え、上記頻度区間における上記話者の出現頻度情報を検出することを特徴としている。
ここで、情報抽出装置では、上記情報源の音声信号中の音声の類似性を評価する特徴量として、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法として、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられる。
また、情報抽出装置では、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報抽出装置によっては、音声信号中の話者の音声の特徴量に基づいて、ある評価区間毎に話者を識別すると共に、評価区間毎に判別された話者の頻度を求める区間である頻度区間における話者の出現頻度を検出し、話者の出現頻度情報を生成することができる。この出現頻度情報が通信回線又は記録媒体等を介して情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。
また、本発明に係る情報抽出方法は、所定の情報源から所定の情報を検索するための情報抽出方法において、上記情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別する話者識別工程と、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求める話者判別頻度計算工程とを有し、上記頻度区間における上記話者の出現頻度情報を検出することを特徴としている。
ここで、情報抽出方法では、上記情報源の音声信号中の音声の類似性を評価する特徴量として、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法として、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられる。
また、情報抽出方法では、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報抽出方法によっては、音声信号中の話者の音声の特徴量に基づいて、ある評価区間毎に話者を識別すると共に、評価区間毎に判別された話者の頻度を求める区間である頻度区間における話者の出現頻度を検出し、話者の出現頻度情報を生成することができる。この出現頻度情報が通信回線又は記録媒体等を介して情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。
また、本発明に係る情報検索装置は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である頻度区間で上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、所望の話者の検索条件を入力する検索条件入力手段と、入力された上記検索条件と上記記録媒体から読み出した情報とを比較して、検索条件に該当する情報を話者出現区間情報として出力する話者出現区間出力手段とを備えることを特徴としている。
ここで、上記話者の出現頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法としては、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられ、また、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報検索装置によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
また、本発明に係る情報検索方法は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である頻度区間で上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、所望の話者の検索条件を入力する検索条件入力工程と、入力された上記検索条件と上記記録媒体から読み出した情報とを比較して、検索条件に該当する情報を話者出現区間情報として出力する話者出現区間出力工程とを有することを特徴としている。
ここで、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法としては、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられ、また、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報検索方法によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
1 話者識別手段、2 話者判別頻度計算手段、3 話者出現頻度読み込み手段、4 検索条件入力手段、5 話者出現区間出力手段、10 情報抽出装置、11 入力部、12 ケプストラム抽出部、13 ベクトル量子化部、14 話者識別部、15 話者判別頻度計算部、20 情報検索装置、21 条件入力部、22 データ検索部、23 出力部