JP5136621B2

JP5136621B2 - 情報検索装置及び方法

Info

Publication number: JP5136621B2
Application number: JP2010232470A
Authority: JP
Inventors: 康裕戸栗; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-10-15
Filing date: 2010-10-15
Publication date: 2013-02-06
Anticipated expiration: 2021-06-12
Also published as: JP2011059703A

Description

本発明は、情報検索装置及び方法に関するものであり、特に、音声データ又は音声画像データの検索を行うための情報検索装置及びその方法に関するものである。

近年のマルチメディアの普及とともに、大量のＡＶ（Audio Visual）データを効率的に管理し、分類、検索、抽出などを行う必要性が増してきた。例えば、ある登場人物のシーンやその人物の会話シーンを大量のＡＶデータから検索したり、また、ある人物の会話シーンだけをＡＶデータから抽出して再生したりということが必要となっている。

従来は、このようなＡＶデータにおいて特定の話者が会話している時間軸上の位置の検索等を行う場合は、人間が直接ＡＶデータを視聴しながら、その時間軸上の位置や区間を探す必要があった。

一方、音声の話者を識別する技術としては、自動話者識別・照合技術が研究されている。この技術についての従来の技術の概要を説明する。先ず、話者認識には、話者識別と話者照合がある。話者識別とは、入力された音声が予め登録された話者うちのどの話者であるかを判定するものであり、話者照合とは、入力された音声を予め登録された話者のデータと比較して本人であるか否かを判定するものである。また、話者認識には、認識時に発声する言葉（キーワード）が予め決められた発声内容依存型と、任意の言葉を発声して認識をする発生内容独立型がある。

一般的な音声認識技術としては、例えば次のような技術がよく用いられる。先ず、ある話者の音声信号の個人性を表す特徴量を抽出して、予め学習データとして記録しておく。照会・識別の際には、入力された話者音声を分析して、その個人性を表す特徴量を抽出して、学習データとの類似度を評価することで、話者の識別・照合を行う。ここで、音声の個人性を表す特徴量としては、ケプストラム（Cepstrum）等がよく用いられる。ケプストラムは、対数スペクトルをフーリエ逆変換したもので、その低次の項の係数によって音声スペクトルの包絡を表現できる。また、ケプストラム時系列の多項式展開係数をデルタケプストラムと呼び、これも音声スペクトルの時間的変化を表現する特徴量としてよく用いられる。この他、ピッチやデルタピッチ（ピッチの多項式展開係数）等も用いられることがある。

このようにして抽出されたＬＰＣ（Linear Predictive Coding）ケプストラム等の特徴量を標準パターンとして学習データを作成するが、その方法としては、ベクトル量子化歪みによる方法と隠れマルコフモデル（HMM:Hidden Markov Model）による方法が代表的である。

ベクトル量子化歪みによる方法では、予め話者ごとの特徴量をグループ化してその重心を符号帳（コードブック）の要素（コードベクトル）として蓄えておく。そして、入力された音声の特徴量を各話者のコードブックでベクトル量子化して、その入力音声全体に対する各コードブックの平均量子化歪みを求める。

そして話者識別の場合は、その平均量子化歪みの最も小さいコードブックの話者を選択し、話者照合の場合は、該当する話者のコードブックによる平均量子化歪みを閾値と比較して本人かどうかを判定する。

このように、従来の話者認識技術において、特徴量として音声のＬＰＣケプストラムを抽出し、その特徴量のベクトル量子化歪みを利用して話者識別を行う方法について、詳しく説明する。

先ず、入力された音声信号をブロック単位にＬＰＣ分析（線形予測分析）を行い線形予測係数（ＬＰＣ係数）を求める。分析ブロック長としては、音声では一般的に２０〜３０ミリ秒程度が用いられる。入力信号のサンプルｘ_ｔを過去のＰ個のサンプルから以下の式（１）のように予測する。なお、一般的に線形予測の次数Ｐとしては、１０〜２０次程度が用いられる。

そして線形予測誤差ε＝ｘ'_ｔ−ｘ_ｔを最小化する線形予測係数ａ_ｉを最小二乗法によって求める。最小二乗法の解を求める方法としては、共分散法と自己相関法があり、特に自己相関法は、その係数行列の正定値性が保証されて解を必ず求めることができ、また、Durbinの再帰法によって効率的に求めることが可能であることから広く利用されている。求めたＰ個の線形予測係数により、推定される全極型音声モデルの生成関数は以下の式（２）のように表される。

ケプストラムは、音声の対数スペクトルの逆フーリエ変換であるから、ＬＰＣ分析による音声モデルのケプストラムは、ケプストラムのフーリエ変換をＣ（ω）とすると、以下の式（３）で表される。

ここでフーリエ変換をＺ変換に拡張して一般化すると、式（４）のように記述できる。

Ｃ（ｚ）の逆Ｚ変換ｃ_ｉは、複素ケプストラムと呼ばれている。ここで、ＬＰＣ係数ａ_ｉを直接複素ケプストラムｃ_ｉに変換する方法が知られている。すなわち、以下の式（５）、式（６）、式（７）のような漸化式から複素ケプストラムを順次求めることができる。このようにしてＬＰＣ分析から求めたｃ_ｎを特にＬＰＣケプストラムと呼ぶ。

次に、上述のようにして抽出した特徴量（ＬＰＣケプストラム等）にベクトル量子化を施し、その量子化歪みを利用して話者を識別する。基本的には、求めた特徴量ベクトルを複数の話者のコードブックでベクトル量子化を施し、その平均量子化歪みを最小にするコードブックを選出する。以下、詳しく説明する。

まずｉ番目のＬＰＣ分析ブロックにおけるＰ個の特徴量ベクトルｘ_ｉを以下の式（８）とする。特徴量ベクトルの要素としては、たとえば、前述したような１〜Ｐ次のＬＰＣケプストラムを用いる。

また、コードブックＣＢ_ｋのｊ番目のセントロイド（コードベクトル）ｒ_ｊ ^ｋを以下の式（９）とする。

ここで、特徴量ベクトルｘ_ｉとセントロイドｒ_ｊ ^ｋとの重み付距離を以下の式（１０）のように定義する。

第ｉブロックのコードブックＣＢ_ｋによるベクトル量子化歪みｄ_ｋ（ｉ）を以下の式（１１）のように求める。

各ブロック毎のベクトル量子化歪みｄ_ｋ（ｉ）を求め、さらに、話者認識区間の全ブロック（ｉ＝１，２，・・・Ｌ）における、コードブックＣＢ_ｋの平均量子化歪みＤ_ｋを以下の式（１２）のようにして求める。

この平均量子化歪みＤ_ｋを最小にするコードブックＣＢ_ｋ’を求め、そのコードブックに対応する話者を話者評価区間における話者として選出する。

一方、ＨＭＭによる方法では、上記と同様にして求めた話者の特徴量は、隠れマルコフモデル（ＨＭＭ）の状態間の遷移確率と、各状態での特徴量の出現確率によって表現され、入力音声区間全体でモデルとの平均尤度によって判定をする。

また、予め登録されていない不特定話者が含まれる話者識別の場合は、上述した話者識別と話者照合とを組合せた方法によって判定する。すなわち、登録された話者セットから最も類似した話者を候補として選び、その候補の量子化歪み又は尤度を閾値と比較して本人かどうかを判定する。

話者照合又は不特定話者を含む話者識別において、本人の判定をするために、話者の尤度若しくは量子化歪みを閾値と比較して判定するが、その際、これらの値は特徴量の時期変動、発声文章の違い、雑音等の影響により、同一の話者であっても入力データと学習データ（モデル）とのばらつきが大きく、一般的にその絶対値に閾値を設定しても安定して十分な認識率が得られない。

そこで、ＨＭＭにおける話者認識においては、尤度を正規化することが一般的に行われる。例えば、以下の式（１３）に示すような対数尤度比ＬＲを判定に用いる方法がある。

式（１３）において、Ｌ（Ｘ／Ｓ_ｃ）は、照合対象話者Ｓ_ｃ（本人）の入力音声Ｘに対する尤度であり、Ｌ（Ｘ／Ｓ_ｒ）は、話者Ｓ_ｃ以外の話者Ｓ_ｒの入力音声Ｘに対する尤度である。すなわち、入力音声Ｘに対する尤度に合わせて動的に閾値を設定することになり、発声内容の違いや時期変動に対して頑健となる。

或いはまた、事後確率の概念を用いて、以下の式（１４）に示すような事後確立によって判定を行う方法も研究されている。ここで、Ｐ（Ｓ_ｃ）、Ｐ（Ｓ_ｒ）はそれぞれ話者Ｓ_ｃ、Ｓ_ｒの出現確率である。

これらのＨＭＭを用いた尤度の正規化の方法は、後述する非特許文献４等に詳しく記されている。

一方、上述したＨＭＭによる方法で述べた尤度を、特徴量の標準パターンと入力データから抽出した特徴量のマハラノビス距離によって求める方法もある。

入力データＸの特徴量ベクトルｘと特徴量の標準パターンのベクトルｒとを用いて、入力データＸの話者Ｓに対する尤度Ｌ（Ｘ／Ｓ）は、以下の式（１５）のように求められる。

ここで、特徴量ベクトルｘと特徴量の標準パターンのベクトルｒとは、それぞれ以下の式（１６）、式（１７）のように与えられる。

式（１５）において、Ｐはベクトル次数、Σは話者Ｓの特徴量データの共分散行列である。また、（ｘ−ｒ）^ＴΣ^−１（ｘ−ｒ）は、マハラノビス距離と呼ばれる。式（１５）より、話者の特徴量の共分散係数を予め求めておけば、入力データＸの尤度が求められる。また、これより、上述したような話者Ｓ_ｃと話者Ｓ_ｒの対数尤度比ＬＲは、それぞれの話者のマハラノビス距離の差によって表現される。すなわち、上述したような話者照合のための尤度正規化において、対数尤度に閾値を設定することと、マハラノビス距離の差に閾値を設定することとは同等である。詳しくは、後述する非特許文献５等に記されている。

話者認識に関する従来技術について詳しくは、例えば、以下の特許文献１〜７や非特許文献１〜６等に記述されている。

特許文献１には、話者認識の技術を応用して、ＡＶデータにおいて、同一話者の連続会話区間と話者切り換わり位置とを検出する技術が提案されている。この特許文献１に記載の技術では、ＡＶデータの音声信号を小区間（１〜２秒程度）毎に話者グループに分類識別し、いくつかの連続した認識区間（数秒〜１０秒程度）内において話者グループの判別頻度の変位を求め、その頻度が閾値を上回る位置又は閾値を下回る位置を検出することで、話者の切り換わり位置を検出し、話者が切り換わる間の区間をその話者の同一話者連続会話区間として検出している。

特開２００２−１６９５９２号公報特開２００１−１３４６１３号公報特開平１０−０９７２７４号公報特開平０６−１６７９９０号公報特開平１１−２０３３２６号公報特開平０８−３２９０１３号公報特開平０４−０８２３５７号公報

古井："ケプストラムの統計的特徴による話者認識", 信学論 volJ65-A, No.2 183-190(1982) F.K.Soong and A.E.Rosenberg: "On the Use of Instantaneous and Transitional Spectral Information in Speaker Recognition.", IEEE Trans. ASSP, Vol.36, No.6, pp.871-879 (1988) 古井："声の個人性の話",日本音響学会誌, 51,11, pp.876-881, (1995) 松井："HMMによる話者認識", 信学技報, Vol.95, No.467, (SP95 109-116) pp.17-24 (1996) THE DIGITAL SIGNAL PROCESSING HANDBOOK, IEEE PRESS (CRC Press),1998 杉山雅英，"音響情報の検索"，電子情報通信学会技術研究報告，1999年6月17日，Vol.99，No.120，p.57-64

従来の話者認識技術は、セキュリティシステムなどにおける単一話者の識別・照合を主な応用として研究、開発されており、１つの音声データにおいて複数の話者が短時間で交互に発声をしたり、時折同時に発声したり、背景に音楽や雑音があったりといった実際の複雑な会話場面に適用できるものではなかった。従って、ＡＶデータにおける話者の会話区間の検索を、従来の話者認識の技術によって自動的に行うとすると、その識別性能が著しく低下してしまうといった問題があった。

また、上述した特許文献１に記載されている技術では、数秒〜１０秒程度の頻度評価区間ごとに判別頻度の変位によって話者の切り換わりを検出しているため、その評価区間の間は同一の話者がほぼ連続して会話をしている必要がある。すなわち、同一の話者が、評価区間長である１０秒程度の時間の間、単独で連続的に会話をしており、その判別誤り率が十分に低い場合には適用できるが、複数の話者が短時間、例えば数秒以内に交互に発声をしたり、同時に発声することが多かったり、背景雑音や音楽などで話者の認識誤りが大きくなる場合には、話者の切り換わり位置を正確に検出できず、会話区間の検出を適切に行うことができないという問題があった。

さらに、特許文献１に記載の技術では、入力データを話者グループの何れかに割り当てる方法によって話者を識別しているため、登録されていない未知の話者であっても分類が行える一方で、話者の本人照合を行っていないために、分類誤りが起こりやすく、また、音声以外のデータが入力された場合でも何れかの話者グループに分類してしまうという問題があった。

このようなＡＶデータの話者検出において、未登録の話者や音声以外の入力データを誤って識別することを避ける手法として話者照合の技術があるが、従来の話者の尤度正規化による話者照合方法は、ＨＭＭを用いて尤度を求めた場合には適用できるが、より簡単に識別を行うことのできるベクトル量子化歪みを利用した識別方法ではそのまま適用できないという問題がある。

また、標準パターンからのマハラノビス距離を用いて尤度を求めるには話者の共分散係数などが既知でなければならず、計算も非常に複雑であり、さらにこの手法をベクトル量子化歪みを用いた場合に適用するのは、事前に共分散係数を求める等の複雑な計算を要するものであり、実用的なものではなかった。

本発明は、このような従来の実情に鑑みて提案されたものであり、自動的且つ効率的にＡＶデータにおける話者の会話区間を検出し、また、効率的に検索する情報検索装置及びその方法を提供することを目的とする。

上述した目的を達成するために、本発明に係る情報検索装置は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、所望の話者の検索条件を入力する検索条件入力手段と、入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力手段とを備える。

ここで、上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、上記判別の尺度として、そのベクトル量子化歪みを用い、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をすることが好ましい。さらに、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、ＬＰＣ分析によって得られるＬＰＣケプストラムを用いることが好ましい。

このような情報検索装置は、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を検索する。

また、上述した目的を達成するために、本発明に係る情報検索方法は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、所望の話者の検索条件を入力する検索条件入力工程と、入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力工程とを有する。

このような情報検索方法は、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を検索する。

上述のような情報検索装置によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。

上述のような情報検索方法によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。

本実施の形態における情報抽出装置の概念構成を説明する図である。同情報抽出装置の構成例を説明する図である。同情報抽出装置における話者出現頻度情報の記録形式の一例を説明する図である。同情報抽出装置における頻度評価区間、話者認識ブロック及びＬＰＣ分析ブロックの関係を説明する図である。同情報抽出装置の動作を説明するフローチャートである。同情報抽出装置における話者認識ブロック単位での話者識別処理を説明するフローチャートである。同情報抽出装置における話者照合判定処理を説明するフローチャートである。同情報抽出装置における話者照合判定用の閾値データの記録形式の一例を説明する図である。本実施の形態における情報検索装置の概念構成を説明する図である。同情報検索装置の構成を説明する図である。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

先ず、本実施の形態における情報抽出装置の概念構成図を図１に示す。図１に示すように、情報抽出装置においては、情報源となる音声信号が話者識別手段１に入力され、ベクトル量子化歪みを評価して話者が識別される。

話者識別手段１によって識別された話者は、話者判別頻度計算手段２に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算される。求められた話者判別頻度は、話者の出現頻度情報として出力される。

この図１に示した情報抽出装置の具体的な構成例を図２に示す。図２に示すように、情報抽出装置１０は、ＡＶ（Audio Visual）データの音声信号を入力する入力部１１と、音声信号を分析してＬＰＣ（Linear Predictive Coding）ケプストラム係数を抽出するケプストラム抽出部１２と、ＬＰＣケプストラム係数をベクトル量子化するベクトル量子化部１３と、ベクトル量子化歪みを評価して話者を識別する話者識別部１４と、認識された話者の判別頻度を用いて話者の出現頻度を求める話者判別頻度計算部１５とを備える。

また、図２において、コードブック群ＣＢは、ベクトル量子化に用いる各話者のコードブックデータが格納されたものであり、閾値表ファイルＴＦは、話者の判別を行うための閾値データが格納されたものであり、それぞれ図示しない記録部に記録されている。また、話者頻度ファイルＳＦは、区間毎の各話者の頻度が記録されたものである。

このように構成された情報抽出装置１０の動作を以下に説明する。入力部１１から入力されたＡＶデータの音声信号Ｄ１１は、ブロック単位にケプストラム抽出部１２に入力されて、ＬＰＣ分析が施され、得られたＬＰＣ係数がＬＰＣケプストラム係数に変換される。

得られたＬＰＣケプストラム係数の一部Ｄ１２は、ベクトル量子化部１３に入力されて、コードブック群ＣＢからの各話者のコードブックデータＤ１３を用いてそれぞれベクトル量子化が施される。それぞれのコードブックでベクトル量子化された結果（量子化歪み）Ｄ１４は、話者識別部１４に入力されて評価され、さらに閾値表ファイルＴＦから読みこんだ閾値データＤ１５を用いて、所定の認識ブロック毎に話者の識別及び判定を行う。

識別された話者Ｄ１６は、話者判別頻度計算部１５に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算される。求められた話者判別頻度は、話者の出現頻度情報Ｄ１７として、例えば図３に示すような記録形式で各ＡＶデータ毎、各話者毎、各評価区間毎に話者頻度ファイルＳＦに記録される。なお、話者頻度ファイルＳＦは、図示しない送受信部により通信回線を介して通信されるものであってもよく、また、磁気ディスク、光磁気ディスク等の記録媒体や半導体メモリ等の記憶媒体等の蓄積媒体に蓄積されるものであってもよい。

図３の記録形式は、入力部１１から入力された音声信号のＡＶデータ名と、登録された各話者を識別する識別名と、頻度区間の開始時刻と、同区間の終了時刻と、上記ＡＶデータの上記頻度区間における上記話者の判別頻度とを情報として有する。この記録形式は、一例であり、図３に示した情報に限定されるものではない。

以下、図２及び図４を参照しながら、話者識別を行い話者判別頻度を求める際の処理について、さらに詳しく説明する。

入力されたＡＶデータの音声信号は、ケプストラム抽出部１２において、図４に示すようなＬＰＣ分析ブロックＡＢ単位にＬＰＣ分析が施されて、得られたＬＰＣ係数が変換されてＬＰＣケプストラム係数が抽出される。ＬＰＣ分析ブロックＡＢのブロック長ａは、音声信号の場合、通常２０ミリ秒〜３０ミリ秒程度がよく用いられる。また、分析性能を向上させるために隣接ブロックと若干オーバーラップさせることが多い。

図４の話者認識ブロックＲＢは、話者を識別する最小単位であり、このブロック単位に、話者の識別を行う。話者認識ブロックＲＢのブロック長ｂは、数秒程度が望ましい。従って、１つの話者認識ブロックＲＢは、５０〜数百程度のＬＰＣ分析ブロックＡＢを含んでいる。話者認識ブロックＲＢも、隣接区間と若干オーバーラップしていてもよい。オーバーラップ長は、通常、区間長の１０％〜５０％程度である。

図４の頻度区間ＦＩは、話者の出現頻度を求める評価単位であり、同区間内において、各話者認識ブロックＲＢで識別された話者の判別頻度に基づいて各話者の出現頻度を求める。頻度区間ＦＩ_Ｉの区間開始時刻はＳ_Ｉ、区間終了時刻はＥ_Ｉであり、区間長（Ｅ_Ｉ‐Ｓ_Ｉ）は、数分〜数十分程度が適当である。また、評価区間も隣接区間と若干オーバーラップしていてもよい。

情報抽出装置１０の動作を表すフローチャートを図５に示す。先ずステップＳ１０において、初期化処理として、区間番号Ｉを０とする。区間番号Ｉとは、話者の頻度を求める頻度区間ＦＩにつけた連続番号である。

次にステップＳ１１において、上述した話者認識ブロックＲＢ単位で話者候補を識別して話者候補を選定する。話者候補の選定方法については、後で詳述する。

ステップＳ１２では、選定された話者候補が正しい話者か否かを照合判定する。すなわち、未知の不特定話者や、音声以外のデータが入力された場合、ステップＳ１１で選定された候補話者は、入力音声に一番類似している話者を候補として選出するが、それが本当にその話者本人とは限らない。そこで、ステップＳ１２では、ベクトル量子化歪みを評価し、図２に示した閾値表ファイルＴＦに記録された閾値データと比較することで、選定された話者候補本人のデータであるか否かの判定を行う。判定方法については、後で詳述する。ステップＳ１２において、本人であると判定されれば、その話者候補をこの話者認識ブロックにおける話者として確定し、本人ではないと判定されれば、この話者認識ブロックにおける話者を未知話者として確定する。

続いてステップＳ１３では、頻度区間ＦＩ_Ｉの最後の話者認識ブロックＲＢまで処理したか否かが判定される。ステップＳ１３において、最後の話者認識ブロックＲＢでなければ、ステップＳ１４において、次の話者認識ブロックＲＢに進み、ステップＳ１１に戻る。ステップＳ１３において、最後の話者認識ブロックＲＢであると判定されれば、ステップＳ１５に進む。

ステップＳ１５では、現在の頻度区間ＦＩ_Ｉにおける、それぞれの登録話者の判別頻度を出現頻度情報として求める。なお、未知話者と判定された話者認識ブロックＲＢは頻度の計算に含めない。求めた話者出現頻度は、図２に示した話者頻度ファイルＳＦに、図３のような記録形式で記録する。

ステップＳ１６では、データの末尾に到達したか否かが判定される。データの末尾に到達している場合は、処理を終了し、データの末尾に到達していない場合は、ステップＳ１７に進む。

ステップＳ１７では、区間番号Ｉを１つ増やし、次の頻度区間に進み、ステップＳ１１に戻る。

続いて、図５のステップＳ１１における話者候補の識別方法の詳細を図６に示す。先ず、ステップＳ２０において、上述したＬＰＣ分析ブロックＡＢごとに音声データを入力データから読みこむ。

次にステップＳ２１において、話者認識ブロックＲＢの最後のＬＰＣ分析ブロックＡＢまで処理を終えたか否かを判定し、最後のＬＰＣ分析ブロックＡＢの処理を終えている場合は、ステップＳ２６に進む。ステップＳ２１において最後のＬＰＣ分析ブロックＡＢでない場合は、ステップＳ２２に進む。

ステップＳ２２では、得られたＬＰＣ分析ブロックＡＢのデータを評価してこのブロックが音声ブロックであるか否かを判定する。ステップＳ２２において、このＬＰＣ分析ブロックＡＢが無音ブロック又は非音声ブロックであると判定されれば、このブロックの分析をスキップしてステップＳ２５に進み、次のＬＰＣ分析ブロックＡＢに進んでステップＳ２０からの処理を行う。音声ブロックであるか否かの判定方法は、例えば、最も簡単な方法として、そのブロックのパワー平均及び最大値を評価して無音ブロックであるか否かの検出を行うだけでもよい。また、信号の平均パワー、ゼロ交差数、ピッチの有無、スペクトル形状等から分析して音声データであるか否かを判定する種々の方法があるが、本実施の形態では、特にその手法は限定せず、或いはこのステップを省略してもよい。

ステップＳ２２において音声ブロックであると判定された場合は、次にステップＳ２３において、このブロックのＬＰＣ分析を行い、得られたＬＰＣ係数を変換してＬＰＣケプストラム係数を抽出する。ここでは、１次〜１４次程度の低次のケプストラム係数を抽出する。

次にステップＳ２４において、予め作成された複数のコードブックを用いて、ステップＳ２３で得られたＬＰＣケプストラム係数にそれぞれベクトル量子化を施す。それぞれのコードブックは登録された話者に一対一に対応する。ここで、コードブックＣＢ_ｋによるこのブロックのＬＰＣケプストラム係数のベクトル量子化歪みをｄ_ｋとする。

ステップＳ２５では、次のＬＰＣ分析ブロックＡＢに進み、ステップＳ２０に戻り、同様にしてステップＳ２０からステップＳ２５の処理を繰り返す。

ステップＳ２６では、話者認識ブロックＲＢ全体にわたる各コードブックＣＢの量子化歪みｄ_ｋの平均である平均量子化歪みＤ_ｋを求める。

続いてステップＳ２７では、平均量子化歪みＤ_ｋを最小にする話者Ｓ_ｋ’に対応するコードブックＣＢ_ｋ’を選出し、ステップＳ２８では、この話者Ｓ_ｋ’を話者候補Ｓ_ｃとして出力する。

このようにして、コードブックが登録されている話者のうち、最も入力データの音声が類似している話者を、その話者認識ブロックＲＢにおける話者候補Ｓ_ｃとして選出する。

次に、図５のステップＳ１２における話者候補Ｓ_ｃの照合判定方法の詳細を図７に示す。先ずステップＳ３０において、話者候補Ｓ_ｃの平均量子化歪みをＤ_０とする。次にステップＳ３１において、話者候補Ｓ_ｃ以外の各コードブックによる平均量子化歪みを小さい順に並び替え、そのうち、小さいものから順にｎ個を、Ｄ_１，Ｄ_２，・・・Ｄ_ｎ（Ｄ_０＜Ｄ_１＜Ｄ_２＜・・・＜Ｄ_ｎ）とする。ｎの値は、任意に選択可能である。

続いてステップＳ３２において、評価の尺度として、話者候補Ｓ_ｃの量子化歪みＤ_０とそれ以外のｎ個の量子化歪みについて、以下の式（１８）又は式（１９）を用いて歪差分量ΔＤを求める。

式（１８）、式（１９）において、例えばｎが１の場合は、話者候補Ｓ_ｃに次いで量子化歪みが小さいＤ_１とＤ_０との量子化歪みの差を求めることになる。

続いてステップＳ３３において、図２に示した閾値表ファイルＴＦから話者候補Ｓ_ｃに対応する閾値データを読みこむ。

閾値表ファイルＴＦには、各登録話者ごとに、例えば図８のような形式で記録されている。すなわち、図８に示すように、各登録話者の話者識別名と、閾値データである量子化歪みの最大歪み絶対値Ｄ_ｍａｘ及び最小歪み差分ΔＤ_ｍｉｎが予め記録されている。

図７に戻り、ステップＳ３４では、読みこんだ閾値データＤ_ｍａｘ，ΔＤ_ｍｉｎを、求めたＤ_０及びΔＤと比較して判別する。すなわち、ステップＳ３４において、量子化歪みの絶対値Ｄ_０が閾値データＤ_ｍａｘよりも小さく、且つ、歪み差分ΔＤが閾値データΔＤ_ｍｉｎより大きければ、ステップＳ３５に進み、本人であると判定し、候補を確定する。そうでなければ、ステップＳ３６に進み、未知話者と判定し、候補を棄却する。このように、話者候補Ｓ_ｃの平均量子化歪みＤ_０と歪差分量ΔＤとをそれぞれ閾値と比較することで、登録話者の音声データの識別誤りが減少し、また、登録話者以外の音声データを未知話者として判定することが可能となる。

以上説明したように、本実施の形態における情報抽出装置は、ＡＶデータの音声信号中の話者の音声の特徴量に基づいて、話者認識ブロック毎に話者を識別すると共に、所定の区間における話者の出現頻度を検出し、話者の出現頻度情報を生成する。この出現頻度情報が通信回線又は記録媒体を介して後述する情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。

次に、本実施の形態における情報検索装置について説明する。先ず、情報検索装置の概念構成図を図９に示す。図９に示すように、情報検索装置においては、話者出現頻度読み込み手段３によって、上述した情報抽出装置にて生成された話者の出現頻度情報が読み込まれ、また、検索条件が、検索条件入力手段４に入力される。話者出現区間出力手段５は、これらの出現頻度情報と検索条件とに基づいて検索された話者出現区間情報を出力する。

この図９に示した情報抽出装置の具体的な構成例を図１０に示す。図１０に示すように、情報検索装置２０は、検索条件を入力する条件入力部２１と、入力された条件から情報を検索するデータ検索部２２と、検索結果を出力する出力部２３とを備える。また、話者頻度ファイルＳＦは、話者の出現頻度情報が記録されたものであり、上述した図３に示すような記録形式で情報が記録されている。

このように構成された情報検索装置２０の動作を以下に説明する。条件入力部２１はＡＶデータを検索するための検索条件を入力する。検索条件としては、例えば、所望の話者の名前や識別番号、その話者の会話頻度、検索対象とするＡＶデータ等が挙げられる。

入力された検索条件Ｄ２２はデータ検索部２２に入力されて、検索条件にあった情報が検索される。データ検索部２２は、話者頻度情報ファイルＳＦを参照して話者の出現頻度情報Ｄ２３を読込み、これを検索条件Ｄ２２と比較し、検索結果Ｄ２４を出力部２３に供給する。出力部２３は、この検索結果Ｄ２４を話者出現区間情報Ｄ２５として出力する。

このように、本実施の形態における情報検索装置は、通信回線又は記録媒体を介して入力したＡＶデータの音声信号中の所望の話者の出現頻度情報と入力した検索条件とを比較することにより、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

以上詳細に説明したように本発明に係る情報抽出装置は、所定の情報源から所望の情報を抽出するための情報抽出装置において、上記情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別する話者識別手段と、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求める話者判別頻度計算手段とを備え、上記頻度区間における上記話者の出現頻度情報を検出することを特徴としている。

ここで、情報抽出装置では、上記情報源の音声信号中の音声の類似性を評価する特徴量として、ＬＰＣ分析によって得られるＬＰＣケプストラムが用いられ、識別の手法として、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられる。

また、情報抽出装置では、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。

このような情報抽出装置によっては、音声信号中の話者の音声の特徴量に基づいて、ある評価区間毎に話者を識別すると共に、評価区間毎に判別された話者の頻度を求める区間である頻度区間における話者の出現頻度を検出し、話者の出現頻度情報を生成することができる。この出現頻度情報が通信回線又は記録媒体等を介して情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。

また、本発明に係る情報抽出方法は、所定の情報源から所定の情報を検索するための情報抽出方法において、上記情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別する話者識別工程と、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求める話者判別頻度計算工程とを有し、上記頻度区間における上記話者の出現頻度情報を検出することを特徴としている。

ここで、情報抽出方法では、上記情報源の音声信号中の音声の類似性を評価する特徴量として、ＬＰＣ分析によって得られるＬＰＣケプストラムが用いられ、識別の手法として、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられる。

また、情報抽出方法では、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。

このような情報抽出方法によっては、音声信号中の話者の音声の特徴量に基づいて、ある評価区間毎に話者を識別すると共に、評価区間毎に判別された話者の頻度を求める区間である頻度区間における話者の出現頻度を検出し、話者の出現頻度情報を生成することができる。この出現頻度情報が通信回線又は記録媒体等を介して情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。

また、本発明に係る情報検索装置は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である頻度区間で上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、所望の話者の検索条件を入力する検索条件入力手段と、入力された上記検索条件と上記記録媒体から読み出した情報とを比較して、検索条件に該当する情報を話者出現区間情報として出力する話者出現区間出力手段とを備えることを特徴としている。

ここで、上記話者の出現頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、ＬＰＣ分析によって得られるＬＰＣケプストラムが用いられ、識別の手法としては、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられ、また、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。

このような情報検索装置によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。

また、本発明に係る情報検索方法は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である頻度区間で上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、所望の話者の検索条件を入力する検索条件入力工程と、入力された上記検索条件と上記記録媒体から読み出した情報とを比較して、検索条件に該当する情報を話者出現区間情報として出力する話者出現区間出力工程とを有することを特徴としている。

ここで、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、ＬＰＣ分析によって得られるＬＰＣケプストラムが用いられ、識別の手法としては、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられ、また、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。

このような情報検索方法によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。

１話者識別手段、２話者判別頻度計算手段、３話者出現頻度読み込み手段、４検索条件入力手段、５話者出現区間出力手段、１０情報抽出装置、１１入力部、１２ケプストラム抽出部、１３ベクトル量子化部、１４話者識別部、１５話者判別頻度計算部、２０情報検索装置、２１条件入力部、２２データ検索部、２３出力部

Claims

情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、
上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、
所望の話者の検索条件を入力する検索条件入力手段と、
入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力手段と
を備える情報検索装置。
上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、
上記判別の尺度として、そのベクトル量子化歪みを用い、
上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をする
請求項１記載の情報検索装置。
上記情報源の音声信号中の音声の類似性を評価する特徴量として、ＬＰＣ分析によって得られるＬＰＣケプストラムを用いる
請求項１又は２記載の情報検索装置。
情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、
上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、
所望の話者の検索条件を入力する検索条件入力工程と、
入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力工程と
を有する情報検索方法。
上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、
上記判別の尺度として、そのベクトル量子化歪みを用い、
上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をする
請求項４記載の情報検索方法。
上記情報源の音声信号中の音声の類似性を評価する特徴量として、ＬＰＣ分析によって得られるＬＰＣケプストラムを用いる
請求項４又は５記載の情報検索方法。