JP5136621B2 - 情報検索装置及び方法 - Google Patents

情報検索装置及び方法 Download PDF

Info

Publication number
JP5136621B2
JP5136621B2 JP2010232470A JP2010232470A JP5136621B2 JP 5136621 B2 JP5136621 B2 JP 5136621B2 JP 2010232470 A JP2010232470 A JP 2010232470A JP 2010232470 A JP2010232470 A JP 2010232470A JP 5136621 B2 JP5136621 B2 JP 5136621B2
Authority
JP
Japan
Prior art keywords
speaker
information
frequency
section
quantization distortion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2010232470A
Other languages
English (en)
Other versions
JP2011059703A (ja
Inventor
康裕 戸栗
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010232470A priority Critical patent/JP5136621B2/ja
Publication of JP2011059703A publication Critical patent/JP2011059703A/ja
Application granted granted Critical
Publication of JP5136621B2 publication Critical patent/JP5136621B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索装置及び方法に関するものであり、特に、音声データ又は音声画像データの検索を行うための情報検索装置及びその方法に関するものである。
近年のマルチメディアの普及とともに、大量のAV(Audio Visual)データを効率的に管理し、分類、検索、抽出などを行う必要性が増してきた。例えば、ある登場人物のシーンやその人物の会話シーンを大量のAVデータから検索したり、また、ある人物の会話シーンだけをAVデータから抽出して再生したりということが必要となっている。
従来は、このようなAVデータにおいて特定の話者が会話している時間軸上の位置の検索等を行う場合は、人間が直接AVデータを視聴しながら、その時間軸上の位置や区間を探す必要があった。
一方、音声の話者を識別する技術としては、自動話者識別・照合技術が研究されている。この技術についての従来の技術の概要を説明する。先ず、話者認識には、話者識別と話者照合がある。話者識別とは、入力された音声が予め登録された話者うちのどの話者であるかを判定するものであり、話者照合とは、入力された音声を予め登録された話者のデータと比較して本人であるか否かを判定するものである。また、話者認識には、認識時に発声する言葉(キーワード)が予め決められた発声内容依存型と、任意の言葉を発声して認識をする発生内容独立型がある。
一般的な音声認識技術としては、例えば次のような技術がよく用いられる。先ず、ある話者の音声信号の個人性を表す特徴量を抽出して、予め学習データとして記録しておく。照会・識別の際には、入力された話者音声を分析して、その個人性を表す特徴量を抽出して、学習データとの類似度を評価することで、話者の識別・照合を行う。ここで、音声の個人性を表す特徴量としては、ケプストラム(Cepstrum)等がよく用いられる。ケプストラムは、対数スペクトルをフーリエ逆変換したもので、その低次の項の係数によって音声スペクトルの包絡を表現できる。また、ケプストラム時系列の多項式展開係数をデルタケプストラムと呼び、これも音声スペクトルの時間的変化を表現する特徴量としてよく用いられる。この他、ピッチやデルタピッチ(ピッチの多項式展開係数)等も用いられることがある。
このようにして抽出されたLPC(Linear Predictive Coding)ケプストラム等の特徴量を標準パターンとして学習データを作成するが、その方法としては、ベクトル量子化歪みによる方法と隠れマルコフモデル(HMM:Hidden Markov Model)による方法が代表的である。
ベクトル量子化歪みによる方法では、予め話者ごとの特徴量をグループ化してその重心を符号帳(コードブック)の要素(コードベクトル)として蓄えておく。そして、入力された音声の特徴量を各話者のコードブックでベクトル量子化して、その入力音声全体に対する各コードブックの平均量子化歪みを求める。
そして話者識別の場合は、その平均量子化歪みの最も小さいコードブックの話者を選択し、話者照合の場合は、該当する話者のコードブックによる平均量子化歪みを閾値と比較して本人かどうかを判定する。
このように、従来の話者認識技術において、特徴量として音声のLPCケプストラムを抽出し、その特徴量のベクトル量子化歪みを利用して話者識別を行う方法について、詳しく説明する。
先ず、入力された音声信号をブロック単位にLPC分析(線形予測分析)を行い線形予測係数(LPC係数)を求める。分析ブロック長としては、音声では一般的に20〜30ミリ秒程度が用いられる。入力信号のサンプルxを過去のP個のサンプルから以下の式(1)のように予測する。なお、一般的に線形予測の次数Pとしては、10〜20次程度が用いられる。
Figure 0005136621
そして線形予測誤差ε=x'−xを最小化する線形予測係数aを最小二乗法によって求める。最小二乗法の解を求める方法としては、共分散法と自己相関法があり、特に自己相関法は、その係数行列の正定値性が保証されて解を必ず求めることができ、また、Durbinの再帰法によって効率的に求めることが可能であることから広く利用されている。求めたP個の線形予測係数により、推定される全極型音声モデルの生成関数は以下の式(2)のように表される。
Figure 0005136621
ケプストラムは、音声の対数スペクトルの逆フーリエ変換であるから、LPC分析による音声モデルのケプストラムは、ケプストラムのフーリエ変換を C(ω)とすると、以下の式(3)で表される。
Figure 0005136621
ここでフーリエ変換をZ変換に拡張して一般化すると、式(4)のように記述できる。
Figure 0005136621
C(z)の逆Z変換cは、複素ケプストラムと呼ばれている。ここで、LPC係数aを直接複素ケプストラムcに変換する方法が知られている。すなわち、以下の式(5)、式(6)、式(7)のような漸化式から複素ケプストラムを順次求めることができる。このようにしてLPC分析から求めたcを特にLPCケプストラムと呼ぶ。
Figure 0005136621
次に、上述のようにして抽出した特徴量(LPCケプストラム等)にベクトル量子化を施し、その量子化歪みを利用して話者を識別する。基本的には、求めた特徴量ベクトルを複数の話者のコードブックでベクトル量子化を施し、その平均量子化歪みを最小にするコードブックを選出する。以下、詳しく説明する。
まずi番目のLPC分析ブロックにおけるP個の特徴量ベクトルxを以下の式(8)とする。特徴量ベクトルの要素としては、たとえば、前述したような1〜P次のLPCケプストラムを用いる。
Figure 0005136621
また、コードブックCBのj番目のセントロイド(コードベクトル)r を以下の式(9)とする。
Figure 0005136621
ここで、特徴量ベクトルxとセントロイドr との重み付距離を以下の式(10)のように定義する。
Figure 0005136621
第iブロックのコードブックCBによるベクトル量子化歪みd(i)を以下の式(11)のように求める。
Figure 0005136621
各ブロック毎のベクトル量子化歪みd(i)を求め、さらに、話者認識区間の全ブロック(i=1,2,・・・L)における、コードブックCBの平均量子化歪みDを以下の式(12)のようにして求める。
Figure 0005136621
この平均量子化歪みDを最小にするコードブックCBk’を求め、そのコードブックに対応する話者を話者評価区間における話者として選出する。
一方、HMMによる方法では、上記と同様にして求めた話者の特徴量は、隠れマルコフモデル(HMM)の状態間の遷移確率と、各状態での特徴量の出現確率によって表現され、入力音声区間全体でモデルとの平均尤度によって判定をする。
また、予め登録されていない不特定話者が含まれる話者識別の場合は、上述した話者識別と話者照合とを組合せた方法によって判定する。すなわち、登録された話者セットから最も類似した話者を候補として選び、その候補の量子化歪み又は尤度を閾値と比較して本人かどうかを判定する。
話者照合又は不特定話者を含む話者識別において、本人の判定をするために、話者の尤度若しくは量子化歪みを閾値と比較して判定するが、その際、これらの値は特徴量の時期変動、発声文章の違い、雑音等の影響により、同一の話者であっても入力データと学習データ(モデル)とのばらつきが大きく、一般的にその絶対値に閾値を設定しても安定して十分な認識率が得られない。
そこで、HMMにおける話者認識においては、尤度を正規化することが一般的に行われる。例えば、以下の式(13)に示すような対数尤度比LRを判定に用いる方法がある。
Figure 0005136621
式(13)において、L(X/S)は、照合対象話者S(本人)の入力音声Xに対する尤度であり、L(X/S)は、話者S以外の話者Sの入力音声Xに対する尤度である。すなわち、入力音声Xに対する尤度に合わせて動的に閾値を設定することになり、発声内容の違いや時期変動に対して頑健となる。
或いはまた、事後確率の概念を用いて、以下の式(14)に示すような事後確立によって判定を行う方法も研究されている。ここで、P(S)、P(S)はそれぞれ話者S、Sの出現確率である。
Figure 0005136621
これらのHMMを用いた尤度の正規化の方法は、後述する非特許文献4等に詳しく記されている。
一方、上述したHMMによる方法で述べた尤度を、特徴量の標準パターンと入力データから抽出した特徴量のマハラノビス距離によって求める方法もある。
入力データXの特徴量ベクトルxと特徴量の標準パターンのベクトルrとを用いて、入力データXの話者Sに対する尤度L(X/S)は、以下の式(15)のように求められる。
Figure 0005136621
ここで、特徴量ベクトルxと特徴量の標準パターンのベクトルrとは、それぞれ以下の式(16)、式(17)のように与えられる。
Figure 0005136621
式(15)において、Pはベクトル次数、Σは話者Sの特徴量データの共分散行列である。また、(x−r)Σ−1(x−r)は、マハラノビス距離と呼ばれる。式(15)より、話者の特徴量の共分散係数を予め求めておけば、入力データXの尤度が求められる。また、これより、上述したような話者Sと話者Sの対数尤度比LRは、それぞれの話者のマハラノビス距離の差によって表現される。すなわち、上述したような話者照合のための尤度正規化において、対数尤度に閾値を設定することと、マハラノビス距離の差に閾値を設定することとは同等である。詳しくは、後述する非特許文献5等に記されている。
話者認識に関する従来技術について詳しくは、例えば、以下の特許文献1〜7や非特許文献1〜6等に記述されている。
特許文献1には、話者認識の技術を応用して、AVデータにおいて、同一話者の連続会話区間と話者切り換わり位置とを検出する技術が提案されている。この特許文献1に記載の技術では、AVデータの音声信号を小区間(1〜2秒程度)毎に話者グループに分類識別し、いくつかの連続した認識区間(数秒〜10秒程度)内において話者グループの判別頻度の変位を求め、その頻度が閾値を上回る位置又は閾値を下回る位置を検出することで、話者の切り換わり位置を検出し、話者が切り換わる間の区間をその話者の同一話者連続会話区間として検出している。
特開2002−169592号公報 特開2001−134613号公報 特開平10−097274号公報 特開平06−167990号公報 特開平11−203326号公報 特開平08−329013号公報 特開平04−082357号公報
古井:"ケプストラムの統計的特徴による話者認識", 信学論 volJ65-A, No.2 183-190(1982) F.K.Soong and A.E.Rosenberg: "On the Use of Instantaneous and Transitional Spectral Information in Speaker Recognition.", IEEE Trans. ASSP, Vol.36, No.6, pp.871-879 (1988) 古井:"声の個人性の話",日本音響学会誌, 51,11, pp.876-881, (1995) 松井:"HMMによる話者認識", 信学技報, Vol.95, No.467, (SP95 109-116) pp.17-24 (1996) THE DIGITAL SIGNAL PROCESSING HANDBOOK, IEEE PRESS (CRC Press),1998 杉山雅英,"音響情報の検索",電子情報通信学会技術研究報告,1999年6月17日,Vol.99,No.120,p.57-64
従来の話者認識技術は、セキュリティシステムなどにおける単一話者の識別・照合を主な応用として研究、開発されており、1つの音声データにおいて複数の話者が短時間で交互に発声をしたり、時折同時に発声したり、背景に音楽や雑音があったりといった実際の複雑な会話場面に適用できるものではなかった。従って、AVデータにおける話者の会話区間の検索を、従来の話者認識の技術によって自動的に行うとすると、その識別性能が著しく低下してしまうといった問題があった。
また、上述した特許文献1に記載されている技術では、数秒〜10秒程度の頻度評価区間ごとに判別頻度の変位によって話者の切り換わりを検出しているため、その評価区間の間は同一の話者がほぼ連続して会話をしている必要がある。すなわち、同一の話者が、評価区間長である10秒程度の時間の間、単独で連続的に会話をしており、その判別誤り率が十分に低い場合には適用できるが、複数の話者が短時間、例えば数秒以内に交互に発声をしたり、同時に発声することが多かったり、背景雑音や音楽などで話者の認識誤りが大きくなる場合には、話者の切り換わり位置を正確に検出できず、会話区間の検出を適切に行うことができないという問題があった。
さらに、特許文献1に記載の技術では、入力データを話者グループの何れかに割り当てる方法によって話者を識別しているため、登録されていない未知の話者であっても分類が行える一方で、話者の本人照合を行っていないために、分類誤りが起こりやすく、また、音声以外のデータが入力された場合でも何れかの話者グループに分類してしまうという問題があった。
このようなAVデータの話者検出において、未登録の話者や音声以外の入力データを誤って識別することを避ける手法として話者照合の技術があるが、従来の話者の尤度正規化による話者照合方法は、HMMを用いて尤度を求めた場合には適用できるが、より簡単に識別を行うことのできるベクトル量子化歪みを利用した識別方法ではそのまま適用できないという問題がある。
また、標準パターンからのマハラノビス距離を用いて尤度を求めるには話者の共分散係数などが既知でなければならず、計算も非常に複雑であり、さらにこの手法をベクトル量子化歪みを用いた場合に適用するのは、事前に共分散係数を求める等の複雑な計算を要するものであり、実用的なものではなかった。
本発明は、このような従来の実情に鑑みて提案されたものであり、自動的且つ効率的にAVデータにおける話者の会話区間を検出し、また、効率的に検索する情報検索装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る情報検索装置は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、所望の話者の検索条件を入力する検索条件入力手段と、入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力手段とを備える。
ここで、上記判別の手法として複数のコードブックによる特徴量のベクトル量子化を用い、上記判別の尺度として、そのベクトル量子化歪みを用い上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をすることが好ましい。さらに、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムを用いることが好ましい。
このような情報検索装置は、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を検索する。
また、上述した目的を達成するために、本発明に係る情報検索方法は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、所望の話者の検索条件を入力する検索条件入力工程と、入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力工程とを有する。
ここで、上記判別の手法として複数のコードブックによる特徴量のベクトル量子化を用い、上記判別の尺度として、そのベクトル量子化歪みを用い上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をすることが好ましい。さらに、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムを用いることが好ましい。
このような情報検索方法は、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を検索する。
上述のような情報検索装置によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
上述のような情報検索方法によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
本実施の形態における情報抽出装置の概念構成を説明する図である。 同情報抽出装置の構成例を説明する図である。 同情報抽出装置における話者出現頻度情報の記録形式の一例を説明する図である。 同情報抽出装置における頻度評価区間、話者認識ブロック及びLPC分析ブロックの関係を説明する図である。 同情報抽出装置の動作を説明するフローチャートである。 同情報抽出装置における話者認識ブロック単位での話者識別処理を説明するフローチャートである。 同情報抽出装置における話者照合判定処理を説明するフローチャートである。 同情報抽出装置における話者照合判定用の閾値データの記録形式の一例を説明する図である。 本実施の形態における情報検索装置の概念構成を説明する図である。 同情報検索装置の構成を説明する図である。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
先ず、本実施の形態における情報抽出装置の概念構成図を図1に示す。図1に示すように、情報抽出装置においては、情報源となる音声信号が話者識別手段1に入力され、ベクトル量子化歪みを評価して話者が識別される。
話者識別手段1によって識別された話者は、話者判別頻度計算手段2に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算される。求められた話者判別頻度は、話者の出現頻度情報として出力される。
この図1に示した情報抽出装置の具体的な構成例を図2に示す。図2に示すように、情報抽出装置10は、AV(Audio Visual)データの音声信号を入力する入力部11と、音声信号を分析してLPC(Linear Predictive Coding)ケプストラム係数を抽出するケプストラム抽出部12と、LPCケプストラム係数をベクトル量子化するベクトル量子化部13と、ベクトル量子化歪みを評価して話者を識別する話者識別部14と、認識された話者の判別頻度を用いて話者の出現頻度を求める話者判別頻度計算部15とを備える。
また、図2において、コードブック群CBは、ベクトル量子化に用いる各話者のコードブックデータが格納されたものであり、閾値表ファイルTFは、話者の判別を行うための閾値データが格納されたものであり、それぞれ図示しない記録部に記録されている。また、話者頻度ファイルSFは、区間毎の各話者の頻度が記録されたものである。
このように構成された情報抽出装置10の動作を以下に説明する。入力部11から入力されたAVデータの音声信号D11は、ブロック単位にケプストラム抽出部12に入力されて、LPC分析が施され、得られたLPC係数がLPCケプストラム係数に変換される。
得られたLPCケプストラム係数の一部D12は、ベクトル量子化部13に入力されて、コードブック群CBからの各話者のコードブックデータD13を用いてそれぞれベクトル量子化が施される。それぞれのコードブックでベクトル量子化された結果(量子化歪み)D14は、話者識別部14に入力されて評価され、さらに閾値表ファイルTFから読みこんだ閾値データD15を用いて、所定の認識ブロック毎に話者の識別及び判定を行う。
識別された話者D16は、話者判別頻度計算部15に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算される。求められた話者判別頻度は、話者の出現頻度情報D17として、例えば図3に示すような記録形式で各AVデータ毎、各話者毎、各評価区間毎に話者頻度ファイルSFに記録される。なお、話者頻度ファイルSFは、図示しない送受信部により通信回線を介して通信されるものであってもよく、また、磁気ディスク、光磁気ディスク等の記録媒体や半導体メモリ等の記憶媒体等の蓄積媒体に蓄積されるものであってもよい。
図3の記録形式は、入力部11から入力された音声信号のAVデータ名と、登録された各話者を識別する識別名と、頻度区間の開始時刻と、同区間の終了時刻と、上記AVデータの上記頻度区間における上記話者の判別頻度とを情報として有する。この記録形式は、一例であり、図3に示した情報に限定されるものではない。
以下、図2及び図4を参照しながら、話者識別を行い話者判別頻度を求める際の処理について、さらに詳しく説明する。
入力されたAVデータの音声信号は、ケプストラム抽出部12において、図4に示すようなLPC分析ブロックAB単位にLPC分析が施されて、得られたLPC係数が変換されてLPCケプストラム係数が抽出される。LPC分析ブロックABのブロック長aは、音声信号の場合、通常20ミリ秒〜30ミリ秒程度がよく用いられる。また、分析性能を向上させるために隣接ブロックと若干オーバーラップさせることが多い。
図4の話者認識ブロックRBは、話者を識別する最小単位であり、このブロック単位に、話者の識別を行う。話者認識ブロックRBのブロック長bは、数秒程度が望ましい。従って、1つの話者認識ブロックRBは、50〜数百程度のLPC分析ブロックABを含んでいる。話者認識ブロックRBも、隣接区間と若干オーバーラップしていてもよい。オーバーラップ長は、通常、区間長の10%〜50%程度である。
図4の頻度区間FIは、話者の出現頻度を求める評価単位であり、同区間内において、各話者認識ブロックRBで識別された話者の判別頻度に基づいて各話者の出現頻度を求める。頻度区間FIの区間開始時刻はS、区間終了時刻はEであり、区間長(E‐S)は、数分〜数十分程度が適当である。また、評価区間も隣接区間と若干オーバーラップしていてもよい。
情報抽出装置10の動作を表すフローチャートを図5に示す。先ずステップS10において、初期化処理として、区間番号Iを0とする。区間番号Iとは、話者の頻度を求める頻度区間FIにつけた連続番号である。
次にステップS11において、上述した話者認識ブロックRB単位で話者候補を識別して話者候補を選定する。話者候補の選定方法については、後で詳述する。
ステップS12では、選定された話者候補が正しい話者か否かを照合判定する。すなわち、未知の不特定話者や、音声以外のデータが入力された場合、ステップS11で選定された候補話者は、入力音声に一番類似している話者を候補として選出するが、それが本当にその話者本人とは限らない。そこで、ステップS12では、ベクトル量子化歪みを評価し、図2に示した閾値表ファイルTFに記録された閾値データと比較することで、選定された話者候補本人のデータであるか否かの判定を行う。判定方法については、後で詳述する。ステップS12において、本人であると判定されれば、その話者候補をこの話者認識ブロックにおける話者として確定し、本人ではないと判定されれば、この話者認識ブロックにおける話者を未知話者として確定する。
続いてステップS13では、頻度区間FIの最後の話者認識ブロックRBまで処理したか否かが判定される。ステップS13において、最後の話者認識ブロックRBでなければ、ステップS14において、次の話者認識ブロックRBに進み、ステップS11に戻る。ステップS13において、最後の話者認識ブロックRBであると判定されれば、ステップS15に進む。
ステップS15では、現在の頻度区間FIにおける、それぞれの登録話者の判別頻度を出現頻度情報として求める。なお、未知話者と判定された話者認識ブロックRBは頻度の計算に含めない。求めた話者出現頻度は、図2に示した話者頻度ファイルSFに、図3のような記録形式で記録する。
ステップS16では、データの末尾に到達したか否かが判定される。データの末尾に到達している場合は、処理を終了し、データの末尾に到達していない場合は、ステップS17に進む。
ステップS17では、区間番号Iを1つ増やし、次の頻度区間に進み、ステップS11に戻る。
続いて、図5のステップS11における話者候補の識別方法の詳細を図6に示す。先ず、ステップS20において、上述したLPC分析ブロックABごとに音声データを入力データから読みこむ。
次にステップS21において、話者認識ブロックRBの最後のLPC分析ブロックABまで処理を終えたか否かを判定し、最後のLPC分析ブロックABの処理を終えている場合は、ステップS26に進む。ステップS21において最後のLPC分析ブロックABでない場合は、ステップS22に進む。
ステップS22では、得られたLPC分析ブロックABのデータを評価してこのブロックが音声ブロックであるか否かを判定する。ステップS22において、このLPC分析ブロックABが無音ブロック又は非音声ブロックであると判定されれば、このブロックの分析をスキップしてステップS25に進み、次のLPC分析ブロックABに進んでステップS20からの処理を行う。音声ブロックであるか否かの判定方法は、例えば、最も簡単な方法として、そのブロックのパワー平均及び最大値を評価して無音ブロックであるか否かの検出を行うだけでもよい。また、信号の平均パワー、ゼロ交差数、ピッチの有無、スペクトル形状等から分析して音声データであるか否かを判定する種々の方法があるが、本実施の形態では、特にその手法は限定せず、或いはこのステップを省略してもよい。
ステップS22において音声ブロックであると判定された場合は、次にステップS23において、このブロックのLPC分析を行い、得られたLPC係数を変換してLPCケプストラム係数を抽出する。ここでは、1次〜14次程度の低次のケプストラム係数を抽出する。
次にステップS24において、予め作成された複数のコードブックを用いて、ステップS23で得られたLPCケプストラム係数にそれぞれベクトル量子化を施す。それぞれのコードブックは登録された話者に一対一に対応する。ここで、コードブックCBによるこのブロックのLPCケプストラム係数のベクトル量子化歪みをdとする。
ステップS25では、次のLPC分析ブロックABに進み、ステップS20に戻り、同様にしてステップS20からステップS25の処理を繰り返す。
ステップS26では、話者認識ブロックRB全体にわたる各コードブックCBの量子化歪みdの平均である平均量子化歪みDを求める。
続いてステップS27では、平均量子化歪みDを最小にする話者Sk’に対応するコードブックCBk’を選出し、ステップS28では、この話者Sk’を話者候補Sとして出力する。
このようにして、コードブックが登録されている話者のうち、最も入力データの音声が類似している話者を、その話者認識ブロックRBにおける話者候補Sとして選出する。
次に、図5のステップS12における話者候補Sの照合判定方法の詳細を図7に示す。先ずステップS30において、話者候補Sの平均量子化歪みをDとする。次にステップS31において、話者候補S以外の各コードブックによる平均量子化歪みを小さい順に並び替え、そのうち、小さいものから順にn個を、D,D,・・・D(D<D<D<・・・<D)とする。nの値は、任意に選択可能である。
続いてステップS32において、評価の尺度として、話者候補Sの量子化歪みDとそれ以外のn個の量子化歪みについて、以下の式(18)又は式(19)を用いて歪差分量ΔDを求める。
Figure 0005136621
式(18)、式(19)において、例えばnが1の場合は、話者候補Sに次いで量子化歪みが小さいDとDとの量子化歪みの差を求めることになる。
続いてステップS33において、図2に示した閾値表ファイルTFから話者候補Sに対応する閾値データを読みこむ。
閾値表ファイルTFには、各登録話者ごとに、例えば図8のような形式で記録されている。すなわち、図8に示すように、各登録話者の話者識別名と、閾値データである量子化歪みの最大歪み絶対値Dmax及び最小歪み差分ΔDminが予め記録されている。
図7に戻り、ステップS34では、読みこんだ閾値データDmax,ΔDminを、求めたD及びΔDと比較して判別する。すなわち、ステップS34において、量子化歪みの絶対値Dが閾値データDmaxよりも小さく、且つ、歪み差分ΔDが閾値データΔDminより大きければ、ステップS35に進み、本人であると判定し、候補を確定する。そうでなければ、ステップS36に進み、未知話者と判定し、候補を棄却する。このように、話者候補Sの平均量子化歪みDと歪差分量ΔDとをそれぞれ閾値と比較することで、登録話者の音声データの識別誤りが減少し、また、登録話者以外の音声データを未知話者として判定することが可能となる。
以上説明したように、本実施の形態における情報抽出装置は、AVデータの音声信号中の話者の音声の特徴量に基づいて、話者認識ブロック毎に話者を識別すると共に、所定の区間における話者の出現頻度を検出し、話者の出現頻度情報を生成する。この出現頻度情報が通信回線又は記録媒体を介して後述する情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。
次に、本実施の形態における情報検索装置について説明する。先ず、情報検索装置の概念構成図を図9に示す。図9に示すように、情報検索装置においては、話者出現頻度読み込み手段3によって、上述した情報抽出装置にて生成された話者の出現頻度情報が読み込まれ、また、検索条件が、検索条件入力手段4に入力される。話者出現区間出力手段5は、これらの出現頻度情報と検索条件とに基づいて検索された話者出現区間情報を出力する。
この図9に示した情報抽出装置の具体的な構成例を図10に示す。図10に示すように、情報検索装置20は、検索条件を入力する条件入力部21と、入力された条件から情報を検索するデータ検索部22と、検索結果を出力する出力部23とを備える。また、話者頻度ファイルSFは、話者の出現頻度情報が記録されたものであり、上述した図3に示すような記録形式で情報が記録されている。
このように構成された情報検索装置20の動作を以下に説明する。条件入力部21はAVデータを検索するための検索条件を入力する。検索条件としては、例えば、所望の話者の名前や識別番号、その話者の会話頻度、検索対象とするAVデータ等が挙げられる。
入力された検索条件D22はデータ検索部22に入力されて、検索条件にあった情報が検索される。データ検索部22は、話者頻度情報ファイルSFを参照して話者の出現頻度情報D23を読込み、これを検索条件D22と比較し、検索結果D24を出力部23に供給する。出力部23は、この検索結果D24を話者出現区間情報D25として出力する。
このように、本実施の形態における情報検索装置は、通信回線又は記録媒体を介して入力したAVデータの音声信号中の所望の話者の出現頻度情報と入力した検索条件とを比較することにより、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
以上詳細に説明したように本発明に係る情報抽出装置は、所定の情報源から所望の情報を抽出するための情報抽出装置において、上記情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別する話者識別手段と、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求める話者判別頻度計算手段とを備え、上記頻度区間における上記話者の出現頻度情報を検出することを特徴としている。
ここで、情報抽出装置では、上記情報源の音声信号中の音声の類似性を評価する特徴量として、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法として、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられる。
また、情報抽出装置では、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報抽出装置によっては、音声信号中の話者の音声の特徴量に基づいて、ある評価区間毎に話者を識別すると共に、評価区間毎に判別された話者の頻度を求める区間である頻度区間における話者の出現頻度を検出し、話者の出現頻度情報を生成することができる。この出現頻度情報が通信回線又は記録媒体等を介して情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。
また、本発明に係る情報抽出方法は、所定の情報源から所定の情報を検索するための情報抽出方法において、上記情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別する話者識別工程と、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求める話者判別頻度計算工程とを有し、上記頻度区間における上記話者の出現頻度情報を検出することを特徴としている。
ここで、情報抽出方法では、上記情報源の音声信号中の音声の類似性を評価する特徴量として、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法として、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられる。
また、情報抽出方法では、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報抽出方法によっては、音声信号中の話者の音声の特徴量に基づいて、ある評価区間毎に話者を識別すると共に、評価区間毎に判別された話者の頻度を求める区間である頻度区間における話者の出現頻度を検出し、話者の出現頻度情報を生成することができる。この出現頻度情報が通信回線又は記録媒体等を介して情報検索装置に供給されることで、情報検索装置において所望の情報を効果的に検索することができる。
また、本発明に係る情報検索装置は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である頻度区間で上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、所望の話者の検索条件を入力する検索条件入力手段と、入力された上記検索条件と上記記録媒体から読み出した情報とを比較して、検索条件に該当する情報を話者出現区間情報として出力する話者出現区間出力手段とを備えることを特徴としている。
ここで、上記話者の出現頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法としては、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられ、また、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報検索装置によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
また、本発明に係る情報検索方法は、情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である頻度区間で上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、所望の話者の検索条件を入力する検索条件入力工程と、入力された上記検索条件と上記記録媒体から読み出した情報とを比較して、検索条件に該当する情報を話者出現区間情報として出力する話者出現区間出力工程とを有することを特徴としている。
ここで、上記話者の判別頻度情報を得る際の上記情報源の音声信号中の音声の類似性を評価する特徴量としては、LPC分析によって得られるLPCケプストラムが用いられ、識別の手法としては、複数のコードブックによる特徴量のベクトル量子化が用いられ、識別の尺度として、そのベクトル量子化歪みが用いられ、また、上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで識別判定される。
このような情報検索方法によっては、所望の話者の出現頻度情報と入力した検索条件とを比較することで、所望の話者が所望の頻度で会話している部分等を効果的に検索することができる。
1 話者識別手段、2 話者判別頻度計算手段、3 話者出現頻度読み込み手段、4 検索条件入力手段、5 話者出現区間出力手段、10 情報抽出装置、11 入力部、12 ケプストラム抽出部、13 ベクトル量子化部、14 話者識別部、15 話者判別頻度計算部、20 情報検索装置、21 条件入力部、22 データ検索部、23 出力部

Claims (6)

  1. 情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索装置であって、
    上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み手段と、
    所望の話者の検索条件を入力する検索条件入力手段と、
    入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力手段と
    を備える情報検索装置。
  2. 上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、
    上記判別の尺度として、そのベクトル量子化歪みを用い、
    上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をする
    請求項1記載の情報検索装置。
  3. 上記情報源の音声信号中の音声の類似性を評価する特徴量として、LPC分析によって得られるLPCケプストラムを用いる
    請求項1又は2記載の情報検索装置。
  4. 情報源である音声信号について、上記音声信号中の音声の類似性によって、ある評価区間毎に話者を判別し、上記評価区間毎に判別された話者の頻度を求める区間である上記情報源における頻度区間での上記話者の判別頻度情報を求めることで得られた上記頻度区間における上記話者の出現頻度情報が予め記録された記録媒体から、所望の情報の検索を行う情報検索方法であって、
    上記記録媒体に記録された話者の出現頻度情報を読み込む話者出現頻度読み込み工程と、
    所望の話者の検索条件を入力する検索条件入力工程と、
    入力された上記検索条件と上記記録媒体から読み出した上記出現頻度情報とを比較して、検索条件に該当する上記所望の話者が出現する区間に関する情報を話者出現区間情報として出力する話者出現区間出力工程と
    を有する情報検索方法。
  5. 上記判別の手法として、複数のコードブックによる特徴量のベクトル量子化を用い、
    上記判別の尺度として、そのベクトル量子化歪みを用い、
    上記ベクトル量子化歪みの最小値である最小量子化歪みと、上記最小量子化歪み以外の複数のベクトル量子化歪みの和又は平均から最小量子化歪みを減算した値とを、それぞれ予め設定された閾値と比較することで上記話者の判別をする
    請求項4記載の情報検索方法。
  6. 上記情報源の音声信号中の音声の類似性を評価する特徴量として、LPC分析によって得られるLPCケプストラムを用いる
    請求項4又は5記載の情報検索方法。
JP2010232470A 2010-10-15 2010-10-15 情報検索装置及び方法 Expired - Lifetime JP5136621B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010232470A JP5136621B2 (ja) 2010-10-15 2010-10-15 情報検索装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010232470A JP5136621B2 (ja) 2010-10-15 2010-10-15 情報検索装置及び方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001177569A Division JP4734771B2 (ja) 2001-06-12 2001-06-12 情報抽出装置及び方法

Publications (2)

Publication Number Publication Date
JP2011059703A JP2011059703A (ja) 2011-03-24
JP5136621B2 true JP5136621B2 (ja) 2013-02-06

Family

ID=43947306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010232470A Expired - Lifetime JP5136621B2 (ja) 2010-10-15 2010-10-15 情報検索装置及び方法

Country Status (1)

Country Link
JP (1) JP5136621B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0482357A (ja) * 1990-07-24 1992-03-16 Hitachi Ltd 記録および検索方法ならびに自動記録装置
JP3185505B2 (ja) * 1993-12-24 2001-07-11 株式会社日立製作所 会議録作成支援装置
JP3081108B2 (ja) * 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法
JP3591917B2 (ja) * 1995-06-06 2004-11-24 キヤノン株式会社 協調作業支援方法及びそのシステム
JP3704434B2 (ja) * 1998-09-30 2005-10-12 富士通株式会社 ネットワーク検索方法及びネットワーク検索システム
JP4491700B2 (ja) * 1999-08-26 2010-06-30 ソニー株式会社 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置

Also Published As

Publication number Publication date
JP2011059703A (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
US11189272B2 (en) Dialect phoneme adaptive training system and method
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
KR20010102549A (ko) 화자 인식 방법 및 장치
US7315819B2 (en) Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof
Vydana et al. Improved emotion recognition using GMM-UBMs
JP4696418B2 (ja) 情報検出装置及び方法
Devi et al. A novel approach for speech feature extraction by cubic-log compression in MFCC
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP5136621B2 (ja) 情報検索装置及び方法
JP2012053218A (ja) 音響処理装置および音響処理プログラム
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Nguyen et al. Resident identification in smart home by voice biometrics
JP2002169592A (ja) 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
Kruspe Keyword spotting in singing with duration-modeled hmms
US20210225366A1 (en) Speech recognition system with fine-grained decoding
Sadanandam HMM Based Language Identification from Speech Utterances of Popular Indic Languages Using Spectral and Prosodic Features HMM Based Language Identification from Speech Utterances of Popular Indic Languages Using Spectral and Prosodic Features
JP4734771B2 (ja) 情報抽出装置及び方法
JPH10254473A (ja) 音声変換方法及び音声変換装置
Furui Speech and speaker recognition evaluation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121029

R151 Written notification of patent or utility model registration

Ref document number: 5136621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term