JP2002169592A

JP2002169592A - 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム

Info

Publication number: JP2002169592A
Application number: JP2000363547A
Authority: JP
Inventors: Yasuhiro Tokuri; 康裕戸栗; Masayuki Nishiguchi; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-11-29
Filing date: 2000-11-29
Publication date: 2002-06-14

Abstract

(57)【要約】【課題】自動的かつ効果的に話者区間を検出して話者ご
とにＡＶデータを区分化し、その話者の区分化情報を登
録すると共に、話者の音声の特徴を直接検索などで利用
できる情報検索システムを提供する。【解決手段】本発明の情報検索システムによれば、情
報分類・区分化・登録部１において、音声信号の話者を
音声の特徴に基づいて、話者グループへ分類すると共
に、話者の各分類グループへの分類頻度の変位に基づい
て話者区間を検出し、情報検索・抽出部２において、デ
ータベースなどの記録媒体２に記録されたこれらの話者
情報と、入力された検索条件８との比較をすることによ
り、ＡＶデータにおいて、自動的かつ効率的に話者によ
る区分化と分類を行い、さらに所望の話者と類似した音
声を含むＡＶデータの部分区間の検索・抽出を可能にす
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、情報分類
・区分化装置、情報分類・区分化方法、情報検索・抽出
装置、情報検索・抽出方法、記録媒体および情報検索シ
ステムに関するものであり、特に、音響・画像データの
分類・区分化・検索・抽出に関するものであり、またそ
の手法として特に、音声データの話者認識、話者分類の
方法、装置にかかわるものである。詳しくは、ＡＶ（Ａ
ｕｄｉｏＶｉｄｅｏ）データの音声信号をその音声の
特徴量に基づいて話者グループに分類し、またＡＶデー
タの話者区間を検出し、話者によるＡＶデータの自動分
類および検索、抽出を可能にした技術である。

【０００２】

【従来の技術】近年のマルチメディアの普及とともに、
大量のＡＶデータを効率的に管理し、分類、検索、抽出
などを行う必要性が増してきた。例えば、ある登場人物
のシーンやその人物の会話シーンを大量のＡＶデータか
ら検索したり、またある人物の会話シーンだけをＡＶデ
ータから抽出して再生したりすることが必要となってい
る。

【０００３】従来は、このようにＡＶデータを登場人物
や話者によって抽出・検索などを行う場合は、まず人間
が手作業によってＡＶデータの付随情報をデータベース
に登録する必要があった。

【０００４】すなわち、ＡＶデータの再生出力を見なが
ら、ある登場人物や話者が会話している区間を探し、そ
の区間の情報とその話者の情報を手作業でデータベース
などに登録する。人間の手作業が必要なのは、話者の会
話区間とその話者の情報の自動検出が困難であったこと
が理由として挙げられる。

【０００５】一方、話者を自動で識別する技術として
は、自動話者識別システムの技術がある。しかし、後述
するように、従来の話者認識システムは、話者の識別・
照合を主な応用として研究・開発されており、予めすべ
ての話者の十分な学習データがあることを前提にしてい
る。

【０００６】従って、従来の話者認識技術をそのままＡ
Ｖデータの話者の会話シーンの検索などに適応すると、
ＡＶデータに登場するすべての話者の学習データが必要
になり、現実的に実現困難である。

【０００７】また、データベースに手作業によって登録
されたこれらの話者情報と会話区間のデータは、ＡＶデ
ータの検索・分類・抽出などに利用される。すなわち、
検索条件として、話者の名前などを入力し、その入力さ
れた話者の情報と、データベースに登録された情報を比
較して、条件に一致するＡＶデータの該当する部分を検
索・抽出する方法が一般的であった。

【０００８】図１１は、上述したような、従来の一般的
な、話者によるＡＶデータ検索システムの構成例を示す
ブロック図である。この従来のＡＶデータ検索システム
は、話者情報登録部１１０と、ＡＶデータ検索部１１５
とを有して構成される。話者情報登録部１１０は、一般
的に、入出力端末１１１と、ＡＶデータ再生装置１１２
と、情報記録装置１１３と、記録媒体１１４とを有して
構成される。また、ＡＶデータ検索部１１５は、一般的
に、上述した記録媒体１１４と、入力端末１１６と、情
報検索装置１１７と、ＡＶデータ再生装置１１８と、出
力装置１１９とを有して構成される。

【０００９】このように構成された従来のＡＶデータ検
索システムは、以下のような動作をする。まず、情報登
録に際して、話者情報登録部１１０において、作業者は
ＡＶデータ再生装置１１２によって再生されたＡＶデー
タの表示信号Ｓ１１１を入出力端末１１１の画面等で見
ながら同一話者の区間を探し、その位置と話者などの登
録情報Ｓ１１２を入出力端末１１１から情報記録装置１
１３に対して手作業で入力する。情報記録装置１１３は
入出力端末１１１から入力された登録情報Ｓ１１２を規
定の記録フォーマットに従って記録情報Ｓ１１３に変換
してこの記録情報Ｓ１１３をデータベースなどの記録媒
体１１４に記録する。

【００１０】次に、ＡＶデータ検索に際しては、ＡＶデ
ータ検索部１１５において、入力端末１１６から検索条
件Ｓ１１４として、所望の話者の情報、例えば名前など
を情報検索装置１１７に対して入力し、情報検索装置１
１７は入力端末１１６から入力された検索条件Ｓ１１４
と記録媒体１１４に記録されている記録情報Ｓ１１５と
を比較して、検索条件Ｓ１１４に一致する記録情報Ｓ１
１５を求める。そして、情報検索装置１１７は、この検
索条件Ｓ１１４と一致した記録情報Ｓ１１５に対応する
ＡＶデータと該当する会話シーンの位置など情報の検索
する。情報検索装置１１７からＡＶデータと該当する会
話シーンの位置などの検索結果表示出力Ｓ１１６は出力
装置１１９に出力されると同時に、検索情報Ｓ１１７は
ＡＶデータ再生装置１１８に供給され、この検索情報Ｓ
１１７に基づいてＡＶデータ再生装置１１８は該当する
ＡＶデータの一部区間を抽出して再生し、出力装置１１
９に再生出力Ｓ１１８が出力される。

【００１１】このようにして、検索条件として入力した
話者の会話シーンなどがＡＶデータから検索・抽出され
て、その検索結果と、抽出されたＡＶデータの会話シー
ンが出力される。なお、ＡＶデータ再生装置１１２、１
１８により再生されるＡＶデータとしては、音声データ
および画像データがある。

【００１２】一方、上述したように、音声の話者を識別
する技術としては、自動話者識別・照合技術が研究され
ている。この技術について従来の技術の概要を説明す
る。まず、話者認識には、話者識別と話者照合がある。
話者識別とは、入力された音声が予め登録されたうちの
どの話者であるかを判定し、話者照合とは、入力された
音声を予め登録されたデータと比較して本人であるかを
判定するものである。

【００１３】また、認識時に発声する言葉（キーワー
ド）が予め決められた発声内容依存型と、任意の言葉を
発声して認識をする発声内容独立型がある。一般的な音
声認識技術としては次のような技術がある。まず、ある
話者の音声信号の個人性を表す特徴量を抽出して、予め
学習データとして記録しておく。照合・識別の際には入
力された話者音声を分析して、その個人性を表す特徴量
を抽出して、学習データとの類似度を評価することで、
話者の識別・照合を行う。

【００１４】ここで、音声の個人性を表す特徴量として
は、ケプストラム（Ｃｅｐｓｔｒｕｍ）などが良く用い
られる。ケプストラムは対数スペクトルをフーリエ逆変
換したもので、その低次の項の係数によって音声スペク
トルの包絡を表現できる。また、ケプストラム時系列の
多項式展開係数をデルタケプストラムと呼び、これも音
声スペクトルの時間的変化を表現する特徴量として良く
用いられる。この他、ピッチやデルタピッチ（ピッチの
多項式展開係数）なども用いられることがある。

【００１５】このようにして抽出されたＬＰＣ（Ｌｉｎ
ｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）ケプス
トラムなどの特徴量を標準パターンとして学習データを
作成するが、その方法としては、ベクトル量子化歪みに
よる方法と隠れマルコフモデル（ＨＭＭ（Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌ））による方法が代表的で
ある。ベクトル量子化歪みによる方法では、あらかじめ
話者ごとの特徴量をグループ化してその重心を符号帳
（コードブック（Ｃｏｄｅｂｏｏｋ））の要素（コード
ベクトル（Ｃｏｄｅｖｅｃｔｏｒ））として蓄えてお
く。そして、入力された音声の特徴量を各話者のコード
ブックでベクトル量子化して、その入力音声全体に対す
る各コードブックの平均量子化歪みを求める。

【００１６】そして話者認識の場合は、その平均量子化
歪みの最も小さいコードブックの話者を選択し、話者照
合の場合は、該当する話者のコードブックによる平均量
子化歪みを閾値と比較して本人かどうかを判定する。一
方、ＨＭＭによる方法では、各話者の特徴は隠れマルコ
フモデル（ＨＭＭ）の状態間の遷移確率と各状態での特
徴量の出現確率によって表現され、入力音声区間全体で
モデルとの平均尤度によって判定をする。

【００１７】これらの従来技術について詳しくは、たと
えば、以下の文献などに記述されている。 [1] 古井：" ケプストラムの統計的特徴による話者認
識",信学論 volJ65-A, No.2 183-190(1982) [2] F.K.Soong and A.E.Rosenberg: "On the Use of In
stantaneous and Transitional Spectral Information
in Speaker Recognition.", IEEE Trans. ASSP,Vol.36,
NO.6, 871-879 (1988) [3] 古井：”声の個人性の話”, 日本音響学会誌, 51,1
1,pp. 876-881,(1995) [4] 松井："HMMによる話者認識",信学技報,Vol.95 No.
467, (SP95 109-116) pp.17-24 (1996)

【００１８】ここで、従来技術の話者認識技術におい
て、特徴量としてＬＰＣケプストラムを用い、そのベク
トル量子化歪みを利用して話者識別を行う方法について
詳しく説明する。

【００１９】まず、入力された音声信号をブロック単位
にＬＰＣ分析（線形予測分析）を行い線形予測係数（Ｌ
ＰＣ係数）を求める。分析ブロック長としては音声では
一般的に２０〜３０ミリ秒程度が用いられる。入力信号
のサンプルｘｔを過去のＰ個のサンプルから次の数１式
のように予測する。

【００２０】

【数１】

【００２１】なお、一般的に線形予測の次数Ｐとして
は、１０〜２０次程度が用いられる。ここで、数１式の
線形予測をｘ＊と表わす。そして線形予測誤差ε＝ｘ＊
ｔ−ｘｔを最小化する線形予測係数ａｉを最小二乗法に
よって求める。最小二乗法の解を求める方法としては、
共分散法と自己相関法があり、特に自己相関法は、その
係数行列の正定値性が保証されて解を必ず求めることが
でき、また、Durbinの再帰法によって効率的に求めるこ
とが可能であることから広く利用されている。求めたＰ
個の線形予測係数により、推定される全極型音声モデル
の生成関数は次の数２式のように表わされる。

【００２２】

【数２】

【００２３】ケプストラムは、音声の対数スペクトルの
逆フーリエ変換であるから、ＬＰＣ分析による音声モデ
ルのケプストラムは、ケプストラムのフーリエ変換をＣ
（ω）とすると、数３式で表わされる。

【００２４】

【数３】

【００２５】ここでフーリエ変換を両側Ｚ変換に拡張し
て一般化すると、数４式と記述できる。

【００２６】

【数４】

【００２７】Ｃ（Ｚ）の逆Ｚ変換ｃｉは複素ケプストラ
ムと呼ばれている。ここで、ＬＰＣ係数ａｉを直接複素
ケプストラムｃｉに変換する方法が知られている。すな
わち、以下の数５式、数６式、数７式のような漸化式か
ら複素ケプストラムを順次求めることができる。

【００２８】

【数５】

【００２９】

【数６】

【００３０】

【数７】

【００３１】このようにしてＬＰＣ分析から求めたｃｎ
を特にＬＰＣケプストラムと呼ぶ。話者認識において
は、求めた特徴量（ＬＰＣケプストラム等）に対して複
数のコードブックでベクトル量子化を施し、その平均量
子化歪みを最小にするコードブックを選出する。まず、
ｉ番目のＬＰＣ分析ブロックにおけるＰ個の特徴量ベク
トルを数８式とする。

【００３２】

【数８】

【００３３】たとえば、１〜Ｐ次のＬＰＣケプストラム
を特徴量として用いる場合は、特徴量ベクトルとＬＰＣ
ケプストラムの特徴量ベクトルとは数９式の関係とな
る。

【００３４】

【数９】

【００３５】また、コードブックｋのｊ番目のセントロ
イド（コードベクトル）を数１０式とする。

【００３６】

【数１０】

【００３７】ここで、特徴量ベクトルｘｉとセントロイ
ドｒｊｋとの重み付距離を次の数１１式のように定義す
る。

【００３８】

【数１１】

【００３９】ｉブロックのコードブックｋによるベクト
ル量子化歪みｄｋ（ｉ）を数１２式のように求める。

【００４０】

【数１２】

【００４１】各ブロック毎のベクトル量子化歪みｄｋ
（ｉ）を求め、さらに、話者評価区間の全ブロック（ｉ
＝１，２，・・・Ｌ）における、コードブックｋの平均
量子化歪みＤｋを次の数１３式のようにして求める。

【００４２】

【数１３】

【００４３】この平均量子化歪みＤｋを最小にするコー
ドブックｋ’を求め、そのコードブックに対応する話者
を話者評価区間における話者として選出する。

【００４４】

【発明が解決しようとする課題】しかし、上述した従来
のＡＶデータの話者による区分化、分類、検索、抽出を
行おうとする場合には、まず人間がＡＶデータを見なが
ら手作業によりそれらの情報をデータベースに登録する
必要があった。この登録作業は膨大な時間と労力を要す
るものであり、自動的かつ効果的に話者区間を検出して
話者ごとにＡＶデータを区分化し、その話者の区分化情
報を登録する機構が必要であった。また、従来では手作
業により話者の名前などの識別子を直接登録するため、
登場人物の名前などがはっきり分からないと検索できな
かったという不都合があった。

【００４５】たとえば、あるＡＶデータの会話シーンが
あり、この会話の話者が登場する他のシーンもしくは他
のＡＶデータを検索・抽出したい場合などは、この話者
の名前が未知であれば検索することは不可能であった。
そこで、話者の名前等の識別名だけではなく、その話者
の音声の特徴を直接検索などで利用できるように、その
音声の特徴をできるだけ少ない情報量で登録して検索で
きることが望まれていた。

【００４６】一方、先述したように、従来の話者認識の
技術は、話者識別と話者照合を主な応用として研究され
ており、ＡＶデータにおける話者シーンの検索という用
途はあまり考慮されていない。特に、従来の話者認識で
は、話者ごとにあらかじめ十分な学習データが必要なた
め、その技術をそのままＡＶデータのシーン検索に応用
しても、ＡＶデータのすべての登場人物の学習データを
作成することは現実的に不可能であり、したがってあら
かじめ学習データのない話者の音声を含むシーンをＡＶ
データから効果的に検索することはできなかったという
不都合があった。

【００４７】そこで、本発明は、かかる点に鑑みてなさ
れたものであり、自動的かつ効果的に話者区間を検出し
て話者ごとにＡＶデータを区分化し、その話者の区分化
情報を登録すると共に、話者の音声の特徴を直接検索な
どで利用できるように、その音声の特徴をできるだけ少
ない情報量で登録して検索できる情報分類・区分化装
置、情報分類・区分化方法、情報検索・抽出装置、情報
検索・抽出方法、記録媒体および情報検索システムを提
供することを課題とする。

【００４８】

【課題を解決するための手段】本発明の情報分類・区分
化装置および情報分類・区分化方法は、情報源としての
ＡＶデータを入力する部分と、入力されたＡＶデータの
音声信号を分析して区間毎に話者グループに分類する部
分と、区間毎の話者グループの出現頻度が変位する位置
によって同一話者区間を検出する部分と、分類に必要な
複数の話者モデルもしくは学習データと、区間毎の分類
情報および話者区間の情報を出力する部分から構成され
るものである。

【００４９】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、入力されたＡＶデータの音
声信号を分類する部分が、音声信号をブロック毎にＬＰ
Ｃ分析する部分と、分析されたブロック毎のＬＰＣ係数
をＬＰＣケプストラム係数に変換する部分と、ＬＰＣケ
プストラム係数の一部を複数のコードブックでベクトル
量子化を施して量子化歪みを求める部分と、ベクトル量
子化歪みを評価して話者グループを求める部分から構成
されるものである。

【００５０】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、その区間毎に話者グループ
の変位によって同一話者区間を検出する部分が、特に、
ある話者グループの出現頻度がはじめて閾値を超える位
置を検出する部分と、その話者グループの出現頻度が再
び閾値以下になる位置を検出する部分と、それらの位置
をもってその話者グループの話者区間として判定する部
分から構成されるものである。

【００５１】また、本発明の記録媒体は、そのレコード
の項目が少なくとも、ＡＶデータのデータ名と、特定の
話者の会話区間を識別する識別番号と、その識別子で指
定される話者区間のＡＶデータ上における位置と、その
話者の音声を分類した分類グループの識別番号と、その
話者が属する話者グループの音声モデルもしくは学習デ
ータとの類似度、によって構成され、上述した情報分類
・区分化装置および情報分類・区分化方法によって記録
されるものである。とする。

【００５２】また、本発明の情報検索・抽出装置、情報
検索・抽出方法は、検索条件としての音声信号サンプル
を入力する部分と、入力した音声信号を分析して話者グ
ループに分類する部分と、分類に必要な話者モデルもし
くは学習データと上述した記録媒体と、その記録媒体に
記録された話者グループ情報と入力された音声信号の分
析から得られた話者グループを比較する部分と、その比
較によって入力された音声と類似する話者の音声を含む
ＡＶデータおよびその音声区間の情報を記録媒体から検
索して出力する部分と、その検索されたＡＶデータの音
声区間に対応するデータをＡＶデータから抽出する部分
から構成されるものである。

【００５３】また、本発明の情報検索・抽出装置、情報
検索・抽出方法は、検索条件としての話者グループ識別
子を入力する部分と、上述した記録媒体に記録された話
者グループ情報と入力された話者グループを比較する部
分と、その比較によって入力された話者グループに一致
する話者の音声を含むＡＶデータおよびその音声区間の
情報を記録媒体から検索して出力する部分と、その検索
されたＡＶデータの音声区間に対応するデータをＡＶデ
ータから抽出する部分から構成されるものである。

【００５４】また、本発明の情報検索・抽出装置、情報
検索・抽出方法は、入力されたＡＶデータの音声信号を
分類する部分が、その音声信号をブロック毎にＬＰＣ分
析する部分と、分析されたブロック毎のＬＰＣ係数をＬ
ＰＣケプストラム係数に変換する部分と、ＬＰＣケプス
トラム係数の一部を複数のコードブックでベクトル量子
化を施して量子化歪みを求める部分と、ベクトル量子化
歪みを評価して話者グループを求める部分から構成され
るものである。

【００５５】また、本発明の情報検索システムは、情報
分類・区分化装置と情報検索・抽出装置とを有して構成
され、情報分類・区分化装置は、情報源としてのＡＶデ
ータを入力する部分と、入力されたＡＶデータの音声信
号を分析して区間毎に話者グループに分類する部分と、
区間毎の話者グループの出現頻度が変位する位置によっ
て同一話者区間を検出する部分と、分類に必要な複数の
話者モデルもしくは学習データと、区間毎の分類情報お
よび話者区間の情報を出力する部分から構成され、情報
検索・抽出装置は、検索条件としての音声信号サンプル
を入力する部分と、入力した音声信号を分析して話者グ
ループに分類する部分と、分類に必要な話者モデルもし
くは学習データと上述した記録媒体と、その記録媒体に
記録された話者グループ情報と入力された音声信号の分
析から得られた話者グループを比較する部分と、その比
較によって入力された音声と類似する話者の音声を含む
ＡＶデータおよびその音声区間の情報を記録媒体から検
索して出力する部分と、その検索されたＡＶデータの音
声区間に対応するデータをＡＶデータから抽出する部分
から構成されるものである。

【００５６】従って本発明によれば、以下の作用をす
る。本発明の情報分類・区分化装置および情報分類・区
分化方法によれば、いわゆる、音声を含むＡＶデータの
分類・区分化において、音声信号の話者を音声の特徴に
基づいて、話者グループへ分類すると共に、話者の各分
類グループへの分類頻度の変位に基づいて話者区間を検
出する。

【００５７】また、本発明の記録媒体によれば、検出し
た分類情報と話者区間の情報をデータベースなどの記録
媒体に記録する。

【００５８】また、本発明の情報検索・抽出装置、情報
検索・抽出方法によれば、データベースなどの記録媒体
に記録されたこれらの話者情報と、入力された検索条件
との比較をすることにより、ＡＶデータにおいて、自動
的かつ効率的に話者による区分化と分類を行い、さらに
所望の話者と類似した音声を含むＡＶデータの部分区間
の検索・抽出を可能にする。

【００５９】また、本発明の情報検索システムによれ
ば、情報分類・区分化装置において、いわゆる、音声を
含むＡＶデータの分類・区分化において、音声信号の話
者を音声の特徴に基づいて、話者グループへ分類すると
共に、話者の各分類グループへの分類頻度の変位に基づ
いて話者区間を検出し、情報検索・抽出装置において、
データベースなどの記録媒体に記録されたこれらの話者
情報と、入力された検索条件との比較をすることによ
り、ＡＶデータにおいて、自動的かつ効率的に話者によ
る区分化と分類を行い、さらに所望の話者と類似した音
声を含むＡＶデータの部分区間の検索・抽出を可能にす
る。

【００６０】

【発明の実施の形態】以下に、本発明の実施の形態を説
明する。まず、本実施の形態を説明する前に、本発明の
概念を説明する。図１は、本発明の概念を表わす構成図
である。本発明は、図１で示されるように、分類・区分
化・登録部１と、検索・抽出部３と、それを媒介する記
録媒体２とこれらの部分の関係から成り立つ。

【００６１】分類・区分化・登録部１は、次のことを特
徴とする。すなわち、話者分類・話者区間検出部６は、
入力されたＡＶデータ４もしくは音声データの音声信号
を分析して話者の特徴量を抽出し、その特徴量をあらか
じめ作成した話者モデルや話者の学習データ５との類似
度を比較して、音声信号の話者をいづれかの話者グルー
プに分類する。さらに、話者分類・話者区間検出部６
は、この各グループの出現頻度が変化する位置を検出す
ることで、同一話者が連続して会話をしている話者区間
を検出する。そして、検出したこれらの話者区間情報と
話者の分類情報を記録媒体２に記録する。

【００６２】検索・抽出部３は、次のことを特徴とす
る。すなわち、入力された音声サンプル７を話者分類部
９により話者分類し、この話者分類情報または話者の検
索条件８を話者情報の検索部１０に入力し、話者情報の
検索部１０は、記録媒体２の話者分類情報と、入力され
た音声サンプル７の話者分類情報または検索条件８とを
比較して、条件に一致するものを検索・抽出する。話者
情報の検索部１０は、検索結果１２を出力し、条件に一
致したＡＶデータをＡＶデータ抽出部１１から抽出し
て、ＡＶデータ抽出部１１は抽出ＡＶデータ１３を出力
する。

【００６３】これにより、音声信号を話者グループに分
類することにより、話者認識を用いて情報源としてのＡ
Ｖデータを検索することができる。

【００６４】また、ここで話者分類・話者区間検出部６
における話者グループとは、単数および複数を示すもの
であり、単数の場合には、本人を含むため、話者認識を
用いて本人識別を行うことができる。また、単数または
複数の場合には、誰か似ている人または人のグループに
分類する。以下の各図においても同様である。

【００６５】また、話者モデル・話者の学習データ５に
おける話者モデルはモデル化されたデータを示し、話者
の学習データは本人識別用に用いることができる。

【００６６】また、記録媒体２には、分類・区分化・登
録部１により分類・区分化されたデータ名とその位置情
報とが記録される。

【００６７】また、検索・抽出部３において音声サンプ
ル７を話者分類部９により話者分類した話者分類情報
と、話者の検索条件８とは同様の情報である。従って、
話者情報の検索部１０は音声サンプル７の話者分類情報
および話者の検索条件８の入力により同様の動作をす
る。

【００６８】以下に図を追って本発明の実施の形態を説
明する。図２は、本実施の形態が適用されるＡＶデータ
検索システムの分類・区分化・登録部の構成例の一つを
示すブロック図である。図２において、２０はＡＶデー
タの音声信号を入力する入力部であり、２１は音声信号
をＬＰＣ分析するＬＰＣ分析部であり、２２はＬＰＣ係
数をＬＰＣケプストラム係数に変換するケプストラム変
換部であり、２３はベクトル量子化に用いるコードブッ
ク群であり、２４はＬＰＣケプストラム係数をベクトル
量子化するベクトル量子化部であり、２５はベクトル量
子化の結果を評価して話者をグループに分類する話者グ
ループ判定部であり、２６は話者グループの分類頻度の
変位を評価して話者区間を判定する話者区間判定部であ
り、２７は話者区間と話者グループの情報を記録するた
めのデータベースである。

【００６９】このように構成されたＡＶデータ検索シス
テムの分類・区分化・登録部の動作を以下に説明する。
入力部２０から入力されたＡＶデータの音声信号Ｓ２１
は、ブロック毎にＬＰＣ分析部２１に入力されてＬＰＣ
分析が施され、得られたブロック毎のＬＰＣ係数Ｓ２２
はケプストラム変換部２２に入力されてブロック毎のＬ
ＰＣケプストラム係数Ｓ２３に変換される。

【００７０】得られたＬＰＣケプストラム係数Ｓ２３は
ベクトル量子化部２４に入力されて、コードブック２３
からのコードブック情報Ｓ２４を用いてベクトル量子化
される。コードブック２３は複数のコードブックからな
り、それぞれのコードブックでベクトル量子化部２４に
対してベクトル量子化を施す。ベクトル量子化された結
果Ｓ２５は話者グループ判定部２５において評価され
て、このブロックを話者グループＳ２６に分類する。

【００７１】そして、判定された話者グループＳ２６は
話者区間判定部２６に入力され、各話者グループの出現
頻度の変位を評価区間毎に評価して、同一話者の区間を
判定する。判定された話者区間の情報Ｓ２７は、例えば
図３に示すような記録形式でデータベース２７に記録さ
れる。

【００７２】なお、ＬＰＣ分析部２１は、ＡＶデータの
音声信号Ｓ２１の波形のスペクトル包絡から特徴量とし
てＬＰＣ係数Ｓ２２を取り出すようにしている。ＬＰＣ
係数Ｓ２２の取り出しは、ＬＰＣ分析の評価単位である
ブロック毎に行われる。

【００７３】また、ケプストラム変換部２２は、ＬＰＣ
係数Ｓ２２を、線形予測モデルによるケプストラムであ
るＬＰＣケプストラム係数Ｓ２３に変換する。

【００７４】また、コードブック２３は、予めＬＰＣ分
析およびケプストラム変換を行って学習用データとして
話者グループごとのテンプレート情報であるコードブッ
クを有している。

【００７５】また、話者グループ判定部２５は、歪みの
小さいコードブックを探して、歪みの程度が小さいとき
は本人であると認識し、歪みの程度が大きいときは本人
でないと認識する。

【００７６】また、話者区間判定部２６は、特定話者の
出現頻度に基づいて、過去数秒間に何秒から何秒まで何
回出現したかという判定から、同一話者区間を認識す
る。

【００７７】図３は本実施の形態の一部である記録媒体
の記録形式を示す具体例である。図３において、例え
ば、記録媒体として図２に示したデータベース２７に
は、ＡＶデータ名３０、話者区間番号３１、区間開始位
置３２、区間長３３、グループ番号３４、類似度３５が
記録される。

【００７８】図２の分類・区分化・登録部の構成例の実
際の処理と動作についてさらに詳しく説明する。図２の
ＡＶデータ検索システムの分類・区分化・登録部の動作
は大きく分けて二つの部分からなる。すなわち、入力さ
れた音声データをある評価ブロックごとに話者グループ
に分類する部分と、各話者グループの出現頻度にもとづ
いて話者区間の開始と終了を検出する部分である。

【００７９】まず、処理単位のブロックについて説明す
る。図４は、話者評価ブロックとＬＰＣ分析ブロックと
話者区間の関係について説明した図である。まず、入力
されたＡＶデータの音声信号を区間長Ｌの話者評価ブロ
ックに分割する。ｋ番目の話者評価ブロックの開始位置
をｎｋとする。この評価ブロック単位に音声信号の分類
処理を行う。したがって、区間長Ｌは同一の話者が連続
して発声している程度の時間長で、かつ話者を分類する
のに十分な程度の時間長が望ましい（固定長である必要
はない）。たとえば、１秒から数秒程度が望ましい。

【００８０】各話者評価ブロックにおける話者分類処理
は、この話者評価ブロックの信号をさらに、ＬＰＣなど
の特徴量を分析する単位である分析ブロックに分割して
行う。図４では評価ブロックＬをさらに区間長ＮのＬＰ
Ｃ分析ブロックに分割している。この分割ブロックは話
者を分類する処理において音声の特徴量を分析する最小
単位である。分析ブロックは隣接ブロックとオーバーラ
ップしていてもよく、ＬＰＣ分析においては各ブロック
を滑らかに変化させるためオーバーラップ区間がよく用
いられる。このＬＰＣ分析ブロック単位にＬＰＣ分析を
行い、音声信号のＬＰＣケプストラム係数を抽出してベ
クトル量子化処理を施す。

【００８１】話者区間の検出処理は、話者評価ブロック
ごとに、各話者グループへの分類頻度の変位を評価して
行う。図４において、ＳＩはＡの話者区間４０（Ｉ番目
の話者区間）の開始と判定された位置であり、遷移区間
４１において話者グループがＡからＢにしだいに変位
し、ＳＩ＋１はＢの話者区間４２（Ｉ＋１番目の話者区
間）の開始と判定された位置である。

【００８２】なお、図４において、話者評価ブロックＬ
は各ブロックを滑らかに変化させるため隣接ブロックと
オーバーラップしていてもよい。

【００８３】なお、話者評価ブロックＬは例えば１〜２
ｓｅｃ、ＬＰＣ分析ブロックＮは例えば２０〜３０ｍｓ
ｅｃである。

【００８４】このようなＬＰＣ分析ブロックＮからなる
話者評価ブロックＬが数秒間所定の出現頻度％を超えた
ことを検出することにより、話者区間を検出することが
できる。

【００８５】話者グループの分類頻度の変位による話者
区間の検出方法について、具体的な例を図５を用いて説
明する。図５は、各話者グループ（Ａ，Ｂ，Ｃ，Ｄ）に
分類された頻度（分類頻度）を示している。ある評価ブ
ロックにおける分類頻度は、たとえば、現在の評価ブロ
ックからＪブロック前までの、あるいは前後Ｊ／２ブロ
ックの出現回数などをもとに求めることができる。Ｊの
大きさは任意であるが、検出性能を考慮して数ブロック
から１０ブロック程度が望ましい。ある話者グループの
分類頻度がある閾値を超えた場合、その話者区間である
と判定する。図５においては、はじめは話者グループＡ
の分類頻度が閾値５３を超えているのでＡの話者区間５
０と判定し、Ａの分類頻度が閾値５３以下になった位置
をＡの話者区間５０の終了と判定し、Ａ，Ｂ，Ｃ，Ｄす
べての各話者グループが閾値５３以下の区間は遷移区間
５１と判定し、Ｂの分類頻度が閾値５３以上になった位
置をＢの話者区間５２の開始と判定する。

【００８６】なお、閾値としては、例えば特定話者が１
０秒間に８回出現した８０％を境にして同一話者区間と
判定することができる。

【００８７】話者区間判定部分の詳しい動作をフローチ
ャートとして図６に示した。図６は、図２の話者区間判
定部の動作を示すものである。図６において、まず、ス
テップＳ１で、話者区間番号Ｉ、評価ブロック番号ｋ、
最初の評価ブロックの開始位置ｎ０、現在話者グループ
ｇなどを初期化する。ここで、ｇ＝０は、話者の遷移区
間を意味するとする。ステップＳ２で、ｋ番目の評価ブ
ロック（ｎｋ〜ｎｋ＋１）のデータを話者分類してその
話者グループの番号ｇｋを求める。詳しい話者グループ
の求め方は後の図７で述べる。次に、ステップＳ３で、
その話者グループｇｋの出現頻度Ｐ（ｇｋ）を求める。
そして、ステップＳ４で、現在の区間が遷移区間である
（ｇ＝０）ならば、次のステップＳ５で話者区間の開始
位置を検出する処理を行い、ステップＳ４で、遷移区間
でなければ（すなわち、ある話者区間であれば）、ステ
ップＳ８で、現在の話者区間の終了位置を検出する処理
を行う。

【００８８】ステップＳ５の開始位置の検出処理では、
ステップＳ６で、出現頻度Ｐ（ｇｋ）が閾値を超えるか
どうか判別し、超えていればステップＳ７で評価ブロッ
クｎｋの位置をグループｇｋの話者区間の開始と判定
し、話者区間開始処理を行う。すなわち、Ｉ番目の区間
開始位置ＳＩをｎｋとして記憶し、現在の話者区間のグ
ループ番号ｇをｇｋとして記憶し、ステップＳ１１で次
の（ｋ＋１番目の）評価ブロックに移る。

【００８９】ステップＳ６で、出現頻度が閾値を超えて
いなければ、そのままステップＳ１１で次の評価ブロッ
クに移る。

【００９０】一方、ステップＳ８の終了位置検出処理で
は、ステップＳ９で、現在の話者区間の話者グループｇ
について、出現頻度Ｐ（ｇ）が閾値を超えているかどう
かを判別し、超えていればそのまま話者区間の継続と判
定してステップＳ１１で次の評価ブロックに移る。ま
た、ステップＳ９で、閾値を超えていなければ、話者区
間の終了と判定して、ステップＳ１０で、話者区間終了
処理を行う。すなわち、区間長とその話者区間全体にわ
たる類似度を求め、データベースに、開始位置、話者グ
ループ、区間長、類似度などを記録するとともに、話者
グループ番号をリセットし（遷移区間になったことを意
味する）、話者区間番号を一つ増やし、そして、次の評
価ブロックに移る。

【００９１】ここで、情報を記録するデータベースは、
本実施の形態の一部である記録媒体であり、たとえば、
図３に示すようなレコード形式であり、ＡＶデータ名３
０、話者区間の番号３１、区間開始位置３２、区間長３
３、話者グループ番号３４、話者グループとの類似度３
５などの情報項目からなる。なおここで言う類似度とし
ては、たとえば一例として、各評価ブロックの分類処理
によって求まった量子化歪みの逆数の、話者区間全体に
わたる平均などを用いることができる。

【００９２】このようにして、各評価ブロックごとに話
者グループを求め、話者区間の開始と終了を検出しなが
ら、入力データの終了までこれらの処理を繰り返す。

【００９３】次に、各話者評価ブロックにおいて、音声
信号を話者グループに分類する部分の処理の詳しい説明
を図７のフローチャートに従って説明する。図７は、従
来の一般的な話者識別技術を用いて話者を識別もしくは
分類する処理の例である。図７における各処理の詳細と
計算方法は、従来の技術の項目において説明しているも
のと同様である。図７は、図２の話者グループ判定部２
５の動作を示すものである。

【００９４】まず、ステップＳ２１で、前述したよう
に、話者評価ブロックを図４のようにブロック長ＮのＬ
ＰＣ分析ブロック（オーバーラップブロックも可能）に
分割し、各ＬＰＣ分析ブロックごとに音声データを入力
データから読み込む。ステップＳ２２で、得られたＬＰ
Ｃ分析ブロックが話者評価ブロックの最後のＬＰＣブロ
ックであるか否かの判定を行い、最後のＬＰＣブロック
でないときは、ステップＳ２３へ進み、最後のＬＰＣブ
ロックであるときは、ステップＳ２７へ進む。そして、
ステップＳ２２において最後のＬＰＣブロックでないと
きは、ステップＳ２３で、そのＬＰＣ分析ブロックが音
声ブロックであるか否かの判定を行う。

【００９５】すなわち、ステップＳ２３で、そのＬＰＣ
分析ブロックが無音ブロックもしくは非音声ブロックで
あれば、このブロックの分析をスキップしてステップＳ
２６の次のブロックに進む。音声信号ブロックかどうか
の判定は、たとえば、信号の平均パワー、ゼロ交差数、
ピッチの有無などから判定することができるが、本実施
の形態ではその手法は限定しない。

【００９６】ステップＳ２３において、音声ブロックと
判定された場合は、続いてステップＳ２４でそのブロッ
クのＬＰＣ分析を行う。たとえば、１０次程度のＬＰＣ
分析を行って、ＬＰＣ係数を求め、ＬＰＣケプストラム
に変換し、その低次の項の係数を抽出する。ここでは１
次〜１０次程度までのＬＰＣケプストラム係数の利用が
好ましい。

【００９７】次に、ステップＳ２５で得られたＬＰＣケ
プストラム係数に複数のコードブックでベクトル量子化
を施す。話者グループはそれぞれのコードブックに一対
一に対応する。ここでは、Ｋ個のコードブックが（すな
わちＫ個の話者グループ）あるとする。コードブックｋ
によるこの分析ブロックにおけるＬＰＣケプストラム係
数のベクトル量子化歪みをｄｋとする。

【００９８】ベクトル量子化歪みを求めたらステップＳ
２６で次のＬＰＣ分析ブロックに進み、ステップＳ２１
へ戻り同様にしてステップＳ２１〜ステップＳ２６まで
のこの処理を繰り返す。ステップＳ２２で話者評価ブロ
ックの最後まで処理したら繰り返しを抜ける。

【００９９】そして次に、ステップＳ２７で評価ブロッ
ク全体にわたる各コードブックの平均量子化歪みＤｋを
求める。すなわち、Ｄｋはｄｋの平均値である。そし
て、ステップＳ２８で平均量子化歪みＤｋを最小にする
ようなコードブックｋ’を選び、ステップＳ２９でこの
コードブックｋ’をこの話者評価ブロックにおける分類
グループとして出力する。

【０１００】次に、本実施の形態の検索・抽出部分の説
明をする。図８は、本実施の形態の検索・抽出部分の具
体的な構成例である。図８の検索・抽出部分は図２のＡ
Ｖデータ検索システムの分類・区分化・登録部により登
録された分類情報を用いて所望の情報の検索を行うもの
である。図２の分類・区分化・登録部および図８の検索
・抽出部分とでＡＶデータ検索システムを構成する。

【０１０１】まず検索・抽出部分の構成を説明する。音
声データの入力部８０とＬＰＣ分析部８１と、ケプスト
ラム変換部８２と、ベクトル量子化コードブック群８３
と、ベクトル量子化部８４とデータ比較部８５と、デー
タベース８６と、検索結果の出力部８７Ａと、ＡＶデー
タから検索された部分を抽出する検索データ抽出部８８
と、抽出されたＡＶデータの出力部８７Ｂと、ＡＶデー
タ８９などから構成される。

【０１０２】次に、図８の検索・抽出部分の構成の動作
を説明する。入力部８０から、検索条件として、特定話
者（単一話者）の音声のサンプルデータＳ８１を入力
し、上記図２の構成の説明で述べた方法と同様にして、
その入力音声を話者グループに分類して話者グループを
求める。すなわち、ＬＰＣ分析部８１によってＬＰＣ分
析ブロック単位にＬＰＣ分析を行い、求められたＬＰＣ
係数Ｓ８２はケプストラム変換部８２によってＬＰＣケ
プストラム係数に変換され、ＬＰＣケプストラム係数の
抽出された低次の係数Ｓ８３はベクトル量子化部８４に
入力され、その低次係数はＫ個の複数コードブック８３
（図２の２３のコードブック群と同じもの）を用いてベ
クトル量子化が施され、入力音声Ｓ８１の全区間を一つ
の話者評価区間とみなして、量子化歪みを最小にするコ
ードブックを選び、その選ばれたコードブック番号を入
力音声の話者グループ番号とする。

【０１０３】こうして求めた話者音声サンプルの話者グ
ループＳ８５は、データ比較部８５によってデータベー
ス８６に登録されている話者グループ番号と比較され、
話者グループ番号が一致するデータを検索し、その検索
されたデータのＡＶデータ名、話者区間などの情報を検
索結果Ｓ８６として出力部８７Ａに出力する。なお、デ
ータベース８６は図２の２７のデータベースであり、図
２のような構成の装置によりすでに図３のような形式で
情報が記録されている。さらに、検索データ抽出部８３
は、検索結果Ｓ８６に基づいてＡＶデータの検索された
話者区間に該当する部分のデータＳ８８をＡＶデータ８
９から抽出して、その抽出されたＡＶデータＳ８７を出
力部８７Ｂに出力する。なお、ＡＶデータ８９は図２の
入力部２０に入力されるＡＶデータの音声信号に対応す
るものである。

【０１０４】図９は、本実施の形態の検索・抽出部分の
具体的な第二の構成例である。図８の他の検索・抽出部
分の構成例では、検索条件として特定話者の音声サンプ
ルを入力したが、図９の構成例では、検索条件の入力と
して、話者グループ番号などを直接指定して、その話者
グループ番号に一致する話者の話者区間をデータベース
９２から検索し、その検索結果と抽出されたＡＶデータ
を出力するものである。図９の構成を説明する。９０は
検索条件を入力する入力部、９１は入力された検索条件
とデータベース９２に記録された情報とを比較してデー
タを検索するデータ比較部、９３は検索結果を出力する
出力部、９４はＡＶデータ９５からデータを抽出する検
索データ抽出部、９６は抽出されたＡＶデータが出力さ
れるＡＶデータ出力部である。なお、ＡＶデータ９５は
図２の入力部２０に入力されるＡＶデータの音声信号に
対応するものである。

【０１０５】次に他の検索・抽出部分の動作を説明する
が、データ比較部９１以降の動作は上記図８の構成の説
明と同様である。入力部９０から検索条件として入力さ
れた話者グループ番号Ｓ９１は、データ比較部９１に供
給され、データ比較部９１によって、その話者グループ
番号と一致する話者グループの話者区間の情報Ｓ９２を
データベース９２から検索して、その検索結果Ｓ９３は
出力部９３に出力される。また、検索結果Ｓ９３（ＡＶ
データ名、話者区間の情報）は検索データ抽出部９４に
入力されて、検索データ抽出部９４は検索結果に対応す
るＡＶデータの該当部分Ｓ９４をＡＶデータ９５から抽
出し、その抽出されたＡＶデータＳ９５を出力部９６に
出力する。

【０１０６】図１０は、図８の検索・抽出部および図９
の他の検索・抽出部の構成例における処理の流れを示す
フローチャートである。図１０に沿って図８および図９
の構成の処理を説明する。図１０は、主に、図８の検索
データ抽出部８８、図９の検索データ抽出部９４の動作
を示すものである。

【０１０７】図８の検索・抽出部の構成の場合は、ま
ず、ステップＳ３１で、検索したい話者グループのサン
プル音声を検索条件として入力する。そして、ステップ
Ｓ３２で、図２のＡＶデータ検索システムの構成の説明
と同様にして（図７の音声信号の話者グループ分類方法
により）話者分類を行い、サンプル音声を話者グループ
に分類する。また、図９の他の検索・抽出部の構成の場
合は、ステップＳ３３で、検索したい話者グループの識
別名を直接入力する。以降のステップＳ３４〜ステップ
Ｓ３６の処理は図８の検索・抽出部と図９の他の検索・
抽出部で共通である。具体的には、次に、ステップＳ３
４で、データベースを参照して、話者グループが検索条
件に一致する情報を検索する。そして、ステップＳ３５
で、たとえば、ＡＶデータ名、そのＡＶデータ中におけ
る位置などの情報を検索結果として出力する。また、ス
テップＳ３６で、検索結果のＡＶデータ名と位置に対応
するデータをそのＡＶデータから部分的に抽出して、再
生出力する。

【０１０８】このようにして、検索条件として、話者グ
ループもしくは、話者のサンプル音声を指定すること
で、その話者に類似した音声を含むデータが検索・抽出
される。なお、上述において、話者グループとは、単数
および複数を示すものであり、単数の場合には、本人を
含むため、話者認識を用いて本人識別を行うことができ
る。

【０１０９】なお、上述において、コードブックは、Ａ
Ｖデータの入力があれば、例えば、予め１分程度サンプ
リングすることにより生成することができる。

【０１１０】また、上述において、情報分類・区分化装
置、記録媒体、情報検索・抽出装置をそれぞれ単体で構
成するようにしても良く、また、これらを一体の筐体に
収めて、もしくは相互に接続して情報検索システムを構
成するようにしても良い。

【０１１１】

【発明の効果】本発明の情報分類・区分化装置および情
報分類・区分化方法によれば、いわゆる、音声を含むＡ
Ｖデータの分類・区分化において、音声信号の話者を音
声の特徴に基づいて、話者グループへ分類すると共に、
話者の各分類グループへの分類頻度の変位に基づいて話
者区間を検出するので、ＡＶデータにおいて話者の会話
区間を自動的かつ効果的に検出し、かつ話者の会話区間
毎にＡＶデータを効果的に区分化し、各区間を話者ごと
に分類することができるという効果を奏する。

【０１１２】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、入力されたＡＶデータの音
声信号を分類する部分が、音声信号をブロック毎にＬＰ
Ｃ分析する部分と、分析されたブロック毎のＬＰＣ係数
をＬＰＣケプストラム係数に変換する部分と、ＬＰＣケ
プストラム係数の一部を複数のコードブックでベクトル
量子化を施して量子化歪みを求める部分と、ベクトル量
子化歪みを評価して話者グループを求める部分から構成
されるので、音声信号に対してＬＰＣ分析およびケプス
トラム変換を行って話者グループごとの特徴量を取り出
し、歪みの小さいコードブックを探して、歪みの程度が
小さいときは本人であると認識し、歪みの程度が大きい
ときは本人でないと認識することができるという効果を
奏する。

【０１１３】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、その区間毎に話者グループ
の変位によって同一話者区間を検出する部分が、特に、
ある話者グループの出現頻度がはじめて閾値を超える位
置を検出する部分と、その話者グループの出現頻度が再
び閾値以下になる位置を検出する部分と、それらの位置
をもってその話者グループの話者区間として判定する部
分から構成されるので、ある話者グループの分類頻度が
ある閾値を超えた場合、その話者区間であると判定する
ことができるという効果を奏する。

【０１１４】また、本発明の記録媒体によれば、検出し
た分類情報と話者区間の情報をデータベースなどの記録
媒体に記録するので、その検索に用いる記録媒体への情
報の記録を効果的かつ自動的に行うことができ、さらに
これによって得られた情報を記録媒体に記録することで
その情報を再利用することができるという効果を奏す
る。

【０１１５】また、本発明の情報検索・抽出装置および
情報検索・抽出方法によれば、データベースなどの記録
媒体に記録されたこれらの話者情報と、入力された検索
条件との比較をすることにより、ＡＶデータにおいて、
自動的かつ効率的に話者による区分化と分類を行い、さ
らに所望の話者と類似した音声を含むＡＶデータの部分
区間の検索・抽出を可能にするので、ＡＶデータを検索
・抽出する際に、音声サンプルや話者の分類情報などを
検索条件として指定することで、所望の話者と類似した
音声の会話部分を効果的にＡＶデータから検索・抽出す
ることができるという効果を奏する。

【０１１６】また、本発明の情報検索・抽出装置および
情報検索・抽出方法は、検索条件としての話者グループ
識別子を入力する部分と、上述した記録媒体に記録され
た話者グループ情報と入力された話者グループを比較す
る部分と、その比較によって入力された話者グループに
一致する話者の音声を含むＡＶデータおよびその音声区
間の情報を記録媒体から検索して出力する部分と、その
検索されたＡＶデータの音声区間に対応するデータをＡ
Ｖデータから抽出する部分から構成されるので、検索条
件の入力として、話者グループ番号などを直接指定し
て、その話者グループ番号に一致する話者の話者区間を
データベースから検索し、その検索結果と抽出されたＡ
Ｖデータを出力することができるという効果を奏する。

【０１１７】また、本発明の情報検索・抽出装置および
情報検索・抽出方法は、入力されたＡＶデータの音声信
号を分類する部分が、その音声信号をブロック毎にＬＰ
Ｃ分析する部分と、分析されたブロック毎のＬＰＣ係数
をＬＰＣケプストラム係数に変換する部分と、ＬＰＣケ
プストラム係数の一部を複数のコードブックでベクトル
量子化を施して量子化歪みを求める部分と、ベクトル量
子化歪みを評価して話者グループを求める部分から構成
されるので、検索条件として特定話者の音声サンプルを
入力して、その話者グループを検出し、その話者グルー
プ番号に一致する話者の話者区間をデータベースから検
索し、その検索結果と抽出されたＡＶデータを出力する
ことができるという効果を奏する。

【０１１８】また、本発明の情報検索システムによれ
ば、情報分類・区分化装置において、音声信号の話者を
音声の特徴に基づいて、話者グループへ分類すると共
に、話者の各分類グループへの分類頻度の変位に基づい
て話者区間を検出し、情報検索・抽出装置において、デ
ータベースなどの記録媒体に記録されたこれらの話者情
報と、入力された検索条件との比較をすることにより、
ＡＶデータにおいて、自動的かつ効率的に話者による区
分化と分類を行い、さらに所望の話者と類似した音声を
含むＡＶデータの部分区間の検索・抽出を可能にするこ
とにより、ＡＶデータの、さらにその話者の会話区間を
検出し、それらの情報を記録媒体に記録し、その記録媒
体を話者の音声サンプルデータもしくは、話者の分類グ
ループを検索条件として指定することで、所望の話者の
会話シーンを効果的にＡＶデータから検索・抽出するこ
とができるという効果を奏する。

【図面の簡単な説明】

【図１】本発明の概念を示す図である。

【図２】本実施の形態が適用されるＡＶデータ検索シス
テムの分類・区分化・登録部の構成例を示すブロック図
である。

【図３】記録媒体の記録形式を示す図である。

【図４】話者評価ブロックとＬＰＣ分析ブロックと話者
区間の関係を示す図である。

【図５】話者グループの分類頻度の変位による話者区間
の検出方法を示す図である。

【図６】話者区間判定部分の詳細動作を示すフローチャ
ートである。

【図７】音声信号を話者グループに分類する部分の詳細
動作を示すフローチャートである。

【図８】情報の検索・抽出部に関する部分の構成例を示
すブロック図である。

【図９】他の情報の検索・抽出部に関する部分の構成例
を示すブロック図である。

【図１０】情報の検索・抽出部の動作を示すフローチャ
ートである。

【図１１】従来のＡＶデータ検索システムの構成例を示
すブロック図である。

【符号の説明】

１……分類・区分化・登録部、２……記録媒体、３……
検索・抽出部、４……ＡＶデータ、５……話者モデル・
学習データ、６……話者分類と話者区間検出、７……音
声サンプル、８……検索条件、９……話者分類、１０…
…話者情報の検索、１１……ＡＶデータ抽出、１２……
検索結果、１３……抽出ＡＶデータ、２０……入力部、
２１……ＬＰＣ分析部、２２……ケプストラム変換部、
２３……コードブック、２４……ベクトル量子化部、２
５……話者グループ判定部、２６……話者区間判定部、
２７……データベース、３０……ＡＶデータ名、３１…
…話者区間番号、３２……区間開始位置、３３……区間
長、３４……グループ番号、３５……類似度、４０……
Ａの話者区間、４１……遷移区間、４２……Ｂの話者区
間、Ｌ……話者評価ブロック、Ｎ……ＬＰＣ分析ブロッ
ク長、５０……Ａの話者区間、５１……遷移区間、５２
……Ｂの話者区間、５３……閾値、８０……入力部、８
１……ＬＰＣ分析部、８２……ケプストラム変換部、８
３……コードブック、８４……ベクトル量子化部、８５
……データ比較部、８６……データベース、８７Ａ……
出力部、８７Ｂ……出力部、８８……検索データ抽出
部、８９……ＡＶデータ、９０……入力部、９１……デ
ータ比較部、９２……データベース、９３……出力部、
９４……検索データ抽出部、９５……ＡＶデータ、９６
……出力部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考） // Ｇ１０Ｌ 101:04 Ｇ１０Ｌ 3/00 ５４５Ｃ 101:12 9/14 ３０１Ａ

Claims

【特許請求の範囲】

【請求項１】所定の情報源から所望の情報を検出する
ための情報分類・区分化装置において、上記情報源の音声信号を、上記音声信号中の音声の類似
性によって、ある評価区間毎に話者グループに分類する
話者分類手段と、上記話者分類手段により分類された上記話者グループの
出現頻度の変位を評価することにより上記情報源におけ
る上記話者グループの会話区間を検出する会話区間検出
手段と、を備え、上記情報源を上記話者グループの会話区間毎に
区分化することを特徴とする情報分類・区分化装置。
【請求項２】請求項１記載の情報分類・区分化装置に
おいて、上記情報源の音声信号中の音声の類似性を評価する特徴
量として、ＬＰＣ分析によって得られるＬＰＣケプスト
ラムを用い、分類の手法として、複数のコードブックに
よる特徴量のベクトル量子化を用い、分類の比較尺度と
してそのベクトル量子化歪みを用いることを特徴とする
情報分類・区分装置。
【請求項３】請求項１記載の情報分類・区分化装置に
おいて、上記話者グループの会話区間の検出は、その話者グルー
プの出現頻度の変位による話者の会話区間の検出方法で
あって、とりわけ、ある評価区間ごとの話者グループの
出現頻度が一定の閾値を超える連続区間をその話者グル
ープの話者区間として判定することを特徴とする情報分
類・区分装置。
【請求項４】所定の情報源から所望の情報を検出する
ための情報分類・区分化方法において、上記情報源の音声信号を、上記音声信号中の音声の類似
性によって、ある評価区間毎に話者グループに分類し、その分類された上記話者グループの出現頻度の変位を評
価することで上記情報源における上記話者グループの会
話区間を検出し、上記情報源を上記話者グループの会話区間毎に区分化す
ることを特徴とする情報分類・区分化方法。
【請求項５】請求項４記載の情報分類・区分化方法に
おいて、上記情報源の音声信号中の音声の類似性を評価する特徴
量として、ＬＰＣ分析によって得られるＬＰＣケプスト
ラムを用い、分類の手法として、複数のコードブックに
よる特徴量のベクトル量子化を用い、分類の比較尺度と
してそのベクトル量子化歪みを用いることを特徴とする
情報分類・区分化方法。
【請求項６】請求項４記載の情報分類・区分化方法に
おいて、上記話者グループの会話区間の検出は、その話者グルー
プの出現頻度の変位による話者の会話区間の検出方法で
あって、とりわけ、ある評価区間ごとの話者グループの
出現頻度が一定の閾値を超える連続区間をその話者グル
ープの話者区間として判定することを特徴とする情報分
類・区分化方法。
【請求項７】所定の情報源から所望の情報を検出する
ために情報分類・区分化された情報を記録する記録媒体
において、上記情報源の音声信号を、上記音声信号中の音声の類似
性によって、ある評価区間毎に話者グループに分類し、その分類された上記話者グループの出現頻度の変位を評
価することで上記情報源における上記話者グループの会
話区間を検出し、上記情報源を上記話者グループの会話区間毎に区分化し
た情報を記録することを特徴とする記録媒体。
【請求項８】予め情報分類・区分化された情報が記録
された記録媒体から所望の情報の検索を行う情報検索・
抽出装置において、上記記録媒体に記録された話者グループの会話区間およ
び話者グループの分類に関する情報を読み出す読み出し
手段と、特定話者のサンプル音声データを話者グループに分類し
て話者グループの分類情報を入力する話者分類入力手段
と、上記話者グループの会話区間および上記話者グループの
分類に関する情報と、上記サンプル音声データの話者グ
ループの分類情報とを比較して、上記サンプル音声と類
似した音声を含む情報源およびその該当する音声区間の
位置を検索して検索結果を出力する話者情報検索手段
と、上記検索結果に基づいて該当する情報源の一部を上記情
報源から抽出する抽出手段と、を備えたことを特徴とする情報検索・抽出装置。
【請求項９】請求項８記載の情報検索・抽出装置にお
いて、上記サンプル音声データの話者グループの分類の際に、
上記サンプル音声データ中の音声の類似性を評価する特
徴量として、ＬＰＣ分析によって得られるＬＰＣケプス
トラムを用い、分類の手法として、複数のコードブック
による特徴量のベクトル量子化を用い、分類の比較尺度
としてそのベクトル量子化歪みを用いることを特徴とす
る情報検索・抽出装置。
【請求項１０】請求項８の情報検索・抽出装置におい
て、上記話者分類入力手段において話者グループの分類情報
を検索条件として入力し、上記話者情報検索手段において上記話者グループの会話
区間および上記話者グループの分類に関する情報と、上
記検索条件の話者グループの分類情報とを比較すること
を特徴とする情報検索・抽出装置。
【請求項１１】予め情報分類・区分化された情報が記
録された記録媒体から所望の情報の検索を行う情報検索
・抽出方法において、上記記録媒体に記録された話者グループの会話区間およ
び話者グループの分類に関する情報を読み出し、特定話者のサンプル音声データを話者グループに分類し
て話者グループの分類情報を入力し、上記話者グループの会話区間および上記話者グループの
分類に関する情報と、上記サンプル音声データの話者グ
ループの分類情報とを比較して、上記サンプル音声と類
似した音声を含む情報源およびその該当する音声区間の
位置を検索して検索結果を出力し、上記検索結果に基づいて該当する情報源の一部を上記情
報源から抽出することを特徴とする情報検索・抽出方
法。
【請求項１２】請求項１１記載の情報検索・抽出方法
において、上記サンプル音声データの話者グループの分類の際に、
上記サンプル音声データ中の音声の類似性を評価する特
徴量として、ＬＰＣ分析によって得られるＬＰＣケプス
トラムを用い、分類の手法として、複数のコードブック
による特徴量のベクトル量子化を用い、分類の比較尺度
としてそのベクトル量子化歪みを用いることを特徴とす
る情報検索・抽出方法。
【請求項１３】請求項１１記載の情報検索・抽出方法
において、話者グループの分類情報を検索条件として入力し、上記話者グループの会話区間および上記話者グループの
分類に関する情報と、上記検索条件の話者グループの分
類情報とを比較することを特徴とする情報検索・抽出方
法。
【請求項１４】所定の情報源から所望の情報を検出す
るための情報分類・区分化装置と、上記情報分類・区分
化装置により情報分類・区分化された情報を記録する記
録媒体と、予め情報分類・区分化された情報が記録され
た上記記録媒体から所望の情報の検索を行う情報検索・
抽出装置とを有する情報検索システムにおいて、上記情報分類・区分化装置は、上記情報源の音声信号を、上記音声信号中の音声の類似
性によって、ある評価区間毎に話者グループに分類する
話者分類手段と、上記話者分類手段により分類された上記話者グループの
出現頻度の変位を評価することにより上記情報源におけ
る上記話者グループの会話区間を検出する会話区間検出
手段と、を備え、上記情報源を上記話者グループの会話区間毎に
区分化し、上記記録媒体は、上記情報分類・区分化装置により、上
記情報源を上記話者グループの会話区間毎に区分化した
情報を記録し、上記情報検索・抽出装置は、上記記録媒体に記録された話者グループの会話区間およ
び話者グループの分類に関する情報を読み出す読み出し
手段と、特定話者のサンプル音声データを話者グループに分類し
て話者グループの分類情報を入力する話者分類入力手段
と、上記話者グループの会話区間および上記話者グループの
分類に関する情報と、上記サンプル音声データの話者グ
ループの分類情報とを比較して、上記サンプル音声と類
似した音声を含む情報源およびその該当する音声区間の
位置を検索して検索結果を出力する話者情報検索手段
と、上記検索結果に基づいて該当する情報源の一部を上記情
報源から抽出する抽出手段とを備えたことを特徴とする
情報検索システム。
【請求項１５】請求項１４記載の情報検索システムに
おいて、上記情報源の音声信号中の音声の類似性を評価する特徴
量として、ＬＰＣ分析によって得られるＬＰＣケプスト
ラムを用い、分類の手法として、複数のコードブックに
よる特徴量のベクトル量子化を用い、分類の比較尺度と
してそのベクトル量子化歪みを用いることを特徴とする
情報検索システム。
【請求項１６】請求項１４記載の情報検索システムに
おいて、上記話者グループの会話区間の検出は、その話者グルー
プの出現頻度の変位による話者の会話区間の検出方法で
あって、とりわけ、ある評価区間ごとの話者グループの
出現頻度が一定の閾値を超える連続区間をその話者グル
ープの話者区間として判定することを特徴とする情報検
索システム。
【請求項１７】請求項１４の情報検索システムにおい
て、上記話者分類入力手段において話者グループの分類情報
を検索条件として入力し、上記話者情報検索手段において上記話者グループの会話
区間および上記話者グループの分類に関する情報と、上
記検索条件の話者グループの分類情報とを比較すること
を特徴とする情報検索システム。