JP2002169592A - 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム - Google Patents

情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム

Info

Publication number
JP2002169592A
JP2002169592A JP2000363547A JP2000363547A JP2002169592A JP 2002169592 A JP2002169592 A JP 2002169592A JP 2000363547 A JP2000363547 A JP 2000363547A JP 2000363547 A JP2000363547 A JP 2000363547A JP 2002169592 A JP2002169592 A JP 2002169592A
Authority
JP
Japan
Prior art keywords
information
speaker
classification
section
speaker group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000363547A
Other languages
English (en)
Inventor
Yasuhiro Tokuri
康裕 戸栗
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000363547A priority Critical patent/JP2002169592A/ja
Publication of JP2002169592A publication Critical patent/JP2002169592A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】自動的かつ効果的に話者区間を検出して話者ご
とにAVデータを区分化し、その話者の区分化情報を登
録すると共に、話者の音声の特徴を直接検索などで利用
できる情報検索システムを提供する。 【解決手段】 本発明の情報検索システムによれば、情
報分類・区分化・登録部1において、音声信号の話者を
音声の特徴に基づいて、話者グループへ分類すると共
に、話者の各分類グループへの分類頻度の変位に基づい
て話者区間を検出し、情報検索・抽出部2において、デ
ータベースなどの記録媒体2に記録されたこれらの話者
情報と、入力された検索条件8との比較をすることによ
り、AVデータにおいて、自動的かつ効率的に話者によ
る区分化と分類を行い、さらに所望の話者と類似した音
声を含むAVデータの部分区間の検索・抽出を可能にす
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、情報分類
・区分化装置、情報分類・区分化方法、情報検索・抽出
装置、情報検索・抽出方法、記録媒体および情報検索シ
ステムに関するものであり、特に、音響・画像データの
分類・区分化・検索・抽出に関するものであり、またそ
の手法として特に、音声データの話者認識、話者分類の
方法、装置にかかわるものである。詳しくは、AV(A
udio Video)データの音声信号をその音声の
特徴量に基づいて話者グループに分類し、またAVデー
タの話者区間を検出し、話者によるAVデータの自動分
類および検索、抽出を可能にした技術である。
【0002】
【従来の技術】近年のマルチメディアの普及とともに、
大量のAVデータを効率的に管理し、分類、検索、抽出
などを行う必要性が増してきた。例えば、ある登場人物
のシーンやその人物の会話シーンを大量のAVデータか
ら検索したり、またある人物の会話シーンだけをAVデ
ータから抽出して再生したりすることが必要となってい
る。
【0003】従来は、このようにAVデータを登場人物
や話者によって抽出・検索などを行う場合は、まず人間
が手作業によってAVデータの付随情報をデータベース
に登録する必要があった。
【0004】すなわち、AVデータの再生出力を見なが
ら、ある登場人物や話者が会話している区間を探し、そ
の区間の情報とその話者の情報を手作業でデータベース
などに登録する。人間の手作業が必要なのは、話者の会
話区間とその話者の情報の自動検出が困難であったこと
が理由として挙げられる。
【0005】一方、話者を自動で識別する技術として
は、自動話者識別システムの技術がある。しかし、後述
するように、従来の話者認識システムは、話者の識別・
照合を主な応用として研究・開発されており、予めすべ
ての話者の十分な学習データがあることを前提にしてい
る。
【0006】従って、従来の話者認識技術をそのままA
Vデータの話者の会話シーンの検索などに適応すると、
AVデータに登場するすべての話者の学習データが必要
になり、現実的に実現困難である。
【0007】また、データベースに手作業によって登録
されたこれらの話者情報と会話区間のデータは、AVデ
ータの検索・分類・抽出などに利用される。すなわち、
検索条件として、話者の名前などを入力し、その入力さ
れた話者の情報と、データベースに登録された情報を比
較して、条件に一致するAVデータの該当する部分を検
索・抽出する方法が一般的であった。
【0008】図11は、上述したような、従来の一般的
な、話者によるAVデータ検索システムの構成例を示す
ブロック図である。この従来のAVデータ検索システム
は、話者情報登録部110と、AVデータ検索部115
とを有して構成される。話者情報登録部110は、一般
的に、入出力端末111と、AVデータ再生装置112
と、情報記録装置113と、記録媒体114とを有して
構成される。また、AVデータ検索部115は、一般的
に、上述した記録媒体114と、入力端末116と、情
報検索装置117と、AVデータ再生装置118と、出
力装置119とを有して構成される。
【0009】このように構成された従来のAVデータ検
索システムは、以下のような動作をする。まず、情報登
録に際して、話者情報登録部110において、作業者は
AVデータ再生装置112によって再生されたAVデー
タの表示信号S111を入出力端末111の画面等で見
ながら同一話者の区間を探し、その位置と話者などの登
録情報S112を入出力端末111から情報記録装置1
13に対して手作業で入力する。情報記録装置113は
入出力端末111から入力された登録情報S112を規
定の記録フォーマットに従って記録情報S113に変換
してこの記録情報S113をデータベースなどの記録媒
体114に記録する。
【0010】次に、AVデータ検索に際しては、AVデ
ータ検索部115において、入力端末116から検索条
件S114として、所望の話者の情報、例えば名前など
を情報検索装置117に対して入力し、情報検索装置1
17は入力端末116から入力された検索条件S114
と記録媒体114に記録されている記録情報S115と
を比較して、検索条件S114に一致する記録情報S1
15を求める。そして、情報検索装置117は、この検
索条件S114と一致した記録情報S115に対応する
AVデータと該当する会話シーンの位置など情報の検索
する。情報検索装置117からAVデータと該当する会
話シーンの位置などの検索結果表示出力S116は出力
装置119に出力されると同時に、検索情報S117は
AVデータ再生装置118に供給され、この検索情報S
117に基づいてAVデータ再生装置118は該当する
AVデータの一部区間を抽出して再生し、出力装置11
9に再生出力S118が出力される。
【0011】このようにして、検索条件として入力した
話者の会話シーンなどがAVデータから検索・抽出され
て、その検索結果と、抽出されたAVデータの会話シー
ンが出力される。なお、AVデータ再生装置112、1
18により再生されるAVデータとしては、音声データ
および画像データがある。
【0012】一方、上述したように、音声の話者を識別
する技術としては、自動話者識別・照合技術が研究され
ている。この技術について従来の技術の概要を説明す
る。まず、話者認識には、話者識別と話者照合がある。
話者識別とは、入力された音声が予め登録されたうちの
どの話者であるかを判定し、話者照合とは、入力された
音声を予め登録されたデータと比較して本人であるかを
判定するものである。
【0013】また、認識時に発声する言葉(キーワー
ド)が予め決められた発声内容依存型と、任意の言葉を
発声して認識をする発声内容独立型がある。一般的な音
声認識技術としては次のような技術がある。まず、ある
話者の音声信号の個人性を表す特徴量を抽出して、予め
学習データとして記録しておく。照合・識別の際には入
力された話者音声を分析して、その個人性を表す特徴量
を抽出して、学習データとの類似度を評価することで、
話者の識別・照合を行う。
【0014】ここで、音声の個人性を表す特徴量として
は、ケプストラム(Cepstrum)などが良く用い
られる。ケプストラムは対数スペクトルをフーリエ逆変
換したもので、その低次の項の係数によって音声スペク
トルの包絡を表現できる。また、ケプストラム時系列の
多項式展開係数をデルタケプストラムと呼び、これも音
声スペクトルの時間的変化を表現する特徴量として良く
用いられる。この他、ピッチやデルタピッチ(ピッチの
多項式展開係数)なども用いられることがある。
【0015】このようにして抽出されたLPC(Lin
ear Predictive Coding)ケプス
トラムなどの特徴量を標準パターンとして学習データを
作成するが、その方法としては、ベクトル量子化歪みに
よる方法と隠れマルコフモデル(HMM(Hidden
Markov Model))による方法が代表的で
ある。ベクトル量子化歪みによる方法では、あらかじめ
話者ごとの特徴量をグループ化してその重心を符号帳
(コードブック(Codebook))の要素(コード
ベクトル(Codevector))として蓄えてお
く。そして、入力された音声の特徴量を各話者のコード
ブックでベクトル量子化して、その入力音声全体に対す
る各コードブックの平均量子化歪みを求める。
【0016】そして話者認識の場合は、その平均量子化
歪みの最も小さいコードブックの話者を選択し、話者照
合の場合は、該当する話者のコードブックによる平均量
子化歪みを閾値と比較して本人かどうかを判定する。一
方、HMMによる方法では、各話者の特徴は隠れマルコ
フモデル(HMM)の状態間の遷移確率と各状態での特
徴量の出現確率によって表現され、入力音声区間全体で
モデルとの平均尤度によって判定をする。
【0017】これらの従来技術について詳しくは、たと
えば、以下の文献などに記述されている。 [1] 古井:" ケプストラムの統計的特徴による話者認
識",信学論 volJ65-A, No.2 183-190(1982) [2] F.K.Soong and A.E.Rosenberg: "On the Use of In
stantaneous and Transitional Spectral Information
in Speaker Recognition.", IEEE Trans. ASSP,Vol.36,
NO.6, 871-879 (1988) [3] 古井:”声の個人性の話”, 日本音響学会誌, 51,1
1,pp. 876-881,(1995) [4] 松井:"HMMによる話者認識",信学技報,Vol.95 No.
467, (SP95 109-116) pp.17-24 (1996)
【0018】ここで、従来技術の話者認識技術におい
て、特徴量としてLPCケプストラムを用い、そのベク
トル量子化歪みを利用して話者識別を行う方法について
詳しく説明する。
【0019】まず、入力された音声信号をブロック単位
にLPC分析(線形予測分析)を行い線形予測係数(L
PC係数)を求める。分析ブロック長としては音声では
一般的に20〜30ミリ秒程度が用いられる。入力信号
のサンプルxtを過去のP個のサンプルから次の数1式
のように予測する。
【0020】
【数1】
【0021】なお、一般的に線形予測の次数Pとして
は、10〜20次程度が用いられる。ここで、数1式の
線形予測をx*と表わす。そして線形予測誤差ε=x*
t−xtを最小化する線形予測係数aiを最小二乗法に
よって求める。最小二乗法の解を求める方法としては、
共分散法と自己相関法があり、特に自己相関法は、その
係数行列の正定値性が保証されて解を必ず求めることが
でき、また、Durbinの再帰法によって効率的に求めるこ
とが可能であることから広く利用されている。求めたP
個の線形予測係数により、推定される全極型音声モデル
の生成関数は次の数2式のように表わされる。
【0022】
【数2】
【0023】ケプストラムは、音声の対数スペクトルの
逆フーリエ変換であるから、LPC分析による音声モデ
ルのケプストラムは、ケプストラムのフーリエ変換をC
(ω)とすると、数3式で表わされる。
【0024】
【数3】
【0025】ここでフーリエ変換を両側Z変換に拡張し
て一般化すると、数4式と記述できる。
【0026】
【数4】
【0027】C(Z)の逆Z変換ciは複素ケプストラ
ムと呼ばれている。ここで、LPC係数aiを直接複素
ケプストラムciに変換する方法が知られている。すな
わち、以下の数5式、数6式、数7式のような漸化式か
ら複素ケプストラムを順次求めることができる。
【0028】
【数5】
【0029】
【数6】
【0030】
【数7】
【0031】このようにしてLPC分析から求めたcn
を特にLPCケプストラムと呼ぶ。話者認識において
は、求めた特徴量(LPCケプストラム等)に対して複
数のコードブックでベクトル量子化を施し、その平均量
子化歪みを最小にするコードブックを選出する。まず、
i番目のLPC分析ブロックにおけるP個の特徴量ベク
トルを数8式とする。
【0032】
【数8】
【0033】たとえば、1〜P次のLPCケプストラム
を特徴量として用いる場合は、特徴量ベクトルとLPC
ケプストラムの特徴量ベクトルとは数9式の関係とな
る。
【0034】
【数9】
【0035】また、コードブックkのj番目のセントロ
イド(コードベクトル)を数10式とする。
【0036】
【数10】
【0037】ここで、特徴量ベクトルxiとセントロイ
ドrjkとの重み付距離を次の数11式のように定義す
る。
【0038】
【数11】
【0039】iブロックのコードブックkによるベクト
ル量子化歪みdk(i)を数12式のように求める。
【0040】
【数12】
【0041】各ブロック毎のベクトル量子化歪みdk
(i)を求め、さらに、話者評価区間の全ブロック(i
=1,2,・・・L)における、コードブックkの平均
量子化歪みDkを次の数13式のようにして求める。
【0042】
【数13】
【0043】この平均量子化歪みDkを最小にするコー
ドブックk’を求め、そのコードブックに対応する話者
を話者評価区間における話者として選出する。
【0044】
【発明が解決しようとする課題】しかし、上述した従来
のAVデータの話者による区分化、分類、検索、抽出を
行おうとする場合には、まず人間がAVデータを見なが
ら手作業によりそれらの情報をデータベースに登録する
必要があった。この登録作業は膨大な時間と労力を要す
るものであり、自動的かつ効果的に話者区間を検出して
話者ごとにAVデータを区分化し、その話者の区分化情
報を登録する機構が必要であった。また、従来では手作
業により話者の名前などの識別子を直接登録するため、
登場人物の名前などがはっきり分からないと検索できな
かったという不都合があった。
【0045】たとえば、あるAVデータの会話シーンが
あり、この会話の話者が登場する他のシーンもしくは他
のAVデータを検索・抽出したい場合などは、この話者
の名前が未知であれば検索することは不可能であった。
そこで、話者の名前等の識別名だけではなく、その話者
の音声の特徴を直接検索などで利用できるように、その
音声の特徴をできるだけ少ない情報量で登録して検索で
きることが望まれていた。
【0046】一方、先述したように、従来の話者認識の
技術は、話者識別と話者照合を主な応用として研究され
ており、AVデータにおける話者シーンの検索という用
途はあまり考慮されていない。特に、従来の話者認識で
は、話者ごとにあらかじめ十分な学習データが必要なた
め、その技術をそのままAVデータのシーン検索に応用
しても、AVデータのすべての登場人物の学習データを
作成することは現実的に不可能であり、したがってあら
かじめ学習データのない話者の音声を含むシーンをAV
データから効果的に検索することはできなかったという
不都合があった。
【0047】そこで、本発明は、かかる点に鑑みてなさ
れたものであり、自動的かつ効果的に話者区間を検出し
て話者ごとにAVデータを区分化し、その話者の区分化
情報を登録すると共に、話者の音声の特徴を直接検索な
どで利用できるように、その音声の特徴をできるだけ少
ない情報量で登録して検索できる情報分類・区分化装
置、情報分類・区分化方法、情報検索・抽出装置、情報
検索・抽出方法、記録媒体および情報検索システムを提
供することを課題とする。
【0048】
【課題を解決するための手段】本発明の情報分類・区分
化装置および情報分類・区分化方法は、情報源としての
AVデータを入力する部分と、入力されたAVデータの
音声信号を分析して区間毎に話者グループに分類する部
分と、区間毎の話者グループの出現頻度が変位する位置
によって同一話者区間を検出する部分と、分類に必要な
複数の話者モデルもしくは学習データと、区間毎の分類
情報および話者区間の情報を出力する部分から構成され
るものである。
【0049】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、入力されたAVデータの音
声信号を分類する部分が、音声信号をブロック毎にLP
C分析する部分と、分析されたブロック毎のLPC係数
をLPCケプストラム係数に変換する部分と、LPCケ
プストラム係数の一部を複数のコードブックでベクトル
量子化を施して量子化歪みを求める部分と、ベクトル量
子化歪みを評価して話者グループを求める部分から構成
されるものである。
【0050】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、その区間毎に話者グループ
の変位によって同一話者区間を検出する部分が、特に、
ある話者グループの出現頻度がはじめて閾値を超える位
置を検出する部分と、その話者グループの出現頻度が再
び閾値以下になる位置を検出する部分と、それらの位置
をもってその話者グループの話者区間として判定する部
分から構成されるものである。
【0051】また、本発明の記録媒体は、そのレコード
の項目が少なくとも、AVデータのデータ名と、特定の
話者の会話区間を識別する識別番号と、その識別子で指
定される話者区間のAVデータ上における位置と、その
話者の音声を分類した分類グループの識別番号と、その
話者が属する話者グループの音声モデルもしくは学習デ
ータとの類似度、によって構成され、上述した情報分類
・区分化装置および情報分類・区分化方法によって記録
されるものである。とする。
【0052】また、本発明の情報検索・抽出装置、情報
検索・抽出方法は、検索条件としての音声信号サンプル
を入力する部分と、入力した音声信号を分析して話者グ
ループに分類する部分と、分類に必要な話者モデルもし
くは学習データと上述した記録媒体と、その記録媒体に
記録された話者グループ情報と入力された音声信号の分
析から得られた話者グループを比較する部分と、その比
較によって入力された音声と類似する話者の音声を含む
AVデータおよびその音声区間の情報を記録媒体から検
索して出力する部分と、その検索されたAVデータの音
声区間に対応するデータをAVデータから抽出する部分
から構成されるものである。
【0053】また、本発明の情報検索・抽出装置、情報
検索・抽出方法は、検索条件としての話者グループ識別
子を入力する部分と、上述した記録媒体に記録された話
者グループ情報と入力された話者グループを比較する部
分と、その比較によって入力された話者グループに一致
する話者の音声を含むAVデータおよびその音声区間の
情報を記録媒体から検索して出力する部分と、その検索
されたAVデータの音声区間に対応するデータをAVデ
ータから抽出する部分から構成されるものである。
【0054】また、本発明の情報検索・抽出装置、情報
検索・抽出方法は、入力されたAVデータの音声信号を
分類する部分が、その音声信号をブロック毎にLPC分
析する部分と、分析されたブロック毎のLPC係数をL
PCケプストラム係数に変換する部分と、LPCケプス
トラム係数の一部を複数のコードブックでベクトル量子
化を施して量子化歪みを求める部分と、ベクトル量子化
歪みを評価して話者グループを求める部分から構成され
るものである。
【0055】また、本発明の情報検索システムは、情報
分類・区分化装置と情報検索・抽出装置とを有して構成
され、情報分類・区分化装置は、情報源としてのAVデ
ータを入力する部分と、入力されたAVデータの音声信
号を分析して区間毎に話者グループに分類する部分と、
区間毎の話者グループの出現頻度が変位する位置によっ
て同一話者区間を検出する部分と、分類に必要な複数の
話者モデルもしくは学習データと、区間毎の分類情報お
よび話者区間の情報を出力する部分から構成され、情報
検索・抽出装置は、検索条件としての音声信号サンプル
を入力する部分と、入力した音声信号を分析して話者グ
ループに分類する部分と、分類に必要な話者モデルもし
くは学習データと上述した記録媒体と、その記録媒体に
記録された話者グループ情報と入力された音声信号の分
析から得られた話者グループを比較する部分と、その比
較によって入力された音声と類似する話者の音声を含む
AVデータおよびその音声区間の情報を記録媒体から検
索して出力する部分と、その検索されたAVデータの音
声区間に対応するデータをAVデータから抽出する部分
から構成されるものである。
【0056】従って本発明によれば、以下の作用をす
る。本発明の情報分類・区分化装置および情報分類・区
分化方法によれば、いわゆる、音声を含むAVデータの
分類・区分化において、音声信号の話者を音声の特徴に
基づいて、話者グループへ分類すると共に、話者の各分
類グループへの分類頻度の変位に基づいて話者区間を検
出する。
【0057】また、本発明の記録媒体によれば、検出し
た分類情報と話者区間の情報をデータベースなどの記録
媒体に記録する。
【0058】また、本発明の情報検索・抽出装置、情報
検索・抽出方法によれば、データベースなどの記録媒体
に記録されたこれらの話者情報と、入力された検索条件
との比較をすることにより、AVデータにおいて、自動
的かつ効率的に話者による区分化と分類を行い、さらに
所望の話者と類似した音声を含むAVデータの部分区間
の検索・抽出を可能にする。
【0059】また、本発明の情報検索システムによれ
ば、情報分類・区分化装置において、いわゆる、音声を
含むAVデータの分類・区分化において、音声信号の話
者を音声の特徴に基づいて、話者グループへ分類すると
共に、話者の各分類グループへの分類頻度の変位に基づ
いて話者区間を検出し、情報検索・抽出装置において、
データベースなどの記録媒体に記録されたこれらの話者
情報と、入力された検索条件との比較をすることによ
り、AVデータにおいて、自動的かつ効率的に話者によ
る区分化と分類を行い、さらに所望の話者と類似した音
声を含むAVデータの部分区間の検索・抽出を可能にす
る。
【0060】
【発明の実施の形態】以下に、本発明の実施の形態を説
明する。まず、本実施の形態を説明する前に、本発明の
概念を説明する。図1は、本発明の概念を表わす構成図
である。本発明は、図1で示されるように、分類・区分
化・登録部1と、検索・抽出部3と、それを媒介する記
録媒体2とこれらの部分の関係から成り立つ。
【0061】分類・区分化・登録部1は、次のことを特
徴とする。すなわち、話者分類・話者区間検出部6は、
入力されたAVデータ4もしくは音声データの音声信号
を分析して話者の特徴量を抽出し、その特徴量をあらか
じめ作成した話者モデルや話者の学習データ5との類似
度を比較して、音声信号の話者をいづれかの話者グルー
プに分類する。さらに、話者分類・話者区間検出部6
は、この各グループの出現頻度が変化する位置を検出す
ることで、同一話者が連続して会話をしている話者区間
を検出する。そして、検出したこれらの話者区間情報と
話者の分類情報を記録媒体2に記録する。
【0062】検索・抽出部3は、次のことを特徴とす
る。すなわち、入力された音声サンプル7を話者分類部
9により話者分類し、この話者分類情報または話者の検
索条件8を話者情報の検索部10に入力し、話者情報の
検索部10は、記録媒体2の話者分類情報と、入力され
た音声サンプル7の話者分類情報または検索条件8とを
比較して、条件に一致するものを検索・抽出する。話者
情報の検索部10は、検索結果12を出力し、条件に一
致したAVデータをAVデータ抽出部11から抽出し
て、AVデータ抽出部11は抽出AVデータ13を出力
する。
【0063】これにより、音声信号を話者グループに分
類することにより、話者認識を用いて情報源としてのA
Vデータを検索することができる。
【0064】また、ここで話者分類・話者区間検出部6
における話者グループとは、単数および複数を示すもの
であり、単数の場合には、本人を含むため、話者認識を
用いて本人識別を行うことができる。また、単数または
複数の場合には、誰か似ている人または人のグループに
分類する。以下の各図においても同様である。
【0065】また、話者モデル・話者の学習データ5に
おける話者モデルはモデル化されたデータを示し、話者
の学習データは本人識別用に用いることができる。
【0066】また、記録媒体2には、分類・区分化・登
録部1により分類・区分化されたデータ名とその位置情
報とが記録される。
【0067】また、検索・抽出部3において音声サンプ
ル7を話者分類部9により話者分類した話者分類情報
と、話者の検索条件8とは同様の情報である。従って、
話者情報の検索部10は音声サンプル7の話者分類情報
および話者の検索条件8の入力により同様の動作をす
る。
【0068】以下に図を追って本発明の実施の形態を説
明する。図2は、本実施の形態が適用されるAVデータ
検索システムの分類・区分化・登録部の構成例の一つを
示すブロック図である。図2において、20はAVデー
タの音声信号を入力する入力部であり、21は音声信号
をLPC分析するLPC分析部であり、22はLPC係
数をLPCケプストラム係数に変換するケプストラム変
換部であり、23はベクトル量子化に用いるコードブッ
ク群であり、24はLPCケプストラム係数をベクトル
量子化するベクトル量子化部であり、25はベクトル量
子化の結果を評価して話者をグループに分類する話者グ
ループ判定部であり、26は話者グループの分類頻度の
変位を評価して話者区間を判定する話者区間判定部であ
り、27は話者区間と話者グループの情報を記録するた
めのデータベースである。
【0069】このように構成されたAVデータ検索シス
テムの分類・区分化・登録部の動作を以下に説明する。
入力部20から入力されたAVデータの音声信号S21
は、ブロック毎にLPC分析部21に入力されてLPC
分析が施され、得られたブロック毎のLPC係数S22
はケプストラム変換部22に入力されてブロック毎のL
PCケプストラム係数S23に変換される。
【0070】得られたLPCケプストラム係数S23は
ベクトル量子化部24に入力されて、コードブック23
からのコードブック情報S24を用いてベクトル量子化
される。コードブック23は複数のコードブックからな
り、それぞれのコードブックでベクトル量子化部24に
対してベクトル量子化を施す。ベクトル量子化された結
果S25は話者グループ判定部25において評価され
て、このブロックを話者グループS26に分類する。
【0071】そして、判定された話者グループS26は
話者区間判定部26に入力され、各話者グループの出現
頻度の変位を評価区間毎に評価して、同一話者の区間を
判定する。判定された話者区間の情報S27は、例えば
図3に示すような記録形式でデータベース27に記録さ
れる。
【0072】なお、LPC分析部21は、AVデータの
音声信号S21の波形のスペクトル包絡から特徴量とし
てLPC係数S22を取り出すようにしている。LPC
係数S22の取り出しは、LPC分析の評価単位である
ブロック毎に行われる。
【0073】また、ケプストラム変換部22は、LPC
係数S22を、線形予測モデルによるケプストラムであ
るLPCケプストラム係数S23に変換する。
【0074】また、コードブック23は、予めLPC分
析およびケプストラム変換を行って学習用データとして
話者グループごとのテンプレート情報であるコードブッ
クを有している。
【0075】また、話者グループ判定部25は、歪みの
小さいコードブックを探して、歪みの程度が小さいとき
は本人であると認識し、歪みの程度が大きいときは本人
でないと認識する。
【0076】また、話者区間判定部26は、特定話者の
出現頻度に基づいて、過去数秒間に何秒から何秒まで何
回出現したかという判定から、同一話者区間を認識す
る。
【0077】図3は本実施の形態の一部である記録媒体
の記録形式を示す具体例である。図3において、例え
ば、記録媒体として図2に示したデータベース27に
は、AVデータ名30、話者区間番号31、区間開始位
置32、区間長33、グループ番号34、類似度35が
記録される。
【0078】図2の分類・区分化・登録部の構成例の実
際の処理と動作についてさらに詳しく説明する。図2の
AVデータ検索システムの分類・区分化・登録部の動作
は大きく分けて二つの部分からなる。すなわち、入力さ
れた音声データをある評価ブロックごとに話者グループ
に分類する部分と、各話者グループの出現頻度にもとづ
いて話者区間の開始と終了を検出する部分である。
【0079】まず、処理単位のブロックについて説明す
る。図4は、話者評価ブロックとLPC分析ブロックと
話者区間の関係について説明した図である。まず、入力
されたAVデータの音声信号を区間長Lの話者評価ブロ
ックに分割する。k番目の話者評価ブロックの開始位置
をnkとする。この評価ブロック単位に音声信号の分類
処理を行う。したがって、区間長Lは同一の話者が連続
して発声している程度の時間長で、かつ話者を分類する
のに十分な程度の時間長が望ましい(固定長である必要
はない)。たとえば、1秒から数秒程度が望ましい。
【0080】各話者評価ブロックにおける話者分類処理
は、この話者評価ブロックの信号をさらに、LPCなど
の特徴量を分析する単位である分析ブロックに分割して
行う。図4では評価ブロックLをさらに区間長NのLP
C分析ブロックに分割している。この分割ブロックは話
者を分類する処理において音声の特徴量を分析する最小
単位である。分析ブロックは隣接ブロックとオーバーラ
ップしていてもよく、LPC分析においては各ブロック
を滑らかに変化させるためオーバーラップ区間がよく用
いられる。このLPC分析ブロック単位にLPC分析を
行い、音声信号のLPCケプストラム係数を抽出してベ
クトル量子化処理を施す。
【0081】話者区間の検出処理は、話者評価ブロック
ごとに、各話者グループへの分類頻度の変位を評価して
行う。図4において、SIはAの話者区間40(I番目
の話者区間)の開始と判定された位置であり、遷移区間
41において話者グループがAからBにしだいに変位
し、SI+1はBの話者区間42(I+1番目の話者区
間)の開始と判定された位置である。
【0082】なお、図4において、話者評価ブロックL
は各ブロックを滑らかに変化させるため隣接ブロックと
オーバーラップしていてもよい。
【0083】なお、話者評価ブロックLは例えば1〜2
sec、LPC分析ブロックNは例えば20〜30ms
ecである。
【0084】このようなLPC分析ブロックNからなる
話者評価ブロックLが数秒間所定の出現頻度%を超えた
ことを検出することにより、話者区間を検出することが
できる。
【0085】話者グループの分類頻度の変位による話者
区間の検出方法について、具体的な例を図5を用いて説
明する。図5は、各話者グループ(A,B,C,D)に
分類された頻度(分類頻度)を示している。ある評価ブ
ロックにおける分類頻度は、たとえば、現在の評価ブロ
ックからJブロック前までの、あるいは前後J/2ブロ
ックの出現回数などをもとに求めることができる。Jの
大きさは任意であるが、検出性能を考慮して数ブロック
から10ブロック程度が望ましい。ある話者グループの
分類頻度がある閾値を超えた場合、その話者区間である
と判定する。図5においては、はじめは話者グループA
の分類頻度が閾値53を超えているのでAの話者区間5
0と判定し、Aの分類頻度が閾値53以下になった位置
をAの話者区間50の終了と判定し、A,B,C,Dす
べての各話者グループが閾値53以下の区間は遷移区間
51と判定し、Bの分類頻度が閾値53以上になった位
置をBの話者区間52の開始と判定する。
【0086】なお、閾値としては、例えば特定話者が1
0秒間に8回出現した80%を境にして同一話者区間と
判定することができる。
【0087】話者区間判定部分の詳しい動作をフローチ
ャートとして図6に示した。図6は、図2の話者区間判
定部の動作を示すものである。図6において、まず、ス
テップS1で、話者区間番号I、評価ブロック番号k、
最初の評価ブロックの開始位置n0、現在話者グループ
gなどを初期化する。ここで、g=0は、話者の遷移区
間を意味するとする。ステップS2で、k番目の評価ブ
ロック(nk〜nk+1)のデータを話者分類してその
話者グループの番号gkを求める。詳しい話者グループ
の求め方は後の図7で述べる。次に、ステップS3で、
その話者グループgkの出現頻度P(gk)を求める。
そして、ステップS4で、現在の区間が遷移区間である
(g=0)ならば、次のステップS5で話者区間の開始
位置を検出する処理を行い、ステップS4で、遷移区間
でなければ(すなわち、ある話者区間であれば)、ステ
ップS8で、現在の話者区間の終了位置を検出する処理
を行う。
【0088】ステップS5の開始位置の検出処理では、
ステップS6で、出現頻度P(gk)が閾値を超えるか
どうか判別し、超えていればステップS7で評価ブロッ
クnkの位置をグループgkの話者区間の開始と判定
し、話者区間開始処理を行う。すなわち、I番目の区間
開始位置SIをnkとして記憶し、現在の話者区間のグ
ループ番号gをgkとして記憶し、ステップS11で次
の(k+1番目の)評価ブロックに移る。
【0089】ステップS6で、出現頻度が閾値を超えて
いなければ、そのままステップS11で次の評価ブロッ
クに移る。
【0090】一方、ステップS8の終了位置検出処理で
は、ステップS9で、現在の話者区間の話者グループg
について、出現頻度P(g)が閾値を超えているかどう
かを判別し、超えていればそのまま話者区間の継続と判
定してステップS11で次の評価ブロックに移る。ま
た、ステップS9で、閾値を超えていなければ、話者区
間の終了と判定して、ステップS10で、話者区間終了
処理を行う。すなわち、区間長とその話者区間全体にわ
たる類似度を求め、データベースに、開始位置、話者グ
ループ、区間長、類似度などを記録するとともに、話者
グループ番号をリセットし(遷移区間になったことを意
味する)、話者区間番号を一つ増やし、そして、次の評
価ブロックに移る。
【0091】ここで、情報を記録するデータベースは、
本実施の形態の一部である記録媒体であり、たとえば、
図3に示すようなレコード形式であり、AVデータ名3
0、話者区間の番号31、区間開始位置32、区間長3
3、話者グループ番号34、話者グループとの類似度3
5などの情報項目からなる。なおここで言う類似度とし
ては、たとえば一例として、各評価ブロックの分類処理
によって求まった量子化歪みの逆数の、話者区間全体に
わたる平均などを用いることができる。
【0092】このようにして、各評価ブロックごとに話
者グループを求め、話者区間の開始と終了を検出しなが
ら、入力データの終了までこれらの処理を繰り返す。
【0093】次に、各話者評価ブロックにおいて、音声
信号を話者グループに分類する部分の処理の詳しい説明
を図7のフローチャートに従って説明する。図7は、従
来の一般的な話者識別技術を用いて話者を識別もしくは
分類する処理の例である。図7における各処理の詳細と
計算方法は、従来の技術の項目において説明しているも
のと同様である。図7は、図2の話者グループ判定部2
5の動作を示すものである。
【0094】まず、ステップS21で、前述したよう
に、話者評価ブロックを図4のようにブロック長NのL
PC分析ブロック(オーバーラップブロックも可能)に
分割し、各LPC分析ブロックごとに音声データを入力
データから読み込む。ステップS22で、得られたLP
C分析ブロックが話者評価ブロックの最後のLPCブロ
ックであるか否かの判定を行い、最後のLPCブロック
でないときは、ステップS23へ進み、最後のLPCブ
ロックであるときは、ステップS27へ進む。そして、
ステップS22において最後のLPCブロックでないと
きは、ステップS23で、そのLPC分析ブロックが音
声ブロックであるか否かの判定を行う。
【0095】すなわち、ステップS23で、そのLPC
分析ブロックが無音ブロックもしくは非音声ブロックで
あれば、このブロックの分析をスキップしてステップS
26の次のブロックに進む。音声信号ブロックかどうか
の判定は、たとえば、信号の平均パワー、ゼロ交差数、
ピッチの有無などから判定することができるが、本実施
の形態ではその手法は限定しない。
【0096】ステップS23において、音声ブロックと
判定された場合は、続いてステップS24でそのブロッ
クのLPC分析を行う。たとえば、10次程度のLPC
分析を行って、LPC係数を求め、LPCケプストラム
に変換し、その低次の項の係数を抽出する。ここでは1
次〜10次程度までのLPCケプストラム係数の利用が
好ましい。
【0097】次に、ステップS25で得られたLPCケ
プストラム係数に複数のコードブックでベクトル量子化
を施す。話者グループはそれぞれのコードブックに一対
一に対応する。ここでは、K個のコードブックが(すな
わちK個の話者グループ)あるとする。コードブックk
によるこの分析ブロックにおけるLPCケプストラム係
数のベクトル量子化歪みをdkとする。
【0098】ベクトル量子化歪みを求めたらステップS
26で次のLPC分析ブロックに進み、ステップS21
へ戻り同様にしてステップS21〜ステップS26まで
のこの処理を繰り返す。ステップS22で話者評価ブロ
ックの最後まで処理したら繰り返しを抜ける。
【0099】そして次に、ステップS27で評価ブロッ
ク全体にわたる各コードブックの平均量子化歪みDkを
求める。すなわち、Dkはdkの平均値である。そし
て、ステップS28で平均量子化歪みDkを最小にする
ようなコードブックk’を選び、ステップS29でこの
コードブックk’をこの話者評価ブロックにおける分類
グループとして出力する。
【0100】次に、本実施の形態の検索・抽出部分の説
明をする。図8は、本実施の形態の検索・抽出部分の具
体的な構成例である。図8の検索・抽出部分は図2のA
Vデータ検索システムの分類・区分化・登録部により登
録された分類情報を用いて所望の情報の検索を行うもの
である。図2の分類・区分化・登録部および図8の検索
・抽出部分とでAVデータ検索システムを構成する。
【0101】まず検索・抽出部分の構成を説明する。音
声データの入力部80とLPC分析部81と、ケプスト
ラム変換部82と、ベクトル量子化コードブック群83
と、ベクトル量子化部84とデータ比較部85と、デー
タベース86と、検索結果の出力部87Aと、AVデー
タから検索された部分を抽出する検索データ抽出部88
と、抽出されたAVデータの出力部87Bと、AVデー
タ89などから構成される。
【0102】次に、図8の検索・抽出部分の構成の動作
を説明する。入力部80から、検索条件として、特定話
者(単一話者)の音声のサンプルデータS81を入力
し、上記図2の構成の説明で述べた方法と同様にして、
その入力音声を話者グループに分類して話者グループを
求める。すなわち、LPC分析部81によってLPC分
析ブロック単位にLPC分析を行い、求められたLPC
係数S82はケプストラム変換部82によってLPCケ
プストラム係数に変換され、LPCケプストラム係数の
抽出された低次の係数S83はベクトル量子化部84に
入力され、その低次係数はK個の複数コードブック83
(図2の23のコードブック群と同じもの)を用いてベ
クトル量子化が施され、入力音声S81の全区間を一つ
の話者評価区間とみなして、量子化歪みを最小にするコ
ードブックを選び、その選ばれたコードブック番号を入
力音声の話者グループ番号とする。
【0103】こうして求めた話者音声サンプルの話者グ
ループS85は、データ比較部85によってデータベー
ス86に登録されている話者グループ番号と比較され、
話者グループ番号が一致するデータを検索し、その検索
されたデータのAVデータ名、話者区間などの情報を検
索結果S86として出力部87Aに出力する。なお、デ
ータベース86は図2の27のデータベースであり、図
2のような構成の装置によりすでに図3のような形式で
情報が記録されている。さらに、検索データ抽出部83
は、検索結果S86に基づいてAVデータの検索された
話者区間に該当する部分のデータS88をAVデータ8
9から抽出して、その抽出されたAVデータS87を出
力部87Bに出力する。なお、AVデータ89は図2の
入力部20に入力されるAVデータの音声信号に対応す
るものである。
【0104】図9は、本実施の形態の検索・抽出部分の
具体的な第二の構成例である。図8の他の検索・抽出部
分の構成例では、検索条件として特定話者の音声サンプ
ルを入力したが、図9の構成例では、検索条件の入力と
して、話者グループ番号などを直接指定して、その話者
グループ番号に一致する話者の話者区間をデータベース
92から検索し、その検索結果と抽出されたAVデータ
を出力するものである。図9の構成を説明する。90は
検索条件を入力する入力部、91は入力された検索条件
とデータベース92に記録された情報とを比較してデー
タを検索するデータ比較部、93は検索結果を出力する
出力部、94はAVデータ95からデータを抽出する検
索データ抽出部、96は抽出されたAVデータが出力さ
れるAVデータ出力部である。なお、AVデータ95は
図2の入力部20に入力されるAVデータの音声信号に
対応するものである。
【0105】次に他の検索・抽出部分の動作を説明する
が、データ比較部91以降の動作は上記図8の構成の説
明と同様である。入力部90から検索条件として入力さ
れた話者グループ番号S91は、データ比較部91に供
給され、データ比較部91によって、その話者グループ
番号と一致する話者グループの話者区間の情報S92を
データベース92から検索して、その検索結果S93は
出力部93に出力される。また、検索結果S93(AV
データ名、話者区間の情報)は検索データ抽出部94に
入力されて、検索データ抽出部94は検索結果に対応す
るAVデータの該当部分S94をAVデータ95から抽
出し、その抽出されたAVデータS95を出力部96に
出力する。
【0106】図10は、図8の検索・抽出部および図9
の他の検索・抽出部の構成例における処理の流れを示す
フローチャートである。図10に沿って図8および図9
の構成の処理を説明する。図10は、主に、図8の検索
データ抽出部88、図9の検索データ抽出部94の動作
を示すものである。
【0107】図8の検索・抽出部の構成の場合は、ま
ず、ステップS31で、検索したい話者グループのサン
プル音声を検索条件として入力する。そして、ステップ
S32で、図2のAVデータ検索システムの構成の説明
と同様にして(図7の音声信号の話者グループ分類方法
により)話者分類を行い、サンプル音声を話者グループ
に分類する。また、図9の他の検索・抽出部の構成の場
合は、ステップS33で、検索したい話者グループの識
別名を直接入力する。以降のステップS34〜ステップ
S36の処理は図8の検索・抽出部と図9の他の検索・
抽出部で共通である。具体的には、次に、ステップS3
4で、データベースを参照して、話者グループが検索条
件に一致する情報を検索する。そして、ステップS35
で、たとえば、AVデータ名、そのAVデータ中におけ
る位置などの情報を検索結果として出力する。また、ス
テップS36で、検索結果のAVデータ名と位置に対応
するデータをそのAVデータから部分的に抽出して、再
生出力する。
【0108】このようにして、検索条件として、話者グ
ループもしくは、話者のサンプル音声を指定すること
で、その話者に類似した音声を含むデータが検索・抽出
される。なお、上述において、話者グループとは、単数
および複数を示すものであり、単数の場合には、本人を
含むため、話者認識を用いて本人識別を行うことができ
る。
【0109】なお、上述において、コードブックは、A
Vデータの入力があれば、例えば、予め1分程度サンプ
リングすることにより生成することができる。
【0110】また、上述において、情報分類・区分化装
置、記録媒体、情報検索・抽出装置をそれぞれ単体で構
成するようにしても良く、また、これらを一体の筐体に
収めて、もしくは相互に接続して情報検索システムを構
成するようにしても良い。
【0111】
【発明の効果】本発明の情報分類・区分化装置および情
報分類・区分化方法によれば、いわゆる、音声を含むA
Vデータの分類・区分化において、音声信号の話者を音
声の特徴に基づいて、話者グループへ分類すると共に、
話者の各分類グループへの分類頻度の変位に基づいて話
者区間を検出するので、AVデータにおいて話者の会話
区間を自動的かつ効果的に検出し、かつ話者の会話区間
毎にAVデータを効果的に区分化し、各区間を話者ごと
に分類することができるという効果を奏する。
【0112】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、入力されたAVデータの音
声信号を分類する部分が、音声信号をブロック毎にLP
C分析する部分と、分析されたブロック毎のLPC係数
をLPCケプストラム係数に変換する部分と、LPCケ
プストラム係数の一部を複数のコードブックでベクトル
量子化を施して量子化歪みを求める部分と、ベクトル量
子化歪みを評価して話者グループを求める部分から構成
されるので、音声信号に対してLPC分析およびケプス
トラム変換を行って話者グループごとの特徴量を取り出
し、歪みの小さいコードブックを探して、歪みの程度が
小さいときは本人であると認識し、歪みの程度が大きい
ときは本人でないと認識することができるという効果を
奏する。
【0113】また、本発明の情報分類・区分化装置およ
び情報分類・区分化方法は、その区間毎に話者グループ
の変位によって同一話者区間を検出する部分が、特に、
ある話者グループの出現頻度がはじめて閾値を超える位
置を検出する部分と、その話者グループの出現頻度が再
び閾値以下になる位置を検出する部分と、それらの位置
をもってその話者グループの話者区間として判定する部
分から構成されるので、ある話者グループの分類頻度が
ある閾値を超えた場合、その話者区間であると判定する
ことができるという効果を奏する。
【0114】また、本発明の記録媒体によれば、検出し
た分類情報と話者区間の情報をデータベースなどの記録
媒体に記録するので、その検索に用いる記録媒体への情
報の記録を効果的かつ自動的に行うことができ、さらに
これによって得られた情報を記録媒体に記録することで
その情報を再利用することができるという効果を奏す
る。
【0115】また、本発明の情報検索・抽出装置および
情報検索・抽出方法によれば、データベースなどの記録
媒体に記録されたこれらの話者情報と、入力された検索
条件との比較をすることにより、AVデータにおいて、
自動的かつ効率的に話者による区分化と分類を行い、さ
らに所望の話者と類似した音声を含むAVデータの部分
区間の検索・抽出を可能にするので、AVデータを検索
・抽出する際に、音声サンプルや話者の分類情報などを
検索条件として指定することで、所望の話者と類似した
音声の会話部分を効果的にAVデータから検索・抽出す
ることができるという効果を奏する。
【0116】また、本発明の情報検索・抽出装置および
情報検索・抽出方法は、検索条件としての話者グループ
識別子を入力する部分と、上述した記録媒体に記録され
た話者グループ情報と入力された話者グループを比較す
る部分と、その比較によって入力された話者グループに
一致する話者の音声を含むAVデータおよびその音声区
間の情報を記録媒体から検索して出力する部分と、その
検索されたAVデータの音声区間に対応するデータをA
Vデータから抽出する部分から構成されるので、検索条
件の入力として、話者グループ番号などを直接指定し
て、その話者グループ番号に一致する話者の話者区間を
データベースから検索し、その検索結果と抽出されたA
Vデータを出力することができるという効果を奏する。
【0117】また、本発明の情報検索・抽出装置および
情報検索・抽出方法は、入力されたAVデータの音声信
号を分類する部分が、その音声信号をブロック毎にLP
C分析する部分と、分析されたブロック毎のLPC係数
をLPCケプストラム係数に変換する部分と、LPCケ
プストラム係数の一部を複数のコードブックでベクトル
量子化を施して量子化歪みを求める部分と、ベクトル量
子化歪みを評価して話者グループを求める部分から構成
されるので、検索条件として特定話者の音声サンプルを
入力して、その話者グループを検出し、その話者グルー
プ番号に一致する話者の話者区間をデータベースから検
索し、その検索結果と抽出されたAVデータを出力する
ことができるという効果を奏する。
【0118】また、本発明の情報検索システムによれ
ば、情報分類・区分化装置において、音声信号の話者を
音声の特徴に基づいて、話者グループへ分類すると共
に、話者の各分類グループへの分類頻度の変位に基づい
て話者区間を検出し、情報検索・抽出装置において、デ
ータベースなどの記録媒体に記録されたこれらの話者情
報と、入力された検索条件との比較をすることにより、
AVデータにおいて、自動的かつ効率的に話者による区
分化と分類を行い、さらに所望の話者と類似した音声を
含むAVデータの部分区間の検索・抽出を可能にするこ
とにより、AVデータの、さらにその話者の会話区間を
検出し、それらの情報を記録媒体に記録し、その記録媒
体を話者の音声サンプルデータもしくは、話者の分類グ
ループを検索条件として指定することで、所望の話者の
会話シーンを効果的にAVデータから検索・抽出するこ
とができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の概念を示す図である。
【図2】本実施の形態が適用されるAVデータ検索シス
テムの分類・区分化・登録部の構成例を示すブロック図
である。
【図3】記録媒体の記録形式を示す図である。
【図4】話者評価ブロックとLPC分析ブロックと話者
区間の関係を示す図である。
【図5】話者グループの分類頻度の変位による話者区間
の検出方法を示す図である。
【図6】話者区間判定部分の詳細動作を示すフローチャ
ートである。
【図7】音声信号を話者グループに分類する部分の詳細
動作を示すフローチャートである。
【図8】情報の検索・抽出部に関する部分の構成例を示
すブロック図である。
【図9】他の情報の検索・抽出部に関する部分の構成例
を示すブロック図である。
【図10】情報の検索・抽出部の動作を示すフローチャ
ートである。
【図11】従来のAVデータ検索システムの構成例を示
すブロック図である。
【符号の説明】
1……分類・区分化・登録部、2……記録媒体、3……
検索・抽出部、4……AVデータ、5……話者モデル・
学習データ、6……話者分類と話者区間検出、7……音
声サンプル、8……検索条件、9……話者分類、10…
…話者情報の検索、11……AVデータ抽出、12……
検索結果、13……抽出AVデータ、20……入力部、
21……LPC分析部、22……ケプストラム変換部、
23……コードブック、24……ベクトル量子化部、2
5……話者グループ判定部、26……話者区間判定部、
27……データベース、30……AVデータ名、31…
…話者区間番号、32……区間開始位置、33……区間
長、34……グループ番号、35……類似度、40……
Aの話者区間、41……遷移区間、42……Bの話者区
間、L……話者評価ブロック、N……LPC分析ブロッ
ク長、50……Aの話者区間、51……遷移区間、52
……Bの話者区間、53……閾値、80……入力部、8
1……LPC分析部、82……ケプストラム変換部、8
3……コードブック、84……ベクトル量子化部、85
……データ比較部、86……データベース、87A……
出力部、87B……出力部、88……検索データ抽出
部、89……AVデータ、90……入力部、91……デ
ータ比較部、92……データベース、93……出力部、
94……検索データ抽出部、95……AVデータ、96
……出力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G10L 101:04 G10L 3/00 545C 101:12 9/14 301A

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 所定の情報源から所望の情報を検出する
    ための情報分類・区分化装置において、 上記情報源の音声信号を、上記音声信号中の音声の類似
    性によって、ある評価区間毎に話者グループに分類する
    話者分類手段と、 上記話者分類手段により分類された上記話者グループの
    出現頻度の変位を評価することにより上記情報源におけ
    る上記話者グループの会話区間を検出する会話区間検出
    手段と、 を備え、上記情報源を上記話者グループの会話区間毎に
    区分化することを特徴とする情報分類・区分化装置。
  2. 【請求項2】 請求項1記載の情報分類・区分化装置に
    おいて、 上記情報源の音声信号中の音声の類似性を評価する特徴
    量として、LPC分析によって得られるLPCケプスト
    ラムを用い、分類の手法として、複数のコードブックに
    よる特徴量のベクトル量子化を用い、分類の比較尺度と
    してそのベクトル量子化歪みを用いることを特徴とする
    情報分類・区分装置。
  3. 【請求項3】 請求項1記載の情報分類・区分化装置に
    おいて、 上記話者グループの会話区間の検出は、その話者グルー
    プの出現頻度の変位による話者の会話区間の検出方法で
    あって、とりわけ、ある評価区間ごとの話者グループの
    出現頻度が一定の閾値を超える連続区間をその話者グル
    ープの話者区間として判定することを特徴とする情報分
    類・区分装置。
  4. 【請求項4】 所定の情報源から所望の情報を検出する
    ための情報分類・区分化方法において、 上記情報源の音声信号を、上記音声信号中の音声の類似
    性によって、ある評価区間毎に話者グループに分類し、 その分類された上記話者グループの出現頻度の変位を評
    価することで上記情報源における上記話者グループの会
    話区間を検出し、 上記情報源を上記話者グループの会話区間毎に区分化す
    ることを特徴とする情報分類・区分化方法。
  5. 【請求項5】 請求項4記載の情報分類・区分化方法に
    おいて、 上記情報源の音声信号中の音声の類似性を評価する特徴
    量として、LPC分析によって得られるLPCケプスト
    ラムを用い、分類の手法として、複数のコードブックに
    よる特徴量のベクトル量子化を用い、分類の比較尺度と
    してそのベクトル量子化歪みを用いることを特徴とする
    情報分類・区分化方法。
  6. 【請求項6】 請求項4記載の情報分類・区分化方法に
    おいて、 上記話者グループの会話区間の検出は、その話者グルー
    プの出現頻度の変位による話者の会話区間の検出方法で
    あって、とりわけ、ある評価区間ごとの話者グループの
    出現頻度が一定の閾値を超える連続区間をその話者グル
    ープの話者区間として判定することを特徴とする情報分
    類・区分化方法。
  7. 【請求項7】 所定の情報源から所望の情報を検出する
    ために情報分類・区分化された情報を記録する記録媒体
    において、 上記情報源の音声信号を、上記音声信号中の音声の類似
    性によって、ある評価区間毎に話者グループに分類し、 その分類された上記話者グループの出現頻度の変位を評
    価することで上記情報源における上記話者グループの会
    話区間を検出し、 上記情報源を上記話者グループの会話区間毎に区分化し
    た情報を記録することを特徴とする記録媒体。
  8. 【請求項8】 予め情報分類・区分化された情報が記録
    された記録媒体から所望の情報の検索を行う情報検索・
    抽出装置において、 上記記録媒体に記録された話者グループの会話区間およ
    び話者グループの分類に関する情報を読み出す読み出し
    手段と、 特定話者のサンプル音声データを話者グループに分類し
    て話者グループの分類情報を入力する話者分類入力手段
    と、 上記話者グループの会話区間および上記話者グループの
    分類に関する情報と、上記サンプル音声データの話者グ
    ループの分類情報とを比較して、上記サンプル音声と類
    似した音声を含む情報源およびその該当する音声区間の
    位置を検索して検索結果を出力する話者情報検索手段
    と、 上記検索結果に基づいて該当する情報源の一部を上記情
    報源から抽出する抽出手段と、 を備えたことを特徴とする情報検索・抽出装置。
  9. 【請求項9】 請求項8記載の情報検索・抽出装置にお
    いて、 上記サンプル音声データの話者グループの分類の際に、
    上記サンプル音声データ中の音声の類似性を評価する特
    徴量として、LPC分析によって得られるLPCケプス
    トラムを用い、分類の手法として、複数のコードブック
    による特徴量のベクトル量子化を用い、分類の比較尺度
    としてそのベクトル量子化歪みを用いることを特徴とす
    る情報検索・抽出装置。
  10. 【請求項10】 請求項8の情報検索・抽出装置におい
    て、 上記話者分類入力手段において話者グループの分類情報
    を検索条件として入力し、 上記話者情報検索手段において上記話者グループの会話
    区間および上記話者グループの分類に関する情報と、上
    記検索条件の話者グループの分類情報とを比較すること
    を特徴とする情報検索・抽出装置。
  11. 【請求項11】 予め情報分類・区分化された情報が記
    録された記録媒体から所望の情報の検索を行う情報検索
    ・抽出方法において、 上記記録媒体に記録された話者グループの会話区間およ
    び話者グループの分類に関する情報を読み出し、 特定話者のサンプル音声データを話者グループに分類し
    て話者グループの分類情報を入力し、 上記話者グループの会話区間および上記話者グループの
    分類に関する情報と、上記サンプル音声データの話者グ
    ループの分類情報とを比較して、上記サンプル音声と類
    似した音声を含む情報源およびその該当する音声区間の
    位置を検索して検索結果を出力し、 上記検索結果に基づいて該当する情報源の一部を上記情
    報源から抽出することを特徴とする情報検索・抽出方
    法。
  12. 【請求項12】 請求項11記載の情報検索・抽出方法
    において、 上記サンプル音声データの話者グループの分類の際に、
    上記サンプル音声データ中の音声の類似性を評価する特
    徴量として、LPC分析によって得られるLPCケプス
    トラムを用い、分類の手法として、複数のコードブック
    による特徴量のベクトル量子化を用い、分類の比較尺度
    としてそのベクトル量子化歪みを用いることを特徴とす
    る情報検索・抽出方法。
  13. 【請求項13】 請求項11記載の情報検索・抽出方法
    において、 話者グループの分類情報を検索条件として入力し、 上記話者グループの会話区間および上記話者グループの
    分類に関する情報と、上記検索条件の話者グループの分
    類情報とを比較することを特徴とする情報検索・抽出方
    法。
  14. 【請求項14】 所定の情報源から所望の情報を検出す
    るための情報分類・区分化装置と、上記情報分類・区分
    化装置により情報分類・区分化された情報を記録する記
    録媒体と、予め情報分類・区分化された情報が記録され
    た上記記録媒体から所望の情報の検索を行う情報検索・
    抽出装置とを有する情報検索システムにおいて、 上記情報分類・区分化装置は、 上記情報源の音声信号を、上記音声信号中の音声の類似
    性によって、ある評価区間毎に話者グループに分類する
    話者分類手段と、 上記話者分類手段により分類された上記話者グループの
    出現頻度の変位を評価することにより上記情報源におけ
    る上記話者グループの会話区間を検出する会話区間検出
    手段と、 を備え、上記情報源を上記話者グループの会話区間毎に
    区分化し、 上記記録媒体は、上記情報分類・区分化装置により、上
    記情報源を上記話者グループの会話区間毎に区分化した
    情報を記録し、 上記情報検索・抽出装置は、 上記記録媒体に記録された話者グループの会話区間およ
    び話者グループの分類に関する情報を読み出す読み出し
    手段と、 特定話者のサンプル音声データを話者グループに分類し
    て話者グループの分類情報を入力する話者分類入力手段
    と、 上記話者グループの会話区間および上記話者グループの
    分類に関する情報と、上記サンプル音声データの話者グ
    ループの分類情報とを比較して、上記サンプル音声と類
    似した音声を含む情報源およびその該当する音声区間の
    位置を検索して検索結果を出力する話者情報検索手段
    と、 上記検索結果に基づいて該当する情報源の一部を上記情
    報源から抽出する抽出手段とを備えたことを特徴とする
    情報検索システム。
  15. 【請求項15】 請求項14記載の情報検索システムに
    おいて、 上記情報源の音声信号中の音声の類似性を評価する特徴
    量として、LPC分析によって得られるLPCケプスト
    ラムを用い、分類の手法として、複数のコードブックに
    よる特徴量のベクトル量子化を用い、分類の比較尺度と
    してそのベクトル量子化歪みを用いることを特徴とする
    情報検索システム。
  16. 【請求項16】 請求項14記載の情報検索システムに
    おいて、 上記話者グループの会話区間の検出は、その話者グルー
    プの出現頻度の変位による話者の会話区間の検出方法で
    あって、とりわけ、ある評価区間ごとの話者グループの
    出現頻度が一定の閾値を超える連続区間をその話者グル
    ープの話者区間として判定することを特徴とする情報検
    索システム。
  17. 【請求項17】 請求項14の情報検索システムにおい
    て、 上記話者分類入力手段において話者グループの分類情報
    を検索条件として入力し、 上記話者情報検索手段において上記話者グループの会話
    区間および上記話者グループの分類に関する情報と、上
    記検索条件の話者グループの分類情報とを比較すること
    を特徴とする情報検索システム。
JP2000363547A 2000-11-29 2000-11-29 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム Pending JP2002169592A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000363547A JP2002169592A (ja) 2000-11-29 2000-11-29 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000363547A JP2002169592A (ja) 2000-11-29 2000-11-29 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム

Publications (1)

Publication Number Publication Date
JP2002169592A true JP2002169592A (ja) 2002-06-14

Family

ID=18834648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000363547A Pending JP2002169592A (ja) 2000-11-29 2000-11-29 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム

Country Status (1)

Country Link
JP (1) JP2002169592A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008170588A (ja) * 2007-01-10 2008-07-24 Kenwood Corp 音声記録装置及び音声記録方法
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2009053430A (ja) * 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2009211067A (ja) * 2008-03-05 2009-09-17 National Central Univ Av(オーディオ・ビデオ)記録の方法およびその装置
JP2010266722A (ja) * 2009-05-15 2010-11-25 National Institute Of Information & Communication Technology 会話グループ把握装置、会話グループ把握方法、及びプログラム
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
JP2014102513A (ja) * 2014-01-06 2014-06-05 Fujitsu Ltd 対話選別プログラム、対話選別装置、および対話選別方法
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
WO2020049687A1 (ja) * 2018-09-06 2020-03-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
JPH10319988A (ja) * 1997-05-06 1998-12-04 Internatl Business Mach Corp <Ibm> 話者識別方法および話者認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
JPH10319988A (ja) * 1997-05-06 1998-12-04 Internatl Business Mach Corp <Ibm> 話者識別方法および話者認識装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008170588A (ja) * 2007-01-10 2008-07-24 Kenwood Corp 音声記録装置及び音声記録方法
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2009053430A (ja) * 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2009211067A (ja) * 2008-03-05 2009-09-17 National Central Univ Av(オーディオ・ビデオ)記録の方法およびその装置
JP2010266722A (ja) * 2009-05-15 2010-11-25 National Institute Of Information & Communication Technology 会話グループ把握装置、会話グループ把握方法、及びプログラム
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
JPWO2014155652A1 (ja) * 2013-03-29 2017-02-16 株式会社日立製作所 話者検索システム、プログラム
JP2014102513A (ja) * 2014-01-06 2014-06-05 Fujitsu Ltd 対話選別プログラム、対話選別装置、および対話選別方法
WO2020049687A1 (ja) * 2018-09-06 2020-03-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム記録媒体
JPWO2020049687A1 (ja) * 2018-09-06 2021-08-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP7107377B2 (ja) 2018-09-06 2022-07-27 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
Gaikwad et al. A review on speech recognition technique
US6434520B1 (en) System and method for indexing and querying audio archives
Mantena et al. Query-by-example spoken term detection using frequency domain linear prediction and non-segmental dynamic time warping
Jancovic et al. Bird species recognition using unsupervised modeling of individual vocalization elements
TWI395201B (zh) 情緒語音辨識方法及系統
Shaikh Naziya et al. Speech recognition system—a review
CN107480152A (zh) 一种音频分析及检索方法和系统
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
KR20230129094A (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
US7315819B2 (en) Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof
JP2002169592A (ja) 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
Gupta et al. A study on speech recognition system: a literature review
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
Sawakare et al. Speech recognition techniques: a review
Pandey et al. Keyword spotting in continuous speech using spectral and prosodic information fusion
CN114298019A (zh) 情绪识别方法、装置、设备、存储介质、程序产品
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
Zealouk et al. Investigation on speech recognition Accuracy via Sphinx toolkits
Shome et al. Effect of End Point Detection on Fixed Phrase Speaker Verification
Lingam Speaker based language independent isolated speech recognition system
JPS61179499A (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JP5136621B2 (ja) 情報検索装置及び方法
TWI755328B (zh) 孩童聲音偵測系統、方法及電腦可讀媒介
Joshi et al. Mfcc-based voice recognition system for home automation using dynamic programming
JP4734771B2 (ja) 情報抽出装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100608