JP2003216183A

JP2003216183A - 情報検索方法及び装置

Info

Publication number: JP2003216183A
Application number: JP2002017621A
Authority: JP
Inventors: Yasuhiro Tokuri; 康裕戸栗; Masayuki Nishiguchi; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-01-25
Filing date: 2002-01-25
Publication date: 2003-07-30
Also published as: US20030154082A1; US20080177535A1; US7747435B2; US7346508B2

Abstract

(57)【要約】【課題】ＩＣレコーダ内部の半導体記憶装置に記録さ
れている符号化音声データの話者を容易に検索可能とす
る。【解決手段】話者検索装置１において、情報受信部１
０は、ＩＣレコーダ１００の半導体記憶装置１０７に記
録された符号化音声データを読み出し、音声復号部１２
は、その符号化音声データを復号する。話者頻度検出部
１３は、復号された音声波形の特徴に基づいて話者を識
別し、所定の時間区間における話者の会話頻度（出現頻
度）を求め、話者頻度グラフ表示部１４は、その話者頻
度を時間と頻度とを両軸とする２次元グラフとして画面
に表示する。音声再生部１６は、再生位置入力部１５に
おいてこの２次元グラフに基づいて指定された時間位置
又は時間範囲に相当する部分の符号化音声データを記憶
部１１から読み出し、復号して音声出力部１７に供給す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検索方法及び
装置に関し、特に、音声情報の話者を認識・識別するこ
とで、所望の話者の会話位置を検出・検索する情報検索
方法及びその装置に関する。

【０００２】

【従来の技術】近年、音声信号をデジタル化し、そのデ
ジタル音声信号の情報を圧縮して符号化し、情報量を低
減してから記憶装置や記録媒体に保存し、利用すること
が多い。特に、会議やインタビュー等における会話等の
音声を音声符号化技術によって符号化して、半導体記憶
装置（メモリ）又は半導体メモリを利用した記録媒体
（メモリカード）に情報を記録するデジタル音声記録装
置、いわゆるＩＣレコーダが開発されている。

【０００３】一般的なＩＣレコーダの構成は、図６に示
すようなものである。図６に示すように、ＩＣレコーダ
１００は、マイクロホン１０１と、Ａ／Ｄ（Analog to
Digital）変換器１０２と、音声符号化部１０３と、音
声復号部１０４と、Ｄ／Ａ（Digital to Analog）変換
器１０５と、スピーカ１０６と、半導体記憶装置（メモ
リ）１０７と、情報伝送部１０８と、出力端子１０９と
により構成される。なお、半導体記憶装置１０７の代わ
りに、半導体記録媒体（メモリカード）が用いられる場
合もある。

【０００４】マイクロホン１０１を介して入力された音
声信号は、Ａ／Ｄ変換器１０２においてデジタルデータ
に変換され、音声符号化部１０３において圧縮符号化さ
れた後、半導体記憶装置１０７に記憶される。そして、
この半導体記憶装置１０７に記憶された圧縮符号化後の
音声データは、音声復号部１０４によって読み出されて
再生され、Ｄ／Ａ変換器１０５でアナログ信号に変換さ
れた後、スピーカ１０６から出力されるか、又は、情報
伝送部１０８により読み出されて、出力端子１０９を介
して外部装置に伝送される。

【０００５】なお、ＩＣレコーダにおいて音声データを
記録する際に、その音声データと共に、音声データの簡
単な付加情報や属性情報、例えばデータ名、日付及び簡
単なコメント等を記録することができるものも開発され
ている。

【０００６】また、ＩＣレコーダは、音声データ中の位
置をインデックス情報として予め登録しておき、再生の
際には、登録された位置から直ちに再生できるようなラ
ンダムアクセスの機能を持つことも多い。また、登録さ
れた位置に関する簡単なコメント等をタグ情報として付
加することも可能である。

【０００７】以下、ＩＣレコーダにおいて用いられる音
声符号化方式について説明する。音声符号化方式には、
大別して波形符号化と分析合成符号化、そしてそれらを
混在したハイブリッド符号化に分けることができる。

【０００８】ここで、波形符号化は、音声波形をできる
だけ忠実に再現できるように符号化するものであり、分
析合成符号化は、音声の生成モデルに基づいて信号をパ
ラメータで表現して符号化するものである。

【０００９】波形符号化の手法及び装置には種々ある
が、例えば、時間軸上のオーディオ信号を複数の周波数
帯域に分割して符号化する帯域分割符号化（サブ・バン
ド符号化）や、時間軸の信号を所定単位時間でブロック
化してスペクトルに変換し、そのスペクトルを符号化す
る変換符号化等を挙げることができる。また、帯域分割
符号化と変換符号化とを組み合わせた高能率符号化の手
法も考えられており、この場合には、例えば、上記帯域
分割符号化で帯域分割を行った後、各分割帯域毎の信号
をスペクトル変換し、スペクトル変換された信号に対し
て各周波数帯域毎の符号化が施される。

【００１０】分析合成符号化としては、線形予測（Line
ar Predictive Coding:LPC）分析を用いた分析合成系等
が研究されている。例えば、ハーモニック符号化や、合
成による分析（A-b-S:Analysis-by-Synthesis）法を用
いたマルチパス駆動線形予測符号化（ＭＰＣ）や符号励
起線形予測（ＣＥＬＰ）符号化等がある。

【００１１】一般的に、ＬＰＣ分析を用いた符号化方式
では、線形予測分析（ＬＰＣ分析）によりスペクトルの
包絡情報を抽出し、ＬＰＣ情報をＰＡＲＣＯＲ係数（偏
自己相関関数：PARtial auto-CORrelation coefficien
t）やＬＳＰ（Linear Spectrum Pair）係数等に変換し
て量子化及び符号化する。また、ＬＰＣ分析による分析
合成符号化とそのＬＰＣ残差信号の波形符号化とを組み
合わせたハイブリッド方式も研究されており、会議録音
用等のＩＣレコーダには、このような方式が一般的に用
いられる。

【００１２】ＬＰＣ分析を用いた一般的な音声符号化装
置の概略構成を図７に示す。図７において、ＬＰＣ分析
部２０１は、入力部２００から入力された音声信号Ｄ２
００に対してＬＰＣ分析を施し、ＬＰＣ係数Ｄ２０１を
求める。ＬＰＣ分析部２０１は、求めたＬＰＣ係数Ｄ２
０１をＬＳＰ変換部２０２に供給する。

【００１３】ＬＳＰ変換部２０２は、ＬＰＣ係数Ｄ２０
１をＬＳＰパラメータＤ２０２に変換して、このＬＳＰ
パラメータＤ２０２をＬＳＰ量子化部２０３に供給し、
ＬＳＰ量子化部２０３は、ＬＳＰパラメータＤ２０２を
量子化する。ＬＳＰパラメータの方がＬＰＣ係数よりも
量子化された際の性能劣化が少ないことから、通常この
ようにＬＳＰパラメータに変換されてから量子化される
ことが多い。なお、ＬＳＰパラメータの量子化の手法と
しては、ベクトル量子化等がよく用いられる。

【００１４】ＬＰＣ逆フィルタ部２０４は、量子化ＬＳ
Ｐパラメータ２０３を逆量子化してさらにＬＰＣ係数に
逆変換して得られたＬＰＣ係数Ｄ２０４を用いて入力信
号Ｄ２００をフィルタリングし、入力信号Ｄ２００から
ＬＰＣ残差信号Ｄ２０５を抽出する。ＬＰＣ逆フィルタ
部２０４は、抽出したＬＰＣ残差信号Ｄ２０５をピッチ
分析部２０５及びピッチ逆フィルタ部２０７に供給す
る。

【００１５】ピッチ分析部２０５は、このようにして求
められたＬＰＣ残差信号Ｄ２０５に対してピッチ分析を
施し、分析されたピッチラグやピッチゲインといったピ
ッチ情報Ｄ２０６をピッチ量子化部２０６に供給する。
ピッチ量子化部２０６は、このピッチ情報Ｄ２０６を量
子化する。

【００１６】ピッチ逆フィルタ部２０７は、量子化ピッ
チ情報Ｄ２０７を逆量子化して得られたピッチ情報Ｄ２
０８を用いてＬＰＣ残差信号Ｄ２０５をフィルタリング
し、ＬＰＣ残差信号Ｄ２０５からピッチ成分を抜き出
す。ピッチ逆フィルタ部２０７は、このようにして平坦
化された残差信号Ｄ２０９をスペクトル変換部２０８に
供給する。

【００１７】スペクトル変換部２０８は、残差信号Ｄ２
０９をスペクトル係数Ｄ２１０に変換し、スペクトル量
子化部２０９は、スペクトル係数Ｄ２１０を量子化す
る。このスペクトル係数Ｄ２１０の量子化には、ベクト
ル量子化による手法や、聴覚心理モデルに基づいた量子
化とハフマン符号化等を組み合わせた手法がよく用いら
れる。

【００１８】このようにして求められた、量子化ＬＳＰ
パラメータＤ２０３、量子化ピッチ情報Ｄ２０７、量子
化スペクトルＤ２１１及びその他の付加情報等は、ビッ
ト合成部２１０に送られ、規定のデータフォーマットに
従って符号化ビットストリームＤ２１２が生成され、出
力部２１１に供給された後、出力される。

【００１９】図７のようなＬＰＣ分析を用いた音声符号
化装置よって生成された符号化音声データの記録形式の
一例を図８に示す。図８に示すように、符号化音声デー
タは、例えばデータの識別番号、データ名及びデータ属
性等の付加情報と音声情報のブロックデータとで構成さ
れる。また、ブロックデータは、例えばヘッダ、ブロッ
ク単位の付加情報、ピッチ情報、ＬＳＰ情報、スペクト
ル情報等で構成される。

【００２０】また、図７に示した音声符号化装置に対応
する音声復号装置の概略構成を図９に示す。図９におい
て、ビット分解部２２１は、入力部２２０から所定のブ
ロック毎に入力された符号化データＤ２２０を幾つかの
部分要素に分解する。例えば、ビット分解部２２１は、
符号化データＤ２２０をブロック毎に量子化ＬＳＰ情報
Ｄ２２１、量子化ピッチ情報Ｄ２２２及び量子化残差ス
ペクトル情報Ｄ２２３等に分解する。ビット分解部２２
１は、これらの量子化ＬＳＰ情報Ｄ２２１、量子化ピッ
チ情報Ｄ２２２及び量子化残差スペクトル情報Ｄ２２３
を、それぞれ、ＬＳＰ逆量子化部２２２、ピッチ逆量子
化部２２３、スペクトル逆量子化部２２４に供給する。

【００２１】ＬＳＰ逆量子化部２２２は、量子化ＬＳＰ
情報Ｄ２２１を逆量子化してＬＳＰパラメータを生成
し、さらにＬＳＰパラメータをＬＰＣ係数Ｄ２２４に変
換する。ＬＳＰ逆量子化部２２２は、このＬＰＣ係数Ｄ
２２４を、ＬＰＣ合成部２２７に供給する。

【００２２】ピッチ逆量子化部２２３は、量子化ピッチ
情報Ｄ２２２を逆量子化して、ピッチ周期やピッチゲイ
ンといったピッチ情報Ｄ２２５を生成する。ピッチ逆量
子化部２２３は、このピッチ情報Ｄ２２５をピッチ合成
部２２６に供給する。

【００２３】スペクトル逆量子化部２２４は、量子化残
差スペクトル情報Ｄ２２３を逆量子化して、残差スペク
トルＤ２２６を生成し、スペクトル逆変換部２２５に供
給する。

【００２４】スペクトル逆変換部２２５は、残差スペク
トルＤ２２６に対してスペクトル逆変換を施し、残差波
形Ｄ２２７に変換する。スペクトル逆変換部２２５は、
この残差波形Ｄ２２７をピッチ合成部２２６に供給す
る。

【００２５】ピッチ合成部２２６は、ピッチ逆量子化部
２２３から供給されたピッチ情報Ｄ２２５を用いて残差
波形Ｄ２２７にフィルタリングを施し、ＬＰＣ残差波形
Ｄ２２８を合成する。ピッチ合成部２２６は、このＬＰ
Ｃ残差波形Ｄ２２８をＬＰＣ合成部２２７に供給する。

【００２６】ＬＰＣ合成部２２７は、ＬＳＰ逆量子化部
２２２から供給されたＬＰＣ係数Ｄ２２４を用いてＬＰ
Ｃ残差波形Ｄ２２８にフィルタリングを施し、音声波形
Ｄ２２９を合成する。ＬＰＣ合成部２２７は、この音声
波形Ｄ２２９を出力部２２８に供給する。

【００２７】一方、音声信号の話者を識別する技術も盛
んに研究がされている。以下、説明する。

【００２８】一般的な音声認識技術としては、例えば次
のような技術がよく用いられる。先ず、ある話者の音声
信号の個人性を表す特徴量を抽出して、予め学習データ
として記録しておく。そして、入力された話者音声を分
析して、その個人性を表す特徴量を抽出して、学習デー
タとの類似度を評価することで、話者の識別・照合を行
う。ここで、音声の個人性を表す特徴量としては、ケプ
ストラム（Cepstrum）等がよく用いられる。或いは、音
声信号にＬＰＣ分析を施してＬＰＣ係数を求め、そのＬ
ＰＣ係数を変換することで得られるＬＰＣケプストラム
係数を用いることが多い。これらのケプストラム若しく
はＬＰＣケプストラム係数の時系列の多項式展開係数を
デルタケプストラムと呼び、これも音声スペクトルの時
間的変化を表現する特徴量としてよく用いられる。この
他、ピッチやデルタピッチ（ピッチの多項式展開係数）
等も用いられることがある。

【００２９】このようにして抽出されたＬＰＣ（Linear
Predictive Coding）ケプストラム等の特徴量を標準パ
ターンとして学習データを作成するが、その方法として
は、ベクトル量子化歪みによる方法と隠れマルコフモデ
ル（HMM:Hidden Markov Model）による方法が代表的で
ある。

【００３０】ベクトル量子化歪みによる方法では、予め
話者ごとの特徴量をグループ化してその重心を符号帳
（コードブック）の要素（コードベクトル）として蓄え
ておく。そして、入力された音声の特徴量を各話者のコ
ードブックでベクトル量子化して、その入力音声全体に
対する各コードブックの平均量子化歪みを求める。そし
て、その平均量子化歪みの最も小さいコードブックの話
者を選択する。

【００３１】一方、ＨＭＭによる方法では、上記と同様
にして求めた話者の特徴量は、ＨＭＭの状態間の遷移確
率と、各状態での特徴量の出現確率によって表現され、
入力音声区間全体でモデルとの平均尤度によって判定を
する。

【００３２】

【発明が解決しようとする課題】ところで、上述したよ
うな半導体記憶装置を用いた従来のＩＣレコーダでは、
記録された音声データから所望の話者の会話部分にアク
セスして再生するためには、そのＩＣレコーダがインデ
ックス情報の登録機能を有し、且つ、予めインデックス
情報を登録しておく必要があった。このようなインデッ
クス情報を登録するためには、人間が音声データの全区
間を視聴して、話者の会話部分を調べながら行う必要が
あり、膨大な労力を要するものであった。

【００３３】また、仮にインデックス情報を登録して
も、所望の話者がどの部分でどの位の頻度で会話をして
いるか、容易に判るものはなかった。

【００３４】また、このようなインデックス情報やタグ
情報を登録する機能を持たないＩＣレコーダについて
は、その音声データ中の話者の会話部分を検出・検索す
ることができず、また、所望の話者の会話位置から再生
したり、所望の話者の会話区間だけを部分的に再生した
りすることもできなかった。

【００３５】本発明は、このような従来の実情に鑑みて
提案されたものであり、インデックス情報を登録するこ
となしにＩＣレコーダに記録された音声データの話者の
会話頻度情報を表現し、これにより直ちに所望の話者の
会話区間を検索し、再生可能とする情報検索方法及びそ
の装置を提供することを目的とする。

【００３６】

【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る情報検索方法は、符号化音声デー
タから当該符号化音声データにおける話者情報を検索す
る情報検索方法であって、上記符号化音声データの特徴
に基づいて所定の認識区間毎に話者を識別し、所定の頻
度区間毎に話者の出現頻度を検出する話者頻度検出工程
と、上記頻度区間毎に検出された各話者の出現頻度を、
時間と出現頻度とを両軸とする２次元グラフィカルデー
タとして出力画面に出力して表示させる話者頻度グラフ
出力工程とを有することを特徴としている。

【００３７】ここで、上記話者頻度グラフ出力工程で
は、複数の話者の出現頻度を上記出力画面に出力して表
示させることができる。

【００３８】また、上記符号化音声データは、例えばＩ
Ｃレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索方法は、上記出力画面に表示された上記２次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定工程と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生工程とを
有する。

【００３９】さらに、この情報検索方法は、所望の話者
を指定する話者指定工程を有し、上記音声再生工程にお
いて、上記符号化音声データのうち上記話者指定工程で
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。

【００４０】このような情報検索方法では、例えばＩＣ
レコーダ内部の半導体記憶装置に記録された符号化音声
データにおける話者の出現頻度（会話頻度）が、時間と
出現頻度とを両軸とする２次元グラフィカルデータとし
て表示される。また、その２次元グラフィカルデータに
基づいて所望の話者の会話位置を指定し、再生すること
が可能とされる。

【００４１】また、上述した目的を達成するために、本
発明に係る情報検索装置は、符号化音声データから当該
符号化音声データにおける話者情報を検索する情報検索
装置であって、上記符号化音声データの特徴に基づいて
所定の認識区間毎に話者を識別し、所定の頻度区間毎に
話者の出現頻度を検出する話者頻度検出手段と、上記頻
度区間毎に検出された各話者の出現頻度を、時間と出現
頻度とを両軸とする２次元グラフィカルデータとして出
力画面に出力して表示させる話者頻度グラフ出力手段と
を備えることを特徴としている。

【００４２】ここで、上記話者頻度グラフ出力手段は、
複数の話者の出現頻度を上記出力画面に出力して表示さ
せることができる。

【００４３】また、上記符号化音声データは、例えばＩ
Ｃレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索装置は、上記出力画面に表示された上記２次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定手段と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生手段とを
備える。

【００４４】さらに、この情報検索装置は、所望の話者
を指定する話者指定手段を備え、上記音声再生手段は、
上記符号化音声データのうち上記話者指定手段によって
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。

【００４５】このような情報検索装置は、例えばＩＣレ
コーダ内部の半導体記憶装置に記録された符号化音声デ
ータにおける話者の出現頻度（会話頻度）を、時間と出
現頻度とを両軸とする２次元グラフィカルデータとして
表示する。また、その２次元グラフィカルデータに基づ
いて所望の話者の会話位置を指定し、再生することを可
能とする。

【００４６】

【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、インデックス情報を
登録することなしにＩＣレコーダに記録された符号化音
声データの話者の会話頻度情報を表現し、これにより直
ちに所望の話者の会話区間を検索し、再生可能とする話
者検索装置に適用したものである。

【００４７】より詳しくは、話者検索装置は、ＩＣレコ
ーダの半導体記憶装置に記録された符号化音声データを
読み出し、その音声の特徴に基づいて話者を識別するこ
とで所定の時間区間における話者の会話頻度（出現頻
度）を求め、その話者頻度を２次元グラフとして画面に
表示する。このグラフ化された話者頻度情報を用いるこ
とにより、所望の話者の会話位置を容易に検索すること
ができ、その会話位置或いは会話区間を直ちに再生する
ことができる。

【００４８】なお、以下では、符号化音声データは、Ｉ
Ｃレコーダの半導体記憶装置に記録されたものとして説
明するが、これに限定されるものではなく、ランダムア
クセス可能な記憶装置又は記録媒体に記録されたもので
あればよい。

【００４９】先ず、この話者検索装置の概略構成を図１
に示す。なお、図１には、ＩＣレコーダについても併せ
て示しているが、このＩＣレコーダは、図６を用いて前
述したＩＣレコーダ１００と同様の構成であるため、半
導体記憶装置１０７及び情報伝送部１０８についてのみ
図６と同一の符号を付して図示し、それ以外の部分につ
いては、図示を省略する。

【００５０】図１に示すように、ＩＣレコーダ１００の
情報伝送部１０８は、半導体記憶装置１０７から符号化
音声データＤ１０を読み出し、伝送ケーブル等の伝送媒
体を介して、符号化音声データＤ１１を本実施の形態に
おける話者検索装置１に伝送する。

【００５１】ここで、本実施の形態における話者検索装
置１は、ＩＣレコーダ１００から伝送された情報を受信
する情報受信部１０と、伝送された情報を一時的に保存
する記憶部１１と、符号化された音声データを音声波形
データに復号する音声復号部１２と、音声波形データか
ら話者を識別して所定の区間毎に話者の会話頻度（出現
頻度）を検出する話者頻度検出部１３と、検出した話者
頻度を時間軸に対して２次元グラフ表示する話者頻度グ
ラフ表示部１４と、画面のグラフ上においてポインタで
指定された音声データの時刻位置と時刻範囲とを読み取
る再生位置入力部１５と、音声データの当該指定された
時刻位置・時刻範囲を部分的に再生する処理を行う音声
再生部１６と、その再生音声を出力する音声出力部１７
とから構成されている。

【００５２】情報受信部１０は、ＩＣレコーダ１００の
情報伝送部１０８から符号化音声データＤ１１を受信
し、符号化音声データＤ１２を記憶装置１１に一時的に
記憶する。なお、符号化音声データＤ１１を受信する際
には、当該符号化音声データＤ１１を一度に受信しても
よく、所定のブロック毎に逐次受信してもよい。また、
記憶装置１１は、処理のための一時的な記憶装置であ
り、磁気記録装置（ディスク装置）であっても、半導体
記憶装置（メモリ）であってもよい。

【００５３】音声復号部１２は、記憶装置１１から所定
のブロック毎に符号化音声データＤ１３を読み込み、音
声波形に復号する。なお、この音声復号部１２は、例え
ば図９を用いて前述した音声復号装置のような構成とす
ることができる。

【００５４】話者頻度検出部１３は、復号された音声波
形Ｄ１４を読み込み、その音声の特徴に基づいて話者を
所定の認識ブロック毎に識別し、さらに所定の区間毎に
話者の出現頻度を検出する。

【００５５】ここで、話者頻度検出部１３の内部構成に
ついて、図２及び図３を用いて説明する。この話者頻度
検出部１３は、本件出願人が先に提案した特願２００１
−１７７５６９の明細書及び図面における情報抽出装置
と同様の構成とすることができる。

【００５６】図２に示すように、話者情報検出部１３
は、入力部２０と、ケプストラム抽出部２１と、ベクト
ル量子化部２２と、話者識別部２３と、頻度計算部２４
と、出力部２５とにより構成される。

【００５７】また、図２において、コードブック群ＣＢ
は、ベクトル量子化に用いる全登録話者のコードブック
データが格納されたものである。

【００５８】入力部２０は、上述した音声復号部１２に
おいて復号された音声波形データを図３に示すＬＰＣ分
析ブロックＡＢ毎に読み込み、ケプストラム抽出部２１
は、その音声波形のブロックデータＤ２０に対してＬＰ
Ｃ（Linear Predictive Coding）分析を施し、ＬＰＣケ
プストラム係数Ｄ２１を求める。なお、このＬＰＣ分析
ブロックＡＢは、分析性能を向上させるために、隣接ブ
ロックと若干オーバーラップさせることが多い。

【００５９】ベクトル量子化部２２は、コードブック群
ＣＢからの全登録話者のコードブックデータＤ２２を用
いて、ケプストラム抽出部２１において得られたＬＰＣ
ケプストラム係数Ｄ２１に対してそれぞれベクトル量子
化を施し、そのベクトル量子化歪Ｄ２３を話者識別部２
３に供給する。

【００６０】話者識別部２３は、ベクトル量子化部２２
から供給されたベクトル量子化歪Ｄ２３を評価して、図
３に示す話者認識ブロックＲＢ毎に話者の識別を行い、
識別された話者情報Ｄ２４を頻度計算部２４に供給す
る。この話者認識ブロックＲＢは、話者を識別する単位
であり、そのブロック長は、数秒程度が望ましい。な
お、この話者認識ブロックＲＢについても、隣接ブロッ
クと若干オーバーラップさせることができる。

【００６１】頻度計算部２４は、話者識別部２３から供
給された話者情報Ｄ２４を蓄えておき、図３に示す頻度
区間ＦＩ毎に各話者の出現頻度Ｄ２５を求め、その出現
頻度Ｄ２５を出力部２５に供給する。この頻度区間ＦＩ
は、話者の出現頻度を求める単位であり、１つの頻度区
間ＦＩには、話者認識ブロックがＮ個含まれる。なお、
Ｎは、通常１０乃至数百程度が望ましい。

【００６２】以下、この話者情報検出部１３の動作につ
いて、図４のフローチャートを用いて詳細に説明する。
先ずステップＳ１０において、初期化処理として、区間
番号Ｉ、カウンタｎを０とする。ここで、区間番号Ｉと
は、話者の頻度を求める頻度区間ＦＩに付けた連続番号
であり、カウンタｎとは、Ｉ番目の頻度区間ＦＩ_Ｉにお
ける処理済みの話者認識ブロックＲＢの数を数えるカウ
ンタである。

【００６３】次にステップＳ１１において、ｎ番目の話
者認識ブロックＲＢにおける話者を識別し、その話者情
報を保存しておく。この際、処理がデータ末尾まで到達
したら、処理を終了する。

【００６４】各話者認識ブロックＲＢにおける話者識別
手法としては、例えば上述した特願２００１−１７７５
６９の明細書及び図面に記載されているような手法を用
いることができる。具体的には、ＬＰＣ分析ブロックＡ
Ｂ毎に求めたＬＰＣケプストラム係数を各コードブック
ＣＢでベクトル量子化し、それぞれのベクトル量子化歪
を保存する。そして、話者認識ブロックＲＢの全てのＬ
ＰＣ分析ブロックＡＢについてベクトル量子化歪を求め
て平均量子化歪を計算し、その平均量子化歪が最も小さ
いコードブックに対応する話者を、その話者認識ブロッ
クＲＢにおける話者と識別する。

【００６５】なお、この際、識別された話者の照合判定
を行うようにしてもよく、その結果、本人でないと判定
されれば、この話者認識ブロックＲＢにおける話者を未
知話者として確定する。

【００６６】ステップＳ１２では、カウンタｎがＮ未満
であるか否か、すなわち、頻度区間ＦＩ_Ｉに話者識別処
理を行っていない話者認識ブロックＲＢがあるか否かが
判別される。

【００６７】ステップＳ１２においてカウンタｎがＮ未
満である場合（Yes）、すなわち、頻度区間ＦＩ_Ｉに話
者識別処理を行っていない話者認識ブロックＲＢがある
場合には、ステップＳ１３においてカウンタｎに１を加
算した後、ステップＳ１１に戻って、次の話者認識ブロ
ックＲＢの処理を続ける。このようにして、頻度区間Ｆ
Ｉ_Ｉの全ての話者認識ブロックＲＢについて話者識別処
理を行うまで、ステップＳ１１からステップＳ１３まで
の処理を繰り返す。

【００６８】ステップＳ１２においてカウンタｎがＮ未
満でない場合（No）、すなわち、頻度区間ＦＩ_Ｉの全て
の話者認識ブロックＲＢについて話者識別処理を行った
場合には、ステップＳ１４に進む。

【００６９】ステップＳ１４では、頻度区間ＦＩ_Ｉにお
ける各話者の出現頻度を求め、ステップＳ１５におい
て、各話者の頻度情報を出力する。

【００７０】ステップＳ１５では、区間番号Ｉに１を加
算し、カウンタｎを０に初期化してステップＳ１１に戻
る。以降同様にして、データ末尾に到達するまで、全て
の頻度区間ＦＩについて各話者の頻度情報を求める。

【００７１】再び図１に戻り、話者頻度グラフ表示部１
４は、上述したようにして求められた各頻度区間ＦＩに
おける話者頻度Ｄ１５を読み込み、時間軸に対して２次
元グラフ形式で出力画面上に表示する。この出力画面の
構成例を図５に示す。

【００７２】図５に示すように、表示画面には、検索対
象のデータ名Ｄｔと、頻度情報を表示する話者を選択す
る領域Ｓｓと、選択された話者の出現頻度を時間軸に対
して２次元グラフ表示するための領域Ｇｒと、再生した
い時間位置又は時間範囲を指定するためのポインタＰｔ
と、ポインタＰｔで指定された時間位置又は時間範囲の
データを部分的に再生させる再生ボタンＲｂとが表示さ
れる。

【００７３】ここで、話者を選択する領域Ｓｓには、例
えば話者の名前や識別番号等を入力するようにしてもよ
く、話者の一覧から選択するようにしてもよい。なお、
この話者は、１人に限定されず複数指定することもで
き、この場合、指定された複数の話者のグラフが領域Ｇ
ｒに表示される。

【００７４】また、ポインタＰｔは、図５のように開始
位置と終了位置とを指定してもよく、また、再生範囲を
限定せず１つのポインタＰｔで開始位置のみを指定する
ようにしてもよい。

【００７５】図１の再生位置入力部１５は、例えば図５
の再生ボタンＲｂが押された際に選択されているポイン
タＰｔの座標位置Ｄ１６を読み取り、音声データにおけ
る再生時間位置又は時間範囲Ｄ１７を求める。再生位置
入力部１５は、この再生時間位置又は時間範囲Ｄ１７を
音声再生部１６に供給する。なお、この際、再生位置入
力部１５は、選択された話者の出現頻度が所定の閾値以
上の部分のみを読み取るようにしても構わない。

【００７６】音声再生部１６は、指定された時間位置又
は時間範囲に相当する部分の符号化音声データＤ１８を
記憶部１１から読み込み、音声波形に復号し、復号され
た音声波形信号Ｄ１９を音声出力部１７に供給する。

【００７７】以上説明したように、本実施の形態におけ
る話者検索装置１は、ＩＣレコーダ内部の半導体記憶装
置に記録された符号化音声データにおける話者の出現頻
度（会話頻度）を、時間と出現頻度とを両軸とする２次
元グラフィカルデータとして表示するため、所望の話者
の出現頻度を視覚的に確認することができ、容易に所望
の話者の会話位置を検索することができる。

【００７８】また、ランダムアクセス可能なＩＣレコー
ダにおける符号化音声データを用いているため、その２
次元グラフィカルデータに基づいて、所望の話者の会話
位置を視覚的に指定し、その部分を直ちに再生してその
内容を確認することが可能とされる。

【００７９】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。

【００８０】例えば、上述の説明では、符号化音声デー
タを一旦音声波形に復号してから話者の識別処理を行う
ものとして説明したが、これに限定されるものではな
く、例えば本件出願人が先に提案した特願２００１−２
２５０５１の明細書及び図面における情報検出装置のよ
うに、符号化音声データから直接パラメータを抽出する
ことで、符号化音声データを時間波形に復号することな
く、話者を識別することも可能である。

【００８１】具体的には、例えば前述した図８のような
記録形式の符号化音声データからＬＳＰ情報のみを抽出
して復号し、これをＬＰＣケプストラム係数に変換し
て、そのベクトル量子化歪を評価することによって、話
者を識別することができる。

【００８２】このように符号化音声データを時間波形に
復号することなく話者を識別することにより、識別処理
に必要な演算量と記憶領域を大幅に低減することがで
き、また、復号と再分析の影響による認識率の悪化を低
減することができる。

【００８３】

【発明の効果】以上詳細に説明したように本発明に係る
情報検索方法は、符号化音声データから当該符号化音声
データにおける話者情報を検索する情報検索方法であっ
て、上記符号化音声データの特徴に基づいて所定の認識
区間毎に話者を識別し、所定の頻度区間毎に話者の出現
頻度を検出する話者頻度検出工程と、上記頻度区間毎に
検出された各話者の出現頻度を、時間と出現頻度とを両
軸とする２次元グラフィカルデータとして出力画面に出
力して表示させる話者頻度グラフ出力工程とを有するこ
とを特徴としている。

【００８４】ここで、上記話者頻度グラフ出力工程で
は、複数の話者の出現頻度を上記出力画面に出力して表
示させることができる。

【００８５】また、上記符号化音声データは、例えばＩ
Ｃレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索方法は、上記出力画面に表示された上記２次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定工程と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生工程とを
有する。

【００８６】さらに、この情報検索方法は、所望の話者
を指定する話者指定工程を有し、上記音声再生工程にお
いて、上記符号化音声データのうち上記話者指定工程で
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。

【００８７】このような情報検索方法によれば、例えば
ＩＣレコーダ内部の半導体記憶装置に記録された符号化
音声データにおける話者の出現頻度（会話頻度）を、時
間と出現頻度とを両軸とする２次元グラフィカルデータ
として表示するため、所望の話者の出現頻度を視覚的に
確認することができ、容易に所望の話者の会話位置を検
索することができる。

【００８８】また、ランダムアクセス可能なＩＣレコー
ダにおける符号化音声データを用いているため、その２
次元グラフィカルデータに基づいて、所望の話者の会話
位置を視覚的に指定し、その部分を直ちに再生してその
内容を確認することが可能とされる。

【００８９】また、本発明に係る情報検索装置は、符号
化音声データから当該符号化音声データにおける話者情
報を検索する情報検索装置であって、上記符号化音声デ
ータの特徴に基づいて所定の認識区間毎に話者を識別
し、所定の頻度区間毎に話者の出現頻度を検出する話者
頻度検出手段と、上記頻度区間毎に検出された各話者の
出現頻度を、時間と出現頻度とを両軸とする２次元グラ
フィカルデータとして出力画面に出力して表示させる話
者頻度グラフ出力手段とを備えることを特徴としてい
る。

【００９０】ここで、上記話者頻度グラフ出力手段は、
複数の話者の出現頻度を上記出力画面に出力して表示さ
せることができる。

【００９１】また、上記符号化音声データは、例えばＩ
Ｃレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索装置は、上記出力画面に表示された上記２次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定手段と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生手段とを
備える。

【００９２】さらに、この情報検索装置は、所望の話者
を指定する話者指定手段を備え、上記音声再生手段は、
上記符号化音声データのうち上記話者指定手段によって
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。

【００９３】このような情報検索装置によれば、例えば
ＩＣレコーダ内部の半導体記憶装置に記録された符号化
音声データにおける話者の出現頻度（会話頻度）を、時
間と出現頻度とを両軸とする２次元グラフィカルデータ
として表示するため、所望の話者の出現頻度を視覚的に
確認することができ、容易に所望の話者の会話位置を検
索することができる。

【００９４】また、ランダムアクセス可能なＩＣレコー
ダにおける符号化音声データを用いているため、その２
次元グラフィカルデータに基づいて、所望の話者の会話
位置を視覚的に指定し、その部分を直ちに再生してその
内容を確認することが可能とされる。

【図面の簡単な説明】

【図１】本実施の形態における話者検索装置の概略構成
を説明する図である。

【図２】同話者検索装置における話者頻度検出部の構成
を説明する図である。

【図３】同話者頻度検出部における処理に用いられるＬ
ＰＣ分析ブロック、話者認識ブロック及び頻度区間の関
係を説明する図である。

【図４】同話者頻度検出部の動作を説明するフローチャ
ートである。

【図５】話者頻度が２次元グラフ形式で表示される表示
画面の構成例を説明する図である。

【図６】従来のＩＣレコーダの概略構成を説明する図で
ある。

【図７】従来の音声符号化装置の概略構成を説明する図
である。

【図８】同音声符号化装置よって生成された符号化音声
データの記録形式の一例を説明する図である。

【図９】従来の音声復号装置の概略構成を説明する図で
ある。

【符号の説明】

１話者検索装置、１０情報受信部、１１記憶部、
１２音声復号部、１３話者頻度検出部、１４話者
頻度グラフ表示部、１５再生位置入力部、１６音声
再生部、１７音声出力部、２０入力部、２１ケプ
ストラム抽出部、２２ベクトル量子化部、２３話者
識別部、２４頻度計算部、２５出力部、１００Ｉ
Ｃレコーダ、１０１マイクロホン、１０２Ａ／Ｄ変
換器、１０３音声符号化部、１０４音声復号部、１
０５Ｄ／Ａ変換器、１０６スピーカ、１０７半導
体記憶装置、１０８情報伝送部、１０９出力端子

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 19/00 Ｇ１０Ｌ 9/14 ３０１ＡＦターム(参考） 5B075 ND02 ND14 NR11 PQ14 PQ27 5D015 AA03 FF06 LL05 5D045 DB10

Claims

【特許請求の範囲】

【請求項１】符号化音声データから当該符号化音声デ
ータにおける話者情報を検索する情報検索方法であっ
て、上記符号化音声データの特徴に基づいて所定の認識区間
毎に話者を識別し、所定の頻度区間毎に話者の出現頻度
を検出する話者頻度検出工程と、上記頻度区間毎に検出された各話者の出現頻度を、時間
と出現頻度とを両軸とする２次元グラフィカルデータと
して出力画面に出力して表示させる話者頻度グラフ出力
工程とを有することを特徴とする情報検索方法。
【請求項２】上記話者頻度グラフ出力工程では、複数
の話者の出現頻度が上記出力画面に出力されて表示され
ることを特徴とする請求項１記載の情報検索方法。
【請求項３】上記符号化音声データは、ランダムアク
セス可能な記憶装置又は記録媒体に記録されており、上記出力画面に表示された上記２次元グラフィカルデー
タ上における時間位置を指定する位置指定工程と、指定された上記時間位置を読み込み、当該時間位置から
上記符号化音声データを再生する音声再生工程とを有す
ることを特徴とする請求項１記載の情報検索方法。
【請求項４】上記位置指定工程では、上記２次元グラ
フィカルデータ上における時間範囲が指定され、上記音声再生工程では、指定された上記時間範囲の上記
符号化音声データが再生されることを特徴とする請求項
３記載の情報検索方法。
【請求項５】所望の話者を指定する話者指定工程を有
し、上記音声再生工程では、上記符号化音声データのうち上
記話者指定工程で指定された上記所望の話者の出現頻度
が所定の閾値以上である部分が再生されることを特徴と
する請求項３記載の情報検索方法。
【請求項６】上記符号化音声データは、ＩＣレコーダ
内部の半導体記憶装置に記録されていることを特徴とす
る請求項３記載の情報検索方法。
【請求項７】符号化音声データから当該符号化音声デ
ータにおける話者情報を検索する情報検索装置であっ
て、上記符号化音声データの特徴に基づいて所定の認識区間
毎に話者を識別し、所定の頻度区間毎に話者の出現頻度
を検出する話者頻度検出手段と、上記頻度区間毎に検出された各話者の出現頻度を、時間
と出現頻度とを両軸とする２次元グラフィカルデータと
して出力画面に出力して表示させる話者頻度グラフ出力
手段とを備えることを特徴とする情報検索装置。
【請求項８】上記話者頻度グラフ出力手段は、複数の
話者の出現頻度を上記出力画面に出力して表示させるこ
とを特徴とする請求項７記載の情報検索装置。
【請求項９】上記符号化音声データは、ランダムアク
セス可能な記憶装置又は記録媒体に記録されており、上記出力画面に出力された上記２次元グラフィカルデー
タ上における時間位置を指定する位置指定手段と、指定された上記時間位置を読み込み、当該時間位置から
上記符号化音声データを再生する音声再生手段とを備え
ることを特徴とする請求項７記載の情報検索装置。
【請求項１０】上記位置指定手段は、上記２次元グラ
フィカルデータ上における時間範囲を指定し、上記音声再生手段は、指定された上記時間範囲の上記符
号化音声データを再生することを特徴とする請求項９記
載の情報検索装置。
【請求項１１】所望の話者を指定する話者指定手段を
備え、上記音声再生手段は、上記符号化音声データのうち上記
話者指定手段によって指定された上記所望の話者の出現
頻度が所定の閾値以上である部分を再生することを特徴
とする請求項９記載の情報検索装置。
【請求項１２】上記符号化音声データは、ＩＣレコー
ダ内部の半導体記憶装置に記録されていることを特徴と
する請求項９記載の情報検索装置。