JP2003216183A - 情報検索方法及び装置 - Google Patents

情報検索方法及び装置

Info

Publication number
JP2003216183A
JP2003216183A JP2002017621A JP2002017621A JP2003216183A JP 2003216183 A JP2003216183 A JP 2003216183A JP 2002017621 A JP2002017621 A JP 2002017621A JP 2002017621 A JP2002017621 A JP 2002017621A JP 2003216183 A JP2003216183 A JP 2003216183A
Authority
JP
Japan
Prior art keywords
speaker
frequency
information
voice data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2002017621A
Other languages
English (en)
Inventor
Yasuhiro Tokuri
康裕 戸栗
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002017621A priority Critical patent/JP2003216183A/ja
Priority to US10/342,985 priority patent/US7346508B2/en
Publication of JP2003216183A publication Critical patent/JP2003216183A/ja
Priority to US12/075,872 priority patent/US7747435B2/en
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

(57)【要約】 【課題】 ICレコーダ内部の半導体記憶装置に記録さ
れている符号化音声データの話者を容易に検索可能とす
る。 【解決手段】 話者検索装置1において、情報受信部1
0は、ICレコーダ100の半導体記憶装置107に記
録された符号化音声データを読み出し、音声復号部12
は、その符号化音声データを復号する。話者頻度検出部
13は、復号された音声波形の特徴に基づいて話者を識
別し、所定の時間区間における話者の会話頻度(出現頻
度)を求め、話者頻度グラフ表示部14は、その話者頻
度を時間と頻度とを両軸とする2次元グラフとして画面
に表示する。音声再生部16は、再生位置入力部15に
おいてこの2次元グラフに基づいて指定された時間位置
又は時間範囲に相当する部分の符号化音声データを記憶
部11から読み出し、復号して音声出力部17に供給す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索方法及び
装置に関し、特に、音声情報の話者を認識・識別するこ
とで、所望の話者の会話位置を検出・検索する情報検索
方法及びその装置に関する。
【0002】
【従来の技術】近年、音声信号をデジタル化し、そのデ
ジタル音声信号の情報を圧縮して符号化し、情報量を低
減してから記憶装置や記録媒体に保存し、利用すること
が多い。特に、会議やインタビュー等における会話等の
音声を音声符号化技術によって符号化して、半導体記憶
装置(メモリ)又は半導体メモリを利用した記録媒体
(メモリカード)に情報を記録するデジタル音声記録装
置、いわゆるICレコーダが開発されている。
【0003】一般的なICレコーダの構成は、図6に示
すようなものである。図6に示すように、ICレコーダ
100は、マイクロホン101と、A/D(Analog to
Digital)変換器102と、音声符号化部103と、音
声復号部104と、D/A(Digital to Analog)変換
器105と、スピーカ106と、半導体記憶装置(メモ
リ)107と、情報伝送部108と、出力端子109と
により構成される。なお、半導体記憶装置107の代わ
りに、半導体記録媒体(メモリカード)が用いられる場
合もある。
【0004】マイクロホン101を介して入力された音
声信号は、A/D変換器102においてデジタルデータ
に変換され、音声符号化部103において圧縮符号化さ
れた後、半導体記憶装置107に記憶される。そして、
この半導体記憶装置107に記憶された圧縮符号化後の
音声データは、音声復号部104によって読み出されて
再生され、D/A変換器105でアナログ信号に変換さ
れた後、スピーカ106から出力されるか、又は、情報
伝送部108により読み出されて、出力端子109を介
して外部装置に伝送される。
【0005】なお、ICレコーダにおいて音声データを
記録する際に、その音声データと共に、音声データの簡
単な付加情報や属性情報、例えばデータ名、日付及び簡
単なコメント等を記録することができるものも開発され
ている。
【0006】また、ICレコーダは、音声データ中の位
置をインデックス情報として予め登録しておき、再生の
際には、登録された位置から直ちに再生できるようなラ
ンダムアクセスの機能を持つことも多い。また、登録さ
れた位置に関する簡単なコメント等をタグ情報として付
加することも可能である。
【0007】以下、ICレコーダにおいて用いられる音
声符号化方式について説明する。音声符号化方式には、
大別して波形符号化と分析合成符号化、そしてそれらを
混在したハイブリッド符号化に分けることができる。
【0008】ここで、波形符号化は、音声波形をできる
だけ忠実に再現できるように符号化するものであり、分
析合成符号化は、音声の生成モデルに基づいて信号をパ
ラメータで表現して符号化するものである。
【0009】波形符号化の手法及び装置には種々ある
が、例えば、時間軸上のオーディオ信号を複数の周波数
帯域に分割して符号化する帯域分割符号化(サブ・バン
ド符号化)や、時間軸の信号を所定単位時間でブロック
化してスペクトルに変換し、そのスペクトルを符号化す
る変換符号化等を挙げることができる。また、帯域分割
符号化と変換符号化とを組み合わせた高能率符号化の手
法も考えられており、この場合には、例えば、上記帯域
分割符号化で帯域分割を行った後、各分割帯域毎の信号
をスペクトル変換し、スペクトル変換された信号に対し
て各周波数帯域毎の符号化が施される。
【0010】分析合成符号化としては、線形予測(Line
ar Predictive Coding:LPC)分析を用いた分析合成系等
が研究されている。例えば、ハーモニック符号化や、合
成による分析(A-b-S:Analysis-by-Synthesis)法を用
いたマルチパス駆動線形予測符号化(MPC)や符号励
起線形予測(CELP)符号化等がある。
【0011】一般的に、LPC分析を用いた符号化方式
では、線形予測分析(LPC分析)によりスペクトルの
包絡情報を抽出し、LPC情報をPARCOR係数(偏
自己相関関数:PARtial auto-CORrelation coefficien
t)やLSP(Linear Spectrum Pair)係数等に変換し
て量子化及び符号化する。また、LPC分析による分析
合成符号化とそのLPC残差信号の波形符号化とを組み
合わせたハイブリッド方式も研究されており、会議録音
用等のICレコーダには、このような方式が一般的に用
いられる。
【0012】LPC分析を用いた一般的な音声符号化装
置の概略構成を図7に示す。図7において、LPC分析
部201は、入力部200から入力された音声信号D2
00に対してLPC分析を施し、LPC係数D201を
求める。LPC分析部201は、求めたLPC係数D2
01をLSP変換部202に供給する。
【0013】LSP変換部202は、LPC係数D20
1をLSPパラメータD202に変換して、このLSP
パラメータD202をLSP量子化部203に供給し、
LSP量子化部203は、LSPパラメータD202を
量子化する。LSPパラメータの方がLPC係数よりも
量子化された際の性能劣化が少ないことから、通常この
ようにLSPパラメータに変換されてから量子化される
ことが多い。なお、LSPパラメータの量子化の手法と
しては、ベクトル量子化等がよく用いられる。
【0014】LPC逆フィルタ部204は、量子化LS
Pパラメータ203を逆量子化してさらにLPC係数に
逆変換して得られたLPC係数D204を用いて入力信
号D200をフィルタリングし、入力信号D200から
LPC残差信号D205を抽出する。LPC逆フィルタ
部204は、抽出したLPC残差信号D205をピッチ
分析部205及びピッチ逆フィルタ部207に供給す
る。
【0015】ピッチ分析部205は、このようにして求
められたLPC残差信号D205に対してピッチ分析を
施し、分析されたピッチラグやピッチゲインといったピ
ッチ情報D206をピッチ量子化部206に供給する。
ピッチ量子化部206は、このピッチ情報D206を量
子化する。
【0016】ピッチ逆フィルタ部207は、量子化ピッ
チ情報D207を逆量子化して得られたピッチ情報D2
08を用いてLPC残差信号D205をフィルタリング
し、LPC残差信号D205からピッチ成分を抜き出
す。ピッチ逆フィルタ部207は、このようにして平坦
化された残差信号D209をスペクトル変換部208に
供給する。
【0017】スペクトル変換部208は、残差信号D2
09をスペクトル係数D210に変換し、スペクトル量
子化部209は、スペクトル係数D210を量子化す
る。このスペクトル係数D210の量子化には、ベクト
ル量子化による手法や、聴覚心理モデルに基づいた量子
化とハフマン符号化等を組み合わせた手法がよく用いら
れる。
【0018】このようにして求められた、量子化LSP
パラメータD203、量子化ピッチ情報D207、量子
化スペクトルD211及びその他の付加情報等は、ビッ
ト合成部210に送られ、規定のデータフォーマットに
従って符号化ビットストリームD212が生成され、出
力部211に供給された後、出力される。
【0019】図7のようなLPC分析を用いた音声符号
化装置よって生成された符号化音声データの記録形式の
一例を図8に示す。図8に示すように、符号化音声デー
タは、例えばデータの識別番号、データ名及びデータ属
性等の付加情報と音声情報のブロックデータとで構成さ
れる。また、ブロックデータは、例えばヘッダ、ブロッ
ク単位の付加情報、ピッチ情報、LSP情報、スペクト
ル情報等で構成される。
【0020】また、図7に示した音声符号化装置に対応
する音声復号装置の概略構成を図9に示す。図9におい
て、ビット分解部221は、入力部220から所定のブ
ロック毎に入力された符号化データD220を幾つかの
部分要素に分解する。例えば、ビット分解部221は、
符号化データD220をブロック毎に量子化LSP情報
D221、量子化ピッチ情報D222及び量子化残差ス
ペクトル情報D223等に分解する。ビット分解部22
1は、これらの量子化LSP情報D221、量子化ピッ
チ情報D222及び量子化残差スペクトル情報D223
を、それぞれ、LSP逆量子化部222、ピッチ逆量子
化部223、スペクトル逆量子化部224に供給する。
【0021】LSP逆量子化部222は、量子化LSP
情報D221を逆量子化してLSPパラメータを生成
し、さらにLSPパラメータをLPC係数D224に変
換する。LSP逆量子化部222は、このLPC係数D
224を、LPC合成部227に供給する。
【0022】ピッチ逆量子化部223は、量子化ピッチ
情報D222を逆量子化して、ピッチ周期やピッチゲイ
ンといったピッチ情報D225を生成する。ピッチ逆量
子化部223は、このピッチ情報D225をピッチ合成
部226に供給する。
【0023】スペクトル逆量子化部224は、量子化残
差スペクトル情報D223を逆量子化して、残差スペク
トルD226を生成し、スペクトル逆変換部225に供
給する。
【0024】スペクトル逆変換部225は、残差スペク
トルD226に対してスペクトル逆変換を施し、残差波
形D227に変換する。スペクトル逆変換部225は、
この残差波形D227をピッチ合成部226に供給す
る。
【0025】ピッチ合成部226は、ピッチ逆量子化部
223から供給されたピッチ情報D225を用いて残差
波形D227にフィルタリングを施し、LPC残差波形
D228を合成する。ピッチ合成部226は、このLP
C残差波形D228をLPC合成部227に供給する。
【0026】LPC合成部227は、LSP逆量子化部
222から供給されたLPC係数D224を用いてLP
C残差波形D228にフィルタリングを施し、音声波形
D229を合成する。LPC合成部227は、この音声
波形D229を出力部228に供給する。
【0027】一方、音声信号の話者を識別する技術も盛
んに研究がされている。以下、説明する。
【0028】一般的な音声認識技術としては、例えば次
のような技術がよく用いられる。先ず、ある話者の音声
信号の個人性を表す特徴量を抽出して、予め学習データ
として記録しておく。そして、入力された話者音声を分
析して、その個人性を表す特徴量を抽出して、学習デー
タとの類似度を評価することで、話者の識別・照合を行
う。ここで、音声の個人性を表す特徴量としては、ケプ
ストラム(Cepstrum)等がよく用いられる。或いは、音
声信号にLPC分析を施してLPC係数を求め、そのL
PC係数を変換することで得られるLPCケプストラム
係数を用いることが多い。これらのケプストラム若しく
はLPCケプストラム係数の時系列の多項式展開係数を
デルタケプストラムと呼び、これも音声スペクトルの時
間的変化を表現する特徴量としてよく用いられる。この
他、ピッチやデルタピッチ(ピッチの多項式展開係数)
等も用いられることがある。
【0029】このようにして抽出されたLPC(Linear
Predictive Coding)ケプストラム等の特徴量を標準パ
ターンとして学習データを作成するが、その方法として
は、ベクトル量子化歪みによる方法と隠れマルコフモデ
ル(HMM:Hidden Markov Model)による方法が代表的で
ある。
【0030】ベクトル量子化歪みによる方法では、予め
話者ごとの特徴量をグループ化してその重心を符号帳
(コードブック)の要素(コードベクトル)として蓄え
ておく。そして、入力された音声の特徴量を各話者のコ
ードブックでベクトル量子化して、その入力音声全体に
対する各コードブックの平均量子化歪みを求める。そし
て、その平均量子化歪みの最も小さいコードブックの話
者を選択する。
【0031】一方、HMMによる方法では、上記と同様
にして求めた話者の特徴量は、HMMの状態間の遷移確
率と、各状態での特徴量の出現確率によって表現され、
入力音声区間全体でモデルとの平均尤度によって判定を
する。
【0032】
【発明が解決しようとする課題】ところで、上述したよ
うな半導体記憶装置を用いた従来のICレコーダでは、
記録された音声データから所望の話者の会話部分にアク
セスして再生するためには、そのICレコーダがインデ
ックス情報の登録機能を有し、且つ、予めインデックス
情報を登録しておく必要があった。このようなインデッ
クス情報を登録するためには、人間が音声データの全区
間を視聴して、話者の会話部分を調べながら行う必要が
あり、膨大な労力を要するものであった。
【0033】また、仮にインデックス情報を登録して
も、所望の話者がどの部分でどの位の頻度で会話をして
いるか、容易に判るものはなかった。
【0034】また、このようなインデックス情報やタグ
情報を登録する機能を持たないICレコーダについて
は、その音声データ中の話者の会話部分を検出・検索す
ることができず、また、所望の話者の会話位置から再生
したり、所望の話者の会話区間だけを部分的に再生した
りすることもできなかった。
【0035】本発明は、このような従来の実情に鑑みて
提案されたものであり、インデックス情報を登録するこ
となしにICレコーダに記録された音声データの話者の
会話頻度情報を表現し、これにより直ちに所望の話者の
会話区間を検索し、再生可能とする情報検索方法及びそ
の装置を提供することを目的とする。
【0036】
【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る情報検索方法は、符号化音声デー
タから当該符号化音声データにおける話者情報を検索す
る情報検索方法であって、上記符号化音声データの特徴
に基づいて所定の認識区間毎に話者を識別し、所定の頻
度区間毎に話者の出現頻度を検出する話者頻度検出工程
と、上記頻度区間毎に検出された各話者の出現頻度を、
時間と出現頻度とを両軸とする2次元グラフィカルデー
タとして出力画面に出力して表示させる話者頻度グラフ
出力工程とを有することを特徴としている。
【0037】ここで、上記話者頻度グラフ出力工程で
は、複数の話者の出現頻度を上記出力画面に出力して表
示させることができる。
【0038】また、上記符号化音声データは、例えばI
Cレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索方法は、上記出力画面に表示された上記2次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定工程と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生工程とを
有する。
【0039】さらに、この情報検索方法は、所望の話者
を指定する話者指定工程を有し、上記音声再生工程にお
いて、上記符号化音声データのうち上記話者指定工程で
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。
【0040】このような情報検索方法では、例えばIC
レコーダ内部の半導体記憶装置に記録された符号化音声
データにおける話者の出現頻度(会話頻度)が、時間と
出現頻度とを両軸とする2次元グラフィカルデータとし
て表示される。また、その2次元グラフィカルデータに
基づいて所望の話者の会話位置を指定し、再生すること
が可能とされる。
【0041】また、上述した目的を達成するために、本
発明に係る情報検索装置は、符号化音声データから当該
符号化音声データにおける話者情報を検索する情報検索
装置であって、上記符号化音声データの特徴に基づいて
所定の認識区間毎に話者を識別し、所定の頻度区間毎に
話者の出現頻度を検出する話者頻度検出手段と、上記頻
度区間毎に検出された各話者の出現頻度を、時間と出現
頻度とを両軸とする2次元グラフィカルデータとして出
力画面に出力して表示させる話者頻度グラフ出力手段と
を備えることを特徴としている。
【0042】ここで、上記話者頻度グラフ出力手段は、
複数の話者の出現頻度を上記出力画面に出力して表示さ
せることができる。
【0043】また、上記符号化音声データは、例えばI
Cレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索装置は、上記出力画面に表示された上記2次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定手段と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生手段とを
備える。
【0044】さらに、この情報検索装置は、所望の話者
を指定する話者指定手段を備え、上記音声再生手段は、
上記符号化音声データのうち上記話者指定手段によって
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。
【0045】このような情報検索装置は、例えばICレ
コーダ内部の半導体記憶装置に記録された符号化音声デ
ータにおける話者の出現頻度(会話頻度)を、時間と出
現頻度とを両軸とする2次元グラフィカルデータとして
表示する。また、その2次元グラフィカルデータに基づ
いて所望の話者の会話位置を指定し、再生することを可
能とする。
【0046】
【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、インデックス情報を
登録することなしにICレコーダに記録された符号化音
声データの話者の会話頻度情報を表現し、これにより直
ちに所望の話者の会話区間を検索し、再生可能とする話
者検索装置に適用したものである。
【0047】より詳しくは、話者検索装置は、ICレコ
ーダの半導体記憶装置に記録された符号化音声データを
読み出し、その音声の特徴に基づいて話者を識別するこ
とで所定の時間区間における話者の会話頻度(出現頻
度)を求め、その話者頻度を2次元グラフとして画面に
表示する。このグラフ化された話者頻度情報を用いるこ
とにより、所望の話者の会話位置を容易に検索すること
ができ、その会話位置或いは会話区間を直ちに再生する
ことができる。
【0048】なお、以下では、符号化音声データは、I
Cレコーダの半導体記憶装置に記録されたものとして説
明するが、これに限定されるものではなく、ランダムア
クセス可能な記憶装置又は記録媒体に記録されたもので
あればよい。
【0049】先ず、この話者検索装置の概略構成を図1
に示す。なお、図1には、ICレコーダについても併せ
て示しているが、このICレコーダは、図6を用いて前
述したICレコーダ100と同様の構成であるため、半
導体記憶装置107及び情報伝送部108についてのみ
図6と同一の符号を付して図示し、それ以外の部分につ
いては、図示を省略する。
【0050】図1に示すように、ICレコーダ100の
情報伝送部108は、半導体記憶装置107から符号化
音声データD10を読み出し、伝送ケーブル等の伝送媒
体を介して、符号化音声データD11を本実施の形態に
おける話者検索装置1に伝送する。
【0051】ここで、本実施の形態における話者検索装
置1は、ICレコーダ100から伝送された情報を受信
する情報受信部10と、伝送された情報を一時的に保存
する記憶部11と、符号化された音声データを音声波形
データに復号する音声復号部12と、音声波形データか
ら話者を識別して所定の区間毎に話者の会話頻度(出現
頻度)を検出する話者頻度検出部13と、検出した話者
頻度を時間軸に対して2次元グラフ表示する話者頻度グ
ラフ表示部14と、画面のグラフ上においてポインタで
指定された音声データの時刻位置と時刻範囲とを読み取
る再生位置入力部15と、音声データの当該指定された
時刻位置・時刻範囲を部分的に再生する処理を行う音声
再生部16と、その再生音声を出力する音声出力部17
とから構成されている。
【0052】情報受信部10は、ICレコーダ100の
情報伝送部108から符号化音声データD11を受信
し、符号化音声データD12を記憶装置11に一時的に
記憶する。なお、符号化音声データD11を受信する際
には、当該符号化音声データD11を一度に受信しても
よく、所定のブロック毎に逐次受信してもよい。また、
記憶装置11は、処理のための一時的な記憶装置であ
り、磁気記録装置(ディスク装置)であっても、半導体
記憶装置(メモリ)であってもよい。
【0053】音声復号部12は、記憶装置11から所定
のブロック毎に符号化音声データD13を読み込み、音
声波形に復号する。なお、この音声復号部12は、例え
ば図9を用いて前述した音声復号装置のような構成とす
ることができる。
【0054】話者頻度検出部13は、復号された音声波
形D14を読み込み、その音声の特徴に基づいて話者を
所定の認識ブロック毎に識別し、さらに所定の区間毎に
話者の出現頻度を検出する。
【0055】ここで、話者頻度検出部13の内部構成に
ついて、図2及び図3を用いて説明する。この話者頻度
検出部13は、本件出願人が先に提案した特願2001
−177569の明細書及び図面における情報抽出装置
と同様の構成とすることができる。
【0056】図2に示すように、話者情報検出部13
は、入力部20と、ケプストラム抽出部21と、ベクト
ル量子化部22と、話者識別部23と、頻度計算部24
と、出力部25とにより構成される。
【0057】また、図2において、コードブック群CB
は、ベクトル量子化に用いる全登録話者のコードブック
データが格納されたものである。
【0058】入力部20は、上述した音声復号部12に
おいて復号された音声波形データを図3に示すLPC分
析ブロックAB毎に読み込み、ケプストラム抽出部21
は、その音声波形のブロックデータD20に対してLP
C(Linear Predictive Coding)分析を施し、LPCケ
プストラム係数D21を求める。なお、このLPC分析
ブロックABは、分析性能を向上させるために、隣接ブ
ロックと若干オーバーラップさせることが多い。
【0059】ベクトル量子化部22は、コードブック群
CBからの全登録話者のコードブックデータD22を用
いて、ケプストラム抽出部21において得られたLPC
ケプストラム係数D21に対してそれぞれベクトル量子
化を施し、そのベクトル量子化歪D23を話者識別部2
3に供給する。
【0060】話者識別部23は、ベクトル量子化部22
から供給されたベクトル量子化歪D23を評価して、図
3に示す話者認識ブロックRB毎に話者の識別を行い、
識別された話者情報D24を頻度計算部24に供給す
る。この話者認識ブロックRBは、話者を識別する単位
であり、そのブロック長は、数秒程度が望ましい。な
お、この話者認識ブロックRBについても、隣接ブロッ
クと若干オーバーラップさせることができる。
【0061】頻度計算部24は、話者識別部23から供
給された話者情報D24を蓄えておき、図3に示す頻度
区間FI毎に各話者の出現頻度D25を求め、その出現
頻度D25を出力部25に供給する。この頻度区間FI
は、話者の出現頻度を求める単位であり、1つの頻度区
間FIには、話者認識ブロックがN個含まれる。なお、
Nは、通常10乃至数百程度が望ましい。
【0062】以下、この話者情報検出部13の動作につ
いて、図4のフローチャートを用いて詳細に説明する。
先ずステップS10において、初期化処理として、区間
番号I、カウンタnを0とする。ここで、区間番号Iと
は、話者の頻度を求める頻度区間FIに付けた連続番号
であり、カウンタnとは、I番目の頻度区間FIにお
ける処理済みの話者認識ブロックRBの数を数えるカウ
ンタである。
【0063】次にステップS11において、n番目の話
者認識ブロックRBにおける話者を識別し、その話者情
報を保存しておく。この際、処理がデータ末尾まで到達
したら、処理を終了する。
【0064】各話者認識ブロックRBにおける話者識別
手法としては、例えば上述した特願2001−1775
69の明細書及び図面に記載されているような手法を用
いることができる。具体的には、LPC分析ブロックA
B毎に求めたLPCケプストラム係数を各コードブック
CBでベクトル量子化し、それぞれのベクトル量子化歪
を保存する。そして、話者認識ブロックRBの全てのL
PC分析ブロックABについてベクトル量子化歪を求め
て平均量子化歪を計算し、その平均量子化歪が最も小さ
いコードブックに対応する話者を、その話者認識ブロッ
クRBにおける話者と識別する。
【0065】なお、この際、識別された話者の照合判定
を行うようにしてもよく、その結果、本人でないと判定
されれば、この話者認識ブロックRBにおける話者を未
知話者として確定する。
【0066】ステップS12では、カウンタnがN未満
であるか否か、すなわち、頻度区間FIに話者識別処
理を行っていない話者認識ブロックRBがあるか否かが
判別される。
【0067】ステップS12においてカウンタnがN未
満である場合(Yes)、すなわち、頻度区間FIに話
者識別処理を行っていない話者認識ブロックRBがある
場合には、ステップS13においてカウンタnに1を加
算した後、ステップS11に戻って、次の話者認識ブロ
ックRBの処理を続ける。このようにして、頻度区間F
の全ての話者認識ブロックRBについて話者識別処
理を行うまで、ステップS11からステップS13まで
の処理を繰り返す。
【0068】ステップS12においてカウンタnがN未
満でない場合(No)、すなわち、頻度区間FIの全て
の話者認識ブロックRBについて話者識別処理を行った
場合には、ステップS14に進む。
【0069】ステップS14では、頻度区間FIにお
ける各話者の出現頻度を求め、ステップS15におい
て、各話者の頻度情報を出力する。
【0070】ステップS15では、区間番号Iに1を加
算し、カウンタnを0に初期化してステップS11に戻
る。以降同様にして、データ末尾に到達するまで、全て
の頻度区間FIについて各話者の頻度情報を求める。
【0071】再び図1に戻り、話者頻度グラフ表示部1
4は、上述したようにして求められた各頻度区間FIに
おける話者頻度D15を読み込み、時間軸に対して2次
元グラフ形式で出力画面上に表示する。この出力画面の
構成例を図5に示す。
【0072】図5に示すように、表示画面には、検索対
象のデータ名Dtと、頻度情報を表示する話者を選択す
る領域Ssと、選択された話者の出現頻度を時間軸に対
して2次元グラフ表示するための領域Grと、再生した
い時間位置又は時間範囲を指定するためのポインタPt
と、ポインタPtで指定された時間位置又は時間範囲の
データを部分的に再生させる再生ボタンRbとが表示さ
れる。
【0073】ここで、話者を選択する領域Ssには、例
えば話者の名前や識別番号等を入力するようにしてもよ
く、話者の一覧から選択するようにしてもよい。なお、
この話者は、1人に限定されず複数指定することもで
き、この場合、指定された複数の話者のグラフが領域G
rに表示される。
【0074】また、ポインタPtは、図5のように開始
位置と終了位置とを指定してもよく、また、再生範囲を
限定せず1つのポインタPtで開始位置のみを指定する
ようにしてもよい。
【0075】図1の再生位置入力部15は、例えば図5
の再生ボタンRbが押された際に選択されているポイン
タPtの座標位置D16を読み取り、音声データにおけ
る再生時間位置又は時間範囲D17を求める。再生位置
入力部15は、この再生時間位置又は時間範囲D17を
音声再生部16に供給する。なお、この際、再生位置入
力部15は、選択された話者の出現頻度が所定の閾値以
上の部分のみを読み取るようにしても構わない。
【0076】音声再生部16は、指定された時間位置又
は時間範囲に相当する部分の符号化音声データD18を
記憶部11から読み込み、音声波形に復号し、復号され
た音声波形信号D19を音声出力部17に供給する。
【0077】以上説明したように、本実施の形態におけ
る話者検索装置1は、ICレコーダ内部の半導体記憶装
置に記録された符号化音声データにおける話者の出現頻
度(会話頻度)を、時間と出現頻度とを両軸とする2次
元グラフィカルデータとして表示するため、所望の話者
の出現頻度を視覚的に確認することができ、容易に所望
の話者の会話位置を検索することができる。
【0078】また、ランダムアクセス可能なICレコー
ダにおける符号化音声データを用いているため、その2
次元グラフィカルデータに基づいて、所望の話者の会話
位置を視覚的に指定し、その部分を直ちに再生してその
内容を確認することが可能とされる。
【0079】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。
【0080】例えば、上述の説明では、符号化音声デー
タを一旦音声波形に復号してから話者の識別処理を行う
ものとして説明したが、これに限定されるものではな
く、例えば本件出願人が先に提案した特願2001−2
25051の明細書及び図面における情報検出装置のよ
うに、符号化音声データから直接パラメータを抽出する
ことで、符号化音声データを時間波形に復号することな
く、話者を識別することも可能である。
【0081】具体的には、例えば前述した図8のような
記録形式の符号化音声データからLSP情報のみを抽出
して復号し、これをLPCケプストラム係数に変換し
て、そのベクトル量子化歪を評価することによって、話
者を識別することができる。
【0082】このように符号化音声データを時間波形に
復号することなく話者を識別することにより、識別処理
に必要な演算量と記憶領域を大幅に低減することがで
き、また、復号と再分析の影響による認識率の悪化を低
減することができる。
【0083】
【発明の効果】以上詳細に説明したように本発明に係る
情報検索方法は、符号化音声データから当該符号化音声
データにおける話者情報を検索する情報検索方法であっ
て、上記符号化音声データの特徴に基づいて所定の認識
区間毎に話者を識別し、所定の頻度区間毎に話者の出現
頻度を検出する話者頻度検出工程と、上記頻度区間毎に
検出された各話者の出現頻度を、時間と出現頻度とを両
軸とする2次元グラフィカルデータとして出力画面に出
力して表示させる話者頻度グラフ出力工程とを有するこ
とを特徴としている。
【0084】ここで、上記話者頻度グラフ出力工程で
は、複数の話者の出現頻度を上記出力画面に出力して表
示させることができる。
【0085】また、上記符号化音声データは、例えばI
Cレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索方法は、上記出力画面に表示された上記2次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定工程と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生工程とを
有する。
【0086】さらに、この情報検索方法は、所望の話者
を指定する話者指定工程を有し、上記音声再生工程にお
いて、上記符号化音声データのうち上記話者指定工程で
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。
【0087】このような情報検索方法によれば、例えば
ICレコーダ内部の半導体記憶装置に記録された符号化
音声データにおける話者の出現頻度(会話頻度)を、時
間と出現頻度とを両軸とする2次元グラフィカルデータ
として表示するため、所望の話者の出現頻度を視覚的に
確認することができ、容易に所望の話者の会話位置を検
索することができる。
【0088】また、ランダムアクセス可能なICレコー
ダにおける符号化音声データを用いているため、その2
次元グラフィカルデータに基づいて、所望の話者の会話
位置を視覚的に指定し、その部分を直ちに再生してその
内容を確認することが可能とされる。
【0089】また、本発明に係る情報検索装置は、符号
化音声データから当該符号化音声データにおける話者情
報を検索する情報検索装置であって、上記符号化音声デ
ータの特徴に基づいて所定の認識区間毎に話者を識別
し、所定の頻度区間毎に話者の出現頻度を検出する話者
頻度検出手段と、上記頻度区間毎に検出された各話者の
出現頻度を、時間と出現頻度とを両軸とする2次元グラ
フィカルデータとして出力画面に出力して表示させる話
者頻度グラフ出力手段とを備えることを特徴としてい
る。
【0090】ここで、上記話者頻度グラフ出力手段は、
複数の話者の出現頻度を上記出力画面に出力して表示さ
せることができる。
【0091】また、上記符号化音声データは、例えばI
Cレコーダ内部の半導体記憶装置等のランダムアクセス
可能な記憶装置又は記録媒体に記録されており、この情
報検索装置は、上記出力画面に表示された上記2次元グ
ラフィカルデータ上における時間位置又は時間範囲を指
定する位置指定手段と、指定された上記時間位置又は時
間範囲を読み込み、当該時間位置から、又は当該時間範
囲の上記符号化音声データを再生する音声再生手段とを
備える。
【0092】さらに、この情報検索装置は、所望の話者
を指定する話者指定手段を備え、上記音声再生手段は、
上記符号化音声データのうち上記話者指定手段によって
指定された上記所望の話者の出現頻度が所定の閾値以上
である部分を再生するようにすることもできる。
【0093】このような情報検索装置によれば、例えば
ICレコーダ内部の半導体記憶装置に記録された符号化
音声データにおける話者の出現頻度(会話頻度)を、時
間と出現頻度とを両軸とする2次元グラフィカルデータ
として表示するため、所望の話者の出現頻度を視覚的に
確認することができ、容易に所望の話者の会話位置を検
索することができる。
【0094】また、ランダムアクセス可能なICレコー
ダにおける符号化音声データを用いているため、その2
次元グラフィカルデータに基づいて、所望の話者の会話
位置を視覚的に指定し、その部分を直ちに再生してその
内容を確認することが可能とされる。
【図面の簡単な説明】
【図1】本実施の形態における話者検索装置の概略構成
を説明する図である。
【図2】同話者検索装置における話者頻度検出部の構成
を説明する図である。
【図3】同話者頻度検出部における処理に用いられるL
PC分析ブロック、話者認識ブロック及び頻度区間の関
係を説明する図である。
【図4】同話者頻度検出部の動作を説明するフローチャ
ートである。
【図5】話者頻度が2次元グラフ形式で表示される表示
画面の構成例を説明する図である。
【図6】従来のICレコーダの概略構成を説明する図で
ある。
【図7】従来の音声符号化装置の概略構成を説明する図
である。
【図8】同音声符号化装置よって生成された符号化音声
データの記録形式の一例を説明する図である。
【図9】従来の音声復号装置の概略構成を説明する図で
ある。
【符号の説明】
1 話者検索装置、10 情報受信部、11 記憶部、
12 音声復号部、13 話者頻度検出部、14 話者
頻度グラフ表示部、15 再生位置入力部、16 音声
再生部、17 音声出力部、20 入力部、21 ケプ
ストラム抽出部、22 ベクトル量子化部、23 話者
識別部、24 頻度計算部、25 出力部、100 I
Cレコーダ、101 マイクロホン、102 A/D変
換器、103 音声符号化部、104 音声復号部、1
05 D/A変換器、106 スピーカ、107 半導
体記憶装置、108 情報伝送部、109 出力端子
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 19/00 G10L 9/14 301A Fターム(参考) 5B075 ND02 ND14 NR11 PQ14 PQ27 5D015 AA03 FF06 LL05 5D045 DB10

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 符号化音声データから当該符号化音声デ
    ータにおける話者情報を検索する情報検索方法であっ
    て、 上記符号化音声データの特徴に基づいて所定の認識区間
    毎に話者を識別し、所定の頻度区間毎に話者の出現頻度
    を検出する話者頻度検出工程と、 上記頻度区間毎に検出された各話者の出現頻度を、時間
    と出現頻度とを両軸とする2次元グラフィカルデータと
    して出力画面に出力して表示させる話者頻度グラフ出力
    工程とを有することを特徴とする情報検索方法。
  2. 【請求項2】 上記話者頻度グラフ出力工程では、複数
    の話者の出現頻度が上記出力画面に出力されて表示され
    ることを特徴とする請求項1記載の情報検索方法。
  3. 【請求項3】 上記符号化音声データは、ランダムアク
    セス可能な記憶装置又は記録媒体に記録されており、 上記出力画面に表示された上記2次元グラフィカルデー
    タ上における時間位置を指定する位置指定工程と、 指定された上記時間位置を読み込み、当該時間位置から
    上記符号化音声データを再生する音声再生工程とを有す
    ることを特徴とする請求項1記載の情報検索方法。
  4. 【請求項4】 上記位置指定工程では、上記2次元グラ
    フィカルデータ上における時間範囲が指定され、 上記音声再生工程では、指定された上記時間範囲の上記
    符号化音声データが再生されることを特徴とする請求項
    3記載の情報検索方法。
  5. 【請求項5】 所望の話者を指定する話者指定工程を有
    し、 上記音声再生工程では、上記符号化音声データのうち上
    記話者指定工程で指定された上記所望の話者の出現頻度
    が所定の閾値以上である部分が再生されることを特徴と
    する請求項3記載の情報検索方法。
  6. 【請求項6】 上記符号化音声データは、ICレコーダ
    内部の半導体記憶装置に記録されていることを特徴とす
    る請求項3記載の情報検索方法。
  7. 【請求項7】 符号化音声データから当該符号化音声デ
    ータにおける話者情報を検索する情報検索装置であっ
    て、 上記符号化音声データの特徴に基づいて所定の認識区間
    毎に話者を識別し、所定の頻度区間毎に話者の出現頻度
    を検出する話者頻度検出手段と、 上記頻度区間毎に検出された各話者の出現頻度を、時間
    と出現頻度とを両軸とする2次元グラフィカルデータと
    して出力画面に出力して表示させる話者頻度グラフ出力
    手段とを備えることを特徴とする情報検索装置。
  8. 【請求項8】 上記話者頻度グラフ出力手段は、複数の
    話者の出現頻度を上記出力画面に出力して表示させるこ
    とを特徴とする請求項7記載の情報検索装置。
  9. 【請求項9】 上記符号化音声データは、ランダムアク
    セス可能な記憶装置又は記録媒体に記録されており、 上記出力画面に出力された上記2次元グラフィカルデー
    タ上における時間位置を指定する位置指定手段と、 指定された上記時間位置を読み込み、当該時間位置から
    上記符号化音声データを再生する音声再生手段とを備え
    ることを特徴とする請求項7記載の情報検索装置。
  10. 【請求項10】 上記位置指定手段は、上記2次元グラ
    フィカルデータ上における時間範囲を指定し、 上記音声再生手段は、指定された上記時間範囲の上記符
    号化音声データを再生することを特徴とする請求項9記
    載の情報検索装置。
  11. 【請求項11】 所望の話者を指定する話者指定手段を
    備え、 上記音声再生手段は、上記符号化音声データのうち上記
    話者指定手段によって指定された上記所望の話者の出現
    頻度が所定の閾値以上である部分を再生することを特徴
    とする請求項9記載の情報検索装置。
  12. 【請求項12】 上記符号化音声データは、ICレコー
    ダ内部の半導体記憶装置に記録されていることを特徴と
    する請求項9記載の情報検索装置。
JP2002017621A 2002-01-25 2002-01-25 情報検索方法及び装置 Abandoned JP2003216183A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002017621A JP2003216183A (ja) 2002-01-25 2002-01-25 情報検索方法及び装置
US10/342,985 US7346508B2 (en) 2002-01-25 2003-01-15 Information retrieving method and apparatus
US12/075,872 US7747435B2 (en) 2002-01-25 2008-03-15 Information retrieving method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002017621A JP2003216183A (ja) 2002-01-25 2002-01-25 情報検索方法及び装置

Publications (1)

Publication Number Publication Date
JP2003216183A true JP2003216183A (ja) 2003-07-30

Family

ID=27653245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002017621A Abandoned JP2003216183A (ja) 2002-01-25 2002-01-25 情報検索方法及び装置

Country Status (2)

Country Link
US (2) US7346508B2 (ja)
JP (1) JP2003216183A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237336A (ja) * 2008-03-27 2009-10-15 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
CN108154872A (zh) * 2017-12-20 2018-06-12 上海电机学院 一种矿用自动选频喇叭

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606707B2 (en) * 2005-09-06 2009-10-20 Toshiba Tec Kabushiki Kaisha Speaker recognition apparatus and speaker recognition method to eliminate a trade-off relationship between phonological resolving performance and speaker resolving performance
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP2009005064A (ja) * 2007-06-21 2009-01-08 Panasonic Corp Ip電話端末および電話会議システム
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
CN113436621B (zh) * 2021-06-01 2022-03-15 深圳市北科瑞声科技股份有限公司 一种基于gpu语音识别的方法、装置、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5675709A (en) * 1993-01-21 1997-10-07 Fuji Xerox Co., Ltd. System for efficiently processing digital sound data in accordance with index data of feature quantities of the sound data
US5625747A (en) * 1994-09-21 1997-04-29 Lucent Technologies Inc. Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping
KR980700637A (ko) * 1994-12-08 1998-03-30 레이어스 닐 언어 장애자의 언어 인식 강화를 위한 방법 및 장치(method and device for enhancing the recognition of speechamong speech-impai red individuals)
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
JP2001177569A (ja) 1999-12-16 2001-06-29 Sony Corp ネットワーク通信装置
JP3361788B2 (ja) 2000-02-18 2003-01-07 松下電器産業株式会社 情報処理装置による廃棄対象物引取者選択方法、廃棄対象物引取者選択システム、情報処理装置、端末装置、及びコンピュータ可読の情報記録媒体
US6853716B1 (en) * 2001-04-16 2005-02-08 Cisco Technology, Inc. System and method for identifying a participant during a conference call
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237336A (ja) * 2008-03-27 2009-10-15 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
CN108154872A (zh) * 2017-12-20 2018-06-12 上海电机学院 一种矿用自动选频喇叭

Also Published As

Publication number Publication date
US20030154082A1 (en) 2003-08-14
US20080177535A1 (en) 2008-07-24
US7747435B2 (en) 2010-06-29
US7346508B2 (en) 2008-03-18

Similar Documents

Publication Publication Date Title
US7460994B2 (en) Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal
CA2430111C (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
US7747435B2 (en) Information retrieving method and apparatus
Luo et al. Detection of double compressed AMR audio using stacked autoencoder
JP2004530153A (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP3189598B2 (ja) 信号合成方法および信号合成装置
US6789066B2 (en) Phoneme-delta based speech compression
US6122611A (en) Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
JPH0993135A (ja) 発声音データの符号化装置及び復号化装置
US6772113B1 (en) Data processing apparatus for processing sound data, a data processing method for processing sound data, a program providing medium for processing sound data, and a recording medium for processing sound data
JP2006171751A (ja) 音声符号化装置及び方法
JP2001053869A (ja) 音声蓄積装置及び音声符号化装置
WO2002021091A1 (fr) Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d&#39;analyse de signal de bruit et procede de synthese de signal de bruit
JP3362534B2 (ja) ベクトル量子化による符号化復号方式
JP2003288096A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
US5943644A (en) Speech compression coding with discrete cosine transformation of stochastic elements
JP2005316499A (ja) 音声符号化装置
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
Yapp et al. Speech recognition on MPEG/audio encoded files
JPH0854895A (ja) 再生装置
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
KR19990068417A (ko) 음성속도및음정가변어학학습장치
BAKIR Compressing English Speech Data with Hybrid Methods without Data Loss
JP2003140693A (ja) 音声復号装置及び方法
JPH10124093A (ja) 音声圧縮符号化方法および装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20051017