JPH11282857A

JPH11282857A - 音声検索装置および記録媒体

Info

Publication number: JPH11282857A
Application number: JP10081131A
Authority: JP
Inventors: Ichiro Hattori; 一郎服部; Akira Suzuki; 晃鈴木
Original assignee: Animo Ltd
Current assignee: Animo Ltd
Priority date: 1998-03-27
Filing date: 1998-03-27
Publication date: 1999-10-15

Abstract

(57)【要約】【課題】音声データを検索キーとして音声データベー
スから所望の音声データを検索する。【解決手段】検索対象音声データ入力手段１ａは、ネ
ットワーク２を介して、サーバ３の記憶部３ａから検索
の対象となる音声データを入力する。第１の特徴量抽出
手段１ｂは、入力された音声データから特徴量を抽出す
る。キー音声データ入力手段１ｃは、検索キーとなる音
声データの入力を受ける。第２の特徴量抽出手段１ｄ
は、検索キーとなる音声データから特徴量を抽出する。
類似度算出手段１ｅは、第１の特徴量抽出手段１ｂと第
２の特徴量抽出手段１ｄによって抽出された特徴量の類
似度を算出する。出力手段１ｆは、類似度算出手段１ｅ
によって前述の２つの特徴量の類似度が所定の値を上回
ると判定された場合には、検索対象音声データ入力手段
１ａから入力された音声データを、該当するデータとし
て出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声検索装置および
記録媒体に関し、特に、音声データをキーとして検索対
象となる音声データを検索する音声検索装置およびコン
ピュータにそのような処理を実行させるプログラムを記
録した記録媒体に関する。

【０００２】

【従来の技術】マルチメディア化の進展に伴って、テキ
スト情報だけでなく、音声や画像などのデータも検索す
ることが可能なデータベースが普及しつつある。

【０００３】このような状況を背景として、データベー
スに登録されている音声や画像データを効率的に検索す
る方法が種々提案されている。ところで、音声を検索対
象とする、いわゆる、音声データベースでは、音声デー
タに対して属性情報（主にその話者を特定するための情
報）を付与して記録しておき、検索キーとして属性情報
が与えられた場合には、その属性情報に対応する音声デ
ータを検索するように構成されることが一般的であっ
た。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
音声データベースでは、個々の音声データに対して属性
情報を付与する必要があり、このような作業は、通常、
人が行っていた。従って、対象となる音声データが大量
にある場合には、コストが高くつくという問題があっ
た。

【０００５】また、属性情報が付与されていない音声デ
ータは、検索の対象とすることができないため、例え
ば、テレビジョン放送などに含まれている音声などを検
索の対象とすることができないという問題があった。

【０００６】本発明はこのような点に鑑みてなされたも
のであり、属性情報が予め付与されていない音声データ
を検索の対象とすることが可能な音声検索装置を提供す
ることを目的とする。

【０００７】

【課題を解決するための手段】本発明では上記課題を解
決するために、音声データを記録または伝送する媒体か
ら、検索対象となる音声データを入力する検索対象音声
データ入力手段と、検索のキーとなる音声データを入力
するキー音声データ入力手段と、前記検索対象音声デー
タ入力手段から入力された音声データの特徴量を抽出す
る第１の特徴量抽出手段と、前記キー音声データ入力手
段から入力された音声データの特徴量を抽出する第２の
特徴量抽出手段と、前記第１の特徴量抽出手段と前記第
２の特徴量抽出手段によって抽出された特徴量の類似度
を算出する類似度算出手段と、前記類似度算出手段によ
って算出された類似度が所定の値を上回っている場合に
は、前記検索対象音声データ入力手段から入力された音
声データ、または、音声データに関する属性情報を検索
結果として出力する出力手段と、を有することを特徴と
する音声検索装置が提供される。

【０００８】ここで、検索対象音声データ入力手段は、
音声データを記録または伝送する媒体から、検索対象と
なる音声データを入力する。キー音声データ入力手段
は、検索のキーとなる音声データを入力する。第１の特
徴量抽出手段は、検索対象音声データ入力手段から入力
された音声データの特徴量を抽出する。第２の特徴量抽
出手段は、キー音声データ入力手段から入力された音声
データの特徴量を抽出する。類似度算出手段は、第１の
特徴量抽出手段と第２の特徴量抽出手段によって抽出さ
れた特徴量の類似度を算出する。出力手段は、類似度算
出手段によって算出された類似度が所定の値を上回って
いる場合には、検索対象音声データ入力手段から入力さ
れた音声データ、または、音声データに関する属性情報
を検索結果として出力する。

【０００９】例えば、検索対象音声データ入力手段は、
音声データを記録しているサーバから、ネットワークを
介して、検索対象となる音声データを入力する。キー音
声データ入力手段は、検索のキーとなる音声データのフ
ァイル名を入力する。第１の特徴量抽出手段は、検索対
象音声データ入力手段から入力された音声データの特徴
量を抽出する。第２の特徴量抽出手段は、キー音声デー
タ入力手段から入力された音声データの特徴量を抽出す
る。類似度算出手段は、第１の特徴量抽出手段と第２の
特徴量抽出手段によって抽出された特徴量の相関係数を
算出してこれらの類似度を算出する。出力手段は、類似
度算出手段によって算出された類似度が所定の値を上回
っている場合には、検索対象音声データ入力手段から入
力された音声データ、または、音声データに関する属性
情報としての話者氏名を検索結果として出力する。

【００１０】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は、本発明に係わる音声検索
装置の原理を説明する原理図である。この図において、
検索対象音声データ入力手段１ａは、ネットワーク２に
接続され、サーバ３の記憶部３ａに記憶されている音声
データから、検索対象となる音声データを入力する。

【００１１】第１の特徴量抽出手段１ｂは、検索対象音
声データ入力手段１ａから入力された音声データから特
徴量を抽出する。キー音声データ入力手段１ｃは、検索
のキーとなる音声データ（以下、キー音声データと適宜
いう）を入力する。

【００１２】第２の特徴量抽出手段１ｄは、キー音声デ
ータ入力手段１ｃを介して入力された音声データから特
徴量を抽出する。類似度算出手段１ｅは、第１の特徴量
抽出手段１ｂによって抽出された検索対象の音声データ
の特徴量と、第２の特徴量抽出手段１ｄによって抽出さ
れたキー音声データの特徴量の類似度を算出する。

【００１３】出力手段１ｆは、類似度算出手段１ｅによ
って算出された類似度が所定の値を上回っている場合に
は、検索の対象となる音声データを検索結果（該当デー
タ）として出力する。

【００１４】なお、ネットワーク２は、例えば、ＬＡＮ
（Local Area Network）やインターネットなどである。
サーバ３は、クライアント側から要求がなされた場合に
は、記憶部３ａから対応する音声データを読み出して送
信する。

【００１５】次に、以上の実施の形態の動作について説
明する。いま、キー音声データ入力手段１ｃから検索の
キーとなる音声データが入力されると、第２の特徴量抽
出手段１ｄによって特徴量が抽出され、類似度算出手段
１ｅに供給されることになる。

【００１６】すると、検索対象音声データ入力手段１ａ
は、サーバ３から検索対象となる音声データを入力し、
第１の特徴量抽出手段１ｂに供給する。第１の特徴量抽
出手段１ｂは、検索対象音声データ入力手段１ａから供
給された音声データから特徴量を抽出し、類似度算出手
段１ｅに供給する。

【００１７】類似度算出手段１ｅは、第１の特徴量抽出
手段１ｂによって抽出された検索対象の音声データの特
徴量と、第２の特徴量抽出手段１ｄによって抽出された
検索のキーとなる音声データの特徴量の類似度を算出す
る。

【００１８】出力手段１ｆは、類似度算出手段１ｅによ
って算出された類似度が所定の値を上回っている場合に
は、検索対象音声データ入力手段１ａから入力された音
声データを検索結果の（該当する）音声データとして出
力する。

【００１９】以上のような処理が繰り返されることによ
り、検索対象となる音声データの中から該当する音声デ
ータが選出されることになる。以上説明した本発明に係
わる音声検索装置によれば、キー音声データと検索対象
の音声データの特徴量の類似度を算出し、類似度が所定
の値を上回っている場合には、該当するデータとして選
出するようにしたので、音声データに対して属性情報を
付与することなく検索を行うことが可能となる。

【００２０】また、音声データを検索キーとして検索を
行うことが可能となるので、話者の氏名を知らない場合
でも、検索を行うことが可能となる。次に、本発明の実
施の形態の構成例について図２を参照して説明する。

【００２１】この図において、ＣＰＵ１０ａは、装置の
各部を制御するとともに、種々の演算処理を実行する。
ＬＡＮユニット１０ｂは、例えば、ＣＳＭＡ／ＣＤ（Ca
rrier Sense Multiple Access with Collision Detecti
on）方式に基づいて、サーバ３や図示せぬ他の装置との
間でデータを授受する。

【００２２】ＣＤ−ＲＯＭドライブ１０ｃは、ＣＤ−Ｒ
ＯＭから必要なデータを読み込む。音声入出力ユニット
１０ｄは、検索のキーとなる音声信号を入力してディジ
タル信号に変換するとともに、検索結果の音声データを
アナログ信号に変換して出力する。

【００２３】マイク１０ｅは、検索のキーとなる音声を
対応する音声信号に変換して出力する。音声入力端子１
０ｆは、検索のキーとなる音声信号を他の装置から入力
する。

【００２４】スピーカ１０ｇは、検索結果の音声信号を
音声に変換して出力する。ハードディスク装置１０ｈ
は、ＣＰＵ１０ａが実行するプログラムなどを記録して
いる。

【００２５】ＣＲＴモニタ１０ｉは、ＣＰＵ１０ａの処
理結果等を画面上に表示出力する。メモリ１０ｊは、Ｒ
ＡＭおよびＲＯＭによって構成されており、ＣＰＵ１０
ａが演算処理を行う場合に必要なプログラムを記憶する
とともに、演算途中のデータを一時的に記憶する。入力
装置１０ｋは、例えば、キーボードやマウスなどによっ
て構成されており、必要な情報を入力する際に操作され
る。

【００２６】なお、図１に示す原理図と図２に示す実施
の形態との対応関係を以下に示す。即ち、検索対象音声
データ入力手段１ａは、ＬＡＮユニット１０ｂに対応し
ている。第１の特徴量抽出手段１ｂは、ＣＰＵ１０ａに
対応している。キー音声データ入力手段１ｃは、マイク
１０ｅ、音声入力端子１０ｆ、および、音声入出力ユニ
ット１０ｄに対応している。第２の特徴量抽出手段１ｄ
は、ＣＰＵ１０ａに対応している。類似度算出手段１ｅ
は、ＣＰＵ１０ａに対応している。出力手段１ｆは、ス
ピーカ１０ｇ、音声入出力ユニット１０ｄ、および、Ｃ
ＲＴモニタ１０ｉに対応している。

【００２７】次に、以上の実施の形態の動作を図３に示
すフローチャートを参照して説明する。図３は、図２に
示す実施の形態において、音声データの検索を行う場合
に実行される処理の一例である。このフローチャートが
開始されると、以下の処理が実行されることになる。［Ｓ１］ＣＰＵ１０ａは、図５および図６に示す検索キ
ー入力画面をＣＲＴモニタ１０ｉに表示させ、検索キー
の入力を受ける。

【００２８】なお、この実施の形態では、検索キーとし
ては、音声データのみならず、テキスト情報（この例で
は、話者の氏名）によっても検索を行うことが可能とさ
れている。即ち、図５の例では、「音声データベース検
索画面」と題されたダイアログボックスのチェックボッ
クス２０ｄがチェックされており、話者の氏名を検索キ
ーとして入力することが選択されている。そして、その
右側の入力ボックス２０ａには、検索キーである話者氏
名「中田利雄」が入力されている。

【００２９】このような表示画面において、検索ボタン
２０ｃが押圧されると、検索が開始されることになる。
一方、図６に示す例では、チェックボックス２０ｅがチ
ェックされており、音声データを検索キーとして入力す
ることが選択されている。そして、その右側の入力ボッ
クス２０ｂには、検索キーとなる音声データのファイル
名とその格納位置を示す情報「ａ：￥ｄａｔ￥ｎａｋａ
ｔａ．ｄａｔ」が入力されている。なお、検索対象とな
る音声データは、マイク１０ｅまたは音声入力端子１０
ｆから入力してディジタル信号に変換した後、ハードデ
ィスク装置１０ｈに予め格納しておく。［Ｓ２］ＣＰＵ１０ａは、入力された検索キーがテキス
ト情報であるか否かを判定し、テキスト情報である場合
にはステップＳ３に進み、それ以外の場合にはステップ
Ｓ４に進む。

【００３０】即ち、ＣＰＵ１０ａは、図５および図６に
示す入力画面において、チェックボックス２０ｄがチェ
ックされている場合にはステップＳ３に進み、それ以外
の場合にはステップＳ４に進む。［Ｓ３］ＣＰＵ１０ａは、テキスト情報と基準となる音
声データの対応関係を示す対応テーブルから、入力され
たテキスト情報に対応する音声データを取得する。

【００３１】即ち、ハードディスク装置１０ｈまたは図
示せぬサーバの記憶部には、図７に示すようなテキスト
情報と音声データの対応関係を示す対応テーブルが格納
されており、ＣＰＵ１０ａは、図５に示す入力画面にお
いて入力されたテキスト情報（この例では、話者氏名
「中田利雄」）に対応する音声データ（この例では、
「Ｓ００１．ＤＡＴ」）を取得することになる。［Ｓ４］ＣＰＵ１０ａは、検索処理を実行する。なお、
この処理の詳細については、図４を参照して後述する。

【００３２】この処理の結果、ステップＳ１で入力され
たキー音声データ、または、ステップＳ３において取得
された基準となる音声データに該当する音声データが取
得されることになる。［Ｓ５］ＣＰＵ１０ａは、ＣＲＴモニタ１０ｉに対し
て、例えば、図８に示すような画面を表示し、検索結果
をユーザに提示する。

【００３３】この例では、「音声データベース検索結果
画面」と題されたダイアログボックス２１の検索結果表
示ボックス２１ａ〜２１ｃに検索結果の音声データのフ
ァイル名が表示される。この例では、ファイル名だけが
表示されているが、サーバ１０のネットワーク上のアド
レスを示す情報や、その格納位置を示す情報も表示する
ようにしてもよい。

【００３４】なお、スピーカアイコン２１ｄ〜２１ｆ
は、検索結果の音声データを試聴する場合に操作され
る。これらのアイコンが操作されると、対応する音声デ
ータが取得され（例えば、サーバ３の記憶部３ａから取
得され）、スピーカ１０ｇから出力されることになる。

【００３５】次に、図４を参照して、図３のステップＳ
４に示す検索処理の詳細について説明する。このフロー
チャートが開始されると、以下の処理が実行されること
になる。［Ｓ２１］ＣＰＵ１０ａは、図５に示す画面において入
力されたキー音声データ、または、図７に示す対応テー
ブルから取得された基準となる音声データを入力する。［Ｓ２２］ＣＰＵ１０ａは、ステップＳ２１において入
力した音声データから特徴量を抽出する。なお、この特
徴量としては、例えば、音声データから所定の音素（例
えば、“あ”、“い”など）を抽出してその周波数分布
を解析することにより得られるフォルマントを用いる。［Ｓ２３］ＣＰＵ１０ａは、ＬＡＮユニット１０ｂを介
して、例えば、サーバ３の記憶部３ａから検索対象の音
声データを入力する。

【００３６】サーバ３の記憶部３ａには、例えば、図９
に示すような音声データが項番号によって管理されて記
憶されている。例えば、ファイル名が「ＮＡＫＡＴＡ１
２．ＤＡＴ」である音声データは、項番号が“１”とし
て管理されている。［Ｓ２４］ＣＰＵ１０ａは、ステップＳ２３において入
力した音声データから、ステップＳ２２の場合と同様の
処理により、特徴量を抽出する。［Ｓ２５］ＣＰＵ１０ａは、ステップＳ２２において抽
出したキー音声の特徴量と、ステップＳ２４において抽
出した検索対象の音声の特徴量の類似度を算出する。な
お、この類似度としては、前述の特徴量の相関係数など
を用いる。［Ｓ２６］ＣＰＵ１０ａは、類似度が所定の値（例え
ば、０．８）よりも大きいか否かを判定し、類似度が所
定の値よりも大きい場合にはステップＳ２７に進み、そ
れ以外の場合にはステップＳ２８に進む。［Ｓ２７］ＣＰＵ１０ａは、メモリ１０ｊに音声データ
のファイル名を検索結果（該当する音声データ）として
記憶する。［Ｓ２８］ＣＰＵ１０ａは、未処理の音声が存在してい
るか否かを判定し、未処理の音声データが存在している
場合にはステップＳ２３に戻り、前述の場合と同様の処
理を繰り返す。また、それ以外の場合には図３に示す処
理に復帰（リターン）する。

【００３７】以上の処理によれば、音声データが検索キ
ーとして入力された場合には、その音声データの特徴量
と類似度が高い音声データがサーバ３から取得されるこ
とになる。また、音声データの属性を示すテキスト情報
が入力された場合には、対応テーブルを参照して基準と
なる音声データが取得されてから音声データの検索が行
われることになる。

【００３８】なお、以上の処理では、音声データから特
定の音素を抽出し、その音素の特徴量の類似度に基づい
て同一話者であるか否かを識別するようにしたので、処
理の対象となる音声データの発話内容（テキスト）が特
定の内容に限定されない、いわゆる、テキスト独立な処
理が実現される。

【００３９】このようなテキスト独立な話者識別方法
は、前述のような特定の音素の特徴量の類似度を比較す
る方法のみならず、他の方法を用いることも可能であ
る。以上の実施の形態においては、特徴量の類似度を手
がかりとしてデータベースから該当する音声データを検
索するようにしたが、音声データが入力された場合に
は、対応テーブルからその音声データの話者を特定し、
その話者の音声データを検索するようにしてもよい。そ
のような処理の一例を図１０〜図１２を参照して以下に
説明する。

【００４０】図１０〜図１２は、入力されたキー音声デ
ータをテキスト情報に変換した後、対応する音声データ
を検索する処理の一例を説明するフローチャートであ
る。この例では、図１０が主たる処理のフローチャート
であり、図１１，１２は、図１０の処理のサブルーチン
とされている。従って、以下の処理では、図１０を参照
して処理の主要部分の説明を行い、続いて、図１１，１
２によりその詳細を説明する。

【００４１】なお、これらの処理において、音声検索装
置が検索の対象とする音声データベースを構成する音声
データには、従来の音声データベースの場合と同様に、
属性情報（例えば、話者の氏名）が付与されている。

【００４２】図１０に示すフローチャートが開始される
と、以下の処理が実行されることになる。［Ｓ４１］ＣＰＵ１０ａは、図５および図６に示す検索
キー入力画面をＣＲＴモニタ１０ｉに表示させ、検索キ
ーの入力を受ける。

【００４３】図５または図６に示す画面において、検索
ボタン２０ｃが押圧されると、検索が開始されることに
なる。［Ｓ４２］ＣＰＵ１０ａは、入力された検索キーがテキ
スト情報であるか否かを判定し、テキスト情報である場
合にはステップＳ４４に進み、それ以外の場合にはステ
ップＳ４３に進む。

【００４４】即ち、ＣＰＵ１０ａは、図５および図６に
示す入力画面において、チェックボックス２０ｄがチェ
ックされている場合にはステップＳ４４に進み、それ以
外の場合にはステップＳ４３に進む。［Ｓ４３］ＣＰＵ１０ａは、テキスト情報と音声データ
の対応関係を示す対応テーブルから、入力された音声デ
ータに対応するテキスト情報を取得する。

【００４５】即ち、ハードディスク装置１０ｈまたは図
示せぬサーバの記憶部には、図７に示すようなテキスト
情報と音声データの対応関係を示す対応テーブルが格納
されており、ＣＰＵ１０ａは、図６に示す入力画面にお
いて入力された音声データ（この例では、「Ｓ００１．
ＤＡＴ」）に対応するテキスト情報（この例では、話者
氏名「中田利雄」）を取得することになる。［Ｓ４４］ＣＰＵ１０ａは、検索処理を実行する。な
お、この処理の詳細については、図１１を参照して後述
する。

【００４６】この処理の結果、ステップＳ４１で入力さ
れたテキスト情報、または、ステップＳ４３において取
得されたテキスト情報に該当する音声データが取得され
ることになる。［Ｓ４５］ＣＰＵ１０ａは、ＣＲＴモニタ１０ｉに対し
て、例えば、図８に示すような画面を表示し、検索結果
をユーザに提示する。

【００４７】次に、図１１を参照して図１０のステップ
Ｓ４３に示す処理の詳細について説明する。このフロー
チャートが開始されると、以下の処理が実行されること
になる。［Ｓ６１］ＣＰＵ１０ａは、図１０に示すステップＳ４
１において入力されたキー音声データを入力する。［Ｓ６２］ＣＰＵ１０ａは、ステップＳ６１において入
力した音声データから特徴量を抽出する。なお、この特
徴量としては、音声データから所定の音素（例えば、
“あ”、“い”など）を抽出してその周波数分布を解析
することにより得られるフォルマントなどを用いる。［Ｓ６３］ＣＰＵ１０ａは、ＬＡＮユニット１０ｂを介
して、例えば、サーバ３の記憶部３ａに記憶されている
対応テーブル（図７参照）を参照して、基準となる音声
データを１つ入力する。

【００４８】即ち、ＣＰＵ１０ａは、第１回目の処理に
おいて、サーバ３の記憶部３ａに記憶されている対応テ
ーブルの第１番目の項目に対応するファイル「Ｓ００
１．ＤＡＴ」を入力する。［Ｓ６４］ＣＰＵ１０ａは、ステップＳ６３において入
力した音声データから、ステップＳ６２の場合と同様の
処理により、特徴量を抽出する。［Ｓ６５］ＣＰＵ１０ａは、ステップＳ６２において抽
出したキー音声データの特徴量と、ステップＳ６４にお
いて抽出した基準となる音声データの特徴量の類似度を
算出する。なお、この類似度としては、前述の特徴量の
相関係数を用いる。［Ｓ６６］ＣＰＵ１０ａは、類似度が所定の値（例え
ば、０．８）よりも大きいか否かを判定し、類似度が所
定の値よりも大きい場合にはステップＳ６７に進み、そ
れ以外の場合にはステップＳ６８に進む。［Ｓ６７］ＣＰＵ１０ａは、音声データのファイル名を
検索結果（該当する音声データ）としてメモリ１０ｊに
記憶する。［Ｓ６８］ＣＰＵ１０ａは、対応テーブルを参照して、
未処理の音声データが存在しているか否かを判定し、未
処理の音声データが存在している場合にはステップＳ６
３に戻り、前述の場合と同様の処理を繰り返し、それ以
外の場合には図１０に示す処理に復帰（リターン）す
る。［Ｓ６９］ＣＰＵ１０ａは、最大の類似度を有する音声
データの話者氏名を取得する。

【００４９】以上の処理により、キー音声データに対応
するテキスト情報（話者氏名）が対応テーブルから取得
されることになる。次に、図１２を参照して、図１０に
示すステップＳ４４の検索処理の詳細について説明す
る。このフローチャートが開始されると、以下の処理が
実行されることになる。［Ｓ８１］ＣＰＵ１０ａは、ステップＳ４１において入
力されたテキスト情報、または、ステップＳ４３におい
て取得されたテキスト情報を入力する。

【００５０】この例では、テキスト情報として、話者氏
名が入力される。［Ｓ８２］ＣＰＵ１０ａは、図２に示すサーバ３の記憶
部３ａに記憶されているデータベースから、属性情報を
入力する。［Ｓ８３］ＣＰＵ１０ａは、ステップＳ８１において入
力した話者の氏名と、ステップＳ８２においてデータベ
ースから入力した属性情報に含まれている話者の氏名が
一致するか否かを判定し、一致する場合にはステップＳ
８４に進み、それ以外の場合にはステップＳ８５に進
む。［Ｓ８４］ＣＰＵ１０ａは、ステップＳ８２において入
力した属性情報に対応する音声データのファイル名を検
索結果として記憶する。［Ｓ８５］ＣＰＵ１０ａは、未処理の音声データがサー
バ３の記憶部３ａに存在しているか否かを判定する。そ
の結果、未処理の音声データが存在している場合にはス
テップＳ８２に戻り、前述の場合と同様の処理を繰り返
し、それ以外の場合には図１０の処理へ復帰する。

【００５１】以上の処理によれば、検索キーとして音声
データが入力された場合には、対応テーブルを参照して
類似度が高い音声データが取得され、その属性情報に該
当する音声データが取得されることになる。従って、音
声データをキーとして、従来の音声データベース（音声
データと属性情報とが対応付けられて記憶されたデータ
ベース）を検索することが可能となる。

【００５２】以上の実施の形態では、一人の話者の音声
データを含むファイルを検索の対象としたが、例えば、
複数の話者の音声データが含まれているファイルを検索
の対象とすることもできる。即ち、そのような場合に
は、図１３に示すように、連続する音声区間のそれぞれ
に対してインデックス情報（この例では時間情報）をマ
ニュアル操作で付与し、このインデックス情報を参照し
て検索を行うようにすればよい。

【００５３】この例では、項番号１のファイルには、３
つの音声区間が含まれており、それぞれの音声区間の開
始時間と、持続時間を示すインデックスが付与されてい
る。例えば、第１番目の音声は、開始時間が「０：０
０：００」であり、また、持続時間が「０：０１：１
０」である。

【００５４】このように複数の音声データからなるファ
イルに対してインデックス情報を付与することにより、
特徴量を抽出する際に、対象となる話者の音声データを
確実に抽出することが可能となるので、対象となる話者
以外の音声データが抽出されることを防止することがで
きる。

【００５５】次に、図１４を参照して、本発明の第２の
実施の形態の構成例について説明する。図１４は、本発
明の第２の実施の形態の構成例を示すブロック図であ
る。なお、この図において、図２の場合と対応する部分
には同一の符号を付してあるので、その説明は省略す
る。

【００５６】この図においては、図２の場合と比較し
て、ネットワーク２およびサーバ３が、チューナ４０ｂ
とビデオキャプチャ４０ｃとに置換されている。それ以
外の構成は、図２の場合と同様である。

【００５７】チューナ４０ｂは、アンテナ４０ａによっ
て捕捉された放送電波から、所望のチャンネルのビデオ
信号を抽出して出力する。ビデオキャプチャ４０ｃは、
ＣＰＵ１０ａからの制御信号に応じて、チューナ４０ｃ
を制御するとともに、チューナ４０ｂから供給された所
定のチャンネルのビデオ信号をディジタル信号に変換し
て入力する。

【００５８】次に、図１５および図１６を参照して、図
１４に示す実施の形態の動作について説明する。図１５
は、図１４に示す実施の形態において実行される主要な
処理の一例を説明するフローチャートであり、図１６
は、図１５の処理の詳細を説明するためのフローチャー
トである。以下では、先ず、図１５を参照して、主要な
処理について説明を行い、その後に、図１６を参照し
て、その詳細について説明する。

【００５９】図１５に示すフローチャートが開始される
と、以下の処理が実行されることになる。［Ｓ１０１］ＣＰＵ１０ａは、図５および図６に示す検
索キー入力画面をＣＲＴモニタ１０ｉに表示させ、検索
キーの入力を受ける。

【００６０】このような表示画面において、検索ボタン
２０ｃが押圧されると、検索が開始されることになる。［Ｓ１０２］ＣＰＵ１０ａは、入力された検索キーがテ
キスト情報であるか否かを判定し、テキスト情報である
場合にはステップＳ１０３に進み、それ以外の場合には
ステップＳ１０４に進む。

【００６１】即ち、ＣＰＵ１０ａは、図５および図６に
示す入力画面において、チェックボックス２０ｄがチェ
ックされている場合にはステップＳ１０３に進み、それ
以外の場合にはステップＳ１０４に進む。［Ｓ１０３］ＣＰＵ１０ａは、テキスト情報と音声デー
タの対応関係を示す対応テーブルから、入力されたテキ
スト情報に対応する音声データを取得する。

【００６２】即ち、ハードディスク装置１０ｈまたは図
示せぬサーバの記憶部には、図７に示すようなテキスト
情報と音声データの対応関係を示す対応テーブルが格納
されており、ＣＰＵ１０ａは、図５に示す入力画面にお
いて入力されたテキスト情報（この例では、話者氏名
「中田利雄」）に対応する音声データ（この例では、
「Ｓ００１．ＤＡＴ」）が取得されることになる。［Ｓ１０４］ＣＰＵ１０ａは、検索処理を実行する。な
お、この処理の詳細については、図１６を参照して後述
する。

【００６３】この処理の結果、ステップＳ１０１で入力
されたキー音声データ、または、ステップＳ１０３にお
いて取得された音声データを含んだチャンネルのチャン
ネル番号が取得されることになる。［Ｓ１０５］ＣＰＵ１０ａは、ビデオキャプチャ４０ｃ
に制御信号を供給し、チューナ４０ｂの受信するチャン
ネルを、ステップＳ１０４で取得したチャンネルに変更
させる。

【００６４】例えば、ステップＳ１０４において、ｃｈ
１において現在放送中の放送電波に、検索キーに対応す
る話者の音声が含まれている場合には、チューナ４０ｂ
が受信するチャンネルがｃｈ１に変更されることにな
る。

【００６５】次に、図１６を参照して図１５のステップ
Ｓ４に示す処理の詳細について説明する。このフローチ
ャートが開始されると、以下の処理が実行されることに
なる。［Ｓ１２１］ＣＰＵ１０ａは、図５に示す画面において
入力されたキー音声データ、または、図７に示す対応テ
ーブルから取得された基準となる音声データを入力す
る。［Ｓ１２２］ＣＰＵ１０ａは、ステップＳ１２１におい
て入力した音声データから特徴量を抽出する。なお、こ
の特徴量としては、音声データから所定の音素（例え
ば、“あ”、“い”など）を抽出してその周波数分布を
解析することにより得られるフォルマントなどを用い
る。［Ｓ１２３］ＣＰＵ１０ａは、ビデオキャプチャ４０ｃ
から検索対象の音声データを入力する。

【００６６】例えば、ＣＰＵ１０ａは、ｃｈ１において
現在放送されている放送電波に含まれている音声データ
をビデオキャプチャ４０ｃから入力する。［Ｓ１２４］ＣＰＵ１０ａは、ステップＳ１２３におい
て入力した音声データから、ステップＳ１２２の場合と
同様の処理により、特徴量を抽出する。［Ｓ１２５］ＣＰＵ１０ａは、ステップＳ１２２におい
て抽出されたキー音声データの特徴量と、ステップＳ１
２４において抽出された検索対象の音声データの特徴量
の類似度を算出する。なお、この類似度としては、前述
の特徴量の相関係数を用いる。［Ｓ１２６］ＣＰＵ１０ａは、類似度が所定の値（例え
ば、０．８）よりも大きいか否かを判定し、類似度が所
定の値よりも大きい場合にはステップＳ１２８に進み、
それ以外の場合にはステップＳ１２７に進む。［Ｓ１２７］ＣＰＵ１０ａは、ビデオキャプチャ４０ｃ
に対して制御信号を送り、受信チャンネルを変更させ
る。

【００６７】ステップＳ１２３からステップＳ１２７の
処理が繰り返されることにより、チャンネルが順次変更
され、各チャンネルの放送電波に含まれている音声デー
タがキー音声データに該当するものであるか否かが判定
されることになる。

【００６８】即ち、ステップＳ１２３〜Ｓ１２７の処理
が繰り返されることにより、図１７に示すように、ＣＰ
Ｕ１０ａは、ビデオキャプチャ４０ｃを介してチューナ
４０ｂが受信するチャンネルを順次変更し、検索の対象
となる音声データを入力する。この図の例では、ｃｈ１
〜ｃｈ４が受信チャンネルとして順次選択され、そのと
きに受信される音声データが、サンプリング期間Ｓ１〜
Ｓ４においてそれぞれ読み込まれる。［Ｓ１２８］ＣＰＵ１０ａは、該当するチャンネルのチ
ャンネル番号を取得し、図１５の処理に復帰する。

【００６９】例えば、ｃｈ１において現在放送中の放送
電波に、該当する話者の音声が含まれている場合には、
チャンネル番号として“１”が取得された後、図１５の
処理に復帰することになる。

【００７０】以上の実施の形態によれば、例えば、俳優
の名前または音声データを検索キーとして入力すること
により、その検索キーに対応する話者の音声が含まれて
いるチャンネルに自動的にチューニングされることにな
る。

【００７１】なお、以上の実施の形態においては、検索
キーに対応する音声データが番組に含まれている場合に
は、受信チャンネルをそのチャンネルに変更するように
したが、例えば、該当するチャンネルが存在しているこ
とをＣＲＴモニタ１０ｉに表示させるようにしてもよ
い。

【００７２】また、以上の実施の形態においては、所望
のキー音声データに該当する音声データが含まれている
放送のチャンネル番号を取得するようにしたが、例え
ば、チャンネルは固定しておき、該当する音声データが
取得された場合は、そのことをユーザに通知するように
してもよい。

【００７３】更に、上記の処理機能は、コンピュータに
よって実現することができる。その場合、音声検索装置
が有すべき機能の処理内容は、コンピュータで読み取り
可能な記録媒体に記録されたプログラムに記述されてお
り、このプログラムをコンピュータで実行することによ
り、上記処理がコンピュータで実現される。コンピュー
タで読み取り可能な記録媒体としては、磁気記録装置や
半導体メモリ等がある。

【００７４】市場に流通させる場合には、ＣＤ−ＲＯＭ
(Compact Disk Read Only Memory)やフロッピーディス
ク等の可搬型記録媒体にプログラムを格納して流通させ
たり、ネットワークを介して接続されたコンピュータの
記憶装置に格納しておき、ネットワークを通じて他のコ
ンピュータに転送することもできる。コンピュータで実
行する際には、コンピュータ内のハードディスク装置等
にプログラムを格納しておき、メインメモリにロードし
て実行するようにすればよい。

【００７５】

【発明の効果】以上説明したように本発明では、検索対
象となる音声データと、検索キーとなるキー音声データ
からそれぞれ特徴量を抽出し、これらの類似度が所定の
値を上回っている場合には、該当するデータとして判定
するようにしたので、音声データだけが記録されたデー
タベースから所望の話者の音声データを取得することが
可能となる。

【００７６】また、話者の氏名が分からない場合におい
ても、データベースから対応する音声データを検索する
ことが可能となる。

【図面の簡単な説明】

【図１】本発明の原理を説明する原理図である。

【図２】本発明の実施の形態の構成例を示すブロック図
である。

【図３】図２に示す実施の形態において、音声データの
検索を行う場合に実行される処理の一例を説明するフロ
ーチャートである。

【図４】図３に示す検索処理の詳細を説明するフローチ
ャートである。

【図５】図３の処理において表示される検索キー入力画
面の表示例である。

【図６】図３の処理において表示される検索キー入力画
面の他の表示例である。

【図７】対応テーブルの一例を説明する図である。

【図８】図２に示す処理によって取得された音声データ
の表示画面である。

【図９】記憶部に記憶されている音声データの一例を示
す図である。

【図１０】図２に示す実施の形態において実行される他
の処理の一例である。

【図１１】図１０に示すテーブル検索処理の詳細を説明
するフローチャートである。

【図１２】図１０に示す検索処理の詳細を説明するフロ
ーチャートである。

【図１３】複数の音声データを含むファイルに対してイ
ンデックス情報を付与した場合の一例を示す図である。

【図１４】本発明の第２の実施の形態の構成例を示すブ
ロック図である。

【図１５】図１４に示す実施の形態において実行される
処理の一例を説明するフローチャートである。

【図１６】図１５に示す検索処理の詳細を説明するフロ
ーチャートである。

【図１７】図１４に示す検索処理により、放送電波から
音声データが逐次抽出される様子を示す図である。

【符号の説明】

１ａ検索対象音声データ入力手段１ｂ第１の特徴量抽出手段１ｃキー音声データ入力手段１ｄ第２の特徴量抽出手段１ｅ類似度算出手段１ｆ出力手段

Claims

【特許請求の範囲】

【請求項１】音声データを記録または伝送する媒体か
ら、検索対象となる音声データを入力する検索対象音声
データ入力手段と、検索のキーとなる音声データを入力するキー音声データ
入力手段と、前記検索対象音声データ入力手段から入力された音声デ
ータの特徴量を抽出する第１の特徴量抽出手段と、前記キー音声データ入力手段から入力された音声データ
の特徴量を抽出する第２の特徴量抽出手段と、前記第１の特徴量抽出手段と前記第２の特徴量抽出手段
によって抽出された特徴量の類似度を算出する類似度算
出手段と、前記類似度算出手段によって算出された類似度が所定の
値を上回っている場合には、前記検索対象音声データ入
力手段から入力された音声データ、または、音声データ
に関する属性情報を検索結果として出力する出力手段
と、を有することを特徴とする音声検索装置。
【請求項２】検索しようとする音声データに関する属
性情報を入力する属性情報入力手段と、基準となる音声データとその音声データに関する属性情
報とを対応付けて記録した対応テーブルから、前記属性
情報入力手段を介して入力された属性情報に対応する音
声データを取得する取得手段とを更に有し、前記属性情報入力手段から属性情報が入力された場合に
は、前記キー音声データ入力手段は、前記取得手段によ
って取得された音声データをその入力とすることを特徴
とする請求項１記載の音声検索装置。
【請求項３】検索対象音声データ入力手段から入力さ
れる音声データには属性情報が関連付けられており、前
記出力手段は、前記属性情報を検索結果として出力する
ことを特徴とする請求項１記載の音声検索装置。
【請求項４】前記属性情報は、前記音声データの話者
を特定するための情報であることを特徴とする請求項３
記載の音声検索装置。
【請求項５】前記媒体は、放送信号を伝送する伝送媒
体であり、前記放送信号に含まれている音声データを抽出し、前記
検索対象音声データ入力手段に供給する音声データ抽出
手段を更に有し、前記出力手段は前記音声データが含まれているチャンネ
ルを特定するための情報を検索結果として出力すること
を特徴とする請求項１記載の音声検索装置。
【請求項６】コンピュータを、音声データを記録または伝送する媒体から、検索対象と
なる音声データを入力する検索対象音声データ入力手
段、検索のキーとなる音声データを入力するキー音声データ
入力手段、前記検索対象音声データ入力手段から入力された音声デ
ータの特徴量を抽出する第１の特徴量抽出手段、前記キー音声データ入力手段から入力された音声データ
の特徴量を抽出する第２の特徴量抽出手段、前記第１の特徴量抽出手段と前記第２の特徴量抽出手段
によって抽出された特徴量の類似度を算出する類似度算
出手段、前記類似度算出手段によって算出された類似度が所定の
値を上回っている場合には、前記検索対象音声データ入
力手段から入力された音声データ、または、音声データ
に関する属性情報を検索結果として出力する出力手段、として機能させるプログラムを記録したコンピュータ読
み取り可能な記録媒体。