JPH11282857A - 音声検索装置および記録媒体 - Google Patents

音声検索装置および記録媒体

Info

Publication number
JPH11282857A
JPH11282857A JP10081131A JP8113198A JPH11282857A JP H11282857 A JPH11282857 A JP H11282857A JP 10081131 A JP10081131 A JP 10081131A JP 8113198 A JP8113198 A JP 8113198A JP H11282857 A JPH11282857 A JP H11282857A
Authority
JP
Japan
Prior art keywords
voice data
search
data input
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10081131A
Other languages
English (en)
Inventor
Ichiro Hattori
一郎 服部
Akira Suzuki
晃 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Animo Ltd
Original Assignee
Animo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Animo Ltd filed Critical Animo Ltd
Priority to JP10081131A priority Critical patent/JPH11282857A/ja
Publication of JPH11282857A publication Critical patent/JPH11282857A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声データを検索キーとして音声データベー
スから所望の音声データを検索する。 【解決手段】 検索対象音声データ入力手段1aは、ネ
ットワーク2を介して、サーバ3の記憶部3aから検索
の対象となる音声データを入力する。第1の特徴量抽出
手段1bは、入力された音声データから特徴量を抽出す
る。キー音声データ入力手段1cは、検索キーとなる音
声データの入力を受ける。第2の特徴量抽出手段1d
は、検索キーとなる音声データから特徴量を抽出する。
類似度算出手段1eは、第1の特徴量抽出手段1bと第
2の特徴量抽出手段1dによって抽出された特徴量の類
似度を算出する。出力手段1fは、類似度算出手段1e
によって前述の2つの特徴量の類似度が所定の値を上回
ると判定された場合には、検索対象音声データ入力手段
1aから入力された音声データを、該当するデータとし
て出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声検索装置および
記録媒体に関し、特に、音声データをキーとして検索対
象となる音声データを検索する音声検索装置およびコン
ピュータにそのような処理を実行させるプログラムを記
録した記録媒体に関する。
【0002】
【従来の技術】マルチメディア化の進展に伴って、テキ
スト情報だけでなく、音声や画像などのデータも検索す
ることが可能なデータベースが普及しつつある。
【0003】このような状況を背景として、データベー
スに登録されている音声や画像データを効率的に検索す
る方法が種々提案されている。ところで、音声を検索対
象とする、いわゆる、音声データベースでは、音声デー
タに対して属性情報(主にその話者を特定するための情
報)を付与して記録しておき、検索キーとして属性情報
が与えられた場合には、その属性情報に対応する音声デ
ータを検索するように構成されることが一般的であっ
た。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
音声データベースでは、個々の音声データに対して属性
情報を付与する必要があり、このような作業は、通常、
人が行っていた。従って、対象となる音声データが大量
にある場合には、コストが高くつくという問題があっ
た。
【0005】また、属性情報が付与されていない音声デ
ータは、検索の対象とすることができないため、例え
ば、テレビジョン放送などに含まれている音声などを検
索の対象とすることができないという問題があった。
【0006】本発明はこのような点に鑑みてなされたも
のであり、属性情報が予め付与されていない音声データ
を検索の対象とすることが可能な音声検索装置を提供す
ることを目的とする。
【0007】
【課題を解決するための手段】本発明では上記課題を解
決するために、音声データを記録または伝送する媒体か
ら、検索対象となる音声データを入力する検索対象音声
データ入力手段と、検索のキーとなる音声データを入力
するキー音声データ入力手段と、前記検索対象音声デー
タ入力手段から入力された音声データの特徴量を抽出す
る第1の特徴量抽出手段と、前記キー音声データ入力手
段から入力された音声データの特徴量を抽出する第2の
特徴量抽出手段と、前記第1の特徴量抽出手段と前記第
2の特徴量抽出手段によって抽出された特徴量の類似度
を算出する類似度算出手段と、前記類似度算出手段によ
って算出された類似度が所定の値を上回っている場合に
は、前記検索対象音声データ入力手段から入力された音
声データ、または、音声データに関する属性情報を検索
結果として出力する出力手段と、を有することを特徴と
する音声検索装置が提供される。
【0008】ここで、検索対象音声データ入力手段は、
音声データを記録または伝送する媒体から、検索対象と
なる音声データを入力する。キー音声データ入力手段
は、検索のキーとなる音声データを入力する。第1の特
徴量抽出手段は、検索対象音声データ入力手段から入力
された音声データの特徴量を抽出する。第2の特徴量抽
出手段は、キー音声データ入力手段から入力された音声
データの特徴量を抽出する。類似度算出手段は、第1の
特徴量抽出手段と第2の特徴量抽出手段によって抽出さ
れた特徴量の類似度を算出する。出力手段は、類似度算
出手段によって算出された類似度が所定の値を上回って
いる場合には、検索対象音声データ入力手段から入力さ
れた音声データ、または、音声データに関する属性情報
を検索結果として出力する。
【0009】例えば、検索対象音声データ入力手段は、
音声データを記録しているサーバから、ネットワークを
介して、検索対象となる音声データを入力する。キー音
声データ入力手段は、検索のキーとなる音声データのフ
ァイル名を入力する。第1の特徴量抽出手段は、検索対
象音声データ入力手段から入力された音声データの特徴
量を抽出する。第2の特徴量抽出手段は、キー音声デー
タ入力手段から入力された音声データの特徴量を抽出す
る。類似度算出手段は、第1の特徴量抽出手段と第2の
特徴量抽出手段によって抽出された特徴量の相関係数を
算出してこれらの類似度を算出する。出力手段は、類似
度算出手段によって算出された類似度が所定の値を上回
っている場合には、検索対象音声データ入力手段から入
力された音声データ、または、音声データに関する属性
情報としての話者氏名を検索結果として出力する。
【0010】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明に係わる音声検索
装置の原理を説明する原理図である。この図において、
検索対象音声データ入力手段1aは、ネットワーク2に
接続され、サーバ3の記憶部3aに記憶されている音声
データから、検索対象となる音声データを入力する。
【0011】第1の特徴量抽出手段1bは、検索対象音
声データ入力手段1aから入力された音声データから特
徴量を抽出する。キー音声データ入力手段1cは、検索
のキーとなる音声データ(以下、キー音声データと適宜
いう)を入力する。
【0012】第2の特徴量抽出手段1dは、キー音声デ
ータ入力手段1cを介して入力された音声データから特
徴量を抽出する。類似度算出手段1eは、第1の特徴量
抽出手段1bによって抽出された検索対象の音声データ
の特徴量と、第2の特徴量抽出手段1dによって抽出さ
れたキー音声データの特徴量の類似度を算出する。
【0013】出力手段1fは、類似度算出手段1eによ
って算出された類似度が所定の値を上回っている場合に
は、検索の対象となる音声データを検索結果(該当デー
タ)として出力する。
【0014】なお、ネットワーク2は、例えば、LAN
(Local Area Network)やインターネットなどである。
サーバ3は、クライアント側から要求がなされた場合に
は、記憶部3aから対応する音声データを読み出して送
信する。
【0015】次に、以上の実施の形態の動作について説
明する。いま、キー音声データ入力手段1cから検索の
キーとなる音声データが入力されると、第2の特徴量抽
出手段1dによって特徴量が抽出され、類似度算出手段
1eに供給されることになる。
【0016】すると、検索対象音声データ入力手段1a
は、サーバ3から検索対象となる音声データを入力し、
第1の特徴量抽出手段1bに供給する。第1の特徴量抽
出手段1bは、検索対象音声データ入力手段1aから供
給された音声データから特徴量を抽出し、類似度算出手
段1eに供給する。
【0017】類似度算出手段1eは、第1の特徴量抽出
手段1bによって抽出された検索対象の音声データの特
徴量と、第2の特徴量抽出手段1dによって抽出された
検索のキーとなる音声データの特徴量の類似度を算出す
る。
【0018】出力手段1fは、類似度算出手段1eによ
って算出された類似度が所定の値を上回っている場合に
は、検索対象音声データ入力手段1aから入力された音
声データを検索結果の(該当する)音声データとして出
力する。
【0019】以上のような処理が繰り返されることによ
り、検索対象となる音声データの中から該当する音声デ
ータが選出されることになる。以上説明した本発明に係
わる音声検索装置によれば、キー音声データと検索対象
の音声データの特徴量の類似度を算出し、類似度が所定
の値を上回っている場合には、該当するデータとして選
出するようにしたので、音声データに対して属性情報を
付与することなく検索を行うことが可能となる。
【0020】また、音声データを検索キーとして検索を
行うことが可能となるので、話者の氏名を知らない場合
でも、検索を行うことが可能となる。次に、本発明の実
施の形態の構成例について図2を参照して説明する。
【0021】この図において、CPU10aは、装置の
各部を制御するとともに、種々の演算処理を実行する。
LANユニット10bは、例えば、CSMA/CD(Ca
rrier Sense Multiple Access with Collision Detecti
on)方式に基づいて、サーバ3や図示せぬ他の装置との
間でデータを授受する。
【0022】CD−ROMドライブ10cは、CD−R
OMから必要なデータを読み込む。音声入出力ユニット
10dは、検索のキーとなる音声信号を入力してディジ
タル信号に変換するとともに、検索結果の音声データを
アナログ信号に変換して出力する。
【0023】マイク10eは、検索のキーとなる音声を
対応する音声信号に変換して出力する。音声入力端子1
0fは、検索のキーとなる音声信号を他の装置から入力
する。
【0024】スピーカ10gは、検索結果の音声信号を
音声に変換して出力する。ハードディスク装置10h
は、CPU10aが実行するプログラムなどを記録して
いる。
【0025】CRTモニタ10iは、CPU10aの処
理結果等を画面上に表示出力する。メモリ10jは、R
AMおよびROMによって構成されており、CPU10
aが演算処理を行う場合に必要なプログラムを記憶する
とともに、演算途中のデータを一時的に記憶する。入力
装置10kは、例えば、キーボードやマウスなどによっ
て構成されており、必要な情報を入力する際に操作され
る。
【0026】なお、図1に示す原理図と図2に示す実施
の形態との対応関係を以下に示す。即ち、検索対象音声
データ入力手段1aは、LANユニット10bに対応し
ている。第1の特徴量抽出手段1bは、CPU10aに
対応している。キー音声データ入力手段1cは、マイク
10e、音声入力端子10f、および、音声入出力ユニ
ット10dに対応している。第2の特徴量抽出手段1d
は、CPU10aに対応している。類似度算出手段1e
は、CPU10aに対応している。出力手段1fは、ス
ピーカ10g、音声入出力ユニット10d、および、C
RTモニタ10iに対応している。
【0027】次に、以上の実施の形態の動作を図3に示
すフローチャートを参照して説明する。図3は、図2に
示す実施の形態において、音声データの検索を行う場合
に実行される処理の一例である。このフローチャートが
開始されると、以下の処理が実行されることになる。 [S1]CPU10aは、図5および図6に示す検索キ
ー入力画面をCRTモニタ10iに表示させ、検索キー
の入力を受ける。
【0028】なお、この実施の形態では、検索キーとし
ては、音声データのみならず、テキスト情報(この例で
は、話者の氏名)によっても検索を行うことが可能とさ
れている。即ち、図5の例では、「音声データベース検
索画面」と題されたダイアログボックスのチェックボッ
クス20dがチェックされており、話者の氏名を検索キ
ーとして入力することが選択されている。そして、その
右側の入力ボックス20aには、検索キーである話者氏
名「中田利雄」が入力されている。
【0029】このような表示画面において、検索ボタン
20cが押圧されると、検索が開始されることになる。
一方、図6に示す例では、チェックボックス20eがチ
ェックされており、音声データを検索キーとして入力す
ることが選択されている。そして、その右側の入力ボッ
クス20bには、検索キーとなる音声データのファイル
名とその格納位置を示す情報「a:¥dat¥naka
ta.dat」が入力されている。なお、検索対象とな
る音声データは、マイク10eまたは音声入力端子10
fから入力してディジタル信号に変換した後、ハードデ
ィスク装置10hに予め格納しておく。 [S2]CPU10aは、入力された検索キーがテキス
ト情報であるか否かを判定し、テキスト情報である場合
にはステップS3に進み、それ以外の場合にはステップ
S4に進む。
【0030】即ち、CPU10aは、図5および図6に
示す入力画面において、チェックボックス20dがチェ
ックされている場合にはステップS3に進み、それ以外
の場合にはステップS4に進む。 [S3]CPU10aは、テキスト情報と基準となる音
声データの対応関係を示す対応テーブルから、入力され
たテキスト情報に対応する音声データを取得する。
【0031】即ち、ハードディスク装置10hまたは図
示せぬサーバの記憶部には、図7に示すようなテキスト
情報と音声データの対応関係を示す対応テーブルが格納
されており、CPU10aは、図5に示す入力画面にお
いて入力されたテキスト情報(この例では、話者氏名
「中田利雄」)に対応する音声データ(この例では、
「S001.DAT」)を取得することになる。 [S4]CPU10aは、検索処理を実行する。なお、
この処理の詳細については、図4を参照して後述する。
【0032】この処理の結果、ステップS1で入力され
たキー音声データ、または、ステップS3において取得
された基準となる音声データに該当する音声データが取
得されることになる。 [S5]CPU10aは、CRTモニタ10iに対し
て、例えば、図8に示すような画面を表示し、検索結果
をユーザに提示する。
【0033】この例では、「音声データベース検索結果
画面」と題されたダイアログボックス21の検索結果表
示ボックス21a〜21cに検索結果の音声データのフ
ァイル名が表示される。この例では、ファイル名だけが
表示されているが、サーバ10のネットワーク上のアド
レスを示す情報や、その格納位置を示す情報も表示する
ようにしてもよい。
【0034】なお、スピーカアイコン21d〜21f
は、検索結果の音声データを試聴する場合に操作され
る。これらのアイコンが操作されると、対応する音声デ
ータが取得され(例えば、サーバ3の記憶部3aから取
得され)、スピーカ10gから出力されることになる。
【0035】次に、図4を参照して、図3のステップS
4に示す検索処理の詳細について説明する。このフロー
チャートが開始されると、以下の処理が実行されること
になる。 [S21]CPU10aは、図5に示す画面において入
力されたキー音声データ、または、図7に示す対応テー
ブルから取得された基準となる音声データを入力する。 [S22]CPU10aは、ステップS21において入
力した音声データから特徴量を抽出する。なお、この特
徴量としては、例えば、音声データから所定の音素(例
えば、“あ”、“い”など)を抽出してその周波数分布
を解析することにより得られるフォルマントを用いる。 [S23]CPU10aは、LANユニット10bを介
して、例えば、サーバ3の記憶部3aから検索対象の音
声データを入力する。
【0036】サーバ3の記憶部3aには、例えば、図9
に示すような音声データが項番号によって管理されて記
憶されている。例えば、ファイル名が「NAKATA1
2.DAT」である音声データは、項番号が“1”とし
て管理されている。 [S24]CPU10aは、ステップS23において入
力した音声データから、ステップS22の場合と同様の
処理により、特徴量を抽出する。 [S25]CPU10aは、ステップS22において抽
出したキー音声の特徴量と、ステップS24において抽
出した検索対象の音声の特徴量の類似度を算出する。な
お、この類似度としては、前述の特徴量の相関係数など
を用いる。 [S26]CPU10aは、類似度が所定の値(例え
ば、0.8)よりも大きいか否かを判定し、類似度が所
定の値よりも大きい場合にはステップS27に進み、そ
れ以外の場合にはステップS28に進む。 [S27]CPU10aは、メモリ10jに音声データ
のファイル名を検索結果(該当する音声データ)として
記憶する。 [S28]CPU10aは、未処理の音声が存在してい
るか否かを判定し、未処理の音声データが存在している
場合にはステップS23に戻り、前述の場合と同様の処
理を繰り返す。また、それ以外の場合には図3に示す処
理に復帰(リターン)する。
【0037】以上の処理によれば、音声データが検索キ
ーとして入力された場合には、その音声データの特徴量
と類似度が高い音声データがサーバ3から取得されるこ
とになる。また、音声データの属性を示すテキスト情報
が入力された場合には、対応テーブルを参照して基準と
なる音声データが取得されてから音声データの検索が行
われることになる。
【0038】なお、以上の処理では、音声データから特
定の音素を抽出し、その音素の特徴量の類似度に基づい
て同一話者であるか否かを識別するようにしたので、処
理の対象となる音声データの発話内容(テキスト)が特
定の内容に限定されない、いわゆる、テキスト独立な処
理が実現される。
【0039】このようなテキスト独立な話者識別方法
は、前述のような特定の音素の特徴量の類似度を比較す
る方法のみならず、他の方法を用いることも可能であ
る。以上の実施の形態においては、特徴量の類似度を手
がかりとしてデータベースから該当する音声データを検
索するようにしたが、音声データが入力された場合に
は、対応テーブルからその音声データの話者を特定し、
その話者の音声データを検索するようにしてもよい。そ
のような処理の一例を図10〜図12を参照して以下に
説明する。
【0040】図10〜図12は、入力されたキー音声デ
ータをテキスト情報に変換した後、対応する音声データ
を検索する処理の一例を説明するフローチャートであ
る。この例では、図10が主たる処理のフローチャート
であり、図11,12は、図10の処理のサブルーチン
とされている。従って、以下の処理では、図10を参照
して処理の主要部分の説明を行い、続いて、図11,1
2によりその詳細を説明する。
【0041】なお、これらの処理において、音声検索装
置が検索の対象とする音声データベースを構成する音声
データには、従来の音声データベースの場合と同様に、
属性情報(例えば、話者の氏名)が付与されている。
【0042】図10に示すフローチャートが開始される
と、以下の処理が実行されることになる。 [S41]CPU10aは、図5および図6に示す検索
キー入力画面をCRTモニタ10iに表示させ、検索キ
ーの入力を受ける。
【0043】図5または図6に示す画面において、検索
ボタン20cが押圧されると、検索が開始されることに
なる。 [S42]CPU10aは、入力された検索キーがテキ
スト情報であるか否かを判定し、テキスト情報である場
合にはステップS44に進み、それ以外の場合にはステ
ップS43に進む。
【0044】即ち、CPU10aは、図5および図6に
示す入力画面において、チェックボックス20dがチェ
ックされている場合にはステップS44に進み、それ以
外の場合にはステップS43に進む。 [S43]CPU10aは、テキスト情報と音声データ
の対応関係を示す対応テーブルから、入力された音声デ
ータに対応するテキスト情報を取得する。
【0045】即ち、ハードディスク装置10hまたは図
示せぬサーバの記憶部には、図7に示すようなテキスト
情報と音声データの対応関係を示す対応テーブルが格納
されており、CPU10aは、図6に示す入力画面にお
いて入力された音声データ(この例では、「S001.
DAT」)に対応するテキスト情報(この例では、話者
氏名「中田利雄」)を取得することになる。 [S44]CPU10aは、検索処理を実行する。な
お、この処理の詳細については、図11を参照して後述
する。
【0046】この処理の結果、ステップS41で入力さ
れたテキスト情報、または、ステップS43において取
得されたテキスト情報に該当する音声データが取得され
ることになる。 [S45]CPU10aは、CRTモニタ10iに対し
て、例えば、図8に示すような画面を表示し、検索結果
をユーザに提示する。
【0047】次に、図11を参照して図10のステップ
S43に示す処理の詳細について説明する。このフロー
チャートが開始されると、以下の処理が実行されること
になる。 [S61]CPU10aは、図10に示すステップS4
1において入力されたキー音声データを入力する。 [S62]CPU10aは、ステップS61において入
力した音声データから特徴量を抽出する。なお、この特
徴量としては、音声データから所定の音素(例えば、
“あ”、“い”など)を抽出してその周波数分布を解析
することにより得られるフォルマントなどを用いる。 [S63]CPU10aは、LANユニット10bを介
して、例えば、サーバ3の記憶部3aに記憶されている
対応テーブル(図7参照)を参照して、基準となる音声
データを1つ入力する。
【0048】即ち、CPU10aは、第1回目の処理に
おいて、サーバ3の記憶部3aに記憶されている対応テ
ーブルの第1番目の項目に対応するファイル「S00
1.DAT」を入力する。 [S64]CPU10aは、ステップS63において入
力した音声データから、ステップS62の場合と同様の
処理により、特徴量を抽出する。 [S65]CPU10aは、ステップS62において抽
出したキー音声データの特徴量と、ステップS64にお
いて抽出した基準となる音声データの特徴量の類似度を
算出する。なお、この類似度としては、前述の特徴量の
相関係数を用いる。 [S66]CPU10aは、類似度が所定の値(例え
ば、0.8)よりも大きいか否かを判定し、類似度が所
定の値よりも大きい場合にはステップS67に進み、そ
れ以外の場合にはステップS68に進む。 [S67]CPU10aは、音声データのファイル名を
検索結果(該当する音声データ)としてメモリ10jに
記憶する。 [S68]CPU10aは、対応テーブルを参照して、
未処理の音声データが存在しているか否かを判定し、未
処理の音声データが存在している場合にはステップS6
3に戻り、前述の場合と同様の処理を繰り返し、それ以
外の場合には図10に示す処理に復帰(リターン)す
る。 [S69]CPU10aは、最大の類似度を有する音声
データの話者氏名を取得する。
【0049】以上の処理により、キー音声データに対応
するテキスト情報(話者氏名)が対応テーブルから取得
されることになる。次に、図12を参照して、図10に
示すステップS44の検索処理の詳細について説明す
る。このフローチャートが開始されると、以下の処理が
実行されることになる。 [S81]CPU10aは、ステップS41において入
力されたテキスト情報、または、ステップS43におい
て取得されたテキスト情報を入力する。
【0050】この例では、テキスト情報として、話者氏
名が入力される。 [S82]CPU10aは、図2に示すサーバ3の記憶
部3aに記憶されているデータベースから、属性情報を
入力する。 [S83]CPU10aは、ステップS81において入
力した話者の氏名と、ステップS82においてデータベ
ースから入力した属性情報に含まれている話者の氏名が
一致するか否かを判定し、一致する場合にはステップS
84に進み、それ以外の場合にはステップS85に進
む。 [S84]CPU10aは、ステップS82において入
力した属性情報に対応する音声データのファイル名を検
索結果として記憶する。 [S85]CPU10aは、未処理の音声データがサー
バ3の記憶部3aに存在しているか否かを判定する。そ
の結果、未処理の音声データが存在している場合にはス
テップS82に戻り、前述の場合と同様の処理を繰り返
し、それ以外の場合には図10の処理へ復帰する。
【0051】以上の処理によれば、検索キーとして音声
データが入力された場合には、対応テーブルを参照して
類似度が高い音声データが取得され、その属性情報に該
当する音声データが取得されることになる。従って、音
声データをキーとして、従来の音声データベース(音声
データと属性情報とが対応付けられて記憶されたデータ
ベース)を検索することが可能となる。
【0052】以上の実施の形態では、一人の話者の音声
データを含むファイルを検索の対象としたが、例えば、
複数の話者の音声データが含まれているファイルを検索
の対象とすることもできる。即ち、そのような場合に
は、図13に示すように、連続する音声区間のそれぞれ
に対してインデックス情報(この例では時間情報)をマ
ニュアル操作で付与し、このインデックス情報を参照し
て検索を行うようにすればよい。
【0053】この例では、項番号1のファイルには、3
つの音声区間が含まれており、それぞれの音声区間の開
始時間と、持続時間を示すインデックスが付与されてい
る。例えば、第1番目の音声は、開始時間が「0:0
0:00」であり、また、持続時間が「0:01:1
0」である。
【0054】このように複数の音声データからなるファ
イルに対してインデックス情報を付与することにより、
特徴量を抽出する際に、対象となる話者の音声データを
確実に抽出することが可能となるので、対象となる話者
以外の音声データが抽出されることを防止することがで
きる。
【0055】次に、図14を参照して、本発明の第2の
実施の形態の構成例について説明する。図14は、本発
明の第2の実施の形態の構成例を示すブロック図であ
る。なお、この図において、図2の場合と対応する部分
には同一の符号を付してあるので、その説明は省略す
る。
【0056】この図においては、図2の場合と比較し
て、ネットワーク2およびサーバ3が、チューナ40b
とビデオキャプチャ40cとに置換されている。それ以
外の構成は、図2の場合と同様である。
【0057】チューナ40bは、アンテナ40aによっ
て捕捉された放送電波から、所望のチャンネルのビデオ
信号を抽出して出力する。ビデオキャプチャ40cは、
CPU10aからの制御信号に応じて、チューナ40c
を制御するとともに、チューナ40bから供給された所
定のチャンネルのビデオ信号をディジタル信号に変換し
て入力する。
【0058】次に、図15および図16を参照して、図
14に示す実施の形態の動作について説明する。図15
は、図14に示す実施の形態において実行される主要な
処理の一例を説明するフローチャートであり、図16
は、図15の処理の詳細を説明するためのフローチャー
トである。以下では、先ず、図15を参照して、主要な
処理について説明を行い、その後に、図16を参照し
て、その詳細について説明する。
【0059】図15に示すフローチャートが開始される
と、以下の処理が実行されることになる。 [S101]CPU10aは、図5および図6に示す検
索キー入力画面をCRTモニタ10iに表示させ、検索
キーの入力を受ける。
【0060】このような表示画面において、検索ボタン
20cが押圧されると、検索が開始されることになる。 [S102]CPU10aは、入力された検索キーがテ
キスト情報であるか否かを判定し、テキスト情報である
場合にはステップS103に進み、それ以外の場合には
ステップS104に進む。
【0061】即ち、CPU10aは、図5および図6に
示す入力画面において、チェックボックス20dがチェ
ックされている場合にはステップS103に進み、それ
以外の場合にはステップS104に進む。 [S103]CPU10aは、テキスト情報と音声デー
タの対応関係を示す対応テーブルから、入力されたテキ
スト情報に対応する音声データを取得する。
【0062】即ち、ハードディスク装置10hまたは図
示せぬサーバの記憶部には、図7に示すようなテキスト
情報と音声データの対応関係を示す対応テーブルが格納
されており、CPU10aは、図5に示す入力画面にお
いて入力されたテキスト情報(この例では、話者氏名
「中田利雄」)に対応する音声データ(この例では、
「S001.DAT」)が取得されることになる。 [S104]CPU10aは、検索処理を実行する。な
お、この処理の詳細については、図16を参照して後述
する。
【0063】この処理の結果、ステップS101で入力
されたキー音声データ、または、ステップS103にお
いて取得された音声データを含んだチャンネルのチャン
ネル番号が取得されることになる。 [S105]CPU10aは、ビデオキャプチャ40c
に制御信号を供給し、チューナ40bの受信するチャン
ネルを、ステップS104で取得したチャンネルに変更
させる。
【0064】例えば、ステップS104において、ch
1において現在放送中の放送電波に、検索キーに対応す
る話者の音声が含まれている場合には、チューナ40b
が受信するチャンネルがch1に変更されることにな
る。
【0065】次に、図16を参照して図15のステップ
S4に示す処理の詳細について説明する。このフローチ
ャートが開始されると、以下の処理が実行されることに
なる。 [S121]CPU10aは、図5に示す画面において
入力されたキー音声データ、または、図7に示す対応テ
ーブルから取得された基準となる音声データを入力す
る。 [S122]CPU10aは、ステップS121におい
て入力した音声データから特徴量を抽出する。なお、こ
の特徴量としては、音声データから所定の音素(例え
ば、“あ”、“い”など)を抽出してその周波数分布を
解析することにより得られるフォルマントなどを用い
る。 [S123]CPU10aは、ビデオキャプチャ40c
から検索対象の音声データを入力する。
【0066】例えば、CPU10aは、ch1において
現在放送されている放送電波に含まれている音声データ
をビデオキャプチャ40cから入力する。 [S124]CPU10aは、ステップS123におい
て入力した音声データから、ステップS122の場合と
同様の処理により、特徴量を抽出する。 [S125]CPU10aは、ステップS122におい
て抽出されたキー音声データの特徴量と、ステップS1
24において抽出された検索対象の音声データの特徴量
の類似度を算出する。なお、この類似度としては、前述
の特徴量の相関係数を用いる。 [S126]CPU10aは、類似度が所定の値(例え
ば、0.8)よりも大きいか否かを判定し、類似度が所
定の値よりも大きい場合にはステップS128に進み、
それ以外の場合にはステップS127に進む。 [S127]CPU10aは、ビデオキャプチャ40c
に対して制御信号を送り、受信チャンネルを変更させ
る。
【0067】ステップS123からステップS127の
処理が繰り返されることにより、チャンネルが順次変更
され、各チャンネルの放送電波に含まれている音声デー
タがキー音声データに該当するものであるか否かが判定
されることになる。
【0068】即ち、ステップS123〜S127の処理
が繰り返されることにより、図17に示すように、CP
U10aは、ビデオキャプチャ40cを介してチューナ
40bが受信するチャンネルを順次変更し、検索の対象
となる音声データを入力する。この図の例では、ch1
〜ch4が受信チャンネルとして順次選択され、そのと
きに受信される音声データが、サンプリング期間S1〜
S4においてそれぞれ読み込まれる。 [S128]CPU10aは、該当するチャンネルのチ
ャンネル番号を取得し、図15の処理に復帰する。
【0069】例えば、ch1において現在放送中の放送
電波に、該当する話者の音声が含まれている場合には、
チャンネル番号として“1”が取得された後、図15の
処理に復帰することになる。
【0070】以上の実施の形態によれば、例えば、俳優
の名前または音声データを検索キーとして入力すること
により、その検索キーに対応する話者の音声が含まれて
いるチャンネルに自動的にチューニングされることにな
る。
【0071】なお、以上の実施の形態においては、検索
キーに対応する音声データが番組に含まれている場合に
は、受信チャンネルをそのチャンネルに変更するように
したが、例えば、該当するチャンネルが存在しているこ
とをCRTモニタ10iに表示させるようにしてもよ
い。
【0072】また、以上の実施の形態においては、所望
のキー音声データに該当する音声データが含まれている
放送のチャンネル番号を取得するようにしたが、例え
ば、チャンネルは固定しておき、該当する音声データが
取得された場合は、そのことをユーザに通知するように
してもよい。
【0073】更に、上記の処理機能は、コンピュータに
よって実現することができる。その場合、音声検索装置
が有すべき機能の処理内容は、コンピュータで読み取り
可能な記録媒体に記録されたプログラムに記述されてお
り、このプログラムをコンピュータで実行することによ
り、上記処理がコンピュータで実現される。コンピュー
タで読み取り可能な記録媒体としては、磁気記録装置や
半導体メモリ等がある。
【0074】市場に流通させる場合には、CD−ROM
(Compact Disk Read Only Memory)やフロッピーディス
ク等の可搬型記録媒体にプログラムを格納して流通させ
たり、ネットワークを介して接続されたコンピュータの
記憶装置に格納しておき、ネットワークを通じて他のコ
ンピュータに転送することもできる。コンピュータで実
行する際には、コンピュータ内のハードディスク装置等
にプログラムを格納しておき、メインメモリにロードし
て実行するようにすればよい。
【0075】
【発明の効果】以上説明したように本発明では、検索対
象となる音声データと、検索キーとなるキー音声データ
からそれぞれ特徴量を抽出し、これらの類似度が所定の
値を上回っている場合には、該当するデータとして判定
するようにしたので、音声データだけが記録されたデー
タベースから所望の話者の音声データを取得することが
可能となる。
【0076】また、話者の氏名が分からない場合におい
ても、データベースから対応する音声データを検索する
ことが可能となる。
【図面の簡単な説明】
【図1】本発明の原理を説明する原理図である。
【図2】本発明の実施の形態の構成例を示すブロック図
である。
【図3】図2に示す実施の形態において、音声データの
検索を行う場合に実行される処理の一例を説明するフロ
ーチャートである。
【図4】図3に示す検索処理の詳細を説明するフローチ
ャートである。
【図5】図3の処理において表示される検索キー入力画
面の表示例である。
【図6】図3の処理において表示される検索キー入力画
面の他の表示例である。
【図7】対応テーブルの一例を説明する図である。
【図8】図2に示す処理によって取得された音声データ
の表示画面である。
【図9】記憶部に記憶されている音声データの一例を示
す図である。
【図10】図2に示す実施の形態において実行される他
の処理の一例である。
【図11】図10に示すテーブル検索処理の詳細を説明
するフローチャートである。
【図12】図10に示す検索処理の詳細を説明するフロ
ーチャートである。
【図13】複数の音声データを含むファイルに対してイ
ンデックス情報を付与した場合の一例を示す図である。
【図14】本発明の第2の実施の形態の構成例を示すブ
ロック図である。
【図15】図14に示す実施の形態において実行される
処理の一例を説明するフローチャートである。
【図16】図15に示す検索処理の詳細を説明するフロ
ーチャートである。
【図17】図14に示す検索処理により、放送電波から
音声データが逐次抽出される様子を示す図である。
【符号の説明】
1a 検索対象音声データ入力手段 1b 第1の特徴量抽出手段 1c キー音声データ入力手段 1d 第2の特徴量抽出手段 1e 類似度算出手段 1f 出力手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声データを記録または伝送する媒体か
    ら、検索対象となる音声データを入力する検索対象音声
    データ入力手段と、 検索のキーとなる音声データを入力するキー音声データ
    入力手段と、 前記検索対象音声データ入力手段から入力された音声デ
    ータの特徴量を抽出する第1の特徴量抽出手段と、 前記キー音声データ入力手段から入力された音声データ
    の特徴量を抽出する第2の特徴量抽出手段と、 前記第1の特徴量抽出手段と前記第2の特徴量抽出手段
    によって抽出された特徴量の類似度を算出する類似度算
    出手段と、 前記類似度算出手段によって算出された類似度が所定の
    値を上回っている場合には、前記検索対象音声データ入
    力手段から入力された音声データ、または、音声データ
    に関する属性情報を検索結果として出力する出力手段
    と、 を有することを特徴とする音声検索装置。
  2. 【請求項2】 検索しようとする音声データに関する属
    性情報を入力する属性情報入力手段と、 基準となる音声データとその音声データに関する属性情
    報とを対応付けて記録した対応テーブルから、前記属性
    情報入力手段を介して入力された属性情報に対応する音
    声データを取得する取得手段とを更に有し、 前記属性情報入力手段から属性情報が入力された場合に
    は、前記キー音声データ入力手段は、前記取得手段によ
    って取得された音声データをその入力とすることを特徴
    とする請求項1記載の音声検索装置。
  3. 【請求項3】 検索対象音声データ入力手段から入力さ
    れる音声データには属性情報が関連付けられており、前
    記出力手段は、前記属性情報を検索結果として出力する
    ことを特徴とする請求項1記載の音声検索装置。
  4. 【請求項4】 前記属性情報は、前記音声データの話者
    を特定するための情報であることを特徴とする請求項3
    記載の音声検索装置。
  5. 【請求項5】 前記媒体は、放送信号を伝送する伝送媒
    体であり、 前記放送信号に含まれている音声データを抽出し、前記
    検索対象音声データ入力手段に供給する音声データ抽出
    手段を更に有し、 前記出力手段は前記音声データが含まれているチャンネ
    ルを特定するための情報を検索結果として出力すること
    を特徴とする請求項1記載の音声検索装置。
  6. 【請求項6】 コンピュータを、 音声データを記録または伝送する媒体から、検索対象と
    なる音声データを入力する検索対象音声データ入力手
    段、 検索のキーとなる音声データを入力するキー音声データ
    入力手段、 前記検索対象音声データ入力手段から入力された音声デ
    ータの特徴量を抽出する第1の特徴量抽出手段、 前記キー音声データ入力手段から入力された音声データ
    の特徴量を抽出する第2の特徴量抽出手段、 前記第1の特徴量抽出手段と前記第2の特徴量抽出手段
    によって抽出された特徴量の類似度を算出する類似度算
    出手段、 前記類似度算出手段によって算出された類似度が所定の
    値を上回っている場合には、前記検索対象音声データ入
    力手段から入力された音声データ、または、音声データ
    に関する属性情報を検索結果として出力する出力手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
JP10081131A 1998-03-27 1998-03-27 音声検索装置および記録媒体 Pending JPH11282857A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10081131A JPH11282857A (ja) 1998-03-27 1998-03-27 音声検索装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10081131A JPH11282857A (ja) 1998-03-27 1998-03-27 音声検索装置および記録媒体

Publications (1)

Publication Number Publication Date
JPH11282857A true JPH11282857A (ja) 1999-10-15

Family

ID=13737851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10081131A Pending JPH11282857A (ja) 1998-03-27 1998-03-27 音声検索装置および記録媒体

Country Status (1)

Country Link
JP (1) JPH11282857A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041569A (ja) * 2000-05-19 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> 検索サービスの配信方法及びシステム,情報検索方法及び装置,情報検索サーバ,検索サービス提供方法,そのプログラムおよび該プログラムを記録した記録媒体
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2005025770A (ja) * 2000-05-19 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> 検索サービスの配信方法及びシステム,情報検索方法及び装置,情報検索サーバ,検索サービス提供方法,そのプログラムおよび該プログラムを記録した記録媒体
JP2005189363A (ja) * 2003-12-25 2005-07-14 Toshiba Corp 質問応答システムおよびプログラム
US7490107B2 (en) 2000-05-19 2009-02-10 Nippon Telegraph & Telephone Corporation Information search method and apparatus of time-series data using multi-dimensional time-series feature vector and program storage medium
JP2009060326A (ja) * 2007-08-31 2009-03-19 Sony Corp 撮影装置および撮影方法、情報処理装置および情報処理方法、並びにプログラム
JP2009541869A (ja) * 2006-07-03 2009-11-26 インテル・コーポレーション 高速音声検索の方法および装置
JP2011113570A (ja) * 2009-11-27 2011-06-09 Ricoh Co Ltd 音声検索装置と音声検索方法
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2012133371A (ja) * 2012-01-04 2012-07-12 Intel Corp 高速音声検索の方法および装置
JP2016018229A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
JP2020190693A (ja) * 2019-05-23 2020-11-26 富士通株式会社 声優評価プログラム、声優評価方法及び声優評価システム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041569A (ja) * 2000-05-19 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> 検索サービスの配信方法及びシステム,情報検索方法及び装置,情報検索サーバ,検索サービス提供方法,そのプログラムおよび該プログラムを記録した記録媒体
JP2005025770A (ja) * 2000-05-19 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> 検索サービスの配信方法及びシステム,情報検索方法及び装置,情報検索サーバ,検索サービス提供方法,そのプログラムおよび該プログラムを記録した記録媒体
US7490107B2 (en) 2000-05-19 2009-02-10 Nippon Telegraph & Telephone Corporation Information search method and apparatus of time-series data using multi-dimensional time-series feature vector and program storage medium
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2005189363A (ja) * 2003-12-25 2005-07-14 Toshiba Corp 質問応答システムおよびプログラム
JP2009541869A (ja) * 2006-07-03 2009-11-26 インテル・コーポレーション 高速音声検索の方法および装置
JP2009060326A (ja) * 2007-08-31 2009-03-19 Sony Corp 撮影装置および撮影方法、情報処理装置および情報処理方法、並びにプログラム
US8059167B2 (en) 2007-08-31 2011-11-15 Sony Corporation Shooting apparatus and shooting method, and program
JP2011113570A (ja) * 2009-11-27 2011-06-09 Ricoh Co Ltd 音声検索装置と音声検索方法
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2012133371A (ja) * 2012-01-04 2012-07-12 Intel Corp 高速音声検索の方法および装置
JP2016018229A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
JP2020190693A (ja) * 2019-05-23 2020-11-26 富士通株式会社 声優評価プログラム、声優評価方法及び声優評価システム

Similar Documents

Publication Publication Date Title
US5703655A (en) Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process
US8086168B2 (en) Device and method for monitoring, rating and/or tuning to an audio content channel
US20030023442A1 (en) Text-to-speech synthesis system
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
US10133780B2 (en) Methods, systems, and computer program products for determining availability of presentable content
US20090234854A1 (en) Search system and search method for speech database
CN101778233A (zh) 数据处理装置、数据处理方法及程序
JP2004309795A (ja) 音楽提供システム
JPH11282857A (ja) 音声検索装置および記録媒体
JP2007012013A (ja) 映像データ管理装置及び方法及びプログラム
KR20030059503A (ko) 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
US20040064306A1 (en) Voice activated music playback system
JP4734048B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
CN101009613A (zh) 用于处理信息的系统、装置、方法、记录介质和计算机程序
US20040193649A1 (en) Method and apparatus for searching recommended music in the internet, and a computer-readable medium encoded with a plurality of processor-executable instruction sequences for searching recommended music in the internet
JP2006526207A (ja) メディアオブジェクト検索方法
JP2001028010A (ja) マルチメディアコンテンツ自動抽出システム及びその方法
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
KR100849848B1 (ko) 음성 출력 장치 및 방법
JP2001075992A (ja) 音響検索方法及び装置、並びに、コンピュータ読みとり可能な記録媒体
JP5105109B2 (ja) 検索装置及び検索システム
JP2010086273A (ja) 楽曲検索装置、楽曲検索方法、および楽曲検索プログラム
US8131236B2 (en) Method of selecting audio contents received from an audio or audio-visual receiver and receiver selecting the contents in accordance with the method
JP4166616B2 (ja) 嗜好情報利用型データ検索装置
JP2002341880A (ja) 音楽データ配信システム