JP5142769B2

JP5142769B2 - 音声データ検索システム及び音声データの検索方法

Info

Publication number: JP5142769B2
Application number: JP2008060778A
Authority: JP
Inventors: 直之神田; 貴志住吉; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-03-11
Filing date: 2008-03-11
Publication date: 2013-02-13
Anticipated expiration: 2028-03-11
Also published as: CN101533401B; CN101533401A; JP2009216986A; US20090234854A1

Description

本発明は、ＴＶ番組やカメラ映像に付随する音声データや、コールセンタや会議録などで収録された音声データの中から、ユーザが検索キーワードに基づいて所望の音声が発話された区間を検出する音声検索装置およびそのインタフェースに関するものである。

近年のストレージデバイスの大容量化に伴い、大量の音声データが蓄積されるようになってきている。従来の多くの音声データベースでは、音声データを管理するために音声が録音された時刻の情報を付与し、その情報を元に所望の音声データを検索することが行われてきた。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻を予め知っている必要があり、特定の発話がなされた音声を検索するような用途には不向きであった。特定の発話がなされた音声を検索する場合、音声を始めから終わりまで聴取する必要があった。

そのため、音声データベース中の特定のキーワードが発話された位置を検出する技術が必要とされる。例えば、キーワードの音響的特徴を表す音響特徴ベクトルと、音声データベースの音響特徴ベクトルを時間伸縮を考慮したアラインメントをとることにより、音声データベース中でキーワードが発話された位置を検出する技術が知られている（特許文献１等）。

また、利用者が発声した音声を直接、キーワードとして検索に用いずに、キーワード候補格納部に格納されている音声パターンをキーワードとして音声データの検索を行う技術も知られている（例えば、特許文献２）。

その他の公知な方法として、音声データを音声認識装置によって単語ラティス表現に変換し、生成された単語ラティス上でキーワードを検索することにより、キーワードが音声データベース上で発話された位置を検索するシステムも実現されている。

このようにキーワードが発話された位置を検出する音声検索システムにおいては、ユーザは所望の音声区間で発話されそうな単語を検索キーワードとしてシステムに入力する。例えば、「イチローがインタビューを受けている時の音声を探したい」という要求を持っているユーザは、検索キーとして「イチローインタビュー」といった入力を行い、音声検索を行うことによって音声区間を検出する。
特開昭５５−２２０５号特開２００１−２９０４９６号

しかし、上記従来例のようにキーワードが発話された位置を検出する音声検索システムにおいては、ユーザが検索キーとして入力したキーワードが、必ずしもユーザの所望の音声区間で発話されるとは限らない。上記の例では、「イチローがインタビューを受けている」時の音声で、一度も「インタビュー」という発声がなされないという場合が考えられる。このような場合、ユーザが「イチローインタビュー」という検索キーワードを入力しても、「イチロー」「インタビュー」という発話がなされた区間を検出するシステムでは、ユーザは所望の「イチローがインタビューを受けている」音声区間を得ることができない。

従来このような場合にはユーザが、所望の音声区間で発話されそうなキーワードを試行錯誤的に入力して検索するしかなく、所望の音声区間を検索するまでの労力が大きいという問題があった。前記の例では、ユーザは「イチローがインタビューを受けている」ときに発話されそうな単語（例えば「放送席放送席」、「お疲れ様でした」など）を試行錯誤的に入力して検索するしかなかった。

そこで本発明は、上記問題点に鑑みてなされたもので、入力された検索キーワードに対応する音響情報特徴量をユーザに提示することで、ユーザが音声データを検索する際のキー入力の労力を低減することを目的とする。

本発明は、音声データを格納する音声データベースと、前記音声データの検索を行う以前に、前記音声データから検索用の検索データを生成する検索データ生成部と、予め設定した条件に基づいて前記検索データを検索する検索部と、を備え、前記音声データベースは、複数の前記音声データを含み、個々の前記音声データに付属する情報を含むメタデータが付加され、前記検索データ生成部は、前記音声データから発話毎の音響情報特徴量を抽出する音響情報特徴量抽出部と、前記抽出された音響情報特徴量に対してクラスタリングを行い、前記クラスタリングで得られた音響情報特徴量のクラスタ内で、特定の単語を含むメタデータが付与された音声データから抽出された音響情報特徴量のみで構成されたクラスタを抽出することにより、当該クラスタリングした音響情報特徴量と、前記メタデータに含まれる単語との対応関係を前記検索データとして生成する対応関係生成部と、前記生成した対応関係を格納する対応関係格納部と、を有する。

また、前記検索部は、前記音声データベースを検索するための検索キーを前記条件として入力する検索キー入力部と、前記検索キーが前記音声データ中で発話された位置を検出する音声データ検索部と、前記検索キーに対応する音響情報特徴量を前記検索データから検索する単語・音響情報特徴量検索部と、前記音声データ検索部の検索結果と、前記単語・音響情報特徴量検索部の検索結果を出力する提示部とを備える。

したがって、本発明は、検索キーが入力された際に、当該検索キーに対応する音響情報特徴量をユーザに提示することで、ユーザが音声データを検索する際のキー入力の労力を低減することができる。

以下、本発明の一実施形態を添付図面に基づいて説明する。

図１は、第１の実施形態を示し、本発明を適用する計算機システムの構成を示すブロック図である。

本実施形態の計算機システムは、テレビ（ＴＶ）番組の映像及び音声データを記録し、音声データからユーザが指定した検索キーワードを含む音声区間を検索する音声検索システムを構成する例を示す。図１において、計算機システムは、プログラムやデータを格納するメモリ３と、メモリ３に格納されたプログラムを実行して演算処理を行うプロセッサ（ＣＰＵ）２と、を備えた計算機１を備える。計算機１には、ＴＶ放送を受信するＴＶチューナ７と、受信したＴＶ放送の音声データと付属データを記録する音声データ蓄積装置６と、検索キーワードや指令などを入力するキーボード４と、検索キーワードや検索結果を表示する表示装置５が接続される。メモリ３には、キーボード４から検索キーワードを受け付けて、音声データ蓄積装置６に記憶された音声データから検索キーワードの音声区間を検索する音声検索アプリケーション１０がロードされ、プロセッサ２によって実行される。なお、音声検索アプリケーション１０は、後述するように音響情報特徴量抽出部１０３と、音響情報特徴量提示部１１１を含む。

音声データ蓄積装置６は、ＴＶチューナ７が受信したＴＶ番組の音声データを格納する音声データベース１００を備え、音声データベース１００は後述するように、ＴＶ放送に含まれる音声データ１０１と、ＴＶ放送に含まれる付属データをメタデータ単語列１０２として格納する。また、音声データ蓄積装置６は、後述するように、音声検索アプリケーション１０が生成した音声データ１０１の音響特徴量とメタデータ単語列１０２の対応関係を示す単語・音響情報特徴量対応関係を格納する単語・音響情報特徴量対応保管部１０６を備える。

なお、ＴＶチューナ７が受信したＴＶ番組の音声データ１０１は、計算機１の図示しないアプリケーションが音声データ１０１及びメタデータ単語列１０２をＴＶ放送から抽出して音声データ蓄積装置６の音声データベース１００に書き込むことで行われる。

計算機１で実行される音声検索アプリケーション１０は、キーボード４によってユーザが検索キーワードを指定することにより音声データ蓄積装置６に記憶されたＴＶ番組中の音声データ１０１で、検索キーワードが発話された位置（音声区間）を検出し、表示装置５によって検索結果をユーザに提示する。なお、本実施形態では、ＴＶ放送の付属データとしては、例えば、番組の内容を示すテキストデータを含むＥＰＧ（Electronic Program Guide）情報を用いる。

音声検索アプリケーション１０は、音声データ蓄積装置６にメタデータ単語列１０２として蓄積されたＥＰＧ情報から検索キーワードを抽出し、この検索キーワードに対応する音響情報特徴量を音声データ１０１から抽出し、音声データ１０１の音響特徴量とメタデータ単語列１０２の対応関係を示す単語・音響情報特徴量対応関係を生成して単語・音響情報特徴量対応保管部１０６に格納する。そして、音声検索アプリケーション１０は、キーボード４からキーワードを受け付けると、単語・音響情報特徴量対応保管部１０６の検索キーワードから該当する検索キーワードを提示し、適切にユーザの検索要求を誘導する。なお、以下の例ではメタデータとしてＥＰＧ情報を利用しているが、より詳細なメタデータ情報が番組に付随している場合、この詳細なメタデータ情報を利用することも可能である。

本実施形態で扱う音声データベース１００は複数のＴＶ番組から抽出された音声データ１０１から成り、それぞれの音声データ１０１には当該音声データを抽出したＴＶ番組に付随するＥＰＧ情報がメタデータ単語列１０２として付属している。

ＥＰＧ情報２０１は図３のように、複数のキーワードや字幕情報等の文章からなっている。これらの文字列は、音声検索アプリケーション１０で形態素解析処理を用いて単語列に変換しておく。この結果、「激論」２０２、「参院選」２０３、「インタビュー」２０４などがメタデータ単語列として抽出される。音声検索アプリケーション１０で行われる形態素解析処理は、公知または周知の手法を用いればよいので、ここでは詳細について省略する。

次に、図２は音声検索アプリケーション１０の機能要素を示すブロック図である。音声検索アプリケーション１０は、所定のタイミング（例えば、録音が完了した時点など）で、音声データ１０１とメタデータ単語列１０２から単語・音響情報特徴量対応関係を生成して音声データ蓄積装置６の単語・音響情報特徴量対応保管部１０６に格納する。

音声検索アプリケーション１０は、単語・音響情報特徴量対応関係を生成するブロック（１０３〜１０６）と、単語・音響情報特徴量対応関係を用いて音声データ１０１の検索を行うブロック（１０７〜１１１）に大別される。

単語・音響情報特徴量対応関係を生成するブロックは、音声データ１０１を発話単位に分割して、各発話の音響特徴量を抽出する音響情報特徴量抽出部１０３と、発話単位の音響情報特徴量を格納する発話・音響情報特徴量保管部１０４と、発話毎の音響情報特徴量とＥＰＧ情報のメタデータ単語列１０２との関係を抽出する単語・音響情報特徴量対応部１０５と、抽出されたメタデータ単語列１０２と音響情報特徴量を格納する単語・音響情報特徴量対応保管部１０６とを含む。

検索を行うブロックは、キーボード４からユーザが入力した検索キーワード（または音声検索要求）を受け付けるインターフェースを提供するキーワード入力部１０７と、ユーザが入力したキーワードが音声データ１０１上で発声された位置の検出を行う音声検索部１０８と、キーワードが音声データ１０１上で発声された位置が検出された場合には当該位置を表示装置５へ出力する音声検索結果提示部１０９と、キーワードが音声データ１０１上で発声された位置が検出されなかった場合には、単語・音響情報特徴量対応保管部１０６からキーワードに対応するメタデータ単語列１０２と音響情報特徴量を検索する単語・音響情報特徴量検索部１１０と、キーワードに該当するメタデータ単語列１０２と音響情報特徴量を表示装置５へ出力する音響情報特徴量提示部１１１とを含む。

以下に、音声検索アプリケーション１０の各部について説明する。

まず、音声データ１０１を発話単位に分割して、各発話の音響情報特徴量を抽出する音響情報特徴量抽出部１０３は、図４で示すように構成される。

音響情報特徴量抽出部１０３では、音声分割部３０１が、指定された音声データ１０１を音声データベース１００から読み込んで発話ごとに分割する。音声データ１０１を発話単位に分割する処理は、音声のパワーが一定時間中に一定値以下であったときに発話が終了したとみなすことにより実現できる。

次に、音響情報特徴量抽出部１０３は、各発話ごとに音響情報特徴量として、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のいずれか、もしくはその組み合わせを抽出し、発話・音響情報特徴量保管部１０４へ保存する。それぞれの情報を得るための手段と特徴量の形式を以下に述べる。

音声認識結果情報は、音声認識器３０２によって音声データ１０１を単語列に変換することにより得られる。音声認識は音声データ１０１の音声波形をＸとし、メタデータ単語列１０２の単語列をＷとしたときに以下の式で表される事後確率最大化探索問題に帰着される。

上記の式は、大量の学習データから学習された音響モデルと言語モデルに基づき探索される。なお、これらの音声認識の手法については、公知または周知の技術を適宜用いればよいので、ここでは説明を省略する。

音声認識器３０２によって得られた単語列の各単語の存在頻度を音響情報特徴量（音声認識結果情報）として利用する。なお、音声認識器３０２で得られた単語列に付随して、発話全体の音声認識スコアや、各単語ごとの信頼度などを抽出し、利用してもよい。さらに「放送席放送席」といった複数単語の組み合わせも音響情報特徴量として利用可能である。

音響的話者特徴情報は、話者情報特徴量抽出部３０３によって得られる。話者情報特徴量抽出部３０３は予め複数（Ｎ人）の話者の音声を収録しておき、これらの音声を混合ガウス分布モデルＧＭＭ（Gaussian Mixuture Model）によってモデル化する。話者情報特徴量抽出部３０３は、発話Ｘが入力されると、それぞれの混合ガウス分布モデルＧＭＭ_i（ｉ＝１，………，Ｎ）ごとに、各混合ガウス分布モデルＧＭＭ_iから発話が生成される確率Ｐ（Ｘ｜ＧＭＭ_i）を求め、Ｎ次元の特徴量を得る。これを当該発話の音響的話者特徴情報として話者情報特徴量抽出部３０３は出力する。

発話長情報は、発話長抽出部３０４により、各発話ごとにその発話が継続している時間を計測することで得られる。また、ある値より短い発話を「短い」、ある値より長い発話を「長い」、それ以外の発話を「通常」と分類し、３値の特徴量とすることもできる。

韻律特徴量情報は、韻律情報抽出部３０６により、当該発話の基本周波数成分を抽出した後、基本周波数成分が発話の語尾で上昇しているか、下降しているか、平坦であるか、の３値に分類して特徴量とすることにより得られる。基本周波数成分の抽出処理は、公知または周知の手法を適用すればよいので、詳細については省略する。また、当該発話の韻律特徴を離散的なパラメータで表現することも可能である。

話者交代情報は、話者交代情報抽出部３０７により得られる。話者交代情報は当該発話の前の発話が同一人物であるかどうかを表現する特徴量であり、詳細には音響的話者特徴情報を表すＮ次元特徴量が、当該発話とその前の発話で所定の閾値以上離れていれば異なる人物、そうでなければ同一人物と判定することにより得られる。また、当該発話と後ろの発話が同一人物であるかどうかも、上記と同様の手法により得ることができ特徴量として利用できる。さらに、当該発話前後一定区間内に何人の話者が存在するかといった情報も特徴量として利用することができる。

発話音量情報は、発話音量抽出部３０５によって、当該発話の最大パワーが、当該音声データ１０１に含まれる発話の最大パワーの平均との比により表される。もちろん当該発話の平均パワーと当該音声データ中の発話の平均パワーを比べるなどしてもよい。

背景音情報は背景音抽出部３０９により得られる。背景音としては、拍手音、歓声、音楽、無音、などが当該発話に発生しているかといった情報や、当該発話の前時刻、後時刻で発生しているかといった情報を利用する。ここで拍手音、歓声、音楽、無音などの存在を判定するためには、まずそれぞれの音を用意し、混合ガウス分布モデルＧＭＭ等でモデル化する。音声が入力されると、それぞれの混合ガウス分布モデルＧＭＭから前記音声が生成される確率Ｐ（Ｘ｜ＧＭＭ_i）を求め、この値が一定値を超えた場合に、背景音抽出部３０９は当該背景音が存在すると判定する。背景音抽出部３０９は、拍手音、歓声、音楽、無音それぞれについて存在／非存在の情報を背景音情報を表す特徴量として出力する。

音響情報特徴量抽出部１０３において、上記処理を施すことにより、音声データベース１００内の音声データ１０１に対して、発話とその発話を表現する音響情報特徴量の組を得る。音響情報特徴量抽出部１０３で得られた特徴量は図７で示すようになる。図７において、音響情報特徴量の種類と抽出された特徴量４０１が対になって、発話・音響情報特徴量保管部１０４に格納される。なお、上記で記述しなかった音響情報特徴量を利用することも、もちろん可能である。

次に、図２に示した単語・音響情報特徴量対応部１０５が、前記音響情報特徴量抽出部１０３で得られた音響情報特徴量とＥＰＧ情報を抽出したメタデータ単語列１０２中の単語との対応を抽出する。

以下の説明ではメタデータ単語列１０２の一例として、ＥＰＧ情報中で単語・音響情報特徴量対応部１０５が任意に選んだ単語に注目し（以下、「注目単語」と呼ぶ）、注目単語と音響情報特徴量との対応を抽出する。なお本実施形態では注目単語としてＥＰＧ情報中のひとつの単語を選択しているが、これはＥＰＧ情報中の単語の組であっても構わない。

単語・音響情報特徴量対応部１０５では、まず上記音響情報特徴量抽出部１０３で得られた発話ごとの音響情報特徴量を発話単位でクラスタリングする。クラスタリングは階層的クラスタリング手法を用いて行うことができる。単語・音響情報特徴量対応部１０５で行われるクラスタリングの処理手順の一例を下記に示す。

（ｉ）すべての発話をひとつのクラスタとし、その発話から得られる音響情報特徴量をその発話を代表する音響情報特徴量とする。

（ii）各クラスタの音響情報特徴量のベクトル間の距離を求め、これらのベクトル中で最も距離の短いクラスタをマージする。ここでクラスタ間の距離は、クラスタを代表する音響情報特徴量集合間のコサイン距離などを用いることができる。また全ての特徴量が数値化されていればマハラノビス距離などを用いることもできる。マージ前の２つのクラスタに共通する音響情報特徴量を、マージ後のクラスタを代表する音響情報特徴量とする。

（iii）上記（ii）を繰り返し、各クラスタ間の距離の全てが一定値（所定値）以上になった時点でマージを終了する。

次に、単語・音響情報特徴量対応部１０５は、上記の操作により得られたクラスタのうち、“ＥＰＧ情報中に注目単語を含む音声発話”のみから構成されるクラスタを抽出する。単語・音響情報特徴量対応部１０５は、注目単語と抽出したクラスタを代表する音響情報特徴量集合を対応づけた情報を単語・音響情報特徴量対応関係として生成し、単語・音響情報特徴量対応保管部１０６に記憶する。単語・音響情報特徴量対応部１０５は、対象となる音声データ１０１のメタデータ単語列１０２（ＥＰＧ情報）の全ての単語に対して、それぞれを注目単語として上記の処理を行い、単語・音響情報特徴量対応関係を生成する。このとき、単語・音響情報特徴量対応保管部１０６では図８のように単語・音響情報特徴量対応関係のデータが保存される。図８において、単語・音響情報特徴量対応関係５０１は、メタデータ単語列１０２の単語に対応する音響情報特徴量を格納したもので、音響情報特徴量は上述のように、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報の何れかを含む。

なお、上記では、対象となる音声データ１０１のメタデータ単語列１０２の全ての単語に対して上記処理を行う例を示したが、メタデータ単語列１０２の単語の一部について上記処理を行うようにしても良い。

以上の処理によって、音声検索アプリケーション１０は、音声データベース１００の音声データ１０１から抽出した発話毎の音響情報特徴量と、メタデータ単語列１０２のＥＰＧ情報に含まれる単語の対応関係が単語・音響情報特徴量対応関係５０１として生成され、単語・音響情報特徴量対応保管部１０６に格納する。音声検索アプリケーション１０は、上記処理を、音声検索システムを利用する前処理として行う。

図５は、上記音声検索アプリケーション１０が実行する単語・音響情報特徴量対応関係の生成処理の手順の一例を示すＰＡＤ（Problem Analysis Diagram）である。この処理は、所定のタイミング（音声データの録音完了またはユーザの指令）になると実行される。

まず、ステップＳ１０３では、音響情報特徴量抽出部１０３が、図４に示した音声分割部３０１によって指定された音声データ１０１を音声データベース１００から読み込んで発話ごとに分割して、各発話ごとに音響情報特徴量として、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のいずれか、もしくはその組み合わせを抽出する。次に、ステップＳ１０４で、音響情報特徴量抽出部１０３は、抽出した発話毎の音響情報特徴量を発話・音響情報特徴量保管部１０４へ保存する。

次に、ステップＳ１０５では、上記図２に示した単語・音響情報特徴量対応部１０５が、発話・音響情報特徴量保管部１０４に格納された発話毎の音響情報特徴量と、ＥＰＧ情報を抽出したメタデータ単語列１０２中の単語との対応関係を抽出する。このステップＳ１０５の処理は、上記単語・音響情報特徴量対応部１０５で述べた処理であり、発話ごとの音響情報特徴量を発話単位で階層的にクラスタリングを行う処理（ステップＳ３１０）と、上述したメタデータ単語列１０２中の注目単語と、クラスタを代表する音響情報特徴量集合を対応づけた情報を単語・音響情報特徴量対応関係として生成する処理（ステップＳ３１１）とから構成される。そして、音声検索アプリケーション１０は、生成した単語・音響情報特徴量対応関係を単語・音響情報特徴量対応保管部１０６へ格納する。

以上の処理により、音声検索アプリケーション１０は、検索する単語情報と、音響情報特徴量の関連付けを音声データ１０１毎に行う。

以下の説明では、ユーザが検索キーワードを入力した際の音声検索アプリケーション１０の処理について述べる。

ユーザがキーボード４から入力したキーワードと検索対象の音声データ１０１をキーワード入力部１０７が受け付けて、次のように処理を進める。なお、ここでのキーワード入力部１０７としては、キーボード４から入力されたテキストデータの他に、音声認識器を利用してもよい。

まず、音声検索部１０８は、キーワード入力部１０７からユーザが入力したキーワードと音声データ１０１を取得して、音声データベース１００から指定された音声データ１０１を読み込む。そして、音声検索部１０８は、ユーザのキーワードが、音声データ１０１上で発声された位置（発話位置）の検出を行う。キーワード入力部１０７に複数のキーワードが入力された場合、音声検索部１０８はこれらのキーワードが時間軸上で予め規定しておいた時間範囲よりも近い時刻に発せられた区間を発話位置として検出する。キーワードの発話位置の検出は、例えば上記特許文献１などに記載の公知または周知の方法を用いて行うことができる。

また、発話・音響特情報特徴量保管部１０４には音声認識情報特徴量として発話ごとに音声認識した結果の単語が含まれており、音声検索部１０８は、この音声認識結果とキーワードが合致する発話を、検索結果としてもよい。

音声検索部１０８は、ユーザが入力したキーワードが発声された位置が音声データ１０１から検出された場合、当該位置を音声検索結果提示部１０９により表示装置５へ発話位置を出力してユーザに提示する。音声検索結果提示部１０９が表示装置５に出力する内容は、図９のように、ユーザが入力したキーワード「イチローインタビュー」と、検索した発話位置を表示する。この例では、発話位置を含む音声区間の音声認識情報特徴量である音声認識で表示を行った場合を示す。

一方、音声検索部１０８は、ユーザから指定されたキーワードを発声した位置を音声データ１０１上で検出できなかった場合は、単語・音響情報特徴量検索部１１０がそれぞれのキーワードごとに、単語・音響情報特徴量対応保管部１０６を検索し、ユーザが入力したキーワードが単語・音響情報特徴量対応関係に登録されていれば抽出する。

ここで、単語・音響情報特徴量検索部１１０はユーザ指定されたキーワードに対応する音響情報特徴量（音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報）を単語・音響情報特徴量対応保管部１０６から検出した場合、音響情報特徴量提示部１１１は、検出された音響情報特徴量を、推薦する検索キーワードとしてユーザに提示する。例えば、「インタビュー」という単語に対して、音響情報特徴量として「放送席放送席」や「お疲れ様でした」という単語対が含まれていた場合、当該単語対を、音響情報特徴量提示部１１１は、表示装置５へ図１０で示すようにユーザに提示する。

なお、キーワードに対応する音響情報特徴量を提示する際には、それぞれの音響情報特徴量を元に音声データの検索を行い、音声データベース１００に存在する確率の高い音響情報特徴量を優先的にユーザに提示するとなおよい。

ユーザは音響情報特徴量提示部１１１によって表示装置５に提示された情報を元に検索キーワードを追加することができ、効率よく音声データの検索を行うことができる。

音響情報特徴量提示部１１１は、ユーザがそれぞれの音響情報特徴量を容易に指定できるインタフェースを持ち、ユーザがある音響情報特徴量を指定すると、その音響情報特徴量を検索要求に含めることができるとより良い。

また音響情報特徴量提示部１１１は、ユーザの検索要求に見合う音声データ１０１が抽出されたような場合であっても、ユーザの検索キーワードに対応する音響情報特徴量を提示してもよい。

また、図８に示したような単語と音響情報特徴量の組を編集する単語・音響情報特徴量編集部を音声検索アプリケーション１０に備えれば、ユーザが自身でよく検索する単語と音響情報特徴量の組を登録することなどができ、操作性を向上させることができる。

図６は、音声検索アプリケーション１０が実行する上記キーワード入力部１０７〜音響情報特徴量提示部１１１の処理手順の一例を示すＰＡＤ（構造化フローチャート）である。

まず、ステップＳ１０７では、音声検索アプリケーション１０がキーボード４から入力したキーワードと検索対象の音声データ１０１を受け付ける。

次に、ステップＳ１０８で音声検索アプリケーション１０は、上述した音声検索部１０８によって、ユーザが入力したキーワードについて、音声データ１０１上で発声された位置（発話位置）の検出を行う。

ユーザが入力したキーワードが発声された位置が音声データ１０１から検出された場合、音声検索アプリケーション１０は、ステップＳ１０９で、当該位置を音声検索結果提示部１０９により表示装置５へ発話位置を出力してユーザに提示する。

一方、ステップＳ１１０では、音声検索アプリケーション１０は、ユーザから指定されたキーワードを発声した位置を音声データ１０１上で検出できなかった場合、上述の単語・音響情報特徴量検索部１１０がそれぞれのキーワードごとに、単語・音響情報特徴量対応保管部１０６を検索し、ユーザが入力したキーワードが単語・音響情報特徴量対応関係に登録されていないか走査する。

音声検索アプリケーション１０が、単語・音響情報特徴量検索部１１０によってユーザに指定されたキーワードに対応する音響情報特徴量（音声認識結果）を単語・音響情報特徴量対応保管部１０６から検出した場合には、ステップＳ１１１へ進み、上述の音響情報特徴量提示部１１１で検出された音響情報特徴量を推薦する検索キーワードとしてユーザに提示する。

以上の処理により、ユーザが入力した検索キーワードに対して、メタデータ単語列１０２のＥＰＧ情報に含まれる単語が、お勧めキーワードとしてユーザに提示することができる。

このように、本発明では、メタデータ単語列１０２が付与された複数の音声データ１０１を音声データベース１００に格納し、音声データ１０１を表現する音響情報特徴量として音声認識結果情報、音響的話者特徴情報、発話長情報、韻律特徴情報、話者交代情報、発話音量情報、背景音情報などを検索アプリケーション１０が抽出する。そして、検索アプリケーション１０は、得られた音響情報特徴量のサブ集合のうちで、特定の単語をメタデータ単語列１０２に含む音声データ１０１のみから抽出され、それ以外の音声データ１０１からは抽出されないような音響情報特徴量の集合を抽出する。当該特定の単語と上記で抽出した音響情報特徴量の集合を単語・音響情報特徴量対応関係として対応づけて保管しておく。上記の特定の単語に対する音響情報特徴量の集合の抽出をメタデータ中の全ての単語に対して行い、これらの単語と音響情報特徴量の集合の組み合わせを単語・音響情報特徴量対応関係として求めて、単語・音響情報特徴量対応保管部１０６に格納しておく。ユーザが入力した検索キーワードの中に単語・音響情報特徴量対応関係で求めた単語と合致するものがあった場合に、その単語に対応した音響情報特徴量の集合をユーザに提示する。

これにより、検索キーキーワードが発話された位置を検出する音声検索システムにおいては、ユーザが検索キーとして入力したキーワードが、必ずしもユーザの所望の音声区間で発話されるとは限らないが、本発明を用いることで、検索キーワードを試行錯誤して入力する必要なく、表示装置５に提示された単語に対応した音響情報特徴量の集合を利用することで、音声データの検索に要する労力を大幅に低減することが可能となる。

＜第２実施形態＞
前記実施形態１では、検索キーとしてキーワードを入力し、音響情報特徴量提示部１１１では、表示装置５へ音声認識結果情報特徴量の提示を行った。これに対し、第２の実施形態では、検索キーとして、キーワードに加えて、音響的話者特徴情報、発話長、韻律特徴量、話者交代情報、発話音量情報、背景音情報のいずれかを入力し、これらの検索キーで音響情報特徴量の検索を行う音声検索システムを示す。

本実施形態の音声検索システムは、図１１に示すように、前記第１実施形態の図１に示したＴＶチューナ７に代わって、ネットワーク８を介して計算機１に接続されたサーバ９から音声データ１０１を取得する例を示す。計算機１は、ユーザの指示に基づいて音声データ１０１をサーバ９から取得して、音声データ蓄積装置６に格納する。

本実施形態では、音声データ１０１として会議録音声を用いる。会議録音声には図１２のように、それぞれファイル名７０２と出席者名７０３と音声ＩＤ７０１が付与されている。この音声データ１０１に対して形態素解析処理を行うことにより、「製品Ａ」７０２や、「山田太郎」７０３といった単語を抽出することができる。以下では、形態素解析処理によって音声データ１０１から抽出した単語をメタデータ単語列１０２として利用する例を示す。なお、会議録音声収録時にファイル名もしくは出席者名を発声しておき、当該発話を前期第1実施形態に示した音声認識処理によって単語列に変換することでファイル名７０２と出席者名703を抽出し、上記と同様の処理でメタデータ単語列102を抽出することも可能である。

音響情報特徴量抽出部１０３は、ユーザが検索キー情報を入力する前に前記第１実施形態と同様に、音声データ１０１から各発話ごとに音響情報特徴量として、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のいずれか、もしくはその組み合わせを抽出する。さらに、単語・音響情報特徴量対応部１０５が、前記音響情報特徴量抽出部１０３で得られた音響情報特徴量とメタデータ単語列１０２中の単語との対応を抽出し、単語・音響情報特徴量対応保管部１０６へ保管する。これらの詳細は前記第１実施形態に示した通りであるので、重複した説明は省略する。

この結果、図１３に示すような、メタデータ単語列１０２中の単語と音響情報特徴量との対応関係が得られ、単語・音響特徴量対応保管部１０６に保管される。

本実施形態では、単語・音響情報特徴量対応関係に加えて上記の発話と音響情報特徴量の組を発話・音響情報特徴量保管部１０４に保管する。

ここまではユーザが検索キーを入力する以前に終わらせる処理である。以下、ユーザが検索キーを入力した際の音声検索アプリケーション１０の処理を述べる。

ユーザは検索キーとして、キーワードに加えて、音響的話者特徴情報、発話長、韻律特徴量、話者交代情報、発話音量情報、背景音情報のいずれかを入力することができる。このため、例えばキーワード入力部１０７は図１４のようなインタフェースを備えている。

ユーザが図１４で示すユーザインターフェースから検索キーを入力すると、音声検索アプリケーション１０は音声検索部１０８で当該検索キーに最も適合する音声区間を検出する。このためには、発話・音響情報特徴量保管部１０４の中で、検索キーと保管しておいた音響情報量が適合する発話を探索すればよい。

検索キーに適合する発話が検出されれば、音声検索アプリケーション１０は当該発話を検索結果として図１５で示すような出力を表示装置５からユーザに提示する。

一方、音声検索アプリケーション１０は検索キーに適合する発話が検出されなかった場合で、当該検索キーに単語が含まれていた場合、単語・音響情報特徴量対応保管部１０６を検索し、当該検索キー中の単語に対応する音響情報特徴量を検索する。入力された検索キーに適合する音響情報特徴量が検索された場合、その音響情報特徴量を図１６で示すように表示装置５へ出力することでユーザへ提示する。

このように、ユーザは音声検索システムが表示装置５へ提示した図１６で示すような音響情報特徴量を指定することで、所望の音声区間を検索することが可能となって、前記従来例のように検索キーを試行錯誤的に入力する手間を省くことができる。

以上のように、本発明によれば、音声データを検索する音声検索システムに適用することができ、さらにコンテンツの録画装置や、会議システム等の音声データを利用する装置に適用することができる。

第１の実施形態を示し、本発明を適用する計算機システムのブロック図である。第１の実施形態を示し、音声検索アプリケーション１０の機能要素を示すブロック図である。ＥＰＧ情報の一例を示す説明図である。第１の実施形態を示し、音響情報特徴量抽出部の機能要素の詳細を示すブロック図である。第１の実施形態を示し、音声検索アプリケーションで実行される単語・音響情報特徴量対応関係の生成処理の一例を示す構造化フローチャート。第１の実施形態を示し、音声検索アプリケーションで実行される検索処理の一例を示す構造化フローチャート。第１の実施形態を示し、音響情報特徴量の種類と、特徴量の一例を示す説明図である。第１の実施形態を示し、生成された単語・音響情報特徴量対応関係の一例を示す説明図で、単語と音響情報特徴量の対応関係を示す。第１の実施形態を示し、キーワードに対する検索結果を示す画面イメージ。第１の実施形態を示し、キーワードに対する検索結果がないときのおすすめキーワードを示す画面イメージ。第２の実施形態を示し、本発明を適用する計算機システムのブロック図である。第２の実施形態を示し、音声データに関する情報の一例を示す説明図である。第２の実施形態を示し、メタデータ単語列中の単語と音響情報特徴量との対応関係を示す説明図である。第２の実施形態を示し、キーワード入力部が提供するユーザーインターフェースの一例を示す画面イメージである。第２の実施形態を示し、検索キーに対する検索結果を示す画面イメージ。第１の実施形態を示し、検索キーに対する検索結果がないときのおすすめキーを示す画面イメージ。

符号の説明

１計算機
６音声データ蓄積装置
１０音声検索アプリケーション
１００音声データベース
１０１音声データ
１０２メタデータ単語列
１０３音響情報特徴量抽出部
１０６単語・音響情報特徴量対応保管部
１１０単語・音響情報特徴量検索部
１１１音響情報特徴量提示部

Claims

音声データを格納する音声データベースと、
前記音声データの検索を行う以前に、前記音声データから検索用の検索データを生成する検索データ生成部と、
予め設定した条件に基づいて前記検索データを検索する検索部と、を備え、
前記音声データベースは、
複数の前記音声データを含み、個々の前記音声データに付属する情報を含むメタデータが付加され、
前記検索データ生成部は、
前記音声データから発話毎の音響情報特徴量を抽出する音響情報特徴量抽出部と、
前記抽出された音響情報特徴量に対してクラスタリングを行い、前記クラスタリングで得られた音響情報特徴量のクラスタ内で、特定の単語を含むメタデータが付与された音声データから抽出された音響情報特徴量のみで構成されたクラスタを抽出することにより、当該クラスタリングした音響情報特徴量と、前記メタデータに含まれる単語との対応関係を前記検索データとして生成する対応関係生成部と、
前記生成した対応関係を格納する対応関係格納部と、
を有することを特徴とする音声データ検索システム。
前記検索部は、
前記音声データベースを検索するための検索キーを前記条件として入力する検索キー入力部と、
前記検索キーが前記音声データ中で発話された位置を検出する音声データ検索部と、
前記検索キーに対応する音響情報特徴量を前記検索データから検索する単語・音響情報特徴量検索部と、
前記音声データ検索部の検索結果と、前記単語・音響情報特徴量検索部の検索結果を出力する提示部とを備えたことを特徴とする請求項１に記載の音声データ検索システム。
前記音響情報特徴量抽出部は、
前記音声データを発話毎に分割する音声分割部と、
前記音声データについて前記発話毎に音声認識を行い、音声認識結果情報として単語列を出力する音声認識部と、
予め設定した音声モデルと、前記音声データとを比較して、音声データに含まれる発話毎の話者の特徴量を音響的話者特徴情報として抽出する話者情報特徴量抽出部と、
前記音声データに含まれる発話の長さを発話長情報として抽出する発話長抽出部と、
前記音声データに含まれる発話毎の韻律を韻律情報として抽出する韻律情報抽出部と、
前記音声データ中の発話が同一人物であるか否かを示す特徴量として話者交代情報を前記音声データから抽出する話者交代情報抽出部と、
前記音声データに含まれる発話毎の音量を発話音量情報として抽出する発話音量抽出部と、
前記音声データに含まれる背景音を背景音情報として抽出する背景音抽出部と、を有し、
前記音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のうちの少なくとも一つを出力することを特徴とする請求項１に記載の音声データ検索システム。
前記提示部は、前記単語・音響情報特徴量検索部で検索された音響情報特徴量を出力する音響情報特徴量提示部を有することを特徴とする請求項２に記載の音声データ検索システム。
前記音響情報特徴量提示部は、
前記単語・音響情報特徴量検索部で検索された音響情報特徴量のうち前記音声データに存在する確率の高い音響情報特徴量を優先して出力する音響情報特徴量提示部を含むことを特徴とする請求項４に記載の音声データ検索システム。
検索対象とする音声データを指定する音声データ指定部を、さらに備え、
前記音響情報特徴量提示部は、
前記単語・音響情報特徴量検索部で検索された音響情報特徴量のうち検索対象として指定された音声データに存在する確率の高い音響情報特徴量を優先して出力することを特徴とする請求項５に記載の音声データ検索システム。
前記対応関係格納部は、
前記単語と音響情報特徴量の組を追加、削除、編集する単語・音響情報特徴量編集部を有することを特徴とする請求項１に記載の音声データ検索システム。
前記検索部は、
前記音声データベースを検索するための検索キーを入力する検索キー入力部を有し、
前記検索キー入力部は、
キーワードと、前記音響的話者特徴情報と、前記発話長情報と、前記韻律情報と、前記話者交代情報と、前記発話音量情報と、前記背景音情報のうちの少なくとも一つを受け付けることを特徴とする請求項３に記載の音声データ検索システム。
音声データベースに格納された音声データを、予め設定した条件で計算機が前記音声データの検索を行う音声データの検索方法であって、
前記音声データの検索を行う以前に、計算機が前記音声データから検索用の検索データを生成するステップと、
前記予め設定した条件に基づいて前記計算機が前記検索データを検索するステップと、を備え、
前記音声データベースは、
複数の前記音声データを含み、個々の前記音声データに付属する情報を含むメタデータが付加され、
前記音声データから検索用の検索データを生成するステップは、
前記音声データから発話毎の音響情報特徴量を抽出するステップと、
前記抽出された音響情報特徴量に対してクラスタリングを行い、前記クラスタリングで得られた音響情報特徴量のクラスタ内で、特定の単語を含むメタデータが付与された音声データから抽出された音響情報特徴量のみで構成されたクラスタを抽出することにより、当該クラスタリングした音響情報特徴量と、前記メタデータに含まれる単語との対応関係を前記検索データとして生成するステップと、
前記生成した対応関係を格納するステップと、
を含むことを特徴とする音声データの検索方法。
前記予め設定した条件に基づいて前記計算機が前記検索データを検索するステップは、
前記音声データベースを検索するための検索キーを前記条件として入力するステップと、
前記検索キーが前記音声データ中で発話された位置を検出するステップと、
前記検索キーに対応する音響情報特徴量を前記検索データから検索するステップと、
前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップと、
を備えたことを特徴とする請求項９に記載の音声データの検索方法。
前記音響情報特徴量を抽出するステップは、
前記音声データを発話毎に分割するステップと、
前記音声データについて前記発話毎に音声認識を行い、音声認識結果情報として単語列を出力するステップと、
予め設定した音声モデルと、前記音声データとを比較して、音声データに含まれる発話毎の話者の特徴量を音響的話者特徴情報として抽出するステップと、
前記音声データに含まれる発話の長さを発話長情報として抽出するステップと、
前記音声データに含まれる発話毎の韻律を韻律情報として抽出するステップと、
前記音声データ中の発話が同一人物であるか否かを示す特徴量として話者交代情報を前記音声データから抽出するステップと、
前記音声データに含まれる発話毎の音量を発話音量情報として抽出するステップと、
前記音声データに含まれる背景音を背景音情報として抽出するステップと、を含み、
前記音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のうちの少なくとも一つを出力することを特徴とする請求項９に記載の音声データの検索方法。
前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップは、
前記検索された音響情報特徴量を出力することを特徴とする請求項１０に記載の音声データの検索方法。
前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップは、
前記検索された音響情報特徴量のうち前記音声データに存在する確率の高い音響情報特徴量を優先して出力することを特徴とする請求項１２に記載の音声データの検索方法。
検索対象とする音声データを指定するステップを、さらに含み、
前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップは、
前記検索された音響情報特徴量のうち検索対象として指定された音声データに存在する確率の高い音響情報特徴量を優先して出力することを特徴とする請求項１３に記載の音声データの検索方法。
前記単語と音響情報特徴量の組を追加、削除、編集するステップをさらに含むことを特徴とする請求項９に記載の声データの検索方法。
前記予め設定した条件に基づいて前記計算機が前記検索データを検索するステップは、
前記音声データベースを検索するための検索キーを入力するステップを含み、
前記検索キーを入力するステップは、
キーワードと、前記音響的話者特徴情報と、前記発話長情報と、前記韻律情報と、前記話者交代情報と、前記発話音量情報と、前記背景音情報のうちの少なくとも一つを受け付けることを特徴とする請求項１１に記載の音声データの検索方法。