JP2016018229A

JP2016018229A - 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム

Info

Publication number: JP2016018229A
Application number: JP2014138333A
Authority: JP
Inventors: 隆伸大庭; Takanobu Oba; 記良鎌土; Noriyoshi Kamado
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2016-02-01
Anticipated expiration: 2034-07-04
Also published as: JP6208631B2

Abstract

【課題】話者ラベルが不要な話者指定型の音声ドキュメント検索技術を提供する。
【解決手段】音声ドキュメント記憶部１８に複数の話者による複数の音声ドキュメントが記憶される。話者特徴ベクトル空間類似度算出部１４は、検索対象とする話者の話者特徴ベクトルと音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する。単語ベクトル空間類似度算出部１５は、検索対象とするテキストの単語ベクトルと音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する。類似度合算部１６は、話者類似度とテキスト類似度を合算した話者テキスト類似度を算出する。検索結果出力部１７は、話者類似度が高い音声ドキュメントを出力する。
【選択図】図１

Description

この発明は、音声ファイルや音声アーカイブのような音声ドキュメントを検索する技術に関する。

近年、スマートフォンやICレコーダなど音声の収録が容易になり、大量の音声ドキュメントの蓄積が進んでいる。大量の音声ドキュメントの中から所望の音声ドキュメントを見つけ出すことは容易ではない。そこで音声ドキュメント検索の技術が必要となる。

音声ドキュメント検索は、基本的にはテキストの検索と同種の手法で実現される場合が多い。音声ドキュメントは音声認識技術によりテキスト化され、ユーザはクエリとしてテキストを与え検索を行う。テキストのクエリと類似した発話内容を含む音声ドキュメントが検索結果となる。

しかし、音声ドキュメント検索の特徴の１つに、話者指定型の検索に対するニーズがある。つまり、「誰が、何と言ったか？」を検索する。例えば、会社の会議を録音した音声ドキュメントが大量にある場合に、上司の発言を聞き直したいとすると、上司を指定して検索を行う必要がある。

従来の方法では、話者の指定もテキストの検索と同種の手法で実現されてきた。すなわち、音声ドキュメントに話者ラベル（話者名）を付与し、検索時は話者ラベルをクエリとして渡す。話者ラベルもテキストであるから、結果としてテキストの検索と同一のフレームワークで話者指定が可能になる。

しかしながら、大量の音声ドキュメントすべてに話者ラベルを付与することは困難である。非特許文献１では、話者識別による話者名の情報はメタデータ制作などへの応用が見込まれるとし、話者名の登録を継続的に繰り返すシステムについて報告されている。しかし、すべての音声に話者名が付与されているわけではない上、このシステムは放送局などが長期的なコンテンツの利活用により収益が見込まれるためにコストをかけて作成するものである。実際に一般のユーザに強いられるものではない。

そこで、機械的に話者ラベルを付与する技術が用いられる。その一例に非特許文献２の技術がある。非特許文献２では、発話傾向と組み合わせた話者モデルを事前に用意し、音声ドキュメントがどの話者モデルに適合するかを検証する。音声ドキュメント（ここでは音声ドキュメントが一話者による発話と仮定する）に最も適合する話者モデルを選択し、対応する話者ラベルを当該音声ドキュメントに付与する。

小林彰夫、奥貴裕、本間真一、佐藤庄衛、今井亨、"コンテンツ活用のための報道番組自動書き起こしシステム"、電子情報通信学会論文誌、vol. J93-D(10)、pp. 2085-2095、2010年山室慶太、伊藤克亘、"デジタル放送の字幕情報と発話傾向を考慮した発話者アノテーション"、情報処理学会第74回全国大会、2012(1)、pp. 619-620、2012年

大量の音声ドキュメントのデータベースの中から、所望の音声ドキュメントを検索する際、話者を指定する機能は極めて有用である。話者の指定を可能にするには、各音声ドキュメントに話者ラベル（話者名）を付与しておく必要がある。しかし、すべての音声ドキュメントに対して話者ラベルを付与することは現実的には難しい。

話者ラベルを用いた従来の音声ドキュメント検索方法では、話者ラベルが付与されていない音声ドキュメントは話者指定検索において適切に検出できないという問題がある。

機械的に話者ラベルを付与する従来の音声ドキュメント検索技術では、事前にあらゆる話者の話者モデルを用意しておく必要がある。しかし、実際の音声ドキュメント検索においては、大量の音声ドキュメントが存在する場合には、未知の話者が不可避的に存在し、この仮定は成り立たない。

この発明の目的は、話者ラベルが不要な話者指定型の音声ドキュメント検索技術を提供することである。

上記の課題を解決するために、この発明の音声ドキュメント検索装置は、複数の話者による複数の音声ドキュメントを記憶する音声ドキュメント記憶部と、検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出部と、話者類似度が高い音声ドキュメントを出力する検索結果出力部と、を含む。

この発明の音声ドキュメント検索技術は、話者特徴ベクトルをクエリとする制約を与えることで、話者ラベル不要の話者指定型の音声ドキュメント検索を実現する。音声ドキュメントに適切な話者ラベルを付与するような整備は必要でなくなり、音声ドキュメントの整備にかかわる稼働やコストを削減できる。

音声ドキュメント検索では高速さも求められる上、テキストクエリの入力も考慮する必要がある。この発明では、話者特徴とテキストのベクトル空間上で、計算コストの小さな類似度尺度によりクエリと音声ドキュメント間の類似度を算出することで高速な話者指定型の音声ドキュメント検索を実現する。

図１は、第一実施形態の音声ドキュメント検索装置の機能構成を例示する図である。図２は、第一実施形態の音声ドキュメント検索方法の処理フローを例示する図である。図３は、第二実施形態の音声ドキュメント検索装置の機能構成を例示する図である。図４は、第二実施形態の音声ドキュメント検索方法の処理フローを例示する図である。図５は、第一実施形態の変形例の音声ドキュメント検索装置の機能構成を例示する図である。図６は、第二実施形態の変形例の音声ドキュメント検索装置の機能構成を例示する図である。図７は、目的話者特徴ベクトルの生成方法を例示する図である。図８は、第一実施形態の変形例の音声ドキュメント検索方法の処理フローを例示する図である。図９は、第二実施形態の変形例の音声ドキュメント検索方法の処理フローを例示する図である。図１０は、第三実施形態の音声ドキュメント検索装置の機能構成を例示する図である。図１１は、第三実施形態の音声ドキュメント検索方法の処理フローを例示する図である。

この発明は、音声ドキュメントのデータベース中に話者ラベルのない音声ドキュメントが存在することを前提に、そのような音声ドキュメントでも話者を指定した検索によって検出できるようにすることを目的に考案された音声ドキュメント検索装置及び方法である。この音声ドキュメント検索装置及び方法は、音声ドキュメント検索に必要な探索の高速性も担保する。

この発明では、話者ラベルではなく話者特徴ベクトルをクエリとすることで検索対象の話者を指定する。データベース上の各音声ドキュメントも話者特徴ベクトル化されており、話者特徴ベクトル間の類似度により話者指定型の音声ドキュメント検索を実現する。

話者特徴は、音声ドキュメントに対して１つのベクトル（以下、話者特徴ベクトルという）であるように構成する。そして、ベクトル空間での２つのベクトル間の類似度により類似性を算出する。ベクトル間の類似度は、例えばコサイン類似度など、情報処理の分野で広く利用される類似度尺度を用いればよい。一般に、ベクトル間の類似度の算出は計算コストが低いものが多く、そのような尺度を採用することで高速な検索が可能となる。

この発明の第一実施形態に係る音声ドキュメント検索装置及び方法では、テキストのクエリに基づく類似度と話者の類似度とを合算し、最終的な検索結果となる音声ドキュメントを決定する。

テキストの類似度の算出方法は任意であり、ベクトル表現によるものに限定されない。例えば、ウェブ（WEB）上の検索エンジンでは、クエリは少数の単語の組に限定される。各単語が出現するドキュメントのANDやORを取って検索し、クエリ単語の出現単語数などが類似度として扱われる。第一実施形態におけるテキストの類似度に関しては、このようなベクトル空間上の類似度として算出しないものも許容する。

一方、テキストの文章をクエリにするドキュメント検索では、総ドキュメントに対する各単語の出現頻度等を要素とするベクトル（以下、単語ベクトル）が特徴ベクトルとして広く用いられる。クエリも、データベース上の各ドキュメントも１つの単語ベクトルにより表現され、コサイン類似度等の尺度を定義した上で検索が行われる。

この発明の第二実施形態に係る音声ドキュメント検索装置及び方法は、話者特徴ベクトルと単語ベクトルを接続して新たなベクトル（以下、話者特徴単語ベクトルという）を作成し、話者特徴単語ベクトル空間上で類似度を算出する。第二実施形態は、第一実施形態と比較してテキスト側の処理に制約を課すものの、話者特徴とテキストの類似度を別々に算出する必要がなくなる。話者特徴ベクトル間の類似度と単語ベクトル間の類似度を別々に算出するよりも高速化が期待できる。

この発明では、クエリを話者特徴ベクトルとしているが、話者特徴ベクトルは音声データから所定のステップで機械的に算出できるものであることは自明である。そのため実施形態として、音声データをクエリとする場合もこの発明の範疇である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の音声ドキュメント検索装置は、図１に示すように、音声クエリ入力部１０、テキストクエリ入力部１１、話者特徴ベクトル抽出部１２、単語ベクトル抽出部１３、話者特徴ベクトル空間類似度算出部１４、単語ベクトル空間類似度算出部１５、類似度合算部１６、検索結果出力部１７、音声ドキュメント記憶部１８及び類似度記憶部１９を例えば含む。

音声ドキュメント検索装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ドキュメント検索装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ドキュメント検索装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声ドキュメント検索装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

音声ドキュメント検索装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声ドキュメント検索装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

音声ドキュメント記憶部１８には、複数の話者が発話する音声ドキュメントが記憶されている。

図２を参照して、第一実施形態の音声ドキュメント検索方法を説明する。

ステップＳ１０において、音声クエリ入力部１０へ、クエリ（以下、音声クエリという）として検索対象とする話者の音声データもしくは話者特徴ベクトルが入力される。音声データが入力された場合には、音声クエリは話者特徴ベクトル抽出部１２へ送られる。話者特徴ベクトルが入力された場合には、音声クエリは話者特徴ベクトル空間類似度算出部１４へ送られる。この場合、音声ドキュメント検索装置は話者特徴ベクトル抽出部１２を備えなくてもよい。話者特徴ベクトルの具体的な構成は後述する。

ステップＳ１１において、テキストクエリ入力部１１へ、クエリ（以下、テキストクエリという）として検索対象とするテキストデータもしくは単語ベクトルが入力される。テキストデータが入力された場合には、テキストクエリは単語ベクトル抽出部１３へ送られる。単語ベクトルが入力された場合には、テキストクエリは単語ベクトル空間類似度算出部１５へ送られる。この場合、音声ドキュメント検索装置は単語ベクトル抽出部１３を備えなくてもよい。単語ベクトルについての詳細は後述する。

ステップＳ１２において、話者特徴ベクトル抽出部１２は、入力された音声クエリから話者特徴ベクトルを抽出する。抽出された話者特徴ベクトルは話者特徴ベクトル空間類似度算出部１４へ送られる。

ステップＳ１３において、単語ベクトル抽出部１３は、入力されたテキストクエリから単語ベクトルを抽出する。抽出された単語ベクトルは単語ベクトル空間類似度算出部１５へ送られる。

ステップＳ１４において、話者特徴ベクトル空間類似度算出部１４は、音声ドキュメント記憶部１８に記憶された各音声ドキュメントの話者特徴ベクトルと、入力された話者特徴ベクトルとから、所定の類似度尺度に従い算出される話者類似度を算出する。算出された話者類似度は類似度合算部１６へ送られる。

話者特徴ベクトル間の類似度は、任意の類似度尺度を用いることができる。１つの代表的な形態はコサイン類似度である。もう１つの代表的な形態は内積値である。

ステップＳ１５において、単語ベクトル空間類似度算出部１５は、音声ドキュメント記憶部１８に記憶された各音声ドキュメントの単語ベクトルと、入力された単語ベクトルとから、所定の類似度尺度に従い算出されるテキスト類似度を算出する。算出されたテキスト類似度は類似度合算部１６へ送られる。

単語ベクトル間の類似度は、話者特徴ベクトルと同様に、任意の類似度尺度を用いることができる。

ステップＳ１６において、類似度合算部１６は、所定の方法に従い、話者類似度とテキスト類似度を合算して当該音声ドキュメントとクエリの類似度を算出する。算出された類似度は類似度記憶部１９へ記憶される。

話者類似度とテキスト類似度の合算の方法は、加算、乗算、対数上での加算、その重み付きの演算などである。重みは予備実験などを通して検索精度等の観点で最適と思われる値を人為的に決めるとよい。

ステップＳ１７において、検索結果出力部１７は、類似度記憶部１９に記憶された類似度の高い音声ドキュメントを検索結果として出力する。出力形式は、音声ドキュメントを音声認識した認識結果テキストであってもよく、また音声ドキュメントに含めておいた音声データそのものを音声波形として再生してもよい。

［第二実施形態］
第二実施形態の音声ドキュメント検索装置は、図３に示すように、第一実施形態と同様に、音声クエリ入力部１０、テキストクエリ入力部１１、話者特徴ベクトル抽出部１２、単語ベクトル抽出部１３、検索結果出力部１７、音声ドキュメント記憶部１８及び類似度記憶部１９を例えば含み、音声ドキュメント話者特徴単語ベクトル作成部２０、クエリ話者特徴単語ベクトル作成部２１及び話者特徴単語ベクトル空間類似度算出部２２をさらに含む。

図４を参照して、第二実施形態の音声ドキュメント検索方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。

ステップＳ２０において、音声ドキュメント話者特徴単語ベクトル作成部２０は、音声ドキュメント記憶部１８に記憶された音声ドキュメントから抽出した話者特徴ベクトルと、音声ドキュメント記憶部１８に記憶された音声ドキュメントを音声認識した認識結果テキストから抽出した単語ベクトルとを接続して、音声ドキュメント話者特徴単語ベクトルを作成する。作成された音声ドキュメント話者特徴単語ベクトルは話者特徴単語ベクトル空間類似度算出部２２に送られる。

ステップＳ２１において、クエリ話者特徴単語ベクトル作成部２１は、話者特徴ベクトル抽出部１２から入力された話者特徴ベクトルと、単語ベクトル抽出部１３から入力された単語ベクトルとを接続して、クエリ話者特徴単語ベクトルを作成する。作成されたクエリ話者特徴単語ベクトルは話者特徴単語ベクトル空間類似度算出部２２に送られる。

ステップＳ２２において、話者特徴単語ベクトル空間類似度算出部２２は、音声ドキュメント話者特徴単語ベクトル作成部２０が出力する音声ドキュメント話者特徴単語ベクトルと、クエリ話者特徴単語ベクトル作成部２１が出力するクエリ話者特徴単語ベクトルとから、所定の類似度尺度に従い当該音声ドキュメントとクエリの類似度を算出し、その結果を類似度記憶部１９に記憶する。

［特徴ベクトルの具体例］
以下、第一実施形態及び第二実施形態で利用する各特徴ベクトルの具体的な構成について詳述する。

話者特徴ベクトルの１つの形態は、例えば、i-vectorと呼ばれる特徴量である。i-vectorについての詳細は、「H. Aronowitz and O. Barkan, “Efficient approximated i-vector extraction”, Proceedings of ICASSP, pp. 4789-4792, 2012.（参考文献１）」に記載されている。話者特徴ベクトルのもう１つの形態は、Joint Factor Analysis(JFA)を用いて抽出した話者依存成分のベクトルである。JFAにより得られるベクトルも上記参考文献１に記載されている。

i-vectorもJFAにより得られるベクトルも、音声データに対して適応処理を施した混合ガウス分布（GMM: Gaussian Mixture Model）の各ガウス分布の平均ベクトルを接続して一繋ぎにしたベクトル（スーパーベクトル）を所定の方法で行列分解したものである。それを考慮すると、話者特徴ベクトルのもう１つの形態は、GMMのスーパーベクトルを所定の方法で話者成分が抽出できるように行列分解して得たベクトルである。話者特徴ベクトルのもう１つの形態は、GMMのスーパーベクトルである。GMMのスーパーベクトルは話者成分を残しているという点において選択肢の１つではある。しかし、話者以外の成分も多量に含んでおり、設定によっては他のベクトルに比べて極めて高次元となり検索速度への影響も懸念される。その他に、GMMのスーパーベクトルを介さない方法で得たベクトルであっても、話者を識別する効力を発揮する特徴量ベクトルである限り、話者特徴ベクトルの範疇である。

テキスト類似度は、既存のテキスト検索で用いられるスコアを用いればよい。

話者特徴ベクトル及び単語ベクトルのもう１つの形態は、正規化ベクトルである。ベクトルXの正規化ベクトルを、

（ただし、||X||はXのノルム）とすると、話者特徴ベクトルVを正規化したベクトル

であり、単語ベクトルWを正規化したベクトル

である。

話者特徴ベクトル及び単語ベクトルのもう１つの形態は、重み付けベクトルである。ベクトルXの重み付きベクトルを、aX（ただし、aは定数）とすると、話者特徴ベクトルVを重み付けしたベクトルaVもしくは正規化したベクトルを重み付けしたベクトル

であり、単語ベクトルWを重み付けしたベクトルaWもしくは正規化したベクトルを重み付けしたベクトル

である。

話者特徴単語ベクトルは、話者特徴ベクトルと単語ベクトルを単純に接続したベクトルである。例えば、話者特徴ベクトルV及び単語ベクトルWに関しては、

とするとよい。

正規化の利点は、コサイン類似度の算出をより演算量の少ない内積演算に置き換えられる点にある。重み付けは、第二実施形態において、第一実施形態と等価の類似度を導入するのに利用できる。例えば、第一実施形態における類似度の合算において、コサイン類似度の重み付き和を用いた場合、

であるから、２回の内積

のみに計算量を削減できる。

は事前に計算された１つのベクトルであるから、２回の内積のみで済む。なお、添字dは音声ドキュメントを表し、添字qはクエリを表す。さらに、

である。右辺はまさに第二実施形態である。この等式関係は第一実施形態と第二実施形態で同じ類似度を用いることができることを示している。

［変形例］
第一実施形態もしくは第二実施形態では、ユーザは検索対象話者の話者特徴ベクトルもしくは音声データを用意する必要がある。この条件は現実的である。この発明では話者ラベルの付与を否定しているわけではないので、話者ラベルが付与されているデータであれば、目的話者の（目的外の）音声ドキュメントを得ることができる。この音声ドキュメントは本来検索したい発話内容とは内容が異なるもの、すなわち目的のものではないにせよ、当該話者の特徴を表すものであるから、それをクエリとして話者指定を行い、発話内容はテキストクエリとして入力することで、話者およびテキストが一致する、目的の音声ドキュメントを検索すればよい。

また、一度クエリとして使用した音声データは、e-mailのアドレス帳のように管理しておけばよい。すなわち、クエリとして利用可能な話者ラベルの付与された音声データに対して、識別の容易な話者ラベル等の名称やＩＤを付与してアドレス帳で管理しておけば、次回以降は、アドレス帳から目的話者のデータを呼び出すことで、話者指定型の音声ドキュメント検索が可能である。その際、特徴ベクトルの算出ステップを回避する目的で、話者特徴ベクトルをアドレス帳に登録しておく方が効率的である。

第一実施形態もしくは第二実施形態の変形例は、話者ラベルと話者特徴ベクトルとをアドレス帳形式で対応付けておき、ユーザは目的話者に付与しておいた話者ラベル等の名称やＩＤを入力することで音声ドキュメントの検索を行う音声ドキュメント検索装置及び方法である。

第一実施形態の変形例である音声ドキュメント検索装置は、図５に示すように、第一実施形態と同様に、テキストクエリ入力部１１、単語ベクトル抽出部１３、話者特徴ベクトル空間類似度算出部１４、単語ベクトル空間類似度算出部１５、類似度合算部１６、検索結果出力部１７、音声ドキュメント記憶部１８及び類似度記憶部１９を例えば含み、話者ラベル入力部３０、目的話者特徴ベクトル記憶部３１及び話者特徴ベクトル抽出部３２をさらに含む。

第二実施形態の変形例である音声ドキュメント検索装置は、図６に示すように、第二実施形態と同様に、テキストクエリ入力部１１、単語ベクトル抽出部１３、検索結果出力部１７、音声ドキュメント記憶部１８、類似度記憶部１９、音声ドキュメント話者特徴単語ベクトル作成部２０、クエリ話者特徴単語ベクトル作成部２１及び話者特徴単語ベクトル空間類似度算出部２２を例えば含み、話者ラベル入力部３０、目的話者特徴ベクトル記憶部３１及び話者特徴ベクトル抽出部３２をさらに含む。

目的話者特徴ベクトル記憶部３１には、話者ラベルが付与された話者特徴ベクトルが記憶されている。話者ラベルは、話者を識別するための名称やＩＤであり、目的話者特徴ベクトル記憶部３１内に記憶されている話者特徴ベクトルを一意に識別できるように付与される。

図７を参照して、目的話者特徴ベクトル記憶部３１に記憶する話者特徴ベクトルの生成方法を説明する。音声データ入力部３３に任意の音声データが入力される。話者特徴ベクトル抽出部１２は、第一実施形態の話者特徴ベクトル抽出部と同様に、入力された音声データから話者特徴ベクトルを抽出する。話者特徴ベクトルは上述したどの形態のものであってもよい。話者ラベル名付与部３４は、話者特徴ベクトル抽出部１２の出力する話者特徴ベクトルにユーザが入力した話者ラベルを付与することで話者ラベル名と話者特徴ベクトルとを対応づけて、目的話者特徴ベクトル記憶部３１へ記憶する。

図８に第一実施形態の変形例である音声ドキュメント検索方法の処理フローを、図９に第二実施形態の変形例である音声ドキュメント検索方法の処理フローを、それぞれ示す。以下では、上述の第一実施形態及び第二実施形態との相違点を中心に説明する。

ステップＳ３０において、話者ラベル入力部３０へ、目的話者に付与しておいた話者ラベルのいずれかが入力される。

ステップＳ３２において、話者特徴ベクトル抽出部３２は、入力された話者ラベルを用いて目的話者特徴ベクトル記憶部３１へ記憶された話者特徴ベクトルを抽出する。以降の処理では、抽出した話者特徴ベクトルを、第一実施形態もしくは第二実施形態において音声クエリから抽出した話者特徴ベクトルとして取り扱えばよい。

一方、目的話者特徴ベクトル記憶部３１に、話者ラベルが付与された音声ドキュメントが１つもない話者を検索する場合、何らかの方法で音声データを得る必要がある。著名人の音声であればウェブ検索などを頼りに音声データを入手可能であろう。知人など比較的親しい関係性の人間であれば音声を収録させてもらいアドレス帳に登録しておけばよい。もしくは、目的話者を登録している知人のアドレス帳を共有してもらうといった方法でもクエリを入手することができる。

クエリに用いる話者特徴ベクトルは、話者ラベルの付与された音声データ、もしくは上記のようにデータベース外から得た音声データ等を、話者特徴ベクトル抽出部に入力したときの出力結果として得ることができ、これにユーザによって任意の話者ラベル名を付与し、話者ラベル名と話者特徴ベクトルとを対応づけた目的話者特徴ベクトル記憶部に収録すればよい。

［類似の従来技術との比較］
類似音声の選択手法及び装置が、「森島繁生他、“新映像技術「ダイブイントゥザムービー」”、電子情報通信学会誌、Vol. 94、No. 3、pp. 250-268、2011年3月（参考文献２）」に記載されている。参考文献２では、音声を入力とし、事前に登録された各音声ファイル（音声ドキュメント）との話者類似度を算出している。参考文献２はこの点においてこの発明に似たアイデアであるが、決定的に計算コストに関する考慮が欠落しているため音声ドキュメント検索には使用できない。実際、特徴量間の動的尺度やGMM尤度を算出するなど計算コストの大きな処理を前提としている。また、テキストを指定する方法について考慮されていない。参考文献２における特徴量は、フレーム（区分時間）ごとに抽出されており、音声データに対しては１つの行列（特徴量の次数×フレーム数）が得られる。この発明のような１つのベクトルではなく、この点も異なる。

話者特徴ベクトルの実施例の１つであるi-vectorは話者照合分野で開発された技術である。当該分野では、当初i-vectorのコサイン類似度により話者の照合等を行う方法が提案された。話者照合では、事前に登録されている全ての話者の音声と入力音声間の類似度を算出する。この点はこの発明と共通する部分である。しかし、i-vectorのコサイン類似度では十分な話者照合、識別の精度を出すことができず、その後、統計的な手法（例えば、Probabilistic Linear Discriminant Analysisなど）の識別技術を併用するように遷移してきている（詳しくは、「Pavel Matejka, Ondrej Glembek, Fabio Castaldo, Md. Jahangir Alam, Oldrich Plchot, Patrick Kenny, Lukas Burget, Jan Cernocky, “Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification”, ICASSP 2011, pp. 4828-4831（参考文献３）」参照）。つまり、i-vectorのコサイン類似度といった、ベクトル空間上で２点の類似度を算出するといった単純な方法では話者の識別、同定は難しいことを示している。まして、この発明の対象のような大規模なデータベースを対象にする場合は更に深刻化する。

しかし、発明者らは、音声ドキュメント検索の以下の特徴に着目することで、i-vectorのコサイン類似度でも十分に精度よく動作することに気がついた。その特徴の１つ目は、音声ドキュメント検索では、テキストクエリが存在することである。テキストクエリにより、大きく候補が限定される。これにより話者数も事実上限定される。

特徴の２つ目は、音声ドキュメント検索では、一位候補の精度よりも、上位複数候補に目的の音声ドキュメントが含まれる精度を重要視する点である。i-vectorのコサイン類似度では、一位で当てることは難しい場合も多い。しかし、上位候補に目的音声ドキュメントを挙げることは比較的容易である。

特徴の３つ目は、音声ドキュメント検索では話者照合等の分野で扱う音声と比べて、長い音声を扱う点である。長い音声を対象にすることから、話者の特徴を正確に抽出できるようになり、精度の向上が期待できる。

さらに音声ドキュメント検索では検索の高速性も求められるから、i-vectorのコサイン類似度のような低演算量の方法が向いている。

発明者らは、これらの様々な音声ドキュメント検索固有の特徴に着目し、話者特徴ベクトルをクエリに与えること、およびi-vectorのコサイン類似度のように、ベクトル空間上で２点間の類似度として話者類似度を算出することが音声ドキュメント検索に適している事に気づいたのであり、当該分野（話者照合や音声ドキュメント検索の分野）の者であっても容易に想起できるものではない。

［第三実施形態］
上述した音声ドキュメント検索の特徴の１つ目を活かす構成として、第三実施形態の音声ドキュメント検索装置及び方法を説明する。

第三実施形態の音声ドキュメント検索装置は、図１０に示すように、第一実施形態の変形例と同様に、テキストクエリ入力部１１、単語ベクトル抽出部１３、単語ベクトル空間類似度算出部１５、検索結果出力部１７、音声ドキュメント記憶部１８、類似度記憶部１９、話者ラベル入力部３０、目的話者特徴ベクトル記憶部３１及び話者特徴ベクトル抽出部３２を例えば含み、高類似度候補記憶部４０及び話者特徴ベクトル空間類似度算出部４１をさらに含む。

図１１を参照して、第三実施形態の音声ドキュメント検索方法を説明する。以下では、上述の各実施形態との相違点を中心に説明する。

ステップＳ１５において、単語ベクトル空間類似度算出部１５は、音声ドキュメント記憶部１８に記憶された各音声ドキュメントの単語ベクトルと、入力された単語ベクトルとから、所定の類似度尺度に従い算出されるテキスト類似度を算出し、高いテキスト類似度を持つ音声ドキュメントの候補情報を高類似度候補記憶部４０に記憶する。

ステップＳ４１において、話者特徴ベクトル空間類似度算出部４１は、高類似度候補記憶部４０に記憶された候補情報のうち類似度の高い上位候補に限定して、話者特徴ベクトルとの類似度を算出し、単語ベクトルおよび話者特徴ベクトルの双方に対して類似度の高い上位候補を検索結果として出力する。

第三実施形態の構成では限定された候補に対して話者特徴ベクトルの類似度を算出することになるので、検索結果を速く得ることが可能であり、また単語ベクトルに基づく類似度と話者特徴ベクトルに基づく類似度のそれぞれについて独立して候補数を制御できるため、第一実施形態または第二実施形態では得られない検索精度を持たせることができる。

［実験結果］
スマートフォンにおける音声検索や音声質問応答システム利用時の音声をデータベース化した。収音環境は様々で雑音も多分に含まれている。データベース上の音声ドキュメントのファイル数はおよそ11万である。１ファイルは１発話に相当するので、11万発話が存在することに相当する。各音声ドキュメントはファイル毎に音声認識技術により自動で発話の始端と終端が決定され、発話内容が書き起こされ、その後、認識結果中の内容語単語の頻度を要素とする単語ベクトルによって表現された。また同じく、ファイル毎に話者特徴ベクトルとしてi-vectorも事前に抽出し、データベース上に登録しておいた。5000クエリを与え、検索精度を比較した。話者、テキストともに類似度尺度としてコサイン類似度を用いた。

実験では、データベース上の全音声ドキュメントに話者ラベルが与えられている。検索時に、話者ラベルをクエリとして与えた場合と、話者ラベルの代わりに話者特徴ベクトル（i-vector）を与えた場合の精度を比較する。ただし、クエリとなるテキストは、目的音声ドキュメントの正解書き起こし(人手で与えた書き起し)である。

クエリの話者特徴ベクトルには、データベース上の目的音声ドキュメント以外から、同一話者の音声ドキュメントをランダムに抽出し、その話者特徴ベクトルを用いた。すなわち、話者類似度の最も高い音声ドキュメントは、目的音声ドキュメントにならないという状況で実験を行った。

表１に上記の実験結果として得られた検索精度を示す。

クエリの対象者は100人である。話者ラベルがクエリに与えられた場合は、理想的な状態であるから検索精度が極めて高く、3-best（上位３候補に目的音声ドキュメントが含まれる割合）で90%を超えている。本発明は、それには及ばないものの2-bestで７割、5-bestで８割正解している。また2-bestで、話者ラベルありの場合の1-bestの精度とほぼ同等であった。この実験結果から、実用にも耐え得る精度で動作することが見て取れる。

［効果］
この発明によれば、話者指定型の音声ドキュメント検索において、大量の音声ドキュメントのすべての音声データに対して話者ラベルを付与しなくても、話者特徴ベクトルの類似度の高い話者の音声ドキュメントを検索結果として得ることができる。すなわち、それぞれに適切な話者ラベルを付与するような音声ドキュメントの整備は必要でなくなり、音声ドキュメントの整備にかかわる稼働やコストを削減できる。

話者特徴ベクトルの類似度計算においては、計算コストの小さな類似度尺度を用いることで、高速な話者指定型の音声ドキュメント検索が実現できる。

検索に際しての類似度計算においては、話者特徴ベクトルの類似度と単語ベクトル（テキストクエリ）の類似度を組み合わせた合算値が適用可能であり、検索精度等の観点で最適な類似度計算を選定して利用することができる。あるいは、単語ベクトルの類似度計算結果に基づいて音声ドキュメントの候補を限定したうえで、話者ベクトルの類似度計算に基づいた類似度の上位候補を検索結果として得る形で、検索精度を高め、かつ処理の高速化を図ることも可能である。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０音声クエリ入力部
１１テキストクエリ入力部
１２話者特徴ベクトル抽出部
１３単語ベクトル抽出部
１４話者特徴ベクトル空間類似度算出部
１５単語ベクトル空間類似度算出部
１６類似度合算部
１７検索結果出力部
１８音声ドキュメント記憶部
１９類似度記憶部
２０音声ドキュメント話者特徴単語ベクトル作成部
２１クエリ話者特徴単語ベクトル作成部
２２話者特徴単語ベクトル空間類似度算出部
３０話者ラベル入力部
３１目的話者特徴ベクトル記憶部
３２音声データ入力部
３３話者ラベル名付与部
４０高類似度候補記憶部
４１話者特徴ベクトル空間類似度算出部

Claims

複数の話者による複数の音声ドキュメントを記憶する音声ドキュメント記憶部と、
検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと上記音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出部と、
上記話者類似度が高い上記音声ドキュメントを出力する検索結果出力部と、
を含む音声ドキュメント検索装置。
請求項１に記載の音声ドキュメント検索装置であって、
検索対象とするテキストの単語ベクトルと上記音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する単語ベクトル空間類似度算出部と、
上記話者類似度と上記テキスト類似度を合算した話者テキスト類似度を算出する類似度合算部と、
をさらに含み、
上記検索結果出力部は、上記話者テキスト類似度が高い上記音声ドキュメントを出力するものである
音声ドキュメント検索装置。
請求項１に記載の音声ドキュメント検索装置であって、
検索対象とするテキストの単語ベクトルと上記音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する単語ベクトル空間類似度算出部と、
上記テキスト類似度が高い上記音声ドキュメントを特定する候補情報を記憶する高類似度候補記憶部と、
をさらに含み、
上記話者特徴ベクトル空間類似度算出部は、上記目的話者特徴ベクトルと上記候補情報により特定される上記音声ドキュメントを発話した話者の話者特徴ベクトルとから上記話者類似度を算出するものである
音声ドキュメント検索装置。
請求項１から３のいずれかに記載の音声ドキュメント検索装置であって、
検索対象とする話者が発話した音声データから話者特徴ベクトルを抽出して上記目的話者特徴ベクトルを生成する話者特徴ベクトル抽出部
をさらに含む音声ドキュメント検索装置。
請求項１から３のいずれかに記載の音声ドキュメント検索装置であって、
上記音声ドキュメントを発話した話者を特定する話者ラベルと当該話者の話者特徴ベクトルとを関連付けて記憶する目的話者特徴ベクトル記憶部と、
検索対象とする話者を特定する話者ラベルと一致する話者特徴ベクトルを上記目的話者特徴ベクトル記憶部から抽出して上記目的話者特徴ベクトルを生成する話者特徴ベクトル抽出部と、
をさらに含む音声ドキュメント検索装置。
音声ドキュメント記憶部に、複数の話者による複数の音声ドキュメントが記憶されており、
話者特徴ベクトル空間類似度算出部が、検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと上記音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出ステップと、
検索結果出力部が、上記話者類似度が高い上記音声ドキュメントを出力する検索結果出力ステップと、
を含む音声ドキュメント検索方法。
請求項１から５のいずれかに記載の音声ドキュメント検索装置としてコンピュータを機能させるためのプログラム。