JP2016018229A - 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム - Google Patents

音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム Download PDF

Info

Publication number
JP2016018229A
JP2016018229A JP2014138333A JP2014138333A JP2016018229A JP 2016018229 A JP2016018229 A JP 2016018229A JP 2014138333 A JP2014138333 A JP 2014138333A JP 2014138333 A JP2014138333 A JP 2014138333A JP 2016018229 A JP2016018229 A JP 2016018229A
Authority
JP
Japan
Prior art keywords
speaker
similarity
feature vector
voice
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014138333A
Other languages
English (en)
Other versions
JP6208631B2 (ja
Inventor
隆伸 大庭
Takanobu Oba
隆伸 大庭
記良 鎌土
Noriyoshi Kamado
記良 鎌土
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014138333A priority Critical patent/JP6208631B2/ja
Publication of JP2016018229A publication Critical patent/JP2016018229A/ja
Application granted granted Critical
Publication of JP6208631B2 publication Critical patent/JP6208631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】話者ラベルが不要な話者指定型の音声ドキュメント検索技術を提供する。
【解決手段】音声ドキュメント記憶部18に複数の話者による複数の音声ドキュメントが記憶される。話者特徴ベクトル空間類似度算出部14は、検索対象とする話者の話者特徴ベクトルと音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する。単語ベクトル空間類似度算出部15は、検索対象とするテキストの単語ベクトルと音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する。類似度合算部16は、話者類似度とテキスト類似度を合算した話者テキスト類似度を算出する。検索結果出力部17は、話者類似度が高い音声ドキュメントを出力する。
【選択図】図1

Description

この発明は、音声ファイルや音声アーカイブのような音声ドキュメントを検索する技術に関する。
近年、スマートフォンやICレコーダなど音声の収録が容易になり、大量の音声ドキュメントの蓄積が進んでいる。大量の音声ドキュメントの中から所望の音声ドキュメントを見つけ出すことは容易ではない。そこで音声ドキュメント検索の技術が必要となる。
音声ドキュメント検索は、基本的にはテキストの検索と同種の手法で実現される場合が多い。音声ドキュメントは音声認識技術によりテキスト化され、ユーザはクエリとしてテキストを与え検索を行う。テキストのクエリと類似した発話内容を含む音声ドキュメントが検索結果となる。
しかし、音声ドキュメント検索の特徴の1つに、話者指定型の検索に対するニーズがある。つまり、「誰が、何と言ったか?」を検索する。例えば、会社の会議を録音した音声ドキュメントが大量にある場合に、上司の発言を聞き直したいとすると、上司を指定して検索を行う必要がある。
従来の方法では、話者の指定もテキストの検索と同種の手法で実現されてきた。すなわち、音声ドキュメントに話者ラベル(話者名)を付与し、検索時は話者ラベルをクエリとして渡す。話者ラベルもテキストであるから、結果としてテキストの検索と同一のフレームワークで話者指定が可能になる。
しかしながら、大量の音声ドキュメントすべてに話者ラベルを付与することは困難である。非特許文献1では、話者識別による話者名の情報はメタデータ制作などへの応用が見込まれるとし、話者名の登録を継続的に繰り返すシステムについて報告されている。しかし、すべての音声に話者名が付与されているわけではない上、このシステムは放送局などが長期的なコンテンツの利活用により収益が見込まれるためにコストをかけて作成するものである。実際に一般のユーザに強いられるものではない。
そこで、機械的に話者ラベルを付与する技術が用いられる。その一例に非特許文献2の技術がある。非特許文献2では、発話傾向と組み合わせた話者モデルを事前に用意し、音声ドキュメントがどの話者モデルに適合するかを検証する。音声ドキュメント(ここでは音声ドキュメントが一話者による発話と仮定する)に最も適合する話者モデルを選択し、対応する話者ラベルを当該音声ドキュメントに付与する。
小林彰夫、奥貴裕、本間真一、佐藤庄衛、今井亨、"コンテンツ活用のための報道番組自動書き起こしシステム"、電子情報通信学会論文誌、vol. J93-D(10)、pp. 2085-2095、2010年 山室慶太、伊藤克亘、"デジタル放送の字幕情報と発話傾向を考慮した発話者アノテーション"、情報処理学会第74回全国大会、2012(1)、pp. 619-620、2012年
大量の音声ドキュメントのデータベースの中から、所望の音声ドキュメントを検索する際、話者を指定する機能は極めて有用である。話者の指定を可能にするには、各音声ドキュメントに話者ラベル(話者名)を付与しておく必要がある。しかし、すべての音声ドキュメントに対して話者ラベルを付与することは現実的には難しい。
話者ラベルを用いた従来の音声ドキュメント検索方法では、話者ラベルが付与されていない音声ドキュメントは話者指定検索において適切に検出できないという問題がある。
機械的に話者ラベルを付与する従来の音声ドキュメント検索技術では、事前にあらゆる話者の話者モデルを用意しておく必要がある。しかし、実際の音声ドキュメント検索においては、大量の音声ドキュメントが存在する場合には、未知の話者が不可避的に存在し、この仮定は成り立たない。
この発明の目的は、話者ラベルが不要な話者指定型の音声ドキュメント検索技術を提供することである。
上記の課題を解決するために、この発明の音声ドキュメント検索装置は、複数の話者による複数の音声ドキュメントを記憶する音声ドキュメント記憶部と、検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出部と、話者類似度が高い音声ドキュメントを出力する検索結果出力部と、を含む。
この発明の音声ドキュメント検索技術は、話者特徴ベクトルをクエリとする制約を与えることで、話者ラベル不要の話者指定型の音声ドキュメント検索を実現する。音声ドキュメントに適切な話者ラベルを付与するような整備は必要でなくなり、音声ドキュメントの整備にかかわる稼働やコストを削減できる。
音声ドキュメント検索では高速さも求められる上、テキストクエリの入力も考慮する必要がある。この発明では、話者特徴とテキストのベクトル空間上で、計算コストの小さな類似度尺度によりクエリと音声ドキュメント間の類似度を算出することで高速な話者指定型の音声ドキュメント検索を実現する。
図1は、第一実施形態の音声ドキュメント検索装置の機能構成を例示する図である。 図2は、第一実施形態の音声ドキュメント検索方法の処理フローを例示する図である。 図3は、第二実施形態の音声ドキュメント検索装置の機能構成を例示する図である。 図4は、第二実施形態の音声ドキュメント検索方法の処理フローを例示する図である。 図5は、第一実施形態の変形例の音声ドキュメント検索装置の機能構成を例示する図である。 図6は、第二実施形態の変形例の音声ドキュメント検索装置の機能構成を例示する図である。 図7は、目的話者特徴ベクトルの生成方法を例示する図である。 図8は、第一実施形態の変形例の音声ドキュメント検索方法の処理フローを例示する図である。 図9は、第二実施形態の変形例の音声ドキュメント検索方法の処理フローを例示する図である。 図10は、第三実施形態の音声ドキュメント検索装置の機能構成を例示する図である。 図11は、第三実施形態の音声ドキュメント検索方法の処理フローを例示する図である。
この発明は、音声ドキュメントのデータベース中に話者ラベルのない音声ドキュメントが存在することを前提に、そのような音声ドキュメントでも話者を指定した検索によって検出できるようにすることを目的に考案された音声ドキュメント検索装置及び方法である。この音声ドキュメント検索装置及び方法は、音声ドキュメント検索に必要な探索の高速性も担保する。
この発明では、話者ラベルではなく話者特徴ベクトルをクエリとすることで検索対象の話者を指定する。データベース上の各音声ドキュメントも話者特徴ベクトル化されており、話者特徴ベクトル間の類似度により話者指定型の音声ドキュメント検索を実現する。
話者特徴は、音声ドキュメントに対して1つのベクトル(以下、話者特徴ベクトルという)であるように構成する。そして、ベクトル空間での2つのベクトル間の類似度により類似性を算出する。ベクトル間の類似度は、例えばコサイン類似度など、情報処理の分野で広く利用される類似度尺度を用いればよい。一般に、ベクトル間の類似度の算出は計算コストが低いものが多く、そのような尺度を採用することで高速な検索が可能となる。
この発明の第一実施形態に係る音声ドキュメント検索装置及び方法では、テキストのクエリに基づく類似度と話者の類似度とを合算し、最終的な検索結果となる音声ドキュメントを決定する。
テキストの類似度の算出方法は任意であり、ベクトル表現によるものに限定されない。例えば、ウェブ(WEB)上の検索エンジンでは、クエリは少数の単語の組に限定される。各単語が出現するドキュメントのANDやORを取って検索し、クエリ単語の出現単語数などが類似度として扱われる。第一実施形態におけるテキストの類似度に関しては、このようなベクトル空間上の類似度として算出しないものも許容する。
一方、テキストの文章をクエリにするドキュメント検索では、総ドキュメントに対する各単語の出現頻度等を要素とするベクトル(以下、単語ベクトル)が特徴ベクトルとして広く用いられる。クエリも、データベース上の各ドキュメントも1つの単語ベクトルにより表現され、コサイン類似度等の尺度を定義した上で検索が行われる。
この発明の第二実施形態に係る音声ドキュメント検索装置及び方法は、話者特徴ベクトルと単語ベクトルを接続して新たなベクトル(以下、話者特徴単語ベクトルという)を作成し、話者特徴単語ベクトル空間上で類似度を算出する。第二実施形態は、第一実施形態と比較してテキスト側の処理に制約を課すものの、話者特徴とテキストの類似度を別々に算出する必要がなくなる。話者特徴ベクトル間の類似度と単語ベクトル間の類似度を別々に算出するよりも高速化が期待できる。
この発明では、クエリを話者特徴ベクトルとしているが、話者特徴ベクトルは音声データから所定のステップで機械的に算出できるものであることは自明である。そのため実施形態として、音声データをクエリとする場合もこの発明の範疇である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の音声ドキュメント検索装置は、図1に示すように、音声クエリ入力部10、テキストクエリ入力部11、話者特徴ベクトル抽出部12、単語ベクトル抽出部13、話者特徴ベクトル空間類似度算出部14、単語ベクトル空間類似度算出部15、類似度合算部16、検索結果出力部17、音声ドキュメント記憶部18及び類似度記憶部19を例えば含む。
音声ドキュメント検索装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ドキュメント検索装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ドキュメント検索装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声ドキュメント検索装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
音声ドキュメント検索装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声ドキュメント検索装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
音声ドキュメント記憶部18には、複数の話者が発話する音声ドキュメントが記憶されている。
図2を参照して、第一実施形態の音声ドキュメント検索方法を説明する。
ステップS10において、音声クエリ入力部10へ、クエリ(以下、音声クエリという)として検索対象とする話者の音声データもしくは話者特徴ベクトルが入力される。音声データが入力された場合には、音声クエリは話者特徴ベクトル抽出部12へ送られる。話者特徴ベクトルが入力された場合には、音声クエリは話者特徴ベクトル空間類似度算出部14へ送られる。この場合、音声ドキュメント検索装置は話者特徴ベクトル抽出部12を備えなくてもよい。話者特徴ベクトルの具体的な構成は後述する。
ステップS11において、テキストクエリ入力部11へ、クエリ(以下、テキストクエリという)として検索対象とするテキストデータもしくは単語ベクトルが入力される。テキストデータが入力された場合には、テキストクエリは単語ベクトル抽出部13へ送られる。単語ベクトルが入力された場合には、テキストクエリは単語ベクトル空間類似度算出部15へ送られる。この場合、音声ドキュメント検索装置は単語ベクトル抽出部13を備えなくてもよい。単語ベクトルについての詳細は後述する。
ステップS12において、話者特徴ベクトル抽出部12は、入力された音声クエリから話者特徴ベクトルを抽出する。抽出された話者特徴ベクトルは話者特徴ベクトル空間類似度算出部14へ送られる。
ステップS13において、単語ベクトル抽出部13は、入力されたテキストクエリから単語ベクトルを抽出する。抽出された単語ベクトルは単語ベクトル空間類似度算出部15へ送られる。
ステップS14において、話者特徴ベクトル空間類似度算出部14は、音声ドキュメント記憶部18に記憶された各音声ドキュメントの話者特徴ベクトルと、入力された話者特徴ベクトルとから、所定の類似度尺度に従い算出される話者類似度を算出する。算出された話者類似度は類似度合算部16へ送られる。
話者特徴ベクトル間の類似度は、任意の類似度尺度を用いることができる。1つの代表的な形態はコサイン類似度である。もう1つの代表的な形態は内積値である。
ステップS15において、単語ベクトル空間類似度算出部15は、音声ドキュメント記憶部18に記憶された各音声ドキュメントの単語ベクトルと、入力された単語ベクトルとから、所定の類似度尺度に従い算出されるテキスト類似度を算出する。算出されたテキスト類似度は類似度合算部16へ送られる。
単語ベクトル間の類似度は、話者特徴ベクトルと同様に、任意の類似度尺度を用いることができる。
ステップS16において、類似度合算部16は、所定の方法に従い、話者類似度とテキスト類似度を合算して当該音声ドキュメントとクエリの類似度を算出する。算出された類似度は類似度記憶部19へ記憶される。
話者類似度とテキスト類似度の合算の方法は、加算、乗算、対数上での加算、その重み付きの演算などである。重みは予備実験などを通して検索精度等の観点で最適と思われる値を人為的に決めるとよい。
ステップS17において、検索結果出力部17は、類似度記憶部19に記憶された類似度の高い音声ドキュメントを検索結果として出力する。出力形式は、音声ドキュメントを音声認識した認識結果テキストであってもよく、また音声ドキュメントに含めておいた音声データそのものを音声波形として再生してもよい。
[第二実施形態]
第二実施形態の音声ドキュメント検索装置は、図3に示すように、第一実施形態と同様に、音声クエリ入力部10、テキストクエリ入力部11、話者特徴ベクトル抽出部12、単語ベクトル抽出部13、検索結果出力部17、音声ドキュメント記憶部18及び類似度記憶部19を例えば含み、音声ドキュメント話者特徴単語ベクトル作成部20、クエリ話者特徴単語ベクトル作成部21及び話者特徴単語ベクトル空間類似度算出部22をさらに含む。
図4を参照して、第二実施形態の音声ドキュメント検索方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。
ステップS20において、音声ドキュメント話者特徴単語ベクトル作成部20は、音声ドキュメント記憶部18に記憶された音声ドキュメントから抽出した話者特徴ベクトルと、音声ドキュメント記憶部18に記憶された音声ドキュメントを音声認識した認識結果テキストから抽出した単語ベクトルとを接続して、音声ドキュメント話者特徴単語ベクトルを作成する。作成された音声ドキュメント話者特徴単語ベクトルは話者特徴単語ベクトル空間類似度算出部22に送られる。
ステップS21において、クエリ話者特徴単語ベクトル作成部21は、話者特徴ベクトル抽出部12から入力された話者特徴ベクトルと、単語ベクトル抽出部13から入力された単語ベクトルとを接続して、クエリ話者特徴単語ベクトルを作成する。作成されたクエリ話者特徴単語ベクトルは話者特徴単語ベクトル空間類似度算出部22に送られる。
ステップS22において、話者特徴単語ベクトル空間類似度算出部22は、音声ドキュメント話者特徴単語ベクトル作成部20が出力する音声ドキュメント話者特徴単語ベクトルと、クエリ話者特徴単語ベクトル作成部21が出力するクエリ話者特徴単語ベクトルとから、所定の類似度尺度に従い当該音声ドキュメントとクエリの類似度を算出し、その結果を類似度記憶部19に記憶する。
[特徴ベクトルの具体例]
以下、第一実施形態及び第二実施形態で利用する各特徴ベクトルの具体的な構成について詳述する。
話者特徴ベクトルの1つの形態は、例えば、i-vectorと呼ばれる特徴量である。i-vectorについての詳細は、「H. Aronowitz and O. Barkan, “Efficient approximated i-vector extraction”, Proceedings of ICASSP, pp. 4789-4792, 2012.(参考文献1)」に記載されている。話者特徴ベクトルのもう1つの形態は、Joint Factor Analysis(JFA)を用いて抽出した話者依存成分のベクトルである。JFAにより得られるベクトルも上記参考文献1に記載されている。
i-vectorもJFAにより得られるベクトルも、音声データに対して適応処理を施した混合ガウス分布(GMM: Gaussian Mixture Model)の各ガウス分布の平均ベクトルを接続して一繋ぎにしたベクトル(スーパーベクトル)を所定の方法で行列分解したものである。それを考慮すると、話者特徴ベクトルのもう1つの形態は、GMMのスーパーベクトルを所定の方法で話者成分が抽出できるように行列分解して得たベクトルである。話者特徴ベクトルのもう1つの形態は、GMMのスーパーベクトルである。GMMのスーパーベクトルは話者成分を残しているという点において選択肢の1つではある。しかし、話者以外の成分も多量に含んでおり、設定によっては他のベクトルに比べて極めて高次元となり検索速度への影響も懸念される。その他に、GMMのスーパーベクトルを介さない方法で得たベクトルであっても、話者を識別する効力を発揮する特徴量ベクトルである限り、話者特徴ベクトルの範疇である。
テキスト類似度は、既存のテキスト検索で用いられるスコアを用いればよい。
話者特徴ベクトル及び単語ベクトルのもう1つの形態は、正規化ベクトルである。ベクトルXの正規化ベクトルを、
Figure 2016018229
(ただし、||X||はXのノルム)とすると、話者特徴ベクトルVを正規化したベクトル
Figure 2016018229
であり、単語ベクトルWを正規化したベクトル
Figure 2016018229
である。
話者特徴ベクトル及び単語ベクトルのもう1つの形態は、重み付けベクトルである。ベクトルXの重み付きベクトルを、aX(ただし、aは定数)とすると、話者特徴ベクトルVを重み付けしたベクトルaVもしくは正規化したベクトルを重み付けしたベクトル
Figure 2016018229
であり、単語ベクトルWを重み付けしたベクトルaWもしくは正規化したベクトルを重み付けしたベクトル
Figure 2016018229
である。
話者特徴単語ベクトルは、話者特徴ベクトルと単語ベクトルを単純に接続したベクトルである。例えば、話者特徴ベクトルV及び単語ベクトルWに関しては、
Figure 2016018229
とするとよい。
正規化の利点は、コサイン類似度の算出をより演算量の少ない内積演算に置き換えられる点にある。重み付けは、第二実施形態において、第一実施形態と等価の類似度を導入するのに利用できる。例えば、第一実施形態における類似度の合算において、コサイン類似度の重み付き和を用いた場合、
Figure 2016018229
であるから、2回の内積
Figure 2016018229
のみに計算量を削減できる。
Figure 2016018229
は事前に計算された1つのベクトルであるから、2回の内積のみで済む。なお、添字dは音声ドキュメントを表し、添字qはクエリを表す。さらに、
Figure 2016018229
である。右辺はまさに第二実施形態である。この等式関係は第一実施形態と第二実施形態で同じ類似度を用いることができることを示している。
[変形例]
第一実施形態もしくは第二実施形態では、ユーザは検索対象話者の話者特徴ベクトルもしくは音声データを用意する必要がある。この条件は現実的である。この発明では話者ラベルの付与を否定しているわけではないので、話者ラベルが付与されているデータであれば、目的話者の(目的外の)音声ドキュメントを得ることができる。この音声ドキュメントは本来検索したい発話内容とは内容が異なるもの、すなわち目的のものではないにせよ、当該話者の特徴を表すものであるから、それをクエリとして話者指定を行い、発話内容はテキストクエリとして入力することで、話者およびテキストが一致する、目的の音声ドキュメントを検索すればよい。
また、一度クエリとして使用した音声データは、e-mailのアドレス帳のように管理しておけばよい。すなわち、クエリとして利用可能な話者ラベルの付与された音声データに対して、識別の容易な話者ラベル等の名称やIDを付与してアドレス帳で管理しておけば、次回以降は、アドレス帳から目的話者のデータを呼び出すことで、話者指定型の音声ドキュメント検索が可能である。その際、特徴ベクトルの算出ステップを回避する目的で、話者特徴ベクトルをアドレス帳に登録しておく方が効率的である。
第一実施形態もしくは第二実施形態の変形例は、話者ラベルと話者特徴ベクトルとをアドレス帳形式で対応付けておき、ユーザは目的話者に付与しておいた話者ラベル等の名称やIDを入力することで音声ドキュメントの検索を行う音声ドキュメント検索装置及び方法である。
第一実施形態の変形例である音声ドキュメント検索装置は、図5に示すように、第一実施形態と同様に、テキストクエリ入力部11、単語ベクトル抽出部13、話者特徴ベクトル空間類似度算出部14、単語ベクトル空間類似度算出部15、類似度合算部16、検索結果出力部17、音声ドキュメント記憶部18及び類似度記憶部19を例えば含み、話者ラベル入力部30、目的話者特徴ベクトル記憶部31及び話者特徴ベクトル抽出部32をさらに含む。
第二実施形態の変形例である音声ドキュメント検索装置は、図6に示すように、第二実施形態と同様に、テキストクエリ入力部11、単語ベクトル抽出部13、検索結果出力部17、音声ドキュメント記憶部18、類似度記憶部19、音声ドキュメント話者特徴単語ベクトル作成部20、クエリ話者特徴単語ベクトル作成部21及び話者特徴単語ベクトル空間類似度算出部22を例えば含み、話者ラベル入力部30、目的話者特徴ベクトル記憶部31及び話者特徴ベクトル抽出部32をさらに含む。
目的話者特徴ベクトル記憶部31には、話者ラベルが付与された話者特徴ベクトルが記憶されている。話者ラベルは、話者を識別するための名称やIDであり、目的話者特徴ベクトル記憶部31内に記憶されている話者特徴ベクトルを一意に識別できるように付与される。
図7を参照して、目的話者特徴ベクトル記憶部31に記憶する話者特徴ベクトルの生成方法を説明する。音声データ入力部33に任意の音声データが入力される。話者特徴ベクトル抽出部12は、第一実施形態の話者特徴ベクトル抽出部と同様に、入力された音声データから話者特徴ベクトルを抽出する。話者特徴ベクトルは上述したどの形態のものであってもよい。話者ラベル名付与部34は、話者特徴ベクトル抽出部12の出力する話者特徴ベクトルにユーザが入力した話者ラベルを付与することで話者ラベル名と話者特徴ベクトルとを対応づけて、目的話者特徴ベクトル記憶部31へ記憶する。
図8に第一実施形態の変形例である音声ドキュメント検索方法の処理フローを、図9に第二実施形態の変形例である音声ドキュメント検索方法の処理フローを、それぞれ示す。以下では、上述の第一実施形態及び第二実施形態との相違点を中心に説明する。
ステップS30において、話者ラベル入力部30へ、目的話者に付与しておいた話者ラベルのいずれかが入力される。
ステップS32において、話者特徴ベクトル抽出部32は、入力された話者ラベルを用いて目的話者特徴ベクトル記憶部31へ記憶された話者特徴ベクトルを抽出する。以降の処理では、抽出した話者特徴ベクトルを、第一実施形態もしくは第二実施形態において音声クエリから抽出した話者特徴ベクトルとして取り扱えばよい。
一方、目的話者特徴ベクトル記憶部31に、話者ラベルが付与された音声ドキュメントが1つもない話者を検索する場合、何らかの方法で音声データを得る必要がある。著名人の音声であればウェブ検索などを頼りに音声データを入手可能であろう。知人など比較的親しい関係性の人間であれば音声を収録させてもらいアドレス帳に登録しておけばよい。もしくは、目的話者を登録している知人のアドレス帳を共有してもらうといった方法でもクエリを入手することができる。
クエリに用いる話者特徴ベクトルは、話者ラベルの付与された音声データ、もしくは上記のようにデータベース外から得た音声データ等を、話者特徴ベクトル抽出部に入力したときの出力結果として得ることができ、これにユーザによって任意の話者ラベル名を付与し、話者ラベル名と話者特徴ベクトルとを対応づけた目的話者特徴ベクトル記憶部に収録すればよい。
[類似の従来技術との比較]
類似音声の選択手法及び装置が、「森島繁生他、“新映像技術「ダイブイントゥザムービー」”、電子情報通信学会誌、Vol. 94、No. 3、pp. 250-268、2011年3月(参考文献2)」に記載されている。参考文献2では、音声を入力とし、事前に登録された各音声ファイル(音声ドキュメント)との話者類似度を算出している。参考文献2はこの点においてこの発明に似たアイデアであるが、決定的に計算コストに関する考慮が欠落しているため音声ドキュメント検索には使用できない。実際、特徴量間の動的尺度やGMM尤度を算出するなど計算コストの大きな処理を前提としている。また、テキストを指定する方法について考慮されていない。参考文献2における特徴量は、フレーム(区分時間)ごとに抽出されており、音声データに対しては1つの行列(特徴量の次数×フレーム数)が得られる。この発明のような1つのベクトルではなく、この点も異なる。
話者特徴ベクトルの実施例の1つであるi-vectorは話者照合分野で開発された技術である。当該分野では、当初i-vectorのコサイン類似度により話者の照合等を行う方法が提案された。話者照合では、事前に登録されている全ての話者の音声と入力音声間の類似度を算出する。この点はこの発明と共通する部分である。しかし、i-vectorのコサイン類似度では十分な話者照合、識別の精度を出すことができず、その後、統計的な手法(例えば、Probabilistic Linear Discriminant Analysisなど)の識別技術を併用するように遷移してきている(詳しくは、「Pavel Matejka, Ondrej Glembek, Fabio Castaldo, Md. Jahangir Alam, Oldrich Plchot, Patrick Kenny, Lukas Burget, Jan Cernocky, “Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification”, ICASSP 2011, pp. 4828-4831(参考文献3)」参照)。つまり、i-vectorのコサイン類似度といった、ベクトル空間上で2点の類似度を算出するといった単純な方法では話者の識別、同定は難しいことを示している。まして、この発明の対象のような大規模なデータベースを対象にする場合は更に深刻化する。
しかし、発明者らは、音声ドキュメント検索の以下の特徴に着目することで、i-vectorのコサイン類似度でも十分に精度よく動作することに気がついた。その特徴の1つ目は、音声ドキュメント検索では、テキストクエリが存在することである。テキストクエリにより、大きく候補が限定される。これにより話者数も事実上限定される。
特徴の2つ目は、音声ドキュメント検索では、一位候補の精度よりも、上位複数候補に目的の音声ドキュメントが含まれる精度を重要視する点である。i-vectorのコサイン類似度では、一位で当てることは難しい場合も多い。しかし、上位候補に目的音声ドキュメントを挙げることは比較的容易である。
特徴の3つ目は、音声ドキュメント検索では話者照合等の分野で扱う音声と比べて、長い音声を扱う点である。長い音声を対象にすることから、話者の特徴を正確に抽出できるようになり、精度の向上が期待できる。
さらに音声ドキュメント検索では検索の高速性も求められるから、i-vectorのコサイン類似度のような低演算量の方法が向いている。
発明者らは、これらの様々な音声ドキュメント検索固有の特徴に着目し、話者特徴ベクトルをクエリに与えること、およびi-vectorのコサイン類似度のように、ベクトル空間上で2点間の類似度として話者類似度を算出することが音声ドキュメント検索に適している事に気づいたのであり、当該分野(話者照合や音声ドキュメント検索の分野)の者であっても容易に想起できるものではない。
[第三実施形態]
上述した音声ドキュメント検索の特徴の1つ目を活かす構成として、第三実施形態の音声ドキュメント検索装置及び方法を説明する。
第三実施形態の音声ドキュメント検索装置は、図10に示すように、第一実施形態の変形例と同様に、テキストクエリ入力部11、単語ベクトル抽出部13、単語ベクトル空間類似度算出部15、検索結果出力部17、音声ドキュメント記憶部18、類似度記憶部19、話者ラベル入力部30、目的話者特徴ベクトル記憶部31及び話者特徴ベクトル抽出部32を例えば含み、高類似度候補記憶部40及び話者特徴ベクトル空間類似度算出部41をさらに含む。
図11を参照して、第三実施形態の音声ドキュメント検索方法を説明する。以下では、上述の各実施形態との相違点を中心に説明する。
ステップS15において、単語ベクトル空間類似度算出部15は、音声ドキュメント記憶部18に記憶された各音声ドキュメントの単語ベクトルと、入力された単語ベクトルとから、所定の類似度尺度に従い算出されるテキスト類似度を算出し、高いテキスト類似度を持つ音声ドキュメントの候補情報を高類似度候補記憶部40に記憶する。
ステップS41において、話者特徴ベクトル空間類似度算出部41は、高類似度候補記憶部40に記憶された候補情報のうち類似度の高い上位候補に限定して、話者特徴ベクトルとの類似度を算出し、単語ベクトルおよび話者特徴ベクトルの双方に対して類似度の高い上位候補を検索結果として出力する。
第三実施形態の構成では限定された候補に対して話者特徴ベクトルの類似度を算出することになるので、検索結果を速く得ることが可能であり、また単語ベクトルに基づく類似度と話者特徴ベクトルに基づく類似度のそれぞれについて独立して候補数を制御できるため、第一実施形態または第二実施形態では得られない検索精度を持たせることができる。
[実験結果]
スマートフォンにおける音声検索や音声質問応答システム利用時の音声をデータベース化した。収音環境は様々で雑音も多分に含まれている。データベース上の音声ドキュメントのファイル数はおよそ11万である。1ファイルは1発話に相当するので、11万発話が存在することに相当する。各音声ドキュメントはファイル毎に音声認識技術により自動で発話の始端と終端が決定され、発話内容が書き起こされ、その後、認識結果中の内容語単語の頻度を要素とする単語ベクトルによって表現された。また同じく、ファイル毎に話者特徴ベクトルとしてi-vectorも事前に抽出し、データベース上に登録しておいた。5000クエリを与え、検索精度を比較した。話者、テキストともに類似度尺度としてコサイン類似度を用いた。
実験では、データベース上の全音声ドキュメントに話者ラベルが与えられている。検索時に、話者ラベルをクエリとして与えた場合と、話者ラベルの代わりに話者特徴ベクトル(i-vector)を与えた場合の精度を比較する。ただし、クエリとなるテキストは、目的音声ドキュメントの正解書き起こし(人手で与えた書き起し)である。
クエリの話者特徴ベクトルには、データベース上の目的音声ドキュメント以外から、同一話者の音声ドキュメントをランダムに抽出し、その話者特徴ベクトルを用いた。すなわち、話者類似度の最も高い音声ドキュメントは、目的音声ドキュメントにならないという状況で実験を行った。
表1に上記の実験結果として得られた検索精度を示す。
Figure 2016018229
クエリの対象者は100人である。話者ラベルがクエリに与えられた場合は、理想的な状態であるから検索精度が極めて高く、3-best(上位3候補に目的音声ドキュメントが含まれる割合)で90%を超えている。本発明は、それには及ばないものの2-bestで7割、5-bestで8割正解している。また2-bestで、話者ラベルありの場合の1-bestの精度とほぼ同等であった。この実験結果から、実用にも耐え得る精度で動作することが見て取れる。
[効果]
この発明によれば、話者指定型の音声ドキュメント検索において、大量の音声ドキュメントのすべての音声データに対して話者ラベルを付与しなくても、話者特徴ベクトルの類似度の高い話者の音声ドキュメントを検索結果として得ることができる。すなわち、それぞれに適切な話者ラベルを付与するような音声ドキュメントの整備は必要でなくなり、音声ドキュメントの整備にかかわる稼働やコストを削減できる。
話者特徴ベクトルの類似度計算においては、計算コストの小さな類似度尺度を用いることで、高速な話者指定型の音声ドキュメント検索が実現できる。
検索に際しての類似度計算においては、話者特徴ベクトルの類似度と単語ベクトル(テキストクエリ)の類似度を組み合わせた合算値が適用可能であり、検索精度等の観点で最適な類似度計算を選定して利用することができる。あるいは、単語ベクトルの類似度計算結果に基づいて音声ドキュメントの候補を限定したうえで、話者ベクトルの類似度計算に基づいた類似度の上位候補を検索結果として得る形で、検索精度を高め、かつ処理の高速化を図ることも可能である。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10 音声クエリ入力部
11 テキストクエリ入力部
12 話者特徴ベクトル抽出部
13 単語ベクトル抽出部
14 話者特徴ベクトル空間類似度算出部
15 単語ベクトル空間類似度算出部
16 類似度合算部
17 検索結果出力部
18 音声ドキュメント記憶部
19 類似度記憶部
20 音声ドキュメント話者特徴単語ベクトル作成部
21 クエリ話者特徴単語ベクトル作成部
22 話者特徴単語ベクトル空間類似度算出部
30 話者ラベル入力部
31 目的話者特徴ベクトル記憶部
32 音声データ入力部
33 話者ラベル名付与部
40 高類似度候補記憶部
41 話者特徴ベクトル空間類似度算出部

Claims (7)

  1. 複数の話者による複数の音声ドキュメントを記憶する音声ドキュメント記憶部と、
    検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと上記音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出部と、
    上記話者類似度が高い上記音声ドキュメントを出力する検索結果出力部と、
    を含む音声ドキュメント検索装置。
  2. 請求項1に記載の音声ドキュメント検索装置であって、
    検索対象とするテキストの単語ベクトルと上記音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する単語ベクトル空間類似度算出部と、
    上記話者類似度と上記テキスト類似度を合算した話者テキスト類似度を算出する類似度合算部と、
    をさらに含み、
    上記検索結果出力部は、上記話者テキスト類似度が高い上記音声ドキュメントを出力するものである
    音声ドキュメント検索装置。
  3. 請求項1に記載の音声ドキュメント検索装置であって、
    検索対象とするテキストの単語ベクトルと上記音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する単語ベクトル空間類似度算出部と、
    上記テキスト類似度が高い上記音声ドキュメントを特定する候補情報を記憶する高類似度候補記憶部と、
    をさらに含み、
    上記話者特徴ベクトル空間類似度算出部は、上記目的話者特徴ベクトルと上記候補情報により特定される上記音声ドキュメントを発話した話者の話者特徴ベクトルとから上記話者類似度を算出するものである
    音声ドキュメント検索装置。
  4. 請求項1から3のいずれかに記載の音声ドキュメント検索装置であって、
    検索対象とする話者が発話した音声データから話者特徴ベクトルを抽出して上記目的話者特徴ベクトルを生成する話者特徴ベクトル抽出部
    をさらに含む音声ドキュメント検索装置。
  5. 請求項1から3のいずれかに記載の音声ドキュメント検索装置であって、
    上記音声ドキュメントを発話した話者を特定する話者ラベルと当該話者の話者特徴ベクトルとを関連付けて記憶する目的話者特徴ベクトル記憶部と、
    検索対象とする話者を特定する話者ラベルと一致する話者特徴ベクトルを上記目的話者特徴ベクトル記憶部から抽出して上記目的話者特徴ベクトルを生成する話者特徴ベクトル抽出部と、
    をさらに含む音声ドキュメント検索装置。
  6. 音声ドキュメント記憶部に、複数の話者による複数の音声ドキュメントが記憶されており、
    話者特徴ベクトル空間類似度算出部が、検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと上記音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出ステップと、
    検索結果出力部が、上記話者類似度が高い上記音声ドキュメントを出力する検索結果出力ステップと、
    を含む音声ドキュメント検索方法。
  7. 請求項1から5のいずれかに記載の音声ドキュメント検索装置としてコンピュータを機能させるためのプログラム。
JP2014138333A 2014-07-04 2014-07-04 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム Active JP6208631B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014138333A JP6208631B2 (ja) 2014-07-04 2014-07-04 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014138333A JP6208631B2 (ja) 2014-07-04 2014-07-04 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016018229A true JP2016018229A (ja) 2016-02-01
JP6208631B2 JP6208631B2 (ja) 2017-10-04

Family

ID=55233447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014138333A Active JP6208631B2 (ja) 2014-07-04 2014-07-04 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6208631B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127938A (ja) * 2016-02-02 2016-07-14 サミー株式会社 ぱちんこ遊技機
JP2016144639A (ja) * 2016-02-02 2016-08-12 サミー株式会社 ぱちんこ遊技機
JP2019216408A (ja) * 2018-06-08 2019-12-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報を出力するための方法、及び装置
WO2020066673A1 (ja) * 2018-09-26 2020-04-02 日本電信電話株式会社 タグ推定装置、タグ推定方法、プログラム
US12002486B2 (en) 2018-09-26 2024-06-04 Nippon Telegraph And Telephone Corporation Tag estimation device, tag estimation method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2000250593A (ja) * 1999-03-03 2000-09-14 Fujitsu Ltd 話者認識装置及び方法
WO2008114811A1 (ja) * 2007-03-19 2008-09-25 Nec Corporation 情報検索システム、情報検索方法及び情報検索用プログラム
JP2009216986A (ja) * 2008-03-11 2009-09-24 Hitachi Ltd 音声データ検索システム及び音声データの検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2000250593A (ja) * 1999-03-03 2000-09-14 Fujitsu Ltd 話者認識装置及び方法
WO2008114811A1 (ja) * 2007-03-19 2008-09-25 Nec Corporation 情報検索システム、情報検索方法及び情報検索用プログラム
JP2009216986A (ja) * 2008-03-11 2009-09-24 Hitachi Ltd 音声データ検索システム及び音声データの検索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127938A (ja) * 2016-02-02 2016-07-14 サミー株式会社 ぱちんこ遊技機
JP2016144639A (ja) * 2016-02-02 2016-08-12 サミー株式会社 ぱちんこ遊技機
JP2019216408A (ja) * 2018-06-08 2019-12-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報を出力するための方法、及び装置
US11006179B2 (en) 2018-06-08 2021-05-11 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for outputting information
WO2020066673A1 (ja) * 2018-09-26 2020-04-02 日本電信電話株式会社 タグ推定装置、タグ推定方法、プログラム
JP2020052611A (ja) * 2018-09-26 2020-04-02 日本電信電話株式会社 タグ推定装置、タグ推定方法、プログラム
US12002486B2 (en) 2018-09-26 2024-06-04 Nippon Telegraph And Telephone Corporation Tag estimation device, tag estimation method, and program

Also Published As

Publication number Publication date
JP6208631B2 (ja) 2017-10-04

Similar Documents

Publication Publication Date Title
US8756064B2 (en) Method and system for creating frugal speech corpus using internet resources and conventional speech corpus
US9454957B1 (en) Named entity resolution in spoken language processing
US10133538B2 (en) Semi-supervised speaker diarization
US20180197548A1 (en) System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
CN107481720B (zh) 一种显式声纹识别方法及装置
WO2018149209A1 (zh) 语音识别方法、电子设备以及计算机存储介质
US10311147B2 (en) Machine translation apparatus and machine translation method
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
US9734828B2 (en) Method and apparatus for detecting user ID changes
WO2020018787A1 (en) Automatic speech recognition correction
EP2548202A1 (en) Methods and apparatus for extracting alternate media titles to facilitate speech recognition
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
KR20190113712A (ko) 환경 콘텍스트를 이용한 질문 답변
JP6208631B2 (ja) 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
CN105956053A (zh) 一种基于网络信息的搜索方法及装置
CN105206274A (zh) 一种语音识别的后处理方法及装置和语音识别系统
US20160210353A1 (en) Data lookup and operator for excluding unwanted speech search results
US20140114656A1 (en) Electronic device capable of generating tag file for media file based on speaker recognition
CN108197319A (zh) 一种基于时频局部能量的特征点的音频检索方法和系统
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
WO2020110815A1 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
CN111223487B (zh) 一种信息处理方法及电子设备
Javed et al. Indicsuperb: A speech processing universal performance benchmark for indian languages
CN111798841A (zh) 声学模型训练方法、系统、移动终端及存储介质
CN111782779B (zh) 语音问答方法、系统、移动终端及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170907

R150 Certificate of patent or registration of utility model

Ref document number: 6208631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150