JP3686934B2

JP3686934B2 - 異種環境音声データの音声検索方法及び装置

Info

Publication number: JP3686934B2
Application number: JP2001017485A
Authority: JP
Inventors: 和世田中
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2001-01-25
Filing date: 2001-01-25
Publication date: 2005-08-24
Anticipated expiration: 2021-01-25
Also published as: JP2002221984A

Description

【０００１】
【発明の属する技術分野】
本願発明は、インターネット上などに蓄積された音声を含むマルチメディアデータベースなどに対し、ユーザがキーワード音声による検索を行うことができるシステムであり、検索対象データベースと検索キーワードが共に音声である点が特徴の１つである。本願発明は、特に、検索対象データが多言語音声やビデオ収録音声など、ユーザの使用環境と大きく異なる使用条件の場合に有効である。例えば、検索対象データは、ネイティブ話者の英語ニュース音声に対して、ユーザは、ノンネイティブ話者、あるいは携帯電話音声などの使用環境が例として挙げられる。
【０００２】
【従来の技術】
従来の音声検索装置は、図２または図3に示すシステム構成が主要なものであった。図２においては、検索対象を自然言語テキスト（文字列）を含むデーベース（DB）と想定し、ユーザの検索用キーワード音声を音声認識して単語などの文字列に変換し、この文字列をDBの文字列中から検索するものである。逆に、図3のタイプでは、DB側が音声を含むデータベースで、検索にはユーザがキーボードからキーワード文字列を入力するものである［ J.T. Foote, S.J. Young, G.J.F. Jones, K.S. Jones, " Unconstrained keyword spotting using phone lattices with application to spoken document retrieval," Computer Speech and Language, Vol. 11, pp.207-224, 1997.］。
【０００３】
この２つのタイプのシステムは、本願発明とは検索対象DBまたはキーワード入力のメディア形態が異なり、機能を異にするものである。なお、このタイプの装置では、図２の場合、キーワード音声の自動音声認識、図3の場合、DB中の音声の音声認識が必要で、この認識技術自体が難しい技術であり言語、語彙、発声形態などに制約があった。
【０００４】
一方、本願発明同様に、検索対象と検索音声の双方が音声データであるシステムも提案されている。この場合は、両者の音声からそれぞれ抽出される音響特徴量時系列の最適整合をとることによって、検索を行うものである（伊藤慶明他、「Reference Interval-free連続DPを用いた自然な発話音声によるテキストおよび音声データベースのリアルタイム検索」、日本音響学会講演論文集 1-Q-24（1995年9月））。
【０００５】
しかし、本願発明のように、ユーザ音声とDB音声の個別に符号化を行い、符号間距離を導入して符号系列整合を行うという枠組みはない。したがって、検索対象と検索音声の両者が同様な特性の音声でなければ音響特徴量の類似性は認められず、性能劣化が激しい。
【０００６】
【発明が解決しようとする課題】
音声検索システムには、ディジタル放送の将来的進展を考慮すると放送音声DBなどのように単純に蓄積されただけの音声データDBを検索対象とするシステムも強く必要とされる。しかしながら、検索対象データ自体が最初から音声認識を意識して作成されているわけではないので、多種多様な蓄積音声データを文字言語化するのは、語彙的・文法的制約が難しく実際上困難である。また、検索対象DBとユーザの音声との質的な違い（例えば、大人と子供、放送音声と携帯電話、ネイティブ話者とノンネイティブ話者など）も検索システムとしては技術上重要な障壁である。
【０００７】
したがって、本願発明では次のような課題を解決する技法を開発した。
ア）音声検索において、検索対象音声DBとユーザの検索音声の特性が大きく異なっていても高い性能を発揮できる枠組みの開発。
イ）検索対象音声DBおよびユーザ検索音声の音声認識を必要としない方式の開発。
ウ）多言語音声に対応できる手法の開発。
【０００８】
【課題を解決するための手段】
上記のア)とイ）の課題は次のような方式によって解決される。参照説明図を図１に示す。まず、音声言語を記述する汎用の符号系（Sub-Phonetic Segment、以下「 SPS」と略記する。）を導入する。検索対象音声▲１▼は、検索対象音声に依存したデータを用いて学習したSPS音響モデル▲５▼により符号化を行い、符号系列データベース▲２▼を得る。ユーザのキーワード音声▲３▼は、ユーザの使用環境に依存したデータを用いて学習したSPS音響モデル▲６▼により符号化を行い、その系列データ▲４▼を得る。ここで▲１▼に依存したデータを用いた学習とは、例えば、▲１▼が英国のBBC放送DBであれば、適量のBBC放送DBを用いてSPS音響モデルを適応学習させて▲５▼を得ることである。なお、上記の符号化の手法は、SPSの接続関係を考慮した符号化とし、符号の種類は本件と異なるが、符号化手法自体は、公知である隠れマルコフモデル（HMM）を用いることができる[S. Young, HTK- Hidden Markov Model Toolkit , Entropic Cambridge Research Lab,1996.]。
【０００９】
一方、より一般的な音声データを用いて、SPS符号のすべてのペアについて符号間距離行列▲８▼を計算しておく。この距離は、２個のSPS音響モデル同士の距離として定義できる。キーワードのSPS系列データ▲４▼をデータベース▲２▼の中から検索するには、動的計画法▲７▼を用いる。このとき距離行列▲８▼を用い、キーワードSPS系列とDBの部分SPS系列との距離を連続的に計算し、距離がある閾値以下になったとき、キーワードが検出されたとして検索結果を出力する。この動的計画法を用いる計算法は公知の手法である（岡隆一著、「連続DPを用いた連続単語認識」、日本音響学会音声研究会資料S78‐20（1978年））。
【００１０】
本願発明においては、イ）の特長を有するため、上記の閾値を制御することで、目的に応じてキーワードのヒット率を上下することができる。また、ユーザがキーワードを2個以上指定することも可能である。例えば、1個ごとにポーズを入れて区切って発声することによりこれが可能になり、検索は2個以上のキーワード音声の各々について並列に整合処理を行うことで実現できる。
【００１１】
上記ウ）の課題は、国際音声記号（International Phonetic Alphabet, IPA）に準拠した記号系を定義し、さらにこれを細分化した独自符号系（サブ音声セグメント、SPS）を導入することにより、言語系に共通な音声表現符号系を開発した。
【００１２】
【作用】
上記の処理によって、検索対象DBとユーザのキーワード音声は、それぞれの環境に依存したSPS音響モデルによりSPS系列に変換されるため、それぞれの環境の固有特性が吸収され、一般的な言語音声記号列としてのSPS系列に変換される。したがって、汎用のSPSペア間距離に基いてキーワード音声とDB系列の相互距離が適正に評価できる。
【００１３】
また、これらの処理では、どこにも音声認識の処理はなく、音声認識には必要となる単語数のような語彙規模の制限、また文、文節、単語など文法的単位の制約も無い。さらに、[００１０]の項で述べたように、閾値を制御すれば、キーワードに対する（湧出し誤りであるゴーストは増えるが）検出率を上げることも可能である。
【００１４】
日本語、英語などの言語系を指定すると、これを▲５▼と▲６▼のSPSモデルに反映できる。しかし、学習用音声サンプルが十分あれば、その必要は必ずしもない。システム全体は、言語系に係らず符号系自体や距離行列▲８▼を変更する必要はなく、また処理手法自体も変更の必要はない。
【００１５】
【実施例】
ここでは、検索対象DBとして、ネイティブ話者の英語音声データを用い、ユーザーのキーワード音声として日本語母語話者の英語音声を用いた実施例を以下に示す。
【００１６】
（ア）音声データについて
検索対象音声としては、英語ネイティブ話者の発声した英語駅名セット（語数311語）を用意し、ユーザのキーワード音声としては、日本人話者の発声した同じく英語駅名、311語を用意した。
【００１７】
（イ）ＳＰＳ符号系について
SPS符号系は、IPAに準拠した記号系XSAMPAを修正した記号系から、規則により生成する(表１参照)。この規則は、音声の物理音響特性を考慮し、音声記号の遷移区間と定常区間を分離して工学的処理に適した表現にしたものである。その適用例を示すと、たとえば、英国の駅名「Acle」の発音はXSAPMAでeIklと表記され、その各発音記号文字に表1の規則を適用してSPS符号列に変換すると次のようになる。
#e, ee, eI, II, Ik, kcl, kk, kl, ll, l#
同様に、日本の駅名「神戸」は、XSAMPAでkoobeと表記され、そのSPS符号列は#kcl, kk, ko, ooo, ob, bcl, bb, be, ee, e#
となる。
【表１】

【００１８】
（ウ）SPS音響モデルについて
隠れマルコフモデル（HMM）で表現する。各HMMは、3状態3ループのLRモデルで、各状態は、1ないし2個のガウス分布確率密度関数でモデル化する。これをSPS‐HMMと書く。
SPS‐HMMの音響量ベクトルには、多くのシステムで用いられているメルケプストラムと△メルケプストラムを用いる。それぞれの次元数は12次元（計24次元）である。
SPS‐HMMの初期値は、予め作成しておいたIPA記号ラベルのHMMを基に、規則により計算する。ここで、IPA記号ラベルのHMMは既存の英語音声データベースから求められる。ここでは米国LDCより販売されているTIMITデータを使用した。
SPS‐HMMの初期値を本システムに適応させる学習は、まず、基礎英語単語（850語のセット）を日本人およびネイティブ話者が発声した音声を用いて行い、上のSPS‐HMMの初期値から汎用SPS‐HMMを作成する。この汎用HMMを元に、音響モデル▲５▼のSPS‐HMMについては英語ネイティブ話者の音声データを用いて適応化を行う。また、同▲６▼については、日本人話者の英語音声を用いて適応化を行う。学習の繰り返し回数は3回程度でよい。これらの学習法は、例えば市販のソフトウエアツールHTK[上記Youngの著書参照]を用いて行うことができる。
SPSペア距離行列の計算は、上記の汎用SPS‐HMMを使用した。各ペアの距離は2個のHMMの距離として定義されるので、次式のように与えられる。各状態の確率分布のセントロイドの値 c_ij(k) (k:ラベル、i:状態Ｎｏ．、j:サブ分布No.)を用いて、各セグメントラベルｋとｌの距離は次式のように定める。
【式１】

【００１９】
（エ）動的計画法（ＤＰ）を利用したキーワード検索について
今回は動作の有効性を検証するための基礎実験であるから、キーワード▲４▼が、DB▲２▼の単語セットに含まれる同一の単語に最大尤度で整合することが正解となる。
このキーワードとDB単語セットの個々の単語との距離は次式のような動的計画法によって求められる。
【式２】

ただし、
G(m,n): 累積距離
D(m,n): キーワードのm番目SPSと検索DB中の文のn番目SPSの間の距離,
m=1,2,...,M, n=1,2,...,N
なお、初期境界条件は以下の通り
【式３】

次に、今回の実験では、このG(m,n)が検索対象DB側の終端付近で極小となる値を求め、この値が最小となる検索対象DB側の単語を選択し、検索結果の単語とする。これが入力側キーワードと一致した場合を正解とみなす。この条件は、検索対象DBが特殊な場合を想定したことなるが、性能評価の目安を得ることはできる。
【００２０】
【実験結果】
学習データに用いた話者とは別のユーザ話者（日本人）3名と、検索対象話者（英語ネイティブ）3名との組み合わせについて、実験を繰り返したところ以下のような結果を得た。ユーザ側1名(311語)に対して、検索対象は311x3（名）＝993サンプル、したがって、全テストサンプル数は2979サンプル。その結果、正解率80％程度を得た。この結果は、音響モデルの分布数をさらに増大することで精度を上げることが可能である。このように、本願発明による音声検索は極めて良好なものであることが判明した。
【００２１】
【発明の効果】
音声符号であるSPS音響モデルを、検索対象音声データ、ユーザ音声データのそれぞれに依存して作成し、それぞれを個別に符号化することにより、双方が異種環境（大人と子供の音声、ネイティブ話者とノンネイティブ話者、放送音声や回線・周辺ノイズのような収録環境、などの異なり）において収録されたデータであっても対応できる。また、検索対象およびキーワード音声ともに、語彙無制限、単語・文の区別不要であり、多言語対応装置としても有効に動作する。
【図面の簡単な説明】
【図１】本願発明に係る音声検索装置のブロック図
【図２】従来の音声検索装置Ａのブロック図
【図３】従来の音声検索装置Ｂのブロック図
【符号の説明】
１検索対象音声データベース
２サブ音素（ＳＰＳ）系列データ
３キーワード音声
４サブ音素（ＳＰＳ）系列データ
５データベース用ＳＰＳ音響モデル
６検索用ＳＰＳ音響モデル
７動的計画法によるワードスポッティング
８ＳＰＳペア距離行列
９検索結果

Claims

音声検索方法において、検索対象音声データを検索対象音声データに依存したＳＰＳ音響モデルにより符号化し、ユーザ音声をユーザ音声に依存したＳＰＳ音響モデルにより符号化し、２個のＳＰＳ間の距離を表す符号間距離行列を利用した２つのＳＰＳ系列間の最適な整合距離をとる整合処理を行うことを特徴とする音声検索方法。
上記符号化は、多言語対応音声符号を採用し、上記検索対象音声データ及び上記ユーザ音声を符号化することを特徴とする請求項１記載の音声検索方法。
検索対象音声データに依存したＳＰＳ音響モデルによる符号化装置、ユーザ音声に依存したＳＰＳ音響モデルによる符号化装置及び符号間距離行列を利用した整合処理装置からなることを特徴とする音声検索装置。
上記符号化装置は、多言語対応音声符号を採用し、上記検索対象音声データ及び上記ユーザ音声を符号化することを特徴とする請求項３記載の音声検索装置。