JP2002221984A

JP2002221984A - 異種環境音声データの音声検索方法及び装置

Info

Publication number: JP2002221984A
Application number: JP2001017485A
Authority: JP
Inventors: Kazuyo Tanaka; 和世田中
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2001-01-25
Filing date: 2001-01-25
Publication date: 2002-08-09
Anticipated expiration: 2021-01-25
Also published as: JP3686934B2

Abstract

(57)【要約】【課題】多様な多言語の蓄積音声データに対して、ユ
ーザが音声により検索を行うシステムにおいて、例え
ば、ネイティブ英語音声の蓄積データに対して、ノンネ
イティブ・ユーザの音声でも高精度に検索できるなど、
一般に収録環境や母語音声が異なる蓄積データに対して
も有効に機能する多言語対応音声検索装置を提供する。【解決手段】以下の(A), (B), (C)ブロックから構成
される。 (A)検索対象音声データを多言語対応セグメント（SPS）
の音響モデルを用いてSPS系列へ符号化する。 (B)ユーザの検索音声をSPSモデルを用いてSPS系列へ符
号化する。 (C)SPS系列に最適適合するSPS系列をの中からSPSペア距
離行列を利用した動的計画法により探索し、その結果を
出力する。このとき、音響モデルは検索対象データに依存して作成
し、SPSモデルはユーザ音声に依存して作成し、距離行
列は汎用の音声データから作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本願発明は、インターネット
上などに蓄積された音声を含むマルチメディアデータベ
ースなどに対し、ユーザがキーワード音声による検索を
行うことができるシステムであり、検索対象データベー
スと検索キーワードが共に音声である点が特徴の１つで
ある。本願発明は、特に、検索対象データが多言語音声
やビデオ収録音声など、ユーザの使用環境と大きく異な
る使用条件の場合に有効である。例えば、検索対象デー
タは、ネイティブ話者の英語ニュース音声に対して、ユ
ーザは、ノンネイティブ話者、あるいは携帯電話音声な
どの使用環境が例として挙げられる。

【０００２】

【従来の技術】従来の音声検索装置は、図２または図3
に示すシステム構成が主要なものであった。図２におい
ては、検索対象を自然言語テキスト（文字列）を含むデ
ーベース（DB）と想定し、ユーザの検索用キーワード音
声を音声認識して単語などの文字列に変換し、この文字
列をDBの文字列中から検索するものである。逆に、図3
のタイプでは、DB側が音声を含むデータベースで、検索
にはユーザがキーボードからキーワード文字列を入力す
るものである［ J.T. Foote, S.J. Young, G.J.F. Jone
s, K.S. Jones, " Unconstrained keyword spotting us
ing phone lattices with application to spoken docu
ment retrieval," Computer Speech andLanguage, Vol.
11, pp.207-224, 1997.］。

【０００３】この２つのタイプのシステムは、本願発明
とは検索対象DBまたはキーワード入力のメディア形態が
異なり、機能を異にするものである。なお、このタイプ
の装置では、図２の場合、キーワード音声の自動音声認
識、図3の場合、DB中の音声の音声認識が必要で、この
認識技術自体が難しい技術であり言語、語彙、発声形態
などに制約があった。

【０００４】一方、本願発明同様に、検索対象と検索音
声の双方が音声データであるシステムも提案されてい
る。この場合は、両者の音声からそれぞれ抽出される音
響特徴量時系列の最適整合をとることによって、検索を
行うものである（伊藤慶明他、「Reference Interval-f
ree連続DPを用いた自然な発話音声によるテキストおよ
び音声データベースのリアルタイム検索」、日本音響学
会講演論文集 1-Q-24（1995年9月））。

【０００５】しかし、本願発明のように、ユーザ音声と
DB音声の個別に符号化を行い、符号間距離を導入して符
号系列整合を行うという枠組みはない。したがって、検
索対象と検索音声の両者が同様な特性の音声でなければ
音響特徴量の類似性は認められず、性能劣化が激しい。

【０００６】

【発明が解決しようとする課題】音声検索システムに
は、ディジタル放送の将来的進展を考慮すると放送音声
DBなどのように単純に蓄積されただけの音声データDBを
検索対象とするシステムも強く必要とされる。しかしな
がら、検索対象データ自体が最初から音声認識を意識し
て作成されているわけではないので、多種多様な蓄積音
声データを文字言語化するのは、語彙的・文法的制約が
難しく実際上困難である。また、検索対象DBとユーザの
音声との質的な違い（例えば、大人と子供、放送音声と
携帯電話、ネイティブ話者とノンネイティブ話者など）
も検索システムとしては技術上重要な障壁である。

【０００７】したがって、本願発明では次のような課題
を解決する技法を開発した。音声検索において、検索対
象音声DBとユーザの検索音声の特性が大きく異なってい
ても高い性能を発揮できる枠組みの開発。検索対象音声
DBおよびユーザ検索音声の音声認識を必要としない方式
の開発。多言語音声に対応できる手法の開発。

【０００８】

【課題を解決するための手段】上記のア)とイ）の課題
は次のような方式によって解決される。参照説明図を図
１に示す。まず、音声言語を記述する汎用の符号系（Su
b-Phonetic Segment、以下「 SPS」と略記する。）を導
入する。検索対象音声は、検索対象音声に依存したデ
ータを用いて学習したSPS音響モデルにより符号化を
行い、符号系列データベースを得る。ユーザのキーワ
ード音声は、ユーザの使用環境に依存したデータを用
いて学習したSPS音響モデルにより符号化を行い、そ
の系列データを得る。ここでに依存したデータを用
いた学習とは、例えば、が英国のBBC放送DBであれ
ば、適量のBBC放送DBを用いてSPS音響モデルを適応学習
させてを得ることである。なお、上記の符号化の手法
は、SPSの接続関係を考慮した符号化とし、符号の種類
は本件と異なるが、符号化手法自体は、公知である隠れ
マルコフモデル（HMM）を用いることができる[S. Youn
g, HTK- Hidden Markov Model Toolkit , Entropic Cam
bridge Research Lab,1996.]。

【０００９】一方、より一般的な音声データを用いて、
SPS符号のすべてのペアについて符号間距離行列を計
算しておく。この距離は、２個のSPS音響モデル同士の
距離として定義できる。キーワードのSPS系列データ
をデータベースの中から検索するには、動的計画法
を用いる。このとき距離行列を用い、キーワードSPS
系列とDBの部分SPS系列との距離を連続的に計算し、距
離がある閾値以下になったとき、キーワードが検出され
たとして検索結果を出力する。この動的計画法を用いる
計算法は公知の手法である（岡隆一著、「連続DPを用い
た連続単語認識」、日本音響学会音声研究会資料S78‐2
0（1978年））。

【００１０】本願発明においては、イ）の特長を有する
ため、上記の閾値を制御することで、目的に応じてキー
ワードのヒット率を上下することができる。また、ユー
ザがキーワードを2個以上指定することも可能である。
例えば、1個ごとにポーズを入れて区切って発声するこ
とによりこれが可能になり、検索は2個以上のキーワー
ド音声の各々について並列に整合処理を行うことで実現
できる。

【００１１】上記ウ）の課題は、国際音声記号（Intern
ational Phonetic Alphabet, IPA）に準拠した記号系を
定義し、さらにこれを細分化した独自符号系（サブ音声
セグメント、SPS）を導入することにより、言語系に共
通な音声表現符号系を開発した。

【００１２】

【作用】上記の処理によって、検索対象DBとユーザのキ
ーワード音声は、それぞれの環境に依存したSPS音響モ
デルによりSPS系列に変換されるため、それぞれの環境
の固有特性が吸収され、一般的な言語音声記号列として
のSPS系列に変換される。したがって、汎用のSPSペア間
距離に基いてキーワード音声とDB系列の相互距離が適正
に評価できる。

【００１３】また、これらの処理では、どこにも音声認
識の処理はなく、音声認識には必要となる単語数のよう
な語彙規模の制限、また文、文節、単語など文法的単位
の制約も無い。さらに、[００１０]の項で述べたよう
に、閾値を制御すれば、キーワードに対する（湧出し誤
りであるゴーストは増えるが）検出率を上げることも可
能である。

【００１４】日本語、英語などの言語系を指定すると、
これをとのSPSモデルに反映できる。しかし、学習
用音声サンプルが十分あれば、その必要は必ずしもな
い。システム全体は、言語系に係らず符号系自体や距離
行列を変更する必要はなく、また処理手法自体も変更
の必要はない。

【００１５】

【実施例】ここでは、検索対象DBとして、ネイティブ話
者の英語音声データを用い、ユーザーのキーワード音声
として日本語母語話者の英語音声を用いた実施例を以下
に示す。

【００１６】（ア）音声データについて検索対象音声としては、英語ネイティブ話者の発声した
英語駅名セット（語数311語）を用意し、ユーザのキー
ワード音声としては、日本人話者の発声した同じく英語
駅名、311語を用意した。

【００１７】（イ）ＳＰＳ符号系について SPS符号系は、IPAに準拠した記号系XSAMPAを修正した記
号系から、規則により生成する(表１参照)。この規則
は、音声の物理音響特性を考慮し、音声記号の遷移区間
と定常区間を分離して工学的処理に適した表現にしたも
のである。その適用例を示すと、たとえば、英国の駅名
「Acle」の発音はXSAPMAでeIklと表記され、その各発音
記号文字に表1の規則を適用してSPS符号列に変換すると
次のようになる。 #e, ee, eI, II, Ik, kcl, kk, kl, ll, l# 同様に、日本の駅名「神戸」は、XSAMPAでkoobeと表記
され、そのSPS符号列は #kcl, kk, ko, ooo, ob, bcl, bb, be, ee, e# となる。

【表１】

【００１８】（ウ）SPS音響モデルについて隠れマルコフモデル（HMM）で表現する。各HMMは、3状
態3ループのLRモデルで、各状態は、1ないし2個のガウ
ス分布確率密度関数でモデル化する。これをSPS‐HMMと
書く。 SPS‐HMMの音響量ベクトルには、多くのシステムで用い
られているメルケプストラムと△メルケプストラムを用
いる。それぞれの次元数は12次元（計24次元）である。 SPS‐HMMの初期値は、予め作成しておいたIPA記号ラベ
ルのHMMを基に、規則により計算する。ここで、IPA記号
ラベルのHMMは既存の英語音声データベースから求めら
れる。ここでは米国LDCより販売されているTIMITデータ
を使用した。 SPS‐HMMの初期値を本システムに適応させる学習は、ま
ず、基礎英語単語（850語のセット）を日本人およびネ
イティブ話者が発声した音声を用いて行い、上のSPS‐H
MMの初期値から汎用SPS‐HMMを作成する。この汎用HMM
を元に、音響モデルのSPS‐HMMについては英語ネイテ
ィブ話者の音声データを用いて適応化を行う。また、同
については、日本人話者の英語音声を用いて適応化を
行う。学習の繰り返し回数は3回程度でよい。これらの
学習法は、例えば市販のソフトウエアツールHTK[上記Yo
ungの著書参照]を用いて行うことができる。SPSペア距
離行列の計算は、上記の汎用SPS‐HMMを使用した。各ペ
アの距離は2個のHMMの距離として定義されるので、次式
のように与えられる。各状態の確率分布のセントロイド
の値 c_ij(k) (k:ラベル、i:状態Ｎｏ．、j:サブ分布N
o.)を用いて、各セグメントラベルｋとｌの距離は次式
のように定める。

【式１】

【００１９】（エ）動的計画法（ＤＰ）を利用したキー
ワード検索について今回は動作の有効性を検証するための基礎実験であるか
ら、キーワードが、DBの単語セットに含まれる同一
の単語に最大尤度で整合することが正解となる。このキ
ーワードとDB単語セットの個々の単語との距離は次式の
ような動的計画法によって求められる。

【式２】ただし、 G(m,n): 累積距離 D(m,n): キーワードのm番目SPSと検索DB中の文のn番目S
PSの間の距離, m=1,2,...,M, n=1,2,...,N なお、初期境界条件は以下の通り

【式３】次に、今回の実験では、このG(m,n)が検索対象DB側の終
端付近で極小となる値を求め、この値が最小となる検索
対象DB側の単語を選択し、検索結果の単語とする。これ
が入力側キーワードと一致した場合を正解とみなす。こ
の条件は、検索対象DBが特殊な場合を想定したことなる
が、性能評価の目安を得ることはできる。

【００２０】

【実験結果】学習データに用いた話者とは別のユーザ話
者（日本人）3名と、検索対象話者（英語ネイティブ）3
名との組み合わせについて、実験を繰り返したところ以
下のような結果を得た。ユーザ側1名(311語)に対して、
検索対象は311x3（名）＝993サンプル、したがって、全
テストサンプル数は2979サンプル。その結果、正解率80
％程度を得た。この結果は、音響モデルの分布数をさら
に増大することで精度を上げることが可能である。この
ように、本願発明による音声検索は極めて良好なもので
あることが判明した。

【００２１】

【発明の効果】音声符号であるSPS音響モデルを、検索
対象音声データ、ユーザ音声データのそれぞれに依存し
て作成し、それぞれを個別に符号化することにより、双
方が異種環境（大人と子供の音声、ネイティブ話者とノ
ンネイティブ話者、放送音声や回線・周辺ノイズのよう
な収録環境、などの異なり）において収録されたデータ
であっても対応できる。また、検索対象およびキーワー
ド音声ともに、語彙無制限、単語・文の区別不要であ
り、多言語対応装置としても有効に動作する。

【図面の簡単な説明】

【図１】本願発明に係る音声検索装置のブロック図

【図２】従来の音声検索装置Ａのブロック図

【図３】従来の音声検索装置Ｂのブロック図

【符号の説明】

１検索対象音声データベース２サブ音素（ＳＰＳ）系列データ３キーワード音声４サブ音素（ＳＰＳ）系列データ５データベース用ＳＰＳ音響モデル６検索用ＳＰＳ音響モデル７動的計画法によるワードスポッティング８ＳＰＳペア距離行列９検索結果

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/30 ３５０Ｇ１０Ｌ 3/00 ５２１ＲＧ１０Ｌ 15/06 ５３１Ｗ 15/08 ５３５Ｄ 15/10 15/14

Claims

【特許請求の範囲】

【請求項１】検索用音声データを音響モデルにより符
号化し、ユーザ音声を音響モデルにより符号化し、符号
間距離行列を利用した整合処理を行うことを特徴とする
音声検索方法。
【請求項２】音響モデルにおける符号化は、多言語対
応音声符号を採用し、検索対象音声データ及び検索用ユ
ーザ音声を符号化することを特徴とする請求項１記載の
音声検索方法。
【請求項３】検索用音声データに依存した音響モデル
による符号化装置、ユーザ音声に依存した音響モデルに
よる符号化装置及び符号間距離行列を利用した整合処理
装置からなることを特徴とする音声検索装置。
【請求項４】音響モデルにおける符号化は、多言語対
応音声符号を採用し、検索対象音声データ及び検索用ユ
ーザ音声を符号化することを特徴とする請求項３記載の
音声検索装置。