JP2002221984A - 異種環境音声データの音声検索方法及び装置 - Google Patents

異種環境音声データの音声検索方法及び装置

Info

Publication number
JP2002221984A
JP2002221984A JP2001017485A JP2001017485A JP2002221984A JP 2002221984 A JP2002221984 A JP 2002221984A JP 2001017485 A JP2001017485 A JP 2001017485A JP 2001017485 A JP2001017485 A JP 2001017485A JP 2002221984 A JP2002221984 A JP 2002221984A
Authority
JP
Japan
Prior art keywords
voice
sps
speech
search
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001017485A
Other languages
English (en)
Other versions
JP3686934B2 (ja
Inventor
Kazuyo Tanaka
和世 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2001017485A priority Critical patent/JP3686934B2/ja
Publication of JP2002221984A publication Critical patent/JP2002221984A/ja
Application granted granted Critical
Publication of JP3686934B2 publication Critical patent/JP3686934B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多様な多言語の蓄積音声データに対して、ユ
ーザが音声により検索を行うシステムにおいて、例え
ば、ネイティブ英語音声の蓄積データに対して、ノンネ
イティブ・ユーザの音声でも高精度に検索できるなど、
一般に収録環境や母語音声が異なる蓄積データに対して
も有効に機能する多言語対応音声検索装置を提供する。 【解決手段】 以下の(A), (B), (C)ブロックから構成
される。 (A)検索対象音声データを多言語対応セグメント(SPS)
の音響モデルを用いてSPS系列へ符号化する。 (B)ユーザの検索音声をSPSモデルを用いてSPS系列へ符
号化する。 (C)SPS系列に最適適合するSPS系列をの中からSPSペア距
離行列を利用した動的計画法により探索し、その結果を
出力する。 このとき、音響モデルは検索対象データに依存して作成
し、SPSモデルはユーザ音声に依存して作成し、距離行
列は汎用の音声データから作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本願発明は、インターネット
上などに蓄積された音声を含むマルチメディアデータベ
ースなどに対し、ユーザがキーワード音声による検索を
行うことができるシステムであり、検索対象データベー
スと検索キーワードが共に音声である点が特徴の1つで
ある。本願発明は、特に、検索対象データが多言語音声
やビデオ収録音声など、ユーザの使用環境と大きく異な
る使用条件の場合に有効である。例えば、検索対象デー
タは、ネイティブ話者の英語ニュース音声に対して、ユ
ーザは、ノンネイティブ話者、あるいは携帯電話音声な
どの使用環境が例として挙げられる。
【0002】
【従来の技術】従来の音声検索装置は、図2または図3
に示すシステム構成が主要なものであった。図2におい
ては、検索対象を自然言語テキスト(文字列)を含むデ
ーベース(DB)と想定し、ユーザの検索用キーワード音
声を音声認識して単語などの文字列に変換し、この文字
列をDBの文字列中から検索するものである。逆に、図3
のタイプでは、DB側が音声を含むデータベースで、検索
にはユーザがキーボードからキーワード文字列を入力す
るものである[ J.T. Foote, S.J. Young, G.J.F. Jone
s, K.S. Jones, " Unconstrained keyword spotting us
ing phone lattices with application to spoken docu
ment retrieval," Computer Speech andLanguage, Vol.
11, pp.207-224, 1997.]。
【0003】この2つのタイプのシステムは、本願発明
とは検索対象DBまたはキーワード入力のメディア形態が
異なり、機能を異にするものである。なお、このタイプ
の装置では、図2の場合、キーワード音声の自動音声認
識、図3の場合、DB中の音声の音声認識が必要で、この
認識技術自体が難しい技術であり言語、語彙、発声形態
などに制約があった。
【0004】一方、本願発明同様に、検索対象と検索音
声の双方が音声データであるシステムも提案されてい
る。この場合は、両者の音声からそれぞれ抽出される音
響特徴量時系列の最適整合をとることによって、検索を
行うものである(伊藤慶明他、「Reference Interval-f
ree連続DPを用いた自然な発話音声によるテキストおよ
び音声データベースのリアルタイム検索」、日本音響学
会講演論文集 1-Q-24(1995年9月))。
【0005】しかし、本願発明のように、ユーザ音声と
DB音声の個別に符号化を行い、符号間距離を導入して符
号系列整合を行うという枠組みはない。したがって、検
索対象と検索音声の両者が同様な特性の音声でなければ
音響特徴量の類似性は認められず、性能劣化が激しい。
【0006】
【発明が解決しようとする課題】音声検索システムに
は、ディジタル放送の将来的進展を考慮すると放送音声
DBなどのように単純に蓄積されただけの音声データDBを
検索対象とするシステムも強く必要とされる。しかしな
がら、検索対象データ自体が最初から音声認識を意識し
て作成されているわけではないので、多種多様な蓄積音
声データを文字言語化するのは、語彙的・文法的制約が
難しく実際上困難である。また、検索対象DBとユーザの
音声との質的な違い(例えば、大人と子供、放送音声と
携帯電話、ネイティブ話者とノンネイティブ話者など)
も検索システムとしては技術上重要な障壁である。
【0007】したがって、本願発明では次のような課題
を解決する技法を開発した。音声検索において、検索対
象音声DBとユーザの検索音声の特性が大きく異なってい
ても高い性能を発揮できる枠組みの開発。検索対象音声
DBおよびユーザ検索音声の音声認識を必要としない方式
の開発。多言語音声に対応できる手法の開発。
【0008】
【課題を解決するための手段】上記のア)とイ)の課題
は次のような方式によって解決される。参照説明図を図
1に示す。まず、音声言語を記述する汎用の符号系(Su
b-Phonetic Segment、以下「 SPS」と略記する。)を導
入する。検索対象音声は、検索対象音声に依存したデ
ータを用いて学習したSPS音響モデルにより符号化を
行い、符号系列データベースを得る。ユーザのキーワ
ード音声は、ユーザの使用環境に依存したデータを用
いて学習したSPS音響モデルにより符号化を行い、そ
の系列データを得る。ここでに依存したデータを用
いた学習とは、例えば、が英国のBBC放送DBであれ
ば、適量のBBC放送DBを用いてSPS音響モデルを適応学習
させてを得ることである。なお、上記の符号化の手法
は、SPSの接続関係を考慮した符号化とし、符号の種類
は本件と異なるが、符号化手法自体は、公知である隠れ
マルコフモデル(HMM)を用いることができる[S. Youn
g, HTK- Hidden Markov Model Toolkit , Entropic Cam
bridge Research Lab,1996.]。
【0009】一方、より一般的な音声データを用いて、
SPS符号のすべてのペアについて符号間距離行列を計
算しておく。この距離は、2個のSPS音響モデル同士の
距離として定義できる。キーワードのSPS系列データ
をデータベースの中から検索するには、動的計画法
を用いる。このとき距離行列を用い、キーワードSPS
系列とDBの部分SPS系列との距離を連続的に計算し、距
離がある閾値以下になったとき、キーワードが検出され
たとして検索結果を出力する。この動的計画法を用いる
計算法は公知の手法である(岡隆一著、「連続DPを用い
た連続単語認識」、日本音響学会音声研究会資料S78‐2
0(1978年))。
【0010】本願発明においては、イ)の特長を有する
ため、上記の閾値を制御することで、目的に応じてキー
ワードのヒット率を上下することができる。また、ユー
ザがキーワードを2個以上指定することも可能である。
例えば、1個ごとにポーズを入れて区切って発声するこ
とによりこれが可能になり、検索は2個以上のキーワー
ド音声の各々について並列に整合処理を行うことで実現
できる。
【0011】上記ウ)の課題は、国際音声記号(Intern
ational Phonetic Alphabet, IPA)に準拠した記号系を
定義し、さらにこれを細分化した独自符号系(サブ音声
セグメント、SPS)を導入することにより、言語系に共
通な音声表現符号系を開発した。
【0012】
【作用】上記の処理によって、検索対象DBとユーザのキ
ーワード音声は、それぞれの環境に依存したSPS音響モ
デルによりSPS系列に変換されるため、それぞれの環境
の固有特性が吸収され、一般的な言語音声記号列として
のSPS系列に変換される。したがって、汎用のSPSペア間
距離に基いてキーワード音声とDB系列の相互距離が適正
に評価できる。
【0013】また、これらの処理では、どこにも音声認
識の処理はなく、音声認識には必要となる単語数のよう
な語彙規模の制限、また文、文節、単語など文法的単位
の制約も無い。さらに、[0010]の項で述べたよう
に、閾値を制御すれば、キーワードに対する(湧出し誤
りであるゴーストは増えるが)検出率を上げることも可
能である。
【0014】日本語、英語などの言語系を指定すると、
これをとのSPSモデルに反映できる。しかし、学習
用音声サンプルが十分あれば、その必要は必ずしもな
い。システム全体は、言語系に係らず符号系自体や距離
行列を変更する必要はなく、また処理手法自体も変更
の必要はない。
【0015】
【実施例】ここでは、検索対象DBとして、ネイティブ話
者の英語音声データを用い、ユーザーのキーワード音声
として日本語母語話者の英語音声を用いた実施例を以下
に示す。
【0016】(ア)音声データについて 検索対象音声としては、英語ネイティブ話者の発声した
英語駅名セット(語数311語)を用意し、ユーザのキー
ワード音声としては、日本人話者の発声した同じく英語
駅名、311語を用意した。
【0017】(イ)SPS符号系について SPS符号系は、IPAに準拠した記号系XSAMPAを修正した記
号系から、規則により生成する(表1参照)。この規則
は、音声の物理音響特性を考慮し、音声記号の遷移区間
と定常区間を分離して工学的処理に適した表現にしたも
のである。その適用例を示すと、たとえば、英国の駅名
「Acle」の発音はXSAPMAでeIklと表記され、その各発音
記号文字に表1の規則を適用してSPS符号列に変換すると
次のようになる。 #e, ee, eI, II, Ik, kcl, kk, kl, ll, l# 同様に、日本の駅名「神戸」は、XSAMPAでkoobeと表記
され、そのSPS符号列は #kcl, kk, ko, ooo, ob, bcl, bb, be, ee, e# となる。
【表1】
【0018】(ウ)SPS音響モデルについて 隠れマルコフモデル(HMM)で表現する。各HMMは、3状
態3ループのLRモデルで、各状態は、1ないし2個のガウ
ス分布確率密度関数でモデル化する。これをSPS‐HMMと
書く。 SPS‐HMMの音響量ベクトルには、多くのシステムで用い
られているメルケプストラムと△メルケプストラムを用
いる。それぞれの次元数は12次元(計24次元)である。 SPS‐HMMの初期値は、予め作成しておいたIPA記号ラベ
ルのHMMを基に、規則により計算する。ここで、IPA記号
ラベルのHMMは既存の英語音声データベースから求めら
れる。ここでは米国LDCより販売されているTIMITデータ
を使用した。 SPS‐HMMの初期値を本システムに適応させる学習は、ま
ず、基礎英語単語(850語のセット)を日本人およびネ
イティブ話者が発声した音声を用いて行い、上のSPS‐H
MMの初期値から汎用SPS‐HMMを作成する。この汎用HMM
を元に、音響モデルのSPS‐HMMについては英語ネイテ
ィブ話者の音声データを用いて適応化を行う。また、同
については、日本人話者の英語音声を用いて適応化を
行う。学習の繰り返し回数は3回程度でよい。これらの
学習法は、例えば市販のソフトウエアツールHTK[上記Yo
ungの著書参照]を用いて行うことができる。SPSペア距
離行列の計算は、上記の汎用SPS‐HMMを使用した。各ペ
アの距離は2個のHMMの距離として定義されるので、次式
のように与えられる。各状態の確率分布のセントロイド
の値 cij(k) (k:ラベル、i:状態No.、j:サブ分布N
o.)を用いて、各セグメントラベルkとl の距離は次式
のように定める。
【式1】
【0019】(エ)動的計画法(DP)を利用したキー
ワード検索について 今回は動作の有効性を検証するための基礎実験であるか
ら、キーワードが、DBの単語セットに含まれる同一
の単語に最大尤度で整合することが正解となる。このキ
ーワードとDB単語セットの個々の単語との距離は次式の
ような動的計画法によって求められる。
【式2】 ただし、 G(m,n): 累積距離 D(m,n): キーワードのm番目SPSと検索DB中の文のn番目S
PSの間の距離, m=1,2,...,M, n=1,2,...,N なお、初期境界条件は以下の通り
【式3】 次に、今回の実験では、このG(m,n)が検索対象DB側の終
端付近で極小となる値を求め、この値が最小となる検索
対象DB側の単語を選択し、検索結果の単語とする。これ
が入力側キーワードと一致した場合を正解とみなす。こ
の条件は、検索対象DBが特殊な場合を想定したことなる
が、性能評価の目安を得ることはできる。
【0020】
【実験結果】学習データに用いた話者とは別のユーザ話
者(日本人)3名と、検索対象話者(英語ネイティブ)3
名との組み合わせについて、実験を繰り返したところ以
下のような結果を得た。ユーザ側1名(311語)に対して、
検索対象は311x3(名)=993サンプル、したがって、全
テストサンプル数は2979サンプル。その結果、正解率80
%程度を得た。この結果は、音響モデルの分布数をさら
に増大することで精度を上げることが可能である。この
ように、本願発明による音声検索は極めて良好なもので
あることが判明した。
【0021】
【発明の効果】音声符号であるSPS音響モデルを、検索
対象音声データ、ユーザ音声データのそれぞれに依存し
て作成し、それぞれを個別に符号化することにより、双
方が異種環境(大人と子供の音声、ネイティブ話者とノ
ンネイティブ話者、放送音声や回線・周辺ノイズのよう
な収録環境、などの異なり)において収録されたデータ
であっても対応できる。また、検索対象およびキーワー
ド音声ともに、語彙無制限、単語・文の区別不要であ
り、多言語対応装置としても有効に動作する。
【図面の簡単な説明】
【図1】本願発明に係る音声検索装置のブロック図
【図2】従来の音声検索装置Aのブロック図
【図3】従来の音声検索装置Bのブロック図
【符号の説明】
1 検索対象音声データベース 2 サブ音素(SPS)系列データ 3 キーワード音声 4 サブ音素(SPS)系列データ 5 データベース用SPS音響モデル 6 検索用SPS音響モデル 7 動的計画法によるワードスポッティング 8 SPSペア距離行列 9 検索結果
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/30 350 G10L 3/00 521R G10L 15/06 531W 15/08 535D 15/10 15/14

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 検索用音声データを音響モデルにより符
    号化し、ユーザ音声を音響モデルにより符号化し、符号
    間距離行列を利用した整合処理を行うことを特徴とする
    音声検索方法。
  2. 【請求項2】 音響モデルにおける符号化は、多言語対
    応音声符号を採用し、検索対象音声データ及び検索用ユ
    ーザ音声を符号化することを特徴とする請求項1記載の
    音声検索方法。
  3. 【請求項3】 検索用音声データに依存した音響モデル
    による符号化装置、ユーザ音声に依存した音響モデルに
    よる符号化装置及び符号間距離行列を利用した整合処理
    装置からなることを特徴とする音声検索装置。
  4. 【請求項4】 音響モデルにおける符号化は、多言語対
    応音声符号を採用し、検索対象音声データ及び検索用ユ
    ーザ音声を符号化することを特徴とする請求項3記載の
    音声検索装置。
JP2001017485A 2001-01-25 2001-01-25 異種環境音声データの音声検索方法及び装置 Expired - Lifetime JP3686934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001017485A JP3686934B2 (ja) 2001-01-25 2001-01-25 異種環境音声データの音声検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001017485A JP3686934B2 (ja) 2001-01-25 2001-01-25 異種環境音声データの音声検索方法及び装置

Publications (2)

Publication Number Publication Date
JP2002221984A true JP2002221984A (ja) 2002-08-09
JP3686934B2 JP3686934B2 (ja) 2005-08-24

Family

ID=18883687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001017485A Expired - Lifetime JP3686934B2 (ja) 2001-01-25 2001-01-25 異種環境音声データの音声検索方法及び装置

Country Status (1)

Country Link
JP (1) JP3686934B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233282A (ja) * 2007-03-19 2008-10-02 National Institute Of Advanced Industrial & Technology 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
US7580835B2 (en) 2003-12-25 2009-08-25 Kabushiki Kaisha Toshiba Question-answering method, system, and program for answering question input by speech
JP2011070192A (ja) * 2009-09-22 2011-04-07 Ricoh Co Ltd 音声検索装置及び音声検索方法
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
US8150678B2 (en) 2007-11-21 2012-04-03 Hitachi, Ltd. Spoken document retrieval system
EP2595144A1 (en) 2011-11-18 2013-05-22 Hitachi Ltd. Voice data retrieval system and program product therefor
CN104900231A (zh) * 2014-03-05 2015-09-09 卡西欧计算机株式会社 语音检索装置以及语音检索方法
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7580835B2 (en) 2003-12-25 2009-08-25 Kabushiki Kaisha Toshiba Question-answering method, system, and program for answering question input by speech
JP2008233282A (ja) * 2007-03-19 2008-10-02 National Institute Of Advanced Industrial & Technology 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法
US8150678B2 (en) 2007-11-21 2012-04-03 Hitachi, Ltd. Spoken document retrieval system
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
JP2011070192A (ja) * 2009-09-22 2011-04-07 Ricoh Co Ltd 音声検索装置及び音声検索方法
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
US8731926B2 (en) 2010-03-04 2014-05-20 Fujitsu Limited Spoken term detection apparatus, method, program, and storage medium
EP2595144A1 (en) 2011-11-18 2013-05-22 Hitachi Ltd. Voice data retrieval system and program product therefor
CN104900231A (zh) * 2014-03-05 2015-09-09 卡西欧计算机株式会社 语音检索装置以及语音检索方法
CN104900231B (zh) * 2014-03-05 2018-12-28 卡西欧计算机株式会社 语音检索装置以及语音检索方法
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Also Published As

Publication number Publication date
JP3686934B2 (ja) 2005-08-24

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
JP6550068B2 (ja) 音声認識における発音予測
CN111710333B (zh) 用于生成语音转录的方法和系统
JP2021033255A (ja) 音声認識方法、装置、機器及びコンピュータ可読記憶媒体
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
CN109754809B (zh) 语音识别方法、装置、电子设备及存储介质
EP1960997B1 (en) Speech recognition system with huge vocabulary
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
JP7051919B2 (ja) ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
JP2002287787A (ja) 明確化言語モデル
CN112599128A (zh) 一种语音识别方法、装置、设备和存储介质
Egorova et al. Out-of-vocabulary word recovery using fst-based subword unit clustering in a hybrid asr system
JP3686934B2 (ja) 異種環境音声データの音声検索方法及び装置
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Li et al. Discriminative data selection for lightly supervised training of acoustic model using closed caption texts
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
Lee et al. Integrating recognition and retrieval with user feedback: A new framework for spoken term detection
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
Ma et al. Low-frequency word enhancement with similar pairs in speech recognition
Ma et al. Recognize foreign low-frequency words with similar pairs

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3686934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term