JP3686934B2 - 異種環境音声データの音声検索方法及び装置 - Google Patents
異種環境音声データの音声検索方法及び装置 Download PDFInfo
- Publication number
- JP3686934B2 JP3686934B2 JP2001017485A JP2001017485A JP3686934B2 JP 3686934 B2 JP3686934 B2 JP 3686934B2 JP 2001017485 A JP2001017485 A JP 2001017485A JP 2001017485 A JP2001017485 A JP 2001017485A JP 3686934 B2 JP3686934 B2 JP 3686934B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sps
- search
- voice
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本願発明は、インターネット上などに蓄積された音声を含むマルチメディアデータベースなどに対し、ユーザがキーワード音声による検索を行うことができるシステムであり、検索対象データベースと検索キーワードが共に音声である点が特徴の1つである。本願発明は、特に、検索対象データが多言語音声やビデオ収録音声など、ユーザの使用環境と大きく異なる使用条件の場合に有効である。例えば、検索対象データは、ネイティブ話者の英語ニュース音声に対して、ユーザは、ノンネイティブ話者、あるいは携帯電話音声などの使用環境が例として挙げられる。
【0002】
【従来の技術】
従来の音声検索装置は、図2または図3に示すシステム構成が主要なものであった。図2においては、検索対象を自然言語テキスト(文字列)を含むデーベース(DB)と想定し、ユーザの検索用キーワード音声を音声認識して単語などの文字列に変換し、この文字列をDBの文字列中から検索するものである。逆に、図3のタイプでは、DB側が音声を含むデータベースで、検索にはユーザがキーボードからキーワード文字列を入力するものである[ J.T. Foote, S.J. Young, G.J.F. Jones, K.S. Jones, " Unconstrained keyword spotting using phone lattices with application to spoken document retrieval," Computer Speech and Language, Vol. 11, pp.207-224, 1997.]。
【0003】
この2つのタイプのシステムは、本願発明とは検索対象DBまたはキーワード入力のメディア形態が異なり、機能を異にするものである。なお、このタイプの装置では、図2の場合、キーワード音声の自動音声認識、図3の場合、DB中の音声の音声認識が必要で、この認識技術自体が難しい技術であり言語、語彙、発声形態などに制約があった。
【0004】
一方、本願発明同様に、検索対象と検索音声の双方が音声データであるシステムも提案されている。この場合は、両者の音声からそれぞれ抽出される音響特徴量時系列の最適整合をとることによって、検索を行うものである(伊藤慶明他、「Reference Interval-free連続DPを用いた自然な発話音声によるテキストおよび音声データベースのリアルタイム検索」、日本音響学会講演論文集 1-Q-24(1995年9月))。
【0005】
しかし、本願発明のように、ユーザ音声とDB音声の個別に符号化を行い、符号間距離を導入して符号系列整合を行うという枠組みはない。したがって、検索対象と検索音声の両者が同様な特性の音声でなければ音響特徴量の類似性は認められず、性能劣化が激しい。
【0006】
【発明が解決しようとする課題】
音声検索システムには、ディジタル放送の将来的進展を考慮すると放送音声DBなどのように単純に蓄積されただけの音声データDBを検索対象とするシステムも強く必要とされる。しかしながら、検索対象データ自体が最初から音声認識を意識して作成されているわけではないので、多種多様な蓄積音声データを文字言語化するのは、語彙的・文法的制約が難しく実際上困難である。また、検索対象DBとユーザの音声との質的な違い(例えば、大人と子供、放送音声と携帯電話、ネイティブ話者とノンネイティブ話者など)も検索システムとしては技術上重要な障壁である。
【0007】
したがって、本願発明では次のような課題を解決する技法を開発した。
ア) 音声検索において、検索対象音声DBとユーザの検索音声の特性が大きく異なっていても高い性能を発揮できる枠組みの開発。
イ) 検索対象音声DBおよびユーザ検索音声の音声認識を必要としない方式の開発。
ウ) 多言語音声に対応できる手法の開発。
【0008】
【課題を解決するための手段】
上記のア)とイ)の課題は次のような方式によって解決される。参照説明図を図1に示す。まず、音声言語を記述する汎用の符号系(Sub-Phonetic Segment、以下「 SPS」と略記する。)を導入する。検索対象音声▲1▼は、検索対象音声に依存したデータを用いて学習したSPS音響モデル▲5▼により符号化を行い、符号系列データベース▲2▼を得る。ユーザのキーワード音声▲3▼は、ユーザの使用環境に依存したデータを用いて学習したSPS音響モデル▲6▼により符号化を行い、その系列データ▲4▼を得る。ここで▲1▼に依存したデータを用いた学習とは、例えば、▲1▼が英国のBBC放送DBであれば、適量のBBC放送DBを用いてSPS音響モデルを適応学習させて▲5▼を得ることである。なお、上記の符号化の手法は、SPSの接続関係を考慮した符号化とし、符号の種類は本件と異なるが、符号化手法自体は、公知である隠れマルコフモデル(HMM)を用いることができる[S. Young, HTK- Hidden Markov Model Toolkit , Entropic Cambridge Research Lab,1996.]。
【0009】
一方、より一般的な音声データを用いて、SPS符号のすべてのペアについて符号間距離行列▲8▼を計算しておく。この距離は、2個のSPS音響モデル同士の距離として定義できる。キーワードのSPS系列データ▲4▼をデータベース▲2▼の中から検索するには、動的計画法▲7▼を用いる。このとき距離行列▲8▼を用い、キーワードSPS系列とDBの部分SPS系列との距離を連続的に計算し、距離がある閾値以下になったとき、キーワードが検出されたとして検索結果を出力する。この動的計画法を用いる計算法は公知の手法である(岡隆一著、「連続DPを用いた連続単語認識」、日本音響学会音声研究会資料S78‐20(1978年))。
【0010】
本願発明においては、イ)の特長を有するため、上記の閾値を制御することで、目的に応じてキーワードのヒット率を上下することができる。また、ユーザがキーワードを2個以上指定することも可能である。例えば、1個ごとにポーズを入れて区切って発声することによりこれが可能になり、検索は2個以上のキーワード音声の各々について並列に整合処理を行うことで実現できる。
【0011】
上記ウ)の課題は、国際音声記号(International Phonetic Alphabet, IPA)に準拠した記号系を定義し、さらにこれを細分化した独自符号系(サブ音声セグメント、SPS)を導入することにより、言語系に共通な音声表現符号系を開発した。
【0012】
【作用】
上記の処理によって、検索対象DBとユーザのキーワード音声は、それぞれの環境に依存したSPS音響モデルによりSPS系列に変換されるため、それぞれの環境の固有特性が吸収され、一般的な言語音声記号列としてのSPS系列に変換される。したがって、汎用のSPSペア間距離に基いてキーワード音声とDB系列の相互距離が適正に評価できる。
【0013】
また、これらの処理では、どこにも音声認識の処理はなく、音声認識には必要となる単語数のような語彙規模の制限、また文、文節、単語など文法的単位の制約も無い。さらに、[0010]の項で述べたように、閾値を制御すれば、キーワードに対する(湧出し誤りであるゴーストは増えるが)検出率を上げることも可能である。
【0014】
日本語、英語などの言語系を指定すると、これを▲5▼と▲6▼のSPSモデルに反映できる。しかし、学習用音声サンプルが十分あれば、その必要は必ずしもない。システム全体は、言語系に係らず符号系自体や距離行列▲8▼を変更する必要はなく、また処理手法自体も変更の必要はない。
【0015】
【実施例】
ここでは、検索対象DBとして、ネイティブ話者の英語音声データを用い、ユーザーのキーワード音声として日本語母語話者の英語音声を用いた実施例を以下に示す。
【0016】
(ア)音声データについて
検索対象音声としては、英語ネイティブ話者の発声した英語駅名セット(語数311語)を用意し、ユーザのキーワード音声としては、日本人話者の発声した同じく英語駅名、311語を用意した。
【0017】
(イ)SPS符号系について
SPS符号系は、IPAに準拠した記号系XSAMPAを修正した記号系から、規則により生成する(表1参照)。この規則は、音声の物理音響特性を考慮し、音声記号の遷移区間と定常区間を分離して工学的処理に適した表現にしたものである。その適用例を示すと、たとえば、英国の駅名「Acle」の発音はXSAPMAでeIklと表記され、その各発音記号文字に表1の規則を適用してSPS符号列に変換すると次のようになる。
#e, ee, eI, II, Ik, kcl, kk, kl, ll, l#
同様に、日本の駅名「神戸」は、XSAMPAでkoobeと表記され、そのSPS符号列は#kcl, kk, ko, ooo, ob, bcl, bb, be, ee, e#
となる。
【表1】
【0018】
(ウ)SPS音響モデルについて
隠れマルコフモデル(HMM)で表現する。各HMMは、3状態3ループのLRモデルで、各状態は、1ないし2個のガウス分布確率密度関数でモデル化する。これをSPS‐HMMと書く。
SPS‐HMMの音響量ベクトルには、多くのシステムで用いられているメルケプストラムと△メルケプストラムを用いる。それぞれの次元数は12次元(計24次元)である。
SPS‐HMMの初期値は、予め作成しておいたIPA記号ラベルのHMMを基に、規則により計算する。ここで、IPA記号ラベルのHMMは既存の英語音声データベースから求められる。ここでは米国LDCより販売されているTIMITデータを使用した。
SPS‐HMMの初期値を本システムに適応させる学習は、まず、基礎英語単語(850語のセット)を日本人およびネイティブ話者が発声した音声を用いて行い、上のSPS‐HMMの初期値から汎用SPS‐HMMを作成する。この汎用HMMを元に、音響モデル▲5▼のSPS‐HMMについては英語ネイティブ話者の音声データを用いて適応化を行う。また、同▲6▼については、日本人話者の英語音声を用いて適応化を行う。学習の繰り返し回数は3回程度でよい。これらの学習法は、例えば市販のソフトウエアツールHTK[上記Youngの著書参照]を用いて行うことができる。
SPSペア距離行列の計算は、上記の汎用SPS‐HMMを使用した。各ペアの距離は2個のHMMの距離として定義されるので、次式のように与えられる。各状態の確率分布のセントロイドの値 cij(k) (k:ラベル、i:状態No.、j:サブ分布No.)を用いて、各セグメントラベルkとl の距離は次式のように定める。
【式1】
【0019】
(エ)動的計画法(DP)を利用したキーワード検索について
今回は動作の有効性を検証するための基礎実験であるから、キーワード▲4▼が、DB▲2▼の単語セットに含まれる同一の単語に最大尤度で整合することが正解となる。
このキーワードとDB単語セットの個々の単語との距離は次式のような動的計画法によって求められる。
【式2】
ただし、
G(m,n): 累積距離
D(m,n): キーワードのm番目SPSと検索DB中の文のn番目SPSの間の距離,
m=1,2,...,M, n=1,2,...,N
なお、初期境界条件は以下の通り
【式3】
次に、今回の実験では、このG(m,n)が検索対象DB側の終端付近で極小となる値を求め、この値が最小となる検索対象DB側の単語を選択し、検索結果の単語とする。これが入力側キーワードと一致した場合を正解とみなす。この条件は、検索対象DBが特殊な場合を想定したことなるが、性能評価の目安を得ることはできる。
【0020】
【実験結果】
学習データに用いた話者とは別のユーザ話者(日本人)3名と、検索対象話者(英語ネイティブ)3名との組み合わせについて、実験を繰り返したところ以下のような結果を得た。ユーザ側1名(311語)に対して、検索対象は311x3(名)=993サンプル、したがって、全テストサンプル数は2979サンプル。その結果、正解率80%程度を得た。この結果は、音響モデルの分布数をさらに増大することで精度を上げることが可能である。このように、本願発明による音声検索は極めて良好なものであることが判明した。
【0021】
【発明の効果】
音声符号であるSPS音響モデルを、検索対象音声データ、ユーザ音声データのそれぞれに依存して作成し、それぞれを個別に符号化することにより、双方が異種環境(大人と子供の音声、ネイティブ話者とノンネイティブ話者、放送音声や回線・周辺ノイズのような収録環境、などの異なり)において収録されたデータであっても対応できる。また、検索対象およびキーワード音声ともに、語彙無制限、単語・文の区別不要であり、多言語対応装置としても有効に動作する。
【図面の簡単な説明】
【図1】 本願発明に係る音声検索装置のブロック図
【図2】 従来の音声検索装置Aのブロック図
【図3】 従来の音声検索装置Bのブロック図
【符号の説明】
1 検索対象音声データベース
2 サブ音素(SPS)系列データ
3 キーワード音声
4 サブ音素(SPS)系列データ
5 データベース用SPS音響モデル
6 検索用SPS音響モデル
7 動的計画法によるワードスポッティング
8 SPSペア距離行列
9 検索結果
Claims (4)
- 音声検索方法において、検索対象音声データを検索対象音声データに依存したSPS音響モデルにより符号化し、ユーザ音声をユーザ音声に依存したSPS音響モデルにより符号化し、2個のSPS間の距離を表す符号間距離行列を利用した2つのSPS系列間の最適な整合距離をとる整合処理を行うことを特徴とする音声検索方法。
- 上記符号化は、多言語対応音声符号を採用し、上記検索対象音声データ及び上記ユーザ音声を符号化することを特徴とする請求項1記載の音声検索方法。
- 検索対象音声データに依存したSPS音響モデルによる符号化装置、ユーザ音声に依存したSPS音響モデルによる符号化装置及び符号間距離行列を利用した整合処理装置からなることを特徴とする音声検索装置。
- 上記符号化装置は、多言語対応音声符号を採用し、上記検索対象音声データ及び上記ユーザ音声を符号化することを特徴とする請求項3記載の音声検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017485A JP3686934B2 (ja) | 2001-01-25 | 2001-01-25 | 異種環境音声データの音声検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017485A JP3686934B2 (ja) | 2001-01-25 | 2001-01-25 | 異種環境音声データの音声検索方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002221984A JP2002221984A (ja) | 2002-08-09 |
JP3686934B2 true JP3686934B2 (ja) | 2005-08-24 |
Family
ID=18883687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001017485A Expired - Lifetime JP3686934B2 (ja) | 2001-01-25 | 2001-01-25 | 異種環境音声データの音声検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3686934B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3944159B2 (ja) | 2003-12-25 | 2007-07-11 | 株式会社東芝 | 質問応答システムおよびプログラム |
JP4919282B2 (ja) * | 2007-03-19 | 2012-04-18 | 独立行政法人産業技術総合研究所 | 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法 |
JP4887264B2 (ja) | 2007-11-21 | 2012-02-29 | 株式会社日立製作所 | 音声データ検索システム |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
CN102023995B (zh) * | 2009-09-22 | 2013-01-30 | 株式会社理光 | 语音检索设备和语音检索方法 |
JP5533042B2 (ja) | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP5753769B2 (ja) | 2011-11-18 | 2015-07-22 | 株式会社日立製作所 | 音声データ検索システムおよびそのためのプログラム |
JP5888356B2 (ja) * | 2014-03-05 | 2016-03-22 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6400936B2 (ja) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
-
2001
- 2001-01-25 JP JP2001017485A patent/JP3686934B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002221984A (ja) | 2002-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1960997B1 (en) | Speech recognition system with huge vocabulary | |
US7181398B2 (en) | Vocabulary independent speech recognition system and method using subword units | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
US7424427B2 (en) | Systems and methods for classifying audio into broad phoneme classes | |
EP1575030A1 (en) | New-word pronunciation learning using a pronunciation graph | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
Lileikytė et al. | Conversational telephone speech recognition for Lithuanian | |
Egorova et al. | Out-of-vocabulary word recovery using fst-based subword unit clustering in a hybrid asr system | |
JP3686934B2 (ja) | 異種環境音声データの音声検索方法及び装置 | |
Rose et al. | Integration of utterance verification with statistical language modeling and spoken language understanding | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
Maskey et al. | A phrase-level machine translation approach for disfluency detection using weighted finite state transducers | |
Nga et al. | A Survey of Vietnamese Automatic Speech Recognition | |
Ma et al. | Low-frequency word enhancement with similar pairs in speech recognition | |
Fosler-Lussier | A tutorial on pronunciation modeling for large vocabulary speech recognition | |
Chu et al. | Recent advances in the IBM GALE mandarin transcription system | |
Huang et al. | Detecting Mismatch Between Speech and Transcription Using Cross-Modal Attention. | |
Lei et al. | Development of the 2008 SRI Mandarin speech-to-text system for broadcast news and conversation. | |
Pusateri et al. | N-best list generation using word and phoneme recognition fusion | |
Ma et al. | Recognize foreign low-frequency words with similar pairs | |
Flemotomos et al. | Role annotated speech recognition for conversational interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050502 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3686934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |