JP2002221984A - 異種環境音声データの音声検索方法及び装置 - Google Patents
異種環境音声データの音声検索方法及び装置Info
- Publication number
- JP2002221984A JP2002221984A JP2001017485A JP2001017485A JP2002221984A JP 2002221984 A JP2002221984 A JP 2002221984A JP 2001017485 A JP2001017485 A JP 2001017485A JP 2001017485 A JP2001017485 A JP 2001017485A JP 2002221984 A JP2002221984 A JP 2002221984A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sps
- speech
- search
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ーザが音声により検索を行うシステムにおいて、例え
ば、ネイティブ英語音声の蓄積データに対して、ノンネ
イティブ・ユーザの音声でも高精度に検索できるなど、
一般に収録環境や母語音声が異なる蓄積データに対して
も有効に機能する多言語対応音声検索装置を提供する。 【解決手段】 以下の(A), (B), (C)ブロックから構成
される。 (A)検索対象音声データを多言語対応セグメント(SPS)
の音響モデルを用いてSPS系列へ符号化する。 (B)ユーザの検索音声をSPSモデルを用いてSPS系列へ符
号化する。 (C)SPS系列に最適適合するSPS系列をの中からSPSペア距
離行列を利用した動的計画法により探索し、その結果を
出力する。 このとき、音響モデルは検索対象データに依存して作成
し、SPSモデルはユーザ音声に依存して作成し、距離行
列は汎用の音声データから作成する。
Description
上などに蓄積された音声を含むマルチメディアデータベ
ースなどに対し、ユーザがキーワード音声による検索を
行うことができるシステムであり、検索対象データベー
スと検索キーワードが共に音声である点が特徴の1つで
ある。本願発明は、特に、検索対象データが多言語音声
やビデオ収録音声など、ユーザの使用環境と大きく異な
る使用条件の場合に有効である。例えば、検索対象デー
タは、ネイティブ話者の英語ニュース音声に対して、ユ
ーザは、ノンネイティブ話者、あるいは携帯電話音声な
どの使用環境が例として挙げられる。
に示すシステム構成が主要なものであった。図2におい
ては、検索対象を自然言語テキスト(文字列)を含むデ
ーベース(DB)と想定し、ユーザの検索用キーワード音
声を音声認識して単語などの文字列に変換し、この文字
列をDBの文字列中から検索するものである。逆に、図3
のタイプでは、DB側が音声を含むデータベースで、検索
にはユーザがキーボードからキーワード文字列を入力す
るものである[ J.T. Foote, S.J. Young, G.J.F. Jone
s, K.S. Jones, " Unconstrained keyword spotting us
ing phone lattices with application to spoken docu
ment retrieval," Computer Speech andLanguage, Vol.
11, pp.207-224, 1997.]。
とは検索対象DBまたはキーワード入力のメディア形態が
異なり、機能を異にするものである。なお、このタイプ
の装置では、図2の場合、キーワード音声の自動音声認
識、図3の場合、DB中の音声の音声認識が必要で、この
認識技術自体が難しい技術であり言語、語彙、発声形態
などに制約があった。
声の双方が音声データであるシステムも提案されてい
る。この場合は、両者の音声からそれぞれ抽出される音
響特徴量時系列の最適整合をとることによって、検索を
行うものである(伊藤慶明他、「Reference Interval-f
ree連続DPを用いた自然な発話音声によるテキストおよ
び音声データベースのリアルタイム検索」、日本音響学
会講演論文集 1-Q-24(1995年9月))。
DB音声の個別に符号化を行い、符号間距離を導入して符
号系列整合を行うという枠組みはない。したがって、検
索対象と検索音声の両者が同様な特性の音声でなければ
音響特徴量の類似性は認められず、性能劣化が激しい。
は、ディジタル放送の将来的進展を考慮すると放送音声
DBなどのように単純に蓄積されただけの音声データDBを
検索対象とするシステムも強く必要とされる。しかしな
がら、検索対象データ自体が最初から音声認識を意識し
て作成されているわけではないので、多種多様な蓄積音
声データを文字言語化するのは、語彙的・文法的制約が
難しく実際上困難である。また、検索対象DBとユーザの
音声との質的な違い(例えば、大人と子供、放送音声と
携帯電話、ネイティブ話者とノンネイティブ話者など)
も検索システムとしては技術上重要な障壁である。
を解決する技法を開発した。音声検索において、検索対
象音声DBとユーザの検索音声の特性が大きく異なってい
ても高い性能を発揮できる枠組みの開発。検索対象音声
DBおよびユーザ検索音声の音声認識を必要としない方式
の開発。多言語音声に対応できる手法の開発。
は次のような方式によって解決される。参照説明図を図
1に示す。まず、音声言語を記述する汎用の符号系(Su
b-Phonetic Segment、以下「 SPS」と略記する。)を導
入する。検索対象音声は、検索対象音声に依存したデ
ータを用いて学習したSPS音響モデルにより符号化を
行い、符号系列データベースを得る。ユーザのキーワ
ード音声は、ユーザの使用環境に依存したデータを用
いて学習したSPS音響モデルにより符号化を行い、そ
の系列データを得る。ここでに依存したデータを用
いた学習とは、例えば、が英国のBBC放送DBであれ
ば、適量のBBC放送DBを用いてSPS音響モデルを適応学習
させてを得ることである。なお、上記の符号化の手法
は、SPSの接続関係を考慮した符号化とし、符号の種類
は本件と異なるが、符号化手法自体は、公知である隠れ
マルコフモデル(HMM)を用いることができる[S. Youn
g, HTK- Hidden Markov Model Toolkit , Entropic Cam
bridge Research Lab,1996.]。
SPS符号のすべてのペアについて符号間距離行列を計
算しておく。この距離は、2個のSPS音響モデル同士の
距離として定義できる。キーワードのSPS系列データ
をデータベースの中から検索するには、動的計画法
を用いる。このとき距離行列を用い、キーワードSPS
系列とDBの部分SPS系列との距離を連続的に計算し、距
離がある閾値以下になったとき、キーワードが検出され
たとして検索結果を出力する。この動的計画法を用いる
計算法は公知の手法である(岡隆一著、「連続DPを用い
た連続単語認識」、日本音響学会音声研究会資料S78‐2
0(1978年))。
ため、上記の閾値を制御することで、目的に応じてキー
ワードのヒット率を上下することができる。また、ユー
ザがキーワードを2個以上指定することも可能である。
例えば、1個ごとにポーズを入れて区切って発声するこ
とによりこれが可能になり、検索は2個以上のキーワー
ド音声の各々について並列に整合処理を行うことで実現
できる。
ational Phonetic Alphabet, IPA)に準拠した記号系を
定義し、さらにこれを細分化した独自符号系(サブ音声
セグメント、SPS)を導入することにより、言語系に共
通な音声表現符号系を開発した。
ーワード音声は、それぞれの環境に依存したSPS音響モ
デルによりSPS系列に変換されるため、それぞれの環境
の固有特性が吸収され、一般的な言語音声記号列として
のSPS系列に変換される。したがって、汎用のSPSペア間
距離に基いてキーワード音声とDB系列の相互距離が適正
に評価できる。
識の処理はなく、音声認識には必要となる単語数のよう
な語彙規模の制限、また文、文節、単語など文法的単位
の制約も無い。さらに、[0010]の項で述べたよう
に、閾値を制御すれば、キーワードに対する(湧出し誤
りであるゴーストは増えるが)検出率を上げることも可
能である。
これをとのSPSモデルに反映できる。しかし、学習
用音声サンプルが十分あれば、その必要は必ずしもな
い。システム全体は、言語系に係らず符号系自体や距離
行列を変更する必要はなく、また処理手法自体も変更
の必要はない。
者の英語音声データを用い、ユーザーのキーワード音声
として日本語母語話者の英語音声を用いた実施例を以下
に示す。
英語駅名セット(語数311語)を用意し、ユーザのキー
ワード音声としては、日本人話者の発声した同じく英語
駅名、311語を用意した。
号系から、規則により生成する(表1参照)。この規則
は、音声の物理音響特性を考慮し、音声記号の遷移区間
と定常区間を分離して工学的処理に適した表現にしたも
のである。その適用例を示すと、たとえば、英国の駅名
「Acle」の発音はXSAPMAでeIklと表記され、その各発音
記号文字に表1の規則を適用してSPS符号列に変換すると
次のようになる。 #e, ee, eI, II, Ik, kcl, kk, kl, ll, l# 同様に、日本の駅名「神戸」は、XSAMPAでkoobeと表記
され、そのSPS符号列は #kcl, kk, ko, ooo, ob, bcl, bb, be, ee, e# となる。
態3ループのLRモデルで、各状態は、1ないし2個のガウ
ス分布確率密度関数でモデル化する。これをSPS‐HMMと
書く。 SPS‐HMMの音響量ベクトルには、多くのシステムで用い
られているメルケプストラムと△メルケプストラムを用
いる。それぞれの次元数は12次元(計24次元)である。 SPS‐HMMの初期値は、予め作成しておいたIPA記号ラベ
ルのHMMを基に、規則により計算する。ここで、IPA記号
ラベルのHMMは既存の英語音声データベースから求めら
れる。ここでは米国LDCより販売されているTIMITデータ
を使用した。 SPS‐HMMの初期値を本システムに適応させる学習は、ま
ず、基礎英語単語(850語のセット)を日本人およびネ
イティブ話者が発声した音声を用いて行い、上のSPS‐H
MMの初期値から汎用SPS‐HMMを作成する。この汎用HMM
を元に、音響モデルのSPS‐HMMについては英語ネイテ
ィブ話者の音声データを用いて適応化を行う。また、同
については、日本人話者の英語音声を用いて適応化を
行う。学習の繰り返し回数は3回程度でよい。これらの
学習法は、例えば市販のソフトウエアツールHTK[上記Yo
ungの著書参照]を用いて行うことができる。SPSペア距
離行列の計算は、上記の汎用SPS‐HMMを使用した。各ペ
アの距離は2個のHMMの距離として定義されるので、次式
のように与えられる。各状態の確率分布のセントロイド
の値 cij(k) (k:ラベル、i:状態No.、j:サブ分布N
o.)を用いて、各セグメントラベルkとl の距離は次式
のように定める。
ワード検索について 今回は動作の有効性を検証するための基礎実験であるか
ら、キーワードが、DBの単語セットに含まれる同一
の単語に最大尤度で整合することが正解となる。このキ
ーワードとDB単語セットの個々の単語との距離は次式の
ような動的計画法によって求められる。
PSの間の距離, m=1,2,...,M, n=1,2,...,N なお、初期境界条件は以下の通り
端付近で極小となる値を求め、この値が最小となる検索
対象DB側の単語を選択し、検索結果の単語とする。これ
が入力側キーワードと一致した場合を正解とみなす。こ
の条件は、検索対象DBが特殊な場合を想定したことなる
が、性能評価の目安を得ることはできる。
者(日本人)3名と、検索対象話者(英語ネイティブ)3
名との組み合わせについて、実験を繰り返したところ以
下のような結果を得た。ユーザ側1名(311語)に対して、
検索対象は311x3(名)=993サンプル、したがって、全
テストサンプル数は2979サンプル。その結果、正解率80
%程度を得た。この結果は、音響モデルの分布数をさら
に増大することで精度を上げることが可能である。この
ように、本願発明による音声検索は極めて良好なもので
あることが判明した。
対象音声データ、ユーザ音声データのそれぞれに依存し
て作成し、それぞれを個別に符号化することにより、双
方が異種環境(大人と子供の音声、ネイティブ話者とノ
ンネイティブ話者、放送音声や回線・周辺ノイズのよう
な収録環境、などの異なり)において収録されたデータ
であっても対応できる。また、検索対象およびキーワー
ド音声ともに、語彙無制限、単語・文の区別不要であ
り、多言語対応装置としても有効に動作する。
Claims (4)
- 【請求項1】 検索用音声データを音響モデルにより符
号化し、ユーザ音声を音響モデルにより符号化し、符号
間距離行列を利用した整合処理を行うことを特徴とする
音声検索方法。 - 【請求項2】 音響モデルにおける符号化は、多言語対
応音声符号を採用し、検索対象音声データ及び検索用ユ
ーザ音声を符号化することを特徴とする請求項1記載の
音声検索方法。 - 【請求項3】 検索用音声データに依存した音響モデル
による符号化装置、ユーザ音声に依存した音響モデルに
よる符号化装置及び符号間距離行列を利用した整合処理
装置からなることを特徴とする音声検索装置。 - 【請求項4】 音響モデルにおける符号化は、多言語対
応音声符号を採用し、検索対象音声データ及び検索用ユ
ーザ音声を符号化することを特徴とする請求項3記載の
音声検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017485A JP3686934B2 (ja) | 2001-01-25 | 2001-01-25 | 異種環境音声データの音声検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017485A JP3686934B2 (ja) | 2001-01-25 | 2001-01-25 | 異種環境音声データの音声検索方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002221984A true JP2002221984A (ja) | 2002-08-09 |
JP3686934B2 JP3686934B2 (ja) | 2005-08-24 |
Family
ID=18883687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001017485A Expired - Lifetime JP3686934B2 (ja) | 2001-01-25 | 2001-01-25 | 異種環境音声データの音声検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3686934B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233282A (ja) * | 2007-03-19 | 2008-10-02 | National Institute Of Advanced Industrial & Technology | 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法 |
JP2009145856A (ja) * | 2007-12-12 | 2009-07-02 | Inst For Information Industry | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 |
US7580835B2 (en) | 2003-12-25 | 2009-08-25 | Kabushiki Kaisha Toshiba | Question-answering method, system, and program for answering question input by speech |
JP2011070192A (ja) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | 音声検索装置及び音声検索方法 |
JP2011185997A (ja) * | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
US8150678B2 (en) | 2007-11-21 | 2012-04-03 | Hitachi, Ltd. | Spoken document retrieval system |
EP2595144A1 (en) | 2011-11-18 | 2013-05-22 | Hitachi Ltd. | Voice data retrieval system and program product therefor |
CN104900231A (zh) * | 2014-03-05 | 2015-09-09 | 卡西欧计算机株式会社 | 语音检索装置以及语音检索方法 |
JP2015206906A (ja) * | 2014-04-21 | 2015-11-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
-
2001
- 2001-01-25 JP JP2001017485A patent/JP3686934B2/ja not_active Expired - Lifetime
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7580835B2 (en) | 2003-12-25 | 2009-08-25 | Kabushiki Kaisha Toshiba | Question-answering method, system, and program for answering question input by speech |
JP2008233282A (ja) * | 2007-03-19 | 2008-10-02 | National Institute Of Advanced Industrial & Technology | 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法 |
US8150678B2 (en) | 2007-11-21 | 2012-04-03 | Hitachi, Ltd. | Spoken document retrieval system |
JP2009145856A (ja) * | 2007-12-12 | 2009-07-02 | Inst For Information Industry | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 |
JP2011070192A (ja) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | 音声検索装置及び音声検索方法 |
JP2011185997A (ja) * | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
US8731926B2 (en) | 2010-03-04 | 2014-05-20 | Fujitsu Limited | Spoken term detection apparatus, method, program, and storage medium |
EP2595144A1 (en) | 2011-11-18 | 2013-05-22 | Hitachi Ltd. | Voice data retrieval system and program product therefor |
CN104900231A (zh) * | 2014-03-05 | 2015-09-09 | 卡西欧计算机株式会社 | 语音检索装置以及语音检索方法 |
CN104900231B (zh) * | 2014-03-05 | 2018-12-28 | 卡西欧计算机株式会社 | 语音检索装置以及语音检索方法 |
JP2015206906A (ja) * | 2014-04-21 | 2015-11-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3686934B2 (ja) | 2005-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
JP2021033255A (ja) | 音声認識方法、装置、機器及びコンピュータ可読記憶媒体 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
CN109754809B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
EP1960997B1 (en) | Speech recognition system with huge vocabulary | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
JP7051919B2 (ja) | ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 | |
JP2002287787A (ja) | 明確化言語モデル | |
CN112599128A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
Egorova et al. | Out-of-vocabulary word recovery using fst-based subword unit clustering in a hybrid asr system | |
JP3686934B2 (ja) | 異種環境音声データの音声検索方法及び装置 | |
US20050125224A1 (en) | Method and apparatus for fusion of recognition results from multiple types of data sources | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Li et al. | Discriminative data selection for lightly supervised training of acoustic model using closed caption texts | |
Azim et al. | Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
Lee et al. | Integrating recognition and retrieval with user feedback: A new framework for spoken term detection | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
Ma et al. | Low-frequency word enhancement with similar pairs in speech recognition | |
Ma et al. | Recognize foreign low-frequency words with similar pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050502 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3686934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |