JP2004258658A - 単語間音素情報を利用した連続音声認識方法および装置 - Google Patents

単語間音素情報を利用した連続音声認識方法および装置 Download PDF

Info

Publication number
JP2004258658A
JP2004258658A JP2004048087A JP2004048087A JP2004258658A JP 2004258658 A JP2004258658 A JP 2004258658A JP 2004048087 A JP2004048087 A JP 2004048087A JP 2004048087 A JP2004048087 A JP 2004048087A JP 2004258658 A JP2004258658 A JP 2004258658A
Authority
JP
Japan
Prior art keywords
word
syllable
pronunciation
phoneme
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004048087A
Other languages
English (en)
Other versions
JP4481035B2 (ja
Inventor
Su-Yeon Yoon
秀 妍 尹
In-Jeong Choi
仁 正 崔
Nam-Hoon Kim
南 勳 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004258658A publication Critical patent/JP2004258658A/ja
Application granted granted Critical
Publication of JP4481035B2 publication Critical patent/JP4481035B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 音素結合情報を利用した連続音声認識方法を提供すること。
【解決手段】 (a)各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、(b)前単語の終声に結合可能な後単語の初声を対応させて可能なあらゆる結合よりなる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、(c)入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階と、を含む連続音声認識方法を前記課題の解決手段とする。
【選択図】 図4

Description

本発明は音声認識に関し、単語間音素情報を利用した連続音声認識方法およびその装置に関する。
一般的な連続音声認識装置の構成の例を図1に示す。図1に示した連続音声認識装置の特徴抽出部11では、入力音声データを連続音声認識装置に適した形態で表現した特徴ベクトルに変換する。探索部12では、学習過程を通じて、あらかじめ格納された音響モデルデータベース13、発音辞書データベース14および言語モデルデータベース15を参照して、特徴ベクトルを用いて最も確率が高い単語列を探索する。ここで、大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition:LVCSR)のために、探索部12で探索される認識対象の語彙は、ツリー構造を有している。後処理部16では、探索部12の探索結果から発音記号およびタグなどを除去し、音節から記号化して、テキスト形態の認識結果を出力する。
ここで、発音辞書データベース14に保存された韓国語および英語に対する発音列の例を、図2Aおよび図2Bに示す。
図2Aに示した、単語が‘university’を意味する
Figure 2004258658
である場合に、発音表記は[dehak]21a、
Figure 2004258658
[dehag]21cのうち一つになる。
さらに他の単語の例として、‘opposition’を意味する
Figure 2004258658
は、その発音表記として
Figure 2004258658
を有している。
この時、
Figure 2004258658

Figure 2004258658
とは同一であるため、これらの発音表記を区別することは不可能である。
一方、図2Bに示した、単語が‘Seat’23である場合に発生する発音列[sit]23aと[sip]23bのうち[sip]23bと‘tip’24に対する発音列[tip]24aとは、ほとんど同一であるために区別することはほ不可能である。
探索部12で、前記のような発音辞書データベース14を利用して探索過程を行う例を、図3を参照して説明する。図3に示すように、
Figure 2004258658
という音声を認識する場合、それぞれの語彙
Figure 2004258658
に対しそれぞれの単語を、初声と、発音が変わらない中声および終声とに分離する。
Figure 2004258658
に対し中声部分に該当する発音列[angu]32を除外した初声および終声で結合可能な発音列31、33を生成し、
Figure 2004258658
に対し中声部分に該当する発音列[eha]35を除外した初声および終声で結合可能な発音列34、36を生成し、
Figure 2004258658
に対する発音列37を生成する。このように生成された発音列に対し
Figure 2004258658
および
Figure 2004258658
を利用して探索過程を進める。ここで、
Figure 2004258658
との間に結合可能な場合の数は2つが存在し、
Figure 2004258658
間に結合可能な場合の数は3つが存在する。ここで、
Figure 2004258658
は英語のKoreaを意味し、
Figure 2004258658
は主格助詞に該当する。
前記のような連続音声認識システムを具現するためには、認識対象の語彙を表現する発音辞書が、あらかじめ定義されていなければならない。通常、音素と音素との間または単語と単語との間には、同時調音現象が頻繁に発生する。このような同時調音現象が、連続する単語の境界部分で発生すれば、各単語を正確に認識できないだけでなく、同じ単語である場合にも、前後単語の文脈によって別の音響学的特性を有することもあるので、発音辞書モデリングにおいては、このような現象がうまく反映されなければならない。
特に、韓国語の音声言語の場合、多様な音素文脈によって、著しい音韻変化現象が起こるために、各発音列は、このような音韻変換現象をうまく反映させる必要がある。
また、単独の単語の発音列は、比較的固定された音素文脈を有しており、トライフォンのような認識単位学習による音韻変化現象モデリングが容易である。しかしながら、前後単語の文脈がある場合は、隣接した単語によって多様な音素文脈が可能なため、このような音韻変化現象を反映するためにはさらに精巧なモデリング方法が必要とされる。
単語間の音韻変化現象を反映するために、第1に、単語境界で現れるあらゆる可能な音素文脈または主に現れる音素文脈を含んで辞書に多重発音列形態に収録する方法を使用するか、第2に、より多くの混合ガウス関数を利用して、さらに精巧なHMM(Hidden Markov Model)の状態出力値を通じて変化現象をモデリングする方法を使用することが考えられる。
しかしながら、第1の方法によれば辞書およびネットワークサイズがあまり膨大になり、第2の方法によれば計算量が多くなるために、認識に時間がかかって認識速度が遅れるという短所がある。
第3に、単語間に主に現れる音韻変化現象を選定した後、言語モデルが考慮された変形された音素文脈を、単語間トライフォンを利用して認識ネットワークに直接適用する方法を使用することも考えられる。この場合、単語の前部分にそれぞれ別の音素文脈を反映したので同じ単語でも別の開始ノードから出発するようになり、その結果、ツリー構造に基づいた認識ネットワークでは共有効率が落ちて、ネットワークの大きさが膨大になってしまうという短所がある。
第4に、ツリー構造の認識ネットワークで単語の前部分に対する音素文脈をあらかじめ認識前に適用させずに認識中に適用させる方法を使用する場合、同じ音韻環境で適用可能な規則が2つ以上存在する場合にいずれを適用するか分からないだけでなく、認識過程で毎フレームに対して発音規則を適用する必要があって負担が増加し、認識過程中に認識ネットワークをアップデートし続ける負担が大きいという短所がある。
したがって、本発明が解決しようとする技術的課題は、綴字と発音表記とが同一でない単語の場合、識別子を付加した単語間音素情報を利用して、連続語音声認識過程で発生する単語間音韻規則上、適していない発音列の結合を除去する連続音声認識方法を提供することである。
また、本発明が解決しようとする他の技術的課題は、前記音素結合情報を利用した連続音声認識方法を実現するのに最も適した装置を提供することである。
前記した技術的課題を達成するために、本発明に係る連続音声認識方法は、(a)各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、(b)前単語の終声に結合可能な後単語の初声を対応させて、結合可能なあらゆる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、(c)入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階とを含むことを特徴としている。
また、前記(c)段階は、前記単語間音素情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限することを特徴としている。
前記他の技術的課題を達成するために本発明による音素結合情報を利用した連続音声認識装置は、学習により構築された音響モデルデータベースおよび言語モデルデータベースを含む連続音声認識装置において、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、初声または終声に識別子を追加し、前記前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させて、結合可能なあらゆる単語間音素情報をデータベース化して保存する音素結合情報保存部と、各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前記前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない場合、この単語の終声または初声に対する発音表記に識別子を追加して構築された発音辞書データベースと、入力される音声から認識に必要な情報を抽出して特徴ベクトルに変換する特徴抽出部と、前記音素結合情報を利用して前記音響モデルデータベース、前記発音辞書データベースおよび前記言語モデルデータベースを参照して、前記特徴抽出部で変換された特徴ベクトルと類似している確率が最も高い単語列を探索し、探索された単語列を、認識されたテキストとして出力する探索部とを含むことを特徴としている。
また、前記連続音声認識装置は望ましくは、前記探索部で得られた最適の発音列に対し単語間のバイフォンモデルをトライフォンモデルに変換した後、トライフォンモデルを参照して音響モデルスコアをリスコアリングして各候補別文章のスコアを再計算し、最終的な認識結果を選定する後処理部をさらに含む。
本発明によれば、サブワードの増加や音響モデルの変化なしに適用可能であり、音素結合情報を利用して、適していない単語間の結合をあらかじめ制限するので、認識率を向上させることができ、さらに、認識途中で音韻規則を使用しないため、デコーディング過程に負担をかからないという利点がある。
また、語彙別に文脈情報を記入しないため、発音辞書データベースの大きさおよび探索ネットワークが増大しないだけでなく、言語に従属的な音韻規則を構成する方法とは違って、発音を単語の綴字との同一如何によって細分化し、許容可能な単語間結合を自動で抽出することによって、韓国語だけでなく外国語にも適用できるという利点がある。
以下、本発明の実施の形態について、添付した図面を参照して詳細に説明する。
図4は、本実施の形態における連続音声認識装置の構成を示すブロック図の例である。図4に示すように、本実施の形態の連続音声認識装置は、特徴抽出部41、探索部42、音響モデルデータベース43、発音辞書データベース44、音素結合情報保存部45、言語モデルデータベース46および後処理部47から構成される。
特徴抽出部41では、環境適応、終点検出、反響除去および雑音除去などの前処理過程を経て、デジタル処理された音声信号から、有効な特徴ベクトルを抽出する。この特徴ベクトルの抽出には、一般的に特徴ベクトルの低次項には発話当時の声道特性を反映し、高次項には発話を導いた基底信号の特性を反映したケプストラム抽出方式が使われ、最近では人間の聴覚認知過程を反映したケプストラム抽出方式であるMFCC(Mel Frequency Cepstrum Coefficient)が使われることもある。
探索部42では、単語列の探索のために、後記する音素結合情報保存部45に保存された音素結合情報を利用し、学習過程を通じてあらかじめ収録された音響モデルデータベース43、発音辞書データベース44および言語モデルデータベース46を参照して、ビタビアルゴリズムを利用することで特徴ベクトルから最も類似している確立が高い単語列を探索する。
ここで、大語彙認識のために、認識対象の語彙は、ツリー状に構成されており、探索部42では音響モデルデータベース43の音響学的な対比結果に対応する言語モデルデータベース46の発生頻度データおよび発生確率データを参照して、発音辞書データベース44に収録された単語を組み合わせてツリーを探索することによって、N個の最善な候補の単語列を得る。
音響モデルデータベース43は、学習用発声データベースの音声データから抽出されたユーザーが有する特徴ベクトルを利用して、HMMのような音響モデルを形成する。これら音響モデルは音声認識過程で基準モデルとして利用される。
発音辞書データベース44は、単語間音韻変化に基づいた音声認識をするために、各単語に対し音韻変化現象が反映された全ての発音表記を収録してデータベース化したものである。この発音辞書データベース44において、単語間音韻変化によって前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない単語には、該当終声または初声を有する単語に対する発音表記に別途に識別子を追加して収録している。
音素結合情報保存部45は、単語間で結合可能なあらゆる音素対をマトリックス化して保存している。すなわち、基本音素に識別子が追加された2次音素を利用して、前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させた、あらゆる結合についての単語間音素情報を収録している。
単語間の音韻変化現象は、前単語の最後の音節の終声と後単語の最初の音節の初声との対において起こるが、あらゆる対で音韻変化が起こるわけではなく、一定の規則によって特定の対において起こる。したがって、複合語境界および語節間音素境界の変換規則を利用して変化が起きる対での各音素の変化が分かると、非常に正確かつ簡単に単語間音韻変化現象をモデリングできる。
単語間音素情報を発生させる単語間に発生する音韻変化現象の類型は、代置、挿入、削除に大きく分類される。代置現象では、阻害音/流音の鼻音化現象や、変子音化現象、硬音化現象などの規則により、隣接した両子音のうち両方または一方が他の子音に変化する。
挿入現象は主に母音で始まり、連音法則が適用される場合に後単語で起こるか、あるいは
Figure 2004258658
の添加により起こる。
削除現象は、挿入現象と共に起こることが多く、挿入現象が後単語の初声に起こると、削除現象が前単語の終声に起こる。前記の音韻変化現象を経て、変化した音素は、識別子を追加することで、変化していない基本音素と区別し、前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させたあらゆる単語間音素情報が、データベース化される。音素結合情報保存部45に収録された音素結合情報は、探索部42での探索過程および後処理部47でのリスコアリング過程に適用することによって、探索過程およびリスコアリング過程において探索候補を減らすことができるので、探索過程の精度を向上することができる。
言語モデルデータベース46は、学習用テキストデータベースから構築された学習用文章での単語列に対する発生頻度データを利用して演算された単語列のバイグラム発生確率データまたはトライグラム発生確率データを収録している。ここで、学習用テキストデータベースは音声認識に使われる可能性がある文章からなり、これは通常、製作者により使われる可能性があると判断されたものであって、その量は製作者により決められる。
後処理部47は、探索部42で探索された単語列に対し音素結合情報保存部45に収録された音素結合情報と、音響モデルデータベース43、発音辞書データベース44および言語モデルデータベース46を参照して、リスコアリングを行い、最終的なリスコアリングされた単語列から発音記号およびタグなどを除去し、得られた単語列を音節群と結び付けて最終認識結果であるテキストを出力する。
すなわち、リスコアリングの過程では、後方向探索過程で得られた最適の発音列に対し、単語間境界で単語内のバイフォンモデルを単語間トライフォンモデルに拡張、変形させた後、各候補別文章のスコアを再計算し、最終的な認識結果を選定する。このように、類似している確率が高い、いくつかの候補文章に対して単語間境界で、バイフォンモデルから変換したトライフォンモデルを適用し、音響モデル確率値を再計算すると、認識効率を維持しつつ認識性能を向上させることができる。
ここで、特徴抽出部41、探索部42および後処理部47は、演算機能を有するプロセッサー、例えばCPU(Central Processing Unit)およびそれにより駆動される音声認識プログラムにより具現され、音響モデルデータベース43、発音辞書データベース44、音素結合情報保存部45、および言語モデルデータベース46は、例えばメモリにより具現される。
ここで、音素結合情報保存部45に保存される単語間音素情報の例を、次の表1に示す。
Figure 2004258658
前記した表1に示すように、単語間の音韻変化現象によれば、前単語の最後の音節の終声の綴字または後単語の最初の音節の初声の綴字と、これに対する発音表記とが変わる場合は限定されているために、前単語の最後の音節の終声の綴字または後単語の最初の音節の初声の綴字と、これに対する発音表記とが変わるようにする後単語の最初の音節の初声または前単語の最後の音節の終声を対応させて単語間音素情報として音素結合情報保存部45に保存する。例えば、前単語の最後の音節の終声が
Figure 2004258658
であり、後単語の最初の音節の初声が
Figure 2004258658
である場合に、前単語の綴字と発音表記とが変わるので、前単語の終声発音列
Figure 2004258658
は、後単語の初声発音列[n]または[m]にだけ結合させる。すなわち、単語間音素情報としては
Figure 2004258658
ではなく
Figure 2004258658
だけ収録され、発音辞書データベース44にも識別子が既に追加されているので
Figure 2004258658
だけで結合不可能な場合を制限できる。
一方、前記した表1において、境界情報とは、文章発声時に休止の有無を表示するものである。人間が文章を発声する途中で息継ぎをする場合には、前単語と後単語間に音韻変換が発生しない。境界情報は、文章発声時の休止の強度によって0(休止なし)、1(短い休止)、2(長い休止)に区切ったものであって、境界情報によって前単語の最後の音節の終声に結合できる後単語の最初の音節初声が変わる。音素結合情報保存部45に保存された音素対にはそれぞれ、1以上の境界情報が割当てられている。
次に、発音辞書データベース44に保存されたハングルおよび英語に対する発音列の例を、それぞれ図5Aおよび図5Bを参照して説明する。図5Aに示すように、単語が
Figure 2004258658
である場合には、[dehak]51a、
Figure 2004258658
[dehag]51cという3つの発音列が存在し、単語が
Figure 2004258658
である場合には、
Figure 2004258658
という発音列が存在する。この時、単語の
Figure 2004258658
とその発音表記が同一でない発音列
Figure 2004258658
に対しては終声発音列の後段に別途の識別子、例えば‘(1)’が付加される。したがって、
Figure 2004258658
に対し音韻変化により発生する
Figure 2004258658

Figure 2004258658
に対する
Figure 2004258658
とを区別することが可能になる。このように識別子が表記された前単語の最後の音節の終声に対する発音列は、前記した表1のように、後単語の最初の音節初声に特定の発音列が付いてくる場合にのみ、前単語と後単語との間の結合が可能になる。
また、図5Bに示すように、単語が‘Seat’53である場合に[sit]53aと[sip(1)]53bという2つの発音列が存在し、単語が‘tip’54である場合に[tip]54aという発音列が存在する。この時、単語の‘Seat’53とその発音表記が同一でない発音列[sip(1)]53bに対しては、図5Aと同様に発音列の後段に別途の識別子、例えば‘(1)’が付加される。したがって、‘Seat’53に対し音韻変化により発生する発音列[sip(1)]53bと‘tip’54に対する発音列[tip]54aとを区別することが可能になる。
すなわち、発音列[sip(1)]53bは、後単語の最初の音節初声が‘b’、‘p’、‘m’である場合にのみ結合可能なために、例えば‘down’との結合はあらかじめ制限される。
一方、発音列[tip]54aは後単語の最初の音節の初声に関係なく結合可能である。
図6は、図4に示した探索部42において、発音辞書データベース44および音素結合情報保存部45を利用して探索過程を行う例を説明する図である。図6に示すように、
Figure 2004258658
という音声を認識する場合、まず、所定の認識単位、ここでは単語、すなわち
Figure 2004258658
に分離して、各単語に対する発音列ネットワークは、最適な発音表現を選ぶために操作される。発音列ネットワークには音韻変化規則が適用されて発生可能なあらゆる発音列がツリー状に構成されている。このように選択された発音列に対して、
Figure 2004258658
および音素結合情報保存部45から提供される単語間音素情報を利用して探索過程を進める。音素結合情報を利用することによって
Figure 2004258658
の終声に対する発音列
Figure 2004258658

Figure 2004258658
の初声に対する発音列[d]との結合は制限され、
Figure 2004258658
の終声に対する発音列
Figure 2004258658

Figure 2004258658
の初声に対する発音列[i]との結合と、
Figure 2004258658
の終声に対する発音列[k(1)]と
Figure 2004258658
の初声に対する発音列[i]との結合は制限され、全体的な探索ネットワークを単純にできる。すなわち、探索部42において前方向探索および後方向探索過程を行う場合に、前単語は、後単語に転移される度に後続する単語の多数の発音列のうち、前単語と結合可能か否かを、単語間音素情報を利用して確認した後、適していない結合をあらかじめ除去する。特に、後方向探索過程は、前方向探索過程で選定された各フレームに対する認識候補単語を利用して文章を構成する過程であって、このとき、言語モデル確率値を利用して単語間が高い確率で連結された所定数、例えば10個の候補文章を構成する。リスコアリングの段階では、この後方向探索過程で選定された10個の候補文章に対して単語境界で使用したバイフォンモデルを、単語間のトライフォンモデルに変換し、単語間音素情報および音響モデルを利用して確率値を再計算して最適な認識文章を探す。
[実験例]
次に、本発明による音声認識方法と従来の音声認識方法との性能を比較するための比較実験を行った。周辺雑音のない静かな事務室の環境で、話者600人が発話した韓国語朗読体45000文章を学習データとして、静かな事務室環境で話者80人が発話した韓国語朗読体480文章を評価データとして使用した。実験に使われた特徴ベクトルは、12次のMFCC(Mel Frequency Cepstral Coefficients)係数とエネルギー、そしてこれらの差分係数であって、1フレームが26次のベクトルで表現される。実験のために44ベースフォンの4000サブワードモデルよりなり、PTM(Phonetically−Tied Mixture)モデル構造を有する音響モデルが使われ、トライグラム言語モデルが使われた。使われた語彙は、新聞の政治面記事と関連した11000単語であって、意思形態素単位で認識される。前記のような条件の下での比較実験の結果を次の表2に示す。
Figure 2004258658
前記した表2を説明すると、単語認識率および文章認識率において本発明による発音辞書を利用した場合、既存発音辞書を利用した場合に比べて性能向上を示し、その中でもリスコアリング段階および境界情報を利用した場合に、最も良好な性能を有することがわかった。
なお、前記した本実施の形態の連続音声認識装置は、コンピュータで再生可能な記録媒体に、コンピュータが読取れるコードとして具現することが可能である。また、コンピュータが再生可能な記録媒体には、コンピュータシステムによって読取られるデータが保存されるあらゆる記録装置が含まれる。コンピュータが再生可能な記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、キャリヤウェーブ(例えば、インターネットを通した伝送)の形に具現されるものも含む。また、コンピュータが再生可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータが読取れるコードに保存されて実行されることも考えられる。そして、本発明を具現するための機能的なプログラム、コードおよびコードセグメントは当業者であれば容易に推論可能である。
以上、本発明の好適な実施の形態を開示した。この中で、特定の用語が使われたが、これは単に本発明を説明する目的のために使われたものであって、意味の限定や特許請求の範囲に記載された本発明の範囲を限定するために使われたものではない。したがって、当業者であれば、本発明に基づいて、多様な変形および均等な他の実施の形態を実施可能である。よって、本発明の真の技術的保護範囲は、特許請求の範囲に記載された技術的思想により定められる。
本発明は音響モデルを変えずに一般的な連続音声認識装置に適用され、単語間音素情報を用いて不適な単語間結合をあらかじめ制限できるので認識率を向上させることができる。
従来の連続音声認識装置の構成を示すブロック図である。 発音辞書データベースに保存された韓国語の発音列の例を示す図である。 発音辞書データベースに保存された英語の発音列の例を示す図である。 図1に示した従来の連続音声認識装置の探索部の動作を説明する図である。 本発明の実施の形態による連続音声認識装置の構成を示すブロック図である。 発音辞書データベースに保存された韓国語の発音列の例を示す図である。 発音辞書データベースに保存された英語の発音列の例を示す図である。 図4に示した連続音声認識装置の探索部の動作を説明する図である。
符号の説明
41 特徴抽出部
42 探索部
43 音響モデルデータベース
44 発音辞書データベース
45 音素結合情報保存部
46 言語モデルデータベース
47 後処理部

Claims (8)

  1. (a)各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、
    (b)前単語の終声に結合可能な後単語の初声を対応させて、結合可能なあらゆる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、
    (c)入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階と、を含む連続音声認識方法。
  2. 前記(c)段階は、前記単語間音素情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限すること、
    を特徴とする請求項1に記載の連続音声認識方法。
  3. 前記単語間音素情報には、単語間の境界情報が割り当てられてマトリックス化されること、
    を特徴とする請求項1に記載の連続音声認識方法。
  4. 請求項1項に記載された連続音声認識方法を実行させるプログラムを収録したコンピュータで再生可能な記録媒体。
  5. 学習により構築された音響モデルデータベースおよび言語モデルデータベースを含む連続音声認識装置において、
    単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、初声または終声に識別子を追加し、前記前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させて、結合可能なあらゆる単語間音素情報をデータベース化して保存する音素結合情報保存部と、
    各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前記前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない場合、この単語の終声または初声に対する発音表記に識別子を追加して構築された発音辞書データベースと、
    入力される音声から認識に必要な情報を抽出して特徴ベクトルに変換する特徴抽出部と、
    前記音素結合情報を利用して前記音響モデルデータベース、前記発音辞書データベースおよび前記言語モデルデータベースを参照して、前記特徴抽出部で変換された特徴ベクトルと類似している確率が最も高い単語列を探索し、探索された単語列を、認識されたテキストとして出力する探索部とを含むこと、
    を特徴とする連続音声認識装置。
  6. 前記単語間音素情報には、単語間の境界情報が割り当てられてマトリックス化されることを特徴とする請求項5に記載の連続音声認識装置。
  7. 前記探索部は、前記音素結合情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限すること、
    を特徴とする請求項5に記載の連続音声認識装置。
  8. 前記探索部で得られた最適の発音列に対し単語間のバイフォンモデルをトライフォンモデルに変換した後、トライフォンモデルを参照して音響モデルスコアをリスコアリングして各候補別文章のスコアを再計算し、最終的な認識結果を選定する後処理部をさらに含むこと、
    を特徴とする請求項5に記載の連続音声認識装置。
JP2004048087A 2003-02-24 2004-02-24 単語間音素情報を利用した連続音声認識方法および装置 Expired - Fee Related JP4481035B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0011345A KR100486733B1 (ko) 2003-02-24 2003-02-24 음소 결합정보를 이용한 연속 음성인식방법 및 장치

Publications (2)

Publication Number Publication Date
JP2004258658A true JP2004258658A (ja) 2004-09-16
JP4481035B2 JP4481035B2 (ja) 2010-06-16

Family

ID=32906552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004048087A Expired - Fee Related JP4481035B2 (ja) 2003-02-24 2004-02-24 単語間音素情報を利用した連続音声認識方法および装置

Country Status (3)

Country Link
US (1) US7299178B2 (ja)
JP (1) JP4481035B2 (ja)
KR (1) KR100486733B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535339B2 (en) 2015-06-24 2020-01-14 Kabushiki Kaisha Toshiba Recognition result output device, recognition result output method, and computer program product
CN112712796A (zh) * 2019-10-25 2021-04-27 北大方正集团有限公司 语音识别方法及装置

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8443279B1 (en) * 2004-10-13 2013-05-14 Stryker Corporation Voice-responsive annotation of video generated by an endoscopic camera
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
KR100770896B1 (ko) * 2006-03-07 2007-10-26 삼성전자주식회사 음성 신호에서 음소를 인식하는 방법 및 그 시스템
US8214213B1 (en) 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
KR100845428B1 (ko) * 2006-08-25 2008-07-10 한국전자통신연구원 휴대용 단말기의 음성 인식 시스템
KR100832556B1 (ko) * 2006-09-22 2008-05-26 (주)한국파워보이스 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
KR100908444B1 (ko) * 2006-12-05 2009-07-21 한국전자통신연구원 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법
EP1933303B1 (en) * 2006-12-14 2008-08-06 Harman/Becker Automotive Systems GmbH Speech dialog control based on signal pre-processing
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2010030129A2 (en) * 2008-09-10 2010-03-18 Jun Hyung Sung Multimodal unification of articulation for device interfacing
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
KR101037779B1 (ko) * 2009-03-05 2011-05-27 강원대학교산학협력단 한국어 음소결합확률계산기
US8301446B2 (en) * 2009-03-30 2012-10-30 Adacel Systems, Inc. System and method for training an acoustic model with reduced feature space variation
KR101587866B1 (ko) * 2009-06-03 2016-01-25 삼성전자주식회사 음성 인식용 발음사전 확장 장치 및 방법
US9595257B2 (en) * 2009-09-28 2017-03-14 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
KR101139469B1 (ko) 2010-03-25 2012-04-30 성중모 한국어사전
US8682643B1 (en) * 2010-11-10 2014-03-25 Google Inc. Ranking transliteration output suggestions
US10586556B2 (en) 2013-06-28 2020-03-10 International Business Machines Corporation Real-time speech analysis and method using speech recognition and comparison with standard pronunciation
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN105513587B (zh) * 2014-09-22 2020-07-24 联想(北京)有限公司 一种mfcc提取方法及装置
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
KR102300303B1 (ko) * 2014-11-21 2021-09-08 에스케이텔레콤 주식회사 발음 변이를 적용시킨 음성 인식 방법
KR102167157B1 (ko) * 2014-11-21 2020-10-16 에스케이 텔레콤주식회사 발음 변이를 적용시킨 음성 인식 방법
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
KR101853594B1 (ko) * 2016-11-11 2018-06-14 이정화 음가 조합 기반의 외국어 학습 시스템
KR20200026295A (ko) 2017-07-10 2020-03-10 복스 프론테라, 인크. 음절 기반 자동 음성 인식
JP7013172B2 (ja) * 2017-08-29 2022-01-31 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
KR20190109906A (ko) * 2018-03-19 2019-09-27 최파비아 카테고리 셀로 구성된 영어 문장구조 맵과 이를 이용한 영어 교육 방법
CN111667828B (zh) * 2020-05-28 2021-09-21 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5536171A (en) * 1993-05-28 1996-07-16 Panasonic Technologies, Inc. Synthesis-based speech training system and method
US5875426A (en) * 1996-06-12 1999-02-23 International Business Machines Corporation Recognizing speech having word liaisons by adding a phoneme to reference word models

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535339B2 (en) 2015-06-24 2020-01-14 Kabushiki Kaisha Toshiba Recognition result output device, recognition result output method, and computer program product
CN112712796A (zh) * 2019-10-25 2021-04-27 北大方正集团有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
US7299178B2 (en) 2007-11-20
US20040172247A1 (en) 2004-09-02
KR100486733B1 (ko) 2005-05-03
KR20040076035A (ko) 2004-08-31
JP4481035B2 (ja) 2010-06-16

Similar Documents

Publication Publication Date Title
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
EP2048655B1 (en) Context sensitive multi-stage speech recognition
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP3378547B2 (ja) 音声認識方法及び装置
Lyu et al. Large vocabulary taiwanese (min-nan) speech recognition using tone features and statistical pronunciation modeling.
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
JP3277522B2 (ja) 音声認識方法
Manjunath et al. Improvement of phone recognition accuracy using source and system features
JP2004110673A (ja) 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体
Pisarn et al. Improving Thai spelling recognition with tone features
AbuZeina et al. Small-word pronunciation modeling for Arabic speech recognition: A data-driven approach

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100317

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees