JP3523579B2 - 音声認識システム - Google Patents
音声認識システムInfo
- Publication number
- JP3523579B2 JP3523579B2 JP2000287056A JP2000287056A JP3523579B2 JP 3523579 B2 JP3523579 B2 JP 3523579B2 JP 2000287056 A JP2000287056 A JP 2000287056A JP 2000287056 A JP2000287056 A JP 2000287056A JP 3523579 B2 JP3523579 B2 JP 3523579B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- recognition
- model set
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
に関し、例えば、デジタル方式の携帯電話で利用可能
な、音声認識を利用したサービスを提供するのに適した
音声認識システムに関するものである。
バの一部として、不特定話者の音声を認識する音声認識
装置を設置し、デジタル方式の携帯電話で圧縮され、無
線インタフェースを介して伝送された圧縮音声をサーバ
内で伸張した後、音声認識装置で認識し、その結果に基
づいて、しかるべき音声情報を携帯電話に返送するとい
うサービスが考案されている。
サンプルをある特徴パラメータの系列に変換する音響分
析部と、音響分析部で得られた特徴パラメータの系列を
予めメモリーやハードディスクなどの記憶装置に蓄積し
た語彙単語の特徴パラメータに関する情報と照合して、
最も類似度の高い音声を認識結果とする音声照合部の2
つの部分から構成される。音声サンプルをある特徴パラ
メータの系列に変換する音響分析方法としては、ケプス
トラム分析や線形予測分析などが知られており、「音声
・音情報のディジタル信号処理」(鹿野清宏、中村哲、
伊勢史郎共著、(株)昭晃堂)にも詳述されている。音
声認識の中で、不特定話者の音声を認識する技術を一般
に不特定話者音声認識と呼ぶ。不特定話者音声認識にお
いては、語彙単語の特徴パラメータに関する情報が予め
記憶装置に蓄積されているため、特定話者音声認識のよ
うにユーザーが音声認識させたい単語を登録するという
作業は発生しない。また、語彙単語の特徴パラメータに
関する情報の作成およびその情報と入力された音声から
変換された特徴パラメータの系列との音声照合方法とし
ては、隠れマルコフモデル(Hidden Markov Model, HMM)
による方法が一般に用いられている。HMMによる不特
定話者音声認識についても、上記「音声・音情報のディ
ジタル信号処理」に詳しく述べられている。例えば、日
本語の場合、音声単位を上記「音声・音情報のディジタ
ル信号処理」の第2章に記載されている音韻のセットと
し、各音韻がHMMによりモデル化されているとする。
表1(図9)に音韻のセットのラベルの一覧を示す。こ
の時、例えば「コンピュータ」という単語は図2のよう
な話者に共通の音韻ラベルのネットワーク(固定語ラベ
ル系列と呼ぶ)でモデル化することができる。HMMに
よる音韻モデルのデータと固定語ラベル系列を用意すれ
ば、上記「音声・音情報のディジタル信号処理」の第4
章に記載されているViterbiアルゴリズムによ
り、当業者は不特定話者音声認識装置を容易に構成する
ことができる。
声認識を利用した従来サービスにおいては、音響分析部
と音声照合部は、デジタル方式の携帯電話網のサーバの
一部として設置された、不特定話者音声認識装置内の1
つまたは2つ以上のCPUで処理されることが一般的で
あった。
話で利用可能な、音声認識を利用した従来サービスの課
題として2つある。
は、音声の圧縮レートは、PDC規格のフルレート6.
7kbps、ハーフレート3.45kbps、cdma
One規格では8.55kbpsである。これらの規格
で利用される音声圧縮は、サンプリング周波数が8kH
zであることに加えて、上記規格で用いられている音声
圧縮は、圧縮の際に音声情報のロスがあること、圧縮さ
れた音声を無線インタフェースで伝送する際に伝送エラ
ーが発生する場合があることなどの理由から、音声認識
性能の低下が避けられないという技術的な課題がある。
析部と音声照合部の全てをデジタル方式の携帯電話網の
サーバの一部として設置された、不特定話者音声認識装
置内のCPUで処理するため、サービスを利用する要求
のトラフィックが増大した場合に、サーバ内の不特定話
者音声認識装置で対応しきれないという課題がある。
イアントにおいて、音声情報に対して音声認識処理の一
部の処理を実行した後、前記音声情報を圧縮し、前記圧
縮された音声情報を通信手段を介してサーバに送信し、
前記サーバにおいて、受信した前記圧縮された音声情報
に対して前記音声認識処理の残りの処理を実行する音声
認識方法であって、前記音声認識処理の一部の処理は、
音声情報から第1音響パラメータを抽出する処理を含
み、前記音声情報を圧縮する処理は、所定の類似度以上
の類似度を持つ音声単位モデルが得られた第1音響パラ
メータを選択し、選択された第1音響パラメータに関し
てのみ音声単位モデルを表す選択第1ラベル情報に変換
し、残りの第1音響パラメータは、ラベル情報に変換し
ない処理を含み、前記音声認識処理の残りの処理は、前
記選択第1ラベル情報から選択第2音響パラメータを合
成し、合成された選択第2音響パラメータと前記残りの
第1音響パラメータから類似度が最も高い語彙単語を音
声認識結果として選出する処理を含むことを特徴とす
る。
認識処理の一部の処理を実行する第1音声認識処理手段
と、前記第1音声認識処理手段によって音声認識処理の
一部の処理が実行された音声情報を圧縮する圧縮手段
と、前記圧縮手段から出力された音声情報を送信する送
信手段とを具えたクライアントであって、前記第1音声
認識処理手段は、音声信号から一定のフレーム周期で周
波数分析を行い、第1音響パラメータを抽出する抽出手
段を有し、前記圧縮手段は、音声認識用の音声単位モデ
ルセットを格納する音声単位モデルセット格納手段と、
前記抽出された第1音響パラメータを前記音声単位モデ
ルセット格納手段に格納された音声単位モデルを表す第
1ラベル情報に変換する変換手段とを有し、前記音声単
位モデルセット格納手段は、前記音声単位モデルセット
の識別番号をさらに格納し、前記送信手段は、前記音声
単位モデルセット格納手段に格納された音声単位モデル
セットの識別番号をさらに送信することを特徴とする。
記圧縮手段は、所定の類似度以上の類似度を持つ音声単
位モデルが得られた第1音響パラメータを選択し、選択
された第1音響パラメータに関してのみ音声単位モデル
を表す選択第1ラベル情報に変換し、残りの第1音響パ
ラメータは、ラベル情報に変換しない処理を実行するこ
とを特徴とする。
トから送信された前記圧縮された音声情報を通信手段を
介して受信する受信手段と、前記受信手段によって受信
された前記圧縮された音声情報に対して前記音声認識処
理の残りの処理を実行する第2音声認識処理手段とを具
えたサーバであって、前記受信手段は、請求項2のクラ
イアントから送信された前記第1ラベル情報を通信手段
を介して受信し、前記第2音声認識処理手段は、前記受
信手段によって受信された前記第1ラベル情報から第2
音響パラメータを合成する合成手段と、前記合成手段に
よって合成された第2音響パラメータから類似度が最も
高い語彙単語を音声認識結果として選出する選出手段
と、音声認識用の音声単位モデルセットを格納する認識
用モデルセット格納手段と、話者の語彙のスペルから所
定のルールに従い予め抽出された音声単位のラベル系列
を記憶するラベル系列記憶手段と、互いに異なる2つの
音声単位モデルセットの音声単位モデル相互間の対応表
を1個以上保持する対応表保持手段と、前記受信された
音声単位モデルセットの識別番号に基づいて、前記クラ
イアントの前記音声単位モデルセット格納手段に格納さ
れた音声単位モデルを一意に特定し、前記対応表保持手
段における、前記特定した音声単位モデルセットと前記
認識用モデルセット格納手段に格納された音声単位モデ
ルセットとの対応表を用いて、前記受信された音声単位
の第1ラベル情報を前記認識用モデルセット格納手段に
格納された音声単位モデルセットからなる第2ラベル情
報に変換するラベル情報変換手段とを有し、前記合成手
段は、前記ラベル情報変換手段により変換された第2ラ
ベル情報と前記認識用モデルセット格納手段に格納され
た音声単位モデルセットとから第2音響パラメータ系列
を合成し、前記選出手段は、前記認識用モデルセット格
納手段に格納された認識用モデルセットに基づき、前記
ラベル系列記憶手段に記憶された語彙単語に対する音声
単位のラベル系列と前記合成手段で合成された第2音響
パラメータ系列との類似度を計算して照合を行い、最も
類似度の高い語彙単語を認識結果として選出する照合手
段を有することを特徴とする。
記第2音声認識処理手段は、前記受信手段によって受信
された前記第1音響パラメータを、前記第2音響パラメ
ータの代りに、そのまま、前記選出手段に供給すること
を特徴とする。
ライアントと、請求項4または5のサーバとを具えたこ
とを特徴とする。
て、音声情報に対して音声認識処理の一部の処理を実行
した後、前記音声情報を圧縮することを特徴とし、さら
に、前記圧縮された音声情報を通信手段を介してサーバ
に送信し、前記サーバにおいて、受信した前記圧縮され
た音声情報に対して前記音声認識処理の残りの処理を実
行することを特徴とする。
周波数8kHzでデジタル化され、1サンプルが16ビ
ットで表現されるとすると、1秒間の音声の情報量は1
28kbps(=16ビット*8000Hz)になる。
声単位モデルの系列で表現することを考える。この時、
音声単位モデルは1状態から成るHMMで表現されてい
ると仮定する。音声単位モデルが、複数状態から成る場
合でも、それを1状態から成るHMMに分解し、それぞ
れに固有番号を付することは当業者であれば容易である
ことから、上記仮定は一般性を損なわない。音声を音声
単位モデルの系列で表現する方法としては、一定周期の
フレーム毎に抽出された音響パラメータ毎に最も近い音
声単位モデルを算出し、音響パラメータをその音声単位
モデルの固有番号に変換すればよい。例えば、HMMで
表現された音声単位モデルの総数が1024個の場合、
音声単位モデルの固有番号は10ビットで表現できる。
もし、音響分析が10ms周期のフレームで行われると
すると、1フレームの音響パラメータが10ビットの固
有番号にまで圧縮されることになる。従って、128k
bpsの情報量を持つ1秒間の音声は、1kビット(=
10ビット*100フレーム)にまで圧縮でき、日本の
デジタル方式の携帯電話の音声圧縮率よりもさらに高い
圧縮率で音声情報を無線インタフェースで伝送できる可
能性がある。加えて、音声の連続性を考慮すると、連続
した複数のフレームの音響パラメータが同一の音声単位
モデルの固有番号に変換される場合も多いことが予想さ
れ、さらに、情報量を圧縮できることになる。平均して
連続する3フレームが同一の音声単位モデルの固有番号
に変換されるとすると、音声単位モデルの固有番号10
ビットと連続するフレーム数6ビットのペアの系列で表
現すれば、1秒間の音声は、さらに三分の一にまで圧縮
できることになる。
号に変換する方法としては、例えば、音響パラメータの
系列に対し、HMMで表現された音声単位モデルの任意
の接続が可能なネットワークを用いて、公知のVite
rbiアルゴリズムを適用する方法を用いればよい。こ
の方法によれば、音響パラメータ系列に対して、最も類
似した音声単位モデルの系列を抽出することができるの
で、フレーム毎の音響パラメータを音声単位モデルの固
有番号に変換することは、当業者であれば容易である。
或いは、フレーム毎の音響パラメータに対して、HMM
で表現された音声単位モデル毎の類似度を算出し、最も
高い類似度を与える音声単位モデルを決定してもよい。
バータのサンプリング周波数は一般に8kHzであり、
音声認識に利用可能な帯域は4kHzである。より高い
音声認識率を得るためには、PCなどのマルチメディア
機器で普及している11.025kHzや次世代携帯電
話での採用が検討されている16kHzのサンプリング
周波数が好ましい。将来、音声認識を利用したサービス
を利用する場合に限って、携帯電話に装着されているA
Dコンバータのサンプリング周波数を11.025kH
zや16kHzに設定して使用すれば、帯域が4kHz
から5.5125kHzや8kHzに広がるため、より
高い音声認識率が期待できるが、本発明では、音声情報
を音声単位モデルの固有番号の系列の形態で無線インタ
フェースで伝送するため、11.025kHzや16k
Hzのサンプリング周波数であっても、伝送される情報
量は8kHzのサンプリング周波数の場合と比べて不変
であるというメリットがある。
く、音響パラメータが計算されるため、音声圧縮の際に
生じる音声情報のロスは発生しないとのメリットもあ
る。
を無線インタフェースで伝送する際に発生する伝送エラ
ーは本発明を用いた場合でも不可避であるが、1秒当た
りの情報量を少なくできるため、伝送エラーが発生する
頻度も相応的に少ないと期待され、この点でもメリット
が大きい。
声単位モデルの固有番号の情報を用いて、音声照合をデ
ジタル方式の携帯電話網のサーバの一部として設置され
た、不特定話者音声認識装置内のCPUで処理すること
を考える。従来のサービスに比べて、音響分析処理が個
々の携帯電話で行われるため、サービスを利用する要求
のトラフィックが増大した場合に、サーバ内の不特定話
者音声認識装置の処理が緩和されるというメリットがあ
る。
biアルゴリズムを用いればよいが、Viterbiア
ルゴリズムにおいては、一般に、入力は音響パラメータ
の系列である。本発明においては、音響パラメータの系
列が音声単位モデルの固有番号の情報に圧縮されている
ため、音声単位モデルの固有番号の情報を音響パラメー
タの系列に復元する必要がある。そこで、その方法につ
いて説明する。先に、音声単位モデルは、1個の状態か
ら成るHMMで表現されると仮定したが、一般に状態に
は、1個以上の正規分布が属している。この正規分布の
平均を音響パラメータとして代用すればよい。より詳細
な方法については、実施例で説明する。
た音声単位モデルと携帯電話網のサーバの一部として設
置された不特定話者音声認識装置に格納された音声単位
モデルは同一であるとの前提に基づいていたが、同一で
なくても2つの音声単位モデル間の対応表をサーバの不
特定話者音声認識装置に具えておけば良い。これについ
ても、より詳細な方法については、実施例で説明する。
送される情報は、音声単位モデルの固有番号の系列の情
報であることから、クライアントで行われる音響分析と
サーバに格納される音声単位モデルが生成された際に行
われた音響分析は必ずしも一致している必要がない。す
なわち、2つの音声単位モデル間の対応表をサーバの不
特定話者音声認識装置に具えておくことによって、例え
ば、クライアントのメーカーとサーバのメーカーの異な
る組み合わせであっても、本発明が適用可能になる。
である。
らなる入力手段aによりデジタル音声信号11に変換さ
れる。デジタル音声信号11は抽出手段bにより一定の
フレーム周期でケプストラムなどの音響パラメータ22
に変換される。ケプストラムの抽出方法は、上記「音声
・音情報のディジタル信号処理」にも記述されている。
音声単位モデルセット格納手段cには、HMMで表現さ
れた音声単位モデルのセットとその識別番号43が格納
されている。
示すような3つの状態から成るHMMで表現されるが、
図3に示すように、1つの状態から成る、3つのHMM
に分解することは当業者であれば容易である。ここで、
例えば、3つの状態から成る音韻aのHMMを分解した
場合、音韻aの第1状態、第2状態、第3状態からなる
HMMをそれぞれa.1、a.2、a.3とラベル付け
する。
ベントなどにおいても同様に、1つの状態から成るHM
Mに分解することは当業者であれば容易である。
は、1つ以上の正規分布が属するが、1つの正規分布を
持つ1つの状態からなるHMMに分解することは当業者
であれば容易である。
cには、表1に示された音韻から分解されて生成され
た、1つの状態から成り、かつ1つの正規分布から成る
HMMで表現される音声単位モデルのセットが格納され
ているとする。この音声単位モデルのセットの識別番号
を1とする。
い精度で近似する音声単位モデルの系列に変換する方法
としては、フレーム毎の音響パラメータ22に対して、
HMMで表現された音声単位モデル毎の類似度を算出
し、最も高い類似度を与える音声単位モデルを決定すれ
ばよい。図5を用いて、変換手段dでの変換方法を説明
する。
10次元のケプストラムが用いられるとする。この時、
それぞれのケプストラムは16ビットで表現されるとす
る。従って、フレームあたりの情報量は160ビットで
ある。
デル(図5では、音声単位モデル1、音声単位モデル
2、音声単位モデル3の3種類)の類似度を計算する
と、音声単位モデル2の類似度が最も大きな値を持つ。
この場合に、音響パラメータ22は、「2」という情報
に変換される。この変換により得られた情報をラベル情
報44と呼ぶこととし、ラベル情報44を16ビットで
表現するとすると、フレーム当たりの情報量がケプスト
ラムという音響パラメータ22で表現した場合に比べ
て、1/10に削減される。
の下で任意に接続可能なネットワークを用いれば、公知
のViterbiアルゴリズムにより、変換手段dで音
響パラメータ22を最も高い精度で近似する音声単位モ
デルの系列に変換することもできる。
マットを示す。表2に示す通り、ラベル情報44は音声
単位モデルの固有番号とその音声単位モデルが連続する
フレーム数から構成される。同一の音声単位モデルが連
続する頻度が50%未満であれば、表3(図11)に示
す通り、ラベル情報44を音声単位モデルの固有番号の
系列で表せばよい。
ロトコルに従って、携帯電話網の中に設けられたサーバ
Sに、音声単位モデルセット格納手段cに格納された音
声単位モデルのセットの識別番号43とラベル情報44
を送信し、サーバSに対して、音声照合処理の要求を出
す。
d、ラベル情報送信手段e、認識結果受信手段fはクラ
イアントCである携帯電話内のCPUが同携帯電話内の
メモリに格納されている制御プログラムを実行すること
によって実現される。出力手段gは携帯電話に備えられ
たディスプレイおよび/またはスピーカによって構成で
きる。音声単位モデルセット格納手段cは、携帯電話内
のメモリに格納することができる。
バSでは、ラベル情報受信手段hにより、携帯電話網の
クライアントである携帯電話から送信された、音声単位
モデルcセット格納手段cに格納された音声単位モデル
セットの識別番号43とラベル情報44を受信する。
れ、2つの音声単位モデルセットの音声単位モデル相互
の対応表55が1個以上保持されている。対応表55
は、クライアントの携帯電話の音声単位モデルセット格
納手段cに格納された音声単位モデルとサーバの音声認
識装置の認識用モデルセット格納手段i(後述)に格納
された音声単位モデルの対応関係を表すデータである。
この対応表55により、音声単位モデルセット格納手段
cに格納された音声単位モデルと認識用モデルセット格
納手段iに格納された音声単位モデルとの間の互換性を
保証することができる。
た音声単位モデルが表4(図12)に示された音韻から
同様に図2、図3で示した方法により分解されて生成さ
れた1状態のHMMであるとする。この音声単位モデル
のセットの識別番号を2とする。表4には、表1に拗音
の音韻が別途加えられている。
aという音韻系列で表現される。従って、音声単位モデ
ルセット格納手段cに格納された音声単位モデルを用い
ると、「きゃ」という音節は、k.1-k.2-k.3-y.1-y.2-y.
3-a.1-a.2-a.3という系列で表現される。一方、表4の
場合、「きゃ」という音節は、ky-aという音韻系列で表
現される。従って、認識用モデルセット格納手段iに格
納された音声単位モデルを用いると、「きゃ」という音
節は、ky.1-ky.2-ky.3-a.1-a.2-a.3という系列で表現さ
れる。
3)のような、識別番号1の音声単位モデルと識別番号
2の音声単位モデルの対応表が用意されていれば、表1
の場合の「きゃ」と表4の場合の「きゃ」が対応づけら
れる。
格納された音声単位モデルが表6(図14)に示された
音韻から同様に図2、図3で示した方法により分解され
て生成された1状態のHMMであるとする。この音声単
位モデルのセットの識別番号を3とする。
「づ」、「で」、「ど」がそれぞれ、d-a、dh-i、dz-
u、d-e、d-oという音韻系列で表現されるのに対し、表
6(図14)では、d-a、d-i、d-u、d-e、d-oという音
韻系列で表現される。
5)のような、識別番号1の音声単位モデルと識別番号
3の音声単位モデルの対応表が用意されていれば、表1
(図9)の場合の「だ」行と表4(図12)の場合の
「だ」行が対応づけられる。
対応表を対応表55として、対応表保持手段kに具えれ
ばよい。そうすれば、ラベル情報変換手段lは、対応表
保持手段kに格納された対応表55を参照することによ
り、表8(図16)に示されたフォーマットのラベル情
報44を表9(図17)に示されたフォーマットの変換
ラベル情報66に変換することが可能である。
成された変換ラベル情報66から、合成音響パラメータ
77を合成する。この際、認識用モデルセット格納手段
iに格納された、認識用モデルセット88を参照する。
認識用モデルセット88は、HMMで表現された音韻か
ら図2、図3で示した方法により分解されて生成された
1状態のHMMからなる音声単位モデルであるとする。
成処理を説明する。
の固有番号の値が例えば「2」であるとすると、音声単
位モデル(この図では、音声単位モデル1、音声単位モ
デル2、音声単位モデル3の3種類)の中から、音声単
位モデル2の正規分布の平均ベクトル(この場合、10
次元のケプストラム)を抽出し、これを合成音響パラメ
ータ77と呼ぶことにする。これにより、16ビットの
変換ラベル情報66から、160ビットの合成音響パラ
メータ77が合成できる。
合、音声単位モデルky.1の連続するフレーム数は、ラベ
ル情報44の中に含まれていた、k.1の連続するフレー
ム数とk.2の連続するフレーム数の合計である。一方、
認識用モデルセット88の中から、音声単位モデルky.1
を探し、そのHMMの1つの状態に属している正規分布
の中から音響パラメータの平均ベクトルを抽出する。そ
こで、この平均ベクトルをky.1の連続するフレーム数、
すなわち、k.1の連続するフレーム数とk.2の連続するフ
レーム数の合計分だけ、連続して並べる。変換ラベル情
報66のky.2、ky.3に関しても同様に合成音響パラメー
タ77が合成される。
ーム数は、ラベル情報44の中に含まれていた、a.1の
連続するフレーム数と同一である。一方、認識用モデル
セット88の中から、音声単位モデルa.1を探し、その
HMMの状態に属している正規分布の中から音響パラメ
ータの平均ベクトルを抽出する。そこで、この平均ベク
トルをa.1の連続するフレーム数分だけ、連続して並べ
ることにより、合成音響パラメータ77を合成できる。
変換ラベル情報66のa.2、a.3に関しても同様に合成音
響パラメータ77が合成できる。
ルの系列と別の音声単位モデルの平均ベクトルの系列を
接続する場合は、お互いの平均ベクトルを連続的に線形
補間することにより、2つの平均ベクトル系列を滑らか
に接続する方法も有効であると考えられる。
77から、認識用モデルセット格納手段iに格納され
た、認識用モデルセット88および不特定話者に語彙の
スペルからあるルールに従い予め抽出された音声単位の
ラベル系列を記憶するラベル系列記憶手段jに記憶され
た、語彙の音声単位のモデルのネットワークデータ99
に基づいて、公知のViterbiアルゴリズムによ
り、類似度が高い語彙単語を認識結果100として求め
ることができる。
網のプロトコルに従って、携帯電話網の中に存在するク
ライアントの携帯電話に対して認識結果100を送信す
る。
変換手段l、合成手段m、照合手段n、認識結果送信手
段oは携帯電話網のサーバに設置された音声認識装置の
CPUが同装置内のメモリに格納されている制御プログ
ラムを実行することによって実現される。対応表保持手
段k、認識用モデルセット格納手段i、ラベル系列記憶
手段jは、音声認識装置内のメモリに格納することがで
きる。
手段fにより、サーバから送信された認識結果100を
受信し、それを出力手段pに出力する。
全てのフレームについて、音響パラメータ22をラベル
情報44に変換する場合について説明してきた。しかし
ながら、フレームによっては、クライアントの変換手段
mで音響パラメータ22をラベル情報44に変換し、サ
ーバの合成手段mで、変換ラベル情報66から合成音響
パラメータ77を合成した際の、合成音響パラメータ7
7の音響パラメータ22に対する近似精度が十分に高く
ないことにより、照合手段nで得られる認識結果100
の認識率が十分に高くないケースが予想される。
響パラメータ22をラベル情報44に変換する際に、各
フレームで音響パラメータ22に対して最も高い類似度
を持つ音声単位モデルの類似度を所定のしきい値と比較
し、類似度がしきい値以上のフレームでは、ラベル情報
44に変換し、類似度がしきい値未満のフレームでは、
ラベル情報44の代わりに、音響パラメータ22をその
ままラベル情報送信手段eに渡す。
セット格納手段cに格納された音声単位モデルセット3
3の識別番号43と変換手段で変換されたラベル情報4
4及び音響パラメータ22の系列を携帯電話網を介して
サーバに送信する。
話網を介してクライアントから音声単位モデルセットの
識別番号43とラベル情報44及び音響パラメータ22
の系列を受信する。
に変換されたフレームについてのみ、ラベル情報受信手
段hで受信された音声単位モデルセットの識別番号43
により、クライアントの音声単位モデルセット格納手段
cに格納された音声単位モデルを一意に特定し、その音
声単位モデルセット33と認識用モデルセット格納手段
iに格納された認識用モデルセット88との対応表55
を対応表保持手段kから取り出し、それを用いて、ラベ
ル情報受信手段hで受信された音声単位のラベル情報4
4を認識用モデルセット格納手段iに格納された認識用
モデルセット88に対応した変換ラベル情報66に変換
して合成手段mに送り、音響パラメータのフレームはそ
のまま音響パラメータを合成手段mに送る。
み、ラベル情報変換手段lにより変換された変換ラベル
情報66と認識用モデルセット格納手段iに格納された
認識用モデルセット88から合成音響パラメータ88を
合成して、合成音響パラメータ88とラベル情報変換手
段lから送られた音響パラメータが混在した音響パラメ
ータの系列を照合手段nに送る。
響パラメータ22に対する近似精度が十分に高くないフ
レームでは、クライアントの抽出手段cで抽出された音
響パラメータ22を、合成音響パラメータ77の音響パ
ラメータ22に対する近似精度が十分に高いフレームで
は、サーバの合成手段mで合成された合成音響パラメー
タ77を照合手段nで照合に用いるため、クライアント
からサーバへ通信される情報量を削減し、通信料を節約
することと、かつ、サーバで高い認識結果を得ることを
両立させることができる。
図であって、図1に示した実施例1と比較すると、この
実施例3では、音声単位モデルセット格納手段cに格納
された音声単位モデルと認識用モデルセット格納手段i
に格納された音声単位モデルが同一の場合の例を示して
おり、実施例1では必須であった、対応表保持手段k、
ラベル情報変換手段lは不要であり、音声単位モデルの
セットを示す識別番号は不要であって、変換ラベル情報
66の代りにラベル情報44のみを合成手段mに供給す
ればよい。
手段iに格納された、音声単位モデルセット格納手段c
に格納されたのと同じ音声単位モデルセット33を参照
してラベル情報44から合成音響パラメータ77を合成
する。その処理内容は実施例1のそれと同様である。ま
た、照合手段nでの処理も実施例1のそれと同様であ
る。
される情報量とサーバでの認識率の関係を調べるために
行った評価実験の結果を例示する。
る。クライアントの音声単位モデルセット格納手段cに
格納された音声単位モデルセット33とサーバの認識用
モデルセット格納手段iに格納された認識用モデルセッ
ト88は同一とし、700個の音響イベントを1つの正
規分布を持ち、1つの状態から成るHMMでモデル化し
たものを用いた。
判断をするためのしきい値を変動させた時の女性1名の
520単語の音声データ(自動車雑音がSNR8dBで
重畳されている)の認識率、ラベル情報に変換されたフ
レームの割合とクライアントからサーバへ通信される情
報量の関係を示す。
判断をするためのしきい値を示す。縦軸は、認識率(単
位%)、ラベル情報に変換されたフレームの割合(ラベ
ル情報変換率)(単位%)とクライアントからサーバへ
通信される情報量(単位kbps*5倍)を示す。
0ビット、音響パラメータは160ビット(16ビット
*10次元)として計算した。従って、ラベル情報に変
換されるフレームでは10ビットのラベル情報が、ラベ
ル情報に変換されずに音響パラメータのままのフレーム
は160ビットの音響パラメータが、クライアントから
サーバに通信されることになる。
情報変換率、▲が情報量である。
て、最大の類似度を持つ音響イベントの類似度に対する
しきい値である。ここで、類似度は、音響パラメータに
対する音響イベントのHMMの確率値の対数値である。
合、ラベル情報変換率が0%であるので、全てのフレー
ムにおいて、音響パラメータをラベル情報に変換しない
ことを意味しており、クライアントからサーバへ通信さ
れるのは音響パラメータのみという場合に当たる。この
場合に、認識率は92%であり、情報量は16kbps
である。
報変換率が99%であるので、ほとんど全てのフレーム
において、音響パラメータがラベル情報に変換されるこ
とを意味しており、クライアントからサーバへ通信され
るのはほとんどがラベル情報という場合に当たる。この
場合に、認識率は78%であり、情報量は1.1kbp
sである。
ラメータをラベル情報に変換して、クライアントからサ
ーバに送信する場合は、音響パラメータを送信する場合
に比べて、14%の認識率低下が起こるものの、クライ
アントからサーバへの通信に伴う情報量は、約7%に圧
縮される。
ラベル情報変換率49%、認識率89%、情報量8.6
kbpsという設定が好ましいと判断されるが、実際に
は、認識率の低下分と情報量の削減に伴う通信料の節約
効果を勘案して、適切なしきい値を適宜選択すれば良
い。
話、サーバを携帯電話網の中のサーバに設置された音声
認識装置として説明したが、クライアントをPC、サー
バをインターネット網の中のサーバに設置された音声認
識装置であってもよい。また、クライアントが携帯電話
で、サーバが携帯電話網と接続されたインターネット網
の中のサーバに設置された音声認識装置の組み合わせで
もよいし、クライアントがPCで、サーバがインターネ
ット網と接続された携帯電話網の中のサーバに設置され
た音声認識装置の組み合わせでも良いことは言うまでも
ない。
通信手段を介して伝送される音声情報に対して高い音声
認識性能を得ることができる。また、通信手段内の伝送
量を少なくすることができるので、通信手段内のトラフ
ィックの増大にも対応することができる。
する図である。
るHMMの構造を説明する図である。
ネットワークの構造を説明する図である。
を表す表1を示す図である。
す図である。
す図である。
2)を表す表4を示す図である。
である。
3)を表す表6を示す図である。
である。
ットを表す表8を示す図である。
ーマットを表す表9を示す図である。
Claims (6)
- 【請求項1】 クライアントにおいて、音声情報に対し
て音声認識処理の一部の処理を実行した後、前記音声情
報を圧縮し、前記圧縮された音声情報を通信手段を介し
てサーバに送信し、前記サーバにおいて、受信した前記
圧縮された音声情報に対して前記音声認識処理の残りの
処理を実行する音声認識方法であって、 前記音声認識処理の一部の処理は、音声情報から第1音
響パラメータを抽出する処理を含み、 前記音声情報を圧縮する処理は、所定の類似度以上の類
似度を持つ音声単位モデルが得られた第1音響パラメー
タを選択し、選択された第1音響パラメータに関しての
み音声単位モデルを表す選択第1ラベル情報に変換し、
残りの第1音響パラメータは、ラベル情報に変換しない
処理を含み、 前記音声認識処理の残りの処理は、前記選択第1ラベル
情報から選択第2音響パラメータを合成し、合成された
選択第2音響パラメータと前記残りの第1音響パラメー
タから類似度が最も高い語彙単語を音声認識結果として
選出する処理を含むことを特徴とする音声認識方法。 - 【請求項2】 音声情報に対して音声認識処理の一部の
処理を実行する第1音声認識処理手段と、前記第1音声
認識処理手段によって音声認識処理の一部の処理が実行
された音声情報を圧縮する圧縮手段と、前記圧縮手段か
ら出力された音声情報を送信する送信手段とを具えたク
ライアントであって、 前記第1音声認識処理手段は、音声信号から一定のフレ
ーム周期で周波数分析を行い、第1音響パラメータを抽
出する抽出手段を有し、 前記圧縮手段は、音声認識用の音声単位モデルセットを
格納する音声単位モデルセット格納手段と、前記抽出さ
れた第1音響パラメータを前記音声単位モデルセット格
納手段に格納された音声単位モデルを表す第1ラベル情
報に変換する変換手段とを有し、 前記音声単位モデルセット格納手段は、前記音声単位モ
デルセットの識別番号をさらに格納し、 前記送信手段は、前記音声単位モデルセット格納手段に
格納された音声単位モデルセットの識別番号をさらに送
信することを特徴とするクライアント。 - 【請求項3】 請求項2において、 前記圧縮手段は、所定の類似度以上の類似度を持つ音声
単位モデルが得られた第1音響パラメータを選択し、選
択された第1音響パラメータに関してのみ音声単位モデ
ルを表す選択第1ラベル情報に変換し、残りの第1音響
パラメータは、ラベル情報に変換しない処理を実行する
ことを特徴とするクライアント。 - 【請求項4】 請求項2のクライアントから送信された
前記圧縮された音声情報を通信手段を介して受信する受
信手段と、前記受信手段によって受信された前記圧縮さ
れた音声情報に対して前記音声認識処理の残りの処理を
実行する第2音声認識処理手段とを具えたサーバであっ
て、 前記受信手段は、請求項2のクライアントから送信され
た前記第1ラベル情報を通信手段を介して受信し、 前記第2音声認識処理手段は、前記受信手段によって受
信された前記第1ラベル情報から第2音響パラメータを
合成する合成手段と、前記合成手段によって合成された
第2音響パラメータから類似度が最も高い語彙単語を音
声認識結果として選出する選出手段と、音声認識用の音
声単位モデルセットを格納する認識用モデルセット格納
手段と、話者の語彙のスペルから所定のルールに従い予
め抽出された音声単位のラベル系列を記憶するラベル系
列記憶手段と、互いに異なる2つの音声単位モデルセッ
トの音声単位モデル相互間の対応表を1個以上保持する
対応表保持手段と、前記受信された音声単位モデルセッ
トの識別番号に基づいて、前記クライアントの前記音声
単位モデルセット格納手段に格納された音声単位モデル
を一意に特定し、前記対応表保持手段における、前記特
定した音声単位モデルセットと前記認識用モデルセット
格納手段に格納された音声単位モデルセットとの対応表
を用いて、前記受信された音声単位の第1ラベル情報を
前記認識用モデルセット格納手段に格納された音声単位
モデルセットからなる第2ラベル情報に変換するラベル
情報変換手段とを有し、 前記合成手段は、前記ラベル情報変換手段により変換さ
れた第2ラベル情報と前記認識用モデルセット格納手段
に格納された音声単位モデルセットとから第2音響パラ
メータ系列を合成し、 前記選出手段は、前記認識用モデルセット格納手段に格
納された認識用モデルセットに基づき、前記ラベル系列
記憶手段に記憶された語彙単語に対する音声単位のラベ
ル系列と前記合成手段で合成された第2音響パラメータ
系列との類似度を計算して照合を行い、最も類似度の高
い語彙単語を認識結果として選出する照合手段を有する
ことを特徴とするサーバ。 - 【請求項5】 請求項4において、 前記第2音声認識処理手段は、前記受信手段によって受
信された前記第1音響パラメータを、前記第2音響パラ
メータの代りに、そのまま、前記選出手段に供給するこ
とを特徴とするサーバ。 - 【請求項6】 請求項2または3のクライアントと、請
求項4または5のサーバとを具えたことを特徴とする音
声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000287056A JP3523579B2 (ja) | 2000-09-21 | 2000-09-21 | 音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000287056A JP3523579B2 (ja) | 2000-09-21 | 2000-09-21 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002099298A JP2002099298A (ja) | 2002-04-05 |
JP3523579B2 true JP3523579B2 (ja) | 2004-04-26 |
Family
ID=18770873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000287056A Expired - Fee Related JP3523579B2 (ja) | 2000-09-21 | 2000-09-21 | 音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3523579B2 (ja) |
-
2000
- 2000-09-21 JP JP2000287056A patent/JP3523579B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
V. Digalakis, L. Neumeyer and M. Perakakis,Quantization of cepstral parameters for speech recognition over the World Wide Web,Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing,米国,1998年 5月12日,Vol.2,Pages 989−992 |
小坂、植山、櫛田、山田、小森,スカラ量子化を利用したクライアント・サーバ型音声認識の実現とサーバ部の高速化の検討,電子情報通信学会技術研究報告[音声],日本,1999年12月21日,NLC99−52 SP99−120,Pages 31−36 |
Also Published As
Publication number | Publication date |
---|---|
JP2002099298A (ja) | 2002-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6003004A (en) | Speech recognition method and system using compressed speech data | |
US6119086A (en) | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens | |
EP3061086B1 (en) | Text-to-speech performance evaluation | |
US6058363A (en) | Method and system for speaker-independent recognition of user-defined phrases | |
JPH10507536A (ja) | 言語認識 | |
JPH11511567A (ja) | パターン認識 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
JP3523579B2 (ja) | 音声認識システム | |
JP2003330484A (ja) | 音声認識装置及び音声認識方法 | |
Verma et al. | Using viseme based acoustic models for speech driven lip synthesis | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
Lévy et al. | Reducing computational and memory cost for cellular phone embedded speech recognition system | |
JP2003177781A (ja) | 音響モデル生成装置及び音声認識装置 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
Weintraub et al. | Constructing telephone acoustic models from a high-quality speech corpus | |
JP2003122395A (ja) | 音声認識システム、端末およびプログラム、並びに音声認識方法 | |
JP3075250B2 (ja) | 話者認識方法及び装置 | |
JP3422702B2 (ja) | 話者照合方法及び装置 | |
KR100369478B1 (ko) | 음성 모델의 생성 방법 | |
JP3552200B2 (ja) | 音声信号伝送装置および音声信号伝送方法 | |
JP3285047B2 (ja) | 不特定話者用音声認識装置 | |
JP3036706B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110220 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110220 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 10 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |