JP4905361B2

JP4905361B2 - 音声認識装置、音声認識方法、及び音声認識用プログラム

Info

Publication number: JP4905361B2
Application number: JP2007557797A
Authority: JP
Inventors: 聡中澤; 研治佐藤; 崇博池田; 要祐坂尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-02-06
Filing date: 2007-01-31
Publication date: 2012-03-28
Anticipated expiration: 2027-01-31
Also published as: JPWO2007091462A1; US20090168976A1; CN101379550B; WO2007091462A1; CN101379550A; US9165557B2

Description

本発明は、音声認識装置、音声認識方法及び音声認識用プログラムに係り、特に電話の通話音声に対して内容に対応した音声認識処理を実行する音声認識装置、音声認識方法及び音声認識用プログラムに関する。

近年、コールセンター等において、電話の自動応答や通話記録に用いるための音声認識技術が広く普及している。一般に、この音声認識技術は、電話の音声を基に予め登録した単語を抽出して文字情報に自動変換する技術であり、一つひとつの音声の最小認識単位を周波数などで表す音響モデル，音声の組み合わせを単語として規定する認識辞書，単語間の接続関係や言い回しを示す言語モデルを用意し、これらを参照して音声認識を行っている。

また、音声認識技術において、認識対象である音声信号の特性や種類，環境に応じた音響モデル，認識辞書，言語モデルを予め用意することは、誤認識を減少させ認識精度を向上させるためには有効である。このような音声認識技術を利用した例として、特許文献１では、電話の送信側チャネルと受信側チャネルとで音声認識に用いる基礎データを別途用意することで、それぞれのチャネルに応じた音声認識を行う通話内容書き起こしシステムが開示されており、特許文献２では、電話の発信者番号に応じて、音声認識に用いる音声辞書を選択する通信装置が開示されている。

特開２００５−１２３８６９号公報特開２０００−１２５０３１号公報

しかしながら、上記の特許文献１に開示されたシステムは、送信側と受信側とで個別に音声認識するというだけで、不特定多数の発話者からの音声である受信側音声については、その特徴に応じた音声認識を行っているわけではない。このような特許文献１のシステムをコールセンター等の自動応答や通話記録に適用しても、顧客の音声に対応した音声認識を行わないので、音声認識精度の向上を期待することはできない。

また、特許文献２に示された通信装置では、電話の発信者番号から通話内容を予測するための情報を予め用意しなければならないうえに、相手が発信者番号を非通知にしている場合は音声認識できないという不都合があった。

そこで、本発明は、上記従来技術の不都合を改善したもので、コールセンター等の業務に用いる音声認識装置、音声認識方法及び音声認識用プログラムにおいて、通話の発信者に関する情報を必要とせずに精度よく音声認識を行う音声認識装置、音声認識方法及び音声認識用プログラムを提供することを、その目的とする。

上記の目的を達成するために、本発明の音声認識装置は、複数ある受信用電話番号への通話を受信する通話受信部と、受け付けた通話の通話音声信号を入力する通話音声信号入力手段と、この入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声を言語情報に認識する音声認識に用いる音声認識用情報を受信用電話番号に対応づけて記憶した音声認識用情報記憶手段と、この記憶された音声認識用情報から受付電話番号に対応した音声認識用情報を選択する音声認識用情報選択手段と、この選択した音声認識用情報を用いて通話音声信号入力手段に入力された通話音声信号を言語情報に認識し音声内容を特定する音声認識手段とを備えることを特徴とする。

このような音声認識装置によれば、取り扱う内容毎や発信地域毎等のように受け付ける通話の内容別に受信用電話番号を複数設け、通話を受けた受信用電話番号である受付電話番号に応じた音声認識をその受け付けた通話の音声信号に対して行うことで、通話内容に応じた精度のよい音声認識を行うことができ、正確に音声内容を特定することができる。

また、上述の音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも１つであるようにしてもよい。この場合、通話音声信号とこれらの認識辞書，音響モデル，言語モデルとを照合することにより音声認識が行われる。

更に、本発明の音声認識装置は、複数ある受信用電話番号への通話を受信する通話受信部と、受け付けた通話の通話音声信号を入力する通話音声信号入力手段と、この入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声信号補正の内容を示す補正内容情報を受信用電話番号に対応付けて記憶した補正内容情報記憶手段と、受付電話番号に対応した補正内容情報を選択する補正内容情報選択手段と、この選択した補正内容情報が示す音声補正処理を通話音声信号入力手段に入力された通話音声信号に施す音声補正手段と、この音声補正手段によって補正された通話音声信号を言語情報に認識し音声内容を特定する音声認識手段とを備えることを特徴とする。

このようにすると、通話内容に応じた音声補正処理を通話音声信号に施すことができる。音声補正処理の例としては、雑音除去処理や信号の歪み補正処理，圧縮音声の補正処理等があり、これらの音声補正処理によって通話音声信号から音声認識に関係のない音が取り除かれる。このため、通話音声信号は、本来の音声信号である話者の発声音声の信号に近づき、音声認識が正確に行われ音声認識の精度が向上する。

次に、本発明にかかる音声認識方法は、複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声を言語情報に認識するために用いる音声認識用情報を受付電話番号に応じて選択する認識用情報選択工程と、この選択した音声認識処理用情報を用いて通話音声入力工程で入力した通話音声信号を言語情報に認識し音声内容を特定する音声認識工程とを有することを特徴とする。

このような音声認識方法によれば、取り扱う内容毎や発信地域毎等のように受け付ける通話の内容別に受信用電話番号を複数設け、通話を受けた受信用電話番号である受付電話番号に応じた音声認識処理をその受け付けた通話の音声信号に施すことで、通話内容に応じた精度のよい音声認識を行い、正確に音声内容を特定することができる。

ここで、上記の音声認識方法において、音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、認識の手順を示す情報あるいは認識パラメータとのうち少なくとも１つであるとしてもよい。

更に、本発明の音声認識方法は、複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号に対応付けて予め記憶している中から前記受付電話番号に応じて選択する補正内容情報選択工程と、この選択した補正内容情報が示す音声補正処理を通話音声入力工程で入力した通話音声信号に対して施す音声補正工程と、この音声補正工程で補正した音声信号を言語情報に認識し音声内容を特定する音声認識工程とを有することを特徴とする。

このようにすると、通話内容に応じた音声補正処理を通話音声信号に施すことができる。音声補正処理の例としては、雑音除去処理や信号の歪み補正処理，圧縮音声の補正処理等があり、これらの音声補正処理によって通話音声信号から音声認識に関係のない音が取り除かれる。このため、通話音声信号は、本来の音声信号である話者の発声音声の信号に近づき、音声認識用情報との照合が正確に行われ音声認識の精度が向上する。

次に、本発明の音声認識用プログラムは、複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声を言語情報に認識するために用いる音声認識用情報を受付電話番号に応じて選択する認識用情報選択処理と、この選択された音声認識用情報を用いて通話音声入力処理で入力された通話音声信号を言語情報に認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とする。

このような音声認識用プログラムによれば、通話の内容別に受信用電話番号を複数設け、通話を受けた受信用電話番号である受付電話番号に応じた音声認識用情報を用いてその通話の音声信号を認識することで、通話内容に応じた精度のよい音声認識を行い、正確に音声内容を特定することができる。

また、上述の音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも１つであるようにしてもよい。

更に、本発明の音声認識用プログラムは、複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声補正の内容を示す補正内容情報を受信用電話番号毎に予め決められたうちから受付電話番号に応じて選択する音声補正選択処理と、この選択した補正内容情報に従って通話音声入力処理で入力された通話音声信号を補正する音声補正処理と、音声補正処理によって補正された音声信号を言語情報に認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とした。

本発明は以上のように構成され機能するので、これによると、受け付けた通話の音声信号に対して、この通話の内容に応じた音声認識処理を行うことができ、その結果、誤認識が少なく精度のよい音声認識を能率良く実行することができる。

以下、本発明における一実施形態を、図面を参照して説明する。

図１は、本実施形態の構成の概略を示す機能ブロック図である。

図１に示す音声認識装置１は、外部からの通話音声を認識し音声内容を特定するための装置である。音声認識装置１は，公衆通信網２に接続されており，通話受信部１１，通話音声信号入力手段１２，受付電話番号入力手段１３，音声補正手段１４，前処理モジュール記憶部１５，音声補正処理選択手段１６，音声認識手段１７，認識辞書・モデル・パラメータ記憶部１８，音声認識処理選択手段１９，認識結果出力手段２０で構成されている。

通話受信部１１は、受信用電話番号を複数設けて、それぞれの受信用電話番号に宛てられた通話を受信する。この通話受信部１１として使用するものとしては、構内電話交換機やＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）サーバ等がある。

一般的なコールセンターの業務では、電話応答の効率化等の目的で、取り扱う業務や地域によって異なる電話番号を割り振って顧客に対応することがある。これに伴って設けられた本実施形態の受信用電話番号は、複数あるうちのそれぞれで対応する通話の内容が異なることになる。

通話音声信号入力手段１２は、通話受信部１１で受け付けた通話のうち音声認識を行う通話の通話音声信号を入力する。受付電話番号入力手段１３は、通話音声信号入力手段１２によって入力された通話音声信号にかかる通話の宛先であった受信用電話番号を受付電話番号として入力する。すなわち、通話音声信号入力手段１２で入力される通話音声信号と受付電話番号入力手段１３で入力される受付電話番号は対応したものである。

ここで、上述した通話音声信号入力手段１２，受付電話番号入力手段１３については、その機能内容をプログラム化してコンピュータに実行させるように構成してもよい。

音声補正手段１４は、通話音声信号入力手段１２によって入力された通話音声信号に音声認識の前処理として雑音除去等の音声補正処理を行う。電話回線からの音声信号は、話者の周囲の騒音や符号化等に伴う歪み，携帯電話の音声圧縮による音声劣化等により、そのままでは音声認識が困難である。このため、通話音声信号を補正して、正確な音声認識が行えるようにする。

また、音声補正処理選択手段１６は、携帯電話やＰＨＳ端末等の電話の種類，通話地域等によって異なる音質変化を起こした通話音声を、それぞれに応じて補正するために、前処理用モジュール記憶部１５に記憶された補正内容情報としての前処理用モジュールから適当な前処理用モジュールを選択する。そして、音声補正手段１４は、音声補正処理選択手段１６によって選択された前処理用モジュールを用いて通話音声信号を補正する。

ここで、前処理用モジュール記憶部１５は、用途や目的に応じて受信用電話番号毎に用意された複数の前処理用モジュールを記憶し補正内容情報記憶手段として機能している。音声補正処理選択手段１６は、受付電話番号入力手段１３によって入力された受付電話番号に応じて前処理用モジュールを選択する補正内容情報選択手段として機能する。この前処理用モジュールは、従来の音声処理技術に使用されているもので、雑音除去処理用のモジュール，音声信号歪み補正用のモジュール，圧縮音声補正用のモジュールなどがある。

通話音声信号を補正するときの具体例として、受信用電話番号をフリーダイヤルとした場合がある。フリーダイヤルは、着信を許可する相手側の電話の種類を指定できるので、予め固定電話回線用や携帯電話回線用等の電話の種類別に設定された前処理用モジュールを用意し、携帯電話からの着信が許可されている電話番号には携帯電話回線用の前処理用モジュール、衛星電話からの着信が許可されている電話番号には衛星電話回線用の前処理用モジュールなど、それぞれの前処理用モジュールを電話番号に対応させておくことで、着信のあった電話番号毎に前処理用モジュールが選択される。

別の例として、海外と国内とで受信用電話番号を分けた場合がある。国によって電話回線や信号符号化方法が様々であることから、それらに適応するよう国別に設定された前処理用モジュールを用意し、それぞれ電話番号に対応させておく。海外用の電話番号に着信した通話には、その国用に設定された前処理用モジュールが選択され、国内用の電話番号に着信した通話には、国内向けに設定された前処理用モジュールが選択される。

このように、本実施形態では、受信用電話番号毎に受ける通話の音声特性が異なるので、それに応じた前処理用モジュールを選択する。また、複数の受信用電話番号で通話の音声信号特性が異ならない場合のために、共通の前処理用モジュールを用意することもある。さらに、前処理用モジュールを複数選択することもあり、この場合は、その処理順序も受信用電話番号毎に予め定めておき、定められた順序で音声補正手段１４が処理を実行する。前処理が不要な場合は、音声補正手段１４は前処理を行わないこともある。

上述したように本実施形態は、受信用電話番号毎に用意された複数の前処理用モジュールから受付電話番号に応じた前処理用モジュールを選択し、その選択した前処理モジュールを用いて通話音声信号を補正する。このことから、音声補正手段１４は、受信用電話番号毎に決められた内容の音声補正処理を通話音声信号に施していることになる。

ここで、補正内容情報としての前処理用モジュールについては、その内容をプログラム化したものとし、上述した音声補正手段１４，音声補正処理選択手段１６については、その機能内容をプログラム化しコンピュータに実行させるように構成してもよい。

図１に示す音声認識手段１７は、通話音声信号に対して音声認識処理を行う。認識辞書・モデル・パラメータ記憶部１８は、目的や用途に応じて受信用電話番号毎に用意された音声認識用情報として、複数の認識辞書，音響モデル，言語モデル，認識パラメータ等を記憶する音声認識用情報記憶手段として機能している。音声認識処理選択手段１９は、音声認識手段１７での音声認識処理に用いる認識辞書，音響モデル，言語モデル，認識パラメータ等を受付電話番号入力手段１３によって入力された受付電話番号に応じて選択する音声認識用情報選択手段として機能している。

即ち、音声認識手段１７は、受付電話番号に応じて選択された認識辞書，音響モデル，言語モデル，認識パラメータ等を用いることによって、携帯電話やＰＨＳ端末等の電話の種類，通話地域によって大きく異なる音質や、取り扱う内容や通話地域によって異なる使用語彙などに応じて音声認識をする。

ここで、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとは、従来の音声認識技術に使用されているものである。以下、認識辞書，音響モデル，言語モデル，認識パラメータ等をまとめて言う場合は、音声認識リソースと表記する。

通話音声信号に対して音声認識処理を行うときの具体例として、受信用電話番号毎に取り扱う業務内容や商品等が異なるようにした場合がある。このような場合、通話中に使われる単語も受信用電話番号毎に異なるため、認識辞書や言語モデルを通話内容に応じて受信用電話番号毎に用意する。例えば、同じ単語でも、ある業務では片仮名で表現され、別の業務では漢字で表現されるという場合や、数字を漢数字で表現する業務とアラビア数字で表現する業務があるなど、業務によって優先する単語表記が異なるので、優先する単語表記が異なる認識辞書を受信用電話番号毎に用意し、それらから対応する認識辞書が選択される。

別の例として、フリーダイヤルのような発信側の電話の種類や地域を指定できる電話番号を受信用電話番号とした場合がある。この場合は、電話の種類に応じた音響モデルや、地域に応じた認識辞書，言語モデル等、それぞれに応じた音声認識リソースが受信用電話番号毎に選択される。

更に別の例として、受信用電話番号毎に話される通話の重要度が異なるようにした場合がある。重要な話が行われる通話を受ける受信用電話番号に対しては、サーチ処理をより広い範囲に行うといった認証精度を向上させるような認識パラメータを選択したり、特定の単語が間違って別の単語に認識され見落とされることがないように調整した認識辞書と言語モデルとが選択される。

このように、本実施形態では、受信用電話番号毎に受ける通話の内容が異なるので、それに応じた音声認識リソースを選択する。また、複数の受信用電話番号で通話の音質や使用語彙に差がない場合のために、共通の音声認識リソースを用意することもある。上記に説明した受信用電話番号毎に割り振る背景情報とそれに対応して選択する事項とを図２の表に示した。

ここで、上述した音声認識手段１７，音声認識処理選択手段１９については、その機能内容をプログラム化し、コンピュータに実行させるような構成にしてもよい。

図１に示す認識結果出力手段２０は、音声認識手段１７によって得られる認識結果を、用途や目的に応じた書式で出力する。このとき、必要に応じて、元の通話音声信号と認識結果の対応が取れるように、時間情報なども認識結果に合わせて出力する。

次に、本実施形態の処理動作について図面を参照して説明する。ここで、本発明の音声認識方法についても、同時に示して説明する。

図３は、本実施形態における音声認識装置１の処理動作を示すフローチャート図である。

まず、顧客からの通話が通話受信部１１で受信されると（通話受信工程）、この受信された通話の通話音声信号とこの通話を受け付けた受付電話番号とが通話音声信号入力手段１２と受付電話番号入力手段１３とによって入力される（図３：ステップＳ１，通話音声信号入力工程，受付電話番号入力工程）。

この入力された受付電話番号に割り当てられた前処理用モジュールが前処理用モジュール記憶部１５に有るか否かが音声補正処理選択手段１６によって判定され（図３：ステップＳ２，補正内容情報選択工程）、受付電話番号に応じた前処理用モジュールが有る場合は、その前処理用モジュールを通話音声信号に適用して音声補正処理が実行される（図３：ステップＳ３，音声補正工程）。受付電話番号に応じた前処理用モジュールがない場合は、通話音声信号に対して音声補正処理は行われない（図３：ステップＳ２のノー）。

続いて、入力された受付電話番号に割り当てられた音声認識リソースが認識辞書・モデル・パラメータ記憶部１８に記憶された中から音声認識処理選択手段１９によって選択され（図３：ステップＳ４，認識用情報選択工程）、その選択された音声認識リソースを用いた音声認識処理が通話音声信号に対して音声認識手段１７によって実行される（図３：ステップＳ５，音声認識工程）。

そして、音声認識手段１７で得られた認識結果が認識結果出力手段２０によって目的に応じた書式で出力される（図３：ステップＳ６）。必要に応じて、元の通話音声信号と認識結果の対応が取れるように、時間情報なども認識結果に合わせて出力される。

以上のように本実施形態は、内線番号も含めて複数の電話番号にかかってきた通話を一箇所にまとめて応対するコールセンター等において、自動応答や通話の振り分け，通話記録の作成に用いる通話音声認識に適用できる。また、応対する内容や地域によって異なる電話番号を用意し、発信者が目的にあった電話番号に電話をかけることで、その電話番号に対応した音声認識処理を通話音声に施すことができる。

本発明に係る一実施形態の構成を示すブロック図である。図１に示す実施形態におけて受信用電話番号毎に割り振る背景情報とそれに対応して選択，調整する事項とを表した図表である。図１に示す実施形態の処理動作を示すフローチャート図である。

符号の説明

１音声認識装置
２公衆電話網
１１通信受信部
１２通話音声信号入力手段
１３受付電話番号入力手段
１４音声補正手段
１５前処理用モジュール記憶部
１６音声補正処理選択手段
１７音声認識手段
１８認識辞書・モデル・パラメータ記憶部
１９音声認識処理選択手段
２０認識結果出力手段

Claims

複数ある受信用電話番号への通話を受信する通話受信部と、受信した通話の通話音声信号を入力する通話音声信号入力手段と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声を言語情報に認識する音声認識に用いる音声認識用情報を前記受信用電話番号に対応づけて記憶した音声認識用情報記憶手段と、この記憶した音声認識用情報から前記受付電話番号に対応した音声認識用情報を選択する音声認識用情報選択手段と、この選択した音声認識用情報を用いて前記通話音声信号入力手段に入力された通話音声信号を言語情報として認識し音声内容を特定する音声認識手段とを備えることを特徴とした音声認識装置。
前記請求項１に記載の音声認識装置において、
前記音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも１つであることを特徴とした音声認識装置。
複数ある受信用電話番号への通話を受信する通話受信部と、受信した通話の通話音声信号を入力する通話音声信号入力手段と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号に対応付けて記憶した補正内容情報記憶手段と、この記憶した補正内容情報から前記受付電話番号に対応した補正内容情報を選択する補正内容情報選択手段と、この選択した補正内容情報が示す音声補正処理を前記通話音声信号入力手段に入力された通話音声信号に施す音声補正手段と、この音声補正手段によって補正された音声信号を言語情報として認識し音声内容を特定する音声認識手段とを備えたことを特徴とした音声認識装置。
前記請求項３に記載の音声認識装置において、
前記補正内容情報が、雑音除去処理のための情報と、音声信号歪み補正のための情報と、圧縮音声補正のための情報とのうち少なくとも１つであることを特徴とした音声認識装置。
複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声を言語情報に認識する音声認識に用いる音声認識用情報を前記受信用電話番号に対応付けて予め記憶している中から前記受付電話番号に応じて選択する認識用情報選択工程と、この選択した音声認識処理用情報を用いて通話音声入力工程で入力した通話音声信号を言語情報として認識し音声内容を特定する音声認識工程とを有することを特徴とした音声認識方法。
前記請求項５に記載の音声認識方法において、
前記音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも１つであることを特徴とした音声認識方法。
複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号に対応付けて予め記憶している中から前記受付電話番号に応じて選択する補正内容情報選択工程と、この選択した補正内容情報が示す音声補正処理を前記通話音声信号入力工程で入力した通話音声信号に施す音声補正工程と、前記音声補正工程で補正した音声信号を言語情報として認識し音声内容を特定する音声認識工程とを有することを特徴とした音声認識方法。
前記請求項７に記載の音声認識方法において、
前記補正内容情報が、雑音除去処理のための情報と、音声信号歪み補正のための情報と、圧縮音声補正のための情報とのうち少なくとも１つであることを特徴とした音声認識方法。
複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声を言語情報に認識するのに用いる音声認識用情報を前記受付電話番号に応じて選択する認識用情報選択処理と、この選択された音声認識用情報を用いて前記通話音声入力処理で入力された通話音声信号を言語情報として認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とした音声認識用プログラム。
前記請求項９に記載の音声認識用プログラムにおいて、
前記音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも１つであることを特徴とした音声認識用プログラム。
複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号毎に予め決められたうちから前記受付電話番号に応じて選択する音声補正選択処理と、この選択した補正内容情報に従って前記通話音声入力処理で入力された通話音声信号を補正する音声補正処理と、この音声補正処理によって補正された音声信号を言語情報として認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とした音声認識用プログラム。
前記請求項１１に記載の音声認識用プログラムにおいて、
前記補正内容情報が、雑音除去処理のための情報と、音声信号歪み補正のための情報と、圧縮音声補正のための情報とのうち少なくとも１つであることを特徴とした音声認識用プログラム。