JP4905361B2 - 音声認識装置、音声認識方法、及び音声認識用プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識用プログラム Download PDF

Info

Publication number
JP4905361B2
JP4905361B2 JP2007557797A JP2007557797A JP4905361B2 JP 4905361 B2 JP4905361 B2 JP 4905361B2 JP 2007557797 A JP2007557797 A JP 2007557797A JP 2007557797 A JP2007557797 A JP 2007557797A JP 4905361 B2 JP4905361 B2 JP 4905361B2
Authority
JP
Japan
Prior art keywords
call
information
voice
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007557797A
Other languages
English (en)
Other versions
JPWO2007091462A1 (ja
Inventor
聡 中澤
研治 佐藤
崇博 池田
要祐 坂尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007557797A priority Critical patent/JP4905361B2/ja
Publication of JPWO2007091462A1 publication Critical patent/JPWO2007091462A1/ja
Application granted granted Critical
Publication of JP4905361B2 publication Critical patent/JP4905361B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声認識装置、音声認識方法及び音声認識用プログラムに係り、特に電話の通話音声に対して内容に対応した音声認識処理を実行する音声認識装置、音声認識方法及び音声認識用プログラムに関する。
近年、コールセンター等において、電話の自動応答や通話記録に用いるための音声認識技術が広く普及している。一般に、この音声認識技術は、電話の音声を基に予め登録した単語を抽出して文字情報に自動変換する技術であり、一つひとつの音声の最小認識単位を周波数などで表す音響モデル,音声の組み合わせを単語として規定する認識辞書,単語間の接続関係や言い回しを示す言語モデルを用意し、これらを参照して音声認識を行っている。
また、音声認識技術において、認識対象である音声信号の特性や種類,環境に応じた音響モデル,認識辞書,言語モデルを予め用意することは、誤認識を減少させ認識精度を向上させるためには有効である。このような音声認識技術を利用した例として、特許文献1では、電話の送信側チャネルと受信側チャネルとで音声認識に用いる基礎データを別途用意することで、それぞれのチャネルに応じた音声認識を行う通話内容書き起こしシステムが開示されており、特許文献2では、電話の発信者番号に応じて、音声認識に用いる音声辞書を選択する通信装置が開示されている。
特開2005−123869号公報 特開2000−125031号公報
しかしながら、上記の特許文献1に開示されたシステムは、送信側と受信側とで個別に音声認識するというだけで、不特定多数の発話者からの音声である受信側音声については、その特徴に応じた音声認識を行っているわけではない。このような特許文献1のシステムをコールセンター等の自動応答や通話記録に適用しても、顧客の音声に対応した音声認識を行わないので、音声認識精度の向上を期待することはできない。
また、特許文献2に示された通信装置では、電話の発信者番号から通話内容を予測するための情報を予め用意しなければならないうえに、相手が発信者番号を非通知にしている場合は音声認識できないという不都合があった。
そこで、本発明は、上記従来技術の不都合を改善したもので、コールセンター等の業務に用いる音声認識装置、音声認識方法及び音声認識用プログラムにおいて、通話の発信者に関する情報を必要とせずに精度よく音声認識を行う音声認識装置、音声認識方法及び音声認識用プログラムを提供することを、その目的とする。
上記の目的を達成するために、本発明の音声認識装置は、複数ある受信用電話番号への通話を受信する通話受信部と、受け付けた通話の通話音声信号を入力する通話音声信号入力手段と、この入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声を言語情報に認識する音声認識に用いる音声認識用情報を受信用電話番号に対応づけて記憶した音声認識用情報記憶手段と、この記憶された音声認識用情報から受付電話番号に対応した音声認識用情報を選択する音声認識用情報選択手段と、この選択した音声認識用情報を用いて通話音声信号入力手段に入力された通話音声信号を言語情報に認識し音声内容を特定する音声認識手段とを備えることを特徴とする。
このような音声認識装置によれば、取り扱う内容毎や発信地域毎等のように受け付ける通話の内容別に受信用電話番号を複数設け、通話を受けた受信用電話番号である受付電話番号に応じた音声認識をその受け付けた通話の音声信号に対して行うことで、通話内容に応じた精度のよい音声認識を行うことができ、正確に音声内容を特定することができる。
また、上述の音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも1つであるようにしてもよい。この場合、通話音声信号とこれらの認識辞書,音響モデル,言語モデルとを照合することにより音声認識が行われる。
更に、本発明の音声認識装置は、複数ある受信用電話番号への通話を受信する通話受信部と、受け付けた通話の通話音声信号を入力する通話音声信号入力手段と、この入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声信号補正の内容を示す補正内容情報を受信用電話番号に対応付けて記憶した補正内容情報記憶手段と、受付電話番号に対応した補正内容情報を選択する補正内容情報選択手段と、この選択した補正内容情報が示す音声補正処理を通話音声信号入力手段に入力された通話音声信号に施す音声補正手段と、この音声補正手段によって補正された通話音声信号を言語情報に認識し音声内容を特定する音声認識手段とを備えることを特徴とする。
このようにすると、通話内容に応じた音声補正処理を通話音声信号に施すことができる。音声補正処理の例としては、雑音除去処理や信号の歪み補正処理,圧縮音声の補正処理等があり、これらの音声補正処理によって通話音声信号から音声認識に関係のない音が取り除かれる。このため、通話音声信号は、本来の音声信号である話者の発声音声の信号に近づき、音声認識が正確に行われ音声認識の精度が向上する。
次に、本発明にかかる音声認識方法は、複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声を言語情報に認識するために用いる音声認識用情報を受付電話番号に応じて選択する認識用情報選択工程と、この選択した音声認識処理用情報を用いて通話音声入力工程で入力した通話音声信号を言語情報に認識し音声内容を特定する音声認識工程とを有することを特徴とする。
このような音声認識方法によれば、取り扱う内容毎や発信地域毎等のように受け付ける通話の内容別に受信用電話番号を複数設け、通話を受けた受信用電話番号である受付電話番号に応じた音声認識処理をその受け付けた通話の音声信号に施すことで、通話内容に応じた精度のよい音声認識を行い、正確に音声内容を特定することができる。
ここで、上記の音声認識方法において、音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、認識の手順を示す情報あるいは認識パラメータとのうち少なくとも1つであるとしてもよい。
更に、本発明の音声認識方法は、複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号に対応付けて予め記憶している中から前記受付電話番号に応じて選択する補正内容情報選択工程と、この選択した補正内容情報が示す音声補正処理を通話音声入力工程で入力した通話音声信号に対して施す音声補正工程と、この音声補正工程で補正した音声信号を言語情報に認識し音声内容を特定する音声認識工程とを有することを特徴とする。
このようにすると、通話内容に応じた音声補正処理を通話音声信号に施すことができる。音声補正処理の例としては、雑音除去処理や信号の歪み補正処理,圧縮音声の補正処理等があり、これらの音声補正処理によって通話音声信号から音声認識に関係のない音が取り除かれる。このため、通話音声信号は、本来の音声信号である話者の発声音声の信号に近づき、音声認識用情報との照合が正確に行われ音声認識の精度が向上する。
次に、本発明の音声認識用プログラムは、複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声を言語情報に認識するために用いる音声認識用情報を受付電話番号に応じて選択する認識用情報選択処理と、この選択された音声認識用情報を用いて通話音声入力処理で入力された通話音声信号を言語情報に認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とする。
このような音声認識用プログラムによれば、通話の内容別に受信用電話番号を複数設け、通話を受けた受信用電話番号である受付電話番号に応じた音声認識用情報を用いてその通話の音声信号を認識することで、通話内容に応じた精度のよい音声認識を行い、正確に音声内容を特定することができる。
また、上述の音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも1つであるようにしてもよい。
更に、本発明の音声認識用プログラムは、複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声補正の内容を示す補正内容情報を受信用電話番号毎に予め決められたうちから受付電話番号に応じて選択する音声補正選択処理と、この選択した補正内容情報に従って通話音声入力処理で入力された通話音声信号を補正する音声補正処理と、音声補正処理によって補正された音声信号を言語情報に認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とした。
このようにすると、通話内容に応じた音声補正処理を通話音声信号に施すことができる。音声補正処理の例としては、雑音除去処理や信号の歪み補正処理,圧縮音声の補正処理等があり、これらの音声補正処理によって通話音声信号から音声認識に関係のない音が取り除かれる。このため、通話音声信号は、本来の音声信号である話者の発声音声の信号に近づき、音声認識用情報との照合が正確に行われ音声認識の精度が向上する。
本発明は以上のように構成され機能するので、これによると、受け付けた通話の音声信号に対して、この通話の内容に応じた音声認識処理を行うことができ、その結果、誤認識が少なく精度のよい音声認識を能率良く実行することができる。
以下、本発明における一実施形態を、図面を参照して説明する。
図1は、本実施形態の構成の概略を示す機能ブロック図である。
図1に示す音声認識装置1は、外部からの通話音声を認識し音声内容を特定するための装置である。音声認識装置1は,公衆通信網2に接続されており,通話受信部11,通話音声信号入力手段12,受付電話番号入力手段13,音声補正手段14,前処理モジュール記憶部15,音声補正処理選択手段16,音声認識手段17,認識辞書・モデル・パラメータ記憶部18,音声認識処理選択手段19,認識結果出力手段20で構成されている。
通話受信部11は、受信用電話番号を複数設けて、それぞれの受信用電話番号に宛てられた通話を受信する。この通話受信部11として使用するものとしては、構内電話交換機やVoIP(Voice over IP)サーバ等がある。
一般的なコールセンターの業務では、電話応答の効率化等の目的で、取り扱う業務や地域によって異なる電話番号を割り振って顧客に対応することがある。これに伴って設けられた本実施形態の受信用電話番号は、複数あるうちのそれぞれで対応する通話の内容が異なることになる。
通話音声信号入力手段12は、通話受信部11で受け付けた通話のうち音声認識を行う通話の通話音声信号を入力する。受付電話番号入力手段13は、通話音声信号入力手段12によって入力された通話音声信号にかかる通話の宛先であった受信用電話番号を受付電話番号として入力する。すなわち、通話音声信号入力手段12で入力される通話音声信号と受付電話番号入力手段13で入力される受付電話番号は対応したものである。
ここで、上述した通話音声信号入力手段12,受付電話番号入力手段13については、その機能内容をプログラム化してコンピュータに実行させるように構成してもよい。
音声補正手段14は、通話音声信号入力手段12によって入力された通話音声信号に音声認識の前処理として雑音除去等の音声補正処理を行う。電話回線からの音声信号は、話者の周囲の騒音や符号化等に伴う歪み,携帯電話の音声圧縮による音声劣化等により、そのままでは音声認識が困難である。このため、通話音声信号を補正して、正確な音声認識が行えるようにする。
また、音声補正処理選択手段16は、携帯電話やPHS端末等の電話の種類,通話地域等によって異なる音質変化を起こした通話音声を、それぞれに応じて補正するために、前処理用モジュール記憶部15に記憶された補正内容情報としての前処理用モジュールから適当な前処理用モジュールを選択する。そして、音声補正手段14は、音声補正処理選択手段16によって選択された前処理用モジュールを用いて通話音声信号を補正する。
ここで、前処理用モジュール記憶部15は、用途や目的に応じて受信用電話番号毎に用意された複数の前処理用モジュールを記憶し補正内容情報記憶手段として機能している。音声補正処理選択手段16は、受付電話番号入力手段13によって入力された受付電話番号に応じて前処理用モジュールを選択する補正内容情報選択手段として機能する。この前処理用モジュールは、従来の音声処理技術に使用されているもので、雑音除去処理用のモジュール,音声信号歪み補正用のモジュール,圧縮音声補正用のモジュールなどがある。
通話音声信号を補正するときの具体例として、受信用電話番号をフリーダイヤルとした場合がある。フリーダイヤルは、着信を許可する相手側の電話の種類を指定できるので、予め固定電話回線用や携帯電話回線用等の電話の種類別に設定された前処理用モジュールを用意し、携帯電話からの着信が許可されている電話番号には携帯電話回線用の前処理用モジュール、衛星電話からの着信が許可されている電話番号には衛星電話回線用の前処理用モジュールなど、それぞれの前処理用モジュールを電話番号に対応させておくことで、着信のあった電話番号毎に前処理用モジュールが選択される。
別の例として、海外と国内とで受信用電話番号を分けた場合がある。国によって電話回線や信号符号化方法が様々であることから、それらに適応するよう国別に設定された前処理用モジュールを用意し、それぞれ電話番号に対応させておく。海外用の電話番号に着信した通話には、その国用に設定された前処理用モジュールが選択され、国内用の電話番号に着信した通話には、国内向けに設定された前処理用モジュールが選択される。
このように、本実施形態では、受信用電話番号毎に受ける通話の音声特性が異なるので、それに応じた前処理用モジュールを選択する。また、複数の受信用電話番号で通話の音声信号特性が異ならない場合のために、共通の前処理用モジュールを用意することもある。さらに、前処理用モジュールを複数選択することもあり、この場合は、その処理順序も受信用電話番号毎に予め定めておき、定められた順序で音声補正手段14が処理を実行する。前処理が不要な場合は、音声補正手段14は前処理を行わないこともある。
上述したように本実施形態は、受信用電話番号毎に用意された複数の前処理用モジュールから受付電話番号に応じた前処理用モジュールを選択し、その選択した前処理モジュールを用いて通話音声信号を補正する。このことから、音声補正手段14は、受信用電話番号毎に決められた内容の音声補正処理を通話音声信号に施していることになる。
ここで、補正内容情報としての前処理用モジュールについては、その内容をプログラム化したものとし、上述した音声補正手段14,音声補正処理選択手段16については、その機能内容をプログラム化しコンピュータに実行させるように構成してもよい。
図1に示す音声認識手段17は、通話音声信号に対して音声認識処理を行う。認識辞書・モデル・パラメータ記憶部18は、目的や用途に応じて受信用電話番号毎に用意された音声認識用情報として、複数の認識辞書,音響モデル,言語モデル,認識パラメータ等を記憶する音声認識用情報記憶手段として機能している。音声認識処理選択手段19は、音声認識手段17での音声認識処理に用いる認識辞書,音響モデル,言語モデル,認識パラメータ等を受付電話番号入力手段13によって入力された受付電話番号に応じて選択する音声認識用情報選択手段として機能している。
即ち、音声認識手段17は、受付電話番号に応じて選択された認識辞書,音響モデル,言語モデル,認識パラメータ等を用いることによって、携帯電話やPHS端末等の電話の種類,通話地域によって大きく異なる音質や、取り扱う内容や通話地域によって異なる使用語彙などに応じて音声認識をする。
ここで、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとは、従来の音声認識技術に使用されているものである。以下、認識辞書,音響モデル,言語モデル,認識パラメータ等をまとめて言う場合は、音声認識リソースと表記する。
通話音声信号に対して音声認識処理を行うときの具体例として、受信用電話番号毎に取り扱う業務内容や商品等が異なるようにした場合がある。このような場合、通話中に使われる単語も受信用電話番号毎に異なるため、認識辞書や言語モデルを通話内容に応じて受信用電話番号毎に用意する。例えば、同じ単語でも、ある業務では片仮名で表現され、別の業務では漢字で表現されるという場合や、数字を漢数字で表現する業務とアラビア数字で表現する業務があるなど、業務によって優先する単語表記が異なるので、優先する単語表記が異なる認識辞書を受信用電話番号毎に用意し、それらから対応する認識辞書が選択される。
別の例として、フリーダイヤルのような発信側の電話の種類や地域を指定できる電話番号を受信用電話番号とした場合がある。この場合は、電話の種類に応じた音響モデルや、地域に応じた認識辞書,言語モデル等、それぞれに応じた音声認識リソースが受信用電話番号毎に選択される。
更に別の例として、受信用電話番号毎に話される通話の重要度が異なるようにした場合がある。重要な話が行われる通話を受ける受信用電話番号に対しては、サーチ処理をより広い範囲に行うといった認証精度を向上させるような認識パラメータを選択したり、特定の単語が間違って別の単語に認識され見落とされることがないように調整した認識辞書と言語モデルとが選択される。
このように、本実施形態では、受信用電話番号毎に受ける通話の内容が異なるので、それに応じた音声認識リソースを選択する。また、複数の受信用電話番号で通話の音質や使用語彙に差がない場合のために、共通の音声認識リソースを用意することもある。上記に説明した受信用電話番号毎に割り振る背景情報とそれに対応して選択する事項とを図2の表に示した。
ここで、上述した音声認識手段17,音声認識処理選択手段19については、その機能内容をプログラム化し、コンピュータに実行させるような構成にしてもよい。
図1に示す認識結果出力手段20は、音声認識手段17によって得られる認識結果を、用途や目的に応じた書式で出力する。このとき、必要に応じて、元の通話音声信号と認識結果の対応が取れるように、時間情報なども認識結果に合わせて出力する。
次に、本実施形態の処理動作について図面を参照して説明する。ここで、本発明の音声認識方法についても、同時に示して説明する。
図3は、本実施形態における音声認識装置1の処理動作を示すフローチャート図である。
まず、顧客からの通話が通話受信部11で受信されると(通話受信工程)、この受信された通話の通話音声信号とこの通話を受け付けた受付電話番号とが通話音声信号入力手段12と受付電話番号入力手段13とによって入力される(図3:ステップS1,通話音声信号入力工程,受付電話番号入力工程)。
この入力された受付電話番号に割り当てられた前処理用モジュールが前処理用モジュール記憶部15に有るか否かが音声補正処理選択手段16によって判定され(図3:ステップS2,補正内容情報選択工程)、受付電話番号に応じた前処理用モジュールが有る場合は、その前処理用モジュールを通話音声信号に適用して音声補正処理が実行される(図3:ステップS3,音声補正工程)。受付電話番号に応じた前処理用モジュールがない場合は、通話音声信号に対して音声補正処理は行われない(図3:ステップS2のノー)。
続いて、入力された受付電話番号に割り当てられた音声認識リソースが認識辞書・モデル・パラメータ記憶部18に記憶された中から音声認識処理選択手段19によって選択され(図3:ステップS4,認識用情報選択工程)、その選択された音声認識リソースを用いた音声認識処理が通話音声信号に対して音声認識手段17によって実行される(図3:ステップS5,音声認識工程)。
そして、音声認識手段17で得られた認識結果が認識結果出力手段20によって目的に応じた書式で出力される(図3:ステップS6)。必要に応じて、元の通話音声信号と認識結果の対応が取れるように、時間情報なども認識結果に合わせて出力される。
以上のように本実施形態は、内線番号も含めて複数の電話番号にかかってきた通話を一箇所にまとめて応対するコールセンター等において、自動応答や通話の振り分け,通話記録の作成に用いる通話音声認識に適用できる。また、応対する内容や地域によって異なる電話番号を用意し、発信者が目的にあった電話番号に電話をかけることで、その電話番号に対応した音声認識処理を通話音声に施すことができる。
本発明に係る一実施形態の構成を示すブロック図である。 図1に示す実施形態におけて受信用電話番号毎に割り振る背景情報とそれに対応して選択,調整する事項とを表した図表である。 図1に示す実施形態の処理動作を示すフローチャート図である。
符号の説明
1 音声認識装置
2 公衆電話網
11 通信受信部
12 通話音声信号入力手段
13 受付電話番号入力手段
14 音声補正手段
15 前処理用モジュール記憶部
16 音声補正処理選択手段
17 音声認識手段
18 認識辞書・モデル・パラメータ記憶部
19 音声認識処理選択手段
20 認識結果出力手段

Claims (12)

  1. 複数ある受信用電話番号への通話を受信する通話受信部と、受信した通話の通話音声信号を入力する通話音声信号入力手段と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声を言語情報に認識する音声認識に用いる音声認識用情報を前記受信用電話番号に対応づけて記憶した音声認識用情報記憶手段と、この記憶した音声認識用情報から前記受付電話番号に対応した音声認識用情報を選択する音声認識用情報選択手段と、この選択した音声認識用情報を用いて前記通話音声信号入力手段に入力された通話音声信号を言語情報として認識し音声内容を特定する音声認識手段とを備えることを特徴とした音声認識装置。
  2. 前記請求項1に記載の音声認識装置において、
    前記音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも1つであることを特徴とした音声認識装置。
  3. 複数ある受信用電話番号への通話を受信する通話受信部と、受信した通話の通話音声信号を入力する通話音声信号入力手段と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力手段と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号に対応付けて記憶した補正内容情報記憶手段と、この記憶した補正内容情報から前記受付電話番号に対応した補正内容情報を選択する補正内容情報選択手段と、この選択した補正内容情報が示す音声補正処理を前記通話音声信号入力手段に入力された通話音声信号に施す音声補正手段と、この音声補正手段によって補正された音声信号を言語情報として認識し音声内容を特定する音声認識手段とを備えたことを特徴とした音声認識装置。
  4. 前記請求項3に記載の音声認識装置において、
    前記補正内容情報が、雑音除去処理のための情報と、音声信号歪み補正のための情報と、圧縮音声補正のための情報とのうち少なくとも1つであることを特徴とした音声認識装置。
  5. 複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声を言語情報に認識する音声認識に用いる音声認識用情報を前記受信用電話番号に対応付けて予め記憶している中から前記受付電話番号に応じて選択する認識用情報選択工程と、この選択した音声認識処理用情報を用いて通話音声入力工程で入力した通話音声信号を言語情報として認識し音声内容を特定する音声認識工程とを有することを特徴とした音声認識方法。
  6. 前記請求項5に記載の音声認識方法において、
    前記音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも1つであることを特徴とした音声認識方法。
  7. 複数ある受信用電話番号への通話を受信する通話受信工程と、受信した通話の通話音声信号を入力する通話音声信号入力工程と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力工程と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号に対応付けて予め記憶している中から前記受付電話番号に応じて選択する補正内容情報選択工程と、この選択した補正内容情報が示す音声補正処理を前記通話音声信号入力工程で入力した通話音声信号に施す音声補正工程と、前記音声補正工程で補正した音声信号を言語情報として認識し音声内容を特定する音声認識工程とを有することを特徴とした音声認識方法。
  8. 前記請求項7に記載の音声認識方法において、
    前記補正内容情報が、雑音除去処理のための情報と、音声信号歪み補正のための情報と、圧縮音声補正のための情報とのうち少なくとも1つであることを特徴とした音声認識方法。
  9. 複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声を言語情報に認識するのに用いる音声認識用情報を前記受付電話番号に応じて選択する認識用情報選択処理と、この選択された音声認識用情報を用いて前記通話音声入力処理で入力された通話音声信号を言語情報として認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とした音声認識用プログラム。
  10. 前記請求項9に記載の音声認識用プログラムにおいて、
    前記音声認識用情報が、音声と語彙の対応を示す認識辞書と、音声の最小認識単位における音響的特徴を表す音響モデルと、単語間の接続関係を表す言語モデルと、音声認識の手順を示す情報あるいは認識パラメータとのうち少なくとも1つであることを特徴とした音声認識用プログラム。
  11. 複数ある受信用電話番号への通話を受信する通話受信処理と、受信した通話の通話音声信号を入力する通話音声信号入力処理と、入力した通話音声信号に係る前記受信用電話番号を受付電話番号として入力する受付電話番号入力処理と、音声信号補正の内容を示す補正内容情報を前記受信用電話番号毎に予め決められたうちから前記受付電話番号に応じて選択する音声補正選択処理と、この選択した補正内容情報に従って前記通話音声入力処理で入力された通話音声信号を補正する音声補正処理と、この音声補正処理によって補正された音声信号を言語情報として認識し音声内容を特定する音声認識処理とをコンピュータに実行させることを特徴とした音声認識用プログラム。
  12. 前記請求項11に記載の音声認識用プログラムにおいて、
    前記補正内容情報が、雑音除去処理のための情報と、音声信号歪み補正のための情報と、圧縮音声補正のための情報とのうち少なくとも1つであることを特徴とした音声認識用プログラム。
JP2007557797A 2006-02-06 2007-01-31 音声認識装置、音声認識方法、及び音声認識用プログラム Expired - Fee Related JP4905361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007557797A JP4905361B2 (ja) 2006-02-06 2007-01-31 音声認識装置、音声認識方法、及び音声認識用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006028688 2006-02-06
JP2006028688 2006-02-06
PCT/JP2007/051579 WO2007091462A1 (ja) 2006-02-06 2007-01-31 音声認識装置、音声認識方法、及び音声認識用プログラム
JP2007557797A JP4905361B2 (ja) 2006-02-06 2007-01-31 音声認識装置、音声認識方法、及び音声認識用プログラム

Publications (2)

Publication Number Publication Date
JPWO2007091462A1 JPWO2007091462A1 (ja) 2009-07-02
JP4905361B2 true JP4905361B2 (ja) 2012-03-28

Family

ID=38345065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007557797A Expired - Fee Related JP4905361B2 (ja) 2006-02-06 2007-01-31 音声認識装置、音声認識方法、及び音声認識用プログラム

Country Status (4)

Country Link
US (1) US9165557B2 (ja)
JP (1) JP4905361B2 (ja)
CN (1) CN101379550B (ja)
WO (1) WO2007091462A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9826085B2 (en) 2012-02-14 2017-11-21 Koninklijke Philips N.V. Audio signal processing in a communication system
CN102611799A (zh) * 2012-03-21 2012-07-25 上海车音网络科技有限公司 联系人号码的获取方法、装置及系统
CN108122555B (zh) * 2017-12-18 2021-07-23 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备
WO2020017243A1 (ja) * 2018-07-19 2020-01-23 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7243567B2 (ja) 2019-10-18 2023-03-22 トヨタ自動車株式会社 変更操作支援装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
JPH10190842A (ja) * 1996-12-27 1998-07-21 Hitachi Ltd 音声対話システム
JP2003060769A (ja) * 2001-08-15 2003-02-28 Ricoh Co Ltd 通信装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371779A (en) * 1992-03-13 1994-12-06 Nec Corporation Call initiating system for mobile telephone units
DE69635015T2 (de) 1995-11-17 2006-03-30 At & T Corp. Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl
JP4049449B2 (ja) 1998-06-19 2008-02-20 保 目崎 スリップリング
JP2000010590A (ja) 1998-06-25 2000-01-14 Oki Electric Ind Co Ltd 音声認識装置およびその制御方法
JP2000125006A (ja) 1998-10-19 2000-04-28 Ntt Data Corp 音声認識装置、音声認識方法、及び電話自動応答装置
US6408066B1 (en) * 1999-12-15 2002-06-18 Lucent Technologies Inc. ACD skill-based routing
US20030191639A1 (en) 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
JP2005123869A (ja) 2003-10-16 2005-05-12 Advanced Media Inc 通話内容書き起こしシステムおよび通話内容書き起こし方法
JP2005208483A (ja) 2004-01-26 2005-08-04 Neikusu:Kk 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
JPH10190842A (ja) * 1996-12-27 1998-07-21 Hitachi Ltd 音声対話システム
JP2003060769A (ja) * 2001-08-15 2003-02-28 Ricoh Co Ltd 通信装置

Also Published As

Publication number Publication date
JPWO2007091462A1 (ja) 2009-07-02
US20090168976A1 (en) 2009-07-02
CN101379550B (zh) 2012-06-27
WO2007091462A1 (ja) 2007-08-16
CN101379550A (zh) 2009-03-04
US9165557B2 (en) 2015-10-20

Similar Documents

Publication Publication Date Title
US8605868B2 (en) System and method for externally mapping an interactive voice response menu
US7907705B1 (en) Speech to text for assisted form completion
US20110264451A1 (en) Methods and systems for training dictation-based speech-to-text systems using recorded samples
US8369492B2 (en) Directory dialer name recognition
EP1994529B1 (en) Communication device having speaker independent speech recognition
US20080255848A1 (en) Speech Recognition Method and System and Speech Recognition Server
JPH07210190A (ja) 音声認識方法及びシステム
JP4905361B2 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
CN109559744B (zh) 语音数据的处理方法、装置及可读存储介质
KR20080054591A (ko) 휴대단말기의 통화 서비스 방법
JP2005520194A (ja) テキストメッセージの生成
CN1631045A (zh) 用于基于生成应答呼叫消息的音频信号的方法和装置
JP2010041301A (ja) 音声文字化サーバー及び音声文字化方法
EP1385148B1 (en) Method for improving the recognition rate of a speech recognition system, and voice server using this method
JP2002252705A (ja) 話者id検出方法及び装置
CA2716732C (en) System and method for externally mapping an interactive voice response menu
JPH11261683A (ja) 電話装置、プログラムを記録した記録媒体及びデータを記録した記録媒体
JP2024084170A (ja) 音声認識システム、及び、音声認識方法
JP4466171B2 (ja) 情報検索装置
CN112399017A (zh) Ip话机语音输入编辑短信的方法及系统
GB2406471A (en) Mobile phone with speech-to-text conversion system
CN112671974A (zh) 一种通信系统中特殊语音通话的处理方法
KR20220097773A (ko) It기기와 대화를 통한 음성기반 인터넷 미디어 댓글작성 시스템 및 그 방법
JP2001184084A (ja) 音声認識方法及びその装置並びにそのプログラムを記録した媒体
CN117854502A (zh) 一种车牌号码的语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4905361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees