JP2008286921A

JP2008286921A - キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体

Info

Publication number: JP2008286921A
Application number: JP2007130356A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Tasuku Shinozaki; 翼篠崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-05-16
Filing date: 2007-05-16
Publication date: 2008-11-27

Abstract

【課題】入力音声に誤り（発音誤り）があっても、その入力音声からそれらしいキーワードを抽出できるようにする。
【解決手段】入力された音声信号をディジタル信号に変換するＡ／Ｄ変換手段１２と、そのディジタル信号から特徴量を抽出し、音響モデルと言語モデルとを用いて音声認識結果を得る音声認識手段１３と、その音声認識結果からキーワードを抽出するキーワード抽出手段１６と、前記ディジタル信号に雑音を混入する雑音混入手段２１と、その雑音混入ディジタル信号から特徴量を抽出し、音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る雑音混入音声認識手段２２と、その雑音混入音声認識結果からキーワードを抽出する雑音混入キーワード抽出手段２３と、キーワード抽出手段１６及び雑音混入キーワード抽出手段２３で抽出されたキーワードを統合して出力するキーワード統合出力手段２４を備える。
【選択図】図１

Description

この発明は入力された音声信号を音声認識し、その音声認識結果からキーワードを抽出するキーワード抽出装置及びその方法に関する。

図２はこの種のキーワード抽出装置の従来構成例を示したものであり、話者の発話音声信号は音声信号入力端子１１に入力され、入力された音声信号はＡ／Ｄ変換手段１２でディジタル信号に変換される。Ａ／Ｄ変換手段１２から出力されるディジタル信号は音声認識手段１３に入力される。

音声認識手段１３は入力されたディジタル信号から特徴量（音響特徴パラメータ系列）を抽出し、その特徴量に対して、音響モデルパラメータメモリ１４に格納されている音響モデルと、言語モデルパラメータメモリ１５に格納されている言語モデルとを用いて音声認識結果を得る。

音声認識手段１３から単語列で出力される音声認識結果はキーワード抽出手段１６に入力され、キーワード抽出手段１６は入力された音声認識結果からキーワードリストメモリ１７に予め登録・格納されているキーワードと一致するキーワードを抽出する。抽出されたキーワードはキーワード出力手段１８よりテキストとして出力される。

このように従来のキーワード抽出装置は入力された音声信号を音声認識し、単語列で出力される音声認識結果から予め登録されているキーワードと一致するキーワードを抽出するものとなっており、例えばキーワードの前後にキーワード以外の言語が付加されていてもキーワードのみを確実に抽出することができるものとなっている（例えば、特許文献１参照）。
特開２００４−２９５８３７号公報

ところで、このようなキーワード抽出装置の好適な使用例として、コンタクトセンタ（コールセンタ）における使用がある。即ち、コンタクトセンタにおいて、オペレータは電話回線を通して聞いたユーザの発声を復唱し、このオペレータの復唱から自動的にキーワードを抽出するといったことに使用される。

この場合、オペレータはユーザの発声に対して忠実に復唱する必要があり、特にユーザの発声したキーワードについては正確に復唱する必要がある。しかしながら、例えば電話回線の歪み及び雑音やユーザが大きな声で発声したことによる過大入力等が原因でオペレータがユーザの発声を正確に聞き取れず、オペレータが誤った復唱（発声）をしてしまうといったことがあり、これによりキーワードを適確に抽出することができないといった状況が生じうる。

また、新人オペレータの場合、例えば新しいサービス名など全てのキーワードを記憶しきれていないために、ユーザの発声したキーワードを正確に認識できない場合があり、このような場合にオペレータがキーワードを確認すべく、ＦＡＱ等のドキュメントを検索すると、その検索のための時間が必要となり、迅速に応対できないといった問題が生じる。

この発明の目的はこのような問題に鑑み、入力される音声が誤認識や聞き間違い等に起因する誤ったものであっても、その入力音声信号からそれらしいキーワード候補を抽出することができるようにしたキーワード抽出装置及びその方法を提供することにある。

この発明によれば、キーワード抽出装置は入力された音声信号をディジタル信号に変換するＡ／Ｄ変換手段と、そのＡ／Ｄ変換手段から出力されるディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る音声認識手段と、その音声認識手段から出力される音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出するキーワード抽出手段と、Ａ／Ｄ変換手段から出力されるディジタル信号に雑音を混入する雑音混入手段と、その雑音混入手段から出力される雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る雑音混入音声認識手段と、その雑音混入音声認識手段から出力される雑音混入音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する雑音混入キーワード抽出手段と、キーワード統合出力手段とを備え、キーワード統合出力手段はキーワード抽出手段で抽出されたキーワードと雑音混入キーワード抽出手段で抽出されたキーワードとを統合して出力するものとされる。

この発明によるキーワード抽出方法は、入力された音声信号をディジタル信号に変換する過程と、そのディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る過程と、その音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、前記ディジタル信号に雑音を混入する過程と、その雑音を混入された雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る過程と、その雑音混入音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、音声認識結果から抽出されたキーワードと雑音混入音声認識結果から抽出されたキーワードとを統合して出力する過程とを含む。

この発明によれば、復唱等の入力音声に聞き間違い等に起因する誤り（発音誤り）があっても、その誤りを模擬する雑音を混入した雑音混入音声信号を生成して、その雑音混入音声信号及び雑音を混入していない音声信号の双方をそれぞれ音声認識し、それら音声認識結果からそれぞれキーワードを抽出するものとなっているため、類似するキーワードを抽出することができ、つまりそれらしいキーワードを抽出することが可能となる。

この発明の実施形態を図面を参照して実施例により説明する。
図１はこの発明によるキーワード抽出装置の一実施例の構成を示したものであり、図２に示した従来のキーワード抽出装置と対応する部分には同一符号を付してある。

この例ではキーワード抽出装置は従来と同様、音声信号入力端子１１に入力された音声信号をディジタル信号に変換するＡ／Ｄ変換手段１２、そのＡ／Ｄ変換手段１２から出力されるディジタル信号から特徴量を抽出し、その特徴量に対して、音響モデルパラメータメモリ１４に格納されている音響モデルと、言語モデルパラメータメモリ１５に格納されている言語モデルとを用いて音声認識結果を得る音声認識手段１３、音声認識手段１３から単語列で出力される音響認識結果からキーワードリストメモリ１７に格納されているキーワードと一致するキーワードを抽出するキーワード抽出手段１６を備え、さらに雑音混入手段２１、雑音混入音声認識手段２２、雑音混入キーワード抽出手段２３及びキーワード統合出力手段２４を具備するものとされる。

Ａ／Ｄ変換手段１２から出力されるディジタル信号はこの例では音声認識手段１３及び雑音混入手段２１にそれぞれ入力される。音声認識手段１３に入力されたディジタル信号は上述したように音声認識手段１３で音声認識され、キーワード抽出手段１６においてその音声認識結果からキーワードが抽出される。

一方、雑音混入手段２１に入力されたディジタル信号には雑音が混入され、雑音混入ディジタル信号が雑音混入手段２１によって生成される。この雑音混入は言い換えれば音声信号に変形を加えるものであり、つまり入力音声ディジタル信号を誤認識を生じやすいデータに変換するものであって、意図的に雑音を混入することによって例えば音声を入力する話者の聞き間違い等の誤認識を模擬するものとなっている。

混入する雑音は背景定常雑音や例えば突発的な人の声等の非定常雑音があり、キーワード抽出装置が使用される形態、環境に応じて選定される。キーワード抽出装置が例えばコンタクトセンタにおいて使用される場合には、電話回線に重畳する加法性雑音を入力音声ディジタル信号に重畳することにより雑音が重畳した状態にすることができ、また電話系のフィルタの歪みを入力音声ディジタル信号に与えることによって雑音が混入した状態とすることができ、さらに音量過大によるサチュレーションを生じさせることで雑音が混入した状態とすることができる。ここでは、これらを総称して雑音混入と言う。

混入する雑音を電話系のフィルタの歪みによるものとすることで、例えばコンタクトセンタにおいてオペレータがユーザの発声を電話回線を通して聞いた場合の聞き間違いを模擬することができ、電話系フィルタの歪みに加えて電話回線に重畳する加法性雑音を加えることでさらに模擬の精度を高めることができる。

また、混入する雑音を例えばオペレータ側の背景定常雑音とすれば、例えば新人オペレータがキーワードが判らず、キーワードを確認すべく、コンタクトセンタの監督者等、他の者からキーワードを聞いた場合における聞き間違いを模擬することができる。

一方、混入する雑音を音量過大によるサチュレーションによるものとすることで、ユーザが非常に大きな声で発声している場合におけるオペレータの聞き間違いを模擬することができる。

雑音混入手段２１で雑音を混入された雑音混入ディジタル信号は雑音混入音声認識手段２２に入力され、雑音混入音声認識手段２２は入力された雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して、音響モデルパラメータメモリ１４に格納されている音響モデルと、言語モデルパラメータメモリ１５に格納されている言語モデルとを用いて雑音混入音声認識結果を得る。

雑音混入音声認識手段２２から単語列で出力される雑音混入音声認識結果は雑音混入キーワード抽出手段２３に入力され、雑音混入キーワード抽出手段２３は入力された雑音混入音声認識結果からキーワードリストメモリ１７に格納されているキーワードと一致するキーワードを抽出する。キーワード統合出力手段２４はキーワード抽出手段１６で抽出されたキーワードと、雑音混入キーワード抽出手段２３で抽出されたキーワードとを統合してテキストとして出力する。

このように、この例によれば従来のキーワード抽出装置と同様にしてキーワードを抽出すると共に、入力音声信号に誤認識や聞き間違いを模擬するような雑音を混入して、その雑音が混入された音声信号を音声認識し、その音声認識結果からもキーワードを抽出して、それらキーワードを合わせて出力するものとなっており、よって例えば入力音声に誤認識や聞き間違い等による誤りがあってもそれらしいキーワード候補を抽出することができる。

例えばコンタクトセンタにおける使用において、新人オペレータがキーワードを正しく記憶しておらず、ユーザの発声したキーワードを認識できずに誤って復唱（発声）したとしても、その入力音声信号から類似するキーワードを抽出することができ、つまりオペレータは類似するキーワードを見つけることが可能となる。この場合、キーワード統合出力手段２４から出力されるキーワードはディスプレイに表示され、オペレータに提示される。

キーワード抽出手段１６及び雑音混入キーワード手段２３におけるキーワードの抽出は、音声認識手段１３及び雑音混入音声認識手段２２がそれぞれ認識結果としてスコア上位Ｎ位までのＮベストを出力するものとすれば、それらＮベストに対して行われる。この際、抽出されたキーワードのディスプレイへの表示はスコアにより順位付けて表示するようにすればよい。このように音声認識結果のＮベスト中の２位以下のキーワード候補を示すことも可能である。

なお、上述した例では入力音声信号に雑音を混入して誤りやすい音声入力を模擬しているが、例えば音声信号を意図的に欠落させることにより、音声入力の誤りを模擬するといったことも考えられる。これは例えばコンタクトセンタのオペレータがユーザの発声を復唱して、その復唱からキーワード抽出を行う場合、電話回線を通してユーザの発声を聞く際に生じうる音切れに対応する。

以上説明したキーワード抽出方法、キーワード抽出装置はコンピュータと、コンピュータにインストールされたキーワード抽出プログラムによって実現することができる。プログラムはコンピュータが解読可能な符号列によって記述され、コンピュータが読み取り可能な磁気ディスク又はＣＤ−ＲＯＭ等の記録媒体に記録される。コンピュータにインストールされたキーワード抽出プログラムはコンピュータのＣＰＵによって解読されてコンピュータに上述したキーワード抽出方法を実行させる。

この発明によるキーワード抽出装置の一実施例の構成を示すブロック図。キーワード抽出装置の従来構成例を示すブロック図。

Claims

入力された音声信号をディジタル信号に変換するＡ／Ｄ変換手段と、
そのＡ／Ｄ変換手段から出力される前記ディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る音声認識手段と、
その音声認識手段から出力される前記音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出するキーワード抽出手段と、
前記Ａ／Ｄ変換手段から出力される前記ディジタル信号に雑音を混入する雑音混入手段と、
その雑音混入手段から出力される雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して前記音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る雑音混入音声認識手段と、
その雑音混入音声認識手段から出力される前記雑音混入音声認識結果から前記キーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する雑音混入キーワード抽出手段と、
キーワード統合出力手段とを備え、
前記キーワード統合出力手段は前記キーワード抽出手段で抽出されたキーワードと前記雑音混入キーワード抽出手段で抽出されたキーワードとを統合して出力することを特徴とするキーワード抽出装置。
入力された音声信号をディジタル信号に変換する過程と、
そのディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る過程と、
その音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、
前記ディジタル信号に雑音を混入する過程と、
その雑音を混入された雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して前記音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る過程と、
その雑音混入音声認識結果から前記キーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、
前記音声認識結果から抽出されたキーワードと前記雑音混入音声認識結果から抽出されたキーワードとを統合して出力する過程とを含むことを特徴とするキーワード抽出方法。
請求項２記載のキーワード抽出方法において、
前記ディジタル信号に混入する雑音に背景定常雑音を用いることを特徴とするキーワード抽出方法。
請求項２記載のキーワード抽出方法において、
前記ディジタル信号に混入する雑音に非定常雑音を用いることを特徴とするキーワード抽出方法。
請求項２記載のキーワード抽出方法において、
前記ディジタル信号に電話系フィルタの歪みを与えることによって雑音を混入することを特徴とするキーワード抽出方法。
請求項２記載のキーワード抽出方法において、
前記ディジタル信号に音量過大によるサチュレーションを生じさせることによって雑音を混入することを特徴とするキーワード抽出方法。
請求項２乃至６記載のいずれかのキーワード抽出方法をコンピュータに実行させるためのプログラム。
請求項７記載のプログラムを記憶した記録媒体。