JP2008286921A - キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体 - Google Patents

キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体 Download PDF

Info

Publication number
JP2008286921A
JP2008286921A JP2007130356A JP2007130356A JP2008286921A JP 2008286921 A JP2008286921 A JP 2008286921A JP 2007130356 A JP2007130356 A JP 2007130356A JP 2007130356 A JP2007130356 A JP 2007130356A JP 2008286921 A JP2008286921 A JP 2008286921A
Authority
JP
Japan
Prior art keywords
keyword
noise
digital signal
extracting
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007130356A
Other languages
English (en)
Inventor
Satoru Kobashigawa
哲 小橋川
Tasuku Shinozaki
翼 篠崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007130356A priority Critical patent/JP2008286921A/ja
Publication of JP2008286921A publication Critical patent/JP2008286921A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力音声に誤り(発音誤り)があっても、その入力音声からそれらしいキーワードを抽出できるようにする。
【解決手段】入力された音声信号をディジタル信号に変換するA/D変換手段12と、そのディジタル信号から特徴量を抽出し、音響モデルと言語モデルとを用いて音声認識結果を得る音声認識手段13と、その音声認識結果からキーワードを抽出するキーワード抽出手段16と、前記ディジタル信号に雑音を混入する雑音混入手段21と、その雑音混入ディジタル信号から特徴量を抽出し、音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る雑音混入音声認識手段22と、その雑音混入音声認識結果からキーワードを抽出する雑音混入キーワード抽出手段23と、キーワード抽出手段16及び雑音混入キーワード抽出手段23で抽出されたキーワードを統合して出力するキーワード統合出力手段24を備える。
【選択図】図1

Description

この発明は入力された音声信号を音声認識し、その音声認識結果からキーワードを抽出するキーワード抽出装置及びその方法に関する。
図2はこの種のキーワード抽出装置の従来構成例を示したものであり、話者の発話音声信号は音声信号入力端子11に入力され、入力された音声信号はA/D変換手段12でディジタル信号に変換される。A/D変換手段12から出力されるディジタル信号は音声認識手段13に入力される。
音声認識手段13は入力されたディジタル信号から特徴量(音響特徴パラメータ系列)を抽出し、その特徴量に対して、音響モデルパラメータメモリ14に格納されている音響モデルと、言語モデルパラメータメモリ15に格納されている言語モデルとを用いて音声認識結果を得る。
音声認識手段13から単語列で出力される音声認識結果はキーワード抽出手段16に入力され、キーワード抽出手段16は入力された音声認識結果からキーワードリストメモリ17に予め登録・格納されているキーワードと一致するキーワードを抽出する。抽出されたキーワードはキーワード出力手段18よりテキストとして出力される。
このように従来のキーワード抽出装置は入力された音声信号を音声認識し、単語列で出力される音声認識結果から予め登録されているキーワードと一致するキーワードを抽出するものとなっており、例えばキーワードの前後にキーワード以外の言語が付加されていてもキーワードのみを確実に抽出することができるものとなっている(例えば、特許文献1参照)。
特開2004−295837号公報
ところで、このようなキーワード抽出装置の好適な使用例として、コンタクトセンタ(コールセンタ)における使用がある。即ち、コンタクトセンタにおいて、オペレータは電話回線を通して聞いたユーザの発声を復唱し、このオペレータの復唱から自動的にキーワードを抽出するといったことに使用される。
この場合、オペレータはユーザの発声に対して忠実に復唱する必要があり、特にユーザの発声したキーワードについては正確に復唱する必要がある。しかしながら、例えば電話回線の歪み及び雑音やユーザが大きな声で発声したことによる過大入力等が原因でオペレータがユーザの発声を正確に聞き取れず、オペレータが誤った復唱(発声)をしてしまうといったことがあり、これによりキーワードを適確に抽出することができないといった状況が生じうる。
また、新人オペレータの場合、例えば新しいサービス名など全てのキーワードを記憶しきれていないために、ユーザの発声したキーワードを正確に認識できない場合があり、このような場合にオペレータがキーワードを確認すべく、FAQ等のドキュメントを検索すると、その検索のための時間が必要となり、迅速に応対できないといった問題が生じる。
この発明の目的はこのような問題に鑑み、入力される音声が誤認識や聞き間違い等に起因する誤ったものであっても、その入力音声信号からそれらしいキーワード候補を抽出することができるようにしたキーワード抽出装置及びその方法を提供することにある。
この発明によれば、キーワード抽出装置は入力された音声信号をディジタル信号に変換するA/D変換手段と、そのA/D変換手段から出力されるディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る音声認識手段と、その音声認識手段から出力される音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出するキーワード抽出手段と、A/D変換手段から出力されるディジタル信号に雑音を混入する雑音混入手段と、その雑音混入手段から出力される雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る雑音混入音声認識手段と、その雑音混入音声認識手段から出力される雑音混入音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する雑音混入キーワード抽出手段と、キーワード統合出力手段とを備え、キーワード統合出力手段はキーワード抽出手段で抽出されたキーワードと雑音混入キーワード抽出手段で抽出されたキーワードとを統合して出力するものとされる。
この発明によるキーワード抽出方法は、入力された音声信号をディジタル信号に変換する過程と、そのディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る過程と、その音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、前記ディジタル信号に雑音を混入する過程と、その雑音を混入された雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る過程と、その雑音混入音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、音声認識結果から抽出されたキーワードと雑音混入音声認識結果から抽出されたキーワードとを統合して出力する過程とを含む。
この発明によれば、復唱等の入力音声に聞き間違い等に起因する誤り(発音誤り)があっても、その誤りを模擬する雑音を混入した雑音混入音声信号を生成して、その雑音混入音声信号及び雑音を混入していない音声信号の双方をそれぞれ音声認識し、それら音声認識結果からそれぞれキーワードを抽出するものとなっているため、類似するキーワードを抽出することができ、つまりそれらしいキーワードを抽出することが可能となる。
この発明の実施形態を図面を参照して実施例により説明する。
図1はこの発明によるキーワード抽出装置の一実施例の構成を示したものであり、図2に示した従来のキーワード抽出装置と対応する部分には同一符号を付してある。
この例ではキーワード抽出装置は従来と同様、音声信号入力端子11に入力された音声信号をディジタル信号に変換するA/D変換手段12、そのA/D変換手段12から出力されるディジタル信号から特徴量を抽出し、その特徴量に対して、音響モデルパラメータメモリ14に格納されている音響モデルと、言語モデルパラメータメモリ15に格納されている言語モデルとを用いて音声認識結果を得る音声認識手段13、音声認識手段13から単語列で出力される音響認識結果からキーワードリストメモリ17に格納されているキーワードと一致するキーワードを抽出するキーワード抽出手段16を備え、さらに雑音混入手段21、雑音混入音声認識手段22、雑音混入キーワード抽出手段23及びキーワード統合出力手段24を具備するものとされる。
A/D変換手段12から出力されるディジタル信号はこの例では音声認識手段13及び雑音混入手段21にそれぞれ入力される。音声認識手段13に入力されたディジタル信号は上述したように音声認識手段13で音声認識され、キーワード抽出手段16においてその音声認識結果からキーワードが抽出される。
一方、雑音混入手段21に入力されたディジタル信号には雑音が混入され、雑音混入ディジタル信号が雑音混入手段21によって生成される。この雑音混入は言い換えれば音声信号に変形を加えるものであり、つまり入力音声ディジタル信号を誤認識を生じやすいデータに変換するものであって、意図的に雑音を混入することによって例えば音声を入力する話者の聞き間違い等の誤認識を模擬するものとなっている。
混入する雑音は背景定常雑音や例えば突発的な人の声等の非定常雑音があり、キーワード抽出装置が使用される形態、環境に応じて選定される。キーワード抽出装置が例えばコンタクトセンタにおいて使用される場合には、電話回線に重畳する加法性雑音を入力音声ディジタル信号に重畳することにより雑音が重畳した状態にすることができ、また電話系のフィルタの歪みを入力音声ディジタル信号に与えることによって雑音が混入した状態とすることができ、さらに音量過大によるサチュレーションを生じさせることで雑音が混入した状態とすることができる。ここでは、これらを総称して雑音混入と言う。
混入する雑音を電話系のフィルタの歪みによるものとすることで、例えばコンタクトセンタにおいてオペレータがユーザの発声を電話回線を通して聞いた場合の聞き間違いを模擬することができ、電話系フィルタの歪みに加えて電話回線に重畳する加法性雑音を加えることでさらに模擬の精度を高めることができる。
また、混入する雑音を例えばオペレータ側の背景定常雑音とすれば、例えば新人オペレータがキーワードが判らず、キーワードを確認すべく、コンタクトセンタの監督者等、他の者からキーワードを聞いた場合における聞き間違いを模擬することができる。
一方、混入する雑音を音量過大によるサチュレーションによるものとすることで、ユーザが非常に大きな声で発声している場合におけるオペレータの聞き間違いを模擬することができる。
雑音混入手段21で雑音を混入された雑音混入ディジタル信号は雑音混入音声認識手段22に入力され、雑音混入音声認識手段22は入力された雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して、音響モデルパラメータメモリ14に格納されている音響モデルと、言語モデルパラメータメモリ15に格納されている言語モデルとを用いて雑音混入音声認識結果を得る。
雑音混入音声認識手段22から単語列で出力される雑音混入音声認識結果は雑音混入キーワード抽出手段23に入力され、雑音混入キーワード抽出手段23は入力された雑音混入音声認識結果からキーワードリストメモリ17に格納されているキーワードと一致するキーワードを抽出する。キーワード統合出力手段24はキーワード抽出手段16で抽出されたキーワードと、雑音混入キーワード抽出手段23で抽出されたキーワードとを統合してテキストとして出力する。
このように、この例によれば従来のキーワード抽出装置と同様にしてキーワードを抽出すると共に、入力音声信号に誤認識や聞き間違いを模擬するような雑音を混入して、その雑音が混入された音声信号を音声認識し、その音声認識結果からもキーワードを抽出して、それらキーワードを合わせて出力するものとなっており、よって例えば入力音声に誤認識や聞き間違い等による誤りがあってもそれらしいキーワード候補を抽出することができる。
例えばコンタクトセンタにおける使用において、新人オペレータがキーワードを正しく記憶しておらず、ユーザの発声したキーワードを認識できずに誤って復唱(発声)したとしても、その入力音声信号から類似するキーワードを抽出することができ、つまりオペレータは類似するキーワードを見つけることが可能となる。この場合、キーワード統合出力手段24から出力されるキーワードはディスプレイに表示され、オペレータに提示される。
キーワード抽出手段16及び雑音混入キーワード手段23におけるキーワードの抽出は、音声認識手段13及び雑音混入音声認識手段22がそれぞれ認識結果としてスコア上位N位までのNベストを出力するものとすれば、それらNベストに対して行われる。この際、抽出されたキーワードのディスプレイへの表示はスコアにより順位付けて表示するようにすればよい。このように音声認識結果のNベスト中の2位以下のキーワード候補を示すことも可能である。
なお、上述した例では入力音声信号に雑音を混入して誤りやすい音声入力を模擬しているが、例えば音声信号を意図的に欠落させることにより、音声入力の誤りを模擬するといったことも考えられる。これは例えばコンタクトセンタのオペレータがユーザの発声を復唱して、その復唱からキーワード抽出を行う場合、電話回線を通してユーザの発声を聞く際に生じうる音切れに対応する。
以上説明したキーワード抽出方法、キーワード抽出装置はコンピュータと、コンピュータにインストールされたキーワード抽出プログラムによって実現することができる。プログラムはコンピュータが解読可能な符号列によって記述され、コンピュータが読み取り可能な磁気ディスク又はCD−ROM等の記録媒体に記録される。コンピュータにインストールされたキーワード抽出プログラムはコンピュータのCPUによって解読されてコンピュータに上述したキーワード抽出方法を実行させる。
この発明によるキーワード抽出装置の一実施例の構成を示すブロック図。 キーワード抽出装置の従来構成例を示すブロック図。

Claims (8)

  1. 入力された音声信号をディジタル信号に変換するA/D変換手段と、
    そのA/D変換手段から出力される前記ディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る音声認識手段と、
    その音声認識手段から出力される前記音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出するキーワード抽出手段と、
    前記A/D変換手段から出力される前記ディジタル信号に雑音を混入する雑音混入手段と、
    その雑音混入手段から出力される雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して前記音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る雑音混入音声認識手段と、
    その雑音混入音声認識手段から出力される前記雑音混入音声認識結果から前記キーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する雑音混入キーワード抽出手段と、
    キーワード統合出力手段とを備え、
    前記キーワード統合出力手段は前記キーワード抽出手段で抽出されたキーワードと前記雑音混入キーワード抽出手段で抽出されたキーワードとを統合して出力することを特徴とするキーワード抽出装置。
  2. 入力された音声信号をディジタル信号に変換する過程と、
    そのディジタル信号から特徴量を抽出し、その特徴量に対して音響モデルと言語モデルとを用いて音声認識結果を得る過程と、
    その音声認識結果からキーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、
    前記ディジタル信号に雑音を混入する過程と、
    その雑音を混入された雑音混入ディジタル信号から特徴量を抽出し、その特徴量に対して前記音響モデルと言語モデルとを用いて雑音混入音声認識結果を得る過程と、
    その雑音混入音声認識結果から前記キーワードリストメモリに格納されているキーワードと一致するキーワードを抽出する過程と、
    前記音声認識結果から抽出されたキーワードと前記雑音混入音声認識結果から抽出されたキーワードとを統合して出力する過程とを含むことを特徴とするキーワード抽出方法。
  3. 請求項2記載のキーワード抽出方法において、
    前記ディジタル信号に混入する雑音に背景定常雑音を用いることを特徴とするキーワード抽出方法。
  4. 請求項2記載のキーワード抽出方法において、
    前記ディジタル信号に混入する雑音に非定常雑音を用いることを特徴とするキーワード抽出方法。
  5. 請求項2記載のキーワード抽出方法において、
    前記ディジタル信号に電話系フィルタの歪みを与えることによって雑音を混入することを特徴とするキーワード抽出方法。
  6. 請求項2記載のキーワード抽出方法において、
    前記ディジタル信号に音量過大によるサチュレーションを生じさせることによって雑音を混入することを特徴とするキーワード抽出方法。
  7. 請求項2乃至6記載のいずれかのキーワード抽出方法をコンピュータに実行させるためのプログラム。
  8. 請求項7記載のプログラムを記憶した記録媒体。
JP2007130356A 2007-05-16 2007-05-16 キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体 Pending JP2008286921A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007130356A JP2008286921A (ja) 2007-05-16 2007-05-16 キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007130356A JP2008286921A (ja) 2007-05-16 2007-05-16 キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2008286921A true JP2008286921A (ja) 2008-11-27

Family

ID=40146722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007130356A Pending JP2008286921A (ja) 2007-05-16 2007-05-16 キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2008286921A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106551A (ja) * 2012-11-22 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> トークスクリプト抽出装置、方法、及びプログラム
CN109064709A (zh) * 2018-09-18 2018-12-21 四川川博士科技发展有限公司 一种校园语音识别报警求助终端及报警方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106551A (ja) * 2012-11-22 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> トークスクリプト抽出装置、方法、及びプログラム
CN109064709A (zh) * 2018-09-18 2018-12-21 四川川博士科技发展有限公司 一种校园语音识别报警求助终端及报警方法

Similar Documents

Publication Publication Date Title
JP3282075B2 (ja) 連続音声認識において句読点を自動的に生成する装置および方法
McLoughlin Speech and Audio Processing: a MATLAB-based approach
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
WO2004063902B1 (en) Speech training method with color instruction
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2015011348A (ja) 音声認識を用いた外国語スピーキング能力の訓練及び評価方法並びにその装置
GB2527242A (en) System and method for dynamic response to user interaction
US20170270923A1 (en) Voice processing device and voice processing method
KR101992370B1 (ko) 말하기 학습방법 및 학습시스템
JP2010197644A (ja) 音声認識システム
KR102069697B1 (ko) 자동 통역 장치 및 방법
CN109271480B (zh) 一种语音搜题方法及电子设备
JP2008286921A (ja) キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体
US7752045B2 (en) Systems and methods for comparing speech elements
Cahyaningtyas et al. Development of under-resourced Bahasa Indonesia speech corpus
Bell et al. Child and adult speaker adaptation during error resolution in a publicly available spoken dialogue system.
KR20160104243A (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
KR101429138B1 (ko) 복수의 사용자를 위한 장치에서의 음성 인식 방법
KR101883365B1 (ko) 전문가 교정이 가능한 발음 학습 시스템
CN110992951A (zh) 一种基于对抗样本保护个人隐私的方法
JP2005283646A (ja) 音声認識率推定装置
Oyo et al. A preliminary speech learning tool for improvement of African English accents
JP2005241767A (ja) 音声認識装置