JP2015049254A - 音声データ認識システム及び音声データ認識方法 - Google Patents
音声データ認識システム及び音声データ認識方法 Download PDFInfo
- Publication number
- JP2015049254A JP2015049254A JP2013178542A JP2013178542A JP2015049254A JP 2015049254 A JP2015049254 A JP 2015049254A JP 2013178542 A JP2013178542 A JP 2013178542A JP 2013178542 A JP2013178542 A JP 2013178542A JP 2015049254 A JP2015049254 A JP 2015049254A
- Authority
- JP
- Japan
- Prior art keywords
- key phrase
- recognition
- voice
- utterance
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】本発明の目的は、カスタマー発話に対する高精度な音声認識技術を提供することにある。【解決手段】音声認識システムは、音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識部と、前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識部と、前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析部と、前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出部と、前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正部と、前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識部と、を備える。【選択図】図1
Description
本発明は、音声データの認識技術に関する。
コールセンターでは一日に何千時間もの音声通話データ、具体的には、オペレータの音声とカスタマーの音声がペアで録音されていることが多い。これらは、オペレータの教育や受け付け内容の確認のために録音されており、必要に応じて音声データベースが利用される。特に、カスタマーの音声には、製品名や製品の欠陥、クレームといった情報が含まれており、これらを効率よく聴取して書き起こし、レポートにまとめたり、通話を要約したりする必要がある。基本的には音声データを始めから終わりまで聴取する必要があるので、レポートのまとめや通話の要約には非常に時間がかかるという問題があった。特に、一日に何千時間も録音される音声データをすべて人手で聴取することはできない。
そこで、音声データを自動的にテキスト情報に変換する技術が開発されている。代表的な方法の一つである統計情報に基づく方法では、音響モデルと言語モデルと呼ばれるデータベースに基づいて音声認識を行う。一般的に、音響モデルは、音素とその音声特徴量の確率分布を保存したものであり、言語モデルは、発話される可能性のあるテキストパターンとその生成確率を保存したものである。
音声認識を行う場合、まず、入力音声データが音声特徴量に変換される。次に、言語モデルを用いて、発話される可能性の高い順にテキストパターンを生成する。さらに、音響モデルを用いて、そのテキストパターンに対応する音素列の典型的特徴量列と入力音声データの特徴量列との距離を計算する。テキストパターンの生成確率と特徴量列の距離に基づいてスコアが計算され、スコアの高いテキストパターンを認識結果とする。
本技術分野の背景技術として、特許文献1がある。特許文献1には「本発明の目的は、大量のデータを学習する必要がなく、評価用データを作成せずに、多くの事前準備や計算を行うことなく、言語モデルを会話に適応させ、認識率の高い音声認識を行うことである。上記の課題を解決するために、本発明に係る音声認識技術は、会話音声を認識し、音声信号から特徴量を抽出し、所定の話者Aの発話内容を含む音声信号から得られる特徴量と音響モデルと適応前の言語モデルを用いて音声認識を行い、認識結果A’を求め、認識結果A’のみと適応前の言語モデルを用いて、適応後の言語モデルを求め、所定の話者以外の話者Bの発話内容を含む音声信号から得られる特徴量と音響モデルと適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める。」と記載されている。
特許文献1の従来技術では、オペレータ発話の音声認識結果を利用して言語モデルを適応し、カスタマー音声を認識することになる。これは、言語モデルにおける特定の単語を含むテキストパターンの生成確率を上昇させることで、カスタマー発話の認識率を向上させる。ここで、特定の単語とは、オペレータ発話の認識結果に含まれる単語とその共起語などが含まれる。一方、カスタマー通話は通常不特定多数の話者を対象とするため、音声の個人性や発話環境による非言語的なばらつきが多様であり、音響モデルのミスマッチが認識率低下の要因となっている。そのため、この方法には、音響モデルにおけるミスマッチが大きい場合では効果が小さい、特定の単語を含む発話以外には効果がない、などの理由から誤認識率が高いという課題があった。
本発明の目的は、カスタマー発話に対する高精度な音声認識技術を提供することにある。
上記課題を解決する為に、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、以下の音声認識システムが提供される。当該音声認識システムは、音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識部と、前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識部と、前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析部と、前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出部と、前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正部と、前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識部と、を備える。
また、他の例によれば、演算装置と記憶装置とを少なくとも備える一つ以上の計算機を用いた音声データ認識方法が提供される。当該音声データ認識方法は、前記計算機によって、音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識ステップと、前記計算機によって、前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識ステップと、前記計算機によって、前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析ステップと、前記計算機によって、前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出ステップと、前記計算機によって、前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正ステップと、前記計算機によって、前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識ステップと、を含む。
また、他の例によれば、演算装置と記憶装置とを少なくとも備える計算機に、音声データ認識処理を実行させるためのプログラムを記録した非一時的なコンピュータ可読媒体が提供される。前記プログラムは、前記演算装置に、音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識処理と、前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識処理と、前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析処理と、前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出処理と、前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより、一時音響モデルを生成する補正処理と、前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識処理と、を実行させる。
本発明によれば、認識しやすいオペレータの音声からあるキーフレーズを特定し、そのキーフレーズをカスタマーの音声で検出する。カスタマー音声のキーフレーズの音素の特徴量からカスタマー用の一時音響モデルを生成することにより、カスタマーの個人性や発話環境などによる認識誤差を低減する。これにより、カスタマー発話に対する高精度な音声認識が可能となる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。
以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。なお、本実施例の形態を説明するための全図において同一機構を有するものは原則として同一の符号を付すようにし、その繰り返しの説明は可能な限り省略するようにしている。
本発明の音声データ認識装置は、オペレータ発話に含まれる所定のパターンキーワードを抽出し、パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する。次に、音声データ認識装置は、カスタマー発話からそのキーフレーズを検出し、そのキーフレーズの検出区間の音声認識情報とキーフレーズ情報に基づいて音響モデルを適応する。オペレータとカスタマーの会話にはパターンがあるが、音声データ認識装置では、特定のパターンに対応してあるキーフレーズがカスタマー発話に含まれているという特徴を利用し、音響モデルをカスタマー発話に適応する。以下で具体的な実施例について説明する。
[第1実施例]
図1は、第1実施例の音声データ認識装置1の構成を示すブロック図である。音声データ認識装置1は、例えば、パーソナルコンピュータやワークステーションなどの情報処理装置によって構成される。音声データ認識装置1は、中央演算処理装置と、補助記憶装置と、主記憶装置と、表示装置と、入力装置とを備えている。例えば、中央演算処理装置は、CPU(Central Processing Unit)などのプロセッサ(又は演算装置ともいう)で構成されている。また、例えば、補助記憶装置はハードディスクであり、主記憶装置はメモリであり、表示装置はディスプレイであり、入力装置はキーボード及びポインティングデバイス(マウスなど)である。以下で説明する各種データは、情報処理装置の記憶装置に格納される。
図1は、第1実施例の音声データ認識装置1の構成を示すブロック図である。音声データ認識装置1は、例えば、パーソナルコンピュータやワークステーションなどの情報処理装置によって構成される。音声データ認識装置1は、中央演算処理装置と、補助記憶装置と、主記憶装置と、表示装置と、入力装置とを備えている。例えば、中央演算処理装置は、CPU(Central Processing Unit)などのプロセッサ(又は演算装置ともいう)で構成されている。また、例えば、補助記憶装置はハードディスクであり、主記憶装置はメモリであり、表示装置はディスプレイであり、入力装置はキーボード及びポインティングデバイス(マウスなど)である。以下で説明する各種データは、情報処理装置の記憶装置に格納される。
また、以後の説明では、本実施例において扱われる情報について「テーブル」構造を用いて説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために、以下では各種データを単に「情報」と呼ぶことがある。
音声データ認識装置1は、学習用ラベル付き音声データ101と、音響モデル・言語モデル学習部103と、音響モデル105と、言語モデル107と、オペレータラベル付き音声データ109と、モデル適応部111と、マニュアル・書き起こしテキストデータ113と、発話パターンデータベース構築部115と、発話パターンデータベース117と、オペレータ音声データ119と、オペレータ発話認識部121と、カスタマー音声データ123と、カスタマー発話認識部125と、キーフレーズ解析部127と、キーフレーズ検出部129と、音響モデル補正部130と、発話認識部131と、認識結果出力部133とを備える。
学習用ラベル付き音声データ101は、音声波形とその発話内容を書き起こしたテキストなどを格納する。音声データ101は、書き起こしたテキストが付属していれば、TVから抽出した音声トラック、読み上げ音声コーパス、通常の会話を録音したものでも良い。もちろん、音声データ101には、発話者を識別するID、雑音の有無などのラベルも付属されていても良い。
音響モデル・言語モデル学習部103は、学習用ラベル付き音声データ101を用いて、音響モデル105及び言語モデル107のそれぞれの統計モデルのパラメータを出力する。音響モデル105は、音声特徴量を表現した統計的モデルのパラメータを格納したものであり、音素とその音声特徴量の確率分布を保存したものである。言語モデル107は、言語特徴を表現した統計的モデルのパラメータを格納したものであり、発話される可能性のあるテキストパターンとそのテキストパターンの生成確率を保存したものである。
オペレータラベル付き音声データ109は、オペレータの音声波形とその発話内容を書き起こしたテキストデータのペアを含む。これらのデータは、モデル適応部111において、音響モデル105と言語モデル107をオペレータ音声に適応するために利用される。モデル適応部111は、オペレータ音声に適応した音響モデル105と言語モデル107を出力する。
マニュアル・書き起こしテキストデータ113は、電話対応のマニュアル、カスタマーとオペレータの会話を書き起こしたテキストデータを含む。書き起こしテキストデータには、発話内容の文章のほかに、それぞれの文字に様々なラベル、例えば、品詞情報や感情タグなどを含んでいても良い。
発話パターンデータベース構築部115は、マニュアル・書き起こしテキストデータ113を用いて、発話パターンデータベース117を出力する。発話パターンデータベース117は、オペレータ発話に含まれうるパターンキーワードと、カスタマー発話から抽出すべきキーフレーズを決定するための情報とを含む。発話パターンデータベース117では、パターンキーワードと、そのパターンキーワードの時間的周辺に位置するキーフレーズの情報とが関連付けて格納されている。
オペレータ音声データ119とカスタマー音声データ123は、認識対象となる音声データであり、電話回線の録音音声などである。これらの音声データは、種類別に複数のファイルに記録されてもよいし、複数チャンネルが記録されていてもよいし、発話者の識別IDなどのメタデータ情報が付与されていても良い。
オペレータ発話認識部121は、モデル適応部111が出力したオペレータ音声に適応した音響モデル105と言語モデル107を用いて、オペレータ音声データ119の認識結果を出力する。この出力結果には、単語テキスト、発話時間、音素テキスト、認識信頼度などを含んでいてもよく、感情認識結果などの非言語情報を含んでいてもよい。なお、音響モデルと言語モデルを用いた音声データの認識処理は、広く知られた技術であるので説明を省略する。ここで、認識信頼度は、オペレータ音声データ119の認識結果に対する信頼性を示す尺度(数値等)である。カスタマー発話認識部125は、音響モデル105と言語モデル107を用いて、カスタマー音声データ123の認識結果を出力する。認識結果は、オペレータ発話認識部121が出力する情報と同じである。
キーフレーズ解析部127は、発話パターンデータベース117とオペレータ音声の認識結果を用いて、カスタマー発話から検出すべきキーフレーズと補助情報とを出力する。ここで、補助情報とは、図2Aに示すキークラス207、サブキーフレーズ209、関連キーフレーズ211、パラメータ213等の情報を含む。また、補助情報には、オペレータの発話においてパターンキーワードあるいはキーフレーズを検出した際の一致度合を示す検出信頼度の情報も含んでも良い。
キーフレーズ検出部129は、キーフレーズ解析部127から得た検出すべきキーフレーズ及び補助情報と、カスタマー発話認識部125から出力されたカスタマー音声の認識結果を用いて、カスタマー音声データにおけるキーフレーズの出現区間情報と信頼度情報を出力する。ここで、信頼度情報とは、例えば、図7Bに示される式によって再計算された信頼度である。
音響モデル補正部130は、キーフレーズ検出部129が出力したキーフレーズの出現区間情報と信頼度情報に基づいて、音響モデル105をカスタマー音声に適応させる。具体的には、音響モデル補正部130は、キーフレーズ検出部129が出力したキーフレーズの出現区間情報と信頼度情報に基づいて、音響モデル105をカスタマー音声に対応させて補正し、一時音響モデルを生成する。
発話認識部131は、音響モデル補正部130で生成された一時音響モデルを用いて、カスタマー音声全体に対して再度音声認識を行い、少なくとも、認識した単語テキストを出力する。認識結果出力部133は、カスタマーの音声認識結果及びオペレータの音声認識結果の単語テキスト情報を出力デバイスに送信する。ここまでが、音声データ認識装置における認識処理の部分である。
なお、本実施例では、音声データ認識装置1を単体の装置として説明したが、端末(ブラウザ)と計算機(サーバ)を備えたシステムによって構成してもよい。この場合、例えば、端末(ブラウザ)は、オペレータ音声データ119とカスタマー音声データ123のアップロードおよび認識結果出力部133の処理を実行し、計算機(サーバ)は、その他の各処理部の処理を実行する。
また、本実施例では、学習用ラベル付き音声データ101、音響モデル105、言語モデル107、オペレータラベル付き音声データ109、オペレータ音声データ119、カスタマー音声データ123、発話パターンデータベース117は同一の装置内で保存及び生成されるものとして説明したが、これらの前処理を実行する計算機と、オペレータ発話認識部121、カスタマー発話認識部125、キーフレーズ解析部127、キーフレーズ検出部129、音響モデル補正部130、発話認識部131、までを実行する計算機を分けて構成してもよい。例えば、オペレータ音声データ119、カスタマー音声データ123を外部のストレージに保存し、音響モデル105、言語モデル107、発話パターンデータベース117を事前に別の計算機で作成しておき、認識処理を実行する計算機へ複製して用いることができる。
以下、各処理部によって実行される処理について説明する。本実施例の音声データ認識装置1では、まず、音声データを認識可能にするための処理が行われる。そのために、音響モデル105及び言語モデル107を構築する必要がある。
音響モデル・言語モデル学習部103は、学習用ラベル付き音声データ101を用いて、音響モデル及び言語モデルのパラメータを推定する処理を行う。学習用ラベル付き音声データ101は、不特定話者の多数の音声データとその書き起こしテキストデータを少なくとも含んでいる。
一般的に、音声データを認識する問題は、事後確率最大化探索問題として扱われる。この事後確率最大化探索の枠組みでは、大量の学習データから学習された音響モデル及び言語モデルを用いて、入力音声データにもっとも適合する単語列やテキストパターンが求められる。この2つのモデルに関して、例えば、音響モデルには、Hidden Markov Model(HMM)を採用することができ、言語モデルには、N−Gramを採用することができる。音響モデルと言語モデルのパラメータを推定する方法については、広く知られた技術であるので説明を省略する。
なお、ラベル付き音声データに、感情や意図といったその他のラベルが付与されている場合、必要があれば、同様の枠組みで入力音声データから感情や意図のラベルを出力することも可能である。複数の音声認識結果をN−ベスト形式やネットワーク形式で出力してもよい。これらの付加情報は、後段で説明するキーフレーズ解析部127で利用できる。
次に、オペレータ発話を高精度に認識するために、音響モデル105及び言語モデル107をオペレータ音声に適応する処理について説明する。オペレータラベル付き音声データ109は、特定のオペレータに関する音声データと、その書き起こしテキストデータとを少なくとも含んでいる。ここで、特定のオペレータに関する音声データとは、個人の音声データでもよいし、ある特徴でクラスタリングされた音声データでもよい。クラスタリングされた音声データとは、例えば、同じ性別のオペレータのデータなどである。
まず、モデル適応部111は、音声データと書き起こしテキストを用いて、音響モデルの適応を行う。最大事後確率法(MAP:Maximum A Posteriori)や最尤線形回帰法(MLLR:Maximum Likelihood Linear Regression)といった手段により、音響モデルのパラメータを更新できる。
次に、言語モデルに関しては、例えば、オペレータラベル付き音声データ109に含まれるテキスト情報からN−gram確率を算出し、言語モデル107のN−gram確率の重み付き和を適応後のN−gram確率とする手段がある。これらの適応技術の詳細に関しては、広く知られた技術であるので説明を省略する。以上により、オペレータ音声データ119とカスタマー音声データ123を音声認識する準備が整った。
次に、キーフレーズ解析部127に必要な発話パターンデータベース117と、その構築に必要な発話パターンデータベース構築部115の処理について説明する。
図2A及び図2Bは、本実施例の発話パターンデータベース117を示す図である。図2Aは、発話パターンデータベース117の日本語の例を示し、図2Bは、発話パターンデータベース117の英語の例を示す。発話パターンデータベース117は、パターンキーワード201と、K−ID203と、キーフレーズパターン205と、キークラス207と、サブキーフレーズ209と、関連キーフレーズ211と、パラメータ213とを構成項目として含んでいる。
パターンキーワード201は、オペレータ発話の中で着目すべきキーワードである。また、音響モデルで用いている音素を用いて、これらのキーワードの読みも格納する。例えば、パターンキーワード201Aの場合、読みは「d e s u n e」とすることもできる。
K−ID203は、パターンキーワードに対するキーフレーズパターン205毎のIDである。キーフレーズパターン205は、パターンキーワード201が登場する文章のパターンまたはその表現を列挙したものである。このパターンは、図2Aのような表現でもよいし、オートマトンや正規文法などで記述されていてもよい。
キーフレーズパターン205において、オペレータ及びカスタマー発話において検出すべき主たるフレーズを「キーフレーズ」、付加的にオペレータ及びカスタマーが発話する可能性のあるフレーズを「サブキーフレーズ」としている。サブキーフレーズは、キーフレーズの時間的に周辺に位置する単語あるいはフレーズなどの情報である。例えば、「電話番号は090・・・2391ですね?」という確認を行う発話の場合、「電話番号」という部分がサブキーフレーズに該当し、実際の電話番号である「090・・・2391」という部分がキーフレーズに該当する。サブキーフレーズを用いることによって、キーフレーズの種類を特定することができる。また、サブキーフレーズは、カスタマー音声から検出すべきキーフレーズとして利用され得る。
キークラス207は、キーフレーズパターン205における「キーフレーズ」が取り得る種類を記述する。キークラス207としては、「製品名」、「型番」、「動作」、「部品」、「電話番号」などといった種類がある。例えば、日本語の「よろしいですね(y o r o s i i d e s u n e)」という発話の場合、「よろしい(y o r o s i i)」という部分と、「ですね(d e s u n e)」という部分とに分けられるが、「よろしい(y o r o s i i)」は、キークラス207であげられている「製品名」や「型番」、「動作」、「部品」、「電話番号」に該当しない。したがって、キークラス207の情報は、日本語の「よろしいですね(y o r o s i i d e s u n e)」という発話がキーフレーズパターン205に該当しないと判定するために利用することができる。
サブキーフレーズ209は、キーフレーズパターン205における「サブキーフレーズ」となりうる単語やフレーズとそれらの読みを列挙したものである。関連キーフレーズ211は、キーフレーズやサブキーフレーズと共起するキーワードとその読みを格納したものである。関連キーフレーズ211も、カスタマー音声から検出すべきキーフレーズとして利用され得る。
パラメータ213は、キーフレーズ解析部127及びキーフレーズ検出部129で用いられる情報である。図2Cは、発話パターンデータベース117のパラメータを説明する図である。パラメータ213は、例えば、キーフレーズがオペレータ発話からどれだけの範囲内に出現するかという情報を含む。図2Cの例では、オペレータ発話232が、キーフレーズパターンに一致する。キーフレーズパターンに一致するオペレータ発話232の周辺の発話には、カスタマーがキーフレーズを発話している可能性が高い。したがって、パターンキーワードが出現したオペレータ発話232を基準として所定の範囲内で、カスタマーの発話からキーフレーズを検出する。
例えば、キーフレーズがオペレータ発話232からどれだけの範囲に出現するかというパラメータとして、「−2〜0発話」というパラメータを定義してもよい。図2Cの例では、オペレータ発話232の1つ前の発話241が「−1発話」となり、オペレータ発話232の2つ前の発話231が「−2発話」となる。発話単位で定義されたパラメータは一例であり、これに限定されない。キーフレーズパターンに一致するオペレータ発話から一定の秒数の範囲をパラメータとして定義してもよい。図2A及び図2Bに示すように、キーフレーズパターンに一致するオペレータ発話を基準として、「−30〜0秒」という時間を定義してもよい。
また、パラメータ213は、例えば、信頼度計算におけるキーフレーズが検出された発話時刻に対する距離ペナルティ情報(スコアなど)などを少なくとも含む。ここで、距離ペナルティ情報は、後段で説明する検出信頼度等の計算において、キーフレーズパターンに一致するオペレータ発話から時間的に離れるほど検出信頼度のスコアを小さくするような補正値である。キーフレーズパターンに一致するオペレータ発話から時間的に近くでキーフレーズが検出されるほど、その信頼度は高いと考えられるためである。例えば、距離ペナルティ10の場合、1発話単位毎にスコアから10減らすなどの処理を行う。なお、この距離ペナルティは一例であり、他の補正値でもよい。また、距離ペナルティは、発話単位で計算してもよいし、所定の時間毎に計算するようにしてもよい。
また、パターンキーワードのほかに非言語情報をオペレータ発話に追加したり、カスタマー発話においてもキーフレーズが発話される場合のカスタマーの非言語情報を追加したりすることも考えられる。ここで、非言語情報とは、パターン感情、パターン音高、国籍、性別、音量変化、無発話時間等の情報である。キーフレーズがカスタマー内のどこで発話されたかを特定する場合において、この非言語情報を用いて、その信頼度をさらに向上させることが可能となる。
図2Bは、発話パターンデータベース117の英語の例を示す。図2Bでは、確認用のフレーズ「is that correct?」がパターンキーワード201として定義されている。例えば、カスタマーが、製品名、型番、動作、部品、電話番号などといったキーフレーズを言った後にオペレータが確認するためのパターンを、キーフレーズパターン205として定義してもよい。
次に、発話パターンデータベース構築部115の処理について説明する。発話パターンデータベース構築部115は、マニュアル・書き起こしテキストデータ113を用いて発話パターンデータベース117を構築する。まず、マニュアルデータに関しては、形態素解析、構文解析、対話構造分析などの自然言語処理を用いて、キーフレーズとなりうる単語やフレーズ、キーフレーズパターンなどを抽出する。マニュアルデータに「復唱」や「クレーム対応」といった項目が付与されている場合は、確実にそのような発言があると考えてよく、その項目に含まれるキーフレーズパターンに高い重要度を付与し、パラメータに設定することも考えられる。
また、発話パターンデータベース構築部115は、書き起こしテキストに含まれている、オペレータ及びカスタマー会話の書き起こしテキスト、単語とキークラスの種類との対応付けデータなどを用いて、サブキーフレーズとなりうる単語、関連キーフレーズ、及びパラメータを抽出する。必要があれば、発話パターンデータベース構築部115は、人名辞書、数字辞書、住所辞書といった各種の専門的なデータベースを併用して、発話パターンデータベース117を構築してもよい。
また、発話パターンデータベース構築部115は、マニュアル・書き起こしテキストデータ113を用いて、パラメータを自動的に抽出することができる。パラメータに関しては、例えば、オペレータ発話中にキーフレーズが出現した場合において、その周辺のカスタマー発話中のキーフレーズ、サブキーフレーズ、関連キーフレーズが出現した回数をカウントする。そして、いくつかの発話の範囲(キーフレーズが出現したオペレータ発話を基準とした前後範囲)毎に上記回数をカウントし、統計モデルを用いることにより、パラメータを推定することができる。
具体的には、周辺発話の距離は、カスタマー発話でキーフレーズが出現した相対発話位置の上限及び下限をとればよい。また、距離ペナルティ情報は、キーフレーズの出現発話位置をカウントし、その頻度の線形回帰係数を用いることもできる。ガウス分布やラプラス分布といった、より柔軟な統計モデルを距離ペナルティ情報(スコア)として用いる場合は、そのパラメータをデータから最尤推定することによって求めることができる。
発話パターンデータベース117は、マニュアル・書き起こしテキストデータ113が大量にある場合、さらに細分化して構築することも可能である。例えば、オペレータ毎にこのデータベースを構築する、カスタマーの性別情報、国籍情報、地域情報、年齢情報毎にデータベースを構築する、といったことを行えば、オペレータの癖やカスタマーの男女の傾向などを反映可能である。以上により、事前に準備すべき発話パターンデータベース117の構築が完了する。
次に、オペレータ音声データ119とカスタマー音声データ123の音声認識処理に関して説明する。オペレータ発話認識部121とカスタマー発話認識部125の処理は、用いる音響モデルと言語モデルが異なることを除けば同じ処理であるため、まとめて説明を行う。
まず、各音声データを発話毎に分割するため、例えば、音声パワーが所定の閾値θp以下である時間が所定の閾値θt以上連続した場合、その位置で音声データを分割する。図3は、分割された音声データを示す。それぞれの音声区間には、分割された区間の開始時刻301、終了時刻の情報303が付与される。なお、音声データを分割する方法には、音声パワーで区切る方法の他に、例えば、ゼロ交差数を用いる方法、GMM(Gaussian Mixture Model)を用いる方法、音声認識技術を用いる方法など、さまざまな方法が広く知られている。本実施例では、これらのどの方法を用いてもよい。また、音声認識を行う方法は、公知の技術を組み合わせることで可能であるため、詳細は省略する。
音声認識を行った結果、その認識情報として、単語認識結果は、単語テキスト、品詞列、単語発話時刻列、及び、単語信頼度列を含むことができ、また、音素認識結果は、音素テキスト、音素発話時刻列、及び、音素信頼度列を含むことができる。発話パターンデータベース117に、音量変化情報、音高変化情報、感情認識、国籍識別、性別識別といった非言語情報が含まれている場合は、オペレータ発話認識部121及びカスタマー発話認識部125は、それらの認識処理及び識別処理を行ってもよい。
図4A及び図4Bは、本実施例における音声認識情報に含まれる情報であり、オペレータ発話認識部121及びカスタマー発話認識部125からの出力結果の一例を示す。図4Aは日本語の認識結果の例であり、図4Bは英語の認識結果の例である。発話番号401は、オペレータとカスタマーの会話が開始してからの発話の順番を示すものである。発話区間403は、オペレータとカスタマーの会話が開始した時点を0秒として、各発話の開始と終了の時刻を示すものである。単語認識情報405は、認識された結果得られる情報の種類を示す。単語認識結果407は、単語テキスト、品詞列、その単語が発話されたときの時刻、及び、単語信頼度列を含む。音素認識結果409は、音素テキスト、音素発話時刻列、及び、音素信頼度列を含む。
次に、キーフレーズ解析部127の処理を説明する。キーフレーズ解析部127は、オペレータの音声認識情報と発話パターンデータベース117を用いて、オペレータ発話から検出すべきキーフレーズを取得する。図5は、本実施例におけるキーフレーズ解析部127の処理のフローチャートの一例である。
まず、発話パターンデータベース117のパターンキーワード201を一つずつチェックしていく。未処理のパターンキーワード201がない場合は処理を終了し、未処理のパターンキーワード201がある場合は、ステップ501に進む。
次に、オペレータの発話からパターンキーワード201の出現箇所を検出する処理を実行する(ステップ501)。このパターンキーワード検出処理は、例えば、パターンキーワード201の単語情報を用いて、オペレータの音声認識情報における単語認識結果407の単語テキストにパターンキーワード201の単語が含まれているかどうかを、オペレータの全ての発話においてチェックすればよい。また、認識誤りを配慮する場合は、パターンキーワード201の読み表記と音素認識結果のテキストデータを用いて、例えば、端点フリーのビタビアルゴリズムまたはDPマッチングといったアルゴリズムによって、パターンキーワード201を検出できる。
パターンキーワード201の出現箇所の検出処理において、検出信頼度をスコアとして求めてもよい。ここで、検出信頼度は、オペレータの発話におけるパターンキーワード201の一致度合を示す値である。なお、音声認識処理における単語信頼度あるいは音素信頼度などを組み合わせて検出信頼度を求めてもよい。この場合、検出信頼度をスコアとして保存して、後のキーフレーズパターン検出や信頼度計算等に反映させてもよい。オペレータの発話とパターンキーワード201とのマッチングにより、パターンキーワード201が出現する開始位置と終了位置も獲得される。本実施例では、テキスト情報を用いてパターンキーワード201の検出を行っているが、公知術を用いれば、音声データの特徴量情報や波形情報を用いて検出を行うことも可能である。
次に、パターンキーワード201が検出された発話の周辺、あるいは、スコアが付与されているならばパターンキーワード201の上位のスコアの周辺発話に対して、キーフレーズパターン205を検出する処理を行う(ステップ503)。これは、発話パターンデータベース117のキーフレーズパターン205に当てはまるかどうかをチェックする。そのためには、キーフレーズパターン205毎にサブキーフレーズをキーフレーズパターン205に当てはめ、キーフレーズ部分以外のパターンを検出する必要がある。この検出には、先ほどと同様に、単語認識結果や音素認識結果のDPマッチングなどで実現できる。この時、キーフレーズに該当する区間の時間長などを制約条件として検出することもできる。これは、キーフレーズ以外のパターンが一定の時間以上離れて検出された場合、その候補を排除するために利用できる。
キーフレーズパターン205が検出された場合、キーフレーズに該当する部分の単語または音素認識結果を抽出する(ステップ505)。この時、キーフレーズ毎に、キーフレーズの読み、クラス、パラメータ、オペレータ発話における出現時刻といった情報を付加して、キーフレーズ情報として出力する。DPマッチングにより検出を行っている場合は、そのスコアなども追加して出力することができる。また、サブキーフレーズや関連キーフレーズも検出すべきキーフレーズとして、同様の情報を追加登録しておく。
ここで、キーフレーズをキーフレーズパターン205に基づいて動的に検出している点が重要である。例えば、「申し訳ありません」や「製品名」といったキーフレーズはあらかじめ取得することができるからといって、単純にそれらキーフレーズについてカスタマー発話及びオペレータ発話の両方から検出すればよいわけではない。例えば、電話番号や製品の名前、住所などをキーフレーズとする場合、出現しうるキーフレーズを全て列挙するとその数は非常に大きいものとなる。電話番号が11ケタの数字の場合、単純に11ケタの数字としてカウントすると1億以上のキーフレーズを生成する必要がある。そのため、検出にかかわる処理量が膨大となり、システムのレスポンスタイムを遅延させる要因となる。また、仮に検出できたとしても、カスタマー発話とオペレータ発話で検出されたキーフレーズの対応関係を逐一確認する必要があるため、それにも処理量が必要となる。そのため、本実施例のようなキーフレーズパターン205を用いた解析処理によって処理量を低減することができる。
図6は、本実施例におけるキーフレーズ情報の一例を示す。この情報はキーフレーズ解析部127によって出力されるものである。キーフレーズ情報は、キーフレーズ601、クラス603、パラメータ605、ID607、及び、オペレータ発話における出現時刻609を含んでいる。キーフレーズ601は、キーフレーズ及びキーフレーズの読みを含む。クラス603は、キーフレーズ601に対応するキークラス(図2A及び図2Bのキークラス207)を含む。パラメータ605は、キーフレーズ601に対応するパラメータ(図2A及び図2Bのパラメータ213)を含む。出現時刻609は、キーフレーズ601の出現時刻を示す。ここで、パラメータ605は、出現時刻609毎に異なる値をとるようにしてもよい。例えば、パターンキーワードやキーフレーズをDPマッチングによって取得した場合は、検出個所毎にスコアとして検出信頼度が計算できる。
次に、キーフレーズ検出部129の処理を説明する。キーフレーズ検出部129は、カスタマー発話認識部125からのカスタマー音声認識情報と、キーフレーズ解析部127からのキーフレーズ情報を用いて、キーフレーズの出現箇所とその検出信頼度を出力する。ここでの検出信頼度は、カスタマーの発話におけるキーフレーズの一致度合を示す値である。なお、検出信頼度は、上述した距離ペナルティ情報によって補正されてもよい。図7Aは、本実施例におけるキーフレーズ検出部129の処理のフローチャートの一例である。
まず、キーフレーズ解析部127が出力したキーフレーズ情報に登録されているキーフレーズを1つずつチェックしていく。未処理のキーフレーズがない場合は処理を終了し、未処理のキーフレーズがある場合は、ステップ701に進む。
次に、カスタマーの発話からキーフレーズの出現箇所を検出する処理を実行する(ステップ701)。キーフレーズの検出に関しては、キーフレーズ解析部127で行ったものと同じ処理で実現できるため、詳細は省略する。異なる点は、キーフレーズをカスタマーの発話から検索する場合に、検索対象の発話範囲を考慮する点である。キーフレーズ情報のパラメータ605を用いて、無関係な発話区間に対しては検出処理を行わない。
次に、検出されたキーフレーズ箇所に対して、信頼度を再計算する処理が行われる(ステップ703)。図7Bは、信頼度の再計算法の式の一例である。再計算後の補正信頼度rallは、カスタマー音声の認識結果の認識信頼度と、カスタマー音声中のキーフレーズの検出信頼度と、オペレータ音声中のキーフレーズの検出信頼度とから計算することができる。なお、補正信頼度rallの計算方法は、この方法に限定されず、他の計算方法でもよい。補正信頼度rallの計算は、上述した非言語情報を用いてさらに補正されてもよい。このように、カスタマー音声中及びオペレータ音声中のキーフレーズの検出信頼度を考慮してカスタマー音声の認識結果の認識信頼度を補正することによって、より信頼性の高い信頼度を得ることができる。
rrecogは、カスタマー音声の認識結果の認識信頼度である。例えば、rrecogは、カスタマーの発話の所定の発話における単語信頼度あるいは音素信頼度の平均、最大値などである。ここで、所定の発話とは、例えば、キーフレーズを含む発話である。rrecogは、これに限定されず、別の方法で求められてもよい。
Wkeyword及びrkeywordは、それぞれ、カスタマー音声中のキーフレーズの検出信頼度と重みである。Wpenalty及びrpenaltyは、オペレータ音声中のキーフレーズの検出信頼度と重みである。また、例えば、rkeywordは音素列に対するDPマッチングスコアを採用してもよい。また、rpenaltyは、キーフレーズの出現位置と距離ペナルティ情報から計算した値、あるいは、オペレータ発話からのキーフレーズ抽出時において単語信頼度あるいは音素信頼度の平均、あるいは、それらの信頼度の重み付けた値によって計算してもよい。
また、rpenaltyの値は、感情や音量、国籍、性別などの非言語情報によって補正してもよい。各種重みに関しては、あらかじめ定めた値を用いることも可能であり、また、事前にデータからパターンの統計分析を行い、分散などの値として得ることも可能である。これらの値は、音声特徴量のフレーム毎に計算される。これは、音声認識処理における単語信頼度、音素信頼度、及びマッチングスコアのそれぞれの対応する時間幅(フレーム)が異なるためである。以上により、キーフレーズ毎に出現開始及び終了位置と、その区間内の信頼度を取得できる。
次に、音響モデル補正部130の処理を説明する。音響モデル補正部130は、カスタマー音声のキーフレーズの音素の特徴量を用いて音響モデル105を補正することにより一時音響モデルを生成する。本実施例では、音響モデル補正部130は、キーフレーズ毎の出現区間より得たキーフレーズの音素の特徴量とその区間内の信頼度を用いて音響モデル105を補正することにより、一時音響モデルを生成する。これにより、音響モデル105をカスタマー音声に適応させる。このカスタマー音声への音響モデルの適応に関しては、公知の技術を組み合わせることで可能であるため、詳細は省略する。
図8は、音響モデル補正部130における一時音響モデルを生成する処理を説明する図である。カスタマー音声データ123の波形データ801から、キーフレーズの出現区間に対応する波形を切り出し、その波形データの認識処理からキーフレーズに対応する音声認識情報(音素特徴量列803)を取得する。なお、キーフレーズに対応する音声認識情報は、カスタマー発話認識部125の音声認識情報を取得してもよい。そして、音素特徴量列及び信頼度を用いて音響モデル805Aを一時音響モデル805Bへ補正する。ここで、音響モデル805Aは、予め作成されている音響モデル105であり、一時音響モデル805Bは、カスタマー音声に適応させるように音響モデル105を補正したものである。
次に、発話認識部131は、音響モデル補正部130で生成された一時音響モデルを用いて、カスタマー音声データ123に対して再び音声認識処理を実行する。発話認識部131における認識結果は、少なくとも単語テキスト情報を含んでいる。必要があれば、認識結果は、オペレータ発話、カスタマー発話のラベル、及び、発話区間情報などを含んでいてもよい。
最後に、認識結果出力部133は、発話認識部131による音声認識結果をディスプレイの表示形式でデータ転送を行い、ディスプレイに表示する。図9は、認識結果の表示形式の一例である。このインターフェースは、認識対象のオペレータ音声ファイルとカスタマー音声ファイルを指定するフィールド901と、音声認識結果を出力するためのフィールド903と、指定された音声ファイルをシステムに送信するためのボタン905とを備える。フィールド901には、入力装置を用いてオペレータ音声ファイルとカスタマー音声ファイルのパスが入力される。また、フィールド903には音声認識結果が表示され、操作者はその認識結果を確認することができる。
以上説明したように、第1実施例によれば、オペレータ発話に含まれる所定のキーワードを抽出し、そのキーワードの時間的周辺に位置するキーフレーズをカスタマー発話から検出し、その検出された区間の音声認識情報とキーフレーズ情報に基づいて音響モデルを補正する。補正後の音響モデル(一時音響モデル)を用いてカスタマー発話を音声認識処理することにより、カスタマー発話の音声認識精度を向上させることが可能となる。
[第2実施例]
本実施例では、音声データ認識装置を適用したシステムの例を説明する。図10は、第1実施例の音声データ認識装置1をコールセンターシステムへ適用した場合の音声データ認識システムの概略図である。コールセンターシステムでは、音声データ認識装置1に、電話回線の通話録音装置を追加される。
本実施例では、音声データ認識装置を適用したシステムの例を説明する。図10は、第1実施例の音声データ認識装置1をコールセンターシステムへ適用した場合の音声データ認識システムの概略図である。コールセンターシステムでは、音声データ認識装置1に、電話回線の通話録音装置を追加される。
音声データ認識システムは、構内電話交換機(PBX:Private Branch eXchange)装置1003と、通話録音装置1004と、通話管理データ1006及び認識音声データ1007を保存する記憶装置1005と、認識で用いるデータを保存した記憶装置1008,1012と、CPU1017及び主記憶装置(メモリ)1018を備える音声データ認識用の計算機1014とを備える。音声データ認識システムのそれぞれの構成要素は電話回線あるいはネットワークで接続され、計算機1014内の構成要素についてはバスで接続されている。
PBX装置1003は、公衆電話回線網ネットワークを通じて、顧客の電話器1001(以下、顧客電話器という)と接続されている。また、PBX装置1003は、オペレータの電話器1002と接続されている。
通話録音装置1004は、CPU、メモリ、及び制御プログラムを備える汎用計算機として構成されている。通話録音装置1004は、PBX装置1003から顧客の発話のみによる音声信号を取得する。また、通話録音装置1004は、オペレータが用いる電話器1002から、オペレータの発話のみによる音声信号を取得する。オペレータの発話のみの音声信号は、別途ヘッドセットと録音デバイスを用意して、取得することも可能である。
顧客のみによる音声信号及びオペレータのみによる音声信号はA/D変換され、WAV形式等のデジタルデータに変換される。なお、音声データへの変換はリアルタイム処理で行ってもよい。これらの音声データは、通話管理データ1006とともに、認識音声データ1007として記憶装置1005に保存される。通話時間長、顧客話者ID、及びオペレータIDといった情報は、通話管理データ1006としてPBX装置1003等から取得することができる。
記憶装置1008には、音声認識処理で用いるデータが保存されている。記憶装置1008には、言語モデル1009、音響モデル1010、及び発話パターンDB1011が格納されている。また、記憶装置1012には学習用データ1013が保存されている。ここで、学習用データ1013は、図1の学習用ラベル付き音声データ101及びマニュアル・書き起こしテキストデータ113等に対応する。なお、言語モデル1009、音響モデル1010、発話パターンDB1011は、学習用データ1013を用いて、別の計算機で算出されていてもよい。
計算機1014は、第1実施例における音声データ認識装置1の中心処理を構成する。計算機1014の主記憶装置1018には、音声認識モジュール1019、適応・認識モジュール1020、及び、キーフレーズ解析・検出モジュール1021が格納されている。
音声認識モジュール1019は、図1における音響モデル・言語モデル学習部103、モデル適応部111、オペレータ発話認識部121、及びカスタマー発話認識部125を備える。また、適応・認識モジュール1020は、図1における音響モデル補正部130、発話認識部131、及び認識結果出力部133を備える。また、キーフレーズ解析・検出モジュール1021は、発話パターンデータベース構築部115、キーフレーズ解析部127、及びキーフレーズ検出部129を備える。
本実施例では、CPU1017の制御命令によって適切に主記憶装置1018に各モジュール1019、1020、1021のプログラムが展開され、CPU1017によって各モジュールが実行される。第1実施例に記載の処理と同様にすれば、図10の音声データ認識システムは適切に動作する。
本実施例では、キーボード(入力装置)1015を介してオペレータの音声データ及びカスタマーの音声データを計算機1014に入力することができ、計算機1014の各モジュール1019、1020、1021の処理結果は、表示装置1016に表示される。以上説明したように、本実施例によれば、第1実施例に記載の音声データ認識装置1をコールセンターへ導入可能な音声データ認識システムを構成することができる。
[第3実施例]
本実施例では、第1実施例において自動的に構築していた、発話パターンデータベース117にパターンを追加・編集できるユーザインタフェースを付加することにより、新たな発話パターンに対応可能な音声データ認識装置の例を説明する。
本実施例では、第1実施例において自動的に構築していた、発話パターンデータベース117にパターンを追加・編集できるユーザインタフェースを付加することにより、新たな発話パターンに対応可能な音声データ認識装置の例を説明する。
図11は、第3実施例における音声データ認識装置を示す構成図の例である。本実施例では、第1実施例の音声データ認識装置1に対して、パターン入力部1101が追加されている。パターン入力部1101は、ユーザから入力されたデータを受け取り、そのデータを発話パターンデータベース117に追加する。入力データが、マニュアル・書き起こしテキストデータ113と同じ形式であるならば、発話パターンデータベース構築部115と同じ処理を行うことで、発話パターンデータベース117用の学習データを動的に追加できる。入力データが、マニュアル・書き起こしテキストデータ113と同じ形式でない場合でも、その入力データ用にテキスト処理を追加することで、発話パターンデータベース117を動的に更新することができる。
例えば、オペレータ発話とカスタマー発話の書き起こしデータが入力された場合、パラメータの登録済の項目に関しては数値を更新すればよく、未登録の項目がある場合は、その項目を追加で登録する。パラメータを更新する場合、周辺発話の幅に関しては、入力データから得られた更新データの上限値及び下限値が登録済みのデータよりも大きいあるいは小さい場合は、その値で置き換えればよい。
統計量がパラメータとして登録されている場合は、MAP推定といったアルゴリズムを用いることで、追加データ量に応じてそのパラメータを更新できる。また、入力データが、発話パターンデータベース117の各列に対応するタグが振られている場合は、テキストを言語解析し、対応する箇所にデータを追加すればよい。この場合、パラメータに関しては、ユーザが手動で入力してもよい。本実施例によれば、追加された新たなパターンに関してキーフレーズを検出することが可能となるため、カスタマー音声に対応するように音響モデルを補正するためのデータが増え、認識率を向上させることができる。
図12は、本実施例におけるパターン入力部1101用のインターフェースの一例である。このインターフェースは、登録済みキークラス1201と、例文入力フィールド1203と、出現区間1205と、パラメータ1207と、送信ボタン1209とを備える。
登録済みキークラス1201には、発話パターンデータベース117に登録済みのキークラス名が表示される。登録済みキークラス1201は、ユーザが例文入力する際のタグとして用いたり、キークラスを追加する際に用いることができる。例文入力フィールド1203には、オペレータ及びカスタマーの文章の他に、オペレータ及びカスタマー発話のタグ、サブキーフレーズタグ、キークラスタグ、パターンキーワードタグなどが振られていてもよい。登録済みキークラス1201と、例文入力フィールド1203と、出現区間1205と、パラメータ1207の入力が終了した後、操作者は送信ボタン1209を押す。これにより、インターフェース上に入力された情報がパターン入力部1101によって発話パターンデータベース117に登録される。
以上説明したように、第3実施例によれば、第1実施例において自動的に構築していた発話パターンデータベース117にパターンを追加及び編集できるため、新たな発話パターンに対応可能となる。
なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることがあり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、音声データ認識装置の機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。この場合、プログラムコードを記録した非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を情報処理装置(コンピュータ)に提供し、その情報処理装置(又はCPU)が非一時的なコンピュータ可読媒体に格納されたプログラムコードを読み出す。非一時的なコンピュータ可読媒体としては、例えば、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記憶媒体などが用いられる。
また、プログラムコードは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によって情報処理装置に供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムを情報処理装置に供給できる。
また、上述の実施例において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
101 学習用ラベル付き音声データ
103 音響モデル・言語モデル学習部
105 音響モデル
107 言語モデル
109 オペレータラベル付き音声データ
111 モデル適応部
113 マニュアル・書き起こしテキストデータ
115 発話パターンデータベース構築部
117 発話パターンデータベース
119 オペレータ音声データ(第1の音声)
121 オペレータ発話認識部(第1の発話認識部)
123 カスタマー音声データ(第2の音声)
125 カスタマー発話認識部(第2の発話認識部)
127 キーフレーズ解析部
129 キーフレーズ検出部
130 音響モデル補正部
131 発話認識部(第3の発話認識部)
133 認識結果出力部
103 音響モデル・言語モデル学習部
105 音響モデル
107 言語モデル
109 オペレータラベル付き音声データ
111 モデル適応部
113 マニュアル・書き起こしテキストデータ
115 発話パターンデータベース構築部
117 発話パターンデータベース
119 オペレータ音声データ(第1の音声)
121 オペレータ発話認識部(第1の発話認識部)
123 カスタマー音声データ(第2の音声)
125 カスタマー発話認識部(第2の発話認識部)
127 キーフレーズ解析部
129 キーフレーズ検出部
130 音響モデル補正部
131 発話認識部(第3の発話認識部)
133 認識結果出力部
Claims (15)
- 音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識部と、
前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識部と、
前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析部と、
前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出部と、
前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正部と、
前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識部と、
を備えることを特徴とする音声データ認識システム。 - 請求項1に記載の音声データ認識システムにおいて、
前記検出部は、前記第1の音声において前記パターンキーワードが出現した発話を基準として所定の範囲内で、前記第2の音声の前記第2の認識結果から前記キーフレーズを検出することを特徴とする音声データ認識システム。 - 請求項1に記載の音声データ認識システムにおいて、
前記解析部は、前記キーフレーズと、前記キーフレーズの時間的周辺に位置するサブキーフレーズとを用いて、前記キーフレーズを抽出することを特徴とする音声データ認識システム。 - 請求項1に記載の音声データ認識システムにおいて、
前記検出部は、前記第2の認識結果における認識信頼度を補正した補正信頼度を計算し、
前記補正部は、前記補正信頼度と前記キーフレーズの音素の特徴量とを用いて前記音響モデルを補正することにより、前記一時音響モデルを生成することを特徴する音声データ認識システム。 - 請求項4に記載の音声データ認識システムにおいて、
前記補正信頼度は、前記第2の認識結果における認識信頼度と、前記第1の認識結果における前記キーフレーズの検出信頼度と、前記第2の認識結果における前記キーフレーズの検出信頼度とから計算されることを特徴とする音声データ認識システム。 - 請求項1に記載の音声データ認識システムにおいて、
前記パターンキーワードと前記キーフレーズとが関連付けられて格納されている発話パターンデータベースと、
テキストデータから前記パターンキーワードと前記キーフレーズとを抽出するデータベース構築部と、
を更に備えることを特徴とする音声データ認識システム。 - 請求項6に記載の音声データ認識システムにおいて、
前記パターンキーワードと前記キーフレーズとを少なくとも入力データとして受け付け、前記入力データによって前記発話パターンデータベースを更新するパターン入力部を更に備えることを特徴とする音声データ認識システム。 - 演算装置と記憶装置とを少なくとも備える一つ以上の計算機を用いた音声データ認識方法であって、
前記計算機によって、音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識ステップと、
前記計算機によって、前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識ステップと、
前記計算機によって、前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析ステップと、
前記計算機によって、前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出ステップと、
前記計算機によって、前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正ステップと、
前記計算機によって、前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識ステップと、
を含むことを特徴とする音声データ認識方法。 - 請求項8に記載の音声データ認識方法において、
前記検出ステップは、前記第1の音声において前記パターンキーワードが出現した発話を基準として所定の範囲内で、前記第2の音声の前記第2の認識結果から前記キーフレーズを検出することを含む、ことを特徴とする音声データ認識方法。 - 請求項8に記載の音声データ認識方法において、
前記解析ステップは、前記キーフレーズと、前記キーフレーズの時間的周辺に位置するサブキーフレーズとを用いて、前記キーフレーズを抽出することを含む、ことを特徴とする音声データ認識方法。 - 請求項8に記載の音声データ認識方法において、
前記検出ステップは、前記第2の認識結果における認識信頼度を補正した補正信頼度を計算することを含み、
前記補正ステップは、前記補正信頼度と前記キーフレーズの音素の特徴量とを用いて前記音響モデルを補正することにより、前記一時音響モデルを生成することを含む、ことを特徴する音声データ認識方法。 - 請求項11に記載の音声データ認識方法において、
前記補正信頼度は、前記第2の認識結果における認識信頼度と、前記第1の認識結果における前記キーフレーズの検出信頼度と、前記第2の認識結果における前記キーフレーズの検出信頼度とから計算されることを特徴とする音声データ認識方法。 - 請求項8に記載の音声データ認識方法において、
前記計算機によって、テキストデータから前記パターンキーワードと前記キーフレーズとを抽出する抽出ステップと、
前記計算機によって、前記パターンキーワードと前記キーフレーズとを関連付けて前記記憶装置に発話パターンデータベースとして格納する格納ステップと、
を更に含むことを特徴とする音声データ認識方法。 - 請求項13に記載の音声データ認識方法において、
前記計算機が入力装置を更に備え、
前記計算機が、前記入力装置を介して前記パターンキーワードと前記キーフレーズとを少なくとも入力データとして受け付け、前記入力データによって前記発話パターンデータベースを更新する更新ステップを更に含むことを特徴とする音声データ認識方法。 - 演算装置と記憶装置とを少なくとも備える計算機に、音声データ認識処理を実行させるためのプログラムを記録した非一時的なコンピュータ可読媒体であって、
前記プログラムは、前記演算装置に、
音響モデル及び言語モデルを用いて第1の音声を音声認識する第1の発話認識処理と、
前記音響モデル及び前記言語モデルを用いて第2の音声を音声認識する第2の発話認識処理と、
前記第1の音声の第1の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析処理と、
前記第2の音声の第2の認識結果から前記キーフレーズを検出する検出処理と、
前記第2の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより、一時音響モデルを生成する補正処理と、
前記一時音響モデルを用いて前記第2の音声を音声認識する第3の発話認識処理と、
を実行させる、ことを特徴とする非一時的なコンピュータ可読媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013178542A JP2015049254A (ja) | 2013-08-29 | 2013-08-29 | 音声データ認識システム及び音声データ認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013178542A JP2015049254A (ja) | 2013-08-29 | 2013-08-29 | 音声データ認識システム及び音声データ認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015049254A true JP2015049254A (ja) | 2015-03-16 |
Family
ID=52699361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013178542A Pending JP2015049254A (ja) | 2013-08-29 | 2013-08-29 | 音声データ認識システム及び音声データ認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015049254A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016191739A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 発音誤り検出装置、方法およびプログラム |
CN106257583A (zh) * | 2015-06-17 | 2016-12-28 | 大众汽车有限公司 | 语音识别系统以及用于运行语音识别系统的方法 |
WO2020162229A1 (ja) * | 2019-02-06 | 2020-08-13 | 日本電信電話株式会社 | 音声認識装置、検索装置、音声認識方法、検索方法およびプログラム |
CN111681647A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
KR102267276B1 (ko) * | 2020-03-06 | 2021-06-21 | 주식회사 예스피치 | 학습데이터 확장 및 후처리 정제 기능을 가지는 음성 텍스트 변환 시스템 및 방법 |
CN113643693A (zh) * | 2020-04-27 | 2021-11-12 | 声音猎手公司 | 以声音特征为条件的声学模型 |
JP7497384B2 (ja) | 2022-03-29 | 2024-06-10 | 株式会社日立製作所 | テキスト化支援装置及びテキスト化支援方法 |
JP7537770B2 (ja) | 2019-03-11 | 2024-08-21 | 株式会社RevComm | 情報処理装置 |
JP7549429B2 (ja) | 2020-03-20 | 2024-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ入力に対する音声認識及び訓練 |
US12125482B2 (en) | 2019-11-22 | 2024-10-22 | Intel Corporation | Adaptively recognizing speech using key phrases |
-
2013
- 2013-08-29 JP JP2013178542A patent/JP2015049254A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016191739A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 発音誤り検出装置、方法およびプログラム |
CN106257583A (zh) * | 2015-06-17 | 2016-12-28 | 大众汽车有限公司 | 语音识别系统以及用于运行语音识别系统的方法 |
CN106257583B (zh) * | 2015-06-17 | 2020-03-10 | 大众汽车有限公司 | 语音识别系统以及用于运行语音识别系统的方法 |
JP7177348B2 (ja) | 2019-02-06 | 2022-11-24 | 日本電信電話株式会社 | 音声認識装置、音声認識方法およびプログラム |
JP2020126185A (ja) * | 2019-02-06 | 2020-08-20 | 日本電信電話株式会社 | 音声認識装置、検索装置、音声認識方法、検索方法およびプログラム |
WO2020162229A1 (ja) * | 2019-02-06 | 2020-08-13 | 日本電信電話株式会社 | 音声認識装置、検索装置、音声認識方法、検索方法およびプログラム |
JP7537770B2 (ja) | 2019-03-11 | 2024-08-21 | 株式会社RevComm | 情報処理装置 |
US12125482B2 (en) | 2019-11-22 | 2024-10-22 | Intel Corporation | Adaptively recognizing speech using key phrases |
KR102267276B1 (ko) * | 2020-03-06 | 2021-06-21 | 주식회사 예스피치 | 학습데이터 확장 및 후처리 정제 기능을 가지는 음성 텍스트 변환 시스템 및 방법 |
JP7549429B2 (ja) | 2020-03-20 | 2024-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ入力に対する音声認識及び訓練 |
CN113643693A (zh) * | 2020-04-27 | 2021-11-12 | 声音猎手公司 | 以声音特征为条件的声学模型 |
US11741943B2 (en) | 2020-04-27 | 2023-08-29 | SoundHound, Inc | Method and system for acoustic model conditioning on non-phoneme information features |
CN113643693B (zh) * | 2020-04-27 | 2024-02-09 | 声音猎手公司 | 以声音特征为条件的声学模型 |
CN111681647A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
CN111681647B (zh) * | 2020-06-10 | 2023-09-05 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
JP7497384B2 (ja) | 2022-03-29 | 2024-06-10 | 株式会社日立製作所 | テキスト化支援装置及びテキスト化支援方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bain et al. | Whisperx: Time-accurate speech transcription of long-form audio | |
US9520124B2 (en) | Discriminative training of document transcription system | |
US8972243B1 (en) | Parse information encoding in a finite state transducer | |
JP2015049254A (ja) | 音声データ認識システム及び音声データ認識方法 | |
US9552809B2 (en) | Document transcription system training | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CA2680304C (en) | Decoding-time prediction of non-verbalized tokens | |
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US8346553B2 (en) | Speech recognition system and method for speech recognition | |
US9495955B1 (en) | Acoustic model training | |
US20150058006A1 (en) | Phonetic alignment for user-agent dialogue recognition | |
US8793132B2 (en) | Method for segmenting utterances by using partner's response | |
TW201517018A (zh) | 語音辨識方法及其電子裝置 | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
KR101283271B1 (ko) | 어학 학습 장치 및 어학 학습 방법 | |
JP6580281B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
JP3735209B2 (ja) | 話者認識装置及び方法 | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
Tarján et al. | Improved recognition of Hungarian call center conversations | |
Rahim et al. | Robust numeric recognition in spoken language dialogue | |
WO2006034152A2 (en) | Discriminative training of document transcription system |