JP2015049254A

JP2015049254A - 音声データ認識システム及び音声データ認識方法

Info

Publication number: JP2015049254A
Application number: JP2013178542A
Authority: JP
Inventors: 龍武田; Ryu Takeda
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2015-03-16

Abstract

【課題】本発明の目的は、カスタマー発話に対する高精度な音声認識技術を提供することにある。【解決手段】音声認識システムは、音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識部と、前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識部と、前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析部と、前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出部と、前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正部と、前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識部と、を備える。【選択図】図１

Description

本発明は、音声データの認識技術に関する。

コールセンターでは一日に何千時間もの音声通話データ、具体的には、オペレータの音声とカスタマーの音声がペアで録音されていることが多い。これらは、オペレータの教育や受け付け内容の確認のために録音されており、必要に応じて音声データベースが利用される。特に、カスタマーの音声には、製品名や製品の欠陥、クレームといった情報が含まれており、これらを効率よく聴取して書き起こし、レポートにまとめたり、通話を要約したりする必要がある。基本的には音声データを始めから終わりまで聴取する必要があるので、レポートのまとめや通話の要約には非常に時間がかかるという問題があった。特に、一日に何千時間も録音される音声データをすべて人手で聴取することはできない。

そこで、音声データを自動的にテキスト情報に変換する技術が開発されている。代表的な方法の一つである統計情報に基づく方法では、音響モデルと言語モデルと呼ばれるデータベースに基づいて音声認識を行う。一般的に、音響モデルは、音素とその音声特徴量の確率分布を保存したものであり、言語モデルは、発話される可能性のあるテキストパターンとその生成確率を保存したものである。

音声認識を行う場合、まず、入力音声データが音声特徴量に変換される。次に、言語モデルを用いて、発話される可能性の高い順にテキストパターンを生成する。さらに、音響モデルを用いて、そのテキストパターンに対応する音素列の典型的特徴量列と入力音声データの特徴量列との距離を計算する。テキストパターンの生成確率と特徴量列の距離に基づいてスコアが計算され、スコアの高いテキストパターンを認識結果とする。

本技術分野の背景技術として、特許文献１がある。特許文献１には「本発明の目的は、大量のデータを学習する必要がなく、評価用データを作成せずに、多くの事前準備や計算を行うことなく、言語モデルを会話に適応させ、認識率の高い音声認識を行うことである。上記の課題を解決するために、本発明に係る音声認識技術は、会話音声を認識し、音声信号から特徴量を抽出し、所定の話者Ａの発話内容を含む音声信号から得られる特徴量と音響モデルと適応前の言語モデルを用いて音声認識を行い、認識結果Ａ’を求め、認識結果Ａ’のみと適応前の言語モデルを用いて、適応後の言語モデルを求め、所定の話者以外の話者Ｂの発話内容を含む音声信号から得られる特徴量と音響モデルと適応後の言語モデルを用いて音声認識を行い、認識結果Ｂ’を求める。」と記載されている。

特開２０１１−１０７３１４号公報

特許文献１の従来技術では、オペレータ発話の音声認識結果を利用して言語モデルを適応し、カスタマー音声を認識することになる。これは、言語モデルにおける特定の単語を含むテキストパターンの生成確率を上昇させることで、カスタマー発話の認識率を向上させる。ここで、特定の単語とは、オペレータ発話の認識結果に含まれる単語とその共起語などが含まれる。一方、カスタマー通話は通常不特定多数の話者を対象とするため、音声の個人性や発話環境による非言語的なばらつきが多様であり、音響モデルのミスマッチが認識率低下の要因となっている。そのため、この方法には、音響モデルにおけるミスマッチが大きい場合では効果が小さい、特定の単語を含む発話以外には効果がない、などの理由から誤認識率が高いという課題があった。

本発明の目的は、カスタマー発話に対する高精度な音声認識技術を提供することにある。

上記課題を解決する為に、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、以下の音声認識システムが提供される。当該音声認識システムは、音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識部と、前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識部と、前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析部と、前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出部と、前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正部と、前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識部と、を備える。

また、他の例によれば、演算装置と記憶装置とを少なくとも備える一つ以上の計算機を用いた音声データ認識方法が提供される。当該音声データ認識方法は、前記計算機によって、音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識ステップと、前記計算機によって、前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識ステップと、前記計算機によって、前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析ステップと、前記計算機によって、前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出ステップと、前記計算機によって、前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正ステップと、前記計算機によって、前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識ステップと、を含む。

また、他の例によれば、演算装置と記憶装置とを少なくとも備える計算機に、音声データ認識処理を実行させるためのプログラムを記録した非一時的なコンピュータ可読媒体が提供される。前記プログラムは、前記演算装置に、音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識処理と、前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識処理と、前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析処理と、前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出処理と、前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより、一時音響モデルを生成する補正処理と、前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識処理と、を実行させる。

本発明によれば、認識しやすいオペレータの音声からあるキーフレーズを特定し、そのキーフレーズをカスタマーの音声で検出する。カスタマー音声のキーフレーズの音素の特徴量からカスタマー用の一時音響モデルを生成することにより、カスタマーの個人性や発話環境などによる認識誤差を低減する。これにより、カスタマー発話に対する高精度な音声認識が可能となる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。

第１実施例の音声データ認識装置の構成を示すブロック図である。第１実施例の発話パターンデータベースの日本語の例を示す図である。第１実施例の発話パターンデータベースの英語の例を示す図である。第１実施例の発話パターンデータベースのパラメータを説明する図である。発話区間を説明する図である。第１実施例における音声認識情報に含まれる情報であり、日本語を認識した場合の例である。第１実施例における音声認識情報に含まれる情報であり、英語を認識した場合の例である。キーフレーズ解析部の処理のフローチャートの一例である。キーフレーズ情報の一例である。キーフレーズ検出部の処理のフローチャートの一例である。信頼度の再計算法の式の一例である。音響モデル補正部において一時音響モデルを生成する処理を説明する図である。音声認識結果の表示形式の一例である。第２実施例の音声データ認識システムの構成を示すブロック図である。第３実施例における音声データ認識装置の構成を示すブロック図である。第３実施例におけるパターン入力部用のインターフェースの一例である。

以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。なお、本実施例の形態を説明するための全図において同一機構を有するものは原則として同一の符号を付すようにし、その繰り返しの説明は可能な限り省略するようにしている。

本発明の音声データ認識装置は、オペレータ発話に含まれる所定のパターンキーワードを抽出し、パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する。次に、音声データ認識装置は、カスタマー発話からそのキーフレーズを検出し、そのキーフレーズの検出区間の音声認識情報とキーフレーズ情報に基づいて音響モデルを適応する。オペレータとカスタマーの会話にはパターンがあるが、音声データ認識装置では、特定のパターンに対応してあるキーフレーズがカスタマー発話に含まれているという特徴を利用し、音響モデルをカスタマー発話に適応する。以下で具体的な実施例について説明する。

［第１実施例］
図１は、第１実施例の音声データ認識装置１の構成を示すブロック図である。音声データ認識装置１は、例えば、パーソナルコンピュータやワークステーションなどの情報処理装置によって構成される。音声データ認識装置１は、中央演算処理装置と、補助記憶装置と、主記憶装置と、表示装置と、入力装置とを備えている。例えば、中央演算処理装置は、ＣＰＵ（Central Processing Unit）などのプロセッサ（又は演算装置ともいう）で構成されている。また、例えば、補助記憶装置はハードディスクであり、主記憶装置はメモリであり、表示装置はディスプレイであり、入力装置はキーボード及びポインティングデバイス（マウスなど）である。以下で説明する各種データは、情報処理装置の記憶装置に格納される。

また、以後の説明では、本実施例において扱われる情報について「テーブル」構造を用いて説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために、以下では各種データを単に「情報」と呼ぶことがある。

音声データ認識装置１は、学習用ラベル付き音声データ１０１と、音響モデル・言語モデル学習部１０３と、音響モデル１０５と、言語モデル１０７と、オペレータラベル付き音声データ１０９と、モデル適応部１１１と、マニュアル・書き起こしテキストデータ１１３と、発話パターンデータベース構築部１１５と、発話パターンデータベース１１７と、オペレータ音声データ１１９と、オペレータ発話認識部１２１と、カスタマー音声データ１２３と、カスタマー発話認識部１２５と、キーフレーズ解析部１２７と、キーフレーズ検出部１２９と、音響モデル補正部１３０と、発話認識部１３１と、認識結果出力部１３３とを備える。

学習用ラベル付き音声データ１０１は、音声波形とその発話内容を書き起こしたテキストなどを格納する。音声データ１０１は、書き起こしたテキストが付属していれば、ＴＶから抽出した音声トラック、読み上げ音声コーパス、通常の会話を録音したものでも良い。もちろん、音声データ１０１には、発話者を識別するＩＤ、雑音の有無などのラベルも付属されていても良い。

音響モデル・言語モデル学習部１０３は、学習用ラベル付き音声データ１０１を用いて、音響モデル１０５及び言語モデル１０７のそれぞれの統計モデルのパラメータを出力する。音響モデル１０５は、音声特徴量を表現した統計的モデルのパラメータを格納したものであり、音素とその音声特徴量の確率分布を保存したものである。言語モデル１０７は、言語特徴を表現した統計的モデルのパラメータを格納したものであり、発話される可能性のあるテキストパターンとそのテキストパターンの生成確率を保存したものである。

オペレータラベル付き音声データ１０９は、オペレータの音声波形とその発話内容を書き起こしたテキストデータのペアを含む。これらのデータは、モデル適応部１１１において、音響モデル１０５と言語モデル１０７をオペレータ音声に適応するために利用される。モデル適応部１１１は、オペレータ音声に適応した音響モデル１０５と言語モデル１０７を出力する。

マニュアル・書き起こしテキストデータ１１３は、電話対応のマニュアル、カスタマーとオペレータの会話を書き起こしたテキストデータを含む。書き起こしテキストデータには、発話内容の文章のほかに、それぞれの文字に様々なラベル、例えば、品詞情報や感情タグなどを含んでいても良い。

発話パターンデータベース構築部１１５は、マニュアル・書き起こしテキストデータ１１３を用いて、発話パターンデータベース１１７を出力する。発話パターンデータベース１１７は、オペレータ発話に含まれうるパターンキーワードと、カスタマー発話から抽出すべきキーフレーズを決定するための情報とを含む。発話パターンデータベース１１７では、パターンキーワードと、そのパターンキーワードの時間的周辺に位置するキーフレーズの情報とが関連付けて格納されている。

オペレータ音声データ１１９とカスタマー音声データ１２３は、認識対象となる音声データであり、電話回線の録音音声などである。これらの音声データは、種類別に複数のファイルに記録されてもよいし、複数チャンネルが記録されていてもよいし、発話者の識別ＩＤなどのメタデータ情報が付与されていても良い。

オペレータ発話認識部１２１は、モデル適応部１１１が出力したオペレータ音声に適応した音響モデル１０５と言語モデル１０７を用いて、オペレータ音声データ１１９の認識結果を出力する。この出力結果には、単語テキスト、発話時間、音素テキスト、認識信頼度などを含んでいてもよく、感情認識結果などの非言語情報を含んでいてもよい。なお、音響モデルと言語モデルを用いた音声データの認識処理は、広く知られた技術であるので説明を省略する。ここで、認識信頼度は、オペレータ音声データ１１９の認識結果に対する信頼性を示す尺度（数値等）である。カスタマー発話認識部１２５は、音響モデル１０５と言語モデル１０７を用いて、カスタマー音声データ１２３の認識結果を出力する。認識結果は、オペレータ発話認識部１２１が出力する情報と同じである。

キーフレーズ解析部１２７は、発話パターンデータベース１１７とオペレータ音声の認識結果を用いて、カスタマー発話から検出すべきキーフレーズと補助情報とを出力する。ここで、補助情報とは、図２Ａに示すキークラス２０７、サブキーフレーズ２０９、関連キーフレーズ２１１、パラメータ２１３等の情報を含む。また、補助情報には、オペレータの発話においてパターンキーワードあるいはキーフレーズを検出した際の一致度合を示す検出信頼度の情報も含んでも良い。

キーフレーズ検出部１２９は、キーフレーズ解析部１２７から得た検出すべきキーフレーズ及び補助情報と、カスタマー発話認識部１２５から出力されたカスタマー音声の認識結果を用いて、カスタマー音声データにおけるキーフレーズの出現区間情報と信頼度情報を出力する。ここで、信頼度情報とは、例えば、図７Ｂに示される式によって再計算された信頼度である。

音響モデル補正部１３０は、キーフレーズ検出部１２９が出力したキーフレーズの出現区間情報と信頼度情報に基づいて、音響モデル１０５をカスタマー音声に適応させる。具体的には、音響モデル補正部１３０は、キーフレーズ検出部１２９が出力したキーフレーズの出現区間情報と信頼度情報に基づいて、音響モデル１０５をカスタマー音声に対応させて補正し、一時音響モデルを生成する。

発話認識部１３１は、音響モデル補正部１３０で生成された一時音響モデルを用いて、カスタマー音声全体に対して再度音声認識を行い、少なくとも、認識した単語テキストを出力する。認識結果出力部１３３は、カスタマーの音声認識結果及びオペレータの音声認識結果の単語テキスト情報を出力デバイスに送信する。ここまでが、音声データ認識装置における認識処理の部分である。

なお、本実施例では、音声データ認識装置１を単体の装置として説明したが、端末（ブラウザ）と計算機（サーバ）を備えたシステムによって構成してもよい。この場合、例えば、端末（ブラウザ）は、オペレータ音声データ１１９とカスタマー音声データ１２３のアップロードおよび認識結果出力部１３３の処理を実行し、計算機（サーバ）は、その他の各処理部の処理を実行する。

また、本実施例では、学習用ラベル付き音声データ１０１、音響モデル１０５、言語モデル１０７、オペレータラベル付き音声データ１０９、オペレータ音声データ１１９、カスタマー音声データ１２３、発話パターンデータベース１１７は同一の装置内で保存及び生成されるものとして説明したが、これらの前処理を実行する計算機と、オペレータ発話認識部１２１、カスタマー発話認識部１２５、キーフレーズ解析部１２７、キーフレーズ検出部１２９、音響モデル補正部１３０、発話認識部１３１、までを実行する計算機を分けて構成してもよい。例えば、オペレータ音声データ１１９、カスタマー音声データ１２３を外部のストレージに保存し、音響モデル１０５、言語モデル１０７、発話パターンデータベース１１７を事前に別の計算機で作成しておき、認識処理を実行する計算機へ複製して用いることができる。

以下、各処理部によって実行される処理について説明する。本実施例の音声データ認識装置１では、まず、音声データを認識可能にするための処理が行われる。そのために、音響モデル１０５及び言語モデル１０７を構築する必要がある。

音響モデル・言語モデル学習部１０３は、学習用ラベル付き音声データ１０１を用いて、音響モデル及び言語モデルのパラメータを推定する処理を行う。学習用ラベル付き音声データ１０１は、不特定話者の多数の音声データとその書き起こしテキストデータを少なくとも含んでいる。

一般的に、音声データを認識する問題は、事後確率最大化探索問題として扱われる。この事後確率最大化探索の枠組みでは、大量の学習データから学習された音響モデル及び言語モデルを用いて、入力音声データにもっとも適合する単語列やテキストパターンが求められる。この２つのモデルに関して、例えば、音響モデルには、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）を採用することができ、言語モデルには、Ｎ−Ｇｒａｍを採用することができる。音響モデルと言語モデルのパラメータを推定する方法については、広く知られた技術であるので説明を省略する。

なお、ラベル付き音声データに、感情や意図といったその他のラベルが付与されている場合、必要があれば、同様の枠組みで入力音声データから感情や意図のラベルを出力することも可能である。複数の音声認識結果をＮ−ベスト形式やネットワーク形式で出力してもよい。これらの付加情報は、後段で説明するキーフレーズ解析部１２７で利用できる。

次に、オペレータ発話を高精度に認識するために、音響モデル１０５及び言語モデル１０７をオペレータ音声に適応する処理について説明する。オペレータラベル付き音声データ１０９は、特定のオペレータに関する音声データと、その書き起こしテキストデータとを少なくとも含んでいる。ここで、特定のオペレータに関する音声データとは、個人の音声データでもよいし、ある特徴でクラスタリングされた音声データでもよい。クラスタリングされた音声データとは、例えば、同じ性別のオペレータのデータなどである。

まず、モデル適応部１１１は、音声データと書き起こしテキストを用いて、音響モデルの適応を行う。最大事後確率法（ＭＡＰ：Maximum A Posteriori）や最尤線形回帰法（ＭＬＬＲ：Maximum Likelihood Linear Regression）といった手段により、音響モデルのパラメータを更新できる。

次に、言語モデルに関しては、例えば、オペレータラベル付き音声データ１０９に含まれるテキスト情報からＮ−ｇｒａｍ確率を算出し、言語モデル１０７のＮ−ｇｒａｍ確率の重み付き和を適応後のＮ−ｇｒａｍ確率とする手段がある。これらの適応技術の詳細に関しては、広く知られた技術であるので説明を省略する。以上により、オペレータ音声データ１１９とカスタマー音声データ１２３を音声認識する準備が整った。

次に、キーフレーズ解析部１２７に必要な発話パターンデータベース１１７と、その構築に必要な発話パターンデータベース構築部１１５の処理について説明する。

図２Ａ及び図２Ｂは、本実施例の発話パターンデータベース１１７を示す図である。図２Ａは、発話パターンデータベース１１７の日本語の例を示し、図２Ｂは、発話パターンデータベース１１７の英語の例を示す。発話パターンデータベース１１７は、パターンキーワード２０１と、Ｋ−ＩＤ２０３と、キーフレーズパターン２０５と、キークラス２０７と、サブキーフレーズ２０９と、関連キーフレーズ２１１と、パラメータ２１３とを構成項目として含んでいる。

パターンキーワード２０１は、オペレータ発話の中で着目すべきキーワードである。また、音響モデルで用いている音素を用いて、これらのキーワードの読みも格納する。例えば、パターンキーワード２０１Ａの場合、読みは「d e s u n e」とすることもできる。

Ｋ−ＩＤ２０３は、パターンキーワードに対するキーフレーズパターン２０５毎のＩＤである。キーフレーズパターン２０５は、パターンキーワード２０１が登場する文章のパターンまたはその表現を列挙したものである。このパターンは、図２Ａのような表現でもよいし、オートマトンや正規文法などで記述されていてもよい。

キーフレーズパターン２０５において、オペレータ及びカスタマー発話において検出すべき主たるフレーズを「キーフレーズ」、付加的にオペレータ及びカスタマーが発話する可能性のあるフレーズを「サブキーフレーズ」としている。サブキーフレーズは、キーフレーズの時間的に周辺に位置する単語あるいはフレーズなどの情報である。例えば、「電話番号は０９０・・・２３９１ですね？」という確認を行う発話の場合、「電話番号」という部分がサブキーフレーズに該当し、実際の電話番号である「０９０・・・２３９１」という部分がキーフレーズに該当する。サブキーフレーズを用いることによって、キーフレーズの種類を特定することができる。また、サブキーフレーズは、カスタマー音声から検出すべきキーフレーズとして利用され得る。

キークラス２０７は、キーフレーズパターン２０５における「キーフレーズ」が取り得る種類を記述する。キークラス２０７としては、「製品名」、「型番」、「動作」、「部品」、「電話番号」などといった種類がある。例えば、日本語の「よろしいですね（y o r o s i i d e s u n e）」という発話の場合、「よろしい（y o r o s i i）」という部分と、「ですね（d e s u n e）」という部分とに分けられるが、「よろしい（y o r o s i i）」は、キークラス２０７であげられている「製品名」や「型番」、「動作」、「部品」、「電話番号」に該当しない。したがって、キークラス２０７の情報は、日本語の「よろしいですね（y o r o s i i d e s u n e）」という発話がキーフレーズパターン２０５に該当しないと判定するために利用することができる。

サブキーフレーズ２０９は、キーフレーズパターン２０５における「サブキーフレーズ」となりうる単語やフレーズとそれらの読みを列挙したものである。関連キーフレーズ２１１は、キーフレーズやサブキーフレーズと共起するキーワードとその読みを格納したものである。関連キーフレーズ２１１も、カスタマー音声から検出すべきキーフレーズとして利用され得る。

パラメータ２１３は、キーフレーズ解析部１２７及びキーフレーズ検出部１２９で用いられる情報である。図２Ｃは、発話パターンデータベース１１７のパラメータを説明する図である。パラメータ２１３は、例えば、キーフレーズがオペレータ発話からどれだけの範囲内に出現するかという情報を含む。図２Ｃの例では、オペレータ発話２３２が、キーフレーズパターンに一致する。キーフレーズパターンに一致するオペレータ発話２３２の周辺の発話には、カスタマーがキーフレーズを発話している可能性が高い。したがって、パターンキーワードが出現したオペレータ発話２３２を基準として所定の範囲内で、カスタマーの発話からキーフレーズを検出する。

例えば、キーフレーズがオペレータ発話２３２からどれだけの範囲に出現するかというパラメータとして、「−２〜０発話」というパラメータを定義してもよい。図２Ｃの例では、オペレータ発話２３２の１つ前の発話２４１が「−１発話」となり、オペレータ発話２３２の２つ前の発話２３１が「−２発話」となる。発話単位で定義されたパラメータは一例であり、これに限定されない。キーフレーズパターンに一致するオペレータ発話から一定の秒数の範囲をパラメータとして定義してもよい。図２Ａ及び図２Ｂに示すように、キーフレーズパターンに一致するオペレータ発話を基準として、「−３０〜０秒」という時間を定義してもよい。

また、パラメータ２１３は、例えば、信頼度計算におけるキーフレーズが検出された発話時刻に対する距離ペナルティ情報（スコアなど）などを少なくとも含む。ここで、距離ペナルティ情報は、後段で説明する検出信頼度等の計算において、キーフレーズパターンに一致するオペレータ発話から時間的に離れるほど検出信頼度のスコアを小さくするような補正値である。キーフレーズパターンに一致するオペレータ発話から時間的に近くでキーフレーズが検出されるほど、その信頼度は高いと考えられるためである。例えば、距離ペナルティ１０の場合、１発話単位毎にスコアから１０減らすなどの処理を行う。なお、この距離ペナルティは一例であり、他の補正値でもよい。また、距離ペナルティは、発話単位で計算してもよいし、所定の時間毎に計算するようにしてもよい。

また、パターンキーワードのほかに非言語情報をオペレータ発話に追加したり、カスタマー発話においてもキーフレーズが発話される場合のカスタマーの非言語情報を追加したりすることも考えられる。ここで、非言語情報とは、パターン感情、パターン音高、国籍、性別、音量変化、無発話時間等の情報である。キーフレーズがカスタマー内のどこで発話されたかを特定する場合において、この非言語情報を用いて、その信頼度をさらに向上させることが可能となる。

図２Ｂは、発話パターンデータベース１１７の英語の例を示す。図２Ｂでは、確認用のフレーズ「is that correct?」がパターンキーワード２０１として定義されている。例えば、カスタマーが、製品名、型番、動作、部品、電話番号などといったキーフレーズを言った後にオペレータが確認するためのパターンを、キーフレーズパターン２０５として定義してもよい。

次に、発話パターンデータベース構築部１１５の処理について説明する。発話パターンデータベース構築部１１５は、マニュアル・書き起こしテキストデータ１１３を用いて発話パターンデータベース１１７を構築する。まず、マニュアルデータに関しては、形態素解析、構文解析、対話構造分析などの自然言語処理を用いて、キーフレーズとなりうる単語やフレーズ、キーフレーズパターンなどを抽出する。マニュアルデータに「復唱」や「クレーム対応」といった項目が付与されている場合は、確実にそのような発言があると考えてよく、その項目に含まれるキーフレーズパターンに高い重要度を付与し、パラメータに設定することも考えられる。

また、発話パターンデータベース構築部１１５は、書き起こしテキストに含まれている、オペレータ及びカスタマー会話の書き起こしテキスト、単語とキークラスの種類との対応付けデータなどを用いて、サブキーフレーズとなりうる単語、関連キーフレーズ、及びパラメータを抽出する。必要があれば、発話パターンデータベース構築部１１５は、人名辞書、数字辞書、住所辞書といった各種の専門的なデータベースを併用して、発話パターンデータベース１１７を構築してもよい。

また、発話パターンデータベース構築部１１５は、マニュアル・書き起こしテキストデータ１１３を用いて、パラメータを自動的に抽出することができる。パラメータに関しては、例えば、オペレータ発話中にキーフレーズが出現した場合において、その周辺のカスタマー発話中のキーフレーズ、サブキーフレーズ、関連キーフレーズが出現した回数をカウントする。そして、いくつかの発話の範囲（キーフレーズが出現したオペレータ発話を基準とした前後範囲）毎に上記回数をカウントし、統計モデルを用いることにより、パラメータを推定することができる。

具体的には、周辺発話の距離は、カスタマー発話でキーフレーズが出現した相対発話位置の上限及び下限をとればよい。また、距離ペナルティ情報は、キーフレーズの出現発話位置をカウントし、その頻度の線形回帰係数を用いることもできる。ガウス分布やラプラス分布といった、より柔軟な統計モデルを距離ペナルティ情報（スコア）として用いる場合は、そのパラメータをデータから最尤推定することによって求めることができる。

発話パターンデータベース１１７は、マニュアル・書き起こしテキストデータ１１３が大量にある場合、さらに細分化して構築することも可能である。例えば、オペレータ毎にこのデータベースを構築する、カスタマーの性別情報、国籍情報、地域情報、年齢情報毎にデータベースを構築する、といったことを行えば、オペレータの癖やカスタマーの男女の傾向などを反映可能である。以上により、事前に準備すべき発話パターンデータベース１１７の構築が完了する。

次に、オペレータ音声データ１１９とカスタマー音声データ１２３の音声認識処理に関して説明する。オペレータ発話認識部１２１とカスタマー発話認識部１２５の処理は、用いる音響モデルと言語モデルが異なることを除けば同じ処理であるため、まとめて説明を行う。

まず、各音声データを発話毎に分割するため、例えば、音声パワーが所定の閾値θｐ以下である時間が所定の閾値θｔ以上連続した場合、その位置で音声データを分割する。図３は、分割された音声データを示す。それぞれの音声区間には、分割された区間の開始時刻３０１、終了時刻の情報３０３が付与される。なお、音声データを分割する方法には、音声パワーで区切る方法の他に、例えば、ゼロ交差数を用いる方法、ＧＭＭ（Gaussian Mixture Model）を用いる方法、音声認識技術を用いる方法など、さまざまな方法が広く知られている。本実施例では、これらのどの方法を用いてもよい。また、音声認識を行う方法は、公知の技術を組み合わせることで可能であるため、詳細は省略する。

音声認識を行った結果、その認識情報として、単語認識結果は、単語テキスト、品詞列、単語発話時刻列、及び、単語信頼度列を含むことができ、また、音素認識結果は、音素テキスト、音素発話時刻列、及び、音素信頼度列を含むことができる。発話パターンデータベース１１７に、音量変化情報、音高変化情報、感情認識、国籍識別、性別識別といった非言語情報が含まれている場合は、オペレータ発話認識部１２１及びカスタマー発話認識部１２５は、それらの認識処理及び識別処理を行ってもよい。

図４Ａ及び図４Ｂは、本実施例における音声認識情報に含まれる情報であり、オペレータ発話認識部１２１及びカスタマー発話認識部１２５からの出力結果の一例を示す。図４Ａは日本語の認識結果の例であり、図４Ｂは英語の認識結果の例である。発話番号４０１は、オペレータとカスタマーの会話が開始してからの発話の順番を示すものである。発話区間４０３は、オペレータとカスタマーの会話が開始した時点を０秒として、各発話の開始と終了の時刻を示すものである。単語認識情報４０５は、認識された結果得られる情報の種類を示す。単語認識結果４０７は、単語テキスト、品詞列、その単語が発話されたときの時刻、及び、単語信頼度列を含む。音素認識結果４０９は、音素テキスト、音素発話時刻列、及び、音素信頼度列を含む。

次に、キーフレーズ解析部１２７の処理を説明する。キーフレーズ解析部１２７は、オペレータの音声認識情報と発話パターンデータベース１１７を用いて、オペレータ発話から検出すべきキーフレーズを取得する。図５は、本実施例におけるキーフレーズ解析部１２７の処理のフローチャートの一例である。

まず、発話パターンデータベース１１７のパターンキーワード２０１を一つずつチェックしていく。未処理のパターンキーワード２０１がない場合は処理を終了し、未処理のパターンキーワード２０１がある場合は、ステップ５０１に進む。

次に、オペレータの発話からパターンキーワード２０１の出現箇所を検出する処理を実行する（ステップ５０１）。このパターンキーワード検出処理は、例えば、パターンキーワード２０１の単語情報を用いて、オペレータの音声認識情報における単語認識結果４０７の単語テキストにパターンキーワード２０１の単語が含まれているかどうかを、オペレータの全ての発話においてチェックすればよい。また、認識誤りを配慮する場合は、パターンキーワード２０１の読み表記と音素認識結果のテキストデータを用いて、例えば、端点フリーのビタビアルゴリズムまたはＤＰマッチングといったアルゴリズムによって、パターンキーワード２０１を検出できる。

パターンキーワード２０１の出現箇所の検出処理において、検出信頼度をスコアとして求めてもよい。ここで、検出信頼度は、オペレータの発話におけるパターンキーワード２０１の一致度合を示す値である。なお、音声認識処理における単語信頼度あるいは音素信頼度などを組み合わせて検出信頼度を求めてもよい。この場合、検出信頼度をスコアとして保存して、後のキーフレーズパターン検出や信頼度計算等に反映させてもよい。オペレータの発話とパターンキーワード２０１とのマッチングにより、パターンキーワード２０１が出現する開始位置と終了位置も獲得される。本実施例では、テキスト情報を用いてパターンキーワード２０１の検出を行っているが、公知術を用いれば、音声データの特徴量情報や波形情報を用いて検出を行うことも可能である。

次に、パターンキーワード２０１が検出された発話の周辺、あるいは、スコアが付与されているならばパターンキーワード２０１の上位のスコアの周辺発話に対して、キーフレーズパターン２０５を検出する処理を行う（ステップ５０３）。これは、発話パターンデータベース１１７のキーフレーズパターン２０５に当てはまるかどうかをチェックする。そのためには、キーフレーズパターン２０５毎にサブキーフレーズをキーフレーズパターン２０５に当てはめ、キーフレーズ部分以外のパターンを検出する必要がある。この検出には、先ほどと同様に、単語認識結果や音素認識結果のＤＰマッチングなどで実現できる。この時、キーフレーズに該当する区間の時間長などを制約条件として検出することもできる。これは、キーフレーズ以外のパターンが一定の時間以上離れて検出された場合、その候補を排除するために利用できる。

キーフレーズパターン２０５が検出された場合、キーフレーズに該当する部分の単語または音素認識結果を抽出する（ステップ５０５）。この時、キーフレーズ毎に、キーフレーズの読み、クラス、パラメータ、オペレータ発話における出現時刻といった情報を付加して、キーフレーズ情報として出力する。ＤＰマッチングにより検出を行っている場合は、そのスコアなども追加して出力することができる。また、サブキーフレーズや関連キーフレーズも検出すべきキーフレーズとして、同様の情報を追加登録しておく。

ここで、キーフレーズをキーフレーズパターン２０５に基づいて動的に検出している点が重要である。例えば、「申し訳ありません」や「製品名」といったキーフレーズはあらかじめ取得することができるからといって、単純にそれらキーフレーズについてカスタマー発話及びオペレータ発話の両方から検出すればよいわけではない。例えば、電話番号や製品の名前、住所などをキーフレーズとする場合、出現しうるキーフレーズを全て列挙するとその数は非常に大きいものとなる。電話番号が１１ケタの数字の場合、単純に１１ケタの数字としてカウントすると１億以上のキーフレーズを生成する必要がある。そのため、検出にかかわる処理量が膨大となり、システムのレスポンスタイムを遅延させる要因となる。また、仮に検出できたとしても、カスタマー発話とオペレータ発話で検出されたキーフレーズの対応関係を逐一確認する必要があるため、それにも処理量が必要となる。そのため、本実施例のようなキーフレーズパターン２０５を用いた解析処理によって処理量を低減することができる。

図６は、本実施例におけるキーフレーズ情報の一例を示す。この情報はキーフレーズ解析部１２７によって出力されるものである。キーフレーズ情報は、キーフレーズ６０１、クラス６０３、パラメータ６０５、ＩＤ６０７、及び、オペレータ発話における出現時刻６０９を含んでいる。キーフレーズ６０１は、キーフレーズ及びキーフレーズの読みを含む。クラス６０３は、キーフレーズ６０１に対応するキークラス（図２Ａ及び図２Ｂのキークラス２０７）を含む。パラメータ６０５は、キーフレーズ６０１に対応するパラメータ（図２Ａ及び図２Ｂのパラメータ２１３）を含む。出現時刻６０９は、キーフレーズ６０１の出現時刻を示す。ここで、パラメータ６０５は、出現時刻６０９毎に異なる値をとるようにしてもよい。例えば、パターンキーワードやキーフレーズをＤＰマッチングによって取得した場合は、検出個所毎にスコアとして検出信頼度が計算できる。

次に、キーフレーズ検出部１２９の処理を説明する。キーフレーズ検出部１２９は、カスタマー発話認識部１２５からのカスタマー音声認識情報と、キーフレーズ解析部１２７からのキーフレーズ情報を用いて、キーフレーズの出現箇所とその検出信頼度を出力する。ここでの検出信頼度は、カスタマーの発話におけるキーフレーズの一致度合を示す値である。なお、検出信頼度は、上述した距離ペナルティ情報によって補正されてもよい。図７Ａは、本実施例におけるキーフレーズ検出部１２９の処理のフローチャートの一例である。

まず、キーフレーズ解析部１２７が出力したキーフレーズ情報に登録されているキーフレーズを１つずつチェックしていく。未処理のキーフレーズがない場合は処理を終了し、未処理のキーフレーズがある場合は、ステップ７０１に進む。

次に、カスタマーの発話からキーフレーズの出現箇所を検出する処理を実行する（ステップ７０１）。キーフレーズの検出に関しては、キーフレーズ解析部１２７で行ったものと同じ処理で実現できるため、詳細は省略する。異なる点は、キーフレーズをカスタマーの発話から検索する場合に、検索対象の発話範囲を考慮する点である。キーフレーズ情報のパラメータ６０５を用いて、無関係な発話区間に対しては検出処理を行わない。

次に、検出されたキーフレーズ箇所に対して、信頼度を再計算する処理が行われる（ステップ７０３）。図７Ｂは、信頼度の再計算法の式の一例である。再計算後の補正信頼度ｒ_ａｌｌは、カスタマー音声の認識結果の認識信頼度と、カスタマー音声中のキーフレーズの検出信頼度と、オペレータ音声中のキーフレーズの検出信頼度とから計算することができる。なお、補正信頼度ｒ_ａｌｌの計算方法は、この方法に限定されず、他の計算方法でもよい。補正信頼度ｒ_ａｌｌの計算は、上述した非言語情報を用いてさらに補正されてもよい。このように、カスタマー音声中及びオペレータ音声中のキーフレーズの検出信頼度を考慮してカスタマー音声の認識結果の認識信頼度を補正することによって、より信頼性の高い信頼度を得ることができる。

ｒ_{ｒｅｃｏｇ}は、カスタマー音声の認識結果の認識信頼度である。例えば、ｒ_{ｒｅｃｏｇ}は、カスタマーの発話の所定の発話における単語信頼度あるいは音素信頼度の平均、最大値などである。ここで、所定の発話とは、例えば、キーフレーズを含む発話である。ｒ_{ｒｅｃｏｇ}は、これに限定されず、別の方法で求められてもよい。

Ｗ_{ｋｅｙｗｏｒｄ}及びｒ_{ｋｅｙｗｏｒｄ}は、それぞれ、カスタマー音声中のキーフレーズの検出信頼度と重みである。Ｗ_{ｐｅｎａｌｔｙ}及びｒ_{ｐｅｎａｌｔｙ}は、オペレータ音声中のキーフレーズの検出信頼度と重みである。また、例えば、ｒ_{ｋｅｙｗｏｒｄ}は音素列に対するＤＰマッチングスコアを採用してもよい。また、ｒ_{ｐｅｎａｌｔｙ}は、キーフレーズの出現位置と距離ペナルティ情報から計算した値、あるいは、オペレータ発話からのキーフレーズ抽出時において単語信頼度あるいは音素信頼度の平均、あるいは、それらの信頼度の重み付けた値によって計算してもよい。

また、ｒ_{ｐｅｎａｌｔｙ}の値は、感情や音量、国籍、性別などの非言語情報によって補正してもよい。各種重みに関しては、あらかじめ定めた値を用いることも可能であり、また、事前にデータからパターンの統計分析を行い、分散などの値として得ることも可能である。これらの値は、音声特徴量のフレーム毎に計算される。これは、音声認識処理における単語信頼度、音素信頼度、及びマッチングスコアのそれぞれの対応する時間幅（フレーム）が異なるためである。以上により、キーフレーズ毎に出現開始及び終了位置と、その区間内の信頼度を取得できる。

次に、音響モデル補正部１３０の処理を説明する。音響モデル補正部１３０は、カスタマー音声のキーフレーズの音素の特徴量を用いて音響モデル１０５を補正することにより一時音響モデルを生成する。本実施例では、音響モデル補正部１３０は、キーフレーズ毎の出現区間より得たキーフレーズの音素の特徴量とその区間内の信頼度を用いて音響モデル１０５を補正することにより、一時音響モデルを生成する。これにより、音響モデル１０５をカスタマー音声に適応させる。このカスタマー音声への音響モデルの適応に関しては、公知の技術を組み合わせることで可能であるため、詳細は省略する。

図８は、音響モデル補正部１３０における一時音響モデルを生成する処理を説明する図である。カスタマー音声データ１２３の波形データ８０１から、キーフレーズの出現区間に対応する波形を切り出し、その波形データの認識処理からキーフレーズに対応する音声認識情報（音素特徴量列８０３）を取得する。なお、キーフレーズに対応する音声認識情報は、カスタマー発話認識部１２５の音声認識情報を取得してもよい。そして、音素特徴量列及び信頼度を用いて音響モデル８０５Ａを一時音響モデル８０５Ｂへ補正する。ここで、音響モデル８０５Ａは、予め作成されている音響モデル１０５であり、一時音響モデル８０５Ｂは、カスタマー音声に適応させるように音響モデル１０５を補正したものである。

次に、発話認識部１３１は、音響モデル補正部１３０で生成された一時音響モデルを用いて、カスタマー音声データ１２３に対して再び音声認識処理を実行する。発話認識部１３１における認識結果は、少なくとも単語テキスト情報を含んでいる。必要があれば、認識結果は、オペレータ発話、カスタマー発話のラベル、及び、発話区間情報などを含んでいてもよい。

最後に、認識結果出力部１３３は、発話認識部１３１による音声認識結果をディスプレイの表示形式でデータ転送を行い、ディスプレイに表示する。図９は、認識結果の表示形式の一例である。このインターフェースは、認識対象のオペレータ音声ファイルとカスタマー音声ファイルを指定するフィールド９０１と、音声認識結果を出力するためのフィールド９０３と、指定された音声ファイルをシステムに送信するためのボタン９０５とを備える。フィールド９０１には、入力装置を用いてオペレータ音声ファイルとカスタマー音声ファイルのパスが入力される。また、フィールド９０３には音声認識結果が表示され、操作者はその認識結果を確認することができる。

以上説明したように、第１実施例によれば、オペレータ発話に含まれる所定のキーワードを抽出し、そのキーワードの時間的周辺に位置するキーフレーズをカスタマー発話から検出し、その検出された区間の音声認識情報とキーフレーズ情報に基づいて音響モデルを補正する。補正後の音響モデル（一時音響モデル）を用いてカスタマー発話を音声認識処理することにより、カスタマー発話の音声認識精度を向上させることが可能となる。

［第２実施例］
本実施例では、音声データ認識装置を適用したシステムの例を説明する。図１０は、第１実施例の音声データ認識装置１をコールセンターシステムへ適用した場合の音声データ認識システムの概略図である。コールセンターシステムでは、音声データ認識装置１に、電話回線の通話録音装置を追加される。

音声データ認識システムは、構内電話交換機（ＰＢＸ：Private Branch eXchange）装置１００３と、通話録音装置１００４と、通話管理データ１００６及び認識音声データ１００７を保存する記憶装置１００５と、認識で用いるデータを保存した記憶装置１００８，１０１２と、ＣＰＵ１０１７及び主記憶装置（メモリ）１０１８を備える音声データ認識用の計算機１０１４とを備える。音声データ認識システムのそれぞれの構成要素は電話回線あるいはネットワークで接続され、計算機１０１４内の構成要素についてはバスで接続されている。

ＰＢＸ装置１００３は、公衆電話回線網ネットワークを通じて、顧客の電話器１００１（以下、顧客電話器という）と接続されている。また、ＰＢＸ装置１００３は、オペレータの電話器１００２と接続されている。

通話録音装置１００４は、ＣＰＵ、メモリ、及び制御プログラムを備える汎用計算機として構成されている。通話録音装置１００４は、ＰＢＸ装置１００３から顧客の発話のみによる音声信号を取得する。また、通話録音装置１００４は、オペレータが用いる電話器１００２から、オペレータの発話のみによる音声信号を取得する。オペレータの発話のみの音声信号は、別途ヘッドセットと録音デバイスを用意して、取得することも可能である。

顧客のみによる音声信号及びオペレータのみによる音声信号はＡ／Ｄ変換され、ＷＡＶ形式等のデジタルデータに変換される。なお、音声データへの変換はリアルタイム処理で行ってもよい。これらの音声データは、通話管理データ１００６とともに、認識音声データ１００７として記憶装置１００５に保存される。通話時間長、顧客話者ＩＤ、及びオペレータＩＤといった情報は、通話管理データ１００６としてＰＢＸ装置１００３等から取得することができる。

記憶装置１００８には、音声認識処理で用いるデータが保存されている。記憶装置１００８には、言語モデル１００９、音響モデル１０１０、及び発話パターンＤＢ１０１１が格納されている。また、記憶装置１０１２には学習用データ１０１３が保存されている。ここで、学習用データ１０１３は、図１の学習用ラベル付き音声データ１０１及びマニュアル・書き起こしテキストデータ１１３等に対応する。なお、言語モデル１００９、音響モデル１０１０、発話パターンＤＢ１０１１は、学習用データ１０１３を用いて、別の計算機で算出されていてもよい。

計算機１０１４は、第１実施例における音声データ認識装置１の中心処理を構成する。計算機１０１４の主記憶装置１０１８には、音声認識モジュール１０１９、適応・認識モジュール１０２０、及び、キーフレーズ解析・検出モジュール１０２１が格納されている。

音声認識モジュール１０１９は、図１における音響モデル・言語モデル学習部１０３、モデル適応部１１１、オペレータ発話認識部１２１、及びカスタマー発話認識部１２５を備える。また、適応・認識モジュール１０２０は、図１における音響モデル補正部１３０、発話認識部１３１、及び認識結果出力部１３３を備える。また、キーフレーズ解析・検出モジュール１０２１は、発話パターンデータベース構築部１１５、キーフレーズ解析部１２７、及びキーフレーズ検出部１２９を備える。

本実施例では、ＣＰＵ１０１７の制御命令によって適切に主記憶装置１０１８に各モジュール１０１９、１０２０、１０２１のプログラムが展開され、ＣＰＵ１０１７によって各モジュールが実行される。第１実施例に記載の処理と同様にすれば、図１０の音声データ認識システムは適切に動作する。

本実施例では、キーボード（入力装置）１０１５を介してオペレータの音声データ及びカスタマーの音声データを計算機１０１４に入力することができ、計算機１０１４の各モジュール１０１９、１０２０、１０２１の処理結果は、表示装置１０１６に表示される。以上説明したように、本実施例によれば、第１実施例に記載の音声データ認識装置１をコールセンターへ導入可能な音声データ認識システムを構成することができる。

［第３実施例］
本実施例では、第１実施例において自動的に構築していた、発話パターンデータベース１１７にパターンを追加・編集できるユーザインタフェースを付加することにより、新たな発話パターンに対応可能な音声データ認識装置の例を説明する。

図１１は、第３実施例における音声データ認識装置を示す構成図の例である。本実施例では、第１実施例の音声データ認識装置１に対して、パターン入力部１１０１が追加されている。パターン入力部１１０１は、ユーザから入力されたデータを受け取り、そのデータを発話パターンデータベース１１７に追加する。入力データが、マニュアル・書き起こしテキストデータ１１３と同じ形式であるならば、発話パターンデータベース構築部１１５と同じ処理を行うことで、発話パターンデータベース１１７用の学習データを動的に追加できる。入力データが、マニュアル・書き起こしテキストデータ１１３と同じ形式でない場合でも、その入力データ用にテキスト処理を追加することで、発話パターンデータベース１１７を動的に更新することができる。

例えば、オペレータ発話とカスタマー発話の書き起こしデータが入力された場合、パラメータの登録済の項目に関しては数値を更新すればよく、未登録の項目がある場合は、その項目を追加で登録する。パラメータを更新する場合、周辺発話の幅に関しては、入力データから得られた更新データの上限値及び下限値が登録済みのデータよりも大きいあるいは小さい場合は、その値で置き換えればよい。

統計量がパラメータとして登録されている場合は、ＭＡＰ推定といったアルゴリズムを用いることで、追加データ量に応じてそのパラメータを更新できる。また、入力データが、発話パターンデータベース１１７の各列に対応するタグが振られている場合は、テキストを言語解析し、対応する箇所にデータを追加すればよい。この場合、パラメータに関しては、ユーザが手動で入力してもよい。本実施例によれば、追加された新たなパターンに関してキーフレーズを検出することが可能となるため、カスタマー音声に対応するように音響モデルを補正するためのデータが増え、認識率を向上させることができる。

図１２は、本実施例におけるパターン入力部１１０１用のインターフェースの一例である。このインターフェースは、登録済みキークラス１２０１と、例文入力フィールド１２０３と、出現区間１２０５と、パラメータ１２０７と、送信ボタン１２０９とを備える。

登録済みキークラス１２０１には、発話パターンデータベース１１７に登録済みのキークラス名が表示される。登録済みキークラス１２０１は、ユーザが例文入力する際のタグとして用いたり、キークラスを追加する際に用いることができる。例文入力フィールド１２０３には、オペレータ及びカスタマーの文章の他に、オペレータ及びカスタマー発話のタグ、サブキーフレーズタグ、キークラスタグ、パターンキーワードタグなどが振られていてもよい。登録済みキークラス１２０１と、例文入力フィールド１２０３と、出現区間１２０５と、パラメータ１２０７の入力が終了した後、操作者は送信ボタン１２０９を押す。これにより、インターフェース上に入力された情報がパターン入力部１１０１によって発話パターンデータベース１１７に登録される。

以上説明したように、第３実施例によれば、第１実施例において自動的に構築していた発話パターンデータベース１１７にパターンを追加及び編集できるため、新たな発話パターンに対応可能となる。

なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることがあり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、音声データ認識装置の機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。この場合、プログラムコードを記録した非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を情報処理装置（コンピュータ）に提供し、その情報処理装置（又はＣＰＵ）が非一時的なコンピュータ可読媒体に格納されたプログラムコードを読み出す。非一時的なコンピュータ可読媒体としては、例えば、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記憶媒体などが用いられる。

また、プログラムコードは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によって情報処理装置に供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムを情報処理装置に供給できる。

また、上述の実施例において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０１学習用ラベル付き音声データ
１０３音響モデル・言語モデル学習部
１０５音響モデル
１０７言語モデル
１０９オペレータラベル付き音声データ
１１１モデル適応部
１１３マニュアル・書き起こしテキストデータ
１１５発話パターンデータベース構築部
１１７発話パターンデータベース
１１９オペレータ音声データ（第１の音声）
１２１オペレータ発話認識部（第１の発話認識部）
１２３カスタマー音声データ（第２の音声）
１２５カスタマー発話認識部（第２の発話認識部）
１２７キーフレーズ解析部
１２９キーフレーズ検出部
１３０音響モデル補正部
１３１発話認識部（第３の発話認識部）
１３３認識結果出力部

Claims

音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識部と、
前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識部と、
前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析部と、
前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出部と、
前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正部と、
前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識部と、
を備えることを特徴とする音声データ認識システム。
請求項１に記載の音声データ認識システムにおいて、
前記検出部は、前記第１の音声において前記パターンキーワードが出現した発話を基準として所定の範囲内で、前記第２の音声の前記第２の認識結果から前記キーフレーズを検出することを特徴とする音声データ認識システム。
請求項１に記載の音声データ認識システムにおいて、
前記解析部は、前記キーフレーズと、前記キーフレーズの時間的周辺に位置するサブキーフレーズとを用いて、前記キーフレーズを抽出することを特徴とする音声データ認識システム。
請求項１に記載の音声データ認識システムにおいて、
前記検出部は、前記第２の認識結果における認識信頼度を補正した補正信頼度を計算し、
前記補正部は、前記補正信頼度と前記キーフレーズの音素の特徴量とを用いて前記音響モデルを補正することにより、前記一時音響モデルを生成することを特徴する音声データ認識システム。
請求項４に記載の音声データ認識システムにおいて、
前記補正信頼度は、前記第２の認識結果における認識信頼度と、前記第１の認識結果における前記キーフレーズの検出信頼度と、前記第２の認識結果における前記キーフレーズの検出信頼度とから計算されることを特徴とする音声データ認識システム。
請求項１に記載の音声データ認識システムにおいて、
前記パターンキーワードと前記キーフレーズとが関連付けられて格納されている発話パターンデータベースと、
テキストデータから前記パターンキーワードと前記キーフレーズとを抽出するデータベース構築部と、
を更に備えることを特徴とする音声データ認識システム。
請求項６に記載の音声データ認識システムにおいて、
前記パターンキーワードと前記キーフレーズとを少なくとも入力データとして受け付け、前記入力データによって前記発話パターンデータベースを更新するパターン入力部を更に備えることを特徴とする音声データ認識システム。
演算装置と記憶装置とを少なくとも備える一つ以上の計算機を用いた音声データ認識方法であって、
前記計算機によって、音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識ステップと、
前記計算機によって、前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識ステップと、
前記計算機によって、前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析ステップと、
前記計算機によって、前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出ステップと、
前記計算機によって、前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより一時音響モデルを生成する補正ステップと、
前記計算機によって、前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識ステップと、
を含むことを特徴とする音声データ認識方法。
請求項８に記載の音声データ認識方法において、
前記検出ステップは、前記第１の音声において前記パターンキーワードが出現した発話を基準として所定の範囲内で、前記第２の音声の前記第２の認識結果から前記キーフレーズを検出することを含む、ことを特徴とする音声データ認識方法。
請求項８に記載の音声データ認識方法において、
前記解析ステップは、前記キーフレーズと、前記キーフレーズの時間的周辺に位置するサブキーフレーズとを用いて、前記キーフレーズを抽出することを含む、ことを特徴とする音声データ認識方法。
請求項８に記載の音声データ認識方法において、
前記検出ステップは、前記第２の認識結果における認識信頼度を補正した補正信頼度を計算することを含み、
前記補正ステップは、前記補正信頼度と前記キーフレーズの音素の特徴量とを用いて前記音響モデルを補正することにより、前記一時音響モデルを生成することを含む、ことを特徴する音声データ認識方法。
請求項１１に記載の音声データ認識方法において、
前記補正信頼度は、前記第２の認識結果における認識信頼度と、前記第１の認識結果における前記キーフレーズの検出信頼度と、前記第２の認識結果における前記キーフレーズの検出信頼度とから計算されることを特徴とする音声データ認識方法。
請求項８に記載の音声データ認識方法において、
前記計算機によって、テキストデータから前記パターンキーワードと前記キーフレーズとを抽出する抽出ステップと、
前記計算機によって、前記パターンキーワードと前記キーフレーズとを関連付けて前記記憶装置に発話パターンデータベースとして格納する格納ステップと、
を更に含むことを特徴とする音声データ認識方法。
請求項１３に記載の音声データ認識方法において、
前記計算機が入力装置を更に備え、
前記計算機が、前記入力装置を介して前記パターンキーワードと前記キーフレーズとを少なくとも入力データとして受け付け、前記入力データによって前記発話パターンデータベースを更新する更新ステップを更に含むことを特徴とする音声データ認識方法。
演算装置と記憶装置とを少なくとも備える計算機に、音声データ認識処理を実行させるためのプログラムを記録した非一時的なコンピュータ可読媒体であって、
前記プログラムは、前記演算装置に、
音響モデル及び言語モデルを用いて第１の音声を音声認識する第１の発話認識処理と、
前記音響モデル及び前記言語モデルを用いて第２の音声を音声認識する第２の発話認識処理と、
前記第１の音声の第１の認識結果から所定のパターンキーワードを検出し、前記パターンキーワードの時間的に周辺に位置するキーフレーズを抽出する解析処理と、
前記第２の音声の第２の認識結果から前記キーフレーズを検出する検出処理と、
前記第２の音声における前記キーフレーズの音素の特徴量を用いて前記音響モデルを補正することにより、一時音響モデルを生成する補正処理と、
前記一時音響モデルを用いて前記第２の音声を音声認識する第３の発話認識処理と、
を実行させる、ことを特徴とする非一時的なコンピュータ可読媒体。