JP2023080132A

JP2023080132A - 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Info

Publication number: JP2023080132A
Application number: JP2023053622A
Authority: JP
Inventors: 正二朗森部; Seijiro Moribe
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-09-30
Filing date: 2023-03-29
Publication date: 2023-06-08
Also published as: JP2021056392A; JP7363307B2

Abstract

【課題】ＡＩチャットボットにおける認識結果の自動学習装置において、効率良く認識精度を上げる。【解決手段】話者からの発話に係るＡＩチャットボット（１）による認識結果を復唱する復唱部（１０１）と、復唱された認識結果に対する話者の反応に基づいて認識結果の正誤を判定する判定部（１０２）と、発話に関して話者及びＡＩチャットボット間でなされる対話の中で、判定が誤となった後に正となった場合における、誤となった認識結果と正となった認識結果との差分に基づいて発話に係る学習データ（４０４ａ）を抽出する学習部（１０３）とを備える。【選択図】図１

Description

本発明は、例えばＡＩ（Artificial Intelligence：人工知能）スピーカ或いはスマートスピーカや、音声認識ＩＶＲ（Interactive Voice Response：自動音声応答装置）や、チャットＩＦ（Inter-Face：インタフェース）のような対話型の音声認識装置を含んでなり、音声を通じて或いは音声及びテキストを通じて、話者との会話を自動的に行うＡＩチャットボット（chatbot或いはchatterbot）或いは音声応答システムにおいて、話者の発話の認識結果を自動学習する装置及び方法、並びにコンピュータをそのような装置として機能させるコンピュータプログラム及び記録媒体の技術分野に関する。

近年、ＡＩチャットボット或いは音声応答システムについては、諸外国、我が国等の企業により商品化され、更にその機能向上のために各種の提案がなされている。例えば特許文献１では、ユーザ発話の意図が問合せであるか否かを判定する装置が提案されている。
特許文献２では、対話システムが答えられなかった質問に答えるための知識を拡充する情報処理装置が提案されている。特許文献３では、ＡＩチャットボットサーバーに既に蓄積された知識を利用する音声問合せシステムが提案されている。

特開２０１９－１１４１４１号公報特開２０１９－０６１４８２号公報特許第６５５５８３８号公報

ＡＩチャットボット或いは音声応答システムでは、音声認識の精度を効率良く向上させること或いは少ない作業やデータ処理により該精度を向上させることが望ましい。

しかしながら、例えば特許文献１では、ユーザ発話の意図を示す対話行為及びユーザ発話の発話主題を推定し、該推定された対話行為が問合せを示し且つ該推定された発話主題が回答可能な問合せ対象である場合に、発話が問合せであると判定するように構成されている。特許文献２では、失敗原因を分析して、該原因に応じて対話ログデータから質問文を生成出力し、その質問に対する回答を対話データの新たな知識として追加するように構成されている。特許文献３では、数多くのチャットボットサーバ装置夫々が分散して学習処理を行うことで、数多くのチャットボットサーバ装置に既に蓄積されている学習モデルを利用して、個別のＡＩスピーカで取得された音声による質問に対する答弁を行うように構成されている。

従って、これらの背景技術に係るシステム或いは既存の商品によれば何れも、音声認識の精度を上げるためには、音響モデルや言語モデル等の学習データが必要となる。更に、音に対する読み、読みに対する表記といった学習データは現状、人が正解を与える必要があり、非常に手間がかかる。しかも、学習データを無暗に増やせば必ず精度が上がるという訳でもない。勿論、登録データの増大は、取り扱うべきデータ量の肥大化、或いはデータ処理の負荷の増大に繋がってしまうという問題点もある。

このように音声認識の性質上、その精度を効率良く向上させること、或いは利用者（言い換えれば、話者であるシステムの利用者或いはユーザ）、音響モデルや言語モデル等の教師データを与える作業者（言い換えれば、正解データを与える作業者）等といった人員にかける負担を軽減し、少ない人手作業や更に少ないデータ処理により該精度を向上させることは技術的に困難である。

本発明は、例えば上述した技術的問題に鑑みなされたものであり、音声認識の精度を効率良く向上させることが可能な、ＡＩチャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータをそのような装置として機能させるコンピュータプログラム及び記録媒体を提供することを課題とする。

本発明に係るＡＩチャットボットにおける認識結果の自動学習装置の一の態様は上記課題を解決するために、話者からの発話に係る前記ＡＩチャットボットによる認識結果を復唱する復唱部と、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定部と、前記発話に関して前記話者及び前記ＡＩチャットボット間でなされる対話の中で、前記判定部による判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習部とを備える。

本発明に係るＡＩチャットボットにおける認識結果の自動学習方法の一の態様は上記課題を解決するために、話者からの発話に係る前記ＡＩチャットボットによる認識結果を復唱する復唱ステップと、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定ステップと、前記発話に関して前記話者及び前記ＡＩチャットボット間でなされる対話の中で、前記判定ステップによる判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習ステップとを備える。

本発明に係るコンピュータプログラムの一の態様は、コンピュータに、上述したＡＩチャットボットにおける認識結果の自動学習方法の一の態様を実行させる。

本発明の記録媒体の一の態様は、上述したコンピュータプログラムの一の態様が記録された記録媒体である。

上述したＡＩチャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体の夫々の一の態様によれば、利用者に負担をかけることなく自動的に、音声認識の精度を効率良く向上させることが可能となる。より具体的には例えば、利用者若しくはユーザ又は話者に負担をかけることなく正解データの登録を促すことで自動的に学習を行うことが可能となり、類似の質問での認識精度を向上させることが可能となり、学習すればする程ＡＩチャットボットとのやり取りを減らすことが可能となる。更に、類音語を利用した変換は悪影響もあり得るため、例えば、限られたシナリオの範囲で当該自動学習を実行すれば、言い換えれば、シナリオ毎に学習データを構築すれば或いは分ければ、各シナリオにて上述の効果はより顕著に現れる。

本発明によるこのような作用効果は、以下に説明する発明の実施形態により、より明らかにされる。

第１実施形態に係る、本発明に係る「ＡＩチャットボット」の一例としての音声応答システムにおける認識結果の自動学習装置を含んで構成される、当該音声応答システムの全体構成を示すブロック図である。第１実施形態に係る、復唱による自動学習の処理フローを示すフローチャートである。第１実施形態に係る、復唱による自動学習に係る利用イメージを示す図式的概念図である。第１実施形態に係る、音声認識の仕組みを示す図式的概念図である。第１実施形態の一比較例における「学習データの作成方法」を示す図式的概念図である。第１実施形態の他の比較例における「学習データの作成方法」を示す図式的概念図である。第１実施形態に係る、類音語を使用した音声認識結果を補正する処理を示す図式的概念図である。第１実施形態に係る、発話の特徴を利用した類音語の判定に係る利用イメージを示す図式的概念図（その１）である。第１実施形態に係る、発話の特徴を利用した類音語の判定に係る利用イメージを示す図式的概念図（その２）である。第１実施形態に係る、学習データを反映した後における利用イメージを示す図式的概念図である。第２実施形態に係る、回答に対する評価判定による自動学習の処理フローを示すフローチャートである。第２実施形態に係る、回答に対する評価判定による自動学習に係る利用イメージを示す図式的概念図である。

＜第１実施形態＞
第１実施形態について図１～図１０を参照して説明する。先ず図１を参照して第１実施形態の全体構成について説明する。ここに図１は、第１実施形態に係る、音声認識における認識結果の自動学習装置１００を有する音声応答システム１の全体構成を図式的に示している。即ち、本実施形態では、音声応答システム１が、本発明に係る「ＡＩチャットボット」の一例を構成している。

図１に示すように、音声応答システム１は、ＡＩチャットボット（ＱＡ検索）部１０、音声キャプチャ装置１１、音声認識装置１２、単語辞書ＤＢ４００と音響モデルＤＢ４０１と言語モデルＤＢ４０２と変換ルールＤＢ４０３と学習データＤＢ４０４とを含む記憶装置、並びに自動学習装置１００を含んで構成されている。単語辞書ＤＢ４００は、単語の表記と読みの対応関係である単語辞書を記憶する。例えば、単語辞書は、図４の単語辞書４００ａである。音響モデルＤＢ４０１は、音素と読みとの対応関係である音響モデルを記憶する。例えば、音響モデルは、図４の音響モデル４０１ａである。言語モデルＤＢ４０２は、隠れマルコフモデル等の言語モデルを記憶する。例えば、言語モデルは、図４の言語モデル４０２ａである。変換ルールＤＢ４０３は、変換先と変換元の単語の対応関係である変換ルールを記憶する。例えば、変換モデルは、図７の変換ルール４０３ａである。学習データＤＢ４０４は、学習データを記憶する。例えば、学習データは、図１の学習データ４０４ａや図３の学習データ４０４ｂ或いは４０４ｃである。自動学習装置１００は、送信部１０１、音声応答制御部１０２及び自動学習部１０３を備えて構成されている。

音声キャプチャ装置１１は、ユーザ（或いは、システムの利用者或いは話者）２０が端末２１のマイクに向けて発した音声をキャプチャする装置であり、インターネット等の通信網を介して該音声をキャプチャする。ここで、端末２１は、例えば、スマートホン、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット、携帯電話、腕時計型デバイスや眼鏡型デバイス等のウェアラブルデバイス、などである。尚、音声キャプチャ装置１１は、ユーザ２０の発話をキャプチャできるデバイスであれば、端末２１のマイクに限定されず、端末２１と有線または無線で通信可能に接続されたデバイス等でもよい。音声キャプチャ装置１１は、キャプチャした音声の音声データを音声認識装置１２に出力する。

音声認識装置１２は、音声キャプチャ装置１１でキャプチャされた音声を、後に詳述するように自動学習装置１００により自動学習され記憶装置に格納された音響モデル４０１と、言語モデル４０２とに基づいて、音声認識する。その音声認識の仕組みについても後に詳述する（図４等参照）。音声認識装置１２は、当該音声認識した結果である音声認識結果を自動学習装置１００に出力する。

ＡＩチャットボット（ＱＡ検索）部１０は、音声認識された認識結果で示される質問に対する、ＱＡ或いはＱ＆Ａ（Question and Answer：即ち、質問に対する回答）を、ＱＡナレッジ１０ａ内に構築された各種の知識データを格納するＱＡナレッジ１０ａから検索するように構成されている。より具体的には、自動学習装置１００により、音声認識結果が復唱されユーザからの音声の認識結果が正しいと判定された場合に、ＡＩチャットボット部１０は、ユーザからの質問に対する回答を返す。更に、ユーザからの質問に対する回答がおかしい又は回答がない場合に、ＡＩチャットボット部１０は、ＱＡ検索するように構成されている。

自動学習装置１００では、音声応答制御部１０２による制御下で、先ず、音声認識装置１２による認識結果を、合成音声又は合成音声及びテキストの組み合わせ（以下適宜、単に「合成音声等」と称する）で、本発明に係る「復唱部」の一例を音声応答制御部１０２と共に構成する送信部１０１が、ユーザ２０の端末２１へ向けて復唱する。具体的には先ず、音声応答制御部１０２は、音声認識結果の入力を受け付ける。音声応答制御部１０２は、音声認識結果に基づいて、ユーザ２０に対して出力するための合成音声を生成する。
送信部１０１は、当該生成された合成音声データ又は合成音声のテキストデータを端末２１に送信する。音声応答制御部１０２は、当該入力された音声認識結果をＡＩチャットボット（ＱＡ検索）部１０に出力する。

本実施形態に係る「復唱」とは、認識結果をそのまま合成音声（以下、「復唱合成音声」ともいう。）又はテキスト（以下、「復唱テキスト」ともいう。）で返す（即ち、文字通り復唱する）のでもよいし、認識結果を確認する内容の或いは認識結果に適当な前置き若しくは後置きを付加した内容又は要約した内容の復唱合成音声等又は復唱テキストで返す（即ち、同一内容ながら表現を変えて復唱する）のでもよい。例えば「○○」であるとの認識結果に対して「○○でよろしいでしょうか？」などとする発話を返す（即ち、復唱する）のでもよい。例えば、ユーザ２０が端末２１に対して「タクシーを呼びたい。」と言った場合、端末２１から「『タクシーを呼びたい。』でよろしいですか。」という復唱合成音声又は復唱テキストが出力される。更に、認識結果と同様の意味を有し、より汎用性の高いものとして単語辞書等に登録されている他の同意語や、同義語、類義語、同様の意味の文章で置き換えた内容で返す（即ち、復唱する）のでもよい。

更に、自動学習装置１００では、音声応答制御部１０２による制御下で、音声認識装置１２による認識結果に対してＡＩチャットボット（ＱＡ検索）部１０によりＱＡ検索された検索結果に係る合成音声又はテキストを、送信部１０１が、ユーザ２０の端末２１に対して送信するように構成されている。

本実施形態では特に、これら一連の対話の中で、自動学習装置１００は後に詳述するように、本発明に係る「判定部」の一例を構成する音声応答制御部１０２により実行される認識結果の正誤判定において、音声認識装置１２による最初の或いは先の認識結果が“誤”であり且つその後の認識結果が“正”となった場合に、本発明に係る「学習部」の一例を構成する自動学習部１０３が、当該正誤の認識結果の差分を自動学習データ４０４ａとして抽出し、これを単語辞書に登録するように構成されている。

言い換えれば、本実施形態では、音声応答制御部１０２により実行される認識結果の正誤判定において、認識結果が最初から“正”である（即ち、誤となる認識結果が存在しない）場合や、最後まで“誤”である（即ち、正が何であるのかが言い換えれば正解が結局分からない）場合、上記差分が存在しないため、ここにいう差分を自動学習データ４０４ａとして抽出する処理は行われない。但し、当該差分に係る抽出処理とは別に、当初から“正”である認識結果や、最後まで“誤”である認識結果を、他の統計的なデータ処理などのために利用すること或いはデータとして蓄積しておき事後的に何らかの方法でデータ解析に利用することは任意である。

本実施形態に係る「差分」とは、正の認識結果及び誤の認識結果間における表記的あるいは文構造的な差異であってもよい。例えば、この場合の「差分」とは、単語の違いである。しかし、本実施形態に係る「差分」はこれに限らず、これに加えて又は代えて、例えば、声の強弱の差異、声のテンポの差異、声或いは発話内容から推定される話者の感情の差異など、発話の特徴上の差異であってもよい。

以上のように、本発明によれば、いずれの場合にも、後で詳述するように教師データを与える作業者等といった人員にかける負担（図５及び図６参照）を顕著に軽減しつつ、自動学習データ４０４ａを機械学習或いはＡＩ学習により単語辞書内に登録可能となる。しかも、このような音声応答システム１における、正誤判定の結果に応じた自動学習は、リアルタイム的に対話しながら実行可能であり、或いは、ユーザ２０及び音声応答システム１間の対話に係る記録ログを事後的に参照して実行することも可能である。

本実施形態では例えば、自動学習部１０３は、図１に例示したように、ユーザ２０及び音声応答システム１間の対話を通じて、種別を一の“類音語”とし、上述の如き“差分”として夫々抽出された「ホタル」及び「ホテル」を相互に対応する「単語１」及び「単語２」とする自動学習データ４０４ａを登録する。これは、「ホタルを意訳したい」という誤（言い換えれば、不正解データ）であると判定された認識結果と、後に正（言い換えれば、正解データ）であると判定された「ホテルを予約したい」との差分に基づく自動学習データである。更に、種別を他の“類音語”とし、「小樽」及び「ホテル」を相互に対応する「単語１」及び「単語２」とする自動学習データ４０４ａを登録する。これは、「小樽を予約したい」という誤であると判定された認識結果と、後に正であると判定された「ホテルを予約したい」との差分に基づく自動学習データである。同じく種別を他の“類音語”として「意訳」及び「予約」を相互に対応する「単語１」及び「単語２」を自動学習データ４０４ａとして登録する。更にまた、種別を“共起”（即ち、同一の対話の中で共に起こり得る可能性が高い組み合わせ或いは対の一つ）とし、「ホテル」及び「予約」を相互に対応する「単語１」及び「単語２」とする自動学習データ４０４ａとして登録するように構成されている。

より具体的には図１に例示したように、ユーザ２０が、端末２１に、（Ｉ）「ホテルを予約したいです。」と発話すると、この音声を音声キャプチャ装置１１はキャプチャする。更に、音声応答制御部１０２の制御下で、音響モデル４０１及び言語モデル４０２を利用しての音声認識装置１２による認識結果たる（Ｉ）『ホタルを意訳したい』を、送信部１０１は復唱する。即ち、本例では復唱たる（Ｉ）「『ホタルを意訳したい』でよろしいでしょうか？」なる合成音声データ又は合成音声に係るテキストデータを、端末２１から、当該認識結果の元となる発話をした当人であるユーザ２０に対して復唱するように構成されている。

これを受けて、直近の認識結果が誤（ＮＧ）であることを意味する（ＩＩ）『「違います。ホテルを予約したいです。」なる発話がユーザ２０からなされ、更にこれを受けて、直近の認識結果が誤（ＮＧ）であると判定した後に（ＩＩ）『「回答がありませんでした」もう一度…』なる合成音声等による発話がユーザ２０に対してなされたりする。更に、音声認識装置１２の側で直近の認識結果が誤（ＮＧ）であることが判明する（ＩＩＩ）「（不正解に気を悪くして感情的に“イラッ”として）ホテルを予約したいです！」なるユーザ２０による発話などの、ユーザ２０の思考や、音声応答制御部１０２による音声認識装置１２の認識結果の正誤判定の結果に応じて、多種多様なやり取りが行われ、最終的には、（ＩＩＩ）『ホテル予約ですね。予約日と人数を…』という正（ＯＫ）である旨の認識結果が、音声応答システム１から発話されることになる。

このようにユーザ２０及び音声応答システム１間で、ホテル予約に関して一連の対話がなされると、音声応答システム１は、『ホテルを予約したい』なる正（ＯＫ）の認識結果に最終的には辿り着き、ＡＩチャットボット（ＱＡ検索）部１０は、ＱＡナレッジ１０ａを活用して、正の認識結果が示す質問に対するＱＡ検索を実行するように構成されている。この際、ＱＡ検索との連携で、音声応答制御部１０２では、例えば「小樽を予約したい」なる認識結果は誤（ＮＧ）であり且つ「ホテルを予約したい」なる認識結果は正（ＯＫ）であるとの判定が可能となる。即ち、本実施形態によれば、ＱＡ検索の結果に対するユーザ２０の反応（例えば、「いいね」ボタンを押すなど）に基づいて、認識結果の正誤判定を少なくとも部分的に実行することが可能であり、認識機能を効率良く向上させることが可能となる。

自動学習装置１００の自動学習部１０３は、上述した認識結果との差分の抽出、更にその自動学習データ４０４ａとしての登録を、このようなＱＡ検索の実行と相前後して若しくは並行して又は記録ログを利用して事後的に実施可能に構成されている。

なお、このような自動学習装置１００等を含んで構成される音声応答システム１は、説明の便宜上図１では各装置単位や各部単位で別体として図示されているが、音声キャプチャ機能、音声認識機能、音声応答制御機能、送信機能、自動学習機能、ＡＩチャットボットのＱＡ検索機能などを備えており且つ端末２１と同じ通信網に収容可能であれば、一又は複数のコンピュータ或いは端末装置、一又は複数のサーバ装置、一又は複数のデータベース或いは記憶装置などから、ハードウエア的に或いはソフトウエア的に各種形態で柔軟に実現されるものであってよい。また、上述した機能のうちの少なくとも一以上の機能は、クラウドで実行可能である。汎用コンピュータに本実施形態に係る自動学習方法を行わせる独自のコンピュータプログラムにより実現してもよい。更にそのようなプログラムが格納された記憶媒体からコンピュータへ、該プログラムを直接又はダウンロード後に読み込むことで実現してもよい。

次に、図２から図１０を参照して、図１に示した如き構成を有する第１実施形態の動作処理について詳述する。

図２において、音声認識装置１２によって、ユーザ２０から端末２１で入力され通信網及び音声キャプチャ装置１１を介して入力された音声に対する音声認識が実行され、例えば「ホテルを意訳したい」との認識結果が得られる（ステップＳ１０）。続いて、自動学習装置１００では、音声応答制御部１０２による制御下で『「ホテルを意訳したい」でよろしいですか』というレスポンスが生成される。更に、送信部１０１は、端末２１へ当該生成されるレスポンスを送信し、ユーザ２０に対して、合成音声の形式で（或いは、テキストの形式で又は合成音声及びテキスト両方の形式で）復唱する（ステップＳ１１）。

続いて、再び音声認識装置１２は、ユーザ２０から端末２１で入力され通信網及び音声キャプチャ装置１１を介して入力された音声に対する音声認識を行い、例えば「はい」または「いいえ」との認識結果が得られる（ステップＳ１２）。

続いて、音声応答制御部１０２により認識結果の正誤判定が行われる（ステップＳ１３）。ステップＳ１３の判定において、認識結果が誤である場合（ステップＳ１３：「Ｎｏ」）、音声応答制御部１０２は、ユーザ２０に言い直しを促す旨の「もう一度お願いします」というレスポンスを生成し、送信部１０１は当該生成されるレスポンスを端末２１に送信する（ステップＳ１４）。更に、ステップＳ１０へ戻り、それ以降の処理が繰り返し実行される（ステップＳ１０～Ｓ１３）。即ち、音声応答システム１は、当該一連の対話におけるユーザ２０が先の発話を言い直すよう、レスポンスによりユーザ２０に促すことになる。

他方、ステップＳ１３の判定において認識結果が正である場合（ステップＳ１３：「Ｙｅｓ」）、当該一連の対話の中でステップＳ１３で少なくとも一度「Ｎｏ」とされた後（即ち、認識結果が誤であると判定された後）に、自動学習部１０３は、ユーザ２０が言い直しをしたか否かを判定する。即ち、当該ユーザ２０及び音声応答システム１間でなされる一連の対話の中で、音声応答制御部１０２が誤と判定した後に正と判定した場合、誤と判定された認識結果と正と判定された認識結果との差分として抽出可能な学習データがあるか否かが判定される（ステップＳ１５）。

ステップＳ１５の判定において、言い直しはなかった場合（ステップＳ１５：ＮＯ）、抽出すべき学習データはないので、そのまま一連の処理を終了する。他方、ステップＳ１５の判定において、言い直しをした場合（ステップＳ１５：ＹＥＳ）、抽出すべき学習データが存在している場合（即ち、一連の対話の中で、判定が誤となった後に正となった場合）であるので、自動学習部１０３は、該差分を学習データとして抽出し（ステップＳ１６）、一連の処理を終了する。

次に図３を参照して、上述の如き復唱により自動学習を行うところの自動学習方法の利用イメージについて、具体例を交えながら説明を加える。図３では、先ず図２で示したステップＳ１０～Ｓ１４に対応して、対話Ｃ１０Ａ～Ｃ１４Ａのやりとりがユーザ２０及び音声応答システム１間で、図中で上から下への順で行われる。なお、学習データがあるか否かの判定（図２のステップＳ１５）及びある場合の学習データの抽出（図２のステップＳ１６）の各処理については、リアルタイム的に実行されてもよいし、図２のステップＳ１０～Ｓ１４の処理を示す記録ログから事後的に実行してもよい。

図３において先ず、ユーザ２０から端末２１を用いて「ホテルを予約したい。」との音声Ｃ１０Ａの入力を受け付ける。ここでは一例として、「予約」なる単語部分について、ユーザ２０により、はっきりと発話出来ていない或いは雑音やノイズなどの影響ではっきりとキャプチャできないものとする。

これを受けて、音声応答システム１は、図２で説明した処理（即ち、主にステップＳ１０及びＳ１１の処理）を経て『「ホテルを意訳したい」でよろしいでしょうか？』なる対話Ｃ１１Ａがユーザ２０に送信する。ここでの対話Ｃ１１Ａは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージであってもよい。この場合、音声応答システム１は、ユーザ２０の端末２１に（例えば、ＳＭＳ，ＬＩＮＥ等のアプリの形式で）送信する。

これを受けて、ユーザ２０から端末２１を介して「いいえ。」との対話Ｃ１２Ａが行われる。即ち、対話Ｃ１１Ａが誤りである（即ち、不正解データである）旨の対話Ｃ１２Ａが音声応答システム１に対して行われる。これを受けて、音声応答システム１は、図２で説明した処理（即ち、主にステップＳ１２、Ｓ１３及びＳ１４の処理）を経て『もう一度お願いします。』なる対話Ｃ１４Ａがユーザ２０に対して行われる。ここでの対話Ｃ１４Ａは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで送信されてもよい。

これを受けて、ユーザ２０から端末２１を介して「ホテルを予約したい」との対話Ｃ１０Ｂが行われる。ここでは一例として、「予約」なる単語部分について、ユーザ２０により、はっきり発話できた或いは雑音やノイズなどの影響なくはっきりキャプチャできたものとする。これを受けて、音声応答システム１は、図２で説明した処理（即ち、主にステップＳ１０及びＳ１１の処理）を経て『「ホテルを予約したい」でよろしいでしょうか？』なる対話Ｃ１１Ｂがユーザ２０に対して行われる。ここでの対話Ｃ１１Ｂは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで送信されてもよい。

これを受けて、ユーザ２０から端末２１を介して「はい。」との対話Ｃ１２Ｂが行われる。即ち、対話Ｃ１１Ｂが正である（即ち、正解データである）旨の対話Ｃ１２Ｂが音声応答システム１に対して行われる。これを受けて、音声応答システム１は、図２で説明した処理（即ち、主にステップＳ１２及びＳ１３の処理）を経て、確認的な内容である『承りました。』なる対話Ｃ１３Ｂがユーザ２０に対して行われる。ここでの対話Ｃ１３Ｂは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで送信されてもよい。

以上の一連の対話は、対話Ｃ１１Ａが誤（即ち不正解データ）であり且つ対話Ｃ１１Ｂが正（即ち、正解データ）である場合となるので、音声応答システム１では、学習データ抽出処理（即ち、図２のステップＳ１６の処理）が実行される。

より具体的には、音声応答システム１の自動学習部１０３は、対話Ｃ１１Ａにある不正解データと対話Ｃ１１Ｂにある正解データとの差分を抽出する。この抽出は、全体の対話に相当する自動学習データ４０４ｃを構成する複数の単語（即ち単語１～単語４）に分解することで、相異なる対話部分（図３中で「判定」が“×”となる対話部分）を構築している「意訳」と「予約」とを、自動学習データ４０４ｂとすることで行う。

更に、音声応答システム１の自動学習部１０３は、このようにして抽出した単語３に係る「意訳」と「予約」）を、相互に“類音語”の種別で、自動学習データ４０４ｂに対応する変換ルール４０３ｂとして（“予約”を“正解”に且つ“意訳”を“不正解”にという形式で）変換ルールＤＢ４０３に登録する。この変換ルール４０３ｂの登録と並行して或いは相前後して、自動学習データ４０４ａ（図１参照）に対応する変換ルール４０３ａを変換ルールＤＢ４０３に登録する。なお、このような差分に基づく自動学習データ４０４ｂの登録は、リアルタイム的に遅延なく行われてもよいし、記録ログを利用することで事後的に行われてもよい。

次に図４を参照して、上述の音声応答システム１における音声認識装置１０２（図１参照）での音声認識の仕組み（即ち、図２に示した音声認識処理（ステップＳ１０或いはＳ１２における処理方式）について、具体例を交えながら説明を加える。

図４において、先ず、音声キャプチャ装置１１（図１参照）でキャプチャされた音の波形３０１を、音声認識装置１２は、多数の音響モデル４０１ａの如き音素及び読みを対応付けたデータを含んでなる音響モデルＤＢ４０１を参照することで、読み３０５（即ち、ここでの具体例としての「さーびすおもーしこみたいのですが」）に変換する（図４の上段に図示したステップＳＴＥＰ１）。

これを受けて、音声認識装置１２は、多数の単語辞書４００ａの如き表記及び読みの対応データを含む単語辞書４００並びに多数の言語モデル４０２ａの如きユーザの発話を単語に分解してかなや漢字に対応付けた形で含んでなる言語モデルＤＢ４０２を参照することで、読み３０５をかな漢字表記３０６（即ち、ここでの具体例としての「サービスを申し込みたいのですが」）に変換する（図４の下段に図示したステップＳＴＥＰ２）。

以上図４に示したように、音の波形を読みに変換し、更にこれをかな漢字表記に変換することで、本実施形態の一具体例における音声認識（例えば、図２におけるステップＳ１０、Ｓ１２等の処理）は実行される。

次に、図５及び図６を参照して、図２のステップＳ１６の学習データの抽出方法、言い換えれば、学習データの作成方法における、顕著なる効果或いは大きな利点について説明を加える。

図５に図示した比較例における、音声認識結果から書き起こすことによる学習データの作成方法によれば、５０～１００時間の音響データ３０１を、作業者３０（即ち、音響モデルや言語モデル等の教師データを与える作業者或いは正解データを与える作業者）が、人手でテキスト化する。例えば、電話オペレータＯＰが「お電話ありがとうございます。
」と発話し、ユーザ或いはカスタマ（ＣＵ）が「パソコンが壊れました。」と発話し、オペレータ（ＯＰ）が「どのような症状ですか？」と発話し、ユーザ或いはカスタマ（ＣＵ）が「電源が入りません。」の如き対話が行われた後に、当該対話を含む音響データ３０１から、テキスト化された音声認識結果３０６が、作業者３０の人手により作成される。
この際、テキスト中の未知語の単語辞書４００への登録が行われたり、単語の出現ルールを追加することで言語モデル４０２の構築が行われたりする。

当該比較例によれば、作業者３０が実行せねばならない、当該テキスト化のための人手による作業は、通話時間の１０倍位の時間がかかる作業となってしまう。即ち、本例では、５００～１０００時間と言った長時間の人手による労働（即ち、人手によるテキスト化作業）が必要となってしまう。

図６に図示した比較例における、認識結果から書き起こすことによる学習データの作成方法によれば、作業者３０が人手で誤認識している個所を探し出し、修正する。例えば、オペレータ（ＯＰ）が「お電話ありがとうございます。」と発話し、ユーザ或いはカスタマ（ＣＵ）が「パソコンが乞われました。」と発話し、オペレータ（ＯＰ）が「どのような賞状ですか？」と発話し、ユーザ或いはカスタマ（ＣＵ）が「電源が入りません。」と発話したとの如き、誤まってテキスト化された部分を含むテキスト化された音声認識結果３０６ａに対して、人手で、誤認識している個所が、「乞われる」や「賞状」だとして認識される。これにより、正しくテキスト化された音声認識結果３０６ｂが作成される。更に、「乞われる」や「賞状」は、正しくは「壊れる」や「症状」であるという出現ルールや未知語の登録が、人手によって実行される。そして、テキスト中の未知語（例えば「症状」）の単語辞書４００への登録が行われたり、単語の出現ルールを追加することで言語モデル４０２の構築が行われたりする。

当該比較例によれば、作業者３０が実行せねばならない、人手による作業は、やはり時間及びストレスがかかる長時間の労働が必要となってしまう。

図５及び図６に示した比較例との比較からも明らかなように、上述の本実施形態（図１から図４参照）における、作業者による認識結果から書き起こすという人手による過酷な労働なしに、一連の対話の中で自動的に不正解データと正解データとの差分を抽出し、これを学習データとして自動的に登録するという作用効果は、人手を掛けずに効率的に高精度で自動学習データを増やして行く上で顕著に有利である。特に図６の認識結果から書き起こす作業を、自動学習により極めて効率的に実行できるので、本実施形態は大変有利である。

次に、図７を参照して、本実施形態における、類音語を使用した音声認識結果の補正について説明を加える。ここに図７では、上段に音声認識装置１２（図１参照）による類音語があった場合に実行される音声認識処理の一例を示し、下段に、認識結果補正装置１２ｃによる類音語があった場合に実行される補正処理の一例を示している。当該補正は、変換ルールの生成を自動化する方式で実行され、限られた利用範囲の下で、独自の変換ルールを用意することで正しく補正することを可能ならしめる。

なお、図７では、説明の便宜上、認識結果補正装置１２ｃを音声認識装置１２と別体で図示しているが、実際には、認識結果補正機能を、音声認識装置１２における音声認識機能に持たせれば足りる。即ち、ハードウエア的には、認識結果補正装置１２ｃは、音声認識装置１２に含まれていればよい。同様に、認識結果補正装置１２ｃが参照したり登録したりし、記憶装置内に登録される変換ルール４０３についても、単語辞書４００、音響モデル４０１及び言語モデル４０２に含まれる形で構築されればよい。

図７において、先ずその上段にあるように、音声データが渡されると、音声認識装置１２は、音響モデル４０１、言語モデル４０２及び単語辞書４００を参照することで、音声認識を実行する。ここでは特に、汎用的な音声認識装置であればある程、類音語、同音異議語については、誤認識が発生しやすく、例えば認識結果として、誤を含む「どのような賞状ですか？」なるテキスト化された音声認識結果３０６ａが出力されるものとする。

そこで、図７の下段にあるように、誤を含む「どのような賞状ですか？」なるテキスト化された音声認識結果３０６ａが渡されると、認識結果補正装置１２は、変換ルール４０３を参照することで、認識結果の補正を実行する。ここでは特に、限られた利用範囲の元、独自の変換ルールを用意することで正しく補正を実行するようにしている。このため、補正結果として、正である「どのような症状ですか？」なるテキスト化された音声認識補正結果３０６ｂが出力される。このような独自の変換ルールは、例えば、“病院”や“医療”や“海外旅行”なるシナリオ範囲を限られた利用範囲に対し用意されており、独自の変換ルールとして、変換先としての予約（よやく）に対し、変換元１として与薬（よやく）、変換元２として意訳（いやく）、変換元３として要約（ようやく）、…といった変換ルールを規定する各種データ４０３ａが、用意されている。或いは、変換先としての症状（しょうじょう）に対し、変換元１として賞状（しょうじょう）、変換元２として少々（しょうしょう）、…といった変換ルール４０３ａが用意されている。

このように図７に示した補正に係る独自の変換ルールの生成を自動化する方式を採用すれば、限られた利用範囲の下での変換ルールを用意することで、比較的容易にして高精度で正しく補正することが可能となる。

次に、図８及び図９を参照して、本実施形態における、発話の特徴を利用した類音語の判定について説明を加える。本実施形態では、自動学習部１０３が自動学習データとして抽出する「差分」は、正の認識結果及び誤の認識間における表記的或いは文構造的な差異であってもよいが、このような表記的或いは文構造的な差異では、言い回しが変わると、何処が間違いであったのか、即ち、何処が誤で何処が正であったのかが判定できない状況が発生し得る。

図８に示すように即ち、学習データ４０４ｄとして単語３、単語４、単語５、単語７及び単語８が相互に不一致となっているが、言い回しが変わっているだけ或いは言い直されただけであって、誤認識された訳ではない単語が、これら不一致の単語らに混在している。従って、正誤の判定には、一致不一致に基づくのみではなく、それ以外に何らかの変換ルールがあることが望ましい。本例では、単語として認識結果上で正誤をなす「照会」及び「確認」が、正誤をなすものと判定できない。

図９に示すようにそこで、「一致」なる種別に加えて、「音の波形」及び「強調」なる種別を持つ学習データ４０４ｅを含むように言語モデル４０２ａを構成する。すると、単語として正誤をなす「照会」に対する「確認」が「強調」されている単語であることから、正誤をなす単語であると判定できる。「強調」されている個所であるか否かは、「音の波形」に基づいて、言い直した発話に係る音量の差、テンポ、感情（例えば、怒り）等から、話者であるユーザ２０が強調している個所として判定可能となる。

図８及び図９から分かるように、ユーザ２０が言い直した場合に、自然と間違った個所が強調して発話されるという性質を利用して、強調されている個所であるか否かを、変換ルールとして採用すれば、認識結果上で不一致である複数或いは多数の単語の中から、正誤をなす単語がどれであるのか判定できる。或いは、言い直しの際には、間違った個所を強調して発話するように、音声応答システム１に関して予め設定された使用マニュアルでユーザ２０にその旨を予め教育しておいてもよいし、その旨を適当な時点で合成音声字メッセージでユーザ２０に予め伝えておくのでもよい。何れの場合にも、ユーザ２０が言い直す際に当初間違いであった個所が強調されることで、認識結果上の正誤の個所を判定できるので、本実施形態は、実用上大変有利である。

次に、上述した各種の動作処理（図２～図９参照）により自動学習された学習データが、音声応答システム１に反映された（より具体的には、単語辞書４００、音響モデル４０１、言語モデル４０２、変換ルール４０３等が機械学習で更新された）後における、第１実施形態の利用イメージについて、図１０を参照して具体例で説明する。図１０では、図２で示したステップＳ１０～１３に対応して、対話Ｃ１０Ａ～Ｃ１３Ｂのやりとりがユーザ２０及び音声応答システム１間で、図中で上から下への順で行われる。

図１０において先ず、ユーザ２０から端末２１を介して「ホテルを予約したい。」との対話Ｃ１０Ａが行われる。ここでは一例として、「予約」なる単語部分について、ユーザ２０により、はっきりと発話で来ていない或いは雑音やノイズなどの影響ではっきりとキャプチャできないものとする。ここまでは、はっきりと発話できていない点を含めて、学習データ反映前である図３の対話Ｃ１０Ａの場合と同じである。

しかるに、これを受けて、音声応答システム１では、「ホタルを意訳したい」なる音声認識装置１２による当初の不正解の認識結果に基づいて既に学習済である、学習データ４０４ｆ等を含んでなる学習データを元に変換を行って、正解である「ホテルを予約したい」という認識結果を、この段階で導き出す。その結果、図２で説明した処理（即ち、主にステップＳ１０及びＳ１１の処理）を経て『「ホテルを予約したい」でよろしいでしょうか？』なる対話Ｃ１１Ｂがユーザ２０に対して行われる。ここでの対話Ｃ１１Ｂは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。

これを受けて、ユーザ２０から端末２１を介して「はい。」との対話Ｃ１２Ｂが行われる。即ち、対話Ｃ１１Ｂが正である（即ち、正解データである）旨の対話Ｃ１２Ｂが音声応答システム１に対して行われる。これを受けて、音声応答システム１から、図２で説明した処理（即ち、主にステップＳ１２及びＳ１３の処理）を経て、確認的な内容である『承りました。』なる対話Ｃ１３Ｂがユーザ２０に対して行われる。ここでの対話Ｃ１３Ｂは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。図１０に示した利用の場合、対話Ｃ１１Ｂが初めから正であるので、音声応答システム１では、学習データ抽出処理（即ち、図２のステップＳ１６の処理）が実行されることはない。

以上詳細に説明したように、第１実施形態によれば、復唱による自動学習であって上述の差分を学習データとして抽出する処理を用いるので、比較的容易にして効率良く、自動的に学習を実行できる。しかも、学習をすればする程、音声応答システム１とのやり取りの機会を低減できる。なお、類音語を利用した変換では、類音語の数が不必要なまでに多くなってしまうなどの悪影響もあるので、限られたシナリオ或いは利用範囲で（例えば、第１実施形態に係る音声応答システム１の利用範囲をシナリオ毎の特定業種に限るなどして）、第１実施形態を実施することで、より顕著なる効果が現れる。

＜第２実施形態＞
第２実施形態について図１１及び図１２を参照して説明する。第２実施形態に係る音声応答システム１のハードウエア的な全体構成は、第１実施形態のそれ（図１参照）と同様であるので、図１を援用することとし、その説明は適宜省略する。第２実施形態に係る音声応答システム１の動作処理及び利用イメージは、第１実施形態のそれら（図２及び図３参照）と異なるので、以下詳細に説明する。ここに図１１は、第１実施形態の図２と同趣旨の第２実施形態に係るフローチャートであり、図１２は、第１実施形態の図３と同趣旨の第２実施形態に係る図式的概念図である。図１１及び図１２において、第２実施形態では、ＡＩチャットボット（ＱＡ検索）部１０（図１参照）によるＱＡ検索におけるユーザ２０（図１参照）への回答に対する評価判定を行う。

図１１において具体的には先ず、第１実施形態における音声認識（図１のステップＳ１０）、レスポンス（図１のステップＳ１１）及び音声認識（図１のステップＳ１２）と同様の対話を経て、ユーザ２０の発話上の質問文の抽出処理が、音声認識装置１２、自動学習装置１００等により実行される（ステップＳ２０）。ここでは例えば「予約の照会の仕方を知りたい」という質問文が抽出される。

続いて、音声応答システム１内では、ＡＩチャットボット（ＱＡ検索）部１０によりＱＡ検索が実行される（ステップＳ２１）。ここでは例えば『「外来の受付には紹介状が…」でよろしいですか』なるＱＡ検索の結果が得られる。続いて、自動学習装置１００では、音声応答制御部１０２は、ＱＡ検索の結果である『「外来の受付には紹介状が…」でよろしいですか』というレスポンスを生成する。更に送信部１０１は、端末２１へ送信することで、ユーザ２０に対してＱＡ検索の結果が、合成音声の形式で（或いは、合成音声及びテキストの形式で）実行される（ステップＳ２２）。

これを受けて、再び音声認識装置１２によって、ユーザ２０から端末２１で入力され通信網及び音声キャプチャ装置１１を介して入力された音声に対する音声認識が実行され、例えば「はい」または「いいえ」との認識結果が得られる（ステップＳ２３）。

続いて、音声応答制御部１０２により認識結果の正誤判定が行われる（ステップＳ２４）。ステップＳ２４の判定において、認識結果が誤である場合（ステップＳ２４：「Ｎｏ」）、音声応答制御部１０２による制御下で、ユーザ２０に言い直しを促す旨の「もう一度お願いします」というレスポンスが、送信部１０１から送信される（ステップＳ２５）。更に、ステップＳ２０へ戻り、それ以降の処理が繰り返し実行される（ステップＳ２０～Ｓ２３）。即ち、音声応答システム１は、当該一連の対話におけるユーザ２０が先の質問文を含む発話を言い直すよう、レスポンスによりユーザ２０に促すことになる。

他方、ステップＳ２４の判定において認識結果が正である場合（ステップＳ２４：「Ｙｅｓ」）、当該一連の対話の中でステップＳ２４で少なくも一度「いいえ」とされた後に、自動学習部１０３は、ユーザ２０が言い直しをしたか否かを判定する。即ち、当該ユーザ２０及び音声応答システム１間でなされる一連の対話の中で、音声応答制御部１０２による判定が誤となった後に正となった場合における、誤となった認識結果と正となった認識結果との差分として、抽出可能な学習データがあるか否かが判定される（ステップＳ２６）。

ステップＳ２６の判定において、登録すべき学習データが在る場合、即ち現段階に至るまでにＱＡ検索結果に誤りがなかった場合（ステップＳ２６：ＮＯ）、抽出すべき学習データはないので、そのまま一連の処理を終了する。他方、ステップＳ２６の判定において、登録すべき学習データが在る場合、即ち現段階に至るまでに１回以上ＱＡ検索結果に誤りがあった場合（ステップＳ２６：ＹＥＳ）、自動学習部１０３は、先に誤であると判定された質問文及び今回正であると判定された質問文間の差分を、学習データとして抽出し（ステップＳ２７）、一連の処理を終了する。なおステップＳ２７における「差分」のとらえ方或いは扱い方等や抽出された学習データの登録の仕方等については、第１実施形態の場合と同様である。

次に図１２を参照して、上述の如きＱＡ回答に対する評価判定により自動学習を行うところの自動学習方法の利用イメージについて、具体例を交えながら説明を加える。なお、学習データがあるか否かの判定（図１１のステップＳ２６）及びある場合の学習データの抽出（図１１のステップＳ２７）の各処理については、リアルタイム的に実行されてもよいし、図１１のステップＳ２０～Ｓ２５の処理を示す記録ログから事後的に実行してもよい。

図１２において先ず、ユーザ２０から端末２１を介して「予約の照会の仕方を知りたい。」との対話Ｃ２０が行われる。これを受けて『予約の照会の仕方を知りたい」でよろしいでしょうか？』なる対話Ｃ２１がユーザ２０に対して行われる。ここでの対話Ｃ２１は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。

これを受けて、ユーザ２０から端末２１を介して「はい。」との対話Ｃ２２が行われる。即ち、対話Ｃ２１が正である（即ち、発話或いは発音自体は間違ってはいないため正しいと判断した）旨の対話Ｃ２２が音声応答システム１に対して行われる。

これを受けて、音声応答システム１から、図１１で説明したＱＡ検索処理（即ち、図１１のステップＳ２１）がＡＩチャットボット（ＱＡ検索）部１０により実行され、その結果「外来の受付には紹介状が…」…「解決しましたか？」なる対話Ｃ２３がユーザ２０に対して行われる。ここでの対話Ｃ２３は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。

これを受けて、ユーザ２０から端末２１を介して「いいえ。予約の確認の仕方を知りたい。」との対話Ｃ２４が行われる。即ち、対話Ｃ２１が誤であった（即ち、発話或いは発音自体は間違っていなかったものの、ＱＡ検索の結果からして実は誤或いは不正解データであった）旨の対話Ｃ２４が音声応答システム１に対して行われる。この際、ユーザ２０は、同音異義語の存在を大なり小なり意識して、「照会」ではなく「確認」なる単語を用いて対話Ｃ２４を行っている。言い換えれば、ユーザ２０は、敢えて、先の対話Ｃ２０と同じではなく、これと似た表現で言い直しをしている。なお、「似た表現」とは、類音語とは限らない。

これを受けて『予約の確認の仕方を知りたい」でよろしいでしょうか？』なる対話Ｃ２５がユーザ２０に対して行われる。ここでの対話Ｃ２５は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。

これを受けて、音声応答システム１から、図１１で説明したＱＡ検索処理（即ち、図１１のステップＳ２１）がＡＩチャットボット（ＱＡ検索）部１０により実行され、その結果「予約サイトから参照…」…「解決しましたか？」なる対話Ｃ２７がユーザ２０に対して行われる。ここでの対話Ｃ２７は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。

これを受けて、ユーザ２０から端末２１を介して「はい。」との対話Ｃ２８が行われる。即ち、対話Ｃ２５が正である（即ち、正解データである）旨の対話Ｃ２８が音声応答システム１に対して行われる。

なお、本実施形態において、対話Ｃ２８の入力に代えて或いは加えて、ユーザ２０がＱＡ検索の結果に満足した際に発信する「いいね」等の肯定的なメッセージに基づいて、対応する認識結果が正である（即ち正解データである）ことを、音声応答システム１側で判定することも可能である。

以上の一連の対話は、対話Ｃ２１が誤（即ち、不正解データ）であり且つ対話Ｃ２５が正（正解データ）である場合となるので、音声応答システム１では、学習データ抽出処理（即ち、図１１のステップＳ２７の処理）が実行される。

より具体的には、音声応答システム１は、対話Ｃ２１にある不正解データと対話Ｃ２５にある正解データとの差分を抽出する。この抽出は、全体の対話を複数の単語（即ち単語１～単語４）に分解することで相異なる対話部分（図１２中で「判定」が“×”となる対話部分）を構築している「照会」と「確認」とを、学習データ４０４ｇとすることで行う。更に、音声応答システム１は、このようにして抽出した単語３に係る「照会」と「確認」を、相互に“類義語”なる種別で、自動学習データ４００ｅとして（“確認”を“正解”に且つ“照会”を“不正解”にという形式で）単語辞書に登録する。なお、このような差分に基づく自動学習データ４０４ｈの登録は、リアルタイム的に遅延なく行われてもよいし、記録ログを利用することで事後的に行われてもよい。また、学習データとして、「確認」と「紹介」と「照会」とを対応付けて記憶してもよい。また、学習データとして、類音語に関する正解データ「照会」と不正解データ「紹介」とを対応付けて記憶してもよい。

以上詳細に説明したように、第２実施形態によれば、ＱＡ回答に対する評価判定を利用しつつ上述の差分を学習データとして抽出する処理を用いるので、比較的容易にして効率良く、自動的に学習を実行できる。しかも、学習をすればする程、音声応答システム１とのやり取りの機会を低減できる。なお、類音語を利用した変換では、類音語の数が不必要なまでに多くなってしまうなどの悪影響もあるので、限られたシナリオ或いは利用範囲で（例えば、第２実施形態に係る音声応答システム１の利用範囲をシナリオ毎の特定業種に限るなどして）、第２実施形態を実施することで、より顕著なる効果が現れる。

付記
以上説明した実施形態に関して、更に以下の付記を開示する。

［付記１］
付記１に記載のＡＩチャットボットにおける認識結果の自動学習装置は、話者からの発話に係る前記ＡＩチャットボットによる認識結果を復唱する復唱部と、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定部と、前記発話に関して前記話者及び前記ＡＩチャットボット間でなされる対話の中で、前記判定部による判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習部とを備える。

［付記２］
付記２に記載の自動学習装置は、前記復唱部は、前記認識結果を、そのまま又は該認識結果を少なくとも部分的に同じ意味を持つ他の言葉に置き換えた上で、前記ＡＩチャットボットからの発話で又は前記話者が認識可能な出力形式で出力することで、復唱することを特徴とする付記１記載の自動学習装置である。

［付記３］
付記３に記載の自動学習装置は、前記判定部は、前記復唱された認識結果に対する前記話者の反応として、前記話者による更なる発話又はＡＩチャットボットが検出、識別若しくは認識可能な形式での入力内容に基づいて前記認識結果の正誤を判定することを特徴とする付記１又は２に記載の自動学習装置である。

［付記４］
付記４に記載の自動学習装置は、前記学習部は、前記学習データの抽出として、前記反応として前記話者により更なる発話がなされ該更なる発話に係る判定が正となった場合、前記誤となった認識結果と前記正となった認識結果との相互間で差分となる単語を、類音語として辞書登録することを特徴とする付記１から３のいずれか一付記に記載の自動学習装置である。

［付記５］
付記５に記載の自動学習装置は、前記ＡＩチャットボットは、前記反応として前記話者により更なる発話がなされた場合に、前記更なる発話の音声から前記話者の感情認識を行い、前記発話における誤の原因となる箇所を特定し、該特定された個所が誤であるとの前提で前記更なる発話を認識することを特徴とする付記１から４のいずれか一付記に記載の自動学習装置である。

［付記６］
付記６に記載の自動学習装置は、前記判定部は、前記復唱された認識結果に対する前記話者の反応に加えて又は代えて、前記ＡＩチャットボットによる認識結果に応じて前記ＡＩチャットボットにより実行されたＱＡ検索の検索結果に対する前記話者の反応に基づいて、前記認識結果の正誤を判定することを特徴とする付記１から５のいずれか一付記に記載の自動学習装置である。

［付記７］
付記７に記載のＡＩチャットボットにおける認識結果の自動学習方法は、話者からの発話に係る前記ＡＩチャットボットによる認識結果を復唱する復唱ステップと、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定ステップと、前記発話に関して前記話者及び前記ＡＩチャットボット間でなされる対話の中で、前記判定ステップによる判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習ステップとを備える。

［付記８］
付記８に記載のコンピュータプログラムは、コンピュータに、付記７に記載のモデル構築方法を実行させるコンピュータプログラムである。

［付記９］
付記９に記載の記録媒体は、付記８に記載のコンピュータプログラムが記録された記録媒体である。

本発明は、請求の範囲及び明細書全体から読み取るこのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴うＡＩチャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体もまた本発明の技術思想に含まれる。

１…音声応答システム（ＡＩチャットボット）
１０…ＡＩチャットボット（ＱＡ検索）部
１１…音声キャプチャ装置
１２…音声認識装置
２０…ユーザ
２１…端末
１００…自動学習装置
１０１…送信部
１０２…音声応答制御部
１０３…自動学習部
４００…単語辞書ＤＢ
４０１…音響モデルＤＢ
４０２…言語モデルＤＢ
４０３…変換ルールＤＢ
４０４…学習データＤＢ

Claims

ＡＩチャットボットにおける認識結果の自動学習装置であって、
話者からの発話に係る前記ＡＩチャットボットによる認識結果を復唱する復唱部と、
前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定部と、
前記発話に関して前記話者及び前記ＡＩチャットボット間でなされる対話の中で、前記判定部による判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習部と
を備えることを特徴とするＡＩチャットボットにおける認識結果の自動学習装置。
前記復唱部は、前記認識結果を、そのまま又は該認識結果を少なくとも部分的に同じ意味を持つ他の言葉に置き換えた上で、前記ＡＩチャットボットからの発話で又は前記話者が認識可能な出力形式で出力することで、復唱することを特徴とする請求項１に記載のＡＩチャットボットにおける認識結果の自動学習装置。
前記判定部は、前記復唱された認識結果に対する前記話者の反応として、前記話者による更なる発話又はＡＩチャットボットが検出、識別若しくは認識可能な形式での入力内容に基づいて前記認識結果の正誤を判定することを特徴とする請求項１又は２に記載のＡＩチャットボットにおける認識結果の自動学習装置。
前記学習部は、前記学習データの抽出として、前記反応として前記話者により更なる発話がなされ該更なる発話に係る判定が正となった場合、前記誤となった認識結果と前記正となった認識結果との相互間で差分となる単語を、類音語として辞書登録することを特徴とする請求項１から３のいずれか一項に記載のＡＩチャットボットにおける認識結果の自動学習装置。
前記ＡＩチャットボットは、前記反応として前記話者により更なる発話がなされた場合に、前記更なる発話の音声から前記話者の感情認識を行い、前記発話における誤の原因となる箇所を特定し、該特定された個所が誤であるとの前提で前記更なる発話を認識することを特徴とする請求項１から４のいずれか一項に記載のＡＩチャットボットにおける認識結果の自動学習装置。
前記判定部は、前記復唱された認識結果に対する前記話者の反応に加えて又は代えて、前記ＡＩチャットボットによる認識結果に応じて前記ＡＩチャットボットにより実行されたＱＡ検索の検索結果に対する前記話者の反応に基づいて、前記認識結果の正誤を判定することを特徴とする請求項１から５のいずれか一項に記載のＡＩチャットボットにおける認識結果の自動学習装置。
ＡＩチャットボットにおける認識結果の自動学習方法であって、
話者からの発話に係る前記ＡＩチャットボットによる認識結果を復唱する復唱ステップと、
前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定ステップと、
前記発話に関して前記話者及び前記ＡＩチャットボット間でなされる対話の中で、前記判定ステップによる判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習ステップと
を備えることを特徴とするＡＩチャットボットにおける認識結果の自動学習方法。
コンピュータに、請求項７に記載のＡＩチャットボットにおける認識結果の自動学習方法を実行させるコンピュータプログラム。
請求項８に記載のコンピュータプログラムが記録された記録媒体。