JP2023080132A - 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体 - Google Patents

音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体 Download PDF

Info

Publication number
JP2023080132A
JP2023080132A JP2023053622A JP2023053622A JP2023080132A JP 2023080132 A JP2023080132 A JP 2023080132A JP 2023053622 A JP2023053622 A JP 2023053622A JP 2023053622 A JP2023053622 A JP 2023053622A JP 2023080132 A JP2023080132 A JP 2023080132A
Authority
JP
Japan
Prior art keywords
recognition result
chatbot
recognition
speaker
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023053622A
Other languages
English (en)
Inventor
正二朗 森部
Seijiro Moribe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2023053622A priority Critical patent/JP2023080132A/ja
Publication of JP2023080132A publication Critical patent/JP2023080132A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】AIチャットボットにおける認識結果の自動学習装置において、効率良く認識精度を上げる。【解決手段】話者からの発話に係るAIチャットボット(1)による認識結果を復唱する復唱部(101)と、復唱された認識結果に対する話者の反応に基づいて認識結果の正誤を判定する判定部(102)と、発話に関して話者及びAIチャットボット間でなされる対話の中で、判定が誤となった後に正となった場合における、誤となった認識結果と正となった認識結果との差分に基づいて発話に係る学習データ(404a)を抽出する学習部(103)とを備える。【選択図】図1

Description

本発明は、例えばAI(Artificial Intelligence:人工知能)スピーカ或いはスマートスピーカや、音声認識IVR(Interactive Voice Response:自動音声応答装置)や、チャットIF(Inter-Face:インタフェース)のような対話型の音声認識装置を含んでなり、音声を通じて或いは音声及びテキストを通じて、話者との会話を自動的に行うAIチャットボット(chatbot或いはchatterbot)或いは音声応答システムにおいて、話者の発話の認識結果を自動学習する装置及び方法、並びにコンピュータをそのような装置として機能させるコンピュータプログラム及び記録媒体の技術分野に関する。
近年、AIチャットボット或いは音声応答システムについては、諸外国、我が国等の企業により商品化され、更にその機能向上のために各種の提案がなされている。例えば特許文献1では、ユーザ発話の意図が問合せであるか否かを判定する装置が提案されている。
特許文献2では、対話システムが答えられなかった質問に答えるための知識を拡充する情報処理装置が提案されている。特許文献3では、AIチャットボットサーバーに既に蓄積された知識を利用する音声問合せシステムが提案されている。
特開2019-114141号公報 特開2019-061482号公報 特許第6555838号公報
AIチャットボット或いは音声応答システムでは、音声認識の精度を効率良く向上させること或いは少ない作業やデータ処理により該精度を向上させることが望ましい。
しかしながら、例えば特許文献1では、ユーザ発話の意図を示す対話行為及びユーザ発話の発話主題を推定し、該推定された対話行為が問合せを示し且つ該推定された発話主題が回答可能な問合せ対象である場合に、発話が問合せであると判定するように構成されている。特許文献2では、失敗原因を分析して、該原因に応じて対話ログデータから質問文を生成出力し、その質問に対する回答を対話データの新たな知識として追加するように構成されている。特許文献3では、数多くのチャットボットサーバ装置夫々が分散して学習処理を行うことで、数多くのチャットボットサーバ装置に既に蓄積されている学習モデルを利用して、個別のAIスピーカで取得された音声による質問に対する答弁を行うように構成されている。
従って、これらの背景技術に係るシステム或いは既存の商品によれば何れも、音声認識の精度を上げるためには、音響モデルや言語モデル等の学習データが必要となる。更に、音に対する読み、読みに対する表記といった学習データは現状、人が正解を与える必要があり、非常に手間がかかる。しかも、学習データを無暗に増やせば必ず精度が上がるという訳でもない。勿論、登録データの増大は、取り扱うべきデータ量の肥大化、或いはデータ処理の負荷の増大に繋がってしまうという問題点もある。
このように音声認識の性質上、その精度を効率良く向上させること、或いは利用者(言い換えれば、話者であるシステムの利用者或いはユーザ)、音響モデルや言語モデル等の教師データを与える作業者(言い換えれば、正解データを与える作業者)等といった人員にかける負担を軽減し、少ない人手作業や更に少ないデータ処理により該精度を向上させることは技術的に困難である。
本発明は、例えば上述した技術的問題に鑑みなされたものであり、音声認識の精度を効率良く向上させることが可能な、AIチャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータをそのような装置として機能させるコンピュータプログラム及び記録媒体を提供することを課題とする。
本発明に係るAIチャットボットにおける認識結果の自動学習装置の一の態様は上記課題を解決するために、話者からの発話に係る前記AIチャットボットによる認識結果を復唱する復唱部と、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定部と、前記発話に関して前記話者及び前記AIチャットボット間でなされる対話の中で、前記判定部による判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習部とを備える。
本発明に係るAIチャットボットにおける認識結果の自動学習方法の一の態様は上記課題を解決するために、話者からの発話に係る前記AIチャットボットによる認識結果を復唱する復唱ステップと、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定ステップと、前記発話に関して前記話者及び前記AIチャットボット間でなされる対話の中で、前記判定ステップによる判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習ステップとを備える。
本発明に係るコンピュータプログラムの一の態様は、コンピュータに、上述したAIチャットボットにおける認識結果の自動学習方法の一の態様を実行させる。
本発明の記録媒体の一の態様は、上述したコンピュータプログラムの一の態様が記録された記録媒体である。
上述したAIチャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体の夫々の一の態様によれば、利用者に負担をかけることなく自動的に、音声認識の精度を効率良く向上させることが可能となる。より具体的には例えば、利用者若しくはユーザ又は話者に負担をかけることなく正解データの登録を促すことで自動的に学習を行うことが可能となり、類似の質問での認識精度を向上させることが可能となり、学習すればする程AIチャットボットとのやり取りを減らすことが可能となる。更に、類音語を利用した変換は悪影響もあり得るため、例えば、限られたシナリオの範囲で当該自動学習を実行すれば、言い換えれば、シナリオ毎に学習データを構築すれば或いは分ければ、各シナリオにて上述の効果はより顕著に現れる。
本発明によるこのような作用効果は、以下に説明する発明の実施形態により、より明らかにされる。
第1実施形態に係る、本発明に係る「AIチャットボット」の一例としての音声応答システムにおける認識結果の自動学習装置を含んで構成される、当該音声応答システムの全体構成を示すブロック図である。 第1実施形態に係る、復唱による自動学習の処理フローを示すフローチャートである。 第1実施形態に係る、復唱による自動学習に係る利用イメージを示す図式的概念図である。 第1実施形態に係る、音声認識の仕組みを示す図式的概念図である。 第1実施形態の一比較例における「学習データの作成方法」を示す図式的概念図である。 第1実施形態の他の比較例における「学習データの作成方法」を示す図式的概念図である。 第1実施形態に係る、類音語を使用した音声認識結果を補正する処理を示す図式的概念図である。 第1実施形態に係る、発話の特徴を利用した類音語の判定に係る利用イメージを示す図式的概念図(その1)である。 第1実施形態に係る、発話の特徴を利用した類音語の判定に係る利用イメージを示す図式的概念図(その2)である。 第1実施形態に係る、学習データを反映した後における利用イメージを示す図式的概念図である。 第2実施形態に係る、回答に対する評価判定による自動学習の処理フローを示すフローチャートである。 第2実施形態に係る、回答に対する評価判定による自動学習に係る利用イメージを示す図式的概念図である。
<第1実施形態>
第1実施形態について図1~図10を参照して説明する。先ず図1を参照して第1実施形態の全体構成について説明する。ここに図1は、第1実施形態に係る、音声認識における認識結果の自動学習装置100を有する音声応答システム1の全体構成を図式的に示している。即ち、本実施形態では、音声応答システム1が、本発明に係る「AIチャットボット」の一例を構成している。
図1に示すように、音声応答システム1は、AIチャットボット(QA検索)部10、音声キャプチャ装置11、音声認識装置12、単語辞書DB400と音響モデルDB401と言語モデルDB402と変換ルールDB403と学習データDB404とを含む記憶装置、並びに自動学習装置100を含んで構成されている。単語辞書DB400は、単語の表記と読みの対応関係である単語辞書を記憶する。例えば、単語辞書は、図4の単語辞書400aである。音響モデルDB401は、音素と読みとの対応関係である音響モデルを記憶する。例えば、音響モデルは、図4の音響モデル401aである。言語モデルDB402は、隠れマルコフモデル等の言語モデルを記憶する。例えば、言語モデルは、図4の言語モデル402aである。変換ルールDB403は、変換先と変換元の単語の対応関係である変換ルールを記憶する。例えば、変換モデルは、図7の変換ルール403aである。学習データDB404は、学習データを記憶する。例えば、学習データは、図1の学習データ404aや図3の学習データ404b或いは404cである。自動学習装置100は、送信部101、音声応答制御部102及び自動学習部103を備えて構成されている。
音声キャプチャ装置11は、ユーザ(或いは、システムの利用者或いは話者)20が端末21のマイクに向けて発した音声をキャプチャする装置であり、インターネット等の通信網を介して該音声をキャプチャする。ここで、端末21は、例えば、スマートホン、PC(Personal Computer)、タブレット、携帯電話、腕時計型デバイスや眼鏡型デバイス等のウェアラブルデバイス、などである。尚、音声キャプチャ装置11は、ユーザ20の発話をキャプチャできるデバイスであれば、端末21のマイクに限定されず、端末21と有線または無線で通信可能に接続されたデバイス等でもよい。音声キャプチャ装置11は、キャプチャした音声の音声データを音声認識装置12に出力する。
音声認識装置12は、音声キャプチャ装置11でキャプチャされた音声を、後に詳述するように自動学習装置100により自動学習され記憶装置に格納された音響モデル401と、言語モデル402とに基づいて、音声認識する。その音声認識の仕組みについても後に詳述する(図4等参照)。音声認識装置12は、当該音声認識した結果である音声認識結果を自動学習装置100に出力する。
AIチャットボット(QA検索)部10は、音声認識された認識結果で示される質問に対する、QA或いはQ&A(Question and Answer:即ち、質問に対する回答)を、QAナレッジ10a内に構築された各種の知識データを格納するQAナレッジ10aから検索するように構成されている。より具体的には、自動学習装置100により、音声認識結果が復唱されユーザからの音声の認識結果が正しいと判定された場合に、AIチャットボット部10は、ユーザからの質問に対する回答を返す。更に、ユーザからの質問に対する回答がおかしい又は回答がない場合に、AIチャットボット部10は、QA検索するように構成されている。
自動学習装置100では、音声応答制御部102による制御下で、先ず、音声認識装置12による認識結果を、合成音声又は合成音声及びテキストの組み合わせ(以下適宜、単に「合成音声等」と称する)で、本発明に係る「復唱部」の一例を音声応答制御部102と共に構成する送信部101が、ユーザ20の端末21へ向けて復唱する。具体的には先ず、音声応答制御部102は、音声認識結果の入力を受け付ける。音声応答制御部102は、音声認識結果に基づいて、ユーザ20に対して出力するための合成音声を生成する。
送信部101は、当該生成された合成音声データ又は合成音声のテキストデータを端末21に送信する。音声応答制御部102は、当該入力された音声認識結果をAIチャットボット(QA検索)部10に出力する。
本実施形態に係る「復唱」とは、認識結果をそのまま合成音声(以下、「復唱合成音声」ともいう。)又はテキスト(以下、「復唱テキスト」ともいう。)で返す(即ち、文字通り復唱する)のでもよいし、認識結果を確認する内容の或いは認識結果に適当な前置き若しくは後置きを付加した内容又は要約した内容の復唱合成音声等又は復唱テキストで返す(即ち、同一内容ながら表現を変えて復唱する)のでもよい。例えば「○○」であるとの認識結果に対して「○○でよろしいでしょうか?」などとする発話を返す(即ち、復唱する)のでもよい。例えば、ユーザ20が端末21に対して「タクシーを呼びたい。」と言った場合、端末21から「『タクシーを呼びたい。』でよろしいですか。」という復唱合成音声又は復唱テキストが出力される。更に、認識結果と同様の意味を有し、より汎用性の高いものとして単語辞書等に登録されている他の同意語や、同義語、類義語、同様の意味の文章で置き換えた内容で返す(即ち、復唱する)のでもよい。
更に、自動学習装置100では、音声応答制御部102による制御下で、音声認識装置12による認識結果に対してAIチャットボット(QA検索)部10によりQA検索された検索結果に係る合成音声又はテキストを、送信部101が、ユーザ20の端末21に対して送信するように構成されている。
本実施形態では特に、これら一連の対話の中で、自動学習装置100は後に詳述するように、本発明に係る「判定部」の一例を構成する音声応答制御部102により実行される認識結果の正誤判定において、音声認識装置12による最初の或いは先の認識結果が“誤”であり且つその後の認識結果が“正”となった場合に、本発明に係る「学習部」の一例を構成する自動学習部103が、当該正誤の認識結果の差分を自動学習データ404aとして抽出し、これを単語辞書に登録するように構成されている。
言い換えれば、本実施形態では、音声応答制御部102により実行される認識結果の正誤判定において、認識結果が最初から“正”である(即ち、誤となる認識結果が存在しない)場合や、最後まで“誤”である(即ち、正が何であるのかが言い換えれば正解が結局分からない)場合、上記差分が存在しないため、ここにいう差分を自動学習データ404aとして抽出する処理は行われない。但し、当該差分に係る抽出処理とは別に、当初から“正”である認識結果や、最後まで“誤”である認識結果を、他の統計的なデータ処理などのために利用すること或いはデータとして蓄積しておき事後的に何らかの方法でデータ解析に利用することは任意である。
本実施形態に係る「差分」とは、正の認識結果及び誤の認識結果間における表記的あるいは文構造的な差異であってもよい。例えば、この場合の「差分」とは、単語の違いである。しかし、本実施形態に係る「差分」はこれに限らず、これに加えて又は代えて、例えば、声の強弱の差異、声のテンポの差異、声或いは発話内容から推定される話者の感情の差異など、発話の特徴上の差異であってもよい。
以上のように、本発明によれば、いずれの場合にも、後で詳述するように教師データを与える作業者等といった人員にかける負担(図5及び図6参照)を顕著に軽減しつつ、自動学習データ404aを機械学習或いはAI学習により単語辞書内に登録可能となる。しかも、このような音声応答システム1における、正誤判定の結果に応じた自動学習は、リアルタイム的に対話しながら実行可能であり、或いは、ユーザ20及び音声応答システム1間の対話に係る記録ログを事後的に参照して実行することも可能である。
本実施形態では例えば、自動学習部103は、図1に例示したように、ユーザ20及び音声応答システム1間の対話を通じて、種別を一の“類音語”とし、上述の如き“差分”として夫々抽出された「ホタル」及び「ホテル」を相互に対応する「単語1」及び「単語2」とする自動学習データ404aを登録する。これは、「ホタルを意訳したい」という誤(言い換えれば、不正解データ)であると判定された認識結果と、後に正(言い換えれば、正解データ)であると判定された「ホテルを予約したい」との差分に基づく自動学習データである。更に、種別を他の“類音語”とし、「小樽」及び「ホテル」を相互に対応する「単語1」及び「単語2」とする自動学習データ404aを登録する。これは、「小樽を予約したい」という誤であると判定された認識結果と、後に正であると判定された「ホテルを予約したい」との差分に基づく自動学習データである。同じく種別を他の“類音語”として「意訳」及び「予約」を相互に対応する「単語1」及び「単語2」を自動学習データ404aとして登録する。更にまた、種別を“共起”(即ち、同一の対話の中で共に起こり得る可能性が高い組み合わせ或いは対の一つ)とし、「ホテル」及び「予約」を相互に対応する「単語1」及び「単語2」とする自動学習データ404aとして登録するように構成されている。
より具体的には図1に例示したように、ユーザ20が、端末21に、(I)「ホテルを予約したいです。」と発話すると、この音声を音声キャプチャ装置11はキャプチャする。更に、音声応答制御部102の制御下で、音響モデル401及び言語モデル402を利用しての音声認識装置12による認識結果たる(I)『ホタルを意訳したい』を、送信部101は復唱する。即ち、本例では復唱たる(I)「『ホタルを意訳したい』でよろしいでしょうか?」なる合成音声データ又は合成音声に係るテキストデータを、端末21から、当該認識結果の元となる発話をした当人であるユーザ20に対して復唱するように構成されている。
これを受けて、直近の認識結果が誤(NG)であることを意味する(II)『「違います。ホテルを予約したいです。」なる発話がユーザ20からなされ、更にこれを受けて、直近の認識結果が誤(NG)であると判定した後に(II)『「回答がありませんでした」もう一度…』なる合成音声等による発話がユーザ20に対してなされたりする。更に、音声認識装置12の側で直近の認識結果が誤(NG)であることが判明する(III)「(不正解に気を悪くして感情的に“イラッ”として)ホテルを予約したいです!」なるユーザ20による発話などの、ユーザ20の思考や、音声応答制御部102による音声認識装置12の認識結果の正誤判定の結果に応じて、多種多様なやり取りが行われ、最終的には、(III)『ホテル予約ですね。予約日と人数を…』という正(OK)である旨の認識結果が、音声応答システム1から発話されることになる。
このようにユーザ20及び音声応答システム1間で、ホテル予約に関して一連の対話がなされると、音声応答システム1は、『ホテルを予約したい』なる正(OK)の認識結果に最終的には辿り着き、AIチャットボット(QA検索)部10は、QAナレッジ10aを活用して、正の認識結果が示す質問に対するQA検索を実行するように構成されている。この際、QA検索との連携で、音声応答制御部102では、例えば「小樽を予約したい」なる認識結果は誤(NG)であり且つ「ホテルを予約したい」なる認識結果は正(OK)であるとの判定が可能となる。即ち、本実施形態によれば、QA検索の結果に対するユーザ20の反応(例えば、「いいね」ボタンを押すなど)に基づいて、認識結果の正誤判定を少なくとも部分的に実行することが可能であり、認識機能を効率良く向上させることが可能となる。
自動学習装置100の自動学習部103は、上述した認識結果との差分の抽出、更にその自動学習データ404aとしての登録を、このようなQA検索の実行と相前後して若しくは並行して又は記録ログを利用して事後的に実施可能に構成されている。
なお、このような自動学習装置100等を含んで構成される音声応答システム1は、説明の便宜上図1では各装置単位や各部単位で別体として図示されているが、音声キャプチャ機能、音声認識機能、音声応答制御機能、送信機能、自動学習機能、AIチャットボットのQA検索機能などを備えており且つ端末21と同じ通信網に収容可能であれば、一又は複数のコンピュータ或いは端末装置、一又は複数のサーバ装置、一又は複数のデータベース或いは記憶装置などから、ハードウエア的に或いはソフトウエア的に各種形態で柔軟に実現されるものであってよい。また、上述した機能のうちの少なくとも一以上の機能は、クラウドで実行可能である。汎用コンピュータに本実施形態に係る自動学習方法を行わせる独自のコンピュータプログラムにより実現してもよい。更にそのようなプログラムが格納された記憶媒体からコンピュータへ、該プログラムを直接又はダウンロード後に読み込むことで実現してもよい。
次に、図2から図10を参照して、図1に示した如き構成を有する第1実施形態の動作処理について詳述する。
図2において、音声認識装置12によって、ユーザ20から端末21で入力され通信網及び音声キャプチャ装置11を介して入力された音声に対する音声認識が実行され、例えば「ホテルを意訳したい」との認識結果が得られる(ステップS10)。続いて、自動学習装置100では、音声応答制御部102による制御下で『「ホテルを意訳したい」でよろしいですか』というレスポンスが生成される。更に、送信部101は、端末21へ当該生成されるレスポンスを送信し、ユーザ20に対して、合成音声の形式で(或いは、テキストの形式で又は合成音声及びテキスト両方の形式で)復唱する(ステップS11)。
続いて、再び音声認識装置12は、ユーザ20から端末21で入力され通信網及び音声キャプチャ装置11を介して入力された音声に対する音声認識を行い、例えば「はい」または「いいえ」との認識結果が得られる(ステップS12)。
続いて、音声応答制御部102により認識結果の正誤判定が行われる(ステップS13)。ステップS13の判定において、認識結果が誤である場合(ステップS13:「No」)、音声応答制御部102は、ユーザ20に言い直しを促す旨の「もう一度お願いします」というレスポンスを生成し、送信部101は当該生成されるレスポンスを端末21に送信する(ステップS14)。更に、ステップS10へ戻り、それ以降の処理が繰り返し実行される(ステップS10~S13)。即ち、音声応答システム1は、当該一連の対話におけるユーザ20が先の発話を言い直すよう、レスポンスによりユーザ20に促すことになる。
他方、ステップS13の判定において認識結果が正である場合(ステップS13:「Yes」)、当該一連の対話の中でステップS13で少なくとも一度「No」とされた後(即ち、認識結果が誤であると判定された後)に、自動学習部103は、ユーザ20が言い直しをしたか否かを判定する。即ち、当該ユーザ20及び音声応答システム1間でなされる一連の対話の中で、音声応答制御部102が誤と判定した後に正と判定した場合、誤と判定された認識結果と正と判定された認識結果との差分として抽出可能な学習データがあるか否かが判定される(ステップS15)。
ステップS15の判定において、言い直しはなかった場合(ステップS15:NO)、抽出すべき学習データはないので、そのまま一連の処理を終了する。他方、ステップS15の判定において、言い直しをした場合(ステップS15:YES)、抽出すべき学習データが存在している場合(即ち、一連の対話の中で、判定が誤となった後に正となった場合)であるので、自動学習部103は、該差分を学習データとして抽出し(ステップS16)、一連の処理を終了する。
次に図3を参照して、上述の如き復唱により自動学習を行うところの自動学習方法の利用イメージについて、具体例を交えながら説明を加える。図3では、先ず図2で示したステップS10~S14に対応して、対話C10A~C14Aのやりとりがユーザ20及び音声応答システム1間で、図中で上から下への順で行われる。なお、学習データがあるか否かの判定(図2のステップS15)及びある場合の学習データの抽出(図2のステップS16)の各処理については、リアルタイム的に実行されてもよいし、図2のステップS10~S14の処理を示す記録ログから事後的に実行してもよい。
図3において先ず、ユーザ20から端末21を用いて「ホテルを予約したい。」との音声C10Aの入力を受け付ける。ここでは一例として、「予約」なる単語部分について、ユーザ20により、はっきりと発話出来ていない或いは雑音やノイズなどの影響ではっきりとキャプチャできないものとする。
これを受けて、音声応答システム1は、図2で説明した処理(即ち、主にステップS10及びS11の処理)を経て『「ホテルを意訳したい」でよろしいでしょうか?』なる対話C11Aがユーザ20に送信する。ここでの対話C11Aは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージであってもよい。この場合、音声応答システム1は、ユーザ20の端末21に(例えば、SMS,LINE等のアプリの形式で)送信する。
これを受けて、ユーザ20から端末21を介して「いいえ。」との対話C12Aが行われる。即ち、対話C11Aが誤りである(即ち、不正解データである)旨の対話C12Aが音声応答システム1に対して行われる。これを受けて、音声応答システム1は、図2で説明した処理(即ち、主にステップS12、S13及びS14の処理)を経て『もう一度お願いします。』なる対話C14Aがユーザ20に対して行われる。ここでの対話C14Aは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで送信されてもよい。
これを受けて、ユーザ20から端末21を介して「ホテルを予約したい」との対話C10Bが行われる。ここでは一例として、「予約」なる単語部分について、ユーザ20により、はっきり発話できた或いは雑音やノイズなどの影響なくはっきりキャプチャできたものとする。これを受けて、音声応答システム1は、図2で説明した処理(即ち、主にステップS10及びS11の処理)を経て『「ホテルを予約したい」でよろしいでしょうか?』なる対話C11Bがユーザ20に対して行われる。ここでの対話C11Bは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで送信されてもよい。
これを受けて、ユーザ20から端末21を介して「はい。」との対話C12Bが行われる。即ち、対話C11Bが正である(即ち、正解データである)旨の対話C12Bが音声応答システム1に対して行われる。これを受けて、音声応答システム1は、図2で説明した処理(即ち、主にステップS12及びS13の処理)を経て、確認的な内容である『承りました。』なる対話C13Bがユーザ20に対して行われる。ここでの対話C13Bは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで送信されてもよい。
以上の一連の対話は、対話C11Aが誤(即ち不正解データ)であり且つ対話C11Bが正(即ち、正解データ)である場合となるので、音声応答システム1では、学習データ抽出処理(即ち、図2のステップS16の処理)が実行される。
より具体的には、音声応答システム1の自動学習部103は、対話C11Aにある不正解データと対話C11Bにある正解データとの差分を抽出する。この抽出は、全体の対話に相当する自動学習データ404cを構成する複数の単語(即ち単語1~単語4)に分解することで、相異なる対話部分(図3中で「判定」が“×”となる対話部分)を構築している「意訳」と「予約」とを、自動学習データ404bとすることで行う。
更に、音声応答システム1の自動学習部103は、このようにして抽出した単語3に係る「意訳」と「予約」)を、相互に“類音語”の種別で、自動学習データ404bに対応する変換ルール403bとして(“予約”を“正解”に且つ“意訳”を“不正解”にという形式で)変換ルールDB403に登録する。この変換ルール403bの登録と並行して或いは相前後して、自動学習データ404a(図1参照)に対応する変換ルール403aを変換ルールDB403に登録する。なお、このような差分に基づく自動学習データ404bの登録は、リアルタイム的に遅延なく行われてもよいし、記録ログを利用することで事後的に行われてもよい。
次に図4を参照して、上述の音声応答システム1における音声認識装置102(図1参照)での音声認識の仕組み(即ち、図2に示した音声認識処理(ステップS10或いはS12における処理方式)について、具体例を交えながら説明を加える。
図4において、先ず、音声キャプチャ装置11(図1参照)でキャプチャされた音の波形301を、音声認識装置12は、多数の音響モデル401aの如き音素及び読みを対応付けたデータを含んでなる音響モデルDB401を参照することで、読み305(即ち、ここでの具体例としての「さーびすおもーしこみたいのですが」)に変換する(図4の上段に図示したステップSTEP1)。
これを受けて、音声認識装置12は、多数の単語辞書400aの如き表記及び読みの対応データを含む単語辞書400並びに多数の言語モデル402aの如きユーザの発話を単語に分解してかなや漢字に対応付けた形で含んでなる言語モデルDB402を参照することで、読み305をかな漢字表記306(即ち、ここでの具体例としての「サービスを申し込みたいのですが」)に変換する(図4の下段に図示したステップSTEP2)。
以上図4に示したように、音の波形を読みに変換し、更にこれをかな漢字表記に変換することで、本実施形態の一具体例における音声認識(例えば、図2におけるステップS10、S12等の処理)は実行される。
次に、図5及び図6を参照して、図2のステップS16の学習データの抽出方法、言い換えれば、学習データの作成方法における、顕著なる効果或いは大きな利点について説明を加える。
図5に図示した比較例における、音声認識結果から書き起こすことによる学習データの作成方法によれば、50~100時間の音響データ301を、作業者30(即ち、音響モデルや言語モデル等の教師データを与える作業者或いは正解データを与える作業者)が、人手でテキスト化する。例えば、電話オペレータOPが「お電話ありがとうございます。
」と発話し、ユーザ或いはカスタマ(CU)が「パソコンが壊れました。」と発話し、オペレータ(OP)が「どのような症状ですか?」と発話し、ユーザ或いはカスタマ(CU)が「電源が入りません。」の如き対話が行われた後に、当該対話を含む音響データ301から、テキスト化された音声認識結果306が、作業者30の人手により作成される。
この際、テキスト中の未知語の単語辞書400への登録が行われたり、単語の出現ルールを追加することで言語モデル402の構築が行われたりする。
当該比較例によれば、作業者30が実行せねばならない、当該テキスト化のための人手による作業は、通話時間の10倍位の時間がかかる作業となってしまう。即ち、本例では、500~1000時間と言った長時間の人手による労働(即ち、人手によるテキスト化作業)が必要となってしまう。
図6に図示した比較例における、認識結果から書き起こすことによる学習データの作成方法によれば、作業者30が人手で誤認識している個所を探し出し、修正する。例えば、オペレータ(OP)が「お電話ありがとうございます。」と発話し、ユーザ或いはカスタマ(CU)が「パソコンが乞われました。」と発話し、オペレータ(OP)が「どのような賞状ですか?」と発話し、ユーザ或いはカスタマ(CU)が「電源が入りません。」と発話したとの如き、誤まってテキスト化された部分を含むテキスト化された音声認識結果306aに対して、人手で、誤認識している個所が、「乞われる」や「賞状」だとして認識される。これにより、正しくテキスト化された音声認識結果306bが作成される。更に、「乞われる」や「賞状」は、正しくは「壊れる」や「症状」であるという出現ルールや未知語の登録が、人手によって実行される。そして、テキスト中の未知語(例えば「症状」)の単語辞書400への登録が行われたり、単語の出現ルールを追加することで言語モデル402の構築が行われたりする。
当該比較例によれば、作業者30が実行せねばならない、人手による作業は、やはり時間及びストレスがかかる長時間の労働が必要となってしまう。
図5及び図6に示した比較例との比較からも明らかなように、上述の本実施形態(図1から図4参照)における、作業者による認識結果から書き起こすという人手による過酷な労働なしに、一連の対話の中で自動的に不正解データと正解データとの差分を抽出し、これを学習データとして自動的に登録するという作用効果は、人手を掛けずに効率的に高精度で自動学習データを増やして行く上で顕著に有利である。特に図6の認識結果から書き起こす作業を、自動学習により極めて効率的に実行できるので、本実施形態は大変有利である。
次に、図7を参照して、本実施形態における、類音語を使用した音声認識結果の補正について説明を加える。ここに図7では、上段に音声認識装置12(図1参照)による類音語があった場合に実行される音声認識処理の一例を示し、下段に、認識結果補正装置12cによる類音語があった場合に実行される補正処理の一例を示している。当該補正は、変換ルールの生成を自動化する方式で実行され、限られた利用範囲の下で、独自の変換ルールを用意することで正しく補正することを可能ならしめる。
なお、図7では、説明の便宜上、認識結果補正装置12cを音声認識装置12と別体で図示しているが、実際には、認識結果補正機能を、音声認識装置12における音声認識機能に持たせれば足りる。即ち、ハードウエア的には、認識結果補正装置12cは、音声認識装置12に含まれていればよい。同様に、認識結果補正装置12cが参照したり登録したりし、記憶装置内に登録される変換ルール403についても、単語辞書400、音響モデル401及び言語モデル402に含まれる形で構築されればよい。
図7において、先ずその上段にあるように、音声データが渡されると、音声認識装置12は、音響モデル401、言語モデル402及び単語辞書400を参照することで、音声認識を実行する。ここでは特に、汎用的な音声認識装置であればある程、類音語、同音異議語については、誤認識が発生しやすく、例えば認識結果として、誤を含む「どのような賞状ですか?」なるテキスト化された音声認識結果306aが出力されるものとする。
そこで、図7の下段にあるように、誤を含む「どのような賞状ですか?」なるテキスト化された音声認識結果306aが渡されると、認識結果補正装置12は、変換ルール403を参照することで、認識結果の補正を実行する。ここでは特に、限られた利用範囲の元、独自の変換ルールを用意することで正しく補正を実行するようにしている。このため、補正結果として、正である「どのような症状ですか?」なるテキスト化された音声認識補正結果306bが出力される。このような独自の変換ルールは、例えば、“病院”や“医療”や“海外旅行”なるシナリオ範囲を限られた利用範囲に対し用意されており、独自の変換ルールとして、変換先としての予約(よやく)に対し、変換元1として与薬(よやく)、変換元2として意訳(いやく)、変換元3として要約(ようやく)、…といった変換ルールを規定する各種データ403aが、用意されている。或いは、変換先としての症状(しょうじょう)に対し、変換元1として賞状(しょうじょう)、変換元2として少々(しょうしょう)、…といった変換ルール403aが用意されている。
このように図7に示した補正に係る独自の変換ルールの生成を自動化する方式を採用すれば、限られた利用範囲の下での変換ルールを用意することで、比較的容易にして高精度で正しく補正することが可能となる。
次に、図8及び図9を参照して、本実施形態における、発話の特徴を利用した類音語の判定について説明を加える。本実施形態では、自動学習部103が自動学習データとして抽出する「差分」は、正の認識結果及び誤の認識間における表記的或いは文構造的な差異であってもよいが、このような表記的或いは文構造的な差異では、言い回しが変わると、何処が間違いであったのか、即ち、何処が誤で何処が正であったのかが判定できない状況が発生し得る。
図8に示すように即ち、学習データ404dとして単語3、単語4、単語5、単語7及び単語8が相互に不一致となっているが、言い回しが変わっているだけ或いは言い直されただけであって、誤認識された訳ではない単語が、これら不一致の単語らに混在している。従って、正誤の判定には、一致不一致に基づくのみではなく、それ以外に何らかの変換ルールがあることが望ましい。本例では、単語として認識結果上で正誤をなす「照会」及び「確認」が、正誤をなすものと判定できない。
図9に示すようにそこで、「一致」なる種別に加えて、「音の波形」及び「強調」なる種別を持つ学習データ404eを含むように言語モデル402aを構成する。すると、単語として正誤をなす「照会」に対する「確認」が「強調」されている単語であることから、正誤をなす単語であると判定できる。「強調」されている個所であるか否かは、「音の波形」に基づいて、言い直した発話に係る音量の差、テンポ、感情(例えば、怒り)等から、話者であるユーザ20が強調している個所として判定可能となる。
図8及び図9から分かるように、ユーザ20が言い直した場合に、自然と間違った個所が強調して発話されるという性質を利用して、強調されている個所であるか否かを、変換ルールとして採用すれば、認識結果上で不一致である複数或いは多数の単語の中から、正誤をなす単語がどれであるのか判定できる。或いは、言い直しの際には、間違った個所を強調して発話するように、音声応答システム1に関して予め設定された使用マニュアルでユーザ20にその旨を予め教育しておいてもよいし、その旨を適当な時点で合成音声字メッセージでユーザ20に予め伝えておくのでもよい。何れの場合にも、ユーザ20が言い直す際に当初間違いであった個所が強調されることで、認識結果上の正誤の個所を判定できるので、本実施形態は、実用上大変有利である。
次に、上述した各種の動作処理(図2~図9参照)により自動学習された学習データが、音声応答システム1に反映された(より具体的には、単語辞書400、音響モデル401、言語モデル402、変換ルール403等が機械学習で更新された)後における、第1実施形態の利用イメージについて、図10を参照して具体例で説明する。図10では、図2で示したステップS10~13に対応して、対話C10A~C13Bのやりとりがユーザ20及び音声応答システム1間で、図中で上から下への順で行われる。
図10において先ず、ユーザ20から端末21を介して「ホテルを予約したい。」との対話C10Aが行われる。ここでは一例として、「予約」なる単語部分について、ユーザ20により、はっきりと発話で来ていない或いは雑音やノイズなどの影響ではっきりとキャプチャできないものとする。ここまでは、はっきりと発話できていない点を含めて、学習データ反映前である図3の対話C10Aの場合と同じである。
しかるに、これを受けて、音声応答システム1では、「ホタルを意訳したい」なる音声認識装置12による当初の不正解の認識結果に基づいて既に学習済である、学習データ404f等を含んでなる学習データを元に変換を行って、正解である「ホテルを予約したい」という認識結果を、この段階で導き出す。その結果、図2で説明した処理(即ち、主にステップS10及びS11の処理)を経て『「ホテルを予約したい」でよろしいでしょうか?』なる対話C11Bがユーザ20に対して行われる。ここでの対話C11Bは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。
これを受けて、ユーザ20から端末21を介して「はい。」との対話C12Bが行われる。即ち、対話C11Bが正である(即ち、正解データである)旨の対話C12Bが音声応答システム1に対して行われる。これを受けて、音声応答システム1から、図2で説明した処理(即ち、主にステップS12及びS13の処理)を経て、確認的な内容である『承りました。』なる対話C13Bがユーザ20に対して行われる。ここでの対話C13Bは、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。図10に示した利用の場合、対話C11Bが初めから正であるので、音声応答システム1では、学習データ抽出処理(即ち、図2のステップS16の処理)が実行されることはない。
以上詳細に説明したように、第1実施形態によれば、復唱による自動学習であって上述の差分を学習データとして抽出する処理を用いるので、比較的容易にして効率良く、自動的に学習を実行できる。しかも、学習をすればする程、音声応答システム1とのやり取りの機会を低減できる。なお、類音語を利用した変換では、類音語の数が不必要なまでに多くなってしまうなどの悪影響もあるので、限られたシナリオ或いは利用範囲で(例えば、第1実施形態に係る音声応答システム1の利用範囲をシナリオ毎の特定業種に限るなどして)、第1実施形態を実施することで、より顕著なる効果が現れる。
<第2実施形態>
第2実施形態について図11及び図12を参照して説明する。第2実施形態に係る音声応答システム1のハードウエア的な全体構成は、第1実施形態のそれ(図1参照)と同様であるので、図1を援用することとし、その説明は適宜省略する。第2実施形態に係る音声応答システム1の動作処理及び利用イメージは、第1実施形態のそれら(図2及び図3参照)と異なるので、以下詳細に説明する。ここに図11は、第1実施形態の図2と同趣旨の第2実施形態に係るフローチャートであり、図12は、第1実施形態の図3と同趣旨の第2実施形態に係る図式的概念図である。図11及び図12において、第2実施形態では、AIチャットボット(QA検索)部10(図1参照)によるQA検索におけるユーザ20(図1参照)への回答に対する評価判定を行う。
図11において具体的には先ず、第1実施形態における音声認識(図1のステップS10)、レスポンス(図1のステップS11)及び音声認識(図1のステップS12)と同様の対話を経て、ユーザ20の発話上の質問文の抽出処理が、音声認識装置12、自動学習装置100等により実行される(ステップS20)。ここでは例えば「予約の照会の仕方を知りたい」という質問文が抽出される。
続いて、音声応答システム1内では、AIチャットボット(QA検索)部10によりQA検索が実行される(ステップS21)。ここでは例えば『「外来の受付には紹介状が…」でよろしいですか』なるQA検索の結果が得られる。続いて、自動学習装置100では、音声応答制御部102は、QA検索の結果である『「外来の受付には紹介状が…」でよろしいですか』というレスポンスを生成する。更に送信部101は、端末21へ送信することで、ユーザ20に対してQA検索の結果が、合成音声の形式で(或いは、合成音声及びテキストの形式で)実行される(ステップS22)。
これを受けて、再び音声認識装置12によって、ユーザ20から端末21で入力され通信網及び音声キャプチャ装置11を介して入力された音声に対する音声認識が実行され、例えば「はい」または「いいえ」との認識結果が得られる(ステップS23)。
続いて、音声応答制御部102により認識結果の正誤判定が行われる(ステップS24)。ステップS24の判定において、認識結果が誤である場合(ステップS24:「No」)、音声応答制御部102による制御下で、ユーザ20に言い直しを促す旨の「もう一度お願いします」というレスポンスが、送信部101から送信される(ステップS25)。更に、ステップS20へ戻り、それ以降の処理が繰り返し実行される(ステップS20~S23)。即ち、音声応答システム1は、当該一連の対話におけるユーザ20が先の質問文を含む発話を言い直すよう、レスポンスによりユーザ20に促すことになる。
他方、ステップS24の判定において認識結果が正である場合(ステップS24:「Yes」)、当該一連の対話の中でステップS24で少なくも一度「いいえ」とされた後に、自動学習部103は、ユーザ20が言い直しをしたか否かを判定する。即ち、当該ユーザ20及び音声応答システム1間でなされる一連の対話の中で、音声応答制御部102による判定が誤となった後に正となった場合における、誤となった認識結果と正となった認識結果との差分として、抽出可能な学習データがあるか否かが判定される(ステップS26)。
ステップS26の判定において、登録すべき学習データが在る場合、即ち現段階に至るまでにQA検索結果に誤りがなかった場合(ステップS26:NO)、抽出すべき学習データはないので、そのまま一連の処理を終了する。他方、ステップS26の判定において、登録すべき学習データが在る場合、即ち現段階に至るまでに1回以上QA検索結果に誤りがあった場合(ステップS26:YES)、自動学習部103は、先に誤であると判定された質問文及び今回正であると判定された質問文間の差分を、学習データとして抽出し(ステップS27)、一連の処理を終了する。なおステップS27における「差分」のとらえ方或いは扱い方等や抽出された学習データの登録の仕方等については、第1実施形態の場合と同様である。
次に図12を参照して、上述の如きQA回答に対する評価判定により自動学習を行うところの自動学習方法の利用イメージについて、具体例を交えながら説明を加える。なお、学習データがあるか否かの判定(図11のステップS26)及びある場合の学習データの抽出(図11のステップS27)の各処理については、リアルタイム的に実行されてもよいし、図11のステップS20~S25の処理を示す記録ログから事後的に実行してもよい。
図12において先ず、ユーザ20から端末21を介して「予約の照会の仕方を知りたい。」との対話C20が行われる。これを受けて『予約の照会の仕方を知りたい」でよろしいでしょうか?』なる対話C21がユーザ20に対して行われる。ここでの対話C21は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。
これを受けて、ユーザ20から端末21を介して「はい。」との対話C22が行われる。即ち、対話C21が正である(即ち、発話或いは発音自体は間違ってはいないため正しいと判断した)旨の対話C22が音声応答システム1に対して行われる。
これを受けて、音声応答システム1から、図11で説明したQA検索処理(即ち、図11のステップS21)がAIチャットボット(QA検索)部10により実行され、その結果「外来の受付には紹介状が…」…「解決しましたか?」なる対話C23がユーザ20に対して行われる。ここでの対話C23は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。
これを受けて、ユーザ20から端末21を介して「いいえ。予約の確認の仕方を知りたい。」との対話C24が行われる。即ち、対話C21が誤であった(即ち、発話或いは発音自体は間違っていなかったものの、QA検索の結果からして実は誤或いは不正解データであった)旨の対話C24が音声応答システム1に対して行われる。この際、ユーザ20は、同音異義語の存在を大なり小なり意識して、「照会」ではなく「確認」なる単語を用いて対話C24を行っている。言い換えれば、ユーザ20は、敢えて、先の対話C20と同じではなく、これと似た表現で言い直しをしている。なお、「似た表現」とは、類音語とは限らない。
これを受けて『予約の確認の仕方を知りたい」でよろしいでしょうか?』なる対話C25がユーザ20に対して行われる。ここでの対話C25は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。
これを受けて、音声応答システム1から、図11で説明したQA検索処理(即ち、図11のステップS21)がAIチャットボット(QA検索)部10により実行され、その結果「予約サイトから参照…」…「解決しましたか?」なる対話C27がユーザ20に対して行われる。ここでの対話C27は、合成音声のみならず、合成音声に加えて又は代えてテキストメッセージで発信させてもよい。
これを受けて、ユーザ20から端末21を介して「はい。」との対話C28が行われる。即ち、対話C25が正である(即ち、正解データである)旨の対話C28が音声応答システム1に対して行われる。
なお、本実施形態において、対話C28の入力に代えて或いは加えて、ユーザ20がQA検索の結果に満足した際に発信する「いいね」等の肯定的なメッセージに基づいて、対応する認識結果が正である(即ち正解データである)ことを、音声応答システム1側で判定することも可能である。
以上の一連の対話は、対話C21が誤(即ち、不正解データ)であり且つ対話C25が正(正解データ)である場合となるので、音声応答システム1では、学習データ抽出処理(即ち、図11のステップS27の処理)が実行される。
より具体的には、音声応答システム1は、対話C21にある不正解データと対話C25にある正解データとの差分を抽出する。この抽出は、全体の対話を複数の単語(即ち単語1~単語4)に分解することで相異なる対話部分(図12中で「判定」が“×”となる対話部分)を構築している「照会」と「確認」とを、学習データ404gとすることで行う。更に、音声応答システム1は、このようにして抽出した単語3に係る「照会」と「確認」を、相互に“類義語”なる種別で、自動学習データ400eとして(“確認”を“正解”に且つ“照会”を“不正解”にという形式で)単語辞書に登録する。なお、このような差分に基づく自動学習データ404hの登録は、リアルタイム的に遅延なく行われてもよいし、記録ログを利用することで事後的に行われてもよい。また、学習データとして、「確認」と「紹介」と「照会」とを対応付けて記憶してもよい。また、学習データとして、類音語に関する正解データ「照会」と不正解データ「紹介」とを対応付けて記憶してもよい。
以上詳細に説明したように、第2実施形態によれば、QA回答に対する評価判定を利用しつつ上述の差分を学習データとして抽出する処理を用いるので、比較的容易にして効率良く、自動的に学習を実行できる。しかも、学習をすればする程、音声応答システム1とのやり取りの機会を低減できる。なお、類音語を利用した変換では、類音語の数が不必要なまでに多くなってしまうなどの悪影響もあるので、限られたシナリオ或いは利用範囲で(例えば、第2実施形態に係る音声応答システム1の利用範囲をシナリオ毎の特定業種に限るなどして)、第2実施形態を実施することで、より顕著なる効果が現れる。
付記
以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
付記1に記載のAIチャットボットにおける認識結果の自動学習装置は、話者からの発話に係る前記AIチャットボットによる認識結果を復唱する復唱部と、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定部と、前記発話に関して前記話者及び前記AIチャットボット間でなされる対話の中で、前記判定部による判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習部とを備える。
[付記2]
付記2に記載の自動学習装置は、前記復唱部は、前記認識結果を、そのまま又は該認識結果を少なくとも部分的に同じ意味を持つ他の言葉に置き換えた上で、前記AIチャットボットからの発話で又は前記話者が認識可能な出力形式で出力することで、復唱することを特徴とする付記1記載の自動学習装置である。
[付記3]
付記3に記載の自動学習装置は、前記判定部は、前記復唱された認識結果に対する前記話者の反応として、前記話者による更なる発話又はAIチャットボットが検出、識別若しくは認識可能な形式での入力内容に基づいて前記認識結果の正誤を判定することを特徴とする付記1又は2に記載の自動学習装置である。
[付記4]
付記4に記載の自動学習装置は、前記学習部は、前記学習データの抽出として、前記反応として前記話者により更なる発話がなされ該更なる発話に係る判定が正となった場合、前記誤となった認識結果と前記正となった認識結果との相互間で差分となる単語を、類音語として辞書登録することを特徴とする付記1から3のいずれか一付記に記載の自動学習装置である。
[付記5]
付記5に記載の自動学習装置は、前記AIチャットボットは、前記反応として前記話者により更なる発話がなされた場合に、前記更なる発話の音声から前記話者の感情認識を行い、前記発話における誤の原因となる箇所を特定し、該特定された個所が誤であるとの前提で前記更なる発話を認識することを特徴とする付記1から4のいずれか一付記に記載の自動学習装置である。
[付記6]
付記6に記載の自動学習装置は、前記判定部は、前記復唱された認識結果に対する前記話者の反応に加えて又は代えて、前記AIチャットボットによる認識結果に応じて前記AIチャットボットにより実行されたQA検索の検索結果に対する前記話者の反応に基づいて、前記認識結果の正誤を判定することを特徴とする付記1から5のいずれか一付記に記載の自動学習装置である。
[付記7]
付記7に記載のAIチャットボットにおける認識結果の自動学習方法は、話者からの発話に係る前記AIチャットボットによる認識結果を復唱する復唱ステップと、前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定ステップと、前記発話に関して前記話者及び前記AIチャットボット間でなされる対話の中で、前記判定ステップによる判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習ステップとを備える。
[付記8]
付記8に記載のコンピュータプログラムは、コンピュータに、付記7に記載のモデル構築方法を実行させるコンピュータプログラムである。
[付記9]
付記9に記載の記録媒体は、付記8に記載のコンピュータプログラムが記録された記録媒体である。
本発明は、請求の範囲及び明細書全体から読み取るこのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴うAIチャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体もまた本発明の技術思想に含まれる。
1…音声応答システム(AIチャットボット)
10…AIチャットボット(QA検索)部
11…音声キャプチャ装置
12…音声認識装置
20…ユーザ
21…端末
100…自動学習装置
101…送信部
102…音声応答制御部
103…自動学習部
400…単語辞書DB
401…音響モデルDB
402…言語モデルDB
403…変換ルールDB
404…学習データDB

Claims (9)

  1. AIチャットボットにおける認識結果の自動学習装置であって、
    話者からの発話に係る前記AIチャットボットによる認識結果を復唱する復唱部と、
    前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定部と、
    前記発話に関して前記話者及び前記AIチャットボット間でなされる対話の中で、前記判定部による判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習部と
    を備えることを特徴とするAIチャットボットにおける認識結果の自動学習装置。
  2. 前記復唱部は、前記認識結果を、そのまま又は該認識結果を少なくとも部分的に同じ意味を持つ他の言葉に置き換えた上で、前記AIチャットボットからの発話で又は前記話者が認識可能な出力形式で出力することで、復唱することを特徴とする請求項1に記載のAIチャットボットにおける認識結果の自動学習装置。
  3. 前記判定部は、前記復唱された認識結果に対する前記話者の反応として、前記話者による更なる発話又はAIチャットボットが検出、識別若しくは認識可能な形式での入力内容に基づいて前記認識結果の正誤を判定することを特徴とする請求項1又は2に記載のAIチャットボットにおける認識結果の自動学習装置。
  4. 前記学習部は、前記学習データの抽出として、前記反応として前記話者により更なる発話がなされ該更なる発話に係る判定が正となった場合、前記誤となった認識結果と前記正となった認識結果との相互間で差分となる単語を、類音語として辞書登録することを特徴とする請求項1から3のいずれか一項に記載のAIチャットボットにおける認識結果の自動学習装置。
  5. 前記AIチャットボットは、前記反応として前記話者により更なる発話がなされた場合に、前記更なる発話の音声から前記話者の感情認識を行い、前記発話における誤の原因となる箇所を特定し、該特定された個所が誤であるとの前提で前記更なる発話を認識することを特徴とする請求項1から4のいずれか一項に記載のAIチャットボットにおける認識結果の自動学習装置。
  6. 前記判定部は、前記復唱された認識結果に対する前記話者の反応に加えて又は代えて、前記AIチャットボットによる認識結果に応じて前記AIチャットボットにより実行されたQA検索の検索結果に対する前記話者の反応に基づいて、前記認識結果の正誤を判定することを特徴とする請求項1から5のいずれか一項に記載のAIチャットボットにおける認識結果の自動学習装置。
  7. AIチャットボットにおける認識結果の自動学習方法であって、
    話者からの発話に係る前記AIチャットボットによる認識結果を復唱する復唱ステップと、
    前記復唱された認識結果に対する前記話者の反応に基づいて前記認識結果の正誤を判定する判定ステップと、
    前記発話に関して前記話者及び前記AIチャットボット間でなされる対話の中で、前記判定ステップによる判定が誤となった後に正となった場合における、前記誤となった認識結果と前記正となった認識結果との差分に基づいて前記発話に係る学習データを抽出する学習ステップと
    を備えることを特徴とするAIチャットボットにおける認識結果の自動学習方法。
  8. コンピュータに、請求項7に記載のAIチャットボットにおける認識結果の自動学習方法を実行させるコンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムが記録された記録媒体。
JP2023053622A 2019-09-30 2023-03-29 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体 Pending JP2023080132A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023053622A JP2023080132A (ja) 2019-09-30 2023-03-29 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019179539A JP7363307B2 (ja) 2019-09-30 2019-09-30 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
JP2023053622A JP2023080132A (ja) 2019-09-30 2023-03-29 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019179539A Division JP7363307B2 (ja) 2019-09-30 2019-09-30 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2023080132A true JP2023080132A (ja) 2023-06-08

Family

ID=75272261

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019179539A Active JP7363307B2 (ja) 2019-09-30 2019-09-30 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
JP2023053622A Pending JP2023080132A (ja) 2019-09-30 2023-03-29 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019179539A Active JP7363307B2 (ja) 2019-09-30 2019-09-30 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Country Status (1)

Country Link
JP (2) JP7363307B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3566977B2 (ja) * 1993-12-27 2004-09-15 株式会社東芝 自然言語処理装置及びその方法
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
JP2018004976A (ja) * 2016-07-04 2018-01-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、音声対話装置及び音声対話プログラム
US10019986B2 (en) * 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
JP6824795B2 (ja) * 2017-03-17 2021-02-03 ヤフー株式会社 修正装置、修正方法および修正プログラム
KR102428911B1 (ko) * 2017-05-24 2022-08-03 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
JP6654611B2 (ja) * 2017-12-05 2020-02-26 株式会社日立製作所 成長型対話装置

Also Published As

Publication number Publication date
JP2021056392A (ja) 2021-04-08
JP7363307B2 (ja) 2023-10-18

Similar Documents

Publication Publication Date Title
US11380327B2 (en) Speech communication system and method with human-machine coordination
US6937983B2 (en) Method and system for semantic speech recognition
López-Cózar et al. Assessment of dialogue systems by means of a new simulation technique
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP4812029B2 (ja) 音声認識システム、および、音声認識プログラム
JP5405672B2 (ja) 外国語学習装置及び対話システム
JP3350293B2 (ja) 対話処理装置及び対話処理方法
US7907705B1 (en) Speech to text for assisted form completion
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US10382624B2 (en) Bridge for non-voice communications user interface to voice-enabled interactive voice response system
JP2000339314A (ja) 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体
Gibbon et al. Spoken language system and corpus design
US11615787B2 (en) Dialogue system and method of controlling the same
US20040006469A1 (en) Apparatus and method for updating lexicon
Lamel Spoken language dialog system development and evaluation at LIMSI
JP2019197221A (ja) 用件判定装置、用件判定方法およびプログラム
López-Cózar et al. Combining language models in the input interface of a spoken dialogue system
JP7363307B2 (ja) 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
WO2022249362A1 (ja) テキストを合成音声に変換する音声合成
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
López-Cózar et al. Evaluation of a Dialogue System Based on a Generic Model that Combines Robust Speech Understanding and Mixed-initiative Control.
JP6615803B2 (ja) 用件判定装置、用件判定方法およびプログラム
López-Cózar et al. Testing dialogue systems by means of automatic generation of conversations
Koo et al. KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240405