JP6334815B2 - 学習装置、方法、プログラムおよび音声対話システム - Google Patents

学習装置、方法、プログラムおよび音声対話システム Download PDF

Info

Publication number
JP6334815B2
JP6334815B2 JP2017507165A JP2017507165A JP6334815B2 JP 6334815 B2 JP6334815 B2 JP 6334815B2 JP 2017507165 A JP2017507165 A JP 2017507165A JP 2017507165 A JP2017507165 A JP 2017507165A JP 6334815 B2 JP6334815 B2 JP 6334815B2
Authority
JP
Japan
Prior art keywords
utterance
intention
text
similar
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017507165A
Other languages
English (en)
Other versions
JPWO2016151699A1 (ja
Inventor
藤井 寛子
寛子 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2016151699A1 publication Critical patent/JPWO2016151699A1/ja
Application granted granted Critical
Publication of JP6334815B2 publication Critical patent/JP6334815B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、学習装置、方法およびプログラムに関する。
近年、スマートフォンなどの小型携帯端末の普及に伴い、自由発話入力の対話システムが普及している。しかし、対話システムに対してユーザがどのような発話を行うかはあらかじめ予測することができないため、システム側がユーザの発話(ユーザ発話)の意図を正しく解釈できないケースも発生する。このような場合、システム側はユーザ発話の意図を誤り、誤った意図をもとに応答を返すか、ユーザ発話の意図推定ができずにユーザに言い直しを求めることになる。ユーザにとっては、システム側が正しくユーザ発話の意図を解釈するまで言い直しや訂正の発話を行う必要があるため、このようなケースは少ないのが望ましい。しかし、システムが正しく意図推定できない発話を把握し、ルールを追加したり正解意図を付与して学習し直すたりするのは、非常にコストがかかる。
上述の問題に対し、ユーザ発話に対する複数の認識結果候補と、音声認識結果の認識スコアとを利用して、同じ誤りを低減するための手法がある。
特開2009−25538号公報
しかし、認識スコアが高い場合には、ユーザ発話への確認が行われないため、認識スコアは高いがユーザ発話の意図推定が誤っている場合は、ユーザが言い直す必要がある。また、同じ発話でも意図が常に同じとは限らないため、認識スコアが高くても、意図推定が誤る可能性がある。
本開示は、上述の課題を解決するためになされたものであり、意図推定のためのデータ作成コストを低減することができる学習装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る学習装置は、第1格納部、検出部および修正部を含む。学習装置は、ユーザの発話を音声認識した結果である第1テキストから推定された該ユーザの発話意図を用いる。第1格納部は、対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する。検出部は、前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する。修正部は、前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する。
前提となる対話システムの一例を示す概念図。 第1の実施形態に係る学習装置のブロック図。 学習装置の類似情報更新処理を示すフローチャート。 対話履歴格納部に格納される対話履歴の第1例を示す図。 類似情報格納部に格納される類似情報の第1例を示す図。 対話履歴の第2例を示す図。 類似情報の第2例を示す図。 対話履歴の第3例を示す図。 類似情報の第3例を示す図。 第1の実施形態に係る学習装置の発話登録処理を示すフローチャート。 発話意図情報格納部に格納される発話意図情報の一例を示す図。 第2の実施形態に係る学習装置のブロック図。 第2の実施形態に係る学習装置の発話登録処理を示すフローチャート。 第2の実施形態に係る類似情報格納部に格納される類似情報の一例を示す図。 第3の実施形態に係る学習装置を示すブロック図。 第4の実施形態に係る学習装置を示すブロック図。 第4の実施形態に係る対話履歴の一部を抽出した第1例を示す図。 図17の対話履歴に対応する類似情報を示す図。 第4の実施形態に係る対話履歴の一部を抽出した第2例である。 図19の対話履歴に対応する類似情報を示す図。 第4の実施形態に係る学習装置の類似情報更新処理を示すフローチャート。
以下、図面を参照しながら本実施形態に係る学習装置、方法およびプログラム、および端末について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
本実施形態で前提となる対話システムの一例について図1の概念図を参照して説明する。
図1に示す対話システム100は、端末101と対話処理サーバ102とを含む。端末101は、ここでは、例えば、ユーザ103が使用するタブレット端末、スマートフォンなどの携帯電話であることを想定する。本実施形態では、ユーザ103が端末101に搭載されるクライアントアプリに対して音声入力を行なうことを前提とするが、テキスト入力するような場合でも同様に処理することができる。
対話処理サーバ102は、ネットワーク104を介して端末101に接続され、端末101に音声入力された音声信号を受信して、音声信号に対して音声認識を行い、音声認識結果を得る。対話処理サーバ102は、音声認識結果からユーザの意図を推定し、意図に応じた処理を行う対話システムとして動作し、処理結果に基づいて音声認識結果に対する応答処理を行う。応答処理としては、例えば音声認識結果に対する応答である応答テキストを音声合成して合成音声を生成し、合成音声を端末101に送信すればよい。なお、上記では対話処理サーバ102が音声認識処理および音声合成処理も行うとしているが、別途音声認識サーバおよび音声合成サーバを用意し、音声認識サーバが音声認識処理を行い、音声合成サーバが音声合成処理を行なってもよい。
次に、第1の実施形態に係る学習装置について図2のブロック図を参照して説明する。
第1の実施形態に係る学習装置200は、発話受理部201、意図解析部202、類似情報検出部203、意図修正部204、発話登録部205、対話制御部206、応答生成部207、対話履歴格納部208(第2格納部ともいう)、類似発話抽出部209、類似情報更新部210(第1更新部ともいう)、意図解析情報格納部211、類似情報格納部212(第1格納部ともいう)および発話意図情報格納部213を含む。
なお、発話受理部201、意図解析部202、対話制御部206および応答生成部207は、一般的な対話処理装置に含まれる構成であり、本実施形態に係る学習装置200は、対話処理装置を含む。
発話受理部201は、例えば、図1に示す端末101のマイクを通じてユーザが発話した音声を受理し、音声を音声認識する。発話受理部201は、音声認識されたテキストを発話テキストとして取得する。本実施形態では、ユーザの音声を外部の音声認識サーバに送信することで音声認識を行い、音声認識結果であるテキストを音声認識サーバから受け取ることを想定する。
意図解析部202は、発話受理部201から発話テキストを受け取り、後述の意図解析情報格納部211を参照して発話テキストに対して意図解析を行い、ユーザの発話意図を推定する。
類似情報検出部203は、意図解析部202から発話テキストおよび発話意図を受け取り、発話テキストが後述の類似情報格納部212に格納されている類似情報に含まれるテキストと一致するか否かを判定する。発話テキストと一致するテキストを含む類似情報が類似情報格納部212に格納される場合は、該当する類似情報(対応類似情報ともいう)を検出する。類似情報検出部203は、発話テキストと一致するテキストを含む類似情報が類似情報格納部212に格納されていない場合は、そのまま発話テキストおよび発話意図を対話制御部206に送る。
意図修正部204は、類似情報検出部203から、発話テキスト、発話意図および対応類似情報を受け取り、後述の類似情報の確信度が閾値以上である場合に、ユーザの発話意図を類似情報に含まれる意図候補に修正する。
発話登録部205は、意図修正部204から発話テキストと修正された発話意図とを受け取り、発話テキストと発話意図との組を、後述の発話意図情報格納部213に登録する。なお、発話登録部205は、発話テキストを発話受理部201から受け取ってもよい。
対話制御部206は、発話意図の修正がない場合は、類似情報検出部203から発話テキストと発話意図とを受け取り、対話処理を行なって対話処理結果を生成する。発話意図の修正がある場合は、対話制御部206は、意図修正部204から発話テキストと修正された発話意図とを受け取り、対話処理を行なって対話処理結果を生成する。
応答生成部207は、対話制御部206から対話処理結果を受け取り、対話処理結果に基づいて、応答テキストを生成し、外部(クライアント)に送信またはユーザに提示する。
対話履歴格納部208は、意図解析部202から発話テキストを、応答生成部207から応答テキストを受け取り、対話履歴として格納する。対話履歴については、図5を参照して後述する。
類似発話抽出部209は、対話履歴格納部208から未処理の対話履歴を抽出し、同一のユーザIDの発話テキストのみを時系列に並べた場合に、対話が成功したと判定された発話に類似する一連の発話を含む類似発話を抽出し、類似発話をグループ化した類似発話グループを生成する。なお、ユーザIDは、対話処理サーバ102が複数のクライアントからの要求を処理する際に、どの対話に対するユーザ発話であるかを特定するのに利用される識別子である。なお、ユーザIDは、必ずしもユーザ固有の識別子でなくてもよく、例えば、ユーザが利用するクライアント端末単位、あるいはセッション単位(ユーザ発話が、進行中の対話に対する発話か、または新規に対話を開始するのかを判別できる粒度)で一意であればよい。
類似情報更新部210は、類似発話抽出部209から類似発話グループを受け取り、類似発話グループの情報に基づいて、後述の類似情報格納部212に格納される類似情報を更新する。また、意図修正部204から修正された発話意図および発話テキストを受け取る場合は、修正された発話意図および発話テキストの内容で類似情報格納部212に格納される類似情報を更新する。なお、類似情報更新部210は、発話登録部205から、登録に関するフラグを受け取る場合は、類似情報格納部212にフラグを登録する。
意図解析情報格納部211は、音声対話処理の意図推定処理に一般的に用いられる統計データである。意図解析情報格納部211は、例えば、予め定義した発話意図の種類を示す発話意図IDと、この発話意図IDに対応する発話テキストとを対応付けた組を学習データとして機械学習し、発話意図IDと発話テキストとに関する統計データを格納する。
類似情報格納部212は、対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果の発話テキストと、類似発話の中で対話が成功したと判定された発話から推定される意図候補と、意図候補が発話テキストの意図となる度合いを示す確信度とを含む類似情報を格納する。類似情報格納部212の詳細については、例えば、図5を参照して後述する。
発話意図情報格納部213は、発話テキストと発話意図(修正がある場合は、修正された発話意図)との組を対応付けて格納する。発話意図情報格納部213の詳細については、図11を参照して後述する。
次に、学習装置200の類似情報更新処理について図3のフローチャートを参照して説明する。
ステップS301では、類似発話抽出部209が、対話履歴格納部208に格納される対話履歴から未処理の対話履歴の一部を抽出し、抽出した対話履歴中の発話テキストをユーザIDごとに時刻でソートする。対話履歴が未処理であるか否かは、例えば、処理が完了した発話テキストに処理完了を示すフラグを付与しておき、類似発話抽出部209が、フラグを確認することにより未処理であるか否かを判定すればよい。なお、フラグに限らず、未処理の対話履歴について類似情報更新処理が行われるような仕組みであればよい。
ステップS302では、類似発話抽出部209が、同一のユーザIDの発話の中で、類似発話が存在するか否かを判定する。類似発話が存在するか否かは、例えば、ユーザの発話のうち、処理対象の発話に関する発話テキストと、同一ユーザの1つ前の発話に関する発話テキストとの、2文間の単語の編集距離による類似度を算出すればよい。なお、同一ユーザの1つ前の発話に限らず、1つ後の発話でもよいし、前後の発話であればよい。または、単語ベクトルのコサイン距離に関する類似度を算出してもよいし、フレーズの意味的類似を考慮してもよい。すなわち、文章間の類似度を算出するための一般的な方法を用いればよい。類似発話抽出部209は、類似度が閾値以上であれば類似発話が存在すると判定すればよい。類似発話が存在する場合は、ステップS303に進み、類似発話が存在しない場合は、処理を終了する。
ステップS303では、類似発話抽出部209が、類似発話をグループ化し、類似発話グループを生成する。
ステップS304では、類似情報更新部210が、類似発話グループごとに、類似発話グループ内のユーザ発話に対して対話が成功したと判定された発話、つまり、正しい発話意図が付与されたと推定される発話を抽出する。一般に、ユーザ発話に対するシステム応答が適切でない場合、ユーザは対話システムがユーザ発話の意図の解釈を誤ったと考え、表現を少しだけ変えて言いなおすことが多い。そして、言い直したユーザ発話が対話システムに正しく解釈された場合は、次の対話に進む。すなわち、ある類似発話グループ内で、最新のユーザ発話(時系列で最後に出現するユーザ発話)に対する発話意図は、ユーザの発話意図と一致している可能性が高いと考えられる。
よって、本実施形態では、類似発話グループ内で、最新の発話テキストを代表類似発話とし、代表類似発話に対応する推定発話意図を意図候補として、代表類似発話、意図候補および、類似発話グループ内の代表類似発話以外の各発話テキストとを対応付けて類似情報格納部212に格納されるデータを更新する。以上で、学習装置200の類似情報更新処理を終了する。
次に、対話履歴格納部208に格納される対話履歴の第1例について図4を参照して説明する。
図4に示す対話履歴400は、ある同一のユーザIDの発話に関する発話テキスト(「U:」で始まるテキスト)と、ユーザの発話に対するシステム応答である応答テキスト(「S:」で始まるテキスト)との対を、時系列に並べたものである。
次に、類似情報格納部212に格納される類似情報の第1例について図5を参照して説明する。
図5に示すテーブル500は、類似情報501を1つのエントリとして含むテーブルである。類似情報501は、発話テキスト502、代表類似発話503、意図候補504および確信度として出現頻度505を含み、それぞれ対応付けられる。
発話テキスト502は、ユーザの発話を音声認識した結果のテキストである。代表類似発話503は、類似発話グループのうちの最新の発話テキストである。意図候補504は、代表類似発話503に対する推定された発話意図である。出現頻度505は、類似発話グループのうちの代表類似発話以外の発話テキスト502と、発話テキスト502の属する類似発話グループの意図候補504との組が、対話履歴内に出現した回数である。なお、ここでは確信度として出現頻度を用いる例を説明するが、これに限らず、重み付けなど、意図候補が発話テキストの意図であるという度合いを評価できれば、どのような値を用いてもよい。
具体的には、発話テキスト502「太ももの裏側がピリピリする」、意図候補504「痛い(太もも)」、代表類似発話503「太ももの後ろ側が痛い」および出現頻度505「20」が対応付けられ、類似情報501の1つのエントリとなる。
なお、本実施形態では、意図候補504は、ユーザの発話意図を表す意図タグと付加情報とを含む。具体的には、意図候補504「痛い(太もも)」のうち、意図タグは「痛い」、付加情報は「太もも」であり、ここでは、意図タグが症状、付加情報が症状が出ている部位を示す。
次に、学習装置200の具体的な類似情報更新処理の第1例について図4および図5を参照して説明する。
ここでは、図4に示す対話履歴400を未処理の対話履歴として類似情報更新処理を行い、図3に示すステップS302の処理として、対象の発話テキストと、対象の発話テキストの直前、すなわち1つ前の発話に関する発話テキストとの類似度を単語ベクトルのコサイン距離を用いて類似度を判定する場合を想定する。対象の発話テキストと1つ前の発話テキストとを比較するのは、発話間の時間が空いている場合、システムにおける発話意図の推定誤りに対するユーザの言い直しであるという可能性が低いと考えられるからである。よって、発話意図の推定精度を向上させるためには、できるだけ直近の発話同士を比較するのが望ましい。
類似発話抽出部209は、ユーザ発話の発話テキスト411「太ももの裏側がピリピリする。」について類似度の判定を行う場合、発話テキスト411と1つ前の発話テキスト410「いいえ。」とを比較する。まず、類似発話抽出部209は、類似度の判定の対象となる2つの発話テキストをそれぞれ形態素解析し、名詞、動詞、形容詞など、発話の特徴となり得る形態素を抽出し、単語ベクトルを生成する。例えば、発話テキスト410「いいえ。」の場合、単語ベクトルは(いいえ)、発話テキスト411「太ももの裏側がピリピリする。」の場合、単語ベクトルは(太もも,裏側,ピリピリ,する)となる。
続いて、類似発話抽出部209は、2文の単語ベクトルの要素を全て含むベクトル(いいえ,太もも,裏側,ピリピリ,する)を生成する。発話テキストごとに、このベクトルを用いて単語ベクトルの要素を出現回数で表現すると、それぞれ次のようになる。
発話テキスト410:(1,0,0,0,0)
発話テキスト411:(0,1,1,1,1)
類似発話抽出部209は、2つのベクトルのコサイン距離を求める。ベクトルVとVとのコサイン距離は、以下の式により算出できる。
コサイン距離 cos(V1,)=V・V/|V||V|・・・(1)
(1)式を用いて上記発話テキストのコサイン距離を求めると、0/(1*2)=0となる。同様に、発話テキスト412「太ももの後ろ側がい。」と発話テキスト411「太ももの裏側がピリピリする。」とのコサイン距離、発話テキスト413「太ももの後ろ側が痛い」と発話テキスト412「太ももの後ろ側がい。」とのコサイン距離は、表1のように表現できる。なお、発話テキスト412「太ももの後ろ側がい。」は、音声認識結果が誤っている場合の例である。
Figure 0006334815
なお、単語同士が意味的に類似する類義語が2つの単語ベクトル間で存在する場合は、類義語は同じ要素としてまとめられる。例えば、発話テキスト412と発話テキスト411とのコサイン距離を計算する場合は、「後ろ側」と「裏側」とは類義語であるので、同じ要素としてまとめる。類義語は、一般的な類義語辞書を使って判定すればよい。
対象の2文が類似しているか否かの判定は、算出したコサイン距離の値が予め定めた閾値以上であるか否かにより判定すればよい。例えば、閾値を「0.5」とすると、発話テキスト410「いいえ」と発話テキスト411「太ももの裏側が痛い」とは、類似発話ではない。一方、発話テキスト411、412および413は一連の発話を含む類似発話であると判定できる。よって、この例の場合、発話テキスト411、412および413が1つの類似発話グループとして生成される。
図4の場合、発話テキスト(411,412,413)の時系列で最後に出現する発話テキスト413「太ももの後ろ側が痛い」に対し、システム応答「太ももの後ろ側が痛いということですね。他に症状はありますか。」がなされる。その後、システム側の意図推定が正しく行われたとユーザが判断したため、次の発話「特にないです。」に移行する。したがって、類似情報更新部210は、発話テキスト413「太ももの後ろが痛い」を代表類似発話として決定し、発話テキスト413に対して推定された発話意図「痛い(太もも)」を、この発話を含む類似発話グループ内の発話に対する発話意図、すなわち意図候補として決定する。
類似情報更新部210は、生成した全ての類似発話グループについて、代表類似発話を決定した後、類似情報格納部212を参照して、類似情報の更新を行う。具体的には、類似発話グループごとに、類似発話グループ内の代表類似発話以外の発話テキストと一致する発話テキスト502を有し、かつ代表類似発話に対して推定された発話意図と一致する意図候補504を有するエントリが類似情報格納部212にあるか否かを判定する。
このようなエントリがあれば、出現頻度505の値を1つ増やす。このようなエントリがなければ新たなエントリを類似情報格納部212内に追加し、追加したエントリに含まれる出現頻度505を「1」とする。
図4の対話履歴400の例の場合、類似発話グループは、発話テキスト411、412、および413からなるグループのみである。また、この類似発話グループ内の代表類似発話は、前述した通り発話テキスト413となる。従って、類似情報更新部210は、発話テキスト411、412について類似情報内に対応するエントリがあるか否かを判定する。類似情報更新部210は、発話テキスト411「太ももの裏側がピリピリする。」と、発話テキスト413に対応する発話意図(「痛い(太もも)」)とに適合するエントリがあり、その出現頻度が「19」であったとすると、このエントリの出現頻度505を「20」に変更する。また、類似情報更新部210は、発話テキスト412「太ももの後ろ側がい。」と発話テキスト413に対応する発話意図に適合するエントリがない場合、図5のエントリ506のように新たにエントリを追加する。
次に、対話履歴の具体的な類似情報更新処理の第2例について、図6および図7を参照して説明する。
図6は、対話履歴の第2例であり、対話履歴600は、金融機関での手続きに通帳と印鑑が必要であり、ユーザの手元にこれらがあるか否かを確認する対話の例である。それぞれの発話テキストについて類似度を算出する。具体的に、発話テキスト602「ハンコの所在はわかりません」と発話テキスト601「xxxの手続きがしたい」との類似度、発話テキスト603「ハンコはな」と発話テキスト602「ハンコの所在はわかりません」との類似度、発話テキスト604「銀行印が見つかりません」と発話テキスト603「ハンコはな」との類似度は、それぞれ表2のようになる。
Figure 0006334815
図4の例と同じく、類似度判定の閾値を「0.5」とすると、発話テキスト602と発話テキスト603、発話テキスト603と発話テキスト604はそれぞれ類似していると判定され、発話テキスト602、603および604が、類似発話グループして生成される。
図7は、図6に対応する類似情報の第2例であり、類似情報更新部210は、図5の場合と同様に更新すればよい。
次に、学習装置200の具体的な類似情報更新処理の第3例について図8および図9を参照して説明する。
図8は、対話履歴の第3例であり、金融機関等での相談サービスに対して、相続税の計算シミュレーションを希望している対話履歴の一部である。この例では、発話テキスト801「相続するとどのくらい税金がかかるの」、発話テキスト802「相続にかかる税額が知りたい」、および発話テキスト803「相続税の金額が知りたい」の類似度は、表3のように表すことができる。
Figure 0006334815
図4の例と同じく、類似度の閾値を「0.5」とすると、発話テキスト801と発話テキスト802、発話テキスト802と発話テキスト803はそれぞれ類似していると判定され、発話テキスト801、802および803は、類似発話グループとして生成される。
図9は、図8に対応する類似情報の第3例である。類似情報更新部210は、図5の場合と同様に更新すればよい。
次に、第1の実施形態に係る学習装置200の発話登録処理について図10のフローチャートを参照して説明する。
ステップS1001では、発話受理部201が、音声認識結果となる発話テキスト(第1テキストともいう)を受理する。
ステップS1002では、意図解析部202が、第1テキストに対して意図解析を行い、ユーザ発話の発話意図を判定する。
ステップS1003では、類似情報検出部203が、類似情報格納部212を参照して、第1テキストと一致する発話テキストを含む類似情報のエントリが存在するか否かを判定する。該当するエントリが存在する場合は、ステップS1004に進み、該当するエントリが存在しない場合は、ユーザ発話の発話意図はステップS1002で推定した発話意図であるとして、ステップS1009に進む。
ステップS1004では、類似情報検出部203が、第1テキストと発話テキストとが一致するエントリを抽出する。
ステップS1005では、意図修正部204が、抽出されたエントリが条件を満たすか否かを判定する。ここでは、エントリに含まれる出現頻度が、予め定義した閾値以上であるか否かを判定する。出現頻度が閾値以上である場合、ステップS1006に進み、出現頻度が閾値未満である場合、ユーザ発話の発話意図はステップS1002で推定した発話意図であるとして、ステップS1009に進む。
ステップS1006では、意図修正部204が、発話意図を、抽出されたエントリに含まれる意図候補に修正する。
ステップS1007では、発話登録部205が、発話テキストと修正された発話意図との組を発話意図情報格納部213に登録する。
ステップS1008では、類似情報更新部210が、発話登録部205から発話意図情報が格納されたことを示すフラグを受け取り、エントリに含まれる発話テキストと意図候補が発話意図情報に格納されたことを示す情報を、類似情報格納部212に登録する。これは、例えば、類似情報格納部212に格納されるエントリに、発話意図情報が格納されたことを示すフラグを対応付ければよい。
ステップS1009では、対話制御部206が、第1テキストと修正後の発話意図、修正がない場合はステップS1002で推定した発話意図とを用いて対話処理を行う。
ステップS1010では、応答生成部207が、対話処理結果を応答メッセージに変換し、ユーザに対して出力する。以上で学習装置200の発話登録処理を終了する。
発話意図情報格納部213に格納される発話意図情報の一例について図11を参照して説明する。
図11の発話意図情報1101は、発話意図識別情報1102および発話テキスト1103を含む。発話意図識別情報1102は、意図タグと付加情報とを含む。具体的には、例えば、発話意図情報1101として、発話意図識別情報1102「腫れ(瞼)」と発話テキスト1103「瞼が腫れちゃった」とが対応付けられる。
ここで、類似情報の内容が図5の類似情報のようなエントリを含んでおり、図10のステップS1005で利用する閾値(出現頻度の値)が「20」である場合に、システムに対してユーザが「太ももの裏側がピリピリする」と発話した場合を考える。
この時、類似情報検出部203は、図10に示すステップS1003で、ユーザ発話の発話テキストに対応する類似情報501のエントリを検出し、意図修正部204がステップS1005で、類似情報501の出現頻度と閾値とを比較する。類似情報501の出現頻度は「20」であり、条件を満たすので、意図修正部204は発話意図を修正する。ステップS1006において、発話登録部205は、ユーザ発話の発話テキスト「太ももの裏側がピリピリする」と、類似情報501の意図候補504のうちの意図候補「痛み(太もも)」との対を、発話意図情報のエントリ1104のように登録する。なお、発話登録部205は、類似情報501の意図候補504のうちの意図タグ「痛み」と発話テキストとの組を登録するようにしてもよい。
なお、エントリを登録する前に、発話登録部205が、類似情報のエントリに対応するデータが発話意図情報に反映されているか否かを示すフラグを確認し、フラグが立っていない場合に登録するようにしてもよい。
また、類似情報更新部210は、発話登録部205により発話意図情報に発話テキストと発話意図識別情報が登録された場合、発話登録部205から受け取った発話テキストと発話意図識別情報とに基づいて、類似情報格納部212から、対応する発話テキストを含む類似情報のエントリを削除してもよい。これによって、データ量を削減することができる。
さらに、類似情報格納部212に格納される類似情報に、類似情報のエントリが生成された日付を示す日時情報が含まれてもよい。類似情報更新部210は、類似情報に日時情報が含まれる場合、日時情報が示す日時から第1期間を経過した類似情報を削除してもよい。これによって、発話事例が少ないデータを削除できるので、データ量を削減することができる。
以上に示した第1の実施形態によれば、類似情報に含まれる代表類似発話の意図候補を参照して、ユーザの発話に対して推定された発話意図を修正することで、ユーザが言い直しや訂正をすること無しに、意図を推定できない発話に対しても適切な発話意図を付与することができる。よって、意図推定のためのデータ作成コストを低減することができ、発話の意図推定に関するデータを増加させることができる。
(第2の実施形態)
第2の実施形態では、意図修正部204で修正した意図が正しいか否かをユーザに確認する点が異なる。
第2の実施形態に係る学習装置を図12のブロック図を参照して説明する。
第2の実施形態に係る学習装置1200は、発話受理部201、類似情報検出部203、意図修正部204、発話登録部205、対話制御部206、応答生成部207、類似情報更新部210、類似発話抽出部209、意図解析情報格納部211、対話履歴格納部208、類似情報格納部212、発話意図情報格納部213、意図解析部1201および意図確認部1202を含む。
意図解析部1201および意図確認部1202以外は、第1の実施形態と同様の動作を行うので、ここでの説明は省略する。
意図解析部1201は、第1の実施形態に係る意図解析部202とほぼ同様の動作を行うが、意図確認に関する対話処理であるか否かをフラグに従って判定し、意図確認に関する対話処理であれば、意図確認部1202にユーザ発話を送り、意図確認に関する対話処理でなければ、類似情報検出部203にユーザ発話および発話意図を送る。
意図確認部1202は、意図修正部204から発話テキストおよび修正された発話意図を受け取り、修正された発話意図を承諾するか否かをユーザに確認する。意図確認部1202は、ユーザから修正された発話意図を承諾したという旨のユーザ発話を意図解析部1201から受け取る場合、発話テキストおよび修正された発話意図を発話登録部205に送る。
次に、第2の実施形態に係る学習装置1200の発話登録処理について図13のフローチャートを参照して説明する。
ステップS1301からステップS1305までの処理以外は、図10と同様であるのでここでの説明を省略する。
ステップS1301では、意図解析部1201が、発話意図をユーザに確認中であるか否かを判定する。確認中であるか否かは、後述するフラグの有無により判定できる。発話意図を確認中であればステップS1302に進み、発話意図を確認中でなければステップS1003に進む。
ステップS1302では、意図確認部1202が、発話意図が正しいか否か、すなわちユーザ発話が「肯定」を表すものであるか否かを判定する。これは、ステップS1002で推定したユーザ発話に対する発話意図が、「肯定」を表すものであるか否かにより判定すればよい。ユーザ発話が「肯定」を表す場合、ステップS1007に進み、ユーザに確認中であるユーザ発話と意図候補とが発話意図情報格納部213に格納される。格納後、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「肯定」を表さない場合、ステップS1303に進む。
ステップS1303では、意図確認部1202が、ユーザ発話が「訂正」を表すか否かを判定する。例えば、ユーザが「そうじゃなくて、しびれるんだよ」などと発話していた場合、ユーザ発話が「訂正」を表すと判定される。ユーザ発話が「訂正」を表すと判定される場合、ステップS1008に進み、ユーザ発話と、ユーザが訂正した発話意図(例えば、「しびれ」に対応する発話意図)とが類似情報格納部212に格納される。なお、後段のステップS1009では、対話制御部206が、ユーザ発話と訂正した発話意図とを受け取る。格納後、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「訂正」を表すと判定されない場合、ステップS1304に進む。
ステップS1304では、意図確認部1202が、ユーザが発話意図を「否定」しているか否かを判定する。ユーザ発話により「否定」が表される場合ステップS1009に進み、ユーザ発話の発話テキストと、確認のためにバッファなどに保持していた、ユーザ発話に対して推定された発話意図とを対話制御部206に渡し、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「否定」を表さない場合、ユーザ発話の発話意図の確認に失敗したとみなし、確認のために保持していたユーザ発話と意図候補、フラグなどを保持したまま、ステップS1305に進む。なお、「肯定」、「訂正」、「否定」のいずれでもない発話が予め定義した回数以上連続した場合、ユーザは「否定」の意図を示したものとして扱うようにしてもよい。
ステップS1305では、意図確認部1202が、ユーザ発話の意図が、抽出した類似情報のエントリに記録されている意図候補で問題ないか否かをユーザに確認する。これは、例えば、ユーザの発話意図を確認するための発話意図を定義しておき、この発話意図と、付加情報としてユーザ発話テキストおよび意図候補とをもとに、ステップS1010で対話処理を行うようにすればよい。このとき、発話意図確認の対話を開始したことを表すフラグを、ユーザ発話の発話テキストと推定された発話意図、類似情報のエントリとともに学習装置1200内に記録しておけばよい。
次に、第2の実施形態に係る類似情報格納部212に格納される類似情報の一例について図14を参照して説明する。
図14の類似情報は、図5の類似情報501に、ユーザが意図を訂正した情報を追加した例を示す。具体的には、類似情報1402として、発話テキスト502「太ももの裏側がピリピリする」に対する意図候補「しびれ(太もも)」が追加される。また、この場合、対話制御部206には、発話テキスト502「太ももの裏側がピリピリする」と、ユーザが訂正した発話意図(「しびれ(太もも)」)が渡される。
以上に示した第2の実施形態によれば、修正しようとする発話意図についてユーザに確認を求めることで、以降の処理において、より精度良く発話意図を推定することができ、データ作成コストを低減することができる。
(第3の実施形態)
第3の実施形態では、発話意図情報格納部に格納されるデータを、意図解析情報格納部にフィードバックする点が上述の実施形態とは異なる。
第3の実施形態に係る学習装置について図15のブロック図を参照して説明する。
図15に示す学習装置1500は、発話受理部201、意図解析部202、類似情報検出部203、意図修正部204、発話登録部205、対話制御部206、応答生成部207、対話履歴格納部208、類似発話抽出部209、類似情報更新部210、意図解析情報格納部211、類似情報格納部212、発話意図情報格納部213および意図解析情報更新部1501(第2更新部ともいう)を含む。
意図解析情報更新部1501以外は、第1の実施形態と同様の動作を行うので、ここでの説明は省略する。
意図解析情報更新部1501は、現在利用している意図解析情報格納部211のデータに発話意図情報格納部213に格納されるデータを追加および更新する。これにより、新たな意図解析情報が生成されて、現行の意図解析情報が更新される。更新の頻度は、予め定義された頻度で行えばよい。
以上に示した第3の実施形態によれば、意図解析情報更新部1501が、予め定めた間隔で発話テキストと発話意図とを用いて意図解析情報格納部211のデータを更新することで、自動的にシステムが正しく発話意図を推定できる発話を増やすことができる。
(第4の実施形態)
第4の実施形態では、ユーザ発話の曖昧性を検出して対話システムのシステム管理者にメッセージを送信する点が異なる。
第4の実施形態に係る学習装置について図16のブロック図を参照して説明する。
第4の実施形態に係る学習装置1600は、発話受理部201、意図解析部202、意図修正部204、発話登録部205、対話制御部206、応答生成部207、対話履歴格納部208、類似発話抽出部209、類似情報検出部203、意図解析情報格納部211、類似情報格納部212、発話意図情報格納部213、類似情報更新部1601および通知部1602を含む。
類似情報更新部1601および通知部1602以外は、第1の実施形態と同様の動作を行うので、ここでの説明は省略する。
類似情報更新部1601は、類似情報更新部210とほぼ同様であるが、更新した各類似情報エントリが、管理者に通知する条件を満たすか否かを判定する点が異なる。
通知部1602は、類似情報更新部1601において管理者に通知する条件を満たす類似情報のエントリが存在すると判定された場合、発話テキストの発話意図には曖昧性がある旨のメッセージをシステム管理者に通知する。
次に、ユーザ発話の曖昧性に関する管理者通知条件の第1例について図17および図18を参照して説明する。
図17は、第4の実施形態に係る対話履歴の一部を抽出した第1例である。対話履歴1701および対話履歴1702は、対話履歴格納部208から、それぞれ別のユーザIDを持つユーザ発話の発話テキストと、その発話に対するシステム応答の応答テキストとの対を、時系列に並べたものである。
対話履歴1701では、ユーザU1は「太ももの裏側がピリピリする」という発話を、「太ももの裏側が痛い」という意図で使っている。一方、対話履歴1702では、ユーザU2は、「太ももの裏側がピリピリする」という発話を、「太ももの裏側が痺れる」という意図で使っている。
図18に示す類似情報1801および1802は、対話履歴1701および1702に対応する類似情報のエントリの例を表している。管理者に通知する条件は、「ユーザ発話の発話テキストが同一で、異なる意図候補を有する類似情報エントリが存在し(言い換えると、対応類似情報が複数存在し)、かつそれぞれのエントリの確信度(出現頻度)が予め定めた閾値以上」であるとする。図17および図18に示した例では、「太ももの裏側がピリピリする」という発話テキストに対し、「痛み(太もも)」および「痺れ(太もも)」という2つの意図候補を有するエントリがある。ここで、閾値が「11」である場合、それぞれの出現頻度は閾値を超えている。
よって、システム管理者に「太ももの裏側がピリピリする」という発話は、「痛み」と「痺れ」という2種類の意図で使われる可能性があることを通知する。システム管理者への通知は、メール送信や、管理者へ通知する内容を蓄積する管理者通知情報へ追加するなど、さまざまな方法が考えられる。また、管理者への通知が行われた類似情報のエントリには、通知済みのフラグを立てるなどすれば、同じ情報を何度も通知しないようにできる。
ユーザ発話の曖昧性に関する管理者通知条件の第2例について図19および図20を参照して説明する。
図19は、第4の実施形態に係る対話履歴の一部を抽出した第2例である。図19に示す対話履歴1901は、対話履歴格納部208から、同一のユーザIDを有するユーザ発話の発話テキストと、その発話に対するシステム応答の応答テキストとの対を、時系列に並べたものである。
対話履歴1901では、ユーザ発話の発話テキスト1902「太ももの裏側がピリピリする。」に対し、応答テキスト1903「太ももの後ろ側に痛みがあるということですね。」という応答が返っている。この例では、システム側が発話テキスト1902の発話意図を「痛み」と推定したため、推定された発話意図に従って対話が進んでいる。
しかし、次の発話テキスト1904「違う。太ももの裏側が痺れるんだ。」で、ユーザは「痛み」ではなく「痺れ」があると言い直している。発話テキスト1904のように、システムが推定した意図に従って対話を進めている場合、発話テキスト1904が発話テキスト1902に対する類似発話か否かの判定には、発話の類似性のみでなく、例えば発話テキスト1904が「違う、太ももの裏側が痺れるんだよ」のように、否定の表現を含むか否かを見るようにしてもよい。
図20の類似情報2001は、対話履歴1901に対応する類似情報のエントリの例を示す。類似情報2001には、ユーザ発話推定意図2002が追加される。
図19および図20の例のように、ユーザ発話に対して推定される発話意図と、実際の意図とが異なる場合も、ユーザ発話に複数の意図候補がある場合と同様、ユーザ発話が複数の意図で使われている可能性がある。この場合、システム管理者に通知される条件は、「ユーザ発話推定意図と意図候補とが異なり、かつユーザ発話推定意図と意図候補との組み合わせの確信度(出現頻度)が予め定めた閾値以上」である。ここで、閾値を「30」とすると、図20の類似情報2001に示したエントリの例の場合、この管理者通知条件を満たすため、「太ももの裏側がピリピリする」という発話は、「痛み」と「痺れ」という2種類の意図で使われる可能性があることを示すメッセージがシステム管理者に通知される。
次に、第4の実施形態に係る学習装置1600の類似情報更新処理について図21のフローチャートを参照して説明する。
ステップS2101およびステップS2102以外は、図3に示すフローチャートと同様であるのでここでの説明は省略する。
ステップS2101では、類似情報更新部1601が、更新した類似情報エントリを対象として、管理者に通知する条件を満たす類似情報のエントリが存在するか否かを判定する。管理者に通知する条件は、ここでは、上述のように、異なるユーザIDについては、「ユーザ発話の発話テキストが同一で、異なる意図候補を有する類似情報エントリが存在し、かつそれぞれのエントリの出現頻度が予め定めた閾値以上」である。また、同一のユーザIDについては、「ユーザ発話推定意図と意図候補とが異なり、かつユーザ発話推定意図と意図候補との組み合わせの確信度(出現頻度)予め定めた閾値以上」とする。このような条件を満たすエントリが存在する場合は、ステップS2102に進み、エントリが存在しない場合は、処理を終了する。
ステップS2102では、通知部1602が、システム管理者にメッセージを通知する。
以上に示した第4の実施形態によれば、類似情報に複数の意図候補を有する同一発話テキストのエントリがあり、かつ出現頻度が閾値を超えているといった場合、システム管理者に、該当する発話テキストが曖昧性を含む発話であると通知する。これによって、例えばシステム管理者側で意図解析情報格納部211のデータを精査することができ、意図解析の精度を高めることができ、データ量も削減することができる。
なお、上述した第1から第4の実施形態において、図1に示す端末101に、音声認識サーバ、音声合成サーバおよび対話処理サーバ102が提供する機能が搭載されていてもよい。
また、本実施形態に係る学習装置200は、図1において、対話処理サーバ102に含まれてもよいし、対話処理サーバ102とは別のサーバに含まれてもよい。対話処理サーバ102または別のサーバに学習装置200が含まれる場合は、端末101は、マイクなどの音声取得部、インタフェース画面を表示する表示部およびデータ通信を行う通信部を含めばよい。さらに、対話処理サーバ102が対話システム処理のみを行う場合は、学習装置200は、端末101に含まれてもよい。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した学習装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…対話システム、101…端末、102…対話処理サーバ、103…ユーザ、104…ネットワーク、200,1200,1500,1600…学習装置、201…発話受理部、202,1201…意図解析部、203…類似情報検出部、204…意図修正部、205…発話登録部、206…対話制御部、207…応答生成部、208…対話履歴格納部、209…類似発話抽出部、210,1601…類似情報更新部、211…意図解析情報格納部、212…類似情報格納部、213…発話意図情報格納部、400,600,1701,1702,1901…対話履歴、410,411,412,413,502,601,602,603,604,801,802,803,1103,1902,1904…発話テキスト、500…テーブル、501,1402,1801,1802,2001…類似情報、503…代表類似発話、504…意図候補、505…出現頻度、506,1104…エントリ、1101…発話意図情報、1102…発話意図識別情報、1202…意図確認部、1501…意図解析情報更新部、1602…通知部、1701…対話履歴、1903…応答テキスト。

Claims (16)

  1. ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる学習装置であって、該学習装置は、
    対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第1格納部と、
    前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する検出部と、
    前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正部と、を具備することを特徴とする学習装置。
  2. 前記第1テキストと修正された発話意図とを発話意図情報として登録する登録部をさらに具備することを特徴とする請求項1に記載の学習装置。
  3. 前記対話履歴を格納する第2格納部と、
    前記第2格納部から、同一のユーザの発話に関する前記第2テキストと、前記意図候補と、前記対話が成功したと判定された発話を音声認識した結果である第3テキストと、前記確信度とを少なくとも抽出する抽出部と、
    前記抽出部で抽出される情報により、前記第1格納部に格納される前記類似情報を更新する第1更新部と、をさらに具備することを特徴とする請求項1または請求項2に記載の学習装置。
  4. 前記抽出部は、前記ユーザの第1発話と該ユーザの前後に発話された第2発話とが類似している場合に、該第1発話と該第2発話とを前記類似発話として抽出し、1つ以上の類似発話を含む類似発話グループを生成することを特徴とする請求項3に記載の学習装置。
  5. 前記第1更新部は、前記対話が成功したと判定された発話として前記類似発話グループのうち最新の発話を選択し、該最新の発話に関する発話意図を前記意図候補として決定することを特徴とする請求項4に記載の学習装置。
  6. 前記第1テキストと修正された発話意図との組を前記ユーザに確認する確認部をさらに具備する請求項1から請求項5のいずれか1項に記載の学習装置。
  7. 前記第1更新部は、前記ユーザが前記第1テキストの意図として修正された発話意図を承諾する場合、前記第1格納部に該第1テキストと該修正された発話意図とを登録することを特徴とする請求項3に記載の学習装置。
  8. 前記類似情報は、該類似情報が生成された日時情報をさらに含み、
    前記第1更新部は、前記日時情報が示す日時から第1期間を経過した類似情報を前記第1格納部から削除することを特徴とする請求項3のいずれか1項に記載の学習装置。
  9. 前記確信度は、前記対話が成功したと判定された発話から推定される意図候補と、前記第2テキストのうち該対話が成功したと判定された発話以外の第2テキストとの組が出現した回数を示す出現頻度であることを特徴とする請求項1から請求項8のいずれか1項に記載の学習装置。
  10. 前記対応類似情報が複数存在し、かつそれぞれの確信度が前記閾値以上である場合、前記第1テキストに関する発話が曖昧な発話であることに関するメッセージを管理者に通知する通知部をさらに具備することを特徴とする請求項1から請求項9のいずれか1項に記載の学習装置。
  11. 前記発話意図と前記意図候補とが異なり、かつ該発話意図と該意図候補との組み合わせの確信度が閾値以上である場合、前記第1テキストに関する発話が曖昧な発話であることに関するメッセージを管理者に通知する通知部をさらに具備することを特徴とする請求項1から請求項9のいずれか1項に記載の学習装置。
  12. 前記発話意図を推定する処理に用いられる意図解析情報を、前記第1テキストと修正された発話意図とを用いて更新する第2更新部をさらに具備する請求項に記載の学習装置。
  13. 前記第1更新部は、前記修正部により修正が行われ、かつ前記修正部による修正が前記意図解析情報に反映される場合、前記第1格納部から前記対応類似情報を削除することを特徴とする請求項12に記載の学習装置。
  14. ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる学習方法であって、該学習方法は、
    対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を第1格納部に格納し、
    前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出し、
    前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正することを特徴とする学習方法。
  15. ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる学習プログラムであって、該学習プログラムは、
    コンピュータを、
    ユーザの発話を音声認識した結果である第1テキストから、該ユーザの発話意図を推定する解析手段と、
    対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第1格納手段と、
    前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する検出手段と、
    前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正手段として機能させるための学習プログラム。
  16. ユーザが発話することによって音声入力を行う端末と、
    ネットワークを介して前記端末に接続され、前記ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる対話処理サーバと
    を具備する音声対話システムであって、
    前記対話処理サーバは、
    対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第1格納部と、
    前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する検出部と、
    前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正部と
    を具備することを特徴とする音声対話システム。
JP2017507165A 2015-03-20 2015-03-20 学習装置、方法、プログラムおよび音声対話システム Active JP6334815B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/058564 WO2016151699A1 (ja) 2015-03-20 2015-03-20 学習装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2016151699A1 JPWO2016151699A1 (ja) 2017-05-25
JP6334815B2 true JP6334815B2 (ja) 2018-05-30

Family

ID=56978087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017507165A Active JP6334815B2 (ja) 2015-03-20 2015-03-20 学習装置、方法、プログラムおよび音声対話システム

Country Status (3)

Country Link
US (1) US10446146B2 (ja)
JP (1) JP6334815B2 (ja)
WO (1) WO2016151699A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016143131A1 (ja) * 2015-03-12 2016-09-15 株式会社 東芝 対話支援装置、方法およびプログラム、および端末
WO2016151699A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 学習装置、方法およびプログラム
JP6621776B2 (ja) * 2017-03-22 2019-12-18 株式会社東芝 検証システム、検証方法及びプログラム
JP6654611B2 (ja) * 2017-12-05 2020-02-26 株式会社日立製作所 成長型対話装置
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
WO2019142427A1 (ja) 2018-01-16 2019-07-25 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019163247A1 (ja) * 2018-02-22 2019-08-29 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
JP6458183B1 (ja) * 2018-04-05 2019-01-23 アビームコンサルティング株式会社 モータスポーツにおける自動音声回答システム及びプログラム
JP7042701B2 (ja) * 2018-06-14 2022-03-28 ヤフー株式会社 評価装置、評価方法および評価プログラム
JP2021156907A (ja) 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US20200142719A1 (en) * 2018-11-02 2020-05-07 International Business Machines Corporation Automatic generation of chatbot meta communication
CN109783621B (zh) * 2018-12-17 2021-10-08 北京百度网讯科技有限公司 对话生成方法、装置及设备
US11501753B2 (en) * 2019-06-26 2022-11-15 Samsung Electronics Co., Ltd. System and method for automating natural language understanding (NLU) in skill development
CN110457709A (zh) * 2019-08-16 2019-11-15 北京一链数云科技有限公司 外呼对话处理方法、装置及服务器
CN111209023B (zh) * 2020-01-08 2023-06-23 百度在线网络技术(北京)有限公司 技能服务的更新方法、装置、电子设备及可读存储介质
CN111221944B (zh) * 2020-01-13 2024-04-23 平安科技(深圳)有限公司 文本意图识别方法、装置、设备和存储介质
CN112015897B (zh) * 2020-08-27 2023-04-07 中国平安人寿保险股份有限公司 语料的意图标注方法、装置、设备及存储介质
US20230136842A1 (en) * 2021-11-03 2023-05-04 International Business Machines Corporation Training data sequence for rnn-t based global english model

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3375449B2 (ja) 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
US6192110B1 (en) * 1995-09-15 2001-02-20 At&T Corp. Method and apparatus for generating sematically consistent inputs to a dialog manager
JP4128342B2 (ja) * 2001-07-19 2008-07-30 三菱電機株式会社 対話処理装置及び対話処理方法並びにプログラム
JP2007264128A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
US8781813B2 (en) * 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
JP2009025538A (ja) 2007-07-19 2009-02-05 Nissan Motor Co Ltd 音声対話装置
JP5468474B2 (ja) * 2010-06-21 2014-04-09 株式会社野村総合研究所 トークスクリプト利用状況算出システムおよびトークスクリプト利用状況算出プログラム
JP5637888B2 (ja) 2011-02-09 2014-12-10 三菱電機株式会社 同一意図テキスト生成装置、意図推定装置および同一意図テキスト生成方法
KR101178310B1 (ko) * 2011-02-24 2012-08-29 포항공과대학교 산학협력단 대화 관리 방법 및 이를 실행하는 시스템
JP2013050605A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 言語モデル切替装置およびそのプログラム
US9530405B2 (en) * 2012-11-30 2016-12-27 Mitsubishi Electric Corporation Intention estimating device and intention estimating method
JP6251958B2 (ja) 2013-01-28 2017-12-27 富士通株式会社 発話解析装置、音声対話制御装置、方法、及びプログラム
AU2014233517B2 (en) * 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
US9466297B2 (en) * 2014-12-09 2016-10-11 Microsoft Technology Licensing, Llc Communication system
WO2016151699A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 学習装置、方法およびプログラム
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system

Also Published As

Publication number Publication date
WO2016151699A1 (ja) 2016-09-29
US10446146B2 (en) 2019-10-15
JPWO2016151699A1 (ja) 2017-05-25
US20170148441A1 (en) 2017-05-25

Similar Documents

Publication Publication Date Title
JP6334815B2 (ja) 学習装置、方法、プログラムおよび音声対話システム
US10679610B2 (en) Eyes-off training for automatic speech recognition
JP6448765B2 (ja) 対話装置、方法及びプログラム
JP6484236B2 (ja) オンライン音声翻訳方法及び装置
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
AU2017425675B2 (en) Extracting domain-specific actions and entities in natural language commands
US10720152B2 (en) Negative n-gram biasing
US9583107B2 (en) Continuous speech transcription performance indication
AU2017424116B2 (en) Extracting domain-specific actions and entities in natural language commands
US20170262434A1 (en) Machine translation apparatus and machine translation method
US20160314116A1 (en) Interpretation apparatus and method
CN111881297B (zh) 语音识别文本的校正方法及装置
US20190042560A1 (en) Extracting domain-specific actions and entities in natural language commands
US20180286386A1 (en) Deep language and acoustic modeling convergence and cross training
CN114223029A (zh) 支持装置进行语音识别的服务器及服务器的操作方法
JP2015200860A (ja) 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
US20220050971A1 (en) System and Method for Generating Responses for Conversational Agents
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN114358026A (zh) 语音翻译方法、装置、设备和计算机可读存储介质
JP2021082125A (ja) 対話装置
WO2023036283A1 (zh) 一种在线课堂交互的方法及在线课堂系统
JP2012189829A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2023007014A (ja) 応答システム、応答方法、および応答プログラム
CN116070621A (zh) 语音识别结果的纠错方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180426

R151 Written notification of patent or utility model registration

Ref document number: 6334815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350