JP2020034914A - 対話エージェントの動作方法及びその装置 - Google Patents

対話エージェントの動作方法及びその装置 Download PDF

Info

Publication number
JP2020034914A
JP2020034914A JP2019154766A JP2019154766A JP2020034914A JP 2020034914 A JP2020034914 A JP 2020034914A JP 2019154766 A JP2019154766 A JP 2019154766A JP 2019154766 A JP2019154766 A JP 2019154766A JP 2020034914 A JP2020034914 A JP 2020034914A
Authority
JP
Japan
Prior art keywords
item
utterance
satisfied
user
requirement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019154766A
Other languages
English (en)
Other versions
JP7460338B2 (ja
Inventor
映錫 金
Young-Seok Kim
映錫 金
貞訓 朴
Jeong-Hoon Park
貞訓 朴
成民 玉
Seong Min Oak
成民 玉
在勳 全
Jehun JEON
在勳 全
俊輝 崔
Junhwi Choi
俊輝 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2020034914A publication Critical patent/JP2020034914A/ja
Application granted granted Critical
Publication of JP7460338B2 publication Critical patent/JP7460338B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 対話エージェントの動作方法及びその装置を提供する。【解決手段】 実施形態に係る対話エージェントの動作方法は、サービスの要求のために送信される送信発話のうち少なくとも1つ及びサービスの要求のために受信される受信発話のうち少なくとも1つを含む発話ヒストリーを取得し、発話ヒストリーに基づいてサービスの要求のために求められる項目を含む要求事項明細を更新し、更新された要求事項明細に基づいてサービスを求めるための発話情報を生成して出力する。【選択図】 図2

Description

本発明の実施形態は対話エージェントの動作方法及びその装置に関する。
神経網の発展に伴って、ユーザの便宜を提供する様々な人工知能サービス及びロボット技術が提供されている。例えば、チャットボット(chatbot)の場合、ユーザから入力された意図及びエンティティ(entity)によりユーザに代わって簡単な予約を行うことができる。対話エージェントシステム(Dialog Agent System;DAS)も、ユーザに代わって電話で所望のサービスを予約する動作を行うことができる。しかし、サービス提供者がユーザが求める事項と異なる条件を提示したり、又は、該当ユーザの要求事項が極めて複雑な場合などのように、対話が単純な問答形態ではない場合、チャットボット又は対話エージェントシステムは、ユーザが要求したサービスを充分に処理することができない。その他にも、ユーザが対話エージェントシステムの動作中に直接対話に介入することができない。
米国特許出願第15/456412号明細書
一実施形態の目的は、サービスの要求のために対話エージェント装置とユーザ及びサービス提供者間のやりとりした送受信発話を含む発話ヒストリーに基づいて、サービスの要求のために求められる項目を含む要求事項明細を更新し、更新された要求事項明細に基づいて、サービスを求めるための発話情報を生成して出力する対話エージェントを提供することにある。
一実施形態の目的は、対話エージェント装置がサービス提供者の応答発話をUIモジュールに伝達し、声及び/又はテキストで出力することで、ユーザとサービス提供者とを直接対話させることにある。
一側面によれば、対話エージェントの動作方法は、サービスの要求のために送信される送信発話のうち少なくとも1つ、及び前記サービスの要求のために受信される受信発話のうち少なくとも1つを含む発話ヒストリーを取得するステップと、前記発話ヒストリーに基づいて、前記サービスの要求のために求められる項目を含む要求事項明細を更新するステップと、前記更新された要求事項明細に基づいて、前記サービスを求めるための発話情報を生成するステップと、前記発話情報を出力するステップとを含む。
前記要求事項明細は、前記項目によって求められる条件が満足されたか否かを示す状態情報を含み得る。
前記状態情報は、該当項目の条件が満足されたことを示す第1状態、前記該当項目の条件が満足されないことを示す第2状態、及び前記該当項目の条件の満足の有無がまだ決定されていないことを示す第3状態のうち少なくとも1つを含み得る。
前記更新するステップは、前記発話ヒストリーに基づいて、前記項目によって求められる条件の満足の有無を判断するステップと、前記判断結果に応じて前記要求事項明細を更新するステップとをさらに含み得る。
前記条件の満足の有無を判断するステップは、前記項目のうち少なくとも1つの項目によって求められる条件が満足されたか否かを判断するステップと、前記項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断するステップのうち少なくとも1つを含み得る。
前記少なくとも1つの項目によって求められる条件が満足されたか否かを判断するステップは、前記発話ヒストリー及び前記要求事項明細を分類器に入力するステップであって、前記分類器は、前記項目によって求められる条件の満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力する、ステップと、前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が満足されたか否かを判断するステップとを含み得る。
前記少なくとも1つの項目によって求められる条件が不満足であるか否かを判断するステップは、前記発話ヒストリー及び前記要求事項明細を分類器に入力するステップであって、前記分類器は、前記項目によって求められる条件の不満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力する、ステップと、前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が不満足であるか否かを判断するステップとを含み得る。
前記対話エージェントの動作方法は、前記項目によって求められる条件の全てが満足されたか否かを判断するステップと、前記条件の全てが満足されたという判断に応じて、前記サービスの要求が完了したことをユーザに知らせるステップとをさらに含み得る。
前記項目によって求められる条件の全てが満足されたか否かを判断するステップは、前記更新された要求事項明細に基づいて、前記条件の全てが満足されたか否かを判断するステップと、前記発話ヒストリー及び前記要求事項明細に基づいて前記項目によって求められる条件の満足の有無を判断し、前記条件の全ての満足の有無を示す値を出力する分類器を用いて、前記条件の全てが満足されたか否かを判断するステップのうち少なくとも1つを含み得る。
前記対話エージェントの動作方法は、前記更新された要求事項明細に基づいて発話対象を決定するステップをさらに含み、前記発話情報を出力するステップは、前記発話対象に前記発話情報を出力するステップを含み得る。
前記発話対象を決定するステップは、前記更新された要求事項明細に含まれた項目のうち、少なくとも1つの項目によって求められる条件が満足されない場合、前記発話対象をユーザとして決定するステップを含み得る。
前記項目は、前記サービス類型ごとに決定された少なくとも1つの必須項目を含み得る。
前記項目は、前記必須項目を除いた少なくとも1つの選択項目をさらに含み得る。
前記対話エージェントの動作方法は、ユーザ装置から前記サービスの提供者との直接通話を求める信号を受信するステップと、前記直接通話を求める信号の受信後に、前記発話情報の生成を中断するステップと、前記ユーザ装置から入力される情報を前記サービス提供者に提供するステップとをさらに含み得る。
前記対話エージェントの動作方法は、前記対話エージェントを通した対話再開を求める信号を受信するステップと、前記対話再開を求める信号に応答して、前記発話情報の生成を再開するステップとをさらに含み得る。
前記対話エージェントの動作方法は、前記更新された要求事項明細をユーザに提供するステップと、前記発話ヒストリーをユーザに提供するステップのうち少なくとも1つをさらに含み得る。
前記対話エージェントの動作方法は、前記更新された要求事項明細に含まれた項目のうち少なくとも1つの項目によって求められる条件が満足されない場合、前記少なくとも1つの項目をユーザに問い合わせるステップをさらに含み得る。
前記対話エージェントの動作方法は、ユーザ端末のインターフェースを介して収集された情報に基づいて生成された前記要求事項明細を受信するステップをさらに含み得る。
前記発話ヒストリーを取得するステップは、前記対話エージェントが前記サービスの提供者に送信する第1送信発話を取得するステップと、前記対話エージェントが前記サービスの提供者から受信する第1受信発話を取得するステップと、前記対話エージェントがユーザに送信する第2送信発話を取得するステップと、前記対話エージェントが前記ユーザから受信する第2受信発話を取得するステップのうち少なくとも1つを含み得る。
一実施形態によれば、対話エージェント装置は、サービスの要求のために送信される送信発話のうち少なくとも1つ、及び前記サービスの要求のために受信される受信発話のうち少なくとも1つを含む発話ヒストリーを取得し、発話情報を出力する通信インターフェースと、前記発話ヒストリーに基づいて、前記サービスの要求のために求められる項目を含む要求事項明細を更新し、前記更新された要求事項明細に基づいて前記サービスを求めるための前記発話情報を生成するプロセッサとを含む。
前記要求事項明細は、前記項目によって求められる条件が満足されたか否かを示す状態情報を含み得る。
前記状態情報は、該当項目の条件が満足されたことを示す第1状態、前記該当項目の条件が満足されないことを示す第2状態、及び前記該当項目の条件の満足の有無がまだ決定されていないことを示す第3状態のうち少なくとも1つを含み得る。
前記プロセッサは、前記発話ヒストリーに基づいて前記項目によって求められる条件の満足の有無を判断し、前記判断結果に応じて前記要求事項明細を更新し得る。
前記プロセッサは、前記項目のうち少なくとも1つの項目によって求められる条件が満足されたか否かを判断したり、又は、前記項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断し得る。
前記プロセッサは、前記発話ヒストリー及び前記要求事項明細を分類器(前記分類器は、前記項目によって求められる条件の満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力)に入力し、前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が満足されたか否かを判断し得る。
前記プロセッサは、前記発話ヒストリー及び前記要求事項明細を分類器(前記分類器は、前記項目によって求められる条件の不満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力)に入力し、前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が不満足であるか否かを判断し得る。
前記プロセッサは、前記項目によって求められる条件の全てが満足されたか否かを判断し、前記条件の全てが満足されたという判断に応じて、前記サービスの要求が完了したことをユーザに知らせ得る。
前記プロセッサは、前記更新された要求事項明細に基づいて前記条件の全てが満足されたか否かを判断したり、又は、前記発話ヒストリー及び前記要求事項明細に基づいて前記項目によって求められる条件の満足の有無を判断し、前記条件の全ての満足の有無を示す値を出力する分類器を用いて前記条件の全てが満足されたか否かを判断し得る。
前記プロセッサは、前記更新された要求事項明細に基づいて発話対象を決定し、前記発話対象に前記発話情報を出力し得る。
前記プロセッサは、前記更新された要求事項明細に含まれた項目のうち少なくとも1つの項目によって求められる条件が満足されない場合、前記発話対象をユーザとして決定し得る。
前記項目は、前記サービス類型ごとに決定された少なくとも1つの必須項目を含み得る。
前記項目は、前記必須項目を除いた少なくとも1つの選択項目をさらに含み得る。
前記通信インターフェースは、ユーザ装置から前記サービスの提供者との直接通話を求める信号を受信し、前記プロセッサは、前記直接通話を求める信号の受信後に、前記発話情報の生成を中断し、前記ユーザ装置から入力される情報を前記サービス提供者に提供し得る。
前記通信インターフェースは、前記対話エージェントを通した対話再開を求める信号を受信し、前記プロセッサは、前記対話再開を求める信号に応答して、前記発話情報の生成を再開し得る。
前記通信インターフェースは、前記更新された要求事項明細をユーザに提供したり、前記発話ヒストリーを前記ユーザに提供したり、又は、前記更新された要求事項明細及び前記発話ヒストリーを前記ユーザに提供し得る。
前記プロセッサは、前記更新された要求事項明細に含まれた項目のうち少なくとも1つの項目によって求められる条件が満足されない場合、前記少なくとも1つの項目をユーザに問い合わせ得る。
前記通信インターフェースは、ユーザ端末のインターフェースを介して収集された情報に基づいて生成された前記要求事項明細を受信し得る。
前記通信インターフェースは、前記対話エージェントが前記サービスの提供者に送信する第1送信発話、前記対話エージェントが前記サービスの提供者から受信する第1受信発話、前記対話エージェントがユーザに送信する第2送信発話、及び前記対話エージェントが前記ユーザから受信する第2受信発話のうち少なくとも1つを取得し得る。
一実施形態によれば、対話エージェントは、メモリと、ユーザ装置からサービス要求に関する要求事項を受信し、前記要求事項に基づいて要求事項明細を生成し、前記要求事項明細に基づいてサービス提供者との接続を設定し、前記接続の間に前記サービス提供者によって前記要求事項が全て満足されるかを決定し、前記要求事項が全て満足される場合、前記サービスに対する要求が完了したことをユーザ装置に通知し、前記要求事項が全て満足されない場合、少なくとも1つの要求事項が満足されないことを前記ユーザ装置に通知し、満足されない少なくとも1つの要求事項に関する変更された要求事項を受信し、前記変更された要求事項により前記要求事項明細を更新するプロセッサとを含む。
前記プロセッサは、前記更新された要求事項明細に基づいて前記サービス提供者と第2接続を設定し、前記第2接続の間に、前記更新された要求事項明細に関する全ての条件が前記サービス提供者によって満足されるか否かを決定し得る。
前記ユーザ装置から受信された要求事項が自然語の形態である場合、前記プロセッサは、前記自然語を分析し、前記自然語の分析に基づいて前記サービスのフィールド又は類型を決定し、前記決定されたフィールド又は類型に基づいて前記要求事項明細を生成し得る。
前記ユーザ装置から受信された要求事項がテキスト形態である場合、前記プロセッサは、前記テキストをトークンに分離し、前記分離したトークンを神経網モデルに入力し、前記神経網モデルの出力に基づいて前記要求事項明細を生成し得る。
一側面によれば、サービスの要求のために対話エージェント装置とユーザ及びサービス提供者間のやりとりした送受信発話を含む発話ヒストリーに基づいて、サービスの要求のために求められる項目を含む要求事項明細を更新し、更新された要求事項明細に基づいてサービスを求めるための発話情報を生成して出力する対話エージェントを提供することができる。
一側面によれば、対話エージェント装置がサービス提供者の応答発話をUIモジュールに伝達し、声及び/又はテキストで出力することで、ユーザとサービス提供者とを直接対話させることができる。
基本的な対話エージェントシステムを説明するための図である。 一実施形態に係る対話エージェントの動作方法を示したフローチャートである。 一実施形態に係る対話エージェントシステムの構成図である。 一実施形態に係る対話エージェントの対話進行シナリオを説明するための図である。 一実施形態に係る対話進行により要求事項明細が更新される過程を説明するための図である。 一実施形態に係る対話進行により要求事項明細が更新される過程を説明するための図である。 一実施形態に係る対話進行により要求事項明細が更新される過程を説明するための図である。 一実施形態に係る対話進行により要求事項明細が更新される過程を説明するための図である。 一実施形態に係る対話進行により要求事項明細が更新される過程を説明するための図である。 一実施形態に係る対話エージェントが発話ヒストリー及び要求事項明細を表示する方法を説明するための図である。 他の実施形態に係る対話エージェントのユーザインターフェースを説明するための図である。 一実施形態に係る要求事項明細に含まれた必須項目及び選択項目に対する処理方法を説明するための図である。 一実施形態に係る対話エージェント装置のブロック図である。
下記で説明する実施形態は様々な変更が加えられることができる。特許出願の範囲がこのような実施形態によって制限も限定もされることはない。各図面に提示された同じ参照符号は同じ部材を示す。
本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。
本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、添付図面を参照して説明することにおいて、図面符号に関係なく同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
図1は、基本的な対話エージェントシステムを説明するための図である。図1を参照すると、ユーザ101、対話エージェントシステム(Dialog Agent System;DAS)103、及びサービス提供者(Service Provider;SP)105が示されている。ここで、ユーザ101はユーザ端末のユーザに該当し、サービス提供者105はサービス提供者端末のユーザに該当する。
例えば、ユーザ101は、対話エージェントシステム103を介して夕食の予約を求める。ユーザ101は、対話エージェントシステム103に「電話番号:010−XXXX−1234」、「今週の水曜日、午後7時に2人予約して」のように予約希望の場所の連絡先、予約時間、及び予約場所などを含む予約要求事項を知らせる。ユーザ101の発話を受信した対話エージェントシステム103は「010−XXXX−1234」に電話をかける。ここで、電話番号「010−XXXX−1234」に該当するサービス業者が、例えば、「寿司O」というレストランであれば、サービス提供者105は「寿司O」の予約の受付者又は管理者であってもよい。
対話エージェントシステム103から電話を受信したサービス提供者105が「もしもし、寿司Oです」のように応答すると、対話エージェントシステム103は、「今週の水曜日、午後7時に2人予約できますか?」のようにユーザ101の予約要求事項を伝達する。
サービス提供者105は、予約要求事項による予約が可能であれば、ユーザ101の要求事項による予約を進む。これとは異なって、該当の予約要求事項による予約が不可能であれば、サービス提供者105は「申し訳ございませんが、6時と8時にのみ予約できます」のように変更された予約条件を再び提示するかもしれない。この場合、対話エージェントシステム103は、ユーザの予約要求事項が満足されないため、ユーザに「予約不可」というサービス結果を提供する。このように、基本的な対話エージェントシステム103は、サービス提供者105がユーザ101が求める事項と異なる変更された条件を提示したり、又は、該当ユーザの要求事項が極めて複雑な場合などのように対話が単純な問答形態でない場合、ユーザの予約要求事項を充分に処理できない。
その他にも、ユーザ101は、サービス提供者105との直接対話を介して該当の日付の7時には予約できないが、6時と8時には予約可能である状況であれば、予約時間を6時又は8時に流動的に変更できるかもしれない。しかし、ユーザ101が対話エージェントシステム103とサービス提供者105との間の対話中に直接介入できない場合、ユーザ101は、対話エージェントシステム103とサービス提供者105との間の対話終了の後、再び対話エージェントシステム103を介して変更された予約時間(6時又は8時)への予約を要求しない限り、該当の日付の夕食の予約は不可能である。
図2は、一実施形態に係る対話エージェントの動作方法を示したフローチャートである。図2を参照すると、一実施形態に係る対話エージェント装置は、サービスの要求のために送受信される送信発話及び受信発話のうち少なくとも1つを含む発話ヒストリー(utterance history)を取得する(S210)。ここで、サービスは、例えば、旅行予約、レストラン予約、ヘアーショップ予約、レントカー予約、公演予約、宿舎予約などのような様々な分野に対する予約サービス、登録サービス、又は電話の問い合わせサービスなどを含み、必ずこれに限定されることはない。
一実施形態において「発話(utterance)」は、人の考えているものが実際に文章単位で実現されること、又は音を出して話す言語行為のことを指す。発話は、発話の対象(又は発話の対象者)(例えば、話者、聴者)、発話の状況、発話の主題(又は発話の対象)などにより具体的な意味が決定されたり、変わり得る。一実施形態において、発話は人の考えていることを音に出して話す以外にも、人が考えているものをテキストで表現することを全て含む意味として理解される。
送信発話は、対話エージェント装置が対話の相手に送信する発話に該当する。受信発話は、対話エージェント装置が対話の相手から受信する発話に該当する。ここで、送信発話の対象及び受信発話の対象は、ユーザ端末(又は、ユーザ)及び/又はサービス提供者端末(又は、サービス提供者)であり得る。送信発話の対象と受信発話の対象は互いに一致してもよく、互いに異なってもよい。
送信発話は、例えば、音声、又はテキストの形態であってもよい。受信発話は、例えば、音声、テキスト及び命令の形態であってもよい。命令形態の受信発話は、例えば、「予約電話をかけて」、又は「予約」などのようにユーザが予め約束された命令語を自然語で発話したり、又は、テキストで記載することにより伝達される。又は、命令形態の受信発話は、例えば、「サービス要求」、「直接対話する」又は「直接対話断絶」などのようにユーザ端末の画面に表示される様々なボタン、アイコン、その他のユーザインターフェースに対するユーザ選択によって伝達される。
発話ヒストリーは、ユーザ装置の装置特性に応じてテキスト形態で格納されてもよく、音声形態で格納されてもよく、又は、特徴ベクトルの形態で格納されてもよい。格納する形態及び格納の仕方はこれらに限定されず、当該技術分野で既知の任意の方法が使用されてよい。ここで、ユーザ装置の装置特性は、例えば、ユーザ装置がディスプレイのみを含んでいるか、スピーカだけを含んでいるか、又は、ディスプレイとスピーカの全てを含んでいるか、などのように該当装置の機能的な特性に該当する。
例えば、受信発話が音声である場合、対話エージェント装置は、該当音声をテキスト形態に変換して発話ヒストリーに格納する。又は、受信発話が命令である場合、該当命令を対応するテキスト、又は、予め約束された形態のテキストに変換して発話ヒストリーに格納する。
発話ヒストリーは、例えば、対話エージェントがサービスの提供者に送信する第1送信発話、対話エージェントがサービスの提供者から受信する第1受信発話、対話エージェントがユーザに送信する第2送信発話、及び対話エージェントがユーザから受信する第2受信発話のうち少なくとも1つを含み得る。
発話ヒストリーは、例えば、ユーザ装置で要求事項明細を初めて作成する時点から、ユーザが要求したサービスの要求が完了したことを対話エージェントがユーザ端末に知らせる時点までの送信発話及び/又は受信発話内容の一部又は全てを含み得る。
対話エージェント装置は、ステップS210で取得した発話ヒストリーに基づいて、サービスの要求のために求められる項目を含む要求事項明細を更新する(S220)。ここで、サービスの要求のために求められる項目は、例えば、ユーザが求めるサービスがヘアーショップ予約である場合、ヘアーショップの連絡先、予約時間、予約サービス(カット、ファーム、染色など)、及びヘアデザイナーなどである。又は、ユーザが求めるサービスが公演予約である場合、コンサートホール(又は、予約部署)の連絡先、予約対象公演、公演時間、観覧座席の等級、及び観覧座席の位置などである。一実施形態でサービスの要求のために求められる項目は、サービス類型ごとに相違するように決定されてもよく、サービス類型とは独立した包括的な形態に決定されてもよい。
要求事項明細は、例えば、ユーザ端末のインターフェース(図3に示すUIモジュール)310を介して収集された情報に基づいて生成され、対話エージェント装置に伝えられてもよい。要求事項明細に含まれた項目は、サービス類型ごとに決定された少なくとも1つの必須項目を含む。また、項目は、必須項目を除いた少なくとも1つの選択項目をさらに含む。該当項目が必須項目であるか、選択項目であるかはユーザの発話内容に応じて変更される。要求事項明細は、項目によって求められる条件が満足されたか否かを示す状態情報を含む。状態情報は、例えば、該当項目の条件が満足されたことを示す第1状態、該当項目の条件が満足されないことを示す第2状態、及び該当項目の条件の満足の有無がまだ決定されていないことを示す第3状態のうち少なくとも1つを含む。例えば、要求事項明細で第1状態は「O」に表示され、第2状態は「X」に表示され、第3状態は「?」に表示される。状態情報は、例えば、対話エージェント装置の送信発話の応答として受信される受信発話に基づいて更新される。
ステップS220において、対話エージェント装置は、発話ヒストリー及び/又は要求事項明細に基づいて項目によって求められる条件の満足の有無を判断する。対話エージェント装置は、例えば、項目のうち少なくとも1つの項目によって求められる条件が満足されたか否かを判断する。対話エージェント装置は、例えば、発話ヒストリー及び要求事項明細を第1分類器に入力する。ここで、第1分類器は、項目によって求められる条件の満足の有無を判断し、項目に対応する状態情報をマルチ・ホット・ベクトル(multi−hot−vector)に出力する。対話エージェント装置は、第1分類器が出力するマルチ・ホット・ベクトルに基づいて、少なくとも1つの項目によって求められる条件が満足されたか否かを判断する。
又は、対話エージェント装置は、項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断する。対話エージェント装置は、発話ヒストリー及び要求事項明細を第2分類器に入力する。ここで、第2分類器は、項目によって求められる条件の不満足の有無を判断し、項目に対応する状態情報をマルチ・ホット・ベクトルに出力する。対話エージェント装置は、第2分類器から出力されるマルチ・ホット・ベクトルに基づいて、少なくとも1つの項目によって求められる条件が不満足であるか否かを判断する。
対話エージェント装置は、条件の満足の有無に対する判断結果に応じて要求事項明細を更新する。一実施形態に係る対話エージェント装置が要求事項明細を更新する過程については、図5を参照しながら具体的に説明する。
対話エージェント装置は、更新された要求事項明細に基づいて、サービスを求めるための発話情報を生成する(S230)。発話情報は、送信発話を生成するための情報として、例えば、対話エージェント装置の音声形態から出力されてもよく、又は、テキスト形態から出力されてもよい。
対話エージェント装置は、発話情報を出力する(S240)。対話エージェント装置は、例えば、更新された要求事項明細に基づいて発話対象(者)を決定し、決定された発話対象に発話情報を出力する。ここで、発話対象は、例えば、ユーザであってもよく、サービス提供者であってもよく、又は、第三者であってもよい。一実施形態によれば、対話エージェント装置は、更新された要求事項明細に含まれた項目のうち、少なくとも1つの項目によって求められる条件が満足されない場合、発話対象をユーザとして決定する。
また、対話エージェント装置は、項目によって求められる条件の全てが満足されたか否かを判断する。対話エージェント装置は、例えば、更新された要求事項明細に基づいて、項目によって求められる条件の全てが満足されたか否かを判断する。又は、対話エージェント装置は、第3分類器を用いて項目によって求められる条件の全てが満足されたか否かを判断する。ここで、第3分類器は発話ヒストリー及び要求事項明細に基づいて、項目によって求められる条件の全ての満足の有無を判断し、条件の全ての満足の有無を示す値(例えば、「0」又は「1」の2進値)を出力する。対話エージェント装置は、第3分類器で条件の全てが満足されたという判断に応じて、サービスの要求が完了したことをユーザに知らせることができる。対話エージェント装置は、サービスの要求が完了したことを、例えば、「予約が完了しました」のようにスピーカを介して音声形態にユーザに知らせてもよく、ディスプレイに表示されるテキスト形態にユーザに知らせてもよい。
図3は、一実施形態に係る対話エージェントシステムの構成図である。図3を参照すると、一実施形態に係る対話エージェントシステム300は、UIモジュール310、対話モジュール330、及び電話モジュール350を含む。UIモジュール310は、ユーザ端末(又は、装置)に含まれてもよく、対話エージェント装置に含まれてもよい。対話モジュール330は、対話エージェント装置に含まれてもよい。
UIモジュール310は、ユーザからサービスの要求及び/又は要求事項が入力される入力インターフェースと要求されたサービスに対する進行事項を示す出力インターフェースを提供する。UIモジュール310は、要求事項の入力結果として、サービスの要求のために求められる項目を含む要求事項明細を対話モジュール330に伝達する。また、UIモジュール310は、サービスの要求のための対話進行状況を出力インターフェースを介してユーザに伝達する。
UIモジュール310は、要求事項入力部313及び対話内容出力部316を含む。
要求事項入力部313は、ユーザからサービスに対する要求事項が入力される入力インターフェースを提供する。入力インターフェースの入力モダリティ(modality)は、音声を通じた話(自然語)であってもよく、タイピング(typing)を通したテキスト、又は、アイコン又はボタンのクリックなどによる命令語入力などであってもよい。要求事項入力部313が入力インターフェースから収集された要求事項に基づいて、サービスごとに決定した要求事項明細の必要項目に値を満足すれば、要求事項明細の初期情報入力が完了する。ここで、ユーザは、例えば、自然語対話を基盤に要求しようとするサービスと当該サービスの要求事項を入力する。
要求事項入力部313は、入力インターフェースを介して入力された自然語を分析して所望のサービスと、当該サービスに必要な項目に対応する値を探し得る。要求事項入力部313は、例えば、ドメイン及び意図分類(domain and intent classification)及びスロットタギング(slot tagging)技術に基づいた神経網モデルを用いて入力された自然語からユーザの所望のサービスが何であるか、そして、当該サービスに必要な項目の値が何かを探す。より具体的に、要求事項入力部313は、入力インターフェースの入力モダリティがテキストである場合、該当テキストをパッシングしてnグラム(n−gram)トークン(token)に分離したり、あるいは、予め定義した辞書を基にテキストをパッシングして辞書にある単語、言い換えれば、トークンに分離し、分離したトークンを神経網モデルに入力することでユーザの所望のサービス、及び当該サービスに必要な項目の値を探すことができる。又は、要求事項入力部313は、入力モダリティが自然語である場合、音声認識期を用いて自然語を認識し、認識結果に基づいてユーザの所望のサービス、及び当該サービスに必要な項目の値を探すことができる。例えば、要求事項入力部313は、自然語分析結果に基づいてユーザの所望のサービス分野(又は、サービス類型)を決定し、当該サービス分野に対応してサービスごとに予め決定した項目を含むよう要求事項明細を生成する。要求事項入力部313は、一回のユーザ発話によってサービスの要求のために必要な全ての項目(例えば、必須項目)の値を満たすことができない場合、その後、追加質問を介して必要な項目に対する値がユーザから入力されてもよい。又は、要求事項入力部313は、ユーザが所望のサービスを直接選択するようにした後、サービスごとに決定した要求事項明細によりユーザが各項目の値を直接入力するようにしてもよい。要求事項入力部313は、例えば、図5Aに示すように、要求事項明細の初期情報に対する入力が完了すると、作成された要求事項明細を対話モジュール330に提供する。
対話内容出力部316は、現在のサービス要求に関する進行事項をユーザに出力する出力インターフェースを提供する。出力インターフェースは、例えば、要求事項入力部313で要求事項が入力されるためのユーザとの対話、要求事項入力部313で要求事項の入力を完了した結果として生成される要求事項明細、対話モジュール330で生成する送信発話、送信発話に応答する受信発話、及び対話モジュール330で要求事項明細に含まれた項目のうち条件が満足されない項目がある場合、ユーザにこれを知らせる内容などのような情報、言い換えれば、発話ヒストリーをユーザに提供する。出力インターフェースがユーザに提供する情報は、例えば、自然語発話、自然語テキストなどの形態を有し、実施形態によって、特定通知音などの形態を有してもよい。
また、対話内容出力部316は、要求事項明細で条件が不満足であるか、又は、満足の有無がまだ決定されていない項目に対応する発話内容を、条件が満足された項目に対応する発話内容と相違するように表示する。ここで、条件が不満足であるか、又は、満足の有無がまだ決定されていない項目に対応する発話内容は、該当項目の状態情報が第2状態、又は第3状態に対応する発話内容であり得る。
対話内容出力部316は、要求事項明細で条件が不満足であるか、又は、満足の有無がまだ決定されていない項目に対応する発話内容を、例えば、ハイライト又は点滅などによって表示してユーザに提供する。出力インターフェースがユーザに提供する情報は、例えば、図5に示す各図面に示されているように、画面にテキストの形態に表示されてもよく、又は、スピーカを介して音声でユーザに提供されてもよい。また、対話内容出力部316は、要求事項明細で条件が満足されない項目に対応する発話内容がある場合、ユーザに別途の通知を提供する。
対話モジュール330は、UIモジュール310から受信した要求事項明細で電話番号項目の値を参照して電話モジュール350を介してサービス提供者(SP)に電話呼出を行ってもよい。対話モジュール330は、サービス提供者との電話通話結果に応じて要求事項明細を更新し、更新された要求事項明細に基づいてサービスを求めるための発話情報を生成する。
対話モジュール330は、発話生成部333及び要求事項明細及び対話文脈管理部(以下、「管理部))336を含む。
発話生成部333は、UIモジュール310から受信した要求事項明細及び管理部336から受信した発話ヒストリーのうち少なくとも1つに基づいて、サービス要求に必要な文章、言い換えれば、発話情報を生成する。ここで、発話生成部333は、要求事項明細に含まれた電話番号項目以外の各項目の値、及び今までの発話ヒストリーを考慮して発話情報を生成する。発話生成部333が生成した発話情報(例えば、テキスト形態の文章又は構文)は、TTS(text to speech)機能を介して音声に変換され、電話モジュール350に送信発話として提供される。管理部336は、送信発話に対するサービス提供者の応答である受信発話を電話モジュール350から受信する。
管理部336は、受信発話のターン(turn)に基づいて、要求事項明細を更新する。管理部336は、例えば、対話エージェント装置の送信発話に対する応答が発話のターンに該当するかを判断することで、応答の受信が完了したか否かを決定する。発話のターンは、話者の変更又は話者の1つの応答の受信完了を示す。管理部336は、例えば、発話の話者が変更されたり、又は、話者Aの発話後、3秒間の沈黙があった場合などのように、ある話者の発話後に予め設定された時間が超過した場合に応答が発話の1ターンに該当すると判断して応答の受信が完了される。
管理部336は、応答の受信が完了することにより、応答に基づいて要求事項明細に含まれた項目によって求められる条件が新しく満足されたか、言い換えれば、要求事項明細に含まれた項目の状態情報が変更されたかを判断して要求事項明細を更新する。
管理部336は、更新された要求事項明細に含まれた項目によって求められる条件の全てが満足されたかを判断し、条件の全てが満足されたという判断に応じて、管理部336は通話を終了する。管理部336は、例えば、前述した第3分類器を用いて条件の全てが満足されたか否かを判断する。第3分類器は、要求事項明細に含まれた項目によって求められる条件の全てが満足されたかを判断するよう、学習された神経網基盤の2進分類器(binary classifier)であってもよい。
管理部336が通話を終了しようとする場合、対話モジュール330は、発話生成部333が通話終了に必要な発話情報(例えば、サービスの要求が完了したことをユーザに知らせる発話)を生成して出力させた後、管理部336が通話を終了させる。
管理部336は、発話ヒストリー及び要求事項明細を前述した第1分類器に入力し、第1分類器から出力されるマルチ・ホット・ベクトルによって要求事項明細の項目のうち条件が満足された項目があるか否かを判断し、要求事項明細を更新する。第1分類器は、例えば、神経網基盤のマルチ・クラス分類器であってもよい。第1分類器は、要求事項明細で条件が満足された項目をマルチ・ホット・ベクトルに出力する。例えば、要求事項明細の項目が合計10個であり、そのうち2つである最初の項目及び2番目の項目の条件が満足されたと仮定する。この場合、第1分類器は、10個のクラスのうち最初及び2番目クラスの値が「1」になるよう「1100000000」のようなマルチ・ホット・ベクトルを出力する。
また、管理部336は、発話ヒストリー及び要求事項明細を前述した第2分類器に入力し、第2分類器から出力されるマルチ・ホット・ベクトルによって要求事項明細の項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断して要求事項明細を更新する。第2分類器についても、第1分類器と同様に神経網基盤のマルチ・クラス分類器であってもよい。
第1分類器、第2分類器及び/又は第3分類器は、例えば、CNN(Convolutional Neural Network)、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、又はBLSTM(Bidirectional Long Short Term Memory)などのように様々な構造の神経網で実現される。
管理部336は、条件を満足できない項目があれば、UIモジュール310を介して条件を満足できない項目をユーザに通知し、ユーザから修正された要求事項の入力を受けて要求事項明細を更新する。ここで、UIモジュール310は、要求事項明細で条件が満足されない項目をハイライトにして表示される。また、UIモジュール310は、条件を満足しない項目に関する送受信発話文章をハイライト又は点滅してユーザに表示してもよい。ここで、修正された要求事項により更新された要求事項明細は、例えば、特定条件を変更したものであってもよく、又は、サービス要求を取り消したものであってもよい。更新された要求事項明細及び発話ヒストリーをユーザに表示する方法については、下記の図5ないし図6を参照して具体的に説明する。
対話モジュール330は、項目によって求められる条件の全てが満足されてサービスの要求が完了するまで、図4におけるステップS430〜ステップS480に該当する対話の進む過程を繰り返し行う。
対話モジュール330は、対話の進む過程を繰り返して行う間に、ユーザ(又はユーザ装置)からサービス提供者との直接通話を求める信号が受信されるか否かを判断する。直接通話を求める信号が受信されたと判断されれば、対話モジュール330は、サービス提供者と対話進行中にユーザがサービス提供者と直接対話するようにするインターフェースを提供する。ユーザがサービス提供者と直接対話する場合については、下記の図7を参照して具体的に説明する。
電話モジュール350は、送信部353及び受信部356を含む。送信部353は、対話モジュールで生成した送信発話を送信する。受信部356は、ユーザ又はサービス提供者から受信した受信発話を対話モジュール330に伝達する。
図4は、一実施形態に係る対話エージェントの対話進行シナリオを説明するための図であり、図5は、一実施形態に係る対話進行により要求事項明細が更新される過程を説明するための図である。図4及び図5を参照すると、ユーザ端末が一実施形態に係る対話エージェント装置(DAS)にサービス要求事項を伝達した場合に対話エージェント装置(DAS)の対話の進む過程が示されている。
ユーザは、ユーザ装置を介して対話エージェント装置(DAS)に要求事項明細を伝達することで、ユーザのサービス要求事項を伝達する(S410)。ユーザは、例えば、図5Aに示すように、「今週の水曜日、午後7時に寿司O2人予約して」のようにサービス要求事項を伝達する。対話エージェント装置(DAS)は、例えば、「はい。次のように今週の水曜日、午後7時に寿司O2人予約しましょうか?」のようにユーザのサービス要求事項を確認した後、サービス要求事項を分析して要求事項明細510を生成する。ここで、対話エージェント装置(DAS)は、ユーザのサービス要求事項によって把握した要求事項明細510の初期情報(要求したサービス:レストラン予約、レストラン名:寿司O、電話番号:010−XXXX−1234)によって要求事項明細510の各項目の値を満足させ、ここで、各項目に対応する状態情報は該当項目の値によって求められる条件が満足であるか、不満足であるか、又は、該当項目の条件の満足の有無がまだ決定されていないかに応じて「O」、「X」、又は「?」に表示される。ここで、初期情報に該当する電話番号は、ユーザ端末の電話番号部又は対話エージェント装置(DAS)に含まれた電話番号部からレストラン名により検索された番号、又は、対話エージェント装置(DAS)がインターネット接続を介して検索した番号であってもよい。
対話エージェント装置(DAS)は、サービス提供者(SP)に電話をかける(S420)。対話エージェント装置(DAS)は、対話進行のために発話情報を生成してサービス提供者(SP)に出力し(S430)、サービス提供者(SP)は、対話エージェント装置(DAS)の発話に対して応答する(S440)。対話エージェント装置(DAS)は、サービス提供者と対話(通話)を介して要求事項が満足されるかを判断する(S450)。ステップS450で要求事項が満足されないと判断されれば、対話エージェント装置(DAS)は、ユーザに、ユーザの要求事項のうち満足項目及び不満足項目を伝達する(S470)。
対話エージェント装置(DAS)は、例えば、図5Bに示すように、サービス提供者(SP)に電話をかけ、対話進行のために生成した発話情報(「今週の水曜日、午後7時に2人予約できますか?」)を出力する。ここで、サービス提供者が対話エージェント装置(DAS)の発話に対して「申し訳ございませんが、6時と8時にのみ予約できますが。」のように応答したと仮定する。対話エージェント装置(DAS)は、サービス提供者の応答を分析し、要求事項明細510で日付項目の値(「今週の水曜日」)と人数項目の値(「2人」)によって求められる条件は満足されるものと判断し、時間項目の値(午後7時)によって求められる条件は満足されないものと判断する。対話エージェント装置(DAS)は、各項目の条件満足の有無を判断した結果に応じて、要求事項明細510を要求事項明細520のように更新し得る。
ステップS470で、対話エージェント装置(DAS)から満足項目及び不満足項目を伝達されたユーザは、満足されない条件に対する修正された要求事項を対話エージェント装置(DAS)に伝達する(S480)。ユーザから、満足されない条件に対する修正された要求事項を伝達された対話エージェント装置(DAS)は、修正された要求事項に基づいて要求事項明細を更新する。
例えば、対話エージェント装置(DAS)は、図5Cに示すように、「マスター、ご希望のように時間が7時はできず、6時と8時にのみ可能であるそうです。」のような送信発話を生成し、ユーザに満足項目及び不満足項目を伝達する。これを受信したユーザが「そしたら6時にして」のように満足されない条件に対する修正された要求事項を対話エージェントに伝達したと仮定する。対話エージェント装置(DAS)は、「はい、それでは6時に予約します」のようにユーザからの受信発話を確認する発信発話を生成する。また、対話エージェント装置(DAS)は、修正された要求事項(「6時」)を反映して要求事項明細520を要求事項明細530のように更新する。ここで、時間項目の値(6時)によって求められる条件の満足の有無はまだ決定されていないため、時間項目に対応する状態情報は「?」に変更される。
実施形態により、対話エージェント装置(DAS)は、更新された要求事項明細に含まれた項目のうち、少なくとも1つの項目によって求められる条件が満足されない場合、少なくとも1つの項目をユーザに問い合わせてもよい。
対話エージェント装置(DAS)は、ステップS480でユーザから伝えられた、満足されない条件に対する修正された要求事項により更新された要求事項明細530に基づいて、新しい発話情報を生成(S430)して出力する。例えば、対話エージェント装置(DAS)は、更新された要求事項明細530に基づいて図5Dに示すような新しい発話情報(「それでは、6時に予約できますか?」)を生成(S430)して出力する。対話エージェント装置(DAS)は、新しい発話情報に対応するサービス提供者の応答(「はい。水曜日6時に2人予約します。予約者のお名前をお願いします。」)を受信し(S440)、サービス提供者と対話(通話)を介して要求事項が満足されるかを再び判断する(S450)。
ステップS450において、要求事項が満足されたと判断されれば、対話エージェント装置(DAS)は、ユーザの全体要求事項が満足されたかを判断する(S460)。ステップS460で、ユーザの全体要求事項が満足されないと判断されれば、対話エージェント装置(DAS)は、満足されない要求事項に基づいて新しい発話情報を生成(S430)して出力する。
ステップS460で、ユーザの全体要求事項が満足されたと判断されれば、対話エージェント装置(DAS)は、ユーザにサービス要求結果、言い換えれば、サービスの要求が完了したことを知らせる(S490)。例えば、図5Eに示された要求事項明細540のように、ユーザの全体要求事項が満足されると判断されれば、対話エージェント装置(DAS)は、「マスター、寿司O水曜日の午後6時に2人予約されました。」のようにユーザにサービスの要求が完了したことを知らせることができる。
図6は、一実施形態に係る対話エージェントが発話ヒストリー及び要求事項明細を表示する方法を説明するための図である。図6を参照すると、一実施形態に係る対話エージェント装置のUIモジュールを介して提供される画面が示されている。対話エージェント装置は、図5に示す各図面に示されているように要求事項明細を対話内容と共に順次スクロールされるよう表示してもよく、要求事項明細を対話内容と分離して表示してもよい。
対話エージェント装置は、例えば、画面の上段の一定部分に要求事項明細610を表示し、要求事項明細610の下段に発話ヒストリー630を表示する。ここで、要求事項明細610の値及び/又は満足の有無を示す状態情報は、典型的には、発話ヒストリー630で発話の1ターンが変更されるたびに更新される。
実施形態により、ユーザは、設定によって発話ヒストリー630の表示の有無を変更する。また、ユーザは、要求事項明細610を全て表示したり、又は、一部のみを表示するように設定してもよい。ユーザは、例えば、要求事項明細610のうち条件が満足された項目は表示せず、条件が不満足であるか、条件満足の有無がまだ決定されていない項目を表示するようにしてもよい。ここで、条件が不満足であるか、条件満足の有無がまだ決定されていない項目は、通知形態に表示されたり、又は、ハイライト又は点滅の形態で表示されてもよい。
実施形態に応じて、対話エージェント装置は、ユーザと対話エージェント装置との間の対話と、対話エージェントとサービス提供者との間の対話を互いに区分して互いに相違するように表現してもよい。また、対話エージェント装置は、ユーザの対話エージェント装置間の対話をサービス提供者が見たり聞くことを可能にしてもよく、サービス提供者が見たり聞くことを不可能にしてもよい。
図7は、他の実施形態に係る対話エージェントのユーザインターフェースを説明するための図である。図7を参照すると、対話エージェント装置がサービス提供者との対話進行中にユーザインターフェースを介してユーザ(又は、ユーザ装置)からサービス提供者との直接通話を求める信号が受信された場合の動作が示されている。
例えば、対話エージェント装置がサービス提供者との対話進行中にサービス提供者から「申し訳ございませんが、6時と8時にのみ予約できますが。」のような応答を受信した後、ユーザがユーザインターフェース(例えば、ボタン710)を介してサービスの提供者との直接通話を求める信号を送信した仮定する。ここで、直接通話を求める信号は、例えば、ユーザが予め提供されたユーザインターフェースを介して「直接対話する」のように予め特定された命令キーワードを言ったり、図7に示すように画面に表示された「直接対話する」ボタン710を押したり、又は「直接対話する」をタイピングするという動作などを介して対話エージェント装置に伝えられることができる。
直接通話を求める信号が伝えられた場合、対話エージェント装置は、発話情報の生成を中断し、ユーザの発話内容(又は、ユーザがタイピングした内容をTTS機能によって音声に変換)をサービス提供者に送信発話として伝達する。
対話エージェント装置は、サービス提供者の応答発話をUIモジュールに伝達して音声及び/又はテキストで出力することで、ユーザとサービス提供者と直接対話することができる。ここで、ユーザの発話内容は、例えば、ユーザの声で提供されてもよく、又は、自動音声認識(Automatic Speech Recognition;ASR)とTTSとの組合せを介してユーザの声に代わる対話エージェント装置の声に変換されてサービス提供者に送信発話として伝えられてもよい。ここで、サービス提供者とユーザとの間の直接対話の内容についても発話ヒストリーに含まれてもよい。
直接通話が進んでいる間にも、対話エージェント装置は、対話ヒストリーを分析して要求事項明細を更新し、更新された要求事項明細をユーザに提供する。
実施形態により、対話エージェント装置は、サービス提供者との直接通話を求める信号の受信後に、ユーザから対話エージェントを通した対話再開を求める信号を受信してもよい。ここで、対話再開を求める信号は、例えば、「対話エージェントサービス」のように予め特定された命令キーワードを言ったり、図7に示すように画面に表示された「直接対話する」ボタン710を再び押したり、又は「対話エージェントサービス」をタイピングする動作などを介して対話エージェント装置に伝えられてもよい。対話エージェント装置は、対話再開を求める信号に応答して、発話情報の生成を再開できる。
図8は、一実施形態に係る要求事項明細に含まれた必須項目及び選択項目に対する処理方法を説明するための図である。図8Aを参照すると、ユーザ801がユーザ装置を介して対話エージェント803にユーザのサービス要求事項を伝達した場合、ユーザのサービス要求事項によって対話エージェント803が生成した要求事項明細810が示されている。ここで、要求事項明細810に含まれた項目は、サービス類型ごとに決定された少なくとも1つの必須項目の他にも少なくとも1つの選択項目を含み得る。
対話エージェント803は、ユーザのサービス要求事項を分析してユーザが要求したサービス類型(サービスドメイン)を決定する。対話エージェント803は、サービス類型ごとに予め決定した要求事項明細のフォーム(form)を呼び出し、ユーザのサービス要求事項から分析された情報(又は、初期情報)により必須項目の値を満たす。ここで、要求事項明細に含まれた必須項目及び選択項目は、当該のサービスごとに予め決定されてもよい。
例えば、ユーザのサービス要求事項に必須項目のうち、1番の項目及び2番の項目の値に該当する内容が含まれていると仮定する。この場合、必須項目の値のうち3番の項目に対する値が追加的に必要な場合、対話エージェント803は、3番の項目に対する値を問い合わせる送信発話情報を生成する。対話エージェント803は、3番の項目に対する値を問い合わせる送信発話情報をユーザ801に伝達し、これに対する応答を受信して要求事項明細810の必須項目を全て満たし得る。対話エージェント803は、必須項目が全て満たされた要求事項明細810に基づいて、サービス提供者805にサービスを求めるための発話情報を生成して出力する。ここで、要求事項明細810の選択項目は後、サービス提供者805との通話を介して満たされてもよく、空いているまま保持されてもよい。
図8Bを参照すると、ユーザ801がユーザ装置を介して対話エージェント803にユーザのサービス要求事項を伝達した場合、ユーザのサービス要求事項によって対話エージェント803が生成した要求事項明細820が示される。
例えば、ユーザのサービス要求事項に必須項目のうち1番の項目ないし3番の項目の値と、選択項目である5番の項目の値に該当する内容が含まれていると仮定する。対話エージェント803は、ユーザのサービス要求事項に基づいて、必須項目である1番の項目ないし3番の項目の値と、選択項目である5番の項目の値を満たして要求事項明細820を生成する。ここで、要求事項明細820で選択項目に分類された5番の項目は、ユーザのサービス要求事項(又は、ユーザの発話内容)により必須項目に変更されたり、又は、必須項目と同一に扱われる。このように該当項目が必須項目であるか、又は選択項目であるかは、ユーザの発話内容に応じて変更される。
対話エージェント803は、要求事項明細820に基づいてサービス提供者805にサービスを求めるための発話情報を生成して出力する。
前述した例示に示すように、ユーザ801と対話エージェント803との間のコミュニケーションは、発話インターフェースを介して実行されるが、場合に応じて、GUIなどの他のインターフェースを介して実行されてもよい。
図9は、一実施形態に係る対話エージェント装置のブロック図である。図9を参照すると、一実施形態に係る対話エージェント装置900は、通信インターフェース910及びプロセッサ920を含む。対話エージェント装置900は、メモリ930、ディスプレイ940、及びスピーカ950をさらに含む。通信インターフェース910、プロセッサ920、メモリ930、ディスプレイ940、及びスピーカ950は通信バス905を介して接続される。
通信インターフェース910は、サービスの要求のために送受信される送信発話及び受信発話のうち少なくとも1つを含む発話ヒストリーを取得する。通信インターフェース910は、プロセッサ920が生成した発話情報を出力する。
通信インターフェース910は、対話エージェントを通した対話再開を求める信号を受信する。ここで、プロセッサ920は、対話再開を求める信号に応答して、発話情報の生成を再開する。
通信インターフェース910は、更新された要求事項明細をユーザに提供したり、発話ヒストリーをユーザに提供したり、又は更新された要求事項明細及び発話ヒストリーをユーザに提供する。
通信インターフェース910は、ユーザ端末のインターフェースを介して収集された情報に基づいて生成された要求事項明細を受信する。
通信インターフェース910は、対話エージェントがサービスの提供者に送信する第1送信発話、対話エージェントがサービスの提供者から受信する第1受信発話、対話エージェントがユーザに送信する第2送信発話、及び対話エージェントがユーザから受信する第2受信発話のうち少なくとも1つを取得する。
プロセッサ920は、発話ヒストリーに基づいて、サービスの要求のために求められる項目を含む要求事項明細を更新する。プロセッサ920は、更新された要求事項明細に基づいて、サービスを求めるための発話情報を生成する。要求事項明細は、項目によって求められる条件が満足されたか否かを示す状態情報を含む。状態情報は、例えば、該当項目の条件が満足されたことを示す第1状態、該当項目の条件が満足されないことを示す第2状態、及び該当項目の条件の満足の有無がまだ決定されていないことを示す第3状態などを含む。
プロセッサ920は、発話ヒストリーに基づいて、項目によって求められる条件の満足の有無を判断し、判断結果に応じて要求事項明細を更新する。
プロセッサ920は、項目のうち少なくとも1つの項目によって求められる条件が満足されたか否かを判断したり、又は、項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断する。
プロセッサ920は、発話ヒストリー及び要求事項明細を第1分類器に入力する。プロセッサ920は、第1分類器が出力するマルチ・ホット・ベクトルに基づいて、少なくとも1つの項目によって求められる条件が満足されたか否かを判断する。ここで、第1分類器は、項目によって求められる条件の満足の有無を判断し、項目に対応する状態情報をマルチ・ホット・ベクトルに出力する。
プロセッサ920は、発話ヒストリー及び要求事項明細を第2分類器に入力する。プロセッサ920は、第2分類器が出力するマルチ・ホット・ベクトルに基づいて、少なくとも1つの項目によって求められる条件が不満足であるか否かを判断する。ここで、第2分類器は、項目によって求められる条件の不満足の有無を判断し、項目に対応する状態情報をマルチ・ホット・ベクトルに出力する。
プロセッサ920は、項目によって求められる条件の全てが満足されたか否かを判断する。プロセッサ920は、条件の全てが満足されたという判断に応じて、サービスの要求が完了したことをユーザに知らせる。
プロセッサ920は、更新された要求事項明細に基づいて、条件の全てが満足されたか否かを判断する。又は、プロセッサ920は、第3分類器を用いて項目によって求められる条件の全てが満足されたか否かを判断する。ここで、第3分類器は、発話ヒストリー及び要求事項明細に基づいて項目によって求められる条件の満足の有無を判断し、条件の全ての満足の有無を示す値(例えば、2進値)を出力する。
プロセッサ920は、更新された要求事項明細に基づいて発話対象を決定する。プロセッサ920は、発話対象に発話情報を出力する。プロセッサ920は発話情報を、例えば、ディスプレイ940及び/又はスピーカ950を介して出力する。
プロセッサ920は、更新された要求事項明細に含まれた項目のうち、少なくとも1つの項目によって求められる条件が満足されない場合、発話対象をユーザとして決定する。ここで、要求事項明細に含まれた項目は、サービス類型ごとに決定された少なくとも1つの必須項目を含む。また、項目は、必須項目を除いた少なくとも1つの選択項目をさらに含む。
通信インターフェース910は、ユーザ装置からサービスの提供者との直接通話を求める信号を受信する。
プロセッサ920は、直接通話を求める信号の受信後に発話情報の生成を中断し、ユーザ装置から入力される情報をサービス提供者に提供する。
プロセッサ920は、更新された要求事項明細に含まれた項目のうち、少なくとも1つの項目によって求められる条件が満足されない場合、少なくとも1つの項目をユーザに問い合わせる。
また、プロセッサ920は、図1〜図8を参照して前述した少なくとも1つの方法又は少なくとも1つの方法に対応するアルゴリズムを行ってもよい。プロセッサ920は、目的とする動作を実行させるための物理的な構造を有する回路を有するハードウェアで具現されたデータ処理装置であり得る。例えば、目的とする動作は、プログラムに含まれたコード又は命令を含む。例えば、ハードウェアで具現されたデータ処理装置は、マイクロプロセッサー、中央処理装置、プロセッサコア、マルチ・コアプロセッサ、マルチプロセッサ、ASIC(Application−Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)を含む。
プロセッサ920はプログラムを実行し、対話エージェント装置900を制御する。プロセッサ920によって実行されるプログラムコードは、メモリ930に格納される。
メモリ930は、ユーザ装置から受信した要求事項明細を格納する。また、メモリ930は、プロセッサ920で更新された要求事項明細を格納する。メモリ930は、プロセッサ920が生成した発話情報を格納する。
メモリ930は、上述したプロセッサ920での処理過程で生成される様々な情報を格納する。その他にも、メモリ930は、各種のデータとプログラムなどを格納する。メモリ930は、揮発性メモリ又は不揮発性メモリを含む。メモリ930は、ハードディスクなどのような大容量格納媒体を備えて各種データを格納する。
ディスプレイ940は、プロセッサ920が生成したテキスト形態の発話情報を出力する。また、スピーカ950は、プロセッサ920が生成した音声形態の発話情報を出力する。ここで、プロセッサ920は、TTS(Text To Speech)機能を含む。
以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DYIJDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
900:対話エージェント装置
905:通信バス
910:通信インターフェース
920:プロセッサ
930:メモリ
940:ディスプレイ
950:スピーカ

Claims (43)

  1. サービスの要求のために送信される送信発話のうち少なくとも1つ、及び前記サービスの要求のために受信される受信発話のうち少なくとも1つを含む発話ヒストリーを取得するステップと、
    前記発話ヒストリーに基づいて、前記サービスの要求のために求められる項目を含む要求事項明細を更新するステップと、
    前記更新された要求事項明細に基づいて、前記サービスを求めるための発話情報を生成するステップと、
    前記発話情報を出力するステップと、
    を含む、対話エージェントの動作方法。
  2. 前記要求事項明細は、前記項目によって求められる条件が満足されたか否かを示す状態情報を含む、請求項1に記載の対話エージェントの動作方法。
  3. 前記状態情報は、
    該当項目の条件が満足されたことを示す第1状態、
    前記該当項目の条件が満足されないことを示す第2状態、及び
    前記該当項目の条件の満足の有無がまだ決定されていないことを示す第3状態
    のうち少なくとも1つを含む、請求項2に記載の対話エージェントの動作方法。
  4. 前記更新するステップは、
    前記発話ヒストリーに基づいて、前記項目によって求められる条件の満足の有無を判断するステップと、
    前記判断結果に応じて前記要求事項明細を更新するステップと、
    をさらに含む、請求項1−3のいずれか1項に記載の対話エージェントの動作方法。
  5. 前記条件の満足の有無を判断するステップは、
    前記項目のうち少なくとも1つの項目によって求められる条件が満足されたか否かを判断するステップと、
    前記項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断するステップと、
    のうち少なくとも1つを含む、請求項4に記載の対話エージェントの動作方法。
  6. 前記少なくとも1つの項目によって求められる条件が満足されたか否かを判断するステップは、
    前記発話ヒストリー及び前記要求事項明細を分類器に入力するステップであって、前記分類器は、前記項目によって求められる条件の満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力する、ステップと、
    前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が満足されたか否かを判断するステップと、
    を含む、請求項5に記載の対話エージェントの動作方法。
  7. 前記少なくとも1つの項目によって求められる条件が不満足であるか否かを判断するステップは、
    前記発話ヒストリー及び前記要求事項明細を分類器に入力するステップであって、前記分類器は、前記項目によって求められる条件の不満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力する、ステップと、
    前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が不満足であるか否かを判断するステップと、
    を含む、請求項5に記載の対話エージェントの動作方法。
  8. 前記項目によって求められる条件の全てが満足されたか否かを判断するステップと、
    前記条件の全てが満足されたという判断に応じて、前記サービスの要求が完了したことをユーザに知らせるステップと、
    をさらに含む、請求項1−7のいずれか1項に記載の対話エージェントの動作方法。
  9. 前記項目によって求められる条件の全てが満足されたか否かを判断するステップは、
    前記更新された要求事項明細に基づいて、前記条件の全てが満足されたか否かを判断するステップと、
    前記発話ヒストリー及び前記要求事項明細に基づいて前記項目によって求められる条件の満足の有無を判断し、前記条件の全ての満足の有無を示す値を出力する分類器を用いて、前記条件の全てが満足されたか否かを判断するステップと、
    のうち少なくとも1つを含む、請求項8に記載の対話エージェントの動作方法。
  10. 前記更新された要求事項明細に基づいて発話対象を決定するステップをさらに含み、
    前記発話情報を出力するステップは、前記発話対象に前記発話情報を出力するステップを含む、請求項1−9のいずれか1項に記載の対話エージェントの動作方法。
  11. 前記発話対象を決定するステップは、前記更新された要求事項明細に含まれた項目のうち、少なくとも1つの項目によって求められる条件が満足されない場合、前記発話対象をユーザとして決定するステップを含む、請求項10に記載の対話エージェントの動作方法。
  12. 前記項目は、前記サービスの類型ごとに決定された少なくとも1つの必須項目を含む、請求項1−11のいずれか1項に記載の対話エージェントの動作方法。
  13. 前記項目は、前記必須項目を除いた少なくとも1つの選択項目をさらに含む、請求項12に記載の対話エージェントの動作方法。
  14. ユーザ装置から前記サービスの提供者との直接通話を求める信号を受信するステップと、
    前記直接通話を求める信号の受信後に、前記発話情報の生成を中断するステップと、
    前記ユーザ装置から入力される情報を前記サービスの提供者に提供するステップと、
    をさらに含む、請求項1に記載の対話エージェントの動作方法。
  15. 前記対話エージェントを通した対話再開を求める信号を受信するステップと、
    前記対話再開を求める信号に応答して、前記発話情報の生成を再開するステップと、
    をさらに含む、請求項14に記載の対話エージェントの動作方法。
  16. 前記更新された要求事項明細をユーザに提供するステップと、
    前記発話ヒストリーをユーザに提供するステップと、
    のうち少なくとも1つをさらに含む、請求項1−13のいずれか1項に記載の対話エージェントの動作方法。
  17. 前記更新された要求事項明細に含まれた項目のうち少なくとも1つの項目によって求められる条件が満足されない場合、前記少なくとも1つの項目をユーザに問い合わせるステップをさらに含む、請求項1−13のいずれか1項に記載の対話エージェントの動作方法。
  18. ユーザ端末のインターフェースを介して収集された情報に基づいて生成された前記要求事項明細を受信するステップをさらに含む、請求項1−17のいずれか1項に記載の対話エージェントの動作方法。
  19. 前記発話ヒストリーを取得するステップは、
    前記対話エージェントが前記サービスの提供者に送信する第1送信発話を取得するステップと、
    前記対話エージェントが前記サービスの提供者から受信する第1受信発話を取得するステップと、
    前記対話エージェントがユーザに送信する第2送信発話を取得するステップと、
    前記対話エージェントが前記ユーザから受信する第2受信発話を取得するステップと、
    のうち少なくとも1つを含む、請求項1−18のいずれか1項に記載の対話エージェントの動作方法。
  20. 請求項1乃至19のいずれか一項に記載の動作方法を装置のコンピュータに実行させるコンピュータプログラム。
  21. サービスの要求のために送信される送信発話のうち少なくとも1つ、及び前記サービスの要求のために受信される受信発話のうち少なくとも1つを含む発話ヒストリーを取得し、発話情報を出力する通信インターフェースと、
    前記発話ヒストリーに基づいて、前記サービスの要求のために求められる項目を含む要求事項明細を更新し、前記更新された要求事項明細に基づいて前記サービスを求めるための前記発話情報を生成するプロセッサと、
    を含む、対話エージェント装置。
  22. 前記要求事項明細は、前記項目によって求められる条件が満足されたか否かを示す状態情報を含む、請求項21に記載の対話エージェント装置。
  23. 前記状態情報は、
    該当項目の条件が満足されたことを示す第1状態、
    前記該当項目の条件が満足されないことを示す第2状態、及び
    前記該当項目の条件の満足の有無がまだ決定されていないことを示す第3状態のうち少なくとも1つを含む、請求項22に記載の対話エージェント装置。
  24. 前記プロセッサは、前記発話ヒストリーに基づいて前記項目によって求められる条件の満足の有無を判断し、前記判断結果に応じて前記要求事項明細を更新する、請求項21−23のいずれか1項に記載の対話エージェント装置。
  25. 前記プロセッサは、前記項目のうち少なくとも1つの項目によって求められる条件が満足されたか否かを判断したり、又は、前記項目のうち少なくとも1つの項目によって求められる条件が不満足であるか否かを判断する、請求項24に記載の対話エージェント装置。
  26. 前記プロセッサは、前記発話ヒストリー及び前記要求事項明細を分類器(前記分類器は、前記項目によって求められる条件の満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力)に入力し、前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が満足されたか否かを判断する、請求項25に記載の対話エージェント装置。
  27. 前記プロセッサは、前記発話ヒストリー及び前記要求事項明細を分類器(前記分類器は、前記項目によって求められる条件の不満足の有無を判断し、前記項目に対応する状態情報をマルチ・ホット・ベクトルに出力)に入力し、前記マルチ・ホット・ベクトルに基づいて、前記少なくとも1つの項目によって求められる条件が不満足であるか否かを判断する、請求項25に記載の対話エージェント装置。
  28. 前記プロセッサは、前記項目によって求められる条件の全てが満足されたか否かを判断し、前記条件の全てが満足されたという判断に応じて、前記サービスの要求が完了したことをユーザに知らせる、請求項21−27のいずれか1項に記載の対話エージェント装置。
  29. 前記プロセッサは、前記更新された要求事項明細に基づいて前記条件の全てが満足されたか否かを判断したり、又は、前記発話ヒストリー及び前記要求事項明細に基づいて前記項目によって求められる条件の満足の有無を判断し、前記条件の全ての満足の有無を示す値を出力する分類器を用いて前記条件の全てが満足されたか否かを判断する、請求項28に記載の対話エージェント装置。
  30. 前記プロセッサは、前記更新された要求事項明細に基づいて発話対象を決定し、前記発話対象に前記発話情報を出力する、請求項21−29のいずれか1項に記載の対話エージェント装置。
  31. 前記プロセッサは、前記更新された要求事項明細に含まれた項目のうち少なくとも1つの項目によって求められる条件が満足されない場合、前記発話対象をユーザとして決定する、請求項30に記載の対話エージェント装置。
  32. 前記項目は、前記サービスの類型ごとに決定された少なくとも1つの必須項目を含む、請求項21−31のいずれか1項に記載の対話エージェント装置。
  33. 前記項目は、前記必須項目を除いた少なくとも1つの選択項目をさらに含む、請求項32に記載の対話エージェント装置。
  34. 前記通信インターフェースは、ユーザ装置から前記サービスの提供者との直接通話を求める信号を受信し、
    前記プロセッサは、前記直接通話を求める信号の受信後に、前記発話情報の生成を中断し、前記ユーザ装置から入力される情報を前記サービスの提供者に提供する、請求項31に記載の対話エージェント装置。
  35. 前記通信インターフェースは、前記対話エージェント装置を通した対話再開を求める信号を受信し、
    前記プロセッサは、前記対話再開を求める信号に応答して、前記発話情報の生成を再開する、請求項34に記載の対話エージェント装置。
  36. 前記通信インターフェースは、前記更新された要求事項明細をユーザに提供したり、前記発話ヒストリーを前記ユーザに提供したり、又は、前記更新された要求事項明細及び前記発話ヒストリーを前記ユーザに提供する、請求項21−33のいずれか1項に記載の対話エージェント装置。
  37. 前記プロセッサは、前記更新された要求事項明細に含まれた項目のうち少なくとも1つの項目によって求められる条件が満足されない場合、前記少なくとも1つの項目をユーザに問い合わせる、請求項21−33のいずれか1項に記載の対話エージェント装置。
  38. 前記通信インターフェースは、ユーザ端末のインターフェースを介して収集された情報に基づいて生成された前記要求事項明細を受信する、請求項21−37のいずれか1項に記載の対話エージェント装置。
  39. 前記通信インターフェースは、前記対話エージェント装置が前記サービスの提供者に送信する第1送信発話、前記対話エージェント装置が前記サービスの提供者から受信する第1受信発話、前記対話エージェント装置がユーザに送信する第2送信発話、及び前記対話エージェント装置が前記ユーザから受信する第2受信発話のうち少なくとも1つを取得する、請求項21−38のいずれか1項に記載の対話エージェント装置。
  40. メモリと、
    ユーザ装置からサービス要求に関する要求事項を受信し、
    前記要求事項に基づいて要求事項明細を生成し、
    前記要求事項明細に基づいてサービス提供者との接続を設定し、
    前記接続の間に前記サービス提供者によって前記要求事項が全て満足されるかを決定し、
    前記要求事項が全て満足される場合、サービスに対する要求が完了したことをユーザ装置に通知し、
    前記要求事項が全て満足されない場合、少なくとも1つの要求事項が満足されないことを前記ユーザ装置に通知し、満足されない少なくとも1つの要求事項に関する変更された要求事項を受信し、前記変更された要求事項により前記要求事項明細を更新するプロセッサと、
    を含む、対話エージェント。
  41. 前記プロセッサは、
    前記更新された要求事項明細に基づいて前記サービス提供者と第2接続を設定し、
    前記第2接続の間に、前記更新された要求事項明細に関する全ての条件が前記サービス提供者によって満足されるか否かを決定する、請求項40に記載の対話エージェント。
  42. 前記ユーザ装置から受信された要求事項が自然語の形態である場合、
    前記プロセッサは、
    前記自然語を分析し、前記自然語の分析に基づいて前記サービスのフィールド又は類型を決定し、前記決定されたフィールド又は類型に基づいて前記要求事項明細を生成する、請求項40に記載の対話エージェント。
  43. 前記ユーザ装置から受信された要求事項がテキストの形態である場合、
    前記プロセッサは、前記テキストをトークンに分離し、前記分離したトークンを神経網モデルに入力し、前記神経網モデルの出力に基づいて前記要求事項明細を生成する、請求項40に記載の対話エージェント。
JP2019154766A 2018-08-28 2019-08-27 対話エージェントの動作方法及びその装置 Active JP7460338B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180101285A KR20200024511A (ko) 2018-08-28 2018-08-28 대화 에이전트의 동작 방법 및 그 장치
KR10-2018-0101285 2018-08-28

Publications (2)

Publication Number Publication Date
JP2020034914A true JP2020034914A (ja) 2020-03-05
JP7460338B2 JP7460338B2 (ja) 2024-04-02

Family

ID=66379802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019154766A Active JP7460338B2 (ja) 2018-08-28 2019-08-27 対話エージェントの動作方法及びその装置

Country Status (5)

Country Link
US (2) US11056110B2 (ja)
EP (1) EP3618062B1 (ja)
JP (1) JP7460338B2 (ja)
KR (1) KR20200024511A (ja)
CN (1) CN110909135A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023501059A (ja) * 2020-03-20 2023-01-18 グーグル エルエルシー 人間の参加者の代理の自動アシスタントによる準委任通話

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020149031A1 (ja) * 2019-01-16 2020-07-23 ソニー株式会社 応答処理装置及び応答処理方法
US10841251B1 (en) * 2020-02-11 2020-11-17 Moveworks, Inc. Multi-domain chatbot

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099404A (ja) * 2000-07-21 2002-04-05 Matsushita Electric Ind Co Ltd 対話制御方法及びその装置
US20130275164A1 (en) * 2010-01-18 2013-10-17 Apple Inc. Intelligent Automated Assistant
US20160035353A1 (en) * 2014-07-31 2016-02-04 Google Inc. Conversational agents
US20160098992A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and Connection Platform
US20170300831A1 (en) * 2016-04-18 2017-10-19 Google Inc. Automated assistant invocation of appropriate agent
US20170359463A1 (en) * 2016-06-13 2017-12-14 Google Inc. Dynamic initiation of automated call
US20180211663A1 (en) * 2017-01-23 2018-07-26 Hyundai Motor Company Dialogue system, vehicle having the same and dialogue processing method

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931384B1 (en) 1999-06-04 2005-08-16 Microsoft Corporation System and method providing utility-based decision making about clarification dialog given communicative uncertainty
US7444383B2 (en) 2000-06-17 2008-10-28 Microsoft Corporation Bounded-deferral policies for guiding the timing of alerting, interaction and communications using local sensory information
US7844666B2 (en) 2000-12-12 2010-11-30 Microsoft Corporation Controls and displays for acquiring preferences, inspecting behavior, and guiding the learning and decision policies of an adaptive communications prioritization and routing system
US7292689B2 (en) 2002-03-15 2007-11-06 Intellisist, Inc. System and method for providing a message-based communications infrastructure for automated call center operation
US20050165631A1 (en) 2004-01-28 2005-07-28 Microsoft Corporation Time management representations and automation for allocating time to projects and meetings within an online calendaring system
US20060233344A1 (en) 2005-04-14 2006-10-19 Das Subrata K System and method for expedited resolution of inquiries for an automated agent
US7751542B2 (en) 2006-05-04 2010-07-06 Avaya Inc. Feeble ring tones
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080084989A1 (en) 2006-09-22 2008-04-10 International Business Machines Corporation Intelligent Reusable Dialog Components for Converged Dialog and Session Control
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8255225B2 (en) 2008-08-07 2012-08-28 Vocollect Healthcare Systems, Inc. Voice assistant system
KR101553521B1 (ko) 2008-12-11 2015-09-16 삼성전자 주식회사 지능형 로봇 및 그 제어방법
US8830114B2 (en) 2010-09-30 2014-09-09 Toyota Jidosha Kabushiki Kaisha Mobile object detecting apparatus
KR101954774B1 (ko) 2012-08-16 2019-03-06 삼성전자주식회사 문자 데이터를 이용한 음성 통화를 제공하기 위한 전자 장치 및 방법
JPWO2014073612A1 (ja) * 2012-11-08 2016-09-08 日本電気株式会社 会話文生成装置、会話文生成方法及び会話文生成プログラム
US9570090B2 (en) 2015-05-26 2017-02-14 Google Inc. Dialog system with automatic reactivation of speech acquiring mode
CA2957638A1 (en) 2013-08-08 2015-02-12 E-Valuation,Inc. Systems and methods of communicating information regarding interpersonal relationships using biographical imagery
US8964962B1 (en) 2013-10-01 2015-02-24 Avaya Inc. Dialog reorder
US20170017501A1 (en) * 2013-12-16 2017-01-19 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9830044B2 (en) * 2013-12-31 2017-11-28 Next It Corporation Virtual assistant team customization
US9607102B2 (en) 2014-09-05 2017-03-28 Nuance Communications, Inc. Task switching in dialogue processing
EP3210337B1 (en) 2014-10-22 2021-06-02 Microsoft Technology Licensing, LLC Enabling classification and irm in software applications
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
KR102151626B1 (ko) 2016-01-12 2020-09-03 네이버 주식회사 통화 중 특정 태스크를 처리하는 장치 및 그 방법
US20170277993A1 (en) 2016-03-22 2017-09-28 Next It Corporation Virtual assistant escalation
US20180025726A1 (en) * 2016-07-22 2018-01-25 International Business Machines Corporation Creating coordinated multi-chatbots using natural dialogues by means of knowledge base
KR20190004495A (ko) * 2017-07-04 2019-01-14 삼성에스디에스 주식회사 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템
KR101891492B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 답변을 변형하여 상황에 맞는 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US11212637B2 (en) * 2018-04-12 2021-12-28 Qualcomm Incorproated Complementary virtual audio generation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099404A (ja) * 2000-07-21 2002-04-05 Matsushita Electric Ind Co Ltd 対話制御方法及びその装置
US20130275164A1 (en) * 2010-01-18 2013-10-17 Apple Inc. Intelligent Automated Assistant
US20160035353A1 (en) * 2014-07-31 2016-02-04 Google Inc. Conversational agents
US20160098992A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and Connection Platform
US20170300831A1 (en) * 2016-04-18 2017-10-19 Google Inc. Automated assistant invocation of appropriate agent
US20170359463A1 (en) * 2016-06-13 2017-12-14 Google Inc. Dynamic initiation of automated call
US20180211663A1 (en) * 2017-01-23 2018-07-26 Hyundai Motor Company Dialogue system, vehicle having the same and dialogue processing method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023501059A (ja) * 2020-03-20 2023-01-18 グーグル エルエルシー 人間の参加者の代理の自動アシスタントによる準委任通話
JP7392128B2 (ja) 2020-03-20 2023-12-05 グーグル エルエルシー 人間の参加者の代理の自動アシスタントによる準委任通話
US12080285B2 (en) 2020-03-20 2024-09-03 Google Llc Semi-delegated calling by an automated assistant on behalf of human participant

Also Published As

Publication number Publication date
JP7460338B2 (ja) 2024-04-02
US20200075003A1 (en) 2020-03-05
US11705128B2 (en) 2023-07-18
EP3618062A1 (en) 2020-03-04
US11056110B2 (en) 2021-07-06
US20210304762A1 (en) 2021-09-30
CN110909135A (zh) 2020-03-24
KR20200024511A (ko) 2020-03-09
EP3618062B1 (en) 2021-12-29

Similar Documents

Publication Publication Date Title
CN111860753B (zh) 用于训练模型的基于有向无环图的框架
US11657797B2 (en) Routing for chatbots
US20210082400A1 (en) Stop word data augmentation for natural language processing
JP6827479B2 (ja) パーソナルアシスタントモジュールによる非決定的なタスク開始
CN115485690A (zh) 用于处置聊天机器人的不平衡训练数据的分批技术
US11868727B2 (en) Context tag integration with named entity recognition models
CN112487157A (zh) 用于聊天机器人的基于模板的意图分类
CN115398419A (zh) 用于基于目标的超参数调优的方法和系统
JP2020034914A (ja) 対話エージェントの動作方法及びその装置
US20210319347A1 (en) Fast and scalable multi-tenant serve pool for chatbots
CN115398436A (zh) 用于自然语言处理的噪声数据扩充
US20230100508A1 (en) Fusion of word embeddings and word scores for text classification
JP2023538923A (ja) テキスト分類についての説明を与えるための技術
US20230139397A1 (en) Deep learning techniques for extraction of embedded data from documents
US11922123B2 (en) Automatic out of scope transition for chatbot
US20230136965A1 (en) Prohibiting inconsistent named entity recognition tag sequences
US20230161963A1 (en) System and techniques for handling long text for pre-trained language models
US20220230462A1 (en) Usage based resource utilization of training pool for chatbots
US20230206125A1 (en) Lexical dropout for natural language processing
US20230154455A1 (en) Path dropout for natural language processing
US20230134149A1 (en) Rule-based techniques for extraction of question and answer pairs from data
WO2023091436A1 (en) System and techniques for handling long text for pre-trained language models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240321

R150 Certificate of patent or registration of utility model

Ref document number: 7460338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150