JP6960006B2 - 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム - Google Patents

会話システムにおいて意図が不明確なクエリを処理する方法およびシステム Download PDF

Info

Publication number
JP6960006B2
JP6960006B2 JP2020031802A JP2020031802A JP6960006B2 JP 6960006 B2 JP6960006 B2 JP 6960006B2 JP 2020031802 A JP2020031802 A JP 2020031802A JP 2020031802 A JP2020031802 A JP 2020031802A JP 6960006 B2 JP6960006 B2 JP 6960006B2
Authority
JP
Japan
Prior art keywords
query
user
intention
conversation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020031802A
Other languages
English (en)
Other versions
JP2020140210A (ja
Inventor
成柱 金
賢齊 宋
仁鎬 姜
龍洙 薛
承俊 李
秀斌 徐
在光 李
鍾赫 崔
熊燮 金
▲きょん▼徳 金
致潤 宋
惠晶 廉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020140210A publication Critical patent/JP2020140210A/ja
Application granted granted Critical
Publication of JP6960006B2 publication Critical patent/JP6960006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

以下の説明は、会話システムにおいて意図が不明確なクエリを処理する方法およびシステムに関する。
音声認識による会話システムが存在する。例えば、特許文献1は、会話システムおよび会話文章の生成方法に関し、音声認識に基づいて実際に使用された文章および単語の収集と相互連結によって会話文章を生成し、単語の定義修正および拡大過程を経ながら、自身の立場と会話相手の状況に適した文章を出力することができる会話システムを開示している。
しかし、このような会話システムでは応答することのできない、意図が不明確なクエリが存在する。ここで、意図が不明確なクエリとは、認識されたクエリの内容を人間が解釈不可能なクエリを意味してよく、より具体的には、認識されたクエリの内容からは質問者の意図を把握することができないクエリを意味してよい。例えば、ユーザの発話に対応する文章や単語が認識されない場合や、環境状況によってユーザ発話以外のノイズによる音声誤認識などの場合に、意図が不明確なクエリが発生したりする。
従来の会話システムに関する研究は、会話システムに備えられていない語彙を処理するためのソリューションを提示することに留まっており、音声の未認識や誤認識などに対応するためのソリューションは提供できておらず、これによって意図が不明確なクエリを処理することができないという問題を抱えている。
韓国登録特許第10−0918644号公報
意図が不明確なクエリに対し、ディープラーニング基盤の確率モデルを利用して質問者の意図を予測することができる、クエリ処理方法およびシステムを提供する。
意図が不明確なクエリに対して予測された意図および自然言語理解(Natural Language Understanding:NLU)の部分分析結果を利用してガイドおよび確証(confirmation)などの応答を提供することができる、クエリ処理方法およびシステムを提供する。
少なくとも1つのプロセッサを含むコンピュータ装置のクエリ処理方法であって、少なくとも1つのプロセッサにより、ユーザの発話に基づいたクエリおよびユーザと関連のあるコンテキストの入力を受ける段階、少なくとも1つのプロセッサにより、クエリに対する自然言語理解(Natural Language Understanding:NLU)に基づいてクエリに対するユーザの意図を分析する段階、および分析によってユーザの意図が決定されなかった場合、少なくとも1つのプロセッサにより、クエリおよびコンテキストを入力によって有するディープラーニング基盤の確率モデルを利用してユーザの意図を予測する段階を含む、クエリ処理方法を提供する。
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記憶媒体に格納された、コンピュータプログラムを提供する。
前記方法をコンピュータ装置に実行させるためのプログラムが格納されている、コンピュータ読み取り可能な記憶媒体を提供する。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、少なくとも1つのプロセッサにより、ユーザの発話に基づいたクエリおよびユーザと関連のあるコンテキストの入力を受け、クエリに対する自然言語理解(Natural Language Understanding:NLU)に基づいてクエリに対するユーザの意図を分析し、分析によってユーザの意図が決定されなかった場合、クエリおよびコンテキストを入力によって有するディープラーニング基盤の確率モデルを利用してユーザの意図を予測する、コンピュータ装置を提供する。
意図が不明確なクエリに対し、ディープラーニング基盤の確率モデルを利用して質問者の意図を予測することができる。
意図が不明確なクエリに対して予測された意図および自然言語理解(Natural Language Understanding:NLU)の部分分析結果を利用してガイドおよび確証(confirmation)などの応答を提供することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、クエリ処理システムの例を示した図である。 本発明の一実施形態における、意図予測過程の例を説明するための図である。 本発明の一実施形態における、意図が不明確なクエリを処理する例を示した図である。 本発明の一実施形態における、クエリ処理方法の例を示したフローチャートである。 本発明の一実施形態における、クエリ意図分類器の代表モデルの例を示した図である。
以下、添付の図面を参照しながら、実施形態を詳細に説明する。
本発明の実施形態に係るクエリ処理システムは、以下で説明されるコンピュータ装置によって実現されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係るクエリ処理方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してクエリ処理方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納されてよい。一実施形態によると、クエリ処理システムは、2つ以上のコンピュータ装置の連係によって実現されてもよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの1つの例を説明するものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器1(110)の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器1(110)は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、会話サービス、地図サービス、翻訳サービス、金融サービス、決済サービス、ソーシャルネットワークサービス、メッセージングサービス、検索サービス、メールサービス、コンテンツ提供サービスなど)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140のそれぞれやサーバ150、160のそれぞれは、図2に示したコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記憶媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような非一時的な大容量記憶装置を含んでよい。ここで、ROMやディスクドライブのような非一時的な大容量記憶装置は、メモリ210とは区分される別の非一時的な記憶装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが格納されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記憶媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記憶媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記憶媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記憶媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記憶装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記憶装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記憶装置に格納されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記憶媒体(上述した非一時的な記憶装置)に格納されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
図3は、本発明の一実施形態における、クエリ処理システムの例を示した図である。本実施形態に係るクエリ処理システム300は、会話管理者310、会話システム320、クエリ意図分類器330、および応答生成器340を備えてよい。ここで、会話管理者310、会話システム320、クエリ意図分類器330、および応答生成器340は、1つの物理的な装置で実現されても、2つ以上の物理的な装置に分散されて実現されてもよい。例えば、コンピュータ装置200で実現されるユーザデバイス350として人工知能スピーカやスマートフォンに会話管理者310と応答生成器340が実現され、人工知能スピーカまたはスマートフォンとネットワーク170を介して通信するサーバ150に会話システム320およびクエリ意図分類器330が実現されてよい。他の例として、人工知能スピーカやスマートフォンに会話管理者310が実現され、会話システム320、クエリ意図分類器330、および応答生成器340はサーバ150に実現されてもよい。この場合、会話管理者310は、ユーザデバイス350を制御し、サーバ150に実現された会話システム320、クエリ意図分類器330、および応答生成器340それぞれとネットワークを介して通信してよい。物理的には、ユーザデバイス350とサーバ150との間に通信がなされてよい。
会話管理者310は、ユーザデバイス350とクエリ処理システム300の他のモジュール(会話システム320、クエリ意図分類器330、および応答生成器340)との間に位置して入力/出力プロトコルを管理してよく、コンテキスト(context)を管理してよい。ここで、コンテキストは、ユーザデバイス350の状態に関する情報と会話ヒストリに関する情報などを含むメタ情報を含んでよい。このような会話管理者310は、ユーザデバイス350から伝達されるクエリ(query)を受信してよい。ここで、会話管理者310に伝達されるクエリは、ユーザデバイス350に備えられたマイクに入力されたユーザの発話に基づく音信号を含んでよい。一例として、会話管理者310がユーザデバイス350に実現される場合、会話管理者310は、ユーザデバイス350のマイクを管理するモジュールからマイクに入力された音信号を内部的に受信してよい。会話管理者310がユーザデバイス350とは異なる物理的な装置に実現される場合、会話管理者310は、ユーザデバイス350からネットワーク170を介して音信号を受信してよい。
音信号に対する音声認識は、会話管理者310または会話システム320のうちのいずれか1つで行われてよい。以下では、音声認識によって認識された文章や単語も「クエリ」として説明する。会話管理者310は、受信したクエリと管理中のコンテキストのうちの少なくとも一部(一例として、デバイスの現状に関する情報と、最近の一定期間の会話ヒストリに関する情報)を会話システム320に伝達してよい。会話管理者310と会話システム320が互いに異なる物理的な装置に実現される場合、クエリとコンテキストは、互いに異なる物理的な装置同士のネットワーク170通信を介して伝達されてよい。
会話システム320は、受信したクエリに対する自然言語理解(Natural Language Understanding:NLU)およびコンテキスト基盤の会話状態管理に基づいてユーザの意図を決定してよい。ここで、「意図(intent)」とは、クエリから分析されたユーザの意図を意味してよく、1つの意図は1つの応答機能にマッピングされてよい。また、スロット(slot)とは、クエリから意図とともに分析された情報であって、意図に対するターゲットのような情報を含んでよい。例えば、クエリ「午前7時にアラームをセットして」において、意図は「set_alarm」のようにアラームの設定を求めるユーザの要求行為を含んでよく、スロットは{time:午前7時}のように意図に対するターゲットを含んでよい。他の例として、クエリ「歌手Aの歌Bをかけて」において、意図は「play_music」のように音楽の再生を求めるユーザの要求行為を含んでよく、スロットは{artist:歌手A}、{track_name:歌B}のように意図に対するターゲットを含んでよい。会話システム320は、分析された意図とスロットを会話管理者310に伝達してよい。ここで、スロットは、付加的な情報であり、クエリからスロットが得られないこともある。例えば、クエリ「音楽をかけて」からは、ユーザの意図だけが分析され、ターゲットに関する情報は含まれない。
なお、上述したように、意図が不明確なクエリが存在することがある。このような意図が不明確なクエリの場合、会話システム320では意図を決定することができない。このような場合に備え、クエリ意図分類器330が活用されてよい。
クエリ意図分類器330は、会話システム320が応答することのできないクエリである、意図が不明確なクエリに対し、統計的、ニューラルネット基盤モデルを利用して意図を予測してよい。言い換えれば、会話システム320で自然言語理解によってユーザの意図を分析することができなかった、意図が不明確なクエリに対しては、クエリ意図分類器330において、ここ最近の会話状態、活性化されているデバイスの状態、およびトークン化された(tokenized)入力文章に基づく意図分類によって意図を予測してよい。このようなクエリ意図分類器330の意図予測については、以下でさらに詳しく説明する。クエリ意図分類器330は、予測された意図とスロットを会話管理者310に伝達してよい。
この場合、会話管理者310は、一般的なクエリだけでなく、意図が不明確なクエリの意図および/またはスロットも取得するようになり、取得した意図および/またはスロットを応答生成器340に伝達してクエリに対する応答を生成してよい。
応答生成器340は、会話システム320および/またはクエリ意図分類器330で決定および/または予測された意図および/またはスロットを会話管理者310から受信してマッチング機能を実行してよく、クエリに対する応答を生成して会話管理者310に伝達してよい。この場合、会話管理者310は、伝達された応答をユーザデバイス350に伝達してよい。応答生成器340によるマッチング機能の実行は、マッチング機能が実行されるようにするための命令を提供することを含んでよい。
このとき、応答生成器340は、会話システム320が決定した意図に対して対応機能を直ぐに実行してよい。一例として、クエリ「音楽をかけて」に対し、「音楽を再生します」という応答とともに音楽再生機能が直ぐに実行されてよい。この反面、応答生成器340は、クエリ意図分類器330が予測した意図に対して対応機能を直ぐに実行してもよいが、ガイド応答または確証(cnfirmation)応答を生成して予測された意図が適切であるかの確証をユーザから得てもよい。ここで、ガイド応答とは、ユーザの予測された意図にしたがってユーザが実行させようとする機能を特定し、該当の機能の使用方法に関するガイドを提供するための応答を意味してよい。また、確証応答とは、ユーザの予測された意図にしたがってユーザが実行させようとする機能を特定し、特定された機能を実行するか否かの確証をユーザから得るための応答を意味してよい。例えば、会話システム320で意図を決定することのできなかった、意図が不明確なクエリに対し、クエリ意図分類器330が「play_music」という意図を予測した場合、応答生成器340は音楽再生機能を直ぐに実行させる前に、「音楽の再生ですね?」のようにユーザから確証を得るための応答や、「音楽を聞きたいときは「音楽をかけて」と言ってください」のように機能の使用方法に関するガイドをユーザに提供するためのガイド応答を生成して伝達してよい。
このように、従来の会話システムにおいて、意図が不明確なクエリに対してユーザに発話を再要求するのではなく、ディープラーニング基盤の確率モデルを活用することによって統計的に最もそうであると思われる(公算(likelihood)が高い)意図を予測し、予測された意図に関するガイドや確証を得るための応答を提供することにより、意図が不明確なクエリを処理することが可能となる。
図4は、本発明の一実施形態における、意図予測過程の例を説明するための図である。図3を参照しながら説明したクエリ意図分類器330は、図4に示すように、会話状態エンコーダ410、デバイス状態エンコーダ420、文章エンコーダ430、および意図分類器440を含んでよい。実施形態によると、クエリ意図分類器330は、意図分類器440を含み、会話状態エンコーダ410、デバイス状態エンコーダ420、および文章エンコーダ430のうちの少なくとも1つを含む形態で実現されてもよい。
会話状態エンコーダ410は、会話管理者310から伝達されたコンテキストに含まれる会話ヒストリを分析し、ここ最近の会話に対する状態変化シーケンスを含む会話フロー表現(Dialog Flow Representation)を生成してよい。一例として、自然言語処理(Natural Language Processing:NLP)に主に使用される人工神経網構造であるRNN(Recurrent Neural Networks)が、会話ヒストリの個々の会話それぞれの状態を決定するために活用されてよい。より具体的な例として、会話状態エンコーダ410は、入力された会話の状態を出力するために学習されたRNNにここ最近の会話ヒストリを入力することで、ここ最近の会話の状態変化(transition)シーケンスを含む会話フロー表現を取得してよい。発明の理解を助けるためにRNNの活用例を説明しているが、他のニューラルネット(neuralnet)基盤の分類モデルが活用されてもよいことは、通常の技術者であれば容易に理解することができるであろう。
デバイス状態エンコーダ420は、会話管理者310から伝達されたコンテキストに含まれるデバイスの複数の項目別の状態に関する情報を利用し、状態ベクトルを含むデバイス状態表現(Device Status Representation)を生成してよい。このようなデバイス状態表現も、任意のニューラルネット基盤の分類モデルに基づいて取得されてよい。例えば、デバイス状態エンコーダ420のためのニューラルネット基盤の分類モデルは、デバイスの特定項目の状態に関する情報に基づき、該当の項目に対して予め設定された状態のうちの1つを出力するように学習されてよい。このとき、多数の項目別の状態に対して出力された状態が連結されて1つの状態ベクトルが構成されてよい。
文章エンコーダ430は、任意のニューラルネット基盤の分類モデル(一例として、双方向RNN(Bidirectional RNN))にクエリを入力し、トークン化された(tokenized)入力文章を含む文章表現(Sentence Representation)を生成してよい。例えば、文章エンコーダ430のためのニューラルネット基盤の分類モデルは、入力されたクエリに含まれる入力文章をトークン化し、トークン化されたテキストのシーケンスを出力するように学習されてよい。
このとき、意図分類器440は、会話状態エンコーダ410、デバイス状態エンコーダ420、および文章エンコーダ430が生成した会話フロー表現、デバイス状態表現、および文章表現を連結して(concatenate)全体表現を生成してよい。このとき、意図分類器440は、連結する全体表現に対応する意図をディープラーニング基盤の確率モデルを利用して統計的確率に基づいて決定して出力するように実現されてよい。
言い換えれば、クエリ意図分類器330は、ここ最近の会話の流れと、デバイスの現状と、クエリそれぞれから得られる表現とを結合し、結合する表現に対応する意図を予測するためのディープラーニング基盤の確率モデルを活用してよく、このようなディープラーニング基盤の確率モデルにより、クエリ自体からは意図を分析することができない、意図が不明確なクエリに対応する意図を統計的に予測してよい。
なお、会話システム320では、意図が不明確なクエリに対し、自然言語理解によって意図の決定は不可能であったが、スロットの抽出が可能な場合は存在する。
図5は、本発明の一実施形態における、意図が不明確なクエリを処理する例を示した図である。図5では、「歌手Aの歌をかけて」というユーザ発話に対し、音声認識によってクエリ「歌手Aのうあをけて」が認識された状況の例を示している。会話システム320は、自然言語理解により、クエリからスロット{artist:歌手A}は認識できたものの、その意図は認識することができず、これによってクエリ意図分類器330が作動することにより、ディープラーニング基盤の確率モデルに基づき、クエリだけではなく、会話ヒストリやデバイス状態などを分析することで意図「intent:play_music」を予測してよい。この場合、応答生成器340は、会話管理者310を経て会話システム320とクエリ意図分類器330から受信した、予測された意図「intent:play_music」とスロット{artist:歌手A}を利用して確証応答「歌手Aの歌をかけましょうか?」を生成して提供してよい。言い換えれば、クエリ「歌手Aのうあをけて」に対し、ユーザにもう一度発話を要求して最初から発話を受信しようとするのではなく、認識されたスロット{artist:歌手A}に対して予測された意図「intent:play_music」をユーザに確証することにより、ユーザとの適切な会話を持続させることが可能となる。
他の例として、「電気を消して」というユーザ発話に対する音声認識によってクエリ「でき消して」が認識された状況において、会話システム320では、自然言語理解によってクエリから意図を認識できなかった場合が考えられる。このとき、クエリ意図分類器330は、ディープラーニング基盤の確率モデルに基づき、クエリ「でき消して」だけでなく、会話ヒストリやデバイス状態などを分析することで意図「intent:turn_off」を予測してよい。この場合、応答生成器340は、会話管理者310を経てクエリ意図分類器330から受信した、予測された意図「intent:turn_off」を利用して認証応答「電気を消しましょうか?」を生成して提供してよい。
図6は、本発明の一実施形態における、クエリ処理方法の例を示したフローチャートである。本実施形態に係るクエリ処理方法は、図2を参照しながら説明したコンピュータ装置200によって実行されてよい。例えば、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に格納されたコードが提供する制御命令にしたがってコンピュータ装置200が図6の方法に含まれる段階610〜660を実行するようにコンピュータ装置200を制御してよい。
段階610で、コンピュータ装置200は、ユーザの発話に基づいたクエリおよびユーザと関連のあるコンテキストの入力を受けてよい。ここで、クエリは、ユーザの発話が入力されたユーザデバイスが伝達するクエリであってよく、コンテキストは、ユーザと関連のある会話ヒストリのうちの少なくとも一部、およびユーザの発話が入力されたユーザのデバイスの複数の項目別の状態に関する情報を含んでよい。一例として、クエリおよびコンテキストは、図3で説明した会話管理者310から伝達されるクエリおよびコンテキストに対応してよい。上述したように、会話管理者310は、ユーザデバイス350から提供されるクエリと会話管理者310が管理するコンテキストを提供してよい。一実施形態によると、コンピュータ装置200は、会話システム320とクエリ意図分類器330が実現された物理的な装置であってよい。
段階620で、コンピュータ装置200は、クエリに対する自然言語理解に基づいてクエリに対するユーザの意図を分析してよい。一実施形態によると、コンピュータ装置200は、コンテキストに基づいた会話状態管理にさらに基づいてユーザの意図を分析してもよい。上述では、会話システム320でクエリとコンテキストの両方を活用してユーザの意図を分析および決定する実施形態が説明された。
段階630で、コンピュータ装置200は、ユーザの意図が決定されたか否かを確認してよい。段階620の分析によってユーザの意図が決定された場合、コンピュータ装置200は段階640を実行してよく、段階620の分析によってユーザの意図が決定されなかった場合、コンピュータ装置200は段階650を実行してよい。
段階640で、コンピュータ装置200は、決定された意図に基づいて応答を提供してよい。クエリに対する自然言語理解、あるいはコンテキストに基づいた会話状態管理にさらに基づいてユーザの意図が決定されると、コンピュータ装置200は、決定された意図にしたがって応答を提供してよい。この場合、コンピュータ装置200は、図3を参照しながら説明した応答生成器340をさらに備えてよい。コンピュータ装置200が会話システム320とクエリ意図分類器330だけを備えるように実現された場合、コンピュータ装置200は、決定された意図または以下で説明する予測された意図だけを提供するように実現されてよい。
段階650で、コンピュータ装置200は、クエリおよびコンテキストを入力によって有するディープラーニング基盤の確率モデルを利用してユーザの意図を予測してよい。例えば、コンピュータ装置200は、コンテキストに含まれる会話ヒストリから得られる会話の状態変化シーケンスを含む会話フロー表現、コンテキストにさらに含まれるデバイス状態に関する状態ベクトルを含むデバイス状態表現、およびクエリに対するトークン化された入力文章を含む文章表現のうちの2つ以上を連結させて意図予測のための全体表現を生成し、ディープラーニング基盤の確率モデルに基づき、全体表現に対応して統計的確率によって決定される意図をユーザの意図として予測してよい。一実施形態によると、会話フロー表現は、入力された会話の状態を決定するように学習されたニューラルネット基盤分類モデルによって得られる会話ヒストリの状態変化シーケンスを含んでよく、デバイス状態表現は、特定項目の状態に関する情報に基づき、該当の項目に対して予め設定された状態のうちの1つを出力するように学習されたニューラルネット基盤分類モデルを利用して得られるデバイスの状態ベクトルを含んでよい。また、文章表現は、入力文章をトークン化し、トークン化されたテキストのシーケンスを出力するように学習されたニューラルネット基盤分類モデルを利用して得られる、クエリに対するトークン化された(tokenized)入力文章を含んでよい。
段階660で、コンピュータ装置200は、予測された意図に基づいて応答を提供してよい。例えば、コンピュータ装置200は、予測された意図に基づいて機能を特定し、特定された機能を実行するか否かの確証をユーザから得るための確証応答、または特定された機能の使用方法に関するガイドを提供するためのガイド応答を生成して伝達してよい。このとき、一実施形態によると、コンピュータ装置200は、クエリに対する自然言語理解によって得られる部分分析結果にさらに基づいて応答を生成してよい。一例として、部分分析結果は、予測された意図に対するターゲットに関する情報(一例として、上述したスロット)を含んでよい。
図7は、本発明の一実施形態における、クエリ意図分類器の代表モデルの例を示した図である。図7は、図3を参照しながら説明したクエリ意図分類器330として活用可能な代表モデルの例を示している。図7は、図4で説明した会話状態エンコーダ410、デバイス状態エンコーダ420、文章エンコーダ430、および意図分類器440を示している。このとき、図7において、会話状態エンコーダ410は、ニューラルネット基盤の分類モデルとしてRNNを使用し、文章エンコーダ430は、ニューラルネット基盤の分類モデルとして双方向RNN(Bidirectional RNN)を使用する例を示している。また、デバイス状態エンコーダ420は、ニューラルネット基盤の分類モデルの代わりに、状態に対する値の平均値を利用する例を示している。得られた表現(Representations)は意図分類器440で連結されてよく、連結する全体表現によるディープラーニング基盤の確率モデルを利用した統計的確率に基づき、意図が不明確なクエリに対してもユーザの意図を予測することが可能となる。
このように、本発明の実施形態によると、意図が不明確なクエリに対してディープラーニング基盤の確率モデルを利用することで、質問者の意図を予測することが可能となる。また、意図が不明確なクエリに対して予測された意図および自然言語理解(Natural Language Understanding:NLU)の部分分析結果を利用することで、ガイドおよび確証(confirmation)などの応答を提供することが可能となる。
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記憶媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記憶媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に格納されてよい。コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために一時格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記憶手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記憶媒体または格納媒体が挙げられる。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行されることのできる高級言語コードが含まれる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
300:クエリ処理装置
350:ユーザデバイス
310:会話管理子
320:会話システム
330:クエリ意図分類器
340:応答生成器

Claims (18)

  1. 少なくとも1つのプロセッサを含むコンピュータ装置のクエリ処理方法であって、
    前記少なくとも1つのプロセッサにより、ユーザの発話に基づいたクエリおよび前記ユーザと関連のあるコンテキストの入力を受ける段階、
    前記少なくとも1つのプロセッサにより、前記クエリに対する自然言語理解に基づいて前記クエリに対する前記ユーザの意図を分析する段階、および
    前記分析によってユーザの意図が決定されなかった場合、前記少なくとも1つのプロセッサにより、前記クエリおよび前記コンテキストを入力によって有するディープラーニング基盤の確率モデルを利用して前記ユーザの意図を予測する段階を含み、
    前記ユーザの意図を予測する段階は、前記コンテキストに含まれる会話ヒストリから得られる会話状態の変化シーケンスを含む会話フロー表現、前記コンテキストにさらに含まれるデバイス状態に対する状態ベクトルを含むデバイス状態表現、および前記クエリに対するトークン化された入力文章を含む文章表現のうちの2つ以上を連結させて意図予測のための全体表現を生成し、前記ディープラーニング基盤の確率モデルを利用し、前記全体表現に対応して統計的確率に基づいて決定される意図を前記ユーザの意図として予測する
    クエリ処理方法。
  2. 前記コンテキストは、前記ユーザと関連のある会話ヒストリのうちの少なくとも一部、および前記ユーザの発話が入力された前記ユーザのデバイスの複数の項目別の状態に関する情報を含む、請求項1に記載のクエリ処理方法。
  3. 前記会話フロー表現は、入力される会話の状態を決定するように学習されたニューラルネット基盤の分類モデルを利用して得られる前記会話ヒストリの状態変化シーケンスを含む、請求項に記載のクエリ処理方法。
  4. 前記デバイス状態表現は、特定項目の状態に関する情報に基づき、該当の項目に対して予め設定された状態のうちの1つを出力するように学習されたニューラルネット基盤の分類モデルを利用して得られる前記デバイス状態に対する前記状態ベクトルを含む、請求項に記載のクエリ処理方法。
  5. 前記文章表現は、入力文章をトークン化し、トークン化されたテキストのシーケンスを出力するように学習されたニューラルネット基盤の分類モデルを利用して得られる前記クエリに対するトークン化された入力文章を含む、請求項に記載のクエリ処理方法。
  6. 前記少なくとも1つのプロセッサにより、前記予測された意図に基づいて応答を提供する段階をさらに含む、請求項1に記載のクエリ処理方法。
  7. 前記応答を提供する段階は、前記予測された意図に基づいて機能を特定し、前記特定された機能を実行するか否かの確証をユーザから得るための確証応答、または前記特定された機能の使用方法に関するガイドを提供するためのガイド応答を生成して伝達する、請求項に記載のクエリ処理方法。
  8. 少なくとも1つのプロセッサを含むコンピュータ装置のクエリ処理方法であって、
    前記少なくとも1つのプロセッサにより、ユーザの発話に基づいたクエリおよび前記ユーザと関連のあるコンテキストの入力を受ける段階、
    前記少なくとも1つのプロセッサにより、前記クエリに対する自然言語理解に基づいて前記クエリに対する前記ユーザの意図を分析する段階、
    前記分析によってユーザの意図が決定されなかった場合、前記少なくとも1つのプロセッサにより、前記クエリおよび前記コンテキストを入力によって有するディープラーニング基盤の確率モデルを利用して前記ユーザの意図を予測する段階、および
    前記少なくとも1つのプロセッサにより、前記予測された意図に基づいて応答を提供する段階を含み、
    前記応答を提供する段階は、前記クエリに対する自然言語理解に基づいて得られる部分分析結果にさらに基づいて応答を生成する
    エリ処理方法。
  9. 前記部分分析結果は、前記予測された意図に対するターゲットに関する情報を含む、請求項に記載のクエリ処理方法。
  10. 前記ユーザの意図を分析する段階は、前記コンテキストに基づいた会話状態管理にさらに基づいて前記ユーザの意図を分析する、請求項1に記載のクエリ処理方法。
  11. 前記分析によってユーザの意図が決定された場合、前記少なくとも1つのプロセッサにより、前記決定された意図に基づいて応答を提供する段階をさらに含む、請求項1に記載のクエリ処理方法。
  12. コンピュータ装置と結合して請求項1〜11のうちのいずれか一項に記載の方法をコンピュータ装置に実行させる、コンピュータプログラム。
  13. 請求項1〜11のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが格納されている、コンピュータ読み取り可能な記憶媒体。
  14. コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、
    前記少なくとも1つのプロセッサにより、
    ユーザの発話に基づいたクエリおよび前記ユーザと関連のあるコンテキストの入力を受け、
    前記クエリに対する自然言語理解に基づいて前記クエリに対する前記ユーザの意図を分析し、
    前記分析によってユーザの意図が決定されなかった場合、前記クエリおよび前記コンテキストを入力によって有するディープラーニング基盤の確率モデルを利用して前記ユーザの意図を予測し、
    前記少なくとも1つのプロセッサにより、
    前記コンテキストに含まれる会話ヒストリから得られる会話状態の変化シーケンスを含む会話フロー表現、前記コンテキストにさらに含まれるデバイスの状態に対する状態ベクトルを含むデバイス状態表現、および前記クエリに対するトークン化された(tokenized)入力文章を含む文章表現のうちの2つ以上を連結させて意図予測のための全体表現を生成し、
    前記ディープラーニング基盤の確率モデルを利用し、前記全体表現に対応して統計的確率に基づいて決定される意図を前記ユーザの意図として予測する
    コンピュータ装置。
  15. 前記コンテキストは、前記ユーザと関連のある会話ヒストリのうちの少なくとも一部、および前記ユーザの発話が入力された前記ユーザのデバイスの複数の項目別の状態に関する情報を含む、請求項14に記載のコンピュータ装置。
  16. 前記会話フロー表現は、入力される会話の状態を決定するように学習されたニューラルネット基盤の分類モデルを利用して得られる前記会話ヒストリの状態変化シーケンスを含む、請求項14に記載のコンピュータ装置。
  17. 前記デバイス状態表現は、特定項目の状態に関する情報に基づき、該当の項目に対して予め設定された状態のうちの1つを出力するように学習されたニューラルネット基盤の分類モデルを利用して得られる前記デバイスの状態ベクトルを含む、
    請求項14に記載のコンピュータ装置。
  18. 前記文章表現は、入力文章をトークン化し、トークン化されたテキストのシーケンスを出力するように学習されたニューラルネット基盤の分類モデルを利用して得られる前記クエリに対するトークン化された入力文章を含む、請求項14に記載のコンピュータ装置。
JP2020031802A 2019-02-28 2020-02-27 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム Active JP6960006B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0024309 2019-02-28
KR1020190024309A KR102204740B1 (ko) 2019-02-28 2019-02-28 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2020140210A JP2020140210A (ja) 2020-09-03
JP6960006B2 true JP6960006B2 (ja) 2021-11-05

Family

ID=72236697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020031802A Active JP6960006B2 (ja) 2019-02-28 2020-02-27 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム

Country Status (3)

Country Link
US (1) US11403345B2 (ja)
JP (1) JP6960006B2 (ja)
KR (1) KR102204740B1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7448350B2 (ja) * 2019-12-18 2024-03-12 トヨタ自動車株式会社 エージェント装置、エージェントシステム、及びエージェントプログラム
US11657810B2 (en) * 2020-07-27 2023-05-23 International Business Machines Corporation Query routing for bot-based query response
CN114238066A (zh) * 2020-09-09 2022-03-25 华为技术有限公司 基于人机对话的任务测试方法、相关设备及存储介质
KR102441854B1 (ko) * 2020-11-20 2022-09-13 네이버 주식회사 범용적인 감정 분석 서비스를 위한 방법 및 장치
KR102446294B1 (ko) * 2020-11-23 2022-09-22 주식회사 와이즈넛 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법
CN112382279B (zh) * 2020-11-24 2021-09-14 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112579758A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质和程序产品
CN112732911B (zh) * 2020-12-30 2023-10-10 平安科技(深圳)有限公司 基于语义识别的话术推荐方法、装置、设备及存储介质
CN112766990B (zh) * 2021-02-01 2023-07-28 北京邮电大学 基于多轮对话改进的智能客服辅助系统和方法
US11875121B2 (en) * 2021-05-28 2024-01-16 International Business Machines Corporation Generating responses for live-streamed questions
KR20230039909A (ko) * 2021-09-15 2023-03-22 삼성전자주식회사 불완전 연속 발화를 처리하는 서버, 전자 장치 및 그의 동작 방법
KR20230060719A (ko) * 2021-10-28 2023-05-08 주식회사 스켈터랩스 대화 시스템에서, 슬롯을 추출하기 위한 장치, 방법, 시스템 및 컴퓨터 판독가능 저장 매체
US20230230584A1 (en) * 2022-01-18 2023-07-20 Samsung Electronics Co., Ltd. System and method for simultaneously identifying intent and slots in voice assistant commands
WO2023177079A1 (ko) * 2022-03-18 2023-09-21 삼성전자주식회사 합성 벡터에 기반하여 사용자 발화를 처리하는 서버, 전자 장치, 및 이의 동작 방법
US20230350928A1 (en) * 2022-04-28 2023-11-02 Knowbl LLC Systems and methods for implementing a virtual agent performing context and query transformations using unsupervised machine learning models
WO2024085592A1 (ko) * 2022-10-19 2024-04-25 삼성전자 주식회사 전자 장치 및 전자 장치의 음성 어시스턴트 서비스 제공 방법
US11822894B1 (en) * 2022-12-30 2023-11-21 Fmr Llc Integrating common and context-specific natural language understanding processing in a virtual assistant application

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100918644B1 (ko) 2009-06-17 2009-09-25 김정중 대화 시스템 및 대화 문장 생성 방법
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
JP5818753B2 (ja) * 2012-08-13 2015-11-18 株式会社東芝 音声対話システム及び音声対話方法
JP6143883B2 (ja) * 2013-11-29 2017-06-07 株式会社東芝 対話支援システム、方法、及びプログラム
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN105094315B (zh) * 2015-06-25 2018-03-06 百度在线网络技术(北京)有限公司 基于人工智能的人机智能聊天的方法和装置
JP6495124B2 (ja) * 2015-07-09 2019-04-03 日本電信電話株式会社 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
DK201670540A1 (en) * 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10762892B2 (en) * 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US20180253638A1 (en) 2017-03-02 2018-09-06 Accenture Global Solutions Limited Artificial Intelligence Digital Agent
JP2018169494A (ja) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 発話意図推定装置および発話意図推定方法
CN107562816B (zh) * 2017-08-16 2021-02-09 苏州狗尾草智能科技有限公司 用户意图自动识别方法及装置
EP3495771A1 (en) * 2017-12-11 2019-06-12 Hexagon Technology Center GmbH Automated surveying of real world objects
US11954613B2 (en) * 2018-02-01 2024-04-09 International Business Machines Corporation Establishing a logical connection between an indirect utterance and a transaction
US11404058B2 (en) * 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11036724B2 (en) * 2019-09-04 2021-06-15 Microsoft Technology Licensing, Llc Interactive visual search engine
JP7272293B2 (ja) * 2020-01-29 2023-05-12 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム

Also Published As

Publication number Publication date
KR20200106126A (ko) 2020-09-11
JP2020140210A (ja) 2020-09-03
US11403345B2 (en) 2022-08-02
US20200279002A1 (en) 2020-09-03
KR102204740B1 (ko) 2021-01-19

Similar Documents

Publication Publication Date Title
JP6960006B2 (ja) 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム
JP6942841B2 (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
US11093707B2 (en) Adversarial training data augmentation data for text classifiers
US10068174B2 (en) Hybrid approach for developing, optimizing, and executing conversational interaction applications
US10410625B2 (en) Machine learning dialect identification
US11189269B2 (en) Adversarial training data augmentation for generating related responses
CN111837116B (zh) 自动构建或更新对话式ai系统的对话流管理模型的方法
JP2019503526A5 (ja)
JP2020537223A (ja) 質問と要求とを自律エージェントが区別できるようにすること
US11016968B1 (en) Mutation architecture for contextual data aggregator
CN111428042B (zh) 对话服务中的实体级澄清
US11763084B2 (en) Automatic formulation of data science problem statements
US11030402B2 (en) Dictionary expansion using neural language models
JP2024521024A (ja) コンテキストに応じた音声テキスト変換
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
JP2022121386A (ja) テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
US11227127B2 (en) Natural language artificial intelligence topology mapping for chatbot communication flow
Kaur et al. Voice command system using raspberry pi
JP2022548053A (ja) 解釈可能な再帰型マルチホップ質問回答のためのフォローアップ質問の生成
JP2021072120A (ja) アプリ使用パターンと会話分析に基づいてアプリ機能のショートカットを推薦する方法および装置
Celestino Development and implementation of an automotive virtual assistant
CN112102820A (zh) 交互方法、交互装置、电子设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211008

R150 Certificate of patent or registration of utility model

Ref document number: 6960006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150