JP2022501652A

JP2022501652A - 効率的な対話構成

Info

Publication number: JP2022501652A
Application number: JP2021517110A
Authority: JP
Inventors: クリストフ・ノイマン
Original assignee: GK EASYDIALOG
Current assignee: GK EASYDIALOG
Priority date: 2018-05-29
Filing date: 2019-05-26
Publication date: 2022-01-06
Anticipated expiration: 2039-05-26
Also published as: EP3576084A1; JP7448240B2; EP3791386A1; US11488600B2; EP3576084B1; WO2019228667A1; US20210210092A1; CN112204656A

Abstract

本発明は、コンピュータ支援自動対話システムにおける効率的な対話構成および解釈のための方法に関する。本発明は、とりわけ、対話を生成する際の作業の複雑さ、したがってエラー傾向も低減されるという利点を提供する。さらに、サブ対話の文脈を考慮に入れて、その文脈に応じて動的に対話を生成することが可能である。さらに、本方法は、人間のユーザとの対話を自動的に開始することができる。本発明は、対応して設計されたシステムアセンブリ、および、本方法を実行するか、またはシステムアセンブリを動作させる制御コマンドを含むコンピュータプログラム製品にさらに関する。

Description

本発明は、コンピュータ支援自動対話システムにおける効率的な対話構成および解釈のための方法に関する。とりわけ、本発明には、対話の作成において、作業負荷、したがってエラーに対する感受性も低減されるという利点がある。さらに、サブ対話の文脈を考慮することと、この文脈に応じて動的に対話を作成することとが可能である。さらに、提案された方法は、人間のユーザ自身との対話を開始することができる。本発明は、対応するセットアップシステム配置、および方法を実行するか、またはシステム配置を動作させる制御コマンドを含むコンピュータプログラム製品にさらに関する。

米国特許出願公開第2015/0134337(A1)号は、会話シナリオを含む会話ベースの検索システムを開示している。

DE 10 2012 019 178(A1)は、少なくとも1つのプロセッサを有するコンピューティングデバイス上でタスクを実行するためにユーザ入力を解釈するためのコンピュータプログラム製品を開示している。

DE 60 030 920(T2)は、データウェアハウスまたはデータリザーバに関連して、音声システムのユーザの声に割り当てられるデータを収集するための方法を開示している。

DE 11 2016 003 335(T5)は、自然言語処理(NLP)システム、具体的には、自然言語生成(NLG)システムを含むNLPシステムを開示しており、これは、自然言語翻訳(NLT)システム、自然言語処理の質問と回答(NLP Q&A)システム、自然言語での対話のためのシステムなどを含む。

従来技術から、機械システムが人間のユーザとやり取りを行い、人間のユーザの音声コマンドを受け取る対話システムが知られている。次に、これらのコマンドに対する反応が開始され、ユーザは対応する応答を受け取る。このタイプのシステムは、たとえば「Alexa」および「Siri」の登録商標で知られている。このタイプのシステムは、インフォテインメントセクタだけでなく、たとえば自動車分野でも使用されており、ユーザはナビゲーションシステムまたは他の機能を音声で制御することができる。

従来技術は、たとえば、音をテキストに変換し、また元に戻すのに役立つデバイスをさらに開示している。このタイプのシステムは、一般に「音声認識」システムと呼ばれる。これは、人間のユーザが文を話し、受信された音響信号がその後パターンマッチングによってテキストに割り当てられるような方法で行われうる。続いて自然な音響言語に変換されるテキストを与えることも知られている。この方法は、一般に「テキスト読み上げ」と呼ばれる。

さらに、テキストの解釈が知られており、これは、たとえば「自然言語理解」の文脈において行われる。このタイプの方法を使用すると、既存のテキストパッセージからキーワードを抽出して、続いてさらに処理することが可能になる。さらに、自然言語処理技法が知られている。

従来の対話システムは、ユーザがテキストに変換される音響またはテキスト入力を与えるように実装されている。次に、対応するソースコードが作動され、それがさらなる対話を制御する。このタイプの対話制御システムまたは対話プロトコルでは、どの質問に対してどの回答が与えられるかが記憶される。さらに、どのコマンドに応答してどのアクションが行われるかが指定され得る。この目的のために、対話ごとに専用のソーステキストが与えられ、ハードコードされた方法で対話の進行を記述する。対話を記述するこのタイプの要素は、この場合、対話全体がモデル化される必要があり、具体的には、与えられたテキスト要素も記憶される必要があるという欠点がある。このタイプの対話は、新しく起動されたときに厳密に実行される。したがって、文脈知識を組み込むことは困難を伴ってのみ可能であり、対話は、一般的には毎回同じに実行される。

さらに、このタイプの個々のハードコードされた対話は、すべての要求およびすべての対話分岐に対して予め専用の対話が作成される必要があるため、実装が複雑であるという欠点がある。これにより、この目的のための大規模なソースコードが発生し、それに応じてテストされる必要があるというさらなる問題が発生する。このテストは作業集約的であり、エラーの影響を受けやすい可能性もある。さらに、対話が予めすでに固定的に決定されているため、ユーザは直感的な対話の進行を経験しないことが多い。

米国特許出願公開第2015/0134337(A1)号 DE 10 2012 019 178(A1) DE 60 030 920(T2) DE 11 2016 003 335(T5)

したがって、本発明の目的は、ユーザ入力に応じて個別に進行することができる動的な対話が発生することを可能にする効率的な対話構成および解釈のための改善された方法を提案することである。提案された方法は、対話要素を選択してランタイムに使用できるように動的に構築される必要がある。さらに、本発明の目的は、対応するセットアップシステム配置と、提案された方法を実装するか、または提案されたシステム配置を動作させる制御コマンドを含むコンピュータプログラム製品とを提供することである。

この目的は、請求項1の特徴によって達成される。さらに有利な実施形態は、従属請求項に記載されている。

したがって、コンピュータ支援自動対話システムにおける効率的な対話構成および解釈のための方法であって、各々の場合に少なくとも2つのキーワードのための複数の対話プロトコルを記憶するステップであって、対話プロトコルは、対話の動的シーケンスを各々指定し、対話の動的シーケンスは、分岐点によって構成されるサブ対話を記述し、対話プロトコルは、対話ユニットの存在、および対話ユニットを時系列に配置する対話の進行を指定する、ステップと、ランタイムに与えられる少なくとも2つのキーワードに応じて対話プロトコルを選択するステップであって、少なくとも第1のキーワードは、音響ユーザ入力のピッチからこれが質問であるかステートメントであるかを検出する自然言語を理解するための技術を使用して音響ユーザ入力によって与えられ、さらに、少なくとも1つの第2のキーワードは、制御コマンドによって与えられ、ユーザが、少なくとも第1のキーワードを選択し、制御コマンドが、この目的のために、選択されたキーワードの文脈をモデル化し、これにより少なくとも第2のキーワードを与えると、対応する対話プロトコルが選択される、ステップと、対話プロトコルの対話ユニットにテキスト要素を割り当てるステップと、ランタイムにおいて対話プロトコルを実行するステップとを含む、方法が提案される。

この文脈において、当業者は、方法ステップが反復的におよび/または異なる順序で実行され得ることを理解するであろう。さらに、個々のステップはサブステップを含み得る。したがって、たとえば、複数の対話プロトコルの記憶が繰り返し行われ得、新しい対話プロトコルが絶えず追加され得る。対話プロトコルの対話ユニットへのテキスト要素の割当ては、ランタイムに、すなわち対話中に、あるいは事前にさえも実行され得る。ランタイムに対話プロトコルを実行するステップは、たとえば、音声認識プロセスまたは自然言語理解プロセスにおいて提供されるような複数のサブステップを含む。

具体的には、提案された方法は知られている技法を含み、それらは従来の構成要素に基づいて実装されるため、本明細書では引用されない。したがって、本発明によれば、ユーザは、典型的には、音響の質問または回答を入力し、次にまた、音響の回答または質問を受け取る。これは、音響信号、すなわち音声がテキストに変換され、次に出力テキストはまた機械の回答の中の音声へ変換されて戻ることを含む。これにより、ユーザとしゃべるようにやり取りする対話システムが実現する。本発明はまた、対話システム、たとえばチャットボットに関する。

本発明によれば、対話プロトコルは個々のテキスト要素から切り離されているので、提案された方法は効率的な方法である。このようにして、対話はハードコードして記憶される必要がなく、したがって各々の場合に個別に作成する必要がある。したがって、本発明は、従来技術の欠点を克服し、それによって、従来の方法では、テキスト要素がすでにソースコードに埋め込まれているように対話構成が実行される。対照的に、本発明によれば、個々の対話を動的に構成する対話プロトコルが与えられ、さらに、テキスト要素が切り離されることが可能である。さらに、対話の進行を状況に応じた方法で調査することができ、また、ユーザ自身によって与えられたキーワードがユーザ入力として使用されうるだけでなく、制御コマンドが対応するキーワードを生成することができるため、対話の解釈が可能である。キーワードはまた、文脈に応じて対話プロトコルによって生成され得る(この場合、外部制御コマンドが存在する必要はない)。たとえば、質問が2回誤解された場合、代わりの質問へ自動リダイレクトされる。

提案された方法は、提案された方法がユーザと自発的にやりとりすることができるように、コンピュータ支援および自動化された方法で実行され、したがって、提案されたシステムは、対話プロトコルを介して対話自体を設計することもできる。その結果、すべての方法ステップは計算によって行われ、ユーザは単に音響またはテキスト入力を与えるだけである。

これを行うために、複数の対話プロトコルが、少なくとも1つのキーワードの各々に対して記憶される。したがって、たとえば、対話ユニットとして、互いに時間的または論理的に接続された活動を提供する対話プロトコルが作成される。したがって、対話プロトコルは、従来の厳密なシーケンスを指定するのではなく、使用されるテキスト要素を固定せずに、活動がどのアクタによっていつ行われるかを与える。これは、対話論理とテキスト要素のリンクが存在するという従来技術の欠点を克服する。対話プロトコルは、たとえば、特定のユーザ入力に対して、対話システムによってクエリが行われることを指定する。さらに、対話プロトコルは、ユーザがトピックを提案した場合、対応するキーワードが抽出され、次に、対話システムが質問をしなければならないことを指定し得る。ユーザ自身が質問をしていることが検出された場合、対話プロトコルは、システムが対応する回答を検索して与えることを提供する。したがって、対話プロトコルは、対話システムとユーザとの間の会話または対話の動的シーケンスに対応する。

対話プロトコルは、予め、すなわち実行前に与えられるため、対話が開始された場合はすでに利用可能である。したがって、対話プロトコルは、特定のテキスト要素を含まない限り、抽象と呼ばれうるが、対話が採用するべき動的シーケンスを提供する。

キーワード、すなわち1つまたは複数のキーワードは、個々の対話プロトコルに割り当てられる。キーワードは、たとえば、対話が行われるトピックと呼ばれ得る。したがって、文から特に目立つ名詞を選択する従来の方法が使用され得る。したがって、1つのアプリケーションシナリオでは、ユーザはたとえば天気を尋ねることができ、次に、提案された方法は、従来の方法によって、ユーザが実際に天気を尋ねているという事実を抽出することができる。この目的のために、入力のイントネーションも考慮に入れることができ、次に、それがステートメントであるか質問であるかが検出され得る。したがって、天気に関する質問が存在することが検出された場合、対応するキーワードは「天気」であり、対話システムが質問をし、次に、ユーザから期待される応答に応答して最初に尋ねられた質問に回答することを提供する対話システムが選択される。

この時点では、テキスト要素はまだ与えられておらず、プロトコルの個々の活動のみが与えられている。したがって、天気についての質問に応答して、提案された方法は、特定の場所に関する質問が対話システムによって尋ねられることを提供することができる。続いて、「現在の天気について知りたい場所はどこですか」というテキスト要素が割り当てられる。すると、対話プロトコルは、ユーザが回答しなければならないことを提供することができる。対応する回答が与えられると、そこから場所を抽出することができ、すると、次に対話システムが回答を与えなければならないことを提供することができる。この時点で、「天気」というキーワードが対話システムにとって利用可能になり、次に、たとえば、ユーザによって与えられた「ミュンヘン」という場所が利用可能になる。この情報を使用して、システムは提供されたインターフェースを使用してデータベースクエリを作成することができ、次に、対話プロトコルは、対話システムが回答を与える必要があり、本方法が回答後に終了することを提供することができる。したがって、対話システムは、天気アナウンスを行うことができ、したがって、データベースから読み取られた天気パラメータを提供することができる。これは通常、満足のいく方法で質問に回答するはずなので、方法は終了しうる。

しかしながら、サブ対話プロトコルはまた、別のサブ対話プロトコルへの分岐を提供してもよく、したがって、たとえば、「旅の行き先」というキーワードのための対話プロトコルが選択されてもよい。したがって、対話システムが天気についての質問に回答した場合、対話プロトコルは、天気の良い場合に旅行をしたいかどうかをユーザに尋ねるサブ対話プロトコルが選択されるように分岐することができる。次に、上述の方法が繰り返され、対応するデータベースクエリの後に、「天気」のトピックと「ミュンヘン」のトピックとの両方に適合するユーザに適切な活動が提案され得る。この文脈では、本システムは、ユーザが再度言う必要なしに、前の対話の進行から旅の行き先「ミュンヘン」を自動的に探索する。このようにして、対話の動的シーケンスが作成され、対話プロトコルは実際のテキスト要素から切り離される。

本発明によれば、さらに、対話プロトコルの対話ユニットへのテキスト要素の割当てがあり、これはランタイムにまたは予め行われることが可能である。ランタイムは常に対話自体の実行時間である。本発明は、与えられたソースコードがテキスト要素と個々の活動の両方、すなわち対話ユニットを提供するという欠点を克服する。したがって、対話プロトコルの対話ユニットは、対話システムが質問をしなければならないことを提供する抽象的な要素として定義され得る。次に、質問が具体的にどのように行われるかは、対応するテキスト要素によって指定される。これは、提案された方法が特に言語に依存しないという従来技術に対するさらなる利点をもたらす。したがって、一般的な対話プロトコルを作成することができ、すべての言語のテキスト要素をこの目的のために使用することができる。したがって、対話プロトコルは、ドイツ語のテキスト要素でのみ使用されてもよい。次にユーザが異なる言語を選択した場合、新しいソースコードが使用される必要はないが、異なる言語、たとえば、英語のテキスト要素が、変更されていない対話プロトコルに割り当てられるだけである。したがって、本システムはまた、対話論理、すなわち対話プロトコルが実際に適用されているテキストコンテンツから離されているため、従来のシステムよりもメンテナンスの手間が少なくなる。したがって、このタイプのシステムが維持されるか、またはこのタイプの方法が実行されるとき、従来のシステムおよび方法よりも複雑さが少ない。

さらに、開発環境においてDCS(対話制御スクリプト)が利用可能である限り、(ソースコードを書き直したり、別のプログラミング言語に変換したりすることすらなしに)既存の対話プロトコルとテキスト要素は、変更されずに新しい開発環境に移植され得る。

ここで対話プロトコルが選択され、テキスト要素も存在する単一の対話プロトコルが存在するため、対話を実行すること、または対話プロトコルを実行することが可能である。したがって、ユーザは、対話プロトコルを介して動的な対話を案内され、対話プロトコルが提供するときはいつでも、対応する詳細または質問を受け取る。対話プロトコルはサブプロトコルも提供し得るため、ユーザが対応する入力を行うと、いつでも異なるサブ対話プロトコルに分岐することが可能である。たとえば、ユーザに十分な情報が提供されていない場合、他にどのようにユーザを助けることができるかを提供する別の対話に進むことが可能である。この目的のために、対応するテキスト要素が再度選択され、ユーザに提示される。

本発明の一態様では、対話プロトコルは、対話ユニットの存在、および対話ユニットを時系列に配置する対話の進行を指定する。これは、テキスト要素自体に依存しない対話の進行を提供することができるという利点を有する。対話ユニットは、提案された方法がいつ作動するか、およびいつユーザが行動するかを提供するだけである。さらに、どの活動が具体的に対話ユニットとして提供されるかを指定することができる。したがって、対話ユニットは、ユーザまたは対話システムによる入力であり得る。さらに、対話ユニットは、対話内の特定のポイントにおいて処理される制御コマンドを提供し得る。したがって、本発明によれば、いずれも対話システムによって動作される2つの対話ユニットは連続して配置され得、第1のデータベースクエリは、最初に第1の対話ユニットにおいて行われ、読み取られた情報がユーザに与えられることが第2の対話ユニットにおいて指定される。時系列はフローチャートであり得るが、一般に、時系列の代わりに論理的順序を指定することも可能である。したがって、ユーザ入力が常に待たれ、次に回答されなければならないことが提供され得る。対話ユニットが、対話システムが対話を開始し、次にユーザが回答することを提供することも可能である。

本発明のさらなる態様では、対話ユニットは、英数字パラメータとして記憶される。これには、対話ユニットが記憶されている、メモリ効率が高く、人間が読みやすい形式が選択されうるという利点がある。したがって、個々の対話ユニットは、別個のファイルへと交換されて、提案された方法に提供されうる。

本発明のさらなる態様では、対話ユニットは、表形式で記憶されている。これは、活動またはアクタが列に入力されることができ、サブ対話プロトコルによって参照することができる連続インデックスが行に入力されることができるという利点がある。したがって、関連付けられるインデックスがアドレス指定されるように対話が動的に作成されることができ、サブ対話プロトコルの最後に、さらなるインデックスが動的に参照され、その後クエリが実行され、さらなるサブ対話が実行されることができる。したがって、個々の行は、動的に構成され得るサブ対話プロトコルを指定する。

本発明のさらなる態様では、キーワードは、ユーザ入力によって、および/または制御コマンドによって与えられる。これには、ユーザが音響入力またはテキスト入力を作成し、そこからキーワードが抽出され得るか、または制御コマンドが実行され、次に適切な対話プロトコルを選択するかいずれかの利点がある。したがって、たとえば、マクロが作成され得、マクロは、複数の制御コマンドを含む。これらの制御コマンドは、キーワードを与えるように設定される。ユーザ入力と制御コマンドの組合せは、ユーザが第1のキーワードを選択し、制御コマンドがこの目的のために文脈をモデル化するように行われ得、その結果、対応する対話プロトコルが選択される。

本発明のさらなる態様では、キーワードは、自然言語を理解するための技術を使用して与えられる。これは、すでにインストールまたは実装されている構成要素が自然言語理解のために使用されうるという利点がある。したがって、ユーザがユーザ入力を音響的に行い、これをテキストに変換し、次にこの音響入力から1つまたは複数のキーワードを抽出することも可能である。NLUの本発明によるさらなる態様は、異なった一致可能なキーワードのセットから1つのキーワードへのマッピング(たとえば、「家」、「建物」、「超高層ビル」はすべて「家」にマッピングされる)または年齢へのマッピング(「43」、「49」は両方とも「40〜49」の年齢グループにマッピングされる)である。特に、これには多くの誤った音声認識結果も含まれる。したがって、英語では「カップ(cups)」は多くの方言で「猫(cats)」とほぼ同じ発音であるため、たとえば「猫(cats)」は「カップ(cups)」を検出することが望まれるシステムのトリガとして使用される。

本発明のさらなる態様では、各対話ユニットは、対話プロトコル内のアクタの活動を指定する。これに、対話ユニットが質問、回答、または制御コマンドが今与えられるべきかどうかを指定することができるという利点がある。対応するアクタは、対話が行われているユーザ、または対話システムのいずれかである。この文脈では、制御コマンドによってアドレス指定される外部データベースなどの、さらなるアクタも使用され得る。

本発明のさらなる態様では、対話の動的シーケンスは、分岐によって構成されるサブ対話を指定する。これは、ランタイムに対話を動的に作成することができ、次に、対応するプロトコルを同様に使用することができるという利点がある。この文脈では、ユーザ入力を待つことができ、次に、ユーザ入力に応じてさらなるサブ対話が選択され得る。これにより、ランタイムにサブ対話が全体的な対話に動的に構成される。これは、サブ対話プロトコルを対話プロトコルへと構成することに対応する。

本発明のさらなる態様では、分岐は、ユーザ入力に応じて、および/または制御コマンドによって選択される。これは、音響ユーザ入力を使用することができるだけでなく、データベースクエリなどの制御コマンドをユーザ入力によって開始することができるという利点がある。

本発明のさらなる態様では、各対話ユニットは、対話システムの活動、ユーザの活動、制御コマンドの実行、および/または方法の終了を予め定義する。これに、個々の活動を指定することができるという利点があり、これらは対話システム自体または人間のユーザに向けられるのではなく、ユーザ入力に回答するためにどの制御コマンドが実行されるかを提案することもできる。さらに、ユーザの要求が正常に回答されたために方法が終了することを、対話プロトコルがいつ与える提供するかを指定することができる。

本発明のさらなる態様では、ランタイムにおける対話プロトコルの実行は、対話システムとユーザとの間の音響対話を動作させることを含む。これには、音響入力をテキストに変換し、次に、テキスト出力を再び音響情報に変換する従来の構成要素が使用されうるという利点がある。

本発明のさらなる態様では、本方法は、モバイル端末、車両、または固定コンピューティングユニットにおいて実行される。これには、様々なアプリケーションシナリオをカバーすることができ、すべての一般的な端末を動作させることができるという利点がある。固定コンピューティングユニットは、たとえば、ユーザの従来のパーソナルコンピュータであり得る。車両における使用では、通常、対話を通じてドライバを案内するユーザーインターフェースが使用される。

本発明のさらなる態様では、既存のインターネットベースのサービスへのインターフェースが提供される。これには、すでに実装されているソフトウェア構成要素を再利用することができ、ユーザの要求に回答するための情報を提供したり、ショッピングオプションなどのサービスを提供したりするインターネットサービスを照会することができるという利点がある。

この目的はまた、コンピュータ支援対話システムにおける効率的な対話構成および解釈のためのシステム配置であって、各々の場合に少なくとも2つのキーワードのための複数の対話プロトコルを記憶するように設定されたストレージユニットであって、対話プロトコルは、対話の動的シーケンスを各々指定し、対話の動的シーケンスは、分岐点によって構成されるサブ対話を記述し、対話プロトコルは、対話ユニットの存在、および対話ユニットを時系列に配置する対話の進行を指定する、ストレージユニットと、ランタイムにおいて与えられる少なくとも2つのキーワードに応じて対話プロトコルを選択するように設定されたコンピューティングユニットであって、システムは、少なくとも第1のキーワードを、音響ユーザ入力のピッチからこれが質問であるかステートメントであるかを検出するように設定された、自然言語を理解するための技術を使用した音響ユーザ入力によって与えるように設定され、さらに、システム配置は、少なくとも1つの第2のキーワードを制御コマンドによって与えるように設定されており、ユーザが、少なくとも第1のキーワードを選択し、制御コマンドが、この目的のために、選択されたキーワードの文脈をモデル化し、これにより少なくとも第2のキーワードを与えるように設定されると、対応する対話プロトコルが選択される、コンピューティングユニットと、対話プロトコルの対話ユニットにテキスト要素を割り当てるように設定されたさらなるコンピューティングユニットと、ランタイムにおいてに対話プロトコルを実行するように設定された対話ユニットとを備える、システム配置によって達成される。

この目的はまた、提案された方法を実装するか、または提案されたシステム配置を動作させる制御コマンドを含むコンピュータプログラム製品によって達成される。

本発明によれば、システム配置が、個々の方法ステップに機能的に対応する構造的特徴を提供することが特に有利である。したがって、システム配置は、提案された方法を実行するために役立つ。そして、提案された方法は、システム配置を動作させるために設定される。したがって、方法のステップはまた、システム配置の構造的特徴を反映したものとすることができる。システム配置は、実際に上記のように設定されたデバイスを備え、適合性のための一般的な構成要素を単に備えるものではない。

さらに有利な実施形態は、添付の図面によってより詳細に説明されている。

本発明の出発点としての従来の対話システムを示す図である。本発明の一態様による、効率的な対話構成および解釈のためのシステム配置を示す図である。本発明の一態様による、効率的な対話構成および解釈のためのシステム配置のさらなる例を示す図である。本発明の一態様による対話ユニットを備える例示的な対話プロトコルを示す図である。本発明のさらなる態様による、効率的な対話構成および解釈のための提案された方法の概略フローチャートである。

図1の左側は、音声認識システムに入力を行っている人間のユーザを示す。音声認識システムは、音声認識サービスシステムSRSである。右側に示されているように、個々の対話は別々に実装され、この文脈では、対応するテキスト要素を含むシーケンス論理が指定される。対話プロトコルをテキスト要素にリンクする必要があるため、これは特に不利である。その結果、別々のメンテナンスを行うことができず、これにより技術的な複雑さが増す。

図2は、本発明による、図1のシステムの適応を示し、この文脈において、さらなる構成要素、すなわち選択ユニット、たとえば対話制御スクリプトユニットDCSを提供する。このユニットは右側のテキスト要素の上流にあり、次に、ランタイムにおいて、対応する対話が選択されることができ、右側のテキスト要素は単にシステムに統合されるだけでよい。したがって、本発明は、図1に示されるように、対話プロトコルがテキスト要素と一緒に右側の3つの概略ユニットに記憶されないという欠点を克服し、むしろ対話プロトコルは上流のユニットDCSに記憶され、個々のテキスト要素が単に右側から読み込まれるだけでよい。または、個々の対話プロトコルはDCSに記憶されないが、DCSによって動的に/ランタイムにクエリ/読み込みが行われる。したがって、付加的な構成要素DCSは、特定の対話の進行を作成し、次に、右側からさらなるパラメータを選択する。本明細書では、PVDは、パラメータ音声対話の略称であり、たとえば、PVD1、PVD2、およびPVD3である。

図3は、本発明による対応するシステムを示し、ユーザ要求URが、左上で作成され、本明細書では自然言語理解構成要素NLUと呼ばれる解釈構成要素へ伝達される。次に、回答または質問が生成され、これは、本明細書ではシステム回答/プロンプトS A/Pと呼ばれるさらなる構成要素において行われる。次に、本方法は終了してもよく、これは対応する外側への矢印によって右側に示され、そうでない場合、テキスト応答は次に音声サービスVSに伝達され、音声サービスVSはテキスト出力を再び音声に変換してユーザに与えし、ユーザは次に、ユーザ入力を再度アクティブ化することができる。この図では、逆方向も示されている。「システムが質問し、ユーザが回答する」(音声調査)という使用事例は有利である。音声サービスの使用は必須ではない。

図4は、対話プロトコルを、対話シーケンスを指定する対話ユニットとともに示す。この目的のために、起動対話ユニットが左上に示され、次に、第1の対話ユニットへ分岐する。この文脈では、ユーザ入力がフェッチされ得、与えられた回答に応じて、対話ユニット5または21が参照される。対応する対話ユニットは表形式で記憶され、数値インデックスが行番号であることが可能である。したがって、本図面に示されているように、動的分岐が可能であり、図示されている各ボックスは、アクタに割り当てられた対話ユニットに対応している。したがって、たとえば、対話ユニット11がユーザによって提供され、次の対話ユニットにおいて、対話は提案された対話システムによって終了されることが特定され得る。左側の2つの矢印は、さらに多くの対話ユニットが提供され得ること、および図4の提案された例は、より大規模な対話プロトコルからの抜粋にすぎないことを示す。3つ以上の分岐が可能であり、別の対話分岐への斜めのステップも可能であるため、11から2に戻って分岐することも可能である。これらすべてが、優れたユーザエクスペリエンスに寄与する。

図5は、コンピュータ支援自動対話システムにおける効率的な対話構成および解釈のための方法を示す概略フローチャートであって、各々の場合に少なくとも2つのキーワードのための複数の対話プロトコルを記憶するステップ100であって、対話プロトコルは、対話の動的シーケンスを各々指定し、対話の動的シーケンスは、分岐点によって構成されるサブ対話を記述し、対話プロトコルは、対話ユニットの存在、および対話ユニットを時系列に配置する対話の進行を指定する、ステップ100と、ランタイムにおいて与えられる102少なくとも2つのキーワードに応じて対話プロトコルを選択するステップ101であって、少なくとも第1のキーワードは、音響ユーザ入力のピッチからこれが質問であるかステートメントであるかを検出する自然言語を理解するための技術を使用して音響ユーザ入力によって与えられ、さらに、少なくとも1つの第2のキーワードは、制御コマンドによって与えられ、ユーザが、少なくとも第1のキーワードを選択し、制御コマンドが、この目的のために、選択されたキーワードの文脈をモデル化し、これにより少なくとも第2のキーワードを与えると、対応する対話プロトコルが選択される、ステップ101と、対話プロトコルの対話ユニットにテキスト要素を割り当てるステップ103と、ランタイムにおいて対話プロトコルを実行するステップ104とを含む、フローチャートである。

本発明によれば、対話の構成要素は、ハードコードされた方法で記憶されるのではなく、音声対話システムに記憶され、対話ユニットは、インデックスを使用して明確に分類されることで、ソースコードまたはスクリプトを変更しないままにすることができ、新しい対話はパラメータテーブルとして示すことができ、対話はさらに、１つの音声対話システム開発環境から他の環境に移植されたり、インターフェースを使用してアクセス可能にされたりすることができることが特に有利である。この文脈では、ソフトウェアが変更される必要はなく、マルチパートまたは再帰的な対話を実行することができ、具体的には、機械が質問し、ユーザが回答することが可能になる。本発明の一態様では、制御プログラム自体は、新しい開発環境ごとに一度移植されなければならないが、DPはそうではない。

最後に、本発明によれば、機械が最初に質問し、次にユーザが回答し、最後に回答が(制御コマンドによって)永続的に記憶されることが有利である。これにより、この対話構造を使用するアプリケーション、具体的には、音声調査および音声データ収集の簡単な実装形態が可能になる。

対話の進行およびユーザ入力はまた、永続的に(ハードディスクまたはデータベースに)記憶され得、このことは、音声調査/データ収集に有利である。

11 対話ユニット

Claims

コンピュータ支援自動対話システムにおける効率的な対話構成および解釈のための方法であって、
各々の場合に少なくとも2つのキーワードのための複数の対話プロトコルを記憶するステップ(100)であって、前記対話プロトコルは、対話の動的シーケンスを各々指定し、前記対話の前記動的シーケンスは、分岐点によって構成されるサブ対話を記述し、前記対話プロトコルは、対話ユニットの存在、および前記対話ユニットを時系列に配置する対話の進行を指定する、ステップ(100)と、
ランタイムにおいて与えられる(102)少なくとも2つのキーワードに応じて対話プロトコルを選択するステップ(101)であって、少なくとも第1のキーワードは、音響ユーザ入力のピッチからこれが質問であるかステートメントであるかを検出する自然言語を理解するための技術を使用して前記音響ユーザ入力によって与えられ、さらに、少なくとも1つの第2のキーワードは、制御コマンドによって与えられ、ユーザが、少なくとも前記第1のキーワードを選択し、前記制御コマンドが、この目的のために、前記選択されたキーワードの文脈をモデル化し、これにより前記少なくとも第2のキーワードを与えると、対応する前記対話プロトコルが選択される、ステップ(101)と、
前記対話プロトコルの対話ユニットにテキスト要素を割り当てるステップ(103)と、
前記ランタイムにおいて前記対話プロトコルを実行するステップ(104)と、
を含む、方法。
前記対話ユニットは英数字パラメータとして記憶される、請求項1に記載の方法。
前記対話ユニットは、表形式で記憶される、請求項1または2に記載の方法。
各々の場合に、対話ユニットは前記対話プロトコル内のアクチュエータの活動を指定する、請求項1から3のいずれか一項に記載の方法。
分岐点は、ユーザ入力に応じて、および/または制御コマンドによって選択される、請求項1から4のいずれか一項に記載の方法。
各対話ユニットは、対話システムの活動、ユーザの活動、制御コマンドの実行、および/または前記方法の終了を予め定義する、請求項1から5のいずれか一項に記載の方法。
前記ランタイムにおける前記対話プロトコルの前記実行(104)は、前記対話システムとユーザとの間の音響対話を動作させることを含む、請求項1から6のいずれか一項に記載の方法。
前記方法は、モバイル端末、車両、または固定コンピューティングユニットにおいて実行される、請求項1から7のいずれか一項に記載の方法。
既存のインターネットベースのサービスへのインターフェースが提供される、請求項1から8のいずれか一項に記載の方法。
効率的な対話構成および解釈のためのコンピュータ支援対話システムであって、
各々の場合に少なくとも2つのキーワードのための複数の対話プロトコルを記憶する(100)ように設定されたストレージユニットであって、前記対話プロトコルは、対話の動的シーケンスを各々指定し、前記対話の前記動的シーケンスは、分岐点によって構成されるサブ対話を記述し、前記対話プロトコルは、対話ユニットの存在、および前記対話ユニットを時系列に配置する対話の進行を指定する、ストレージユニットと、
ランタイムにおいて与えられる(102)少なくとも2つのキーワードに応じて対話プロトコルを選択する(101)ように設定されたコンピューティングユニットであって、前記システムは、少なくとも第1のキーワードを、音響ユーザ入力のピッチからこれが質問であるかステートメントであるかを検出するように設定された、自然言語を理解するための技術を使用して前記音響ユーザ入力によって与えるように設定され、さらに、前記システムは、少なくとも1つの第2のキーワードを制御コマンドによって与えるように設定され、ユーザが、少なくとも前記第1のキーワードを選択し、前記制御コマンドが、この目的のために、前記選択されたキーワードの文脈をモデル化し、これにより前記少なくとも第2のキーワードを与えるように設定されると、対応する前記対話プロトコルが選択される、コンピューティングユニットと、
前記対話プロトコルの対話ユニットにテキスト要素を割り当てる(103)ように設定されたさらなるコンピューティングユニットと、
前記ランタイムにおいて前記対話プロトコルを実行する(104)ように設定された対話ユニットと、
を備える、システム。
コンピュータ上で実行されると請求項1から9のいずれか一項に記載の方法を実行する制御コマンドを含む、コンピュータプログラム。