JP7150770B2

JP7150770B2 - 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム

Info

Publication number: JP7150770B2
Application number: JP2020018248A
Authority: JP
Inventors: スー，ユンフェイ; チェン，グオグオ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-07-23
Filing date: 2020-02-05
Publication date: 2022-10-11
Anticipated expiration: 2040-02-05
Also published as: CN110377716B; CN110377716A; JP2021018797A; US20210027788A1; US11322153B2

Description

本発明は、人工知能技術分野に関し、より詳しくは、対話方法、装置、コンピュ
ータ可読記憶媒体、及びプログラムに関する。

近年、人工知能技術の急速な発展に伴って、知能音声技術に関する製品は既に人々によく使われている。人々は機械との対話に徐々に慣れはじめ、且つ機械の理解及び応答能力に対する期待がより高まっている。

主流になった音声に基づく対話システムアーキテクチャには、自動音声認識（ＡＳＲ、ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）モデルと自然言語理解（ＮＬＵ、ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒＳｔａｎｄｉｎｇ）モデルが採用されている。作業フローには、まずＡＳＲモデルを通じてユーザの音声を文字に転換し、その後ＮＬＵモデルにより語義解析を行い、最後にユーザの意図を取得することが含まれている。

従来法としては、作業フローが二段階に分かれており、ＡＳＲモデルによる認識に誤差が現れると、ＮＬＵモデルを採用するときに誤差が拡大されてしまうという主な問題がある。また、モデルが比較的に大きい場合、ＮＬＵの計算量が多く、全体的にコストが高くなり、認識の遅延がある。

本発明は、従来技術における１つ又は複数の技術課題を解決するために、対話方法、装置及びコンピュータ可読記憶媒体を提供している。

本発明の第１態様は、対話の交互方法を提供している。当該対話の交互方法は、
認識すべき音声を第１テキストに変換することと、
前記第１テキストを語義解析モデルに入力し、第１テキストの意図情報とワードスロット情報を取得することと、
前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第１テキストに対応する交互情報を取得することと、を含む。

前記第１テキストを自動音声認識ＡＳＲモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第１信頼度を取得することと、
第１信頼度が最高である候補テキストを第２テキストとすることと、をさらに含む。

１つの実施形態において、前記第１テキストを語義解析モデルに入力し、第１テキストの意図情報とワードスロット情報を取得することは、
前記第１テキストを自然言語理解ＮＬＵモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第２信頼度を取得することと、
第２信頼度が最高である候補意図情報を前記第１テキストの意図情報とすることと、
前記第１テキストに含まれている、前記第１テキストの意図情報に対応するワードスロット情報を取得することと、を含む。

１つの実施形態において、前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第１テキストに対応する交互情報を取得することは、
前記第１テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力することと、
前記有限状態機械において前記第１テキストの意図情報に合致する対話経路を選別することと、
前記第１テキストのワードスロット情報に基づいて、前記第１テキストの意図情報に合致する対話経路において、遷移先である次の１つの中間ノードを検索することと、
中間ノードにより交互情報をリターンすることと、を含む。

１つの実施形態において、前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第１テキストに対応する交互情報を取得することは、
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得することと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の１つのノードに入力することと、をさらに含む。

１つの実施形態において、前記有限状態機械の構築は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得することと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定することと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することと、を含む。

１つの実施形態において、前記意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出することと、
前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定することと、
前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定することと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築することと、を含む。

本発明の第２態様は、対話の交互装置を提供している。当該対話の交互装置は、
認識すべき音声を第１テキストに変換する音声変換モジュールと、
前記第１テキストを語義解析モデルに入力し、第１テキストの意図情報とワードスロット情報を取得する意図情報・ワードスロット情報取得モジュールと、
前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第１テキストに対応する交互情報を取得する交互情報取得モジュールと、を備える。

１つの実施形態において、当該装置は、
前記第１テキストを自動音声認識ＡＳＲモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第１信頼度を取得する候補テキスト・信頼度取得モジュールと、
第１信頼度が最高である候補テキストを第２テキストとする第２テキスト取得モジュールと、をさらに備える。

１つの実施形態において、前記意図情報・ワードスロット情報取得モジュールは、
前記第１テキストを自然言語理解ＮＬＵモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第２信頼度を取得する候補意図情報・信頼度取得サーブモジュールと、
第２信頼度が最高である候補意図情報を前記第１テキストの意図情報とする第１テキスト意図情報取得サーブモジュールと、
前記第１テキストに含まれている、前記第１テキストの意図情報に対応するワードスロット情報を取得する第１ワードスロット情報取得サーブモジュールと、を備える。

１つの実施形態において、前記交互情報取得モジュールは、
前記第１テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力する意図情報・ワードスロット情報入力サーブモジュールと、
前記有限状態機械において前記第１テキストの意図情報に合致する対話経路を選別する対話経路選別サーブモジュールと、
前記第１テキストのワードスロット情報に基づいて、前記第１テキストの意図情報に合致する対話経路において、遷移先である次の１つの中間ノードを検索する遷移ノード検索サーブモジュールと、
中間ノードにより交互情報をリターンする交互情報リターンサーブモジュールと、を備える。

１つの実施形態において、前記交互情報取得モジュールは、
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する第２ワードスロット情報取得サーブモジュールと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の１つのノードに入力する第２ワードスロット情報入力サーブモジュールと、をさらに備える。

１つの実施形態において、前記有限状態機械は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するトレーニングサンプル意図情報取得モジュールと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するワードスロット情報確定モジュールと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する対話経路構築モジュールと、を備えるように構成される。

１つの実施形態において、前記対話経路構築モジュールは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する情報抽出サーブモジュールと、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するノード確定サーブモジュールと、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する遷移関係確定サーブモジュールと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する構築実行サーブモジュールと、を備える。

本発明の第３態様は、対話の交互装置を提供し、前記装置の機能は、ハードウェアにより実現されることができ、且つハードウェアを通じて対応するソフトウェアを実行することにより実現されることもできる。前記ハードウェア又はソフトウェアは１つ又は複数の上記機能に対応するモジュールを備える。

１つの可能な形態において、前記装置には、プロセッサとメモリを備え、前記メモリは前記装置が前記対話の交互を実行するように支持するプログラムを記憶するためであり、前記プロセッサは前記メモリに記憶されているプログラムを実行するように構成されている。前記装置はさらに通信インタフェースを備え、その他のデバイス又は通信ネットワークを通信するために用いられる。

本発明の第４態様は対話の交互装置に用いられるコンピュータソフト命令を記憶するためのコンピュータ可読記憶媒体を提供している。当該記憶媒体には前記対話を実行するための交互方法に関わるプログラムが含まれている。

上記技術案における少なくとも１つの技術案は、以下の利点または有益な効果を有する。即ち、語義解析モデルにより、第１テキストから第１テキストの意図情報とワードスロット情報を直接取得することができる。従来技術の語義解析モデルを言語モデルの後に接続する必要があるステップを減少させることにより、時間を短縮し、ユーザにより迅速に応答することができる。同時に、前記技術案は、計算の複雑性を減らし、システム全体のコストを低下させる。

また、上記技術案における少なくとも１つの技術案は、以下の利点または有益な効果を有する。即ち、自動音声認識ＡＳＲモデルと自然言語理解ＮＬＵモデルが統合されている。統合という構想を用いて認識音声を処理することにより、信頼度が最高である候補テキストと候補意図情報を同時に出力することができる。

上記の略述は、単に説明のために過ぎず、いかなる限定をも目的としない。上記に記載されている例示的な様態、実施形態、及び特徴以外に、図面及び下記の詳細説明を参照することによって、本発明のさらなる様態、実施形態及び特徴の理解を促す。

図面において、特に規定されていない場合、複数の図面における同一の図面符号は、同一或いは類似する部材或いは要素を示す。これらの図面は、必ずしも比例に準じて描かれているわけではない。これらの図面は、本発明により開示される幾つかの実施形態を描いており、それを本発明の範囲を制限するものと見なしては行けないことを理解すべきである。
本発明の実施形態に係る対話方法を示すフローチャートである。本発明の実施形態に係る対話方法を示すフローチャートである。本発明の実施形態に係る対話方法を示すフローチャートである。本発明の実施形態に係る対話方法を示すフローチャートである本発明の実施形態に係る有限状態機械を示す模式図である。本発明の実施形態に係る対話方法を示すフローチャートである。本発明の実施形態に係る対話方法を示すフローチャートである。本発明の実施形態に係る対話方法を示すフローチャートである。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。本発明の実施形態に係る対話装置を示す構成ブロック図である。

下記において、幾つかの例示的実施形態を簡単に説明する。当業者が把握出来るよう、本発明の主旨又は範囲を逸脱しない限り、様々な方法により説明された実施形態に変更可能である。従って、図面及び説明は制限を加えるためのものでなく、本質的には例示的なものである。

図１は、本発明の実施形態に係る対話方法を示すフローチャートである。図１に示すように、当該方法には、下記のステップＳ１０１、Ｓ１０２、Ｓ１０３が含まれている。

対話端末は、認識すべき音声を受信した後、音響モデルにより認識すべき音声を第１テキストに変換する。対話端末には、知能スピーカ、知能ロボット、知能携帯電話などのヒューマンマシーン交互機能を有する装置が含まれる。

Ｓ１０２において、前記第１テキストを語義解析モデルに入力し、第１テキストの意図情報及びワードスロット情報を取得する。

語義解析モデルは、第１テキストに含まれている文の意図情報を抽出することに用いられる。意図情報は１つの文が達成しようとする目的の情報であってもよい。第１テキストには、意図情報に対応する１つ又は複数のワードスロット情報が含まれている。例えば、第１テキストは「明日の天気は如何ですか」、「天気を調べて」、「北京の天気を調べて」、「北京の明日の天気を調べて」のうちの１つであってもよい。上記第１テキストの意図情報はいずれも「天気の検索」に対応している。さらに、「天気の検索」が対応するワードスロット情報は「時間」と「場所」を含んでもよい。例えば、第１テキストが「明日の天気は如何ですか」である場合、第１テキストに含まれるワードスロット情報としては、「時間」が明日であり、「場所」が空きである。第１テキストが「天気を調べて」である場合、第１テキストに含まれるワードスロット情報としては、「時間」と「場所」のいずれも空きである。第１テキストが「北京の天気を調べて」である場合、第１テキストに含まれるワードスロット情報としては、「時間」が空きであり、「場所」が北京である。第１テキストが「北京の明日の天気を調べて」である場合、第１テキストに含まれるワードスロット情報としては、「時間」が明日であり、「場所」が北京である。

第１テキストのワードスロット情報である「時間」と「場所」を確定した後、対応する天気を調べることができる。

Ｓ１０３において、前記第１テキストの意図情報及びワードスロット情報を有限状態機械に入力し、前記第１テキストに対応する交互情報を取得する。

有限状態機械は、現在の対話状態に基づいて交互情報を生成するものである。交互情報は、第１テキストに対応して取得した検索結果情報であってもよく、第１テキストに対して提出した問い合わせ情報であってもよい、

例えば、第１テキストが「北京の明日の天気を調べる」である場合、第１テキストに含まれているワードスロット情報は完備しているため、有限状態機械により得られる第１テキストに対応する交互情報は、直接得られる北京の明日の天気状況の検索結果である。検索結果としては、クラウードサーバーを通じて取得することができる。例えば、対話端末は、第１テキストの意図を確定した後、クラウードサーバーと通信して北京の明日の天気情報を取得し、それを交互情報としてユーザに出力することができる。出力には音声出力及び／又は文字出力が含まれる。

例えば、第１テキストが「明日の天気は如何ですか」である場合、第１テキストに含まれているワードスロット情報である「場所」が空きであるため、有限状態機械は「場所」を問い合わせる交互情報を生成することができる。例えば、交互情報としては、「何処の天気ですか」であり、それを交互情報としてユーザに出力することができる。

図２に示すように、１つの実施形態において、当該方法には、さらに、下記のステップＳ２０１、Ｓ２０２が含まれる。
Ｓ２０１において、前記第１テキストを自動音声認識ＡＳＲモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第１信頼度を取得する。
Ｓ２０２において、第１信頼度が最高である候補テキストを前記第２テキストとする。

言語モデルは１つの文が現れる確率を計算するモデルとして用いられる。例えば、第１テキストが「今日の天気は如何ですか」である場合、言語モデルによる計算は、この文を単語に分割して、「今日」、「天気」、「如何ですか」という３つの単語を得ることを含んでもよい。

得られる第１候補テキストは、「今日／今日：０．１天気／天気：０．２如何／如何：０．６」であってもよい。得られる第２候補テキストは、「今日／今日：０．１天気／天気：０．０８如何／如何：０．４」であってもよい。第１信頼度は、検索経路の累積コスト値で表示することができ、例えば、検索経路の累積コスト値が検索経路の全ての重みの負の対数の和である場合、第１候補テキストの検索経路の累積コスト値は、－ｌｇ（０．１）－ｌｇ（０．２）－ｌｇ（０．６）≒０．９１と表示することができ、第２候補テキストの検索経路の累積コスト値は、－ｌｇ（０．１）－ｌｇ（０．０８）－ｌｇ（０．４）≒２．４９と表示することができる。

比較を通して、第１候補テキストは、検索経路の累積コスト値が相対的に小さく、信頼度が高いため、第２テキストとして選択されることができる。さらに、第２テキストは、対話端末の表示装置に表示されることができる。ユーザは、第２テキストを見ることにより、対話端末の認識結果を検証することができる。

言語モデルは自動音声認識ＡＳＲモデルであってもよい。当該ＡＳＲモデルは、音響モデルを含むことにより、受信した音声に対して認識を行い、複数の候補テキスト及びそれぞれに対応する第１信頼度を取得することができる。

図３に示すように、１つの実施形態において、ステップＳ１０２には、下記のステップＳ１０２１、Ｓ１０２２、Ｓ１０２３が含まれる。
Ｓ１０２１において、前記第１テキストを自然言語理解ＮＬＵモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第２信頼度を取得する。
Ｓ１０２２において、第２信頼度が最高である候補意図情報を前記第１テキストの意図情報とする。
Ｓ１０２３において、前記第１テキストに含まれている、前記第１テキストの意図情報に対応するワードスロット情報を取得する。

語義解析モデルは、第１テキストからキー情報を抽出する。さらに、キー情報に基づく意図情報及び当該意図情報の信頼度は、既にトレーニングされたディープニューラルネットワーク（ＤＮＮ、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）或いは正規表示式（ＲｅｇｕｌａｒＥｘｐｒｅｓｓｉｏｎ）等のモデルにより得られることができる。

例えば、第１テキストが「今日の天気は如何ですか」である場合、抽出されたキー情報は、「今日」、「天気」、「如何ですか」等のキー情報を含むことができる。前記キー情報を既にトレーニングされたモデルに入力することにより、候補意図情報である「天気を検索する」の信頼度が０．６であり、候補意図情報である「時間を検索する」の信頼度が０．２であることを得ることができる。

信頼度を比較することにより、候補意図情報である「天気を検索する」を第１テキストの意図情報とすることができる。さらに、「天気を検索する」に対応する、例えば「時間」、「場所」などであるワードスロット情報を得ることができる。

意図情報とワードスロット情報の対応関係は、人工的に表記する、或いはモデルをトレーニングする際に関連付けることができる。これにより、異なる意図情報に対応するワードスロット情報は、確定されることができる。

１つの実施形態において、自動音声認識ＡＳＲモデル及び自然言語理解ＮＬＵモデルは、統合されることができる。認識すべき音声に対する処理には、自動音声認識ＡＳＲモデル中の音響モデルにより、認識すべき音声を第１テキストに変換した後、第１テキストを自動音声認識ＡＳＲモデル中の音響モデル及び自然言語理解ＮＬＵモデルにそれぞれ入力し、信頼度が最高である第２テキスト及び第１テキストの意図情報を取得することが含まれてもよい。

取得された信頼度が最高である第２テキスト及び第１テキストの意図情報には、前記第１テキストを言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第１信頼度を取得すること、前記第１テキストを語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第２信頼度を取得すること、各第１信頼度を逐一第２信頼度と乗算することにより、乗算した最大値に対応する第１信頼度及び第２信頼度を確定し、確定した第１信頼度に対応する候補テキスト及び確定した第２信頼度に対応する候補意図情報を出力することが含まれてもよい。

前記技術案によれば、自然言語理解ＮＬＵモデルは、自動音声認識ＡＳＲモデルの出力に基づいて後続の認識を行う必要がなく、自動音声認識ＡＳＲモデルと自然言語理解ＮＬＵモデルを統合するものである。統合という構想を用いて認識すべき音声に対して処理を行いことにより、信頼度が最高である候補テキストと候補意図情報を同時に出力することができる。

図４、図５に示すように、１つの実施形態において、ステップＳ１０３には下記のステップＳ１０３１、Ｓ１０３２、Ｓ１０３３、Ｓ１０３４が含まれている。
Ｓ１０３１において、前記第１テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力する。
Ｓ１０３２において、前記有限状態機械において前記第１テキストの意図情報に合致する対話経路を選別する。
Ｓ１０３３において、前記第１テキストのワードスロット情報に基づいて、前記第１テキストの意図情報に合致する対話経路の中で遷移先である次の１つの中間ノードを検索する。
Ｓ１０３４において、中間ノードにより交互情報をリターンする。

例えば、第１テキストは、「明日の天気は如何ですか」、「天気を調べて」、「北京の天気を調べて」、「北京の明日の天気を調べて」のうちの１つであってもよい。語義解析モデルを通じて、第１テキストの意図情報は「天気を検索する」であることが得られる。

図５に合わせて示すように、有限状態機械における実線は意図が「天気を検索する」である対話経路に対応することができる。有限状態機械における破線は意図が「時間を検索する」である対話経路に対応することができる。前記第１テキストの意図情報とワードスロット情報は、前記有限状態機械の初期ノード（図５におけるノード０）に入力される。第１テキストの意図に対する認識に基づいて、意図が「天気を検索する」である対話経路を選別することができる。即ち、対話経路は、ノード０～ノード１、ノード０～ノード２、ノード０～ノード３、ノード０～ノード４に限定される。例えば、語義解析モデルを通じて第１テキストの意図情報が「時間を検索する」である場合、対話経路は、ノード０～ノード９、ノード０～ノード１０に限定される。

有限状態機械は、第１テキストのワードスロット情報の欠如状態に基づいて、対話経路のノードにおいて遷移する。例えば、「明日の天気が如何ですか」に対応するワードスロット情報は、「時間」であり、欠けているワードスロット情報は「場所」である。ノード２において、ユーザに「場所」を取得する交互情報を出力する。従って、前記第１テキストの意図情報に合致する対話経路の中でノード２を検索し、初期ノード０から中間ノード２に遷移する。中間ノード２において、ユーザに「何処の天気ですか」という交互情報をリターンする。ユーザにリターンする交互情報は、音声、文字、画像等の各種の形であってもよい、

図５、図６に合わせて示すように、１つの実施形態において、ステップＳ１０３には、下記のステップＳ１０３５、Ｓ１０３６がさらに含まれている。
Ｓ１０３５において、前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する。
Ｓ１０３６において、前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の１つのノードに入力する。

対話端末は、交互情報を毎回リターンした後、対話を追跡して記録することができる。ユーザが交互情報に対して応答した場合、対話端末は応答した音声を受信した後、語義解析モデルにより前記応答情報のワードスロット情報を取得する。ワードスロット情報を利用して有限状態機械内で遷移する。例えば、中間ノード２においてユーザに「何処の天気ですか」という交互情報をリターンした後、ユーザの応答情報が「北京」である場合、語義解析モデルは「北京」に対応するワードスロット情報が「場所」であることを取得する。対話記録に合わせて見ると、「天気を検索する」という意図のうえで、二つのワードスロット情報が既に取得されたと確定できるため、ノード４に遷移する。ノード４は、ワードスロット情報が完備している場合に対応するため、最終的に天気検索情報を出力するように、完了ノード８に遷移することができる。

図７に示すように、１つの実施形態において、前記有限状態機械の構築については、下記のステップＳ３０１、Ｓ３０２、Ｓ３０３が含まれる。
Ｓ３０１において、語義解析モデルにより前記トレーニングサンプルの意図情報を取得する。
Ｓ３０２において、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定する。
Ｓ３０３において、意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する。

前記トレーニングサンプルの意図情報を確定する際、同様な意図を表す異なるサンプルを用いてトレーニングすることができる。例えば、「明日の天気は如何ですか」、「明日の気温は何度ですか」、「北京は暑いですか」等は、いずれも同様の「天気を検索する」という意図を表すことができる。

意図情報に対応する各ワードスロット情報は、人工的に設定することも、モデルトレーニングを通じて設定することもできる。意図情報に含まれる対話経路を構築する目的は、受信した音声に基づいて交互情報を生成し、交互情報を利用してユーザが現在意図している全てのワードスロット情報を補完するように導き、有限状態機械が最終的に検索結果を提供できるようにするためである。

図８に示すように、１つの実施形態において、ステップＳ３０３には下記のステップＳ３０３１、Ｓ３０３２、Ｓ３０３３、Ｓ３０３４が含まれる。
Ｓ３０３１において、語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する。
Ｓ３０３２において、前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定する。
Ｓ３０３３において、前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する。
Ｓ３０３４において、各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する。

例えば、意図が「天気を検索する」である場合、対応するワードスロット情報は、「時間」、「場所」であってもよい。下記の４つの状態で表すことができる。即ち、
初期ノード０～中間ノード４は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード０～中間ノード２は、ワードスロット情報に「時間」があるが、「場所」がないことを示し、中間ノード２～中間ノード７は、交互情報を生成し、「場所」を問い合わせることを示し、中間ノード７～中間ノード４は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード０～中間ノード３は、ワードスロット情報に「時間」がなく、「場所」があることを示し、中間ノード３～中間ノード６は、交互情報を生成し、「時間」を問い合わせることを示し、中間ノード６～中間ノード４は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード０～中間ノード１は、ワードスロット情報に「時間」と「場所」がないことを示し、中間ノード１～中間ノード５は、交互情報を生成し、「時間」を問い合わせることを示し、中間ノード５～中間ノード２は、ワードスロット情報に「時間」があるが、「場所」がないことを示し、中間ノード２～中間ノード７は、交互情報を生成し、「場所」を問い合わせることを示し、中間ノード７～中間ノード４は、ワードスロット情報に「時間」と「場所」があることを示す。

完了ノード８は、天気検索結果の最終ノードとすることができる。

図９は、本発明の実施形態に係る対話装置を示す構成ブロック図である。図９に示すように、当該装置は、
認識すべき音声を第１テキストに変換するための音声変換モジュール９０１と、
前記第１テキストを語義解析モデルに入力し、第１テキストの意図情報とワードスロット情報を取得するための意図情報・ワードスロット情報取得モジュール９０２と、
前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第１テキストに対応する交互情報を取得するための交互情報取得モジュール９０３と、を備える。

図１０に示すように、当該装置は、
前記第１テキストを自動音声認識ＡＳＲモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第１信頼度を取得するための候補テキスト・信頼度取得モジュール１００１と、
第１信頼度が最高である候補テキストを第２テキストとするための第２テキスト取得モジュール１００２と、をさらに備える。

図１１に示すように、１つの実施形態において、前記意図情報・ワードスロット情報取得モジュール９０２は、
前記第１テキストを自然言語理解ＮＬＵモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第２信頼度を取得するための候補意図情報・信頼度取得サーブモジュール９０２１と、
第２信頼度が最高である候補意図情報を前記第１テキストの意図情報とするための第１テキスト意図情報サーブモジュール９０２２と、
前記第１テキストに含まれている、前記第１テキストの意図情報に対応するワードスロット情報を取得するための第１ワードスロット情報取得サーブモジュール９０２３と、を備える。

図１２に示すように、１つの実施形態において、前記交互情報取得モジュール９０３は、
前記第１テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力するための意図情報・ワードスロット情報入力サーブモジュール９０３１と、
前記有限状態機械において前記第１テキストの意図情報に合致する対話経路を選別するための対話経路選別サーブモジュール９０３２と、
前記第１テキストのワードスロット情報に基づいて、前記第１テキストの意図情報に合致する対話経路において、遷移先である次の１つの中間ノードを検索するための遷移ノード検索サーブモジュール９０３３と、
中間ノードにより交互情報をリターンするための交互情報リターンサーブモジュール９０３４と、を備える。

図１３に示すように、１つの実施形態において、前記交互情報取得モジュール９０３は、
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得するための第２ワードスロット情報取得サーブモジュール９０３５と、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の１つのノードに入力するための第２ワードスロット情報入力サーブモジュール９０３６と、をさらに備える。

図１４に示すように、１つの実施形態において、前記有限状態機械は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するためのトレーニングサンプル意図情報取得モジュール１４０１と、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するためのワードスロット情報確定モジュール１４０２と、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築するための対話経路構築モジュール１４０３と、を備えるように構成される。

図１５に示すように、１つの実施形態において、前記対話経路構築モジュール１４０３は、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出するための情報抽出サーブモジュール１４０３１と、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するためのノード確定サーブモジュール１４０３２と、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定するための遷移関係確定サーブモジュール１４０３３と、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築するための構築実行サーブモジュール１４０３４と、を備える。

図１６は、本発明の実施形態に係る対話の交互装置を示す構成ブロック図である。図１６に示すように、当該装置は、メモリ１６１０とプロセッサ１６２０を備え、メモリ１６１０にはプロセッサ１６２０にて実行可能なコンピュータプログラムが記憶されている。前記プロセッサ１６２０が前記コンピュータプログラムを実行する場合、前記実施形態における対話の交互方法を実現することができる。前記メモリ１６１０及びプロセッサ１６２０の数は１つ又は複数であってもよい。

当該装置は、外部設備との通信を行い、データの交互転送を行うための通信インタフェース１６３０をさらに備える。

メモリ１６１０は、高速度ＲＡＭメモリを含むことができ、少なくとも１つの磁気メモリのような不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよい。
メモリ１６１０、プロセッサ１６２０、および通信インターフェース１６３０が独立して実現される場合、メモリ１６１０、プロセッサ１６２０、および通信インターフェース１６３０は、バスによって相互接続して相互通信を行うことができる。前記バスは、インダストリスタンダードアーキテクチャ（ＩＳＡ、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、外部デバイス相互接続（ＰＣＩ、ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス、又は拡張インダストリスタンダードアーキテクチャ（ＥＩＳＡ、ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＣｏｍｐｏｎｅｎｔ）バス等であってもよい。前記バスは、アドレスバス、データバス、制御バス等として分けられることが可能である。表示の便宜上、図１６に１本の太線のみで表示するが、バスが１つ又は１種類のみであることを意味しない。

任意選択で、具体的な実現において、メモリ１６１０、プロセッサ１６２０及び通信インターフェース１６３０が１つのチップに集成した場合、メモリ１６１０、プロセッサ１６２０、及び通信インターフェース１６３０は、内部インターフェースによって相互通信を行うことができる。

本発明実施形態は、コンピュータプログラムを記憶するためのコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサに実行される場合、前記実施形態のいずれか１つに記載の方法を実現することができる。

本明細書において、「１つの実施形態」、「幾つかの実施形態」、「例」、「具体例」或いは「一部の例」などの用語とは、当該実施形態或いは例で説明された具体的特徴、構成、材料或いは特性を結合して、本発明の少なくとも１つの実施形態或いは実施形態に含まれることを意味する。また、説明された具体的特徴、構成、材料或いは特性は、いずれか１つ或いは複数の実施形態または例において適切に結合することが可能である。また、矛盾しない限り、当業者は、本明細書の異なる実施形態または例、および、異なる実施形態または例における特徴を結合したり、組み合わせたりすることができる。

また、用語「第１」、「第２」とは比較的な重要性を示している又は暗示しているわけではなく、単に説明のためのものであり、示される技術的特徴の数を暗示するわけでもない。そのため、「第１」、「第２」で限定される特徴は、少なくとも１つの当該特徴を明示又は暗示的に含むことが可能である。本出願の記載の中において、「複数」の意味とは、明確的に限定される以外に、２つ又は２つ以上を意味する。

フローチャート又はその他の方式で説明された、いかなるプロセス又は方法に対する説明は、特定な論理的機能又はプロセスのステップを実現するためのコマンドのコードを実行可能な１つ又はそれ以上のモジュール、断片若しくはセグメントとして理解することが可能であり、さらに、本発明の好ましい実施形態の範囲はその他の実現を含み、示された、又は、記載の順番に従うことなく、係る機能に基づいてほぼ同時にまたは逆の順序に従って機能を実行することを含み、これは当業者が理解すべきことである。

フローチャートに示された、又はその他の方式で説明された論理及び／又はステップは、例えば、論理機能を実現させるための実行可能なコマンドのシーケンスリストとして見なされることが可能であり、コマンド実行システム、装置、又はデバイス（プロセッサのシステム、又はコマンド実行システム、装置、デバイスからコマンドを取得して実行することが可能なその他のシステムを含むコンピュータによるシステム）が使用できるように提供し、又はこれらのコマンドを組み合わせて使用するコマンド実行システム、装置、又はデバイスに使用されるために、いかなるコンピュータ読取可能媒体にも具体的に実現されることが可能である。本明細書において、「コンピュータ読取可能媒体」は、コマンド実行システム、装置、デバイス、又はこれらのコマンドを組み合わせて実行するシステム、装置又はデバイスが使用できるように提供するため、プログラムを格納、記憶、通信、伝搬又は伝送する装置であってもよい。コンピュータ読み取り可能媒体のより具体的例（非網羅的なリスト）として、１つ又は複数の布配線を含む電気接続部（電子装置）、ポータブルコンピュータディスク（磁気装置）、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、消去書き込み可能リード・オンリー・メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー装置、及びポータブル読み取り専用メモリ（ＣＤＲＯＭ）を少なくとも含む。また、コンピュータ読み取り可能媒体は、そのうえで前記プログラムを印字できる紙又はその他の適切な媒体であってもよく、例えば紙又はその他の媒体に対して光学的スキャンを行い、そして編集、解釈又は必要に応じてその他の適切の方式で処理して電子的方式で前記プログラムを得、その後コンピュータメモリに記憶することができるためである。

本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせによって実現されることができる。前記実施形態において、複数のステップ又は方法は、メモリに記憶された、適当なコマンド実行システムによって実行されるソフトウェア又はファームウェアによって実施されることができる。例えば、ハードウェアによって実現するとした場合、別の実施形態と同様に、データ信号に対して論理機能を実現する論理ゲート回路を有する離散論理回路、適切な混合論理ゲート回路を有する特定用途向け集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などといった本技術分野において公知である技術のうちのいずれか１つ又はそれらの組み合わせによって実現される。

当業者は、上記の実施形態における方法に含まれるステップの全部又は一部を実現するのは、プログラムによって対応するハードウェアを指示することによって可能であることを理解することができる。前記プログラムは、コンピュータ読取可能な媒体に記憶されてもよく、当該プログラムが実行されるとき、方法の実施形態に係るステップのうちの１つ又はそれらの組み合わせを含むことができる。

また、本発明の各実施形態における各機能ユニットは、１つの処理モジュールに統合されてよく、別個の物理的な個体であってもよく、２つ又は２つ以上のユニットが１つのモジュールに統合されてもよい。上記の統合モジュールは、ハードウェアで実現されてもよく、ソフトウェア機能モジュールで実現されてもよい。上記の統合モジュールが、ソフトウェア機能モジュールで実現され、しかも独立した製品として販売又は使用される場合、コンピュータ読取可能な記憶媒体に記憶されてもよい。前記記憶媒体は読取専用メモリ、磁気ディスク又は光ディスク等であってもよい。

上記の記載は、単なる本発明の具体的な実施形態に過ぎず、本発明の保護範囲はそれに限定されることなく、当業者が本発明に開示されている範囲内において、容易に想到し得る変形又は置換は、全て本発明の範囲内に含まれるべきである。そのため、本発明の範囲は、記載されている特許請求の範囲に準じるべきである。

Claims

コンピュータによって実行される対話方法であって、
自動音声認識ＡＳＲモデル中の音響モデルにより、認識すべき音声を第１テキストに変換することと、
前記第１テキストを前記自動音声認識ＡＳＲモデル中の言語モデルに入力して、複数の候補テキスト及び前記複数の候補テキストのそれぞれに対応する第１信頼度を取得することと、
第１信頼度が最高である候補テキストを第２テキストとすることと、
前記第１テキストを語義解析モデルに入力して、複数の候補意図情報及び前記複数の候補意図情報のそれぞれに対応する第２信頼度を取得することと、
第２信頼度が最高である候補意図情報を前記第１テキストの意図情報とすることと、
前記第１テキストに含まれている、前記第１テキストの意図情報に対応するワードスロット情報を取得することと、
前記第１テキストの意図情報及びワードスロット情報を有限状態機械に入力して、前記第１テキストに対応する交互情報を取得することと、
を含む、
ことを特徴とする対話方法。
前記語義解析モデルは、自然言語理解ＮＬＵモデルである、
ことを特徴とする請求項１に記載の対話方法。
前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第１テキストに対応する交互情報を取得することは、
前記第１テキストの意図情報及びワードスロット情報を前記有限状態機械の初期ノードに入力することと、
前記有限状態機械において前記第１テキストの意図情報に合致する対話経路を選別することと、
前記第１テキストのワードスロット情報に基づいて、前記第１テキストの意図情報に合致する対話経路から遷移先である次の１つの中間ノードを検索することと、
中間ノードにより交互情報をリターンさせることと、
を含む、
ことを特徴とする請求項１に記載の対話方法。
前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第１テキストに対応する交互情報を取得することは、
前記交互情報に対して応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得することと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の１つのノードに入力することと、をさらに含む、
ことを特徴とする請求項１に記載の対話方法。
前記有限状態機械の構築は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得することと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定することと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することと、を含む、
ことを特徴とする請求項１に記載の対話方法。
前記意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出することと、
前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定することと、
前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定することと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築することと、を含む、
ことを特徴とする請求項５に記載の対話方法。
自動音声認識ＡＳＲモデル中の音響モデルにより、認識すべき音声を第１テキストに変換する音声変換モジュールと、
前記第１テキストを前記自動音声認識ＡＳＲモデル中の言語モデルに入力して、複数の候補テキスト及び前記複数の候補テキストのそれぞれに対応する第１信頼度を取得する候補テキスト・信頼度取得モジュールと、
第１信頼度が最高である候補テキストを第２テキストとする第２テキスト取得モジュールと、
前記第１テキストを語義解析モデルに入力して、複数の候補意図情報及び前記複数の候補意図情報のそれぞれに対応する第２信頼度を取得する候補意図情報・信頼度取得サーブモジュールと、
第２信頼度が最高である候補意図情報を前記第１テキストの意図情報とする第１テキスト意図情報取得サーブモジュールと、
前記第１テキストに含まれている、前記第１テキストの意図情報に対応するワードスロット情報を取得する第１ワードスロット情報取得サーブモジュールと、
前記第１テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第１テキストに対応する交互情報を取得する交互情報取得モジュールと、
を備える、
ことを特徴とする対話装置。
語義解析モデルは、自然言語理解ＮＬＵモデルである、
ことを特徴とする請求項７に記載の対話装置。
前記交互情報取得モジュールは、
前記第１テキストの意図情報及びワードスロット情報を前記有限状態機械の初期ノードに入力する意図情報・ワードスロット情報入力サーブモジュールと、
前記有限状態機械において前記第１テキストの意図情報に合致する対話経路を選別する対話経路選別サーブモジュールと、
前記第１テキストのワードスロット情報に基づいて、前記第１テキストの意図情報に合致する対話経路から遷移先である次の１つの中間ノードを検索する遷移ノード検索サーブモジュールと、
中間ノードにより交互情報をリターンさせる交互情報リターンサーブモジュールと、
を備える、
ことを特徴とする請求項７に記載の対話装置。
前記交互情報取得モジュールは、
前記交互情報に対して応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する第２ワードスロット情報取得サーブモジュールと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の１つのノードに入力する第２ワードスロット情報入力サーブモジュールと、をさらに備える、
ことを特徴とする請求項７に記載の対話装置。
前記有限状態機械は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するトレーニングサンプル意図情報取得モジュールと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するワードスロット情報確定モジュールと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する対話経路構築モジュールと、を備えるように構成される、
ことを特徴とする請求項７に記載の対話装置。
前記対話経路構築モジュールは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する情報抽出サーブモジュールと、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するノード確定サーブモジュールと、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する遷移関係確定サーブモジュールと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する構築実行サーブモジュールと、を備える、
ことを特徴とする請求項１１に記載の対話装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを記憶する記憶装置と、を備え、
前記１つ又は複数のプロセッサは、前記１つ又は複数のプログラムを実行する場合、請求項１～６のいずれか一項に記載の対話方法を実行させる、
ことを特徴とする対話装置。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
当該コンピュータプログラムがプロセッサに実行される場合、請求項１～６のいずれか一項に記載の対話方法を実行させる、
ことを特徴とするコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～６のいずれか一項に記載の対話方法を実現することを特徴とするプログラム。