JP7348288B2

JP7348288B2 - 音声対話の方法、装置、及びシステム

Info

Publication number: JP7348288B2
Application number: JP2021537969A
Authority: JP
Inventors: ジォン、ミンホォイ
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-12-29
Filing date: 2019-12-28
Publication date: 2023-09-20
Anticipated expiration: 2039-12-28
Also published as: US20210327436A1; CN111402900A; EP3896691A4; WO2020135811A1; EP3896691A1; CN111402900B; JP2022516491A

Description

本出願は、人間－機械対話技術の分野に関し、特に、人間－機械音声対話方法、装置、及びシステムに関する。

人工知能の出現に伴い、音声対話は、新しい対話技術として、家庭用スマートスピーカ、音声制御車載端末、パーソナル音声アシスタント、会議システム音声制御など、様々な産業で広く使用されている。マウスとキーボードの対話やタッチ対話に比べて、音声対話には、非接触であること、手と目を自由にセットすること、自然であること（学習する必要がないこと）など、多くの利点がある。人工知能の現在の技術レベルによって制限されるが、音声対話システムは、人同士の自然な会話のようにスムーズかつ知的に会話を完全にシミュレートすることはできない。例えば、現在の音声対話システムは、まだ、近くの話者がシステムに話しているかどうかを能動的に判定することができず、特定のイベントがトリガされたときにのみ音声命令を受信することができる。ここでの特定のイベントとは、ユーザが特定されたプリセット・ウェイクアップ・キーワードを言う、特定のサウンドを鳴らす、特定のジェスチャ・アクションを行う、物理的なボタンを押す、画面上のアイコンをタップする、などであり得る。音声対話の利点は、ウェイクアップ・キーワードがトリガされるときに最もよく利用され、ウェイクアップ・キーワードがトリガされることもまた、現在の音声対話システムに適用される最も一般的なウェイクアップモードである。しかしながら、音声システムが初めて起動された後、ユーザの音声命令が実行されたとき、又はセッションが終了したときに、ユーザが直ちに次の音声命令を送信したい、又は次のセッションを入力したい場合、ユーザは再度ウェイクアップ・キーワードを話す必要がある。この対話プロセスは、人間同士の言語会話の習慣とは非常に異なる（人が話すとき、話が終わらないことがはっきりしている場合、話題が変わったとしても、人は話を維持するために互いの名前を繰り返し呼ぶ必要はない）。したがって、ユーザがシステムとの会話の中でウェイクアップ・キーワードを言うのを忘れてしまうことが多く、会話の連続性に影響を与えるといった、連続性に逆らうことが発生する。これは、現在のすべての音声対話システムに存在する共通の問題でもある。

中国特許出願第１０８１８２９４３号は、インテリジェントデバイス制御方法及び装置、ならびにインテリジェントデバイスを開示している。インテリジェントデバイス制御方法は、ユーザの第１の音声情報に対応する対話命令に応答した後、動作状態を維持することと、ユーザの第２の音声情報を受信した後、ユーザの第２の音声情報に対応する音声認識結果を取得することと、音声認識結果に基づいて、ユーザの第２の音声情報とユーザの第１の音声情報との間の相関の程度がプリセットの相関の程度以上であるかどうかを判定することとと、相関の程度がプリセットの相関の程度以上である場合、ターゲット対話命令に応答することであって、ターゲット対話命令は、ユーザの第２の音声情報に対応する対話命令である、応答することと、を含む。本特許の解決策によれば、インテリジェントデバイスがユーザによってウェイクアップされた後、同じトピックのコンテンツについてインテリジェントデバイスと複数回にわたって対話するときに、ユーザは、インテリジェントデバイスを再度ウェイクアップさせる必要がない。しかしながら、この特許の解決策では、ユーザの第２の音声情報は、コンテンツ（同じトピック）について、ユーザの第１の音声情報と強く相関する必要があり、それによって、インテリジェントデバイスは、再度ウェイクアップされる必要がない。実際の用途では、トピックが頻繁に変更されることがある。例えば、音声システムがデスクランプを点灯できるようにした後、ユーザは音楽を聞きたい。このシナリオでは、ユーザは、システムを再度ウェイクアップする必要がある。中国特許出願第１０５９１２００９２号は、機械が非ウェイクアップ・キーワードの音信号を検出するときに、システムは、人体／顔検出を可能にするか、又は音源位置決め方法を使用して、音に基づいて、カメラの撮影角度を調整して、画像検出を継続し、システムは、人体／顔を検出する場合、機械をウェイクアップし、音声認識を開始する。しかし、この解決策の欠点は、その解決策が１つのセッションのウェイクアップのみを伴い、連続セッションの要件を無視していることである。追加的に、ユーザが長時間にわたって機械と話さないときに、厳格なウェイクアップ機構が必要である。この場合、単純な音量と画像検出のみが判定のための特徴として使用されるため、ウェイクアップ閾値が小さくなり、精度が不十分となる。

本出願は、会話を継続するユーザの意図を判定することによって音声対話プロセスにおける冗長なウェイクアップを低減し、それによってユーザの体験を改善するための音声対話方法、端末デバイス、及びシステムを提供する。

第１の態様によれば、音声対話方法が提供される。この方法は、端末が、音声対話開始指示を検出することと、端末が、音声対話開始指示に応答して、音声対話動作状態に移行することと、端末が、第１の音声情報を受信し、第１の音声情報に対する処理結果を出力することと、端末が、第２の音声情報を受信し、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することと、送信者が同じユーザであると判定した場合、端末が、第２の音声情報に応答して、処理結果を出力することと、送信者が異なるユーザであると判定した場合、端末が、音声対話動作状態を終了することと、を含む。

可能な設計では、端末が、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することは、端末が、第１の音声情報と第２の音声情報を受信するときに、第１の音声情報の特徴と第２の音声情報の特徴を別々に取得することと、端末が、第１の音声情報の特徴と第２の音声情報の特徴との比較結果に基づいて、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することと、を含む。

可能な設計では、音声特徴情報は、声紋モデル情報である。

可能な設計では、端末が、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することは、端末が、第１の音声情報及び第２の音声情報を受信するときに、ユーザの方向情報又は距離情報を別々に取得することと、端末が、ユーザの方向情報又は距離情報に基づいて、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することと、を含む。

可能な設計では、端末が、ユーザの距離情報を検出するために赤外線センシングを使用するか、又はユーザの方向情報を検出するためにマイクロホンアレイを使用する。

可能な設計では、端末が、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することは、端末が、第１の音声情報と第２の音声情報を受信するときに、ユーザの顔特徴情報を別々に取得することと、端末が、ユーザの顔特徴情報を比較することによって、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することと、を含む。

可能な設計では、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであると判定した後に、端末が、ユーザの顔の向きがプリセット閾値を満たすかどうかをさらに判定する。ユーザの顔の向きがプリセット閾値を満たすときに、端末が、第２の音声情報の処理結果を出力し、そうでなければ、端末が、音声対話動作状態を終了する。

可能な設計では、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することは、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットを判定し、オフセットに基づいて、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することを含む。

可能な設計では、端末が、音声対話動作状態に移行することは、端末が、第１の音声対話インターフェースを表示することと、端末が、端末が第１の音声情報の処理結果を出力した後、第２の音声対話インターフェースを表示することであって、第１の音声対話インターフェースは、第２の音声インターフェースとは異なる、表示することと、を含み、端末が、音声対話動作状態を終了させることは、端末が、第２の音声対話インターフェースをキャンセルすることを含む。

第２の態様によれば、音声対話モジュール及び継続会話意図判定モジュールを含む、インテリジェント音声対話を実施するための端末が提供される。音声対話モジュールは、インテリジェント音声対話を実施し、受信した音声情報に基づいてターゲット処理結果を出力するように構成されている。継続会話意図判定モジュールは、受信した第１の音声情報と受信した第２の音声情報が同じユーザからのものであるかどうかを判定するように構成されている。第１の音声情報は、音声対話モジュールが音声対話開始指示に応答した後に受信した音声情報であり、第２の音声情報は、音声対話モジュールが第１の音声情報の処理結果を出力した後に受信した音声情報である

可能な設計では、継続会話意図判定モジュールが、受信した第１の音声情報と受信した第２の音声情報が同じユーザからのものであるかどうかを判定することは、継続会話意図判定モジュールが、第１の音声情報の特徴と第２の音声情報の特徴との比較結果に基づいて、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することを含む。

可能な設計では、継続会話意図判定ユニットが、受信した第１の音声情報と受信した第２の音声情報が同じユーザからのものであるかどうかを判定することは、継続会話意図判定モジュールにが、第１の音声情報と第２の音声情報を受信するときに、ユーザの方向情報又は距離情報に基づいて、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することを含む。

可能な設計では、継続会話意図判定モジュールは、ユーザの距離情報を検出するために赤外線センシングを使用するか、又はユーザの方向情報を検出するためにマイクロホンアレイを使用する。

可能な設計では、継続会話意図判定モジュールが、受信した第１の音声情報と受信した第２の音声情報が同じユーザからのものであるかどうかを判定することは、継続会話意図判定モジュールが、第１の音声情報及び第２の音声情報を受信するときに、ユーザの顔特徴情報に基づいて、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定することを含む。

可能な設計では、継続会話意図判定モジュールは、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであることを判定した後、ユーザの顔の向きがプリセット閾値を満たすかどうかをさらに判定する。

可能な設計では、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することは、音声インターフェースの視覚中心点とカメラ位置との間のオフセットを判定することと、オフセットに基づいて、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することとを含む。

可能な設計では、端末は、音声対話インターフェース表示モジュールをさらに含み、音声対話インターフェース表示モジュールは、端末が音声対話作業状態に移行した後、第１の音声対話インターフェースを表示し、端末が第１の音声情報の処理結果を出力した後、第２の音声対話インターフェースを表示するように構成されている。第１の音声対話インターフェースは、第２の音声対話インターフェースとは異なる。

第３の態様によれば、本出願の一実施形態は、インテリジェント音声対話を実施するための会議システムを提供する。会議システムは、上記の態様における任意の端末及び少なくとも１つのサーバを含む。端末は、インテリジェント音声対話を実施するために、ネットワークを介して少なくとも１つのサーバに接続される。サーバは、声紋認識サーバ、顔認識サーバ、音声認識及び意味理解サーバ、音声合成サーバ、及びセッション意図認識サーバを含む。

第４の態様によれば、本出願の実施形態は、プロセッサ及びメモリを含むチップを提供する。メモリは、コンピュータ実行可能命令を記憶するように構成されており、プロセッサは、メモリに接続される。チップが動作するときに、プロセッサは、メモリに記憶されたコンピュータ実行可能命令を実行し、チップが前述のインテリジェント音声対話方法のいずれかを実行することを可能にする。

第５の態様によれば、本出願の実施形態は、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、命令を記憶し、命令がコンピュータ上で動作するときに、コンピュータは、前述のインテリジェント音声対話方法のいずれかを行うことが可能となる。

第６の態様によれば、本出願の一実施形態は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、命令を含み、命令がコンピュータ上で実行するときに、コンピュータは、前述のインテリジェント音声対話方法のいずれかを行うことが可能になる。

追加的に、第２の態様から第６の態様までの設計によってもたらされる技術的効果については、第１の態様における異なる設計方法によってもたらされる技術的効果を参照のこと。詳細は、ここでは再度説明しない。

上記で提供されたインテリジェント音声対話のためのデバイス、コンピュータ記憶媒体、コンピュータプログラム製品、チップ、又はシステムのうちのいずれか１つが、上記で提供された対応する方法を実施するように構成されていることが理解されよう。したがって、デバイス、コンピュータ記憶媒体、コンピュータプログラム製品、チップ、又はインテリジェント音声対話のためのシステムによって達成することができる有益な効果については、対応する方法の有益な効果を参照し、詳細は、ここでは再度説明しない。

本発明の一実施形態による音声対話を実施するためのシステムの概略図である。本発明の一実施形態による音声対話方法の概略フローチャートである。本発明の一実施形態による音声情報の送信者が同じであるかどうかを判定する一実施形態の概略図である。本発明の一実施形態によるユーザの顔の向きを計算するときに、方向ずれを考慮するためのアルゴリズムの概略図である。本発明の一実施形態による音声対話プロセスにおける対話インターフェース変更の一実施形態の概略図である。本発明の一実施形態に係るインテリジェント端末デバイスの概略図である。本発明の一実施形態による別のインテリジェント端末デバイスの概略図である。

以下、当業者の理解を容易にするために、本出願の実施態様におけるいくつかの用語を説明する。

図１は、本発明の一実施形態による音声対話を実施するためのシステム１００の概略図である。システムは、音声端末１０１、声紋認識サーバ１０２、顔認識サーバ１０３、音声認識及び意味理解サーバ１０４、音声合成サーバ１０５、並びにセッション意図認識サーバ１０６を含む。インテリジェント音声端末１０１は、サーバ１０２～１０６にネットワークを介して接続されており、ネットワーク要素の機能を以下に説明する。

端末１０１は、音声収集、画像収集、ウェイクアップ検出、会話管理、制御管理、状態指示、音再生、及びコンテンツ表示などの機能を担当する。

具体的には、端末１０１は、インテリジェント音声端末であってもよいし、ユーザによって開始された音声対話指示、例えば、ユーザが言ったウェイクアップ・キーワード、音声対話を開始するためのボタン、又はユーザによって事前に定義されたいくつかの音もしくは動作を検出してもよい。端末は、ユーザによって開始された音声対話指示に応答し、音声対話動作状態に移行する。音声対話を開始するためのウェイクアップ・キーワードの純粋な検出などの指示とは異なり、音声対話動作状態、又は音声対話会話状態と呼ばれるものは、端末１０１が受信した音声情報を処理し、対応する処理結果又は動作を出力するために様々な処理リソースを呼び出すことができる状態である。端末デバイス１０１は、ユーザによって送信された第１の音声情報を受信した後、例えば、ユーザの質問に答える、会議に参加したり、マイクの電源を入れたりするなどの動作をトリガするなど、第１の音声情報の処理結果を出力する。端末１０１は、第１の音声情報に対応する命令を実行した後、ユーザが会話を継続する意図があるかどうかをさらに判定することができる。具体的には、端末１０１は、第２の音声情報を受信したときに、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであると判定し、第２の音声情報の処理結果を出力することができる。端末１０１は、送信者が異なるユーザであると判定した場合、音声対話動作状態を終了する。送信者が同じユーザであるかどうかを判定する方法は、顔認識、話者の方向及び／又は距離、及びユーザの音声特徴などの情報に基づいて完了させることができる。端末１０１は、ユーザが現在のセッションに焦点を合わせており、会話を継続する意図があるかどうかをさらに判定することができる。例えば、端末１０１は、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定し、顔の向きがプリセット閾値を満たした後にのみ、第２の音声情報の処理結果を出力する。さもなければ、端末１０１は、音声対話動作状態を終了する。さらに、端末１０１は、音声対話インターフェースの投影及びスクリーンカメラの投影が法線方向に重ならないときに、ユーザの顔の向きを判定する際のずれを考慮する。具体的には、ユーザの顔の向きが判定されるときに、端末のディスプレイスクリーンが比較的広い場合、音声アシスタントインターフェースの視覚中心位置の投影とカメラ位置の投影は、法線方向に重ならないことがある。この場合、ユーザが音声アシスタントインターフェースを見たときに、カメラに対して顔の向きがずれることがある。換言すれば、カメラは、ユーザがスクリーンにまっすぐに向かないが、ユーザが実際に音声アシスタントインターフェースに顔を向け、会話に従事していると考えることができる。したがって、カメラがユーザの顔の向きを判定するための中心位置として使用されるときに、ずれを考慮する必要がある。

端末１０１は、さらに、異なるＵＩインターフェースを介して現在の動作状態をユーザにプロンプトする、例えば、音声対話動作状態に移行したときに、第１の音声対話インターフェースを提示することができる。端末１０１は、第１の音声情報の処理結果を出力した後、例えば、第１の音声インターフェースとは異なる、より簡単な第２の音声インターフェースである音声インターフェースを提示する。端末１０１は、ユーザが会話を継続する意図がないと判定した後、すべての音声対話インターフェースをキャンセルする。

端末１０１は、スマートフォン、スマートホーム製品（例えば、スマートスピーカ）、スマート車載デバイス、スマートウェアラブルデバイス、スマートロボット、会議端末などであってもよく、これは妥当である。音声対話プロセスで端末１０１によって必要とされる機能は、端末１０１をネットワークを介して関連サーバに接続することによって実施することができる、すなわち、端末１０１はサーバ１０２～１０６と通信接続して動作することができると理解されよう。代替的に、端末１０１自体は、本発明のこの実施形態において、全てのインテリジェントな音声対話を実施するために必要とされる全ての機能又はいくつかの機能を統合してもよい。追加的に、サーバ１０２～１０６は、機能の観点から見た単なる例示の分割に過ぎない。実施態様において、サーバ１０２～１０６は、異なる機能の組み合わせを有するか、又は端末に対して別のサービスを提供してもよい。

声紋認識サーバ１０２は、端末１０１によって収集された音声データに基づいて話者の声紋モデルを生成し、話者の声紋比較を行い、話者の同一性を確認する。声紋認識サーバ１０２は、結果を意図認識サーバ１０６に返す。

顔認識サーバ１０３は、音声端末によって収集された画像内の顔を検出し、さらに顔の向きを計算し、ユーザ同一性認識を行うことができる。顔認識サーバ１０３は、結果を意図認識サーバ１０６に返す。

音声認識及び意味理解サーバ１０４は、端末によって収集されアップロードされた音声信号をテキスト及び意味に変換し、テキスト及び意味を処理のために端末１０１又は他のサーバに送信する。

音声合成サーバ１０５は、端末１０１がブロードキャストするために拡声器に要求するテキストを音声に合成し、端末１０１に音声を送信し返す。

セッション意図認識サーバ１０６は、声紋認識サーバ、顔認識サーバ、赤外線センシングデバイス及び端末上のマイクロホンアレイから返された情報（声紋、顔、音源方向及び／又は話者の距離）を受信する。セッション意図認識サーバ１０６は、話者が通話を継続する意図があるかどうかを総合的に判定し、端末１０１に結果を送信する。

本発明の本実施形態において音声対話を実施するためのシステムは、音声対話プロセスにおいて話者の会話意図認識を強化することにより、セッション後にユーザが再度ウェイクアップ・キーワード（又は別のウェイクアップ方式）を言うことなく、音声コマンドをシステムに連続的に送信することができることをサポートする。例えば、システムは、話し続ける人が同じ話者であるかどうかを判定することによって、受信した音声情報に応答し続けるかどうかを判定する。これは、音声対話プロセスにおける冗長なウェイクアップを効果的に低減する。同時に、別の人が話者を中断するとき、又は話者が別の人と通信するときに発生する音声信号は、インテリジェントにフィルタアウトされる。これは、システムの誤った応答を効果的に低減し、音声対話の滑らかさ及び正確さを改善し、ユーザ体験を改善する。この実施形態のシステムは、さらに、カメラを使用して顔の向きを収集して、ユーザの意図であって、会話を継続する意図を判定し、話者の意図であって、会話を継続する意図の認識精度が改善されるようにする。この実施形態のシステムは、第１のセッション（第１のセッションの後の適切な遅延を含んでもよい）が終了した後に、既存のインタラクティブインターフェースに、ＵＩインターフェース、例えば、半ウェイクアップ（ウェイクアップ遅延）状態ＵＩを追加することをサポートする。これは、インターフェースの単純さを保証し、干渉を低減し、また、システムの現在の動作状態をユーザに効果的に通知することができる。本発明のこの実施形態では、音声－テキスト変換又は意味分析は、ユーザの意図であって、会話を継続する意図（話者認識及び顔の向き認識）を認識した上で行われる必要はないことに留意されたい。したがって、展開及び実施は比較的容易である。

本発明の一実施形態は、さらに、図１のシステムに基づく音声対話方法を提供する。図２に示すように、本方法は、以下のステップを含む。

Ｓ２０１：音声対話開始指示を検出する。

音声対話開始指示はまた、音声対話状態に移行するために端末をウェイクアップする指示と呼ばれてもよい。上述のように、音声対話開始指示は、複数の形式、例えば、ユーザが言ったウェイクアップ・キーワード「ミーティング」、音声対話を開始するためにユーザがクリックしたボタン、又は別のユーザが予め定義した音声を有してもよい。

Ｓ２０２：端末は、音声対話開始指示に応答して、音声対話動作状態に移行する。

ユーザは、ウェイクアップ・キーワード「ミーティング」又は「ハイ、スコッティ」を言う。システムは、ウェイクアップ・キーワードを検出した後、応答プロンプトトーンを再生し、音声命令リスニング状態（音声対話動作状態の一種でもある）に移行する。端末はさらに、スクリーン上に音声アシスタントユーザインターフェースを表示することができる。インターフェースは、コマンドプロンプト情報及び音声システムステータス指示などのコンテンツを含む。端末は、ＡＳＲサービス、ＮＬＰサービス、及び会話管理機能を介してユーザと対話することができる。ＡＳＲは自動音声認識であり、ＮＬＰは自然言語処理である。

Ｓ２０３：端末は、第１の音声情報を受信し、第１の音声情報に対する処理結果を出力する。

次に、ユーザは「会議に参加する」などの音声命令を言う。音声信号が認識（ローカルに認識又は音声認識サーバに送信）され、認識結果が返される。会議端末は、返された結果に基づいて、会議に参加するタスクを行う。

会議端末が返された結果に基づいて会議に参加するタスクを行った後、現在のセッションがすぐに終了しないことがある、つまり、所与の遅延があり得る。ユーザは直ちに新しい命令を再度送信することができ、遅延は通常比較的短く、例えば５秒であるため、セッション意図判定状態（例えば、半ウェイクアップ状態）に直ちに移行する必要はない。このセッションは遅延終了後に終了すると考えられ得る。

Ｓ２０４：端末は、第２の音声情報を受信し、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定し、送信者が同じユーザであると判定した場合、端末は、第２の音声情報に応答して、処理結果を出力するか、又は送信者が異なるユーザであると判定した場合、端末は、音声対話動作状態を終了する。

端末が第１の音声情報の処理結果を出力した後（又は、特定の遅延後）、端末は、セッション意図判定状態（例えば、半ウェイクアップ状態）に移行する。この場合、端末によって送信される第２の音声情報が受信される。会議に参加する別の人を招待する必要がある場合、ユーザは、再度ウェイクアップ・キーワードを示さずに「ＺｈａｎｇＳａｎを呼ぶ」と直接言うことができる。端末会話意図認識サーバは、話者の同一性に基づいて、又はさらに顔の向きに基づいて、音声命令が音声アシスタントに送信されると判定する。この場合、端末は認識のために音声認識サーバに音声セグメントを送信し、通常の会話フローを開始する。

図３は、本発明の一実施形態による第２の音声情報の送信者と第１の音声情報の送信者が同じであるかどうかを判定する実施形態の概略図である。

Ｓ２０４１：端末が、第２の音声信号を検出する。

任意選択で、ウェイクアップ・キーワードを検出する場合、端末は、確実に音声対話動作状態に再度移行することができる。

送信者が同じ人であるかどうかを判定するための方法は、音声特徴情報を比較すること、例えば、声紋を比較することであり得る。具体的には、第１の音声信号を受信するときに、ユーザは、第１の音声信号の音声特徴情報、例えば、声紋情報を取得する。第２の音声情報を受信した後、第２の音声情報の音声機能も比較のために抽出される。所与の閾値が満たされた場合、送信者が同じユーザであると判定される。送信者が異なるユーザである場合、音声対話動作状態は終了される。この場合、話者が会議に参加した後、話者の周囲で別の人が話をし（ウェイクアップ・キーワードを除く）、話者継続会話意図認識サーバは、話者が前回のセッションの話者と同じ人ではないことに基づいて、話者が会話を継続する意図がないと判定し、話者継続会話意図認識サーバは話者に応答しない。

任意選択で、第２の音声信号を検出するときに、端末は、話者と端末との間の距離、及び話者の方向であって、端末に対する方向を検出するために赤外線センシングを使用することによって、送信者が同じ人であるかどうかを判さらに判定してもよい。代替的には、端末は、顔認識を通して、送信者が同じユーザであるかどうかを判定する。第１の音声信号を受信するときに、ユーザはまた、第１の音声信号の送信者の距離情報又は顔情報を取得することも理解されよう。したがって、第１の音声信号の送信者の距離情報又は顔情報を、第２の音声信号の送信者の距離情報又は顔情報と比較して、送信者が同じユーザであるかどうかを判定する。

Ｓ２０４２：顔の向きを検出する。会議に参加した後、ユーザが別の音声指示を送信する必要がなくてもよく、近くの同僚と話すことを望む場合、ユーザは同僚に顔を向け、通常は同僚と話すことができる。この場合、ユーザがスクリーンにまっすぐに顔を向けるかどうかは、顔の向きを通してさらに判定されて、ユーザのセッション意図を判定することができる。例えば、判定は、ユーザの顔の向きのずれの角度を計算することによって、又は頭姿勢推定（ＨｅａｄＰｏｓｅＥｓｔｉｍａｔｅ、ＨＰＥ）技術を通して行われる。具体的には、人の頭の向きの問題は、コンピュータビジョンとパターン認識の方法を通してデジタル画像において判定され、頭の姿勢方向パラメータ、すなわち頭の位置パラメータ（ｘ，ｙ，ｚ）と方向角パラメータ（Ｙａｗ，Ｐｉｔｃｈ，Ｒｏｌｌ）は、空間座標系に基づいて認識される。異なる推定結果に基づいて、推定は離散粗頭姿勢推定（単一画像）と連続微細頭姿勢推定（ビデオ）に分類される。本発明のこの実施形態では、詳細は、ここでは説明しない。顔の向きの検出結果が指定された閾値要件を満たさない場合、会話意図認識サーバは、ユーザが会話を継続する意図がないと判定してもよく、システムは、話者に応答しない、すなわち、システムは、音声対話動作状態を終了する。

本発明の本実施形態における音声対話を実施するための方法は、音声対話プロセスにおいて話者の会話意図認識を強化することにより、セッション後にユーザがウェイクアップ・キーワード（又は別のウェイクアップ方式）を再度言うことなく、音声コマンドをシステムに連続的に送信することができることをサポートする。例えば、受信した音声情報が応答され続けるかどうかは、話し続ける人が同じ話者であるかどうかを判定することによって決定される。これは、音声対話プロセスにおける冗長ウェイクアップを効果的に低減する。別の人が話者を中断したとき、又は話者が他の人と会話したときに生成される音声信号は、インテリジェントにフィルタアウトされる。これは、システムの誤った応答を効果的に低減し、音声対話の滑らかさ及び正確さを改善し、ユーザ体験を改善する。

この実施形態のシステムは、さらに、カメラを使用して顔の向きを収集し、ユーザの意図であって、会話を継続する意図を判定し、話者の意図であって、会話を継続する意図の認識の精度が改善されるようにする。本発明のこの実施形態では、音声－テキスト変換又は意味分析は、ユーザの意図であって、会話を継続する意図の認識（話者認識及び顔の向き認識）の上で行われる必要はないことに留意されたい。したがって、展開及び実施は比較的容易である。

さらに、本発明のこの実施形態では、音声対話インターフェースの投影及びスクリーンカメラの投影のときに、ユーザの顔の向きを判定する際のずれが法線方向で重ならない。具体的には、一般的なアルゴリズムでは、ユーザの顔の向きを判定するために基準としてカメラを使用するため、端末の表示スクリーンが比較的広い場合、音声アシスタントインターフェースの視覚中心位置の投影とカメラ位置の投影は、法線方向に重ならない。この場合、ユーザが音声アシスタントインターフェースを視認する（会話意思を有する）場合、カメラに対する顔の向きがずれることがあり得る。すなわち、カメラは、ユーザがスクリーンにまっすぐ顔を向けていないと考えてもよい。したがって、カメラがユーザの顔の向きを判定するための中心位置として使用されるときに、ずれを考慮する必要がある。

この実施形態は、ユーザの顔の向きを検出し、ユーザの顔の向きが要件を満たすかどうかを判定するために使用される顔の向き補正アルゴリズムを提供する。カメラには、固定カメラと、パン－チルト－ズーム・パトロール・ターゲット・トラッキング・カメラを備えたカメラの２つのケースがあります。投影が位置合わせされているときに、ユーザが視覚的な対話インターフェースにまっすぐ顔を向けている（すなわちカメラにまっすぐ顔を向けている）場合、パン－チルト－ズームカメラは角度ずれを発生させない。ユーザがカメラ（対話インターフェース）にまっすぐ顔を向けていない場合、カメラは、顔の向きアルゴリズムに基づいて、ユーザがスクリーンにまっすぐ顔を向けているかどうかを判定することができる。例えば、ユーザの顔の向きずれの角度（△＝ａ）を確認のために計算する。固定カメラの場合、ユーザ位置（音源）は、マイクロホンアレイによって位置付けられて、ユーザとマイクロホン音声受信点との間の接続線を形成することができる。その接続線と、ユーザ位置とカメラ位置との間の接続線は、包含角度を形成し、包含角度値は、ユーザの顔の向きが要件を満たすかどうかを判定するために使用される。

同様に、パン－チルト－ズームカメラの場合、音声アシスタントインターフェースの視覚中心位置（システムによって取得されてもよいし、音声アシスタントによって報告されてもよい）の投影とカメラ位置（固定的に構成されてもよい）の投影が、法線方向に位置合わせされていない場合、ユーザ位置と視覚中心位置との間の接続線、及びユーザ位置とカメラ位置との間の接続線が、包含角度を形成する。したがって、ずれ角度△を計算するときに、包含角度を考慮する必要がある。図４に示すように、以下が想定される。
ａは、顔画像の横方向（左右）のずれ角度に等しく（図中、顔が右向きの場合、ａの値は負の数であり、顔が左向きの場合、ａの値は正の数である）、
ｂは、スクリーンの法線方向と、話者の音源と音声アシスタントの視覚的焦点との間の接続線であって、水平面上にある投影面との間の包含角度に等しく（図において、顔が、音声アシスタントの視覚的焦点の法線の垂直面の右側にある場合、ｂの値は負の数である）、
ｃは、スクリーンの法線方向と、カメラと話者の顔との間の接続線の投影との間の包含角度に等しい（図において、顔が、カメラの中心の法線の垂直面の右側にある場合、ｃの値は負の数である）。

次に、顔の向きと、音声アシスタントの視覚的焦点方向との間のずれ角度で、ユーザがまっすぐに見える角度は、△２＝ａ＋（ｂ－ｃ）である。

ここで、ずれ角度△２は、音声インターフェースの視覚中心がカメラと位置合わせされていない場合を考慮して計算した顔の向きの補正値である。

本発明のこの実施形態の方法によれば、よりインテリジェントで効率的な音声対話を実施するために、会話中のユーザの顔の向きをより正確に検出することができる。特に、大画面の位置及び画面上の音声インターフェースの位置が柔軟に変化するシナリオにおいて、誤判定を低減するために、ユーザの意図であって、会話を継続する意図のより正確な認識を実施することができる。

図５に示すように、本発明は、音声対話インターフェースにおける変更の実施形態をさらに提供する。本発明のこの実施形態では、半ウェイクアップ状態指示インターフェースが、ユーザ対話インターフェースに追加される。ウェイクアップ・リスニング状態では、システムがウェイクアップ・キーワードを検出するときに、音声アシスタントユーザインターフェース（ＵＩ）（第１の音声インターフェース）がポップされる。画面に表示される情報は、コマンドプロンプトメッセージ、アナウンス、音声認識のテキスト結果、アシスタント動作状態のアニメーションアイコンを含む。現在のセッションが終了した後、システムは、半ウェイクアップ状態に移行し、インターフェースは完全には終了しないが、ユーザにシステムが半ウェイクアップ状態（ウェイクアップ遅延）であることを知らせるために、小さなアイコン（第２の音声インターフェース）に変更する。この場合、システムは、ユーザが会話を継続する意思を有するかどうかを判定する。半ウェイクアップ状態が終了した後、システムは、音声対話状態を完全に終了し、ウェイクアップ・リスニング状態に移行する。

この実施形態では、第１のセッション（第１のセッションの後の適切な遅延を含むことができる）が終了した後に表示されるＵＩインターフェース、例えば、半ウェイクアップ（ウェイクアップ遅延）状態ＵＩが、既存の対話インターフェースに追加される。これは、インターフェースの単純さを保証し、干渉を低減し、システムの現在の動作状態をユーザに効果的に通知することができる。

本発明の一実施形態は、端末デバイス６００をさらに提供する。図６に示すように、端末デバイスは、インテリジェントな音声対話を実施するための端末であり、音声対話モジュール６０１及び継続会話意図判定モジュール６０２を含む。以下、端末デバイス６００のモジュールの機能について具体的に説明する。

音声対話モジュール６０１は、インテリジェント音声対話を実施し、受信した音声情報に基づいてターゲット処理結果を出力するように構成されている。

継続会話意図判定モジュール６０２は、受信した第１の音声情報及び受信した第２の音声情報が同じユーザからのものであるかどうかを判定するように構成されている。第１の音声情報は、音声対話ユニットが音声対話開始指示に応答した後に受信した音声情報であり、第２の音声情報は、音声対話モジュール６０１が第１の音声情報に対する処理結果を出力した後に受信した音声情報である。

任意選択で、継続会話意図判定モジュール６０２は、第１の音声情報の特徴と第２の音声情報の特徴との比較結果に基づいて、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであるかどうかを判定する。

任意選択で、音声特徴情報は声紋モデル情報である。図６に示すように、この場合、継続会話意図判定モジュール６０２は、第１の音声情報の声紋と第２の音声情報の声紋とを取得し、比較を行い、それに応じて会話を継続するユーザの意思の判定結果として比較結果を使用するように別個に構成されている話者声紋生成ユニットと話者声紋比較ユニットとを含む。

任意選択で、継続会話意図判定モジュールは、第１の音声情報及び第２の音声情報を受信するときのユーザの方向情報又は距離情報に基づいて、第２の音声情報の送信者及び第１の音声情報の送信者が同じユーザであるかどうかを判定する。

任意選択で、継続会話意図判定ユニットは、ユーザの距離情報を検出するために赤外線センシングを使用するか、又はユーザの方向情報を検出するためにマイクロホンアレイを使用する。図６に示すように、この場合、継続会話意図判定モジュールは、端末が第１の音声情報と第２の音声情報を受信するときに、ユーザの方向情報及び距離情報を取得し、比較を行い、それに応じて会話を継続するユーザの意図の判定結果として、比較結果を使用するように別々に構成されている方向及び距離取得ユニットと方向及び距離比較ユニットを含む。

任意選択で、継続会話意図判定モジュールは、第１の音声情報及び第２の音声情報を受信するときにユーザの顔特徴情報に基づいて、第２の音声情報の送信者及び第１の音声情報の送信者が同じユーザであるかどうかを判定する。図６に示すように、この場合、継続会話意図判定モジュールは、端末が第１の音声情報と第２の音声情報を受信するときに、ユーザの顔情報を取得し、比較を行い、それに応じて、会話を継続するユーザの意図の判定結果として、比較結果を使用するように別々に構成されている顔特徴生成ユニットと顔フィーチャ比較ユニットを含む。

任意選択で、第２の音声情報の送信者と第１の音声情報の送信者が同じユーザであると判定した後、継続会話意図判定モジュールは、ユーザの顔の向きがプリセット閾値を満たすかどうかをさらに判定する。図６に示すように、この場合、継続会話意図判定モジュールは、音源位置決めユニットと顔検出ユニットを含む。音源位置決めユニットは、マイクロホンアレイを使用して、ユーザの位置（音源）又は音声方向を位置決めするように構成されている。顔検出ユニットは、ユーザの顔位置を検出するように構成されている。したがって、ユーザの顔の向きが計算される。具体的なアルゴリズムについては、前述の方法の実施形態のＳ２０４２の説明を参照のこと。詳細は、ここでは再度説明しない。ユーザの顔の向きが取得され、特定の閾値と比較され、比較結果が、それに応じて会話を継続するユーザの意図の判定結果として使用される。

任意選択で、ユーザの顔の向きがプリセット閾値を満たすかどうかが判定されるときに、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットがさらに考慮されてもよい。ユーザの顔の向きがプリセット閾値を満たすかどうかは、オフセットに基づいて判定され、判定結果は、それに応じて、会話を継続するユーザの意図の判定結果として使用される。

任意選択で、顔の向きが判定されるときに、ユーザが話をしているかどうかは、さらに、リップ動作検出ユニットによって検出されて、ユーザの意図であって、会話を継続する意図をさらに確認することができる。例えば、時には、ユーザの声が比較的低く、端末によって検出されないが、ユーザが有するリップモーションが検出される。同じユーザ及び顔の向き認識の前述の判定に加えて、端末は、ユーザが実際にさらなる会話を行っていることを判定し、音声対話状態を維持し、早期の終了を回避することができる。

任意選択で、端末は、端末が音声対話動作状態に移行した後、第１の音声対話インターフェースを表示し、端末が第１の音声情報の処理結果を出力した後、第２の音声対話インターフェースを表示するように構成されている音声対話インターフェース表示モジュール６０３をさらに含む。第１の音声対話インターフェースは、第２の音声対話インターフェースとは異なる。例えば、第２の音声インターフェースは、より単純であり、ユーザに干渉を生じさせない。

継続会話意図判定モジュールによって必要とされる様々な情報は、端末自体によって収集及び取得されてもよいし、ネットワーク又はケーブルを介して接続された関連デバイス又はサーバによって取得されてもよいと理解され得る。また、継続会話意図判定モジュール自体が、ネットワーク又はケーブルを介して接続されたデバイス又はサーバによって実施されてもよい。換言すれば、端末は、ユーザとの音声対話を行うためのインターフェースとしてのみ機能し、音声及び画像などのユーザ情報を収集することを担当し、処理された音声及び処理された画像情報を出力することを担当して、他の全ての機能をクラウド化する。

本出願のこの実施形態で提供される端末デバイスは、全ての前述の実施形態において方法を行うように構成されている。したがって、端末デバイスによって取得される技術的効果については、前述の方法の実施形態を参照し、詳細は、ここでは再度説明しない。

図６の「モジュール」又は「ユニット」は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、電子回路、１つ以上のソフトウェア若しくはファームウェアプログラムを実行するプロセッサ又はメモリ、組み合わせ論理回路、又は前述の機能を提供する別の構成要素であり得る。統合ユニット又はモジュールがソフトウェア機能ユニットの形態で実施され、独立した製品として販売又は使用される場合、統合ユニット又はモジュールは、コンピュータ可読記憶媒体に記憶され得る。

図７は、本出願の一実施形態による端末デバイス７００の概略構造図である。この構造は、プロセッサ７０１、メモリ７０２、トランシーバ７０３、ディスプレイ７０４、及び検出器７０５（マイクロホン、又はカメラ、赤外線検出デバイスなどをさらに含む）を含む。プロセッサ７０１は、メモリ７０２及びトランシーバ７０３に接続される。例えば、プロセッサ７０１は、バスを介してメモリ７０２及びトランシーバ７０３に接続されてもよい。

プロセッサ７０１は、前述の実施形態における対応する機能を実行するために、端末デバイス７００として構成され得る。プロセッサ７０１は、中央処理装置（英語：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、ネットワークプロセッサ（英語：ｎｅｔｗｏｒｋｐｒｏｃｅｓｓｏｒ、ＮＰ）、ハードウェアチップ、又はそれらの任意の組み合わせであってもよい。ハードウェアチップは、特定用途向け集積回路（英語：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）、プログラマブル論理デバイス（英語：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）、又はそれらの組み合わせであってもよい。ＰＬＤは、複雑なプログラマブル論理デバイス（英語：ｃｏｍｐｌｅｘｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＣＰＬＤ）、フィールドプログラマブルゲートアレイ（英語：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）、汎用アレイ論理（英語：ｇｅｎｅｒｉｃａｒｒａｙｌｏｇｉｃ、ＧＡＬ）、又はそれらの任意の組み合わせであってもよい。

メモリ７０２は、プログラムコードなどを記憶するように構成されている。メモリ７０２は、揮発性メモリ（英語：ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えばランダム・アクセス・メモリ（英語：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、略してＲＡＭ）を含むことができる。メモリ７０２はまた、不揮発性メモリ（英語：ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば、読み出し専用メモリ（英語：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、略してＲＯＭ）、フラッシュメモリ（英語：フｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（英語：ｈａｒｄｄｉｓｋｄｒｉｖｅ、略してＨＤＤ）、又はソリッドステートドライブ（英語：ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ、略してＳＳＤ）を含んでもよい。メモリ７０２は、前述のタイプのメモリの組み合わせをさらに含んでもよい。

検出器７０５は、マイクロホンなどの音声ピックアップデバイスを含み、ユーザによって送信された音声情報（例えば、第１の音声情報又は第２の音声情報）を処理のためにか、又は音場位置決めを実行するためにプロセッサに送信するように構成されている。検出器７０５は、カメラ及び赤外線センシングなどの測距デバイスをさらに含むことができる。検出器７０５は、ユーザ関連情報（顔、距離、方向など）を収集し、ユーザ関連情報を処理のためにプロセッサ７０１に送信する。

トランシーバ７０３（任意選択）は、通信モジュール又はトランシーバ回路であってもよく、前述の実施形態では、端末デバイスと各サーバなどの別のネットワークユニットとの間で、可能性のあるデータ又はシグナリングなどの情報の伝送を実施するように構成されている。

プロセッサ７０１は、図２～図５に示す方法の実施形態における動作を実行するために、プログラムコードを呼び出すことができる。

前述の実施形態の全て又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって実施され得る。本実施形態を実施するためにソフトウェアが使用されるときに、実施形態の全て又は一部は、コンピュータプログラム製品の形態で実施され得る。コンピュータプログラム製品は、１つ以上のコンピュータ命令を含む。コンピュータプログラム命令がロードされ、コンピュータ上で実行されるときに、本発明の実施形態による手順又は機能は、全て又は部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は別のプログラマブルデバイスであり得る。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又はコンピュータ可読記憶媒体を使用して送信されてもよい。コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、又はデータセンタから別のウェブサイト、コンピュータ、サーバ、又はデータセンタに、有線（例えば、同軸ケーブル、光ファイバ、又はデジタル加入者線（ＤＳＬ））又は無線（例えば、赤外線、無線、又はマイクロ波）方式で送信され得る。コンピュータ可読記憶媒体は、コンピュータにアクセス可能な任意の利用可能な媒体であり得る。例えば、コンピュータ命令は、磁気媒体（例えば、フロッピーディスク、ハードディスク、又は磁気テープ）、光媒体（例えば、ＤＶＤ）、又は半導体媒体（例えば、ソリッドステートドライブＳｏｌｉｄＳｔａｔｅＤｉｓｋ（ＳＳＤ））を介して記憶又は送信されてもよい。

前述の説明は、本発明の特定の実施形態に過ぎないが、本発明の保護範囲を制限することを意図するものではない。当業者が、本発明に開示された技術的範囲内で容易に理解することができる修正又は代替は、本発明の保護範囲に含まれるものとする。したがって、本発明の保護範囲は、請求項の保護範囲に従うものとする。

Claims

音声対話方法であって
端末によって、ユーザから、同じユーザからの第１の音声情報に対する第１の処理結果を出力した後に、第２の音声情報を受信することと、
前記端末によって、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットを判定することと、
前記端末によって、前記オフセットに基づいて、前記ユーザの顔の向きが前記ユーザの音源と前記視覚中心点の接続線を考慮したプリセット閾値を満たすかどうかを判定することと、
前記端末によって、前記ユーザの顔の向きが前記プリセット閾値を満たすときに、前記第２の音声情報に対する第２の処理結果を出力することと、を含む、方法。
前記端末によって、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することをさらに含む、請求項１に記載の方法。
前記端末によって、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することは、
前記端末によって、前記第１の音声情報と前記第２の音声情報を受信するときに、前記第１の音声情報の特徴と前記第２の音声情報の特徴を別々に取得することと、
前記端末によって、前記第１の音声情報の前記特徴と前記第２の音声情報の前記特徴との比較結果に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することと、を含む、請求項２に記載の方法。
前記第１の音声情報の特徴と前記第２の音声情報の特徴は、声紋モデル情報である、請求項２に記載の方法。
前記端末によって、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することは、
前記端末によって、前記第１の音声情報及び前記第２の音声情報を受信するときに、前記ユーザの方向情報又は距離情報を別々に取得することと、
前記端末によって、前記ユーザの前記方向情報又は前記距離情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することと、を含む、請求項２に記載の方法。
前記端末は、前記ユーザの前記距離情報を検出するために赤外線センシングを使用し、前記第１の音声情報及び前記第２の音声情報を受信するときに、前記ユーザの前記距離情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定するか、又は
前記端末は、前記ユーザの前記方向情報を検出するためにマイクロホンアレイを使用し、前記第１の音声情報及び前記第２の音声情報を受信するときに、前記ユーザの前記方向情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定する、請求項５に記載の方法。
前記端末によって、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することは、
前記端末によって、前記第１の音声情報と前記第２の音声情報を受信するときに、前記ユーザの顔特徴情報を別々に取得することと、
前記端末によって、前記ユーザの前記顔特徴情報を比較することによって、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することと、を含む、請求項２に記載の方法。
インテリジェント音声対話を実施するための端末であって、前記端末は、音声対話モジュールと、継続会話意図判定モジュールと、を含み、
前記音声対話モジュールは、ユーザから、同じユーザからの第１の音声情報に対する第１の処理結果を出力した後に、第２の音声情報を受信することを行うように構成されており、
前記継続会話意図判定モジュールは、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットを判定することと、前記オフセットに基づいて、前記ユーザの顔の向きが前記ユーザの音源と前記視覚中心点の接続線を考慮したプリセット閾値を満たすかどうかを判定することとを行うように構成されており、
前記音声対話モジュールは、前記ユーザの顔の向きが前記プリセット閾値を満たすときに、前記第２の音声情報に対する第２の処理結果を出力するように構成されている、端末。
前記継続会話意図判定モジュールが、
前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定するようにさらに構成されている、請求項８に記載の端末。
前記継続会話意図判定モジュールが、
前記第１の音声情報の特徴と前記第２の音声情報の特徴との比較結果に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定するようにさらに構成されている、請求項９に記載の端末。
前記第１の音声情報の特徴と前記第２の音声情報の特徴は、声紋モデル情報である、請求項９に記載の端末。
前記継続会話意図判定モジュールが、前記第１の音声情報のユーザと前記第２の音声情報のユーザが同じユーザであるかどうかを判定するように構成されていることは、
前記継続会話意図判定モジュールによって、前記第１の音声情報と前記第２の音声情報を受信するときに、前記ユーザの方向情報又は距離情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定することを含む、請求項９に記載の端末。
前記継続会話意図判定モジュールは、前記ユーザの前記距離情報を検出するために赤外線センシングを使用し、前記第１の音声情報及び前記第２の音声情報を受信するときに、前記ユーザの前記距離情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定するように構成されているか、または
前記継続会話意図判定モジュールは、前記ユーザの前記方向情報を検出するためにマイクロホンアレイを使用し、前記第１の音声情報及び前記第２の音声情報を受信するときに、前記ユーザの前記方向情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定するように構成されている、請求項１２に記載の端末。
前記継続会話意図判定モジュールが、前記第１の音声情報及び前記第２の音声情報を受信するときに、前記ユーザの顔特徴情報に基づいて、前記第２の音声情報のユーザと前記第１の音声情報のユーザが同じユーザであるかどうかを判定するようにさらに構成されている、請求項９に記載の端末。
インテリジェント音声対話を実施するための会議システムであって、前記会議システムは、請求項８～１４に記載のいずれかの端末と、少なくとも１つのサーバと、を含み、前記端末は、インテリジェント音声対話を実施するために、ネットワークを介して前記少なくとも１つのサーバに接続され、前記サーバは、声紋認識サーバ、顔認識サーバ、音声認識及び意味理解サーバ、音声合成サーバ、及びセッション意図認識サーバを含む、会議システム。
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、プロセッサが前記プログラムを実行して、請求項１～７のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行して、請求項１～７のいずれか一項に記載の方法を実施する、インテリジェント音声対話を実施するための端末。