JP2022528582A

JP2022528582A - ヒューマンマシン対話方法及び電子デバイス

Info

Publication number: JP2022528582A
Application number: JP2021572940A
Authority: JP
Inventors: 洪博宋; 成亜朱; ▲ウェイ▼斯石; 帥樊
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-06-13
Filing date: 2019-11-25
Publication date: 2022-06-14
Anticipated expiration: 2039-11-25
Also published as: US20220165269A1; CN110223697B; EP3985661B1; US11551693B2; EP3985661A1; CN110223697A; JP7108799B2; EP3985661A4; WO2020248524A1

Abstract

本発明の実施例は、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、一文である場合、組み合わせの語句に対応する回答命令を生成し、回答命令を、回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、を含むヒューマンマシン対話方法を提供する。さらに、全二重対話シーンでの不合理な句切れと対話での返信の冗長性の問題を解決するために、ヒューマンマシン対話システムを提供する。【選択図】図１

Description

本発明は、人工知能による音声対話分野に関し、特に、ヒューマンマシン対話方法及び電子デバイスに関する。

一般的な質問応答システムでは、通常、一文質問するとそれに一文応答するか、複数回のインタラクションが使用される。全二重インタラクションでは、人間同士の間で電話をするのと同じように、単に一問一答だけでなく、ユーザーが複数の言葉を発話した後、ロボットが一回回答すること、さらに、ロボットが能動的に質問をしてインタラクションに役立ち、リズム制御技術を採用して、ユーザーの言葉の量や内容に応じて自分の言葉の量を調節することができる効果を達成することを望んでいる。

出願人は、関連技術に少なくとも以下の問題があることを発見した。

１、見当違いな答えをする。既存のデバイスの応答結果によると、ユーザー端末に届く語句が連続的に放送され、ネットワークの遅延やサーバの処理の遅延が大きい場合、ユーザー端末に届いた応答は既に時効性を失っている。ユーザー端末に対する応答測定は完全にサーバで実現されるため、ユーザー端末は相対的な時間整合のポリシーを実現せず、特定の応答を選択的に破棄してサーバと同じセッション状態を維持することができない。ユーザーが既に次のラウンドの入力を開始していてるが、ユーザー端末がこの時点で複数の前に入力した内容を連続的に放送する場合、入出力が対応しないことになり、即ち、見当違いな答えをする状況になり、ユーザー体験が悪くなる。

２、不合理な句切れ。一方、ユーザーが話すリズムはシーンによって異なり、音響特徴だけで句切ると、ユーザーがまだ話し終わっていないのに対応する問題に対して事前に応答する状況や、ユーザーが話し終わった後に長時間待たなければならない状況になる。他方、アップロードされたオーディオが連続的ではなく、サーバは二つの文の間の実際の間隔時間を正確に判断できず、二つの文の間隔が長くなったのがネットワークの遅延によるものかどうかを判断できず、その結果、応答内容を合理的に決定できない状況になる。

本発明の目的は、少なくとも、回答が時効性を失うことにより入出力が対応しなくなり、上下オーディオの不連続により不合理な句切れとなり、応答内容を合理的に決定できないという従来技術の問題を解決することである。

第１態様では、本発明の実施例は、サーバに用いられるヒューマンマシン対話方法を提供し、このヒューマンマシン対話方法は、
ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせと語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプをユーザー端末に送信する、ステップと、を含む。

第２態様では、本発明の実施例は、ユーザー端末に用いられるヒューマンマシン対話方法を提供し、このヒューマンマシン対話方法は、
ユーザー入力の第１オーディオ及び第２オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む。

第３態様では、本発明の実施例は、サーバとユーザー端末とを含む音声対話プラットフォームに用いられるヒューマンマシン対話方法を提供し、このヒューマンマシン対話方法は、
ユーザー入力の第１オーディオ及び第２オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
サーバにおいては、前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、予め設定されたハートビート保護の時間範囲内に、後でユーザー端末ユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
サーバにおいては、少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとをユーザー端末に送信するステップと、
ユーザー端末ユーザー端末においては、サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む。

第４態様では、本発明の実施例は、サーバに用いられるヒューマンマシン対話システムを提供し、このヒューマンマシン対話システムは、
ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成する認識復号プログラムモジュールと、
前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを確定し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するショートスピーチ確定プログラムモジュールと、
少なくとも前記第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する語句判断プログラムモジュールと、を含む。

第５態様では、本発明の実施例は、ユーザー端末に用いられるヒューマンマシン対話システムを提供し、このヒューマンマシン対話システムは、
ユーザー入力の第１オーディオ及び第２オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするオーディオアップロードプログラムモジュールと、
サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するオーディオマッチングプログラムモジュールと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするヒューマンマシン対話プログラムモジュールと、を含む。

第６態様では、本発明の実施例は、サーバ及びユーザー端末を含む音声対話プラットフォームに用いられるヒューマンマシン対話システムを提供し、このヒューマンマシン対話システムは、
ユーザー端末からサーバにユーザー入力の第１オーディオ及び第２オーディオを連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするオーディオアップロードプログラムモジュールと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成する認識復号プログラムモジュールと、
サーバにおいては、前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するショートスピーチ確定プログラムモジュールと、
サーバにおいては、少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する語句判断プログラムモジュールと、
ユーザー端末においては、サーバから送信された回答命令と前記回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するオーディオマッチングプログラムモジュールと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合に、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするヒューマンマシン対話プログラムモジュールと、を含む。

第７態様では、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリ、とを含む電子デバイスを提供し、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、本発明のいずれかの実施形態におけるヒューマンマシン対話方法のステップが実行できるように、前記少なくとも１つのプロセッサよって前記命令を実行させる。

第８態様では、本発明の実施例は、コンピュータプログラムが記憶されている記憶媒体であって、当該プログラムがプロセッサによって実行されると、本発明のいずれかの実施例におけるヒューマンマシン対話方法のステップを実現する、ことを特徴とする記憶媒体を提供する。

本発明の実施例の有益な効果は、以下の通りである。ユーザーが先に発話した語句がショートスピーチであることを確保すると同時に、ハートビートイベントを利用して２つの文の時間間隔を処理し、２つの文が完全な語句に組み合わせできることを確保した後、全二重対話シーンでの不合理な句切れを回避する。オーディオの開始時点と終了時点を録音して、ユーザー入力のオーディオとサーバから返信された回答命令をマッチングさせ、ユーザーへの応答の正確さを保証する。その上で、異なるタイムオフセットを設定することにより、ユーザーと人工知能音声デバイスのインタラクションにおける異なる状況を処理し、全二重対話での返信の冗長性の問題を解決する。

本発明の実施例又は先行技術の技術方案をより明確に説明するために、以下は、実施例又は先行技術の説明で使用される図面を簡単に説明する。図面は本発明のいくつかの実施例にすぎず、当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。

本発明の一実施例によるサーバに用いられるヒューマンマシン対話方法のフローチャートである。本発明の一実施例によるユーザー端末に用いられるヒューマンマシン対話方法のフローチャートである。本発明の一実施例による音声対話プラットフォームに用いられるヒューマンマシン対話方法のフローチャートである。本発明の一実施例によるサーバに用いられるヒューマンマシン対話システムの構成図である。本発明の一実施例によるユーザー端末に用いられるヒューマンマシン対話システムの構成図である。本発明の一実施例による音声対話プラットフォームに用いられるヒューマンマシン対話システムの構成図である。

本発明の実施例の目的、技術方案及び利点をより明確にするために、以下、本発明の実施例の図面を参照しながら、本発明の実施例を説明する。説明される実施例は本発明の一部の実施例であり、全部の実施例ではない。本発明の実施例に基づいて、当業者が創造的な労働なしに得られる他の全ての実施例も本発明の保護範囲に含まれる。

図１は本発明の一実施例によるサーバに用いられるヒューマンマシン対話方法のフローチャートであり、
Ｓ１１：ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
Ｓ１２：第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断した場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
Ｓ１３：少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとをユーザー端末に送信するステップと、
を含む。

本実施形態において、既存のユーザーと人工知能デバイスの全二重対話には、以下のようなシーンがある。
ユーザー：私が聞きたいのは（短い停止）周杰倫の歌です。
人工知能音声デバイス：何を聞きたいですか？
人工知能音声デバイス：次にあなたのために周杰倫の稲香を再生します。
ユーザーが「私が聞きたいのは」と言ったのは不完全な文であるが、人工知能音声デバイスは「私が聞きたいのは」に返信し、一回の無意味な対話が増えている。この方法は、人工知能音声デバイスが、「私が聞きたいのは」という、少し停止している不完全な語句に対して、無意味な対話返信をすることを回避することができる。

ステップＳ１１では、同様に、ユーザーが私が聞きたいのは（短い停止）周杰倫の歌ですと発話した場合、「私が聞きたいのは」の後に短い停止があるため、これを第１オーディオとして確定し、「周杰倫の歌です」を第２オーディオとして確定する。サーバは、ユーザーが人工知能音声デバイスユーザー端末を介してアップロードした第１オーディオ「私が聞きたいのは」を受信し、第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを介して第１オーディオの第１認識結果を生成する。

ステップＳ１２では、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを確定する。録音長さと時間が正比例するため、受信したオーディオの大きさに基づいてオーディオの相対時間を計算し、さらに発話時間が短いオーディオをショートスピーチとして確定することができる。例えば、「私が聞きたいのは」はショートスピーチである。第１オーディオがショートスピーチであると確定された場合、ユーザー端末からアップロードされた第２オーディオを予め設定されたハートビート保護の時間範囲内に受信すると、「第１オーディオ」が言い終わってないことを示す。ここで、ハートビート保護の時間は、ネットワークプログラムのハートビート検出でよく使われている。ユーザー端末とサーバの間に一時的にデータのやりとりがない場合には、ハートビート検出で相手の生存を検出する必要がある。ハートビート検出は、ユーザー端末によって能動的に開始されてもよいし、サーバによって能動的に開始されてもよい。

ステップＳ１３では、少なくとも第１認識結果「私が聞きたいのは」と第２認識結果「周杰倫の歌です」の組み合わせ「私が聞きたいのは周杰倫の歌です」を言語モデルに送信することで、組み合わせられた語句が完全な一文であるかどうかを判断する。

言語モデルの判断により、「私が聞きたいのは周杰倫の歌です」が完全な一文であることが確定される。これにより、「私が聞きたいのは周杰倫の歌です」に対応する回答命令が生成される。回答命令を、回答命令のフィードバックタイムスタンプとともにユーザー端末に送信することで、ユーザー端末を介してヒューマンマシン対話を完了する。（フィードバックタイムスタンプは見当違いな答えをする問題を解決するために使用され、以下の実施例で説明する）

この実施形態から分かるように、ユーザーが先に発話した語句がショートスピーチであると判断された場合、ハートビートイベントを使用して二つの文の時間間隔を処理し、二つの文が完全な語句に組み合わせできることを確保することにより、全二重対話シーンでの不合理な句切れが解決される。

一実施形態として、本実施例では、組み合わせの語句が一文であるか否かを判断した後、さらに以下を含むことができる。
一文ではないと判断された場合、第１認識結果に対応する第１回答命令と第２認識結果に対応する第２回答命令とをそれぞれ生成し、第１回答命令及び第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。

本実施形態では、第１認識結果及び第２認識結果を同一の語句に組み合わせできない場合、この時、発話した二つの文の内容が関連していないため、不合理な句切れの問題につながることもない。さらに、第１認識結果に対応する第１回答命令及び第２結果に対応する第２回答命令をそれぞれ生成し、それぞれのフィードバックタイムスタンプとともにユーザー端末に送信する。

この実施形態によれば、２つの文が関連しない場合、ユーザーの各対話に対し、いずれも対応する回答があり、これにより、全二重対話の安定した実行が保証される。

いくつかの実施例では、本願はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含むサーバを提供する。前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを確定する。ショートスピーチであると判断した場合、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末するステップと、
が実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させる。

いくつかの実施例において、本願によるサーバの少なくとも一つのプロセッサはさらに以下のように構成される。
一文ではないと判断された場合、第１認識結果に対応する第１回答命令と第２認識結果に対応する第２回答命令とをそれぞれ生成し、第１回答命令及び第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。

図２は本発明の一実施例によるユーザー端末に用いられるヒューマンマシン対話方法のフローチャートであり、
Ｓ２１：ユーザー入力の第１オーディオ及び第２オーディオをサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
Ｓ２２：サーバから送信された回答命令と、回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
Ｓ２３：ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
を含む。

本実施形態では、既存のユーザーと人工知能デバイスの全二重対話は、さらに以下のようなシーンを有することができる。
ユーザー：私は歌が聞きたいです。
ユーザー：周杰倫の稲香。
人工知能音声デバイス：誰の歌を聞きたいですか？
人工知能音声デバイス：はい、あなたのために周杰倫の稲香を再生します。

ユーザーは一番目の文の返信後、さらに二番目の文を追加している。しかし、返信の順番が入力に対応しており、ユーザーが入力した文が速すぎるため、結果的に、ユーザーが入力した二番目の文が人工知能音声デバイスの一番目の文に対する応答になり、人工知能音声デバイスにより出力された一番目の文が冗長な返信になってしまう。本方法は、このような状況を回避するために、以下のように調整している。

ステップＳ２１では、同様に、ユーザーが、「私は歌が聞きたいです、周杰倫の稲香」と言うと、順次、サーバに連続して送信される。同時に、オーディオの開始時点及び終了時点が入力タイムスタンプとしてローカルに記録される。

ステップＳ２２では、ユーザーが発話した「私は歌が聞きたいです」、「周杰倫の稲香」はいずれも完全な語句であるため、サーバからフィードバックされた２つの回答命令とフィードバックタイムスタンプを受信する。本実施形態では、２つの完全な文が入力されるため、受信時には２つの命令がある。本方法で実施例１の語句を使用すると、受信時には１つの命令しかない。全二重対話であり、ユーザー端末はサーバから返される回答命令がどの入力語句に対応するかを知る必要があるため、前のタイムスタンプでマッチング対応を行う。

ステップＳ２３では、ユーザー端末の現在時刻に生じるオフセットは、具体的な状況に応じて調整することができる。例えば、全二重対話の場合、二種類のケースがある。

第１ケース、上記の例を参照すると、ユーザーが後に入力した二番目の文には、既に人工知能音声デバイスの第１返信語句の内容が暗黙的に含まれており、第１返信語句が無意味になる。つまり、二番目の発話を入力した後、一番目の発話にまだ回答していなくても、一番目の発話に返信する必要はない。このとき、タイムオフセットは、二番目の発話の入力時間に関連するように設定される。

第２ケース、「今何時ですか」「食事を注文してください」など、ユーザーが連続して入力した二つの発話は関係がない。この時、人工知能音声デバイスが順番に返信し、第１返信内容と第２返信内容は影響しない。

その上で、ユーザー入力の問題により、サーバの処理が複雑になり、時間がかかってしまう。または、ネットワークの変動により、サーバが回答命令を処理した後にユーザー端末に送信する時間が長く遅延されることなり（例えば２分間、全二重対話では、このような遅延返信はユーザー体験に大きな影響を与える）、これらの長く遅延された回答命令は無意味になってしまう。このとき、タイムオフセットは、予め設定された返信待ち時間と関連するように設定される（このタイプは一般的であり、具体的な実施形態については、説明を省略する）。

従って、異なる状況に対して、ユーザー端末の現在時刻に生じるオフセットに対して異なる設定することで、異なる状況に適応することができる。

ユーザー端末の現在時刻に生じるオフセットを第１ケースに設定することにより、タイムオフセットに基づいて、１番目の発話の回答命令がすでにタイムアウトしたと確定されると、１番目の発話の回答命令を破棄する。これにより、冗長な返信を回避することができる。

１、ユーザー：私は歌が聞きたいです。
２、ユーザー：周杰倫の稲香。
人工知能音声デバイス：誰の歌を聞きたいですか？（破棄、ユーザーに出力しない）
３、人工知能音声デバイス：はい、あなたのために周杰倫の稲香を再生します。

この実施形態から分かるように、オーディオの開始時点と終了時点を録音して、ユーザー入力のオーディオとサーバから返信される回答命令をマッチングさせ、ユーザーへの応答の正確さが保証される。その上で、異なるタイムオフセットを設定することにより、ユーザーと人工知能音声デバイスのインタラクションにおける異なる状況を処理し、全二重対話での返信の冗長性の問題を解決する。

いくつかの実施形態では、本願はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を備えるユーザー端末を提供する。メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
ユーザー入力の第１オーディオ及び第２オーディオをユーザー端末からサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
が少なくとも１つのプロセッサによって実行できるようにされている。

図３は本発明の一実施例による音声対話プラットフォームに用いられるヒューマンマシン対話方法のフローチャートであり、Ｓ３１：ユーザー入力の第１オーディオ及び第２オーディオをユーザー端末からサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
Ｓ３２：サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
Ｓ３３：サーバにおいては、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断した場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
Ｓ３４：サーバにおいては、少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
Ｓ３５：ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
Ｓ３６：ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと
を含む。

一実施形態として、本実施例では、組み合わせが一文であるか否かを判断した後、さらに、
一文ではないと判断された場合、サーバにおいては、第１認識結果に対応する第１回答命令と第２認識結果に対応する第２回答命令とをそれぞれ生成し、第１回答命令及び第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された第１回答命令、第２回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には回答命令をユーザーにフィードバックするステップと、
を含む。

本実施形態では、ユーザー端末とサーバを音声対話プラットフォームに適用し、一実施形態とする。具体的な実施ステップについては、上記実施例で説明されており、ここでは説明を省略する。

この実施形態から分かるように、ユーザーが先に発話した語句がショートスピーチであると判断された場合、ハートビートイベントを利用して二つの文の時間間隔を処理し、さらに二つの文が完全な語句に組み合わせできることを確定することで、全二重対話シーンでの不合理な句切れを解決する。オーディオの開始時点と終了時点を録音して、ユーザー入力のオーディオとサーバから返信される回答命令をマッチングさせ、ユーザーへの応答の正確さが保証される。その上で、異なるタイムオフセットを設定することにより、ユーザーと人工知能音声デバイスのインタラクションにおける異なる状況を処理し、全二重対話での返信の冗長性の問題を解決する。

いくつかの実施形態では、本願はさらに、サーバ及びユーザー端末を含み、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む音声対話プラットフォームを提供する。メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
ユーザー入力の第１オーディオ及び第２オーディオをステップと、サーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
サーバにおいては、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
サーバにおいては、少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
が少なくとも１つのプロセッサによって実行できるようにされている。

いくつかの実施例において、本願による音声対話プラットフォームの少なくとも一つのプロセッサはさらに以下のように構成される。
一文ではないと判断された場合、サーバにおいては、第１認識結果に対応する第１回答命令と第２認識結果に対応する第２回答命令とをそれぞれ生成し、第１回答命令及び第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザー端末においては、サーバから送信された第１回答命令、第２回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。

図４は本発明の一実施例によるヒューマンマシン対話システムの構成図であり、当該システムは上記いずれかの実施例のヒューマンマシン対話方法を実行することができ、端末に配置される。

本実施例によるヒューマンマシン対話システムは、認識復号プログラムモジュール１１と、ショートスピーチ確定プログラムモジュール１２と、語句判断プログラムモジュール１３と、を含むサーバに適用することができる。

ここで、認識復号プログラムモジュール１１は、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成する。ショートスピーチ確定プログラムモジュール１２は、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成する。語句判断プログラムモジュール１３は、少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。

さらに、組み合わせの語句が一文であるか否かを判断した後、語句判断プログラムモジュールは、さらに、
一文ではないと判断された場合、第１認識結果に対応する第１回答命令と第２認識結果に対応する第２回答命令とをそれぞれ生成し、第１回答命令及び第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。

図５は本発明の一実施例によるヒューマンマシン対話システムの構成図であり、当該システムは上記いずれかの実施例のヒューマンマシン対話方法を実行することができ、端末に配置される。

本実施例によるヒューマンマシン対話システムはユーザー端末に適用することができ、オーディオアップロードプログラムモジュール２１と、オーディオマッチングプログラムモジュール２２と、ヒューマンマシン対話プログラムモジュール２３と、を含む。

ここで、オーディオアップロードプログラムモジュール２１は、ユーザー入力の第１オーディオ及び第２オーディオをサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとする。オーディオマッチングプログラムモジュール２２はサーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。ヒューマンマシン対話プログラムモジュール２３は、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。

図６は本発明の一実施例によるヒューマンマシン対話システムの構成図であり、当該システムは上記いずれかの実施例のヒューマンマシン対話方法を実行することができ、端末に配置される。

本実施例によるヒューマンマシン対話システムは、サーバとユーザー端末を含む音声対話プラットフォームに適用され、オーディオアップロードプログラムモジュール３１と、認識復号プログラムモジュール３２と、ショートスピーチ確定プログラムモジュール３３と、語句判断プログラムモジュール３４と、オーディオマッチングプログラムモジュール３５と、及びヒューマンマシン対話プログラムモジュール３６と、を含む。

ここで、オーディオアップロードプログラムモジュール３１、ユーザー端末からサーバにユーザー入力の第１オーディオ及び第２オーディオを連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとする。認識復号プログラムモジュール３２、サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成する。ショートスピーチ確定プログラムモジュール３３は、サーバにおいては、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成する。語句判断プログラムモジュール３４は、サーバにおいては、少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。オーディオマッチングプログラムモジュール３５は、ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。ヒューマンマシン対話プログラムモジュール３６は、ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。

さらに、組み合わせが一文であるかどうかを判断した後に、ショートスピーチ確定プログラムモジュールは、さらに、一文ではないと判断された場合、サーバにおいては、第１認識結果に対応する第１回答命令と第２認識結果に対応する第２回答命令とをそれぞれ生成し、第１回答命令及び第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
オーディオマッチングプログラムモジュールは、ユーザー端末においては、サーバから送信された第１回答命令、第２回答命令とこれらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ヒューマンマシン対話プログラムモジュールは、ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。

本発明の実施例は更に非一時的なコンピュータ記録媒体を提供し、コンピュータ記録媒体には、上記のいずれかの方法の実施例におけるヒューマンマシン対話方法を実行可能なコンピュータにより実行可能な命令が記憶されている。

一実施形態として、本発明の非一時的なコンピュータ記録媒体には、コンピュータにより実行可能な命令が記憶されており、コンピュータにより実行可能な命令は以下のように設定されている。
ユーザー入力の第１オーディオ及び第２オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとする。
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、第１オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成する。
サーバにおいては、第１オーディオの開始時点及び終了時点に基づいて、第１オーディオがショートスピーチであるか否かを判断し、
ショートスピーチであると判断された場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成する。
サーバにおいては、少なくとも第１認識結果及び第２認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。

メモリは、不揮発性のコンピュータ可読記憶媒体であり、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラム及びモジュールを格納することに使用できる。例えば、本発明の実施形態におけるヒューマンマシン対話方法が対応するプログラム命令／モジュールである。不揮発性のコンピュータ可読記憶媒体に記憶するソフトウェアプログラム及び命令をプロセッサに実行されることにより前記方法の実施形態におけるヒューマンマシン対話方法を実現する。

不揮発性のコンピュータ可読記憶媒体は、ストレージプログラム領域及びストレージデータ領域を含む。ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とされるアプリケーションプログラムを記憶することができ、ストレージデータ領域は、ヒューマンマシン対話装置の使用に従って作成されたデータなどを記憶することができる。さらに、不揮発性のコンピュータ可読記憶媒体は、高速ランダムアクセスメモリを含むことができ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの不揮発性メモリを含むこともできる。ある実施形態では、不揮発性のコンピュータ可読記憶媒体は、プロセッサに対して遠距離配置されるメモリを含むものを選択することができる。これらのリモートメモリは、ネットワークを介してヒューマンマシン対話デバイスに接続できる。ネットワークは、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

本発明の実施形態は、電子デバイスを提供する。該電子デバイスは、少なくとも一つのプロセッサ、及び少なくとも一つの前記プロセッサに通信可能に接続されたメモリを含む電子デバイスであり、前記メモリは、少なくとも一つのプロセッサに実行されることができる命令が記憶され、前記命令が少なくとも一つのプロセッサに実行され、少なくとも一つの前記プロセッサに本発明の上記のいずれかの実施形態に記載のヒューマンマシン対話方法を実行させるようになる。

本発明の実施形態のユーザー端末は、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。

（１）モバイル通信デバイス：これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。

（２）ウルトラモバイルパソコンデバイス：これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、ｉＰａｄ（登録商標）などのＰＤＡ、ＭＩＤ及びＵＭＰＣデバイスなどを含む。

（３）ポータブルエンターテイメントデバイス：これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー（例えば、ｉＰｏｄ（登録商標））、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。

（４）ヒューマンマシン対話機能を備えたその他の電子デバイス。

最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。

上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。

上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス（パーソナルコンピュータ、サーバ又はネットワークデバイスなどである）に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims

サーバに用いられるヒューマンマシン対話方法であって、
ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
前記第１オーディオの開始時点及び終了時点に基づいて前記第１オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
を含むヒューマンマシン対話方法。
前記組み合わせの語句が一文であるか否かを判断した後、さらに、
一文ではないと判断された場合、前記第１認識結果に対応する第１回答命令と前記第２認識結果に対応する第２回答命令とをそれぞれ生成し、前記第１回答命令及び前記第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップを含む請求項１に記載のヒューマンマシン対話方法。
ユーザー端末に用いられるヒューマンマシン対話方法であって、
ユーザー入力の第１オーディオ及び第２オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
を含むヒューマンマシン対話方法。
サーバとユーザー端末とを含む音声対話プラットフォームに用いられるヒューマンマシン対話方法であって、
ユーザー入力の第１オーディオ及び第２オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
サーバにおいては、前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内に、ユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
サーバにおいては、少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻とのタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
を含むヒューマンマシン対話方法。
前記組み合わせが一文であるか否かを判断した後、更に、
一文ではないと判断された場合、サーバにおいては、前記第１認識結果に対応する第１回答命令と前記第２認識結果に対応する第２回答命令とをそれぞれ生成し、前記第１回答命令及び前記第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された第１回答命令、第２回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む請求項４に記載のヒューマンマシン対話方法。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを確定し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
が実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させるサーバ。
前記少なくとも一つのプロセッサにおいては、さらに、
一文ではないと判断された場合、前記第１認識結果に対応する第１回答命令と前記第２認識結果に対応する第２回答命令とをそれぞれ生成し、前記第１回答命令及び前記第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する、ように構成される請求項６に記載のサーバ。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含むユーザー端末であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
ユーザー入力の第１オーディオ及び第２オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
が実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させるユーザー端末。
サーバと、ユーザー端末と、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む音声対話プラットフォームであって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
ユーザー端末からサーバにユーザー入力の第１オーディオ及び第２オーディオを連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第１オーディオを受信し、前記第１オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第１オーディオの第１認識結果を生成するステップと、
サーバにおいては、前記第１オーディオの開始時点及び終了時点に基づいて、前記第１オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第２オーディオを受信すると、オーディオデコーダを利用して第２オーディオの第２認識結果を生成するステップと、
サーバにおいては、少なくとも前記第１認識結果及び前記第２認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と前記回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
が実行できるように前記少なくとも１つのプロセッサによって前記命令を実行させる音声対話プラットフォーム。
前記少なくとも一つのプロセッサは、さらに、
一文ではないと判断された場合、サーバにおいては、前記第１認識結果に対応する第１回答命令と前記第２認識結果に対応する第２回答命令とをそれぞれ生成し、前記第１回答命令及び前記第２回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信し、
ユーザー端末においては、サーバから送信された第１回答命令、第２回答命令とこれらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定し、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックする、ように構成される請求項９に記載の音声対話プラットフォーム。