JP7341323B2

JP7341323B2 - 全二重による音声対話の方法

Info

Publication number: JP7341323B2
Application number: JP2022513079A
Authority: JP
Inventors: ジャンカイデン、; ジンルイガン、
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-09-04
Filing date: 2019-11-25
Publication date: 2023-09-08
Anticipated expiration: 2039-11-25
Also published as: EP4027338A4; US12118993B2; EP4027338A1; WO2021042584A1; JP2022547418A; CN112447177A; CN112447177B; US20220293100A1

Description

本発明は、人工知能技術に関し、特に、全二重（ｆｕｌｌｄｕｐｌｅｘ）による音声対話の方法に関する。

従来の音声対話における全二重のインタラクションモード（ｉｎｔｅｒａｃｔｉｏｎｍｏｄｅ）は、ウェイクアップ状態で常に音声対話を実行できるモードである。半二重（ｈａｌｆｄｕｐｌｅｘ）のインタラクションモードに対する最も大きな相違としては、ユーザがより良く対話の自由度をコントロールし、随時に対話状態を中断して次のインタラクションを開始することができる。

しかしながら、従来の全二重による音声対話の方法には、少なくとも以下のような問題点がある。
先ずは、シーンの特定ができない。つまり、ユーザが現在所在するシーンに対応できない。ユーザがすでに２番目のトピックを開始しているが、システムでは、まだ１番目のトピックのロジックでユーザとのインタラクションがされている。それは、ネットワークの不安定などの要因により、インタラクション中にシステムからまだユーザにフィードバックがされていないが、この時、ユーザが既に次のトピックのインタラクションを開始したため、システムとユーザ間のインタラクションが同じトピックではないからかもしれない。
次に、区別ができない。つまり、ユーザの話速は様々であるが、全二重のインタラクションモードではユーザの話を途中まで理解した状態にもかかわらずインタラクションを始めることが多いため、インタラクションへのユーザ体験が悪化してしまう。これは、全二重とは、そもそも、ウェイクアップ状態で常に音声インタラクションが可能なモードに着目するものであるため、結果的に、発話内容へのマッチングが成立するといきなりにインタラクションを始めるからかもしれない。

本発明は、上記した問題点を解決するために、全二重による音声対話の方法およびそのシステムを提供する。

第１態様では、本発明の実施例は、音声対話端末に用いられる全二重による音声対話の方法を提供し、当該全二重による音声対話の方法は、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容を確定し、また、当該応答内容の確定のために分析されたオーディオの第１の時間長を確定するために、録音したオーディオ前記をクラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容と前記第１の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断するステップと、
前記第１の時間長と前記第２の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、を含む。

いくつかの実施例において、前記第１の時間長が前記第２の時間長よりも短い場合には、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、前記応答内容をユーザに提示し、
含まれている場合、前記応答内容を破棄し、前記クラウドサーバが新たな応答内容及び新たな第１の時間長を送信することを待つ。

いくつかの実施例において、オーディオの録音を開始した後、さらに、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声端点情報を照会する。

第２態様では、本発明はさらに、クラウドサーバに用いられる全二重による音声対話の方法を提供し、当該全二重による音声対話の方法は、
音声対話端末からアップロードされた録音オーディオを受信するステップと、
受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記応答内容と、前記応答内容の確定のために分析された録音オーディオの第１の時間長とを前記音声対話端末に送信するステップと、を含み、前記音声対話端末において、前記第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づいて前記応答内容をユーザに提示するか否かを確定する。

いくつかの実施例において、前記第１の時間長が前記第２の時間長より短く、且つ、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定し、
前記新たな応答内容と前記新たな第１の時間長を前記音声対話端末に送信する。

第３態様では、本発明の実施例はさらに、音声対話端末に用いられる全二重による音声対話のシステムを提供し、当該全二重による音声対話のシステムは、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と前記応答内容の確定のために分析されたオーディオの第１の時間長とを確定するために、録音したオーディオを前記クラウドサーバにアップロードするように構成されるオーディオアップロードプログラムモジュールと、
前記クラウドサーバから送信された前記応答内容と前記第１の時間長を前記音声対話端末が受信するように構成される受信プログラムモジュールと、
前記音声対話端末においては、前記第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断するように構成される判断プログラムモジュールと、
前記第１の時間長と前記第２の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するように構成される内容提示プログラムモジュールと、を含む。

いくつかの実施例において、音声端点照会プログラムモジュールは、
前記第１の時間長が前記第２の時間長よりも短い場合には、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、前記応答内容をユーザに提示し、
含まれている場合、前記応答内容を破棄し、前記クラウドサーバが新たな応答内容と新たな第１の時間長を送信することを待つように構成される。

いくつかの実施例において、オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定すると、更に、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声端点情報を照会するように構成される端点検出プログラムモジュールをさらに含む。

第４態様では、本発明はさらに、クラウドサーバに用いられる全二重による音声対話のシステムを含み、当該全二重による音声対話のシステムは、
音声対話端末からアップロードされた録音オーディオを受信するように構成される受信プログラムモジュールと、
受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するように構成される応答内容確定プログラムモジュールと、
前記音声対話端末において、第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づき、前記応答内容をユーザに提示するか否かを確定するように、前記応答内容と、前記応答内容の確定のために分析された録音オーディオの前記第１の時間長とを前記音声対話端末に送信するように構成される送信プログラムモジュールと、を含む。

いくつかの実施例において、前記応答内容確定プログラムモジュールはさらに、前記第１の時間長が前記第２の時間長より短く、且つ、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定するように構成され、
前記送信プログラムモジュールはさらに、前記新たな応答内容と前記新たな第１の時間長を前記音声対話端末に送信するように構成される。

第５態様では、本発明の実施例はさらに、実行命令を含む１つまたは複数のプログラムを記憶する記憶媒体を提供し、前記実行指令は、本発明の上記いずれかの全二重による音声対話の方法を実行するために、電子機器（コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない）によって読み取られて実行することができる。

第６態様では、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、本発明の上記いずれかの全二重による音声対話の方法が実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させる電子機器を提供する。

第７態様では、本発明の実施例はさらに、記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令がコンピュータによって実行されると、前記コンピュータに上記いずれかの全二重による音声対話の方法を実行させる。

本発明の実施例において、音声対話端末はクラウドサーバによって確定された応答内容を取得するだけでなく、クラウドサーバが当該応答内容の確定のために分析されるオーディオの時間長（即ち、第１の時間長）も取得し、そして、第１の時間長と第２の時間長とが一致すると確定した場合のみ、応答内容をユーザに提示する。これにより、クラウドサーバが応答内容を確定する根拠となる内容と音声対話端末からアップロードされた内容との一致性が確保され、正確な応答内容を提供することができる。

本発明の実施例の技術案をより明確に説明するために、以下、実施例の説明において使用される図面について簡単に紹介する。明らかに、以下の説明における図面は、本発明のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。

本発明の全二重による音声対話の方法の一実施例のフローチャートである。本発明の全二重による音声対話の方法の他の実施例のフローチャートである。本発明の全二重による音声対話の方法の別の実施例のフローチャートである。本発明の全二重による音声対話のシステムの一実施例の原理ブロック図である。本発明の全二重による音声対話のシステムの他の実施例の原理ブロック図である。本発明の電子機器の一実施例の構造概略図である。

本発明の実施例の目的、技術案及び利点をより明確にするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術案について明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。

なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。

本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージメディアに配置できる。

本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び／又はコンピュータであるが、これらに限定されない。また、サーバーで実行するアプリケーションプログラムやスクリプトプログラム、サーバーがコンポーネントと呼ばれることもできる。実行のプロセス及び／又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び／又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び／又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び／又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。

最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。

本発明は、音声対話端末およびクラウドサーバを含む全二重による音声対話のシステムを提供し、さらに音声対話端末およびクラウドサーバのそれぞれにおいて実行される全二重による音声対話の方法およびソフトウェアシステムを提供する。例えば、音声対話端末はスマートフォン、車載端末、スマートスピーカー、ストーリーマシン、対話機能が統合されたホーム家電製品（例えば、エアコン、冷蔵庫、レンジフード等）であってもよく、本発明はこれを限定しない。

図１に示すように、本発明の実施例は、音声対話端末に用いられ全二重による音声対話の方法を提供し、この方法は、以下のステップを含む。
ステップＳ１１、音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第１の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードする。
例えば、本発明における音声対話端末には、全二重による音声対話の方法を実現するＳＤＫが統合されている。音声対話端末が起動されるとＳＤＫが初期化され、全二重モードが自動的にオンになる。音声信号が検出されると録音機能がオンになり、録音したオーディオをリアルタイムでクラウドサーバにアップロードして分析処理を行う。
ステップＳ１２、クラウドサーバから送信された応答内容と第１の時間長を音声対話端末が受信する。
例えば、クラウドサーバは、受信した録音オーディオに対してリアルタイムの分析と処理を行う。取得された内容に基づいて完全なセマンティックが確定されると、当該完全なセマンティックに対応する応答内容を確定し、そのために分析した録音オーディオの時間長（第１の時間長）を記録する。
ステップＳ１３、音声対話端末においては、第１の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断する。
例えば、第２の時間長は、録音開始点から第１の音声終了端点までの時間長であってもよい（すなわち、音声対話端末からアップロードされたオーディオは、検出された第１の音声終了端点までの時間長である）。
ステップＳ１４、第１の時間長と第２の時間長が一致する場合、音声対話端末より応答内容をユーザに提示する。例えば、応答内容は、オーディオ、ビデオ、テキスト、画像などのうちの１つまたは複数の組み合わせであってもよい。

本発明の実施例における音声対話端末は、クラウドサーバで確定された応答内容を取得するだけでなく、クラウドサーバが当該応答内容の確定のために分析されるオーディオの時間長（即ち、第１の時間長）も取得し、そして、第１の時間長と第２の時間長（音声対話端末がウェイクアップされた時刻から現在時刻までオーディオをアップロードした時間長）が一致すると確定した場合にのみ、応答内容をユーザに提示する。これにより、クラウドサーバが応答内容を確定する根拠となる内容と、音声対話端末からアップロードされた内容との一致性が確保され、正確な応答を提供することができる。

例えば、音声対話端末はスマートスピーカーである。ユーザはスマートスピーカーに「私は聞きたいです、ＸＸＸの歌を」と言う。ネットワーク信号が不安定で、スマートスピーカーがこのセグメントのオーディオをクラウドサーバに送信した場合、「私は聞きたいです」に対応するオーディオセグメントが先にクラウドサーバに到着し、「ＸＸＸの歌を」が遅れて到着する。この遅延期間において、クラウドサーバは「私は聞きたいです」というオーディオに基づいてユーザが任意に一つの曲を聞きたいと理解し、ユーザのために任意に一つの曲を推薦してユーザにフィードバックする。明らかに、この推薦結果はユーザの本当の音楽聴取ニーズを満たすことができない。しかし、本発明の実施例によれば、明らかに、「私は聞きたいです」というオーディオの時間長と、「私は聞きたいです、ＸＸＸの歌を」の時間長とが一致しない。したがって、この結果を破棄し、新たな結果を待ち続けて、ユーザに提示される内容の正確性を確保することができる。

例えば、音声対話端末は、音声アシスタントを搭載したスマートフォンである。ユーザは北京から上海に出張して当日に到着する予定であり、今日の上海の天気を照会したいと思っている。ユーザは、スマートフォンの音声アシスタントに、「今日の天気はどうですか？上海の」と言う。明らかに、ユーザが表現したいのは「上海の今日の天気はどうですか？」であるが、場所を後にして説明を付け加えている。

クラウドサーバは、受信したオーディオ内容に基づいてリアルタイムで分析と処理を行い、セマンティックを理解するが、「今日の天気はどうですか？」はちょうど完全なセマンティックを表現しているため（スマート端末の位置情報に基づいてユーザが北京にいることを確定できる）、クラウドサーバは、まず応答内容として北京の天気状況を確定し、この応答内容及び「今日の天気はどうですか？」に対応する時間長をスマートフォンに送信する。

しかし、本発明の実施例において、スマートフォン側が情報を受信した後、さらに「今日の天気はどうですか？」に対応するオーディオ時間長と、記憶された「今日の天気はどうですか？上海の」のオーディオ時間長とを比較することで、二つの時間長がマッチングしないことを発見する。したがって、現在の応答内容を破棄し、新たな応答内容を待つことで、ユーザに提示される回答の正確性がさらに確保される。

いくつかの実施例において、第２の時間長は、音声対話端末がクラウドサーバから送信された情報（応答内容および第１の時間長）を受信する時点までの時間長（すなわち、クラウドサーバからの情報を受信した時に、既にアップロードされた録音オーディオの合計時間長）であってもよい。

第１の時間長が第２の時間長よりも短い場合には、第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容及び新たな第１の時間長を送信することを待つ。

本実施例によれば、応答内容を確定した後、応答内容を与える前にユーザが音声対話端末に新たな音声を入力したか否か、すなわちユーザが新たな質問をしたか否かを確定することができるため（新たな質問をした理由としては、１つは他の言い方を入力しただけで、もう１つは前の質問を放棄したいという２つが考えられる）、与えられる応答内容がユーザの現在のトピックに対応していることを確保できる。

例えば、音声対話端末は音声アシスタントを搭載したスマートフォンであり、ユーザは北京にいて、北京の今日の天気を照会しようと思って、ユーザはスマートフォンの音声アシスタントに対して「今日の天気はどうですか？……北京の今日の天気はどうですか？」という。明らかに、ユーザは最初の文を話した後に、言い方の異なる同じ意味の文を提供しただけである。

しかし、本発明の実施例ではスマートフォン側が情報を受信した後、「今日の天気はどうですか？」に対応するオーディオ時間長が第二の時間長より小さいため、現在の応答内容を破棄し、新たな応答内容（最初に確定した応答内容と同じ）を待ち続ける。これにより、確定した同じ応答内容を２回連続してユーザに提示して、ユーザに混乱を与え、ユーザ体験に影響を与えることを回避できる。

例えば、音声対話端末は、音声インタラクション機能を備える車載端末であり、ユーザが屋外での運転中に遭遇するネットワーク環境は不安定であるため、ユーザが車載端末と音声インタラクションをする時にタイムリーな応答を得られない可能性があり、また、通常は一定の時間長（例えば５秒）待つと前の１つまたは複数の質問を放棄して、新たな質問をする。従来技術では、信号が良好になった後、ユーザが提起した全ての問題を一括してユーザに提示し、ユーザはまた自分が提起した最新の問題に対応する応答内容を１つずつ閲覧して探し出す必要があり、ユーザ体験に深刻な影響を与える。

しかし、本発明の実施例では、応答内容を確定した後、応答内容を与える前のこの時間ノードにおいて、ユーザが音声対話端末に新たな音声を入力したかどうか、すなわちユーザが新たな質問をしたかどうかを確定するため、ユーザが現在本当に知りたいと思っている内容に強く応答し、音声インタラクションプロセスを最適化し、ユーザ体験を向上させることができる。

いくつかの実施例において、オーディオの録音を開始した後、さらに、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するステップにおいては、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会する。

いくつかの実施例において、本発明はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む音声対話端末であって、
メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第１の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードするステップと、
クラウドサーバから送信された応答内容と第１の時間長を音声対話端末が受信するステップと、
音声対話端末においては、第１の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断するステップと、
第１の時間長と第２の時間長が一致する場合、音声対話端末より応答内容をユーザに提示するステップと、
が実行できるように、少なくとも１つのプロセッサによって命令を実行させる音声対話端末を提供する。

いくつかの実施例において、本発明の音声対話端末の少なくとも１つのプロセッサは、さらに、
第１の時間長が第２の時間長よりも短い場合には、第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容と新たな第１の時間長を送信することを待つように構成される。

いくつかの実施例において、本発明の音声対話端末の少なくとも１つのプロセッサは、さらに、
オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するとは、更に、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会するように構成される。

図２に示すように、本発明はさらに、クラウドサーバに用いられる全二重による音声対話の方法であって、
音声対話端末からアップロードされた録音オーディオを受信するステップＳ２１と、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するステップＳ２２と、
音声対話端末において、第１の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第１の時間長とを音声対話端末に送信するステップＳ２３と、
を含む全二重による音声対話の方法を提供する。

いくつかの実施例において、第１の時間長が第２の時間長より短く、且つ、第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定し、
新たな応答内容と新たな第１の時間長を音声対話端末に送信する。

いくつかの実施例において、本発明はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含むクラウドサーバであって、
メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
音声対話端末からアップロードされた録音オーディオを受信するステップと、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
音声対話端末において、第１の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第１の時間長とを音声対話端末に送信するステップと、
が実行できるように、少なくとも１つのプロセッサによって命令を実行させるクラウドサーを提供する。

いくつかの実施例において、本発明のクラウドサーの少なくとも１つのプロセッサは、さらに、
第１の時間長が第２の時間長より短く、且つ、第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定し、
新たな応答内容と新たな第１の時間長を音声対話端末に送信するように構成される。

図３は、本発明の全二重による音声対話の方法の別の実施例のフローチャートである。この方法は、以下のステップを含む。
ステップ１では、まずＳＤＫを初期化し、ＷＡＫＥＵＰノード、ＶＡＤノード、対話識別ノード等などを初期化する。
ステップ２では、初期化が完了した後、全二重モードをオンにし、このモードで録音機能が常にオンになっており、ユーザが常に音声インタラクションを実行できることが保証される。
ステップ３では、録音機ノードをオンにし、ユーザの音声変化を継続的に傍受し、ユーザの音声をＳＤＫに入力し続ける。
ステップ４では、ユーザが音声でウェイクアップワードを入力し、音声インタラクションプラットフォームを成功的にウェイクアップし、インタラクションモードをオンにする。
ステップ５では、ステップ４のオーディオをＶＡＤノードに入力する。この時、ＶＡＤノードはオーディオ入力の合計時間長を記録し、人の音声発話の有無を継続的に判断し、人の音声発話の開始時点と人の音声発話の停止時点を保存する。
ステップ６では、ステップ４でキャッシュされたオーディオ入力をクラウドに送信する。
ステップ７では、クラウドが対話の結果を返した後、ローカルに記録されたオーディオの合計時間長とクラウドから返されたオーディオの合計時間長が一致するかどうかを判断する。一致する場合は、対話が整列していることを示し、正常に対話の結果をユーザに表示する。
ステップ８では、ローカルに記録されたオーディオの合計時間長がクラウドから返されたオーディオの合計時間長よりも長い場合、２つのオーディオ時間長が異なる時間内に人の声が検出されたか否かを判断する。人の声が検出されない場合には、ユーザが今回の対話結果を待っていることを説明し、正常に対話結果をユーザに表示する。
ステップ９では、ローカルに記録されたオーディオの合計時間長がクラウドから返されたオーディオの合計時間長より長い場合、２つのオーディオ時間長が異なる時間内に人の声が検出されたか否かを判断する。人の声が検出された場合、ユーザが今回のインタラクションの後にまた音声入力があることを示し、この時点でユーザがすでに新たなトピックを開始している可能性があり、今回の対話結果を破棄する。

本発明の実施例において、まず、インタラクション過程においてローカルとクラウドはインタラクションの時間長を保存し続け、クラウドが対話の結果を返すたびに、今回の対話の終了時点も含まれる。このとき、ローカルの時間とクラウドから返された時点と比較し、ローカルとクラウドの時間ノードの差が５秒を超えると、今回の対話結果を破棄して、ローカルとクラウドの同期が保証される。

次に、ＶＡＤ技術を利用して、第１のステップの上で、ユーザの音声入力を継続的に検出する。ローカルとクラウドの時間ノードが異なる時間内にユーザからの音声入力がある場合は、ユーザが今回のクラウドから返された結果の後にまた音声入力があることを示す。これにより、今回の対話結果をより正確に破棄することができる。ローカルとクラウドの時間ノードが異なる時間内にユーザからの音声入力がない場合、ユーザが前回のインタラクション結果をずっと待っていることを説明し、今回の対話結果は破棄されるべきではない。このポリシーを使用することで、ユーザと同じトピックでインタラクションすることを保証できる。

上記の各方法の実施例について、簡単に説明するために、一連の動作の統合として説明されているが、当業者は、説明されている動作の順序に限定されるものではなく、本願明細書に記載されているステップのいくつかは、本願明細書に記載されている他の順序を採用しても、同時に実施されてもよいからであることが認識されるであろう。次に、明細書に記載された実施の形態はいずれも好ましい実施の形態に属し、関連する動作およびモジュールは必ずしも本願に必須ではないことが当業者によって認識されるべきである。上記の各実施例に対する説明は、それぞれ独自の重点があり、ある実施例に詳細な説明がない場合は、他の実施例の関連部分を参照すればよい。

図４に示すように、本発明の実施例はさらに、音声対話端末に用いられる全二重による音声対話のシステム４００であって、
音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第１の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードするように構成されるオーディオアップロードプログラムモジュール４１０と、
クラウドサーバから送信された応答内容と第１の時間長を音声対話端末が受信するように構成される受信プログラムモジュール４２０と、
音声対話端末においては、第１の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断するように構成される判断プログラムモジュール４３０と、
第１の時間長と第２の時間長が一致する場合、音声対話端末より応答内容をユーザに提示するように構成される内容提示プログラムモジュール４４０と、
を含む全二重による音声対話のシステム４００を提供する。

いくつかの実施例において、音声端点照会プログラムモジュールは、
第１の時間長が第２の時間長よりも短い場合には、第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容と新たな第１の時間長を送信することを待つように構成される。

いくつかの実施例において、オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定すると、更に、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会するように構成される端点検出プログラムモジュールをさらに含む。

図５に示すように、本発明の実施例はさらに、クラウドサーバに用いられる全二重による音声対話のシステム５００であって、
音声対話端末からアップロードされた録音オーディオを受信するように構成される受信プログラムモジュール５１０と、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するように構成される応答内容確定プログラムモジュール５２０と、
音声対話端末において、第１の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第１の時間長とを音声対話端末に送信するように構成される送信プログラムモジュール５３０と、
を含む全二重による音声対話のシステム５００を提供する。

いくつかの実施例において、応答内容確定プログラムモジュールはさらに、第１の時間長が第２の時間長より短く、且つ、第２の時間長に対応する録音オーディオが第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定するように構成され、
送信プログラムモジュールはさらに、新たな応答内容と新たな第１の時間長を音声対話端末に送信するように構成される。

本発明の実施例はさらに、実行命令を含む１つまたは複数のプログラムを記憶する不揮発性コンピュータ読み取り可能な記憶媒体を提供する。実行命令は、本発明の上記いずれかの全二重による音声対話の方法を実行するために、電子機器（コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない）によって読み取られて実行することができる。

本発明の実施例はさらに、不揮発性コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記いずれかの全二重による音声対話の方法を実行させる。

本発明の実施例はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、全二重による音声対話の方法が実行できるように、少なくとも１つのプロセッサによって命令を実行させる電子機器を提供する。

本発明の実施例はさらに、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、全二重による音声対話の方法が実現されることを特徴とする。

上記本発明の実施例の全二重による音声対話のシステムは、本発明の実施例の全二重による音声対話の方法を実行するために用いることができ、それに応じて、上記本発明の実施例の全二重による音声対話の方法を実現する技術的効果を達成することができ、ここでは説明を省略する。本発明の実施例において、ハードウェアプロセッサ（ｈａｒｄｗａｒｅｐｒｏｃｅｓｓｏｒ）によって関連機能モジュールを実現することができる。

図６は、本発明の一実施例の全二重による音声対話の方法を実行する電子デバイスのハードウェアの構造の概略図である。この電子デバイス、音声対話の端末でもクラウドサーバでもよい。図６に示すように、デバイスは、一つ又は複数のプロセッサ６１０及びメモリ６２０を含み、図６には、一つのプロセッサ６１０を例とする。

全二重による音声対話の方法を実行するデバイスは、さらに入力装置６３０及び出力装置６４０を含む。

プロセッサ６１０、メモリ６２０、入力装置６３０及び出力装置６４０は、バスを介して接続されてもよいし、他の方法で接続されてもよく、図６では、バスを介した接続を例とする。

メモリ６２０は、不揮発性のコンピュータ可読記憶媒体であり、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラム及びモジュールを格納することに使用できる。例えば、本発明の実施形態における対話システムの間の全二重による音声対話の方法が対応するプログラム命令／モジュールである。プロセッサ６１０は、メモリ６２０に格納された不揮発性ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバーの様々な機能アプリケーション及びデータ処理を実行する。即ち、前記方法の実施形態における全二重による音声対話の方法を実現する。

メモリ６２０は、ストレージプログラム領域及びストレージデータ領域を含む。ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とされるアプリケーションプログラムを記憶することができ、ストレージデータ領域は、全二重による音声対話の装置の使用に従って作成されたデータなどを記憶することができる。さらに、メモリ６２０は、高速ランダムアクセスメモリを含むことができ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの不揮発性メモリを含むこともできる。ある実施形態では、メモリ６２０は、プロセッサ６１０に対して遠距離配置されるメモリを含むものを選択することができる。これらのリモートメモリは、ネットワークを介して全二重による音声対話の装置に接続できる。ネットワークは、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

入力装置６３０は、入力デジタル又は文字情報を受信し、全二重による音声対話の装置のユーザ設定及び機能制御に関連する信号を生成することができる。出力装置６４０は、表示画面などの表示装置を含むことができる。

一つ又は複数のモジュールがメモリ６２０に格納され、一つ又は複数のプロセッサ６１０に実行されると、上記の任意方法の実施形態の全二重による音声対話の方法を実行する。

上記の製品は、本発明の実施形態によって提供される方法を実行することができ、方法を実行するための対応する機能モジュール及び有利な効果を有する。本実施形態で詳細に説明されない技術的詳細については、本発明の実施形態が提供される方法を参照する。

本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。

（１）モバイル通信デバイス：これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン（例えば、ｉｐｈｏｎｅ（登録商標））、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。

（２）ウルトラモバイルパソコンデバイス：これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、ｉＰａｄ（登録商標）などのＰＤＡ、ＭＩＤ及びＵＭＰＣデバイスなどを含む。

（３）ポータブルエンターテイメントデバイス：これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー（例えば、ｉＰｏｄ（登録商標））、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。

（４）サーバー：コンピューティングサービスを提供するデバイスである。サーバーの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバー及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。

（５）データ交換機能を備えたその他の電子デバイス。

上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。

上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス（パーソナルコンピュータ、サーバー又はネットワークデバイスなどである）に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims

音声対話端末に用いられる全二重による音声対話の方法であって、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容を確定し、また、当該応答内容の確定のために分析されたオーディオの第１の時間長を確定するために、録音したオーディオを前記クラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容と前記第１の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断するステップと、
前記第１の時間長と前記第２の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、
を含み、
前記第１の時間長が前記第２の時間長よりも短い場合には、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定し、
含まれていない場合、前記音声対話端末により前記応答内容をユーザに提示し、
含まれている場合、前記音声対話端末により前記応答内容を破棄し、前記クラウドサーバが新たな応答内容及び新たな第１の時間長を送信することを待ち、
オーディオの録音を開始した後、さらに、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会する、
ことを特徴とする全二重による音声対話の方法。
クラウドサーバと音声対話端末によって実行される全二重による音声対話の方法であって、
前記クラウドサーバにより前記音声対話端末からアップロードされた録音オーディオを受信するステップと、
前記クラウドサーバにより受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記クラウドサーバにより前記応答内容と、前記応答内容の確定のために分析された録音オーディオの第１の時間長とを前記音声対話端末に送信するステップと、を含み、
前記音声対話端末において、前記第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づいて前記応答内容をユーザに提示するか否かを確定し、
前記音声対話端末が、前記第１の時間長が前記第２の時間長より短く、且つ、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれていると確定した場合、前記クラウドサーバにより前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定し、
前記クラウドサーバにより前記新たな応答内容と前記新たな第１の時間長を前記音声対話端末に送信し、
オーディオの録音を開始した後、さらに、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会する、
ことを特徴とする全二重による音声対話の方法。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む音声対話端末であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と前記応答内容の確定のために分析されたオーディオの第１の時間長とを確定するために、録音したオーディオを前記クラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容及び前記第１の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長とが一致するか否かを判断するステップと、
前記第１の時間長と前記第２の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、
が実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させ、
前記少なくとも一つのプロセッサは、さらに、
前記第１の時間長が前記第２の時間長よりも短い場合には、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定し、
含まれていない場合、前記音声対話端末により前記応答内容をユーザに提示し、
含まれている場合、前記音声対話端末により前記応答内容を破棄し、前記クラウドサーバが新たな応答内容と新たな第１の時間長を送信することを待つように構成され、
前記少なくとも一つのプロセッサは、さらに、
オーディオの録音を開始した後、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するとは、更に、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会するように構成される、
ことを特徴とする音声対話端末。
クラウドサーバと音声対話端末とを含むシステムであって、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
前記クラウドサーバにより前記音声対話端末からアップロードされた録音オーディオを受信するステップと、
前記クラウドサーバにより受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記音声対話端末において、第１の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第２の時間長との間の一致性に基づき、前記応答内容をユーザに提示するか否かを確定するように、前記クラウドサーバにより前記応答内容と、前記応答内容の確定のために分析された録音オーディオの前記第１の時間長とを前記音声対話端末に送信するステップと、
が実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させ、
前記少なくとも一つのプロセッサは、さらに、
前記音声対話端末が、前記第１の時間長が前記第２の時間長より短く、且つ、前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれていると確定した場合、前記クラウドサーバにより前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第１の時間長を確定し、
前記クラウドサーバにより前記新たな応答内容と前記新たな第１の時間長を前記音声対話端末に送信するように構成され、
前記少なくとも一つのプロセッサは、さらに、
オーディオの録音を開始した後、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第２の時間長に対応する録音オーディオが前記第１の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会するように構成される、
ことを特徴とするシステム。