JP7341323B2 - 全二重による音声対話の方法 - Google Patents

全二重による音声対話の方法 Download PDF

Info

Publication number
JP7341323B2
JP7341323B2 JP2022513079A JP2022513079A JP7341323B2 JP 7341323 B2 JP7341323 B2 JP 7341323B2 JP 2022513079 A JP2022513079 A JP 2022513079A JP 2022513079 A JP2022513079 A JP 2022513079A JP 7341323 B2 JP7341323 B2 JP 7341323B2
Authority
JP
Japan
Prior art keywords
time length
voice
audio
voice interaction
response content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022513079A
Other languages
English (en)
Other versions
JP2022547418A (ja
Inventor
ジャンカイ デン、
ジンルイ ガン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2022547418A publication Critical patent/JP2022547418A/ja
Application granted granted Critical
Publication of JP7341323B2 publication Critical patent/JP7341323B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、人工知能技術に関し、特に、全二重(full duplex)による音声対話の方法に関する。
従来の音声対話における全二重のインタラクションモード(interaction mode)は、ウェイクアップ状態で常に音声対話を実行できるモードである。半二重(half duplex)のインタラクションモードに対する最も大きな相違としては、ユーザがより良く対話の自由度をコントロールし、随時に対話状態を中断して次のインタラクションを開始することができる。
しかしながら、従来の全二重による音声対話の方法には、少なくとも以下のような問題点がある。
先ずは、シーンの特定ができない。つまり、ユーザが現在所在するシーンに対応できない。ユーザがすでに2番目のトピックを開始しているが、システムでは、まだ1番目のトピックのロジックでユーザとのインタラクションがされている。それは、ネットワークの不安定などの要因により、インタラクション中にシステムからまだユーザにフィードバックがされていないが、この時、ユーザが既に次のトピックのインタラクションを開始したため、システムとユーザ間のインタラクションが同じトピックではないからかもしれない。
次に、区別ができない。つまり、ユーザの話速は様々であるが、全二重のインタラクションモードではユーザの話を途中まで理解した状態にもかかわらずインタラクションを始めることが多いため、インタラクションへのユーザ体験が悪化してしまう。これは、全二重とは、そもそも、ウェイクアップ状態で常に音声インタラクションが可能なモードに着目するものであるため、結果的に、発話内容へのマッチングが成立するといきなりにインタラクションを始めるからかもしれない。
本発明は、上記した問題点を解決するために、全二重による音声対話の方法およびそのシステムを提供する。
第1態様では、本発明の実施例は、音声対話端末に用いられる全二重による音声対話の方法を提供し、当該全二重による音声対話の方法は、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容を確定し、また、当該応答内容の確定のために分析されたオーディオの第1の時間長を確定するために、録音したオーディオ前記をクラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容と前記第1の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、を含む。
いくつかの実施例において、前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、前記応答内容をユーザに提示し、
含まれている場合、前記応答内容を破棄し、前記クラウドサーバが新たな応答内容及び新たな第1の時間長を送信することを待つ。
いくつかの実施例において、オーディオの録音を開始した後、さらに、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声端点情報を照会する。
第2態様では、本発明はさらに、クラウドサーバに用いられる全二重による音声対話の方法を提供し、当該全二重による音声対話の方法は、
音声対話端末からアップロードされた録音オーディオを受信するステップと、
受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記応答内容と、前記応答内容の確定のために分析された録音オーディオの第1の時間長とを前記音声対話端末に送信するステップと、を含み、前記音声対話端末において、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づいて前記応答内容をユーザに提示するか否かを確定する。
いくつかの実施例において、前記第1の時間長が前記第2の時間長より短く、且つ、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信する。
第3態様では、本発明の実施例はさらに、音声対話端末に用いられる全二重による音声対話のシステムを提供し、当該全二重による音声対話のシステムは、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と前記応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオを前記クラウドサーバにアップロードするように構成されるオーディオアップロードプログラムモジュールと、
前記クラウドサーバから送信された前記応答内容と前記第1の時間長を前記音声対話端末が受信するように構成される受信プログラムモジュールと、
前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するように構成される判断プログラムモジュールと、
前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するように構成される内容提示プログラムモジュールと、を含む。
いくつかの実施例において、音声端点照会プログラムモジュールは、
前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、前記応答内容をユーザに提示し、
含まれている場合、前記応答内容を破棄し、前記クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成される。
いくつかの実施例において、オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定すると、更に、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声端点情報を照会するように構成される端点検出プログラムモジュールをさらに含む。
第4態様では、本発明はさらに、クラウドサーバに用いられる全二重による音声対話のシステムを含み、当該全二重による音声対話のシステムは、
音声対話端末からアップロードされた録音オーディオを受信するように構成される受信プログラムモジュールと、
受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するように構成される応答内容確定プログラムモジュールと、
前記音声対話端末において、第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、前記応答内容をユーザに提示するか否かを確定するように、前記応答内容と、前記応答内容の確定のために分析された録音オーディオの前記第1の時間長とを前記音声対話端末に送信するように構成される送信プログラムモジュールと、を含む。
いくつかの実施例において、前記応答内容確定プログラムモジュールはさらに、前記第1の時間長が前記第2の時間長より短く、且つ、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定するように構成され、
前記送信プログラムモジュールはさらに、前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信するように構成される。
第5態様では、本発明の実施例はさらに、実行命令を含む1つまたは複数のプログラムを記憶する記憶媒体を提供し、前記実行指令は、本発明の上記いずれかの全二重による音声対話の方法を実行するために、電子機器(コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない)によって読み取られて実行することができる。
第6態様では、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、本発明の上記いずれかの全二重による音声対話の方法が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させる電子機器を提供する。
第7態様では、本発明の実施例はさらに、記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令がコンピュータによって実行されると、前記コンピュータに上記いずれかの全二重による音声対話の方法を実行させる。
本発明の実施例において、音声対話端末はクラウドサーバによって確定された応答内容を取得するだけでなく、クラウドサーバが当該応答内容の確定のために分析されるオーディオの時間長(即ち、第1の時間長)も取得し、そして、第1の時間長と第2の時間長とが一致すると確定した場合のみ、応答内容をユーザに提示する。これにより、クラウドサーバが応答内容を確定する根拠となる内容と音声対話端末からアップロードされた内容との一致性が確保され、正確な応答内容を提供することができる。
本発明の実施例の技術案をより明確に説明するために、以下、実施例の説明において使用される図面について簡単に紹介する。明らかに、以下の説明における図面は、本発明のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。
本発明の全二重による音声対話の方法の一実施例のフローチャートである。 本発明の全二重による音声対話の方法の他の実施例のフローチャートである。 本発明の全二重による音声対話の方法の別の実施例のフローチャートである。 本発明の全二重による音声対話のシステムの一実施例の原理ブロック図である。 本発明の全二重による音声対話のシステムの他の実施例の原理ブロック図である。 本発明の電子機器の一実施例の構造概略図である。
本発明の実施例の目的、技術案及び利点をより明確にするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術案について明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージメディアに配置できる。
本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピュータであるが、これらに限定されない。また、サーバーで実行するアプリケーションプログラムやスクリプトプログラム、サーバーがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び/又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
本発明は、音声対話端末およびクラウドサーバを含む全二重による音声対話のシステムを提供し、さらに音声対話端末およびクラウドサーバのそれぞれにおいて実行される全二重による音声対話の方法およびソフトウェアシステムを提供する。例えば、音声対話端末はスマートフォン、車載端末、スマートスピーカー、ストーリーマシン、対話機能が統合されたホーム家電製品(例えば、エアコン、冷蔵庫、レンジフード等)であってもよく、本発明はこれを限定しない。
図1に示すように、本発明の実施例は、音声対話端末に用いられ全二重による音声対話の方法を提供し、この方法は、以下のステップを含む。
ステップS11、音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードする。
例えば、本発明における音声対話端末には、全二重による音声対話の方法を実現するSDKが統合されている。音声対話端末が起動されるとSDKが初期化され、全二重モードが自動的にオンになる。音声信号が検出されると録音機能がオンになり、録音したオーディオをリアルタイムでクラウドサーバにアップロードして分析処理を行う。
ステップS12、クラウドサーバから送信された応答内容と第1の時間長を音声対話端末が受信する。
例えば、クラウドサーバは、受信した録音オーディオに対してリアルタイムの分析と処理を行う。取得された内容に基づいて完全なセマンティックが確定されると、当該完全なセマンティックに対応する応答内容を確定し、そのために分析した録音オーディオの時間長(第1の時間長)を記録する。
ステップS13、音声対話端末においては、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断する。
例えば、第2の時間長は、録音開始点から第1の音声終了端点までの時間長であってもよい(すなわち、音声対話端末からアップロードされたオーディオは、検出された第1の音声終了端点までの時間長である)。
ステップS14、第1の時間長と第2の時間長が一致する場合、音声対話端末より応答内容をユーザに提示する。例えば、応答内容は、オーディオ、ビデオ、テキスト、画像などのうちの1つまたは複数の組み合わせであってもよい。
本発明の実施例における音声対話端末は、クラウドサーバで確定された応答内容を取得するだけでなく、クラウドサーバが当該応答内容の確定のために分析されるオーディオの時間長(即ち、第1の時間長)も取得し、そして、第1の時間長と第2の時間長(音声対話端末がウェイクアップされた時刻から現在時刻までオーディオをアップロードした時間長)が一致すると確定した場合にのみ、応答内容をユーザに提示する。これにより、クラウドサーバが応答内容を確定する根拠となる内容と、音声対話端末からアップロードされた内容との一致性が確保され、正確な応答を提供することができる。
例えば、音声対話端末はスマートスピーカーである。ユーザはスマートスピーカーに「私は聞きたいです、XXXの歌を」と言う。ネットワーク信号が不安定で、スマートスピーカーがこのセグメントのオーディオをクラウドサーバに送信した場合、「私は聞きたいです」に対応するオーディオセグメントが先にクラウドサーバに到着し、「XXXの歌を」が遅れて到着する。この遅延期間において、クラウドサーバは「私は聞きたいです」というオーディオに基づいてユーザが任意に一つの曲を聞きたいと理解し、ユーザのために任意に一つの曲を推薦してユーザにフィードバックする。明らかに、この推薦結果はユーザの本当の音楽聴取ニーズを満たすことができない。しかし、本発明の実施例によれば、明らかに、「私は聞きたいです」というオーディオの時間長と、「私は聞きたいです、XXXの歌を」の時間長とが一致しない。したがって、この結果を破棄し、新たな結果を待ち続けて、ユーザに提示される内容の正確性を確保することができる。
例えば、音声対話端末は、音声アシスタントを搭載したスマートフォンである。ユーザは北京から上海に出張して当日に到着する予定であり、今日の上海の天気を照会したいと思っている。ユーザは、スマートフォンの音声アシスタントに、「今日の天気はどうですか?上海の」と言う。明らかに、ユーザが表現したいのは「上海の今日の天気はどうですか?」であるが、場所を後にして説明を付け加えている。
クラウドサーバは、受信したオーディオ内容に基づいてリアルタイムで分析と処理を行い、セマンティックを理解するが、「今日の天気はどうですか?」はちょうど完全なセマンティックを表現しているため(スマート端末の位置情報に基づいてユーザが北京にいることを確定できる)、クラウドサーバは、まず応答内容として北京の天気状況を確定し、この応答内容及び「今日の天気はどうですか?」に対応する時間長をスマートフォンに送信する。
しかし、本発明の実施例において、スマートフォン側が情報を受信した後、さらに「今日の天気はどうですか?」に対応するオーディオ時間長と、記憶された「今日の天気はどうですか?上海の」のオーディオ時間長とを比較することで、二つの時間長がマッチングしないことを発見する。したがって、現在の応答内容を破棄し、新たな応答内容を待つことで、ユーザに提示される回答の正確性がさらに確保される。
いくつかの実施例において、第2の時間長は、音声対話端末がクラウドサーバから送信された情報(応答内容および第1の時間長)を受信する時点までの時間長(すなわち、クラウドサーバからの情報を受信した時に、既にアップロードされた録音オーディオの合計時間長)であってもよい。
第1の時間長が第2の時間長よりも短い場合には、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容及び新たな第1の時間長を送信することを待つ。
本実施例によれば、応答内容を確定した後、応答内容を与える前にユーザが音声対話端末に新たな音声を入力したか否か、すなわちユーザが新たな質問をしたか否かを確定することができるため(新たな質問をした理由としては、1つは他の言い方を入力しただけで、もう1つは前の質問を放棄したいという2つが考えられる)、与えられる応答内容がユーザの現在のトピックに対応していることを確保できる。
例えば、音声対話端末は音声アシスタントを搭載したスマートフォンであり、ユーザは北京にいて、北京の今日の天気を照会しようと思って、ユーザはスマートフォンの音声アシスタントに対して「今日の天気はどうですか?……北京の今日の天気はどうですか?」という。明らかに、ユーザは最初の文を話した後に、言い方の異なる同じ意味の文を提供しただけである。
クラウドサーバは、受信したオーディオ内容に基づいてリアルタイムで分析と処理を行い、セマンティックを理解するが、「今日の天気はどうですか?」はちょうど完全なセマンティックを表現しているため(スマート端末の位置情報に基づいてユーザが北京にいることを確定できる)、クラウドサーバは、まず応答内容として北京の天気状況を確定し、この応答内容及び「今日の天気はどうですか?」に対応する時間長をスマートフォンに送信する。
しかし、本発明の実施例ではスマートフォン側が情報を受信した後、「今日の天気はどうですか?」に対応するオーディオ時間長が第二の時間長より小さいため、現在の応答内容を破棄し、新たな応答内容(最初に確定した応答内容と同じ)を待ち続ける。これにより、確定した同じ応答内容を2回連続してユーザに提示して、ユーザに混乱を与え、ユーザ体験に影響を与えることを回避できる。
例えば、音声対話端末は、音声インタラクション機能を備える車載端末であり、ユーザが屋外での運転中に遭遇するネットワーク環境は不安定であるため、ユーザが車載端末と音声インタラクションをする時にタイムリーな応答を得られない可能性があり、また、通常は一定の時間長(例えば5秒)待つと前の1つまたは複数の質問を放棄して、新たな質問をする。従来技術では、信号が良好になった後、ユーザが提起した全ての問題を一括してユーザに提示し、ユーザはまた自分が提起した最新の問題に対応する応答内容を1つずつ閲覧して探し出す必要があり、ユーザ体験に深刻な影響を与える。
しかし、本発明の実施例では、応答内容を確定した後、応答内容を与える前のこの時間ノードにおいて、ユーザが音声対話端末に新たな音声を入力したかどうか、すなわちユーザが新たな質問をしたかどうかを確定するため、ユーザが現在本当に知りたいと思っている内容に強く応答し、音声インタラクションプロセスを最適化し、ユーザ体験を向上させることができる。
いくつかの実施例において、オーディオの録音を開始した後、さらに、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するステップにおいては、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会する。
いくつかの実施例において、本発明はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む音声対話端末であって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードするステップと、
クラウドサーバから送信された応答内容と第1の時間長を音声対話端末が受信するステップと、
音声対話端末においては、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
第1の時間長と第2の時間長が一致する場合、音声対話端末より応答内容をユーザに提示するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させる音声対話端末を提供する。
いくつかの実施例において、本発明の音声対話端末の少なくとも1つのプロセッサは、さらに、
第1の時間長が第2の時間長よりも短い場合には、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成される。
いくつかの実施例において、本発明の音声対話端末の少なくとも1つのプロセッサは、さらに、
オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するとは、更に、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会するように構成される。
図2に示すように、本発明はさらに、クラウドサーバに用いられる全二重による音声対話の方法であって、
音声対話端末からアップロードされた録音オーディオを受信するステップS21と、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するステップS22と、
音声対話端末において、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第1の時間長とを音声対話端末に送信するステップS23と、
を含む全二重による音声対話の方法を提供する。
いくつかの実施例において、第1の時間長が第2の時間長より短く、且つ、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
新たな応答内容と新たな第1の時間長を音声対話端末に送信する。
いくつかの実施例において、本発明はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むクラウドサーバであって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
音声対話端末からアップロードされた録音オーディオを受信するステップと、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
音声対話端末において、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第1の時間長とを音声対話端末に送信するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させるクラウドサーを提供する。
いくつかの実施例において、本発明のクラウドサーの少なくとも1つのプロセッサは、さらに、
第1の時間長が第2の時間長より短く、且つ、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
新たな応答内容と新たな第1の時間長を音声対話端末に送信するように構成される。
図3は、本発明の全二重による音声対話の方法の別の実施例のフローチャートである。この方法は、以下のステップを含む。
ステップ1では、まずSDKを初期化し、WAKEUPノード、VADノード、対話識別ノード等などを初期化する。
ステップ2では、初期化が完了した後、全二重モードをオンにし、このモードで録音機能が常にオンになっており、ユーザが常に音声インタラクションを実行できることが保証される。
ステップ3では、録音機ノードをオンにし、ユーザの音声変化を継続的に傍受し、ユーザの音声をSDKに入力し続ける。
ステップ4では、ユーザが音声でウェイクアップワードを入力し、音声インタラクションプラットフォームを成功的にウェイクアップし、インタラクションモードをオンにする。
ステップ5では、ステップ4のオーディオをVADノードに入力する。この時、VADノードはオーディオ入力の合計時間長を記録し、人の音声発話の有無を継続的に判断し、人の音声発話の開始時点と人の音声発話の停止時点を保存する。
ステップ6では、ステップ4でキャッシュされたオーディオ入力をクラウドに送信する。
ステップ7では、クラウドが対話の結果を返した後、ローカルに記録されたオーディオの合計時間長とクラウドから返されたオーディオの合計時間長が一致するかどうかを判断する。一致する場合は、対話が整列していることを示し、正常に対話の結果をユーザに表示する。
ステップ8では、ローカルに記録されたオーディオの合計時間長がクラウドから返されたオーディオの合計時間長よりも長い場合、2つのオーディオ時間長が異なる時間内に人の声が検出されたか否かを判断する。人の声が検出されない場合には、ユーザが今回の対話結果を待っていることを説明し、正常に対話結果をユーザに表示する。
ステップ9では、ローカルに記録されたオーディオの合計時間長がクラウドから返されたオーディオの合計時間長より長い場合、2つのオーディオ時間長が異なる時間内に人の声が検出されたか否かを判断する。人の声が検出された場合、ユーザが今回のインタラクションの後にまた音声入力があることを示し、この時点でユーザがすでに新たなトピックを開始している可能性があり、今回の対話結果を破棄する。
本発明の実施例において、まず、インタラクション過程においてローカルとクラウドはインタラクションの時間長を保存し続け、クラウドが対話の結果を返すたびに、今回の対話の終了時点も含まれる。このとき、ローカルの時間とクラウドから返された時点と比較し、ローカルとクラウドの時間ノードの差が5秒を超えると、今回の対話結果を破棄して、ローカルとクラウドの同期が保証される。
次に、VAD技術を利用して、第1のステップの上で、ユーザの音声入力を継続的に検出する。ローカルとクラウドの時間ノードが異なる時間内にユーザからの音声入力がある場合は、ユーザが今回のクラウドから返された結果の後にまた音声入力があることを示す。これにより、今回の対話結果をより正確に破棄することができる。ローカルとクラウドの時間ノードが異なる時間内にユーザからの音声入力がない場合、ユーザが前回のインタラクション結果をずっと待っていることを説明し、今回の対話結果は破棄されるべきではない。このポリシーを使用することで、ユーザと同じトピックでインタラクションすることを保証できる。
上記の各方法の実施例について、簡単に説明するために、一連の動作の統合として説明されているが、当業者は、説明されている動作の順序に限定されるものではなく、本願明細書に記載されているステップのいくつかは、本願明細書に記載されている他の順序を採用しても、同時に実施されてもよいからであることが認識されるであろう。次に、明細書に記載された実施の形態はいずれも好ましい実施の形態に属し、関連する動作およびモジュールは必ずしも本願に必須ではないことが当業者によって認識されるべきである。上記の各実施例に対する説明は、それぞれ独自の重点があり、ある実施例に詳細な説明がない場合は、他の実施例の関連部分を参照すればよい。
図4に示すように、本発明の実施例はさらに、音声対話端末に用いられる全二重による音声対話のシステム400であって、
音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードするように構成されるオーディオアップロードプログラムモジュール410と、
クラウドサーバから送信された応答内容と第1の時間長を音声対話端末が受信するように構成される受信プログラムモジュール420と、
音声対話端末においては、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するように構成される判断プログラムモジュール430と、
第1の時間長と第2の時間長が一致する場合、音声対話端末より応答内容をユーザに提示するように構成される内容提示プログラムモジュール440と、
を含む全二重による音声対話のシステム400を提供する。
いくつかの実施例において、音声端点照会プログラムモジュールは、
第1の時間長が第2の時間長よりも短い場合には、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成される。
いくつかの実施例において、オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定すると、更に、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会するように構成される端点検出プログラムモジュールをさらに含む。
図5に示すように、本発明の実施例はさらに、クラウドサーバに用いられる全二重による音声対話のシステム500であって、
音声対話端末からアップロードされた録音オーディオを受信するように構成される受信プログラムモジュール510と、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するように構成される応答内容確定プログラムモジュール520と、
音声対話端末において、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第1の時間長とを音声対話端末に送信するように構成される送信プログラムモジュール530と、
を含む全二重による音声対話のシステム500を提供する。
いくつかの実施例において、応答内容確定プログラムモジュールはさらに、第1の時間長が第2の時間長より短く、且つ、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定するように構成され、
送信プログラムモジュールはさらに、新たな応答内容と新たな第1の時間長を音声対話端末に送信するように構成される。
本発明の実施例はさらに、実行命令を含む1つまたは複数のプログラムを記憶する不揮発性コンピュータ読み取り可能な記憶媒体を提供する。実行命令は、本発明の上記いずれかの全二重による音声対話の方法を実行するために、電子機器(コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない)によって読み取られて実行することができる。
本発明の実施例はさらに、不揮発性コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記いずれかの全二重による音声対話の方法を実行させる。
本発明の実施例はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、全二重による音声対話の方法が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器を提供する。
本発明の実施例はさらに、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、全二重による音声対話の方法が実現されることを特徴とする。
上記本発明の実施例の全二重による音声対話のシステムは、本発明の実施例の全二重による音声対話の方法を実行するために用いることができ、それに応じて、上記本発明の実施例の全二重による音声対話の方法を実現する技術的効果を達成することができ、ここでは説明を省略する。本発明の実施例において、ハードウェアプロセッサ(hardware processor)によって関連機能モジュールを実現することができる。
図6は、本発明の一実施例の全二重による音声対話の方法を実行する電子デバイスのハードウェアの構造の概略図である。この電子デバイス、音声対話の端末でもクラウドサーバでもよい。図6に示すように、デバイスは、一つ又は複数のプロセッサ610及びメモリ620を含み、図6には、一つのプロセッサ610を例とする。
全二重による音声対話の方法を実行するデバイスは、さらに入力装置630及び出力装置640を含む。
プロセッサ610、メモリ620、入力装置630及び出力装置640は、バスを介して接続されてもよいし、他の方法で接続されてもよく、図6では、バスを介した接続を例とする。
メモリ620は、不揮発性のコンピュータ可読記憶媒体であり、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラム及びモジュールを格納することに使用できる。例えば、本発明の実施形態における対話システムの間の全二重による音声対話の方法が対応するプログラム命令/モジュールである。プロセッサ610は、メモリ620に格納された不揮発性ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバーの様々な機能アプリケーション及びデータ処理を実行する。即ち、前記方法の実施形態における全二重による音声対話の方法を実現する。
メモリ620は、ストレージプログラム領域及びストレージデータ領域を含む。ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とされるアプリケーションプログラムを記憶することができ、ストレージデータ領域は、全二重による音声対話の装置の使用に従って作成されたデータなどを記憶することができる。さらに、メモリ620は、高速ランダムアクセスメモリを含むことができ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの不揮発性メモリを含むこともできる。ある実施形態では、メモリ620は、プロセッサ610に対して遠距離配置されるメモリを含むものを選択することができる。これらのリモートメモリは、ネットワークを介して全二重による音声対話の装置に接続できる。ネットワークは、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
入力装置630は、入力デジタル又は文字情報を受信し、全二重による音声対話の装置のユーザ設定及び機能制御に関連する信号を生成することができる。出力装置640は、表示画面などの表示装置を含むことができる。
一つ又は複数のモジュールがメモリ620に格納され、一つ又は複数のプロセッサ610に実行されると、上記の任意方法の実施形態の全二重による音声対話の方法を実行する。
上記の製品は、本発明の実施形態によって提供される方法を実行することができ、方法を実行するための対応する機能モジュール及び有利な効果を有する。本実施形態で詳細に説明されない技術的詳細については、本発明の実施形態が提供される方法を参照する。
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)サーバー:コンピューティングサービスを提供するデバイスである。サーバーの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバー及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。
(5)データ交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス(パーソナルコンピュータ、サーバー又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims (4)

  1. 音声対話端末に用いられる全二重による音声対話の方法であって、
    前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容を確定し、また、当該応答内容の確定のために分析されたオーディオの第1の時間長を確定するために、録音したオーディオを前記クラウドサーバにアップロードするステップと、
    前記クラウドサーバから送信された前記応答内容と前記第1の時間長を前記音声対話端末が受信するステップと、
    前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
    前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、
    を含み、
    前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定し、
    含まれていない場合、前記音声対話端末により前記応答内容をユーザに提示し、
    含まれている場合、前記音声対話端末により前記応答内容を破棄し、前記クラウドサーバが新たな応答内容及び新たな第1の時間長を送信することを待ち、
    オーディオの録音を開始した後、さらに、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
    前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会する、
    ことを特徴とする全二重による音声対話の方法。
  2. クラウドサーバと音声対話端末によって実行される全二重による音声対話の方法であって、
    前記クラウドサーバにより前記音声対話端末からアップロードされた録音オーディオを受信するステップと、
    前記クラウドサーバにより受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
    前記クラウドサーバにより前記応答内容と、前記応答内容の確定のために分析された録音オーディオの第1の時間長とを前記音声対話端末に送信するステップと、を含み、
    前記音声対話端末において、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づいて前記応答内容をユーザに提示するか否かを確定し、
    前記音声対話端末が、前記第1の時間長が前記第2の時間長より短く、且つ、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれていると確定した場合、前記クラウドサーバにより前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
    前記クラウドサーバにより前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信し、
    オーディオの録音を開始した後、さらに、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
    前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会する、
    ことを特徴とする全二重による音声対話の方法。
  3. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む音声対話端末であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と前記応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオを前記クラウドサーバにアップロードするステップと、
    前記クラウドサーバから送信された前記応答内容及び前記第1の時間長を前記音声対話端末が受信するステップと、
    前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
    前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、
    が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させ
    前記少なくとも一つのプロセッサは、さらに、
    前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定し、
    含まれていない場合、前記音声対話端末により前記応答内容をユーザに提示し、
    含まれている場合、前記音声対話端末により前記応答内容を破棄し、前記クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成され、
    前記少なくとも一つのプロセッサは、さらに、
    オーディオの録音を開始した後、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
    前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するとは、更に、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会するように構成される、
    ことを特徴とする音声対話端末。
  4. クラウドサーバと音声対話端末とを含むシステムであって、
    少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    前記クラウドサーバにより前記音声対話端末からアップロードされた録音オーディオを受信するステップと、
    前記クラウドサーバにより受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
    前記音声対話端末において、第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、前記応答内容をユーザに提示するか否かを確定するように、前記クラウドサーバにより前記応答内容と、前記応答内容の確定のために分析された録音オーディオの前記第1の時間長とを前記音声対話端末に送信するステップと、
    が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させ
    前記少なくとも一つのプロセッサは、さらに、
    前記音声対話端末が、前記第1の時間長が前記第2の時間長より短く、且つ、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれていると確定した場合、前記クラウドサーバにより前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
    前記クラウドサーバにより前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信するように構成され、
    前記少なくとも一つのプロセッサは、さらに、
    オーディオの録音を開始した後、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
    前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会するように構成される、
    ことを特徴とするシステム。
JP2022513079A 2019-09-04 2019-11-25 全二重による音声対話の方法 Active JP7341323B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910831253.6 2019-09-04
CN201910831253.6A CN112447177B (zh) 2019-09-04 2019-09-04 全双工语音对话方法及系统
PCT/CN2019/120609 WO2021042584A1 (zh) 2019-09-04 2019-11-25 全双工语音对话方法

Publications (2)

Publication Number Publication Date
JP2022547418A JP2022547418A (ja) 2022-11-14
JP7341323B2 true JP7341323B2 (ja) 2023-09-08

Family

ID=74734516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022513079A Active JP7341323B2 (ja) 2019-09-04 2019-11-25 全二重による音声対話の方法

Country Status (5)

Country Link
US (1) US12118993B2 (ja)
EP (1) EP4027338A4 (ja)
JP (1) JP7341323B2 (ja)
CN (1) CN112447177B (ja)
WO (1) WO2021042584A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447177B (zh) * 2019-09-04 2022-08-23 思必驰科技股份有限公司 全双工语音对话方法及系统
CN117496973B (zh) * 2024-01-02 2024-03-19 四川蜀天信息技术有限公司 一种提升人机对话交互体验感的方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015098109A1 (ja) 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
CN108305628A (zh) 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117626A2 (en) * 2006-04-05 2007-10-18 Yap, Inc. Hosted voice recognition system for wireless devices
WO2011149558A2 (en) * 2010-05-28 2011-12-01 Abelow Daniel H Reality alternate
CA2904359A1 (en) * 2013-03-15 2014-09-25 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US10002611B1 (en) * 2013-05-15 2018-06-19 Amazon Technologies, Inc. Asynchronous audio messaging
EP3043348B1 (en) * 2013-09-03 2017-10-04 Panasonic Intellectual Property Corporation of America Voice interaction control method
KR102246893B1 (ko) * 2013-12-11 2021-04-30 삼성전자주식회사 대화형 시스템, 이의 제어 방법, 대화형 서버 및 이의 제어 방법
WO2016011159A1 (en) * 2014-07-15 2016-01-21 JIBO, Inc. Apparatus and methods for providing a persistent companion device
CN104575502A (zh) * 2014-11-25 2015-04-29 百度在线网络技术(北京)有限公司 智能玩具及智能玩具的语音交互方法
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
CN107305483A (zh) 2016-04-25 2017-10-31 北京搜狗科技发展有限公司 一种基于语义识别的语音交互方法及装置
US10311875B2 (en) 2016-12-22 2019-06-04 Soundhound, Inc. Full-duplex utterance processing in a natural language virtual assistant
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
CN207104925U (zh) * 2017-06-22 2018-03-16 国家康复辅具研究中心 宠物型机器人及机器人控制系统
JP6972149B2 (ja) * 2017-09-28 2021-11-24 京セラ株式会社 音声命令システム及び音声命令方法
CN107863113A (zh) 2017-11-08 2018-03-30 天脉聚源(北京)传媒科技有限公司 一种语音上传方法及装置
CN109994108B (zh) * 2017-12-29 2023-08-29 微软技术许可有限责任公司 用于聊天机器人和人之间的会话交谈的全双工通信技术
JP7173670B2 (ja) * 2018-08-07 2022-11-16 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声制御コマンド生成方法および端末
CN109599111A (zh) * 2019-01-02 2019-04-09 百度在线网络技术(北京)有限公司 语音交互方法、装置和存储介质
US10728656B1 (en) * 2019-01-07 2020-07-28 Kikago Limited Audio device and audio processing method
DK201970509A1 (en) * 2019-05-06 2021-01-15 Apple Inc Spoken notifications
CN112447177B (zh) * 2019-09-04 2022-08-23 思必驰科技股份有限公司 全双工语音对话方法及系统
CN112735423B (zh) * 2020-12-14 2024-04-05 美的集团股份有限公司 语音交互方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015098109A1 (ja) 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
CN108305628A (zh) 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
EP4027338A4 (en) 2022-10-05
US12118993B2 (en) 2024-10-15
EP4027338A1 (en) 2022-07-13
WO2021042584A1 (zh) 2021-03-11
JP2022547418A (ja) 2022-11-14
CN112447177A (zh) 2021-03-05
CN112447177B (zh) 2022-08-23
US20220293100A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
JP7353497B2 (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
JP7044916B2 (ja) データ送信のためのフィードバックコントローラ
KR101807677B1 (ko) 연결된 미디어 환경 내 사용용 미디어 장치를 테스트하고 인증하는 시스템 및 방법
WO2020042993A1 (zh) 语音控制方法、装置及系统
US20190196779A1 (en) Intelligent personal assistant interface system
WO2017201935A1 (zh) 视频播放方法及装置
CN108877804B (zh) 语音服务方法、系统、电子设备及存储介质
CN104967889A (zh) 控制智能电视进行视频信息处理的方法及装置
JP7341323B2 (ja) 全二重による音声対話の方法
JP7413521B2 (ja) ヒューマンマシン対話モードの切り替え方法
WO2019128829A1 (zh) 动作执行方法、装置、存储介质及电子装置
JP7311707B2 (ja) ヒューマンマシン対話処理方法
CN112185394A (zh) 一种设备组的播放方法、装置和播放系统
CN113672748A (zh) 多媒体信息播放方法及装置
CN111933149A (zh) 语音交互方法、穿戴式设备、终端及语音交互系统
US10693944B1 (en) Media-player initialization optimization
CN111161734A (zh) 基于指定场景的语音交互方法及装置
US10699729B1 (en) Phase inversion for virtual assistants and mobile music apps
CN105391620A (zh) 信息提示方法及装置
CN112786031B (zh) 人机对话方法及系统
CN111968630B (zh) 信息处理方法、装置和电子设备
CN111833883A (zh) 一种语音控制方法、装置、电子设备及存储介质
WO2023019517A1 (zh) 推荐指令的方法及其装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230829

R150 Certificate of patent or registration of utility model

Ref document number: 7341323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150