JP7341323B2 - 全二重による音声対話の方法 - Google Patents
全二重による音声対話の方法 Download PDFInfo
- Publication number
- JP7341323B2 JP7341323B2 JP2022513079A JP2022513079A JP7341323B2 JP 7341323 B2 JP7341323 B2 JP 7341323B2 JP 2022513079 A JP2022513079 A JP 2022513079A JP 2022513079 A JP2022513079 A JP 2022513079A JP 7341323 B2 JP7341323 B2 JP 7341323B2
- Authority
- JP
- Japan
- Prior art keywords
- time length
- voice
- audio
- voice interaction
- response content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 230000003993 interaction Effects 0.000 claims description 175
- 230000004044 response Effects 0.000 claims description 127
- 230000015654 memory Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010223 real-time analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Description
先ずは、シーンの特定ができない。つまり、ユーザが現在所在するシーンに対応できない。ユーザがすでに2番目のトピックを開始しているが、システムでは、まだ1番目のトピックのロジックでユーザとのインタラクションがされている。それは、ネットワークの不安定などの要因により、インタラクション中にシステムからまだユーザにフィードバックがされていないが、この時、ユーザが既に次のトピックのインタラクションを開始したため、システムとユーザ間のインタラクションが同じトピックではないからかもしれない。
次に、区別ができない。つまり、ユーザの話速は様々であるが、全二重のインタラクションモードではユーザの話を途中まで理解した状態にもかかわらずインタラクションを始めることが多いため、インタラクションへのユーザ体験が悪化してしまう。これは、全二重とは、そもそも、ウェイクアップ状態で常に音声インタラクションが可能なモードに着目するものであるため、結果的に、発話内容へのマッチングが成立するといきなりにインタラクションを始めるからかもしれない。
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容を確定し、また、当該応答内容の確定のために分析されたオーディオの第1の時間長を確定するために、録音したオーディオ前記をクラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容と前記第1の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、を含む。
含まれていない場合、前記応答内容をユーザに提示し、
含まれている場合、前記応答内容を破棄し、前記クラウドサーバが新たな応答内容及び新たな第1の時間長を送信することを待つ。
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声端点情報を照会する。
音声対話端末からアップロードされた録音オーディオを受信するステップと、
受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記応答内容と、前記応答内容の確定のために分析された録音オーディオの第1の時間長とを前記音声対話端末に送信するステップと、を含み、前記音声対話端末において、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づいて前記応答内容をユーザに提示するか否かを確定する。
前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信する。
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と前記応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオを前記クラウドサーバにアップロードするように構成されるオーディオアップロードプログラムモジュールと、
前記クラウドサーバから送信された前記応答内容と前記第1の時間長を前記音声対話端末が受信するように構成される受信プログラムモジュールと、
前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するように構成される判断プログラムモジュールと、
前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するように構成される内容提示プログラムモジュールと、を含む。
前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、前記応答内容をユーザに提示し、
含まれている場合、前記応答内容を破棄し、前記クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成される。
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定すると、更に、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声端点情報を照会するように構成される端点検出プログラムモジュールをさらに含む。
音声対話端末からアップロードされた録音オーディオを受信するように構成される受信プログラムモジュールと、
受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するように構成される応答内容確定プログラムモジュールと、
前記音声対話端末において、第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、前記応答内容をユーザに提示するか否かを確定するように、前記応答内容と、前記応答内容の確定のために分析された録音オーディオの前記第1の時間長とを前記音声対話端末に送信するように構成される送信プログラムモジュールと、を含む。
前記送信プログラムモジュールはさらに、前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信するように構成される。
ステップS11、音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードする。
例えば、本発明における音声対話端末には、全二重による音声対話の方法を実現するSDKが統合されている。音声対話端末が起動されるとSDKが初期化され、全二重モードが自動的にオンになる。音声信号が検出されると録音機能がオンになり、録音したオーディオをリアルタイムでクラウドサーバにアップロードして分析処理を行う。
ステップS12、クラウドサーバから送信された応答内容と第1の時間長を音声対話端末が受信する。
例えば、クラウドサーバは、受信した録音オーディオに対してリアルタイムの分析と処理を行う。取得された内容に基づいて完全なセマンティックが確定されると、当該完全なセマンティックに対応する応答内容を確定し、そのために分析した録音オーディオの時間長(第1の時間長)を記録する。
ステップS13、音声対話端末においては、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断する。
例えば、第2の時間長は、録音開始点から第1の音声終了端点までの時間長であってもよい(すなわち、音声対話端末からアップロードされたオーディオは、検出された第1の音声終了端点までの時間長である)。
ステップS14、第1の時間長と第2の時間長が一致する場合、音声対話端末より応答内容をユーザに提示する。例えば、応答内容は、オーディオ、ビデオ、テキスト、画像などのうちの1つまたは複数の組み合わせであってもよい。
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容及び新たな第1の時間長を送信することを待つ。
第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するステップにおいては、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会する。
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードするステップと、
クラウドサーバから送信された応答内容と第1の時間長を音声対話端末が受信するステップと、
音声対話端末においては、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
第1の時間長と第2の時間長が一致する場合、音声対話端末より応答内容をユーザに提示するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させる音声対話端末を提供する。
第1の時間長が第2の時間長よりも短い場合には、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成される。
オーディオの録音を開始した後、録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定するとは、更に、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会するように構成される。
音声対話端末からアップロードされた録音オーディオを受信するステップS21と、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するステップS22と、
音声対話端末において、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第1の時間長とを音声対話端末に送信するステップS23と、
を含む全二重による音声対話の方法を提供する。
新たな応答内容と新たな第1の時間長を音声対話端末に送信する。
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
音声対話端末からアップロードされた録音オーディオを受信するステップと、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
音声対話端末において、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第1の時間長とを音声対話端末に送信するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させるクラウドサーを提供する。
第1の時間長が第2の時間長より短く、且つ、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれている場合、冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
新たな応答内容と新たな第1の時間長を音声対話端末に送信するように構成される。
ステップ1では、まずSDKを初期化し、WAKEUPノード、VADノード、対話識別ノード等などを初期化する。
ステップ2では、初期化が完了した後、全二重モードをオンにし、このモードで録音機能が常にオンになっており、ユーザが常に音声インタラクションを実行できることが保証される。
ステップ3では、録音機ノードをオンにし、ユーザの音声変化を継続的に傍受し、ユーザの音声をSDKに入力し続ける。
ステップ4では、ユーザが音声でウェイクアップワードを入力し、音声インタラクションプラットフォームを成功的にウェイクアップし、インタラクションモードをオンにする。
ステップ5では、ステップ4のオーディオをVADノードに入力する。この時、VADノードはオーディオ入力の合計時間長を記録し、人の音声発話の有無を継続的に判断し、人の音声発話の開始時点と人の音声発話の停止時点を保存する。
ステップ6では、ステップ4でキャッシュされたオーディオ入力をクラウドに送信する。
ステップ7では、クラウドが対話の結果を返した後、ローカルに記録されたオーディオの合計時間長とクラウドから返されたオーディオの合計時間長が一致するかどうかを判断する。一致する場合は、対話が整列していることを示し、正常に対話の結果をユーザに表示する。
ステップ8では、ローカルに記録されたオーディオの合計時間長がクラウドから返されたオーディオの合計時間長よりも長い場合、2つのオーディオ時間長が異なる時間内に人の声が検出されたか否かを判断する。人の声が検出されない場合には、ユーザが今回の対話結果を待っていることを説明し、正常に対話結果をユーザに表示する。
ステップ9では、ローカルに記録されたオーディオの合計時間長がクラウドから返されたオーディオの合計時間長より長い場合、2つのオーディオ時間長が異なる時間内に人の声が検出されたか否かを判断する。人の声が検出された場合、ユーザが今回のインタラクションの後にまた音声入力があることを示し、この時点でユーザがすでに新たなトピックを開始している可能性があり、今回の対話結果を破棄する。
音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオをクラウドサーバにアップロードするように構成されるオーディオアップロードプログラムモジュール410と、
クラウドサーバから送信された応答内容と第1の時間長を音声対話端末が受信するように構成される受信プログラムモジュール420と、
音声対話端末においては、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するように構成される判断プログラムモジュール430と、
第1の時間長と第2の時間長が一致する場合、音声対話端末より応答内容をユーザに提示するように構成される内容提示プログラムモジュール440と、
を含む全二重による音声対話のシステム400を提供する。
第1の時間長が第2の時間長よりも短い場合には、第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定し、
含まれていない場合、応答内容をユーザに提示し、
含まれている場合、応答内容を破棄し、クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成される。
第2の時間長に対応する録音オーディオが第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを確定すると、更に、冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、音声端点情報を照会するように構成される端点検出プログラムモジュールをさらに含む。
音声対話端末からアップロードされた録音オーディオを受信するように構成される受信プログラムモジュール510と、
受信した録音オーディオをリアルタイムで分析して、録音オーディオに含まれる音声内容に対応する応答内容を確定するように構成される応答内容確定プログラムモジュール520と、
音声対話端末において、第1の時間長と、音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、応答内容をユーザに提示するか否かを確定するように、応答内容と、応答内容の確定のために分析された録音オーディオの第1の時間長とを音声対話端末に送信するように構成される送信プログラムモジュール530と、
を含む全二重による音声対話のシステム500を提供する。
送信プログラムモジュールはさらに、新たな応答内容と新たな第1の時間長を音声対話端末に送信するように構成される。
Claims (4)
- 音声対話端末に用いられる全二重による音声対話の方法であって、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容を確定し、また、当該応答内容の確定のために分析されたオーディオの第1の時間長を確定するために、録音したオーディオを前記クラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容と前記第1の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、
を含み、
前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定し、
含まれていない場合、前記音声対話端末により前記応答内容をユーザに提示し、
含まれている場合、前記音声対話端末により前記応答内容を破棄し、前記クラウドサーバが新たな応答内容及び新たな第1の時間長を送信することを待ち、
オーディオの録音を開始した後、さらに、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会する、
ことを特徴とする全二重による音声対話の方法。 - クラウドサーバと音声対話端末によって実行される全二重による音声対話の方法であって、
前記クラウドサーバにより前記音声対話端末からアップロードされた録音オーディオを受信するステップと、
前記クラウドサーバにより受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記クラウドサーバにより前記応答内容と、前記応答内容の確定のために分析された録音オーディオの第1の時間長とを前記音声対話端末に送信するステップと、を含み、
前記音声対話端末において、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づいて前記応答内容をユーザに提示するか否かを確定し、
前記音声対話端末が、前記第1の時間長が前記第2の時間長より短く、且つ、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれていると確定した場合、前記クラウドサーバにより前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
前記クラウドサーバにより前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信し、
オーディオの録音を開始した後、さらに、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会する、
ことを特徴とする全二重による音声対話の方法。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む音声対話端末であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
前記音声対話端末がウェイクアップされると、録音を開始し、クラウドサーバにおいて応答内容と前記応答内容の確定のために分析されたオーディオの第1の時間長とを確定するために、録音したオーディオを前記クラウドサーバにアップロードするステップと、
前記クラウドサーバから送信された前記応答内容及び前記第1の時間長を前記音声対話端末が受信するステップと、
前記音声対話端末においては、前記第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長とが一致するか否かを判断するステップと、
前記第1の時間長と前記第2の時間長が一致する場合、前記音声対話端末より前記応答内容をユーザに提示するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させ、
前記少なくとも一つのプロセッサは、さらに、
前記第1の時間長が前記第2の時間長よりも短い場合には、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定し、
含まれていない場合、前記音声対話端末により前記応答内容をユーザに提示し、
含まれている場合、前記音声対話端末により前記応答内容を破棄し、前記クラウドサーバが新たな応答内容と新たな第1の時間長を送信することを待つように構成され、
前記少なくとも一つのプロセッサは、さらに、
オーディオの録音を開始した後、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するとは、更に、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会するように構成される、
ことを特徴とする音声対話端末。 - クラウドサーバと音声対話端末とを含むシステムであって、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
前記クラウドサーバにより前記音声対話端末からアップロードされた録音オーディオを受信するステップと、
前記クラウドサーバにより受信した録音オーディオをリアルタイムで分析して、前記録音オーディオに含まれる音声内容に対応する応答内容を確定するステップと、
前記音声対話端末において、第1の時間長と、前記音声対話端末がウェイクアップされた時刻から現在時刻までアップロードしたオーディオの時間長である第2の時間長との間の一致性に基づき、前記応答内容をユーザに提示するか否かを確定するように、前記クラウドサーバにより前記応答内容と、前記応答内容の確定のために分析された録音オーディオの前記第1の時間長とを前記音声対話端末に送信するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させ、
前記少なくとも一つのプロセッサは、さらに、
前記音声対話端末が、前記第1の時間長が前記第2の時間長より短く、且つ、前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれていると確定した場合、前記クラウドサーバにより前記冗長録音セグメントを分析し続け、新たな応答内容と新たな第1の時間長を確定し、
前記クラウドサーバにより前記新たな応答内容と前記新たな第1の時間長を前記音声対話端末に送信するように構成され、
前記少なくとも一つのプロセッサは、さらに、
オーディオの録音を開始した後、前記音声対話端末により録音オーディオに対して音声端点検出を行い、音声開始時点及び音声終了時点を含む検出された音声端点情報を記憶し、
前記第2の時間長に対応する録音オーディオが前記第1の時間長に対応する録音オーディオよりも多くなっている冗長録音セグメントに音声端点が含まれているか否かを前記音声対話端末により確定するステップにおいては、前記冗長録音セグメントに属する音声開始時点または音声終了時点が存在するかどうかを確定するために、前記音声対話端末により前記音声端点情報を照会するように構成される、
ことを特徴とするシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831253.6 | 2019-09-04 | ||
CN201910831253.6A CN112447177B (zh) | 2019-09-04 | 2019-09-04 | 全双工语音对话方法及系统 |
PCT/CN2019/120609 WO2021042584A1 (zh) | 2019-09-04 | 2019-11-25 | 全双工语音对话方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022547418A JP2022547418A (ja) | 2022-11-14 |
JP7341323B2 true JP7341323B2 (ja) | 2023-09-08 |
Family
ID=74734516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022513079A Active JP7341323B2 (ja) | 2019-09-04 | 2019-11-25 | 全二重による音声対話の方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12118993B2 (ja) |
EP (1) | EP4027338A4 (ja) |
JP (1) | JP7341323B2 (ja) |
CN (1) | CN112447177B (ja) |
WO (1) | WO2021042584A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112447177B (zh) * | 2019-09-04 | 2022-08-23 | 思必驰科技股份有限公司 | 全双工语音对话方法及系统 |
CN117496973B (zh) * | 2024-01-02 | 2024-03-19 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015098109A1 (ja) | 2013-12-26 | 2015-07-02 | パナソニックIpマネジメント株式会社 | 音声認識処理装置、音声認識処理方法、および表示装置 |
CN108305628A (zh) | 2017-06-27 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007117626A2 (en) * | 2006-04-05 | 2007-10-18 | Yap, Inc. | Hosted voice recognition system for wireless devices |
WO2011149558A2 (en) * | 2010-05-28 | 2011-12-01 | Abelow Daniel H | Reality alternate |
CA2904359A1 (en) * | 2013-03-15 | 2014-09-25 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US10002611B1 (en) * | 2013-05-15 | 2018-06-19 | Amazon Technologies, Inc. | Asynchronous audio messaging |
EP3043348B1 (en) * | 2013-09-03 | 2017-10-04 | Panasonic Intellectual Property Corporation of America | Voice interaction control method |
KR102246893B1 (ko) * | 2013-12-11 | 2021-04-30 | 삼성전자주식회사 | 대화형 시스템, 이의 제어 방법, 대화형 서버 및 이의 제어 방법 |
WO2016011159A1 (en) * | 2014-07-15 | 2016-01-21 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
CN104575502A (zh) * | 2014-11-25 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 智能玩具及智能玩具的语音交互方法 |
US9911410B2 (en) * | 2015-08-19 | 2018-03-06 | International Business Machines Corporation | Adaptation of speech recognition |
CN107305483A (zh) | 2016-04-25 | 2017-10-31 | 北京搜狗科技发展有限公司 | 一种基于语义识别的语音交互方法及装置 |
US10311875B2 (en) | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10410635B2 (en) | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
CN207104925U (zh) * | 2017-06-22 | 2018-03-16 | 国家康复辅具研究中心 | 宠物型机器人及机器人控制系统 |
JP6972149B2 (ja) * | 2017-09-28 | 2021-11-24 | 京セラ株式会社 | 音声命令システム及び音声命令方法 |
CN107863113A (zh) | 2017-11-08 | 2018-03-30 | 天脉聚源(北京)传媒科技有限公司 | 一种语音上传方法及装置 |
CN109994108B (zh) * | 2017-12-29 | 2023-08-29 | 微软技术许可有限责任公司 | 用于聊天机器人和人之间的会话交谈的全双工通信技术 |
JP7173670B2 (ja) * | 2018-08-07 | 2022-11-16 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声制御コマンド生成方法および端末 |
CN109599111A (zh) * | 2019-01-02 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置和存储介质 |
US10728656B1 (en) * | 2019-01-07 | 2020-07-28 | Kikago Limited | Audio device and audio processing method |
DK201970509A1 (en) * | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
CN112447177B (zh) * | 2019-09-04 | 2022-08-23 | 思必驰科技股份有限公司 | 全双工语音对话方法及系统 |
CN112735423B (zh) * | 2020-12-14 | 2024-04-05 | 美的集团股份有限公司 | 语音交互方法、装置、电子设备及存储介质 |
-
2019
- 2019-09-04 CN CN201910831253.6A patent/CN112447177B/zh active Active
- 2019-11-25 JP JP2022513079A patent/JP7341323B2/ja active Active
- 2019-11-25 WO PCT/CN2019/120609 patent/WO2021042584A1/zh unknown
- 2019-11-25 US US17/639,624 patent/US12118993B2/en active Active
- 2019-11-25 EP EP19944180.9A patent/EP4027338A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015098109A1 (ja) | 2013-12-26 | 2015-07-02 | パナソニックIpマネジメント株式会社 | 音声認識処理装置、音声認識処理方法、および表示装置 |
CN108305628A (zh) | 2017-06-27 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4027338A4 (en) | 2022-10-05 |
US12118993B2 (en) | 2024-10-15 |
EP4027338A1 (en) | 2022-07-13 |
WO2021042584A1 (zh) | 2021-03-11 |
JP2022547418A (ja) | 2022-11-14 |
CN112447177A (zh) | 2021-03-05 |
CN112447177B (zh) | 2022-08-23 |
US20220293100A1 (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102660922B1 (ko) | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 | |
JP7353497B2 (ja) | 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム | |
US11188289B2 (en) | Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data | |
JP7044916B2 (ja) | データ送信のためのフィードバックコントローラ | |
KR101807677B1 (ko) | 연결된 미디어 환경 내 사용용 미디어 장치를 테스트하고 인증하는 시스템 및 방법 | |
WO2020042993A1 (zh) | 语音控制方法、装置及系统 | |
US20190196779A1 (en) | Intelligent personal assistant interface system | |
WO2017201935A1 (zh) | 视频播放方法及装置 | |
CN108877804B (zh) | 语音服务方法、系统、电子设备及存储介质 | |
CN104967889A (zh) | 控制智能电视进行视频信息处理的方法及装置 | |
JP7341323B2 (ja) | 全二重による音声対話の方法 | |
JP7413521B2 (ja) | ヒューマンマシン対話モードの切り替え方法 | |
WO2019128829A1 (zh) | 动作执行方法、装置、存储介质及电子装置 | |
JP7311707B2 (ja) | ヒューマンマシン対話処理方法 | |
CN112185394A (zh) | 一种设备组的播放方法、装置和播放系统 | |
CN113672748A (zh) | 多媒体信息播放方法及装置 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
US10693944B1 (en) | Media-player initialization optimization | |
CN111161734A (zh) | 基于指定场景的语音交互方法及装置 | |
US10699729B1 (en) | Phase inversion for virtual assistants and mobile music apps | |
CN105391620A (zh) | 信息提示方法及装置 | |
CN112786031B (zh) | 人机对话方法及系统 | |
CN111968630B (zh) | 信息处理方法、装置和电子设备 | |
CN111833883A (zh) | 一种语音控制方法、装置、电子设备及存储介质 | |
WO2023019517A1 (zh) | 推荐指令的方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7341323 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |