JP2022528582A - ヒューマンマシン対話方法及び電子デバイス - Google Patents
ヒューマンマシン対話方法及び電子デバイス Download PDFInfo
- Publication number
- JP2022528582A JP2022528582A JP2021572940A JP2021572940A JP2022528582A JP 2022528582 A JP2022528582 A JP 2022528582A JP 2021572940 A JP2021572940 A JP 2021572940A JP 2021572940 A JP2021572940 A JP 2021572940A JP 2022528582 A JP2022528582 A JP 2022528582A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- user terminal
- user
- answer
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004044 response Effects 0.000 claims abstract description 159
- 230000015654 memory Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせと語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプをユーザー端末に送信する、ステップと、を含む。
ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む。
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、予め設定されたハートビート保護の時間範囲内に、後でユーザー端末ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとをユーザー端末に送信するステップと、
ユーザー端末ユーザー端末においては、サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む。
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する認識復号プログラムモジュールと、
前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するショートスピーチ確定プログラムモジュールと、
少なくとも前記第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する語句判断プログラムモジュールと、を含む。
ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするオーディオアップロードプログラムモジュールと、
サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するオーディオマッチングプログラムモジュールと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするヒューマンマシン対話プログラムモジュールと、を含む。
ユーザー端末からサーバにユーザー入力の第1オーディオ及び第2オーディオを連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするオーディオアップロードプログラムモジュールと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する認識復号プログラムモジュールと、
サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するショートスピーチ確定プログラムモジュールと、
サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する語句判断プログラムモジュールと、
ユーザー端末においては、サーバから送信された回答命令と前記回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するオーディオマッチングプログラムモジュールと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合に、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするヒューマンマシン対話プログラムモジュールと、を含む。
S11:ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
S12:第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断した場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
S13:少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、回答命令と、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとをユーザー端末に送信するステップと、
を含む。
ユーザー:私が聞きたいのは(短い停止)周杰倫の歌です。
人工知能音声デバイス:何を聞きたいですか?
人工知能音声デバイス:次にあなたのために周杰倫の稲香を再生します。
ユーザーが「私が聞きたいのは」と言ったのは不完全な文であるが、人工知能音声デバイスは「私が聞きたいのは」に返信し、一回の無意味な対話が増えている。この方法は、人工知能音声デバイスが、「私が聞きたいのは」という、少し停止している不完全な語句に対して、無意味な対話返信をすることを回避することができる。
一文ではないと判断された場合、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを確定する。ショートスピーチであると判断した場合、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させる。
一文ではないと判断された場合、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
S21:ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
S22:サーバから送信された回答命令と、回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
S23:ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
を含む。
ユーザー:私は歌が聞きたいです。
ユーザー:周杰倫の稲香。
人工知能音声デバイス:誰の歌を聞きたいですか?
人工知能音声デバイス:はい、あなたのために周杰倫の稲香を再生します。
2、ユーザー:周杰倫の稲香。
人工知能音声デバイス:誰の歌を聞きたいですか?(破棄、ユーザーに出力しない)
3、人工知能音声デバイス:はい、あなたのために周杰倫の稲香を再生します。
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、回答命令に対応するフィードバックタイムスタンプとを順次に受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
が少なくとも1つのプロセッサによって実行できるようにされている。
S32:サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
S33:サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断した場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
S34:サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
S35:ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
S36:ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと
を含む。
一文ではないと判断された場合、サーバにおいては、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には回答命令をユーザーにフィードバックするステップと、
を含む。
ユーザー入力の第1オーディオ及び第2オーディオをステップと、サーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断された場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックするステップと、
が少なくとも1つのプロセッサによって実行できるようにされている。
一文ではないと判断された場合、サーバにおいては、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
一文ではないと判断された場合、第1認識結果に対応する第1回答命令と第2認識結果に対応する第2回答命令とをそれぞれ生成し、第1回答命令及び第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する。
オーディオマッチングプログラムモジュールは、ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令とこれらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ヒューマンマシン対話プログラムモジュールは、ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとする。
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成する。
サーバにおいては、第1オーディオの開始時点及び終了時点に基づいて、第1オーディオがショートスピーチであるか否かを判断し、
ショートスピーチであると判断された場合、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成する。
サーバにおいては、少なくとも第1認識結果及び第2認識結果の組み合わせを言語予測モデルに送信し、組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、組み合わせの語句に対応する回答命令を生成し、また、回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む回答命令のフィードバックタイムスタンプとともにユーザー端末に送信する。
ユーザー端末においては、サーバから送信された回答命令と回答命令に対応するフィードバックタイムスタンプとを受信し、入力タイムスタンプとフィードバックタイムスタンプとをマッチングさせることにより、回答命令に対応するユーザー入力のオーディオを確定する。
ユーザー端末においては、ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、回答命令がタイムアウトしたかどうかを判断し、
回答命令がタイムアウトしたと判断された場合には回答命令を破棄し、回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、回答命令をユーザーにフィードバックする。
Claims (10)
- サーバに用いられるヒューマンマシン対話方法であって、
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
前記第1オーディオの開始時点及び終了時点に基づいて前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内においてユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
を含むヒューマンマシン対話方法。 - 前記組み合わせの語句が一文であるか否かを判断した後、さらに、
一文ではないと判断された場合、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップを含む請求項1に記載のヒューマンマシン対話方法。 - ユーザー端末に用いられるヒューマンマシン対話方法であって、
ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と、当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末における現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
を含むヒューマンマシン対話方法。 - サーバとユーザー端末とを含む音声対話プラットフォームに用いられるヒューマンマシン対話方法であって、
ユーザー入力の第1オーディオ及び第2オーディオをユーザー端末からサーバに連続してアップロードし、これらのオーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点とをマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチである場合、予め設定されたハートビート保護の時間範囲内に、ユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻とのタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
を含むヒューマンマシン対話方法。 - 前記組み合わせが一文であるか否かを判断した後、更に、
一文ではないと判断された場合、サーバにおいては、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令と、これらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、を含む請求項4に記載のヒューマンマシン対話方法。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点及び終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを確定し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内に、ユーザー端末からアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、前記組み合わせの語句に対応する回答命令を生成し、また、ユーザー端末を介するヒューマンマシン対話を完了させるように、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させるサーバ。 - 前記少なくとも一つのプロセッサにおいては、さらに、
一文ではないと判断された場合、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信する、ように構成される請求項6に記載のサーバ。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むユーザー端末であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザー入力の第1オーディオ及び第2オーディオをサーバに連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバから送信された回答命令と当該回答命令に対応するフィードバックタイムスタンプとを順次に受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
前記ユーザー入力のオーディオの入力タイムスタンプとユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させるユーザー端末。 - サーバと、ユーザー端末と、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む音声対話プラットフォームであって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザー端末からサーバにユーザー入力の第1オーディオ及び第2オーディオを連続してアップロードし、前記オーディオの開始時点及び終了時点を入力タイムスタンプとするステップと、
サーバにおいては、ユーザーがユーザー端末を介してアップロードした第1オーディオを受信し、前記第1オーディオの開始時点と終了時点をマークし、オーディオデコーダを利用して第1オーディオの第1認識結果を生成するステップと、
サーバにおいては、前記第1オーディオの開始時点及び終了時点に基づいて、前記第1オーディオがショートスピーチであるか否かを判断し、ショートスピーチであると判断され、また、予め設定されたハートビート保護の時間範囲内にユーザー端末から連続してアップロードされた第2オーディオを受信すると、オーディオデコーダを利用して第2オーディオの第2認識結果を生成するステップと、
サーバにおいては、少なくとも前記第1認識結果及び前記第2認識結果の組み合わせを言語予測モデルに送信し、前記組み合わせの語句が一文であるかどうかを判断し、
一文であると判断された場合、サーバにおいては、前記組み合わせの語句に対応する回答命令を生成し、また、前記回答命令を、当該回答命令に対応する語句の開始時点及び終了時点を含む前記回答命令のフィードバックタイムスタンプとともにユーザー端末に送信するステップと、
ユーザー端末においては、サーバから送信された回答命令と前記回答命令に対応するフィードバックタイムスタンプとを受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定するステップと、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックするステップと、
が実行できるように前記少なくとも1つのプロセッサによって前記命令を実行させる音声対話プラットフォーム。 - 前記少なくとも一つのプロセッサは、さらに、
一文ではないと判断された場合、サーバにおいては、前記第1認識結果に対応する第1回答命令と前記第2認識結果に対応する第2回答命令とをそれぞれ生成し、前記第1回答命令及び前記第2回答命令を、それぞれ対応するフィードバックタイムスタンプとともにユーザー端末に送信し、
ユーザー端末においては、サーバから送信された第1回答命令、第2回答命令とこれらの回答命令に対応するフィードバックタイムスタンプとをそれぞれ受信し、前記入力タイムスタンプと前記フィードバックタイムスタンプとをマッチングさせることにより、前記回答命令に対応するユーザー入力のオーディオを確定し、
ユーザー端末においては、前記ユーザー入力のオーディオの入力タイムスタンプと前記ユーザー端末の現在時刻との間に生じたタイムオフセットに基づいて、前記回答命令がタイムアウトしたかどうかを判断し、
前記回答命令がタイムアウトしたと判断された場合には前記回答命令を破棄し、前記回答命令がタイムアウトしていないと判断された場合には、ヒューマンマシン対話を完了させるように、前記回答命令をユーザーにフィードバックする、ように構成される請求項9に記載の音声対話プラットフォーム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910510000.9 | 2019-06-13 | ||
CN201910510000.9A CN110223697B (zh) | 2019-06-13 | 2019-06-13 | 人机对话方法及系统 |
PCT/CN2019/120607 WO2020248524A1 (zh) | 2019-06-13 | 2019-11-25 | 人机对话方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022528582A true JP2022528582A (ja) | 2022-06-14 |
JP7108799B2 JP7108799B2 (ja) | 2022-07-28 |
Family
ID=67816846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021572940A Active JP7108799B2 (ja) | 2019-06-13 | 2019-11-25 | ヒューマンマシン対話方法及び電子デバイス |
Country Status (5)
Country | Link |
---|---|
US (1) | US11551693B2 (ja) |
EP (1) | EP3985661B1 (ja) |
JP (1) | JP7108799B2 (ja) |
CN (1) | CN110223697B (ja) |
WO (1) | WO2020248524A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223697B (zh) | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
CN112786031B (zh) * | 2019-11-01 | 2022-05-13 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
CN112992136A (zh) * | 2020-12-16 | 2021-06-18 | 呼唤(上海)云计算股份有限公司 | 智能婴儿监护系统及方法 |
CN112783324B (zh) * | 2021-01-14 | 2023-12-01 | 科大讯飞股份有限公司 | 人机交互方法及设备、计算机存储介质 |
CN112995419B (zh) * | 2021-02-05 | 2022-05-24 | 支付宝(杭州)信息技术有限公司 | 一种语音对话的处理方法和系统 |
CN114141236B (zh) * | 2021-10-28 | 2023-01-06 | 北京百度网讯科技有限公司 | 语言模型更新方法、装置、电子设备及存储介质 |
CN113705250B (zh) * | 2021-10-29 | 2022-02-22 | 北京明略昭辉科技有限公司 | 会话内容识别方法、装置、设备及计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017078869A (ja) * | 2015-10-19 | 2017-04-27 | グーグル インコーポレイテッド | スピーチエンドポインティング |
WO2019031268A1 (ja) * | 2017-08-09 | 2019-02-14 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
JP2019207329A (ja) * | 2018-05-29 | 2019-12-05 | シャープ株式会社 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774859A (en) | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
KR20000045128A (ko) * | 1998-12-30 | 2000-07-15 | 김영환 | 단문,음성,영상 서비스가 가능한 코드분할다중접속 방식의통신 단말기 |
JP2004309631A (ja) * | 2003-04-03 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 対話練習支援装置、方法及びプログラム |
CN103413549B (zh) * | 2013-07-31 | 2016-07-06 | 深圳创维-Rgb电子有限公司 | 语音交互的方法、系统以及交互终端 |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
CN106469212B (zh) | 2016-09-05 | 2019-10-15 | 北京百度网讯科技有限公司 | 基于人工智能的人机交互方法和装置 |
CN108237616B (zh) | 2016-12-24 | 2024-01-23 | 广东明泰盛陶瓷有限公司 | 一种陶瓷注模装置 |
CN107066568A (zh) * | 2017-04-06 | 2017-08-18 | 竹间智能科技(上海)有限公司 | 基于用户意图预测的人机对话方法及装置 |
CN109215642A (zh) * | 2017-07-04 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 人机会话的处理方法、装置及电子设备 |
CN110730952B (zh) * | 2017-11-03 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 处理网络上的音频通信的方法和系统 |
CN107920120A (zh) * | 2017-11-22 | 2018-04-17 | 北京小米移动软件有限公司 | 业务处理方法、装置及计算机可读存储介质 |
US10897432B2 (en) * | 2017-12-04 | 2021-01-19 | Microsoft Technology Licensing, Llc | Chat-enabled messaging |
CN108257616A (zh) * | 2017-12-05 | 2018-07-06 | 苏州车萝卜汽车电子科技有限公司 | 人机对话的检测方法以及装置 |
CN108882111A (zh) * | 2018-06-01 | 2018-11-23 | 四川斐讯信息技术有限公司 | 一种基于智能音箱的交互方法及系统 |
CN108920604B (zh) | 2018-06-27 | 2019-08-13 | 百度在线网络技术(北京)有限公司 | 语音交互方法及设备 |
CN109147779A (zh) * | 2018-08-14 | 2019-01-04 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
CN109147831A (zh) * | 2018-09-26 | 2019-01-04 | 深圳壹账通智能科技有限公司 | 一种语音连接播放方法、终端设备及计算机可读存储介质 |
CN109584876B (zh) * | 2018-12-26 | 2020-07-14 | 珠海格力电器股份有限公司 | 语音数据的处理方法、装置和语音空调 |
CN109741753B (zh) * | 2019-01-11 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、终端及服务器 |
CN110223697B (zh) * | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
-
2019
- 2019-06-13 CN CN201910510000.9A patent/CN110223697B/zh active Active
- 2019-11-25 EP EP19932635.6A patent/EP3985661B1/en active Active
- 2019-11-25 US US17/616,969 patent/US11551693B2/en active Active
- 2019-11-25 WO PCT/CN2019/120607 patent/WO2020248524A1/zh active Application Filing
- 2019-11-25 JP JP2021572940A patent/JP7108799B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017078869A (ja) * | 2015-10-19 | 2017-04-27 | グーグル インコーポレイテッド | スピーチエンドポインティング |
WO2019031268A1 (ja) * | 2017-08-09 | 2019-02-14 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
JP2019207329A (ja) * | 2018-05-29 | 2019-12-05 | シャープ株式会社 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
Non-Patent Citations (1)
Title |
---|
堀田 尚希ほか: "音声発話の誤分割修復のための修復必要性の判定", 第70回 言語・音声理解と対話処理研究会資料, JPN6022026826, 26 February 2014 (2014-02-26), pages 45 - 52, ISSN: 0004820226 * |
Also Published As
Publication number | Publication date |
---|---|
US20220165269A1 (en) | 2022-05-26 |
CN110223697B (zh) | 2022-04-22 |
EP3985661B1 (en) | 2024-02-28 |
US11551693B2 (en) | 2023-01-10 |
EP3985661A1 (en) | 2022-04-20 |
CN110223697A (zh) | 2019-09-10 |
JP7108799B2 (ja) | 2022-07-28 |
EP3985661A4 (en) | 2022-08-03 |
WO2020248524A1 (zh) | 2020-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022528582A (ja) | ヒューマンマシン対話方法及び電子デバイス | |
CN110661927B (zh) | 语音交互方法、装置、计算机设备及存储介质 | |
US10891952B2 (en) | Speech recognition | |
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
US9710819B2 (en) | Real-time transcription system utilizing divided audio chunks | |
US8117036B2 (en) | Non-disruptive side conversation information retrieval | |
JP5753869B2 (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
CN108920128B (zh) | 演示文稿的操作方法及系统 | |
CN109671429B (zh) | 语音交互方法及设备 | |
CN113784163B (zh) | 一种连麦直播方法及相关设备 | |
CN109361527B (zh) | 语音会议记录方法及系统 | |
WO2017151417A1 (en) | Speech recognition | |
WO2018045703A1 (zh) | 语音处理方法、装置及终端设备 | |
EP3573050A1 (en) | Computing platform and method for modifying voice data | |
JP6364775B2 (ja) | 電子会議システム及びそのプログラム | |
KR100898104B1 (ko) | 상호 대화식 학습 시스템 및 방법 | |
CN109508166B (zh) | 音频播放方法、装置、设备及存储介质 | |
JP2022547418A (ja) | 全二重による音声対話の方法 | |
WO2019149132A1 (zh) | 音频信息的处理方法、装置、存储介质及电子装置 | |
CN112700767A (zh) | 人机对话打断方法及装置 | |
US8775163B1 (en) | Selectable silent mode for real-time audio communication system | |
CN115629894B (zh) | 演讲提示方法及相关装置 | |
CN112133300B (zh) | 多设备的交互方法、相关设备和系统 | |
US20180225086A1 (en) | Audio Control of Voice-Activated Devices | |
KR102025903B1 (ko) | 언어 학습을 위한 장치 및 그 제어방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220309 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7108799 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |