JP2021179642A - 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム - Google Patents
音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム Download PDFInfo
- Publication number
- JP2021179642A JP2021179642A JP2021134212A JP2021134212A JP2021179642A JP 2021179642 A JP2021179642 A JP 2021179642A JP 2021134212 A JP2021134212 A JP 2021134212A JP 2021134212 A JP2021134212 A JP 2021134212A JP 2021179642 A JP2021179642 A JP 2021179642A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- waiting time
- voice command
- perfection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000003993 interaction Effects 0.000 title abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 230000002452 interceptive effect Effects 0.000 claims description 144
- 238000000034 method Methods 0.000 claims description 65
- 230000004044 response Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 28
- 238000012549 training Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 206010024796 Logorrhoea Diseases 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
Description
前記方法は、
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測することと、
前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む。
前記方法は、
ユーザの音声命令を受信することと、
クラウドサーバに前記ユーザの音声命令をアップロードすることと、
前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信することと、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答することと、を含む。
前記クラウドサーバは、
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測する予測モジュールと、
前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定する設定モジュールと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュールと、を含む。
前記機器は、
ユーザの音声命令を受信する受信モジュールと、
クラウドサーバに前記ユーザの音声命令をアップロードするアップロードモジュールと、を含み、
前記受信モジュールは、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信し、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答する応答モジュール、を含む。
前記システムは、
音声インタラクティブ機器と、クラウドサーバとを含み、
前記クラウドサーバは、前記音声インタラクティブ機器と通信可能に接続され、
前記クラウドサーバは、上述のクラウドサーバを採用し、前記音声インタラクティブ機器は、上述の音声インタラクティブ機器を採用している。
前記機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが上述の方法のうちのいずれか一つの方法を実行するように、前記少なくとも1つのプロセッサによって実行される。
前記記録媒体は、
コンピュータに上述の方法のうちのいずれか一つの方法を実行させる。
クラウドサーバ600は、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測する予測モジュール601と、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定する設定モジュール602と、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュール603とを含む。
第1の完全度が予め設定された完全度閾値以上である場合、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定する。
601,701 予測モジュール
602,702 設定モジュール
603,703 制御モジュール
704,801 受信モジュール
800,901 音声インタラクティブ機器
802 アップロードモジュール
803 応答モジュール
900 音声インタラクティブシステム
902 クラウドサーバ
1001 プロセッサ
1002 メモリ
1003 入力装置
1004 出力装置
Claims (20)
- ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測することと、
前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む
音声インタラクティブ処理方法。 - 前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することは、
前記第1の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定することを含む
請求項1に記載の方法。 - 前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することは、
前記第1の完全度が予め設定された完全度閾値未満であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を、前記第1の待機時間よりも長い第2の待機時間に設定することを、さらに含む
請求項2に記載の方法。 - 前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定した後、前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する前に、前記方法は、
前記ユーザの音声命令が終了した後の前記待機時間内にユーザの補充音声命令を受信することと、
前記ユーザの補充音声命令が高頻度命令でないと検出した場合、前記完全性検出モデルを用いて、前記ユーザの音声命令と前記ユーザの補充音声命令とからなる結合命令の第2の完全度を予測することと、
前記第2の完全度が前記第1の完全度より大きい場合、第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定することと、をさらに含む
請求項1〜3のいずれか一項に記載の方法。 - 前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定することは、
前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間の設定を削除することと、
前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定することと、を含む
請求項4に記載の方法。 - 前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定することは、
前記第2の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を第1の待機時間に設定すること、あるいは、
前記第2の完全度が予め設定された完全度閾値未満であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を、前記第1の待機時間より長い第2の待機時間に設定すること、を含む
請求項5に記載の方法。 - 前記ユーザの音声命令または前記ユーザの補充音声命令が高頻度命令であると検出した場合、前記ユーザの音声命令または前記ユーザの補充音声命令が終了した後に前記ユーザの音声命令または前記ユーザの補充音声命令に応答する操作の待機時間を、前記第1の待機時間より小さい第3の待機時間に設定することと、
前記第3の待機時間に基づいて前記ユーザの音声命令または前記ユーザの補充音声命令に応答するように前記音声インタラクティブ機器を制御することと、をさらに含む
請求項2または3に記載の方法。 - ユーザの音声命令を受信することと、
クラウドサーバに前記ユーザの音声命令をアップロードすることと、
前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信することと、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答することと、を含む
音声インタラクティブ処理方法。 - ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測する予測モジュールと、
前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定する設定モジュールと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュールと、を含む
クラウドサーバ。 - 前記設定モジュールは、
前記第1の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定する
請求項9に記載のクラウドサーバ。 - 前記設定モジュールは、
前記第1の完全度が予め設定された完全度閾値未満であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を、前記第1の待機時間よりも長い第2の待機時間に設定する
請求項10に記載のクラウドサーバ。 - 受信モジュールをさらに含み、
前記受信モジュールは、前記ユーザの音声命令が終了した後の前記待機時間内に、ユーザの補充音声命令を受信し、
前記予測モジュールは、前記ユーザの補充音声命令が高頻度命令でないと検出した場合、前記完全性検出モデルを用いて、前記ユーザの音声命令と前記ユーザの補充音声命令とからなる結合命令の第2の完全度を予測し、
前記設定モジュールは、前記第2の完全度が前記第1の完全度より大きい場合、第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定する
請求項9〜11のいずれか一項に記載のクラウドサーバ。 - 前記設定モジュールは、
前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間の設定を削除し、
前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定する
請求項12に記載のクラウドサーバ。 - 前記設定モジュールは、
前記第2の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を第1の待機時間に設定し、あるいは、
前記第2の完全度が予め設定された完全度閾値未満であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を、前記第1の待機時間より長い第2の待機時間に設定する
請求項13に記載のクラウドサーバ。 - 前記設定モジュールは、前記ユーザの音声命令または前記ユーザの補充音声命令が高頻度命令であると検出した場合、前記ユーザの音声命令または前記ユーザの補充音声命令が終了した後に前記ユーザの音声命令または前記ユーザの補充音声命令に応答する操作の待機時間を、前記第1の待機時間より小さい第3の待機時間に設定し、
前記制御モジュールは、前記第3の待機時間に基づいて前記ユーザの音声命令または前記ユーザの補充音声命令に応答するように前記音声インタラクティブ機器を制御する
請求項10または11に記載のクラウドサーバ。 - ユーザの音声命令を受信する受信モジュールと、
クラウドサーバに前記ユーザの音声命令をアップロードするアップロードモジュールと、を含み、
前記受信モジュールは、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信し、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答する応答モジュール、を含む
音声インタラクティブ機器。 - 音声インタラクティブ機器と、クラウドサーバとを含み、
前記クラウドサーバは、前記音声インタラクティブ機器と通信可能に接続され、
前記クラウドサーバは、上記請求項9〜15のいずれか一項に記載のクラウドサーバを採用し、前記音声インタラクティブ機器は、上記請求項16に記載の音声インタラクティブ機器を採用している
音声インタラクティブシステム。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1〜7のいずれか一項、または請求項8に記載の方法を実行するように、前記少なくとも1つのプロセッサによって実行される
電子機器。 - コンピュータに請求項1〜7のいずれか一項、または請求項8に記載の方法を実行させる
コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行される際に、請求項1〜7のいずれか一項、または請求項8に記載の方法を実現する
コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011246776.3A CN112466296A (zh) | 2020-11-10 | 2020-11-10 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN202011246776.3 | 2020-11-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021179642A true JP2021179642A (ja) | 2021-11-18 |
JP7262532B2 JP7262532B2 (ja) | 2023-04-21 |
Family
ID=74825542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021134212A Active JP7262532B2 (ja) | 2020-11-10 | 2021-08-19 | 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US12112746B2 (ja) |
JP (1) | JP7262532B2 (ja) |
KR (1) | KR20210088464A (ja) |
CN (1) | CN112466296A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284496B (zh) * | 2021-07-22 | 2021-10-12 | 广州小鹏汽车科技有限公司 | 语音控制方法、语音控制系统、车辆、服务器和存储介质 |
CN113903329B (zh) * | 2021-09-08 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN114078478B (zh) * | 2021-11-12 | 2022-09-23 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255972A (ja) * | 2002-03-04 | 2003-09-10 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
JP2018504623A (ja) * | 2015-09-03 | 2018-02-15 | グーグル エルエルシー | 強化された発話エンドポイント指定 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017021125A (ja) * | 2015-07-09 | 2017-01-26 | ヤマハ株式会社 | 音声対話装置 |
KR20180084394A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
JP6998517B2 (ja) * | 2017-06-14 | 2022-01-18 | パナソニックIpマネジメント株式会社 | 発話継続判定方法、発話継続判定装置およびプログラム |
CN107195303B (zh) * | 2017-06-16 | 2021-08-20 | 云知声智能科技股份有限公司 | 语音处理方法及装置 |
CN107146618A (zh) * | 2017-06-16 | 2017-09-08 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
TW201937480A (zh) * | 2018-03-01 | 2019-09-16 | 聯捷創新股份有限公司 | 適性調整語音輸入等待時間系統及其方法 |
CN109473104B (zh) * | 2018-11-07 | 2021-11-30 | 思必驰科技股份有限公司 | 语音识别网络延时优化方法及装置 |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN111627423B (zh) * | 2019-02-27 | 2023-08-04 | 百度在线网络技术(北京)有限公司 | Vad尾点检测方法、装置、服务器和计算机可读介质 |
CN111292729B (zh) * | 2020-02-06 | 2021-01-15 | 北京声智科技有限公司 | 音频数据流的处理方法和装置 |
-
2020
- 2020-11-10 CN CN202011246776.3A patent/CN112466296A/zh active Pending
-
2021
- 2021-06-24 KR KR1020210082557A patent/KR20210088464A/ko not_active Application Discontinuation
- 2021-08-19 JP JP2021134212A patent/JP7262532B2/ja active Active
- 2021-09-15 US US17/476,333 patent/US12112746B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255972A (ja) * | 2002-03-04 | 2003-09-10 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
JP2018504623A (ja) * | 2015-09-03 | 2018-02-15 | グーグル エルエルシー | 強化された発話エンドポイント指定 |
Also Published As
Publication number | Publication date |
---|---|
JP7262532B2 (ja) | 2023-04-21 |
KR20210088464A (ko) | 2021-07-14 |
US12112746B2 (en) | 2024-10-08 |
US20220005474A1 (en) | 2022-01-06 |
CN112466296A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7262532B2 (ja) | 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム | |
JP6492069B2 (ja) | 環境を認識した対話ポリシーおよび応答生成 | |
US11830482B2 (en) | Method and apparatus for speech interaction, and computer storage medium | |
JP7017598B2 (ja) | スマートデバイスのデータ処理方法、装置、機器及び記憶媒体 | |
CN112735418B (zh) | 一种语音交互的处理方法、装置、终端及存储介质 | |
JP7051799B2 (ja) | 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 | |
CN110473537B (zh) | 语音技能的控制方法、装置、设备及存储介质 | |
KR102358012B1 (ko) | 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체 | |
CN112840313B (zh) | 电子设备及其控制方法 | |
JP2022037100A (ja) | 車載機器の音声処理方法、装置、機器及び記憶媒体 | |
US11393490B2 (en) | Method, apparatus, device and computer-readable storage medium for voice interaction | |
JP7051798B2 (ja) | 音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 | |
CN112133307A (zh) | 人机交互方法、装置、电子设备及存储介质 | |
JP7051800B2 (ja) | 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 | |
JP2022024110A (ja) | 音声認識方法、装置、電子機器及び記憶媒体 | |
CN111638787A (zh) | 用于展示信息的方法和装置 | |
US20220392436A1 (en) | Method for voice recognition, electronic device and storage medium | |
US20220180865A1 (en) | Runtime topic change analyses in spoken dialog contexts | |
CN112037786B (zh) | 语音交互方法、装置、设备以及存储介质 | |
CN117891517A (zh) | 一种显示设备及语音唤醒方法 | |
JP2021056485A (ja) | 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 | |
CN111881348A (zh) | 信息处理方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7262532 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |