JP2021140134A - 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents
音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2021140134A JP2021140134A JP2020157479A JP2020157479A JP2021140134A JP 2021140134 A JP2021140134 A JP 2021140134A JP 2020157479 A JP2020157479 A JP 2020157479A JP 2020157479 A JP2020157479 A JP 2020157479A JP 2021140134 A JP2021140134 A JP 2021140134A
- Authority
- JP
- Japan
- Prior art keywords
- text
- valid
- slot
- analysis result
- current text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000004044 response Effects 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 47
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000003111 delayed effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項1:
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するステップと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するステップと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するステップと、
前記有効な意図のスロットに対応する命令を出力するステップと
を含む、音声を認識するための方法。
請求項2:
前記方法は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップをさらに含む、請求項1に記載の方法。
請求項3:
前記方法は、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップと、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと
をさらに含む、請求項2に記載の方法。
請求項4:
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
前記現在のテキストと前記履歴テキストとをスプライシングするステップと、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、を含む、請求項3に記載の方法。
請求項5:
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するステップと
を含む、請求項4に記載の方法。
請求項6:
前記方法は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングするステップと、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すステップと
をさらに含む、請求項1〜5のいずれか一項に記載の方法。
請求項7:
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するように構成された変換ユニットと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニットと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニットと、
前記有効な意図のスロットに対応する命令を出力するように構成された出力ユニットと
を含む、音声を認識するための装置。
請求項8:
前記装置は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニットをさらに含む、請求項7に記載の装置。
請求項9:
前記スプライシングユニットはさらに、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている、請求項8に記載の装置。
請求項10:
前記スプライシングユニットはさらに、
前記現在のテキストと前記履歴テキストとをスプライシングし、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている、請求項9に記載の装置。
請求項11:
前記スプライシングユニットはさらに、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するように構成されている、請求項10に記載の装置。
請求項12:
前記装置は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングし、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む、請求項7〜11のいずれか一項に記載の装置。
請求項13:
1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を含む音声を認識するための電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1〜6のいずれか一項に記載の方法を実施する、音声を認識するための電子機器。
請求項14:
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜6のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
Claims (14)
- 音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するステップと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するステップと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するステップと、
前記有効な意図のスロットに対応する命令を出力するステップと
を含む、音声を認識するための方法。 - 前記方法は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップをさらに含む、請求項1に記載の方法。 - 前記方法は、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップと、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと
をさらに含む、請求項2に記載の方法。 - 前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
前記現在のテキストと前記履歴テキストとをスプライシングするステップと、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、を含む、請求項3に記載の方法。 - 前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するステップと
を含む、請求項4に記載の方法。 - 前記方法は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングするステップと、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すステップと
をさらに含む、請求項1〜5のいずれか一項に記載の方法。 - 音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するように構成された変換ユニットと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニットと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニットと、
前記有効な意図のスロットに対応する命令を出力するように構成された出力ユニットと
を含む、音声を認識するための装置。 - 前記装置は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニットをさらに含む、請求項7に記載の装置。 - 前記スプライシングユニットはさらに、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている、請求項8に記載の装置。 - 前記スプライシングユニットはさらに、
前記現在のテキストと前記履歴テキストとをスプライシングし、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている、請求項9に記載の装置。 - 前記スプライシングユニットはさらに、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するように構成されている、請求項10に記載の装置。 - 前記装置は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングし、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む、請求項7〜11のいずれか一項に記載の装置。 - 1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を含む音声を認識するための電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1〜6のいずれか一項に記載の方法を実施する、音声を認識するための電子機器。 - コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜6のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143037.5A CN113362828B (zh) | 2020-03-04 | 2020-03-04 | 用于识别语音的方法和装置 |
CN202010143037.5 | 2020-03-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021140134A true JP2021140134A (ja) | 2021-09-16 |
JP7365985B2 JP7365985B2 (ja) | 2023-10-20 |
Family
ID=72474202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020157479A Active JP7365985B2 (ja) | 2020-03-04 | 2020-09-18 | 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11416687B2 (ja) |
EP (1) | EP3876231A1 (ja) |
JP (1) | JP7365985B2 (ja) |
CN (1) | CN113362828B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903342B (zh) * | 2021-10-29 | 2022-09-13 | 镁佳(北京)科技有限公司 | 一种语音识别纠错方法及装置 |
CN114299941B (zh) * | 2021-11-12 | 2024-08-06 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
US20230230578A1 (en) * | 2022-01-20 | 2023-07-20 | Google Llc | Personalized speech query endpointing based on prior interaction(s) |
CN114582333A (zh) * | 2022-02-21 | 2022-06-03 | 中国第一汽车股份有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN114898755B (zh) * | 2022-07-14 | 2023-01-17 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
CN115457959B (zh) * | 2022-11-08 | 2023-02-10 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003015686A (ja) * | 2001-06-29 | 2003-01-17 | Toshiba Corp | 音声対話装置、音声対話方法及び音声対話処理プログラム |
JP2003216179A (ja) * | 2002-01-24 | 2003-07-30 | Nec Corp | 音声認識システム |
JP2015099253A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
JP2017516153A (ja) * | 2014-05-20 | 2017-06-15 | アマゾン テクノロジーズ インコーポレイテッド | 以前の対話行為を使用する自然言語処理における文脈解釈 |
JP2018504623A (ja) * | 2015-09-03 | 2018-02-15 | グーグル エルエルシー | 強化された発話エンドポイント指定 |
JP2018151631A (ja) * | 2017-03-10 | 2018-09-27 | サウンドハウンド,インコーポレイテッド | ドメイン曖昧性除去を含む音声対応システム |
WO2019031268A1 (ja) * | 2017-08-09 | 2019-02-14 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
JP2019534492A (ja) * | 2016-08-18 | 2019-11-28 | ハイパーコネクト インコーポレイテッド | 通訳装置及び方法(device and method of translating a language into another language) |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138100A (en) * | 1998-04-14 | 2000-10-24 | At&T Corp. | Interface for a voice-activated connection system |
US6813603B1 (en) * | 2000-01-26 | 2004-11-02 | Korteam International, Inc. | System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form |
US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US11068657B2 (en) * | 2010-06-28 | 2021-07-20 | Skyscanner Limited | Natural language question answering system and method based on deep semantics |
US9437186B1 (en) | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
US10614799B2 (en) * | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US9818404B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Environmental noise detection for dialog systems |
US10152965B2 (en) * | 2016-02-03 | 2018-12-11 | Google Llc | Learning personalized entity pronunciations |
US10140988B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
CN107665706B (zh) * | 2016-07-29 | 2021-05-04 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
US10331791B2 (en) * | 2016-11-23 | 2019-06-25 | Amazon Technologies, Inc. | Service for developing dialog-driven applications |
KR20180084394A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
CN106874259B (zh) | 2017-02-23 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种基于状态机的语义解析方法及装置、设备 |
KR102398649B1 (ko) * | 2017-03-28 | 2022-05-17 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
CN107146602B (zh) * | 2017-04-10 | 2020-10-02 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107195303B (zh) * | 2017-06-16 | 2021-08-20 | 云知声智能科技股份有限公司 | 语音处理方法及装置 |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN107992587A (zh) * | 2017-12-08 | 2018-05-04 | 北京百度网讯科技有限公司 | 一种浏览器的语音交互方法、装置、终端和存储介质 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10943606B2 (en) | 2018-04-12 | 2021-03-09 | Qualcomm Incorporated | Context-based detection of end-point of utterance |
KR102096590B1 (ko) * | 2018-08-14 | 2020-04-06 | 주식회사 알티캐스트 | Gui 음성제어 장치 및 방법 |
CN109447819A (zh) * | 2018-09-03 | 2019-03-08 | 中国平安人寿保险股份有限公司 | 一种智能话术提醒方法、系统及终端设备 |
US10825450B2 (en) * | 2018-10-25 | 2020-11-03 | Motorola Solutions, Inc. | Methods and systems for providing a response to an audio query where the response is determined to have a public safety impact |
CN109599130B (zh) * | 2018-12-10 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 收音方法、装置及存储介质 |
CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN109979437B (zh) * | 2019-03-01 | 2022-05-20 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110287303B (zh) * | 2019-06-28 | 2021-08-20 | 北京猎户星空科技有限公司 | 人机对话处理方法、装置、电子设备及存储介质 |
US11551665B2 (en) * | 2019-09-12 | 2023-01-10 | Oracle International Corporation | Dynamic contextual dialog session extension |
US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
-
2020
- 2020-03-04 CN CN202010143037.5A patent/CN113362828B/zh active Active
- 2020-09-10 US US17/017,510 patent/US11416687B2/en active Active
- 2020-09-14 EP EP20195910.3A patent/EP3876231A1/en not_active Ceased
- 2020-09-18 JP JP2020157479A patent/JP7365985B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003015686A (ja) * | 2001-06-29 | 2003-01-17 | Toshiba Corp | 音声対話装置、音声対話方法及び音声対話処理プログラム |
JP2003216179A (ja) * | 2002-01-24 | 2003-07-30 | Nec Corp | 音声認識システム |
JP2015099253A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
JP2017516153A (ja) * | 2014-05-20 | 2017-06-15 | アマゾン テクノロジーズ インコーポレイテッド | 以前の対話行為を使用する自然言語処理における文脈解釈 |
JP2018504623A (ja) * | 2015-09-03 | 2018-02-15 | グーグル エルエルシー | 強化された発話エンドポイント指定 |
JP2019534492A (ja) * | 2016-08-18 | 2019-11-28 | ハイパーコネクト インコーポレイテッド | 通訳装置及び方法(device and method of translating a language into another language) |
JP2018151631A (ja) * | 2017-03-10 | 2018-09-27 | サウンドハウンド,インコーポレイテッド | ドメイン曖昧性除去を含む音声対応システム |
WO2019031268A1 (ja) * | 2017-08-09 | 2019-02-14 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113362828A (zh) | 2021-09-07 |
CN113362828B (zh) | 2022-07-05 |
EP3876231A1 (en) | 2021-09-08 |
US11416687B2 (en) | 2022-08-16 |
JP7365985B2 (ja) | 2023-10-20 |
US20210279418A1 (en) | 2021-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887604B1 (en) | Speech interface device with caching component | |
JP2021140134A (ja) | 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
KR100908358B1 (ko) | 음성 인식을 위한 방법, 모듈, 디바이스 및 서버 | |
JP6078964B2 (ja) | 音声対話システム及びプログラム | |
EP2411977B1 (en) | Service oriented speech recognition for in-vehicle automated interaction | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN109754809B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US8484031B1 (en) | Automated speech recognition proxy system for natural language understanding | |
US20150073802A1 (en) | Dealing with switch latency in speech recognition | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
US20120253823A1 (en) | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing | |
US20110110502A1 (en) | Real time automatic caller speech profiling | |
CN111916062B (zh) | 语音识别方法、装置和系统 | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
WO2023109129A1 (zh) | 语音数据的处理方法及装置 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
CA2839285A1 (en) | Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
TW201828279A (zh) | 語音識別方法及裝置 | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
Bagein et al. | Enabling speech based access to information management systems over wireless network | |
JP2003228393A (ja) | 音声対話装置及び方法、音声対話プログラム並びにその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201224 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201224 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20211101 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220915 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7365985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |