JP6458149B2 - 車載音声命令の認識方法、装置及び記憶媒体 - Google Patents
車載音声命令の認識方法、装置及び記憶媒体 Download PDFInfo
- Publication number
- JP6458149B2 JP6458149B2 JP2017530131A JP2017530131A JP6458149B2 JP 6458149 B2 JP6458149 B2 JP 6458149B2 JP 2017530131 A JP2017530131 A JP 2017530131A JP 2017530131 A JP2017530131 A JP 2017530131A JP 6458149 B2 JP6458149 B2 JP 6458149B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- intention
- voice command
- determining
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000000875 corresponding effect Effects 0.000 claims description 64
- 230000036651 mood Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Description
本願は、2014年06月30日に出願された、出願番号が201510382215.9、出願人が百度在線網絡技術(北京)有限公司、発明名称が「車載音声命令の認識方法及び装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本願に組み込む。
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む。
ユーザが入力した音声命令を取得するための命令取得モジュールと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するための基本情報決定モジュールと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するための意図認識モジュールと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するための信頼度決定モジュールと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するための意図決定モジュールと、
前記ユーザの真意に基づいて対応する動作を実行するための動作実行モジュールと、を備える。
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む。
本実施例は車載音声命令の認識方法の技術案を提供する。本技術案は車載音声命令の認識装置で実行されてもよい。前記車載音声命令の認識装置はネットワーク側のサーバ内に集成されてもよい。前記サーバはインターネットによってユーザが車搭載機器で入力した音声命令を受信し、受信した音声命令を処理して、処理結果に基づいて、インターネットを介して次に実行する動作を車搭載機器に指示する。前記車載音声命令の認識装置は端末側の計算装置内に集成されてもい。この場合、前記計算装置はインターネットを介せず前記音声命令を取得することができる。
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法における基本情報決定用の技術案を提供する。当該技術案では、予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップにおいては、前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するステップと、前記音声特徴パラメータ、前記位置及び前記時間を前記DNNの入力パラメータとして、前記DNNの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するページオープンと、を含む。
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップは、ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップにおいては、ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において信頼度を決定する技術案を提供する。当該技術案では、前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む。
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において信頼度を決定する技術案を提供する。当該技術案では、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む。
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において意図を決定する技術案を提供する。当該技術案では、前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む。
本実施例は前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記車載音声命令の認識方法は、ユーザの基本情報を判断するステップと、Session処理に基づいて、ユーザの可能な意図を取得するステップと、意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得するステップと、安全処理に基づいて、実行すべき動作を決定するステップと、統合判断結果に基づいて、対応した動作を実行するかどうかを決定するステップと、を含む。
本実施例は車載音声命令の認識装置の技術案を提供する。当該技術案では、前記車載音声実行認識装置は、命令取得モジュール91、基本情報決定モジュール92、意図認識モジュール93、信頼度決定モジュール94、意図決定モジュール95及び動作実行モジュール96を備える。
コンピュータプロセッサで実行されると車載音声命令の認識方法を実行するためのコンピュータ実行可能命令を含む1つ又は複数の記憶媒体であって、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップとを、含むことを特徴とする1つ又は複数のコンピュータ実行可能命令を含む記憶媒体。
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するステップと、
前記音声特徴パラメータ、位置及び時間を前記DNNの入力パラメータとして、前記DNNの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するステップとを含む。
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップ、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。
前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む。
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む。
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む。
Claims (13)
- ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む
ことを特徴とする車載音声命令の認識方法。 - 予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップにおいては、
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するステップと、
前記音声特徴パラメータ、位置及び時間を前記DNNモデルの入力パラメータとして、前記DNNモデルの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップにおいては、
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップ、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む
ことを特徴とする請求項1に記載の方法 - 前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、
前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む
ことを特徴とする請求項1に記載の方法。 - ユーザが入力した音声命令を取得するための命令取得モジュールと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するための基本情報決定モジュールと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するための意図認識モジュールと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するための信頼度決定モジュールと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するための意図決定モジュールと、
前記ユーザの真意に基づいて対応する動作を実行するための動作実行モジュールと、を備える
ことを特徴とする車載音声命令の認識装置。 - 前記基本情報決定モジュールは、
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するための特徴抽出ユニットと、
前記音声特徴パラメータ、位置及び時間を前記DNNモデルの入力パラメータとして、前記DNNモデルの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するためのDNN認識ユニットと、を備える
ことを特徴とする請求項7に記載の装置。 - 前記意図認識モジュールは、
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するための第1意図認識ユニット、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する第2意図認識ユニットを備える
ことを特徴とする請求項7に記載の装置。 - 前記信頼度決定モジュールは、
前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するための気分評価ユニットと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するための信頼度取得ユニットとを備えることを特徴とする請求項7に記載の装置。 - 前記意図決定モジュールは、
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするためのマッチングユニットと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするための真意取得ユニットと、を備える
ことを特徴とする請求項7に記載の装置。 - 前記動作実行モジュールは、
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するための第1動作実行ユニットと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるための第2動作実行ユニット、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するための第3動作実行ユニットと、を備える
ことを特徴とする請求項7に記載の装置。 - コンピュータプロセッサによって実行されると車載音声命令の認識方法を実行するための1つ又は複数のコンピュータ実行可能命令を含む記憶媒体であって、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む
ことを特徴とする1つ又は複数のコンピュータ実行可能命令を含む記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510382215.9 | 2015-07-02 | ||
CN201510382215.9A CN105070288B (zh) | 2015-07-02 | 2015-07-02 | 车载语音指令识别方法和装置 |
PCT/CN2015/095269 WO2017000489A1 (zh) | 2015-07-02 | 2015-11-23 | 车载语音指令识别方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018503857A JP2018503857A (ja) | 2018-02-08 |
JP6458149B2 true JP6458149B2 (ja) | 2019-01-23 |
Family
ID=54499641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017530131A Active JP6458149B2 (ja) | 2015-07-02 | 2015-11-23 | 車載音声命令の認識方法、装置及び記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10446150B2 (ja) |
EP (1) | EP3319081A4 (ja) |
JP (1) | JP6458149B2 (ja) |
KR (1) | KR101955958B1 (ja) |
CN (1) | CN105070288B (ja) |
WO (1) | WO2017000489A1 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070288B (zh) | 2015-07-02 | 2018-08-07 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105376416A (zh) * | 2015-12-04 | 2016-03-02 | 广东小天才科技有限公司 | 一种通话终端的控制方法和装置 |
CN106910513A (zh) * | 2015-12-22 | 2017-06-30 | 微软技术许可有限责任公司 | 情绪智能聊天引擎 |
CN105529030B (zh) * | 2015-12-29 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106940998B (zh) * | 2015-12-31 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN105931642B (zh) * | 2016-05-31 | 2020-11-10 | 北京京东尚科信息技术有限公司 | 语音识别方法、设备及系统 |
CN106228989A (zh) * | 2016-08-05 | 2016-12-14 | 易晓阳 | 一种语音交互识别控制方法 |
CN106601231A (zh) * | 2016-12-22 | 2017-04-26 | 深圳市元征科技股份有限公司 | 车辆控制方法和装置 |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
CN107424607B (zh) * | 2017-07-04 | 2023-06-06 | 珠海格力电器股份有限公司 | 语音控制模式切换方法、装置及具有该装置的设备 |
CN107316643B (zh) * | 2017-07-04 | 2021-08-17 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
CN107464115A (zh) * | 2017-07-20 | 2017-12-12 | 北京小米移动软件有限公司 | 个人特征信息验证方法及装置 |
CN107507621B (zh) * | 2017-07-28 | 2021-06-22 | 维沃移动通信有限公司 | 一种噪声抑制方法及移动终端 |
CN107590123B (zh) * | 2017-08-07 | 2022-07-05 | 大众问问(北京)信息科技有限公司 | 车载中地点上下文指代消解方法及装置 |
CN107945796B (zh) * | 2017-11-13 | 2021-05-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读介质 |
CN108564374A (zh) * | 2018-04-12 | 2018-09-21 | 出门问问信息科技有限公司 | 支付认证方法、装置、设备及存储介质 |
CN108648752A (zh) * | 2018-04-17 | 2018-10-12 | 重庆物奇科技有限公司 | 一种基于云处理的智能语音控制系统及其控制方法 |
CN110390938A (zh) * | 2018-04-20 | 2019-10-29 | 比亚迪股份有限公司 | 基于声纹的语音处理方法、装置和终端设备 |
CN110019740B (zh) * | 2018-05-23 | 2021-10-01 | 京东方科技集团股份有限公司 | 车载终端的交互方法、车载终端、服务器和存储介质 |
CN109263649B (zh) * | 2018-08-21 | 2021-09-17 | 北京汽车股份有限公司 | 车辆及其自动驾驶模式下的物体识别方法和物体识别系统 |
CN110875038A (zh) * | 2018-09-03 | 2020-03-10 | 蔚来汽车有限公司 | 意图行为关系的定义方法及意图转换为行为的执行方法 |
KR20200042627A (ko) | 2018-10-16 | 2020-04-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN109618204B (zh) * | 2018-12-12 | 2021-04-23 | 百度在线网络技术(北京)有限公司 | 多媒体资源播放方法和装置 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
KR102041617B1 (ko) * | 2019-03-07 | 2019-11-27 | 주식회사 다이얼로그디자인에이전시 | 인공 지능의 다양한 스타일의 응답 제공 방법 및 장치 |
CN109948537A (zh) * | 2019-03-19 | 2019-06-28 | 苏州宏裕千智能设备科技有限公司 | 基于用户意图识别的车载设备操控方法及其系统 |
CN113460070B (zh) * | 2019-03-21 | 2022-12-16 | 百度在线网络技术(北京)有限公司 | 车辆控制方法和装置 |
KR102017229B1 (ko) * | 2019-04-15 | 2019-09-02 | 미디어젠(주) | 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 |
CN110276072B (zh) * | 2019-06-10 | 2021-07-23 | 湖北亿咖通科技有限公司 | 电子设备、存储介质及基于神经网络的语义意图识别方法 |
CN110400563A (zh) * | 2019-07-18 | 2019-11-01 | 平安科技(深圳)有限公司 | 车载语音指令识别方法、装置、计算机设备及存储介质 |
US11568239B2 (en) * | 2019-08-13 | 2023-01-31 | Lg Electronics Inc. | Artificial intelligence server and method for providing information to user |
CN110534093A (zh) * | 2019-08-26 | 2019-12-03 | 河北微幼趣教育科技有限公司 | 对幼儿语音识别的请假方法、服务器、客户端 |
CN110534098A (zh) * | 2019-10-09 | 2019-12-03 | 国家电网有限公司客户服务中心 | 一种年龄增强的语音识别增强方法和装置 |
CN110648654A (zh) * | 2019-10-09 | 2020-01-03 | 国家电网有限公司客户服务中心 | 一种引入语言向量的语音识别增强方法和装置 |
CN110853621B (zh) * | 2019-10-09 | 2024-02-13 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN110795532A (zh) * | 2019-10-18 | 2020-02-14 | 珠海格力电器股份有限公司 | 一种语音信息的处理方法、装置、智能终端以及存储介质 |
US11676586B2 (en) * | 2019-12-10 | 2023-06-13 | Rovi Guides, Inc. | Systems and methods for providing voice command recommendations |
CN111081225B (zh) * | 2019-12-31 | 2022-04-01 | 思必驰科技股份有限公司 | 技能语音唤醒方法及装置 |
CN111261196A (zh) * | 2020-01-17 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种年龄预估方法和装置以及设备 |
CN111210821A (zh) * | 2020-02-07 | 2020-05-29 | 普强时代(珠海横琴)信息技术有限公司 | 一种基于互联网应用的智能语音识别系统 |
US11722324B2 (en) * | 2020-03-11 | 2023-08-08 | Pricewaterhousecoopers Llp | Secure and accountable execution of robotic process automation |
CN111737544A (zh) * | 2020-05-13 | 2020-10-02 | 北京三快在线科技有限公司 | 搜索意图识别方法、装置、电子设备和存储介质 |
CN111767021A (zh) * | 2020-06-28 | 2020-10-13 | 广州小鹏车联网科技有限公司 | 语音交互方法、车辆、服务器、系统和存储介质 |
KR102491119B1 (ko) * | 2020-09-17 | 2023-01-25 | 주식회사 인텔로이드 | 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램 |
CN112489639A (zh) * | 2020-11-26 | 2021-03-12 | 北京百度网讯科技有限公司 | 音频信号处理方法及装置、系统、电子设备、可读介质 |
CN112466280B (zh) * | 2020-12-01 | 2021-12-24 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
DE102021129535A1 (de) * | 2021-11-12 | 2023-05-17 | Ford Global Technologies, Llc | System und Verfahren zum Steuern von autonom steuerbaren Fahrzeugfunktionen eines mit Partnersubjekten kooperierenden autonomen Fahrzeugs, Computerprogrammprodukt, computerlesbarer Datenträger und Fahrzeug |
CN114120972B (zh) * | 2022-01-28 | 2022-04-12 | 科大讯飞华南有限公司 | 一种基于场景化的语音智能识别方法及系统 |
CN115056746A (zh) * | 2022-06-10 | 2022-09-16 | 浙江吉利控股集团有限公司 | 应用于车辆的用户意图识别方法、装置、设备 |
CN115294976A (zh) * | 2022-06-23 | 2022-11-04 | 中国第一汽车股份有限公司 | 一种基于车载语音场景的纠错交互方法、系统及其车辆 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05157311A (ja) * | 1991-12-03 | 1993-06-22 | Matsushita Electric Ind Co Ltd | 空調制御装置 |
KR100775006B1 (ko) * | 2005-11-30 | 2007-11-08 | 한국정보통신대학교 산학협력단 | 상황인지 기반의 이동 서비스를 제공하는 단말 장치 및 그방법과, 그 단말 장치와 협력하여 옥내 이동 서비스를제공하는 서버 시스템 |
KR100764174B1 (ko) * | 2006-03-03 | 2007-10-08 | 삼성전자주식회사 | 음성 대화 서비스 장치 및 방법 |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
WO2011059997A1 (en) * | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
CN103024530A (zh) * | 2012-12-18 | 2013-04-03 | 天津三星电子有限公司 | 智能电视语音应答系统及方法 |
JP2016508271A (ja) * | 2013-01-04 | 2016-03-17 | コピン コーポレーション | 制御可能なヘッドセットコンピュータディスプレイ |
DE212014000045U1 (de) * | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9177550B2 (en) * | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
DE112014005354T5 (de) * | 2013-11-25 | 2016-08-04 | Mitsubishi Electric Corporation | Dialog-management-system und dialog-management-verfahren |
CN104751842B (zh) * | 2013-12-31 | 2019-11-15 | 科大讯飞股份有限公司 | 深度神经网络的优化方法及系统 |
CN104021373B (zh) * | 2014-05-27 | 2017-02-15 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
US9338493B2 (en) * | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105070288B (zh) | 2015-07-02 | 2018-08-07 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
EP3335133A4 (en) * | 2015-10-27 | 2018-07-04 | Beijing Didi Infinity Technology and Development Co., Ltd. | Systems and methods for delivering a message |
US20170357521A1 (en) * | 2016-06-13 | 2017-12-14 | Microsoft Technology Licensing, Llc | Virtual keyboard with intent-based, dynamically generated task icons |
US20180046470A1 (en) * | 2016-08-11 | 2018-02-15 | Google Inc. | Methods, systems, and media for presenting a user interface customized for a predicted user activity |
US10176808B1 (en) * | 2017-06-20 | 2019-01-08 | Microsoft Technology Licensing, Llc | Utilizing spoken cues to influence response rendering for virtual assistants |
-
2015
- 2015-07-02 CN CN201510382215.9A patent/CN105070288B/zh active Active
- 2015-11-23 US US15/738,946 patent/US10446150B2/en active Active
- 2015-11-23 KR KR1020177014756A patent/KR101955958B1/ko active IP Right Grant
- 2015-11-23 WO PCT/CN2015/095269 patent/WO2017000489A1/zh active Application Filing
- 2015-11-23 EP EP15897016.0A patent/EP3319081A4/en not_active Ceased
- 2015-11-23 JP JP2017530131A patent/JP6458149B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR20170078788A (ko) | 2017-07-07 |
WO2017000489A1 (zh) | 2017-01-05 |
CN105070288A (zh) | 2015-11-18 |
EP3319081A4 (en) | 2018-07-04 |
KR101955958B1 (ko) | 2019-03-08 |
JP2018503857A (ja) | 2018-02-08 |
EP3319081A1 (en) | 2018-05-09 |
US10446150B2 (en) | 2019-10-15 |
US20180190283A1 (en) | 2018-07-05 |
CN105070288B (zh) | 2018-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6458149B2 (ja) | 車載音声命令の認識方法、装置及び記憶媒体 | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
CN109920410B (zh) | 用于基于车辆的环境确定推荐的可靠性的装置和方法 | |
CN111191450B (zh) | 语料清洗方法、语料录入设备及计算机可读存储介质 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN111312218B (zh) | 神经网络的训练和语音端点检测方法及装置 | |
EP4125029A1 (en) | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium | |
CN112468659B (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN111341318B (zh) | 说话者角色确定方法、装置、设备及存储介质 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN113327620A (zh) | 声纹识别的方法和装置 | |
CN112579760A (zh) | 人机对话方法、装置、计算机设备及可读存储介质 | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
CN114548119A (zh) | 测试集的生成方法、测试方法、装置、设备及介质 | |
CN113821620A (zh) | 多轮对话任务处理方法、装置及电子设备 | |
CN113724693B (zh) | 语音判别方法、装置、电子设备及存储介质 | |
CN115883878A (zh) | 视频剪辑方法、装置、电子设备及存储介质 | |
CN115457951A (zh) | 一种语音控制方法、装置、电子设备以及存储介质 | |
CN113836273A (zh) | 基于复杂语境的法律咨询方法及相关设备 | |
CN111081256A (zh) | 数字串声纹密码验证方法及系统 | |
CN113779300A (zh) | 语音输入引导方法、装置和车机 | |
CN115934920B (zh) | 针对人机对话的模型训练方法及相关装置 | |
CN117034952A (zh) | 语义理解方法、电子设备和存储介质 | |
CN115083441A (zh) | 转向灯音频的识别方法、装置、设备及存储介质 | |
CN112464830A (zh) | 驾驶员分心检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6458149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |