JP7343087B2 - 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 - Google Patents
音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JP7343087B2 JP7343087B2 JP2021570241A JP2021570241A JP7343087B2 JP 7343087 B2 JP7343087 B2 JP 7343087B2 JP 2021570241 A JP2021570241 A JP 2021570241A JP 2021570241 A JP2021570241 A JP 2021570241A JP 7343087 B2 JP7343087 B2 JP 7343087B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- response information
- dynamic target
- target language
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 138
- 230000004044 response Effects 0.000 claims description 403
- 230000005236 sound signal Effects 0.000 claims description 157
- 230000015654 memory Effects 0.000 claims description 53
- 230000007704 transition Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 15
- 230000003139 buffering effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 description 27
- 230000003993 interaction Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
装置は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、第1取得モジュールと、音声信号を取得し、かつ、音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、第1決定モジュールとを含む。
オプションで、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。
この装置は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュール901であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、第1取得モジュール901と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成するように構成される第2取得モジュール902と、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュール903であって、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、第1決定モジュール903とを含む。
[他の考えられる項目]
(項目1)
音声認識方法であって、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を備える方法。
(項目2)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を備える、項目1に記載の方法。
(項目3)
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を有する、
項目2に記載の方法。
(項目4)
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を備え、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を有する、
項目1から3のいずれか一項に記載の方法。
(項目5)
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を有する、項目1から4のいずれか一項に記載の方法。
(項目6)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目5に記載の方法。
(項目7)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目5に記載の方法。
(項目8)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目5に記載の方法。
(項目9)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目8に記載の方法。
(項目10)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目8に記載の方法。
(項目11)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目8に記載の方法。
(項目12)
音声認識装置であって、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、第1取得モジュールと、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、第1決定モジュールと
を備える装置。
(項目13)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記装置は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールであって、上記動的目標言語モデルの上記後端部分は、上記キーワードに基づき上記更なる意図を解析する、第2決定モジュール
を備える、項目12に記載の装置。
(項目14)
上記後端部分は後端指示語を含み、
上記第2決定モジュールは、上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析することと、上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析することとを行うように構成される、
項目13に記載の装置。
(項目15)
上記装置は更に、
過去の音声信号をバッファリングするように構成されるバッファモジュール
を備え、
上記第2取得モジュールは、上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成するように構成される、
項目12から14のいずれか一項に記載の装置。
(項目16)
上記第1取得モジュールは、上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成するように構成される、項目12から15のいずれか一項に記載の装置。
(項目17)
上記第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用することであって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される、項目16に記載の装置。
(項目18)
上記第1取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、使用することと、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用することと
を行うように構成される、項目16に記載の装置。
(項目19)
上記第1取得モジュールは、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、項目16に記載の装置。
(項目20)
上記算出ユニットは、任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用するように構成される、項目19に記載の装置。
(項目21)
上記算出ユニットは、任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用するように構成される、項目19に記載の装置。
(項目22)
上記算出ユニットは、任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用するように構成される、項目19に記載の装置。
(項目23)
メモリとプロセッサとを備える音声認識デバイスであって、上記メモリは少なくとも1つの命令を記憶し、上記少なくとも1つの命令は、音声認識方法を実装するために上記プロセッサによりロードおよび実行され、上記方法は、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を含む、デバイス。
(項目24)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を含む、項目23に記載の音声認識デバイス。
(項目25)
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を含む、
項目24に記載の音声認識デバイス。
(項目26)
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を含み、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を含む、
項目23から25のいずれか一項に記載の音声認識デバイス。
(項目27)
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を含む、項目23から26のいずれか一項に記載の音声認識デバイス。
(項目28)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目27に記載の音声認識デバイス。
(項目29)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目27に記載の音声認識デバイス。
(項目30)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目27に記載の音声認識デバイス。
(項目31)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目30に記載の音声認識デバイス。
(項目32)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目30に記載の音声認識デバイス。
(項目33)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目30に記載の音声認識デバイス。
(項目34)
コンピュータ可読記憶媒体であって、上記コンピュータ可読記憶媒体は少なくとも1つの命令を記憶し、上記命令は、音声認識方法を実装するためにプロセッサによりロードおよび実行され、上記方法は、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を含む、コンピュータ可読記憶媒体。
(項目35)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を含む、項目34に記載のコンピュータ可読記憶媒体。
(項目36)
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を含む、
項目35に記載のコンピュータ可読記憶媒体。
(項目37)
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を含み、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を含む、
項目34から36のいずれか一項に記載のコンピュータ可読記憶媒体。
(項目38)
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を含む、項目34から37のいずれか一項に記載のコンピュータ可読記憶媒体。
(項目39)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目38に記載のコンピュータ可読記憶媒体。
(項目40)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目38に記載のコンピュータ可読記憶媒体。
(項目41)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目38に記載のコンピュータ可読記憶媒体。
(項目42)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目41に記載のコンピュータ可読記憶媒体。
(項目43)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目41に記載のコンピュータ可読記憶媒体。
(項目44)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目41に記載のコンピュータ可読記憶媒体。
Claims (31)
- 音声認識方法であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第1意図に関連するキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
を備える方法。 - 前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記方法は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第3キーワードに基づき前記更なる意図を解析する段階
を備える、請求項1に記載の方法。 - 音声認識方法であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
を備え、
前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記方法は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第3キーワードに基づき前記更なる意図を解析する段階
を備える方法。 - 前記後端部分は後端指示語を含み、
前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第3キーワードに基づき前記更なる意図を解析する前記段階は、
前記後端部分を使用することにより前記第3キーワードに基づき、参照後端指示語と前記参照後端指示語が位置する時点とを解析する段階と、
前記第1意図および前記第2意図を参照して前記参照後端指示語に基づき前記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
前記更新された目標言語モデルを呼び出して、前記第3キーワードと前記参照後端指示語が位置する前記時点とに基づき前記更なる意図を解析する段階と
を有する、
請求項2または3に記載の方法。 - 音声信号を取得する前記段階の前に、前記方法は更に、
過去の音声信号をバッファリングする段階
を備え、
前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第1意図に関連するキーワードを生成する前記段階は、
前記音声信号を解析し、かつ、前記過去の音声信号を使用することによりコンテキスト検出を行って前記第1意図に関連する前記キーワードを生成する段階
を有する、
請求項1から4のいずれか一項に記載の方法。 - 第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
を有する、請求項1から5のいずれか一項に記載の方法。 - 前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを前記動的目標言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の前記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、請求項6に記載の方法。 - 前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、段階と、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、請求項6に記載の方法。 - 音声認識方法であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
を備え、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
を有し、
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、段階と、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、方法。 - 前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、請求項6に記載の方法。 - 音声認識方法であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
を備え、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
を有し、
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、方法。 - 各語彙のペナルティ重みを算出する前記段階は、
任意の語彙について、前記語彙の遷移確率の負対数値を前記ペナルティ重みとして使用する段階
を含む、請求項10または11に記載の方法。 - 各語彙のペナルティ重みを算出する前記段階は、
任意の語彙について、前記語彙を含む前記参照形式の返答情報の数の対数値を前記ペナルティ重みとして使用する段階
を含む、請求項10または11に記載の方法。 - 各語彙のペナルティ重みを算出する前記段階は、
任意の語彙について、前記参照形式の前記返答情報における前記語彙の出現回数の対数値を前記ペナルティ重みとして使用する段階
を含む、請求項10または11に記載の方法。 - 音声認識装置であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
音声信号を取得し、かつ、前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第1意図に関連するキーワードを生成するように構成される第2取得モジュールと、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
を備える装置。 - 前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記装置は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールであって、前記動的目標言語モデルの前記後端部分は、第3キーワードに基づき前記更なる意図を解析する、第2決定モジュール
を備える、請求項15に記載の装置。 - 音声認識装置であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
を備え、
前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記装置は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールであって、前記動的目標言語モデルの前記後端部分は、第3キーワードに基づき前記更なる意図を解析する、第2決定モジュール
を備える、装置。 - 前記後端部分は後端指示語を含み、
前記第2決定モジュールは、前記後端部分を使用することにより前記第3キーワードに基づき、参照後端指示語と前記参照後端指示語が位置する時点とを解析することと、前記第1意図および前記第2意図を参照して前記参照後端指示語に基づき前記動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、前記更新された目標言語モデルを呼び出して、前記第3キーワードと前記参照後端指示語が位置する前記時点とに基づき前記更なる意図を解析することとを行うように構成される、
請求項16または17に記載の装置。 - 前記装置は更に、
過去の音声信号をバッファリングするように構成されるバッファモジュール
を備え、
前記第2取得モジュールは、前記音声信号を解析し、かつ、前記過去の音声信号を使用することによりコンテキスト検出を行って前記第1意図に関連する前記キーワードを生成するように構成される、
請求項15から18のいずれか一項に記載の装置。 - 前記第1取得モジュールは、前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成される、請求項15から19のいずれか一項に記載の装置。
- 前記第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを前記動的目標言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の前記返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される、請求項20に記載の装置。
- 前記第1取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、使用することと、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用することと
を行うように構成される、請求項20に記載の装置。 - 音声認識装置であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
を備え、
前記第1取得モジュールは、前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成され、
前記第1取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、使用することと、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用することと
を行うように構成される、装置。 - 前記第1取得モジュールは、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、請求項20に記載の装置。 - 音声認識装置であって、
第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
を備え、
前記第1取得モジュールは、前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成され、
前記第1取得モジュールは、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、
前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、
前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、装置。 - 前記算出ユニットは、任意の語彙について、前記語彙の遷移確率の負対数値を前記ペナルティ重みとして使用するように構成される、請求項24または25に記載の装置。
- 前記算出ユニットは、任意の語彙について、前記語彙を含む前記参照形式の返答情報の数の対数値を前記ペナルティ重みとして使用するように構成される、請求項24または25に記載の装置。
- 前記算出ユニットは、任意の語彙について、前記参照形式の前記返答情報における前記語彙の出現回数の対数値を前記ペナルティ重みとして使用するように構成される、請求項24または25に記載の装置。
- メモリとプロセッサとを備える音声認識デバイスであって、前記メモリは少なくとも1つの命令を記憶し、前記少なくとも1つの命令は、請求項1から14のいずれか一項に記載の方法を実装するために前記プロセッサによりロードおよび実行される、デバイス。
- コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は少なくとも1つの命令を記憶し、前記命令は、請求項1から14のいずれか一項に記載の方法を実装するためにプロセッサによりロードおよび実行される、コンピュータ可読記憶媒体。
- プロセッサにより実行されると、請求項1から14のいずれか一項に記載の方法の段階を前記プロセッサに実施させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910470966.4A CN112017642B (zh) | 2019-05-31 | 2019-05-31 | 语音识别的方法、装置、设备及计算机可读存储介质 |
CN201910470966.4 | 2019-05-31 | ||
PCT/CN2020/079522 WO2020238341A1 (zh) | 2019-05-31 | 2020-03-16 | 语音识别的方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022534242A JP2022534242A (ja) | 2022-07-28 |
JP7343087B2 true JP7343087B2 (ja) | 2023-09-12 |
Family
ID=73501103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021570241A Active JP7343087B2 (ja) | 2019-05-31 | 2020-03-16 | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220093087A1 (ja) |
EP (1) | EP3965101A4 (ja) |
JP (1) | JP7343087B2 (ja) |
CN (1) | CN112017642B (ja) |
WO (1) | WO2020238341A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331210B (zh) * | 2021-01-05 | 2021-05-18 | 太极计算机股份有限公司 | 一种语音识别装置 |
US11984125B2 (en) * | 2021-04-23 | 2024-05-14 | Cisco Technology, Inc. | Speech recognition using on-the-fly-constrained language model per utterance |
CN114882886A (zh) * | 2022-04-27 | 2022-08-09 | 卡斯柯信号有限公司 | Ctc仿真实训语音识别处理方法、存储介质和电子设备 |
CN117112065B (zh) * | 2023-08-30 | 2024-06-25 | 北京百度网讯科技有限公司 | 大模型插件调用方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004523004A (ja) | 2001-03-01 | 2004-07-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 階層言語モデル |
JP2004333870A (ja) | 2003-05-08 | 2004-11-25 | Nissan Motor Co Ltd | 移動体用音声認識装置 |
JP2006023345A (ja) | 2004-07-06 | 2006-01-26 | Alpine Electronics Inc | テレビ画像自動キャプチャー方法及び装置 |
JP2008506156A (ja) | 2004-07-06 | 2008-02-28 | ボクシィファイ, インコーポレイテッド | マルチスロット対話システムおよび方法 |
JP2015081971A (ja) | 2013-10-22 | 2015-04-27 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
US20150279360A1 (en) | 2014-04-01 | 2015-10-01 | Google Inc. | Language modeling in speech recognition |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US7328155B2 (en) * | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
JP4846336B2 (ja) * | 2005-10-21 | 2011-12-28 | 株式会社ユニバーサルエンターテインメント | 会話制御装置 |
JP5149737B2 (ja) * | 2008-08-20 | 2013-02-20 | 株式会社ユニバーサルエンターテインメント | 自動会話システム、並びに会話シナリオ編集装置 |
US8990085B2 (en) * | 2009-09-30 | 2015-03-24 | At&T Intellectual Property I, L.P. | System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model |
KR20100012051A (ko) * | 2010-01-12 | 2010-02-04 | 주식회사 다날 | 스타 음성 메시지 청취 시스템 |
US8938391B2 (en) * | 2011-06-12 | 2015-01-20 | Microsoft Corporation | Dynamically adding personalization features to language models for voice search |
US9082403B2 (en) * | 2011-12-15 | 2015-07-14 | Microsoft Technology Licensing, Llc | Spoken utterance classification training for a speech recognition system |
US9922642B2 (en) * | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US10460720B2 (en) * | 2015-01-03 | 2019-10-29 | Microsoft Technology Licensing, Llc. | Generation of language understanding systems and methods |
CN105590626B (zh) * | 2015-12-29 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 持续语音人机交互方法和系统 |
CN105529030B (zh) * | 2015-12-29 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN105632495B (zh) * | 2015-12-30 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10832664B2 (en) * | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10217458B2 (en) * | 2016-09-23 | 2019-02-26 | Intel Corporation | Technologies for improved keyword spotting |
CN106486120B (zh) * | 2016-10-21 | 2019-11-12 | 上海智臻智能网络科技股份有限公司 | 交互式语音应答方法及应答系统 |
CN106448670B (zh) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN107240394A (zh) * | 2017-06-14 | 2017-10-10 | 北京策腾教育科技有限公司 | 一种动态自适应语音分析技术以用于人机口语考试的方法及系统 |
KR20190004495A (ko) * | 2017-07-04 | 2019-01-14 | 삼성에스디에스 주식회사 | 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템 |
US10083006B1 (en) * | 2017-09-12 | 2018-09-25 | Google Llc | Intercom-style communication using multiple computing devices |
CN108735215A (zh) * | 2018-06-07 | 2018-11-02 | 爱驰汽车有限公司 | 车载语音交互系统、方法、设备和存储介质 |
CN109003611B (zh) * | 2018-09-29 | 2022-05-27 | 阿波罗智联(北京)科技有限公司 | 用于车辆语音控制的方法、装置、设备和介质 |
CN109616108B (zh) * | 2018-11-29 | 2022-05-31 | 出门问问创新科技有限公司 | 多轮对话交互处理方法、装置、电子设备及存储介质 |
US11004449B2 (en) * | 2018-11-29 | 2021-05-11 | International Business Machines Corporation | Vocal utterance based item inventory actions |
US10997968B2 (en) * | 2019-04-30 | 2021-05-04 | Microsofttechnology Licensing, Llc | Using dialog context to improve language understanding |
-
2019
- 2019-05-31 CN CN201910470966.4A patent/CN112017642B/zh active Active
-
2020
- 2020-03-16 WO PCT/CN2020/079522 patent/WO2020238341A1/zh unknown
- 2020-03-16 JP JP2021570241A patent/JP7343087B2/ja active Active
- 2020-03-16 EP EP20814489.9A patent/EP3965101A4/en active Pending
-
2021
- 2021-11-30 US US17/539,005 patent/US20220093087A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004523004A (ja) | 2001-03-01 | 2004-07-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 階層言語モデル |
JP2004333870A (ja) | 2003-05-08 | 2004-11-25 | Nissan Motor Co Ltd | 移動体用音声認識装置 |
JP2006023345A (ja) | 2004-07-06 | 2006-01-26 | Alpine Electronics Inc | テレビ画像自動キャプチャー方法及び装置 |
JP2008506156A (ja) | 2004-07-06 | 2008-02-28 | ボクシィファイ, インコーポレイテッド | マルチスロット対話システムおよび方法 |
JP2015081971A (ja) | 2013-10-22 | 2015-04-27 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
US20150279360A1 (en) | 2014-04-01 | 2015-10-01 | Google Inc. | Language modeling in speech recognition |
Also Published As
Publication number | Publication date |
---|---|
CN112017642A (zh) | 2020-12-01 |
EP3965101A1 (en) | 2022-03-09 |
JP2022534242A (ja) | 2022-07-28 |
US20220093087A1 (en) | 2022-03-24 |
EP3965101A4 (en) | 2022-06-29 |
CN112017642B (zh) | 2024-04-26 |
WO2020238341A1 (zh) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7343087B2 (ja) | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 | |
US11887604B1 (en) | Speech interface device with caching component | |
US9905228B2 (en) | System and method of performing automatic speech recognition using local private data | |
US7689420B2 (en) | Personalizing a context-free grammar using a dictation language model | |
US10553216B2 (en) | System and method for an integrated, multi-modal, multi-device natural language voice services environment | |
US11676585B1 (en) | Hybrid decoding using hardware and software for automatic speech recognition systems | |
US20070239453A1 (en) | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances | |
US10917758B1 (en) | Voice-based messaging | |
AU2012227294B2 (en) | Speech recognition repair using contextual information | |
KR100976643B1 (ko) | 자동 음성 인식 시스템용 적응형 콘텍스트 | |
US9299347B1 (en) | Speech recognition using associative mapping | |
US10685647B2 (en) | Speech recognition method and device | |
US11687526B1 (en) | Identifying user content | |
US20120271639A1 (en) | Permitting automated speech command discovery via manual event to command mapping | |
CN110956955B (zh) | 一种语音交互的方法和装置 | |
US20180301144A1 (en) | Electronic device, method for adapting acoustic model thereof, and voice recognition system | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
US11582174B1 (en) | Messaging content data storage | |
US11893996B1 (en) | Supplemental content output | |
US12002444B1 (en) | Coordinated multi-device noise cancellation | |
US11790898B1 (en) | Resource selection for processing user inputs | |
JP2020012860A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7343087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |