JP2022537000A - 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム - Google Patents
音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2022537000A JP2022537000A JP2021536284A JP2021536284A JP2022537000A JP 2022537000 A JP2022537000 A JP 2022537000A JP 2021536284 A JP2021536284 A JP 2021536284A JP 2021536284 A JP2021536284 A JP 2021536284A JP 2022537000 A JP2022537000 A JP 2022537000A
- Authority
- JP
- Japan
- Prior art keywords
- information
- user
- verified
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000012795 verification Methods 0.000 title claims abstract description 80
- 230000003993 interaction Effects 0.000 title claims abstract description 42
- 238000004590 computer program Methods 0.000 title abstract description 10
- 230000004044 response Effects 0.000 claims abstract description 148
- 238000012790 confirmation Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 122
- 239000013598 vector Substances 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 34
- 238000013507 mapping Methods 0.000 claims description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000008909 emotion recognition Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 22
- 238000007726 management method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 241000699666 Mus <mouse, genus> Species 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241000473391 Archosargus rhomboidalis Species 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願は、出願日が2020年5月22日であり、出願番号が2020104400691であり、発明名称が「音声対話に基づく情報検証方法、装置、デバイスおよびコンピュータ記憶媒体」である中国特許出願の優先権を主張する。
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することと、
を含む音声対話に基づく情報検証方法を提供した。
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
語意理解モデルをトレーニングする方法を提供した。
前記語意理解モジュールは、
ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得する
音声対話に基づく情報検証装置を提供した。
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
語意理解モデルをトレーニングする装置を提供した。
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに前記いずれか一項に記載の方法を実行させる命令を記憶する電子デバイスを提供した。
音は本質的に波、つまり音波である。この波は一種の信号として処理できるため、音声認識処理は基本的に、時間の経過とともに再生される信号シーケンスを処理し、テキストシーケンスを出力することである。簡単に言えば、音声フラグメント入力をテキスト出力に変換するプロセスは音声認識である。音声認識処理の過程で、主に、音響モデルと言語モデルに依存している。
これは、N個のトレーニングサンプルがあり、Xiは第i番目の音声サンプルであり、Ziは対応的な音素であることを示す。1つの音声サンプルの入力は一つのシーケンスであり、出力音素情報も一つのシーケンスである。
語意理解の目標は、テキスト情報を、機械で処理できる語意表現に変換し、通常は構造化情報として具体化されることである。同じ意味を表現する方式は多くにあるので、機械にとって、文の各単語の正確な意味を理解することは重要ではなく、文の意味を理解することが重要である。例えば、「私の家は幸福スーパーマーケットである」、「私の店の名称は幸福スーパーマーケットである」、「私の店名は幸福スーパーマーケットである」などはすべて、ユーザのストアの名称が「幸福スーパーマーケット」であるという1つの意味を表する。「幸福スーパーマーケット」という構造化情報を特定する必要がある。
「はい、[POI-NAME]である」という一般化結果に対応するマーキングは、confirm(POI_NAME)であり、
「正しい」という一般化結果に対応するマーキングは、confirm()であり、
「私の家は名称を[POI-NAME]に変更した」という一般化結果に対応するマーキングは、deny(POI_NAME)である。
対話管理とは、語意理解の結果と対話の文脈に基づいて次の応答を決定することである。重点は、最終的な正しい検証結果を期待するように、対話の状態を維持することによってユーザとの対話を決定することである。
ユーザはロボットではなく、感情的であり、自然な音声放送はユーザの協力において非常に重要な役割を果たす。音声合成が非常に悪い場合、ユーザは直接電話を切ることになり、情報検証の正常な進行に影響を及ぼす。音声合成をより自然にするために、音声合成モデルは、人工カスタマーサービスがユーザに情報検証を行う音声と、対応的なマーキングテキストを予めトレーニングすることによって取得できる。マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる。
「[幸福スーパーマーケット]ですか?」について、ボックス[]のコンテンツにはPOIの名称のラベルが付いている。
本願は、出願日が2020年5月22日であり、出願番号が2020104400691であり、発明名称が「音声対話に基づく情報検証方法、装置、デバイスおよびコンピュータ記憶媒体」である中国特許出願の優先権を主張する。
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することと、
を含む音声対話に基づく情報検証方法を提供した。
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
語意理解モデルをトレーニングする方法を提供した。
前記語意理解モジュールは、
ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得する
音声対話に基づく情報検証装置を提供した。
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
語意理解モデルをトレーニングする装置を提供した。
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに前記いずれか一項に記載の方法を実行させる命令を記憶する電子デバイスを提供した。
音は本質的に波、つまり音波である。この波は一種の信号として処理できるため、音声認識処理は基本的に、時間の経過とともに再生される信号シーケンスを処理し、テキストシーケンスを出力することである。簡単に言えば、音声フラグメント入力をテキスト出力に変換するプロセスは音声認識である。音声認識処理の過程で、主に、音響モデルと言語モデルに依存している。
これは、N個のトレーニングサンプルがあり、Xiは第i番目の音声サンプルであり、Ziは対応的な音素であることを示す。1つの音声サンプルの入力は一つのシーケンスであり、出力音素情報も一つのシーケンスである。
語意理解の目標は、テキスト情報を、機械で処理できる語意表現に変換し、通常は構造化情報として具体化されることである。同じ意味を表現する方式は多くにあるので、機械にとって、文の各単語の正確な意味を理解することは重要ではなく、文の意味を理解することが重要である。例えば、「私の家は幸福スーパーマーケットである」、「私の店の名称は幸福スーパーマーケットである」、「私の店名は幸福スーパーマーケットである」などはすべて、ユーザのストアの名称が「幸福スーパーマーケット」であるという1つの意味を表する。「幸福スーパーマーケット」という構造化情報を特定する必要がある。
「はい、[POI-NAME]である」という一般化結果に対応するマーキングは、confirm(POI_NAME)であり、
「正しい」という一般化結果に対応するマーキングは、confirm()であり、
「私の家は名称を[POI-NAME]に変更した」という一般化結果に対応するマーキングは、deny(POI_NAME)である。
対話管理とは、語意理解の結果と対話の文脈に基づいて次の応答を決定することである。重点は、最終的な正しい検証結果を期待するように、対話の状態を維持することによってユーザとの対話を決定することである。
ユーザはロボットではなく、感情的であり、自然な音声放送はユーザの協力において非常に重要な役割を果たす。音声合成が非常に悪い場合、ユーザは直接電話を切ることになり、情報検証の正常な進行に影響を及ぼす。音声合成をより自然にするために、音声合成モデルは、人工カスタマーサービスがユーザに情報検証を行う音声と、対応的なマーキングテキストを予めトレーニングすることによって取得できる。マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる。
「[幸福スーパーマーケット]ですか?」について、ボックス[]のコンテンツにはPOIの名称のラベルが付いている。
Claims (30)
- ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することと、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することと、を含む
音声対話に基づく情報検証方法。 - 前記注音符号情報は、中国語のピンインを含む
請求項1に記載の方法。 - 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層、および/または予測層を含み、
前記埋込層は、前記各キャラクターと、各キャラクターに対応する注音符号情報をエンコードし、
前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の語意依存関係を学習し、
前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得し、
前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクト情報を予測する
請求項1に記載の方法。 - 前記検証されるオブジェクト情報を取得すると、前記検証されるオブジェクト情報を前記検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にチェーンフィンガーすること、をさらに含む
請求項1に記載の方法。 - 前記検証されるオブジェクト情報を前記検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にチェーンフィンガーすることは、
前記検証されるオブジェクトを前記ドメイン知識ライブラリにチェーンフィンガーすると決定するように、音声類似性、テキスト類似性、属性類似性の少なくとも1つに基づいて、前記検証されるオブジェクト情報を前記ドメイン知識ライブラリに分類することと、
チェーンフィンガーされたオブジェクト情報が決定されると、決定されたオブジェクト情報で前記検証されたオブジェクト情報を更新することと、を含む
請求項4に記載の方法。 - 前記音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することは、
音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、前記音声応答テキストを取得することを含み、
前記音響モデルと前記言語モデルは、トレーニングプロセス中に前記検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する
請求項1に記載の方法。 - 前記音響モデルは、
人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得することと、
前記トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化することと、により予めトレーニングして取得られる
請求項6に記載の方法。 - マルチラウンド対話メカニズムに基づいて、前記検証されるオブジェクトの正確性をユーザに確認することを、さらに含む
請求項1に記載の方法。 - マルチラウンド対話メカニズムに基づいて、前記検証されるオブジェクトの正確性をユーザに確認することは、
前記検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせを前記ユーザに送信することと、
前記ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて、前記検証されるオブジェクト情報の正確性を決定することと、を含む
請求項8に記載の方法。 - 前記ユーザ意図情報および/または前記検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、前記ユーザがポリグラフテストに合格したと決定され、そうでない場合、前記ユーザがポリグラフテストに合格しなかったと決定されることと、
ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しないことと、をさらに含む
請求項1に記載の方法。 - 音声問い合わせに対して前記ユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも1つを実行することと、
認識結果に従って、対応的な言葉を使用して前記ユーザと後続の音声対話を実行することと、をさらに含む
請求項1に記載の方法。 - 音声合成モデルを使用して前記音声問い合わせを生成することと、
前記音声合成モデルが人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストが予めトレーニングすることによって取得され、前記マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれることと、をさらに含む
請求項1に記載の方法。 - 前記検証されるオブジェクト情報は、地理位置ポイント情報を含む
請求項1~12のいずれか一つ項に記載の方法。 - 音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得することと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
語意理解モデルをトレーニングする方法。 - 前記トレーニングデータを取得することは、
同じ音声問い合わせに対して高周波音声応答テキストを取得し、人工でマーキングしてシードサンプルを取得することと、
シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行することと、
クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得することと、を含む
請求項14に記載の方法。 - 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層および/または予測層を含み、
前記埋込層は、前記各キャラクターと各キャラクターに対応する注音符号情報をエンコードし、
前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の意味依存関係を学習し、
前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得し、
前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する
請求項14に記載の方法。 - 語意理解モジュールを含み、
前記語意理解モジュールは、
ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得する
音声対話に基づく情報検証装置。 - 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層および/または予測層を含み、
前記埋込層は、前記各キャラクターと各キャラクターに対応する注音符号情報をエンコードし、
前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の意味依存関係を学習し、
前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得し、
前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する
請求項17に記載の装置。 - 前記語意理解モジュールが前記検証されるオブジェクト情報を取得すると、前記検証されるオブジェクト情報を前記検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にチェーンフィンガーするためのチェーンフィンガーモジュールをさらに含む
請求項17に記載の装置。 - 音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、前記音声応答テキストを取得するための音声認識モジュールをさらに含み、
前記音響モデルと前記言語モデルは、トレーニングプロセスに前記検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する
請求項17に記載の装置。 - 人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得し、
前記トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化するための音響モデルトレーニングモジュールをさらに含む
請求項20に記載の装置。 - 検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせを前記ユーザに送信することと、
前記ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて検証されるオブジェクト情報の正確性を決定することと、を具体的に備える、
マルチラウンド対話メカニズムに基づいて、前記検証されるオブジェクトの正確性をユーザに確認する対話管理モジュールをさらに含む、
請求項17に記載の装置。 - 前記ユーザ意図情報および/または前記検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、前記ユーザがポリグラフテストに合格したと決定され、そうでない場合、前記ユーザがポリグラフテストに合格しなかったと決定され、
ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しないための対話管理モジュール、をさらに含む
請求項17に記載の装置。 - 音声問い合わせに対する前記ユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも1つを実行し、
認識結果に従って、対応的な言葉を使用して前記ユーザと後続の音声対話を実行するための対話管理モジュール、をさらに含む
請求項17に記載の装置。 - 音声合成モデルを使用して前記音声問い合わせを生成するための音声合成モジュールをさらに含み、
前記音声合成モデルは、人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストをトレーニングすることによって取得され、前記マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる
請求項17に記載の装置。 - 音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得するためのデータ取得モジュールと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
語意理解モデルをトレーニングする装置。 - 前記データ取得モジュールは、具体的に
同じ音声問い合わせに対して高周波音声応答テキストを取得し、人工でマーキングしてシードサンプルを取得することと、
シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行することと、
クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得することと、に用いられる
請求項26に記載の装置。 - 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層および/または予測層を含み、
前記埋込層は、前記各キャラクターと各キャラクターに対応する注音符号情報をエンコードし、
前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の意味依存関係を学習し、
前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得し、
前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する
請求項26に記載の装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~16のいずれか一項に記載の方法を実行させる命令を記憶する
電子デバイス。 - コンピュータに請求項1~16のいずれか一項に記載の方法を実行させるコンピュータ命令を記憶する
非一時的なコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440069.1A CN111696535B (zh) | 2020-05-22 | 2020-05-22 | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 |
CN202010440069.1 | 2020-05-22 | ||
PCT/CN2020/131317 WO2021232725A1 (zh) | 2020-05-22 | 2020-11-25 | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022537000A true JP2022537000A (ja) | 2022-08-23 |
JP7266683B2 JP7266683B2 (ja) | 2023-04-28 |
Family
ID=76865363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021536284A Active JP7266683B2 (ja) | 2020-05-22 | 2020-11-25 | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220335936A1 (ja) |
EP (1) | EP3940693A4 (ja) |
JP (1) | JP7266683B2 (ja) |
KR (1) | KR20210087098A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113849785B (zh) * | 2021-07-29 | 2024-01-30 | 国家计算机网络与信息安全管理中心 | 针对应用程序的移动终端信息资产使用行为识别方法 |
CN113838461B (zh) * | 2021-08-20 | 2022-11-01 | 北京百度网讯科技有限公司 | 智能语音交互方法、装置、设备和计算机存储介质 |
CN114281960A (zh) * | 2021-11-11 | 2022-04-05 | 国网江苏省电力有限公司连云港供电分公司 | 一种电力需求侧语音交互方法和系统 |
CN116583820A (zh) * | 2021-12-10 | 2023-08-11 | 华为技术有限公司 | 语音交互的方法和装置 |
CN115171676A (zh) * | 2022-05-30 | 2022-10-11 | 青岛海尔科技有限公司 | 意图行为的确定方法和装置、存储介质及电子装置 |
CN115514550A (zh) * | 2022-09-15 | 2022-12-23 | 中国电信股份有限公司 | 基于语音声调的交互验证方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125900A (ja) * | 1999-10-29 | 2001-05-11 | Yazaki Corp | 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体 |
JP2016042293A (ja) * | 2014-08-18 | 2016-03-31 | 株式会社デンソー | 情報提案システム |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1692626A4 (en) * | 2003-09-17 | 2008-11-19 | Ibm | IDENTIFICATION OF RELATED NAMES |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
KR102623727B1 (ko) * | 2018-10-29 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN110298150B (zh) * | 2019-05-29 | 2021-11-26 | 上海拍拍贷金融信息服务有限公司 | 一种基于语音识别的身份验证方法及系统 |
US11861674B1 (en) * | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
-
2020
- 2020-11-25 EP EP20900685.7A patent/EP3940693A4/en not_active Withdrawn
- 2020-11-25 JP JP2021536284A patent/JP7266683B2/ja active Active
- 2020-11-25 KR KR1020217019206A patent/KR20210087098A/ko not_active Application Discontinuation
- 2020-11-25 US US17/417,026 patent/US20220335936A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125900A (ja) * | 1999-10-29 | 2001-05-11 | Yazaki Corp | 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体 |
JP2016042293A (ja) * | 2014-08-18 | 2016-03-31 | 株式会社デンソー | 情報提案システム |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220335936A1 (en) | 2022-10-20 |
KR20210087098A (ko) | 2021-07-09 |
EP3940693A4 (en) | 2022-03-23 |
JP7266683B2 (ja) | 2023-04-28 |
EP3940693A1 (en) | 2022-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021232725A1 (zh) | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
US20240161732A1 (en) | Multi-dialect and multilingual speech recognition | |
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
US10210861B1 (en) | Conversational agent pipeline trained on synthetic data | |
US10176804B2 (en) | Analyzing textual data | |
US11450311B2 (en) | System and methods for accent and dialect modification | |
CN111883110A (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
US10839788B2 (en) | Systems and methods for selecting accent and dialect based on context | |
US11093110B1 (en) | Messaging feedback mechanism | |
US11151996B2 (en) | Vocal recognition using generally available speech-to-text systems and user-defined vocal training | |
Kadyan et al. | Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
CN113254613A (zh) | 对话问答方法、装置、设备及存储介质 | |
Alrumiah et al. | Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
US20220277732A1 (en) | Method and apparatus for training speech recognition model, electronic device and storage medium | |
Wang et al. | Multi-step spoken language understanding system based on adversarial learning | |
Wang et al. | An adversarial learning based multi-step spoken language understanding system through human-computer interaction | |
CN112346696B (zh) | 虚拟助理的语音比较 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 | |
CN112767923B (zh) | 一种语音识别方法及装置 | |
US20240153508A1 (en) | End-to-End Speech Recognition Adapted for Multi-Speaker Applications | |
US20230186898A1 (en) | Lattice Speech Corrections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210622 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7266683 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |