JP2022531987A - 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体 - Google Patents
音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP2022531987A JP2022531987A JP2021571465A JP2021571465A JP2022531987A JP 2022531987 A JP2022531987 A JP 2022531987A JP 2021571465 A JP2021571465 A JP 2021571465A JP 2021571465 A JP2021571465 A JP 2021571465A JP 2022531987 A JP2022531987 A JP 2022531987A
- Authority
- JP
- Japan
- Prior art keywords
- needs
- user
- voice
- phrase
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 107
- 230000014509 gene expression Effects 0.000 claims abstract description 165
- 238000004458 analytical method Methods 0.000 claims abstract description 114
- 230000004044 response Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 208000019901 Anxiety disease Diseases 0.000 description 3
- 230000036506 anxiety Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本開示は、人工知能の分野に関する音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体を開示する。具体的な実現案は、ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行い、ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得し、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返し、前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令が受信された場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行う。本開示は、ユーザのインタラクション効率を効果的に向上させ、ユーザ体験を向上させることができる。【選択図】図2
Description
[優先権情報]
本開示は、出願日が2020年02月18日であり、出願番号が2020100995744であり、発明の名称が「音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体」である中国特許出願の優先権を主張する。
本開示は、出願日が2020年02月18日であり、出願番号が2020100995744であり、発明の名称が「音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体」である中国特許出願の優先権を主張する。
本開示はコンピュータアプリケーション技術の分野に関し、特に人工知能の分野の音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体に関する。
この部分は特許請求の範囲に記載された本発明の実施形態のために背景またはコンテキストを提供することを意図する。ここでの説明はこの部分に含まれても、従来の技術に見なされない。
音声インタラクション技術の継続的な発展に伴い、ユーザはスマートスピーカー、スマートフォンなどの端末デバイスと音声インタラクションを行うことができる。端末デバイスのオペレーティングシステムに搭載される音声アシスタント以外にも、ますます多くのアプリケーションは音声インタラクション技術を搭載する。ユーザは音声命令を入力することによって対応するサービスを取得することができるため、手を大幅に解放することができる。
既存の音声インタラクションシナリオでは、ユーザが入力した音声命令に対して音声認識とニーズ理解を行った後、ユーザのニーズがよく理解できない場合、ユーザに以下の二つの音声応答を返すことができる。
1)例えば「すみません、しばらく何を言っているか理解できません」のような、ユーザのニーズを理解できない結果を返す。
2)例えば「すみません、もっと簡単な言い方を変更してみてください」のような、ユーザに音声命令を変更することを提示する結果をユーザに返す。
しかし、上記のどのような音声応答がいずれもユーザに悪い体験を与え、ユーザは音声アシスタントのインテリジェント程度が悪いと感じ、さらに、入力の音声命令を繰り返し変換する必要があり、ユーザのインタラクション効率にとっても、非常に低い。
これを考慮して、本開示はユーザのインタラクション効率を向上させ、ユーザ体験を向上させるために音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体を提供する。
第1の態様において、本開示は音声インタラクション方法を提供し、当該方法は、
ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行うステップと、
ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するステップと、
前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップと、
前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令を受信した場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行うステップと、を含む。
ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行うステップと、
ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するステップと、
前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップと、
前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令を受信した場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行うステップと、を含む。
本開示の好ましい実施形態によれば、当該方法は、
ニーズ解析に成功した場合、前記第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行うステップをさらに含む。
ニーズ解析に成功した場合、前記第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行うステップをさらに含む。
本開示の好ましい実施形態によれば、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するステップは、
前記第1の音声命令を予めトレーニングされたニーズ予測モデルに入力することを含み、前記ニーズ予測モデルは前記第1の音声命令を少なくとも一つのニーズ表現にマッピングする。
前記第1の音声命令を予めトレーニングされたニーズ予測モデルに入力することを含み、前記ニーズ予測モデルは前記第1の音声命令を少なくとも一つのニーズ表現にマッピングする。
本開示の好ましい実施形態によれば、前記ニーズ予測モデルは、
トレーニングデータを取得し、前記トレーニングデータは複数の語句ペアを含み、前記語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功できるものであり、
前記トレーニングデータを使用してシーケンスからシーケンスまでのSeq2Seqモデルをトレーニングして、前記ニーズ予測モデルを取得し、語句ペアのうちの第1の語句は前記Seq2Seqモデルの入力とし、第2の語句は前記Seq2Seqモデルのターゲット出力とする方式を使用して予めトレーニングして取得する。
トレーニングデータを取得し、前記トレーニングデータは複数の語句ペアを含み、前記語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功できるものであり、
前記トレーニングデータを使用してシーケンスからシーケンスまでのSeq2Seqモデルをトレーニングして、前記ニーズ予測モデルを取得し、語句ペアのうちの第1の語句は前記Seq2Seqモデルの入力とし、第2の語句は前記Seq2Seqモデルのターゲット出力とする方式を使用して予めトレーニングして取得する。
本開示の好ましい実施形態によれば、前記トレーニングデータはテキスト検索ログから取得し、
テキスト検索要求queryを第1の語句とし、queryに対応するクリックされた検索結果を使用して第2の語句を取得し、前記第1の語句と前記第2の語句が語句ペアを構成し、第2の語句の信頼度は第1の語句をqueryとする時の前記第2の語句のクリック回数によって決定される。
テキスト検索要求queryを第1の語句とし、queryに対応するクリックされた検索結果を使用して第2の語句を取得し、前記第1の語句と前記第2の語句が語句ペアを構成し、第2の語句の信頼度は第1の語句をqueryとする時の前記第2の語句のクリック回数によって決定される。
本開示の好ましい実施形態によれば、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップは、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を前記第1のニーズ表現とするステップと、
前記第1のニーズ表現を問い合わせの形式で前記ユーザに返すステップと、を含む。
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を前記第1のニーズ表現とするステップと、
前記第1のニーズ表現を問い合わせの形式で前記ユーザに返すステップと、を含む。
本開示の好ましい実施形態によれば、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップは、
前記ユーザが前記第1のニーズ表現を否定する第3の音声命令が受信された場合、前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とするステップと、
第2のニーズ表現を問い合わせの形式で前記ユーザに返すステップと、をさらに含む。
前記ユーザが前記第1のニーズ表現を否定する第3の音声命令が受信された場合、前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とするステップと、
第2のニーズ表現を問い合わせの形式で前記ユーザに返すステップと、をさらに含む。
本開示の好ましい実施形態によれば、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップは、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が上位N個のニーズ表現を、問い合わせの形式で前記ユーザに返すステップを含み、前記Nは予め設定された正の整数である。
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が上位N個のニーズ表現を、問い合わせの形式で前記ユーザに返すステップを含み、前記Nは予め設定された正の整数である。
本開示の好ましい実施形態によれば、当該方法は、
前記ニーズ解析に失敗した原因を分析し、前記問い合わせに前記ニーズ解析に失敗した原因をさらに携帯するステップをさらに含む。
前記ニーズ解析に失敗した原因を分析し、前記問い合わせに前記ニーズ解析に失敗した原因をさらに携帯するステップをさらに含む。
本開示の好ましい実施形態によれば、前記ニーズ解析に失敗した原因は、
環境ノイズ、前記第1の音声命令の長さが制限を超えること、前記第1の音声命令の発音不正確、または前記第1の音声命令の口語化を含む。
環境ノイズ、前記第1の音声命令の長さが制限を超えること、前記第1の音声命令の発音不正確、または前記第1の音声命令の口語化を含む。
第2の態様において、本開示は音声インタラクション装置を提供し、当該装置は、
ユーザが入力した第1の音声命令を受信するための音声インタラクションユニットと、
前記第1の音声命令に対して音声認識とニーズ解析を行うための音声処理ユニットと、
前記ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するためのニーズ予測ユニットと、
前記音声インタラクションユニットが前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令が受信された場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行うためのサービス応答ユニットと、を含み、
前記音声インタラクションユニットは、さらに、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すために用いられる。
ユーザが入力した第1の音声命令を受信するための音声インタラクションユニットと、
前記第1の音声命令に対して音声認識とニーズ解析を行うための音声処理ユニットと、
前記ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するためのニーズ予測ユニットと、
前記音声インタラクションユニットが前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令が受信された場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行うためのサービス応答ユニットと、を含み、
前記音声インタラクションユニットは、さらに、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すために用いられる。
本開示の好ましい実施形態によれば、前記サービス応答ユニットは、さらに、ニーズ解析に成功した場合、前記第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行うために用いられる。
本開示の好ましい実施形態によれば、前記ニーズ予測ユニットは、具体的には、前記第1の音声命令を予めトレーニングされたニーズ予測モデルに入力し、前記ニーズ予測モデルは前記第1の音声命令を少なくとも一つのニーズ表現にマッピングする。
本開示の好ましい実施形態によれば、当該装置は、モデルトレーニングユニットをさらに含み、
モデルトレーニングユニットは、
トレーニングデータを取得し前記トレーニングデータは複数の語句ペアを含み、前記語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功できるものであり、
前記トレーニングデータを使用してSeq2Seqモデルをトレーニングして、前記ニーズ予測モデルを取得し、語句ペアのうちの第1の語句を前記Seq2Seqモデルの入力とし、第2の語句を前記Seq2Seqモデルのターゲット出力とするために用いられる。
モデルトレーニングユニットは、
トレーニングデータを取得し前記トレーニングデータは複数の語句ペアを含み、前記語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功できるものであり、
前記トレーニングデータを使用してSeq2Seqモデルをトレーニングして、前記ニーズ予測モデルを取得し、語句ペアのうちの第1の語句を前記Seq2Seqモデルの入力とし、第2の語句を前記Seq2Seqモデルのターゲット出力とするために用いられる。
本開示の好ましい実施形態によれば、前記音声インタラクションユニットは、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す時、具体的に、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を前記第1のニーズ表現とし、
前記第1のニーズ表現を問い合わせの形式で前記ユーザに返すことを実行する。
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を前記第1のニーズ表現とし、
前記第1のニーズ表現を問い合わせの形式で前記ユーザに返すことを実行する。
本開示の好ましい実施形態によれば、前記音声インタラクションユニットは、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す時、さらに、
前記ユーザが前記第1のニーズ表現を否定する第3の音声命令が受信された場合、前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とし、
第2のニーズ表現を問い合わせの形式で前記ユーザに返すために用いられる。
前記ユーザが前記第1のニーズ表現を否定する第3の音声命令が受信された場合、前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とし、
第2のニーズ表現を問い合わせの形式で前記ユーザに返すために用いられる。
本開示の好ましい実施形態によれば、前記音声インタラクションユニットは、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す時、具体的には、
前記ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現の中で信頼度が上位N個のニーズ表現を、問い合わせの形式で前記ユーザに返すことを実行し、前記Nは予め設定された正の整数である。
前記ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現の中で信頼度が上位N個のニーズ表現を、問い合わせの形式で前記ユーザに返すことを実行し、前記Nは予め設定された正の整数である。
本開示の好ましい実施形態によれば、当該装置は、
前記ニーズ解析に失敗した原因を分析し、前記問い合わせに前記ニーズ解析に失敗した原因をさらに携帯させるための原因分析ユニットをさらに含む。
前記ニーズ解析に失敗した原因を分析し、前記問い合わせに前記ニーズ解析に失敗した原因をさらに携帯させるための原因分析ユニットをさらに含む。
第3の態様において、本開示は電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記に記載の方法を実行する。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記に記載の方法を実行する。
第4の態様において、本開示はコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記に記載の方法を実行させる。
上記の技術案から分かるように、本開示は、ユーザが入力した音声命令に対するニーズ解析に失敗した後、さらに、音声命令に対してニーズ予測を行うことができ、ユーザが言ったことを理解できないことを簡単に通知するのではなく、ユーザの可能なニーズ表現を「推測」してユーザに返して確認するため、ユーザのインタラクション効率を向上させ、ユーザ体験を向上させる。
上記選択可能な方式が有する他の効果は、以下で具体的な実施例を併せて説明する。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本発明の実施例の音声インタラクション方法または音声インタラクション装置に適用可能な例示的なシステムアーキテクチャである。
本開示の実施例1により提供される音声インタラクション方法のフローチャートである。
本開示の実施例2により提供される音声インタラクション方法のフローチャートである。
本開示の実施例3により提供される音声インタラクション方法のフローチャートである。
本開示の実施例4により提供される音声インタラクション装置の構成図である。
本開示の実施例の音声インタラクション方法を実現するための電子機器のブロック図である。
以下、図面に基づいて、本開示の例示の実施例を表現する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
図1は、本発明の実施例の音声インタラクション方法または音声インタラクション装置に適用可能な例示的なシステムアーキテクチャである。
図1に示すように、当該システムアーキテクチャは端末デバイス101及び102、ネットワーク103、及びサーバ104を含むことができる。ネットワーク103は端末デバイス101、102とサーバ104との間で通信リンクを提供する媒体として使用される。ネットワーク103は有線、無線通信リンクまたは光ファイバケーブルなどのような、様々な接続タイプを含むことができる。
ユーザは端末デバイス101及び102を使用してネットワーク103を介してサーバ104とインタラクションすることができる。端末デバイス101及び102には、音声インタラクションアプリケーション、ウェブブラウザアプリケーション、通信アプリケーションなど、様々なアプリケーションがインストールされている。
端末デバイス101及び102は音声インタラクションをサポートする様々な電子機器であってもよく、スクリーンを備えたデバイスであってもよく、スクリーンを備えていないデバイスであってもよい。スマートフォン、タブレット、スマートスピーカー、スマートテレビなどが含まれるが、これらに限定されない。本発明により提供される音声インタラクション装置は、上記のサーバ104に設置して実行することができ、処理機能が強い端末デバイス101及び102に設置して実行することもできる。複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために)として実現することができ、単一のソフトウェアまたはソフトウェアモジュールとして実現することもでき、ここでは具体的に限定しない。
例えば、音声インタラクション装置は上記のサーバ104に設置して実行し、端末デバイス101はユーザが入力した音声命令をネットワーク103を介してサーバ104に送信する。サーバ104は、本発明の実施例により提供される方法を使用して処理した後、処理結果を端末デバイス101に返し、さらに、端末デバイス101によってユーザに提供して、ユーザとの間の音声インタラクションを実現する。
サーバ104は、単一のサーバであってもよく、複数のサーバによって構成されるサーバグループであってもよい。図1の端末デバイス、ネットワーク及びサーバの数は単なる例示的なものであることを理解することができる。実現ニーズに応じて、任意の数を有する端末デバイス、ネットワーク及びサーバであってもよい。
従来の音声インタラクションシナリオでは、ユーザが入力した音声命令に対して音声認識とニーズ解析を行った後、ニーズ解析に失敗した場合、ユーザのニーズが理解できない結果をユーザに返すことができ、またはユーザに音声命令を変更することを提示する結果をユーザに返すことができる。例えば以下の音声インタラクションシナリオでは、
シナリオ1、
ユーザ:私を助けて、私から子供に授乳できる最も近い場所を一つ探してくれるか、子供が腹が空いて、お願いします。
シナリオ1、
ユーザ:私を助けて、私から子供に授乳できる最も近い場所を一つ探してくれるか、子供が腹が空いて、お願いします。
音声アシスタント:すみません、XX(例えば、バイドゥの小度(xiaodu)、シャオミの小愛(xiaoai)、アリババの天猫精霊(Tmall Genie)など、音声アシスタントの名前を表示する)しばらく何を言っているか理解できません。
このようなシナリオでは、ユーザはこの音声アシスタントが本当に馬鹿で、全然スマートではないと思うことになる。
シナリオ2、
ユーザ:私を助けて、私から子供に授乳できる最も近い場所を一つ探してくれるか、子供が腹が空いて、お願いします。
ユーザ:私を助けて、私から子供に授乳できる最も近い場所を一つ探してくれるか、子供が腹が空いて、お願いします。
音声アシスタント:すみません、XXはしばらくあなたが言ったことが理解できない、簡単な言い方に変えて試してください。
ユーザ:私は子供に授乳できる私から最も近い場所を探す必要があります。
音声アシスタント:すみません、XXはしばらくあなたが言ったことが理解できない、簡単な言い方に変えて試してください。
このようなシナリオでは、ユーザが何度も試したり、言い方を変えたりすることによって、音声アシスタントはまだユーザのニーズを理解できず、ユーザは簡単に忍耐力を失う。このようなインタラクション方式はユーザにとって、明らかに効率が非常に低く、ユーザ体験も非常に悪い。
これを考慮して、本開示のコアアイデアは、ユーザが入力した音声命令に対して音声認識とニーズ解析を行った後、ニーズ解析に失敗した場合、さらに、音声命令に対してニーズ予測を行うことができ、ユーザが言ったことを理解できないことを簡単に通知するのではなく、ユーザの可能なニーズ表現を「推測」してユーザに返して確認する。以下、実施例を組み合わせて本開示により提供される方法に対して詳細に説明する。
図2は本開示の実施例1により提供される音声インタラクション方法のフローチャートである。図2に示すように、当該方法は以下のステップを含むことができる。
201では、ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行う。
当該第1の音声命令はユーザが音声アシスタントをウェイクアップした後、入力された最初の音声命令であってもよい。ある特定のシナリオで入力した音声命令であってもよい。
本開示の音声命令に関する「第1」、「第2」、「第3」など、例えば「第1の音声命令」、「第2の音声命令」、及び「第3の音声命令」について、順序、数量、及び名称上の制約はなく、異なる音声命令を区別するためにのみ使用される。
ユーザが入力した第1の音声命令に対して、まず、音声認識を行う。音声認識によって取得されたテキストを取得した後、ニーズ解析を行う。当該ニーズ解析の目的は、主に、ユーザの具体的なニーズ(意図とも呼ばれることができる)を理解し、構造化情報を取得して、ユーザに正確なサービスを提供する。具体的なニーズ解析方式と解析結果は、具体的な垂直系サービスに関連することができる。この部分の内容は、既存の技術を使用することができ、ここでは詳しく説明しない。一例だけを挙げると、
ユーザが第1の音声命令:「西二旗から出発して南鑼鼓巷を経由して北京駅までの渋滞しないルートを計画してください」を入力したと仮定し、音声認識とニーズ解析の後、取得された解析結果は、
「意図:ルート計画
走行方式:運転
出発点:西二旗
目的地:北京駅
パスポイント:南鑼鼓巷
選別条件:渋滞しない」。
ユーザが第1の音声命令:「西二旗から出発して南鑼鼓巷を経由して北京駅までの渋滞しないルートを計画してください」を入力したと仮定し、音声認識とニーズ解析の後、取得された解析結果は、
「意図:ルート計画
走行方式:運転
出発点:西二旗
目的地:北京駅
パスポイント:南鑼鼓巷
選別条件:渋滞しない」。
202では、ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得する。
しかし、ニーズ解析を行う場合、様々な原因でニーズ解析に失敗する可能性があり、すなわちユーザのニーズタイプ、構造化情報などを正確に取得できない。この場合、本開示はユーザ解析が失敗したと簡単に通知することではなく、第1の音声命令に対してニーズ予測を行って、すなわちユーザのニーズを推測し、予測された少なくとも一つのニーズ表現をユーザに返す。
203では、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す。
204では、前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令を受信した場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行う。
本開示では様々な実現方式を使用することができ、例えば、複数ラウンドのインタラクションの方式を使用して一つのニーズ表現を毎回ユーザに返し、次に、一般的な質問文の方式を使用してユーザに問い合わせることができ、その中の一つのニーズ表現に対する決定が取得された場合、当該決定のニーズ表現に対応するニーズ解析結果を使用してサービス応答を行う。否定的な回答が取得された場合、次のラウンドで一般的な質問文の方式を使用して一つのニーズ表現をユーザに返し続けて、予め設定されたインタラクションラウンドの最大数に達するまで、順次に類推する。この方式は後に実施例2において詳細に説明する。
また、例えば、毎回複数のニーズ表現をユーザに返すこともでき、次に、質問文を選択する方式を採用してユーザに問い合わせる。ユーザがその中の一つのニーズ表現を選択した場合、ユーザが選択したニーズ表現に対応するニーズ解析結果に従ってサービス応答を行う。この方式は後に実施例3において詳細に説明する。
図3は本開示の実施例2により提供される音声インタラクション方法のフローチャートである。図3に示すように、当該方法は以下のステップを含むことができる。
301では、ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行い、ニーズ解析に成功した場合、302を実行し、ニーズ解析に失敗した場合、303を実行する。
302では、第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行い、今回の音声インタラクションプロセスを終了する。
直接にユーザが入力した第1の音声命令に対してニーズ解析を行って成功することができる場合、直接にニーズ解析結果を使用してサービス応答をすればよく、複数ラウンドのインタラクションを行う必要がない。
303では、第1の音声命令を予めトレーニングされたニーズ予測モデルに入力し、当該ニーズ予測モデルは第1の音声命令を少なくとも一つのニーズ表現にマッピングし、その中の信頼度が最も高いニーズ表現を第1のニーズ表現とする。
ユーザが入力した第1の音声命令に対してニーズ解析を行って失敗した場合、第1の音声命令に対してニーズ予測を行う。本開示の実施例では、予めトレーニングされたニーズ予測モデルを使用してニーズ予測を行うことができる。当該ニーズ予測モデルは第1の音声命令を様々な第1の音声命令に近いニーズ表現にマッピングすることができ、第1の音声命令が表すユーザのニーズに対して「推測」することができる。ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現はいずれも信頼度を有し、当該信頼度は第1の音声命令に対応するニーズの正確さの度合いを予測できるのを表す。
理解を容易にするために、ここでは、ニーズ予測モデルのトレーニングプロセスに対して一つの好ましい実施形態を挙げて説明する。音声インタラクションの限界を考慮すると、一方では、ユーザに様々な検索結果を非常に一般化して返すことができず、他方では、返された検索結果数量が多くなく、通常、ユーザのニーズが明確した場合のみ、ニーズに対応するいくつかの検索結果を返すことができる。テキスト検索にとって、この点の限界がない。ユーザがテキスト検索要求queryを入力しただけで、類似度に基づいて配列して数量がより多く検索結果をユーザに返し、ユーザは多くの検索結果から自分のニーズの内容を探し、クリックして垂直系サービスをさらに取得することができる。本開示の実施例では、テキスト検索ログの内容を根拠とし、その中からユーザのqueryに対応するニーズ表現を抽出することができる。すなわち、テキスト検索ログからトレーニングデータを取得してニーズ予測モデルをトレーニングすることができる。
具体的には、ニーズ予測モデルのトレーニングプロセスは以下のステップを含むことができる。
ステップS1、トレーニングデータを取得し、当該トレーニングデータは多数の語句ペアを含み、各語句ペアはいずれも第1の語句と第2の語句の二つの語句を含み、第2の語句はニーズ解析に成功することが可能であり、つまり、第2の語句で採用する表現はニーズ解析後にニーズを明確できる表現である。
ステップS2、トレーニングデータSeq2Seq(シーケンスからシーケンスまでのトレーニング)モデルを使用して、ニーズ予測モデルを取得し、語句ペアのうちの第1の語句はSeq2Seqモデルの入力とし、第2の語句はSeq2Seqモデルのターゲット出力とする。
好ましい実施形態として、まず、テキスト検索ログからトレーニングデータを取得することができる。もちろん、テキスト検索ログからトレーニングデータを取得する以外に、トレーニングデータを人工的に構成する方式ように、他の方式を採用することもできる。本開示ではテキスト検索ログからトレーニングデータを取得するだけを例として詳細に説明する。
テキスト検索ログでは、ユーザが入力したテキスト検索要求、すなわちqueryを第1の語句とし、queryに対応するクリックされた検索結果を使用して第2の語句を取得し、第1の語句と第2の語句は語句ペアを構成し、第2の語句の信頼度は第1の語句をqueryとする時の第2の語句のクリック回数によって決定されることができる。
通常、ユーザがテキスト検索を行う場合、queryを入力した後に多数の検索結果から自分のニーズの検索結果を検索することができる。そうすると、ユーザがクリックした検索結果は、ある程度でユーザのニーズに合致した検索結果と認められる。また、クリックが多ければ多いほど、当該検索結果がユーザのニーズに合致したことを説明し、さらに、ユーザが当該検索結果に関連するサービスを要求して取得した場合、当該検索結果はユーザのニーズにさらに合致する。
クリックされた検索結果を使用して第2の語句を取得する時、当該第2の語句は、検索結果のタイトルから抽出することができ、検索結果の内容から取得することもできる。具体的な取得方式は具体的なアプリケーションに関連することができる。以下、地図系アプリケーションを例を挙げて、ユーザが地図系アプリケーションにテキスト検索要求「近くで子供に授乳できる場所」を入力したと仮定すると、ユーザに返される多数検索結果はいずれもPOI(Point Of IntereSt、興味点)であり、例えば返されるPOIは、以下のPOI1~POI3を含む。
POI1:ママ愛萌宝ベビー&マタニティ用品店
POI2:貝愛貝親産後ケアセンター
POI3:ヨーロッパとアメリカショッピングセンター
POI1:ママ愛萌宝ベビー&マタニティ用品店
POI2:貝愛貝親産後ケアセンター
POI3:ヨーロッパとアメリカショッピングセンター
ユーザがその中のPOI3をクリックしたと仮定し、当該POIのカテゴリ、またはPOIのカテゴリ及び当該POIの属性ラベルを使用して第2の語句を構成することができる。例えば、「ヨーロッパとアメリカショッピングセンター」のPOIカテゴリが「ショッピングセンター」であり、属性ラベルは「母子室がある」を含み、そうすると、「母子室があるショッピングセンター」を第2の語句として取得することができ、それは第1の語句「近くで子供に授乳できる場所」と一つの語句ペアを構成する。
信頼度が予め設定された信頼度閾値より低い語句ペアをフィルタリングした後、POIのカテゴリ及び当該POIの属性ラベルによって構成される第2の語句を優先的に選択する。取得された語句ペア及び信頼度をトレーニングデータとし、その中の第1の語句をSeq2Seqモデルの入力とし、第2の語句及びその信頼度をSeq2Seqモデルの出力とすることができる。トレーニングデータを取得するSeq2Seqモデルは、一つのeNcoder(エンコーダ)-decoder(デコーダ)入力が一つのシーケンスであり、出力も一つのシーケンスである。eNcoderは一つの可変長の入力シーケンスを固定長のベクトルに変換し、decoderはこの固定長のベクトルを可変長の出力シーケンスにデコードし、トレーニング時に最尤推定の方式を採用することができる。
また、上記の方式によって決定された語句ペアを正のサンプルとし、queryとクリックされなかった検索結果から取得された第2の語句によって構成された語句ペアを負のサンプルとし、Seq2Seqモデルのトレーニングを行うこともできる。トレーニング目標は、正のサンプル内の第2の語句の信頼度と負のサンプル内の第2の語句の信頼度の差値を最大化することである。
もちろん、Seq2Seqモデルをトレーニングしてニーズ予測モデルを取得する方式を採用する以外に、他の方式を採用してニーズ予測モデルを実現することもできる。例えば、ニーズマッピングテーブルを人工的に構築する方式、すなわち一つの語句を入力とし、ニーズマッピングテーブルを照会することで少なくとも一つのマッピングの語句を出力として取得することができる。
ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現について、本実施例では、信頼度が最も高いニーズ表現を第1のニーズ表現とし、まず、ユーザに返すために用いられる。本開示ではニーズ表現に関する「第1」、「第2」など、例えば、「第1のニーズ表現」、「第2のニーズ表現」については、順序、数量、及び名称上の制約を備えず、異なるニーズ表現を区別するためにのみ使用される。
ユーザが第1の音声命令「私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします」を入力したのを例とし、何らかの原因でニーズ解析に失敗した後に、それをニーズ予測モデルに入力し、ニーズ予測モデルが第1の音声命令をマッピングした後に取得された各ニーズ表現及びそれに対応する信頼度はそれぞれ以下のようである。
母子室があるショッピングセンター 0.92
産後ケアセンター 0.81
ベビー&マタニティ店 0.68
……
母子室があるショッピングセンター 0.92
産後ケアセンター 0.81
ベビー&マタニティ店 0.68
……
「母子室があるショッピングセンター」を予め設定されたテンプレートと組み合わせて「あなたから一番近い母子室があるショッピングセンターを探す」を第1のニーズ表現として取得する。その中、「あなたから一番近いのを探す」は予め設定されたテンプレートであり、目的はニーズ表現をよりスムーズに、会話術に合うようにするためであるが、予め設定されたテンプレートを追加しなくても同様に可能である。
304では、第1のニーズ表現を問い合わせの形式でユーザに返す。
本実施例では、一般的な質問文の形式を採用して第1のニーズ表現をユーザに返すことができ、これにより、ユーザが「はい/いいえ」、「YES/NO」、「必要/不要」、「可/不可」、「正しい/違い」などの簡単の音声を回答すればよい。
さらに、ユーザが今回なぜニーズ解析に失敗したのを明確に通知し、ユーザの焦慮及び戸惑いを軽減し、ユーザ体験を向上させるために、本開示の実施例では、ニーズ解析失敗の原因を分析することができ、上記の問い合わせではニーズ解析失敗の原因をさらに携帯することができる。
ニーズ解析失敗の原因を分析するのは以下の処理の一つまたは任意の組み合わせを含むことができるが、これらに限定しない。
第1の処理:音声認識時に、ユーザが第1の音声命令を入力した背景に対してノイズ検出を行い、ノイズが強い場合について、音声認識段階に影響を与えることによって、後のニーズ解析に失敗する。
第2の処理:音声認識プロセスで発音の検出を行って、ユーザの発音が正確であるか否かを検出する。発音が不正確である場合について、同様に音声認識段階に影響を与えることによって、後のニーズ解析に失敗する。
第3の処理:第1の音声命令の音声認識結果に対してテキスト長さの検出を行う。長すぎる語句について、通常、ニーズ解析に不利な影響を与えることができ、例えば、語義分析を行う時に長い語句の語義を分析することが難しくなり、ニーズ解析に失敗する。
第4の処理:第1の音声命令の音声認識結果に対して口語化検出を行う。口語化すぎる表現の語句について、語義分析に不利な影響を与えることができ、ニーズ解析に失敗する。
他の処理方式が存在する可能性もあり、ここでは一々網羅しない。
上記のいくつかの処理方式に対応して、取得されたニーズ解析失敗の原因は、例えば、環境ノイズ、第1の音声命令の発音不正確、第1の音声命令の長さが制限を超えること、第1の音声命令が口語化すぎ、第1の音声命令が一般化すぎなどを含むことができる。
また、問い合わせ時に予め設定されたテンプレートを使用して一般的な質問文を形成することもでき、例えば、「あなたのために検索する必要がありますか?」、「あなたのために検索する必要があるか否か」、「……そうですか」などである。
上記の例に続き、ユーザが入力した第1の音声命令:「私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします」について、音声アシスタントは「あなたが入力した語句は広く、XXはよく聞き取れません。あなたから一番近い母子室があるショッピングセンターを探しますか」を返すことができる。
305では、ユーザが第1のニーズ表現に対する音声命令を受信し、ユーザが上記の第1のニーズ表現を決定する第2の音声命令を受信した場合、306を実行し、ユーザが上記の第1のニーズ表現を否定する第3の音声命令を受信した場合、307を実行する。
実施例では、ユーザは第1のニーズ表現に対する決定または否定の応答のみを行う必要がある。
306では、第1のニーズ表現に対応するニーズ解析結果を使用してサービス応答を行い、今回の音声インタラクションプロセスを終了する。
上記の例に続き、第1のニーズ表現は信頼度が最も高いニーズ表現であるため、ユーザが「あなたが入力した語句は広く、XXはよく聞き取れません。あなたから一番近い母子室があるショッピングセンターを探しますか」に対する大きな確率は決定され、ユーザが応答した第2の音声命令が当該第1のニーズ表現を決定する場合、第1のニーズ表現に対するニーズ解析結果は、
「意図:情報の検索
出発点:現在位置
検索語:ショッピングセンター
選別条件:母子室があり、一番近い距離」
「意図:情報の検索
出発点:現在位置
検索語:ショッピングセンター
選別条件:母子室があり、一番近い距離」
検索した後、距離が一番近い母子室があるショッピングセンターをユーザに返す。
307では、ニーズ予測モデルによってマッピングされて取得した信頼度が次に高いニーズ表現を第2のニーズ表現とし、第2のニーズ表現を問い合わせの形式でユーザに返す。
上記の例に続き、ユーザが「あなたが入力した語句は広く、XXはよく聞き取れません。あなたから一番近い母子室があるショッピングセンターを探しますか」に対して、返されるのが第3の音声命令「いいえ」である場合、「あなたから一番近い産後ケアセンターを探しますか」をユーザに返すことができる。
308では、ユーザが第2のニーズ表現に対する音声命令を受信し、ユーザが上記の第2のニーズ表現を決定する第2の音声命令を受信した場合、309を実行し、ユーザが上記の第2のニーズ表現を否定する第3の音声命令を受信した場合、310を実行する。
309では、第2のニーズ表現に対応するニーズ解析結果を使用してサービス応答を行い、今回の音声インタラクションプロセスを終了する。
310では、予め設定されたインタラクションラウンドの最大数(予め設定されたインタラクションラウンドの最大数が2ラウンドであると仮定する)に達し、ニーズ理解に失敗した結果をユーザに返す。
ユーザが依然として第2のニーズ表現が否定であり、予め設定されたインタラクションラウンドの最大数が2であり、既にインタラクションラウンドの最大数に達した場合、例えば"あなたのニーズを理解していません"など、ニーズ理解の失敗の結果をユーザに返すことができる。例えば、「あなたのニーズを理解していません、一つの簡単な言い方に変えてください」など、ユーザが第1の音声命令を再入力するように提示することもできる。
本実施例では、2ラウンドをインタラクションラウンドの最大数とし、より多くのラウンドをインタラクションラウンドの最大数とする場合、ユーザの確認を取得しまたは予め設定されたインタラクションラウンドの最大数に達するまで、継続してニーズ予測モデルによってマッピングされて取得した信頼度の次のニーズ表現を問い合わせの形式でユーザに返すことができる。
従来のシナリオと比較するために、本実施例に対応するシナリオの多くの状況は以下のようである。
ユーザ:私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします。
ユーザ:私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします。
音声アシスタント:あなたが入力した語句は広く、XXはよく聞き取れません。あなたから一番近い母子室があるショッピングセンターを探しますか?
ユーザ:はい。
ユーザ:はい。
音声アシスタントはディスプレイまたは音声などの形式で距離が一番近い母子室があるショッピングセンターの情報をユーザに返す。
明らかに、この方式は従来の方式と比較してユーザのインタラクション効率及び使用体験を大幅に向上させる。
図4は本開示の実施例3により提供される音声インタラクション方法のフローチャートである。図4に示すように、当該方法は以下のステップを含むことができる。
401では、ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行い、ニーズ解析に成功した場合、402を実行し、ニーズ解析に失敗した場合、403を実行する。
402では、第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行い、今回の音声インタラクションプロセスを終了する。
403では、第1の音声命令を予めトレーニングされたニーズ予測モデルに入力し、当該ニーズ予測モデルは第1の音声命令を少なくとも一つのニーズ表現にマッピングし、信頼度が上位N個にあるニーズ表現を、問い合わせの形式でユーザに返し、Nは予め設定された正の整数である。
本実施例3と実施例2との違いは、ニーズ予測モデルによってマッピングされて取得したニーズ表現について、各ラウンドのインタラクション中で1個ずつユーザに返すのではなく、その中のN個のニーズ表現を質問文を選択する形式で一緒にユーザに返して、ユーザが選択するようにする。
さらに、ユーザが今回なぜニーズ解析に失敗したのを明確に通知し、ユーザの焦慮及び戸惑いを軽減し、ユーザ体験を向上させるために、本開示の実施例では、ニーズ解析失敗の原因を分析することもでき、上記の問い合わせではニーズ解析失敗の原因をさらに携帯することができる。当該部分は実施例2と類似し、ここでは詳しく説明しない。
Nが2であるのを例とし、ユーザが入力した第1の音声命令:「私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします」について、音声アシスタントは「あなたが入力した語句は広く、XXはよく聞き取れません。あなたはあなたから一番近い母子室があるショッピングセンターを探しますか、それともあなたから一番近い産後ケアセンターを探しますか?」を返すことができる。このように、ユーザは「前者/後者」と応答すればよい。
404では、ユーザの音声命令を受信し、ユーザがその中の一つのニーズ表現を決定する音声命令を受信した場合、405を実行し、ユーザがすべてのニーズ表現を否定する音声命令を受信した場合、406を実行する。
405では、ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行い、今回の音声インタラクションプロセスを終了する。
406では、ニーズ理解に失敗した結果をユーザに返す。
ユーザが任意のニーズ表現をすべて確認していない場合、例えば、「あなたのニーズを理解していません」など、ニーズ理解に失敗した結果をユーザに返すことができる。例えば、「あなたのニーズを理解していません、一つの簡単な言い方に変えてください」など、ユーザが第1の音声命令を再入力するように提示することもできる。
従来のシナリオと比較するために、本実施例に対応するシナリオの多くの状況は以下のようである。
ユーザ:私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします。
ユーザ:私を助けて、私から子供に授乳できる一つの最も近い場所を探してくれるか、子供が腹が空いて、お願いします。
音声アシスタント:あなたが入力した語句は広く、XXはよく聞き取れません。あなたはあなたから一番近い母子室があるショッピングセンターを探しますか、それともあなたから一番近い産後ケアセンターを探しますか?
ユーザ:前者。
ユーザ:前者。
音声アシスタントはディスプレイまたは音声などの形式で距離が一番近い母子室があるショッピングセンターの情報をユーザに返す。
明らかに、この方式は従来の方式と比較してユーザのインタラクション効率及び使用体験を大幅に向上させる。
以上は本開示により提供される方法に対して詳細に説明し、以下は実施例を組み合わせて本開示により提供される装置に対して詳細に説明する。
図5は本開示の実施例4により提供される音声インタラクション装置の構成図である。図5に示すように、当該装置は、音声インタラクションユニット01、音声処理ユニット02、ニーズ予測ユニット03、及びサービス応答ユニット04を含むことができ、モデルトレーニングユニット05、及び原因分析ユニット06をさらに含むこともできる。その中、各構成ユニットの主に機能は以下の通りである。
音声インタラクションユニット01はユーザからのデータ及びユーザに返されるデータを受信及び伝達することを実現する役割を果たす。まず、ユーザが入力した第1の音声命令を受信する。
音声処理ユニット02は第1の音声命令に対して音声認識とニーズ解析を行う役割を果たす。ユーザが入力した第1の音声命令に対して、まず、音声認識を行う。音声認識によって取得されたテキストを取得した後、ニーズ解析を行う。当該ニーズ解析の目的は、主に、ユーザの具体的なニーズ(意図とも呼ばれることができる)を理解し、構造化情報を取得して、ユーザに正確なサービスを提供する。具体的なニーズ解析方式と解析結果は、具体的な垂直系サービスに関連することができる。本ユニットは既存の技術を使用することができ、ここでは詳しく説明しない。
ニーズ解析に成功した場合、サービス応答ユニット04は第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行う。
ニーズ解析に失敗した場合、ニーズ予測ユニット03は第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得する。次に、音声インタラクションユニット01はニーズ表現のうちの少なくとも一つを問い合わせの形式でユーザに返す。
音声インタラクションユニット01がユーザがニーズ表現のうちの少なくとも一つを決定する第2の音声命令を受信した場合、サービス応答ユニット04はユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行う。
具体的には、ニーズ予測ユニット03は第1の音声命令を予めトレーニングされたニーズ予測モデルに入力することができ、ニーズ予測モデルは第1の音声命令を少なくとも一つのニーズ表現にマッピングすることができる。ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現はいずれも信頼度を有し、当該信頼度は第1の音声命令に対応するニーズの正確さの度合いを予測できるのを表す。
モデルトレーニングユニット05はトレーニングニーズ予測モデルを取得する役割を果たす。具体的には、モデルトレーニングユニット05はトレーニングデータを取得し、トレーニングデータは複数の語句ペアを含み、語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功することが可能であり、トレーニングデータを使用してSeq2Seqモデルをトレーニングして、ニーズ予測モデルを取得し、語句ペアのうちの第1の語句はSeq2Seqモデルの入力とし、第2の語句はSeq2Seqモデルのターゲット出力とする。
好ましい実施形態として、上記のトレーニングデータはテキスト検索ログから取得することができる。具体的には、テキスト検索ログ内のqueryを第1の語句とし、queryに対応するクリックされた検索結果を使用して第2の語句を取得し、第1の語句と第2の語句が語句ペアを構成することができ、第2の語句の信頼度は第1の語句をqueryとする時の第2の語句のクリック回数によって決定されることができる。クリック回数が多いほど、対応する信頼度が高くなる。
音声インタラクションユニットはニーズ表現のうちの少なくとも一つを問い合わせの形式でユーザに返す時、以下の二つの方式を採用することができるが、これらに限定しない。
第1の方式:ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を第1のニーズ表現とし、第1のニーズ表現を問い合わせの形式でユーザに返す。
第1の方式:ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を第1のニーズ表現とし、第1のニーズ表現を問い合わせの形式でユーザに返す。
ユーザが第1のニーズ表現を否定する第3の音声命令が受信された場合、ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とし、第2のニーズ表現を問い合わせの形式でユーザに返す。
この方式の問い合わせは、一般的な質問文の形式を採用することができ、これにより、ユーザが「はい/いいえ」、「YES/NO」、「必要/不要」、「可/不可」、「正しい/違い」などの簡単の音声を回答すればよい。
また、この方式では、インタラクションラウンドの最大数を制約し、インタラクションラウンドの最大数に達した後に、音声インタラクションユニット01はニーズ理解に失敗した結果をユーザに返すことができ、ユーザが第1の音声命令を再入力するように提示することもできる。
第2の方式:ニーズ予測モデルによってマッピングされて取得した少なくとも一つのニーズ表現の中で信頼度が上位N個のニーズ表現を、問い合わせの形式でユーザに返し、Nは予め設定された正の整数である。
この方式では、選択質問文の形式を採用してN個のニーズ表現をユーザに返して、ユーザが選択するようにすることができる。
ユーザが任意のニーズ表現に対してすべて確認していない場合、音声インタラクションユニット01はニーズ理解に失敗した結果をユーザに返すことができ、ユーザが第1の音声命令を再入力するように提示することもできる。
さらに、原因分析ユニット06はニーズ解析失敗の原因を分析することができ、問い合わせにニーズ解析失敗の原因をさらに携帯することができる。
ニーズ解析失敗の原因を分析するのは以下の処理の一つまたは任意の組み合わせを含むことができるが、これらに限定しない。
第1の処理:音声認識時に、ユーザが第1の音声命令を入力した背景に対してノイズ検出を行い、ノイズが強い場合について、音声認識段階に影響を与えることによって、後のニーズ解析に失敗する。
第2の処理:音声認識プロセスで発音の検出を行って、ユーザの発音が正確であるか否かを検出する。発音が不正確である場合について、同様に音声認識段階に影響を与えることによって、後のニーズ解析に失敗する。
第3の処理:第1の音声命令の音声認識結果に対してテキスト長さの検出を行う。長すぎる語句について、通常、ニーズ解析に不利な影響を与えることができ、例えば、語義分析を行う時に長い語句の語義を分析することが難しくなり、ニーズ解析に失敗する。
第4の処理:第1の音声命令の音声認識結果に対して口語化検出を行う。口語化すぎる表現の語句について、語義分析に不利な影響を与えることができ、ニーズ解析に失敗する。
他の処理方式が存在する可能性もあり、ここでは一々網羅しない。
上記のいくつかの処理方式に対応して、取得されたニーズ解析失敗の原因は、例えば、環境ノイズ、第1の音声命令の発音不正確、第1の音声命令の長さが制限を超えること、第1の音声命令が口語化すぎなどを含むことができる。
本開示の実施例によれば、本開示は電子機器及び読み取り可能な記憶媒体をさらに提供する。
図6に示すように、本開示の実施例の音声インタラクション方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図6に示すように、当該電子機器は、一つ又は複数のプロセッサ601と、メモリ602と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図6では、一つのプロセッサ601を例とする。
メモリ602は、本開示により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本開示により提供される音声インタラクション方法を実行することができるようにする。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本開示により提供される音声インタラクション方法を実行するためのコンピュータ命令を記憶する。
メモリ602は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例における音声インタラクション方法に対応するプログラム命令/モジュールように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ601は、メモリ602に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における音声インタラクション方法を実現する。
メモリ602は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、当該電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ602は、プロセッサ601に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して当該電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
音声インタラクション方法を実現する電子機器は、入力装置603と出力装置604とをさらに含むことができる。プロセッサ601、メモリ602、入力装置603、及び出力装置604は、バス又は他の方式を介して接続することができ、図6では、バスを介して接続することを例とする。
入力装置603は、入力された数字又は文字情報を受信することができ、及び当該電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、LCD(液晶ディスプレイ)、LED(発光ダイオード)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、PLD(プログラマブルロジックデバイス))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
以上の説明により分かるように、本開示により提供される方法、装置、機器、及びコンピュータ記憶媒体は、以下の利点を有することができる。
1)本開示は、ユーザが入力した音声命令に対するニーズ解析に失敗した後に、さらに、音声命令に対してニーズ予測を行うことができ、ユーザが言ったことを理解できないことを簡単に通知するのではなく、ユーザの可能なニーズ表現を「推測」してユーザに返して確認するため、ユーザのインタラクション効率を向上させ、ユーザ体験を向上させる。
2)音声アシスタントが問い合わせの形式で返されるニーズ表現について、ユーザは簡単に確認または選択するだけで効果的な命令入力が実現でき、自分で別の方式を変換して音声命令の再入力を行う必要がなく、さらに、ユーザのインタラクション効率を向上させ、ユーザ体験を向上させる。
3)ニーズ理解に失敗した後に、ユーザのニーズを予測するとともに、ニーズ理解に失敗した原因を分析し、分析して取得された原因をユーザに返して、ユーザの戸惑い及び焦慮を軽減し、さらにユーザ体験を向上させる。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
Claims (21)
- 音声インタラクション方法であって、
ユーザが入力した第1の音声命令に対して音声認識とニーズ解析を行うステップと、
ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するステップと、
前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップと、
前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令が受信された場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行うステップと、を含む、
音声インタラクション方法。 - ニーズ解析に成功した場合、前記第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行うステップをさらに含む、
請求項1に記載の音声インタラクション方法。 - 前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するステップは、
前記第1の音声命令を予めトレーニングされたニーズ予測モデルに入力するステップを含み、前記ニーズ予測モデルは前記第1の音声命令を少なくとも一つのニーズ表現にマッピングする、
請求項1に記載の音声インタラクション方法。 - 前記ニーズ予測モデルは、
トレーニングデータを取得することであって、前記トレーニングデータは複数の語句ペアを含み、前記語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功できるものであることと、
前記トレーニングデータを使用してシーケンスからシーケンスまでのSeq2Seqモデルをトレーニングして、前記ニーズ予測モデルを取得することであって、語句ペアのうちの第1の語句を前記Seq2Seqモデルの入力とし、第2の語句を前記Seq2Seqモデルのターゲット出力とすることとにより、予めトレーニングして取得する、
請求項3に記載の音声インタラクション方法。 - 前記トレーニングデータはテキスト検索ログから取得し、
テキスト検索要求queryを第1の語句とし、queryに対応するクリックされた検索結果を使用して第2の語句を取得し、前記第1の語句と前記第2の語句が語句ペアを構成し、第2の語句の信頼度は第1の語句をqueryとする時の前記第2の語句のクリック回数によって決定される、
請求項4に記載の音声インタラクション方法。 - 前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップは、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を第1のニーズ表現とするステップと、
前記第1のニーズ表現を問い合わせの形式で前記ユーザに返すステップと、を含む、
請求項3に記載の音声インタラクション方法。 - 前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップは、
前記ユーザが前記第1のニーズ表現を否定する第3の音声命令が受信された場合、前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とするステップと、
第2のニーズ表現を問い合わせの形式で前記ユーザに返すステップと、をさらに含む、
請求項6に記載の音声インタラクション方法。 - 前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すステップは、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が上位N(Nは予め設定された正の整数である)個のニーズ表現を、問い合わせの形式で前記ユーザに返すステップを含む、
請求項3に記載の音声インタラクション方法。 - 前記ニーズ解析に失敗した原因を分析し、前記問い合わせに前記ニーズ解析に失敗した原因をさらに携帯させるステップをさらに含む、
請求項1、6および8のいずれか一つに記載の音声インタラクション方法。 - 前記ニーズ解析に失敗した原因は、
環境ノイズ、前記第1の音声命令の長さが制限を超えること、前記第1の音声命令の発音不正確、または前記第1の音声命令の口語化を含む、
請求項9に記載の音声インタラクション方法。 - 音声インタラクション装置であって、
ユーザが入力した第1の音声命令を受信するための音声インタラクションユニットと、
前記第1の音声命令に対して音声認識とニーズ解析を行うための音声処理ユニットと、
前記ニーズ解析に失敗した場合、前記第1の音声命令に対してニーズ予測を行って、少なくとも一つのニーズ表現を取得するためのニーズ予測ユニットと、
前記音声インタラクションユニットが前記ユーザが前記ニーズ表現のうちの少なくとも一つを決定する第2の音声命令が受信された場合、前記ユーザが決定したニーズ表現に対応するニーズ解析結果を使用してサービス応答を行うためのサービス応答ユニットと、を含み、
前記音声インタラクションユニットは、さらに、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返すために用いられる、
音声インタラクション装置。 - 前記サービス応答ユニットは、さらに、ニーズ解析に成功した場合、前記第1の音声命令に対応するニーズ解析結果を使用してサービス応答を行うために用いられる、
請求項11に記載の音声インタラクション装置。 - 前記ニーズ予測ユニットは、具体的には、前記第1の音声命令を予めトレーニングされたニーズ予測モデルに入力し、前記ニーズ予測モデルは前記第1の音声命令を少なくとも一つのニーズ表現にマッピングする、
請求項11に記載の音声インタラクション装置。 - トレーニングデータを取得することであって、前記トレーニングデータは複数の語句ペアを含み、前記語句ペアは第1の語句と第2の語句を含み、第2の語句はニーズ解析に成功できるものであることと、
前記トレーニングデータを使用してSeq2Seqモデルをトレーニングして、前記ニーズ予測モデルを取得することであって、語句ペアのうちの第1の語句を前記Seq2Seqモデルの入力とし、第2の語句を前記Seq2Seqモデルのターゲット出力とすることと、に用いられるモデルトレーニングユニットをさらに含む、
請求項13に記載の音声インタラクション装置。 - 前記音声インタラクションユニットは、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す時、具体的に、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が最も高いニーズ表現を第1のニーズ表現とし、
前記第1のニーズ表現を問い合わせの形式で前記ユーザに返すことを実行する、
請求項13に記載の音声インタラクション装置。 - 前記音声インタラクションユニットは、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す時、さらに、
前記ユーザが前記第1のニーズ表現を否定する第3の音声命令が受信された場合、前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が次に高いニーズ表現を第2のニーズ表現とし、
第2のニーズ表現を問い合わせの形式で前記ユーザに返すために用いられる、
請求項15に記載の音声インタラクション装置。 - 前記音声インタラクションユニットは、前記ニーズ表現のうちの少なくとも一つを問い合わせの形式で前記ユーザに返す時、具体的に、
前記ニーズ予測モデルによってマッピングされた少なくとも一つのニーズ表現の中で信頼度が上位N(Nは予め設定された正の整数である)個のニーズ表現を、問い合わせの形式で前記ユーザに返すことを実行する、
請求項13に記載の音声インタラクション装置。 - 前記ニーズ解析に失敗した原因を分析し、前記問い合わせに前記ニーズ解析に失敗した原因をさらに携帯させるための原因分析ユニットをさらに含む、
請求項11、15および17のいずれか一つに記載の音声インタラクション装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~10のいずれかの一つに記載の音声インタラクション方法を実行する、
電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~10のいずれかの一つに記載の音声インタラクション方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータに請求項1~10のいずれかの一つに記載の音声インタラクション方法を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099574.4 | 2020-02-18 | ||
CN202010099574.4A CN111341309A (zh) | 2020-02-18 | 2020-02-18 | 一种语音交互方法、装置、设备和计算机存储介质 |
PCT/CN2020/116018 WO2021164244A1 (zh) | 2020-02-18 | 2020-09-17 | 一种语音交互方法、装置、设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022531987A true JP2022531987A (ja) | 2022-07-12 |
Family
ID=71183485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021571465A Pending JP2022531987A (ja) | 2020-02-18 | 2020-09-17 | 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11978447B2 (ja) |
EP (1) | EP3896690B1 (ja) |
JP (1) | JP2022531987A (ja) |
KR (1) | KR20210137531A (ja) |
CN (1) | CN111341309A (ja) |
WO (1) | WO2021164244A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341309A (zh) | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
CN112017663B (zh) * | 2020-08-14 | 2024-04-30 | 博泰车联网(南京)有限公司 | 一种语音泛化方法、装置及计算机存储介质 |
CN112017646A (zh) * | 2020-08-21 | 2020-12-01 | 博泰车联网(南京)有限公司 | 一种语音处理方法、装置及计算机存储介质 |
CN112382290B (zh) | 2020-11-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
CN112415908A (zh) * | 2020-11-26 | 2021-02-26 | 珠海格力电器股份有限公司 | 智能设备控制方法、装置、可读存储介质和计算机设备 |
CN114664301A (zh) * | 2022-03-28 | 2022-06-24 | 安胜(天津)飞行模拟系统有限公司 | 一种模拟训练设备交互控制方法、装置及系统 |
CN114822533B (zh) * | 2022-04-12 | 2023-05-12 | 广州小鹏汽车科技有限公司 | 语音交互方法、模型训练方法、电子设备和存储介质 |
CN115294976A (zh) * | 2022-06-23 | 2022-11-04 | 中国第一汽车股份有限公司 | 一种基于车载语音场景的纠错交互方法、系统及其车辆 |
CN116705026B (zh) * | 2023-08-02 | 2023-10-13 | 江西科技学院 | 一种人工智能交互方法及系统 |
CN117695144A (zh) * | 2024-01-19 | 2024-03-15 | 深圳市东吉联医疗科技有限公司 | 一种基于语音交互的空气波自适应控制系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227954A (ja) * | 2005-02-18 | 2006-08-31 | Pioneer Electronic Corp | 情報処理装置及び情報処理方法等 |
JP2009025538A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
WO2016151698A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 対話装置、方法及びプログラム |
JP2018528458A (ja) * | 2015-12-04 | 2018-09-27 | 三菱電機株式会社 | 発話を処理する方法 |
JP2020016784A (ja) * | 2018-07-26 | 2020-01-30 | Zホールディングス株式会社 | 認識装置、認識方法及び認識プログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8000452B2 (en) * | 2004-07-26 | 2011-08-16 | General Motors Llc | Method and system for predictive interactive voice recognition |
US7437297B2 (en) * | 2005-01-27 | 2008-10-14 | International Business Machines Corporation | Systems and methods for predicting consequences of misinterpretation of user commands in automated systems |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
CN107077843A (zh) | 2014-10-30 | 2017-08-18 | 三菱电机株式会社 | 对话控制装置和对话控制方法 |
CN105869631B (zh) * | 2015-01-21 | 2019-08-23 | 上海羽扇智信息科技有限公司 | 语音预测的方法和装置 |
US11423023B2 (en) * | 2015-06-05 | 2022-08-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
CN105206266B (zh) * | 2015-09-01 | 2018-09-11 | 重庆长安汽车股份有限公司 | 基于用户意图猜测的车载语音控制系统及方法 |
CN107463311B (zh) | 2016-06-06 | 2021-02-23 | 苹果公司 | 智能列表读取 |
CN107516516B (zh) | 2017-08-21 | 2018-11-20 | 北京格致创想科技有限公司 | 基于语音交互的仪器智能控制方法及系统 |
CN110019662B (zh) * | 2017-09-12 | 2022-10-18 | 阿里巴巴集团控股有限公司 | 一种标签重建方法及装置 |
CN108182229B (zh) * | 2017-12-27 | 2022-10-28 | 上海科大讯飞信息科技有限公司 | 信息交互方法及装置 |
US10714084B2 (en) * | 2018-02-09 | 2020-07-14 | Accenture Global Solutions Limited | Artificial intelligence based service implementation |
CN108920497B (zh) * | 2018-05-23 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种人机交互方法及装置 |
CN108920622B (zh) * | 2018-06-29 | 2021-07-20 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
CN110046221B (zh) | 2019-03-01 | 2023-12-22 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
CN110111788B (zh) * | 2019-05-06 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 语音交互的方法和装置、终端、计算机可读介质 |
CN110196894B (zh) * | 2019-05-30 | 2021-06-08 | 北京百度网讯科技有限公司 | 语言模型的训练方法和预测方法 |
CN110288985B (zh) * | 2019-06-28 | 2022-03-08 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及存储介质 |
US11475223B2 (en) * | 2019-07-30 | 2022-10-18 | Adobe Inc. | Converting tone of digital content |
CN110459208B (zh) * | 2019-09-09 | 2022-01-11 | 中科极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
CN110704703A (zh) * | 2019-09-27 | 2020-01-17 | 北京百度网讯科技有限公司 | 人机对话方法及装置 |
US11694682B1 (en) * | 2019-12-11 | 2023-07-04 | Amazon Technologies, Inc. | Triggering voice control disambiguation |
CN111341309A (zh) | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
-
2020
- 2020-02-18 CN CN202010099574.4A patent/CN111341309A/zh active Pending
- 2020-09-17 JP JP2021571465A patent/JP2022531987A/ja active Pending
- 2020-09-17 US US17/279,540 patent/US11978447B2/en active Active
- 2020-09-17 EP EP20864285.0A patent/EP3896690B1/en active Active
- 2020-09-17 KR KR1020217032708A patent/KR20210137531A/ko not_active Application Discontinuation
- 2020-09-17 WO PCT/CN2020/116018 patent/WO2021164244A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227954A (ja) * | 2005-02-18 | 2006-08-31 | Pioneer Electronic Corp | 情報処理装置及び情報処理方法等 |
JP2009025538A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
WO2016151698A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 対話装置、方法及びプログラム |
JP2018528458A (ja) * | 2015-12-04 | 2018-09-27 | 三菱電機株式会社 | 発話を処理する方法 |
JP2020016784A (ja) * | 2018-07-26 | 2020-01-30 | Zホールディングス株式会社 | 認識装置、認識方法及び認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3896690A1 (en) | 2021-10-20 |
US11978447B2 (en) | 2024-05-07 |
CN111341309A (zh) | 2020-06-26 |
EP3896690A4 (en) | 2021-12-01 |
US20220351721A1 (en) | 2022-11-03 |
EP3896690B1 (en) | 2023-03-15 |
WO2021164244A1 (zh) | 2021-08-26 |
KR20210137531A (ko) | 2021-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022531987A (ja) | 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体 | |
KR102504699B1 (ko) | 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN111460083B (zh) | 文档标题树的构建方法、装置、电子设备及存储介质 | |
US9911412B2 (en) | Evidence-based natural language input recognition | |
US9761225B2 (en) | Semantic re-ranking of NLU results in conversational dialogue applications | |
US9171542B2 (en) | Anaphora resolution using linguisitic cues, dialogue context, and general knowledge | |
US9269354B2 (en) | Semantic re-ranking of NLU results in conversational dialogue applications | |
EP2678861B1 (en) | Hybridized client-server speech recognition | |
KR101758302B1 (ko) | 컨텍스트에 기초한 음성 인식 문법 선택 | |
KR20210152924A (ko) | 엔티티 연결 방법, 장치, 기기 및 저장 매체 | |
EP3923159A1 (en) | Method, apparatus, device and storage medium for matching semantics | |
US9361884B2 (en) | Communicating context across different components of multi-modal dialog applications | |
JP5835197B2 (ja) | 情報処理システム | |
JP7395445B2 (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
JP2021131528A (ja) | ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN114036322A (zh) | 用于搜索系统的训练方法、电子设备和存储介质 | |
KR20210092692A (ko) | 구두점 예측 방법 및 장치 | |
CN111538815A (zh) | 一种文本查询方法、装置、设备及存储介质 | |
CN110795593A (zh) | 语音包的推荐方法、装置、电子设备和存储介质 | |
CN113220835A (zh) | 文本信息处理方法、装置、电子设备以及存储介质 | |
CN112466295A (zh) | 语言模型训练方法、应用方法、装置、设备及存储介质 | |
CN112559715B (zh) | 态度的识别方法、装置、设备及存储介质 | |
EP3843090B1 (en) | Method and apparatus for outputting analysis abnormality information in spoken language understanding | |
KR102440635B1 (ko) | 음성 패킷 녹취 기능의 안내 방법, 장치, 기기 및 컴퓨터 저장 매체 | |
CN116010571A (zh) | 知识库构建方法、信息查询方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230801 |