JP2023515897A - 音声対話の訂正方法及び装置 - Google Patents
音声対話の訂正方法及び装置 Download PDFInfo
- Publication number
- JP2023515897A JP2023515897A JP2022563122A JP2022563122A JP2023515897A JP 2023515897 A JP2023515897 A JP 2023515897A JP 2022563122 A JP2022563122 A JP 2022563122A JP 2022563122 A JP2022563122 A JP 2022563122A JP 2023515897 A JP2023515897 A JP 2023515897A
- Authority
- JP
- Japan
- Prior art keywords
- user
- semantic keyword
- result
- semantic
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000012937 correction Methods 0.000 title claims description 32
- 230000002452 interceptive effect Effects 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 244000299461 Theobroma cacao Species 0.000 description 4
- 235000019219 chocolate Nutrition 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
ユーザ音声認識結果:林永凱に電話します。
チャットロボットの返信:林永凱の電話番号が見つかりました。電話をかけますか?
ユーザ音声認識結果:楷書の楷です。
チャットロボットの返信:林永楷の電話番号が見つかりました。電話をかけますか?
また、
ユーザ音声認識結果:精英(中国語の発音:jing-ying)マンションにナビゲーションしてください。
チャットロボットの返信:すみません、精英マンションは見つかりませんでした。
ユーザ音声認識結果:草字の冠の菁英(中国語の発音:jing-ying)です。
チャットロボットの返信:菁英マンションにナビゲーションします。
また、
ユーザ音声認識結果:西蔵(中国語の発音:hsi-zang)に行きます。
チャットロボットの返信:西蔵にナビゲーションします。
ユーザ音声認識結果:乗車駅の駅(中国語の発音:jhan)です。
チャットロボットの返信:はい、西駅(中国語の発音:hsi-jhan)にナビゲーションします。
音声によって、前のラウンド又は前の数ラウンドの言葉を能動的に訂正し、訂正を使用する際、通常、誤った文字を明確に説明する必要があり、また、訂正後の文字を必要とするが、テキストが長い場合、又はテキストの重複がある場合にユーザの表現が難しくなる。例えば、
「北京の西駅(中国語の発音:hsi-jhan)から西蔵(中国語の発音:hsi-zang)行きのチケットを一枚購入したいです」に認識エラーが発生した場合、「北京の新駅(中国語の発音:hsin-jhan)から西駅(中国語の発音:hsi-jhan)行きのチケットを一枚購入したいです」となる可能性があり、ユーザが訂正しようとする場合、「北京の新駅ではなく北京の西駅であり、西駅ではなく西蔵自治区の西蔵です」と発話する必要がある。1つは、言葉が複雑であり、もう1つは、訂正言葉自体による認識エラーを処理できない可能性もある。上記文のように訂正された言葉は、依然として「北京の新駅ではなく北京の西駅であり、そして新駅でもなく西蔵自治区の西蔵です」と誤認識される可能性がある。
あるいは、言語モデルの原因により、対話中にユーザが再び「hsi er chi」をn回繰り返して話しても、依然として「西二旗」ではなく「西二奇」と認識される。
音声認識自体の誤認識の為に、訂正を行う場合の言葉認識結果も依然として誤っている。
音声訂正を行う場合、ユーザが正しく発音しているにもかかわらず、ユーザが入力しようとする単語がちょうど依然として信頼度が最も高い単語ではない場合、依然として他の単語として認識される。
認識内容が長い場合、複数の発音が類似する単語が出現しやすくなり、又は複数のセマンティックスロットで認識された内容の発音が近い場合、訂正する必要がある単語の位置を正確に確定することが困難になる。
複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識するステップと、
第1のテキスト情報に基づいて、第1のセマンティックキーワードを有する第1の結果をユーザにフィードバックするステップと、
第1の結果内の第1のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするステップと、
ユーザ入力の第2のセマンティックキーワードを受信し、第2のセマンティックキーワードに基づいて第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、第2のテキスト情報に基づいて第2のセマンティックキーワードを有する第2の結果をユーザにフィードバックするステップと、
を含むことを特徴とする音声対話の訂正方法を提供する。
複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識するために用いられる音声認識プログラムモジュールと、
第1のテキスト情報に基づいて、第1のセマンティックキーワードを有する第1の結果をユーザにフィードバックするために用いられる結果フィードバックプログラムモジュールと、
第1の結果内の第1のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするために用いられる候補単語フィードバックプログラムモジュールと、
ユーザ入力の第2のセマンティックキーワードを受信し、第2のセマンティックキーワードに基づいて第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、第2のテキスト情報に基づいて、第2のセマンティックキーワードを有する第2の結果をユーザにフィードバックするために用いられる訂正プログラムモジュールと、
を含むことを特徴とする音声対話の訂正装置を提供する。
S11:電子機器において、複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識する。
S12:電子機器において、第1のテキスト情報に基づいて第1のセマンティックキーワードを有する第1の結果をユーザにフィードバックする。
S13:第1の結果内の第1のセマンティックキーワードに対するユーザの選択に応答して、電子機器において複数の候補単語をユーザにフィードバックする。
S14:電子機器において、ユーザ入力の第2のセマンティックキーワードを受信し、第2のセマンティックキーワードに基づいて第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、第2のテキスト情報に基づいて第2のセマンティックキーワードを有する第2の結果をユーザにフィードバックする。
また、「怦然星動を見たいです」と「怦然心動を見たいです」の場合、一つは2015年陳国輝監督の映画であり、もう一つは2010年ロブ・ライナー監督の映画である。二つの発音は非常に似ている。どのような結果に音声認識されても、正しくない可能性がある。
ユーザが「怦然星動」を選択した後、認識時に確定された複数の候補単語(怦然星動、怦然心動)をユーザにフィードバックする。
複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第1のセマンティックキーワードとして確定する、ことが含まれる。
複数の候補単語をユーザにフィードバックするステップにおいては、
複数の候補単語を認識信頼度に応じてソートし、複数の候補単語のリストウィンドウをユーザにフィードバックする、ことが含まれる。
1.怦然星動(中国語の発音:peng-ran-hsing-dong)
2.怦然心動(中国語の発音:peng-ran-hsin-dong)
3.怦然行動(中国語の発音:peng-ran-hsing-dong)
4.烹炊行動(中国語の発音:peng-ren-hsing-dong)
5.……
又はグリッド形式のリスト。
1.怦然星動 2.怦然心動 3.怦然行動
4.烹炊行動 5.…… 6.……
7.…… 8.…… 9.……
実際の使用において、候補単語ウィンドウの設計には、リストやグリッドなどの形式が含まれるが、これらに限定されない。
ユーザ:一番目です。
インテリジェントデバイス:ロブ・ライナー監督の怦然心動を再生します。
具体的なフローを図2に示す。
ユーザが複数の候補単語の中から単語を選択すると、選択された単語を第2のセマンティックキーワードとして確定し、
ユーザが訂正対話音声を入力すると、訂正対話音声を認識し、認識結果に基づいて第2のセマンティックキーワードを確定し、
ユーザが訂正テキストを入力すると、訂正テキストに基づいて第2のセマンティックキーワードを確定する、ことが含まれる。
方法一:キーボード又は仮想キーボードの入力を介して、本ラウンドの音声認識結果を直接訂正する。
方法二:ユーザはこの時点で既に誤字を選択しているため、直接音声により「心臓の心」と発話し又は正しい内容を直接発話することができる。例えば、数字136が発音ではなく突然の環境騒音によって区別できない場合、136が133と認識されると、133を選択した後に136を直接発話すればよい(本方法の誤字訂正は、選択された操作を既に実行しているため、認識内容が非常に長く、又は複数の発音が類似する字(例えば、hsing、hsin)を含む場合、どの字が訂正しようとする字であるかを確定できないことはない)。
この実施形態から分かるように、ユーザが訂正された情報を入力できるように複数の方法が提供され、正確性を確保するとともに、ユーザの体験を向上させることができる。
ユーザが画像情報を入力すると、画像情報内の訂正テキストを認識し、訂正テキストに基づいて第2のセマンティックキーワードを確定する、ことが更に含まれる。
ユーザ:瑞士蓮の(中国語の発音:rui-shih-lian)チョコレートをもう一箱買いたいです。
システム:以下の瑞氏蓮(中国語の発音:rui-shih-lian)のチョコレートが見つかりました。どちらを買いますか?
ユーザ:ユーザは手元のチョコレートボックスを取り出し、ボックス上の瑞士蓮の文字を指して、「その三文字ではなく、私が欲しいのはこの三文字です」と発話した。
システム:音声認識の結果、及び文字認識の結果により、統合処理した後に「以下の瑞士蓮のチョコレートが見つかりました。どちらを買いますか?」を返信する。
この実施形態から分かるように、ユーザが訂正された情報を入力できるように画像方式を提供し、ユーザの体験を更に向上させることができる。
ラウンドごとにユーザにフィードバックするセマンティックキーワードを有する複数ラウンドの結果を記録するステップと、
いずれかの結果におけるセマンティックキーワードに対するユーザの選択に応答して、セマンティックキーワードに対応する複数の候補単語をユーザにフィードバックするステップと、を更に含む。
ユーザ:怦然星動を見たいです。
システム:怦然星動に合致する以下のような内容が見つかりました、どちらをご覧になりますか?
ユーザ:怦然心動です。
システム:怦然心動に合致する以下のような内容が見つかりました、どちらをご覧になりますか?
この時、ユーザは上記複数ラウンドの対話のいずれかを選択することができ、最新の「怦然心動に合致する以下のような内容が見つかりました、どちらをご覧になりますか?」を選択することができる。同時に、前のこの3ラウンドの対話も同様に選択して、ユーザのために履歴対話における誤りを訂正し、ユーザの体験を更に向上させることができる。
第1のテキスト情報に基づいて対応する第1の機能を確定し、第1のテキスト情報が複数の候補機能にヒットする場合、プリセット優先度が最も高い機能を選択して第1の機能として確定し、
第1の機能を介して、第1の機能を有するテキストの第1の結果をユーザにフィードバックする、ことが含まれる。
ユーザの入力に第2の機能の音声対話が含まれている場合、第1のテキスト情報に基づいて第2の機能を再確定し、第2の機能を介して、第2の機能を有するテキストの第2の結果をユーザにフィードバックし、または、
ユーザが第1の機能を含む否定的な口調の対話を入力すると、第1のテキスト情報に基づいて対応する第3の機能を再確定し、第3の機能を介して、第3の機能を有するテキストの第3の結果をユーザにフィードバックする、ことが含まれる。
ユーザ:西遊記を再生してください。
システム:西遊記のビデオが見つかりました。
(1)ユーザ:私が聞きたいのはオーディオブックです。
システム:オーディオブックの西遊記を再生します。
(2)ユーザ:ビデオは見ません。
システム:オーディオブックの西遊記を再生します。
ユーザ:西遊記を再生してください。
システム:以下のような西遊記のビデオが見つかりました。
ユーザは、対話システムから返信された提示語におけるビデオという単語を選択している。
システム:対話グラフィックインターフェースコントロールは、候補単語ウィンドウを自動的にポップアップし、ウィンドウに使用可能な他の機能が表示される。
1.オーディオブック
2.子供向けアニメ
3.音楽
4.童謡の精選
5.百科辞典
ユーザはクリックによりオーディオブックを選択した。
システム:オーディオブックの西遊記を再生します。
複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第1のセマンティックキーワードとするために用いられる。
候補単語フィードバックプログラムモジュールは、
複数の候補単語を認識信頼度に応じてソートし、複数の候補単語のリストウィンドウをユーザにフィードバックするために用いられる。
複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識し、
第1のテキスト情報に基づいて、第1のセマンティックキーワードを有する第1の結果をユーザにフィードバックし、
第1の結果内の第1のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックし、
ユーザ入力の第2のセマンティックキーワードを受信し、第2のセマンティックキーワードに基づいて第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、第2のテキスト情報に基づいて第2のセマンティックキーワードを有する第2の結果をユーザにフィードバックする。
複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識するステップと、
第1のテキスト情報に基づいて、第1のセマンティックキーワードを有する第1の結果をユーザにフィードバックするステップと、
第1の結果内の第1のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするステップと、
ユーザ入力の第2のセマンティックキーワードを受信し、第2のセマンティックキーワードに基づいて第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、第2のテキスト情報に基づいて第2のセマンティックキーワードを有する第2の結果をユーザにフィードバックするステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器を提供する。
前記複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第1のセマンティックキーワードとして確定し、
前記複数の候補単語を前記ユーザにフィードバックするステップにおいては、
前記複数の候補単語を認識信頼度に応じてソートし、前記複数の候補単語のリストウィンドウを前記ユーザにフィードバックする。
前記ユーザが前記複数の候補単語の中から単語を選択すると、選択された単語を前記第2のセマンティックキーワードとして確定し、
前記ユーザが訂正対話音声を入力すると、前記訂正対話音声を認識し、認識結果に基づいて前記第2のセマンティックキーワードを確定し、
前記ユーザが訂正テキストを入力すると、前記訂正テキストに基づいて前記第2のセマンティックキーワードを確定する。
前記ユーザが画像情報を入力すると、前記画像情報内の訂正テキストを認識し、前記訂正テキストに基づいて前記第2のセマンティックキーワードを確定する。
いずれかの結果におけるセマンティックキーワードに対する前記ユーザの選択に応答して、前記セマンティックキーワードに対応する複数の候補単語を前記ユーザにフィードバックするステップと、
を更に実行する。
前記第1のテキスト情報に基づいて対応する第1の機能を確定し、前記第1のテキスト情報が複数の候補機能にヒットする場合、プリセット優先度が最も高い機能を選択して前記第1の機能として確定し、
前記第1の機能を介して、前記第1の機能を有するテキストの第1の結果を前記ユーザにフィードバックする。
前記ユーザの入力に第2の機能の音声対話が含まれている場合、前記第1のテキスト情報に基づいて前記第2の機能を再確定し、前記第2の機能を介して、前記第2の機能を有するテキストの第2の結果を前記ユーザにフィードバックするステップと、または、
ユーザが第1の機能を含む否定的な口調の対話を入力すると、前記第1のテキスト情報に基づいて対応する第3の機能を再確定し、前記第3の機能を介して、前記第3の機能を有するテキストの第3の結果を前記ユーザにフィードバックするステップ、
を更に実行する。
Claims (10)
- 電子機器に用いられる音声対話の訂正方法であって、
前記電子機器において、複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識するステップと、
前記電子機器において、前記第1のテキスト情報に基づいて前記第1のセマンティックキーワードを有する第1の結果を前記ユーザにフィードバックするステップと、
前記第1の結果内の第1のセマンティックキーワードに対する前記ユーザの選択に応答して、前記電子機器において、複数の前記候補単語を前記ユーザにフィードバックするステップと、
前記電子機器において、前記ユーザ入力の第2のセマンティックキーワードを受信し、前記第2のセマンティックキーワードに基づいて前記第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、前記第2のテキスト情報に基づいて前記第2のセマンティックキーワードを有する第2の結果を前記ユーザにフィードバックするステップと、
を含むことを特徴とする音声対話の訂正方法。 - 前記複数の候補単語の中から第1のセマンティックキーワードを確定するステップにおいては、
前記複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第1のセマンティックキーワードとして確定し、
前記複数の候補単語を前記ユーザにフィードバックするステップにおいては、
前記複数の候補単語を認識信頼度に応じてソートし、前記複数の候補単語のリストウィンドウを前記ユーザにフィードバックする、
ことを特徴とする請求項1に記載の音声対話の訂正方法。 - 前記ユーザ入力の第2のセマンティックキーワードを受信するステップにおいては、
前記ユーザが前記複数の候補単語の中から単語を選択すると、選択された単語を前記第2のセマンティックキーワードとして確定し、
前記ユーザが訂正対話音声を入力すると、前記訂正対話音声を認識し、認識結果に基づいて前記第2のセマンティックキーワードを確定し、
前記ユーザが訂正テキストを入力すると、前記訂正テキストに基づいて前記第2のセマンティックキーワードを確定する、
ことを特徴とする請求項1に記載の音声対話の訂正方法。 - 前記ユーザ入力の第2のセマンティックキーワードを受信するステップにおいては更に、
前記ユーザが画像情報を入力すると、前記画像情報内の訂正テキストを認識し、前記訂正テキストに基づいて前記第2のセマンティックキーワードを確定する、
ことを特徴とする請求項3に記載の音声対話の訂正方法。 - ラウンドごとに前記ユーザにフィードバックするセマンティックキーワードを有する複数ラウンドの結果を記録するステップと、
いずれかの結果におけるセマンティックキーワードに対する前記ユーザの選択に応答して、前記セマンティックキーワードに対応する複数の候補単語を前記ユーザにフィードバックするステップと、
を更に含むことを特徴とする請求項1に記載の音声対話の訂正方法。 - 前記第1のテキスト情報に基づいて、前記第1のセマンティックキーワードを有する第1の結果を前記ユーザにフィードバックするステップにおいては、
前記第1のテキスト情報に基づいて対応する第1の機能を確定し、前記第1のテキスト情報が複数の候補機能にヒットする場合、プリセット優先度が最も高い機能を選択して前記第1の機能として確定し、
前記第1の機能を介して、前記第1の機能を有するテキストの第1の結果を前記ユーザにフィードバックする、
ことを特徴とする請求項1に記載の音声対話の訂正方法。 - 前記第1の結果内の第1の機能のテキストに対する前記ユーザの選択に応答して、複数の前記候補機能を前記ユーザにフィードバックするステップと、
前記ユーザの入力に第2の機能の音声対話が含まれている場合、前記第1のテキスト情報に基づいて前記第2の機能を再確定し、前記第2の機能を介して、前記第2の機能を有するテキストの第2の結果を前記ユーザにフィードバックするステップと、または、
ユーザが第1の機能を含む否定的な口調の対話を入力すると、前記第1のテキスト情報に基づいて対応する第3の機能を再確定し、前記第3の機能を介して、前記第3の機能を有するテキストの第3の結果を前記ユーザにフィードバックするステップ、
を更に含むことを特徴とする請求項6に記載の音声対話の訂正方法。 - 複数の候補単語の中から確定された第1のセマンティックキーワードを含む、ユーザ入力の対話音声の第1のテキスト情報を認識するために用いられる音声認識プログラムモジュールと、
前記第1のテキスト情報に基づいて、前記第1のセマンティックキーワードを有する第1の結果を前記ユーザにフィードバックするために用いられる結果フィードバックプログラムモジュールと、
前記第1の結果内の第1のセマンティックキーワードに対する前記ユーザの選択に応答して、複数の前記候補単語を前記ユーザにフィードバックするために用いられる候補単語フィードバックプログラムモジュールと、
前記ユーザ入力の第2のセマンティックキーワードを受信し、前記第2のセマンティックキーワードに基づいて前記第1のテキスト情報を訂正し、訂正された第2のテキスト情報を確定し、前記第2のテキスト情報に基づいて、前記第2のセマンティックキーワードを有する第2の結果を前記ユーザにフィードバックするために用いられる訂正プログラムモジュールと、
を含むことを特徴とする音声対話の訂正装置。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
請求項1~7のいずれか1項に記載の音声対話の訂正方法のステップが実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させることを特徴とする電子機器。 - コンピュータプログラムが記憶されている記憶媒体であって、
前記プログラムがプロセッサによって実行されると、請求項1~7のいずれか1項に記載の音声対話の訂正方法のステップが実現できる、ことを特徴とする記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311357.7A CN111540356B (zh) | 2020-04-20 | 2020-04-20 | 用于语音对话的纠正方法及系统 |
CN202010311357.7 | 2020-04-20 | ||
PCT/CN2020/129337 WO2021212817A1 (zh) | 2020-04-20 | 2020-11-17 | 用于语音对话的纠正方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023515897A true JP2023515897A (ja) | 2023-04-14 |
JP7413568B2 JP7413568B2 (ja) | 2024-01-15 |
Family
ID=71978839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022563122A Active JP7413568B2 (ja) | 2020-04-20 | 2020-11-17 | 音声対話の訂正方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11804217B2 (ja) |
EP (1) | EP4141865A4 (ja) |
JP (1) | JP7413568B2 (ja) |
CN (1) | CN111540356B (ja) |
WO (1) | WO2021212817A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540356B (zh) * | 2020-04-20 | 2022-05-17 | 思必驰科技股份有限公司 | 用于语音对话的纠正方法及系统 |
CN112417867B (zh) * | 2020-12-07 | 2022-10-18 | 四川长虹电器股份有限公司 | 一种语音识别后的视频片名纠错方法及系统 |
CN112700768B (zh) * | 2020-12-16 | 2024-04-26 | 科大讯飞股份有限公司 | 语音识别方法以及电子设备、存储装置 |
CN112684913B (zh) * | 2020-12-30 | 2023-07-14 | 维沃移动通信有限公司 | 信息修正方法、装置及电子设备 |
CN114023302B (zh) * | 2022-01-10 | 2022-05-24 | 北京中电慧声科技有限公司 | 文本语音处理装置及文本读音处理方法 |
CN115457961B (zh) * | 2022-11-10 | 2023-04-07 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆、服务器、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005043461A (ja) * | 2003-07-23 | 2005-02-17 | Canon Inc | 音声認識方法及び音声認識装置 |
JP2005275228A (ja) * | 2004-03-26 | 2005-10-06 | Equos Research Co Ltd | ナビゲーション装置 |
WO2017217046A1 (ja) * | 2016-06-15 | 2017-12-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2018097029A (ja) * | 2016-12-08 | 2018-06-21 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JP2018180883A (ja) * | 2017-04-12 | 2018-11-15 | 株式会社アドバンスト・メディア | 端末装置及びプログラム |
JP2020187163A (ja) * | 2019-05-10 | 2020-11-19 | 本田技研工業株式会社 | 音声操作システム、音声操作制御方法、及び音声操作制御プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6789231B1 (en) * | 1999-10-05 | 2004-09-07 | Microsoft Corporation | Method and system for providing alternatives for text derived from stochastic input sources |
US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
WO2016210278A1 (en) * | 2015-06-26 | 2016-12-29 | Duquette J | Dynamic feedback and scoring of transcription of a dictation |
CN108121455B (zh) | 2016-11-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 识别纠正方法及装置 |
CN107093423A (zh) * | 2017-05-27 | 2017-08-25 | 努比亚技术有限公司 | 一种语音输入修正方法、装置及计算机可读存储介质 |
CN108091328B (zh) * | 2017-11-20 | 2021-04-16 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
CN109215661A (zh) * | 2018-08-30 | 2019-01-15 | 上海与德通讯技术有限公司 | 语音转文字方法、装置设备及存储介质 |
US10861446B2 (en) * | 2018-12-10 | 2020-12-08 | Amazon Technologies, Inc. | Generating input alternatives |
CN111540356B (zh) | 2020-04-20 | 2022-05-17 | 思必驰科技股份有限公司 | 用于语音对话的纠正方法及系统 |
-
2020
- 2020-04-20 CN CN202010311357.7A patent/CN111540356B/zh active Active
- 2020-11-17 WO PCT/CN2020/129337 patent/WO2021212817A1/zh unknown
- 2020-11-17 JP JP2022563122A patent/JP7413568B2/ja active Active
- 2020-11-17 US US17/996,643 patent/US11804217B2/en active Active
- 2020-11-17 EP EP20932568.7A patent/EP4141865A4/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005043461A (ja) * | 2003-07-23 | 2005-02-17 | Canon Inc | 音声認識方法及び音声認識装置 |
JP2005275228A (ja) * | 2004-03-26 | 2005-10-06 | Equos Research Co Ltd | ナビゲーション装置 |
WO2017217046A1 (ja) * | 2016-06-15 | 2017-12-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2018097029A (ja) * | 2016-12-08 | 2018-06-21 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JP2018180883A (ja) * | 2017-04-12 | 2018-11-15 | 株式会社アドバンスト・メディア | 端末装置及びプログラム |
JP2020187163A (ja) * | 2019-05-10 | 2020-11-19 | 本田技研工業株式会社 | 音声操作システム、音声操作制御方法、及び音声操作制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7413568B2 (ja) | 2024-01-15 |
WO2021212817A1 (zh) | 2021-10-28 |
US20230223015A1 (en) | 2023-07-13 |
CN111540356A (zh) | 2020-08-14 |
EP4141865A4 (en) | 2023-11-01 |
EP4141865A1 (en) | 2023-03-01 |
US11804217B2 (en) | 2023-10-31 |
CN111540356B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7413568B2 (ja) | 音声対話の訂正方法及び装置 | |
KR102394289B1 (ko) | 맥락을 인식하는 인간-대-컴퓨터 대화 | |
US11302337B2 (en) | Voiceprint recognition method and apparatus | |
RU2710984C2 (ru) | Совершение задачи без монитора в цифровом персональном помощнике | |
CN110730953B (zh) | 基于创建者提供的内容定制交互式对话应用的方法、系统 | |
US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
JP4854259B2 (ja) | 音声コマンドを明瞭化する集中化された方法およびシステム | |
KR102320708B1 (ko) | 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체 | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
US20160239259A1 (en) | Learning intended user actions | |
US11830482B2 (en) | Method and apparatus for speech interaction, and computer storage medium | |
CN113412515A (zh) | 适配自动化助理以用多种语言使用 | |
KR20210088467A (ko) | 음성 인터랙션 제어 방법, 장치, 전자기기, 저장매체 및 시스템 | |
CN111488443B (zh) | 技能选择方法及装置 | |
CN110998526A (zh) | 用户配置的且自定义的交互式对话应用 | |
JP2019185737A (ja) | 検索方法及びそれを用いた電子機器 | |
US11817093B2 (en) | Method and system for processing user spoken utterance | |
CN110741362A (zh) | 音频查询的重叠处理的协调 | |
WO2021098175A1 (zh) | 录制语音包功能的引导方法、装置、设备和计算机存储介质 | |
US20230169272A1 (en) | Communication framework for automated content generation and adaptive delivery | |
KR20230025708A (ko) | 오디오 제시 인터렉션을 갖는 자동화된 어시스턴트 | |
CN111966803A (zh) | 对话模拟方法、装置、存储介质及电子设备 | |
CN111580766A (zh) | 一种信息显示方法、装置和信息显示系统 | |
US11776537B1 (en) | Natural language processing system for context-specific applier interface | |
US20220343916A1 (en) | Assisted Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230328 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7413568 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |