JP2023515897A

JP2023515897A - 音声対話の訂正方法及び装置

Info

Publication number: JP2023515897A
Application number: JP2022563122A
Authority: JP
Inventors: 永楷林; 帥樊
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-04-20
Filing date: 2020-11-17
Publication date: 2023-04-14
Anticipated expiration: 2040-11-17
Also published as: JP7413568B2; WO2021212817A1; US20230223015A1; CN111540356A; EP4141865A4; EP4141865A1; US11804217B2; CN111540356B

Abstract

本発明は、複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するステップと、第１のテキスト情報に基づいて第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックするステップと、第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするステップと、ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックするステップと、を含むことを特徴とする音声対話の訂正方法を提供する。本発明は更に、音声対話の訂正装置を提供する。本発明は、客観的に存在する真の曖昧性の問題を解決するとともに、対話システムのエラーに対処するフォルトトレランス及び処理能力を向上させることができる。【選択図】図１

Description

本発明は、インテリジェント音声分野に関し、特に音声対話の訂正方法及び装置に関する。

インテリジェント音声の発展に伴い、ユーザとインテリジェントデバイスとのコミュニケーションがより便利になり、インテリジェントデバイスはユーザ入力の音声をセマンティックに理解・認識してユーザの意図を取得し、更に対応する操作をユーザにフィードバックする。認識エラーが発生した場合、ユーザは通常それを訂正することができる。例えば、
ユーザ音声認識結果：林永凱に電話します。
チャットロボットの返信：林永凱の電話番号が見つかりました。電話をかけますか？
ユーザ音声認識結果：楷書の楷です。
チャットロボットの返信：林永楷の電話番号が見つかりました。電話をかけますか？
また、
ユーザ音声認識結果：精英（中国語の発音：ｊｉｎｇ－ｙｉｎｇ）マンションにナビゲーションしてください。
チャットロボットの返信：すみません、精英マンションは見つかりませんでした。
ユーザ音声認識結果：草字の冠の菁英（中国語の発音：ｊｉｎｇ－ｙｉｎｇ）です。
チャットロボットの返信：菁英マンションにナビゲーションします。
また、
ユーザ音声認識結果：西蔵（中国語の発音：ｈｓｉ－ｚａｎｇ）に行きます。
チャットロボットの返信：西蔵にナビゲーションします。
ユーザ音声認識結果：乗車駅の駅（中国語の発音：ｊｈａｎ）です。
チャットロボットの返信：はい、西駅（中国語の発音：ｈｓｉ－ｊｈａｎ）にナビゲーションします。

本発明を実現する過程において、発明者は、関連技術に少なくとも以下の問題があることを発見した。
音声によって、前のラウンド又は前の数ラウンドの言葉を能動的に訂正し、訂正を使用する際、通常、誤った文字を明確に説明する必要があり、また、訂正後の文字を必要とするが、テキストが長い場合、又はテキストの重複がある場合にユーザの表現が難しくなる。例えば、
「北京の西駅（中国語の発音：ｈｓｉ－ｊｈａｎ）から西蔵（中国語の発音：ｈｓｉ－ｚａｎｇ）行きのチケットを一枚購入したいです」に認識エラーが発生した場合、「北京の新駅（中国語の発音：ｈｓｉｎ－ｊｈａｎ）から西駅（中国語の発音：ｈｓｉ－ｊｈａｎ）行きのチケットを一枚購入したいです」となる可能性があり、ユーザが訂正しようとする場合、「北京の新駅ではなく北京の西駅であり、西駅ではなく西蔵自治区の西蔵です」と発話する必要がある。１つは、言葉が複雑であり、もう１つは、訂正言葉自体による認識エラーを処理できない可能性もある。上記文のように訂正された言葉は、依然として「北京の新駅ではなく北京の西駅であり、そして新駅でもなく西蔵自治区の西蔵です」と誤認識される可能性がある。
あるいは、言語モデルの原因により、対話中にユーザが再び「ｈｓｉｅｒｃｈｉ」をｎ回繰り返して話しても、依然として「西二旗」ではなく「西二奇」と認識される。
音声認識自体の誤認識の為に、訂正を行う場合の言葉認識結果も依然として誤っている。
音声訂正を行う場合、ユーザが正しく発音しているにもかかわらず、ユーザが入力しようとする単語がちょうど依然として信頼度が最も高い単語ではない場合、依然として他の単語として認識される。
認識内容が長い場合、複数の発音が類似する単語が出現しやすくなり、又は複数のセマンティックスロットで認識された内容の発音が近い場合、訂正する必要がある単語の位置を正確に確定することが困難になる。

本発明は少なくとも、言語モデルの原因により、認識エラーや他の単語を認識してしまうこと、長い文や発音が近い文に対し、訂正の必要がある単語の位置を容易に確定できないという従来技術における問題を解決する。

第１の態様によれば、本発明の実施例は、
複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するステップと、
第１のテキスト情報に基づいて、第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックするステップと、
第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするステップと、
ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックするステップと、
を含むことを特徴とする音声対話の訂正方法を提供する。

第２の態様によれば、本発明の実施例は、
複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するために用いられる音声認識プログラムモジュールと、
第１のテキスト情報に基づいて、第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックするために用いられる結果フィードバックプログラムモジュールと、
第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするために用いられる候補単語フィードバックプログラムモジュールと、
ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて、第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックするために用いられる訂正プログラムモジュールと、
を含むことを特徴とする音声対話の訂正装置を提供する。

第３の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、本発明のいずれかの実施例の音声対話の訂正方法のステップが実行できるように、少なくとも１つのプロセッサによって命令を実行させることを特徴とする電子機器を提供する。

第４の態様によれば、本発明の実施例は、コンピュータプログラムが記憶されている記憶媒体であって、プログラムがプロセッサによって実行されると、本発明のいずれかの実施例の音声対話の訂正方法のステップが実現できる、ことを特徴とする記憶媒体を提供する。

本発明の実施例は、以下のような有益な効果を有する。本方法の能動的な誤り訂正機能を対話システムに導入することで対話システムの実用性を向上させることができ、客観的に存在する真の曖昧性の問題（人間同士の対話にも存在する）を解決するとともに、対話システムのエラーに対処するフォルトトレランス及び処理能力を向上させ、インテリジェント音声製品、特にスクリーン付きの装置において、対話システムがより優れたユーザ体験をユーザに提供することに役立つ。

音声認識入力法において、特にインテリジェント端末では認識エラーの問題は常に避けられない。現在、市場で主流の製品では、誤り訂正に対してユーザ体験に優れた設計が提供されておらず、カーソルを使用して特定の位置に位置決めした後に手動で内容を削除し、更にテキスト入力法を使用して正確なテキストを作成するしかない。音声入力法においてマルチモードに基づく能動的な誤り訂正を導入すると、誤り訂正を行う時にコンテキストに基づいて直接単語をクリック又は選択することができ、続いてシステムからフィードバックされた高信頼度の候補単語から対応する正確な単語を選択し、これにより、誤り訂正のたびにキーボードを使用して修正する必要がなくなり、これは音声入力法の性能ネックとユーザ体験を大幅に向上させることができることが予想される。

本発明の実施例または先行技術における技術案をより明確に説明するために、以下では、実施例や従来技術の説明において使用する必要がある図面を簡単に説明する。以下の説明における図面は、本発明のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることもできる。

本発明の一実施例による音声対話の訂正方法のフローチャートである。本発明の一実施例による音声対話の訂正方法のソフトウェア実現フローチャートである。本発明の一実施例による音声対話の訂正装置の構造概略図である。本発明の電子機器の一実施例の構造概略図である。

本発明の実施例の目的、技術案及び利点をより明確にするために、以下では図面を参照しながら本発明の実施例における技術案を説明する。明らかに、説明されている実施例は本発明の一部の実施例であり、全ての実施例ではない。これらの実施例に基づいて、当業者が創造的な労働をせずに得られた全ての他の実施例は、いずれも本発明の保護範囲に入る。

本発明の実施例は、電子機器に用いられる音声対話の訂正方法を提供する。この電子機器は、スマートテレビ、スマートフォン、スマートスピーカー、スマートカー装置、スマートスクリーン等であってもよく、本発明はこれに限定されない。

図１は、本発明の一実施例による音声対話の訂正方法のフローチャートである。この方法は電子機器に用いられ、以下のステップを含む。
Ｓ１１：電子機器において、複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識する。
Ｓ１２：電子機器において、第１のテキスト情報に基づいて第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックする。
Ｓ１３：第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、電子機器において複数の候補単語をユーザにフィードバックする。
Ｓ１４：電子機器において、ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックする。

本実施形態では、対話システムの開発過程において、エンジニアは単回の対話に直面することが多い。単回の対話では、最も信頼度の高い認識結果及びセマンティック解析結果を出力する傾向が一般的である。真の曖昧性は偽の曖昧性に比べて頻繁ではないため、曖昧性の発生に対し、エンジニアはどのように自動的に偽の曖昧性を解消するかをより多く考慮する。実際に対話システムを使用する過程において「真の曖昧性」の状況に対し、自動的に曖昧性を解消するポリシーによって処理できないことが多い。

例えば、西遊記を再生する。映画・テレビドラマであってもラジオ番組であってもよい場合、システムがユーザのニーズに正確に応答できないことが多い。
また、「怦然星動を見たいです」と「怦然心動を見たいです」の場合、一つは２０１５年陳国輝監督の映画であり、もう一つは２０１０年ロブ・ライナー監督の映画である。二つの発音は非常に似ている。どのような結果に音声認識されても、正しくない可能性がある。

音声対話システムの開発にとって、より直接的な考え方は、次のラウンドのインタラクションによって、前のラウンドの誤字を訂正することである。しかし、これには上記の背景技術における問題が存在する。また、人工知能技術の発展レベルが十分ではないなどの様々な主観的又は客観的な要因により、真の曖昧性及び誤り訂正の機能を重視するエンジニアが少なく、そのためマルチモードを使用して訂正することを容易に考えられない。しかし、本方法ではマルチモードを利用して訂正を行う。

ステップＳ１１において、ユーザの対話音声を認識できるようにするために、マルチモードをサポートする必要があることを考慮して、マルチモードをサポートする対話システムの最初のラウンドでは通常マイクアレイによって認識されたオーディオをテキストに変換し、又は入力としてキーボードを使用してテキストを直接入力する。

ここで、マイクアレイは一定数のマイクロフォンで構成され、音声オーディオ信号を記録するために用いられる。信号処理アルゴリズムにより、マイクアレイは音源の方向を認識し且つ背景音をある程度除去し、自動音声認識の精度を向上させることができる。

マイクアレイを利用してオーディオストリームをキャプチャし、ネットワークを利用してクラウドに伝送して自動音声認識サービスに送信して音声に対応するテキスト情報を取得し、自動音声認識サービスは、ホーム環境における音響モデル及び言語モデルに基づいており、同様にテキストを認識する精度を向上させることができる。認識テキストは、クラウドにおいてセマンティック解析モジュールに直接送信され、１つのテキストをセマンティック実体に解析する。

例えば、ユーザは、「怦然心動を見たいです」という音声を入力する。音声認識時に、各単語ごとに複数の候補単語があって当該文を調整する。例えば、「怦然心動」の音声は、ユーザの発音問題又は言語モデルの原因により、「怦然心動」（中国語の発音：ｐｅｎｇ－ｒａｎ－ｈｓｉｎ－ｄｏｎｇ）、「怦然星動」（中国語の発音：ｐｅｎｇ－ｒａｎ－ｈｓｉｎｇ－ｄｏｎｇ）という二つの単語が認識される。この二つの単語は、ちょうど映画セマンティックスロットに両方ある。通常、システムは信頼度の高い候補単語を当該文のキーワードとして選択する。これにより、ユーザ入力の音声は「怦然心動を見たいです」であり、認識結果は「怦然星動を見たいです」となる可能性がある。

ステップＳ１２では、ステップＳ１１での認識により確定された「怦然星動を見たいです」により、ユーザにフィードバックする。例えば、「怦然星動に合致する以下のような内容が見つかりました、どちらをご覧になりますか？」。

ステップＳ１３では、マルチモードを使用しているため、ユーザはマウス又はタッチパネルを介して音声認識結果における「怦然星動」を選択することができる。選択するときに、ユーザがクリック操作をすれば、怦然星動のいずれかの字をクリックすればよい。選択操作の使用がクリックした後にドラッグする形であれば、ユーザが選択したのは星であっても、星動であっても、又は怦然星動であってもよい。上記選択過程において、選択操作にはクリック、クリック後のドラッグ、円を描く等の形が含まれるが、これらに限定されない。
ユーザが「怦然星動」を選択した後、認識時に確定された複数の候補単語（怦然星動、怦然心動）をユーザにフィードバックする。

一実施形態として、複数の候補単語の中から第１のセマンティックキーワードを確定するステップにおいては、
複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第１のセマンティックキーワードとして確定する、ことが含まれる。
複数の候補単語をユーザにフィードバックするステップにおいては、
複数の候補単語を認識信頼度に応じてソートし、複数の候補単語のリストウィンドウをユーザにフィードバックする、ことが含まれる。

本実施形態において、例えば、ユーザとコミュニケーションするのはグラフィックインタフェースを有するインテリジェントデバイスであり、対話中に、グラフィックインタフェースコントロールは自動的に候補単語リストをポップアップする。
１．怦然星動（中国語の発音：ｐｅｎｇ－ｒａｎ－ｈｓｉｎｇ－ｄｏｎｇ）
２．怦然心動（中国語の発音：ｐｅｎｇ－ｒａｎ－ｈｓｉｎ－ｄｏｎｇ）
３．怦然行動（中国語の発音：ｐｅｎｇ－ｒａｎ－ｈｓｉｎｇ－ｄｏｎｇ）
４．烹炊行動（中国語の発音：ｐｅｎｇ－ｒｅｎ－ｈｓｉｎｇ－ｄｏｎｇ）
５．……
又はグリッド形式のリスト。
１．怦然星動２．怦然心動３．怦然行動
４．烹炊行動５．…… ６．……
７．…… ８．…… ９．……
実際の使用において、候補単語ウィンドウの設計には、リストやグリッドなどの形式が含まれるが、これらに限定されない。

ステップＳ１４において、ユーザは候補リストの中から「怦然心動」をクリックして選択する。インテリジェントデバイスが訂正した後に、「再び次のような怦然心動に合致する内容が見つかりましたが、どちらをご覧になりますか」を得る。次は、正常な音声対話フローである。
ユーザ：一番目です。
インテリジェントデバイス：ロブ・ライナー監督の怦然心動を再生します。
具体的なフローを図２に示す。

この実施形態から分かるように、対話システムに本方法の能動的な誤り訂正機能を導入することにより、対話システムの実用性を向上させ、客観的に存在する真の曖昧性の問題（人間同士の対話にも存在する）を解決するとともに、対話システムのエラーに対処するフォルトトレランス及び処理能力を向上させることができ、対話システムがインテリジェント音声製品、特にスクリーン付き装置においてユーザにより優れたユーザ体験を提供することに役立つ。

音声認識入力法において、特にインテリジェント端末において、認識エラーの問題は常に避けられない。現在、市場で主流の製品は誤り訂正に対してユーザ体験に優れた設計を提供しておらず、カーソルを使用して特定の位置に位置決めした後に内容を手動で削除し、更にテキスト入力法を使用して正確なテキストを作成するしかない。音声入力法にマルチモードに基づく能動的な誤り訂正を導入した後、誤り訂正を行う時にコンテキストに基づいて単語を直接クリックし又は選択することができ、次に、システムからフィードバックされた高信頼度の候補単語から対応する正確な単語を選択し、誤り訂正のたびにキーボードを使用して修正する必要がなくなり、これは音声入力法の性能ネックとユーザ体験を大幅に向上させることができることが予想される。

一実施形態として、本実施例において、ユーザ入力の第２のセマンティックキーワードを受信するステップにおいては、
ユーザが複数の候補単語の中から単語を選択すると、選択された単語を第２のセマンティックキーワードとして確定し、
ユーザが訂正対話音声を入力すると、訂正対話音声を認識し、認識結果に基づいて第２のセマンティックキーワードを確定し、
ユーザが訂正テキストを入力すると、訂正テキストに基づいて第２のセマンティックキーワードを確定する、ことが含まれる。

本実施形態において、初めてユーザが音声で「怦然心動を見たいです」を入力した場合、怦然星動の検索熱度がより高いため、システムは２０１５年陳国輝監督の怦然星動を返している。しかし、ユーザが実際に見たいのは、２０１０年ロブ・ライナー監督の映画の怦然心動である。ユーザは認識の誤りを発見した後、対話グラフィックインターフェースコントロール上の音声認識結果における怦然星動をクリックしている。同様に、ユーザは対話システムの返信における怦然星動をクリックして誤り訂正を行うこともできる。怦然星動がセマンティックスロット解析結果に属するため、この時、対話グラフィックインターフェースコントロールは、本ラウンドの対話から返信された候補結果をリストまたはグリッドの形でスクリーンに表示するだけでよい。本ラウンドの対話において、ユーザが訂正しようとする内容が完全なセマンティックスロットではない場合、又は誤字によりセマンティック解析結果がない場合、対話システムが当該誤字に対応する単語の候補結果を返信していない可能性がある。ユーザが選択すると、対話グラフィックインターフェースコントロールにより対話システムに対応する候補単語を動的に取得するよう要求される。

出現したばかりのネットワーク単語又は新たなネットワーク映画のような極端な場合、候補リストにはユーザ所望の結果が含まれていない可能性がある。この時、ユーザは以下のようにすることができる。
方法一：キーボード又は仮想キーボードの入力を介して、本ラウンドの音声認識結果を直接訂正する。
方法二：ユーザはこの時点で既に誤字を選択しているため、直接音声により「心臓の心」と発話し又は正しい内容を直接発話することができる。例えば、数字１３６が発音ではなく突然の環境騒音によって区別できない場合、１３６が１３３と認識されると、１３３を選択した後に１３６を直接発話すればよい（本方法の誤字訂正は、選択された操作を既に実行しているため、認識内容が非常に長く、又は複数の発音が類似する字（例えば、ｈｓｉｎｇ、ｈｓｉｎ）を含む場合、どの字が訂正しようとする字であるかを確定できないことはない）。
この実施形態から分かるように、ユーザが訂正された情報を入力できるように複数の方法が提供され、正確性を確保するとともに、ユーザの体験を向上させることができる。

一実施形態として、本実施例において、ユーザ入力の第２のセマンティックキーワードを受信するステップにおいては、
ユーザが画像情報を入力すると、画像情報内の訂正テキストを認識し、訂正テキストに基づいて第２のセマンティックキーワードを確定する、ことが更に含まれる。

本実施形態では、テレビ、スマートスクリーン又はキーボードに慣れていないユーザなどのキーボード環境が優しくない場合には、更にカメラを使用してジェスチャーに合わせ、テキスト内容を指摘することができる。例えば、
ユーザ：瑞士蓮の（中国語の発音：ｒｕｉ－ｓｈｉｈ－ｌｉａｎ）チョコレートをもう一箱買いたいです。
システム：以下の瑞氏蓮（中国語の発音：ｒｕｉ－ｓｈｉｈ－ｌｉａｎ）のチョコレートが見つかりました。どちらを買いますか？
ユーザ：ユーザは手元のチョコレートボックスを取り出し、ボックス上の瑞士蓮の文字を指して、「その三文字ではなく、私が欲しいのはこの三文字です」と発話した。
システム：音声認識の結果、及び文字認識の結果により、統合処理した後に「以下の瑞士蓮のチョコレートが見つかりました。どちらを買いますか？」を返信する。
この実施形態から分かるように、ユーザが訂正された情報を入力できるように画像方式を提供し、ユーザの体験を更に向上させることができる。

一実施形態として、本実施例において、
ラウンドごとにユーザにフィードバックするセマンティックキーワードを有する複数ラウンドの結果を記録するステップと、
いずれかの結果におけるセマンティックキーワードに対するユーザの選択に応答して、セマンティックキーワードに対応する複数の候補単語をユーザにフィードバックするステップと、を更に含む。

本実施形態では、ユーザはインテリジェントデバイスと継続的にコミュニケーションし、インテリジェントデバイスはスクリーンを通じてユーザとの対話記録を記録する。例えば、
ユーザ：怦然星動を見たいです。
システム：怦然星動に合致する以下のような内容が見つかりました、どちらをご覧になりますか？
ユーザ：怦然心動です。
システム：怦然心動に合致する以下のような内容が見つかりました、どちらをご覧になりますか？
この時、ユーザは上記複数ラウンドの対話のいずれかを選択することができ、最新の「怦然心動に合致する以下のような内容が見つかりました、どちらをご覧になりますか？」を選択することができる。同時に、前のこの３ラウンドの対話も同様に選択して、ユーザのために履歴対話における誤りを訂正し、ユーザの体験を更に向上させることができる。

一実施形態として、本実施例において、第１のテキスト情報に基づいて、第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックするステップにおいては、
第１のテキスト情報に基づいて対応する第１の機能を確定し、第１のテキスト情報が複数の候補機能にヒットする場合、プリセット優先度が最も高い機能を選択して第１の機能として確定し、
第１の機能を介して、第１の機能を有するテキストの第１の結果をユーザにフィードバックする、ことが含まれる。

更に、第１の結果内の第１の機能のテキストに対するユーザの選択に応答して、複数の候補機能をユーザにフィードバックし、
ユーザの入力に第２の機能の音声対話が含まれている場合、第１のテキスト情報に基づいて第２の機能を再確定し、第２の機能を介して、第２の機能を有するテキストの第２の結果をユーザにフィードバックし、または、
ユーザが第１の機能を含む否定的な口調の対話を入力すると、第１のテキスト情報に基づいて対応する第３の機能を再確定し、第３の機能を介して、第３の機能を有するテキストの第３の結果をユーザにフィードバックする、ことが含まれる。

本実施形態では、セマンティック解析エラーを訂正する。例えば，
ユーザ：西遊記を再生してください。
システム：西遊記のビデオが見つかりました。
（１）ユーザ：私が聞きたいのはオーディオブックです。
システム：オーディオブックの西遊記を再生します。
（２）ユーザ：ビデオは見ません。
システム：オーディオブックの西遊記を再生します。

上述したように、ユーザが西遊記を再生すると直接発話すると、セマンティック解析において信頼度が最も高い機能［映画・テレビドラマ］を与える。［オーディオブック］機能の信頼度も高いが、必ずしもその結果が表示されるとは限らない。従って、ユーザは結果が期待に沿わない場合、能動的な訂正の形により二次インタラクションを行うことができる。

下記のように、ユーザがセマンティック解析結果に満足しない場合、対話結果におけるセマンティックスロット内容を訂正することにより直接訂正することができる。
ユーザ：西遊記を再生してください。
システム：以下のような西遊記のビデオが見つかりました。
ユーザは、対話システムから返信された提示語におけるビデオという単語を選択している。
システム：対話グラフィックインターフェースコントロールは、候補単語ウィンドウを自動的にポップアップし、ウィンドウに使用可能な他の機能が表示される。
１．オーディオブック
２．子供向けアニメ
３．音楽
４．童謡の精選
５．百科辞典
ユーザはクリックによりオーディオブックを選択した。
システム：オーディオブックの西遊記を再生します。

上記の実施例の例は、いずれも中国語文字を訂正するものであるが、上記方法は、他の言語の音声認識エラー及びセマンティック解析結果を訂正するためにも用いられることができる。

この実施形態から分かるように、提供された誤り訂正機能は対話における真の曖昧性だけでなく、セマンティック解析エラーも処理でき、対話システムのエラーに対処する処理能力を向上させることができる。

図３は、本発明の一実施例による音声対話の訂正装置の構造概略図であり、当該装置は、上記いずれかの実施例の音声対話の訂正方法を実行することができ、端末に配置されている。

本実施例による音声対話の訂正装置には、音声認識プログラムモジュール１１と、結果フィードバックプログラムモジュール１２と、候補単語フィードバックプログラムモジュール１３と、訂正プログラムモジュール１４と、が含まれる。

ここで、音声認識プログラムモジュール１１は、複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するために用いられる。結果フィードバックプログラムモジュール１２は、第１のテキスト情報に基づいて、第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックするために用いられる。候補単語フィードバックプログラムモジュール１３は、第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするために用いられる。訂正プログラムモジュール１４は、ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックするために用いられる。

更に、音声認識プログラムモジュールは、
複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第１のセマンティックキーワードとするために用いられる。
候補単語フィードバックプログラムモジュールは、
複数の候補単語を認識信頼度に応じてソートし、複数の候補単語のリストウィンドウをユーザにフィードバックするために用いられる。

本発明の実施例は、不揮発性コンピューター記録媒体を更に提供し、コンピューター記録媒体には、上記のいずれかの方法実施例における音声対話の訂正方法を実行可能なコンピューターにより実行可能な命令が記憶されている。

一実施形態として、本発明の不揮発性コンピューター記録媒体に記憶されているコンピューターにより実行可能な命令は、以下のように構成される。
複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識し、
第１のテキスト情報に基づいて、第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックし、
第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックし、
ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックする。

不揮発性のコンピューター可読記憶媒体は、不揮発性ソフトウェアプログラム、不揮発性コンピューター実行可能プログラム及びモジュールを格納することに使用できる。プログラム及びモジュールは、例えば、本発明の実施形態における方法が対応するプログラム命令／モジュールである。一つ又は複数のプログラムの命令が不揮発性のコンピューター可読記憶媒体に格納され、プロセッサに実行されると、上記の任意方法の実施形態の音声対話の訂正方法を実行する。

不揮発性のコンピューター可読記憶媒体は、ストレージプログラム領域及びストレージデータ領域を含む。ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とされるアプリケーションプログラムを記憶することができ、ストレージデータ領域は、装置の使用に従って作成されたデータなどを記憶することができる。さらに、不揮発性のコンピューター可読記憶媒体は、高速ランダムアクセスメモリを含むことができる。不揮発性のコンピューター可読記憶媒体は、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの不揮発性メモリをさらに含むこともできる。ある実施形態では、不揮発性のコンピューター可読記憶媒体は、プロセッサに対して遠距離配置されるメモリを含むものを選択することができる。これらのリモートメモリは、ネットワークを介してヒューマンマシン対話デバイスに接続できる。ネットワークは、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

本発明の実施例は更に、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するステップと、
第１のテキスト情報に基づいて、第１のセマンティックキーワードを有する第１の結果をユーザにフィードバックするステップと、
第１の結果内の第１のセマンティックキーワードに対するユーザの選択に応答して、複数の候補単語をユーザにフィードバックするステップと、
ユーザ入力の第２のセマンティックキーワードを受信し、第２のセマンティックキーワードに基づいて第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、第２のテキスト情報に基づいて第２のセマンティックキーワードを有する第２の結果をユーザにフィードバックするステップと、
が実行できるように、少なくとも１つのプロセッサによって命令を実行させる電子機器を提供する。

いくつかの実施例では、複数の候補単語の中から第１のセマンティックキーワードを確定するステップにおいては、
前記複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第１のセマンティックキーワードとして確定し、
前記複数の候補単語を前記ユーザにフィードバックするステップにおいては、
前記複数の候補単語を認識信頼度に応じてソートし、前記複数の候補単語のリストウィンドウを前記ユーザにフィードバックする。

いくつかの実施例では、前記ユーザ入力の第２のセマンティックキーワードを受信するステップにおいては、
前記ユーザが前記複数の候補単語の中から単語を選択すると、選択された単語を前記第２のセマンティックキーワードとして確定し、
前記ユーザが訂正対話音声を入力すると、前記訂正対話音声を認識し、認識結果に基づいて前記第２のセマンティックキーワードを確定し、
前記ユーザが訂正テキストを入力すると、前記訂正テキストに基づいて前記第２のセマンティックキーワードを確定する。

いくつかの実施例では、前記ユーザ入力の第２のセマンティックキーワードを受信するステップにおいては更に、
前記ユーザが画像情報を入力すると、前記画像情報内の訂正テキストを認識し、前記訂正テキストに基づいて前記第２のセマンティックキーワードを確定する。

いくつかの実施例では、プロセッサが、ラウンドごとに前記ユーザにフィードバックするセマンティックキーワードを有する複数ラウンドの結果を記録するステップと、
いずれかの結果におけるセマンティックキーワードに対する前記ユーザの選択に応答して、前記セマンティックキーワードに対応する複数の候補単語を前記ユーザにフィードバックするステップと、
を更に実行する。

いくつかの実施例では、前記第１のテキスト情報に基づいて、前記第１のセマンティックキーワードを有する第１の結果を前記ユーザにフィードバックするステップにおいては、
前記第１のテキスト情報に基づいて対応する第１の機能を確定し、前記第１のテキスト情報が複数の候補機能にヒットする場合、プリセット優先度が最も高い機能を選択して前記第１の機能として確定し、
前記第１の機能を介して、前記第１の機能を有するテキストの第１の結果を前記ユーザにフィードバックする。

いくつかの実施例では、プロセッサが、前記第１の結果内の第１の機能のテキストに対する前記ユーザの選択に応答して、複数の前記候補機能を前記ユーザにフィードバックするステップと、
前記ユーザの入力に第２の機能の音声対話が含まれている場合、前記第１のテキスト情報に基づいて前記第２の機能を再確定し、前記第２の機能を介して、前記第２の機能を有するテキストの第２の結果を前記ユーザにフィードバックするステップと、または、
ユーザが第１の機能を含む否定的な口調の対話を入力すると、前記第１のテキスト情報に基づいて対応する第３の機能を再確定し、前記第３の機能を介して、前記第３の機能を有するテキストの第３の結果を前記ユーザにフィードバックするステップ、
を更に実行する。

図４は、本発明の他の実施例による音声対話の訂正方法を実行する電子機器のハードウェア構造概略図である。図４に示すように、この機器は、１つまたは複数のプロセッサ４１０とメモリ４２０とを含み、図４では、１つのプロセッサ４１０を例としている。

音声対話の訂正方法を実行する機器は、入力装置４３０と出力装置４４０とを更に含むことができる。

プロセッサ４１０、メモリ４２０、入力装置４３０、および出力装置４４０は、バスまたはその他の方法で接続することができ、図４ではバスによる接続を例としている。

メモリ４２０は、不揮発性コンピューター可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピューター実行可能なプログラムおよびモジュール、例えば本発明の実施例における音声対話の訂正方法に対応するプログラム命令／モジュールを記憶することができる。プロセッサ４１０は、メモリ４２０に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することにより、サーバーの各種機能応用およびデータ処理を実行し、即ち、上記方法実施例の音声対話の訂正方法を実現する。

メモリ４２０は、プログラム記憶領域とデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、音声対話の訂正装置の使用に応じて作成されたデータなどを記憶することができる。メモリ４２０は、高速ランダムアクセスメモリや不揮発性メモリを含むことができ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置を含むことができる。メモリ４２０は、プロセッサ４１０から離れて設置されたメモリを選択的に含むことができる。これらのリモートメモリは、ネットワークを介して音声対話の訂正装置に接続することができる。上記ネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。

入力装置４３０は、入力された数値や文字情報を受信し、音声対話の訂正装置のユーザ設置および機能制御に関連する信号を生成することができる。出力装置４４０は、ディスプレイなどの表示装置を含むことができる。

１つまたは複数のモジュールがメモリ４２０に記憶されており、１つまたは複数のプロセッサ４１０によって実行されると、上記のいずれかの方法実施例における音声対話の訂正方法を実行する。

本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。

（１）モバイル通信デバイス：これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン（例えば、ｉｐｈｏｎｅ（登録商標））、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。

（２）ウルトラモバイルパソコンデバイス：これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、ｉＰａｄ（登録商標）などのＰＤＡ、ＭＩＤ及びＵＭＰＣデバイスなどを含む。

（３）ポータブルエンターテイメントデバイス：これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー（例えば、ｉＰｏｄ（登録商標））、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。

（４）データ交換機能を備えたその他の電子デバイス。

本発明の明細書における関係用語「第１」及び「第２」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、用語「含む」によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。

上記の装置の実施形態は、例示だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。当業者が創造的な労働をせずに理解し、実施することができる。

上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、コンパクトディスクなどのコンピューター可読記憶媒体に格納でき、コンピューターデバイス（パーソナルコンピューター、サーバー又はネットワークデバイスなどである）に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

最後に説明すべきことは、上記の実施例は、本発明の技術案を説明するためにのみ使用され、本発明を限定するものではない。前記の実施例を参照した本発明の詳細な説明に基づき、当業者は、前記の各実施例に記載の技術案を修正するか、又はそのうちの一部の技術的特徴を同等に置き換えることができるが、これらの修正又は置き換えは、対応する技術案の本質を、本発明の各実施例の技術案の精神及び範囲から逸脱させるものではない。

Claims

電子機器に用いられる音声対話の訂正方法であって、
前記電子機器において、複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するステップと、
前記電子機器において、前記第１のテキスト情報に基づいて前記第１のセマンティックキーワードを有する第１の結果を前記ユーザにフィードバックするステップと、
前記第１の結果内の第１のセマンティックキーワードに対する前記ユーザの選択に応答して、前記電子機器において、複数の前記候補単語を前記ユーザにフィードバックするステップと、
前記電子機器において、前記ユーザ入力の第２のセマンティックキーワードを受信し、前記第２のセマンティックキーワードに基づいて前記第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、前記第２のテキスト情報に基づいて前記第２のセマンティックキーワードを有する第２の結果を前記ユーザにフィードバックするステップと、
を含むことを特徴とする音声対話の訂正方法。
前記複数の候補単語の中から第１のセマンティックキーワードを確定するステップにおいては、
前記複数の候補単語の中から認識信頼度が最も高い候補単語を選択して第１のセマンティックキーワードとして確定し、
前記複数の候補単語を前記ユーザにフィードバックするステップにおいては、
前記複数の候補単語を認識信頼度に応じてソートし、前記複数の候補単語のリストウィンドウを前記ユーザにフィードバックする、
ことを特徴とする請求項１に記載の音声対話の訂正方法。
前記ユーザ入力の第２のセマンティックキーワードを受信するステップにおいては、
前記ユーザが前記複数の候補単語の中から単語を選択すると、選択された単語を前記第２のセマンティックキーワードとして確定し、
前記ユーザが訂正対話音声を入力すると、前記訂正対話音声を認識し、認識結果に基づいて前記第２のセマンティックキーワードを確定し、
前記ユーザが訂正テキストを入力すると、前記訂正テキストに基づいて前記第２のセマンティックキーワードを確定する、
ことを特徴とする請求項１に記載の音声対話の訂正方法。
前記ユーザ入力の第２のセマンティックキーワードを受信するステップにおいては更に、
前記ユーザが画像情報を入力すると、前記画像情報内の訂正テキストを認識し、前記訂正テキストに基づいて前記第２のセマンティックキーワードを確定する、
ことを特徴とする請求項３に記載の音声対話の訂正方法。
ラウンドごとに前記ユーザにフィードバックするセマンティックキーワードを有する複数ラウンドの結果を記録するステップと、
いずれかの結果におけるセマンティックキーワードに対する前記ユーザの選択に応答して、前記セマンティックキーワードに対応する複数の候補単語を前記ユーザにフィードバックするステップと、
を更に含むことを特徴とする請求項１に記載の音声対話の訂正方法。
前記第１のテキスト情報に基づいて、前記第１のセマンティックキーワードを有する第１の結果を前記ユーザにフィードバックするステップにおいては、
前記第１のテキスト情報に基づいて対応する第１の機能を確定し、前記第１のテキスト情報が複数の候補機能にヒットする場合、プリセット優先度が最も高い機能を選択して前記第１の機能として確定し、
前記第１の機能を介して、前記第１の機能を有するテキストの第１の結果を前記ユーザにフィードバックする、
ことを特徴とする請求項１に記載の音声対話の訂正方法。
前記第１の結果内の第１の機能のテキストに対する前記ユーザの選択に応答して、複数の前記候補機能を前記ユーザにフィードバックするステップと、
前記ユーザの入力に第２の機能の音声対話が含まれている場合、前記第１のテキスト情報に基づいて前記第２の機能を再確定し、前記第２の機能を介して、前記第２の機能を有するテキストの第２の結果を前記ユーザにフィードバックするステップと、または、
ユーザが第１の機能を含む否定的な口調の対話を入力すると、前記第１のテキスト情報に基づいて対応する第３の機能を再確定し、前記第３の機能を介して、前記第３の機能を有するテキストの第３の結果を前記ユーザにフィードバックするステップ、
を更に含むことを特徴とする請求項６に記載の音声対話の訂正方法。
複数の候補単語の中から確定された第１のセマンティックキーワードを含む、ユーザ入力の対話音声の第１のテキスト情報を認識するために用いられる音声認識プログラムモジュールと、
前記第１のテキスト情報に基づいて、前記第１のセマンティックキーワードを有する第１の結果を前記ユーザにフィードバックするために用いられる結果フィードバックプログラムモジュールと、
前記第１の結果内の第１のセマンティックキーワードに対する前記ユーザの選択に応答して、複数の前記候補単語を前記ユーザにフィードバックするために用いられる候補単語フィードバックプログラムモジュールと、
前記ユーザ入力の第２のセマンティックキーワードを受信し、前記第２のセマンティックキーワードに基づいて前記第１のテキスト情報を訂正し、訂正された第２のテキスト情報を確定し、前記第２のテキスト情報に基づいて、前記第２のセマンティックキーワードを有する第２の結果を前記ユーザにフィードバックするために用いられる訂正プログラムモジュールと、
を含むことを特徴とする音声対話の訂正装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
請求項１～７のいずれか１項に記載の音声対話の訂正方法のステップが実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させることを特徴とする電子機器。
コンピュータプログラムが記憶されている記憶媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１～７のいずれか１項に記載の音声対話の訂正方法のステップが実現できる、ことを特徴とする記憶媒体。