JP2022537000A

JP2022537000A - 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム

Info

Publication number: JP2022537000A
Application number: JP2021536284A
Authority: JP
Inventors: 際洲黄; 海峰王; 迎超時
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-05-22
Filing date: 2020-11-25
Publication date: 2022-08-23
Anticipated expiration: 2040-11-25
Also published as: US20220335936A1; KR20210087098A; EP3940693A4; JP7266683B2; EP3940693A1

Abstract

本願は、音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラムを開示し、人工知能技術分野に関している。具体的な実現形態は、ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および／または検証されるオブジェクト情報を取得することである。

Description

(相互参照)
本願は、出願日が２０２０年５月２２日であり、出願番号が２０２０１０４４００６９１であり、発明名称が「音声対話に基づく情報検証方法、装置、デバイスおよびコンピュータ記憶媒体」である中国特許出願の優先権を主張する。

本願は、コンピュータ技術分野に関し、特に、人工知能技術分野に関する。

マップ類型のアプリケーションに、地理位置ポイントはマップ上のＰＯＩ（ＰｏｉｎｔＯｆＩｎｔｅｒｅｓｔ，関心ポイント）、ＡＯＩ（ＡｒｅａＯｆＩｎｔｅｒｅｓｔ，関心領域）又はより大きい範囲のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ，位置区域）であることができ、特に例えば、学校、銀行、レストラン、病院、スーパーマーケットなどの人々の生活に密接に関する場所である。一つの地理位置は名称、座標、アドレス、カテゴリ、電話番号などの情報を含むことが多い。地理位置情報は、通常に現場収集、インターネットデータ取得およびユーザ報告などの方式により取得される。都市建設の急速な発展と事業単位計画の変更により、地理位置情報も頻繁に変更されている。

地理位置ポイントの検索とマップナビゲーションなどのアプリケーションは、共に地理位置ポイント情報をデータの基礎とするため、地理位置ポイントデータの正確性は、さまざまなマップアプリケーションの正確性と可用性にとって非常に重要である。地理位置ポイントデータの正確性を向上させるために、マップ類型のアプリケーションは、既存の地理位置ポイント情報を検証する必要がある。

これに鑑みて、本願は音声対話に基づく情報検証方法、装置、デバイス、およびコンピュータ記憶媒体を提供している。

第一の局面では、ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することと、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および／または検証されるオブジェクト情報を取得することと、
を含む音声対話に基づく情報検証方法を提供した。

第二の局面では、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および／または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得することと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および／または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
語意理解モデルをトレーニングする方法を提供した。

第三の局面では、語意理解モジュールを含み、
前記語意理解モジュールは、
ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および／または検証されるオブジェクト情報を取得する
音声対話に基づく情報検証装置を提供した。

第四の局面では、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および／または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得するためのデータ取得モジュールと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および／または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
語意理解モデルをトレーニングする装置を提供した。

第五の局面では、少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに前記いずれか一項に記載の方法を実行させる命令を記憶する電子デバイスを提供した。

第六の局面では、コンピュータに前記いずれか一項に記載の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体を提供した。

上記の技術案から、本願によって提供される方法および装置は、音声照合に対するユーザがフィードバックした音声応答テキストを語意理解することができ、これによってユーザ意図情報および／または検証されたオブジェクト情報を取得し、自動的に情報検証を実現できることがわかる。

上述した選択的な方式の他の効果は、特定の実施例に関連して以下に説明される。

図面は、本願についての限定ではなく、本願をよりよく理解するためである。
本願の実施例に提供されるメインフローチャートである。本願の実施例に提供される音声対話に基づく情報検証アーキテクチャの概略図である。本願の実施例に提供される音響モデルをトレーニングする方法フローチャートである。本願の実施例に提供される音響モデルの構成概略図である。本願の実施例に提供される語意理解モデルの原理図である。本願の実施例に提供される語意理解モデルをトレーニングする方法フローチャートである。本願の実施例に提供される地理位置ポイントチェーンフィンガーの原理概略図である。本願の実施例に提供される音声対話に基づく情報検証装置の構成図である。本願の実施例に提供される語意理解モデルをトレーニングする装置構成図である。本願の実施例を実現する電子デバイスのブロック図である。

以下は、理解を容易にするための本願の実施例の様々な詳細を含んで添付の図面を参照して本願の例示的な実施例を説明し、これらの例示は、単に例示的なものと見なされるべきである。したがって、当業者は、本願の範囲および精神から逸脱されなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることが理解されるべきである。同様に、明確と簡潔のために、公知機能と構造の説明は、以下の説明では省略されている。

現在、地理位置ポイント情報の検証は、通常、現場収集での検証、および人工カスタマーサービスコールでの検証の方法を採用している。現場収集での検証とは、地図情報コレクターが地理位置ポイント現場に到着し、測量、写真、および問い合わせなどの方法を通じて地理位置ポイント情報を検証することである。現場収集での検証の方法は、初期の非情報化時代の地理情報の構築に広く使用されているが、この方法は、大量な人と物的資源を必要とし、効率が低いだけでなく、オペレーターについて専門的な能力も要求し、大規模なデータ操作には適さず、現在は基本的に放棄されている。

人工カスタマーサービスコールでの検証とは、カスタマーサービスが地理位置ポイントの電話番号をダイヤルし、人工対話の方式を使用して情報を検証すると指す。検証者は、現場に到着しなくても、電話で情報のフィードバックを得ることができる。人工のカスタマーサービスがユーザと直接的にコミュニケーションをすることにより正確な情報をより容易に取得する。同時に、この技術案は、操作しやすく、人工のカスタマーサービスに特別な専門的能力の要求はない。例えば、人工カスタマーサービスでは、既存の情報に基づいて地理位置ポイントの名称、アドレス、営業時間などの属性情報を問い合わせて、相手方からのフィードバックを通じて当該地理位置ポイントの各情報が正しいかどうかをマークして更新する。

但し、人工カスタマーサービスコールでの検証の方法は、多くの人の関与が必要であり、人件費が高く、効率が低く、１人で１日１００～２００回しか確認できない。また、人は疲れ、感情的になりやすく、長期間で安定した仕事を確保することは困難である。

これに鑑みて、本願は、音声対話に基づく情報検証方法を提供する。図１に示すように、この方法には主に次のステップが含まれる。

１０１では、ユーザが音声問い合わせに対してフィードバックする音声応答テキストが取得され、当該音声問い合わせは、ユーザへの情報検証のために使用される。

１０２では、音声応答テキストの各キャラクターおよび各キャラクターに対応する注音情報を予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力されたユーザ意図情報および／または検証されるオブジェクト情報が取得される。

ユーザの意図情報には、確認、拒否、回答または質問を含めることができる。確認は、音声問い合わせによって検証された情報に対するユーザによる確認を表し、拒否は、音声問い合わせによって検証された情報に対するユーザによる拒否を表し、回答は、音声問い合わせによって検証された情報に対するユーザによる回答を表し、質問は、音声問い合わせによって検証された情報に対するユーザによる質問を表す。一般に、拒否、応答の意図で、上記の音声応答テキストには、ユーザによって提供された検証されるオブジェクト情報が付随している。もちろん、音声応答テキストにはユーザの意図が含まれておらず、検証されるオブジェクト情報のみが含まれている場合がある。

検証されるオブジェクト情報が取得された場合、検証されるオブジェクト情報を格納するか、この検証されるオブジェクト情報を使用して格納された情報を更新することができる。ユーザ意図情報が得られれば、ユーザ意図情報に基づいて検証されるオブジェクト情報を推測し、その情報を記憶したり、推測した検証されるオブジェクト情報で記憶した情報を更新したりすることができる。

例えば、音声問い合わせが「これは幸福（中国語のピンインはＸｉｎｇｆｕである）スーパーマーケットであるか？」であり、ユーザからの音声応答テキストが「はい、これは幸福スーパーマーケットである」である場合、検証される地理位置ポイントの名称は「幸福スーパーマーケット」であると決定される。

別の例として、音声問い合わせは「これは幸福スーパーマーケットであるか？」であり、ユーザによる音声応答テキストのフィードバックは「はい」であり、検証される地理位置ポイントの名称は「幸福スーパーマーケット」であると推測される。

別の例として、音声問い合わせが「幸福スーパーマーケットであるか？」であり、ユーザからの音声応答テキストフィードバックが「いいえ、これは新富（中国のピンインはＸｉｎｆｕである）スーパーマーケットである」である場合、検証される地理位置ポイントの名称は「新富スーパーマーケット」であると決定される。または、さらに、地理位置ポイントチェーンフィンガーメカニズムおよび／またはさらなる対話を通じて、検証された地理位置ポイントの名称が「幸福スーパーマーケット」であるかどうかを決定することができる。地理位置ポイントチェーンフィンガーメカニズムは、後続の実施例で説明される。

別の例として、音声問い合わせが「これは幸福スーパーマーケットであるか？」であり、ユーザからの音声応答テキストのフィードバックは「いいえ」である。検証される地理位置ポイントの名称を特定するには、さらに「どこですか？」という音声による問い合わせが必要である。ユーザがさらに「これは新富スーパーマーケットである」とフィードバックすると、ユーザ意図は「回答」であると認識され、検証される地理位置ポイントの名称は「新富スーパーマーケット」である。

また、本願に含まれる検証されるオブジェクトは、例えばマップアプリケーションの地理位置ポイント、ｅコマースフィールドのトランザクション情報、製品情報などの、任意の分野の検証されるオブジェクトである可能性があることに注意されたい。後続の実施例では、マップアプリケーションの地理位置ポイントのみが説明の例として使用される。この時点で、対応的な検証されるオブジェクト情報には、地理位置ポイントの名称、カテゴリ、アドレス、営業時間、連絡先番号および運営者などの属性情報が含まれるが、これらに限定されない。

本願で提供される方法の理解を容易にするために、まず、本願の基礎とする音声対話の情報検証アーキテクチャについて説明する。図２に示すように、本願の音声対話アーキテクチャにおいて、ユーザが本願の実施例によって提供される音声対話の情報検証装置（スマート検証装置と簡単に呼ばれる）と通信接続を確立した後、スマート検証装置で通信接続を介してユーザと音声対話をして情報検証を実行することを実現することができる。例えば、電話を介してユーザに情報検証を実行し、ネットワーク音声通話を介してユーザに情報検証を実行し、ネットワーク音声メッセージを介してユーザに情報検証を実行することができる。

スマート検証装置は、まず、言葉ライブラリを使用して自然言語を生成する。生成された自然言語テキストは、音声合成によって音声を生成し、ネットワークを介してユーザにブロードキャストされる。この音声は通常、音声問い合わせである。ユーザはこの音声問い合わせを聞いた後、この音声問い合わせに対して音声応答をフィードバックし、ネットワークを介してスマート検証装置に提供することができる。スマート検証装置が音声認識を実行した後、音声応答テキストが取得される。この音声応答テキストを語意理解し、そこから構造化情報を抽出する。本願の実施例では、この構造化情報は、検証されるオブジェクト情報であり得る。さらに、語意理解の結果に基づいて対話管理をさらに行うことができる。対話管理で、ビジネスロジックを呼び出し、抽出された構造化情報を使用して地理位置ポインデータベースを更新する。一方、自然言語生成は、情報の検証が完了するまで、繰り返して継続することができる。

上記のスマート検証装置によって実行される処理の各部分について、以下で詳細に説明する。

音声認識処理
音は本質的に波、つまり音波である。この波は一種の信号として処理できるため、音声認識処理は基本的に、時間の経過とともに再生される信号シーケンスを処理し、テキストシーケンスを出力することである。簡単に言えば、音声フラグメント入力をテキスト出力に変換するプロセスは音声認識である。音声認識処理の過程で、主に、音響モデルと言語モデルに依存している。

音響モデルの前に、まず、音声（この実施例では、主に、ユーザによって返される音声応答）が前処理され、特徴が抽出される。実際には、忠実度の高く、ノイズのない音声は非常にまれである。実際に取得する音声データは多少ノイズがあるため、音響モデルに正式に入る前に、ノイズ除去やチャネル強調などの前処理技術により、信号を時間ドメインから周波数ドメインに変換して、音響モデルに有効な特徴ベクトルを抽出する必要がある。次に、音響モデルは前処理部分で得られた特徴ベクトルを音響モデルスコアに変換すると同時に、言語モデルは言語モデルスコアを取得する。最後に、デコード検索段階では、音響モデルスコアと言語スコアが統合され、スコアが最も高い単語シーケンスが最終的な認識結果として使用される。これが音声認識の一般原理である。

音声信号は多様である。話者（声）、態度（スタイル、環境）、文脈内容などが異なると、同じ単語の音声信号のパフォーマンスが大きく異なる。同じ人が同じ文を言っても、２回の音声信号が同じであることを保証できない。どのようにモデルを使用して音声信号の実際な意味を表現し、正しいテキストに変換するかは、大きなチャレンジである。調査の結果、地理位置ポイン検証シーンに関する言葉とユーザからのフィードバックの内容が比較的集中していることが分かった。音声認識の結果は比較的エラー率が高いであるが、問題はより集中しており、基本的には地理位置ポイント名称の認識エラーである。

本願の実施例では、音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答について音声認識を実行して、音声応答テキストを取得する。その中で、音響モデルと言語モデルは、トレーニングプロセスで地理位置ポイント辞書データを導入する。

まず、音響モデルを検討する。音響モデルは、発話のモデリングとして理解でき、音声入力を音響表現の出力に変換できる。より正確には、音声がある音響記号に属する確率を示す。英語では、この音響記号は音節（ｓｙｌｌａｂｌｅ）またはより小さな粒度の音素（ｐｈｏｎｅｍｅ）にすることができる。中国語では、この音響記号はイニシャルとファイナルまたは英語粒度と同じ小さい音素にすることができる。

本願では、ｆｉｎｅ－ｔｕｎｉｎｇ（微調整）に基づいて、音響モデルに対して方向固定最適化される。具体的には、図３に示すように、以下のステップを含むことができる。

３０１では、人工カスタマーサービスによるユーザへの情報検証の音声及び対応的なマーキングテキストを使用して、トレーニングデータを取得する。

この実施例では、ユーザへの情報検証のための人工カスタマーサービスの音声を使用して音声認識を実行し、同時に、地理位置ポイントの名称をポジショニングし、正しいテキストに修正して、人工でマークすることができる。それによって「音声－テキスト」ペアを形成し、次にテキストに対応する音素情報をマークし、トレーニングデータとする。

３０２では、トレーニングデータを使用して、既存の音響モデルに対してモデルパラメータを最適化する。

トレーニングセットが

であると仮定し、
これは、Ｎ個のトレーニングサンプルがあり、Ｘ^ｉは第ｉ番目の音声サンプルであり、Ｚ^ｉは対応的な音素であることを示す。１つの音声サンプルの入力は一つのシーケンスであり、出力音素情報も一つのシーケンスである。

本願は、音響モデルの構造を制限しておらず、例えば、図４に示すように、Ｂｉ－ＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、双方向長短期記憶）＋ＣＴＣ（Ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ、時系列分類）などのモデル構造を使用できる。

トレーニングターゲットは、ＣＴＣによって出力される音素シーケンスが、トレーニングサンプルの対応的な音素ラベルに準拠することである。トレーニングターゲットを使用して損失関数を作成でき、損失関数の結果に応じてモデルパラメータを最適化できる。すでに優れた音響モデルがあるため、特定の領域のみで改善の余地がある。したがって、地理位置ポイントについて、トレーニングデータの重点は、地理位置ポイントを含む音声とそれに対するマーキングである。したがって、この部分のトレーニングデータを使用して、ｆｉｎｅ－ｔｕｎｉｎｇのみを実行できる。つまり、既存の音響モデルのモデルパラメータに基づいて、この部分のトレーニングデータを使用してモデルパラメータを最適化する。元の音響モデルの重みが平滑化されているため、重みを歪める必要がなく、トレーニングプロセス中に既存の音響モデルの学習率が低下する。

言語モデルの場合、その役割は、同一音声近似音声の問題を排除することとして理解できる。音素シーケンスが音響モデルを提供した後、最も確率の高い文字列シーケンスが候補テキストシーケンスから検出される。本願では、言語モデルのトレーニングプロセスで使用されるトレーニングサンプルは、地理位置ポイント辞書を使用して拡張でき、音声モデルのトレーニングは、例えばＲＮＮモデルを使用して実行できる。ここではあまり説明しない。

以上の処理により、音声認識効果が大幅に向上した。特に、わずかに頻度の低い地理位置ポイントの名称について、認識の正確性が大幅に向上する。

語意理解
語意理解の目標は、テキスト情報を、機械で処理できる語意表現に変換し、通常は構造化情報として具体化されることである。同じ意味を表現する方式は多くにあるので、機械にとって、文の各単語の正確な意味を理解することは重要ではなく、文の意味を理解することが重要である。例えば、「私の家は幸福スーパーマーケットである」、「私の店の名称は幸福スーパーマーケットである」、「私の店名は幸福スーパーマーケットである」などはすべて、ユーザのストアの名称が「幸福スーパーマーケット」であるという１つの意味を表する。「幸福スーパーマーケット」という構造化情報を特定する必要がある。

本願の実施例では、ユーザの音声応答テキストについて、主に、ユーザ意図情報および／または検証されるオブジェクト情報を識別する。２種類の情報を識別することを例とする。この部分の実現は、実際に、図１で説明されている内容である。すなわち、前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を、予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力されたユーザ意図情報および／または検証されるオブジェクト情報を取得する。

本願の実施例で提供される語意理解モデルは、埋込層、時系列モデリング層、マッピング層、および予測層を含み得る。図５は、本願の実施例によって提供される語意理解モデルの概略図である。

図面にＷｏｒｄＥｍｂｅｄｄｉｎｇｓとして示される埋込層は、音声応答テキストの各キャラクターと、各キャラクターに対応する注音符号情報をエンコードする。本願では、漢字の場合、使用される注音符号情報はピンインまたは他の形式の注音符号情報であることができる。図５では、ピンインを例にとると、各文字のピンインをエンコードすることで、同音異義語による不正確な音声認識の問題を効果的に排除できる。語意理解では、音声認識の結果が不正確であっても、ユーザ意図情報および検証されるオブジェクト情報を正しく認識することができる。

時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の語意依存関係を学習する。図５では、Ｂｉ－ＬＳＴＭを例とする。

マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得する。図５のマッピング層は、Ｓｏｆｔｍａｘを例とする。

予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクト情報を予測する。図５の予測層の実現では、Ｓｏｆｔｍａｘ＋ＣＲＦ層を例とする。

マッピング層と予測層は、それぞれユーザ意図認識タスクと検証されるオブジェクト情報予測タスクであり、どちらか一方のみを実現する場合は、マッピング層と予測層の一方のみを使用すればよい。

ユーザが入力したＳ＝ｗ_１、ｗ_２、ｗ_３．．．、ｗ_Ｔというセンテンスの場合、ｗ_ｉはセンテンスのｉ番目のキャラクターを示し、Ｔはセンテンスの長さを示す。各単語は、単語ベクトルを使用してｅ（ｗ_ｉ）として表される。入力シーケンスがｘであると仮定すると、予測層の出力シーケンスはｙとして示される。

Ｂｉ－ＬＳＴＭ層は、順方向出力と逆方向出力にスプライシング方式を採用している。したがって、ｘ_ｔを入力し、対応的な隠し層の出力

は次のように表される。

予測層の出力

とマッピング層の出力

は次のとおりである。

それらの中には、ｈ^ｕは隠しベクトルの最大プーリングの結果である。

ｗ^ｓ、ｗ^ｕ、ｂ^ｓ、およびｂ^ｕはモデルパラメータである。

図５から、「軍隊（対応中国語である「部隊」のピンインはｂｕｄｕｉ）、私は永楽スーパーマーケットです」という音声認識結果について、各キャラクターと各キャラクターの音声に対してＥｍｂｅｄｄｉｎｇを行った後に、Ｂｉ－ＬＳＴＭを介して隠しベクトルが出力され、マッピング層が隠しベクトルの最大のプーリング結果を使用し、ユーザ意図情報が否定的であることをマッピングによって取得する（図ではｄｅｎｙで示されている）。予測層は各時系列の隠しベクトルを使用して予測し、ＰＯＩの名称が「永楽スーパーマーケット」であることを取得する。図のＣＲＦによって出力される各キャラクターのラベルに、Ｂ＿ＰＯＩはＰＯＩの開始キャラクターを示し、Ｉ＿ＰＯＩはＰＯＩの中間キャラクターを示し、Ｅ＿ＰＯＩはＰＯＩの終了キャラクターを表する。革新的に各文字のピンイン入力を導入した場合、音声認識結果が間違っていても、即ち、「違い（対応中国語である「不対」のピンインｂｕｄｕｉ）」を「軍隊（対応中国語である「部隊」のピンインはｂｕｄｕｉ）」に誤認しても、この語意理解モデルに基づいて、ユーザの意図が否定であると正しく識別することできる。

図６は、本願の実施例によって提供される語意理解モデルをトレーニングする方法のフローチャートである。図６に示されるように、この方法は、以下のステップを含み得る。

６０１では、トレーニングデータが取得され、トレーニングデータは、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、音声応答テキストのユーザ意図情報、および／または検証されるオブジェクトの情報を含む。

データの人工マーキングのコストが高く効率が低いため、ここでは機械により人工を支援して、データをマーキングすることを考える。このシナリオでは、ユーザが表現する文の形式は比較的類似しており、逆に、ノイズ、音声認識などの問題によるさまざまな間違いの認識結果である。この特殊的なデータ分布を考慮して、本願の実施例は、半教師あり方法を提案し、具体的な方法は以下の通りである。

まず、同じ音声問い合わせに対して、高周波音声応答テキストが取得され、人工でマーキングされてから、シードサンプルが取得される。

つまり、「すみません、あなたの家は＊＊＊であるか」などの同じ質問のそれぞれについて、まず、高頻度のユーザ応答テキストにマーキングし、例えばＰＯＩ名称という地理位置ポイント情報をマーキングすることを含む。

次に、シードサンプルを使用して、履歴データベース内のオブジェクト情報によって一般化された音声応答テキストについて、類似性をクラスター化する。

例えば、マーキングの結果に従って、ＰＯＩ名称に対して一般化およびクラスター化を行う。

「はい、私の家は［ＰＯＩ－ＮＡＭＥ］である」という一般化結果に対応するマーキングは、ｃｏｎｆｉｒｍ（ＰＯＩ＿ＮＡＭＥ）であり、
「はい、［ＰＯＩ－ＮＡＭＥ］である」という一般化結果に対応するマーキングは、ｃｏｎｆｉｒｍ（ＰＯＩ＿ＮＡＭＥ）であり、
「正しい」という一般化結果に対応するマーキングは、ｃｏｎｆｉｒｍ（）であり、
「私の家は名称を［ＰＯＩ－ＮＡＭＥ］に変更した」という一般化結果に対応するマーキングは、ｄｅｎｙ（ＰＯＩ＿ＮＡＭＥ）である。

クラスタリングプロセスでは、類似性の計算により、単語ベクトルやピンインの類似性などの特徴が導入される可能性がある。

最後に、クラスタリング結果に従って、各ユーザの意図情報に対応する音声応答テキストがトレーニングデータとして取得される。

６０２において、トレーニングデータにおける語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされたユーザ意図情報および／または検証されるオブジェクト情報を前記語意理解モデルのターゲット出力とし、語意理解モデルをトレーニングする。

語意理解モデルの構造は、図５に示されている。ユーザ意図認識と検証されるオブジェクト情報認識という２つのタスクがあるため、この２つのタスクは個別にまたは共同でトレーニングできる。２つのタスクの間には大きく関連しているため、共同トレーニングの効果がよく、共同トレーニングの方式が推奨される。

ユーザの意図認識の損失関数は、クロスエントロピーの形式を採用することができ、次のように表される。

それらの中で、

は対応的な実際のユーザの意図を表す。

検証されるオブジェクト情報の識別は、ＣＲＦの損失関数を直接再利用できる。ＣＲＦ損失関数は、実際のパスのスコアとすべてのパスの合計スコアという２つの部分で構成される。実際のパスのスコアは、すべてのパスの中で最高のスコアであるべきである。

パスのスコアを計算式は以下の通りである。

上記式の文字の上付きは、対応的な入力シーケンスのｉ番目のキャラクターを表し、文字の下付きは、このｉ番目のキャラクターのｍ番目のシーケンスを示している。Ｐはラベルを

から

に遷移する遷移スコア値を表す遷移行列である。

各シーケンスのスコアは上記式のように計算できる。正しいラベルシーケンスのスコアを最大化するだけでよいため、損失関数は次のように定義される。

ここで、

、ｙ’はすべての可能なシーケンスである。

次に、上記２つの損失関数を使用して、ジョイント損失関数を計算する。ジョイント損失関数は、上記

と

を重み付けすることで取得できる。

上記の処理の後、語意理解の正確性が向上する。但し、検証されるオブジェクトの情報は依然として不正確である可能性がある。例えば、「永楽スーパーマーケット」というＰＯＩ名称は正しい可能性が高い。しかし、時間と空間のシナリオによっては、「勇楽スーパーマーケット」、「涌楽スーパーマーケット」などの場合がある。この状況を解決するために、検証されるオブジェクト情報を検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にさらにチェーンフィンガーすることができる。例えば、ＰＯＩ名称をＰＯＩ知識ライブラリのＰＯＩ名称にチェーンフィンガーする。

具体的には、ドメイン知識ライブラリを事前に構築することができ、この知識ライブラリは、名称、タイプ、アドレス、座標、連絡先情報などの地理位置ポイント情報を含むことができる。次に、取得した地理位置ポイント情報について、音声類似性、テキスト類似性、属性類似性の少なくとも１つに基づいて、検証されるオブジェクト情報をドメイン知識ライブラリに分類し、検証されるオブジェクトをドメイン知識ライブラリにチェーンフィンガーする。チェーンフィンガーされたオブジェクト情報が決定されると、決定されたオブジェクト情報で検証されたオブジェクト情報を更新する。その中、上記の分類を行う場合、実際には、予め構築された分類器を使用して上記の語意理解によって決定された検証されるオブジェクト情報を分類する。この分類器によって分類されるカテゴリは、ドメイン知識ライブラリ内の既存の各地理位置ポイントである。つまり、分類器が語意理解されて得られる検証されるオブジェクトがドメイン知識ライブラリ内の既存の各地理位置ポイントに属する確率を計算し、この確率に応じて検証されるオブジェクトがドメイン知識ライブラリ内の既存の地理位置ポイントにチェーンフィンガーされているかどうか、及びチェーンフィンガーされた場合、具体的にどの地理位置ポイントにチェーンフィンガーするかと決定する。

例えば、図７に示すように、語意理解して得られた「永楽スーパーマーケット」は、ユーザが取得した「永楽スーパーマーケット」の音声、テキスト、アドレス、座標などの情報を、ドメイン知識ライブラリ内の既存の各地理的位置に分類する。最終的に「勇楽スーパーマーケット」に分類される確率が最も高く、事前に設定された閾値を超えていることが判明した場合、語意理解して得られた「永楽スーパーマーケット」は「勇楽スーパーマーケット」に修正される。その中で、分類する時にＧＢＤＴ（ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＤｅｃｉｓｉｏｎＴｒｅｅ、勾配ブースティング決定木）アルゴリズムを使用できる。

上記のチェーンフィンガー処理により、語意理解して得られた検証されるオブジェクト情報をより正確にすることができる。

対話管理
対話管理とは、語意理解の結果と対話の文脈に基づいて次の応答を決定することである。重点は、最終的な正しい検証結果を期待するように、対話の状態を維持することによってユーザとの対話を決定することである。

上記の語意理解プロセスの後、正しい結果が認識される可能性が高い。但し、ＰＯＩが新たに追加された場合、それが完全に正しいということを保証することができない。また、語意理解が適切でない場合もあり、その結果、得られた地理位置ポイント情報は正しくない。これに基づいて、マルチラウンド対話に基づくメカニズムを導入して、検証されるオブジェクトの正確性をユーザに確認することができる。

具体的には、語意理解して得られた地理位置ポイントの名称について、地理位置ポイントの名称に含まれるキャラクター情報についての音声問い合わせをユーザへ送信し、ユーザがフィードバックした音声応答テキストにより、音声認識および語意理解などを通じてユーザ意図情報を取得し、ユーザの意図情報に基づいて、前述の地理位置ポイントの名称の正確性が決定される。

例えば、上記の語意理解により、地理位置ポイントの名称「勇楽スーパーマーケット」を取得し、「勇敢の勇、歓楽中の楽であるか」と問うことができる。ユーザからの回答が「はい」であり、つまりユーザの意図が肯定であると、語意理解によって得られた地理位置ポイントの名称の正確性を決定する。ユーザが「いいえ」と答えた場合、つまりユーザの意図が否定である場合、語意理解して得られた地理位置ポイントの名称が間違っていると決定される。さらに、正しい地理位置ポイントの名称を取得するようにユーザに問い合わせることができる。

また、ユーザの音声応答を正確に認識できたとしても、不信感やからかいなどの理由で、故意にスマート検証装置を騙すユーザが多い。この問題に対応して、本願ではポリグラフメカニズムが導入された。ポリグラフメカニズムは、アクティブポリグラフメカニズムおよびパッシブポリグラフメカニズムを含むことができる。

アクティブポリグラフメカニズムには、結果が明確にわかっている内容についてユーザへ音声で問い合わせ、ユーザがフィードバックした音声応答を取得し、音声認識と語意理解を実行した後、ユーザの意図情報と検証されるオブジェクト情報を、明確された結果と比較し、一致になると、ユーザがポリグラフテストに合格すると判断され、そうでない場合、ユーザがポリグラフテストに不合格と判断されることが含まれる。ポリグラフテストに合格しなかったユーザからの音声応答テキストは受け付けられない。

言い換えれば、ユーザへ結果が未知である内容について音声で問い合わせすることに加えて、結果が明確に知られている内容についてもユーザへ音声で問い合わせする。結果が明確にわかっている内容に対するユーザの音声応答を通じて、ユーザが嘘をついているかどうかを判断する。

パッシブポリグラフメカニズムには、ユーザの音声応答の感情、さまざまな質問の回答遅延、および同じタイプの地理位置ポイントのビッグデータ統計結果に基づいて、ユーザが嘘をついているかどうかを識別することが含まれる。

上記のポリグラフメカニズムにより、ユーザがフィードバックした内容の正確性をさらに確保することができ、それによりデータ検証の正確性を確保することができる。

さらに、本願は、音声問い合わせに対してユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情に対する報認識のうちの少なくとも１つを実行することもでき、認識結果に従って、対応的な言葉を使用してユーザとフォローアップの音声対話を実行する。例えば、夕方にユーザに「こんばんは」と言い、朝にユーザに「おはよう」と言うことができる。女性の場合、ユーザに「ハロービューティー」と言うことができる。ユーザがすでに退屈している場合は、質問を減らすことができ、ユーザが満足している場合は、質問を増やすことができる。このようにして、異なるシナリオ下で異なるユーザがさまざまな言葉を使用することを実現できる。これは、より柔軟且つ人間化であり、ユーザのハングアップ率を減らし、情報検証のリコール率を向上させる。

音声合成
ユーザはロボットではなく、感情的であり、自然な音声放送はユーザの協力において非常に重要な役割を果たす。音声合成が非常に悪い場合、ユーザは直接電話を切ることになり、情報検証の正常な進行に影響を及ぼす。音声合成をより自然にするために、音声合成モデルは、人工カスタマーサービスがユーザに情報検証を行う音声と、対応的なマーキングテキストを予めトレーニングすることによって取得できる。マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび／または時間情報が含まれる。

時間情報と地理位置ポイント情報を除いて、地理位置ポイント情報の検証について、他の言葉は基本的に限定されたセットである。但し、既存の音声合成サービスは、時間情報や地理位置ポイント情報のブロードキャストにはかなり鈍く、表現は不自然である。したがって、本願は、時間情報と地理位置ポイント情報をカスタマイズして最適化した。

以前、人工カスタマーサービスによってユーザへ情報検証を行うことに多くの音声を累積したため、美しい音声且つ明瞭な発音な人工カスタマーサービスの音声データを高品質の音声データとして選択できる。音声認識と語意理解により、高品質の音声データをテキストに変換され、地理位置ポイントの属性情報と時間情報が同時にマーキングされる。これにより、トレーニングデータとして使用されるテキストと音声のペアが生成される。

例えば：
「［幸福スーパーマーケット］ですか？」について、ボックス［］のコンテンツにはＰＯＩの名称のラベルが付いている。

「［２０２０年４月２日］にオープンしますか？」について、ボックス［］の内容にはタイムラベルが付いている。

このようなトレーニングデータを通じてトレーニングされた音声合成モデルにより、地理位置ポイント情報と時間情報の音声表現が人間の表現に近くなり、流れが自然であり、美しくクリアになり、ユーザの満足度と協力度が向上する。

上記は、本願で提供される方法の詳細な説明である。本願で提供される装置は、実施例と併せて以下で詳細に説明される。

図８は、本願の実施例によって提供される音声対話に基づく情報検証装置の構造図である。図８に示されるように、この装置は、語意理解モジュール０１を含み得る。さらに、リンクフィンガーモジュール０２、音声認識モジュール０３、音響モデルトレーニングモジュール０４、対話管理モジュール０５、音声合成モジュール０６を含み得る。各コンポーネントモジュールの主な機能は次のとおりである。

語意理解モジュール０１は、音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、音声問い合わせは、ユーザへ情報検証をする；音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力された、確認、拒否、回答、または質問を含むユーザ意図情報および／または検証されるオブジェクト情報を取得する。

その中、語意理解モデルは、埋込層および時系列モデリング層、ならびにマッピング層および／または予測層を含む。

埋込層は、各キャラクターと各キャラクターに対応する注音符号情報をエンコードする。

時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の意味依存関係を学習する。

マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得する。

予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する。

リンクフィンガーモジュール０２は、語意理解モジュールが検証されるオブジェクト情報を取得する場合、検証されるオブジェクト情報を、検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にリンクフィンガーする。

語意理解モジュール０１およびチェーンフィンガーモジュール０２の機能及び実行される具体的な操作については、方法の実施例における語意理解に関する記載を参照し、ここでは繰り返さない。

音声認識モジュール０３は、音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、音声応答テキストを取得する。その中で、音響モデルと言語モデルは、トレーニングプロセス中に検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する。

音響モデルトレーニングモジュール０４は、人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得する；トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化する。

音声認識モジュール０３および音響モデルトレーニングモジュール０４の機能および具体的な操作については、方法の実施例における音声認識に関する記載を参照し、ここでは繰り返さない。

対話管理モジュール０５は、マルチラウンド対話メカニズムに基づいて、検証されるオブジェクト情報の正確性をユーザに確認する、具体的には、検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせをユーザに送信することと、ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて検証されるオブジェクト情報の正確性を決定することとを含む。

対話管理モジュール０５は、ユーザ意図情報および／または検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、ユーザがポリグラフテストに合格したと決定され、そうでない場合、ユーザがポリグラフテストに合格しなかったと決定され、ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しない。

対話管理モジュール０５は、音声問い合わせに対してユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも１つを実行し、認識結果に従って、対応的な言葉を使用してユーザと後続の音声対話を実行する。

対話管理モジュール０５の機能および実行される具体的な操作については、方法の実施例における対話管理に関する記載を参照し、ここでは繰り返さない。

音声合成モジュール０６は、音声合成モデルを使用して音声問い合わせを生成し、その中で、音声合成モデルは、人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストを予めトレーニングすることによって取得し、マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび／または時間情報が含まれる。

音声合成モジュール０６の機能および実行される具体的な操作については、方法の実施例における対話管理に関する記載を参照し、ここでは繰り返さない。

図９は、本願の実施例によって提供される語意理解モデルをトレーニングするための装置の構造図である。図９に示されるように、この装置は、データ取得モジュール１１およびモデルトレーニングモジュール１２を含む。各コンポーネントモジュールの主な機能は次のとおりである。

データ取得モジュール１１は、トレーニングデータを取得する。トレーニングデータは、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、音声応答テキストに対するユーザ意図情報および／または検証されるオブジェクト情報のマーキングを含む。

モデルトレーニングモジュール１２は、トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および／または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、語意理解モデルをトレーニングする。注音符号情報には中国語ピンインが含まれ、他の注音符号情報も使用される場合がある。

具体的には、データ取得モジュール１１は、同じ音声問い合わせに対して高周波音声応答テキストを取得し、それを人工でマーキングしてシードサンプルを取得することができ、シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行し、クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得する。

具体的には、語意理解モデルは、埋込層および時系列モデリング層、ならびにマッピング層および／または予測層を含む。

マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得する。

本願の実施例によれば、本願はまた、電子デバイスおよび読み取り可能な記憶媒体を提供した。

図１０に示すように、本願の実施例による方法による電子デバイスのブロック図である。電子デバイスは、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、その他の適切なコンピューターなど、各種の形式のデジタルコンピューターを表すことを目的としている。電子デバイスは、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなどの各種の形式のモバイルデバイスを表すこともできる。本明細書に示される部品、それらの接続および関係、ならびにそれらの機能は単なる例であり、本明細書に記載および／または要求とされる本願の実現を制限することを意図するものではない。

図１０に示すように、当該電子デバイスは、１つまたは複数のプロセッサ１００１、メモリ１００２、および高速インターフェースおよび低速インターフェースを含む様々な部品を接続するためのインターフェースを含む。各部品は、異なるバスを使用して相互に接続されており、共通のマザーボードにインストールすることも、必要に応じて他の方法でインストールすることもできる。プロセッサは、外部入力／出力デバイス（インターフェースに結合された表示デバイスなど）にＧＵＩのグラフィック情報を表示するための、メモリ内またはメモリ上に格納された命令を含む、電子デバイスで実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを、複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続することができ、各デバイスは一部の必要な操作を提供する（例えば、サーバーアレイ、ブレードサーバーのグループ、またはマルチプロセッサシステムとして）。図１０では、一つのプロセッサ１００１が例として取り上げられている。

メモリ１００２は、この出願によって提供される非一時的なコンピュータ可読記憶媒体である。ここで、少なくとも１つのプロセッサは、この出願で提供される方法を実行するように、メモリは、少なくとも１つのプロセッサによって実行可能な命令を格納する。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータ命令を格納し、当該コンピュータ命令は、本願によって提供される方法をコンピュータに実行させる。

非一時的なコンピュータ可読記憶媒体とするメモリ１００２は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムとモジュール、および本願実施例中の方法に対応するプログラム命令／モジュールを格納することができる。プロセッサ１００１は、メモリ１００２に格納された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することによって、サーバーの様々な機能的アプリケーションおよびデータ処理を行なう。すなわち、前述の方法の実施例中の方法を実現する。

メモリ１００２は、オペレーティングシステムと少なくとも１つの機能によって必要とされるアプリケーションプログラムを記憶するプログラム領域および電子デバイスの使用により作成されたデータを記憶する記憶データ領域を含み得る。また、メモリ１００２は、少なくとも１つの磁気ディスク記憶装置、フラッシュ記憶装置、または他の非一時的ソリッドステート記憶装置などの高速ランダムアクセスメモリを含み得る。いくつかの実施例では、メモリ１００２は、任意選択で、プロセッサ１００１に対して遠隔的に設置されるメモリを選択的に含み、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。前述のネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。

この電子デバイスは、入力デバイス１００３および出力デバイス１００４をさらに含み得る。プロセッサ１００１、メモリ１００２、入力デバイス１００３、および出力デバイス１００４は、バスによって、または他の方法で接続することができる。図１０には、バスによる接続ことを例とする。

入力デバイス１００３は、入力データまたは文字情報を受信し、タッチスクリーン、キーパッド、マウス、トラックパッドなどのこの電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスである。出力装置１００４は、表示デバイス、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）などを含み得る。この表示装置は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施例では、ディスプレイデバイスは、タッチスクリーンであり得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行および／または解釈される１つまたは複数のコンピュータプログラムに実施されることを含み得る。当該プログラム可能なプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令をこのストレージシステム、少なくとも１つの出力デバイス及び少なくとも１つの入力デバイスに送信することができる専用または一般的なプログラマブルプロセッサであり得る。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）には、プログラム可能なプロセッサのデバイス命令が含まれ、高水準プロセスおよび／または対象指向プログラミング言語、および／またはアセンブリ／デバイス言語を利用してこれらの計算プログラムを実施する。本明細書で使用される場合、「デバイス可読媒体」および「コンピュータ可読媒体」という用語は、プログラム可能なプロセッサの任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ）））にデバイス命令および／またはデータを提供するために使用されることを指し、デバイス可読信号としてのデバイス命令を受信するデバイス可読メディアを含む。「デバイス可読信号」という用語は、プログラム可能なプロセッサにデバイス命令および／またはデータを提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、ここで説明するシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター））、及びユーザがコンピューターに入力を提供できるキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）を備えたコンピューターに実施することができる。他のタイプの装置は、ユーザとの対話を提供することに用いられる。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり、任意の形式（音響入力、音声入力、または触覚入力を含む）を用いてユーザからの入力を受信する。

本明細書に記載のシステムおよび技術は、バックエンド部品を含むコンピューティングシステム（例えば、データサーバーとして）、またはミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバー）、またはフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェイス又はＷｅｂブラウザーを備えたユーザコンピューターであり、ユーザがこのグラフィカルユーザインターフェイス又はこのＷｅｂブラウザーによりここで説明するシステムとテクノロジーの実施形態と対話することができる）、またはそのようなバックグラウンド部品を含む、ミドルウェア部品、またはフロントエンド部品の任意組み合わせのコンピューティングシステム内に実施させる。システムの部品は、デジタルデータ通信の任意の形式または媒体（例えば、通信ネットワーク）を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットが含まれる。

コンピュータシステムには、クライアントとサーバーを含めることができる。クライアントとサーバーは通常、互いに遠く離れており、通常は通信ネットワークを介して対話する。クライアントとサーバーの関係は、相応的なコンピューター上で実行され、相互にクライアント－サーバー関係を持つコンピュータプログラムによって生成される。

上記の各種の形式のプロセス、再並べ替え、追加、または削除のステップを使用することができると理解すべきである。例えば、本願に記載されている各ステップは、並行して、順次に、または異なる順序で実行することができるが、本願に開示されている技術案の所望の結果が達成できる限り、本明細書にはこれに限定されない。

上記の具体的な実施形態は、本願の保護範囲を制限するものを構成していない。当業者は、様々な修正、組み合わせ、サブ組み合わせおよび置換が、設計要件および他の要因に従って行うことができることを理解する必要がある。本願の精神と原則の範囲内で行われた変更、同等の交換、および改善は、本願の保護範囲に含まれるべきである。

これに鑑みて、本願は音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラムを提供している。

第七の局面では、プロセッサによって前記いずれか一項に記載の方法を実現するコンピュータプログラムを提供した。