JP2022537000A - 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム - Google Patents

音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム Download PDF

Info

Publication number
JP2022537000A
JP2022537000A JP2021536284A JP2021536284A JP2022537000A JP 2022537000 A JP2022537000 A JP 2022537000A JP 2021536284 A JP2021536284 A JP 2021536284A JP 2021536284 A JP2021536284 A JP 2021536284A JP 2022537000 A JP2022537000 A JP 2022537000A
Authority
JP
Japan
Prior art keywords
information
user
verified
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021536284A
Other languages
English (en)
Other versions
JP7266683B2 (ja
Inventor
際洲 黄
海峰 王
迎超 時
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010440069.1A external-priority patent/CN111696535B/zh
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2022537000A publication Critical patent/JP2022537000A/ja
Application granted granted Critical
Publication of JP7266683B2 publication Critical patent/JP7266683B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本願は、音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラムを開示し、人工知能技術分野に関している。具体的な実現形態は、ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することである。

Description

(相互参照)
本願は、出願日が2020年5月22日であり、出願番号が2020104400691であり、発明名称が「音声対話に基づく情報検証方法、装置、デバイスおよびコンピュータ記憶媒体」である中国特許出願の優先権を主張する。
本願は、コンピュータ技術分野に関し、特に、人工知能技術分野に関する。
マップ類型のアプリケーションに、地理位置ポイントはマップ上のPOI(Point Of Interest,関心ポイント)、AOI(Area Of Interest,関心領域)又はより大きい範囲のROI(Region Of Interest,位置区域)であることができ、特に例えば、学校、銀行、レストラン、病院、スーパーマーケットなどの人々の生活に密接に関する場所である。一つの地理位置は名称、座標、アドレス、カテゴリ、電話番号などの情報を含むことが多い。地理位置情報は、通常に現場収集、インターネットデータ取得およびユーザ報告などの方式により取得される。都市建設の急速な発展と事業単位計画の変更により、地理位置情報も頻繁に変更されている。
地理位置ポイントの検索とマップナビゲーションなどのアプリケーションは、共に地理位置ポイント情報をデータの基礎とするため、地理位置ポイントデータの正確性は、さまざまなマップアプリケーションの正確性と可用性にとって非常に重要である。地理位置ポイントデータの正確性を向上させるために、マップ類型のアプリケーションは、既存の地理位置ポイント情報を検証する必要がある。
これに鑑みて、本願は音声対話に基づく情報検証方法、装置、デバイス、およびコンピュータ記憶媒体を提供している。
第一の局面では、ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することと、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することと、
を含む音声対話に基づく情報検証方法を提供した。
第二の局面では、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得することと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
語意理解モデルをトレーニングする方法を提供した。
第三の局面では、語意理解モジュールを含み、
前記語意理解モジュールは、
ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得する
音声対話に基づく情報検証装置を提供した。
第四の局面では、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得するためのデータ取得モジュールと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
語意理解モデルをトレーニングする装置を提供した。
第五の局面では、少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに前記いずれか一項に記載の方法を実行させる命令を記憶する電子デバイスを提供した。
第六の局面では、コンピュータに前記いずれか一項に記載の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体を提供した。
上記の技術案から、本願によって提供される方法および装置は、音声照合に対するユーザがフィードバックした音声応答テキストを語意理解することができ、これによってユーザ意図情報および/または検証されたオブジェクト情報を取得し、自動的に情報検証を実現できることがわかる。
上述した選択的な方式の他の効果は、特定の実施例に関連して以下に説明される。
図面は、本願についての限定ではなく、本願をよりよく理解するためである。
本願の実施例に提供されるメインフローチャートである。 本願の実施例に提供される音声対話に基づく情報検証アーキテクチャの概略図である。 本願の実施例に提供される音響モデルをトレーニングする方法フローチャートである。 本願の実施例に提供される音響モデルの構成概略図である。 本願の実施例に提供される語意理解モデルの原理図である。 本願の実施例に提供される語意理解モデルをトレーニングする方法フローチャートである。 本願の実施例に提供される地理位置ポイントチェーンフィンガーの原理概略図である。 本願の実施例に提供される音声対話に基づく情報検証装置の構成図である。 本願の実施例に提供される語意理解モデルをトレーニングする装置構成図である。 本願の実施例を実現する電子デバイスのブロック図である。
以下は、理解を容易にするための本願の実施例の様々な詳細を含んで添付の図面を参照して本願の例示的な実施例を説明し、これらの例示は、単に例示的なものと見なされるべきである。したがって、当業者は、本願の範囲および精神から逸脱されなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることが理解されるべきである。同様に、明確と簡潔のために、公知機能と構造の説明は、以下の説明では省略されている。
現在、地理位置ポイント情報の検証は、通常、現場収集での検証、および人工カスタマーサービスコールでの検証の方法を採用している。現場収集での検証とは、地図情報コレクターが地理位置ポイント現場に到着し、測量、写真、および問い合わせなどの方法を通じて地理位置ポイント情報を検証することである。現場収集での検証の方法は、初期の非情報化時代の地理情報の構築に広く使用されているが、この方法は、大量な人と物的資源を必要とし、効率が低いだけでなく、オペレーターについて専門的な能力も要求し、大規模なデータ操作には適さず、現在は基本的に放棄されている。
人工カスタマーサービスコールでの検証とは、カスタマーサービスが地理位置ポイントの電話番号をダイヤルし、人工対話の方式を使用して情報を検証すると指す。検証者は、現場に到着しなくても、電話で情報のフィードバックを得ることができる。人工のカスタマーサービスがユーザと直接的にコミュニケーションをすることにより正確な情報をより容易に取得する。同時に、この技術案は、操作しやすく、人工のカスタマーサービスに特別な専門的能力の要求はない。例えば、人工カスタマーサービスでは、既存の情報に基づいて地理位置ポイントの名称、アドレス、営業時間などの属性情報を問い合わせて、相手方からのフィードバックを通じて当該地理位置ポイントの各情報が正しいかどうかをマークして更新する。
但し、人工カスタマーサービスコールでの検証の方法は、多くの人の関与が必要であり、人件費が高く、効率が低く、1人で1日100~200回しか確認できない。また、人は疲れ、感情的になりやすく、長期間で安定した仕事を確保することは困難である。
これに鑑みて、本願は、音声対話に基づく情報検証方法を提供する。図1に示すように、この方法には主に次のステップが含まれる。
101では、ユーザが音声問い合わせに対してフィードバックする音声応答テキストが取得され、当該音声問い合わせは、ユーザへの情報検証のために使用される。
102では、音声応答テキストの各キャラクターおよび各キャラクターに対応する注音情報を予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力されたユーザ意図情報および/または検証されるオブジェクト情報が取得される。
ユーザの意図情報には、確認、拒否、回答または質問を含めることができる。確認は、音声問い合わせによって検証された情報に対するユーザによる確認を表し、拒否は、音声問い合わせによって検証された情報に対するユーザによる拒否を表し、回答は、音声問い合わせによって検証された情報に対するユーザによる回答を表し、質問は、音声問い合わせによって検証された情報に対するユーザによる質問を表す。一般に、拒否、応答の意図で、上記の音声応答テキストには、ユーザによって提供された検証されるオブジェクト情報が付随している。もちろん、音声応答テキストにはユーザの意図が含まれておらず、検証されるオブジェクト情報のみが含まれている場合がある。
検証されるオブジェクト情報が取得された場合、検証されるオブジェクト情報を格納するか、この検証されるオブジェクト情報を使用して格納された情報を更新することができる。ユーザ意図情報が得られれば、ユーザ意図情報に基づいて検証されるオブジェクト情報を推測し、その情報を記憶したり、推測した検証されるオブジェクト情報で記憶した情報を更新したりすることができる。
例えば、音声問い合わせが「これは幸福(中国語のピンインはXingfuである)スーパーマーケットであるか?」であり、ユーザからの音声応答テキストが「はい、これは幸福スーパーマーケットである」である場合、検証される地理位置ポイントの名称は「幸福スーパーマーケット」であると決定される。
別の例として、音声問い合わせは「これは幸福スーパーマーケットであるか?」であり、ユーザによる音声応答テキストのフィードバックは「はい」であり、検証される地理位置ポイントの名称は「幸福スーパーマーケット」であると推測される。
別の例として、音声問い合わせが「幸福スーパーマーケットであるか?」であり、ユーザからの音声応答テキストフィードバックが「いいえ、これは新富(中国のピンインはXinfuである)スーパーマーケットである」である場合、検証される地理位置ポイントの名称は「新富スーパーマーケット」であると決定される。または、さらに、地理位置ポイントチェーンフィンガーメカニズムおよび/またはさらなる対話を通じて、検証された地理位置ポイントの名称が「幸福スーパーマーケット」であるかどうかを決定することができる。地理位置ポイントチェーンフィンガーメカニズムは、後続の実施例で説明される。
別の例として、音声問い合わせが「これは幸福スーパーマーケットであるか?」であり、ユーザからの音声応答テキストのフィードバックは「いいえ」である。検証される地理位置ポイントの名称を特定するには、さらに「どこですか?」という音声による問い合わせが必要である。ユーザがさらに「これは新富スーパーマーケットである」とフィードバックすると、ユーザ意図は「回答」であると認識され、検証される地理位置ポイントの名称は「新富スーパーマーケット」である。
また、本願に含まれる検証されるオブジェクトは、例えばマップアプリケーションの地理位置ポイント、eコマースフィールドのトランザクション情報、製品情報などの、任意の分野の検証されるオブジェクトである可能性があることに注意されたい。後続の実施例では、マップアプリケーションの地理位置ポイントのみが説明の例として使用される。この時点で、対応的な検証されるオブジェクト情報には、地理位置ポイントの名称、カテゴリ、アドレス、営業時間、連絡先番号および運営者などの属性情報が含まれるが、これらに限定されない。
本願で提供される方法の理解を容易にするために、まず、本願の基礎とする音声対話の情報検証アーキテクチャについて説明する。図2に示すように、本願の音声対話アーキテクチャにおいて、ユーザが本願の実施例によって提供される音声対話の情報検証装置(スマート検証装置と簡単に呼ばれる)と通信接続を確立した後、スマート検証装置で通信接続を介してユーザと音声対話をして情報検証を実行することを実現することができる。例えば、電話を介してユーザに情報検証を実行し、ネットワーク音声通話を介してユーザに情報検証を実行し、ネットワーク音声メッセージを介してユーザに情報検証を実行することができる。
スマート検証装置は、まず、言葉ライブラリを使用して自然言語を生成する。生成された自然言語テキストは、音声合成によって音声を生成し、ネットワークを介してユーザにブロードキャストされる。この音声は通常、音声問い合わせである。ユーザはこの音声問い合わせを聞いた後、この音声問い合わせに対して音声応答をフィードバックし、ネットワークを介してスマート検証装置に提供することができる。スマート検証装置が音声認識を実行した後、音声応答テキストが取得される。この音声応答テキストを語意理解し、そこから構造化情報を抽出する。本願の実施例では、この構造化情報は、検証されるオブジェクト情報であり得る。さらに、語意理解の結果に基づいて対話管理をさらに行うことができる。対話管理で、ビジネスロジックを呼び出し、抽出された構造化情報を使用して地理位置ポインデータベースを更新する。一方、自然言語生成は、情報の検証が完了するまで、繰り返して継続することができる。
上記のスマート検証装置によって実行される処理の各部分について、以下で詳細に説明する。
音声認識処理
音は本質的に波、つまり音波である。この波は一種の信号として処理できるため、音声認識処理は基本的に、時間の経過とともに再生される信号シーケンスを処理し、テキストシーケンスを出力することである。簡単に言えば、音声フラグメント入力をテキスト出力に変換するプロセスは音声認識である。音声認識処理の過程で、主に、音響モデルと言語モデルに依存している。
音響モデルの前に、まず、音声(この実施例では、主に、ユーザによって返される音声応答)が前処理され、特徴が抽出される。実際には、忠実度の高く、ノイズのない音声は非常にまれである。実際に取得する音声データは多少ノイズがあるため、音響モデルに正式に入る前に、ノイズ除去やチャネル強調などの前処理技術により、信号を時間ドメインから周波数ドメインに変換して、音響モデルに有効な特徴ベクトルを抽出する必要がある。次に、音響モデルは前処理部分で得られた特徴ベクトルを音響モデルスコアに変換すると同時に、言語モデルは言語モデルスコアを取得する。最後に、デコード検索段階では、音響モデルスコアと言語スコアが統合され、スコアが最も高い単語シーケンスが最終的な認識結果として使用される。これが音声認識の一般原理である。
音声信号は多様である。話者(声)、態度(スタイル、環境)、文脈内容などが異なると、同じ単語の音声信号のパフォーマンスが大きく異なる。同じ人が同じ文を言っても、2回の音声信号が同じであることを保証できない。どのようにモデルを使用して音声信号の実際な意味を表現し、正しいテキストに変換するかは、大きなチャレンジである。調査の結果、地理位置ポイン検証シーンに関する言葉とユーザからのフィードバックの内容が比較的集中していることが分かった。音声認識の結果は比較的エラー率が高いであるが、問題はより集中しており、基本的には地理位置ポイント名称の認識エラーである。
本願の実施例では、音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答について音声認識を実行して、音声応答テキストを取得する。その中で、音響モデルと言語モデルは、トレーニングプロセスで地理位置ポイント辞書データを導入する。
まず、音響モデルを検討する。音響モデルは、発話のモデリングとして理解でき、音声入力を音響表現の出力に変換できる。より正確には、音声がある音響記号に属する確率を示す。英語では、この音響記号は音節(syllable)またはより小さな粒度の音素(phoneme)にすることができる。中国語では、この音響記号はイニシャルとファイナルまたは英語粒度と同じ小さい音素にすることができる。
本願では、fine-tuning(微調整)に基づいて、音響モデルに対して方向固定最適化される。具体的には、図3に示すように、以下のステップを含むことができる。
301では、人工カスタマーサービスによるユーザへの情報検証の音声及び対応的なマーキングテキストを使用して、トレーニングデータを取得する。
この実施例では、ユーザへの情報検証のための人工カスタマーサービスの音声を使用して音声認識を実行し、同時に、地理位置ポイントの名称をポジショニングし、正しいテキストに修正して、人工でマークすることができる。それによって「音声-テキスト」ペアを形成し、次にテキストに対応する音素情報をマークし、トレーニングデータとする。
302では、トレーニングデータを使用して、既存の音響モデルに対してモデルパラメータを最適化する。
トレーニングセットが
Figure 2022537000000002
であると仮定し、
これは、N個のトレーニングサンプルがあり、Xは第i番目の音声サンプルであり、Zは対応的な音素であることを示す。1つの音声サンプルの入力は一つのシーケンスであり、出力音素情報も一つのシーケンスである。
本願は、音響モデルの構造を制限しておらず、例えば、図4に示すように、Bi-LSTM(Bi-directional Long Short-Term Memory、双方向長短期記憶)+CTC(Connectionist temporal classification、時系列分類)などのモデル構造を使用できる。
トレーニングターゲットは、CTCによって出力される音素シーケンスが、トレーニングサンプルの対応的な音素ラベルに準拠することである。トレーニングターゲットを使用して損失関数を作成でき、損失関数の結果に応じてモデルパラメータを最適化できる。すでに優れた音響モデルがあるため、特定の領域のみで改善の余地がある。したがって、地理位置ポイントについて、トレーニングデータの重点は、地理位置ポイントを含む音声とそれに対するマーキングである。したがって、この部分のトレーニングデータを使用して、fine-tuningのみを実行できる。つまり、既存の音響モデルのモデルパラメータに基づいて、この部分のトレーニングデータを使用してモデルパラメータを最適化する。元の音響モデルの重みが平滑化されているため、重みを歪める必要がなく、トレーニングプロセス中に既存の音響モデルの学習率が低下する。
言語モデルの場合、その役割は、同一音声近似音声の問題を排除することとして理解できる。音素シーケンスが音響モデルを提供した後、最も確率の高い文字列シーケンスが候補テキストシーケンスから検出される。本願では、言語モデルのトレーニングプロセスで使用されるトレーニングサンプルは、地理位置ポイント辞書を使用して拡張でき、音声モデルのトレーニングは、例えばRNNモデルを使用して実行できる。ここではあまり説明しない。
以上の処理により、音声認識効果が大幅に向上した。特に、わずかに頻度の低い地理位置ポイントの名称について、認識の正確性が大幅に向上する。
語意理解
語意理解の目標は、テキスト情報を、機械で処理できる語意表現に変換し、通常は構造化情報として具体化されることである。同じ意味を表現する方式は多くにあるので、機械にとって、文の各単語の正確な意味を理解することは重要ではなく、文の意味を理解することが重要である。例えば、「私の家は幸福スーパーマーケットである」、「私の店の名称は幸福スーパーマーケットである」、「私の店名は幸福スーパーマーケットである」などはすべて、ユーザのストアの名称が「幸福スーパーマーケット」であるという1つの意味を表する。「幸福スーパーマーケット」という構造化情報を特定する必要がある。
本願の実施例では、ユーザの音声応答テキストについて、主に、ユーザ意図情報および/または検証されるオブジェクト情報を識別する。2種類の情報を識別することを例とする。この部分の実現は、実際に、図1で説明されている内容である。すなわち、前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を、予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力されたユーザ意図情報および/または検証されるオブジェクト情報を取得する。
本願の実施例で提供される語意理解モデルは、埋込層、時系列モデリング層、マッピング層、および予測層を含み得る。図5は、本願の実施例によって提供される語意理解モデルの概略図である。
図面にWord Embeddingsとして示される埋込層は、音声応答テキストの各キャラクターと、各キャラクターに対応する注音符号情報をエンコードする。本願では、漢字の場合、使用される注音符号情報はピンインまたは他の形式の注音符号情報であることができる。図5では、ピンインを例にとると、各文字のピンインをエンコードすることで、同音異義語による不正確な音声認識の問題を効果的に排除できる。語意理解では、音声認識の結果が不正確であっても、ユーザ意図情報および検証されるオブジェクト情報を正しく認識することができる。
時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の語意依存関係を学習する。図5では、Bi-LSTMを例とする。
マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得する。図5のマッピング層は、Softmaxを例とする。
予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクト情報を予測する。図5の予測層の実現では、Softmax+CRF層を例とする。
マッピング層と予測層は、それぞれユーザ意図認識タスクと検証されるオブジェクト情報予測タスクであり、どちらか一方のみを実現する場合は、マッピング層と予測層の一方のみを使用すればよい。
ユーザが入力したS=w、w、w ...、wというセンテンスの場合、wはセンテンスのi番目のキャラクターを示し、Tはセンテンスの長さを示す。各単語は、単語ベクトルを使用してe(w)として表される。入力シーケンスがxであると仮定すると、予測層の出力シーケンスはyとして示される。
Bi-LSTM層は、順方向出力と逆方向出力にスプライシング方式を採用している。したがって、xを入力し、対応的な隠し層の出力
Figure 2022537000000003
は次のように表される。
Figure 2022537000000004
予測層の出力
Figure 2022537000000005
とマッピング層の出力
Figure 2022537000000006
は次のとおりである。
Figure 2022537000000007
Figure 2022537000000008
それらの中には、hは隠しベクトルの最大プーリングの結果である。
Figure 2022537000000009
、w、b、およびbはモデルパラメータである。
図5から、「軍隊(対応中国語である「部隊」のピンインはbudui)、私は永楽スーパーマーケットです」という音声認識結果について、各キャラクターと各キャラクターの音声に対してEmbeddingを行った後に、Bi-LSTMを介して隠しベクトルが出力され、マッピング層が隠しベクトルの最大のプーリング結果を使用し、ユーザ意図情報が否定的であることをマッピングによって取得する(図ではdenyで示されている)。予測層は各時系列の隠しベクトルを使用して予測し、POIの名称が「永楽スーパーマーケット」であることを取得する。図のCRFによって出力される各キャラクターのラベルに、B_POIはPOIの開始キャラクターを示し、I_POIはPOIの中間キャラクターを示し、E_POIはPOIの終了キャラクターを表する。革新的に各文字のピンイン入力を導入した場合、音声認識結果が間違っていても、即ち、「違い(対応中国語である「不対」のピンインbudui)」を「軍隊(対応中国語である「部隊」のピンインはbudui)」に誤認しても、この語意理解モデルに基づいて、ユーザの意図が否定であると正しく識別することできる。
図6は、本願の実施例によって提供される語意理解モデルをトレーニングする方法のフローチャートである。図6に示されるように、この方法は、以下のステップを含み得る。
601では、トレーニングデータが取得され、トレーニングデータは、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、音声応答テキストのユーザ意図情報、および/または検証されるオブジェクトの情報を含む。
データの人工マーキングのコストが高く効率が低いため、ここでは機械により人工を支援して、データをマーキングすることを考える。このシナリオでは、ユーザが表現する文の形式は比較的類似しており、逆に、ノイズ、音声認識などの問題によるさまざまな間違いの認識結果である。この特殊的なデータ分布を考慮して、本願の実施例は、半教師あり方法を提案し、具体的な方法は以下の通りである。
まず、同じ音声問い合わせに対して、高周波音声応答テキストが取得され、人工でマーキングされてから、シードサンプルが取得される。
つまり、「すみません、あなたの家は***であるか」などの同じ質問のそれぞれについて、まず、高頻度のユーザ応答テキストにマーキングし、例えばPOI名称という地理位置ポイント情報をマーキングすることを含む。
次に、シードサンプルを使用して、履歴データベース内のオブジェクト情報によって一般化された音声応答テキストについて、類似性をクラスター化する。
例えば、マーキングの結果に従って、POI名称に対して一般化およびクラスター化を行う。
「はい、私の家は[POI-NAME]である」という一般化結果に対応するマーキングは、confirm(POI_NAME)であり、
「はい、[POI-NAME]である」という一般化結果に対応するマーキングは、confirm(POI_NAME)であり、
「正しい」という一般化結果に対応するマーキングは、confirm()であり、
「私の家は名称を[POI-NAME]に変更した」という一般化結果に対応するマーキングは、deny(POI_NAME)である。
クラスタリングプロセスでは、類似性の計算により、単語ベクトルやピンインの類似性などの特徴が導入される可能性がある。
最後に、クラスタリング結果に従って、各ユーザの意図情報に対応する音声応答テキストがトレーニングデータとして取得される。
602において、トレーニングデータにおける語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされたユーザ意図情報および/または検証されるオブジェクト情報を前記語意理解モデルのターゲット出力とし、語意理解モデルをトレーニングする。
語意理解モデルの構造は、図5に示されている。ユーザ意図認識と検証されるオブジェクト情報認識という2つのタスクがあるため、この2つのタスクは個別にまたは共同でトレーニングできる。2つのタスクの間には大きく関連しているため、共同トレーニングの効果がよく、共同トレーニングの方式が推奨される。
ユーザの意図認識の損失関数は、クロスエントロピーの形式を採用することができ、次のように表される。
Figure 2022537000000010
それらの中で、
Figure 2022537000000011
は対応的な実際のユーザの意図を表す。
検証されるオブジェクト情報の識別は、CRFの損失関数を直接再利用できる。CRF損失関数は、実際のパスのスコアとすべてのパスの合計スコアという2つの部分で構成される。実際のパスのスコアは、すべてのパスの中で最高のスコアであるべきである。
パスのスコアを計算式は以下の通りである。
Figure 2022537000000012
上記式の文字の上付きは、対応的な入力シーケンスのi番目のキャラクターを表し、文字の下付きは、このi番目のキャラクターのm番目のシーケンスを示している。Pはラベルを
Figure 2022537000000013
から
Figure 2022537000000014
に遷移する遷移スコア値を表す遷移行列である。
各シーケンスのスコアは上記式のように計算できる。正しいラベルシーケンスのスコアを最大化するだけでよいため、損失関数は次のように定義される。
Figure 2022537000000015
ここで、
Figure 2022537000000016
、y’はすべての可能なシーケンスである。
次に、上記2つの損失関数を使用して、ジョイント損失関数を計算する。ジョイント損失関数は、上記
Figure 2022537000000017

Figure 2022537000000018
を重み付けすることで取得できる。
上記の処理の後、語意理解の正確性が向上する。但し、検証されるオブジェクトの情報は依然として不正確である可能性がある。例えば、「永楽スーパーマーケット」というPOI名称は正しい可能性が高い。しかし、時間と空間のシナリオによっては、「勇楽スーパーマーケット」、「涌楽スーパーマーケット」などの場合がある。この状況を解決するために、検証されるオブジェクト情報を検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にさらにチェーンフィンガーすることができる。例えば、POI名称をPOI知識ライブラリのPOI名称にチェーンフィンガーする。
具体的には、ドメイン知識ライブラリを事前に構築することができ、この知識ライブラリは、名称、タイプ、アドレス、座標、連絡先情報などの地理位置ポイント情報を含むことができる。次に、取得した地理位置ポイント情報について、音声類似性、テキスト類似性、属性類似性の少なくとも1つに基づいて、検証されるオブジェクト情報をドメイン知識ライブラリに分類し、検証されるオブジェクトをドメイン知識ライブラリにチェーンフィンガーする。チェーンフィンガーされたオブジェクト情報が決定されると、決定されたオブジェクト情報で検証されたオブジェクト情報を更新する。その中、上記の分類を行う場合、実際には、予め構築された分類器を使用して上記の語意理解によって決定された検証されるオブジェクト情報を分類する。この分類器によって分類されるカテゴリは、ドメイン知識ライブラリ内の既存の各地理位置ポイントである。つまり、分類器が語意理解されて得られる検証されるオブジェクトがドメイン知識ライブラリ内の既存の各地理位置ポイントに属する確率を計算し、この確率に応じて検証されるオブジェクトがドメイン知識ライブラリ内の既存の地理位置ポイントにチェーンフィンガーされているかどうか、及びチェーンフィンガーされた場合、具体的にどの地理位置ポイントにチェーンフィンガーするかと決定する。
例えば、図7に示すように、語意理解して得られた「永楽スーパーマーケット」は、ユーザが取得した「永楽スーパーマーケット」の音声、テキスト、アドレス、座標などの情報を、ドメイン知識ライブラリ内の既存の各地理的位置に分類する。最終的に「勇楽スーパーマーケット」に分類される確率が最も高く、事前に設定された閾値を超えていることが判明した場合、語意理解して得られた「永楽スーパーマーケット」は「勇楽スーパーマーケット」に修正される。その中で、分類する時にGBDT(Gradient Boosting Decision Tree、勾配ブースティング決定木)アルゴリズムを使用できる。
上記のチェーンフィンガー処理により、語意理解して得られた検証されるオブジェクト情報をより正確にすることができる。
対話管理
対話管理とは、語意理解の結果と対話の文脈に基づいて次の応答を決定することである。重点は、最終的な正しい検証結果を期待するように、対話の状態を維持することによってユーザとの対話を決定することである。
上記の語意理解プロセスの後、正しい結果が認識される可能性が高い。但し、POIが新たに追加された場合、それが完全に正しいということを保証することができない。また、語意理解が適切でない場合もあり、その結果、得られた地理位置ポイント情報は正しくない。これに基づいて、マルチラウンド対話に基づくメカニズムを導入して、検証されるオブジェクトの正確性をユーザに確認することができる。
具体的には、語意理解して得られた地理位置ポイントの名称について、地理位置ポイントの名称に含まれるキャラクター情報についての音声問い合わせをユーザへ送信し、ユーザがフィードバックした音声応答テキストにより、音声認識および語意理解などを通じてユーザ意図情報を取得し、ユーザの意図情報に基づいて、前述の地理位置ポイントの名称の正確性が決定される。
例えば、上記の語意理解により、地理位置ポイントの名称「勇楽スーパーマーケット」を取得し、「勇敢の勇、歓楽中の楽であるか」と問うことができる。ユーザからの回答が「はい」であり、つまりユーザの意図が肯定であると、語意理解によって得られた地理位置ポイントの名称の正確性を決定する。ユーザが「いいえ」と答えた場合、つまりユーザの意図が否定である場合、語意理解して得られた地理位置ポイントの名称が間違っていると決定される。さらに、正しい地理位置ポイントの名称を取得するようにユーザに問い合わせることができる。
また、ユーザの音声応答を正確に認識できたとしても、不信感やからかいなどの理由で、故意にスマート検証装置を騙すユーザが多い。この問題に対応して、本願ではポリグラフメカニズムが導入された。ポリグラフメカニズムは、アクティブポリグラフメカニズムおよびパッシブポリグラフメカニズムを含むことができる。
アクティブポリグラフメカニズムには、結果が明確にわかっている内容についてユーザへ音声で問い合わせ、ユーザがフィードバックした音声応答を取得し、音声認識と語意理解を実行した後、ユーザの意図情報と検証されるオブジェクト情報を、明確された結果と比較し、一致になると、ユーザがポリグラフテストに合格すると判断され、そうでない場合、ユーザがポリグラフテストに不合格と判断されることが含まれる。ポリグラフテストに合格しなかったユーザからの音声応答テキストは受け付けられない。
言い換えれば、ユーザへ結果が未知である内容について音声で問い合わせすることに加えて、結果が明確に知られている内容についてもユーザへ音声で問い合わせする。結果が明確にわかっている内容に対するユーザの音声応答を通じて、ユーザが嘘をついているかどうかを判断する。
パッシブポリグラフメカニズムには、ユーザの音声応答の感情、さまざまな質問の回答遅延、および同じタイプの地理位置ポイントのビッグデータ統計結果に基づいて、ユーザが嘘をついているかどうかを識別することが含まれる。
上記のポリグラフメカニズムにより、ユーザがフィードバックした内容の正確性をさらに確保することができ、それによりデータ検証の正確性を確保することができる。
さらに、本願は、音声問い合わせに対してユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情に対する報認識のうちの少なくとも1つを実行することもでき、認識結果に従って、対応的な言葉を使用してユーザとフォローアップの音声対話を実行する。例えば、夕方にユーザに「こんばんは」と言い、朝にユーザに「おはよう」と言うことができる。女性の場合、ユーザに「ハロービューティー」と言うことができる。ユーザがすでに退屈している場合は、質問を減らすことができ、ユーザが満足している場合は、質問を増やすことができる。このようにして、異なるシナリオ下で異なるユーザがさまざまな言葉を使用することを実現できる。これは、より柔軟且つ人間化であり、ユーザのハングアップ率を減らし、情報検証のリコール率を向上させる。
音声合成
ユーザはロボットではなく、感情的であり、自然な音声放送はユーザの協力において非常に重要な役割を果たす。音声合成が非常に悪い場合、ユーザは直接電話を切ることになり、情報検証の正常な進行に影響を及ぼす。音声合成をより自然にするために、音声合成モデルは、人工カスタマーサービスがユーザに情報検証を行う音声と、対応的なマーキングテキストを予めトレーニングすることによって取得できる。マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる。
時間情報と地理位置ポイント情報を除いて、地理位置ポイント情報の検証について、他の言葉は基本的に限定されたセットである。但し、既存の音声合成サービスは、時間情報や地理位置ポイント情報のブロードキャストにはかなり鈍く、表現は不自然である。したがって、本願は、時間情報と地理位置ポイント情報をカスタマイズして最適化した。
以前、人工カスタマーサービスによってユーザへ情報検証を行うことに多くの音声を累積したため、美しい音声且つ明瞭な発音な人工カスタマーサービスの音声データを高品質の音声データとして選択できる。音声認識と語意理解により、高品質の音声データをテキストに変換され、地理位置ポイントの属性情報と時間情報が同時にマーキングされる。これにより、トレーニングデータとして使用されるテキストと音声のペアが生成される。
例えば:
「[幸福スーパーマーケット]ですか?」について、ボックス[]のコンテンツにはPOIの名称のラベルが付いている。
「[2020年4月2日]にオープンしますか?」について、ボックス[]の内容にはタイムラベルが付いている。
このようなトレーニングデータを通じてトレーニングされた音声合成モデルにより、地理位置ポイント情報と時間情報の音声表現が人間の表現に近くなり、流れが自然であり、美しくクリアになり、ユーザの満足度と協力度が向上する。
上記は、本願で提供される方法の詳細な説明である。本願で提供される装置は、実施例と併せて以下で詳細に説明される。
図8は、本願の実施例によって提供される音声対話に基づく情報検証装置の構造図である。図8に示されるように、この装置は、語意理解モジュール01を含み得る。さらに、リンクフィンガーモジュール02、音声認識モジュール03、音響モデルトレーニングモジュール04、対話管理モジュール05、音声合成モジュール06を含み得る。各コンポーネントモジュールの主な機能は次のとおりである。
語意理解モジュール01は、音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、音声問い合わせは、ユーザへ情報検証をする;音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力された、確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を取得する。
その中、語意理解モデルは、埋込層および時系列モデリング層、ならびにマッピング層および/または予測層を含む。
埋込層は、各キャラクターと各キャラクターに対応する注音符号情報をエンコードする。
時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の意味依存関係を学習する。
マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得する。
予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する。
リンクフィンガーモジュール02は、語意理解モジュールが検証されるオブジェクト情報を取得する場合、検証されるオブジェクト情報を、検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にリンクフィンガーする。
語意理解モジュール01およびチェーンフィンガーモジュール02の機能及び実行される具体的な操作については、方法の実施例における語意理解に関する記載を参照し、ここでは繰り返さない。
音声認識モジュール03は、音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、音声応答テキストを取得する。その中で、音響モデルと言語モデルは、トレーニングプロセス中に検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する。
音響モデルトレーニングモジュール04は、人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得する;トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化する。
音声認識モジュール03および音響モデルトレーニングモジュール04の機能および具体的な操作については、方法の実施例における音声認識に関する記載を参照し、ここでは繰り返さない。
対話管理モジュール05は、マルチラウンド対話メカニズムに基づいて、検証されるオブジェクト情報の正確性をユーザに確認する、具体的には、検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせをユーザに送信することと、ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて検証されるオブジェクト情報の正確性を決定することとを含む。
対話管理モジュール05は、ユーザ意図情報および/または検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、ユーザがポリグラフテストに合格したと決定され、そうでない場合、ユーザがポリグラフテストに合格しなかったと決定され、ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しない。
対話管理モジュール05は、音声問い合わせに対してユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも1つを実行し、認識結果に従って、対応的な言葉を使用してユーザと後続の音声対話を実行する。
対話管理モジュール05の機能および実行される具体的な操作については、方法の実施例における対話管理に関する記載を参照し、ここでは繰り返さない。
音声合成モジュール06は、音声合成モデルを使用して音声問い合わせを生成し、その中で、音声合成モデルは、人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストを予めトレーニングすることによって取得し、マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる。
音声合成モジュール06の機能および実行される具体的な操作については、方法の実施例における対話管理に関する記載を参照し、ここでは繰り返さない。
図9は、本願の実施例によって提供される語意理解モデルをトレーニングするための装置の構造図である。図9に示されるように、この装置は、データ取得モジュール11およびモデルトレーニングモジュール12を含む。各コンポーネントモジュールの主な機能は次のとおりである。
データ取得モジュール11は、トレーニングデータを取得する。トレーニングデータは、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含む。
モデルトレーニングモジュール12は、トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、語意理解モデルをトレーニングする。注音符号情報には中国語ピンインが含まれ、他の注音符号情報も使用される場合がある。
具体的には、データ取得モジュール11は、同じ音声問い合わせに対して高周波音声応答テキストを取得し、それを人工でマーキングしてシードサンプルを取得することができ、シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行し、クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得する。
具体的には、語意理解モデルは、埋込層および時系列モデリング層、ならびにマッピング層および/または予測層を含む。
埋込層は、各キャラクターと各キャラクターに対応する注音符号情報をエンコードする。
時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の意味依存関係を学習する。
マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得する。
予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する。
本願の実施例によれば、本願はまた、電子デバイスおよび読み取り可能な記憶媒体を提供した。
図10に示すように、本願の実施例による方法による電子デバイスのブロック図である。電子デバイスは、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、その他の適切なコンピューターなど、各種の形式のデジタルコンピューターを表すことを目的としている。電子デバイスは、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなどの各種の形式のモバイルデバイスを表すこともできる。本明細書に示される部品、それらの接続および関係、ならびにそれらの機能は単なる例であり、本明細書に記載および/または要求とされる本願の実現を制限することを意図するものではない。
図10に示すように、当該電子デバイスは、1つまたは複数のプロセッサ1001、メモリ1002、および高速インターフェースおよび低速インターフェースを含む様々な部品を接続するためのインターフェースを含む。各部品は、異なるバスを使用して相互に接続されており、共通のマザーボードにインストールすることも、必要に応じて他の方法でインストールすることもできる。プロセッサは、外部入力/出力デバイス(インターフェースに結合された表示デバイスなど)にGUIのグラフィック情報を表示するための、メモリ内またはメモリ上に格納された命令を含む、電子デバイスで実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを、複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続することができ、各デバイスは一部の必要な操作を提供する(例えば、サーバーアレイ、ブレードサーバーのグループ、またはマルチプロセッサシステムとして)。図10では、一つのプロセッサ1001が例として取り上げられている。
メモリ1002は、この出願によって提供される非一時的なコンピュータ可読記憶媒体である。ここで、少なくとも1つのプロセッサは、この出願で提供される方法を実行するように、メモリは、少なくとも1つのプロセッサによって実行可能な命令を格納する。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータ命令を格納し、当該コンピュータ命令は、本願によって提供される方法をコンピュータに実行させる。
非一時的なコンピュータ可読記憶媒体とするメモリ1002は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムとモジュール、および本願実施例中の方法に対応するプログラム命令/モジュールを格納することができる。プロセッサ1001は、メモリ1002に格納された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することによって、サーバーの様々な機能的アプリケーションおよびデータ処理を行なう。すなわち、前述の方法の実施例中の方法を実現する。
メモリ1002は、オペレーティングシステムと少なくとも1つの機能によって必要とされるアプリケーションプログラムを記憶するプログラム領域および電子デバイスの使用により作成されたデータを記憶する記憶データ領域を含み得る。また、メモリ1002は、少なくとも1つの磁気ディスク記憶装置、フラッシュ記憶装置、または他の非一時的ソリッドステート記憶装置などの高速ランダムアクセスメモリを含み得る。いくつかの実施例では、メモリ1002は、任意選択で、プロセッサ1001に対して遠隔的に設置されるメモリを選択的に含み、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。前述のネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
この電子デバイスは、入力デバイス1003および出力デバイス1004をさらに含み得る。プロセッサ1001、メモリ1002、入力デバイス1003、および出力デバイス1004は、バスによって、または他の方法で接続することができる。図10には、バスによる接続ことを例とする。
入力デバイス1003は、入力データまたは文字情報を受信し、タッチスクリーン、キーパッド、マウス、トラックパッドなどのこの電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスである。出力装置1004は、表示デバイス、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施例では、ディスプレイデバイスは、タッチスクリーンであり得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行および/または解釈される1つまたは複数のコンピュータプログラムに実施されることを含み得る。当該プログラム可能なプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令をこのストレージシステム、少なくとも1つの出力デバイス及び少なくとも1つの入力デバイスに送信することができる専用または一般的なプログラマブルプロセッサであり得る。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラム可能なプロセッサのデバイス命令が含まれ、高水準プロセスおよび/または対象指向プログラミング言語、および/またはアセンブリ/デバイス言語を利用してこれらの計算プログラムを実施する。本明細書で使用される場合、「デバイス可読媒体」および「コンピュータ可読媒体」という用語は、プログラム可能なプロセッサの任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD)))にデバイス命令および/またはデータを提供するために使用されることを指し、デバイス可読信号としてのデバイス命令を受信するデバイス可読メディアを含む。「デバイス可読信号」という用語は、プログラム可能なプロセッサにデバイス命令および/またはデータを提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、ここで説明するシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター))、及びユーザがコンピューターに入力を提供できるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を備えたコンピューターに実施することができる。他のタイプの装置は、ユーザとの対話を提供することに用いられる。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり、任意の形式(音響入力、音声入力、または触覚入力を含む)を用いてユーザからの入力を受信する。
本明細書に記載のシステムおよび技術は、バックエンド部品を含むコンピューティングシステム(例えば、データサーバーとして)、またはミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェイス又はWebブラウザーを備えたユーザコンピューターであり、ユーザがこのグラフィカルユーザインターフェイス又はこのWebブラウザーによりここで説明するシステムとテクノロジーの実施形態と対話することができる)、またはそのようなバックグラウンド部品を含む、ミドルウェア部品、またはフロントエンド部品の任意組み合わせのコンピューティングシステム内に実施させる。システムの部品は、デジタルデータ通信の任意の形式または媒体(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
コンピュータシステムには、クライアントとサーバーを含めることができる。クライアントとサーバーは通常、互いに遠く離れており、通常は通信ネットワークを介して対話する。クライアントとサーバーの関係は、相応的なコンピューター上で実行され、相互にクライアント-サーバー関係を持つコンピュータプログラムによって生成される。
上記の各種の形式のプロセス、再並べ替え、追加、または削除のステップを使用することができると理解すべきである。例えば、本願に記載されている各ステップは、並行して、順次に、または異なる順序で実行することができるが、本願に開示されている技術案の所望の結果が達成できる限り、本明細書にはこれに限定されない。
上記の具体的な実施形態は、本願の保護範囲を制限するものを構成していない。当業者は、様々な修正、組み合わせ、サブ組み合わせおよび置換が、設計要件および他の要因に従って行うことができることを理解する必要がある。本願の精神と原則の範囲内で行われた変更、同等の交換、および改善は、本願の保護範囲に含まれるべきである。
(相互参照)
本願は、出願日が2020年5月22日であり、出願番号が2020104400691であり、発明名称が「音声対話に基づく情報検証方法、装置、デバイスおよびコンピュータ記憶媒体」である中国特許出願の優先権を主張する。
本願は、コンピュータ技術分野に関し、特に、人工知能技術分野に関する。
マップ類型のアプリケーションに、地理位置ポイントはマップ上のPOI(Point Of Interest,関心ポイント)、AOI(Area Of Interest,関心領域)又はより大きい範囲のROI(Region Of Interest,位置区域)であることができ、特に例えば、学校、銀行、レストラン、病院、スーパーマーケットなどの人々の生活に密接に関する場所である。一つの地理位置は名称、座標、アドレス、カテゴリ、電話番号などの情報を含むことが多い。地理位置情報は、通常に現場収集、インターネットデータ取得およびユーザ報告などの方式により取得される。都市建設の急速な発展と事業単位計画の変更により、地理位置情報も頻繁に変更されている。
地理位置ポイントの検索とマップナビゲーションなどのアプリケーションは、共に地理位置ポイント情報をデータの基礎とするため、地理位置ポイントデータの正確性は、さまざまなマップアプリケーションの正確性と可用性にとって非常に重要である。地理位置ポイントデータの正確性を向上させるために、マップ類型のアプリケーションは、既存の地理位置ポイント情報を検証する必要がある。
これに鑑みて、本願は音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラムを提供している。
第一の局面では、ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することと、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することと、
を含む音声対話に基づく情報検証方法を提供した。
第二の局面では、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得することと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
語意理解モデルをトレーニングする方法を提供した。
第三の局面では、語意理解モジュールを含み、
前記語意理解モジュールは、
ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得する
音声対話に基づく情報検証装置を提供した。
第四の局面では、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得するためのデータ取得モジュールと、
トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
語意理解モデルをトレーニングする装置を提供した。
第五の局面では、少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに前記いずれか一項に記載の方法を実行させる命令を記憶する電子デバイスを提供した。
第六の局面では、コンピュータに前記いずれか一項に記載の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体を提供した。
第七の局面では、プロセッサによって前記いずれか一項に記載の方法を実現するコンピュータプログラムを提供した。
上記の技術案から、本願によって提供される方法および装置は、音声照合に対するユーザがフィードバックした音声応答テキストを語意理解することができ、これによってユーザ意図情報および/または検証されたオブジェクト情報を取得し、自動的に情報検証を実現できることがわかる。
上述した選択的な方式の他の効果は、特定の実施例に関連して以下に説明される。
図面は、本願についての限定ではなく、本願をよりよく理解するためである。
本願の実施例に提供されるメインフローチャートである。 本願の実施例に提供される音声対話に基づく情報検証アーキテクチャの概略図である。 本願の実施例に提供される音響モデルをトレーニングする方法フローチャートである。 本願の実施例に提供される音響モデルの構成概略図である。 本願の実施例に提供される語意理解モデルの原理図である。 本願の実施例に提供される語意理解モデルをトレーニングする方法フローチャートである。 本願の実施例に提供される地理位置ポイントチェーンフィンガーの原理概略図である。 本願の実施例に提供される音声対話に基づく情報検証装置の構成図である。 本願の実施例に提供される語意理解モデルをトレーニングする装置構成図である。 本願の実施例を実現する電子デバイスのブロック図である。
以下は、理解を容易にするための本願の実施例の様々な詳細を含んで添付の図面を参照して本願の例示的な実施例を説明し、これらの例示は、単に例示的なものと見なされるべきである。したがって、当業者は、本願の範囲および精神から逸脱されなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることが理解されるべきである。同様に、明確と簡潔のために、公知機能と構造の説明は、以下の説明では省略されている。
現在、地理位置ポイント情報の検証は、通常、現場収集での検証、および人工カスタマーサービスコールでの検証の方法を採用している。現場収集での検証とは、地図情報コレクターが地理位置ポイント現場に到着し、測量、写真、および問い合わせなどの方法を通じて地理位置ポイント情報を検証することである。現場収集での検証の方法は、初期の非情報化時代の地理情報の構築に広く使用されているが、この方法は、大量な人と物的資源を必要とし、効率が低いだけでなく、オペレーターについて専門的な能力も要求し、大規模なデータ操作には適さず、現在は基本的に放棄されている。
人工カスタマーサービスコールでの検証とは、カスタマーサービスが地理位置ポイントの電話番号をダイヤルし、人工対話の方式を使用して情報を検証すると指す。検証者は、現場に到着しなくても、電話で情報のフィードバックを得ることができる。人工のカスタマーサービスがユーザと直接的にコミュニケーションをすることにより正確な情報をより容易に取得する。同時に、この技術案は、操作しやすく、人工のカスタマーサービスに特別な専門的能力の要求はない。例えば、人工カスタマーサービスでは、既存の情報に基づいて地理位置ポイントの名称、アドレス、営業時間などの属性情報を問い合わせて、相手方からのフィードバックを通じて当該地理位置ポイントの各情報が正しいかどうかをマークして更新する。
但し、人工カスタマーサービスコールでの検証の方法は、多くの人の関与が必要であり、人件費が高く、効率が低く、1人で1日100~200回しか確認できない。また、人は疲れ、感情的になりやすく、長期間で安定した仕事を確保することは困難である。
これに鑑みて、本願は、音声対話に基づく情報検証方法を提供する。図1に示すように、この方法には主に次のステップが含まれる。
101では、ユーザが音声問い合わせに対してフィードバックする音声応答テキストが取得され、当該音声問い合わせは、ユーザへの情報検証のために使用される。
102では、音声応答テキストの各キャラクターおよび各キャラクターに対応する注音情報を予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力されたユーザ意図情報および/または検証されるオブジェクト情報が取得される。
ユーザの意図情報には、確認、拒否、回答または質問を含めることができる。確認は、音声問い合わせによって検証された情報に対するユーザによる確認を表し、拒否は、音声問い合わせによって検証された情報に対するユーザによる拒否を表し、回答は、音声問い合わせによって検証された情報に対するユーザによる回答を表し、質問は、音声問い合わせによって検証された情報に対するユーザによる質問を表す。一般に、拒否、応答の意図で、上記の音声応答テキストには、ユーザによって提供された検証されるオブジェクト情報が付随している。もちろん、音声応答テキストにはユーザの意図が含まれておらず、検証されるオブジェクト情報のみが含まれている場合がある。
検証されるオブジェクト情報が取得された場合、検証されるオブジェクト情報を格納するか、この検証されるオブジェクト情報を使用して格納された情報を更新することができる。ユーザ意図情報が得られれば、ユーザ意図情報に基づいて検証されるオブジェクト情報を推測し、その情報を記憶したり、推測した検証されるオブジェクト情報で記憶した情報を更新したりすることができる。
例えば、音声問い合わせが「これは幸福(中国語のピンインはXingfuである)スーパーマーケットであるか?」であり、ユーザからの音声応答テキストが「はい、これは幸福スーパーマーケットである」である場合、検証される地理位置ポイントの名称は「幸福スーパーマーケット」であると決定される。
別の例として、音声問い合わせは「これは幸福スーパーマーケットであるか?」であり、ユーザによる音声応答テキストのフィードバックは「はい」であり、検証される地理位置ポイントの名称は「幸福スーパーマーケット」であると推測される。
別の例として、音声問い合わせが「幸福スーパーマーケットであるか?」であり、ユーザからの音声応答テキストフィードバックが「いいえ、これは新富(中国のピンインはXinfuである)スーパーマーケットである」である場合、検証される地理位置ポイントの名称は「新富スーパーマーケット」であると決定される。または、さらに、地理位置ポイントチェーンフィンガーメカニズムおよび/またはさらなる対話を通じて、検証された地理位置ポイントの名称が「幸福スーパーマーケット」であるかどうかを決定することができる。地理位置ポイントチェーンフィンガーメカニズムは、後続の実施例で説明される。
別の例として、音声問い合わせが「これは幸福スーパーマーケットであるか?」であり、ユーザからの音声応答テキストのフィードバックは「いいえ」である。検証される地理位置ポイントの名称を特定するには、さらに「どこですか?」という音声による問い合わせが必要である。ユーザがさらに「これは新富スーパーマーケットである」とフィードバックすると、ユーザ意図は「回答」であると認識され、検証される地理位置ポイントの名称は「新富スーパーマーケット」である。
また、本願に含まれる検証されるオブジェクトは、例えばマップアプリケーションの地理位置ポイント、eコマースフィールドのトランザクション情報、製品情報などの、任意の分野の検証されるオブジェクトである可能性があることに注意されたい。後続の実施例では、マップアプリケーションの地理位置ポイントのみが説明の例として使用される。この時点で、対応的な検証されるオブジェクト情報には、地理位置ポイントの名称、カテゴリ、アドレス、営業時間、連絡先番号および運営者などの属性情報が含まれるが、これらに限定されない。
本願で提供される方法の理解を容易にするために、まず、本願の基礎とする音声対話の情報検証アーキテクチャについて説明する。図2に示すように、本願の音声対話アーキテクチャにおいて、ユーザが本願の実施例によって提供される音声対話の情報検証装置(スマート検証装置と簡単に呼ばれる)と通信接続を確立した後、スマート検証装置で通信接続を介してユーザと音声対話をして情報検証を実行することを実現することができる。例えば、電話を介してユーザに情報検証を実行し、ネットワーク音声通話を介してユーザに情報検証を実行し、ネットワーク音声メッセージを介してユーザに情報検証を実行することができる。
スマート検証装置は、まず、言葉ライブラリを使用して自然言語を生成する。生成された自然言語テキストは、音声合成によって音声を生成し、ネットワークを介してユーザにブロードキャストされる。この音声は通常、音声問い合わせである。ユーザはこの音声問い合わせを聞いた後、この音声問い合わせに対して音声応答をフィードバックし、ネットワークを介してスマート検証装置に提供することができる。スマート検証装置が音声認識を実行した後、音声応答テキストが取得される。この音声応答テキストを語意理解し、そこから構造化情報を抽出する。本願の実施例では、この構造化情報は、検証されるオブジェクト情報であり得る。さらに、語意理解の結果に基づいて対話管理をさらに行うことができる。対話管理で、ビジネスロジックを呼び出し、抽出された構造化情報を使用して地理位置ポインデータベースを更新する。一方、自然言語生成は、情報の検証が完了するまで、繰り返して継続することができる。
上記のスマート検証装置によって実行される処理の各部分について、以下で詳細に説明する。
音声認識処理
音は本質的に波、つまり音波である。この波は一種の信号として処理できるため、音声認識処理は基本的に、時間の経過とともに再生される信号シーケンスを処理し、テキストシーケンスを出力することである。簡単に言えば、音声フラグメント入力をテキスト出力に変換するプロセスは音声認識である。音声認識処理の過程で、主に、音響モデルと言語モデルに依存している。
音響モデルの前に、まず、音声(この実施例では、主に、ユーザによって返される音声応答)が前処理され、特徴が抽出される。実際には、忠実度の高く、ノイズのない音声は非常にまれである。実際に取得する音声データは多少ノイズがあるため、音響モデルに正式に入る前に、ノイズ除去やチャネル強調などの前処理技術により、信号を時間ドメインから周波数ドメインに変換して、音響モデルに有効な特徴ベクトルを抽出する必要がある。次に、音響モデルは前処理部分で得られた特徴ベクトルを音響モデルスコアに変換すると同時に、言語モデルは言語モデルスコアを取得する。最後に、デコード検索段階では、音響モデルスコアと言語スコアが統合され、スコアが最も高い単語シーケンスが最終的な認識結果として使用される。これが音声認識の一般原理である。
音声信号は多様である。話者(声)、態度(スタイル、環境)、文脈内容などが異なると、同じ単語の音声信号のパフォーマンスが大きく異なる。同じ人が同じ文を言っても、2回の音声信号が同じであることを保証できない。どのようにモデルを使用して音声信号の実際な意味を表現し、正しいテキストに変換するかは、大きなチャレンジである。調査の結果、地理位置ポイン検証シーンに関する言葉とユーザからのフィードバックの内容が比較的集中していることが分かった。音声認識の結果は比較的エラー率が高いであるが、問題はより集中しており、基本的には地理位置ポイント名称の認識エラーである。
本願の実施例では、音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答について音声認識を実行して、音声応答テキストを取得する。その中で、音響モデルと言語モデルは、トレーニングプロセスで地理位置ポイント辞書データを導入する。
まず、音響モデルを検討する。音響モデルは、発話のモデリングとして理解でき、音声入力を音響表現の出力に変換できる。より正確には、音声がある音響記号に属する確率を示す。英語では、この音響記号は音節(syllable)またはより小さな粒度の音素(phoneme)にすることができる。中国語では、この音響記号はイニシャルとファイナルまたは英語粒度と同じ小さい音素にすることができる。
本願では、fine-tuning(微調整)に基づいて、音響モデルに対して方向固定最適化される。具体的には、図3に示すように、以下のステップを含むことができる。
301では、人工カスタマーサービスによるユーザへの情報検証の音声及び対応的なマーキングテキストを使用して、トレーニングデータを取得する。
この実施例では、ユーザへの情報検証のための人工カスタマーサービスの音声を使用して音声認識を実行し、同時に、地理位置ポイントの名称をポジショニングし、正しいテキストに修正して、人工でマークすることができる。それによって「音声-テキスト」ペアを形成し、次にテキストに対応する音素情報をマークし、トレーニングデータとする。
302では、トレーニングデータを使用して、既存の音響モデルに対してモデルパラメータを最適化する。
トレーニングセットが
Figure 2022537000000029
であると仮定し、
これは、N個のトレーニングサンプルがあり、Xは第i番目の音声サンプルであり、Zは対応的な音素であることを示す。1つの音声サンプルの入力は一つのシーケンスであり、出力音素情報も一つのシーケンスである。
本願は、音響モデルの構造を制限しておらず、例えば、図4に示すように、Bi-LSTM(Bi-directional Long Short-Term Memory、双方向長短期記憶)+CTC(Connectionist temporal classification、時系列分類)などのモデル構造を使用できる。
トレーニングターゲットは、CTCによって出力される音素シーケンスが、トレーニングサンプルの対応的な音素ラベルに準拠することである。トレーニングターゲットを使用して損失関数を作成でき、損失関数の結果に応じてモデルパラメータを最適化できる。すでに優れた音響モデルがあるため、特定の領域のみで改善の余地がある。したがって、地理位置ポイントについて、トレーニングデータの重点は、地理位置ポイントを含む音声とそれに対するマーキングである。したがって、この部分のトレーニングデータを使用して、fine-tuningのみを実行できる。つまり、既存の音響モデルのモデルパラメータに基づいて、この部分のトレーニングデータを使用してモデルパラメータを最適化する。元の音響モデルの重みが平滑化されているため、重みを歪める必要がなく、トレーニングプロセス中に既存の音響モデルの学習率が低下する。
言語モデルの場合、その役割は、同一音声近似音声の問題を排除することとして理解できる。音素シーケンスが音響モデルを提供した後、最も確率の高い文字列シーケンスが候補テキストシーケンスから検出される。本願では、言語モデルのトレーニングプロセスで使用されるトレーニングサンプルは、地理位置ポイント辞書を使用して拡張でき、音声モデルのトレーニングは、例えばRNNモデルを使用して実行できる。ここではあまり説明しない。
以上の処理により、音声認識効果が大幅に向上した。特に、わずかに頻度の低い地理位置ポイントの名称について、認識の正確性が大幅に向上する。
語意理解
語意理解の目標は、テキスト情報を、機械で処理できる語意表現に変換し、通常は構造化情報として具体化されることである。同じ意味を表現する方式は多くにあるので、機械にとって、文の各単語の正確な意味を理解することは重要ではなく、文の意味を理解することが重要である。例えば、「私の家は幸福スーパーマーケットである」、「私の店の名称は幸福スーパーマーケットである」、「私の店名は幸福スーパーマーケットである」などはすべて、ユーザのストアの名称が「幸福スーパーマーケット」であるという1つの意味を表する。「幸福スーパーマーケット」という構造化情報を特定する必要がある。
本願の実施例では、ユーザの音声応答テキストについて、主に、ユーザ意図情報および/または検証されるオブジェクト情報を識別する。2種類の情報を識別することを例とする。この部分の実現は、実際に、図1で説明されている内容である。すなわち、前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を、予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力されたユーザ意図情報および/または検証されるオブジェクト情報を取得する。
本願の実施例で提供される語意理解モデルは、埋込層、時系列モデリング層、マッピング層、および予測層を含み得る。図5は、本願の実施例によって提供される語意理解モデルの概略図である。
図面にWord Embeddingsとして示される埋込層は、音声応答テキストの各キャラクターと、各キャラクターに対応する注音符号情報をエンコードする。本願では、漢字の場合、使用される注音符号情報はピンインまたは他の形式の注音符号情報であることができる。図5では、ピンインを例にとると、各文字のピンインをエンコードすることで、同音異義語による不正確な音声認識の問題を効果的に排除できる。語意理解では、音声認識の結果が不正確であっても、ユーザ意図情報および検証されるオブジェクト情報を正しく認識することができる。
時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の語意依存関係を学習する。図5では、Bi-LSTMを例とする。
マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得する。図5のマッピング層は、Softmaxを例とする。
予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクト情報を予測する。図5の予測層の実現では、Softmax+CRF層を例とする。
マッピング層と予測層は、それぞれユーザ意図認識タスクと検証されるオブジェクト情報予測タスクであり、どちらか一方のみを実現する場合は、マッピング層と予測層の一方のみを使用すればよい。
ユーザが入力したS=w、w、w ...、wというセンテンスの場合、wはセンテンスのi番目のキャラクターを示し、Tはセンテンスの長さを示す。各単語は、単語ベクトルを使用してe(w)として表される。入力シーケンスがxであると仮定すると、予測層の出力シーケンスはyとして示される。
Bi-LSTM層は、順方向出力と逆方向出力にスプライシング方式を採用している。したがって、xを入力し、対応的な隠し層の出力
Figure 2022537000000030
は次のように表される。
Figure 2022537000000031
予測層の出力
Figure 2022537000000032
とマッピング層の出力
Figure 2022537000000033
は次のとおりである。
Figure 2022537000000034
Figure 2022537000000035
それらの中には、hは隠しベクトルの最大プーリングの結果である。
Figure 2022537000000036
、w、b、およびbはモデルパラメータである。
図5から、「軍隊(対応中国語である「部隊」のピンインはbudui)、私は永楽スーパーマーケットです」という音声認識結果について、各キャラクターと各キャラクターの音声に対してEmbeddingを行った後に、Bi-LSTMを介して隠しベクトルが出力され、マッピング層が隠しベクトルの最大のプーリング結果を使用し、ユーザ意図情報が否定的であることをマッピングによって取得する(図ではdenyで示されている)。予測層は各時系列の隠しベクトルを使用して予測し、POIの名称が「永楽スーパーマーケット」であることを取得する。図のCRFによって出力される各キャラクターのラベルに、B_POIはPOIの開始キャラクターを示し、I_POIはPOIの中間キャラクターを示し、E_POIはPOIの終了キャラクターを表する。革新的に各文字のピンイン入力を導入した場合、音声認識結果が間違っていても、即ち、「違い(対応中国語である「不対」のピンインbudui)」を「軍隊(対応中国語である「部隊」のピンインはbudui)」に誤認しても、この語意理解モデルに基づいて、ユーザの意図が否定であると正しく識別することできる。
図6は、本願の実施例によって提供される語意理解モデルをトレーニングする方法のフローチャートである。図6に示されるように、この方法は、以下のステップを含み得る。
601では、トレーニングデータが取得され、トレーニングデータは、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、音声応答テキストのユーザ意図情報、および/または検証されるオブジェクトの情報を含む。
データの人工マーキングのコストが高く効率が低いため、ここでは機械により人工を支援して、データをマーキングすることを考える。このシナリオでは、ユーザが表現する文の形式は比較的類似しており、逆に、ノイズ、音声認識などの問題によるさまざまな間違いの認識結果である。この特殊的なデータ分布を考慮して、本願の実施例は、半教師あり方法を提案し、具体的な方法は以下の通りである。
まず、同じ音声問い合わせに対して、高周波音声応答テキストが取得され、人工でマーキングされてから、シードサンプルが取得される。
つまり、「すみません、あなたの家は***であるか」などの同じ質問のそれぞれについて、まず、高頻度のユーザ応答テキストにマーキングし、例えばPOI名称という地理位置ポイント情報をマーキングすることを含む。
次に、シードサンプルを使用して、履歴データベース内のオブジェクト情報によって一般化された音声応答テキストについて、類似性をクラスター化する。
例えば、マーキングの結果に従って、POI名称に対して一般化およびクラスター化を行う。
「はい、私の家は[POI-NAME]である」という一般化結果に対応するマーキングは、confirm(POI_NAME)であり、
「はい、[POI-NAME]である」という一般化結果に対応するマーキングは、confirm(POI_NAME)であり、
「正しい」という一般化結果に対応するマーキングは、confirm()であり、
「私の家は名称を[POI-NAME]に変更した」という一般化結果に対応するマーキングは、deny(POI_NAME)である。
クラスタリングプロセスでは、類似性の計算により、単語ベクトルやピンインの類似性などの特徴が導入される可能性がある。
最後に、クラスタリング結果に従って、各ユーザの意図情報に対応する音声応答テキストがトレーニングデータとして取得される。
602において、トレーニングデータにおける語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされたユーザ意図情報および/または検証されるオブジェクト情報を前記語意理解モデルのターゲット出力とし、語意理解モデルをトレーニングする。
語意理解モデルの構造は、図5に示されている。ユーザ意図認識と検証されるオブジェクト情報認識という2つのタスクがあるため、この2つのタスクは個別にまたは共同でトレーニングできる。2つのタスクの間には大きく関連しているため、共同トレーニングの効果がよく、共同トレーニングの方式が推奨される。
ユーザの意図認識の損失関数は、クロスエントロピーの形式を採用することができ、次のように表される。
Figure 2022537000000037
それらの中で、
Figure 2022537000000038
は対応的な実際のユーザの意図を表す。
検証されるオブジェクト情報の識別は、CRFの損失関数を直接再利用できる。CRF損失関数は、実際のパスのスコアとすべてのパスの合計スコアという2つの部分で構成される。実際のパスのスコアは、すべてのパスの中で最高のスコアであるべきである。
パスのスコアを計算式は以下の通りである。
Figure 2022537000000039
上記式の文字の上付きは、対応的な入力シーケンスのi番目のキャラクターを表し、文字の下付きは、このi番目のキャラクターのm番目のシーケンスを示している。Pはラベルを
Figure 2022537000000040
から
Figure 2022537000000041
に遷移する遷移スコア値を表す遷移行列である。
各シーケンスのスコアは上記式のように計算できる。正しいラベルシーケンスのスコアを最大化するだけでよいため、損失関数は次のように定義される。
Figure 2022537000000042
ここで、
Figure 2022537000000043
、y’はすべての可能なシーケンスである。
次に、上記2つの損失関数を使用して、ジョイント損失関数を計算する。ジョイント損失関数は、上記
Figure 2022537000000044

Figure 2022537000000045
を重み付けすることで取得できる。
上記の処理の後、語意理解の正確性が向上する。但し、検証されるオブジェクトの情報は依然として不正確である可能性がある。例えば、「永楽スーパーマーケット」というPOI名称は正しい可能性が高い。しかし、時間と空間のシナリオによっては、「勇楽スーパーマーケット」、「涌楽スーパーマーケット」などの場合がある。この状況を解決するために、検証されるオブジェクト情報を検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にさらにチェーンフィンガーすることができる。例えば、POI名称をPOI知識ライブラリのPOI名称にチェーンフィンガーする。
具体的には、ドメイン知識ライブラリを事前に構築することができ、この知識ライブラリは、名称、タイプ、アドレス、座標、連絡先情報などの地理位置ポイント情報を含むことができる。次に、取得した地理位置ポイント情報について、音声類似性、テキスト類似性、属性類似性の少なくとも1つに基づいて、検証されるオブジェクト情報をドメイン知識ライブラリに分類し、検証されるオブジェクトをドメイン知識ライブラリにチェーンフィンガーする。チェーンフィンガーされたオブジェクト情報が決定されると、決定されたオブジェクト情報で検証されたオブジェクト情報を更新する。その中、上記の分類を行う場合、実際には、予め構築された分類器を使用して上記の語意理解によって決定された検証されるオブジェクト情報を分類する。この分類器によって分類されるカテゴリは、ドメイン知識ライブラリ内の既存の各地理位置ポイントである。つまり、分類器が語意理解されて得られる検証されるオブジェクトがドメイン知識ライブラリ内の既存の各地理位置ポイントに属する確率を計算し、この確率に応じて検証されるオブジェクトがドメイン知識ライブラリ内の既存の地理位置ポイントにチェーンフィンガーされているかどうか、及びチェーンフィンガーされた場合、具体的にどの地理位置ポイントにチェーンフィンガーするかと決定する。
例えば、図7に示すように、語意理解して得られた「永楽スーパーマーケット」は、ユーザが取得した「永楽スーパーマーケット」の音声、テキスト、アドレス、座標などの情報を、ドメイン知識ライブラリ内の既存の各地理的位置に分類する。最終的に「勇楽スーパーマーケット」に分類される確率が最も高く、事前に設定された閾値を超えていることが判明した場合、語意理解して得られた「永楽スーパーマーケット」は「勇楽スーパーマーケット」に修正される。その中で、分類する時にGBDT(Gradient Boosting Decision Tree、勾配ブースティング決定木)アルゴリズムを使用できる。
上記のチェーンフィンガー処理により、語意理解して得られた検証されるオブジェクト情報をより正確にすることができる。
対話管理
対話管理とは、語意理解の結果と対話の文脈に基づいて次の応答を決定することである。重点は、最終的な正しい検証結果を期待するように、対話の状態を維持することによってユーザとの対話を決定することである。
上記の語意理解プロセスの後、正しい結果が認識される可能性が高い。但し、POIが新たに追加された場合、それが完全に正しいということを保証することができない。また、語意理解が適切でない場合もあり、その結果、得られた地理位置ポイント情報は正しくない。これに基づいて、マルチラウンド対話に基づくメカニズムを導入して、検証されるオブジェクトの正確性をユーザに確認することができる。
具体的には、語意理解して得られた地理位置ポイントの名称について、地理位置ポイントの名称に含まれるキャラクター情報についての音声問い合わせをユーザへ送信し、ユーザがフィードバックした音声応答テキストにより、音声認識および語意理解などを通じてユーザ意図情報を取得し、ユーザの意図情報に基づいて、前述の地理位置ポイントの名称の正確性が決定される。
例えば、上記の語意理解により、地理位置ポイントの名称「勇楽スーパーマーケット」を取得し、「勇敢の勇、歓楽中の楽であるか」と問うことができる。ユーザからの回答が「はい」であり、つまりユーザの意図が肯定であると、語意理解によって得られた地理位置ポイントの名称の正確性を決定する。ユーザが「いいえ」と答えた場合、つまりユーザの意図が否定である場合、語意理解して得られた地理位置ポイントの名称が間違っていると決定される。さらに、正しい地理位置ポイントの名称を取得するようにユーザに問い合わせることができる。
また、ユーザの音声応答を正確に認識できたとしても、不信感やからかいなどの理由で、故意にスマート検証装置を騙すユーザが多い。この問題に対応して、本願ではポリグラフメカニズムが導入された。ポリグラフメカニズムは、アクティブポリグラフメカニズムおよびパッシブポリグラフメカニズムを含むことができる。
アクティブポリグラフメカニズムには、結果が明確にわかっている内容についてユーザへ音声で問い合わせ、ユーザがフィードバックした音声応答を取得し、音声認識と語意理解を実行した後、ユーザの意図情報と検証されるオブジェクト情報を、明確された結果と比較し、一致になると、ユーザがポリグラフテストに合格すると判断され、そうでない場合、ユーザがポリグラフテストに不合格と判断されることが含まれる。ポリグラフテストに合格しなかったユーザからの音声応答テキストは受け付けられない。
言い換えれば、ユーザへ結果が未知である内容について音声で問い合わせすることに加えて、結果が明確に知られている内容についてもユーザへ音声で問い合わせする。結果が明確にわかっている内容に対するユーザの音声応答を通じて、ユーザが嘘をついているかどうかを判断する。
パッシブポリグラフメカニズムには、ユーザの音声応答の感情、さまざまな質問の回答遅延、および同じタイプの地理位置ポイントのビッグデータ統計結果に基づいて、ユーザが嘘をついているかどうかを識別することが含まれる。
上記のポリグラフメカニズムにより、ユーザがフィードバックした内容の正確性をさらに確保することができ、それによりデータ検証の正確性を確保することができる。
さらに、本願は、音声問い合わせに対してユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情に対する報認識のうちの少なくとも1つを実行することもでき、認識結果に従って、対応的な言葉を使用してユーザとフォローアップの音声対話を実行する。例えば、夕方にユーザに「こんばんは」と言い、朝にユーザに「おはよう」と言うことができる。女性の場合、ユーザに「ハロービューティー」と言うことができる。ユーザがすでに退屈している場合は、質問を減らすことができ、ユーザが満足している場合は、質問を増やすことができる。このようにして、異なるシナリオ下で異なるユーザがさまざまな言葉を使用することを実現できる。これは、より柔軟且つ人間化であり、ユーザのハングアップ率を減らし、情報検証のリコール率を向上させる。
音声合成
ユーザはロボットではなく、感情的であり、自然な音声放送はユーザの協力において非常に重要な役割を果たす。音声合成が非常に悪い場合、ユーザは直接電話を切ることになり、情報検証の正常な進行に影響を及ぼす。音声合成をより自然にするために、音声合成モデルは、人工カスタマーサービスがユーザに情報検証を行う音声と、対応的なマーキングテキストを予めトレーニングすることによって取得できる。マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる。
時間情報と地理位置ポイント情報を除いて、地理位置ポイント情報の検証について、他の言葉は基本的に限定されたセットである。但し、既存の音声合成サービスは、時間情報や地理位置ポイント情報のブロードキャストにはかなり鈍く、表現は不自然である。したがって、本願は、時間情報と地理位置ポイント情報をカスタマイズして最適化した。
以前、人工カスタマーサービスによってユーザへ情報検証を行うことに多くの音声を累積したため、美しい音声且つ明瞭な発音な人工カスタマーサービスの音声データを高品質の音声データとして選択できる。音声認識と語意理解により、高品質の音声データをテキストに変換され、地理位置ポイントの属性情報と時間情報が同時にマーキングされる。これにより、トレーニングデータとして使用されるテキストと音声のペアが生成される。
例えば:
「[幸福スーパーマーケット]ですか?」について、ボックス[]のコンテンツにはPOIの名称のラベルが付いている。
「[2020年4月2日]にオープンしますか?」について、ボックス[]の内容にはタイムラベルが付いている。
このようなトレーニングデータを通じてトレーニングされた音声合成モデルにより、地理位置ポイント情報と時間情報の音声表現が人間の表現に近くなり、流れが自然であり、美しくクリアになり、ユーザの満足度と協力度が向上する。
上記は、本願で提供される方法の詳細な説明である。本願で提供される装置は、実施例と併せて以下で詳細に説明される。
図8は、本願の実施例によって提供される音声対話に基づく情報検証装置の構造図である。図8に示されるように、この装置は、語意理解モジュール01を含み得る。さらに、リンクフィンガーモジュール02、音声認識モジュール03、音響モデルトレーニングモジュール04、対話管理モジュール05、音声合成モジュール06を含み得る。各コンポーネントモジュールの主な機能は次のとおりである。
語意理解モジュール01は、音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、音声問い合わせは、ユーザへ情報検証をする;音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、語意理解モデルによって出力された、確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を取得する。
その中、語意理解モデルは、埋込層および時系列モデリング層、ならびにマッピング層および/または予測層を含む。
埋込層は、各キャラクターと各キャラクターに対応する注音符号情報をエンコードする。
時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の意味依存関係を学習する。
マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得する。
予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する。
リンクフィンガーモジュール02は、語意理解モジュールが検証されるオブジェクト情報を取得する場合、検証されるオブジェクト情報を、検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にリンクフィンガーする。
語意理解モジュール01およびチェーンフィンガーモジュール02の機能及び実行される具体的な操作については、方法の実施例における語意理解に関する記載を参照し、ここでは繰り返さない。
音声認識モジュール03は、音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、音声応答テキストを取得する。その中で、音響モデルと言語モデルは、トレーニングプロセス中に検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する。
音響モデルトレーニングモジュール04は、人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得する;トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化する。
音声認識モジュール03および音響モデルトレーニングモジュール04の機能および具体的な操作については、方法の実施例における音声認識に関する記載を参照し、ここでは繰り返さない。
対話管理モジュール05は、マルチラウンド対話メカニズムに基づいて、検証されるオブジェクト情報の正確性をユーザに確認する、具体的には、検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせをユーザに送信することと、ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて検証されるオブジェクト情報の正確性を決定することとを含む。
対話管理モジュール05は、ユーザ意図情報および/または検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、ユーザがポリグラフテストに合格したと決定され、そうでない場合、ユーザがポリグラフテストに合格しなかったと決定され、ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しない。
対話管理モジュール05は、音声問い合わせに対してユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも1つを実行し、認識結果に従って、対応的な言葉を使用してユーザと後続の音声対話を実行する。
対話管理モジュール05の機能および実行される具体的な操作については、方法の実施例における対話管理に関する記載を参照し、ここでは繰り返さない。
音声合成モジュール06は、音声合成モデルを使用して音声問い合わせを生成し、その中で、音声合成モデルは、人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストを予めトレーニングすることによって取得し、マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる。
音声合成モジュール06の機能および実行される具体的な操作については、方法の実施例における対話管理に関する記載を参照し、ここでは繰り返さない。
図9は、本願の実施例によって提供される語意理解モデルをトレーニングするための装置の構造図である。図9に示されるように、この装置は、データ取得モジュール11およびモデルトレーニングモジュール12を含む。各コンポーネントモジュールの主な機能は次のとおりである。
データ取得モジュール11は、トレーニングデータを取得する。トレーニングデータは、音声問い合わせに対してユーザがフィードバックする音声応答テキスト、音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含む。
モデルトレーニングモジュール12は、トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、語意理解モデルをトレーニングする。注音符号情報には中国語ピンインが含まれ、他の注音符号情報も使用される場合がある。
具体的には、データ取得モジュール11は、同じ音声問い合わせに対して高周波音声応答テキストを取得し、それを人工でマーキングしてシードサンプルを取得することができ、シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行し、クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得する。
具体的には、語意理解モデルは、埋込層および時系列モデリング層、ならびにマッピング層および/または予測層を含む。
埋込層は、各キャラクターと各キャラクターに対応する注音符号情報をエンコードする。
時系列モデリング層は、埋込層に対応するエンコード結果を使用して、各キャラクター間の意味依存関係を学習する。
マッピング層は、時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得する。
予測層は、時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する。
本願の実施例によれば、本願はまた、電子デバイスおよび読み取り可能な記憶媒体を提供した。
図10に示すように、本願の実施例による方法による電子デバイスのブロック図である。電子デバイスは、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、その他の適切なコンピューターなど、各種の形式のデジタルコンピューターを表すことを目的としている。電子デバイスは、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなどの各種の形式のモバイルデバイスを表すこともできる。本明細書に示される部品、それらの接続および関係、ならびにそれらの機能は単なる例であり、本明細書に記載および/または要求とされる本願の実現を制限することを意図するものではない。
図10に示すように、当該電子デバイスは、1つまたは複数のプロセッサ1001、メモリ1002、および高速インターフェースおよび低速インターフェースを含む様々な部品を接続するためのインターフェースを含む。各部品は、異なるバスを使用して相互に接続されており、共通のマザーボードにインストールすることも、必要に応じて他の方法でインストールすることもできる。プロセッサは、外部入力/出力デバイス(インターフェースに結合された表示デバイスなど)にGUIのグラフィック情報を表示するための、メモリ内またはメモリ上に格納された命令を含む、電子デバイスで実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを、複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続することができ、各デバイスは一部の必要な操作を提供する(例えば、サーバーアレイ、ブレードサーバーのグループ、またはマルチプロセッサシステムとして)。図10では、一つのプロセッサ1001が例として取り上げられている。
メモリ1002は、この出願によって提供される非一時的なコンピュータ可読記憶媒体である。ここで、少なくとも1つのプロセッサは、この出願で提供される方法を実行するように、メモリは、少なくとも1つのプロセッサによって実行可能な命令を格納する。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータ命令を格納し、当該コンピュータ命令は、本願によって提供される方法をコンピュータに実行させる。
非一時的なコンピュータ可読記憶媒体とするメモリ1002は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムとモジュール、および本願実施例中の方法に対応するプログラム命令/モジュールを格納することができる。プロセッサ1001は、メモリ1002に格納された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することによって、サーバーの様々な機能的アプリケーションおよびデータ処理を行なう。すなわち、前述の方法の実施例中の方法を実現する。
メモリ1002は、オペレーティングシステムと少なくとも1つの機能によって必要とされるアプリケーションプログラムを記憶するプログラム領域および電子デバイスの使用により作成されたデータを記憶する記憶データ領域を含み得る。また、メモリ1002は、少なくとも1つの磁気ディスク記憶装置、フラッシュ記憶装置、または他の非一時的ソリッドステート記憶装置などの高速ランダムアクセスメモリを含み得る。いくつかの実施例では、メモリ1002は、任意選択で、プロセッサ1001に対して遠隔的に設置されるメモリを選択的に含み、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。前述のネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
この電子デバイスは、入力デバイス1003および出力デバイス1004をさらに含み得る。プロセッサ1001、メモリ1002、入力デバイス1003、および出力デバイス1004は、バスによって、または他の方法で接続することができる。図10には、バスによる接続ことを例とする。
入力デバイス1003は、入力データまたは文字情報を受信し、タッチスクリーン、キーパッド、マウス、トラックパッドなどのこの電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスである。出力装置1004は、表示デバイス、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施例では、ディスプレイデバイスは、タッチスクリーンであり得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行および/または解釈される1つまたは複数のコンピュータプログラムに実施されることを含み得る。当該プログラム可能なプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令をこのストレージシステム、少なくとも1つの出力デバイス及び少なくとも1つの入力デバイスに送信することができる専用または一般的なプログラマブルプロセッサであり得る。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラム可能なプロセッサのデバイス命令が含まれ、高水準プロセスおよび/または対象指向プログラミング言語、および/またはアセンブリ/デバイス言語を利用してこれらの計算プログラムを実施する。本明細書で使用される場合、「デバイス可読媒体」および「コンピュータ可読媒体」という用語は、プログラム可能なプロセッサの任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD)))にデバイス命令および/またはデータを提供するために使用されることを指し、デバイス可読信号としてのデバイス命令を受信するデバイス可読メディアを含む。「デバイス可読信号」という用語は、プログラム可能なプロセッサにデバイス命令および/またはデータを提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、ここで説明するシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター))、及びユーザがコンピューターに入力を提供できるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を備えたコンピューターに実施することができる。他のタイプの装置は、ユーザとの対話を提供することに用いられる。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり、任意の形式(音響入力、音声入力、または触覚入力を含む)を用いてユーザからの入力を受信する。
本明細書に記載のシステムおよび技術は、バックエンド部品を含むコンピューティングシステム(例えば、データサーバーとして)、またはミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェイス又はWebブラウザーを備えたユーザコンピューターであり、ユーザがこのグラフィカルユーザインターフェイス又はこのWebブラウザーによりここで説明するシステムとテクノロジーの実施形態と対話することができる)、またはそのようなバックグラウンド部品を含む、ミドルウェア部品、またはフロントエンド部品の任意組み合わせのコンピューティングシステム内に実施させる。システムの部品は、デジタルデータ通信の任意の形式または媒体(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
コンピュータシステムには、クライアントとサーバーを含めることができる。クライアントとサーバーは通常、互いに遠く離れており、通常は通信ネットワークを介して対話する。クライアントとサーバーの関係は、相応的なコンピューター上で実行され、相互にクライアント-サーバー関係を持つコンピュータプログラムによって生成される。
上記の各種の形式のプロセス、再並べ替え、追加、または削除のステップを使用することができると理解すべきである。例えば、本願に記載されている各ステップは、並行して、順次に、または異なる順序で実行することができるが、本願に開示されている技術案の所望の結果が達成できる限り、本明細書にはこれに限定されない。
上記の具体的な実施形態は、本願の保護範囲を制限するものを構成していない。当業者は、様々な修正、組み合わせ、サブ組み合わせおよび置換が、設計要件および他の要因に従って行うことができることを理解する必要がある。本願の精神と原則の範囲内で行われた変更、同等の交換、および改善は、本願の保護範囲に含まれるべきである。

Claims (30)

  1. ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することと、
    前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得することと、を含む
    音声対話に基づく情報検証方法。
  2. 前記注音符号情報は、中国語のピンインを含む
    請求項1に記載の方法。
  3. 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層、および/または予測層を含み、
    前記埋込層は、前記各キャラクターと、各キャラクターに対応する注音符号情報をエンコードし、
    前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の語意依存関係を学習し、
    前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザ意図情報をマッピングして取得し、
    前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクト情報を予測する
    請求項1に記載の方法。
  4. 前記検証されるオブジェクト情報を取得すると、前記検証されるオブジェクト情報を前記検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にチェーンフィンガーすること、をさらに含む
    請求項1に記載の方法。
  5. 前記検証されるオブジェクト情報を前記検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にチェーンフィンガーすることは、
    前記検証されるオブジェクトを前記ドメイン知識ライブラリにチェーンフィンガーすると決定するように、音声類似性、テキスト類似性、属性類似性の少なくとも1つに基づいて、前記検証されるオブジェクト情報を前記ドメイン知識ライブラリに分類することと、
    チェーンフィンガーされたオブジェクト情報が決定されると、決定されたオブジェクト情報で前記検証されたオブジェクト情報を更新することと、を含む
    請求項4に記載の方法。
  6. 前記音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得することは、
    音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、前記音声応答テキストを取得することを含み、
    前記音響モデルと前記言語モデルは、トレーニングプロセス中に前記検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する
    請求項1に記載の方法。
  7. 前記音響モデルは、
    人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得することと、
    前記トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化することと、により予めトレーニングして取得られる
    請求項6に記載の方法。
  8. マルチラウンド対話メカニズムに基づいて、前記検証されるオブジェクトの正確性をユーザに確認することを、さらに含む
    請求項1に記載の方法。
  9. マルチラウンド対話メカニズムに基づいて、前記検証されるオブジェクトの正確性をユーザに確認することは、
    前記検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせを前記ユーザに送信することと、
    前記ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて、前記検証されるオブジェクト情報の正確性を決定することと、を含む
    請求項8に記載の方法。
  10. 前記ユーザ意図情報および/または前記検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、前記ユーザがポリグラフテストに合格したと決定され、そうでない場合、前記ユーザがポリグラフテストに合格しなかったと決定されることと、
    ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しないことと、をさらに含む
    請求項1に記載の方法。
  11. 音声問い合わせに対して前記ユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも1つを実行することと、
    認識結果に従って、対応的な言葉を使用して前記ユーザと後続の音声対話を実行することと、をさらに含む
    請求項1に記載の方法。
  12. 音声合成モデルを使用して前記音声問い合わせを生成することと、
    前記音声合成モデルが人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストが予めトレーニングすることによって取得され、前記マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれることと、をさらに含む
    請求項1に記載の方法。
  13. 前記検証されるオブジェクト情報は、地理位置ポイント情報を含む
    請求項1~12のいずれか一つ項に記載の方法。
  14. 音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得することと、
    トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングすることと、を含む
    語意理解モデルをトレーニングする方法。
  15. 前記トレーニングデータを取得することは、
    同じ音声問い合わせに対して高周波音声応答テキストを取得し、人工でマーキングしてシードサンプルを取得することと、
    シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行することと、
    クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得することと、を含む
    請求項14に記載の方法。
  16. 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層および/または予測層を含み、
    前記埋込層は、前記各キャラクターと各キャラクターに対応する注音符号情報をエンコードし、
    前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の意味依存関係を学習し、
    前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得し、
    前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する
    請求項14に記載の方法。
  17. 語意理解モジュールを含み、
    前記語意理解モジュールは、
    ユーザへの情報検証のための音声問い合わせに対してユーザがフィードバックする音声応答テキストを取得し、
    前記音声応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を予めトレーニングされた語意理解モデルに入力し、前記語意理解モデルによって出力された、確認、拒否、回答、または質問を含めるユーザ意図情報および/または検証されるオブジェクト情報を取得する
    音声対話に基づく情報検証装置。
  18. 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層および/または予測層を含み、
    前記埋込層は、前記各キャラクターと各キャラクターに対応する注音符号情報をエンコードし、
    前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の意味依存関係を学習し、
    前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得し、
    前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する
    請求項17に記載の装置。
  19. 前記語意理解モジュールが前記検証されるオブジェクト情報を取得すると、前記検証されるオブジェクト情報を前記検証されるオブジェクトが属するドメイン知識ライブラリ内のオブジェクト情報にチェーンフィンガーするためのチェーンフィンガーモジュールをさらに含む
    請求項17に記載の装置。
  20. 音響モデルおよび言語モデルを使用して、音声問い合わせに対してユーザがフィードバックする音声応答に対して音声認識を実行し、前記音声応答テキストを取得するための音声認識モジュールをさらに含み、
    前記音響モデルと前記言語モデルは、トレーニングプロセスに前記検証されるオブジェクトが属するオブジェクトタイプの辞書データを導入する
    請求項17に記載の装置。
  21. 人工カスタマーサービスがユーザに情報検証を実行するための音声および対応的なマーキングテキストを使用して、トレーニングデータを取得し、
    前記トレーニングデータを使用して、学習率を低下させる既存の音響モデルにモデルパラメータを最適化するための音響モデルトレーニングモジュールをさらに含む
    請求項20に記載の装置。
  22. 検証されるオブジェクト情報に含まれる文字情報に対する音声問い合わせを前記ユーザに送信することと、
    前記ユーザがフィードバックした音声応答テキストのユーザ意思情報に基づいて検証されるオブジェクト情報の正確性を決定することと、を具体的に備える、
    マルチラウンド対話メカニズムに基づいて、前記検証されるオブジェクトの正確性をユーザに確認する対話管理モジュールをさらに含む、
    請求項17に記載の装置。
  23. 前記ユーザ意図情報および/または前記検証されるオブジェクト情報を、明確した結果と比較し、一致している場合、前記ユーザがポリグラフテストに合格したと決定され、そうでない場合、前記ユーザがポリグラフテストに合格しなかったと決定され、
    ポリグラフテストに合格しなかったユーザがフィードバックした音声応答テキストを採用しないための対話管理モジュール、をさらに含む
    請求項17に記載の装置。
  24. 音声問い合わせに対する前記ユーザがフィードバックする音声応答に対して、感情認識、ユーザ属性認識、および現在の時空間情報の認識のうちの少なくとも1つを実行し、
    認識結果に従って、対応的な言葉を使用して前記ユーザと後続の音声対話を実行するための対話管理モジュール、をさらに含む
    請求項17に記載の装置。
  25. 音声合成モデルを使用して前記音声問い合わせを生成するための音声合成モジュールをさらに含み、
    前記音声合成モデルは、人工カスタマーサービスを使用してユーザに情報検証を実行する音声および対応的なマーキングテキストをトレーニングすることによって取得され、前記マーキングテキストには、検証されるオブジェクトが属するオブジェクトタイプの属性情報のマーキングおよび/または時間情報が含まれる
    請求項17に記載の装置。
  26. 音声問い合わせに対してユーザがフィードバックする音声応答テキスト、前記音声応答テキストに対するユーザ意図情報および/または検証されるオブジェクト情報のマーキングを含むトレーニングデータを取得するためのデータ取得モジュールと、
    トレーニングデータ内の語意応答テキストの各キャラクターおよび各キャラクターに対応する注音符号情報を音声理解モデルの入力とし、マーキングされた確認、拒否、回答、または質問を含むユーザ意図情報および/または検証されるオブジェクト情報を語意理解モデルのターゲットの出力とし、前記語意理解モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
    語意理解モデルをトレーニングする装置。
  27. 前記データ取得モジュールは、具体的に
    同じ音声問い合わせに対して高周波音声応答テキストを取得し、人工でマーキングしてシードサンプルを取得することと、
    シードサンプルを使用して、履歴データベース中のオブジェクト情報によって一般化された音声応答テキストに類似性クラスタリングを実行することと、
    クラスタリング結果により、各ユーザ意図情報に対応する音声応答テキストをトレーニングデータとして取得することと、に用いられる
    請求項26に記載の装置。
  28. 前記語意理解モデルは、埋込層、時系列モデリング層、マッピング層および/または予測層を含み、
    前記埋込層は、前記各キャラクターと各キャラクターに対応する注音符号情報をエンコードし、
    前記時系列モデリング層は、前記埋込層に対応するエンコード結果を使用して、前記各キャラクター間の意味依存関係を学習し、
    前記マッピング層は、前記時系列モデリング層によって出力された隠しベクトルの最大プーリング結果を使用して、ユーザの意図情報をマッピングして取得し、
    前記予測層は、前記時系列モデリング層によって出力された各時系列の隠しベクトルを使用して、検証されるオブジェクトの情報を予測する
    請求項26に記載の装置。
  29. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~16のいずれか一項に記載の方法を実行させる命令を記憶する
    電子デバイス。
  30. コンピュータに請求項1~16のいずれか一項に記載の方法を実行させるコンピュータ命令を記憶する
    非一時的なコンピュータ読み取り可能な記憶媒体。
JP2021536284A 2020-05-22 2020-11-25 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム Active JP7266683B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010440069.1A CN111696535B (zh) 2020-05-22 2020-05-22 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN202010440069.1 2020-05-22
PCT/CN2020/131317 WO2021232725A1 (zh) 2020-05-22 2020-11-25 基于语音交互的信息核实方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
JP2022537000A true JP2022537000A (ja) 2022-08-23
JP7266683B2 JP7266683B2 (ja) 2023-04-28

Family

ID=76865363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536284A Active JP7266683B2 (ja) 2020-05-22 2020-11-25 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220335936A1 (ja)
EP (1) EP3940693A4 (ja)
JP (1) JP7266683B2 (ja)
KR (1) KR20210087098A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849785B (zh) * 2021-07-29 2024-01-30 国家计算机网络与信息安全管理中心 针对应用程序的移动终端信息资产使用行为识别方法
CN113838461B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 智能语音交互方法、装置、设备和计算机存储介质
CN114281960A (zh) * 2021-11-11 2022-04-05 国网江苏省电力有限公司连云港供电分公司 一种电力需求侧语音交互方法和系统
CN116583820A (zh) * 2021-12-10 2023-08-11 华为技术有限公司 语音交互的方法和装置
CN115171676A (zh) * 2022-05-30 2022-10-11 青岛海尔科技有限公司 意图行为的确定方法和装置、存储介质及电子装置
CN115514550A (zh) * 2022-09-15 2022-12-23 中国电信股份有限公司 基于语音声调的交互验证方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
JP2016042293A (ja) * 2014-08-18 2016-03-31 株式会社デンソー 情報提案システム
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1692626A4 (en) * 2003-09-17 2008-11-19 Ibm IDENTIFICATION OF RELATED NAMES
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
KR102623727B1 (ko) * 2018-10-29 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN110298150B (zh) * 2019-05-29 2021-11-26 上海拍拍贷金融信息服务有限公司 一种基于语音识别的身份验证方法及系统
US11861674B1 (en) * 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
JP2016042293A (ja) * 2014-08-18 2016-03-31 株式会社デンソー 情報提案システム
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法

Also Published As

Publication number Publication date
US20220335936A1 (en) 2022-10-20
KR20210087098A (ko) 2021-07-09
EP3940693A4 (en) 2022-03-23
JP7266683B2 (ja) 2023-04-28
EP3940693A1 (en) 2022-01-19

Similar Documents

Publication Publication Date Title
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
US10210861B1 (en) Conversational agent pipeline trained on synthetic data
US10176804B2 (en) Analyzing textual data
US11450311B2 (en) System and methods for accent and dialect modification
CN111883110A (zh) 语音识别的声学模型训练方法、系统、设备及介质
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US11093110B1 (en) Messaging feedback mechanism
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
Kadyan et al. Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
US11907665B2 (en) Method and system for processing user inputs using natural language processing
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
Alrumiah et al. Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
US20220277732A1 (en) Method and apparatus for training speech recognition model, electronic device and storage medium
Wang et al. Multi-step spoken language understanding system based on adversarial learning
Wang et al. An adversarial learning based multi-step spoken language understanding system through human-computer interaction
CN112346696B (zh) 虚拟助理的语音比较
CN113555006B (zh) 一种语音信息识别方法、装置、电子设备及存储介质
CN112767923B (zh) 一种语音识别方法及装置
US20240153508A1 (en) End-to-End Speech Recognition Adapted for Multi-Speaker Applications
US20230186898A1 (en) Lattice Speech Corrections

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230418

R150 Certificate of patent or registration of utility model

Ref document number: 7266683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150