JP2021125217A - マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積 - Google Patents

マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積 Download PDF

Info

Publication number
JP2021125217A
JP2021125217A JP2020160062A JP2020160062A JP2021125217A JP 2021125217 A JP2021125217 A JP 2021125217A JP 2020160062 A JP2020160062 A JP 2020160062A JP 2020160062 A JP2020160062 A JP 2020160062A JP 2021125217 A JP2021125217 A JP 2021125217A
Authority
JP
Japan
Prior art keywords
question
vector representation
response
module
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020160062A
Other languages
English (en)
Inventor
グライ クェンテン
Grail Quentin
グライ クェンテン
パレス ジュリエン
Perez Julien
パレス ジュリエン
ゴーシエ エリック
Gauthier Eric
ゴーシエ エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2021125217A publication Critical patent/JP2021125217A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書から抽出した情報に基づき質問に応答する質問応答システム及び質問応答方法を提供する。
【解決手段】質問応答システムは、複数の単語を含む質問Qを第1ベクター表現でエンコーディングする第1エンコーダモジュールと、複数の単語を含む文書Dを第2ベクター表現でエンコーディングする第2エンコーダモジュールと、第1ベクター表現および第2ベクター表現に基づいて第3ベクター表現を生成するように構成された第1読み取りモジュールと、第1ベクター表現に基づいて再定式化されたベクター表現を生成するように構成された再定式化モジュールと、第2ベクター表現および再定式化されたベクター表現に基づいて第5ベクター表現を生成するように構成された第2読み取りモジュールと、再定式化されたベクター表現に基づいて質問に対する応答を決定するように構成された応答モジュールと、を含む。
【選択図】図5

Description

<関連出願に対する相互参照>
本出願は2020年2月6日付出願された米国仮出願番号第62/971、100号の利益を主張する。参照された出願の全体の開示内用は本明細書に参照として含まれる。
<技術分野>
本開示内容は質問応答システムおよび方法に関し、より詳細には、ニューラルネットワーク、アテンションメカニズム(attention mechanism)および双方向ゲートリカレントユニット(bidirectional gated recurrent unit)を使うマルチホップ質問応答に関する。
本明細書に提供された発明の背景となる技術説明は本開示の内容を一般的に提示するためのものである。本技術背景セクションに記述された範囲で、本発明の発明者等の研究だけでなく、出願当時の従来技術として認められない本説明の様態は、本開示内容に対する先行技術として明示的にもまたは暗示的にも認められない。
CNN/Daily Mail、SQuADおよびMSMARCOのような大規模データセットの出現は人間読み取り者などの性能を上回り得る機械読み取りモデルの開発を促進した。これとは別途に、音声アシスタントの広範囲な使用は質問応答タスクが実生活の応用と関連するようにした。画面基盤の検索エンジンとは異なり、音声アシスタントはインターネットで検索されたデータに基づいて使用者質問に応答するのに使われる。
大きなコーパスから関連情報を自動で抽出する能力は難しいことである。質問応答のタスクはニューラルアーキテクチャの読解能力を評価するためのプロキシタスクとして使われ得る。質問応答は単一ホップ抽出機械読み取りに基づくことができる。これは若干の文章が含まれ得る単一テキストから情報を読み取り抽出する能力を含むことができる。
単一ホップ抽出機械読み取りのタスクは次のように説明され得る:文書および関連した質問が与えられると、その質問に応答する文書の範囲を抽出すること。これは機械読み取りモデルが2個の確率分布を抽出することを伴い得る。第1確率分布は文書のそれぞれの単語が質問に応答する範囲の開始単語である確率を示すことができる。第2確率分布は文書のそれぞれの単語が質問に応答する範囲の最後の単語である確率を示すことができる。引き続き、特定の規則を違反することなくこのような確率を最大化する範囲を識別することによって、文書のいずれの範囲が質問に応答するかに関する予測が行われる。規則の例は次を含む:(a)範囲開始単語が最後の単語の前になければならず、(b)範囲があらかじめ決定された長さ(例えば、あらかじめ決定された単語の数)より長くてはならない。
これは質問と文書の文章との間に類似性が存在する場合、応答できる容易な質問に対して比較的高い正確度を達成することができる。モデルはパターンおよび指名されたエンティティを検出することを目標とすることはできるものの、推論能力が足りない恐れがある。
韓国公開特許公報第10−2008−0095203号
本開示内容はマルチホップ質問のための改善された方法およびシステムを提供する。
一特徴において、質問応答システムは、ネットワークを通じてコンピューティングデバイスから、第1複数の単語を含む質問を受信し、質問を第1ベクター表現でエンコーディングするように構成された第1エンコーダモジュール;文書(D)を第2ベクター表現でエンコーディングするように構成された第2エンコーダモジュールであって、文書は第2複数の単語を含む、第2エンコーダモジュール;第1および第2ベクター表現に基づいて第3ベクター表現を生成するように構成された第1読み取りモジュール;第1ベクター表現に基づいて質問に対する第1再定式化されたベクター表現を生成するように構成された第1再定式化モジュール;第2ベクター表現および第1再定式化されたベクター表現に基づいて第5ベクター表現を生成するように構成された第2読み取りモジュール;第1再定式化されたベクター表現に基づいて質問に対する第2再定式化されたベクター表現を生成するように構成された第2再定式化モジュール;および第2再定式化されたベクター表現に基づいて質問に対する応答を決定してネットワークを通じてコンピューティングデバイスに応答を伝送するように構成された応答モジュールを含む。
一特徴において、質問応答システムは、ネットワークを通じてコンピューティングデバイスから第1複数の単語を含む質問を受信し、質問を第1ベクター表現でエンコーディングするように構成された第1エンコーダモジュール;文書(D)を第2ベクター表現でエンコーディングするための手段であって、文書は第2複数の単語を含む、手段;第1および第2ベクター表現に基づいて第3ベクター表現を生成するための手段;第1ベクター表現に基づいて質問に対する第1再定式化されたベクター表現を生成するための手段;第2ベクター表現および第1再定式化されたベクター表現に基づいて第5ベクター表現を生成するための手段;第1再定式化されたベクター表現に基づいて質問に対する第2再定式化されたベクター表現を生成するための手段;および第2再定式化されたベクター表現に基づいて質問に対する応答を決定してネットワークを通じてコンピューティングデバイスに応答を伝送するための手段を含む。
一特徴において、質問応答方法は:一つ以上のプロセッサによって、ネットワークを通じてコンピューティングデバイスから第1複数の単語を含む質問を受信し、質問を第1ベクター表現でエンコーディングする段階;一つ以上のプロセッサによって、文書(D)を第2ベクター表現でエンコーディングする段階−文書は第2複数の単語を含む−;一つ以上のプロセッサによって、第1および第2ベクター表現に基づいて第3ベクター表現を生成する段階;一つ以上のプロセッサによって、第1ベクター表現に基づいて質問に対する第1再定式化されたベクター表現を生成する段階;一つ以上のプロセッサによって、第2ベクター表現および第1再定式化されたベクター表現に基づいて第5ベクター表現を生成する段階;一つ以上のプロセッサによって、第1再定式化されたベクター表現に基づいて質問に対する第2再定式化されたベクター表現を生成する段階;一つ以上のプロセッサによって、第2再定式化されたベクター表現に基づいて質問に対する応答を決定する段階;および一つ以上のプロセッサによって、ネットワークを通じてコンピューティングデバイスに応答を伝送する段階を含む。
一特徴において、文書を使って質問に応答するためのシステムは、A順次的なホップの複数のコンポーネントであって、第1コンポーネントホップは第2コンポーネントホップと順次カップリングされ、(a)第1コンポーネントホップは第1再定式化モジュールにカップリングされた第1読み取りモジュールを含み、(i)第1読み取りモジュールは質問および文書を受信し、文書の第1質問認識表現を第1再定式化モジュールに出力するように構成され、(ii)第1再定式化モジュールは文書の第1質問−認識表現から要素を抽出し質問の第1アップデート表現を演算するように構成され、(b)第2コンポーネントホップは第2再定式化モジュールにカップリングされた第2読み取りモジュールを含み、(i)第2読み取りモジュールは質問の第1アップデートされた表現および文書を受信し、文書の第2質問−認識表現を第2再定式化モジュールに出力するように構成され、(ii)第2再定式化モジュールは文書の第2質問認識表現から要素を抽出し、質問の第2アップデート表現を演算するように構成される、複数のコンポーネント;(B)複数の並列ヘッドであって、複数の並列ヘッドそれぞれは、A順次的なホップの複数のコンポーネントの独立的なインスタンスを含む、複数の並列ヘッド;および(C)応答モジュール;を含み、応答モジュールは複数の並列ヘッドによって出力された文書のアップデートされた表現をそれぞれ受信し;文書のアップデートされた表現に基づいて、質問に対する応答および質問に対する応答の、文書内のサポート因子を決定するように構成される。
本開示内容の追加の適用分野は、発明を実施するための具体的な内容、特許請求の範囲および図面から明白となるであろう。発明を実施するための具体的な内容および特定の例は単に例示のためのものであり、本開示内容の範囲を制限しようとするものではない。
添付された図面は実施例の原理を説明する目的で本明細書に統合されてその一部を形成する。図面は例示されて記述された実施例にのみ実施例を制限するものと解釈されてはならない。追加の特徴および利点は、添付図面に図示された通り、下記の実施例の説明およびさらに具体的な部分で明白となるであろう。
文書に基づいて質問に応答するためのニューラルネットワーク基盤機械読み取りシステムを例示するブロック図である。 文書に基づいて質問に応答するための方法を例示した機能ブロック図である。 開示された方法が遂行され得るシステムアーキテクチャの例を図示する。 質問(Q)および応答(A)を考慮した多重ホップ質問の二種類の例を含む。 図1のマルチホップモデルの例示的な具現例の機能ブロック図である。 マルチホップモデルの読み取りモジュールの例示的な具現例の機能ブロック図である。 マルチホップモデルの再定式化モジュールの例示的な具現例の機能ブロック図である。 マルチホップモデルの応答モジュールの例示的な具現例の機能ブロック図である。 例示的な質問、応答、および再定式化前後の文書の一部分を含む。 例示的な質問、応答、および再定式化前後の文書の一部分を含む。 質問応答システムの例の機能ブロック図である。 質問応答モジュールの例示的な具現例を含む機能ブロック図である。 質問を受信し、質問に対する応答を提供する例示的な方法を示したフローチャートを含む。 例示的な訓練システムの機能ブロック図である。 図面で、参照番号は類似するおよび/または同じ要素を識別するために再使用され得る。
<発明の概要>
一特徴において、情報を集計し再定式化して(reformulate)応答を生成するために、単一ホップ読み取り機が文書の結合された(concatenated)セットを順次読み取りできるようにするシステムアーキテクチャが提供される。このような順次的推論能力を処理するために、一特徴において、質問の新しい、2次元であり、固定されるように大きさが設定された潜在表現が定式化される。応答プロセスにおいて、制御器とも呼ぶことができる潜在空間で、文書の情報と質問の再定式化を相関させるアテンションメカニズムを使って質問の表現がアップデートされる。
一特徴において、文書全体にわたって情報を順次収集(すなわち、蓄積)し、それらの制御器をアップデートする多重スタック読み取りブロックを含む機械読み取りアーキテクチャが定義される。一部の実施例において、可変長テキストシーケエンスからの情報を固定大きさのマトリクスに圧縮する適応型マックスプーリング階層が提供される。一特徴において、抽出機械読み取りモデルの出力階層からアテンションベクターを演算する抽出読み取り基盤アテンションメカニズムが提供される。
一特徴において、文書に基づいて質問に応答するニューラルネットワーク基盤機械読み取りシステムが提供される。システムは:第1複数の単語を含む質問(Q)を受信するように構成された入力モジュール;質問(Q)をトークン表現Eでエンコーディングするように構成された第1エンコーダ、および第2複数の単語を含む文書(D)をトークン表現Eでエンコーディングするように構成された第2エンコーダを含む。第1エンコーダおよび第2エンコーダそれぞれは、単語レベルエンベッディング、文字レベルエンベッディング、および単語レベルエンベッディングと文字レベルエンベッディングの結合のうち一つを使う。所定個数Tの読み取りブロックが提供され、Tは1より大きい整数であり、T個の読み取りブロックはエンコーディングされた文書Eを使ってエンコーディングされた質問Eを繰り返し変換するように構成され、第1読み取りブロックはエンコーディングされた文書Eおよびエンコーディングされた質問Eを入力として受信し変換された質問Uを出力するように構成され、それぞれの後続読み取りブロックt−tは2とTの間の整数である−はエンコーディングされた文書Eおよび以前の読み取りブロックの出力Ut−1を入力として受信し変換された質問Uを出力するように構成される。応答モジュールは入力としてEおよび最終読み取りブロックの出力Uを受信し、出力としてQに対する応答を生成するように構成される。
一特徴において、システムのそれぞれの読み取りブロックtは、文書のそれぞれの単語が応答範囲の最初となる確率と文書のそれぞれの単語が応答範囲の最終となる確率を示す二つのセットの確率(P startおよびP end)をそれぞれ演算し出力するように構成された読み取り機を含み、応答範囲は質問(Q)に応答する文書(D)の単語の範囲である。
一特徴において、システムのそれぞれの読み取りブロックtは、P startおよびP endに基づいて、与えられたトークンが応答範囲の一部であるEでそれぞれの与えられたトークンに対する確率を与える確率値のベクターであるアテンションAを演算するように構成された抽出アテンションモジュールをさらに含む。
一特徴において、システムのそれぞれの読み取りブロックtはE内のそれぞれのトークンを対応する確率値Aで加重化して加重化されたEを獲得し、Ut−1および加重化されたEに基づいてUt−1をUにアップデートするように構成された制御器アップデートモジュールをさらに含む。
一特徴において、システムはEが第1読み取りブロックに供給される前に、Eを固定された数のトークンを有する表現に変換するように構成された適応型マックスプーリング階層、および加重化されたEをEの表現と同一の固定された数のトークンを有する表現に変換するように構成された、それぞれの読み取りブロックtの制御器アップデートモジュール内のさらに他の適応型マックスプーリング階層をさらに含む。
一特徴において、システムのそれぞれの読み取りブロックtの制御器アップデートモジュールは、Eの加重値トークンとUt−1の対応するトークンの結合に双方向ゲートリカレントユニットBiGRUを適用してUt−1をUにアップデートするように構成される。
一特徴において、システムの第2エンコーダはBiGRUを単語レベルエンベッディングおよび文字レベルエンベッディングの結合に適用することによって、単語レベルエンベッディングおよび文字レベルエンベッディングの結合に基づいてEを演算するように構成される。
一特徴において、システムの応答モジュールは二つのセットの確率(P startおよびP end)の値を演算するようにさらに構成され、」はい」、「いいえ」および範囲基盤応答の確率を生成するように構成された3方向分類器をさらに含む。
システムのさらに他の様態によると、生成された応答は」はい」応答、「いいえ」応答、および最も高いP startを有する文書の単語から開始して最も高いP endを有する文書の単語で終わる範囲で構成された範囲基盤応答のうち最も高い確率を有する応答である。
一特徴において、T個の読み取り機のそれぞれの読み取り機tと応答モジュールはいずれも、文書Eの表現とそれぞれの読み取り機tに対する変換された質問Ut−1または応答モジュールに対する変換された質問U間の双方向アテンション(bi−attention)を演算し、文書のセルフアテンション(self−attention)を演算するように構成され、それぞれの読み取り機tの出力(P startおよびP end)と応答モジュールによる応答出力は対応する双方向アテンションおよび読み取り機tおよび応答モジュールによって演算された対応するセルフアテンションに基づく。
一特徴において、双方向アテンションおよびセルフアテンションは次によって与えられた類似性マトリクスに基づく:
Figure 2021125217
ここでW、WおよびWは訓練可能なマトリクスであり:e :、jおよびut−1 :、jはそれぞれEの単一トークンおよび変換された質問Ut−1の単一トークンをそれぞれエンコーディングするベクターであり、「○」の中に「・」で示される演算子は要素毎の乗算を定義する。
一特徴において、使用者から受信され得る受信された質問および/または使用者に提示され得る出力応答は音声基盤であり、および/または文書および質問は技術的または医学的問題の診断と関連があり、および/または応答は自動でロボット動作をトリガーする。
一特徴において、文書に基づいて質問に応答するための方法が提供される。方法は、使用者から第1複数の単語を含む質問(Q)を受信する段階;単語レベルエンベッディング、文字レベルエンベッディング、および単語レベルエンベッディングと文字レベルエンベッディングの結合のうち一つを使って質問(Q)をトークン表現Eで、そして第2複数の単語を含む文書(D)をトークン表現Eでエンコーディングする段階;一連のT個の読み取りブロックによって、Eを使ってEを繰り返し変換する段階であって、第1読み取りブロックはエンコーディングされた文書Eおよびエンコーディングされた質問Eを入力として受信し変換された質問Uを出力し、それぞれの後続読み取りブロックtはエンコーディングされた文書Eおよび以前の読み取りブロックの出力Ut−1を入力として受信し変換された質問Uを出力し、tは2とTの間の整数である、段階;Eおよび最終読み取りブロックの出力UからQに対する応答を生成する段階;および使用者に応答を出力する段階を含む。
一特徴において、方法は、適応型マックスプーリング階層によって、Eが第1読み取りブロックに供給される前に、Eを固定された数のトークンを有する表現に変換する段階、およびそれぞれの読み取りブロックtの制御器アップデートモジュール内のさらに他の適応型マックスプーリング階層によって、加重化されたEをEの表現と同一の固定された数のトークンを有する表現に変換する段階をさらに含む。
一特徴において、繰り返し変換する段階は、それぞれの読み取りブロックtに対して:文書のそれぞれの単語が応答範囲の最初となる確率と文書のそれぞれの単語が応答範囲の最終となる確率を示す二つのセットの確率(P startおよびP end)をそれぞれ演算し出力する段階であって、応答範囲は質問(Q)に応答する文書(D)の単語の範囲である、段階;P startおよびP endに基づいて、与えられたトークンが応答範囲の一部であるEでそれぞれの与えられたトークンに対する確率を与える確率値のベクターであるアテンションAを演算する段階;Eのそれぞれのトークンに対応する確率値Aで加重化して加重化されたEを獲得する段階;およびUt−1および加重化されたEに基づいてUt−1をUにアップデートする段階を含む。
一特徴において、質問応答システムは、ネットワークを通じてコンピューティングデバイスから、第1複数の単語を含む質問を受信し、質問を第1ベクター表現でエンコーディングするように構成された第1エンコーダモジュール;文書(D)を第2ベクター表現でエンコーディングするように構成された第2エンコーダモジュールであって、文書は第2複数の単語を含む、第2エンコーダモジュール;第1および第2ベクター表現に基づいて第3ベクター表現を生成するように構成された第1読み取りモジュール;第1ベクター表現に基づいて質問に対する第1再定式化されたベクター表現を生成するように構成された第1再定式化モジュール;第2ベクター表現および第1再定式化されたベクター表現に基づいて第5ベクター表現を生成するように構成された第2読み取りモジュール;第1再定式化されたベクター表現に基づいて質問に対する第2再定式化されたベクター表現を生成するように構成された第2再定式化モジュール;および第2再定式化されたベクター表現に基づいて質問に対する応答を決定してネットワークを通じてコンピューティングデバイスに応答を伝送するように構成された応答モジュールを含む。
一特徴において、質問応答システムは、ネットワークを通じてコンピューティングデバイスから第1複数の単語を含む質問を受信し、質問を第1ベクター表現でエンコーディングするように構成された第1エンコーダモジュール;文書(D)を第2ベクター表現でエンコーディングするための手段であって、文書は第2複数の単語を含む、手段;第1および第2ベクター表現に基づいて第3ベクター表現を生成するための手段;第1ベクター表現に基づいて質問に対する第1再定式化されたベクター表現を生成するための手段;第2ベクター表現および第1再定式化されたベクター表現に基づいて第5ベクター表現を生成するための手段;第1再定式化されたベクター表現に基づいて質問に対する第2再定式化されたベクター表現を生成するための手段;および第2再定式化されたベクター表現に基づいて質問に対する応答を決定してネットワークを通じてコンピューティングデバイスに応答を伝送するための手段を含む。
一特徴において、質問応答方法は:一つ以上のプロセッサによって、ネットワークを通じてコンピューティングデバイスから第1複数の単語を含む質問を受信し、質問を第1ベクター表現でエンコーディングする段階;一つ以上のプロセッサによって、文書(D)を第2ベクター表現でエンコーディングする段階−文書は第2複数の単語を含む−;一つ以上のプロセッサによって、第1および第2ベクター表現に基づいて第3ベクター表現を生成する段階;一つ以上のプロセッサによって、第1ベクター表現に基づいて質問に対する第1再定式化されたベクター表現を生成する段階;一つ以上のプロセッサによって、第2ベクター表現および第1再定式化されたベクター表現に基づいて第5ベクター表現を生成する段階;一つ以上のプロセッサによって、第1再定式化されたベクター表現に基づいて質問に対する第2再定式化されたベクター表現を生成する段階;一つ以上のプロセッサによって、第2再定式化されたベクター表現に基づいて質問に対する応答を決定する段階;および一つ以上のプロセッサによって、ネットワークを通じてコンピューティングデバイスに応答を伝送する段階を含む。
一特徴において、文書を使って質問に応答するためのシステムは、A順次的なホップの複数のコンポーネントであって、第1コンポーネントホップは第2コンポーネントホップと順次カップリングされ、(a)第1コンポーネントホップは第1再定式化モジュールにカップリングされた第1読み取りモジュールを含み、(i)第1読み取りモジュールは質問および文書を受信し、文書の第1質問認識表現を第1再定式化モジュールに出力するように構成され、(ii)第1再定式化モジュールは文書の第1質問−認識表現から要素を抽出し質問の第1アップデート表現を演算するように構成され、(b)第2コンポーネントホップは第2再定式化モジュールにカップリングされた第2読み取りモジュールを含み、(i)第2読み取りモジュールは質問の第1アップデートされた表現および文書を受信し、文書の第2質問−認識表現を第2再定式化モジュールに出力するように構成され、(ii)第2再定式化モジュールは文書の第2質問認識表現から要素を抽出し、質問の第2アップデート表現を演算するように構成される、複数のコンポーネント;(B)複数の並列ヘッドであって、複数の並列ヘッドそれぞれは、A順次的なホップの複数のコンポーネントの独立的なインスタンスを含む、複数の並列ヘッド;および(C)応答モジュール;を含み、応答モジュールは複数の並列ヘッドによって出力された文書のアップデートされた表現をそれぞれ受信し;文書のアップデートされた表現に基づいて、質問に対する応答および質問に対する応答の、文書内のサポート因子を決定するように構成される。
一特徴において、第1および第2エンコーダモジュールそれぞれは、単語レベルエンコーディング、文字レベルエンコーディング、および単語レベルエンベッディングと文字レベルエンコーディングの両方のうち一つを実行するように構成される。
追加の特徴において、第1再定式化モジュールは第2ベクター表現に追加で基づいて第1再定式化されたベクター表現を生成するように構成される。
追加の特徴において、第2再定式化モジュールは第2ベクター表現に追加で基づいて第2再定式化されたベクター表現を生成するように構成される。
追加の特徴において、応答モジュールは第2ベクター表現に追加で基づいて応答を生成するように構成される。
追加の特徴において、マックスプーリングモジュールは第1ベクター表現の次元をあらかじめ決定された次元に調整するように構成される。
追加の特徴において、第3読み取りモジュールは第2ベクター表現および第2再定式化されたベクター表現に基づいて第5ベクター表現を生成するように構成され;第3再定式化モジュールは第2再定式化されたベクター表現に基づいて質問に対する第3再定式化されたベクター表現を生成するように構成され、応答モジュールは第3再定式化されたベクター表現に基づいて質問に対する応答を決定するように構成される。
追加の特徴において、第1読み取りモジュールは(a)文書のそれぞれの単語が応答範囲の最初となる確率と(b)文書のそれぞれの単語が応答範囲の最終となる確率をそれぞれ表現する(a)第1セットの確率および(b)第2セットの確率を決定するように構成され、応答範囲は質問に正しく応答する文書の単語の範囲である。
追加の特徴において、抽出アテンションモジュールは、第1セットの確率および第2セットの確率に基づいて、第2ベクター表現のエントリが応答範囲の一部になる確率のアテンションベクターを決定するように構成される。
追加の特徴において、第1再定式化モジュールはアテンションベクターの値に基づいて第2ベクター表現の加重値エントリを適用することによって加重化された第2ベクター表現を生成し、加重化された第2ベクター表現に基づいて第1再定式化されたベクター表現を決定するように構成される。
追加の特徴において、マックスプーリングモジュールは第1ベクター表現の次元をあらかじめ決定された次元に調整するように構成され、第1再定式化モジュールは加重化された第2ベクター表現の次元をあらかじめ決定された次元に調整するように構成される。
追加の特徴において、第1再定式化モジュールは双方向ゲートリカレントユニットBiGRUを含み、第2再定式化モジュールはBiGRUを含む。
追加の特徴において、第2エンコーダモジュールは単語レベルエンコーディングおよび文字レベルエンコーディングの結合に基づいて第2ベクター表現を生成するように構成される。
追加の特徴において、応答モジュールは応答がはい(yes)である第1確率、応答がいいえ(no)である第2確率、応答が文書の第2複数の単語のうちの単語の範囲である第3確率を決定するようにさらに構成される。
追加の特徴において、応答モジュールは第1確率が第2および第3確率より大きい場合、応答を「はい」に設定し、第2確率が第1および第3確率より大きい場合、応答を「いいえ」に設定し;第3確率が第1および第2確率より大きい場合、応答を単語の範囲に設定するように構成される。
追加の特徴において、コンピューティングデバイスはディスプレイ上に応答をディスプレイすることと、少なくとも一つのスピーカーを通じて応答を出力することのうち少なくとも一つをするように構成される。
追加の特徴において、コンピューティングデバイスはマイクロホンを通じて質問を受信するように構成される。
追加の特徴において、応答モジュールは4個の双方向ゲートリカレントユニットおよび4個の完全結合階層を含む。
追加の特徴において、訓練システムは:質問応答システム;および質問に対する応答のサポート因子に関する第1損失、単語の範囲に関する第2損失、および応答の分類に関する第3損失を最小化することによって、質問応答システムを訓練させるように構成された訓練モジュールを含む。
<発明の詳細>
マルチホップ推論に対する必要性がある。マルチホップ推論は実世界の状況で、例えば、音声基幹システム(例えば、「「ロード・オブ・ザ・リング」監督の映画見せて」)を含むことができる個人端末機または検索エンジンで、または技術的または医療的な問題の分析のために、質問に応答するのに好ましい。マルチホップ推論は多様な文段にわたる異なる証拠に対する収集および推論を伴い得る。
本出願は文書に基づいて質問に応答するためのシステムおよび方法を含む。説明を目的に、記述された実施例の完全な理解を提供するために、多くの例および特定の詳細事項が提示される。請求項によって定義されたような実施例は、これらの例の特徴のうち一部又は全部を単独でまたは下記に記述された他の特徴と組み合わせて含むことができ、本明細書に記述された特徴および概念の修正および均等物をさらに含むことができる。例示された実施例は、類似する要素および構造が類似する参照番号で表示される図面を参照して記述されるであろう。
本開示内容はマルチホップ推論タスクを伴う。マルチホップタスクで、それぞれの質問は応答を受けるために多様な文段から情報が収集され統合(蓄積)されることを必要とし得る。開示されたシステムはHotpotQAという名前のデータセットでテストされる。このコーパス(データセット)の自然語質問は、応答可能となるために、少なくとも2個のウィキペディア(Wikipedia)文段を読み取ることを要求するように設計された。二つの類型の質問があるが、すなわち応答が英語ウィキペディア文段のテキストの所定範囲である抽出質問、および2値のはい/いいえ質問である。応答に付加的に、正しい応答を生成するために使われた文章が予測されるが、これらはサポート因子と呼ばれる。
開示されたシステムおよび方法のテストはデストラクタ(妨害項)設定と呼ばれる設定で遂行され得、それぞれの質問には2個のゴールド(gold)文段を含む10個の関連文段が存在し得る。ゴールド文段は質問の応答に必要な文段であり得る。しかし、開示されたシステムおよび方法はまた、fullwikiベンチマーク設定およびその他の設定においても使われ得る。fullwikiベンチマーク設定は適合した検索器と結合されるとき、全体の英語ウィキペディアダンプから与えられた質問に応答するモデルの能力を評価する。
図1は、例示的な機械読み取りアーキテクチャを図示する。アーキテクチャは所定個数Tのスタック読み取りブロック115−1、…、115−T、およびサポート因子と共に最終応答122(これは「はい」、「いいえ」、または文書の応答範囲である)を予測し出力することを目標とする応答モジュール120を含む。それぞれの読み取りブロックは、読み取り機116を通じて(それによって)遂行される読み取り段階、抽出アテンションモジュール117でのアテンションの演算、および制御器アップデートモジュール118での制御器のアップデートを包括する(含む)。それぞれの読み取りブロックtで、与えられた文書(D)101は順次読み取られ、制御器Uの現在状態に関する証拠を探すが、ここでt∈[1,T]である。この接近法は文書全体にわたって収集された(すなわち、蓄積された)関連した情報に関する潜在空間での質問の順次的な再定式化と見ることができる。
図1に例示されたアーキテクチャをさらに詳細に説明すると、質問(Q)102は入力モジュールを通じて使用者から受信され得る。質問(Q)102はセルラー電話、タブレットデバイス、ラップトップコンピュータ、デスクトップコンピュータ、家庭用端末デバイスまたは送受信機を有する他の適合した類型のコンピューティングデバイスのようなコンピューティングデバイスから受信され得る。質問と関連した文書(D)101は(検索エンジンのような)検索器を通じてウィキペディアまたは他の適合したデータベースから検索されるか、他の方式で読み取りアーキテクチャに提供され得る。
質問(Q)102のN個の単語のシーケエンスと文書(D)101のL個の単語のシーケエンスは以下の通り定義され得る。
Figure 2021125217
<エンコーディング階層>
エンコーダはまず、ルックアップテーブル
Figure 2021125217
を通じてDおよびQのそれぞれの単語を次元dのエンベッディング空間のトークンxにエンベッディングすることができる。多様な具現例で、エンコーダは2個のエンコーダ111および112で代替され得る。
選択的に、エンコーダはそれぞれのトークンの文字エンベッディングを生成するために、1Dコンボリューション階層でそれぞれのトークンの文字レベルエンコーディングを遂行する。エンコーダは
Figure 2021125217
を獲得するために、文字エンベッディングに対してマックスプーリング動作を選択的に追加で遂行できる。選択的に、エンコーダはそれぞれのトークン
Figure 2021125217
の単語レベルおよび文字レベルエンベッディングを結合し、結合された結果はその全体の内容がここに参照として含まれる、「Learning phrase representations using RNN encoder−decoder for statistical machine translation」(Cho et al.、2014)(Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing、EMNLP、2014)に記述された通り、双方向ゲートリカレントユニットBiGRUに入力されて次のように定義された入力マトリクス
Figure 2021125217
を獲得する。
Figure 2021125217
BiGRU階層は入力として(入力シーケエンスおよび出力シーケエンスを含んだ)一対を受信し、2個のリカレントニューラルネットワーク(RNN)を含む。BiGRUはまた、エンコーダRNNおよびデコーダRNNを含むことができる。第1 RNNはシンボルの入力シーケエンスを固定長ベクター表現(すなわち、エンコーダRNNの最終隠れ状態)でエンコーディングし、第2 RNNは固定長ベクター表現を再び可変長シーケエンスでデコーディングする。エンコーダRNNは入力のそれぞれのシンボルを順次読み取り、その以前の隠れ状態に読み取りシンボルを考慮して非線形活性化関数を適用することによって、その隠れ状態を変更する。アップデートゲート(もし、あるとすれば、隠れ状態がアップデートされるかどうかを決定する)およびリセットゲート(以前のゲートが無視されるかどうかを決定する)を含む非線形活性化関数を使用することによって、プロセスの終わりで(すなわち、一応シンボルの全体の入力シーケエンスが読み取られると)獲得されるエンコーダRNNの最終隠れ状態はシンボルの全体の入力シーケエンスの要約である。デコーダRNNは、デコーダRNNの現在のシンボルと現在の隠れ状態が与えられると出力シーケエンスの次のシンボルを予測することによって出力シーケエンスを生成するように訓練され、これはエンコーダRNNを通じて獲得された最終隠れ状態に初期化される。全体のBiGRU階層は入力および出力シーケエンスの与えられた対に対する点数を生成し、点数は入力シーケエンスが与えられる時に出力シーケエンスを獲得する確率である。Cho et al.、2014はBiGRU階層の役割およびアーキテクチャに関する追加の詳細事項を提供する。
<適応型マックスプーリング階層>
適応型マックスプーリング階層(適応型マックスプール)113はh次元空間で定義された、質問(Q)をエンコーディングするL個のトークンのシーケエンス(これはBiGRUの使用の有無にかかわらず、単語エンコーディング、文字エンコーディングまたは両者の組み合わせの結果であり得る)を次元(h×C)(Cは与えられた定数)の固定された大きさ表現に変換するために選択的に使われ得る。適応型マックスプーリング階層113は本来質問(Q)の長さであるLに依存する適応型カーネルの大きさを有するマックスプーリング階層であり得る。結果として、固定次元のマトリクスは本来長さLに独立的に、パッディング次元のない入力を適切に表現する。
入力マトリクス
Figure 2021125217
の場合、入力シーケエンスの長さと必要な出力形態によるマックスプーリングのカーネルの大きさwは
Figure 2021125217
であり得る。引き続き出力表現は
Figure 2021125217
を有する
Figure 2021125217
であろう。
一特徴において、L≧Cであり、このような場合、適応型マックスプーリング階層113の適用は適応型マックスプーリング階層113による本来表現の圧縮につながる。代案としての実施例において、L<Cである場合、シーケエンス表現は拡張される必要がある。漏れているトークンを演算するために線形近似が使われ得る。
適応型マックスプーリング動作は質問(Q)の長さLに応じてプーリングウインドウの大きさをダイナミックに適応させる。
<読み取りブロック>
前記に定義されたエンコーディングおよび選択的変換後に、入力マトリクス
Figure 2021125217
または変換された入力マトリクス
Figure 2021125217
は、T個のアテンション−基盤読み取りブロック115−1、…、115−Tのラインに対する制御器Uとして使われ、それぞれの読み取りブロック
Figure 2021125217
は制御器状態Ut−1を入力として受信し、変換された制御器状態Uを出力する。
<読み取りブロックの読み取り機>
段階tで、すなわち与えられた読み取りブロックtで、制御器状態Ut−1(これは以前のホップt−1の制御器状態であり得る)が与えられると、読み取り機116と後続する抽出アテンションモジュール117は入力文書(D)に対してアテンションAを演算し、Aは与えられたトークンが応答範囲の一部である、E内のそれぞれの与えられたトークンに対する確率を与える確率値のベクターである。
読み取り機116は抽出読み取り機であり得、全体の内容がここに参照として含まれる、Clark and Gardner、「Simple and effective multi−paragraph reading comprehension」(Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics、ACL、Melbourne、2018)で提案された読み取り機のような完全な抽出質問−応答アーキテクチャを含むことができる。多様な具現例で他の適合した機械読み取りモデルが使われ得る。一部の実施例で抽出アーキテクチャは、まず質問/文書アテンション(双方向アテンションと指称され得る)に続けて文書/文書アテンション(セルフ−アテンションと指称され得る)を演算し考慮することができる。
双方向アテンションは(エンコーディングされた)文書(D)と(適応型マックスプーリングを通じてエンコーディングされて選択的に変換された)質問(Q)の間で読み取り機116により演算され得る。読み取りブロックtで、双方向アテンションは(制御器Ut−1の状態はt−1個の以前の読み取りブロックによって変換された本来質問(Q)を示すため)読み取りブロックt−1の文書と制御器状態の間の双方向アテンションとなる。双方向アテンションは、全体の内容がここに参照として含まれた、「Bidirectional attention flow for machine comprehension」(CoRR、abs/1611.01603、2016)(Seo et al.)で提案されたアテンション流れ階層のようなアテンション流れ階層を使って演算され得る。
具体的には、双方向アテンションを定義するために、類似性マトリクスはまず次のように定義される:
Figure 2021125217
ここでW、WおよびWは訓練可能なマトリクスであり、e i、jおよびui、jは、それぞれ文書の単一トークンおよび変換された質問(すなわち、制御器Ut−1の状態)の単一トークンをエンコーディングする次元hのベクターであり、演算子(「○」の中に「・」)は要素別乗算を定義する。
類似性マトリクスSが与えられると、質問のどの単語が文書のそれぞれの単語に対して最も高い類似性を有するかを示す文書−質問アテンション(または文脈−質問アテンション)cは次のように与えられ得る:
Figure 2021125217
ここで加重値(pi、j)は
Figure 2021125217
によって与えられ、CはUの(可能としては縮小された)第1次元である。
文書のどの単語が質問のそれぞれの単語と最も大きい類似性を有するかを示す質問−文書アテンション(または質問−文脈アテンション)(q)に関しては次のように与えられ得る:
Figure 2021125217
ここでソフトマックス(softma×)活性化関数(pi、j)(またはp)が
Figure 2021125217
によって与えられ、最大値mは
Figure 2021125217
によって与えられる。
文書の制御器認識表現は次の式を使って計算され得る:
Figure 2021125217
その全体内容がここに参照として含まれたWang et al.、2017に記述されたようなセルフ−アテンションYを生成するために、同一のアテンション流れ階層が文書とそれ自身の間に適用され得る。
双方向アテンションおよびセルフ−アテンションの概念の定義および役割に関する追加の詳細事項は、本明細書に開示された機械読み取りシステムを具現するために使われ得る双方向アテンションおよびセルフ−アテンションを演算するための例を記述しているSeo et al.、2016、およびWang et al.、2017でそれぞれ確認することができる。
図1に再び戻ると、読み取りブロックtの読み取り機tは以前に演算された双方向アテンションおよびセルフ−アテンションに基づいて二つのセットの確率
Figure 2021125217
を出力する。P startおよびP endはそれぞれエンコーディングされた文書E内のそれぞれの単語が応答範囲の開始またはこの範囲の最終となる確率を示す。読み取り機の役割とそのアーキテクチャに関する追加の詳細事項はClark and Gardner、2018で確認することができ、これは本明細書に開示された機械読み取りシステムを具現するのに使用できる読み取り機の例を記述する。
読み取りブロックの抽出アテンション階層
読み取りブロックtの抽出アテンションモジュール117で、P startおよびP endはそれぞれの与えられた単語が応答範囲の一部である確率を演算し、この値を与えられた単語に対するアテンションベクターAの対応値として使うのに使われ得る。それぞれの単語が選択された範囲に含まれる確率は範囲がこの単語の前に始まって下記の式の後に終わる確率である:
Figure 2021125217
抽出アテンションモジュール117は、例えば下記の式を使ってアテンションが0と1の間となるように再スケーリング(rescale)することができる:
Figure 2021125217
<読み取りブロックの制御器アップデートモジュール>
文書のエンコーディング(E∈Rh×N)、制御器の以前の状態(Ut−1∈Rh×C)およびアテンションベクター(A∈R)が与えられると、制御器アップデートモジュール118の目的は制御器のアップデートされたバージョン(U∈Rh×C)を演算することである。この目的は、
Figure 2021125217
を演算するために文書の表現のそれぞれのトークンをその関連したアテンション(すなわち、抽出アテンションモジュール117により生成されたアテンションベクターAの対応値)で加重化することによって達成され得る。
以前に定義された選択的適応型マックスプーリング階層113が質問(Q)を固定された大きさ表現に変換するのに使われた場合、適応型マックスプーリング階層が再び使われて(図1に図示されず)V∈Rh×C
Figure 2021125217
をマッピングすることができる。UをVにアップデートするために、Ut−1およびVは、引き続きエンベッディング空間で結合されてBiGRU階層に供給され得る。BiGRUの中間表現は、引き続きh×C大きさの制御器のアップデートされたバージョンを得るために結合され得る。
Figure 2021125217
この例で、Uは(図1に図示された通り)質問Eのエンコーディングに適用された適応型マックスプーリング階層113で初期化され得る。
<応答モジュール>
応答モジュール120はエンコーディングされた文書Eの表現および制御器の最終状態Uを入力として受信することができる。応答モジュール120は、例えば、質問に対する応答が「はい」である確率、応答が「いいえ」である確率、および応答が文書の範囲である確率を含む確率のセットが出力されるという点で、1)質問がバイナリ質問(すなわち、「はい/いいえ」質問)なのかまたは抽出質問(すなわち、前述した応答範囲である、文書(D)の範囲で応答され得る質問)なのか;2)応答範囲の開始確率と3)応答範囲の最終確率(これらは質問が抽出質問であると決定される場合、応答範囲を決定するのに使われる);および4)サポート因子を予測するために応答出力122を演算するように構成され得る。一特徴において、応答モジュール120はその全体がここに参照として含まれたYang et al.、2018に記述されたモデルアーキテクチャを有する。応答モジュールは「はい」、「いいえ」または文書(D)の範囲である応答を有する確率を生成するために具現された3方向分類器を含むことができる。
前述した読み取り機の双方向アテンションは文書と応答モジュール内の最終制御器状態U(これはT個の読み取りブロックによって変換された本来質問(Q)を示す)間の双方向アテンションとなる。一実施例において、双方向アテンションはまた、Seo et al.、2016で提案されたアテンション流れ階層を使って演算され得る。
この表現の上段に、一つ以上の(例えば、4個の)BiGRU階層が選択的にスタックされ得る。BiGRU階層の目標は、文書のそれぞれの単語のサポート因子である確率(第1階層)、開始である確率(第2階層)および終わりである確率(第3階層)を指導することである。第4階層は与えられた質問の応答がはい、いいえまたは文書の範囲なのか予測するために、前述した3方向分類器を具現するのに使われ得る。
Figure 2021125217
ここでW∈Rh×1、W∈Rh×1およびW∈Rh×3は訓練可能な媒介変数である。
応答モジュールの役割およびそのアーキテクチャに対する任意の追加の詳細事項、および特に応答の類型(はい/いいえ/文書の範囲)が決定される方式、応答範囲の開始および終わりが決定される方式またはサポート因子が決定される方式に関する詳細事項は、本明細書に開示された機械読み取りシステムを具現するのに使われ得る応答モジュールの例を説明したYang et al.、2018を参照する。
<多重ヘッドバージョン>
一特徴において、図1のアーキテクチャの多重ヘッドバージョンが具現され得る。このアーキテクチャで、K個の独立的な読み取りヘッドは情報を応答モジュール120に供給する前に情報を収集(蓄積)する。応答モジュール120までは、それぞれの読み取りヘッドは図1のアーキテクチャの一つの独立的な具現に対応する一方、応答モジュール120はすべての読み取りヘッドに共通である。それぞれの読み取りヘッドに対して同一の読み取りブロックの個数Tが使われ得る。したがって、それぞれの読み取りヘッドは制御器の最終状態Uのマトリクスを生成し、K個の読み取りヘッドはK個の独立マトリクスUを提供する。最後に、このようなK個のマトリクスは応答モジュール120の入力を演算するために合算される。ヘッドは自然に異なる出力を生成したり、2個以上のヘッドが同一の出力を生成することができる。
<応答の弱い指導(weak supervision)>
一特徴において、応答の第1出現のみがポジティブでラベリングされて、その他はネガティブでラベリングされ得る。応答の弱い指導と呼ばれる他の特徴で、サポート因子内の応答のすべての出現はポジティブでラベリングされ得る。
<実験の設定および結果>
表1はモデルの訓練中に使われたハイパー媒介変数の値を提供する。質問(Q)および文書(D)の単語をエンコーディングするために、事前に訓練されたグローブ(Glove)単語エンベッディングをエンコーダ111で使った。また、0.5の初期訓練速度で確率的勾配降下法(stochastic gradient descent)を使ってモデルを最適化した。学習率スケジュールとして、開発セットに対する損失が二段階連続して減少しないときに学習率を2で割る。中止基準として、学習率が0.005未満になると訓練プロセスが終了する。
Figure 2021125217
表2は前述したマルチ−段階読み取りアーキテクチャ(「本モデル」)の、そのデストラクタ設定でのHotpotQAデータセットに対する性能を提示する。正確なマッチ(exact match、EM)およびF1が2個の評価メトリクスである。本モデルは応答予測(「応答」)およびサポート因子予測(「サポート因子(Sup Fact)」)に対して与えられた基準モデルを上回る。
Figure 2021125217
<利点>
前述したモデルの異なるコンポーネントの技術的影響を評価するために切除(ablation)分析が遂行された。順次的読み取りの技術的影響(すなわち、最終結果に対するT(読み取りブロックの数)の影響)を経験的に研究するために、前記モデルを制御器の状態を順次アップデートしない(すなわち、単一読み取りブロックを有する(T=1を意味))類似するアーキテクチャと比較した。
読み取りブロックと制御器アップデートモジュールの順次的関連は長所を提供する。F1点数はモデルが質問を再定式化する能力を有さない場合、応答予測タスクの場合、8.9ポイント減少し、証拠抽出タスクの場合、5.7ポイント減少する。したがって読み取りブロックの順次的スタックは技術的に質問に正しく応答するシステムの効率性を向上させる。
システムの効率性に対するK(並列ヘッド数)の影響は、Tのうち一つよりは重要でないが依然として重要である。実際に、単一ヘッド(K=1)のみを使う構成はより良いモデル(F1点数の側面で)より1ポイント低い。
前記にて定義した応答に対する弱い指導(すなわち、サポート因子内の応答のすべての出現がポジティブでラベリングされる特徴)に関しては、弱い指導はまた、共同のF1の点数を0.8ポイント高めるという点でシステムの効率性を向上させる。
読み取りモジュールのセルフ−アテンション階層がモデルの効率性に及ぼす影響は重要である。この階層を除くと、共同メトリクスでF1点数が8.9ポイント減少する。これはトークンのローカルの隣でだけでなく異なる文段の間に長距離情報を伝播する能力を説明する。
また、質問表現がマトリクスの代わりにベクターで縮小される例(すなわち、固定表現空間の次元がC=1に縮小される)は、共同のF1の点数を13.3ポイント減少させる。これは質問の表現を、その意味を維持するためにベクターではなくマトリクスで保存することの重要性を強調する。
<実施例>
実施例は前記と関連して、また、文書(D)に基づいて質問(Q)に応答するためのコンピュータの具現方法を例示するフローチャートである図2を参照して詳細に記述されるであろう。方法はコードを実行する一つ以上のプロセッサによって実行され得る。説明された例は本明細書に開示された機械−読み取りシステムの最終の具現内で互いに結合され得る。
202で制御が開始され、この時、質問(Q)102が例えばネットワーク(例えば、インターネット)を通じてコンピューティングデバイスから受信される。質問は使用者によって入力された単語のセットを含む。例えば、質問は使用者によって使用者インターフェースの入力フィールド内にタイピングされたり、音声基幹システムで、質問は使用者によって話されマイクロホンを通じて受信され得る。音声入力の例で、言語プロセッシングモジュールは自然言語プロセッシング(NLP)または他の適合した類型の音声−テキスト変換を使うように音声をテキストに変換することができる。
204で、質問(Q)102は、エンベッディング空間で、質問のそれぞれの単語に対して一つずつエンベッディングのセットで構成された質問の表現Eを出力する図1のエンコーダ112のようなエンコーダによってエンコーディングされる。前述した通り、エンコーディングは単語レベルで、文字−レベル(一つ以上の文字を含む質問のそれぞれの単語)で、または単語レベルと文字−レベルの両方で遂行され得る。単語レベルおよび文字−レベルの例で、質問の単一単語に対する単語レベルエンコーディングと文字−レベルエンコーディングからのエンベッディングの両方は結合され得る。例えば、このような目的のために事前に訓練されたグローブ単語エンベッディングが使われ得たり、他の適合した単語および/または文字エンベッディングモデルが使われ得る。
類似するように、既存の文書(D)は単語のセットを含み、質問(Q)に対する正しい応答を含むことができ、また、図1のエンコーダ111のようなエンコーダによってエンコーディングされる。エンコーダ111はエンベッディング空間に、文書のそれぞれの単語に対して一つずつ、エンベッディングのセットからなる文書(D)の表現Eを出力する。再び、エンコーディングは単語レベルで、文字−レベル(一つ以上の文字を含む文書のそれぞれの単語)で、または単語レベルと文字−レベルの両方で遂行され得る。単語レベルおよび文字−レベルの例で、文書の単一単語に対する単語レベルエンコーディングと文字−レベルエンコーディングからのエンベッディングの両方は結合され得る。多様な具現例で、同じエンコーダ(すなわち、同じエンコーディングアルゴリズムを使うエンコーダ)が質問および文書の両方に使われ得る。換言すると、同じエンコーダがエンコーダ111および112により使われ得、結果的なエンベッディングは同じエンベッディング空間に属する。しかし、多様な具現例で、文書および質問をそれぞれエンコーディングするために2個の別個のエンコーダ111および112が使われ得る。
選択的に206で、図1の適応型マックスプーリング階層113のような適応型マックスプーリング階層113は、エンコーディングされた質問Eに適用されてエンコーディングされた質問E(これは次元(h*L)の可変大きさ表現であり、hは選択されたエンコーディングアルゴリズムに依存するエンベッディング/エンコーディングの次元、すなわち、それぞれのトークンのあらかじめ決定された定数の大きさであり、Lは質問の(変数)の長さである)を次元(h*C)(Cはあらかじめ決定された定数である)の固定大きさ表現に変換することができる。この選択的実施例において、さらに他の適応型マックスプーリング階層(これは、一実施例において、エンコーディングされた質問Eに適用されたものと同じである)はまた、それぞれの読み取りブロックtの制御器アップデートモジュール118でEの加重化されたバージョンに適用されるのであり、その役割は以下に詳しく説明されている。
208で、文書の表現E(マックスプーリング有無にかかわらない)および質問の現在の表現(最初はマックスプーリングがあるかないE)、引き続きそれぞれの読み取りブロック115−tのそれぞれの制御器アップデートモジュール118による出力として、制御器状態U(tは1と読み取りブロックの総個数Tの間の整数)と呼ばれるEの変換された表現がT個の読み取りブロック115−1、…、115−Tのスタック内に繰り返し供給される。本来の制御器状態Uは実施例によりマックスプーリングがあるかないエンコーディングされた質問Eと同じであるように定義される。したがって、それぞれの段階tで、読み取りブロック115の読み取り機tは入力としてエンコーディングされた文書Eおよび変換された質問のアップデートされた値Ut−1を受信し、前述した通り、エンコーディングされた文書Eのそれぞれの単語がそれぞれ応答範囲の最初またはこの範囲の終わりである確率を示す二つのセットの確率(P startおよびP end)を出力する。引き続き、P startおよびP endは前述した通り、対応するアテンションAを出力する抽出アテンションモジュール117の入力として受信される。最後に、文書Eの獲得されたアテンションAおよび表現(マックスプーリング有無にかかわらない)は制御器アップデートモジュール118に入力され、これは変換された質問のアップデートされた値U(制御器状態ともいう)を出力し、これは次の読み取りブロックに入力U+1として使われる。最終読み取りブロックは変換された質問の最終値Uを出力し、これは応答モジュール120に伝送される。前述した通り、多数の並列エンコーダおよび読み取りブロックが応答モジュール120に供給され得る。
210で、応答モジュール120は文書の表現E(マックスプーリング有無にかかわらない)および変換された質問の最終値Uを入力として受信し、初期質問(Q)に応答するために、前述した通り、質問に対する応答がはいである確率、質問に対する応答がいいえである確率、そして応答が文書の範囲である確率を含む確率のセットを出力する。また、応答モジュール120は、文書のそれぞれの単語に対して、この単語が応答範囲の開始単語である確率とこの単語が応答範囲の最終単語である確率を出力する。最後に、応答モジュール120はサポート因子、すなわち応答を予測するために使われた文章を出力する。応答モジュール120はネットワークを通じて(質問を伝送した)コンピューティングデバイスに応答を伝送する。
212で、コンピューティングデバイスは質問に対する応答122を使用者に出力する。例えば、コンピューティングデバイスはディスプレイ上に応答122をディスプレイしたり、一つ以上のスピーカーを通じて応答122を出力したり、または他の適合した方式で応答122を出力することができる。一実施例において、応答122、はい、いいえまたは文書の範囲である3個の可能な応答の中で最も高い確率を有する応答のうち一つであり得る。質問が応答範囲によって応答されるものと決定された場合(例えば、応答が文書の範囲である確率が、応答がはいまたはいいえであるそれぞれの確率より高い場合)、応答範囲はこの単語が応答範囲の開始単語である確率が最も高い単語から始まってこの単語が応答範囲の最終単語である確率が最も高い単語で終わる文書の範囲に決定される。選択的に、応答モジュール120により出力されたサポート因子は質問に対する応答と共に使用者に提供されてもよい。コンピューティングデバイスはまた、サポート因子を使用者に出力することができる。多様な具現例で、応答(および選択的にサポート因子)はコンピューティングデバイスのディスプレイ上の使用者インターフェースで作成された文章として使用者に提供され得る。追加的にまたは代案として、応答(および選択的にサポート因子)は一つ以上のスピーカーを通じて聴覚的に使用者に提供され得る。しかし、本明細書に開示された機械読み取りシステムは本実施例に制限されず、応答を出力してこれを使用者に提示するための任意の異なる代案としての手段もさらに本開示内容に含まれる。
より一般的に、前述した例および例示的な実施例は制限的なものを意味せず、当業者が同一の一般的なアイディアを具現するために考慮するすべての代案としての実施例も本開示内容の範囲を逸脱せず含むことに留意しなければならない。一部の特定の実施例が前記にて詳細に記述されたが、実施例の意図的範囲を逸脱することなく前記の教示に照らして、そして添付された特許請求の範囲の内容内で実施例の多様な修正、変更および改善が行われ得ることが当業者には明白であろう。また、当業者に親しいと思われる分野は、本明細書に説明された実施例を不要に曖昧にしないために本明細書では説明していない。したがって、実施例は特定の例示的な実施例によって制限されるものではなく、添付された特許請求の範囲の範囲によってのみ制限されるということが理解されるべきである。
前記実施例が方法段階の脈絡で説明されたが、それらはまた、対応する装置またはシステムの対応するコンポーネント、モジュールまたは特徴の説明を示す。
方法段階の一部又は全部はプロセッサ、マイクロ・プロセッサ、電子回路またはプロセッシング回路部によって(またはそれを使って)実行されるという点でコンピュータによって具現され得る。
前述した実施例はハードウェアまたはソフトウェアで具現され得る。具現はコンピュータ読み取り可能保存媒体、例えば、フロッピーディスク、DVD、Blu−Ray、CD、ROM、PROMおよびEPROM、EEPROMおよびフラッシュメモリのような非一過性の保存媒体を使って遂行され得る。そのようなコンピュータ読み取り可能媒体は汎用または特殊目的のコンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。
一般的に、実施例はプログラムコードまたはコンピュータ実行可能命令語を有するコンピュータプログラム製品で具現され得、プログラムコードまたはコンピュータ実行可能命令語は、コンピュータプログラム製品がコンピュータで実行される時に方法のうち一つを遂行するように作動可能である。プログラムコードまたはコンピュータ実行可能命令語は例えば、コンピュータ読み取り可能保存媒体に保存され得る。
一実施例において、保存媒体(またはデータキャリアまたはコンピュータ読み取り可能媒体)は、プロセッサによって遂行される時、本明細書に記述された方法のうち一つを遂行するためのコンピュータプログラムまたはコンピュータ実行可能命令語を保存する。追加の実施例において、装置は一つ以上のプロセッサおよび前記言及された保存媒体を含む。
追加の実施例において、装置は例えばメモリと通信するプロセッサのようなプロセッシング回路部のような手段を含み、この手段は本明細書に説明された方法のうち一つを遂行するように構成されるか適応される。
追加の実施例は本明細書に記述された方法のうち一つを遂行するためのコンピュータプログラムまたは命令語が設置されたコンピュータを含む。
前述された方法および実施例はデータ交換のためのインターネットのようなネットワーク304(無線および/または有線であり得る)を通じて通信するサーバー300および一つ以上のクライアントデバイス302を含む図3に例示されたようなアーキテクチャ内で具現され得る。サーバー300およびコンピューティングデバイス302はデータプロセッサ(プロセッサ)312(例えば、312a〜312e)およびハードディスクのようなメモリ313(例えば、313a〜313e)を含む。コンピューティングデバイス302は自律車両302b、ロボット302c、コンピュータ302dまたは携帯電話302eのような、サーバー300と通信する任意の類型のコンピューティングデバイスであり得る。
一例において、質問(Q)102はクライアントデバイス302によりサーバー300に提供される。多様な具現例で、質問(Q)102はサーバー300で直接受信される。質問(Q)102および文書(D)101はサーバー300でプロセッシングされ、サーバー300は質問(Q)102に対する応答を質問(Q)102を伝送したクライアントデバイス302に返還する。サーバー300はまた、例えば、質問(Q)102に基づいて複数の可能な文書から文書を選択することができる。多様な具現例で、質問(Q)102および文書(D)101は質問を開始したクライアントデバイス302でプロセッシングされ得る。モデルの訓練はまた、サーバー300で、異なるサーバーでまたはクライアントデバイス302で遂行され得る。
前述した通り、マルチホップテキスト基盤質問応答は複雑な自然語質問に応答するために、多数の句からの因子を順次統合するタスクを伴う。マルチホップ並列アテンションネットワークは前記にて議論されたのであり、推論能力を含む質問応答タスクを遂行するように構成される。ネットワークは読み取りおよび再定式化/アップデートモジュールを含む(ホップ当たり一つの読み取りモジュールおよび再定式化モジュール)。前述したそれぞれの読み取りブロックは一つのホップである。一つの読み取りブロックの出力は次の読み取りブロックに入力される。読み取りモジュールは文書の質問認識表現(例えば、マトリクス表現)を生成する。このような表現から、再定式化モジュールは質問のアップデートされた表現を計算するための要素を抽出する。引き続き、アップデートされた質問は後続するホップ/読み取りブロックに入力される。
本出願は質問に応答するために文書全体にわたって順次的にそして並列で情報を収集する読み取りブロックを伴う。入力長さ不変の質問表現は、可変長テキストシーケエンス(例えば、質問)からの情報を固定大きさのマトリクスに圧縮するダイナミックマックスプーリング階層によってアップデートされ得る。抽出読み取り基盤アテンションメカニズムは、抽出機械読み取りモデルの出力階層からアテンションベクターを演算する。
本出願のマルチホップ質問応答は順次推論と並列推論の両方を伴う。順次推論は文書を読み取り、情報を求め、引き続き質問を再定式化し、最終的に正しい応答を抽出することを伴う。並列推論は文書の多様な属性を確認することを伴う比較または質問のための証拠を収集することを含む。
図4は、質問(Q)および応答Aを考慮した多重ホップ質問の二つの例を含む。それぞれの場合において、P1およびP2は質問(Q)に応答することと関連した異なる情報を提供する第1および第2文段Pである。図4の上段の例示は質問(Q)に対する応答(A:Adorable)を決定するために、第1文段(P1:Lit)の情報を第2文段(A:Adorable)の情報と比較する並列推論を例示する。図4の下段の例示は質問(Q)に対する応答(A:stringed instrument)を決定するのに使われた第2文段(P2:Sarod)からの情報を識別するために、第1文段(P1:Apratim)からの情報を使う順次的推論を図示する。
図5は、図1のマルチホップモデルの例示的な具現例の機能ブロック図である。前述した通り、マルチホップモデルは(1)エンコーディングモジュール、(2)読み取りモジュール、(3)質問再定式化モジュールおよび(4)応答モジュールの四つのモジュールを含む。エンコーディングモジュールは入力モジュールであり、応答モジュールは出力モジュールである。読み取りモジュールおよび質問再定式化モジュールのセットがホップを形成する。前述した通り、マルチホップモデルは多数の(T個、Tは少なくとも2個)ホップを含む。応答モジュールは再定式化を必要としない。
文書と質問が与えられると、読み取りモジュールは文書の質問認識表現を演算する。再定式化モジュールはこの文書表現から必須要素を抽出し、これらを使って潜在空間内の質問の表現をアップデートする。再定式化された質問は後続するホップに伝達される。
マルチホップモデルは前述され、また後述されるように、多数のヘッドを有することができる。この場合、繰り返しメカニズムは独立的な再定式化のセットを演算するために並列で何度も遂行される。異なるヘッドによって生成された文書の最終表現は、応答モジュールに供給される前に(例えば、合計モジュールによって合算されるのと同様に、集計モジュールによって)集計される。応答モジュールは最終ホップの集計されるか再定式化された質問から応答およびサポート因子を生成する。
マルチホップモデルは文書と質問を並列でプロセッシングするK個の独立的な読み取りヘッドを含む。単純化のために、ヘッドのインデックスによるすべてのマトリクスの添字は一つの説明に焦点を合わせるために提供されない。
事前に訓練された媒介変数言語モデル(BERT)を使って本明細書でそれぞれのトークンの標準表現が採択される。文書(D)={p1;p2;...;p10}を長さLの質問(Q)と関連した、それぞれの長さ{n1;...;n10}の入力文段のセットという。文段は事前に訓練されたBERTモデルのようなエンコーダを通じて独立的にエンコーディングされる。それぞれのトークンはモデルの最終階層からのその関連したBERT隠れ状態によって表現される。トークン表現は結合されて総長さの10個文段のセットの全域表現を生成する。
Figure 2021125217
表現は双方向ゲートリカレントユニットBiGRUを追加で通過して文書の最終表現
Figure 2021125217
および質問の最終表現
Figure 2021125217
を生成し、hはBiGRUの隠れ状態の次元である。
Figure 2021125217
ここで;は結合演算である。10個文段の例が提供されるが、他の適合した個数の文段が使われ得る。
質問の第1表現U(0)を演算するために、補間モジュールは
Figure 2021125217
Figure 2021125217
は質問の表現とその再定式化を保存するために割当された空間に対応する。これは本来質問の長さLに依存しない。
<読み取りモジュール>
マルチホップモデルは質問の現在の再定式化に関する文書から関連情報を順次抽出する読み取りのT個のホップを含む。段階tで、再定式化された質問の表現
Figure 2021125217
Figure 2021125217
が与えられると、読み取りモジュールは文書の質問認識表現を演算する。読み取りモジュールは文書質問アテンションモジュールと、後続して文書セルフアテンションモジュールの二つの階層を含む。図6は、読み取りモジュールの例示的な具現例の機能ブロック図である。
文書質問アテンションモジュールと関連して、このモジュールは文書と質問の現在の再定式化
Figure 2021125217
の間の相互作用マトリクスを下記の式のように構築する。
Figure 2021125217
ここで、w、w、w
Figure 2021125217
の訓練されるか訓練可能なベクターであり、記号(「○」の中に「・」)は要素別乗算である。引き続き、読み取りモジュールは文書質問アテンション
Figure 2021125217
および質問文書アテンション
Figure 2021125217
を演算する:
Figure 2021125217
読み取りモジュールは文書の質問認識表現
Figure 2021125217
を演算する:
Figure 2021125217
ここで、[;]は結合演算である。読み取りモジュールはX(t)の次元をN×2hに縮小させる最終BiGRUを含むことができる。このようなトークンレベルアテンションを使う特定のアテンションメカニズムは、他のアーキテクチャで使われる文章レベルアテンションに比べて文書のより細密な表現を生成することができる。
文書セルフアテンションと関連して、10個の文段の間の文脈化(conte×tualization)は前述した通り、BiGRUによって遂行された。文書の現在表現の限界はそれぞれのトークンが文脈の他の要素に対して非常に制限的な知識を有しているということであり得る。長距離従属性を扱うために、文書の質問認識表現であるX(t)とそれ自身間に同一のアテンションメカニズムを適用して読み取りモジュール出力
Figure 2021125217
を生成することができる。このような文書の自体文脈化は本明細書で議論された通り、有用なものであることが明らかとなった。
<質問再定式化モジュール>
例示的な再定式化モジュールの機能ブロック図が図7に提供される。再定式化モジュールtは、以前のアテンションモジュールの出力(V(t))、再定式化された質問の以前の表現U(t)および文書のエンコーディングEを入力として取る。再定式化モジュールは入力に基づいて質問のアップデートされた再定式化U(t+1)を生成する。
読み取り基盤アテンションと関連して、V(t)が与えられると、再定式化モジュールは2個のBiGRUと後続して線形階層およびソフトマックス演算子を使って
Figure 2021125217
を演算する。演算は下記の式から遂行され得る。
Figure 2021125217
ここで、wとw
Figure 2021125217
の訓練されるか訓練可能なベクターである。確率ベクターpt(s)およびp(t)eは文書に対する読み取り基盤アテンションベクターa(t)を演算するのに使われる。確率は段階tでそれぞれの単語が応答範囲の最初と最終となる確率に対するモデルの信頼を示す。トークンの読み取り基盤アテンションは予測された範囲がこのトークンの以前に開始され、その後に終了する確率であり得、下記の式のように演算され得る:
Figure 2021125217
アテンション値は文書表現のそれぞれのトークンを再び作成するのに使われ得る。
Figure 2021125217
で次が演算され得る
Figure 2021125217
<ダイナミックマックスプーリング>
次元(M×2h)の現在の表現を追加するためにダイナミックマックスプーリングモジュールを使って
Figure 2021125217
の関連要素を収集することができる。このモジュールはマックスプーリング演算子がそれぞれの個別ウインドウに適用されるM×2hのグリッドを生成するために、初期シーケエンスの行をM個の略同一の部分に分割することができる。結果として、固定次元のマトリクスは入力を表現し、文書の全域構造を維持し、それぞれの領域の重要な要素に重点を置く。
Figure 2021125217
を入力マトリクス表現という。ダイナミックマックスプーリングモジュールは入力シーケエンスの長さと必要な出力形状(w=[N/M]、および天井関数である[.]によってマックスプーリングのカーネルの大きさwを演算する。マックスプーリングの出力表現は以下の通りである。
Figure 2021125217
質問のアップデートされた表現
Figure 2021125217
を演算するために、U(t)とO(t)を合算(加算)することができる。
<応答モジュール>
例示的な応答モジュールの機能ブロック図が図8に提供される。応答モジュールは4個のBiGRUを含むことができ、それぞれには完全結合(fc)階層が後続する。BiGRUは(1)サポート因子(psf)(2)文書のそれぞれの単語の応答開始そして(3)応答終わりである確率(p、p)を指導する。最終BiGRUは応答がはい、いいえまたはテキストの範囲に分類される確率を予測するために3方向分類器として使われ得る。
Figure 2021125217
Figure 2021125217
は訓練されるか訓練可能な媒介変数である。
サポート因子を予測するために、応答モジュールは文書の文章基盤表現を構成する。それぞれの文章はYsfからの開始サポート因子トークンおよび最終サポート因子トークンの結合によって表現され得る。応答モジュールは線形階層と続けてS字形関数を利用してはい(I)の文章(j)がサポート因子である確率であるpsf i、jを演算する。
<多重ヘッドバージョン>
多重ホップモデルは多数のヘッドを含むことができる。この具現例は前記で議論された通り、複数の独立的な並列ヘッドを含むことができる。それぞれのヘッドは同じ数の読み取りおよび再定式化モジュールを含むことができる。それぞれのヘッドは文書の表現(V (T))を生成する。合算モジュールは応答モジュールに対する入力を生成するためにk個のヘッドによって生成されたk個のマトリクスを合算することができる。
<訓練>
マルチホップモデルは3個の下位タスクを共同で最適化することによって訓練され得る。3個の下位タスクはサポート因子を探索すること、範囲を識別すること、および、はい、いいえまたは範囲を分類するものであり得る。訓練は
Figure 2021125217
Figure 2021125217
は下記の式によって定義され得る。
Figure 2021125217
ここで、nbsは文書(i)の文章の個数に対応し、yi、j (1)は文書(i)の文章(j)がサポート因子であれば1であり、そうでなければ0である。
サポート因子内の応答に対するすべての言及は質問と関連があると仮定することができる。応答モジュールは与えられたサポート因子内の応答のすべての出現の開始および最終位置を有効なソリューションとしてタグすることができる。
Figure 2021125217
は下記の式によって定義され得る。
Figure 2021125217
Figure 2021125217
は応答のすべての出現の開始および最終位置での値(1/n)を含み、そうでなければ0を含むベクターであり;nは文脈で応答の出現の個数である。
Figure 2021125217
は下記の式によって定義され得る。
Figure 2021125217
Figure 2021125217
は質問類型{はい、いいえ、範囲}のラベルのインデックスに対応する。訓練損失は下記の式のように決定され得る。
Figure 2021125217
ここで、アルファとベータは交差検証を通じて調整(訓練)されたハイパー媒介変数である。
図9および図10は、例題の質問、応答および再定式化前後の文書部分を含む。図9および図10は、本明細書に記述された多重ホップモデルがブリッジ質問に応答するために自然な推論経路に沿う傾向があることを例示する。図9の上段部分に例示された通り。第1再定式化モジュールの前に、アテンションは推論の第1段階に焦点を合わせる傾向がある。質問「What award did the writer of Never Let Me Go novel win in 1989?」に対して、モデルは第2段階/ホップで受賞の説明に移動する前に、第1段階で作家の名前に焦点を合わせる傾向がある。図10の例で、質問「What is the population according to the 2007 population census of the city in which the National Archives and Library of Ethiopia is located?」に対して、モデルは第1段階でAddis Ababa、すなわち、National Archives and Library of Ethiopiaが位置した都市の名前に重点を置き、引き続き次のホップでこの都市の人口に移動する。
図11は、質問内の質問に応答するように構成された例示的な質問応答システム1102の機能ブロック図である。質問応答システム1102はネットワーク1106を通じて一つ以上の使用者コンピューティングデバイス1104から一つ以上のテキスト本文(例えば、小説、ニュース記事、文書など)に対する質問を受信するように構成される。テキスト本文は質問と共に受信され得/得るか質問に基づいて保存および検索され得る。
質問応答システム1102はテキスト本文を読み取ってテキスト本文から質問に対する応答をそれぞれ決定する。質問応答システム1102はそれぞれ質問を伝送したコンピューティングデバイス1104に応答を再び伝送することができる。
コンピューティングデバイス1104は使用者に応答をディスプレイすることができる。コンピューティングデバイス1104はまた、使用者に他の情報をディスプレイすることができる。例えば、コンピューティングデバイス1104はそれぞれテキスト本文に関連した追加情報、それぞれ応答に関連した情報などをディスプレイすることができる。質問応答システム1102およびコンピューティングデバイス1104はネットワーク1106を通じて通信する。
複数の異なる類型のコンピューティングデバイス1104が図11に例示されている。コンピューティングデバイス1104はテキストに関する質問を生成し、ネットワーク1106を通じて質問応答システム1102に伝送するように構成された任意の類型のコンピューティングデバイスを含む。コンピューティングデバイス1104の例が前記に提供されたし、図11に例示された通り、スマート(セルラー)電話、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータを含むが、これに制限されない。コンピューティングデバイス1104はまた、車両、ゲームデバイス、テレビ、コンソール(例えば、ディスプレイのないスマートスピーカー、Amazon Echo、Google Home、Clova Friends mini)またはその他の機器(例えば、ネットワークに結合された冷蔵庫、ネットワークに結合された温度調節器など)に含まれたコンピューティングデバイスのような他の形状因子を有する他のコンピューティングデバイスを含むことができる。
コンピューティングデバイス1104は多様な異なる運営体制を使うことができる。コンピューティングデバイス1104がモバイルデバイスである例において、コンピューティングデバイス1104はアンドロイド、アップルインク(Apple Inc.)によって開発されたiOSまたはマイクロソフトコポーレーション(Microsoft Corporation)によって開発されたウインドウフォン(Windows Phone)を含むが、これに制限されない運営体制を実行することができる。コンピューティングデバイス1104がラップトップまたはデスクトップデバイスである例において、コンピューティングデバイス1104はマイクロソフトウィンドウ、Mac OSまたはリナックス(登録商標)を含むが、これに制限されない運営体制を実行することができる。コンピューティングデバイス1104はまた、現在利用可能なものであるか未来に開発されるであろうものに関わらず、前述した運営体制以外の運営体制を実行しながら質問応答システム1102にアクセスすることができる。
一部の例において、コンピューティングデバイス1104はコンピューティングデバイス1104に設置されたアプリケーションを使って質問応答システム1102と通信することができる。一般的に、コンピューティングデバイス1104は質問応答システム1102により応答される質問応答システム1102に質問を伝送できる任意のアプリケーションを使って質問応答システム1102と通信することができる。一部の例において、コンピューティングデバイス1104は質問応答専用のアプリケーションのような、質問応答システム1102とインターフェーシングするのに専用のアプリケーションを実行することができる。一部の例において、コンピューティングデバイス1104はウェブブラウザアプリケーションのような、より一般的なアプリケーションを使って質問応答システム1102と通信することができる。質問応答システム1102と通信するためにコンピューティングデバイス1104によって実行されるアプリケーションは、グラフィック使用者インターフェース(GUI)上に使用者が質問を入力できる検索フィールドをディスプレイすることができる。使用者はタッチスクリーンまたは物理的キーボード、音声テキストプログラムまたは他の形態の使用者入力部を使って質問を入力することができる。
質問は単語、数字、文字、句読点および/またはシンボルを含むことができる。一般的に、質問は質問応答システム1102からの情報検索(例えば、応答)のための要請であり得る。例えば、質問は質問に応答する特定のテキスト本文から応答を提供することに関するものであり得る。
コンピューティングデバイス1104は質問応答システム1102に伝送された質問に応答する応答を質問応答システム1102から受信することができる。多様な具現例において、質問に応答する一つ超過の応答をコンピューティングデバイス1104は受信することができ、質問応答システム1102は伝送することができる。多数の応答を提供する質問応答システム1102の例において、質問応答システム1102は個別応答のそれぞれに対する信頼度値(応答が正しい可能性を示す)を決定し、応答と共に信頼度値をコンピューティングデバイス1104に提供することができる。コンピューティングデバイス1104は複数の応答のうち一つ超過の応答(例えば、あらかじめ決定された値より大きい信頼度値を有するすべての応答)、ただし最も高い信頼度値を有する応答のみ、などをディスプレイすることができる。
コンピューティングデバイス1104は質問応答システム1102から受信された応答をディスプレイするGUIを含むアプリケーションを実行することができる。それぞれの信頼度値がまたディスプレイされ得る。例えば、質問を質問応答システム1102に伝送するのに使われるアプリケーションはまた、受信された応答を使用者に提示することができる(例えば、ディスプレイしたり話す)。前述した通り、受信された応答を使用者に提示するアプリケーションは、一部の例で質問応答システム1102とインターフェーシングするのに専用であり得る。他の例において、アプリケーションはウェブブラウザアプリケーションのような、より一般的なアプリケーションであり得る。
コンピューティングデバイス1104で実行されるアプリケーションのGUIは、どのような情報がコンピューティングデバイス1104に伝送されるかによって、多様な異なる方式で使用者に応答をディスプレイすることができる。検索結果が応答の目録および関連した信頼度値を含む例において、質問応答システム1102は応答の目録およびそれぞれの信頼度値をコンピューティングデバイス1104に伝送することができる。この例において、GUIは可能な応答の目録として使用者に応答および信頼度値をディスプレイすることができる。
一部の例において、質問応答システム1102または他のコンピューティングシステムは、アプリケーションおよび/またはテキスト本文、質問、または応答、テキスト本文と関連したその他のテキスト本文などと関連した他の情報のような、しかしこれに制限されない追加情報をコンピューティングデバイス1104に伝送することができる。この追加情報はデータ保存所に保存され、一部の例で質問応答システム1102によりコンピューティングデバイス1104に伝送され得る。使用者デバイス104が追加情報を受信する例において、GUIは応答と共に追加情報をディスプレイすることができる。一部の例において、GUIは降順会議値によって画面の上段から画面の下段に順序化されたアプリケーションの目録として応答をディスプレイすることができる。一部の例において、応答は使用者が質問を入力した検索フィールドの下にディスプレイされ得る。
前述した通り、コンピューティングデバイス1104は応答を生成するテキスト本文を(テキストの本文に対する)質問とともに伝送することができる。代案として、質問応答システム1102はデータソース1120からテキスト本文を獲得することができる。データソース1120は多様な異なるテキスト提供者などを含むことができる。データソース1120はオンラインニュースソース、ウェブサイト、ウェブログを含むウェブサイト(すなわち、ブログ)、ソーシャルネットワーキングサイト(例えば、Facebook、Twitterなど)および/または他の類型のデータソースのような、しかしこれに制限されないデジタル配布プラットフォームを含むことができる。
コンピューティングデバイス1104、質問応答システム1102およびデータソース1120はネットワーク1106を通じて通信することができる。ネットワーク1106は広域ネットワーク(WAN)および/またはインターネットのような多様な類型のネットワークを含むことができる。ネットワーク1106は長距離ネットワーク(例えば、インターネットまたはWAN)を示し得るが、一部の具現例において、ネットワーク1106は近距離通信網(LAN)のような近距離ネットワークを含むことができる。一つの実施例において、ネットワーク1106は標準通信技術および/またはプロトコルを使う。したがって、ネットワーク1106はイーサネット、WiFi(Wireless Fidelity)(例えば、802.11)、WIMAX(Worldwide Interoperability for Microwave Access)、3G、4G、5G、LTE(Long Term Evolution)、DSL(digital subscriber line)、ATM(asynchronous transfer mode)、InfiniBand、PCI E×press Advanced Switchingなどのような技術を使うリンクを含むことができる。類似するように、ネットワーク1106上で使われるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、使用者ーデータグラムプロトコル(UDP)、ハイパーテキスト伝送プロトコル(HTTP)、単純メール伝送プロトコル(SMTP)、ファイル伝送プロトコル(FTP)等を含むことができる。ネットワーク1106を通じて交換されるデータは、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)等を含む技術および/またはフォーマットを使って表現され得る。また、すべてのリンクまたは一部のリンクがSSL(Secure Sockets Layer)、TLS(Transport Layer Security)、VPNs(Virtual Private Networks)、IPsec(Internet Protocol Security)などのような従来の暗号化技術を使って暗号化され得る。他の例において、ネットワーク1106は前述したものなどの代わりに、またはそれに付加してオーダーメード型および/または専用データ通信技術を使うことができる。
図12は、質問応答システム1102の質問応答モジュール1200の例示的な具現例を含む機能ブロック図である。質問応答モジュール1200は図1〜図5の要素を含むことができる。第1送受信機モジュール1204はコンピューティングデバイス1104から質問を含んだ質問を受信する。送受信機モジュール1204はまた、コンピューティングデバイス1104からテキスト本文を受信したり異なる方式でテキスト本文を獲得することができる。
パーシング(parsing)モジュール1208はテキスト本文から応答される質問を獲得するために質問をパーシングすることができる。多様な具現例において、パーシングモジュール1208は音声テキスト変換を遂行できる。例えば、パーシングモジュール1208は応答される質問を形成する一つ以上の単語の文字列を識別することができる。パーシングモジュール1208はまた、質問内の綴りが間違っている単語を訂正し/するか、質問に対して一つ以上の他のワードプロセッシング機能を遂行できる。パーシングモジュール1208は前記で議論されたエンコーディング、読み取りおよび再定式化モジュールを含むことができる。
前述した通り、応答モジュール1212はテキスト本文から質問に対する応答を決定する。応答モジュール1212は前述したマルチホップモデルを含む。第2送受信機モジュール1216は質問に対する決定された応答をコンピューティングデバイス1104に再び伝送する。多様な具現例において、第2送受信機モジュール1216は省略され得、第1送受信機モジュール1204は質問がそれから受信されたコンピューティングデバイス1104に応答を再び伝送することができる。
図13は、質問を受信し、質問に対する応答を提供する例示的な方法を示すフローチャートを含む。図13の例は質問応答モジュール1200により遂行され得る。
1304で制御が開始され、ここで質問応答モジュール1200はコンピューティングデバイス1104から質問を受信する。質問は応答される質問を含む。質問はまた、質問に応答するための基盤として使われるテキスト本文を含むことができる。1308で、質問応答モジュール1200は質問をパーシングし、応答される質問を決定する。
前述した通り、質問応答モジュール1200は1312でマルチホップモデルを使ってテキスト本文から質問に対する応答を決定する。質問応答モジュール1200はまた、テキスト本文がコンピューティングデバイス1104によって伝送されないと、質問内で識別されたテキスト本文を獲得する。代案として、あらかじめ決定されたテキストソース(例えば、ウィキペディア)が使われ得る。1316で、質問応答モジュール1200は質問に対する応答をコンピューティングデバイス1104に再び伝送する。
図14は、訓練モジュール1400の機能ブロック図を含む。前述した通り、訓練モジュール1400は質問応答モジュール1200によって使われる多重ホップモデルを訓練させてそれぞれ受信された質問に対する応答を決定する。前述した通り、訓練モジュール1400は訓練データセット1404を使って多重ホップモデルを訓練させることができる。
前述した説明は本質的に例示的なものに過ぎず、本開示内容、その応用、または使用を制限しようとするものではない。本開示内容の広範囲な教示は多様な形態で具現され得る。したがって、本開示内容は特定の例を含むが、本開示内容の真の範囲はそれらに制限されてはならず、これは図面、明細書および下記の特許請求の範囲の研究により他の変形が明白となるためである。方法内の一つ以上の段階は、本開示内容の原理を変更することなく異なる順序で(または同時に)実行され得ることが理解されるべきである。また、それぞれの実施例は所定の特徴を有するものとして前述されたが、本開示内容の任意の実施例と関連して記述されたこれらの特徴のうち、任意の一つ以上は任意の異なる実施例の特徴で具現され/されるか結合され得るが、その組み合わせは明示的に記述されはしない。換言すると、記述された実施例は相互に排他的ではなく、一つ以上の実施例の互いの順列は本開示内容の範囲内にある。
要素(例えば、モジュール、回路素子、半導体層など)の間の空間および機能的な関係は、「連結された」、「関連した」、「結合された」、「隣接した」、「近接した」、「上部に」、「上に」、「下に」、および「配置された」を含む多様な用語を使って説明される。第1および第2要素の間の関係が前記開示内用で説明される時、「直接的な」ものと明示的に言及されない限り、その関係は他の中間要素が第1および第2要素の間に存在しない直接的な関係でもよいが、一つ以上の介在要素が第1要素と第2要素の間に(空間的にまたは機能的に)存在する間接的な関係でもよい。本明細書に使われた通り、語句A、B、およびCのうち少なくとも一つは、非排他的論理ORを使って論理(A OR B OR C)を意味するものと解釈されるべきであり、「Aのうち少なくとも一つ、Bのうち少なくとも一つおよびCのうち少なくとも一つ」を意味するものと解釈されてはならない。
図面で、矢印で示した矢印の方向は、一般的に例示において関連性のある(of interest)情報(例えば、データまたは命令語)の流れを示す。例えば、要素Aと要素Bが多様な情報を交換するが、要素Aから要素Bに送信される情報が例示と関連がある場合、矢印は要素Aから要素Bに向かって示され得る。このような単方向の矢印はいかなる他の情報も要素Bから要素Aに送信されないことを暗示するものではない。また、要素Aから要素Bに伝送された情報に対して、要素Bは要素Aに対する情報の要請または受信応答確認を伝送することができる。
下記の定義を含んで本出願で用語「モジュール」または用語「制御器」は用語、「回路」で代替され得る。用語「モジュール」はASIC(Application Specific Integrated Circuit);デジタル、アナログまたは混合アナログ/デジタル離散回路;デジタル、アナログまたは混合アナログ/デジタル集積回路;組み合わせ論理回路;FPGA(Field Programmable Gate Array);コードを実行するプロセッサ回路(共有、専用またはグループ);プロセッサ回路によって実行されるコードを保存するメモリ回路(共有、専用またはグループ);説明された機能を提供する他の適合したハードウェアコンポーネント;またはSystem−on−Chipでのように、前記の一部又は全部の組み合わせを指称したり、その一部であるか、またはそれを含むことができる。
モジュールは一つ以上のインターフェース回路を含むことができる。一部の例において、インターフェース回路は近距離通信網(LAN)、インターネット、広域通信網(WAN)またはこれらの組み合わせに連結された有線または無線インターフェースを含むことができる。本開示内容の任意の与えられたモジュールの機能は、インターフェース回路を通じて結合された多数のモジュールに分散され得る。例えば、多数のモジュールが負荷分散(load balancing)を許容することができる。他の例において、サーバー(遠隔またはクラウドとも知られている)モジュールはクライアントモジュールの代わりに一部の機能を達成することができる。
前記使われた用語、コードはソフトウェア、ファームウェアおよび/またはマイクロコードを含むことができ、プログラム、ルーチン、機能、クラス、データ構造および/または客体を指称することができる。用語、共有プロセッサ回路は多数のモジュールから一部またはすべてのコードを実行する単一プロセッサ回路を含む。用語、グループプロセッサ回路は追加のプロセッサ回路と結合して一つ以上のモジュールから一部またはすべてのコードを実行するプロセッサ回路を含む。多重プロセッサ回路に対する言及は、個別ダイ上の多重プロセッサ回路、単一ダイ上の多重プロセッサ回路、単一プロセッサ回路の多重コア、単一プロセッサ回路の多重スレッド、またはこれらの組み合わせを含む。用語、共有メモリ回路は多数のモジュールの一部またはすべてのコードを保存する単一メモリ回路を含む。用語、グループメモリ回路は追加のメモリと結合して、一つ以上のモジュールからの一部またはすべてのコードを保存するメモリ回路を含む。
用語、メモリ回路は用語、コンピュータ読み取り可能媒体のサブセットである。本明細書で使われる用語、コンピュータ読み取り可能媒体は(例えば、搬送波上で)媒体を通じて伝播する一時的な電気または電磁信号を含まず;したがって用語、コンピュータ読み取り可能媒体は類型(tangible)であり、非一過性のものと見なされ得る。非一過性、類型のコンピュータ読み取り可能媒体の制限的でない例は不揮発性メモリ回路(例えば、フラッシュメモリ回路、消去可能プログラム可能読み取り専用メモリ回路またはマスク読み取り専用メモリ回路)、揮発性メモリ回路(例えば、スタティックランダムアクセスメモリ回路またはダイナミックランダムアクセスメモリ回路)、磁気保存媒体(例えば、アナログまたはデジタル磁気テープまたはハードディスクドライブ)、および光学保存媒体(例えば、CD、DVDまたはBlu−ray(登録商標)ディスク)である。
本出願に説明された装置および方法は、コンピュータプログラムで具現された一つ以上の特定の機能を実行するように汎用コンピュータを構成することによって生成された特殊目的コンピュータによって部分的にまたは完全に具現され得る。前述した機能ブロック、フローチャートコンポーネントおよびその他の要素は、熟練した技術者またはプログラマーの日常的な作業によってコンピュータプログラムに変換され得るソフトウェア仕様としての役割を有する。
コンピュータプログラムは少なくとも一つの非一過性、類型のコンピュータ読み取り可能媒体に保存されたプロセッサ実行可能命令語を含む。コンピュータプログラムはまた、保存されたデータを含んだりそれに依存し得る。コンピュータプログラムは特殊目的コンピュータのハードウェアと相互作用する基本入/出力システム(BIOS)、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、一つ以上の運営体制、使用者アプリケーション、背景サービス、背景アプリケーションなどを含むことができる。
コンピュータプログラムは次を含むことができる:(i)ハイパーテキストマークアップ言語(HTML)、拡張性生成言語(XML)またはジャバスクリプト客体表記法(JSON)のようなパーシングされる(parsed)説明テキスト、(ii)アセンブリコード、(iii)コンパイラによってソースコードから生成された客体コード、(iv)インタープリタによる実行のためのソースコード、(v)JIT(just−in−time)コンパイラによるコンパイリングおよび実行のためのソースコードなど。例えば、ソースコードはC、C++、C#、Objective−C、Swift、Haskell、Go、SQL、R、Lisp、Java 、Fortran、Perl、Pascal、Curl、OCaml、Javascript 、HTML5(ハイパーテキストマークアップ言語5次改訂)、Ada、ASP(Active Server Pages)、PHP (PHP:Hyperte×t Preprocessor)、Scala、Eiffel、Smalltalk、Erlang、Ruby、Flash 、Visual Basic 、Lua、MATLAB、SIMULINKおよびPythonを含んだ言語の構文を使って作成され得る。

Claims (22)

  1. 質問応答システムであって、
    ネットワークを通じてコンピューティングデバイスから、第1複数の単語を含む質問を受信し、前記質問を第1ベクター表現でエンコーディングするように構成された第1エンコーダモジュール;
    文書(D)を第2ベクター表現でエンコーディングするように構成された第2エンコーダモジュールであって、前記文書は第2複数の単語を含む、第2エンコーダモジュール;
    前記第1ベクター表現および前記第2ベクター表現に基づいて第3ベクター表現を生成するように構成された第1読み取りモジュール;
    前記第1ベクター表現に基づいて前記質問に対する第1再定式化されたベクター表現を生成するように構成された第1再定式化モジュール;
    前記第2ベクター表現および前記第1再定式化されたベクター表現に基づいて第5ベクター表現を生成するように構成された第2読み取りモジュール;
    前記第1再定式化されたベクター表現に基づいて前記質問に対する第2再定式化されたベクター表現を生成するように構成された第2再定式化モジュール;および
    前記第2再定式化されたベクター表現に基づいて前記質問に対する応答を決定し、前記ネットワークを通じて前記コンピューティングデバイスに前記応答を伝送するように構成された応答モジュール;
    を含む質問応答システム。
  2. 前記第1エンコーダモジュールおよび前記第2エンコーダモジュールのそれぞれは、単語レベルエンコーディング、文字レベルエンコーディング、および単語レベルエンベッディングと文字レベルエンコーディングの両方のうち一つを実行するように構成される、請求項1に記載の質問応答システム。
  3. 前記第1再定式化モジュールは、前記第2ベクター表現にさらに基づいて前記第1再定式化されたベクター表現を生成するように構成される、請求項1に記載の質問応答システム。
  4. 前記第2再定式化モジュールは、前記第2ベクター表現にさらに基づいて前記第2再定式化されたベクター表現を生成するように構成される、請求項1に記載の質問応答システム。
  5. 前記応答モジュールは、前記第2ベクター表現にさらに基づいて前記応答を生成するように構成される、請求項1に記載の質問応答システム。
  6. 前記第1ベクター表現の次元をあらかじめ決定された次元に調整するように構成されたマックスプーリングモジュールをさらに含む、請求項1に記載の質問応答システム。
  7. 前記第2ベクター表現および前記第2再定式化されたベクター表現に基づいて第5ベクター表現を生成するように構成された第3読み取りモジュール;および
    前記第2再定式化されたベクター表現に基づいて前記質問に対する第3再定式化されたベクター表現を生成するように構成された第3再定式化モジュール;
    をさらに含み、
    前記応答モジュールは前記第3再定式化されたベクター表現に基づいて前記質問に対する前記応答を決定するように構成される、請求項1に記載の質問応答システム。
  8. 前記第1読み取りモジュールは、(a)前記文書のそれぞれの単語が応答範囲(answer span)の最初となる確率と(b)前記文書のそれぞれの単語が前記応答範囲の最終となる確率をそれぞれ表現する(a)第1セットの確率および(b)第2セットの確率を決定するように構成され、前記応答範囲は前記質問に正しく応答する前記文書の単語の範囲である、請求項1に記載の質問応答システム。
  9. 前記第1セットの確率および前記第2セットの確率に基づいて、前記第2ベクター表現のエントリが前記応答範囲の一部となる確率のアテンションベクターを決定するように構成された抽出アテンションモジュールをさらに含む、請求項8に記載の質問応答システム。
  10. 前記第1再定式化モジュールは、前記アテンションベクターの値に基づいて前記第2ベクター表現の加重値エントリを適用することによって加重化された第2ベクター表現を生成し、前記加重化された第2ベクター表現に基づいて前記第1再定式化されたベクター表現を決定するように構成される、請求項9に記載の質問応答システム。
  11. 前記第1ベクター表現の次元をあらかじめ決定された次元に調整するように構成されたマックスプーリングモジュールをさらに含み、
    前記第1再定式化モジュールは、前記加重化された第2ベクター表現の次元を前記あらかじめ決定された次元に調整するように構成される、請求項10に記載の質問応答システム。
  12. 前記第1再定式化モジュールは双方向ゲートリカレントユニット(BiGRU)を含み、前記第2再定式化モジュールはBiGRUを含む、請求項1に記載の質問応答システム。
  13. 前記第2エンコーダモジュールは、単語レベルエンコーディングおよび文字レベルエンコーディングの結合に基づいて前記第2ベクター表現を生成するように構成される、請求項1に記載の質問応答システム。
  14. 前記応答モジュールは、前記応答がはいである第1確率、前記応答がいいえである第2確率、前記応答が前記文書の前記第2複数の単語中の前記単語の範囲である第3確率を決定するようにさらに構成される、請求項1に記載の質問応答システム。
  15. 前記応答モジュールは
    前記第1確率が前記第2確率および前記第3確率より大きい場合、前記応答をはいに設定し;
    前記第2確率が前記第1確率および前記第3確率より大きい場合、前記応答をいいえに設定し;
    前記第3確率が前記第1確率および前記第2確率より大きい場合、前記応答を前記単語の範囲に設定するように構成される、請求項14に記載の質問応答システム。
  16. 前記コンピューティングデバイスをさらに含み、
    前記コンピューティングデバイスは、
    ディスプレイ上に前記応答をディスプレイすること;および
    少なくとも一つのスピーカーを通じて前記応答を出力すること;
    のうち少なくとも一つをするように構成される、請求項1に記載の質問応答システム。
  17. 前記コンピューティングデバイスをさらに含み、
    前記コンピューティングデバイスはマイクロホンを通じて前記質問を受信するように構成される、請求項1に記載の質問応答システム。
  18. 前記応答モジュールは4個の双方向ゲートリカレントユニットおよび4個の完全結合階層を含む、請求項1に記載の質問応答システム。
  19. 訓練システムであって、
    請求項1に記載された前記質問応答システム;および
    質問に対する応答のサポート因子に関する第1損失、単語の範囲に関する第2損失、および応答の分類に関する第3損失を最小化することによって前記質問応答システムを訓練させるように構成された訓練モジュール;
    を含む訓練システム。
  20. 質問応答システムであって、
    ネットワークを通じてコンピューティングデバイスから第1複数の単語を含む質問を受信し、前記質問を第1ベクター表現でエンコーディングするための手段;
    文書(D)を第2ベクター表現でエンコーディングするための手段であって、前記文書は第2複数の単語を含む、手段;
    前記第1ベクター表現および前記第2ベクター表現に基づいて第3ベクター表現を生成するための手段;
    前記第1ベクター表現に基づいて前記質問に対する第1再定式化されたベクター表現を生成するための手段;
    前記第2ベクター表現および前記第1再定式化されたベクター表現に基づいて第5ベクター表現を生成するための手段;
    前記第1再定式化されたベクター表現に基づいて前記質問に対する第2再定式化されたベクター表現を生成するための手段;および
    前記第2再定式化されたベクター表現に基づいて前記質問に対する応答を決定し、前記ネットワークを通じて前記コンピューティングデバイスに前記応答を伝送するための手段;
    を含む質問応答システム。
  21. 質問応答方法であって、
    一つ以上のプロセッサによって、ネットワークを通じてコンピューティングデバイスから第1複数の単語を含む質問を受信し、前記質問を第1ベクター表現でエンコーディングする段階;
    前記一つ以上のプロセッサによって、文書(D)を第2ベクター表現でエンコーディングする段階であって、前記文書は第2複数の単語を含む、段階;
    前記一つ以上のプロセッサによって、前記第1ベクター表現および前記第2ベクター表現に基づいて第3ベクター表現を生成する段階;
    前記一つ以上のプロセッサによって、前記第1ベクター表現に基づいて前記質問に対する第1再定式化されたベクター表現を生成する段階;
    前記一つ以上のプロセッサによって、前記第2ベクター表現および前記第1再定式化されたベクター表現に基づいて第5ベクター表現を生成する段階;
    前記一つ以上のプロセッサによって、前記第1再定式化されたベクター表現に基づいて前記質問に対する第2再定式化されたベクター表現を生成する段階;
    前記一つ以上のプロセッサによって、前記第2再定式化されたベクター表現に基づいて前記質問に対する応答を決定する段階;および
    前記一つ以上のプロセッサによって、前記ネットワークを通じて前記コンピューティングデバイスに前記応答を伝送する段階を含む、質問応答方法。
  22. 文書を使って質問に応答するためのシステムであって、
    (A)順次的なホップの複数のコンポーネントであって、第1コンポーネントホップは第2コンポーネントホップと順次カップリングされ、
    (a)前記第1コンポーネントホップは第1再定式化モジュールにカップリングされた第1読み取りモジュールを含み、
    (i)前記第1読み取りモジュールは前記質問および前記文書を受信し、前記文書の第1質問認識表現を前記第1再定式化モジュールに出力するように構成され、
    (ii)前記第1再定式化モジュールは前記文書の前記第1質問認識表現から要素を抽出し、前記質問の第1アップデート表現を演算するように構成され、
    (b)前記第2コンポーネントホップは第2再定式化モジュールにカップリングされた第2読み取りモジュールを含み、
    (i)前記第2読み取りモジュールは前記質問の前記第1アップデートされた表現および前記文書を受信し、前記文書の第2質問認識表現を前記第2再定式化モジュールに出力するように構成され、
    (ii)前記第2再定式化モジュールは前記文書の前記第2質問認識表現から要素を抽出し、前記質問の第2アップデート表現を演算するように構成され、複数のコンポーネント;
    (B)複数の並列ヘッドであって、前記複数の並列ヘッドそれぞれは、(A)前記順次的なホップの複数のコンポーネントの独立的なインスタンスを含む、複数の並列ヘッド;および
    (C)応答モジュール;
    を含み、前記応答モジュールは
    前記複数の並列ヘッドによって出力された前記文書のアップデートされた表現をそれぞれ受信し;
    前記文書の前記アップデートされた表現に基づいて、前記質問に対する応答および前記質問に対する前記応答の、前記文書内のサポート因子を決定するように構成される、システム。
JP2020160062A 2020-02-06 2020-09-24 マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積 Pending JP2021125217A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202062971100P 2020-02-06 2020-02-06
US62/971,100 2020-02-06
US17/015,501 US11893060B2 (en) 2020-02-06 2020-09-09 Latent question reformulation and information accumulation for multi-hop machine reading
US17/015,501 2020-09-09

Publications (1)

Publication Number Publication Date
JP2021125217A true JP2021125217A (ja) 2021-08-30

Family

ID=77273480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020160062A Pending JP2021125217A (ja) 2020-02-06 2020-09-24 マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積

Country Status (3)

Country Link
US (1) US11893060B2 (ja)
JP (1) JP2021125217A (ja)
KR (1) KR20210100517A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893060B2 (en) * 2020-02-06 2024-02-06 Naver Corporation Latent question reformulation and information accumulation for multi-hop machine reading
US11727209B2 (en) * 2020-04-27 2023-08-15 Adobe Inc. Systems for role classification
CN112257393B (zh) * 2020-12-22 2021-04-13 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
US11520815B1 (en) * 2021-07-30 2022-12-06 Dsilo, Inc. Database query generation using natural language text
CN113836283B (zh) * 2021-09-24 2024-04-12 上海金仕达软件科技股份有限公司 答案的生成方法、装置、电子设备及存储介质
CN114254107B (zh) * 2021-11-30 2023-03-24 重庆邮电大学 一种事件抽取系统及方法
US20230316000A1 (en) * 2022-04-05 2023-10-05 Nvidia Corporation Generation of conversational responses using neural networks
CN114780707B (zh) * 2022-06-21 2022-11-22 浙江浙里信征信有限公司 基于多跳推理联合优化的多跳问题回答方法
CN115114932B (zh) * 2022-06-24 2024-06-28 重庆邮电大学 一种基于关键词的多粒度中文短文本匹配方法
CN117033613B (zh) * 2023-08-18 2024-05-14 中航信移动科技有限公司 一种应答文本的生成方法、电子设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963789B2 (en) * 2016-11-28 2021-03-30 Conduent Business Services, Llc Long-term memory networks for knowledge extraction from text and publications
US10839790B2 (en) * 2017-02-06 2020-11-17 Facebook, Inc. Sequence-to-sequence convolutional architecture
US11620506B2 (en) * 2017-09-18 2023-04-04 Koninklijke Philips N.V. Condensed memory networks
US11170287B2 (en) * 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US11227218B2 (en) * 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
GB201803805D0 (en) * 2018-03-09 2018-04-25 Cambridge Entpr Ltd Smart Stethoscopes
US11630987B2 (en) * 2018-04-30 2023-04-18 International Business Machines Corporation Neural belief reasoner
US11076039B2 (en) * 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11514915B2 (en) * 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
WO2020069533A1 (en) * 2018-09-29 2020-04-02 Brainworks Method, machine-readable medium and system to parameterize semantic concepts in a multi-dimensional vector space and to perform classification, predictive, and other machine learning and ai algorithms thereon
US20200134449A1 (en) * 2018-10-26 2020-04-30 Naver Corporation Training of machine reading and comprehension systems
US10853394B2 (en) * 2018-11-02 2020-12-01 Optum, Inc. Method, apparatus and computer program product for a hybrid question-answering (QA) system with a question classification model
US11544259B2 (en) * 2018-11-29 2023-01-03 Koninklijke Philips N.V. CRF-based span prediction for fine machine learning comprehension
CN109754012A (zh) * 2018-12-29 2019-05-14 新华三大数据技术有限公司 实体语义关系分类方法、模型训练方法、装置及电子设备
US11727243B2 (en) * 2019-01-30 2023-08-15 Baidu Usa Llc Knowledge-graph-embedding-based question answering
US10937416B2 (en) * 2019-02-01 2021-03-02 International Business Machines Corporation Cross-domain multi-task learning for text classification
US11366969B2 (en) * 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
DK180129B1 (en) * 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11657094B2 (en) * 2019-06-28 2023-05-23 Meta Platforms Technologies, Llc Memory grounded conversational reasoning and question answering for assistant systems
US11442992B1 (en) * 2019-06-28 2022-09-13 Meta Platforms Technologies, Llc Conversational reasoning with knowledge graph paths for assistant systems
US11271876B2 (en) * 2019-08-22 2022-03-08 Adobe Inc. Utilizing a graph neural network to identify supporting text phrases and generate digital query responses
US11113479B2 (en) * 2019-09-12 2021-09-07 Adobe Inc. Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
US11423093B2 (en) * 2019-09-25 2022-08-23 Microsoft Technology Licensing, Llc Inter-document attention mechanism
US11132994B1 (en) * 2019-11-05 2021-09-28 Amazon Technologies, Inc. Multi-domain dialog state tracking
US11461613B2 (en) * 2019-12-05 2022-10-04 Naver Corporation Method and apparatus for multi-document question answering
US11501080B2 (en) * 2019-12-30 2022-11-15 Accenture Global Solutions Limited Sentence phrase generation
US11288324B2 (en) * 2020-01-22 2022-03-29 Adobe Inc. Chart question answering
US11893060B2 (en) * 2020-02-06 2024-02-06 Naver Corporation Latent question reformulation and information accumulation for multi-hop machine reading

Also Published As

Publication number Publication date
US11893060B2 (en) 2024-02-06
US20210256069A1 (en) 2021-08-19
KR20210100517A (ko) 2021-08-17

Similar Documents

Publication Publication Date Title
JP2021125217A (ja) マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
KR101950985B1 (ko) 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
CN106997370B (zh) 基于作者的文本分类和转换
CN106910497B (zh) 一种中文词语发音预测方法及装置
US20170351663A1 (en) Iterative alternating neural attention for machine reading
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN113127624B (zh) 问答模型的训练方法及装置
CN108604311B (zh) 利用层级式外部存储器的增强神经网络
KR101896973B1 (ko) 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
US11875120B2 (en) Augmenting textual data for sentence classification using weakly-supervised multi-reward reinforcement learning
CN114676234A (zh) 一种模型训练方法及相关设备
US10872208B2 (en) Sentence conversion system, sentence conversion method, and information storage medium
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN117216544A (zh) 模型训练方法、自然语言处理方法、装置及存储介质
CN114462425B (zh) 社交媒体文本处理方法、装置、设备及存储介质
CN116341564A (zh) 基于语义理解的问题推理方法和装置
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN112307738B (zh) 用于处理文本的方法和装置
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
Chen [Retracted] Analysis of Intelligent Translation Systems and Evaluation Systems for Business English
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置
JP7473583B2 (ja) 長い文書の要約のためのモデルグローバル化
KR102510645B1 (ko) 한글 단어 임베딩에서의 어휘 밖 단어표현을 처리하기 위한 방법, 이를 수행하기 위한 기록 매체 및 시스템

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20201014

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240828