JP2019537126A - マルチドメインリアルタイム質問回答システム - Google Patents

マルチドメインリアルタイム質問回答システム Download PDF

Info

Publication number
JP2019537126A
JP2019537126A JP2019521120A JP2019521120A JP2019537126A JP 2019537126 A JP2019537126 A JP 2019537126A JP 2019521120 A JP2019521120 A JP 2019521120A JP 2019521120 A JP2019521120 A JP 2019521120A JP 2019537126 A JP2019537126 A JP 2019537126A
Authority
JP
Japan
Prior art keywords
question
questions
received
answer
semantic space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019521120A
Other languages
English (en)
Other versions
JP6684391B2 (ja
Inventor
ヴァルマ ダットラ,ヴィヴェック
ヴァルマ ダットラ,ヴィヴェック
ハサン,シャイフ サディッド アル
ハサン,シャイフ サディッド アル
フェイセタン ファッリ,オラディメジ
フェイセタン ファッリ,オラディメジ
リウ,ジュンイ
ミ ヨン リー,キャシー
ミ ヨン リー,キャシー
カディール,アシュクル
プラカシュ,アディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2019537126A publication Critical patent/JP2019537126A/ja
Application granted granted Critical
Publication of JP6684391B2 publication Critical patent/JP6684391B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

自動質問回答のためのシステム(1000)は、質問及び回答のコーパスから生成される意味空間(210)と;質問を受け取るように構成されたユーザインターフェイス(1030)と;プロセッサ(1100)と;を含み、プロセッサは、(i)質問をドメイン、キーワード、及び焦点ワードに分解するように構成された質問分解エンジン(1050)と;(ii)分解された質問を使用して意味空間内の1つ又は複数の質問を特定するように構成された質問類似性生成器(1060)と;(iii)意味空間から、1つ又は複数の特定された質問に関連する回答を抽出し、抽出された回答のうちの1つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジン(1080)と;(iv)ドメイン、キーワード、及び焦点ワードのうちの1つ又は複数を使用して、特定された最良の回答を微調整するように構成された回答調整エンジン(1090)と;を含み、微調整された回答は、ユーザインターフェイスを介してユーザに提供される。

Description

本開示は、概して、マルチドメイン質問に対する人間のような回答をリアルタイムで提供することができる自動質問回答方法及びシステムに関する。
人々は、回答を提供するように設計された自動システムに質問を益々投げかけている。典型的に、人々が尋ねる質問は、主観的なものであり、且つ固有の傾向、好み、及びその他の複雑さを伴うため、正確な自動回答を提供するのを困難にする。
自動質問回答(QA(Question Answering))は、自然言語処理における一般的な研究分野である。それは、典型的に、質問の理解、質問の焦点の特定、及び回答の生成等、いくつかの要素を含む複雑な計算タスクである。典型的に、人々が尋ねる質問は、主観的なものであり、且つ固有の傾向、好み、感情、及び他の複雑さを伴うため、正確な自動回答を提供するのを困難にする。主観、感情、及び質問の焦点を特定することに関連する問題に加えて、QAシステムは、リアルタイムで、大抵の場合1分以内に回答を提供しなければならない。生成される回答も人間的である必要があり、これは、正確であることに加えて、通常の人間の応答のように構造化され、且つ文法的に正しくなければならない。提供される回答が簡潔であることも望ましい。
既存のQAシステムは、知識主導型の、焦点が絞られ、曖昧さが少なく、及びイベント主導型のファクトイド(factoid)ベースの質問に回答することに殆ど焦点が当てられており、これらは、通常、回答のための言い回しを有している。ファクトイドベースの質問は、人間の主観及び考えにそれほど強く影響されないため、回答し易い。これら既存のQAシステムは、典型的に、関係する質問の焦点を理解しておらず、質問の感情的又は主観的な要素を理解又は評価していない。従って、既存のQAシステムは、質問者の焦点、感情、又は主観性に沿った情報を提供することができない。
多数のトピックに亘るマルチドメイン質問に対する人間のような回答をリアルタイムで提供することができる自動質問回答システム及び方法が引き続き必要とされている。
本開示は、自動質問回答のための独創的な方法及びシステムに関する。本明細書の様々な実施形態及び実施態様は、質問のドメイン及び焦点を理解することによってユーザの質問を分解するシステムを対象としている。事前訓練された質問ドメイン特定モデルは、ディープラーニングベースのアンサンブル技術を使用することができ、且つ双方向リカレントニューラルネットワーク(RNN)ベースのエンコーダ−デコーダアーキテクチャを利用することができ、ここでエンコーダが質問記述を固定長ベクトルに変換し、そこからデコーダが対応するドメインワードを生成する。分解された質問は、既存のコーパスを使用して構築された潜在的意味解析(LSA)/潜在的ディリクレ(Dirichlet)配分(LDA)意味空間に亘って検索される。ユーザが尋ねた質問と強い類似性を有する質問が特定されると、システムは、以前に尋ねられた最も類似している質問に与えられた回答を抽出し、特定された焦点及びドメインとの重なりに基づいてそれら回答をランク付けする。質問に与えられた最良の回答は、特定された焦点及びドメインに関して再構築される。一実施形態によれば、システムは、質問にリアルタイムで簡潔に回答するように最適化することができる。
一般に一態様では、自動質問回答のためのシステムが提供される。このシステムは、質問及び回答のコーパスから生成される意味空間と、ユーザから質問を受け取るように構成されたユーザインターフェイスと、プロセッサとを含み、プロセッサは、(i)受け取った質問を少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードに分解するように構成された質問分解エンジンと;(ii)分解された質問を使用して意味空間内の1つ又は複数の質問を特定するように構成された質問類似性生成器であって、特定された1つ又は複数の質問は受け取った質問と類似すると判定される、質問類似性生成器と;(iii)意味空間から、1つ又は複数の特定された質問に関連する回答を抽出し、抽出された回答のうちの1つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジンと;(iv)少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードのうちの1つ又は複数を使用して、特定された最良の回答を微調整するように構成された回答調整エンジンと;を含み、微調整された回答は、ユーザインターフェイスを介してユーザに提供される。
一実施形態によれば、システムは、質問及び回答のコーパスをさらに含み、質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる。
一実施形態によれば、システムは、受け取った質問からテキストを抽出すること、受け取った質問の文をセグメント化すること、及び受け取った質問の綴りを訂正することの1つ又は複数を含む、受け取った質問を前処理するように構成される前処理エンジンをさらに含む。
一実施形態によれば、システムは、意味空間を格納するように構成された意味空間データベースをさらに含む。
一実施形態によれば、システムは、受け取った質問との類似性に基づいて、1つ又は複数の特定された質問をランク付けするように構成された構文上及び意味上の関連性エンジンをさらに含む。
一般に、一態様では、自動質問回答のための方法が提供される。この方法は、(i)ユーザインターフェイス、プロセッサ、及び生成された意味空間を含む自動質問回答システムを提供するステップと;(ii)ユーザインターフェイスを介して、回答が要求される質問を受け取るステップと;(iii)プロセッサによって、受け取った質問を少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードに分解するステップと;(iv)プロセッサによって、分解された質問を使用して、意味空間内の1つ又は複数の質問を特定するステップであって、特定された1つ又は複数の質問は、受け取った質問に類似すると判定される、特定するステップと;(v)プロセッサによって、受け取った質問との類似性に基づいて、1つ又は複数の特定された質問をランク付けするステップと;(vi)プロセッサによって、意味空間から1つ又は複数の特定された質問に関連する回答を抽出するステップと;(vii)プロセッサによって、抽出された回答のうちの1つ又は複数を最良の回答として特定するステップと;(viii)プロセッサによって、少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードのうちの1つ又は複数を使用して、特定された最良の回答を微調整するステップと;(ix)ユーザインターフェイスを介して、微調整された最良の回答を受け取った質問に対する回答として提供するステップと;を含む。
一実施形態によれば、方法は、質問及び回答のコーパスから意味空間を作成するステップをさらに含み、質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる。
一実施形態によれば、生成された意味空間はデータベースに格納される。
一実施形態によれば、意味空間内の質問にはベクトルが含まれ、分解された質問にはベクトルが含まれ、意味空間内の質問のベクトルは分解された質問のベクトルと比較される。ベクトル比較が所定の閾値を上回る場合に、意味空間内の質問は類似していると特定される。一実施形態によれば、所定の閾値は余弦値を含む。
一実施形態によれば、方法は、プロセッサによって、受け取った質問からテキストを抽出すること、受け取った質問の文をセグメント化すること、及び受け取った質問の綴りを訂正することの1つ又は複数を含む、受け取った質問を前処理するステップをさらに含む。
一実施形態によれば、受け取った質問との類似性に基づいて、1つ又は複数の特定された質問をランク付けするステップは、特定された質問の意味解析及び/又は構文解析を含む。
一実施形態によれば、抽出された回答のうちの1つ又は複数を最良の回答として特定するステップは、抽出された回答のランク付けを含む。
一実施形態によれば、システムは事前訓練された質問ドメイン分類器をさらに含み、受け取った質問は、事前訓練された質問ドメイン分類器により少なくとも部分的に基づいて分解される。
様々な実施態様において、プロセッサ又はコントローラは、1つ又は複数の記憶媒体(本明細書では「メモリ」と総称され、例えば、RAM、PROM、EPROM、及びEEPROM、フロッピーディスク、コンパクトディスク、光ディスク、磁気テープ等の揮発性及び不揮発性コンピュータメモリ)に関連付けられ得る。いくつかの実施態様では、記憶媒体は、1つ又は複数のプロセッサ及び/又はコントローラ上で実行されると、本明細書で議論される機能の少なくともいくつかを実行する1つ又は複数のプログラムで符号化され得る。本明細書で議論される本発明の様々な態様を実施するために、様々な記憶媒体をプロセッサ又はコントローラ内に固定してもよく、又はそこに記憶された1つ又は複数のプログラムをプロセッサ又はコントローラにロードできるように移動可能にしてもよい。「プログラム」又は「コンピュータプログラム」という用語は、本明細書では一般的な意味で使用されて、1つ又は複数のプロセッサ又はコントローラをプログラムするのに使用することができる任意の種類のコンピュータコード(例えば、ソフトウェア又はマイクロコード)を指す。
本明細書で使用される「ネットワーク」という用語は、任意の2つ以上の装置の間及び/又はネットワークに結合された複数の装置の間の(例えば、装置制御、データ記憶、データ交換等のための)情報の転送を容易にする(コントローラ又はプロセッサを含む)2つ以上の装置の任意の相互接続を指す。容易に理解されるように、複数の装置を相互接続するのに適したネットワークの様々な実施態様は、様々なネットワークトポロジのうちのいずれかを含み、且つ様々な通信プロトコルのうちのいずれかを使用することができる。さらに、本開示による様々なネットワークでは、2つの装置同士の間の任意の1つの接続は、2つのシステム同士の間の専用接続、或いは非専用接続を表すことができる。2つの装置を対象とした情報を搬送することに加えて、そのような非専用接続は、必ずしも2つの装置のうちのどちらも対象としていない情報を搬送することがある(例えば、オープンネットワーク接続)。さらに、本明細書で議論されるような装置の様々なネットワークは、ネットワーク全体に亘る情報転送を容易にするために、1つ又は複数のワイヤレス、ワイヤ/ケーブル、及び/又は光ファイバリンクを使用することができることを容易に理解すべきである。
前述した概念と以下でさらに詳細に議論される追加の概念との全ての組合せが(そのような概念が互いに矛盾しない限り)、本明細書に開示される発明の主題の一部であると考えられることを理解すべきである。特に、本開示の最後に現れる特許請求の範囲に記載された主題の全ての組合せは、本明細書に開示される発明の主題の一部であると考えられる。また、参照により本明細書に組み込まれる任意の開示にも現れる可能性がある本明細書で明示的に使用される用語は、本明細書で開示される特定の概念と最も矛盾しない意味に一致するはずであることも理解すべきである。
本発明のこれら及び他の態様は、以下に記載される実施形態を参照して説明され且つ明らかになるであろう。
図面において、同様の参照文字は、一般的に、異なる図を通して同じ部分を指す。また、図面は必ずしも一定の縮尺ではなく、代わりに、本発明の原理を説明する際に強調がなされる。
一実施形態による自動質問回答のための方法のフローチャートである。 一実施形態による意味空間を作成する方法のフローチャートである。 一実施形態による質問分解のための方法のフローチャートである。 一実施形態による質問分解のための方法のフローチャートである。 一実施形態による意味空間内の質問を特定する方法のフローチャートである。 一実施形態による意味空間内の質問を特定する方法のフローチャートである。 一実施形態による特定された質問をランク付けする方法のフローチャートである。 一実施形態による抽出された回答をランク付けし微調整する方法のフローチャートである。 一実施形態による自動質問回答のための方法のフローチャートである。 一実施形態による自動質問回答のためのシステムの概略図である。
本開示は、自動質問回答システムの様々な実施形態を説明する。より一般的には、出願人は、主観的質問に対する人間のような回答をリアルタイムでより正確に提供するシステムを提供することが有益であることを認識し理解している。自動質問回答システムは、ユーザの質問を受け取り、1つ又は複数のドメイン、焦点(focus)ワード、及び/又はキーワードを抽出する。システムは、分解された質問を意味空間に亘って比較し、且つ提起された質問と非常に類似している記憶された質問を特定する。次に、システムは、提起された質問に最も類似している、これら質問に対する回答を抽出し、且つ抽出された焦点ワード及びドメインに対する類似性又は重なりに基づいて、それらの回答をランク付けする。最良の回答が特定されてユーザに提供される。
図1を参照すると、一実施形態において、この図は、自動質問回答システムのための方法100のフローチャートである。方法のステップ110において、自動質問回答システムが提供される。自動質問回答システムは、本明細書に説明されるかそうでなければ想定されるシステムのうちのいずれかであり得る。
方法のステップ120において、意味空間が、既存の又は生成された質問及び/又は回答のコーパスから作成される。一実施形態によれば、意味空間は、単語の意味を表現するための枠組みであり、典型的には数学的表現として提示される。意味空間は、情報検索を含む自然言語処理に役立つ。単語及び/又は句は、高次元ベクトルとして表すことができ、単語同士又は句同士の間の比較は、ほんの一例として、単語又は句を表すベクトル同士の間の角度の余弦を比較することによって行うことができるが、多くの他の方法が可能である。一実施形態によれば、方法のステップ120を一度実行して、多数の質問/回答解析に使用される意味空間を作成することができる。あるいはまた、意味空間は、定期的及び/又は連続的な基準で再作成又は更新してもよい。
潜在意味解析(LSA)は意味空間生成のための1つの方法である。LSAは自然言語処理の一種であり、意味が似ている単語が似たテキストに表示される。2つの単語を表す2つのベクトル同士の間の角度の余弦を比較すると、1に近い結果は類似した単語を表す一方、0に近い結果は似ていない単語を表す。潜在的ディリクレ配分(LDA)は意味空間作成のための別の方法である。LDAは自然言語処理の一種であり、統計モデルが、観察されたものを観察されていないグループによって説明できる(データの一部が類似している理由を説明する)ように形成される。LSA及びLDAに加えて、又はLSA及び/又はLDAに代わるものとして、意味空間を作成するための他の方法及びアルゴリズムが可能であり、それには語彙データベースの意味的及び類似性尺度の生成が含まれるがこれらに限定されるものではない。
意味空間を作成するために利用される既存の又は生成された質問及び回答のコーパスは、任意の公的及び/又は私的な情報源から取得することができる。一実施形態によれば、意味空間は、例えば、Yahoo(登録商標)の440万質問回答コーパス又は他の任意の質問/回答コレクションを用いて構築してもよい。いくつかのそのような実施形態は、全ての質問タイトルを選択し、それら質問タイトルを標準的なストップワード除去によってきれいにし、次に単語を語幹処理することができる。ほんの一例として、様々な実施形態は、300次元を有する意味空間を構築することができるが、これよりも多い又は少ない次元も可能である。他の実施形態は、同じ又は同様のクリーニング(cleaning)及び語幹処理プロセスに従うことができる。
図2を参照すると、一実施形態において、この図は、意味空間210を作成するための方法200のフローチャートである。一実施形態によれば、方法200は、本明細書で説明されるシステムの1つ又は複数のプロセッサによって実行される。あるいはまた、方法200は、遠隔の又は関係のないプロセッサによって実行してもよく、生成された意味空間は、本明細書に説明されるシステムのアルゴリズム又はプロセッサによって利用してもよい。220において、システムは質問及び/又は回答のコーパスを受け取る。システムは、230において、質問及び/又は回答のコーパスを含む1つ又は複数の文書をきれいに(clean)する。これは、文書の準備又はクリーニングのための現在又は将来の任意の方法によって実行することができる。240において、システムは用語−文書表現解析を実行し、ここで用語及び文書はマトリックスによって表される。例えば、文書コレクション内の各固有の用語をマトリックス内の行に割り当てることができ、そのコレクション内の各文書をマトリックス内の列に割り当てることができる。方法のステップ250において、特異値分解(SVD)が実行される。SVDは、段落毎の単語数を含むマトリックス(行は固有の単語を表し、列は各段落を表す)をテキストの大きな部分で構成するという数学的なアプローチである。一実施形態によれば、ステップ240又は250のいずれかを実行してもよく、又は両方のステップを実行してもよい。
方法のステップ130において、質問を受け取る。質問は、任意の方法又はシステム、又は任意の情報源を使用して受け取ることができる。例えば、質問は、モバイル装置、ラップトップ、デスクトップ、ウェアラブル装置、ホームコンピュータ装置、又は任意の他のコンピュータ装置から等、リアルタイムでユーザから受け取られ得る。質問は、他の多くの種類のユーザインターフェイスの中でも、マイク又はテキスト入力等、情報を受信するのを可能にする任意のユーザインターフェイスから受け取ることができる。あるいはまた、質問は、コンピュータ装置又は自動化システムから受信してもよい。例えば、ユーザのスマートフォンは、ユーザの行動、動き、位置、又は他の態様に関連するトピックについてシステムに問い合わせるようにプログラムしてもよい。
質問は任意のトピックに関するものであり得る。例えば、質問には、多くの質問、他の多くのタイプ、形式、及びバリエーションの質問の中でも、「自分の家を売るべきか?」、「自分にとって仕事をするのに最適な場所はどこであるか?」、「駐車場はどこであるか?」、「退職金に投資するのはなぜであるか?」等の質問が含まれ得る。質問は非常に狭くて特定のものでよく知られた一定の回答(「なぜ空は青であるか?」)であり得るか、又は広くて自由であり、おそらく未知で不定の回答(「私の家にはお化けがでるか?」)であり得る。
質問は、自動質問回答システムによって直接受け取ってもよく、又は遠隔で受け取って送信してもよく、或いはシステムに通信してもよい。例えば、自動質問回答システムは、質問を直接受け取るユーザインターフェイスを含み得る。あるいはまた、自動質問回答システムは、イントラネット又はインターネット等の任意の有線及び/又は無線ネットワークから質問を受信する通信モジュールを含み得る。
方法のステップ140において、質問分解エンジンは、受け取った質問を解析して、質問から1つ又は複数のドメイン、1つ又は複数のキーワード、及び1つ又は複数の焦点ワード等の1つ又は複数の要素を特定する。図3を参照すると、この図は、質問分解のための方法300のフローチャートである。質問310が受け取られ、この質問は、ドメイン分類エンジン320、ローカライズされた用語の頻度(term frequency)−逆文書頻度(inverse document frequency)エンジン330、及び/又は依存関係パーサ340のうちの1つ又は複数によって解析される。
一実施形態によれば、ドメイン分類エンジン320は、ディープラーニングベースのアンサンブル技術を用いて構築された事前訓練された質問ドメイン特定モデルを使用して受け取った質問310を解析する。様々な実施形態は、双方向リカレントニューラルネットワーク(RNN)ベースのエンコーダ−デコーダアーキテクチャを使用し、ここでエンコーダは質問記述を固定長ベクトルに変換し、そこからデコーダは対応するドメインワードを生成する。
一実施形態によれば、ローカライズされた用語の頻度−逆文書頻度エンジン330は、質問を解析して、ある単語が文書にとってどれほど重要であるかを判断し、それを重み係数として利用することができる。例えば、TFIDF値は、質問内の単語が訓練コーパス内に頻繁に現れる場合には、その単語の重みを下げることができる。TFIDFは、質問に関する焦点ワードを生成するために利用することができるランク付けされたキーワード350のリストを生成することができる。
一実施形態によれば、依存関係パーサ340は、文の文法構造を解析し、特定のキーワードとそれらのキーワードを修飾する単語との間の関係を確立する。依存関係パーサ340の出力は、他の解析の中でも、動詞句関係を特定するためにさらに解析され得る。
一実施形態によれば、質問分解エンジンの出力は、受け取った質問の1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワード等を含む1つ又は複数の要素とすることができる。
図4を参照すると、この図は、質問分解のための方法400の別のフローチャートである。質問410が受け取られ、その質問は、受け取った質問からテキストを特定及び/又は抽出し(音声ファイルをテキストに変換する等)、文をセグメント化し、及び/又はテキスト内の綴りを訂正する前処理エンジン420によって解析される。質問焦点生成エンジン430が、前処理された質問を解析して、1つ又は複数のキーワード、1つ又は複数の感情、1つ又は複数の動詞関係、及び1つ又は複数の焦点ワードを特定する。質問分解エンジン430は、図3に関して上記でより完全に説明しており、質問から1つ又は複数のドメイン、1つ又は複数のキーワード、及び1つ又は複数の焦点ワード等の1つ又は複数の要素を特定する。
一実施形態によれば、質問のクリーニング(明確化)のために、様々な実施形態は、ノイズとなる文字の除去、綴りの訂正、及び/又は文のセグメント化に焦点を合わせてもよい。質問に使用される言語は、例えば、非公式のソーシャルメディア言語又はスラング等である。様々な実施形態は、質問の本文及びタイトルをクリーニングするために同じステップを使用する。質問をクリーニングした後に、実施形態は、キーワード特定、感情特定、及び/又は焦点ワード生成に焦点を合わせることによって質問分解を実行することができる。
一実施形態によれば、質問分解エンジン430は、事前訓練されたアンサンブル質問ドメイン分類器440を利用する。分類器440は、ディープラーニングベースのアンサンブル技術を使用して構築された事前訓練された質問ドメイン特定モジュールを含み得る。例えば、分類器440は、双方向リカレントニューラルネットワーク(RNN)ベースのエンコーダ−デコーダアーキテクチャを利用することができ、ここでエンコーダは質問記述を固定長ベクトルに変換し、そこからデコーダは対応するドメインワードを生成する。質問ドメイン分類子を生成する他の方法も可能である。
図1の方法のステップ150において、分解された質問は生成された意味空間に対して検索され、受け取った質問と意味構造及び/又は焦点等において強い類似性を有する空間内の質問を特定する。1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを含み得る分解された質問は、様々な方法を使用して意味空間に対して検索することができる。受け取った質問と類似性を有する意味空間内の質問は、様々な方法を使用して特定することができる。
図5を参照すると、一実施形態において、この図は、受け取った質問と類似性を有する意味空間内の質問を特定する方法500のフローチャートである。1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを含む分解された質問は、質問分解エンジン430から受け取られ、質問類似性生成器510によって意味空間210に対して検索される。他の値も可能であるが、例えば、本明細書で説明されるかそうでなければ想定される方法の様々な実施形態は、0:7より大きい余弦類似度を有する意味空間内の質問を特定し得る。いくつかの実施形態は、実験、専門家による評価又は解析、機械学習、又は他の手法の後に閾値を選択し得る。次に、特定された質問は、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを使用してランク付けすることができる。
図6を参照すると、一実施形態において、この図は、受け取った質問と類似性を有する意味空間内の質問を特定する方法600のフローチャートである。1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを含む分解又は解釈された質問610が受け取られ、620においてベクトル表現に変換される。あるいはまた、分解又は解釈された質問は、ベクトル表現を生成するように前もって変換、修正、又は解析され、このベクトル表現はシステムによって受け取られる。受け取った質問のベクトル表現は、次に、意味空間210内の生成された質問ベクトルと比較される。一実施形態によれば、所定の閾値よりも大きい余弦類似度を有するベクトルと意味空間内の質問との比較が特定される。所定の閾値は、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードのうちの1つ又は複数に少なくとも部分的に基づいて、機械学習から導出されるユーザ設定に基づいて予めプログラムされ得、又は別のメカニズムやパラメータによって設定され得る。一実施形態によれば、意味空間210からの質問ベクトルは、迅速な検索及び解析のためにデータベース640に格納される。
このフィルタリングの出力は、意味的に類似した質問をランク付けしたリストである。質問のこのリストは、それがバッグ・オブ・ワード(bag-of-words)モデルであるため、行動の極性(polarity)及び方向の点で質問と正確には関連しない可能性がある。意味と構文との両方において類似の質問を抽出するために、他の解析の中でも、質問のリストを、類似のキーワード及び語順に基づく類似性の尺度に関してさらに処理することができる。
方法のステップ160において、ステップ150で特定された質問は、次に、例えば、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを使用してランク付けされ、図5に示されるように、質問520をランク付けしたリストを生成する。
一実施形態によれば、事前訓練されたコーパスベースのTFIDFスコアに基づくローカライズされたキーワード抽出は、質問内の重要な単語の特定を容易にすることができる。これらの単語は、単語重複スコアを取得し、意味的類似性ステップから得られた質問を再ランク付けするために使用される。ローカライズされたキーワード抽出のために、様々な実施形態は1つ又は複数のキーワード抽出アルゴリズムを使用してもよい。
ユーザが尋ねた質問に意味的に最も近い質問をランク付けしたリストを特定した後に、様々な実施形態は、質問同士の間の類似性をさらに強く特定するために1つ又は複数の方法又はアルゴリズムを使用できる。一方法によれば、解析プロセスは語順に大きく依存する可能性があり、語彙データベースを使用して単語の間の関係の強さを特定することができる。例えば、同じ同義語に属している単語、或いは同じ感覚又は意味を伝える同義語は、異なる同義語に属する単語よりも高い重みを有し得る。
さらに、単語が上位概念又は下位概念の関係を共有する場合に、重みは同義語と比較してより低く重み付けされ得る。関係のレベルの差が大きいほど、重みは低くなる。この方法は文の長さに依存する可能性があるので、計算コストが高くなる可能性があり、こうして、様々な実施形態はキャッシングメカニズムを利用してアルゴリズムの計算速度を向上させることができる。
図7を参照すると、一実施形態において、この図は、方法のステップ160において特定された質問をランク付けするための方法700のフローチャートである。質問(q1、q2)のリスト710は、システムによって生成及び/又は受け取られ、1つ又は複数のプロセスを使用して解析される。例えば、質問のリストは、720で単語重複スコア、730で語彙データベース740を利用してもしなくてもよい単語類似性、750で同義語重複、及び760で句ベースの類似性について解析することができる。このプロセスの出力は、類似性スコア770を集計した、特定され、ランク付けされた質問のリストである。
方法のステップ170において、特定され、ランク付けされた質問に関連付けられた意味空間内の回答が抽出されランク付けされ、ここでランク付けは、特定された焦点及び/又はドメインとの重なりに少なくとも部分的に基づくことができる。例えば、前のステップから質問をランク付けした最終リストを受け取った後に、様々な実施形態は、これらの質問に以前に与えた回答を抽出する。システムは、次に、キーワードの重複に基づいて回答をランク付けし、質問の焦点と一致させることができる。回答が1000文字以下等の特定の長さに制限される場合に、いくつかの実施形態は、質問タイトル及び質問本文から抽出された焦点及び重み付けキーワードを最も代表する1つ又は複数の文を選択し得る。実施形態は、質問もまた上位にランク付けされ、質問の特徴とその回答との一致を有する最良の回答を選択することができる。
方法のステップ180において、ステップ170で特定された最良の1つ又は複数の回答は、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び受け取った質問から抽出された1つ又は複数の焦点ワードを使用して微調整される。
図8を参照すると、一実施形態において、この図は、抽出された回答をランク付けし微調整するための方法800のフローチャートである。特定され、ランク付けされた質問のうちの1つ又は複数の質問に対する回答810は、システムに提供されるか、そうでなければシステムが受け取る。これらの回答は、これらの質問の1つ又は複数のドメインを特定するためにドメイン分類器820に提供され、回答を分解するために分解エンジン830に提供される。分解エンジンは、1つ又は複数の回答から1つ又は複数の重み付けされたキーワードを作成し、それを次に840において重なりについて解析する。また、840において、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び受け取った質問から抽出された1つ又は複数の焦点ワードが提供される。
850において、次に、1つ又は複数の回答が微調整に少なくとも部分的に基づいて再ランク付けされ、単一の最良の回答が特定される。
方法のステップ190において、最終的な回答がユーザに提供される。図5を参照すると、例えば、回答が微調整された後に、最終的な回答530がユーザに提供される。回答は、他の多くの種類のユーザインターフェイスの中でも、スピーカ又はスクリーン等の、情報を伝達するのを可能にする任意のユーザインターフェイスを介してユーザに提供することができる。あるいはまた、回答は、コンピュータ装置又は自動化システムから提供してもよい。例えば、ユーザのスマートフォンは、ユーザの行動、動き、位置、又は他の態様に関連するトピックについてシステムに自動的に問い合わせるようにプログラムされ、必要に応じてオンデマンド等の方法でユーザに提供する回答を自動的に受け取る。
一実施形態によれば、最終的な回答は、60秒以下、30秒以下、10秒以下、又はそれより大きい又は小さい時間枠でユーザに提供される。この時間枠は予め定めてもよく、或いは1つ又は複数のユーザ設定、機械学習パラメータ、又は他の任意のパラメータに基づいてもよい。例えば、ユーザは、ユーザインターフェイス又はユーザ設定によって時間枠を指定することができる。このユーザ指定の時間枠は、1つ又は複数のステップで実行される処理量を制限する等、本明細書に記載の方法の1つ又は複数のステップに影響を及ぼす可能性がある。
図9を参照すると、一実施形態において、この図は、上述した方法と同様の自動質問回答システムのための方法900のフローチャートである。910において、選択された最良の回答が決定点で解析され、それが最良の回答であるかどうかを判定するためにその回答が解析される。この方法は、例えば、受け取った質問が特定の実体(entity)について言及している場合、及び/又は事実又は既知の回答がある場合に適用することができる。例えば、質問は、既知又は実体ベースの回答(「メアリーポピンズは誰であるか?」)を有するが、それに対して意味空間が最良の回答を有していない場合がある。従って、システムは、回答をデータベース又は他のシステムと比較し、それが正しく回答したか、又は正しく回答した可能性が高いと判断することができ、その場合に、回答はユーザに提供される。あるいはまた、システムが、回答が正しく答えていない、又は正しく答えている可能性が低いと判断した場合に、システムは、920において、既知又は実体ベースの回答のデータベースに問い合わせて、最良の回答又は最良の回答になる可能性がある回答を特定することができる。
図10を参照すると、この図は、一実施形態による自動質問回答のためのシステム1000の概略図である。システム1000は、本明細書に記載されるかそうでなければ想定される要素、エンジン、データベース、プロセッサ、及び/又は他の構成要素のいずれかを含むことができる。一実施形態によれば、システム1000は、質問を受け取り及び/又は回答を提供するためのユーザインターフェイス1030を含む。ユーザインターフェイスは、他の多くの種類のユーザインターフェイスの中でも、スピーカ又はスクリーン等、情報を伝達及び/又は受信するのを可能にする任意の装置又はシステムとすることができる。情報がコンピュータ装置又は自動化システムに伝達され及び/又はコンピュータ装置又は自動化システムから情報を受信してもよい。ユーザインターフェイスは、システムの1つ又は複数の他の構成要素と共に配置してもよく、又はシステムから離れて配置され、有線及び/又は無線通信ネットワークを介して通信してもよい。
一実施形態によれば、システム1000は、質問及び回答のコーパス1010を含むか、そのコーパスと通信しているか、又はそのコーパスを受信している。本明細書に記載されるかそうでなければ想定されるように、意味空間生成器1020は、質問及び回答コーパスを使用して意味空間を生成する。生成された意味空間は、意味空間データベース1022に格納され得、データベース1022は、システムの1つ又は複数の他の構成要素と共に配置してもよく、又はシステムから離れて配置され、有線及び/又は無線通信ネットワークを介して通信してもよい。
一実施形態によれば、システム1000は、受け取った質問からテキストを特定及び/又は抽出し、文をセグメント化し、及び/又はテキスト内の綴りを訂正する前処理エンジン1040を含む。前処理エンジン1040は、前処理された質問を解析して1つ又は複数のキーワード、1つ又は複数の感情、1つ又は複数の動詞関係、及び1つ又は複数の焦点ワードを特定するための質問焦点生成エンジンを含み得る。前処理エンジン1040は、その出力を質問焦点生成エンジンへの入力として提供することができる。
一実施形態によれば、システム1000は、質問から1つ又は複数のドメイン、1つ又は複数のキーワード、及び1つ又は複数の焦点ワード等の1つ又は複数の要素を特定する質問分解エンジン1050を含む。
一実施形態によれば、システム1000は、1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを含む分解された質問を受け取り、その分解された質問を生成された意味空間に対して検索して、分解された質問に似ている質問を特定する質問類似性生成器1060を含む。類似性は、他の方法の中でも、例えば、意味空間の質問のベクトルと受け取った質問のベクトルとの余弦の比較に基づいて決定することができる。次に、特定された質問は、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び/又は1つ又は複数の焦点ワードを使用してランク付けすることができる。
一実施形態によれば、システム1000は、構文上及び意味上の関連性エンジン1070を含む。構文上及び意味上の関連性エンジンは、ユーザが尋ねた質問に意味的に最も近い質問を特定することができる。エンジンは、質問又は質問内の単語が上位概念、下位概念、又は同義語の関係を共有するかどうかも又は他に決定することができ、それに応じて質問の重みを調整することができる。
一実施形態によれば、システム1000は、回答抽出及びランク付けエンジン1080を含む。回答抽出及びランク付けエンジンは、特定され、ランク付けされた質問に関連する意味空間内の回答を特定し、ここでランク付けは、特定された焦点及び/又はドメインとの重なりに少なくとも部分的に基づくことができる。抽出された回答をランク付けするための他の方法も可能である。
一実施形態によれば、システム1000は、特定された1つ又は複数のドメイン、1つ又は複数のキーワード、及び受け取った質問から抽出された1つ又は複数の焦点ワードを使用して特定され、ランク付けされた回答を微調整する回答調整エンジン1090を含む。抽出された回答を微調整するための他の方法も可能である。回答調整エンジン1090の出力は、ユーザインターフェイス1030を介してユーザに提供され得る。
一実施形態によれば、システム1000は、方法の1つ又は複数のステップを実行するプロセッサを含み、且つ1つ又は複数のエンジン又は生成器を含むことができる。プロセッサ1100は、1つ又は複数のモジュールから形成することができ、例えばメモリ1110を含むことができる。プロセッサ1100は、マイクロコントローラ、複数のマイクロコントローラ、回路、単一のプロセッサ、又は複数のプロセッサを含むがこれらに限定されない任意の適切な形態を取り得る。メモリ1110は、不揮発性メモリ及び/又はRAMを含む任意の適切な形態を取り得る。不揮発性メモリは、読出し専用メモリ(ROM)、ハードディスクドライブ(HDD)、又は固体状態ドライブ(SSD)を含み得る。メモリは、とりわけ、オペレーティングシステムを格納することができる。RAMはデータの一時記憶のためにプロセッサによって使用される。一実施形態によれば、オペレーティングシステムは、プロセッサによって実行されると、システム1000の1つ又は複数の構成要素の動作を制御するコードを含むことができる。
本明細書で規定及び使用される全ての規定は、辞書の規定、参照により組み込まれる文献中の規定、及び/又は規定された用語の通常の意味を支配すると理解すべきである。
本明細書及び特許請求の範囲で使用される不定冠詞「1つの(a, an)」は、逆に明確に示されていない限り、「少なくとも1つ」を意味すると理解すべきである。
本明細書及び特許請求の範囲で使用される「及び/又は」という句は、そのように結合された要素、すなわちある場合には結合的に存在し、他の場合には分離的に存在する要素の「いずれか又は両方」を意味すると理解すべきである。「及び/又は」で列挙された複数の要素は、同じように解釈すべきであり、すなわちそのように結合された要素の「1つ又は複数」であると解釈すべきである。具体的に特定されたこれらの要素に関連するかどうかにかかわらず、「及び/又は」節によって具体的に特定された要素以外の他の要素がオプションで存在してもよい。
本明細書及び特許請求の範囲で使用される場合に、「又は」は、上で規定された「及び/又は」と同じ意味を有すると理解すべきである。例えば、リスト内の項目を分離するときに、「又は」又は「及び/又は」は、包括的、すなわち、複数の要素又は要素のリストうちの少なくとも1つの要素を含むが複数の要素も含むものとして解釈されるものとし、また、オプションで、リストに含まれていない追加の項目も含むものとして解釈されるものとする。「〜の1つのみ」又は「〜の正に1つ」、又は請求項で使用される「〜からなる」等の逆に明確に示されている用語のみが、複数の要素又は要素のリストのうちの厳密に1つの包含を指す。一般に、本明細書で使用される「又は」という用語は、「どちらか」、「〜の1つ」、「〜の1つのみ」、「〜の正に1つ」等の排他性の用語が先行する場合にのみ排他的な選択肢(すなわち「一方又は他方であるが、両方ではない」)を示すものとして解釈されるものとする。
本明細書及び特許請求の範囲で使用される場合に、1つ又は複数の要素のリストに関して「少なくとも1つ」という句は、要素のリスト内の任意の1つ又は複数の要素から選択される少なくとも1つの要素を意味すると理解すべきであるが、必ずしも要素のリスト内に具体的に列挙されている全ての要素の少なくとも1つを含むものではなく、要素のリスト内の要素の組合せを除外するものではない。この規定はまた、具体的に特定されたこれらの要素に関連するかどうかにかかわらず、「少なくとも1つ」という句が指す要素のリスト内で具体的に特定された要素以外の要素が、オプションで存在し得ることを可能にする。
逆に明確に示されていない限り、本明細書で請求されている複数のステップ又は動作を含む方法において、方法のステップ又は動作の順序は、必ずしも方法のステップ又は動作が列挙されているその順序に限定されないことも理解すべきである。
特許請求の範囲及び上記の明細書において、「備える、有する、含む(comprising)」、「含む、有する(including)」、「運ぶ(carrying)」、「有する、含む(having)」、「含む(containing)」、「含む(involving)」、「保持する(holding)」、「構成される(composed of)」等の全ての移行句は、オープンエンドであると理解すべきであり、すなわち、含むがそれに限定するものではないことを意味する。「〜からなる(consisting of)」及び「〜から本質的になる(consisting essentially of)」という移行句のみがそれぞれクローズド又はセミクローズド移行句であるものとする。
本明細書ではいくつかの独創的な実施形態について説明及び図示してきたが、当業者は、機能を実行する及び/又は、結果及び/又は本明細書に記載される利点の1つ又は複数を得るための様々な他の手段及び/又は構造を容易に想像し、さらに、そのような変形及び/又は修正のそれぞれが、本明細書に記載される独創的な実施形態の範囲内にあるとみなされる。より一般的には、当業者は、本明細書に記載される全てのパラメータ、寸法、材料、及び構成が例示的であることを意味し、実際のパラメータ、寸法、材料、及び/又は構成は、独創的な技術が使用される特定の1つ又は複数の用途に応じて変わることを理解するだろう。当業者は、本明細書に記載される特定の独創的な実施形態に対する多くの均等物を認識し、又は日常的に過ぎない実験を使用してそれら均等物を確かめることができるだろう。従って、前述した実施形態は例としてのみ提示されており、添付の特許請求の範囲及びその均等物の範囲内で、独創的な実施形態は具体的に説明及び特許請求されている以外の方法で実施できることを理解されたい。本開示の独創的な実施形態は、本明細書に記載される各個々の特徴、システム、物品、材料、キット、及び/又は方法に関する。さらに、そのような特徴、システム、物品、材料、キット、及び/又は方法が互いに矛盾しない場合に、そのような2つ以上の特徴、システム、物品、材料、キット、及び/又は方法の任意の組合せも、本開示の独創的な範囲内に含まれる。
既存のQAシステムは、知識主導型の、焦点が絞られ、曖昧さが少なく、及びイベント主導型のファクトイド(factoid)ベースの質問に回答することに殆ど焦点が当てられており、これらは、通常、回答のための言い回しを有している。ファクトイドベースの質問は、人間の主観及び考えにそれほど強く影響されないため、回答し易い。これら既存のQAシステムは、典型的に、関係する質問の焦点を理解しておらず、質問の感情的又は主観的な要素を理解又は評価していない。従って、既存のQAシステムは、質問者の焦点、感情、又は主観性に沿った情報を提供することができない。米国特許出願公開第2010/0030769号は、質問のトピックのクラスタ及び焦点のクラスタに基づいて、問い合わされた質問に関連する質問を提示するためのシステムについて記載する。
米国特許出願公開第2010/0030769号
一般に一態様では、所与の時間枠における自動質問回答のためのシステムが提供される。このシステムは、質問及び回答のコーパスから生成される意味空間と、ユーザから質問を受け取るように構成されたユーザインターフェイスと、所与の時間枠内で質問に対する回答を特定し微調整するプロセッサとを含み、プロセッサは、(i)受け取った質問を少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードに分解するように構成された質問分解エンジンと;(ii)分解された質問を使用して意味空間内の1つ又は複数の質問を特定するように構成された質問類似性生成器であって、特定された1つ又は複数の質問は受け取った質問と類似すると判定される、質問類似性生成器と;(iii)意味空間から、1つ又は複数の特定された質問に関連する回答を抽出することであって、抽出された回答は、所与の時間枠に依存する特定の長さに制限され、少なくとも1つの焦点ワード及び1つのキーワードを最も表す、意味空間からの回答の1つ又は複数の文が、抽出された回答として選択される、抽出し、抽出された回答のうちの1つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジンと;(iv)少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードのうちの1つ又は複数を使用して、特定された最良の回答を微調整して最良の回答を再ランク付けし単一の最良の回答を特定するように構成された回答調整エンジンと;を含み、単一の最良の回答は、所与の時間枠内にユーザインターフェイスを介してユーザに提供される。
一般に、一態様では、所与の時間枠における自動質問回答のための方法が提供される。この方法は、(i)ユーザインターフェイス、プロセッサ、及び生成された意味空間を含む自動質問回答システムを提供するステップと;(ii)ユーザインターフェイスを介して、回答が所与の時間枠内に要求される質問を受け取るステップと;(iii)プロセッサによって、受け取った質問を少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードに分解するステップと;(iv)プロセッサによって、分解された質問を使用して、意味空間内の1つ又は複数の質問を特定するステップであって、特定された1つ又は複数の質問は、受け取った質問に類似すると判定される、特定するステップと;(v)プロセッサによって、受け取った質問との類似性に基づいて、1つ又は複数の特定された質問をランク付けするステップと;(vi)プロセッサによって、意味空間から1つ又は複数の特定された質問に関連する回答を抽出するステップであって、抽出された回答は、所与の時間枠に依存する特定の長さに制限され、少なくとも1つの焦点ワード及び1つのキーワードを最も表す、意味空間からの回答のうちの1つ又は複数の文が、抽出された回答として選択される、抽出するステップと;(vii)プロセッサによって、抽出された回答のうちの1つ又は複数を最良の回答として特定するステップと;(viii)プロセッサによって、少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードのうちの1つ又は複数を使用して、特定された最良の回答を微調整するステップであって、最良の回答は再ランク付けされ、単一の最良の回答が特定される、微調整するステップと;(ix)ユーザインターフェイスを介して、単一の最良の回答を所与の時間枠内に受け取った質問に対する回答として提供するステップと;を含む。

Claims (15)

  1. 自動質問回答のためのシステムであって、当該システムは、
    質問及び回答のコーパスから生成される意味空間と、
    ユーザから質問を受け取るように構成されたユーザインターフェイスと、
    プロセッサと、を含み、
    該プロセッサは、
    前記受け取った質問を少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードに分解するように構成された質問分解エンジンと、
    前記分解された質問を使用して前記意味空間内の1つ又は複数の質問を特定するように構成された質問類似性生成器であって、前記特定された1つ又は複数の質問は前記受け取った質問に類似すると判定される、質問類似性生成器と、
    (i)前記意味空間から、前記1つ又は複数の特定された質問に関連する回答を抽出し、(ii)該抽出された回答のうちの1つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジンと、
    前記少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードのうちの1つ又は複数を使用して、前記特定された最良の回答を微調整するように構成された回答調整エンジンと、を含み、
    前記微調整された回答は、前記ユーザインターフェイスを介して前記ユーザに提供される、
    システム。
  2. 質問及び回答のコーパスをさらに含み、前記質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる、請求項1に記載のシステム。
  3. 前記受け取った質問からテキストを抽出すること、前記受け取った質問の文をセグメント化すること、及び前記受け取った質問の綴りを訂正することの1つ又は複数を含む、前記受け取った質問を前処理するように構成される前処理エンジンをさらに含む、請求項1に記載のシステム。
  4. 前記意味空間を格納するように構成された意味空間データベースをさらに含む、請求項1に記載のシステム。
  5. 前記受け取った質問との類似性に基づいて、前記1つ又は複数の特定された質問をランク付けするように構成された構文上及び意味上の関連性エンジンをさらに含む、請求項1に記載のシステム。
  6. 前記意味空間内の前記質問にはベクトルが含まれ、前記分解された質問にはベクトルが含まれ、さらに前記意味空間内の前記質問の前記ベクトルは前記分解された質問の前記ベクトルと比較され、該ベクトル比較が所定の閾値を上回る場合に、前記意味空間内の質問が類似していると特定される、請求項1に記載のシステム。
  7. 自動質問回答のためのコンピュータ化された方法であって、当該方法は、
    ユーザインターフェイス、プロセッサ、及び生成された意味空間を含む自動質問回答システムを提供するステップと、
    前記ユーザインターフェイスを介して、ユーザから回答が要求される質問を受け取るステップと、
    前記プロセッサによって、前記受け取った質問を少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードに分解するステップと、
    前記プロセッサによって、前記分解された質問を使用して、前記生成された意味空間内の1つ又は複数の質問を特定するステップであって、該特定された1つ又は複数の質問は、前記受け取った質問と類似すると判定される、特定するステップと、
    前記プロセッサによって、前記受け取った質問との類似性に基づいて、前記1つ又は複数の特定された質問をランク付けするステップと、
    前記プロセッサによって、前記意味空間から前記1つ又は複数の特定された質問に関連する回答を抽出するステップと、
    前記プロセッサによって、前記抽出された回答のうちの1つ又は複数を最良の回答として特定するステップと、
    前記プロセッサによって、前記少なくとも1つのドメイン、1つのキーワード、及び1つの焦点ワードのうちの1つ又は複数を使用して、前記特定された最良の回答を微調整するステップと、
    前記ユーザインターフェイスを介して、前記微調整された最良の回答を前記受け取った質問に対する回答として提供するステップと、を含む、
    方法。
  8. 質問及び回答のコーパスから意味空間を作成するステップをさらに含み、前記質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる、請求項7に記載の方法。
  9. 前記生成された意味空間はデータベースに格納される、請求項8に記載の方法。
  10. 前記意味空間内の前記質問にはベクトルが含まれ、前記分解された質問にはベクトルが含まれ、さらに前記意味空間内の前記質問の前記ベクトルは前記分解された質問の前記ベクトルと比較され、該ベクトル比較が所定の閾値を上回る場合に、前記意味空間内の質問が類似していると特定される、請求項7に記載の方法。
  11. 前記所定の閾値は余弦値を含む、請求項10に記載の方法。
  12. 前記プロセッサによって、前記受け取った質問からテキストを抽出すること、前記受け取った質問の文をセグメント化すること、及び前記受け取った質問の綴りを訂正することの1つ又は複数を含む、前記受け取った質問を前処理するステップをさらに含む、請求項7に記載の方法。
  13. 前記受け取った質問との類似性に基づいて、前記1つ又は複数の特定された質問をランク付けするステップは、前記特定された質問の意味解析及び/又は構文解析を含む、請求項7に記載の方法。
  14. 前記抽出された回答のうちの1つ又は複数を最良の回答として特定するステップは、前記抽出された回答のランク付けを含む、請求項7に記載の方法。
  15. 前記自動質問回答システムは、事前訓練された質問ドメイン分類器をさらに含み、前記受け取った質問は、前記事前訓練された質問ドメイン分類器により少なくとも部分的に基づいて分解される、請求項7に記載の方法。
JP2019521120A 2016-10-24 2017-10-17 マルチドメインリアルタイム質問回答システム Active JP6684391B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662411947P 2016-10-24 2016-10-24
US62/411,947 2016-10-24
US201762531542P 2017-07-12 2017-07-12
US62/531,542 2017-07-12
PCT/EP2017/076390 WO2018077655A1 (en) 2016-10-24 2017-10-17 Multi domain real-time question answering system

Publications (2)

Publication Number Publication Date
JP2019537126A true JP2019537126A (ja) 2019-12-19
JP6684391B2 JP6684391B2 (ja) 2020-04-22

Family

ID=60480275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019521120A Active JP6684391B2 (ja) 2016-10-24 2017-10-17 マルチドメインリアルタイム質問回答システム

Country Status (6)

Country Link
US (1) US11822605B2 (ja)
EP (1) EP3529717B1 (ja)
JP (1) JP6684391B2 (ja)
CN (1) CN109983454B (ja)
RU (1) RU2747425C2 (ja)
WO (1) WO2018077655A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11947582B2 (en) * 2015-01-12 2024-04-02 International Business Machines Corporation Enhanced knowledge delivery and attainment using a question answering system
US10803249B2 (en) * 2017-02-12 2020-10-13 Seyed Ali Loghmani Convolutional state modeling for planning natural language conversations
US11615144B2 (en) * 2018-05-31 2023-03-28 Microsoft Technology Licensing, Llc Machine learning query session enhancement
US11720558B2 (en) 2018-07-30 2023-08-08 Entigenlogic Llc Generating a timely response to a query
US11748563B2 (en) 2018-07-30 2023-09-05 Entigenlogic Llc Identifying utilization of intellectual property
US11176126B2 (en) * 2018-07-30 2021-11-16 Entigenlogic Llc Generating a reliable response to a query
EP3617970A1 (en) * 2018-08-28 2020-03-04 Digital Apex ApS Automatic answer generation for customer inquiries
US11301640B2 (en) * 2018-10-24 2022-04-12 International Business Machines Corporation Cognitive assistant for co-generating creative content
CN109710818B (zh) * 2018-12-28 2021-08-06 咪咕文化科技有限公司 答案权重的确定方法、答案确定方法、装置和存储介质
EP3680802A1 (en) * 2019-01-14 2020-07-15 Accenture Global Solutions Limited System and method for using a question and answer engine
US11380305B2 (en) 2019-01-14 2022-07-05 Accenture Global Solutions Limited System and method for using a question and answer engine
CN109902160B (zh) * 2019-01-30 2023-07-25 华中师范大学 电路题目自动解答的方法及系统
US10705861B1 (en) 2019-03-28 2020-07-07 Tableau Software, LLC Providing user interfaces based on data source semantics
AU2020297445A1 (en) * 2019-06-17 2022-01-20 Tableau Software, LLC Analyzing marks in visualizations based on dataset characteristics
EP3779726A1 (en) * 2019-08-12 2021-02-17 Bayerische Motoren Werke Aktiengesellschaft System, method, and medium for low complexity and rich semantic automatic question answering
CN110765765B (zh) * 2019-09-16 2023-10-20 平安科技(深圳)有限公司 基于人工智能的合同关键条款提取方法、装置及存储介质
US11783266B2 (en) 2019-09-18 2023-10-10 Tableau Software, LLC Surfacing visualization mirages
CN111125334B (zh) * 2019-12-20 2023-09-12 神思电子技术股份有限公司 一种基于预训练的搜索问答系统
US20210240775A1 (en) * 2020-02-03 2021-08-05 Intuit Inc. System and method for providing automated and unsupervised inline question answering
CN111581950B (zh) * 2020-04-30 2024-01-02 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
US11397746B2 (en) 2020-07-30 2022-07-26 Tableau Software, LLC Interactive interface for data analysis and report generation
US11550815B2 (en) 2020-07-30 2023-01-10 Tableau Software, LLC Providing and surfacing metrics for visualizations
US11579760B2 (en) 2020-09-08 2023-02-14 Tableau Software, LLC Automatic data model generation
US11568870B2 (en) 2020-12-02 2023-01-31 Google Llc Automated assistant for facilitating communications through dissimilar messaging features of different applications
IT202100020060A1 (it) * 2021-07-27 2023-01-27 Pigro S R L Metodo e sistema di ricerca su pagine web
US11947536B2 (en) 2022-05-26 2024-04-02 International Business Machines Corporation Identifying and processing poly-process natural language queries

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5703655A (en) * 1995-03-24 1997-12-30 U S West Technologies, Inc. Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process
US7260568B2 (en) * 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
AU2008315748A1 (en) * 2007-10-23 2009-04-30 Re5Ult Limited Method and computer system for automatically answering natural language questions
US8024332B2 (en) * 2008-08-04 2011-09-20 Microsoft Corporation Clustering question search results based on topic and focus
US9015031B2 (en) 2011-08-04 2015-04-21 International Business Machines Corporation Predicting lexical answer types in open domain question and answering (QA) systems
CN103810218B (zh) * 2012-11-14 2018-06-08 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
US9171478B2 (en) 2013-03-15 2015-10-27 International Business Machines Corporation Learning model for dynamic component utilization in a question answering system
US9230009B2 (en) 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
US9275115B2 (en) * 2013-07-16 2016-03-01 International Business Machines Corporation Correlating corpus/corpora value from answered questions
US9342608B2 (en) * 2013-08-01 2016-05-17 International Business Machines Corporation Clarification of submitted questions in a question and answer system
CN103632332A (zh) * 2013-11-29 2014-03-12 腾讯科技(成都)有限公司 题目问答方法、装置及系统
US9711058B2 (en) * 2014-03-06 2017-07-18 International Business Machines Corporation Providing targeted feedback
US10740819B2 (en) * 2014-04-23 2020-08-11 Rakuten, Inc. Information providing device, method, and non-transitory medium for interactive search refinement
US11354340B2 (en) 2014-06-05 2022-06-07 International Business Machines Corporation Time-based optimization of answer generation in a question and answer system
US10169423B2 (en) * 2016-01-06 2019-01-01 International Business Machines Corporation Ranking answers in ground truth of a question-answering system
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
US11379736B2 (en) * 2016-05-17 2022-07-05 Microsoft Technology Licensing, Llc Machine comprehension of unstructured text
US10331684B2 (en) * 2016-06-03 2019-06-25 International Business Machines Corporation Generating answer variants based on tables of a corpus

Also Published As

Publication number Publication date
EP3529717A1 (en) 2019-08-28
RU2747425C2 (ru) 2021-05-04
US11822605B2 (en) 2023-11-21
JP6684391B2 (ja) 2020-04-22
CN109983454A (zh) 2019-07-05
US20200050636A1 (en) 2020-02-13
EP3529717B1 (en) 2020-02-19
WO2018077655A1 (en) 2018-05-03
RU2019116123A3 (ja) 2021-02-25
RU2019116123A (ru) 2020-11-24
CN109983454B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
JP6684391B2 (ja) マルチドメインリアルタイム質問回答システム
JP6618735B2 (ja) 質問応答システムの訓練装置及びそのためのコンピュータプログラム
Malandrakis et al. Distributional semantic models for affective text analysis
CN106844632B (zh) 基于改进支持向量机的产品评论情感分类方法及装置
US20190377796A1 (en) Open domain real-time question answering
Pabitha et al. Automatic question generation system
Kandhro et al. Sentiment analysis of students’ comment using long-short term model
Chopra et al. Sentiment analyzing by dictionary based approach
Chandiok et al. CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
Johns et al. Experience as a Free Parameter in the Cognitive Modeling of Language.
Kazakova et al. Analysis of natural language processing technology: modern problems and approaches
Hu et al. Dynamically retrieving knowledge via query generation for informative dialogue generation
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
Tyagi et al. Comparison of classifier based approach with baseline approach for English-Hindi text simplification
Ness et al. Auditory sparse coding
Singh et al. Deep neural based name entity recognizer and classifier for English language
WO2023098971A1 (en) Method and apparatus for self-supervised extractive question answering
Nio et al. Improving the robustness of example-based dialog retrieval using recursive neural network paraphrase identification
Malandrakis et al. Affective language model adaptation via corpus selection
Hattimare et al. Maruna Bot: An extensible retrieval-focused framework for task-oriented dialogues
Mandayam et al. Intelligent conversational model for mental health wellness
Sawant et al. AI Model to Generate SQL Queries from Natural Language Instructions through Voice

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20190419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190419

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190419

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200327

R150 Certificate of patent or registration of utility model

Ref document number: 6684391

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250