JP2019537126A

JP2019537126A - マルチドメインリアルタイム質問回答システム

Info

Publication number: JP2019537126A
Application number: JP2019521120A
Authority: JP
Inventors: ヴァルマダットラ，ヴィヴェック; ハサン，シャイフサディッドアル; フェイセタンファッリ，オラディメジ; リウ，ジュンイ; ミヨンリー，キャシー; カディール，アシュクル; プラカシュ，アディ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2016-10-24
Filing date: 2017-10-17
Publication date: 2019-12-19
Anticipated expiration: 2037-10-17
Also published as: EP3529717A1; RU2747425C2; US11822605B2; JP6684391B2; CN109983454A; US20200050636A1; EP3529717B1; WO2018077655A1; RU2019116123A3; RU2019116123A; CN109983454B

Abstract

自動質問回答のためのシステム（１０００）は、質問及び回答のコーパスから生成される意味空間（２１０）と；質問を受け取るように構成されたユーザインターフェイス（１０３０）と；プロセッサ（１１００）と；を含み、プロセッサは、（ｉ）質問をドメイン、キーワード、及び焦点ワードに分解するように構成された質問分解エンジン（１０５０）と；（ｉｉ）分解された質問を使用して意味空間内の１つ又は複数の質問を特定するように構成された質問類似性生成器（１０６０）と；（ｉｉｉ）意味空間から、１つ又は複数の特定された質問に関連する回答を抽出し、抽出された回答のうちの１つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジン（１０８０）と；（ｉｖ）ドメイン、キーワード、及び焦点ワードのうちの１つ又は複数を使用して、特定された最良の回答を微調整するように構成された回答調整エンジン（１０９０）と；を含み、微調整された回答は、ユーザインターフェイスを介してユーザに提供される。

Description

本開示は、概して、マルチドメイン質問に対する人間のような回答をリアルタイムで提供することができる自動質問回答方法及びシステムに関する。

人々は、回答を提供するように設計された自動システムに質問を益々投げかけている。典型的に、人々が尋ねる質問は、主観的なものであり、且つ固有の傾向、好み、及びその他の複雑さを伴うため、正確な自動回答を提供するのを困難にする。

自動質問回答（ＱＡ（Question Answering））は、自然言語処理における一般的な研究分野である。それは、典型的に、質問の理解、質問の焦点の特定、及び回答の生成等、いくつかの要素を含む複雑な計算タスクである。典型的に、人々が尋ねる質問は、主観的なものであり、且つ固有の傾向、好み、感情、及び他の複雑さを伴うため、正確な自動回答を提供するのを困難にする。主観、感情、及び質問の焦点を特定することに関連する問題に加えて、ＱＡシステムは、リアルタイムで、大抵の場合１分以内に回答を提供しなければならない。生成される回答も人間的である必要があり、これは、正確であることに加えて、通常の人間の応答のように構造化され、且つ文法的に正しくなければならない。提供される回答が簡潔であることも望ましい。

既存のＱＡシステムは、知識主導型の、焦点が絞られ、曖昧さが少なく、及びイベント主導型のファクトイド（factoid）ベースの質問に回答することに殆ど焦点が当てられており、これらは、通常、回答のための言い回しを有している。ファクトイドベースの質問は、人間の主観及び考えにそれほど強く影響されないため、回答し易い。これら既存のＱＡシステムは、典型的に、関係する質問の焦点を理解しておらず、質問の感情的又は主観的な要素を理解又は評価していない。従って、既存のＱＡシステムは、質問者の焦点、感情、又は主観性に沿った情報を提供することができない。

多数のトピックに亘るマルチドメイン質問に対する人間のような回答をリアルタイムで提供することができる自動質問回答システム及び方法が引き続き必要とされている。

本開示は、自動質問回答のための独創的な方法及びシステムに関する。本明細書の様々な実施形態及び実施態様は、質問のドメイン及び焦点を理解することによってユーザの質問を分解するシステムを対象としている。事前訓練された質問ドメイン特定モデルは、ディープラーニングベースのアンサンブル技術を使用することができ、且つ双方向リカレントニューラルネットワーク（ＲＮＮ）ベースのエンコーダ−デコーダアーキテクチャを利用することができ、ここでエンコーダが質問記述を固定長ベクトルに変換し、そこからデコーダが対応するドメインワードを生成する。分解された質問は、既存のコーパスを使用して構築された潜在的意味解析（ＬＳＡ）／潜在的ディリクレ（Dirichlet）配分（ＬＤＡ）意味空間に亘って検索される。ユーザが尋ねた質問と強い類似性を有する質問が特定されると、システムは、以前に尋ねられた最も類似している質問に与えられた回答を抽出し、特定された焦点及びドメインとの重なりに基づいてそれら回答をランク付けする。質問に与えられた最良の回答は、特定された焦点及びドメインに関して再構築される。一実施形態によれば、システムは、質問にリアルタイムで簡潔に回答するように最適化することができる。

一般に一態様では、自動質問回答のためのシステムが提供される。このシステムは、質問及び回答のコーパスから生成される意味空間と、ユーザから質問を受け取るように構成されたユーザインターフェイスと、プロセッサとを含み、プロセッサは、（ｉ）受け取った質問を少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードに分解するように構成された質問分解エンジンと；（ｉｉ）分解された質問を使用して意味空間内の１つ又は複数の質問を特定するように構成された質問類似性生成器であって、特定された１つ又は複数の質問は受け取った質問と類似すると判定される、質問類似性生成器と；（ｉｉｉ）意味空間から、１つ又は複数の特定された質問に関連する回答を抽出し、抽出された回答のうちの１つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジンと；（ｉｖ）少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードのうちの１つ又は複数を使用して、特定された最良の回答を微調整するように構成された回答調整エンジンと；を含み、微調整された回答は、ユーザインターフェイスを介してユーザに提供される。

一実施形態によれば、システムは、質問及び回答のコーパスをさらに含み、質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる。

一実施形態によれば、システムは、受け取った質問からテキストを抽出すること、受け取った質問の文をセグメント化すること、及び受け取った質問の綴りを訂正することの１つ又は複数を含む、受け取った質問を前処理するように構成される前処理エンジンをさらに含む。

一実施形態によれば、システムは、意味空間を格納するように構成された意味空間データベースをさらに含む。

一実施形態によれば、システムは、受け取った質問との類似性に基づいて、１つ又は複数の特定された質問をランク付けするように構成された構文上及び意味上の関連性エンジンをさらに含む。

一般に、一態様では、自動質問回答のための方法が提供される。この方法は、（ｉ）ユーザインターフェイス、プロセッサ、及び生成された意味空間を含む自動質問回答システムを提供するステップと；（ｉｉ）ユーザインターフェイスを介して、回答が要求される質問を受け取るステップと；（ｉｉｉ）プロセッサによって、受け取った質問を少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードに分解するステップと；（ｉｖ）プロセッサによって、分解された質問を使用して、意味空間内の１つ又は複数の質問を特定するステップであって、特定された１つ又は複数の質問は、受け取った質問に類似すると判定される、特定するステップと；（ｖ）プロセッサによって、受け取った質問との類似性に基づいて、１つ又は複数の特定された質問をランク付けするステップと；（ｖｉ）プロセッサによって、意味空間から１つ又は複数の特定された質問に関連する回答を抽出するステップと；（ｖｉｉ）プロセッサによって、抽出された回答のうちの１つ又は複数を最良の回答として特定するステップと；（ｖｉｉｉ）プロセッサによって、少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードのうちの１つ又は複数を使用して、特定された最良の回答を微調整するステップと；（ｉｘ）ユーザインターフェイスを介して、微調整された最良の回答を受け取った質問に対する回答として提供するステップと；を含む。

一実施形態によれば、方法は、質問及び回答のコーパスから意味空間を作成するステップをさらに含み、質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる。

一実施形態によれば、生成された意味空間はデータベースに格納される。

一実施形態によれば、意味空間内の質問にはベクトルが含まれ、分解された質問にはベクトルが含まれ、意味空間内の質問のベクトルは分解された質問のベクトルと比較される。ベクトル比較が所定の閾値を上回る場合に、意味空間内の質問は類似していると特定される。一実施形態によれば、所定の閾値は余弦値を含む。

一実施形態によれば、方法は、プロセッサによって、受け取った質問からテキストを抽出すること、受け取った質問の文をセグメント化すること、及び受け取った質問の綴りを訂正することの１つ又は複数を含む、受け取った質問を前処理するステップをさらに含む。

一実施形態によれば、受け取った質問との類似性に基づいて、１つ又は複数の特定された質問をランク付けするステップは、特定された質問の意味解析及び／又は構文解析を含む。

一実施形態によれば、抽出された回答のうちの１つ又は複数を最良の回答として特定するステップは、抽出された回答のランク付けを含む。

一実施形態によれば、システムは事前訓練された質問ドメイン分類器をさらに含み、受け取った質問は、事前訓練された質問ドメイン分類器により少なくとも部分的に基づいて分解される。

様々な実施態様において、プロセッサ又はコントローラは、１つ又は複数の記憶媒体（本明細書では「メモリ」と総称され、例えば、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、及びＥＥＰＲＯＭ、フロッピーディスク、コンパクトディスク、光ディスク、磁気テープ等の揮発性及び不揮発性コンピュータメモリ）に関連付けられ得る。いくつかの実施態様では、記憶媒体は、１つ又は複数のプロセッサ及び／又はコントローラ上で実行されると、本明細書で議論される機能の少なくともいくつかを実行する１つ又は複数のプログラムで符号化され得る。本明細書で議論される本発明の様々な態様を実施するために、様々な記憶媒体をプロセッサ又はコントローラ内に固定してもよく、又はそこに記憶された１つ又は複数のプログラムをプロセッサ又はコントローラにロードできるように移動可能にしてもよい。「プログラム」又は「コンピュータプログラム」という用語は、本明細書では一般的な意味で使用されて、１つ又は複数のプロセッサ又はコントローラをプログラムするのに使用することができる任意の種類のコンピュータコード（例えば、ソフトウェア又はマイクロコード）を指す。

本明細書で使用される「ネットワーク」という用語は、任意の２つ以上の装置の間及び／又はネットワークに結合された複数の装置の間の（例えば、装置制御、データ記憶、データ交換等のための）情報の転送を容易にする（コントローラ又はプロセッサを含む）２つ以上の装置の任意の相互接続を指す。容易に理解されるように、複数の装置を相互接続するのに適したネットワークの様々な実施態様は、様々なネットワークトポロジのうちのいずれかを含み、且つ様々な通信プロトコルのうちのいずれかを使用することができる。さらに、本開示による様々なネットワークでは、２つの装置同士の間の任意の１つの接続は、２つのシステム同士の間の専用接続、或いは非専用接続を表すことができる。２つの装置を対象とした情報を搬送することに加えて、そのような非専用接続は、必ずしも２つの装置のうちのどちらも対象としていない情報を搬送することがある（例えば、オープンネットワーク接続）。さらに、本明細書で議論されるような装置の様々なネットワークは、ネットワーク全体に亘る情報転送を容易にするために、１つ又は複数のワイヤレス、ワイヤ／ケーブル、及び／又は光ファイバリンクを使用することができることを容易に理解すべきである。

前述した概念と以下でさらに詳細に議論される追加の概念との全ての組合せが（そのような概念が互いに矛盾しない限り）、本明細書に開示される発明の主題の一部であると考えられることを理解すべきである。特に、本開示の最後に現れる特許請求の範囲に記載された主題の全ての組合せは、本明細書に開示される発明の主題の一部であると考えられる。また、参照により本明細書に組み込まれる任意の開示にも現れる可能性がある本明細書で明示的に使用される用語は、本明細書で開示される特定の概念と最も矛盾しない意味に一致するはずであることも理解すべきである。

本発明のこれら及び他の態様は、以下に記載される実施形態を参照して説明され且つ明らかになるであろう。

図面において、同様の参照文字は、一般的に、異なる図を通して同じ部分を指す。また、図面は必ずしも一定の縮尺ではなく、代わりに、本発明の原理を説明する際に強調がなされる。

一実施形態による自動質問回答のための方法のフローチャートである。一実施形態による意味空間を作成する方法のフローチャートである。一実施形態による質問分解のための方法のフローチャートである。一実施形態による質問分解のための方法のフローチャートである。一実施形態による意味空間内の質問を特定する方法のフローチャートである。一実施形態による意味空間内の質問を特定する方法のフローチャートである。一実施形態による特定された質問をランク付けする方法のフローチャートである。一実施形態による抽出された回答をランク付けし微調整する方法のフローチャートである。一実施形態による自動質問回答のための方法のフローチャートである。一実施形態による自動質問回答のためのシステムの概略図である。

本開示は、自動質問回答システムの様々な実施形態を説明する。より一般的には、出願人は、主観的質問に対する人間のような回答をリアルタイムでより正確に提供するシステムを提供することが有益であることを認識し理解している。自動質問回答システムは、ユーザの質問を受け取り、１つ又は複数のドメイン、焦点（focus）ワード、及び／又はキーワードを抽出する。システムは、分解された質問を意味空間に亘って比較し、且つ提起された質問と非常に類似している記憶された質問を特定する。次に、システムは、提起された質問に最も類似している、これら質問に対する回答を抽出し、且つ抽出された焦点ワード及びドメインに対する類似性又は重なりに基づいて、それらの回答をランク付けする。最良の回答が特定されてユーザに提供される。

図１を参照すると、一実施形態において、この図は、自動質問回答システムのための方法１００のフローチャートである。方法のステップ１１０において、自動質問回答システムが提供される。自動質問回答システムは、本明細書に説明されるかそうでなければ想定されるシステムのうちのいずれかであり得る。

方法のステップ１２０において、意味空間が、既存の又は生成された質問及び／又は回答のコーパスから作成される。一実施形態によれば、意味空間は、単語の意味を表現するための枠組みであり、典型的には数学的表現として提示される。意味空間は、情報検索を含む自然言語処理に役立つ。単語及び／又は句は、高次元ベクトルとして表すことができ、単語同士又は句同士の間の比較は、ほんの一例として、単語又は句を表すベクトル同士の間の角度の余弦を比較することによって行うことができるが、多くの他の方法が可能である。一実施形態によれば、方法のステップ１２０を一度実行して、多数の質問／回答解析に使用される意味空間を作成することができる。あるいはまた、意味空間は、定期的及び／又は連続的な基準で再作成又は更新してもよい。

潜在意味解析（ＬＳＡ）は意味空間生成のための１つの方法である。ＬＳＡは自然言語処理の一種であり、意味が似ている単語が似たテキストに表示される。２つの単語を表す２つのベクトル同士の間の角度の余弦を比較すると、１に近い結果は類似した単語を表す一方、０に近い結果は似ていない単語を表す。潜在的ディリクレ配分（ＬＤＡ）は意味空間作成のための別の方法である。ＬＤＡは自然言語処理の一種であり、統計モデルが、観察されたものを観察されていないグループによって説明できる（データの一部が類似している理由を説明する）ように形成される。ＬＳＡ及びＬＤＡに加えて、又はＬＳＡ及び／又はＬＤＡに代わるものとして、意味空間を作成するための他の方法及びアルゴリズムが可能であり、それには語彙データベースの意味的及び類似性尺度の生成が含まれるがこれらに限定されるものではない。

意味空間を作成するために利用される既存の又は生成された質問及び回答のコーパスは、任意の公的及び／又は私的な情報源から取得することができる。一実施形態によれば、意味空間は、例えば、Ｙａｈｏｏ（登録商標）の４４０万質問回答コーパス又は他の任意の質問／回答コレクションを用いて構築してもよい。いくつかのそのような実施形態は、全ての質問タイトルを選択し、それら質問タイトルを標準的なストップワード除去によってきれいにし、次に単語を語幹処理することができる。ほんの一例として、様々な実施形態は、３００次元を有する意味空間を構築することができるが、これよりも多い又は少ない次元も可能である。他の実施形態は、同じ又は同様のクリーニング（cleaning）及び語幹処理プロセスに従うことができる。

図２を参照すると、一実施形態において、この図は、意味空間２１０を作成するための方法２００のフローチャートである。一実施形態によれば、方法２００は、本明細書で説明されるシステムの１つ又は複数のプロセッサによって実行される。あるいはまた、方法２００は、遠隔の又は関係のないプロセッサによって実行してもよく、生成された意味空間は、本明細書に説明されるシステムのアルゴリズム又はプロセッサによって利用してもよい。２２０において、システムは質問及び／又は回答のコーパスを受け取る。システムは、２３０において、質問及び／又は回答のコーパスを含む１つ又は複数の文書をきれいに（clean）する。これは、文書の準備又はクリーニングのための現在又は将来の任意の方法によって実行することができる。２４０において、システムは用語−文書表現解析を実行し、ここで用語及び文書はマトリックスによって表される。例えば、文書コレクション内の各固有の用語をマトリックス内の行に割り当てることができ、そのコレクション内の各文書をマトリックス内の列に割り当てることができる。方法のステップ２５０において、特異値分解（ＳＶＤ）が実行される。ＳＶＤは、段落毎の単語数を含むマトリックス（行は固有の単語を表し、列は各段落を表す）をテキストの大きな部分で構成するという数学的なアプローチである。一実施形態によれば、ステップ２４０又は２５０のいずれかを実行してもよく、又は両方のステップを実行してもよい。

方法のステップ１３０において、質問を受け取る。質問は、任意の方法又はシステム、又は任意の情報源を使用して受け取ることができる。例えば、質問は、モバイル装置、ラップトップ、デスクトップ、ウェアラブル装置、ホームコンピュータ装置、又は任意の他のコンピュータ装置から等、リアルタイムでユーザから受け取られ得る。質問は、他の多くの種類のユーザインターフェイスの中でも、マイク又はテキスト入力等、情報を受信するのを可能にする任意のユーザインターフェイスから受け取ることができる。あるいはまた、質問は、コンピュータ装置又は自動化システムから受信してもよい。例えば、ユーザのスマートフォンは、ユーザの行動、動き、位置、又は他の態様に関連するトピックについてシステムに問い合わせるようにプログラムしてもよい。

質問は任意のトピックに関するものであり得る。例えば、質問には、多くの質問、他の多くのタイプ、形式、及びバリエーションの質問の中でも、「自分の家を売るべきか？」、「自分にとって仕事をするのに最適な場所はどこであるか？」、「駐車場はどこであるか？」、「退職金に投資するのはなぜであるか？」等の質問が含まれ得る。質問は非常に狭くて特定のものでよく知られた一定の回答（「なぜ空は青であるか？」）であり得るか、又は広くて自由であり、おそらく未知で不定の回答（「私の家にはお化けがでるか？」）であり得る。

質問は、自動質問回答システムによって直接受け取ってもよく、又は遠隔で受け取って送信してもよく、或いはシステムに通信してもよい。例えば、自動質問回答システムは、質問を直接受け取るユーザインターフェイスを含み得る。あるいはまた、自動質問回答システムは、イントラネット又はインターネット等の任意の有線及び／又は無線ネットワークから質問を受信する通信モジュールを含み得る。

方法のステップ１４０において、質問分解エンジンは、受け取った質問を解析して、質問から１つ又は複数のドメイン、１つ又は複数のキーワード、及び１つ又は複数の焦点ワード等の１つ又は複数の要素を特定する。図３を参照すると、この図は、質問分解のための方法３００のフローチャートである。質問３１０が受け取られ、この質問は、ドメイン分類エンジン３２０、ローカライズされた用語の頻度（term frequency）−逆文書頻度（inverse document frequency）エンジン３３０、及び／又は依存関係パーサ３４０のうちの１つ又は複数によって解析される。

一実施形態によれば、ドメイン分類エンジン３２０は、ディープラーニングベースのアンサンブル技術を用いて構築された事前訓練された質問ドメイン特定モデルを使用して受け取った質問３１０を解析する。様々な実施形態は、双方向リカレントニューラルネットワーク（ＲＮＮ）ベースのエンコーダ−デコーダアーキテクチャを使用し、ここでエンコーダは質問記述を固定長ベクトルに変換し、そこからデコーダは対応するドメインワードを生成する。

一実施形態によれば、ローカライズされた用語の頻度−逆文書頻度エンジン３３０は、質問を解析して、ある単語が文書にとってどれほど重要であるかを判断し、それを重み係数として利用することができる。例えば、ＴＦＩＤＦ値は、質問内の単語が訓練コーパス内に頻繁に現れる場合には、その単語の重みを下げることができる。ＴＦＩＤＦは、質問に関する焦点ワードを生成するために利用することができるランク付けされたキーワード３５０のリストを生成することができる。

一実施形態によれば、依存関係パーサ３４０は、文の文法構造を解析し、特定のキーワードとそれらのキーワードを修飾する単語との間の関係を確立する。依存関係パーサ３４０の出力は、他の解析の中でも、動詞句関係を特定するためにさらに解析され得る。

一実施形態によれば、質問分解エンジンの出力は、受け取った質問の１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワード等を含む１つ又は複数の要素とすることができる。

図４を参照すると、この図は、質問分解のための方法４００の別のフローチャートである。質問４１０が受け取られ、その質問は、受け取った質問からテキストを特定及び／又は抽出し（音声ファイルをテキストに変換する等）、文をセグメント化し、及び／又はテキスト内の綴りを訂正する前処理エンジン４２０によって解析される。質問焦点生成エンジン４３０が、前処理された質問を解析して、１つ又は複数のキーワード、１つ又は複数の感情、１つ又は複数の動詞関係、及び１つ又は複数の焦点ワードを特定する。質問分解エンジン４３０は、図３に関して上記でより完全に説明しており、質問から１つ又は複数のドメイン、１つ又は複数のキーワード、及び１つ又は複数の焦点ワード等の１つ又は複数の要素を特定する。

一実施形態によれば、質問のクリーニング（明確化）のために、様々な実施形態は、ノイズとなる文字の除去、綴りの訂正、及び／又は文のセグメント化に焦点を合わせてもよい。質問に使用される言語は、例えば、非公式のソーシャルメディア言語又はスラング等である。様々な実施形態は、質問の本文及びタイトルをクリーニングするために同じステップを使用する。質問をクリーニングした後に、実施形態は、キーワード特定、感情特定、及び／又は焦点ワード生成に焦点を合わせることによって質問分解を実行することができる。

一実施形態によれば、質問分解エンジン４３０は、事前訓練されたアンサンブル質問ドメイン分類器４４０を利用する。分類器４４０は、ディープラーニングベースのアンサンブル技術を使用して構築された事前訓練された質問ドメイン特定モジュールを含み得る。例えば、分類器４４０は、双方向リカレントニューラルネットワーク（ＲＮＮ）ベースのエンコーダ−デコーダアーキテクチャを利用することができ、ここでエンコーダは質問記述を固定長ベクトルに変換し、そこからデコーダは対応するドメインワードを生成する。質問ドメイン分類子を生成する他の方法も可能である。

図１の方法のステップ１５０において、分解された質問は生成された意味空間に対して検索され、受け取った質問と意味構造及び／又は焦点等において強い類似性を有する空間内の質問を特定する。１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを含み得る分解された質問は、様々な方法を使用して意味空間に対して検索することができる。受け取った質問と類似性を有する意味空間内の質問は、様々な方法を使用して特定することができる。

図５を参照すると、一実施形態において、この図は、受け取った質問と類似性を有する意味空間内の質問を特定する方法５００のフローチャートである。１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを含む分解された質問は、質問分解エンジン４３０から受け取られ、質問類似性生成器５１０によって意味空間２１０に対して検索される。他の値も可能であるが、例えば、本明細書で説明されるかそうでなければ想定される方法の様々な実施形態は、０：７より大きい余弦類似度を有する意味空間内の質問を特定し得る。いくつかの実施形態は、実験、専門家による評価又は解析、機械学習、又は他の手法の後に閾値を選択し得る。次に、特定された質問は、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを使用してランク付けすることができる。

図６を参照すると、一実施形態において、この図は、受け取った質問と類似性を有する意味空間内の質問を特定する方法６００のフローチャートである。１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを含む分解又は解釈された質問６１０が受け取られ、６２０においてベクトル表現に変換される。あるいはまた、分解又は解釈された質問は、ベクトル表現を生成するように前もって変換、修正、又は解析され、このベクトル表現はシステムによって受け取られる。受け取った質問のベクトル表現は、次に、意味空間２１０内の生成された質問ベクトルと比較される。一実施形態によれば、所定の閾値よりも大きい余弦類似度を有するベクトルと意味空間内の質問との比較が特定される。所定の閾値は、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードのうちの１つ又は複数に少なくとも部分的に基づいて、機械学習から導出されるユーザ設定に基づいて予めプログラムされ得、又は別のメカニズムやパラメータによって設定され得る。一実施形態によれば、意味空間２１０からの質問ベクトルは、迅速な検索及び解析のためにデータベース６４０に格納される。

このフィルタリングの出力は、意味的に類似した質問をランク付けしたリストである。質問のこのリストは、それがバッグ・オブ・ワード（bag-of-words）モデルであるため、行動の極性（polarity）及び方向の点で質問と正確には関連しない可能性がある。意味と構文との両方において類似の質問を抽出するために、他の解析の中でも、質問のリストを、類似のキーワード及び語順に基づく類似性の尺度に関してさらに処理することができる。

方法のステップ１６０において、ステップ１５０で特定された質問は、次に、例えば、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを使用してランク付けされ、図５に示されるように、質問５２０をランク付けしたリストを生成する。

一実施形態によれば、事前訓練されたコーパスベースのＴＦＩＤＦスコアに基づくローカライズされたキーワード抽出は、質問内の重要な単語の特定を容易にすることができる。これらの単語は、単語重複スコアを取得し、意味的類似性ステップから得られた質問を再ランク付けするために使用される。ローカライズされたキーワード抽出のために、様々な実施形態は１つ又は複数のキーワード抽出アルゴリズムを使用してもよい。

ユーザが尋ねた質問に意味的に最も近い質問をランク付けしたリストを特定した後に、様々な実施形態は、質問同士の間の類似性をさらに強く特定するために１つ又は複数の方法又はアルゴリズムを使用できる。一方法によれば、解析プロセスは語順に大きく依存する可能性があり、語彙データベースを使用して単語の間の関係の強さを特定することができる。例えば、同じ同義語に属している単語、或いは同じ感覚又は意味を伝える同義語は、異なる同義語に属する単語よりも高い重みを有し得る。

さらに、単語が上位概念又は下位概念の関係を共有する場合に、重みは同義語と比較してより低く重み付けされ得る。関係のレベルの差が大きいほど、重みは低くなる。この方法は文の長さに依存する可能性があるので、計算コストが高くなる可能性があり、こうして、様々な実施形態はキャッシングメカニズムを利用してアルゴリズムの計算速度を向上させることができる。

図７を参照すると、一実施形態において、この図は、方法のステップ１６０において特定された質問をランク付けするための方法７００のフローチャートである。質問（ｑ１、ｑ２）のリスト７１０は、システムによって生成及び／又は受け取られ、１つ又は複数のプロセスを使用して解析される。例えば、質問のリストは、７２０で単語重複スコア、７３０で語彙データベース７４０を利用してもしなくてもよい単語類似性、７５０で同義語重複、及び７６０で句ベースの類似性について解析することができる。このプロセスの出力は、類似性スコア７７０を集計した、特定され、ランク付けされた質問のリストである。

方法のステップ１７０において、特定され、ランク付けされた質問に関連付けられた意味空間内の回答が抽出されランク付けされ、ここでランク付けは、特定された焦点及び／又はドメインとの重なりに少なくとも部分的に基づくことができる。例えば、前のステップから質問をランク付けした最終リストを受け取った後に、様々な実施形態は、これらの質問に以前に与えた回答を抽出する。システムは、次に、キーワードの重複に基づいて回答をランク付けし、質問の焦点と一致させることができる。回答が１０００文字以下等の特定の長さに制限される場合に、いくつかの実施形態は、質問タイトル及び質問本文から抽出された焦点及び重み付けキーワードを最も代表する１つ又は複数の文を選択し得る。実施形態は、質問もまた上位にランク付けされ、質問の特徴とその回答との一致を有する最良の回答を選択することができる。

方法のステップ１８０において、ステップ１７０で特定された最良の１つ又は複数の回答は、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び受け取った質問から抽出された１つ又は複数の焦点ワードを使用して微調整される。

図８を参照すると、一実施形態において、この図は、抽出された回答をランク付けし微調整するための方法８００のフローチャートである。特定され、ランク付けされた質問のうちの１つ又は複数の質問に対する回答８１０は、システムに提供されるか、そうでなければシステムが受け取る。これらの回答は、これらの質問の１つ又は複数のドメインを特定するためにドメイン分類器８２０に提供され、回答を分解するために分解エンジン８３０に提供される。分解エンジンは、１つ又は複数の回答から１つ又は複数の重み付けされたキーワードを作成し、それを次に８４０において重なりについて解析する。また、８４０において、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び受け取った質問から抽出された１つ又は複数の焦点ワードが提供される。

８５０において、次に、１つ又は複数の回答が微調整に少なくとも部分的に基づいて再ランク付けされ、単一の最良の回答が特定される。

方法のステップ１９０において、最終的な回答がユーザに提供される。図５を参照すると、例えば、回答が微調整された後に、最終的な回答５３０がユーザに提供される。回答は、他の多くの種類のユーザインターフェイスの中でも、スピーカ又はスクリーン等の、情報を伝達するのを可能にする任意のユーザインターフェイスを介してユーザに提供することができる。あるいはまた、回答は、コンピュータ装置又は自動化システムから提供してもよい。例えば、ユーザのスマートフォンは、ユーザの行動、動き、位置、又は他の態様に関連するトピックについてシステムに自動的に問い合わせるようにプログラムされ、必要に応じてオンデマンド等の方法でユーザに提供する回答を自動的に受け取る。

一実施形態によれば、最終的な回答は、６０秒以下、３０秒以下、１０秒以下、又はそれより大きい又は小さい時間枠でユーザに提供される。この時間枠は予め定めてもよく、或いは１つ又は複数のユーザ設定、機械学習パラメータ、又は他の任意のパラメータに基づいてもよい。例えば、ユーザは、ユーザインターフェイス又はユーザ設定によって時間枠を指定することができる。このユーザ指定の時間枠は、１つ又は複数のステップで実行される処理量を制限する等、本明細書に記載の方法の１つ又は複数のステップに影響を及ぼす可能性がある。

図９を参照すると、一実施形態において、この図は、上述した方法と同様の自動質問回答システムのための方法９００のフローチャートである。９１０において、選択された最良の回答が決定点で解析され、それが最良の回答であるかどうかを判定するためにその回答が解析される。この方法は、例えば、受け取った質問が特定の実体（entity）について言及している場合、及び／又は事実又は既知の回答がある場合に適用することができる。例えば、質問は、既知又は実体ベースの回答（「メアリーポピンズは誰であるか？」）を有するが、それに対して意味空間が最良の回答を有していない場合がある。従って、システムは、回答をデータベース又は他のシステムと比較し、それが正しく回答したか、又は正しく回答した可能性が高いと判断することができ、その場合に、回答はユーザに提供される。あるいはまた、システムが、回答が正しく答えていない、又は正しく答えている可能性が低いと判断した場合に、システムは、９２０において、既知又は実体ベースの回答のデータベースに問い合わせて、最良の回答又は最良の回答になる可能性がある回答を特定することができる。

図１０を参照すると、この図は、一実施形態による自動質問回答のためのシステム１０００の概略図である。システム１０００は、本明細書に記載されるかそうでなければ想定される要素、エンジン、データベース、プロセッサ、及び／又は他の構成要素のいずれかを含むことができる。一実施形態によれば、システム１０００は、質問を受け取り及び／又は回答を提供するためのユーザインターフェイス１０３０を含む。ユーザインターフェイスは、他の多くの種類のユーザインターフェイスの中でも、スピーカ又はスクリーン等、情報を伝達及び／又は受信するのを可能にする任意の装置又はシステムとすることができる。情報がコンピュータ装置又は自動化システムに伝達され及び／又はコンピュータ装置又は自動化システムから情報を受信してもよい。ユーザインターフェイスは、システムの１つ又は複数の他の構成要素と共に配置してもよく、又はシステムから離れて配置され、有線及び／又は無線通信ネットワークを介して通信してもよい。

一実施形態によれば、システム１０００は、質問及び回答のコーパス１０１０を含むか、そのコーパスと通信しているか、又はそのコーパスを受信している。本明細書に記載されるかそうでなければ想定されるように、意味空間生成器１０２０は、質問及び回答コーパスを使用して意味空間を生成する。生成された意味空間は、意味空間データベース１０２２に格納され得、データベース１０２２は、システムの１つ又は複数の他の構成要素と共に配置してもよく、又はシステムから離れて配置され、有線及び／又は無線通信ネットワークを介して通信してもよい。

一実施形態によれば、システム１０００は、受け取った質問からテキストを特定及び／又は抽出し、文をセグメント化し、及び／又はテキスト内の綴りを訂正する前処理エンジン１０４０を含む。前処理エンジン１０４０は、前処理された質問を解析して１つ又は複数のキーワード、１つ又は複数の感情、１つ又は複数の動詞関係、及び１つ又は複数の焦点ワードを特定するための質問焦点生成エンジンを含み得る。前処理エンジン１０４０は、その出力を質問焦点生成エンジンへの入力として提供することができる。

一実施形態によれば、システム１０００は、質問から１つ又は複数のドメイン、１つ又は複数のキーワード、及び１つ又は複数の焦点ワード等の１つ又は複数の要素を特定する質問分解エンジン１０５０を含む。

一実施形態によれば、システム１０００は、１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを含む分解された質問を受け取り、その分解された質問を生成された意味空間に対して検索して、分解された質問に似ている質問を特定する質問類似性生成器１０６０を含む。類似性は、他の方法の中でも、例えば、意味空間の質問のベクトルと受け取った質問のベクトルとの余弦の比較に基づいて決定することができる。次に、特定された質問は、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び／又は１つ又は複数の焦点ワードを使用してランク付けすることができる。

一実施形態によれば、システム１０００は、構文上及び意味上の関連性エンジン１０７０を含む。構文上及び意味上の関連性エンジンは、ユーザが尋ねた質問に意味的に最も近い質問を特定することができる。エンジンは、質問又は質問内の単語が上位概念、下位概念、又は同義語の関係を共有するかどうかも又は他に決定することができ、それに応じて質問の重みを調整することができる。

一実施形態によれば、システム１０００は、回答抽出及びランク付けエンジン１０８０を含む。回答抽出及びランク付けエンジンは、特定され、ランク付けされた質問に関連する意味空間内の回答を特定し、ここでランク付けは、特定された焦点及び／又はドメインとの重なりに少なくとも部分的に基づくことができる。抽出された回答をランク付けするための他の方法も可能である。

一実施形態によれば、システム１０００は、特定された１つ又は複数のドメイン、１つ又は複数のキーワード、及び受け取った質問から抽出された１つ又は複数の焦点ワードを使用して特定され、ランク付けされた回答を微調整する回答調整エンジン１０９０を含む。抽出された回答を微調整するための他の方法も可能である。回答調整エンジン１０９０の出力は、ユーザインターフェイス１０３０を介してユーザに提供され得る。

一実施形態によれば、システム１０００は、方法の１つ又は複数のステップを実行するプロセッサを含み、且つ１つ又は複数のエンジン又は生成器を含むことができる。プロセッサ１１００は、１つ又は複数のモジュールから形成することができ、例えばメモリ１１１０を含むことができる。プロセッサ１１００は、マイクロコントローラ、複数のマイクロコントローラ、回路、単一のプロセッサ、又は複数のプロセッサを含むがこれらに限定されない任意の適切な形態を取り得る。メモリ１１１０は、不揮発性メモリ及び／又はＲＡＭを含む任意の適切な形態を取り得る。不揮発性メモリは、読出し専用メモリ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、又は固体状態ドライブ（ＳＳＤ）を含み得る。メモリは、とりわけ、オペレーティングシステムを格納することができる。ＲＡＭはデータの一時記憶のためにプロセッサによって使用される。一実施形態によれば、オペレーティングシステムは、プロセッサによって実行されると、システム１０００の１つ又は複数の構成要素の動作を制御するコードを含むことができる。

本明細書で規定及び使用される全ての規定は、辞書の規定、参照により組み込まれる文献中の規定、及び／又は規定された用語の通常の意味を支配すると理解すべきである。

本明細書及び特許請求の範囲で使用される不定冠詞「１つの（ａ, ａｎ）」は、逆に明確に示されていない限り、「少なくとも１つ」を意味すると理解すべきである。

本明細書及び特許請求の範囲で使用される「及び／又は」という句は、そのように結合された要素、すなわちある場合には結合的に存在し、他の場合には分離的に存在する要素の「いずれか又は両方」を意味すると理解すべきである。「及び／又は」で列挙された複数の要素は、同じように解釈すべきであり、すなわちそのように結合された要素の「１つ又は複数」であると解釈すべきである。具体的に特定されたこれらの要素に関連するかどうかにかかわらず、「及び／又は」節によって具体的に特定された要素以外の他の要素がオプションで存在してもよい。

本明細書及び特許請求の範囲で使用される場合に、「又は」は、上で規定された「及び／又は」と同じ意味を有すると理解すべきである。例えば、リスト内の項目を分離するときに、「又は」又は「及び／又は」は、包括的、すなわち、複数の要素又は要素のリストうちの少なくとも１つの要素を含むが複数の要素も含むものとして解釈されるものとし、また、オプションで、リストに含まれていない追加の項目も含むものとして解釈されるものとする。「〜の１つのみ」又は「〜の正に１つ」、又は請求項で使用される「〜からなる」等の逆に明確に示されている用語のみが、複数の要素又は要素のリストのうちの厳密に１つの包含を指す。一般に、本明細書で使用される「又は」という用語は、「どちらか」、「〜の１つ」、「〜の１つのみ」、「〜の正に１つ」等の排他性の用語が先行する場合にのみ排他的な選択肢（すなわち「一方又は他方であるが、両方ではない」）を示すものとして解釈されるものとする。

本明細書及び特許請求の範囲で使用される場合に、１つ又は複数の要素のリストに関して「少なくとも１つ」という句は、要素のリスト内の任意の１つ又は複数の要素から選択される少なくとも１つの要素を意味すると理解すべきであるが、必ずしも要素のリスト内に具体的に列挙されている全ての要素の少なくとも１つを含むものではなく、要素のリスト内の要素の組合せを除外するものではない。この規定はまた、具体的に特定されたこれらの要素に関連するかどうかにかかわらず、「少なくとも１つ」という句が指す要素のリスト内で具体的に特定された要素以外の要素が、オプションで存在し得ることを可能にする。

逆に明確に示されていない限り、本明細書で請求されている複数のステップ又は動作を含む方法において、方法のステップ又は動作の順序は、必ずしも方法のステップ又は動作が列挙されているその順序に限定されないことも理解すべきである。

特許請求の範囲及び上記の明細書において、「備える、有する、含む（comprising）」、「含む、有する（including）」、「運ぶ（carrying）」、「有する、含む（having）」、「含む（containing）」、「含む（involving）」、「保持する（holding）」、「構成される（composed of）」等の全ての移行句は、オープンエンドであると理解すべきであり、すなわち、含むがそれに限定するものではないことを意味する。「〜からなる（consisting of）」及び「〜から本質的になる（consisting essentially of）」という移行句のみがそれぞれクローズド又はセミクローズド移行句であるものとする。

本明細書ではいくつかの独創的な実施形態について説明及び図示してきたが、当業者は、機能を実行する及び／又は、結果及び／又は本明細書に記載される利点の１つ又は複数を得るための様々な他の手段及び／又は構造を容易に想像し、さらに、そのような変形及び／又は修正のそれぞれが、本明細書に記載される独創的な実施形態の範囲内にあるとみなされる。より一般的には、当業者は、本明細書に記載される全てのパラメータ、寸法、材料、及び構成が例示的であることを意味し、実際のパラメータ、寸法、材料、及び／又は構成は、独創的な技術が使用される特定の１つ又は複数の用途に応じて変わることを理解するだろう。当業者は、本明細書に記載される特定の独創的な実施形態に対する多くの均等物を認識し、又は日常的に過ぎない実験を使用してそれら均等物を確かめることができるだろう。従って、前述した実施形態は例としてのみ提示されており、添付の特許請求の範囲及びその均等物の範囲内で、独創的な実施形態は具体的に説明及び特許請求されている以外の方法で実施できることを理解されたい。本開示の独創的な実施形態は、本明細書に記載される各個々の特徴、システム、物品、材料、キット、及び／又は方法に関する。さらに、そのような特徴、システム、物品、材料、キット、及び／又は方法が互いに矛盾しない場合に、そのような２つ以上の特徴、システム、物品、材料、キット、及び／又は方法の任意の組合せも、本開示の独創的な範囲内に含まれる。

既存のＱＡシステムは、知識主導型の、焦点が絞られ、曖昧さが少なく、及びイベント主導型のファクトイド（factoid）ベースの質問に回答することに殆ど焦点が当てられており、これらは、通常、回答のための言い回しを有している。ファクトイドベースの質問は、人間の主観及び考えにそれほど強く影響されないため、回答し易い。これら既存のＱＡシステムは、典型的に、関係する質問の焦点を理解しておらず、質問の感情的又は主観的な要素を理解又は評価していない。従って、既存のＱＡシステムは、質問者の焦点、感情、又は主観性に沿った情報を提供することができない。米国特許出願公開第２０１０／００３０７６９号は、質問のトピックのクラスタ及び焦点のクラスタに基づいて、問い合わされた質問に関連する質問を提示するためのシステムについて記載する。
米国特許出願公開第２０１０／００３０７６９号

一般に一態様では、所与の時間枠における自動質問回答のためのシステムが提供される。このシステムは、質問及び回答のコーパスから生成される意味空間と、ユーザから質問を受け取るように構成されたユーザインターフェイスと、所与の時間枠内で質問に対する回答を特定し微調整するプロセッサとを含み、プロセッサは、（ｉ）受け取った質問を少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードに分解するように構成された質問分解エンジンと；（ｉｉ）分解された質問を使用して意味空間内の１つ又は複数の質問を特定するように構成された質問類似性生成器であって、特定された１つ又は複数の質問は受け取った質問と類似すると判定される、質問類似性生成器と；（ｉｉｉ）意味空間から、１つ又は複数の特定された質問に関連する回答を抽出することであって、抽出された回答は、所与の時間枠に依存する特定の長さに制限され、少なくとも１つの焦点ワード及び１つのキーワードを最も表す、意味空間からの回答の１つ又は複数の文が、抽出された回答として選択される、抽出し、抽出された回答のうちの１つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジンと；（ｉｖ）少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードのうちの１つ又は複数を使用して、特定された最良の回答を微調整して最良の回答を再ランク付けし単一の最良の回答を特定するように構成された回答調整エンジンと；を含み、単一の最良の回答は、所与の時間枠内にユーザインターフェイスを介してユーザに提供される。

一般に、一態様では、所与の時間枠における自動質問回答のための方法が提供される。この方法は、（ｉ）ユーザインターフェイス、プロセッサ、及び生成された意味空間を含む自動質問回答システムを提供するステップと；（ｉｉ）ユーザインターフェイスを介して、回答が所与の時間枠内に要求される質問を受け取るステップと；（ｉｉｉ）プロセッサによって、受け取った質問を少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードに分解するステップと；（ｉｖ）プロセッサによって、分解された質問を使用して、意味空間内の１つ又は複数の質問を特定するステップであって、特定された１つ又は複数の質問は、受け取った質問に類似すると判定される、特定するステップと；（ｖ）プロセッサによって、受け取った質問との類似性に基づいて、１つ又は複数の特定された質問をランク付けするステップと；（ｖｉ）プロセッサによって、意味空間から１つ又は複数の特定された質問に関連する回答を抽出するステップであって、抽出された回答は、所与の時間枠に依存する特定の長さに制限され、少なくとも１つの焦点ワード及び１つのキーワードを最も表す、意味空間からの回答のうちの１つ又は複数の文が、抽出された回答として選択される、抽出するステップと；（ｖｉｉ）プロセッサによって、抽出された回答のうちの１つ又は複数を最良の回答として特定するステップと；（ｖｉｉｉ）プロセッサによって、少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードのうちの１つ又は複数を使用して、特定された最良の回答を微調整するステップであって、最良の回答は再ランク付けされ、単一の最良の回答が特定される、微調整するステップと；（ｉｘ）ユーザインターフェイスを介して、単一の最良の回答を所与の時間枠内に受け取った質問に対する回答として提供するステップと；を含む。

Claims

自動質問回答のためのシステムであって、当該システムは、
質問及び回答のコーパスから生成される意味空間と、
ユーザから質問を受け取るように構成されたユーザインターフェイスと、
プロセッサと、を含み、
該プロセッサは、
前記受け取った質問を少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードに分解するように構成された質問分解エンジンと、
前記分解された質問を使用して前記意味空間内の１つ又は複数の質問を特定するように構成された質問類似性生成器であって、前記特定された１つ又は複数の質問は前記受け取った質問に類似すると判定される、質問類似性生成器と、
（ｉ）前記意味空間から、前記１つ又は複数の特定された質問に関連する回答を抽出し、（ｉｉ）該抽出された回答のうちの１つ又は複数を最良の回答として特定するように構成された回答抽出及びランク付けエンジンと、
前記少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードのうちの１つ又は複数を使用して、前記特定された最良の回答を微調整するように構成された回答調整エンジンと、を含み、
前記微調整された回答は、前記ユーザインターフェイスを介して前記ユーザに提供される、
システム。
質問及び回答のコーパスをさらに含み、前記質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる、請求項１に記載のシステム。
前記受け取った質問からテキストを抽出すること、前記受け取った質問の文をセグメント化すること、及び前記受け取った質問の綴りを訂正することの１つ又は複数を含む、前記受け取った質問を前処理するように構成される前処理エンジンをさらに含む、請求項１に記載のシステム。
前記意味空間を格納するように構成された意味空間データベースをさらに含む、請求項１に記載のシステム。
前記受け取った質問との類似性に基づいて、前記１つ又は複数の特定された質問をランク付けするように構成された構文上及び意味上の関連性エンジンをさらに含む、請求項１に記載のシステム。
前記意味空間内の前記質問にはベクトルが含まれ、前記分解された質問にはベクトルが含まれ、さらに前記意味空間内の前記質問の前記ベクトルは前記分解された質問の前記ベクトルと比較され、該ベクトル比較が所定の閾値を上回る場合に、前記意味空間内の質問が類似していると特定される、請求項１に記載のシステム。
自動質問回答のためのコンピュータ化された方法であって、当該方法は、
ユーザインターフェイス、プロセッサ、及び生成された意味空間を含む自動質問回答システムを提供するステップと、
前記ユーザインターフェイスを介して、ユーザから回答が要求される質問を受け取るステップと、
前記プロセッサによって、前記受け取った質問を少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードに分解するステップと、
前記プロセッサによって、前記分解された質問を使用して、前記生成された意味空間内の１つ又は複数の質問を特定するステップであって、該特定された１つ又は複数の質問は、前記受け取った質問と類似すると判定される、特定するステップと、
前記プロセッサによって、前記受け取った質問との類似性に基づいて、前記１つ又は複数の特定された質問をランク付けするステップと、
前記プロセッサによって、前記意味空間から前記１つ又は複数の特定された質問に関連する回答を抽出するステップと、
前記プロセッサによって、前記抽出された回答のうちの１つ又は複数を最良の回答として特定するステップと、
前記プロセッサによって、前記少なくとも１つのドメイン、１つのキーワード、及び１つの焦点ワードのうちの１つ又は複数を使用して、前記特定された最良の回答を微調整するステップと、
前記ユーザインターフェイスを介して、前記微調整された最良の回答を前記受け取った質問に対する回答として提供するステップと、を含む、
方法。
質問及び回答のコーパスから意味空間を作成するステップをさらに含み、前記質問のうちの少なくともいくつかはそれぞれの回答に関連付けられる、請求項７に記載の方法。
前記生成された意味空間はデータベースに格納される、請求項８に記載の方法。
前記意味空間内の前記質問にはベクトルが含まれ、前記分解された質問にはベクトルが含まれ、さらに前記意味空間内の前記質問の前記ベクトルは前記分解された質問の前記ベクトルと比較され、該ベクトル比較が所定の閾値を上回る場合に、前記意味空間内の質問が類似していると特定される、請求項７に記載の方法。
前記所定の閾値は余弦値を含む、請求項１０に記載の方法。
前記プロセッサによって、前記受け取った質問からテキストを抽出すること、前記受け取った質問の文をセグメント化すること、及び前記受け取った質問の綴りを訂正することの１つ又は複数を含む、前記受け取った質問を前処理するステップをさらに含む、請求項７に記載の方法。
前記受け取った質問との類似性に基づいて、前記１つ又は複数の特定された質問をランク付けするステップは、前記特定された質問の意味解析及び／又は構文解析を含む、請求項７に記載の方法。
前記抽出された回答のうちの１つ又は複数を最良の回答として特定するステップは、前記抽出された回答のランク付けを含む、請求項７に記載の方法。
前記自動質問回答システムは、事前訓練された質問ドメイン分類器をさらに含み、前記受け取った質問は、前記事前訓練された質問ドメイン分類器により少なくとも部分的に基づいて分解される、請求項７に記載の方法。