JP2023541106A

JP2023541106A - 文書の関連性を調査するためのシステム及び方法

Info

Publication number: JP2023541106A
Application number: JP2023507493A
Authority: JP
Inventors: マルヴィヤアンキット; シンマダスダン; バララマンムリダル; スリヴァスタヴァプラカー
Original assignee: エルアンドティーテクノロジーサービシズリミテッド
Priority date: 2021-06-25
Filing date: 2022-03-18
Publication date: 2023-09-28
Also published as: EP4359958A1; WO2022269369A1; US20230185835A1

Abstract

本明細書で開示されるのは、文書の関連性を調査するためのシステム１０２及び方法である。システム１０２は、ユーザからの要求に基づいて、１つ又は複数のデータソース２１０から文書を抽出する。次いで、システム１０２は、ユーザから、ユーザ意図情報１０８及びユーザクエリ１１０を取得する。次いで、システム１０２は、各文書の関連性レベルを決定するために、ユーザ意図情報１０８に関して各文書を解析する。関連性レベルは、ランキングスコアの形式で示される。システムは、文書をランク付けし、それらのスコアの順に文書をユーザに表示する。システム１０２はまた、文書からの重要な抜粋をハイライトし、一つ一つの文書に関してユーザによって送信された１つ又は複数のユーザクエリ１１０への１つ又は複数の応答２２２を提供する。受信された応答に基づいて、ユーザは、システムをさらに訓練するためのフィードバックを提供し、それによって、より良い精度を達成する。【選択図】図４

Description

本開示は、データ解析の分野に関する。より具体的には、文書の関連性を調査するように、様々なソースから抽出された文書を解析することに関する。

以下の説明は、本開示を理解するのに有用であり得る情報を含む。本明細書で提供される任意の情報が、先行技術であること、又は、本請求項に関連すること、又は、具体的に或いは黙示的に参照される任意の刊行物が先行技術であることを認めるものではない。

調査ベースの研究のための報告書を作成することは、多数の文書を手動で抽出し、解析することを必要とし、したがって、非常に退屈な作業である。個人は、関連文書を見つけるために長い時間を費やさなければならず、関連文書を見つけた後、文書を研究に含めるか否かを決定するために、一つ一つの文書を研究しなければならない。例えば、個人は、医療デバイスの臨床評価を記載する臨床評価報告書（ＣＥＲ）を準備したい。このために、まず、個人は、既存の文献、臨床経験、臨床試験、又はその３つの任意の組み合わせから臨床データを識別しなければならない。次いで、個人は、収集されたデータに基づいて、データの関連性、適用性、品質、及び意義を評価し、最終的に、ＣＥＲに結論を明示しなければならない。さらに、これらの２つのステップは、作成される報告書の品質に不可欠であるので、これらのステップは、細心の注意を払って実行されなければならない。したがって、手動で実行されるとき、プロセス全体は、非常に時間がかかり、精神的に疲弊する。

したがって、データの識別及び評価と、文書の関連性を調査することとに関わる手動労力を軽減する方法及びシステムの必要性がある。

本開示は、先行技術の１つ又は複数の欠点を克服し、本開示を通して議論される追加の利点を提供する。追加の特徴及び利点は、本開示の技術を通して実現される。本開示の他の実施形態及び態様は、本明細書において詳細に説明され、請求された開示の一部とみなされる。

本開示の非限定的な一実施形態では、文書の関連性を調査するための方法が開示される。方法は、ユーザ要求に基づいて、１つ又は複数のデータソースから複数の文書を抽出することを含む。方法は、ユーザからユーザ入力を受信することをさらに含み、ユーザ入力は、ユーザ意図情報及び１つ又は複数のユーザクエリのうちの少なくとも１つを含む。方法は、複数の文書に対してユーザ意図情報を相関させることによって、ドメイン固有ランキングモジュールを介して複数の文書の各々のランキングスコアを生成することをさらに含み、ランキングスコアは、ユーザ意図情報に関して複数の文書の各々の関連性レベルを示す。方法は、ランキングスコアに基づいて複数の文書を表示する間、各文書における１つ又は複数の抜粋をハイライトすることをさらに含む。方法は、ドメイン固有ランキングモジュールを訓練するために、ランキングスコアとハイライトされた１つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索することをさらに含む。

本開示のさらに別の非限定的な実施形態では、文書の関連性を調査するためのシステムが開示される。システムは、ユーザ要求に基づいて、１つ又は複数のデータソースから複数の文書を抽出するように構成されている抽出ユニットを含む。システムは、ユーザからユーザ入力を受信するように構成されている受信ユニットをさらに含み、ユーザ入力は、ユーザ意図情報及び１つ又は複数のユーザクエリのうちの少なくとも１つを含む。システムは、複数の文書に対してユーザ意図情報を相関させることによって、ドメイン固有ランキングモジュールを介して複数の文書に対応するランキングスコアを生成するように構成されているスコア生成ユニットをさらに含み、各ランキングスコアは、ユーザ意図情報に関して文書の関連性レベルを示す。システムは、ランキングスコアに基づいて複数の文書を表示する間、各文書における１つ又は複数の抜粋をハイライトするように構成されているハイライトユニットをさらに含む。システムは、ランキングスコアとハイライトされた１つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索するように構成されているフィードバックユニットをさらに含む。システムは、ユーザフィードバックに基づいて、ドメイン固有ランキングモジュールを訓練するように構成されている訓練ユニットをさらに含む。

前述の概要は、例示的にすぎず、任意の方法においても限定的であることを意図していない。上述された例示的な態様、実施形態、及び特徴に加えて、さらなる態様、実施形態、及び特徴は、図面及び以下の詳細な説明を参照することによって明らかになるであろう。

本開示の実施形態自体、ならびに好ましい使用態様、さらなるその目的及び利点は、添付の図面と共に読むとき、例示的な一実施形態の以下の詳細な説明を参照することによって、最も良く理解されるであろう。ここで、１つ又は複数の実施形態は、例としてのみ、添付の図面を参照しながら記載される。
図１Ａは、本開示の一実施形態による、文書の関連性を調査するためのシステムの環境１００を説明する。図１Ｂは、本開示の一実施形態による、文書の関連性を調査するためのシステムの環境１００を説明する。図１Ｃは、本開示の一実施形態による、文書の関連性を調査するためのシステムの環境１００を説明する。図２は、本開示の一実施形態による、文書の関連性を調査するためのシステムのブロックダイアグラム２００を説明する。図３は、本開示の一実施形態による、ドメイン固有ランキングモジュールを説明する例示的な一実施形態３００を説明する。図３Ａは、本開示の一実施形態による、第１文に対応する依存木３００Ａを説明する。図３Ｂは、本開示の一実施形態による、第２文に対応する依存木３００Ｂを説明する。図３Ｃは、本開示の一実施形態による、第１文に対応するアテンションマトリクス３００Ｃを説明する。図３Ｄは、本開示の一実施形態による、第２文に対応するアテンションマトリクス３００Ｄを説明する。図４は、本開示の一実施形態による、文書の関連性を調査するための方法のフローチャート４００を説明する。

図は、説明の目的のみのために本開示の実施形態を描いている。当業者は、以下の説明から、本明細書で記載される開示の原理から逸脱することなく、本明細書で説明される構造及び方法の代替的な実施形態が採用され得ることを容易に認識するであろう。

上記は、以下に続く本開示の詳細な説明がより良く理解され得るために、本開示の特徴及び技術的利点を大まかに説明した。開示された着想及び具体的な実施形態が、本開示の同じ目的を遂行するための他の構造を修正し、或いは設計するための基礎として容易に利用され得ることを当業者によって理解されるべきである。

本開示の特徴であると考えられる新規な特徴は、その構成と動作方法との両方に関して、さらなる目的及び利点と共に、添付の図と関連して考慮されるとき、以下の説明からより良く理解されるであろう。しかしながら、図の各々は、例示及び説明の目的のみのために提供され、本開示の限定の定義として意図されないことを明示的に理解されるべきである。

本明細書で開示されるのは、文書の関連性を調査するためのシステム及び方法である。調査報告書、例えば、評価報告書、文献調査報告書、定性的報告書、及び定量的報告書を作成する作業は、非常に面倒で時間のかかる作業である。個人は、個人の研究に関連するデータを収集するために長い時間を費やさなければならない。その後、個人は、収集されたデータを解析し、データの関連性、適用性、品質、及び意義を調査しなければならない。しかしながら、データを収集する最初のステップと、データを解析するその後のステップとは、非常に面倒であり、手動で行われるとき、完了するのにしばしば数日かかり得る。データを収集する作業と、データを解析する作業とは、作成される報告書の品質に関して非常に不可欠であるので、これらの作業は、細心の注意を払って実行されることが必要となる。作業を手動で実行するとき、個人が一つ一つの文書を細心の注意を払って解析することは人間的に可能でないので、常に改善の余地がある。

本開示は、文書を収集し、解析する作業においてユーザを支援するシステムを提供する。システムは、ユーザからの要求に基づいて、データソースから文書を抽出する。抽出された文書は、ユーザが行いたい検索に大まかに基づいている。次いで、システムは、ユーザが、抽出された文書に関してシステムによって回答されることを希望する特定のクエリと共に、研究を実行する背後にあるユーザの意図を受信する。クエリは、ドメイン固有であり、ユーザのニーズ及び研究ドメインに基づいて、ユーザによってカスタマイズされ得る。例えば、生物医学ドメインにおいて働いているユーザは、ナノマテリアルドメイン又は輸送ドメインにおいて働いているユーザと比較して、異なるクエリを有することとなる。次いで、システムは、ユーザの意図に関して各文書を解析し、各文書の関連性レベルを決定する。関連性レベルは、ランキングスコアの形式で示されてもよい。システムは、文書をランク付けし、ランキングスコアの順に文書をユーザに表示する。これは、ユーザが、関連性の順に文書を閲覧することを可能にする。さらに、システムはまた、文書からの重要な抜粋をハイライトし、ユーザが、文書全体を読むことの代わりにハイライトされた抜粋のみに集中することを助ける。さらに、システムはまた、一つ一つの文書に関してユーザによって送信されたクエリへの応答を提供する。このようにして、ユーザが、ユーザの研究の文書を含めるか、或いは除外するかを決定することが比較的容易になる。その関連性を調査するために文書全体を研究する必要がないので、そのような決定に達するまでに要する時間は、大幅に短縮される。システムの詳細な動作及び説明は、後続の段落において記載される。

本開示の一実施形態によれば、図１Ａ－図１Ｃは、文書の関連性を調査するためのシステムの例示的な環境１００を示す。図１Ａの例示的な環境１００が、ユーザが生物医学ドメインにおける臨床評価報告書（ＣＥＲ）を作成したいことを考慮して説明されていることを当業者によって留意されなければならない。さらに、当業者は、システム１０２がまた、図１Ａに示される以外の、様々な環境において実装されてもよいことを理解し得る。

本開示の一実施形態によれば、例示的な環境１００は、システム１０２のブロックダイアグラム２００を示す図２と共に説明される。本開示は、システム１０２がサーバ上で実装されることを考慮して説明されるが、システム１０２は、ラップトップコンピュータ、デスクトップコンピュータ、ノートブック、ワークステーション、メインフレームコンピュータ、サーバ、ネットワークサーバ、クラウドベースコンピューティング環境などの、様々なコンピューティングシステムにおいてツールとして実装されてもよいことを理解され得る。

一実装形態では、システム１０２は、Ｉ／Ｏインタフェース２０２と、プロセッサ２０４と、メモリ２０６と、ユニット２０８とを含んでもよい。メモリ２０６は、プロセッサ２０４及びユニット２０８に通信可能に結合されてもよい。さらに、メモリ２０６は、ユーザ意図情報１０８と、１つ又は複数のクエリ１１０と、１つ又は複数の応答２２２と、１つ又は複数のツール２２４とを格納してもよい。格納された量の各々の意義及び使用は、後続の段落において説明される。プロセッサ２０４は、１つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、ステートマシン、論理回路、及び／又は操作命令に基づいて信号を操作する任意のデバイスとして実装されてもよい。他の機能の中で、プロセッサ２０４は、メモリ２０６に格納されたコンピュータ可読命令をフェッチし、実行するように構成されている。Ｉ／Ｏインタフェース２０２は、様々なソフトウェア及びハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどを含んでもよい。Ｉ／Ｏインタフェース２０２は、システム１０２が、ウェブサーバ及び外部データサーバ（図示せず）などの、他のコンピューティングデバイスと通信することを可能にしてもよい。Ｉ／Ｏインタフェース２０２は、例えば、ＬＡＮ、ケーブルなどの有線ネットワークと、ＷＬＡＮ、セルラー、又は衛星などの無線ネットワークとを含む、多種多様なネットワーク及びプロトコルタイプ内の複数の通信を促進してもよい。Ｉ／Ｏインタフェース２０２は、多くのデバイスを互いに、或いは別のサーバに接続するための１つ又は複数のポートを含んでもよい。

一実装形態では、ユニット２０８は、抽出ユニット２３１と、受信ユニット２３２と、スコア生成ユニット２３３と、ハイライトユニット２３４と、応答生成ユニット２３５と、フィードバックユニット２３６と、訓練ユニット２３７と、決定ユニット２３８とを含んでもよい。本開示の実施形態によれば、これらのユニット２３１－２３８は、システム１０２の様々な動作を実行するための、プロセッサ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路のようなハードウェアコンポーネントを含んでもよい。本開示の様々な実施形態によれば、プロセッサ２０４は、ユニット２３１－２３８の全ての機能を実行してもよいことを理解されなければならない。

図１Ａを参照すると、環境１００は、ユーザ要求に基づいて、１つ又は複数のデータソース２１０から複数の文書を抽出するシステム１０２を示す。図２によれば、文書の抽出は、抽出ユニット２３１によって実行される。一実施形態では、ユーザ要求は、複数の文書に係るキーワードのセット１０４を含む。例えば、ユーザが作成したいＣＥＲの主題が、「非セミノーマ精巣癌を有する患者を管理するための補助としてのヒト血清中のアクセスα－フェトプロテイン（ＡＦＰ）の定量決定」に関連する報告書である場合、ユーザは、「ＡＦＰ」、「ヒト」、「精巣癌」を含み得るキーワードのセット１０４を提供する。キーワードのセットに基づく抽出ユニット２３１は、複数の文書を抽出する。別の実施形態では、ユーザ要求は、ユーザが、複数の文書に係る複数の固有ＩＤ１０６を提供することを含む。複数の固有ＩＤは、複数の固有ＩＤ１０６に対応する複数の文書を抽出する抽出ユニット２３１に提供される。図１Ａに描かれた例示的な環境１００によれば、抽出された複数の文書は、２５０である。

複数の文書が抽出されると、受信ユニット２３２は、ユーザ入力を受信する。一実施形態では、ユーザ入力は、自然言語を使用して、ＣＥＲを作成する背後にある意図を示すユーザ意図情報１０８を含む。例示的な環境１００によれば、ユーザ意図情報１０８は、「アクセスα－フェトプロテイン（ＡＦＰ）アッセイは、非セミノーマ精巣癌を有する患者の管理における補助としてのヒト血清中のＡＦＰの定量決定のためのアクセスイノムアッセイシステムでの使用のための常磁性粒子、化学発光イノムアッセイである。胎児の神経管閉鎖障害（ＯＮＴＤ）の検出を補助するための母体血清及び羊水」のように読んでもよい。図１Ａ及び図１Ｃに示されるように、ユーザ入力は、複数の文書に係る１つ又は複数のユーザクエリ１１０をさらに含む。例えば、１つ又は複数のユーザクエリ１１０は、「文書の意図は何ですか？」、「デバイスは何のために使用されますか？」、「研究の参加者の種類は何ですか？」などの質問を含んでもよい。１つ又は複数のユーザクエリ１１０は、ユーザのニーズに基づいてカスタマイズ可能であることを当業者によって留意されなければならない。すなわち、１つ又は複数のユーザクエリ１１０は、ユーザが行っている研究の種類及び研究が属するドメインに基づいて編集され、或いは起草され得る。例えば、例示的な環境１００によれば、研究は、生物医学ドメインであり、１つ又は複数のクエリ１１０は、生物医学ドメインに関連する。しかしながら、研究がナノ材料のドメインであるユーザは、上述されるものとは異なるクエリのセットを有してもよく、ユーザのニーズに基づいてクエリをカスタマイズし得る。

ユーザ意図情報１０８に関して複数の文書の関連性を調査するために、スコア生成ユニット２３３は、複数の文書に対してユーザ意図情報１０８を相関させ、各文書のランキングスコアを生成する。ランキングスコアは、ユーザ意図情報１０８に関して各文書の関連性レベルを示す。図１Ａに描かれた、例示的な環境１００によれば、ユーザ意図情報１０８は、２５０個の抽出された文書の各々に対して相関される。

図３に説明されるように、複数の文書に対してユーザ意図情報１０８を相関させるために、スコア生成ユニット２３３は、ドメイン固有ランキングモジュール３００を採用する。ドメイン固有ランキングモジュール３００は、１つ又は複数のツール２２４のうちの１つとしてメモリ２０６に格納される。ドメイン固有ランキングモジュール３００の詳細は、後続の段落において一例を用いて説明される。

ドメイン固有ランキングモジュール３００のステップ３０２において、文ペアは、入力される。文ペアは、ユーザ意図情報１０８に由来する第１文と、複数の文書のうちの１つに由来する第２文とを含む。例えば、文ペアは、以下を含んでもよい。
第１文－ＡＦＰｉｓｄｅｔｅｃｔｅｄｉｎｐａｔｉｅｎｔｓｗｉｔｈＮＳＴＣ（ＡＦＰは、ＮＳＴＣの患者において検出される）
第２文－ＥｌｅｖａｔｅｄＡＦＰｒｅｖｅａｌｅｄｍｉｘｅｄｇｅｒｍｃｅｌｌｔｕｍｏｕｒｓ（上昇されたＡＦＰは、混合性胚細胞腫瘍を明らかにした）。

ドメイン固有ランキングモジュール３００のステップ３０４において、第１文に対応する第１の依存木３００Ａと第２文に対応する第２の依存木３００Ｂとは、生成される。図３Ａ及び図３Ｂに説明されるように、第１及び第２の依存木３００Ａ、３００Ｂは、第１文及び第２文の文法構造を表し、その統語構造を明らかにする。

ドメイン固有ランキングモジュール３００のステップ３０６において、第１文及び第２文の意味を変更しないように、ドメイン固有の高度な言語モデルが採用され、第１文に対応する第１のトークン（又は単語）のセットと、第２文に対応する第２のトークン（又は単語）のセットとをドメイン固有の方法で符号化する。第１文及び第２文のためのドメイン固有の高度な言語モデルの動作は、それぞれ、表１及び表２に説明される。

しかしながら、ドメイン固有の高度な言語モデルの代わりに、通常の言語モデルが使用される場合、第１文のトークンは、［‘ａ’，‘＃＃ｆ’，‘＃＃ｐ’，‘ｉｓ’，‘ｄｅｔｅｃｔｅｄ’，‘ｉｎ’，‘ｐａｔｉｅｎｔｓ’，‘ｗｉｔｈ’，‘ｎ’，‘＃＃ｓ’，‘＃＃ｔ’，‘＃＃ｃ’，‘．’］のように生成されることとなり、第２文のトークンは、［‘ｅｌｅｖａｔｅｄ’，‘ａ’，‘＃＃ｆ’，‘＃＃ｐ’，‘ｒｅｖｅａｌｅｄ’，‘ｍｉｘｅｄ’，‘ｇｅ’，‘＃＃ｒｍ’，‘ｃｅｌｌ’，‘ｔｕ’，‘＃＃ｍｏｕｒ’，‘＃＃ｓ’，‘．’］のように生成されることとなる。したがって、第１文及び第２文の意味は、失われることとなる。

ドメイン固有ランキングモジュール３００のステップ３０８において、第１文の単語のセットと第２文の単語のセットとの間に明示的な依存関係を確立するために、第１文の単語のセットに対応する第１のアテンションマトリクスと、第２文の単語のセットに対応する第２のアテンションマトリクスとは、作成される。第１文の単語のセットと第２文の単語のセットとに対応するアテンションマトリクスは、それぞれ、図３Ｃと図３Ｄとに描かれており、ハイライトされたセルは、アテンション重みに関してである。

ドメイン固有ランキングモジュール３００のステップ３１０において、相互アテンションの技術は、第１文及び第２文に対応する意味表現を生成するために採用される。相互アテンションは、単語間の類似性が、単語の位置決めに起因して、或いは同義語又は類義語の使用に起因して見過ごされることがないように、異なる位置での単語の同義語及び類義語を考慮する。例えば、第１文“ＡＦＰｉｓｄｅｔｅｃｔｅｄｉｎｐａｔｉｅｎｔｓｗｉｔｈＮＳＴＣ”はまた、“ＮＳＴＣｐａｔｉｅｎｔｓａｒｅｄｅｔｅｃｔｅｄｗｉｔｈＡＦＰｌｅｖｅｌｓ（ＮＳＴＣの患者は、ＡＦＰレベルと共に検出される）”として表現されることができ、第２文“ＥｌｅｖａｔｅｄＡＦＰｒｅｖｅａｌｅｄｍｉｘｅｄｇｅｒｍｃｅｌｌｔｕｍｏｕｒｓ”はまた、“ＭｉｘｅｄｇｅｒｍｃｅｌｌｔｕｍｏｕｒｓａｒｅｄｅｔｅｃｔｅｄｗｉｔｈｈｉｇｈＡＦＰ（混合性胚細胞腫瘍は、高いＡＦＰと共に検出される）”として表現されることができる。

ドメイン固有ランキングモジュール３００のステップ３１２において、第１文の単語のセットと第２文の単語のセットとは、意味的に意味のある文表現又は埋め込みを生成するために微調整される。微調整は、損失関数を最小化するために、第１文及び第２文の単語のセットを、共有パラメータを有するデュアルブランチネットワークに提供することによって達成される。共有パラメータを有するこのデュアルブランチネットワークは、類似度フィードバックのラベル付き文ペアを有するモデルを提供し、文の意味表現間の損失を最小化することによって、損失関数を最小化するために予め訓練される。

ドメイン固有ランキングモジュール３００のステップ３１４において、ランキングスコアは、コサイン類似度、マンハッタン距離類似度、ユークリッド距離類似度などの、類似度測定技術を採用することによって、微調整された第１文及び第２文のために生成される。しかしながら、上述されたもの以外の類似度測定技術はまた、使用されてもよいことを当業者によって留意され得る。

ステップ３０２－３１４において記載された手順が繰り返し実行され、ユーザ意図情報１０８にしたがって、複数の文書の各々に関してランキングスコアを決定する。

複数の文書のランキングスコアが生成されると、図１Ｂに描かれているように、複数の文書は、そのランキングスコアの順に表示される。一実施形態では、最も高いランキングスコアを有する文書は、一番上に表示されてもよい。しかしながら、別の実施形態では、最も高いランキングスコアを有する文書は、一番下に表示されてもよい。さらに、図１Ｂに示されるように、各文書は、その固有ＩＤ及びそのランキングスコアと共に表示される。図１Ｂに描かれたランキングスコアは、１００点中であるが、ランキングスコアは、他の形式において生成され、或いは表現され得ることは、当業者によって留意され得る。

さらに、表示された各文書に関して、ハイライトユニット２３４は、ユーザ意図情報１０８の観点から重要である１つ又は複数の抜粋をハイライトする。１つ又は複数の抜粋は、１つ又は複数の段落及び／又は１つ又は複数の文を含んでもよいことを当業者によって理解され得る。１つ又は複数の重要な段落をハイライトするために、ドメイン固有ランキングモジュール３００は、ハイライトユニット２３４によって採用され、ユーザ意図情報１０８と最も高い関連性を有する文書内の段落を識別する。さらに、重要な段落の１つ又は複数の重要な文をハイライトするために、重要な段落の文のそれぞれのトークン（又は単語）のアテンション重みとユーザ意図情報１０８とは、スコア生成ユニット２３３によって計算される。アテンション重みに基づいて、各トークンは、スコアを割り当てられる。スコアに基づいて、ハイライトユニット２３４によって重要な文としてハイライトされる最も関連性のある段落の重要部分の開始及び終了は、取得される。

１つ又は複数の抜粋のハイライトは、ユーザが、ユーザ意図情報１０８においてユーザによって定義されたユーザの意図する目的に最も関連する文書のセクションを容易に識別することを可能にする。

さらに、図１Ｃに示されるように、システム１０２は、ユーザが、示されるように応答タブを選択することによって、ユーザによって提供された１つ又は複数のユーザクエリ１１０への１つ又は複数の応答を閲覧することを可能にする。図１Ｂでは、１つ又は複数のユーザクエリ１１０への応答は、システム１０２のメモリ２０６に１つ又は複数のツール２２４として格納された質疑応答（ＱＡ）のためのドメイン固有の高度な言語モデルを採用する応答生成ユニット２３５によって提供される。生成された１つ又は複数の応答２２２は、メモリ２０６に格納される。さらに、生成された１つ又は複数の応答に基づいて、フィードバックユニット２３６は、ユーザが、１つ又は複数の応答にフィードバックを提供することを可能にする。例えば、図１Ａの例示的環境１００に示されるように、ユーザが提供された応答に満足しない場合、或いは、応答生成ユニットが応答を提供することができなかった場合、ユーザは、応答生成ユニット２３５によって提供された応答を検証するオプション、又は応答を変更するオプションを提供される。フィードバックに基づいて、訓練ユニット２３７は、質疑応答（ＱＡ）ための高度な言語モデルを再訓練する。

図１Ａに示されるように、システム１０２はさらに、決定タブを提供することによって、ユーザが１つ又は複数の関連文書を選択することを可能にする。決定タブは、決定ユニット２３８によって制御され、特定の文書を「含む」或いは「除外する」のいずれかのオプションをユーザに提供する。しかしながら、ユーザが決定できない場合、決定ユニット２３８は、「決定できない」オプションをユーザに提供することによって、ユーザが特定の文書を再検討することを可能にする。

したがって、その様々なコンポーネントの相互作用を介したシステム１０２は、閲覧者が最小限の時間及び労力で関連文書を識別することをより容易にし、それによって、ユーザエクスペリエンスを向上させる。さらに、ドメイン固有ランキングモジュール３００が様々な技術の組み合わせを採用するので、複数の文書の各々のランキングスコアが生成される方法は、非常に広範囲且つ正確である。

図４は、本開示の一実施形態による、複数の文書の関連性を調査するための方法４００を描いている。

図４に説明されるように、方法４００は、製造工場における情報を管理するための方法を説明する１つ又は複数のブロックを含む。方法４００は、コンピュータ実行可能命令の一般的なコンテキストで記載されてもよい。概して、コンピュータ実行可能命令は、特定の機能を実行する、或いは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、手順、モジュール、及び機能を含んでもよい。

方法４００が記載される順序は、限定として解釈されることを意図していなく、記載された方法ブロックの任意の数は、方法を実装するために任意の順序で組み合わされてもよい。さらに、個々のブロックは、記載された主題の本旨及び範囲から逸脱することなく、方法から削除されてもよい。

ブロック４０２において、方法４００は、ユーザ要求に基づいて、１つ又は複数のデータソース２１０から複数の文書を抽出することを含んでもよい。

ブロック４０４において、方法４００は、ユーザからユーザ入力を受信することを含んでもよく、ユーザ入力は、ユーザ意図情報１０８及び１つ又は複数のユーザ－クエリ１１０のうちの少なくとも１つを含む。

ブロック４０６において、方法４００は、複数の文書に対してユーザ意図情報１０８を相関させることによって、複数の文書の各々のランキングスコアを生成することを含んでもよい。

ブロック４０８において、方法４００は、ランキングスコアに基づいて複数の文書を表示する間、各文書における１つ又は複数の抜粋をハイライトすることを含んでもよい。

ブロック４１０において、方法４００は、ドメイン固有ランキングモジュールを訓練するために、ランキングスコアとハイライトされた１つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索することを含んでもよい。

ブロック４１２において、方法４００は、質疑応答（ＱＡ）のためのドメイン固有の高度な言語モデルを使用することによって、１つ又は複数のユーザ－クエリ１１０に対応する１つ又は複数の応答２２２を生成することを含んでもよい。

ブロック４１４において、方法４００は、対応する１つ又は複数のユーザ－クエリ１１０に関して１つ又は複数の応答２２２の精度に対応するユーザフィードバックを探索することを含んでもよい。

ブロック４１６において、方法４００は、１つ又は複数の応答２２２の精度に関するユーザフィードバックに基づいて、質疑応答（ＱＡ）ためのドメイン固有の高度な言語モデルを訓練することを含んでもよい。

互いに通信するいくつかのコンポーネントを有する一実施形態の説明は、全てのそのようなコンポーネントが必要とされることを意味しない。それどころか、様々なオプションのコンポーネントは、本開示の多種多様な可能性のある実施形態を説明するために記載される。

単一のデバイス又は物品が本明細書に記載されているとき、２つ以上のデバイス／物品（それらが協働するか否か）が、単一のデバイス／物品の代わりに使用されてもよいことは明らかであろう。同様に、２つ以上のデバイス又は物品（それらが協働するか否か）が本明細書に記載されている場合、単一のデバイス／物品が、２つ以上のデバイス又は物品の代わりに使用されてもよいこと、又は、異なる数のデバイス／物品が、示された数のデバイス又はプログラムに代えて使用されてもよいことは明らかであろう。代替的に、デバイスの機能性及び／又は特徴は、そのような機能性／特徴を有するものとして明示的に記載されていない１つ又は複数の他のデバイスによって具現化されてもよい。したがって、本開示の他の実施形態は、デバイス自体を含む必要はない。

最後に、本明細書で使用される言語は、可読性及び説明目的のために主として選択されており、発明的主題を画成し、或いは制限するために選択されないことがある。したがって、本開示の範囲は、この詳細な説明によってではなく、むしろ、本明細書に基づく出願に関して発行される任意の請求項によって限定されることを意図している。したがって、本開示の実施形態は、以下の特許請求の範囲に規定される本開示の範囲を例示するが、限定しないことを意図している。

本明細書では、様々な態様及び実施形態が開示されているが、他の態様及び実施形態は、当業者に明らかであろう。本明細書に開示された様々な態様及び実施形態は、例示の目的であり、限定することを意図しておらず、真の範囲及び本旨は、以下の特許請求の範囲によって示される。

Claims

文書の関連性を調査するための方法であって、
ユーザ要求に基づいて、１つ又は複数のデータソース（２１０）から複数の文書を抽出する（４０２）ことと、
ユーザからユーザ入力を受信する（４０４）ことであって、前記ユーザ入力は、ユーザ意図情報（１０８）及び１つ又は複数のユーザクエリ（１１０）のうちの少なくとも１つを含む、前記受信する（４０４）ことと、
前記複数の文書に対して前記ユーザ意図情報（１０８）を相関させることによって、ドメイン固有ランキングモジュールを介して前記複数の文書の各々のランキングスコアを生成する（４０６）ことであって、前記ランキングスコアは、前記ユーザ意図情報（１０８）に関して前記複数の文書の各々の関連性レベルを示す、前記生成する（４０６）ことと、
前記ランキングスコアに基づいて前記複数の文書を表示する間、各文書における１つ又は複数の抜粋をハイライトする（４０８）ことと、
前記ドメイン固有ランキングモジュールを訓練するために、前記ランキングスコアと前記ハイライトされた１つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索する（４１０）ことと
を含む、方法。
質疑応答（ＱＡ）のためのドメイン固有の高度な言語モデルを使用することによって、前記１つ又は複数のユーザクエリ（１１０）に対応する１つ又は複数の応答（２２２）を生成する（４１２）ことと、
前記対応する１つ又は複数のユーザクエリ（１１０）に関して前記１つ又は複数の応答の精度に対応するユーザフィードバックを探索する（４１４）ことと、
前記１つ又は複数の応答（２２２）の前記精度への前記ユーザフィードバックに基づいて、前記質疑応答（ＱＡ）のための高度な言語モデルを訓練する（４１６）ことと
をさらに含む、請求項１に記載の方法。
前記ユーザ要求は、前記複数の文書に関連するキーワードのセット（１０４）、又は、前記複数の文書に係る複数の固有ＩＤ（１０６）を含む、請求項１に記載の方法。
前記複数の文書に対して前記ユーザ意図情報を相関させることは、
文ペアの、第１文に対応する第１の依存木と、第２文に対応する第２の依存木とを生成する（３０２、３０４）ことと、
ドメイン固有の高度な言語モデルを採用することによって、前記第１文に対応する第１のトークンのセットと、前記第２文に対応する第２のトークンのセットとを符号化する（３０６）ことであって、前記第１のトークンのセットは、前記第１文の単語のセットに対応し、前記第２のトークンのセットは、前記第２文の単語のセットに対応する、前記符号化する（３０６）ことと、
前記第１文の単語のセットと前記第２文の前記単語のセットとの間の依存関係を確立するために、前記第１文の前記単語のセットに対応する第１のアテンションマトリクスと、前記第２文の前記単語のセットに対応する第２のアテンションマトリクスとを生成する（３０８）ことと、
相互アテンションを採用することによって、前記第１文及び前記第２文に対応する意味表現を生成する（３１０）ことと、
前記生成された埋め込みが意味的に関連して、意味的に意味のある文の埋め込みを生成するために類似性尺度で区別されることができるようにするために、特定の損失関数を使用することによってネットワーク内の複数の重みを更新することによって、前記第１文の前記単語のセットと、前記第２文の前記単語のセットとを微調整する（３１２）ことと、
少なくとも１つの類似性測定技術を採用することによって、前記微調整された第１文及び前記第２文のランキングスコアを生成する（３１４）ことと
を含む、請求項１に記載の方法。
各文書における前記１つ又は複数の抜粋をハイライトする（４０８）ことは、
前記ユーザ意図情報（１０８）に関して各文書内の各段落のランキングスコアを生成することと、
各文書から、前記ユーザ意図情報（１０８）に関して最も高いランキングスコアを有する少なくとも１つの段落を選択することと
によって、各文書内の少なくとも１つの重要な段落をハイライトすることを含み、
前記各文書における前記１つ又は複数の抜粋をハイライトする（４０８）ことは、
前記少なくとも１つの重要な段落の前記複数の単語のアテンション重みと前記ユーザ意図情報とを計算することと、
前記複数の単語の各々にスコアを割り当てることと、
最大スコアに基づいて、前記少なくとも１つの重要な段落から開始点及び終了点を取得することと
によって、前記少なくとも１つの重要な段落の少なくとも１つの重要な文をハイライトすることを含む、
請求項１に記載の方法。
文書の関連性を調査するためのシステムであって、
ユーザ要求に基づいて、１つ又は複数のデータソース（２１０）から複数の文書を抽出するように構成されている抽出ユニット（２３１）と、
ユーザからユーザ入力を受信するように構成されている受信ユニット（２３２）であって、前記ユーザ入力は、ユーザ意図情報（１０８）及び１つ又は複数のユーザクエリ（１１０）のうちの少なくとも１つを含む、前記受信ユニット（２３２）と、
前記複数の文書に対して前記ユーザ意図情報（１０８）を相関させることによって、ドメイン固有ランキングモジュール（３００）を介して前記複数の文書に対応するランキングスコアを生成するように構成されているスコア生成ユニット（２３３）であって、各ランキングスコアは、前記ユーザ意図情報（１０８）に関して文書の関連性レベルを示す、前記スコア生成ユニット（２３３）と、
前記ランキングスコアに基づいて前記複数の文書を表示する間、各文書における１つ又は複数の抜粋をハイライトするように構成されているハイライトユニット（２３４）と、
前記ランキングスコアと前記ハイライトされた１つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索するように構成されているフィードバックユニット（２３６）と、
前記ユーザフィードバックに基づいて、前記ドメイン固有ランキングモジュール（３００）を訓練するように構成されている訓練ユニット（２３７）と
を含む、システム。
質疑応答（ＱＡ）のための高度な言語モデルを使用することによって、前記１つ又は複数のユーザクエリ（１１０）に対応する１つ又は複数の応答（２２２）を生成するように構成されている応答生成ユニット（２３５）をさらに含み、
前記フィードバックユニット（２３６）は、前記対応する１つ又は複数のユーザクエリ（１１０）に関して前記１つ又は複数の応答（２２２）の精度に対応するユーザフィードバックを探索するようにさらに構成されており、
前記訓練ユニット（２３７）は、前記１つ又は複数の応答（２２２）の前記精度に関する前記ユーザフィードバックに基づいて、前記質疑応答（ＱＡ）のための高度な言語モデルを訓練するようにさらに構成されている、請求項７に記載のシステム。
前記ユーザ要求は、前記複数の文書に関連するキーワードのセット（１０４）、又は、前記複数の文書に係る複数の固有ＩＤ（１０６）を含む、請求項７に記載のシステム。
前記複数の文書に対して前記ユーザ意図情報を相関させるために、前記スコア生成ユニット（２３３）は、
文ペアの、第１文に対応する第１の依存木と第２文に対応する第２の依存木とを生成し、
ドメイン固有の高度な言語モデルを採用することによって、前記第１文に対応する第１のトークンのセットと、前記第２文に対応する第２のトークンのセットとを符号化することであって、前記第１のトークンのセットは、前記第１文の単語のセットに対応し、前記第２のトークンのセットは、前記第２文の単語のセットに対応する、前記符号化し、
前記第１文の単語のセットと前記第２文の前記単語セットとの間の依存関係を確立するために、前記第１文の前記単語のセットに対応する第１のアテンションマトリクスと、前記第２文の前記単語のセットに対応する第２のアテンションマトリクスとを生成し、
相互アテンションを採用することによって、前記第１文及び前記第２文に対応する意味表現を生成し、
前記生成された埋め込みが意味的に関連して、意味的に意味のある文の埋め込みを生成するために類似性尺度で区別されることができるようにするために、特定の損失関数を使用することによって前記ネットワーク内の複数の重みを更新することによって、前記第１文の前記単語のセットと、前記第２文の前記単語のセットとを微調整し、
少なくとも１つの類似性測定技術を採用することによって、前記微調整された第１文及び前記第２文のランキングスコアを生成する
ようにさらに構成されている、請求項７に記載のシステム。
各文書における前記１つ又は複数の抜粋をハイライトするために、前記ハイライトユニット（２３４）は、
前記ユーザ意図情報（１０８）に関して各文書内の各段落のランキングスコアを生成することと、
各文書から、前記ユーザ意図情報（１０８）に関して最も高いランキングスコアを有する少なくとも１つの段落を選択すること
によって、各文書内の少なくとも１つの重要な段落をハイライトするようにさらに構成されており、
前記ハイライトユニット（２３４）は、
前記少なくとも１つの重要な段落の複数の単語のアテンション重みと前記ユーザ意図情報（１０８）とを計算することと、
前記複数の単語の各々にスコアを割り当てることと、
前記スコアに基づいて、前記少なくとも１つの重要な段落から開始点及び終了点を取得することと
によって、前記少なくとも１つの重要な段落の少なくとも１つの重要な文をハイライトするようにさらに構成されている、請求項７に記載のシステム。