JP2023541106A - 文書の関連性を調査するためのシステム及び方法 - Google Patents
文書の関連性を調査するためのシステム及び方法 Download PDFInfo
- Publication number
- JP2023541106A JP2023541106A JP2023507493A JP2023507493A JP2023541106A JP 2023541106 A JP2023541106 A JP 2023541106A JP 2023507493 A JP2023507493 A JP 2023507493A JP 2023507493 A JP2023507493 A JP 2023507493A JP 2023541106 A JP2023541106 A JP 2023541106A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- user
- documents
- document
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004044 response Effects 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000000691 measurement method Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims 2
- 238000011524 similarity measure Methods 0.000 claims 2
- 239000000284 extract Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 20
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 12
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 12
- 238000011160 research Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 4
- 206010057644 Testis cancer Diseases 0.000 description 3
- 208000024252 mixed germ cell tumor Diseases 0.000 description 3
- 210000002966 serum Anatomy 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000002086 nanomaterial Substances 0.000 description 2
- 208000024313 Testicular Neoplasms Diseases 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 201000010193 neural tube defect Diseases 0.000 description 1
- 230000005298 paramagnetic effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 208000035581 susceptibility to neural tube defects Diseases 0.000 description 1
- 201000003120 testicular cancer Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
Abstract
本明細書で開示されるのは、文書の関連性を調査するためのシステム102及び方法である。システム102は、ユーザからの要求に基づいて、1つ又は複数のデータソース210から文書を抽出する。次いで、システム102は、ユーザから、ユーザ意図情報108及びユーザクエリ110を取得する。次いで、システム102は、各文書の関連性レベルを決定するために、ユーザ意図情報108に関して各文書を解析する。関連性レベルは、ランキングスコアの形式で示される。システムは、文書をランク付けし、それらのスコアの順に文書をユーザに表示する。システム102はまた、文書からの重要な抜粋をハイライトし、一つ一つの文書に関してユーザによって送信された1つ又は複数のユーザクエリ110への1つ又は複数の応答222を提供する。受信された応答に基づいて、ユーザは、システムをさらに訓練するためのフィードバックを提供し、それによって、より良い精度を達成する。【選択図】図4
Description
本開示は、データ解析の分野に関する。より具体的には、文書の関連性を調査するように、様々なソースから抽出された文書を解析することに関する。
以下の説明は、本開示を理解するのに有用であり得る情報を含む。本明細書で提供される任意の情報が、先行技術であること、又は、本請求項に関連すること、又は、具体的に或いは黙示的に参照される任意の刊行物が先行技術であることを認めるものではない。
調査ベースの研究のための報告書を作成することは、多数の文書を手動で抽出し、解析することを必要とし、したがって、非常に退屈な作業である。個人は、関連文書を見つけるために長い時間を費やさなければならず、関連文書を見つけた後、文書を研究に含めるか否かを決定するために、一つ一つの文書を研究しなければならない。例えば、個人は、医療デバイスの臨床評価を記載する臨床評価報告書(CER)を準備したい。このために、まず、個人は、既存の文献、臨床経験、臨床試験、又はその3つの任意の組み合わせから臨床データを識別しなければならない。次いで、個人は、収集されたデータに基づいて、データの関連性、適用性、品質、及び意義を評価し、最終的に、CERに結論を明示しなければならない。さらに、これらの2つのステップは、作成される報告書の品質に不可欠であるので、これらのステップは、細心の注意を払って実行されなければならない。したがって、手動で実行されるとき、プロセス全体は、非常に時間がかかり、精神的に疲弊する。
したがって、データの識別及び評価と、文書の関連性を調査することとに関わる手動労力を軽減する方法及びシステムの必要性がある。
本開示は、先行技術の1つ又は複数の欠点を克服し、本開示を通して議論される追加の利点を提供する。追加の特徴及び利点は、本開示の技術を通して実現される。本開示の他の実施形態及び態様は、本明細書において詳細に説明され、請求された開示の一部とみなされる。
本開示の非限定的な一実施形態では、文書の関連性を調査するための方法が開示される。方法は、ユーザ要求に基づいて、1つ又は複数のデータソースから複数の文書を抽出することを含む。方法は、ユーザからユーザ入力を受信することをさらに含み、ユーザ入力は、ユーザ意図情報及び1つ又は複数のユーザクエリのうちの少なくとも1つを含む。方法は、複数の文書に対してユーザ意図情報を相関させることによって、ドメイン固有ランキングモジュールを介して複数の文書の各々のランキングスコアを生成することをさらに含み、ランキングスコアは、ユーザ意図情報に関して複数の文書の各々の関連性レベルを示す。方法は、ランキングスコアに基づいて複数の文書を表示する間、各文書における1つ又は複数の抜粋をハイライトすることをさらに含む。方法は、ドメイン固有ランキングモジュールを訓練するために、ランキングスコアとハイライトされた1つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索することをさらに含む。
本開示のさらに別の非限定的な実施形態では、文書の関連性を調査するためのシステムが開示される。システムは、ユーザ要求に基づいて、1つ又は複数のデータソースから複数の文書を抽出するように構成されている抽出ユニットを含む。システムは、ユーザからユーザ入力を受信するように構成されている受信ユニットをさらに含み、ユーザ入力は、ユーザ意図情報及び1つ又は複数のユーザクエリのうちの少なくとも1つを含む。システムは、複数の文書に対してユーザ意図情報を相関させることによって、ドメイン固有ランキングモジュールを介して複数の文書に対応するランキングスコアを生成するように構成されているスコア生成ユニットをさらに含み、各ランキングスコアは、ユーザ意図情報に関して文書の関連性レベルを示す。システムは、ランキングスコアに基づいて複数の文書を表示する間、各文書における1つ又は複数の抜粋をハイライトするように構成されているハイライトユニットをさらに含む。システムは、ランキングスコアとハイライトされた1つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索するように構成されているフィードバックユニットをさらに含む。システムは、ユーザフィードバックに基づいて、ドメイン固有ランキングモジュールを訓練するように構成されている訓練ユニットをさらに含む。
前述の概要は、例示的にすぎず、任意の方法においても限定的であることを意図していない。上述された例示的な態様、実施形態、及び特徴に加えて、さらなる態様、実施形態、及び特徴は、図面及び以下の詳細な説明を参照することによって明らかになるであろう。
本開示の実施形態自体、ならびに好ましい使用態様、さらなるその目的及び利点は、添付の図面と共に読むとき、例示的な一実施形態の以下の詳細な説明を参照することによって、最も良く理解されるであろう。ここで、1つ又は複数の実施形態は、例としてのみ、添付の図面を参照しながら記載される。
図1Aは、本開示の一実施形態による、文書の関連性を調査するためのシステムの環境100を説明する。
図1Bは、本開示の一実施形態による、文書の関連性を調査するためのシステムの環境100を説明する。
図1Cは、本開示の一実施形態による、文書の関連性を調査するためのシステムの環境100を説明する。
図2は、本開示の一実施形態による、文書の関連性を調査するためのシステムのブロックダイアグラム200を説明する。
図3は、本開示の一実施形態による、ドメイン固有ランキングモジュールを説明する例示的な一実施形態300を説明する。
図3Aは、本開示の一実施形態による、第1文に対応する依存木300Aを説明する。
図3Bは、本開示の一実施形態による、第2文に対応する依存木300Bを説明する。
図3Cは、本開示の一実施形態による、第1文に対応するアテンションマトリクス300Cを説明する。
図3Dは、本開示の一実施形態による、第2文に対応するアテンションマトリクス300Dを説明する。
図4は、本開示の一実施形態による、文書の関連性を調査するための方法のフローチャート400を説明する。
図は、説明の目的のみのために本開示の実施形態を描いている。当業者は、以下の説明から、本明細書で記載される開示の原理から逸脱することなく、本明細書で説明される構造及び方法の代替的な実施形態が採用され得ることを容易に認識するであろう。
上記は、以下に続く本開示の詳細な説明がより良く理解され得るために、本開示の特徴及び技術的利点を大まかに説明した。開示された着想及び具体的な実施形態が、本開示の同じ目的を遂行するための他の構造を修正し、或いは設計するための基礎として容易に利用され得ることを当業者によって理解されるべきである。
本開示の特徴であると考えられる新規な特徴は、その構成と動作方法との両方に関して、さらなる目的及び利点と共に、添付の図と関連して考慮されるとき、以下の説明からより良く理解されるであろう。しかしながら、図の各々は、例示及び説明の目的のみのために提供され、本開示の限定の定義として意図されないことを明示的に理解されるべきである。
本明細書で開示されるのは、文書の関連性を調査するためのシステム及び方法である。調査報告書、例えば、評価報告書、文献調査報告書、定性的報告書、及び定量的報告書を作成する作業は、非常に面倒で時間のかかる作業である。個人は、個人の研究に関連するデータを収集するために長い時間を費やさなければならない。その後、個人は、収集されたデータを解析し、データの関連性、適用性、品質、及び意義を調査しなければならない。しかしながら、データを収集する最初のステップと、データを解析するその後のステップとは、非常に面倒であり、手動で行われるとき、完了するのにしばしば数日かかり得る。データを収集する作業と、データを解析する作業とは、作成される報告書の品質に関して非常に不可欠であるので、これらの作業は、細心の注意を払って実行されることが必要となる。作業を手動で実行するとき、個人が一つ一つの文書を細心の注意を払って解析することは人間的に可能でないので、常に改善の余地がある。
本開示は、文書を収集し、解析する作業においてユーザを支援するシステムを提供する。システムは、ユーザからの要求に基づいて、データソースから文書を抽出する。抽出された文書は、ユーザが行いたい検索に大まかに基づいている。次いで、システムは、ユーザが、抽出された文書に関してシステムによって回答されることを希望する特定のクエリと共に、研究を実行する背後にあるユーザの意図を受信する。クエリは、ドメイン固有であり、ユーザのニーズ及び研究ドメインに基づいて、ユーザによってカスタマイズされ得る。例えば、生物医学ドメインにおいて働いているユーザは、ナノマテリアルドメイン又は輸送ドメインにおいて働いているユーザと比較して、異なるクエリを有することとなる。次いで、システムは、ユーザの意図に関して各文書を解析し、各文書の関連性レベルを決定する。関連性レベルは、ランキングスコアの形式で示されてもよい。システムは、文書をランク付けし、ランキングスコアの順に文書をユーザに表示する。これは、ユーザが、関連性の順に文書を閲覧することを可能にする。さらに、システムはまた、文書からの重要な抜粋をハイライトし、ユーザが、文書全体を読むことの代わりにハイライトされた抜粋のみに集中することを助ける。さらに、システムはまた、一つ一つの文書に関してユーザによって送信されたクエリへの応答を提供する。このようにして、ユーザが、ユーザの研究の文書を含めるか、或いは除外するかを決定することが比較的容易になる。その関連性を調査するために文書全体を研究する必要がないので、そのような決定に達するまでに要する時間は、大幅に短縮される。システムの詳細な動作及び説明は、後続の段落において記載される。
本開示の一実施形態によれば、図1A-図1Cは、文書の関連性を調査するためのシステムの例示的な環境100を示す。図1Aの例示的な環境100が、ユーザが生物医学ドメインにおける臨床評価報告書(CER)を作成したいことを考慮して説明されていることを当業者によって留意されなければならない。さらに、当業者は、システム102がまた、図1Aに示される以外の、様々な環境において実装されてもよいことを理解し得る。
本開示の一実施形態によれば、例示的な環境100は、システム102のブロックダイアグラム200を示す図2と共に説明される。本開示は、システム102がサーバ上で実装されることを考慮して説明されるが、システム102は、ラップトップコンピュータ、デスクトップコンピュータ、ノートブック、ワークステーション、メインフレームコンピュータ、サーバ、ネットワークサーバ、クラウドベースコンピューティング環境などの、様々なコンピューティングシステムにおいてツールとして実装されてもよいことを理解され得る。
一実装形態では、システム102は、I/Oインタフェース202と、プロセッサ204と、メモリ206と、ユニット208とを含んでもよい。メモリ206は、プロセッサ204及びユニット208に通信可能に結合されてもよい。さらに、メモリ206は、ユーザ意図情報108と、1つ又は複数のクエリ110と、1つ又は複数の応答222と、1つ又は複数のツール224とを格納してもよい。格納された量の各々の意義及び使用は、後続の段落において説明される。プロセッサ204は、1つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、ステートマシン、論理回路、及び/又は操作命令に基づいて信号を操作する任意のデバイスとして実装されてもよい。他の機能の中で、プロセッサ204は、メモリ206に格納されたコンピュータ可読命令をフェッチし、実行するように構成されている。I/Oインタフェース202は、様々なソフトウェア及びハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどを含んでもよい。I/Oインタフェース202は、システム102が、ウェブサーバ及び外部データサーバ(図示せず)などの、他のコンピューティングデバイスと通信することを可能にしてもよい。I/Oインタフェース202は、例えば、LAN、ケーブルなどの有線ネットワークと、WLAN、セルラー、又は衛星などの無線ネットワークとを含む、多種多様なネットワーク及びプロトコルタイプ内の複数の通信を促進してもよい。I/Oインタフェース202は、多くのデバイスを互いに、或いは別のサーバに接続するための1つ又は複数のポートを含んでもよい。
一実装形態では、ユニット208は、抽出ユニット231と、受信ユニット232と、スコア生成ユニット233と、ハイライトユニット234と、応答生成ユニット235と、フィードバックユニット236と、訓練ユニット237と、決定ユニット238とを含んでもよい。本開示の実施形態によれば、これらのユニット231-238は、システム102の様々な動作を実行するための、プロセッサ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路のようなハードウェアコンポーネントを含んでもよい。本開示の様々な実施形態によれば、プロセッサ204は、ユニット231-238の全ての機能を実行してもよいことを理解されなければならない。
図1Aを参照すると、環境100は、ユーザ要求に基づいて、1つ又は複数のデータソース210から複数の文書を抽出するシステム102を示す。図2によれば、文書の抽出は、抽出ユニット231によって実行される。一実施形態では、ユーザ要求は、複数の文書に係るキーワードのセット104を含む。例えば、ユーザが作成したいCERの主題が、「非セミノーマ精巣癌を有する患者を管理するための補助としてのヒト血清中のアクセスα-フェトプロテイン(AFP)の定量決定」に関連する報告書である場合、ユーザは、「AFP」、「ヒト」、「精巣癌」を含み得るキーワードのセット104を提供する。キーワードのセットに基づく抽出ユニット231は、複数の文書を抽出する。別の実施形態では、ユーザ要求は、ユーザが、複数の文書に係る複数の固有ID106を提供することを含む。複数の固有IDは、複数の固有ID106に対応する複数の文書を抽出する抽出ユニット231に提供される。図1Aに描かれた例示的な環境100によれば、抽出された複数の文書は、250である。
複数の文書が抽出されると、受信ユニット232は、ユーザ入力を受信する。一実施形態では、ユーザ入力は、自然言語を使用して、CERを作成する背後にある意図を示すユーザ意図情報108を含む。例示的な環境100によれば、ユーザ意図情報108は、「アクセスα-フェトプロテイン(AFP)アッセイは、非セミノーマ精巣癌を有する患者の管理における補助としてのヒト血清中のAFPの定量決定のためのアクセスイノムアッセイシステムでの使用のための常磁性粒子、化学発光イノムアッセイである。胎児の神経管閉鎖障害(ONTD)の検出を補助するための母体血清及び羊水」のように読んでもよい。図1A及び図1Cに示されるように、ユーザ入力は、複数の文書に係る1つ又は複数のユーザクエリ110をさらに含む。例えば、1つ又は複数のユーザクエリ110は、「文書の意図は何ですか?」、「デバイスは何のために使用されますか?」、「研究の参加者の種類は何ですか?」などの質問を含んでもよい。1つ又は複数のユーザクエリ110は、ユーザのニーズに基づいてカスタマイズ可能であることを当業者によって留意されなければならない。すなわち、1つ又は複数のユーザクエリ110は、ユーザが行っている研究の種類及び研究が属するドメインに基づいて編集され、或いは起草され得る。例えば、例示的な環境100によれば、研究は、生物医学ドメインであり、1つ又は複数のクエリ110は、生物医学ドメインに関連する。しかしながら、研究がナノ材料のドメインであるユーザは、上述されるものとは異なるクエリのセットを有してもよく、ユーザのニーズに基づいてクエリをカスタマイズし得る。
ユーザ意図情報108に関して複数の文書の関連性を調査するために、スコア生成ユニット233は、複数の文書に対してユーザ意図情報108を相関させ、各文書のランキングスコアを生成する。ランキングスコアは、ユーザ意図情報108に関して各文書の関連性レベルを示す。図1Aに描かれた、例示的な環境100によれば、ユーザ意図情報108は、250個の抽出された文書の各々に対して相関される。
図3に説明されるように、複数の文書に対してユーザ意図情報108を相関させるために、スコア生成ユニット233は、ドメイン固有ランキングモジュール300を採用する。ドメイン固有ランキングモジュール300は、1つ又は複数のツール224のうちの1つとしてメモリ206に格納される。ドメイン固有ランキングモジュール300の詳細は、後続の段落において一例を用いて説明される。
ドメイン固有ランキングモジュール300のステップ302において、文ペアは、入力される。文ペアは、ユーザ意図情報108に由来する第1文と、複数の文書のうちの1つに由来する第2文とを含む。例えば、文ペアは、以下を含んでもよい。
第1文-AFP is detected in patients with NSTC(AFPは、NSTCの患者において検出される)
第2文-Elevated AFP revealed mixed germ cell tumours(上昇されたAFPは、混合性胚細胞腫瘍を明らかにした)。
第1文-AFP is detected in patients with NSTC(AFPは、NSTCの患者において検出される)
第2文-Elevated AFP revealed mixed germ cell tumours(上昇されたAFPは、混合性胚細胞腫瘍を明らかにした)。
ドメイン固有ランキングモジュール300のステップ304において、第1文に対応する第1の依存木300Aと第2文に対応する第2の依存木300Bとは、生成される。図3A及び図3Bに説明されるように、第1及び第2の依存木300A、300Bは、第1文及び第2文の文法構造を表し、その統語構造を明らかにする。
ドメイン固有ランキングモジュール300のステップ306において、第1文及び第2文の意味を変更しないように、ドメイン固有の高度な言語モデルが採用され、第1文に対応する第1のトークン(又は単語)のセットと、第2文に対応する第2のトークン(又は単語)のセットとをドメイン固有の方法で符号化する。第1文及び第2文のためのドメイン固有の高度な言語モデルの動作は、それぞれ、表1及び表2に説明される。
しかしながら、ドメイン固有の高度な言語モデルの代わりに、通常の言語モデルが使用される場合、第1文のトークンは、[‘a’,‘##f’,‘##p’,‘is’,‘detected’,‘in’,‘patients’,‘with’,‘n’,‘##s’,‘##t’,‘##c’,‘.’]のように生成されることとなり、第2文のトークンは、[‘elevated’,‘a’,‘##f’,‘##p’,‘revealed’,‘mixed’,‘ge’,‘##rm’,‘cell’,‘tu’,‘##mour’,‘##s’,‘.’]のように生成されることとなる。したがって、第1文及び第2文の意味は、失われることとなる。
ドメイン固有ランキングモジュール300のステップ308において、第1文の単語のセットと第2文の単語のセットとの間に明示的な依存関係を確立するために、第1文の単語のセットに対応する第1のアテンションマトリクスと、第2文の単語のセットに対応する第2のアテンションマトリクスとは、作成される。第1文の単語のセットと第2文の単語のセットとに対応するアテンションマトリクスは、それぞれ、図3Cと図3Dとに描かれており、ハイライトされたセルは、アテンション重みに関してである。
ドメイン固有ランキングモジュール300のステップ310において、相互アテンションの技術は、第1文及び第2文に対応する意味表現を生成するために採用される。相互アテンションは、単語間の類似性が、単語の位置決めに起因して、或いは同義語又は類義語の使用に起因して見過ごされることがないように、異なる位置での単語の同義語及び類義語を考慮する。例えば、第1文“AFP is detected in patients with NSTC”はまた、“NSTC patients are detected with AFP levels(NSTCの患者は、AFPレベルと共に検出される)”として表現されることができ、第2文“Elevated AFP revealed mixed germ cell tumours”はまた、“Mixed germ cell tumours are detected with high AFP(混合性胚細胞腫瘍は、高いAFPと共に検出される)”として表現されることができる。
ドメイン固有ランキングモジュール300のステップ312において、第1文の単語のセットと第2文の単語のセットとは、意味的に意味のある文表現又は埋め込みを生成するために微調整される。微調整は、損失関数を最小化するために、第1文及び第2文の単語のセットを、共有パラメータを有するデュアルブランチネットワークに提供することによって達成される。共有パラメータを有するこのデュアルブランチネットワークは、類似度フィードバックのラベル付き文ペアを有するモデルを提供し、文の意味表現間の損失を最小化することによって、損失関数を最小化するために予め訓練される。
ドメイン固有ランキングモジュール300のステップ314において、ランキングスコアは、コサイン類似度、マンハッタン距離類似度、ユークリッド距離類似度などの、類似度測定技術を採用することによって、微調整された第1文及び第2文のために生成される。しかしながら、上述されたもの以外の類似度測定技術はまた、使用されてもよいことを当業者によって留意され得る。
ステップ302-314において記載された手順が繰り返し実行され、ユーザ意図情報108にしたがって、複数の文書の各々に関してランキングスコアを決定する。
複数の文書のランキングスコアが生成されると、図1Bに描かれているように、複数の文書は、そのランキングスコアの順に表示される。一実施形態では、最も高いランキングスコアを有する文書は、一番上に表示されてもよい。しかしながら、別の実施形態では、最も高いランキングスコアを有する文書は、一番下に表示されてもよい。さらに、図1Bに示されるように、各文書は、その固有ID及びそのランキングスコアと共に表示される。図1Bに描かれたランキングスコアは、100点中であるが、ランキングスコアは、他の形式において生成され、或いは表現され得ることは、当業者によって留意され得る。
さらに、表示された各文書に関して、ハイライトユニット234は、ユーザ意図情報108の観点から重要である1つ又は複数の抜粋をハイライトする。1つ又は複数の抜粋は、1つ又は複数の段落及び/又は1つ又は複数の文を含んでもよいことを当業者によって理解され得る。1つ又は複数の重要な段落をハイライトするために、ドメイン固有ランキングモジュール300は、ハイライトユニット234によって採用され、ユーザ意図情報108と最も高い関連性を有する文書内の段落を識別する。さらに、重要な段落の1つ又は複数の重要な文をハイライトするために、重要な段落の文のそれぞれのトークン(又は単語)のアテンション重みとユーザ意図情報108とは、スコア生成ユニット233によって計算される。アテンション重みに基づいて、各トークンは、スコアを割り当てられる。スコアに基づいて、ハイライトユニット234によって重要な文としてハイライトされる最も関連性のある段落の重要部分の開始及び終了は、取得される。
1つ又は複数の抜粋のハイライトは、ユーザが、ユーザ意図情報108においてユーザによって定義されたユーザの意図する目的に最も関連する文書のセクションを容易に識別することを可能にする。
さらに、図1Cに示されるように、システム102は、ユーザが、示されるように応答タブを選択することによって、ユーザによって提供された1つ又は複数のユーザクエリ110への1つ又は複数の応答を閲覧することを可能にする。図1Bでは、1つ又は複数のユーザクエリ110への応答は、システム102のメモリ206に1つ又は複数のツール224として格納された質疑応答(QA)のためのドメイン固有の高度な言語モデルを採用する応答生成ユニット235によって提供される。生成された1つ又は複数の応答222は、メモリ206に格納される。さらに、生成された1つ又は複数の応答に基づいて、フィードバックユニット236は、ユーザが、1つ又は複数の応答にフィードバックを提供することを可能にする。例えば、図1Aの例示的環境100に示されるように、ユーザが提供された応答に満足しない場合、或いは、応答生成ユニットが応答を提供することができなかった場合、ユーザは、応答生成ユニット235によって提供された応答を検証するオプション、又は応答を変更するオプションを提供される。フィードバックに基づいて、訓練ユニット237は、質疑応答(QA)ための高度な言語モデルを再訓練する。
図1Aに示されるように、システム102はさらに、決定タブを提供することによって、ユーザが1つ又は複数の関連文書を選択することを可能にする。決定タブは、決定ユニット238によって制御され、特定の文書を「含む」或いは「除外する」のいずれかのオプションをユーザに提供する。しかしながら、ユーザが決定できない場合、決定ユニット238は、「決定できない」オプションをユーザに提供することによって、ユーザが特定の文書を再検討することを可能にする。
したがって、その様々なコンポーネントの相互作用を介したシステム102は、閲覧者が最小限の時間及び労力で関連文書を識別することをより容易にし、それによって、ユーザエクスペリエンスを向上させる。さらに、ドメイン固有ランキングモジュール300が様々な技術の組み合わせを採用するので、複数の文書の各々のランキングスコアが生成される方法は、非常に広範囲且つ正確である。
図4は、本開示の一実施形態による、複数の文書の関連性を調査するための方法400を描いている。
図4に説明されるように、方法400は、製造工場における情報を管理するための方法を説明する1つ又は複数のブロックを含む。方法400は、コンピュータ実行可能命令の一般的なコンテキストで記載されてもよい。概して、コンピュータ実行可能命令は、特定の機能を実行する、或いは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、手順、モジュール、及び機能を含んでもよい。
方法400が記載される順序は、限定として解釈されることを意図していなく、記載された方法ブロックの任意の数は、方法を実装するために任意の順序で組み合わされてもよい。さらに、個々のブロックは、記載された主題の本旨及び範囲から逸脱することなく、方法から削除されてもよい。
ブロック402において、方法400は、ユーザ要求に基づいて、1つ又は複数のデータソース210から複数の文書を抽出することを含んでもよい。
ブロック404において、方法400は、ユーザからユーザ入力を受信することを含んでもよく、ユーザ入力は、ユーザ意図情報108及び1つ又は複数のユーザ-クエリ110のうちの少なくとも1つを含む。
ブロック406において、方法400は、複数の文書に対してユーザ意図情報108を相関させることによって、複数の文書の各々のランキングスコアを生成することを含んでもよい。
ブロック408において、方法400は、ランキングスコアに基づいて複数の文書を表示する間、各文書における1つ又は複数の抜粋をハイライトすることを含んでもよい。
ブロック410において、方法400は、ドメイン固有ランキングモジュールを訓練するために、ランキングスコアとハイライトされた1つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索することを含んでもよい。
ブロック412において、方法400は、質疑応答(QA)のためのドメイン固有の高度な言語モデルを使用することによって、1つ又は複数のユーザ-クエリ110に対応する1つ又は複数の応答222を生成することを含んでもよい。
ブロック414において、方法400は、対応する1つ又は複数のユーザ-クエリ110に関して1つ又は複数の応答222の精度に対応するユーザフィードバックを探索することを含んでもよい。
ブロック416において、方法400は、1つ又は複数の応答222の精度に関するユーザフィードバックに基づいて、質疑応答(QA)ためのドメイン固有の高度な言語モデルを訓練することを含んでもよい。
互いに通信するいくつかのコンポーネントを有する一実施形態の説明は、全てのそのようなコンポーネントが必要とされることを意味しない。それどころか、様々なオプションのコンポーネントは、本開示の多種多様な可能性のある実施形態を説明するために記載される。
単一のデバイス又は物品が本明細書に記載されているとき、2つ以上のデバイス/物品(それらが協働するか否か)が、単一のデバイス/物品の代わりに使用されてもよいことは明らかであろう。同様に、2つ以上のデバイス又は物品(それらが協働するか否か)が本明細書に記載されている場合、単一のデバイス/物品が、2つ以上のデバイス又は物品の代わりに使用されてもよいこと、又は、異なる数のデバイス/物品が、示された数のデバイス又はプログラムに代えて使用されてもよいことは明らかであろう。代替的に、デバイスの機能性及び/又は特徴は、そのような機能性/特徴を有するものとして明示的に記載されていない1つ又は複数の他のデバイスによって具現化されてもよい。したがって、本開示の他の実施形態は、デバイス自体を含む必要はない。
最後に、本明細書で使用される言語は、可読性及び説明目的のために主として選択されており、発明的主題を画成し、或いは制限するために選択されないことがある。したがって、本開示の範囲は、この詳細な説明によってではなく、むしろ、本明細書に基づく出願に関して発行される任意の請求項によって限定されることを意図している。したがって、本開示の実施形態は、以下の特許請求の範囲に規定される本開示の範囲を例示するが、限定しないことを意図している。
本明細書では、様々な態様及び実施形態が開示されているが、他の態様及び実施形態は、当業者に明らかであろう。本明細書に開示された様々な態様及び実施形態は、例示の目的であり、限定することを意図しておらず、真の範囲及び本旨は、以下の特許請求の範囲によって示される。
Claims (10)
- 文書の関連性を調査するための方法であって、
ユーザ要求に基づいて、1つ又は複数のデータソース(210)から複数の文書を抽出する(402)ことと、
ユーザからユーザ入力を受信する(404)ことであって、前記ユーザ入力は、ユーザ意図情報(108)及び1つ又は複数のユーザクエリ(110)のうちの少なくとも1つを含む、前記受信する(404)ことと、
前記複数の文書に対して前記ユーザ意図情報(108)を相関させることによって、ドメイン固有ランキングモジュールを介して前記複数の文書の各々のランキングスコアを生成する(406)ことであって、前記ランキングスコアは、前記ユーザ意図情報(108)に関して前記複数の文書の各々の関連性レベルを示す、前記生成する(406)ことと、
前記ランキングスコアに基づいて前記複数の文書を表示する間、各文書における1つ又は複数の抜粋をハイライトする(408)ことと、
前記ドメイン固有ランキングモジュールを訓練するために、前記ランキングスコアと前記ハイライトされた1つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索する(410)ことと
を含む、方法。 - 質疑応答(QA)のためのドメイン固有の高度な言語モデルを使用することによって、前記1つ又は複数のユーザクエリ(110)に対応する1つ又は複数の応答(222)を生成する(412)ことと、
前記対応する1つ又は複数のユーザクエリ(110)に関して前記1つ又は複数の応答の精度に対応するユーザフィードバックを探索する(414)ことと、
前記1つ又は複数の応答(222)の前記精度への前記ユーザフィードバックに基づいて、前記質疑応答(QA)のための高度な言語モデルを訓練する(416)ことと
をさらに含む、請求項1に記載の方法。 - 前記ユーザ要求は、前記複数の文書に関連するキーワードのセット(104)、又は、前記複数の文書に係る複数の固有ID(106)を含む、請求項1に記載の方法。
- 前記複数の文書に対して前記ユーザ意図情報を相関させることは、
文ペアの、第1文に対応する第1の依存木と、第2文に対応する第2の依存木とを生成する(302、304)ことと、
ドメイン固有の高度な言語モデルを採用することによって、前記第1文に対応する第1のトークンのセットと、前記第2文に対応する第2のトークンのセットとを符号化する(306)ことであって、前記第1のトークンのセットは、前記第1文の単語のセットに対応し、前記第2のトークンのセットは、前記第2文の単語のセットに対応する、前記符号化する(306)ことと、
前記第1文の単語のセットと前記第2文の前記単語のセットとの間の依存関係を確立するために、前記第1文の前記単語のセットに対応する第1のアテンションマトリクスと、前記第2文の前記単語のセットに対応する第2のアテンションマトリクスとを生成する(308)ことと、
相互アテンションを採用することによって、前記第1文及び前記第2文に対応する意味表現を生成する(310)ことと、
前記生成された埋め込みが意味的に関連して、意味的に意味のある文の埋め込みを生成するために類似性尺度で区別されることができるようにするために、特定の損失関数を使用することによってネットワーク内の複数の重みを更新することによって、前記第1文の前記単語のセットと、前記第2文の前記単語のセットとを微調整する(312)ことと、
少なくとも1つの類似性測定技術を採用することによって、前記微調整された第1文及び前記第2文のランキングスコアを生成する(314)ことと
を含む、請求項1に記載の方法。 - 各文書における前記1つ又は複数の抜粋をハイライトする(408)ことは、
前記ユーザ意図情報(108)に関して各文書内の各段落のランキングスコアを生成することと、
各文書から、前記ユーザ意図情報(108)に関して最も高いランキングスコアを有する少なくとも1つの段落を選択することと
によって、各文書内の少なくとも1つの重要な段落をハイライトすることを含み、
前記各文書における前記1つ又は複数の抜粋をハイライトする(408)ことは、
前記少なくとも1つの重要な段落の前記複数の単語のアテンション重みと前記ユーザ意図情報とを計算することと、
前記複数の単語の各々にスコアを割り当てることと、
最大スコアに基づいて、前記少なくとも1つの重要な段落から開始点及び終了点を取得することと
によって、前記少なくとも1つの重要な段落の少なくとも1つの重要な文をハイライトすることを含む、
請求項1に記載の方法。 - 文書の関連性を調査するためのシステムであって、
ユーザ要求に基づいて、1つ又は複数のデータソース(210)から複数の文書を抽出するように構成されている抽出ユニット(231)と、
ユーザからユーザ入力を受信するように構成されている受信ユニット(232)であって、前記ユーザ入力は、ユーザ意図情報(108)及び1つ又は複数のユーザクエリ(110)のうちの少なくとも1つを含む、前記受信ユニット(232)と、
前記複数の文書に対して前記ユーザ意図情報(108)を相関させることによって、ドメイン固有ランキングモジュール(300)を介して前記複数の文書に対応するランキングスコアを生成するように構成されているスコア生成ユニット(233)であって、各ランキングスコアは、前記ユーザ意図情報(108)に関して文書の関連性レベルを示す、前記スコア生成ユニット(233)と、
前記ランキングスコアに基づいて前記複数の文書を表示する間、各文書における1つ又は複数の抜粋をハイライトするように構成されているハイライトユニット(234)と、
前記ランキングスコアと前記ハイライトされた1つ又は複数の抜粋とに基づいて、各文書の関連性に対応するユーザフィードバックを探索するように構成されているフィードバックユニット(236)と、
前記ユーザフィードバックに基づいて、前記ドメイン固有ランキングモジュール(300)を訓練するように構成されている訓練ユニット(237)と
を含む、システム。 - 質疑応答(QA)のための高度な言語モデルを使用することによって、前記1つ又は複数のユーザクエリ(110)に対応する1つ又は複数の応答(222)を生成するように構成されている応答生成ユニット(235)をさらに含み、
前記フィードバックユニット(236)は、前記対応する1つ又は複数のユーザクエリ(110)に関して前記1つ又は複数の応答(222)の精度に対応するユーザフィードバックを探索するようにさらに構成されており、
前記訓練ユニット(237)は、前記1つ又は複数の応答(222)の前記精度に関する前記ユーザフィードバックに基づいて、前記質疑応答(QA)のための高度な言語モデルを訓練するようにさらに構成されている、請求項7に記載のシステム。 - 前記ユーザ要求は、前記複数の文書に関連するキーワードのセット(104)、又は、前記複数の文書に係る複数の固有ID(106)を含む、請求項7に記載のシステム。
- 前記複数の文書に対して前記ユーザ意図情報を相関させるために、前記スコア生成ユニット(233)は、
文ペアの、第1文に対応する第1の依存木と第2文に対応する第2の依存木とを生成し、
ドメイン固有の高度な言語モデルを採用することによって、前記第1文に対応する第1のトークンのセットと、前記第2文に対応する第2のトークンのセットとを符号化することであって、前記第1のトークンのセットは、前記第1文の単語のセットに対応し、前記第2のトークンのセットは、前記第2文の単語のセットに対応する、前記符号化し、
前記第1文の単語のセットと前記第2文の前記単語セットとの間の依存関係を確立するために、前記第1文の前記単語のセットに対応する第1のアテンションマトリクスと、前記第2文の前記単語のセットに対応する第2のアテンションマトリクスとを生成し、
相互アテンションを採用することによって、前記第1文及び前記第2文に対応する意味表現を生成し、
前記生成された埋め込みが意味的に関連して、意味的に意味のある文の埋め込みを生成するために類似性尺度で区別されることができるようにするために、特定の損失関数を使用することによって前記ネットワーク内の複数の重みを更新することによって、前記第1文の前記単語のセットと、前記第2文の前記単語のセットとを微調整し、
少なくとも1つの類似性測定技術を採用することによって、前記微調整された第1文及び前記第2文のランキングスコアを生成する
ようにさらに構成されている、請求項7に記載のシステム。 - 各文書における前記1つ又は複数の抜粋をハイライトするために、前記ハイライトユニット(234)は、
前記ユーザ意図情報(108)に関して各文書内の各段落のランキングスコアを生成することと、
各文書から、前記ユーザ意図情報(108)に関して最も高いランキングスコアを有する少なくとも1つの段落を選択すること
によって、各文書内の少なくとも1つの重要な段落をハイライトするようにさらに構成されており、
前記ハイライトユニット(234)は、
前記少なくとも1つの重要な段落の複数の単語のアテンション重みと前記ユーザ意図情報(108)とを計算することと、
前記複数の単語の各々にスコアを割り当てることと、
前記スコアに基づいて、前記少なくとも1つの重要な段落から開始点及び終了点を取得することと
によって、前記少なくとも1つの重要な段落の少なくとも1つの重要な文をハイライトするようにさらに構成されている、請求項7に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202141028709 | 2021-06-25 | ||
IN202141028709 | 2021-06-25 | ||
PCT/IB2022/052469 WO2022269369A1 (en) | 2021-06-25 | 2022-03-18 | A system and method for examining relevancy of documents |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023541106A true JP2023541106A (ja) | 2023-09-28 |
Family
ID=84544197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023507493A Pending JP2023541106A (ja) | 2021-06-25 | 2022-03-18 | 文書の関連性を調査するためのシステム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230185835A1 (ja) |
EP (1) | EP4359958A1 (ja) |
JP (1) | JP2023541106A (ja) |
WO (1) | WO2022269369A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240104144A1 (en) * | 2021-06-25 | 2024-03-28 | L&T Technology Services Limited | Method and system for clustering data samples |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6363378B1 (en) * | 1998-10-13 | 2002-03-26 | Oracle Corporation | Ranking of query feedback terms in an information retrieval system |
EP2321772A2 (en) * | 2008-06-24 | 2011-05-18 | Sharon Belenzon | Search engine and methodology, particularly applicable to patent literature |
US9449080B1 (en) * | 2010-05-18 | 2016-09-20 | Guangsheng Zhang | System, methods, and user interface for information searching, tagging, organization, and display |
US10318804B2 (en) * | 2014-06-30 | 2019-06-11 | First American Financial Corporation | System and method for data extraction and searching |
US10606903B2 (en) * | 2017-11-17 | 2020-03-31 | International Business Machines Corporation | Multi-dimensional query based extraction of polarity-aware content |
US10635679B2 (en) * | 2018-04-13 | 2020-04-28 | RELX Inc. | Systems and methods for providing feedback for natural language queries |
-
2022
- 2022-03-18 JP JP2023507493A patent/JP2023541106A/ja active Pending
- 2022-03-18 EP EP22827752.1A patent/EP4359958A1/en active Pending
- 2022-03-18 WO PCT/IB2022/052469 patent/WO2022269369A1/en active Application Filing
-
2023
- 2023-02-02 US US18/104,930 patent/US20230185835A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4359958A1 (en) | 2024-05-01 |
WO2022269369A1 (en) | 2022-12-29 |
US20230185835A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
WO2021017721A1 (zh) | 智能问答方法、装置、介质及电子设备 | |
US9569506B2 (en) | Uniform search, navigation and combination of heterogeneous data | |
US8560548B2 (en) | System, method, and apparatus for multidimensional exploration of content items in a content store | |
Wang et al. | Research on the semantic-based co-word analysis | |
US8478749B2 (en) | Method and apparatus for determining relevant search results using a matrix framework | |
EP2191399A1 (en) | System and method for analyzing electronic data records | |
US11188819B2 (en) | Entity model establishment | |
CN111913954B (zh) | 智能数据标准目录生成方法和装置 | |
Ruiz et al. | Facilitating document annotation using content and querying value | |
US10896163B1 (en) | Method and apparatus for query formulation | |
US20230185835A1 (en) | A system and method for examining relevancy of documents | |
CN111126034A (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
KR101823463B1 (ko) | 연구자 검색 서비스 제공 장치 및 그 방법 | |
Chamorro-Padial et al. | Finding answers to COVID-19-specific questions: An information retrieval system based on latent keywords and adapted TF-IDF | |
Izquierdo et al. | A platform for keyword search and its application for covid-19 pandemic data | |
Nicholson et al. | Dissemination and discovery of diverse data: do libraries promote their unique research data collections? | |
Zhang et al. | A semantics-based method for clustering of Chinese web search results | |
Wang et al. | Probabilistic object deputy model for uncertain data and lineage management | |
CN116127053B (zh) | 实体词消歧、知识图谱生成和知识推荐方法以及装置 | |
Salisbury et al. | Building the AgNIC Resource Database Using Semi-Automatic Indexing of Material | |
Saggion et al. | A multi-level annotated corpus of scientific papers for scientific document summarization and cross-document relation discovery | |
AbuRa’ed et al. | A multi-level annotated corpus of scientific papers for scientific document summarization and cross-document relation discovery | |
Sun et al. | Gathering Information on the Web by Consistent Entity Augmentation | |
Kmetty et al. | Supervisor: Submitted by |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240604 |