JP2019061522A - 文書推薦システム、文書推薦方法および文書推薦プログラム - Google Patents

文書推薦システム、文書推薦方法および文書推薦プログラム Download PDF

Info

Publication number
JP2019061522A
JP2019061522A JP2017185995A JP2017185995A JP2019061522A JP 2019061522 A JP2019061522 A JP 2019061522A JP 2017185995 A JP2017185995 A JP 2017185995A JP 2017185995 A JP2017185995 A JP 2017185995A JP 2019061522 A JP2019061522 A JP 2019061522A
Authority
JP
Japan
Prior art keywords
description
item
content
items
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017185995A
Other languages
English (en)
Inventor
和秀 宮澤
Kazuhide Miyazawa
和秀 宮澤
隆義 友本
Takayoshi Tomomoto
隆義 友本
康高 山本
Yasutaka Yamamoto
康高 山本
寛永 小川
Kanei Ogawa
寛永 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017185995A priority Critical patent/JP2019061522A/ja
Publication of JP2019061522A publication Critical patent/JP2019061522A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書作成者の負担を軽減させつつ、文書中の各項目に記載すべき適切な内容を推薦できる文書推薦システムを提供する。【解決手段】構造化データ記憶部81は、記載項目とその記載項目配下の記載内容とを対応付けたデータである構造化データを複数記憶する。関連度記憶部82は、記載項目間の関連度である項目間関連度を記憶する。入力部83は、記載項目に関する検索内容の入力を受け付ける。類似文特定部84は、記載項目に対して入力された検索内容に類似する類似文を、構造化データの対応する記載項目配下の記載内容から特定する。スコア算出部85は、特定された類似文の類似度および項目間関連度に応じて、他の記載項目における記載内容のスコアを算出する。推薦内容出力部86は、算出されたスコアに応じて推薦する内容を出力する。【選択図】図11

Description

本発明は、文書中の各項目に記載すべき内容を推薦する文書推薦システム、文書推薦方法および文書推薦プログラムに関する。
実施計画書や、申請書類などの技術文書は、一般に、その文書の記載項目が定型化されており、その記載項目に記載すべき内容も概ね決まっている。例えば、治験業務において作成される治験計画書は、目的や治験デザイン、対象などを記載することが必要とされている。
一方、技術文書によっては、記載内容が複雑なものも存在する。例えば、上述する治験計画書の試験デザインは複雑であり、この内容を高度化するだけでも、数十億の費用が必要になるとも言われている。そのため、このような技術文書を効率的に作成することが望まれている。
このような文書を一から作成した場合、文書作成者の負担は非常に大きいものになる。そこで、この作成負担を軽減させる装置が、例えば、特許文献1に記載されている。特許文献1に記載された装置は、ユーザから疾患名および試験名称の入力を受け付けると、研究タイプに応じてテンプレートを読み出し、テンプレートの先頭の章に関する推奨表現、注意事項、実例データテンプレートを表示する。ユーザは、表示されたテンプレートをベースに内容を書き換えて実施計画書を作成する。
国際公開第2005/096200号
例えば、上述する治験業務では、作成される試験内容に基づいて複数相の臨床試験が行われる。そのため、試験デザインは非常に重要であり、過去の治験計画書や国内外の学術論文、過去の総括報告書など、様々な文書を参照し、分析することで作成される。
特許文献1に記載された装置を用いることで、文書の大枠のデザインや各項目に対して記載すべき指針となるテンプレートを表示することは可能である。しかし、特許文献1に記載された装置を用いる場合、最終的に選択すべき項目の内容は文書作成者の判断で決定しなければならず、作成者の負担を十分軽減できるとは言い難い。
そこで、本発明では、文書作成者の負担を軽減させつつ、文書中の各項目に記載すべき適切な内容を推薦できる文書推薦システム、文書推薦方法および文書推薦プログラムを提供することを目的とする。
本発明による文書推薦システムは、文書の記載項目とその記載項目配下の記載内容とを対応付けたデータである構造化データを複数記憶する構造化データ記憶部と、記載項目間の関連度である項目間関連度を記憶する関連度記憶部と、記載項目に関する検索内容の入力を受け付ける入力部と、記載項目に対して入力された検索内容に類似する類似文を、構造化データの対応する記載項目配下の記載内容から特定する類似文特定部と、特定された類似文の類似度および項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出部と、算出されたスコアに応じて推薦する内容を出力する推薦内容出力部とを備えたことを特徴とする。
本発明による文書推薦方法は、文書の記載項目に関する検索内容の入力を受け付け、記載項目に対して入力された検索内容に類似する類似文を、記載項目とその記載項目配下の記載内容とを対応付けたデータである構造化データにおける対応する記載項目配下の記載内容から特定し、特定された類似文の類似度および記載項目間の関連度である項目間関連度に応じて、他の記載項目における記載内容のスコアを算出し、算出されたスコアに応じて推薦する内容を出力することを特徴とする。
本発明による文書推薦プログラムは、コンピュータに、文書の記載項目に関する検索内容の入力を受け付ける受付処理、記載項目に対して入力された検索内容に類似する類似文を、記載項目とその記載項目配下の記載内容とを対応付けたデータである構造化データにおける対応する記載項目配下の記載内容から特定する類似文特定処理、特定された類似文の類似度および記載項目間の関連度である項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出処理、および、算出されたスコアに応じて推薦する内容を出力する推薦内容出力処理を実行させることを特徴とする。
本発明によれば、文書作成者の負担を軽減させつつ、文書中の各項目に記載すべき適切な内容を推薦できる。
本発明による文書推薦システムの一実施形態の構成例を示すブロック図である。 目次辞書の例を示す説明図である。 構造化データの例を示す説明図である。 各記載項目配下の記載内容に含まれる特徴語の例を示す説明図である。 関連の有無を判定した結果の例を示す説明図である。 項目間関連度の例を示す説明図である。 記載項目を定義したテンプレートの例を示す説明図である。 入力画面の例を示す説明図である。 推薦結果を表示した例を示す説明図である。 文書推薦システムの動作例を示すフローチャートである。 本発明による文書推薦システムの概要を示すブロック図である。
以下、本発明を実施するための最良の形態について図面を参照して詳細に説明する。本実施形態では、自由形式(フリーフォーマット)で作成される文書を対象とするのではなく、記載項目が決まっている文書を対象とする。ここで、記載項目とは、各文書に含まれる章や見出し、表題など、配下の記載内容を特定する情報を意味する。なお、記載項目のことを、項目、目次、章、タイトルなどと呼ぶこともある。例えば、医薬品の承認申請に用いられるコモン・テクニカル・ドキュメント(CTD)では、第2部(モジュール2)に、「以下の順番で7項目を含むこと」とされている。
・目次
・緒言
・品質に関する概括資料
・非臨床に関する概括評価
・臨床に関する概括評価
・非臨床試験に関する概要文及び概要表
・臨床概要
これらの項目が、記載項目の例である。なお、モジュールの見出し(例えば、「CTDの概要(サマリー)」)自体が記載項目として取り扱われてもよい。
以下では、主に治験業務に用いられる文書を例示して本発明の内容を説明する。ただし、本発明が用いられる業務は、治験業務に限定されない。本発明は、記載項目が決まっている文書を作成するような任意の業務に適用可能である。
図1は、本発明による文書推薦システムの一実施形態を示すブロック図である。なお、図1に示す一方向性の矢印は、情報の流れの方向を端的に示したものであり、双方向性を排除するものではない。
本実施形態の文書推薦システム100は、文書データ生成部10と、文書データ記憶部12と、目次辞書記憶部14と、構造化データ生成部16と、構造化データ記憶部18と、インデクサ20と、インデックス記憶部22と、項目間関連度算出部24と、項目間関連度記憶部26と、学習部28と、予測モデル記憶部30と、同一内容特定部32と、同一内容データ記憶部34とを備えている。
さらに、本実施形態の文書推薦システム100は、入力部40と、テンプレート記憶部42と、クエリ生成部44と、類似文特定部46と、スコア統合部50と、推薦内容出力部52とを備えている。
文書データ生成部10は、後述する構造化データ生成部16が構造化データを生成する元になる文書D1をデータ化する。構造化データとは、記載項目と配下の記載内容とを対応付けたデータである。なお、構造化データの内容については、後述される。
文書データ生成部10は、例えば、PDF(Portable Document Format)化された文書をテキスト化することで文書データを生成してもよい。また、文書データ生成部10は、紙媒体の文書をOCR(Optical Character Recognition )処理することで、文書データを生成してもよい。
文書データ記憶部12は、文書データを記憶する。文書データ記憶部12は、文書データ生成部10が生成した文書データを記憶してもよく、他のシステム(図示せず)等によって生成された文書を記憶してもよい。
目次辞書記憶部14は、記載項目ごとに想定されるタイトル(章タイトル)を辞書化して記憶する。図2は、目次辞書記憶部14が記憶する目次辞書の例を示す説明図である。図2に示す例では、目次辞書は、項番ごとに章タイトルの候補を対応付けた辞書である。なお、章タイトルの表記ゆれを考慮し、目次辞書は、図2に例示するように、各項番に対して複数の章タイトル候補を対応付けていてもよい。
目次辞書には、任意の章タイトルを辞書化することが可能である。すなわち、目次辞書には、各文書で定義されていない章タイトルを辞書化してもよい。目次辞書は、作成する文書に応じ、ユーザ等により予め設定される。
構造化データ生成部16は、文書データから構造化データを生成する。具体的には、まず、構造化データ生成部16は、文書データから章タイトル相当の文字列の位置を特定する。構造化データ生成部16は、目次辞書に設定されている章タイトル候補に表現上一致する文字列の位置を特定してもよく、または、章タイトル候補を含意する文字列の位置を特定してもよい。
次に、構造化データ生成部16は、特定された章タイトルから、次の章タイトルまでのテキストを抽出し、特定された章タイトルと対応付けて、構造化データを生成する。ここで抽出されたテキストが、記載内容に相当する。図3は、構造化データの例を示す説明図である。図3に示す例では、一番左の列が記載項目に対応する章タイトルを表し、横軸方向に、構造化の対象になった文書名が表されている。
図3に示す例では、構造化データ生成部16は、文書ごとに縦一列分の情報を生成する。なお、図3では記載していないが、例えば、治験計画書Aの疾患名に「大腸がん」、治験計画書Bの試験デザインには、「ランダム試験」などが設定される。以下、説明を簡略化するために、図3に例示する表の「疾患名」、「目的」、「試験デザイン」、「選択基準」および「主要評価項目」をそれぞれ、1章、2章、3章、4章、5章と記す。
また、図3に例示するように、各構造化データには、作成元になった文書を特定する情報(例えば、文書名)が対応付けられていてもよい。また、構造化データは階層化されていてもよい。
構造化データ記憶部18は、構造化データを記憶する。構造化データ記憶部18は、構造化データ生成部16が生成した構造化データを記憶してもよく、他のシステム(図示せず)等によって生成された構造化データを記憶してもよい。
インデクサ20は、構造化データ記憶部18に記憶された構造化データに基づいて、後述する類似文特定部46が構造化データを抽出する際に用いるインデックスを生成する。なお、インデックスの生成方法は限定されず、インデクサ20は、任意の方法を用いてインデックスを生成すればよい。インデックス記憶部22は、生成されたインデックスを記憶する。
なお、構造化データの検索にインデックスを用いない場合、インデクサ20およびインデックス記憶部22は、不要である。ただし、検索を高速化する観点から、インデックスが生成されている方が好ましい。
項目間関連度算出部24は、記載項目間の関連度(以下、項目間関連度と記す)を算出する。具体的には、項目間関連度算出部24は、各記載項目配下の記載内容が、他の記載項目配下の記載内容とどれだけ関連しているかを数値化する。
以下、具体例を用いて、項目間関連度の算出方法を説明する。本具体例では、1章と3章との項目間関連度を算出することを想定する。図4は、文書内の各記載項目配下の記載内容に含まれる特徴語の例を示す説明図である。図4に示す例は、各治験計画書A〜Eの特徴語を抽出した結果を示す。項目間関連度算出部24は、既存の方法(例えば、tf-idf:Term Frequency-Inverse Document Frequency )を用いて特徴語を抽出すればよい。図4に示す例では、特徴量が大きい方から予め定めた数の特徴語が抽出されたことを示す。例えば、治験計画書の1章には、a,b,cという3つの特徴語が存在したことを示す。
項目間関連度算出部24は、各治験計画書において、章間の特徴語のペアに関連があるか否か判断する。図5は、関連の有無を判定した結果の例を示す説明図である。例えば、1行目の例では、1章の特徴語“a”と3章の特徴語“a”とは、特徴語が同じであるため、項目間関連度算出部24は、この特徴語のペアに関連があると判断する。一方、2行目の例では、1章の特徴語“a”と3章の特徴語“d”とは、特徴語の関連性を示す情報がないため、項目間関連度算出部24は、この特徴語のペアに関連がないと判断する。
また、例えば、7行目の例では、1章の特徴語“b”と3章の特徴語“e”とは、11行目に例示する特徴語のペアと重複する。そこで、項目間関連度算出部24は、この特徴語のペアに関連があると判断してもよい。この観点で判断した結果、図5に示す例では、20個存在するペアのうち、関連がある(図5において丸印がついている行の)ペアは、11個である。そのため、項目間関連度算出部24は、1章と3章との項目間関連度を11/20=0.55と算出する。
上記特性から、項目間関連度は、ある記載項目に「X」が記載された場合に、他の記載項目に「Y」が現れやすい度合いをモデル化したものと言える。
上記具体例では、各特徴語の重みや関連性を一定の値で算出する場合を例示した。その他のバリエーションとして、項目間関連度算出部24は、各特徴語の頻度やtf-idfの値に応じた重みを付与し(すなわち、各行のそれぞれの結果に重みを与え)、その重み付きの値で項目間関連度を算出してもよい。
図6は、項目間関連度の例を示す説明図である。図6に示す例は、縦に記載した章から横に記載した章への重み(関連度)を表す。図6に示す例の場合、1章の内容に基づく2章の内容の重みは0.7であり、3章の内容に基づく2章の内容の重みは0.9である。なお、項目間関連度を用いる方法は後述される。
なお、項目間関連度の値は、相互に同じ値であってもよく、異なっていてもよい。例えば、上述する例において、1章から3章への項目間関連度と、3章から1章への項目間関連度は、異なる場合も想定されるからである。例えば、「この疾病の場合に試験デザインとして想定されること」と、「この試験デザインの場合、疾病として想定されること」とでは、その確からしさが変わると想定される。この内容は、図6に示す例では、対角線を挟んだ項目間関連度に関する。
項目間関連度記憶部26は、算出された項目間関連度を記憶する。項目間関連度記憶部26は、例えば、図6に例示する形式で項目間関連度を記憶してもよい。なお、項目間関連度を保持するメモリを削減する観点から、項目間関連度記憶部26は、項目間関連度の値を、相互に同じ値で記憶していてもよい。
学習部28は、各記載項目に対して推薦すべき記載内容を予測する予測モデルを学習する。学習部28は、例えば、目的変数を「試験デザイン」という項目とし、説明変数を「疾患名」や「目的」の中のテキスト情報(頻度の高い単語情報)とするような予測モデルを学習してもよい。
予測モデルとして、過去の「疾患名」や「目的」の中の単語情報を学習しておくことで、試験デザインの種類ごとに確率値を出力することが可能になる。具体的には、予測モデルを使用することで、「この疾患名であり、この目的であれば、試験デザインとして何が相応しいか?」を予測することが可能になる。
他にも、上述する治験計画書の例において、学習部28は、アクセプトされた治験計画書とリジェクトされた治験計画書を区別して学習するようにしてもよい。例えば、異種混合学習を用いてモデルを学習した場合、生成されたモデルを参照することで、アクセプトとリジェクトとを分ける情報を、門関数や説明変数に対する係数で判断することも可能になる。
学習部28がモデルを学習する方法や、学習済みのモデルの態様も任意である。例えば、4章の記載内容を目的変数とし、1章から3章の内容が説明変数の候補であるとする。このとき、学習部28は、1章から3章の内容を表す説明変数を全て含む予測モデルを生成してもよく、一部の章の内容を表す説明変数を含む予測モデルを生成してもよい。
例えば、上述する例の場合、学習部28は、4章の内容を予測するモデルとして、以下に例示する7種類のモデルを学習してもよい。予測モデル記憶部30は、学習された予測モデルを記憶する。
・1章の内容を示す説明変数を含む予測モデル
・1章および2章の内容を示す説明変数を含む予測モデル
・1章および3章の内容を示す説明変数を含む予測モデル
・1章、2章および3章の内容を示す説明変数を含む予測モデル
・2章の内容を示す説明変数を含む予測モデル
・2章および3章の内容を示す説明変数を含む予測モデル
・3章の内容を示す説明変数を含む予測モデル
同一内容特定部32は、推薦候補になる文書の同一性を判断し、同一と判断された文書を集約して管理する。推薦候補の文書が似ている場合、これらの文書を纏めておくことで、ある項目への推薦結果をユーザに提示する際、似た内容が推薦されることを抑制できる。
例えば、インデックスが作成される際や、推薦対象になる項目に文書が登録された場合、同一内容特定部32は、その文書から項目の単語を表す情報を抽出し、その情報の一致性から文書の類似度を定量化する。そして、同一内容特定部32は、類似度に基づいてクラスタリングを実施し、同じクラスタのデータに同じクラスタIDを付与する。
例えば、後述する推薦内容出力部52が推薦内容を出力する場合、このクラスタIDを使用することで、同じクラスタIDの内容が複数推薦されるような場合に、1つのみを推薦するように抑制できる。なお、同一内容特定部32が同一性を判断する方法は、上述する内容に限定されず、任意の方法を用いることが可能である。
同一内容データ記憶部34は、同一と判断されたデータの情報を記憶する。同一内容データ記憶部34は、例えば、その文書に含まれる単語を表す単語ベクトルや、上述するクラスタIDを記憶していてもよい。
入力部40は、記載項目に関する検索内容の入力を受け付ける。具体的には、入力部40は、記載項目に応じた入力画面を表示し、キーボードなどの入力インタフェースを介して入力される検索内容を受け付ける。
テンプレート記憶部42は、作成する文書に含まれる記載項目を規定したテンプレートを記憶する。図7は、記載項目を定義したテンプレートの例を示す説明図である。図7に例示するテンプレートは、治験実施計画書のテンプレートであり、目的、試験デザイン、選択基準および主要評価項目が記載項目として用いられることを示す。入力部40は、図7に例示するテンプレートに従って、入力画面を表示してもよい。
図8は、入力画面の例を示す説明図である。図8に例示する入力画面は、記載項目として、複数の記載項目(疾患名(1章)、目的(2章)、試験デザイン(3章))に関する検索内容の入力を受け付ける。この場合、後述する類似文特定部46が、入力を受け付けていない記載項目配下の記載内容から類似文を特定する。例えば、入力部40が1章と2章の入力を受け付けた場合、文書推薦システム100は、3章の内容を推薦する。また、例えば、入力部40が2章と3章の入力を受け付けた場合、文書推薦システム100は、1章の内容を推薦する。
図9は、推薦結果を表示した例を示す説明図である。例えば、図8に例示するように、ユーザが1章に「大腸がん」、3章に「ランダム試験」と入力したとする。このとき、文書推薦システム100(より具体的には、後述する推薦内容出力部52)が、2章の推薦内容を出力する。
クエリ生成部44は、入力された検索内容に一致または類似する内容を、対応する記載項目から抽出するためのクエリを生成する。クエリの作成方法は任意であり、クエリ生成部44は、使用するDBMS(Database Management System)に応じたクエリ(例えば、SQL文)を生成する。なお、クエリの生成方法は広く知られているため、ここでは詳細な説明は省略する。なお、後述する類似文特定部46が、クエリ生成部44の機能を兼ねていてもよい。
クエリ生成部44(または、後述する類似文特定部46)は、例えば、ユーザが各検索内容を入力後、カーソル(フォーカス)が他の記載項目の入力欄に移動したことをトリガとして処理を開始してもよく、明示的なボタンの押下等の指示をトリガとして処理を開始してもよい。なお、計算量や制御を考慮すると、明示的な指示に従って処理を開始することが好ましいと言える。
類似文特定部46は、記載項目に対して入力された検索内容と、構造化データの対応する記載項目配下の記載内容から、類似文を特定する。なお、類似文の特定方法は任意である。類似文特定部46は、例えば、入力された検索内容を形態素解析した結果と、構造化データの記載内容を形態素解析した結果を比較して類似文を決定してもよい。また、類似文特定部46は、特定した類似文の類似度を算出する。
具体的には、類似文特定部46は、入力された検索内容の形態素解析結果のうち、所定の品詞の形態素を所定の割合含む記載内容を類似すると判定し、その割合を類似度として算出してもよい。他にも、類似文特定部46は、形態素同士を比較し、コサイン類似度を算出して、所定の閾値以上の記載内容を類似すると判定し、併せてそのコサイン類似度を類似度として算出してもよい。さらに、類似文特定部46は、形態素同士を比較する際、事前に用意する同義語辞書を用いることで、同義語と判定される際には表記が異なっていても同じ形態素と判定してもよい。
以下、説明のため、本実施形態では、治験計画書が10件(治験計画書A〜J)登録されているとする。例えば、図8に例示するように、入力部40が、ユーザU1が1章に「大腸がん」、3章に「ランダム試験」と入力し、2章の推薦内容を出力することを考える。この場合、類似文特定部46は、1章に関する検索内容から2章の類似文を特定し、3章に関する検索内容から2章の類似文を特定する。すなわち、類似文特定部46は、ユーザの入力が完了している章の数だけ、対応する類似文の特定処理を行う。
まず、類似文特定部46は、1章に関する検索内容から2章の類似文を特定する。類似文特定部46は、例えば、以下のような検索結果を出力してもよい。ここで、治験計画書の右に記載した値は、検索の際のスコアであり、たとえば、検索内容と1章に関する記載内容との類似度である。なお、記載されていない治験計画書は、スコアが0の治験計画書であり、「大腸がん」に関する記載がなかったことを意味する。
治験計画書A:1.0
治験計画書C:0.7
治験計画書E:0.5
治験計画書B:0.3
同様に、類似文特定部46は、3章に関する検索内容から2章の類似文を特定する。類似文特定部46は、例えば、以下のような検索結果を出力してもよい。
治験計画書C:0.8
治験計画書F:0.6
治験計画書D:0.5
治験計画書A:0.2
これらの結果が意味するのは、ユーザが入力した1章の検索内容から推測すると、2章は治験計画書Aのような内容であることが期待され、ユーザが入力した3章の検索内容から推測すると、2章は治験計画書Cのような内容であることが期待される。
スコア統合部50は、特定された類似文の類似度と項目間関連度とを統合して、他の記載項目における記載内容のスコアを算出する。具体的には、スコア統合部50は、項目間関連度の値を用いて、類似度の重み付き線形和を算出することで、他の記載項目における記載内容のスコアを算出してもよい。
例えば、図6に例示する項目間関連度が登録されているとする。図6に示す例では、1章の検索内容に基づいて2章の内容を検索した場合の重みは0.7であり、3章の検索内容に基づいて2章の内容を検索した場合の重みは0.9である。スコア統合部50は、類似文特定部46によって算出された類似度(スコア)に対して、この重みを掛けて、治験計画書ごとにスコアを集計する。すなわち、スコア統合部50は、1章の記載内容から特定された類似文の類似度を、2章の記載項目の重みとして用いて記載内容のスコアを算出する。
例えば、上述する例の場合、スコア統合部50は、以下に示すように、項目間関連度を類似度に乗じた総和で各治験計画書のスコアを算出してもよい。
・治験計画書A:1.0×0.7+0.2×0.9=0.88
・治験計画書B:0.3×0.7 =0.21
・治験計画書C:0.7×0.7+0.8×0.9=1.21
・治験計画書D: 0.5×0.9=0.45
・治験計画書E:0.5×0.7 =0.35
・治験計画書F: 0.6×0.9=0.54
・治験計画書G: =0
・治験計画書H: =0
・治験計画書I: =0
・治験計画書J: =0
推薦内容出力部52は、算出されたスコアに応じて、推薦する記載内容を出力する。具体的には、推薦内容出力部52は、算出されたスコアが高い順に、予め定めた数の推薦内容を出力してもよい。
また、推薦内容出力部52は、予測モデルを用いて推薦する記載内容を出力してもよい。この場合、推薦内容出力部52は、出力内容を目的変数とする予測モデルを予測モデル記憶部30から抽出し、他の推薦された内容を説明変数として代入して、出力内容を決定してもよい。
文書データ生成部10と、構造化データ生成部16と、インデクサ20と、項目間関連度算出部24と、学習部28と、同一内容特定部32と、入力部40と、クエリ生成部44と、類似文特定部46と、スコア統合部50と、推薦内容出力部52とは、プログラム(文書推薦プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。
例えば、プログラムは、記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、文書データ生成部10、構造化データ生成部16、インデクサ20、項目間関連度算出部24、学習部28、同一内容特定部32、入力部40、クエリ生成部44、類似文特定部46、スコア統合部50および推薦内容出力部52として動作してもよい。また、文書推薦システムの機能がSaaS(Software as a Service )形式で提供されてもよい。
また、文書データ記憶部12と、目次辞書記憶部14と、構造化データ記憶部18と、インデックス記憶部22と、項目間関連度記憶部26と、予測モデル記憶部30と、同一内容データ記憶部34と、テンプレート記憶部42とは、例えば、磁気ディスク装置等により実現される。
文書データ生成部10と、構造化データ生成部16と、インデクサ20と、項目間関連度算出部24と、学習部28と、同一内容特定部32と、入力部40と、クエリ生成部44と、類似文特定部46と、スコア統合部50と、推薦内容出力部52とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の文書推薦システムの動作を説明する。図10は、本実施形態の文書推薦システム100の動作例を示すフローチャートである。ここでは、項目間関連度やインデックスは既に生成されているものとする。
入力部40は、記載項目に関する検索内容の入力を受け付ける(ステップS11)。類似文特定部46は、記載項目に対して入力された検索内容と、構造化データの対応する記載項目配下の記載内容から類似文を特定する(ステップS12)。スコア統合部50は、特定された類似文の類似度および項目間関連度に応じて、他の記載項目における記載内容のスコアを算出する(ステップS13)。そして、推薦内容出力部52は、算出されたスコアに応じて推薦する内容を出力する(ステップS14)。
以上のように、本実施形態では、入力部40が、文書の記載項目に関する検索内容の入力を受け付け、類似文特定部46が、構造化データにおける対応する記載項目配下の記載内容から類似文を特定する。そして、スコア統合部50が、特定された類似文の類似度および項目間関連度に応じて、他の記載項目における記載内容のスコアを算出し、推薦内容出力部52が、算出されたスコアに応じて推薦する内容を出力する。よって、文書作成者の負担を軽減させつつ、文書中の各項目に記載すべき適切な内容を推薦できる。
次に、本実施形態の文書推薦システムの変形例を説明する。上記実施形態では、図8に例示するように、入力部40が、複数の記載項目に関する検索内容の入力を受け付け、類似文特定部46が、入力を受け付けていない記載項目配下の記載内容から類似文を特定する場合について説明した。
ただし、入力部40は、予め定めた順序に従って、記載項目に関する検索内容の入力を受け付けてもよい。例えば、入力順および入力する記載項目に応じて類似文を特定する対象の記載項目をテンプレートに定義しておき、入力部40は、その定義に従って検索内容の入力を受け付けてもよい。そして、類似文特定部46は、入力された記載項目に応じた記載項目配下の記載内容から類似文を特定してもよい。
例えば、図8に例示する画面を表示した場合、入力部40は、まず「疾病名」に関する検索内容の入力のみをユーザから受け付ける。その後、推薦内容出力部52が、「目的」に関する推薦結果を出力すると、入力部40は、「目的」に関する検索内容の入力をユーザから受け付ける。以下、記載項目に関する入力が完了するまで上記処理が繰り返される。
なお、この場合も、類似文特定部46は、すでに入力および特定された記載項目の内容を検索内容として用いて、類似文を特定すればよい。このような構成によれば、文書作成者が順を追って検索内容を入力することができるため、文書作成者の負担をより軽減させることが可能になる。
次に、本発明の概要を説明する。図11は、本発明による文書推薦システムの概要を示すブロック図である。図11に例示する文書推薦システム80は、記載項目(例えば、上記の「章」)とその記載項目配下の記載内容とを対応付けたデータである構造化データを複数記憶する構造化データ記憶部81(例えば、構造化データ記憶部18)と、記載項目間の関連度である項目間関連度を記憶する関連度記憶部82(例えば、項目間関連度記憶部26)と、記載項目に関する検索内容の入力を受け付ける入力部83(例えば、入力部40)と、記載項目に対して入力された検索内容に類似する類似文を、構造化データの対応する記載項目配下の記載内容から特定する類似文特定部84(例えば、類似文特定部46)と、特定された類似文の類似度および項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出部85(例えば、スコア統合部50)と、算出されたスコアに応じて推薦する内容を出力する推薦内容出力部86(例えば、推薦内容出力部52)とを備えている。
そのような構成により、文書作成者の負担を軽減させつつ、文書中の各項目に記載すべき適切な内容を推薦できる。
また、スコア算出部85は、項目間関連度の値を用いて、類似度の重み付き線形和を算出することで、他の記載項目における記載内容のスコアを算出してもよい。
また、スコア算出部85は、一の記載項目配下の記載内容から特定された類似文の類似度を、他の記載項目の重みとして用いて、他の記載項目における記載内容のスコアを算出してもよい。
その際、スコア算出部85は、一の記載項目と他の記載項目の項目間関連度を、他の記載項目の類似度に乗じた総和を、他の記載項目における記載内容のスコアとして算出してもよい。
また、入力部83は、複数の記載項目に関する検索内容の入力を受け付け、類似文特定部84は、入力を受け付けていない記載項目配下の記載内容から類似文を特定してもよい。
また、入力部83は、予め定めた順序に従って、記載項目に関する検索内容の入力を受け付け、類似文特定部84は、入力された記載項目に応じた記載項目配下の記載内容から類似文を特定してもよい。
また、文書推薦システム80は、対象とする2つの記載項目配下の記載内容に含まれる特徴語の関連性に応じて、記載項目間の項目間関連度を算出する項目間関連度算出部(例えば、項目間関連度算出部24)を備えていてもよい。
なお、推薦内容出力部86は、算出されたスコアの高い順に予め定めた件数の推薦内容を出力してもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)文書の記載項目と当該記載項目配下の記載内容とを対応付けたデータである構造化データを複数記憶する構造化データ記憶部と、記載項目間の関連度である項目間関連度を記憶する関連度記憶部と、記載項目に関する検索内容の入力を受け付ける入力部と、記載項目に対して入力された検索内容に類似する類似文を、前記構造化データの対応する記載項目配下の記載内容から特定する類似文特定部と、特定された類似文の類似度および前記項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出部と、算出されたスコアに応じて推薦する内容を出力する推薦内容出力部とを備えたことを特徴とする文書推薦システム。
(付記2)スコア算出部は、項目間関連度の値を用いて、類似度の重み付き線形和を算出することで、他の記載項目における記載内容のスコアを算出する付記1記載の文書推薦システム。
(付記3)スコア算出部は、一の記載項目配下の記載内容から特定された類似文の類似度を、他の記載項目の重みとして用いて、当該他の記載項目における記載内容のスコアを算出する付記1または付記2記載の文書推薦システム。
(付記4)スコア算出部は、一の記載項目と他の記載項目の項目間関連度を、他の記載項目の類似度に乗じた総和を、当該他の記載項目における記載内容のスコアとして算出する付記3記載の文書推薦システム。
(付記5)入力部は、複数の記載項目に関する検索内容の入力を受け付け、類似文特定部は、入力を受け付けていない記載項目配下の記載内容から類似文を特定する付記1から付記4のうちのいずれか1つに記載の文書推薦システム。
(付記6)入力部は、予め定めた順序に従って、記載項目に関する検索内容の入力を受け付け、類似文特定部は、入力された記載項目に応じた記載項目配下の記載内容から類似文を特定する付記1から付記4のうちのいずれか1つに記載の文書推薦システム。
(付記7)対象とする2つの記載項目配下の記載内容に含まれる特徴語の関連性に応じて、前記記載項目間の項目間関連度を算出する項目間関連度算出部を備えた付記1から付記6のうちのいずれか1つに記載の文書推薦システム。
(付記8)推薦内容出力部は、算出されたスコアの高い順に予め定めた件数の推薦内容を出力する付記1から付記7のうちのいずれか1つに記載の文書推薦システム。
(付記9)文書の記載項目に関する検索内容の入力を受け付け、記載項目に対して入力された検索内容に類似する類似文を、記載項目と当該記載項目配下の記載内容とを対応付けたデータである構造化データにおける対応する記載項目配下の記載内容から特定し、特定された類似文の類似度および記載項目間の関連度である項目間関連度に応じて、他の記載項目における記載内容のスコアを算出し、算出されたスコアに応じて推薦する内容を出力することを特徴とする文書推薦方法。
(付記10)項目間関連度の値を用いて、類似度の重み付き線形和を算出することで、他の記載項目における記載内容のスコアを算出する付記9記載の文書推薦方法。
(付記11)コンピュータに、文書の記載項目に関する検索内容の入力を受け付ける受付処理、記載項目に対して入力された検索内容に類似する類似文を、記載項目と当該記載項目配下の記載内容とを対応付けたデータである構造化データにおける対応する記載項目配下の記載内容から特定する類似文特定処理、特定された類似文の類似度および記載項目間の関連度である項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出処理、および、算出されたスコアに応じて推薦する内容を出力する推薦内容出力処理を実行させるための文書推薦プログラム。
(付記12)コンピュータに、スコア算出処理で、項目間関連度の値を用いて、類似度の重み付き線形和を算出することで、他の記載項目における記載内容のスコアを算出させる付記11記載の文書推薦プログラム。
10 文書データ生成部
12 文書データ記憶部
14 目次辞書記憶部
16 構造化データ生成部
18 構造化データ記憶部
20 インデクサ
22 インデックス記憶部
24 項目間関連度算出部
26 項目間関連度記憶部
28 学習部
30 予測モデル記憶部
32 同一内容特定部
34 同一内容データ記憶部
40 入力部
42 テンプレート記憶部
44 クエリ生成部
46 類似文特定部
50 スコア統合部
52 推薦内容出力部
100 文書推薦システム

Claims (10)

  1. 文書の記載項目と当該記載項目配下の記載内容とを対応付けたデータである構造化データを複数記憶する構造化データ記憶部と、
    記載項目間の関連度である項目間関連度を記憶する関連度記憶部と、
    記載項目に関する検索内容の入力を受け付ける入力部と、
    記載項目に対して入力された検索内容に類似する類似文を、前記構造化データの対応する記載項目配下の記載内容から特定する類似文特定部と、
    特定された類似文の類似度および前記項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出部と、
    算出されたスコアに応じて推薦する内容を出力する推薦内容出力部とを備えた
    ことを特徴とする文書推薦システム。
  2. スコア算出部は、項目間関連度の値を用いて、類似度の重み付き線形和を算出することで、他の記載項目における記載内容のスコアを算出する
    請求項1記載の文書推薦システム。
  3. スコア算出部は、一の記載項目配下の記載内容から特定された類似文の類似度を、他の記載項目の重みとして用いて、当該他の記載項目における記載内容のスコアを算出する
    請求項1または請求項2記載の文書推薦システム。
  4. スコア算出部は、一の記載項目と他の記載項目の項目間関連度を、他の記載項目の類似度に乗じた総和を、当該他の記載項目における記載内容のスコアとして算出する
    請求項3記載の文書推薦システム。
  5. 入力部は、複数の記載項目に関する検索内容の入力を受け付け、
    類似文特定部は、入力を受け付けていない記載項目配下の記載内容から類似文を特定する
    請求項1から請求項4のうちのいずれか1項に記載の文書推薦システム。
  6. 入力部は、予め定めた順序に従って、記載項目に関する検索内容の入力を受け付け、
    類似文特定部は、入力された記載項目に応じた記載項目配下の記載内容から類似文を特定する
    請求項1から請求項4のうちのいずれか1項に記載の文書推薦システム。
  7. 対象とする2つの記載項目配下の記載内容に含まれる特徴語の関連性に応じて、前記記載項目間の項目間関連度を算出する項目間関連度算出部を備えた
    請求項1から請求項6のうちのいずれか1項に記載の文書推薦システム。
  8. 推薦内容出力部は、算出されたスコアの高い順に予め定めた件数の推薦内容を出力する
    請求項1から請求項7のうちのいずれか1項に記載の文書推薦システム。
  9. 文書の記載項目に関する検索内容の入力を受け付け、
    記載項目に対して入力された検索内容に類似する類似文を、記載項目と当該記載項目配下の記載内容とを対応付けたデータである構造化データにおける対応する記載項目配下の記載内容から特定し、
    特定された類似文の類似度および記載項目間の関連度である項目間関連度に応じて、他の記載項目における記載内容のスコアを算出し、
    算出されたスコアに応じて推薦する内容を出力する
    ことを特徴とする文書推薦方法。
  10. コンピュータに、
    文書の記載項目に関する検索内容の入力を受け付ける受付処理、
    記載項目に対して入力された検索内容に類似する類似文を、記載項目と当該記載項目配下の記載内容とを対応付けたデータである構造化データにおける対応する記載項目配下の記載内容から特定する類似文特定処理、
    特定された類似文の類似度および記載項目間の関連度である項目間関連度に応じて、他の記載項目における記載内容のスコアを算出するスコア算出処理、および、
    算出されたスコアに応じて推薦する内容を出力する推薦内容出力処理
    を実行させるための文書推薦プログラム。
JP2017185995A 2017-09-27 2017-09-27 文書推薦システム、文書推薦方法および文書推薦プログラム Pending JP2019061522A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017185995A JP2019061522A (ja) 2017-09-27 2017-09-27 文書推薦システム、文書推薦方法および文書推薦プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017185995A JP2019061522A (ja) 2017-09-27 2017-09-27 文書推薦システム、文書推薦方法および文書推薦プログラム

Publications (1)

Publication Number Publication Date
JP2019061522A true JP2019061522A (ja) 2019-04-18

Family

ID=66178534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017185995A Pending JP2019061522A (ja) 2017-09-27 2017-09-27 文書推薦システム、文書推薦方法および文書推薦プログラム

Country Status (1)

Country Link
JP (1) JP2019061522A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021022264A (ja) * 2019-07-30 2021-02-18 株式会社日立製作所 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム
JP6841394B1 (ja) * 2020-01-28 2021-03-10 株式会社日本法務システム研究所 情報処理システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021022264A (ja) * 2019-07-30 2021-02-18 株式会社日立製作所 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム
JP7118037B2 (ja) 2019-07-30 2022-08-15 株式会社日立製作所 テキストデータ解析システム、テキストデータ解析方法、および故障対応リコメンドシステム
JP6841394B1 (ja) * 2020-01-28 2021-03-10 株式会社日本法務システム研究所 情報処理システム
JP2021117844A (ja) * 2020-01-28 2021-08-10 株式会社日本法務システム研究所 情報処理システム

Similar Documents

Publication Publication Date Title
KR102310650B1 (ko) 검색 결과에서의 논리적인 질문 응답 기법
US9280535B2 (en) Natural language querying with cascaded conditional random fields
CN110019732B (zh) 一种智能问答方法以及相关装置
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
CN106708929B (zh) 视频节目的搜索方法和装置
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
WO2020123689A1 (en) Suggesting text in an electronic document
CN110737824B (zh) 内容查询方法和装置
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
CN106570196B (zh) 视频节目的搜索方法和装置
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP4699909B2 (ja) キーワード対応関係分析装置及び分析方法
JP2012113459A (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP6529698B2 (ja) データ分析装置およびデータ分析方法
KR102341563B1 (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
CN110737749A (zh) 创业计划评价方法、装置、计算机设备及存储介质
JP2020113048A (ja) 情報処理装置及びプログラム
Liu et al. MVPN: Multi-granularity visual prompt-guided fusion network for multimodal named entity recognition
WO2021049485A1 (ja) 法律分析装置、及び法律分析方法
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム