JP6621432B2 - 計算機及び解析データの分類方法 - Google Patents

計算機及び解析データの分類方法 Download PDF

Info

Publication number
JP6621432B2
JP6621432B2 JP2017044842A JP2017044842A JP6621432B2 JP 6621432 B2 JP6621432 B2 JP 6621432B2 JP 2017044842 A JP2017044842 A JP 2017044842A JP 2017044842 A JP2017044842 A JP 2017044842A JP 6621432 B2 JP6621432 B2 JP 6621432B2
Authority
JP
Japan
Prior art keywords
data
index
analysis data
analysis
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017044842A
Other languages
English (en)
Other versions
JP2018147426A (ja
Inventor
亜希子 小幡
亜希子 小幡
木口 雅史
雅史 木口
ステファニー ストコ
ステファニー ストコ
木戸 邦彦
邦彦 木戸
大輔 福井
大輔 福井
恵木 正史
正史 恵木
栗山 裕之
裕之 栗山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017044842A priority Critical patent/JP6621432B2/ja
Publication of JP2018147426A publication Critical patent/JP2018147426A/ja
Application granted granted Critical
Publication of JP6621432B2 publication Critical patent/JP6621432B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、解析データを分類する計算機及び解析データの分類方法に関する。
解析モデルに基づいて、ビッグデータとして扱われる様々なデータを解析し、活用するための分析産業が活発になってきている。その一つとして、複数のデータを自動的に組み合わせて、データ間の関連性を解析する人工知能技術の開発が行われている。
例えば、脳機能の分野において、脳機能を表す測定値、疾患と関連する事項、及び疾患の発生との間の関連性を仮説(実験デザイン)として設定し、患者のデータ等を分析し、仮説を検証するために、前述の人工知能を用いることが考えられる。
特許文献1には、「データセットに関するルールセットを演算する工程、ルールカバーを生成する工程、ルールカバーの複数のルールペア間の複数の距離を演算し、および、複数のルールペア間で演算された複数の距離に基づいて距離マトリックスを生成する工程、複数のルールペア間で演算された複数の距離を記憶する工程、距離マトリックスを使用してルールカバー内の重複するルールをクラスタリングする工程、各クラスタから代表的ルールを選択する工程、各クラスタから選択されるルールカバーの代表的ルールのそれぞれに対して少なくとも1つの例外を決定し、およびルールセットの代表的なルールおよび代表的ルールのそれぞれに対して決定される少なくとも1つの例外を使用してデータセットを解釈する工程を含む」ことが記載されている。
特開2016−115359号公報
実験デザインの検証及び新たな知見を取得するために解析されたデータの中から有用なデータ又は新たな知見に関するデータを特定するためには、知識、経験、及び時間を要する。そのため、目的に沿って有用なデータ又は新たな知見に関するデータを容易に特定できる技術が必要となる。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、演算装置及び記憶装置を備える計算機であって、前記演算装置は、解析処理によって出力された複数の解析データの入力を受け付け、前記解析データの利用価値を示す第1指標を算出し、前記解析データ及び比較用データの比較結果に基づいて、前記解析データの新規性を示す第2指標を算出し、前記第1指標及び前記第2指標に基づいて、前記解析データを分類し、前記解析データの分類の結果を示すデータを出力することを特徴とする。
本発明によれば、第1指標及び第2指標に基づいて分類することによって有用な解析データ又は新たな知見に関連する解析データを特定できる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
実施例1の解析データを分類する計算機の構成を示す図である。 実施例1の既存知識管理情報のデータ構造の一例を示す図である。 実施例1のデザイン管理情報のデータ構造の一例を示す図である。 実施例1の計算機が実行する処理を説明するフローチャートである。 実施例1の実験デザインを設定するためのGUIの一例を示す図である。 実施例1の実験デザインを修正するためのGUIの一例を示す図である。 実施例1の有効性判定部が出力する処理結果を表示するGUIの一例を示す図である。 実施例1の既存知識比較部が出力する処理結果を表示するGUIの一例を示す図である。 実施例1の分類処理の結果を表示するGUIの一例を示す図である。 実施例1の分類結果の解釈を説明する図である。 実施例2の実験デザイン修正部が実行する処理を説明するフローチャートである。 実施例2の比較処理の結果を表示するGUIの一例を示す図である。
以下、本発明に係る実施例を添付図面を用いて説明する。各図において共通の構成については同一の参照符号が付されている。
図1は、実施例1の解析データを分類する計算機101の構成を示す図である。
計算機101は、入力されたデータを解析し、また、解析されたデータを分類する。計算機101は、ネットワークを介してストレージ装置102と接続する。なお、ネットワークの種別は、LAN(Local Area Network)又はSAN(Storage Area Network)等が考えられる。また、ネットワークの接続方式は、有線又は無線のいずれでもよい。
計算機101は、プロセッサ111、メモリ112、入出力インタフェース113、及びネットワークインタフェース114を有する。各ハードウェアはバス等を介して接続される。
プロセッサ111は、演算装置であり、メモリ112に格納されるプログラムを実行する。プロセッサ111がプログラムにしたがって処理を実行することによって、所定の機能を有する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ111が、当該機能部を実現するプログラムを実行していることを表す。
メモリ112は、プロセッサ111が実行するプログラム及び当該プログラムに必要な情報を格納する。また、メモリ112は、プログラムが一時的に使用するワークエリアを含む。メモリ112に格納されるプログラムについては後述する。
入出力インタフェース113は、外部装置と接続するインタフェースである。本実施例では、入出力インタフェース113は、入力装置103及び出力装置104と接続する。入力装置103は、キーボード、マウス、及びタッチパネル等を含む。また、出力装置104は、タッチパネル及びディスプレイ等を含む。
ネットワークインタフェース114は、ネットワークを介して他の装置と接続するインタフェースである。本実施例では、ネットワークインタフェース114は、ストレージ装置102と接続する。
ストレージ装置102は、計算機101が扱うデータを格納する。ストレージ装置102は、例えば、複数の記憶媒体を備えるストレージシステムが考えられる。記憶媒体は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、及び不揮発性メモリ等が考えられる。
メモリ112に格納されるプログラムは、ストレージ装置102に格納されてもよい。この場合、プロセッサ111は、ストレージ装置102からプログラムを読み出し、メモリ112にプログラムをロードし、また、メモリ112にロードされたプログラムを実行する。
本実施例では、ストレージ装置102は、解析データ151、既存知識管理情報152、及びデザイン管理情報153を格納する。なお、ストレージ装置102は、解析処理の対象となるデータを格納してもよい。
既存知識管理情報152は、既存知識として管理されるデータを格納する。例えば、研究論文等の文献が既存知識として管理される。既存知識管理情報152のデータ構造の一例は、図2を用いて説明する。
デザイン管理情報153は、仮説の検証方法、より具体的には、データの解析方法を定義する実験デザインを格納する。デザイン管理情報153のデータ構造の一例は、図3を用いて説明する。
解析データ151は、入力されたデータを用いた解析処理によって出力されるデータである。解析処理では、例えば、データに含まれるパラメータ間の相関、又は、データ間の関係性等が解析される。
なお、本発明は解析処理の具体的な内容に限定されない。解析処理には、分散分析、共分散分析、T検定、相関解析、偏相関解析、主成分分析、因子分析、回帰分析、重回帰分析、階層分析、ノンパラメトリック分析、グレイモデル、最近接法、判別分析、生存時間分析、多変量解析、データマイニング、テキストマイニング、ポジショニング分析、クロス集計、CSポートフォリオ分析、コレスポンデンス分析、コンジョイント分析、多次元尺度構成分析、及びマハラノビス距離等がある。
ここで、メモリ112に格納されるプログラムについて説明する。メモリ112は、実験デザイン設定部121、実験デザイン修正部122、解析処理部123、有効性判定部124、既存知識比較部125、及び分類部126を実現するプログラムを格納する。
実験デザイン設定部121は、ユーザからの操作に基づいて実験デザインの設定を行う。実験デザイン修正部122は、分類結果に基づいて実験デザインの修正を行う。なお、分類結果に基づく実験デザインの修正方法については実施例2で説明する。
解析処理部123は、実験デザインに基づいてデータを解析する。解析処理部123は、解析の結果を解析データ151として出力する。
有効性判定部124は、解析データ151が実験デザインに対して有用なデータであるか否かを示す指標、すなわち、解析データ151の利用価値を示す指標を算出する。以下の説明では、有効性判定部124が算出する指標を第1指標と記載する。例えば、有意確率(p値)が小さい場合、解析データ151が有用であることを示す値が第1指標として算出される。
既存知識比較部125は、解析データ151及び既存知識の比較結果に基づいて、解析データ151の新規性を示す指標を算出する。以下の説明では、既存知識比較部125が算出する指標を第2指標と記載する。例えば、解析データ151が著名な文献から得られる結果と一致又は類似する場合、新規性が低いことを示す値が第2指標として算出される。
分類部126は、第1指標及び第2指標に基づいて、解析データ151を分類する。本実施例では、分類部126は、第1指標及び第2指標を軸とする二次元空間に解析データ151をマッピングすることによって、解析データ151を分類する。
なお、解析データ151、既存知識管理情報152、及びデザイン管理情報153は、メモリ112に格納されてもよい。
図2は、実施例1の既存知識管理情報152のデータ構造の一例を示す図である。
既存知識管理情報152は、ID201、メタデータ202、及び格納場所203から構成されるエントリを含む。一つのエントリが一つの既存知識に対応する。
ID201は、既存知識を一意に識別するための識別情報である。
メタデータ202は、既存知識の属性に関するデータである。本実施例では、研究分野、実験等で使用されるパラメータの種別及びパラメータ値、使用されるデータの種別、並びに既存知識のランク等がメタデータとして管理される。既存知識は、例えば、インパクトファクタを用いてランク分けをできる。
なお、メタデータ202に格納する値は、ユーザが手動で設定してもよいし、文字列検索等を用いて自動的に設定してもよい。
格納場所203は、既存知識の実体であるデータの格納場所を示す情報である。格納場所203には、ディレクトリ名及びアドレス等が格納される。
図3は、実施例1のデザイン管理情報153のデータ構造の一例を示す図である。
デザイン管理情報153は、第1デザイン管理情報300及び第2デザイン管理情報310を含む。
第1デザイン管理情報300は、解析処理に使用する実験デザインを管理する情報を格納する。具体的には、第1デザイン管理情報300は、ID301、項目種別302、項目303、及び重要度304から構成されるエントリを含む。一つのエントリが一つの実験デザインに対応する。なお、一つのエントリには、項目種別302、項目303、及び重要度304から構成される行が一つ以上含まれる。
ID301は、実験デザインを一意に識別するための識別情報である。
項目種別302は、実験デザインに設定する項目の種別を表す情報である。項目303は、項目種別302に対応する項目の具体的な値である。
重要度304は、評価する項目の重要度を示す値である。本実施例では、1から5までの値が重要度304に設定される。1は、最も重要性が低い項目であることを示し、5は、最も重要性が高い項目であることを示す。
第2デザイン管理情報310は、既存知識から生成された実験デザインを管理する情報を格納する。例えば、既存知識に記載された解析処理を定義する情報が考えられる。具体的には、第2デザイン管理情報310は、ID311、項目種別312、項目313、及び重要度314から構成されるエントリを含む。一つのエントリが一つの既存知識に対応する。したがって、ID311は、ID201と同一のものである。なお、一つのエントリには、項目種別312、項目313、及び重要度314から構成される行が一つ以上含まれる。
項目種別312、項目313、及び重要度314は、項目種別312、項目313、及び重要度314と同一のものである。
本実施例では、第1デザイン管理情報300は、ユーザの入力に基づいて生成される。一方、第2デザイン管理情報310は予め設定されているものとする。
図4は、実施例1の計算機101が実行する処理を説明するフローチャートである。
計算機101は、実験デザインを設定する(ステップS101)。
具体的には、計算機101は、図5A及び図5Bに示すGUIに基づくユーザの操作を受け付ける。ここで、図5A及び図5Bに示すGUIを用いて、ステップS101の処理について説明する。
図5Aは、実施例1の実験デザインを設定するためのGUI500の一例を示す図である。図5Bは、実施例1の実験デザインを修正するためのGUI550の一例を示す図である。
GUI500のキーワード選択欄501、部位選択欄502、比較要因選択欄503、及び比較水準選択欄504は、実験デザインに含める項目を選択するための欄である。GUI500の追加ボタン511、512、513、514は、各選択欄の項目を実験デザインに追加するための操作ボタンである。
GUI500の実験デザイン表示欄520は、項目種別521、項目522、及び重要度523から構成されるエントリを含む。項目種別521、項目522、及び重要度523は、項目種別302、項目303、及び重要度304と同一のものである。
GUI500の登録ボタン531は、第1デザイン管理情報300に実験デザインを登録するための操作ボタンである。
ユーザがGUI500の操作を開始した場合、実験デザイン設定部121は、メモリ112に、実験デザイン表示欄520に対応するデータを一時的に生成する。ユーザがキーワード選択欄501の「抑うつ」を選択し、追加ボタン511を操作した場合、実験デザイン設定部121は、実験デザイン表示欄520にエントリを一つ追加し、追加されたエントリの項目種別521に「キーワード」、項目522に「抑うつ」を設定する。この時点では、重要度523は、設定されていない。
ユーザは、GUI500の実験デザイン表示欄520を参照し、適宜、重要度523に値を設定する。実験デザイン設定部121は、当該入力を受け付けた場合、対応するエントリの重要度523に値を設定する。
ユーザが、登録ボタン531を操作した場合、実験デザイン設定部121は、第1デザイン管理情報300にエントリを追加し、追加されたエントリのID301に識別情報を設定する。実験デザイン設定部121は、実験デザイン表示欄520に含まれるエントリの数だけ、第1デザイン管理情報300に追加されたエントリに行を生成する。実験デザイン設定部121は、追加された各行の項目種別302、項目303、及び重要度304に、実験デザイン表示欄520の各エントリの項目種別521、項目522、及び重要度523の値を設定する。
GUI550のID選択欄551は、修正する実験デザインの識別情報を選択する欄である。
GUI550の実験デザイン表示欄560は、項目種別561、項目562、及び重要度563から構成されるエントリを含む。項目種別561、項目562、及び重要度563は、項目種別302、項目303、及び重要度304と同一のものである。
実験デザインに設定される項目種別、項目、及び重要度を修正する場合、ユーザは、実験デザイン表示欄560を操作する。実験デザイン設定部121は、ユーザの操作を受け付けた場合、第1デザイン管理情報300を参照して、ID選択欄551に対応する実験デザインのエントリを検索し、検索されたエントリに修正内容を反映する。
GUI550のキーワード選択欄571、部位選択欄572、比較要因選択欄573、及び比較水準選択欄574は、項目を選択するための欄である。GUI550の追加ボタン581、582、583、584は、各選択欄の値を実験デザインに追加するための操作ボタンである。
ユーザが追加ボタンを操作した場合、実験デザイン設定部121は、第1デザイン管理情報300を参照して、ID選択欄551に対応する実験デザインのエントリを検索する。実験デザイン設定部121は、検索エントリに行を追加し、追加された行の項目種別302及び項目303に値を設定する。
なお、図5A及び図5Bでは、項目を選択することによって実験デザインを設定しているが、これに限定されない。例えば、実験デザインを表現する口語文を入力してもよい。この場合、実験デザイン設定部121は、口語文から項目を抽出し、抽出された項目を第1デザイン管理情報300に設定する。以上がステップS101の処理の説明である。
次に、計算機101は、使用する実験デザインの識別情報及び入力データを含む解析要求を受け付けた場合、計算機101は、解析処理を実行する(ステップS102)。
具体的には、解析処理部123が、第1デザイン管理情報300から解析要求に含まれる識別情報に対応する実験デザインの情報を取得し、当該実験デザインにしたがって、入力データを解析する。解析処理部123は、解析結果を解析データ151としてストレージ装置102に格納する。
脳機能に関する解析を行う場合、入力データは、データの識別情報、被験者の特性情報、脳波の種別、脳波の値、計測方法、及び計測日時等から構成されるデータが考えられる。
なお、実験デザインを設定する必要がない場合にはステップS101の処理を省略してもよいし、また、解析処理を実行する必要がない場合にはステップS102の処理を省略してもよい。
計算機101は、解析処理が完了した場合、ユーザに解析処理が完了した旨を通知し、待ち状態に移行する。ユーザから解析データ151の分類指示を受け付けた場合、計算機101は、ステップS103からステップS106までの処理を実行する。
計算機101は、分類指示を受け付けた場合、ストレージ装置102から解析データ151を取得し、解析データ151を用いて有効性判定処理を実行する(ステップS103)。なお、分類指示には、対象とする既存知識を特定する情報として、分野に関する値が含まれるものとする。
具体的には、有効性判定部124は、解析処理に使用した実験デザインの項目(キーワード又は部位)を含む解析データ151を特定し、特定された解析データ151の第1指標を算出する。例えば、(1)又は(2)のような算出方法が考えられる。
(1)有効性判定部124は、複数の解析データ151を統計処理し、解析データ151の有意確率を第1指標として算出する。すなわち、統計的な有意性を示す値が第1指標として算出される。このとき、実験デザインに含まれる項目の有無、及び項目の重要度を重みとして用いてもよい。
(2)有効性判定部124は、第1指標を算出するための数式に基づいて第1指標を算出する。当該数式は、一つ以上のパラメータを変数とする式である。例えば、有効性判定部124は、有意確率、項目の有無、及び項目の重要度をパラメータとして入力する。
なお、脳機能に関する解析データ151の場合、脳血液量、脳血流量、活動平均値、及び潜時のそれぞれの、立ち上がり時間、ピーク値、半値全幅、積分値、符号反転値、T値、Z値、平均値、分散値、及び標準偏差等をパラメータとして算出することが考えられる。
有効性判定部124は、処理結果を図6に示すようなGUI600として表示する。ここでは、(2)の算出方法を採用しているものとする。図6は、実施例1の有効性判定部124が出力する処理結果を表示するGUI600の一例を示す図である。
GUI600は、処理結果表示欄610及び確認ボタン621を含む。
処理結果表示欄610は、有効性判定部124が出力する処理結果を表示する欄である。処理結果表示欄610には、複数のエントリを含むテーブル形式のデータが表示される。エントリは、データID611、パラメータ種別612、値613、及びスコア614から構成される。一つのエントリは一つの解析データ151に対応する。なお、エントリは、関連する既存知識を示すフィールドを含んでもよい。
データID611は、解析データ151を一意に識別するための識別情報である。パラメータ種別612は、数式に設定するパラメータの種別である。値613は、パラメータ種別612に対応するパラメータの具体的な値である。スコア614は、数式に基づいて算出された第1指標の具体的な値である。
確認ボタン621は、GUI600の参照を終了するための操作ボタンである。
以上がステップS103の処理の説明である。図4の説明に戻る。
次に、計算機101は、解析データ151及び既存知識管理情報152を用いて既存知識比較処理を実行する(ステップS104)。
具体的には、既存知識比較部125は、メタデータ202を参照し、複数の既存知識の中から使用する既存知識を特定する。さらに、既存知識比較部125は、特定された既存知識及び解析データ151の比較結果に基づいて第2指標を算出する。例えば、以下のような方法で第2指標を算出する。
既存知識比較部125は、解析データ151及び既存知識のメタデータ202を比較することによって、解析データ151と既存知識との間の関連性又は類似性を示す値を算出する。既存知識比較部125は、当該値が閾値以上の既存知識を特定し、特定された既存知識の数及びランクを用いて第2指標を算出する。例えば、特定された全ての既存知識の中で、ランクが最も高い既存知識が含まれる割合を第2指標として算出する。
また、既存知識比較部125は、第2デザイン管理情報310を参照して、解析データ151と既存知識とを比較して、共通する項目の有無を判定し、判定結果に基づいて、第2指標を修正してもよい。共通する項目の数が多い場合、既存知識に対する合致率が高いこと、すなわち、新規性が低い解析データ151であることを表す。
既存知識比較部125は、処理結果を図7に示すようなGUI700として表示する。図7は、実施例1の既存知識比較部125が出力する処理結果を表示するGUI700の一例を示す図である。
GUI700は、処理結果表示欄710及び確認ボタン721を含む。処理結果表示欄710は、既存知識比較部125が出力する処理結果を表示する欄である。処理結果表示欄710には、複数のエントリを含むテーブル形式のデータが表示される。エントリは、データID711、関連既存知識712、及びスコア713から構成される。一つのエントリは一つの解析データ151に対応する。
データID711は、データID611と同一のものである。関連既存知識712は、関連性がある既存知識の数を格納する。本実施例では、既存知識のランクごとの数が格納される。スコア713は第2指標の具体的な値である。
確認ボタン721は、GUI700の参照を終了するための操作ボタンである。
以上がステップS104の処理の説明である。図4の説明に戻る。
次に、計算機101は、第1指標及び第2指標を用いて解析データ151の分類処理を実行する(ステップS105)。
具体的には、分類部126は、第1指標及び第2指標を軸とする二次元空間に各解析データ151をマッピングする。
次に、計算機101は、分類処理の結果を出力する(ステップS106)。その後、計算機101は、処理を終了する。
具体的には、分類部126は、分類処理の結果を含む表示データを生成し、生成された表示データを出力装置104に出力する。出力装置104には、図8に示すような結果が表示される。
図8は、実施例1の分類処理の結果を表示するGUI800の一例を示す図である。図9は、実施例1の分類結果の解釈を説明する図である。
GUI800は、分類結果表示欄810及び確認ボタン821を含む。
分類結果表示欄810は、解析データ151の分類結果を表示する欄である。図8では、横軸が第1指標、縦軸が第2指標となっている。二次元空間にマッピングされた解析データ151には、ユーザの理解のために解析データ151の識別情報が合わせて表示される。
確認ボタン821は、GUI800の参照を終了するための操作ボタンである。
ここで、二次元空間の解釈について説明する。図9に示すように、二次元空間900を四つの領域に区分する。第1領域は、第1指標が0から50の範囲、かつ、第2指標が50から100の範囲の領域である。第2領域は、第1指標が50から100の範囲、かつ、第2指標が50から100の範囲の領域である。第3領域は、第1指標が50から100の範囲、かつ、第2指標が0から50の範囲の領域である。第4領域は、第1指標が0から50の範囲、かつ、第2指標が0から50の範囲の領域である。なお、領域を定義する各指標の範囲は変更することができる。
第1領域に含まれる解析データ151は、新規性が高く、かつ、利用価値が低い。このようなデータは、新たな知見を与える可能性が低く、また、既存知識に合致しないため信頼性が低い。異なる分野の既存知識と比較すれば、新たな知見を与える可能性がある。
第2領域に含まれる解析データ151は、新規性が高く、かつ、利用価値が高い。このようなデータは、新たな知見を与える可能性がある。
第3領域に含まれる解析データ151は、新規性が低く、かつ、利用価値が高い。このようなデータは、新たな知見を与える可能性は低いが、既存知識に合致するため信頼性が高い。
第4領域に含まれる解析データ151は、新規性が低く、かつ、利用価値が低い。このようなデータは、実験デザインを修正することにより、利用価値が高くなる可能性がある。異なる分野の既存知識と比較すれば、新たな知見を与える可能性がある。
なお、第1指標及び第2指標の他に、新たな指標を追加してもよい。例えば、計測機器の種類、被験者の数、文献の掲載年、著者名等を新たな指標として用いることが考えられる。これによって、解析データ151をさらに細かく分類することができる。
なお、各解析データ151について、ランク及び共通する用語の数を軸とする二次元空間のマッピングを表示してもよい。当該マッピングは、図8のような表示となる。なお、各点には文献の識別情報が付される。点を操作した場合には、文献の詳細な情報を表示してもよい。
実施例1によれば、第1指標及び第2指標に基づいて解析データ151を分類することによって、ユーザの目的に沿う有用な解析データ151を容易に特定できる。また、新たな知見を得るための解析データ151を容易に特定することができる。
実施例2では、計算機101が分類結果に基づいて実験デザインの修正を支援する。以下、実施例1との差異を中心に実施例2について説明する。
実施例2の計算機101の構成は、実施例1の計算機101の構成と同一である。また、実施例2の計算機101が保持する情報の構成は、実施例1の計算機101が保持する情報の構成と同一であるため説明を省略する。
図10は、実施例2の実験デザイン修正部122が実行する処理を説明するフローチャートである。
実験デザイン修正部122は、ユーザから実験デザインの修正要求を受け付けた場合、以下で説明する処理を開始する。なお、図4に示す処理は既に完了している。
実験デザイン修正部122は、比較対象の既存知識を選択する(ステップS201)。
具体的には、実験デザイン修正部122は、既存知識比較処理を実行し、関連性が最も高い既存知識を特定する。なお、関連性がある既存知識が存在しない場合には、実験デザイン修正部122は、デフォルトの既存知識を選択してもよいし、エラーを通知してもよいし、また、使用する既存知識の入力を要求してもよい。
なお、既存知識比較部125が実行した結果を利用できる場合、実験デザイン修正部122は、当該結果に基づいて既存知識を選択すればよい。
次に、実験デザイン修正部122は、使用した実験デザインと、既存知識の実験デザインとを比較する(ステップS202)。具体的には、以下のような処理が実行される。
実験デザイン修正部122は、第1デザイン管理情報300から使用した実験デザインのデータを取得し、第2デザイン管理情報310から既存知識の実験デザインのデータを取得する。
実験デザイン修正部122は、二つの実験デザインを比較することによって、相違する項目又は解析結果を特定する。このとき、実験デザイン修正部122は、同じ種別の項目又は値ごとに、相違する項目又は解析結果を特定する。
実験デザイン修正部122は、特定された項目又は解析結果の差分を示す差分値を算出する。例えば、実験デザイン修正部122は、既存知識の実験デザインにのみ含まれるキーワードの数を、使用した実験デザインに含まれるキーワードの数で除算した値を差分値として算出する。また、実験デザイン修正部122は、相違するキーワードの数を、使用した実験デザインに含まれるキーワードの数で乗算した値を差分値として算出する。また、実験デザイン修正部122は、相違するキーワードの類似度を差分値として算出する。
なお、計算機101は、キーワードの類似度を算出するための辞書情報を保持してもよい。
次に、実験デザイン修正部122は、比較結果を出力する(ステップS203)。その後、実験デザイン修正部122は、処理を終了する。
具体的には、実験デザイン修正部122は、比較結果を含む表示データを生成し、生成された表示データを出力装置104に出力する。出力装置104には、図11に示すような結果が表示される。
図11は、実施例2の比較処理の結果を表示するGUI1100の一例を示す図である。
GUI1100は、比較結果表示欄1110及び確認ボタン1121を含む。
比較結果表示欄1110は、比較結果を表示する欄である。比較結果表示欄1110には、複数のエントリを含むテーブル形式のデータが表示される。エントリは、比較項目1111、既存知識1112、実験デザイン1113、及び差分値1114から構成される。
比較項目1111は、比較した項目又はデータの識別情報である。既存知識1112は、既存知識の実験デザインに含まれる項目及び解析結果である。実験デザイン1113は、使用した実験デザインに含まれる項目及び解析結果である。差分値1114は、算出された差分値である。
確認ボタン1121は、GUI1100の参照を終了するための操作ボタンである。
実施例2によれば、ユーザは、GUI1100を参照することによって、実験デザインの修正点等を検討することができる。
実施例3では、計算機101が分類結果に基づいて解析データを異なる分野の既存知識と再度比較を行う。以下、実施例1との差異を中心に実施例3について説明する。
実施例3の計算機101の構成は、実施例1の計算機101の構成と同一である。また、実施例3の計算機101が保持する情報の構成は、実施例1の計算機101が保持する情報の構成と同一であるため説明を省略する。
実施例3では、ユーザが、分類結果表示欄810を参照し、対象の解析データ151を選択し、既存知識比較処理の実行を指示する。実施例1で説明したように、第1領域や第4領域に含まれる解析データ151は新たな知見を与える可能性がある。そのため、ユーザは、第1領域及び第4領域に含まれる解析データ151を選択する。なお、計算機101が自動的に対象のデータを選択してもよい。
計算機101は、対象の領域に含まれる解析データ151について既存知識比較処理を実行する。このとき、計算機101は、メタデータ202を参照し、分野が異なる既存知識を選択する。その他の処理は実施例1と同一である。
計算機101は、第1指標及び新たに算出された第2指標に基づいて、解析データ151を分類する。
実施例3によれば、ユーザは、異なる分野の既存知識を活用して、再度、解析データ151を分類することによって新たな知見を得ることができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるCPUが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるCPUが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
101 計算機
102 ストレージ装置
103 入力装置
104 出力装置
111 プロセッサ
112 メモリ
113 入出力インタフェース
114 ネットワークインタフェース
121 実験デザイン設定部
122 実験デザイン修正部
123 解析処理部
124 有効性判定部
125 既存知識比較部
126 分類部
151 解析データ
152 既存知識管理情報
153 デザイン管理情報

Claims (8)

  1. 演算装置及び記憶装置を備える計算機であって、
    前記演算装置は、
    解析処理によって出力された複数の解析データの入力を受け付け、
    前記解析データの利用価値を示す第1指標を算出し、
    前記解析データ及び比較用データの比較結果に基づいて、前記解析データの新規性を示す第2指標を算出し、
    前記第1指標及び前記第2指標に基づいて、前記解析データを分類し、
    前記解析データの分類の結果を示すデータを出力することを特徴とする計算機。
  2. 請求項1に記載の計算機であって、
    既存知識として管理される文献を前記比較用データとして管理し、
    前記演算装置は、
    前記複数の解析データを統計処理することによって算出された前記複数の解析データの統計的な有意性を示す値を用いて前記第1指標を算出し、
    前記比較用データの中から、前記解析処理に関連するターゲット比較用データを選択し、
    前記解析データ及び前記ターゲット比較用データの合致率に基づいて前記第2指標を算出し、
    前記第1指標及び前記第2指標を軸とする空間上に、前記解析データをマッピングすることによって前記解析データを分類することを特徴とする計算機。
  3. 請求項2に記載の計算機であって、
    前記演算装置は、
    前記分類の結果に基づいて、利用価値があり、かつ、新規性がないターゲット解析データを特定し、
    前記ターゲット解析データと、前記ターゲット比較用データとは異なる比較用データとの合致率に基づいて新たな第2指標を算出し、
    前記第1指標及び前記新たな第2指標に基づいて、前記ターゲット解析データを分類することを特徴とする計算機。
  4. 請求項2に記載の計算機であって、
    前記解析処理を定義する実験デザインと、前記ターゲット比較用データに関連する解析処理を定義する実験デザインとを比較することによって、相違する項目を取得し、
    前記項目の違いの大きさを示す差分値を算出し、
    前記項目及び差分値を表示するデータを出力することを特徴とする計算機。
  5. 演算装置及び記憶装置を有する計算機が実行する解析データの分類方法であって、
    前記演算装置が、解析処理によって出力された複数の解析データの入力を受け付ける第1のステップと、
    前記演算装置が、前記解析データの利用価値を示す第1指標を算出する第2のステップと、
    前記演算装置が、前記解析データ及び比較用データの比較結果に基づいて、前記解析データの新規性を示す第2指標を算出する第3のステップと、
    前記演算装置が、前記第1指標及び前記第2指標に基づいて、前記解析データを分類する第4のステップと、
    前記演算装置が、前記解析データの分類の結果を示すデータを出力する第5のステップと、を含むことを特徴とする解析データの分類方法。
  6. 請求項5に記載の解析データの分類方法であって、
    既存知識として管理される文献を前記比較用データとして管理し、
    前記第2のステップでは、前記演算装置が、前記複数の解析データを統計処理することによって算出された前記複数の解析データの統計的な有意性を示す値を用いて前記第1指標を算出し、
    前記第3のステップは、
    前記演算装置が、前記比較用データの中から、前記解析処理に関連するターゲット比較用データを選択するステップと、
    前記演算装置が、前記解析データ及び前記ターゲット比較用データの合致率に基づいて前記第2指標を算出するステップと、を含み、
    前記第4のステップは、前記演算装置が、前記第1指標及び前記第2指標を軸とする空間上に、前記解析データをマッピングするステップを含むことを特徴とする解析データの分類方法。
  7. 請求項6に記載の解析データの分類方法であって、
    前記演算装置が、前記分類の結果に基づいて、利用価値があり、かつ、新規性がないターゲット解析データを特定するステップと、
    前記演算装置が、前記ターゲット解析データと、前記ターゲット比較用データとは異なる比較用データとの合致率に基づいて新たな第2指標を算出するステップと、
    前記演算装置が、前記第1指標及び前記新たな第2指標に基づいて、前記ターゲット解析データを分類するステップと、を含むことを特徴とする解析データの分類方法。
  8. 請求項6に記載の解析データの分類方法であって、
    前記演算装置が、前記解析処理を定義する実験デザインと、前記ターゲット比較用データに関連する解析処理を定義する実験デザインとを比較することによって、相違する項目を取得するステップと、
    前記演算装置が、前記項目の違いの大きさを示す差分値を算出するステップと、
    前記演算装置が、前記項目及び差分値を表示するデータを出力するステップと、を含むことを特徴とする解析データの分類方法。
JP2017044842A 2017-03-09 2017-03-09 計算機及び解析データの分類方法 Active JP6621432B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017044842A JP6621432B2 (ja) 2017-03-09 2017-03-09 計算機及び解析データの分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017044842A JP6621432B2 (ja) 2017-03-09 2017-03-09 計算機及び解析データの分類方法

Publications (2)

Publication Number Publication Date
JP2018147426A JP2018147426A (ja) 2018-09-20
JP6621432B2 true JP6621432B2 (ja) 2019-12-18

Family

ID=63592234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017044842A Active JP6621432B2 (ja) 2017-03-09 2017-03-09 計算機及び解析データの分類方法

Country Status (1)

Country Link
JP (1) JP6621432B2 (ja)

Also Published As

Publication number Publication date
JP2018147426A (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
US10698868B2 (en) Identification of domain information for use in machine learning models
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US11232267B2 (en) Proximity information retrieval boost method for medical knowledge question answering systems
WO2021114825A1 (zh) 机构标准化方法、装置、电子设备及存储介质
KR20180127840A (ko) 논문 평가 방법 및 전문가 추천 방법
CN110019474B (zh) 异构数据库中的同义数据自动关联方法、装置及电子设备
Hu et al. Integrating various resources for gene name normalization
US7580570B2 (en) Accuracy model for recognition signal processing engines
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
JP6621432B2 (ja) 計算機及び解析データの分類方法
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP6210865B2 (ja) データ検索システムおよびデータ検索方法
WO2022130579A1 (ja) 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
JP5533272B2 (ja) データ出力装置、データ出力方法およびデータ出力プログラム
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
JP7292235B2 (ja) 分析支援装置及び分析支援方法
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
CN112712866A (zh) 一种确定文本信息相似度的方法及装置
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP2018060379A (ja) 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置
WO2014188555A1 (ja) テキスト処理装置、及び、テキスト処理方法
Karlsson Order in the random forest
JP6621385B2 (ja) テキスト分析システム及びテキスト分析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191119

R150 Certificate of patent or registration of utility model

Ref document number: 6621432

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150