JP2017062618A - プログラム、情報処理装置及び情報処理方法 - Google Patents

プログラム、情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2017062618A
JP2017062618A JP2015187293A JP2015187293A JP2017062618A JP 2017062618 A JP2017062618 A JP 2017062618A JP 2015187293 A JP2015187293 A JP 2015187293A JP 2015187293 A JP2015187293 A JP 2015187293A JP 2017062618 A JP2017062618 A JP 2017062618A
Authority
JP
Japan
Prior art keywords
dependency
dependency structure
document file
text information
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015187293A
Other languages
English (en)
Other versions
JP6631122B2 (ja
Inventor
江朗 勝田
Tadaaki Katsuta
江朗 勝田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015187293A priority Critical patent/JP6631122B2/ja
Publication of JP2017062618A publication Critical patent/JP2017062618A/ja
Application granted granted Critical
Publication of JP6631122B2 publication Critical patent/JP6631122B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】容易に検索を実行することが可能となるプログラム等を提供する。【解決手段】コンピュータに、文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定し、特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する処理を実行させる。コンピュータに、所定の係受け構造の指定を受け付け、記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する処理を実行させる。【選択図】図2

Description

本発明は、プログラム、情報処理装置及び情報処理方法に関する。
従来、複数種類の医療データがそれぞれ蓄積された複数のデータベースを備える医療情報システムに対する検索技術が知られている(例えば特許文献1〜3参照)。
特開2011−123794号公報 特開2014−241173号公報 特開2011−147593号公報
しかしながら、従来の技術ではデータベースの構築負担が大きいという問題がある。
一つの側面では、容易に検索を実行することが可能となるプログラム等を提供することを目的とする。
一つの案では、コンピュータに、文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定し、特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する処理を実行させる。
一つの側面では、容易に検索を実行することが可能となる。
情報処理システムの概要を示す説明図である。 処理概要を示す説明図である。 コンピュータのハードウェア群を示すブロック図である。 サーバコンピュータのハードウェア群を示すブロック図である。 カルテDBのレコードレイアウトを示す説明図である。 評価DBのレコードレイアウトを示す説明図である。 RDFグラフを示す説明図である。 対応DBのレコードレイアウトを示す説明図である。 係受け構造を示すRDFグラフである。 対応関係の生成処理手順を示すフローチャートである。 係受け構造の入力イメージを示す説明図である。 検索イメージを示す説明図である。 カルテの抽出処理手順を示すフローチャートである。 対応DBのレコードレイアウトを示す説明図である。 対応関係の生成処理手順を示すフローチャートである。 カルテのソート手順を示すフローチャートである。 カルテのソート手順を示すフローチャートである。 検索結果のイメージを示す説明図である。 上述した形態のサーバコンピュータの動作を示す機能ブロック図である。 実施の形態4に係るサーバコンピュータのハードウェア群を示すブロック図である。
実施の形態1
以下実施の形態を、図面を参照して説明する。図1は情報処理システムの概要を示す説明図である。情報処理システムは情報処理装置1、及び、端末装置2等を含む。情報処理装置1は、サーバコンピュータ、パーソナルコンピュータ、PDA(Personal Digital Assistant)、またはスマートフォン等である。以下、情報処理装置1をサーバコンピュータ1という。端末装置2は、パーソナルコンピュータ、PDA、またはスマートフォン等である。以下では端末装置2をコンピュータ2という。サーバコンピュータ1及びコンピュータ2はインターネット、公衆電話網、LAN(Local Area Network)等の通信網Nを介して相互に接続されている。
コンピュータ2において、ユーザはテキスト情報が含まれる文書ファイルを生成する。生成された文書ファイルはサーバコンピュータ1へ送信される。複数の文書ファイルはサーバに記憶される。ユーザはコンピュータ2を用いて蓄積された文書ファイルの検索を行う。検索要求はコンピュータ2からサーバコンピュータ1へ送信される。サーバコンピュータ1は後述する処理により文書ファイルを分析し、検索結果をコンピュータ2へ送信する。以下詳細を説明する。
図2は処理概要を示す説明図である。以下では文書ファイルを医療用のカルテであるものとして説明する。なお、カルテは一例でありこれに限るものではない。例えば、カルテに代えてブログ、マニュアル、人事評価、学生の評価、クレーム対応を行うオペレータのメモ、自動車または電機製品の修理履歴メモなどであっても良い。また以下では、カルテをテキストファイルであるものとして説明するが、図面、写真または動画等のテキスト以外のデータを含んでも良い。コンピュータ2はN人分のカルテをサーバコンピュータ1へ送信する。
図3はコンピュータ2のハードウェア群を示すブロック図である。図4はサーバコンピュータ1のハードウェア群を示すブロック図である。コンピュータ2は制御部としてのCPU(Central Processing Unit)21、RAM(Random Access Memory)22、入力部23、表示部24、記憶部25及び通信部26等を含む。CPU21は、バス27を介してハードウェア各部と接続されている。CPU21は記憶部25に記憶された制御プログラム25Pに従いハードウェア各部を制御する。RAM22は例えばSRAM(Static RAM)、DRAM(Dynamic RAM)、フラッシュメモリ等である。RAM22は、記憶部としても機能し、CPU21による各種プログラムの実行時に発生する種々のデータを一時的に記憶する。
入力部23はマウスまたはキーボード、マウスまたはタッチパネル等の入力デバイスであり、受け付けた操作情報をCPU21へ出力する。表示部24は液晶ディスプレイまたは有機EL(electroluminescence)ディスプレイ等であり、CPU21の指示に従い各種情報を表示する。通信部26は通信モジュールであり、サーバコンピュータ1等と情報の送受信を行う。
サーバコンピュータ1は制御部としてのCPU11、RAM12、入力部13、表示部14、記憶部15及び通信部16等を含む。CPU11は、バス17を介してハードウェア各部と接続されている。CPU11は記憶部15に記憶された制御プログラム15Pに従いハードウェア各部を制御する。RAM12は例えばSRAM、DRAM、フラッシュメモリ等である。RAM12は、記憶部としても機能し、CPU11による各種プログラムの実行時に発生する種々のデータを一時的に記憶する。
入力部13はマウスまたはキーボード、マウスまたはタッチパネル等の入力デバイスであり、受け付けた操作情報をCPU11へ出力する。表示部14は液晶ディスプレイまたは有機ELディスプレイ等であり、CPU11の指示に従い各種情報を表示する。通信部16は通信モジュールであり、コンピュータ2等と情報の送受信を行う。
記憶部15はハードディスクまたは大容量メモリであり、制御プログラム15P、カルテデータベース(以下、DBという)151、評価DB152、及び、対応DB153等を含む。実施形態ではカルテDB151等を記憶部15に記憶する例を挙げたが、これに限るものではない。RAM12に記憶するほか、図示しない他のDBサーバ内に記憶するようにしても良い。
図2に戻り処理概要を説明する。サーバコンピュータ1のCPU11は、カルテ内のテキストに対し形態素解析を行い、複数の単語を抽出する。例えば、腫瘍部、胃内視鏡検査、生検等の単語が抽出される。形態素解析には、医療用の辞書であるComejisyo及び形態素解析エンジンであるMecab等を用いればよい。続いてCPU11は、形態素解析結果に基づき、単語間の係受け構造の抽出を行う。図2の例では、係受け構造として、係受け元の単語A、係受け先の単語B、及び、係受けの方向(AからBへの方向)が示されている。例えばAは胃内視鏡検査であり、Bは生検である。係受け構造の抽出は、係受け解析エンジンであるcabocha等を用いればよい。
続いてCPU11は、抽出した複数の係受け構造に対し、統計的評価を行う。具体的には同一種の係受け構造の数をそれぞれ計数し、所定の頻度条件を満たす係受け構造を特定する。頻度条件は計数値が所定の閾値を超えること、または、所定の割合を超えることを条件とすればよい。本実施形態では一例として係受け構造の計数した値が閾値を超える係受け構造を特定するものとして説明する。
CPU11は、特定した係受け構造に対し、係受け構造を示す識別情報(以下、対応IDという)を付与する。具体的には、係受け構造に対し、Apache Jena等を用いて、RDF(Resource Description Framework)により記述する。図2の例では単語Aから単語Bへの方向を示す係受け構造の対応IDは、P:001である。また単語Bから単語Hへの方向を示す係受け構造の対応IDは、P:002である。また単語A、単語B、単語H、単語I及び単語Jの係受け構造は図2に示すように、RDFグラフで表すことができる。
CPU11は、特定した係受け構造と、対応IDとの組み合わせを、カルテIDに対応付けて記憶する。その後、CPU11は、次のカルテに対し同様の処理を行う。図5はカルテDB151のレコードレイアウトを示す説明図である。カルテDB151は、カルテIDフィールド、患者名フィールド、及びテキスト文フィールドを含む。カルテIDフィールドにはカルテIDが記憶されている。なお、カルテIDにかえて患者を特定する患者IDを記憶してもよい。患者名フィールドには、カルテの記載対象となった患者の患者名が記憶されている。テキスト文フィールドには、カルテIDに対応付けてテキスト文が記憶されている。
コンピュータ2のCPU21は、医師等が入力したテキスト文を入力部23から受け付ける。CPU21は、テキスト文を含むカルテ、カルテID及び患者名をサーバコンピュータ1へ送信する。サーバコンピュータ1のCPU11は、受信したカルテID、患者名及びテキスト文をカルテDB151に記憶する。CPU11は、上述した方法により、形態素解析及び係受け構造の分析を行う。
図6は評価DB152のレコードレイアウトを示す説明図である。評価DB152は、対応IDフィールド、第1キーワードフィールド、第1キーワードIDフィールド、第2キーワードフィールド、第2キーワードIDフィールド及び出現頻度フィールド等を含む。対応IDフィールドには、係受け構造を特定するための固有の対応IDが記憶されている。第1キーワードフィールドには、対応IDに対応付けて係受け元の第1キーワードが記憶されている。また第1キーワードIDフィールドには、第1キーワードを特定するための識別情報(以下、第1キーワードID)が、第1キーワードに対応付けて記憶されている。
第2キーワードフィールドには、対応IDに対応付けて係受け先の第2キーワードが記憶されている。また第2キーワードIDフィールドには、第2キーワードを特定するための識別情報(以下、第2キーワードID)が、第2キーワードに対応付けて記憶されている。図6の例では、対応ID「C00021」に対応付けて、第1キーワードID(K00008)、第1キーワード「腫瘍部」、第2キーワードID(K00002)、第2キーワード「生検」が記憶されている。出現頻度フィールドには、対応IDに対応付けて、同一係受け構造がテキスト文中に存在した頻度を記憶している。
CPU11は、同一構造を持つ係受け構造を計数し、計数した値を出現頻度フィールドに記憶する。CPU11は、記憶部15に記憶した閾値を読み出す。CPU11は、閾値以上の出現頻度を有する係受け構造を、評価DB152に記憶する。図6の例では、カルテID001について、出現頻度が2以上の係受け構造のみを評価DB152に記憶している。CPU11は、同様の処理を他のカルテIDに係るカルテに対し実行し、評価DB152に記憶する。なお、閾値は入力部13からオペレータが適宜の値を設定することができる。
CPU11は、評価ID152の記憶内容をRDFにて記述し、記述した内容を記憶部15に記憶する。図7は、RDFグラフを示す説明図である。図7の例では、第1キーワード「5−FU」が第2キーワード「回復不良」、第2キーワード「回復良好」、及び、第2キーワード「投薬後」に係受けしていることが理解できる。
図8は対応DB153のレコードレイアウトを示す説明図である。対応DB153はカルテIDと対応IDとの組み合わせが存在するか否かの情報を記憶している。図8の例では、「1」が、組み合わせが存在することを示し、「0」が、組み合わせが存在しないことを示す。例えば、カルテID「001」と対応ID「P:001」とは組み合わせが存在する。一方、カルテID「001」と対応ID「P:002」とは組み合わせが存在しない。CPU11は、評価DB152を参照し、係受け構造の対応IDを抽出する。CPU11は、抽出した対応IDと、カルテIDとを対応付けて対応DB153に記憶する。
CPU11は、以上の処理を他のカルテIDに対しても同様に行う。図8の例では、カルテID「002」、「003」等についても同様の処理が行われていることが理解できる。図9は、係受け構造を示すRDFグラフである。CPU11は、全てのカルテに対する評価DB152を参照し、RDFにて記述する。これにより、係受け元を「びまん腫瘍型」、係受け先を「スキルス胃癌」とする係受け構造を検索した場合、対応IDは「P:001」となる。CPU11は、対応DB153を参照し、対応IDは「P:001」が記憶されているカルテID「001」、「003」、「004」、「005」を抽出する。またCPU11は、カルテDB151を参照し、抽出したカルテIDに対応する患者名を出力する。以上のハードウェア群において、各ソフトウェア処理を、フローチャートを用いて説明する。
図10は対応関係の生成処理手順を示すフローチャートである。CPU11は、カルテ及びカルテIDをカルテDB151から抽出する(ステップS101)。CPU11は、形態素解析により単語を抽出する(ステップS102)。CPU11は、係受け構造解析により、抽出した単語の係受け構造を特定する(ステップS103)。CPU11は、各係受け構造の出現頻度を計数する(ステップS104)。
CPU11は、記憶部15から閾値を読み出す(ステップS105)。CPU11は、閾値以上の出現頻度を有する係受け構造、対応ID及び出現頻度を、カルテIDに対応付けて評価DB152に記憶する(ステップS106)。CPU11は、評価DB152をRDFで記述し、記述した内容を記憶部15に記憶する(ステップS107)。CPU11は、対応IDとカルテIDとを対応付けて対応DB153に記憶する(ステップS108)。
CPU11は、全てのカルテに対し処理を終了したか否かを判断する(ステップS109)。CPU11は、処理を終了していないと判断した場合(ステップS109でNO)、処理をステップS1010へ移行させる。CPU11は、未処理のカルテ及びカルテIDを、カルテDB151から抽出する(ステップS1010)。CPU11は、処理をステップS102に戻す。以上の処理を繰り返すことにより、各カルテの係受け構造が特定される。CPU11は、全てのカルテに対し処理を終了したと判断した場合(ステップS109でYES)、一連の処理を終了する。これにより、テキスト構造を維持したまま容易に検索を実行することが可能となる。また、出現頻度を考慮しているため、カルテ内のノイズを排除することが可能となる。
実施の形態2
実施の形態2は、検索を実行する形態に関する。図11は係受け構造の入力イメージを示す説明図である。コンピュータ2はサーバコンピュータ1へアクセスし、図11に示す入力画面をダウンロードする。コンピュータ2のCPU21は、通信部26で受信した入力画面を、ブラウザ等により、表示部24に表示する。CPU21は、表示部24に、係受け元の単語を入力するための第1ボックス241、係受け先の単語を入力するための第2ボックス242、及び検索ボタン243等を表示する。
ユーザは入力部23から第1ボックス241に係受け元の単語を入力し、第2ボックス242に係受け先の単語を入力する。CPU21は、検索ボタン243が入力部23を介して入力された場合、第1ボックス241に入力された係受け元の単語と、第2ボックス242に入力された係受け先の単語とを、サーバコンピュータ1へ送信する。サーバコンピュータ1は、係受け元の単語及び係受け先の単語を受け付ける。
CPU11は、記憶部15に記憶したRDFで記述されたデータを、コンピュータ言語であるSPARQL等を用いて、受け付けた係受け元の単語及び係受け先の単語に対応する対応IDを抽出する。
図12は検索イメージを示す説明図である。CPU11は、対応DB153を参照し、対応IDを有するカルテIDを抽出する。例えば、係受け元の単語が「びまん腫瘍型」、係受け先の単語が「回復良好」の場合、対応IDは順に「P:001」、「P:005」、「P:003」となる。CPU11は、対応DB153を参照し、対応IDを全て有するカルテIDを抽出する。図12の例では、カルテID「001」、「004」及び「005」が抽出される。なお、本実施形態ではコンピュータ2の入力部13を用いて検索を行う例を示すが、これに限るものではない。コンピュータ2を用いることなく、サーバコンピュータ1の入力部13を通じて検索を行っても良い。
図13はカルテの抽出処理手順を示すフローチャートである。CPU21は、第1ボックス241に入力された係受け元の単語を受け付ける(ステップS131)。CPU21は、第2ボックス242に入力された係受け先の単語を受け付ける(ステップS132)。CPU21は、受け付けた係受け元の単語及び係受け先の単語を、通信部26を介してサーバコンピュータ1へ送信する(ステップS133)。サーバコンピュータ1のCPU11は、係受け元の単語及び係受け先の単語を、通信部16を介して受信する(ステップS134)。
CPU11は、RDFで記述された記憶部15に記憶されたデータを参照し、係受け元の単語及び係受け先の単語に合致する対応IDを抽出する(ステップS135)。CPU11は、対応DB153を参照し、抽出した対応IDを全て有するカルテIDを抽出する(ステップS136)。CPU11は、カルテDB151を参照し、カルテIDに対応する患者名を抽出する(ステップS137)。CPU11は、カルテID及び患者名を、コンピュータ2へ送信する(ステップS138)。
CPU21は、カルテID及び患者名を受信する(ステップS139)。CPU21は、カルテID及び患者名を、検索結果として表示部24に表示する(ステップS1310)。これにより、精度良く、関連性のあるカルテ及び患者名を抽出することが可能となる。
本実施の形態2は以上の如きであり、その他は実施の形態1と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
実施の形態3
実施の形態3は対象となった係受け構造の頻度に応じて検索結果の表示を変化させる形態に関する。図14は対応DB153のレコードレイアウトを示す説明図である。CPU11は、対応ID及びカルテIDを対応DB153に記憶する場合、評価DB152に記憶した頻度の情報をも併せて記憶する。本実施形態では5回以上の頻度を有する対応IDを高、3回または4回の頻度を有する対応IDを中、2回の頻度を有する対応IDを低としている。図14の例では、カルテID「001」について、対応ID「P:001」は高、「P:003」は中、「P:005」は高と記憶されている。
なお、頻度が反映されていれば良く、出現した回数そのものを記憶するほか、回数ではなく割合に応じた値を記憶しても良い。CPU11は、実施の形態2で述べた検索結果を抽出した後、カルテIDを頻度に応じてソートする。具体的には、ポイントが付与された高、中、低に応じて各カルテIDのポイントを算出する。本実施形態では高のポイントが3、中が2、低が1とする。カルテID001は、対応ID「P:001」は高で3、「P:003」は中で2、「P:005」は高で3、合計は8となる。カルテID004は、対応ID「P:001」は中で2、「P:003」は中で2、「P:005」は中で2、合計は6となる。
カルテID005は、対応ID「P:001」は中で2、「P:003」は中で2、「P:005」は高で3、合計は7となる。CPU11は、ポイントの大小に応じてソートする。この場合、CPU11は、カルテID「001」、「005」、「004」の順に出力する。
図15は対応関係の生成処理手順を示すフローチャートである。CPU11は、カルテ及びカルテIDをカルテDB151から抽出する(ステップS151)。CPU11は、形態素解析により単語を抽出する(ステップS152)。CPU11は、係受け構造解析により、抽出した単語の係受け構造を特定する(ステップS153)。CPU11は、各係受け構造の出現頻度を計数する(ステップS154)。
CPU11は、記憶部15から閾値を読み出す(ステップS155)。CPU11は、閾値以上の出現頻度を有する係受け構造、対応ID及び出現頻度を、カルテIDに対応付けて評価DB152に記憶する(ステップS156)。CPU11は、評価DB152をRDFで記述し、記述した内容を記憶部15に記憶する(ステップS157)。CPU11は、評価DB152を参照し、対応IDの出現頻度に応じたレベルを付与する(ステップS158)。CPU11は、対応IDのレベルとカルテIDとを対応付けて対応DB153に記憶する(ステップS159)。
CPU11は、全てのカルテに対し処理を終了したか否かを判断する(ステップS1510)。CPU11は、処理を終了していないと判断した場合(ステップS1510でNO)、処理をステップS1511へ移行させる。CPU11は、未処理のカルテ及びカルテIDを、カルテDB151から抽出する(ステップS1511)。CPU11は、処理をステップS152に戻す。以上の処理を繰り返すことにより、各カルテの係受け構造が特定される。CPU11は、全てのカルテに対し処理を終了したと判断した場合(ステップS1511でYES)、一連の処理を終了する。
図16及び図17は、カルテのソート手順を示すフローチャートである。CPU21は、第1ボックス241に入力された係受け元の単語を受け付ける(ステップS161)。CPU21は、第2ボックス242に入力された係受け先の単語を受け付ける(ステップS162)。CPU21は、受け付けた係受け元の単語及び係受け先の単語を、通信部26を介してサーバコンピュータ1へ送信する(ステップS163)。サーバコンピュータ1のCPU11は、係受け元の単語及び係受け先の単語を、通信部16を介して受信する(ステップS164)。
CPU11は、RDFで記述された記憶部15に記憶されたデータを参照し、係受け元の単語及び係受け先の単語に合致する対応IDを抽出する(ステップS165)。CPU11は、対応DB153を参照し、抽出した対応IDを全て有するカルテIDを抽出する(ステップS166)。CPU11は、抽出した各カルテIDの抽出した対応IDのレベルに応じたポイントを算出する(ステップS167)。
CPU11は、算出したポイントの大小に応じてカルテIDをソートする(ステップS168)。CPU11は、カルテDB151を参照し、カルテIDに対応する患者名を抽出する(ステップS169)。CPU11は、カルテID及び患者名をソート順に、コンピュータ2へ送信する(ステップS170)。
CPU21は、カルテID及び患者名を受信する(ステップS171)。CPU21は、カルテID及び患者名をソート順に、検索結果として表示部24に表示する(ステップS172)。図18は検索結果のイメージを示す説明図である。本実施形態ではポイントの大きい順に、上からカルテID「001」の患者、カルテID「005」の患者、カルテID「004」の患者が表示部24に表示される。これにより、より関連性の強いカルテ及び患者を抽出することが可能となる。
本実施の形態3は以上の如きであり、その他は実施の形態1及び2と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
実施の形態4
図19は上述した形態のサーバコンピュータ1の動作を示す機能ブロック図である。CPU11が制御プログラム15Pを実行することにより、サーバコンピュータ1は以下のように動作する。抽出部191は、文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出する。特定部192は、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定する。記憶処理部193は、特定した係受け構造と前記文書ファイルとを関連付けて記憶部15に記憶する。受付部194は、所定の係受け構造の指定を受け付ける。抽出部195は、文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部15を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する。
図20は実施の形態4に係るサーバコンピュータ1のハードウェア群を示すブロック図である。サーバコンピュータ1を動作させるためのプログラムは、ディスクドライブ等の読み取り部10AにCD-ROM、DVD(Digital Versatile Disc)ディスク、メモリーカード、またはUSB(Universal Serial Bus)メモリ等の可搬型記録媒体1Aを読み取らせて記憶部15に記憶しても良い。また当該プログラムを記憶したフラッシュメモリ等の半導体メモリ1Bをサーバコンピュータ1内に実装しても良い。さらに、当該プログラムは、インターネット等の通信網Nを介して接続される他のサーバコンピュータ(図示せず)からダウンロードすることも可能である。以下に、その内容を説明する。
図20に示すサーバコンピュータ1は、上述した各種ソフトウェア処理を実行するプログラムを、可搬型記録媒体1Aまたは半導体メモリ1Bから読み取り、或いは、通信網Nを介して他のサーバコンピュータ(図示せず)からダウンロードする。当該プログラムは、制御プログラム15Pとしてインストールされ、RAM12にロードして実行される。これにより、上述したサーバコンピュータ1として機能する。
本実施の形態4は以上の如きであり、その他は実施の形態1から3と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
以上の実施の形態1から4を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータに、
文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、
複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定し、
特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する
処理を実行させるプログラム。
(付記2)
係受け元の単語と、係受け先の単語と、前記係受け元の単語及び係受け先の単語を特定する識別情報とを対応付けて記憶し、
前記識別情報に対応付けて前記係受け元の単語及び係受け先の単語を抽出した頻度を記憶し、
所定の閾値を超える識別情報を特定する
処理を実行させる付記1に記載のプログラム。
(付記3)
前記記憶部には、複数の文書ファイルそれぞれについて特定した係受け構造が記憶されている
付記1または2に記載のプログラム。
(付記4)
所定の係受け構造の指定を受け付け、
前記記憶部を参照して、複数の文書ファイルから受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する
処理を実行させる付記3に記載のプログラム。
(付記5)
係受け元の単語と係受け先の単語とを受け付け、
前記記憶部を参照して、複数の文書ファイルから受け付けた係受け元の単語と係受け先の単語に対応する識別情報に合致する文書ファイルを抽出する
処理を実行させる付記4に記載のプログラム。
(付記6)
記憶部に、RDFにより記述された前記特定した係受け構造と前記文書ファイルと関連付けて記憶する
処理を実行させる付記1から5のいずれか一つに記載のプログラム。
(付記7)
文書ファイルに対応付けて該文書ファイルに含まれるテキスト情報の記載対象となった対象人物を前記記憶部に記憶し、
前記記憶部を参照し抽出した文書ファイルに対応する対象人物を出力する
付記4から6のいずれか一つに記載のプログラム。
(付記8)
特定した係受け構造、該係受け構造の頻度及び前記文書ファイルを関連付けて記憶部に記憶し、
前記所定の係受け構造に合致する文書ファイルを抽出した後、各文書ファイルの前記所定の係受け構造の頻度に基づき、各文書ファイルをソートする
付記3から7のいずれか一つに記載のプログラム。
(付記9)
コンピュータに、
所定の係受け構造の指定を受け付け、
文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する
処理を実行させるプログラム。
(付記10)
文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出する抽出部と、
複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定する特定部と、
特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する記憶処理部と
を備える情報処理装置。
(付記11)
所定の係受け構造の指定を受け付ける受付部と、
文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する抽出部と
を備える情報処理装置。
(付記12)
コンピュータに、
文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、
複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定し、
特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する
処理を実行させる情報処理方法。
(付記13)
コンピュータに、
所定の係受け構造の指定を受け付け、
文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する
処理を実行させる情報処理方法。
1 サーバコンピュータ
1A 可搬型記録媒体
1B 半導体メモリ
2 コンピュータ
10A 読み取り部
11 CPU
12 RAM
13 入力部
14 表示部
15 記憶部
15P 制御プログラム
16 通信部
21 CPU
22 RAM
23 入力部
24 表示部
25 記憶部
25P 制御プログラム
26 通信部
151 カルテDB
152 評価DB
153 対応DB
191、195 抽出部
192 特定部
193 記憶処理部
194 受付部
241 第1ボックス
242 第2ボックス
243 検索ボタン
N 通信網

Claims (8)

  1. コンピュータに、
    文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、
    複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定し、
    特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する
    処理を実行させるプログラム。
  2. 係受け元の単語と、係受け先の単語と、前記係受け元の単語及び係受け先の単語を特定する識別情報とを対応付けて記憶し、
    前記識別情報に対応付けて前記係受け元の単語及び係受け先の単語を抽出した頻度を記憶し、
    所定の閾値を超える識別情報を特定する
    処理を実行させる請求項1に記載のプログラム。
  3. 前記記憶部には、複数の文書ファイルそれぞれについて特定した係受け構造が記憶されている
    請求項1または2に記載のプログラム。
  4. コンピュータに、
    所定の係受け構造の指定を受け付け、
    文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する
    処理を実行させるプログラム。
  5. 文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出する抽出部と、
    複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定する特定部と、
    特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する記憶処理部と
    を備える情報処理装置。
  6. 所定の係受け構造の指定を受け付ける受付部と、
    文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する抽出部と
    を備える情報処理装置。
  7. コンピュータに、
    文書ファイルに含まれるテキスト情報の形態素解析を行い、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、
    複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定し、
    特定した係受け構造と前記文書ファイルとを関連付けて記憶部に記憶する
    処理を実行させる情報処理方法。
  8. コンピュータに、
    所定の係受け構造の指定を受け付け、
    文書ファイルに含まれるテキスト情報の形態素解析を実行し、前記テキスト情報に含まれる単語間の係受け構造を複数抽出し、複数抽出した前記係受け構造の内の所定の頻度条件を満たす係受け構造を特定することで得られた、前記係受け構造と前記文書ファイルとの関連付け情報を複数の文書ファイルのそれぞれについて記憶する記憶部を参照して、受け付けた前記所定の係受け構造に合致する文書ファイルを抽出する
    処理を実行させる情報処理方法。
JP2015187293A 2015-09-24 2015-09-24 プログラム、情報処理装置及び情報処理方法 Active JP6631122B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015187293A JP6631122B2 (ja) 2015-09-24 2015-09-24 プログラム、情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015187293A JP6631122B2 (ja) 2015-09-24 2015-09-24 プログラム、情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2017062618A true JP2017062618A (ja) 2017-03-30
JP6631122B2 JP6631122B2 (ja) 2020-01-15

Family

ID=58428753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015187293A Active JP6631122B2 (ja) 2015-09-24 2015-09-24 プログラム、情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP6631122B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2004240576A (ja) * 2003-02-04 2004-08-26 Ricoh Co Ltd キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JP2009128948A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd 文書データ解析装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2004240576A (ja) * 2003-02-04 2004-08-26 Ricoh Co Ltd キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JP2009128948A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd 文書データ解析装置およびプログラム

Also Published As

Publication number Publication date
JP6631122B2 (ja) 2020-01-15

Similar Documents

Publication Publication Date Title
US20210319032A1 (en) Systems and methods for contextual retrieval and contextual display of records
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
EP3839785B1 (en) Characterizing malware files for similarity searching
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CA2932401A1 (en) Systems and methods for in-memory database search
US20160070748A1 (en) Method and apparatus for improved searching of digital content
US20190377765A1 (en) Web page clustering method and device
US9317608B2 (en) Systems and methods for parsing search queries
CN103703461A (zh) 检测搜索查询的源语言
US20170185653A1 (en) Predicting Knowledge Types In A Search Query Using Word Co-Occurrence And Semi/Unstructured Free Text
JP2014112283A (ja) 情報処理装置、情報処理方法、およびプログラム
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
US20210334314A1 (en) Sibling search queries
CN112740202A (zh) 使用内容标签执行图像搜索
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
KR20130021944A (ko) 서술형 질의 응답 방법 및 장치
US10884996B1 (en) Systems and methods for optimizing automatic schema-based metadata generation
CN112487159A (zh) 检索方法、检索装置及计算机可读存储介质
JP6631122B2 (ja) プログラム、情報処理装置及び情報処理方法
CN114201607A (zh) 一种信息处理的方法和装置
JP5971794B2 (ja) 特許調査支援装置、特許調査支援方法、およびプログラム
JP5394512B2 (ja) 教師データ生成装置、方法及びプログラム
US20230015324A1 (en) Retrieval device
US20160055174A1 (en) Facilitating searching for geographic place names
WO2022009354A1 (ja) 発明評価装置、発明評価方法、および発明評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191125

R150 Certificate of patent or registration of utility model

Ref document number: 6631122

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150