JP4865526B2 - データマイニングシステム、データマイニング方法及びデータ検索システム - Google Patents

データマイニングシステム、データマイニング方法及びデータ検索システム Download PDF

Info

Publication number
JP4865526B2
JP4865526B2 JP2006339566A JP2006339566A JP4865526B2 JP 4865526 B2 JP4865526 B2 JP 4865526B2 JP 2006339566 A JP2006339566 A JP 2006339566A JP 2006339566 A JP2006339566 A JP 2006339566A JP 4865526 B2 JP4865526 B2 JP 4865526B2
Authority
JP
Japan
Prior art keywords
terms
document
information
term
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006339566A
Other languages
English (en)
Other versions
JP2008152522A (ja
JP2008152522A5 (ja
Inventor
麻子 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006339566A priority Critical patent/JP4865526B2/ja
Priority to US12/000,841 priority patent/US7853623B2/en
Publication of JP2008152522A publication Critical patent/JP2008152522A/ja
Publication of JP2008152522A5 publication Critical patent/JP2008152522A5/ja
Application granted granted Critical
Publication of JP4865526B2 publication Critical patent/JP4865526B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、画像処理技術と文書のテキスト情報を用いて、文書中の図から情報を抽出し、図の検索及び文書検索に利用するシステム及びその方法に関するものである。
図入り文書中からの情報抽出は、多くの場合テキスト部分のみが対象となっており、図からの情報抽出の場合も、表などの半構造化/構造化データに限られている。図中の文字認識に関する手法は様々であり、特開2003−178263号公報や特開平9−185674号公報がある。基本的には、必要ならば図を2値化処理して、連結成分を取り出し、連結成分の特徴から文字部分とそれ以外の記号部分を見分け、文字部分の単語認識を行う。
特開2003−178263号公報 特開平9−185674号公報
従来、図から情報抽出をする場合は、図情報のみを利用するか、もしくは単語認識過程でシソーラス/辞書を補助に利用する程度であり、図が提示されている本文中の情報を利用することはなかった。また、図を解析した情報は、図の解析結果として利用することはあっても、解析結果を文書中の用語と同様に扱えるようにして文書検索、もしくは図検索の精度向上を図ることは殆どない。
図中から文字情報/用語情報と用語間の関係(用語Aが用語Bを“活性化する”、“抑制する”、“制御する”などの関係)を取り出すには、文字列の認識、即ち画像処理自身の精度向上の工夫とともに、認識した文字列を用語として変換する際に、シソーラス・辞書を使う手法などがある。しかしながら、文字列が短い場合、十分に文字列認識精度が得られない場合、もしくは、同じスペルで複数の意味がある語彙的曖昧性が残る場合などについては、図の画像処理のみによって語彙的曖昧性を除去した用語情報、及び、用語間の関係性を抽出する方法は、従来の手法では、多くの場合十分な精度が得られない。そのため、図の内容を文書のテキスト情報と同様に扱うことができず、図の検索や、図を利用した本文の検索は十分に行えなかった。また、従来の手法では、図と本文を別々に解析していることから、タイトルなどの図全体を示す上位概念と図に記述されている用語及び用語間の関係性を抽出することが不可能であった。図全体を示す上位概念と図内容の関係は本文中に記述されないことも多く、それらの情報の抽出は従来は殆ど行われていない。
本発明では、文書中の図から用語、及び、用語間の関係を画像処理で取り出す際に、図が記載されている文書及び関連文書を利用する。具体的には、その図が記載されている文書、当該文書と類似の文書、又は当該文書の関連文書に出現する用語や用語間の関係性、もしくはその重要度に応じて重み付けした用語や関係性を用意し、画像処理の精度が不十分なために特定できない図中の用語や語彙的曖昧性が残る用語、及びそれらの関係性に関して、前述の用意した用語や関係性を照らし合わせて、用語や関係性の候補から図中に出現する可能性が高いものに限定することにより、誤認識率を低下させる。この際、精度高く認識できた用語や関係性を積極的に利用して、残りの用語・関係性候補を絞り込んでもよい。
また、この際、各ステップでのパラメータをユーザが対象とする文書もしくは文書群別に適宜変更可能としてもよい。更に、図内容の上位概念を表すタイトルもしくは図脚注中の用語と取り出した図の内容を関連付けることにより、本文中に記述されてないことが多いような図内容と上位概念との関係を抽出することができる。更に、図解析結果を文書と同様に検索できるようにするために、図解析結果を文書同様にインデックス化して、図検索や、図情報を含めた文書検索・類似文書検索を行ってもよい。
本発明のテキストマイニングシステムは以下の構成とする。図と本文中の図参照元情報を対応付けし、更に、図参照元文書及びそれらと関連する文書を検索抽出した上で、それらに記載されている用語や用語間の関係性を抽出し、必要ならばその重要度に応じて重み付けする前処理手段と、図の2値化、連結成分の抽出、文字列抽出を行う画像処理手段と、抽出した文字列に対して前処理で用意した用語・関連性情報及び各種外部辞書・シソーラスを用いて用語認識、及び語彙的曖昧性を除去する手段と、認識された用語同士の関係性を抽出する手段と、該認識した用語及び用語間の関係とこれらの上位概念となる図タイトルもしくは図脚注中の用語との関係を抽出する手段、及び、これらの各ステップでの処理のパラメータを入力する手段と、該抽出した情報を尤もらしい順で表示する手段とを具備する。更に、解析結果に基づき、図検索や、図を含めた文書検索・類似文書検索を行えるように文書検索をする手段と、検索条件を入力する装置と検索結果を表示する手段を具備してもよい。
本発明によると、図入り文書及び関連文書をユーザが本システムに入力するだけで、図中の用語の認識と用語間の関係性を抽出し、提示してくれる。図の解像度が不十分で用語の認識が従来の画像処理技術で不十分であっても、図の本文及び、それらの本文の関連・類似文書を利用することによって、図中に出現しうる用語の可能性を狭めることにより、本来の用語を認識することが出来る。また、用語が複数の意味を持つ語彙的曖昧性がある場合においても、本文及び、関連文書を利用することによって曖昧性を解消することが出来る。また、図中の用語間の関係性においても、図の解像度が不十分であっても、本文及び関連文書を利用することにより、図中に出現しうる関係性の可能性を狭めて、高精度で本来の用語の認識をすることができる。また、図タイトル及び図脚注中に現れる用語と、図中の用語及び用語間の関係性を関連付けることにより、本文テキスト中にも図中にも記述されていない、図自身を表す上位概念と図中の情報との関係を抽出することが可能となる。更に、図の解析結果を文書情報と同様に扱えるようになることから、より精度のよい図や文書の検索とともに、上位概念とそれが示す現象の関係の検索が可能となる。
以下、本発明の図入り文書からの情報抽出の実施例を詳細に説明するが、本発明は以下の実施例に限定されるものではない。
図1は、本発明の図入りテキストマイニングシステムのシステム構成例を示す図である。図入りテキストとは、Web上で公開されているような、HTMLに図が埋め込まれているものや、図とテキストが組になっている文書、図入り文書のpdf(但し、テキスト部分が画像ではないもの)などを指している。図1中のテキスト情報抽出部14の詳細は、図2に示す。また、本発明による解析の流れの例は、図3に示す。
本発明のマイニングシステムは、図入り文書から情報を抽出する前処理装置1、検索条件を入力する検索条件入力部7、図を含む文書についての検索を実行する文書/図検索部6、検索結果を表示する表示部8を有する。前処理装置1は、テキスト情報抽出部14、図情報抽出部3、情報抽出部3,14に解析条件を入力する解析条件入力部4、解析結果を表示する解析結果表示部5、抽出した情報を蓄積する解析結果蓄積データベース15を備える。テキスト情報抽出部14は、文書の本文全体もしくは本文中の図参照元の文献の類似文書および関連文書の情報から、用語抽出、用語間の関連性抽出及びそれらの重み付け処理を行うもので、図2に示すようにパラグラフ群検索部141、類似文書・関連文書検索部142、用語・関係性抽出部143を備える。処理の詳細については後述する。解析条件入力部4では、例えば、関連文書や類似文書の利用の有無、文字認識の閾値等を入力する。
前処理装置1では、装置に接続された文書データベース12あるいはインターネット13を介して接続される外部の文書データベース11から取得される図入り文書について、該図を参照している本文中のパラグラフ群、及び、本文全体、更には関連文書を取り出し(図3のステップ1、ステップ2)、出現する用語及び用語間の関係性を抽出し、更には、それらの用語が特徴的に出現するかどうかを、他の関連のない文書と比較して重み付けする(ステップ3)。ステップ1の処理はパラグラフ群検索部141によって実行され、ステップ2の処理は類似文書・関連文書検索部142によって実行される。また、ステップ3の処理は用語・関係性抽出部143によって実行される。
重み付けの統計的な方法としては、TF-IDF (tf(q|D)*log(N/doc(q)、式中tf(q|D):着目している文書(もしくは文書群)D中に用語qが現れる回数、df(q):qを含む文書数、N:全文書数)、Lnu-term weighting (Singhal et al. Proc. 19th ACM SIGIR, 21-29, 1996.)、HyperGsum(久光、丹羽、自然言語処理、Vol.142 85-90, 2000)などの様々な手法があるが、これに限定されない。また、重み付けは、図参照元からの単語としての(単語を距離の単位としての)最短距離などの距離を用いてもよい。これらの利用する本文の範囲、用語重み付け条件、また、図の解析において、文字認識、用語認識をするための閾値などは解析条件入力部4で設定する。
詳細には、図2に示すように、解析条件入力部4からの条件を用いて、パラグラフ群検索部141によって本文中での図参照元のパラグラフを検索する。パラグラフ群検索部141では、図を説明しているパラグラフを検索・抽出する。用語・関係性抽出部143は、パラグラフ群検索部141からの情報を元に、図のタイトルとLegendから用語抽出を行うと共に、パラグラフ群検索部141によって検索されたパラグラフ内での用語抽出、関係性抽出とそれらの重み付け処理を行う。また、用語・関係性抽出部143は、文書データベース11(12)から取得した文書の本文全体からの用語抽出、用語間の関係性抽出と、それらの重み付け処理を行う。類似文書・関連文書検索部142は、文書データベース11,12を検索して、類似文書及び関連文書を検索する。ここでは、類似文書とは、主に文書中に使用される用語の種類や頻度が類似している文書であり、関連文書とは、主にその文書が参照している文書のことである。用語・関係性抽出部143は、また、類似文書・関連文書検索部142によって検索された文書からの用語抽出、用語間の関係性抽出、及びそれらの重み付け処理を行う。用語・関係性抽出部143における用語抽出処理においては、辞書やシソーラスを利用する。こうして抽出された用語及び用語間の関係性、重み情報は、解析結果蓄積データベース15に蓄積される。
用語の認識手法としては、辞書を用いる方法、C-value method(Maynard and Ananiadou, TKE, 212-221, 1999)などの自動的に認識する方法などがある。関係性の抽出においても、TF-IDF, Lnu-term weighting, HyperGsum,Mutual Information(log(N*df(x,y)/df(x)df(y)), df(x,y):xとyとを含む文書数)を使う統計的な方法と、構文解析を用いる方法等があるが、いずれの方法でもよい。関連文書の収集方法については、文献の最後に記載されている参考文献を使用してもよいし、どこかで関連性が指摘されている文書を用いてもよい。類似文書は、文書中に偏って多く出現する用語やフレーズを用いて類似文書検索の手法を用いて検索してもよい。また、これらの用語認識、用語間の関係性抽出を予め行っておいても良いし、図を解析したときに十分に精度が得られなかった文字列のみに対して、その文字列の可能性のある用語をクエリとして、その図が記載された文書、及び該文書の類似文書や関連文書に検索を掛けてもよい。
前処理が済んだ文書と図について、図情報抽出部3において、前処理した用語、用語間の関係性と外部シソーラス2を用いて、図中の用語、用語間の関係を語彙的曖昧性を除去した形式で抽出する。そのためには、まず、図中に描かれている文字を認識する。具体的には、図3のステップ4において、まず濃淡画像の図は画像処理によって2値化する。2値化の仕方には種々の方法を利用することができる。大雑把には、f(x,y)を座標(x,y)における濃度とするとき、f(x,y)が閾値t以上であるか否かによって2値g(x,y)に分けることになる。
Figure 0004865526
閾値tの値は、画像の全体の濃度のヒストグラムや局所領域による補正を行ったり、画面を予めいくつかに分割しておいて、tを決定する方法などがある。また、カラー画像については、明度や色差を用いて指定する。
図3のステップ4で画像を2値化した後に、4連結(4方向)や8連結(8方向)で繋がっている全ての画素(連結成分)を取り出し(ステップ5)、文字とそれ以外に分割する(ステップ6)。連結成分間の距離等から文字列を取り出し、用語として成り立つかどうかを、前処理で作成した用語候補と辞書・シソーラスを用いて解釈する。スペルに語彙的曖昧性が残る場合は、文書中の該当用語の重みから推測することになる(ステップ7)。連結成分のうち、用語間の関係性を示すものを選び、用語間の関係性を認識する(ステップ8)。このステップにおいては、連結成分の形状を利用する。連結成分の形状には、用語を結ぶ線の末端部の形状、用語を結ぶ線が矢印の場合にはその向き、その線が実線であるか破線であるか、などが含まれる。必要に応じて、図の上位概念を表す図タイトルとこれらの用語、用語間の関係性を対応付ける(ステップ9)。抽出した用語及び用語間の関係性は解析結果蓄積データベース15に蓄積する(ステップ10)。
解析し終わった図と抽出データに関しては、解析結果表示部5で確認することができる。図4(a)は、解析条件入力画面の例を示す。本例では、図3のステップ7における語彙的曖昧性(同じスペルで異なる意味を示す用語の意味を特定する)除去の際に本文中の図参照元のパラグラフのテキストを利用するか、本文のテキストを利用するか、関連文書や類似文書を利用するか、高精度に解析できた図中の用語を利用するかを設定できる。利用する場合には、利用する項目にチェックを入れる。また、図中の文字認識の際の閾値、文字列認識の閾値等を設定するようになっている。テキスト情報抽出部14及び図情報抽出部3は、この入力画面で指定された条件に従って、文書のテキストや図から情報抽出を行う。
図4(b)は、解析結果表示部5の出力画面の例を示す図である。解析結果表示部5の出力画面には、解析が終了した図の番号及びその図が含まれる文書の文書番号56と共に、解析対象の図54と解析結果55が表示される。本例では、文書LR−1の図1(54)を解析した結果、その図の内容を表す概念として「XXXX pathway」が抽出され、図中の用語として、遺伝子を表すA、B,C,D,Eの5つの用語が抽出され、用語間の関係性として、A→B,C→B,B→D,B→Eの関係性が抽出されている。
図5は、図3のステップ7における処理の例を模式的に示した図である。図5(a)の太線で囲んだ部位のみを処理した例を図5(b)に示す。図5(b)において、421は抽出した連結成分の例、431は認識した文字の例、441は用語としての認識した例を示す。
この例では、P,K,Cの各文字が連結成分として抽出されている。また、R,a,fも各文字が連結成分として抽出されている。これらの連結成分の距離から、PKC,Rafが用語に相当する部位として認識される。この例では、PKCは正しくPKCとして認識されているが、RafがRa1,Ral,Rafのいずれか識別できていない。シソーラスを利用した時点で、Ral,Rafに絞られる。更に、シソーラスに登録されていない用語の可能性もあることから、図のタイトルや脚注の情報、及び、本文中の該当部位から、Ra1,Ral,Rafのスペル及びその同義語を検索する。その結果、Raf,Ral,Ra1及びそれらの同義語が本文中に存在せず、本文の参照だけではいずれか決定できない。しかし、図中に表れている遺伝子間の関係性PKC→RaX,Ras→RaX,RaX→MEK(“X”は識別できなかった文字)を利用し、これらの関係のうち本文書、及び、本文書の参考文献もしくは本文件と類似の文書で出現するものに限ることによりRaXの遺伝子候補を限定すると、RaXはRafと決定される。
具体的には、図6のテーブルを用いて、PKC,Ras,MEKと相互作用をもち、かつ名称がRaX:X=1,l,fのいずれかであるという検索を行う。図6(a)は、用語間の関係性と本文中でその関係性が出現した頻度を表すテーブルである。ここでの出現頻度は、図参照元のパラグラフのみ、パラグラフ前後数パラグラフのみ、もしくは、類似文書、関連文書を使用してもよい。図6(b)は、用語IDと用語の関係を示すテーブルである。Symbol,full nameは定義される意味クラスもあれば定義しない意味クラスもあってよい。辞書・シソーラス2が存在するとき、図6(b)はその部分集合となるが、存在しないときは、遺伝子のIDは自動付与となる。図6(c)は、2つの用語間の関係性の種類を示すテーブルである。右の記号が各関係性の種類に対応する図中の記号を示す。矢印の向き・種類は、連結成分の面積の始点、終点の比や、もしくは方向性(activate型かinhibit型か)などの情報から抽出する。
図7は、図5を解析した結果として、出現する用語と用語間の関係性を表したテーブルである。図7(a)は用語間の関係性を示すテーブルであり、図7(b)は用語とその用語が出現した図の関係を示すテーブルである。この図ではシグナル伝達系を示しているので、どの遺伝子かの曖昧性を除去して遺伝子のIDを付与している。この例では、名称自身に曖昧性、即ち同じスペルで違うIDに属する用語、はないので、曖昧性除去のステップは不要である。図7に示した情報は、解析結果蓄積データベース15に格納される。
図8は、本発明の前処理装置によって処理される図の例を示している。図8の例では、NIKが、MAP3K14とMAP4K4の2つの遺伝子名の同義語となる。従って、参照元パラグラフ及び、主にそれ以前の本文を利用して、どちらの遺伝子かを特定する。このような略語の場合には、full-nameとabbreviationは対となって記述されることが多いことから、用語の重み付けではなく、NIKとそのfull-nameとなりうるスペルのペアの記述を検索すればよい。この場合は、NIK:NFκB-inducing kinaseと図の脚注に書いてあり、NFκB-inducing kinaseはMAP3K14の同義語であるため、MAP3K14と決定される。他の遺伝子名は曖昧性がないので一意に決定される。同義語か否かは、シソーラス2を用いてチェックする。図8に示した情報は、同様に解析結果蓄積データベース15に格納される。例を図9に示す。図9(a)が関係性を、(b)が出現した用語を、(c)が関係の種類を示す。(d)は辞書・シソーラス2の部分集合である。タイトルに相当する用語のシソーラスがあるときにはシソーラスを使い、ないときには、Taggerを使って Schematic/形容詞 drawing/名詞 of/前置詞 NE-induced/形容詞 IL-8/名詞 signal/名詞 transduction/名詞 pathway/名詞 in/前置詞 human/名詞 のように品詞をつけ、名詞句の取り出し手法(この場合は、pathwayの前の名詞もしくは形容詞の単語を前置詞の後ろまで連結する)を使って取り出してもよい。また、Fig.XX represents YYのようなパターンを使ってもよいし、もしくは、構文解析をして Fig.XXの目的語となる用語を取り出してもよい。
図10は、本発明の前処理装置によって処理される図の他の例を示している。図10の例では、図中の遺伝子名が一部省略されており、α,βだけからはどの遺伝子か特定することはできない。また、Figure legendsからも、α,βを特定することはできない。しかし、図参照元部よりも以前の本文に、integrins heterodimers composed of αand βsubunitsという記述があることから、α,βがintegrinであることが明らかとなる。またタイトルから本図に相当する遺伝子間の制御関係がERK and PKB signaling pathwayであることがわかる。図10から、図11のような関係性が抽出される。図11(a)が関係性を、(b)が出現した用語を、(c)が関係の種類を示す。(d)は辞書・シソーラス2の部分集合である。
図12は、文書中の図から遺伝子名及び遺伝子間の制御関係を前述のようにして抜き出し、それらの用語及び用語間の関係性を図にインデックスとして張ったものに対して、検索をかけるシステムの表示画面例を示す図である。入力画面の入力部91にユーザが検索キーとして入力した遺伝子群A,B,C,D,Eに対して、関連度の高い順に図をランキングして表示している。表示された図の横には、図から抽出した用語と図全体を表す概念(用語)が表示されている。XXXX pathwayにあたる用語は、図タイトルもしくは図脚注から抽出された用語である。
ランキングの出し方には様々な方法が可能であるが、例えば、図中の遺伝子M個中、クエリn個のうち、L個重なったとき、全体の遺伝子数をK個(例えばHomo sapiensだと約25,000)とすると超幾何分布となり、確率密度分布p(L)は以下の式で表される。
Figure 0004865526
ここで、p(L)が小さいほど、よりクエリと関係が深い図となる。
図12で利用したデータ構造を図13に示す。図12でのクエリは、A,B,C,D,Eである。もし、関係性もクエリに入れたいならば、図6(a)に示すような関係性のテーブルも必要である。
また、図12に示すように、出力画面に表示された図のいくつかを選択して送信ボタン95を押すことにより、選択した図と類似の図を検索することもできる。図12の例では、図の横に表示されたチェックボックスをチェックすることにより、クエリとしての図の選択を行っている。
この際の検索のアルゴリズムは、クエリとして選択した図に出現する用語、さらには用語間の関係性を利用して上記と同様なスコアリングで関連度の高い図を選択することになる。選択した図に重複して出現する用語に関しては、上記計算時に、高い重み付けをするなどしてもよい。また、これらのクエリを利用して、通常の文書検索のクエリとして文書を検索してもよい。
図14は、文書中の図から遺伝子名及び遺伝子間の制御関係を前述のようにして抜き出し、それらの用語及び用語間の関係性を図にインデックスとして張ったものに対して、検索を掛けるシステムの他の例の出力画面を示す図である。本実施例では、検索に利用するインデックスは図中の用語だけでなく、本文や類似文書、関連文書も利用する。利用するデータは、図15に示す。図15(a)は、用語及びその用語と関連する図及びその用語の出現場所を格納したテーブル、図15(b)は図の名称及び文書中におけるその図の位置の情報を格納したテーブルである。図15(a)の出現場所でfは図中、pは同一パラグラフ中、tは本文中を示す。例えば、AA activates BB, BB activates CC,CC regulates DD,DD regulates EE のような一連のsignaling pathway があったときに、AA,BB,CCの範囲のpathwayをGXApathwayと呼び、AA,BB,CC,DD,EE全部を含めた総称がなかったとする。本文中には、GXA pathwayに関与する遺伝子名の記述、例えば GXA pathwayがDD,EEを制御するなどという記述が書かれていることが多いので、クエリがAA,BB,CC,DD,EEのときにGXA pathwayとDD,EEとの関連を説明しうる図、更には、参照元のテキストを取り出すことができる。AA- EEを示す用語は遺伝子名でも良いし、apoptosis, cell deathなどの機能を表す用語を含む他の用語であってもよい。
用語の出現場所の違いによって、スコア計算時の重みを変える。例えば、式(1)で遺伝子1つを3個のカウントとし、fを3、pを2、tを1とカウントしてもよい。例えば、図14のクエリにおける検索キーは、AA,BB,CC,DD,EEであるが、n=5ではなく、n=15とし、G3では、M=5*3,L=3*3+2*2=13となる。本実施例でも、図12の実施例と同様に、出力結果から図を選択して、類似の図や文書を検索することもできる。
本発明によると、図入り文書の図から情報を抽出して検索に利用するマイニングシステムを構築できる。
本発明の図入りテキストマイニングシステムのシステム構成例を示す図。 前処理装置の詳細図。 本発明による解析の流れを示すフローチャート。 (a)は解析条件入力部の画面例を示す図、(b)は解析結果表示部の画面例を示す図。 図中の用語の解析例を示す図。 用語間の関係性を示すテーブルの図。 用語IDと用語の関係を示すテーブルの図。 用語間の関係性の種類を示すテーブルの図。 図の解析結果の例を示す図であり、(a)は用語間の関係を表すテーブル、(b)は図番号とその図に出現した用語との関係を示すテーブルの図。 解析対象の図の例を示す図。 図8の解析結果の図であり、(a)は用語間の関係性を示すテーブル、(b)は用語IDと用語の関係を示すテーブル、(c)は用語間の関係性の種類を示すテーブル、(d)は利用したシソーラスの一部を示す図。 解析対象の図の例を示す図。 (a)は用語間の関係性を示すテーブル、(b)は用語IDと用語の関係を示すテーブル、(c)は用語間の関係性の種類を示すテーブル、(d)は利用したシソーラスの一部を示す図。 解析し終えた図の検索の例を示す図。 検索に使用したデータ構造を示す図。 解析し終えた図の検索の例を示す図。 検索に使用したデータ構造を示す図。
符号の説明
1…前処理装置、11…文書データベース、12…文書データベース、13…インターネット、14…テキスト情報抽出部、2…辞書・シソーラス、3…図情報抽出部、4…解析条件入力部、5…解析結果表示部、6…文書/図検索部、7…検索条件入力部、8…検索結果表示部、15…解析結果蓄積データベース、141…パラグラフ群検索部、142…類似文書・関連文書検索部、143…用語・関係性抽出部

Claims (13)

  1. 文書中の図を画像処理して当該図中の用語と用語間の関係性についての情報を抽出する図情報抽出部と、
    文書中のテキスト部分から用語と用語間の関係性についての情報を抽出するテキスト情報抽出部と、
    図の画像、図の識別情報、及び前記図情報抽出部によって抽出された図中の用語及び用語間の関係性についての情報を相互に関連付けて記憶する記憶部とを有し、
    前記図情報抽出部は、前記テキスト情報抽出部によって抽出された当該文書中の用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語抽出して特定し、
    前記テキスト情報抽出部は、前記図のタイトル、脚注、あるいは本文中から図の中身を表す用語を辞書、固有表現の認識手法、抽出パターン又は構文解析を用いて抽出し、前記抽出された用語を、図の上位概念を表す図タイトルと図の識別情報に関連付けて前記記憶部に記憶する
    ことを特徴とするデータマイニングシステム。
  2. 請求項1記載のデータマイニングシステムにおいて、前記テキスト情報抽出部は、前記図を参照している文書中のパラグラフを検索する機能を有し、前記図情報抽出部は、前記テキスト情報抽出部によって検索された前記パラグラフから抽出された用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出することを特徴とするデータマイニングシステム。
  3. 請求項1記載のデータマイニングシステムにおいて、前記テキスト情報抽出部は、文書データベースから前記図が記載されている文書の関連文書及び/又は類似文書を検索する機能を有し、前記図情報抽出部は、前記テキスト情報抽出部によって検索された前記関連文書及び/又は類似文書から抽出された用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出することを特徴とするデータマイニングシステム。
  4. 請求項1記載のデータマイニングシステムにおいて、前記図情報抽出部は前記図を画像処理して図中の文字を抽出すると共に、隣接する文字間の距離を考慮して連続する複数の文字からなる用語を抽出し、用語間に配置された記号の形状から当該用語間の関係性を抽出することを特徴とするデータマイニングシステム。
  5. 図を含む文書を処理装置に入力する工程と、
    前記処理装置において、文書中のテキスト部分から用語と用語間の関係性についての情報を抽出するテキスト処理工程と、
    前記文書中の図を画像処理して図中の文字を抽出し、隣接する文字間の距離を考慮して連続する複数の文字からなる用語を抽出し、用語間に配置されている記号の形状から当該用語間の関係性を抽出する図処理工程と、
    図の画像、図の識別情報、及び前記図処理工程によって抽出された図中の用語及び用語間の関係性についての情報を関連付けて出力する出力工程とを有し、
    前記図処理工程では、前記テキスト処理工程で抽出された当該文書中の用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出して特定し、
    前記テキスト処理工程では、前記図のタイトル、脚注、あるいは本文中から図の中身を表す用語を辞書、固有表現の認識手法、抽出パターン又は構文解析を用いて抽出し、
    前記出力工程では、前記抽出された用語を、図の上位概念を表す図タイトルと図の識別情報に関連付けて出力する
    ことを特徴とするデータマイニング方法。
  6. 請求項記載のデータマイニング方法において、前記テキスト処理工程は、前記図を参照している文書中のパラグラフを検索し、前記パラグラフから用語及び用語間の関係性の情報を抽出する工程を有し、前記図処理工程は、前記パラグラフから抽出された用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出することを特徴とするデータマイニング方法。
  7. 請求項記載のデータマイニング方法において、文書データベースから前記図が記載されている文書の関連文書及び/又は類似文書を検索する工程を有し、前記テキスト処理工程では検索された前記関連文書及び/又は類似文書中のテキスト部分から用語と用語間の関係性についての情報を抽出することを特徴とするデータマイニング方法。
  8. 文書中の図を画像処理して当該図中の用語と用語間の関係性についての情報を抽出する図情報抽出部と、
    文書中のテキスト部分から用語と用語間の関係性についての情報を抽出するテキスト情報抽出部と、
    図の画像、図の識別情報、及び前記図情報抽出部によって抽出された図中の用語及び用語間の関係性についての情報を相互に関連付けて記憶する記憶部と、
    検索用語を入力する入力部と、
    前記入力部に入力された検索用語と前記記憶部に図と関連付けられて格納された図中の用語との関連度を計算し、関連度に順位付けして出力する検索部と、
    前記検索部から出力された図の画像を前記関連度の高い順に画像表示する表示部と
    を有し、
    前記図情報抽出部は、前記テキスト情報抽出部によって抽出された当該文書中の用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出して特定し、
    前記テキスト情報抽出部は、前記図のタイトル、脚注、あるいは本文中から図の中身を表す用語を辞書、固有表現の認識手法、抽出パターン又は構文解析を用いて抽出し、前記抽出された用語を、図の上位概念を表す図タイトルと図の識別情報に関連付けて前記記憶部に記憶する
    ことを特徴とする検索システム。
  9. 請求項記載の検索システムにおいて、前記表示部に、前記検索部から出力された図の画像と共に、当該図に対する前記関連度のスコア及び当該図に関連付けられた用語を表示することを特徴とする検索システム。
  10. 請求項記載の検索システムにおいて、前記記憶部には図と関連付けて当該図の名称が格納されており、前記表示部に、前記検索部から出力された図の画像と共に、当該図の名称を表示することを特徴とする検索システム。
  11. 請求項記載の検索システムにおいて、前記記憶部には文書中のテキスト部分に含まれる用語及び用語間の関係性についての情報が格納され、前記検索部は文書中のテキスト部分に含まれる用語及び用語間の関係性と図中の用語及び用語間の関係性についての情報とを同等に扱って検索を実行することを特徴とする検索システム。
  12. 請求項記載の検索システムにおいて、前記表示部に図の画像を選択可能に表示し、前記検索部は選択された図に関連付けられた用語を検索用語として検索を実行することを特徴とする検索システム。
  13. 請求項11記載の検索システムにおいて、前記表示部に図の画像を選択可能に表示し、前記検索部は選択された図に関連付けられた用語を検索用語として検索を実行することを特徴とする検索システム。
JP2006339566A 2006-12-18 2006-12-18 データマイニングシステム、データマイニング方法及びデータ検索システム Active JP4865526B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006339566A JP4865526B2 (ja) 2006-12-18 2006-12-18 データマイニングシステム、データマイニング方法及びデータ検索システム
US12/000,841 US7853623B2 (en) 2006-12-18 2007-12-18 Data mining system, data mining method and data retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006339566A JP4865526B2 (ja) 2006-12-18 2006-12-18 データマイニングシステム、データマイニング方法及びデータ検索システム

Publications (3)

Publication Number Publication Date
JP2008152522A JP2008152522A (ja) 2008-07-03
JP2008152522A5 JP2008152522A5 (ja) 2009-10-08
JP4865526B2 true JP4865526B2 (ja) 2012-02-01

Family

ID=39528783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006339566A Active JP4865526B2 (ja) 2006-12-18 2006-12-18 データマイニングシステム、データマイニング方法及びデータ検索システム

Country Status (2)

Country Link
US (1) US7853623B2 (ja)
JP (1) JP4865526B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984387B2 (en) 2011-06-28 2021-04-20 Microsoft Technology Licensing, Llc Automatic task extraction and calendar entry
US9208179B1 (en) * 2012-05-25 2015-12-08 Narus, Inc. Comparing semi-structured data records
US11250203B2 (en) * 2013-08-12 2022-02-15 Microsoft Technology Licensing, Llc Browsing images via mined hyperlinked text snippets
US10503761B2 (en) * 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10162882B2 (en) 2014-07-14 2018-12-25 Nternational Business Machines Corporation Automatically linking text to concepts in a knowledge base
US10437869B2 (en) 2014-07-14 2019-10-08 International Business Machines Corporation Automatic new concept definition
US10025783B2 (en) * 2015-01-30 2018-07-17 Microsoft Technology Licensing, Llc Identifying similar documents using graphs
US10361981B2 (en) * 2015-05-15 2019-07-23 Microsoft Technology Licensing, Llc Automatic extraction of commitments and requests from communications and content
US10843080B2 (en) * 2016-02-24 2020-11-24 Virginia Tech Intellectual Properties, Inc. Automated program synthesis from natural language for domain specific computing applications
JP7004350B1 (ja) 2020-10-21 2022-01-21 国立大学法人信州大学 医療機器,素材等の開発支援システム,方法およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2695784B2 (ja) * 1987-05-27 1998-01-14 株式会社日立製作所 文章を検索・表示する方法
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
JP3023461B2 (ja) * 1993-06-18 2000-03-21 シャープ株式会社 非コード化情報のデータベース化装置
US5450535A (en) * 1993-09-24 1995-09-12 At&T Corp. Graphs employing clusters
JP3720412B2 (ja) * 1995-05-01 2005-11-30 キヤノン株式会社 情報処理方法及び装置
JPH09185674A (ja) 1995-12-28 1997-07-15 Omron Corp 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JP3694149B2 (ja) * 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
WO2001013105A1 (en) * 1999-07-30 2001-02-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
US6941317B1 (en) * 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
AU2001293596A1 (en) * 2000-09-29 2002-04-08 Gavagai Technology Incorporated A method and system for adapting synonym resources to specific domains
US20020091678A1 (en) * 2001-01-05 2002-07-11 Miller Nancy E. Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
JP2002269573A (ja) * 2001-03-08 2002-09-20 Ricoh Co Ltd 文書認識方法及びその装置並びに記録媒体
US7627588B1 (en) * 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
JP2003178263A (ja) 2001-12-12 2003-06-27 Canon Inc 文字認識装置及び記録媒体
US20050240583A1 (en) * 2004-01-21 2005-10-27 Li Peter W Literature pipeline
JP4349183B2 (ja) * 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
US20060053175A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and utilizing one or more rules for multi-relational ontology creation and maintenance

Also Published As

Publication number Publication date
JP2008152522A (ja) 2008-07-03
US20080147622A1 (en) 2008-06-19
US7853623B2 (en) 2010-12-14

Similar Documents

Publication Publication Date Title
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
US10496928B2 (en) Non-factoid question-answering system and method
Nastase et al. Transforming Wikipedia into a large scale multilingual concept network
US8589370B2 (en) Acronym extraction
JP6022239B2 (ja) データを処理するシステム及び方法
US8375033B2 (en) Information retrieval through identification of prominent notions
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
JP2010157178A (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
Piperski et al. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
Kuzey et al. As time goes by: comprehensive tagging of textual phrases with temporal scopes
Ahmed et al. Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness
Golik et al. Improving term extraction with linguistic analysis in the biomedical domain.
López et al. Experiments on sentence boundary detection in user-generated web content
KR20130097475A (ko) 의료 프로세스 모델링 및 검증 방법
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Ahmed et al. Evaluation of n‐gram conflation approaches for Arabic text retrieval
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Pembe et al. A tree-based learning approach for document structure analysis and its application to web search
Sultana et al. Identifying similar sentences by using n-grams of characters
JP2009199280A (ja) 部分構文木プロファイルを用いた類似性検索システム
Milić-Frayling Text processing and information retrieval
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4865526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3