JP4025572B2 - 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体 - Google Patents

構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP4025572B2
JP4025572B2 JP2002103239A JP2002103239A JP4025572B2 JP 4025572 B2 JP4025572 B2 JP 4025572B2 JP 2002103239 A JP2002103239 A JP 2002103239A JP 2002103239 A JP2002103239 A JP 2002103239A JP 4025572 B2 JP4025572 B2 JP 4025572B2
Authority
JP
Japan
Prior art keywords
analysis
document
text
structured document
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002103239A
Other languages
English (en)
Other versions
JP2003296344A (ja
Inventor
準二 富田
哲夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002103239A priority Critical patent/JP4025572B2/ja
Publication of JP2003296344A publication Critical patent/JP2003296344A/ja
Application granted granted Critical
Publication of JP4025572B2 publication Critical patent/JP4025572B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、構造化文書に記述されたプロパティと文章を統合的に分析するための分析装置、分析方法および分析プログラムに関するものである。
【0002】
【従来の技術】
様々な情報の中には、プロパティと文章の両方を持っているものが数多くある。例えば、特許情報は、「出願人」、「出願日」等のプロパティと、「請求項」、「実施例」等の文章を持ち、また、カルテは、「診察日」、「処方薬」等のプロパティと「症状」等の文章を持っている。構造化文書では、これらの両方を同じ形式で表現することができる。例えば、タグを用いて特許情報を表現した例を表1に示す。
【0003】
【表1】
Figure 0004025572
【0004】
このような構造化文書の分析を行なうために、現在利用できる分析手法として以下の2つがある。
【0005】
●データ分析手法
構造化文書の特定のタグを属性として扱い、属性を「列」、各文書を「行」とした表形式で管理し、このような表に対して分析を行なう。例えば、「出願人」と「出願日」を属性として管理することによって、最近どこの会社(出願人)が特許の出願を頻繁に行なっているのかを分析することができる。
【0006】
●テキスト分析手法
構造化文書を単なるテキストとして扱い、テキスト同士がどの程度似ているのかに基づいて類似文書の検索、分類を行なう。例えば、類似特許を検索したり、特許の内容に基づく分類等をすることによって、分析を行なうことができる。
【0007】
【発明が解決しようとする課題】
データ分析手法(マイケルJ.A.ベリー、ゴードン・リノフ著、SASインスティチュートジャパン、江原淳、佐藤栄作、共訳、海文堂)を用いると、構造化文書に記述されたプロパティに関しての詳細な分析ができる。しかし、構造化文書に記述された文章に関して、これら文章間の類似性を利用した分析はできない。例えば、「ある特許に類似している特許が、どこの会社から数多く出願されているのか?」といった分析はできなかった。
【0008】
一方、テキスト分析手法を用いると、構造化文書を1つのテキストと見なして、これらの類似性を判定することはできる。しかし、構造化文書の中の特定の文書構造のみに着目した類似性の判定はできない。そのため、例えば、「特許の請求項に記述された文章についてのみ類似文章の検索を行ない、実施例に記述された文章の内容で分類する。」といった、文書構造を意識した類似文書検索や文書分類ができなかった。
【0009】
また、テキスト分析手法では、プロパティと文章を柔軟に組み合わせた分析はできない。例えば、「自社で開発しているものと実施例が類似するような特許を数多く出願している企業はどこか?」や、「その出願時期はいつなのか?」といった、文章(実施例の類似度)とプロパティ(出願人、出願日等)を自由に組み合わせて分析することができなかった。
【0010】
このように、従来技術では、構造化文書がプロパティと文章を同様の形式で記述可能であるにもかかわらず、これら両方を同時に利用した分析ができる手法は存在しなかった。
【0011】
本発明は、上記従来技術の問題点を解決するために為されたものであり、構造化文書をプロパティと文章の両方を同時に利用した分析ができる分析装置、分析方法および分析プログラムを提供することを課題とする。
【0012】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、プロパティと文章が記述された構造化文書を分析する構造化文書分析装置において、構造化文書を読み込み、自動又は手動で作成された設定情報に基づきプロパティと文書に分ける構造化文書ローダと、該プロパティを格納し、データ分析条件により分析するデータ分析手段と、該文章を格納し、テキスト分析条件により分析するテキスト分析手段と、該設定情報に基づき、該データ分析条件及び該テキスト分析条件を作成するとともに、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を統合する統合分析手段と、該統合された分析結果を表示する表示インターフェースとを、有することを特徴とする構造化文書分析装置を解決手段とする。
【0013】
あるいは、上記の構造化文書分析装置において、前記構造化文書ローダは、構造化文書を読み込み、各構造化文書に対して文書IDを付与し、設定情報でプロパティと指定された文書構造の内容を文書IDとともにデータ分析手段に格納し、設定情報で文章と指定された文書構造の内容を文書IDとともにテキスト分析手段に格納するものであることを特徴とする構造化文書分析装置を解決手段とする。
【0014】
あるいは、上記の構造化文書分析装置において、前記テキスト分析手段は、文章と対象文書構造の指定をテキスト分析条件として受け取り、該受け取った文章と、該指定された対象文書構造に対応づけられて格納されている各文章の内容とがどの程度類似しているのかを計算し、該各文書IDと該計算した類似の度合いをテキスト分析結果として出力するものであることを特徴とする請求項2に記載の構造化文書分析装置を解決手段とする。
【0015】
あるいは、上記の構造化文書分析装置において、前記テキスト分析手段は、文書IDの集合と、対象文書構造の指定をテキスト分析条件として受け取り、該指定された対象構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、該計算された類似の度合いに基づき各文書の分類を行ない、該文書IDと該分類結果である分類カテゴリIDをテキスト分析結果として出力するものであることを特徴とする構造化文書分析装置を解決手段とする。
【0016】
あるいは、上記の構造化文書分析装置において、前記統合分析手段は、設定情報を取得し、構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、表示インターフェースから指定された統合分析条件に従い、データ分析手段にはデータ分析条件を、テキスト分析手段にはテキスト分析条件を送信し、該データ分析手段からデータ分析結果を、該テキスト分析手段からテキスト分析結果を受け取り、該データ分析結果に付けられた文書ID及び該テキスト分析結果に付けられた文書IDを用いて、これらの分析結果を統合し統合された分析結果を出力するものであることを特徴とする構造化文書分析装置を解決手段とする。
【0017】
あるいは、上記の構造化文書分析装置において、前記表示インターフェースは、ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを統合分析条件として指定し、統合分析手段から出力された、統合された分析結果を表示するものであることを特徴とする構造化文書分析装置を解決手段とする。
【0018】
あるいは、プロパティと文章が記述された構造化文書を分析する構造化文書分析方法において、構造化文書を読み込み、自動又は手動で作成された設定情報に基づきプロパティと文書に分けて、該プロパティをデータ格納手段に格納し、該文章を文章格納手段に格納する構造化文書ロード手順と、該設定情報に基づき、データ分析条件及びテキスト分析条件を作成する分析条件作成手順と、該データ分析条件により、該格納されたプロパティを分析するデータ分析手順と、該テキスト分析条件により該格納された文章を分析するテキスト分析手順と、該データ分析手順で得られたデータ分析結果及び該テキスト分析手順で得られたテキスト分析結果を統合する統合分析手順と、該統合された分析結果を表示インターフェースで表示する表示手順とを、有することを特徴とする構造化文書分析方法を解決手段とする。
【0019】
あるいは、上記の構造化文書分析方法において、前記構造化文書ロード手順では、構造化文書を読み込み、各構造化文書に対して文書IDを付与し、設定情報でプロパティと指定された文書構造の内容を文書IDとともにデータ格納手段に格納し、設定情報で文章と指定された文書構造の内容を文書IDとともに文章格納手段に格納することを特徴とする構造化文書分析方法を解決手段とする。
【0020】
あるいは、上記の構造化文書分析方法において、前記テキスト分析手順では、文章と対象文書構造の指定をテキスト分析条件として受け取り、該受け取った文章と、該指定された対象文書構造に対応づけられて格納されている各文章の内容とがどの程度類似しているのかを計算し、該各文書IDと該計算した類似の度合いをテキスト分析結果として出力することを特徴とする構造化文書分析方法を解決手段とする。
【0021】
あるいは、上記の構造化文書分析方法において、前記テキスト分析手順では、文書IDの集合と、対象文書構造の指定をテキスト分析条件として受け取り、該指定された対象構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、該計算された類似の度合いに基づき各文書の分類を行ない、該文書IDと該分類結果である分類カテゴリIDをテキスト分析結果として出力することを特徴とする構造化文書分析方法を解決手段とする。
【0022】
あるいは、上記の構造化文書分析方法において、前記分析条件作成手順では、設定情報を取得し、構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、表示インターフェースから指定された統合分析条件に従い、データ分析条件とテキスト分析条件を作成し、前記統合分析手順では、該データ分析手順で得られたデータ分析結果と該テキスト分析手順で得られたテキスト分析結果とを受け取り、該データ分析結果に付けられた文書ID及び該テキスト分析結果に付けられた文書IDを用いてこれらの分析結果を統合し、統合された分析結果を出力することを特徴とする構造化文書分析方法を解決手段とする。
【0023】
あるいは、上記の構造化文書分析方法における、前記分析条件作成手順において、表示インターフェースから指定された統合分析条件は、ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを指定するものであることを特徴とする構造化文書分析方法を解決手段とする。
【0024】
あるいは、上記の構造化文書分析方法における手順を、コンピュータに実行させるためのプログラムとしたことを特徴とする構造化文書分析プログラムを解決手段とする。
【0025】
あるいは、上記の構造化文書分析方法における手順を、コンピュータに実行させるためのプログラムとし、該プログラムを、該コンピュータが読み取りできる記憶媒体に格納したことを特徴とする構造化文書分析プログラムを格納した記憶媒体を解決手段とする。
【0026】
本発明は、構造化文書の分析において、構造化文書の中の文章の部分をテキストとして、プロパティの部分をデータとして格納、管理し、これら2つの間の一貫性を保つことによって、プロパティに対する分析と文章の類似度に基づく分析を統合的に行なうことを可能にする。
【0027】
【発明の実施の形態】
以下、本発明の実施の形態について図を用いて詳細に説明する。
【0028】
本発明による構造化文書分析装置の一実施形態例による構成図を図1に示す。図1において、1は構造化文書ローダ、2はデータ分析装置、3はテキスト分析装置、4は統合分析装置、5は表示インターフェース、6はリレーショナルデータベース(以下、RDB)、7はテキストデータベース(以下、テキストDB)、8は構造化文書、9は設定情報である。
【0029】
ここで、自動又は手動で作成される設定情報9には、構造化文書8のどの部分をデータとして管理し、どの部分をテキストとして管理するのかが示されている。設定情報9の例を表2に示す。
【0030】
【表2】
Figure 0004025572
【0031】
この例では、「出願人」、「出願日」、「発明者」、「発明の名称」の各文書構造の内容をプロパティと見なしデータとして管理し、「請求項」、「実施例」の各文書構造の内容を文章と見なしテキストとして管理する。
【0032】
構造化文書ローダ1は、構造化文書8を読み込み、設定情報9に基づき、プロパティをデータ分析装置2に、文章をテキスト分析装置3に格納する。この際、各構造化文書8に対して、データ分析装置2とテキスト分析装置3の双方で利用可能な一貫した文書IDを付与する。それぞれの分析装置での格納方法は、表3、表4の通りである。
【0033】
【表3】
Figure 0004025572
【0034】
【表4】
Figure 0004025572
【0035】
データ分析装置2には、通常のリレーショナルデータベース(RDB6)が利用可能であり、構造化文書8の各プロパティは属性として表現され、1レコードにつき一つの文書が格納されている。文書IDは、構造化文書ローダ1が付与したものである。
【0036】
テキスト分析装置3には、テキストDB7が接続され、対象文書構造(請求項や実施例)毎に、各文書IDと対応する文章が格納されている。テキスト分析装置3は、以下の類似文章検索機能と文章分類機能等の文章に対する分析機能を持っているものとする。
【0037】
●類似文章検索機能
1.文章と対象文書構造を入力として受け取る。
2.入力された文書構造に対応づけられて格納されている各文章と入力された文章の間の類似度を計算する。
3.類似度の高い文章順に、類似度(スコア)と文書IDのペアを出力する。
【0038】
●文章分類機能
1.文書IDの集合と対象文書構造を入力として受け取る。
2.入力された文書構造に対応づけられて格納されている、各文書IDに対応する文章を取得する。
3.任意の2つの文章間の類似度を計算する。
4.この類似度を利用することによって文章を分類する。分類方法はここでは特に限定しないが、例えば、類似度の高い順に順次文書をまとめて行くことによって規定個数に分類する。この手法は階層型クラスタリングと呼ばれている。
5.各分類結果(分類カテゴリ)について分類カテゴリIDを割り振る.
6.カテゴリIDと文書IDを出力する。
【0039】
例えば、10個の文書を3つの分類カテゴリに分類する場合の入出力は表5の通りである。
【0040】
【表5】
Figure 0004025572
【0041】
この例では、「請求項」の文章の内容に基づき文書IDが3つの分類カテゴリ(C1,C2,C3)に分類されている。
【0042】
統合分析装置4は、構造化文書ローダ1で用いた設定情報9と同じものを入力として受け取り、構造化文書8のどの部分がデータ分析装置2によって格納され管理されていて、どの部分がテキスト分析装置3によって格納され管理されているのかを自動的に取得する。これらの分析情報と文書IDを用いて、データ分析装置2から得られた分析結果とテキスト分析装置3から得られた分析結果を統合する。例えば、テキスト分析装置3で類似文章検索を行い、検索結果の文書IDを用いて、データ分析装置2からプロパティを取得することができる。また、何らかの条件でデータ分析装置2から文書IDの集合を取得すると、これらの文書IDを用いて、文章の内容に応じて文書の分類を行なうこともできる.
本実施形態例の表示インターフェース5を図2に示す。分析結果には、統合分析装置4から得られる情報(分類カテゴリ、スコア、各種プロパティ)等を表形式で出力する。また、類似文章の検索や類似文章の分類等のテキスト分析装置3で行なうことができる分析や、プロパティを条件とした検索や集計等のデータ分析装置2で行なうことができる分析のための分析条件を指定できる。
【0043】
本発明を用いた実際の分析例について説明する。分析対象は表1の形式の文書集合とする。設定情報9には表2のように指定されているものとする。まず、前処理として構造化文書ローダ1が、分析対象となる全ての文書を読み込み、設定情報9でプロパティと指定された項目をデータ分析装置2に、文章と指定された項目をテキスト分析装置3に格納する。次に、ユーザは以下のようにして分析を行なう。
【0044】
●類似文章の検索に利用した例(図3)
1.ユーザは、表示インターフェース5の類似文章検索条件に、文章(自分の特許の請求項等)を入力し、対象文書構造として「請求項」を選択する。また、プロパティ集計条件のグループ化の対象として「出願人」を選択し、集計対象として「スコア」を選択する。「分析実行」ボタンを押す。
2.統合分析装置4は、これらのユーザの入力を統合分析条件として受け取り、この中の入力文章と対象文書構造を、テキスト分析条件としてテキスト分析装置3に送る。
3.テキスト分析装置3は、類似文書検索機能を用いて、各文書のスコアを計算し、このスコアと文書IDをテキスト分析結果として統合分析装置4に送る。
4.統合分析装置4は、ユーザの入力したグルーブ化対象「出願人」と集計対象「スコア」とテキスト分析装置3から取得した文書IDを、データ分析条件として、データ分析装置2に送る。
5.データ分析装置2は、文書IDに対応したプロパティを取得し、プロパティの1つである「出願人」によってグルーブ化を行ない「スコア」を集計する。これらの結果をデータ分析結果として統合分析装置4に送る。
6.統合分析装置4は、テキスト分析結果とデータ分析結果を文書IDを用いて統合し、統合分析結果として表示インターフェース5に送る。
7.表示インターフェース5では図3のように分析結果を表示する。
【0045】
この結果、どの出願人(他社)が自分の特許の類似特許を数多く出願しているのかが分析できる。
【0046】
●類似文章分類に利用した例(図4)
1.ユーザは、表示インターフェスのプロパティ検索条件の出願人に「A社」、出願日に「1997」〜「2001」と指定する。また、類似文章分類条件の対象文書構造に「実施例」を指定する。「分析実行」ボタンを押す。
2.統合分析装置4は、これらのユーザの入力を統合分析条件として受け取り、この中の「出願人」と「出願日」をデータ分析条件として、データ分析装置2に送る。
3.データ分析装置2は、出願人が「A社」で、出願日が「1997」〜「2001」である文書の文書IDと各文書IDに対応するプロパティをデータ分析結果として、統合分析装置4に送る。
4.統合分析装置4は、このようにして得られた文書IDとユーザの指定した類似文章分類条件の対象文書構造「実施例」をテキスト分析条件として、テキスト分析装置3に送る。
5.テキスト分析装置3は、文章分類機能を用いて「実施例」の各文書IDに対応づけられて格納されている文章間の類似度を計算し、各文書を分類する。分類結果である分類カテゴリIDとそれに対応した文書IDをテキスト分析結果として統合分析装置4に送る。
6.統合分析装置4は、テキスト分析結果とデータ分析結果を文書IDを用いて統合し、表示インターフェース5に送る。
7.表示インターフェース5は図4のように分析結果を表示する。
【0047】
この結果、A社がどのような特許を1997年から2001年の間に出願しているのかを、実施例の内容に基づいた分類カテゴリ毎に分析することができる。
【0048】
分析を行ないたい文書構造は、設定情報9に指定するだけで容易に変更することができる。そのため、実施形態例に上げた、「出願人」だけでなく、「登録日」、「分類記号」といった任意のプロパティや文章を分析の対象とすることができる。また、分類を行なった後に、特定の分類カテゴリに属する文書についてのみ、さらに類似文章検索を行なったり、再び、さらに細かく分類したり、集計をすることもできる。このように、ここにあげた例だけでなく、データ分析装置2とテキスト分析装置3の様々な利用の組み合わせが可能である。
【0049】
また、表示インターフェースに関しては、図2に限定されるものでなく、データ分析装置、テキスト分析装置に対する分析条件を指定できる機能と、統合された結果を表示する機能を持つものであれば、どのようなものでも良い。
【0050】
本発明は、特許の分析に限定されるものではなく、プロパティと文章の両方が記述された構造化文書であればどのようなものにでも適用できる。そのため、例えば、カルテのように、症状、治療薬、年齢が記述された構造化文書を対象とする場合には、類似症状を検索し、その症状の治療に適した治療薬や発症年齢に関する分析を行なうこともできる。
【0051】
以下では、上記構造化文書分析装置の動作例とともに、本発明による構造化文書分析方法の一実施形態例を説明する。
【0052】
まず、システム全体の構造化文書分析処理について説明する。構造化文書分析処理のフローを図5に示す。
1.S1では、設定情報9に従い構造化文書8を解析し、プロパティとテキスト情報をそれぞれRDB(リレーショナルデータベース)6、テキストデータベース7に格納する。詳細は、「構造化文書ロード処理」に示す。
2.S2では、ユーザが表示インターフェース5を通して、統合分析要求を入力する。表示インターフェース5は、図2の通りである。
3.S3では、統合分析要求が、終了要求であった場合には、処理を終了する。終了要求以外の場合には、統合分析処理に移る。
4.S4では、表示インターフェース5から入力された統合分析要求を取得し、RDB6、テキストDB7に格納された情報に対して分析を行い、統合分析結果を生成する。詳細は、「統合分析処理」に示す。
5.S5では、S4で生成された統合分析結果を、表示インターフェース5ヘ出力する。S2へ戻る。
【0053】
次に、構造化文書ロード処理(S1の詳細)について説明する。構造化文書ロード処理のフローを図6に示す。
1.S11では、人手または自動的に作成された設定情報9を読み込み、構造化文書8中のどの構造がプロパティであり、どの構造が文章であるかを表す、構造管理リストを作成する。設定情報9の例は表2のとおりである。
2.S12では、構造化文書8を1文書読み込む。
3.S13では、構造化文書8の読み込みがすべて終了していれば、構造化文書ロード処理を終了する。読み込み文書がある場合には、構造化文書8の解析処理に移る。
4.S14では、構造化文書8を解析し、構造(タグ名)と構造の内容(タグで囲まれた値)に分割し、構造をキー、構造の内容を値とするハッシュテーブルを作成する。
5.S15では、S11で作成された構造管理リストの、プロパティと指定された各構造をキーにして、S14で作成されたハッシュテーブルを引く。その結果、プロパティとして管理する必要のある値が得られる。この値をRDB6に格納する。格納形態は、表3のとおりである。
6.S16では、S11で作成された構造管理リストの、文章と指定された各構造をキーにして、S14で作成されたハッシュテーブルを引く。その結果、文章として管理する必要のある値が得られる。この値をテキストDB7に格納する。格納形態は、表4のとおりである。S12へ戻る。
【0054】
次に、統合分析処理(S4の詳細)について説明する。統合分析処理のフローを図7に示す。
1.S401では、統合分析条件を表示インターフェース5から取得する。統合分析条件には、テキスト分析装置3に対する分析要求と、データ分析装置2に対する分析要求の両方が記述されているものとする。
2.S402では、統合分析条件を解析し分析要求リストを作成する。詳細は、「統合分析条件の解析処理」に示す。
3.S403では、空の統合分析結果を作成する。ここで、統合分析結果は、以下のフィールドを持つテーブルである。そのフィールドとは、文書ID、スコア、カテゴリID、(設定情報9にプロパティと指定された項目)である。
4.S404では、分析要求リストの先頭の要素eを1つ取り出し、要素eの分析装置の値を用いて以下の分岐処理を行う。
・テキストの場合には、S405へ。
・データの場合には、S409へ。分析要求リストが空の場合には、S414へ。
5.S405では、S404で取り出された要素eの分析処理の種別、分析パラメータの値、統合分析結果に含まれる文書IDを用いてテキスト分析装置3に対応した形のテキスト分析条件を作成する。
6.S406では、テキスト分析装置3へS405で作成されたテキスト分析条件を送信する。
7.S407では、テキスト分析装置3が、テキスト分析要求を取得し、テキストDB7に格納されている情報を用いてテキスト分析結果を生成し、統合分析装置4へ送信する。詳細は、「テキスト分析処理」に示す。
8.S408では、テキスト分析装置3からテキスト分析結果を受信する。
9.S409では、S404で取り出された要素eの分析処理の種別、分析パラメータの値、統合分析結果に含まれる文書IDを用いて、データ分析装置2に対応した形のデータ分析条件を作成する。
10.S410では、データ分析装置2へS409で作成されたデータ分析条件を送信する。
11.S411では、データ分析装置2がデータ分析条件を取得し、RDB6を用いてデータ分析結果を作成する。この処理は既存の技術であるリレーショナルデータベースマネージメントシステムに従う。
12.S412では、データ分析装置2からデータ分析結果を受信する。
13.S413では、S408またはS412で得られた分析結果を、S404で取り出された要素eの統合処理の種別、統合処理パラメータの値に従い統合分析結果に追加する。詳細は、「統合分析結果の追加処理」に示す。S404へ戻る。
14.S414では、S413が作成した統合分析結果を表示インターフェース5ヘ送信する。
【0055】
次に、統合分析条件の解析処理(S402の詳細)について説明する。統合分析条件の解析処理のフローを図8に示す。
1.S4021では、表示インターフェース5から入力された、統合分析条件があるかどうかを判定し、ある場合にはS4022へ移る。無い場合には終了する。
2.S4022では、統合分析条件を取り出し、分析要求に応じて以下の分岐処理を行う。
・類似文書検索の場合は、S4026へ。
・それ以外の場合は、S4023へ。
3.S4023では、分析要求に応じて以下の分岐処理を行う。
・類似文書分類の場合は、S4028へ。
・それ以外の場合は、S4024へ。
4.S4024では、分析要求に応じて以下の分岐処理を行う。
・プロパティ検索の場合は、S40210へ。
・それ以外の場合は、S4025へ。
5.S4025では、分析要求に応じて以下の分岐処理を行う。
・プロパティ集計の場合は、S40212へ。
・それ以外の場合は、エラーを表示インターフェース5に出力して終了。
6.S4026では、分析処理の種別を‘検索’に設定する。分析パラメータを、表示インターフェース5で、ユーザの選択した対象文書構造と、入力した文章に設定する。
7.S4027では、統合処理を‘追加’に設定する。統合パラメータを‘スコア’に設定する。
8.S4028では、分析処理の種別を‘分類’に設定する。分析パラメータを表示インターフェース5でユーザの選択した対象文書構造に設定する。
9.S4029では、統合処理を‘追加’に設定する。統合パラメータを‘カテゴリID’に設定する。
10.S40210では、分析処理の種別を‘検索’に設定する。分析パラメータに表示インターフェース5でユーザの設定したプロパティ検索条件とする。
11.S40211では、統合処理を‘追加’に設定する。統合パラメータを‘全プロパティ’に設定する。
12.S40212では、分析処理の種別を‘グループ化’に設定する。分析パラメータを表示インターフェース5でユーザの選択したグループ化の対象構造に設定する。
13.S40213では、統合処理を‘集計’に設定する。統合パラメータを表示インターフェース5でユーザの選択した集計対象の対象構造に設定する。
14.S40214では、分析装置をテキストに設定する。
15.S40215では、分析装置をデータに設定する。
16.S40216では、S4026〜S40215の処理によって設定された、分析処理の種別、分析パラメータ、統合処理の種別、統合パラメータからなる要素を作成し、分析要求リストヘ追加する。作成される分析要求リストの形式は、表6の通りである。S4021へ戻る。
【0056】
【表6】
Figure 0004025572
【0057】
次に、テキスト分析処理(S407の詳細)について説明する。テキスト分析処理のフローを図9に示す。
1.S4071では、テキスト分析装置3がテキスト分析条件を受信する。
2.S4072では、テキスト分析条件の、分析処理の種別を見て以下の分岐処理を行う。
・「検索」の場合は、処理S4073へ。
・「分類」の場合は、処理S4077へ。
3.S4073では、テキスト分析条件の分析パラメータ(入力文書と対象構造)を用いて、テキストDB7から対象となるテキスト情報をすべて取得する。ここで、テキスト情報とは、文書IDとテキストからなる。
4.S4074では、入力文書とS4073で取得された各テキスト情報間の類似度を計算する。テキスト間の類似度の計算方法は既存技術に従う。
5.S4075では、テキスト情報間の類似度(スコア)の降順に文書IDをソートする。
6.S4076では、類似度の降順にソートされた、文書IDと類似度のペアを検索結果とする。
7.S4077では、テキスト分析条件の分析パラメータ(対象構造と文書ID)を用いて、テキストDB7から対象となるテキスト情報をすべて取得する。
8.S4078では、S4077で得られた任意の2つのテキスト情報間の類似度を計算する。
9.S4079では、S4078で得られた類似度に基づき分類を行う。ここでの出力は「分類カテゴリとその分類カテゴリに属する文書IDの集合」のリストである。分類方法は階層型クラスタリング等の既存技術を用いる。
10.S40710では、各分類カテゴリに自動的にカテゴリIDを付与し、カテゴリIDとそのカテゴリに含まれる文書IDのペアを分類結果とする。
11.S40711では、S4076で得られた検索結果またはS40710で得られた分類結果をテキスト分析結果として、統合分析装置4へ送信する。テキスト分析処理を終了する。
【0058】
次に、統合分析結果への追加処理(S413の詳細)について説明する。統合分析結果への追加処理のフローを図10に示す。
1.S4131では、統合分析要求リストの要素eの統合処理の種別によって以下の分岐処理を行う。
・追加の場合は、S4132へ。
・集計の場合は、S4136へ。
2.S4132では、各分析結果(テキスト分析結果またはデータ分析結果)を一つ取り出す。次に、その文書IDに対応したレコードが既に統合分析結果に登録されているかに応じて以下の分岐処理を行う。
・登録されていない場合は、S4133へ
・登録済みの場合は、S4134へ。
3.S4133では、統合パラメータに指定されたフィールドからなるレコードを作成し、統合分析結果に追加する。例えば、統合パラメータに‘スコア’と設定されている場合には、文書IDと各分析結果の中の‘スコア’の値からなるレコードを作成し、統合分析結果にこのレコードを追加する。
4.S4134では、登録されている文書IDの統合パラメータの追加対象フィールドに分析結果を挿入する。例えば、統合パラメータに‘カテゴリID’と設定されている場合には、各分析結果の中の‘カテゴリID’の値を、対応するレコードの‘カテゴリID’フィールドに挿入する。
5.S4135では、各分析結果の中に未処理の文書があるかどうかを判断し、なければ統合分析結果の追加処理を終了する。ある場合は、S4132へ戻る。
6.S4136では、データ分析結果から特定のフィールドでグループ化された文書IDの集合を取得する。
7.S4137では、各文書IDの集合に対して、集計対象のプロパティで集計処理(値の合計を計算)を行う。
8.S4138では、集計レコード(集計のグループ化に用いたフィールドの値と集計値からなるレコード)を統合分析結果に追加する。
9.S4139では、未処理の文書IDの集合があるかを判断しなければ終了する。ある場合にでは、S4137へ戻る。
【0059】
なお、図1で示した装置における各部の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図5〜図10で示した処理の手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラム、あるいは、コンピュータにその処理の手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記憶媒体、例えば、FD(フロッピーディスク(登録商標))や、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに格納して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【0060】
【発明の効果】
以上述べたように、本発明によると、任意の構造化文書に記述された情報に対して、設定情報による簡単な指定を行なうだけで、文章の類似度による分析とプロパティに対する分析を統合して行なうことができる。
【図面の簡単な説明】
【図1】本発明による構造化文書分析装置の一実施形態例による構成図である。
【図2】本実施形態例の表示インターフェースの例を示す図である。
【図3】本発明を類似文章の検索に利用した例を示す図である。
【図4】本発明を類似文章の分類に利用した例を示す図である。
【図5】本発明による構造化文書分析方法の一実施形態例を示す図であって、構造化文書分析処理のフローを示す図である。
【図6】上記構造化文書分析処理における構造化文書ロード処理のフローを示す図である。
【図7】上記構造化文書分析処理における統合分析処理のフローを示す図である。
【図8】上記統合分析処理における統合分析条件の解析処理のフローを示す図である。
【図9】上記統合分析処理におけるテキスト分析処理のフローを示す図である。
【図10】上記統合分析処理における統合分析結果への追加処理のフローを示す図である。
【符号の説明】
1…構造化文書ローダ
2…データ分析装置
3…テキスト分析装置
4…統合分析装置
5…表示インターフェース
6…リレーショナルデータベース(RDB)
7…テキストデータベース(テキストDB)
8…構造化文書
9…設定情報

Claims (10)

  1. プロパティと文章が記述された構造化文書を分析する構造化文書分析装置において、
    構造化文書を読み込み、各構造化文書に文書IDを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ローダと、
    該プロパティと文書IDを格納し、データ分析条件により分析するデータ分析手段と、
    該文章と文書IDを格納し、テキスト分析条件により分析するテキスト分析手段と、
    該データ分析条件及び該テキスト分析条件を入力されるとともに、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を該文書IDを用いて統合する統合分析手段と、
    該統合された分析結果を表示する表示インターフェースとを有し、
    前記テキスト分析手段は、
    文章と対象文章構造の指定をテキスト分析条件として受け取り、
    該受け取った文章と、該指定された対象文書構造に対応付けられて格納されている各文章の内容とがどの程度類似しているのかを計算し、
    該計算結果の類似度順に文書IDをソートし、該ソートされた文書IDと類似度のペアをテキスト分析結果として統合分析手段に出力する
    ことを特徴とする構造化文書分析装置。
  2. プロパティと文章が記述された構造化文書を分析する構造化文書分析装置において、
    構造化文書を読み込み、各構造化文書に文書IDを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ローダと、
    該プロパティと文書IDを格納し、データ分析条件により分析するデータ分析手段と、
    該文章と文書IDを格納し、テキスト分析条件により分析するテキスト分析手段と、
    該データ分析条件及び該テキスト分析条件を入力されるとともに、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を該文書IDを用いて統合する統合分析手段と、
    該統合された分析結果を表示する表示インターフェースとを有し、
    前記テキスト分析手段は、
    文書IDと、対象文書構造の指定をテキスト分析条件として受け取り、
    該指定された対象文書構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、
    該計算結果の類似度に基づき文書を分類して、分類結果である分類カテゴリ毎にカテゴリIDを割り振り、
    該カテゴリIDとカテゴリIDに属する文書IDのペアをテキスト分析結果として統合分析手段に出力する
    ことを特徴とする構造化文書分析装置。
  3. 前記統合分析手段は、
    設定情報を取得し、
    構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、
    表示インターフェースから指定された統合分析条件に従い、データ分析手段にはデータ分析条件を、テキスト分析手段にはテキスト分析条件を送信し、
    該データ分析手段からデータ分析結果を、該テキスト分析手段からテキスト分析結果を受け取り、
    該データ分析結果に付けられた文書ID及び該テキスト分析結果に付けられた文書IDを用いて、これらの分析結果を統合し統合された分析結果を出力するものである
    ことを特徴とする請求項1または請求項2のいずれか1項に記載の構造化文書分析装置。
  4. 前記表示インターフェースは、
    ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを統合分析条件として指定し、
    統合分析手段から出力された、統合された分析結果を表示するものである
    ことを特徴とする請求項3に記載の構造化文書分析装置。
  5. プロパティと文章が記述された構造化文書を、コンピュータを用いて分析する構造化文書分析方法において、
    構造化文書ローダが、構造化文書を読み込み、各構造化文書に文書IDを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ロード手順と、
    データ分析手段が、プロパティと文書IDを格納し、データ分析条件により分析するテータ分析手順と、
    テキスト分析手段が、該文章と文書IDを格納し、テキスト分析条件により分析するテキスト分析手順と、
    統合分析手段が、該データ分析条件及び該テキスト分析条件を受け取り、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を統合する統合分析手順と、
    表示インターフェースに該統合された分析結果を表示する表示手順とを有し、
    前記テキスト分析手順は、
    文章と対象文章構造の指定をテキスト分析条件として受け取り、
    該受け取った文章と、該指定された対象文書構造に対応付けられて格納されている各文章の内容とがどの程度類似しているのかを計算し、
    該計算結果の類似度順に文書IDをソートして、該ソートされた文書IDと類似度のペアをテキスト分析結果として統合分析手段に出力する
    ことを特徴とする構造化文書分析方法。
  6. プロパティと文章が記述された構造化文書を、コンピュータを用いて分析する構造化文書分析方法において、
    構造化文書ローダが、構造化文書を読み込み、各構造化文書に文書IDを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ロード手順と、
    データ分析手段が、プロパティと文書IDを格納し、データ分析条件により分析するテータ分析手順と、
    テキスト分析手段が、該文章と文書IDを格納し、テキスト分析条件により分析するテキスト分析手順と、
    統合分析手段が、該データ分析条件及び該テキスト分析条件を受け取り、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を統合する統合分析手順と、
    表示インターフェースに該統合された分析結果を表示する表示手順とを有し、
    前記テキスト分析手順は、
    文書IDと、対象文書構造の指定をテキスト分析条件として受け取り、
    該指定された対象文書構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、
    該計算結果の類似度に基づき文書を分類して、分類結果である分類カテゴリ毎にカテゴリIDを割り振り、
    該カテゴリIDとカテゴリIDに属する文書IDのペアをテキスト分析結果として統合分析手段に出力する
    ことを特徴とする構造化文書分析方法。
  7. 前記分析条件作成手順では、
    設定情報を取得し、
    構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、
    表示インターフェースから指定された統合分析条件に従い、データ分析条件とテキスト分析条件を作成し、
    前記統合分析手順では、
    該データ分析手順で得られたデータ分析結果と該テキスト分析手順で得られたテキスト分析結果とを受け取り、
    該データ分析結果に付けられた文書ID及び該テキスト分析結果に付けられた文書IDを用いてこれらの分析結果を統合し、統合された分析結果を出力する
    ことを特徴とする請求項5または請求項6のいずれか1項に記載の構造化文書分析方法。
  8. 前記分析条件作成手順において、
    表示インターフェースから指定された統合分析条件は、
    ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを指定するものである
    ことを特徴とする請求項7に記載の構造化文書分析方法。
  9. 請求項5〜請求項8のいずれか1項に記載の構造化文書分析方法における手順を、コンピュータに実行させることを特徴とする構造化文書分析プログラム。
  10. 請求項9の構造化文書分析プログラムを、コンピュータが読み取り可能な記録媒体に記録したことを特徴とする構造化文書分析プログラムを記録した記録媒体。
JP2002103239A 2002-04-05 2002-04-05 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体 Expired - Fee Related JP4025572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002103239A JP4025572B2 (ja) 2002-04-05 2002-04-05 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002103239A JP4025572B2 (ja) 2002-04-05 2002-04-05 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2003296344A JP2003296344A (ja) 2003-10-17
JP4025572B2 true JP4025572B2 (ja) 2007-12-19

Family

ID=29389189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002103239A Expired - Fee Related JP4025572B2 (ja) 2002-04-05 2002-04-05 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP4025572B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989096B2 (en) * 2015-12-21 2024-05-21 Ab Initio Technology Llc Search and retrieval data processing system for computing near real-time data aggregations

Also Published As

Publication number Publication date
JP2003296344A (ja) 2003-10-17

Similar Documents

Publication Publication Date Title
US11776084B2 (en) Patent mapping
Milosevic et al. A framework for information extraction from tables in biomedical literature
US9659071B2 (en) Patent mapping
Nadkarni et al. Managing attribute–value clinical trials data using the ACT/DB client–server database system
US20070260492A1 (en) Master patient index
Lihitkar Science mapping and visualization tools used for bibliometric and scientometric studies: A comparative study
JP2008524712A (ja) ドメイン特定のデータ・エンティティ・マッピング方法及びシステム
CN104750776B (zh) 使用元数据访问数据库平台中的信息内容
US20060026174A1 (en) Patent mapping
Si et al. An OMOP CDM-based relational database of clinical research eligibility criteria
AU2013270517B2 (en) Patent mapping
EP1774432A2 (en) Patent mapping
Steele Bibliographic citation management software as a tool for building knowledge
KR101401225B1 (ko) 문서 분석 시스템
JP4025572B2 (ja) 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体
KR101078978B1 (ko) 문서 분류 시스템
JP2010518517A (ja) ユーザによるカスタマイズが可能な双方向医師リコールメッセージデータベースのための方法及びシステム
KR101078945B1 (ko) 문서 분석 시스템
US7657417B2 (en) Method, system and machine readable medium for publishing documents using an ontological modeling system
Eichler Metadata management in the data lake architecture
MIGOTTO A metadata model for healthcare: the health big data case study
JP4303921B2 (ja) テキストマイニングシステム及び方法並びにプログラム
Almeida et al. A 20-Year Journey of Tracing the Development of Web Catalogues for Rare Diseases
Kumar Design and implementation of an agricultural publication information system using metadata description: A web-based documentation and performance evaluation approach
KR101372613B1 (ko) 문서 분류 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees