JP4025572B2

JP4025572B2 - 構造化文書分析装置と方法、及び構造化文書分析プログラムと構造化文書分析プログラムを格納した記憶媒体

Info

Publication number: JP4025572B2
Application number: JP2002103239A
Authority: JP
Inventors: 準二富田; 哲夫池田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-04-05
Filing date: 2002-04-05
Publication date: 2007-12-19
Anticipated expiration: 2022-04-05
Also published as: JP2003296344A

Description

【０００１】
【発明の属する技術分野】
本発明は、構造化文書に記述されたプロパティと文章を統合的に分析するための分析装置、分析方法および分析プログラムに関するものである。
【０００２】
【従来の技術】
様々な情報の中には、プロパティと文章の両方を持っているものが数多くある。例えば、特許情報は、「出願人」、「出願日」等のプロパティと、「請求項」、「実施例」等の文章を持ち、また、カルテは、「診察日」、「処方薬」等のプロパティと「症状」等の文章を持っている。構造化文書では、これらの両方を同じ形式で表現することができる。例えば、タグを用いて特許情報を表現した例を表１に示す。
【０００３】
【表１】

【０００４】
このような構造化文書の分析を行なうために、現在利用できる分析手法として以下の２つがある。
【０００５】
●データ分析手法
構造化文書の特定のタグを属性として扱い、属性を「列」、各文書を「行」とした表形式で管理し、このような表に対して分析を行なう。例えば、「出願人」と「出願日」を属性として管理することによって、最近どこの会社（出願人）が特許の出願を頻繁に行なっているのかを分析することができる。
【０００６】
●テキスト分析手法
構造化文書を単なるテキストとして扱い、テキスト同士がどの程度似ているのかに基づいて類似文書の検索、分類を行なう。例えば、類似特許を検索したり、特許の内容に基づく分類等をすることによって、分析を行なうことができる。
【０００７】
【発明が解決しようとする課題】
データ分析手法（マイケルＪ．Ａ．ベリー、ゴードン・リノフ著、ＳＡＳインスティチュートジャパン、江原淳、佐藤栄作、共訳、海文堂）を用いると、構造化文書に記述されたプロパティに関しての詳細な分析ができる。しかし、構造化文書に記述された文章に関して、これら文章間の類似性を利用した分析はできない。例えば、「ある特許に類似している特許が、どこの会社から数多く出願されているのか？」といった分析はできなかった。
【０００８】
一方、テキスト分析手法を用いると、構造化文書を１つのテキストと見なして、これらの類似性を判定することはできる。しかし、構造化文書の中の特定の文書構造のみに着目した類似性の判定はできない。そのため、例えば、「特許の請求項に記述された文章についてのみ類似文章の検索を行ない、実施例に記述された文章の内容で分類する。」といった、文書構造を意識した類似文書検索や文書分類ができなかった。
【０００９】
また、テキスト分析手法では、プロパティと文章を柔軟に組み合わせた分析はできない。例えば、「自社で開発しているものと実施例が類似するような特許を数多く出願している企業はどこか？」や、「その出願時期はいつなのか？」といった、文章（実施例の類似度）とプロパティ（出願人、出願日等）を自由に組み合わせて分析することができなかった。
【００１０】
このように、従来技術では、構造化文書がプロパティと文章を同様の形式で記述可能であるにもかかわらず、これら両方を同時に利用した分析ができる手法は存在しなかった。
【００１１】
本発明は、上記従来技術の問題点を解決するために為されたものであり、構造化文書をプロパティと文章の両方を同時に利用した分析ができる分析装置、分析方法および分析プログラムを提供することを課題とする。
【００１２】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、プロパティと文章が記述された構造化文書を分析する構造化文書分析装置において、構造化文書を読み込み、自動又は手動で作成された設定情報に基づきプロパティと文書に分ける構造化文書ローダと、該プロパティを格納し、データ分析条件により分析するデータ分析手段と、該文章を格納し、テキスト分析条件により分析するテキスト分析手段と、該設定情報に基づき、該データ分析条件及び該テキスト分析条件を作成するとともに、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を統合する統合分析手段と、該統合された分析結果を表示する表示インターフェースとを、有することを特徴とする構造化文書分析装置を解決手段とする。
【００１３】
あるいは、上記の構造化文書分析装置において、前記構造化文書ローダは、構造化文書を読み込み、各構造化文書に対して文書ＩＤを付与し、設定情報でプロパティと指定された文書構造の内容を文書ＩＤとともにデータ分析手段に格納し、設定情報で文章と指定された文書構造の内容を文書ＩＤとともにテキスト分析手段に格納するものであることを特徴とする構造化文書分析装置を解決手段とする。
【００１４】
あるいは、上記の構造化文書分析装置において、前記テキスト分析手段は、文章と対象文書構造の指定をテキスト分析条件として受け取り、該受け取った文章と、該指定された対象文書構造に対応づけられて格納されている各文章の内容とがどの程度類似しているのかを計算し、該各文書ＩＤと該計算した類似の度合いをテキスト分析結果として出力するものであることを特徴とする請求項２に記載の構造化文書分析装置を解決手段とする。
【００１５】
あるいは、上記の構造化文書分析装置において、前記テキスト分析手段は、文書ＩＤの集合と、対象文書構造の指定をテキスト分析条件として受け取り、該指定された対象構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、該計算された類似の度合いに基づき各文書の分類を行ない、該文書ＩＤと該分類結果である分類カテゴリＩＤをテキスト分析結果として出力するものであることを特徴とする構造化文書分析装置を解決手段とする。
【００１６】
あるいは、上記の構造化文書分析装置において、前記統合分析手段は、設定情報を取得し、構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、表示インターフェースから指定された統合分析条件に従い、データ分析手段にはデータ分析条件を、テキスト分析手段にはテキスト分析条件を送信し、該データ分析手段からデータ分析結果を、該テキスト分析手段からテキスト分析結果を受け取り、該データ分析結果に付けられた文書ＩＤ及び該テキスト分析結果に付けられた文書ＩＤを用いて、これらの分析結果を統合し統合された分析結果を出力するものであることを特徴とする構造化文書分析装置を解決手段とする。
【００１７】
あるいは、上記の構造化文書分析装置において、前記表示インターフェースは、ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを統合分析条件として指定し、統合分析手段から出力された、統合された分析結果を表示するものであることを特徴とする構造化文書分析装置を解決手段とする。
【００１８】
あるいは、プロパティと文章が記述された構造化文書を分析する構造化文書分析方法において、構造化文書を読み込み、自動又は手動で作成された設定情報に基づきプロパティと文書に分けて、該プロパティをデータ格納手段に格納し、該文章を文章格納手段に格納する構造化文書ロード手順と、該設定情報に基づき、データ分析条件及びテキスト分析条件を作成する分析条件作成手順と、該データ分析条件により、該格納されたプロパティを分析するデータ分析手順と、該テキスト分析条件により該格納された文章を分析するテキスト分析手順と、該データ分析手順で得られたデータ分析結果及び該テキスト分析手順で得られたテキスト分析結果を統合する統合分析手順と、該統合された分析結果を表示インターフェースで表示する表示手順とを、有することを特徴とする構造化文書分析方法を解決手段とする。
【００１９】
あるいは、上記の構造化文書分析方法において、前記構造化文書ロード手順では、構造化文書を読み込み、各構造化文書に対して文書ＩＤを付与し、設定情報でプロパティと指定された文書構造の内容を文書ＩＤとともにデータ格納手段に格納し、設定情報で文章と指定された文書構造の内容を文書ＩＤとともに文章格納手段に格納することを特徴とする構造化文書分析方法を解決手段とする。
【００２０】
あるいは、上記の構造化文書分析方法において、前記テキスト分析手順では、文章と対象文書構造の指定をテキスト分析条件として受け取り、該受け取った文章と、該指定された対象文書構造に対応づけられて格納されている各文章の内容とがどの程度類似しているのかを計算し、該各文書ＩＤと該計算した類似の度合いをテキスト分析結果として出力することを特徴とする構造化文書分析方法を解決手段とする。
【００２１】
あるいは、上記の構造化文書分析方法において、前記テキスト分析手順では、文書ＩＤの集合と、対象文書構造の指定をテキスト分析条件として受け取り、該指定された対象構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、該計算された類似の度合いに基づき各文書の分類を行ない、該文書ＩＤと該分類結果である分類カテゴリＩＤをテキスト分析結果として出力することを特徴とする構造化文書分析方法を解決手段とする。
【００２２】
あるいは、上記の構造化文書分析方法において、前記分析条件作成手順では、設定情報を取得し、構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、表示インターフェースから指定された統合分析条件に従い、データ分析条件とテキスト分析条件を作成し、前記統合分析手順では、該データ分析手順で得られたデータ分析結果と該テキスト分析手順で得られたテキスト分析結果とを受け取り、該データ分析結果に付けられた文書ＩＤ及び該テキスト分析結果に付けられた文書ＩＤを用いてこれらの分析結果を統合し、統合された分析結果を出力することを特徴とする構造化文書分析方法を解決手段とする。
【００２３】
あるいは、上記の構造化文書分析方法における、前記分析条件作成手順において、表示インターフェースから指定された統合分析条件は、ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを指定するものであることを特徴とする構造化文書分析方法を解決手段とする。
【００２４】
あるいは、上記の構造化文書分析方法における手順を、コンピュータに実行させるためのプログラムとしたことを特徴とする構造化文書分析プログラムを解決手段とする。
【００２５】
あるいは、上記の構造化文書分析方法における手順を、コンピュータに実行させるためのプログラムとし、該プログラムを、該コンピュータが読み取りできる記憶媒体に格納したことを特徴とする構造化文書分析プログラムを格納した記憶媒体を解決手段とする。
【００２６】
本発明は、構造化文書の分析において、構造化文書の中の文章の部分をテキストとして、プロパティの部分をデータとして格納、管理し、これら２つの間の一貫性を保つことによって、プロパティに対する分析と文章の類似度に基づく分析を統合的に行なうことを可能にする。
【００２７】
【発明の実施の形態】
以下、本発明の実施の形態について図を用いて詳細に説明する。
【００２８】
本発明による構造化文書分析装置の一実施形態例による構成図を図１に示す。図１において、１は構造化文書ローダ、２はデータ分析装置、３はテキスト分析装置、４は統合分析装置、５は表示インターフェース、６はリレーショナルデータベース（以下、ＲＤＢ）、７はテキストデータベース（以下、テキストＤＢ）、８は構造化文書、９は設定情報である。
【００２９】
ここで、自動又は手動で作成される設定情報９には、構造化文書８のどの部分をデータとして管理し、どの部分をテキストとして管理するのかが示されている。設定情報９の例を表２に示す。
【００３０】
【表２】

【００３１】
この例では、「出願人」、「出願日」、「発明者」、「発明の名称」の各文書構造の内容をプロパティと見なしデータとして管理し、「請求項」、「実施例」の各文書構造の内容を文章と見なしテキストとして管理する。
【００３２】
構造化文書ローダ１は、構造化文書８を読み込み、設定情報９に基づき、プロパティをデータ分析装置２に、文章をテキスト分析装置３に格納する。この際、各構造化文書８に対して、データ分析装置２とテキスト分析装置３の双方で利用可能な一貫した文書ＩＤを付与する。それぞれの分析装置での格納方法は、表３、表４の通りである。
【００３３】
【表３】

【００３４】
【表４】

【００３５】
データ分析装置２には、通常のリレーショナルデータベース（ＲＤＢ６）が利用可能であり、構造化文書８の各プロパティは属性として表現され、１レコードにつき一つの文書が格納されている。文書ＩＤは、構造化文書ローダ１が付与したものである。
【００３６】
テキスト分析装置３には、テキストＤＢ７が接続され、対象文書構造（請求項や実施例）毎に、各文書ＩＤと対応する文章が格納されている。テキスト分析装置３は、以下の類似文章検索機能と文章分類機能等の文章に対する分析機能を持っているものとする。
【００３７】
●類似文章検索機能
１．文章と対象文書構造を入力として受け取る。
２．入力された文書構造に対応づけられて格納されている各文章と入力された文章の間の類似度を計算する。
３．類似度の高い文章順に、類似度（スコア）と文書ＩＤのペアを出力する。
【００３８】
●文章分類機能
１．文書ＩＤの集合と対象文書構造を入力として受け取る。
２．入力された文書構造に対応づけられて格納されている、各文書ＩＤに対応する文章を取得する。
３．任意の２つの文章間の類似度を計算する。
４．この類似度を利用することによって文章を分類する。分類方法はここでは特に限定しないが、例えば、類似度の高い順に順次文書をまとめて行くことによって規定個数に分類する。この手法は階層型クラスタリングと呼ばれている。
５．各分類結果（分類カテゴリ）について分類カテゴリＩＤを割り振る．
６．カテゴリＩＤと文書ＩＤを出力する。
【００３９】
例えば、１０個の文書を３つの分類カテゴリに分類する場合の入出力は表５の通りである。
【００４０】
【表５】

【００４１】
この例では、「請求項」の文章の内容に基づき文書ＩＤが３つの分類カテゴリ（Ｃ１，Ｃ２，Ｃ３）に分類されている。
【００４２】
統合分析装置４は、構造化文書ローダ１で用いた設定情報９と同じものを入力として受け取り、構造化文書８のどの部分がデータ分析装置２によって格納され管理されていて、どの部分がテキスト分析装置３によって格納され管理されているのかを自動的に取得する。これらの分析情報と文書ＩＤを用いて、データ分析装置２から得られた分析結果とテキスト分析装置３から得られた分析結果を統合する。例えば、テキスト分析装置３で類似文章検索を行い、検索結果の文書ＩＤを用いて、データ分析装置２からプロパティを取得することができる。また、何らかの条件でデータ分析装置２から文書ＩＤの集合を取得すると、これらの文書ＩＤを用いて、文章の内容に応じて文書の分類を行なうこともできる．
本実施形態例の表示インターフェース５を図２に示す。分析結果には、統合分析装置４から得られる情報（分類カテゴリ、スコア、各種プロパティ）等を表形式で出力する。また、類似文章の検索や類似文章の分類等のテキスト分析装置３で行なうことができる分析や、プロパティを条件とした検索や集計等のデータ分析装置２で行なうことができる分析のための分析条件を指定できる。
【００４３】
本発明を用いた実際の分析例について説明する。分析対象は表１の形式の文書集合とする。設定情報９には表２のように指定されているものとする。まず、前処理として構造化文書ローダ１が、分析対象となる全ての文書を読み込み、設定情報９でプロパティと指定された項目をデータ分析装置２に、文章と指定された項目をテキスト分析装置３に格納する。次に、ユーザは以下のようにして分析を行なう。
【００４４】
●類似文章の検索に利用した例（図３）
１．ユーザは、表示インターフェース５の類似文章検索条件に、文章（自分の特許の請求項等）を入力し、対象文書構造として「請求項」を選択する。また、プロパティ集計条件のグループ化の対象として「出願人」を選択し、集計対象として「スコア」を選択する。「分析実行」ボタンを押す。
２．統合分析装置４は、これらのユーザの入力を統合分析条件として受け取り、この中の入力文章と対象文書構造を、テキスト分析条件としてテキスト分析装置３に送る。
３．テキスト分析装置３は、類似文書検索機能を用いて、各文書のスコアを計算し、このスコアと文書ＩＤをテキスト分析結果として統合分析装置４に送る。
４．統合分析装置４は、ユーザの入力したグルーブ化対象「出願人」と集計対象「スコア」とテキスト分析装置３から取得した文書ＩＤを、データ分析条件として、データ分析装置２に送る。
５．データ分析装置２は、文書ＩＤに対応したプロパティを取得し、プロパティの１つである「出願人」によってグルーブ化を行ない「スコア」を集計する。これらの結果をデータ分析結果として統合分析装置４に送る。
６．統合分析装置４は、テキスト分析結果とデータ分析結果を文書ＩＤを用いて統合し、統合分析結果として表示インターフェース５に送る。
７．表示インターフェース５では図３のように分析結果を表示する。
【００４５】
この結果、どの出願人（他社）が自分の特許の類似特許を数多く出願しているのかが分析できる。
【００４６】
●類似文章分類に利用した例（図４）
１．ユーザは、表示インターフェスのプロパティ検索条件の出願人に「Ａ社」、出願日に「１９９７」〜「２００１」と指定する。また、類似文章分類条件の対象文書構造に「実施例」を指定する。「分析実行」ボタンを押す。
２．統合分析装置４は、これらのユーザの入力を統合分析条件として受け取り、この中の「出願人」と「出願日」をデータ分析条件として、データ分析装置２に送る。
３．データ分析装置２は、出願人が「Ａ社」で、出願日が「１９９７」〜「２００１」である文書の文書ＩＤと各文書ＩＤに対応するプロパティをデータ分析結果として、統合分析装置４に送る。
４．統合分析装置４は、このようにして得られた文書ＩＤとユーザの指定した類似文章分類条件の対象文書構造「実施例」をテキスト分析条件として、テキスト分析装置３に送る。
５．テキスト分析装置３は、文章分類機能を用いて「実施例」の各文書ＩＤに対応づけられて格納されている文章間の類似度を計算し、各文書を分類する。分類結果である分類カテゴリＩＤとそれに対応した文書ＩＤをテキスト分析結果として統合分析装置４に送る。
６．統合分析装置４は、テキスト分析結果とデータ分析結果を文書ＩＤを用いて統合し、表示インターフェース５に送る。
７．表示インターフェース５は図４のように分析結果を表示する。
【００４７】
この結果、Ａ社がどのような特許を１９９７年から２００１年の間に出願しているのかを、実施例の内容に基づいた分類カテゴリ毎に分析することができる。
【００４８】
分析を行ないたい文書構造は、設定情報９に指定するだけで容易に変更することができる。そのため、実施形態例に上げた、「出願人」だけでなく、「登録日」、「分類記号」といった任意のプロパティや文章を分析の対象とすることができる。また、分類を行なった後に、特定の分類カテゴリに属する文書についてのみ、さらに類似文章検索を行なったり、再び、さらに細かく分類したり、集計をすることもできる。このように、ここにあげた例だけでなく、データ分析装置２とテキスト分析装置３の様々な利用の組み合わせが可能である。
【００４９】
また、表示インターフェースに関しては、図２に限定されるものでなく、データ分析装置、テキスト分析装置に対する分析条件を指定できる機能と、統合された結果を表示する機能を持つものであれば、どのようなものでも良い。
【００５０】
本発明は、特許の分析に限定されるものではなく、プロパティと文章の両方が記述された構造化文書であればどのようなものにでも適用できる。そのため、例えば、カルテのように、症状、治療薬、年齢が記述された構造化文書を対象とする場合には、類似症状を検索し、その症状の治療に適した治療薬や発症年齢に関する分析を行なうこともできる。
【００５１】
以下では、上記構造化文書分析装置の動作例とともに、本発明による構造化文書分析方法の一実施形態例を説明する。
【００５２】
まず、システム全体の構造化文書分析処理について説明する。構造化文書分析処理のフローを図５に示す。
１．Ｓ１では、設定情報９に従い構造化文書８を解析し、プロパティとテキスト情報をそれぞれＲＤＢ（リレーショナルデータベース）６、テキストデータベース７に格納する。詳細は、「構造化文書ロード処理」に示す。
２．Ｓ２では、ユーザが表示インターフェース５を通して、統合分析要求を入力する。表示インターフェース５は、図２の通りである。
３．Ｓ３では、統合分析要求が、終了要求であった場合には、処理を終了する。終了要求以外の場合には、統合分析処理に移る。
４．Ｓ４では、表示インターフェース５から入力された統合分析要求を取得し、ＲＤＢ６、テキストＤＢ７に格納された情報に対して分析を行い、統合分析結果を生成する。詳細は、「統合分析処理」に示す。
５．Ｓ５では、Ｓ４で生成された統合分析結果を、表示インターフェース５ヘ出力する。Ｓ２へ戻る。
【００５３】
次に、構造化文書ロード処理（Ｓ１の詳細）について説明する。構造化文書ロード処理のフローを図６に示す。
１．Ｓ１１では、人手または自動的に作成された設定情報９を読み込み、構造化文書８中のどの構造がプロパティであり、どの構造が文章であるかを表す、構造管理リストを作成する。設定情報９の例は表２のとおりである。
２．Ｓ１２では、構造化文書８を１文書読み込む。
３．Ｓ１３では、構造化文書８の読み込みがすべて終了していれば、構造化文書ロード処理を終了する。読み込み文書がある場合には、構造化文書８の解析処理に移る。
４．Ｓ１４では、構造化文書８を解析し、構造（タグ名）と構造の内容（タグで囲まれた値）に分割し、構造をキー、構造の内容を値とするハッシュテーブルを作成する。
５．Ｓ１５では、Ｓ１１で作成された構造管理リストの、プロパティと指定された各構造をキーにして、Ｓ１４で作成されたハッシュテーブルを引く。その結果、プロパティとして管理する必要のある値が得られる。この値をＲＤＢ６に格納する。格納形態は、表３のとおりである。
６．Ｓ１６では、Ｓ１１で作成された構造管理リストの、文章と指定された各構造をキーにして、Ｓ１４で作成されたハッシュテーブルを引く。その結果、文章として管理する必要のある値が得られる。この値をテキストＤＢ７に格納する。格納形態は、表４のとおりである。Ｓ１２へ戻る。
【００５４】
次に、統合分析処理（Ｓ４の詳細）について説明する。統合分析処理のフローを図７に示す。
１．Ｓ４０１では、統合分析条件を表示インターフェース５から取得する。統合分析条件には、テキスト分析装置３に対する分析要求と、データ分析装置２に対する分析要求の両方が記述されているものとする。
２．Ｓ４０２では、統合分析条件を解析し分析要求リストを作成する。詳細は、「統合分析条件の解析処理」に示す。
３．Ｓ４０３では、空の統合分析結果を作成する。ここで、統合分析結果は、以下のフィールドを持つテーブルである。そのフィールドとは、文書ＩＤ、スコア、カテゴリＩＤ、（設定情報９にプロパティと指定された項目）である。
４．Ｓ４０４では、分析要求リストの先頭の要素ｅを１つ取り出し、要素ｅの分析装置の値を用いて以下の分岐処理を行う。
・テキストの場合には、Ｓ４０５へ。
・データの場合には、Ｓ４０９へ。分析要求リストが空の場合には、Ｓ４１４へ。
５．Ｓ４０５では、Ｓ４０４で取り出された要素ｅの分析処理の種別、分析パラメータの値、統合分析結果に含まれる文書ＩＤを用いてテキスト分析装置３に対応した形のテキスト分析条件を作成する。
６．Ｓ４０６では、テキスト分析装置３へＳ４０５で作成されたテキスト分析条件を送信する。
７．Ｓ４０７では、テキスト分析装置３が、テキスト分析要求を取得し、テキストＤＢ７に格納されている情報を用いてテキスト分析結果を生成し、統合分析装置４へ送信する。詳細は、「テキスト分析処理」に示す。
８．Ｓ４０８では、テキスト分析装置３からテキスト分析結果を受信する。
９．Ｓ４０９では、Ｓ４０４で取り出された要素ｅの分析処理の種別、分析パラメータの値、統合分析結果に含まれる文書ＩＤを用いて、データ分析装置２に対応した形のデータ分析条件を作成する。
１０．Ｓ４１０では、データ分析装置２へＳ４０９で作成されたデータ分析条件を送信する。
１１．Ｓ４１１では、データ分析装置２がデータ分析条件を取得し、ＲＤＢ６を用いてデータ分析結果を作成する。この処理は既存の技術であるリレーショナルデータベースマネージメントシステムに従う。
１２．Ｓ４１２では、データ分析装置２からデータ分析結果を受信する。
１３．Ｓ４１３では、Ｓ４０８またはＳ４１２で得られた分析結果を、Ｓ４０４で取り出された要素ｅの統合処理の種別、統合処理パラメータの値に従い統合分析結果に追加する。詳細は、「統合分析結果の追加処理」に示す。Ｓ４０４へ戻る。
１４．Ｓ４１４では、Ｓ４１３が作成した統合分析結果を表示インターフェース５ヘ送信する。
【００５５】
次に、統合分析条件の解析処理（Ｓ４０２の詳細）について説明する。統合分析条件の解析処理のフローを図８に示す。
１．Ｓ４０２１では、表示インターフェース５から入力された、統合分析条件があるかどうかを判定し、ある場合にはＳ４０２２へ移る。無い場合には終了する。
２．Ｓ４０２２では、統合分析条件を取り出し、分析要求に応じて以下の分岐処理を行う。
・類似文書検索の場合は、Ｓ４０２６へ。
・それ以外の場合は、Ｓ４０２３へ。
３．Ｓ４０２３では、分析要求に応じて以下の分岐処理を行う。
・類似文書分類の場合は、Ｓ４０２８へ。
・それ以外の場合は、Ｓ４０２４へ。
４．Ｓ４０２４では、分析要求に応じて以下の分岐処理を行う。
・プロパティ検索の場合は、Ｓ４０２１０へ。
・それ以外の場合は、Ｓ４０２５へ。
５．Ｓ４０２５では、分析要求に応じて以下の分岐処理を行う。
・プロパティ集計の場合は、Ｓ４０２１２へ。
・それ以外の場合は、エラーを表示インターフェース５に出力して終了。
６．Ｓ４０２６では、分析処理の種別を‘検索’に設定する。分析パラメータを、表示インターフェース５で、ユーザの選択した対象文書構造と、入力した文章に設定する。
７．Ｓ４０２７では、統合処理を‘追加’に設定する。統合パラメータを‘スコア’に設定する。
８．Ｓ４０２８では、分析処理の種別を‘分類’に設定する。分析パラメータを表示インターフェース５でユーザの選択した対象文書構造に設定する。
９．Ｓ４０２９では、統合処理を‘追加’に設定する。統合パラメータを‘カテゴリＩＤ’に設定する。
１０．Ｓ４０２１０では、分析処理の種別を‘検索’に設定する。分析パラメータに表示インターフェース５でユーザの設定したプロパティ検索条件とする。
１１．Ｓ４０２１１では、統合処理を‘追加’に設定する。統合パラメータを‘全プロパティ’に設定する。
１２．Ｓ４０２１２では、分析処理の種別を‘グループ化’に設定する。分析パラメータを表示インターフェース５でユーザの選択したグループ化の対象構造に設定する。
１３．Ｓ４０２１３では、統合処理を‘集計’に設定する。統合パラメータを表示インターフェース５でユーザの選択した集計対象の対象構造に設定する。
１４．Ｓ４０２１４では、分析装置をテキストに設定する。
１５．Ｓ４０２１５では、分析装置をデータに設定する。
１６．Ｓ４０２１６では、Ｓ４０２６〜Ｓ４０２１５の処理によって設定された、分析処理の種別、分析パラメータ、統合処理の種別、統合パラメータからなる要素を作成し、分析要求リストヘ追加する。作成される分析要求リストの形式は、表６の通りである。Ｓ４０２１へ戻る。
【００５６】
【表６】

【００５７】
次に、テキスト分析処理（Ｓ４０７の詳細）について説明する。テキスト分析処理のフローを図９に示す。
１．Ｓ４０７１では、テキスト分析装置３がテキスト分析条件を受信する。
２．Ｓ４０７２では、テキスト分析条件の、分析処理の種別を見て以下の分岐処理を行う。
・「検索」の場合は、処理Ｓ４０７３へ。
・「分類」の場合は、処理Ｓ４０７７へ。
３．Ｓ４０７３では、テキスト分析条件の分析パラメータ（入力文書と対象構造）を用いて、テキストＤＢ７から対象となるテキスト情報をすべて取得する。ここで、テキスト情報とは、文書ＩＤとテキストからなる。
４．Ｓ４０７４では、入力文書とＳ４０７３で取得された各テキスト情報間の類似度を計算する。テキスト間の類似度の計算方法は既存技術に従う。
５．Ｓ４０７５では、テキスト情報間の類似度（スコア）の降順に文書ＩＤをソートする。
６．Ｓ４０７６では、類似度の降順にソートされた、文書ＩＤと類似度のペアを検索結果とする。
７．Ｓ４０７７では、テキスト分析条件の分析パラメータ（対象構造と文書ＩＤ）を用いて、テキストＤＢ７から対象となるテキスト情報をすべて取得する。
８．Ｓ４０７８では、Ｓ４０７７で得られた任意の２つのテキスト情報間の類似度を計算する。
９．Ｓ４０７９では、Ｓ４０７８で得られた類似度に基づき分類を行う。ここでの出力は「分類カテゴリとその分類カテゴリに属する文書ＩＤの集合」のリストである。分類方法は階層型クラスタリング等の既存技術を用いる。
１０．Ｓ４０７１０では、各分類カテゴリに自動的にカテゴリＩＤを付与し、カテゴリＩＤとそのカテゴリに含まれる文書ＩＤのペアを分類結果とする。
１１．Ｓ４０７１１では、Ｓ４０７６で得られた検索結果またはＳ４０７１０で得られた分類結果をテキスト分析結果として、統合分析装置４へ送信する。テキスト分析処理を終了する。
【００５８】
次に、統合分析結果への追加処理（Ｓ４１３の詳細）について説明する。統合分析結果への追加処理のフローを図１０に示す。
１．Ｓ４１３１では、統合分析要求リストの要素ｅの統合処理の種別によって以下の分岐処理を行う。
・追加の場合は、Ｓ４１３２へ。
・集計の場合は、Ｓ４１３６へ。
２．Ｓ４１３２では、各分析結果（テキスト分析結果またはデータ分析結果）を一つ取り出す。次に、その文書ＩＤに対応したレコードが既に統合分析結果に登録されているかに応じて以下の分岐処理を行う。
・登録されていない場合は、Ｓ４１３３へ
・登録済みの場合は、Ｓ４１３４へ。
３．Ｓ４１３３では、統合パラメータに指定されたフィールドからなるレコードを作成し、統合分析結果に追加する。例えば、統合パラメータに‘スコア’と設定されている場合には、文書ＩＤと各分析結果の中の‘スコア’の値からなるレコードを作成し、統合分析結果にこのレコードを追加する。
４．Ｓ４１３４では、登録されている文書ＩＤの統合パラメータの追加対象フィールドに分析結果を挿入する。例えば、統合パラメータに‘カテゴリＩＤ’と設定されている場合には、各分析結果の中の‘カテゴリＩＤ’の値を、対応するレコードの‘カテゴリＩＤ’フィールドに挿入する。
５．Ｓ４１３５では、各分析結果の中に未処理の文書があるかどうかを判断し、なければ統合分析結果の追加処理を終了する。ある場合は、Ｓ４１３２へ戻る。
６．Ｓ４１３６では、データ分析結果から特定のフィールドでグループ化された文書ＩＤの集合を取得する。
７．Ｓ４１３７では、各文書ＩＤの集合に対して、集計対象のプロパティで集計処理（値の合計を計算）を行う。
８．Ｓ４１３８では、集計レコード（集計のグループ化に用いたフィールドの値と集計値からなるレコード）を統合分析結果に追加する。
９．Ｓ４１３９では、未処理の文書ＩＤの集合があるかを判断しなければ終了する。ある場合にでは、Ｓ４１３７へ戻る。
【００５９】
なお、図１で示した装置における各部の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図５〜図１０で示した処理の手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラム、あるいは、コンピュータにその処理の手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記憶媒体、例えば、ＦＤ（フロッピーディスク（登録商標））や、ＭＯ、ＲＯＭ、メモリカード、ＣＤ、ＤＶＤ、リムーバブルディスクなどに格納して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【００６０】
【発明の効果】
以上述べたように、本発明によると、任意の構造化文書に記述された情報に対して、設定情報による簡単な指定を行なうだけで、文章の類似度による分析とプロパティに対する分析を統合して行なうことができる。
【図面の簡単な説明】
【図１】本発明による構造化文書分析装置の一実施形態例による構成図である。
【図２】本実施形態例の表示インターフェースの例を示す図である。
【図３】本発明を類似文章の検索に利用した例を示す図である。
【図４】本発明を類似文章の分類に利用した例を示す図である。
【図５】本発明による構造化文書分析方法の一実施形態例を示す図であって、構造化文書分析処理のフローを示す図である。
【図６】上記構造化文書分析処理における構造化文書ロード処理のフローを示す図である。
【図７】上記構造化文書分析処理における統合分析処理のフローを示す図である。
【図８】上記統合分析処理における統合分析条件の解析処理のフローを示す図である。
【図９】上記統合分析処理におけるテキスト分析処理のフローを示す図である。
【図１０】上記統合分析処理における統合分析結果への追加処理のフローを示す図である。
【符号の説明】
１…構造化文書ローダ
２…データ分析装置
３…テキスト分析装置
４…統合分析装置
５…表示インターフェース
６…リレーショナルデータベース（ＲＤＢ）
７…テキストデータベース（テキストＤＢ）
８…構造化文書
９…設定情報

Claims

プロパティと文章が記述された構造化文書を分析する構造化文書分析装置において、
構造化文書を読み込み、各構造化文書に文書ＩＤを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ローダと、
該プロパティと文書ＩＤを格納し、データ分析条件により分析するデータ分析手段と、
該文章と文書ＩＤを格納し、テキスト分析条件により分析するテキスト分析手段と、
該データ分析条件及び該テキスト分析条件を入力されるとともに、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を該文書ＩＤを用いて統合する統合分析手段と、
該統合された分析結果を表示する表示インターフェースとを有し、
前記テキスト分析手段は、
文章と対象文章構造の指定をテキスト分析条件として受け取り、
該受け取った文章と、該指定された対象文書構造に対応付けられて格納されている各文章の内容とがどの程度類似しているのかを計算し、
該計算結果の類似度順に文書ＩＤをソートし、該ソートされた文書ＩＤと類似度のペアをテキスト分析結果として統合分析手段に出力する
ことを特徴とする構造化文書分析装置。
プロパティと文章が記述された構造化文書を分析する構造化文書分析装置において、
構造化文書を読み込み、各構造化文書に文書ＩＤを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ローダと、
該プロパティと文書ＩＤを格納し、データ分析条件により分析するデータ分析手段と、
該文章と文書ＩＤを格納し、テキスト分析条件により分析するテキスト分析手段と、
該データ分析条件及び該テキスト分析条件を入力されるとともに、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を該文書ＩＤを用いて統合する統合分析手段と、
該統合された分析結果を表示する表示インターフェースとを有し、
前記テキスト分析手段は、
文書ＩＤと、対象文書構造の指定をテキスト分析条件として受け取り、
該指定された対象文書構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、
該計算結果の類似度に基づき文書を分類して、分類結果である分類カテゴリ毎にカテゴリＩＤを割り振り、
該カテゴリＩＤとカテゴリＩＤに属する文書ＩＤのペアをテキスト分析結果として統合分析手段に出力する
ことを特徴とする構造化文書分析装置。
前記統合分析手段は、
設定情報を取得し、
構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、
表示インターフェースから指定された統合分析条件に従い、データ分析手段にはデータ分析条件を、テキスト分析手段にはテキスト分析条件を送信し、
該データ分析手段からデータ分析結果を、該テキスト分析手段からテキスト分析結果を受け取り、
該データ分析結果に付けられた文書ＩＤ及び該テキスト分析結果に付けられた文書ＩＤを用いて、これらの分析結果を統合し統合された分析結果を出力するものである
ことを特徴とする請求項１または請求項２のいずれか１項に記載の構造化文書分析装置。
前記表示インターフェースは、
ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを統合分析条件として指定し、
統合分析手段から出力された、統合された分析結果を表示するものである
ことを特徴とする請求項３に記載の構造化文書分析装置。
プロパティと文章が記述された構造化文書を、コンピュータを用いて分析する構造化文書分析方法において、
構造化文書ローダが、構造化文書を読み込み、各構造化文書に文書ＩＤを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ロード手順と、
データ分析手段が、プロパティと文書ＩＤを格納し、データ分析条件により分析するテータ分析手順と、
テキスト分析手段が、該文章と文書ＩＤを格納し、テキスト分析条件により分析するテキスト分析手順と、
統合分析手段が、該データ分析条件及び該テキスト分析条件を受け取り、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を統合する統合分析手順と、
表示インターフェースに該統合された分析結果を表示する表示手順とを有し、
前記テキスト分析手順は、
文章と対象文章構造の指定をテキスト分析条件として受け取り、
該受け取った文章と、該指定された対象文書構造に対応付けられて格納されている各文章の内容とがどの程度類似しているのかを計算し、
該計算結果の類似度順に文書ＩＤをソートして、該ソートされた文書ＩＤと類似度のペアをテキスト分析結果として統合分析手段に出力する
ことを特徴とする構造化文書分析方法。
プロパティと文章が記述された構造化文書を、コンピュータを用いて分析する構造化文書分析方法において、
構造化文書ローダが、構造化文書を読み込み、各構造化文書に文書ＩＤを付与し、設定情報に基づきプロパティと文書に分ける構造化文書ロード手順と、
データ分析手段が、プロパティと文書ＩＤを格納し、データ分析条件により分析するテータ分析手順と、
テキスト分析手段が、該文章と文書ＩＤを格納し、テキスト分析条件により分析するテキスト分析手順と、
統合分析手段が、該データ分析条件及び該テキスト分析条件を受け取り、該データ分析手段で得られたデータ分析結果及び該テキスト分析手段で得られたテキスト分析結果を統合する統合分析手順と、
表示インターフェースに該統合された分析結果を表示する表示手順とを有し、
前記テキスト分析手順は、
文書ＩＤと、対象文書構造の指定をテキスト分析条件として受け取り、
該指定された対象文書構造に対応づけられて格納されている各文書の内容が互いにどの程度類似しているのかを計算し、
該計算結果の類似度に基づき文書を分類して、分類結果である分類カテゴリ毎にカテゴリＩＤを割り振り、
該カテゴリＩＤとカテゴリＩＤに属する文書ＩＤのペアをテキスト分析結果として統合分析手段に出力する
ことを特徴とする構造化文書分析方法。
前記分析条件作成手順では、
設定情報を取得し、
構造化文書の文書構造のうちどの部分がデータとして格納されているのかと、どの部分がテキストとして格納されているかを判別し、
表示インターフェースから指定された統合分析条件に従い、データ分析条件とテキスト分析条件を作成し、
前記統合分析手順では、
該データ分析手順で得られたデータ分析結果と該テキスト分析手順で得られたテキスト分析結果とを受け取り、
該データ分析結果に付けられた文書ＩＤ及び該テキスト分析結果に付けられた文書ＩＤを用いてこれらの分析結果を統合し、統合された分析結果を出力する
ことを特徴とする請求項５または請求項６のいずれか１項に記載の構造化文書分析方法。
前記分析条件作成手順において、
表示インターフェースから指定された統合分析条件は、
ユーザからの入力に基づき、文章に対する分析条件とプロパティに対する分析条件とを指定するものである
ことを特徴とする請求項７に記載の構造化文書分析方法。
請求項５〜請求項８のいずれか１項に記載の構造化文書分析方法における手順を、コンピュータに実行させることを特徴とする構造化文書分析プログラム。
請求項９の構造化文書分析プログラムを、コンピュータが読み取り可能な記録媒体に記録したことを特徴とする構造化文書分析プログラムを記録した記録媒体。