JP2005234771A - 文書管理装置および方法 - Google Patents

文書管理装置および方法 Download PDF

Info

Publication number
JP2005234771A
JP2005234771A JP2004041417A JP2004041417A JP2005234771A JP 2005234771 A JP2005234771 A JP 2005234771A JP 2004041417 A JP2004041417 A JP 2004041417A JP 2004041417 A JP2004041417 A JP 2004041417A JP 2005234771 A JP2005234771 A JP 2005234771A
Authority
JP
Japan
Prior art keywords
role
document
specific expression
representative
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004041417A
Other languages
English (en)
Inventor
Katsunori Yoshiji
克典 芳地
Takeshi Nagamine
猛志 永峯
Akio Yamashita
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004041417A priority Critical patent/JP2005234771A/ja
Publication of JP2005234771A publication Critical patent/JP2005234771A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 固有表現に着目して文書を代表する役割を決定する。
【解決手段】 受け付けた文書中の固有表現が抽出され、さらに役割がある場合には役割を抽出して固有表現・役割記憶部14に記憶する。クエリ受付部15は、自然文のクエリを受け付ける。検索演算部17は、クエリの固有表現を、固有表現・役割記憶部14に保持されている、登録文書の固有表現と突き合わせ、所定の書を検索結果をして出力する。代表役割決定部18は、文中に出現する固有表現の役割を取り出し、当該文書を代表する役割を決定する。表示属性決定部19は、文書の代表役割に基づいて検索結果の表示リストの各文書エントリの背景色を決定する。
【選択図】 図1

Description

この発明は、文書群をリスト表示する際に、各文書を代表する役割に着目してユーザが文書を選択しやすくする文書リスト表示技術に関する。
文書検索や文書分類において、検索結果や、分類結果をリスト表示してそのリストを用いてユーザが文書を選択するようにすることが知られている。そして、単語ベクトル空間法に代表されるような任意の尺度により、クエリーや分類枠と各文書とを突き合わせてスコアをとり、このスコアに基づいて各文書のエントリをランキング表示することにより、ユーザに重要な文書を提示する方法も知られている。なお、リスト(文書リスト)は、種々の態様が可能であり、例えば、タイトルや日付等の属性と、要約とから各文書のエントリが構成されるが、これに限定されない。
ところで、従来の単語レベル演算によるランキング表示では、スコアに着目して上位から順に表示されるが、文書中で主題となる単語が主体の役割なのか対象の役割なのか明確でない。また、そもそも、文書を選択する基準がランキングのスコア算出基準であるため、ユーザにとってはどのような視点でクエリと文書がマッチしているのか明確でない。
本発明者等は研究の結果、単語や固有表現等の文における役割に着目し、さらに、この役割から文書全体の役割を導出することが有益であるという見地に至った。そして、このような文書全体の役割に基づいた表示属性により文書リストの各エントリを表示することが、ユーザの文書選択上極めて有益であることを発見した。
この発明は、文書中の固有表現の文における役割に着目して文書の役割を決定しようとするものである。
この発明は、以上の事情を考慮してなされたものであり、文書を検索したり分類したりするときにそのキーワードを用いて文書を代表する役割を決定する技術を提供することを目的としている。
この発明の構成例では、例えば、文書中に出現する固有名詞の役割の違いにより、文書群をリスト表示する際に、文書の色を変えることにより、ユーザに文書を選びやすくする。また、文書中に出現する固有名詞の役割の違いにより、文書群をリスト表示する際に、役割によって重要度を設定しておき、文書の色を変えることにより、ユーザに文書を選びやすくする。
より具体的には、文書検索の検索結果や、文書分類の分類枠内の文書リストを表示する際に、文書中に出現する固有表現の役割(動作主、動作対象等)を用いて、文書の代表となる役割を決定する。固有表現(固有名ともいう)は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。
複数の異なる役割が一つの文書中に存在する場合は、例えば、(1)最も多い役割をその文書の代表としたり、(2)タイトル等、文書の構造上から重要と分かる箇所の役割を重視したり、また(3)文脈解析等を行い、文書中で重要な文、例えば要約文を特定し、その文に含まれる役割を重視する。
この発明をさらに説明する。
この発明の一側面によれば、上述の目的を達成するために、文書管理装置に:文書中の固有表現を抽出する固有表現抽出手段と;上記固有表現抽出手段により抽出された固有表現の役割を決定する固有表現役割決定手段と;上記固有表現役割決定手段により決定された役割に基づいて上記文書を代表する役割を決定する代表役割決定手段とを設けるようにしている。
固有表現(固有名ともいう)は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。
この構成においては、固有表現に着目して文書を代表する役割を決定するので、文書中の重要な語句の各文における役割を文書の役割に有効に反映させることができる。例えば、文書検索や文書分類により文書リストを表示する際に、文書の役割により決定される表示属性で表示リストの文書エントリが表示されるので、ユーザは役割に応じた視点から文書を容易に選択することができる。また、キーワードに着目して重要度を算出してこの重要度に応じた表示属性で表示リストの文書エントリが表示される。これら文書の役割や重要度に基づいて文書を選択して表示したり文書を順序づけたりしても良い。
文書リストは、各文書のタイトル等の属性や要約を含むが、これに限定されない。文書のエントリを含んで成るリストであればどのようなものでもよい。
この構成において、上記固有表現の役割は、例えば、動作主の役割、動作対象の役割およびその他の役割である。
上記代表役割決定手段は、例えば、文書中で頻度が最も多い役割を、当該文書を代表する役割と決定してもよいし、文書構造上予め定められた箇所の固有表現の役割に基づいて、当該文書を代表する役割と決定してもよい。
また、上記代表役割決定手段は、文書の文脈を解析して重要な文を特定する手段を有し、この重要な文に含まれる固有表現の役割に基づいて、当該文書を代表する役割と決定してもよい。
また、要約を生成する要約生成手段を有し、上記代表役割決定手段は、上記要約に含まれる固有表現の役割に基づいて、当該文書を代表する役割と決定するようにしてもよい。
また、文書のリストを表示する文書リスト表示手段を有し、上記代表枠割り決定手段により各文書の代表役割を決定して上記文書リストの各エントリの表示属性を適合的に表示するようにしてもよい。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、文書中の固有表現の役割を特定し重要な語句の役割を反映させて文書を代表する役割を決定することができる。
以下、この発明の実施例について説明する。
図1は、この発明を文書検索装置に適用して実施例1を示している。なお、この例では関連文書検索を行なうようになっており、自然文であるクエリを受け付けて固有表現を抽出し、これにマッチする文書を検索する。もちろん、この発明はこのような適用例に限定されるものではなく、後述するように、通常の単語(キーワード)による検索でもよい。また文書検索装置はコンピュータ100にインストールされるが、これに限定されない。
図1において、文書検索装置は、文書受付部10、文書記憶部11、固有表現抽出部12、役割抽出部13、固有表現・役割記憶部14、クエリ受付部15、固有表現抽出部16、検索演算部17、代表役割決定部18、表示属性決定部19、表示部20、表示属性指定部21等を含んで構成されている。
文書受付部10は、文書を継続的に受け付け、あるいは定期的に文書を収集する。受け付けた文書は文書記憶部11に記憶保管される。固有表現抽出部12は受け付けた文書中の固有表現を抽出する。抽出された固有表現の情報は固有表現・役割記憶部14に記憶される。役割抽出部13は抽出した固有表現に役割がある場合には役割を抽出して固有表現・役割記憶部14に記憶する。役割は例えば、後述のように、動作主体の役割、打汪さ対象の役割、その他の役割であるが、これに限定されない。固有表現抽出および役割抽出の詳細については後に構成例を挙げて説明する。
クエリ受付部15は、自然文のクエリを受け付ける。受け付けたクエリは固有表現抽出部16に送られ固有表現が抽出される。固有表現抽出部16は先の固有表現抽出部12と同じであり、同様のプロセスである。もちろん、別個の基準で固有表現を抽出しても良い。
固有表現抽出部16でクエリから抽出された固有表現は、検索演算部17に送られる。検索演算部17は、クエリの固有表現を、固有表現・役割記憶部14に保持されている、登録文書の固有表現と突き合わせ、所定の検索基準でスコア付けして、所定の閾値を超える文書を検索結果をして出力する。
代表役割決定部18は、検索結果に含まれる文書について、固有表現・役割記憶部14の役割の情報を参照して、当該文書の固有表現の役割を取り出し、当該文書を代表する役割を決定する。この例では、文書に含まれる固有表現の役割に基づいて文書を代表する役割を決定する。どのように決定するかについては後に例を挙げて説明する。文書の役割は文書に対応づけて記憶される。文書のIDと文書の役割のテーブルを構成しても良いし、文書の役割を文書の属性として登録しても良い。
表示属性決定部19は、文書の代表役割に基づいて検索結果の表示リストの各文書エントリの背景色を決定する。表示属性テーブル191は図2に示すように各役割に表示属性を指定しており、これを表引きして最終的な表示属性が決定される。表示属性テーブル191の内容は例えば表示属性指定部21により指定することが可能である。もちろん、動作主体は赤、動作対象は緑というように固定されていても良い。
表示部20は、検索結果の表示リストを、表示属性決定部19の決定結果にしたがって表示する。表示例は例えば図18に示すようなものであり、タイトル等の属性および要約が表示され、背景色が赤、緑、色なしで表示される。図18の例では、文書の役割が、動作主体の役割のときには赤色の背景色で表示され、動作対象の役割のときには緑色の背景色で表示される。文字色を変えても良い。
つぎに、固有名抽出および役割抽出の例について説明する。
固有表現抽出部12は、先に述べたように文書中の固有表現(固有名ともいう)を抽出するものである。固有表現は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。固有表現抽出部12は、例えば、図3に示すように、形態素解析部121、形態素解析辞書記憶部122、ルール適用部123およびルール記憶部124等を含んで構成される。
固有表現抽出部12の入力は例えば図4に示すようなものであり、形態素解析辞書記憶部122の形態素解析辞書は例えば図5に示すようなエントリを持つ。形態素解析部121は形態素解析辞書を用いて入力例(図4)から図6に示すような解析結果を得る。図6において「/」は形態素間の区切りを示し、「<」、「>」で囲む部分は品詞を表す。図では、開始位置や長さは省略している。形態素解析結果はルール適用部123に入力されてルール記憶部124の抽出ルールを参照して固有表現が抽出される。図7は抽出ルールの例を示し、例えばルール番号5により「姓」と「名」が結合されて「PERSON」のカテゴリが付される。抽出結果は図8に示すようになる。この例では、各固有表現が抽出され、<ORGANIZATION>、<PERSON>、<CURRENCY>、<DATE>、<PLACE>等のカテゴリが付される。なお、この実施例では固有表現のカテゴリは用いないので、説明は省略する。
さらに固有表現抽出および役割抽出の処理について説明する。図10は、固有表現抽出部12の処理を示しており、この図において、対象となる個々の文書を順次に取り出し、文書内容(図9に示す)に対して固有表現抽出を行う(S10)。抽出された固有表現の情報を固有表現・役割記憶部14に格納する。固有表現の情報は、例えば、文書ID、固有表現(出現形)、固有表現(標準形)、カテゴリであるが、これに限定されない。固有表現(標準形)は、図11の標準標記テーブルを検索して決めることができる。図13に示す役割テーブル(役割・助詞(相当語句)対応表)」121を参照し、役割に関する助詞(相当語句)が、抽出した固有表現に続いていれば、その固有表現の役割として対応する役割も登録する(S12)。図14に示す指示表現テーブル126の指示表現が抽出されたら、これも固有表現・役割記憶部14に格納する(S13)。そのカテゴリはPRONOUNとする。指示表現テーブルで指定されたカテゴリを持つ固有表現を固有表現・役割記憶部14から検索し、もっとも近い固有表現のレコード番号を参照先として登録する。以上の処理を文書単位に実行する(S14)。文書中のすべての固有表現を抽出し終えたら、これら固有表現の役割に基づいて文書を代表する役割を決定する。なお、標準表記テーブル125(図11)、指示表現テーブル126(図12)、役割テーブル127(図13)はコンピュータ100の記憶部に記憶される。
抽出された固有表現(指示表現を含む)は図14に示すように固有表現・役割記憶部14に格納される。この例では、抽出された固有表現に対して、レコード番号、所属する文書ID、固有表現(出現形)、カテゴリ、役割等が与えられる。
文書を代表する固有表現の決定基準としては例えば以下のものを採用できる。
(1)所定のカテゴリの固有表現を優先する
例えば、図15(a)の文書から固有表現およびその役割を抽出して図15(b)の抽出結果を得、さらに、固有表現のなかでも人間に関係のあるカテゴリ(人名、組織名)を優先して図15(b)の絞り込み結果をえる。この結果から例えば多数決により文書を代表する役割を決定する。「その他の役割」が4つで、「主体の役割」が2であるので、文書の役割は「その他の役割」となる。
さらに、組織名より人名を優先させて絞り込むと、「ウィリアムズ局長(固有名:主体)」のみが残り、文書の役割は「主体」(動作主)となる。
(2)文書の構造から基準とする固有表現を決定する
例えばXML(拡張可能マークアップ言語)等、構造を有する文書においては構造から基準の固有表現を決定する。例えば、図16に示すような文書があるときには、「題名」や「概要」等に含まれる固有表現を選択して文書を代表する役割を決定する。図16の例では、「題号」および「概要」の欄に含まれる固有表現を抽出する。「概要」に「富士ゼロックス」(商標)が「その他」の役割で表れており、ほかに固有表現がないとすると、これが文書を代表する役割となる。この基準(1)と上述の基準(2)とを組み合わせても良い。
つぎに検索処理について説明する。
図17は検索処理の動作例を示しており、この図において、クエリ受付部15が自然文のクエリを受け付ける(S20)。固有表現抽出部16がクエリから固有表現を抽出する(S21)。検索演算部17が、クエリから抽出して固有表現を用いて登録文書を対象として検索を行なう(S22)。
つぎに表示属性決定部19が検索結果に含まれる文書の代表役割を参照して表示属性テーブル191を表引きし各文書エントリの表示属性を決定する(S23)。この実施例では、図2に示すように、文書を代表する役割が動作主体の役割でありば背景色を赤色にし、動作対象の役割であれば背景色を緑色にする。他の役割、あるいは役割がない場合には、表示属性はデフォルトのままである。この後、表示部20が、表示属性に従って例えば図18に示すように文書リストを表示する(S24)。
ユーザは文書リストを閲覧し、さらに、所望の文書を選択して文書記憶部11をアクセスし、文書本体を閲覧することができる。
なお、ユーザは表示属性指定部21を用いて役割の表示属性を設定することができ、役割に着目した視点に応じて視点に合致した文書を他と区別して表示できる。
なおこの実施例では、図18に示すように表示属性として赤、緑の背景色を用いたが、他の色を用いてもよく、また図19に示すように「主体」、「客体」を表す文字やアイコンを表示しても良い。文書の属性としてタイトル等とともに表示しても良い。文書の役割を検索条件としても良い。また、図20に示すように、ポインティングデバイスで文書エントリをポイントしたときに、所定の表示エリアに文書の役割が表示されても良い。例えば「役割は動作主体です」と表示されても良い。また、図20に破線で示すように、吹き出し表示がなされても良い。
また、この実施例では、文書を代表する役割により表示属性を割り当てるようにしたが、例えば図21に示すように、代表役割決定部18に代えて重要度決定部22に設け、文書中の固有表現の役割から重要度を算出しても良い。キーワードに対応する出現固有表現の役割に重要度を付し、それを累積して重要度を決定して、重要度の範囲に応じて表示属性を変えて文書リストを表示する。この場合、表示属性テーブル191は、重要度の各範囲と表示属性との対応を規定する。なお、図21において図1と対応する箇所には対応する符号を付した。
また、図22に示すように文書管理装置をサーバ・クライアントシステムで構成しても良い。図22の例では、クライアントコンピュータ300のクエリ送信部23および表示属性指定送信部24からクエリおよび表示属性指定をサーバコンピュータ200に送信し、これらをサーバコンピュータ200のクエリ受信部25、表示属性指定受信部30で受信し、そののち図1の例と同様に表示データを生成し、表示データ生成部26からクライアントコンピュータ300の表示部20に送信し、文書リストを表示する。図22においても図1と対応する箇所には対応する符号を付した。
また、上述の実施例では固有表現をキーワードとして検索を行なったが、単語をキーワードとして検索しても良い。例えば、図23に示すように、索引生成部27および索引記憶部28を設け、構文解析等により出現単語と文書IDの組からなる索引(例えば図24参照)を生成して記憶する。キーワード抽出部29はクエリからキーワードとなる単語を抽出し検索演算部17がキーワードと索引とを突き合わせて検索演算を行い検索結果を出力する。なお、文書中の固有表現およびその役割は、図1の例と同様に、固有表現抽出部12および役割抽出部により抽出され固有表現・役割記憶部14に記憶される。
また上述実施例では文書リストの文書エントリの表示属性に文書の代表役割を反映させたが、代表役割に応じて文書リストに入れるかどうかを決定しても良い。例えば、文書の代表役割が動作主体の役割の文書のみリストに乗せるようにしても良い。また文書の属性として用いてソート等に用いることもできる。文書リストの表示順位を代表役割により決定するようにしても良い。また、固有表現の抽出領域を予め定めておく場合には、抽出領域に限って固有表現の抽出を行なうようにしても良い。
つぎに、この発明を文書分類装置に適用した実施例2について説明する。図25は実施例2の文書分類装置を全体として示している。なお、この例では単語のキーワードにより文書を分類するようにしている。また文書検索装置はコンピュータ100にインストールされるが、これに限定されない。
図25において、文書分類装置は、文書受付部50、文書分類部51、キーワード記憶部52、分類済み文書記憶部53、固有表現抽出部54、役割抽出部55、固有表現・役割記憶部56、代表役割決定部57、代表役割記憶部58、表示属性決定部59、表示属性テーブル591、表示部60、表示属性指定部61等を含んで構成されている。
文書受付部50は、文書を受け付ける。受け付けた文書は、文書分類部51に送られ、キーワード記憶部52のキーワードに基づいて分類枠ごとに分類される。分類枠のキーワードの例は例えば図28に示すようなものである。図28の例ではキーワードに重み付けが付されていないが、重み付けを付しても良い。分類済みの文書は分類済み文書記憶部53に記憶保管される。
固有表現抽出部54、役割抽出部55、固有表現・役割記憶部56、代表役割決定部57は、図1の実施例1の対応する部分と同様に構成される。ここでは説明を繰り返さない。
表示属性決定部59は、文書の代表役割に基づいて分類結果の表示リストの各文書エントリの背景色を決定する。表示属性テーブル591は実施例1と同様に図2に示すように各役割に表示属性を指定しており、これを表引きして最終的な表示属性が決定される。表示属性テーブル591の内容は例えば表示属性指定部61により指定することが可能である。もちろん、動作主体は赤、動作対象は緑というように固定されていても良い。
表示部60は、検索結果の表示リストを、表示属性決定部59の決定結果にしたがって表示する。表示例は例えば実施例1と同様であり、図18に示すようなものであり、タイトル等の属性および要約が表示され、背景色が赤、緑、色なしで表示される。図18の例では、文書の役割が、動作主体の役割のときには赤色の背景色で表示され、動作対象の役割のときには緑色の背景色で表示される。文字色を変えても良い。もちろん、図19〜図20等、実施例1で採用した種々の表示手法を採用できる。
ユーザは文書リストを閲覧し、さらに、所望の文書を選択して分類済み文書記憶部53をアクセスし、文書本体を閲覧することができる。
図26はこの実施例の文書分類装置の文書登録時の動作例を説明するものであり、図26において、文書受付部50が文書を登録し(S30)、文書分類部51が文書をキーワードの基づいて分類枠に分類する(S31)。固有表現抽出部54が固有表現を抽出し、役割抽出部55がその役割を抽出する(S32、S33)。そののち代表役割決定部57が固有表現の役割に基づいて文書の代表役割を決定して代表役割記憶部58に登録する(S34)。
図27は、この実施例の文書分類装置の文書リスト表示時の動作例を示しており、この図において、登録文書の属性、要約、代表役割が取り出され(S40)、これに基づいて文書リストが表示部60に表示される(S41)。要約は予め生成しておいて分類済み文書記憶部53に保管しておいても良いし、文書リスト表示時に生成しても良い。文書リストの各エントリは文書の役割に応じた表示であり、ユーザはその役割の視点で文書リストを見ることができる。
また、この実施例では、文書を代表する役割により表示属性を割り当てるようにしたが、例えば図29に示すように、代表役割決定部57に代えて重要度決定部62に設け、文書中のキーワードの役割から重要度を算出しても良い。重要度は重要度記憶部63に記憶される。キーワードに対応する出現単語の役割に重要度を付し、それを累積して重要度を決定して、重要度の範囲に応じて表示属性を変えて文書リストを表示する。この場合、表示属性テーブル591は、重要度の各範囲と表示属性との対応を規定する。なお、図29において図25と対応する箇所には対応する符号を付した。
また、この実施例の文書分類装置をサーバ・クライアントシステムで構成しても良い。
この発明を文書検索装置に適用して実施例1を全体として示す図である。 上述実施例1の文書役割と表示属性との関係を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部の構成例を説明するブロック図である。 上述実施例1の固有表現抽出部・役割抽出部に入力される文書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる形態素解析辞書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部における形態素解析結果の例を説明する図であうr。 上述実施例1の固有表現抽出部・役割抽出部による固有名抽出ルールの説明する図である。 上述実施例1の固有表現抽出部・役割抽出部による固有名抽出結果を簡略化して説明する図である。 上述実施例1の入力文書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部の動作を説明するフローチャートである。 上述実施例1の固有表現抽出部・役割抽出部で用いる標準表記テーブルを説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる指示表現テーブルを説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる役割テーブル(役割・助詞対応)を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部により抽出された固有表現レコードを説明する図である。 固有表現のカテゴリに着目して文書の代表役割を決定する例を説明する図である。 構造付き文書の構造に着目して文書の代表役割を決定する例を説明する図である。 上述実施例1の検索演算部の動作を説明するフローチャートである。 上述実施例1の文書リストの表示例を説明する図である。 上述実施例1の文書リストの他の表示例を説明する図である。 上述実施例1の文書リストのさらに他の表示例を説明する図である。 上述実施例1の変形例を説明する図である。 上述実施例1の他の変形例を説明する図である。 上述実施例1のさらに他の変形例を説明する図である。 図23の索引の例を説明する図である。 この発明を文書分類装置に適用した実施例2を全体として示す図である。 上述実施例2の文書登録時の動作例を説明する図である。 上述実施例2の文書リスト表示時の動作例を説明する図である。 上述実施例2の分類枠のキーワードの例を説明する図である。 上述実施例2の変形例を説明する図である。
符号の説明
10 文書受付部
11 文書記憶部
12 固有表現抽出部
13 役割抽出部
14 固有表現・役割記憶部
15 クエリ受付部
16 固有表現抽出部
17 検索演算部
18 代表役割決定部
19 表示属性決定部
20 表示部
21 表示属性指定部
22 重要度決定部
23 クエリ送信部
24 表示属性指定送信部
25 クエリ受信部
26 表示データ生成部
27 索引生成部
28 索引記憶部
29 キーワード抽出部
30 表示属性指定受信部
50 文書受付部
51 文書分類部
52 キーワード記憶部
53 文書記憶部
54 固有表現抽出部
55 役割抽出部
56 固有表現・役割記憶部
57 代表役割決定部
58 代表役割記憶部
59 表示属性決定部
60 表示部
61 表示属性指定部
62 重要度決定部
63 重要度記憶部
100 コンピュータ
121 形態素解析部
122 形態素解析辞書記憶部
123 ルール適用部
124 ルール記憶部
125 標準表記テーブル
126 指示表現テーブル
127 役割テーブル
191 表示属性テーブル
200 サーバコンピュータ
300 クライアントコンピュータ
581 表示属性テーブル
591 表示属性テーブル

Claims (9)

  1. 文書中の固有表現を抽出する固有表現抽出手段と、
    上記固有表現抽出手段により抽出された固有表現の役割を決定する固有表現役割決定手段と、
    上記固有表現役割決定手段により決定された役割に基づいて上記文書を代表する役割を決定する代表役割決定手段とを有することと特徴とする文書管理装置。
  2. 上記固有表現の役割は動作主の役割、動作対象の役割およびその他の役割である請求項1記載の文書管理装置。
  3. 上記代表役割決定手段は、文書中で頻度が最も多い役割を、当該文書を代表する役割と決定する請求項1または2記載の文書管理装置。
  4. 上記代表役割決定手段は、文書構造上予め定められた箇所の固有表現の役割に基づいて、当該文書を代表する役割と決定する請求項1または2記載の文書管理装置。
  5. 上記代表役割決定手段は、文書の文脈を解析して重要な文を特定する手段を有し、上記重要な文に含まれる固有表現の役割に基づいて、当該文書を代表する役割と決定する請求項1または2記載の文書管理装置。
  6. 要約を生成する要約生成手段を有し、上記代表役割決定手段は、上記要約に含まれる固有表現の役割に基づいて、当該文書を代表する役割と決定する請求項1または2記載の文書管理装置。
  7. 文書のリストを表示する文書リスト表示手段を有し、上記代表役割決定手段により各文書の代表役割を決定して上記文書リストの各エントリの表示属性を適合的に表示する請求項1〜6のいずれかに記載の文書管理装置。
  8. 固有表現抽出手段が文書中の固有表現を抽出するステップと、
    固有表現役割決定手段が上記固有表現抽出手段により抽出された固有表現の役割を決定するステップと、
    代表役割決定手段が上記固有表現役割決定手段により決定された役割に基づいて上記文書を代表する役割を決定するステップとを有することと特徴とする文書管理方法。
  9. 固有表現抽出手段が文書中の固有表現を抽出するステップと、
    固有表現役割決定手段が上記固有表現抽出手段により抽出された固有表現の役割を決定するステップと、
    代表役割決定手段が上記固有表現役割決定手段により決定された役割に基づいて上記文書を代表する役割を決定するステップとをコンピュータに実行させるために用いられることを特徴とする文書管理用コンピュータプログラム。
JP2004041417A 2004-02-18 2004-02-18 文書管理装置および方法 Pending JP2005234771A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004041417A JP2005234771A (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004041417A JP2005234771A (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Publications (1)

Publication Number Publication Date
JP2005234771A true JP2005234771A (ja) 2005-09-02

Family

ID=35017683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004041417A Pending JP2005234771A (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Country Status (1)

Country Link
JP (1) JP2005234771A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置

Similar Documents

Publication Publication Date Title
US10282389B2 (en) NLP-based entity recognition and disambiguation
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US9836511B2 (en) Computer-generated sentiment-based knowledge base
US10552467B2 (en) System and method for language sensitive contextual searching
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US8812504B2 (en) Keyword presentation apparatus and method
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
KR20090080822A (ko) 감성 기반의 아이템 검색 서비스 제공 방법, 데이터베이스구축 방법 및 검색 서버
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
JPH0844771A (ja) 情報検索装置
JP2000148780A (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP2005234772A (ja) 文書管理装置および方法
JP4496797B2 (ja) 文書管理装置および方法
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2005025418A (ja) 質問応答装置、質疑応答方法及びプログラム
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP2005234771A (ja) 文書管理装置および方法
JP2010266970A (ja) 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JP2020113048A (ja) 情報処理装置及びプログラム
JP2005228033A (ja) 文書検索装置および方法
JP7522885B1 (ja) 情報処理装置、情報処理システムおよびプログラム