JP2005234772A - 文書管理装置および方法 - Google Patents

文書管理装置および方法 Download PDF

Info

Publication number
JP2005234772A
JP2005234772A JP2004041418A JP2004041418A JP2005234772A JP 2005234772 A JP2005234772 A JP 2005234772A JP 2004041418 A JP2004041418 A JP 2004041418A JP 2004041418 A JP2004041418 A JP 2004041418A JP 2005234772 A JP2005234772 A JP 2005234772A
Authority
JP
Japan
Prior art keywords
document
role
keyword
unit
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004041418A
Other languages
English (en)
Inventor
Katsunori Yoshiji
克典 芳地
Takeshi Nagamine
猛志 永峯
Akio Yamashita
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004041418A priority Critical patent/JP2005234772A/ja
Publication of JP2005234772A publication Critical patent/JP2005234772A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 キーワードに着目して文書を代表する役割を決定する。
【解決手段】 受け付けた文書中の固有表現が抽出され、さらに役割がある場合には役割を抽出して固有表現・役割記憶部14に記憶する。クエリ受付部15は、自然文のクエリを受け付ける。検索演算部17は、クエリの固有表現を、固有表現・役割記憶部14に保持されている、登録文書の固有表現と突き合わせ、所定の書を検索結果をして出力する。代表役割決定部18は、キーワードに対応して文中に出現する固有表現の役割を取り出し、当該文書を代表する役割を決定する。表示属性決定部19は、文書の代表役割に基づいて検索結果の表示リストの各文書エントリの背景色を決定する。
【選択図】 図1

Description

この発明は、文書群をリスト表示する際に、各文書を代表する役割に着目してユーザが文書を選択しやすくする文書リスト表示技術に関する。
文書検索や文書分類において、検索結果や、分類結果をリスト表示してそのリストを用いてユーザが文書を選択するようにすることが知られている。そして、単語ベクトル空間法に代表されるような任意の尺度により、クエリーや分類枠と各文書とを突き合わせてスコアをとり、このスコアに基づいて各文書のエントリをランキング表示することにより、ユーザに重要な文書を提示する方法も知られている。なお、リスト(文書リスト)は、種々の態様が可能であり、例えば、タイトルや日付等の属性と、要約とから各文書のエントリが構成されるが、これに限定されない。
ところで、従来の単語レベル演算によるランキング表示では、スコアに着目して上位から順に表示されるが、文書中で主題となる単語が主体の役割なのか対象の役割なのか明確でない。また、そもそも、文書を選択する基準がランキングのスコア算出基準であるため、ユーザにとってはどのような視点でクエリと文書がマッチしているのか明確でない。
本発明者等は研究の結果、単語や固有表現等の文における役割に着目し、さらに、この役割から文書全体の役割を導出することが有益であるという見地に至った。そして、このような文書全体の役割に基づいた表示属性により文書リストの各エントリを表示することが、ユーザの文書選択上極めて有益であることを発見した。
この発明は、キーワードに着目して文書の役割を決定しようとするものである。
この発明は、以上の事情を考慮してなされたものであり、文書を検索したり分類したりするときにそのキーワードを用いて文書を代表する役割を決定する技術を提供することを目的としている。
この発明の構成例では、例えば、文書中に出現する固有名詞の役割の違いにより、文書群をリスト表示する際に、文書の色を変えることにより、ユーザに文書を選びやすくする。また、文書中に出現する固有名詞の役割の違いにより、文書群をリスト表示する際に、役割によって重要度を設定しておき、文書の色を変えることにより、ユーザに文書を選びやすくする。
より具体的には、文書検索の検索結果や、文書分類の分類枠内の文書リストを表示する際に、キーワード(単語や固有表現)の役割を用いて、それぞれの文書の役割を特定する。一つの単語を用いた検索や、一つの単語に関連付けられた分類であれば、文書中の当該の単語の役割について調べる。同一の単語に複数の役割がある場合には例えば多数決で決まる役割を文書の役割とする。
関連文書検索など複数の単語による検索や、分類枠が複数の単語に関連付けられた分類においては、例えば、以下のようないくつかの方法をとる。
(1)文書の役割の基準となる単語を1つ選定し、その単語について役割を調べる。その際には固有名表現を一般名詞より優先する。固有表現の中でも、人名や組織名など、より人に関係が深いカテゴリを優先する。あるいは、ユーザに明示的に複数の単語から、主題となる単語を選択させるなどの方法もある。
(2)関連文書検索においては、検索時にクエリとなる単語にそれぞれ重みを設定することがあるので、その重みに基づいて、基準となる単語を選定する。分類枠に関連付けられた複数の単語についても同様に、重みが設定してあれば、それを用いて基準となるなる単語を選定する。
この発明をさらに説明する。
この発明の一側面によれば、上述の目的を達成するために、文書管理装置に:キーワードを用いて文書を選択する文書選択手段と;上記文書選択手段により選択された文書中の文における上記キーワードの役割を決定するキーワード役割決定手段と;上記キーワード役割決定手段により決定された上記キーワードの役割に基づいて当該文書を代表する役割を決定する代表役割決定手段とを設けるようにしている。
文書リストは、各文書のタイトル等の属性や要約を含むが、これに限定されない。文書のエントリを含んで成るリストであればどのようなものでもよい。
文書選択手段は、文書をキーワードにより分類する文書分類手段や、文書群からキーワード等により文書を検索する文書検索手段である。検索態様は、1または複数のキーワードを直接入力しても良いし、自然文(クエリ)を入力してキーワードを自動抽出して検索を行なう、いわゆる関連文書検索でもよい。キーワードには重みを付けても良い。
役割が判断される語句は、キーワードである。キーワードは単語でも良いし、限定して固有表現としても良い。固有表現(固有名ともいう)は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。
この構成においては、キーワードに着目して文書を代表する役割を決定するので、文書中の語句の各文における役割をキーワードという視点から文書の役割に有効に反映させることができる。例えば、文書の役割により決定される表示属性で表示リストの文書エントリが表示されるので、ユーザは役割に応じた視点から文書を容易に選択することができる。また、キーワードに着目して重要度を算出してこの重要度に応じた表示属性で表示リストの文書エントリが表示される。
なお、文書の役割は文書リストの表示属性の決定のみでなく、当該文書を文書リスト中のエントリに含めるかどうかの決定や、エントリ中の順位の決定等にも利用できる。
この構成において、上記キーワードの役割は、例えば、動作主の役割、動作対象の役割およびその他の役割である。
代表役割決定手段は、例えば、該当するキーワードが文書中に複数ある場合には、所定の基準により1のキーワードを選択してそのキーワードの役割を当該文書を代表する役割とする。この場合、上記所定の基準は、キーワードに設定された重みに基づくようにしてもよい。また、固有表現のほうが一般名より優先され、固有名表現に関しては人名および組織名のカテゴリが優先されるようにしてもよい。
上記所定の基準が、キーワードのtf*IDFに基づくようにしてもよい。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、文書を検索したり分類したりするときにそのキーワードを用いて文書を代表する役割を決定することができる。
以下、この発明の実施例について説明する。
図1は、この発明を文書検索装置に適用して実施例1を示している。なお、この例では関連文書検索を行なうようになっており、自然文であるクエリを受け付けて固有表現を抽出し、これにマッチする文書を検索する。もちろん、この発明はこのような適用例に限定されるものではなく、後述するように、通常の単語(キーワード)による検索でもよい。また文書検索装置はコンピュータ100にインストールされるが、これに限定されない。
図1において、文書検索装置は、文書受付部10、文書記憶部11、固有表現抽出部12、役割抽出部13、固有表現・役割記憶部14、クエリ受付部15、固有表現抽出部16、検索演算部17、代表役割決定部18、表示属性決定部19、表示部20、表示属性指定部21等を含んで構成されている。
文書受付部10は、文書を継続的に受け付け、あるいは定期的に文書を収集する。受け付けた文書は文書記憶部11に記憶保管される。固有表現抽出部12は受け付けた文書中の固有表現を抽出する。抽出された固有表現の情報は固有表現・役割記憶部14に記憶される。役割抽出部13は抽出した固有表現に役割がある場合には役割を抽出して固有表現・役割記憶部14に記憶する。役割は例えば、後述のように、動作主体の役割、打汪さ対象の役割、その他の役割であるが、これに限定されない。固有表現抽出および役割抽出の詳細については後に構成例を挙げて説明する。
クエリ受付部15は、自然文のクエリを受け付ける。受け付けたクエリは固有表現抽出部16に送られ固有表現が抽出される。固有表現抽出部16は先の固有表現抽出部12と同じであり、同様のプロセスである。もちろん、別個の基準で固有表現を抽出しても良い。
固有表現抽出部16でクエリから抽出された固有表現は、検索演算部17に送られる。検索演算部17は、クエリの固有表現を、固有表現・役割記憶部14に保持されている、登録文書の固有表現と突き合わせ、所定の検索基準でスコア付けして、所定の閾値を超える文書を検索結果をして出力する。
代表役割決定部18は、検索結果に含まれる文書について、固有表現・役割記憶部14の役割の情報を参照して、当該文書の固有表現の役割を取り出し、当該文書を代表する役割を決定する。この例では、クエリから抽出された固有表現(キーワード)の文書における役割に基づいて文書を代表する役割を決定する。
表示属性決定部19は、文書の代表役割に基づいて検索結果の表示リストの各文書エントリの背景色を決定する。表示属性テーブル191は図2に示すように各役割に表示属性を指定しており、これを表引きして最終的な表示属性が決定される。表示属性テーブル191の内容は例えば表示属性指定部21により指定することが可能である。もちろん、動作主体は赤、動作対象は緑というように固定されていても良い。
表示部20は、検索結果の表示リストを、表示属性決定部19の決定結果にしたがって表示する。表示例は例えば図16に示すようなものであり、タイトル等の属性および要約が表示され、背景色が赤、緑、色なしで表示される。図16の例では、文書の役割が、動作主体の役割のときには赤色の背景色で表示され、動作対象の役割のときには緑色の背景色で表示される。文字色を変えても良い。
つぎに、固有名抽出および役割抽出の例について説明する。
固有表現抽出部12は、先に述べたように文書中の固有表現(固有名ともいう)を抽出するものである。固有表現は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。固有表現抽出部12は、例えば、図3に示すように、形態素解析部121、形態素解析辞書記憶部122、ルール適用部123およびルール記憶部124等を含んで構成される。
固有表現抽出部12の入力は例えば図4に示すようなものであり、形態素解析辞書記憶部122の形態素解析辞書は例えば図5に示すようなエントリを持つ。形態素解析部121は形態素解析辞書を用いて入力例(図4)から図6に示すような解析結果を得る。図6において「/」は形態素間の区切りを示し、「<」、「>」で囲む部分は品詞を表す。図では、開始位置や長さは省略している。形態素解析結果はルール適用部123に入力されてルール記憶部124の抽出ルールを参照して固有表現が抽出される。図7は抽出ルールの例を示し、例えばルール番号5により「姓」と「名」が結合されて「PERSON」のカテゴリが付される。抽出結果は図8に示すようになる。この例では、各固有表現が抽出され、<ORGANIZATION>、<PERSON>、<CURRENCY>、<DATE>、<PLACE>等のカテゴリが付される。なお、この実施例では固有表現のカテゴリは用いないので、説明は省略する。
さらに固有表現抽出および役割抽出の処理について説明する。図10は、固有表現抽出部12の処理を示しており、この図において、対象となる個々の文書を順次に取り出し、文書内容(図9に示す)に対して固有表現抽出を行う(S10)。抽出された固有表現の情報を固有表現・役割記憶部14に格納する。固有表現の情報は、例えば、文書ID、固有表現(出現形)、固有表現(標準形)、カテゴリであるが、これに限定されない。固有表現(標準形)は、図11の標準標記テーブルを検索して決めることができる。図13に示す役割テーブル(役割・助詞(相当語句)対応表)」121を参照し、役割に関する助詞(相当語句)が、抽出した固有表現に続いていれば、その固有表現の役割として対応する役割も登録する(S12)。図14に示す指示表現テーブル126の指示表現が抽出されたら、これも固有表現・役割記憶部14に格納する(S13)。そのカテゴリはPRONOUNとする。指示表現テーブルで指定されたカテゴリを持つ固有表現を固有表現・役割記憶部14から検索し、もっとも近い固有表現のレコード番号を参照先として登録する。以上の処理を文書単位に実行する(S14)。標準表記テーブル125(図11)、指示表現テーブル126(図12)、役割テーブル127(図13)はコンピュータ100の記憶部に記憶される。
抽出された固有表現(指示表現を含む)は図14に示すように固有表現・役割記憶部14に格納される。この例では、抽出された固有表現に対して、レコード番号、所属する文書ID、固有表現(出現形)、カテゴリ、役割等が与えられる。
つぎに検索処理について説明する。
図15は検索処理の動作例を示しており、この図において、クエリ受付部15が自然文のクエリを受け付ける(S20)。固有表現抽出部16がクエリから固有表現を抽出する(S21)。検索演算部17が、クエリから抽出して固有表現を用いて登録文書を対象として検索を行なう(S22)。代表役割決定部18が、検索結果中の文書の代表役割を、文書中のキーワード対応語の役割に応じて決定する(S23)。
なお、クエリからキーワードとなる固有表現が複数抽出され、これに応じて検索結果の文書にも異なるキーワードに対応する単語がある場合には、所定の規則に従って文書を代表する役割を決定する。例えば、役割を調べるべき単語を1つ選定し、その単語について役割を調べる。この実施例では、検索を固有表現により行なっているが、単語一般で検索を行なう場合には、固有表現を一般名詞より優先する。固有表現の中でも、人名や組織名など、より人に関係が深いカテゴリを優先する。あるいは、例えば、クエリから固有表現を抽出したときに、複数の固有表現が抽出された場合には、ユーザに明示的に複数の単語から、主題となる単語を選択させてもよい。
また、クエリの単語に重み付けを設定したときには、その重みに基づいて、文書の役割を決定する単語を選定する。後に説明する文書分類装置においても、分類枠に関連付けられた複数の単語についても、同様に、重みが設定してあれば、それを用いて主眼となる単語を選定する。
文書を代表する役割が決定されたら、表示属性決定部19が表示属性テーブル191を表引きして各文書エントリの表示属性を決定する。この実施例では、図2に示すように、文書を代表する役割が動作主体の役割でありば背景色を赤色にし、動作対象の役割であれば背景色を緑色にする。他の役割、あるいは役割がない場合には、表示属性はデフォルトのままである。この後、表示部20が、表示属性に従って例えば図16に示すように文書リストを表示する。
ユーザは文書リストを閲覧し、さらに、所望の文書を選択して文書記憶部11をアクセスし、文書本体を閲覧することができる。
なお、ユーザは表示属性指定部21を用いて役割の表示属性を設定することができ、役割に着目した視点に応じて視点に合致した文書を他と区別して表示できる。
なおこの実施例では、図16に示すように表示属性として赤、緑の背景色を用いたが、他の色を用いてもよく、また図17に示すように「主体」、「客体」を表す文字やアイコンを表示しても良い。文書の属性としてタイトル等とともに表示しても良い。文書の役割を検索条件としても良い。また、図18に示すように、ポインティングデバイスで文書エントリをポイントしたときに、所定の表示エリアに文書の役割が表示されても良い。例えば「役割は動作主体です」と表示されても良い。また、図18に破線で示すように、吹き出し表示がなされても良い。
また、この実施例では、文書を代表する役割により表示属性を割り当てるようにしたが、例えば図19に示すように、代表役割決定部18に代えて重要度決定部22に設け、文書中の固有表現の役割から重要度を算出しても良い。キーワードに対応する出現固有表現の役割に重要度を付し、それを累積して重要度を決定して、重要度の範囲に応じて表示属性を変えて文書リストを表示する。この場合、表示属性テーブル191は、重要度の各範囲と表示属性との対応を規定する。なお、図19において図1と対応する箇所には対応する符号を付した。
また、図20に示すように文書管理装置をサーバ・クライアントシステムで構成しても良い。図20の例では、クライアントコンピュータ300のクエリ送信部23および表示属性指定送信部24からクエリおよび表示属性指定をサーバコンピュータ200に送信し、これらをサーバコンピュータ200のクエリ受信部25、表示属性指定受信部30で受信し、そののち図1の例と同様に表示データを生成し、表示データ生成部26からクライアントコンピュータ300の表示部21に送信し、文書リストを表示する。図20においても図1と対応する箇所には対応する符号を付した。
また、上述の実施例では固有表現に着目したが、通常の単語による索引(インデックス)を用いた検索に適用しても良い。例えば、図21に示すように、役割付き索引生成部27により役割付き索引を生成する。例えば、図22に示すように、索引のエントリを単語および役割の組から構成する。この役割付き索引は、構文解析を行い単語を抽出し、さらに助詞の情報から図1の例と同様に単語に役割を付与する。役割付き索引は索引記憶部28に記憶される。クエリ受付部15により受け付けたクエリからキーワード抽出部29がキーワード(単語)を抽出して検索演算部17が検索を行なう。検索条件に役割を付けても良い。代表役割決定部28は、キーワードに対応する出現単語の役割に基づいて文書を代表する役割を決定する。決定の仕方は、先の固有表現の場合と同様であり、説明を繰り返さない。
また上述実施例では文書リストの文書エントリの表示属性に文書の代表役割を反映させたが、代表役割に応じて文書リストに入れるかどうかを決定しても良い。例えば、文書の代表役割が動作主体の役割の文書のみリストに乗せるようにしても良い。また文書の属性として用いてソート等に用いることもできる。文書リストの表示順位を代表役割により決定するようにしても良い。
つぎに、この発明を文書分類装置に適用した実施例2について説明する。図23は実施例2の文書分類装置を全体として示している。なお、この例では単語のキーワードにより文書を分類するようにしている。また文書検索装置はコンピュータ100にインストールされるが、これに限定されない。
図23において、文書分類装置は、文書受付部50、文書分類部51、キーワード記憶部52、分類済み文書記憶部53、キーワード役割抽出部54、キーワード役割記憶部55、代表役割決定部56、代表役割記憶部57、表示属性決定部58、表示属性テーブル581、表示部59、表示属性指定部60等を含んで構成されている。
文書受付部50は、文書分類部51に送られ、キーワード記憶部52のキーワードに基づいて分類枠ごとに分類される。分類枠のキーワードの例は例えば図26に示すようなものである。図26の例ではキーワードに重み付けが付されていないが、重み付けを付しても良い。この場合、重み付けを用いて文書を代表するキーワードを選択する基準にできる。分類済みの文書は分類済み文書記憶部53に記憶保管される。
キーワード役割抽出部54は、文書中に出現したキーワード(またはそれに相応する語句)に続く助詞を調べて当該キーワードの役割を決定する。実施例1と同様に図13に示すような役割テーブルを参照して役割を決定できるが、これに限定されない。抽出されたキーワード役割はキーワード役割記憶部55に記憶される。
代表役割決定部56は、各文書中のキーワード役割に基づいて文書を代表する役割を決定する。例えば、分類枠にキーワードが1つの場合には、そのキーワードに対応して文書に出現した単語の役割に基づいて決定する。異なる役割がある場合には、例えば多数決で決定する。分類枠に複数のキーワード(単語)が割り当てられている場合には、例えば、所定の規則に基準となるキーワードを1つ選択した上でそのキーワードの役割から文書の代表役割を決定する。選択基準の例では、固有表現を一般名詞より優先する。固有表現の中でも、人名や組織名など、より人に関係が深いカテゴリを優先する。あるいは、ユーザや管理者が明示的に複数のキーワード(単語)から、基準となるキーワードを予め選択しておいても良い。分類枠に関連付けられた複数の単語について重みが設定してあれば、それを用いて基準となる単語を選定する。
表示属性決定部58は、文書の代表役割に基づいて分類結果の表示リストの各文書エントリの背景色を決定する。表示属性テーブル581は実施例1と同様に図2に示すように各役割に表示属性を指定しており、これを表引きして最終的な表示属性が決定される。表示属性テーブル581の内容は例えば表示属性指定部60により指定することが可能である。もちろん、動作主体は赤、動作対象は緑というように固定されていても良い。
表示部59は、検索結果の表示リストを、表示属性決定部58の決定結果にしたがって表示する。表示例は例えば実施例1と同様であり、図16に示すようなものであり、タイトル等の属性および要約が表示され、背景色が赤、緑、色なしで表示される。図16の例では、文書の役割が、動作主体の役割のときには赤色の背景色で表示され、動作対象の役割のときには緑色の背景色で表示される。文字色を変えても良い。もちろん、図17〜図18等、実施例1で採用した種々の表示手法を採用できる。
ユーザは文書リストを閲覧し、さらに、所望の文書を選択して分類済み文書記憶部53をアクセスし、文書本体を閲覧することができる。
図24はこの実施例の文書分類装置の文書登録時の動作例を説明するものであり、図24において、文書受付部50が文書を登録し(S30)、文処分類部51が文書をキーワードの基づいて分類枠に分類する(S31)。キーワード役割抽出部54がキーワードの役割を抽出し(S32)、代表役割決定部56がキーワードの役割に基づいて文書の代表役割を決定して代表役割記憶部57に登録する(S33)。
図25は、この実施例の文書分類装置の文書リスト表示時の動作例を示しており、この図において、登録文書の属性、要約、代表役割が取り出され(S40)、これに基づいて文書リストが表示部59に表示される(S41)。要約は予め生成しておいて分類済み文書記憶部53に保管しておいても良いし、文書リスト表示時に生成しても良い。文書リストの各エントリは文書の役割に応じた表示であり、ユーザはその役割の視点で文書リストを見ることができる。
また、この実施例では、文書を代表する役割により表示属性を割り当てるようにしたが、例えば図27に示すように、代表役割決定部56に代えて重要度決定部61に設け、文書中のキーワードの役割から重要度を算出しても良い。重要度は重要度記憶部62に記憶される。キーワードに対応する出現単語の役割に重要度を付し、それを累積して重要度を決定して、重要度の範囲に応じて表示属性を変えて文書リストを表示する。この場合、表示属性テーブル581は、重要度の各範囲と表示属性との対応を規定する。なお、図27において図23と対応する箇所には対応する符号を付した。
また、この実施例の文書分類装置をサーバ・クライアントシステムで構成しても良い。
この発明を文書検索装置に適用して実施例1を全体として示す図である。 上述実施例1の文書役割と表示属性との関係を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部の構成例を説明するブロック図である。 上述実施例1の固有表現抽出部・役割抽出部に入力される文書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる形態素解析辞書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部における形態素解析結果の例を説明する図であうr。 上述実施例1の固有表現抽出部・役割抽出部による固有名抽出ルールの説明する図である。 上述実施例1の固有表現抽出部・役割抽出部による固有名抽出結果を簡略化して説明する図である。 上述実施例1の入力文書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部の動作を説明するフローチャートである。 上述実施例1の固有表現抽出部・役割抽出部で用いる標準表記テーブルを説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる指示表現テーブルを説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる役割テーブル(役割・助詞対応)を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部により抽出された固有表現レコードを説明する図である。 上述実施例1の検索演算部の動作を説明するフローチャートである。 上述実施例1の文書リストの表示例を説明する図である。 上述実施例1の文書リストの他の表示例を説明する図である。 上述実施例1の文書リストのさらに他の表示例を説明する図である。 上述実施例1の変形例を説明する図である。 上述実施例1の他の変形例を説明する図である。 上述実施例1のさらに他の変形例を説明する図である。 図21の役割付き索引を説明する図である。 この発明を文書分類装置に適用した実施例2を全体として示す図である。 上述実施例2の文書登録時の動作例を説明する図である。 上述実施例2の文書リスト表示時の動作例を説明する図である。 上述実施例2の分類枠のキーワードの例を説明する図である。 上述実施例2の変形例を説明する図である。
符号の説明
10 文書受付部
11 文書記憶部
12 固有表現抽出部
13 役割抽出部
14 固有表現・役割記憶部
15 クエリ受付部
16 固有表現抽出部
17 検索演算部
18 代表役割決定部
19 表示属性決定部
20 表示部
21 表示属性指定部
22 重要度決定部
23 クエリ送信部
24 表示属性指定送信部
25 クエリ受信部
26 表示データ生成部
27 役割付き索引生成部
28 役割付き索引記憶部
28 代表役割決定部
29 キーワード抽出部
30 表示属性指定受信部
50 文書受付部
51 文書分類部
52 キーワード記憶部
53 分類済み文書記憶部
54 キーワード役割抽出部
55 キーワード役割記憶部
56 代表役割決定部
57 代表役割記憶部
58 表示属性決定部
59 表示部
60 表示属性指定部
61 重要度決定部
62 重要度記憶部
100 コンピュータ
121 形態素解析部
122 形態素解析辞書記憶部
123 ルール適用部
124 ルール記憶部
125 標準表記テーブル
126 指示表現テーブル
127 役割テーブル
191 表示属性テーブル
200 サーバコンピュータ
300 クライアントコンピュータ
581 表示属性テーブル

Claims (11)

  1. キーワードを用いて文書を選択する文書選択手段と、
    上記文書選択手段により選択された文書中の文における上記キーワードの役割を決定するキーワード役割決定手段と、
    上記キーワード役割決定手段により決定された上記キーワードの役割に基づいて当該文書を代表する役割を決定する代表役割決定手段とを有することと特徴とする文書管理装置。
  2. 上記キーワードの役割は動作主の役割、動作対象の役割およびその他の役割である請求項1記載の文書管理装置。
  3. 文書選択手段は、入力された文書をキーワードに基づいて分類する分類手段を含む請求項1または2記載の文書管理装置。
  4. 文書選択手段は、入力された文書をキーワードに基づいて、登録されている複数の文書に対して文書検索を行なう文書検索手段を含む請求項1または2記載の文書管理装置。
  5. 代表役割決定手段は、該当するキーワードが文書中に複数ある場合には、所定の基準により1のキーワードを選択してそのキーワードの役割を当該文書を代表する役割とする請求項1、2、3または4記載の文書管理装置。
  6. 上記所定の基準は、キーワードに設定された重みに基づく請求項5記載の文書管理装置。
  7. 上記所定の基準は、固有表現のほうが一般名より優先され、固有名表現に関しては人名および組織名のカテゴリが優先される請求項1、2、3または4記載の文書管理装置。
  8. 上記所定の基準は、キーワードのtf*IDFに基づく請求項1、2、3または4記載の文書管理装置。
  9. 上記文書選択手段により選択された文書のリストを表示する文書リスト表示手段を有し、上記代表役割決定手段により決定された各文書の代表役割に基づいて上記文書リストの各エントリの表示属性を決定する請求項1〜8のいずれかに記載の文書管理装置。
  10. 文書選択手段がキーワードを用いて文書を選択するステップと、
    キーワード役割決定手段が上記文書選択手段により選択された文書中の文における上記キーワードの役割を決定するステップと、
    代表役割決定手段が上記キーワード役割決定手段により決定された上記キーワードの役割に基づいて当該文書を代表する役割を決定するステップとを有することと特徴とする文書管理方法。
  11. 文書選択手段がキーワードを用いて文書を選択するステップと、
    キーワード役割決定手段が上記文書選択手段により選択された文書中の文における上記キーワードの役割を決定するステップと、
    代表役割決定手段が上記キーワード役割決定手段により決定された上記キーワードの役割に基づいて当該文書を代表する役割を決定するステップとをコンピュータに実行させるために用いられることと特徴とする文書管理用コンピュータプログラム。
JP2004041418A 2004-02-18 2004-02-18 文書管理装置および方法 Pending JP2005234772A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004041418A JP2005234772A (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004041418A JP2005234772A (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Publications (1)

Publication Number Publication Date
JP2005234772A true JP2005234772A (ja) 2005-09-02

Family

ID=35017684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004041418A Pending JP2005234772A (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Country Status (1)

Country Link
JP (1) JP2005234772A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007020893A1 (ja) 2005-08-12 2007-02-22 Shiseido Co., Ltd. 水溶性メタルアルコラート誘導体,その製造方法及びこれを含む固体ゲル状外用剤
JP2007122513A (ja) * 2005-10-28 2007-05-17 Dainippon Printing Co Ltd コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2009098927A (ja) * 2007-10-17 2009-05-07 Dainippon Printing Co Ltd ユーザのアクションを利用した推薦情報配信方法および推薦情報配信サーバ
JP2009123033A (ja) * 2007-11-15 2009-06-04 Fuji Xerox Co Ltd 文書検索支援装置及びプログラム
JP5622969B1 (ja) * 2014-02-04 2014-11-12 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
CN111523289A (zh) * 2020-04-24 2020-08-11 支付宝(杭州)信息技术有限公司 一种文本格式生成方法、装置、设备和可读介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007020893A1 (ja) 2005-08-12 2007-02-22 Shiseido Co., Ltd. 水溶性メタルアルコラート誘導体,その製造方法及びこれを含む固体ゲル状外用剤
JP2007122513A (ja) * 2005-10-28 2007-05-17 Dainippon Printing Co Ltd コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2009098927A (ja) * 2007-10-17 2009-05-07 Dainippon Printing Co Ltd ユーザのアクションを利用した推薦情報配信方法および推薦情報配信サーバ
JP2009123033A (ja) * 2007-11-15 2009-06-04 Fuji Xerox Co Ltd 文書検索支援装置及びプログラム
JP5622969B1 (ja) * 2014-02-04 2014-11-12 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
CN111523289A (zh) * 2020-04-24 2020-08-11 支付宝(杭州)信息技术有限公司 一种文本格式生成方法、装置、设备和可读介质
CN111523289B (zh) * 2020-04-24 2023-05-09 支付宝(杭州)信息技术有限公司 一种文本格式生成方法、装置、设备和可读介质

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US9836511B2 (en) Computer-generated sentiment-based knowledge base
US7783644B1 (en) Query-independent entity importance in books
CA2638558C (en) Topic word generation method and system
US8285714B2 (en) Method and apparatus for providing related words for queries using word co-occurrence frequency
US10552467B2 (en) System and method for language sensitive contextual searching
US20040049499A1 (en) Document retrieval system and question answering system
US20100205198A1 (en) Search query disambiguation
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JPH1049543A (ja) 文書検索装置
JP2005234772A (ja) 文書管理装置および方法
JP4499179B1 (ja) 端末装置
JP4496797B2 (ja) 文書管理装置および方法
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
JP4860439B2 (ja) 質問文の自動生成システム
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2005228033A (ja) 文書検索装置および方法
JP2005056125A (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP6549441B2 (ja) 入力支援装置、プログラムおよび入力支援方法
JP2005234771A (ja) 文書管理装置および方法