JP4496797B2 - 文書管理装置および方法 - Google Patents

文書管理装置および方法 Download PDF

Info

Publication number
JP4496797B2
JP4496797B2 JP2004040815A JP2004040815A JP4496797B2 JP 4496797 B2 JP4496797 B2 JP 4496797B2 JP 2004040815 A JP2004040815 A JP 2004040815A JP 2004040815 A JP2004040815 A JP 2004040815A JP 4496797 B2 JP4496797 B2 JP 4496797B2
Authority
JP
Japan
Prior art keywords
document
role
unit
phrase
display attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004040815A
Other languages
English (en)
Other versions
JP2005234732A (ja
Inventor
克典 芳地
猛志 永峯
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004040815A priority Critical patent/JP4496797B2/ja
Publication of JP2005234732A publication Critical patent/JP2005234732A/ja
Application granted granted Critical
Publication of JP4496797B2 publication Critical patent/JP4496797B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、文書群をリスト表示する際に、各文書を代表する役割に着目してユーザが文書を選択しやすくする文書リスト表示技術に関する。
文書検索や文書分類において、検索結果や、分類結果をリスト表示してそのリストを用いてユーザが文書を選択するようにすることが知られている。そして、単語ベクトル空間法に代表されるような任意の尺度により、クエリや分類枠と各文書とを突き合わせてスコアをとり、このスコアに基づいて各文書のエントリをランキング表示することにより、ユーザに重要な文書を提示する方法も知られている。なお、リスト(文書リスト)は、種々の態様が可能であり、例えば、タイトルや日付等の属性と、要約とから各文書のエントリが構成されるが、これに限定されない。
ところで、従来の単語レベル演算によるランキング表示では、スコアに着目して上位から順に表示されるが、文書中で主題となる単語が主体の役割なのか対象の役割なのか明確でない。また、そもそも、文書を選択する基準がランキングのスコア算出基準であるため、ユーザにとってはどのような視点でクエリと文書がマッチしているのか明確でない。
本発明者等は研究の結果、単語や固有表現等の文における役割に着目し、さらに、この役割から文書全体の役割を導出することが有益であるという見地に至った。そして、このような文書全体の役割に基づいた表示属性により文書リストの各エントリを表示することが、ユーザの文書選択上極めて有益であることを発見した。
この発明は、以上の事情を考慮してなされたものであり、文書の役割を判別しこれに基づいて役割に着目した視点で文書の重要度をユーザに提示する文書リスト表示技術を提供することを目的としている。
この発明の構成例では、文書中に出現する固有名詞の役割の違いにより、文書群をリスト表示する際に、文書の色を変えることにより、ユーザに文書を選びやすくする。また、文書中に出現する固有名詞の役割の違いにより、文書群をリスト表示する際に、役割によって重要度を設定しておき、重要度により文書の色を変えることにより、ユーザに文書を選びやすくする。
さらにこの発明を説明する。
この発明の一側面によれば、上述の目的を達成するために、文書管理装置に:文書を選択する文書選択手段と;文書選択手段により選択された文書中の所定の語句の文における役割を判別する役割判別手段と;上記役割判別手段により判別された役割に基づいて文書の表示属性を決定する表示属性決定手段と;上記文書選択手段により選択された文書のリストを、当該文書に対応するエントリを上記表示属性決定手段により決定された表示属性によりを表示する態様で、表示する文書リスト表示手段とを設けるようにしている。
文書リストは、各文書のタイトル等の属性や要約を含むが、これに限定されない。文書のエントリを含んで成るリストであればどのようなものでもよい。
文書選択手段は、文書をキーワードや単語ベクトルにより分類する文書分類手段や、文書群からキーワード等により文書を検索する文書検索手段である。検索態様は、1または複数のキーワードを直接入力しても良いし、自然文(クエリ)を入力してキーワードを自動抽出して検索を行なう、いわゆる関連文書検索でもよい。キーワードには重みを付けても良い。
役割が判断される語句は、例えば固有表現であるが、これに限定されず、通常の単語でも良い。固有表現(固有名ともいう)は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。
語句および役割をユーザが指定して該当する文書を所定の表示属性で区別して表示しても良い。
この構成においては、文書を代表する役割により決定される文書属性で表示リストの文書エントリが表示されるので、ユーザは役割に応じた視点から文書を容易に選択することができる。
また、この構成において、上記表示属性決定手段は、例えば、上記役割判別手段により判別された上記所定の語句の文における役割に基づいて当該文書を代表する役割を決定し、上記文書を代表する役割に割り当てられた表示属性で当該文書のエントリを表示する。この場合、文書の役割が直接に表示属性になる。
また、例えば、上記表示属性決定手段は、上記役割判別手段により判別された上記所定の語句の文における役割に基づいて当該文書の重要度を算出し、算出して重要度に割り当てられた表示属性で当該文書のエントリを表示する。この場合、役割に応じて文の重要度が計算され、この重要度に応じた表示属性となる。重要度の範囲ごとに色分けしても良い。重要度が所定の閾値を超えるものだけ色表示しても良い。
また、上記文書選択手段は、例えば、キーワードに基づいて文書を選択し、上記役割判別手段は上記キーワードの文における役割を判別する。
また、上記役割判別手段は、例えば、文書中の固有名の文における役割を判別する。
また、上記表示属性は、例えば、背景色または文字色である。また上記表示属性は、上記役割を表示する記号、文字、またはアイコンであってもよい。文書エントリをブリンク表示しても良い。所定のキー操作等により送り操作に基づいて、対象文書エントリに順次に移動するようにしても良い。
また、上記記号、文字、またはアイコンは、上記文書のエントリをポインティングしたときに表示されるものでもよい。
また、上記役割は、例えば、動作主の役割、動作対象の役割およびその他の役割であるが、これに限定されない。これらは語句例えば固有表現に続く助詞から判断される。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、語句の文における役割から文書の役割等を判別しこれに基づいて役割に着目した視点で文書の重要度をユーザに提示することができる。
以下、この発明の実施例について説明する。
図1は、この発明を文書検索装置に適用して実施例1を示している。なお、この例では関連文書検索を行なうようになっており、自然文であるクエリを受け付けて固有表現を抽出し、これにマッチする文書を検索する。もちろん、この発明はこのような適用例に限定されるものではなく、後述するように、通常の単語(キーワード)による検索でもよい。また文書検索装置はコンピュータ100にインストールされるが、これに限定されない。
図1において、文書検索装置は、文書受付部10、文書記憶部11、固有表現抽出部12、役割抽出部13、固有表現・役割記憶部14、クエリ受付部15、固有表現抽出部16、検索演算部17、代表役割決定部18、表示属性決定部19、表示部20、表示属性指定部21等を含んで構成されている。
文書受付部10は、文書を継続的に受け付け、あるいは定期的に文書を収集する。受け付けた文書は文書記憶部11に記憶保管される。固有表現抽出部12は受け付けた文書中の固有表現を抽出する。抽出された固有表現の情報は固有表現・役割記憶部14に記憶される。役割抽出部13は抽出した固有表現に役割がある場合には役割を抽出して固有表現・役割記憶部14に記憶する。役割は例えば、後述のように、動作主体の役割、動作対象の役割、その他の役割であるが、これに限定されない。固有表現抽出および役割抽出の詳細については後に構成例を挙げて説明する。
クエリ受付部15は、自然文のクエリを受け付ける。受け付けたクエリは固有表現抽出部16に送られ固有表現が抽出される。固有表現抽出部16は先の固有表現抽出部12と同じであり、同様のプロセスである。もちろん、別個の基準で固有表現を抽出しても良い。
固有表現抽出部16でクエリから抽出された固有表現は、検索演算部17に送られる。検索演算部17は、クエリの固有表現を、固有表現・役割記憶部14に保持されている、登録文書の固有表現と突き合わせ、所定の検索基準でスコア付けして、所定の閾値を超える文書を検索結果をして出力する。
代表役割決定部18は、検索結果に含まれる文書について、固有表現・役割記憶部14の役割の情報を参照して、当該文書の固有表現の役割を取り出し、当該文書を代表する役割を決定する。この例では、クエリから抽出された固有表現(キーワード)の文書における役割に基づいて文書を代表する役割を決定する。
表示属性決定部19は、文書の代表役割に基づいて検索結果の表示リストの各文書エントリの背景色を決定する。表示属性テーブル191は図2に示すように各役割に表示属性を指定しており、これを表引きして最終的な表示属性が決定される。表示属性テーブル191の内容は例えば表示属性指定部21により指定することが可能である。もちろん、動作主体は赤、動作対象は緑というように固定されていても良い。
表示部20は、検索結果の表示リストを、表示属性決定部19の決定結果にしたがって表示する。表示例は例えば図16に示すようなものであり、タイトル等の属性および要約が表示され、背景色が赤、緑、色なしで表示される。図16の例では、文書の役割が、動作主体の役割のときには赤色の背景色で表示され、動作対象の役割のときには緑色の背景色で表示される。文字色を変えても良い。
つぎに、固有名抽出および役割抽出の例について説明する。
固有表現抽出部12は、先に述べたように文書中の固有表現(固有名ともいう)を抽出するものである。固有表現は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。固有表現抽出部12は、例えば、図3に示すように、形態素解析部121、形態素解析辞書記憶部122、ルール適用部123およびルール記憶部124等を含んで構成される。
固有表現抽出部12の入力は例えば図4に示すようなものであり、形態素解析辞書記憶部122の形態素解析辞書は例えば図5に示すようなエントリを持つ。形態素解析部121は形態素解析辞書を用いて入力例(図4)から図6に示すような解析結果を得る。図6において「/」は形態素間の区切りを示し、「<」、「>」で囲む部分は品詞を表す。図では、開始位置や長さは省略している。形態素解析結果はルール適用部123に入力されてルール記憶部124の抽出ルールを参照して固有表現が抽出される。図7は抽出ルールの例を示し、例えばルール番号5により「姓」と「名」が結合されて「PERSON」のカテゴリが付される。抽出結果は図8に示すようになる。この例では、各固有表現が抽出され、<ORGANIZATION>、<PERSON>、<CURRENCY>、<DATE>、<PLACE>等のカテゴリが付される。なお、この実施例では固有表現のカテゴリは用いないので、説明は省略する。
さらに固有表現抽出および役割抽出の処理について説明する。図10は、固有表現抽出部12の処理を示しており、この図において、対象となる個々の文書を順次に取り出し、文書内容(図9に示す)に対して固有表現抽出を行う(S10)。抽出された固有表現の情報を固有表現・役割記憶部14に格納する。固有表現の情報は、例えば、文書ID、固有表現(出現形)、固有表現(標準形)、カテゴリであるが、これに限定されない。固有表現(標準形)は、図11の標準標記テーブルを検索して決めることができる。図13に示す役割テーブル(役割・助詞(相当語句)対応表)」121を参照し、役割に関する助詞(相当語句)が、抽出した固有表現に続いていれば、その固有表現の役割として対応する役割も登録する(S12)。図14に示す指示表現テーブル126の指示表現が抽出されたら、これも固有表現・役割記憶部14に格納する(S13)。そのカテゴリはPRONOUNとする。指示表現テーブルで指定されたカテゴリを持つ固有表現を固有表現・役割記憶部14から検索し、もっとも近い固有表現のレコード番号を参照先として登録する。以上の処理を文書単位に実行する(S14)。標準表記テーブル125(図11)、指示表現テーブル126(図12)、役割テーブル127(図13)はコンピュータ100の記憶部に記憶される。
抽出された固有表現(指示表現を含む)は図14に示すように固有表現・役割記憶部14に格納される。この例では、抽出された固有表現に対して、レコード番号、所属する文書ID、固有表現(出現形)、カテゴリ、役割等が与えられる。
つぎに検索処理について説明する。
図15は検索処理の動作例を示しており、この図において、クエリ受付部15が自然文のクエリを受け付ける(S20)。固有表現抽出部16がクエリから固有表現を抽出する(S21)。検索演算部17が、クエリから抽出して固有表現を用いて登録文書を対象として検索を行なう(S22)。代表役割決定部18が、検索結果中の文書の代表役割を、文書中のキーワード対応語の役割に応じて決定する(S23)。
なお、クエリからキーワードとなる固有表現が複数抽出され、これに応じて検索結果の文書にも異なるキーワードに対応する単語がある場合には、所定の規則に従って文書を代表する役割を決定する。例えば、役割を調べるべき単語を1つ選定し、その単語について役割を調べる。この実施例では、検索を固有表現により行なっているが、単語一般で検索を行なう場合には、固有表現を一般名詞より優先する。固有表現の中でも、人名や組織名など、より人に関係が深いカテゴリを優先する。あるいは、例えば、クエリから固有表現を抽出したときに、複数の固有表現が抽出された場合には、ユーザに明示的に複数の単語から、主題となる単語を選択させてもよい。
また、クエリの単語に重み付けを設定したときには、その重みに基づいて、文書の役割を決定する単語を選定する。後に説明する文書分類装置においても、分類枠に関連付けられた複数の単語についても、同様に、重みが設定してあれば、それを用いて主眼となる単語を選定する。
文書を代表する役割が決定されたら、表示属性決定部19が表示属性テーブル191を表引きして各文書エントリの表示属性を決定する。この実施例では、図2に示すように、文書を代表する役割が動作主体の役割でありば背景色を赤色にし、動作対象の役割であれば背景色を緑色にする。他の役割、あるいは役割がない場合には、表示属性はデフォルトのままである。この後、表示部20が、表示属性に従って例えば図16に示すように文書リストを表示する。
ユーザは文書リストを閲覧し、さらに、所望の文書を選択して文書記憶部11をアクセスし、文書本体を閲覧することができる。
なお、ユーザは表示属性指定部21を用いて役割の表示属性を設定することができ、役割に着目した視点に応じて視点に合致した文書を他と区別して表示できる。
なおこの実施例では、図16に示すように表示属性として赤、緑の背景色を用いたが、他の色を用いてもよく、また図17に示すように「主体」、「客体」を表す文字やアイコンを表示しても良い。文書の属性としてタイトル等とともに表示しても良い。文書の役割を検索条件としても良い。また、図18に示すように、ポインティングデバイスで文書エントリをポイントしたときに、所定の表示エリアに文書の役割が表示されても良い。例えば「役割は動作主体です」と表示されても良い。また、図18に破線で示すように、吹き出し表示がなされても良い。
また、この実施例では、文書を代表する役割により表示属性を割り当てるようにしたが、例えば図19に示すように、代表役割決定部18に代えて重要度決定部22に設け、文書中の固有表現の役割から重要度を算出しても良い。キーワードに対応する出現固有表現の役割に重要度を付し、それを累積して重要度を決定して、重要度の範囲に応じて表示属性を変えて文書リストを表示する。この場合、表示属性テーブル191は、重要度の各範囲と表示属性との対応を規定する。なお、図19において図1と対応する箇所には対応する符号を付した。
また、図20に示すように文書管理装置をサーバ・クライアントシステムで構成しても良い。図20の例では、クライアントコンピュータ300のクエリ送信部23および表示属性指定送信部24からクエリおよび表示属性指定をサーバコンピュータ200に送信し、これらをサーバコンピュータ200のクエリ受信部25、表示属性指定受信部30で受信し、そののち図1の例と同様に表示データを生成し、表示データ生成部26からクライアントコンピュータ300の表示部21に送信し、文書リストを表示する。図20においても図1と対応する箇所には対応する符号を付した。
また、上述の実施例では固有表現に着目したが、通常の単語による索引(インデックス)を用いた検索に適用しても良い。例えば、図21に示すように、役割付き索引生成部27により役割付き索引を生成する。例えば、図22に示すように、索引のエントリを単語および役割の組から構成する。この役割付き索引は、構文解析を行い単語を抽出し、さらに助詞の情報から図1の例と同様に単語に役割を付与する。役割付き索引は索引記憶部28に記憶される。クエリ受付部15により受け付けたクエリからキーワード抽出部29がキーワード(単語)を抽出して検索演算部17が検索を行なう。検索条件に役割を付けても良い。代表役割決定部28は、キーワードに対応する出現単語の役割に基づいて文書を代表する役割を決定する。決定の仕方は、先の固有表現の場合と同様であり、説明を繰り返さない。
また、上述の例ではキーワードに着目して文書を代表する役割を決定したが、キーワードと無関係に、文書の構造や固有表現に着目して文書を代表する役割を決定しても良い。
例えば、図23に示すようなXML(拡張可能マークアップ言語)文書の場合、「題名」や「概要」の欄の中の単語や固有表現から、代表役割決定基準となるものを優先的に採用してもよい。図23の例では、「複写サイズ認識」や「複写サイズ」等が優先的に採用される。優先的に採用された単語は、題名」や「概要」の欄以外にも出現することが多いが、文書全体で当該優先的な単語の役割を調べ、その結果、例えば多数決で文書の代表役割を毛呈しても良いし、当該欄に出現する当該優先的な単語に限ってその役割を知れべて文書の代表役割を決定しても良い。
また、文書に表れる単語や固有表現にその種類、カテゴリから優先順位を設けて、文書の代表役割を決定する際に基準となる単語や固有表現を絞り込んでも良い。例えば、一般名称より固有表現を優先させる。さらに絞り込みが必要な場合には固有表現のうち人間に関係のあるカテゴリ(人名、組織名)を優先させる。さらに必要であれば、人名のカテゴリを優先させる。
図24は、単語や固有表現の種類、カテゴリから絞り込んで基準となる単語、固有表現を決定する様子をしめしており、図24(a)に示す文書が図24(b)に示すように解析され(括弧内は単語の種類と役割を示す)、固有表現を一般名詞より優先させて図24(c)のような絞り込みを行なえる。さらに固有表現のカテゴリを人名および組織名とすることにより図24(d)のような絞り込みを行なえる。さらに人名のカテゴリに限定すれば「ウイリアムズ局長」が唯一選択されてその役割である「主体」(動作主の役割)が文書を代表する役割と判別される。
また、ユーザが個別の単語や固有表現を指定し、それらに関して文書中に表れる役割から文書の役割を決定しても良い。また、個別の単語や固有表現と役割との組をユーザが指定し、その組み合わせに該当する文書に、対応する表示属性を割り当てても良い。例えば「富士ゼロックス」+「動作主体」の組み合わせを赤色に指定して、該当する文書のエントリを赤色でハイライトしても良い。「富士ゼロックス」+「動作主体」の組み合わせを赤色に指定し、さらに、「富士ゼロックス」+「動作対象」の組み合わせを緑色に指定してそれぞれ該当する文書のエントリを赤色および緑色でハイライトしてもよい。「赤は動作主体の役割です」等、表示属性と役割との関係を案内する表示が画面に含まれていても良い。文書中の固有表現のプルダウンメニューおよび役割のプルダウンメニューを用いて固有表現およびその役割を指定してもよい。
つぎに、この発明を文書分類装置に適用した実施例2について説明する。図25は実施例2の文書分類装置を全体として示している。なお、この例では単語のキーワードにより文書を分類するようにしている。また文書検索装置はコンピュータ100にインストールされるが、これに限定されない。
図25において、文書分類装置は、文書受付部50、文書分類部51、キーワード記憶部52、分類済み文書記憶部53、キーワード役割抽出部54、キーワード役割記憶部55、代表役割決定部56、代表役割記憶部57、表示属性決定部58、表示属性テーブル581、表示部59、表示属性指定部60等を含んで構成されている。
文書受付部50は、文書分類部51に送られ、キーワード記憶部52のキーワードに基づいて分類枠ごとに分類される。分類枠のキーワードの例は例えば図28に示すようなものである。図28の例ではキーワードに重み付けが付されていないが、重み付けを付しても良い。この場合、重み付けを用いて文書を代表するキーワードを選択する基準にできる。分類済みの文書は分類済み文書記憶部53に記憶保管される。
キーワード役割抽出部54は、文書中に出現したキーワード(またはそれに相応する語句)に続く助詞を調べて当該キーワードの役割を決定する。実施例1と同様に図13に示すような役割テーブルを参照して役割を決定できるが、これに限定されない。抽出されたキーワード役割はキーワード役割記憶部55に記憶される。
代表役割決定部56は、各文書中のキーワード役割に基づいて文書を代表する役割を決定する。例えば、分類枠にキーワードが1つの場合には、そのキーワードに対応して文書に出現した単語の役割に基づいて決定する。異なる役割がある場合には、例えば多数決で決定する。分類枠に複数のキーワード(単語)が割り当てられている場合には、例えば、所定の規則に基準となるキーワードを1つ選択した上でそのキーワードの役割から文書の代表役割を決定する。選択基準の例では、固有表現を一般名詞より優先する。固有表現の中でも、人名や組織名など、より人に関係が深いカテゴリを優先する。あるいは、ユーザや管理者が明示的に複数のキーワード(単語)から、基準となるキーワードを予め選択しておいても良い。分類枠に関連付けられた複数の単語について重みが設定してあれば、それを用いて基準となる単語を選定する。
表示属性決定部58は、文書の代表役割に基づいて分類結果の表示リストの各文書エントリの背景色を決定する。表示属性テーブル581は実施例1と同様に図2に示すように各役割に表示属性を指定しており、これを表引きして最終的な表示属性が決定される。表示属性テーブル581の内容は例えば表示属性指定部60により指定することが可能である。もちろん、動作主体は赤、動作対象は緑というように固定されていても良い。
表示部59は、検索結果の表示リストを、表示属性決定部58の決定結果にしたがって表示する。表示例は例えば実施例1と同様であり、図16に示すようなものであり、タイトル等の属性および要約が表示され、背景色が赤、緑、色なしで表示される。図16の例では、文書の役割が、動作主体の役割のときには赤色の背景色で表示され、動作対象の役割のときには緑色の背景色で表示される。文字色を変えても良い。もちろん、図17〜図18等、実施例1で採用した種々の表示手法を採用できる。
ユーザは文書リストを閲覧し、さらに、所望の文書を選択して分類済み文書記憶部53をアクセスし、文書本体を閲覧することができる。
図26はこの実施例の文書分類装置の文書登録時の動作例を説明するものであり、図26において、文書受付部50が文書を登録し(S30)、文処分類部51が文書をキーワードの基づいて分類枠に分類する(S31)。キーワード役割抽出部54がキーワードの役割を抽出し(S32)、代表役割決定部56がキーワードの役割に基づいて文書の代表役割を決定して代表役割記憶部57に登録する(S33)。
図27は、この実施例の文書分類装置の文書リスト表示時の動作例を示しており、この図において、登録文書の属性、要約、代表役割が取り出され(S40)、これに基づいて文書リストが表示部59に表示される(S41)。要約は予め生成しておいて分類済み文書記憶部53に保管しておいても良いし、文書リスト表示時に生成しても良い。文書リストの各エントリは文書の役割に応じた表示であり、ユーザはその役割の視点で文書リストを見ることができる。
また、この実施例では、文書を代表する役割により表示属性を割り当てるようにしたが、例えば図29に示すように、代表役割決定部56に代えて重要度決定部61に設け、文書中のキーワードの役割から重要度を算出しても良い。重要度は重要度記憶部62に記憶される。キーワードに対応する出現単語の役割に重要度を付し、それを累積して重要度を決定して、重要度の範囲に応じて表示属性を変えて文書リストを表示する。この場合、表示属性テーブル581は、重要度の各範囲と表示属性との対応を規定する。なお、図29において図25と対応する箇所には対応する符号を付した。
また、この実施例の文書分類装置をサーバ・クライアントシステムで構成しても良い。
また、上述の例ではキーワードに着目して文書を代表する役割を決定したが、キーワードと無関係に、文書の構造や固有表現に着目して文書を代表する役割を決定しても良い。
また、ユーザが個別の単語や固有表現を指定し、それらに関して文書中に表れる役割から文書の役割を決定しても良い。また、個別の単語や固有表現と役割との組をユーザが指定し、その組み合わせに該当する文書に、対応する表示属性を割り当てても良い。例えば「富士ゼロックス」+「動作主体」の組み合わせを赤色に指定して、該当する文書のエントリを赤色でハイライトしても良い。「富士ゼロックス」+「動作主体」の組み合わせを赤色に指定し、さらに、「富士ゼロックス」+「動作対象」の組み合わせを緑色に指定してそれぞれ該当する文書のエントリを赤色および緑色でハイライトしてもよい。
この発明を文書検索装置に適用して実施例1を全体として示す図である。 上述実施例1の文書役割と表示属性との関係を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部の構成例を説明するブロック図である。 上述実施例1の固有表現抽出部・役割抽出部に入力される文書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる形態素解析辞書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部における形態素解析結果の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部による固有名抽出ルールの説明する図である。 上述実施例1の固有表現抽出部・役割抽出部による固有名抽出結果を簡略化して説明する図である。 上述実施例1の入力文書の例を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部の動作を説明するフローチャートである。 上述実施例1の固有表現抽出部・役割抽出部で用いる標準表記テーブルを説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる指示表現テーブルを説明する図である。 上述実施例1の固有表現抽出部・役割抽出部で用いる役割テーブル(役割・助詞対応)を説明する図である。 上述実施例1の固有表現抽出部・役割抽出部により抽出された固有表現レコードを説明する図である。 上述実施例1の検索演算部の動作を説明するフローチャートである。 上述実施例1の文書リストの表示例を説明する図である。 上述実施例1の文書リストの他の表示例を説明する図である。 上述実施例1の文書リストのさらに他の表示例を説明する図である。 上述実施例1の変形例を説明する図である。 上述実施例1の他の変形例を説明する図である。 上述実施例1のさらに他の変形例を説明する図である。 図21の役割付き索引を説明する図である。 文書の構造から文書を代表する役割を決定する例を説明する図である。 文書を代表する役割を決定する際に基準となる単語や固有表現を、単語や固有表現の種類から選択する様子を説明する図である。 この発明を文書分類装置に適用した実施例2を全体として示す図である。 上述実施例2の文書登録時の動作例を説明する図である。 上述実施例2の文書リスト表示時の動作例を説明する図である。 上述実施例2の分類枠のキーワードの例を説明する図である。 上述実施例2の変形例を説明する図である。
符号の説明
10 文書受付部
11 文書記憶部
12 固有表現抽出部
13 役割抽出部
14 固有表現・役割記憶部
15 クエリ受付部
16 固有表現抽出部
17 検索演算部
18 代表役割決定部
19 表示属性決定部
20 表示部
21 表示属性指定部
22 重要度決定部
23 クエリ送信部
24 表示属性指定送信部
25 クエリ受信部
26 表示データ生成部
27 役割付き索引生成部
28 役割付き索引記憶部
28 代表役割決定部
29 キーワード抽出部
30 表示属性指定受信部
50 文書受付部
51 文書分類部
52 キーワード記憶部
53 分類済み文書記憶部
54 キーワード役割抽出部
55 キーワード役割記憶部
56 代表役割決定部
57 代表役割記憶部
58 表示属性決定部
59 表示部
60 表示属性指定部
61 重要度決定部
62 重要度記憶部
100 コンピュータ
121 形態素解析部
122 形態素解析辞書記憶部
123 ルール適用部
124 ルール記憶部
125 標準表記テーブル
126 指示表現テーブル
127 役割テーブル
191 表示属性テーブル
200 サーバコンピュータ
300 クライアントコンピュータ
581 表示属性テーブル

Claims (9)

  1. 文書を選択する文書選択手段と、
    1または複数の形態素を含む形態素列から成る、人名、組織名、地名、通貨、または日付である固有表現語句を、文書から抽出するルールを記憶するルール記憶手段と、
    文書選択手段により選択された文書から、上記ルール記憶手段に記憶されたルールを参照して、上記固有表現語句を抽出し、抽出された上記固有表現語句にカテゴリを付与するカテゴリ付与手段と、
    異なるカテゴリが付与された複数の固有表現語句が存在する場合、カテゴリ間の優先順位に基づき唯一の固有表現語句を選択する語句選択手段と、
    語句選択手段により選択された固有表現語句の文書における役割を判別する役割判別手段と、
    上記役割判別手段により判別された役割に基づいて文書を代表する役割を決定すると共に、決定された文書を代表する役割に基づいて文書の表示属性を決定する表示属性決定手段と、
    上記文書選択手段により選択された文書のリストを、当該文書に対応するエントリを上記表示属性決定手段により決定された表示属性により表示する態様で、表示する文書リスト表示手段とを有することを特徴とする文書管理装置。
  2. 上記表示属性決定手段は、上記役割判別手段により判別された上記固有表現語句の文における役割に基づいて当該文書の重要度を算出し、算出して重要度に割り当てられた表示属性で当該文書のエントリを表示する請求項1記載の文書管理装置。
  3. 上記文書選択手段は、キーワードに基づいて文書を選択し、上記役割判別手段は上記キーワードの文における役割を判別する請求項1または2記載の文書管理装置。
  4. 上記表示属性は、背景色または文字色である請求項1、2、または3記載の文書管理装置。
  5. 上記表示属性は、上記役割を表示する記号、文字、またはアイコンである請求項1、2、または3記載の文書管理装置。
  6. 上記記号、文字、またはアイコンは、上記文書のエントリをポインティングしたときに表示される請求項記載の文書管理装置。
  7. 上記役割は、動作主の役割、動作対象の役割およびその他の役割である請求項1〜6のいずれかに記載の文書管理装置。
  8. 文書選択手段が文書を選択するステップと、
    ルール記憶手段が、1または複数の形態素を含む形態素列から成る、人名、組織名、地名、通貨、または日付である固有表現語句を、文書から抽出するルールを記憶するステップと、
    カテゴリ付与手段が、文書選択手段により選択された文書から、上記ルール記憶手段に記憶されたルールを参照して、上記固有表現語句を抽出し、抽出された上記固有表現語句にカテゴリを付与するステップと、
    語句選択手段が、異なるカテゴリが付与された複数の固有表現語句が存在する場合、カテゴリ間の優先順位に基づき唯一の固有表現語句を選択するステップと、
    役割判別手段が、語句選択手段により選択された固有表現語句の文書における役割を判別するステップと、
    表示属性決定手段が上記役割判別手段により判別された役割に基づいて文書を代表する役割を決定すると共に、決定された文書を代表する役割に基づいて文書の表示属性を決定するステップと、
    文書リスト表示手段が、上記文書選択手段により選択された文書のリストを、当該文書に対応するエントリを上記表示属性決定手段により決定された表示属性により表示する態様で、表示するステップとを有することを特徴とする文書管理方法。
  9. 文書選択手段が文書を選択するステップと、
    ルール記憶手段が、1または複数の形態素を含む形態素列から成る、人名、組織名、地名、通貨、または日付である固有表現語句を、文書から抽出するルールを記憶するステップと、
    カテゴリ付与手段が、文書選択手段により選択された文書から、上記ルール記憶手段に記憶されたルールを参照して、上記固有表現語句を抽出し、抽出された上記固有表現語句にカテゴリを付与するステップと、
    語句選択手段が、異なるカテゴリが付与された複数の固有表現語句が存在する場合、カテゴリ間の優先順位に基づき唯一の固有表現語句を選択するステップと、
    役割判別手段が、語句選択手段により選択された固有表現語句の文書の文における役割を判別するステップと、
    表示属性決定手段が上記役割判別手段により判別された役割に基づいて文書を代表する役割を決定すると共に、決定された文書を代表する役割に基づいて文書の表示属性を決定するステップと、
    文書リスト表示手段が、上記文書選択手段により選択された文書のリストを、当該文書に対応するエントリを上記表示属性決定手段により決定された表示属性により表示する態様で、表示するステップとをコンピュータに実行させるために用いられることを特徴とする文書管理用コンピュータプログラム。
JP2004040815A 2004-02-18 2004-02-18 文書管理装置および方法 Expired - Fee Related JP4496797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004040815A JP4496797B2 (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004040815A JP4496797B2 (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Publications (2)

Publication Number Publication Date
JP2005234732A JP2005234732A (ja) 2005-09-02
JP4496797B2 true JP4496797B2 (ja) 2010-07-07

Family

ID=35017644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004040815A Expired - Fee Related JP4496797B2 (ja) 2004-02-18 2004-02-18 文書管理装置および方法

Country Status (1)

Country Link
JP (1) JP4496797B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4592556B2 (ja) * 2005-10-07 2010-12-01 株式会社日立製作所 文書検索装置、文書検索方法および文書検索プログラム
JP6154654B2 (ja) * 2013-04-22 2017-06-28 株式会社アナグラム プログラム及び情報処理装置
CN112445895B (zh) * 2020-11-16 2024-04-19 深圳市世强元件网络有限公司 一种识别用户搜索场景的方法及系统
JP7317198B1 (ja) 2022-12-28 2023-07-28 真太郎 上田 情報検索装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003006229A (ja) * 2001-06-20 2003-01-10 Ricoh Co Ltd 文書検索システム、文書検索方法及びその方法を実行させるためのプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003006229A (ja) * 2001-06-20 2003-01-10 Ricoh Co Ltd 文書検索システム、文書検索方法及びその方法を実行させるためのプログラム

Also Published As

Publication number Publication date
JP2005234732A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7096218B2 (en) Search refinement graphical user interface
US10552467B2 (en) System and method for language sensitive contextual searching
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US20080294619A1 (en) System and method for automatic generation of search suggestions based on recent operator behavior
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
KR20090080822A (ko) 감성 기반의 아이템 검색 서비스 제공 방법, 데이터베이스구축 방법 및 검색 서버
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
JP3915488B2 (ja) 文書検索システム
JP4496797B2 (ja) 文書管理装置および方法
JP4499179B1 (ja) 端末装置
JP2005234772A (ja) 文書管理装置および方法
JP2000148780A (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP7238411B2 (ja) 情報処理装置及びプログラム
JP2004362121A (ja) 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体
JP2010266970A (ja) 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
KR101421819B1 (ko) 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP6549441B2 (ja) 入力支援装置、プログラムおよび入力支援方法
KR20210089429A (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
JP7522885B1 (ja) 情報処理装置、情報処理システムおよびプログラム
JP2005228033A (ja) 文書検索装置および方法
JP2005234771A (ja) 文書管理装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4496797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees