JP2006040058A - 文書分類装置 - Google Patents
文書分類装置 Download PDFInfo
- Publication number
- JP2006040058A JP2006040058A JP2004220666A JP2004220666A JP2006040058A JP 2006040058 A JP2006040058 A JP 2006040058A JP 2004220666 A JP2004220666 A JP 2004220666A JP 2004220666 A JP2004220666 A JP 2004220666A JP 2006040058 A JP2006040058 A JP 2006040058A
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- word
- name
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来の文書ベクトルによる文書分類装置は、備考や付記の単語も文書ベクトルに累積するため誤った分類が行われたり、また、異なる視点を重視する分類を行う場合には、単語テーブルの属性ベクトル値の変更などの操作が必要である。
【解決手段】文書が蓄積された文書データベースからユーザが指示した検索キーワードで文書を検索し、検索した文書を出力する文書検索手段、前記文書検索手段により出力された文書の記載内容から文字列を抽出し、該文字列から所定の属性抽出定義に基づき属性語とこの属性語の属性名との属性を抽出し出力する属性抽出手段、前記属性抽出手段が出力する属性と前記文書の記載内容および検索キーワードに基づいて文書ベクトルを生成し、文書ベクトル間の距離により文書を複数のカテゴリに分類する文書分類手段を備える。
【選択図】図1
【解決手段】文書が蓄積された文書データベースからユーザが指示した検索キーワードで文書を検索し、検索した文書を出力する文書検索手段、前記文書検索手段により出力された文書の記載内容から文字列を抽出し、該文字列から所定の属性抽出定義に基づき属性語とこの属性語の属性名との属性を抽出し出力する属性抽出手段、前記属性抽出手段が出力する属性と前記文書の記載内容および検索キーワードに基づいて文書ベクトルを生成し、文書ベクトル間の距離により文書を複数のカテゴリに分類する文書分類手段を備える。
【選択図】図1
Description
本発明は、文書データベースから検索した電子文書をユーザが重視する内容で分類する文書分類装置に関するものである。
従来から、文書を蓄積して検索・閲覧に供する文書管理システムにおいてユーザの所望する文書をすばやく得るために文書を分類する方法があった。
例えば、特開平11−282859号公報では、文書より特定単語を抽出し、該特定単語に付与した属性ベクトルに基づいて文書ベクトルを生成し、文書を分類する方法が開示されている。
以下、特開平11−282859号公報の動作について説明する。
まず、予め単語テーブルに登録され、単語毎に属性ベクトルが付与されている特定単語を文書から抽出する。属性ベクトルには例えば、「部署A度」, 「部署B度」, 「部署C度」, 「商品度」, 「依頼度」, 「危険度」の成分があり、単語に応じて各成分に0.0〜1.0の値が付与されている。次に文書から抽出した各単語の属性ベクトルを各成分、「部署A度」, 「部署B度」, 「部署C度」, 「商品度」, 「依頼度」, 「危険度」毎に累積して文書全体の文書ベクトルを算出する。この文書ベクトルと分類先の標準ベクトルとの類似度を算出し、最も類似度が高い標準ベクトルの分類先へ文書を格納する。ここで類似度は前記文書ベクトルと標準ベクトル間で内積を求めることで行う。これにより文書に適した分類先に格納することができる。
まず、予め単語テーブルに登録され、単語毎に属性ベクトルが付与されている特定単語を文書から抽出する。属性ベクトルには例えば、「部署A度」, 「部署B度」, 「部署C度」, 「商品度」, 「依頼度」, 「危険度」の成分があり、単語に応じて各成分に0.0〜1.0の値が付与されている。次に文書から抽出した各単語の属性ベクトルを各成分、「部署A度」, 「部署B度」, 「部署C度」, 「商品度」, 「依頼度」, 「危険度」毎に累積して文書全体の文書ベクトルを算出する。この文書ベクトルと分類先の標準ベクトルとの類似度を算出し、最も類似度が高い標準ベクトルの分類先へ文書を格納する。ここで類似度は前記文書ベクトルと標準ベクトル間で内積を求めることで行う。これにより文書に適した分類先に格納することができる。
従来例に示す文書分類では、文書中の備考や付記の単語についても同様に文書ベクトルに累積してしまうため、誤った分類先に分類が行われたり、分類先を異なる視点例えば「商品度」を重視する場合には、単語テーブルの属性ベクトル値を変更するなどの操作が必要であるという問題があった。
本発明の文書分類装置は、文書が蓄積された文書データベースからユーザが指示した検索キーワードで文書を検索し、検索した文書を出力する文書検索手段、前記文書検索手段により出力された文書の記載内容から文字列を抽出し、該文字列から所定の属性抽出定義に基づき属性語とこの属性語の属性名との属性を抽出し出力する属性抽出手段、前記属性抽出手段が出力する属性と前記文書の記載内容および検索キーワードに基づいて文書ベクトルを生成し、文書ベクトル間の距離により文書を複数のカテゴリに分類する文書分類手段を備える。
本発明の文書分類装置によれば、ユーザの入力する検索キーワードから得る検索結果の文書から生成した文書ベクトル間の距離で文書分類を行う際に、ユーザの入力する検索キーワードから得る属性語を用いるので、検索キーワードに内在するユーザの重視する内容で文書分類できる。
実施の形態1.
図1は本発明の構成を示すブロック図である。図1において、1は文書と文書に付与した文書番号を格納する文書データベース、2はユーザから検索キーワードを入力し、前記文書データベース1から前記検索キーワードと合致する文書を検索し、その文書番号と前記検索キーワードを出力する文書検索手段、3は前記文書検索手段2が出力する文書番号から文書を前記文書データベース1より得て、検索キーワードを含む文字列から属性名と属性語を抽出・出力する属性抽出手段、4は属性名毎に生成された文書ベクトルに基づき文書毎に文書ベクトルを生成し、各文書ベクトル間の距離に基づいて文書を分類・出力する文書分類手段、5は前記文書分類結果を図示しないモニタなどに表示する形態に変換する分類表示手段である。
図1は本発明の構成を示すブロック図である。図1において、1は文書と文書に付与した文書番号を格納する文書データベース、2はユーザから検索キーワードを入力し、前記文書データベース1から前記検索キーワードと合致する文書を検索し、その文書番号と前記検索キーワードを出力する文書検索手段、3は前記文書検索手段2が出力する文書番号から文書を前記文書データベース1より得て、検索キーワードを含む文字列から属性名と属性語を抽出・出力する属性抽出手段、4は属性名毎に生成された文書ベクトルに基づき文書毎に文書ベクトルを生成し、各文書ベクトル間の距離に基づいて文書を分類・出力する文書分類手段、5は前記文書分類結果を図示しないモニタなどに表示する形態に変換する分類表示手段である。
図2は本実施の形態の動作を説明するフローチャートである。図3はユーザが文書検索手段2に入力する検索キーワード例である。図中の10はユーザが入力した検索キーワード文字列例である。図4から図8は図3の検索キーワード10で文書検索手段2が文書データベース1から検索した文書例である。図9は属性抽出手段3が検索文書から抽出した文字列例である。図中で20は検索文書内文字列で、21は文書番号、22は文書番号21の文書内文字列、23は属性名「部品」の文字列例である。図10は属性抽出手段3が文書から単語を抽出するために用いる単語リストの例である。図中24はカンマ記号で区切られた単語リスト例である。
図11は属性抽出手段3が前記図10に示す単語リストにおける単語の各文書における出現頻度を求めた例である。図中25は文書中の文字列、26は検索された文書番号、27は文書番号31の単語2003/11/12の出現頻度である。図12は属性抽出手段3が属性抽出に用いる属性語テーブルである。図中30は属性語テーブル、31は属性の名前、32は属性の単語、33は部品を表す部品名、34は前記33の属性の名前である。
図13は属性抽出手段3が属性抽出に用いる属性抽出ルールである。図中40は属性抽出ルール、41は属性の名前、42は該属性を構成する文字列、43は該構成文字42の先頭に接続する接頭文字列がある場合は接頭文字列と該構成文字列とを連結した連結文字列を属性語として抽出するルール、44は該構成文字42の最後に接続する接尾語文字列がある場合は該構成文字列と接尾語文字列とを連結した連結文字列を属性語とするルール、45は*部分に構成文字列が合致する場合に該文字列を属性語として抽出するルール、46は属性の名前が「費用」、47は属性名「費用」の接頭語、48は属性名「費用」の構成文字、49は属性名「費用」の接尾語である。
前記属性語テーブル30と属性抽出ルール40とで、属性抽出定義を構成する。
前記属性語テーブル30と属性抽出ルール40とで、属性抽出定義を構成する。
図14は属性抽出手段3が図4から図8の文書から抽出した単語リストから属性抽出を行った結果の例である。図中の50は属性抽出結果、51は属性名「県名」に含まれる属性語および文書内の出現頻度、52は属性名「費用」の含まれる属性語および文書内の出現頻度、53は属性名「部品名」に含まれる属性語および文書内の出現頻度、54は属性名「日付」に含まれる属性語および文書内の出現頻度、55は属性名「原因」に含まれる属性語および文書内の出現頻度、56は属性語以外の文書内単語である非属性語および文書内の出現頻度である。
図15は属性抽出手段3が図3の検索キーワード文字列10から抽出した属性例である。図中60は検索キーワード10の単語「A001」、61は単語「A001」に対応する属性名である「部品名」、62は検索キーワード10の単語「原因」、63は単語「原因」に対応する属性名である「原因」、64は検索キーワード10の単語「故障」、65は単語「故障」に対応する属性語がないことを意味する非属性語、66は検索キーワード10の単語「部品」、67は単語「部品」に対応する属性語がないことを意味する非属性語である。
図16は文書分類手段4が文書ベクトルより求めた文書間の距離値テーブルである。図中70は文書間距離テーブル、71は文書1と文書43間の距離、72は文書31と文書43間の距離である。図17は分類表示手段5の動作を説明する図である。図中で75は分類表示手段5が図示しないモニタなどに表示するためにデータ処理して得た表示形態の例、76は文書番号と文書名、77は文書1と文書43間の距離の長さ、78~81はクラスタ間距離に基づいて描画した直線である。
本実施の形態の動作を図2のフローチャートを用いて説明する。
ステップS100で文書検索手段2はユーザより検索キーワードを入力する。ここでは図3に示す検索キーワード10を入力したとする。ステップS101で文書検索手段2は文書データベース1より前記検索キーワード10を含む文書の文書番号を出力するとともに前記検索キーワード10を出力する。ここでは図4から図8の5文書が検索されたとする。
ステップS102では属性抽出手段3は前記文書検索手段2の出力した文書検索結果である文書番号に基づく文書から属性語を抽出する。
ステップS100で文書検索手段2はユーザより検索キーワードを入力する。ここでは図3に示す検索キーワード10を入力したとする。ステップS101で文書検索手段2は文書データベース1より前記検索キーワード10を含む文書の文書番号を出力するとともに前記検索キーワード10を出力する。ここでは図4から図8の5文書が検索されたとする。
ステップS102では属性抽出手段3は前記文書検索手段2の出力した文書検索結果である文書番号に基づく文書から属性語を抽出する。
属性語の抽出ではまず前記文書検索結果の文書から文字列を抽出する。文字列抽出方法は文書種類に適したフィルタリングを行うことで文字列のみ抽出する。また前記文字列抽出では、文書にあらかじめ記入された単語、例えば「障害報告シート」などの文字列は除外するようにする。文字列抽出後の文字列は例えば図9に示すようになる。次に装置内のメモリに格納した図10に示す一般的な単語の単語リストに合致する単語を前記文字列から抽出し、出現頻度を文書毎に求める。例えば前記文書検索結果では図11のようになる。この前記単語リストから属性語を抽出する。
属性語の抽出は属性抽出定義である図12の属性語テーブル30と図13の属性語抽出ルール40に基づいて行う。単語からの属性抽出は図12の属性語テーブル30により行う。図12の属性語で表した単語列に合致する該文書中の図11の単語リストに対してその語の意味を表す属性名を付与する。例えば図9に示す前記文書検索結果の文書番号1の文字列「A001」23は図12の属性語テーブル30の文字列「A001」33と一致することから、属性名を「部品」34、属性語として「A001」33として付与する。属性語抽出ルール40は「費用」や「日付」などの単語と属性名とを一意に対応できない場合に適用するものであり、例えば「費用」46では接頭語に「金額」47が付与された構成文字42に接尾語として「円」49が付与されたものに属性名「費用」を付与する。
属性抽出手段3は前記文書検索手段2で得た全文書の単語リストから属性語テーブル30,属性抽出ルール40を適用して属性語を抽出する。例えば図14に示すように、前記検索文書からは属性名「県名」51,属性名「費用」52,属性名「部品名」53,属性名「日付」54,属性名「原因」55と属性語以外の文書内の単語である非属性語56を抽出し出現数をカウントした頻度表50を作成し出力する。
同様に属性抽出手段3は前記文書検索手段2が出力する検索キーワード10についても属性抽出を行う。検索キーワード「A001の故障原因に関係する部品」10から図10の単語リスト24により単語抽出を行い、属性語テーブル30および属性抽出ルール40により属性語を抽出し、図15に示す結果を得る。例えば前記検索キーワード10からは単語「A001」60は属性名「部品名」61、単語「原因」62は属性名「原因」63、単語「故障」64は非属性語として「故障」65、単語「部品」66は非属性語として「部品」67を得る。
ステップS103で文書分類手段4は前記属性抽出手段3の結果から文書毎に文書ベクトルを生成し、各文書ベクトル間の距離に基づいて文書を分類する。まず文書分類手段4は前記属性抽出結果である頻度表50から属性名毎に文書ベクトルを生成する。文書ベクトルは式1で求める。
Vi=属性名1ベクトル+属性名2ベクトル+・・・+属性名nベクトル+非属性ベクトル
・・・ 式1
ここでViはi番目の文書ベクトルである。
・・・ 式1
ここでViはi番目の文書ベクトルである。
属性名1ベクトルから属性名nベクトルは前記頻度表50から得る。例えば文書1の前記頻度表50から得られる属性名ベクトルを式2に示す。
V県名=(1,0,0)
V費用=(1,0,0,0)
V部品名=(1,0)
V日付=(1,0,0,0,0)
V原因=(1,1,1,2,0,0,0,0,0,0,0)
V非属性語=(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0)
・・・ 式2
V県名=(1,0,0)
V費用=(1,0,0,0)
V部品名=(1,0)
V日付=(1,0,0,0,0)
V原因=(1,1,1,2,0,0,0,0,0,0,0)
V非属性語=(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0)
・・・ 式2
すなわち文書1の文書ベクトルは式3となる。
V1=((1,0,0), (1,0,0,0), (1,0), (1,0,0,0,0), (1,1,1,2,0,0,0,0,0,0,0),
(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0))
・・・ 式3
V1=((1,0,0), (1,0,0,0), (1,0), (1,0,0,0,0), (1,1,1,2,0,0,0,0,0,0,0),
(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0))
・・・ 式3
次に文書ベクトルiと文書ベクトルjの文書ベクトル間距離を属性名毎に次の式4で求める。
Dij=ΣWn・f(Vki, Vkj) ・・・ 式4
ここでDijは文書ベクトルiと文書ベクトルjの文書ベクトル間距離、 Wnは属性名毎の重み、f(a,b)はベクトルa,b間の距離を求める距離関数、Vkiは文書iの属性名kベクトル、Vkjは文書jの属性名kベクトルである。
ここでDijは文書ベクトルiと文書ベクトルjの文書ベクトル間距離、 Wnは属性名毎の重み、f(a,b)はベクトルa,b間の距離を求める距離関数、Vkiは文書iの属性名kベクトル、Vkjは文書jの属性名kベクトルである。
ここで上記式における重みWnは属性抽出手段3が検索キーワード10から求めた属性語に基づいて算出する。検索キーワードから得た属性語(属性名「部品名」61、属性名「原因」63)についてあらかじめ定めた重みについて一定値を加算した値を用いる。例えば上記例では重みWnは次の式5となる。
n =県名の場合 W=1.0
n =費用の場合 W=1.0
n =部品名の場合 W=1.0 + α
n =日付の場合 W=1.0
n =原因の場合 W=1.0 + α
n =非属性語の場合 W=1.0
・・・ 式5
ここでαは予め定めた正の値である。
n =費用の場合 W=1.0
n =部品名の場合 W=1.0 + α
n =日付の場合 W=1.0
n =原因の場合 W=1.0 + α
n =非属性語の場合 W=1.0
・・・ 式5
ここでαは予め定めた正の値である。
前記αを1.0とし、前記距離関数f()をユークリッド距離とした場合の各文書間の距離を図16に示す。この各文書ベクトル間距離Dijに基づいて文書分類を行う。文書分類方法は例えば文献「パソコンによるデータ解析入門」P170-173に記述されたクラスタ分析手法により行う。具体的には次の処理を行う。まず文書1と最も近い文書を探索する。図16より文書43の距離7.62(71)であることがわかる。次に文書1および文書43と最も近い文書を探索する。図16より文書31が5.48(72)であることがわかる。同様に最も近い文書を探索し、文書間距離の短い順に記述すると(文書1,文書43,文書31,文書20,文書55)となる。また各クラスタ間の距離は次の式6ようになる。
クラスタ文書1−クラスタ文書43=7.62
クラスタ(文書1,文書43)−クラスタ文書31=5.48
クラスタ(文書1,文書43,文書31)−クラスタ文書20=4.8
クラスタ(文書1,文書43,文書31,文書20)−クラスタ文書55=5.10
・・・ 式6
クラスタ(文書1,文書43)−クラスタ文書31=5.48
クラスタ(文書1,文書43,文書31)−クラスタ文書20=4.8
クラスタ(文書1,文書43,文書31,文書20)−クラスタ文書55=5.10
・・・ 式6
文書分類手段4は文書分類結果を文書間距離の短い順に出力し、各クラスタ間距離を出力する。
ステップS104では分類表示手段5は前記文書分類手段4の文書分類結果に基づいて文書分類表示の形式に処理を行う。本実施の形態では文書分類表示の形態を例えば図17に示すようなデンドログラム表示75とする。デンドログラム表示75は文書間距離の短い順に文書番号・文書名76を表示し、前記クラスタ間距離で直線を描画する。例えば文書43からの直線78の長さ77は文書43と文書1を含むクラスタとの距離で、この距離に対応する長さ77で水平に直線78を描画する。同様に直線79から直線81までを前記クラスタ間を距離の長さで水平線を描画する。次に隣接するクラスタの直線と交差するまで上方に垂直線を描く。
以上のように本実施の形態を用いると、検索キーワードから得る属性語に基づいて、検索結果の文書から生成した文書ベクトル間の距離を求める際に重みづけを行ったことで、検索キーワードに内在するユーザが重視する内容で文書分類できる。
実施の形態2.
実施の形態1で文書分類手段4は費用や日付などの属性名である数値表現についても頻度による文書ベクトルを生成するようにしていたが、本実施の形態では該属性語を数値表現として文書ベクトルを生成するようにした。
図18は本実施の形態を説明する図で属性抽出手段3の属性抽出結果である。図において、85は属性抽出結果である各属性語の文書毎の頻度表、86は属性名「費用」について数値表現としたもの、87は属性名「日付」について数値表現としたものである。
実施の形態1で文書分類手段4は費用や日付などの属性名である数値表現についても頻度による文書ベクトルを生成するようにしていたが、本実施の形態では該属性語を数値表現として文書ベクトルを生成するようにした。
図18は本実施の形態を説明する図で属性抽出手段3の属性抽出結果である。図において、85は属性抽出結果である各属性語の文書毎の頻度表、86は属性名「費用」について数値表現としたもの、87は属性名「日付」について数値表現としたものである。
文書分類手段4の動作を説明する。実施の形態1と同様に前記属性抽出手段3の結果から文書毎に文書ベクトルを生成し、各文書ベクトル間の距離に基づいて文書を分類する。
まず文書分類手段4は属性抽出手段3の属性抽出結果である前記頻度表85から属性名毎に文書ベクトルを生成する。文書ベクトルは式7で求める。本実施の形態ではさらに、数値表現可能な属性語、例えば属性名「費用」86、属性名「日付」87についてその属性語の出現頻度ではなく、その数値表現とする。例えば「費用」の場合「円」を除いた数字列、「日付」の場合「西暦4桁」+「月2桁」+「日2桁」表記とする8桁の数値とする。
まず文書分類手段4は属性抽出手段3の属性抽出結果である前記頻度表85から属性名毎に文書ベクトルを生成する。文書ベクトルは式7で求める。本実施の形態ではさらに、数値表現可能な属性語、例えば属性名「費用」86、属性名「日付」87についてその属性語の出現頻度ではなく、その数値表現とする。例えば「費用」の場合「円」を除いた数字列、「日付」の場合「西暦4桁」+「月2桁」+「日2桁」表記とする8桁の数値とする。
Vi=属性名1ベクトル+属性名2ベクトル+・・・+属性名nベクトル+非属性ベクトル
・・・式7
ここでViはi番目の文書ベクトルである。
・・・式7
ここでViはi番目の文書ベクトルである。
属性名1ベクトルから属性名nベクトルは前記頻度表85から得る。例えば文書1の前記頻度表から得られる属性名ベクトルを次式に示す。
V県名=(1,0,0)
V費用=(200000)
V部品名=(1,0)
V日付=(20020822)
V原因=(1,1,1,2,0,0,0,0,0,0,0)
V非属性語=(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0)
・・・ 式8
すなわち文書1の文書ベクトルは次の式9となる。
V費用=(200000)
V部品名=(1,0)
V日付=(20020822)
V原因=(1,1,1,2,0,0,0,0,0,0,0)
V非属性語=(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0)
・・・ 式8
すなわち文書1の文書ベクトルは次の式9となる。
V1=((1,0,0), (200000), (1,0), (20020822), (1,1,1,2,0,0,0,0,0,0,0),
(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0))
・・・ 式9
以降の処理は実施の形態1と同様である。
(0,0,0,0,0,1,0,0,0,0,0,0,0,0,3,0,0,3,3,1,1,1,1,0,0,0,0))
・・・ 式9
以降の処理は実施の形態1と同様である。
本実施の形態によれば、文書分類手段4は費用や日付などの数値表現される属性語を数値表現のまま文書ベクトルとすることで、属性の大きさに基づいて文書分類ができるようになるため、ユーザが意図する文書分類と近くなることが期待できる。
実施の形態3.
実施の形態1では文書内の全ての文字列を対象にして文書分類するようにしていたが、本実施の形態では検索キーワードより属性名と属性語を抽出し、該属性語に合致する文書内の文字列近傍の文字列のみから文書ベクトルを生成するようにした形態である。
図19は未記入の「障害報告シート」の例である。図において90は原因欄名、91は原因記入欄である。図20は属性語および該属性語と対応付けた文字列抽出対象欄名を記述した属性語取得テーブルである。図において95は属性名、96は属性名に対応する抽出範囲欄名である。図21は図4〜図8に示す「障害報告シート」の原因欄記載の文字列である。図22は原因記載欄の文字列より得た属性抽出手段3の属性抽出結果である。
実施の形態1では文書内の全ての文字列を対象にして文書分類するようにしていたが、本実施の形態では検索キーワードより属性名と属性語を抽出し、該属性語に合致する文書内の文字列近傍の文字列のみから文書ベクトルを生成するようにした形態である。
図19は未記入の「障害報告シート」の例である。図において90は原因欄名、91は原因記入欄である。図20は属性語および該属性語と対応付けた文字列抽出対象欄名を記述した属性語取得テーブルである。図において95は属性名、96は属性名に対応する抽出範囲欄名である。図21は図4〜図8に示す「障害報告シート」の原因欄記載の文字列である。図22は原因記載欄の文字列より得た属性抽出手段3の属性抽出結果である。
属性抽出手段3の動作を説明する。検索キーワード10から得た属性語と図20の属性語取得テーブルにより図19に示す「障害報告シート」の属性語抽出範囲を求める。検索キーワード10が図3の例の場合、検索キーワード10から得られる属性名と属性語は図15のようになり、該検索キーワード10に含まれる属性語である属性名「部品名」61と属性名「原因」63に対応する記入欄を図20の属性語取得テーブルより得る。本実施の形態の場合、図20にある属性名「原因」属性語63のみ属性名「原因」63に該当するので、属性名「原因」90の記入欄「原因」91に記載の文字列である図21の文字列より実施の形態1と同様に属性語を得る。本実施の形態による属性語抽出結果は図22のようになる。
なお本実施の形態では検索キーワードから得た属性語から抽出すべき領域を記入欄名から得ていたが、定型文書の場合座標値としてもよい。
本実施の形態では属性抽出手段3は検索キーワードから得る属性語に基づいて、ユーザが意図する文字列のみから文書ベクトルを生成するようにしたので、不要な記載が記述されていたとしてもユーザが重視する内容で文書分類できる。
実施の形態4.
実施の形態3では検索キーワードから得た属性名と属性語に基づいて、属性抽出する文字列を特定するようにしたが、本実施の形態では検索キーワードから得た属性名と属性語のみを出力するようにした形態を示す。
実施の形態3では検索キーワードから得た属性名と属性語に基づいて、属性抽出する文字列を特定するようにしたが、本実施の形態では検索キーワードから得た属性名と属性語のみを出力するようにした形態を示す。
図23は本実施の形態における属性抽出手段3の出力例である。
属性抽出手段3の動作を説明する。属性抽出手段3は実施の形態1と同様に文書検索手段2の検索した文書から属性抽出を行い、図14に示す頻度表50を作成し出力する。次に検索キーワード10から得た属性名と属性語のみを出力する。検索キーワード10が図3の例の場合、検索キーワード10から得られる属性は図15のようになり、該検索キーワードに含まれる属性名「部品名」61,属性名「原因」63を図14に示す属性抽出結果から抽出し、図23の属性抽出結果を得る。
属性抽出手段3の動作を説明する。属性抽出手段3は実施の形態1と同様に文書検索手段2の検索した文書から属性抽出を行い、図14に示す頻度表50を作成し出力する。次に検索キーワード10から得た属性名と属性語のみを出力する。検索キーワード10が図3の例の場合、検索キーワード10から得られる属性は図15のようになり、該検索キーワードに含まれる属性名「部品名」61,属性名「原因」63を図14に示す属性抽出結果から抽出し、図23の属性抽出結果を得る。
本実施の形態によれば、属性抽出手段3は検索キーワードから得る属性名と属性語のみを文書から抽出するようにしたので、不要な記載が記述されていたとしてもユーザが重視する内容で文書分類できる。
ユーザが入力する検索キーワードを加味して文書データベースから検索した電子文書を分類するので、ユーザの重視する内容を反映することができ、文書管理システムに適用することで、ユーザの所望する文書をすばやく得ることができる。
1 文書データベース、2 文書検索手段、3 属性抽出手段、4 文書分類手段、5 分類表示手段。
Claims (5)
- 文書が蓄積された文書データベースからユーザが指示した検索キーワードで文書を検索し、検索した文書を出力する文書検索手段、前記文書検索手段により出力された文書の記載内容から文字列を抽出し、該文字列から所定の属性抽出定義に基づき属性語とこの属性語の属性名との属性を抽出し出力する属性抽出手段、前記属性抽出手段が出力する属性と前記文書の記載内容および検索キーワードに基づいて文書ベクトルを生成し、文書ベクトル間の距離により文書を複数のカテゴリに分類する文書分類手段を備えたことを特徴とする文書分類装置。
- 前記文書分類手段の結果を表示形態に変換し出力する分類表示手段をさらに備えたことを特徴とする請求項1記載の文書分類装置。
- 文書分類手段は、数値表現可能な属性語を数値表現で文書ベクトルを生成するようにしたことを特徴とする請求項1又は2記載の文書分類装置。
- 属性抽出手段は、ユーザが指示した検索キーワードから属性名と属性語を抽出し、前記属性名と属性語に基づいて前記文書検索手段の出力する文書から抽出する属性名と属性語の抽出範囲を定め、この範囲内からの属性名と属性語を抽出するようにした請求項1乃至3の何れかに記載の文書分類装置。
- 属性抽出手段は、ユーザが指示した検索キーワードから属性名と属性語を抽出し、前記文書検索手段の出力する文書から前記検索キーワードの属性名と属性語のみを属性抽出するようにしたことを特徴とする請求項1乃至3の何れかに記載の文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004220666A JP2006040058A (ja) | 2004-07-28 | 2004-07-28 | 文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004220666A JP2006040058A (ja) | 2004-07-28 | 2004-07-28 | 文書分類装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006040058A true JP2006040058A (ja) | 2006-02-09 |
Family
ID=35904971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004220666A Pending JP2006040058A (ja) | 2004-07-28 | 2004-07-28 | 文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006040058A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211277A (ja) * | 2008-03-03 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
JP2016110165A (ja) * | 2014-12-02 | 2016-06-20 | 日本電信電話株式会社 | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム |
CN110188158A (zh) * | 2019-05-06 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 关键词及话题标签生成方法、装置、介质及电子设备 |
WO2023162273A1 (ja) * | 2022-02-28 | 2023-08-31 | 富士通株式会社 | 生成方法、生成プログラムおよび情報処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259498A (ja) * | 1998-03-10 | 1999-09-24 | Fujitsu Ltd | 文書処理装置および記録媒体 |
JPH11282859A (ja) * | 1998-03-27 | 1999-10-15 | Osaka Gas Co Ltd | 文章分類装置および通信文書受付システム |
JPH11328220A (ja) * | 1998-05-14 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | データ検索方法、その装置および記録媒体 |
JP2003208447A (ja) * | 2002-01-11 | 2003-07-25 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体 |
-
2004
- 2004-07-28 JP JP2004220666A patent/JP2006040058A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259498A (ja) * | 1998-03-10 | 1999-09-24 | Fujitsu Ltd | 文書処理装置および記録媒体 |
JPH11282859A (ja) * | 1998-03-27 | 1999-10-15 | Osaka Gas Co Ltd | 文章分類装置および通信文書受付システム |
JPH11328220A (ja) * | 1998-05-14 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | データ検索方法、その装置および記録媒体 |
JP2003208447A (ja) * | 2002-01-11 | 2003-07-25 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211277A (ja) * | 2008-03-03 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
JP4594992B2 (ja) * | 2008-03-03 | 2010-12-08 | 日本電信電話株式会社 | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
JP2016110165A (ja) * | 2014-12-02 | 2016-06-20 | 日本電信電話株式会社 | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム |
CN110188158A (zh) * | 2019-05-06 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 关键词及话题标签生成方法、装置、介质及电子设备 |
CN110188158B (zh) * | 2019-05-06 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 关键词及话题标签生成方法、装置、介质及电子设备 |
WO2023162273A1 (ja) * | 2022-02-28 | 2023-08-31 | 富士通株式会社 | 生成方法、生成プログラムおよび情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9881037B2 (en) | Method for systematic mass normalization of titles | |
WO2012176374A1 (ja) | 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム | |
BR112012026345A2 (pt) | imputação de atributos acionáveis a dados que descrevem uma identidade pessoal | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
US20180137106A1 (en) | Data transformation system and method | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
JP2010205060A (ja) | 文書内画像検索方法および文書内画像検索システム | |
JP2007094855A (ja) | 文書処理装置及び文書処理方法 | |
JP5392120B2 (ja) | 情報処理装置、判定プログラム及び判定方法 | |
JP2006040058A (ja) | 文書分類装置 | |
US10360243B2 (en) | Storage medium, information presentation method, and information presentation apparatus | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP2014134920A (ja) | 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム | |
JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
JP2005107931A (ja) | 画像検索装置 | |
JP2008112363A (ja) | 文書処理装置および文書処理プログラム | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning | |
JP4362492B2 (ja) | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム | |
JP6361472B2 (ja) | 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法 | |
KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 | |
JP2011221877A (ja) | 関連語抽出装置 | |
JP2008090396A (ja) | 電子文書検索方法、電子文書検索装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070612 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100608 |