JP2004192368A - 関連分類抽出方法及び装置 - Google Patents

関連分類抽出方法及び装置 Download PDF

Info

Publication number
JP2004192368A
JP2004192368A JP2002360104A JP2002360104A JP2004192368A JP 2004192368 A JP2004192368 A JP 2004192368A JP 2002360104 A JP2002360104 A JP 2002360104A JP 2002360104 A JP2002360104 A JP 2002360104A JP 2004192368 A JP2004192368 A JP 2004192368A
Authority
JP
Japan
Prior art keywords
classification code
classification
document data
extracted
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002360104A
Other languages
English (en)
Inventor
Hisao Mase
久雄 間瀬
Kazutake Kurenishi
一毅 久連石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002360104A priority Critical patent/JP2004192368A/ja
Publication of JP2004192368A publication Critical patent/JP2004192368A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ある分類に関連する分類を漏れなくかつ効率良く見つける。処理対象となる文書がある場合は、当該文書の内容に即した最適な関連分類を見つける。
【解決手段】「文書に既付与の分類」,「検索ログ」,「文書に既付与の関連文書に既付与の分類」の付与傾向を解析して関連の深い分類対およびその特徴キーワードを抽出しておき、利用者が指定した分類に関連する分類情報を抽出して報知する。また、処理対象文書からキーワードを抽出し、前記分類対の特徴キーワードと照合して類似度を算出し、前記抽出した関連分類情報をソートして報知する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、論文や新聞記事,特許,Webページ等の電子文書データを扱う方法及び装置に係り、特に電子文書データを内容等に応じて分類したり、電子文書データベースの中から所望の電子文書データを検索したりする作業を支援する方法及び装置に関する。
【0002】
【従来の技術】
本発明は、分類コード間の関連情報を用いた文書分類や文書検索等の作業支援に関するものである。従って、各文書には分類コードが付与されることが大前提となる。Webページや論文,特許のように、文書データ量が膨大で分野が幅広く多岐に渡っている場合、各文書データに分類コードを付与しておき、分類コードをキーワード等と絡めて検索条件式として記述することにより、検索結果を効率的に絞り込むことができる。
【0003】
本発明に関連する従来技術としては、以下がある。
【0004】
Web検索ポータルでは、入力されたキーワードを各カテゴリ(分類コード)の名称の中に含むものを検索し、その一覧を利用者に報知する機能がある(例えば非特許文献1を参照)。
【0005】
Web検索エンジンや文書検索システムにおいて、大量の文書データを解析して、あるキーワードと対になって出現する(共起する)キーワード群を予め特定しておき、利用者によって入力されたキーワードに関連するキーワード群を抽出して、その一覧を利用者に報知する機能がある(例えば非特許文献2を参照)。
【0006】
検索結果文書データ群をリアルタイムに解析してキーワード間の関連情報を抽出して利用者に報知する機能がある(例えば非特許文献3を参照)。
【0007】
一般のシソーラス検索システムでは、入力されたノード情報の親子・兄弟となるノード情報を提示したり、入力されたノードの近辺の分類体系を表示する機能がある。また、予め分類コード間の関連を対応テーブルに人手で定義しておき、利用者によって入力された分類コードに関連する分類コードを当該対応テーブルから抽出して、その一覧を利用者に報知するという方法が考えられる。
【0008】
【非特許文献1】ヤフーホームページ(URL:http://www.yahoo.co.jp/)
【非特許文献2】日経コンピュータ2001.8.13号pp.45図4(2001)
【非特許文献3】情報処理学会デジタルドキュメント研究会研究報告No.20-1,pp.1-8(1999)
【0009】
【発明が解決しようとする課題】
分野が多岐に渡る大量の文書データを効率良く検索するために必要な分類コード体系は必然的に大規模かつ複雑となる。
【0010】
非特許文献1については、単なるカテゴリ名称の検索であり、分類カテゴリを構成する文書データの内容を考慮していないことから、その精度が分類カテゴリの名称の付け方に依存してしまい、関連する分類コードを常に漏れなく見つけることが難しい。
【0011】
非特許文献2については、不特定多数の筆者によって書かれた文書データを対象とする場合、言葉の異表記や語義の曖昧性、主題や文脈の違いによる検索ノイズ/検索漏れが起こり、検索結果を効率良く絞り込めないことが多々ある。
【0012】
非特許文献3については、一般にキーワード数は分類コード数に比べて膨大であるため、表示数が膨大となり、所望のキーワードを効率良く探すことが困難なことが多い。
【0013】
一般のシソーラス検索システムについては、分類体系が大規模かつ複雑になると、分類体系全体を把握すること自体が難しく、関連する分類コード情報を手作業で定義することは非現実的である。また、分類コード体系は一般に木構造となることが多いが、あるノード(分類)に関連するノード(分類)がそのノードの近辺に存在するとは限らない。従って、あるノードの近辺だけを表示するだけでは不十分である。さらに、ある分類コードがどの分類コードと関連しているかは、その分類コードが付与されている文書データの内容に大きく依存する。言い換えれば、文書データの内容が変われば、それに付与されている分類コードに関連する分類コードも異なる。よって、入力が同一であると出力も同一になってしまうので、出力の柔軟性に欠ける。
【0014】
本発明の目的は、分類コード付与作業時の分類コード付与漏れや、検索作業時の検索範囲漏れを防ぎ、分類付与作業・検索作業の質および効率を向上する関連分類抽出方法を提供することである。
【0015】
【課題を解決するための手段】
文書データベースを構成する文書データの各々に分類コードを予め付与しておき、以下の三つの観点に着目して分類コード間の関連情報を自動抽出し、分類コード対格納テーブルに格納しておく。
(1)どの分類コードとどの分類コードが対になって一つの文書データに付与されているかに着目する。
(2)文書データベースを検索した時に使われた検索条件式から、どの分類コードとどの分類コードが対になって一つの検索条件式の中で使われているかに着目する。
(3)文書データに付与されている分類コードと当該文書データに関連付けられている関連文書データに付与されている分類コードとの対応関係に着目する。
また、各分類コード対が付与されている文書データからキーワード群1を抽出して、分類コード対と対応付けて分類コード対格納テーブルに格納しておく。
【0016】
次に、利用者によって入力装置を介して指定された分類コード(および処理対象文書データ)に対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記処理対象文書データを解析して当該処理対象文書データを特徴付けるキーワード群2を抽出し、キーワード群2を前記キーワード群1と照合して前記特定された分類コード集合に対する類似度を各々算出し、前記特定された分類コードの出現頻度あるいは前記算出された類似度の少なくとも一方の値を用いて前記特定された分類コードの関連度を算出して降順にソートし、前記ソートされた分類コード集合を出力装置を介して利用者に報知する。
【0017】
また、分類コード対格納テーブルを予め生成しておく代わりに、分類コードを検索条件とした属性検索機能を使い、検索結果の文書データ集合から分類コードを抽出しても良い。さらに、分類コードの代わりに検索条件式やテキストデータを検索条件として指定させ、その検索結果の文書データ集合から分類コードを抽出しても良い。
【0018】
【発明の実施の形態】
本発明の実施例について、以下図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。
【0019】
本実施例では、学術論文データベースを対象とした、関連分類コード検索機能を備えた文書検索システムについて述べるが、本実施例で述べることは、特許やWebページ等他の種類の文書データにもそのまま適用できる。
【0020】
また、本実施例では、上記関連分類コード検索機能を検索作業で使用することを想定しているが、分類コードを各文書データに付与する分類付与作業で使用することもできる。
【0021】
図1は本実施例の概要を示すものである。
【0022】
本実施例では、大量の文書データ3が格納されている文書データベース1の中から、作業者が処理対象文書4に類似する文書を検索する作業を支援する。一般にはキーワード検索や類似文書検索等の公知技術を用いて検索作業を遂行するが、本実施例では、各文書データ3に付与されている分類コードを有効活用して検索作業を遂行する。
【0023】
本実施例では、文書データ3に付与される分類コード体系が大規模かつ複雑であることを想定している。この場合、処理対象文書4の内容を特徴付ける必要十分な分類コードすべてが必ずしも付与されているとは限らない(特に分類コードを文書作成者自身が付与するという運用形態の場合、付与基準を統一しきれず、分類付与結果にばらつきが生ずることが多い)。従って、検索作業の厳密性(漏れのない検索)が要求される場合には、既付与の分類コードだけでなく、その分類コードと何らかの関連がある他の分類コードをも駆使して検索範囲を絞り込むことが不可欠となる。
【0024】
処理対象文書4に類似する文書を文書データベース1から検索するために、作業者は検索条件式を作成する。本実施例では、検索条件式は検索キーワードまたは分類コードから構成される論理式で構成される。論理式による検索の場合、分類コードで検索範囲をある程度絞り込み、その範囲内で検索キーワードによってさらに絞り込む方法が有効である。ここで、検索範囲を絞り込むための分類コードをきちんと規定できるかが検索精度に大きく影響する。本実施例では、上記検索範囲の絞り込みを効率良くかつ高精度に行うことを支援するものである。
【0025】
作業者は検索条件式を作成するために、まず検索範囲を絞り込む。図1において、作業者はまず、処理対象文書4に既に付与されている分類コード44“NLP”および当該処理対象文書4の文書ID41を指定して、関連する分類コードを提示するよう指示する([1])。
【0026】
するとシステムは、指定された分類コード“NLP”と指定された処理対象文書4に付与されているキーワード45“顧客”、“CRM”、“知識”、“管理”を、分類コード対格納テーブル2内の指定コード21およびキーワード24とそれぞれ比較照合し、関連分類コード22(“CRM”“TDM”“IR”)を抽出し、適切な順序にソートして利用者に提示する([2])。
【0027】
そして作業者は、提示結果から任意の分類コードを流用して検索条件式「(“NLP”or“CRM”) and 言語」を作成し、検索を実行して検索結果を得る([3])。
【0028】
ここで、処理対象文書4の分類コード44およびキーワード45については、本検索作業に先立って付与されていなくても良い。作業者が関連分類コードの提示を実行させた時点で、システムがリアルタイムに処理対象文書4の内容を解析してこれらを自動抽出しても良い(ただし、処理速度はその分低下する)。また、作業者が指定する分類コードが処理対象文書4に付与されている(付与されるべき)分類コード44と同一である場合、作業者は処理対象文書4のID41のみを指定しても良い。さらに、処理対象文書4にキーワードが予め付与されている場合、分類コードと処理対象文書4のID41を指定する代わりに、分類コードと処理対象文書4を特徴付けるキーワード45を直接指定しても良い。さらに、作業者が指定するデータとして処理対象文書4のデータは必ずしも必要ではなく、分類コードのみを指定しても良い。
【0029】
文書データベース1は、大量の文書データ3から構成される。本実施例では、文書データ3の各々は、「文書ID31」「タイトル32」「著者33」「分類コード34」「キーワード35」「関連文書ID36」「アブスト37」「本文38」といったタグ内容で構成される。このうち、本実施例で重要なものは、分類コード34、キーワード35、関連文書ID36の三つである(詳細は後述)。
【0030】
分類コード対格納テーブル2は、作業者から指定された分類コードの照合対象となる指定コード21、指定コード21に対応する関連コード22、指定コード21と関連コード22との間の関連の度合を数値化した確信度23、当該分類コード対の内容を特徴付ける一つ以上のキーワード24から構成される。
【0031】
本実施例では、分類コード対格納テーブル2を以下の3種類のリソースから生成する(処理手順の詳細は後述する)。これらの3種類のうちの複数のリソースを用いて生成しても良い。
(1)文書データ3に付与された分類コード34
図1において、文書IDが200200001である文書データ3には分類コード34として“NLP”と“TDM”の二つが付与されている。そこで、この二つの分類コードは同一文書に付与されているので、互いに関連があるとしてこの分類コード対を抽出する。また、当該文書のキーワード35に付与されているキーワード「知識」「日本語」「マイニング」を抽出し、上記分類コード対と対応付けて保持する。もし、分類コード対格納テーブル2の生成を実行した時点で文書データ3に分類コード34あるいはキーワード35が付与されていない場合、当該文書データをその時点で解析してこれらを自動抽出しても良い(ただし、処理速度はその分低下する)。
【0032】
同様に他のすべての文書データ3について分類コード対およびキーワード35を抽出する。
【0033】
次に、抽出された分類コード対およびキーワード35に対して、同一の分類コード対を持つ文書件数をカウントする。そして、ある分類コードAが付与された文書の中で、別のある分類コードBも付与されている文書の割合を、分類コード対ABの「確信度23」として算出する。例えば、分類コード“NLP”が付与された文書が100件あり、そのうち、分類コード“TDM”も付与された文書件数が85件あった場合、指定コード21が“NLP”で関連コード22が“TDM”である分類コード対の確信度23は85%となる。さらに、同一の分類コード対を持つ文書に付与されたキーワード35各々の出現文書件数をカウントし、その件数の多い一つ以上のキーワードを当該分類コード対を特徴付けるキーワードとする。上記例において、85件の文書のうち、キーワード「マイニング」が43件の文書に付与されており、最も多くの文書に付与されているとすれば、キーワード「マイニング」を上記分類コード対(“NLP”“TDM”)およびその確信度23(85%)に対応付けて分類コード対格納テーブル2に格納する。
(1)文書データ3の「関連文書ID36」の文書に付与された分類コード34
上記(1)と考え方は同じであるが、同一の文書に付与された分類コード対ではなく、分類コードが付与された元文書の関連文書ID36によって示される関連文書に付与されている分類コード34を用いる。そして、元文書に付与されている任意の分類コード34と、関連文書に付与されている任意の分類コード34とから分類コード対を生成する。分類コード対を生成した後の分類コード対格納テーブル2の生成方法は上記(1)と同じ方法で実現できるが、分類コード対に対応するキーワード24の抽出方法としては、同一の分類コード対を持つ「元文書」に付与されたキーワード35各々の出現文書件数の高いものを抽出しても良いし、同一の分類コード対を持つ「関連文書」に付与されたキーワード35各々の出現文書件数の高いものを抽出しても良い。
(2)文書データベース1への検索ログ5
検索ログ5は、文書データベース1に対して実行された検索条件式を蓄積したデータである。検索ログ5は、検索を識別する検索ID51と当該検索で使用された検索条件式52から構成される。検索条件式52は、分類コード、検索キーワードと、それらの関係を記述する論理演算子(and/or/not)で構成される。個々の検索条件式52から、論理演算子and/orで連結されている任意の二つの分類コードを抽出し、これらを分類コード対として保持する。また、当該分類コード対に対して論理演算子andを介して検索条件式を構成している検索キーワードを抽出し、当該分類コード対と対応付けて保持する。例えば、図1で検索ID20021107120701の検索条件式「(“NLP” or “TDM”) and 日本語」において、まず、分類コード“NLP”と“TDM”が論理演算子orで連結されているので、“NLP”と“TDM”を分類コード対として抽出する。次に、この分類コード対は検索キーワード「日本語」と論理演算子andで連結されているので、この分類コード対に対して検索キーワード「日本語」を対応付ける。分類コード対およびキーワードを抽出した後の分類コード対格納テーブル2の生成方法は上記(1)(2)と同じ方法で実現できる。
【0034】
図2は本実施例における検索画面の一例を示す図である。本検索画面101は、文書検索条件および文書検索結果を表示する文書検索サブ画面102、関連分類コードを検索する関連分類コード検索サブ画面106、検索した文書の内容を表示する文書内容表示サブ画面117から構成される。上記三つのサブ画面はそれぞれ独立した画面として表示されても良い。
【0035】
文書検索サブ画面102は、分類コードの論理式によって検索範囲を入力指定する文書検索範囲指定エリア103、検索キーワードの論理式によって検索条件を入力指定する文書検索キーワード指定エリア104、文書検索を実行する文書検索実行ボタン105、文書検索結果の一覧を表示する文書検索結果表示エリア115などから構成される。
【0036】
関連分類コード検索サブ画面106は、作業者が関連分類コードを検索するための条件を入力する関連分類コード検索条件指定エリア(サブ画面106上部)と、検索結果を表示する関連分類コード検索結果表示エリア(サブ画面106下部)からなる。関連分類コード検索条件指定エリアは、分類コードを入力指定する分類コード指定エリア107、検索条件式を入力指定する検索条件式指定エリア108、処理対象文書4の文書IDを入力指定する文書ID指定エリア109、任意のテキストを入力指定するテキスト指定エリア110、関連分類コード検索を実行する関連分類コード検索実行ボタン111などから構成される。関連分類コード検索結果表示エリアは、検索された関連分類コードを関連度およびキーワードとともに表示する関連分類コード表示エリア112、表示された任意の関連分類コードを選択指定する関連分類コード選択エリア113、選択指定された関連分類コードを文書検索範囲指定エリア103に追記することを実行する関連分類コード追記実行ボタン114等からなる。
【0037】
関連分類コードを検索する際には、上記分類コード指定エリア107、検索条件式指定エリア108、文書ID指定エリア109、テキスト指定エリア110のうちの一つ以上の項目を入力する。文書内容表示サブ画面117に文書データが表示されている場合、文書ID指定エリア109に指定する値のデフォルト値として、当該表示されている文書データの文書IDを用いることができる。検索条件式指定エリア108、テキスト指定エリア110については、本実施例の変形例として後述する。
【0038】
図3は、本実施例で述べる文書検索システムにおける関連分類コード検索機能に関連する機能のブロック図の一例を示す図である。本機能ブロック図は、作業者からのデータ入力および操作指示を受け付け、計算結果を作業者に報知する入出力部100、文書データ3を格納する文書データベース1、作業者からの文書データ登録指示に従って文書データ3を文書データベース1に登録する文書データ登録部200、検索条件式を受け取って文書データベース1を検索し、検索結果を返す文書データベース検索部700、分類コード対に関するデータ群を蓄積格納する分類コード対格納テーブル2、前述した3種類のリソースから分類コード対データを生成する分類コード対生成部300、文書データベース1への検索履歴を蓄積する検索ログ5、検索ログ中の個々の検索条件式を解析して分類コード対生成に必要なデータを抽出する検索ログ解析部400、必要に応じて文書データ3や任意のテキストを受け取ってその内容を特徴付けるキーワードを抽出するキーワード抽出部500、作業者が指定した条件に基づいて関連分類コードを抽出する関連分類コード抽出部600、抽出された関連分類コードやキーワードを入出力部100を介して作業者に報知する関連分類コード表示部800から構成される。
【0039】
分類コード対生成部300において検索ログ5を使う場合、分類コード対生成部300から検索ログ解析部400を呼び出し、検索ログ5を解析させて分類コード対の生成に必要なデータ6(図1)を取得する。また、分類コード対生成部300において「関連する文書」を使う場合、文書データベース1を直接参照して文書データ内の関連文書ID36のデータを取得する。
【0040】
関連分類コード抽出部600において、処理対象文書4にキーワード45が付与されていない場合、キーワード抽出部500にテキストデータを渡してキーワードデータを得る。キーワード抽出アルゴリズムについては、文書データ内での出現頻度と文書データベース1全体での出現文書数の逆数の積に基づいて各語句の重みを算出し、閾値を超えた重みを持つ語句をキーワードとするTF/IDF法などの公知技術が活用できるので、ここでは深く言及しない。
【0041】
図4は、分類コード対格納テーブル2のデータを生成する分類コード対生成部300の処理アルゴリズムの詳細を示す図である。
図1に関する上記説明の中でも言及したように、本実施例では、3種類のリソースを用いて分類コード対データを生成するので、どのリソースを用いるかによってアルゴリズムが若干異なる。そこで、本実施例は3種類のリソースのどれを用いるかを作業者が一つ指定できるようにするための画面を設け(実現は容易なので言及しない)、指定されたリソースを用いて分類コード対データを生成する。
【0042】
分類コード対生成部300では、まず、作業者がどのリソースを用いることを選択したかを読み込む(ステップ301)。
【0043】
次に、選択されたリソースの種類を判別する(ステップ302)。
【0044】
ステップ302において、選択されたリソースが「文書データ3に付与された分類コード34」である場合、文書データベース1に格納されているすべての文書データ3に対して以下に述べる処理がなされたか否かを判別し(ステップ303)、未処理のものが残っている場合、まず、未処理の文書データ3を一つ取り出し、それに付与された分類コード34のうちの任意の二つからなる分類コードを分類コード対としてすべて取り出す(ステップ304)。次に、当該文書データ3に付与されたキーワード35をすべて取り出し、上記分類コード対に対応付けて一時バッファに格納する(ステップ305)。
【0045】
ステップ302において、選択されたリソースが「文書データ3に付与された関連文書ID36に付与された分類コード34」である場合、文書データベース1に格納されているすべての文書データ3に対して以下に述べる処理がなされたか否かを判別し(ステップ306)、未処理のものが残っている場合、まず、未処理の文書データ3を一つ取り出し(「元文書」と呼ぶ)、その中の関連文書ID36に記載された文書IDを持つ文書データ3(「関連文書」と呼ぶ)を抽出し(ステップ307)、元文書の持つ任意の分類コード34と、関連文書の持つ任意の分類コード34から分類コード対を生成する(ステップ308)。次に、元文書の持つキーワード35をすべて取り出し、上記分類コード対に対応付けて一時バッファに格納する(ステップ309)。元文書の持つキーワードの代わりに関連文書の持つキーワード35をすべて取り出して格納する、あるいは元文書、関連文書両者からキーワード35をすべて取り出してマージして格納する、でも良い。
【0046】
ステップ302において、選択されたリソースが「検索ログ5」である場合、検索ログ解析部400を呼び出して、検索ログ5から分類コード対および対応するキーワードデータを取得する(ステップ310)。検索ログ解析部400の処理アルゴリズムは後述する。
【0047】
上記3種類のリソースのいずれから生成した分類コード対データも、分類コード対にキーワードデータが対応付けられているデータ構成になっているので、以下の処理は、同じアルゴリズムを用いることができる。なお、説明の便宜上、この時点での分類コード対を構成する二つの分類コードを、分類コード対格納テーブル2の記載にならって、それぞれ指定コード,関連コードと呼んで区別することとする。
【0048】
上記抽出された分類コード対データについて、同一の分類コード対を持つものをまとめあげ、その文書件数をカウントする(ステップ311)。また、ステップ311でまとめあげた中での各キーワードの出現回数をカウントし、出現回数の最も多いN個(Nの値は作業者が指定可能とする)のキーワードを上記分類コード対に対応付けて分類コード対格納テーブル2に格納する(ステップ312)。
【0049】
次に、各分類コード対の確信度23を算出する。まず、各指定コードの出現回数をカウントする(ステップ313)。次に、ある指定コードにおける任意の関連コードの出現回数を、当該指定コードの出現回数で割った値(%)を算出する(ステップ314)。最後に、指定コードを第一キー,確信度を第二キーとして降順に分類コード対格納テーブルのデータレコード群をソートすることにより、各指定コードに対応する関連コードを確信度の高い順に並べ替える(ステップ315)。
【0050】
図5は、関連分類コード抽出部600の処理アルゴリズムの詳細を示す図である。本実施例によれば、分類コード対格納テーブル2がこの時点で生成されているので、作業者の指定した分類コードおよび処理対象文書4内のキーワード45を、分類コード対格納テーブル2内のデータと照合すれば良い。
【0051】
まず、作業者が指定した分類コードを読み取り(ステップ601)、当該分類コードを指定コード21として持つ分類コード対格納テーブル2内のレコードを抽出する(ステップ602)。次に、処理対象文書4が指定されているか否かをチェックし(ステップ603)、指定されていない場合、抽出したレコードを上から順にみていき、予め作業者によって指定された個数になるまで、関連コード22およびその確信度23を抽出して処理を終了する(ステップ604)。指定されている場合、確信度23の値とキーワードのマッチング状況から関連する分類コードの重要度を算出しなおす。各々の分類コード対について、対応するキーワードと、処理対象文書4として指定された文書のキーワード45との両方に存在するキーワードの種類数をカウントする(ステップ605)。次に、当該カウント数でソートする(ステップ606)。カウント数が同じ場合、確信度の高いものを優先する。そして、ソートしたレコードを上から順にみていき、予め作業者によって指定された個数になるまで、関連コード22およびその確信度23を抽出して処理を終了する(ステップ607)。このとき、処理対象文書4と共通するキーワードも抽出して作業者に報知しても良い。
【0052】
上記アルゴリズムでは、共通するキーワードの種類数で関連分類コードの重要度を決定したが、上記カウント数に一定数をかけて、上記確信度との和あるいは積、二乗和等々の計算により、キーワードの一致の度合と確信度の両方の値を総合して最終的な重要度を算出する方法でも良い。
【0053】
また、上記アルゴリズムにおいて、確信度がある一定以上、あるいは、一定以下である関連分類コードについては、作業者に出力しない、という処理を施しても良い。確信度がある一定以上であるものは、比較的その関連性が顕著なものであり、いちいちシステム側から提示されなくても作業者は既にその関連性を理解している可能性が高いので、そのような分類コードを予め除いておくことができるようにするための処理である。確信度がある一定以下であるものは、ノイズである可能性が高いので、提示する分類コードの可読性を高めるために、そのような分類コードを予め除いておくことができるようにするための処理である。なお、これらの閾値の設定は作業者が指定できるようにすることは容易に実現できる。
【0054】
図6は、検索ログ解析部400の処理アルゴリズムの詳細を示す図である。本処理では、検索ログ5は、図1に示すように検索ID51と検索条件式52から構成されているとする。検索ログ5に格納されている処理対象の検索ログデータがまだ存在するか否かを判別し(ステップ401)、まだ存在する場合、以下の処理を行う。まず、検索ログ5のデータの一つを取り出し、その検索条件式52を解析して、二つ以上の分類コードが論理演算子and/orで連結されている部分を認定し、その分類コードのうち、任意の二つの分類コードを取り出して分類コード対とする(ステップ402)。次に、当該連結部分と論理演算子andで連結されている検索キーワードを認定し、上記分類コード対と対応付ける(ステップ403)。そして、上記分類コード対とキーワードの対応データを返して処理を終了する(ステップ404)。
【0055】
次に、本実施例の変形例を示す。
【0056】
図7は、本実施例の変形例の概要を示す図である。作業者の作業課題は図1のそれと同一で、処理対象文書4に類似する文書を文書データベース1から検索することである。
【0057】
本変形例は、文書データベース1に対する文書検索機能を利用して関連する分類コードを抽出するものである。本変形例では、分類コード対格納テーブル2を予め保持しておらず、実行時に分類コード対格納テーブル2に相当するテーブルを生成する。
【0058】
まず、作業者から指定された分類コードおよび処理対象文書4について、当該分類コードを持つ文書データベース1内の文書を検索し([1])、検索結果を保持する([2])。次に、検索結果(図7の場合50件)の中から分類コード74およびキーワード75を抽出する。既に述べた方法により、指定コード81、関連コード82、確信度83、キーワード84からなる分類コード解析結果テーブル8(分類コード対格納テーブル2に相当するものでデータ構成要素は同一)を一時的に生成し、関連分類コードとして作業者に報知する。
【0059】
本変形例では、作業者からの入力として、分類コードおよび処理対象文書4のほか、検索条件式、任意テキストなども使うことができる。これらが入力された場合には、図3における文書データベース検索部700に検索条件式あるいは任意テキストを検索条件として渡して検索を実行させ、検索結果を得る。入力が任意テキストの場合は、その中からキーワード抽出部3によってキーワードを自動抽出してキーワードベクトルを生成し、そのベクトルと文書データベース1内の各文書データのキーワードベクトルとのなす角の大小によって類似する文書を検索結果として出力するという公知技術を用いることができる(よってここでは深く言及しない)。
【0060】
【発明の効果】
本発明によれば、分類コード,キーワード,検索条件式,テキスト等の条件を入力として、これらに関連する分類コード集合を解析し、利用者に提示でき、また、同一の分類コードを指定しても処理対象文書データが異なれば関連する分類コードも異なったものを表示できるので、利用者は提示された関連分類コードの中から適切な分類コードを拾って分類付与や検索条件式作成に反映させることができ、分類コード付与作業時の分類コード付与漏れや、検索作業時の検索範囲漏れを防ぐことができる。その結果、分類付与作業・検索作業の質および効率向上が期待できる。
【図面の簡単な説明】
【図1】本実施例の概要を示す図
【図2】本実施例の画面の一例を示す図
【図3】本実施例の機能ブロックの一例を示す図
【図4】本実施例における分類コード対生成部300の処理フローを示す図
【図5】本実施例における関連分類コード抽出部600の処理フローを示す図
【図6】本実施例における検索ログ解析部400の処理フローを示す図
【図7】本実施例の変形例の概要を示す図
【符号の説明】
1…文書データベース、2…分類コード対格納テーブル、3…文書データ、4…処理対象文書、5…検索ログ、6…検索ログから抽出した分類コード対、7…検索結果、8…検索結果からの分類コード解析結果、100…入出力部、200…文書データ登録部、300…分類コード対生成部、400…検索ログ解析部、500…キーワード抽出部、600…関連分類コード抽出部、700…文書データベース検索部、800…関連分類コード表示部

Claims (18)

  1. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、各々の文書データに対してどの分類コードとどの分類コードが対になって付与されているかを予め解析し、前記分類コード対を分類コード対格納テーブルに格納しておき、
    利用者によって入力装置を介して指定された分類コードに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記抽出された分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  2. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、過去に文書データベースを検索した時に使われた検索条件式集合の各々に対してどの分類コードとどの分類コードが対になって使われているかを予め解析し、前記分類コード対を分類コード対格納テーブルに格納しておき、
    利用者によって入力装置を介して指定された分類コードに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記抽出された分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  3. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、前記文書データに「分類コードが付与された関連文書データ」を予め関連付けておき、各々の文書データに付与されている分類コードと当該文書データに関連付けられている関連文書データに付与されている分類コードの対を予め抽出して分類コード対格納テーブルに格納しておき、
    利用者によって入力装置を介して指定された分類コードに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記抽出された分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  4. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、
    利用者によって入力装置を介して指定された分類コードに対して、当該分類コードが付与されている前記文書データを前記文書データベースから検索し、前記検索された文書データの各々に付与されている分類コードを抽出し、前記抽出された分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  5. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、各々の文書データに「分類コードが付与された関連文書データ」を予め関連付けておき、
    利用者によって入力装置を介して指定された分類コードに対して、当該分類コードが付与されている前記文書データを前記文書データベースから検索し、前記検索された文書データの各々に関連付けられている関連文書データを特定し、前記特定された関連文書データの各々に付与されている分類コードを抽出し、前記抽出された分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  6. 請求項1から請求項5に記載の関連分類抽出方法において、
    利用者によって指定された分類コードと前記抽出された分類コードの両方が付与されている前記文書データの件数データを前記分類コード対格納テーブルに格納しておき、前記抽出された分類コード集合を利用者に報知する際に、前記件数データに基づいて降順にソートすることを特徴とする関連分類抽出方法。
  7. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、各々の文書データに対してどの分類コードとどの分類コードが対になって付与されているかを予め解析し、前記分類コード対を分類コード対格納テーブルに格納しておき、
    前記分類コード対の各々について、当該分類コード対が付与されている文書データ集合を予め解析して当該文書データ集合を特徴付けるキーワード群1を抽出して前記分類コード対と対応付けて分類コード対格納テーブルに格納しておき、
    利用者によって入力装置を介して指定された分類コードおよび処理対象文書データに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記処理対象文書データを特徴付けるキーワードが既知でない場合に前記処理対象文書データを解析して当該処理対象文書データを特徴付けるキーワード群2を抽出し、前記処理対象文書データを特徴付けるキーワード群2を「前記抽出された分類コードの各々に対応するキーワード群1」と各々照合して前記抽出された分類コードの類似度を各々算出し、前記抽出された分類コードの出現件数あるいは前記算出された類似度の少なくとも一方の値を用いて前記抽出された分類コードの関連度を各々算出して降順にソートし、前記ソートされた分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  8. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、過去に文書データベースを検索した時に使われた検索条件式集合の各々に対してどの分類コードとどの分類コードが対になって使われているかを予め解析し、前記分類コード対を分類コード対格納テーブルに格納しておき、
    前記分類コード対の各々について、当該分類コード対が使われている検索条件式に含まれる検索キーワード群1を抽出して前記分類コード対と対応付けて分類コード対格納テーブルに格納しておき、
    利用者によって入力装置を介して指定された分類コードおよび処理対象文書データに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記処理対象文書データを特徴付けるキーワードが既知でない場合に前記処理対象文書データを解析して当該処理対象文書データを特徴付けるキーワード群2を抽出し、前記処理対象文書データを特徴付けるキーワード群2を「前記抽出された分類コードの各々に対応するキーワード群1」と各々照合して前記抽出された分類コードの類似度を各々算出し、前記抽出された分類コードの出現件数あるいは前記算出された類似度の少なくとも一方の値を用いて前記抽出された分類コードの関連度を各々算出して降順にソートし、前記ソートされた分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  9. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、各々の文書データに「分類コードが付与された関連文書データ」を予め関連付けておき、前記文書データに付与されている分類コードと当該文書データに関連付けられている関連文書データに付与されている分類コードの対を予め抽出して分類コード対格納テーブルに格納しておき、
    前記分類コード対の各々について、当該分類コード対を抽出する元となった文書データ集合を予め解析して当該文書データ集合を特徴付けるキーワード群1を抽出して前記分類コード対と対応付けて分類コード対格納テーブルに格納しておき、
    利用者によって入力装置を介して指定された分類コードおよび処理対象文書データに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードを抽出し、前記処理対象文書データを特徴付けるキーワードが既知でない場合に前記処理対象文書データを解析して当該処理対象文書データを特徴付けるキーワード群2を抽出し、前記処理対象文書データを特徴付けるキーワード群2を「前記抽出された分類コードの各々に対応するキーワード群1」と各々照合して前記抽出された分類コードの類似度を各々算出し、前記抽出された分類コードの出現件数あるいは前記算出された類似度の少なくとも一方の値を用いて前記抽出された分類コードの関連度を各々算出して降順にソートし、前記ソートされた分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  10. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、
    利用者によって入力装置を介して指定された分類コードおよび処理対象文書データに対して、当該分類コードが付与されている前記文書データを前記文書データベースから検索し、前記検索された文書データの各々に付与されている分類コードを抽出し、前記抽出された分類コードの各々に対して当該分類コードが付与されている前記検索された文書データ集合から当該文書データ集合を特徴付けるキーワード群1を抽出して前記抽出された分類コードに対応付け、前記処理対象文書データを特徴付けるキーワードが既知でない場合に前記処理対象文書データを解析して当該処理対象文書データを特徴付けるキーワード群2を抽出し、前記抽出されたキーワード群1を前記抽出されたキーワード群2と各々照合して前記抽出された分類コードの類似度を各々算出し、前記抽出された分類コードの出現件数あるいは前記算出された類似度の少なくとも一方の値を用いて前記抽出された分類コードの関連度を各々算出して降順にソートし、前記ソートされた分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  11. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、
    利用者によって入力装置を介して指定された分類コードおよび処理対象文書データに対して、当該分類コードが付与されている前記文書データを前記文書データベースから検索し、前記検索された文書データの各々に関連付けられている関連文書データを特定し、前記特定された関連文書データの各々に付与されている分類コードを抽出し、前記抽出された分類コードの各々について、当該分類コード対を抽出する元となった前記検索された文書データ集合から当該文書データ集合を特徴付けるキーワード群1を抽出して前記抽出された分類コードに対応付け、前記処理対象文書データを特徴付けるキーワードが既知でない場合に前記処理対象文書データを解析して当該処理対象文書データを特徴付けるキーワード群2を抽出し、前記抽出されたキーワード群1を前記抽出されたキーワード群2と各々照合して前記抽出された分類コードの類似度を各々算出し、前記抽出された分類コードの出現件数あるいは前記算出された類似度の少なくとも一方の値を用いて前記抽出された分類コードの関連度を各々算出して降順にソートし、前記ソートされた分類コードを出力装置を介して利用者に報知することを特徴とする関連分類抽出方法。
  12. 請求項4,5,10,11に記載の関連分類抽出方法において、
    利用者によって入力装置を介して指定される分類コードの代わりに検索条件式を指定させ、当該検索条件式を満たす文書データを用いて関連する分類コードを抽出することを特徴とする関連分類抽出方法。
  13. 請求項4,5,10,11に記載の関連分類抽出方法において、
    利用者によって入力装置を介して指定される分類コードの代わりにテキストデータを指定させ、当該テキストデータに類似する文書データを検索し、前記検索された文書データを用いて関連する分類コードを抽出することを特徴とする関連分類抽出方法。
  14. 請求項9および請求項11に記載の関連分類抽出方法において、
    前記キーワード群1を抽出する際に、前記分類コード対を抽出する元となった文書データ集合を用いる代わりに、前記分類コード対を抽出する元となった関連文書データ集合を用いることを特徴とする関連分類抽出方法。
  15. 請求項1から請求項5および請求項7から請求項14に記載の関連分類抽出方法において、
    前記出力する分類コードの件数を利用者が指定できることを特徴とする関連分類抽出方法。
  16. 請求項1から請求項5および請求項7から請求項14に記載の関連分類抽出方法において、
    関連する分類コードを請求項1から請求項5および請求項7から請求項14に記載のどの方式で抽出するかを利用者が指定できることを特徴とする関連分類抽出方法。
  17. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、関連する分類コード対および前記分類コード対の関連を特徴付けるキーワードを格納する分類コード対格納テーブルを持ち、
    利用者によって入力装置を介して指定された分類コードに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードおよび当該分類コード対に対応する前記キーワードを抽出し、出力装置を介して利用者に報知することを特徴とする関連分類抽出および表示方法。
  18. 文書データベースを構成する文書データの各々に一つ以上の分類コードを予め付与しておき、関連する分類コード対および前記分類コード対の関連を特徴付けるキーワードを格納する分類コード対格納テーブルを持ち、
    利用者によって入力装置を介して指定された分類コードおよび処理対象文書データに対して、前記分類コード対格納テーブルを参照して当該指定された分類コードと対をなす分類コードおよび当該分類コード対に対応する前記キーワードの中から当該指定された処理対象文書データを特徴付けるキーワードと一致するキーワードを抽出し、出力装置を介して利用者に報知することを特徴とする関連分類抽出および表示方法。
JP2002360104A 2002-12-12 2002-12-12 関連分類抽出方法及び装置 Pending JP2004192368A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002360104A JP2004192368A (ja) 2002-12-12 2002-12-12 関連分類抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002360104A JP2004192368A (ja) 2002-12-12 2002-12-12 関連分類抽出方法及び装置

Publications (1)

Publication Number Publication Date
JP2004192368A true JP2004192368A (ja) 2004-07-08

Family

ID=32759269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002360104A Pending JP2004192368A (ja) 2002-12-12 2002-12-12 関連分類抽出方法及び装置

Country Status (1)

Country Link
JP (1) JP2004192368A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117066A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
JP2011138242A (ja) * 2009-12-28 2011-07-14 Hitachi-Ge Nuclear Energy Ltd 情報参照支援システム
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム
WO2014002595A1 (ja) * 2012-06-29 2014-01-03 楽天株式会社 情報処理システム、類似カテゴリ特定方法、プログラムおよびコンピュータ読取り可能な情報記憶媒体
KR101430064B1 (ko) * 2012-11-28 2014-08-14 한국과학기술정보연구원 분류 코드를 제공하기 위한 시스템 및 방법
JPWO2020235020A1 (ja) * 2019-05-21 2020-11-26

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117066A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
JP2011138242A (ja) * 2009-12-28 2011-07-14 Hitachi-Ge Nuclear Energy Ltd 情報参照支援システム
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム
WO2014002595A1 (ja) * 2012-06-29 2014-01-03 楽天株式会社 情報処理システム、類似カテゴリ特定方法、プログラムおよびコンピュータ読取り可能な情報記憶媒体
KR101430064B1 (ko) * 2012-11-28 2014-08-14 한국과학기술정보연구원 분류 코드를 제공하기 위한 시스템 및 방법
JPWO2020235020A1 (ja) * 2019-05-21 2020-11-26
WO2020235020A1 (ja) * 2019-05-21 2020-11-26 日本電信電話株式会社 マッピング支援装置、マッピング支援方法、及びプログラム
JP7173314B2 (ja) 2019-05-21 2022-11-16 日本電信電話株式会社 マッピング支援装置、マッピング支援方法、及びプログラム

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
KR100505848B1 (ko) 검색 시스템
JP3598742B2 (ja) 文書検索装置及び文書検索方法
KR101377389B1 (ko) 다차원 검색 시스템, 다차원 검색을 수행하는 컴퓨터 구현 방법 및 컴퓨터 실행가능 시스템
US8296295B2 (en) Relevance ranked faceted metadata search method
JP3108015B2 (ja) ハイパーテキスト検索装置
US8135708B2 (en) Relevance ranked faceted metadata search engine
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
US7024405B2 (en) Method and apparatus for improved internet searching
JPH0778182A (ja) キーワード付与システム
JP2001522496A (ja) データベースのデータを検索するための方法と装置
US8577865B2 (en) Document searching system
JP2004220215A (ja) 計算機を利用した業務誘導支援システムおよび業務誘導支援方法
CN111324797A (zh) 一种高速精准获取数据的方法和装置
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP2004192368A (ja) 関連分類抽出方法及び装置
JP4423841B2 (ja) キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
JP4010058B2 (ja) 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JPH11338869A (ja) 情報推薦方法及びシステム及び情報推薦プログラムを格納した記憶媒体及び情報蓄積方法及び装置及び情報蓄積プログラムを格納した記憶媒体
CN115617980A (zh) 一种诉讼案例检索报告生成方法及系统
US20130304720A1 (en) Methods and Apparatus for Presenting Search Results with Indication of Relative Position of Search Terms
WO2008005493A2 (en) Relevance ranked faceted metadata search method and search engine
JPH1185794A (ja) 検索語入力装置および検索語入力プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040922

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071218