JP2007264985A - 情報分類方法、情報分類装置及び情報分類プログラム - Google Patents

情報分類方法、情報分類装置及び情報分類プログラム Download PDF

Info

Publication number
JP2007264985A
JP2007264985A JP2006088656A JP2006088656A JP2007264985A JP 2007264985 A JP2007264985 A JP 2007264985A JP 2006088656 A JP2006088656 A JP 2006088656A JP 2006088656 A JP2006088656 A JP 2006088656A JP 2007264985 A JP2007264985 A JP 2007264985A
Authority
JP
Japan
Prior art keywords
category
information
classification
classified
temporary storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006088656A
Other languages
English (en)
Inventor
Masamutsu Fuchigami
正睦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006088656A priority Critical patent/JP2007264985A/ja
Publication of JP2007264985A publication Critical patent/JP2007264985A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】分類効果の少ない事態を回避し、画面表示スペースを余分に消費することを避けることができる情報分類方法、情報分類装置及び情報分類プログラムを得る。
【解決手段】分類対象情報を所定のカテゴリに分類し、いずれのカテゴリにも含まれない情報がある場合には、一時記憶手段内に設けた未分類カテゴリに分類する分類ステップと、同一の内容を示す情報を一括りに取りまとめ、取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントする計数ステップと、未分類カテゴリが存在しない場合には作成し、カテゴリ内の項目数が所定の条件を満たしたカテゴリに含まれる情報を、未分類カテゴリ内に移動する統合ステップと、統合ステップで統合されることにより不要となったカテゴリを、一時記憶手段より削除する不要カテゴリ削除ステップとを実行することを特徴とする。
【選択図】図1

Description

本発明は、情報をカテゴリに分類するための情報分類方法、情報分類装置及び情報分類プログラムに関するものである。
従来、情報をカテゴリに分類する方法及び装置に関するものとして、例えば『テキストデータをカテゴリ別に分類する情報分類装置は、取り込んだテキストデータから単語情報、係り受け情報をそれぞれ作成する文章解析手段11、係り受け解析手段と、各テキストデータを、当該テキストデータに含まれる単語情報および係り受け情報と分類用辞書記憶手段に記憶された分類用辞書データに基づいてカテゴリ別に分類するデータ分類手段12を有している。分類用辞書データとしては、分類用辞書データ作成手段30を用いて、全てのテキストデータについての、作成された単語情報と係り受け情報のうちから指定されたものが、指定されたカテゴリに分類するための条件として登録される。』というものが提案されている(特許文献1)。
特開2005−190284号公報(要約)
しかしながら、従来の技術においては、カテゴリに分類された情報が少数しかなくても、そのまま分類結果を出力していたため、分類効果が期待できない場合がある。
また、分類結果を画面表示する際に、カテゴリ名を画面表示するために画面上でそのスペースが消費され、結果として全ての分類結果を1画面内に表示できない場合があるという課題がある。
そこで、分類効果の少ない事態を回避し、画面表示スペースを余分に消費することを避けることができる情報分類方法、情報分類装置及び情報分類プログラムが望まれている。
本発明に係る情報分類方法は、
属性を持つ情報をカテゴリに分類する方法において、
分類過程を格納する一時記憶手段を設け、
演算手段が、
分類対象である情報を受け取るステップと、
当該情報を所定のカテゴリに分類して、分類結果を前記一時記憶手段に格納し、いずれのカテゴリにも含まれない情報がある場合には、前記一時記憶手段内に設けた未分類カテゴリに分類する分類ステップと、
前記分類ステップにより各カテゴリに分類された情報のうち、同一の内容を示す情報を一括りに取りまとめ、取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントする計数ステップと、
未分類カテゴリが存在しない場合には作成し、前記計数ステップの結果、カテゴリ内の項目数が所定の条件を満たしたカテゴリに含まれる情報を、未分類カテゴリ内に移動する統合ステップと、
前記統合ステップで統合されることにより不要となったカテゴリを、前記一時記憶手段より削除する不要カテゴリ削除ステップと、
前記一時記憶手段が格納している分類結果を出力するステップと
を実行することを特徴とするものである。
また、本発明に係る情報分類装置は、
属性を持つ情報をカテゴリに分類する装置において、
分類対象である情報の入力手段と、
分類演算を行う演算手段と、
前記分類演算の過程を格納する一時記憶手段と、
情報の分類結果を出力する出力手段を有し、
前記演算手段は、
前記入力手段より、分類対象である情報を受け取り、
当該情報を所定のカテゴリに分類して、分類結果を前記一時記憶手段に格納し、
いずれのカテゴリにも含まれない情報がある場合には、前記一時記憶手段内に設けた未分類カテゴリに分類し、
各カテゴリに分類された情報のうち、同一の内容を示す情報を一括りに取りまとめ、
取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントし、
未分類カテゴリが存在しない場合には作成し、
カテゴリ内の項目数が所定の条件を満たしたカテゴリに含まれる情報を、未分類カテゴリ内に移動し、
不要となったカテゴリを、前記一時記憶手段より削除し、
前記出力手段は、
前記演算手段の指示を受け、前記一時記憶手段が格納している分類結果を出力することを特徴とするものである。
本発明に係る情報分類方法によれば、
分類効果が少ない場合には、情報分類後の項目数を削減できるため、分類結果を画面表示する際に、画面表示スペースを余分に消費することを回避できるという効果がある。
実施の形態1.
図1は、本発明の実施の形態1に係る情報分類方法を実現する情報分類装置の構成を示すものである。
情報分類装置100は、本実施の形態1に係る情報分類装置であり、カテゴリ記憶手段101、一時記憶手段105、演算手段106、入力手段107、出力手段108を有する。
カテゴリ記憶手段101は、カテゴリリスト102を格納している。
演算手段106は、分類対象の情報を、入力手段107を介して受け取って分類演算を行い、分類結果を、出力手段108を介して出力する。
一時記憶手段105は、例えばRAMのような高速アクセス可能なメモリで実現され、演算手段106の分類演算の過程を格納する。
図1においては、分類対象の情報は、文字列で表現された情報を示している。図1の「分類対象の文字列」に示す合計10項目のリストが、図1における分類対象の情報であり、入力手段107に入力される。なお、各項目の前に付した番号は、記載の便宜上付したもので、このような付番は特に制限されるものではない。
分類結果は、図1の「分類結果」に示すようにカテゴリに分類され、出力手段108により出力される。隅付き括弧で表現されたものがカテゴリ名であり、その下に配置された項目が、分類対象の情報である。なお、各項目の前に付した数字は、該当する情報の件数を示すものである。
分類対象の文字列及び分類結果の詳細については、後述のフローチャート等で述べる。
なお、ここでいう「文字列」とは、テキストデータで表現された値のことを指し、数字列や記号列、もしくはこれらを混合したものを含むものとする。
図2は、本実施の形態1に係る情報分類装置の全体処理フローを説明するものである。
(S201)
演算手段106は、入力手段107を介して、分類対象の情報を受け取る。また、カテゴリ記憶手段101より、カテゴリリスト102を読みこむ。
次に、演算手段106は、分類対象の個々の情報を、対応するカテゴリに分類して、分類結果を一時記憶手段105に格納し、いずれのカテゴリにも含まれない情報がある場合には、一時記憶手段内に設けた未分類カテゴリに分類する。
なお、詳細は図4を用いて説明する。
(S202)
演算手段106は、各カテゴリに分類された情報のうち、同一の内容を示す情報を一括りに取りまとめ、取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントする。
なお、詳細は図5を用いて後に説明する。
(S203)
演算手段106は、カテゴリ内の項目数が所定数以下とカウントされたカテゴリに含まれる情報を、未分類カテゴリ内に移動する。ここでは、カテゴリ内の項目数が1の場合に移動対象として取り扱う。
なお、詳細は図6を用いて後に説明する。
(S204)
演算手段106は、不要となったカテゴリを、一時記憶手段から削除する。ここでは、カテゴリ内の項目数が0となったカテゴリを削除対象として取り扱う。
なお、詳細は図7を用いて後に説明する。
次に、演算手段106は、出力手段108に指示を出し、一時記憶手段105が格納している分類結果を出力手段108が出力する。
図3は、本実施の形態1におけるカテゴリリスト102の例と、分類対象の情報の例(図1に示すものと同様)を示すものである。
図3の左図は、カテゴリリスト102の例であり、隅付き括弧内の文字列が、カテゴリ名を表している。カテゴリ名の下に配置された語句は、分類の基準となるキーワードであり、これらの語句を含む文字列は、そのカテゴリに分類される。
例えば、図3の右図の1番目の項目「雑誌の購入」は、キーワード「雑誌」を含むため、カテゴリ「書籍」に分類される。同様に、4番目の項目「椅子を調査」は、キーワード「椅子」を含むため、カテゴリ「家具」に分類される。
図4は、図2のステップS201の処理内容を説明するものである。
演算手段106は、図4の左に示す分類対象の文字列を、カテゴリリスト102の分類キーワードに基づき分類する。
分類の結果、図4の右に示すように、各カテゴリの配下に分類対象の文字列が配置されるようになり、演算手段106は、当該分類結果を一時記憶手段105に格納する。
なお、いずれのカテゴリにも含まれない項目がある場合は、一時記憶手段105内に設けた「未分類」カテゴリに分類する。
図5は、図2のステップS202の処理内容を示すものである。
演算手段106は、ステップS201で各カテゴリに分類された情報のうち、同一の内容を示す情報を一括に取りまとめる。
図5の左に示すように、ステップS201の分類結果では、「書籍」カテゴリの「雑誌の購入」と、「衣類」カテゴリの「上着の価格」は、同一内容の項目である。
そこで、図5の中央に示すように、これら同一内容の項目は1つに括り、件数を項目名の前に付与することによって、項目の取りまとめを行う。
次に、図5の右に示すように、各カテゴリ内の項目数をカウントする。
例えば「書籍」カテゴリは、項目「雑誌の購入」と「辞書で検索」の2項目が存在し、「衣類」カテゴリは、項目「上着の価格」の1項目が存在する。
図6は、図2のステップS203の処理内容を説明するものである。
演算手段106は、カテゴリ内の項目数が1であるカテゴリに含まれる情報を、未分類カテゴリ内に移動する。
図6の左は、ステップS202において、各カテゴリ内に含まれる項目数をカウントした結果を示すものである。「衣類」カテゴリと「食品」カテゴリには、それぞれ1項目のみ存在している。
演算手段106は、「衣類」カテゴリの項目「上着の価格」と、「食品」カテゴリの「食品の販売」を、それぞれ「未分類」カテゴリに移動する。
移動の結果、「衣類」カテゴリと「食品」カテゴリは、配下の項目数が0になる。
図7は、図2のステップS204の処理内容を説明するものである。
演算手段106は、ステップS203の結果、カテゴリ内の項目数が0となったカテゴリ「衣類」とカテゴリ「食品」を、一時記憶手段105から削除する。
削除の結果、最終的な分類結果は、図7の右に示すようになる。
本実施の形態1においては、カテゴリ内に含まれる項目数が1の場合には、当該項目を未分類カテゴリに移動することとしたが、これに限られるものではなく、あらかじめ所定数を定めておき、カテゴリ内に含まれる項目数がこの所定数以下となっている場合には、未分類カテゴリに移動するように構成してもよい。以下の実施の形態についても同様である。
さらには、項目の所定数ではなく許容カテゴリ総数を定めておき、カテゴリの数がこの許容数以下になるまで、未分類カテゴリへの項目移動を繰り返してもよい。移動対象の項目は、所属する項目数が少ないカテゴリから選ぶこともできる。以下の実施の形態についても同様である。
また、情報のカテゴリの分類は、予め設定されていても、情報そのものに由来するカテゴリに設定してもよく、分類は適宜設定することができる。
以上のように、本実施の形態1に係る情報分類装置によれば、
属性を持つ情報をカテゴリに分類する装置において、
分類対象である情報の入力手段と、
分類演算を行う演算手段と、
前記分類演算の過程を格納する一時記憶手段と、
情報の分類結果を出力する出力手段を有し、
前記演算手段は、
前記入力手段より、分類対象である情報を受け取り、
当該情報を所定のカテゴリに分類して、分類結果を前記一時記憶手段に格納し、
いずれのカテゴリにも含まれない情報がある場合には、前記一時記憶手段内に設けた未分類カテゴリに分類し、
各カテゴリに分類された情報のうち、同一の内容を示す情報を一括りに取りまとめ、
取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントし、
未分類カテゴリが存在しない場合には作成し、
カテゴリ内の項目数が所定の条件を満たしたカテゴリに含まれる情報を、未分類カテゴリ内に移動し、
不要となったカテゴリを、前記一時記憶手段より削除し、
前記出力手段は、
前記演算手段の指示を受け、前記一時記憶手段が格納している分類結果を出力するので、
分類効果が少ないような場合には、情報分類後の項目数を積極的に削減できるため、分類結果を画面表示する際に、画面表示スペースを余分に消費することを回避できる。
このように、本実施の形態1に係る情報分類装置においては、不要となったカテゴリを削除することにより、全体としての項目数を削減することができる。
また、前記演算手段は、
カテゴリ内の項目数が0となったカテゴリを、前記一時記憶手段より削除するので、
何ら情報を示さないカテゴリを削除し、画面表示スペースやメモリ容量の消費を低減できる。
実施の形態2.
本発明の実施の形態2に係る情報分類装置は、不要となったカテゴリを削除することに加えて、未分類カテゴリに含まれる重複項目を削除することにより、さらなる削減効果を奏するものである。
なお、構成は実施の形態1の図2と同様であるため、説明を省略する。以下、図2と同様の構成は同様の番号を用いる。
図8は、本実施の形態2に係る情報分類装置の全体処理フローを説明するものである。
ステップS801〜ステップS803はそれぞれ図2のステップS201〜ステップS203が順に対応するものであるため、説明を省略する。
(S804)
演算手段106は、カテゴリ内の項目数が0となったカテゴリを、一時記憶手段より削除する。
(S805)
演算手段106は、未分類カテゴリ以外のカテゴリに分類された情報と、未分類カテゴリに分類された情報を、未分類カテゴリに含まれる全ての項目について比較する。
なお、詳細は図14で後に説明する。
(S806)
演算手段106は、ステップS805において、比較対象の項目が一致すると判断した場合は、当該項目を未分類カテゴリ内から削除する。
なお、詳細は図15で後に説明する。
未分類カテゴリに含まれる全ての項目について、ステップS805〜ステップS806の処理が終了した後、演算手段106は、出力手段108に指示を出し、一時記憶手段105が格納している分類結果を出力手段108より出力する。
図9は、本実施の形態2におけるカテゴリリスト102の例と、分類対象の情報の例を示すものである。
図9の記載方法は、実施の形態1における図3と同様であるため、説明は省略するが、カテゴリリスト102と分類対象の文字列の内容は、図3と異なる。
図10は、図8のステップS801の処理内容を説明するものである。
ステップS801の処理内容は、図2におけるステップS201と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図4と異なる。
項目「本棚の購入」に含まれるキーワード「本棚」は、カテゴリ「書籍」とカテゴリ「家具」の双方に含まれるため、項目「本棚の購入」は双方のカテゴリに重複して分類されることになる(図10の※1)。
同様に、項目「箪笥の設置」は、カテゴリ「衣類」とカテゴリ「家具」の双方に重複して分類される(図10の※2)。
図11は、図8のステップS802の処理内容を説明するものである。
ステップS802の処理内容は、図2におけるステップS202と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図5と異なる。
図12は、図8のステップS803の処理内容を説明するものである。
ステップS803の処理内容は、図2におけるステップS203と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図6と異なる。
図13は、図8のステップS804の処理内容を説明するものである。
ステップS804の処理内容は、図2におけるステップS204と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図7と異なる。
図14は、図8のステップS805の処理内容を説明するものである。
(1)
演算手段106は、カテゴリ「未分類」内の項目「本棚の購入」と、他のカテゴリ内の項目を比較する。項目「本棚の購入」は、カテゴリ「家具」内の項目「本棚の購入」と重複している。
(2)
演算手段106は、カテゴリ「未分類」内の項目「食品の販売」と、他のカテゴリ内の項目を比較する。項目「食品の販売」は、他のカテゴリ内には存在していない。
(3)
演算手段106は、カテゴリ「未分類」内の項目「電卓が故障」と、他のカテゴリ内の項目を比較する。項目「電卓が故障」は、他のカテゴリ内には存在していない。
図15は、図8のステップS806の処理内容を説明するものである。
演算手段106は、ステップS805において、重複すると判断した項目「本棚の購入」を、未分類カテゴリ内から削除する。
次に、演算手段106は、出力手段108に指示を出し、出力手段108を介して、一時記憶手段105が格納している分類結果を出力する。
なお、図15の右図においては、カテゴリ「衣類」内の項目「箪笥の設置」と、カテゴリ「家具」内の項目「箪笥の設置」が重複しているが、これらの項目の分類には、カテゴリリスト102の分類キーワードに基づく理由があるため、削除処理は行わない。
一方、未分類カテゴリに分類されている項目は、項目数も少なく、また元の所属カテゴリは削除されているので、重複分は削除しても問題はない。
以上のように、本実施の形態2に係る情報分類装置によれば、
前記個々の情報の属性は、文字列で表されており、
前記演算手段は、
前記未分類カテゴリ以外のカテゴリに分類された情報の属性を表す前記文字列と、前記未分類カテゴリに分類された情報の属性を表す前記文字列を比較する同一項目判断ステップと、
前記同一項目判断ステップにおいて、比較対象の文字列が一致すると判断した場合は、当該情報を、前記未分類カテゴリ内から削除する重複項目削除ステップを実行するので、
不要となったカテゴリを削除することに加えて、未分類カテゴリに含まれる重複項目を削除することにより、さらなる削減効果を奏することができる。
実施の形態3.
図16は、本発明の実施の形態3に係る情報分類方法を実現する情報分類装置の構成を示すものである。
情報分類装置100は、同義語辞書記憶手段103、係り受け解析手段111を有する。
同義語辞書記憶手段103は、同義語辞書104を格納している。同義語辞書104の内容は、図23で後に説明する。
係り受け解析手段111は、分類対象文字列の係り受け解析を行い、当該文字列の受け部、格助詞及び係り部を識別する。詳細は図24で後に説明する。
図17は、本実施の形態3に係る情報分類装置の全体処理フローを説明するものである。
ステップS1701〜ステップS1704はそれぞれ図8のステップS801〜ステップS804に順に対応するものであるため、説明を省略する。
(S1705)
係り受け解析手段111は、分類対象文字列の係り受け解析を行い、当該文字列の受け部、格助詞及び係り部を識別し、演算手段106に伝える。なお、詳細は図24で説明する。
(S1706)
演算手段106は、同義語辞書記憶手段103より同義語辞書104を読み取る。
次に、演算手段106は、未分類カテゴリ以外のカテゴリに分類された情報と、未分類カテゴリに分類された情報を、未分類カテゴリに含まれる全ての項目について比較する。
比較を行う際には、係り受け解析手段111が識別した受け部、格助詞及び係り部がそれぞれ同一である、もしくは、同義語辞書104に基づき、同一ではないが同義語とみなせると判断した場合には、同一の内容を示すものとして取り扱う。
なお、詳細は図25で説明する。
(S1707)
演算手段106は、ステップS1706において、比較対象の項目が一致すると判断した場合は、当該項目を未分類カテゴリ内から削除する。
なお、詳細は図26で説明する。
未分類カテゴリに含まれる全ての項目について、ステップS1706〜ステップS1707の処理が終了した後、演算手段106は、出力手段108に指示を出し、一時記憶手段105が格納している分類結果を出力手段108で出力する。
図18は、本実施の形態3におけるカテゴリリスト102の例と、分類対象の情報の例を示すものである。
図18の記載方法は、実施の形態1における図3と同様であるため、説明は省略するが、カテゴリリスト102と分類対象の文字列の内容は、図3と異なる。
図19は、図17のステップS1701の処理内容を説明するものである。
ステップS1701の処理内容は、図2におけるステップS201と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図4と異なる。
図20は、図17のステップS1702の処理内容を説明するものである。
ステップS1702の処理内容は、図2におけるステップS202と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図5と異なる。
図21は、図17のステップS1703の処理内容を説明するものである。
ステップS1703の処理内容は、図2におけるステップS203と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図6と異なる。
図22は、図17のステップS1704の処理内容を説明するものである。
ステップS1704の処理内容は、図2におけるステップS204と同様であるが、カテゴリリスト102の内容と分類対象の文字列が実施の形態1とは異なるため、処理結果は図7と異なる。
図23は、同義語辞書104の内容を説明するものである。
同義語辞書104は、同義語とみなしてよい語句の組を保持しているものである。書式は任意のものとすることができるが、例えば図23に示す例の場合、語句「本棚」と「書棚」は同義語とみなしてよいことを示している。同様に、「=」の左右に示す語句は、それぞれ同義語とみなしてよい。
図24は、図17のステップS1705の処理内容を説明するものである。
係り受け解析手段111は、全ての分類対象文字列の係り受け解析を行い、当該文字列の受け部、格助詞及び係り部を識別し、演算手段106に伝える。
ここでいう係り受け解析とは、解析対象の文字列の構成要素を分析し、受け部、格助詞、係り部に分けることをいう。
図24に、係り受け解析の結果例を示しているが、4番目の項目「桐の箪笥の設置」については、「桐の箪笥」と「箪笥の設置」というように、係り受け構造が二重になっている。この場合は、さらに係り受け解析を行い、結果として「設置」を受け部とみなすことができる。
係り受け解析手段111の解析結果は、直接演算手段106に渡すように構成してもよいし、一旦一時記憶手段105に格納し、演算手段106は一時記憶手段105に格納された解析結果を参照するように構成してもよい。
図25は、図17のステップS1706の処理内容を説明するものである。
(1)
演算手段106は、カテゴリ「未分類」内の項目「食品の値引き販売」と、他のカテゴリ内の項目を比較する。
項目「食品の値引き販売」は、他のカテゴリ内には存在していない。
また、図23の同義語辞書104に基づき、「食品」を「食料」に置き換えた「食料の値引き販売」も、他のカテゴリ内には存在していない。
同様に、「値引き販売」を「販売」に置き換えた項目も、他のカテゴリ内には存在していない。
(2)
演算手段106は、カテゴリ「未分類」内の項目「書棚の購入」と、他のカテゴリ内の項目を比較する。
項目「書棚の購入」は、他のカテゴリ内には存在していないが、図23の同義語辞書104に基づき、「書棚」を「本棚」に置き換えた「本棚の購入」は、カテゴリ「家具」内に存在する。従って、項目「書棚の購入」は、項目「本棚の購入」と重複しているものとして取り扱う。
図26は、図17のステップS1707の処理内容を説明するものである。
演算手段106は、ステップS1706において、重複すると判断した項目「本棚の購入」を、未分類カテゴリ内から削除する。
次に、演算手段106は、出力手段108に指示を出し、出力手段108を介して、一時記憶手段105が格納している分類結果を出力する。
ステップS1707で削除する項目を増やすためには、ステップS1706で同義語とみなされる項目を増やせばよい。これは、同義語辞書104に保持する同義語の組を増やすことにより実現できる。同義語辞書104に保持する同義語の組が多いほど、同義語とみなされる語句が多いことになる。
実際には、同義語辞書記憶手段103に許容される容量や、分類対象の文字列の分野、希望する項目削除の程度などに合わせて、最適な同義語辞書104を準備することが望ましい。
例えば、分類対象の文字列が、主に医学用語である場合、医学用語を中心に保持する同義語辞書104を用いれば、保持語数が多くなくても、同義語とみなされる確率が上昇する。
同義語とみなされる確率をより上昇させるためには、例えば汎用的な同義語辞書と、特定の分野に特化した同義語辞書とを併用することなどが考えられる。
また、「書籍」と「Book」、「雑誌」と「Magazine」など、外国語の同義語であって、比較的一般に用いられる場合が多い語句を同義語辞書104に保持しておけば、同義語とみなされる確率はさらに上昇するが、前述の通り、同義語辞書記憶手段103に許容される容量等の事情により最適な同義語辞書を選択すればよい。
その他、全角文字と半角文字、アルファベットの大文字と小文字のように、実質的に同じ内容の語句は、同一とみなすことが好ましいが、これは同義語辞書104で対応するまでもなく、入力手段107もしくは演算手段106にて、入力される文字列の正規化処理をあらかじめ行っておけばよい。
以上のように、本実施の形態3に係る情報分類装置によれば、
同義語辞書を格納した同義語辞書記憶手段と、
分類後の全情報の属性について係り受け解析を行い、当該属性の受け部、格助詞及び係り部を識別する係り受け解析手段を有し、
前記演算手段は、
前記同義語辞書記憶手段より前記同義語辞書を読み取り、
前記受け部、前記格助詞及び前記係り部がそれぞれ同一である、もしくは、前記同義語辞書に基づき、同一ではないが同義語とみなせると判断した場合には、
判断対象の情報がそれぞれ同一の内容を示すものとして取り扱うので、
実質的に同一とみなせる同義語については、項目の重複を排除し、実施の形態2と比較して、さらなる削減効果を奏することができる。
実施の形態4.
本発明の実施の形態4に係る情報分類装置では、実施の形態1〜3に係る情報分類装置と異なり従前に属していたカテゴリに関する情報を、当該移動対象項目に付与するものである。
なお、情報分類装置の構成は実施の形態1の図2と同様であるため、説明を省略する。
図27は、本発明の実施の形態4に係る情報分類装置の全体処理フローを説明するものである。
ステップS2701、ステップS2702及びステップS2704はそれぞれ図2のステップS201、ステップS202及びステップS204に順に対応するものであるため、説明を省略する。
ステップS2703の詳細は、次の図28で説明する。
図28は、図27のステップS2703の処理内容を説明するものである。
図28において、カテゴリ「衣類」内の項目「上着の価格」を未分類カテゴリに移動する際には、移動前の所属カテゴリ名「衣類」を付加し、「(衣類)上着の価格」とする。これにより、当該項目が従前に所属していたカテゴリが「衣類」であることが即座に分かり、カテゴリ「衣類」をステップS2704で削除した後も、必要に応じて復元することが可能になる。
以上のように、本実施の形態4に係る情報分類装置によれば、
前記演算手段が、分類演算を行う際には、
前記未分類カテゴリへの移動対象の情報が、移動前に属していたカテゴリに関する情報を、当該情報の属性に付加するので、
移動対象の項目が従前に所属していたカテゴリが即座に分かり、不要カテゴリを削除した後も、必要に応じて復元することが可能になる。
実施の形態5.
図29は、本発明の実施の形態5に係る情報分類装置の、別の利用態様を説明するものである。
実施の形態1〜4においては、分類対象の情報は文字列であることを前提に説明を行ってきたが、本発明に係る情報分類方法及び情報分類装置が分類する情報は、テキスト情報に限られるものではない。
例えば、図29に示すように、絵画をカテゴリに分類する場合を考える。
絵画の内容は、人間の5感により判断するものであるため、これを自動的に分類することは、一般には難しい。
しかし、分類対象の絵画に、属性情報があらかじめ付与されている場合は、自動的な分類が可能になる。
図29においては、分類対象である各絵画には、その絵画のタイトルがあらかじめ付与されている。このタイトルは、文字列で表現されたものであるため、例えば本発明の実施の形態3に係る情報分類装置で、係り受け解析を行って分類を行うことが可能である。
その他、音声データを分類するような場合、音声そのものを自動的に分類することは難しいが、上記の絵画の例のように属性情報があらかじめ付与されている場合や、音声データをテキスト情報に変換した場合は、同様に本発明に係る情報分類方法及び情報分類装置で分類を行うことが可能である。
このように、本発明に係る情報分類方法及び情報分類装置は、所定の条件を整えれば、分類対象の情報が何であるかを問わない。
実施の形態6.
本発明の実施の形態6では、情報分類プログラム及びこれを実装したサーバ、さらにはこれを利用した検索キーワード分析システムについて説明する。
ポータルサイト運営者にとって、利用者が入力する検索キーワードは、利用者がどのような情報をポータルサイトに求めているのかを判断する貴重な情報源であり、これを分析して検索キーワードの傾向を把握することは、ポータルサイトの運営方針を決定する上で非常に重要である。
また、一般にポータルサイトの利用者が入力する検索キーワードは極めて多岐に渡るため、その分析結果も膨大な量となるので、分析結果を適切なカテゴリに分類し、大まかな傾向を把握できれば、ポータルサイト運営者にとって有用である。
このような検索キーワード分析システムにおいて、本実施の形態6に係る情報分類プログラムを利用すれば、分析結果の把握が容易となる。
図30は、本発明の実施の形態6に係る情報分類プログラムを実装したサーバ、及びこれを利用した検索キーワード分析システムの例を示すものである。
図30に示す検索キーワード分析システムは、サーバ3007、コンピュータ3010を有する。
サーバ3007とコンピュータ3010は、ネットワーク3009で接続されている。
サーバ3007は、カテゴリ記憶手段3001、同義語辞書記憶手段3003、プログラム記憶手段3005、演算手段3008を有する。
カテゴリ記憶手段3001は、カテゴリリスト3002及び利用者が過去に入力した検索キーワードの一覧3012を格納している。
同義語辞書記憶手段3003は、同義語辞書3004を格納している。
プログラム記憶手段3005は、本実施の形態6に係る情報分類プログラム3006、及びCGIプログラム3011を格納している。
CGIプログラム3011は、コンピュータ3010のリクエストに応じて、分析画面をコンピュータ3010に返信する処理等を行う。
演算手段3008は、情報分類プログラム3006の指示に従い、分類演算を行う。
コンピュータ3010は、ネットワーク3009を経由してサーバ3007にアクセスし、分析結果画面などを照会する。
なお、情報分類プログラム3006の指示による演算手段3008の処理フローとしては、実施の形態1〜4で説明した全体処理フローを示す図2、図8、図17または図27のいずれかを実現するように、本実施の形態6に係る情報分類プログラムを実装することができる。
本実施の形態6においては、同義語辞書3004を使用する、図17のフローチャートを実現した例を想定している。
図31は、図30の検索キーワード分析システムの分析画面構成例である。
図31の左部は、分類後の検索キーワード及びそのカテゴリ一覧である。この部分があまりに多いと、分析結果の把握に時間がかかるため、所望の表示分量となるまで、分類演算を行うことが有用である。
図32は、図30に示す検索キーワード分析システムにおいて、コンピュータ3010が図31に示す分析画面をリクエストする際の処理シーケンスを説明するものである。なお、各記憶手段及び演算手段3008の表示は省略している。
(S3201)
コンピュータ3010は、CGIプログラム3011のURLに対して、図31の分析画面の表示をネットワーク3009経由で要求する。
(S3202)
演算手段3008は、CGIプログラム3011の指示に基づき、過去の検索キーワード一覧3012を取得する。
(S3203)
演算手段3008は、CGIプログラム3011の指示に基づき、過去の検索キーワード一覧3012を情報分類プログラム3006に引渡し、情報分類演算を実行する。
(S3204)
演算手段3008は、情報分類プログラム3006の指示に基づき、同義語辞書3004を取得する。同義語辞書3004に基づき、同義語判定を行う。
(S3205)
演算手段3008は、分類演算の結果をCGIプログラム3011に返信する。
(S3206)
演算手段3008は、CGIプログラム3011の指示に基づき、分類結果を含めた分析画面を、コンピュータ3010に返信する。
なお、本実施の形態6に係る情報分類プログラムの適用対象は、これに限られるものではない。例えば、コールセンターのコールトラッキングシステムにおいて、顧客からの意見・苦情等を分類して一覧表示する際にも適用可能である。
実施の形態7.
図33は、本発明の実施の形態7に係る情報分類装置の1実施形態としての携帯情報端末の例を示すものである。
一般に、携帯情報端末は表示部が小さいため、多数の項目を一度に表示できない場合がある。このような場合、携帯情報端末内に、本発明の実施の形態1〜4に係る情報分類装置と同様の構成を備えておけば、かかる不都合を解消できる。
また、同様の処理を、実施の形態6に係る情報分類プログラムのように、プログラムとして実現してもよい。この場合は、情報分類プログラムをICやマイコン等のデバイスに実装し、同デバイスを端末内に組込めばよい。携帯情報端末は、表示デバイスに分類結果を表示する際に、あらかじめ情報分類プログラムにより分類演算を行い、表示項目数を削減させておく。
実施の形態1に係る情報分類方法を実現する情報分類装置の構成を示すものである。 実施の形態1に係る情報分類装置の全体処理フローを説明するものである。 実施の形態1におけるカテゴリリスト102の例と、分類対象の情報の例を示すものである。 図2のステップS201の処理内容を説明するものである。 図2のステップS202の処理内容を示すものである。 図2のステップS203の処理内容を説明するものである。 図2のステップS204の処理内容を説明するものである。 実施の形態2に係る情報分類装置の全体処理フローを説明するものである。 実施の形態2におけるカテゴリリスト102の例と、分類対象の情報の例を示すものである。 図8のステップS801の処理内容を説明するものである。 図8のステップS802の処理内容を説明するものである。 図8のステップS803の処理内容を説明するものである。 図8のステップS804の処理内容を説明するものである。 図8のステップS805の処理内容を説明するものである。 図8のステップS806の処理内容を説明するものである。 実施の形態3に係る情報分類方法を実現する情報分類装置の構成を示すものである。 実施の形態3に係る情報分類装置の全体処理フローを説明するものである。 実施の形態3におけるカテゴリリスト102の例と、分類対象の情報の例を示すものである。 図17のステップS1701の処理内容を説明するものである。 図17のステップS1702の処理内容を説明するものである。 図17のステップS1703の処理内容を説明するものである。 図17のステップS1704の処理内容を説明するものである。 同義語辞書104の内容を説明するものである。 図17のステップS1705の処理内容を説明するものである。 図17のステップS1706の処理内容を説明するものである。 図17のステップS1707の処理内容を説明するものである。 実施の形態4に係る情報分類装置の全体処理フローを説明するものである。 図27のステップS2703の処理内容を説明するものである。 実施の形態5に係る情報分類装置の、別の利用態様を説明するものである。 実施の形態6に係る情報分類プログラムを実装したサーバ、及びこれを利用した検索キーワード分析システムの例を示すものである。 図30の検索キーワード分析システムの画面構成例である。 コンピュータ3010が図31に示す分析画面をリクエストする際の処理シーケンスを説明するものである。 実施の形態7に係る情報分類装置の1実施形態としての携帯情報端末の例を示すものである。
符号の説明
100 情報分類装置、101 カテゴリ記憶手段、102 カテゴリリスト、103 同義語辞書記憶手段、104 同義語辞書、105 一時記憶手段、106 演算手段、107 入力手段、108 出力手段、111 係り受け解析手段、3001 カテゴリ記憶手段、3002 カテゴリリスト、3003 同義語辞書記憶手段、3004 同義語辞書、3005 プログラム記憶手段、3006 情報分類プログラム、3007 サーバ、3008 演算手段、3009 ネットワーク、3010 コンピュータ、3011 CGIプログラム、3012 過去の検索キーワード一覧。

Claims (11)

  1. 属性を持つ情報をカテゴリに分類する方法において、
    分類過程を格納する一時記憶手段を設け、
    演算手段が、
    分類対象である情報を受け取るステップと、
    当該情報を所定のカテゴリに分類して、分類結果を前記一時記憶手段に格納し、いずれのカテゴリにも含まれない情報がある場合には、前記一時記憶手段内に設けた未分類カテゴリに分類する分類ステップと、
    前記分類ステップにより各カテゴリに分類された情報のうち、同一の内容を示す情報を一括りに取りまとめ、取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントする計数ステップと、
    未分類カテゴリが存在しない場合には作成し、前記計数ステップの結果、カテゴリ内の項目数が所定の条件を満たしたカテゴリに含まれる情報を、未分類カテゴリ内に移動する統合ステップと、
    前記統合ステップで統合されることにより不要となったカテゴリを、前記一時記憶手段より削除する不要カテゴリ削除ステップと、
    前記一時記憶手段が格納している分類結果を出力するステップと
    を実行することを特徴とする情報分類方法。
  2. 前記不要カテゴリ削除ステップにおいては、
    前記カテゴリ内の項目数が0となったカテゴリを、前記一時記憶手段より削除することを特徴とする請求項1に記載の情報分類方法。
  3. 前記個々の情報の属性は、文字列で表されており、
    前記演算手段は、
    前記未分類カテゴリ以外のカテゴリに分類された情報の属性を表す前記文字列と、前記未分類カテゴリに分類された情報の属性を表す前記文字列を比較する同一項目判断ステップと、
    前記同一項目判断ステップにおいて、比較対象の文字列が一致すると判断した場合は、当該情報を、前記未分類カテゴリ内から削除する重複項目削除ステップを実行することを特徴とする請求項1又は請求項2に記載の情報分類方法。
  4. 同義語辞書を格納した同義語辞書記憶手段を設け、
    前記演算手段は、
    分類後の全情報の属性について係り受け解析を行い、当該属性の受け部、格助詞及び係り部を識別する係り受け解析ステップを実行し、
    前記同一項目判断ステップにおいては、
    前記同義語辞書記憶手段より前記同義語辞書を読み取り、前記受け部、前記格助詞及び前記係り部がそれぞれ同一である、もしくは、前記同義語辞書に基づき、同一ではないが同義語であると判断した場合には、
    判断対象の情報がそれぞれ同一の内容を示すものとして取り扱うことを特徴とする請求項3に記載の情報分類方法。
  5. 前記統合ステップにおいては、
    前記未分類カテゴリへの移動対象の情報が、移動前に属していたカテゴリに関する情報を、当該情報の属性に付加することを特徴とする請求項1ないし請求項4のいずれかに記載の情報分類方法。
  6. 属性を持つ情報をカテゴリに分類する装置において、
    分類対象である情報の入力手段と、
    分類演算を行う演算手段と、
    前記分類演算の過程を格納する一時記憶手段と、
    情報の分類結果を出力する出力手段を有し、
    前記演算手段は、
    前記入力手段より、分類対象である情報を受け取り、
    当該情報を所定のカテゴリに分類して、分類結果を前記一時記憶手段に格納し、
    いずれのカテゴリにも含まれない情報がある場合には、前記一時記憶手段内に設けた未分類カテゴリに分類し、
    各カテゴリに分類された情報のうち、同一の内容を示す情報を一括りに取りまとめ、
    取りまとめ後における各カテゴリ内の項目数を、カテゴリ毎にカウントし、
    未分類カテゴリが存在しない場合には作成し、
    カテゴリ内の項目数が所定の条件を満たしたカテゴリに含まれる情報を、未分類カテゴリ内に移動し、
    不要となったカテゴリを、前記一時記憶手段より削除し、
    前記出力手段は、
    前記演算手段の指示を受け、前記一時記憶手段が格納している分類結果を出力することを特徴とする情報分類装置。
  7. 前記演算手段は、
    カテゴリ内の項目数が0となったカテゴリを、前記一時記憶手段より削除することを特徴とする請求項6に記載の情報分類装置。
  8. 前記個々の情報の属性は、文字列で表されており、
    前記演算手段は、
    前記未分類カテゴリ以外のカテゴリに分類された情報の属性を表す前記文字列と、
    前記未分類カテゴリに分類された情報の属性を表す前記文字列を比較し、
    両者が一致すると判断した場合は、当該情報を、前記未分類カテゴリ内から削除することを特徴とする請求項6又は請求項7に記載の情報分類装置。
  9. 同義語辞書を格納した同義語辞書記憶手段と、
    分類後の全情報の属性について係り受け解析を行い、当該属性の受け部、格助詞及び係り部を識別する係り受け解析手段を有し、
    前記演算手段は、
    前記同義語辞書記憶手段より前記同義語辞書を読み取り、
    前記受け部、前記格助詞及び前記係り部がそれぞれ同一である、もしくは、前記同義語辞書に基づき、同一ではないが同義語とみなせると判断した場合には、
    判断対象の情報がそれぞれ同一の内容を示すものとして取り扱うことを特徴とする請求項8に記載の情報分類装置。
  10. 前記演算手段が、分類演算を行う際には、
    前記未分類カテゴリへの移動対象の情報が、移動前に属していたカテゴリに関する情報を、当該情報の属性に付加することを特徴とする請求項6ないし請求項9のいずれかに記載の情報分類装置。
  11. 請求項1ないし請求項5のいずれかに記載の情報分類方法をコンピュータに実行させることを特徴とする情報分類プログラム。
JP2006088656A 2006-03-28 2006-03-28 情報分類方法、情報分類装置及び情報分類プログラム Withdrawn JP2007264985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006088656A JP2007264985A (ja) 2006-03-28 2006-03-28 情報分類方法、情報分類装置及び情報分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006088656A JP2007264985A (ja) 2006-03-28 2006-03-28 情報分類方法、情報分類装置及び情報分類プログラム

Publications (1)

Publication Number Publication Date
JP2007264985A true JP2007264985A (ja) 2007-10-11

Family

ID=38637918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006088656A Withdrawn JP2007264985A (ja) 2006-03-28 2006-03-28 情報分類方法、情報分類装置及び情報分類プログラム

Country Status (1)

Country Link
JP (1) JP2007264985A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182253A (ja) * 2009-02-09 2010-08-19 Hitachi Ltd 文書分類装置及び文書分類方法
JP2010198141A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
KR101139913B1 (ko) 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
JP2013196067A (ja) * 2012-03-16 2013-09-30 Casio Comput Co Ltd 画像表示装置、画像表示システム、並びにプログラム
US9195680B2 (en) 2012-03-16 2015-11-24 Casio Computer Co., Ltd. Network system, membership-based social network service system, image display method, and storage medium storing program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182253A (ja) * 2009-02-09 2010-08-19 Hitachi Ltd 文書分類装置及び文書分類方法
JP2010198141A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
KR101139913B1 (ko) 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
JP2013196067A (ja) * 2012-03-16 2013-09-30 Casio Comput Co Ltd 画像表示装置、画像表示システム、並びにプログラム
US9195680B2 (en) 2012-03-16 2015-11-24 Casio Computer Co., Ltd. Network system, membership-based social network service system, image display method, and storage medium storing program
US9524333B2 (en) 2012-03-16 2016-12-20 Casio Computer Co., Ltd. Network system, membership-based social network service system, image display method, and storage medium storing program

Similar Documents

Publication Publication Date Title
US9659071B2 (en) Patent mapping
Kolda et al. Higher-order web link analysis using multilinear algebra
US7624102B2 (en) System and method for grouping by attribute
US10108720B2 (en) Automatically providing relevant search results based on user behavior
Rai Identifying key product attributes and their importance levels from online customer reviews
US10061767B1 (en) Analyzing user reviews to determine entity attributes
CN113673262A (zh) 使用统计流数据进行不同语言之间的机器翻译
JPH10134075A (ja) 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20090112845A1 (en) System and method for language sensitive contextual searching
US20160162583A1 (en) Apparatus and method for searching information using graphical user interface
AU2013270517B2 (en) Patent mapping
JP2007264985A (ja) 情報分類方法、情報分類装置及び情報分類プログラム
EP1774432A2 (en) Patent mapping
Tabassum et al. Semantic analysis of Urdu english tweets empowered by machine learning
US10055503B2 (en) Refining user search for items related to other items
US20210342737A1 (en) Ai/ml based proactive system to improve sales productivity by categorizing and determining relevant news
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JPH11296537A (ja) 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体
JP2010211438A (ja) 文書検索装置及び文書検索方法
US8195458B2 (en) Open class noun classification
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Duan et al. Mining distinguishing customer focus sets from online customer reviews
Cao et al. Extraction of informative blocks from web pages
Kohail Unsupervised topic-specific domain dependency graphs for aspect identification in sentiment analysis

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090602