JP4594992B2 - 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 - Google Patents
文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4594992B2 JP4594992B2 JP2008052118A JP2008052118A JP4594992B2 JP 4594992 B2 JP4594992 B2 JP 4594992B2 JP 2008052118 A JP2008052118 A JP 2008052118A JP 2008052118 A JP2008052118 A JP 2008052118A JP 4594992 B2 JP4594992 B2 JP 4594992B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- context
- vectors
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
クラスタリングは、類似するテキストを集結させることによって各テキストの集合(クラスタ)を構築する(例えば、非特許文献1,2参照)。クラスタリングでは、カテゴライズと異なり、あらかじめ分類を定めておく必要がなく、未知のテキストに対して適用できる。また、分類によってテキスト内容の分布についで把握でき、内容の現況把握や、新しい発見が得られるなど、カテゴライズにはない特徴がある。
岸田和明,「文書クラスタリングの技法:文献レビュー」,三田図書館・情報学会,N0.49(2003),p.33−75 梶博行,森本康嗣,相薗敏子,山崎紀之,飯田恵子,内田安彦,「コーパス対応の関連シソーラスナビゲーション」,情報処理学会データベースシステム研究会118−13(1999),p.97−104 徳永健伸著,辻井潤一編,「情報検索と言語処理 言語と計算」,東京大学出版会,1999年 北研二,津田和彦,獅々堀正幹,「情報検索アルゴリズム」,共立出版,2002年
<構成>
図1は、本形態の文書データ分類装置1の構成を示すブロック図である。また、図2は、本形態の文脈抽出部30の詳細構成を示すブロック図であり、図3(a)は、文脈結合部50の詳細構成を示すブロック図であり、図3(b)は、クラスタ分類部60の詳細構成を示すブロック図である。
図4は、本形態の文書データ分類方法の全体を説明するためのフローチャートである。また、図5は、図4のステップS2の詳細を例示したフローチャートであり、図6は、図4のステップS4の詳細を例示したフローチャートであり、図7は、図4のステップS5の詳細を例示したフローチャートである。また、図8は、本形態の文書データ分類方法の全体を説明するための概念図である。以下、これらの図を用いて、本形態の文書データ分類処理を説明する。
ここで、図2及び図5を用い、ステップS2の詳細を例示する。
まず、文脈抽出部30の一致判定部31が、メモリ10から未処理の1つの入力文書を選択する(ステップS11)。次に、一致判定部31が、選択した入力文書の先頭の単語を判定対象の単語に設定する(ステップS12)。次に、一致判定部31は、メモリ10に格納された主要単語を参照し、判定対象の単語が何れかの主要単語と一致するか否かを判定する(ステップS13)。
ここで、判定対象の単語が何れかの主要単語と一致していなかったならばステップS17の処理に移行する。
ここで、図3(a)及び図6を用い、ステップS4の詳細を例示する。
このステップS4の処理は、入力文書ごとにクラスタリングを行う点に特徴がある。クラスタリング方法には様々な方法を用いることができるが、本形態では、入力文書ごとに、階層的クラスタリングによって第1の文書ベクトルをクラスタリングし、その過程において各クラスタごとに第1の文書ベクトルを合成して各第2の文書ベクトルを生成する。
(a)更新対象の集合に含まれるベクトルの個数が一定値以下になること。
(b)更新対象の集合に含まれるベクトルの個数に対する、当該集合に含まれる第1の文書ベクトルの個数の割合が一定値以下になること。
(c)更新対象の集合に含まれる最も距離が近い一組のベクトル間の距離が一定値以上になること。
(d)更新対象の集合に含まれる最も距離が近い一組のベクトル間の距離が、初期集合設定部51で設定された初期状態の当該集合に含まれる最も距離が近い一組のベクトル間の距離に対して一定割合以上になること。
(e)更新対象の集合に対する更新処理回数が一定値以上となったこと。
ここで、図3(b)及び図7を用い、ステップS5の詳細を例示する。
このステップS5の処理は、様々なクラスタリング方法を用いて実現できるが、本形態では、分割最適化による非階層的クラスタリング手法(k−means法)を用いる。
(a)各クラスタの更新前のセントロイドと更新後のセントロイドとの距離をすべてのクラスタについて合計した値が一定値以下となること。
(b)更新の前後で最も大きくセントロイドが変動したクラスタでのセントロイドの変化量が一定値以下となること。
(c)更新前の各クラスタの各メンバーと更新後の各クラスタの各メンバーとの相違数の合計が一定値以下となること。
(d)更新の前後で最も大きくメンバーが変動したクラスタでのメンバー変動数が一定値以下となること。
(e)クラスタの更新回数が一定値以上となること。
以上説明した通り、本形態では、1つの文書中に複数の分野に分類されるべき複数の文章(文脈)が混在したり、文章本来の意味とは無関係な単語(エラー)が混在する場合を仮定している。そして、固定的な文書結合ではなく、文書から抽出した推定文脈の内容に応じて動的に推定文脈を結合し、クラスタリングを行うことで最終的な分類を決める。具体的には、メモリ10から各入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し(ステップS2)、各推定文脈の文書ベクトルである第1の文書ベクトルを生成し(ステップS3)、入力文書ごとに、当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとし、1個の第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとし(ステップS4)、すべての第2の文書ベクトルを対象とした第2のクラスタリングを行い、最終的な分類を決める(ステップS5)。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、入力文書ごとに非階層的クラスタリングを行い、文脈結合過程(ステップS4)を実行してもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
10 メモリ
30 文脈抽出部
40 文書ベクトル生成部
50 文脈結合部
60 クラスタ分類部
Claims (8)
- 複数の入力文書を格納するメモリと、
メモリから前記入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し、各推定文脈を出力する文脈抽出手段と、
前記各推定文脈の文書ベクトルである第1の文書ベクトルを生成し、各第1の文書ベクトルを出力する文書ベクトル生成手段と、
前記入力文書ごとに、当該入力文書に含まれる前記各推定文脈にそれぞれ対応する前記第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の前記第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして出力し、1個の前記第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力する文脈結合手段と、
すべての前記第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果を出力するクラスタ分類手段と、
を有することを特徴とする文書データ分類装置。 - 請求項1に記載の文書データ分類装置であって、
前記文脈抽出手段は、
前記主要単語と一致した単語を含む所定範囲の単語列、又は、前記主要単語と一致した単語の直後に位置する所定範囲の単語列、又は、前記主要単語と一致した単語の直前に位置する所定範囲の単語列を前記推定文脈として抽出する手段である、
ことを特徴とする文書データ分類装置。 - 請求項1又は2に記載の文書データ分類装置であって、
前記文脈抽出手段は、
抽出した複数の前記推定文脈の一部分が相互に重複する場合、当該複数の推定文脈を、当該複数の推定文脈に対応する範囲の単語列からなる1つの推定文脈に統合して出力する文脈統合手段を含む、
ことを特徴とする文書データ分類装置。 - 請求項1から3の何れかに記載の文書データ分類装置であって、
前記文脈結合手段は、
前記入力文書ごとに当該入力文書に含まれる前記各推定文脈にそれぞれ対応する前記第1の文書ベクトルの集合を設定し、当該各集合をメモリに格納する初期集合設定手段と、
前記集合ごとに最も距離が近いベクトルの組を選択し、当該ベクトルの組の合成ベクトルを生成し、当該合成ベクトルをその生成に用いられたベクトルの組が属する集合に追加するとともに、当該ベクトルの組を当該集合から削除することにより、メモリに格納された当該集合を更新する処理を、前記集合ごとに所定の終了条件を満たすまで繰り返す集合更新手段と、
前記所定の終了条件を満たした時点で前記各集合に属する各ベクトルを、前記各第2の文書ベクトルとして出力する出力手段と、
を有することを特徴とする文書データ分類装置。 - 請求項4に記載の文書データ分類装置であって、
前記所定の終了条件は、
(a)更新対象の前記集合に含まれるベクトルの個数が一定値以下になること、(b)更新対象の前記集合に含まれるベクトルの個数に対する、当該集合に含まれる前記第1の文書ベクトルの個数の割合が一定値以下になること、(c)更新対象の前記集合に含まれる最も距離が近い一組のベクトル間の距離が一定値以上になること、(d)更新対象の前記集合に含まれる最も距離が近い一組のベクトル間の距離が、前記初期集合設定手段で設定された初期状態の当該集合に含まれる最も距離が近い一組のベクトル間の距離に対して一定割合以上になること、(e)更新対象の前記集合に対する更新処理回数が一定値以上となったこと、の少なくとも1つである、
を特徴とする文書データ分類装置。 - 文書データ分類装置が実行する文書データ分類方法であって、
複数の入力文書をメモリに格納する入力文書格納過程と、
文脈抽出手段が、メモリから前記入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し、各推定文脈を出力する文脈抽出過程と、
文書ベクトル生成手段が、前記各推定文脈の文書ベクトルである第1の文書ベクトルを生成し、各第1の文書ベクトルを出力する文書ベクトル生成過程と、
文脈結合手段が、前記入力文書ごとに、当該入力文書に含まれる前記各推定文脈にそれぞれ対応する前記第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の前記第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして出力し、1個の前記第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力する文脈結合過程と、
クラスタ分類手段が、すべての前記第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果を出力するクラスタ分類過程と、
を有することを特徴とする文書データ分類方法。 - 請求項1から5の何れかに記載の文書データ分類装置としてコンピュータを機能させるためのプログラム。
- 請求項7に記載のプログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008052118A JP4594992B2 (ja) | 2008-03-03 | 2008-03-03 | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008052118A JP4594992B2 (ja) | 2008-03-03 | 2008-03-03 | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009211277A JP2009211277A (ja) | 2009-09-17 |
JP4594992B2 true JP4594992B2 (ja) | 2010-12-08 |
Family
ID=41184363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008052118A Active JP4594992B2 (ja) | 2008-03-03 | 2008-03-03 | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4594992B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5758349B2 (ja) * | 2012-02-15 | 2015-08-05 | 日本電信電話株式会社 | 文書カテゴライズ装置とその方法とプログラム |
JP6380393B2 (ja) * | 2013-06-28 | 2018-08-29 | 日本電気株式会社 | 文章分類装置、文章分類方法、及び文章分類プログラム |
CN104679826B (zh) * | 2015-01-09 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 基于分类模型的上下文识别的方法和系统 |
JP6012814B1 (ja) * | 2015-05-22 | 2016-10-25 | 日本電信電話株式会社 | 逐次クラスタリング装置、方法、及びプログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207911A (ja) * | 1996-11-25 | 1998-08-07 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001290826A (ja) * | 2000-04-05 | 2001-10-19 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 |
JP2005107705A (ja) * | 2003-09-29 | 2005-04-21 | Hitachi Ltd | 複数言語を対象とした文書分類装置及び文書分類方法 |
JP2005122510A (ja) * | 2003-10-17 | 2005-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2006040058A (ja) * | 2004-07-28 | 2006-02-09 | Mitsubishi Electric Corp | 文書分類装置 |
JP2006293616A (ja) * | 2005-04-08 | 2006-10-26 | Nippon Telegr & Teleph Corp <Ntt> | 文書集約方法及び装置及びプログラム |
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
-
2008
- 2008-03-03 JP JP2008052118A patent/JP4594992B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207911A (ja) * | 1996-11-25 | 1998-08-07 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001290826A (ja) * | 2000-04-05 | 2001-10-19 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 |
JP2005107705A (ja) * | 2003-09-29 | 2005-04-21 | Hitachi Ltd | 複数言語を対象とした文書分類装置及び文書分類方法 |
JP2005122510A (ja) * | 2003-10-17 | 2005-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2006040058A (ja) * | 2004-07-28 | 2006-02-09 | Mitsubishi Electric Corp | 文書分類装置 |
JP2006293616A (ja) * | 2005-04-08 | 2006-10-26 | Nippon Telegr & Teleph Corp <Ntt> | 文書集約方法及び装置及びプログラム |
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2009211277A (ja) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11216504B2 (en) | Document recommendation method and device based on semantic tag | |
JP5788015B2 (ja) | 複数の粒度でのテキスト分割 | |
EP1808788B1 (en) | Information type identification method and apparatus, e.g. for music file name content identification | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US20070106405A1 (en) | Method and system to provide reference data for identification of digital content | |
US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
JP2016536659A (ja) | 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法 | |
US8725766B2 (en) | Searching text and other types of content by using a frequency domain | |
Martín et al. | Using semi-structured data for assessing research paper similarity | |
EP4147142A1 (en) | Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model | |
JP2003281186A (ja) | 類似性判断のための例題ベース検索方法及び検索システム | |
JP4594992B2 (ja) | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 | |
KR102345401B1 (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP7098502B2 (ja) | 報告書作成装置、方法、およびプログラム | |
JP5008137B2 (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
CN101937450B (zh) | 在由粒子表示的信息检索数据库中进行条目检索的方法 | |
JP2002251412A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JP2007183927A (ja) | 情報処理装置および方法、並びにプログラム | |
JP7055764B2 (ja) | 対話制御システム、対話制御方法及びプログラム | |
KR102045574B1 (ko) | 기술 문서 키워드를 도출하는 장치 및 방법 | |
Merkel et al. | Comparing improved language models for sentence retrieval in question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4594992 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |