JP5075566B2 - 文書分類装置およびプログラム - Google Patents
文書分類装置およびプログラム Download PDFInfo
- Publication number
- JP5075566B2 JP5075566B2 JP2007268288A JP2007268288A JP5075566B2 JP 5075566 B2 JP5075566 B2 JP 5075566B2 JP 2007268288 A JP2007268288 A JP 2007268288A JP 2007268288 A JP2007268288 A JP 2007268288A JP 5075566 B2 JP5075566 B2 JP 5075566B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- category
- bayesian network
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ワークを用いたものである(例えば、非特許文献1参照)。そこでは、あらかじめカテゴリ
が付与された文書(以下、訓練データと呼ぶ)に基づき、ベイジアンネットワークの条件付
き確率表を作成し、分類対象となる文書が与えあられているという条件の下で、事後確率
が最大となるカテゴリを、分類先のカテゴリとする。
練データに付与されたカテゴリの中から、事後確率が最大となるカテゴリを選択する。し
たがって、訓練データに含まれていないカテゴリに属する文書が分類対象と文書として入
力されても、事後確率が最大となるカテゴリが文書のカテゴリとして出力される。
れたカテゴリ以外に属する文書が入力されても、事前に与えられたカテゴリのいずれかに
分類されてしまい、事前に与えられたカテゴリのいずれにも属さないという出力を得るこ
とができない。
できない状況においては、分類結果が不正確なものとなる。また、時間の経過により、新
たなカテゴリが生じた場合にも、既存のカテゴリのいずれかに分類されてしまい、新規の
カテゴリに属する文書かどうかの判定ができない。
書分類において、訓練データに付与されたカテゴリ以外のカテゴリに属する文書かどうか
を判別できるようにするものである。
、訓練データに付与されていないカテゴリに属していた場合にも、正しく分類できるので
、訓練データを作成する際に、全てのカテゴリを網羅する必要がなく、精度の高い文書分
類が効率的にできる。また、時間の経過により、既存のカテゴリに属さない文書ができて
きた場合にも、精度の高い分類ができる。
ぞれハードウェア構成、又はハードウェア資源とソフトウェアとの組み合わせ構成のいず
れでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又
は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を
実現させるためのプログラムが用いられる。
以下、図面を参照し、この発明の実施例を説明する。
単語重要度算出部103、ベイジアンネットワーク記憶部104、単語重要度記憶部10
5、分類対象データ入力部106、文書ベクトル算出部107、事後確率算出部108、
単語重要度チェック部109、分類結果出力部110から構成される。
。訓練データは、前述のように、あらかじめカテゴリが付与された複数の文書である。
分解し、頻度を算出する。この算出された頻度は、単語重要度算出部103に渡されると
ともに、ベイジアンネットワーク記憶部104に保持される。
単語重要度記憶部105に保持する。
07に渡す。分類対象データは、カテゴリが未知の文書であるとする。
、文書ベクトルに変換し、事後確率計算部108に渡す。
に保持されているデータを参照し、分類対象データが属するカテゴリの事後確率を算出し
、当該事後確率が最大のカテゴリを算出する。
最大のカテゴリに対する単語重要度を、単語重要度記憶部105のデータから取得し、ユ
ーザにより設定されている閾値と比較することにより、事後確率が最大となったカテゴリ
に対する分類の妥当性をチェックする。
ズは、訓練データに基づき、ベイジアンネットワークおよび単語重要度を算出するフェー
ズである。分類フェーズは、分類対象データの属するカテゴリを推定するフェーズである
。
訓練データ入力部101に入力される訓練データは、カテゴリが付与された文書の集合で
ある。カテゴリとは例えば「報告書」、「申請書」、「会議資料」など文書の種別を示す
ものである。以下の説明において、カテゴリは「A」「B」「C」の3種類であるとして説明
する。
である。
応じて形態素解析を行い、この文書の単語を切り出す。たとえば、ここでは形態素解析を
実行しているが、意味解析や構文解析などの他の自然言語解析の処理を行っても構わない
ものとする。
更新される。
まれている。また、これとは別に、それぞれのカテゴリに属する文書数、および、それぞ
れの単語を含む文書数が収められている。なお、文書数の代わりに、単語の出現頻度を用
いてもよい。あるいは、単語の出現頻度の代わりに文書毎に単語の出現頻度と文書のサイ
ズの比率を用いてもよい。
のそれぞれを含む文書の数、3つのカテゴリのそれぞれに属する文書の数、および、単語W
aから単語Wmまでのそれぞれを含む文書の数を示している。
数は10、単語Waを含む文書の数は30である。
出する。単語重要度は、P(t,c)Log{P(t,c)/P(t)P(c)}で表す
ものとする。ここで、P(t,c)=(カテゴリcに属し、単語tを含む文書数)/全文
書数、P(t)=単語tを含む文書数/全文書数、P(c)=カテゴリcに属する文書数
/全文書数である。なお、P(t,c)=0の場合は、単語重要度は0とする。
、P(a)=30/30=1、P(A)=10/30=1/3なので、1/3×log(1/3/1×3)=0となる。
P(A)=1/3なので、1/3×log(1/3×3×3)=0.3662となる。
定義された単語重要度の代わりに、公知文献(Fabrizio Sebastiani, Machine Learning
in Automated Text Categorization, ACM Computing Surveys, Vol.34, No. 1, March 20
02, pp.1-47)に述べられているχ2乗値やその他のカテゴリ毎の単語の重要度を意味する
量を用いてもよい。
。以上が学習フェーズにおける、本発明の本実施形態にかかる文書処理装置の動作である
。
次に、分類フェーズにおける、本実施形態の文書処理装置の動作を説明する。
出部107に渡す。
タを単語に切り分け、出現する単語の頻度を算出し、事後確率算出部108に渡す。たと
えば、ここでは形態素解析を実行しているが、意味解析や構文解析などの他の自然言語解
析の処理を行っても構わないものとする。
いし、分類対象データに含まれている単語を1、含まれていない単語を0とした2値データ
のベクトルとしてもよい。
憶部104のデータを参照し、カテゴリ毎の事後確率を計算する。文書ベクトルの算出お
よびカテゴリ毎の事後確率の算出には、ベイジアンネットワークに関する公知の手法を用
いることができる。
ク部109に渡す。
、単語重要度の高い単語とその単語重要度の値を取り出す。この実施例では、単語重要度
の値が正の単語を取り出すとしているが、ユーザにより設定された閾値より大きい単語を
取り出すとしてもよいし、全ての単語を取り出すとしてもよい。
と単語重要度の一例を示す。
れているかどうかを調べる。
場合、図7で示された単語と共通するのは、WhとWkである。この結果を図9に示す。このう
ち、単語重要度の値が一番大きいのはWkでその値は、0.13879であり、2番目に大きいのは
Whであり、その値は0.0115である。
小さい場合に、分類対象データのカテゴリを、事後確率算出部108で算出されたカテゴ
リではなく、未定義カテゴリに属すると推測する。本実施例では、閾値を0.15としている
ので、分類対象データのカテゴリはBではなく「未定義カテゴリ」とされる。もし、閾値
が0.1の場合は、「未定義カテゴリ」ではなく、事後確率が最大のカテゴリであるBとされ
る。
番大きい単語の単語重要度の値と比較したが、2番目に単語重要度の値が大きい単語と比
較するとしてもよい。この場合、閾値が0.1とすると、「未定義カテゴリ」となる。
かを判定するので、訓練データを作成する際に把握できていなかったカテゴリに属する文
書が分類対象データとして入力された場合でも、「未定義カテゴリ」として、適切に分類
することができる。
訓練データに含まれている単語の頻度から、容易に計算できるので、学習フェーズにおけ
る計算量も、通常のベイジアンネットワークを利用した文書分類と大差なく、効率的に文
書分類が実行できる。
象の文書が、訓練データに付与されていないカテゴリに属していた場合にも、正しく分類
できるので、訓練データを作成する際に、全てのカテゴリを網羅する必要がなく、精度の
高い文書分類が効率的にできる。また、時間の経過により、既存のカテゴリに属さない文
書ができてきた場合にも、精度の高い分類ができる。
ムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光
ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの
記憶媒体に格納して頒布することもできる。
な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
ュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト
、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処
理の一部を実行しても良い。
ンターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記
憶媒体も含まれる。
場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の
装置がネットワーク接続されたシステム等の何れの構成であっても良い。
算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能
な機器、装置を総称している。
要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示さ
れている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形
態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態
に亘る構成要素を適宜組合せてもよい。
…単語重要度算出部,104…ベイジアンネットワーク記憶部,105…単語重要度記憶
部,106…分類対象データ入力部,107…文書ベクトル算出部,108…事後確率算
出部、109…単語重要度チェック部,110…分類結果出力部。
Claims (2)
- あらかじめカテゴリが付与されている複数の文書データを取得する文書データ取得手段と、
この文書データ取得手段により取得した文書データに基づいて、ベイジアンネットワークを構成するベイジアンネットワーク構成手段と、
前記文書データ取得手段により取得した文書データに基づいてカテゴリ毎の単語重要度を算出する算出手段と、
分類対象の文書を取得する分類対象データ取得手段と、
この分類対象データ取得手段により取得した文書データを前記ベイジアンネットワークにより分類する分類手段と、
前記分類対象データ取得手段により取得した文書に含まれている単語を取得する単語取得手段と、
前記ベイジアンネットワークにより分類されたカテゴリにおける、前記算出された単語重要度に基づき得られる、前記含まれている単語に対する単語重要度の値に基づいて、前記ベイジアンネットワークにより分類されたカテゴリに属するか否かを判断する判断手段とを
備えたことを特徴とする文書分類装置。 - コンピュータに、
あらかじめカテゴリが付与されている複数の文書データを取得する文書データ取得機能と、
この文書データ取得機能により取得した文書データに基づいてベイジアンネットワークを構成するベイジアンネットワーク構成機能と、
前記文書データ取得機能により取得した文書データに基づいてカテゴリ毎の単語重要度を算出する算出機能と、
分類対象の文書を取得する分類対象データ取得機能と、
この分類対象データ取得機能により取得した文書データを前記ベイジアンネットワークにより分類する分類機能と、
前記分類対象データ取得機能により取得した文書に含まれている単語を取得する単語取得機能と、
前記ベイジアンネットワークにより分類されたカテゴリにおける、前記算出された単語重要度に基づき得られる、前記含まれている単語に対する単語重要度の値に基づいて、前記ベイジアンネットワークにより分類されたカテゴリに属するか否かを判断する判断機能とを
実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007268288A JP5075566B2 (ja) | 2007-10-15 | 2007-10-15 | 文書分類装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007268288A JP5075566B2 (ja) | 2007-10-15 | 2007-10-15 | 文書分類装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009098810A JP2009098810A (ja) | 2009-05-07 |
JP5075566B2 true JP5075566B2 (ja) | 2012-11-21 |
Family
ID=40701775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007268288A Expired - Fee Related JP5075566B2 (ja) | 2007-10-15 | 2007-10-15 | 文書分類装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5075566B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5305241B2 (ja) * | 2009-06-05 | 2013-10-02 | 株式会社リコー | 分類パラメータ生成装置、生成方法及び生成プログラム |
JP6040138B2 (ja) * | 2013-10-17 | 2016-12-07 | 日本電信電話株式会社 | 文書分類装置、文書分類方法および文書分類プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113350A (ja) * | 1997-06-12 | 1999-01-06 | Fujitsu Ltd | ベイズ分類規則生成方法及び装置並びにプログラム記憶媒体 |
JP2002222083A (ja) * | 2001-01-29 | 2002-08-09 | Fujitsu Ltd | 事例蓄積装置および方法 |
JP4088167B2 (ja) * | 2003-02-03 | 2008-05-21 | 株式会社東芝 | テキスト分類ルール作成装置 |
JP4170296B2 (ja) * | 2003-03-19 | 2008-10-22 | 富士通株式会社 | 事例分類装置および方法 |
JP2005158010A (ja) * | 2003-10-31 | 2005-06-16 | Hewlett-Packard Development Co Lp | 分類評価装置・方法及びプログラム |
JP4346531B2 (ja) * | 2004-09-17 | 2009-10-21 | 株式会社東芝 | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム |
JP2006293767A (ja) * | 2005-04-12 | 2006-10-26 | Nomura Research Institute Ltd | 文章分類装置、文章分類方法および分類辞書作成装置 |
-
2007
- 2007-10-15 JP JP2007268288A patent/JP5075566B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009098810A (ja) | 2009-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296307B2 (en) | Method and system for template extraction based on source code similarity | |
EP1090275B1 (en) | A computer system and process for explaining behaviour of a model that maps input data to output data | |
Sariyar et al. | The RecordLinkage package: detecting errors in data. | |
US10915820B2 (en) | Generating data associated with underrepresented data based on a received data input | |
CN113449099B (zh) | 文本分类方法和文本分类设备 | |
US11256712B2 (en) | Rapid design, development, and reuse of blockchain environment and smart contracts | |
US20190130030A1 (en) | Generation method, generation device, and recording medium | |
US11727704B2 (en) | Systems and methods for processing a table of information in a document | |
KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
US20190026650A1 (en) | Bootstrapping multiple varieties of ground truth for a cognitive system | |
KR102088357B1 (ko) | 기계독해기반 질의응답방법 및 기기 | |
US20160132809A1 (en) | Identifying and amalgamating conditional actions in business processes | |
JP2021060800A (ja) | データ抽出方法、及びデータ抽出装置 | |
JP5075566B2 (ja) | 文書分類装置およびプログラム | |
US9286036B2 (en) | Computer-readable recording medium storing program for managing scripts, script management device, and script management method | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
JP2020038514A (ja) | 学習データ生成装置、学習データ生成方法、及びプログラム | |
CN111737371B (zh) | 可动态预测的数据流量检测分类方法及装置 | |
CN113420127A (zh) | 威胁情报处理方法、装置、计算设备及存储介质 | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
US20230281275A1 (en) | Identification method and information processing device | |
US11841897B2 (en) | Identifying content items in response to a text-based request | |
US20230237150A1 (en) | Structured data flow identification for proactive issue detection | |
CN116502140B (zh) | 一种基于控制流图相似性的加密算法识别方法及装置 | |
CN112767022B (zh) | 移动应用功能演化趋势预测方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100315 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111128 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120827 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150831 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |