JP5398811B2 - 文書分類装置及び方法及びプログラム - Google Patents
文書分類装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5398811B2 JP5398811B2 JP2011254230A JP2011254230A JP5398811B2 JP 5398811 B2 JP5398811 B2 JP 5398811B2 JP 2011254230 A JP2011254230 A JP 2011254230A JP 2011254230 A JP2011254230 A JP 2011254230A JP 5398811 B2 JP5398811 B2 JP 5398811B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- probability
- class
- document
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記入力文書を単語の集合に分割する単語分割手段と、
前記入力文書が属するクラスを基に、指数加重移動平均により各クラスの出現確率を示す事前確率を求めるクラス事前確率推定手段と、
前記各クラスの事前確率に基づいて、前記入力文書に含まれる各単語の出現に関する単語出現情報を記憶する単語出現情報記憶手段と、
前記入力文書に含まれる各単語の各クラスにおける長期的な出現確率である単語長期出現確率を求める単語長期出現確率推定手段と、
前記単語出現情報記憶手段の前記単語出現情報を用いて前記入力文書に含まれる各単語の各クラスにおける短期的な出現確率である単語短期出現確率を求める単語短期出現確率推定手段と、
前記入力文書に含まれる各単語について、該単語の前記単語長期出現確率と前記単語短期出現確率を基に、該単語がトレンド単語であるか否かを判定するトレンド単語判定手段と、
前記トレンド単語判定手段の判定結果に基づいて、前記入力文書が各クラスに属する確率である事後確率を計算するクラス事後確率推定手段と、
前記入力文書を1つ以上のクラスに分類する文書分類手段と、を有する。
前記入力文書に含まれる各単語について、各クラスにおける該単語の出現率に関する指数加重移動平均を前記単語短期出現確率とする。
前記入力文書に含まれる各単語について、該単語の前記単語短期出現確率が、前記単語長期出現確率よりも統計的有意に大きいときに、該単語をトレンド単語と判定する。
前記入力文書に含まれる各単語について、該単語が前記トレンド単語である場合は前記単語短期出現確率を利用し、該単語が前記トレンド単語でない場合は前記単語長期出現確率を利用する。
2 クラス事前確率推定部
3 単語出現情報記憶部
4 単語長期出現確率推定部
5 単語短期出現確率推定部
6 トレンド単語判定部
7 クラス事後確率推定部
8 文書分類部
Claims (9)
- 連続的に与えられる入力文書を1つ以上のクラスに分類する文書分類装置であって、
前記入力文書を単語の集合に分割する単語分割手段と、
前記入力文書が属するクラスを基に、指数加重移動平均により各クラスの重要度を示す事前確率を求めるクラス事前確率推定手段と、
前記各クラスの事前確率に基づいて、前記入力文書に含まれる各単語の出現に関する単語出現情報を記憶する単語出現情報記憶手段と、
前記入力文書に含まれる各単語の各クラスにおける長期的な出現確率である単語長期出現確率を求める単語長期出現確率推定手段と、
前記単語出現情報記憶手段の前記単語出現情報を用いて前記入力文書に含まれる各単語の各クラスにおける短期的な出現確率である単語短期出現確率を求める単語短期出現確率推定手段と、
前記入力文書に含まれる各単語について、該単語の前記単語長期出現確率と前記単語短期出現確率を基に、該単語がトレンド単語であるか否かを判定するトレンド単語判定手段と、
前記トレンド単語判定手段の判定結果に基づいて、前記入力文書が各クラスに属する確率である事後確率を計算するクラス事後確率推定手段と、
前記入力文書を1つ以上のクラスに分類する文書分類手段と、
を有することを特徴とする文書分類装置。 - 前記単語短期出現確率推定手段は、
前記入力文書に含まれる各単語について、各クラスにおける該単語の出現率に関する指数加重移動平均を前記単語短期出現確率とする、
請求項1記載の文書分類装置。 - 前記トレンド単語判定手段は、
前記入力文書に含まれる各単語について、該単語の前記単語短期出現確率が、前記単語長期出現確率よりも統計的有意に大きいときに、該単語をトレンド単語と判定する、
請求項1記載の文書分類装置。 - 前記クラス事後確率推定手段は、
前記入力文書に含まれる各単語について、該単語が前記トレンド単語である場合は前記単語短期出現確率を利用し、該単語が前記トレンド単語でない場合は前記単語長期出現確率を利用する、
請求項1記載の文書分類装置。 - 連続的に与えられる入力文書を1つ以上のクラスに分類する文書分類方法であって、
単語分割手段が、前記入力文書を単語の集合に分割する単語分割ステップと、
事前確率推定手段が、前記入力文書が属するクラスを基に、指数加重移動平均により各クラスの出現確率を示す事前確率を求めるクラス事前確率推定ステップと、
単語出現情報格納手段が、前記各クラスの事前確率に基づいて、前記入力文書に含まれる各単語の出現に関する単語出現情報を単語出現情報記憶手段に記憶する単語出現情報格納ステップと、
単語長期出現確率推定手段が、前記入力文書に含まれる各単語の各クラスにおける長期的な出現確率である単語長期出現確率を求める単語長期出現確率推定ステップと、
単語短期出現確率推定手段が、前記単語出現情報記憶手段の前記単語出現情報を用いて前記入力文書に含まれる各単語の各クラスにおける短期的な出現確率である単語短期出現確率を求める単語短期出現確率推定ステップと、
トレンド単語判定手段が、前記入力文書に含まれる各単語について、該単語の前記単語長期出現確率と前記単語短期出現確率を基に、該単語がトレンド単語であるか否かを判定するトレンド単語判定ステップと、
クラス事後確率推定手段が、前記トレンド単語判定ステップの判定結果に基づいて、前記入力文書が各クラスに属する確率である事後確率を計算するクラス事後確率推定ステップと、
文書分類手段が、前記入力文書を1つ以上のクラスに分類する文書分類ステップと、
を有することを特徴とする文書分類方法。 - 前記単語短期出現確率推定ステップにおいて、
前記入力文書に含まれる各単語について、各クラスにおける該単語の出現率に関する指数加重移動平均を前記単語短期出現確率とする、
請求項5記載の文書分類方法。 - 前記トレンド単語判定ステップにおいて、
前記入力文書に含まれる各単語について、該単語の前記単語短期出現確率が、前記単語長期出現確率よりも統計的有意に大きいときに、該単語をトレンド単語と判定する、
請求項5記載の文書分類方法。 - 前記クラス事後確率推定ステップにおいて、
前記入力文書に含まれる各単語について、該単語が前記トレンド単語である場合は前記単語短期出現確率を利用し、該単語が前記トレンド単語でない場合は前記単語長期出現確率を利用する、
請求項5記載の文書分類方法。 - コンピュータを、
請求項1乃至4のいずれか1項に記載の文書分類装置の各手段として機能させるための文書分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011254230A JP5398811B2 (ja) | 2011-11-21 | 2011-11-21 | 文書分類装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011254230A JP5398811B2 (ja) | 2011-11-21 | 2011-11-21 | 文書分類装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109584A JP2013109584A (ja) | 2013-06-06 |
JP5398811B2 true JP5398811B2 (ja) | 2014-01-29 |
Family
ID=48706271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011254230A Active JP5398811B2 (ja) | 2011-11-21 | 2011-11-21 | 文書分類装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5398811B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5930229B2 (ja) | 2014-03-10 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 電子文書の内容の把握を支援する装置及び方法 |
WO2018089271A1 (en) * | 2016-11-10 | 2018-05-17 | Search Technology, Inc. | Technological emergence scoring and analysis platform |
CN110597991B (zh) * | 2019-09-10 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100522029B1 (ko) * | 2005-07-27 | 2005-10-18 | 엔에이치엔(주) | 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템 |
JP5325131B2 (ja) * | 2010-01-26 | 2013-10-23 | 日本電信電話株式会社 | パターン抽出装置、パターン抽出方法及びプログラム |
-
2011
- 2011-11-21 JP JP2011254230A patent/JP5398811B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013109584A (ja) | 2013-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112639843B (zh) | 使用机器学习模型来抑制偏差数据 | |
KR101159340B1 (ko) | 지수적 모델의 적응 | |
US20190258648A1 (en) | Generating asset level classifications using machine learning | |
WO2017140221A1 (zh) | 文本信息处理方法和装置 | |
JP5744228B2 (ja) | インターネットにおける有害情報の遮断方法と装置 | |
JP2019535047A (ja) | 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
US8051021B2 (en) | System and method for resource adaptive classification of data streams | |
CN111460153A (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
US10318540B1 (en) | Providing an explanation of a missing fact estimate | |
KR101935765B1 (ko) | 적응식 가중을 이용하는 상이한 문서―유사도 계산 방법들에 기초하여 문서들을 비교하기 위한 방법 및 시스템 | |
JP6292322B2 (ja) | インスタンス分類方法 | |
JPH10187754A (ja) | ドキュメント分類装置及び方法 | |
WO2015171875A1 (en) | Language model optimization for in-domain application | |
JP2020525872A (ja) | インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 | |
Abualigah et al. | Unsupervised text feature selection technique based on particle swarm optimization algorithm for improving the text clustering | |
WO2017075980A1 (zh) | 信息推送方法及装置 | |
US10262680B2 (en) | Variable sound decomposition masks | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
JP5398811B2 (ja) | 文書分類装置及び方法及びプログラム | |
JP2011113563A (ja) | ドキュメント使用クラスタリングによるユーザタスク表現を近似するための方法 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
Cocucci et al. | Model error covariance estimation in particle and ensemble Kalman filters using an online expectation–maximization algorithm | |
JP7276483B2 (ja) | 学習装置、分類装置、学習方法及び学習プログラム | |
JP2008102737A (ja) | 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 | |
CN106294490B (zh) | 数据样本的特征增强方法和装置及分类器训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130927 |
|
TRDD | Decision of grant or rejection written | ||
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5398811 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |