JP5694989B2 - 文書分類装置及びプログラム - Google Patents
文書分類装置及びプログラム Download PDFInfo
- Publication number
- JP5694989B2 JP5694989B2 JP2012106682A JP2012106682A JP5694989B2 JP 5694989 B2 JP5694989 B2 JP 5694989B2 JP 2012106682 A JP2012106682 A JP 2012106682A JP 2012106682 A JP2012106682 A JP 2012106682A JP 5694989 B2 JP5694989 B2 JP 5694989B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- similar
- author
- documents
- authors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 description 25
- 239000000284 extract Substances 0.000 description 6
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 5
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
12 類似文書群検出部
14 ブラックリスト判定部
16 仕分け判定部
Claims (2)
- 著者を示す著者情報及び文書掲載に関するサービスを示すサービス情報を有するウェブ上に掲載された複数の文書の各々から抽出した単語に基づいて、各文書の特徴値を算出し、前記抽出した単語の数及び前記特徴値が共通する複数の文書を類似文書群として検出する類似文書群検出手段と、
前記類似文書群検出手段により検出された類似文書群に含まれる各文書が有する著者情報のうち、類似した文書を複数掲載した履歴を有する著者を示す情報として登録された対象著者情報に一致する著者情報の数が所定数以上の場合に、前記類似文書群に含まれる各文書を分析対象用文書から除外する著者判定手段と、
前記著者判定手段により前記分析対象用文書から除外されなかった類似文書群について、前記抽出された単語の数、該類似文書群に含まれる文書の数、著者の数、及びサービスの数の少なくとも1つに基づいて、該類似文書群に含まれる各文書を分析対象用文書とするか否かを判定する分析対象判定手段と、
を含む文書分類装置。 - コンピュータを、請求項1記載の文書分類装置を構成する各手段として機能させるための文書分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012106682A JP5694989B2 (ja) | 2012-05-08 | 2012-05-08 | 文書分類装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012106682A JP5694989B2 (ja) | 2012-05-08 | 2012-05-08 | 文書分類装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013235369A JP2013235369A (ja) | 2013-11-21 |
JP5694989B2 true JP5694989B2 (ja) | 2015-04-01 |
Family
ID=49761457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012106682A Expired - Fee Related JP5694989B2 (ja) | 2012-05-08 | 2012-05-08 | 文書分類装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5694989B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6561529B2 (ja) * | 2015-03-26 | 2019-08-21 | 富士通株式会社 | 文書検査装置、方法、及びプログラム |
JP6965773B2 (ja) | 2018-02-02 | 2021-11-10 | 日本電信電話株式会社 | 提示装置、提示方法および提示プログラム |
-
2012
- 2012-05-08 JP JP2012106682A patent/JP5694989B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013235369A (ja) | 2013-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Davidson et al. | Racial bias in hate speech and abusive language detection datasets | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
Seo et al. | Local text reuse detection | |
CN105224518B (zh) | 文本相似度的计算方法及系统、相似文本的查找方法及系统 | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
Yoshinaga et al. | A self-adaptive classifier for efficient text-stream processing | |
CN109918621B (zh) | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 | |
Shapira et al. | Content-based data leakage detection using extended fingerprinting | |
CN109933648B (zh) | 一种真实用户评论的区分方法和区分装置 | |
Karkali et al. | Using temporal IDF for efficient novelty detection in text streams | |
CN103218388B (zh) | 文档相似性评价系统、文档相似性评价方法以及计算机程序 | |
Jaman et al. | Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine | |
Li et al. | A reversible database watermarking method non-redundancy shifting-based histogram gaps | |
Samonte | Polarity analysis of editorial articles towards fake news detection | |
JP5694989B2 (ja) | 文書分類装置及びプログラム | |
CN112818206A (zh) | 一种数据分类方法、装置、终端及存储介质 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN111488452A (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
Chen et al. | Aggressivity detection on social network comments | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
CN111563276B (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
CN109063117B (zh) | 一种基于特征抽取的网络安全博客分类方法及系统 | |
Aires et al. | An information theory approach to detect media bias in news websites | |
Santosh et al. | Exploiting Wikipedia Categorization for Predicting Age and Gender of Blog Authors. | |
CN109409127B (zh) | 网络数据安全策略的生成方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5694989 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |