JP6267830B2 - 画像処理を応用した文書構造解析装置 - Google Patents
画像処理を応用した文書構造解析装置 Download PDFInfo
- Publication number
- JP6267830B2 JP6267830B2 JP2017510601A JP2017510601A JP6267830B2 JP 6267830 B2 JP6267830 B2 JP 6267830B2 JP 2017510601 A JP2017510601 A JP 2017510601A JP 2017510601 A JP2017510601 A JP 2017510601A JP 6267830 B2 JP6267830 B2 JP 6267830B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sample data
- sample
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011664 signaling Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005956 quaternization reaction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Description
110:サンプル/電子メール取得部
112:データ取得部
114:信号化部
120:サンプル記憶部
130:信号処理部
140:スパム格納部
NW:ネットワーク
Claims (9)
- 文字列等を表すコードを含むサンプルデータを取得する取得手段と、
取得されたサンプルデータの文字毎のコードをそれぞれn値化(nは、2以上の自然数)し、P行×Q列のデータフォーマットに変換する信号化手段と、
前記信号化手段によりn値化されたサンプルデータを記憶する記憶手段と、
文字列等を表すコードがn値化された入力データであって、当該入力データは前記信号化手段によりP行×Q列のデータフォーマットに変換されたものであり、前記入力データのP行×Q列のデータの各々と前記記憶手段に記憶されたn値化されたサンプルデータのP行×Q列のデータの各々とをそれぞれ演算処理により比較し、サンプルデータと入力データとの重複度合に基づき類似度を算出する算出手段と、
算出された類似度に基づき入力データの分類する分類手段とを有し、
前記取得手段は、前記サンプルデータか前記入力データかを判別する、文書構造解析装置。 - 前記信号化手段はさらに、文字列等を表すコードを2値化する前に、特徴的な表現を含む文字列を2値化以外のデータに変換し、前記特徴的な表現を含む文字列以外の文字列を2値化する、請求項1に記載の文書構造解析装置。
- 前記信号化手段は、取得されたサンプルデータをn次元化し、n次元化されたデータをn値化し、前記算出手段は、同一次元のn値化されたデータの類似度を算出し、各次元の類似度の合計を算出し、前記分類手段は、合計の類似度に基づき入力データの分類を行う、請求項1に記載の文書構造解析装置。
- 前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する、請求項1ないし3いずれか1つに記載の文書構造解析装置。
- 前記信号化手段は、文字等の属性に基づきサンプルデータをn次元化する、請求項1ないし3いずれか1つに記載の文書構造解析装置。
- 前記信号化手段は、文字の種類に基づきサンプルデータをn次元化に分割する、請求項1ないし3いずれか1つに記載の文書構造解析装置。
- 前記信号化手段は、文字の配列に基づきサンプルデータをn次元化に分割する、請求項1ないし3いずれか1つに記載の文書構造解析装置。
- 前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する、請求項1ないし7いずれか1つに記載の文書構造解析装置。
- 文書構造解析装置はさらに、前記記憶手段に記憶されたn値化されたサンプルデータをクラスタリングする手段を含み、前記クラスタリングする手段は、取得されたサンプルデータ間の類似度を算出し、算出された類似度を予め決められた閾値と比較することによりクラスタリングする、請求項1に記載の文書構造解析装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015234408 | 2015-12-01 | ||
JP2015234408 | 2015-12-01 | ||
PCT/JP2015/085603 WO2017094202A1 (ja) | 2015-12-01 | 2015-12-21 | 画像処理を応用した文書構造解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017094202A1 JPWO2017094202A1 (ja) | 2017-11-30 |
JP6267830B2 true JP6267830B2 (ja) | 2018-01-24 |
Family
ID=58796760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017510601A Active JP6267830B2 (ja) | 2015-12-01 | 2015-12-21 | 画像処理を応用した文書構造解析装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10163005B2 (ja) |
EP (1) | EP3385851A4 (ja) |
JP (1) | JP6267830B2 (ja) |
CN (1) | CN108369559B (ja) |
HK (1) | HK1252247A1 (ja) |
WO (1) | WO2017094202A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021044475A1 (ja) | 2019-09-02 | 2021-03-11 | アイマトリックスホールディングス株式会社 | 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11075930B1 (en) * | 2018-06-27 | 2021-07-27 | Fireeye, Inc. | System and method for detecting repetitive cybersecurity attacks constituting an email campaign |
US12073238B2 (en) * | 2022-12-29 | 2024-08-27 | United Parcel Service Of America, Inc. | Intelligent user interface and computer functionality for overfly and landing charge auditing |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5121828B2 (ja) | 1973-04-11 | 1976-07-05 | ||
JPS612583A (ja) * | 1984-05-12 | 1986-01-08 | Fujitsu Ltd | 日本語電子タイプライタのレイアウト表示方式 |
JP2002049632A (ja) * | 2000-08-03 | 2002-02-15 | Nec Corp | 要約システムとその要約方法、及び要約プログラムを記録した記録媒体 |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
JP4859054B2 (ja) * | 2007-02-20 | 2012-01-18 | 株式会社リコー | 画像処理装置、画像処理方法、プログラムおよび記録媒体 |
JP2008242543A (ja) | 2007-03-26 | 2008-10-09 | Canon Inc | 画像検索装置、画像検索装置の画像検索方法、及び画像検索装置の制御プログラム |
JP5121828B2 (ja) | 2007-07-04 | 2013-01-16 | アイマトリックス株式会社 | 電子メール処理装置、電子メール処理方法、電子メール処理プログラムおよび電子メール処理システム |
JP4953461B2 (ja) * | 2008-04-04 | 2012-06-13 | ヤフー株式会社 | スパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法 |
CN101594314B (zh) * | 2008-05-30 | 2012-12-26 | 电子科技大学 | 一种基于高阶自相关特征的垃圾邮件图像识别方法 |
CN101944091A (zh) * | 2009-07-07 | 2011-01-12 | 夏普株式会社 | 图像检索装置 |
JP2011090442A (ja) | 2009-10-21 | 2011-05-06 | Kddi Corp | 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム |
US8762302B1 (en) * | 2013-02-22 | 2014-06-24 | Bottlenose, Inc. | System and method for revealing correlations between data streams |
CN104636708A (zh) * | 2013-11-11 | 2015-05-20 | 方正国际软件(北京)有限公司 | 一种局部文档图像的比对方法及系统 |
US20150381533A1 (en) * | 2014-06-29 | 2015-12-31 | Avaya Inc. | System and Method for Email Management Through Detection and Analysis of Dynamically Variable Behavior and Activity Patterns |
US9565209B1 (en) * | 2015-03-31 | 2017-02-07 | Symantec Corporation | Detecting electronic messaging threats by using metric trees and similarity hashes |
US10374995B2 (en) * | 2015-06-30 | 2019-08-06 | Oath Inc. | Method and apparatus for predicting unwanted electronic messages for a user |
-
2015
- 2015-12-21 EP EP15909832.6A patent/EP3385851A4/en not_active Ceased
- 2015-12-21 WO PCT/JP2015/085603 patent/WO2017094202A1/ja active Application Filing
- 2015-12-21 CN CN201580084903.5A patent/CN108369559B/zh active Active
- 2015-12-21 JP JP2017510601A patent/JP6267830B2/ja active Active
-
2018
- 2018-06-01 US US15/996,180 patent/US10163005B2/en active Active
- 2018-09-06 HK HK18111486.8A patent/HK1252247A1/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021044475A1 (ja) | 2019-09-02 | 2021-03-11 | アイマトリックスホールディングス株式会社 | 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム |
Also Published As
Publication number | Publication date |
---|---|
EP3385851A1 (en) | 2018-10-10 |
US20180276459A1 (en) | 2018-09-27 |
CN108369559B (zh) | 2019-10-22 |
EP3385851A4 (en) | 2019-06-19 |
WO2017094202A1 (ja) | 2017-06-08 |
CN108369559A (zh) | 2018-08-03 |
HK1252247A1 (zh) | 2019-05-24 |
JPWO2017094202A1 (ja) | 2017-11-30 |
US10163005B2 (en) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8010614B1 (en) | Systems and methods for generating signatures for electronic communication classification | |
CN104067567B (zh) | 用于使用字符直方图进行垃圾邮件检测的系统和方法 | |
CN107291780B (zh) | 一种用户评论信息展示方法和装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN110245557B (zh) | 图片处理方法、装置、计算机设备及存储介质 | |
US20170289082A1 (en) | Method and device for identifying spam mail | |
CN103136266A (zh) | 邮件分类的方法及装置 | |
CN103795612A (zh) | 即时通讯中的垃圾和违法信息检测方法 | |
JP6267830B2 (ja) | 画像処理を応用した文書構造解析装置 | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
JP2006293573A (ja) | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム | |
Woitaszek et al. | Identifying junk electronic mail in Microsoft outlook with a support vector machine | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
KR102005420B1 (ko) | 전자메일 저자 분류 방법 및 장치 | |
JP4686724B2 (ja) | 迷惑メールのフィルタ機能を有する電子メールシステム | |
JP5324824B2 (ja) | ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム | |
Murugavel et al. | K-Nearest neighbor classification of E-Mail messages for spam detection | |
CN109983447B (zh) | 评价装置、评价方法、评价程序和评价系统 | |
JP6317715B2 (ja) | 画像認識装置、方法、及びプログラム | |
CN103778210A (zh) | 一种待分析文件的文件具体类型的判断方法及装置 | |
CN108182191B (zh) | 一种热点数据处理方法及其设备 | |
Zamel et al. | Analysis study of spam image-based emails filtering techniques | |
CN117221001A (zh) | 一种基于多特征融合的邮件分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171128 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20171204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6267830 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |