JP4714117B2 - 企業名抽出方法およびプログラム - Google Patents
企業名抽出方法およびプログラム Download PDFInfo
- Publication number
- JP4714117B2 JP4714117B2 JP2006247991A JP2006247991A JP4714117B2 JP 4714117 B2 JP4714117 B2 JP 4714117B2 JP 2006247991 A JP2006247991 A JP 2006247991A JP 2006247991 A JP2006247991 A JP 2006247991A JP 4714117 B2 JP4714117 B2 JP 4714117B2
- Authority
- JP
- Japan
- Prior art keywords
- company name
- web page
- company
- name
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
柴田賢介、荒金陽助、塩野入理、金井敦、"電子メールからの接続先企業検出によるフィッシング詐欺対策の提案"、情報処理学会研究報告、2006、3月16日公開、No.26,pp7−12
(1)企業名を表す文字列をページ中に使用せず、企業のロゴ画像を多用することにより、テキストマッチングによる企業名の検索を不可能にする。
(2)Javascriptを用いてエンコードした文字列をHTMLのソースとして記述することにより、HTMLのソース中に現れる企業名を隠蔽する。
(3)背景と同系のフォントカラーを用いた文字や、極めて小さいフォントサイズの文字を使ってWebサイトの内容と無関係の文字列を利用者に見えにくい状態でサイト内に含めることにより、テキストマッチングによる企業名の検索を攪乱する。
(4)企業名を表す文字列の文字と文字の間に空白文字を挿入することにより、文字列単位での企業名の検索を不可能にする。
(5)利用者に個人情報を入力させるフォームを含むフィッシングサイトを正当な企業のWebサイト上にポップアップとして表示し、ポップアップ画面自体には企業名を含まない。
[1]得点が閾値を超えて利用者に提示される企業名を可能な限り絞り込み、利用者が選択する際の選択肢の数を減らす。ただし、Webページを騙る企業名が選択肢から漏れないこととする。
[2]Webページを騙る企業が最も高い得点を獲得し、利用者に対して最上位に表示されることとする。
A)企業の呼称をリスト化したものを事前に用意しておき、WebページのHTMLソースと該リストに含まれる企業名とを比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
B)上記の企業名リストに含まれる企業名と、Webブラウザに表示されているテキスト情報を比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
C)企業において利用されているロゴ画像、企業名を表す画像等を事前に用意しておき、Webページ中の画像と上記の画像の類似度を計算し、類似度が高い画像を使用しているWebページに対し、得点を付与する。フィッシングサイトには正当な企業のロゴを流用するという特徴があるため、画像の類似度検索によって企業名の抽出が可能となる。また、手口(1)において示した攻撃手法への対策が可能となる。
D)WebページのHTMLソースに対し、Javascriptによってエンコードされている文字列をデコードし、可読な形式に復元した後にA)の処理を行なう。これにより、手口(2)において示した攻撃手法への対策が可能となる。
E)WebページのHTMLソースに対し、HTMLのタグ情報を考慮し、強調されていると推測される企業名に得点を付与する。考慮するタグ情報の例としては、以下が挙げられる
○ 他と異なるフォントカラーを使用している
○ 他より大きいフォントサイズを使用している
○ 他と異なるフォントを使用している
○ titleタグ等の強調を目的とするタグによって囲まれている
逆に、以下の条件に該当する企業名については、得点を付与しない
○ 背景色と同系のフォントカラーを使用している
○ 他より極めて小さいフォントサイズを使用している
上記の処理は、HTMLにおいてレイアウト情報を記述するために使用されるスタイルシートについても考慮する。上記の処理により、手口(3)において示した攻撃手法への対策が可能となる。
F)Webブラウザに表示されているテキスト情報の中の改行、スペース等の空白文字を削除した文字列に対し、B)の処理を行う。これにより、手口(4)において示した攻撃手法への対策が可能となる。
G)Webブラウザに表示されているテキスト情報の中に含まれる企業名が特定の位置にある場合に、得点を付与する。特定の位置とは、例えばテキスト情報の先頭、末尾部分、事前に用意されたキーワード(例:Copyright、編集、Subject、From)の前後等が挙げられる。
H)過去に利用者が閲覧したWebページにおいて既に抽出されている企業名に得点を付与する。これにより、手口(5)において、利用者が現在アクセスしているWebページに企業名が含まれない場合に、過去の閲覧履歴数ページ分において抽出した企業名を利用して企業名を抽出することが可能となる。
I)上記A)〜H)のルールによって抽出された企業名に対し、ルール毎に重みを付与した上で、企業名毎に総得点を計算し、閾値と比較して利用者に提示する企業名を絞り込む。
(1)最終的に利用者が選択する企業名(Webページを騙る企業名)が抜けることなく候補として抽出されていること
(2)利用者が選択を行なう際に多くの選択肢が表示されることによって混乱を招くことがないように、確からしい候補のみで選択肢を構成すること
(3)利用者が選択を行なう際に容易に選択することができるように、最終的に利用者が選択すると推測される企業名を順位付けによって先頭に表示すること
といった点が守られるように、複数のルールを用いて企業名に得点付けを行ない、閾値との比較とソートによって選択肢の絞込みと順位付けを行なう。これにより、利用者がアクセスするフィッシングサイトが騙る企業名を抽出することが可能となり、当該サイトがどの企業を騙っているのかを特定した上で、当該企業に対応するホワイトリストを用いたURLの正当性検証が可能となる。検証に失敗した場合には、「検証対象のURLは当該企業の正当なURLとして適切ではなく、フィッシングサイトである」と判定することが可能となり、利用者に対して適切な警告を行なうことができる。
2 企業名抽出部
3 企業データ格納部
4 キーワード格納部
5 閲覧履歴格納部
6 得点格納部
21 HTMLソース取得部
22 デコード処理部
23 HTML解析部
23A タグ情報解析部
23B スタイルシート解析部
23C フォント解析部
23D 画像解析部
24 表示テキスト取得部
25 空白文字処理部
26 企業名カウント処理部
27 表示テキスト解析部
28 得点処理部
31 企業名格納部
32 企業ロゴ格納部
101〜103、201〜210、301〜307、401〜409 ステップ
Claims (7)
- 企業名抽出装置において行われる企業名抽出方法であって、
企業名カウンント処理手段が、WebページのHTMLソースと、企業名格納部に格納されている企業名とを比較することにより、該Webページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Webページを騙る企業名の候補として抽出し、
前記企業名カウンント処理手段が、表示部に表示されるWebページのテキスト情報と、前記企業名格納部に格納されている企業名とを比較することにより、該Webページにおける当該企業名の出現回数をカウントし、前記企業名候補抽出処理手段が、その出現回数に応じて当該Webページを騙る企業名の候補として抽出し、
得点処理手段が、前記Webページについて、抽出された企業名に対し、前記企業名の候補の抽出方法毎に事前に与えられた重みを付与した上で、当該Webページを騙る企業名となる度合いを算出し、その度合いに応じて利用者に対して企業名候補として提示するものであり、
前記WebページのHTMLソースと前記企業名格納部に格納されている企業名との比較による、前記企業名の候補の抽出方法は、
タグ情報解析手段が、WebページのHTMLソース中に含まれるタグ情報を解析し、前記企業名候補抽出処理手段が、該解析結果により、Webページの作成者による企業名の強調、または、企業名の表示に背景色と同系のフォントカラーを使用もしくは他よりも小さいフォントサイズを使用することによる企業名の隠蔽を認識すると、強調されている企業名を、当該Webページを騙る企業名の候補として抽出し、また、隠蔽されている企業名を候補から除外する方法と、
画像比較処理手段が、Webページに含まれる画像と、企業ロゴ格納部に格納されている企業を特徴付ける画像とを比較することにより、該Webページと当該企業の正当なWebページとの類似度を算出し、前記企業名候補抽出処理手段が、その類似度に応じて当該Webページを騙る企業名の候補として、当該画像に紐付く企業名を抽出する方法とを含む、企業名抽出方法。 - 前記企業名候補抽出処理手段は、WebページのHTMLソース中にエンコードされた文字列がある場合に、これをデコードした上で企業名抽出を行なう、請求項1に記載の企業名抽出方法。
- 表示テキスト解析手段が、表示部に表示されるWebページのテキスト情報を解析し、企業名候補抽出処理手段が、企業名が出現する位置に応じて、当該企業名が強調される位置に存在する場合には、これを当該Webページを騙る企業名の候補として抽出する、請求項1に記載の企業名抽出方法。
- 前記企業名候補抽出処理手段は、表示部に表示されるWebページのテキスト情報に対し、空白文字処理手段が、テキスト中に含まれる空白文字をすべて削除した文字列に対して企業名抽出を行なう、請求項1または3に記載の企業名抽出方法。
- 前記企業名候補抽出処理手段は、利用者が過去に閲覧したWebページにおいて企業名抽出を行ない、抽出された企業名を保存しておき、利用者が現在閲覧しているWebページに対する企業名抽出を行なう際に、保存された企業名を利用する、請求項1から4のいずれかに記載の企業名抽出方法。
- 前記得点処理手段は、
前記WebページのHTMLソースと前記企業名格納部に格納されている企業名との比較によって抽出された前記企業名の候補とその出現回数を含む第1の情報と、前記表示部に表示されるWebページのテキスト情報と前記企業名格納部に格納されている企業名との比較によって抽出された前記企業名の候補とその出現回数を含む第2の情報とを参照し、
閲覧履歴格納部に格納されている過去のWebページにおいて抽出された企業名のそれぞれについて、前記第1の情報に含まれる前記企業名の候補と一致すれば、該第1の情報の出現回数に応じた点を該企業名に付与し、前記第2の情報に含まれる前記企業名の候補と一致すれば、該第2の情報の出現回数に応じた点を該企業名に付与し、前記企業名の候補の抽出方法毎に事前に与えられた点の情報を参照し、該企業名の抽出方法に応じた点を該企業名に付与して総得点を算出し、
算出した総得点が予め決められた閾値を超えた企業名に対し、総得点の降順でソートを行ない、ソートした結果を、前記Webページを騙る企業名候補として提示する、請求項1から5のいずれか1項記載の企業名抽出方法。 - 請求項1から6のいずれかに記載の企業名抽出方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247991A JP4714117B2 (ja) | 2006-09-13 | 2006-09-13 | 企業名抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247991A JP4714117B2 (ja) | 2006-09-13 | 2006-09-13 | 企業名抽出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008071040A JP2008071040A (ja) | 2008-03-27 |
JP4714117B2 true JP4714117B2 (ja) | 2011-06-29 |
Family
ID=39292579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006247991A Expired - Fee Related JP4714117B2 (ja) | 2006-09-13 | 2006-09-13 | 企業名抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4714117B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5736343B2 (ja) * | 2012-05-31 | 2015-06-17 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置及びロゴ画像取得システム |
JP5753302B1 (ja) * | 2014-08-25 | 2015-07-22 | 株式会社 ディー・エヌ・エー | ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム |
JP5957568B2 (ja) * | 2015-04-08 | 2016-07-27 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
-
2006
- 2006-09-13 JP JP2006247991A patent/JP4714117B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008071040A (ja) | 2008-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11042630B2 (en) | Dynamic page similarity measurement | |
CN101504673B (zh) | 一种识别疑似仿冒网站的方法与系统 | |
Dunlop et al. | Goldphish: Using images for content-based phishing analysis | |
US8355997B2 (en) | Method and system for developing a classification tool | |
US8695100B1 (en) | Systems and methods for electronic fraud prevention | |
US8385589B2 (en) | Web-based content detection in images, extraction and recognition | |
US20090043767A1 (en) | Approach For Application-Specific Duplicate Detection | |
US8886661B2 (en) | Information extraction system, information extraction method, information extraction program, and information service system | |
KR101574277B1 (ko) | 저장된 쿼리 정보를 이용한 컨텐츠 제공 | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
CN108566399A (zh) | 钓鱼网站识别方法及系统 | |
US20080294643A1 (en) | Method of generating information related to a web page | |
JP5989170B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
KR100856916B1 (ko) | 관심사를 반영하여 추출한 정보 제공 방법 및 시스템 | |
JP2012088803A (ja) | 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム | |
CN108694325B (zh) | 指定类型网站的辨别方法和指定类型网站的辨别装置 | |
JP4714117B2 (ja) | 企業名抽出方法およびプログラム | |
WO2015118616A1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
CN114357335A (zh) | 信息获取方法、介质、装置和计算设备 | |
US20150339786A1 (en) | Forensic system, forensic method, and forensic program | |
JP4617243B2 (ja) | 情報発信元検証方法および装置 | |
CN113742785A (zh) | 一种网页分类方法、装置、电子设备及存储介质 | |
CN103729354A (zh) | 网页信息处理方法及装置 | |
Hosseini et al. | A Bilingual Longitudinal Analysis of Privacy Policies Measuring the Impacts of the GDPR and the CCPA/CPRA | |
CN113992390A (zh) | 一种钓鱼网站的检测方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110325 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |