JP6437892B2 - ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム - Google Patents

ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム Download PDF

Info

Publication number
JP6437892B2
JP6437892B2 JP2015139910A JP2015139910A JP6437892B2 JP 6437892 B2 JP6437892 B2 JP 6437892B2 JP 2015139910 A JP2015139910 A JP 2015139910A JP 2015139910 A JP2015139910 A JP 2015139910A JP 6437892 B2 JP6437892 B2 JP 6437892B2
Authority
JP
Japan
Prior art keywords
application
label
permission
text
applications
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015139910A
Other languages
English (en)
Other versions
JP2017021655A (ja
Inventor
満昭 秋山
満昭 秋山
毅 八木
毅 八木
森 達哉
達哉 森
卓弥 渡邉
卓弥 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015139910A priority Critical patent/JP6437892B2/ja
Priority to US15/574,199 priority patent/US10366236B2/en
Priority to EP16824330.1A priority patent/EP3293664B1/en
Priority to PCT/JP2016/069881 priority patent/WO2017010350A1/ja
Priority to CN201680039655.7A priority patent/CN107735792B/zh
Publication of JP2017021655A publication Critical patent/JP2017021655A/ja
Application granted granted Critical
Publication of JP6437892B2 publication Critical patent/JP6437892B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Virology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムに関する。
スマートフォン等のモバイル端末の普及に伴い、ユーザがモバイル端末上でダウンロードして利用できるアプリケーションが広く利用されるようになっている。Android(登録商標)やiOS(登録商標)等が搭載されたモバイル端末で動作するアプリケーションは、ユーザのプライバシー情報を処理することが多い。ユーザのプライバシー情報は、モバイル端末に内蔵されたセンサ等のハードウェアが取得するか、または、ユーザ自身がモバイル端末に入力する。プライバシー情報とはたとえば、ユーザの位置情報、モバイル端末の個体識別番号、アドレス帳などユーザ個人に紐付く情報である。
モバイル端末で動作するアプリケーションはプライバシー情報を処理する際、当該プライバシー情報を適切に取り扱うことが求められる。また、モバイル端末で動作するアプリケーションは、どのようなプライバシー情報にアクセスするか、ユーザに開示することが求められる。
かかる要求を実現するため、多くのモバイル端末プラットフォームが、パーミッションと呼ばれる機能を導入している。パーミッションとは、プライバシー情報へのアクセスを制御するために導入された機能である。
たとえば、位置情報を使用するアプリケーションは、当該アプリケーションがモバイル端末にインストールされるときに、ユーザに対して位置情報のパーミッションを使用する許可を求める。ユーザがパーミッションの使用を許可すると、当該アプリケーションがモバイル端末にインストールされる。ユーザがパーミッションの使用を許可しない場合、当該アプリケーションはモバイル端末にインストールされない。パーミッションを利用することにより、ユーザは、アプリケーションが使用する可能性があるプライバシー情報を予め知ることができる。
R. Pandita, X. Xiao, W. Yang, W. Enck, and T. Xie, "WHYPER: Towards Automating Risk Assessment of Mobile Applications", in Proc. of the 22nd USENIX Security Symposium, pp. 527-542, 2013 渡邉 卓弥、秋山 満昭、酒井 哲也、鷲崎 弘宜、森 達哉、「Androidアプリの説明文とプライバシー情報アクセスの相関分析」、コンピュータセキュリティシンポジウム2014論文集、vol. 2014, No. 2, pp. 590-597, Oct 2014
しかしながら、従来のパーミッションの機能によって提供される情報は、多くの場合ユーザに注意されない(非特許文献1,2参照)。また、パーミッション機能によって提供される情報は、専門的な知識がなければ理解しにくい。また、パーミッション機能によって提供される情報は、ユーザが直感的に把握しにくい。このため、ユーザが気づかないうちに、アプリケーションがプライバシー情報を取得してしまうことも考えられる。
かかる状況に鑑み、アプリケーションの説明文中にプライバシー情報にアクセスすることが記載されているか否かを自動判定する技術が提案されている。アプリケーションの説明文はあらゆるマーケットに設定されており、アプリケーションを検索する際の検索対象ともなる。たとえば、非特許文献1は、モバイル端末のアプリケーションの説明文のテキスト(以下、説明文テキストまたはテキストとも呼ぶ。)を解析して、テキスト中のどの部分がプライバシー情報へのアクセスに相当するか、特定する技術を提案している。また、非特許文献2は、テキスト解析とアプリケーションのコード解析とを組み合わせて、コード解析から示唆されるプライバシー情報へのアクセスと、テキスト中の記述とに矛盾がある場合に矛盾があるアプリケーションを抽出する技術を提案している。
しかし、非特許文献1,2に記載の技術における説明文の解析では、人間が予めアプリケーションの説明文テキストを読み、特定のプライバシー情報にアクセスする旨の記載があるかないかを解読する。そして、解読結果に基づき、アプリケーションにラベルを付与する。しかし、プライバシー情報は多岐にわたり、機械学習等の統計的方法でテキストの分類を試みる場合、大量のテキストを準備してラベルを付与することになる。一般的に、手動でデータにラベルを付与するという作業はコストがかかる。また、大規模なデータに対して手動でラベルを付与するという手法はスケーラビリティに欠ける。
開示の技術は、上記に鑑みてなされたものであって、アプリケーションのコードおよび説明文に基づき、アプリケーションによるユーザのプライバシー情報へのアクセスの有無がユーザに対して開示されているか否かを自動的に解析することを可能にするソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムを提供することを目的とする。
開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定する。そして、開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベルを付与する。開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、第2のラベルを付与されたアプリケーションの説明文のテキストよりも、第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、複数のアプリケーションの説明文から抽出する。さらに、開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、抽出した単語が説明文のテキストに含まれるアプリケーションをパーミッションに言及するアプリケーションとして分類し、抽出した単語が説明文のテキストに含まれないアプリケーションをパーミッションに言及しないアプリケーションとして分類することを特徴とする。
開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、アプリケーションのコードおよび説明文に基づき、アプリケーションによるユーザのプライバシー情報へのアクセスの有無がユーザに対して開示されているか否かを自動的に解析することを可能にするという効果を奏する。
図1は、実施形態に係るソフトウェア解析システムの構成の一例を示す概略図である。 図2は、アプリ情報記憶部に格納される情報の構成の一例を説明するための図である。 図3は、キーワードリスト記憶部に格納される情報の構成の一例を説明するための図である。 図4は、実施形態に係るソフトウェア解析システムが実行する処理の流れの一例を示すフローチャートである。 図5は、実施形態に係るラベル生成処理の流れの一例を示すフローチャートである。 図6は、実施形態に係るスコア算出処理(キーワード抽出処理)の流れの一例を示すフローチャートである。 図7は、実施形態に係る分類処理の流れの一例を示すフローチャートである。 図8は、実施形態に係るソフトウェア解析システムが実行する処理の流れの一例を説明するためのシーケンス図である。 図9は、変形例に係るソフトウェア解析システムの構成の一例を示す概略図である。 図10は、変形例に係るアプリ情報記憶部に格納される情報の構成の一例を示す図である。 図11は、変形例に係るソフトウェア解析システムが実行する処理の流れの一例を示すフローチャートである。 図12は、実施形態に係るソフトウェア解析プログラムを実行するコンピュータを示す図である。
以下に、開示するシステム、方法およびプログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、各実施形態は適宜組み合わせることができる。
[ソフトウェア解析システムの構成の一例]
図1は、実施形態に係るソフトウェア解析システム1の構成の一例を示す概略図である。図1に示すソフトウェア解析システム1は、たとえば、ユーザがモバイル端末にアプリケーションをダウンロードするためにアクセスするダウンロードサービスの運営者が運用する、アプリケーションの事前審査を行うサーバである。なお、以下の記載中、「アプリケーション」は「アプリ」とも呼ぶ。
ソフトウェア解析システム1は、記憶部10と、ラベル生成部20と、スコア算出部30と、分類部40と、を備える。
記憶部10はたとえば、半導体メモリ素子や記憶装置である。例えば、半導体メモリ素子としては、VRAM(Video Random Access Memory)、RAM(Random Access Memory)、ROM(Read Only Memory)やフラッシュメモリ(flash memory)などを用いることができる。また、記憶装置としては、ハードディスク、光ディスクなどの記憶装置を用いることができる。
記憶部10は、ソフトウェア解析システム1による解析処理の対象となるアプリケーションに関する情報を記憶する。また、記憶部10は、ソフトウェア解析システム1による解析処理の結果得られる情報を記憶する。
記憶部10は、アプリ情報記憶部11と、キーワードリスト記憶部12と、を備える。図2は、アプリ情報記憶部11に格納される情報の構成の一例を説明するための図である。また、図3は、キーワードリスト記憶部12に格納される情報の構成の一例を説明するための図である。
図2に示すように、アプリ情報記憶部11は、「アプリID」に対応付けて、「コード」と、「説明文テキスト」と、「プライバシー情報」と、「ラベル」と、「分類結果」と、を記憶する。
「アプリID」はソフトウェア解析システム1の解析処理の対象となるアプリケーションを一意に識別するための識別子である。「コード」は、当該アプリケーションのコードである。たとえば、アプリケーションのソースコードである。「説明文テキスト」は、当該アプリケーションの説明文のテキストである。「プライバシー情報」は、パーミッションによりアプリケーションのアクセスが許可されるユーザのプライバシー情報の種類を示す。プライバシー情報としては、たとえば、GPS(Global Positioning System)情報や、カレンダー情報、カメラ機能、アドレス帳等がある。
「ラベル」は、ソフトウェア解析システム1によるコード解析の結果にもとづき、ソフトウェア解析システム1が各アプリケーションに付与するラベルである。また、「ラベル」は、アプリケーションが所定のプライバシー情報にアクセスするか否かの判定結果を示す暫定的なラベルである。ラベルには、「言及あり」と「言及なし」の2種類がある。「言及あり」は、アプリケーションが所定のプライバシー情報にアクセスすることを示す情報がコード中に存在することを示す。また、「言及なし」は、アプリケーションが所定のプライバシー情報にアクセスすることを示す情報がコード中に存在しないことを示す。「分類結果」は、ソフトウェア解析システム1が、説明文テキストを解析して抽出したキーワードが、各アプリケーションの説明文テキストに含まれるか否かにもとづき、アプリケーションを分類した結果を示す。「分類結果」には、「言及あり」と「言及なし」の2種類がある。「言及あり」は、アプリケーションの説明文テキストにキーワードが含まれることを示す。「言及なし」は、アプリケーションの説明文テキストにキーワードが含まれないことを示す。「ラベル」および「分類結果」は、プライバシー情報各々に対応づけて格納される。なお、ラベルの生成処理および分類結果を得るための分類処理については後述する。なお、図2では、プライバシー情報とパーミッションとが一意に対応づけられることを前提として、ラベルおよび分類結果とプライバシー情報とを対応付けて記憶するが、プライバシー情報の代わりにパーミッションに対応づけて記憶するように構成してもよい。
図2中、たとえば、アプリID「AP001」のアプリケーションに対応づけて、当該アプリケーションの説明文テキスト「〜〜〜」と、対応するコード「〜〜〜」と、が記憶されている。また、当該アプリケーションに対応づけて、当該アプリケーションが3種類のプライバシー情報各々にアクセスするか否かを示すラベルと分類結果とが記憶されている。「プライバシー情報、カレンダー」については、「ラベル、言及あり」が記憶されている。これは、コード解析によれば、アプリID「AP001」のアプリケーションはユーザのカレンダーにアクセスする、ということを示す。また図2中、アプリID「AP001」に対応付けて「プライバシー情報、アドレス帳」、「分類結果、言及なし」が記憶されている。これは、アプリID「AP001」で特定されるアプリケーションの説明文テキストには、プライバシー情報「アドレス帳」に対応するキーワードが含まれないことを示す。
次に、図3を参照して、キーワードリスト記憶部12に記憶される情報について説明する。図3に示すように、キーワードリスト記憶部12は、「プライバシー情報」と、「機能(パーミッション)」と、「キーワード」と、を記憶する。「プライバシー情報」は、アプリ情報記憶部11に記憶される「プライバシー情報」と同様である。「機能(パーミッション)」は、対応するプライバシー情報へのアクセスを許可するパーミッションの名称である。パーミッションとはたとえばAndroid(登録商標)について規定されている「READ_CONTACTS」、「READ_CALENDER」などである。「キーワード」は、ソフトウェア解析システム1によりアプリケーションの説明文テキストから抽出されるキーワードである。キーワードを抽出する処理の詳細については後述する。
図3の例では、「プライバシー情報、GPS情報」に対応づけて、「機能(パーミッション)、Location」と、「キーワード、gps, location, map」とが記憶されている。これは、パーミッション「Location」の機能によってアクセスが許可されるプライバシー情報は、GPS情報であることを示す。また、パーミッション「Location」に対応するキーワードとして「gps, location, map」の3つの単語が抽出されたことを示す。なお、図3の例では、各プライバシー情報および機能(パーミッション)に対応づけて3つのキーワードが記憶されている。ただし、各プライバシー情報および機能(パーミッション)に対応づけられるキーワードの数は3つに限定されない。
図1に戻り、さらにソフトウェア解析システム1の構成の一例につき説明する。ラベル生成部20は、記憶部10に記憶されるアプリケーションの情報にもとづき、コード解析の結果、各アプリケーションがユーザのプライバシー情報にアクセスすると判定されたか否かを示すラベルを生成する。
スコア算出部30は、ラベル生成部20により生成されたラベルを用いて、アプリケーションの説明文テキストを解析し、説明文テキストに含まれる単語各々のスコアを算出する。スコア算出部30は、パーミッションごとに各単語のスコアを算出する。スコア算出部30は、ラベル「言及なし」のアプリケーションの説明文のテキストよりも、ラベル「言及あり」のアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるように、説明文テキストに含まれる単語各々のスコアを算出する。ただし、算出手法は特に限定されず、たとえば、オッズ比や適合性フィードバックを用いる手法を適用することができる。
また、スコア算出部30が算出するスコアの算出手法は、ラベル「言及あり」のアプリケーションの説明文テキストに頻出する単語であって、ラベル「言及なし」のアプリケーションの説明文テキストにはほとんど出現しない単語ほど高い値となるように設定する。つまり、ラベル「言及あり」のアプリケーションの説明文テキストにおける出現頻度が、ラベル「言及なし」のアプリケーションの説明文テキストにおける出現頻度よりも高い単語ほどスコアが高くなるよう、スコアの算出手法を設定する。また、スコアの算出手法は、API(Application Programming Interface)を使用するアプリケーションの説明文テキストに頻出する単語であって、APIを使用していないアプリケーションの説明文テキストにはほとんど出現しない単語ほど高い値となるように設定する。
スコア算出部30は、パーミッションに対応付けてスコアが高い順に上位所定数の単語を、パーミッションに対応するキーワードとして抽出する。キーワードとは、対応するプライバシー情報にアクセスするアプリケーションの説明文テキストに出現すると予想される単語である。スコア算出部30が抽出したキーワードは、プライバシー情報およびパーミッションに対応づけて、キーワードリスト記憶部12に記憶される。
分類部40は、各アプリケーションの説明文テキストが、抽出されたキーワードを含むか否かを判定する。そして、分類部40は、キーワードを含む説明文テキストのアプリケーションを、「言及あり」のアプリケーションとして分類する。また、分類部40は、キーワードを含まない説明文テキストのアプリケーションを、「言及なし」のアプリケーションとして分類する。分類部40による分類結果は、各アプリケーションおよびプライバシー情報に対応づけて、アプリ情報記憶部11に記憶される。
[ソフトウェア解析システムによる解析処理の流れの一例]
図4は、実施形態に係るソフトウェア解析システム1が実行する処理の流れの一例を示すフローチャートである。図4の処理の前提として、ソフトウェア解析システム1は予め、複数のアプリケーションに関する情報を取得し、記憶部10のアプリ情報記憶部11に記憶しているものとする。図4に示すように、ソフトウェア解析システム1による解析処理は、ラベル生成部20によるラベル生成(コード解析)(ステップS21)、スコア算出部30によるスコア算出(キーワード抽出)(ステップS22)、分類部40による分類(ステップS23)の各処理を含む。分類部40による分類が完了すると処理は終了する。以下、各部による処理の流れについて説明する。
[ラベル生成処理の流れの一例]
ラベル生成部20は、アプリ情報記憶部11に記憶されるアプリケーションの情報にもとづき、各アプリケーションのラベルを生成する。図5は、実施形態に係るラベル生成処理の流れの一例を示すフローチャートである。図5に示すように、ラベル生成部20はまず、解析の対象として、1つのアプリケーションと、1つのプライバシー情報を選択する(ステップS51)。たとえば、ラベル生成部20は、アプリID「AP001」のアプリケーションを選択する。また、ラベル生成部20は、プライバシー情報としてカメラ機能を選択する。ラベル生成部20によるアプリケーションおよびプライバシー情報の選択の順序については、あらかじめ決定してソフトウェア解析システム1に記憶させておいてもよいし、選択するアプリケーションおよびプライバシー情報をユーザが指定するようにしてもよい。
そして、ラベル生成部20は、選択したアプリケーションのコードをアプリ情報記憶部11から読み出す。アプリケーションのコードは、ソースコードが取得できる場合はソースコードを取得してアプリ情報記憶部11に記憶しておく。また、ソースコードが取得できない場合は、リバースエンジニアリング等の手法を用いて逆アセンブリしたコードをアプリ情報記憶部11に記憶しておく。
次に、ラベル生成部20は、読み出したコード中に、パーミッションの宣言が含まれているか否かを判定する(ステップS52)。ラベル生成部20はたとえば、Android(登録商標)を用いたアプリケーションの場合であれば、AndroidManifest.xmlの中でパーミッションが宣言されているか否かを判定する。
ラベル生成部20は、パーミッションが宣言されていると判定した場合(ステップS52、Yes)、次に、選択したプライバシー情報(すなわちパーミッション)に対応するAPIがコード中に含まれているか否かを判定する(ステップS53)。さらに、APIが含まれていると判定した場合(ステップS53、Yes)、ラベル生成部20は、コールグラフを解析して、当該APIが実際に呼び出し可能であるか否かを判定する(ステップS54)。そして、コールグラフを解析した結果、呼び出し可能と判定した場合(ステップS54、Yes)、ラベル生成部20は、当該アプリケーションにラベル「言及あり」を生成する(ステップS55)。
他方、パーミッションが宣言されていないと判定した場合(ステップS52、No)には、ラベル生成部20は、当該アプリケーションに「言及なし」のラベルを付与する(ステップS56)。APIは含まれていないと判定した場合(ステップS53、No)およびコールグラフ解析から呼び出しできないと判定した場合(ステップS54、No)も同様に、ラベル生成部20は、「言及なし」のラベルを生成する。これによってラベル生成処理が終了する。生成されたラベルは、アプリケーションおよびプライバシー情報に対応づけて、アプリ情報記憶部11に記憶される。
ラベル生成部20は、図5に示す処理を各アプリケーションおよびプライバシー情報について繰り返し実行することにより、複数のアプリケーションおよびプライバシー情報に対応するラベルを生成し、アプリ情報記憶部11に記憶する。
なお、図5のように3段階の判定を経てラベルを付与するのは、コード中にパーミッションの宣言や対応するAPIがある場合でも、実際はプライバシー情報にアクセスしないコードとなっていることがあるからである。
[スコア算出処理(キーワード抽出処理)の流れの一例]
スコア算出部30は、ラベルが付与されたアプリケーションおよびプライバシー情報を用いて、プライバシー情報にアクセスするアプリケーションを、説明文テキストに基づいて特定するためのキーワードを抽出する。
図6は、実施形態に係るスコア算出処理(キーワード抽出処理)の流れの一例を示すフローチャートである。まず、スコア算出部30は、ラベル生成処理が終了した複数のアプリケーションに対応する説明文テキストを、アプリ情報記憶部11から読み出す(ステップS61)。そして、スコア算出部30は、パーミッションを選択する(ステップS62)。さらに、スコア算出部30は、読み出した説明文テキストを解析して、説明文テキストに含まれる単語を一つ選択する(ステップS63)。
そして、スコア算出部30は、選択した単語のスコアを算出する(ステップS64)。以下に、適合フィードバックを用いてスコアを算出する例を説明する。一例として、スコア算出部30は、以下の式(1)を用いてスコアを算出する。式(1)は、総数N個(Nは自然数)のアプリケーションを解析対象とし、そのうち、i番目(iは、1以上N以下の自然数)のアプリケーションAに含まれる単語wのスコアを算出するための式である。
Figure 0006437892
ただし、式(1)中、Rは、ラベル「言及あり」を付与されたアプリケーションの総数であり、rは単語wを説明文テキストに含みラベル「言及あり」を付与されたアプリケーションの数である。また、Nは解析対象とするアプリケーションの総数であり、nは単語wを説明文テキストに含むアプリケーションの数である。また、式(1)においては、分子および分母がゼロになることを避けるため、0.5を加算している。ただし、加算する値は0.5に限定されず、たとえば0.1でも0.6でもよい。
スコア算出部30は次に、すべての単語のスコアを算出したか否かを判定する(ステップS65)。すべての単語のスコアを算出していないと判定した場合(ステップS65、No)、スコア算出部30は次に処理対象とする単語を選択する(ステップS66)。そして、処理はステップS64に戻る。他方、すべての単語のスコアを算出したと判定した場合(ステップS65、Yes)、スコア算出部30は、パーミッションごとに算出したスコアの降順に単語をソートし、上位所定数の単語を抽出する(ステップS67)。たとえば、スコア算出部30は、上位3個の単語を抽出する。ここで、抽出する単語の数を3とするのは、本発明者らの実験結果から、抽出する単語数を3とした場合に、最終的に良好な分類精度が得られているためである。ただし、抽出する単語数は他の数に設定してもよい。これによってスコア算出処理(キーワード抽出処理)が終了する。
なお、上の例では、relevance weightを用いてスコアを算出する手法を採用した。しかし、スコアを算出するための式は上記の例に限定されない。スコアを算出するための式は、ある集合のアプリケーションに含まれやすく、他の集合のアプリケーションに含まれにくい、単語の性質を数値化することができればよい。
たとえば、オッズ比をスコアとして採用することができる。まず、所定の単語がラベル「言及あり」のアプリケーションの集合に含まれる確率をp、ラベル「言及なし」のアプリケーションの集合に含まれる確率をqとする。そして、(p/(1−p))を(q/(1−q))で除してオッズ比を算出する。算出されるオッズ比が大きいほど、所定の単語がラベル「言及あり」のアプリケーションの集合に含まれやすく、ラベル「言及なし」のアプリケーションの集合に含まれにくいことを意味する。
たとえば、単語「SNS」がラベル「言及あり」のアプリケーションの集合に含まれる確率pが0.9であり、ラベル「言及なし」のアプリケーションの集合に含まれる確率qが0.1であれば、上の式に基づいて算出されるオッズ比は、81となる。同様にして他の単語についてもオッズ比を算出しオッズ比をスコアとする。そして、スコアが高い方から順に単語を順位づけする。最後に、順位が上の単語から順に「言及あり」のアプリケーションの集合により含まれやすいキーワードとして抽出すればよい。
[分類処理の流れの一例]
分類部40は、スコア算出部30が抽出したキーワードと、アプリケーションの説明文テキストに基づき、各アプリケーションがプライバシー情報にアクセスするか否かに基づきアプリケーションを分類する。図7は、実施形態に係る分類処理の流れの一例を示すフローチャートである。
分類部40はまず、分類対象とするアプリケーションの説明文テキストを、アプリ情報記憶部11から読み出す。そして、分類部40は、当該説明文テキストに含まれるすべての単語を抽出する(ステップS71)。そして、分類部40は、スコア算出部30が抽出したキーワードと一致する単語が、説明文テキストから抽出された単語に含まれるか否かを判定する(ステップS72)。一致する単語が含まれると判定した場合(ステップS72、Yes)、分類部40は、当該アプリケーションを、キーワードに対応するパーミッションに「言及あり」のアプリケーションとして分類する(ステップS73)。ここで、分類「言及あり」は、キーワードに対応するパーミッションによりアクセスが許可されるプライバシー情報にアクセスするアプリケーションであると判定されたことを示す。他方、一致する単語が含まれないと判定した場合(ステップS72、No)、分類部40は、当該アプリケーションをキーワードに対応するパーミッションに「言及なし」のアプリケーションとして分類する(ステップS74)。ここで、分類「言及なし」は、キーワードに対応するパーミッションによりアクセスが許可されるプライバシー情報にアクセスしないアプリケーションであると判定されたことを示す。これで、分類処理は終了する。
図8は、実施形態に係るソフトウェア解析システム1が実行する処理の流れの一例を説明するためのシーケンス図である。図8に示す処理は、図4乃至図7を参照して説明した処理の流れに対応する。
図8に示すように、ソフトウェア解析システム1においては、まず、解析の対象とするアプリケーションの情報や説明文テキストが用意される(図8の(1))。たとえば、ソフトウェア解析システム1は、ネットワークを介して、アプリケーションのデータを取得し、記憶部10に記憶する。
そして、ラベル生成部20は、記憶部10に記憶されたアプリケーションのコードを参照して(図8の(2))、当該コードの解析を実行する(図8の(3))。ラベル生成部20は、コード解析の結果にもとづきラベルを生成し、記憶部10に記憶する(図8の(4))。
スコア算出部30は、記憶部10に記憶されたアプリケーションの情報とともにラベルを取得し(図8の(5))、スコア算出処理(キーワード生成処理)を実行する(図8の(6))。スコア算出部30の処理の結果、キーワードリストが生成され、記憶部10に記憶される。次に、分類部40は、記憶部10からキーワードリストを取得する(図8の(7))。さらに、分類部40は、記憶部10から、説明文テキストを取得する(図8の(8))。分類部40は、取得したキーワードリストと説明文テキストとに基づき、テキスト分類を実行する(図8の(9))。そして、分類部40の処理の結果得られる分類結果を、記憶部10に記憶する(図8の(10))。
[実施形態の効果]
上記のように、上記実施形態に係るソフトウェア解析システムは、ラベル生成部と、スコア算出部と、分類部と、を備える。そして、ラベル生成部は、複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定する。また、ラベル生成部は、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベル(「言及あり」)を付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベル(「言及なし」)を付与する。スコア算出部は、第2のラベルを付与されたアプリケーションの説明文のテキストよりも、第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、複数のアプリケーションの説明文から抽出する。分類部は、スコア算出部が抽出した単語が説明文のテキストに含まれるアプリケーションをパーミッションに言及するアプリケーションとして分類し、スコア算出部が抽出した単語が説明文のテキストに含まれないアプリケーションをパーミッションに言及しないアプリケーションとして分類する。
このため、実施形態のソフトウェア解析システムは、コード解析と説明文のテキスト解析とを組み合わせて、アプリケーションによるプライバシー情報へのアクセスの有無と、アプリケーションの説明文におけるプライバシー情報へのアクセスの言及の有無を精度高く判定することができる。また、実施形態のソフトウェア解析システムは、説明文のテキスト解析を自動化することができ、テキスト解析の処理効率およびコストを向上させることができる。また、実施形態のソフトウェア解析システムは、プライバシー情報にアクセスするアプリケーションの説明文に特徴的に含まれる単語の抽出を自動的に実行することができ、処理効率およびコストを向上させることができる。このように、実施形態のソフトウェア解析システムによれば、アプリケーションのコードおよび説明文に基づき、アプリケーションによるユーザのプライバシー情報へのアクセスの有無がユーザに対して開示されているか否かを自動的に解析することができる。
[変形例]
上記実施形態では、ソフトウェア解析システム1は、各アプリケーションのコードと説明文テキストとに基づき、当該アプリケーションが所定のプライバシー情報にアクセスするか否かを判定した。また、上記実施形態のソフトウェア解析システム1は、説明文テキストに基づき、各アプリケーションがプライバシー情報へのアクセスを説明文において開示しているか否かを分類した。以下で、変形例として、ソフトウェア解析システムが、新しく検知されたアプリケーションに対して解析をおこなって分類結果を取得し、分類結果に基づき、悪性アプリケーションと良性アプリケーションとを特定する例を説明する。変形例のソフトウェア解析システムはまた、新しく検知したアプリケーションが悪性アプリケーションである場合にユーザに警告するよう構成される。
図9は、変形例に係るソフトウェア解析システム1Aの構成の一例を示す概略図である。図9に示すように、変形例に係るソフトウェア解析システム1Aは、記憶部10Aと、ラベル生成部20と、スコア算出部30と、分類部40と、特定部50と、送信部60と、を備える。また、記憶部10Aは、アプリ情報記憶部11Aと、キーワードリスト記憶部12と、を備える。ラベル生成部20、スコア算出部30、分類部40は、上記実施形態のソフトウェア解析システム1が備えるラベル生成部20、スコア算出部30、分類部40と同様の構成および機能である。また、キーワードリスト記憶部12に記憶される情報も上記実施形態のソフトウェア解析システム1の場合と同様である。変形例のソフトウェア解析システム1Aは、特定部50、送信部60を備える点と、アプリ情報記憶部11Aに記憶される情報とが、上記実施形態のソフトウェア解析システム1と異なる。以下の説明中、上記実施形態のソフトウェア解析システム1と同様の構成および機能については説明を省略し、相違する点について説明する。
特定部50は、ラベル生成部20が生成したラベルと、分類部40の分類結果とを比較し、矛盾するアプリケーションを特定する。たとえば、図2中、アプリID「AP001」のアプリケーションについて記憶される情報中、「プライバシー情報、GPS情報」に対応するラベルは「言及あり」、分類結果は「言及なし」となっている。これは、アプリID「AP001」で特定されるアプリケーションのコード解析の結果によれば、当該アプリケーションはユーザのGPS情報にアクセスすることを示す。また、当該アプリケーションの説明文テキストの解析の結果によれば、当該アプリケーションがユーザのGPS情報にアクセスすることについて説明文では言及されていないことを示す。すなわち、アプリID「AP001」のアプリケーションは、ユーザのプライバシー情報である「GPS情報」にアクセスするアプリケーションであるにも関わらず、ユーザは説明文を読んだだけではそのことが分からない状態で配布されるアプリケーションである。特定部50は、このように、「ラベル」と「分類結果」とが一致しないアプリケーションを特定する。
特定部50が特定したアプリケーションについては、アプリ情報記憶部11に悪性であることを示すフラグを記憶させる。図10は、変形例に係るアプリ情報記憶部11Aに格納される情報の構成の一例を示す図である。図10の例では、「アプリID、AP001」、「プライバシー情報、GPS情報」、「ラベル、言及あり」、「分類結果、言及なし」に対応づけて、「フラグ、ON」が記憶されている。これは、アプリID「AP001」のアプリケーションはGPS情報にアクセスするにもかかわらず、その旨を説明文に記載しておらず、悪性アプリケーションと推定されることを意味する。
送信部60は、特定部50により悪性アプリケーションと特定されたアプリケーションをユーザがダウンロードしようとする際に、当該アプリケーションが悪性アプリケーションと推定される旨の警告を当該ユーザのモバイル端末に送信する。送信部60はたとえば、悪性アプリケーションと推定される旨と、当該アプリケーションによりアクセスされるプライバシー情報と、の通知を送信する。
図11は、変形例に係るソフトウェア解析システム1Aが実行する処理の流れの一例を示すフローチャートである。まず、特定部50は、対応するラベルと、分類結果とを、アプリ情報記憶部11Aから読み出す(ステップS111)。そして、特定部50は、読み出したラベルと分類結果との間に矛盾があるか否かを判定する(ステップS112)。たとえば、ラベルが「言及あり」、分類結果が「言及なし」の場合、特定部50は、矛盾ありと判定する。また、ラベルが「言及なし」、分類結果が「言及なし」の場合、特定部50は、矛盾なしと判定する。
矛盾ありと判定した場合(ステップS112、Yes)、特定部50は、当該アプリケーションを悪性アプリと判定する(ステップS113)。そして、特定部50は、アプリ情報記憶部11Aに記憶される当該アプリケーションの情報に対応づけて、悪性アプリケーションである旨を示すフラグをONにする。他方、矛盾なしと判定した場合(ステップS112、No)、特定部50は処理を終了する。
そして、送信部60は、特定部50が悪性アプリケーションと特定したアプリケーションをダウンロードしたユーザに対して警告を送信する(ステップS114)。これによって、変形例における特定部50および送信部60の処理が終了する。
[変形例の効果]
このように、変形例に係るソフトウェア解析システム1Aは、ラベル生成部により第1のラベル(「言及あり」)を付与されたアプリケーションであって、分類部によりパーミッションに言及しないアプリケーションに分類されたアプリケーションを、悪性アプリケーションとして特定する特定部を、さらに備える。このため、ソフトウェア解析システム1Aは、コード解析の結果とテキスト解析の結果とに矛盾があるアプリケーションを容易に特定して、悪性アプリケーションとして抽出することができる。
また、変形例に係るソフトウェア解析システム1Aは、ラベル生成部により第1のラベル(「言及あり」)を付与されたアプリケーションであって、分類部によりパーミッションに言及しないアプリケーションに分類されたアプリケーションが、モバイル端末にインストールされる際に、警告情報を送信する送信部をさらに備える。このため、モバイル端末を利用してアプリケーションをダウンロードするユーザに、悪性アプリケーションの可能性があることを警告することができる。
(その他の実施形態)
これまで本発明の実施形態について説明したが、本発明は上述した実施形態以外にも、その他の実施形態にて実施されてもよい。以下に、その他の実施形態を説明する。
上記実施形態では、予めソフトウェア解析システム1に1以上のアプリケーションの情報が記憶されているものとした。しかし、これに限定されず、ソフトウェア解析システムは、ネットワークを介してアプリケーションを提出するアプリケーション作成者の情報端末等と接続され、当該情報端末から送信されるアプリケーションを受信し解析するように構成してもよい。この場合、特定部50による処理の結果を、送信部60がアプリケーション作成者の情報端末に送信するように構成してもよい。また、この場合、スコア算出部によるスコアの算出やキーワードの抽出は実行しないように構成してもよい。すなわち、分類部は、すでにキーワードリスト記憶部12に記憶されているキーワードを用いて、新しいアプリケーションの分類を実行するものとしてもよい。このように構成すれば、新しいアプリケーションが受信されるたびに、キーワードリストを更新する必要がなく、分類部の処理を迅速に実行することができる。
また、ソフトウェア解析システム1は、ネットワークを介してアプリケーションサービスを提供する1以上の事業者のサーバと接続されるように構成してもよい。そして、当該事業者のサーバからソフトウェア解析システム1に対して、新しいアプリケーションが適宜送付され、解析対象となるように構成してもよい。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、キーワードリスト記憶部12をソフトウェア解析システム1の外部の記憶装置に記憶するように構成して他のサーバがキーワードを利用して悪性アプリケーションを特定できるように構成してもよい。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
また、上記実施の形態において説明したソフトウェア解析システム1,1Aが実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係るソフトウェア解析システム1,1Aが実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、ソフトウェア解析システム1,1Aと同様の機能を実現するプログラムを実行するコンピュータの一例を説明する。
図12は、ソフトウェア解析プログラムを実行するコンピュータ1000を示す図である。図12に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
メモリ1010は、図12に例示するように、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図12に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図12に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図12に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図12に例示するように、例えばディスプレイ1130に接続される。
ここで、図12に例示するように、ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
1,1A ソフトウェア解析システム
10,10A 記憶部
11,11A アプリ情報記憶部
12 キーワードリスト記憶部
20 ラベル生成部
30 スコア算出部
40 分類部
50 特定部
60 送信部

Claims (7)

  1. 複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベルを付与するラベル生成部と、
    前記第2のラベルを付与されたアプリケーションの説明文のテキストよりも、前記第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう前記複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、前記パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、前記複数のアプリケーションの説明文から抽出するスコア算出部と、
    前記スコア算出部が抽出した単語が説明文のテキストに含まれるアプリケーションを前記パーミッションに言及するアプリケーションとして分類し、前記スコア算出部が抽出した単語が説明文のテキストに含まれないアプリケーションを前記パーミッションに言及しないアプリケーションとして分類する分類部と、
    を備えるソフトウェア解析システム。
  2. 前記ラベル生成部により前記第1のラベルを付与されたアプリケーションであって、前記分類部により前記パーミッションに言及しないアプリケーションに分類されたアプリケーションを、悪性アプリケーションとして特定する特定部を、さらに備える請求項1に記載のソフトウェア解析システム。
  3. 前記ラベル生成部により第1のラベルを付与されたアプリケーションであって、前記分類部により前記パーミッションに言及しないアプリケーションに分類されたアプリケーションが、モバイル端末にインストールされる際に、警告情報を送信する送信部をさらに備える請求項1または2に記載のソフトウェア解析システム。
  4. 前記スコア算出部が抽出した単語と、前記パーミッションと、を対応づけて記憶する記憶部をさらに備え、
    前記分類部は、新しいアプリケーションが検知されると、前記記憶部に前記パーミッションに対応付けて記憶される単語にもとづき、当該アプリケーションを、前記パーミッションに言及するアプリケーションおよび前記パーミッションに言及しないアプリケーションのいずれかに分類する請求項1から3のいずれか1項に記載のソフトウェア解析システム。
  5. 前記スコア算出部は、式(1)に基づいて、前記単語のスコアを算出する請求項1から4のいずれか1項に記載のソフトウェア解析システム。
    Figure 0006437892
    (式(1)中、wはアプリケーションA(iは1以上N以下の自然数)に含まれる単語であり、Rは前記第1のラベルを付与されたアプリケーションの総数であり、rは前記複数のアプリケーションのうち単語wを含むアプリケーションの総数であり、Nは前記複数のアプリケーションの総数であり、nは単語wを含むアプリケーションの総数である。)
  6. コンピュータによって実行されるソフトウェア解析方法であって、
    複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベルを付与するラベル生成工程と、
    前記第2のラベルを付与されたアプリケーションの説明文のテキストよりも、前記第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう前記複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、複数のアプリケーションの説明文から抽出するスコア算出工程と、
    前記スコア算出工程において抽出した単語が説明文のテキストに含まれるアプリケーションを前記パーミッションに言及するアプリケーションとして分類し、前記スコア算出工程において抽出した単語が説明文のテキストに含まれないアプリケーションを前記パーミッションに言及しないアプリケーションとして分類する分類工程と、
    を備えるソフトウェア解析方法。
  7. 複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベルを付与するラベル生成手順と、
    前記第2のラベルを付与されたアプリケーションの説明文のテキストよりも、前記第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう前記複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、複数のアプリケーションの説明文から抽出するスコア算出手順と、
    前記スコア算出手順において抽出した単語が説明文のテキストに含まれるアプリケーションを前記パーミッションに言及するアプリケーションとして分類し、前記スコア算出手順において抽出した単語が説明文のテキストに含まれないアプリケーションを前記パーミッションに言及しないアプリケーションとして分類する分類手順と、
    をコンピュータに実行させるためのソフトウェア解析プログラム。
JP2015139910A 2015-07-13 2015-07-13 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム Active JP6437892B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015139910A JP6437892B2 (ja) 2015-07-13 2015-07-13 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
US15/574,199 US10366236B2 (en) 2015-07-13 2016-07-05 Software analysis system, software analysis method, and software analysis program
EP16824330.1A EP3293664B1 (en) 2015-07-13 2016-07-05 Software analysis system, software analysis method, and software analysis program
PCT/JP2016/069881 WO2017010350A1 (ja) 2015-07-13 2016-07-05 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
CN201680039655.7A CN107735792B (zh) 2015-07-13 2016-07-05 软件分析系统、软件分析方法和记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015139910A JP6437892B2 (ja) 2015-07-13 2015-07-13 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム

Publications (2)

Publication Number Publication Date
JP2017021655A JP2017021655A (ja) 2017-01-26
JP6437892B2 true JP6437892B2 (ja) 2018-12-12

Family

ID=57756989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015139910A Active JP6437892B2 (ja) 2015-07-13 2015-07-13 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム

Country Status (5)

Country Link
US (1) US10366236B2 (ja)
EP (1) EP3293664B1 (ja)
JP (1) JP6437892B2 (ja)
CN (1) CN107735792B (ja)
WO (1) WO2017010350A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891380B1 (en) * 2017-03-21 2021-01-12 Mcafee, Llc Framework to quantify deviations in app permissions using application description
US20190156024A1 (en) * 2017-11-20 2019-05-23 Somansa Co., Ltd. Method and apparatus for automatically classifying malignant code on basis of malignant behavior information
CN109241281B (zh) * 2018-08-01 2022-09-23 百度在线网络技术(北京)有限公司 软件失效原因生成方法、装置及设备
JP7062581B2 (ja) * 2018-12-07 2022-05-06 Kddi株式会社 プライバシーポリシー検証装置、コンピュータプログラム及びプライバシーポリシー検証方法
CN112199506B (zh) * 2020-11-10 2021-08-24 支付宝(杭州)信息技术有限公司 一种应用程序的信息检测方法、装置及设备
JP7651377B2 (ja) * 2021-05-31 2025-03-26 株式会社日立製作所 データ抽出システムおよびデータ抽出方法
US12511429B2 (en) 2021-09-15 2025-12-30 Samsung Electronics Co., Ltd. Electronic device for analyzing permission for installation file and method of operating the same

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043919B2 (en) 2008-10-21 2015-05-26 Lookout, Inc. Crawling multiple markets and correlating
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
JP5452192B2 (ja) * 2009-12-02 2014-03-26 Kddi株式会社 アクセス制御システム、アクセス制御方法およびプログラム
US9215548B2 (en) * 2010-09-22 2015-12-15 Ncc Group Security Services, Inc. Methods and systems for rating privacy risk of applications for smart phones and other mobile platforms
CN103136472B (zh) * 2011-11-29 2016-08-31 腾讯科技(深圳)有限公司 一种防应用程序窃取隐私的方法及移动设备
US20130333039A1 (en) * 2012-06-07 2013-12-12 Mcafee, Inc. Evaluating Whether to Block or Allow Installation of a Software Application
CN102867143B (zh) * 2012-08-22 2015-10-21 中国科学技术大学 一种恶意应用程序的快速过滤方法
CN104346566A (zh) * 2013-07-31 2015-02-11 腾讯科技(深圳)有限公司 检测隐私权限风险的方法、装置、终端、服务器及系统
CN103793650A (zh) * 2013-12-02 2014-05-14 北京邮电大学 Android应用程序的静态分析方法及装置
CN104462970B (zh) * 2014-12-17 2017-06-16 中国科学院软件研究所 一种基于进程通信的Android应用程序权限滥用检测方法
CN104462971B (zh) * 2014-12-17 2017-10-03 北京奇虎科技有限公司 根据应用程序声明特征识别恶意应用程序的方法和装置
CN104517054B (zh) * 2014-12-25 2017-04-12 北京奇虎测腾科技有限公司 一种检测恶意apk的方法、装置、客户端和服务器
CN104504337A (zh) * 2014-12-31 2015-04-08 中国人民解放军理工大学 一种安卓数据泄露的恶意应用检测方法
US20160335432A1 (en) * 2015-05-17 2016-11-17 Bitdefender IPR Management Ltd. Cascading Classifiers For Computer Security Applications

Also Published As

Publication number Publication date
CN107735792A (zh) 2018-02-23
EP3293664A1 (en) 2018-03-14
EP3293664B1 (en) 2019-06-12
JP2017021655A (ja) 2017-01-26
EP3293664A4 (en) 2019-01-02
US10366236B2 (en) 2019-07-30
WO2017010350A1 (ja) 2017-01-19
US20180137281A1 (en) 2018-05-17
CN107735792B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
JP6437892B2 (ja) ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
US9525706B2 (en) Apparatus and method for diagnosing malicious applications
CN110837550A (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
Gao et al. Android malware detection via graphlet sampling
CN112136123B (zh) 表征文件以进行相似性搜索
WO2018072071A1 (zh) 知识图谱构建系统及方法
US20230273959A1 (en) Computer-implemented methods, systems comprising computer-readable media, and electronic devices for narrative representation of a network computing environment
US10511681B2 (en) Establishing and utilizing behavioral data thresholds for deep learning and other models to identify users across digital space
US12105756B2 (en) Computer-implemented methods, systems comprising computer-readable media, and electronic devices for narrative representation of a network computing environment
CN108694324B (zh) 一种信息泄露监控方法以及装置
KR20200073822A (ko) 악성코드 분류 방법 및 그 장치
CN111597422B (zh) 埋点映射方法、装置、计算机设备和存储介质
CN114650167B (zh) 一种异常检测方法、装置、设备及计算机可读存储介质
CN112988441A (zh) 异常处理方法和装置
US8001122B2 (en) Relating similar terms for information retrieval
JP7509244B2 (ja) 生成装置、生成方法および生成プログラム
US11080300B2 (en) Using relation suggestions to build a relational database
KR102759025B1 (ko) 인공지능을 기반으로 트렌드에 부합하는 웹진을 자동으로 생성하는 방법 및 시스템
US9292704B2 (en) Information processing device for detecting an illegal stored document, illegal stored document detection method and recording medium
JP2014074942A (ja) 情報収集プログラム、情報収集方法および情報処理装置
KR20200073824A (ko) 악성코드 프로파일링 방법 및 그 장치
Coban et al. Adapting text categorization for manifest based android malware detection
JP6811468B2 (ja) 情報処理装置、データ検索方法、プログラム、データ構造及びデータ処理システム
CN112783986B (zh) 基于标签的对象分组编制方法及装置、存储介质、终端
US12277790B1 (en) Automated industrial hygiene assessment and display

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181115

R150 Certificate of patent or registration of utility model

Ref document number: 6437892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350