JP2022520041A - ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法 - Google Patents

ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法 Download PDF

Info

Publication number
JP2022520041A
JP2022520041A JP2021545304A JP2021545304A JP2022520041A JP 2022520041 A JP2022520041 A JP 2022520041A JP 2021545304 A JP2021545304 A JP 2021545304A JP 2021545304 A JP2021545304 A JP 2021545304A JP 2022520041 A JP2022520041 A JP 2022520041A
Authority
JP
Japan
Prior art keywords
mobile software
descriptive
entropy
plural
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021545304A
Other languages
English (en)
Other versions
JP7197942B2 (ja
Inventor
官全龍
羅偉其
劉楚瑩
張煥明
崔林
李哲夫
李榮君
Original Assignee
▲ギ▼南大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ▲ギ▼南大學 filed Critical ▲ギ▼南大學
Publication of JP2022520041A publication Critical patent/JP2022520041A/ja
Application granted granted Critical
Publication of JP7197942B2 publication Critical patent/JP7197942B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/565Static detection by checking file integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/53Decompilation; Disassembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/74Reverse engineering; Extracting design information from source code

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Devices For Executing Special Programs (AREA)
  • Telephonic Communication Services (AREA)
  • Stored Programmes (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】 ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法【解決手段】 ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法を提供して、この方法は、以下のステップを含み、モバイルソフトウェアのパスを取得し、パスに従ってモバイルソフトウェアのファイルを読み取りしており、モバイルソフトウェアのファイルに対して予備的なリバースエンジニアリングの逆コンパイルを実行して、モバイルソフトウェアの各ピースのファンクション特性を取得しており、ファンクション特性の記述エントロピーをを通って、モバイルソフトウェアの各ピースの記述エントロピーの分布を計算しており、モバイルソフトウェアの各ピースの記述エントロピーはさらに統合させて、統合することを通ってから、モバイルソフトウェア間の記述エントロピー分布状況が比較され、そして類似性スコアが計算されて、モバイルソフトウェア間の類似性スコアが取得されており、モバイルソフトウェアの類似性の結果を取得するために、モバイルソフトウェアの類似性スコアを出力する。本発明は、逆コンパイルによりモバイルソフトウェアソースコードを取得し、ファンクションの圧縮コード(複数)を取得してから記述エントロピーを取得し、記述エントロピーをオブジェクトを表すための情報量としてモバイルソフトウェアの類似性の決定に使用され、それにより、ソフトウェアの類似性のインテリジェントな計算速度を大幅に向上させる。【選択図】図1

Description

本発明は、ソフトウェア類似性の決定の研究分野に関しており、特に、ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法に関する。
インターネットとスマートフォンの急速な発展に伴い、モバイルインターネットソフトウェアは急速に普及しており、特に、モバイルをオペレーティングシステムとするアプリケーションソフトウェアが特に顕著であり、毎年膨大な数のモバイルインターネットソフトウェアが発行されている。しかしながら、モバイルインターネットソフトウェアのオープンソースと人気により、セキュリティの問題は、ますます顕著になり、毎日、何万ものマルウェアがさまざまなモバイルアプリケーションセキュリティプラットフォームによって傍受されている。悪意のあるモバイルインターネットソフトウェアは、携帯電話がウイルスを感染したり、アカウント情報を盗んだり、悪意で料金を請求したり、権限を超えてユーザーのプライバシーを取得したりする可能性がある。深刻なモバイルアプリケーションのセキュリティインシデントと大量のマルウェアに直面し、マルウェア決定の効率を改善する方法は、研究する価値のあることとなる。
現在、ほとんどの悪意のある攻撃者は、人気のあるモバイルアプリケーションソフトウェアを使用し、ソースコードの一部を変更し、悪意のあるコードを挿入し、難読化を追加してからAPPを再リリースしており、その結果、多くのユーザーは、ネイティブアプリの信頼とサポートに基づいて、海賊版アプリを誤ってダウンロードしてインストールする。APPに対して類似性の決定を行うのは、モバイルアプリケーションのセキュリティエンジニアリングの突破である。
本発明の主な目的は、従来技術の欠点及び欠陥を克服して、エントロピー分布の記述に基づくモバイルソフトウェアの類似性の決定方法を提供することである。
本発明の目的は、以下の技術的解決方法を通じて実現する:
ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法であって、下記のステップを含み:
S1、モバイルソフトウェア(複数)のパスを取得することであって、該パス(複数)に従って該モバイルソフトウェア(複数)は読み取られる;
S2、該モバイルソフトウェア(複数)の各々のファンクション(関数ともいう:function)特性(複数)を取得するために、該モバイルソフトウェア(複数)の各々に予備的なリバースエンジニアリング・逆コンパイルを実行する;
S3、該ファンクション特性の記述エントロピー(複数)によって、該モバイルソフトウェア(複数)の各々の記述エントロピーの分布を集約する;
S4、モバイルソフトウェア(複数)の記述エントロピー(複数)を統合し、統合された記述エントロピーの分布(複数)にもとづき、モバイルソフトウェアペア(pairs) (複数)の該記述エントロピー分布(複数)を比較し、そして、該モバイルソフトウェアペア(複数)の類似性スコア(複数)を計算する;
S5、モバイルソフトウェアの類似性の結果を取得するために、モバイルソフトウェア(複数)の類似性スコア(複数)を出力する。
さらに、ファンクション(関数ともいう)特性は、ハッシュ値(複数)、モバイルソフトウェアファンクションの圧縮コード(複数)、記述エントロピー(複数)を含む。
さらに、ステップS2では、前記予備的なリバースエンジニアリング・逆コンパイルは、具体的に次のとおりであり:逆コンパイルツールを使用してモバイルソフトウェア(複数)の各々のソースコード(複数)を取得し、ソースコード(複数)を通じてモバイルソフトウェア(複数)の各々のファンクションの圧縮コード(複数)を取得し、ファンクションの圧縮コード(複数)の各々から浮動小数点数(floating point number)を計算し、これはファンクションまたはクラスの情報量を表し、つまり記述エントロピーを示し、これは、次のように計算される。
Figure 2022520041000002
ここで、該ファンクションの圧縮コード(複数)の各々は、合計n個の部分文字列を有し、substriがファンクションの圧縮コードのi番目の部分文字列であり、及びp(substri)がi番目の部分文字列の出現確率である;そして、
モバイルソフトウェア(複数)のハッシュ値(複数)、ファンクションの圧縮コード(複数)、及び記述エントロピー(複数)、を対応するテキストファイルに保存する。
さらに、前記ファンクションまたはクラスにおいて、一つのファンクションまたはクラスは、一つのファンクションの圧縮コード、一つの記述エントロピー、と一つのハッシュ値に対応しており、一つのモバイルソフトウェアは、対応するファンクションのハッシュ値(複数)の集合、ファンクションの圧縮コード(複数)の集合、記述エントロピー(複数)の集合、に対応する。
さらに、前記逆コンパイルツールは、Androguardである。
さらに、ステップS3は、具体的には、ステップS2のモバイルソフトウェア(複数)の各々に対応するテキストファイル(複数)から、記述エントロピー(複数)の集合:
Figure 2022520041000003
及び、エントロピー(複数)の対応する数(複数)の集合:
Figure 2022520041000004
を抽出することであり、
ここで、hd1からhdnは、対応するモバイルソフトウェアの1番目からn番目の相互に等しくない記述エントロピー値(複数)であり; n1からnnは、1番目からn番目の相互に等しくない記述エントロピー値(複数)の対応する数である。
さらに、前記ステップS4では、具体的に、すべてのモバイルソフトウェア(複数)の記述エントロピー(複数)の集合(複数)を取得し、次に、ペア(複数)で、すべてのモバイルソフトウェアの記述エントロピー(複数)の集合(複数)の統合を行い、モバイルソフトウェア(複数)の各々のペアの記述エントロピー(複数)の和集合を取得することであり;
モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー(複数)の集合は、次のとおりであり:
Figure 2022520041000005
ここで、HdAは、モバイルソフトウェアAの記述エントロピー(複数)の集合であり、HdBは、モバイルソフトウェアBの記述エントロピー(複数)の集合であり、mは、モバイルソフトウェアAの記述エントロピー値(複数)の個数であり、nは、モバイルソフトウェアBの記述エントロピー値(複数)の個数であり;
モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー値(複数)の個数(複数)の集合は、次のとおりであり:
Figure 2022520041000006
ここで、NAは、モバイルソフトウェアAのHdAでの記述エントロピー値(複数)の対応する個数(複数)の集合であり、NBは、モバイルソフトウェアBのHdBでの記述エントロピー値(複数)の対応する個数(複数)の集合であり;
モバイルソフトウェアペアの記述エントロピー(複数)の和集合は、次のとおりであり:
Figure 2022520041000007

ここで、HdA∪Bは、モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー(複数)の和集合であり、YAは、和集合HdA∪Bでの、モバイルソフトウェアAの記述エントロピー値(複数)の対応する個数(複数)の集合であり、YBは、和集合HdA∪Bでの、モバイルソフトウェアBの記述エントロピー値(複数)の対応する個数(複数)の集合であり、xは、和集合HdA∪BとHdAの差集合要素(複数)の個数であり、yは、和集合HdA∪BとHdBの差集合要素(複数)の個数であり、m + xとn + yは、和集合HdA∪Bでの要素(複数)の個数(複数)であり;

類似性スコア(複数)の計算を実行する;
集合HdA∪BとYAを、離散点(複数)DAの集合として、集合HdA∪BとYBを、離散点(複数)DBの別の集合として、採用し、それは、次のとおりであり:
Figure 2022520041000008
デカルト座標系における領域SAが、離散点(複数)DAの集合及びX軸によって特定され、デカルト座標系における領域SBが、離散点(複数)DBの集合及びX軸によって特定され; 次に、領域SAとSBの交差領域SA∩Bが計算され、更に、領域SAとSBの和集合領域SA∪Bが計算され;最後に類似性スコア(複数)を計算する;
セットにおける要素(複数)個数は、N個とされ、それは、次のとおりであり:
Figure 2022520041000009
ここで、
Figure 2022520041000010
ここで、
Figure 2022520041000011
ここで、
Figure 2022520041000012
ここで、(xi、yAi)∈DA、(xi、yBi)∈DB、(xmid、ymid)は、点(複数)(xi、yAi)及び(xi+1、yAi+1)によって定義された直線と点(複数)(xi、yBi)及び(xi+1、yBi+1)によって定義された直線との交差点の座標であり;

最後に類似性スコアを以下により取得する:
類似性スコア = SA∩B/S A∪B * 100。
さらに、m + x = n + y。
さらに、ステップS5では、具体的に、すべてのモバイルソフトウェア(複数)の類似性スコア(複数)を出力し、モバイルソフトウェア(複数)間の類似性(複数)を決定し、モバイルソフトウェアの類似性結果を取得する。
従来の技術と比較して、本発明は、以下の利点及び有益な効果を有する:
本発明は、逆コンパイルによりモバイルソフトウェアソースコード(複数)を取得し、次に各ファンクションまたはクラスのソースコードを読み取ることにより対応するモバイルソフトウェアのファンクションの圧縮コードを取得する。各ファンクションの圧縮コードは、制御フローチャートに従って、対応するファンクションまたはクラスのステートメントを圧縮することで形成される文字列(character string)である。記述エントロピーは、ファンクションの圧縮コードに従ってインテリジェントに計算された浮動小数点数である。一つのファンクションまたはクラスは、一つのファンクションの圧縮コードと一つの記述エントロピーに対応する。したがって、一つのモバイルソフトウェアは、ファンクションの圧縮コード(複数)の集合と記述エントロピーの集合に対応し、これらの個数は、ファンクション(複数)またはクラス(複数)の総数によって異なる。記述エントロピーを一つのオブジェクトを表す情報の量として、モバイルソフトウェアの類似性の決定に使用され、ソフトウェア類似性のインテリジェント計算の速度を大幅に向上させる。
本発明による、ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法のフローチャートである。 本発明の実施態様における一対のモバイルソフトウェア(モバイルソフトウェアペアともいう)の記述エントロピー分布を説明する実際の統計である。 本発明の実施態様における記述エントロピー分布に基づく一対のモバイルソフトウェア(モバイルソフトウェアペアともいう)の類似性領域計算の概略図である。
以下、実施例及び図面を参照して、本発明をさらに詳細に説明するが、本発明の実施態様は、これに限定されない。
実施例
ビッグデータモバイルソフトウェア(複数)の類似性についての記述エントロピーに基づくインテリジェントな決定方法であって、図1に示すように、下記のステップを含む:
ステップ1、モバイルソフトウェア(複数)の各々のパスを取得することであって、該パスに従って該モバイルソフトウェア(複数)は読み取られる;
ステップ2、該モバイルソフトウェア(複数)の各々のファンクション(function)特性を取得するために、該モバイルソフトウェア(複数)の各々に予備的なリバースエンジニアリング・逆コンパイルを実行する;
前記予備的なリバースエンジニアリング・逆コンパイルは、具体的に以下をふくむ:
逆コンパイルツールAndroguardを使用して、モバイルソフトウェア(複数)の各々のソースコードを取得し、該ソースコードを通じてモバイルソフトウェア(複数)の各々のファンクションの圧縮コード(複数)を取得し、そして、該ファンクションの圧縮コードの各々から、ファンクションまたはクラスの情報の量、つまり記述エントロピーの、を表す浮動小数点数を計算し; そして、該モバイルソフトウェア(複数)のアファンクションの圧縮コード(複数)、記述エントロピー(複数)、ハッシュ値(複数)を対応するテキストファイルに保存する;
記述エントロピーは、次のように計算される:
Figure 2022520041000013
ここで、該ファンクションの圧縮コード(複数)の各々は、合計n個の部分文字列(複数)を有し、substriが該ファンクションの圧縮コードのi番目の部分文字列であり、p(substri)がi番目の部分文字列の出現確率である。
さらに、前記ファンクションまたはクラスにおいて、一つのファンクションまたはクラスは、一つのモバイルソフトウェアのファンクションの圧縮コード、一つの記述エントロピー、と一つのハッシュ値に対応しており; 一つのモバイルソフトウェアは、対応するファンクションのハッシュ値の集合、ファンクションの圧縮コード(複数)の集合、記述エントロピー(複数)の集合、に対応する。
ステップ3,該ファンクション特性(複数)の記述エントロピー(複数)によって、該モバイルソフトウェア(複数)の各々の記述エントロピーの分布を集約する、
具体的には、ステップ2のモバイルソフトウェア(複数)に対応するテキストファイル(複数)から、以下を抽出することをふくむ:
記述エントロピー(複数)の集合:
Figure 2022520041000014
及び、エントロピー(複数)の対応する数の集合:
Figure 2022520041000015
ここで、hd1からhdnは、該対応するモバイルソフトウェアの1番目からn番目の相互に等しくない記述エントロピー値(複数)であり、n1からnnは、1番目からn番目の相互に等しくない記述エントロピー値(複数)の対応する数(複数)である。
ステップ4,該モバイルソフトウェア(複数)の該記述エントロピー(複数)を統合し、該統合された記述エントロピーの分布(複数)にもとづき、モバイルソフトウェアペア(複数)(pairs)の該記述エントロピー分布(複数)を比較し、そして、該モバイルソフトウェアペア(複数)の類似性スコア(複数)を計算する;
具体的に、すべてのモバイルソフトウェア(複数)の記述エントロピー(複数)の集合(複数)を取得し、次に、ペア(複数)のすべてのモバイルソフトウェア(複数)の記述エントロピー(複数)の集合(複数)の統合を行い、該モバイルソフトウェア(複数)の各々のペアの記述エントロピー(複数)の和集合を取得する。
この実施態様では、モバイルソフトウェアAとモバイルソフトウェアBを選んで比較する:
モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー(複数)の集合(複数)は、次のとおりである:
Figure 2022520041000016
ここで、HdAは、モバイルソフトウェアAの記述エントロピー(複数)の集合であり、Ah1からAhmは、1番目からm番目までの相互に等しくない記述エントロピー(複数)である; HdBは、モバイルソフトウェアB の記述エントロピー(複数)の集合であり、Bh1からBhnは、1番目からn番目までの相互に等しくない記述エントロピー(複数)である。mは、モバイルソフトウェアAの記述エントロピー(複数)の個数であり、nは、モバイルソフトウェアBの記述エントロピー(複数)の個数である;
モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー値(複数)の個数(複数)の集合は、次のとおりである:
Figure 2022520041000017
ここで、NAは、モバイルソフトウェアAのHdAでの記述エントロピー値(複数)の応答する個数(複数)の集合であり、An1からAnmは、1番目からm番目までの記述エントロピー(複数)の個数であ; NBは、モバイルソフトウェアBのHdBでの記述エントロピー値(複数)の応答する個数(複数)の集合であり、Bn1からBnnは、1番目からn番目までの記述エントロピー(複数)の個数である。
モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー分布(複数)を統合する。
Figure 2022520041000018
ここで、HdA∪Bは、モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー(複数)の和集合であり、YAは、和集合HdA∪Bでの、モバイルソフトウェアAの記述エントロピー値(複数)の応答する個数(複数)の集合であり、YBは、和集合HdA∪Bでの、モバイルソフトウェアBの記述エントロピー値(複数)の応答する個数(複数)の集合であり; xは、和集合HdA∪BとHdAの差集合要素(複数)の個数であり、yは、和集合HdA∪BとHdBの差集合要素(複数)の個数であり、m + xとn + yは、和集合HdA∪Bでの要素(複数)の個数である。図2は、モバイルソフトウェアペアの記述エントロピー分布(複数)の実際の統計である。横座標は、記述エントロピー値であり、縦座標は、該エントロピー値(複数)の個数である。
類似スコアの計算を実行する;
集合(複数)HdA∪BとYAを、離散点(複数)DAの集合とし、集合(複数)HdA∪BとYBを、離散点(複数)DBの別の集合とし、それは次のとおりであり:
Figure 2022520041000019
デカルト座標系における領域SAが、X軸と離散点(複数)DAの集合によって規定され; デカルト座標系における領域SBが、X軸と離散点(複数)DBの集合によって規定され;
次に、領域SAとSBの交差領域SA∩Bが計算され、更に、領域SAとSBの和集合領域SA∪Bが計算され; 最後に、類似度スコアを計算する:
図3は、記述エントロピー分布に基づくモバイルソフトウェアペアの類似性領域計算の概略図である; 横座標は、記述エントロピー値であり、縦座標は、記述エントロピー値(複数)の個数である。
該集合での、要素(複数)の個数は、N個を有し、それは、次のとおりであり:
Figure 2022520041000020
ここで、
Figure 2022520041000021
ここで、
Figure 2022520041000022
ここで、
Figure 2022520041000023
ここで、(xi、yAi) ∈ DA、(xi、yBi)∈ DB、及び(xmid、ymid)は、点(xi、yAi)及び点(xi+1、yAi+1)によって形成された直線と点(xi、yBi)及び点(xi+1、yBi+1)によって形成された直線との交差点の座標であり;
最後に類似性スコアを取得する。
類似性スコア=SA∩B/S A∪B*100。
ステップ5,モバイルソフトウェア(複数)の類似性の結果を取得するために、モバイルソフトウェア(複数)の類似性スコアを出力する。すべてのモバイルソフトウェアのペアワイズ比較の類似性スコアを出力し(“すべてのモバイルソフトウェアペアの類似性スコア(複数)を出力し”、ともいう)、時間を計算して、テキストファイルに記録する。
上記の実施態様は、本発明の好ましい実施態様であり、しかしながら、本発明の実施は、上記の実施態様に限定されるものではなく、本発明の精神および原理から逸脱することなく行われる他の変更、修正、置換、組み合わせ、および簡略化は、同等の置換方法と見なされて、本発明の保護範囲に含まれる。

Claims (9)

  1. ビッグデータモバイルソフトウェア(複数)の類似性についての記述エントロピーに基づくインテリジェントな決定方法であって、下記のステップを含む決定方法:
    S1、該モバイルソフトウェア(複数)のパスを取得することであって、該パスに従って該モバイルソフトウェア(複数)は読み取られる;
    S2、該モバイルソフトウェア(複数)の各々のファンクション(function)特性を取得するために、該モバイルソフトウェア(複数)の各々に予備的なリバースエンジニアリング・逆コンパイルを実行する;
    S3、該ファンクション特性の記述エントロピーによって、該モバイルソフトウェア(複数)の各々の記述エントロピーの分布を集約する;
    S4、該モバイルソフトウェア(複数)の該記述エントロピーを統合し、該統合された記述エントロピーの分布に基づき、モバイルソフトウェアペア(pairs)の該記述エントロピー分布を比較し、そして、該モバイルソフトウェアペアの類似性スコアを計算する;
    S5、モバイルソフトウェア(複数)の類似性の結果を取得するために、該モバイルソフトウェア(複数)の該類似性スコアを出力する、ことを特徴とする、決定方法。
  2. ファンクション特性は、ハッシュ値(複数)、ファンクションの圧縮コード(複数)、記述エントロピー(複数)を含むことを特徴とする請求項1に記載の決定方法。
  3. ステップS2では、前記予備的なリバースエンジニアリング・逆コンパイルは、具体的に、逆コンパイルツールを使用してモバイルソフトウェア(複数)の各々のソースコード(複数)を取得し、該ソースコード(複数)を通じて該モバイルソフトウェア(複数)の各々のファンクションの圧縮コード(複数)を取得し、そして、ファンクションまたはクラスの情報量を表す浮動小数点数を、つまり、次の式による、該ファンクションの圧縮コード(複数)の各々から該記述エントロピーを、計算する:
    Figure 2022520041000024
    ここで、該ファンクションの圧縮コード(複数)の各々は、n個の部分文字列(複数)を有し、substriが該ファンクションの圧縮コード(複数)のi番目の部分文字列であり、そして、p(substri)がi番目の部分文字列の出現確率である;そして、
    モバイルソフトウェア(複数)のハッシュ値(複数)、該ファンクションの圧縮コード(複数)、及び記述エントロピー(複数)を、対応するテキストファイルに保存する、ことを特徴とする請求項1に記載の決定方法。
  4. 前記ファンクションまたはクラスにおいて、一つのファンクションまたはクラスは、一つのファンクションの圧縮コード、一つの記述エントロピー、及び一つのハッシュ値に対応し;一つのモバイルソフトウェアは、対応するファンクションのハッシュ値(複数)の集合、ファンクションの圧縮コード(複数)の集合、記述エントロピー(複数) の集合に対応することを特徴とする請求項3に記載の決定方法。
  5. 前記逆コンパイルツールは、Androguardであることを特徴とする請求項3に記載の決定方法。
  6. ステップS3は、具体的には、以下を含む:
    ステップS2のモバイルソフトウェア(複数)の各々に対応するテキストファイル(複数)の各々から、記述エントロピー(複数)の集合:
    Figure 2022520041000025
    及び、
    エントロピー(複数)の対応する数(複数)の集合:
    Figure 2022520041000026
    を抽出する、
    ここで、hd1からhdnは、対応するモバイルソフトウェアの1番目からn番目の相互に等しくない記述エントロピー値(複数)であり; n1からnnは、1番目からn番目の相互に等しくない記述エントロピー値(複数)の対応する数(複数)である、
    請求項1に記載の決定方法。
  7. 前記ステップS4では、具体的に、以下を含む:
    全ての該モバイルソフトウェア(複数)の記述エントロピー(複数)の集合(複数)を取得し、次に、該モバイルソフトウェア(複数)の各々のペアの記述エントロピー(複数)の和集合を得るために、ペア(複数)における該モバイルソフトウェアすべての、記述エントロピー(複数)の集合(複数)を統合する;
    モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー(複数)の集合(複数)は、次のとおりであり:
    Figure 2022520041000027

    ここで、HdAは、モバイルソフトウェアAの記述エントロピー(複数)の集合であり、HdBは、モバイルソフトウェアBの記述エントロピー(複数)の集合であり、mは、モバイルソフトウェアAの記述エントロピー値(複数)の個数であり、nは、モバイルソフトウェアBの記述エントロピー値(複数)の個数であり;
    モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー値(複数)の個数の集合は、次のとおりであり:
    Figure 2022520041000028

    ここで、NAは、モバイルソフトウェアAのHdAでの記述エントロピー値(複数)の対応する個数(複数)の集合であり、NBは、モバイルソフトウェアBのHdBでの記述エントロピー値(複数)の対応する個数の集合であり;該モバイルソフトウェアペアの記述エントロピー(複数)の和集合は、次のとおりであり:
    Figure 2022520041000029

    ここで、HdA∪Bは、モバイルソフトウェアAとモバイルソフトウェアBの記述エントロピー(複数)の該和集合であり、YAは、該和集合HdA∪BでのモバイルソフトウェアAの記述エントロピー値(複数)の対応する個数の集合であり、YBは、和集合HdA∪BでのモバイルソフトウェアBの記述エントロピー値(複数)の対応する個数の集合であり; xは、和集合HdA∪BとHdAの差集合要素(複数)の個数であり、yは、和集合HdA∪BとHdBの差集合要素(複数)の個数であり; m + xとn + yは、和集合HdA∪Bでの要素(複数)の個数であり;
    類似性スコアの計算を実行し:
    集合HdA∪BとYAを、離散点(複数)DAの集合として得、集合HdA∪BとYBを、離散点(複数)DBの別の集合として得、それは次のとおりであり、
    Figure 2022520041000030

    デカルト座標系での領域SAが、X軸と離散点(複数)DAの集合によって定義され; デカルト座標系での領域SBが、X軸と離散点(複数)DBの集合によって定義され; 次に、領域SAとSBの交差エリアSA∩Bが計算され、更に、領域SAとSBの和集合エリアSA∪Bが計算され;
    最後に、該類似性スコアが計算される:
    該集合での要素(複数)の個数は、N個を有するとされ、次のとおりであり、
    Figure 2022520041000031
    ここで、
    Figure 2022520041000032

    ここで、
    Figure 2022520041000033
    ここで、
    Figure 2022520041000034
    ここで、(xi、yAi)∈DA、(xi、yBi)∈DB、(xmid、ymid)は、点(xi、yAi)及び点(xi+1、yAi+1)によって形成された直線と点(xi、yBi)及び点(xi+1、yBi+1)によって形成された直線との交差点の座標である;
    最後に該類似性スコアは以下によって計算される:
    類似性スコア=SA∩B/S A∪B *100
    である、請求項6に記載の決定方法。
  8. m + x = n + yである、請求項7に記載の決定方法。
  9. ステップS5では、具体的に、すべてのモバイルソフトウェア(複数)の類似性スコア(複数)を出力し、モバイルソフトウェアの類似性の結果を取得するために、モバイルソフトウェア(複数)間の類似性の程度を決定する、請求項1に記載の決定方法。
JP2021545304A 2019-05-21 2020-04-22 ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法 Active JP7197942B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910424145.7 2019-05-21
CN201910424145.7A CN110210224B (zh) 2019-05-21 2019-05-21 一种基于描述熵的大数据移动软件相似性智能检测方法
PCT/CN2020/086052 WO2020233322A1 (zh) 2019-05-21 2020-04-22 一种基于描述熵的大数据移动软件相似性智能检测方法

Publications (2)

Publication Number Publication Date
JP2022520041A true JP2022520041A (ja) 2022-03-28
JP7197942B2 JP7197942B2 (ja) 2022-12-28

Family

ID=67788064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021545304A Active JP7197942B2 (ja) 2019-05-21 2020-04-22 ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法

Country Status (4)

Country Link
US (1) US11886583B2 (ja)
JP (1) JP7197942B2 (ja)
CN (1) CN110210224B (ja)
WO (1) WO2020233322A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210224B (zh) * 2019-05-21 2023-01-31 暨南大学 一种基于描述熵的大数据移动软件相似性智能检测方法
US11574059B1 (en) * 2022-06-20 2023-02-07 Uab 360 It Classification of data files

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034377A (ja) * 2009-08-03 2011-02-17 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
US20130067579A1 (en) * 2011-09-14 2013-03-14 Mcafee, Inc. System and Method for Statistical Analysis of Comparative Entropy
JP2015138331A (ja) * 2014-01-21 2015-07-30 日本電信電話株式会社 情報端末、実行形式監視方法、プログラム
JP2017021776A (ja) * 2015-06-30 2017-01-26 エーオー カスペルスキー ラボAO Kaspersky Lab モバイルデバイスでの悪質なファイルを検出するシステム及び方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751055B (zh) * 2013-12-31 2017-11-03 北京启明星辰信息安全技术有限公司 一种基于纹理的分布式恶意代码检测方法、装置及系统
CN104376260B (zh) * 2014-11-20 2017-06-30 东华大学 一种基于香农信息熵的恶意代码可视化分析方法
CN106485507B (zh) * 2015-09-01 2019-10-18 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统
TWI547823B (zh) * 2015-09-25 2016-09-01 緯創資通股份有限公司 惡意程式碼分析方法與系統、資料處理裝置及電子裝置
US10607010B2 (en) * 2016-09-30 2020-03-31 AVAST Software s.r.o. System and method using function length statistics to determine file similarity
CN108710797B (zh) * 2018-06-15 2021-08-17 四川大学 一种基于熵信息分布的恶意文档检测方法
CN109446753A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 检测盗版应用程序的方法、装置、计算机设备及存储介质
CN109359439B (zh) * 2018-10-26 2019-12-13 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN109753800B (zh) * 2019-01-02 2023-04-07 重庆邮电大学 融合频繁项集与随机森林算法的Android恶意应用检测方法及系统
CN110210224B (zh) * 2019-05-21 2023-01-31 暨南大学 一种基于描述熵的大数据移动软件相似性智能检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034377A (ja) * 2009-08-03 2011-02-17 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
US20130067579A1 (en) * 2011-09-14 2013-03-14 Mcafee, Inc. System and Method for Statistical Analysis of Comparative Entropy
JP2015138331A (ja) * 2014-01-21 2015-07-30 日本電信電話株式会社 情報端末、実行形式監視方法、プログラム
JP2017021776A (ja) * 2015-06-30 2017-01-26 エーオー カスペルスキー ラボAO Kaspersky Lab モバイルデバイスでの悪質なファイルを検出するシステム及び方法

Also Published As

Publication number Publication date
CN110210224B (zh) 2023-01-31
US11886583B2 (en) 2024-01-30
WO2020233322A1 (zh) 2020-11-26
US20220058263A1 (en) 2022-02-24
JP7197942B2 (ja) 2022-12-28
CN110210224A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
US11030311B1 (en) Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise
US10305889B2 (en) Identity authentication method and device and storage medium
WO2022095352A1 (zh) 基于智能决策的异常用户识别方法、装置及计算机设备
US10509905B2 (en) Ransomware mitigation system
US10547618B2 (en) Method and apparatus for setting access privilege, server and storage medium
JP2022520041A (ja) ビッグデータモバイルソフトウェアの類似性についての記述エントロピーに基づくインテリジェントな決定方法
WO2016206605A1 (zh) 一种客户端数据的采集方法和装置
CN109660327A (zh) 基于虹膜的区块链加密方法、装置及可读存储介质
CN115051798A (zh) 一种随机数生成方法、装置、电子设备及存储介质
CN112507336A (zh) 基于代码特征和流量行为的服务端恶意程序检测方法
CN111312333B (zh) 一种bwt查表性能改进方法、装置、设备和介质
Sari et al. Cryptography Triple Data Encryption Standard (3DES) for Digital Image Security
CN101217371B (zh) 实现用户帐号验证的方法
CN107729754A (zh) 基于API特征的Android恶意软件检测方法
JP2011209800A (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US9465921B1 (en) Systems and methods for selectively authenticating queries based on an authentication policy
CN110222507B (zh) 一种基于模糊哈希的恶意软件大数据智能学习识别方法
CN102663077B (zh) 基于Hits算法的Web搜索结果安全性排序方法
US20220318665A1 (en) Programmable Feature Extractor
CN111552963B (zh) 一种基于结构熵序列的恶意软件分类方法
KR102277870B1 (ko) 랜덤 스크립트를 이용한 자동 로그인 방지 방법 및 이를 수행하기 위한 서버
US11496489B1 (en) Knowledge-aware detection of attacks on a client device conducted with dual-use tools
WO2021035963A1 (zh) 音乐的信息嵌入方法、提取方法、装置、终端及存储介质
Mandal et al. Enhanced-Longest Common Subsequence based novel steganography approach for cloud storage
TWI779245B (zh) 異常流量偵測方法與異常流量偵測裝置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221209

R150 Certificate of patent or registration of utility model

Ref document number: 7197942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150