JP2008046695A - 類似度評価プログラム、類似度評価装置及び類似度評価方法 - Google Patents
類似度評価プログラム、類似度評価装置及び類似度評価方法 Download PDFInfo
- Publication number
- JP2008046695A JP2008046695A JP2006219079A JP2006219079A JP2008046695A JP 2008046695 A JP2008046695 A JP 2008046695A JP 2006219079 A JP2006219079 A JP 2006219079A JP 2006219079 A JP2006219079 A JP 2006219079A JP 2008046695 A JP2008046695 A JP 2008046695A
- Authority
- JP
- Japan
- Prior art keywords
- source code
- similarity
- target
- calculating
- correlation matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
【解決手段】類似度評価プログラム5は、コンピュータの記憶部2に記憶されたソースコード群の中から、ユーザにより選択された参照ソースコード及び類似度の算出対象となる2つ以上の対象ソースコードを標準化して、夫々にトークン列を作成する手順を制御部4に実行させる。また、作成された参照ソースコード及び対象ソースコードの各トークン列から相関マトリックスが夫々作成され、夫々の相関マトリックスを二値化された画像とみなして、テクスチャ特徴量が算出され、これらのテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、対象ソースコードの類似度を算出する手順を制御部4に実行させて、対象ソースコード間の類似度を算出する。
【選択図】図2
Description
CCFinder Official Site.インターネット<URL : http://ccfinder.net/ccfinderx.html.> I.D. Baxter, A. Yahin, L. Moura, M. Sant’Anna, and L. Bier. On finding duplication and near-duplication in large software systems.In IEEE International Conference on Softwave Maintenance, pp. 368-377, 1995 Andrian Marcus and Jonathan I. Maletic. Identification of High-Level Concept Clones in Source Code.In 16th IEEE International Conference on Softwave Maintenance, pp. 107-115, 2001
ASMは、テクスチャの一様性を示し、数式(6)により算出される。なお、Pδ(i,j)が大きな値を持つとASMは大きくなる。つまり、テクスチャの一様性が高いと判断できる。
CONは、濃度変化の強さを示し、数式(7)により算出される。画素対の濃度差|i.j|の画素全体についての平均であり、濃度差の高い画素対が多いほど値が大きくなる。
CORは、相関の強さを示し、数式(8)により算出される。この値は、画像内に特定のパターンが現れる場合に大きくなる。なお、μx,μy及びσx,σyは夫々、数式(9)に示されるPx(j),Py(i)の平均と標準偏差である。
IDMは、濃度変化の一様性を示し、数式(11)により算出される。これは画像が局所的な変化に乏しい場合に大きな値を持つ。
ENTは、画像の複雑さの尺度であると同時に情報量も表しており、数式(12)により算出される。これはPδ(i,j)の値が均等に割り当てられている程大きくなる。つまり、ENTが大きい場合には、画像中に多くの階調が満遍なく利用されていることを示す。
2 記憶部(記憶装置)
3 ユーザインタフェース部
4 制御部
5 類似度評価プログラム
6 結果表示部(結果表示手段)
11 参照ソースコード登録部(参照ソースコード登録手段)
12 対象ソースコード登録部(対象ソースコード登録手段)
13 相関マトリックス作成部(相関マトリックス作成手段)
14 テクスチャ特徴量算出部(テクスチャ特徴量算出手段)
15 類似度算出部(類似度算出手段)
Claims (9)
- 複数の一次元データ列間の類似度を算出して評価する類似度評価プログラムであって、
コンピュータの記憶装置に記憶された一次元データ列群の中から、ユーザにより任意に選択された複数の一次元データ列を参照データとして登録する参照データ登録手順と、
前記一次元データ列群の中から、類似度の算出対象となる少なくとも2つ以上の一次元データ列を対象データ列として登録する対象データ列登録手順と、
前記参照データと対象データ列から、前記参照データと対象データ列との相関マトリックスを夫々作成する相関マトリックス作成手順と、
前記作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するテクスチャ特徴量算出手順と、
前記複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象データ列の類似度を算出する類似度算出手順と、をコンピュータに実行させることを特徴とする類似度評価プログラム。 - 所定のプログラム言語で作成された複数のソースコード間の類似度を算出して評価する類似度評価プログラムであって、
コンピュータの記憶装置に記憶されたソースコード群の中から、ユーザにより任意に選択された複数のソースコードを参照ソースコードとして登録し、該参照ソースコードを標準化して、参照ソースコードトークン列を作成する参照ソースコード登録手順と、
前記ソースコード群の中から、類似度の算出対象となる少なくとも2つ以上のソースコードを対象ソースコードとして登録し、該対象ソースコードを標準化して、夫々の対象ソースコードについて対象ソースコードトークン列を作成する対象ソースコード登録手順と、
前記参照ソースコードトークン列及び対象ソースコードトークン列から、前記参照ソースコードと対象ソースコードとの相関マトリックスを夫々作成する相関マトリックス作成手順と、
前記作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するテクスチャ特徴量算出手順と、
前記複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象ソースコードの類似度を算出する類似度算出手順と、を更にコンピュータに実行させることを特徴とする請求項1に記載の類似度評価プログラム。 - 前記類似度算出手順の結果を、前記コンピュータと接続された画像表示装置に一覧表示する結果表示手順を更にコンピュータに実行させることを特徴とする請求項1又は請求項2に記載の類似度評価プログラム。
- 複数の一次元データ列間の類似度を算出して評価する類似度評価装置であって、
前記複数の一次元データ列を記憶する記憶手段と、
前記記憶手段に記憶された一次元データ列群の中から、ユーザにより任意に選択された複数の一次元データ列を参照データとして登録する参照データ登録手段と、
前記記憶手段に記憶された一次元データ列群の中から、類似度の算出対象となる少なくとも2つ以上の一次元データ列を対象データ列として登録する対象データ列登録手段と、
前記参照データ登録手段により登録された参照データと前記対象データ列登録手段により登録された対象データ列から、前記参照データと対象データ列との相関マトリックスを夫々作成する相関マトリックス作成手段と、
前記相関マトリックス作成手段により作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するテクスチャ特徴量算出手段と、
前記テクスチャ特徴量算出手段により算出された複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象データ列の類似度を算出する類似度算出手段と、を備えたことを特徴とする類似度評価装置。 - 所定のプログラム言語で作成された複数のソースコード間の類似度を算出して評価する類似度評価装置であって、
前記複数のソースコードを記憶する記憶手段と、
前記記憶手段に記憶されたソースコード群の中から、ユーザにより任意に選択された複数のソースコードを参照ソースコードとして登録し、該参照ソースコードを標準化して、参照ソースコードトークン列を作成する参照ソースコード登録手段と、
前記記憶手段に記憶されたソースコード群の中から、類似度の算出対象となる少なくとも2つ以上のソースコードを対象ソースコードとして登録し、該対象ソースコードを標準化して、夫々の対象ソースコードについて対象ソースコードトークン列を作成する対象ソースコード登録手段と、
前記参照ソースコード登録手段により作成された参照ソースコードトークン列と前記対象ソースコード登録手段により作成された対象ソースコードトークン列から、前記参照ソースコードと対象ソースコードとの相関マトリックスを夫々作成する相関マトリックス作成手段と、
前記相関マトリックス作成手段により作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するテクスチャ特徴量算出手段と、
前記テクスチャ特徴量算出手段により算出された複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象ソースコードの類似度を算出する類似度算出手段と、を備えたことを特徴とするソースコード類似度評価装置。 - 前記類似度算出手段の結果を一覧表示する結果表示手段を更に備えたことを特徴とする請求項4又は請求項5に記載の類似度評価装置。
- 複数の一次元データ列間の類似度を算出して評価する類似度評価方法であって、
コンピュータの記憶装置に記憶された一次元データ列群の中から、ユーザにより任意に選択された複数の一次元データ列を参照データとして登録するステップと、
前記一次元データ列群の中から、類似度の算出対象となる少なくとも2つ以上の一次元データ列を対象データ列として登録するステップと、
前記参照データと対象データ列から、前記参照データと対象データ列との相関マトリックスを夫々作成するステップと、
前記作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するステップと、
前記複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象データ列の類似度を算出するステップと、を含むことを特徴とする類似度評価方法。 - 所定のプログラム言語で作成された複数のソースコード間の類似度を算出して評価する類似度評価方法であって、
コンピュータの記憶装置に記憶されたソースコード群の中から、ユーザにより任意に選択された複数のソースコードを参照ソースコードとして登録し、該参照ソースコードを標準化して、参照ソースコードトークン列を作成するステップと、
前記ソースコード群の中から、類似度の算出対象となる少なくとも2つ以上のソースコードを対象ソースコードとして登録し、該対象ソースコードを標準化して、夫々の対象ソースコードについて対象ソースコードトークン列を作成するステップと、
前記参照ソースコードトークン列と対象ソースコードトークン列から、前記参照ソースコードと対象ソースコードとの相関マトリックスを夫々作成するステップと、
前記作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量算出するステップと、
前記複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象ソースコードの類似度を算出するステップと、を含むことを特徴とするソースコード類似度評価方法。 - 前記算出された少なくとも2つ以上の対象データ列の類似度を、前記コンピュータと接続された画像表示装置に一覧表示するステップを更に含むことを特徴とする請求項7又は請求項8に記載の類似度評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006219079A JP4560608B2 (ja) | 2006-08-11 | 2006-08-11 | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006219079A JP4560608B2 (ja) | 2006-08-11 | 2006-08-11 | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008046695A true JP2008046695A (ja) | 2008-02-28 |
JP4560608B2 JP4560608B2 (ja) | 2010-10-13 |
Family
ID=39180409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006219079A Expired - Fee Related JP4560608B2 (ja) | 2006-08-11 | 2006-08-11 | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4560608B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011096082A (ja) * | 2009-10-30 | 2011-05-12 | Hitachi Ltd | プログラム解析方法、プログラム解析プログラムおよびプログラム解析装置 |
JP2012164211A (ja) * | 2011-02-08 | 2012-08-30 | Hitachi Ltd | ソフトウェアの類似性評価方法 |
JP2014059743A (ja) * | 2012-09-18 | 2014-04-03 | Hitachi Ltd | ソースコード類似度評価プログラム、ソースコード類似度評価装置、および、コンピュータ読み取り可能な記憶媒体 |
JP2019045895A (ja) * | 2017-08-29 | 2019-03-22 | 富士通株式会社 | 生成プログラム、生成方法、生成装置、及び剽窃検知プログラム |
US11099842B2 (en) | 2019-01-08 | 2021-08-24 | Saudi Arabian Oil Company | Source code similarity detection using digital fingerprints |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6309795B2 (ja) | 2014-03-18 | 2018-04-11 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11308222A (ja) * | 1998-04-22 | 1999-11-05 | Sumitomo Electric Ind Ltd | ネットワーク管理システム |
JP2003029978A (ja) * | 2001-07-13 | 2003-01-31 | Japan Science & Technology Corp | 同形パターン検出システム |
JP2003216425A (ja) * | 2002-01-24 | 2003-07-31 | Japan Science & Technology Corp | 類似度計測システム |
JP2004073814A (ja) * | 2002-08-21 | 2004-03-11 | Kenji Ogaki | 非採血式ハンディ血糖計(3) |
JP2006018693A (ja) * | 2004-07-02 | 2006-01-19 | Fujitsu Ltd | 類似ソースコード抽出プログラム、類似ソースコード抽出装置および類似ソースコード抽出方法 |
-
2006
- 2006-08-11 JP JP2006219079A patent/JP4560608B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11308222A (ja) * | 1998-04-22 | 1999-11-05 | Sumitomo Electric Ind Ltd | ネットワーク管理システム |
JP2003029978A (ja) * | 2001-07-13 | 2003-01-31 | Japan Science & Technology Corp | 同形パターン検出システム |
JP2003216425A (ja) * | 2002-01-24 | 2003-07-31 | Japan Science & Technology Corp | 類似度計測システム |
JP2004073814A (ja) * | 2002-08-21 | 2004-03-11 | Kenji Ogaki | 非採血式ハンディ血糖計(3) |
JP2006018693A (ja) * | 2004-07-02 | 2006-01-19 | Fujitsu Ltd | 類似ソースコード抽出プログラム、類似ソースコード抽出装置および類似ソースコード抽出方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011096082A (ja) * | 2009-10-30 | 2011-05-12 | Hitachi Ltd | プログラム解析方法、プログラム解析プログラムおよびプログラム解析装置 |
JP2012164211A (ja) * | 2011-02-08 | 2012-08-30 | Hitachi Ltd | ソフトウェアの類似性評価方法 |
JP2014059743A (ja) * | 2012-09-18 | 2014-04-03 | Hitachi Ltd | ソースコード類似度評価プログラム、ソースコード類似度評価装置、および、コンピュータ読み取り可能な記憶媒体 |
JP2019045895A (ja) * | 2017-08-29 | 2019-03-22 | 富士通株式会社 | 生成プログラム、生成方法、生成装置、及び剽窃検知プログラム |
US11099842B2 (en) | 2019-01-08 | 2021-08-24 | Saudi Arabian Oil Company | Source code similarity detection using digital fingerprints |
Also Published As
Publication number | Publication date |
---|---|
JP4560608B2 (ja) | 2010-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Metamorphic object insertion for testing object detection systems | |
Soibelman et al. | Management and analysis of unstructured construction data types | |
US20190095806A1 (en) | SGCNN: Structural Graph Convolutional Neural Network | |
Stein et al. | Intrinsic plagiarism analysis | |
Sethi et al. | DLPaper2Code: Auto-generation of code from deep learning research papers | |
Tsutsui et al. | A data driven approach for compound figure separation using convolutional neural networks | |
US20050246353A1 (en) | Automated transformation of unstructured data | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
Sherkat et al. | Interactive document clustering revisited: a visual analytics approach | |
JP4560608B2 (ja) | 類似度評価プログラム、類似度評価装置及び類似度評価方法 | |
CN103678460A (zh) | 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
Nguyen et al. | CDeRSNet: Towards high performance object detection in Vietnamese document images | |
Haraldsson et al. | Exploring fitness and edit distance of mutated python programs | |
Costagliola et al. | Recognition and autocompletion of partially drawn symbols by using polar histograms as spatial relation descriptors | |
Zheng et al. | Joint learning of entity semantics and relation pattern for relation extraction | |
US20230385037A1 (en) | Method and system for automated discovery of artificial intelligence (ai)/ machine learning (ml) assets in an enterprise | |
Boillet et al. | Confidence estimation for object detection in document images | |
Rica et al. | Group of components detection in engineering drawings based on graph matching | |
Ghaemmaghami et al. | A new semantic approach to improve webpage segmentation | |
Le et al. | Subgraph spotting in graph representations of comic book images | |
CN113704108A (zh) | 一种相似代码检测方法及装置、电子设备、存储介质 | |
Goel et al. | Hybrid Elephant Herding Optimization–Big Bang Big Crunch for pattern recognition from natural images | |
CN114021541A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
Kashevnik et al. | An Approach to Engineering Drawing Organization: Title Block Detection and Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100628 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |