JP4560608B2 - 類似度評価プログラム、類似度評価装置及び類似度評価方法 - Google Patents
類似度評価プログラム、類似度評価装置及び類似度評価方法 Download PDFInfo
- Publication number
- JP4560608B2 JP4560608B2 JP2006219079A JP2006219079A JP4560608B2 JP 4560608 B2 JP4560608 B2 JP 4560608B2 JP 2006219079 A JP2006219079 A JP 2006219079A JP 2006219079 A JP2006219079 A JP 2006219079A JP 4560608 B2 JP4560608 B2 JP 4560608B2
- Authority
- JP
- Japan
- Prior art keywords
- source code
- similarity
- target
- codes
- correlation matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Description
CCFinder Official Site.インターネット<URL : http://ccfinder.net/ccfinderx.html.> I.D. Baxter, A. Yahin, L. Moura, M. Sant’Anna, and L. Bier. On finding duplication and near-duplication in large software systems.In IEEE International Conference on Softwave Maintenance, pp. 368-377, 1995 Andrian Marcus and Jonathan I. Maletic. Identification of High-Level Concept Clones in Source Code.In 16th IEEE International Conference on Softwave Maintenance, pp. 107-115, 2001
ASMは、テクスチャの一様性を示し、数式(6)により算出される。なお、Pδ(i,j)が大きな値を持つとASMは大きくなる。つまり、テクスチャの一様性が高いと判断できる。
CONは、濃度変化の強さを示し、数式(7)により算出される。画素対の濃度差|i.j|の画素全体についての平均であり、濃度差の高い画素対が多いほど値が大きくなる。
CORは、相関の強さを示し、数式(8)により算出される。この値は、画像内に特定のパターンが現れる場合に大きくなる。なお、μx,μy及びσx,σyは夫々、数式(9)に示されるPx(j),Py(i)の平均と標準偏差である。
IDMは、濃度変化の一様性を示し、数式(11)により算出される。これは画像が局所的な変化に乏しい場合に大きな値を持つ。
ENTは、画像の複雑さの尺度であると同時に情報量も表しており、数式(12)により算出される。これはPδ(i,j)の値が均等に割り当てられている程大きくなる。つまり、ENTが大きい場合には、画像中に多くの階調が満遍なく利用されていることを示す。
2 記憶部(記憶装置)
3 ユーザインタフェース部
4 制御部
5 類似度評価プログラム
6 結果表示部(結果表示手段)
11 参照ソースコード登録部(参照ソースコード登録手段)
12 対象ソースコード登録部(対象ソースコード登録手段)
13 相関マトリックス作成部(相関マトリックス作成手段)
14 テクスチャ特徴量算出部(テクスチャ特徴量算出手段)
15 類似度算出部(類似度算出手段)
Claims (6)
- 所定のプログラム言語で作成された複数のソースコード間の類似度を算出して評価する類似度評価プログラムであって、
コンピュータの記憶装置に記憶されたソースコード群の中から、ユーザにより任意に選択された複数のソースコードを参照ソースコードとして登録し、該参照ソースコードを標準化して、参照ソースコードトークン列を作成する参照ソースコード登録手順と、
前記ソースコード群の中から、類似度の算出対象となる少なくとも2つ以上のソースコードを対象ソースコードとして登録し、該対象ソースコードを標準化して、夫々の対象ソースコードについて対象ソースコードトークン列を作成する対象ソースコード登録手順と、
前記参照ソースコードトークン列及び対象ソースコードトークン列から、前記参照ソースコードと対象ソースコードとの相関マトリックスを夫々作成する相関マトリックス作成手順と、
前記作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するテクスチャ特徴量算出手順と、
前記複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象ソースコードの類似度を算出する類似度算出手順と、を更にコンピュータに実行させることを特徴とする類似度評価プログラム。 - 前記類似度算出手順の結果を、前記コンピュータと接続された画像表示装置に一覧表示する結果表示手順を更にコンピュータに実行させることを特徴とする請求項1に記載の類似度評価プログラム。
- 所定のプログラム言語で作成された複数のソースコード間の類似度を算出して評価する類似度評価装置であって、
前記複数のソースコードを記憶する記憶手段と、
前記記憶手段に記憶されたソースコード群の中から、ユーザにより任意に選択された複数のソースコードを参照ソースコードとして登録し、該参照ソースコードを標準化して、参照ソースコードトークン列を作成する参照ソースコード登録手段と、
前記記憶手段に記憶されたソースコード群の中から、類似度の算出対象となる少なくとも2つ以上のソースコードを対象ソースコードとして登録し、該対象ソースコードを標準化して、夫々の対象ソースコードについて対象ソースコードトークン列を作成する対象ソースコード登録手段と、
前記参照ソースコード登録手段により作成された参照ソースコードトークン列と前記対象ソースコード登録手段により作成された対象ソースコードトークン列から、前記参照ソースコードと対象ソースコードとの相関マトリックスを夫々作成する相関マトリックス作成手段と、
前記相関マトリックス作成手段により作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するテクスチャ特徴量算出手段と、
前記テクスチャ特徴量算出手段により算出された複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象ソースコードの類似度を算出する類似度算出手段と、を備えたことを特徴とするソースコード類似度評価装置。 - 前記類似度算出手段の結果を一覧表示する結果表示手段を更に備えたことを特徴とする請求項3に記載の類似度評価装置。
- コンピュータによって、所定のプログラム言語で作成された複数のソースコード間の類似度を算出して評価する類似度評価方法であって、
前記コンピュータが、該コンピュータの記憶装置に記憶されたソースコード群の中から、ユーザにより任意に選択された複数のソースコードを参照ソースコードとして登録し、該参照ソースコードを標準化して、参照ソースコードトークン列を作成するステップと、
前記コンピュータが、前記ソースコード群の中から、類似度の算出対象となる少なくとも2つ以上のソースコードを対象ソースコードとして登録し、該対象ソースコードを標準化して、夫々の対象ソースコードについて対象ソースコードトークン列を作成するステップと、
前記コンピュータが、前記参照ソースコードトークン列と対象ソースコードトークン列から、前記参照ソースコードと対象ソースコードとの相関マトリックスを夫々作成するステップと、
前記コンピュータが、前記作成された夫々の相関マトリックスを二値化された画像とみなして、各相関マトリックスにおいて複数のテクスチャ特徴量を算出するステップと、
前記コンピュータが、前記複数のテクスチャ特徴量を参照ベクトルとし、夫々の相関マトリックスに対応する各参照ベクトル間の距離を算出することにより、前記対象ソースコードの類似度を算出するステップと、を含むことを特徴とする類似度評価方法。 - 前記コンピュータが、前記算出された少なくとも2つ以上の対象データ列の類似度を、前記コンピュータと接続された画像表示装置に一覧表示するステップを更に含むことを特徴とする請求項5に記載の類似度評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006219079A JP4560608B2 (ja) | 2006-08-11 | 2006-08-11 | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006219079A JP4560608B2 (ja) | 2006-08-11 | 2006-08-11 | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008046695A JP2008046695A (ja) | 2008-02-28 |
JP4560608B2 true JP4560608B2 (ja) | 2010-10-13 |
Family
ID=39180409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006219079A Expired - Fee Related JP4560608B2 (ja) | 2006-08-11 | 2006-08-11 | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4560608B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495150B2 (en) | 2014-03-18 | 2016-11-15 | Kabushiki Kaisha Toshiba | Information processing apparatus and method, and computer program product |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5342407B2 (ja) * | 2009-10-30 | 2013-11-13 | 株式会社日立製作所 | プログラム解析方法、プログラム解析プログラムおよびプログラム解析装置 |
JP5564448B2 (ja) * | 2011-02-08 | 2014-07-30 | 株式会社日立製作所 | ソフトウェアの類似性評価方法 |
JP5875961B2 (ja) * | 2012-09-18 | 2016-03-02 | 株式会社日立製作所 | ソースコード類似度評価プログラム、ソースコード類似度評価装置、および、コンピュータ読み取り可能な記憶媒体 |
US11099842B2 (en) | 2019-01-08 | 2021-08-24 | Saudi Arabian Oil Company | Source code similarity detection using digital fingerprints |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003029978A (ja) * | 2001-07-13 | 2003-01-31 | Japan Science & Technology Corp | 同形パターン検出システム |
JP2003216425A (ja) * | 2002-01-24 | 2003-07-31 | Japan Science & Technology Corp | 類似度計測システム |
JP2004073814A (ja) * | 2002-08-21 | 2004-03-11 | Kenji Ogaki | 非採血式ハンディ血糖計(3) |
JP2006018693A (ja) * | 2004-07-02 | 2006-01-19 | Fujitsu Ltd | 類似ソースコード抽出プログラム、類似ソースコード抽出装置および類似ソースコード抽出方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11308222A (ja) * | 1998-04-22 | 1999-11-05 | Sumitomo Electric Ind Ltd | ネットワーク管理システム |
-
2006
- 2006-08-11 JP JP2006219079A patent/JP4560608B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003029978A (ja) * | 2001-07-13 | 2003-01-31 | Japan Science & Technology Corp | 同形パターン検出システム |
JP2003216425A (ja) * | 2002-01-24 | 2003-07-31 | Japan Science & Technology Corp | 類似度計測システム |
JP2004073814A (ja) * | 2002-08-21 | 2004-03-11 | Kenji Ogaki | 非採血式ハンディ血糖計(3) |
JP2006018693A (ja) * | 2004-07-02 | 2006-01-19 | Fujitsu Ltd | 類似ソースコード抽出プログラム、類似ソースコード抽出装置および類似ソースコード抽出方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495150B2 (en) | 2014-03-18 | 2016-11-15 | Kabushiki Kaisha Toshiba | Information processing apparatus and method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP2008046695A (ja) | 2008-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Metamorphic object insertion for testing object detection systems | |
Soibelman et al. | Management and analysis of unstructured construction data types | |
US20160253596A1 (en) | Geometry-directed active question selection for question answering systems | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
US20050246353A1 (en) | Automated transformation of unstructured data | |
Sethi et al. | DLPaper2Code: Auto-generation of code from deep learning research papers | |
CN111512315A (zh) | 文档元数据的按块提取 | |
JP4560608B2 (ja) | 類似度評価プログラム、類似度評価装置及び類似度評価方法 | |
US20140301644A1 (en) | Extracting Reading Order Text and Semantic Entities | |
CN110909531A (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
Haraldsson et al. | Exploring fitness and edit distance of mutated python programs | |
AU2015204339B2 (en) | Information processing apparatus and information processing program | |
CN110633456A (zh) | 语种识别方法、装置、服务器及存储介质 | |
Becker et al. | Free benchmark corpora for preservation experiments: using model-driven engineering to generate data sets | |
US20230385037A1 (en) | Method and system for automated discovery of artificial intelligence (ai)/ machine learning (ml) assets in an enterprise | |
Boillet et al. | Confidence estimation for object detection in document images | |
Wu et al. | Maximizing correctness with minimal user effort to learn data transformations | |
Ghaemmaghami et al. | A new semantic approach to improve webpage segmentation | |
JP2011191834A (ja) | 文書分類方法、文書分類装置、およびプログラム | |
CN111562943B (zh) | 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置 | |
CN114780577A (zh) | Sql语句生成方法、装置、设备及存储介质 | |
Goel et al. | Hybrid Elephant Herding Optimization–Big Bang Big Crunch for pattern recognition from natural images | |
CN113704108A (zh) | 一种相似代码检测方法及装置、电子设备、存储介质 | |
Watanabe et al. | Layout cross-platform and cross-browser incompatibilities detection using classification of DOM elements | |
CN105677827A (zh) | 一种表单的获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100628 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |