CN104298752A

CN104298752A - 基于web网页资源的程序代码缩略词的自动扩充方法

Info

Publication number: CN104298752A
Application number: CN201410543730.6A
Authority: CN
Inventors: 孙小兵; 赵晗
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2015-01-21
Anticipated expiration: 2034-10-15
Also published as: CN104298752B

Abstract

本发明公开了软件开发领域内的一种基于web网页资源的程序代码缩略词的自动扩充方法，包括以下步骤：1）收集缩略词；2）缩略词分类；3）建立扩展词库；4）生成缩略词推荐，本发明通过对缩略词进行分类，并按照不同类别将所需理解的缩略词与从web2.0网页中提取的缩略词进行匹配，得到该缩略词相关的注释，使得程序员对程序中缩略词的理解更加便捷，且准确度更高，提高了程序员理解程序的效率，可用于软件开发维护中。

Description

基于web网页资源的程序代码缩略词的自动扩充方法

技术领域

本发明涉及一种词语扩充技术，特别涉及一种缩略词扩充方法。

背景技术

当开发人员需要对给定的某个程序进行理解时，如果编程风格较好，则开发人员可以根据定义的标识符很容易地去理解程序。在程序中，除了定义较好的标识符外，还存在很多的缩略词，而开发人员在理解这些缩略词时，并不是很容易，很难猜测这些缩略词他们的全称是什么。因此在理解程序时，如果能够有技术对这些缩略词进行分析，辅助开发人员去理解程序时，开发人员理解程序的效率会得到较大提高。

而随着web2.0更加普遍的应用，越来越多的用户喜欢在web2.0平台上去交流问题，意见以及看法。通常来说，不同专业的专业人员都比较自己了解自己领域的缩略词，同样，对于开发人员，他们也喜欢通过Web2.0去交流他们的开发信息，这些信息中会存在大量的关于开发人员开发代码的信息，其中也包括一些缩略词的信息。因此，web2.0为程序代码中缩略词的自动的扩充提供了较好的数据来源。本发明就是通过Web2.0中数据建立扩充词库，然后根据库中信息去推荐代码中可能的缩略词的扩充；另外，该技术可以为用户在截短词，拼缀词以及首字母缩略词三种缩略词为用户提供扩展或解释，方便，快捷；并结合一定的语境尽力为用户提供最合适的扩展给用户参考。

发明内容

本发明的目的是提供一种基于web网页资源的程序代码缩略词的自动扩充方法，提高对缩略词理解的准确度和效率。

本发明的目的是这样实现的：一种基于web网页资源的程序代码缩略词的自动扩充方法，包括以下步骤：

1）收集缩略词：利用正则表达式提取程序源代码中的缩略词和完整词；

2）缩略词分类：去除上述完整词，并将提取出的缩略词分为三类，首字母缩略、拼缀词缩略、截短词缩略；

3）建立扩展词库：利用火车头采集器根据步骤2）中的缩略词从相关web2.0网页提取其对应的扩展词，并按照不同类别建立扩展词库；

4）生成缩略词推荐：建立表格，获得缩略词相关扩展词的注释。

与现有技术相比，本发明的有益效果在于，本发明通过对缩略词进行分类，并按照不同类别将所需理解的缩略词与从web2.0网页中提取的缩略词进行匹配，得到该缩略词相关的注释，使得程序员对程序中缩略词的理解更加便捷，且准确度更高，提高了程序员理解程序的效率。本发明可用于软件开发维护中。

作为本发明的改进，步骤2）中去除完整词的方法为：将步骤1）中提取的缩略词、完整词与英文词库进行匹配，将匹配成功的单词去除。英文词库中均为完整单词，将提取出的单词与英文词库进行匹配即可找出完整词，将完整词去除即获得缩略词，该方法操作简便。

作为本发明的改进，步骤2）中缩略词分类的具体方法为：对剩余的缩略词进行识别，若该缩略词全由大写字母组成，则判定该缩略词为首字母缩略词；若该缩略词内包含下划线或至少两个大写字母，则判定该缩略词为拼缀缩略词，拼缀缩略词由多个截短缩略词组成；剩余情况均为截短缩略词。根据缩略词词性的组成方式，通过扫描识别每个单词中的每个字母的大小写判定该单词的词性，使得词性分类便捷，且准确率高，进一步提高缩略词理解的精度。

作为本发明的改进，步骤3）中提取扩展词的具体方法为：

首字母缩略词：用正则表达式在web2.0网页上模糊匹配该缩略词的扩展词；

拼缀缩略词：先划分该缩略词，使其成为多个截短缩略词，再分别对单个截短缩略词通过正则表达式在web2.0网页上进行模糊匹配；

截短缩略词：对截短缩略词通过正则表达式在web2.0网页上进行模糊匹配。利用模糊匹配法将缩略词与web2.0网页进行匹配，进而得到该缩略词在web2.0网页上的相关扩展及注释，方便程序员对缩略词词意的理解。

作为本发明的进一步限定，划分缩略词的具体方法为：按顺序扫描要处理的缩略词，截取大写字母或下划线前的字符串成为单个截短缩略词。根据拼缀缩略词的组成特征，扫描拼缀缩略词的每个单词，从而的出组成该拼缀缩略词的两个或多个截短缩略词，再多这些截短缩略词进行模糊匹配，提高了缩略词的匹配进度，有利于程序员对程序的理解。

附图说明

图1是本发明操作流程图。

图2是本发明提取源程序中缩略词的过程。

图3是使用本发明来提取缩略词的一段源代码。

图4是本发明中利用正则表达式提取到的的缩略词。

图5是本发明中对所有提取到的缩略词进行分类后的结果。

图6是本发明中模糊匹配法通过web2.0网页提取出的扩展词结果。

图7是本发明中缩略词与扩展词存储关系图。

图8和9是本发明中扩展词在数据库中具体存储内容和形式。

具体实施方式

下面结合具体实施例对本发明作进一步描述。

选取一段java源程序中的代码作为本发明的源代码，如图3所示。

如图1-2所示的一种基于web网页资源的程序代码缩略词的自动扩充方法，包括以下步骤：

1）收集缩略词：利用正则表达式提取程序源代码中的缩略词和完整词，“（”前通常紧跟开发人员自定义的方法名称，写出提取这一位置的正则表达式“\w+\(”,就可以提取出所有“（”前面的缩略词了，提取结果如图4所示；

2）缩略词分类：去除上述完整词，将图4中提取的缩略词、完整词与英文词库进行匹配，将匹配成功的单词（即完整词）去除，并将提取出的缩略词分为三类，首字母缩略、拼缀词缩略、截短词缩略，对缩略词进行扫描识别，若该缩略词全由大写字母组成，则判定该缩略词为首字母缩略词（ATM）；若该缩略词内包含下划线或至少两个大写字母，则判定该缩略词为拼缀缩略词，拼缀缩略词由多个截短缩略词组成（str-_len、StyLen）；剩余情况均为截短缩略词（con），结果如图5所示；

3）建立扩展词库：利用火车头采集器根据步骤2）中的缩略词从相关web2.0网页提取其对应的扩展词，如图6所示；

首字母缩略词：用正则表达式在web2.0网页上模糊匹配该缩略词的扩展词，以“ATM”为例，其匹配结果为：Automatic Teller Machine、Asynchronous Transfer Mode、Air Traffic Management；

拼缀缩略词：先划分该缩略词，按顺序扫描要处理的缩略词，截取大写字母或下划线前的字符串成为单个截短缩略词，使其成为多个截短缩略词，再分别对单个截短缩略词通过正则表达式在web2.0网页上进行模糊匹配，以“StrLen”为例，划分成“Str”和“Len”，并对这两个截短词进行模糊匹配，匹配结果为：Steer-Lender、String-Lender、String-Length；

截短缩略词：对截短缩略词通过正则表达式在web2.0网页上进行模糊匹配，以“con”为例，匹配结果为：Configure、Contain、Concentrated；并按照不同类别建立扩展词库，缩略词与扩展词的关系如图7所示；

4）生成缩略词推荐：建立表格，获得缩略词相关扩展词的注释，结果如图8、9所示。

使用本发明获得的缩略词的扩展，可方便程序员对程序的理解，并提高程序对软件的维护以及改进。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种基于web网页资源的程序代码缩略词的自动扩充方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于web网页资源的程序代码缩略词的自动扩充方法，其特征在于，步骤2）中去除完整词的方法为：将步骤1）中提取的缩略词、完整词与英文词库进行匹配，将匹配成功的单词去除。

3.根据权利要求1所述的基于web网页资源的程序代码缩略词的自动扩充方法，其特征在于，步骤2）中缩略词分类的具体方法为：对剩余的缩略词进行识别，若该缩略词全由大写字母组成，则判定该缩略词为首字母缩略词；若该缩略词内包含下划线或至少两个大写字母，则判定该缩略词为拼缀缩略词，拼缀缩略词由多个截短缩略词组成；剩余情况均为截短缩略词。

4.根据权利要求1-3中任一项所述的基于web网页资源的程序代码缩略词的自动扩充方法，步骤3）中提取扩展词的具体方法为：

截短缩略词：对截短缩略词通过正则表达式在web2.0网页上进行模糊匹配。

5.根据权利要求4所述的基于web网页资源的程序代码缩略词的自动扩充方法，划分缩略词的具体方法为：按顺序扫描要处理的缩略词，截取大写字母或下划线前的字符串成为单个截短缩略词。