CN104298752A - 基于web网页资源的程序代码缩略词的自动扩充方法 - Google Patents

基于web网页资源的程序代码缩略词的自动扩充方法 Download PDF

Info

Publication number
CN104298752A
CN104298752A CN201410543730.6A CN201410543730A CN104298752A CN 104298752 A CN104298752 A CN 104298752A CN 201410543730 A CN201410543730 A CN 201410543730A CN 104298752 A CN104298752 A CN 104298752A
Authority
CN
China
Prior art keywords
initialism
brachymemma
program code
word
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410543730.6A
Other languages
English (en)
Other versions
CN104298752B (zh
Inventor
孙小兵
赵晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201410543730.6A priority Critical patent/CN104298752B/zh
Publication of CN104298752A publication Critical patent/CN104298752A/zh
Application granted granted Critical
Publication of CN104298752B publication Critical patent/CN104298752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了软件开发领域内的一种基于web网页资源的程序代码缩略词的自动扩充方法,包括以下步骤:1)收集缩略词;2)缩略词分类;3)建立扩展词库;4)生成缩略词推荐,本发明通过对缩略词进行分类,并按照不同类别将所需理解的缩略词与从web2.0网页中提取的缩略词进行匹配,得到该缩略词相关的注释,使得程序员对程序中缩略词的理解更加便捷,且准确度更高,提高了程序员理解程序的效率,可用于软件开发维护中。

Description

基于web网页资源的程序代码缩略词的自动扩充方法
技术领域
本发明涉及一种词语扩充技术,特别涉及一种缩略词扩充方法。
背景技术
当开发人员需要对给定的某个程序进行理解时,如果编程风格较好,则开发人员可以根据定义的标识符很容易地去理解程序。在程序中,除了定义较好的标识符外,还存在很多的缩略词,而开发人员在理解这些缩略词时,并不是很容易,很难猜测这些缩略词他们的全称是什么。因此在理解程序时,如果能够有技术对这些缩略词进行分析,辅助开发人员去理解程序时,开发人员理解程序的效率会得到较大提高。
而随着web2.0更加普遍的应用,越来越多的用户喜欢在web2.0平台上去交流问题,意见以及看法。通常来说,不同专业的专业人员都比较自己了解自己领域的缩略词,同样,对于开发人员,他们也喜欢通过Web2.0去交流他们的开发信息,这些信息中会存在大量的关于开发人员开发代码的信息,其中也包括一些缩略词的信息。因此,web2.0为程序代码中缩略词的自动的扩充提供了较好的数据来源。本发明就是通过Web2.0中数据建立扩充词库,然后根据库中信息去推荐代码中可能的缩略词的扩充;另外,该技术可以为用户在截短词,拼缀词以及首字母缩略词三种缩略词为用户提供扩展或解释,方便,快捷;并结合一定的语境尽力为用户提供最合适的扩展给用户参考。
发明内容
本发明的目的是提供一种基于web网页资源的程序代码缩略词的自动扩充方法,提高对缩略词理解的准确度和效率。
本发明的目的是这样实现的:一种基于web网页资源的程序代码缩略词的自动扩充方法,包括以下步骤:
1)收集缩略词:利用正则表达式提取程序源代码中的缩略词和完整词;
2)缩略词分类:去除上述完整词,并将提取出的缩略词分为三类,首字母缩略、拼缀词缩略、截短词缩略;
3)建立扩展词库:利用火车头采集器根据步骤2)中的缩略词从相关web2.0网页提取其对应的扩展词,并按照不同类别建立扩展词库;
4)生成缩略词推荐:建立表格,获得缩略词相关扩展词的注释。
与现有技术相比,本发明的有益效果在于,本发明通过对缩略词进行分类,并按照不同类别将所需理解的缩略词与从web2.0网页中提取的缩略词进行匹配,得到该缩略词相关的注释,使得程序员对程序中缩略词的理解更加便捷,且准确度更高,提高了程序员理解程序的效率。本发明可用于软件开发维护中。
作为本发明的改进,步骤2)中去除完整词的方法为:将步骤1)中提取的缩略词、完整词与英文词库进行匹配,将匹配成功的单词去除。英文词库中均为完整单词,将提取出的单词与英文词库进行匹配即可找出完整词,将完整词去除即获得缩略词,该方法操作简便。
作为本发明的改进,步骤2)中缩略词分类的具体方法为:对剩余的缩略词进行识别,若该缩略词全由大写字母组成,则判定该缩略词为首字母缩略词;若该缩略词内包含下划线或至少两个大写字母,则判定该缩略词为拼缀缩略词,拼缀缩略词由多个截短缩略词组成;剩余情况均为截短缩略词。根据缩略词词性的组成方式,通过扫描识别每个单词中的每个字母的大小写判定该单词的词性,使得词性分类便捷,且准确率高,进一步提高缩略词理解的精度。
作为本发明的改进,步骤3)中提取扩展词的具体方法为:
首字母缩略词:用正则表达式在web2.0网页上模糊匹配该缩略词的扩展词;
拼缀缩略词:先划分该缩略词,使其成为多个截短缩略词,再分别对单个截短缩略词通过正则表达式在web2.0网页上进行模糊匹配;
截短缩略词:对截短缩略词通过正则表达式在web2.0网页上进行模糊匹配。利用模糊匹配法将缩略词与web2.0网页进行匹配,进而得到该缩略词在web2.0网页上的相关扩展及注释,方便程序员对缩略词词意的理解。
作为本发明的进一步限定,划分缩略词的具体方法为:按顺序扫描要处理的缩略词,截取大写字母或下划线前的字符串成为单个截短缩略词。根据拼缀缩略词的组成特征,扫描拼缀缩略词的每个单词,从而的出组成该拼缀缩略词的两个或多个截短缩略词,再多这些截短缩略词进行模糊匹配,提高了缩略词的匹配进度,有利于程序员对程序的理解。
附图说明
图1是本发明操作流程图。
图2是本发明提取源程序中缩略词的过程。
图3是使用本发明来提取缩略词的一段源代码。
图4是本发明中利用正则表达式提取到的的缩略词。
图5是本发明中对所有提取到的缩略词进行分类后的结果。
图6是本发明中模糊匹配法通过web2.0网页提取出的扩展词结果。
图7是本发明中缩略词与扩展词存储关系图。
图8和9是本发明中扩展词在数据库中具体存储内容和形式。
具体实施方式
下面结合具体实施例对本发明作进一步描述。
选取一段java源程序中的代码作为本发明的源代码,如图3所示。
如图1-2所示的一种基于web网页资源的程序代码缩略词的自动扩充方法,包括以下步骤:
1)收集缩略词:利用正则表达式提取程序源代码中的缩略词和完整词,“(”前通常紧跟开发人员自定义的方法名称,写出提取这一位置的正则表达式“\w+\(”,就可以提取出所有“(”前面的缩略词了,提取结果如图4所示;
2)缩略词分类:去除上述完整词,将图4中提取的缩略词、完整词与英文词库进行匹配,将匹配成功的单词(即完整词)去除,并将提取出的缩略词分为三类,首字母缩略、拼缀词缩略、截短词缩略,对缩略词进行扫描识别,若该缩略词全由大写字母组成,则判定该缩略词为首字母缩略词(ATM);若该缩略词内包含下划线或至少两个大写字母,则判定该缩略词为拼缀缩略词,拼缀缩略词由多个截短缩略词组成(str-_len、StyLen);剩余情况均为截短缩略词(con),结果如图5所示;
3)建立扩展词库:利用火车头采集器根据步骤2)中的缩略词从相关web2.0网页提取其对应的扩展词,如图6所示;
首字母缩略词:用正则表达式在web2.0网页上模糊匹配该缩略词的扩展词,以“ATM”为例,其匹配结果为:Automatic Teller Machine、Asynchronous Transfer Mode、Air Traffic Management;
拼缀缩略词:先划分该缩略词,按顺序扫描要处理的缩略词,截取大写字母或下划线前的字符串成为单个截短缩略词,使其成为多个截短缩略词,再分别对单个截短缩略词通过正则表达式在web2.0网页上进行模糊匹配,以“StrLen”为例,划分成“Str”和“Len”,并对这两个截短词进行模糊匹配,匹配结果为:Steer-Lender、String-Lender、String-Length;
截短缩略词:对截短缩略词通过正则表达式在web2.0网页上进行模糊匹配,以“con”为例,匹配结果为:Configure、Contain、Concentrated;并按照不同类别建立扩展词库,缩略词与扩展词的关系如图7所示;
4)生成缩略词推荐:建立表格,获得缩略词相关扩展词的注释,结果如图8、9所示。
使用本发明获得的缩略词的扩展,可方便程序员对程序的理解,并提高程序对软件的维护以及改进。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。

Claims (5)

1.一种基于web网页资源的程序代码缩略词的自动扩充方法,其特征在于,包括以下步骤:
1)收集缩略词:利用正则表达式提取程序源代码中的缩略词和完整词;
2)缩略词分类:去除上述完整词,并将提取出的缩略词分为三类,首字母缩略、拼缀词缩略、截短词缩略;
3)建立扩展词库:利用火车头采集器根据步骤2)中的缩略词从相关web2.0网页提取其对应的扩展词,并按照不同类别建立扩展词库;
4)生成缩略词推荐:建立表格,获得缩略词相关扩展词的注释。
2.根据权利要求1所述的基于web网页资源的程序代码缩略词的自动扩充方法,其特征在于,步骤2)中去除完整词的方法为:将步骤1)中提取的缩略词、完整词与英文词库进行匹配,将匹配成功的单词去除。
3.根据权利要求1所述的基于web网页资源的程序代码缩略词的自动扩充方法,其特征在于,步骤2)中缩略词分类的具体方法为:对剩余的缩略词进行识别,若该缩略词全由大写字母组成,则判定该缩略词为首字母缩略词;若该缩略词内包含下划线或至少两个大写字母,则判定该缩略词为拼缀缩略词,拼缀缩略词由多个截短缩略词组成;剩余情况均为截短缩略词。
4.根据权利要求1-3中任一项所述的基于web网页资源的程序代码缩略词的自动扩充方法,步骤3)中提取扩展词的具体方法为:
首字母缩略词:用正则表达式在web2.0网页上模糊匹配该缩略词的扩展词;
拼缀缩略词:先划分该缩略词,使其成为多个截短缩略词,再分别对单个截短缩略词通过正则表达式在web2.0网页上进行模糊匹配;
截短缩略词:对截短缩略词通过正则表达式在web2.0网页上进行模糊匹配。
5.根据权利要求4所述的基于web网页资源的程序代码缩略词的自动扩充方法,划分缩略词的具体方法为:按顺序扫描要处理的缩略词,截取大写字母或下划线前的字符串成为单个截短缩略词。
CN201410543730.6A 2014-10-15 2014-10-15 基于web网页资源的程序代码缩略词的自动扩充方法 Active CN104298752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410543730.6A CN104298752B (zh) 2014-10-15 2014-10-15 基于web网页资源的程序代码缩略词的自动扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410543730.6A CN104298752B (zh) 2014-10-15 2014-10-15 基于web网页资源的程序代码缩略词的自动扩充方法

Publications (2)

Publication Number Publication Date
CN104298752A true CN104298752A (zh) 2015-01-21
CN104298752B CN104298752B (zh) 2017-08-08

Family

ID=52318477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410543730.6A Active CN104298752B (zh) 2014-10-15 2014-10-15 基于web网页资源的程序代码缩略词的自动扩充方法

Country Status (1)

Country Link
CN (1) CN104298752B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877951A (zh) * 2018-05-24 2018-11-23 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种放疗结构命名标准化方法、装置、设备及介质
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及系统
WO2020228183A1 (zh) * 2019-05-13 2020-11-19 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030145307A1 (en) * 2001-12-13 2003-07-31 Jahnke Steven R. Software development tool with embedded cache analysis
US20070245326A1 (en) * 2006-04-12 2007-10-18 Fujitsu Limited Software/hardware partitioning program and method
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN103530419A (zh) * 2013-10-29 2014-01-22 武汉大学 一种面向Web 服务描述的本体学习方法
CN103778142A (zh) * 2012-10-23 2014-05-07 南开大学 一种基于条件随机场的缩略词扩展解释识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030145307A1 (en) * 2001-12-13 2003-07-31 Jahnke Steven R. Software development tool with embedded cache analysis
US20070245326A1 (en) * 2006-04-12 2007-10-18 Fujitsu Limited Software/hardware partitioning program and method
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN103778142A (zh) * 2012-10-23 2014-05-07 南开大学 一种基于条件随机场的缩略词扩展解释识别方法
CN103530419A (zh) * 2013-10-29 2014-01-22 武汉大学 一种面向Web 服务描述的本体学习方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877951A (zh) * 2018-05-24 2018-11-23 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种放疗结构命名标准化方法、装置、设备及介质
CN108877951B (zh) * 2018-05-24 2022-03-25 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种放疗结构命名标准化方法、装置、设备及介质
WO2020228183A1 (zh) * 2019-05-13 2020-11-19 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及系统
CN110209755B (zh) * 2019-06-13 2021-06-18 思必驰科技股份有限公司 Poi导航地址的扩展方法及系统

Also Published As

Publication number Publication date
CN104298752B (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN101950284B (zh) 中文分词方法及系统
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN105468371B (zh) 一种基于主题聚类的业务流程图合并方法
CN103870447A (zh) 一种基于隐含狄利克雷模型的关键词抽取方法
CN102122280B (zh) 一种智能提取内容对象的方法及系统
Unnisa et al. Opinion mining on Twitter data using unsupervised learning technique
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN109683946B (zh) 一种基于代码克隆技术的用户评论推荐方法
CN107992476B (zh) 面向句子级生物关系网络抽取的语料库生成方法及系统
CN105138864A (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
CN103744837B (zh) 基于关键词抽取的多文本对照方法
CN104778157A (zh) 一种多文档摘要句的生成方法
CN106547765B (zh) 基于sql的数据库管理方法及装置
CN104298752A (zh) 基于web网页资源的程序代码缩略词的自动扩充方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN111859984A (zh) 意图挖掘方法、装置、设备及存储介质
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN103678280A (zh) 翻译任务碎片化的方法
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN103927176A (zh) 一种基于层次主题模型的程序特征树的生成方法
CN106096014A (zh) 基于dmr的混合长度文本集的文本聚类方法
CN102708285A (zh) 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant