CN109828748A - 代码命名方法、系统、计算机装置及计算机可读存储介质 - Google Patents
代码命名方法、系统、计算机装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109828748A CN109828748A CN201811537719.3A CN201811537719A CN109828748A CN 109828748 A CN109828748 A CN 109828748A CN 201811537719 A CN201811537719 A CN 201811537719A CN 109828748 A CN109828748 A CN 109828748A
- Authority
- CN
- China
- Prior art keywords
- code
- keyword
- annotation
- code element
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000009434 installation Methods 0.000 title claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 55
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 abstract description 8
- 230000018109 developmental process Effects 0.000 description 9
- 238000009825 accumulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种代码命名方法、系统、计算机装置及计算机可读存储介质。所述代码命名方法包括:从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字;根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表;获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字;从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字;将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。本发明可实现智能对代码元素进行命名,为代码开发人员提供代码开发辅助,可提升软件开发效率。
Description
技术领域
本发明涉及软件开发领域,尤其涉及一种代码命名方法、系统、计算机装置及计算机可读存储介质。
背景技术
在软件程序开发过程中,开发人员想要在程序中创建变量、函数等代码元素时,需要在创建这些代码元素之前预先为其进行命名,且名称一般都是英文名称。目前对代码元素的命名都是由开发人员自己手动进行创建,对于非英语的开发者,给函数、类等代码元素进行命名时可能会出现命名不规范,元素名称不能很好的表达代码要完成的工作,且研发人员往往需要耗费较多的时间去思考代码元素的命名,使得代码元素的命名效率较为低下。
发明内容
鉴于上述,本发明提供一种代码命名方法、系统、计算机装置及计算机可读存储介质,其可以实现代码智能命名,提升软件开发效率。
本申请一实施方式提供一种代码命名方法,所述方法包括:
从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字,其中所述预设代码库中包含多个代码段,每一所述代码段包括一个或多个代码元素;
根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表;
获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字,其中所述描述信息用于描述所述待命名的代码元素的功能;
从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字;及
将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。
优选地,所述代码元素包括以下的一种或者多种:变量、常量、函数、类、文件,所述描述信息为所述待命名的代码元素的注释。
优选地,所述从所述描述信息提取出描述关键字的步骤包括:
对所述描述信息进行分词处理及词性标注,得到与所述描述信息对应的多个分词,其中每一所述分词标注有一词性;
对多个所述分词进行合并去重处理;及
统计每一所述分词在所述描述信息中的TF-IDF信息,并根据所述TF-IDF信息及每一所述分词的预设权重从多个所述分词中选取出一个或者多个分词作为所述描述关键字。
优选地,所述从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字的步骤包括:
利用文本相似度算法计算得到所述映射表中每一所述注释关键字与所述描述关键字的相似度;及
根据计算得到的相似度筛选出与所述描述关键字相似度大于预设阈值的注释关键字。
优选地,所述从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字的步骤之后还包括:
当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,将所述描述关键字输入至代码命名模型,得到所述待命名的代码元素的推荐命名;
其中,所述代码命名模型是根据所述预设代码库中提取得到的代码元素的命名及注释关键字建立并训练得到。
优选地,所述代码命名模型的训练步骤包括:
将从所述预设代码库中提取得到的代码元素的命名及注释关键字进行文本向量化处理,以获取向量化表示的训练数据;及
采用条件随机场算法对所述训练数据进行训练,得到所述代码命名模型。
优选地,所述从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字的步骤之后还包括:
当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,将所述描述关键字转换成英文单词,并将所述英文单词作为所述待命名的代码元素的推荐命名。
本申请一实施方式提供一种代码命名系统,所述系统包括:
提取模块,用于从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字,其中所述预设代码库中包含多个代码段,每一所述代码段包括一个或多个代码元素;
建立模块,用于根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表;
获取模块,用于获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字,其中所述描述信息用于描述所述待命名的代码元素的功能;
查找模块,用于从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字;及
推荐模块,用于将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。
本申请一实施方式提供一种计算机装置,所述计算机装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现如前面所述的代码命名方法的步骤。
本申请一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前面所述的代码命名方法的步骤。
上述代码命名方法、系统、计算机装置及计算机可读存储介质,通过从预设代码库中提取得到多个代码元素的命名及对应的注释关键字并建立一代码元素名称与注释关键字的映射表,当开发者需要创建新的代码元素时,通过获取待命名的代码元素的描述信息并根据该描述信息来从所述映射表中查找与所述待命名的代码元素匹配的可推荐命名,当所述映射表不存在与所述待命名的代码元素匹配的命名时,还可以通过代码命名模型或者自动化翻译来实现推荐与所述待命名的代码元素匹配的命名,节省了开发时间,提升开发者的代码开发效率。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中代码命名方法的步骤流程图。
图2是本发明另一实施例中代码命名方法的步骤流程图。
图3为本发明一实施例中代码命名系统的功能模块图。
图4为本发明一实施例中计算机装置示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。
优选地,本发明的代码命名方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本电脑、平板电脑、服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一:
图1是本发明代码命名方法较佳实施例的步骤流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
参阅图1所示,所述代码命名方法具体包括以下步骤。
步骤S11、从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字,其中所述预设代码库中包含多个代码段,每一所述代码段包括一个或多个代码元素。
在一实施方式中,所述代码为程序开发人员用开发工具所支持的语言所写出来的计算机语言指令。所述预设代码库中可包含有用于实现不同功能的多个代码段,所述预设代码库中的代码可以是程序开发人员自行上传的代码,或者下载预先存储于多个第三方代码共享平台中的代码。第三方代码共享平台例如可以是bitbucket以及gitHub等。
所述预设代码库中的每一代码段中包括有各种类型的代码元素,所述代码元素包括但不限于变量、常量、函数、类以及文件等。在编程过程中,为了提高程序的易读性,程序开发人员通常会对各代码段进行注释,注释通常用于描述代码所能实现的功能或者创建意图,注释需要满足代码注释的格式要求,以使得代码能够被正常编译。
在一实施方式中,可通过语法分析技术,例如clang或llvm等方式,将各代码段转换为语法树后整理出存在于所述预设代码库中的各个代码元素的命名以及注释,然后再通过预设提取算法来提取注释关键字,比如TF-IDF算法。
步骤S12、根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表。
在一实施方式中,该映射表中至少包含两列,一列用于存储各个代码元素名称,另一列用于存储与各个代码元素名称对应的注释关键字,相互对应的代码元素名称和注释关键字处于该映射表的同一行,不对应的代码元素名称和注释关键字处于该映射表的不同行。
步骤S13,获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字,其中所述描述信息用于描述所述待命名的代码元素的功能。
在一实施方式中,当用户想在其需开发的应用程序中创建一个新的代码元素时,可以请求用户输入与该代码元素相关的描述信息。例如,若想要为一个变量进行命名,且该变量主要用于实现累积计数的功能,则获取得到的用户输入的代码元素描述信息可以是“计数器”。其中,用户输入的代码元素描述信息包括但不限于中文或英文等不同种类的语言文字。所述描述信息也可以以注释的形式添加至创建的代码中。
在一实施方式中,可以通过以下方式来实现从所述描述信息提取出描述关键字:对所述描述信息进行分词处理及词性标注,得到与所述描述信息对应的多个分词,其中每一所述分词标注有一词性;对多个所述分词进行合并去重处理;及统计每一所述分词在所述描述信息中的TF-IDF信息,并根据所述TF-IDF信息及每一所述分词的预设权重从多个所述分词中选取出一个或者多个分词作为所述描述关键字。
对于用户所输入的代码元素的描述信息,去除该描述信息中的停用词,并对该描述信息中剩余的各个字符进行分词处理,以得到该描述信息对应的多个分词,每一分词具有一词性,例如:/v表示动词、/r表示代词、/n表示名词、/u表示助词、/a表示形容词,词性标注可以基于HMM(Hidden Markov Model,隐马尔可夫模型)方法来实现;当完成分词处理与词性标注后,再对该多个分词进行去重处理,从中筛选出互不重复的分词。
每一词性预先定义有不同的词性权重,例如,词性权重大小由高到低是:动词>名称>形容词>助词>代词,对于函数或类的命名选取的动词的概率最高,对应的权重最大,选取的代词的概率最低,对应的权重最小。对于每一个分词通过获取该分词在所述描述信息中所出现的频率及与该分词对应的权重值,频率即为词频(TF,term frequency),权重值即为逆向文件频率(IDF,Inverse Document Frequency)。将每一分词在所述描述信息中所对应的词频以及逆向文件频率的乘积作为该分词的TF-IDF信息,再根据每一所述分词的TF-IDF信息与词性权重的乘积大小来选取出一个或者多个分词作为所述描述关键字。
步骤S14,从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字。
在一实施方式中,可以利用文本相似度算法计算得到所述映射表中每一所述注释关键字与所述描述关键字的相似度,再根据计算得到的相似度筛选出与所述描述关键字相似度大于预设阈值的注释关键字。所述预设阈值可以根据实际需求进行设定,比如所述预设阈值设定为0.8。所述文本相似度算法包括但不限于余弦距离、欧式距离、杰卡德距离以及概率分布距离(K-L距离)等相似性度量方法。
步骤S15,将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。
举例而言,当从所述映射表中查找得出第一代码元素的注释关键字与用户创建的代码元素的描述关键字的相似度大于所述预设阈值时,则表明第一代码元素与用户创建的代码元素的功能、属性、使用方式等相同的概率相对较高,故第一代码元素的命名也可能适用于用户创建的代码元素。因此,可以将查找得到的第一代码元素的命名推荐至用户。
在一实施方式中,当与所述描述关键字的相似度大于所述预设阈值的注释关键字存在多个时,此时可以同时输出多个推荐的代码元素的命名,使得用户可以从当前时刻所展示的多个推荐命名中,选取自己所需创建的代码元素的命名,或者,选取出其中的一个推荐命名后,为该命名添加额外的字符(如序号)。
在一实施方式中,可以将当前时刻用户选取的推荐命名的累积选取次数进行记录并加一,以便在再次接收到用户输入的代码的描述信息时,根据对应的所述累积选取次数的高低顺序,将与所述描述信息对应的多个推荐命名按照选取次数的高低按序展示。
请同时参阅图2,与图1示出的代码命名方法相比,图2示处的代码命名方法还包括步骤S16。
步骤S16,当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,将所述描述关键字输入至代码命名模型,得到所述待命名的代码元素的推荐命名。
在一实施方式中,当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,表明映射表中不存在与所述描述关键字相匹配的注释关键字,用户无法从所述映射表中获取推荐的命名,此时可以将所述描述关键字输入至代码命名模型,得到所述待命名的代码元素的推荐命名。
在一实施方式中,所述代码命名模型可以根据所述预设代码库中提取得到的代码元素的命名及注释关键字建立并训练得到。具体地,可以通过以下方式训练得到代码命名模型:将从所述预设代码库中提取得到的代码元素的命名及注释关键字进行文本向量化处理,以获取向量化表示的训练数据;及采用条件随机场算法对所述目标训练数据进行训练,得到所述代码命名模型。其中,文本向量化处理是指对文本进行向量化表示的处理,由于模型不能直接对词或字进行计算,因此在对训练数据进行训练时,需要将原始训练数据(代码元素的命名及注释关键字)进行文本向量化处理,以获取向量化表示的目标训练数据,进而实现对代码命名模型进行训练。
在一实施方式中,当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,还可以直接将描述关键字直接翻译成英文单词,并将翻译得到的所述英文单词作为所述用户创建的代码元素的推荐命名。
上述代码命名方法通过从预设代码库中提取得到多个代码元素的命名及对应的注释关键字并建立一代码元素名称与注释关键字的映射表,当开发者需要创建新的代码元素时,通过获取待命名的代码元素的描述信息并根据该描述信息来从所述映射表中查找与所述待命名的代码元素匹配的可推荐命名,当所述映射表不存在与所述待命名的代码元素匹配的命名时,还可以通过代码命名模型或者自动化翻译来实现推荐与所述待命名的代码元素匹配的命名,节省了开发时间,提升开发者的代码开发效率。
实施例二:
图3为本发明代码命名系统较佳实施例的功能模块图。
参阅图3所示,所述代码命名系统10可以包括提取模块101、建立模块102、获取模块103、查找模块104、推荐模块105及处理模块106。
所述提取模块101用于从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字,其中所述预设代码库中包含多个代码段,每一所述代码段包括一个或多个代码元素。
在一实施方式中,所述代码为程序开发人员用开发工具所支持的语言所写出来的计算机语言指令。所述预设代码库中可包含有用于实现不同功能的多个代码段,所述预设代码库中的代码可以是程序开发人员自行上传的代码,或者下载预先存储于多个第三方代码共享平台中的代码。第三方代码共享平台例如可以是bitbucket以及gitHub等。
所述预设代码库中的每一代码段中包括有各种类型的代码元素,所述代码元素包括但不限于变量、常量、函数、类以及文件等。在编程过程中,为了提高程序的易读性,程序开发人员通常会对各代码段进行注释,注释通常用于描述代码所能实现的功能或者创建意图,注释需要满足代码注释的格式要求,以使得代码能够被正常编译。
在一实施方式中,所述提取模块101可通过语法分析技术,例如clang或llvm等方式,将各代码段转换为语法树后整理出存在于所述预设代码库中的各个代码元素的命名以及注释,然后再通过预设提取算法来提取注释关键字,比如TF-IDF算法。
所述建立模块102用于根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表。
在一实施方式中,所述建立模块102建立的映射表至少包含两列,一列用于存储各个代码元素名称,另一列用于存储与各个代码元素名称对应的注释关键字,相互对应的代码元素名称和注释关键字处于该映射表的同一行,不对应的代码元素名称和注释关键字处于该映射表的不同行。
所述获取模块103用于获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字,其中所述描述信息用于描述所述待命名的代码元素的功能。
在一实施方式中,当用户想在其需开发的应用程序中创建一个新的代码元素时,可以请求用户输入与该代码元素相关的描述信息。例如,若想要为一个变量进行命名,且该变量主要用于实现累积计数的功能,则获取得到的用户输入的代码元素描述信息可以是“计数器”。其中,用户输入的代码元素描述信息包括但不限于中文或英文等不同种类的语言文字。所述描述信息也可以以注释的形式添加至创建的代码中。
在一实施方式中,所述获取模块103可以通过以下方式来实现从所述描述信息提取出描述关键字:对所述描述信息进行分词处理及词性标注,得到与所述描述信息对应的多个分词,其中每一所述分词标注有一词性;对多个所述分词进行合并去重处理;及统计每一所述分词在所述描述信息中的TF-IDF信息,并根据所述TF-IDF信息及每一所述分词的预设权重从多个所述分词中选取出一个或者多个分词作为所述描述关键字。
对于用户所输入的代码元素的描述信息,去除该描述信息中的停用词,并对该描述信息中剩余的各个字符进行分词处理,以得到该描述信息对应的多个分词,每一分词具有一词性,例如:/v表示动词、/r表示代词、/n表示名词、/u表示助词、/a表示形容词,词性标注可以基于HMM(Hidden Markov Model,隐马尔可夫模型)方法来实现;当完成分词处理与词性标注后,再对该多个分词进行去重处理,从中筛选出互不重复的分词。
每一词性预先定义有不同的词性权重,例如,词性权重大小由高到低是:动词>名称>形容词>助词>代词,对于函数或类的命名选取的动词的概率最高,对应的权重最大,选取的代词的概率最低,对应的权重最小。对于每一个分词通过获取该分词在所述描述信息中所出现的频率及与该分词对应的权重值,频率即为词频(TF,term frequency),权重值即为逆向文件频率(IDF,Inverse Document Frequency)。将每一分词在所述描述信息中所对应的词频以及逆向文件频率的乘积作为该分词的TF-IDF信息,再根据每一所述分词的TF-IDF信息与词性权重的乘积大小来选取出一个或者多个分词作为所述描述关键字。
所述查找模块104用于从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字。
在一实施方式中,所述查找模块104可以利用文本相似度算法计算得到所述映射表中每一所述注释关键字与所述描述关键字的相似度,再根据计算得到的相似度筛选出与所述描述关键字相似度大于预设阈值的注释关键字。所述预设阈值可以根据实际需求进行设定,比如所述预设阈值设定为0.8。所述文本相似度算法包括但不限于余弦距离、欧式距离、杰卡德距离以及概率分布距离(K-L距离)等相似性度量方法。
所述推荐模块105用于将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。
举例而言,当从所述映射表中查找得出第一代码元素的注释关键字与用户创建的代码元素的描述关键字的相似度大于所述预设阈值时,则表明第一代码元素与用户创建的代码元素的功能、属性、使用方式等相同的概率相对较高,故第一代码元素的命名也可能适用于用户创建的代码元素。因此,所述推荐模块105可以将查找得到的第一代码元素的命名推荐至用户。
在一实施方式中,当与所述描述关键字的相似度大于所述预设阈值的注释关键字存在多个时,此时所述推荐模块105可以同时输出多个推荐的代码元素的命名,使得用户可以从当前时刻所展示的多个推荐命名中,选取自己所需创建的代码元素的命名,或者,选取出其中的一个推荐命名后,为该命名添加额外的字符(如序号)。
在一实施方式中,可以将当前时刻用户选取的推荐命名的累积选取次数进行记录并加一,以便在再次接收到用户输入的代码的描述信息时,根据对应的所述累积选取次数的高低顺序,将与所述描述信息对应的多个推荐命名按照选取次数的高低按序展示。
所述处理模块106用于在所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,将所述描述关键字输入至代码命名模型,得到所述待命名的代码元素的推荐命名。
在一实施方式中,当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,表明映射表中不存在与所述描述关键字相匹配的注释关键字,用户无法从所述映射表中获取推荐的命名,此时所述处理模块106可以将所述描述关键字输入至代码命名模型,得到所述待命名的代码元素的推荐命名。
在一实施方式中,所述代码命名模型可以根据所述预设代码库中提取得到的代码元素的命名及注释关键字建立并训练得到。具体地,所述处理模块106可以通过以下方式训练得到代码命名模型:将从所述预设代码库中提取得到的代码元素的命名及注释关键字进行文本向量化处理,以获取向量化表示的训练数据;及采用条件随机场算法对所述目标训练数据进行训练,得到所述代码命名模型。其中,文本向量化处理是指对文本进行向量化表示的处理,由于模型不能直接对词或字进行计算,因此在对训练数据进行训练时,需要将原始训练数据(代码元素的命名及注释关键字)进行文本向量化处理,以获取向量化表示的目标训练数据,进而实现对代码命名模型进行训练。
在一实施方式中,当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,所述处理模块106还可以直接将描述关键字直接翻译成英文单词,并将翻译得到的所述英文单词作为所述用户创建的代码元素的推荐命名。
上述代码命名系统通过从预设代码库中提取得到多个代码元素的命名及对应的注释关键字并建立一代码元素名称与注释关键字的映射表,当开发者需要创建新的代码元素时,通过获取待命名的代码元素的描述信息并根据该描述信息来从所述映射表中查找与所述待命名的代码元素匹配的可推荐命名,当所述映射表不存在与所述待命名的代码元素匹配的命名时,还可以通过代码命名模型或者自动化翻译来实现推荐与所述待命名的代码元素匹配的命名,节省了开发时间,提升开发者的代码开发效率。
图4为本发明计算机装置较佳实施例的示意图。
所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40,例如代码命名程序。所述处理器30执行所述计算机程序40时实现上述代码命名方法实施例中的步骤,例如图1所示的步骤S11~S15,图2所示的步骤S11~S16。或者,所述处理器30执行所述计算机程序40时实现上述代码命名系统实施例中各模块的功能,例如图3中的模块101~106。
示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如,所述计算机程序40可以被分割成图3中的提取模块101、建立模块102、获取模块103、查找模块104、推荐模块105及处理模块106。各模块具体功能参见实施例二。
所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图仅仅是计算机装置1的示例,并不构成对计算机装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器30也可以是任何常规的处理器等,所述处理器30是所述计算机装置1的控制中心,利用各种接口和线路连接整个计算机装置1的各个部分。
所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的计算机装置和方法,可以通过其它的方式实现。例如,以上所描述的计算机装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种代码命名方法,其特征在于,所述方法包括:
从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字,其中所述预设代码库中包含多个代码段,每一所述代码段包括一个或多个代码元素;
根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表;
获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字,其中所述描述信息用于描述所述待命名的代码元素的功能;
从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字;及
将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。
2.如权利要求1所述的代码命名方法,其特征在于,所述代码元素包括以下的一种或者多种:变量、常量、函数、类、文件,所述描述信息为所述待命名的代码元素的注释。
3.如权利要求1或2所述的代码命名方法,其特征在于,所述从所述描述信息提取出描述关键字的步骤包括:
对所述描述信息进行分词处理及词性标注,得到与所述描述信息对应的多个分词,其中每一所述分词标注有一词性;
对多个所述分词进行合并去重处理;及
统计每一所述分词在所述描述信息中的TF-IDF信息,并根据所述TF-IDF信息及每一所述分词的预设权重从多个所述分词中选取出一个或者多个分词作为所述描述关键字。
4.如权利要求1或2所述的代码命名方法,其特征在于,所述从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字的步骤包括:
利用文本相似度算法计算得到所述映射表中每一所述注释关键字与所述描述关键字的相似度;及
根据计算得到的相似度筛选出与所述描述关键字相似度大于预设阈值的注释关键字。
5.如权利要求1或2所述的代码命名方法,其特征在于,所述从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字的步骤之后还包括:
当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,将所述描述关键字输入至代码命名模型,得到所述待命名的代码元素的推荐命名;
其中,所述代码命名模型是根据所述预设代码库中提取得到的代码元素的命名及注释关键字建立并训练得到。
6.如权利要求5所述的代码命名方法,其特征在于,所述代码命名模型的训练步骤包括:
将从所述预设代码库中提取得到的代码元素的命名及注释关键字进行文本向量化处理,以获取向量化表示的训练数据;及
采用条件随机场算法对所述训练数据进行训练,得到所述代码命名模型。
7.如权利要求1或2所述的代码命名方法,其特征在于,所述从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字的步骤之后还包括:
当所述映射表不存在与所述描述关键字相似度大于所述预设阈值的注释关键字时,将所述描述关键字转换成英文单词,并将所述英文单词作为所述待命名的代码元素的推荐命名。
8.一种代码命名系统,其特征在于,所述系统包括:
提取模块,用于从预设代码库中提取代码元素的命名及与所述代码元素对应的注释关键字,其中所述预设代码库中包含多个代码段,每一所述代码段包括一个或多个代码元素;
建立模块,用于根据每一所述代码元素的命名及对应的注释关键字建立一代码元素名称与注释关键字的映射表;
获取模块,用于获取待命名的代码元素的描述信息并从所述描述信息提取出描述关键字,其中所述描述信息用于描述所述待命名的代码元素的功能;
查找模块,用于从所述映射表中查找与所述描述关键字相似度大于预设阈值的注释关键字;及
推荐模块,用于将与所述描述关键字相似度大于所述预设阈值的注释关键字对应的代码元素的命名作为所述待命名的代码元素的推荐命名。
9.一种计算机装置,所述计算机装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任意一项所述的代码命名方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的代码命名方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811537719.3A CN109828748A (zh) | 2018-12-15 | 2018-12-15 | 代码命名方法、系统、计算机装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811537719.3A CN109828748A (zh) | 2018-12-15 | 2018-12-15 | 代码命名方法、系统、计算机装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109828748A true CN109828748A (zh) | 2019-05-31 |
Family
ID=66858755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811537719.3A Pending CN109828748A (zh) | 2018-12-15 | 2018-12-15 | 代码命名方法、系统、计算机装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109828748A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN111291208A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 前端页面元素的命名方法、装置及电子设备 |
CN111831624A (zh) * | 2020-07-14 | 2020-10-27 | 北京三快在线科技有限公司 | 数据表创建方法、装置、计算机设备及存储介质 |
CN112199115A (zh) * | 2020-09-21 | 2021-01-08 | 复旦大学 | 基于特征相似度匹配的跨Java字节码和源代码行关联方法 |
CN112463162A (zh) * | 2020-12-11 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种代码命名的推荐方法、系统、存储介质及设备 |
CN113535136A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | Python函数类型声明模型建立方法及装置、介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499956B1 (en) * | 2005-05-24 | 2009-03-03 | Sun Microsystems, Inc. | Annotation processing from source files and class files |
CN106528863A (zh) * | 2016-11-29 | 2017-03-22 | 中国国防科技信息中心 | 一种crf识别器的训练及技术及其属性名关系对抽取方法 |
CN107066441A (zh) * | 2016-12-09 | 2017-08-18 | 北京锐安科技有限公司 | 一种计算词性相关性的方法及装置 |
CN107291430A (zh) * | 2016-03-31 | 2017-10-24 | 富士通株式会社 | 命名方法和命名系统 |
CN107341014A (zh) * | 2017-06-27 | 2017-11-10 | 乐视致新电子科技(天津)有限公司 | 电子设备、技术文档的生成方法及装置 |
CN107463683A (zh) * | 2017-08-09 | 2017-12-12 | 上海壹账通金融科技有限公司 | 代码元素的命名方法及终端设备 |
US20180181988A1 (en) * | 2016-12-26 | 2018-06-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for pushing information |
CN108804409A (zh) * | 2017-04-28 | 2018-11-13 | 西安科技大市场创新云服务股份有限公司 | 一种语义检索方法和装置 |
-
2018
- 2018-12-15 CN CN201811537719.3A patent/CN109828748A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499956B1 (en) * | 2005-05-24 | 2009-03-03 | Sun Microsystems, Inc. | Annotation processing from source files and class files |
CN107291430A (zh) * | 2016-03-31 | 2017-10-24 | 富士通株式会社 | 命名方法和命名系统 |
CN106528863A (zh) * | 2016-11-29 | 2017-03-22 | 中国国防科技信息中心 | 一种crf识别器的训练及技术及其属性名关系对抽取方法 |
CN107066441A (zh) * | 2016-12-09 | 2017-08-18 | 北京锐安科技有限公司 | 一种计算词性相关性的方法及装置 |
US20180181988A1 (en) * | 2016-12-26 | 2018-06-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for pushing information |
CN108804409A (zh) * | 2017-04-28 | 2018-11-13 | 西安科技大市场创新云服务股份有限公司 | 一种语义检索方法和装置 |
CN107341014A (zh) * | 2017-06-27 | 2017-11-10 | 乐视致新电子科技(天津)有限公司 | 电子设备、技术文档的生成方法及装置 |
CN107463683A (zh) * | 2017-08-09 | 2017-12-12 | 上海壹账通金融科技有限公司 | 代码元素的命名方法及终端设备 |
Non-Patent Citations (1)
Title |
---|
高原等: "基于代码库和特征匹配的函数名称推荐方法", 《软件学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN110348021B (zh) * | 2019-07-17 | 2021-05-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN113535136A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | Python函数类型声明模型建立方法及装置、介质及设备 |
CN111291208A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 前端页面元素的命名方法、装置及电子设备 |
CN112307235A (zh) * | 2020-05-09 | 2021-02-02 | 支付宝(杭州)信息技术有限公司 | 前端页面元素的命名方法、装置及电子设备 |
CN112307235B (zh) * | 2020-05-09 | 2024-02-20 | 支付宝(杭州)信息技术有限公司 | 前端页面元素的命名方法、装置及电子设备 |
CN111831624A (zh) * | 2020-07-14 | 2020-10-27 | 北京三快在线科技有限公司 | 数据表创建方法、装置、计算机设备及存储介质 |
CN112199115A (zh) * | 2020-09-21 | 2021-01-08 | 复旦大学 | 基于特征相似度匹配的跨Java字节码和源代码行关联方法 |
CN112463162A (zh) * | 2020-12-11 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种代码命名的推荐方法、系统、存储介质及设备 |
CN112463162B (zh) * | 2020-12-11 | 2022-12-20 | 苏州浪潮智能科技有限公司 | 一种代码命名的推荐方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109828748A (zh) | 代码命名方法、系统、计算机装置及计算机可读存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109542247B (zh) | 句式推荐方法及装置、电子设备、存储介质 | |
JP2019212321A (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
CN107885874A (zh) | 数据查询方法和装置、计算机设备及计算机可读存储介质 | |
US20140250047A1 (en) | Authoring system for bayesian networks automatically extracted from text | |
CN107463683B (zh) | 代码元素的命名方法及终端设备 | |
CN108700952A (zh) | 基于用户人口统计信息和情境信息预测文本输入 | |
CN110188362A (zh) | 文本处理方法及装置 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN111831911A (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN107807915B (zh) | 基于纠错平台的纠错模型建立方法、装置、设备和介质 | |
WO2014071330A2 (en) | Natural language processing system and method | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN110941694A (zh) | 知识图谱的搜索定位方法、系统、电子设备和存储介质 | |
CN110297893A (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN110019713A (zh) | 基于意图理解的数据检索方法和装置、设备及存储介质 | |
CN111104803A (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
EP3901875A1 (en) | Topic modelling of short medical inquiries | |
JP2019128925A (ja) | 事象提示システムおよび事象提示装置 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
Jabbar et al. | A comparative review of Urdu stemmers: Approaches and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190531 |