CN109086363B - 文件信息维护度确定方法、装置及设备 - Google Patents

文件信息维护度确定方法、装置及设备 Download PDF

Info

Publication number
CN109086363B
CN109086363B CN201810797577.8A CN201810797577A CN109086363B CN 109086363 B CN109086363 B CN 109086363B CN 201810797577 A CN201810797577 A CN 201810797577A CN 109086363 B CN109086363 B CN 109086363B
Authority
CN
China
Prior art keywords
file information
vocabulary
information
maintenance
maintenance degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810797577.8A
Other languages
English (en)
Other versions
CN109086363A (zh
Inventor
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810797577.8A priority Critical patent/CN109086363B/zh
Publication of CN109086363A publication Critical patent/CN109086363A/zh
Application granted granted Critical
Publication of CN109086363B publication Critical patent/CN109086363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件信息维护度确定方法、装置及设备,其中,方法包括:获取文件信息中的关键信息内容;提取关键信息内容中的词汇数和词汇长度;根据词汇数和词汇长度获取文件信息的信息容量;根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。由此,实现了对文件信息维护度的量化,使得文件信息维护度的评估更加精准。

Description

文件信息维护度确定方法、装置及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件信息维护度确定方法、装置及设备。
背景技术
复杂度是评估一个项目的重要标准之一,较低的复杂度既能减少项目的维护成本,又能避免一些不可控问题的出现,而Maintainability(可维护性)是衡量复杂度的指标。
相关技术中,对于文件信息(例如文本文件信息)的维护度,无法精准定位,需要一种能够准确评估文件信息维护度的方法。
发明内容
本发明提出一种文件信息维护度确定方法、装置及设备,用于解决相关技术中,文件信息维护度评估精准度较低的问题。
为此,本发明的第一个目的在于提出一种文件信息维护度确定方法,通过获取文件信息容量,进而根据信息容量确定文件信息维护度指标,实现了对文件信息维护度的量化,从而使得文件信息维护度的评估更加精准。
本发明的第二个目的在于提出一种文件信息维护度确定装置。
本发明的第三个目的在于提出一种终端设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种文件信息维护度确定方法,包括:
获取文件信息中的关键信息内容;
提取所述关键信息内容中的词汇数和词汇长度;
根据所述词汇数和词汇长度获取所述文件信息的信息容量;
根据所述信息容量确定所述文件信息的维护度指标,根据维护度指标对所述文件信息配置维护策略。
本发明实施例的文件信息维护度确定方法,通过获取文件信息中的关键信息内容,进而提取关键信息内容中的词汇数和词汇长度,进一步根据词汇数和词汇长度获取文件信息的信息容量,进一步根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。由此,实现了对文件信息维护度的量化,使得文件信息维护度的评估更加精准。
另外,根据本发明上述实施例的文件信息维护度确定方法还可以具有如下附加技术特征:
可选地,所述获取文件信息中的关键信息内容,包括:应用预设的正则表达式匹配所述文件信息,获取匹配成功的目标函数体和目标函数名。
可选地,所述提取所述关键信息内容中的词汇数和词汇长度,包括:检测所述目标函数体和所述目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数;对所述不重复的操作元总数和所述不重复的操作数总数求和获取所述词汇数;对所述重复的操作元总数和所述重复的操作数总数求和获取所述词汇长度。
可选地,所述根据所述词汇数和词汇长度获取所述文件信息的信息容量,包括:应用预设公式对所述词汇数和词汇长度进行计算,获取所述文件信息的信息容量,其中,所述公式如下:volume=length*Log2(vocabulary),其中,volume为所述文件信息的信息容量;length为所述词汇长度;vocabulary为所述词汇数。
可选地,所述根据所述信息容量确定所述文件信息的维护度指标,包括:获取所述文件信息的词汇行数以及词汇分支数;根据所述词汇行数、所述词汇分支数、以及所述信息容量确定所述文件信息的维护度指标。
为达上述目的,本发明第二方面实施例提出了一种文件信息维护度确定装置,包括:
第一获取模块,用于获取文件信息中的关键信息内容;
提取模块,用于提取所述关键信息内容中的词汇数和词汇长度;
第二获取模块,用于根据所述词汇数和词汇长度获取所述文件信息的信息容量;
处理模块,用于根据所述信息容量确定所述文件信息的维护度指标,根据维护度指标对所述文件信息配置维护策略。
本发明实施例的文件信息维护度确定装置,通过获取文件信息中的关键信息内容,进而提取关键信息内容中的词汇数和词汇长度,进一步根据词汇数和词汇长度获取文件信息的信息容量,进一步根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。由此,实现了对文件信息维护度的量化,使得文件信息维护度的评估更加精准。
另外,根据本发明上述实施例的文件信息维护度确定装置还可以具有如下附加技术特征:
可选地,所述第一获取模块具体用于:应用预设的正则表达式匹配所述文件信息,获取匹配成功的目标函数体和目标函数名。
可选地,所述提取模块具体用于:检测所述目标函数体和所述目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数;对所述不重复的操作元总数和所述不重复的操作数总数求和获取所述词汇数;对所述重复的操作元总数和所述重复的操作数总数求和获取所述词汇长度。
可选地,所述第二获取模块具体用于:应用预设公式对所述词汇数和词汇长度进行计算,获取所述文件信息的信息容量,其中,所述公式如下:volume=length*Log2(vocabulary),其中,volume为所述文件信息的信息容量;length为所述词汇长度;vocabulary为所述词汇数。
可选地,所述处理模块具体用于:获取所述文件信息的词汇行数以及词汇分支数;根据所述词汇行数、所述词汇分支数、以及所述信息容量确定所述文件信息的维护度指标。
为达上述目的,本发明第三方面实施例提出了一种终端设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的文件信息维护度确定方法。
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面实施例所述的文件信息维护度确定方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种文件信息维护度确定方法的流程示意图;
图2为本发明实施例所提供的另一种文件信息维护度确定方法的流程示意图;
图3为本发明实施例所提供的一种确定代码容量的流程示意图;
图4为本发明实施例所提供的一种文件信息维护度确定装置的结构示意图;
图5示出了适于用来实现本发明实施例的示例性终端设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文件信息维护度确定方法、装置及设备。
图1为本发明实施例所提供的一种文件信息维护度确定方法的流程示意图,如图1所示,该文件信息维护度确定方法包括:
步骤101,获取文件信息中的关键信息内容。
本发明实施例中,执行主体为终端设备。其中,终端设备可以为智能手机、平板电脑、个人数字助理、穿戴式设备、计算机等可进行文件信息处理的设备。
本发明实施例中,在确定文件信息的维护度指标时,需要获取文件信息中的关键信息内容。
在本发明的一个实施例中,可以对文件信息进行文字识别,从而获取文件信息中的关键信息内容。例如,可以对文本文件信息中的汉字和标点进行识别,从而将识别到的汉字和标点作为关键信息内容。
在本发明的一个实施例中,还可以预先设置正则表达式,进而根据文件信息选取相应的正则表达式对文件信息进行匹配,从而获取匹配成功的关键信息内容。例如,可以通过正则表达式[\u4e00-\u9fa5]匹配中文字符,通过正则表达式[a-zA-Z]匹配英文,通过正则表达式[0-9]匹配数字,进而获取匹配成功的内容作为关键信息内容。
其中,文件信息包括但不限于文本文件信息、树结构文件信息等。
步骤102,提取关键信息内容中的词汇数和词汇长度。
可选地,可以检测关键信息内容中所有的字符,提取不重复的字符总数和包括重复字符的字符总数,从而将不重复的字符总数作为词汇数,将包括重复字符的字符总数作为词汇长度。
作为一种示例,关键信息内容为“A、B、C”,其中不重复的英文总数为3,重复的英文总数为3,不重复的标点总数为1,重复的标点总数为2,从而获知词汇数为4,词汇长度为5。
需要说明的是,本实施例中的字符也可以由本领域技术人员根据实际需求自行选取,比如可以将英文字母作为字符,也可以将英文单词作为字符,此处不做限制。
步骤103,根据词汇数和词汇长度获取文件信息的信息容量。
在本发明的一个实施例中,可以根据预设公式对词汇数和词汇长度进行计算,从而获取文件信息的信息容量。例如,公式可以为volume=length*Log2(vocabulary),其中,volume为文件信息的信息容量;length为词汇长度;vocabulary为词汇数。
需要说明的是,上述获取文件信息的信息容量的方式仅仅是示例性的,具体可以由本领域技术人员根据需要设置,此处不作限制。
步骤104,根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。
在本发明的一个实施例中,可以根据信息容量,通过相关算法确定文件信息的维护度指标。
在本发明的一个实施例中,还可以获取文件信息的词汇行数以及词汇分支数,进而根据词汇行数、词汇分支数以及信息容量,通过相关算法确定文件信息的维护度指标。
其中,可以根据不同的文件信息获取词汇分支数。比如,可以获取文本文件信息中的语言数量,进而将语言数量作为词汇分支数。再比如,可以获取树形结构文件(例如树形文件目录)中树结构的分支数,进而将树结构的分支数作为词汇分支数。
根据维护度指标对文件信息配置维护策略的方式有多种。
可选地,可以预先设置一个或多个数值范围,并在终端设备本地或者服务器存储数值范围和维护策略的对应关系,进而将维护度指标与预设范围进行匹配,根据匹配结果对文件信息配置对应的维护策略。
本实施例中,由于根据词汇数和词汇长度已经精确获取了文件信息的信息容量,进而根据信息容量确定文件信息的维护度指标,实现了对文件信息维护度的量化,使得文件信息维护度的评估更加精准,从而可以根据维护度指标对文件信息配置合适的维护策略,改善了文件信息维护的效果。
综上所述,本发明实施例的文件信息维护度确定方法,通过获取文件信息中的关键信息内容,进而提取关键信息内容中的词汇数和词汇长度,进一步根据词汇数和词汇长度获取文件信息的信息容量,进一步根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。由此,实现了对文件信息维护度的量化,使得文件信息维护度的评估更加精准。
基于上述实施例,进一步地,本发明实施例的文件信息维护度确定方法,同样可以获取代码文件中的代码容量,从而精准评估代码文件的维护度。为了更加清楚的解释本发明,下面以代码文件为例进行解释说明。
图2为本发明实施例所提供的另一种文件信息维护度确定方法的流程示意图,如图2所示,该文件信息维护度确定方法包括:
步骤201,应用预设的正则表达式匹配文件信息,获取匹配成功的目标函数体和目标函数名。
本实施例中,在确定程序代码容量时,需要获取目标函数体和目标函数名。
作为一种示例,可以预先设置用于匹配函数体和函数名的正则表达式,进而通过正则匹配的方式,应用预先设置的正则表达式对文件信息进行匹配,由“{”去区分目标函数体,通过“{”和“(”组合去区分目标函数名,进而,存储匹配成功的目标函数名包含的字符列表,以及存储匹配成功的目标函数体包含的所有字符信息,从而实现代码的token化。
步骤202,检测目标函数体和目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数。
可选地,可以读取匹配成功的目标函数体和目标函数名,获取函数代码关键字以及运算符作为操作元,获取其他字符信息作为操作数。进而通过重复代码检测技术,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数。
步骤203,对不重复的操作元总数和不重复的操作数总数求和获取词汇数。
步骤204,对重复的操作元总数和重复的操作数总数求和获取词汇长度。
为了更加清楚的解释本发明,下面以一段Object C代码为例进行说明:
-(void)draw
{
NSLog("^^^")
}
//n1:-,(,void,),{,}
//n2:NSLog,"^^^",draw
//N1:-,(,void,),{,},(,)
//N2:NSLog,"^^^",draw
//vocabulary=n1+n2=9
//length=N1+N2=11
其中,不重复的操作元总数n1为6,不重复的操作数总数n2为3,重复的操作元总数N1为8,不重复的操作数总数N2为3,进而获取词汇数为9,词汇长度为11。
步骤205,应用预设公式对词汇数和词汇长度进行计算,获取文件信息的信息容量。
在本发明的一个实施例中,可以根据预设公式对词汇数和词汇长度进行计算,从而获取文件信息的信息容量。例如,公式可以为volume=length*Log2(vocabulary),其中,volume为文件信息的信息容量;length为词汇长度;vocabulary为词汇数。
例如,如图3所示,通过将Object C代码token化,获取目标函数体和目标函数名,进而检测目标函数体和目标函数名获取操作元和操作数,进而提取重复的操作元总数N1、重复的操作数总数N2,进一步提取不重复的操作元总数n1、不重复的操作元总数n2,进一步对N1和N2求和获得词汇长度,对n1和n2求和获得词汇数,进一步根据预设公式对词汇数和词汇长度进行计算,获取Object C代码文件信息的信息容量。
步骤206,根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。
在本发明的一个实施例中,还可以获取代码行数和圈复杂度,进而根据代码行数、圈复杂度以及代码容量,通过相关算法确定文件信息的维护度指标。例如,可以通过可维护性指数的计算方法,根据代码行数、圈复杂度以及代码容量进行计算,从而确定代码的可维护性指数。
根据维护度指标对文件信息配置维护策略的方式有多种。
可选地,可以预先设置一个或多个数值范围,并在终端设备本地或者服务器存储数值范围和维护策略的对应关系,进而将维护度指标与预设范围进行匹配,根据匹配结果对文件信息配置对应的维护策略。
本实施例中,通过将代码token化的方式,提取操作元和操作数,省去了生成抽象语法树的过程,并且,由于Object C生成抽象语法树需要编译、操作繁琐,本发明实施例的文件信息维护度确定方法使得确定Object C程序代码维护度更加便捷。进而,根据信息容量可以精准的确定文件信息的维护度指标,通用性强,可扩展用于确定其他编程语言的代码维护度指标,对于新增的语言特性,也可以灵活的扩展关键字和运算符列表。
综上所述,本发明实施例的文件信息维护度确定方法,通过应用预设的正则表达式匹配文件信息,获取匹配成功的目标函数体和目标函数名,进而检测目标函数体和目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数,并对不重复的操作元总数和不重复的操作数总数求和获取词汇数,对重复的操作元总数和重复的操作数总数求和获取词汇长度,进一步应用预设公式对词汇数和词汇长度进行计算,获取文件信息的信息容量,进一步根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。由此,通过将代码token化的方式,获取代码文件中的代码容量,实现了精准评估代码文件的维护度,通用性强。
为了实现上述实施例,本发明还提出一种文件信息维护度确定装置。图4为本发明实施例所提供的一种文件信息维护度确定装置的结构示意图,如图4所示,该文件信息维护度确定装置包括:第一获取模块100,提取模块200,第二获取模块300,处理模块400。
其中,第一获取模块100,用于获取文件信息中的关键信息内容。
提取模块200,用于提取关键信息内容中的词汇数和词汇长度。
第二获取模块300,用于根据词汇数和词汇长度获取文件信息的信息容量。
处理模块400,用于根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。
进一步地,第一获取模块100具体用于:应用预设的正则表达式匹配文件信息,获取匹配成功的目标函数体和目标函数名。
进一步地,提取模块200具体用于:
检测目标函数体和目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数;
对不重复的操作元总数和不重复的操作数总数求和获取词汇数;
对重复的操作元总数和重复的操作数总数求和获取词汇长度。
进一步地,第二获取模块300具体用于:应用预设公式对词汇数和词汇长度进行计算,获取文件信息的信息容量,其中,公式如下:volume=length*Log2(vocabulary),其中,volume为文件信息的信息容量;length为词汇长度;vocabulary为词汇数。
进一步地,处理模块400具体用于:
获取文件信息的词汇行数以及词汇分支数;
根据词汇行数、词汇分支数、以及信息容量确定文件信息的维护度指标。
需要说明的是,前述实施例对文件信息维护度确定方法的解释说明同样适用于本实施例的文件信息维护度确定装置,此处不再赘述。
本发明实施例的文件信息维护度确定装置,通过获取文件信息中的关键信息内容,进而提取关键信息内容中的词汇数和词汇长度,进一步根据词汇数和词汇长度获取文件信息的信息容量,进一步根据信息容量确定文件信息的维护度指标,根据维护度指标对文件信息配置维护策略。由此,实现了对文件信息维护度的量化,使得文件信息维护度的评估更加精准。
为了实现上述实施例,本发明还提出一种终端设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的文件信息维护度确定方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的文件信息维护度确定方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的文件信息维护度确定方法。
图5示出了适于用来实现本发明实施例的示例性终端设备的框图。图5显示的终端设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
终端设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与终端设备12的其它模块通信。应当明白,尽管图中未示出,可以结合终端设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文件信息维护度确定方法,其特征在于,包括以下步骤:
获取文件信息中的关键信息内容,所述关键信息内容包括目标函数体和目标函数名;
提取所述关键信息内容中的词汇数和词汇长度,其中,检测所述目标函数体和所述目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数,对所述不重复的操作元总数和所述不重复的操作数总数求和获取所述词汇数,对所述重复的操作元总数和所述重复的操作数总数求和获取所述词汇长度;
根据所述词汇数和词汇长度获取所述文件信息的信息容量;
根据所述信息容量确定所述文件信息的维护度指标,根据维护度指标对所述文件信息配置维护策略,其中,预先设置数值范围,存储数值范围和维护策略的对应关系,将维护度指标与预先设置的数值范围进行匹配,根据匹配结果对文件信息配置对应的维护策略。
2.如权利要求1所述的方法,其特征在于,所述获取文件信息中的关键信息内容,包括:
应用预设的正则表达式匹配所述文件信息,获取匹配成功的目标函数体和目标函数名。
3.如权利要求2所述的方法,其特征在于,所述根据所述词汇数和词汇长度获取所述文件信息的信息容量,包括:
应用预设公式对所述词汇数和词汇长度进行计算,获取所述文件信息的信息容量,其中,所述公式如下:
volume=length*Log2(vocabulary),其中,
volume为所述文件信息的信息容量;
length为所述词汇长度;
vocabulary为所述词汇数。
4.如权利要求1-3任一所述的方法,其特征在于,所述根据所述信息容量确定所述文件信息的维护度指标,包括:
获取所述文件信息的词汇行数以及词汇分支数;
根据所述词汇行数、所述词汇分支数、以及所述信息容量确定所述文件信息的维护度指标。
5.一种文件信息维护度确定装置,其特征在于,包括:
第一获取模块,用于获取文件信息中的关键信息内容,所述关键信息内容包括目标函数体和目标函数名;
提取模块,用于提取所述关键信息内容中的词汇数和词汇长度,所述提取模块具体用于:检测所述目标函数体和所述目标函数名中所有的操作元和操作数,提取不重复的操作元总数和重复的操作元总数,以及提取不重复的操作数总数和重复的操作数总数,对所述不重复的操作元总数和所述不重复的操作数总数求和获取所述词汇数,对所述重复的操作元总数和所述重复的操作数总数求和获取所述词汇长度;
第二获取模块,用于根据所述词汇数和词汇长度获取所述文件信息的信息容量;
处理模块,用于根据所述信息容量确定所述文件信息的维护度指标,根据维护度指标对所述文件信息配置维护策略,其中,预先设置数值范围,存储数值范围和维护策略的对应关系,将维护度指标与预先设置的数值范围进行匹配,根据匹配结果对文件信息配置对应的维护策略。
6.如权利要求5所述的装置,其特征在于,所述第一获取模块具体用于:
应用预设的正则表达式匹配所述文件信息,获取匹配成功的目标函数体和目标函数名。
7.如权利要求6所述的装置,其特征在于,所述第二获取模块具体用于:
应用预设公式对所述词汇数和词汇长度进行计算,获取所述文件信息的信息容量,其中,所述公式如下:
volume=length*Log2(vocabulary),其中,
volume为所述文件信息的信息容量;
length为所述词汇长度;
vocabulary为所述词汇数。
8.如权利要求5-7任一所述的装置,其特征在于,所述处理模块具体用于:
获取所述文件信息的词汇行数以及词汇分支数;
根据所述词汇行数、所述词汇分支数、以及所述信息容量确定所述文件信息的维护度指标。
9.一种终端设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一项所述的文件信息维护度确定方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的文件信息维护度确定方法。
CN201810797577.8A 2018-07-19 2018-07-19 文件信息维护度确定方法、装置及设备 Active CN109086363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797577.8A CN109086363B (zh) 2018-07-19 2018-07-19 文件信息维护度确定方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797577.8A CN109086363B (zh) 2018-07-19 2018-07-19 文件信息维护度确定方法、装置及设备

Publications (2)

Publication Number Publication Date
CN109086363A CN109086363A (zh) 2018-12-25
CN109086363B true CN109086363B (zh) 2021-03-16

Family

ID=64837946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797577.8A Active CN109086363B (zh) 2018-07-19 2018-07-19 文件信息维护度确定方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109086363B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075585A1 (fr) * 2001-03-21 2002-09-26 Fujitsu Limited Appareil de traduction automatique
CN102136006A (zh) * 2011-03-30 2011-07-27 上海大学 基于人类概念学习的文本理解复杂度的度量方法
CN103729348A (zh) * 2013-12-23 2014-04-16 武汉传神信息技术有限公司 一种语句翻译复杂度的分析方法
CN103744840A (zh) * 2013-12-23 2014-04-23 武汉传神信息技术有限公司 一种文档翻译难度的分析方法
CN104346327A (zh) * 2014-10-23 2015-02-11 苏州大学 一种文本情绪复杂度的确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075585A1 (fr) * 2001-03-21 2002-09-26 Fujitsu Limited Appareil de traduction automatique
CN102136006A (zh) * 2011-03-30 2011-07-27 上海大学 基于人类概念学习的文本理解复杂度的度量方法
CN103729348A (zh) * 2013-12-23 2014-04-16 武汉传神信息技术有限公司 一种语句翻译复杂度的分析方法
CN103744840A (zh) * 2013-12-23 2014-04-23 武汉传神信息技术有限公司 一种文档翻译难度的分析方法
CN104346327A (zh) * 2014-10-23 2015-02-11 苏州大学 一种文本情绪复杂度的确定方法及装置

Also Published As

Publication number Publication date
CN109086363A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN107193973B (zh) 语义解析信息的领域识别方法及装置、设备及可读介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
US8543375B2 (en) Multi-mode input method editor
CN106897439B (zh) 文本的情感识别方法、装置、服务器以及存储介质
US9043300B2 (en) Input method editor integration
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
US20080077393A1 (en) Virtual keyboard adaptation for multilingual input
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
WO2009129124A2 (en) Segmenting words using scaled probabilities
CN109408829B (zh) 文章可读性确定方法、装置、设备和介质
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN110569335A (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN111460810A (zh) 众包任务的抽检方法、装置、计算机设备及存储介质
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN109597881B (zh) 匹配度确定方法、装置、设备和介质
Barrón-Cedeño et al. Word length n-Grams for text re-use detection
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN112527819B (zh) 通讯录信息检索方法、装置、电子设备及存储介质
CN107239209B (zh) 一种拍照搜索方法、装置、终端及存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN109086363B (zh) 文件信息维护度确定方法、装置及设备
CN112800779B (zh) 文本处理方法及装置、模型训练方法及装置
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant