CN110765237B - 文档处理方法、装置、存储介质及电子设备 - Google Patents

文档处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110765237B
CN110765237B CN201910960239.6A CN201910960239A CN110765237B CN 110765237 B CN110765237 B CN 110765237B CN 201910960239 A CN201910960239 A CN 201910960239A CN 110765237 B CN110765237 B CN 110765237B
Authority
CN
China
Prior art keywords
optimized
optimization
document
determining
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910960239.6A
Other languages
English (en)
Other versions
CN110765237A (zh
Inventor
鲁梦平
师婷婷
吴汉杰
陈毅臻
戴云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910960239.6A priority Critical patent/CN110765237B/zh
Publication of CN110765237A publication Critical patent/CN110765237A/zh
Application granted granted Critical
Publication of CN110765237B publication Critical patent/CN110765237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文档处理方法、装置、存储介质及电子设备,该文档处理方法包括:获取待处理的优化文档集合;确定该优化文档集合中每个优化文档对应的语料词组;根据每个该语料词组确定对应优化文档的文档特征向量;根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组;根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化,从而无需依赖专业人员即可实现对数据分析组件代码的自动优化,提高优化效率,减少优化成本。

Description

文档处理方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机领域,尤其涉及一种文档处理方法、装置、存储介质及电子设备。
背景技术
随着信息时代的到来,大数据分析无处不在,对计算资源的依赖也越来越高。数据工厂作为综合性分布式开发平台,承载着数以万计的作业,每天都有各种各样的计算任务,然而资源是有限的,要求我们必须兼顾预算成本和业务需求,因此用户不可避免地需要对作业进行优化。
Hive计算是数据工厂最常用的一个数据分析组件,它提供了一系列的工具,可以用来进行数据提取转化加载,是一种可以存储、查询和分析存储在Hadoop(海杜普,一种分布式系统基础架构)中的大规模数据的机制,其是业务开发的基础和根本,因此,优化Hive计算是缓解资源紧缺,合理调控资源计算,确保各个部门不同业务间正常运行的重要前提。现阶段,Hive计算代码主要采用人工优化的方法,然而,该方法依赖于业务人员的专业性、经验度和对数据的熟悉程度,大大增加了大数据下业务优化的开发成本和优化效率。
发明内容
本申请实施例提供一种文档处理方法、装置、存储介质及电子设备,有利于实现对数据分析组件代码的自动优化,无需依赖专业业务人员,有利于提高优化效率。
本申请实施例提供了一种文档处理方法,包括:
获取待处理的优化文档集合;
确定所述优化文档集合中每个优化文档对应的语料词组;
根据每个所述语料词组确定对应优化文档的文档特征向量;
根据所述文档特征向量对所述优化文档集合进行聚类处理,得到多个优化文档组;
根据所述多个优化文档组创建优化规则库,所述优化规则库用于对业务代码文件进行优化。
本申请实施例还提供了一种文档处理装置,包括:
获取模块,用于获取待处理的优化文档集合;
第一确定模块,用于确定所述优化文档集合中每个优化文档对应的语料词组;
第二确定模块,用于根据每个所述语料词组确定对应优化文档的文档特征向量;
聚类模块,用于根据所述文档特征向量对所述优化文档集合进行聚类处理,得到多个优化文档组;
创建模块,用于根据所述多个优化文档组创建优化规则库,所述优化规则库用于对业务代码文件进行优化。
其中,所述第二确定模块具体包括:
第一确定单元,用于确定每个所述语料词组中语料词对应的特征向量,得到对应特征向量组;
第二确定单元,用于确定每个所述特征向量组对应的平均特征向量和最大值特征向量;
拼接单元,用于将所述平均特征向量和最大值特征向量进行拼接,得到对应优化文档的文档特征向量。
其中,所述第二确定单元具体用于:
将同一所述特征向量组中的特征向量进行平均值计算,得到平均特征向量;
将同一所述特征向量组中每个特征向量在相同维度上的数值进行大小比较;
从比较结果中确定每个所述特征向量组在单个所述维度上的最大数值;
根据所述最大数值确定对应所述特征向量组的最大值特征向量。
其中,所述创建模块具体用于:
确定每个所述优化文档组中优化文档的待优化项和优化项;
根据所述待优化项和优化项确定多个待优化模式、以及每个所述待优化模式对应的优化策略;
根据所述待优化模式和优化策略创建优化规则库。
其中,该文档处理装置还包括优化模块,用于:
在所述创建模块根据所述待优化模式和优化策略创建优化规则库之后,获取代码优化请求,所述代码优化请求携带待优化的业务代码文件;
根据所述待优化的业务代码文件从所述优化规则库中确定目标优化策略;
利用所述目标优化策略对所述待优化的业务代码文件进行优化。
其中,所述优化模块具体用于:
从所述优化规则库的多个待优化模式中确定与所述待优化的业务代码文件匹配的目标优化模式;
从所述优化规则库中获取与所述目标优化模式对应的优化策略;
将与所述目标优化模式对应的优化策略作为目标优化策略。
其中,所述优化模块具体用于:
确定所述优化规则库中每个待优化模式的遍历顺序;
根据所述遍历顺序从当前待优化模式中确定待匹配模式;
根据所述待匹配模式判断所述待优化的业务代码文件是否满足条件;
若满足条件,则将所述待匹配模式作为目标优化模式;
若不满足条件,则检测所述待匹配模式的遍历顺序是否为末位,若不是末位,则获取剩余的待优化模式作为当前待优化模式,并返回执行所述根据所述遍历顺序从当前待优化模式中确定待匹配模式的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项文档处理方法。
本申请实施例还提供了一种电子设备,包括处理器和存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据,所述处理器用于执行上述任一项文档处理方法中的步骤。
本申请提供的文档处理方法、装置、存储介质及电子设备,通过获取待处理的优化文档集合,并确定该优化文档集合中每个优化文档对应的语料词组,之后,根据每个该语料词组确定对应优化文档的文档特征向量,并根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组,之后根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化,从而无需依赖专业人员即可实现对数据分析组件代码的自动优化,提高优化效率,减少优化成本。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1为本申请实施例提供的文档处理系统的场景示意图。
图2为本申请实施例提供的文档处理方法的流程示意图。
图3为本申请实施例提供的步骤S103的流程示意图。
图4为本申请实施例提供的文档处理方法的另一流程示意图。
图5为本申请实施例提供的数据工厂中平台界面的示意图。
图6为本申请实施例提供的文档处理装置的结构示意图。
图7为本申请实施例提供的第二确定模块的结构示意图。
图8为本申请实施例提供的文档处理装置的另一结构示意图。
图9为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文档处理方法、装置、存储介质及电子设备。
请参阅图1,图1为文档处理系统的场景示意图,该文档处理系统可以包括本申请实施例提供的任一种文档处理装置,该文档处理装置可以集成在电子设备,比如服务器中。
该电子设备可以获取待处理的优化文档集合;确定该优化文档集合中每个优化文档对应的语料词组;根据每个该语料词组确定对应优化文档的文档特征向量;根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组;根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化。
其中,该优化文档集合中的优化文档可以有多种来源,比如本地库中已有的本地文档,以及利用爬虫工具从不同网页,比如不同知识问答社区网页(比如博客、知乎等)中爬取的网络文档。该语料词组中的语料词可以是对每个优化文档进行文本分词处理得到。该文档特征向量是个多维向量,该聚类处理可以利用K-means(K均值聚类算法)来实现。该业务代码文件主要包括Hive计算中实现某种业务功能的代码文件,其中Hive计算是一种可以存储、查询和分析存储在Hadoop(一种分布式系统基础架构)中的大规模数据的机制,换言之就是进行大数据分析的常用工具,其按照一定语法规则实现具体业务功能。
譬如,电子设备可以利用爬虫工具从不同知识问答社区网页(比如博客、知乎等)中爬取优化文档,并获取本地库中开发人员汇总的优化文档,一起作为优化文档集合,接着,对优化文档进行文本分词,得到语料词组,并借助词向量模型和指定向量算法对语料词组进行处理,得到每个优化文档的文档特征向量,该文档特征向量可以是个8维向量,之后,可以将文档特征向量输入K-means进行聚类处理,以将优化文档集合进行分组,其中,属于同一聚类中心的文档归为同一组,得到多个优化文档组,之后,根据这些优化文档组创建优化规则库。当研发人员提交了待优化的Hive计算代码时,可以利用该优化规则库对该Hive计算代码进行优化,从而节约该Hive计算代码的运行资源,缩短运行时间。
请参见图2,图2是本申请实施例提供的文档处理方法的流程示意图,该文档处理方法可以应用于服务器等电子设备中,具体流程可以如下:
S101.获取待处理的优化文档集合。
本实施例中,该优化文档集合中包括大量优化文档,该优化文档可以有多种来源,比如本地库中已有的本地文档,以及利用爬虫工具从不同网页,比如不同知识问答社区网页(比如博客、知乎等)中爬取的网络文档,等等。
S102.确定该优化文档集合中每个优化文档对应的语料词组。
本实施例中,可以先对每个优化文档进行文本分词处理,之后可以使用中文停用词表和自定义的优化停用词表,剔除掉每个优化文档中与中文停用词表和优化停用词表相同的词语,以确保剩余的词语与优化有关,并将每个优化文档剩余的词语作为一个语料词组。
S103.根据每个该语料词组确定对应优化文档的文档特征向量。
例如,请参见图3,上述步骤S103具体可以包括:
S1031.确定每个该语料词组中语料词对应的特征向量,得到对应特征向量组。
本实施例中,可以利用训练好的Word2Vec模型对语料词进行处理,以得到对应特征向量,每个语料词组对应的特征向量构成一个特征向量组,其中,Word2Vec模型是用来产生词向量的相关模型,其为浅而双层的神经网络。
S1032.确定每个该特征向量组对应的平均特征向量和最大值特征向量。
例如,上述步骤S1032具体可以包括:
将同一该特征向量组中的特征向量进行平均值计算,得到平均特征向量;
将同一该特征向量组中每个特征向量在相同维度上的数值进行大小比较;
从比较结果中获取每个维度上的最大数值;
根据该最大数值确定对应该特征向量组的最大值特征向量。
本实施例中,可以通过以下公式(1)来计算每个特征向量组的平均特征向量X1,通过公式(2)来计算每个特征向量组的最大值特征向量X2
X2=[max{wi1},max{wi2},…,max{wik}] (2)
其中,Wi表示语料词i的特征向量,k为特征向量的维度数,N表示单个特征向量组中特征向量的个数。
S1033.将该平均特征向量和最大值特征向量进行拼接,得到对应优化文档的文档特征向量。
本实施例中,若平均特征向量和最大值特征向量均为k维向量,则拼接之后的文档特征向量为2k维,其拼接顺序可以人为设定,比如,若平均特征向量为[j1,j2…jk],最大值特征向量为[h1,h2…hk],则文档特征向量可以为[j1,j2…jk,h1,h2…hk]。
S104.根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组。
本实施例中,该聚类处理可以借助K-means算法、高斯混合模型聚类算法等来实现,比如将所有文档特征向量输入K-means算法中,以文档特征向量彼此间的余弦相似度作为距离进行聚类,得到多个聚类中心和每个聚类中心下的聚类分组,通常,一个聚类中心代表一种优化类型,每个优化类型下对应多个优化文档。
容易理解的是,聚类处理的算法除了K-means算法之外,还可以采用其他聚类算法,如高斯混合模型聚类算法等,此处不做限制。
S105.根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化。
本实施例中,该优化规则库主要是一个针对Hive计算的优化规则标准知识库,该库汇总了几乎所有Hive计算业务中可能遇到的代码优化策略,用于对Hive计算代码进行优化,从而节约该Hive计算代码的运行资源,缩短运行时间。
例如,上述步骤S105具体可以包括:
确定每个该优化文档组中优化文档的待优化项和优化项;
根据该待优化项和优化项确定多个待优化模式、以及每个该待优化模式对应的优化策略;
根据该待优化模式和优化策略创建优化规则库。
本实施例中,该待优化项通常表示不合理的代码编写方式,其是可进行资源优化的代码部分,该优化项通常表示较合理的代码编写方式,其在一定程度上节约了计算资源。该待优化模式是根据优化项和待优化项分析总结出的,每一待优化模式代表一种类型的不合理代码编写方式,比如使用了某些关键字,譬如“distinct”,或者存在冗余字段,譬如嵌套select语句或者JOIN语句引用的字段未出现在最外层结果表,则该未出现的字段为冗余字段,或者连接表的数据量低于一定值,比如1000000条记录,等等。
该优化策略主要用于将待优化项转变为优化项,比如使用“groupby”替换“distinct”,删除嵌套select语句或者JOIN语句中未出现在最外层结果表中的引用字段,将数据量低于一定值的连接表使用map join表代替,等等,其中,map join是指在map阶段进行表之间的连接,而不需要进入到reduce阶段才进行连接,map和reduce是hive计算中join连接操作的两个阶段。该优化规则库中可以包括待优化模式和其对应的优化策略。除此之外,该优化规则库还可以包括相应优化策略的描述项,该描述项主要用于向用户详细介绍对应优化策略解决的代码编写问题,以帮助用户更好的理解优化项。
需要指出的是,该待优化模式除了通过上述经由优化项和待优化项分析总结得到外,还可以借助算法模型得到,比如调用Hive计算中的explain函数对待处理的优化文档集合进行处理,得到每个优化文档的逻辑流程图,之后提取逻辑流程图中的关键模块,并利用机器学习模型对这些关键模块进行学习,得到待优化模式的分类模型,后续实际使用过程中,可以先利用explain函数得到待优化的业务代码文件的逻辑流程图,之后利用该分类模型对该逻辑流程图中的关键模块进行处理,得到相应待优化模式。
此外,在执行上述步骤“根据该待优化模式和优化策略创建优化规则库”之后,该文档处理方法还包括:
获取代码优化请求,该代码优化请求携带待优化的业务代码文件;
根据该待优化的业务代码文件从该优化规则库中确定目标优化策略;
利用该目标优化策略对该待优化的业务代码文件进行优化。
本实施例中,当开发人员输入了Hive计算的开发代码文件(也即业务代码文件)时,可以先通过优化规则库选择合适的优化策略对其进行优化,之后再利用优化后的开发代码进行相应Hive计算。
其中,上述步骤“根据该待优化的业务代码文件从该优化规则库中确定目标优化策略”具体可以包括:
从该优化规则库的多个待优化模式中确定与该待优化的业务代码文件匹配的目标优化模式;
从该优化规则库中获取与该目标优化模式对应的优化策略;
将与该目标优化模式对应的优化策略作为目标优化策略。
本实施例中,该优化规则库中应当包括每个待优化模式与对应优化策略的关联关系,通常,该待优化模式与优化策略是一一对应的,且对于不同的待优化模式,其具有不同的匹配机制。具体的,上述步骤“从该优化规则库的多个待优化模式中确定与该待优化的业务代码文件匹配的目标优化模式”包括:
确定该优化规则库中每个待优化模式的遍历顺序;
根据该遍历顺序从当前待优化模式中确定待匹配模式;
根据该待匹配模式判断该待优化的业务代码文件是否满足条件;
若满足条件,则将该待匹配模式作为目标优化模式;
若不满足条件,则检测待匹配模式的遍历顺序是否为末位,若是末位,则结束优化;若不是末位,则获取剩余的待优化模式作为当前待优化模式,并返回执行该根据遍历顺序从当前待优化模式中确定待匹配模式的步骤。
本实施例中,该目标优化模式可以通过遍历的方式进行匹配,该遍历顺序可以是随机的,也可以是人为规定的。譬如,对于匹配的目标优化模式为“包含关键字distinct”的业务代码文件,在优化时,可以使用group by替换distinct,对于匹配的目标优化模式为“外层表未使用内层表字段”的业务代码文件,在优化时,可以剔除该未使用的内层表字段,等等。需要指出的是,单个业务代码文件需要优化的地方可能不止一个,其可以是多个,为此,在对该待优化的业务代码文件执行完单次优化操作后,还需继续检查是否需要进行下一次优化操作,也即继续针对优化规则库中未遍历完的剩余待优化模式继续遍历,一旦发现有新的目标优化模式,则利用该新的目标优化模式对该业务代码文件进行优化,直至优化规则库中所有的待优化模式遍历完才结束整个优化操作,也即,在上述步骤“利用该目标优化策略对该待优化的业务代码文件进行优化”之后,应当返回执行上述步骤“检测该待匹配模式的遍历顺序是否为末位”。
需要说明的是,通过本方案优化后的业务代码文件在进行Hive计算时,能大大节约运行资源,缩短运行时间,一定程度上缓解了数据工厂庞大业务的计算压力。
由上述可知,本申请提供的文档处理方法,通过获取待处理的优化文档集合,并确定该优化文档集合中每个优化文档对应的语料词组,之后,根据每个该语料词组确定对应优化文档的文档特征向量,并根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组,之后根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化,从而无需依赖专业人员即可实现对数据分析组件代码的自动优化,提高优化效率,减少优化成本。
请参见图4,以下将以该文档处理方法应用于电子设备,比如服务器中为例,对文档处理方法的流程进行简要说明。
S201.获取待处理的优化文档集合。
譬如,可以一边收集本地库中已有的优化文档,一边利用爬虫工具从不同知识问答社区网页(比如博客、知乎等)中爬取的优化文档,将两个来源的文档一起作为优化文档集合。
S202.确定该优化文档集合中每个优化文档对应的语料词组,并确定每个该语料词组中语料词对应的特征向量,得到对应特征向量组。
譬如,可以先通过训练好的分词模型对每个优化文档进行文本分词处理,之后从中剔除掉与中文停用词表、自定义停用词表相同的词语,并将同一优化文档中剩下的词语作为一个语料词组,之后,利用训练好的Word2Vec模型对语料词进行处理,得到对应特征向量,同一语料词组对应的特征向量组成一个特征向量组。例如,对于语料词A、B和C,分别输入Word2Vec模型中后,得到的特征向量可以为:
A:[-0.38961,0.02392,0.19072,-0.24286]
B:[-0.39851,0.02372,0.19112,-0.24236]
C:[-0.09165,0.42372,0.00291,-0.04611]
容易看出,示例中的特征向量为4维向量,且Word2Vec模型得到的词向量模型,倾向于使得含义相近的词语有相似的特征向量(比如A和B),即两个词语越相近,其特征向量越相似,余弦相似度越接近1。
S203.将同一该特征向量组中的特征向量进行平均值计算,得到平均特征向量。
S204.将同一该特征向量组中每个特征向量在相同维度上的数值进行大小比较,并从比较结果中获取每个维度上的最大数值,之后根据该最大数值确定对应该特征向量组的最大值特征向量。
譬如,可以通过以下公式(1)来计算每个特征向量组的平均特征向量X1,通过公式(2)来计算每个特征向量组的最大值特征向量X2
X2=[max{wi1},max{wi2},…,max{wik}] (2)
其中,Wi表示语料词i的特征向量,k为特征向量的维度数,N表示单个特征向量组中特征向量的个数。
S205.将该平均特征向量和最大值特征向量进行拼接,得到对应优化文档的文档特征向量。
譬如,若平均特征向量为[j1,j2…jk],最大值特征向量为[h1,h2…hk],则文档特征向量可以为[j1,j2…jk,h1,h2…hk]。
S206.根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组。
譬如,将所有文档特征向量输入K-means算法中,以文档特征向量彼此间的余弦相似度作为距离进行聚类,得到多个聚类中心和每个聚类中心下的优化文档组。
S207.确定每个该优化文档组中优化文档的待优化项和优化项,并根据该待优化项和优化项确定多个待优化模式、以及每个该待优化模式对应的优化策略,之后根据该待优化模式和优化策略创建优化规则库。
具体的,该优化规则库的示例可以参见下表1,表1共举出了优化规则库中的6种示例,比如示例1是针对待优化项为“select distinct col from dual”,优化项为“selectcol from dual group by col”的优化文件处理得到的示例,其对应待优化模式为“包含关键字distinct”,描述项的内容为“使用group by替换distinct”。示例2是针对待优化项为“内层表使用了字段col,外层表未使用字段col”,优化项为“内层表剔除未使用字段col”的优化文件处理得到的示例,其对应待优化模式为“外层表未使用内层表字段”,描述项的内容为“冗余字段”。示例3是针对待优化项为“存在小表,且小表连接未使用map join”,优化项为“小表连接使用map join”的优化文件处理得到的示例,其对应待优化模式为“出现一张连接表的数据量低于百万级”,描述项的内容为“小表map join”。示例4是针对待优化项为“表嵌套或多表连接时分区查询条件的位置不合理”,优化项为“对表进行分区查询后进行嵌套或连接操作”的优化文件处理得到的示例,其待优化模式为“表嵌套或多表连接时分区查询在外层”,描述项的内容为“表嵌套或多表连接时分区查询位置设置在内”。示例5是针对待优化项为“表文件个数多且每个文件数据量很小”,优化项为“在代码开头添加第一预设配置语句”的优化文件处理得到的示例,该第一预设配置语句人为设定,主要用于将表文件进行合并,其对应待优化模式为“表文件个数多且每个表文件数据量很小”,描述项的内容为“表文件多且数据量小时进行文件合并”。示例6是针对待优化项为“分组字段分布不均且未开启数据倾斜优化机制”,优化项为“在代码开头添加第二预设配置语句”的优化文件处理得到的示例,该第二预设配置语句主要用于进行数据倾斜优化处理,其待优化模式为“使用分布严重不均匀的字段分组且未开启数据倾斜优化机制”,描述项的内容为“使用分布不均字段分组时启动数据倾斜优化机制”。
表1
S208.获取代码优化请求,该代码优化请求携带待优化的业务代码文件。
譬如,该业务代码文件主要用于实现Hive计算,请参见图5,图5示出了某个数据工厂平台的主界面A,其上可以包括各个功能入口,比如主界面左侧可以显示日志接入功能、工具功能、运营统计功能、系统管理功能等这几种类型的入口,平台界面右侧可以显示多个常用的功能入口,比如与离线计算有关的mysql(一种关系型数据库管理系统)计算同步入口、Hive计算入口以及spark(一种通用并行框架)计算入口等等,用户可以通过点击Hive计算入口进入相关界面,比如图5中的界面B,从而了解Hive计算详情,比如界面B中的公告栏示出了当前总共接入的表数量,使用的内存情况,以及计算时长等信息,个人作业运行概要中示出了本电子设备负责的一些作业情况,比如今日作业总数、负责项目数和负责作业数等等,通常,数据工厂每日进行的Hive计算的计算量远超预算,需要在计算前对业务代码文件进行优化,以提高计算效率,降低数据工厂的计算压力。
S209.根据所述代码优化请求确定该优化规则库中每个待优化模式的遍历顺序。
S210.根据该遍历顺序从当前待优化模式中确定待匹配模式,并根据该待匹配模式判断该待优化的业务代码文件是否满足条件;若满足条件,则将该待匹配模式作为目标优化模式并执行下述步骤S211;若不满足条件,则直接执行步骤S212。
譬如,对于上述优化规则库中的6种示例,可以依次判断是否和其中一种示例相匹配,若相匹配,则认为满足条件。比如,示例1中的待优化模式,该匹配机制主要为:将业务代码文件中的字段与预设关键字(比如distinct)进行对比,只有存在预设关键字时才满足条件。示例2中待优化模式的匹配机制主要为:检测嵌套select语句或者JOIN语句引用的字段是否出现在最外层结果表,只有引用字段未出现在最外层结果表时才满足条件。示例3中待优化模式的匹配机制主要为:检测每个表的数据量与预设值(比如1000000))进行对比,只有存在某个表的数据量低于预设值时才满足条件。示例4中待优化模式的匹配机制主要为:检测嵌套select语句或JOIN语句是否在外部结果表中引用了分区字段作为查询条件,只有嵌套select语句或JOIN语句在外部结果表中引用了分区字段作为查询条件时才满足条件。示例5中待优化模式的匹配机制主要为:检测表文件个数是否大于预设个数且每个表文件的数据量是否小于预设数值,只有表文件个数大于预设个数且每个表文件的数据量小于预设数值时才满足条件。示例6中待优化模式的匹配机制主要为:检测是否使用分布不均匀的字段分组,若是,则进一步检测是否开启数据倾斜优化机制,只有字段分组不均匀且未开启数据倾斜优化机制时才满足条件。
S211.从该优化规则库中获取与该目标优化模式对应的优化策略,并将与该目标优化模式对应的优化策略作为目标优化策略,之后利用该目标优化策略对该待优化的业务代码文件进行优化。
譬如,假设业务代码文件对应的目标优化模式符合上述示例1,则其优化方式为:使用group by替换业务代码文件中的distinct,若符合上述示例2,则其优化方式为:剔除业务代码文件中嵌套select语句或者JOIN语句引用的冗余字段,若符合上述示例3,则其优化方式为:使用map join代替业务代码文件中数据量小于1000000条记录的小表连接,若符合上述示例4,则其优化方式为:将分区字段条件放入select语句或者JOIN语句子查询内,从而减少读入的分区数目,若符合上述示例5,则其优化方式为:在代码开头添加第一预设配置语句,以对多个表文件进行合并,若符合上述示例6,则其优化方式为:在代码开头添加第二预设配置语句,以启动数据倾斜优化机制。
S212.检测该待匹配模式的遍历顺序是否为末位,若是,则结束优化,若否,则执行下述步骤S213。
S213.获取剩余的待优化模式作为当前待优化模式,并返回执行上述步骤S210。
譬如,假设该待优化的业务代码文件存在5种类型的编写缺陷,也即优化规则库中有5个待优化模式能与之匹配成功,则在检测出1个待优化模式作为目标优化模式,并进行相应优化后,还需继续遍历优化规则库中剩余的其他待优化模式,直至优化规则库中最后一个待优化模式遍历完才停止,从而检测出剩余的4个待优化模式。
根据上述实施例所描述的方法,本实施例将从文档处理装置的角度进一步进行描述,该文档处理装置具体可以作为独立的实体来实现,也可以集成在电子设备中,比如服务器来实现。
请参阅图6,图6具体描述了本申请实施例提供的文档处理装置,应用于电子设备,该文档处理装置可以包括:获取模块10、第一确定模块20、第二确定模块30、聚类模块40和创建模块50,其中:
(1)获取模块10
获取模块10,用于获取待处理的优化文档集合。
本实施例中,该优化文档集合中包括大量优化文档,该优化文档可以有多种来源,比如本地库中已有的本地文档,以及利用爬虫工具从不同网页,比如不同知识问答社区网页(比如博客、知乎等)中爬取的网络文档,等等。
(2)第一确定模块20
第一确定模块20,用于确定该优化文档集合中每个优化文档对应的语料词组。
本实施例中,可以先对每个优化文档进行文本分词处理,之后可以使用中文停用词表和自定义的优化停用词表,剔除掉每个优化文档中与中文停用词表和优化停用词表相同的词语,以确保剩余的词语与优化有关,并将每个优化文档剩余的词语作为一个语料词组。
(3)第二确定模块30
第二确定模块30,用于根据每个该语料词组确定对应优化文档的文档特征向量。
例如,请参见图7,该第二确定模块30具体包括:
第一确定单元31,用于确定每个该语料词组中语料词对应的特征向量,得到对应特征向量组。
本实施例中,可以利用训练好的Word2Vec模型对语料词进行处理,以得到对应特征向量,每个语料词组对应的特征向量构成一个特征向量组,其中,Word2Vec模型是用来产生词向量的相关模型,其为浅而双层的神经网络。
第二确定单元32,用于确定每个该特征向量组对应的平均特征向量和最大值特征向量。
例如,该第二确定单元32具体用于:
将同一该特征向量组中的特征向量进行平均值计算,得到平均特征向量;
将同一该特征向量组中每个特征向量在相同维度上的数值进行大小比较;
从比较结果中确定每个该特征向量组在单个该维度上的最大数值;
根据该最大数值确定对应该特征向量组的最大值特征向量。
本实施例中,可以通过以下公式(1)来计算每个特征向量组的平均特征向量X1,通过公式(2)来计算每个特征向量组的最大值特征向量X2
X2=[max{wi1},max{wi2),…,max{wik}] (2)
其中,Wi表示语料词i的特征向量,k为特征向量的维度数,N表示单个特征向量组中特征向量的个数。
拼接单元33,用于将该平均特征向量和最大值特征向量进行拼接,得到对应优化文档的文档特征向量。
本实施例中,若平均特征向量和最大值特征向量均为k维向量,则拼接之后的文档特征向量为2k维,其拼接顺序可以人为设定,比如,若平均特征向量为[j1,j2…jk],最大值特征向量为[h1,h2…hk],则文档特征向量可以为[j1,j2…jk,h1,h2…hk]。
(4)聚类模块40
聚类模块40,用于根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组。
本实施例中,该聚类处理可以借助K-means算法、高斯混合模型聚类算法等来实现,比如将所有文档特征向量输入K-means算法中,以文档特征向量彼此间的余弦相似度作为距离进行聚类,得到多个聚类中心和每个聚类中心下的聚类分组,通常,一个聚类中心代表一种优化类型,每个优化类型下对应多个优化文档。
容易理解的是,聚类处理的算法除了K-means算法之外,还可以采用其他聚类算法,如高斯混合模型聚类算法等,此处不做限制。
(5)创建模块50
创建模块50,用于根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化。
本实施例中,该优化规则库主要是一个针对Hive计算的优化规则标准知识库,该库汇总了几乎所有Hive计算业务中可能遇到的代码优化策略,用于对Hive计算代码进行优化,从而节约该Hive计算代码的运行资源,缩短运行时间。
例如,该创建模块50具体用于:
确定每个该优化文档组中优化文档的待优化项和优化项;
根据该待优化项和优化项确定多个待优化模式、以及每个该待优化模式对应的优化策略;
根据该待优化模式和优化策略创建优化规则库。
本实施例中,该待优化项通常表示不合理的代码编写方式,其是可进行资源优化的代码部分,该优化项通常表示较合理的代码编写方式,其在一定程度上节约了计算资源。该待优化模式是根据优化项和待优化项分析总结出的,每一待优化模式代表一种类型的不合理代码编写方式,比如使用了某些关键字,譬如“distinct”,或者存在冗余字段,譬如嵌套select语句或者JOIN语句引用的字段未出现在最外层结果表,则该未出现的字段为冗余字段,或者连接表的数据量低于一定值,比如1000000条记录,等等。
该优化策略主要用于将待优化项转变为优化项,比如使用“group by”替换“distinct”,删除嵌套select语句或者JOIN语句中未出现在最外层结果表中的引用字段,将数据量低于一定值的连接表使用map join表代替,等等,其中,map join是指在map阶段进行表之间的连接,而不需要进入到reduce阶段才进行连接,map和reduce是hive计算中join连接操作的两个阶段。该优化规则库中可以包括待优化模式和其对应的优化策略。除此之外,该优化规则库还可以包括相应优化策略的描述项,该描述项主要用于向用户详细介绍对应优化策略解决的代码编写问题,以帮助用户更好的理解优化项。
需要指出的是,该待优化模式除了通过上述经由优化项和待优化项分析总结得到外,还可以借助算法模型得到,比如调用Hive计算中的explain函数对待处理的优化文档集合进行处理,得到每个优化文档的逻辑流程图,之后提取逻辑流程图中的关键模块,并利用机器学习模型对这些关键模块进行学习,得到待优化模式的分类模型,后续实际使用过程中,可以先利用explain函数得到待优化的业务代码文件的逻辑流程图,之后利用该分类模型对该逻辑流程图中的关键模块进行处理,得到相应待优化模式。
此外,请参见图8,该文档处理装置还包括优化模块60,用于:
在该创建模块50根据该待优化模式和优化策略创建优化规则库之后,获取代码优化请求,该代码优化请求携带待优化的业务代码文件;
根据该待优化的业务代码文件从该优化规则库中确定目标优化策略;
利用该目标优化策略对该待优化的业务代码文件进行优化。
本实施例中,当开发人员输入了Hive计算的开发代码文件(也即业务代码文件)时,可以先通过优化规则库选择合适的优化策略对其进行优化,之后再利用优化后的开发代码进行相应Hive计算。
其中,该优化模块60具体用于:
从该优化规则库的多个待优化模式中确定与该待优化的业务代码文件匹配的目标优化模式;
从该优化规则库中获取与该目标优化模式对应的优化策略;
将与该目标优化模式对应的优化策略作为目标优化策略。
本实施例中,该优化规则库中应当包括每个待优化模式与对应优化策略的关联关系,通常,该待优化模式与优化策略是一一对应的,且对于不同的待优化模式,其具有不同的匹配机制。具体的,该优化模块60进一步用于:
确定该优化规则库中每个待优化模式的遍历顺序;
根据该遍历顺序从当前待优化模式中确定待匹配模式;
根据该待匹配模式判断该待优化的业务代码文件是否满足条件;
若满足条件,则将该待匹配模式作为目标优化模式;
若不满足条件,则检测该待匹配模式的遍历顺序是否为末位,若是末位,则结束优化,若不是末位,则获取剩余的待优化模式作为当前待优化模式,并返回执行该根据该遍历顺序从当前待优化模式中确定待匹配模式的步骤。
本实施例中,该目标优化模式可以通过遍历的方式进行匹配,该遍历顺序可以是随机的,也可以是人为规定的。譬如,对于匹配的目标优化模式为“包含关键字distinct”的业务代码文件,在优化时,可以使用group by替换distinct,对于匹配的目标优化模式为“外层表未使用内层表字段”的业务代码文件,在优化时,可以剔除该未使用的内层表字段,等等。
需要指出的是,单个业务代码文件需要优化的地方可能不止一个,其可以是多个,为此,优化模块60在对该待优化的业务代码文件执行完单次优化操作后,还需继续检查是否需要进行下一次优化操作,也即继续针对优化规则库中未遍历完的剩余待优化模式继续遍历,一旦发现有新的目标优化模式,则利用该新的目标优化模式对该业务代码文件进行优化,直至优化规则库中所有的待优化模式遍历完才结束整个优化操作,也即,优化模块60在执行完上述步骤“利用该目标优化策略对该待优化的业务代码文件进行优化”之后,应当返回执行上述步骤“检测该待匹配模式的遍历顺序是否为末位”。具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上述可知,本实施例提供的文档处理装置,通过获取模块10获取待处理的优化文档集合,第一确定模块20确定该优化文档集合中每个优化文档对应的语料词组,之后,第二确定模块30根据每个该语料词组确定对应优化文档的文档特征向量,聚类模块40根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组,之后创建模块50根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化,从而无需依赖专业人员即可实现对数据分析组件代码的自动优化,提高优化效率,减少优化成本。
相应的,本发明实施例还提供一种文档处理系统,包括本发明实施例所提供的任一种文档处理装置,该文档处理装置可以集成在电子设备,比如数据工厂的后台服务器中。
其中,电子设备可以获取待处理的优化文档集合;确定该优化文档集合中每个优化文档对应的语料词组;根据每个该语料词组确定对应优化文档的文档特征向量;根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组;根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化。
以上各个设备的具体实施可参见前面的实施例,在此不再赘述。
由于该文档处理系统可以包括本发明实施例所提供的任一种文档处理装置,因此,可以实现本发明实施例所提供的任一种文档处理装置所能实现的有益效果,详见前面的实施例,在此不再赘述。
相应的,本发明实施例还提供一种电子设备,如图9所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
电子设备还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该电子设备还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待处理的优化文档集合;
确定该优化文档集合中每个优化文档对应的语料词组;
根据每个该语料词组确定对应优化文档的文档特征向量;
根据该文档特征向量对该优化文档集合进行聚类处理,得到多个优化文档组;
根据该多个优化文档组创建优化规则库,该优化规则库用于对业务代码文件进行优化。
该电子设备可以实现本发明实施例所提供的任一种文档处理装置所能实现的有效效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种文档处理方法、装置、存储介质和电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种文档处理方法,其特征在于,包括:
获取待处理的优化文档集合;
确定所述优化文档集合中每个优化文档对应的语料词组;
确定每个所述语料词组中语料词对应的特征向量,得到对应特征向量组;
确定每个所述特征向量组对应的平均特征向量和最大值特征向量;
将所述平均特征向量和最大值特征向量进行拼接,得到对应优化文档的文档特征向量;
根据所述文档特征向量对所述优化文档集合进行聚类处理,得到多个优化文档组;
确定每个所述优化文档组中优化文档的待优化项和优化项;
根据所述待优化项和优化项确定多个待优化模式、以及每个所述待优化模式对应的优化策略;
根据所述待优化模式和优化策略创建优化规则库,所述优化规则库用于对业务代码文件进行优化。
2.根据权利要求1所述的文档处理方法,其特征在于,所述确定每个所述特征向量组对应的平均特征向量和最大值特征向量,包括:
将同一所述特征向量组中的特征向量进行平均值计算,得到平均特征向量;
将同一所述特征向量组中每个特征向量在相同维度上的数值进行大小比较;
从比较结果中确定每个所述特征向量组在单个所述维度上的最大数值;
根据所述最大数值确定对应所述特征向量组的最大值特征向量。
3.根据权利要求1所述的文档处理方法,其特征在于,在根据所述待优化模式和优化策略创建优化规则库之后,还包括:
获取代码优化请求,所述代码优化请求携带待优化的业务代码文件;
根据所述待优化的业务代码文件从所述优化规则库中确定目标优化策略;
利用所述目标优化策略对所述待优化的业务代码文件进行优化。
4.根据权利要求3所述的文档处理方法,其特征在于,所述根据所述待优化的业务代码文件从所述优化规则库中确定目标优化策略,包括:
从所述优化规则库的多个待优化模式中确定与所述待优化的业务代码文件匹配的目标优化模式;
从所述优化规则库中获取与所述目标优化模式对应的优化策略;
将与所述目标优化模式对应的优化策略作为目标优化策略。
5.根据权利要求4所述的文档处理方法,其特征在于,所述从所述优化规则库的多个待优化模式中确定与所述待优化的业务代码文件匹配的目标优化模式,包括:
确定所述优化规则库中每个待优化模式的遍历顺序;
根据所述遍历顺序从当前待优化模式中确定待匹配模式;
根据所述待匹配模式判断所述待优化的业务代码文件是否满足条件;
若满足条件,则将所述待匹配模式作为目标优化模式;
若不满足条件,则检测所述待匹配模式的遍历顺序是否为末位,若不是末位,则获取剩余的待优化模式作为当前待优化模式,并返回执行所述根据所述遍历顺序从当前待优化模式中确定待匹配模式的步骤。
6.一种文档处理装置,其特征在于,包括:
获取模块,用于获取待处理的优化文档集合;
第一确定模块,用于确定所述优化文档集合中每个优化文档对应的语料词组;
第二确定模块,用于确定每个所述语料词组中语料词对应的特征向量,得到对应特征向量组;确定每个所述特征向量组对应的平均特征向量和最大值特征向量;将所述平均特征向量和最大值特征向量进行拼接,得到对应优化文档的文档特征向量;
聚类模块,用于根据所述文档特征向量对所述优化文档集合进行聚类处理,得到多个优化文档组;
创建模块,用于确定每个所述优化文档组中优化文档的待优化项和优化项;根据所述待优化项和优化项确定多个待优化模式、以及每个所述待优化模式对应的优化策略;根据所述待优化模式和优化策略创建优化规则库,所述优化规则库用于对业务代码文件进行优化。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至5任一项所述的文档处理方法。
8.一种电子设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据,所述处理器用于执行权利要求1至5任一项所述的文档处理方法中的步骤。
CN201910960239.6A 2019-10-10 2019-10-10 文档处理方法、装置、存储介质及电子设备 Active CN110765237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910960239.6A CN110765237B (zh) 2019-10-10 2019-10-10 文档处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910960239.6A CN110765237B (zh) 2019-10-10 2019-10-10 文档处理方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110765237A CN110765237A (zh) 2020-02-07
CN110765237B true CN110765237B (zh) 2023-09-26

Family

ID=69331777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910960239.6A Active CN110765237B (zh) 2019-10-10 2019-10-10 文档处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110765237B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861455B (zh) * 2023-06-25 2024-04-26 上海数禾信息科技有限公司 事件数据处理方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273164A (zh) * 2017-06-16 2017-10-20 郑州云海信息技术有限公司 一种实现Linux系统性能优化时自动匹配场景优化策略的方法
CN107544794A (zh) * 2016-06-28 2018-01-05 华为技术有限公司 程序信息的处理方法和装置
CN107580329A (zh) * 2017-10-20 2018-01-12 北京神州泰岳软件股份有限公司 一种网络分析优化方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205144B (zh) * 2015-09-18 2019-03-26 北京百度网讯科技有限公司 用于数据诊断优化的方法和系统
CN108595706B (zh) * 2018-05-10 2022-05-24 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109189926B (zh) * 2018-08-28 2022-04-12 中山大学 一种科技论文语料库的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544794A (zh) * 2016-06-28 2018-01-05 华为技术有限公司 程序信息的处理方法和装置
CN107273164A (zh) * 2017-06-16 2017-10-20 郑州云海信息技术有限公司 一种实现Linux系统性能优化时自动匹配场景优化策略的方法
CN107580329A (zh) * 2017-10-20 2018-01-12 北京神州泰岳软件股份有限公司 一种网络分析优化方法及装置

Also Published As

Publication number Publication date
CN110765237A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
US11379422B2 (en) Text deduplication method and apparatus, and storage medium
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
CN106951494B (zh) 一种信息推荐方法及装置
CN107741937B (zh) 一种数据查询方法及装置
CN110362827B (zh) 一种关键词提取方法、装置及存储介质
CN105988996B (zh) 一种索引文件生成方法及装置
CN109947858B (zh) 一种数据处理的方法及装置
CN108268438B (zh) 一种页面内容提取方法、装置以及客户端
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN110222203A (zh) 元数据搜索方法、装置、设备及计算机可读存储介质
CN110427622B (zh) 语料标注的评估方法、装置及存储介质
CN110765237B (zh) 文档处理方法、装置、存储介质及电子设备
CN111414487A (zh) 事件主题的关联扩展方法、装置、设备及介质
CN113822038B (zh) 一种摘要生成方法和相关装置
CN112307198B (zh) 一种单文本的摘要确定方法和相关装置
CN116361184A (zh) 一种数据查找方法、装置、介质和计算机设备
CN114064729B (zh) 一种数据检索方法、装置、设备及存储介质
CN116150376A (zh) 一种样本数据分布优化方法、装置和存储介质
CN113821669B (zh) 搜索方法、装置、电子设备和存储介质
CN112426726B (zh) 游戏事件抽取方法、装置、存储介质及服务器
CN110263347B (zh) 一种同义词的构建方法及相关装置
CN112445907B (zh) 文本情感分类方法、装置、设备、及存储介质
US12038891B2 (en) Approximate query equivalence for feature stores in machine learning operations products
US11899754B2 (en) ROI-based data content graph for wide data management
CN117370634A (zh) 搜索词处理方法、相关装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020389

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant