CN112099870A - 文档处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

文档处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112099870A
CN112099870A CN202010884957.2A CN202010884957A CN112099870A CN 112099870 A CN112099870 A CN 112099870A CN 202010884957 A CN202010884957 A CN 202010884957A CN 112099870 A CN112099870 A CN 112099870A
Authority
CN
China
Prior art keywords
document
feature
processed
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010884957.2A
Other languages
English (en)
Other versions
CN112099870B (zh
Inventor
陈嘉航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010884957.2A priority Critical patent/CN112099870B/zh
Publication of CN112099870A publication Critical patent/CN112099870A/zh
Priority to PCT/CN2021/083679 priority patent/WO2022041714A1/zh
Application granted granted Critical
Publication of CN112099870B publication Critical patent/CN112099870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请实施例提供了一种文档处理方法、装置、设备及计算机可读存储介质;该方法包括:获取待处理文档;接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。

Description

文档处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及金融科技(Fintech)的文档管理领域,涉及但不限于一种文档处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
目前,在金融科技领域中,为了便于进行文档管理,需要提取文档的特征,并基于文档的特征进行文档管理;然而,在文档的特征不是默认特征,而是新特征时,需要编写并运行的新的程序代码,以实现文档的新特征的提取,导致增加了时间成本和人力成本。
发明内容
本申请实施例提供一种文档处理方法、装置、电子设备及计算机可读存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文档处理方法,所述方法包括:
获取待处理文档;
接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;
在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;
基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。
在本申请的一些实施例中,所述文件包包括自定义类,所述第一信息位于自定义类中;
所述方法还包括:通过程序语言的反射机制,加载所述文件包中的所述自定义类,并从加载的所述自定义类中获取所述第一信息。
可以看出,在本申请实施例中,可以通过程序语言的反射机制加载文件包中的自定义类,也就是说,无论文件包中的自定义类是已知的还是未知的,均可以基于程序语言的反射机制的原理,不需要提前引入文件包中的自定义类,可以实现文件包中的自定义类的加载;在实时接收文件包的情况下,可以实现文件包中的自定义类的动态加载。
在本申请的一些实施例中,所述配置文件还包括第二信息,所述第二信息包括:所述文件包的标识和/或所述自定义类的标识;
所述通过程序语言的反射机制,加载所述文件包中的所述自定义类,包括:
在确定所述配置文件中的第二信息为预先与所述第三方平台约定的信息的情况下,通过所述程序语言的反射机制,加载所述文件包中的所述自定义类。
可以看出,在配置文件中的第二信息为预先与第三方平台约定的信息的情况下,说明配置文件中的第二信息是正确的信息,在此基础上,加载文件包中的自定义类,有利于准确地从自定义类中获取第一信息,进而,有利于准确地提取目标特征。
在本申请的一些实施例中,所述方法还包括:
获取预先设置的所述第二信息的加密方式;
基于所述第二信息的加密方式对应的解密方式,对所述配置文件中的加密信息进行解密,得到所述第二信息;其中,所述加密信息是基于所述加密方式对所述第二信息进行加密得到的。
可以看出,本申请实施例可以在接收到第三方平台发送的配置文件后,基于预先设置的加密方式对应的解密方式进行解密,因而,可以实现第二信息的加密传输,有利于提高第二信息的安全性,降低第二信息被攻击的风险。
在本申请的一些实施例中,所述文档处理方法还包括:
预先确定抽象类,设置所述自定义类继承所述预先确定的抽象类;
所述从加载的所述自定义类中获取所述第一信息,包括:
将所述自定义类实例化为对象,在所述对象属于所述抽象类的情况下,从加载的所述自定义类中获取所述第一信息。
可以看出,本申请实施例中,在自定义类实例化的对象属于抽象类的情况下,可以认为自定义类为正确的类,在此基础上,有利于准确地从自定义类中获取第一信息,进而,有利于准确地提取目标特征。
在本申请的一些实施例中,所述方法还包括:
在所述目标特征的标识与默认特征的标识相同的情况下,基于预先确定的所述默认特征的提取方式,在所述待处理文档中提取出所述目标特征。
可以看出,本申请实施例对于目标特征为默认特征的情况,无需从第三方平台获取目标特征的提取方式,而是可以基于预先确定的默认特征的提取方式实现目标特征提取,具有易于实现的特点。
在本申请的一些实施例中,所述方法还包括:
基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值。
可以看出,本申请实施例可以在目标特征的基础上,实现对待处理文档的质量评估,有利于在对待处理文档进行质量评估的基础上实现对待处理文档的管理。
在本申请的一些实施例中,所述目标特征包括至少两个特征;所述配置文件包括所述至少两个特征中每个特征的权重信息;
所述基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值,包括:
基于所述至少两个特征中各个特征的权重信息,对所述至少两个特征中各个特征进行加权求和运算,得出所述待处理文档的质量评分值。
可以看出,本申请实施例可以通过对目标特征的各个特征进行加权求和,实现对待处理文档的质量评估,有利于在对待处理文档进行质量评估的基础上实现对待处理文档的管理。
在本申请的一些实施例中,所述在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的字数按照预先确定的多个字数区间进行离散化数据处理,得到长度相关特征,每个所述字数区间对应一个取值;提取所述待处理文档的文档特征向量,将所述待处理文档的文档特征向量与预设模板的文档特征向量的余弦相似度作为模板相关特征;根据所述待处理文档中预设词性的词占待处理文档所有词的数量比例,确定词性相关特征;
将长度相关特征、模板相关特征和词性相关特征中的至少两个作为所述目标特征。
可以看出,本申请实施例可以基于长度相关特征、模板相关特征和词性相关特征,实现对待处理文档的质量评估,即,可以从多个方面准确地评估待处理文档的质量。
在本申请的一些实施例中,所述在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的单词数按照预先确定的多个单词数区间进行离散化数据处理,得到第一特征,每个所述单词数区间对应一个取值;将所述待处理文档的句子平均长度按照预先确定的多个句子长度区间进行离散化数据处理,得到第二特征,每个所述句子长度区间对应一个取值;以所述待处理文档的文档错误数作为指数函数的自变量,得出所述指数函数的取值,将所述指数函数的取值作为所述第三特征;将所述待处理文档的高级词汇数按照预先确定的多个高级词汇数区间进行离散化数据处理,得到第四特征,每个所述高级词汇数区间对应一个取值,所述高级词汇表示位于预先确定的高级词汇表中的词汇;
将所述第一特征、第二特征、第三特征和第四特征中的至少两个作为所述目标特征。
可以看出,本申请实施例可以基于第一特征、第二特征、第三特征和第四特征,实现对待处理文档的质量评估,而第一特征、第二特征、第三特征和第四特征为四个不同的特征,因而,本申请实施例可以从多个方面准确地评估待处理文档的质量。
本申请实施例提供一种文档处理装置,所述装置包括:
第一获取模块,用于获取待处理文档;
接收模块,用于接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;
第二获取模块,用于在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;
处理模块,用于基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。
在本申请的一些实施例中,所述文件包包括自定义类,所述第一信息位于自定义类中;
所述第二获取模块,还用于通过程序语言的反射机制,加载所述文件包中的所述自定义类,并从加载的所述自定义类中获取所述第一信息。
在本申请的一些实施例中,所述配置文件还包括第二信息,所述第二信息包括:所述文件包的标识和/或所述自定义类的标识;
所述第二获取模块,用于通过程序语言的反射机制,加载所述文件包中的所述自定义类,包括:
在确定所述配置文件中的第二信息为预先与所述第三方平台约定的信息的情况下,通过所述程序语言的反射机制,加载所述文件包中的所述自定义类。
在本申请的一些实施例中,所述第二获取模块,还用于获取预先设置的所述第二信息的加密方式;基于所述第二信息的加密方式对应的解密方式,对所述配置文件中的加密信息进行解密,得到所述第二信息;其中,所述加密信息是基于所述加密方式对所述第二信息进行加密得到的。
在本申请的一些实施例中,所述第二获取模块,还用于预先确定抽象类,设置所述自定义类继承所述预先确定的抽象类;
所述第二获取模块,用于从加载的所述自定义类中获取所述第一信息,包括:
将所述自定义类实例化为对象,在所述对象属于所述抽象类的情况下,从加载的所述自定义类中获取所述第一信息。
在本申请的一些实施例中,所述处理模块,还用于在所述目标特征的标识与默认特征的标识相同的情况下,基于预先确定的所述默认特征的提取方式,在所述待处理文档中提取出所述目标特征。
在本申请的一些实施例中,所述处理模块,还用于基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值。
在本申请的一些实施例中,所述目标特征包括至少两个特征;所述配置文件包括所述至少两个特征中每个特征的权重信息;
所述处理模块,用于基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值,包括:
基于所述至少两个特征中各个特征的权重信息,对所述至少两个特征中各个特征进行加权求和运算,得出所述待处理文档的质量评分值。
在本申请的一些实施例中,所述处理模块,用于在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的字数按照预先确定的多个字数区间进行离散化数据处理,得到长度相关特征,每个所述字数区间对应一个取值;提取所述待处理文档的文档特征向量,将所述待处理文档的文档特征向量与预设模板的文档特征向量的余弦相似度作为模板相关特征;根据所述待处理文档中预设词性的词占待处理文档所有词的数量比例,确定词性相关特征;
将长度相关特征、模板相关特征和词性相关特征中的至少两个作为所述目标特征。
在本申请的一些实施例中,所述处理模块,用于在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的单词数按照预先确定的多个单词数区间进行离散化数据处理,得到第一特征,每个所述单词数区间对应一个取值;将所述待处理文档的句子平均长度按照预先确定的多个句子长度区间进行离散化数据处理,得到第二特征,每个所述句子长度区间对应一个取值;以所述待处理文档的文档错误数作为指数函数的自变量,得出所述指数函数的取值,将所述指数函数的取值作为所述第三特征;将所述待处理文档的高级词汇数按照预先确定的多个高级词汇数区间进行离散化数据处理,得到第四特征,每个所述高级词汇数区间对应一个取值,所述高级词汇表示位于预先确定的高级词汇表中的词汇;
将所述第一特征、第二特征、第三特征和第四特征中的至少两个作为所述目标特征。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现上述任意一种文档处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现上述任意一种文档处理方法。
本申请实施例中,获取待处理文档;接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。可以看出,在本申请实施例中,在需要提取待处理文档的目标特征且目标特征不是默认特征的情况下,为了实现目标特征提取,不需要在本地编写并运行的新的程序代码,而是可以直接从第三方平台获取目标特征的提取方法,在一定程度上降低了时间成本和人力成本。
附图说明
图1是本申请实施例的一个应用场景的示意图;
图2是本申请实施例提供的文档处理方法的一个可选的流程图;
图3是本申请实施例中实现配置文件中的信息加密传输的一个流程图;
图4是本申请实施例提供的文档处理方法的另一个可选的流程图;
图5是本申请实施例的文档处理装置的一个可选的组成结构示意图;
图6是本申请实施例提供的电子设备的一个可选的组成结构示意图。
具体实施方式
在相关技术中,对于预案文档的管理,仅仅可以采用与图书馆文档管理系统类似的方案,实现文档的上传和下载,这种文档管理方式无法实现对文档质量的评估;并且,采用这种文档管理方式,可以随意向文档库上传文档,可能导致文档库的文档质量良莠不齐,随着个人、企业、社会的发展,文档库中的文档会越来越多。
在相关技术中,可以采用人工评估文档质量的方式实现文档管理,然而,这样会增加大量的人力成本,每个人的文档评估准则不能作为经验保存,人工评估文档质量的方式还存在主观性强和不够客观的问题;在相关技术中,也可以基于特征工程提取特定的某种类型的文档的特征,然后,基于提取的特征进行文档质量的评估,例如,特定的某种类型的文档可以是英语作文、中文作文等;针对不同类型的文档,可能需要提取不同类型的特征,因而,为了提取不同类型的特征,需要开发并部署不同的特征提取模型,或者需要开发不同的特征库,为了部署不同的特征提取模型,需要在本地编写并部署新的程序代码,这样导致增加了时间成本和人力成本。
针对上述技术问题,提出本申请实施例的技术方案。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请实施例提供一种文档处理方法、装置、设备及计算机可读存储介质;本申请实施例提供的文档处理方法可以应用于电子设备中,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等。
图1为本申请实施例的一个应用场景的示意图,如图1所示,电子设备100可以通过网络101连接第三方平台102;网络101可以是广域网或者局域网,又或者是二者的组合;第三方平台102可以基于终端和/或服务器实现,终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本申请的一些实施例中,第三方平台102可以获取待处理文档,并将待处理文档发送至电子设备100;待处理文档的类型可以是任意类型,在一些实施例中,待处理文档可以是中文文档、英文文档或其它语言的文档;在一些实施例中,待处理文档可以是预案文档、电子设备的日志数据或其它文档;需要说明的是,上述记载的内容仅仅是对待处理文档的类型进行示例性说明,本申请实施例并不局限于此。
在本申请的一些实施例中,电子设备100可以从本地获取待处理文档,或者,从网络101中下载待处理文档;电子设备100可以将待处理文档发送至第三方平台102。
第三方平台102在获取待处理文档后,可以确定待处理文档的目标特征和目标特征的特征提取方法,并生成配置文件,配置文件至少包括待处理文档的目标特征的标识和第三方平台102提供的文件包的路径信息;文件包包括表征目标特征的特征提取方法的第一信息。这里,第一信息可以是实现目标特征的特征提取方法的程序代码。
本申请实施例中,第三方平台102根据实际的特征提取需求确定目标特征,这里,目标特征可以是一个特征,也可以包括多个特征。本申请实施例中,目标特征的标识可以是名称、编号或其它标识。
本申请实施例中,文件包可以包括:在面向对象的编程语言中提供至少一种功能的代码合集;示例性地,面向对象的编程语言可以是JAVA语言、C++语言等,在面向对象的编程语言可以是JAVA语言时,上述文件包可以是jar包。
第三方平台102可以将配置文件和文件包发送至电子设备100。
本申请实施例中,文件包的路径信息可以表示文件包在电子设备100中的存储位置;电子设备100可以根据配置文件确定文件包存储位置,在文件包中提取第一信息,并根据第一信息在待处理文档中提取出目标特征。
下面结合图1所示的应用场景,对本申请实施例的文档处理方法进行示例性说明。
图2为本申请实施例提供的文档处理方法的一个可选的流程图,如图2所示,该流程可以包括:
步骤201:获取待处理文档。
步骤202:接收第三方平台发送的配置文件。
这里,步骤201至步骤202的实现方式已经在前述记载的内容中作出说明,这里不再赘述。
步骤203:在目标特征的标识与默认特征的标识不同的情况下,基于文件包的路径信息获取文件包。
本申请实施例中,默认特征为电子设备预先确定的特征,对于默认特征,默认特征的提取方式也是预先确定的。
在目标特征的标识与默认特征的标识不同的情况下,说明目标特征不是默认特征,需要采用针对目标特征确定特征提取方式,此时,可以基于配置文件中文件包的路径信息读取出文件包。
步骤204:基于文件包中的第一信息,在待处理文档中提取出目标特征。
本申请实施例中,第一信息表征目标特征的特征提取方法,因而,基于第一信息,可以确定目标特征的特征提取方法,进而,可以在待处理文档中提取出目标特征。
在本申请的一些实施例中,目标特征的特征提取方法是基于自然语言处理(Natural Language Processing,NLP)方法或其它文档处理方法实现的。在一些实施例中,目标特征的特征提取方法可以包括第一方法和第二方法,其中,第一方法可以记为doCalculator方法,第二方法可以记为featureCalculate方法。
本申请实施例中,基于第一方法对待处理文档进行处理可以包括:1)使用NLP方法对待处理文档进行切词,进而统计词粒度的数据;2)使用NLP方法对待处理文档进行分句,进而统计句子粒度的数据;3)去除高频词和语气词并进行去噪处理;4)提取待处理文档中主标题、副标题、字体大小等数据,例如可以使用面向微软文档的JAVA应用程序编程接口(the JAVA Application Pro gramming Interface for Microsoft Document,ApachePOI)提取待处理文档中主标题、副标题、字体大小等数据。
在一些实施例中,可以根据待处理文档的不同语言,采用的不同语言包对待处理文档进行处理,例如,在待处理文档为中文文档时,可以采用汉语言处理包(Han LanguageProcessing,HanLP)对待处理文档进行切词或分句;在在待处理文档为英文文档时,可以采用英语语言处理包对待处理文档进行切词或分句。
本申请实施例中,基于第一方法对待处理文档进行处理后,可以得到待处理文档的初步处理结果,该初步处理结果包括特征的取值;然后,可以基于第二方法对处理文档的初步处理结果进行进一步处理,例如,基于第二方法可以对离散的特征取值进行归一化处理,对连续的特征取值进行均值化处理。
需要说明的是,上述记载的内容仅仅是对第一方法和第二方法的实现方式进行了示例性说明,本申请实施例并不局限于此。
在本申请的一些实施例中,在第一信息是实现目标特征的特征提取方法的程序代码的情况下,可以执行该程序代码,得到目标特征。
在实际应用中,步骤201至步骤204可以基于电子设备的处理器实现,上述处理器可以是特定用途集成电路(Application Specific Integrated Circuit,A SIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital SignalProcessing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,F PGA)、中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作限制。
可以看出,在本申请实施例中,在需要提取待处理文档的目标特征且目标特征不是默认特征的情况下,为了实现目标特征提取,不需要在本地编写并运行的新的程序代码,而是可以直接从第三方平台获取目标特征的提取方法,在一定程度上降低了时间成本和人力成本。
进一步地,如果需要修改、新增或删除目标特征,第三方平台可以在配置文件中修改、新增或删除目标特征的标识,并且修改文件包的内容,这样,电子设备不需要可以并不需要在本地编写并运行的新的程序代码,而是可以直接基于接收到的配置文件和文件包进行目标特征的提取。
在本申请的一些实施例中,上述文件包包括自定义类,上述第一信息位于自定义类中。
这里,文件包中的类表示面向对象的编程语言中具有相同属性和行为的一些对象的统称或集合,对象是对客观事物的抽象,类是对对象的抽象,是一种抽象的数据类型;第三方平台可以在自定义类后,可以将第一信息设置于自定义类中。
本申请实施例中,还可以通过程序语言的反射机制,加载文件包中的自定义类,并从加载的自定义类中获取第一信息。
这里,程序语言的反射机制表示指程序可以访问、检测和修改本身状态或行为的一种能力;在一个示例中,JAVA语言的反射(reflection)机制是指在程序的运行状态中,可以构造任意一个类的对象,可以了解任意一个对象所属的类,可以了解任意一个类的成员变量和方法,可以调用任意一个对象的属性和方法。这种动态获取程序信息以及动态调用对象的功能称为JAVA语言的反射机制。
在目前的JAVA相关技术中,如果要使用第三方的方法,通常是采用导入(import)的方法加载文件包中的类,然而,在采用导入的方法前,需要提取引入文件包的类,因而需要预先获知文件包的类;在文件包的类未知的情况下,并不能通过导入的方法加载文件包的类;不能根据实时接收的文件包的类,实现文件包中的类的动态加载。
而在本申请实施例中,可以通过程序语言的反射机制加载文件包中的自定义类,也就是说,无论文件包中的自定义类是已知的还是未知的,均可以基于程序语言的反射机制的原理,不需要提前引入文件包中的自定义类,可以实现文件包中的自定义类的加载;在实时接收文件包的情况下,可以实现文件包中的自定义类的动态加载。
在本申请的一些实施例中,电子设备可以预先与第三方平台约定文件包的标识和/或文件包中自定义类的标识,示例性地,文件包的标识可以是文件包的名称或其它标识,文件包中自定义类的标识可以是自定义类的名称、自定义类的编号或其它标识。
可以理解的是,虽然电子设备与第三方平台约定文件包的标识和/或文件包中自定义类的标识,但是,在第三方平台收到恶意攻击或者第三方平台没有按照约定要求生成文件包的标识或文件包的自定义类的标识时,第三方平台发送的文件包的标识与约定的文件包的标识存在区别,和/或,第三方平台发送的文件包中自定义类的标识与约定的自定义类的标识存在区别,会导致第三方平台提供的文件包并不符合实际需求。
在本申请的一些实施例中,上述配置文件还可以包括第二信息,第二信息包括:第三方平台提供的文件包的标识和/或上述自定义类的标识。
相应地,通过程序语言的反射机制,加载所述文件包中的所述自定义类的一种实现方式可以是,在确定所述配置文件中的第二信息为预先与第三方平台约定的信息的情况下,通过程序语言的反射机制,加载文件包中的自定义类。
需要说明的是,在确定所述配置文件中的第二信息不是预先与第三方平台约定的信息的情况下,可以忽略接收到的文件包。
可以看出,在配置文件中的第二信息为预先与第三方平台约定的信息的情况下,说明配置文件中的第二信息是正确的信息,在此基础上,加载文件包中的自定义类,有利于准确地从自定义类中获取第一信息,进而,有利于准确地提取目标特征。
在目前的JAVA相关技术中,并未对第三方平台提供的文件包进行鉴权,因而,如果黑客等恶意攻击者获知文件包中的自定义类名等信息,就可以通过仿照文件包来实现对电子设备的攻击。
针对该技术问题,在本申请的一些实施例中,电子设备还可以获取预先设置的第二信息的加密方式;相应地,在接收所述第三方平台发送的配置文件之后,基于与第二信息的加密方式对应的解密方式,对配置文件中的加密信息进行解密,得到第二信息;其中,加密信息是基于上述加密方式对第二信息进行加密得到的。
在一些实施例中,电子设备可以在接收第三方平台发送配置文件之前,获取预先设置的第二信息的加密方式;示例性地,预先设置的第二信息的加密方式可以是电子设备与第三方平台约定第二信息的加密方式。
这里,第三方平台与电子设备约定第二信息的加密方式后,在生成第二信息,可以利用约定的加密方式对第二信息进行加密,得到加密信息;然后,可以将包括加密信息的配置文件发送至电子设备。
本申请的一些实施例中,上述加密方式和解密方式可以根据实际情况进行设置,例如,可以基于数据加密标准(Data Encryption Standard,DES)等对称加密方法确定加密方式和解密方式,也可以基于非对称加密方法确定加密方式和解密方式。
图3为本申请实施例中实现配置文件中的信息加密传输的一个流程图,参照图3,在基于DES确定加密方式和解密方式的情况下,实现配置文件中的信息加密传输的流程可以包括:
步骤301:电子设备将公钥和私钥发送至第三方平台,
本申请实施例中,电子设备可以与与第三方平台约定上述第二信息;电子设备可以将公钥、私钥和约定的第二信息存储在数据库中,以便于后续校验;
步骤302:第三方平台利用私钥对第二信息进行加密。
本申请实施例中,第三方平台在收到私钥后,不需要对文件包和文件包中的类进行直接加密,而是在将第二信息写入至配置文件后,利用私钥对第二信息进行加密。
步骤303:第三方平台将私钥对应的公钥写入至配置文件中,并将配置文件发送至电子设备。
本申请实施例中,第三方平台在利用私钥对配置文件的第二信息进行加密,并将与私钥对应的公钥写入至配置文件后,可以将配置文件发送至电子设备。
在另一些实施例中,配置文件还包括目标特征的特征提取方法的标识,相应地,第三方平台还可以利用私钥对目标特征的特征提取方法的标识进行加密;其中,目标特征的特征提取方法的标识可以是名称等信息。
步骤304:电子设备查找公钥对应的私钥。
本申请实施例中,当电子设备接收到配置文件后,可以读取配置文件中的路径信息、以及公钥等信息;在数据库中查找该公钥对应的私钥。
步骤305:电子设备利用私钥对配置文件中加密的信息进行解密。
本申请实施例中,上述步骤304和步骤305均可以通过电子设备中运行的程序实现。
如果解密后的信息中文件包的标识和/或自定义类的标识与约定的第二信息相符,则说明文件包是正确的数据包。
可以看出,本申请实施例可以通过约定配置文件中第二信息的加密方式,使第三方平台对第二信息进行加密,并且在接收到第三方平台发送的配置文件后,可以基于与第三方平台约定的加密方式对应的解密方式进行解密,因而,可以实现第二信息的加密传输,有利于提高第二信息的安全性,降低第二信息被攻击的风险。
在本申请的一些实施例中,电子设备可以预先确定抽象类,并设置自定义类继承所述预先确定的抽象类;示例性地,电子设备可以与第三方平台约定自定义类继承预先确定的抽象类。
这里,抽象类表示不能实例化为对象的类;继承是面向对象软件技术当中的一个概念,可以使得子类具有父类的属性和方法,或者,使子类从父类继承方法,使得子类具有父类相同的行为。
在实际应用中,电子设备可以通过第三方平台的交互,约定文件包中的自定义类继承抽象类;可以理解的是,虽然电子设备与第三方平台约定自定义类继承预先确定的抽象类,但是,在第三方平台收到恶意攻击或者第三方平台没有按照约定要求继承抽象类的情况下,第三方平台提供的文件包中的类实际上并未继承上述抽象类。
在目前的JAVA相关技术中,如果第三方平台提供的文件包中的自定义类并未继承预先确定的抽象类,则可能导致电子设备无法从自定义类中获取第一信息。
针对上述技术问题,在本申请实施例中,从自定义类中获取第一信息的实现方式可以是,将自定义类实例化为对象,在对象属于抽象类的情况下,从加载的自定义类中获取第一信息。
需要说明的是,在确定对象不属于抽象类的情况下,可以忽略接收到的文件包。
在本申请的一些实施例中,电子设备在确定接收到的文件包为正确的数据包后,需要判断文件包中的类是否继承上述预先确定的抽象类;在一种实施方式中,可以在自定义类加载器URLClassloader中通过设置setAccessible参数,实现对JAVA反射功能的支持,这样,可以利用自定义类加载器URLClassload er加载文件包中的自定义类,并将加载的自定义类实例化为对象;然后,可以利用运算符java.getInstanceOf()判断自定义类实例化后的对象是否属于抽象类;如果属于自定义类实例化后的对象属于抽象类,则说明文件包中的类继承了抽象类,此时,可以从自定义的类中获取第一信息;如果属于自定义类实例化后的对象不属于抽象类,则说明文件包中的类未继承抽象类,可以忽略文件包。
可以看出,本申请实施例中,在自定义类实例化的对象属于抽象类的情况下,可以认为自定义类为正确的类,在此基础上,有利于准确地从自定义类中获取第一信息,进而,有利于准确地提取目标特征。
在本申请的一些实施例中,在目标特征的标识与默认特征的标识相同的情况下,说明目标特征是默认特征,此时,可以基于预先确定的所述默认特征的提取方式,在所述待处理文档中提取出目标特征。
可以看出,本申请实施例对于目标特征为默认特征的情况,无需从第三方平台获取目标特征的提取方式,而是可以基于预先确定的默认特征的提取方式实现目标特征提取,具有易于实现的特点。
在一些实施例,在待处理文档的目标特征包括多个特征时,目标特征中的各个特征可以均为默认特征,或者,目标特征中的各个特征可以都不是默认特征,或者,目标特征中的一部分目标特征为默认特征,另一部分特征不是默认特征;可以看出,无论目标特征是否为默认特征,本申请实施例均给出了相应的特征提取方式。
采用本申请实施例的方法进行文档处理时,在电子设备中只需要针对默认特征的提取方式部署程序代码;在目标特征不是默认特征的情况下,只需要根据第三方平台发送的配置文件和文件包,并基于JAVA语言的反射机制,就可以提取出相应的目标特征。
如果配置文件中的目标特征的标识仅仅为默认特征的标识,说明只需要默认特征即可,无需从提取针对待处理文档提取新特征。如果针对待处理文档提取非默认特征,第三方平台可以将非默认特征的标识写入到配置文件中,并将配置文件和相应的文件包发送至电子设备;电子设备便可以根据配置文件和文件包提取出新的非默认特征。也就是说,第三方平台可以根据待处理文档的目标特征的提取需求,确定配置文件的内容和文件包的内容,在需要提取的目标特征发生变化时,只需要更改配置文件中的目标特征的标识和文件包的内容即可。
在一些实施例中,为实现文档的质量评估,需要提取的目标特征中的大部分特征可以是默认特征;对于不同类型的文档,可能需要提取新的非默认特征,在这种情况下,针对不同类型的文档,第三方平台可以向电子设备发送不同的jar包并确定配置文件的不同内容,如此,电子设备可以直接根据不同的jar包,采用第三方平台提供的特征提取方法进行非默认特征的提取,与相关技术中需要在电子设备本地编写并运行的新的程序代码的方案相比,节省了人力成本和时间成本。
本申请的一些实施例中,上述文档处理方法可以通过电子设备上运行的一个主线程实现,下面结合图4进行示例性说明;图4为本申请实施例的文档处理方法的另一个可选的流程图,如图4所示,电子设备的主线程可以记为线程epicDocCalculate,基于电子设备的主线程实现的文档处理方法可以包括:
步骤401:读取配置文件和文件包。
本申请实施例中,电子设备的主线程可以读取第三方平台发送的配置文件和文件包。
步骤402:判断目标特征的标识是否与默认特征的标识相同,在判断结果为是时,执行步骤403;在判断结果为否时,执行步骤404。
本申请实施例中,电子设备的主线程可以基于配置文件,判断待处理文档的各个目标特征标识是否与默认特征的标识相同。
步骤403:提取默认特征。
本申请实施例中,可以基于预先确定的所述默认特征的提取方式实现默认特征提取。
步骤404:判断文件包和文件包中的类是否正确,在文件包和文件包中的类均正确时,执行步骤405;在文件包或文件包中的类不正确时,返回至步骤401。
本申请实施例中,可以基于前述记载内容判断文件包和文件包中的类是否正确,这里不再赘述。
步骤405:基于文件包中的第一信息,在待处理文档中提取出目标特征。
可以看出,无论目标特征是否为默认特征,基于步骤401至步骤405均可以实现目标特征的提取。
当然,在本申请的另一些实施例中,电子设备也可以在获取到待处理文档后,也可以不接收第三方平台发送的配置文件,而是基于预先确定的所述默认特征的提取方式,直接在待处理文档中提取默认特征。
在本申请的一些实施例中,在提取出目标特征后,还可以基于目标特征对待处理文档进行质量评分,得出所述待处理文档的质量评分值,以实现对待处理文档的质量评估。
在一些实施例中,目标特征包括至少两个特征;配置文件包括至少两个特征中每个特征的权重信息。
相应地,基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值的实现方式可以包括:
基于所述至少两个特征中各个特征的权重信息,对所述至少两个特征中各个特征进行加权求和运算,得出所述待处理文档的质量评分值。
本申请实施例中,可以根据公式(1)计算得出待处理文档的质量评分值。
Figure BDA0002655278870000191
其中,S表示待处理文档的质量评分值,fi表示第i个特征,wi表示上述至少两个特征中第i个特征的权重,n表示上述至少两个特征的特征个数。
在一些实施例中,无论目标特征中的特征是否为默认特征,对于目标特征,第三方平台可以根据实际需求确定目标特征中的权重,或者,可以根据电子设备发送的目标特征的初始权重确定目标特征的权重。
在一些实施例中,电子设备可以预先确定目标特征的初始权重,并将目标特征的初始权重发送至第三方平台;第三方平台可以直接将初始权重作为对应特征的权重,或者,可以在初始权重的基础上进行修改,得到对应特征的权重。
下面通过表1和表2示例性地说明两个配置文件的内容。
表1
解释
PublicKey !#abc$dce 9位的随机字符
ClassLocation /lib/mycalculator.jar jar包位置
ClassName myAlgorithm 自定义类的名称(加密)
featureName [A,B,C,D] 默认的特征提取方法
特征权重 [0.1,0.2,0.1,0.1] 初始权重
非默认特征名称 [D,E,F] 非默认特征(加密)
非默认特征权重 [0.1,0.2,0.2] 非默认特征权重
表1中,PublicKey表示公钥,ClassLocation表示jar包的路径,ClassNam e表示类名,featureName表示特征权重,ExternalFeatureName表示非默认特征名称,ExternalFeatureWeight表示非默认特征权重;A、B、C和D分别表示特征A、特征B、特征C和特征D,特征A、特征B、特征C和特征D表示不同的默认特征,特征A、特征B、特征C和特征D的权重为由电子设备确定的初始权重,特征A、特征B、特征C和特征D的权重分别为0.1、0.2、0.1和0.1。D、E和F表示特征D、特征E和特征F,特征D、特征E和特征F均为非默认特征,在表1中,特征D、特征E和特征F的权重分别为0.1、0.2和0.2。
表2
解释
ClassLocation /lib/engCalculator.jar jar包位置
ClassName myAlgorithm 自定义类的名称(加密)
featureName [A1] 默认的特征提取方法
featureWeight [0.4] 初始权重
非默认特征名称 [A2,A3,A4] 非默认特征(加密)
非默认特征权重 [0.2,0.2,0.2] 非默认特征权重
表2中,ClassLocation、ClassName、featureName、ExternalFeatureName和ExternalFeatureWeight的含义与表1相同,这里不再赘述;A1、A2、A3和A4分别表示特征A1、特征A2、特征A3和特征A4,特征A1表示默认特征,特征A1的权重为由电子设备确定的初始权重,特征A1的权重为0.4;特征A2、特征A3和特征A4均为非默认特征,在表2中,特征A2、特征A3和特征A4的权重分别为0.2、0.2和0.2。
下面示例性地说明确定默认特征的初始权重的实现方式。
本申请实施例中,在默认特征包括多个特征的情况下,针对默认特征可以预先确定多个不同的候选权重组合,每个候选权重组合包括默认特征中各个特征的一个权重,每个候选权重组合中各个特征的权重之和等于1;在上述多个候选权重组合中选取出一个权重组合作为默认特征的初始权重。
在一些实施例中,在上述多个候选权重组合中选取出一个权重组合的实现方式可以是:针对预先获取的样本文档获取人工评分值;并根据每个候选权重组合,对默认特征中各个特征的评分值进行加权求和运算,得到样本文档的质量评分值;在各个候选权重组合中,在满足设定条件的候选权重组合中选取出一个候选权重,设定条件为:样本文档的人工评分值与质量评分值的差值的绝对值小于设定值。在一种实施方式中,可以在满足设定条件的候选权重组合中,选取出使样本文档的人工评分值与质量评分值最接近的一个候选权重。
在一些实施例中,默认特征包括特征A5和特征A6;针对特征A5的权重,基于预设的步进0.05,从0.1遍历至0.9,确定出特征A5的多个权重;针对特征A5的每个权重,确定出特征A6的权重,从而得到各个候选权重组合;每个候选权重组合中各个特征的权重之和等于1。
表3
Figure BDA0002655278870000211
Figure BDA0002655278870000221
表3中示出了特征A5和特征A6的各个候选权重组合,表3的同一行表示一个候选权重组合。
在得出特征A5和特征A6的各个候选权重组合之后,可以针对每个候选权重组合,确定样本文档的人工评分值与质量评分值的差值的绝对值;在特征A5表示文档长度、特征A6表示文档字数的情况下,表4中示出了每个候选权重组合对应的样本文档的人工评分值与质量评分值。
表4
Figure BDA0002655278870000222
可以基于表4所示的人工评分值与质量评分值,按照前述记载的内容,在多个候选权重组合中选取出一个权重组合作为默认特征的初始权重。
在另一些实施例中,在目标特征同时包括默认特征和非默认特征的情况下,电子设备还可以同时确定默认特征和非默认特征的初始权重,并将默认特征和非默认特征的初始权重发送至第三方平台;第三方平台可以直接将默认特征和非默认特征的初始权重作为对应特征的权重,或者,可以在默认特征和非默认特征的初始权重的基础上进行修改,得到对应特征的权重。
在一些实施例中,默认特征包括特征B1,非默认特征为特征B2;针对特征B1的权重,基于预设的步进0.05,从0.1遍历至0.9,确定出特征B1的多个权重;针对特征B1的每个权重,确定出特征B2的权重,从而得到各个候选权重组合;每个候选权重组合包括特征B1的权重和特征B2的权重,每个候选权重组合中特征B1的权重和特征B2的权重之和等于1。
在得出特征B1和特征B2的各个候选权重组合之后,可以针对每个候选权重组合,确定样本文档的人工评分值与质量评分值的差值的绝对值;在样本文档为英文文档,特征B1表示单词个数,且特征B2表示句子平均长度的情况下,表5中示出了每个候选权重组合对应的样本文档的人工评分值与质量评分值。
表5
Figure BDA0002655278870000231
可以基于表5所示的人工评分值与质量评分值,按照前述记载的内容,在多个候选权重组合中选取出一个权重组合作为默认特征和非默认特征的初始权重。
下面示例性地说明得出待处理文档的质量评分值的两种实现方式。
第一种实现方式
待处理文档为中文文档,待处理文档的目标特征包括长度相关特征、模板相关特征和词性相关特征;其中,长度相关特征表示待处理文档的字数,模板相关特征表示待处理文档与预设模板的相似性,词性相关特征表示预设词性的词的个数占待处理文档所有词的个数的比例,例如,预设词性包括动词和名词。
本申请实施例中,可以预先确定多个不同字数区间,每个字数区间对应一个取值,这样,通过对字数的离散化数据处理,可以得出长度相关特征的取值。
在一些实施例中,可以按照表6确定长度相关特征的取值。
表6
字数 长度相关特征的取值
字数<100 0
100≤字数<500 0.2
500≤字数<900 0.4
900≤字数<1300 0.6
1300≤字数<1700 0.8
1700≤字数<2000 1
字数>2000 1
本申请实施例中,可以使用Apache POI在待处理文档和预设模板中提取出内容属性数据,内容属性数据可以包括以下至少之一:主标题、副标题、正文、总结,副标题可以根据字体大小分为一号标题、二号标题、三号标题、四号标题、五号标题等;在提取出内容属性数据之后,可以按照预设取值方式对内容属性数据进行取值,从而将内容属性数据转换为文档特征向量。
在一些实施例中,预设模板的内容属性数据为:(标题,一号标题,正文,总结),预设模板的文档特征向量为[1,1,1,1];在待处理文档的内容属性数据不包含标题、一号标题、正文和总结的任一项的情况下,将待处理文档的文档特征向量设为全零的向量;在待处理文档的内容属性数据包含标题、一号标题、正文和总结的任一项的情况下,判断待处理文档的内容属性数据的任意一部分数据是否属于预设模板的内容属性数据,如果是,则文档特征向量中与任意一部分数据对应的向量分量的取值为1;如果否,则文档特征向量中与任意一部分数据对应的向量分量的取值为-1。
为了便于理解,下面通过三个示例进行说明,在第一个示例中,待处理文档为文档1,文档1的内容属性数据为:(标题,一号标题,正文,总结),则通过比较预设模板与文档1的内容属性数据,可以确定文档1的文档特征向量为[1,1,1,1];在第二个示例中,待处理文档为文档2,文档2的内容属性数据为:(标题,三号标题,四号标题,五号标题,正文,总结),则通过比较预设模板与文档2的内容属性数据,可以确定文档2的文档特征向量为[1,-1,-1,-1,1,1];在第三个示例中,待处理文档为文档3,文档3的内容属性数据(三号标题,四号标题,五号标题),可以看出,文档3的内容属性数据与预设模板的内容属性数据完全不同,文档3的内容属性数据并包含标题、一号标题、正文中总结的任一项,因此,可以确定文档3的文档特征向量为[0,0,0,]。
在得出待处理文档和预设模板的文档特征向量后,可以基于待处理文档和预设模板的文档特征向量,确定待处理文档与预设模板的相似性,即,确定模板相关特征的取值。
在一些实施例中,在待处理文档和预设模板的文档特征向量的维数相同时,待处理文档与预设模板的相似性可以为用余弦相似度,余弦相似度的计算公式为公式(2)。
Figure BDA0002655278870000251
其中,G和H分别表示待处理文档和预设模板的文档特征向量,||G||表示向量G的长度,||H||表示向量H的长度,G·H表示向量G和向量H的点积,cos(θ)表示待处理文档与预设模板的余弦相似度,可以看出,cos(θ)表示模板相关特征的取值。
可以理解地,余弦相似度表示两个向量的夹角余弦值,在余弦相似度较大时,说明向量G和向量H比较相似;反之,在余弦相似度较小时,说明向量G和向量H存在较大的差异。
在一些实施例中,在待处理文档为上述文档1的情况下,根据公式(2),可以确定待处理文档和预设模板的余弦相似度为1,即,待处理文档的模板相关特征的取值为1;在待处理文档为上述文档1的情况下,根据公式(2),可以确定待处理文档和预设模板的余弦相似度为1,即,待处理文档的模板相关特征的取值为1。
本申请实施例中,可以根据待处理文档中名词和动词占待处理文档所有词的数量比例,确定词性相关特征;在一些实施例中,待处理文档中名词数为20,动词数为10,总词数为50,则词性相关特征的取值为0.6。
在一些实施例中,待处理文档的字数大于2000,预设模板的文档特征向量为[1,1,1,1],待处理文档的文档特征向量为[1,1,1,1],待处理文档中名词和动词占待处理文档所有词的比例为0.6;则可以确定待处理文档的长度相关特征、模板相关特征和词性相关特征的取值分别为1、1和0.6;在长度相关特征、模板相关特征和词性相关特征的权重分别为0.2、0.4和0.4的情况下,待处理文档的质量评分值可以根据公式(1)计算得出,即,待处理文档的质量评分值为0.84;在一些实施例中,还可以将待处理文档的质量评分值乘以100,得出待处理文档在百分制下的质量评分值,这里,待处理文档在百分制下的质量评分值为84。
第二种实现方式
待处理文档为英文文档,待处理文档的目标特征包括特征C1、特征C2、特征C3和特征C4,其中,特征C1为默认特征,表示待处理文档的单词数;特征C2、特征C3和特征C4为非默认特征,特征C2表示待处理文档的句子平均长度,特征C3表示待处理文档的文档错误数,特征C4表示待处理文档的高级词汇数;这里,文档错误包括但不限于单词拼写错误、标点使用错误、每句首个单词的首字母未用大写字母等错误,高级词汇表示位于预先确定的高级词汇表中的词汇,在实际应用中,用户可以根据待处理文档的内容预先确定高级词汇表。
在一些实施例中,可以预先确定多个不同单词数区间,每个单词数区间对应一个取值,这样,通过对单词数的离散化数据处理,可以得出特征C1的取值了;例如,可以在表6的基础上,将字数替换为单词数,便可以得到多个单词数区间和每个单词数区间对应的取值。
在一些实施例中,在获取待处理文档中各个句子的长度后,可以对各个句子的长度进行均值化处理,得到句子平均长度;为了确定句子平均长度对应的取值,可以预先确定多个句子长度区间,每个句子长度区间对应一个取值,这样,通过对句子平均长度的离散化数据处理,可以得到特征C2的取值。
在一些实施例中,可以按照表7得出句子平均长度对应的取值。
表7
句子平均长度 特征C2的取值
句子平均长度<5 0
5≤句子平均长度<7 0.2
7≤句子平均长度<9 0.4
9≤句子平均长度<11 0.6
11≤句子平均长度<13 0.8
13≤句子平均长度 1
在一些实施例中,在文档错误数后,可以将文档错误数作为指数函数的自变量,将指数函数的因变量的取值作为特征C3的取值;这里,指数函数的底数大于0且小于1,可以理解的是,在文档错误数越多时,特征C3的取值越小。
这里,指数函数可以是以下公式(3):
Y=Rx (3);
其中,X表文档错误数,Y表示特征C3的取值,R∈(0,1),例如,R的取值为0.9。
在一些实施例中,在获取待处理文档中高级词汇数后,可以预先确定多个高级词汇数区间,每个高级词汇数区间对应一个取值,这样,通过对高级词汇数的离散化处理,可以得到特征C4的取值;在一个示例中,当高级词汇数大于或等于20时,特征C4的取值为1。
在一些实施例中,待处理文档的单词数为700,句子平均长度为20,文档错误数为2,高级词汇数为20,句子总数为40,R的取值为0.9;则可以确定待处理文档的特征C1、特征C2、特征C3和特征C4的取值分别为0.4、1、0.81和1;在特征C1、特征C2、特征C3和特征C4的权重分别为0.4、0.2、0.2和0.2的情况下,待处理文档的质量评分值可以根据公式(1)计算得出,即,待处理文档的质量评分值为0.722;在一些实施例中,还可以将待处理文档的质量评分值乘以100,得出待处理文档在百分制下的质量评分值,这里,待处理文档在百分制下的质量评分值为72.2。
本申请实施例可以应用于任意的文档管理场景,在待处理文档为预案文档的情况下,采用本申请实施例的文档处理方法,首先可以基于图1所示的网络通信结构,实现电子设备和第三方平台的的通信;然后,第三方平台可以将配置文件和文件包发送至电子设备,电子设备可以根据配置文件和文件包,并采用NLP等技术实现目标特征的提取;最后,基于提取的目标特征可以实现预案文档质量的评估和审计,有利于进一步优化预案文档。
在前述实施例提出的文档处理方法的基础上,本申请实施例还提出了一种文档处理装置;图5为本申请实施例的文档处理装置的一个可选的组成结构示意图,如图5所示,该文档处理装置500可以包括:
第一获取模块501,用于获取待处理文档;
接收模块502,用于接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;
第二获取模块503,用于在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;
处理模块504,用于基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。
在本申请的一些实施例中,所述文件包包括自定义类,所述第一信息位于自定义类中;
所述第二获取模块503,还用于通过程序语言的反射机制,加载所述文件包中的所述自定义类,并从加载的所述自定义类中获取所述第一信息。
在本申请的一些实施例中,所述配置文件还包括第二信息,所述第二信息包括:所述文件包的标识和/或所述自定义类的标识;
所述第二获取模块503,用于通过程序语言的反射机制,加载所述文件包中的所述自定义类,包括:
在确定所述配置文件中的第二信息为预先与所述第三方平台约定的信息的情况下,通过所述程序语言的反射机制,加载所述文件包中的所述自定义类。
在本申请的一些实施例中,所述第二获取模块503,还用于获取预先设置的所述第二信息的加密方式;基于所述第二信息的加密方式对应的解密方式,对所述配置文件中的加密信息进行解密,得到所述第二信息;其中,所述加密信息是基于所述加密方式对所述第二信息进行加密得到的。
在本申请的一些实施例中,所述第二获取模块503,还用于预先确定抽象类,设置所述自定义类继承所述预先确定的抽象类;
所述第二获取模块503,用于从加载的所述自定义类中获取所述第一信息,包括:
将所述自定义类实例化为对象,在所述对象属于所述抽象类的情况下,从加载的所述自定义类中获取所述第一信息。
在本申请的一些实施例中,所述处理模块504,还用于在所述目标特征的标识与默认特征的标识相同的情况下,基于预先确定的所述默认特征的提取方式,在所述待处理文档中提取出所述目标特征。
在本申请的一些实施例中,所述处理模块504,还用于基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值。
在本申请的一些实施例中,所述目标特征包括至少两个特征;所述配置文件包括所述至少两个特征中每个特征的权重信息;
所述处理模块504,用于基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值,包括:
基于所述至少两个特征中各个特征的权重信息,对所述至少两个特征中各个特征进行加权求和运算,得出所述待处理文档的质量评分值。
在本申请的一些实施例中,所述处理模块504,用于在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的字数按照预先确定的多个字数区间进行离散化数据处理,得到长度相关特征,每个所述字数区间对应一个取值;提取所述待处理文档的文档特征向量,将所述待处理文档的文档特征向量与预设模板的文档特征向量的余弦相似度作为模板相关特征;根据所述待处理文档中预设词性的词占待处理文档所有词的数量比例,确定词性相关特征;
将长度相关特征、模板相关特征和词性相关特征中的至少两个作为所述目标特征。
在本申请的一些实施例中,所述处理模块504,用于在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的单词数按照预先确定的多个单词数区间进行离散化数据处理,得到第一特征,每个所述单词数区间对应一个取值;将所述待处理文档的句子平均长度按照预先确定的多个句子长度区间进行离散化数据处理,得到第二特征,每个所述句子长度区间对应一个取值;以所述待处理文档的文档错误数作为指数函数的自变量,得出所述指数函数的取值,将所述指数函数的取值作为所述第三特征;将所述待处理文档的高级词汇数按照预先确定的多个高级词汇数区间进行离散化数据处理,得到第四特征,每个所述高级词汇数区间对应一个取值,所述高级词汇表示位于预先确定的高级词汇表中的词汇;
将所述第一特征、第二特征、第三特征和第四特征中的至少两个作为所述目标特征。
在实际应用中,第一获取模块501、接收模块502、第二获取模块503和处理模块504均可以利用处理器实现,上述处理器可以是ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作限制。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的文档处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例再提供一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,该计算机可执行指令用于实现本申请实施例提供的任意一种文档处理方法。
相应的,本申请实施例再提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,该计算机可执行指令用于实现上述实施例提供的任意一种文档处理方法。
本申请实施例还提供一种电子设备,图6为本申请实施例提供的电子设备的一个可选的组成结构示意图,如图6所示,所述电子设备60包括:
存储器601,用于存储可执行指令;
处理器602,用于执行所述存储器601中存储的可执行指令时,实现上述任意一种文档处理方法。
上述处理器602可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
上述计算机可读存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种文档处理方法,其特征在于,所述方法包括:
获取待处理文档;
接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;
在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;
基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。
2.根据权利要求1所述的文档处理方法,其特征在于,所述文件包包括自定义类,所述第一信息位于自定义类中;
所述方法还包括:通过程序语言的反射机制,加载所述文件包中的所述自定义类,并从加载的所述自定义类中获取所述第一信息。
3.根据权利要求2所述的文档处理方法,其特征在于,所述配置文件还包括第二信息,所述第二信息包括:所述文件包的标识和/或所述自定义类的标识;
所述通过程序语言的反射机制,加载所述文件包中的所述自定义类,包括:
在确定所述配置文件中的第二信息为预先与所述第三方平台约定的信息的情况下,通过所述程序语言的反射机制,加载所述文件包中的所述自定义类。
4.根据权利要求3所述的文档处理方法,其特征在于,所述方法还包括:
获取预先设置的所述第二信息的加密方式;
基于所述第二信息的加密方式对应的解密方式,对所述配置文件中的加密信息进行解密,得到所述第二信息;其中,所述加密信息是基于所述加密方式对所述第二信息进行加密得到的。
5.根据权利要求2所述的文档处理方法,其特征在于,所述方法还包括:
预先确定抽象类,设置所述自定义类继承所述预先确定的抽象类;
所述从加载的所述自定义类中获取所述第一信息,包括:
将所述自定义类实例化为对象,在所述对象属于所述抽象类的情况下,从加载的所述自定义类中获取所述第一信息。
6.根据权利要求1所述的文档处理方法,其特征在于,所述方法还包括:
在所述目标特征的标识与默认特征的标识相同的情况下,基于预先确定的所述默认特征的提取方式,在所述待处理文档中提取出所述目标特征。
7.根据权利要求1至6任一项所述的文档处理方法,其特征在于,所述方法还包括:
基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值。
8.根据权利要求7所述的文档处理方法,其特征在于,所述目标特征包括至少两个特征;所述配置文件包括所述至少两个特征中每个特征的权重信息;
所述基于所述目标特征对所述待处理文档进行质量评分,得出所述待处理文档的质量评分值,包括:
基于所述至少两个特征中各个特征的权重信息,对所述至少两个特征中各个特征进行加权求和运算,得出所述待处理文档的质量评分值。
9.根据权利要求8所述的文档处理方法,其特征在于,所述在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的字数按照预先确定的多个字数区间进行离散化数据处理,得到长度相关特征,每个所述字数区间对应一个取值;提取所述待处理文档的文档特征向量,将所述待处理文档的文档特征向量与预设模板的文档特征向量的余弦相似度作为模板相关特征;根据所述待处理文档中预设词性的词占待处理文档所有词的数量比例,确定词性相关特征;
将长度相关特征、模板相关特征和词性相关特征中的至少两个作为所述目标特征。
10.根据权利要求8所述的文档处理方法,其特征在于,所述在所述待处理文档中提取出所述目标特征,包括:
将所述待处理文档的单词数按照预先确定的多个单词数区间进行离散化数据处理,得到第一特征,每个所述单词数区间对应一个取值;将所述待处理文档的句子平均长度按照预先确定的多个句子长度区间进行离散化数据处理,得到第二特征,每个所述句子长度区间对应一个取值;以所述待处理文档的文档错误数作为指数函数的自变量,得出所述指数函数的取值,将所述指数函数的取值作为所述第三特征;将所述待处理文档的高级词汇数按照预先确定的多个高级词汇数区间进行离散化数据处理,得到第四特征,每个所述高级词汇数区间对应一个取值,所述高级词汇表示位于预先确定的高级词汇表中的词汇;
将所述第一特征、第二特征、第三特征和第四特征中的至少两个作为所述目标特征。
11.一种文档处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理文档;
接收模块,用于接收第三方平台发送的配置文件,所述配置文件包括待处理文档的目标特征的标识和所述第三方平台提供的文件包的路径信息;所述文件包包括表征所述目标特征的特征提取方法的第一信息;
第二获取模块,用于在所述目标特征的标识与默认特征的标识不同的情况下,基于所述文件包的路径信息获取所述文件包;
处理模块,用于基于所述文件包中的所述第一信息,在所述待处理文档中提取出所述目标特征。
12.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的文档处理方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至10任一项所述的文档处理方法。
CN202010884957.2A 2020-08-28 2020-08-28 文档处理方法、装置、电子设备及计算机可读存储介质 Active CN112099870B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010884957.2A CN112099870B (zh) 2020-08-28 2020-08-28 文档处理方法、装置、电子设备及计算机可读存储介质
PCT/CN2021/083679 WO2022041714A1 (zh) 2020-08-28 2021-03-29 文档处理方法、装置、电子设备、存储介质和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884957.2A CN112099870B (zh) 2020-08-28 2020-08-28 文档处理方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112099870A true CN112099870A (zh) 2020-12-18
CN112099870B CN112099870B (zh) 2023-12-26

Family

ID=73758247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884957.2A Active CN112099870B (zh) 2020-08-28 2020-08-28 文档处理方法、装置、电子设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112099870B (zh)
WO (1) WO2022041714A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022041714A1 (zh) * 2020-08-28 2022-03-03 深圳前海微众银行股份有限公司 文档处理方法、装置、电子设备、存储介质和程序

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662270B (zh) * 2022-09-09 2024-05-10 荣耀终端有限公司 文件解析方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078167A1 (en) * 2009-09-28 2011-03-31 Neelakantan Sundaresan System and method for topic extraction and opinion mining
CN105589918A (zh) * 2015-09-17 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195006B2 (en) * 2018-12-06 2021-12-07 International Business Machines Corporation Multi-modal document feature extraction
CN111178057B (zh) * 2020-01-02 2024-01-30 大汉软件股份有限公司 一种政务电子文档的内容分析提取系统
CN112099870B (zh) * 2020-08-28 2023-12-26 深圳前海微众银行股份有限公司 文档处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078167A1 (en) * 2009-09-28 2011-03-31 Neelakantan Sundaresan System and method for topic extraction and opinion mining
CN105589918A (zh) * 2015-09-17 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022041714A1 (zh) * 2020-08-28 2022-03-03 深圳前海微众银行股份有限公司 文档处理方法、装置、电子设备、存储介质和程序

Also Published As

Publication number Publication date
WO2022041714A1 (zh) 2022-03-03
CN112099870B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
US11924233B2 (en) Server-supported malware detection and protection
US11356482B2 (en) Message validation using machine-learned user models
US11188650B2 (en) Detection of malware using feature hashing
US8161548B1 (en) Malware detection using pattern classification
US8635700B2 (en) Detecting malware using stored patterns
US9436463B2 (en) System and method for checking open source usage
RU2614557C2 (ru) Система и способ обнаружения вредоносных файлов на мобильных устройствах
Mehtab et al. AdDroid: rule-based machine learning framework for android malware analysis
Singh et al. Experimental analysis of Android malware detection based on combinations of permissions and API-calls
US20210097177A1 (en) System and method for detection of malicious files
Rowe et al. Finding anomalous and suspicious files from directory metadata on a large corpus
CN112099870A (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
CN106878275A (zh) 身份验证方法及装置和服务器
CN113609846B (zh) 一种语句中实体关系的抽取方法及装置
CN108804917B (zh) 一种文件检测方法、装置、电子设备及存储介质
Queiroz et al. Eavesdropping hackers: Detecting software vulnerability communication on social media using text mining
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN105354506B (zh) 隐藏文件的方法和装置
US8402545B1 (en) Systems and methods for identifying unique malware variants
Khan et al. Op2Vec: An Opcode Embedding Technique and Dataset Design for End‐to‐End Detection of Android Malware
CN117009989A (zh) 一种语言模型保护方法、装置及计算设备集群
Hatcher et al. Machine learning-based mobile threat monitoring and detection
US10609047B2 (en) Network security tool
Sokolov Applied Machine Learning for Cybersecurity in Spam Filtering and Malware Detection
Zeng Malicious urls and attachments detection on lexical-based features using machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant