CN111782601A - 电子文件的处理方法、装置、电子设备及机器可读介质 - Google Patents

电子文件的处理方法、装置、电子设备及机器可读介质 Download PDF

Info

Publication number
CN111782601A
CN111782601A CN202010515206.3A CN202010515206A CN111782601A CN 111782601 A CN111782601 A CN 111782601A CN 202010515206 A CN202010515206 A CN 202010515206A CN 111782601 A CN111782601 A CN 111782601A
Authority
CN
China
Prior art keywords
file
category
relevancy
classification
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010515206.3A
Other languages
English (en)
Inventor
李波
胡伯良
王学进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitai Fangyuan High Technology Co Ltd
Original Assignee
Beijing Haitai Fangyuan High Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haitai Fangyuan High Technology Co Ltd filed Critical Beijing Haitai Fangyuan High Technology Co Ltd
Priority to CN202010515206.3A priority Critical patent/CN111782601A/zh
Publication of CN111782601A publication Critical patent/CN111782601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Abstract

本申请实施例提供了,一种电子文件的处理方法、装置、电子设备及计算机可读介质,所述方法应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述方法包括:获取用户发送的电子文件;调用语言处理模型从电子文件提取一个或多个关键词;按照多个类别在分类列表的排列顺序,将一个或多个关键词分别与每个类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;从多个文件相关度提取数值最高的文件相关度为目标文件相关度;获取并向文件管理系统发送目标文件相关度对应的目标类别。该方法可以快速对电子文件进行整理分类,有效提高电子文件的分配效率并减少出错概率。

Description

电子文件的处理方法、装置、电子设备及机器可读介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种电子文件的处理方法、装置、电子设备及计算机可读介质。
背景技术
电子文件(Electronic document)是指人们在社会活动中形成的,以计算机盘片、磁盘和光盘等化学磁性材料为载体的文字材料。可以在计算机系统存取并可在通信网络上传输。
而随着科技的不断发展,科技产品不断推陈出新,智能设备也逐渐成为人们常用的生活工具,人们使用各种智能设备或智能系统处理电子文件的频率也逐渐增多。
由于电子文件的数量逐渐增多,需要使用电子文件管理系统对电子文件进行筛选分类处理,从而方便人们阅读。而现有电子文件管理系统中,电子文件的分类是通过人工分析判断,并将分析结果手动录入到系统内,该方法可处理的电子文件数量小,效率低,并且需要人工分析判断的环节过多,出错概率大,影响用户使用,降低用户的使用体验。
发明内容
本申请实施例是提供一种电子文件的处理方法,以解决当前多个分管器之间的用户信息混乱,以及分管器维修管理困难的问题。
相应的,本申请实施例还提供了一种电子文件的处理装置,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种电子文件的处理方法,应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述方法包括:
获取用户发送的电子文件;
调用所述语言处理模型从所述电子文件提取一个或多个关键词;
按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
可选地,所述将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度,包括:
采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
可选地,所述调用所述语言处理模型从所述预处理文件提取一个或多个关键词,包括:
调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
可选地,所述分类系统还设有用户预置的分类规则;
在所述调用所述语言处理模型从所述电子文件提取一个或多个关键词的步骤前,所述方法还包括:
判断所述电子文件是否满足所述分类规则对应的条件;
若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
本申请实施例还公开了一种电子文件的处理装置,应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述装置包括:位于所述分类系统的获取模块、调用模块、计算模块、提取模块以及发送模块;
获取模块,用于获取用户发送的电子文件;
调用模块,用于调用所述语言处理模型从所述电子文件提取一个或多个关键词;
计算模块,用于按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
提取模块,用于从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
发送模块,用于获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
可选地,所述计算模块,包括:
匹配计算模块,用于采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
加权平均计算模块,用于分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
记录模块,用于分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
可选地,所述提取模块,包括:
分词处理模块,用于调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
提取关键词模块,用于按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
可选地,所述分类系统还设有用户预置的分类规则;
所述装置还包括:位于所述分类系统的判断模块和预处理模块;
判断模块,用于判断所述电子文件是否满足所述分类规则对应的条件;
预处理模块,用于若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
本申请实施例还公开了一种电子设备,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如上所述的一个或多个的方法。
本申请实施例还公开了一种机器可读存储介质,包括一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上所述的一个或多个的方法。
本申请实施例包括以下优点:本实施例提出了一种电子文件的处理方法,该方法可以应用于分类系统,所述方法可以快速有效地对电子文件进行整理,并快速确定电子文件对应的类别,从而实现对电子文件的分类操作,可以有效地提高电子文件的分配效率、缩短电子文件的筛选时间,又可以减少用户的工作量,减少出错的概率,降低处理成本。而且分类系统的分类列表可以根据用户的需要进行调整和修改,可以支持不同的业务进行灵活变动,增加了实用性与灵活性,可以提高用户的使用体验。
附图说明
图1是本申请的一种电子文件的处理方法实施例一的步骤流程图;
图2是本申请的一种电子文件的处理方法实施例二的步骤流程图;
图3是本申请的一种电子文件的处理方法实施例二的操作流程图;
图4是本申请的一种电子文件的处理装置实施例二的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,通过分类系统对电子文件进行识别,提取和计算,计算电子文件中关键词的相关度,通过关键词的相关度确定电子文件对应的类别。
参照图1,示出了本申请的一种电子文件的处理方法实施例一的步骤流程图。在本实施例中,本申请可以应用于分类系统,所述分类系统与文件管理系统通信。
所述分类系统可以是终端设备,可以是搭载计算程序的集成电路设备,也可以是装载在所述文件管理系统的智能设备等等。所述文件管理系统可以是用于存储、记录以及管理不同数据的服务器。
在本实施例中,所述分类系统可以包含用户预设的语言处理模型,该语言处理模块可以用于处理各种不同的电子文件,可以用于识别、分类、合并或拆分等等。所述分类系统还可以设有用户预置的分类列表,其中,所述分类列表包含多个类别,所述类别可以是电子文件的类型,也可以电子文件的格式,也可以电子文件内容的种类,也可以是电子文件对应的科目等等。
具体地,本实施例的一种电子文件的处理方法可以包括如下步骤:
步骤101,获取用户发送的电子文件。
在本实施例中,分类系统可以设置与外接设备进行通信的界面或接口,可以通过界面或接口结合外接设备发送的数据。
具体地,用户可以通过分类系统的界面或接口向分类系统发送电子文件。该电子文件可以是文本数据,语音数据或图像数据等等。
步骤102,调用所述语言处理模型从所述电子文件提取一个或多个关键词。
所述语言处理模型可以是用户经过语言数据训练得到的工具包,也可以是包含机器学习算法和数据集的工具包等等。所述关键词可以是文本数据中的公式数据或文字数据。
在本实施例中,分类系统可以通过语言处理模型对电子文件进行识别筛选,从而可以从电子文件中提取一个或多个关键词。
步骤103,按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度。
在本实施例中,在分类系统中可以设置一个或多个分类列表。不同的分类列表可以代表不同项目或不同科目或不同种类的列表。
在每个分类列表中可以包括多个类别,多个类别可以按照特定的顺序进行排列,例如可以按照类别的字体笔画数从低到高排列,可以按照类别对应的英文字母顺序,也可以按照用户预设的顺序进行排列。
由于分类列表中包含多个类别,可以将一个或多个关键词分别与不同的类别进行匹配计算,从而得到每个类别对应的文件相关度。
例如,分类列表中包含5个类别,分别为第一类别、第二类别、……和第五类别,并分类列表按照上述名字的排列顺序进行排列。然后可以将一个或多个关键词与第一类别作匹配计算,得到第一类别对应的文件相关度,接着将一个或多个关键词与第二类别作匹配计算,得到第二类别对应的文件相关度,如此类推,直到计算得到第五类别对应的文件相关度,得到5个类别对应的文件相关度。
步骤104,从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度。
在本实施例中,可以分别获取多个文件相关度对应的数值,并从多个数值中获取数值最高的文件相关度为目标文件相关度。
例如,分类列表中包含3个类别,分别为第一类别、第二类别第三类别,3个类别对应的相关度分别为1、0.2、5。从3个数值中获取数值最大的5为目标文件相关度。
步骤105,获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
在本实施例中,确定目标文件相关度后,可以获取并确定目标文件相关度对应的类别为目标类别。分类系统可以记录目标类别,并将目标类别与电子文件同时发送至文件管理系统中,文件管理系统可以根据目标类别将电子文件存储并记录在目标类别对应的存储空间中。
在本申请可选的实施例中,提出了一种电子文件的处理方法,该方法可以应用于分类系统,所述方法可以快速有效地对电子文件进行整理,并快速确定电子文件对应的类别,从而实现对电子文件的分类操作,可以有效地提高电子文件的分类效率、缩短电子文件的筛选时间,又可以减少用户的工作量,减少出错的概率,降低处理成本。而且分类系统的分类列表可以根据用户的需要进行调整和修改,可以支持不同的业务进行灵活变动,增加了实用性与灵活性,可以提高用户的使用体验。
参照图2,示出了本申请的一种电子文件的处理方法实施例二的步骤流程图。本申请可以应用于分类系统,所述分类系统与文件管理系统通信。
在本实施例中,分类系统和文件管理系统通信可以与上述实施例相同,具体可以参照上述实施例,为了避免重复,在此不再赘述。
为了方便理解,在本实施例中,可以以学习科目列表为分类列表进行描述,该学习科目列表可以包括多个类别,其中多个类别可以分别包括例如语文,数学,英语,化学,生物,地理等等。
需要说明的是,该分类列表也可以是法律文书列表,该法律文书可以包括多个不同的类别,其中多个不同的类别可以包括商业法,交易法,民事法,网络法等等。又例如,分类列表可以是财务类别,该财务列表可以包括多个不同的类别,其中多个不同的类别可以包括季度财务,风险评估,税务申报,活动开支等等。该分类列表的内容和种类,以及多个类别的种类与数量具体可以根据实际需要进行调整与修改,本申请并不在此作限定。
具体地,本实施例的一种电子文件的处理方法可以包括如下步骤:
步骤201,获取用户发送的电子文件。
在本实施例中,用户可以通过分类系统的外接接口,向分类系统发送电子文件。
在实际操作中,用户可以同时向分类系统发送一个或多个电子文件,分类系统可以根据接收电子文件的顺序,分别对一个或多个电子文件进行分类处理。
步骤202,判断所述电子文件是否满足所述分类规则对应的条件。
需要说明的是,分类系统还设有用户预置的分类规则。该分类规则可以包括断句规则,同义词规则,近义词规则,符号规则,标点规则,字体规则等等。分类规则可以用于对电子文件进行筛选、简化以及识别等处理,从而可以方便对电子文件进行分类。该分类规则与分类列表均可以由用户预先设置,也可以由用户按实际需要进行调整或修改。
在本实施例中,所述分类规则对应的条件可以为是否包含特殊符号,是否包含不规则字体,是否包含语助词等等。
在实际操作中,可以根据分类规则判断电子文件是否包括特殊符号,是否包含不规则字体,是否包含语助词,是否包含计算公式,相连两词是否为同义词等等。
步骤203,若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
该预处理可以是删除处理,拆分处理,替换处理等等。
由于用户发送的电子文件的格式不同,类型不同,种类不同,若直接对电子文件进行拆分,难以准确有效地提取电子文件中的一个或多个关键词,可以对电子文件进行预处理,使得电子文件更加简洁,从而可以更加有效准确地从电子文件中获取关键词。
在实际操作中,若判断电子文件包含特殊符号,包含不规则符号,包含语助词,包含停用词,包含繁体字等等时,可以删除电子文件中的特殊符号,不规则符号,语助词,停用词;也可以将繁体字替换成简体字等等。通过预处理操作,可以简化整个电子文件,从而提高提取电子文件的关键词的准确率。
另外需要说明的是,若所述电子文件不满足所述分类规则对应的条件,可以不对电子文件进行预处理。
步骤204,调用所述语言处理模型从所述电子文件提取一个或多个关键词。
在本实施例中,若电子文件进行预处理,可以调用语言处理模型从经过预处理的电子文件中提取一个或多个关键词。若电子文件没有进行预处理,可以直接调用语言处理模型从电子文件中提取一个或多个关键词。
在本实施例中,步骤204可以包括以下子步骤:
子步骤2041,调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词。
在本实施例中,语言处理模型可以为自然语言处理(Natural LanguageProcessing,简称NLP)处理模型,该处理模型可以包括语言技术平台(LanguageTechnology Platform,简称LTP),可以包括多种基于不同计算机语言的机器学习工具包,也可以包括机器学习算法和数据集,也可以包括用户设置的分类规则等等。具体使用的算法和工具包可以根据实际需要进行调整,本申请并不在此作限定。
通过采用不同的工具包或数据集或算法,可以更加准确地对所述电子文件作分词处理。
在实际操作中,电子文件可以是英语的阅读理解,可以从英语的阅读理解中作分词处理,得到多个文件分词,例如democratic,right,freedom等等。另外,多个文件分词可以相同,也可以不相同,本申请并不在此限定。
子步骤2042,按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
在得到多个分词后,也可以通过分类规则以及语言处理模型中包含个个工具包和数据集,快速从多个分词中获取对应的一个或多个关键词。该分类规则可以包含用户预设的关键词库,可以通过匹配电子文件与关键词库,从而可以在多个文件分词中提取一个或多个关键词。
例如,电子文件为数学练习试卷,分类规则包含数学的学术用语词库,可以将数学练习试卷与数学的学术用语词库进行匹配,得到对应如三角函数,平方根,加减乘除,求导等多个关键词。
步骤205,按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度。
在本实施例中,分类列表可以为学习科目列表,该学习科目列表可以包括多个类别,其中可以包括语文,数学,英语,化学,生物,地理等等,并在学习科目列表中按照语文,数学,英语,化学,生物,地理的顺序进行排列。
在获取了一个或多个关键词后,也可以调用语言处理模型将一个或多个关键词分别与不同类别进行匹配计算,得到每个类别对应的文件相关度。
例如,得到的关键词分别为三角函数,平方根和求导,可以将三个关键词与语文这个类别进行匹配计算,得到语文类别对应的文件相关度;然后将三个关键词与数学这个类别进行匹配计算,得到数学类别对应的文件相关度,如此类推,再按照英语,化学,生物,地理的顺序进行重复匹配计算,得到语文类别对应的文件相关度、数学类别对应的文件相关度、英语类别对应的文件相关度、化学类别对应的文件相关度、生物类别对应的文件相关度和地理类别对应的文件相关度。
在本实施例中,步骤205可以包括以下子步骤:
子步骤2051,采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度。
在实际操作中,可以将一个或多个关键词分别与每个所述类别依次作匹配计算,得到每个类别对应的一个或多个类别相关度,并记录每个类别对应的一个或多个类别相关度。
例如,关键词分别为三角函数,平方根和求导,在学习科目列表中的类别分别为语文,数学,英语,化学,生物,地理。可以先计算三角函数,平方根和求导三个关键词与语文类别对应的类别相关度,得到语文类别对应的三个类别相关度,分别为0.1,0.1和0.1。然后匹配计算三个关键词与数学类别对应的类别相关度,得到数学类别对应的三个类别相关度,分别为2,2和2。再计算英语类别对应的类别相关度,得到英语类别对应的三个类别相关度,分别为0.5,0.5和0.5,如此类推,直到将关键词与每个类别进行计算,得到每个类别对应的一个或多个类别相关度。接着分类系统可以分别记录每个类别对应的一个或多个类别相关度,作下一步计算。
子步骤2052,分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度。
当计算得到每个类别对应的一个或多个类别相关度后,可以对每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度。
例如,语文类别对应的三个类别相关度,分别为0.1,0.1和0.1,将0.1,0.1和0.1作加权平均计算得到0.1,以0.1为语文类别对应的文件相关度。
另外,若获取的关键词得一个,可以将单个关键词分别与多个类别进行计算得到每个类别对应的一个类别相关度,可以以每个类别的类别相关度为该类别对应的文件相关度。
子步骤2053,分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
分别计算每个类别对应的文件相关度后,分别记录每个类别对应的文件相关度,得到多个文件相关度。
步骤206,从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度。
可以分别获取每个类别对应的文件相关度的数值,并从中提取数值最高的文件相关度为目标文件相关度。
例如,分类类别为学习科目列表,在学习科目列表中的类别分别为语文,数学,英语,化学,生物,地理。每个类别对应的文件相关度分别为0.1,3,0.2,2,1.5,0.8。可以从多个文件相关度获取数值最高的3为目标文件相关度。
步骤207,获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
在确定目标文件相关度后,可以获取目标文件相关度对应的类别为目标类别,可以将目标类别以及电子文件同时发送至文件管理系统。文件管理系统可以根据目标类别,电子文件存储在目标类别对应的存储区域中。
例如,目标文件相关度为3,可以获取目标文件相关度为3对应的数学类别。文件管理系统可以根据该数学类别将电子文件存储在数学对应的存储区域或存储专栏中。
在优选的实施例中,提出了一种电子文件的处理方法,该方法可以应用于分类系统,所述方法可以快速有效地对电子文件进行整理,并快速确定电子文件对应的类别,从而实现对电子文件的分类操作,可以有效地提高电子文件的分配效率、缩短电子文件的筛选时间,又可以减少用户的工作量,减少出错的概率,降低处理成本;同时在分类前可以对电子文件进行预处理,使得电子文件更加容易识别筛选,也可以进步提高电子文件的分类能力与分类效率;而且分类系统的分类列表可以根据用户的需要进行调整和修改,可以支持不同的业务进行灵活变动,增加了实用性与灵活性,可以提高用户的使用体验。
参照图3,示出了本申请的一种电子文件的处理方法的操作流程图。在本实施例中,分类系统可以接收用户发送的电子文件;然后可以判断所述电子文件是否需要进行预处理,例如是否需要进行简化,是否需要进行删除或替换;若需要,则对电子文件进行预处理,然后对电子文件进行下一步操作,若不需要,则直接对电子文件进行下一步操作;接着分类系统对电子文件进行分词,将电子文件拆分成多个文件分词;然后按照分类规则从多个文件分词中提取一个或多个关键词;再接着按照多个类别在分类列表的排列顺序,将一个或多个关键词分别与每个类别依次作匹配计算,得到每个类别对应的文件相关度,然后从多个文件相关度中提取数值最高的文件相关度为目标文件相关度,并从目标文件相关度中确定目标类别;最后将目标类别发送至文件管理系统。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图4,示出了本申请的一种电子文件的处理装置实施例一的结构框图,具体公开了一种电子文件的处理装置,应用于应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述装置包括:位于所述分类系统的获取模块401、调用模块402、计算模块403、提取模块404以及发送模块405;
获取模块401,用于获取用户发送的电子文件;
调用模块402,用于调用所述语言处理模型从所述电子文件提取一个或多个关键词;
计算模块403,用于按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
提取模块404,用于从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
发送模块405,用于获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
可选地,所述计算模块,包括:
匹配计算模块,用于采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
加权平均计算模块,用于分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
记录模块,用于分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
可选地,所述提取模块,包括:
分词处理模块,用于调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
提取关键词模块,用于按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
可选地,所述分类系统还设有用户预置的分类规则;
所述装置还包括:位于所述分类系统的判断模块和预处理模块;
判断模块,用于判断所述电子文件是否满足所述分类规则对应的条件;
预处理模块,用于若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行本申请实施例所述的方法。
本申请实施例还提供了一种机器可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本申请实施例所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种电子文件的处理方法和一种电子文件的处理装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种电子文件的处理方法,其特征在于,应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述方法包括:
获取用户发送的电子文件;
调用所述语言处理模型从所述电子文件提取一个或多个关键词;
按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
2.根据权利要求1所述的方法,其特征在于,所述将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度,包括:
采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
3.根据权利要求1所述的方法,其特征在于,所述调用所述语言处理模型从所述预处理文件提取一个或多个关键词,包括:
调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
4.根据权利要求1所述的方法,其特征在于,所述分类系统还设有用户预置的分类规则;
在所述调用所述语言处理模型从所述电子文件提取一个或多个关键词的步骤前,所述方法还包括:
判断所述电子文件是否满足所述分类规则对应的条件;
若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
5.一种电子文件的处理装置,其特征在于,应用于包含语言处理模型的分类系统,所述分类系统与文件管理系统通信,所述分类系统设有用户预置的分类列表,所述分类列表包含多个类别,所述装置包括:位于所述分类系统的获取模块、调用模块、计算模块、提取模块以及发送模块;
获取模块,用于获取用户发送的电子文件;
调用模块,用于调用所述语言处理模型从所述电子文件提取一个或多个关键词;
计算模块,用于按照所述多个类别在所述分类列表的排列顺序,将所述一个或多个关键词分别与每个所述类别依次作匹配计算,记录每个类别对应的文件相关度,得到多个文件相关度;
提取模块,用于从所述多个文件相关度提取数值最高的文件相关度为目标文件相关度;
发送模块,用于获取并向所述文件管理系统发送所述目标文件相关度对应的目标类别。
6.根据权利要求5所述的装置,其特征在于,所述计算模块,包括:
匹配计算模块,用于采用所述一个或多个关键词分别与每个所述类别依次作匹配计算,得到并记录每个类别对应的一个或多个类别相关度;
加权平均计算模块,用于分别对所述每个类别对应的一个或多个类别相关度作加权平均计算,得到每个类别对应的文件相关度;
记录模块,用于分别记录所述每个类别对应的文件相关度,得到所述多个类别对应的多个文件相关度。
7.根据权利要求5所述的装置,其特征在于,所述提取模块,包括:
分词处理模块,用于调用所述语言处理模型对所述电子文件作分词处理,得到多个文件分词;
提取关键词模块,用于按照所述分类规则,从所述多个文件分词中提取一个或多个关键词。
8.根据权利要求5所述的装置,其特征在于,所述分类系统还设有用户预置的分类规则;
所述装置还包括:位于所述分类系统的判断模块和预处理模块;
判断模块,用于判断所述电子文件是否满足所述分类规则对应的条件;
预处理模块,用于若所述电子文件满足所述分类规则对应的条件,则按照所述分类规则对电子文件进行预处理。
9.一种电子设备,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-4所述的一个或多个的方法。
10.一种机器可读存储介质,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1-4所述的一个或多个的方法。
CN202010515206.3A 2020-06-08 2020-06-08 电子文件的处理方法、装置、电子设备及机器可读介质 Pending CN111782601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010515206.3A CN111782601A (zh) 2020-06-08 2020-06-08 电子文件的处理方法、装置、电子设备及机器可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010515206.3A CN111782601A (zh) 2020-06-08 2020-06-08 电子文件的处理方法、装置、电子设备及机器可读介质

Publications (1)

Publication Number Publication Date
CN111782601A true CN111782601A (zh) 2020-10-16

Family

ID=72753514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010515206.3A Pending CN111782601A (zh) 2020-06-08 2020-06-08 电子文件的处理方法、装置、电子设备及机器可读介质

Country Status (1)

Country Link
CN (1) CN111782601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095039A (zh) * 2021-03-09 2021-07-09 智慧芽信息科技(苏州)有限公司 对文件自定义字段标引的处理方法、装置、服务器

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110017297A (ko) * 2009-08-13 2011-02-21 주식회사 솔트룩스 이종 분류체계들을 매핑시키는 방법 및 장치
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN105893470A (zh) * 2016-03-28 2016-08-24 乐视控股(北京)有限公司 终端、服务器及软件分类方法
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108334610A (zh) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 一种新闻文本分类方法、装置及服务器
CN109104258A (zh) * 2018-07-23 2018-12-28 四川大学 一种基于关键词识别的无线电识别方法
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN110909725A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110017297A (ko) * 2009-08-13 2011-02-21 주식회사 솔트룩스 이종 분류체계들을 매핑시키는 방법 및 장치
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN105893470A (zh) * 2016-03-28 2016-08-24 乐视控股(北京)有限公司 终端、服务器及软件分类方法
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN108334610A (zh) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 一种新闻文本分类方法、装置及服务器
CN109104258A (zh) * 2018-07-23 2018-12-28 四川大学 一种基于关键词识别的无线电识别方法
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN110909725A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095039A (zh) * 2021-03-09 2021-07-09 智慧芽信息科技(苏州)有限公司 对文件自定义字段标引的处理方法、装置、服务器

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
US11734782B2 (en) Automated document analysis for varying natural languages
US10755045B2 (en) Automatic human-emulative document analysis enhancements
US11393237B1 (en) Automatic human-emulative document analysis
US10528609B2 (en) Aggregating procedures for automatic document analysis
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN111694946A (zh) 文本关键词可视化显示方法、装置及计算机设备
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN113515629A (zh) 一种文档分类方法、装置、计算机设备及存储介质
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
US20230028664A1 (en) System and method for automatically tagging documents
CN112883730A (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
KR20200064490A (ko) 프로필 자동생성서버 및 방법
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
CN115964997A (zh) 选择题的混淆选项生成方法及装置、电子设备、存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Karim et al. Classification of Google Play Store Application Reviews Using Machine Learning
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
Zhang et al. A semantic search framework for similar audit issue recommendation in financial industry
CN112733492B (zh) 基于知识库的辅助设计方法、装置、终端和存储介质
Khan et al. A Novel Approach to Analyze the Sentiment with Conjunctive Words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016

RJ01 Rejection of invention patent application after publication