CN117171654B

CN117171654B - 一种知识萃取方法、装置、设备及可读存储介质

Info

Publication number: CN117171654B
Application number: CN202311451493.6A
Authority: CN
Inventors: 孙小雨; 陈一玮; 孟政国
Original assignee: Cool Rendering Beijing Technology Co ltd
Current assignee: Cool Rendering Beijing Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-09
Anticipated expiration: 2043-11-03
Also published as: CN117171654A

Abstract

本发明涉及网络知识萃取技术领域，提供一种知识萃取方法、装置、设备及可读存储介质，所述方法包括获取第一信息和第二信息，第一信息包括企业培训领域的相关数据，第二信息包括待培训企业的行业类别信息；根据待培训企业的行业类别信息对第一信息进行萃取，得到第三信息，第三信息包括与待培训企业的行业类别相关的企业培训数据；将第三信息进行分类，得到分类后的第三信息，分类后的第三信息为按工作岗位分类的企业培训数据；根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据，本发明根据不同的工作能力实现培训资料的个性化推荐，使每个员工学习自己当前所需的培训内容，提高培训效率。

Description

一种知识萃取方法、装置、设备及可读存储介质

技术领域

本发明涉及网络知识萃取技术领域，具体而言，涉及一种知识萃取方法、装置、设备及可读存储介质。

背景技术

随着科技的飞速发展，互联网已经逐渐渗透至人们的日常生活中，互联网中存在着大量的信息供人学习，企业培训作为企业十分重视的环节同样可以对互联网中的企业培训知识进行萃取，用于对员工进行培训，以提高企业的管理效率和产量，但是现有的知识萃取方法，难以针对每个人的具体情况进行企业培训知识的个性化推荐，以实现每个学习自己所需的培训内容。

发明内容

本发明的目的在于提供了一种知识萃取方法、装置、设备及可读存储介质，以改善上述问题。

为了实现上述目的，本申请实施例提供了如下技术方案：

一方面，本申请实施例提供了一种知识萃取方法，所述方法包括：

获取第一信息和第二信息，所述第一信息包括企业培训领域的相关数据，所述第二信息包括待培训企业的行业类别信息；

根据所述待培训企业的行业类别信息对所述第一信息进行萃取，得到第三信息，所述第三信息包括与待培训企业的行业类别相关的企业培训数据；

将所述第三信息进行分类，得到分类后的第三信息，所述分类后的第三信息为按工作岗位分类的企业培训数据；

根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据。

第二方面，本申请实施例提供了一种知识萃取装置，所述装置包括：

获取模块，用于获取第一信息和第二信息，所述第一信息包括企业培训领域的相关数据，所述第二信息包括待培训企业的行业类别信息；

萃取模块，用于根据所述待培训企业的行业类别信息对所述第一信息进行萃取，得到第三信息，所述第三信息包括与待培训企业的行业类别相关的企业培训数据；

分类模块，用于将所述第三信息进行分类，得到分类后的第三信息，所述分类后的第三信息为按工作岗位分类的企业培训数据；

确定模块，用于根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据。

第三方面，本申请实施例提供了一种知识萃取设备，所述设备包括存储器和处理器。存储器用于存储计算机程序；处理器用于执行所述计算机程序时实现上述知识萃取方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述知识萃取方法的步骤。

本发明的有益效果为：

本发明根据待培训企业的具体行业类别对大数据进行萃取，得到与待培训企业的行业类别相关的企业培训数据，再根据企业的工作岗位对相关的企业培训数据进行进一步的分类，使每个工作岗位对应的员工只需学习与其岗位相关的培训资料，针对每个岗位对应的员工进行工作能力的评估，根据不同的工作能力实现培训资料的个性化推荐，使每个员工学习自己当前所需的培训内容，提高培训效率。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中所述的知识萃取方法流程示意图。

图2为本发明实施例中所述的知识萃取装置结构示意图。

图3为本发明实施例中所述的知识萃取设备结构示意图。

图中标注：901、获取模块；902、萃取模块；903、分类模块；904、确定模块；9031、第一处理单元；9032、第二处理单元；9033、第三处理单元；9034、第四处理单元；9041、第一获取单元；9042、分割单元；9043、第一评分单元;9044、第二评分单元；9045、评估单元；9046、第十处理单元；90311、第五处理单元；90312、第六处理单元；90313、第七处理单元；90314、第八处理单元；90315、第九处理单元；90431、修正单元；90432、切分单元；90433、第十一处理单元；90434、判断单元；90435、识别单元；90441、第二获取单元；90442、第十二处理单元；90443、第十三处理单元；90444、第十四处理单元；90445、第十五处理单元；90446、第十六处理单元；800、知识萃取设备；801、处理器；802、存储器；803、多媒体组件；804、I/O接口；805、通信组件。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

本实施例提供了一种知识萃取方法，可以理解的是，在本实施例中可以铺设一个场景，例如:在SAAS平台上对企业员工进行企业员工培训的场景。

参见图1，图中示出了本方法包括步骤S1、步骤S2、步骤S3以及步骤S4。

步骤S1、获取第一信息和第二信息，所述第一信息包括企业培训领域的相关数据，所述第二信息包括待培训企业的行业类别信息；

可以理解的是，互联网中存在大量的数据，其中包括关于企业培训领域的相关数据，企业的行业类别信息包括农业、教育业、制造业、建筑业、金融业、计算机服务业、房地产业等等类别。

步骤S2、根据所述待培训企业的行业类别信息对所述第一信息进行萃取，得到第三信息，所述第三信息包括与待培训企业的行业类别相关的企业培训数据；

可以理解的是，不同行业类别的企业由于其性质和特征的不同，其所需的企业培训数据也不相同，因此，需要根据待培训企业的行业类别对大数据中的企业培训数据进行初步的萃取以得到待培训企业其行业类别相关的企业培训数据，从而提高员工培训的效率。

步骤S3、将所述第三信息进行分类，得到分类后的第三信息，所述分类后的第三信息为按工作岗位分类的企业培训数据；

可以理解的是，不同行业类别下包括不同的工作岗位，例如：制造业中包括生产经理、设计师、机械工程师、工艺工程师等工作岗位；金融业中包括证券经济人、基金经理、产品研发员等工作岗位，对于不同行业类别下包括的不同工作岗位其所需的培训数据也不相同，因此，需要进一步根据工作岗位对本岗位所需的企业培训数据进行分类，从而使本岗位的员工只需学习本岗位所需的企业培训数据，从而过滤大量无效信息，提高员工培训的效率。

可以理解的是，所述步骤S3中还包括步骤S31、步骤S32、步骤S33以及步骤S34，其中具体为：

步骤S31、根据所述第三信息确定第三信息中每个句子的关键词信息；

可以理解的是，本步骤中不对关键实体词进行限定，关键词根据具体的工作岗位的类别进行确定，例如在制造业中关键词可以是机械设备、工艺工程等；在金融业中关键词可以是金融、股票、证券、基金等，通过上述关键词即可在相应的行业类别中按岗位对培训数据进行分类。

可以理解的是，所述步骤S31中还包括步骤S311、步骤S312、步骤S313、步骤S314以及步骤S315，其中具体为：

步骤S311、将所述第三信息进行分词处理，得到分词处理后的第三信息；

步骤S312、计算分词处理后的第三信息中每个词的词频，得到词频信息；

可以理解的是，词频信息为一个词在文中出现的次数，对文中出现次数最多的关键词设置更高的权重。

步骤S313、确定分词处理后的第三信息中每个词在第三信息中的位置，得到词语位置信息；

可以理解的是，关键词出现在标题、段首等位置的概率远大于出现在文中其他部分，因此对标题、段首等位置出现的关键词设置更高的权重。

步骤S314、确定分词处理后的第三信息中每个词的词性，得到词性信息；

可以理解的是，词性信息包括名词、动词、形容词和副词等，经过统计确定关键词一般为名词或动词，少数为形容词、副词和其他词性，其中名词为关键词的概率又大于动词，因此设置权重时对名词设置更高的权重。

步骤S315、根据所述词频信息、词语位置信息和词性信息进行加权计算，得到关键词信息。

可以理解的是，根据每个词的词频信息、词语位置信息和词性信息对应的权重参数进行加权计算，得到每个关键词的评分；通过评分可以筛选出多个关键词，根据评分将筛选出的关键词进行降序排序，选取前几个作为关键词，得到关键词信息。

在本实施例中，对关键词信息的确定结合词频信息、词语的位置信息和词性信息进行综合考量，有效的提高了关键词提取的准确率，从而间接提高了对企业培训数据分类的准确性。

步骤S32、计算每个句子中的所述关键词信息与预设的关键词信息之间的相似度，得到相似度信息，所述预设的关键词信息为表征企业的行业类别的关键词；

可以理解的是，相似度的计算为本领域技术人员所熟知的技术方案，故不在此赘述。

步骤S33、根据第三信息中每个句子对应的句向量与每个句子对应的相似度信息进行加权求和，得到特征信息；

步骤S34、根据所述特征信息对所述第三信息进行分类，得到所述分类后的第三信息。

可以理解的是，将所述特征信息发送至训练后的分类模型可以得到培训资料的所属工作岗位，从而得到分类后的第三信息，实现了对企业培训资料的分类，从而为待培训员工的企业过滤大量与本岗位无关的无效培训信息，提高了员工培训的效率，需要说明的是，本申请对分类模型不做限定。

步骤S4、根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据。

可以理解的是，所述步骤S4中还包括步骤S41、步骤S42、步骤S43、步骤S44、步骤S45以及步骤S46，其中具体为：

步骤S41、获取第一图片信息，所述第一图片信息包括待评级的题目信息；

可以理解的是，在SAAS平台可以生成每个岗位对应的考核题目，从而根据考核题目对工作人员的工作能力进行评级，得到每个人的工作能力等级，根据每个工作人员的工作能力等级确定每个岗位工作人员所需培训的相关数据，当工作人员在SAAS平台上完成考核题目后，获取工作人员填写的考核题目的截图信息得到第一图片信息，需要说明的是可以通过SAAS平台进行在线答题也可以将题目通过SAAS平台进行导出印刷为纸质版进行线下答题。

步骤S42、所述第一图片信息进行分割，得到第二图片信息和第三图片信息，所述第二图片信息包括工作人员填涂的答题卡信息，所述第三图片信息包括工作人员在预设的文本框中填写的文本信息；

可以理解的是，考核题目包括文字叙述题和选择题，因此需要通过目标检测模型对第一图片信息中的预设文本框和答题卡框进行定位，从而实现分割，以作后续处理。

步骤S43、根据所述第二图片信息得到第一评分信息；

可以理解的是，根据第二图片信息可以对工作人员填涂的选择题进行自动评判，得到第一评分信息。

可以理解的是，所述步骤S43中还包括步骤S431、步骤S432、步骤S433、步骤S434以及步骤S435，其中具体为：

步骤S431、将所述第二图片信息进行修正，得到修正后的第二图片信息；

可以理解的是，将第二图片信息进行网格划分，得到网格划分后的第二图片信息，所述网格划分后的第二图片信息包括至少三个子区域图像；利用霍夫变换算法计算网格划分后的第二图片信息中三个子区域图像的倾斜角度，得到修正信息；利用修正信息对所述第二图片信息进行修正，得到修正后的第二图片信息，通过利用霍夫变换算法计算仅对三个子区域图像的倾斜角度进行计算实现修正，可以有效的解决霍夫变换算法复杂度高，导致计算处理时间较长的问题。

步骤S432、将所述修正后的第二图片信息进行切分，得到第四图片信息，所述第四图片信息包括填涂点的位置信息；

可以理解的是，对切分后得到的第四图片信息需要进行预处理操作，其中具体为横向膨胀和纵向膨胀处理。

步骤S433、计算每个选项中填涂点的平均灰度，得到平均灰度信息，所述平均灰度信息为选项中填涂点像素的平均灰度值；

可以理解的是，计算每个选项中填涂点的平均灰度为本领域技术人员所熟知的技术方案，故不在此赘述。

步骤S434、判断选项为单选题还是多选题，得到判断结果；

可以理解的是，由于单选题和多选题其答案选项数量不同，因此单选题和多选题要采取不同的措施对其答案进行识别。

步骤S435、根据所述判断结果和所述平均灰度信息对选项进行识别，得到第一评分信息。

可以理解的是，当判断结果为单选题时，找到选项中填涂平均灰度的最小值和第二小的值，其中，若最小值和第二小的值相差小于预设的第一阈值且第二小的值对应的选项填涂面积大于预设的面积阈值，则认为该选项为单选题，填涂灰度最小值对应的选项为工作人员答案，填涂灰度第二小的值对应的选项为干扰项；当判断结果为多选题时，针对多选题，由于可能有多个选项，因此需要采取与单选题不同的措施，其中具体为：利用聚类算法将平均填涂灰度分为两类，分别求出两类各自的平均值，得到第一平均值和第二平均值；将第一平均值与第二平均值相减，计算结果；判断计算结果是否小于预设的第二阈值，其中，若小于，则表示填涂项均为工作人员填写的答案；若大于，则将平均填涂灰度值更小的一类选项作为工作人员填写的答案。

在本实施例中，可以实现单选题和多选题的精准识别，提高工作人员工作能力评估的准确性。

步骤S44、根据所述第三图片信息得到第二评分信息；

可以理解的是，根据第三图片信息可以对工作人员填写的选文字叙述题进行自动评判，得到第二评分信息。

可以理解的是，所述步骤S44还包括步骤S441、步骤S442、步骤S443、步骤S444、步骤S445以及步骤S446，其中具体为：

步骤S441、获取问句信息、问句对应的标签类别信息、工作人员填写的答案信息和参考答案信息；

可以理解的是，根据第三图片信息可以获取工作人员填写的答案信息和问句信息，参考答案信息和标签类别信息为人为预设的，需要说明的是，标签类别包括一般类、定义类和顺序类，例如：定义类包括的问句形式为简述工艺工程师的职责；顺序类包括的问句形式为按先后顺序写出流水线上的工艺流程；一般类包括的问句形式为除去定义类和顺序类都为一般类，其中包括解决机械设备出现故障的方式、方法等。

步骤S442、将所述问句信息、所述标签类别信息、所述答案信息和所述参考答案信息进行预处理，得到第一特征向量和第二特征向量，所述第一特征向量包括所述问句信息、所述标签类别信息和所述答案信息，所述第二特征向量包括问句信息、所述标签类别信息和所述参考答案信息；

步骤S443、利用word2vec算法对所述第一特征向量和所述第二特征向量进行处理，得到第三特征向量和第四特征向量；

可以理解的是，利用word2vec算法对所述第一特征向量和所述第二特征向量进行处理为本领域技术人员所熟知的技术方案，故不在此赘述。

步骤S444、将所述第三特征向量和所述第四特征向量发送至卷积层，得到第五特征向量和第六特征向量；

可以理解的是，使用多个过滤器对输入的第三特征向量和第四特征向量进行卷积运算操作，从而得到每个向量的浅层语义特征。

步骤S445、将所述第五特征向量和所述第六特征向量发送至交互层，得到第七特征向量，所述第七特征向量包括两输入信息整体语义相关性；

可以理解的是，交互层包括双向长短期记忆编码层，注意力交互层，双向长短期记忆合成层，其中，双向长短期记忆编码层用于对输入的两个向量的嵌入表示进行编码，生成单个字及上下文信息的语义特征表示即第八特征向量和第九特征向量；注意力交互层用于对输入的双向顺序编码计算注意力权重，得到两个句子之间的局部相关性，再根据注意力权重识别、组合其相关语义，其中，具体过程为：

；

上式中，表示第八特征向量和第九特征向量的注意力权重，/>表示/>的加权和，即将第九特征向量中有关第八特征向量相关的内容选择出来并用/>表示，/>表示第九特征向量句子对应的长度，/>表示第九特征向量中每个字向量与第八特征向量的注意力权重，同理，的计算工程与上式相同，需要说明的是，/>表示/>的加权和，即将第八特征向量中有关第九特征向量相关的内容选择出来并用/>表示。

双向长短期记忆合成层用于对两句子的局部语义及上下文进行编码，从而进一步确定两句子之间的整体语义关系，最后将两输入句子的整体语义表示分别求平均值和最大值，将全部向量拼接起来，生成第七特征向量。

步骤S446、将所述第七特征向量发送至分类层，得到所述第二评分信息。

可以理解的是，将第七特征向量发送至分类层进行分类可以得到最终的评分区间类别，根据评分区间类别即可得到第二评分信息，例如将评分任务视作5分类任务，则对于分值为10分得题目，将评分区间划分为[0-2)，[2-4)，[4-6)，[6-8)，[8-10]，需要说明的是本申请对评分区间的划分不做限定。

步骤S45、根据所述第一评分信息和所述第二评分信息对工作人员的工作能力进行评估，得到每个工作人员的工作能力等级；

可以理解的是，将第一评分信息和第二评分信息相加即可得到工作人员的总得分，根据工作人员的总得分对工作人员的工作能力进行评估，其中具体为将0-60分划分为三级员工、60-80划分为二级员工、80-100划分为一级员工。

步骤S46、根据每个工作人员的工作能力等级确定每个岗位工作人员所需培训的相关数据。

可以理解的是，企业领导可以根据每个工作岗位培训知识的难易程度将每个岗位的培训知识划分为三个等级，初级、中级和高级，针对三级员工采用初级培训知识对其进行培训，针对二级员工采用中级培训知识对其进行培训，针对一级员工采用高级培训知识对其进行培训。

实施例2

如图2所示，本实施例提供了一种知识萃取装置，所述装置包括获取模块901、萃取模块902、分类模块903以及确定模块904，其中具体为：

获取模块901，用于获取第一信息和第二信息，所述第一信息包括企业培训领域的相关数据，所述第二信息包括待培训企业的行业类别信息；

萃取模块902，用于根据所述待培训企业的行业类别信息对所述第一信息进行萃取，得到第三信息，所述第三信息包括与待培训企业的行业类别相关的企业培训数据；

分类模块903，用于将所述第三信息进行分类，得到分类后的第三信息，所述分类后的第三信息为按工作岗位分类的企业培训数据；

确定模块904，用于根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据。

在本公开的一种具体实施方式中，所述分类模块903中还包括第一处理单元9031、第二处理单元9032、第三处理单元9033以及第四处理单元9034，其中具体为：

第一处理单元9031，用于根据所述第三信息确定第三信息中每个句子的关键词信息；

第二处理单元9032，用于计算每个句子中的所述关键词信息与预设的关键词信息之间的相似度，得到相似度信息，所述预设的关键词信息为表征企业的行业类别的关键词；

第三处理单元9033，用于根据第三信息中每个句子对应的句向量与每个句子对应的相似度信息进行加权求和，得到特征信息；

第四处理单元9034，用于根据所述特征信息对所述第三信息进行分类，得到所述分类后的第三信息。

在本公开的一种具体实施方式中，所述第一处理单元9031还包括第五处理单元90311、第六处理单元90312、第七处理单元90313、第八处理单元90314以及第九处理单元90315，其中具体为：

第五处理单元90311，用于将所述第三信息进行分词处理，得到分词处理后的第三信息；

第六处理单元90312，用于计算分词处理后的第三信息中每个词的词频，得到词频信息；

第七处理单元90313，用于确定分词处理后的第三信息中每个词在第三信息中的位置，得到词语位置信息；

第八处理单元90314，用于确定分词处理后的第三信息中每个词的词性，得到词性信息；

第九处理单元90315，用于根据所述词频信息、词语位置信息和词性信息进行加权计算，得到关键词信息。

在本公开的一种具体实施方式中，所述确定模块904中还包括第一获取单元9041、分割单元9042、第一评分单元9043、第二评分单元9044、评估单元9045以及第十处理单元9046，其中具体为：

第一获取单元9041，用于获取第一图片信息，所述第一图片信息包括待评级的题目信息；

分割单元9042，用于将所述第一图片信息进行分割，得到第二图片信息和第三图片信息，所述第二图片信息包括工作人员填涂的答题卡信息，所述第三图片信息包括工作人员在预设的文本框中填写的文本信息；

第一评分单元9043，用于根据所述第二图片信息得到第一评分信息；

第二评分单元9044，用于根据所述第三图片信息得到第二评分信息；

评估单元9045，用于根据所述第一评分信息和所述第二评分信息对工作人员的工作能力进行评估，得到每个工作人员的工作能力等级；

第十处理单元9046，用于根据每个工作人员的工作能力等级确定每个岗位工作人员所需培训的相关数据。

在本公开的一种具体实施方式中，所述第一评分单元9043还包括修正单元90431、切分单元90432、第十一处理单元90433、判断单元90434以及识别单元90435，其中具体为：

修正单元90431，用于将所述第二图片信息进行修正，得到修正后的第二图片信息；

切分单元90432，用于将所述修正后的第二图片信息进行切分，得到第四图片信息，所述第四图片信息包括填涂点的位置信息；

第十一处理单元90433，用于计算每个选项中填涂点的平均灰度，得到平均灰度信息，所述平均灰度信息为选项中填涂点像素的平均灰度值；

判断单元90434，用于判断选项为单选题还是多选题，得到判断结果；

识别单元90435，用于根据所述判断结果和所述平均灰度信息对选项进行识别，得到第一评分信息。

在本公开的一种具体实施方式中，所述第二评分单元9044中还包括第二获取单元90441、第十二处理单元90442、第十三处理单元90443、第十四处理单元90444、第十五处理单元90445以及第十六处理单元90446，其中具体为：

第二获取单元90441，用于获取问句信息、问句对应的标签类别信息、工作人员填写的答案信息和参考答案信息；

第十二处理单元90442，用于将所述问句信息、所述标签类别信息、所述答案信息和所述参考答案信息进行预处理，得到第一特征向量和第二特征向量，所述第一特征向量包括所述问句信息、所述标签类别信息和所述答案信息，所述第二特征向量包括问句信息、所述标签类别信息和所述参考答案信息；

第十三处理单元90443，用于利用word2vec算法对所述第一特征向量和所述第二特征向量进行处理，得到第三特征向量和第四特征向量；

第十四处理单元90444，用于将所述第三特征向量和所述第四特征向量发送至卷积层，得到第五特征向量和第六特征向量；

第十五处理单元90445，用于将所述第五特征向量和所述第六特征向量发送至交互层，得到第七特征向量，所述第七特征向量包括两输入信息整体语义相关性；

第十六处理单元90446，用于将所述第七特征向量发送至分类层，得到所述第二评分信息。

需要说明的是，关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例3

相应于上面的方法实施例，本实施例中还提供了一种知识萃取设备，下文描述的一种知识萃取设备与上文描述的一种知识萃取方法可相互对应参照。

图3是根据示例性实施例示出的一种知识萃取设备800的框图。如图3所示，该知识萃取设备800可以包括：处理器801，存储器802。该知识萃取设备800还可以包括多媒体组件803， I/O接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该知识萃取设备800的整体操作，以完成上述的知识萃取方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该知识萃取设备800的操作，这些数据例如可以包括用于在该知识萃取设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该知识萃取设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearFieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件805可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，知识萃取设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的知识萃取方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的知识萃取方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由知识萃取设备800的处理器801执行以完成上述的知识萃取方法。

实施例4

相应于上面的方法实施例，本实施例中还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种知识萃取方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的知识萃取方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种知识萃取方法，其特征在于，包括：

根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据；

其中，根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据，包括：

获取第一图片信息，所述第一图片信息包括待评级的题目信息；

将所述第一图片信息进行分割，得到第二图片信息和第三图片信息，所述第二图片信息包括工作人员填涂的答题卡信息，所述第三图片信息包括工作人员在预设的文本框中填写的文本信息；

根据所述第二图片信息得到第一评分信息；

根据所述第三图片信息得到第二评分信息；

根据所述第一评分信息和所述第二评分信息对工作人员的工作能力进行评估，得到每个工作人员的工作能力等级；

根据每个工作人员的工作能力等级确定每个岗位工作人员所需培训的相关数据；

其中，根据所述第二图片信息得到第一评分信息，包括：

将所述第二图片信息进行修正，得到修正后的第二图片信息；

将所述修正后的第二图片信息进行切分，得到第四图片信息，所述第四图片信息包括填涂点的位置信息；

计算每个选项中填涂点的平均灰度，得到平均灰度信息，所述平均灰度信息为选项中填涂点像素的平均灰度值；

判断选项为单选题还是多选题，得到判断结果；

根据所述判断结果和所述平均灰度信息对选项进行识别，得到第一评分信息；

其中，将所述第二图片信息进行修正，得到修正后的第二图片信息，包括：

将第二图片信息进行网格划分，得到网格划分后的第二图片信息，所述网格划分后的第二图片信息包括至少三个子区域图像；

利用霍夫变换算法计算网格划分后的第二图片信息中三个子区域图像的倾斜角度，得到修正信息；

利用修正信息对所述第二图片信息进行修正，得到修正后的第二图片信息；

其中，当判断结果为单选题时，选取选项中填涂平均灰度最小值对应的选项为工作人员答案；若判断结果为多选题时，利用聚类算法将平均填涂灰度分为两类，分别求出两类各自的平均值，得到第一平均值和第二平均值；将第一平均值与第二平均值相减，得到计算结果；判断计算结果是否小于预设的第二阈值，其中，若小于，则表示填涂项均为工作人员填写的答案；若大于，则将平均填涂灰度值更小的一类选项作为工作人员填写的答案。

2.根据权利要求1所述的知识萃取方法，其特征在于，将所述第三信息进行分类，得到分类后的第三信息，包括：

根据所述第三信息确定第三信息中每个句子的关键词信息；

计算每个句子中的所述关键词信息与预设的关键词信息之间的相似度，得到相似度信息，所述预设的关键词信息为表征企业的行业类别的关键词；

根据第三信息中每个句子对应的句向量与每个句子对应的相似度信息进行加权求和，得到特征信息；

根据所述特征信息对所述第三信息进行分类，得到所述分类后的第三信息。

3.一种知识萃取系统，其特征在于，包括：

确定模块，用于根据分类后的第三信息确定每个岗位的工作人员所需培训的相关数据；

其中，所述确定模块，包括：

第一获取单元，用于获取第一图片信息，所述第一图片信息包括待评级的题目信息；

分割单元，用于将所述第一图片信息进行分割，得到第二图片信息和第三图片信息，所述第二图片信息包括工作人员填涂的答题卡信息，所述第三图片信息包括工作人员在预设的文本框中填写的文本信息；

第一评分单元，用于根据所述第二图片信息得到第一评分信息；

第二评分单元，用于根据所述第三图片信息得到第二评分信息；

评估单元，用于根据所述第一评分信息和所述第二评分信息对工作人员的工作能力进行评估，得到每个工作人员的工作能力等级；

第十处理单元，用于根据每个工作人员的工作能力等级确定每个岗位工作人员所需培训的相关数据；

其中，所述第一评分单元，包括：

修正单元，用于将所述第二图片信息进行修正，得到修正后的第二图片信息；

切分单元，用于将所述修正后的第二图片信息进行切分，得到第四图片信息，所述第四图片信息包括填涂点的位置信息；

第十一处理单元，用于计算每个选项中填涂点的平均灰度，得到平均灰度信息，所述平均灰度信息为选项中填涂点像素的平均灰度值；

判断单元，用于判断选项为单选题还是多选题，得到判断结果；

识别单元，用于根据所述判断结果和所述平均灰度信息对选项进行识别，得到第一评分信息；

其中，所述修正单元，包括：

4.根据权利要求3所述的知识萃取系统，其特征在于，所述分类模块，包括：

第一处理单元，用于根据所述第三信息确定第三信息中每个句子的关键词信息；

第二处理单元，用于计算每个句子中的所述关键词信息与预设的关键词信息之间的相似度，得到相似度信息，所述预设的关键词信息为表征企业的行业类别的关键词；

第三处理单元，用于根据第三信息中每个句子对应的句向量与每个句子对应的相似度信息进行加权求和，得到特征信息；

第四处理单元，用于根据所述特征信息对所述第三信息进行分类，得到所述分类后的第三信息。

5.一种知识萃取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至2任一项所述知识萃取方法的步骤。

6.一种可读存储介质，其特征在于：所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述知识萃取方法的步骤。