CN117371043A - 一种人力资源档案智能管理系统及方法 - Google Patents
一种人力资源档案智能管理系统及方法 Download PDFInfo
- Publication number
- CN117371043A CN117371043A CN202311444604.0A CN202311444604A CN117371043A CN 117371043 A CN117371043 A CN 117371043A CN 202311444604 A CN202311444604 A CN 202311444604A CN 117371043 A CN117371043 A CN 117371043A
- Authority
- CN
- China
- Prior art keywords
- semantic understanding
- file
- granularity
- feature vector
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 22
- 239000013598 vector Substances 0.000 claims description 164
- 238000012545 processing Methods 0.000 claims description 47
- 238000007726 management method Methods 0.000 claims description 43
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims 2
- 230000006403 short-term memory Effects 0.000 claims 2
- 238000012544 monitoring process Methods 0.000 claims 1
- 235000019580 granularity Nutrition 0.000 description 46
- 238000011176 pooling Methods 0.000 description 15
- 238000003058 natural language processing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 230000008451 emotion Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及档案安全管理技术领域,其具体地公开了一种人力资源档案智能管理系统及方法,其使用自然语言处理模型对目标人力资源档案中的提取待公开文件进行语义理解以确定其是否为包含隐私数据的文件,这样子可针对包含隐私数据的文件进行加密处理或者对其隐私内容进行掩码化处理以保证人力资源隐私不被泄露。
Description
技术领域
本申请涉及档案安全管理技术领域,且更为具体地,涉及一种人力资源档案智能管理系统及方法。
背景技术
近年来,人力资源档案管理成为人力资源管理工作的重要部分。建立人力资源档案是人力资源智能管理的关键。传统的纸质档案管理需要大量的人力、物力和时间,容易出现档案遗失、错放等问题。
因此,期待一种优化的人力资源档案智能管理系统。
发明内容
本申请提供一种人力资源档案智能管理系统及方法,其使用自然语言处理模型对目标人力资源档案中的提取待公开文件进行语义理解以确定其是否为包含隐私数据的文件,这样子可针对包含隐私数据的文件进行加密处理或者对其隐私内容进行掩码化处理以保证人力资源隐私不被泄露。
第一方面,提供了一种人力资源档案智能管理系统,所述系统包括:待公开文件提取模块,用于从目标人力资源档案中提取待公开文件;文件内文本内容提取模块,用于从所述待公开文件提取文件内文本内容;分词处理模块,用于对所述文件内文本内容进行分词处理以得到文件内容词的序列;分句处理模块,用于对所述文件内文本内容进行分句处理以得到文件内容句的序列;词粒度语义理解编码模块,用于将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量;句粒度语义理解编码模块,用于将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型以得到句粒度文件内容语义理解特征向量;融合模块,用于融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量;特征分布优化模块,用于对所述多粒度文件内容语义理解特征向量进行特征分布优化以得到优化多粒度文件内容语义理解特征向量;分类处理模块,用于将所述优化多粒度文件内容语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示待处理文件是否为包含隐私数据的文件。
第二方面,提供了一种人力资源档案智能管理方法,所述方法包括:从目标人力资源档案中提取待公开文件;从所述待公开文件提取文件内文本内容;对所述文件内文本内容进行分词处理以得到文件内容词的序列;对所述文件内文本内容进行分句处理以得到文件内容句的序列;将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量;将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型以得到句粒度文件内容语义理解特征向量;融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量;对所述多粒度文件内容语义理解特征向量进行特征分布优化以得到优化多粒度文件内容语义理解特征向量;将所述优化多粒度文件内容语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示待处理文件是否为包含隐私数据的文件。
第三方面,提供了一种芯片,该芯片包括输入输出接口、至少一个处理器、至少一个存储器和总线,该至少一个存储器用于存储指令,该至少一个处理器用于调用该至少一个存储器中的指令,以执行第二方面中的方法。
第四方面,提供了一种计算机可读介质,用于存储计算机程序,所述计算机程序包括用于执行上述第二方面中的方法。
第五方面,提供了一种包括指令的计算机程序产品,当计算机运行所述计算机程序产品的所述指时,所述计算机执行上述第二方面中的方法。
本申请提供的一种人力资源档案智能管理系统及方法,其使用自然语言处理模型对目标人力资源档案中的提取待公开文件进行语义理解以确定其是否为包含隐私数据的文件,这样子可针对包含隐私数据的文件进行加密处理或者对其隐私内容进行掩码化处理以保证人力资源隐私不被泄露。
附图说明
图1为本申请实施例的人力资源档案智能管理系统的示意性框图。
图2为本申请实施例的人力资源档案智能管理系统中句粒度语义理解编码模块的结构示意图。
图3为本申请实施例的人力资源档案智能管理系统中上下文编码单元的示意性框图。
图4为本申请实施例的人力资源档案智能管理系统中分类处理模块的示意性框图。
图5为本申请实施例的人力资源档案智能管理方法的示意性流程图。
图6为本申请实施例的人力资源档案智能管理方法的模型架构的示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
这里由于涉及到基于深度学习的深度神经网络模型,下面先对本申请实施例可能涉及的深度神经网络模型的相关术语和概念进行介绍。
在深度神经网络模型中,隐藏层可以是卷积层和池化层。卷积层对应的一组权重值被称为滤波器,也被称为卷积核。滤波器和输入特征值都被表示为一个多维矩阵,对应地,表示成多维矩阵的滤波器也称为滤波器矩阵,表示成多维矩阵的输入特征值也称为输入特征矩阵,当然,除了可以输入特征矩阵,也可以输入特征图像,特征向量,这里只是以输入特征矩阵进行举例。卷积层的运算称为卷积运算,该卷积运算指的是,输入特征矩阵的一部分特征值与滤波器矩阵的权重值进行内积操作。
深度神经网络模型中每一个卷积层的运算过程可以被编成软件,然后通过在运算装置中运行该软件,得到每层网络的输出结果,即输出特征矩阵。例如,软件通过滑动窗口的方式,以每层网络的输入特征矩阵的左上角为起点,以滤波器大小为窗口,每次从特征值矩阵中提取一个窗口的数据与滤波器进行内积操作。当输入特征矩阵的右下角窗口的数据与滤波器完成内积操作后,便可得到每层网络的一个二维的输出特征矩阵。软件重复上述过程,直至产生每层网络的整个输出特征矩阵。
卷积层运算的过程为,将一个滤波器大小的窗口滑动过整个输入图像(即输入特征矩阵),在每个时刻对窗口内覆盖的输入特征值与该滤波器进行内积运算,其中,窗口滑动的步长为1。具体地,以输入特征矩阵的左上角为起点,以滤波器大小为窗口,窗口滑动的步长为1,每次从特征值矩阵中提取一个窗口的输入特征值与滤波器进行内积操作,当输入特征矩阵的右下角的数据与滤波器完成内积操作后,便可得到该输入特征矩阵的一个二维的输出特征矩阵。
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
由于实际在深度神经网络中需要模拟的函数往往是非线性的,而前面卷积和池化只能模拟线性函数,为了在深度神经网络模型中,引入非线性因素,以增加整个网络的表征能力,在池化层过后还会设置有激活层,激活层中设置有激活函数,常用的激励函数有sigmoid、tanh、ReLU函数等。
以上在介绍了涉及的深度神经网络模型的相关术语和概念之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
图1为本申请实施例的人力资源档案智能管理系统的示意性框图。如图1所示,人力资源档案智能管理系统100,包括:
待公开文件提取模块110,用于从目标人力资源档案中提取待公开文件。应可以理解,相较于传统的纸质档案管理方案,基于互联网的档案管理系统可以实现自动化管理,可以实现信息共享,使得人力资源档案可以被多个部门共享,提高信息利用效率,避免信息孤岛。但是,人力资源档案中包含诸多敏感信息,如病史、治疗信息,在信息共享或者信息公开时,需确保人力资源隐私不被泄露。
文件内文本内容提取模块120,用于从所述待公开文件提取文件内文本内容。应可以理解,从所述待公开文件中提取文件内文本内容的目的是为了进行自然语言处理和语义理解,以确定文件中是否包含隐私数据。通过对文件内文本内容进行分析和处理,可以识别和标记文件中的敏感信息,例如个人信息、病史等,以便于进行隐私数据检测和保护。同时,提取文件内文本内容还可以为企业或者相关部门提供更便捷的信息共享和管理方式,以提高管理效率和促进人才心理健康。
分词处理模块130,用于对所述文件内文本内容进行分词处理以得到文件内容词的序列。应可以理解,考虑到在自然语言处理中,分词是一个非常重要的步骤,它可以将一段连续的文本切分成一个个有意义的词语,从而方便进行文本分析和处理。因此,在本申请技术方案中,对所述文件内文本内容进行分词处理以将文件内容转化为一系列的词语,从而方便进行后续的自然语言处理和语义理解。应可以理解,通过对文件内文本内容进行分词处理,可以得到文件内容词的序列,这个序列可以作为后续自然语言处理的输入,例如词性标注、命名实体识别、情感分析等。同时,分词处理还可以帮助我们更好地理解文本内容,从而更加准确地识别和标记文件中的敏感信息,例如个人信息、病史等,以便于进行隐私数据检测和保护。
分句处理模块140,用于对所述文件内文本内容进行分句处理以得到文件内容句的序列。应可以理解,由于在自然语言处理中,分句是一个非常重要的步骤,它可以将一段连续的文本切分成一个个有意义的句子,从而方便进行文本分析和处理。因此,为了方便进行后续的自然语言处理和语义理解,对所述文件内文本内容进行分句处理以将文件内容转化为一系列的句子。应可以理解,通过对文件内文本内容进行分句处理,可以得到文件内容句的序列,这个序列可以作为后续自然语言处理的输入,例如句法分析、情感分析等。同时,分句处理还可以帮助我们更好地理解文本内容,从而更加准确地识别和标记文件中的敏感信息,例如个人信息、病史等,以便于进行隐私数据检测和保护。
词粒度语义理解编码模块150,用于将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量。应可以理解,考虑在自然语言处理中,文本的语义信息可以从不同粒度的角度进行分析,例如从词、句、段落等不同粒度进行分析。因此,如果能够获取不同粒度的语义信息并进行融合无疑是可以更全面地捕捉文本的语义信息。具体地,首先,将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量。应可以理解,将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型可以得到词粒度的文件内容语义理解特征向量,这个特征向量可以用来表示文件内容的语义信息。词嵌入层是自然语言处理中常用的一种技术,它可以将每个词映射到一个低维的向量空间中,从而方便进行后续的语义理解和文本分析。通过将文件内容词的序列输入到包含词嵌入层的第一语义理解模型中,可以得到每个词对应的词向量,这些词向量可以组成一个矩阵,表示整个文件内容的语义信息。这个矩阵可以作为后续模型的输入,例如文本分类、情感分析等。通过这种方式,我们可以更加准确地理解文件内容的语义信息,从而更好地进行后续的分析和处理。
句粒度语义理解编码模块160,用于将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型以得到句粒度文件内容语义理解特征向量。应可以理解,由于在自然语言处理中,句子是语言表达的基本单位,因此对文件内容进行句子级别的语义理解可以更好地捕捉文本的语义信息。也就是,将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型可以得到句粒度的文件内容语义理解特征向量,这个特征向量可以用来表示整个文件的语义信息。这里,通过将文件内容句的序列输入第二语义理解模型,模型可以学习到每个句子的语义表示,从而得到句粒度的文件内容语义理解特征向量。这个特征向量可以用来表示整个文件的语义信息,例如文件的主题、情感、态度等,从而方便后续的文本分类、情感分析等任务。
可选地,在本申请一实施例中,所述第一语义理解模型为RNN、所述第二语义理解模型为双向长短期记忆神经网络模型。
可选地,在本申请一实施例中,所述第一语义理解模型为双向长短期记忆神经网络模型、所述第二语义理解模型为GRU模型。
可选地,在本申请一实施例中,所述第一语义理解模型为GRU模型、所述第二语义理解模型为基于转换器的Bert模型。
图2为本申请实施例的人力资源档案智能管理系统中句粒度语义理解编码模块的结构示意图。如图2所示,所述句粒度语义理解编码模块160,包括:嵌入向量化单元161,用于使用所述第二语义理解模型的词嵌入层分别所述文件内容句的序列中的各个文件内容句转化为句嵌入向量以得到句嵌入向量的序列;上下文编码单元162,用于使用所述第二语义理解模型的基于转换器的Bert模型对所述句嵌入向量的序列进行基于全局的上下文语义编码以得到多个句粒度上下文关联特征向量;以及,级联单元163,用于将所述多个句粒度上下文关联特征向量进行级联以得到所述句粒度文件内容语义理解特征向量。
图3为本申请实施例的人力资源档案智能管理系统中上下文编码单元的示意性框图。如图3所示,所述上下文编码单元162,包括:一维排列子单元1621,用于将所述句嵌入向量的序列进行一维排列以得到句粒度全局词嵌入向量;向量相乘子单元1622,用于计算所述句粒度全局词嵌入向量与所述句嵌入向量的序列中各个句嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化处理子单元1623,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;概率值获取子单元1624,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过分类函数以得到多个概率值;以及,加权子单元1625,用于分别以所述多个概率值中各个概率值作为权重对所述句嵌入向量的序列中各个句嵌入向量进行加权以得到多个句粒度上下文关联特征向量。
融合模块170,用于融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量。应可以理解,将词粒度文件内容语义理解特征向量和句粒度文件内容语义理解特征向量融合起来可以得到多粒度文件内容语义理解特征向量,这个特征向量可以更全面地表示文件的语义信息。通过将词粒度文件内容语义理解特征向量和句粒度文件内容语义理解特征向量进行融合,可以得到一个更全面的文件内容语义理解特征向量,其中包含了词级别和句级别的语义信息。这个特征向量可以用来进行后续的文本分类、情感分析等任务,从而提高模型的性能和准确率。
可选地,在本申请一实施例中,所述融合模块170,用于以如下公式融合融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量;
其中,所述公式为:
V=Concat[V1,V2]
其中,V1表示融合所述词粒度文件内容语义理解特征向量,V2表示所述句粒度文件内容语义理解特征向量,V表示所述多粒度文件内容语义理解特征向量,Concat[·,·]表示级联函数。
特征分布优化模块180,用于对所述多粒度文件内容语义理解特征向量进行特征分布优化以得到优化多粒度文件内容语义理解特征向量。应可以理解,在本申请的技术方案中,所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量分别表达文件内容词的和文件内容句的文本语义编码特征,使得在不同尺度源数据下的文本语义特征关联编码导致所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量的分布不对齐。也就是,所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量之间的特征颗粒度和表达不均衡,可能会影响所述多粒度文件内容语义理解特征向量的表达效果,从而影响所述多粒度文件内容语义理解特征向量通过分类器得到的分类结果的准确性。
基于此,优选地,本申请对所述词粒度文件内容语义理解特征向量例如记为V1,和所述句粒度文件内容语义理解特征向量例如记为V2,进行特征插值式融合的目的损失自监督平衡化,以获得通道校正特征向量,例如记为Vc。
可选地,在本申请一实施例中,所述特征分布优化模块180,包括:自监督平衡化单元,用于对所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量进行特征插值式融合的目的损失自监督平衡化以获得通道校正特征向量;加权优化单元,以所述通道校正特征向量对所述多粒度文件内容语义理解特征向量进行按位置加权以得到所述优化多粒度文件内容语义理解特征向量。
可选地,在本申请一实施例中,所述自监督平衡化单元,用于:以如下公式对对所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量进行特征插值式融合的目的损失自监督平衡化以获得所述通道校正特征向量;其中,所述公式为:
其中,V1表示所述词粒度文件内容语义理解特征向量,V2表示所述句粒度文件内容语义理解特征向量,和/>分别表示所述词粒度文件内容语义理解特征向量V1和所述句粒度文件内容语义理解特征向量V2的全局均值的倒数,且I是单位向量,⊙表示向量的按位置点乘,/>表示按位置加法,/>表示按位置减法,Vc表示所述通道校正特征向量。
也就是,将通道维度上所述词粒度文件内容语义理解特征向量V1和所述句粒度文件内容语义理解特征向量V2之一作为另一个的强特征通道维度增强输入,则可能损失所述词粒度文件内容语义理解特征向量V1和所述句粒度文件内容语义理解特征向量V2中的另一个的目标特征在类空间内的目标分布信息,导致类回归目的损失,因此通过对特征分布相对于彼此的离群分布(outlier distribution)进行交叉惩罚的方式,可以在特征插值式融合时实现特征增强和回归鲁棒的自监督式平衡,以提升所述词粒度文件内容语义理解特征向量V1和所述句粒度文件内容语义理解特征向量V2的不同特征粒度表达的均衡效果。这样,再以所述通道校正特征向量Vc对所述多粒度文件内容语义理解特征向量进行按位置加权,就可以提升所述多粒度文件内容语义理解特征向量的基于特征粒度均衡的表达效果,以提升其通过分类器得到的分类结果的准确性。
分类处理模块190,用于将所述优化多粒度文件内容语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示待处理文件是否为包含隐私数据的文件。应可以理解,在本申请的技术方案中,所述分类器的标签包括包含待处理文件为隐私数据的文件(第一标签),以及,待处理文件为不包含隐私数据的文件(第二标签),其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“待处理文件为是否为包含隐私数据的文件”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2之和为1。因此,待处理文件为是否为包含隐私数据的文件的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“待处理文件是否为包含隐私数据的文件”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为是否包含隐私数据的文件的检测评估标签,因此,在得到所述分类结果后,可基于所述分类结果,对包含隐私数据的文件进行加密处理或者对其隐私内容进行掩码化处理以保证人力资源隐私不被泄露。
图4为本申请实施例的人力资源档案智能管理系统中分类处理模块的示意性框图。如图4所示,所述分类处理模块190,包括:全连接编码单元191,由于使用所述分类器的全连接层对所述优化多粒度文件内容语义理解特征向量进行全连接编码以得到全连接编码特征向量;概率化单元192,用于将所述全连接编码特征向量输入所述分类器的Softmax分类函数以得到所述多粒度文件内容语义理解特征向量归属于各个分类标签的概率值,所述分类标签包括待处理文件为包含隐私数据的文件和待处理文件为不包含隐私数据的文件;以及,分类结果确定单元193,用于将所述概率值中最大者对应的分类标签确定为所述分类结果。
综上,本申请提供的一种人力资源档案智能管理系统,其使用自然语言处理模型对目标人力资源档案中的提取待公开文件进行语义理解以确定其是否为包含隐私数据的文件,这样子可针对包含隐私数据的文件进行加密处理或者对其隐私内容进行掩码化处理以保证人力资源隐私不被泄露。
图5为本申请实施例的人力资源档案智能管理方法的示意性流程图。图6为本申请实施例的人力资源档案智能管理方法的模型架构的示意图。如图5和图6所示,该方法包括:S110,从目标人力资源档案中提取待公开文件;S120,从所述待公开文件提取文件内文本内容;S130,对所述文件内文本内容进行分词处理以得到文件内容词的序列;S140,对所述文件内文本内容进行分句处理以得到文件内容句的序列;S150,将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量;S160,将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型以得到句粒度文件内容语义理解特征向量;S170,融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量;S180,对所述多粒度文件内容语义理解特征向量进行特征分布优化以得到优化多粒度文件内容语义理解特征向量;以及,S190,将所述优化多粒度文件内容语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示待处理文件是否为包含隐私数据的文件。
这里,本领域技术人员可以理解,上述人力资源档案智能管理方法中的各个步骤的具体操作已经在上面参考图1到图4的人力资源档案智能管理系统的描述中得到了详细介绍,并因此,将省略其重复描述。
本发明实施例还提供一种芯片系统,芯片系统包括至少一个处理器,当程序指令在该至少一个处理器中执行时,使得本申请实施例提供的方法得以实现。
本发明实施例还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得,该计算机执行上述方法实施例的方法。
本发明实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
Claims (10)
1.一种人力资源档案智能管理系统,其特征在于,包括:
待公开文件提取模块,用于从目标人力资源档案中提取待公开文件;
文件内文本内容提取模块,用于从所述待公开文件提取文件内文本内容;
分词处理模块,用于对所述文件内文本内容进行分词处理以得到文件内容词的序列;
分句处理模块,用于对所述文件内文本内容进行分句处理以得到文件内容句的序列;
词粒度语义理解编码模块,用于将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量;
句粒度语义理解编码模块,用于将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型以得到句粒度文件内容语义理解特征向量;
融合模块,用于融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量;
特征分布优化模块,用于对所述多粒度文件内容语义理解特征向量进行特征分布优化以得到优化多粒度文件内容语义理解特征向量;
分类处理模块,用于将所述优化多粒度文件内容语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示待处理文件是否为包含隐私数据的文件。
2.根据权利要求1所述的人力资源档案智能管理系统,其特征在于,所述第一语义理解模型为RNN、所述第二语义理解模型为双向长短期记忆神经网络模型。
3.根据权利要求1所述的人力资源档案智能管理系统,其特征在于,所述第一语义理解模型为双向长短期记忆神经网络模型、所述第二语义理解模型为GRU模型。
4.根据权利要求1所述的人力资源档案智能管理系统,其特征在于,所述第一语义理解模型为GRU模型、所述第二语义理解模型为基于转换器的Bert模型。
5.根据权利要求4所述的人力资源档案智能管理系统,其特征在于,所述句粒度语义理解编码模块,包括:
嵌入向量化单元,用于使用所述第二语义理解模型的词嵌入层分别所述文件内容句的序列中的各个文件内容句转化为句嵌入向量以得到句嵌入向量的序列;
上下文编码单元,用于使用所述第二语义理解模型的基于转换器的Bert模型对所述句嵌入向量的序列进行基于全局的上下文语义编码以得到多个句粒度上下文关联特征向量;以及
级联单元,用于将所述多个句粒度上下文关联特征向量进行级联以得到所述句粒度文件内容语义理解特征向量。
6.根据权利要求5所述的人力资源档案智能管理系统,其特征在于,所述上下文编码单元,包括:
一维排列子单元,用于将所述句嵌入向量的序列进行一维排列以得到句粒度全局词嵌入向量;
向量相乘子单元,用于计算所述句粒度全局词嵌入向量与所述句嵌入向量的序列中各个句嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
标准化处理子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
概率值获取子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过分类函数以得到多个概率值;以及
加权子单元,用于分别以所述多个概率值中各个概率值作为权重对所述句嵌入向量的序列中各个句嵌入向量进行加权以得到多个句粒度上下文关联特征向量。
7.根据权利要求6所述的人力资源档案智能管理系统,其特征在于,所述特征分布优化模块,包括:
自监督平衡化单元,用于对所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量进行特征插值式融合的目的损失自监督平衡化以获得通道校正特征向量;
加权优化单元,以所述通道校正特征向量对所述多粒度文件内容语义理解特征向量进行按位置加权以得到所述优化多粒度文件内容语义理解特征向量。
8.根据权利要求7所述的人力资源档案智能管理系统,其特征在于,所述自监督平衡化单元,用于:以如下公式对对所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量进行特征插值式融合的目的损失自监督平衡化以获得所述通道校正特征向量;
其中,所述公式为:
其中,V1表示所述词粒度文件内容语义理解特征向量,V2表示所述句粒度文件内容语义理解特征向量,和/>分别表示所述词粒度文件内容语义理解特征向量V1和所述句粒度文件内容语义理解特征向量V2的全局均值的倒数,且I是单位向量,⊙表示向量的按位置点乘,/>表示按位置加法,/>表示按位置减法,Vc表示所述通道校正特征向量。
9.根据权利要求8所述的人力资源档案智能管理系统,其特征在于,所述分类处理模块,包括:
全连接编码单元,由于使用所述分类器的全连接层对所述优化多粒度文件内容语义理解特征向量进行全连接编码以得到全连接编码特征向量;
概率化单元,用于将所述全连接编码特征向量输入所述分类器的Softmax分类函数以得到所述多粒度文件内容语义理解特征向量归属于各个分类标签的概率值,所述分类标签包括待处理文件为包含隐私数据的文件和待处理文件为不包含隐私数据的文件;以及
分类结果确定单元,用于将所述概率值中最大者对应的分类标签确定为所述分类结果。
10.一种人力资源档案智能管理方法,其特征在于,包括:
从目标人力资源档案中提取待公开文件;
从所述待公开文件提取文件内文本内容;
对所述文件内文本内容进行分词处理以得到文件内容词的序列;
对所述文件内文本内容进行分句处理以得到文件内容句的序列;
将所述文件内容词的序列通过包含词嵌入层的第一语义理解模型以得到词粒度文件内容语义理解特征向量;
将所述文件内容句的序列通过包含词嵌入层的第二语义理解模型以得到句粒度文件内容语义理解特征向量;
融合所述词粒度文件内容语义理解特征向量和所述句粒度文件内容语义理解特征向量以得到多粒度文件内容语义理解特征向量;
对所述多粒度文件内容语义理解特征向量进行特征分布优化以得到优化多粒度文件内容语义理解特征向量;
将所述优化多粒度文件内容语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示待处理文件是否为包含隐私数据的文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311444604.0A CN117371043A (zh) | 2023-11-01 | 2023-11-01 | 一种人力资源档案智能管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311444604.0A CN117371043A (zh) | 2023-11-01 | 2023-11-01 | 一种人力资源档案智能管理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117371043A true CN117371043A (zh) | 2024-01-09 |
Family
ID=89405740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311444604.0A Pending CN117371043A (zh) | 2023-11-01 | 2023-11-01 | 一种人力资源档案智能管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117371043A (zh) |
-
2023
- 2023-11-01 CN CN202311444604.0A patent/CN117371043A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633577B (zh) | 文本脱敏方法以及装置 | |
CN116010713A (zh) | 基于云计算的创新创业平台服务数据处理方法及系统 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN114140673B (zh) | 一种违规图像识别方法、系统及设备 | |
Gorokhov et al. | Convolutional neural networks for unsupervised anomaly detection in text data | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
WO2023179429A1 (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN116089648B (zh) | 基于人工智能的档案管理系统及方法 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN111523301B (zh) | 合同文档合规性检查方法及装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN116680401A (zh) | 文档处理方法、文档处理装置、设备及存储介质 | |
US20170337484A1 (en) | Scalable web data extraction | |
CN117371043A (zh) | 一种人力资源档案智能管理系统及方法 | |
CN116030295A (zh) | 物品识别方法、装置、电子设备及存储介质 | |
CN116956102A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
CN114328884A (zh) | 一种图文去重方法及装置 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN111860662B (zh) | 一种相似性检测模型的训练方法及装置、应用方法及装置 | |
CN110674497B (zh) | 一种恶意程序相似度计算的方法和装置 | |
CN112836049B (zh) | 一种文本分类方法、装置、介质和计算设备 | |
CN116824568A (zh) | 信息提取方法、信息提取装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |