CN118037250A

CN118037250A - 应用文字信息化系统的数据挖掘方法及系统

Info

Publication number: CN118037250A
Application number: CN202410432733.6A
Authority: CN
Inventors: 谢山山; 周峰
Original assignee: Chengdu Yupao Technology Co ltd
Current assignee: Chengdu Yupao Technology Co ltd
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-05-14
Anticipated expiration: 2044-04-11
Also published as: CN118037250B

Abstract

本申请实施例提供一种应用文字信息化系统的数据挖掘方法及系统，首先获取与前向招聘特征类别相关的多个第一样例招聘会话数据，以及与后向招聘特征类别相关的多个第二样例招聘会话数据。通过这些数据，构建反映各自特征类别的知识图谱的第一类别知识向量和第二类别知识向量。对于给定的候选招聘会话数据，计算其与两类知识向量之间的特征距离，并根据距离大小判断其所属的招聘特征类别。当前向招聘特征类别的知识向量与候选数据的距离小于后向招聘特征类别的知识向量时，将前者确定为该数据的招聘特征类别；反之，则选择后者。从而有效地利用了知识图谱特征，提高了招聘会话数据分类的准确性和效率。

Description

应用文字信息化系统的数据挖掘方法及系统

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种应用文字信息化系统的数据挖掘方法及系统。

背景技术

随着信息技术的快速发展，文字信息化系统在企业招聘中扮演着越来越重要的角色。这些系统通过收集、存储和处理大量的招聘会话数据，为企业提供了更加高效和精准的招聘服务。然而，如何从这些海量的数据中准确挖掘出有价值的信息，仍然是一个具有挑战性的问题。

在传统的招聘流程中，企业往往依赖人工的方式对招聘会话数据进行分类和分析，以确定候选人的招聘特征类别。这种方法不仅效率低下，而且容易受到主观因素的影响，导致分类结果的不准确。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的在于提供一种应用文字信息化系统的数据挖掘方法及系统。

第一方面，本申请提供一种应用文字信息化系统的数据挖掘方法，所述方法包括：

获取对应于前向招聘特征类别的多个第一样例招聘会话数据，以及对应于后向招聘特征类别的多个第二样例招聘会话数据；

依据所述多个第一样例招聘会话数据获取所述前向招聘特征类别的第一类别知识向量，以及依据所述多个第二样例招聘会话数据获取所述后向招聘特征类别的第二类别知识向量，所述第一类别知识向量反映关联于所述前向招聘特征类别的知识图谱特征，所述第二类别知识向量反映关联于所述后向招聘特征类别的知识图谱特征；

依据对候选招聘会话数据所对应生成的数据挖掘指令，获取所述候选招聘会话数据与所述第一类别知识向量之间的第一特征距离，以及获取所述候选招聘会话数据与所述第二类别知识向量之间的第二特征距离，所述数据挖掘指令被配置于挖掘确定所述候选招聘会话数据对应的招聘特征类别；

当所述第一特征距离小于所述第二特征距离时，将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别；

当所述第一特征距离不小于所述第二特征距离时，将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别。

第二方面，本申请实施例还提供一种应用文字信息化系统的数据挖掘系统，所述应用文字信息化系统的数据挖掘系统包括处理器和机器可读存储介质，所述机器可读存储介质中存储有计算机程序，所述计算机程序结合该处理器加载并执行以实现以上第一方面的应用文字信息化系统的数据挖掘方法。

采用以上任意方面的技术方案，本申请首先获取与前向招聘特征类别相关的多个第一样例招聘会话数据，以及与后向招聘特征类别相关的多个第二样例招聘会话数据。通过这些数据，构建反映各自特征类别的知识图谱的第一类别知识向量和第二类别知识向量。对于给定的候选招聘会话数据，计算其与两类知识向量之间的特征距离，并根据距离大小判断其所属的招聘特征类别。当前向招聘特征类别的知识向量与候选数据的距离小于后向招聘特征类别的知识向量时，将前者确定为该数据的招聘特征类别；反之，则选择后者。从而有效地利用了知识图谱特征，提高了招聘会话数据分类的准确性和效率。

也即，本申请能有效地利用知识图谱特征，并通过计算候选招聘会话数据与不同类别知识向量之间的特征距离，准确地确定招聘会话数据对应的招聘特征类别，通过对前向和后向招聘特征类别分别获取了第一类别和第二类别知识向量，使得对招聘会话数据的分类更为精准。在实际操作中，当第一特征距离小于第二特征距离时，将前向招聘特征类别输出为候选招聘会话数据对应的招聘特征类别；反之，则将后向招聘特征类别输出，由此，能够提高招聘信息化系统的数据处理效率和精确性，同时增强其智能化程度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要启用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以结合这些附图获得其它相关的附图。

图1为本申请实施例提供的应用文字信息化系统的数据挖掘方法的流程示意图；

图2为本申请实施例提供的用于实现上述的应用文字信息化系统的数据挖掘方法的应用文字信息化系统的数据挖掘系统的功能结构示意框图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和结合本申请，并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲，显然可以对所公开的实施例作出各种改变，并且在不偏离本申请的原则和范围时，本申请中所定义的普遍原则可以适用于其它实施例和应用场景。因此，本申请并不限于所描述的实施例，而应该被给予与权利要求一致的最广泛的范围。

参见图1所示，本申请提供一种应用文字信息化系统的数据挖掘方法，包括以下步骤。

步骤S110，获取对应于前向招聘特征类别的多个第一样例招聘会话数据，以及对应于后向招聘特征类别的多个第二样例招聘会话数据。

本实施例中，服务器可以在招聘数据库中设置了一个自动化脚本，该自动化脚本定期（例如每天或每周）运行，以检索新的招聘会话数据。这些招聘会话数据包括面试记录、职位描述、候选人和招聘人员之间的交流记录等。

自动化脚本根据数据库中的标记，将检索到的数据分为两类：前向招聘会话数据和后向招聘会话数据。详细地，所述前向招聘特征类别指的是面向未来需求、具有前瞻性的招聘类别，通常关注于公司的新项目、新业务、预期增长或战略转型等方面，需要招聘具备特定技能或经验的候选人以支持公司的长期发展。所述后向招聘特征类别则更注重当前需求、填补现有空缺或支持现有业务的招聘类别，关注的是公司当前运营所需的职位，如替换离职员工、满足短期业务需求等。

示例性的，一家科技公司计划开发一款新产品，并决定招聘一名具备相关技术背景的产品经理来领导该项目。这个职位的招聘就属于前向招聘特征类别，因为它关注的是公司未来的产品开发和市场布局。此外，同一家公司的销售团队中有一名销售代表离职，为了保持销售业务的连续性，公司决定招聘一名新的销售代表来填补这个空缺。这个职位的招聘就属于后向招聘特征类别，因为它关注的是公司当前的业务需求。

由此，所述第一样例招聘会话数据指的是对应于前向招聘特征类别的多个招聘会话数据样本。这些数据通常包含了招聘过程中与候选人、团队或其他相关人员的交流记录。所述第二样例招聘会话数据指的是对应于后向招聘特征类别的多个招聘会话数据样本。同样，这些数据也包含了招聘过程中的交流记录，但关注的是当前业务需求或空缺职位的填补。

步骤S120，依据所述多个第一样例招聘会话数据获取所述前向招聘特征类别的第一类别知识向量，以及依据所述多个第二样例招聘会话数据获取所述后向招聘特征类别的第二类别知识向量，所述第一类别知识向量反映关联于所述前向招聘特征类别的知识图谱特征，所述第二类别知识向量反映关联于所述后向招聘特征类别的知识图谱特征。

本实施例中，服务器使用机器学习算法，如深度神经网络或支持向量机（SVM），对从招聘数据库中检索到的样例招聘会话数据进行识别，具体可以通过分析会话文本中的语言模式、关键词和短语来提取特征。

例如，对于前向招聘类别，可能会识别出与未来规划、创新、增长和扩展相关的特征。而对于后向招聘类别，可能会关注与当前业务需求、职位要求、技能评估和团队构成等相关的特征。

由此，服务器将这些特征编码为数值向量，称为类别知识向量。每个类别知识向量在多维空间中表示一个特定的招聘类别，其中每个维度对应于一个特征。这些类别知识向量的位置和方向反映了不同招聘类别之间的差异和相似性。

详细地，所述第一类别知识向量是通过分析多个第一样例招聘会话数据得到的一个向量表示，反映了关联于前向招聘特征类别的知识图谱特征。这个向量在多维空间中表示了前向招聘会话的独特性和复杂性。

所述第二类别知识向量是通过分析多个第二样例招聘会话数据得到的一个向量表示，反映了关联于后向招聘特征类别的知识图谱特征。

例如，每个招聘会话数据都可以看作是多维空间中的一个点，这些点根据它们的相似性和差异性分布在不同的位置上。通过分析第一样例招聘会话数据，识别到一个向量（即第一类别知识向量），最好地代表了所有这些点（即前向招聘会话）的共同特征。同样地，通过分析第二样例招聘会话数据，也可以识别到一个代表后向招聘会话共同特征的向量（即第二类别知识向量）。

所述知识图谱特征指的是从招聘会话数据中提取出的结构化信息，这些结构化信息以图谱的形式表示了招聘过程中的各种实体（如职位、技能、候选人等）及其之间的关系。这些特征有助于机器学习模型更深入地理解招聘会话的语义和上下文。例如，在招聘会话中，可能会提到特定的职位要求、候选人的技能背景、公司的发展战略等信息。这些信息可以被提取出来，并以图谱的形式表示，如一个节点表示“产品经理职位”，另一个节点表示“Python编程技能”，它们之间的一条边表示这个职位需要候选人具备Python编程技能。这样的图谱结构就是知识图谱特征的一部分，它帮助机器学习模型更好地理解招聘会话中的信息。

例如，一个前向招聘会话可能包括讨论一个新产品的市场潜力、所需的技能组合以及招聘具有这些技能的候选人的紧迫性。而后向招聘会话可能涉及评估现有团队的能力差距、确定需要填补的具体职位以及讨论如何快速有效地填补这些空缺。

步骤S130，依据对候选招聘会话数据所对应生成的数据挖掘指令，获取所述候选招聘会话数据与所述第一类别知识向量之间的第一特征距离，以及获取所述候选招聘会话数据与所述第二类别知识向量之间的第二特征距离，所述数据挖掘指令被配置于挖掘确定所述候选招聘会话数据对应的招聘特征类别。

当服务器接收到一个新的候选招聘会话数据时，首先使用与训练阶段相同的机器学习算法来分析该候选招聘会话数据，接着计算这个候选招聘会话数据与两个类别知识向量（前向和后向）之间的特征距离。

本实施例中，特征距离度量了候选招聘会话数据与每个招聘类别之间的相似度。例如，可以使用欧几里得距离、余弦相似度或马氏距离等度量方法来计算这些距离。较小的特征距离表示更高的相似性，而较大的特征距离则表示较低的相似性。

例如，如果候选招聘会话数据包含大量与未来规划、创新和增长相关的关键词和短语，那么它与前向招聘类别的特征距离可能会更小。相反，如果候选招聘会话数据更多地关注当前业务需求、职位要求和团队构成等话题，那么它与后向招聘类别的特征距离可能会更小。

步骤S140，当所述第一特征距离小于所述第二特征距离时，将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别。

步骤S150，当所述第一特征距离不小于所述第二特征距离时，将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别。

本实施例中，服务器比较候选招聘会话数据与两个类别知识向量之间的特征距离，并根据比较结果确定该数据所属的招聘特征类别。

例如，如果候选招聘会话数据与前向招聘类别的特征距离小于与后向招聘类别的特征距离，则服务器将该数据标记为前向招聘类别。这意味着该候选招聘会话数据更可能涉及公司的未来发展、新项目或预期增长等话题。

相反，如果候选招聘会话数据与后向招聘类别的特征距离小于或等于与前向招聘类别的特征距离，则服务器将该候选招聘会话数据标记为后向招聘类别。这表明该候选招聘会话数据更关注当前空缺职位、现有业务需求和替换离职员工等话题。

通过这种方式，服务器能够自动地为每个新的候选招聘会话数据分配一个合适的招聘特征类别标签，从而为招聘人员提供更准确和有用的信息来支持他们的决策过程。

基于以上步骤，本申请首先获取与前向招聘特征类别相关的多个第一样例招聘会话数据，以及与后向招聘特征类别相关的多个第二样例招聘会话数据。通过这些数据，构建反映各自特征类别的知识图谱的第一类别知识向量和第二类别知识向量。对于给定的候选招聘会话数据，计算其与两类知识向量之间的特征距离，并根据距离大小判断其所属的招聘特征类别。当前向招聘特征类别的知识向量与候选数据的距离小于后向招聘特征类别的知识向量时，将前者确定为该数据的招聘特征类别；反之，则选择后者。从而有效地利用了知识图谱特征，提高了招聘会话数据分类的准确性和效率。

在一种可能的实施方式中，所述依据所述多个第一样例招聘会话数据获取所述前向招聘特征类别的第一类别知识向量，以及依据所述多个第二样例招聘会话数据获取所述后向招聘特征类别的第二类别知识向量，包括：

步骤S121，对所述多个第一样例招聘会话数据进行会话语义嵌入表示，生成第一会话语义嵌入矢量，所述第一类别知识向量包括所述第一会话语义嵌入矢量。

步骤S122，对所述多个第二样例招聘会话数据进行会话语义嵌入表示，生成第二会话语义嵌入矢量，所述第二类别知识向量包括所述第二会话语义嵌入矢量。

本实施例中，第一样例招聘会话数据包含了关于前向招聘特征类别的各种信息，如公司对未来发展的规划、新项目的讨论、预期增长的业务领域等。为了从这些会话数据中提取有用的语义信息，服务器采用会话语义嵌入技术，能够将招聘会话中的文本信息转换为数值向量，即会话语义嵌入矢量。服务器使用预训练的模型或算法，如Word2Vec、BERT等，对每个第一样例招聘会话数据进行处理。在处理过程中，模型会考虑会话中的词汇、语法、上下文等信息，以捕捉其深层次的语义含义。

例如，服务器可能会分析一段关于新产品经理职位的招聘会话，该会话中提到了“创新”、“技术领导力”、“市场洞察”等关键词。通过会话语义嵌入技术，服务器能够将这些关键词及其上下文信息编码为一个数值向量，即第一会话语义嵌入矢量。这个矢量在多维空间中表示了这段会话的语义特征，使得相似的会话在空间中相互靠近，而不同的会话则相互远离。

在获得了多个第一样例招聘会话数据的第一会话语义嵌入矢量后，服务器需要进一步整合这些信息以生成前向招聘特征类别的第一类别知识向量。这个知识向量将作为前向招聘类别的代表，用于后续的相似度计算和分类任务。

为了生成第一类别知识向量，服务器可以采用多种方法，如平均池化、最大池化或更复杂的聚类算法等。以平均池化为例，服务器可以计算所有第一会话语义嵌入矢量的平均值，得到一个代表整个前向招聘类别知识的新向量。这个新向量就是第一类别知识向量，它反映了前向招聘会话数据中的共同语义特征和整体趋势。

与处理第一样例招聘会话数据类似，第二样例招聘会话数据主要关注当前业务需求、现有职位空缺以及支持现有业务的招聘需求等后向招聘特征类别。服务器同样采用会话语义嵌入技术对这些数据进行处理。例如，服务器可能会处理一段关于销售代表职位的招聘会话，该会话中提到了“销售经验”、“客户关系管理”、“业绩目标”等关键词。通过相同的会话语义嵌入技术，服务器能够将这些关键词及其上下文信息编码为第二会话语义嵌入矢量。这个矢量同样在多维空间中表示了这段会话的语义特征。

在获得了多个第二样例招聘会话数据的第二会话语义嵌入矢量后，服务器将采用类似的方法整合这些信息以生成后向招聘特征类别的第二类别知识向量。这个知识向量将作为后向招聘类别的代表用于后续任务。

同样地，服务器可以采用平均池化、最大池化等方法来计算得到一个代表整个后向招聘类别知识的新向量。这个新向量就是第二类别知识向量，它反映了后向招聘会话数据中的共同语义特征和整体趋势。

所述获取所述候选招聘会话数据与所述第一类别知识向量之间的第一特征距离，以及获取所述候选招聘会话数据与所述第二类别知识向量之间的第二特征距离，包括：

步骤S123，获取所述候选招聘会话数据对应的候选会话语义嵌入矢量和所述第一会话语义嵌入矢量之间的第一矢量距离，所述候选会话语义嵌入矢量反映所述候选招聘会话数据的知识图谱特征，所述第一特征距离包括所述第一矢量距离。

步骤S124，获取所述候选会话语义嵌入矢量和所述第二会话语义嵌入矢量之间的第二矢量距离，所述第二特征距离包括所述第二矢量距离。

本实施例中，本实施例中，候选招聘会话数据可能是一个即将进行的招聘面试的记录、职位描述或候选人与招聘人员之间的交流。为了分析这个候选招聘会话数据与前向或后向招聘特征类别的关系，服务器首先需要将其转换为数值形式。详细地，服务器使用与之前相同的会话语义嵌入技术（如Word2Vec、BERT等）处理这个候选招聘会话数据。该技术能够捕捉会话中的语义信息，并将其转换为候选会话语义嵌入矢量。这个矢量在多维空间中表示了候选招聘会话的语义特征。

现在，服务器需要计算候选招聘会话数据与第一类别知识向量之间的相似度。例如，服务器计算候选会话语义嵌入矢量与第一会话语义嵌入矢量之间的矢量距离。这个矢量距离可以是欧几里得距离、余弦相似度或其他衡量向量间相似度的指标。

如果两个矢量之间的距离较小（或相似度较高），说明候选招聘会话数据与前向招聘特征类别较为接近；反之，则说明它们之间的差异较大。

与计算第一矢量距离类似，第二会话语义嵌入矢量代表了后向招聘类别的共同语义特征。为了分析候选招聘会话数据与后向招聘特征类别的关系，服务器计算候选会话语义嵌入矢量与第二会话语义嵌入矢量之间的第二矢量距离。同样地，这个距离可以是欧几里得距离、余弦相似度等。如果两个矢量之间的距离较小（或相似度较高），说明候选招聘会话数据与后向招聘特征类别较为接近；反之，则说明它们之间的差异较大。

通过计算候选招聘会话数据与两个类别知识向量之间的矢量距离，服务器能够量化地评估该会话与前向和后向招聘特征类别的相似度。这些距离指标（即第一特征距离和第二特征距离）为后续的分类决策提供了重要依据。例如，服务器可以根据这些距离判断候选招聘会话更倾向于哪个招聘类别，并据此做出相应的处理或推荐。

在一种可能的实施方式中，步骤S121可以包括：

步骤S1211，对所述多个第一样例招聘会话数据进行多招聘挖掘维度的会话语义嵌入表示，生成对应于第一招聘挖掘维度的第一维度嵌入表示，以及对应于第二招聘挖掘维度的第二维度嵌入表示，所述第一样例招聘会话数据包含关联于所述第一招聘挖掘维度的第一会话文本段，以及关联于所述第二招聘挖掘维度的第二会话文本段，所述第一维度嵌入表示反映所述第一会话文本段的知识图谱特征，所述第二维度嵌入表示反映所述第二会话文本段的知识图谱特征。

步骤S1212，对所述第一维度嵌入表示和所述第二维度嵌入表示进行集成，生成所述第一会话语义嵌入矢量。

本实施例中，服务器首先识别出每个第一样例招聘会话数据中的关键文本段，这些关键文本段与特定的招聘挖掘维度相关联。例如，一段文本可能详细描述了职位的具体要求（第一招聘挖掘维度），而另一段文本则可能讨论了候选人的技能和经验（第二招聘挖掘维度）。

对于每个招聘挖掘维度，服务器使用预训练的模型或算法（如BERT、Word2Vec等）对相应的会话文本段进行语义嵌入表示。这个过程将文本信息转换为数值向量，即维度嵌入表示。这些嵌入表示在多维空间中捕捉了文本段的语义特征，使得相似的文本段在空间中相互靠近。

具体来说，对于关联于第一招聘挖掘维度的第一会话文本段，服务器生成了第一维度嵌入表示。这个嵌入表示反映了该文本段中关于职位要求的知识图谱特征。类似地，对于关联于第二招聘挖掘维度的第二会话文本段，服务器生成了第二维度嵌入表示，反映了该文本段中关于候选人技能的知识图谱特征。

在获得了不同招聘挖掘维度的嵌入表示后，服务器需要将这些信息整合起来，以形成一个全面的会话语义嵌入矢量。这个矢量将作为整个招聘会话数据的代表，用于后续的分析和比较。

为了实现这一点，服务器可以采用多种方法，如拼接、加权平均或更复杂的神经网络集成等。以拼接为例，服务器可以将第一维度嵌入表示和第二维度嵌入表示直接连接在一起，形成一个更长的向量。这个向量既包含了职位要求的信息，也包含了候选人技能的信息，从而提供了一个全面的视角来理解招聘会话数据。

通过这种方式，服务器生成了第一会话语义嵌入矢量。这个矢量不仅反映了单个招聘挖掘维度的知识图谱特征，还整合了不同维度之间的信息，为后续的招聘决策提供了有力的支持。

步骤S122可以包括：

步骤S1221，对所述多个第二样例招聘会话数据进行多招聘挖掘维度的会话语义嵌入表示，生成关联于所述第一招聘挖掘维度的第三维度嵌入表示，以及关联于所述第二招聘挖掘维度的第四维度嵌入表示，所述第二样例招聘会话数据包含关联于所述第一招聘挖掘维度的第三会话文本段，以及关联于所述第二招聘挖掘维度的第四会话文本段，所述第三维度嵌入表示反映所述第三会话文本段的知识图谱特征，所述第四维度嵌入表示反映所述第四会话文本段的知识图谱特征。

步骤S1222，对所述第三维度嵌入表示和所述第四维度嵌入表示进行集成，生成所述第二会话语义嵌入矢量。

本实施例中，第二样例招聘会话数据涵盖了不同的招聘挖掘维度，比如当前的业务需求、职位要求的变化、市场动态对招聘策略的影响等。为了全面分析这些数据，服务器继续采用会话语义嵌入技术进行处理。在处理第二样例招聘会话数据时，服务器首先识别出每个会话数据中的关键文本段。这些文本段同样与特定的招聘挖掘维度相关联。例如，一段文本可能详细描述了当前业务对特定职位的紧急需求（第一招聘挖掘维度），而另一段文本则可能讨论了市场趋势对公司未来招聘计划的影响（第二招聘挖掘维度）。

对于每个招聘挖掘维度，服务器使用相同的预训练模型或算法对相应的会话文本段进行语义嵌入表示。这意味着服务器将文本信息转换为数值向量，即维度嵌入表示。这些嵌入表示在多维空间中捕捉了文本段的语义特征，使得具有相似语义的文本段在空间中相互靠近。

具体来说，对于关联于第一招聘挖掘维度的第三会话文本段，服务器生成了第三维度嵌入表示。这个嵌入表示反映了该文本段中关于当前业务需求的知识图谱特征。类似地，对于关联于第二招聘挖掘维度的第四会话文本段，服务器生成了第四维度嵌入表示，反映了该文本段中关于市场动态影响的知识图谱特征。

在获得了第二样例招聘会话数据中不同招聘挖掘维度的嵌入表示后，服务器需要将这些信息整合起来，以形成一个全面的会话语义嵌入矢量。这个矢量将代表整个第二样例招聘会话数据集合，用于后续的分析和比较。

为了实现这一点，服务器可以采用与之前相同或类似的方法，如拼接、加权平均或神经网络集成等。以拼接为例，服务器将第三维度嵌入表示和第四维度嵌入表示直接连接在一起，形成一个更长的向量。这个向量既包含了当前业务需求的信息，也包含了市场动态影响的信息，从而提供了一个全面的视角来理解第二样例招聘会话数据。

通过这种方式，服务器生成了第二会话语义嵌入矢量。这个第二会话语义嵌入矢量不仅反映了单个招聘挖掘维度的知识图谱特征，还整合了不同维度之间的信息，为后续的招聘决策提供了有力的支持。同时，通过与第一会话语义嵌入矢量的比较和分析，服务器能够更准确地判断候选招聘会话数据与前向或后向招聘特征类别的相似度，从而做出更明智的招聘决策。

在一种可能的实施方式中，步骤S1211可以包括：将所述第一会话文本段编码成实体知识结构的第一实体关系矢量，以及将所述第二会话文本段编码成所述实体知识结构的第二实体关系矢量，所述第一维度嵌入表示包括所述第一实体关系矢量，所述第二维度嵌入表示包括所述第二实体关系矢量。

本实施例中，服务器采用实体知识结构编码技术将文本段转换为实体关系矢量，捕捉文本中的实体及其之间的关系。对于第一会话文本段，服务器将其编码成实体知识结构的第一实体关系矢量。这个第一实体关系矢量反映了文本段中实体（如职位、技能等）及其之间的关系，形成了关于第一招聘挖掘维度（如职位要求）的知识图谱特征。

同样地，对于第二会话文本段，服务器将其编码成实体知识结构的第二实体关系矢量。这个第二实体关系矢量捕捉了文本段中关于第二招聘挖掘维度（如候选人技能）的实体及其之间的关系，形成了相应的知识图谱特征。

示例性的，假设服务器正在处理与招聘有关的会话数据。它接收到了两段文本，分别代表两个不同的会话维度：职位要求和候选人技能。

第一会话文本段（职位要求）：

我们需要一位有3年以上Java开发经验的软件工程师，熟悉Spring框架和微服务架构，能够独立完成项目的设计和开发。

第二会话文本段（候选人技能）：

我拥有5年的Java开发经验，期间深入使用过Spring Boot和Docker进行微服务的构建和部署，曾参与多个大型分布式项目的核心开发。

服务器将使用自然语言处理（NLP）技术来解析这些文本段，并提取出实体及其之间的关系。服务器首先会对文本进行实体识别，找出与招聘相关的实体，如职位名称、技能、经验要求等。

对于第一会话文本段：实体1：软件工程师（职位）、实体2：Java开发经验（技能/经验）、实体3：Spring框架（技能）、实体4：微服务架构（技能）、实体5：项目的设计和开发（任务）。

对于第二会话文本段：实体1：Java开发经验（技能/经验）、实体2：Spring Boot（技能）、实体3：Docker（技能/工具）、实体4：微服务的构建和部署（技能/任务）、实体5：大型分布式项目的核心开发（经验）

接下来，服务器会分析这些实体之间的关系，例如某个技能与职位的关联度、经验要求的时长等。

对于第一会话文本段的关系：

软件工程师需要有3年以上的Java开发经验；

软件工程师应该熟悉 Spring框架和微服务架构；

软件工程师能够独立完成项目的设计和开发；

对于第二会话文本段的关系：

候选人拥有 5年的Java开发经验；

候选人深入使用过 Spring Boot和Docker进行微服务的构建和部署；

候选人曾参与多个大型分布式项目的核心开发；

最后，服务器将这些实体和关系编码成矢量形式。每个实体和关系都可能被分配一个或多个数值，这些数值反映了它们在文本中的重要性、关联度或其他特征。这些数值可以基于词频、逆文档频率（TF-IDF）、词嵌入（如Word2Vec、BERT等）等方法来计算。

例如，对于第一会话文本段的实体关系矢量可能包括：

软件工程师：高权重（因为是职位名称）；

Java开发经验：中权重（因为是技能之一，但文本中还有其他技能）；

Spring框架：中权重；

微服务架构：中权重；

项目的设计和开发：中权重（因为是一个综合能力要求）；

对于第二会话文本段的实体关系矢量可能包括：

Java开发经验：高权重（因为候选人特别强调了这一点）；

Spring Boot：中权重；

Docker：中权重（虽然提到了，但可能不是重点）；

微服务的构建和部署：中权重；

大型分布式项目的核心开发：高权重（因为是一个重要的经验）。

最终，服务器得到了两个实体关系矢量：第一实体关系矢量代表职位要求，第二实体关系矢量代表候选人技能。这两个矢量可以被进一步用于比较、匹配或其他机器学习任务中，以帮助做出招聘决策。需要注意的是，这里的权重分配和矢量表示是简化的示例，实际应用中可能会使用更复杂的算法和模型来生成这些矢量。

步骤S1212可以包括：将相同所述实体知识结构的所述第一实体关系矢量和所述第二实体关系矢量进行第一实体知识关联，并将所述第一实体知识关联生成的结果，作为所述第一会话语义嵌入矢量。

在获得了第一实体关系矢量和第二实体关系矢量后，服务器需要进行集成操作以生成第一会话语义嵌入矢量。服务器采用实体知识关联技术，将相同实体知识结构的第一实体关系矢量和第二实体关系矢量进行关联。这个关联过程可能涉及识别两个矢量中的共同实体、对齐实体间的关系以及合并相关信息。通过这种关联，服务器能够将不同招聘挖掘维度的知识图谱特征整合在一起，形成一个更全面的表示。最终，服务器将第一实体知识关联生成的结果作为第一会话语义嵌入矢量。这个矢量融合了第一招聘挖掘维度和第二招聘挖掘维度的信息，为后续的招聘决策提供了全面的语义支持。

步骤S1221可以包括：将所述第三会话文本段编码成所述实体知识结构的第三实体关系矢量，以及将所述第四会话文本段编码成所述实体知识结构的第四实体关系矢量，所述第三维度嵌入表示包括所述第三实体关系矢量，所述第四维度嵌入表示包括所述第四实体关系矢量。

服务器继续采用实体知识结构编码技术，将第三会话文本段编码成实体知识结构的第三实体关系矢量，将第四会话文本段编码成第四实体关系矢量。这两个矢量分别反映了文本段中关于不同招聘挖掘维度的实体及其之间的关系。

示例性的，服务器接收到了两段新的文本，分别代表招聘流程中的另外两个维度：公司文化和候选人个人价值观。

第三会话文本段（公司文化）：

我们公司注重团队合作，鼓励创新和持续学习，提供宽松的工作环境和弹性的工作时间。

第四会话文本段（候选人个人价值观）：

我非常看重团队协作和不断创新的精神，我认为持续学习是个人成长的关键，同时我也希望能在灵活的工作环境中发挥我的最佳能力。

服务器首先进行实体识别，从文本中提取与公司文化和个人价值观相关的实体。

对于第三会话文本段：实体1：团队合作、实体2：创新、实体3：持续学习、实体4：宽松的工作环境、实体5：弹性的工作时间。

对于第四会话文本段：实体1：团队协作、实体2：不断创新的精神、实体3：持续学习、实体4：个人成长、实体5：灵活的工作环境

接下来，服务器分析这些实体之间的关系，以及它们如何体现公司文化或个人价值观。

对于第三会话文本段的关系：

公司注重团队合作；

公司鼓励创新和持续学习；

公司提供宽松的工作环境和弹性的工作时间；

对于第四会话文本段的关系：

候选人看重团队协作和不断创新的精神；

候选人认为持续学习是个人成长的关键；

候选人希望能在灵活的工作环境中发挥最佳能力；

最后，服务器将这些实体和关系编码成矢量形式。同样，这些数值可以基于词频、逆文档频率、词嵌入等方法来计算。

例如，对于第三会话文本段的实体关系矢量可能包括：

团队合作：高权重（因为是公司文化的核心之一）；

创新：高权重（同样是公司文化的重要组成部分）；

持续学习：中权重（虽然被鼓励，但可能不是最突出的特点）；

宽松的工作环境：中权重；

弹性的工作时间：中权重；

对于第四会话文本段的实体关系矢量可能包括：

团队协作：高权重（与候选人的个人价值观高度契合）；

不断创新的精神：高权重（候选人非常看重这一点）；

持续学习：高权重（被认为是个人成长的关键）；

个人成长：中权重（虽然提到了，但可能更多是作为持续学习的结果）；

灵活的工作环境：中权重（是候选人希望的工作条件之一）。

最终，服务器得到了两个新的实体关系矢量：第三实体关系矢量代表公司文化，第四实体关系矢量代表候选人个人价值观。这两个矢量可以进一步用于比较公司文化和候选人个人价值观之间的契合度，帮助做出更全面的招聘决策。需要注意的是，这里的权重分配和矢量表示同样是简化的示例，实际应用中的编码过程可能会更加复杂和精细。

步骤S1222可以包括：将相同所述实体知识结构的所述第三实体关系矢量和所述第四实体关系矢量进行第二实体知识关联，并将所述第二实体知识关联生成的结果，作为所述第二会话语义嵌入矢量。

在获得了第三实体关系矢量和第四实体关系矢量后，服务器需要进行集成操作以生成第二会话语义嵌入矢量。与第一会话语义嵌入矢量的生成过程类似，服务器采用相同的实体知识关联技术，将相同实体知识结构的第三实体关系矢量和第四实体关系矢量进行关联。

通过识别共同实体、对齐关系和合并信息，服务器将不同招聘挖掘维度的知识图谱特征整合在一起，形成一个更全面的表示。最终，服务器将第二实体知识关联生成的结果作为第二会话语义嵌入矢量。这个矢量同样融合了第一招聘挖掘维度和第二招聘挖掘维度的信息，为后续的招聘决策提供了全面的语义支持。

在一种可能的实施方式中，步骤S123可以包括：

步骤S1231，将所述候选会话语义嵌入矢量加载到多元属性特征域内，生成第一多元域矢量映射信息。

步骤S1232，将所述第一会话语义嵌入矢量加载到所述多元属性特征域内，生成第二多元域矢量映射信息。

步骤S1233，计算所述第一多元域矢量映射信息和所述第二多元域矢量映射信息之间的第一偏离度，所述第一矢量距离与所述第一偏离度正向关联。

本实施例中，服务器将这个候选会话语义嵌入矢量加载到一个多元属性特征域内。这个多元属性特征域可以理解为一个多维空间，其中每个维度都代表一个特定的属性或特征。通过将候选会话语义嵌入矢量加载到这个多元属性特征域内，服务器生成了第一多元域矢量映射信息。这个第一多元域矢量映射反映了候选招聘会话数据在多元属性特征域中的位置和分布。

然后，服务器将之前已经生成的第一会话语义嵌入矢量也加载到同一个多元属性特征域内，生成第二多元域矢量映射信息。这个第二多元域矢量映射映射信息反映了第一样例招聘会话数据在多元属性特征域中的位置和分布。

示例性的，候选招聘会话数据可能是一个求职者对某个职位的询问，如“请问这个职位需要经常出差吗？”这句话经过处理后，被转换成一个高维空间的矢量。

第一会话语义嵌入矢量是从已有的样例招聘会话数据中提取出来的，同样代表了该数据的语义信息。例如，样例招聘会话数据可能是一个招聘者对某个职位的描述，如“这个职位需要具备一定的出差能力，因为我们需要与各地的客户保持紧密的联系。”这句话也被转换成了一个高维空间的矢量。

多元属性特征域可以是一个多维度的空间，每个维度代表一个特定的属性或特征。在招聘场景中，这些属性或特征可能包括职位要求、工作地点、薪资待遇、公司文化等。

服务器将候选会话语义嵌入矢量加载到多元属性特征域内。加载的过程可以是通过某种映射函数或算法，将高维空间的矢量映射到多元属性特征域的各个维度上。映射后的结果就是第一多元域矢量映射信息，它反映了候选招聘会话数据在多元属性特征域中的位置和分布。例如，如果候选招聘会话数据是关于出差的询问，那么它在多元属性特征域中的位置可能更偏向于“职位要求”这个维度。

同样地，服务器将第一会话语义嵌入矢量也加载到多元属性特征域内，生成第二多元域矢量映射信息。这个映射信息反映了样例招聘会话数据在多元属性特征域中的位置和分布。例如，如果样例招聘会话数据是关于需要出差的职位描述，那么它在多元属性特征域中的位置也可能更偏向于“职位要求”这个维度。

通过加载过程，服务器得到了两个多元域矢量映射信息：第一多元域矢量映射信息和第二多元域矢量映射信息。这两个映射信息可以在同一个多元属性特征域中进行比较和分析，从而判断候选招聘会话数据与样例招聘会话数据之间的相似度或差异度。这种比较和分析的结果可以为后续的招聘决策或推荐任务提供有力的支持。

最后，服务器计算第一多元域矢量映射信息和第二多元域矢量映射信息之间的第一偏离度。这个偏离度可以通过多种距离度量方法来计算，如欧几里得距离、余弦相似度等。第一偏离度反映了候选招聘会话数据与第一样例招聘会话数据在多元属性特征域中的相似程度或差异程度。第一矢量距离与第一偏离度正向关联，即偏离度越大，矢量距离越远；偏离度越小，矢量距离越近。

步骤S124可以包括：

步骤S1241，将所述第二会话语义嵌入矢量加载到所述多元属性特征域内，生成第三多元域矢量映射信息。

步骤S1242，计算所述第三多元域矢量映射信息和所述第二多元域矢量映射信息之间的第二偏离度，所述第二矢量距离与所述第二偏离度正向关联。

在获取了第一矢量距离之后，服务器继续对候选招聘会话数据与第二样例招聘会话数据进行比较。与第一步类似，服务器首先将第二会话语义嵌入矢量加载到同一个多元属性特征域内，生成第三多元域矢量映射信息。这个映射信息反映了第二样例招聘会话数据在多元属性特征域中的位置和分布。

然后，服务器计算第三多元域矢量映射信息和之前已经生成的第一多元域矢量映射信息（注意这里是第一多元域矢量映射信息，而不是第二多元域矢量映射信息，因为我们要比较的是候选招聘会话数据与第二样例招聘会话数据）之间的第二偏离度。同样地，第二偏离度可以通过多种距离度量方法来计算。

第二偏离度反映了候选招聘会话数据与第二样例招聘会话数据在多元属性特征域中的相似程度或差异程度。第二矢量距离与第二偏离度正向关联，即偏离度越大，矢量距离越远；偏离度越小，矢量距离越近。

由此，服务器可以获取候选招聘会话数据与两个样例招聘会话数据之间的矢量距离，从而为后续的招聘决策或分类任务提供有力的支持。值得说明的是，在实际应用中，服务器可能会同时处理多个候选招聘会话数据，并对它们与多个样例招聘会话数据进行比较和计算矢量距离。

步骤A110，将所述多个第一样例招聘会话数据加载至类别知识向量网络，生成所述第一类别知识向量，所述类别知识向量网络为依据多个样例招聘会话数据进行深度学习生成的、用于提取类别知识向量的深度学习网络。

步骤A120，将所述多个第二样例招聘会话数据加载至所述类别知识向量网络，生成所述第二类别知识向量。

在招聘场景中，当服务器将第一样例招聘会话数据加载到类别知识向量网络时，类别知识向量网络会对这些第一样例招聘会话数据进行处理和分析，提取出与前向招聘特征类别相关的特征信息，并生成一个第一类别知识向量，该第一类别知识向量反映了第一样例招聘会话数据中关于前向招聘特征类别的整体信息和分布。一旦服务器将第一样例招聘会话数据加载到类别知识向量网络并完成了处理和分析，生成一个第一类别知识向量。这个第一类别知识向量是一个高维空间的表示，其中每个维度都对应着前向招聘特征类别中的一个特定属性或特征。

例如，在第一类别知识向量中，某个维度可能对应着“薪资待遇”这个特征，而该维度的值则反映了第一样例招聘会话数据中关于薪资待遇的整体信息和分布情况。通过查看这个维度的值，服务器可以大致了解求职者对于薪资待遇的关注程度和期望水平。

与第一样例招聘会话数据类似，第二样例招聘会话数据主要与后向招聘特征类别相关，例如求职者询问的关于公司文化、职业发展机会、工作环境等方面的问题。服务器将这些第二样例招聘会话数据也加载到同一个类别知识向量网络中。当第二样例招聘会话数据被加载到网络时，网络同样会对这些数据进行处理和分析，提取出与后向招聘特征类别相关的特征信息，并生成一个第二类别知识向量。这个第二类别知识向量反映了第二样例招聘会话数据中关于后向招聘特征类别的整体信息和分布。经过类别知识向量网络的处理和分析后，服务器生成了第二类别知识向量。与第一类别知识向量类似，第二类别知识向量也是一个高维空间的表示，其中每个维度都对应着后向招聘特征类别中的一个特定属性或特征。

例如，在第二类别知识向量中，某个维度可能对应着“公司文化”这个特征，而该维度的值则反映了第二样例招聘会话数据中关于公司文化的整体信息和分布情况。通过查看这个维度的值，服务器可以大致了解求职者对于公司文化的关注程度和期望水平。

由此，通过加载多个样例招聘会话数据至类别知识向量网络并生成相应的类别知识向量，服务器能够提取出与不同招聘特征类别相关的整体信息和分布情况。这些信息可以为后续的招聘决策、推荐任务或求职者与招聘者之间的匹配提供有力的支持。

在一种可能的实施方式中，当所述将所述多个第一样例招聘会话数据加载至类别知识向量网络，生成所述第一类别知识向量之前，所述方法还包括：

步骤B110，获取关联于所述前向招聘特征类别的多个第一招聘会话训练数据、关联于所述后向招聘特征类别的多个第二招聘会话训练数据，以及至少一个校验训练数据，所述多个样例招聘会话数据包括所述多个第一招聘会话训练数据、所述多个第二招聘会话训练数据，以及所述至少一个校验训练数据，所述校验训练数据关联于所述前向招聘特征类别或所述后向招聘特征类别。

在招聘场景中，服务器首先需要收集大量的招聘会话数据用于训练类别知识向量网络。这些招聘会话数据包括关联于前向招聘特征类别的多个第一招聘会话训练数据和关联于后向招聘特征类别的多个第二招聘会话训练数据（此外，服务器还需要获取至少一个校验训练数据，这些数据同样关联于前向招聘特征类别或后向招聘特征类别，用于验证网络的训练效果。

步骤B120，将所述多个第一招聘会话训练数据和所述多个第二招聘会话训练数据输入当前类别知识向量网络，生成所述当前类别知识向量网络输出的多个训练类别知识向量。

步骤B130，依据所述校验训练数据与所述训练类别知识向量之间的特征距离，为所述至少一个校验训练数据中的各个校验训练数据分配对应的训练监督数据，所述训练监督数据为所述前向招聘特征类别或所述后向招聘特征类别。

步骤B140，当所述训练监督数据的监督状态符合训练终止要求时，将所述当前类别知识向量网络输出为可部署使用的所述类别知识向量网络，所述监督状态表征所述训练监督数据为有效状态或者无效状态。

步骤B150，当所述监督状态不符合所述训练终止要求时，依据所述监督状态，更新所述当前类别知识向量网络的网络参数信息，直到生成可部署使用的所述类别知识向量网络。

服务器将收集到的多个第一招聘会话训练数据和多个第二招聘会话训练数据输入到当前的类别知识向量网络中。这个类别知识向量网络是一个深度学习网络，能够对输入的会话数据进行处理和分析，提取出与特定类别相关的特征信息，并生成对应的训练类别知识向量。这些训练类别知识向量是高维空间的表示，能够捕捉到会话数据中的语义信息和类别特征。

为了验证网络的训练效果，服务器需要依据校验训练数据与训练类别知识向量之间的特征距离来为各个校验训练数据分配对应的训练监督数据。这个特征距离可以通过计算向量之间的相似度或差异度来得到。如果某个校验训练数据与某个训练类别知识向量之间的特征距离较近，那么服务器就将该训练类别知识向量对应的类别作为该校验训练数据的训练监督数据。这个训练监督数据表示了该校验训练数据应该被归类到的正确类别（即前向招聘特征类别或后向招聘特征类别）。

接下来，服务器检查生成的训练监督数据的监督状态，以确定是否符合训练终止要求。监督状态可以表征训练监督数据为有效状态或者无效状态。当有效状态的训练监督数据达到一定比例时，或者当网络在连续多次迭代中的性能提升小于某个阈值时，服务器可以认为训练终止要求已经满足。

如果训练监督数据的监督状态符合训练终止要求，服务器将当前类别知识向量网络输出为可部署使用的类别知识向量网络。这意味着网络已经经过充分的训练，可以准确地提取出招聘会话数据中的类别知识向量。如果监督状态不符合训练终止要求，服务器将根据监督状态来更新当前类别知识向量网络的网络参数信息，以改进网络的性能。更新网络参数信息的方法可以包括调整网络的权重、增加网络的层数或改变网络的激活函数等。服务器将重复这个过程，直到生成可部署使用的类别知识向量网络为止。

在一种可能的实施方式中，步骤S140可以包括：当所述第一特征距离小于所述第二特征距离、且所述第一特征距离与所述第二特征距离之间的距离差值大于第一门限值时，将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别。

例如，候选招聘会话数据：“我们正在寻找一位具有AI算法开发经验的工程师，以支持我们即将开展的新项目。”

第一特征距离（与前向招聘特征类别的距离）较小，因为该数据提到了新项目和对未来技能的需求。第二特征距离（与后向招聘特征类别的距离）相对较大，因为没有提及填补现有职位或短期业务需求。距离差值大于第一门限值，因此服务器将该数据分类为前向招聘特征类别。

步骤S150可以包括：当所述第一特征距离大于所述第二特征距离、且所述距离差值小于所述第一门限值时，将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别。

与前述场景类似，服务器接收到候选招聘会话数据并计算其与两个类别知识向量之间的特征距离。如果第一特征距离大于第二特征距离，但两者之间的距离差值小于第一门限值（这里可能存在逻辑上的矛盾，因为通常我们期望距离差值大于某个阈值来做出分类决策。然而，根据原始描述，我将尝试提供一个可能的解释和示例），服务器可能会采取额外的步骤来确认分类。但在正常情况下，如果第一特征距离大于第二特征距离，且距离差值足够大，服务器应将该数据分类为后向招聘特征类别。

示例：候选招聘会话数据：“我们需要招聘一名客服专员，以替代即将离职的员工。”

第一特征距离（与前向招聘特征类别的距离）较大，因为该数据没有提及新项目或未来增长。第二特征距离（与后向招聘特征类别的距离）较小，因为提到了填补现有空缺。如果距离差值大于一个合理的门限值（这里我们假设存在一个用于分类的第二门限值），服务器将该数据分类为后向招聘特征类别。

在步骤S130之后，当所述距离差值大于所述第一门限值时，将所述前向招聘特征类别和所述后向招聘特征类别都输出为所述候选招聘会话数据对应的招聘特征类别。

当距离差值大于第一门限值时，将前向和后向招聘特征类别都输出为候选招聘会话数据对应的招聘特征类别。然而，这种情况在实际应用中可能较为罕见，因为它意味着会话数据同时强烈符合两个不同方向的特征类别。这通常表明数据可能具有混合特征或需要进一步的分析。

例如，如果服务器发现候选招聘会话数据与两个类别知识向量的距离差值都异常大（这可能是一个逻辑上的错误或数据异常），它可能会触发额外的处理流程。服务器可能会请求更多上下文信息、进行人工审核，或将该数据标记为需要特殊处理的案例。在某些情况下，如果数据确实包含混合特征且无法明确分类，服务器可能会将其同时标记为前向和后向招聘特征类别（尽管这通常不是首选做法）。

在一种可能的实施方式中，当所述将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别，或所述将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别之后，所述方法还包括：

获取当前输出招聘特征类别的招聘会话数据对应的统计量。

当所述统计量不小于第二门限值时，将所述当前输出招聘特征类别的招聘会话数据、所述多个第一样例招聘会话数据，以及所述多个第二样例招聘会话数据，标记为模型知识数据，对初始的招聘特征类别挖掘网络进行网络参数学习，直至输出可部署使用的招聘特征类别挖掘网络，所述招聘特征类别挖掘网络为用于挖掘招聘会话数据对应的招聘特征类别。

本实施例中，需要获取当前输出招聘特征类别的招聘会话数据对应的统计量。这个统计量可以是该类别招聘会话数据的数量、频率、时长、关键词出现次数等，具体取决于招聘场景的需求和数据分析的目标。例如，如果服务器输出的招聘特征类别是前向招聘特征类别，那么它可能会统计该类别的招聘会话数据中包含的求职者对未来规划、创新、增长和扩展相关的统计次数等。这些统计量有助于服务器了解该类别的招聘会话数据的特征和规律。服务器获取到统计量后，会将其与预设的第二门限值进行比较。这个第二门限值是根据招聘场景的需求和数据分析的目标设定的一个阈值，用于判断统计量是否达到了足够的重要性和代表性。

如果统计量不小于第二门限值，说明当前输出的招聘特征类别的招聘会话数据具有一定的数量和代表性，可以用于进一步的网络参数学习。如果统计量小于第二门限值，则说明该类别的招聘会话数据可能不够充分或不够典型，需要进一步收集和分析数据。

当统计量不小于第二门限值时，服务器会将当前输出招聘特征类别的招聘会话数据、多个第一样例招聘会话数据（关联于前向招聘特征类别的数据），以及多个第二样例招聘会话数据（关联于后向招聘特征类别的数据）标记为模型知识数据。这些模型知识数据将用于对初始的招聘特征类别挖掘网络进行网络参数学习。

网络参数学习的目标是调整和优化招聘特征类别挖掘网络的参数，使其能够更准确地识别和挖掘招聘会话数据中的特征类别。服务器会利用标记好的模型知识数据对网络进行训练，通过反复迭代和调整网络参数，直至输出可部署使用的招聘特征类别挖掘网络。

这个可部署使用的招聘特征类别挖掘网络将能够自动地处理和分析新的招聘会话数据，准确地识别和挖掘出其中的招聘特征类别，为招聘人员和求职者提供更高效、更精准的招聘服务。

图2示意性地示出了可被用于实现本申请中所述的各个实施例的应用文字信息化系统的数据挖掘系统100。

对于一个实施例，图2示出了应用文字信息化系统的数据挖掘系统100，该应用文字信息化系统的数据挖掘系统100具有多个处理器102、被耦合到(多个)处理器102中的一个或多个的控制模块(芯片组)104、被耦合到控制模块104的存储器106、被耦合到控制模块104的非易失性存储器(NVM)/存储设备108、被耦合到控制模块104的多个输入/输出设备110，以及被耦合到控制模块104的网络接口112。

处理器102可包括多个单核或多核处理器，处理器102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。一些可替代的实施方式中，应用文字信息化系统的数据挖掘系统100能够作为本申请实施例中所述网关等服务器设备。

一些可替代的实施方式中，应用文字信息化系统的数据挖掘系统100可包括具有指令114的多个计算机可读介质(例如，存储器106或NVM/存储设备108)和与该多个计算机可读介质相合并被配置为执行指令114以实现模块从而执行本公开中所述的动作的多个处理器102。

对于一个实施例，控制模块104可包括任意适当的接口控制器，以向(多个)处理器102中的一个或多个和/或与控制模块104通信的任意适当的设备或组件提供任意适当的接口。

控制模块104可包括存储器控制器模块，以向存储器106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器106可被用于例如为应用文字信息化系统的数据挖掘系统100加载和存储数据和/或指令114。对于一个实施例，存储器106可包括任意适当的易失性存储器，例如，适当的DRAM。一些可替代的实施方式中，存储器106可包括双倍数据速率类型四同步动态随机存取存储器。

对于一个实施例，控制模块104可包括多个输入/输出控制器，以向NVM/存储设备108及(多个)输入/输出设备110提供接口。

例如，NVM/存储设备108可被用于存储数据和/或指令114。NVM/存储设备108可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(多个)非易失性存储设备。

NVM/存储设备108可包括在物理上作为应用文字信息化系统的数据挖掘系统100被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备108可结合网络经由(多个)输入/输出设备110进行访问。

(多个)输入/输出设备110可为应用文字信息化系统的数据挖掘系统100提供接口以与任意其它适当的设备通信。网络接口112可为应用文字信息化系统的数据挖掘系统100提供接口以依据多个网络通信，应用文字信息化系统的数据挖掘系统100可依据多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的多个组件进行无线通信，例如接入依据通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(多个)处理器102中的一个或多个可与控制模块104的多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(多个)处理器102中的一个或多个可与控制模块104的多个控制器的逻辑封装在一起以形成系统级封装。对于一个实施例，(多个)处理器102中的一个或多个可与控制模块104的多个控制器的逻辑集成在同一模具上。对于一个实施例，(多个)处理器102中的一个或多个可与控制模块104的多个控制器的逻辑集成在同一模具上以形成片上系统。

在各个实施例中，应用文字信息化系统的数据挖掘系统100可以但不限于是：台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，应用文字信息化系统的数据挖掘系统100可具有更多或更少的组件和/或不同的架构。例如，一些可替代的实施方式中，应用文字信息化系统的数据挖掘系统100包括多个摄像机、键盘、液晶显示器屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路和扬声器。

以上对本申请进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种应用文字信息化系统的数据挖掘方法，其特征在于，所述方法包括：

2.根据权利要求1所述的应用文字信息化系统的数据挖掘方法，其特征在于，所述依据所述多个第一样例招聘会话数据获取所述前向招聘特征类别的第一类别知识向量，以及依据所述多个第二样例招聘会话数据获取所述后向招聘特征类别的第二类别知识向量，包括：

对所述多个第一样例招聘会话数据进行会话语义嵌入表示，生成第一会话语义嵌入矢量，所述第一类别知识向量包括所述第一会话语义嵌入矢量；

对所述多个第二样例招聘会话数据进行会话语义嵌入表示，生成第二会话语义嵌入矢量，所述第二类别知识向量包括所述第二会话语义嵌入矢量；

获取所述候选招聘会话数据对应的候选会话语义嵌入矢量和所述第一会话语义嵌入矢量之间的第一矢量距离，所述候选会话语义嵌入矢量反映所述候选招聘会话数据的知识图谱特征，所述第一特征距离包括所述第一矢量距离；

获取所述候选会话语义嵌入矢量和所述第二会话语义嵌入矢量之间的第二矢量距离，所述第二特征距离包括所述第二矢量距离。

3.根据权利要求2所述的应用文字信息化系统的数据挖掘方法，其特征在于，所述对所述多个第一样例招聘会话数据进行会话语义嵌入表示，生成第一会话语义嵌入矢量，包括：

对所述多个第一样例招聘会话数据进行多招聘挖掘维度的会话语义嵌入表示，生成对应于第一招聘挖掘维度的第一维度嵌入表示，以及对应于第二招聘挖掘维度的第二维度嵌入表示，所述第一样例招聘会话数据包含关联于所述第一招聘挖掘维度的第一会话文本段，以及关联于所述第二招聘挖掘维度的第二会话文本段，所述第一维度嵌入表示反映所述第一会话文本段的知识图谱特征，所述第二维度嵌入表示反映所述第二会话文本段的知识图谱特征；

对所述第一维度嵌入表示和所述第二维度嵌入表示进行集成，生成所述第一会话语义嵌入矢量；

所述对所述多个第二样例招聘会话数据进行会话语义嵌入表示，生成第二会话语义嵌入矢量，包括：

对所述多个第二样例招聘会话数据进行多招聘挖掘维度的会话语义嵌入表示，生成关联于所述第一招聘挖掘维度的第三维度嵌入表示，以及关联于所述第二招聘挖掘维度的第四维度嵌入表示，所述第二样例招聘会话数据包含关联于所述第一招聘挖掘维度的第三会话文本段，以及关联于所述第二招聘挖掘维度的第四会话文本段，所述第三维度嵌入表示反映所述第三会话文本段的知识图谱特征，所述第四维度嵌入表示反映所述第四会话文本段的知识图谱特征；

对所述第三维度嵌入表示和所述第四维度嵌入表示进行集成，生成所述第二会话语义嵌入矢量。

4.根据权利要求3所述的应用文字信息化系统的数据挖掘方法，其特征在于，所述对所述多个第一样例招聘会话数据进行多招聘挖掘维度的会话语义嵌入表示，生成对应于第一招聘挖掘维度的第一维度嵌入表示，以及对应于第二招聘挖掘维度的第二维度嵌入表示，包括：

将所述第一会话文本段编码成实体知识结构的第一实体关系矢量，以及将所述第二会话文本段编码成所述实体知识结构的第二实体关系矢量，所述第一维度嵌入表示包括所述第一实体关系矢量，所述第二维度嵌入表示包括所述第二实体关系矢量；

所述对所述第一维度嵌入表示和所述第二维度嵌入表示进行集成，生成所述第一会话语义嵌入矢量，包括：

将相同所述实体知识结构的所述第一实体关系矢量和所述第二实体关系矢量进行第一实体知识关联，并将所述第一实体知识关联生成的结果，作为所述第一会话语义嵌入矢量；

所述对所述多个第二样例招聘会话数据进行多招聘挖掘维度的会话语义嵌入表示，生成关联于所述第一招聘挖掘维度的第三维度嵌入表示，以及关联于所述第二招聘挖掘维度的第四维度嵌入表示，包括：

将所述第三会话文本段编码成所述实体知识结构的第三实体关系矢量，以及将所述第四会话文本段编码成所述实体知识结构的第四实体关系矢量，所述第三维度嵌入表示包括所述第三实体关系矢量，所述第四维度嵌入表示包括所述第四实体关系矢量；

所述对所述第三维度嵌入表示和所述第四维度嵌入表示进行集成，生成所述第二会话语义嵌入矢量，包括：

将相同所述实体知识结构的所述第三实体关系矢量和所述第四实体关系矢量进行第二实体知识关联，并将所述第二实体知识关联生成的结果，作为所述第二会话语义嵌入矢量。

5.根据权利要求2所述的应用文字信息化系统的数据挖掘方法，其特征在于，所述获取所述候选招聘会话数据对应的候选会话语义嵌入矢量和所述第一会话语义嵌入矢量之间的第一矢量距离，包括：

将所述候选会话语义嵌入矢量加载到多元属性特征域内，生成第一多元域矢量映射信息；

将所述第一会话语义嵌入矢量加载到所述多元属性特征域内，生成第二多元域矢量映射信息；

计算所述第一多元域矢量映射信息和所述第二多元域矢量映射信息之间的第一偏离度，所述第一矢量距离与所述第一偏离度正向关联；

所述获取所述候选会话语义嵌入矢量和所述第二会话语义嵌入矢量之间的第二矢量距离，包括：

将所述第二会话语义嵌入矢量加载到所述多元属性特征域内，生成第三多元域矢量映射信息；

计算所述第三多元域矢量映射信息和所述第二多元域矢量映射信息之间的第二偏离度，所述第二矢量距离与所述第二偏离度正向关联。

6.根据权利要求1所述的应用文字信息化系统的数据挖掘方法，其特征在于，所述依据所述多个第一样例招聘会话数据获取所述前向招聘特征类别的第一类别知识向量，以及依据所述多个第二样例招聘会话数据获取所述后向招聘特征类别的第二类别知识向量，包括：

将所述多个第一样例招聘会话数据加载至类别知识向量网络，生成所述第一类别知识向量，所述类别知识向量网络为依据多个样例招聘会话数据进行深度学习生成的、用于提取类别知识向量的深度学习网络；

将所述多个第二样例招聘会话数据加载至所述类别知识向量网络，生成所述第二类别知识向量。

7.根据权利要求6所述的应用文字信息化系统的数据挖掘方法，其特征在于，当所述将所述多个第一样例招聘会话数据加载至类别知识向量网络，生成所述第一类别知识向量之前，所述方法还包括：

获取关联于所述前向招聘特征类别的多个第一招聘会话训练数据、关联于所述后向招聘特征类别的多个第二招聘会话训练数据，以及至少一个校验训练数据，所述多个样例招聘会话数据包括所述多个第一招聘会话训练数据、所述多个第二招聘会话训练数据，以及所述至少一个校验训练数据，所述校验训练数据关联于所述前向招聘特征类别或所述后向招聘特征类别；

将所述多个第一招聘会话训练数据和所述多个第二招聘会话训练数据输入当前类别知识向量网络，生成所述当前类别知识向量网络输出的多个训练类别知识向量；

依据所述校验训练数据与所述训练类别知识向量之间的特征距离，为所述至少一个校验训练数据中的各个校验训练数据分配对应的训练监督数据，所述训练监督数据为所述前向招聘特征类别或所述后向招聘特征类别；

当所述训练监督数据的监督状态符合训练终止要求时，将所述当前类别知识向量网络输出为可部署使用的所述类别知识向量网络，所述监督状态表征所述训练监督数据为有效状态或者无效状态；

当所述监督状态不符合所述训练终止要求时，依据所述监督状态，更新所述当前类别知识向量网络的网络参数信息，直到生成可部署使用的所述类别知识向量网络。

8.根据权利要求1-7中任意一项所述的应用文字信息化系统的数据挖掘方法，其特征在于，所述当所述第一特征距离小于所述第二特征距离时，将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别，包括：

当所述第一特征距离小于所述第二特征距离、且所述第一特征距离与所述第二特征距离之间的距离差值大于第一门限值时，将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别；

所述当所述第一特征距离大于所述第二特征距离时，将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别，包括：

当所述第一特征距离大于所述第二特征距离、且所述距离差值小于所述第一门限值时，将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别；

当所述依据对候选招聘会话数据所对应生成的数据挖掘指令，获取所述候选招聘会话数据与所述第一类别知识向量之间的第一特征距离，以及获取所述候选招聘会话数据与所述第二类别知识向量之间的第二特征距离之后，所述方法还包括：

当所述距离差值大于所述第一门限值时，将所述前向招聘特征类别和所述后向招聘特征类别都输出为所述候选招聘会话数据对应的招聘特征类别。

9.根据权利要求1-7中任意一项所述的应用文字信息化系统的数据挖掘方法，其特征在于，当所述将所述前向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别，或所述将所述后向招聘特征类别输出为所述候选招聘会话数据对应的招聘特征类别之后，所述方法还包括：

获取当前输出招聘特征类别的招聘会话数据对应的统计量；

10.一种应用文字信息化系统的数据挖掘系统，其特征在于，所述应用文字信息化系统的数据挖掘系统包括处理器和机器可读存储介质，该机器可读存储介质中存储有机器可执行指令，该机器可执行指令由该处理器加载并执行以实现权利要求1-9中任意一项所述的应用文字信息化系统的数据挖掘方法。