CN111694936A - 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 - Google Patents

用于ai智能面试的识别的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111694936A
CN111694936A CN202010340339.1A CN202010340339A CN111694936A CN 111694936 A CN111694936 A CN 111694936A CN 202010340339 A CN202010340339 A CN 202010340339A CN 111694936 A CN111694936 A CN 111694936A
Authority
CN
China
Prior art keywords
text
vector
influence
vectors
text vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010340339.1A
Other languages
English (en)
Other versions
CN111694936B (zh
Inventor
邓悦
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010340339.1A priority Critical patent/CN111694936B/zh
Priority to PCT/CN2020/099520 priority patent/WO2021217866A1/zh
Publication of CN111694936A publication Critical patent/CN111694936A/zh
Application granted granted Critical
Publication of CN111694936B publication Critical patent/CN111694936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例属于语义识别领域,涉及一种用于AI智能面试的识别的方法,包括获取文本数据;对所述文本数据逐句进行向量分词,并确定至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量;将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据;将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的候选人作为智能面试的识别结果,并将所述结果存储于区块链网络中。本申请还提供一种用于AI智能面试的识别的装置、计算机设备及存储介质。本申请能够高效的完成面试结果的识别,并且识别精度高。

Description

用于AI智能面试的识别的方法、装置、计算机设备及存储介质
技术领域
本申请涉及语义识别技术领域,尤其涉及用于AI智能面试的识别的方法、装置、计算机设备及存储介质。
背景技术
招聘面试是一项费时费力的工作,因为候选人数较多而面试官有限,如果采用面试官与候选人一对一的交流沟通,就需要面试官在一天内连续进行多个场次的面试,同时需要面试官记录面试情况,时间成本高,面试效率低。
现具有一种新型的面试方式,将若干候选人组成一个讨论小组,由面试官提出一种话题,让若干候选人进行话题讨论,而面试官负责记录各个候选人的讨论情况,进而在一个时间段内对多个候选人同时进行评估,面试效率高,能够大大节省面试多人所需时间。但这个面试环节中,面试官不仅要记录小组最后的讨论结果,也要记录讨论过程中每一个人的观点变化和对应的理由,这些都可以作为选拔候选人的重要依据,如此面试官记录量大,讨论后也无法通过记录的文字精准的回溯到讨论时各个候选人的讨论状态、专注度、专业度等情况,对面试人员的判别效果有限。
因此,现有解决此问题的方式是采用语音识别将各个候选人陈述的语句进行自然语言处理,从而得到讨论文本数据,并利用模型以推断文本确定出候选人的表达态度,具体是:通过模型识别文本得到各个候选人表达的语句态度,以根据语句态度对各个候选人进行分值评估,达到面试筛选候选人的效果,但这类模型只能利用候选人的回答文本,判别依据比较单一,并且无法兼顾不同语境内,语素和语素之间的相互关系,极大的影响模型的精准度。
发明内容
本申请实施例的目的在于提出一种基于神经网络提升智能面试效率和精度的方法
为了解决上述技术问题,本申请实施例提供一种用于AI智能面试的识别的方法,采用了如下所述的技术方案:
一种用于AI智能面试的识别的方法,包括下述步骤:
获取讨论文本数据,所述讨论文本数据通过至少两名候选人讨论预设话题产生;对所述讨论文本数据逐句进行向量分词,并确定至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,其中所述第一文本向量和第二文本向量所对应的讨论文本数据通过前后关联的对话产生;将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据;将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的候选人作为智能面试的识别结果。
一种用于AI智能面试的识别的装置,包括:
获取模块,用于获取讨论文本数据,所述讨论文本数据通过至少两名候选人讨论预设话题产生;
向量转化模块,用于对所述讨论文本数据逐句进行向量分词,并确定至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,其中所述第一文本向量和第二文本向量所对应的讨论文本数据通过前后关联的对话产生;及
概率计算模块,用于将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据;及
选择模块,用于将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的候选人作为智能面试的识别结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的用于AI智能面试的识别的方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于AI智能面试的识别的方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:通过获取对话产生的文本并分别进行向量分词以获取相互对应的第一文本向量和第二文本向量,并通过表征模型确定第一文本向量和第二文本向量相互之间的影响概率,通过影响概率的排序确定对话过程当中话语的主导作用,并最终确定面试结果。该方案通过计算对话过程中话语的主导作用,以确定面试人员对辩论的主导情况,能够高效的完成面试结果的识别,并且识别精度高。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1根据本申请的一种用于AI智能面试的识别方法的一个实施例的流程图;
图2是图1中步骤S100的一种具体实施方式的流程图;
图3是图1中步骤S200的一种具体实施方式的流程图;
图4是图1中步骤S300的一种具体实施方式的流程图;
图5是图4中步骤S303的一种具体实施方式的流程图;
图6是图4中步骤S302的一种具体实施方式的流程图;
图7是根据本申请的一种用于AI智能面试的识别装置的一个实施例的结构示意图;
图8是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:
100——获取模块、200——向量转化模块、300——概率计算模块、400——选择模块
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
继续参考图1,示出了根据本申请的一种用于AI智能面试的识别的方法的一个实施例的流程图。所述的一种用于AI智能面试的识别方法,包括以下步骤:
步骤S100:获取讨论文本数据,所述讨论文本数据通过至少两名面试候选人讨论预设话题产生。
本申请的执行主体为AI面试系统,执行本申请提出的一种运用于AI智能面试的候选人辩论态度识别方法。
首先,开启AI面试系统,由AI面试系统随机从预设的数据库中调取一话题并显示,或者由面试官输入一话题并显示;随后,AI面试系统接收由若干候选人组成的候选人小组发出的语音数据;待候选人小组讨论完毕后,对上述语音数据进行语音识别以及自然语义处理,最终获取到讨论讨论文本数据。
步骤S200:通过编码器对所述讨论文本数据逐句进行向量化处理,得到至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,其中所述第一文本向量和第二文本向量所对应的讨论文本数据通过前后关联的对话产生。
在AI面试系统中设置有文本内容编码器,采用该文本内容编码器对讨论讨论文本数据中各个候选人陈述的语句数据进行向量分词,从而得到若干个第一文本向量和第二文本向量;上述的第一文本向量和第二文本向量是相关联的两个语句数据进行向量分词后得到的,例如:候选人A提出语句数据A1,而候选人B根据语句数据A1的内容采用语句数据B1回复候选人A,则语句数据A1与语句数据B1在进行向量分词得到对应的A1文本向量和B1文本向量,将A1文本向量和B1文本向量分别视为第一文本向量和第二文本向量,还具有如下其他情况:
(1)若候选人A再根据语句数据B1的内容采用语句数据A2回复候选人B,则将B1文本向量视为第一文本向量,将向量分词后得到的A2文本向量视为第二文本向量。
(2)若无其他候选人回复候选人A说出的语句数据A1,则语句数据A1视为失效,不对其进行向量分词,需要说明,采用语义识别模型在表单形式的讨论讨论文本数据中的下20行内查找是否存在与语句数据A1相关联的其他语句数据,即采用语义识别模型识别讨论讨论文本数据下20行内是否存在回复语句数据A1的其他语句数据,若是,则语句数据A1进行向量分词,得到A1文本向量并视为第一文本向量,其他语句数据向量分词得到的文本向量视为第二文本向量,若无,则失效。
步骤S300:将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据。
上述的表征模型预设于AI面试系统中,用于对若干第一文本向量与第二文本向量进行对应的计算,得出若干第一文本向量与第二文本向量之间相互影响的概率。
上述的表征模型为预训练的神经网络模型,其内预设有算法,用于逐层处理第一文本向量与第二文本向量,首处理层确定第一文本向量与第二文本向量的各自的注意力,次处理层确定第一文本向量与第二文本向量之间的相互影响力,并求得相互之间可能影响的概率,尾处理层集成所有得出的概率,制成上述的影响概率数据;具体的,当表征模型确定一个文本向量的影响力后,采用一个表征表示它。
上述的表征模型的预训练方法是:
(1)制定框架,以得到分有首处理层、次处理层与尾处理层的初始模型,并且所述初始模型首处理层、次处理层与尾处理层均预设相应的算法;
(2)导入训练数据至初始模型中;
(3)通过损失函数采用梯度下降法计算所述训练数据中交叉熵损失最小的权重与偏差;
(4)将所述权重与偏差导入至所述框架各层对应的算法中。
上述制定框架,即在初始模型中创建三层,首处理层、次处理层与尾处理层,首处理层预设注意力算法,该注意力算法用于确定第一文本向量与第二文本向量的各自的注意力数值,以通过注意力数值反应候选人对于话题的专注度;次处理层预设影响力算法,该影响力算法用于确定第一文本向量与第二文本向量之间的相互影响力概率,以通过影响力概率反应各候选人之间的相互影响情况,确定出主导讨论方向的候选人;尾处理层预设表征集成,用于集成所有得出的影响力概率,制作影响概率数据,在宏观层面总览形式的确定各个候选人对于讨论的影响力。
上述的训练数据例如:{(Qi,Ri),yi},损失函数例如:
Figure BDA0002468142060000051
Figure BDA0002468142060000052
Q,R分别为第一文本向量和第二文本向量,上述训练数据Qi,Ri为Q,R文本向量中的词语,故yi为Qi,Ri在第一文本向量Q和第二文本向量R中的影响概率;
上述训练数据yi为Qi,Ri之间相互影响的概率,因为训练数据是由用户预设至框架中的,因此{(Qi,Ri),yi}已确定具体数值;
上述损失函数中∑i为第一文本向量Q和/或第二文本向量R中各个词语i的集合,上述的∑j为第一文本向量Q和/或第二文本向量R中各个词语i对应的态度集合,该态度包括支持与否定,上述
Figure BDA0002468142060000053
为第一文本向量Q和/或第二文本向量R中各个Qi,Ri对应的态度j的概率,当
Figure BDA0002468142060000054
达到阈值(80%)时则支持,反之否定;
预测方式:因为{(Qi,Ri),yi}已确定,则能够确定第一文本向量Q与第二文本向量R中各个词语i对应的影响概率,如
Figure BDA0002468142060000055
求和各个影响概率并计算对应的平均数,得到
Figure BDA0002468142060000056
取真数
Figure BDA0002468142060000057
对应的数值作为
Figure BDA0002468142060000058
以求得第一文本向量Q与第二文本向量R的影响概率。
上述的
Figure BDA0002468142060000059
为两词语的向量组合,由上述可知,目前已确定出损失函数
Figure BDA00024681420600000510
(中间的softmax(wlv+bl)改为
Figure BDA00024681420600000511
)中的
Figure BDA00024681420600000512
v和概率
Figure BDA00024681420600000513
的具体数值,随后,通过梯度下降法,得到损失函数中交叉熵最小的权重Wl与偏差bl;上述的梯度下降法为现有公知的技术在此不做赘述。
上述的“-”为取损失最小符,上述的
Figure BDA00024681420600000514
为向量拼接符。
在得到权重Wl与偏差bl之后,将权重Wl与偏差bl导入至所述框架各层对应的算法中,从而实现表征模型的训练。
步骤S400:将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的候选人作为智能面试的识别结果。
AI面试系统获取表征模型输出的影响概率数据,上述影响概率数据包括多个候选人之间沟通而进行相互影响的概率(即多个y),AI面试系统根据各个影响概率,从上述的表单形式的讨论讨论文本数据中定位出与各个影响概率对应的候选人,需要说明,一个影响概率反馈两名候选人,因为影响概率是通过该两名候选人的对话生成的,当AI面试系统确定排序在前的一个影响概率后,能够确定出对应的两名候选人,随后从表单形式的讨论讨论文本数据中确定出这两名候选人(以下称第一候选人和第二候选人)对应的语句数据,从而能够获取第一候选人与其他候选人对话的影响概率,以及第二候选人与其他候选人对话的影响概率,进而AI面试系统算得第一候选人总体的影响概率平均数,和算得第二候选人总体的影响概率平均数,以判定出第一候选人与第二候选人哪位对于讨论更具影响力,最终输出识别结果;还需要说明,上述若第一候选人或第二候选人在讨论讨论文本数据中不存在与其他人对话的语句数据时,视为失效,例如:第一候选人在讨论讨论文本数据中除去与第二候选人具有较高影响概率的对话后,不存在与其他候选人对话的情况下,若第二候选人在讨论讨论文本数据中存在与其他人对话的语句数据,则AI面试系统默认第二候选人在讨论组的影响力高于第一候选人。
在一实施例中,在得到智能面试的识别结果之后,将该识别结果存储在区块链网络中,通过区块链存储,实现数据信息在不同平台之间的共享,也可防止数据被篡改。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
进一步的,所述获取讨论文本数据的步骤具体包括:
步骤S101:识别面试候选人发出的语音数据,所述语音数据包括候选人音色和候选人语句;
步骤S102:根据识别的所述候面试选人音色对面试候选人进行标注;
通过识别的候选人音色,之后根据面试候选人的音色对面试候选人进行标注,音色作为一种生物识别载体,类似于指纹、虹膜的光反射效果。不同个体所能够产生音色在数字化之后完全不同,能够唯一的标注一个面试候选人。
步骤S103:识别语音形式的面试候选人语句,转化为文本语句,并根据所述候选人音色将所述文本语句与候选人关联;
将面试候选人音频形式的语句识别为文本语句,之后根据音色与候选人匹配,确定文本语句的来源。
步骤S104:通过表单形式记录所述文本语句和相关联的候选人,作为所述讨论文本数据。
具体的,上述音色数据为候选人的音色,根据音色的不同,AI面试系统会创建对应数量的候选人;上述候选人语句为候选人采用上述音色说出的语句,AI面试系统采用自然语义处理识别该候选人语句,得到文本形式的语句数据,并将语句数据根据候选人音色与对应的候选人关联,AI面试系统处理所有的语音数据后,制作出表单形式的讨论文本数据。表单形式的讨论文本数据具体如下:
Figure BDA0002468142060000061
Figure BDA0002468142060000071
通过建立表单形式的讨论文本数据,更便于AI面试系统定位各个候选人陈述的语句,便于后续的语句数据向量分词、各个语句数据的语义识别等操作。
进一步的,所述对所述讨论文本数据逐句进行向量分词,并确定至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,具体包括:
步骤S201:从所述讨论文本数据中识别出来自不同面试候选人,但存在关联的两两关联文本语句;
候选人之间的对话能够体现出候选人之间对谈话过程的掌控程度,通过将不同候选人的讨论文本分别提取出来,并将其中来自于两个候选人的两两关联的文本语句提取出来,做后续处理,以通过候选人之间的对话判断候选人对谈话的掌控情况,在一种实施例当中,一段对话的上下文之间有明确的回应关系,对话中相邻的语句两两关联,形成第一文本向量和第二文本向量;在另一种实施例当中,虽然来自不同面试候选人的讨论文本,但是相互之间在内容上互相关联,则两租来自不同面试候选人的讨论文本也是两两关联的。
步骤S202:对两两关联文本语句进行逐句的分词并编码,得到与两两关联文本语句一一对应的各个语句token串;
上述Token串为向量的数字标记,通过token串对向量进行存储和计算。编码后讨论文本中的每个单词形成一串数字,对整段讨论文本进行向量化,形成一个向量,其中向量中的每一项中存储的数字对应了一个单词。
LSTM能够处理一段讨论文本中每个单词,使其与讨论文本中的其他单词产生关联,单词之间关联的强弱决定了额LSTM网络输出的单词取值,双向LSTM在上下文两个方向上对单词进行处理,能够精确地确定单词与上下文之间的关系。
步骤S203:通过双向LSTM网络分别对所述语句token串进行向量化,得到前向特征向量和反向特征向量。
双向LSTM网络对关键词处理之后能够根据关键词的上下文关系对关键词进行表示,如此能够更精确的体现关键词。
步骤S204:将同一文本语句的前向特征向量和反向特征向量进行拼接,得到语句特征向量。
拼接得到的是一个二维向量,此时一个关键词通过二维向量进行表示,二维向量中的两个维度分别是双向LSTM针对关键词产生的上文关联的数值和下文关联的数值。
步骤S205:将两两关联文本语句在先的文本语句对应的语句特征向量作为第一文本向量;将对第一文本向量进行回应的语句特征向量作为第二文本向量。
第一文本向量和第二文本向量是相对应的,第二文本向量是对第一文本向的回应,一种实施例中,提问(即两两关联文本语句在先的文本语句)可以作为第一文本向量的来源,而针对上述提问的回答(即两两关联文本语句在后的文本语句)可以作为第二文本向量的来源;在另一种实施例当中,对上述回答的反馈或追问,又能够作为第二文本向量的来源,此时,上述回答作为第一文本向量。
上述的语句token串例如:A1[q1,q2,...,qT];回复A1即与A1关联的语句token串例如:B1[r1,r2,...,rT];采用双向LSTM网络对A1语句token串进行双向的向量化例如:
Figure BDA0002468142060000081
Figure BDA0002468142060000082
再采用双向LSTM网络对B1语句token串进行双向的向量化例如:
Figure BDA0002468142060000083
Figure BDA0002468142060000084
上述的xt为A1[q1,q2,...,qT]或者B1[r1,r2,...,rT]中的某一词,如“q2”。
上述
Figure BDA0002468142060000085
为语句token串A1从左至右向量化的向量语句token串A1,即,token串A1的前向特征向量;同理,
Figure BDA0002468142060000086
为token串A1的反向特征向量,。
最终,将token串A1的前向特征向量和反向特征向量进行拼接,得到语句特征向量hA1,其中,
Figure BDA0002468142060000087
同理将将token串B1的前向特征向量和反向特征向量进行拼接,得到语句特征向量hB1,其中,
Figure BDA0002468142060000088
由于语句特征向量hA1在先,语句特征向量hB1在后,因此,将
Figure BDA0002468142060000089
作为第一文本向量,
Figure BDA00024681420600000810
作为第二文本向量该方案能够根据单词在上下文中的关联,提升第一文本向量和第二文本向量的精确度。该方案能够提升影响概率排序的精度。
进一步的,所述将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据具体包括:
步骤S301:根据预设的关键词库识别出各个第一文本向量和第二文本向量中与话题相关的至少一项关键词;
关键词根据关键词库进行识别,可以配合其他的关键词算法,比如对出现频率较高的语素,通过学习网络确定相应的关键词。
步骤S302:将语句特征向量中关键词对应的二维向量转换为标量。
关键词通过向量表示的时候,无法通过后续的注意力算法和影响力算法计算得到一组数值或概率,需要对向量进行转化,并通过转化得到的标量进行后续计算。
步骤S303:根据所述关键词,通过所述表征模型确定所述第一文本向量的第一注意力表征和第一影响力表征,确定所述第二文本向量的第二注意力表征和第二影响力表征;
注意力表征通过第一文本向量或第二文本向量中的词语在文本向量中的影响力从而确定文本向量中每个词语注意力的比重,从而确定词语的注意力
影响力表征通过第一文本向量和第二文本向量中的词语对第一文本向量和第二文本向量的影响效果。
步骤S304:根据所述第一注意力表征和所述第一影响力表征集成,以确定第一文本向量的总表征,根据所述第二注意力表征和所述第二影响力表征集成,以确定第二文本向量的总表征;
通过将注意力表征和影响力表征集成,以确定第一文本向量或者第二文本向量的总表征。
步骤S305:根据所述第一文本向量的总表征和第二文本向量的总表征,通过所述表征模型的影响概率算法,确定相应的影响概率。
具体的,采用预设于所述首处理层的注意力表征算法,根据各个第一文本向量和各个第二文本向量中与话题相关的关键词,采用注意力算法确定各个第一文本向量和各个第二文本向量对应的注意力数值,在之后的步骤中能够根据注意力数值分别得到各个第一文本向量和各个第二文本向量对应的第一注意力表征和第二注意力表征。
上述的表征集成算法为:
Figure BDA0002468142060000091
Figure BDA0002468142060000092
Figure BDA0002468142060000093
Q为第一文本向量的集成表征,R为第二文本向量的集成表征,v为总表征;
上述的Q例如:注意力数值
Figure BDA0002468142060000094
Figure BDA0002468142060000095
影响力数值
Figure BDA0002468142060000096
则第一影响力表征
Figure BDA0002468142060000097
其中
Figure BDA0002468142060000098
为文本向量中的关键词,
Figure BDA0002468142060000099
为第一文本向量与第二文本向量相互关联的影响关键词,即Q与R如下:
Figure BDA00024681420600000910
Figure BDA00024681420600000911
进一步地,v如下:
Figure BDA00024681420600000912
从而得出各个第一向量文本与第二向量文本的总表征v。
将各个总表征v导入至尾处理层的影响概率算法中,求得各个总表征对应的影响概率数据,影响概率算法为:
y=softmax(Wlv+bl);
上述提及,在预训练表征模型时,已确定出权重值Wl与偏差值bl
上述y为总表征对应的影响概率,上述的权重值Wl与偏差值bl预先导入至影响概率算法中,将总表征v导入至影响概率算法求得其对应的影响概率y;
该影响概率y为讨论文本数据中影响所有文本向量的概率数值,该概率数值越高,则影响力越高,例如概率数据y=1时,为最高影响力数据,对讨论文本数据中在其之后发出的所有文本向量均受其影响;运用于实际的AI面试场景中,能够精准的找出讨论小组中实时领导讨论的候选人。
例如,当第一文本向量与第二文本向量分别的关键词t=7、t=8,当第一文本向量与第二文本向量之间相互影响的影响关键词t=4时,则,
Figure BDA0002468142060000101
因为上述的
Figure BDA0002468142060000102
为向量拼接符,故v=7,4,(7+4),8,4,(8+4);
进一步的,将影响概率算法中的权重值Wl与偏差值bl导入至上述v中,上述的Wl包括Wl1~Wl6,以Wl1~Wl6均为0.2,bl为1时,既有:
Wlv+bl=Wl1*7+Wl2*4+Wl3*(7+4)+Wl4*8+Wl5*4+Wl6*(8+4)+bl=10.2
因此,即关键词总数为10.2,再对其累加注意力数值0.76和影响力数值0.76,即得到11.72的值,当AI面试系统识别到的讨论文本数据中所有的关键词总数为30个时。
Y=11.72/30=39%,从而求出第一文本向量与第二文本向量对应的影响概率数据。
进一步的,所述根据所述关键词,通过所述表征模型确定所述第一文本向量和第二文本向量的注意力表征,具体包括:
步骤S3031:根据所述关键词,通过所述表征模型中的注意力表征算法分别计算第一文本向量的第一注意力数值和第二文本向量的第二注意力数值;
步骤S3032:根据至少一组所述第一注意力数值与关键词的值的乘积累加确定第一文本向量对应的第一注意力表征,和根据至少一组素数第二注意力数值与关键词的值的乘积累加确定第二文本向量对应的第二注意力表征。
(1)所述表征模型包括次处理层,通过预设于所述次处理层中的影响力算法分别计算各个第一文本向量和第二文本向量相互之间的影响力数值;
(2)通过预设于所述次处理层中的影响力表征算法,集成各个第一文本向量和第二文本向量相互之间的影响力数值和反应相互之间影响的关键词,以分别得到各个第一文本向量和第二文本向量对应的第一影响力表征和第二影响力表征。
确定第一文本向量与第二文本向量相互之间的影响力,在实际AI面试场景中,反应两个候选人之间讨论话语的相互影响情况,其中,
计算第一文本向量与第二文本向量相互之间影响力数值的影响力算法为:
Figure BDA0002468142060000103
Figure BDA0002468142060000104
上述
Figure BDA0002468142060000105
为第一文本向量对于第二文本向量的影响力数值,同理上述
Figure BDA0002468142060000106
为第二文本向量对于第一文本向量的影响力数值;上述计算
Figure BDA0002468142060000107
Figure BDA0002468142060000111
为采用exp运算累加第二文本向量中所有的词语,并作为
Figure BDA0002468142060000112
计算中的分母,而
Figure BDA0002468142060000113
为采用exp运算集成第二文本向量中与第一文本向量词义相关的影响关键词
Figure BDA0002468142060000114
并作为
Figure BDA0002468142060000115
计算中的分子,从而得出第一文本向量对于第二文本向量的影响力数值
Figure BDA0002468142060000116
同理,求得第二文本向量对于第一文本向量的影响力数值
Figure BDA0002468142060000117
例如:T=10,t=7,则采用exp计算得到的
Figure BDA0002468142060000118
为0.763,即第二文本向量中具有7个与第一文本向量词义相关的影响关键词
Figure BDA0002468142060000119
(1)通过预设于所述首处理层中的注意力表征算法,集成各个第一文本向量和第二文本向量的注意力数值和其对应的关键词,以分别得到各个第一文本向量和第二文本向量对应的第一注意力表征和第二注意力表征;
所述注意力表征算法为:
Figure BDA00024681420600001110
Figure BDA00024681420600001111
其中,QS为第一注意力表征,RS为第二注意力表征,上述的
Figure BDA00024681420600001112
Figure BDA00024681420600001113
分别为第一文本向量与第二文本向量的注意力数值,上述的
Figure BDA00024681420600001114
Figure BDA00024681420600001115
分别为第一文本向量与第二文本向量中的关键词。
假设注意力数值
Figure BDA00024681420600001116
Figure BDA00024681420600001117
其中[1,t]∈关键词,通过上述的第一注意力表征QS与第二注意力表征RS,在AI面试系统中进行第一文本向量与第二文本向量的注意力表达。该方案能够提升第一文本向量和第二文本向量的精度。
进一步的,所述根据所述关键词,通过所述表征模型确定所述第一文本向量和第二文本向量的影响力表征,具体包括:
步骤S3033:根据所述关键词,通过所述表征模型的影响力算法,分别计算第一文本向量对第二文本向量的第一影响力数值,和第二文本向量对第一文本向量的第二影响力数值;
步骤S3034:根据至少一组所述第一影响力数值与关键词的值的乘积累加确定第一文本向量对应的第一影响力表征,和根据至少一组所述第二影响力数值与关键词的值的乘积累加确定第二文本向量对应的第二影响力表征。
(1)所述表征模型包括尾处理层,通过预设于尾处理层中的表征集成算法,对各个第一文本向量与第二文本向量的注意力表征与影响力表征进行对应的集成,从而得出各个第一文本向量与第二文本向量的总表征;
(2)通过预设于尾处理层中的影响概率算法,对各个所述总表征进行影响概率计算,从而得出各个总表征对应的影响概率数据。
所述影响力表征算法为:
Figure BDA00024681420600001118
Figure BDA0002468142060000121
其中,QC为第一影响力表征,RC为第二影响力表征,上述的
Figure BDA0002468142060000122
Figure BDA0002468142060000123
分别为第一文本向量与第二文本向量的影响力数值,上述的
Figure BDA0002468142060000124
Figure BDA0002468142060000125
分别为第一文本向量与第二文本向量相互之间的影响关键词。
假设影响力数值
Figure BDA0002468142060000126
则第一影响力表征
Figure BDA0002468142060000127
其中,[1,t]∈第一文本向量中与第二文本向量相关的影响关键词;通过获得影响力表征,便于后续根据表征从影响概率中确定出最具备影响力的候选人文本向量,再回溯至表单形式的讨论文本数据中对标出最具备影响力的候选人。该方案能够提升第一文本向量和第二文本向量的精度。
进一步的,所述根据所述关键词,通过所述表征模型确定所述第一文本向量和第二文本向量的注意力表征和影响力表征之前,该方法还包括:
步骤S302:分别将所述第一文本向量和第二文本向量从矢量转换为标量,并输入到表征模型。并具体包括:
步骤S3021:根据关键词对应的所述二维向量与所述语句特征向量拟合,以获取拟合量。
根据第一文本向量中任一关键词数值和第一文本向量拟合,或第二文本向量中任一关键词数值和第二文本向量拟合产生的拟合量,拟合量反映了关键词与之所对应的文本向量之间的关系。
步骤S3022:根据关键词对应的学习权重和偏移量调整所述拟合量。
不同单词具有不同的权重,并且在计算关键词与对应文本向量的拟合量时,还包括偏移量,通过权重和偏移量对拟合量进行调整能够准确体现关键词与对应文本向量之间的关系。
步骤S3023:对所述拟合量进行并行转换,以将关键词对应的所述二维向量转换为标量。。
首先将需要进行注意力计算的文本向量进行拟合,得到拟合量,再将权重值与偏差值添加于拟合量的各个词中以调整拟合量,之后通过并行转换得到标量,具体的,上述并行转换的计算算法为:
Figure BDA0002468142060000128
上述
Figure BDA0002468142060000129
为标量形式的文本标量δ(hQ)中至少一项的关键词,例如:文本标量
Figure BDA00024681420600001210
其中具有的关键词
Figure BDA00024681420600001211
即为标量形式;上述的
Figure BDA00024681420600001212
为拟合文本向量hO与其中的关键词
Figure BDA00024681420600001213
的拟合量,上述T为拟合范围(即如上述
Figure BDA00024681420600001214
中的T),向拟合量中的各词添加权重值WS,在通过比对文本向量hQ与话题而确定出文本向量hQ中的非关键词时,降低非关键词对应的权重值WS,反之增加关键词的权重值WS,当关键词与非关键词存在语义联系时,求两者权重值WS的平均数,若高于预给定的原WS,则两次均为关键词;
上述偏差值bS,用于更好的构建上述拟合量,因为仅仅使用
Figure BDA00024681420600001215
Figure BDA0002468142060000131
这一项可能并不能很好的拟合数据,所以需要引入偏差值bS,将关键词与非关键词进行预设定的等级划分(分别为1/2/3级关键词和1/2/3级非关键词),当加权拟合量
Figure BDA0002468142060000132
中的非关键词被表征模型首处理层视为1/2/3级非关键词时,其对应的权重值为:1级非关键词权重值WS-bS,2级权重值WS-2bS,3级权重值WS-3bS,当加权拟合量
Figure BDA0002468142060000133
中的关键词被表征模型首处理层视为1/2/3级关键词时,其对应的权重值为:1级关键词权重值WS+bS,2级权重值WS+2bS,3级权重值WS+3bS。最终实现将二维向量转化为标量。
通过表征模型首处理层中的并行转换,将文本向量转换为文本标量,进而引入权重与偏差的处理,提升注意力算法对于候选人发出的文本向量的注意力计算的精准度与可靠性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图7,作为对上述图1所示方法的实现,本申请提供了一种用于AI智能面试的识别的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例所述的用于AI智能面试的识别的装置包括:获取模块100、向量转化模块200、概率计算模块300、选择模块400。其中:
获取模块,用于获取讨论文本数据,所述讨论文本数据通过至少两名面试候选人讨论预设话题产生;
向量转化模块,用于通过编码器对所述讨论文本数据逐句进行向量化处理,得到至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,其中所述第一文本向量和第二文本向量所对应的讨论文本数据通过前后关联的对话产生;
概率计算模块,用于将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据;及
选择模块,用于将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的面试候选人作为智能面试的识别结果。
该方案能够准确识别对面试谈话影响概率高的面试候选人,作为智能面试的结果。
进一步的,所述获取模块具体包括:识别子模块,标注子模块,关联子模块,记录子模块,其中:
识别子模块,用于识别候选人发出的语音数据,所述语音数据包括候选人音色和候选人语句;
标注子模块,用于根据识别的所述候选人音色对候选人进行标注;
关联子模块,用于识别语音形式的候选人语句,转化为文本语句,并根据所述候选人音色将所述文本语句与候选人关联;
记录子模块,用于通过表单形式记录所述文本语句和相关联的候选人,作为所述讨论文本数据。
该方案能够高效区分面试候选人及其语音数据。
进一步的,所述向量转化模块,具体包括:分词子模块,向量化子模块,文本向量确定子模块,其中:
分词子模块,用于从所述讨论文本数据中识别出来自不同面试候选人,但存在关联的两两关联文本语句;
向量化子模块,用于对两两关联文本语句进行逐句的分词并编码,得到与两两关联文本语句一一对应的各个语句token串;
文本向量确定子模块,用于通过双向LSTM网络分别对所述语句token串进行向量化,得到前向特征向量和反向特征向量。
向量拼接子模块,用于将同一文本语句的前向特征向量和反向特征向量进行拼接,得到语句特征向量。
向量对应子模块,用于将两两关联文本语句在先的文本语句对应的语句特征向量作为第一文本向量;将对第一文本向量进行回应的语句特征向量作为第二文本向量。
该方案能够综合上下文对单词的影响,准确输出第一文本向量和第二文本向量。
进一步的,所述概率计算模块,具体包括:关键词识别子模块,表征子模块,集成子模块,概率获取子模块:
关键词识别子模块,用于根据预设的关键词库识别出各个第一文本向量和第二文本向量中与话题相关的至少一项关键词;
转换子模块,用于将语句特征向量中关键词对应的二维向量转换为标量。
表征子模块,用于根据所述关键词,通过所述表征模型确定所述第一文本向量的第一注意力表征和第一影响力表征,确定所述第二文本向量的第二注意力表征和第二影响力表征。
集成子模块,用于根据所述第一注意力表征和所述第一影响力表征集成,以确定第一文本向量的总表征,根据所述第二注意力表征和所述第二影响力表征集成,以确定第二文本向量的总表征;
概率获取子模块,用于根据所述第一文本向量的总表征和第二文本向量的总表征,通过所述表征模型的影响概率算法,确定相应的影响概率。
该方案能够通过影响力表征和注意力表征,提升影响概率计算的准确性。
进一步的,所述表征子模块,还进一步用于:
根据所述关键词,通过所述表征模型中的注意力表征算法分别计算第一文本向量的第一注意力数值和第二文本向量的第二注意力数值;及
根据至少一组所述第一注意力数值与关键词的值的乘积累加确定第一文本向量对应的第一注意力表征,和根据至少一组素数第二注意力数值与关键词的值的乘积累加确定第二文本向量对应的第二注意力表征。
该方案能够提升注意力表征识别的准确性。
进一步的,所述表征子模块,还进一步用于:
根据所述关键词,通过所述表征模型的影响力算法,分别计算第一文本向量对第二文本向量的第一影响力数值,和第二文本向量对第一文本向量的第二影响力数值;及
根据至少一组所述第一影响力数值与关键词的值的乘积累加确定第一文本向量对应的第一影响力表征,和根据至少一组所述第二影响力数值与关键词的值的乘积累加确定第二文本向量对应的第二影响力表征。
该方案能够提升影响力表征识别的准确性。
进一步的,所述转换子模块还进一步包括:
拟合子模块:用于根据关键词对应的所述二维向量与所述语句特征向量拟合,以获取拟合量;。
加权子模块:用于根据关键词对应的学习权重和偏移量调整所述拟合量。
并行转换子模块:用于对所述拟合量进行并行转换,以将关键词对应的所述二维向量转换为标量。
该方案能够提升注意力算法对于候选人发出的文本向量的注意力计算的精准度与可靠性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备11包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如用于AI智能面试的识别方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述用于AI智能面试的识别方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有用于AI智能面试的识别方法程序,所述用于AI智能面试的识别方法程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的用于AI智能面试的识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种用于AI智能面试的识别的方法,其特征在于,包括下述步骤:
获取讨论文本数据,所述讨论文本数据通过至少两名面试候选人讨论预设话题产生;
通过编码器对所述讨论文本数据逐句进行向量化处理,得到至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,其中所述第一文本向量和第二文本向量所对应的讨论文本数据通过前后关联的对话产生;
将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据;
将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的候选人作为智能面试的识别结果。
2.根据权利要求1所述的用于AI智能面试的识别的方法,其特征在于,所述获取讨论文本数据的步骤具体包括:
识别候选人发出的语音数据,所述语音数据包括候选人音色和候选人语句;
根据识别的所述候选人音色对候选人进行标注;
识别语音形式的候选人语句,转化为文本语句,并根据所述候选人音色将所述文本语句与候选人关联;
通过表单形式记录所述文本语句和相关联的候选人,作为所述讨论文本数据。
3.根据权利要求2所述的用于AI智能面试的识别的方法,其特征在于,所述通过编码器对所述讨论文本数据逐句进行向量化处理,得到至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,具体包括:
从所述讨论文本数据中识别出来自不同面试候选人,但存在关联的两两关联文本语句;
对两两关联文本语句进行逐句的分词并编码,得到与两两关联文本语句一一对应的各个语句token串;通过双向LSTM网络分别对所述语句token串进行向量化,得到前向特征向量和反向特征向量;
将同一文本语句的前向特征向量和反向特征向量进行拼接,得到语句特征向量;
将两两关联文本语句在先的文本语句对应的语句特征向量作为第一文本向量;将对第一文本向量进行回应的语句特征向量作为第二文本向量。
4.根据权利要求3所述的用于AI智能面试的识别的方法,其特征在于,所述将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据具体包括:
根据预设的关键词库识别出各个第一文本向量和第二文本向量中与所述话题相关的至少一项关键词;
将语句特征向量中关键词对应的二维向量转换为标量;
根据所述关键词,通过所述表征模型确定所述第一文本向量的第一注意力表征和第一影响力表征,确定所述第二文本向量的第二注意力表征和第二影响力表征;
根据所述第一注意力表征和所述第一影响力表征集成,以确定第一文本向量的总表征,根据所述第二注意力表征和所述第二影响力表征集成,以确定第二文本向量的总表征;
根据所述第一文本向量的总表征和第二文本向量的总表征,通过所述表征模型的影响概率算法,确定相应的影响概率。
5.根据权利要求4所述的用于AI智能面试的识别的方法,其特征在于,所述根据所述关键词,通过所述表征模型确定所述第一文本向量的第一注意力表征和第二文本向量的第二注意力表征,具体包括:
根据所述关键词,通过所述表征模型中的注意力表征算法分别计算第一文本向量的第一注意力数值和第二文本向量的第二注意力数值;
根据至少一组所述第一注意力数值与关键词的值的乘积累加确定第一文本向量对应的第一注意力表征,和根据至少一组所述第二注意力数值与关键词的值的乘积累加确定第二文本向量对应的第二注意力表征。
6.根据权利要求4所述的用于AI智能面试的识别的方法,其特征在于,所述根据所述关键词,通过所述表征模型确定所述第一文本向量的第一影响力表征和第二文本向量的第二影响力表征,具体包括:
根据所述关键词,通过所述表征模型的影响力算法,分别计算第一文本向量对第二文本向量的第一影响力数值,和第二文本向量对第一文本向量的第二影响力数值;
根据至少一组所述第一影响力数值与关键词的值的乘积累加确定第一文本向量对应的第一影响力表征,和根据至少一组所述第二影响力数值与关键词的值的乘积累加确定第二文本向量对应的第二影响力表征。
7.根据权利要求4所述的用于AI智能面试的识别的方法,其特征在于,所述将语句特征向量中关键词对应的二维向量转换为标量;具体包括:
根据关键词对应的所述二维向量与所述语句特征向量拟合,以获取拟合量;
根据关键词对应的学习权重和偏移量调整所述拟合量;
对所述拟合量进行并行转换,以将关键词对应的所述二维向量转换为标量。
8.一种用于AI智能面试的识别的装置,其特征在于,包括:
获取模块,用于获取讨论文本数据,所述讨论文本数据通过至少两名候选人讨论预设话题产生;
向量转化模块,用于通过编码器对所述讨论文本数据逐句进行向量化处理,得到至少一组第一文本向量以及与所述第一文本向量相对应的第二文本向量,其中所述第一文本向量和第二文本向量所对应的讨论文本数据通过前后关联的对话产生;
概率计算模块,用于将至少一组所述第一文本向量和第二文本向量导入至预设的表征模型中进行处理,以获得所述若干第一文本向量与第二文本向量的影响概率数据;及
选择模块,用于将各个所述影响概率数据按照由高到低的顺序进行排序,并返回预设数量排序在前的影响概率数据对应的候选人作为智能面试的识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的用于AI智能面试的识别的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的用于AI智能面试的识别的方法的步骤。
CN202010340339.1A 2020-04-26 2020-04-26 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 Active CN111694936B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010340339.1A CN111694936B (zh) 2020-04-26 2020-04-26 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
PCT/CN2020/099520 WO2021217866A1 (zh) 2020-04-26 2020-06-30 用于ai智能面试的识别的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010340339.1A CN111694936B (zh) 2020-04-26 2020-04-26 用于ai智能面试的识别的方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111694936A true CN111694936A (zh) 2020-09-22
CN111694936B CN111694936B (zh) 2023-06-06

Family

ID=72476640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010340339.1A Active CN111694936B (zh) 2020-04-26 2020-04-26 用于ai智能面试的识别的方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111694936B (zh)
WO (1) WO2021217866A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783865A (zh) * 2021-09-03 2021-12-10 广州网才信息技术有限公司 在线面试方法及系统
CN112199481B (zh) * 2020-09-30 2023-06-16 中国人民大学 一种采用pcc对话模型的单用户个性化对话方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522084A (zh) * 2011-12-22 2012-06-27 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109978339A (zh) * 2019-02-27 2019-07-05 平安科技(深圳)有限公司 Ai面试模型训练方法、装置、计算机设备及存储介质
CN110399472A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 面试提问提示方法、装置、计算机设备及存储介质
US20190347600A1 (en) * 2018-05-10 2019-11-14 Baidu Online Network Technology (Beijing) Co., Ltd. Computer-assisted interview method and device based on artificial intelligence, and storage medium
CN110781312A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN111027305A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 基于文本匹配的智能面试方法、装置和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
CN110717021B (zh) * 2019-09-17 2023-08-29 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522084A (zh) * 2011-12-22 2012-06-27 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
US20190347600A1 (en) * 2018-05-10 2019-11-14 Baidu Online Network Technology (Beijing) Co., Ltd. Computer-assisted interview method and device based on artificial intelligence, and storage medium
CN109978339A (zh) * 2019-02-27 2019-07-05 平安科技(深圳)有限公司 Ai面试模型训练方法、装置、计算机设备及存储介质
CN110399472A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 面试提问提示方法、装置、计算机设备及存储介质
CN110781312A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN111027305A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 基于文本匹配的智能面试方法、装置和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199481B (zh) * 2020-09-30 2023-06-16 中国人民大学 一种采用pcc对话模型的单用户个性化对话方法和系统
CN113783865A (zh) * 2021-09-03 2021-12-10 广州网才信息技术有限公司 在线面试方法及系统

Also Published As

Publication number Publication date
WO2021217866A1 (zh) 2021-11-04
CN111694936B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN109359175B (zh) 电子装置、诉讼数据处理的方法及存储介质
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
WO2021204017A1 (zh) 文本意图识别方法、装置以及相关设备
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN113807103B (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN114007131A (zh) 视频监控方法、装置及相关设备
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN111694936B (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN115497465A (zh) 语音交互方法、装置、电子设备和存储介质
CN112699213A (zh) 语音意图识别方法、装置、计算机设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN115203372A (zh) 文本意图分类方法、装置、计算机设备及存储介质
CN112364136B (zh) 关键词生成方法、装置、设备及存储介质
CN1213398C (zh) 使用行为模型来进行无干扰的说话者验证的方法和系统
CN115827865A (zh) 一种融合多特征图注意力机制的不良文本分类方法及系统
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN114218356A (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
CN113469237A (zh) 用户意图识别方法、装置、电子设备及存储介质
CN116524926B (zh) 一种用于在移动端通过语音控制生成业务表单的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40031311

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant