CN110866114B

CN110866114B - 对象行为的识别方法、装置及终端设备

Info

Publication number: CN110866114B
Application number: CN201910981827.8A
Authority: CN
Inventors: 陈巩; 羊茜; 王硕
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-05-26
Anticipated expiration: 2039-10-16
Also published as: CN110866114A; WO2021073434A1

Abstract

本申请适用于计算机技术领域，提供了一种对象行为的识别方法，包括：获取对象在第一历史时间段的第一描述文件和在第二历史时间段的第二描述文件；针对所述第一描述文件中每类所述第一属性描述文字，获取预设数量个第一关键词，将每个所述第一关键词转化成第一特征向量，对预设数量个所述第一特征向量求均值，得到每类所述第一属性描述文字对应的第一均值特征向量；将所述第一描述文件中多类所述第一属性描述文字对应的第一均值特征向量进行组合，生成第一历史特征矩阵；同理，生成第二描述文件的第二历史特征矩阵；将所述第一历史特征矩阵和所述第二历史特征矩阵组合后输入模型得到所述对象的行为识别结果。本申请提供了一种对象行为的识别方案。

Description

对象行为的识别方法、装置及终端设备

技术领域

本申请属于计算机技术领域，尤其涉及一种对象行为的识别方法、装置、终端设备及计算机可读存储介质。

背景技术

精确的行为识别具有挑战性，因为人类行为具有复杂性、高度多样化等特征。如何识别对象行为以完成对对象的评价，这种需求目前也非常普遍，特别是在人员招聘时显得尤为突出。

人员招聘是企业一项至关重要的活动，企业需要对新进人员进行评价以判定其是否满足岗位需求，因此，亟需一种对象行为的识别方案。

发明内容

本申请实施例提供了一种对象行为的识别方法、装置、终端设备及计算机可读存储介质，可以解决上述技术问题。

第一方面，本申请实施例提供了一种对象行为的识别方法，包括：

获取对象在第一历史时间段的第一描述文件和在第二历史时间段的第二描述文件；其中，所述第一描述文件包括多类第一属性描述文字，每类所述第一属性描述文字针对所述对象在所述第一历史时间段的一个属性进行描述；所述第二描述文件包括多类第二属性描述文字，每类所述第二属性描述文字针对所述对象在所述第二历史时间段的一个属性进行描述；

针对所述第一描述文件中每类所述第一属性描述文字，获取每类所述第一属性描述文字中预设数量个第一关键词，将每个所述第一关键词转化成第一特征向量，对预设数量个所述第一特征向量求均值，得到每类所述第一属性描述文字对应的第一均值特征向量；

针对所述第二描述文件中每类所述第二属性描述文字，获取每类所述第二属性描述文字中预设数量个第二关键词，将每个所述第二关键词转化成第二特征向量，对预设数量个所述第二特征向量求均值，得到每类所述第二属性描述文字对应的第二均值特征向量；

将所述第一描述文件中多类所述第一属性描述文字对应的第一均值特征向量进行组合，生成第一历史特征矩阵；

将所述第二描述文件中每类所述第二属性描述文字对应的第二均值特征向量进行组合，生成第二历史特征矩阵；

将所述第一历史特征矩阵和所述第二历史特征矩阵组合后输入模型得到所述对象的行为识别结果，其中，所述模型为使用多组数据通过机器学习训练得出的，所述多组数据中的每组数据包括第一历史时间段的第一历史特征矩阵样本，第二历史时间段的第二历史特征矩阵样本和行为标签，每种所述行为标签表征一种行为识别结果。

第二方面，本申请实施例提供了一种对象行为的识别装置，包括：

包括：文档获取模块、特征向量获取模块、矩阵生成模块和行为识别模块；

所述文档获取模块，用于：

所述特征向量获取模块，用于：

所述矩阵生成模块，用于：

所述行为识别模块，用于：

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行如第一方面所述的识别方法。

在本申请实施例中，利用机器学习的方式预先训练模型，基于对象两个不同时间段的描述文件，分别提取描述文件的特征矩阵，将两个特征矩阵组合后输入模型获得对象的行为识别结果，提供了一种对象行为的识别方案，一方面，该识别方案利用更多的资料对对象进行行为识别，增大了输入模型的信息量，提高了对象行为识别的精度，另一方面，该识别方案通过将描述文件中多类属性分别对应的特征向量进行组合形成描述文件对应的特征矩阵，提取了高质量的数据，也减少了噪音，在保证识别结果高精度的同时，也减少了数据处理量，减少了系统资源占用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的对象行为的识别方法所适用于的手机的结构示意图；

图2是本申请一实施例提供的对象行为的识别方法的流程示意图；

图3是本申请一实施例提供的对象行为的识别方法中步骤202的流程示意图；

图4是本申请一实施例提供的对象行为的识别方法中步骤203的流程示意图；

图5是本申请一实施例提供的对象行为的识别装置的结构示意图；

图6是本申请一实施例提供的对象行为的识别方法所适用于的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚，完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，所获得的所有其他实施例，都应当属于本申请保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的对象行为的识别方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、服务器或云端服务器等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、PDA、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(PublicLand Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

以所述终端设备为手机为例。图1示出的是与本申请实施例提供的手机的部分结构的框图。参考图1，手机包括：射频(Radio Frequency，RF)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真(wireless fidelity，WiFi)模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、以及短消息服务(Short Messaging Service，SMS)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)、引导装载程序(Boot Loader)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。可以理解的是，本申请实施例中，存储器120中存储有对象行为识别的程序。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机100的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160，扬声器161，传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块170，但是可以理解的是，其并不属于手机100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。可以理解的是，本申请实施例中，存储器120中存储有对象行为识别的程序，而处理器180可以用于调用存储器120中存储的对象行为识别的程序并执行，以实现本申请实施例的对象行为的识别方法。

手机100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机100还可以包括摄像头。可选地，摄像头在手机100的上的位置可以为前置的，也可以为后置的，还可以为内置的(在使用时可伸出机身)，本申请实施例对此不作限定。

可选地，手机100可以包括单摄像头、双摄像头或三摄像头等，本申请实施例对此不作限定。摄像头包括但不限于广角摄像头、长焦摄像头或深度摄像头等。

例如，手机100可以包括三摄像头，其中，一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。

可选地，当手机100包括多个摄像头时，这多个摄像头可以全部前置，或者全部后置，或者全部内置，或者至少部分前置，或者至少部分后置，或者至少部分内置等，本申请实施例对此不作限定。

另外，尽管未示出，手机100还可以包括蓝牙模块等，在此不再赘述。

图2示出了本申请实施例提供的一种对象行为的识别方法的实现流程图。所述识别方法应用于终端设备。作为示例而非限定，该方法可以应用于具有上述硬件结构的手机100中，以下实施例将以手机100为例，对本申请实施例提供的对象行为的识别方法进行说明。所述方法包括步骤S201至步骤S206。

S201，获取对象在第一历史时间段的第一描述文件和在第二历史时间段的第二描述文件。

在本申请实施例中，所述第一描述文件包括多类第一属性描述文字，每类所述第一属性描述文字针对所述对象在所述第一历史时间段的一个属性进行描述；所述第二描述文件包括多类第二属性描述文字，每类所述第二属性描述文字针对所述对象在所述第二历史时间段的一个属性进行描述。

其中，对象为待进行行为识别的对象，例如公司新进员工等。属性是与对象行为识别相关的属性。

可以理解的是，第一历史时间段和第二历史时间段可以在时间上具有连续性，也可以不在时间上具有连续性，两者用于表示两个不同的时间段。

第一描述文件和第二描述文件可以是用户通过终端设备的摄像头即时拍摄到的包括描述文件内容的图片；还可以是用户通过终端设备的扫描装置即时扫描到的包括描述文件的图片；还可以是原本已存储在所述终端设备中的文件；甚至可以是所述终端设备通过有线或无线网络从服务器(包括独立的服务器、云端服务器、分布式服务器和服务器集群等)或者其它终端设备处所获取到的文件等。

在本申请一种非限定性使用场景中，当用户想要直接进行对象行为识别时，通过点击终端设备特定的物理按键或者虚拟按键的方式启用终端设备的行为识别功能，在这种模式下，所述终端设备会对用户拍摄的第一描述文件以及第二描述文件自动按照步骤S202及步骤S206的过程进行处理，得到行为识别结果。

在本申请另一种非限定性使用场景中，当用户想要对已经存储的第一描述文件以及第二描述文件进行行为识别时，可以通过点击特定的物理按键或者虚拟按键的方式启用终端设备的行为识别功能，并选定第一描述文件以及第二描述文件，则所述终端设备会对第一描述文件以及第二描述文件自动按照步骤S202及步骤S206的过程进行处理，得到行为识别结果。此处需要说明的是，点击按键和选定描述文件的顺序可以互换，即也可以先选定描述文件，再打开终端设备的行为识别功能。

作为本申请实施例的一示例而非限定，当对象为公司新进员工时，第一历史时间段可以为员工在入公司之前的历史时间段；第二历史时间段可以为员工从入公司起至对对象进行行为识别的当下这个历史时间段，例如试用期等。

从终端设备的存储器中获取预先存储的或者用户(例如企业负责招聘的人员等)实时输入的新进员工入职简历，或者从网站爬取新进员工的历史求职简历等，作为第一描述文件。将新进员工入职公司之后的所有职业记录作为第二描述文件，例如针对试用期表现描述的记录文档。

第一描述文件和第二描述文件中包括针对对象的多个属性的描述文字；第一描述文件和第二描述文件中的属性包括但不限于工龄、晋升次数、项目经验、职业技能、和薪资涨幅等。

S202，针对所述第一描述文件中每类所述第一属性描述文字，获取每类所述第一属性描述文字中预设数量个第一关键词，将每个所述第一关键词转化成第一特征向量，对预设数量个所述第一特征向量求均值，得到每类所述第一属性描述文字对应的第一均值特征向量。

S203，针对所述第二描述文件中每类所述第二属性描述文字，获取每类所述第二属性描述文字中预设数量个第二关键词，将每个所述第二关键词转化成第二特征向量，对预设数量个所述第二特征向量求均值，得到每类所述第二属性描述文字对应的第二均值特征向量。

在本申请实施例中，针对第一描述文件中每类第一属性描述文字，获取每类第一属性描述文字中预设数量个第一关键词，将预设数量个第一关键词分别表达成第一特征向量，再对预设数量个第一特征向量求均值，得到每类第一属性描述文字对应的第一均值特征向量。

在本申请实施例中，预先建立关键词与特征向量的对应关系，对应关系的建立方法如下：

首先，通过网络爬虫技术爬取各种渠道发布的求职简历信息和员工评价信息整理成为文档集合。

然后，运用开源的分词工具，对每篇文档进行分词和词性标注，然后根据预设的停用词词典去除停用词，并且根据分词后的词语的词性，去掉介词、方位词和语气词等非特征词，得到关键词集合。

最后，利用开源的词向量训练工具Word2Vec(word to vector)，训练上述关键词集合，得到不同的关键词对应的特征向量，将关键词与特征向量的对应关系进行存储，存储于词向量数据库。示例性的，每个特征向量都具有相同的维度，利用N维(N为正整数)的词向量，每个词向量的数值均在0至1，或-1至1之间。

通过上述方法建立好了关键词与特征向量的对应关系。通过查找对应关系，就可以获取到第一关键词对应的第一特征向量，从而将第一关键词转化成第一特征向量；同理，获取到第二关键词对应的第二特征向量，从而将第二关键词转化成第二特征向量。

将F个(F为正整数)第一关键词表达成F个1×N维(N为正整数)的第一特征向量，再对这F个1×N维的第一特征向量求均值，得到每类第一属性描述文字对应的1×N维第一均值特征向量。

作为一非限制性示例，针对职业经历这一属性，预设数量F为3，职业经历对应的3个第一特征向量依次为(1，0，0)，(1，1，0)和(0，0，1)，此时第一均值特征向量为((1+1+0)/3，(0+1+0)/3，(0+0+1)/3)＝(0.6667，0.3333，0.3333)。

将第一描述文件中的每类第一属性描述文字表达成第一均值特征向量，一方面，将数据处理成可由机器处理的数据，使得本申请能够实施；另一方面，获取每类第一属性描述文字中预设数量个第一关键词，基于预设数量个第一特征向量得到每类第一属性描述文字的特征向量，通过过滤一些噪音，保证结果精度的同时，也适当的减少了数据量，提高了处理效率，减少了系统资源占用，降低了算力成本。

针对第二描述文件中每类第二属性描述文字，也进行与第一属性描述文字相同的过程，以得到每类第二属性描述文字对应的第二均值特征向量。此处不再赘述，请参见上述。

需要说明的是，预设数量为经验值，可以根据实际需要进行选择设置，本申请实施例对此不予具体限制。

还需要说明的是，虽然步骤S202和步骤S203在描述上有前后之分，标号也有大小之分，但是描述上的前后之分和标号的大小之分都不代表具体限制了步骤的先后时序关系。在本申请实施例中，步骤S202可以在步骤S203之前执行，还可以在步骤S203之后执行，还可以与步骤S203同时执行，本申请不具体限定步骤S202和S203之间的时序关系。

S204，将所述第一描述文件中多类所述第一属性描述文字对应的第一均值特征向量进行组合，生成第一历史特征矩阵。

通过执行步骤S202，得到了每类第一属性描述文字对应的第一均值特征向量，在步骤S204中，将第一描述文件中多类第一属性描述文字对应的第一均值特征向量进行组合，从而生成第一历史特征矩阵。

其中，将多个第一均值特征向量进行组合，是将多个第一特征向量进行拼接，以生成第一历史特征矩阵。作为一非限制性示例，由M个(M为正整数)1×N维的第一均值特征向量进行拼接，生成M×N维的第一历史特征矩阵。

本申请实施例中，通过步骤S202和步骤S204，将第一描述文件表达成了第一历史特征矩阵。

S205，将所述第二描述文件中每类所述第二属性描述文字对应的第二均值特征向量进行组合，生成第二历史特征矩阵。

通过执行步骤S203，得到了每类第二属性描述文字对应的第二均值特征向量，在步骤S205中，将第二描述文件中多类第二属性描述文字对应的第二均值特征向量进行组合，从而生成第二历史特征矩阵。

其中，将多个第二均值特征向量进行组合，是将多个第二特征向量进行拼接，以生成第二历史特征矩阵。作为一非限制性示例，由M个1×N维的第二均值特征向量进行拼接，生成M×N维的第二历史特征矩阵。

本申请实施例中，通过步骤S203和步骤S205，将第二描述文件表达成了第二历史特征矩阵。

需要说明的是，虽然步骤S202、步骤S203、步骤S204和步骤S205在描述上有前后之分，标号也有大小之分，但是描述上的前后之分和标号的大小之分都不代表具体限制了四个步骤的先后时序关系。在本申请实施例中，步骤S204可以在步骤S205之前执行，还可以在步骤S205之后执行，还可以与步骤S205同时执行；步骤S204可以在步骤S203之后执行，还可以在步骤S203之前执行，还可以与步骤S203同时执行。本申请限定步骤S204在步骤S202之后执行，步骤S205在步骤S203之后执行，并不具体限定步骤S204和步骤S205之间的时序关系，也不具体限定步骤S202与步骤S203，步骤S202与步骤S205之间的时序关系，也不具体限定步骤S203与步骤S202，步骤S203与步骤S204之间的时序关系。

S206，将所述第一历史特征矩阵和所述第二历史特征矩阵组合后输入模型得到所述对象的行为识别结果。

在本申请实施例中，所述模型为使用多组数据通过机器学习训练得出的，所述多组数据中的每组数据包括第一历史时间段的第一历史特征矩阵样本，第二历史时间段的第二历史特征矩阵样本和行为标签，每种所述行为标签表征一种行为识别结果。

其中，模型可以为采用使用机器学习中的贝叶斯分类、决策树、随机森林、支持向量机、人工神经网络等分类方法构建的模型。

将第一历史特征矩阵HisTarVecI和第二历史特征矩阵HisTarVecII组合得到组合历史特征矩阵(HisVecI，HisVecII)，将组合历史特征矩阵(HisVecI，HisVecII)输入模型得到对象的行为识别结果。

需要说明的是，当第一历史特征矩阵和第一历史特征矩阵均为M×N维，组合得到的矩阵可以为2M×N维，也可以为M×2N维。

行为识别结果具体的形式跟训练模型时使用的行为标签相关，一种行为标签表征一种行为识别结果。若用T个(T为正整数)不同的行为标签标识T种不同的行为识别结果，那么模型输出的行为标签表征的结果，为对象的行为识别结果。

作为一非限制性示例，行为识别结果为用户对新进员工入职一段时间后结合入职简历和入职一段时间内的工作表现进行评价的评价结果。可以用任一一个数值来表示这个评价结果，作为行为识别结果，例如，用1至6这6个数字标签分别表示风险员工，不合格员工，合格员工，一般员工，优良员工和优秀员工。在该非限制性示例中，针入职简历和入职情况这两份历史数据，实现对新进人员的行为评价，提高了评价结果的准确度，帮助企业招聘人员对新进人员做出接受或者拒绝的正确决策。

应当理解的是，第一历史特征矩阵样本与第二历史特征矩阵样本的获取可参见前述对第一历史特征矩阵和第二历史特征矩阵的获取过程，两者思路一致。在本申请实施例中，采用多样的大量样本进行模型训练，以得到鲁棒性更好的模型。

本申请实施例利用机器学习的方式预先训练模型，基于对象两个不同时间段的描述文件，分别提取描述文件的特征矩阵，将两个特征矩阵组合后输入模型获得对象的行为识别结果，提供了一种对象行为的识别方案。一方面，该识别方案利用更多的资料对对象进行行为识别，增大了输入模型的信息量，提高了对象行为识别的精度；另一方面，该识别方案通过将描述文件中多类属性分别对应的特征向量进行组合形成描述文件对应的特征矩阵，提取了高质量的数据，也减少了噪音，在保证识别结果高精度的同时，也减少了数据处理量，减少了系统资源占用。

在上述图2所示实施例的基础上，本申请实施例提供了另一种对象的行为识别方法，本申请实施例在图2所示的实施例的基础上，对步骤S202中，获取每类所述第一属性描述文字中预设数量个第一关键词，进行了具体优化。如图3所示，获取每类所述第一属性描述文字中预设数量个第一关键词，包括步骤S301至步骤S303。

S301，对每类所述第一属性描述文字进行分词、去停用词和去非特征词处理，得到所述第一属性描述文字对应的第一关键词集合。

针对第一描述文档中每类第一属性描述文字，先进行分词和词性标注，然后根据预设的停用词词典去除停用词，并且根据分词后的词语的词性，去掉介词、方位词和语气词等非特征词，得到每类第一属性描述文字对应的第二关键词集合。

S302，计算所述第一关键词集合中每个第一关键词的相关度。

在本申请实施例中，所述相关度表征所述第一关键词与所述第一关键词集合中其他第一关键词之间的关联程度。

具体地，计算所述第一关键词集合中每个第一关键词的相关度，包括：针对所述第一关键词集合中每个第一关键词，分别获取所述第一关键词与所述第一关键词集合中其他第一关键词之间的相关度；对所述第一关键词与其他第一关键词之间的相关度求和，作为所述第一关键词集合中每个所述第一关键词的相关度。

其中，第一关键词集合中每个第一关键词的相关度，等于每个第一关键词与每一个其他第一关键词的相关度之和。

也就是说，第i个第一关键字与其他第一关键字的相关度RelKeyword_i的计算公式为：

其中，RelKeyword_i,j表示第i个第一关键字与第j个第一关键字的相关度，i和j取值为1至W，且不等于i，W为正整数，W表示第一关键词集合中第一关键词的总数量。

可选地，第i个第一关键字与第j个第一关键字的相关度RelKeyword_i,j的计算方式为：

其中，NumProSen_i为第i个第一关键词所在的第一属性描述文字的总句子数，NumProSen_j为第j个第一关键词所在的第一属性描述文字的总句子数，可以以逗号断句或者句号断句作为一句。显然的，由于第i个第一关键字与第j个第一关键字对应同一个第一属性描述文字，因而NumProSen_i等于NumProSen_j。

NumKeywordSen_i为第一属性描述文字的总句子数中出现第i个第一关键词的句子的句子次数。

NumKeywordSen_j为第一属性描述文字的总句子数中出现第j个第一关键词的句子的句子次数。

NumKeywordSen_i,j为第一属性描述文字的总句子数中同时出现第i个和第j个第一关键词的句子的句子次数。

S303，将所述第一关键词集合中相关度排名靠前的预设数量个第一关键词，作为每类所述第一属性描述文字对应的预设数量个第一关键词。

在本申请实施例中，将相关度排名靠前的预设数量个，例如N个，第一关键词，作为每类第一属性描述文字对应的N个第一关键词。提取出了文件中的关键信息，也减少了噪声数据，保证后续识别结果精度的同时，也减少了数据处理量，减少了系统资源占用，此外，提供了一种定量的筛选关键词的方式，使得本申请实施例易于实现。

可以理解的，基于上述图3所示实施例，同理，图2所示实施例的步骤S203中，获取每类所述第二属性描述文字中预设数量个第二关键词，如图4所示，包括步骤S401至步骤S403。

S401，对每类所述第二属性描述文字进行分词、去停用词和去非特征词处理，得到所述第二属性描述文字对应的第二关键词集合。

S402，计算所述第二关键词集合中每个第二关键词的相关度。

其中，所述相关度表征所述第二关键词与所述第二关键词集合中其他第二关键词之间的关联程度。

可选地，计算所述第二关键词集合中每个第二关键词的相关度，包括：

针对所述第二关键词集合中每个第二关键词，分别获取所述第二关键词与所述第二关键词集合中其他第二关键词之间的相关度；对所述第二关键词与其他第二关键词之间的相关度求和，作为所述第二关键词集合中每个所述第二关键词的相关度。

S403，将所述第二关键词集合中相关度排名靠前的预设数量个第二关键词，作为每类所述第二属性描述文字对应的预设数量个第二关键词。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的对象行为的识别方法，图5示出了本申请实施例提供的对象行为的识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图5，该装置包括：

文档获取模块51、特征向量获取模块52、矩阵生成模块53和行为识别模块54；

所述文档获取模块51，用于：

所述特征向量获取模块52，用于：

所述矩阵生成模块53，用于：

所述行为识别模块54，用于：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图6为本申请一实施例提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：至少一个处理器60(图6中仅示出一个处理器)、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种对象行为的识别方法，其特征在于，包括：

将所述第一历史特征矩阵和所述第二历史特征矩阵组合后输入模型得到所述对象的行为识别结果，其中，所述模型为使用多组数据通过机器学习训练得出的，所述多组数据中的每组数据包括第一历史时间段的第一历史特征矩阵样本，第二历史时间段的第二历史特征矩阵样本和行为标签，每种所述行为标签表征一种行为识别结果；

所述获取每类所述第一属性描述文字中预设数量个第一关键词，包括：

对每类所述第一属性描述文字进行分词、去停用词和去非特征词处理，得到所述第一属性描述文字对应的第一关键词集合；

计算所述第一关键词集合中每个第一关键词的相关度；所述相关度表征所述第一关键词与所述第一关键词集合中其他第一关键词之间的关联程度；

将所述第一关键词集合中相关度排名靠前的预设数量个第一关键词，作为每类所述第一属性描述文字对应的预设数量个第一关键词；

所述获取每类所述第二属性描述文字中预设数量个第二关键词，包括：

对每类所述第二属性描述文字进行分词、去停用词和去非特征词处理，得到所述第二属性描述文字对应的第二关键词集合；

计算所述第二关键词集合中每个第二关键词的相关度；所述相关度表征所述第二关键词与所述第二关键词集合中其他第二关键词之间的关联程度；

将所述第二关键词集合中相关度排名靠前的预设数量个第二关键词，作为每类所述第二属性描述文字对应的预设数量个第二关键词。

2.如权利要求1所述的识别方法，其特征在于，所述计算所述第一关键词集合中每个第一关键词的相关度，包括：

针对所述第一关键词集合中每个第一关键词，分别获取所述第一关键词与所述第一关键词集合中其他第一关键词之间的相关度；对所述第一关键词与其他第一关键词之间的相关度求和，作为所述第一关键词集合中每个所述第一关键词的相关度；

所述计算所述第二关键词集合中每个第二关键词的相关度，包括：

3.如权利要求1至2任一项所述的识别方法，其特征在于，所述将每个所述第一关键词转化成第一特征向量，包括：

从预先建立的关键词与特征向量的对应关系中，获取每个所述第一关键词对应的第一特征向量；

所述将每个所述第二关键词转化成第二特征向量，包括：

从预先建立的关键词与特征向量的对应关系中，获取每个所述第二关键词对应的第二特征向量。

4.如权利要求2所述的识别方法，其特征在于，通过以下公式获取第i个第一关键词与第j个第一关键词之间的相关度RelKeyword_i,j：

，

其中，NumProSen_i为第i个第一关键词所在的第一属性描述文字的总句子数；

NumProSen_j为第j个第一关键词所在的第一属性描述文字的总句子数，NumProSen_i等于NumProSen_j；

NumKeywordSen_i为所述第一属性描述文字的总句子数中出现第i个第一关键词的句子的句子次数；

NumKeywordSen_j为所述第一属性描述文字的总句子数中出现第j个第一关键词的句子的句子次数；

NumKeywordSen_i,j为所述第一属性描述文字的总句子数中同时出现第i个和第j个第一关键词的句子的句子次数。

5.如权利要求2所述的识别方法，其特征在于，通过以下公式获取第k个第二关键词与第l个第二关键词之间的相关度RelKeyword_k,l：

，

其中，NumProSen_k为第k个第二关键词所在的第二属性描述文字的总句子数；

NumProSen_l为第l个第二关键词所在的第二属性描述文字的总句子数，NumProSen_k等于NumProSen_l；

NumKeywordSen_k为所述第二属性描述文字的总句子数中出现第k个第二关键词的句子的句子次数；

NumKeywordSen_l为所述第二属性描述文字的总句子数中出现第l个第二关键词的句子的句子次数；

NumKeywordSen_k,l为所述第二属性描述文字的总句子数中同时出现第k个和第l个第二关键词的句子的句子次数。

6.一种对象行为的识别装置，其特征在于，包括：文档获取模块、特征向量获取模块、矩阵生成模块和行为识别模块；

所述文档获取模块，用于：

所述特征向量获取模块，用于：

所述矩阵生成模块，用于：

所述行为识别模块，用于：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的识别方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的识别方法。