CN113035193B

CN113035193B - 一种员工管理系统及应用

Info

Publication number: CN113035193B
Application number: CN202110223221.5A
Authority: CN
Inventors: 潘金仙
Original assignee: Shanghai Jiangxin Zhiyin Information Technology Co ltd
Current assignee: Shanghai Jiangxin Zhiyin Information Technology Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2024-04-12
Anticipated expiration: 2041-03-01
Also published as: CN113035193A

Abstract

本发明公开了一种员工管理系统及场景应用，公开了一种利用智能芯片组成的可携带卡片，可以方便部署的区域定标器，以及语音识别和分析云服务共同组成的员工管理系统，基于神经网络的声学模型，以高频出现的波形参数作为神经元的输入，并将与该输入相关语义的波形参数作为训练样本对声学模型进行训练；分析云模块根据其对采集信息的处理提取员工工作内容并进行评估。该系统可以在员工位于工作区域时自动启动录音设备，对语音进行降噪处理，同时区分员工和外界语音信息，在合适的时机将录音上传到云端，云端对语音数据进行识别和分析，刻画出员工的工作轨迹，并获取有效工作时间/导购次数，完成对员工的有效管理。

Description

一种员工管理系统及应用

技术领域

本发明涉及企业管理方法领域，尤其涉及一种员工管理系统及应用。

背景技术

随着科学技术的发展和社会水平的不断进步，电脑已经成为人们生活、以及企业工作中必不可少的一部分，在企业中，大多使用的是传统的PC作为员工办公的载体，但是传统的PC只要一离开电脑就无法再使用电脑和利用电脑上的数据，这就给员工的办公带来了一些不便，而且分散的PC也不利于企业的管理。

为解决这个问题，现有技术一般采用把数据存在云服务商的服务器上，这种公有云方案是一个巨大的进步，数据存在云服务商的服务器中，可以通过后台运输进行数据分析处理。同时，配套以智能的管理系统评估系统，可以对员工的工作情况进行集中管理及考核评估。

发明内容

本发明的技术方案是：本系统由智能芯片组成的可携带卡片、自带电池无需外接电源的小型区域定标器，以及基于人工智能技术的语音识别和分析云组成。

该系统包括下面三个主要组成部分：

自带电池的小型区域定标器

该定标器通过纽扣电池供电，使用蓝牙，或者433MHz无线协议定时发送定标信号，有限范围在1-10M之间，可定期更换。

可携带的卡片

卡片由智能声音处理芯片(即芯片)、双拾音器(即采集器)组成的录音及音频系统，以及低功耗的4G模块,蓝牙/433MHZ无线收发组成。

卡片使用可充电的电池供电，具有蓝牙或者433MHz无线收发的芯片，定时检测小型区域定标器发射的定标信号，如发现自身处于有效的工作区域，则启动录音设备，开始检测录音，为节省电量，定标信号每秒发射1-2次，可携带卡片每秒检测1-2次定标信号。

在卡片的顶部两端以及底部两端分别安装四个拾音器，连接智能声音处理芯片，智能声音处理芯片包括声音频谱分析模块、无线数据发送模块、数据存储模块，其支持传统数字信号处理时的双声道立体声回声消除、声源定位和波束成形等。波束成形单元利用设备顶部两个麦克风组成阵列，基于波束成形算法，独立拾取员工语音，抑制阵列外语音增益，获取到员工音源；声源定位单元，设备底部两个麦克风混音拾取环境中的语音，同前述的员工音源再次进行相互的降噪处理，进一步降低经过波束成形算法处理过的员工音源中残留的环境语音，并在环境语音中抑制掉员工语音，实现声源降噪分离；

语音识别的分析云模块

分段的录音信息上传到语音识别和分析云之后，使用多种一体化建模的智能模型进行语音识别。

分析云模块的搭建步骤包括根据中文拼写规则，将汉字根据声母与韵母的组合关系进行分类编码。例如，汉字声母包括23个，依次根据a、b、c.....u、v、w进行编号。汉字韵母包括30个，依次根据1、2、3.....28、29、30进行编号。

将每个汉字对应编号转化为one-hot向量输入神经网络模型，在训练神经网络之前，需要将基础词表输入神经网络。因此，在已有汉字作为索引的基础上，将包含该汉字的词归类为词表中独立的一个训练集输入到神经网络中。如果，确定一个词，那么这个词一定处于该词表中某一训练集中的某一位置。将该此表看做是一个n维向量，在该词对应所在的位置上记值为1，其他位置都是0，则基础词表的向量形式有下列表达：

上述的表征方法可以反映词之间的相似程度，即：

(w^hotel)^Tw^motel＝(w^hotel)^Tw^cat＝0；

因此，对于一个采集文本：X＝w₁,w₂…w_T；首先进行分类编码，转化为对应编号，根据编号对应的one-hot向量输入到神经网络。

根据正态分布条件，文本：X＝w₁,w₂…w_T的联合概率可以根据文本中每个词的条件概率获得：p(w_t|w₁,w₂,…w_t-1)。

向神经网络中输入一个词的one-hot向量，那么神经网络就可以拟合出一个由one-hot向量映射出的概率函数模型。在线性的映射层上，神经网络的概率函数是Y＝W^TX，one-hot向量将n个词向量从Embedding层中提取出来，如下：

在对神经网络进行训练过时，映射层的权值就可以看做是输出的这个词的向量表征。在此基础上，可以形成一个向前反馈的神经网络g，通过将Embedding层输出的词向量映射为一个长度为V的概率分布词向量，从而在理论上对每个输入的词做出预估：

p(w_t|w₁,w₂,…w_t-1)≈g(w_i,C(w_t-n+1),…C(w_t-1))；

基于上述预估，可以通过最小化一个带正则项的损失函数来调整神经网络：α为模型参数；

神经网络的建立及训练可以得到不断的自学习升级，上述的神经网络系统可以实现前期词库/词表的数据话问题。但是，中文识别的难度是远高于其他语种的，常见的问题，例如同音字词，混淆音字词都是极为常见的。最为困难的是不同方言的夹杂，或方言变化音。因此，在该神经网络的前后端还需要一个可以进行识别验证/纠偏的算法。

基于系统前期搭建在声母与韵母的组合关系分类编码的前提下，那么纠偏可以通过两个混淆词之间的最小操作数来计算。

例如，采集词作为起始状态，目的词作为终止状态，两个词对应的编码至少存在一部分共同段落。那么通过插入、删除、替换三个手段将采集词的编码转换为目的词编码，最短操作路径是可以求得的。

定义采集词A的编码长度为n，目标词B的编码长度为m。至少定义采集词A中第1到i个字符与目标词B中第1到j个字符是相同的，那么将定义采集词A转换为目标词B的最短操作路径是F(i，j)。

那么，则有

同样将该思路引入到神经网络中，一个采集词A的one-hot向量与目标词B的one-hot向量也应该存在一个最佳的替换路径，该最佳路径就是用于纠偏或者验证的最直接依据。将最短操作路径拟合到神经网络模型中，可以获得一个新的模型：

α为模型参数；

换一个角度思考，当神经网络已经通过一定学习后得到了采集词A与目标词B之间惯用替换的最短操作路径是F(i，j)，那么在神经网络可以通过反向方式来获得一个词的集合，该集合就包含了容易与采集词A混淆的一些词。

通过上述的系统建立可支持普通话、四川话和粤语等等方言的识别运算，将语音转化为文本之后，系统进行识别、纠偏、验证等，最后提取文本中的关键字/词，比如说您好、欢迎等等进行有效性判断。

关键字/词标签抽取子单元包括两个功能：

语句划分功能根据文本中含有的标点符号，把文本切分为语句段落。

语句语义结构分析功能用于对切分得到的各语句段落做语义结构分析，得到各语句段落的段落表达式和语义块。现有的语音识别分词方法都可以完成，通常根据段落格式或者“主、谓、宾......”判断等方式进行操作，不做赘述。对于关键字/词的提取，本方案中使用的方法也较为简单，本发明中根据段落中词频出现最高的词汇作为关键字/词。基于该方法，通常的步骤思路为：首先将一段话分为多个语句段落，每个语句段落再切分为词语并进行词性标注；然后，根据词语的词性类别归类词性类别组，在对神经网络进行训练时，将词性类别组中的词语输入神经网络模型中；最后，根据该段落中出现的词频前三排名的词汇作为关键字/词进行标签标识。

关键字/词极性分析子单元的功能：

采集装置首先检测到目标语句段落，在针对的语句段落情感极性分析操作时，获取目标语句段落中的关键字/词；其次，将这多个关键字/词输入神经网络模型，现有技术中神经模型对词汇的分类方法，通常根据词义分类，例如近义词和反义词的集合方式来实施，那么则可以通过对关键字/词的集合定义来标识相应词汇的极性。那么对应于关键字/词，系统也会得到多个向量集合，定义向量集合的情感极性，积极的情感极性为加分，消极的情感极性为减分，中性词不加分也不减分。最后，通过对语句段落的加减分情况来判断当前语句段落的情感极性。

由于电子设备可以通过在对目标语句段落进行情感极性分析时，先通过神经网络模型得到每个语句对应的多个关键字/词的向量集合，再通过神经网络模型得到每个语句对应的情感极性。在进行情感极性分析时，还可以结合该关键字/词在上下文中相邻词汇的极性进行验证，从而有利于提高情感极性分析的准确性，帮助用户迅速得到目标语句段落的情感极性分析结果。

系统还可以根据语音进行模糊匹配出相关的关键字/词，以单位时间内关键字/词的出现词频来确定对话场景。神经网络作为当前主流的模糊算法应用，神经网络可以根据一段对话中的关键字/词来确定该关键字/词所在的词汇集合，从而根据该词汇集合来确定通话所在场景。目前，现有技术中对这些大数据算法使用较为普遍，本发明也不具体限定此类的模糊算法。

神经网络的训练：

神经网络的声学模型的训练集包括私有训练集和共有训练集；私有训练集，每次对话场景中所述文本提取单元获取的词频超过预设数量的关键字/词的样本集合；共有训练集，多次对话场景中所述文本提取单元获取的关键字/词样本集合逻辑相与后形成的样本集合。

具体的，系统获取神经网络基于第k次迭代过程所使用的学习率对n个样本进行迭代后输出的n*m个标签值预测值；计算第一参数；其中，第i标签值的第一参数为n个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值；根据第一参数调整神经网络的第k+1次迭代过程所使用的学习率。由于基于标签值的误差的情况，对下一次迭代过程的学习率进行调整，从而可引导训练过程以高效的方式快速向全局最优的方向进行收敛。现有技术中神经网络的训练方法大多相同，差异也较小，主要依据参数个体的特性来调整。而本发明中神经网络的训练方法也可以用现有技术中其他的训练方法。

根据语音中的时间戳，结合当地时间，获得有效工作时间、服务人数、服务质量评价等有价值的信息，利用这些信息对员工进行有效管理和评估。

具体的评估方式包括在系统内设置一个积分单元，广义的来说就是通过对有效推荐、关键字/词设定积分，例如，员工的一次有效推荐设定为1个积分，包括积分系统，通过对有效推荐、关键字/词设定为0.5个积分。若在指定时间内积分累计达标，例如在5分钟内累计积分达到5分，则认为员工对于顾客进行了一次有效销售，通过该积分单元可以对员工的服务及工作内容进行考核。

本发明的优点是：该系统可以在员工位于工作区域时自动启动录音设备，对语音进行降噪处理，同时排除掉除员工说话外的其他语音信息，在合适的时机将录音上传到云端，云端对语音数据进行识别和分析，刻画出员工的工作轨迹，并获取有效工作时间/导购次数，完成对员工的有效管理。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为可携带卡片的结构及员工管理系统的示意图；

其中，1、可携带卡片；11、拾音器；12、智能声音处理芯片；13、无线数据传输模块；14、蓝牙/433MHZ无线收发模块；15、数据存储模块；2、定标器。

具体实施方式

实施例1：

本系统由智能芯片组成的可携带卡片、自带电池无需外接电源的小型区域定标器，以及基于人工智能技术的语音识别和分析云组成。

该系统包括下面三个主要组成部分：

自带电池的小型区域定标器

可携带的卡片

语音识别的分析云模块

将每个汉字对应编号转化为one-hot向量输入神经网络模型，在训练神经网络之前，需要将基础词表输入神经网络。因此，在已有汉字作为索引的基础上，将包含该汉字的词归类为词表中独立的一个训练集输入到神经网络中。如果，确定一个词，那么这个词一定处于该词表中某一训练集中的某一位置。将该此表看做是一个n维向量，在该词对应所在的位置上记值为1，其他位置都是0，则有下列表达：

上述的表征方法可以反映词之间的相似程度，即：

(w^hotel)^Tw^motel＝(w^hotel)^Tw^cat＝0；

p(w_t|w₁,w₂,…w_t-1)≈g(w_i,C(w_t-n+1),…C(w_t-1))；

基于上述预估，可以通过最小化一个带正则项的损失函数来调整神经网络的模型参数α；

那么，则有

关键字/词标签抽取子单元包括两个功能：

关键字/词极性分析子单元的功能：

神经网络的训练：

实施例2：

针对不特定人的语音，我们采用高频出现的波形元素作为神经元的输入，将相关联的语义作为训练样本，提升了语音识别率，通过使用基于普通话、四川话、广东话和上海话同样语义的不同语音材料对神经网络进行训练，在环境确定的情况下，可以支持多种方言识别出来文本之后，我们首先对文本进行词法分析，将句子转化为词的组合，同时进行词性的标注。

例如：1989年，王大年毕业于西子湖畔的某个不知名大学，可以分词并标注为：

1989年(时间)，王大年(人名)毕业(动词)于(介词)西子湖畔(位置形容词)的(介词)某个(特指定语)不知名(形容词)大学(名词)

在得到词的集合之后，分析云通过内置的关键词，基于语义实现对话观点分析，包括关键词标签抽取和极性分析(正面和负面)，通过对商场、美食、酒店、汽车、景点等等典型商业对话场景的大规模语料分析，获得对话的关键点、极性，以及关注点，从而实现对推销员服务评价的有效评估。

实施例2：

推销员佩戴了本发明中记载的可携带卡片1进行现场推销，现场则由定标器2进行信号覆盖，以下采用一段现场语音进行具体说明：

拾音器11对现场语音拾取如下：

推销员：“您好，欢迎光临，你好，想要咨询了解什么产品啊，就看一下。”

客户：“你们这个新闻系统怎么卖啊？”

推销员：“新闻系统要看你房间是多大面积的，然后还有那个看你什么型号？嗯，我能问一下你们家是多少年前吗？”

客户：“感悟。”

推销员：“150平方米是两层的，还是那个大平层啊？”

客户：“两次的两次的。”

推销员：“那你每一次的话，都是六七十平方吗？”

客户：“对。”

推销员：“我们这一台他是哪个适合80平方以下的？然后80平方一下的话。加那个安装的话。实在15000左右。”

客户：“哦，那他这个。你上次跟我讲讲一下这个原理吗？我们也不懂。”

推销员：“这样子的，我们这个呢，是由哪个两个风口。然后他一个是劲胜，一个是哪个回复。那我们下次一台机子，那他有两个过滤网，就是PM2.5的过滤网吗？然后她的正态自制的过滤我他的那个是达到98％以上。然后他这个是我们是三送三回，就是有三个进风口，三个哪个回风口？你家里应该现在还没有装修吧，要开始装了，团队下次带机子的话，我们就试试和那个装修之前，然后向我们这个主机的话，那我们一般是安装在哪个厨房？”

客户：“哦，你这个多少钱啊？”

推销员：“怎么个想想跟你说过了？大概如果是用我们那个松下的哪个牌管道的话？被我们生了个屁股，大概是15000左右。”

以上是一次完整的对话过程，当拾音器收集到上述音频后，将音频数据传输至可携带卡片1上的智能声音处理芯片12。智能声音处理芯片12进行回声消除、声源定位和波束形成等等以获得清晰的音频数据，并同时将音频数据存入数据存储模块15。智能声音处理芯片12通过无线数据传输模块13和蓝牙/433MHZ无线收发模块将音频数据分段发送至分析云模块。

分析云模块已设定了关键词及关键词极性，如下：

序号	关键词	极性
			1	新风系统	+
2	面积	+
			3	平方	+
4	进风	+
			5	回风	+
6	PV管	+

基于关键词设置有，识别结果如下：

客户：“你们这个新风系统怎么卖啊？”

推销员：“新风系统要看你房间是多大面积的，然后还有那个看你什么型号？嗯，我能问一下你们家是多少面积吗？”

客户：“150。”

推销员：“150平方米是两层的，还是那个大平层啊？”

客户：“两层的两层的。”

推销员：“那你每一层的话，都是六七十平方吗？”

客户：“对。”

推销员：“我们这一台他是哪个适合80平方以下的？然后80平方一下的话。加那个安装的话。是在15000左右。

推销员：“这样子的，我们这个呢，是由哪个两个风口？然后他一个是进风，一个是那个回风。那我们下次一台机子，那他有两个过滤网，就是PM2.5的过滤网吗？然后她的正态自制的过滤我他的那个是达到98％以上。然后他这个是我们是三送三回，就是有三个进风口，三个那个回风口？你家里应该现在还没有装修吧，要开始装了，团队下次带机子的话，我们就试试和那个装修之前，然后向我们这个主机的话，那我们一般是安装在那个厨房？

客户：“哦，你这个多少钱啊？”

推销员：“这个好像跟你说过了。大概如果是用我们那个松下的哪个牌管道的话？被我们升了PV管，大概是15000左右。”

根据上述过程可知，对于关键字/词的设置可以提高识别精度，对于语音或语调相近的字词根据模糊匹配算法获得一个样本集合，再根据词频进行缩小集合范围，从而获得的准确的关键字/词。

分析云模块基于神经网络模型的深度自学习，每次的拾取的音频信息都会出现新的词汇，这些词汇作为训练集样本输入到神经网络模型中，不断优化模型。

本系统可以应用在多个领域，因此对于不同场景下的样本采集会产生交集，例如：房产销售和汽车销售，在对话场景中会产生一些相同词汇，而这些通用领域的词汇作为关键字/词，对于神经网络模型而言可以作为共有训练集的样本进行模型自学习。与场景关联密切的词汇作为关键字/词时，对于神经网络模型而言可以作为私有训练集的样本进行模型自学习，可以提高识别精度和系统准确性。

本发明实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明的。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明的所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种员工管理系统，包括：便于员工随身携带的采集装置、根据采集信息实施数据处理的分析云模块；其特征在于：

采集装置，实施为集成了采集器及芯片的卡片；所述采集器包括布置于卡片上的拾音器；

信号源，包括形成定标信号范围覆盖的定标器，采集装置于定标信号覆盖范围内启动；

分析云模块，包括：基于声学模型的语音识别及文字转化单元、基于关键字/词有效性判断的文本提取单元、基于词库模糊匹配及语境判断的场景判断单元；

基于神经网络的声学模型，以高频出现的波形参数作为神经元的输入，并将与该输入相关语义的波形参数作为训练样本对声学模型进行训练；

管理评估模块，分析云模块根据其对采集信息的处理提取员工工作内容并进行评估；

分析云模块的搭建步骤包括根据中文拼写规则，将汉字根据声母与韵母的组合关系进行分类编码；将每个汉字对应编号转化为one-hot向量输入神经网络，训练获得神经网络模型：

定义采集词变换为目标词所需的最短操作路径是F(i，j)，并将其拟合到神经网络模型为：α为模型参数；

输入所述声学模型的训练集包括私有训练集和共有训练集；

私有训练集，每次对话场景中所述文本提取单元获取的词频超过预设数量的关键字/词的样本集合；

共有训练集，多次对话场景中所述文本提取单元获取的关键字/词样本集合逻辑相与后形成的样本集合。

2.根据权利要求1所述的一种员工管理系统，其特征在于：所述芯片包括声音频谱分析模块、无线数据发送模块、数据存储模块；

声音频谱分析模块，基于高斯滤波检测人声信号并去噪，根据语音时长对语音分段压缩；

所述声音频谱分析模块包括立体声回声消除单元、声源定位单元和波束成型单元；

无线数据发送模块，通过移动数据信号向所述分析云模块发送压缩后的语音数据；

数据存储模块，通过独立的存储空间保存压缩后的语音数据。

3.根据权利要求1所述的一种员工管理系统，其特征在于：所述文本提取单元包括关键字/词标签抽取子单元、关键字/词极性分析子单元；

关键字/词标签抽取子单元，对转化为文字的采集信息进行词性标注，并根据标注的词性类别形成各词性类别组；

关键字/词极性分析子单元，将词性类别组中的关键字/词根据情感倾向区分为正向极性和反向极性，结合语义对整体段落、语句的场景进行分析，获得句子本身的极性信息。

4.根据权利要求3所述的一种员工管理系统，其特征在于：场景判断单元，根据语音进行模糊匹配出相关的关键字/词，以单位时间内关键字/词的出现词频来确定对话场景。

5.根据权利要求1所述的一种员工管理系统，其特征在于：所述定标器每秒发射1～2次定标信号，发射的时长设定为0.5-1秒；所述芯片每秒检测1～2次标定信号，检测的时间段设置为0.5-1秒。

6.根据权利要求4所述的一种员工管理系统，其特征在于：所述管理评估模块包括用于确定对话结果的积分单元，通过对有效推荐、关键字/词设定积分，若在指定时间内积分累计达标，则认为员工对于顾客进行了一次有效销售。

7.一种根据权利要求1所述的员工管理系统的场景应用，其特征在于：在工作区域内通过设置定标器来搭建定标信号覆盖区域；员工随身携带所述卡片进行工作操作。