CN110991785A

CN110991785A - 基于文本的指标提取方法、装置、计算机设备及存储介质

Info

Publication number: CN110991785A
Application number: CN201910963475.3A
Authority: CN
Inventors: 陈波; 冯冠翔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-04-10
Anticipated expiration: 2039-10-11
Also published as: WO2021068798A1; CN110991785B

Abstract

本发明公开了基于文本的指标提取方法、装置、计算机设备及存储介质，涉及语义解析技术领域。该方法先是基于上传端所上传的文本数据实时提取关键词集合，之后与历史关键词集合相比较得到考核指标差异信息，最后将关键词集合和考核指标差异信息发送至上传端以及时更新核心指标，实现了基于文本数据实时并快速的提取核心指标，完成核心指标提取后能与历史指标相比较得到本次指标更新内容。

Description

基于文本的指标提取方法、装置、计算机设备及存储介质

技术领域

本发明涉及语义解析技术领域，尤其涉及一种基于文本的指标提取方法、装置、计算机设备及存储介质。

背景技术

目前，IT领域(即信息技术领域)企业的人力资源岗位人员在获取绩效考核数据时，一般是人工统计员工的各指定考核指标的数据后，录入到数据表格后进行数据处理得到绩效考核数据。也即指定考核指标一般是人为根据经验设定，主观性较强，也可能与企业当前核心关注的指标相比具有差异性和滞后性，例如企业当前核心关注的指标一般是多次会议后决定并下发，人力资源岗位人员在接收到新指标后，需手动对数据表格中的字段进行修改，导致考核指标的更新效率低下。

发明内容

本发明实施例提供了一种基于文本的指标提取方法、装置、计算机设备及存储介质，旨在解决现有技术中企业的考核指标一般是人为根据经验设定，主观性较强，也可能与企业当前核心关注的指标相比具有差异性和滞后性，无法根据需求文本自动实时提取核心关注指标的问题。

第一方面，本发明实施例提供了一种基于文本的指标提取方法，其包括：

接收上传端所上传的文本数据，将所述文本数据进行关键词抽取，以得到关键词集合；

获取关键词集合中各关键词对应的词向量，将关键词集合中各关键词对应的词向量进行聚类，得到多个聚类群；

获取各聚类群中词向量分别对应的关键词，得到各聚类群对应的关键词聚类群，以组成当前时期关键词集合；

获取已存储的历史关键词集合，将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对，得到当前时期关键词集合与历史关键词集合之间关键词的差异值，由各差异值组成考核指标差异信息；以及

将所述关键词集合及所述考核指标差异信息发送至上传端。

第二方面，本发明实施例提供了一种基于文本的指标提取装置，其包括：

文本关键词抽取单元，用于接收上传端所上传的文本数据，将所述文本数据进行关键词抽取，以得到关键词集合；

关键词聚类单元，用于获取关键词集合中各关键词对应的词向量，将关键词集合中各关键词对应的词向量进行聚类，得到多个聚类群；

词向量还原单元，用于获取各聚类群中词向量分别对应的关键词，得到各聚类群对应的关键词聚类群，以组成当前时期关键词集合；

关键词比对单元，用于获取已存储的历史关键词集合，将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对，得到当前时期关键词集合与历史关键词集合之间关键词的差异值，由各差异值组成考核指标差异信息；以及

信息发送单元，用于将所述关键词集合及所述考核指标差异信息发送至上传端。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于文本的指标提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于文本的指标提取方法。

本发明实施例提供了一种基于文本的指标提取方法、装置、计算机设备及存储介质，先是基于上传端所上传的文本数据实时提取关键词集合，之后与历史关键词集合相比较得到考核指标差异信息，最后将关键词集合和考核指标差异信息发送至上传端以及时更新核心指标，实现了基于文本数据实时并快速的提取核心指标，完成核心指标提取后能与历史指标相比较得到本次指标更新内容。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于文本的指标提取方法的应用场景示意图；

图2为本发明实施例提供的基于文本的指标提取方法的流程示意图；

图3为本发明实施例提供的基于文本的指标提取方法的子流程示意图；

图4为本发明实施例提供的基于文本的指标提取方法的另一子流程示意图；

图5为本发明实施例提供的基于文本的指标提取方法的另一子流程示意图；

图6为本发明实施例提供的基于文本的指标提取装置的示意性框图；

图7为本发明实施例提供的基于文本的指标提取装置的子单元示意性框图；

图8为本发明实施例提供的基于文本的指标提取装置的另一子单元示意性框图；

图9为本发明实施例提供的基于文本的指标提取装置的另一子单元示意性框图；

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于文本的指标提取方法的应用场景示意图；图2为本发明实施例提供的基于文本的指标提取方法的流程示意图，该基于文本的指标提取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S150。

S110、接收上传端所上传的文本数据，将所述文本数据进行关键词抽取，以得到关键词集合。

在本实施例中，为了更清楚的理解本申请的技术方案，对本申请中所涉及的终端进行详细介绍。其中，本申请是在服务器的角度描述技术方案。

一是上传端，用于向服务器上传企业本年度发展规划等文本数据。

二是服务器，用于接收上传端上传的文本数据等数据，通过NLP技术获取其中的关键词组成推荐考核指标集合，并推送至上传端，由上传端确认是否选定推荐考核指标集合作为最终考核指标。

通过服务器对上传端所上传的文本数据进行文本处理，可自动获取所关注的关键词，以作为考核指标的推荐指标。

在一实施例中，如图3所示，步骤S110包括：

S111、将所述文本数据通过基于概率统计分词模型进行分词，得到与所述文本数据对应的分词结果；

S112、通过词频-逆文本频率指数模型，抽取所述分词结果中位于预设的排名值之前的关键词，以组成关键词集合。

在本实施例中，基于概率统计分词模型进行分词过程如下：

例如，令C＝C1C2...Cm，C是待切分的汉字串，令W＝W1W2...Wn，W是切分的结果，Wa，Wb，……，Wk是C的所有可能的切分方案。那么，基于概率统计分词模型就是能够找到目的词串W，使得W满足： P(W|C)＝MAX(P(Wa|C)，P(Wb|C)...P(Wk|C))的分词模型，上述分词模型得到的词串W即估计概率为最大之词串。通过基于概率统计分词模型即可对所述文本数据进行分词，从而得到与所述文本数据对应的分词结果。

获取了与所述文本数据对应的分词结果后，再通过词频-逆文本频率指数模型(即TF-IDF模型，TF-IDF是TermFrequency–InverseDocumentFrequency 的简写)，抽取所述分词结果中位于预设的排名值之前的关键词以组成关键词集合。通过词频-逆文本频率指数模型能准确提取文本中的核心关键词，无需人工阅读后提取。

在一实施例中，步骤S112包括：

获取分词结果中每一分词i的词频，记为Tfi；

获取分词结果中每一分词i的逆文档频率，记为IDFi；

根据TFi*IDFi计算所述分词结果中每一分词i对应的词频-逆文本频率指数 TF-IDFi；

将分词结果中每一分词对应的词频-逆文本频率指数按降序排序，取排名位于预设的排名值之前的分词，以组成与所述文本对应的关键词集合。

在本实施例中，在计算每一分词i的逆文档频率IDFi时，需要一个语料库 (与分词过程中的字典类似)，用来模拟语言的使用环境；其中，逆文档频率 IDFi＝lg[语料库的文档总数/(包含该分词的文档数+1)]；如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。

TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词即是计算出文档的每个分词的TF-IDF值，然后按降序排列，取排在前N位的词作为文档的关键词列表。

由于文本数据一般是企业本年度发展规划的数据，当通过关键词抽取，即可获知企业当前年度的核心关注点。例如当年企业在IT价值贡献、IT用户满意度、IT内部过程、IT学习与革新四个维度设置了核心关注点，更具体的如IT价值贡献对应的关键词是日处理交易量数据条数、开发预算控制率；IT用户满意度对应的关键词是系统故障次数；IT内部过程对应的关键词是信息系统设计差错量、系统间数据差错率、按时交付系统比例；IT学习与革新应的参与培训次数。

S120、获取关键词集合中各关键词对应的词向量，将关键词集合中各关键词对应的词向量进行聚类，得到多个聚类群。

在本实施例中，为了将从文本数据中所抽取的关键词集合进行分类，此时可先将各关键词转化为词向量，具体是通过Word2Vec模型(Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型)获取各关键词对应的词向量。

在一实施例中，如图4所示，步骤S120包括：

S121、在关键词集合中各关键词对应的词向量中选取与预设的聚类簇数相同个数的词向量，将所选取的词向量作为每一簇的初始聚类中心；

S122、根据关键词集合中各关键词对应的词向量与各初始聚类中心的欧氏距离，将关键词集合中各关键词对应的词向量进行划分，得到初始聚类结果；

S123、根据初始聚类结果，获取每一簇的调整后聚类中心；

S124、根据调整后聚类中心，将关键词集合中各关键词对应的词向量根据与调整后聚类中心的欧氏距离进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类群。

在本实施例中，对关键词集合中各关键词对应的词向量进行聚类时采用 k-means算法，过程如下：

a)从n个关键词集合中各关键词对应的词向量中任意选取k个词向量，并作为k个簇的初始聚类中心；其中，关键词集合中各关键词对应的词向量的初始总个数为n，从其中任意选择k个词向量(k<n，k是用户指定的参数，即所期望的簇的个数，也即预设的聚类簇数)，将初始选择的k个词向量作为初始聚类中心。

b)分别计算剩下的词向量到k个簇初始聚类中心的欧氏距离，将剩下的待分类数据点分别划归到欧氏距离最近的簇，得到初始聚类结果；即是剩下的每一词向量选择距其距离最近的初始聚类中心，并与该初始聚类中心归为一类；这样就以初始选择的初始聚类中心将各词向量划分为k簇，每一簇数据都有一个初始聚类中心。

c)根据初始聚类结果，重新计算k个簇各自的聚类中心；具体计算方法是取每一簇中所有词向量的算术平均数对应的平均向量，选择一个距离平均向量的词向量作为新的聚类中心，重新选择该簇数据中更优的聚类中心。

d)将n个词向量按照新的聚类中心重新聚类；

e)重复d)步，直到聚类结果不再变化，得到与预设的聚类簇数对应的聚类群。

将文本数据所提取的关键词集合中关键词进行聚类(一般是聚类为4类，以对应IT价值贡献、IT用户满意度、IT内部过程、IT学习与革新四个维度) 后，得到聚类结果。通过这一聚类方式，有效将文本数据中的核心关键词进行分类，从而得到更具体维度的指标信息。

S130、获取各聚类群中词向量分别对应的关键词，得到各聚类群对应的关键词聚类群，以组成当前时期关键词集合。

在本实施例中，根据关键词集合中各关键词对应的词向量进行聚类后，即得到了根据词向量聚类的结果，此时为了还原各词向量对应的关键词，可将取各聚类群中词向量分别对应转化为关键词，得到各聚类群对应的关键词聚类群，以组成当前时期关键词集合。

在一实施例中，步骤S130包括：

将各聚类群中词向量分别根据已存储的关键词-词向量的映射关系，将各聚类群中词向量分别对应还原转化成关键词。

在本实施例中，由于在服务器中存储了海量的关键词-词向量的映射关系，故当将关键词集合中各关键词对应的词向量进行聚类后，每一关键词对应的词向量可以再次根据已存储的关键词-词向量的映射关系，将各聚类群中词向量分别对应还原转化成关键词。此时，每一关键词聚类群中均是以关键词来展示聚类结果，能更加直观的供用户查看。

S140、获取已存储的历史关键词集合，将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对，得到当前时期关键词集合与历史关键词集合之间关键词的差异值，由各差异值组成考核指标差异信息。

在本实施例中，当前时期关键词集合是根据文本数据提取得到的当前年度企业所需关注的核心考核指标，而历史关键词集合则是服务器中已存储的前N 年度企业所需关注的核心考核指标(其中N的取值为大于0的整数)，例如当 N＝1是表示的历史关键词集合则是服务器中已存储的上1年度企业所需关注的核心考核指标，将当前时期关键词集合与历史关键词集合进行比对，即可获知两者之间哪些关键词是相同的，哪些关键词是不同的。通过上述比较，即可自动获取当前时期关键词集合中与往年的历史数据相比较所发生的具体变化。

在一实施例中，如图5所示，步骤S140包括：

S141、获取已存储的历史关键词集合，并获取历史关键词集合对应包括的历史关键词子集；

S142、获取当前时期关键词集合对应包括的关键词聚类群；

S143、获取各关键词聚类群对应的历史关键词子集，将每一关键词聚类群所包括的关键词与对应的历史关键词子集所包括的关键词进行比对，得到与各关键词聚类群对应的差异值，以组成考核指标差异信息。

在本实施例中，一般历史历史关键词集合中也是按照4大维度划分关键词，也即历史关键词集合对应包括4个历史关键词子集；其中，每一历史关键词子集均包括对应的子集维度名称；例如有1子集维度名称为IT价值贡献。

当前时期关键词集合一般也是对应IT价值贡献、IT用户满意度、IT内部过程、IT学习与革新这四个维度的关键词聚类群。

例如当前时期关键词集合＝{日处理交易量数据条数、开发预算控制率|系统故障次数|信息系统设计差错量、系统间数据差错率、按时交付系统比例|参与培训次数}；其中，|为当前时期关键词集合中不同关键词聚类群之间的分隔符，一般是按照IT价值贡献、IT用户满意度、IT内部过程、IT学习与革新的顺序排列上述关键词，且不同维度之间的关键词通过|隔开。即4个关键词聚类群分别为{日处理交易量数据条数、开发预算控制率}(该关键词聚类群的维度名称是 IT价值贡献)、{系统故障次数}(该关键词聚类群的维度名称是IT用户满意度)、 {信息系统设计差错量、系统间数据差错率、按时交付系统比例}(该关键词聚类群的维度名称是IT内部过程)、{参与培训次数}(该关键词聚类群的维度名称是IT学习与革新)。

例如历史历史关键词集合＝{开发预算控制率|系统故障频率|信息系统设计差错量、系统间数据差错率、按时交付系统比例|参与培训次数}，则历史关键词集合对应包括的历史关键词子集分别为{开发预算控制率}(该子集维度名称是 IT价值贡献)、{系统故障频率}(该子集维度名称是IT用户满意度)、{信息系统设计差错量、系统间数据差错率}(该子集维度名称是IT内部过程)、{参与培训次数}(该子集维度名称是IT学习与革新)。

在IT价值贡献这一维度关键词聚类群对应的历史关键词子集的差异值为日处理交易量数据条数，在IT用户满意度这一维度关键词聚类群对应的历史关键词子集的差异值为0，在IT内部过程这一维度关键词聚类群对应的历史关键词子集的差异值为0，在IT学习与革新这一维度关键词聚类群对应的历史关键词子集的差异值为0，故与各关键词聚类群对应的差异值分别为日处理交易量数据条数、0、0、0，组成的考核指标差异信息为日处理交易量数据条数(0的取值可以舍弃)。可见，通过上述比对方式，能通过服务器自动根据文本数据获取核心指标的变化情况。

S150、将所述关键词集合及所述考核指标差异信息发送至上传端。

在本实施例中，当在服务器中获取了所示关键词集合及所述考核指标差异信息后，即反馈发送至上传端，以通知当前年度所关注的核心指标，及与上一年度的考核指标差异信息，一旦服务器接收到了文本数据就能及时更新考核指标，无需人工制定，提高了处理效率。

该方法实现了基于文本数据实时并快速的提取核心指标，完成核心指标提取后能与历史指标相比较得到本次指标更新内容。

本发明实施例还提供一种基于文本的指标提取装置，该基于文本的指标提取装置用于执行前述基于文本的指标提取方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的基于文本的指标提取装置的示意性框图。该基于文本的指标提取装置100可以配置于服务器中。

如图6所示，基于文本的指标提取装置100包括文本关键词抽取单元110、关键词聚类单元120、词向量还原单元130、关键词比对单元140、信息发送单元150。

文本关键词抽取单元110，用于接收上传端所上传的文本数据，将所述文本数据进行关键词抽取，以得到关键词集合。

在本实施例中，通过服务器对上传端所上传的文本数据进行文本处理，可自动获取所关注的关键词，以作为考核指标的推荐指标。

在一实施例中，如图7所示，文本关键词抽取单元110包括：

分词单元111，用于将所述文本数据通过基于概率统计分词模型进行分词，得到与所述文本数据对应的分词结果；

关键词提取单元112，用于通过词频-逆文本频率指数模型，抽取所述分词结果中位于预设的排名值之前的关键词，以组成关键词集合。

在本实施例中，基于概率统计分词模型进行分词过程如下：

例如，令C＝C1C2...Cm，C是待切分的汉字串，令W＝W1W2...Wn，W是切分的结果，Wa，Wb，……，Wk是C的所有可能的切分方案。那么，基于概率统计分词模型就是能够找到目的词串W，使得W满足：P(W|C)＝MAX(P(Wa|C)，P(Wb|C)...P(Wk|C))的分词模型，上述分词模型得到的词串W即估计概率为最大之词串。通过基于概率统计分词模型即可对所述文本数据进行分词，从而得到与所述文本数据对应的分词结果。

在一实施例中，关键词提取单元112包括：

词频获取单元，用于获取分词结果中每一分词i的词频，记为Tfi；

逆文档频率获取单元，用于获取分词结果中每一分词i的逆文档频率，记为 IDFi；

指数获取单元，用于根据TFi*IDFi计算所述分词结果中每一分词i对应的词频-逆文本频率指数TF-IDFi；

排序单元，用于将分词结果中每一分词对应的词频-逆文本频率指数按降序排序，取排名位于预设的排名值之前的分词，以组成与所述文本对应的关键词集合。

关键词聚类单元120，用于获取关键词集合中各关键词对应的词向量，将关键词集合中各关键词对应的词向量进行聚类，得到多个聚类群。

在一实施例中，如图8所示，关键词聚类单元120包括：

初始聚类中心选取单元121，用于在关键词集合中各关键词对应的词向量中选取与预设的聚类簇数相同个数的词向量，将所选取的词向量作为每一簇的初始聚类中心；

初始划分单元122，用于根据关键词集合中各关键词对应的词向量与各初始聚类中心的欧氏距离，将关键词集合中各关键词对应的词向量进行划分，得到初始聚类结果；

聚类中心调整单元123，用于根据初始聚类结果，获取每一簇的调整后聚类中心；

聚类调整单元124，用于根据调整后聚类中心，将关键词集合中各关键词对应的词向量根据与调整后聚类中心的欧氏距离进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类群。

在本实施例中，对关键词集合中各关键词对应的词向量进行聚类时采用 k-means算法，将文本数据所提取的关键词集合中关键词进行聚类(一般是聚类为4类，以对应IT价值贡献、IT用户满意度、IT内部过程、IT学习与革新四个维度)后，得到聚类结果。通过这一聚类方式，有效将文本数据中的核心关键词进行分类，从而得到更具体维度的指标信息。

词向量还原单元130，用于获取各聚类群中词向量分别对应的关键词，得到各聚类群对应的关键词聚类群，以组成当前时期关键词集合。

在一实施例中，词向量还原单元130还用于：

关键词比对单元140，用于获取已存储的历史关键词集合，将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对，得到当前时期关键词集合与历史关键词集合之间关键词的差异值，由各差异值组成考核指标差异信息。

在一实施例中，如图9所示，关键词比对单元140包括：

历史子集获取单元141，用于获取已存储的历史关键词集合，并获取历史关键词集合对应包括的历史关键词子集；

当前聚类群获取单元142，用于获取当前时期关键词集合对应包括的关键词聚类群；

集合数据比较单元143，用于获取各关键词聚类群对应的历史关键词子集，将每一关键词聚类群所包括的关键词与对应的历史关键词子集所包括的关键词进行比对，得到与各关键词聚类群对应的差异值，以组成考核指标差异信息。

信息发送单元150，用于将所述关键词集合及所述考核指标差异信息发送至上传端。

该装置实现了基于文本数据实时并快速的提取核心指标，完成核心指标提取后能与历史指标相比较得到本次指标更新内容。

上述基于文本的指标提取装置可以实现为计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于文本的指标提取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于文本的指标提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图10中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于文本的指标提取方法。

本领域技术人员可以理解，图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图10所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于文本的指标提取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于文本的指标提取方法，其特征在于，包括：

将所述关键词集合及所述考核指标差异信息发送至上传端。

2.根据权利要求1所述的基于文本的指标提取方法，其特征在于，所述接收上传端所上传的文本数据，将所述文本数据进行关键词抽取，以得到关键词集合，包括：

将所述文本数据通过基于概率统计分词模型进行分词，得到与所述文本数据对应的分词结果；

通过词频-逆文本频率指数模型，抽取所述分词结果中位于预设的排名值之前的关键词，以组成关键词集合。

3.根据权利要求2所述的基于文本的指标提取方法，其特征在于，所述通过词频-逆文本频率指数模型，抽取所述分词结果中位于预设的排名值之前的关键词，以组成关键词集合，包括：

获取分词结果中每一分词i的词频，记为Tfi；

获取分词结果中每一分词i的逆文档频率，记为IDFi；

根据TFi*IDFi计算所述分词结果中每一分词i对应的词频-逆文本频率指数TF-IDFi；

4.根据权利要求1所述的基于文本的指标提取方法，其特征在于，所述将关键词集合中各关键词对应的词向量进行聚类，得到多个聚类群，包括：

在关键词集合中各关键词对应的词向量中选取与预设的聚类簇数相同个数的词向量，将所选取的词向量作为每一簇的初始聚类中心；

根据关键词集合中各关键词对应的词向量与各初始聚类中心的欧氏距离，将关键词集合中各关键词对应的词向量进行划分，得到初始聚类结果；

根据初始聚类结果，获取每一簇的调整后聚类中心；

根据调整后聚类中心，将关键词集合中各关键词对应的词向量根据与调整后聚类中心的欧氏距离进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类群。

5.根据权利要求1所述的基于文本的指标提取方法，其特征在于，所述获取各聚类群中词向量分别对应的关键词，包括：

6.根据权利要求1所述的基于文本的指标提取方法，其特征在于，所述获取已存储的历史关键词集合，将当前时期关键词集合中每一关键词与历史关键词集合中每一关键词均进行比对，得到当前时期关键词集合与历史关键词集合之间关键词的差异值，由各差异值组成考核指标差异信息，包括：

获取已存储的历史关键词集合，并获取历史关键词集合对应包括的历史关键词子集；

获取当前时期关键词集合对应包括的关键词聚类群；

获取各关键词聚类群对应的历史关键词子集，将每一关键词聚类群所包括的关键词与对应的历史关键词子集所包括的关键词进行比对，得到与各关键词聚类群对应的差异值，以组成考核指标差异信息。

7.一种基于文本的指标提取装置，其特征在于，包括：

8.根据权利要求7所述的基于文本的指标提取装置，其特征在于，所述关键词比对单元，包括：

历史子集获取单元，用于获取已存储的历史关键词集合，并获取历史关键词集合对应包括的历史关键词子集；

当前聚类群获取单元，用于获取当前时期关键词集合对应包括的关键词聚类群；

集合数据比较单元，用于获取各关键词聚类群对应的历史关键词子集，将每一关键词聚类群所包括的关键词与对应的历史关键词子集所包括的关键词进行比对，得到与各关键词聚类群对应的差异值，以组成考核指标差异信息。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于文本的指标提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于文本的指标提取方法。