CN108182175A

CN108182175A - 一种文本质量指标获取方法及装置

Info

Publication number: CN108182175A
Application number: CN201711484243.7A
Authority: CN
Inventors: 王琪; 何东杰; 杨洁
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-19
Anticipated expiration: 2037-12-29
Also published as: TW201931164A; CN108182175B; TWI689825B; WO2019128124A1

Abstract

本发明公开了一种文本质量指标获取方法及装置，该方法包括获取文本的名称和关键词，生成文本数据源，使用预设的神经网络语言模型对文本数据源中的词条进行训练，得到多个词语的词向量，确定出多个语句的句子向量，对多个语句的句子向量进行去重，分为P类质量指标，保存P类质量指标的句子向量对应的内容，并基于随机森林确定P类质量指标的重要程度值，根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。通过将开源软件的语句量化为向量，得到质量指标集合，提高了后续排序的准确率，基于随机森林得到质量指标的重要程度值，使得获取的质量指标结果更加准确和细化。

Description

一种文本质量指标获取方法及装置

技术领域

本发明实施例涉及语句分析技术领域，尤其涉及一种文本质量指标获取方法及装置。

背景技术

开源软件的广泛应用已经成为一种趋势。金融行业出于技术成熟度和安全合规方面的考虑，对开源软件的应用保持审慎的态度。所以在使用一个开源软件之前应对软件进行完备科学的评估，通常通过建立评测模型对开源软件进行评测，基于模型评测诸如kakfa，rabbitmq，rootwrap等开源软件，在此过程中，我们发现了如下问题：首先，由于缺乏自动化的过程和工具，部分步骤通过人工抓取，每个评测指标及相应内容选取非常耗时并相对主观。其次，开源软件评测指标数量大，不同软件对于不同指标评测的敏感度不尽相同，有效地选取评测指标才能有效地评估软件。

现有的软件自动分类方法通常利用包含网页，日志等内容的文本来表征对象，通过数据挖掘技术对软件文本进行自动分类，将软件文本集合按照主题进行聚类，聚类的结果是每个文本自动归属于某个主题，从而间接实现对词条等对象的自动分类。现有方案下的数据源只是简单利用关键词进行聚类，不包含语义以及和上下文的关联，这样孤立的分类对更加抽象或者是表征含义更丰富的对象进行分类效果很差，同时很难对更长的量如句子进行识别分类。

发明内容

本发明实施例提供一种文本质量指标获取方法及装置，用以实现自动化获取文本的质量指标，提高了准确性。

本发明实施例提供的一种文本质量指标获取方法，包括：

获取文本的名称和关键词，并根据所述文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源；

使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量；

根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量；

对所述多个语句的句子向量进行去重，分为P类质量指标，保存所述P类质量指标的句子向量对应的内容，并基于随机森林确定所述P类质量指标的重要程度值，P为正整数；

根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。

可选的，所述使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量，包括：

使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，通过词条语句中当前词语的前后文词语预测所述当前词语的词向量；

对每个词条进行遍历，得到多个词语的词向量。

可选的，所述根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量，包括：

将所述文本的多个语句进行分词；

使用所述多个词语的词向量对分词后的语句进行遍历，将所述多个语句中的词语转换为词向量，确定出多个语句的句子向量。

可选的，所述对多个语句的句子向量进行去重，分为P类质量指标，包括：

将所述多个语句的句子向量进行补齐；

针对所述多个句子向量中任意一个句子向量，遍历其他的句子向量，计算向量之间的欧式距离；

将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标，将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量，进行去重，得到P类质量指标。

可选的，所述基于随机森林确定所述P类质量指标的重要程度值，包括：

根据所述P类质量指标，确定每次形成决策树利用的样本个数和构建森林的树的棵数；

根据所述样本个数和构建森林的树的棵数构建决策树；

遍历所有的决策树中质量指标的特征，在一次循环中，所述特征出现一次计数值加1，得到所述特征在森林中出现的次数；

根据每个特征在森林中出现的次数，得到各类质量指标的重要程度值。

相应的，本发明实施例还提高了一种文本质量指标获取装置，包括：

生成单元，用于获取文本的名称和关键词，并根据所述文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源；

确定单元，用于使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量；以及根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量；

去重单元，用于对所述多个语句的句子向量进行去重，分为P类质量指标，保存所述P类质量指标的句子向量对应的内容，并基于随机森林确定所述P类质量指标的重要程度值，P为正整数；

处理单元，用于根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。

可选的，所述确定单元具体用于：

对每个词条进行遍历，得到多个词语的词向量。

可选的，所述确定单元具体用于：

将所述文本的多个语句进行分词；

可选的，所述去重单元具体用于：

将所述多个语句的句子向量进行补齐；

可选的，所述去重单元具体用于：

根据所述样本个数和构建森林的树的棵数构建决策树；

相应的，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述文本质量指标获取方法。

相应的，本发明实施例还提供了一种计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述文本质量指标获取方法。

本发明实施例表明，通过获取文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源，使用预设的神经网络语言模型对文本数据源中的词条进行训练，得到多个词语的词向量，根据多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量，对多个语句的句子向量进行去重，分为P类质量指标，保存P类质量指标的句子向量对应的内容，并基于随机森林确定P类质量指标的重要程度值，根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。通过将文本的语句量化为向量，得到质量指标集合，提高了后续排序的准确率，基于随机森林得到质量指标的重要程度值，使得获取的质量指标结果更加准确和细化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本质量指标获取方法的流程示意图；

图2为本发明实施例提供的一种生成词向量的示意图；

图3为本发明实施例提供的一种文本质量指标获取装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例提供的一种文本质量指标获取方法的流程，该流程可以由文本质量指标获取装置执行。在本发明实施例中，为了更好的解释本发明实施例所提供的文本质量指标获取方法，下面将以分布式开源软件kaska为例，来描述该文本质量指标获取的流程。

如图1所示，该流程具体包括：

步骤101，获取文本的名称和关键词，并根据所述文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源。

在本发明实施例中，文本可以包括各种软件等使用文本来表达内容的事物，以开源软件为例，通过在搜索引擎中输入需要评测的开源软件的名称和关键词，提取词条，可以形成文本数据源。例如，通过搜索引擎搜索开源软件“Kafka”“kafka功能”等关键词组合，得到搜索结果。通过通用的爬虫技术对搜索结果的前N个词条(假设为1000条，词条越多，指标越全面)，获取结果信息的HTML(HyperText Markup Language，超文本标记语言)标签如title(标题)、text(文本)等，将结果存为一个文本文件。

可选的，文本数据源的获取方式不限于通过搜索引擎获取词条的Title标签，也可以通过解析网页，进行聚类分析等更多复杂预处理方式得到。

步骤102，使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量。

具体的，可以使用预设的神经网络语言模型对文本数据源中的词条进行训练，通过词条语句中当前词语的前后文词语预测当前词语的词向量。然后对每个词条进行遍历，就可以得到多个词语的词向量。该预设的神经网络语言模型(如CBOW(Continuous Bagof-Words，连续词袋)模型)可以是预设了一些参数的神经网络语言模型。

举例来说，使用基于神经网络语言模型对文本数据源中的词条进行训练，得到每个词语的词向量，通过词条语句中前后文单词如w_t- ²,w_t- ¹,w_t+ ¹,w_t+ ²来预测当前单词w_t的向量表示。例如，其中一个单词为“发布”，则通过其前后文的单词如“版本”、“发布”、“时间”、“周期”、“产品”、“活跃度”等前后文，具体的可以如图2所示的预测词向量的流程。

可选的，上述CBOW模型也可以替换为改进CBOW模型或其他类似功能的模型。

步骤103，根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量。

在得到多个词语的词向量之后，就可以先将开源软件的多个语句进行分词，然后使用该多个词语的词向量对分词后的语句进行遍历，将多个语句中的词语转换为词向量，确定出多个语句的句子向量。

针对开源软件中的每一个语句进行分词，并使用步骤102中得到的词向量对分词后的结果进行遍历，得到每一个语句的句子向量(共N个句子向量，N为正整数)。例如，其中一个语句的内容为“软件的贡献者人数”，则提取“软件”、“贡献者”、“人数”三个词的对应向量为V₁,V₂,V₃，那么对应的句子向量就可以得到V＝(V₁,V₂,V₃)。

步骤104，对所述多个语句的句子向量进行去重，分为P类质量指标，保存P类质量指标的句子向量对应的内容，并基于随机森林确定所述P类质量指标的重要程度值，P为正整数。

将步骤103中得到的多个语句的句子向量进行补齐，针对该多个句子向量中任意一个句子向量，遍历其他的句子向量，计算向量之间的欧式距离，可以将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标，将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量，进行去重，得到P类质量指标。该第一阈值和第二阈值可以依据经验设置，其中，第一阈值大于第二阈值。例如，第一阈值可以设置为1，第二阈值可以设置为0.1。

对得到的N个句子向量进行补齐(以最长的向量长度为准)。对每一个句子向量，遍历其他句子向量，计算向量之间的欧式距离，如果距离小于阈值(假设取值为1)，那么两个句子向量可以认为是同一类。如果两个向量之间的距离小于0.1，说明两个句子几乎相同，保留其中之一即可，完成去重。最终，所有的语句在去掉相同句子向量的基础上被分为P类，也就是P类质量指标。完成分类后，保存每一类的句子向量对应的内容。

可选的，上述句子向量的分类、去重、确定质量指标除了本发明实施例所示提供的方法得到外，也能通过改进算法，分类聚类过程得到近似处理结果。

得到该P类质量指标之后，可以根据该P类质量指标，确定每次形成决策树利用的样本个数和构建森林的树的棵数，根据样本个数和构建森林的树的棵数构建决策树，然后遍历所有的决策树中质量指标的特征，在一次循环中，特征出现一次计数值加1，得到特征在森林中出现的次数，最后再根据每个特征在森林中出现的次数，就可以得到各类质量指标的重要程度值。

经过去重后的P类质量指标集合，经过补齐后的向量深度相同为n，则所有的特征数为P*n。通过随机森林生成决策树训练集的策略，从P类句子向量中通过重采样来获得训练样本。重复S次，产生S棵树。然后采用下述的流程对结果进行统计：

其中，需要说明的是，Q_n为质量指标的重要程度值；S是森林中树的个数；P为质量指标的个数；n为每个质量指标对应的句子向量的深度；f_i为选取的特征；M为选取的特征数(P*n)。

首先，确定每次形成决策树利用的样本个数以及构建森林的树的棵树S(随机选取)，根据确定的每次随机选取的样本个数和树的棵树构建决策树。然后，遍历所有的决策树中的特征，在一次循环中，特征数出现过一次就在计数值上加1，θ_i＝θ_i+1。特征遍历结束后，得到每一个特征在森林中出现的次数。最后，对P类质量指标进行排序计算。根据每个特征在整个森林中出现的次数，得到针对某一类指标的重要程度值。即各个评测的质量指标对应的Q的值，值越大说明评测的质量指标越重要。如表1所示，表1中各个评测的质量指标对应的Q的值即为统计结果，值越大说明质量指标越重要，如果一些值远远小于其他值，那么这个评测的质量指标可以忽略不计。

表1

步骤105，根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。

具体的，根据步骤104中保存P类质量质量的句子向量对应的内容，找出各类质量指标p_n的每个特征对应的名称，最终根据p_n筛选和排序得到需要评测的质量指标的明细，以及重要性排序。该质量指标的明细也就是该质量指标的句子向量对应的内容。

上述实施例表明，通过获取文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源，使用预设的神经网络语言模型对文本数据源中的词条进行训练，得到多个词语的词向量，根据多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量，对多个语句的句子向量进行去重，分为P类质量指标，保存P类质量指标的句子向量对应的内容，并基于随机森林确定P类质量指标的重要程度值，根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。通过将文本的语句量化为向量，得到质量指标集合，提高了后续排序的准确率，基于随机森林得到质量指标的重要程度值，使得获取的质量指标结果更加准确和细化。

基于相同的技术构思，图3示例性的示出了本发明实施例提高的一种文本质量指标获取装置，该装置可以执行文本质量指标获取的流程。

如图3所示，该装置包括：

生成单元301，用于获取文本的名称和关键词，并根据所述文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源；

确定单元302，用于使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量；以及根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量；

去重单元303，用于对所述多个语句的句子向量进行去重，分为P类质量指标，保存所述P类质量指标的句子向量对应的内容，并基于随机森林确定所述P类质量指标的重要程度值，P为正整数；

处理单元304，用于根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。

可选的，所述确定单元302具体用于：

对每个词条进行遍历，得到多个词语的词向量。

可选的，所述确定单元302具体用于：

将所述文本的多个语句进行分词；

可选的，所述去重单元303具体用于：

将所述多个语句的句子向量进行补齐；

可选的，所述去重单元303具体用于：

根据所述样本个数和构建森林的树的棵数构建决策树；

基于相同的技术构思，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

基于相同的技术构思，本发明实施例还提供了一种计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述文本质量指标获取方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本质量指标获取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量，包括：

对每个词条进行遍历，得到多个词语的词向量。

3.如权利要求1所述的方法，其特征在于，所述根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量，包括：

将所述文本的多个语句进行分词；

4.如权利要求1所述的方法，其特征在于，所述对多个语句的句子向量进行去重，分为P类质量指标，包括：

将所述多个语句的句子向量进行补齐；

5.如权利要求1所述的方法，其特征在于，所述基于随机森林确定所述P类质量指标的重要程度值，包括：

根据所述样本个数和构建森林的树的棵数构建决策树；

6.一种文本质量指标获取装置，其特征在于，包括：

7.如权利要求6所述的方法，其特征在于，所述确定单元具体用于：

对每个词条进行遍历，得到多个词语的词向量。

8.如权利要求6所述的方法，其特征在于，所述确定单元具体用于：

将所述文本的多个语句进行分词；

9.如权利要求6所述的方法，其特征在于，所述去重单元具体用于：

将所述多个语句的句子向量进行补齐；

10.如权利要求6所述的方法，其特征在于，所述去重单元具体用于：

根据所述样本个数和构建森林的树的棵数构建决策树；

11.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至5任一项所述的方法。

12.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至5任一项所述的方法。