CN108182175A - 一种文本质量指标获取方法及装置 - Google Patents

一种文本质量指标获取方法及装置 Download PDF

Info

Publication number
CN108182175A
CN108182175A CN201711484243.7A CN201711484243A CN108182175A CN 108182175 A CN108182175 A CN 108182175A CN 201711484243 A CN201711484243 A CN 201711484243A CN 108182175 A CN108182175 A CN 108182175A
Authority
CN
China
Prior art keywords
sentence
quality index
vector
text
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711484243.7A
Other languages
English (en)
Other versions
CN108182175B (zh
Inventor
王琪
何东杰
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201711484243.7A priority Critical patent/CN108182175B/zh
Priority to PCT/CN2018/090878 priority patent/WO2019128124A1/zh
Publication of CN108182175A publication Critical patent/CN108182175A/zh
Priority to TW107127945A priority patent/TWI689825B/zh
Application granted granted Critical
Publication of CN108182175B publication Critical patent/CN108182175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本质量指标获取方法及装置,该方法包括获取文本的名称和关键词,生成文本数据源,使用预设的神经网络语言模型对文本数据源中的词条进行训练,得到多个词语的词向量,确定出多个语句的句子向量,对多个语句的句子向量进行去重,分为P类质量指标,保存P类质量指标的句子向量对应的内容,并基于随机森林确定P类质量指标的重要程度值,根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。通过将开源软件的语句量化为向量,得到质量指标集合,提高了后续排序的准确率,基于随机森林得到质量指标的重要程度值,使得获取的质量指标结果更加准确和细化。

Description

一种文本质量指标获取方法及装置
技术领域
本发明实施例涉及语句分析技术领域,尤其涉及一种文本质量指标获取方法及装置。
背景技术
开源软件的广泛应用已经成为一种趋势。金融行业出于技术成熟度和安全合规方面的考虑,对开源软件的应用保持审慎的态度。所以在使用一个开源软件之前应对软件进行完备科学的评估,通常通过建立评测模型对开源软件进行评测,基于模型评测诸如kakfa,rabbitmq,rootwrap等开源软件,在此过程中,我们发现了如下问题:首先,由于缺乏自动化的过程和工具,部分步骤通过人工抓取,每个评测指标及相应内容选取非常耗时并相对主观。其次,开源软件评测指标数量大,不同软件对于不同指标评测的敏感度不尽相同,有效地选取评测指标才能有效地评估软件。
现有的软件自动分类方法通常利用包含网页,日志等内容的文本来表征对象,通过数据挖掘技术对软件文本进行自动分类,将软件文本集合按照主题进行聚类,聚类的结果是每个文本自动归属于某个主题,从而间接实现对词条等对象的自动分类。现有方案下的数据源只是简单利用关键词进行聚类,不包含语义以及和上下文的关联,这样孤立的分类对更加抽象或者是表征含义更丰富的对象进行分类效果很差,同时很难对更长的量如句子进行识别分类。
发明内容
本发明实施例提供一种文本质量指标获取方法及装置,用以实现自动化获取文本的质量指标,提高了准确性。
本发明实施例提供的一种文本质量指标获取方法,包括:
获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量;
根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;
对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;
根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。
可选的,所述使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量,包括:
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测所述当前词语的词向量;
对每个词条进行遍历,得到多个词语的词向量。
可选的,所述根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量,包括:
将所述文本的多个语句进行分词;
使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量。
可选的,所述对多个语句的句子向量进行去重,分为P类质量指标,包括:
将所述多个语句的句子向量进行补齐;
针对所述多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离;
将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。
可选的,所述基于随机森林确定所述P类质量指标的重要程度值,包括:
根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;
根据所述样本个数和构建森林的树的棵数构建决策树;
遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;
根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。
相应的,本发明实施例还提高了一种文本质量指标获取装置,包括:
生成单元,用于获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;
确定单元,用于使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量;以及根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;
去重单元,用于对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;
处理单元,用于根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。
可选的,所述确定单元具体用于:
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测所述当前词语的词向量;
对每个词条进行遍历,得到多个词语的词向量。
可选的,所述确定单元具体用于:
将所述文本的多个语句进行分词;
使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量。
可选的,所述去重单元具体用于:
将所述多个语句的句子向量进行补齐;
针对所述多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离;
将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。
可选的,所述去重单元具体用于:
根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;
根据所述样本个数和构建森林的树的棵数构建决策树;
遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;
根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。
相应的,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述文本质量指标获取方法。
相应的,本发明实施例还提供了一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述文本质量指标获取方法。
本发明实施例表明,通过获取文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源,使用预设的神经网络语言模型对文本数据源中的词条进行训练,得到多个词语的词向量,根据多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量,对多个语句的句子向量进行去重,分为P类质量指标,保存P类质量指标的句子向量对应的内容,并基于随机森林确定P类质量指标的重要程度值,根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。通过将文本的语句量化为向量,得到质量指标集合,提高了后续排序的准确率,基于随机森林得到质量指标的重要程度值,使得获取的质量指标结果更加准确和细化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本质量指标获取方法的流程示意图;
图2为本发明实施例提供的一种生成词向量的示意图;
图3为本发明实施例提供的一种文本质量指标获取装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例提供的一种文本质量指标获取方法的流程,该流程可以由文本质量指标获取装置执行。在本发明实施例中,为了更好的解释本发明实施例所提供的文本质量指标获取方法,下面将以分布式开源软件kaska为例,来描述该文本质量指标获取的流程。
如图1所示,该流程具体包括:
步骤101,获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源。
在本发明实施例中,文本可以包括各种软件等使用文本来表达内容的事物,以开源软件为例,通过在搜索引擎中输入需要评测的开源软件的名称和关键词,提取词条,可以形成文本数据源。例如,通过搜索引擎搜索开源软件“Kafka”“kafka功能”等关键词组合,得到搜索结果。通过通用的爬虫技术对搜索结果的前N个词条(假设为1000条,词条越多,指标越全面),获取结果信息的HTML(HyperText Markup Language,超文本标记语言)标签如title(标题)、text(文本)等,将结果存为一个文本文件。
可选的,文本数据源的获取方式不限于通过搜索引擎获取词条的Title标签,也可以通过解析网页,进行聚类分析等更多复杂预处理方式得到。
步骤102,使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量。
具体的,可以使用预设的神经网络语言模型对文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测当前词语的词向量。然后对每个词条进行遍历,就可以得到多个词语的词向量。该预设的神经网络语言模型(如CBOW(Continuous Bagof-Words,连续词袋)模型)可以是预设了一些参数的神经网络语言模型。
举例来说,使用基于神经网络语言模型对文本数据源中的词条进行训练,得到每个词语的词向量,通过词条语句中前后文单词如wt- 2,wt- 1,wt+ 1,wt+ 2来预测当前单词wt的向量表示。例如,其中一个单词为“发布”,则通过其前后文的单词如“版本”、“发布”、“时间”、“周期”、“产品”、“活跃度”等前后文,具体的可以如图2所示的预测词向量的流程。
可选的,上述CBOW模型也可以替换为改进CBOW模型或其他类似功能的模型。
步骤103,根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量。
在得到多个词语的词向量之后,就可以先将开源软件的多个语句进行分词,然后使用该多个词语的词向量对分词后的语句进行遍历,将多个语句中的词语转换为词向量,确定出多个语句的句子向量。
针对开源软件中的每一个语句进行分词,并使用步骤102中得到的词向量对分词后的结果进行遍历,得到每一个语句的句子向量(共N个句子向量,N为正整数)。例如,其中一个语句的内容为“软件的贡献者人数”,则提取“软件”、“贡献者”、“人数”三个词的对应向量为V1,V2,V3,那么对应的句子向量就可以得到V=(V1,V2,V3)。
步骤104,对所述多个语句的句子向量进行去重,分为P类质量指标,保存P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数。
将步骤103中得到的多个语句的句子向量进行补齐,针对该多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离,可以将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。该第一阈值和第二阈值可以依据经验设置,其中,第一阈值大于第二阈值。例如,第一阈值可以设置为1,第二阈值可以设置为0.1。
对得到的N个句子向量进行补齐(以最长的向量长度为准)。对每一个句子向量,遍历其他句子向量,计算向量之间的欧式距离,如果距离小于阈值(假设取值为1),那么两个句子向量可以认为是同一类。如果两个向量之间的距离小于0.1,说明两个句子几乎相同,保留其中之一即可,完成去重。最终,所有的语句在去掉相同句子向量的基础上被分为P类,也就是P类质量指标。完成分类后,保存每一类的句子向量对应的内容。
可选的,上述句子向量的分类、去重、确定质量指标除了本发明实施例所示提供的方法得到外,也能通过改进算法,分类聚类过程得到近似处理结果。
得到该P类质量指标之后,可以根据该P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数,根据样本个数和构建森林的树的棵数构建决策树,然后遍历所有的决策树中质量指标的特征,在一次循环中,特征出现一次计数值加1,得到特征在森林中出现的次数,最后再根据每个特征在森林中出现的次数,就可以得到各类质量指标的重要程度值。
经过去重后的P类质量指标集合,经过补齐后的向量深度相同为n,则所有的特征数为P*n。通过随机森林生成决策树训练集的策略,从P类句子向量中通过重采样来获得训练样本。重复S次,产生S棵树。然后采用下述的流程对结果进行统计:
其中,需要说明的是,Qn为质量指标的重要程度值;S是森林中树的个数;P为质量指标的个数;n为每个质量指标对应的句子向量的深度;fi为选取的特征;M为选取的特征数(P*n)。
首先,确定每次形成决策树利用的样本个数以及构建森林的树的棵树S(随机选取),根据确定的每次随机选取的样本个数和树的棵树构建决策树。然后,遍历所有的决策树中的特征,在一次循环中,特征数出现过一次就在计数值上加1,θi=θi+1。特征遍历结束后,得到每一个特征在森林中出现的次数。最后,对P类质量指标进行排序计算。根据每个特征在整个森林中出现的次数,得到针对某一类指标的重要程度值。即各个评测的质量指标对应的Q的值,值越大说明评测的质量指标越重要。如表1所示,表1中各个评测的质量指标对应的Q的值即为统计结果,值越大说明质量指标越重要,如果一些值远远小于其他值,那么这个评测的质量指标可以忽略不计。
表1
步骤105,根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。
具体的,根据步骤104中保存P类质量质量的句子向量对应的内容,找出各类质量指标pn的每个特征对应的名称,最终根据pn筛选和排序得到需要评测的质量指标的明细,以及重要性排序。该质量指标的明细也就是该质量指标的句子向量对应的内容。
上述实施例表明,通过获取文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源,使用预设的神经网络语言模型对文本数据源中的词条进行训练,得到多个词语的词向量,根据多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量,对多个语句的句子向量进行去重,分为P类质量指标,保存P类质量指标的句子向量对应的内容,并基于随机森林确定P类质量指标的重要程度值,根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。通过将文本的语句量化为向量,得到质量指标集合,提高了后续排序的准确率,基于随机森林得到质量指标的重要程度值,使得获取的质量指标结果更加准确和细化。
基于相同的技术构思,图3示例性的示出了本发明实施例提高的一种文本质量指标获取装置,该装置可以执行文本质量指标获取的流程。
如图3所示,该装置包括:
生成单元301,用于获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;
确定单元302,用于使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量;以及根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;
去重单元303,用于对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;
处理单元304,用于根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。
可选的,所述确定单元302具体用于:
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测所述当前词语的词向量;
对每个词条进行遍历,得到多个词语的词向量。
可选的,所述确定单元302具体用于:
将所述文本的多个语句进行分词;
使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量。
可选的,所述去重单元303具体用于:
将所述多个语句的句子向量进行补齐;
针对所述多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离;
将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。
可选的,所述去重单元303具体用于:
根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;
根据所述样本个数和构建森林的树的棵数构建决策树;
遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;
根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述文本质量指标获取方法。
基于相同的技术构思,本发明实施例还提供了一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述文本质量指标获取方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种文本质量指标获取方法,其特征在于,包括:
获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量;
根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;
对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;
根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。
2.如权利要求1所述的方法,其特征在于,所述使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量,包括:
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测所述当前词语的词向量;
对每个词条进行遍历,得到多个词语的词向量。
3.如权利要求1所述的方法,其特征在于,所述根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量,包括:
将所述文本的多个语句进行分词;
使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量。
4.如权利要求1所述的方法,其特征在于,所述对多个语句的句子向量进行去重,分为P类质量指标,包括:
将所述多个语句的句子向量进行补齐;
针对所述多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离;
将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。
5.如权利要求1所述的方法,其特征在于,所述基于随机森林确定所述P类质量指标的重要程度值,包括:
根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;
根据所述样本个数和构建森林的树的棵数构建决策树;
遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;
根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。
6.一种文本质量指标获取装置,其特征在于,包括:
生成单元,用于获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;
确定单元,用于使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,得到多个词语的词向量;以及根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;
去重单元,用于对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;
处理单元,用于根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序。
7.如权利要求6所述的方法,其特征在于,所述确定单元具体用于:
使用预设的神经网络语言模型对所述文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测所述当前词语的词向量;
对每个词条进行遍历,得到多个词语的词向量。
8.如权利要求6所述的方法,其特征在于,所述确定单元具体用于:
将所述文本的多个语句进行分词;
使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量。
9.如权利要求6所述的方法,其特征在于,所述去重单元具体用于:
将所述多个语句的句子向量进行补齐;
针对所述多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离;
将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。
10.如权利要求6所述的方法,其特征在于,所述去重单元具体用于:
根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;
根据所述样本个数和构建森林的树的棵数构建决策树;
遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;
根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。
11.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至5任一项所述的方法。
12.一种计算机存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至5任一项所述的方法。
CN201711484243.7A 2017-12-29 2017-12-29 一种文本质量指标获取方法及装置 Active CN108182175B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711484243.7A CN108182175B (zh) 2017-12-29 2017-12-29 一种文本质量指标获取方法及装置
PCT/CN2018/090878 WO2019128124A1 (zh) 2017-12-29 2018-06-12 一种文本质量指标获取方法及装置
TW107127945A TWI689825B (zh) 2017-12-29 2018-08-10 一種文件品質指標獲取方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711484243.7A CN108182175B (zh) 2017-12-29 2017-12-29 一种文本质量指标获取方法及装置

Publications (2)

Publication Number Publication Date
CN108182175A true CN108182175A (zh) 2018-06-19
CN108182175B CN108182175B (zh) 2021-01-05

Family

ID=62549266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711484243.7A Active CN108182175B (zh) 2017-12-29 2017-12-29 一种文本质量指标获取方法及装置

Country Status (3)

Country Link
CN (1) CN108182175B (zh)
TW (1) TWI689825B (zh)
WO (1) WO2019128124A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984675A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于评价的数据查询方法和装置
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置
CN110032723A (zh) * 2018-12-17 2019-07-19 阿里巴巴集团控股有限公司 句子分类的测试方法、装置、服务器及可读存储介质
CN110853649A (zh) * 2019-11-05 2020-02-28 集奥聚合(北京)人工智能科技有限公司 基于智能语音技术的标签提取方法、系统、设备及介质
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN112214574A (zh) * 2019-07-09 2021-01-12 国际商业机器公司 上下文感知句子压缩
CN112287664A (zh) * 2020-12-28 2021-01-29 望海康信(北京)科技股份公司 文本指标数据解析方法、系统及相应设备和存储介质
WO2021082861A1 (zh) * 2019-10-31 2021-05-06 平安科技(深圳)有限公司 评分方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102296420B1 (ko) * 2019-09-30 2021-09-01 한국과학기술원 개인정보보호 정책서 분석 기반 개인정보 수집/활용자의 신뢰도 평가 방법 및 장치
CN111259665B (zh) * 2020-01-14 2023-05-30 成都潜在人工智能科技有限公司 一种基于神经网络的交互式歌词生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120053207A (ko) * 2010-11-17 2012-05-25 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
CN103150303A (zh) * 2013-03-08 2013-06-12 北京理工大学 汉语语义格分层识别方法
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990124B2 (en) * 2010-01-14 2015-03-24 Microsoft Technology Licensing, Llc Assessing quality of user reviews
TWI446283B (zh) * 2010-12-31 2014-07-21 104 Corp 履歷分析方法
CN103744984B (zh) * 2014-01-15 2017-01-25 北京理工大学 一种利用语义信息检索文档的方法
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN107423304A (zh) * 2016-05-24 2017-12-01 百度在线网络技术(北京)有限公司 检索词分类方法及装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120053207A (ko) * 2010-11-17 2012-05-25 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
CN103150303A (zh) * 2013-03-08 2013-06-12 北京理工大学 汉语语义格分层识别方法
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984675A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于评价的数据查询方法和装置
CN108984675B (zh) * 2018-07-02 2019-08-13 北京百度网讯科技有限公司 基于评价的数据查询方法和装置
US11176142B2 (en) 2018-07-02 2021-11-16 Beijing Baidu Netcom Science Technology Co., Ltd. Method of data query based on evaluation and device
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置
CN110032723A (zh) * 2018-12-17 2019-07-19 阿里巴巴集团控股有限公司 句子分类的测试方法、装置、服务器及可读存储介质
CN112214574A (zh) * 2019-07-09 2021-01-12 国际商业机器公司 上下文感知句子压缩
WO2021082861A1 (zh) * 2019-10-31 2021-05-06 平安科技(深圳)有限公司 评分方法、装置、电子设备及存储介质
CN110853649A (zh) * 2019-11-05 2020-02-28 集奥聚合(北京)人工智能科技有限公司 基于智能语音技术的标签提取方法、系统、设备及介质
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN112287664A (zh) * 2020-12-28 2021-01-29 望海康信(北京)科技股份公司 文本指标数据解析方法、系统及相应设备和存储介质
CN112287664B (zh) * 2020-12-28 2021-04-06 望海康信(北京)科技股份公司 文本指标数据解析方法、系统及相应设备和存储介质

Also Published As

Publication number Publication date
TW201931164A (zh) 2019-08-01
CN108182175B (zh) 2021-01-05
TWI689825B (zh) 2020-04-01
WO2019128124A1 (zh) 2019-07-04

Similar Documents

Publication Publication Date Title
CN108182175A (zh) 一种文本质量指标获取方法及装置
Trstenjak et al. KNN with TF-IDF based framework for text categorization
US9275344B2 (en) Computer-implemented system and method for generating a reference set via seed documents
US20180357302A1 (en) Method and device for processing a topic
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN111444724B (zh) 医疗问答对质检方法、装置、计算机设备和存储介质
CN103514279B (zh) 一种句子级情感分类方法及装置
CN108363717B (zh) 一种数据安全级别的识别检测方法及装置
CN108763096A (zh) 基于深度信念网络算法支持向量机的软件缺陷预测方法
CN103957116A (zh) 一种云故障数据的决策方法及系统
CN108228612A (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN105956002A (zh) 一种基于url分析的网页分类方法及装置
CN103425748B (zh) 一种文档资源建议词的挖掘方法和装置
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
Nalini et al. An efficient software defect prediction model using neuro evalution algorithm based on genetic algorithm
CN109344400A (zh) 一种文献入库的判断方法和装置
CN109885680B (zh) 一种基于义原扩展的短文本分类预处理方法、系统及装置
CN116089713A (zh) 推荐模型训练方法、推荐方法、装置及计算机设备
CN109242534B (zh) 一种基于用户评论动态分析的用户评分预测方法
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN107133644A (zh) 数字化图书馆内容分析系统及方法
CN106446160A (zh) 一种面向移动互联网自适应增量的内容聚合方法及系统
CN113221548A (zh) 基于机器学习的bom表识别方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1255843

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant