CN111767401B

CN111767401B - 一种nqi指标自动生成方法

Info

Publication number: CN111767401B
Application number: CN202010625675.0A
Authority: CN
Inventors: 冯蕾; 刘思悦
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2023-04-28
Anticipated expiration: 2040-07-02
Also published as: CN111767401A

Abstract

本发明公开了一种NQI指标自动生成方法，包括：建立初级文本库；对文本全模式分词，运用TF‑IDF向量化方法构造词条矩阵，通过多项式朴素贝叶斯分类器和训练模型，选出一级指标；采用文本挖掘和中文分词技术，通过Jieba分词工具，对文本全模式分词处理，统计频数排前的词；再通过层次聚类方法遍历频数排前的词，计算每两个词的最短距离，将距离最小的两个词汇合为一个簇，形成二级指标选取参考组；结合参考组优先筛选出与频数排前词对应的非专有名词，确定二级指标；将二级指标出现过的文本所在行的句子，重复上述步骤确定测量指标。本发明NQI指标自动生成方法解决了各行业NQI指标选取的主观性问题，能更科学的确定NQI指标。

Description

一种NQI指标自动生成方法

技术领域

本发明涉及NQI技术领域，特别是涉及一种NQI指标自动生成方法。

背景技术

2006年，联合国工业发展组织和国际标准化组织正式提出国家质量基础设施(NQI)的概念，称国际质量基础的三大支柱，即计量、标准和合格评定，共同构成一个完整的技术链条，支撑政府和企业生产力的提高、生命健康的维护、消费者权利的保护、环境保护、安全维护和质量提升，发挥着改善社会福利、完善国际贸易，和维护可持续发展的重要作用。经过十几年发展，NQI支撑并服务于国民经济的各个领域，具有较强的技术性、科学性、系统性和专业性。其中，计量、标准、认证认可、检验检测是国际公认的国家质量技术基础核心要素，以这4个核心要素为基础，构建质量基础设施能力指标体系对评估NQI各要素的发展现状具有重要意义。其中，指标选取是尤为重要的一环，在指标选取的基础上收集相关数据，可以衡量不同行业、地区、企业的NQI相对水平。

目前，关于NQI的研究，主要围绕三个层面展开，一是基于某一行业的NQI大数据系统，如一种电网设备NQI大数据系统的发明(专利号CN201910560682.4)；二是基于特定行业NQI的云平台系统，如一种电网设备NQI一站式服务云平台系统专利(专利号CN201910560691.3)；三是有关质量基础设施发展水平宏观评估方法。上述三个层面的研究，均存在NQI评价的技术针对性不强，特别是无法针对特定行业，无法体现行业特征。当前，从行业领域来看，国民经济的各行各业和NQI领域的交叉存在大量技术空白。其次，现有关于NQI一般评价的技术指标在选取方面缺乏科学论证，导致评测结果主观性较强。

由此可见，上述现有的NQI技术指标的选取仍存在有不便与缺陷，而亟待加以进一步改进。如何能创设一种新的NQI指标自动生成方法，使其有效解决NQI指标选取困难，增强指标选取过程的科学性和结论的客观性，为NQI评价提供可靠数据，成为当前业界极需改进的目标。

发明内容

本发明要解决的技术问题是提供一种NQI指标自动生成方法，使其有效解决NQI指标选取困难，增强指标选取过程的科学性和结论的客观性，为NQI评价提供可靠数据，从而克服现有的NQI技术指标选取不足的问题。

为解决上述技术问题，本发明提供一种NQI指标自动生成方法，所述方法包括步骤：

(1)通过网络爬虫技术爬取所需研究行业的NQI主要管理单位的技术公开规范和产业文件，建立所述行业的NQI指标初级文本库；

(2)对所述NQI指标初级文本库中文本进行清洗，将清洗后的文本进行全模式分词处理，并保存，再运用TF-IDF向量化方法，将处理过的全模式分词所对应的字符串转换成数值向量，构造词条矩阵，并将所述词条矩阵内的所有数值向量划分为训练集和测试集，构造多项式朴素贝叶斯分类器和训练模型，将训练好的模型运用到测试集上，挑选出预测正确的数值向量标签，作为NQI一级指标，并按所述数值向量标签将所述NQI指标初级文本库中所对应的文本分类存放，作为各类数值向量标签的文本分析样本；

(3)对每类数值向量标签的所述文本分析样本进行清洗，得到每类数值向量标签的素材文本库；

(4)采用文本挖掘和中文分词技术，通过Jieba分词工具，对每类数值向量标签的素材文本库的文本进行全模式分词处理，再采用单词统计编码方法，计算每类数值向量标签下出现频数排在前10位的词；

(5)通过层次聚类方法遍历步骤(4)得出的每类数值向量标签下频数排在前10位的词，计算出每两个单词之间的最短距离，将距离最小的两个词汇合并为一个簇，重复这一过程，直至将每类数值向量标签下所有单词分为3组，作为二级指标选取的参考组；再通过查找定位出每类数值向量标签下频数排在前10位的词在每类数值向量标签的素材文本库中出现时所在的行，与所述二级指标选取的参考组进行比对，先筛选出所述参考组中存在的词组，再筛选出每类数值向量标签下频数排在前10位的词中出现的一级指标词汇所对应的非专有名词，从而确定出二级指标名称；

(6)将所述NQI指标初级文本库中所述二级指标名称出现过的文本所在行的句子，再进行一次数据清洗，清洗后的文本重复所述步骤(4)，计算每类二级指标名称下出现频数排在前10位的词；再重复所述步骤(5)，优先筛选出所述二级指标名称下出现频数排在前10位的词对应的非专有名词，且排除与所述二级指标名称重复的词，即确定出所述二级指标名称下的NQI测量指标名称。

进一步改进，所述步骤(1)中爬取的技术公开规范和产业文件包括计量司的计量技术公开规范、工业产业计量文件、国家标准委的公开指南、认监委的行政许可、第三方检验检测机构的检验项目文本。

进一步改进，所述步骤(1)中爬取的文本数据还包括联合国工业发展组织、世界贸易组织和世界银行承担NQI项目的国际组织或其他组织的网页，通过词频统计出所述网页上排在前1-6位的文本，作为NQI一级备选指标。

进一步改进，所述步骤(2)和步骤(3)中文本的清洗步骤包括去重，去掉数字、字母和停用词的步骤。

进一步改进，所述步骤(2)中将所述词条矩阵内的所有数值向量划分为训练集和测试集，所述训练集和测试集的划分比例随着样本量的增大，所述测试集的比例逐渐增大。

进一步改进，所述训练集和测试集的初次分类比例为3:1。

进一步改进，所述步骤(4)中通过设置阈值的方法，计算选取每类数值向量标签下出现频数排在前5-8位的词。

进一步改进，所述步骤(5)中将每类数值向量标签下所有单词分为3组，是按两个单词之间的距离值进行分组。

进一步改进，所述步骤(6)中若选取的NQI测量指标名称中出现有表示层级的NQI测量指标名称，则增加所述层级的下一层级或上一层级所对应的非专有名词，共同作为NQI测量指标名称。

采用这样的设计后，本发明至少具有以下优点：

本发明NQI指标自动生成方法通过文本分词、词类排序、层次聚类等方法，解决了各个行业NQI指标选取的主观性问题，实现了以文本编码和文本提取关键信息的科学应用，对各个行业的NQI快速评价提供技术支撑。本发明能够更科学的确定各个行业NQI指标，该方法具有普适性，可以用于各个领域的NQI指标选取，适用性广。

具体实施方式

本实施例以纺织行业为例，阐释本发明NQI指标自动生成方法。选取纺织行业是因为纺织行业是我国国民经济传统支柱产业，是重要的民生产业，同时也是我国在国际上竞争优势明显的产业。目前，纺织行业已加入国家质量基础的共性技术研究与应用的行列，在纺织行业NQI发展路径、NQI整体协同能力提升等领域研究成果较为丰富，而纺织行业中的大数据分析与智能诊断等实际应用也已取得显著成效。纺织行业与NQI的结合从技术上讲，针对纺织行业的NQI材料相对丰富，具备实现本专利的NQI指标自动生成的基本条件。具体实施例如下。

本实施例纺织行业NQI指标自动生成方法，包括如下步骤：

(1)通过网络爬虫技术爬取纺织行业的NQI主要管理单位的技术公开规范和产业文件，包括计量司的计量技术公开规范第一页文件、国家标准委的公开指南第一页、认监委的行政许可、森博检测机构的纺织品检验项目文本等信息，建立纺织行业的NQI指标初级文本库。

其中，该NQI指标初级文本库包含各类词汇的原始句子段落，这些段落随机排列。

(2)对该NQI指标初级文本库中文本进行清洗，包括去重，去掉数字、字母和停用词步骤，将清洗后的文本进行全模式分词处理，并保存，再运用TF-IDF向量化方法，将处理过的全模式分词所对应的字符串转换成数值向量，构造词条矩阵，并将该词条矩阵内的所有数值向量划分为训练集和测试集。训练集和测试集的初次划分比例为3:1，构造多项式朴素贝叶斯分类器和训练模型，将训练好的模型运用到测试集上，挑选出预测正确的数值向量标签，作为NQI一级指标，如表1中计量、标准、认证认可和检验检测4个一级指标。并按数值向量标签将NQI指标初级文本库中所对应的文本分类存放，作为各类数值向量标签的文本分析样本。

表1本实施例纺织行业的NQI各级指标结果

其中，将词条矩阵内的所有数值向量划分为训练集和测试集时，该训练集和测试集的划分比例可随着样本量的增大而改变，如该测试集的比例会随着样本量的增大而逐渐增大。

(3)对每类数值向量标签的文本分析样本进行清洗，同样包括去重，去掉数字、字母和停用词步骤，得到每类数值向量标签的素材文本库。

(4)采用文本挖掘和中文分词技术，通过Jieba分词工具，对每类数值向量标签的素材文本库的文本进行全模式分词处理，再采用单词统计编码方法，通过设置阈值的方法，计算每类数值向量标签下出现频数排在前5-8位的词，以确保最终确定的二级指标特征具有5个左右。如计量标签的特征包括“计量”、“规范”、“校准”、“技术”、“委员会”、“全国”；标准标签的特征包括“国家标准”、“信息”、“标准”、“计划”、“政府”；认证认可标签的特征包括“结果”、“机构”、“事项”、“服务”、“国家”；检验检测标签的特征包括“检测”、“纺织品”、“测试”、“适用”、“样品”。

当然，为了进一步扩大NQI指标选取的客观性，可选取每类数值向量标签下出现频数排在前10位的词或更多。

(5)通过层次聚类方法遍历步骤(4)得出的每类数值向量标签下频数排在前5-8位的词，计算出每两个单词之间的最短距离，将距离最小的两个词汇合并为一个簇，重复这一过程，按两个单词之间的距离值进行分组，还为了保证词语间距离的适中，将每类数值向量标签下所有单词分为3组，作为二级指标选取的参考组；再通过查找定位出每类数值向量标签下频数排在前5-8位的词在每类数值向量标签的素材文本库中出现时所在的行，与二级指标选取的参考组进行比对，先筛选出该参考组中存在的词组，再筛选出每类数值向量标签下频数排在前5-8位的词中出现的一级指标词汇所对应的非专有名词，从而确定出二级指标名称。如表1中四个一级指标项下的各个二级指标。

(6)将上述NQI指标初级文本库中确定的二级指标名称出现过的文本所在行的句子，再进行一次数据清洗，清洗后的文本重复步骤(4)，计算每类二级指标名称下出现频数排在前5-8位的词；再重复步骤(5)，优先筛选出二级指标名称下出现频数排在前5-8位的词对应的非专有名词，且排除与二级指标名称重复的词，即确定出二级指标名称下的NQI测量指标名称，如表1中二级指标项下的测量指标名称。即完成对纺织行业NQI指标的自动生成。

另外，如要另行选择更多的一级指标，则在上述步骤(1)的基础上，爬取的文本数据还要包括联合国工业发展组织、世界贸易组织和世界银行承担NQI项目的国际组织或其他组织的网页，通过词频统计出这些网页上排在前1-6位的文本，作为NQI一级备选指标。该NQI一级备选指标在上述步骤(2)后，可得到除计量、标准、检验检测和认证认可4个一级指标之外的一级指标。然后重复上述步骤(3)至(6)，即可获取每个新一级指标对应的二级指标和测量指标。

还为了确保测量指标名称的权威性和适用性，若在NQI测量指标的选取过程中出现表示层级的词语，如国家级、地方级，则需将该层级的下一层级或上一层级所对应的非专有名词，同时选取共同作为NQI测量指标名称，提高测量指标名称选取的权威性和适用性。

本实施例NQI指标自动生成方法通过文本数字编码和文本分类方法，解决了纺织行业NQI指标选取的主观性问题，实现了以文本编码和文本提取关键信息的科学应用，对纺织行业的NQI快速评价提供技术支撑。

本实施例NQI指标自动生成方法通过量化纺织行业NQI指标选取量化过程，能够更科学的确定纺织行业NQI指标，该方法具有普适性，可以推广至其他领域的NQI指标选取。

本发明利用NQI指标自动生成的方法，将国民经济各个行业发展与质量技术基础能力建设进行有机结合，构建一套指标文本提取过程方法，有助于了解某行业NQI各要素间的关系，并运用科学手段客观地评价某行业质量技术基础综合实力，全面提升了各个行业NQI发展和应用水平，促进了技术创新与产业升级。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种NQI指标自动生成方法，其特征在于，所述方法包括步骤：

2.根据权利要求1所述的NQI指标自动生成方法，其特征在于，所述步骤(1)中爬取的技术公开规范和产业文件包括计量司的计量技术公开规范、工业产业计量文件、国家标准委的公开指南、认监委的行政许可、第三方检验检测机构的检验项目文本。

3.根据权利要求2所述的NQI指标自动生成方法，其特征在于，所述步骤(1)中爬取的文本数据还包括联合国工业发展组织、世界贸易组织和世界银行承担NQI项目的国际组织或其他组织的网页，通过词频统计出所述网页上排在前1-6位的文本，作为NQI一级备选指标。

4.根据权利要求3所述的NQI指标自动生成方法，其特征在于，所述步骤(2)和步骤(3)中文本的清洗步骤包括去重，去掉数字、字母和停用词的步骤。

5.根据权利要求1所述的NQI指标自动生成方法，其特征在于，所述步骤(2)中将所述词条矩阵内的所有数值向量划分为训练集和测试集，所述训练集和测试集的划分比例随着样本量的增大，所述测试集的比例逐渐增大。

6.根据权利要求5所述的NQI指标自动生成方法，其特征在于，所述训练集和测试集的初次分类比例为3:1。

7.根据权利要求1所述的NQI指标自动生成方法，其特征在于，所述步骤(4)中通过设置阈值的方法，计算选取每类数值向量标签下出现频数排在前5-8位的词。

8.根据权利要求7所述的NQI指标自动生成方法，其特征在于，所述步骤(5)中将每类数值向量标签下所有单词分为3组，是按两个单词之间的距离值进行分组。

9.根据权利要求1所述的NQI指标自动生成方法，其特征在于，所述步骤(6)中若选取的NQI测量指标名称中出现有表示层级的NQI测量指标名称，则增加所述层级的下一层级或上一层级所对应的非专有名词，共同作为NQI测量指标名称。