CN111858946A

CN111858946A - 一种烟草专卖市场监管大数据e-r模型的构建方法

Info

Publication number: CN111858946A
Application number: CN202010784941.4A
Authority: CN
Inventors: 张玉杰; 晏忠泰; 史向峰; 陈志刚; 毛伟宇
Original assignee: China National Tobacco Corp Sichuan Branch
Current assignee: China National Tobacco Corp Sichuan Branch
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-10-30
Anticipated expiration: 2040-08-06
Also published as: CN111858946B

Abstract

本发明公开了一种烟草专卖市场监管大数据E‑R模型的构建方法，包括如下步骤：步骤一：以烟草专卖市场历史涉烟数据为对象，构建用于涉烟数据元聚类的涉烟数据样本集；步骤二：利用基于涉烟关键词的信息熵，从样本数据集中抽取并生成涉烟数据元；步骤三：通过烟草专卖领域的内容结构视图，为数据元代入涉烟语义；步骤四：通过涉烟数据元，构建烟草专卖市场监管大数据E‑R模型；步骤五：通过大数据E‑R模型指导并生成对应的涉烟大数据数据管理系统，为市场监管和涉烟案件信息化研判提供数据支持。通过本发明，可以为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管，提供数据。

Description

一种烟草专卖市场监管大数据E-R模型的构建方法

技术领域

本发明涉及烟草专卖市场监管信息化建设领域，具体是一种烟草专卖市场监管大数据E-R模型的构建方法。

背景技术

烟草专卖市场监管大数据ER模型，是在严谨的数学理论基础上，借助关系模型设计技术，构建的数据模型。数据ER模型是,目前主流大数据存储技术在数据层面实现和描述的基本方式和核心手段之一。完善、科学、合理、适用的数据模型，将为大数据应用开发，提供可靠的基础和理论。

发明内容

本发明的目的在于克服现有技术的不足，提供一种烟草专卖市场监管大数据E-R模型的构建方法，包括如下步骤：

步骤一：以烟草专卖市场历史涉烟数据为对象，构建用于涉烟数据元聚类的涉烟数据样本集；

步骤二：利用基于涉烟关键词的信息熵，从样本数据集中抽取并生成涉烟数据元；

步骤三：通过烟草专卖领域的内容结构视图，为数据元代入涉烟语义；

步骤四：通过涉烟数据元，构建烟草专卖市场监管大数据E-R模型；

步骤五：通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统，为市场监管和涉烟案件信息化研判提供数据支持。

进一步的，所述的涉烟数据样本集构建包括如下步骤：采集涉烟数据，对数据进行清洗，将数据中的空白数据进行去除，得到清洗后的数据；判断清洗后的数据的时间戳是否有效，若有效，则按照时间先后进行排序；对排序后的数据进行噪声数据修正，对修正后的数据进行格式转换并对齐，得到涉烟数据集。

进一步的，所述的建模方法包括如下步骤：

Step1：以涉烟样本数据集为对象，通过Elasticsearch引擎的涉烟敏感词结构化检索库，进行关键字检索和统计，构建涉烟词云；

Step2：将词云中的关键词聚合为涉烟数据元，通过ANSJ中文分词算法对关键词进行提取和聚类；

Step3：计算涉烟关键词的信息熵，采用的信息熵计算公式如下所示：

H(w)＝-∑plog(p)

其中w代表关键词；H(w)为关键词的信息熵；p代表关键词左侧或右侧出现不同词的统计数；

Step4：H(w)表征ANSJ算法抽取出的关键词的信息熵，不同的关键词所构成的信息熵值序列，通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类，得到涉烟大数据模型中的基本数据元，熵值聚类算法如下所示：

其中X(t)，Y(t)为关键词集合中的两个同类关键词序列的熵值；t为同一类型中不同的关键词序号；P为关键词出现频数；a，b为同类关键词序列的下确界和上确界；d_{p(X(t)，Y(t))}为两个涉烟关键词在样本空间中的泛函空间距离；

Step5：选取临界值r＝0.5，对Step4中的熵值序列进行聚类，抽取出涉烟数据元；

Step6：采用delphi法，将涉烟数据中具有某一共同特性的信息集合，构建内容结构视图；

Step7：按照完整性和合理性约束，内容结构视图中的语义代入到step5中抽取出的数据元中，并利用E-R建模技术，生成数据元体系对应的逻辑模型和物理模型，得到涉烟大数据模型。

本发明的有益效果是：该模型可为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管，提供数据采集接口、多源异构数据的采集导入规范和数据清洗治理的数据模板。

附图说明

图1为为一种烟草专卖市场监管大数据E-R模型的构建方法的流程图；

图2涉烟样本数据集的构建过程；

图3部分样本涉烟关键词云；

图4为烟草专卖市场监管大数据模型逻辑框图；

图5为E-R模型应用流程示意图；

图6为数据元及相关关系的E-R示意图；

图7为涉烟大数据E-R模型框架示意图；

图8为数据元聚类算法流程图；

图9为数据元带入涉烟语义的烟草专卖监管数据元内容结构视图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，本发明所提供的一种烟草专卖市场监管大数据E-R模型的构建方法具体包括如下内容，

步骤一：以烟草专卖市场历史涉烟数据为对象，构建专用于涉烟数据元聚类的涉烟数据样本集；

步骤二：利用基于涉烟关键词的信息熵，从样本数据集中抽取并聚合生成涉烟数据元；

步骤四：以涉烟数据元的实际业务功能和客观现实中的相互联系为基础，抽象出涉烟数据元之间的实体-联系(E-R关系)，构建烟草专卖市场监管大数据E-R模型；

步骤五：以该大数据E-R模型为蓝图，可以指导并生成对应的涉烟大数据数据管理系统，为市场监管和涉烟案件信息化研判提供数据支持。

烟草专卖市场监管大数据ER模型设计构建步骤：

Step1：采用了以下图1步骤方法以四川烟草专卖市场监管历史数据为对象进行样本数据集的构建。涉烟样本数据集的数据来源是客观确定的，其内容与四川省烟草专卖市场监管历史数据存在映射关系。

Step2：词云提供了初始的数据分词信息，还需要进一步进行文本聚类和分类^[2]，将词云中的关键词聚合为涉烟数据元。本文采用ANSJ中文分词算法对关键词提取和聚类。首先使用1～9标度法，建立词性初始权重，并留出权重调整迭代UI界面。词性初始权重设置如下表1。

表1涉烟关键词性初始权重

Step3：计算涉烟关键词的信息熵。从信息论的角度出发，在样本数据中与涉烟关键词搭配的词数和词类的丰富性，反映了该关键词的信息价值，这种丰富性可以用信息熵来表示，从而定量化的实现涉烟数据元的抽取。本文采用的信息熵计算公式：

H(w)＝-∑plog(p) (1)

其中w代表关键词；H(w)为关键词的信息熵；p代表关键词左侧或右侧出现不同词的统计数。

Step4：H(w)表征ANSJ算法抽取出的关键词的信息熵，不同的关键词所构成的信息熵值序列，根据灰色系统中的关联性理论，可利用熵值序列的泛函空间距离对不同的涉烟数据进行聚类，从而形成涉烟大数据模型中的基本数据元。熵值聚类算法如下所示：

其中X(t)，Y(t)为关键词集合中的两个同类关键词序列的熵值；t为同一类型中不同的关键词序号；P为关键词出现频数；a，b为同类关键词序列的下确界和上确界；d_{p(X(t)，Y(t))}为两个涉烟关键词在样本空间中的泛函空间距离。

Step5：选取临界值r＝0.5，对公式(2)中的熵值序列进行聚类，抽取出涉烟数据元。数据元聚类算法如下图3所示。

Step6：根据省内涉烟案件特点和市场环境，采用delphi法，将涉烟数据中具有某一共同特性的信息集合，如某一监管对象、某一种监管活动、某一种违法犯罪行为等，用对应的烟草市场监管语义设计构建内容结构视图，生成的涉烟数据元内容结构视图。

按照完整性和合理性约束，将内容结构视图中的语义代入到step5抽取出的数据元中，并利用E-R建模技术，生成数据元体系对应的逻辑模型和物理模型，构建出完整的涉烟大数据模型，完成建模过程

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种烟草专卖市场监管大数据E-R模型的构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种烟草专卖市场监管大数据E-R模型的构建方法，其特征在于，所述的涉烟数据样本集构建包括如下步骤：采集涉烟数据，对数据进行清洗，将数据中的空白数据进行去除，得到清洗后的数据；判断清洗后的数据的时间戳是否有效，若有效，则按照时间先后进行排序；对排序后的数据进行噪声数据修正，对修正后的数据进行格式转换并对齐，得到涉烟数据集。

3.根据权利要求1所述的一种烟草专卖市场监管大数据E-R模型的构建方法，其特征在于，所述的建模方法包括如下步骤：

H(w)＝-∑plog(p)