CN111858946A - 一种烟草专卖市场监管大数据e-r模型的构建方法 - Google Patents
一种烟草专卖市场监管大数据e-r模型的构建方法 Download PDFInfo
- Publication number
- CN111858946A CN111858946A CN202010784941.4A CN202010784941A CN111858946A CN 111858946 A CN111858946 A CN 111858946A CN 202010784941 A CN202010784941 A CN 202010784941A CN 111858946 A CN111858946 A CN 111858946A
- Authority
- CN
- China
- Prior art keywords
- data
- smoke
- tobacco
- model
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000208125 Nicotiana Species 0.000 title claims abstract description 46
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims description 8
- 239000000779 smoke Substances 0.000 claims abstract description 53
- 230000000391 smoking effect Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000013523 data management Methods 0.000 claims abstract description 4
- 238000011160 research Methods 0.000 claims abstract description 4
- 238000013499 data model Methods 0.000 claims description 9
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013278 delphi method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种烟草专卖市场监管大数据E‑R模型的构建方法,包括如下步骤:步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E‑R模型;步骤五:通过大数据E‑R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。通过本发明,可以为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据。
Description
技术领域
本发明涉及烟草专卖市场监管信息化建设领域,具体是一种烟草专卖市场监管大数据E-R模型的构建方法。
背景技术
烟草专卖市场监管大数据ER模型,是在严谨的数学理论基础上,借助关系模型设计技术,构建的数据模型。数据ER模型是,目前主流大数据存储技术在数据层面实现和描述的基本方式和核心手段之一。完善、科学、合理、适用的数据模型,将为大数据应用开发,提供可靠的基础和理论。
发明内容
本发明的目的在于克服现有技术的不足,提供一种烟草专卖市场监管大数据E-R模型的构建方法,包括如下步骤:
步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;
步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
进一步的,所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集。
进一步的,所述的建模方法包括如下步骤:
Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;
Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;
Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:
H(w)=-∑plog(p)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示:
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离;
Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;
Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;
Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
本发明的有益效果是:该模型可为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据采集接口、多源异构数据的采集导入规范和数据清洗治理的数据模板。
附图说明
图1为为一种烟草专卖市场监管大数据E-R模型的构建方法的流程图;
图2涉烟样本数据集的构建过程;
图3部分样本涉烟关键词云;
图4为烟草专卖市场监管大数据模型逻辑框图;
图5为E-R模型应用流程示意图;
图6为数据元及相关关系的E-R示意图;
图7为涉烟大数据E-R模型框架示意图;
图8为数据元聚类算法流程图;
图9为数据元带入涉烟语义的烟草专卖监管数据元内容结构视图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,本发明所提供的一种烟草专卖市场监管大数据E-R模型的构建方法具体包括如下内容,
步骤一:以烟草专卖市场历史涉烟数据为对象,构建专用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并聚合生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:以涉烟数据元的实际业务功能和客观现实中的相互联系为基础,抽象出涉烟数据元之间的实体-联系(E-R关系),构建烟草专卖市场监管大数据E-R模型;
步骤五:以该大数据E-R模型为蓝图,可以指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
烟草专卖市场监管大数据ER模型设计构建步骤:
Step1:采用了以下图1步骤方法以四川烟草专卖市场监管历史数据为对象进行样本数据集的构建。涉烟样本数据集的数据来源是客观确定的,其内容与四川省烟草专卖市场监管历史数据存在映射关系。
Step2:词云提供了初始的数据分词信息,还需要进一步进行文本聚类和分类[2],将词云中的关键词聚合为涉烟数据元。本文采用ANSJ中文分词算法对关键词提取和聚类。首先使用1~9标度法,建立词性初始权重,并留出权重调整迭代UI界面。词性初始权重设置如下表1。
表1涉烟关键词性初始权重
Step3:计算涉烟关键词的信息熵。从信息论的角度出发,在样本数据中与涉烟关键词搭配的词数和词类的丰富性,反映了该关键词的信息价值,这种丰富性可以用信息熵来表示,从而定量化的实现涉烟数据元的抽取。本文采用的信息熵计算公式:
H(w)=-∑plog(p) (1)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数。
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,根据灰色系统中的关联性理论,可利用熵值序列的泛函空间距离对不同的涉烟数据进行聚类,从而形成涉烟大数据模型中的基本数据元。熵值聚类算法如下所示:
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离。
Step5:选取临界值r=0.5,对公式(2)中的熵值序列进行聚类,抽取出涉烟数据元。数据元聚类算法如下图3所示。
Step6:根据省内涉烟案件特点和市场环境,采用delphi法,将涉烟数据中具有某一共同特性的信息集合,如某一监管对象、某一种监管活动、某一种违法犯罪行为等,用对应的烟草市场监管语义设计构建内容结构视图,生成的涉烟数据元内容结构视图。
按照完整性和合理性约束,将内容结构视图中的语义代入到step5抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,构建出完整的涉烟大数据模型,完成建模过程
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (3)
1.一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,包括如下步骤:
步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;
步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
2.根据权利要求1所述的一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集。
3.根据权利要求1所述的一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,所述的建模方法包括如下步骤:
Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;
Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;
Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:
H(w)=-∑plog(p)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示:
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离;
Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;
Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;
Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784941.4A CN111858946B (zh) | 2020-08-06 | 2020-08-06 | 一种烟草专卖市场监管大数据e-r模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784941.4A CN111858946B (zh) | 2020-08-06 | 2020-08-06 | 一种烟草专卖市场监管大数据e-r模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858946A true CN111858946A (zh) | 2020-10-30 |
CN111858946B CN111858946B (zh) | 2024-04-23 |
Family
ID=72972543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010784941.4A Active CN111858946B (zh) | 2020-08-06 | 2020-08-06 | 一种烟草专卖市场监管大数据e-r模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858946B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689225A (zh) * | 2021-05-18 | 2021-11-23 | 重庆唯渡科技有限公司 | 一种烟草专卖市场监管中异常客户的分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379755A1 (en) * | 2013-03-21 | 2014-12-25 | Infosys Limited | Method and system for translating user keywords into semantic queries based on a domain vocabulary |
CN104743335A (zh) * | 2015-03-11 | 2015-07-01 | 江苏中烟工业有限责任公司 | 一种回用烟箱成品入库分拣方法及分拣装置 |
CN107093003A (zh) * | 2017-03-09 | 2017-08-25 | 江苏省烟草公司常州市公司 | 烟草专卖网格化管理系统 |
CN109597850A (zh) * | 2018-11-22 | 2019-04-09 | 四川省烟草公司成都市公司 | 烟草综合信息数据加工储存平台及数据加工方法 |
CN110084724A (zh) * | 2019-04-29 | 2019-08-02 | 湖北省烟草公司武汉市公司 | 一种基于大数据的涉烟情报协同研判系统 |
CN110321472A (zh) * | 2019-06-12 | 2019-10-11 | 中国电子科技集团公司第二十八研究所 | 基于智能问答技术的舆情监测系统 |
CN110471959A (zh) * | 2019-08-21 | 2019-11-19 | 湖北省烟草公司武汉市公司 | 一种基于大数据的卷烟零售市场监管难度系数的测算方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
-
2020
- 2020-08-06 CN CN202010784941.4A patent/CN111858946B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379755A1 (en) * | 2013-03-21 | 2014-12-25 | Infosys Limited | Method and system for translating user keywords into semantic queries based on a domain vocabulary |
CN104743335A (zh) * | 2015-03-11 | 2015-07-01 | 江苏中烟工业有限责任公司 | 一种回用烟箱成品入库分拣方法及分拣装置 |
CN107093003A (zh) * | 2017-03-09 | 2017-08-25 | 江苏省烟草公司常州市公司 | 烟草专卖网格化管理系统 |
CN109597850A (zh) * | 2018-11-22 | 2019-04-09 | 四川省烟草公司成都市公司 | 烟草综合信息数据加工储存平台及数据加工方法 |
CN110084724A (zh) * | 2019-04-29 | 2019-08-02 | 湖北省烟草公司武汉市公司 | 一种基于大数据的涉烟情报协同研判系统 |
CN110321472A (zh) * | 2019-06-12 | 2019-10-11 | 中国电子科技集团公司第二十八研究所 | 基于智能问答技术的舆情监测系统 |
CN110471959A (zh) * | 2019-08-21 | 2019-11-19 | 湖北省烟草公司武汉市公司 | 一种基于大数据的卷烟零售市场监管难度系数的测算方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
Non-Patent Citations (2)
Title |
---|
李令闯: "基于烟草数字专卖背景下的市场监管应用研究", 合肥学院学报(自然科学版), pages 46 - 50 * |
胡宁: "信息网络涉烟监管长效协作机制探析", 商场现代化, pages 251 - 252 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689225A (zh) * | 2021-05-18 | 2021-11-23 | 重庆唯渡科技有限公司 | 一种烟草专卖市场监管中异常客户的分析方法 |
CN113689225B (zh) * | 2021-05-18 | 2024-01-30 | 重庆唯渡科技有限公司 | 一种烟草专卖市场监管中异常客户的分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111858946B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125460B (zh) | 信息推荐方法及装置 | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN111475625A (zh) | 基于知识图谱的新闻稿件生成方法及系统 | |
CN107341199B (zh) | 一种基于文献信息共性模式的推荐方法 | |
De Boom et al. | Semantics-driven event clustering in Twitter feeds | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
Bykau et al. | Fine-grained controversy detection in Wikipedia | |
Yin et al. | LPTA: A probabilistic model for latent periodic topic analysis | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN105512301A (zh) | 基于社交内容的用户分组方法 | |
Kanagal et al. | Indexing correlated probabilistic databases | |
Duan et al. | Research on the service mode of the university library based on data mining | |
CN117391071B (zh) | 一种新闻话题数据挖掘方法、装置及存储介质 | |
CN111858946A (zh) | 一种烟草专卖市场监管大数据e-r模型的构建方法 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Qi et al. | Scratch-dkg: A framework for constructing scratch domain knowledge graph | |
Daud et al. | Group topic modeling for academic knowledge discovery | |
Zhou | [Retracted] Application of K‐Means Clustering Algorithm in Energy Data Analysis | |
Cuzzocrea | Temporal big data analytics: New frontiers for big data analytics research (panel description) | |
AT&T | ||
Guo et al. | dhcm: Dynamic and hierarchical event categorization and discovery for social media stream | |
Chen et al. | Topic detection over online forum | |
Yang et al. | Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |