CN111858946A - 一种烟草专卖市场监管大数据e-r模型的构建方法 - Google Patents

一种烟草专卖市场监管大数据e-r模型的构建方法 Download PDF

Info

Publication number
CN111858946A
CN111858946A CN202010784941.4A CN202010784941A CN111858946A CN 111858946 A CN111858946 A CN 111858946A CN 202010784941 A CN202010784941 A CN 202010784941A CN 111858946 A CN111858946 A CN 111858946A
Authority
CN
China
Prior art keywords
data
smoke
tobacco
model
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010784941.4A
Other languages
English (en)
Other versions
CN111858946B (zh
Inventor
张玉杰
晏忠泰
史向峰
陈志刚
毛伟宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Tobacco Corp Sichuan Branch
Original Assignee
China National Tobacco Corp Sichuan Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Tobacco Corp Sichuan Branch filed Critical China National Tobacco Corp Sichuan Branch
Priority to CN202010784941.4A priority Critical patent/CN111858946B/zh
Publication of CN111858946A publication Critical patent/CN111858946A/zh
Application granted granted Critical
Publication of CN111858946B publication Critical patent/CN111858946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种烟草专卖市场监管大数据E‑R模型的构建方法,包括如下步骤:步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E‑R模型;步骤五:通过大数据E‑R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。通过本发明,可以为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据。

Description

一种烟草专卖市场监管大数据E-R模型的构建方法
技术领域
本发明涉及烟草专卖市场监管信息化建设领域,具体是一种烟草专卖市场监管大数据E-R模型的构建方法。
背景技术
烟草专卖市场监管大数据ER模型,是在严谨的数学理论基础上,借助关系模型设计技术,构建的数据模型。数据ER模型是,目前主流大数据存储技术在数据层面实现和描述的基本方式和核心手段之一。完善、科学、合理、适用的数据模型,将为大数据应用开发,提供可靠的基础和理论。
发明内容
本发明的目的在于克服现有技术的不足,提供一种烟草专卖市场监管大数据E-R模型的构建方法,包括如下步骤:
步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;
步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
进一步的,所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集。
进一步的,所述的建模方法包括如下步骤:
Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;
Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;
Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:
H(w)=-∑plog(p)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示:
Figure BDA0002621593180000021
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离;
Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;
Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;
Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
本发明的有益效果是:该模型可为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据采集接口、多源异构数据的采集导入规范和数据清洗治理的数据模板。
附图说明
图1为为一种烟草专卖市场监管大数据E-R模型的构建方法的流程图;
图2涉烟样本数据集的构建过程;
图3部分样本涉烟关键词云;
图4为烟草专卖市场监管大数据模型逻辑框图;
图5为E-R模型应用流程示意图;
图6为数据元及相关关系的E-R示意图;
图7为涉烟大数据E-R模型框架示意图;
图8为数据元聚类算法流程图;
图9为数据元带入涉烟语义的烟草专卖监管数据元内容结构视图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,本发明所提供的一种烟草专卖市场监管大数据E-R模型的构建方法具体包括如下内容,
步骤一:以烟草专卖市场历史涉烟数据为对象,构建专用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并聚合生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:以涉烟数据元的实际业务功能和客观现实中的相互联系为基础,抽象出涉烟数据元之间的实体-联系(E-R关系),构建烟草专卖市场监管大数据E-R模型;
步骤五:以该大数据E-R模型为蓝图,可以指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
烟草专卖市场监管大数据ER模型设计构建步骤:
Step1:采用了以下图1步骤方法以四川烟草专卖市场监管历史数据为对象进行样本数据集的构建。涉烟样本数据集的数据来源是客观确定的,其内容与四川省烟草专卖市场监管历史数据存在映射关系。
Step2:词云提供了初始的数据分词信息,还需要进一步进行文本聚类和分类[2],将词云中的关键词聚合为涉烟数据元。本文采用ANSJ中文分词算法对关键词提取和聚类。首先使用1~9标度法,建立词性初始权重,并留出权重调整迭代UI界面。词性初始权重设置如下表1。
表1涉烟关键词性初始权重
Figure BDA0002621593180000031
Step3:计算涉烟关键词的信息熵。从信息论的角度出发,在样本数据中与涉烟关键词搭配的词数和词类的丰富性,反映了该关键词的信息价值,这种丰富性可以用信息熵来表示,从而定量化的实现涉烟数据元的抽取。本文采用的信息熵计算公式:
H(w)=-∑plog(p) (1)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数。
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,根据灰色系统中的关联性理论,可利用熵值序列的泛函空间距离对不同的涉烟数据进行聚类,从而形成涉烟大数据模型中的基本数据元。熵值聚类算法如下所示:
Figure BDA0002621593180000041
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离。
Step5:选取临界值r=0.5,对公式(2)中的熵值序列进行聚类,抽取出涉烟数据元。数据元聚类算法如下图3所示。
Step6:根据省内涉烟案件特点和市场环境,采用delphi法,将涉烟数据中具有某一共同特性的信息集合,如某一监管对象、某一种监管活动、某一种违法犯罪行为等,用对应的烟草市场监管语义设计构建内容结构视图,生成的涉烟数据元内容结构视图。
按照完整性和合理性约束,将内容结构视图中的语义代入到step5抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,构建出完整的涉烟大数据模型,完成建模过程
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (3)

1.一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,包括如下步骤:
步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;
步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
2.根据权利要求1所述的一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集。
3.根据权利要求1所述的一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,所述的建模方法包括如下步骤:
Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;
Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;
Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:
H(w)=-∑plog(p)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示:
Figure FDA0002621593170000011
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离;
Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;
Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;
Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
CN202010784941.4A 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法 Active CN111858946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784941.4A CN111858946B (zh) 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784941.4A CN111858946B (zh) 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法

Publications (2)

Publication Number Publication Date
CN111858946A true CN111858946A (zh) 2020-10-30
CN111858946B CN111858946B (zh) 2024-04-23

Family

ID=72972543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784941.4A Active CN111858946B (zh) 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法

Country Status (1)

Country Link
CN (1) CN111858946B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689225A (zh) * 2021-05-18 2021-11-23 重庆唯渡科技有限公司 一种烟草专卖市场监管中异常客户的分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379755A1 (en) * 2013-03-21 2014-12-25 Infosys Limited Method and system for translating user keywords into semantic queries based on a domain vocabulary
CN104743335A (zh) * 2015-03-11 2015-07-01 江苏中烟工业有限责任公司 一种回用烟箱成品入库分拣方法及分拣装置
CN107093003A (zh) * 2017-03-09 2017-08-25 江苏省烟草公司常州市公司 烟草专卖网格化管理系统
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN110084724A (zh) * 2019-04-29 2019-08-02 湖北省烟草公司武汉市公司 一种基于大数据的涉烟情报协同研判系统
CN110321472A (zh) * 2019-06-12 2019-10-11 中国电子科技集团公司第二十八研究所 基于智能问答技术的舆情监测系统
CN110471959A (zh) * 2019-08-21 2019-11-19 湖北省烟草公司武汉市公司 一种基于大数据的卷烟零售市场监管难度系数的测算方法
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379755A1 (en) * 2013-03-21 2014-12-25 Infosys Limited Method and system for translating user keywords into semantic queries based on a domain vocabulary
CN104743335A (zh) * 2015-03-11 2015-07-01 江苏中烟工业有限责任公司 一种回用烟箱成品入库分拣方法及分拣装置
CN107093003A (zh) * 2017-03-09 2017-08-25 江苏省烟草公司常州市公司 烟草专卖网格化管理系统
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN110084724A (zh) * 2019-04-29 2019-08-02 湖北省烟草公司武汉市公司 一种基于大数据的涉烟情报协同研判系统
CN110321472A (zh) * 2019-06-12 2019-10-11 中国电子科技集团公司第二十八研究所 基于智能问答技术的舆情监测系统
CN110471959A (zh) * 2019-08-21 2019-11-19 湖北省烟草公司武汉市公司 一种基于大数据的卷烟零售市场监管难度系数的测算方法
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李令闯: "基于烟草数字专卖背景下的市场监管应用研究", 合肥学院学报(自然科学版), pages 46 - 50 *
胡宁: "信息网络涉烟监管长效协作机制探析", 商场现代化, pages 251 - 252 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689225A (zh) * 2021-05-18 2021-11-23 重庆唯渡科技有限公司 一种烟草专卖市场监管中异常客户的分析方法
CN113689225B (zh) * 2021-05-18 2024-01-30 重庆唯渡科技有限公司 一种烟草专卖市场监管中异常客户的分析方法

Also Published As

Publication number Publication date
CN111858946B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
CN111125460B (zh) 信息推荐方法及装置
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN111475625A (zh) 基于知识图谱的新闻稿件生成方法及系统
CN107341199B (zh) 一种基于文献信息共性模式的推荐方法
De Boom et al. Semantics-driven event clustering in Twitter feeds
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
Bykau et al. Fine-grained controversy detection in Wikipedia
Yin et al. LPTA: A probabilistic model for latent periodic topic analysis
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN105512301A (zh) 基于社交内容的用户分组方法
Kanagal et al. Indexing correlated probabilistic databases
Duan et al. Research on the service mode of the university library based on data mining
CN117391071B (zh) 一种新闻话题数据挖掘方法、装置及存储介质
CN111858946A (zh) 一种烟草专卖市场监管大数据e-r模型的构建方法
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Qi et al. Scratch-dkg: A framework for constructing scratch domain knowledge graph
Daud et al. Group topic modeling for academic knowledge discovery
Zhou [Retracted] Application of K‐Means Clustering Algorithm in Energy Data Analysis
Cuzzocrea Temporal big data analytics: New frontiers for big data analytics research (panel description)
AT&T
Guo et al. dhcm: Dynamic and hierarchical event categorization and discovery for social media stream
Chen et al. Topic detection over online forum
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant