CN111858946B - 一种烟草专卖市场监管大数据e-r模型的构建方法 - Google Patents

一种烟草专卖市场监管大数据e-r模型的构建方法 Download PDF

Info

Publication number
CN111858946B
CN111858946B CN202010784941.4A CN202010784941A CN111858946B CN 111858946 B CN111858946 B CN 111858946B CN 202010784941 A CN202010784941 A CN 202010784941A CN 111858946 B CN111858946 B CN 111858946B
Authority
CN
China
Prior art keywords
data
smoke
tobacco
model
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010784941.4A
Other languages
English (en)
Other versions
CN111858946A (zh
Inventor
张玉杰
晏忠泰
史向峰
陈志刚
毛伟宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Tobacco Corp Sichuan Branch
Original Assignee
China National Tobacco Corp Sichuan Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Tobacco Corp Sichuan Branch filed Critical China National Tobacco Corp Sichuan Branch
Priority to CN202010784941.4A priority Critical patent/CN111858946B/zh
Publication of CN111858946A publication Critical patent/CN111858946A/zh
Application granted granted Critical
Publication of CN111858946B publication Critical patent/CN111858946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种烟草专卖市场监管大数据E‑R模型的构建方法,包括如下步骤:步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E‑R模型;步骤五:通过大数据E‑R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。通过本发明,可以为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据。

Description

一种烟草专卖市场监管大数据E-R模型的构建方法
技术领域
本发明涉及烟草专卖市场监管信息化建设领域,具体是一种烟草专卖市场监管大数据E-R模型的构建方法。
背景技术
烟草专卖市场监管大数据ER模型,是在严谨的数学理论基础上,借助关系模型设计技术,构建的数据模型。数据ER模型是,目前主流大数据存储技术在数据层面实现和描述的基本方式和核心手段之一。完善、科学、合理、适用的数据模型,将为大数据应用开发,提供可靠的基础和理论。
发明内容
本发明的目的在于克服现有技术的不足,提供一种烟草专卖市场监管大数据E-R模型的构建方法,包括如下步骤:
步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;
步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
进一步的,所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集。
进一步的,所述的建模方法包括如下步骤:
Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;
Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;
Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:
H(w)=-∑plog(p)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示:
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离;
Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;
Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;
Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
本发明的有益效果是:该模型可为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据采集接口、多源异构数据的采集导入规范和数据清洗治理的数据模板。
附图说明
图1为为一种烟草专卖市场监管大数据E-R模型的构建方法的流程图;
图2涉烟样本数据集的构建过程;
图3部分样本涉烟关键词云;
图4为烟草专卖市场监管大数据模型逻辑框图;
图5为E-R模型应用流程示意图;
图6为数据元及相关关系的E-R示意图;
图7为涉烟大数据E-R模型框架示意图;
图8为数据元聚类算法流程图;
图9为数据元带入涉烟语义的烟草专卖监管数据元内容结构视图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,本发明所提供的一种烟草专卖市场监管大数据E-R模型的构建方法具体包括如下内容,
步骤一:以烟草专卖市场历史涉烟数据为对象,构建专用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并聚合生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:以涉烟数据元的实际业务功能和客观现实中的相互联系为基础,抽象出涉烟数据元之间的实体-联系(E-R关系),构建烟草专卖市场监管大数据E-R模型;
步骤五:以该大数据E-R模型为蓝图,可以指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。
烟草专卖市场监管大数据ER模型设计构建步骤:
Step1:采用了以下图1步骤方法以四川烟草专卖市场监管历史数据为对象进行样本数据集的构建。涉烟样本数据集的数据来源是客观确定的,其内容与四川省烟草专卖市场监管历史数据存在映射关系。
Step2:词云提供了初始的数据分词信息,还需要进一步进行文本聚类和分类[2],将词云中的关键词聚合为涉烟数据元。本文采用ANSJ中文分词算法对关键词提取和聚类。首先使用1~9标度法,建立词性初始权重,并留出权重调整迭代UI界面。词性初始权重设置如下表1。
表1涉烟关键词性初始权重
Step3:计算涉烟关键词的信息熵。从信息论的角度出发,在样本数据中与涉烟关键词搭配的词数和词类的丰富性,反映了该关键词的信息价值,这种丰富性可以用信息熵来表示,从而定量化的实现涉烟数据元的抽取。本文采用的信息熵计算公式:
H(w)=-∑plog(p) (1)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数。
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,根据灰色系统中的关联性理论,可利用熵值序列的泛函空间距离对不同的涉烟数据进行聚类,从而形成涉烟大数据模型中的基本数据元。熵值聚类算法如下所示:
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(X(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离。
Step5:选取临界值r=0.5,对公式(2)中的熵值序列进行聚类,抽取出涉烟数据元。数据元聚类算法如下图3所示。
Step6:根据省内涉烟案件特点和市场环境,采用delphi法,将涉烟数据中具有某一共同特性的信息集合,如某一监管对象、某一种监管活动、某一种违法犯罪行为等,用对应的烟草市场监管语义设计构建内容结构视图,生成的涉烟数据元内容结构视图。
按照完整性和合理性约束,将内容结构视图中的语义代入到step5抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,构建出完整的涉烟大数据模型,完成建模过程
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (1)

1.一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,包括如下步骤:
步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;
步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;
步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;
步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;
步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持;
所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集;
建模方法包括如下步骤:
Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;
Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;
Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:
H(w)=-∑plog(p)
其中w代表关键词;H(w)为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;
Step4:H(w)表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示:
其中X(t),Y(t)为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dp(x(t),Y(t))为两个涉烟关键词在样本空间中的泛函空间距离;
Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;
Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;
Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
CN202010784941.4A 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法 Active CN111858946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784941.4A CN111858946B (zh) 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784941.4A CN111858946B (zh) 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法

Publications (2)

Publication Number Publication Date
CN111858946A CN111858946A (zh) 2020-10-30
CN111858946B true CN111858946B (zh) 2024-04-23

Family

ID=72972543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784941.4A Active CN111858946B (zh) 2020-08-06 2020-08-06 一种烟草专卖市场监管大数据e-r模型的构建方法

Country Status (1)

Country Link
CN (1) CN111858946B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689225B (zh) * 2021-05-18 2024-01-30 重庆唯渡科技有限公司 一种烟草专卖市场监管中异常客户的分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104743335A (zh) * 2015-03-11 2015-07-01 江苏中烟工业有限责任公司 一种回用烟箱成品入库分拣方法及分拣装置
CN107093003A (zh) * 2017-03-09 2017-08-25 江苏省烟草公司常州市公司 烟草专卖网格化管理系统
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN110084724A (zh) * 2019-04-29 2019-08-02 湖北省烟草公司武汉市公司 一种基于大数据的涉烟情报协同研判系统
CN110321472A (zh) * 2019-06-12 2019-10-11 中国电子科技集团公司第二十八研究所 基于智能问答技术的舆情监测系统
CN110471959A (zh) * 2019-08-21 2019-11-19 湖北省烟草公司武汉市公司 一种基于大数据的卷烟零售市场监管难度系数的测算方法
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013CH01237A (zh) * 2013-03-21 2015-08-14 Infosys Ltd

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104743335A (zh) * 2015-03-11 2015-07-01 江苏中烟工业有限责任公司 一种回用烟箱成品入库分拣方法及分拣装置
CN107093003A (zh) * 2017-03-09 2017-08-25 江苏省烟草公司常州市公司 烟草专卖网格化管理系统
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN110084724A (zh) * 2019-04-29 2019-08-02 湖北省烟草公司武汉市公司 一种基于大数据的涉烟情报协同研判系统
CN110321472A (zh) * 2019-06-12 2019-10-11 中国电子科技集团公司第二十八研究所 基于智能问答技术的舆情监测系统
CN110471959A (zh) * 2019-08-21 2019-11-19 湖北省烟草公司武汉市公司 一种基于大数据的卷烟零售市场监管难度系数的测算方法
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
信息网络涉烟监管长效协作机制探析;胡宁;商场现代化;251-252 *
基于烟草数字专卖背景下的市场监管应用研究;李令闯;合肥学院学报(自然科学版);46-50+100 *

Also Published As

Publication number Publication date
CN111858946A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
Barrón-Cedeno et al. Proppy: A system to unmask propaganda in online news
US20230013306A1 (en) Sensitive Data Classification
García et al. Data preprocessing in data mining
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CA2953969C (en) Interactive interfaces for machine learning model evaluations
US20200081899A1 (en) Automated database schema matching
US9292797B2 (en) Semi-supervised data integration model for named entity classification
CN111125460B (zh) 信息推荐方法及装置
Sun et al. Learned cardinality estimation: A design space exploration and a comparative evaluation
EP3270303A1 (en) An automated monitoring and archiving system and method
CN111143838B (zh) 数据库用户异常行为检测方法
CN110633371A (zh) 一种日志分类方法及系统
US10467255B2 (en) Methods and systems for analyzing reading logs and documents thereof
JP2023510791A (ja) 意味空間内のベクトル表示にタームをマッピングするためのシステム及び方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111858946B (zh) 一种烟草专卖市场监管大数据e-r模型的构建方法
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Wang et al. An improved clustering method for detection system of public security events based on genetic algorithm and semisupervised learning
Nguyen et al. TabEAno: table to knowledge graph entity annotation
Qiu et al. CLDA: An effective topic model for mining user interest preference under big data background
Shu et al. Automatic extraction of web page text information based on network topology coincidence degree
Kostakis et al. Distance measure for querying sequences of temporal intervals
Lee et al. Event evolution tracking from streaming social posts
CN109918367B (zh) 一种结构化数据的清洗方法、装置、电子设备及存储介质
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant