CN113378576A - 食品安全数据挖掘方法 - Google Patents
食品安全数据挖掘方法 Download PDFInfo
- Publication number
- CN113378576A CN113378576A CN202110498434.9A CN202110498434A CN113378576A CN 113378576 A CN113378576 A CN 113378576A CN 202110498434 A CN202110498434 A CN 202110498434A CN 113378576 A CN113378576 A CN 113378576A
- Authority
- CN
- China
- Prior art keywords
- words
- sentence
- sentences
- emotion
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种食品安全数据挖掘方法,包括以下步骤:S1.采集网络文本,并对网络文本进行预处理;S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词;S3.确定情感词的情感值,并形成情感值对照表;构建程度词权重表和否定词权重表;S4.判断预处理后的网络文本中的评论句句型,包括转折句、递进句和条件句,并根据评论句之间的关系确定出权重调节系数;S5.基于步骤S3步骤S4中的参数,计算预处理后的网络文本的情感倾向值,将情感倾向值大于设定阈值的评论句记录到正向评价集合中,将情感倾向值小于设定阈值的评论句记录到负向评价集合中,通过上述方法,能够从网络文本中挖掘出准确的具有倾向性的评语数据,从而能够准确把握食品安全的舆情信息,从而能够为食品监督、监管提供准确的数据支持。
Description
技术领域
本发明涉及一种数据挖掘方法,尤其涉及一种食品安全数据挖掘方法。
背景技术
食品安全是现代社会中极为重要的话题,而且,由于网络技术的发展,人们在日常生活中对食品安全在网络上进行相应的意见评述,这些评述中往往具有正面的,负面的亦或是中性的评述,现有技术中,关于食品的网络评述文本中的有效数据进行准确挖掘是一个系带解决的技术难题。
发明内容
有鉴于此,本发明的目的是提供一种食品安全数据挖掘方法,能够从网络文本中挖掘出准确的具有倾向性的评语数据,从而能够为食品监督、监管提供准确的数据支持。
本发明提供的一种食品安全数据挖掘方法,包括以下步骤:
S1.采集网络文本,并对网络文本进行预处理;
S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词;
S3.确定情感词的情感值,并形成情感值对照表;构建程度词权重表和否定词权重表;
S4.判断预处理后的网络文本中的评论句句型,包括转折句、递进句和条件句,并根据评论句之间的关系确定出权重调节系数;
S5.基于步骤S3步骤S4中的参数,计算预处理后的网络文本的情感倾向值,将情感倾向值大于设定阈值的评论句记录到正向评价集合中,将情感倾向值小于设定阈值的评论句记录到负向评价集合中。
进一步,步骤S1中,对于网络文本的预处理包括:
S11.对网络文本进行有序化处理,并剔除网络文本中的停用词、无关词;
S12.对步骤S1中处理后的网络文本进行指代消解:
S121.基于fasttext分类模型对网络文本进行指代词检测;
S122.基于BiLSTM_CRF深度学习模型进行网络文本中的实体词进行提取;
S123.将网络文本的指代词替换成相对应的实体词。
进一步,步骤S5中,根据如下模型计算网络文本的情感倾向值S:
S=S1+S2+S3,其中,S1为网络文本中一般陈述句的情感倾向值,S2为网络文本中转折句的情感倾向值,S3为条件句的情感倾向值。
进一步,一般陈述句的情感倾向值通过如下方法计算:
进一步,转折句的情感倾向值通过如下方法计算:
其中,wneg1为转折句中正向情感特征词的否定词的平均权重,wneg2为转折句中负向情感特征词的否定词的平均权重,wdeg1为转折句中正向情感特征词的程度词的权重,wdeg2为转折句中负向情感特征词的程度词的权重,r1为转折句中程度词的权重调节系数,t1为转折句中否定词的权重调节系数;Se1为转折句中正向情感特征词的情感值,Se2为转折句中负向情感特征词的权重,q为转折句的个数。
进一步,递进句的情感倾向值通过如下方法计算:
其中,Se为递进句的情感特征词的情感值,wdeg为递进句的程度词的权重,wneg为递进句中的否定词的平均权重,m为否定词的个数,r2为递进句中程度词的权重调节系数,t2为递进句中否定词的权重调节系数。
本发明的有益效果:通过本发明,能够从网络文本中挖掘出准确的具有倾向性的评语数据,从而能够为食品监督、监管提供准确的数据支持。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的流程图。
具体实施方式
以下结合说明书附图对本发明做出进一步详细说明:
本发明提供的一种食品安全数据挖掘方法,包括以下步骤:
S1.采集网络文本,并对网络文本进行预处理;
S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词;对于食品特征词即是关于食品的相关特征的描述,比如包装、安全、添加剂含量等等,情感词比如好、差、不错等,程度词包括最、非常、尤其等,否定包括不、恶劣等等,这些都是可以通过现有的方法建立相应的词典实现,在此不加以赘述;
S3.确定情感词的情感值,并形成情感值对照表;构建程度词权重表和否定词权重表;情感词的基础情感值的计算通过现有算法实现,比如TF-IDF算法;
S4.判断预处理后的网络文本中的评论句句型,包括转折句、递进句和条件句,并根据评论句之间的关系确定出权重调节系数;其中,相关的权重调节系数根据实际的食品领域、经验等进行确定;
S5.基于步骤S3步骤S4中的参数,计算预处理后的网络文本的情感倾向值,将情感倾向值大于设定阈值的评论句记录到正向评价集合中,将情感倾向值小于设定阈值的评论句记录到负向评价集合中,通过上述方法,能够从网络文本中挖掘出准确的具有倾向性的评语数据,从而能够准确把握食品安全的舆情信息,从而能够为食品监督、监管提供准确的数据支持。
本实施例中,步骤S1中,对于网络文本的预处理包括:
S11.对网络文本进行有序化处理,并剔除网络文本中的停用词、无关词;在网络评语中,用户的语言组织往往不是有序的,而是杂乱的,因此,需要对文本进行有序化处理,通过调整词语的顺序将语言表达合理化,准确化,而且,在文本中一些停用词,无关词(比如评价某一个食品安全性,而出现“我买了很多”这类,这就是无关的);
S12.对步骤S1中处理后的网络文本进行指代消解:
S121.基于fasttext分类模型对网络文本进行指代词检测;
S122.基于BiLSTM_CRF深度学习模型进行网络文本中的实体词进行提取;
S123.将网络文本的指代词替换成相对应的实体词。通过上述方法,能够准确的确定出情感特征词、与情感特征词有关的程度词、否定词等,从而确保后续处理的准确性。
本实施例中,步骤S5中,根据如下模型计算网络文本的情感倾向值S:
S=S1+S2+S3,其中,S1为网络文本中一般陈述句的情感倾向值,S2为网络文本中转折句的情感倾向值,S3为条件句的情感倾向值。
一般陈述句的情感倾向值通过如下方法计算:
转折句的情感倾向值通过如下方法计算:
其中,wneg1为转折句中正向情感特征词的否定词的平均权重,wneg2为转折句中负向情感特征词的否定词的平均权重,wdeg1为转折句中正向情感特征词的程度词的权重,wdeg2为转折句中负向情感特征词的程度词的权重,r1为转折句中程度词的权重调节系数,t1为转折句中否定词的权重调节系数;Se1为转折句中正向情感特征词的情感值,Se2为转折句中负向情感特征词的权重,q为转折句的个数。
递进句的情感倾向值通过如下方法计算:
其中,Se为递进句的情感特征词的情感值,wdeg为递进句的程度词的权重,wneg为递进句中的否定词的平均权重,m为否定词的个数,r2为递进句中程度词的权重调节系数,t2为递进句中否定词的权重调节系数;其中,关于句型,还有疑问句、反问句这类,事实上这类可以转化为一般陈述句,因此,只需要通过形式转化即可,而递进句,转折句,这两类句型会影响到用户的情感倾向,因此,通过上述方法,能够准确地评价用户的情感倾向,确保挖局出的数据的准确性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种食品安全数据挖掘方法,其特征在于:包括以下步骤:
S1.采集网络文本,并对网络文本进行预处理;
S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词;
S3.确定情感词的情感值,并形成情感值对照表;构建程度词权重表和否定词权重表;
S4.判断预处理后的网络文本中的评论句句型,包括转折句、递进句和条件句,并根据评论句之间的关系确定出权重调节系数;
S5.基于步骤S3步骤S4中的参数,计算预处理后的网络文本的情感倾向值,将情感倾向值大于设定阈值的评论句记录到正向评价集合中,将情感倾向值小于设定阈值的评论句记录到负向评价集合中。
2.根据权利要求1所述食品安全数据挖掘方法,其特征在于:步骤S1中,对于网络文本的预处理包括:
S11.对网络文本进行有序化处理,并剔除网络文本中的停用词、无关词;
S12.对步骤S1中处理后的网络文本进行指代消解:
S121.基于fasttext分类模型对网络文本进行指代词检测;
S122.基于BiLSTM_CRF深度学习模型进行网络文本中的实体词进行提取;
S123.将网络文本的指代词替换成相对应的实体词。
3.根据权利要求1所述食品安全数据挖掘方法,其特征在于:步骤S5中,根据如下模型计算网络文本的情感倾向值S:
S=S1+S2+S3,其中,S1为网络文本中一般陈述句的情感倾向值,S2为网络文本中转折句的情感倾向值,S3为条件句的情感倾向值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498434.9A CN113378576B (zh) | 2021-05-08 | 2021-05-08 | 食品安全数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498434.9A CN113378576B (zh) | 2021-05-08 | 2021-05-08 | 食品安全数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378576A true CN113378576A (zh) | 2021-09-10 |
CN113378576B CN113378576B (zh) | 2023-05-26 |
Family
ID=77570831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498434.9A Active CN113378576B (zh) | 2021-05-08 | 2021-05-08 | 食品安全数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378576B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255979A (ja) * | 2002-03-06 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | データ編集方法、データ編集装置、データ編集プログラム |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN106202200A (zh) * | 2016-06-28 | 2016-12-07 | 昆明理工大学 | 一种基于固定主题的文本情感倾向性分类方法 |
CN108363696A (zh) * | 2018-02-24 | 2018-08-03 | 李小明 | 一种文本信息的处理方法及装置 |
CN108647257A (zh) * | 2018-04-24 | 2018-10-12 | 北京科技大学 | 一种微博情感确定方法 |
CN109948139A (zh) * | 2017-12-19 | 2019-06-28 | 优酷网络技术(北京)有限公司 | 一种语义倾向分析方法及系统 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN111488456A (zh) * | 2020-04-10 | 2020-08-04 | 北京洛必德科技有限公司 | 一种商家用户评价分析方法及系统 |
CN112100375A (zh) * | 2020-09-10 | 2020-12-18 | 清华大学 | 文本信息生成方法、装置、存储介质及设备 |
CN112214991A (zh) * | 2020-10-10 | 2021-01-12 | 上海海事大学 | 一种基于多特征融合加权的微博文本立场检测方法 |
CN112347259A (zh) * | 2020-11-17 | 2021-02-09 | 河北工程大学 | 一种结合词典与机器学习的评论文本情感分析方法 |
CN112633012A (zh) * | 2020-12-31 | 2021-04-09 | 浙大城市学院 | 一种基于实体类型匹配的未登录词替换方法 |
CN112767969A (zh) * | 2021-01-29 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 用于语音信息的情感倾向性确定方法及系统 |
-
2021
- 2021-05-08 CN CN202110498434.9A patent/CN113378576B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255979A (ja) * | 2002-03-06 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | データ編集方法、データ編集装置、データ編集プログラム |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN106202200A (zh) * | 2016-06-28 | 2016-12-07 | 昆明理工大学 | 一种基于固定主题的文本情感倾向性分类方法 |
CN109948139A (zh) * | 2017-12-19 | 2019-06-28 | 优酷网络技术(北京)有限公司 | 一种语义倾向分析方法及系统 |
CN108363696A (zh) * | 2018-02-24 | 2018-08-03 | 李小明 | 一种文本信息的处理方法及装置 |
CN108647257A (zh) * | 2018-04-24 | 2018-10-12 | 北京科技大学 | 一种微博情感确定方法 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN111488456A (zh) * | 2020-04-10 | 2020-08-04 | 北京洛必德科技有限公司 | 一种商家用户评价分析方法及系统 |
CN112100375A (zh) * | 2020-09-10 | 2020-12-18 | 清华大学 | 文本信息生成方法、装置、存储介质及设备 |
CN112214991A (zh) * | 2020-10-10 | 2021-01-12 | 上海海事大学 | 一种基于多特征融合加权的微博文本立场检测方法 |
CN112347259A (zh) * | 2020-11-17 | 2021-02-09 | 河北工程大学 | 一种结合词典与机器学习的评论文本情感分析方法 |
CN112633012A (zh) * | 2020-12-31 | 2021-04-09 | 浙大城市学院 | 一种基于实体类型匹配的未登录词替换方法 |
CN112767969A (zh) * | 2021-01-29 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 用于语音信息的情感倾向性确定方法及系统 |
Non-Patent Citations (5)
Title |
---|
KENNEDY ALISTAIR 等: "Sentiment classification of movie reviews using contextual valence shifters", 《COMPUTATIONAL INTELLIGENCE》 * |
KOCON JAN 等: "Recognition of emotions, valence and arousal in large-scale multi-domain text reviews", 《HUMAN LANGUAGE TECHNOLOGIES AS A CHALLENGE FOR COMPUTER SCIENCE AND LINGUISTICS》 * |
兰玉婷: "基于特征本体和情感词典的微博产品评论情感分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
庄婷婷: "基于机器学习的微博情感分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈黎明: "面向网络舆情的话题检测与追踪方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113378576B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147452B (zh) | 一种基于层级bert神经网络的粗粒度情感分析方法 | |
CN109871451B (zh) | 一种融入动态词向量的关系抽取方法和系统 | |
CN105138506B (zh) | 一种金融文本情感分析方法 | |
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
Bharathi et al. | Sentiment analysis for effective stock market prediction | |
CN111221939B (zh) | 评分方法、装置和电子设备 | |
CN107807987A (zh) | 一种字符串分类方法、系统及一种字符串分类设备 | |
CN112507711A (zh) | 文本摘要抽取方法及系统 | |
CN112307130B (zh) | 一种文档级远程监督关系抽取方法及系统 | |
US11748426B2 (en) | Personalized comment recommendation method based on link prediction model of graph bidirectional aggregation network | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN116306600B (zh) | 一种基于MacBert的中文文本纠错方法 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN112364646A (zh) | 一种考虑修饰词的句子评论情感极性分析方法 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN113378578B (zh) | 食药舆情分析方法 | |
CN113378576B (zh) | 食品安全数据挖掘方法 | |
Cabanski et al. | Hhu at semeval-2017 task 5: Fine-grained sentiment analysis on financial data using machine learning methods | |
CN113343118A (zh) | 混合新媒体下的热点事件发现方法 | |
CN113822052A (zh) | 一种文本错误检测方法、装置、电子设备及存储介质 | |
CN113378577B (zh) | 食品安全评价文本情感倾向分析方法 | |
Tavares et al. | Sentiment analysis of Portuguese economic news | |
CN114254091A (zh) | 一种基于金融情感词典的情感倾向性分析与评价模型 | |
CN113282715A (zh) | 结合深度学习的大数据话题评论情绪分析方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |