CN110569333B - 一种利用药品文本广告鉴定虚假药品的方法 - Google Patents
一种利用药品文本广告鉴定虚假药品的方法 Download PDFInfo
- Publication number
- CN110569333B CN110569333B CN201910857872.2A CN201910857872A CN110569333B CN 110569333 B CN110569333 B CN 110569333B CN 201910857872 A CN201910857872 A CN 201910857872A CN 110569333 B CN110569333 B CN 110569333B
- Authority
- CN
- China
- Prior art keywords
- advertisement
- drug
- false
- feature
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种利用药品文本广告鉴定虚假药品的方法,属于虚假药品的鉴定方法领域,本发明提供了一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。本发明中,收集整理虚假药品文本广告数据,并对相关广告数据定义标签特征;对广告数据进行筛选,得出表征广告特征的特征集;利用信息增益方法对标签特征集进行筛选,得到能够标识全体数据的最小特征子集,并减少特征矩阵的维度;对特征子集进行训练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;将需要鉴别的文本广告作为输入量传递至训练后的鉴定模型,鉴定模型输出结果即为药品广告真伪性识别结果。本发明主要用于鉴定虚假药品。
Description
技术领域
本发明属于虚假药品的鉴定方法领域,具体涉及一种利用药品文本广告鉴定虚假药品 的方法。
背景技术
近几年,随着互联网迅速发展和网民人数逐渐增多,网络虚假信息开始泛滥并日趋严 重;其中,虚假广告是其中一种典型。以虚假药品广告为例,其具有严重社会危害:不仅 损害患者的合法权益,甚至导致患者财产损失和生命危险。互联网中的医药广告发布的形 式多样,不仅限于医药网站,其在医药相关贴吧、论坛,医药宣传微博和搜索推广平台均可隐秘存在。同时,当前互联网信息服务的相关法制建设在虚假药品广告方面还不够健全,对于查处的虚假药品广告与机构后续追踪力度不大等原因提高了药品广告的监管难度。查处的虚假药品广告在改头换面之后往往还是继续生存。
随着机器学习与人工智能算法的发展,数据挖掘技术已在多种实际分类和回归问题中 得到有效应用,如(医疗)图像识别、期刊影响因子操纵识别、风速预测、能源效率影响因素的识别及预测等。对于欺诈检测的研究国外比国内时间要早很多,研究方向与方法更为多样。欺诈检测的方法可分为有监督和无监督两种。有监督方法利用收集的欺诈和真实样本记录的类别属性建立模型,再对新记录的类别属性进行标记,有监督方法对已经出现过的欺诈类型分类效果较好,对新的类型分类效果较差;而无监督方法不提供标记的类别属性,而是去寻找异常的数据,使其聚类。在欺诈检测的应用领域中,国内和国外对于信 用卡欺诈和电信领域欺诈的研究均比较深入,方法也比较多样。对于信用卡领域,信用卡 交易实质上就是金钱的交易,往往非常少数的欺诈行为会对借贷方如银行造成巨大的金钱损失,因此对于欺诈行为的识别一直以来都是信用卡行业关注的重点。例如,一些学者将基于案例推理方法,利用概率曲线,最佳匹配,密度选择,否定选择以及组合算法实现信 贷审批中的欺诈检测应用,结论表明,结合多邻域和概率算法的自适应诊断算法具有最好 的表现结果,并且自适应求解可以提供欺诈过滤和案例排序功能,可以减少欺诈调查的数量。也有一些研究人员针对电信欺诈提出两段式欺诈检测模型,建立候选规则并筛选形成一定的规则集,实验结果表明这种方法具有相当程度的可行性。
在虚假医疗信息研究方面,还有部分学者基于对一段时间内某电视台播放的非处方药 以及处方药广告分析,将以患者为投放对象的医疗商业广告划分为客观真实广告,疑似虚 假广告和虚假广告三种类型。疑似虚假广告一般会遗漏重要的信息,并夸大事实,与生活 方式相关联或表达一定的观点立场,虚假广告是事实上的虚假或播放未经证实的信息。研 究结论表明疑似虚假广告在以患者为对象的处方药和非处方药中都非常普遍,与医疗广告 的社会价值是为患者提供关于药品情报的观点是相违背的。然而,医疗广告在的投放媒介 不能简单的概括成多媒体模式,还存在文本形式的医疗广告,而且范围更广。但目前对文 本形式的医疗广告的识别仍未有公开报道记载其解决办法。
因此,就需要一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用 药品文本广告鉴定虚假药品的方法。
发明内容
本发明针对现有的医疗药品广告虚假宣传、无法保障药品安全流通、无法鉴别广告真 伪的缺陷,提供了一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用 药品文本广告鉴定虚假药品的方法。
本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法的技术方案如下:
本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法,它包括以下步骤:
步骤一、收集整理虚假药品广告文本的公开数据,并对所述公开数据定义标签;所述 标签具体为真实或虚假;得到真实/虚假广告数据库;
步骤二、采用特征提取和特征选择方法对广告数据库进行筛选,根据所述广告文本的 公开数据定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集;
步骤三、利用信息增益方法对所述特征集进行筛选,得到标识全体数据最小的特征子 集;
步骤四、采用序列最小优化算法的基于径向基函数支持向量机对所述特征子集进行训 练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;
步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型,所述鉴定 模型输出的结果即为药品广告真伪性识别结果。
进一步地:在步骤二中,所述词法特征包括基于字符的特征和基于词汇的特征,所述 基于字符的特征包括汉字字数、字符总数、数值型字符总数和非中文字符数;所述基于词 汇的特征包括单词数、不同单词数、出现频率小于等于两次的词语数和平均句子长度;所 述句法特征包括标点符号频次、功能词频次和词性频次;所述特定内容特征根据研究的特 定领域设定。
进一步地:所述特定内容特征在医疗领域中特定的关键词包括治疗、症状、副作用、 疗程和效果。
进一步地:在步骤三中,所述信息增益的计算公式如下:
其中,C为类别,m为类别种类,m=2,则C1=真实广告,C2=虚假广告,T为特征;H(C)为分类系统的熵;H(C|T)为某固定特征T的系统条件熵,当特征T出现时标记为t,当特 征T不出现时标记为P(Ci|t)表示特征T出现时类别Ci出现的概率。
本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法的有益效果是:
本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法,收集传播范围广泛的文 本广告的公开数据作为训练模型的输入保障了数据的有效性;基于特征提取及特征选择的 方法提升模型识别精度,具有很强的实际应用价值,其优点在于:
1、广告数据库构建过程中选择公开数据,保证数据的可靠性;此外,数据收集过程可 以考虑语言的地域特殊性,对特定区域下进行重点收集,使模型更具针对性;
2、文本形式药品广告的多样性、丰富性及处理过程的简洁性有助于大数据集的构建, 可以间接提升模型的正确率;
3、利用特征提取方法及特征筛选方法可以在保证模型正确率的前提下有效减少训练时 间并防止模型过拟合现象的发生,也可以间接提升模型的正确率。
附图说明
图1为一种利用药品文本广告鉴定虚假药品的方法的流程图。
具体实施方式
下面结合实施例对本发明的技术方案做进一步的说明,但并不局限于此,凡是对本发 明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在 本发明的保护范围中。
实施例1
结合图1说明本实施例,在本实施例中,本实施例所涉及的一种利用药品文本广告鉴 定虚假药品的方法,它包括以下步骤:
步骤一、通过收集整理国家权威机构公布的虚假药品广告文本的公开数据,保证公开 数据的可靠性;并对相关广告定义真实/虚假标签;所述收集药品广告文本的公开数据信息 来源主要为国家食品药品监督管理总局与各省工商局的公众信息门户,根据其披露的信息 分别对各种广告文本的公开数据定义相应的真实/虚假广告标签;
步骤二、采用特征提取及特征选择方法对广告文本的公开数据进行筛选,根据广告文 本的公开数据特征定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集; 其中,词法特征包括基于字符的特征和基于词汇的特征,可选取包括汉字字数、字符总数、 数值型字符总数、非中文字符数、单词数、不同单词数、出现频率只有一次和两次的词语 数、平均句子长度等适合中文文本处理的相关特征,共计9种类型;句法特征中选取标点 符号频次,功能词频次以及词性频次等用于在句法层面代表广告文本内容;特定内容特征 与研究的特定领域有关,在医疗领域中特定的关键词一般包括治疗,症状,副作用,疗程, 效果等;
步骤三、利用信息增益方法对所述特征进行筛选,得到能够标识全体数据的最小特征 子集,并减少特征矩阵的维度;所述利用信息增益方法对所述特征数据集进行特征筛选; 信息增益的计算公式如下:
其中,在分类问题中,C为类别,m为类别种类,本文中m=2,则C1=真实广告,C2=虚假广告,T为特征;H(C)为分类系统的熵;H(C|T)为某固定特征T的系统条件熵,包 括特征T出现,标记为t,以及特征T不出现,标记为两种情况;P(Ci|t)表示特征T出 现的时候,类别Ci出现的概率;
步骤四、依据特征集训练支持向量机(SVM)模型,获取虚假药品鉴定模型,通过采用序列最小优化算法的基于径向基函数支持向量机对上述步骤获取的数据进行训练,得出虚假药品广告识别模型;所述模型选择基于径向基函数支持向量机分类模型,训练过程采用序列最小优化算法实现;
步骤五、将需要鉴别的文本广告作为输入量传递至训练得出的模型,模型输出即为药 品广告真伪性识别结果。
根据公开文本数据并通过一系列特征提取、特征选择方法获取的特征集训练得出的虚 假药品鉴定模型,通过输入广告文本数据鉴定药品。
本实施例所述的利用药品广告鉴定虚假药品的方法,通过收集整理国家权威机构公布 的虚假药品广告文本的公开数据,采用特征提取及特征选择方法,筛选出最能表征广告特 征的特征集,依据特征集训练支持向量机(SVM)模型,获取虚假药品鉴定模型,并引入新数据作为输入,实现依据药品文本广告进行虚假药品的甄别功能。
从国家食品药品监督管理总局与重庆市工商局公众信息网得到共计484条数据,其中 虚假广告数据242条,真实广告数据242条,据此建立虚假广告与真实广告数据库。
选用词法特征、句法特征以及特定内容特征,三种类型。其中,词法特征包括基于字 符的特征和基于词汇的特征。选取了包括汉字字数、字符总数、数值型字符总数、非中文字符数、单词数、不同单词数、出现频率只有一次和两次的词语数、平均句子长度等特征,共9种类型适合中文文本处理的相关特征;句法特征选取了标点符号频次,功能词频次以及词性频次。本实施例共选取了8个标点符号,42个功能词以及20个词性,用来表示句 法特征;在特定内容特征方面,本实施例共选取15个特定内容关键词频次以及句子总数作 为基于内容的特征;具体如表1所示。
表1分类实验中划分的特征集
利用信息增益为特征选择函数,设置0.0025作为阈值,所有IG(T)≥0.0025的特征被 选中。筛选后的特征排序及特征号如表2所示。
表2特征选择后的特征排序
利用SVM对经过信息增益之后得到的特征集进行分类时,分类准确率最高,达到95.04%。其分类结果如表3所示:
表3 SVM的分类结果
Claims (3)
1.一种利用药品文本广告鉴定虚假药品的方法,其特征在于,它包括以下步骤:
步骤一、收集整理虚假药品广告文本的公开数据,并对所述公开数据定义标签;所述标签具体为真实或虚假;得到真实/虚假广告数据库;
步骤二、采用特征提取和特征选择方法对广告数据库进行筛选,根据所述广告文本的公开数据定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集;
步骤三、利用信息增益方法对所述特征集进行筛选,得到标识全体数据最小的特征子集;
步骤四、采用序列最小优化算法的基于径向基函数支持向量机对所述特征子集进行训练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;
步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型,所述鉴定模型输出的结果即为药品广告真伪性识别结果;
在步骤三中,所述信息增益的计算公式如下:
2.根据权利要求1所述的一种利用药品文本广告鉴定虚假药品的方法,其特征在于,在步骤二中,所述词法特征包括基于字符的特征和基于词汇的特征,所述基于字符的特征包括汉字字数、字符总数、数值型字符总数和非中文字符数;所述基于词汇的特征包括单词数、不同单词数、出现频率小于等于两次的词语数和平均句子长度;所述句法特征包括标点符号频次、功能词频次和词性频次;所述特定内容特征根据研究的特定领域设定。
3.根据权利要求2所述的一种利用药品文本广告鉴定虚假药品的方法,其特征在于,所述特定内容特征在医疗领域中特定的关键词包括治疗、症状、副作用、疗程和效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910857872.2A CN110569333B (zh) | 2019-09-11 | 2019-09-11 | 一种利用药品文本广告鉴定虚假药品的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910857872.2A CN110569333B (zh) | 2019-09-11 | 2019-09-11 | 一种利用药品文本广告鉴定虚假药品的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569333A CN110569333A (zh) | 2019-12-13 |
CN110569333B true CN110569333B (zh) | 2020-12-22 |
Family
ID=68779002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910857872.2A Active CN110569333B (zh) | 2019-09-11 | 2019-09-11 | 一种利用药品文本广告鉴定虚假药品的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569333B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704409B (zh) * | 2021-08-31 | 2023-08-04 | 上海师范大学 | 一种基于级联森林的虚假招聘信息检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599068A (zh) * | 2009-07-09 | 2009-12-09 | 耿泉生 | 一种药品销售终端防伪查询绑定广告发布的方法和系统 |
CN102141997A (zh) * | 2010-02-02 | 2011-08-03 | 三星电子(中国)研发中心 | 智能决策支持系统及其智能决策方法 |
CN103150662B (zh) * | 2013-02-07 | 2016-07-06 | 珠海市君天电子科技有限公司 | 一种鉴定淘宝网虚假商品广告的方法 |
CN109446338B (zh) * | 2018-09-20 | 2020-07-21 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
CN109783532A (zh) * | 2018-12-12 | 2019-05-21 | 航天信息股份有限公司 | 基于微服务架构的食品/药品分析方法和系统 |
-
2019
- 2019-09-11 CN CN201910857872.2A patent/CN110569333B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110569333A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alsubari et al. | Data analytics for the identification of fake reviews using supervised learning | |
Aloufi et al. | Sentiment identification in football-specific tweets | |
Elhadad et al. | Fake news detection on social media: a systematic survey | |
Rohera et al. | A taxonomy of fake news classification techniques: Survey and implementation aspects | |
Himdi et al. | Arabic fake news detection based on textual analysis | |
CN103793503A (zh) | 一种基于web文本的观点挖掘与分类的方法 | |
Gao et al. | An interpretable classification framework for information extraction from online healthcare forums | |
Geçkil et al. | A clickbait detection method on news sites | |
Ma et al. | Improving rumor detection by promoting information campaigns with transformer-based generative adversarial learning | |
Yüksel et al. | Turkish tweet classification with transformer encoder | |
Mirza et al. | Enriching knowledge bases with counting quantifiers | |
Rehman et al. | User-aware multilingual abusive content detection in social media | |
Rajesh et al. | Fraudulent news detection using machine learning approaches | |
CN110569333B (zh) | 一种利用药品文本广告鉴定虚假药品的方法 | |
Airoldi et al. | Data mining challenges for electronic safety: The case of fraudulent intent detection in e-mails | |
Dadgar et al. | Checkovid: A COVID-19 misinformation detection system on Twitter using network and content mining perspectives | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
Zhong et al. | Identification of opinion spammers using reviewer reputation and clustering analysis | |
Kim et al. | High-quality train data generation for deep learning-based web page classification models | |
Hamed et al. | Disinformation detection about islamic issues on social media using deep learning techniques | |
Sorato et al. | Short Semantic Patterns: A Linguistic Pattern Mining Approach for Content Analysis Applied to Hate Speech | |
Althabiti et al. | A Survey: Datasets and Methods for Arabic Fake News Detection | |
Rajalakshmi et al. | Fake News Prediction on COVID Dataset Using Machine Learning | |
Wan et al. | Data mining technology application in false text information recognition | |
Bajaj et al. | A comparative analysis of classifiers used for detection of clickbait in news headlines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |