CN110569333B

CN110569333B - 一种利用药品文本广告鉴定虚假药品的方法

Info

Publication number: CN110569333B
Application number: CN201910857872.2A
Authority: CN
Inventors: 岳增蕾; 刘智
Original assignee: Nanjing Yuezhi Information Technology Co ltd
Current assignee: Nanjing Yuezhi Information Technology Co ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-12-22
Anticipated expiration: 2039-09-11
Also published as: CN110569333A

Abstract

一种利用药品文本广告鉴定虚假药品的方法，属于虚假药品的鉴定方法领域，本发明提供了一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。本发明中，收集整理虚假药品文本广告数据，并对相关广告数据定义标签特征；对广告数据进行筛选，得出表征广告特征的特征集；利用信息增益方法对标签特征集进行筛选，得到能够标识全体数据的最小特征子集，并减少特征矩阵的维度；对特征子集进行训练，依据特征子集训练支持向量机模型，获取虚假药品广告的鉴定模型；将需要鉴别的文本广告作为输入量传递至训练后的鉴定模型，鉴定模型输出结果即为药品广告真伪性识别结果。本发明主要用于鉴定虚假药品。

Description

一种利用药品文本广告鉴定虚假药品的方法

技术领域

本发明属于虚假药品的鉴定方法领域，具体涉及一种利用药品文本广告鉴定虚假药品的方法。

背景技术

近几年，随着互联网迅速发展和网民人数逐渐增多，网络虚假信息开始泛滥并日趋严重；其中，虚假广告是其中一种典型。以虚假药品广告为例，其具有严重社会危害：不仅损害患者的合法权益，甚至导致患者财产损失和生命危险。互联网中的医药广告发布的形式多样，不仅限于医药网站，其在医药相关贴吧、论坛，医药宣传微博和搜索推广平台均可隐秘存在。同时，当前互联网信息服务的相关法制建设在虚假药品广告方面还不够健全，对于查处的虚假药品广告与机构后续追踪力度不大等原因提高了药品广告的监管难度。查处的虚假药品广告在改头换面之后往往还是继续生存。

随着机器学习与人工智能算法的发展，数据挖掘技术已在多种实际分类和回归问题中得到有效应用，如(医疗)图像识别、期刊影响因子操纵识别、风速预测、能源效率影响因素的识别及预测等。对于欺诈检测的研究国外比国内时间要早很多，研究方向与方法更为多样。欺诈检测的方法可分为有监督和无监督两种。有监督方法利用收集的欺诈和真实样本记录的类别属性建立模型，再对新记录的类别属性进行标记，有监督方法对已经出现过的欺诈类型分类效果较好，对新的类型分类效果较差；而无监督方法不提供标记的类别属性，而是去寻找异常的数据，使其聚类。在欺诈检测的应用领域中，国内和国外对于信用卡欺诈和电信领域欺诈的研究均比较深入，方法也比较多样。对于信用卡领域，信用卡交易实质上就是金钱的交易，往往非常少数的欺诈行为会对借贷方如银行造成巨大的金钱损失，因此对于欺诈行为的识别一直以来都是信用卡行业关注的重点。例如，一些学者将基于案例推理方法，利用概率曲线，最佳匹配，密度选择，否定选择以及组合算法实现信贷审批中的欺诈检测应用，结论表明，结合多邻域和概率算法的自适应诊断算法具有最好的表现结果，并且自适应求解可以提供欺诈过滤和案例排序功能，可以减少欺诈调查的数量。也有一些研究人员针对电信欺诈提出两段式欺诈检测模型，建立候选规则并筛选形成一定的规则集，实验结果表明这种方法具有相当程度的可行性。

在虚假医疗信息研究方面，还有部分学者基于对一段时间内某电视台播放的非处方药以及处方药广告分析，将以患者为投放对象的医疗商业广告划分为客观真实广告，疑似虚假广告和虚假广告三种类型。疑似虚假广告一般会遗漏重要的信息，并夸大事实，与生活方式相关联或表达一定的观点立场，虚假广告是事实上的虚假或播放未经证实的信息。研究结论表明疑似虚假广告在以患者为对象的处方药和非处方药中都非常普遍，与医疗广告的社会价值是为患者提供关于药品情报的观点是相违背的。然而，医疗广告在的投放媒介不能简单的概括成多媒体模式，还存在文本形式的医疗广告，而且范围更广。但目前对文本形式的医疗广告的识别仍未有公开报道记载其解决办法。

因此，就需要一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。

发明内容

本发明针对现有的医疗药品广告虚假宣传、无法保障药品安全流通、无法鉴别广告真伪的缺陷，提供了一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。

本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法的技术方案如下：

本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法，它包括以下步骤：

步骤一、收集整理虚假药品广告文本的公开数据，并对所述公开数据定义标签；所述标签具体为真实或虚假；得到真实/虚假广告数据库；

步骤二、采用特征提取和特征选择方法对广告数据库进行筛选，根据所述广告文本的公开数据定义词法特征、句法特征和特定内容特征，得出表征广告特征的特征集；

步骤三、利用信息增益方法对所述特征集进行筛选，得到标识全体数据最小的特征子集；

步骤四、采用序列最小优化算法的基于径向基函数支持向量机对所述特征子集进行训练，依据特征子集训练支持向量机模型，获取虚假药品广告的鉴定模型；

步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型，所述鉴定模型输出的结果即为药品广告真伪性识别结果。

进一步地：在步骤二中，所述词法特征包括基于字符的特征和基于词汇的特征，所述基于字符的特征包括汉字字数、字符总数、数值型字符总数和非中文字符数；所述基于词汇的特征包括单词数、不同单词数、出现频率小于等于两次的词语数和平均句子长度；所述句法特征包括标点符号频次、功能词频次和词性频次；所述特定内容特征根据研究的特定领域设定。

进一步地：所述特定内容特征在医疗领域中特定的关键词包括治疗、症状、副作用、疗程和效果。

进一步地：在步骤三中，所述信息增益的计算公式如下：

其中，C为类别，m为类别种类，m＝2，则C₁＝真实广告，C₂＝虚假广告，T为特征；H(C)为分类系统的熵；H(C|T)为某固定特征T的系统条件熵，当特征T出现时标记为t，当特征T不出现时标记为

P(C_i|t)表示特征T出现时类别C_i出现的概率。

本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法的有益效果是：

本发明所涉及的一种利用药品文本广告鉴定虚假药品的方法，收集传播范围广泛的文本广告的公开数据作为训练模型的输入保障了数据的有效性；基于特征提取及特征选择的方法提升模型识别精度，具有很强的实际应用价值，其优点在于：

1、广告数据库构建过程中选择公开数据，保证数据的可靠性；此外，数据收集过程可以考虑语言的地域特殊性，对特定区域下进行重点收集，使模型更具针对性；

2、文本形式药品广告的多样性、丰富性及处理过程的简洁性有助于大数据集的构建，可以间接提升模型的正确率；

3、利用特征提取方法及特征筛选方法可以在保证模型正确率的前提下有效减少训练时间并防止模型过拟合现象的发生，也可以间接提升模型的正确率。

附图说明

图1为一种利用药品文本广告鉴定虚假药品的方法的流程图。

具体实施方式

下面结合实施例对本发明的技术方案做进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

实施例1

结合图1说明本实施例，在本实施例中，本实施例所涉及的一种利用药品文本广告鉴定虚假药品的方法，它包括以下步骤：

步骤一、通过收集整理国家权威机构公布的虚假药品广告文本的公开数据，保证公开数据的可靠性；并对相关广告定义真实/虚假标签；所述收集药品广告文本的公开数据信息来源主要为国家食品药品监督管理总局与各省工商局的公众信息门户，根据其披露的信息分别对各种广告文本的公开数据定义相应的真实/虚假广告标签；

步骤二、采用特征提取及特征选择方法对广告文本的公开数据进行筛选，根据广告文本的公开数据特征定义词法特征、句法特征和特定内容特征，得出表征广告特征的特征集；其中，词法特征包括基于字符的特征和基于词汇的特征，可选取包括汉字字数、字符总数、数值型字符总数、非中文字符数、单词数、不同单词数、出现频率只有一次和两次的词语数、平均句子长度等适合中文文本处理的相关特征，共计9种类型；句法特征中选取标点符号频次，功能词频次以及词性频次等用于在句法层面代表广告文本内容；特定内容特征与研究的特定领域有关，在医疗领域中特定的关键词一般包括治疗，症状，副作用，疗程，效果等；

步骤三、利用信息增益方法对所述特征进行筛选，得到能够标识全体数据的最小特征子集，并减少特征矩阵的维度；所述利用信息增益方法对所述特征数据集进行特征筛选；信息增益的计算公式如下：

其中，在分类问题中，C为类别，m为类别种类，本文中m＝2，则C₁＝真实广告，C₂＝虚假广告，T为特征；H(C)为分类系统的熵；H(C|T)为某固定特征T的系统条件熵，包括特征T出现，标记为t，以及特征T不出现，标记为

两种情况；P(C_i|t)表示特征T出现的时候，类别C_i出现的概率；

步骤四、依据特征集训练支持向量机(SVM)模型，获取虚假药品鉴定模型，通过采用序列最小优化算法的基于径向基函数支持向量机对上述步骤获取的数据进行训练，得出虚假药品广告识别模型；所述模型选择基于径向基函数支持向量机分类模型，训练过程采用序列最小优化算法实现；

步骤五、将需要鉴别的文本广告作为输入量传递至训练得出的模型，模型输出即为药品广告真伪性识别结果。

根据公开文本数据并通过一系列特征提取、特征选择方法获取的特征集训练得出的虚假药品鉴定模型，通过输入广告文本数据鉴定药品。

本实施例所述的利用药品广告鉴定虚假药品的方法，通过收集整理国家权威机构公布的虚假药品广告文本的公开数据，采用特征提取及特征选择方法，筛选出最能表征广告特征的特征集，依据特征集训练支持向量机(SVM)模型，获取虚假药品鉴定模型，并引入新数据作为输入，实现依据药品文本广告进行虚假药品的甄别功能。

从国家食品药品监督管理总局与重庆市工商局公众信息网得到共计484条数据，其中虚假广告数据242条，真实广告数据242条，据此建立虚假广告与真实广告数据库。

选用词法特征、句法特征以及特定内容特征，三种类型。其中，词法特征包括基于字符的特征和基于词汇的特征。选取了包括汉字字数、字符总数、数值型字符总数、非中文字符数、单词数、不同单词数、出现频率只有一次和两次的词语数、平均句子长度等特征，共9种类型适合中文文本处理的相关特征；句法特征选取了标点符号频次，功能词频次以及词性频次。本实施例共选取了8个标点符号，42个功能词以及20个词性，用来表示句法特征；在特定内容特征方面，本实施例共选取15个特定内容关键词频次以及句子总数作为基于内容的特征；具体如表1所示。

表1分类实验中划分的特征集

利用信息增益为特征选择函数，设置0.0025作为阈值，所有IG(T)≥0.0025的特征被选中。筛选后的特征排序及特征号如表2所示。

表2特征选择后的特征排序

利用SVM对经过信息增益之后得到的特征集进行分类时，分类准确率最高，达到95.04％。其分类结果如表3所示：

表3 SVM的分类结果

Claims

1.一种利用药品文本广告鉴定虚假药品的方法，其特征在于，它包括以下步骤：

步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型，所述鉴定模型输出的结果即为药品广告真伪性识别结果；

在步骤三中，所述信息增益的计算公式如下：

P(C_i|t)表示特征T出现时类别C_i出现的概率。

2.根据权利要求1所述的一种利用药品文本广告鉴定虚假药品的方法，其特征在于，在步骤二中，所述词法特征包括基于字符的特征和基于词汇的特征，所述基于字符的特征包括汉字字数、字符总数、数值型字符总数和非中文字符数；所述基于词汇的特征包括单词数、不同单词数、出现频率小于等于两次的词语数和平均句子长度；所述句法特征包括标点符号频次、功能词频次和词性频次；所述特定内容特征根据研究的特定领域设定。

3.根据权利要求2所述的一种利用药品文本广告鉴定虚假药品的方法，其特征在于，所述特定内容特征在医疗领域中特定的关键词包括治疗、症状、副作用、疗程和效果。