CN107742256A - 一种基于组合优化决策树的网络伪舆情识别方法 - Google Patents
一种基于组合优化决策树的网络伪舆情识别方法 Download PDFInfo
- Publication number
- CN107742256A CN107742256A CN201710839631.6A CN201710839631A CN107742256A CN 107742256 A CN107742256 A CN 107742256A CN 201710839631 A CN201710839631 A CN 201710839631A CN 107742256 A CN107742256 A CN 107742256A
- Authority
- CN
- China
- Prior art keywords
- public sentiment
- attribute
- decision
- public
- tree model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本发明提供一种基于组合优化决策树的网络伪舆情识别方法,所述方法包括:S1,获取网络舆情事件的舆情属性集合,其中,所述舆情属性集合包括首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个;S2,将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型中,获取所述网络舆情事件的识别结果。本发明提供的方法,将舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型,通过决策树模型对网络伪舆情进行更加精准、快速地识别。
Description
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种基于组合优化决策树的网络伪舆情识别方法。
背景技术
随着信息技术、移动互联、智能手机等技术的发展,网络成为大众舆情的主要载体并以前所未有的深度、广度和速度影响着人们生活的各个方面。网络舆情不仅是人们对某些事件、话题、观点的反应,同时也对人们的思想和行为有着巨大的影响和反作用。而伪舆情是指在诸如网络推手炒作或虚假信息刺激等手段的推动下,使民众产生的带有倾向性的多种评论、情绪、态度、意见的总和。伪舆情利用网络的影响力和人们的从众心理,掀起网络谣言,歪曲事实真相,混淆视听,对正常的网络生活造成了负面的影响,甚至造成社会恐慌和危机。因此如何尽早识别伪舆情,科学监督控制网络舆论健康发展是舆情管理面临的严峻问题。
国内外相关研究主要集中在网络舆情分析技术上,很少涉及虚假网络舆情分析和识别问题。对于网络舆情分析技术,现主要是基于内容的舆情分析方法,采用网络文本分析技术对网络论坛热点话题进行检测,这种方法需要借助于文字信息处理平台对文本内容进行分析,数据处理量大,处理效率低,不适合于对网络水军所引发的大规模虚假网络舆情的识别和监测。
发明内容
本发明提供一种克服现有技术中对网络舆情的分析识别处理效率低的网络伪舆情识别方法。
根据本发明的一个方面,提供一种基于组合优化决策树的网络伪舆情识别方法,所述方法包括:
S1,获取网络舆情事件的舆情属性集合,其中,所述舆情属性集合包括首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个;
S2,将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型中,获取所述网络舆情事件的识别结果。
优选地,步骤S2中所述决策树模型通过以下步骤获取:
S21,获取多个舆情样本事件,每个所述舆情样本事件包含所述舆情属性集合;
S22,将所述多个舆情样本事件随机分为训练集和测试集,所述训练集和所述测试集均包含至少一个所述舆情样本事件;
S23,根据所述训练集中的所有舆情样本事件的舆情属性集合,建立所述决策树模型。
优选地,步骤S23具体包括:
S231,利用基于边界点属性值合并和不一致度检验的离散化算法,将所述训练集中的所有舆情样本事件的连续舆情属性离散化为离散舆情属性;
S232,根据所述训练集中的所有舆情样本事件的离散舆情属性和定性舆情属性,利用输入输出关联法建立所述决策树模型。
优选地,步骤S231具体包括:
S2311,基于所述训练集中的所有舆情样本事件的每一个连续舆情属性,以所述每一个连续舆情属性的边界点的属性值为切点分割对应的连续舆情属性的属性值,获取所述每一个连续舆情属性的第一离散舆情属性区间集合;
S2312,合并所述每一个连续舆情属性的第一离散舆情属性区间集合中的临界点,获取所述每一个连续舆情属性的第二离散舆情属性区间集合;
S2313,合并所述每一个连续舆情属性的第二离散舆情属性区间集合中的少数点区间,获取所述每一个连续舆情属性的第三离散舆情属性区间集合;
S2314,若任一所述第三离散舆情属性区间集合的不一致度高于所述不一致度阈值,则调整所述任一所述第三离散舆情属性区间集合,直至调整后的第三离散舆情属性区间集合的不一致度低于所述不一致度阈值。
优选地,步骤S2314中所述调整所述第三离散舆情属性区间集合为:对所述少数点区间进行恢复。
优选地,步骤S232具体包括:
S2321,在所述训练集中的所有舆情样本事件中,获取每一舆情属性的归一化输入输出关联值;
S2322,选取所述归一化输入输出关联值较大的一个或多个所述舆情属性作为基本舆情属性集合,其余舆情属性作为备选舆情属性集合;
S2323、根据所述基本舆情属性集合和备选舆情属性集合,以所述归一化输入输出关联值为节点舆情属性选择标准,建立所述决策树模型。
优选地,步骤S2321中所述获取每一舆情属性的归一化输入输出关联值,具体包括:
当所述舆情属性为定量舆情属性时,获取所述定量舆情属性的归一化输入输出关联值的公式为,
其中,x(i,k)为第i个舆情样本事件的第k个舆情属性的取值,x(j,k)为第j个舆情样本事件的第k个舆情属性的取值,y(i)为第i个舆情样本事件的决策属性值,y(j)为第j个舆情样本事件的决策属性值,sign(x)为符号函数,max(k)为舆情属性个数的最大值,min(k)为舆情属性个数的最小值;
当所述属性为所述定性舆情属性时,获取所述定性舆情属性的归一化输入输出关联值的公式为,
IOC(k)=∑sign|x(i,k)-x(j,k)|×sign|y(i)-y(j)|,i≠j;
其中,x(i,k)为第i个舆情样本事件的第k个舆情属性的取值,x(j,k)为第j个舆情样本事件的第k个舆情属性的取值,y(i)为第i个舆情样本事件的决策属性值,y(j)为第j个舆情样本事件的决策属性值,sign(x)为符号函数。
优选地,步骤S2323具体包括:
S23231,在所述基本舆情属性集合中,将所述归一化输入输出关联值最大的舆情属性,作为所述决策树模型的根节点的测试属性;
S23232,在所述基本舆情属性集合中,将所述归一化输入输出关联值次大的舆情属性,作为所述决策树模型的根节点的下一级节点的测试属性;
S23233,按照步骤S3231和S3232中建立所述决策树模型的规律,根据所述基本舆情属性集合,建立决策树模型,直至所述决策树模型将所述训练集中的舆情样本事件完全分类或所述基本舆情属性集合中的舆情属性均用作所述决策树模型的节点的测试属性;
S23234,若所述基本舆情属性集合中的舆情属性均用作所述决策树模型的节点的测试属性后,若所述决策树模型中存在错误率较高的分支,则根据所述备选舆情属性集合,在所述错误率较高的分支对应的节点处,续建所述决策树模型。
优选地,步骤S23234中根据所述备选舆情属性集合,在所述错误率较高的分支对应的节点处,续建所述决策树模型,具体包括:
S232341,在所述备选舆情属性集合中,将所述归一化输入输出关联值最大的舆情属性,作为所述错误率较高的分支对应的节点的测试属性;
S232342,在所述备选舆情属性集合中,将所述归一化输入输出关联值次大的舆情属性,作为所述错误率较高的分支对应的节点的下一级节点的测试属性;
S232343,按照步骤S232341和S232342中续建所述决策树模型的规律,根据所述备选舆情属性集合,续建所述决策树模型,直至所述决策树模型满足精度要求或所述备选舆情属性集合中的所有舆情属性均用作所述决策树模型的节点的测试属性。
优选地,步骤S23还包括:
通过所述测试集中的舆情样本事件,对所述决策树模型的精度进行测试。
本发明提供的一种基于组合优化决策树的网络伪舆情识别方法,通过将首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数这九个舆情属性中的一个或多个舆情属性所对应的舆情属性值,输入至决策树模型中,实现对网络伪舆情的有效识别。通过利用决策树模型对网络伪舆情进行识别,相比于神经网络和支持向量机等其他智能算法,决策树方法可以抽取可读性规律,在准确分类的同时建立对客观规律的认知,从而更加精准、快速地对网络伪舆情进行识别。
附图说明
图1为根据本发明实施例提供的一种网络舆情分类的示意图;
图2为根据本发明实施例提供的一种基于组合优化决策树的网络伪舆情识别方法的流程图;
图3为根据本发明实施例提供的一种决策树构造流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
研究伪舆情特征的一个重要目的是为辨识和监控伪舆情提供理论基础。图1为根据本发明实施例提供的一种舆情分类示意图,参见图1,本发明定义A、B、C三类伪舆情如下:
A类伪舆情:如果某些舆情具备虚假性,即引起舆情的事件或观点本身是不符合事实的,那么无论是否有人为干预或者发布者本身对观点是否有倾向性,由此引发的舆情讨论都是伪舆情。此类伪舆情为A类伪舆情,如“萝卜能治疗癌症”等虚假信息。虚假性是A类伪舆情的必要条件。
B类伪舆情:如果伪舆情本身引用真实的事件或者个人的某种观点、好恶,但采用人为干预的手段制造引导舆情,最终形成的违背网络舆情客观发展规律的舆情也是一种伪舆情,称为B类伪舆情,即舆情的观点或事件不是虚假的但其形成的过程存在虚假性。制造这类伪舆情往往都带有明确的目的性,所持观点都有明确的倾向性,否则人为制造干预话题事件或言论的传播就失去意义。从根本上讲,B类伪舆情之所以称为伪舆情,原因是采用了人为干预舆情形成和发展的手段,即具有人为性的特征是B类伪舆情的必要条件。
C类伪舆情:相当一部分伪舆情可能同时具备虚假性和人为性的特征,称为C类伪舆情。采用虚假、伪造、篡改、夸大的事件并为了达到自己的目的不惜采用各种手段诱导或误导网民,这种伪舆情的危害往往是最严重的也是网络舆论监督要重点管控的对象。虚假性、人为性是C类伪舆情的充分必要条件。
图2为根据本发明实施例提供的一种基于组合优化决策树的网络伪舆情识别方法的流程图,如图2所示,所述网络伪舆情识别方法包括:
S1,获取网络舆情事件的舆情属性集合,其中,所述舆情属性集合包括首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个;
S2,将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型中,获取所述网络舆情事件的识别结果。
具体地,本实施例中的网络舆情事件是指在当前时间段内,人们对某些事件、话题或观点的反应,需要说明的是,网络舆情事件在未利用本发明实施例中提供的网络伪舆情识别方法进行识别之前,人们并不知道该网络舆情事件的真伪。
其中,每个网络舆情事件都包含有相同的舆情属性集合,在本实施例中,将首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数这九个指标中的一个或多个归入网络舆情事件的舆情属性集合。
其中,首发媒介根据媒介性质可以分为以下几类:
1类:全国性官方新闻媒体及网络媒介(人民日报、新华网等);
2类:地方性媒体(腾讯、搜狐、网易等);
3类:类媒介(各类论坛、微博、专业性网站等)。
持续时长,即首次发布话题事件相关信息开始到发帖量低于高峰时间单日发帖量3%的天数。
观点数,即与话题事件相关信息中对话题事件的观点的数量。观点数可以分为客观、完全正面、部分正面、完全负面、部分负面和引申六个大类。
最大观点占比,即话题事件相关信息中对话题事件最多的一类观点的发帖量占总发帖量的比值。
转发数,即对话题事件信息的发布数量,包括新开帖、转发帖、转述和复述等,只要是独立新发布的相关信息都可计入其中。
将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型中,获取所述网络舆情事件的识别结果。
其中,决策树是数据挖掘中的有效方法,它是用属性作为节点,用属性取值作为分支的树型结构。通过决策树对新样本属性值进行测试,从树的根节点开始,按照新样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,叶节点表示的类别就是新样本的类别。
本发明实施例提供的一种基于组合优化决策树的网络伪舆情识别方法,通过将首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数这九个舆情属性中的一个或多个舆情属性对应的舆情属性值输入至决策树模型中,实现对网络伪舆情的有效识别。通过利用决策树模型对网络伪舆情进行识别,相比于神经网络和支持向量机等其他智能算法,决策树方法可以抽取可读性规律,在准确分类的同时建立对客观规律的认知,从而更加精准、快速地对网络伪舆情进行识别。
基于上述实施例,本实施例对上述实施例中决策树模型的构建进行具体说明,步骤S2中所述决策树模型通过以下步骤获取:
S21,获取多个舆情样本事件,每个所述舆情样本事件包含所述舆情属性集合;
S22,将所述多个舆情样本事件随机分为训练集和测试集,所述训练集和所述测试集均包含至少一个所述舆情样本事件;
S23,根据所述训练集中的所有舆情样本事件的舆情属性集合,建立所述决策树模型。
具体地,本实施例中的舆情样本事件是指历史舆情事件,即已被判定为真舆情、A类舆情、B类舆情或C类舆情的事件。
其中,本实施例中的舆情样本事件具有与上述实施例中的网络舆情事件同样的舆情属性集合:首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个。
将多个舆情样本事件随机分为训练集和测试集,其中,训练集用于建立决策树模型,测试集用于评估决策树模型的预测能力,训练集和测试集均包含至少一个所述舆情样本事件。
本实施例提供的一种基于组合优化决策树的网络伪舆情识别方法,通过利用决策树模型对网络伪舆情进行识别,相比于神经网络和支持向量机等其他智能算法,决策树方法可以抽取可读性规律,在准确分类的同时建立对客观规律的认知,从而更加精准、快速地对网络伪舆情进行识别。
基于上述实施例,本实施例对上述实施例中的步骤S23根据所述训练集中的所有舆情样本事件的舆情属性集合,建立所述决策树模型进行具体说明。
步骤S23具体包括:
S231,利用基于边界点属性值合并和不一致度检验的离散化算法,将所述训练集中的所有舆情样本事件的连续舆情属性离散化为离散舆情属性;
S232,根据所述训练集中的所有舆情样本事件的离散舆情属性和定性舆情属性,利用输入输出关联法建立所述决策树模型。
通常,属性分为定量属性和定性属性两种,其中,定量属性又可分为连续属性和离散属性。
在本实施例中,首发媒介、最大观点占比为离散属性,转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数为连续属性,观点数、转发数为定性属性,需要说明的是,持续时长为连续属性或离散属性,本实施例对持续时长的属性类别不作具体限定。
决策树属于数据挖掘领域,在数据挖掘中,将连续属性离散化不仅可以缩短推导分类器的时间,而且有助于提高数据的可理解性,得到精度更高的分类规则。
基于边界点属性值合并和不一致度检验的离散化算法是在基于正规增益标准离散化算法的基础上,进行改进了的一种离散化算法。正规增益为一种基于熵的评价标准,为信息增益与以2为底的n的对数的比值,正规增益NG(A,S)的公式为:
其中,分子中的算式表示信息增益,pi是训练集S中属于类别i的样本的比例,k为类别总数,Value(A)为属性A对应的属性值集合。|S|为样本总数,|Sj|为属性A取值为j的样本数。
输入输出关联法为利用样本值的变化而引起的输出变化的累加值作为衡量数据属性重要性的标准,对于某个属性k,如果由于样本值变化而引起的输出变化越大,说明该属性越重要,反之说明该属性对于数据分类的意义不大。
通过输入输出关联法,根据训练集中的舆情样本事件的离散舆情属性和定性舆情属性,建立决策树模型。
本实施例提供的一种基于组合优化决策树的网络伪舆情识别方法,通过基于边界点属性值合并和不一致度检验的离散化算法,将训练集中的舆情样本事件的连续舆情属性离散化,该离散化方法简单易行,大大简化了后续建立决策树的难度;通过输入输出关联法,建立决策树模型,提高了建立决策树模型的效率,减小了计算代价。
基于上述实施例,本实施例对上述实施例中的步骤S231进行进一步说明,所述步骤S231具体包括:
S2311,基于所述训练集中的所有舆情样本事件的每一个连续舆情属性,以所述每一个连续舆情属性的边界点的属性值为切点分割对应的连续舆情属性的属性值,获取所述每一个连续舆情属性的第一离散舆情属性区间集合;
S2312,合并所述每一个连续舆情属性的第一离散舆情属性区间集合中的临界点,获取所述每一个连续舆情属性的第二离散舆情属性区间集合;
S2313,合并所述每一个连续舆情属性的第二离散舆情属性区间集合中的少数点区间,获取所述每一个连续舆情属性的第三离散舆情属性区间集合;
S2314,若任一所述第三离散舆情属性区间集合的不一致度高于所述不一致度阈值,则调整所述任一所述第三离散舆情属性区间集合,直至调整后的第三离散舆情属性区间集合的不一致度低于所述不一致度阈值。
具体地,将训练集中的所有舆情样本事件按任一连续舆情属性A的属性值升序排列,设ei和ei+1分别为升序排列的所有舆情样本事件中两个相邻舆情样本事件,C(ei)和C(ei+1)分别为舆情样本事件ei和ei+1所属的类别。若C(ei)≠C(ei+1),则例子ei+1为属性A的一个边界点,属性值的首末两点对应的舆情样本事件为两个特殊的边界点。
具体地,将连续舆情属性A的属性值升序排列,将连续舆情属性A的属性值划分为不同的离散区间的属性值为连续舆情属性A的切点。
需要说明的是,连续舆情属性A以正规增益为评价标准的切点必属于边界点属性值集合。
具体地,当与边界点的属性值相同的舆情样本事件不只一个,并且这些舆情样本事件不完全属于同一类别时,边界点的属性值应作为一个独立的离散区间叫做临界点。
具体地,当某离散区间所含舆情样本事件个数≤m时,称该离散区间为少数点区间,通常,m≤3,m的个数可根据不同训练集设定,本实施例对此不作限定。
假设一个决策表D=(e,A∪C),其中,e={e1,e2,...,eM}是一个有限非空舆情样本事件集合,A={A1,A2,...,AP}为舆情属性集合,C={C1,C2,...,CK}为类别集合。A(ej)和C(ej)分别为舆情样本事件ej的舆情属性和类别。如果对于任意一个舆情样本事件,A(ei)=A(ej)andC(ei)≠C(ej),则称舆情样本事件ej和舆情样本事件ej为一对不一致舆情样本事件。使用|Iobj(D)|表示决策表D中的所有不一致舆情样本事件的数目,则决策表D的不一致度定义为:INC(D)=|Iobj(D)|/M,其中,M为训练集中舆情样本事件的个数。
基于上述实施例,本实施例对上述实施例中的步骤S2314进行进一步说明,所述步骤S2314中所述调整所述第三离散舆情属性区间集合为:对所述少数点区间进行恢复。
具体地,对所述少数点区间进行恢复是指:由于在步骤S2313中合并每一个连续舆情属性的第二离散舆情属性区间集合中的少数点区间后,获取到的某一个连续舆情属性的第三离散舆情属性区间集合的不一致度高于不一致度阈值,则此时需调整第三离散舆情属性区间集合,即,将少数点区间从合并的第三离散舆情属性区间集合中抽取出来。
需要说明的是,抽取出来的少数点区间的个数视具体情况而定,本实施例对此不作限定。
本实施例提供的一种基于组合优化决策树的网络伪舆情识别方法,通过基于边界点属性值合并和不一致度检验的离散化算法,对连续舆情属性进行离散化,该算法直接用简单规则对边界点集合进行合并得到备选最优切点集合,与传统的利用遍历寻求备选最优切点的过程,节省了大量运算时间。同时,通过该算法将连续舆情属性离散化,大大简化了后续建立决策树的难度。
基于上述实施例,本实施例对上述实施例中的步骤S232进行进一步说明,所述步骤S232具体包括:
S2321,在所述训练集中的所有舆情样本事件中,获取每一舆情属性的归一化输入输出关联值;
S2322,选取所述归一化输入输出关联值较大的一个或多个所述舆情属性作为基本舆情属性集合,其余舆情属性作为备选舆情属性集合;
S2323、根据所述基本舆情属性集合和备选舆情属性集合,以所述归一化输入输出关联值为节点舆情属性选择标准,建立所述决策树模型。
具体地,对于步骤S2321,在所述训练集中的所有舆情样本事件中,获取每一舆情属性的归一化输入输出关联值;通常,舆情属性分为定量属性和定性属性,对于这两种属性,计算属性的归一化输入输出关联值有所区别。
当舆情属性为定量属性时,需将定量属性中的连续属性离散化为离散属性之后,再进行归一化输入输出关联值的计算;当舆情属性为定性属性时,计算其归一化输入输出关联值的公式与计算定量属性的归一化输入输出关联值的公式有所不同。
对于步骤S322,通过比较所有舆情属性的归一化输入输出关联值的大小,将归一化输入输出关联值较大的一个或多个所述舆情属性作为基本舆情属性集合,其余舆情属性作为备选舆情属性集合。优选地,在所有舆情属性中,将归一化输入输出关联值较大的一半属性,作为基本舆情属性集合,其余舆情属性作为备选舆情属性集合。
对于步骤S2323,根据基本舆情属性集合和备选舆情属性集合,以归一化输入输出关联值为节点舆情属性选择标准,建立决策树模型。
基于上述实施例,步骤S2321中所述获取每一舆情属性的归一化输入输出关联值,具体包括:
当所述舆情属性为定量舆情属性时,获取所述定量舆情属性的归一化输入输出关联值的公式为,
其中,x(i,k)为第i个舆情样本事件的第k个舆情属性的取值,x(j,k)为第j个舆情样本事件的第k个舆情属性的取值,y(i)为第i个舆情样本事件的决策属性值,y(j)为第j个舆情样本事件的决策属性值,sign(x)为符号函数,max(k)为舆情属性个数的最大值,min(k)为舆情属性个数的最小值;
当所述属性为所述定性舆情属性时,获取所述定性舆情属性的归一化输入输出关联值的公式为,
IOC(k)=∑sign|x(i,k)-x(j,k)|×sign|y(i)-y(j)|,i≠j;
其中,x(i,k)为第i个舆情样本事件的第k个舆情属性的取值,x(j,k)为第j个舆情样本事件的第k个舆情属性的取值,y(i)为第i个舆情样本事件的决策属性值,y(j)为第j个舆情样本事件的决策属性值,sign(x)为符号函数。
基于上述实施例,步骤S2323具体包括:
S23231,在所述基本舆情属性集合中,将所述归一化输入输出关联值最大的舆情属性,作为所述决策树模型的根节点的测试属性;
S23232,在所述基本舆情属性集合中,将所述归一化输入输出关联值次大的舆情属性,作为所述决策树模型的根节点的下一级节点的测试属性;
S23233,按照步骤S3231和S3232中建立所述决策树模型的规律,根据所述基本舆情属性集合,建立决策树模型,直至所述决策树模型将所述训练集中的舆情样本事件完全分类或所述基本舆情属性集合中的舆情属性均用作所述决策树模型的节点的测试属性;
S23234,若所述基本舆情属性集合中的舆情属性均用作所述决策树模型的节点的测试属性后,若所述决策树模型中存在错误率较高的分支,则根据所述备选舆情属性集合,在所述错误率较高的分支对应的节点处,续建所述决策树模型。
基于上述实施例,步骤S23234中根据所述备选舆情属性集合,在所述错误率较高的分支对应的节点处,续建所述决策树模型,具体包括:
S232341,在所述备选舆情属性集合中,将所述归一化输入输出关联值最大的舆情属性,作为所述错误率较高的分支对应的节点的测试属性;
S232342,在所述备选舆情属性集合中,将所述归一化输入输出关联值次大的舆情属性,作为所述错误率较高的分支对应的节点的下一级节点的测试属性;
S232343,按照步骤S232341和S232342中续建所述决策树模型的规律,根据所述备选舆情属性集合,续建所述决策树模型,直至所述决策树模型满足精度要求或所述备选舆情属性集合中的所有舆情属性均用作所述决策树模型的节点的测试属性。
本实施例提供的一种基于组合优化决策树的网络伪舆情识别方法,通过以输入输出关联值为节点属性选取标准,使得决策树的建立与属性降维有机地结合起来,使得决策树建树步骤更加紧凑,大大提高建树效率,并减小了计算代价。
基于上述实施例,步骤S23还包括:通过所述测试集中的舆情样本事件,对所述决策树模型的精度进行测试。
作为一个优选实施例,本实施例结合附图,对构造决策树的流程进行具体说明。图3为根据本发明实施例提供的一种决策树构造流程图,如图3所示:
建立伪舆情辨识监控指标体系,该体系中包含九个伪舆情识别指标:首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数。
获取多个舆情样本事件,并将多个舆情样本事件随机分为训练集和测试集。其中,将上述九个伪舆情识别指标作为多个舆情样本事件中的每个舆情样本事件的舆情属性。
对测试集中的舆情样本事件的连续舆情属性进行离散化,并通过属性筛选,建立决策树模型,当决策树模型达到精度要求或达到终止条件时,决策树模型建立完毕;当决策树模型未达到精度要求或未达到终止条件时,继续建立决策树模型。
将测试集中的舆情样本事件的舆情属性值输入至建立好的决策树模型中,预测决策树模型的精度。
本发明实施例提供的一种基于组合优化决策树的网络伪舆情识别方法,通过将首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数这九个舆情属性中的一个或多个舆情属性对应的舆情属性值,输入至决策树模型中,实现对网络伪舆情的有效识别。通过利用决策树模型对网络伪舆情进行识别,相比于神经网络和支持向量机等其他智能算法,决策树方法可以抽取可读性规律,在准确分类的同时建立对客观规律的认知,从而更加精准、快速地对网络伪舆情进行识别。并且,通过基于边界点属性值合并和不一致度检验的离散化算法,将训练集中的舆情样本事件的连续舆情属性离散化,该离散化方法简单易行,大大简化了后续建立决策树的难度;通过输入输出关联法,建立决策树模型,提高了建立决策树模型的效率,减小了计算代价。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于组合优化决策树的网络伪舆情识别方法,其特征在于,包括:
S1,获取网络舆情事件的舆情属性集合,其中,所述舆情属性集合包括首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个;
S2,将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型中,获取所述网络舆情事件的识别结果。
2.根据权利要求1所述的方法,其特征在于,步骤S2中所述决策树模型通过以下步骤获取:
S21,获取多个舆情样本事件,每个所述舆情样本事件包含所述舆情属性集合;
S22,将所述多个舆情样本事件随机分为训练集和测试集,所述训练集和所述测试集均包含至少一个所述舆情样本事件;
S23,根据所述训练集中的所有舆情样本事件的舆情属性集合,建立所述决策树模型。
3.根据权利要求2所述的方法,其特征在于,步骤S23具体包括:
S231,利用基于边界点属性值合并和不一致度检验的离散化算法,将所述训练集中的所有舆情样本事件的连续舆情属性离散化为离散舆情属性;
S232,根据所述训练集中的所有舆情样本事件的离散舆情属性和定性舆情属性,利用输入输出关联法建立所述决策树模型。
4.根据权利要求3所述的方法,其特征在于,步骤S231具体包括:
S2311,基于所述训练集中的所有舆情样本事件的每一个连续舆情属性,以所述每一个连续舆情属性的边界点的属性值为切点分割对应的连续舆情属性的属性值,获取所述每一个连续舆情属性的第一离散舆情属性区间集合;
S2312,合并所述每一个连续舆情属性的第一离散舆情属性区间集合中的临界点,获取所述每一个连续舆情属性的第二离散舆情属性区间集合;
S2313,合并所述每一个连续舆情属性的第二离散舆情属性区间集合中的少数点区间,获取所述每一个连续舆情属性的第三离散舆情属性区间集合;
S2314,若任一所述第三离散舆情属性区间集合的不一致度高于所述不一致度阈值,则调整所述任一所述第三离散舆情属性区间集合,直至调整后的第三离散舆情属性区间集合的不一致度低于所述不一致度阈值。
5.根据权利要求4所述的方法,其特征在于,步骤S2314中所述调整所述第三离散舆情属性区间集合为:对所述少数点区间进行恢复。
6.根据权利要求3所述的方法,其特征在于,步骤S232具体包括:
S2321,在所述训练集中的所有舆情样本事件中,获取每一舆情属性的归一化输入输出关联值;
S2322,选取所述归一化输入输出关联值较大的一个或多个所述舆情属性作为基本舆情属性集合,其余舆情属性作为备选舆情属性集合;
S2323、根据所述基本舆情属性集合和备选舆情属性集合,以所述归一化输入输出关联值为节点舆情属性选择标准,建立所述决策树模型。
7.根据权利要求6所述的方法,其特征在于,步骤S2321中所述获取每一舆情属性的归一化输入输出关联值,具体包括:
当所述舆情属性为定量舆情属性时,获取所述定量舆情属性的归一化输入输出关联值的公式为,
<mrow>
<mi>I</mi>
<mi>O</mi>
<mi>C</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mi>&Sigma;</mi>
<mo>|</mo>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>&times;</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mo>|</mo>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>,</mo>
<mi>i</mi>
<mo>&NotEqual;</mo>
<mi>j</mi>
<mo>;</mo>
</mrow>
其中,x(i,k)为第i个舆情样本事件的第k个舆情属性的取值,x(j,k)为第j个舆情样本事件的第k个舆情属性的取值,y(i)为第i个舆情样本事件的决策属性值,y(j)为第j个舆情样本事件的决策属性值,sign(x)为符号函数,max(k)为舆情属性个数的最大值,min(k)为舆情属性个数的最小值;
当所述属性为所述定性舆情属性时,获取所述定性舆情属性的归一化输入输出关联值的公式为,
IOC(k)=∑sign|x(i,k)-x(j,k)|×sign|y(i)-y(j)|,i≠j;
其中,x(i,k)为第i个舆情样本事件的第k个舆情属性的取值,x(j,k)为第j个舆情样本事件的第k个舆情属性的取值,y(i)为第i个舆情样本事件的决策属性值,y(j)为第j个舆情样本事件的决策属性值,sign(x)为符号函数。
8.根据权利要求6所述的方法,其特征在于,步骤S2323具体包括:
S23231,在所述基本舆情属性集合中,将所述归一化输入输出关联值最大的舆情属性,作为所述决策树模型的根节点的测试属性;
S23232,在所述基本舆情属性集合中,将所述归一化输入输出关联值次大的舆情属性,作为所述决策树模型的根节点的下一级节点的测试属性;
S23233,按照步骤S3231和S3232中建立所述决策树模型的规律,根据所述基本舆情属性集合,建立决策树模型,直至所述决策树模型将所述训练集中的舆情样本事件完全分类或所述基本舆情属性集合中的舆情属性均用作所述决策树模型的节点的测试属性;
S23234,若所述基本舆情属性集合中的舆情属性均用作所述决策树模型的节点的测试属性后,若所述决策树模型中存在错误率较高的分支,则根据所述备选舆情属性集合,在所述错误率较高的分支对应的节点处,续建所述决策树模型。
9.根据权利要求8所述的方法,其特征在于,步骤S23234中根据所述备选舆情属性集合,在所述错误率较高的分支对应的节点处,续建所述决策树模型,具体包括:
S232341,在所述备选舆情属性集合中,将所述归一化输入输出关联值最大的舆情属性,作为所述错误率较高的分支对应的节点的测试属性;
S232342,在所述备选舆情属性集合中,将所述归一化输入输出关联值次大的舆情属性,作为所述错误率较高的分支对应的节点的下一级节点的测试属性;
S232343,按照步骤S232341和S232342中续建所述决策树模型的规律,根据所述备选舆情属性集合,续建所述决策树模型,直至所述决策树模型满足精度要求或所述备选舆情属性集合中的所有舆情属性均用作所述决策树模型的节点的测试属性。
10.根据权利要求2所述的方法,其特征在于,步骤S23还包括:
通过所述测试集中的舆情样本事件,对所述决策树模型的精度进行测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710839631.6A CN107742256A (zh) | 2017-09-18 | 2017-09-18 | 一种基于组合优化决策树的网络伪舆情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710839631.6A CN107742256A (zh) | 2017-09-18 | 2017-09-18 | 一种基于组合优化决策树的网络伪舆情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107742256A true CN107742256A (zh) | 2018-02-27 |
Family
ID=61235895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710839631.6A Pending CN107742256A (zh) | 2017-09-18 | 2017-09-18 | 一种基于组合优化决策树的网络伪舆情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107742256A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035763A (zh) * | 2018-07-02 | 2018-12-18 | 东南大学 | 基于c4.5的高速公路事故主次因分析及事故类型判断方法 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN111339385A (zh) * | 2020-02-26 | 2020-06-26 | 山东爱城市网信息技术有限公司 | 基于cart的舆情类型识别方法及系统、存储介质、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
US20120284221A1 (en) * | 2009-11-17 | 2012-11-08 | Jerome Naifeh | Methods and apparatus for analyzing system events |
CN105608200A (zh) * | 2015-12-28 | 2016-05-25 | 湖南蚁坊软件有限公司 | 一种网络舆论趋势预测分析方法 |
CN107016107A (zh) * | 2017-04-12 | 2017-08-04 | 四川九鼎瑞信软件开发有限公司 | 舆情分析方法及系统 |
-
2017
- 2017-09-18 CN CN201710839631.6A patent/CN107742256A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
US20120284221A1 (en) * | 2009-11-17 | 2012-11-08 | Jerome Naifeh | Methods and apparatus for analyzing system events |
CN105608200A (zh) * | 2015-12-28 | 2016-05-25 | 湖南蚁坊软件有限公司 | 一种网络舆论趋势预测分析方法 |
CN107016107A (zh) * | 2017-04-12 | 2017-08-04 | 四川九鼎瑞信软件开发有限公司 | 舆情分析方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035763A (zh) * | 2018-07-02 | 2018-12-18 | 东南大学 | 基于c4.5的高速公路事故主次因分析及事故类型判断方法 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN111339385A (zh) * | 2020-02-26 | 2020-06-26 | 山东爱城市网信息技术有限公司 | 基于cart的舆情类型识别方法及系统、存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
WO2017143921A1 (zh) | 一种多重抽样模型训练方法及装置 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN107679082A (zh) | 问答搜索方法、装置以及电子设备 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN106874432A (zh) | 一种公共交通乘客出行时空轨迹提取方法 | |
CN106372072A (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN107341183A (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
CN105354305A (zh) | 一种网络谣言的识别方法及装置 | |
CN105893551A (zh) | 数据的处理方法及装置、知识图谱 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN107742256A (zh) | 一种基于组合优化决策树的网络伪舆情识别方法 | |
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN111259167B (zh) | 用户请求风险识别方法及装置 | |
CN111510368A (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
RU2612608C2 (ru) | Система и способ формирования круга общения и компьютерный носитель информации | |
Banumathi et al. | A novel approach for upgrading Indian education by using data mining techniques | |
CN108509588B (zh) | 一种基于大数据的律师评估方法及推荐方法 | |
Steinmann et al. | Contribution profiles of voluntary mappers in OpenStreetMap | |
CN109614496A (zh) | 一种基于知识图谱的低保鉴别方法 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN104572767B (zh) | 一种站点语种分类的方法和系统 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN103970727B (zh) | 基于话题的反作弊方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180227 |
|
RJ01 | Rejection of invention patent application after publication |