CN113536077B - 一种移动app特定事件内容检测方法与装置 - Google Patents

一种移动app特定事件内容检测方法与装置 Download PDF

Info

Publication number
CN113536077B
CN113536077B CN202110606596.XA CN202110606596A CN113536077B CN 113536077 B CN113536077 B CN 113536077B CN 202110606596 A CN202110606596 A CN 202110606596A CN 113536077 B CN113536077 B CN 113536077B
Authority
CN
China
Prior art keywords
keyword
module
keywords
event
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110606596.XA
Other languages
English (en)
Other versions
CN113536077A (zh
Inventor
李鹏霄
王海洋
翟羽佳
项菲
彭成维
马宏远
王红兵
时磊
赵媛
鲁睿
隋明爽
李雪梅
李�真
张旋
王丽萍
徐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
National Computer Network and Information Security Management Center
Original Assignee
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Branch Institute Of Computing Technology Chinese Academy Of Science, National Computer Network and Information Security Management Center filed Critical Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
Priority to CN202110606596.XA priority Critical patent/CN113536077B/zh
Publication of CN113536077A publication Critical patent/CN113536077A/zh
Application granted granted Critical
Publication of CN113536077B publication Critical patent/CN113536077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种移动APP特定事件内容检测方法,涉及网络信息安全和自然语言处理交叉技术领域。首先获取互联网上特定事件的若干内容作为原始语料,从中抽取原始关键词;针对原始语料构建关键词关系图,并对关键词关系图进行聚类,得到若干簇;对同一簇中的关键词进行量化和排序,得到最能够表达该事件的特征关键词;将特征关键词输入到APP搜索框中进行自动化检索,保存结果;使用机器学习算法对保存结果进行分析,实现了移动APP中特定事件的自动、高效检测分析。本发明以很低的搜索成本获得了不同移动应用针对特定事件的舆论观点和舆论走向信息。本发明还公开了一种移动APP特定事件内容检测装置。

Description

一种移动APP特定事件内容检测方法与装置
技术领域
本发明涉及网络信息安全和自然语言处理交叉技术领域,尤其涉及一种移动APP特定事件内容检测方法与装置。
背景技术
截至2019年6月,我国网民规模达8.54亿,我国手机网民规模达8.47亿,网民使用手机上网的比例达99.1%。移动APP正取代传统报纸、网页作为新闻资讯获取的主要源头和时事讨论的主要阵地。同时各家APP由于编辑人员不同、用户群体不同、思维角度不同对同一事件相关报道的展现通常有所差异,因此,要全面掌握某个舆论事件的发展趋势,需要获取各个移动APP在舆论事件内容上的推送情况。
对于移动APP,在获取某一事件的内容时通过检索获取要比遍历全部内容后过滤的方案具有更高的可行性和更低的成本。因此,进行热点事件内容获取时,采用相关技术在APP中自动化检索相关关键词的方式完成更具有可行性。
随着事态发展与观察角度变化,同一事件通常具有较多关键词,关键词库的一再扩充,使得基于检索的内容采集暴露出一些问题:
首先,关键词具有一定时效性;
其次,各家APP会对终端的检索功能设有安全保护机制,会对终端的一些功能加以限制,比如通过ip、mac、分配唯一设备id、账号等方式,若检测到用户在一定时间内检索次数过多则会导致设备或IP被限制访问,因此需要对关键词库进行筛选和量化,以便利用有限的关键词检索到最准确和全面的信息。
发明内容
本发明所要解决的技术问题是:提供一种移动APP特定事件内容检测方法与装置,解决自动检测、抓取移动APP对特定事件的推送内容。
为解决上述技术问题,本发明所采用的技术方案是:
一种移动APP特定事件内容检测方法,包括以下步骤:
S1、根据热搜榜获取互联网上的特定事件的若干新闻内容作为原始语料,从原始语料中抽取关键词,构建针对特定事件原始关键词库;
S2、针对特定事件内容的原始语料,分别构建关键词在该原始语料中的关系图,即关键词关系图,并对关键词关系图进行聚类,得到若干簇,不同的簇代表不同的观点;
S3、对同一簇中的关键词进行量化和排序,得到最能够表达该事件的关键词组,组中的每一个关键词称之为特征关键词;
S4、在得到各个簇的特征关键词之后,将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,以图像或文本的形式保存结果;
S5、使用机器学习算法对保存结果进行分析,判断验证保存结果是否属于特定事件的相关内容。
与现有技术相比,本发明具有如下技术效果:
通过精选特征关键词,利用APP有限的搜索次数,实现了对移动APP针对某特定舆论事件推送内容的自动检测和分析,掌握舆论发展进程及各移动APP针对某特定舆论事件的态度和走势。
在上述技术方案的基础上,本发明还可以做如下改进。
优选地,所述关键词关系图为有向图G={V, E}, V是图中节点的集合,每个关键词是一个节点。E是图中边的集合,每条边的权重代表一个关键词在另一个关键词出现时也出现的概率。
采用上述进一步方案的有益效果是便于通过关键词之间的关系,判断语料对舆论事件的态度。
优选地,所述对关键词关系图进行聚类,是选择谱聚类的方法将所有关键词划分为若干个内部具有关联性的簇。
采用上述进一步方案的有益效果是不同的簇表示不同的观点,从而可以判断语料在特定舆论事件上的所站的角度和所持的态度。
优选地,所述对同一簇中的关键词进行量化和排序,所述量化是指计算每个簇中每个关键词即每个节点的权重;记W(V i )为节点V i 的权重,则:
Figure 717663DEST_PATH_IMAGE001
其中w ij 为节点V i 与节点V j 之间有向边权重;In(V i )是指向节点V i 的所有节点的集合;
所述排序是指按照上述计算得到的权重值,由大到小进行排序。
采用上述进一步方案的有益效果是对关键词进行量化后,便于进行排序,获得不同关键词的重要程度,进而可以以较小的搜索代价完成检索任务。
优选地,所述将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,若根据单一关键词进行检索的结果与实际事件关联度过低,则在单次检索中通过添加关键词的方式精确匹配;若在单次搜索中使用单一关键词的结果为空,则删除该关键词,则后续的检索过程中不再采用。
一种移动APP特定事件内容检测装置,包括原始语料获取模块、原始关键词抽取模块、原始关键词库、关键词关系图构建模块、聚类模块、关键词量化排序模块、特征关键词库、自动化检索模块、机器学习模块;
所述原始语料获取模块用于根据热搜榜获取互联网上的特定事件的若干新闻内容,作为原始语料;
所述原始关键词抽取模块用于从原始语料中抽取关键词,构建针对特定事件原始关键词库;
所述关键词关系图构建模块用于针对某特定事件的原始语料,构建关键词在该原始语料中的关系图,得到关键词关系图;
所述聚类模块用于对关键词关系图进行聚类,得到若干簇,不同的簇代表不同的观点;
所述关键词量化排序模块用于将关键词进行量化并排序,得到最能够表达该事件的关键词组,组中的每个关键词即为特征关键词;
所述特征关键词库用于存储特征关键词;
所述自动化检索模块用于将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,并以图像或文本的形式保存结果;
所述机器学习模块用于对保存结果进行分析,得到不同移动APP在同一特定舆论事件上推送的内容所代表的舆论态度及舆论走势。
与现有技术相比,本装置通过精选特征关键词,利用移动APP有限的搜索次数,实现了自动化监测移动APP在特定舆论事件上的推送内容,舆论导向,舆论发展趋势,大幅降低了检索的工作量,提高了工作效率。
进一步地,所述自动化检索模块包括获取页面布局模块、模拟点击模块、控件查找模块、检索框控件判断模块、模拟输入模块;
所述获取页面布局模块用于获取移动APP当前页面的布局文件;
所述模拟点击模块用于模拟用户在APP上的点击动作;
所述控件查找模块用于查找移动APP当前页面布局文件中寻找需要操作的控件位置,便于后续对其进行操作;
所述检索框控件判断模块用于与控件查找模块配合,提供判断依据,用以确定是否是所需的控件;
所述模拟输入模块用于输入需要检索的特征关键词。
采用上述进一步方案的有益效果是实现了检索的全自动化处理,降低了工作人员的劳动强度。
附图说明
图1为本发明的移动APP特定事件内容检测方法的流程示意图;
图2为谱聚类效果示意图;
图3为本发明的移动APP特定事件内容检测装置的结构示意图;
在附图中,各标所表示的部件名称列表如下:
1、原始语料获取模块;2、原始关键词抽取模块;3、原始关键词库;4、关键词关系图构建模块;5、聚类模块;6、关键词量化排序模块;7、特征关键词库;8、自动化检索模块;9、机器学习模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
一般情况,逐一将关键词列表中词汇输入检索框,对返回结果做进一步判断,存在着一些问题。一方面,移动APP对于使用搜索功能存在一定限制,过于频繁的搜索或者一段时间内积累的高数量的搜索会导致当前用户账号被限制访问,无法有效率的对数量众多的APP进行核验工作。另一方面,如果采用相对较为宽泛的关键词检索,可能获得大量无关文章,如果采用特定的关键词检索,在绝大多数情况下可能没有任何返回结果。
基于此,本发明采用如下技术方案优化移动APP中特定事件相关内容的检索发现:
请参照图1所示,其为本发明的移动APP特定事件内容检测方法的流程示意图。
首先,根据热搜榜获取互联网上的特定事件新闻内容并进行关键词抽取,构建针对特定事件原始关键词库。
其次,在新闻内容中通过关键词共同出现的情况构建关键词关系图。
在获得的每份该热点事件语料中对关键词库进行检索,例如一篇描述事件经过文章可能出现关键词库中的多个关键词。之后对该事件相关文章关键词共同出现的情况进行统计,建立一个有向图G={V, E},V是图中节点的集合,每个关键词是一个节点。E是图中边的集合,每条边的权重代表一个关键词在另一个关键词出现时也出现的概率,例如关键词A到关键词B的一条有向边的权重表示出现关键词A的文章中关键词B也出现的概率,同理存在着由关键词B到关键词A的有向边,表示出现关键词B的文章中关键词A也出现的概率,如果关键词A和关键词B没有同时出现的情况,则关键词A和关键词B之间没有边连接。
然后对关键词关系图进行无监督聚类,得到的每个簇代表针对该特定事件的不同观点。对同一簇中关键词进行量化和排序,得到最能够表达该事件的关键词组,称之为特征关键词。
在有向图中进行无监督的图聚类时,聚类的方法可以使用Markov ClusteringAlgorithm (MCL)、 First Integer Neighbor Clustering Hierarchy (FINCH)、spectralclustering(谱聚类)等方法,本发明优先采用谱聚类,其聚类的效果如图2所示,通过聚类将所有关键词划分为若干个内部具有关联性的簇,每个簇中包含一个至几百个关键词。
之后对关键词进行量化处理,即计算每个簇中每个关键词也就是节点的权重。节点权重计算依据如下假设:节点权重既取决于其邻居节点的数量,也取决于每个邻居节点的重要性。一个簇中所有节点权重的和等于该簇中节点的个数,每个节点的权重等于所有指向该节点的节点的权重乘以两者之间有向边权重的总和。
W(V i )为第i个节点V i 的权重,则:
Figure 735298DEST_PATH_IMAGE001
其中w ij 为节点V i 与节点V j 之间有向边权重;In(V i )是指向节点V i 的所有节点的集合;
算法的求解采用递归的方式进行,类似于搜索引擎对网页排序的算法PageRank。一个节点的权重越高则代表通过该节点的关键词可以涉及到其他关键词可能性越大,也就是通过该关键词可能搜索到与该事件相关的信息越多。
节点权重计算也可以使用网络重要节点排序方法如基于节点近邻的排序方法如度中心性等、基于路径的排序方法如离心中心性等、基于特征向量的排序方法如特征向量中心性等、基于节点移除和收缩的排序方法如节点删除的最短距离法等。本发明优先选择属于基于特征向量的排序方法。
对所有关键词节点的权重进行排序,按照从高到低的顺序在重点监测的APP的检索功能中进行搜索,和一般检索情况相比,可快速发现相关事件内容。
在得到各个簇的特征关键词之后,针对重点监测的移动应用,对其检索功能进行动态检测,自动化获取检索框。对特征关键词逐一或通过一定策略组合后输入到APP搜索框中进行自动化检索,以图像或文本的形式保存结果。
最后,使用机器学习算法对上述保持结果进行分析,判断验证保存结果是否属于特定事件的相关内容。
机器学习算法判定
文本分类
对于采集到的检索结果,针对获取的文本内容,使用机器学习算法进行文本分类。因为自动化检索模块已经进行了聚类,具有相同属性的关键词在同一簇,因此本发明中的文本分类为二分类问题,即是否属于事件相关内容。本发明优选采用基于bert的文本分类。
加载预训练语言模型:预训练语言模型即预先在大型数据集上构建的预训练的模型,针对不同任务(如文本分类、机器翻译、命名实体识别等)对其进行调优,以实现不同数据集上的指定任务。常见的文本处理预训练模型如Bert、ALLBert、XLNet、BPT等,本发明优选使用bert预训练语言模型。
读取数据:即读取针对本发明要解决的文本分类问题预先标注好的数据,并将该数据分为训练集、验证集、测试集。
数据预处理:主要包括删除不需要信息、分析数据字段功能、处理缺失值、处理不一致数据、处理日期和时间、缩放和规范化等操作。
特征转换:将预处理后的数据转换成语义向量。
模型训练:对于分类问题,通过损失函数最小化来计算分类模型。本发明选择交叉熵损失函数CrossEntropyLoss。
利用验证集调整参数:验证集用来评估分类模型,通过调整参数和在测试集上查看模型的泛化能力确定在该训练集上的最优分类模型。
将采集到的文本类型检索结果输入分类模型可实现针对文本内容的事件相关内容检测。
图像分类
对于采集到的检索结果,针对没有文本内容情况需要对检测结果进行截图获取图片信息,使用机器学习算法进行图像分类。
具体流程同文本分类流程,存在的差异点如下:
加载预训练模型:常见的图像处理预训练模型如EfficientDet、AlexNet、VGG、GoogLeNet、InceptionV4等,本发明优先选用EfficientDet模型,该模型不仅比当前SOTA模型小4倍、而且计算量减少了9倍。
数据预处理:通过数字化、归一化、空间变换和形态学图像处理等方法,解决原始图像中噪声、光照、遮挡、结构和分布等问题,同时提高原始图像质量。
特征转换:将预处理后的数据转换成表征图像特征的向量。
将采集到的图像类型检索结果输入分类模型可实现针对图像内容的事件相关性检测。
对最终获取的事件相关内容采用舆情分析方法判定不同移动应用APP对同一特定事件的态度及走势等。
此外,当前很多APP的搜索功能支持“泛化”的搜索结果,也就是当我们给出A和B两个关键词进行搜索时,如果没有包含关键词A和关键词B的结果,搜索功能将返回只包含关键词A或者只包含关键词B的搜索结果,利用这项功能,我们可以一次提交两个不在同一个类别中待检索关键词,由于这两个关键词不会在同一段文字中出现,APP的搜索功能将返回分别只包含一个关键词的结果,这样可以在一次检索中就查找两个或者多个关键词。
本发明还提供了一种移动APP特定事件内容检测装置,包括原始语料获取模块1、原始关键词抽取模块2、原始关键词库3、关键词关系图构建模块4、聚类模块5、关键词量化排序模块6、特征关键词库7、自动化检索模块8、机器学习模块9;
所述原始语料获取模块用于根据热搜榜获取互联网上的特定事件的若干新闻内容,作为原始语料;
所述原始关键词抽取模块用于从原始语料中抽取关键词,构建针对特定事件原始关键词库;
所述关键词关系图构建模块用于针对某一特定舆论事件内容的原始语料,构建关键词在该原始语料中的关系图,得到关键词关系图;
所述聚类模块用于对关键词关系图进行聚类,得到若干簇,不同的簇代表不同的观点;
所述关键词量化排序模块用于将关键词进行量化并排序,得到最能够表达该事件的关键词组,即特征关键词;
所述特征关键词库用于存储特征关键词;
所述自动化检索模块用于将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,并以图像或文本的形式保存结果;
所述机器学习模块用于对保存结果进行分析,得到不同移动APP在同一特定舆论事件上推送的内容所代表的舆论态度及舆论走势。
所述自动化检索模块包括获取页面布局模块、模拟点击模块、控件查找模块、检索框控件判断模块、模拟输入模块。
动态获取检索框的基本原理是利用模拟点击的方式对已经安装在测试机上的APP进行自动化测试,找到其包含检索框的页面,然后通过模拟点击的方式使检索框控件处于被选中等待输入文本的状态。
整个装置重点在于获取到APP当前页面的布局文件和对布局文件中的控件进行识别和点击。
获取页面布局模块、模拟点击模块可以使用自动化测试工具(如Appium、UIautomator、UIautomator2等)实现,本方案中以UIautomator2为例,使用UIautomator2获取当前页面xml布局和模拟点击控件,由于UIautomator2拿到的布局文件是整个页面的,其中包含手机系统的任务栏和安卓三大金刚虚拟按键,相应的,在xml文件中第一层中有三个Node节点,分别对应任务栏、虚拟按键和APP页面。需要使用xml.etree.ElementTree对获取到的xml布局文件进行解析和分析,提取出所需的APP页面,寻找需要的节点并辅助UIautomator2进行进一步操作。
控件查找模块
控件查找模块主要功能是在当前布局文件中找到需要的节点,以便后续对该节点(通常是按钮)进行其他操作。
模块在进行查找的时候只考虑APP页面(不考虑虚拟按键和手机状态栏),采用遍历方案(如深度优先、广度优先、自定义方案等)本案中采用深度优先遍历方法。查找结果以节点列表的形式保存,若查找结果大于0,则isfind属性置为True作为标志位。
控件查找可通过两种方法实现:
方法一:递归遍历。
查找结果可以作为目标进行点击操作,点击后会监控页面是否发生改变以进行动态延时设置,最多等待5s。页面发生改变后判断当前页面是否满足要求(存在所需控件),若存在则按照业务逻辑继续进行其他操作。若遍历完所有可点击空间均未找到存在符合要求的控件的页面,则该APP“无检索框”。
方法二:自定义方案遍历。
此外,还可通过设计逻辑规则,自“打开APP始”,逐步点击特定控件,并判断点击结果,依次决定下一步的操作,最终到达“终点”。该特定控件为预先定义好的查找逻辑中规定的控件,“终点”可以为抵达检索框所在页面或关闭APP(未能找到检索页的情况下)。如网易新闻的逻辑是“打开APP-点击顶部输入框-到达检索页等待输入”,而其他APP则存在“打开APP-点击搜索按钮-选择搜索项-进入搜索页”的操作逻辑。
检索框控件判断模块
该模块的作用是在进行遍历查找的时候为控件查找模块提供判断依据,参与遍历逻辑的决策生成。
本模块使用控件className、text、description等属性与页面布局xml的层级结果对给定页面进行判断。通过总结发现,一个检索框通常全部或部分满足:
1、className为android.widget.EditText;
2、text包含“检索”、“搜索”等字样或其他快捷检索词;
3、description包含“检索”、“搜索”等字样;
4、一定层级之间的兄弟控件满足第2、3条要求之一
对输入页面布局,首先分析其中所有控件,然后对其进行逐一进行判断,若控件满足“1&(2|3|4)”即满足条件1且满足条件2或条件3或条件4,则判断当前控件为检索框。
自动化检索
自动化检索基于如下准则:若根据单一关键词进行检索的结果与实际事件关联度过低,如检测结果中有一半是不相关的内容,则在单次检索中通过添加关键词的方式精确匹配;若在单次搜索中使用单一关键词的结果为空,则删除该关键词,则后续的检索过程中不再采用。
选中
在找到检索框之后由模拟点击模块进行模拟点击,使目标检索框进入被选中状态,出现闪烁光标,自动弹出输入法键盘才能进行文本输入等操作。
输入
使用模拟输入模块,本例中采用UIAutomator2中提供的基于adb广播的setkey方法可在未获取控件焦点的情况下对当前等待输入的所有控件发送指定内容,包括但不限于英文字母、数字、中文字符、emoji、回车空格等特殊符号、“搜索”“确定”“清空”等键盘控制按钮信号。
在完成文本发送后,通过发送“搜索”信号,即可实现等同于点击一下手机键盘中的“搜索”按钮的效果,从而达到通用的“确认输入”的功能。
注:该功能并非按照pc使用逻辑中的“回车”按钮,事实上在大多APP中,输入回车仅表现为换行。
重置
在完成文本输入后,进行下一个文本输入任务之前,需要将检索框重置为初始状态,即输入框为空、被选中的状态。
该模块通过在页面中查找上次输入(搜索)的文本,通过点击带有该文本的android.widget.EditText控件使键盘弹出,然后发送“清空”信号清除已有文本后重置完成。
检索结果采集
检索结果采集旨在对检索后返回的内容进行后续分析。当点击搜索后,若无返回结果通常会出现“未找到”、“没有结果”等字样,当出现上述提示时表示当前关键词没有搜索结果,此时应当保存日志并跳过。而当存在搜索结果时,应保存搜索结果的截图、对当前页面内容进行文本抽取。后续采用机器学习算法进一步判断,以提高事件相关内容判定的准确性。
一般在一个事件过程中,重要节点数量非常少, 但其影响却可以快速地波及到网络中大部分节点。对于一个无标度网络大部分节点只有少数几个链接,而某些节点却拥有与其他节点的大量链接,表现在度分布上为具有幂律形式。因此,通过本发明的方法,把通过移动APP进行关键词检索的次数从几万个降低到了几百个,以1%-2%的检索次数完成对70%-80%相关信息的检索,可以高效的完成特定事件核验工作。如果采用现有的以每个关键词为目标进行检索的方式,在检索过程中因为检索次数过多导致无法继续开展或者有效率的进行核验工作。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种移动APP特定事件内容检测方法,其特征在于,
S1、获取特定事件的若干内容作为原始语料,从原始语料中抽取关键词,构建针对特定事件的原始关键词库;
S2、针对特定事件内容的原始语料,构建关键词在该原始语料中的关系图,即关键词关系图,并对关键词关系图进行聚类,得到若干簇;
S3、对同一簇中的关键词进行量化和排序,得到最能够表达该事件的关键词组,称之为特征关键词;
S4、在得到各个簇的特征关键词之后,将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,以图像或文本的形式保存结果;
S5、使用机器学习算法对保存结果进行分析,判断验证保存结果是否属于特定事件的相关内容。
2.根据权利要求1所述的移动APP特定事件内容检测方法,其特征在于,所述关键词关系图为有向图G={V, E}, V是图中节点的集合,每个关键词是一个节点,E是图中边的集合,每条边的权重代表一个关键词在另一个关键词出现时也出现的概率。
3.根据权利要求1或2所述的移动APP特定事件内容检测方法,其特征在于,所述对关键词关系图进行聚类,是选择谱聚类的方法将所有关键词划分为若干个内部具有关联性的簇。
4.根据权利要求1或2所述的移动APP特定事件内容检测方法,其特征在于,所述对同一簇中的关键词进行量化和排序,所述量化是指计算每个簇中每个关键词即每个节点的权重;记W(V i )为节点V i 的权重,则:
Figure 587591DEST_PATH_IMAGE001
其中w ij 为节点V i 与节点V j 之间有向边权重;In(V i )是指向节点V i 的所有节点的集合;
所述排序是指按照上述计算得到的权重值,由大到小进行排序。
5.根据权利要求1或2所述的移动APP特定事件内容检测方法,其特征在于,所述将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,若根据单一关键词进行检索的结果与实际事件关联度过低,则在单次检索中通过添加关键词的方式精确匹配;若在单次搜索中使用单一关键词的结果为空,则删除该关键词,后续的检索过程中不再采用。
6.一种移动APP特定事件内容检测装置,包括原始语料获取模块、原始关键词抽取模块、原始关键词库、关键词关系图构建模块、聚类模块、关键词量化排序模块、特征关键词库、自动化检索模块、机器学习模块;
所述原始语料获取模块用于获取特定事件的若干内容,作为原始语料;
所述原始关键词抽取模块用于从原始语料中抽取关键词,构建针对特定事件原始关键词库;
所述关键词关系图构建模块用于针对特定事件的原始语料,构建关键词在该原始语料中的关系图,得到关键词关系图;
所述聚类模块用于对关键词关系图进行聚类,得到若干簇,不同的簇代表不同的观点;
所述关键词量化排序模块用于将关键词进行量化并排序,得到最能够表达该事件的关键词组,即特征关键词;
所述特征关键词库用于存储特征关键词;
所述自动化检索模块用于将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索,并以图像或文本的形式保存结果;
所述机器学习模块用于对保存结果进行分析,得到不同移动APP在同一特定舆论事件上推送的内容所代表的舆论态度及舆论走势。
7.根据权利要求6所述的移动APP特定事件内容检测装置,其特征在于,所述自动化检索模块在将特征关键词逐一或通过一定策略部分组合输入到APP搜索框中进行自动化检索时,若根据单一关键词进行检索的结果与实际事件关联度过低,则在单次检索中通过添加关键词的方式精确匹配;若在单次搜索中使用单一关键词的结果为空,则删除该关键词,后续的检索过程中不再采用。
8.根据权利要求6所述的移动APP特定事件内容检测装置,其特征在于,所述自动化检索模块包括获取页面布局模块、模拟点击模块、控件查找模块、检索框控件判断模块、模拟输入模块;
所述获取页面布局模块用于获取移动APP当前页面的布局文件;
所述模拟点击模块用于模拟用户在APP上的点击动作;
所述控件查找模块用于查找移动APP当前页面布局文件中寻找需要操作的控件位置,便于后续对其进行操作;
所述检索框控件判断模块用于与控件查找模块配合,提供判断依据,用以确定是否是所需的控件;
所述模拟输入模块用于输入需要检索的特征关键词。
CN202110606596.XA 2021-05-31 2021-05-31 一种移动app特定事件内容检测方法与装置 Active CN113536077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110606596.XA CN113536077B (zh) 2021-05-31 2021-05-31 一种移动app特定事件内容检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606596.XA CN113536077B (zh) 2021-05-31 2021-05-31 一种移动app特定事件内容检测方法与装置

Publications (2)

Publication Number Publication Date
CN113536077A CN113536077A (zh) 2021-10-22
CN113536077B true CN113536077B (zh) 2022-06-17

Family

ID=78124539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606596.XA Active CN113536077B (zh) 2021-05-31 2021-05-31 一种移动app特定事件内容检测方法与装置

Country Status (1)

Country Link
CN (1) CN113536077B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615718A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的层次分析方法
CN106257457A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情收集整理方法
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法
CN110457672A (zh) * 2019-06-25 2019-11-15 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN110781679A (zh) * 2019-10-15 2020-02-11 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN111597333A (zh) * 2020-04-27 2020-08-28 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111859961A (zh) * 2020-07-29 2020-10-30 华中师范大学 一种基于改进TopicRank算法的文本关键词抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US9501569B2 (en) * 2013-04-23 2016-11-22 Microsoft Technology Licensing, Llc Automatic taxonomy construction from keywords

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615718A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的层次分析方法
CN106257457A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情收集整理方法
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法
CN110457672A (zh) * 2019-06-25 2019-11-15 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN110781679A (zh) * 2019-10-15 2020-02-11 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN111597333A (zh) * 2020-04-27 2020-08-28 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111859961A (zh) * 2020-07-29 2020-10-30 华中师范大学 一种基于改进TopicRank算法的文本关键词抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Event Detection System Using Twitter Data;Tae Soo Park;《Journal of Internet Computing and Services》;20160630;第17卷(第6期);全文 *
特定事件微博子话题特征提取研究;翟羽佳;《情报科学》;20160305(第03期);全文 *
面向社交媒体评论的子话题挖掘研究;夏丽华;《情报杂志》;20200430;第39卷(第04期);全文 *
面向舆情事件的子话题标签生成模型ET-TAG;周楠等;《计算机学报》;20171003(第07期);全文 *

Also Published As

Publication number Publication date
CN113536077A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN111459799B (zh) 一种基于Github的软件缺陷检测模型建立、检测方法及系统
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN107844533A (zh) 一种智能问答系统及分析方法
US20060179041A1 (en) Search system and search method
Sharma et al. NIRMAL: Automatic identification of software relevant tweets leveraging language model
Banerjee et al. Bengali question classification: Towards developing qa system
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
KR20210129465A (ko) 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN113378024B (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
Papanikolaou et al. Protest event analysis: A longitudinal analysis for Greece
CN106776590A (zh) 一种获取词条译文的方法及系统
CN113536077B (zh) 一种移动app特定事件内容检测方法与装置
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
Magalhães et al. Mare: an active learning approach for requirements classification
CN114238735B (zh) 一种互联网数据智能采集方法
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant