CN110334180A - 一种基于评论数据的移动应用安全性评估方法 - Google Patents

一种基于评论数据的移动应用安全性评估方法 Download PDF

Info

Publication number
CN110334180A
CN110334180A CN201910484227.0A CN201910484227A CN110334180A CN 110334180 A CN110334180 A CN 110334180A CN 201910484227 A CN201910484227 A CN 201910484227A CN 110334180 A CN110334180 A CN 110334180A
Authority
CN
China
Prior art keywords
comment
security
safety
vector
comment data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910484227.0A
Other languages
English (en)
Other versions
CN110334180B (zh
Inventor
陶传奇
郭虹静
黄志球
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910484227.0A priority Critical patent/CN110334180B/zh
Publication of CN110334180A publication Critical patent/CN110334180A/zh
Application granted granted Critical
Publication of CN110334180B publication Critical patent/CN110334180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于评论数据的移动应用安全性评估方法,该方法融合了多种文本表示模型,从评论数据中提取多维度特征构建统一的向量表示形式,使用机器学习算法构建移动应用的安全性评估模型,利用评估模型为待检测的应用程序提供安全性风险值。同时,就安全性评估结果为用户提供解释说明。本发明克服了传统应用程序安全性评估方法中程序代码难获得、难分析以及评估结果用户难以理解的问题,构建了基于评论数据的移动应用安全性评估模型,并为用户提供评估结果的解释说明,有效地提高了安全性评估工作的效率,同时也降低了评估工作的难度。

Description

一种基于评论数据的移动应用安全性评估方法
技术领域
本发明属于移动应用安全性评估技术领域,具体涉及一种基于评论数据的移动应用安全性评估方法。
背景技术
随着移动互联网的发展,移动应用程序(App)发展迅速,用户对移动应用的安全问题的担忧也随之而来。在传统的移动应用安全分析中,通过对移动应用动态检测和静态代码分析技术,可以挖掘出隐藏在程序代码里的不良行为,这些分析技术的前提是事先获取程序的代码,通过反编译等手段解析出应用程序的代码结构,从代码层面对移动应用进行安全检测。然而用户很难获取到移动应用的源代码,也很难对一些经过复杂的混淆和加壳技术的应用程序进行逆向破解工作,用户很难部署基于代码的分析技术来对应用程序进行安全性评估。此外,用户也很难理解这些代码层面的评估结果。对于用户来说,评论数据是评估移动应用程序的宝贵信息来源,这些信息对于发现移动应用的不足和安全隐患具有重要的价值。如果从评论中去挖掘移动应用程序的安全信息,可以避免复杂的代码逆向分析工作,将会节省很多工作量,可以提高移动应用的安全性评估的效率。
目前,已有一些工作集中在挖掘用户评论中,如从原始评论中提取出有意义的信息,将评论自动分成多种类型,从评论文本的情感角度分析用户对移动应用的满意度等。Hatamian等人提出了一种基于人工神经网络的排序模型,从评论中提取安全和隐私问题相关的知识,但并未从移动应用的层面,给出直观的安全性评估结果;Cen等人挖掘GooglePlay应用商店上的用户评论,使用有监督的多标签学习方法识别不同类别的安全和隐私问题的评论,并采用众包和排序学习的方法对应用程序的安全性风险进行排名,此方法虽给出了安全性评估的结果,但未从用户角度,给出清晰的,便于理解的评估结果说明。近年来,由于机器学习和深度学习的广泛应用,计算机对于自然语言的处理能力更上了一个新的台阶。此时,若能采用这些智能化的技术,对一定数量的用户评论数据进行统计分析,对移动应用进行安全性评估,并为用户提供评估结果的解释说明,这样就可以更便捷、更高效地实现移动应用的安全性评估工作,同时也减轻用户的负担。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于评论数据的移动应用安全性评估方法,以克服传统应用程序安全性评估方法中程序代码难获得、难分析以及评估结果用户难以理解的问题;本发明能够融合多种文本表示模型,将非结构化的评论表示成统一的向量形式,利用机器学习算法构建移动应用的安全性评估模型,为待测移动应用提供安全性风险值,同时为用户提供评估结果的说明和可视化的雷达图显示。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种基于评论数据的移动应用安全性评估方法,包括步骤如下:
1)安全性评论数据获取:收集移动应用程序的评论数据,对评论数据进行预处理和关键词提取,筛选关键词构建安全性关键词库;根据安全性关键词库,构建安全性相关评论数据集;
2)评论文本向量生成:对每一条安全性相关的评论文本,生成评论文本的语义向量及文本—主题向量,将所述两种向量进行拼接、融合生成新的向量,新的向量作为评论文本向量;
3)评论文档向量生成:将评论文本向量作为输入,使用双向RNN模型得到当前应用程序下的评论文档向量;
4)评估结果生成:获取应用程序的安全性风险值;将每一个应用程序表示为<评论文档向量,安全性风险值>的二元组,将二元组作为输入,使用机器学习的回归模型构建安全性评估模型,利用安全性评估模型为待检测的应用程序生成安全性风险值;
5)评估结果说明:对步骤2)中得到的评论文本向量进行聚类,并抽取出每一簇中的关键词和关键短语;根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语,为用户提供自然语言描述的安全性评估结果的说明。
优选地,所述步骤1)具体包括:
11)收集移动应用程序的评论数据,利用自然语言处理技术对评论数据进行预处理和关键词提取,筛选关键词构造安全性关键词库;
12)根据安全性关键词库,利用余弦函数筛选安全性相关评论,构建安全性相关评论数据集。
优选地,所述步骤2)具体包括:
21)利用TF-IDF算法计算评论中词语权重,采用词语权重和Word2Vec模型生成的词向量加权平均得到评论文本的语义向量;
22)利用LDA模型为评论文本生成文本—主题向量。
优选地,所述步骤5)具体包括:
51)利用K-means++算法对步骤2)中得到的评论文本向量进行聚类,并使用TextRank算法提取出每一簇中的关键词和关键短语;
52)根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语,以雷达图和列表的形式,为用户提供自然语言描述的安全性评估结果的说明。
本发明的有益效果:
本发明充分利用了评论的词语权重、语义和主题信息,将非结构化的评论文档统一表示成向量的形式,并利用机器学习算法构建了移动应用的安全性评估模型,利用模型为待检测移动应用进行安全性评估,同时为用户提供便于理解的评估结果说明。具体说,主要有如下一些优点:
(1)本发明规避开了复杂的代码逆向和分析工作,充分利用了评论数据挖掘出安全性相关信息,并基于评论数据的统计信息对移动应用的安全性进行评估。
本发明利用了自然语言形式的评论文本,对评论文本进行了大量的特征提取过程,包括词语权重特征、语义特征以及主题特征的提取,从多个维度来充分挖掘评论数据中所包含的信息。并且将评论文本的语义向量和文档—主题向量融合成一个新的向量,将非结构化的自然语言评论文本转化为机器学习算法可以理解的形式。
考虑到不同用户撰写的评论文本对于整个应用程序的评论文档向量的生成的重要性不同,本发明利用双向RNN模型来获得每条评论文本的权重,加权得到最终评论文档的向量。
(2)本发明提出了智能化的移动应用安全性评估模型,可对移动应用市场上已发布的且具有一定用户评论的应用程序进行安全性评估,不依赖于传统的代码分析和安全性专家的人工评估,进一步提高工作效率,减轻用户负担。
(3)目前已有的移动应用安全性评估工作仅给出了宏观的评估结果,本发明不仅给出了一个数值型的安全性评估结果,还提供相应的评估结果说明供用户参考,使得用户更能清晰地了解到当前移动应用程序存在的问题。
附图说明
图1为本发明的方法架构图。
图2为本发明中所使用的双向RNN模型应用于评论文档向量生成的示例图。
图3为Androguard工具生成的移动应用程序的安全性风险值的示意图。
图4为本发明中所生成的用户评论中的安全性相关信息的雷达图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参照图1所示,本发明的一种基于评论数据的移动应用安全性评估方法,包括步骤如下:
步骤1)安全性评论数据获取:收集移动应用程序的评论数据,对评论数据进行预处理和关键词提取,筛选关键词构建安全性关键词库;根据安全性关键词库,构建安全性相关评论数据集;其中,
11)利用爬虫从Google Play应用商店中爬取200个移动应用的评论数据,其中包括评论的内容和评论提交时间。每一条评论的内容作为一个评论文本,选取提交时间范围为2018年4月至2019年4月的评论文本。对收集到的评论文本进行自然语言处理,包括分词、词根还原、去掉停用词。经过人工评估,筛选出安全性相关的关键词,主要是名词和动词,构建安全性关键词库。表1所示为安全性关键词库中,词频排序前15的关键词列表;
表1
1 security 6 account 11 steal
2 privacy 7 permission 12 phish
3 crash 8 leak 13 advertisement/ad
4 spam 9 GPS 14 malware
5 money 10 junk 15 SMS
12)获得安全性关键词库后,根据词库,利用余弦函数从用户评论中筛选出与安全性相关的评论,构建安全性评论数据集。首先,对每一条评论文本进行关键词提取,然后利用余弦函数计算该评论与安全性关键词库中信息的文本相似度,如公式(1)所示:
其中,|rk|表示每一条评论文本的关键词数量,|rk∩rl|表示该评论与安全性关键词库所共有的关键词数量,Sk表示该评论与安全性关键词库中信息的文本相似度。当Sk大于某一界定θ(根据经验0.7-0.8较为合适)时,即认为该评论是与安全性相关的评论。
步骤2)评论文本向量生成:对每一条安全性相关的评论文本,生成评论文本的语义向量及文本—主题向量,将所述两种向量进行拼接、融合生成新的向量,新的向量作为评论文本向量;其中,
21)对于安全性评论数据集中的每一条评论文本,利用TF-IDF算法计算评论文本中词语t的权重kt,并去除评论文本中的低频词;利用Word2Vec模型得到词语t对应的100维的词向量wt。经TF-IDF算法得到词语权重后,对所有评论文本中的词语的词向量进行加权平均得到评论文本的语义向量,如公式(2)所示,其中,ri为评论文本i中经过分词后的所有的单词集合;每一条评论文本的语义向量具体表示为:Vi=(v1,v2,...,v100);
22)对于每一条评论文本i,采用LDA模型生成100维的文本—主题向量,具体表示为:Ti=(t1,t2,...,t100);
23)将100维的经词语权重加权后的文本语义向量Vi=(v1,v2,...,v100)和100维的文本—主题向量Ti=(t1,t2,...,t100)进行向量拼接,最终表示为200维的评论文本向量,具体表现形式为:Ri=(v1,v2,...,v100,t1,t2,...,t100)。
步骤3)评论文档向量生成:评论文档由当前应用程序下所有的安全性相关的评论文本组成;将评论文本向量作为输入,使用双向RNN模型(结构如图2)将当前应用程序下的评论文档向量表示为一个m维的向量,具体表现形式为:Dj=(d1,d2,...,dm)。
步骤4)评估结果生成:获取应用程序的安全性风险值;将每一个应用程序表示为<评论文档向量,安全性风险值>的二元组,将二元组作为输入,使用机器学习的回归模型构建安全性评估模型,利用安全性评估模型为待检测的应用程序生成安全性风险值;其中,
41)利用开源静态分析工具Androguard中的androrisk模块获取应用程序的安全性风险值,该风险值在[0-100]的范围内,该值越高则表明该应用程序存在的安全性风险越大,图3给出了Androguard工具生成的移动应用程序安全性风险值的实例;
42)将步骤3)中得到的评论文档向量作为回归模型的特征输入,将收集到的每一个应用程序表示为<评论文档向量,风险值>的二元组,将这些数据作为机器学习的回归模型的输入,训练并构建移动应用的安全性评估模型;
43)利用构建好的安全性评估模型,对待检测的应用程序进行评估,模型进行预测并生成[0-100]范围内的安全性评估值。
步骤5)评估结果说明:对步骤2)中得到的评论文本向量进行聚类,并抽取出每一簇中的关键词和关键短语;根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语,为用户提供自然语言描述的安全性评估结果的说明。其中,
51)采用K-means++算法,对步骤2)中得到的评论文本向量进行聚类,具有相似语义和主题特征的评论文本被分至同一簇;
52)采用TextRank算法抽取出同一簇评论文本中的关键词和关键短语,统计出现的频率,按照降序进行排序,表2为抽取的出现频率前七的关键词或关键短语的列表;如下:
表2
关键词或关键短语 出现频率(/次)
crash 54
advertisement pop up 36
steal money 28
leak GPS location 10
send SMS message 5
steal data 5
junk mail 2
53)使用雷达图对出现频率最高的前七个关键词或短语进行可视化显示,如图4所示;同时,根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语,以表3的形式,为用户提供自然语言描述的安全性评估结果的说明,表3如下:
表3
其中,“安全性评估值”即步骤4)中生成的安全性风险值,“用户评论中反馈的问题”即抽取出的关键词和关键短语,按照出现的次数降序排序。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (4)

1.一种基于评论数据的移动应用安全性评估方法,其特征在于,包括步骤如下:
1)安全性评论数据获取:收集移动应用程序的评论数据,对评论数据进行预处理和关键词提取,筛选关键词构建安全性关键词库;根据安全性关键词库,构建安全性相关评论数据集;
2)评论文本向量生成:对每一条安全性相关的评论文本,生成评论文本的语义向量及文本—主题向量,将所述两种向量进行拼接、融合生成新的向量,新的向量作为评论文本向量;
3)评论文档向量生成:将评论文本向量作为输入,使用双向RNN模型得到当前应用程序下的评论文档向量;
4)评估结果生成:获取应用程序的安全性风险值;将每一个应用程序表示为<评论文档向量,安全性风险值>的二元组,将二元组作为输入,使用机器学习的回归模型构建安全性评估模型,利用安全性评估模型为待检测的应用程序生成安全性风险值;
5)评估结果说明:对步骤2)中得到的评论文本向量进行聚类,并抽取出每一簇中的关键词和关键短语;根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语,为用户提供自然语言描述的安全性评估结果的说明。
2.根据权利要求1所述的基于评论数据的移动应用安全性评估方法,其特征在于,所述步骤1)具体包括:
11)收集移动应用程序的评论数据,利用自然语言处理技术对评论数据进行预处理和关键词提取,筛选关键词构造安全性关键词库;
12)根据安全性关键词库,利用余弦函数筛选安全性相关评论,构建安全性相关评论数据集。
3.根据权利要求1所述的基于评论数据的移动应用安全性评估方法,其特征在于,所述步骤2)具体包括:
21)利用TF-IDF算法计算评论中词语权重,采用词语权重和Word2Vec模型生成的词向量加权平均得到评论文本的语义向量;
22)利用LDA模型为评论文本生成文本—主题向量。
4.根据权利要求1所述的基于评论数据的移动应用安全性评估方法,其特征在于,所述步骤5)具体包括:
51)利用K-means++算法对步骤2)中得到的评论文本向量进行聚类,并使用TextRank算法提取出每一簇中的关键词和关键短语;
52)根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语,以雷达图和列表的形式,为用户提供自然语言描述的安全性评估结果的说明。
CN201910484227.0A 2019-06-05 2019-06-05 一种基于评论数据的移动应用安全性评估方法 Active CN110334180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910484227.0A CN110334180B (zh) 2019-06-05 2019-06-05 一种基于评论数据的移动应用安全性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910484227.0A CN110334180B (zh) 2019-06-05 2019-06-05 一种基于评论数据的移动应用安全性评估方法

Publications (2)

Publication Number Publication Date
CN110334180A true CN110334180A (zh) 2019-10-15
CN110334180B CN110334180B (zh) 2023-03-31

Family

ID=68140343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910484227.0A Active CN110334180B (zh) 2019-06-05 2019-06-05 一种基于评论数据的移动应用安全性评估方法

Country Status (1)

Country Link
CN (1) CN110334180B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540361A (zh) * 2020-03-26 2020-08-14 北京搜狗科技发展有限公司 一种语音处理方法、装置和介质
CN112732272A (zh) * 2019-10-28 2021-04-30 阿里巴巴集团控股有限公司 一种应用程序的发布方法和装置
CN114896522A (zh) * 2022-04-14 2022-08-12 北京航空航天大学 多平台信息疫情风险评估方法及装置
CN115080741A (zh) * 2022-06-24 2022-09-20 平安银行股份有限公司 一种问卷调查分析方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485507A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统
CN108717459A (zh) * 2018-05-24 2018-10-30 哈尔滨工程大学 一种面向用户评论信息的移动应用缺陷定位方法
CN109583208A (zh) * 2018-12-03 2019-04-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于移动应用评论数据的恶意软件识别方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485507A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统
CN108717459A (zh) * 2018-05-24 2018-10-30 哈尔滨工程大学 一种面向用户评论信息的移动应用缺陷定位方法
CN109583208A (zh) * 2018-12-03 2019-04-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于移动应用评论数据的恶意软件识别方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINYONG WANG: "Software Reliability Prediction Using a Deep Learning Model based on the RNN Encoder–Decoder", 《RELIABILITY ENGINEERING AND SYSTEM SAFETY》 *
TIMO JOHANN 等: "SAFE: A Simple Approach for Feature Extraction from App Descriptions and App Reviews", 《2017 IEEE 25TH INTERNATIONAL REQUIREMENTS ENGINEERING CONFERENCE》 *
沈国华 等: "软件可信评估研究综述:标准、模型与工具", 《软件学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732272A (zh) * 2019-10-28 2021-04-30 阿里巴巴集团控股有限公司 一种应用程序的发布方法和装置
CN112732272B (zh) * 2019-10-28 2024-05-28 阿里巴巴集团控股有限公司 一种应用程序的发布方法和装置
CN111540361A (zh) * 2020-03-26 2020-08-14 北京搜狗科技发展有限公司 一种语音处理方法、装置和介质
CN111540361B (zh) * 2020-03-26 2023-08-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和介质
CN114896522A (zh) * 2022-04-14 2022-08-12 北京航空航天大学 多平台信息疫情风险评估方法及装置
CN115080741A (zh) * 2022-06-24 2022-09-20 平安银行股份有限公司 一种问卷调查分析方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN110334180B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110334180B (zh) 一种基于评论数据的移动应用安全性评估方法
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN104699766B (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
Halibas et al. Application of text classification and clustering of Twitter data for business analytics
Lou et al. TFDroid: Android malware detection by topics and sensitive data flows using machine learning techniques
EP3086239A1 (en) Scenario generation device and computer program therefor
CN105912716A (zh) 一种短文本分类方法及装置
Sharma et al. NIRMAL: Automatic identification of software relevant tweets leveraging language model
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
Lou et al. Multilabel subject-based classification of poetry
CN106462807A (zh) 根据大规模非结构化数据学习多媒体语义
EP3086240A1 (en) Complex predicate template gathering device, and computer program therefor
Misuraca et al. A network-based concept extraction for managing customer requests in a social media care context
Kim et al. SMS spam filterinig using keyword frequency ratio
Nirmala et al. Twitter data analysis for unemployment crisis
Suhas Bharadwaj et al. A novel multimodal hybrid classifier based cyberbullying detection for social media platform
CN114117299A (zh) 一种网站入侵篡改检测方法、装置、设备及存储介质
Aziz et al. Social network analytics: natural disaster analysis through twitter
CN113626817B (zh) 恶意代码家族分类方法
CN114491530A (zh) 基于抽象流图和图神经网络的安卓应用程序分类方法
Masood et al. Text analytics: The dark data frontier
CN113268714A (zh) 一种开源软件许可证条款自动提取方法
CN112562665A (zh) 一种基于信息交互的语音识别方法、存储介质及系统
CN109597879A (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant