CN112101024A - 基于app信息的目标对象识别系统 - Google Patents
基于app信息的目标对象识别系统 Download PDFInfo
- Publication number
- CN112101024A CN112101024A CN202011258990.0A CN202011258990A CN112101024A CN 112101024 A CN112101024 A CN 112101024A CN 202011258990 A CN202011258990 A CN 202011258990A CN 112101024 A CN112101024 A CN 112101024A
- Authority
- CN
- China
- Prior art keywords
- target
- app
- information
- database
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于app信息的目标对象识别系统。
背景技术
现有技术中,可以运用大数据平台的存储计算能力,通过创建任务的方式,为待识别对象创建一个计算任务来识别该待测对象是否为目标对象。但是,当待识别对象的数量巨大时,将造成任务数量巨大,计算资源需求量大,由于机器资源有限,就会造成计算瓶颈,延长目标对象的识别时间。现有技术中也有基于种子对象的特征从海量数据中筛选目标对象,但由于种子对应对象的数量相对较少,直接基于种子对象的特征从海量数据库中筛选目标对象的准确度较低。因此,如何从海量待测对象中快速准确地识别出目标对象成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种基于app信息的目标对象识别系统,能够快速准确地从海量待测对象中识别出目标对象。
根据本发明第一方面,提供了一种基于应用程(Application,简称app)信息的目标对象识别系统,包括第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储目标app种子信息,所述第二数据库用于存储全量app信息,所述第三数据库用于存储待识别对象属性信息,所述待识别对象的属性信息包括待识别对象的身份信息和待识别对象安装的app信息,当所述计算机程序被处理器执行时,实现以下步骤:
步骤S3、根据所述目标特征词库从所述第二数据库中筛选出目标APP信息,并基于所筛选的目标APP信息构建目标app列表;
步骤S4、基于所述目标app列表从所述第三数据库中识别目标对象。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于app信息的目标对象识别系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明能够基于少量的种子信息结合海量app信息确定目标特征词库,再反向从海量app信息确定出较大数量的目标APP信息,再基于较大数量的目标APP信息从海量待测对象中识别出目标对象,提高了目标对象识别的效率和准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的基于app信息的目标对象识别系统示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于app信息的目标对象识别系统的具体实施方式及其功效,详细说明如后。
本发实施例提供了一种基于app信息的目标对象识别系统,如图1所示,包括第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储目标app种子信息,所述第二数据库用于存储全量app信息,所述第三数据库用于存储待识别对象属性信息,所述待识别对象的属性信息包括待识别对象的身份信息和待识别对象安装的app信息,
可以理解的是,目标app种子信息,即为确定的目标app信息,目标app信息为目标对象安装的用于进行特定行为的app信息,实行特定行为的对象即为目标对象,基于是否装该目标app信息能够判断对应的安装对象是否为目标对象。所述第二数据库的全量app信息为海量的所有app信息,这些app信息可能为目标app信息,也可能不是目标app信息,种子信息的数量往往相对较少,因此第二数据库中的app信息数量远大于第一数据库中的目标app种子信息数量,例如,第一数据库中存储有20个目标app种子信息,所述第二数据库中的存储有6000万app信息,以下实施例均基于此示例进行说明。所述第三数据库中,身份信息可以包括唯一ID、性别等,身份信息与该身份信息对应的安装的app信息,是可以通过身份信息对应的移动终端的设备id进行关联的。
目标对象对应的app信息存在相似的特征,因此,可以寻找出目标对象对应的app信息的特征,再基于这些特征去海量的待识别对象的数据中识别目标对象。而目标app种子信息的数量又较少,因此可先基于app种子信息扩充目标app信息的数量,再从海量的待识别对象的数据中识别目标对象,基于此,所述系统中,当所述计算机程序被处理器执行时,实现以下步骤:
例如,预设数量为20,则基于20个目标app种子信息提取出第一特征词库。
步骤S3、根据所述目标特征词库从所述第二数据库中筛选出目标APP信息,并基于所筛选的目标APP信息构建目标app列表;
这样,就能基于20个目标app种子信息,获取到大量的目标app信息,例如可以从6000万个app信息中获取到2万个目标app信息,这样大大拓展了目标APP信息的数量,更有助于从海量的待测对象数据中筛选出更多的目标对象。
步骤S4、基于所述目标app列表从所述第三数据库中识别目标对象。
根据本发明,所述系统可以物理实现为一个服务器,也可以实现为包括多个服务器的服务器群组,本发明实施例所述系统能够基于少量的种子信息结合海量app信息确定目标特征词库,再反向从海量app信息确定出较大数量的目标APP信息,再基于较大数量的目标APP信息从海量待测对象中识别出目标对象,提高了目标对象识别的效率和准确度。
作为一种示例,所述步骤S1中,所述从所述预设数量的目标app种子信息中提取出第一特征词库,包括:
步骤S11、基于预设的分词词库,将所获取的每一目标app种子信息的app名称信息和描述信息进行分词,得到分词信息;
其中,预设的分词词库为根据基本的语料库设定的分词词库。
步骤S12、基于预设的停用词词库,对所述分词信息进行剔词,将剩余分词信息组成所述第一特征词库。
其中,预设的停用词词库为根据基本的语料库设定的停用词词库。
可以理解的是,目标对象所安装的app信息在app名称和app描述等文本信息是具有一定的相似度的,因此可以构建特征词库去海量数据中识别目标。
通过步骤S11-步骤S12所得到的特征词中,是有一部分词是仅有少量的目标app中包含的文本信息,这类信息如果进行后续流程中识别目标对象,会降低目标识别的效率和准确性,造成计算资源的浪费。因此,可通过步骤S2将权重更大的特征词从所述第一特征词库中选择出来作为目标特征词,以进一步提高目标对象识别的效率和准确性。因此,所述步骤S2可包括:
基于权重参考值再从第一特征词库中筛选出更加精确的目标特征词,构建目标特征词库,避免了后续过程中基于精确度低的特征词进行目标对象识别,从而提高了目标对象识别的精确度和效率。
作为一种示例,所述步骤S3包括:
步骤S301、根据目标筛选精度设定特征词数量阈值;
可以理解的是,目标筛选精度越高,对应设定特征词数量阈值越大,
步骤S302、遍历所述第二数据库中的app信息,判断每一所述app信息中是否包括大于所述特征词数量阈值的第一特征词,若是,则将该app信息确定为目标app信息;
步骤S303、基于所有确定的目标app信息构建目标app列表。
基于步骤S301-步骤S303可以从6000万个app信息中获取到2万个目标app信息,为了进一步提高目标对象的识别效率和准确度,可以动2万个目标app信息进一步进行精筛,作为一种示例,所述系统还包括显示装置,所述步骤S302包括:若所述app信息中是否包括大于所述特征词数量阈值的第一特征词,则将该app信息呈现至所述显示装置,接收用户基于该app信息的输入指令,若所述输入指令为确认指令,则将该app信息确定为目标app信息。通过该步骤可以从2万个app信息筛选出2000个目标app信息来构建最终的目标app列表。
作为一种示例,所述步骤S4包括:
步骤S41、根据目标筛选精度设定预设app数量阈值;
可以理解的是,目标筛选精度越高,所设定预设app数量阈值越大。
步骤S42、遍历所述第三数据库中每一待识别对象安装的app信息,将该对象安装的app信息与所述目标app列表匹配,获取该对象对安装的app信息中所包括的目标app的数量,并与所述app数量阈值相比较,若大于所述app数量阈值,则将该对象确定为目标对象。
作为一种示例,所述步骤S4还包括:
步骤S43、将所确定的目标对象对应的身份信息输出至所述显示装置上,供用户直接查看,方便用户直接查看或调用目标对象的特征,提升了用户体验。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.一种基于app信息的目标对象识别系统,其特征在于,
包括第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储目标app种子信息,所述第二数据库用于存储全量app信息,所述第三数据库用于存储待识别对象属性信息,所述待识别对象的属性信息包括待识别对象的身份信息和待识别对象安装的app信息,当所述计算机程序被处理器执行时,实现以下步骤:
步骤S3、根据所述目标特征词库从所述第二数据库中筛选出目标APP信息,并基于所筛选的目标APP信息构建目标app列表;
步骤S4、基于所述目标app列表从所述第三数据库中识别目标对象。
2.根据权利要求1所述的基于app信息的目标对象识别系统,其特征在于,
所述步骤S1中,所述从所述预设数量的目标app种子信息中提取出第一特征词库,包括:
步骤S11、基于预设的分词词库,将所获取的每一目标app种子信息的app名称信息和描述信息进行分词,得到分词信息;
步骤S12、基于预设的停用词词库,对所述分词信息进行剔词,将剩余分词信息组成所述第一特征词库。
4.根据权利要求1所述的基于app信息的目标对象识别系统,其特征在于,
所述步骤S3包括:
步骤S301、根据目标筛选精度设定特征词数量阈值;
步骤S302、遍历所述第二数据库中的app信息,判断每一所述app信息中是否包括大于所述特征词数量阈值的第一特征词,若是,则将该app信息确定为目标app信息;
步骤S303、基于所有确定的目标app信息构建目标app列表。
5.根据权利要求4所述的基于app信息的目标对象识别系统,其特征在于,
所述系统还包括显示装置,所述步骤S302包括:若所述app信息中是否包括大于所述特征词数量阈值的第一特征词,则将该app信息呈现至所述显示装置,接收用户基于该app信息的输入指令,若所述输入指令为确认指令,则将该app信息确定为目标app信息。
6.根据权利要求1所述的基于app信息的目标对象识别系统,其特征在于,
步骤S4包括:
步骤S41、根据目标筛选精度设定预设app数量阈值;
步骤S42、遍历所述第三数据库中每一待识别对象安装的app信息,将该对象安装的app信息与所述目标app列表匹配,获取该对象对安装的app信息中所包括的目标app的数量,并与所述app数量阈值相比较,若大于所述app数量阈值,则将该对象确定为目标对象。
7.根据权利要求5所述的基于app信息的目标对象识别系统,其特征在于,
所述步骤S4还包括:
步骤S43、将所确定的目标对象对应的身份信息输出至所述显示装置上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011258990.0A CN112101024B (zh) | 2020-11-12 | 2020-11-12 | 基于app信息的目标对象识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011258990.0A CN112101024B (zh) | 2020-11-12 | 2020-11-12 | 基于app信息的目标对象识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101024A true CN112101024A (zh) | 2020-12-18 |
CN112101024B CN112101024B (zh) | 2021-02-05 |
Family
ID=73785855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011258990.0A Active CN112101024B (zh) | 2020-11-12 | 2020-11-12 | 基于app信息的目标对象识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101024B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765495A (zh) * | 2021-01-28 | 2021-05-07 | 杭州云深科技有限公司 | 获取目标位置的数据处理系统 |
CN112888010A (zh) * | 2021-01-28 | 2021-06-01 | 杭州云深科技有限公司 | 基于wifi连接设备群体信息的目标wifi预警系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030072484A1 (en) * | 2001-09-17 | 2003-04-17 | Kokko Eric Gerard | Method and apparatus for identifying and quantifying characteristics of seeds and other small objects |
CN104035969A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN108228587A (zh) * | 2016-12-13 | 2018-06-29 | 北大方正集团有限公司 | 群体识别方法及群体识别装置 |
CN110555105A (zh) * | 2018-03-26 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 对象处理方法及系统、计算机系统及计算机可读存储介质 |
-
2020
- 2020-11-12 CN CN202011258990.0A patent/CN112101024B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030072484A1 (en) * | 2001-09-17 | 2003-04-17 | Kokko Eric Gerard | Method and apparatus for identifying and quantifying characteristics of seeds and other small objects |
CN104035969A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN108228587A (zh) * | 2016-12-13 | 2018-06-29 | 北大方正集团有限公司 | 群体识别方法及群体识别装置 |
CN110555105A (zh) * | 2018-03-26 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 对象处理方法及系统、计算机系统及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765495A (zh) * | 2021-01-28 | 2021-05-07 | 杭州云深科技有限公司 | 获取目标位置的数据处理系统 |
CN112888010A (zh) * | 2021-01-28 | 2021-06-01 | 杭州云深科技有限公司 | 基于wifi连接设备群体信息的目标wifi预警系统 |
CN112765495B (zh) * | 2021-01-28 | 2022-04-15 | 杭州云深科技有限公司 | 获取目标位置的数据处理系统 |
CN112888010B (zh) * | 2021-01-28 | 2022-06-24 | 杭州云深科技有限公司 | 基于wifi连接设备群体信息的目标wifi预警系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112101024B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763952B (zh) | 一种数据分类方法、装置及电子设备 | |
CN109783490B (zh) | 数据融合方法、装置、计算机设备及存储介质 | |
US20190114711A1 (en) | Financial analysis system and method for unstructured text data | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
CN111813845B (zh) | 基于etl任务的增量数据抽取方法、装置、设备及介质 | |
CN112101024B (zh) | 基于app信息的目标对象识别系统 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN114116973A (zh) | 多文档的文本查重方法、电子设备及存储介质 | |
CN111639493A (zh) | 一种地址信息标准化方法、装置、设备及可读存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN112363814A (zh) | 任务调度方法、装置、计算机设备及存储介质 | |
CN114078008A (zh) | 异常行为检测方法、装置、设备及计算机可读存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN117312825A (zh) | 一种目标行为检测方法、装置、电子设备及存储介质 | |
CN115563275A (zh) | 一种多维度自适应日志分类分级方法和装置 | |
CN111222051A (zh) | 一种趋势预测模型的训练方法及装置 | |
CN113689020A (zh) | 业务信息预测方法、装置、计算机设备和存储介质 | |
CN111277465A (zh) | 一种异常数据报文检测方法、装置及电子设备 | |
CN115470034A (zh) | 一种日志分析方法、设备及存储介质 | |
CN115409104A (zh) | 用于识别对象类型的方法、装置、设备、介质和程序产品 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
CN112860652A (zh) | 作业状态预测方法、装置和电子设备 | |
JP2020166443A (ja) | データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |