CN113726900A - 一种判断用户儿童年龄段的系统 - Google Patents

一种判断用户儿童年龄段的系统 Download PDF

Info

Publication number
CN113726900A
CN113726900A CN202111027934.0A CN202111027934A CN113726900A CN 113726900 A CN113726900 A CN 113726900A CN 202111027934 A CN202111027934 A CN 202111027934A CN 113726900 A CN113726900 A CN 113726900A
Authority
CN
China
Prior art keywords
user
data
video
age
tfidf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111027934.0A
Other languages
English (en)
Inventor
彭乙庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Qiruike Technology Co Ltd
Original Assignee
Sichuan Qiruike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Qiruike Technology Co Ltd filed Critical Sichuan Qiruike Technology Co Ltd
Priority to CN202111027934.0A priority Critical patent/CN113726900A/zh
Publication of CN113726900A publication Critical patent/CN113726900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Abstract

本发明公开了一种判断用户儿童年龄段的系统,包括采集模块:根据mac地址采集用户的观看视频的数据并获取视频网站中所有的儿童和教育版块的视频数据;判断模块:根据视频记录,判断出用户观看视频最多的对应年龄段,由此根据改年龄段对该用户进行标注;推荐模块:根据判断模块所判断该用户mac所对应的年龄段分类,向该mac投放选择性的投放所对应的广告,视频,通知或消息。通过采用NLP技术中的tfidf算法来判断用户家中儿童的年龄,解决了现有用户画像无法对用户儿童年龄段精准化运营的问题。通过mac地址的记录来判断该mac地址下儿童用户的具体年龄段,从而对该mac进行精细化运营。

Description

一种判断用户儿童年龄段的系统
技术领域
本发明涉及机器学习和文本分析技术领域,尤其涉及一种判断用户儿童年龄段的系统。
背景技术
随着人工智能技术的普及和数据挖掘技术的发展,商家通过用户的行为数据往往可以挖掘出用户的需求,从而通过推荐算法为用户推荐相应的服务或者产品;通过精细化运营可以更精准的定位到用户的需求点,从而达到产出。
一般常用的方法是通过用户的行为来判断用户中有没有儿童,然而无法确切的知道儿童用户的具体年龄段,无法对用户进行精细化运营。
发明内容
本发明的目的就在于为了解决上述问题而提供一种判断用户儿童年龄段的系统,本发明采用NLP技术中的tfidf算法来判断用户家中儿童的年龄,解决了现有用户画像无法对用户儿童年龄段精准化运营的问题。通过mac地址的记录来判断该mac地址下儿童用户的具体年龄段,从而对该mac进行精细化运营。
本发明通过以下技术方案来实现上述目的:
一种判断用户儿童年龄段的系统,所属系统包括:
采集模块:根据mac地址采集用户的观看视频的数据并获取视频网站中所有的儿童和教育版块的视频数据;
判断模块:根据视频记录,判断出用户观看视频最多的对应年龄段,由此根据改年龄段对该用户进行标注;
推荐模块:根据判断模块所判断该用户mac所对应的年龄段分类,向该mac投放选择性的投放所对应的广告,视频,通知或消息。
进一步方案为,所述判断模块运行方式如下:
根据采集模块采集的数据,对每一条数据的视频简介进行分词,之后计算该视频简介每一个词条所对应的tifdf;
计算每一条数据中视频简介文本中所有词条的tfidf值;
利用该条文本每一个词所对应的tfidf,形成每一条数据所特有的tifdf向量;
选择tiidf作为分类的特征向量,利用lightgbm库来是实现一个决策树的分类算法框架,对模型进行训练;
该模型训练的结果即作为判断模块视频分类年龄段的标准;
得到预测正确率=预测正确数目/总预测数目;
将所有数据应用于该模型,得到所有视频所对应的年龄段分类。
进一步方案为,所述tfidf计算方法如下:
TFIDF
Figure BDA0003244028710000021
Figure BDA0003244028710000022
说明:
TF(Term Frequency):词频,即该词语再文本中出现的次数/该文本所有词条的数目
IDF(Inverse Document Frequency)逆向文件频率,计算公式如图所示
W;所对应的词语W
TF-IDF:词频和逆向文件频率的乘积。
进一步方案为,基于获取的视频简介数据利用tfidf算法作为特征向量来建模,建模结果所得到的数据,根据该数据以及采集的用户视频观看记录,可以通过两边数据知晓用户最长观看的对应的年龄段分类的视频,从而构建用户画像。
进一步方案为,数据按照7:3拆分成训练数据和测试数据,训练数据通过tfidf算法形成tfidf模型,测试数据通过tfidf算法来评估模型的质量;交叉验证结果稳定在97%,之后使用该模型预测所有在视频网站中的儿童和教育版块的视频,将其作为每一个视频所对应的适用年龄的标准。
进一步方案为,基于构建的用户画像,对用户进行选择性营销和运营。
本发明的有益效果在于:
本发明的一种判断用户儿童年龄段的系统,通过采用NLP技术中的tfidf算法来判断用户家中儿童的年龄,解决了现有用户画像无法对用户儿童年龄段精准化运营的问题。通过mac地址的记录来判断该mac地址下儿童用户的具体年龄段,从而对该mac进行精细化运营。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明模型判断的流程图。
图2本发明判断方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
提供给用户的应用和服务,常常需要取决于用户的年龄,作为有效的精细化运营的依据。特别是对于儿童,不同儿童每一个阶段需要的服务都是不同的,所偏好的视频也有很大的差别。例如:幼儿往往会在家长的带领下观看一些启蒙教育视频,中小学生往往会在老师的要求下观看一些课外辅导视频,拥有刚出生的婴儿或备孕中的用户会看一些亲子类的视频。因此,获取用户家中儿童的年龄段可以有助于为用户提供儿童向的定制化应用或服务。例如婴幼儿可以根据年龄段投放对应年龄段的收费视频或奶粉广告,中小学生可以根据该年龄段投放所对应年龄段的课外辅导广告,对于刚出生的婴儿可以投放对应年龄段的可以投放纸尿裤广告等等。从而使用户不用承受与其需求不符的大量其他信息的负担。另外,一些产品或服务,如上述所言,都需要精准定位用户群体。
根据视频简介和所对应产品和服务所需要精准定位的用户躯体,将用户年龄段分为如下几个阶段:
其中1代表婴儿或备孕中,2代表婴儿(1岁以下),3幼儿(1-3岁),4代表学龄前(3-6岁),5代表小学生(6-12岁),6代表中学生或者以上(12-18岁)。
例如,图1图示了根据本发明的根据视频简介用于判断用户所对应年龄的示意图。该用于判断视频所对应的年龄分为两个部分,模型创建和模型应用。其中模型创建包括:建模数据拆分成训练数据和测试数据(比例7:3),训练数据通过tfidf算法形成tfidf模型,测试数据通过tfidf算法来评估模型的质量,以测试数据评估数据,最后评估最后的验证结果,得到最后的验证结果准确率为97%。通过tfidf特征,形成最终的预测模型;模型应用包括:根据模型创建的模型,进行预测,最终得到大量儿童和教育类视频所对应的年龄段数据。为将所有数据应用于该模型中,得到最终结果集,即每一个视频所对应的年龄段分类,作为最终通过视频记录定位用户年龄段的标准。
具体建模数据格式如下表:
视频名 视频简介 所对应年龄段
如图2所示:在一个实施例中,输入数据集的方法和步骤是:
(1)以适应算法格式的要求输入数据(eg):
Figure BDA0003244028710000051
(2)训练集和测试集:
从选取数据集中,将数据拆分成7:3的比例分别作为训练集和测试集。用训练集对数据进行训练,用测试集对结果进行评估。
(3)年龄段的判断:
根据本发明的实施例,根据以下步骤来预测电影所对应的年龄段
计算每一条数据的视频简介进行分词,之后计算该视频简介每一个词条所对应的tfidf。(tfidf计算方法如下所示)
TF-IDF=TF*IDF
Figure BDA0003244028710000061
Figure BDA0003244028710000062
说明:
TF(Term Frequency):词频,即该词语再文本中出现的次数/该文本所有词条的数目
IDF(Inverse Document Frequency)逆向文件频率,计算公式如图所示
W;所对应的词语W
TF-IDF:词频和逆向文件频率的乘积
利用每一个词所对应的tfidf,形成每一条数据所特有的tifdf向量。
选择tiidf作为分类的特征向量,利用lightgbm库来是实现一个决策树的分类算法框架,对模型进行训练。
得到预测正确率=预测正确数目/总预测数目
(4)模型应用:
根据该模型应用于所有的视频所对应的年龄段数据,输出格式如下表所示:
视频名 所对应年龄段
同步课程《语文》八年级上册(人教版) 6
兔小贝2020年鼠年儿歌 4
根据本实施例所公开的根据视频简介所判断所对应年龄段的方法,可以应用于如下利用视频观看记录来判断用户儿童年龄段的系统中。
本实施例实施方案如下,针对单一mac:
采集用户视频观看数据(数据输入),采集格式如表所示:(value代表视频名称,duration表示该用户观看该视频的时间,date表示该视频的观看日期)
value duration date
熊出没光头强食玩大头儿子 14 2021-5-14
棉尾兔彼得 0 2021-5-12
三淼学英语 24 2021-5-1
变形警车珀利之推土机布鲁尼 60 2021-5-6
迪迦奥特曼日语版 120 2021-5-9
迪迦奥特曼日语版 120 2021-5-10
诗的年月 15 2021-5-26
根据之前已经预测好的数据,可以得到相应的电影所对应的年龄段
value duration date age
熊出没光头强食玩大头儿子 14 2021-5-14 1
棉尾兔彼得 0 2021-5-12 1
三淼学英语 24 2021-5-1 3
变形警车珀利之推土机布鲁尼 60 2021-5-6 3
迪迦奥特曼日语版 120 2021-5-9 3
迪迦奥特曼日语版 120 2021-5-9 3
诗的年月 15 2021-5-26 4
由此,我们从age字段采集到用户A的观影记录是[1,1,3,3,3,3,4],选择出现频率最多的作为其对年龄的判断,这里我们可以判断出该用户的年龄分类为3,即幼儿(1-3岁),根据结果,可以对该用户进行精细化运营,如推荐相应的幼儿产品。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (6)

1.一种判断用户儿童年龄段的系统,其特征在于,所属系统包括:
采集模块:根据mac地址采集用户的观看视频的数据并获取视频网站中所有的儿童和教育版块的视频数据;
判断模块:根据视频记录,判断出用户观看视频最多的对应年龄段,由此根据改年龄段对该用户进行标注;
推荐模块:根据判断模块所判断该用户mac所对应的年龄段分类,向该mac投放选择性的投放所对应的广告,视频,通知或消息。
2.如权利要求1所述的一种判断用户儿童年龄段的系统,其特征在于,所述判断模块运行方式如下:
根据采集模块采集的数据,对每一条数据的视频简介进行分词,之后计算该视频简介每一个词条所对应的tifdf;
计算每一条数据中视频简介文本中所有词条的tfidf值;
利用该条文本每一个词所对应的tfidf,形成每一条数据所特有的tifdf向量;
选择tiidf作为分类的特征向量,利用lightgbm库来是实现一个决策树的分类算法框架,对模型进行训练;
该模型训练的结果即作为判断模块视频分类年龄段的标准;
得到预测正确率=预测正确数目/总预测数目;
将所有数据应用于该模型,得到所有视频所对应的年龄段分类。
3.如权利要求2所述的一种判断用户儿童年龄段的系统,其特征在于,所述tfidf计算方法如下:
TF-IDF=TF*IDF
Figure FDA0003244028700000011
Figure FDA0003244028700000021
4.如权利要求2所述的一种判断用户儿童年龄段的系统,其特征在于,基于获取的视频简介数据利用tfidf算法作为特征向量来建模,建模结果所得到的数据,根据该数据以及采集的用户视频观看记录,可以通过两边数据知晓用户最长观看的对应的年龄段分类的视频,从而构建用户画像。
5.如权利要求2所述的一种判断用户儿童年龄段的系统,其特征在于,数据按照7:3拆分成训练数据和测试数据,训练数据通过tfidf算法形成tfidf模型,测试数据通过tfidf算法来评估模型的质量;交叉验证结果稳定在97%,之后使用该模型预测所有在视频网站中的儿童和教育版块的视频,将其作为每一个视频所对应的适用年龄的标准。
6.如权利要求4所述的一种判断用户儿童年龄段的系统,其特征在于,基于构建的用户画像,对用户进行选择性营销和运营。
CN202111027934.0A 2021-09-02 2021-09-02 一种判断用户儿童年龄段的系统 Pending CN113726900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111027934.0A CN113726900A (zh) 2021-09-02 2021-09-02 一种判断用户儿童年龄段的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111027934.0A CN113726900A (zh) 2021-09-02 2021-09-02 一种判断用户儿童年龄段的系统

Publications (1)

Publication Number Publication Date
CN113726900A true CN113726900A (zh) 2021-11-30

Family

ID=78681109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111027934.0A Pending CN113726900A (zh) 2021-09-02 2021-09-02 一种判断用户儿童年龄段的系统

Country Status (1)

Country Link
CN (1) CN113726900A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023173975A1 (zh) * 2022-03-14 2023-09-21 深圳市酷开网络科技股份有限公司 基于ott的家庭成员年龄段及家庭结构划分方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708497A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN103577504A (zh) * 2012-08-10 2014-02-12 华为技术有限公司 一种投放个性化内容的方法和装置
WO2016206035A1 (zh) * 2015-06-25 2016-12-29 宇龙计算机通信科技(深圳)有限公司 一种信息推荐方法及用户终端
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统
CN109885834A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 一种用户年龄性别的预测方法及装置
CN111429184A (zh) * 2020-03-27 2020-07-17 北京睿科伦智能科技有限公司 一种基于文本信息的用户画像抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708497A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN103577504A (zh) * 2012-08-10 2014-02-12 华为技术有限公司 一种投放个性化内容的方法和装置
WO2016206035A1 (zh) * 2015-06-25 2016-12-29 宇龙计算机通信科技(深圳)有限公司 一种信息推荐方法及用户终端
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统
CN109885834A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 一种用户年龄性别的预测方法及装置
CN111429184A (zh) * 2020-03-27 2020-07-17 北京睿科伦智能科技有限公司 一种基于文本信息的用户画像抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023173975A1 (zh) * 2022-03-14 2023-09-21 深圳市酷开网络科技股份有限公司 基于ott的家庭成员年龄段及家庭结构划分方法及装置

Similar Documents

Publication Publication Date Title
Cheung et al. Analyzing big data in psychology: A split/analyze/meta-analyze approach
Crossley et al. Assessing lexical proficiency using analytic ratings: A case for collocation accuracy
Barberá Less is more? How demographic sample weights can improve public opinion estimates based on Twitter data
Mackiewicz et al. Product review users' perceptions of review quality: The role of credibility, informativeness, and readability
Princiotta Fifth grade: Findings from the fifth-grade follow-up of the early childhood longitudinal study, kindergarten class of 1998-99 (ECLS-K)
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
Alrumaih et al. Sentiment analysis of comments in social media.
Agrawal et al. Identifying enrichment candidates in textbooks
Wang et al. Assessing item-level fit for the DINA model
Zheng Personality-aware decision making in educational learning
Cychosz et al. Efficient estimation of children's language exposure in two bilingual communities
Lee Cohort differences in changing attitudes toward marriage in South Korea, 1998–2014: An age-period-cohort-detrended model
CN115048571A (zh) 一种基于云平台的在线教育推荐管理系统
CN113726900A (zh) 一种判断用户儿童年龄段的系统
Abbasi et al. Effect of parental migration on the noncognitive abilities of left-behind school-going children in rural China
Iwasa et al. Identity development and online and offline prosocial behaviors among early and middle adolescents
Xanat et al. A video recommendation system for complex topic learning based on a sustainable design approach
Lehrer et al. Communicating climate change and health to specific target groups
Dyulicheva Learning Analytics in MOOCs as an Instrument for Measuring Math Anxiety
Sangeetha et al. Understand Students Feedback Using Bi-Integrated CRF Model Based Target Extraction.
Kreegimäe et al. What makes your message credible?: A descriptive study on the effect of source credibility on message credibility.
Chua et al. Effect of national partnerships on NAPLAN
Du et al. Construction and Analysis of School Moral Education System Based on Big Data Technology
Mallart et al. A new learner language data set for the study of English for Specific Purposes at university
Auger et al. Mostly Credible and Transparent: Audience Perceptions of News Stories Produced With Traditional and Multiplatform Newsgathering Technologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211130