CN112835882B - 信息预测方法、装置、电子设备和存储介质 - Google Patents

信息预测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112835882B
CN112835882B CN202110133297.9A CN202110133297A CN112835882B CN 112835882 B CN112835882 B CN 112835882B CN 202110133297 A CN202110133297 A CN 202110133297A CN 112835882 B CN112835882 B CN 112835882B
Authority
CN
China
Prior art keywords
predicted
user
user information
data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110133297.9A
Other languages
English (en)
Other versions
CN112835882A (zh
Inventor
张猛
孔洋洋
王冉冉
陈巍立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baijia Technology Group Co ltd
Original Assignee
Beijing Baijia Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baijia Technology Group Co ltd filed Critical Beijing Baijia Technology Group Co ltd
Priority to CN202110133297.9A priority Critical patent/CN112835882B/zh
Publication of CN112835882A publication Critical patent/CN112835882A/zh
Application granted granted Critical
Publication of CN112835882B publication Critical patent/CN112835882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种信息预测方法、装置、电子设备和存储介质,所述信息预测方法,包括:获取待预测用户的基础属性数据和行为数据,其中,待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息;对待预测用户的基础属性数据和行为数据进行预处理;将预处理后的待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得用户信息预测模型输出的待预测标签对应的预测用户信息;将带预测标签对应的原始用户信息更新为预测用户信息,以提高获取的用户信息的准确性。

Description

信息预测方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种信息预测方法、装置、电子设备和存储介质。
背景技术
随着互联网的快速发展,个性化推荐技术不断发展,并广泛应用。个性化推荐是一种建立在海量数据挖掘基础上的高级智能平台,为用户提供个性化的信息服务和决策支持。为了达成千人千面的目的和需求,保证获取到正确可靠的用户信息是必不可少的一步。
但是,在获取用户信息时,一方面,由于上报错误和用户误填等原因,大量错误信息会被视为正确信息进行处理;另一方面,用户在填报信息时完全取决于用户的主观意愿,有些用户会选择不填或有意填报虚假信息。面对上述情况,现有技术通常采用基于用户分层的众数均值填充,对不同分层的用户进行众数和均值的计算,从而为缺失信息的用户进行信息填充。然而上述方法对用户分层的准确性和粒度有着极高的要求,且只能对未填信息进行处理,无法识别误填信息。另一方面,当用户的信息本身为错误信息时,根据错误的信息计算的均值和众数会存在很大的偏差。
发明内容
本申请实施例的目的在于提供一种信息预测方法、装置、电子设备和存储介质,以提高获取的用户信息的准确性。
第一方面,本发明提供一种信息预测方法,包括:获取待预测用户的基础属性数据和行为数据,其中,所述待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息;对所述待预测用户的基础属性数据和行为数据进行预处理;将预处理后的所述待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得所述用户信息预测模型输出的所述待预测标签对应的预测用户信息;将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
通过将用户的填报的基础属性数据和用户的行为数据输入用户信息预测模型中,利用预先训练好的用户信息预测模型对待预测用户的待预测标签进行预测,将预测用户信息与原始用户信息进行对比,检测出用户填报的基础属性数据中的错误信息,然后将与预测用户信息不同的原始用户信息更新为预测用户信息,提高获取的用户信息的准确性。
在可选的实施方式中,在所述获取待预测用户的基础属性数据和行为数据之前,所述方法还包括:获取所述待预测标签和用户的付费信息;根据所述待预测标签和用户的付费信息,确定所述待预测标签对应的原始用户信息可信的可信用户;基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型。
在可选的实施方式中,所述基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型,包括:获取所述可信用户的基础属性数据和行为数据;对所述可信用户的基础属性数据和行为数据进行预处理;根据预处理后的所述可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到所述用户信息预测模型。
通过根据用户的付费信息和待预测标签对用户的原始用户信息的可信度进行判断,从而采用可信用户的基础属性数据和行为数据进行模型训练,提高训练出来的用户信息预测模型的可信度,进而提高预测用户信息的准确性。
在可选的实施方式中,所述基础属性数据包括第一结构化数据,所述行为数据包括第二结构化数据和文本数据,所述对所述可信用户的基础属性数据和行为数据进行预处理,包括:根据所述第一结构化数据确定第一结构化数据向量;根据所述第二结构化数据确定第二结构化数据向量;根据所述文本数据确定文本数据向量。
在可选的实施方式中,所述根据所述文本数据确定文本数据向量,包括:将所述文本数据输入BERT模型,得到所述文本数据向量。
在可选的实施方式中,所述将所述待预测标签对应的原始用户信息更新为所述预测用户信息,包括:判断所述预测用户信息与所述原始用户信息是否一致;若不一致,判断所述预测用户信息的正确概率是否大于预设阈值;若大于,将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
通过设置预设阈值确定是否将预测用户信息更新所述原始用户信息,避免了盲目更新,提高最终获取的用户信息的准确性。
第二方面,本发明提供一种信息预测装置,包括:
获取模块,用于获取待预测用户的基础属性数据和行为数据,其中,所述待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息;预处理模块,用于对所述待预测用户的基础属性数据和行为数据进行预处理;预测模块,用于将预处理后的所述待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得所述用户信息预测模型输出的所述待预测标签对应的预测用户信息;更新模块,用于将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
在可选的实施方式中,所述装置还包括:判断模块,用于获取所述待预测标签和用户的付费信息;根据所述待预测标签和用户的付费信息,确定所述待预测标签对应的原始用户信息可信的可信用户;基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型。
在可选的实施方式中,所述装置还包括:模型训练模块,用于获取所述可信用户的基础属性数据和行为数据;对所述可信用户的基础属性数据和行为数据进行预处理;根据预处理后的所述可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到所述用户信息预测模型。
在可选的实施方式中,所述基础属性数据包括第一结构化数据,所述行为数据包括第二结构化数据和文本数据,所述模型训练模块还用于根据所述第一结构化数据确定第一结构化数据向量;根据所述第二结构化数据确定第二结构化数据向量;根据所述文本数据确定文本数据向量。
在可选的实施方式中,所述模型训练模块还用于将所述文本数据输入BERT模型,得到所述文本数据向量。
在可选的实施方式中,所述更新模块还用于判断所述预测用户信息与所述原始用户信息是否一致;若不一致,判断所述预测用户信息的正确概率是否大于预设阈值;若大于,将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
第三方面,本发明提供一种电子设备,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如前述实施方式任一项所述的信息预测方法。
第四方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如前述实施方式任一项所述的信息预测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种信息预测方法的流程图;
图2为本申请实施例提供的一种信息预测装置的结构框图;
图3为本申请实施例提供的一种电子设备的结构框图。
图标:200-信息预测装置;201-获取模块;202-预处理模块;203-预测模块;204-更新模块;205-判断模块;206-模型训练模块;300-电子设备;301-处理器;302-通信接口;303-存储器;304-总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
随着互联网的快速发展,个性化推荐技术不断发展,并广泛应用。个性化推荐是一种建立在海量数据挖掘基础上的一种高级智能平台,为用户提供个性化的信息服务和决策支持。为了达成千人千面的目的和需求,保证获取到正确可靠的用户信息是必不可少的一步。
但是,在获取用户信息时,一方面,由于上报错误和用户误填等原因,大量错误信息会被视为正确信息进行处理;另一方面,用户在填报信息时完全取决于用户的主观意愿,有些用户会选择不填或有意填报虚假信息。面对上述情况,现有技术通常采用基于用户分层的众数均值填充,对不同分层的用户进行众数和均值的计算,从而为缺失信息的用户进行信息填充。然而上述方法对用户分层的准确性和粒度有着极高的要求,且只能对未填信息进行处理,无法识别误填信息。另一方面,当用户的信息本身为错误信息时,根据错误的信息计算的均值和众数会存在很大的偏差。
基于此,本申请实施例提供了一种信息预测方法、装置、电子设备和存储介质,以提高获取到的用户信息的准确性。
请参阅图1,图1为本申请实施例提供的一种信息预测方法的流程图,该信息预测方法可以包括如下步骤:
步骤S101:获取待预测用户的基础属性数据和行为数据。
步骤S102:对待预测用户的基础属性数据和行为数据进行预处理。
步骤S103:将预处理后的待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得用户信息预测模型输出的待预测标签对应的预测用户信息。
步骤S104:将待预测标签对应的原始用户信息更新为预测用户信息。
下面将结合示例对上述流程进行详细说明。
根据上述步骤可知,本申请是采用预先训练好的用户信息预测模型,对待预测用户的待预测标签对应的信息进行预测,获得待预测用户的待预测标签对应的预测用户信息,然后利用预测用户信息更新原始用户信息,以完成对待预测用户的用户信息更新。为了便于对本方案的理解,在介绍步骤S101之前,先介绍用户信息预测模型的训练过程。
作为一种可选的实施方式,在步骤S101之前,本申请提供的信息预测方法还包括如下步骤:
步骤S210:获取待预测标签和用户的付费信息;
步骤S220:根据待预测标签和用户的付费信息,确定待预测标签对应的原始用户信息可信的可信用户。
步骤S230:基于可信用户的基础数据和行为数据,得到用户信息预测模型。
作为一种可选的实施方式,步骤S230可以包括:
第一步,获取可信用户的基础属性数据和行为数据;
第二步,对可信用户的基础属性数据和行为数据进行预处理;
第三步,根据预处理后的可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到用户信息预测模型。
以下对上述步骤进行详细介绍。
示例性的,本申请实施例可以应用于在线教育场景下。在注册使用在线教育APP时,会要求用户填报各种基础属性信息,例如:年龄、性别、所在省份、城市、年级等。当用户使用一个在线教育APP时,会浏览在线教育APP提供的各种线上课程、学习资料等,然后购买适合自己的课程、学习资料进行学习。有些用户填报在线教育APP各种基础属性信息时,会选择不填报或者有意填报虚假信息。
对基础属性数据和行为数据进行说明。
基础属性数据为用户在使用在线教育APP时,填报的各种基础个人信息,例如:年龄、年级、性别、所在省份、城市等。
可信用户的行为数据为用户在使用该在线教育APP期间的各种操作数据,例如:是否加老师好友、加好友时间、是否进群、进群时间、之前是否听课低价课或免费课及听课次数、之前是否报名过正价课及报名次数、登录次数、输入手机号次数、支付次数、报名成功次数、加辅导老师/关注公众号次数、最早时间、最晚时间、首次登录到最后支付成功时间间隔、去支付到支付成功时间间隔、正价课页面行为:浏览次数、评论点击次数、课程详情页点击次数、点击客服次数、总浏览时长、平均浏览时长、用户和销售聊天数据,用户和辅导老师聊天数据,用户对话时间戳,次数,长度,频率,回复间隔等。
步骤S210:获取待预测标签和用户的付费信息。
本申请实施例中,首先获取待预测标签和用户的付费信息。其中,待预测标签为预先在基础属性数据中选择的一项基础属性数据对应的类别。举例来说,当需要对用户填报的性别信息进行预测时,则待预测标签为性别;当需要对用户填报的年龄信息进行预测时,则待预测标签为年龄。用户的付费信息可以为用户在使用该APP时,是否进行续费。
步骤S220:根据待预测标签和用户的付费信息,确定待预测标签对应的原始用户信息可信的可信用户。
本申请实施例中,根据待预测标签和用户的付费信息确定用户是否为可信用户。其中,用户的原始信息为该用户的待预测标签对应的用户填充的信息。举例来说,当待预测标签为年龄时,该用户填充的数据为:24,则该数据为原始用户信息。
若一个用户在使用该APP时,购买了相关课程,可以认为该用户在填充基础属性数据时,填充的数据的可信度高,则该用户的原始用户信息为可信的。若一个用户在使用该APP时,并没有购买过任何课程,或者该用户并没有填充该原始用户信息,即原始用户信息为空,则认为该用户的原始用户信息为不可信的。根据原始用户信息是否可信,将用户分为可信用户和不可信用户。
步骤S230:基于可信用户的基础数据和行为数据,得到用户信息预测模型。
第一步,获取可信用户的基础属性数据和行为数据。
本申请实施例中,在确定了可信用户后,获取可信用户的基础属性数据和行为数据。
第二步,对可信用户的基础属性数据和行为数据进行预处理。
本申请实施例中,是采用可信用户的基础属性数据和行为数据作为样本集,对预先建立好的神经网络模型进行训练,得到用户信息预测模型。然而,直接获取的用户的基础属性数据和行为数据并不能直接输入到神经网络模型中,需要进行预处理,将基础属性数据和行为数据处理为预先建立好的神经网络模型能处理的数据。
根据前述对基础属性数据和行为数据的介绍可知,基础属性数据为用户填报的各种基础个人信息,可以以结构化数据的形式表示,即第一结构化数据。行为数据包括第二结构化数据和文本数据,其中,第二结构化数据为行为数据中除用户的聊天数据外的剩余部分数据,该剩余部分数据均可以结构化数据的形式表示;文本数据为用户的各类聊天数据,该部分数据无法用结构化数据的形式表示,只能表示为文本数据。
对第一结构化数据、第二结构化数据和文本数据进行预处理,得到第一结构化数据向量、第二结构化数据向量和文本数据向量。其中,可以通过将文本数据输入BERT模型,得到文本数据向量。
需要说明的是,上述采用BERT模型处理文本数据仅是本申请实施例提供的一种示例,还可以采用例如:LSTM模型、GRU模型等对文本数据进行预处理,本申请不以此为限。
以下结合一个具体示例,对上述第一结构化数据、第二结构化数据和文本数据进行预处理,得到第一结构化数据向量、第二结构化数据向量和文本数据向量进行说明。
由于第一结构化数据和第二结构化数据均为结构化数据,因此,可以将第一结构化数据和第二结构化数据统一进行预处理。根据第一结构化数据和第二结构化数据,构造结构化数据向量:
U1={u1,u2,…,uN}
其中为由用户除带待预测标签外的n维结构化数据构造的结构化数据向量/>构成的集合,U1为可信用户集合,N代表可信用户的数量,R代表实数。
可以理解,第一结构化数据向量和第二结构化数据向量拼接形成上述结构化数据向量。
根据文本数据构造可信用户语料库:所有的单词来自包含V个词汇的词汇表V={word1,word2,…,wordV},每篇文档/>由可信用户ui的所有会话文本拼接而成,包含单词序列/>其中/>表示第i篇文档的第/>个单词在词汇表中的编号,ni表示第/>篇文档包含ni个单词。
输入BERT模型:
获得其最后一个隐藏层的CLS向量H∈Rhide_size(hide_size=658)作为文本数据向量表达。
第三步,根据预处理后的可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到用户信息预测模型。
本申请实施例中,将预处理后的可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到用户信息预测模型。其中,预先建立好的神经网络模型可以为:GBDT模型、RF模型、LR模型等,本申请对此不做限定。
以下结合一个具体示例,对上述第三步进行说明。
本申请实施例中,预先建立的神经网络模型为全连接层+softmax层。以除待预测标签外的基础属性数据和文本数据作为feature,待预测标签作为label,将文本数据输入BERT模型得到文本数据向量,拼接结构化数据向量后接入全连接层后再接入softmax层得到最终模型,输入数据训练模型,得到用户信息预测模型。
具体的,将可信用户的结构化数据向量和文本数据向量一并接入全连接层+softmax层:
其中,表示模型预测该用户待预测标签每种取值的概率构成的向量,采用交叉熵损失函数,则有:
其中为除索引/>为1其它维度均为0的和/>同维的向量。
通过根据用户的付费信息和待预测标签对用户的原始用户信息的可信度进行判断,进而采用可信用户的基础属性数据和行为数据进行模型训练,提高训练出来的用户信息预测模型的可信度,进而提高预测用户信息的准确性。
下面将结合示例对上述步骤S101至步骤S104进行详细说明。
步骤S101:获取待预测用户的基础属性数据和行为数据。
本申请实施例中,首先获取待预测用户的基础属性数据和行为数据,其中,待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息。
举例来说,基础属性数据为:年龄、性别和城市,待预测标签为年龄,则获取除了年龄以外的基础属性数据和行为数据。
步骤S102:对待预测用户的基础属性数据和行为数据进行预处理。
本申请实施例中,对待预测用户的基础属性数据和行为数据进行预处理的过程与上述对可信用户的基础属性数据和行为数据进行预处理的过程一样,相同或相近部分可以互相参照,为使说明书简洁,在此不做赘述。
步骤S103:将预处理后的待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得用户信息预测模型输出的待预测标签对应的预测用户信息。
本申请实施例中,对待预测用户的基础属性数据和行为数据进行预处理后,将预处理后的待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得用户信息预测模型输出的待预测标签对应的预测用户信息。
步骤S104:将待预测标签对应的原始用户信息更新为预测用户信息。
本申请实施例中,由于待预测用户的原始用户信息被认为不可信的,需要通过用户信息预测模型对待预测用户的待预测标签对用的信息进行预测。在得到预测用户信息后,可以利用预测用户信息更新原始用户信息。
作为一种可选的实施方式,上述步骤S104可以包括如下步骤:
第一步,判断预测用户信息与原始用户信息是否一致。
第二步,若不一致,判断预测用户信息的正确概率是否大于预设阈值。
第三步,若大于,将待预测标签对应的原始用户信息更新为预测用户信息。
具体的,确定预测用户信息后,判断预测用户信息与原始用户信息是否一致。若一致,则表示该待预测用户的原始用户信息为正确的,无需进行更新。
若不一致,判断预测用户信息的正确概率是否大于预设阈值,若大于预设阈值,将待预测标签对应的原始用户信息更新为预测用户信息。若不大于预设阈值,无需进行更新。
其中,预设阈值根据待预测标签的取值数量确定。举例来说,若待预测标签有2种取值情况,则预设阈值可以为70%;若待预测标签的有3种取值情况,则预设阈值可以为45%。需要说明的是,上述阈值仅为本申请实施例提供的示例,本申请不以此为限。
以下结合一个具体示例进行说明。
获取待预测用户的基础属性数据和行为数据,对待预测用户的基础属性数据和行为数据进行预处理,得到待预测用户的结构化数据向量:
U1={u1,u2,…,uM}
其中为由用户除带待预测标签外n维结构化数据构造的结构化数据向量/>构成的集合,U2为待预测用户集合,M代表待预测用户的数量。
根据文本数据构造待预测用户语料库:所有的单词来自包含V个词汇的词汇表V={word1,word2,…,wordV},每篇文档/>由待预测用户ui的所有会话文本拼接而成,包含单词序列/>其中/>表示第i篇文档的第/>个单词在词汇表中的编号,ni表示第i篇文档包含ni个单词。
输入BERT模型:
获得其最后一个隐藏层的CLS向量H∈Rhide_size(hide_size=658)作为文本数据向量表达。
将待预测用户的结构化数据向量和文本数据向量一并接入全连接层+softmax层:
得到模型预测结果:
其中,表示模型预测该用户待预测标签每种取值的正确概率构成的向量,预测用户信息为待预测标签每种取值的正确概率中概率最大的待预测标签的取值。
更新后的结果为:
其中,yi为待预测用户ui待预测标签的填报值。U0为待预测用户中未填报待预测标签的用户集合,U1为待预测用户中未续费的用户集合。
需要说明的是,由于测用户中未填报待预测标签的用户的原始用户信息为空,则直接将预测用户信息作为待预测标签的取值。待预测用户中未续费的用户根据预设判断条件,确实是否进行更新。
其中,判断条件为:判断预测用户信息与原始用户信息是否一致。若一致,则表示该待预测用户的原始用户信息为正确的,无需进行更新。
若不一致,判断预测用户信息的正确概率是否大于预设阈值,若大于预设阈值,将待预测标签对应的原始用户信息更新为预测用户信息。若不大于预设阈值,无需进行更新。
本申请获取待预测用户的基础属性数据和行为数据,对待预测用户的基础属性数据和行为数据进行预处理,然后将预处理后的待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得用户信息预测模型输出的待预测标签对应的预测用户信息,并将待预测标签对应的原始用户信息更新为预测用户信息。通过将用户的填报的基础属性数据和用户的行为数据输入用户信息预测模型中,利用预先训练好的用户信息预测模型对待预测用户的待预测标签进行预测,将预测用户信息与原始用户信息进行对比,检测出用户填报的基础属性数据中的错误信息,然后将与预测用户信息不同的原始用户信息更新为预测用户信息,提高获取的用户信息的准确性。
基于同一发明构思,本申请实施例提供一种信息预测装置。请参阅图2,图2为本申请实施例提供的一种信息预测装置的结构框图,该信息预测装置200包括:
获取模块201,用于获取待预测用户的基础属性数据和行为数据,其中,所述待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息;
预处理模块202,用于对所述待预测用户的基础属性数据和行为数据进行预处理;
预测模块203,用于将预处理后的所述待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得所述用户信息预测模型输出的所述待预测标签对应的预测用户信息;
更新模块204,用于将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
在可选的实施方式中,所述信息预测装置200还包括:判断模块205,用于获取所述待预测标签和用户的付费信息;根据所述待预测标签和用户的付费信息,确定所述待预测标签对应的原始用户信息可信的可信用户;基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型。
在可选的实施方式中,所述信息预测装置200还包括:模型训练模块206,用于获取可信用户的基础属性数据和行为数据;对所述可信用户的基础属性数据和行为数据进行预处理;根据预处理后的所述可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到所述用户信息预测模型。
在可选的实施方式中,所述模型训练模块206还用于根据所述第一结构化数据确定第一结构化数据向量;根据所述第二结构化数据确定第二结构化数据向量;根据所述文本数据确定文本数据向量。
在可选的实施方式中,所述模型训练模块206还用于将所述文本数据输入BERT模型,得到所述文本数据向量。
在可选的实施方式中,所述更新模块204还用于判断所述预测用户信息与所述原始用户信息是否一致;若不一致,判断所述预测用户信息的正确概率是否大于预设阈值;若大于,将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
请参照图3,图3为本申请实施例提供的一种电子设备的结构框图,该电子设备300包括:至少一个处理器301,至少一个通信接口302,至少一个存储器303和至少一个总线304。其中,总线304用于实现这些组件直接的连接通信,通信接口302用于与其他节点设备进行信令或数据的通信,存储器303存储有处理器301可执行的机器可读指令。当电子设备300运行时,处理器301与存储器303之间通过总线304通信,机器可读指令被处理器301调用时执行上述信息预测方法。
处理器301可以是一种集成电路芯片,具有信号处理能力。上述处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器303可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
可以理解,图3所示的结构仅为示意,电子设备300还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备300可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备300也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。
本申请实施例还提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述实施例中信息预测方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种信息预测方法,其特征在于,包括:
获取待预测用户的基础属性数据和行为数据,其中,所述待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息;
对所述待预测用户的基础属性数据和行为数据进行预处理;
将预处理后的所述待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得所述用户信息预测模型输出的所述待预测标签对应的预测用户信息;
将所述待预测标签对应的原始用户信息更新为所述预测用户信息;
在所述获取待预测用户的基础属性数据和行为数据之前,所述方法还包括:
获取所述待预测标签和用户的付费信息;
根据所述待预测标签和用户的付费信息,确定所述待预测标签对应的原始用户信息可信的可信用户;
基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型,包括:
获取所述可信用户的基础属性数据和行为数据;
对所述可信用户的基础属性数据和行为数据进行预处理;
根据预处理后的所述可信用户的基础属性数据和行为数据对预先建立好的神经网络模型进行训练,得到所述用户信息预测模型。
3.根据权利要求2所述的方法,其特征在于,所述基础属性数据包括第一结构化数据,所述行为数据包括第二结构化数据和文本数据,所述对所述可信用户的基础属性数据和行为数据进行预处理,包括:
根据所述第一结构化数据确定第一结构化数据向量;
根据所述第二结构化数据确定第二结构化数据向量;
根据所述文本数据确定文本数据向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本数据确定文本数据向量,包括:
将所述文本数据输入BERT模型,得到所述文本数据向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述待预测标签对应的原始用户信息更新为所述预测用户信息,包括:
判断所述预测用户信息与所述原始用户信息是否一致;
若不一致,判断所述预测用户信息的正确概率是否大于预设阈值;
若大于,将所述待预测标签对应的原始用户信息更新为所述预测用户信息。
6.一种信息预测装置,其特征在于,包括:
获取模块,用于获取待预测用户的基础属性数据和行为数据,其中,所述待预测用户的基础属性数据包括除待预测标签对应的原始用户信息之外的原始用户信息;
预处理模块,用于对所述待预测用户的基础属性数据和行为数据进行预处理;
预测模块,用于将预处理后的所述待预测用户的基础属性数据和行为数据输入至预先训练好的用户信息预测模型,获得所述用户信息预测模型输出的所述待预测标签对应的预测用户信息;
更新模块,用于将所述待预测标签对应的原始用户信息更新为所述预测用户信息;
判断模块,用于获取所述待预测标签和用户的付费信息;根据所述待预测标签和用户的付费信息,确定所述待预测标签对应的原始用户信息可信的可信用户;基于所述可信用户的基础属性数据和行为数据,得到所述用户信息预测模型。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-5任一项所述的信息预测方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-5任一项所述的信息预测方法。
CN202110133297.9A 2021-01-29 2021-01-29 信息预测方法、装置、电子设备和存储介质 Active CN112835882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110133297.9A CN112835882B (zh) 2021-01-29 2021-01-29 信息预测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110133297.9A CN112835882B (zh) 2021-01-29 2021-01-29 信息预测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112835882A CN112835882A (zh) 2021-05-25
CN112835882B true CN112835882B (zh) 2024-02-02

Family

ID=75932741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110133297.9A Active CN112835882B (zh) 2021-01-29 2021-01-29 信息预测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112835882B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190599B (zh) * 2021-06-30 2021-09-28 平安科技(深圳)有限公司 应用用户行为数据的处理方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488880A (zh) * 2008-01-16 2009-07-22 北京航空航天大学 一种提高服务组合可信性的自适应维护方法
CN102903010A (zh) * 2012-09-25 2013-01-30 浙江图讯科技有限公司 一种用于面向工矿企业的安全生产云服务平台的基于支持向量机的异常判断方法
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN106373026A (zh) * 2016-08-24 2017-02-01 国网冀北电力有限公司电力科学研究院 一种电力行业的用户画像构建方法
CN107330459A (zh) * 2017-06-28 2017-11-07 联想(北京)有限公司 一种数据处理方法、装置和电子设备
CN108074122A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 产品试用推荐方法、装置及服务器
CN109858970A (zh) * 2019-02-02 2019-06-07 中国银行股份有限公司 一种用户行为预测方法、装置及存储介质
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质
CN110585726A (zh) * 2019-09-16 2019-12-20 腾讯科技(深圳)有限公司 用户召回方法、装置、服务器及计算机可读存储介质
CN111476559A (zh) * 2020-05-15 2020-07-31 支付宝(杭州)信息技术有限公司 一种商户认证方法、装置、计算机设备和存储介质
CN111858873A (zh) * 2020-04-21 2020-10-30 北京嘀嘀无限科技发展有限公司 一种推荐内容的确定方法、装置、电子设备及存储介质
CN112231584A (zh) * 2020-12-08 2021-01-15 平安科技(深圳)有限公司 基于小样本迁移学习的数据推送方法、装置及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332222A1 (en) * 2014-05-13 2015-11-19 Mastercard International Incorporated Modeling consumer cellular mobile carrier switching method and apparatus

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488880A (zh) * 2008-01-16 2009-07-22 北京航空航天大学 一种提高服务组合可信性的自适应维护方法
CN102903010A (zh) * 2012-09-25 2013-01-30 浙江图讯科技有限公司 一种用于面向工矿企业的安全生产云服务平台的基于支持向量机的异常判断方法
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN106373026A (zh) * 2016-08-24 2017-02-01 国网冀北电力有限公司电力科学研究院 一种电力行业的用户画像构建方法
CN108074122A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 产品试用推荐方法、装置及服务器
CN107330459A (zh) * 2017-06-28 2017-11-07 联想(北京)有限公司 一种数据处理方法、装置和电子设备
CN109858970A (zh) * 2019-02-02 2019-06-07 中国银行股份有限公司 一种用户行为预测方法、装置及存储介质
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质
CN110585726A (zh) * 2019-09-16 2019-12-20 腾讯科技(深圳)有限公司 用户召回方法、装置、服务器及计算机可读存储介质
CN111858873A (zh) * 2020-04-21 2020-10-30 北京嘀嘀无限科技发展有限公司 一种推荐内容的确定方法、装置、电子设备及存储介质
CN111476559A (zh) * 2020-05-15 2020-07-31 支付宝(杭州)信息技术有限公司 一种商户认证方法、装置、计算机设备和存储介质
CN112231584A (zh) * 2020-12-08 2021-01-15 平安科技(深圳)有限公司 基于小样本迁移学习的数据推送方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112835882A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
US10509837B2 (en) Modeling actions for entity-centric search
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
CN109858528B (zh) 推荐系统训练方法、装置、计算机设备及存储介质
CN109299356B (zh) 基于大数据的活动推荐方法、装置、电子设备及存储介质
CN109117442B (zh) 一种应用推荐方法及装置
WO2023000491A1 (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN114648392B (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN112835882B (zh) 信息预测方法、装置、电子设备和存储介质
CN116204714A (zh) 推荐方法、装置、电子设备及存储介质
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN111177564B (zh) 一种产品推荐方法及装置
CN112199500A (zh) 针对评论的情感倾向识别方法、装置及电子设备
CN111639485A (zh) 基于文本相似性的课程推荐方法及相关设备
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN114741606A (zh) 企业推荐方法、装置、计算机可读介质及电子设备
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113032445B (zh) 一种数据转化排序方法、装置和电子设备
CN114817526B (zh) 文本分类方法及装置、存储介质、终端
US20220005085A1 (en) Information processing apparatus and non-transitory computer readable medium
CN112581195B (zh) 一种广告推送方法、装置和电子设备
CN114625964A (zh) 账户推荐的方法、装置、计算机设备和存储介质
CN117573973A (zh) 资源推荐方法、装置、电子设备以及存储介质
CN115757956A (zh) 一种组合产品推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant