CN116226320A - 一种预测下文信息的方法、装置、电子设备及存储介质 - Google Patents

一种预测下文信息的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116226320A
CN116226320A CN202111465099.9A CN202111465099A CN116226320A CN 116226320 A CN116226320 A CN 116226320A CN 202111465099 A CN202111465099 A CN 202111465099A CN 116226320 A CN116226320 A CN 116226320A
Authority
CN
China
Prior art keywords
target
information
sample
candidate
context information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111465099.9A
Other languages
English (en)
Inventor
姚波怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111465099.9A priority Critical patent/CN116226320A/zh
Publication of CN116226320A publication Critical patent/CN116226320A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及人工智能技术领域,尤其涉及一种预测下文信息的方法、装置、电子设备及存储介质,接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;将目标信息组输入已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;基于至少一个候选下文信息,及其各自对应的候选条件概率,获得上文信息的至少一个目标下文信息。能够满足不同目标对象灵活多样的使用需求,基于在本申请确定出的至少一个目标下文信息,目标对象能够很快地选出将要输入的下文信息,因此目标对象的下文信息输入效率较高,提高了预测下文信息的准确性。

Description

一种预测下文信息的方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种预测下文信息的方法、装置、电子设备及存储介质。
背景技术
目标对象在使用输入法进行文本编辑、聊天或者通过搜索引擎搜索内容时,辅助写作工具通常会根据目标对象已输入的上文信息,预测目标对象可能输入的各个下文信息,并将预测出的各个下文信息进行展示以便目标对象直接选择,从而降低目标对象的输入成本,提升输入效率与体验。
相关技术下,在预测下文信息时,通常是统计历史时间段内所有目标对象输入的上文信息和下文信息,然后,分别确定各个上文信息各自关联的下文信息集合。
然而,采用上述方案,当不同目标对象输入相同的上文信息时,预测出的下文信息集合均是相同的,而统一化的下文信息集合不能符合不同目标对象灵活多样的使用需求,需要目标对象在预测出的下文信息集合中多次查找才能选出将要输入的下文信息,从而降低了下文信息提供的准确性,也影响了目标对象的下文信息输入效率。
发明内容
本申请实施例提供一种预测下文信息的方法、装置、电子设备及存储介质,以提高预测下文信息的准确性,以及提高目标对象的下文信息输入效率。
本申请实施例提供的具体技术方案如下:
一种预测下文信息的方法,包括:
接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;
将所述目标信息组输入已训练的下文预测模型,获得所述目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;
基于所述至少一个候选下文信息,及其各自对应的候选条件概率,获得所述上文信息的至少一个目标下文信息。
一种预测下文信息的装置,包括:
第一获得模块,用于接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;
第二获得模块,用于将所述目标信息组输入已训练的下文预测模型,获得所述目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;
第三获得模块,用于基于所述至少一个候选下文信息,及其各自对应的候选条件概率,获得所述上文信息的至少一个目标下文信息。
可选的,获得目标对象对应的目标画像特征时,第一获得模块具体用于:
基于目标对象关联的历史输入记录,获得目标对象对应的目标画像特征;或,
基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征。
可选的,基于目标对象关联的历史输入记录,获得目标对象对应的目标画像特征时,第一获得模块具体用于:
根据目标对象的标识信息,获得目标对象关联的历史输入记录中,至少一个属性维度短语各自对应的第一出现次数;
选取第一出现次数达到预设的第一输入信息次数门限的,至少一个属性维度短语;
根据选取出的至少一个属性维度短语,以及各个属性维度短语各自与属性维度标签的映射关系,获得选取出的至少一个属性维度短语各自对应的属性维度标签;
基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
可选的,基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征时,第一获得模块具体用于:
根据目标对象的标识信息,获得目标对象关联的历史点击记录中,目标对象从候选点击信息列表中,点击的至少一个历史点击信息各自对应的第二出现次数;
选取第二出现次数达到预设的第一点击信息次数门限的,至少一个历史点击信息;
根据选取出的至少一个历史点击信息,以及各个点击信息各自与属性维度标签的映射关系,获得选取出的至少一个历史点击信息各自对应的属性维度标签;
基于至少一个属性维度标签,获得所述目标对象对应的目标画像特征。
可选的,获得目标对象对应的目标画像特征时,第一获得模块具体用于:
基于目标对象关联的历史记录,结合协同过滤方式,确定历史记录与各个候选类簇中的候选记录各自对应的相似度,从各个候选类簇中选取出满足相似度条件的类簇;其中,每个候选类簇,是基于各个历史对象各自关联的候选记录之间的相似度,对各个历史对象进行聚类获得的;
基于选取出的类簇对应的类簇标签,获得目标对象对应的目标画像特征。
可选的,基于至少一个属性维度标签,获得目标对象对应的目标画像特征时,第一获得模块具体用于:
将至少一个属性维度标签转换为特征字符串;
基于至少一个特征字符串,获得目标对象对应的目标画像特征。
可选的,基于至少一个特征字符串,获得目标对象对应的目标画像特征时,第一获得模块具体用于:
基于至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合;
基于至少一个特征字符串集合,获得目标对象对应的目标画像特征。
可选的,将目标信息组输入已训练的下文预测模型时,第二获得模块具体用于:
获得目标画像特征对应的一个属性维度,从已训练的各个候选下文预测模型中,选取出与属性维度对应的已训练的下文预测模型;
将目标信息组输入已训练的下文预测模型。
可选的,基于至少一个候选下文信息,及其各自对应的候选条件概率,获得上文信息的至少一个目标下文信息时,第二获得模块具体用于:
从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率;
将至少一个目标条件概率各自对应的候选下文信息,作为上文信息的至少一个目标下文信息。
可选的,将目标信息组输入已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率时,第二获得模块具体用于:
基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组;
将样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率,作为目标信息组对应的至少一个候选下文信息及其各自对应的候选条件概率。
可选的,训练下文预测模型时,还包括:
第四获得模块,用于获得样本信息组集合,其中,每个样本信息组包含:相应的样本对象对应的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息;
第一确定模块,用于分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数;
第二确定模块,用于基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率并进行关联存储。
可选的,基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率时,第二确定模块具体用于:
分别确定样本上文信息和样本画像特征均相同的样本信息组,在样本信息组集合中的出现总次数;
分别根据各个历史关联出现次数与相应的出现总次数的比值,确定各个样本信息组中的样本下文信息对应的候选条件概率。
可选的,获得每个样本对象对应的样本画像特征时,第四获得模块还用于:
针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签;其中,属性维度包含性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种;
分别将至少一个样本属性维度标签转换为相应的样本特征字符串;
基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。
可选的,基于至少一个样本特征字符串,获得样本对象对应的样本画像特征时,第四获得模块具体用于:
基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合;
基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。
可选的,从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率时,第三获得模块具体用于:
从至少一个候选条件概率中,选取出达到概率门限值的至少一个目标条件概率;或者,
从至少一个候选条件概率中,按照候选条件概率从大到小的顺序,选取出预设数量的至少一个目标条件概率。
本申请实施例提供的一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种预测下文信息的方法的步骤。
本申请实施例提供的一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种预测下文信息的方法的步骤。
本申请实施例提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述任意一种预测下文信息的方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种预测下文信息的方法、装置、电子设备及存储介质。在本申请实施例中,接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;将目标信息组输入已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;基于至少一个候选下文信息,及其各自对应的候选条件概率,获得上文信息的至少一个目标下文信息。
本申请实施例中,将目标对象的目标画像特征和输入的上文信息作为一个目标信息组。不同的目标画像特征的目标对象所属的目标信息组是不同的。对于不同的目标信息组,利用已训练的下文预测模型所预测的至少一个目标下文信息是灵活变化的。因此,本申请针对不同目标画像特征的目标对象,即使输入的上文信息相同,也能够针对性的确定出不同目标画像特征的目标对象可能输入的至少一个目标下文信息,从而能够满足不同目标对象灵活多样的使用需求,避免出现明显与目标对象的目标画像特征不匹配的目标下文信息,提高了预测下文信息的准确性和相关性;并且,基于本申请确定出的至少一个目标下文信息,目标对象能够快速选出将要输入的下文信息,从而能够提高目标对象输入下文信息的效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本申请实施例中应用场景示意图;
图2为本申请实施例中下文预测模型的训练过程示意图;
图3为本申请实施例中样本画像特征举例示意图;
图4为本申请实施例中样本信息组集合举例示意图;
图5为本申请实施例中获得样本下文信息与样本信息组的历史关联出现次数举例示意图;
图6为本申请实施例中获得样本下文信息对应的候选条件概率举例示意图;
图7为本申请实施例中下文预测模型的输入信息和输出信息举例示意图;
图8为本申请实施例中样本属性维度标签与样本特征字符串对应关系举例示意图;
图9为本申请实施例中另一获得样本特征字符串集合举例示意图;
图10为本申请实施例中一种预测下文信息的流程示意图;
图11为本申请实施例中获得样本下文信息及对应的候选条件概率的举例示意图;
图12为本申请实施例中获得目标对象对应的目标画像特征的流程示意图;
图13为本申请实施例中获得目标画像特征举例示意图;
图14为本申请实施例中获得目标对象对应的目标画像特征的流程示意图;
图15为本申请实施例中获得目标画像特征举例示意图;
图16为本申请实施例中获得特征字符串集合举例示意图;
图17为本申请实施例中获得目标对象对应的目标画像特征的流程示意图;
图18为本申请实施例中获得目标对象对应的目标画像特征的流程示意图;
图19为本申请实施例中获得目标输入信息类簇举例示意图;
图20为本申请实施例中另一获得目标输入信息类簇举例示意图;
图21为本申请实施例中获得目标对象对应的目标画像特征的流程示意图;
图22为本申请实施例中获得目标点击信息类簇举例示意图;
图23为本申请实施例中另一获得目标点击信息类簇举例示意图;
图24为本申请实施中获得目标画像特征举例示意图;
图25为本申请实施中选取下文预测模型举例示意图;
图26为本申请实施例中预测下文信息的总体流程示意图;
图27为本申请实施例中一种预测下文信息的装置的结构示意图;
图28为本申请实施例中一种下文预测模型的训练装置的结构示意图;
图29为本申请实施例中一种电子设备的一个硬件组成结构示意图;
图30为本申请实施例中的一个计算装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
上文信息:是指目标对象已经完成的输入内容,例如:在微信聊天时,输入框中的内容、已经发送出去的内容等;再例如:在搜索引擎进行搜索时,输入到搜索框中的内容等。例如:上文信息为“你好”,“我要买口红”等。
下文信息:是指根据上文信息提供的可以供目标对象直接点选的内容,不限于词粒度、句粒度的文字内容,也可以是表情等其他形式的内容;例如:下文信息可以是词汇、语句、表情、动画、或者,上述任意组合。例如:下文信息为“我是”,“同学”,“欢迎您的到来”等内容,再例如:下文信息为静态图片表情或者,动态表情等。
目标对象:是指当前输入上文信息的用户。
历史对象:是指历史时间段内输入上文信息的用户。
画像特征:是指根据用户的性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种抽象出来的标签化用户模型。例如:画像特征为“性别男,年龄18岁,爱好打篮球,性格外向活泼”,“性别男,年龄50岁,性格沉稳”等。
目标信息组:是指对于目标对象,包含该目标对象的目标画像特征以及该目标对象输入的上文信息的信息组;不同目标画像特征或者,不同上文信息所对应的目标信息组是不同的。例如:目标信息组包含“〈性别男,年龄20岁〉,输入上文信息〈你好〉”。
以下对本申请实施例中的人工智能技术进行解释说明,以便于本领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如:常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面对本申请实施例的设计思想进行简要介绍:
随着人工智能技术的快速发展,在人工智能技术领域,当目标对象使用输入法进行文本编辑、聊天或者通过搜索引擎搜索内容时,如何根据目标对象已输入的上文信息,准确地预测目标对象可能输入的各个下文信息,以便用户能够快速选出将要输入的下文信息,是目前亟待解决的技术问题。
相关技术下,在预测下文信息时,通常是统计历史时间段内所有目标对象输入的上文信息和下文信息,然后,分别确定各个上文信息各自关联的下文信息集合。采用上述方案,当不同目标对象输入相同的上文信息时,预测出的下文信息集合均是相同的。例如:相关技术下,确定出的上文信息“晚安”关联的下文信息集合为“老婆”,“好梦”。目标对象A和目标对象B输入的上文信息都是“晚安”时,相关技术下确定出的下文信息集合都是“老婆”,“好梦”。
这样,存在的问题是,如果目标对象A是男性用户,那预测的下文信息较准确。如果目标对象B是女性用户,那么目标对象B大概率输入的下文信息为“老公”。但是相关技术下为目标对象B预测的下文信息集合仍然是“老婆”,“好梦”。这样就会造成为目标对象B预测的下文信息集合中不存在目标对象B要输入的下文信息,目标对象B无法从预测的下文信息集合中选取出要输入的下文信息,需要多次查找甚至手动输入“老公”才能完成下文信息的输入。这无疑增加了目标对象B输入下文信息的时间,降低了目标对象B的下文信息输入效率。并且相关技术下为目标对象B所预测的下文信息集合的准确性较差。
因此,相关技术下,当不同目标对象输入相同的上文信息时,预测出的下文信息集合均是相同的,统一化的下文信息集合不能符合不同目标对象灵活多样的使用需求,需要目标对象在预测出的下文信息集合中多次查找才能选出将要输入的下文信息,甚至需要目标对象手动输入下文信息,从而降低了下文信息提供的准确性,也影响了目标对象的下文信息输入效率。
有鉴于此,本申请实施例提出了一种预测下文信息的方法、装置、电子设备及存储介质。为了解决统一化的下文信息集合不能符合不同目标对象灵活多样的使用需求,导致下文信息提供的准确性较差,目标对象的下文信息输入效率较低的问题。本申请实施例中,采用目标画像特征来区分目标对象的属性,结合目标对象的目标画像特征和输入的上文信息,得到目标信息组。在得到目标信息组之后,将目标信息组输入已训练的下文预测模型,利用已训练的下文预测模型的输出结果获得上文信息的至少一个目标下文信息。本申请实施例中。结合目标画像特征和上文信息,共同预测符合目标画像特征的目标对象可能输入的至少一个目标下文信息。因此下文信息预测具有针对性,能够满足不同目标对象灵活多样的使用需求,基于在本申请确定出的至少一个目标下文信息,目标对象能够很快地选出将要输入的下文信息,因此目标对象的下文信息输入效率较高,提高了预测下文信息的准确性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
参阅图1所示,为本申请实施例中应用场景示意图。该应用场景示意图中包括终端设备110和服务器120。终端设备110与服务器120之间可以通过通信网络进行通信。
在本申请实施例中,终端设备110可以但并不局限于是智能手机、平板电脑、笔记本电脑、台式计算机等。在终端设备110中预先安装有具备预测下文信息功能的目标应用,目标应用的功能并不限于预测下文信息。目标应用可以是预先安装的客户端应用、网页版应用、小程序等。终端设备110可以包括一个或多个处理器1101,存储器1102,与服务器120交互的I/O接口1103以及显示屏1104等。
服务器为目标应用对应的后台服务器,为目标应用提供服务。服务器120可以包括一个或多个处理器1201、存储器1202以及与终端设备110交互的I/O接口1203等。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110与服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
其中,本申请实施例中的对于预测下文信息,可以在终端设备110上进行,也可以在服务器120上进行。
当由终端设备110进行下文信息预测时,终端设备110接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;将目标信息组输入已训练的下文预测模型,并基于输出结果获得上文信息的至少一个目标下文信息。
当由服务器120进行下文信息的预测时,在终端设备110接收到目标对象输入的上文信息时,将接收到的目标对象输入的上文信息发送给服务器120,进而服务器120获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;将目标信息组输入已训练的下文预测模型,并基于输出结果获得上文信息的至少一个目标下文信息。将至少一个目标下文信息反馈至终端设备110。
本申请实施例中,预测下文信息可以应用于聊天场景、文本文档编辑场景、搜索引擎搜索场景,但并不仅限于上述场景。
应用场景一:聊天场景。
预测下文信息应用于聊天场景时,如目标对象通过聊天软件在消息框中输入上文信息时,则获取目标对象对应的目标画像特征,基于目标对象对应的目标画像特征和上文信息,预测目标对象可能向对方发送的下文信息。
应用场景二:文本文档编辑场景。
预测下文信息应用于文本文档编辑场景时,如用户打开文本文档编辑软件,在其中输入上文信息时,则获取目标对象对应的目标画像特征,基于目标对象对应的目标画像特征和上文信息,预测目标对象可能输入的下文信息。
应用场景三:搜索引擎搜索场景。
预测下文信息应用于搜索引擎搜索场景时,如目标对象通过搜索引擎在搜索框中输入上文信息时,则获取目标对象对应的目标画像特征,基于目标对象对应的目标画像特征和上文信息,预测目标对象可能输入的下文信息,从而可以基于预测获得的下文信息进行数据搜索。
本申请实施例中,预测下文信息可以是输入法联想预测、AI联想预测、音字转换预测,纠错预测和组词预测等。其中,输入法联想预测是指词预测,如目标对象输入的上文信息为“繁荣”,则预测的下文信息为“富强”。AI联想预测是指句预测,如目标对象输入的上文信息为“离离原上草”,则预测的下文信息为“想吃小烧烤”。音字转换预测是指根据拼音预测对应的汉字,如目标对象输入的上文信息为“shou ji”,则预测的下文信息为“手机”。纠错预测是指根据存在错误的拼音预测对应的汉字,如目标对象输入的上文信息为“wimen”,则预测的下文信息为“我们”。组词预测是指根据目标对象输入的字预测与该字能够组成词语的字或词,如目标对象输入的上文信息为“我”,则预测的下文信息为“爱”或者“爱你”等。
下面结合附图,对本申请实施例中对下文预测模型进行训练的流程进行说明,本申请实施例中的训练流程可应用于图1所示的终端设备110或者服务器120。
参阅图2所示,为本申请实施例中下文预测模型的训练过程示意图,下面结合附图2,对本申请实施例中下文预测模型的训练过程进行说明:
S20:获得样本信息组集合,其中,每个样本信息组包含:相应的样本对象的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息。
本申请实施例中,采集到在设定历史时间段内,各个样本对象的样本画像特征,以及各个样本对象各自输入的一个样本上文信息和选取的一个样本下文信息;其中,所谓样本画像特征是指根据样本对象的性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种抽象出来的标签化用户模型。
例如:参阅图3所示,为本申请实施例中样本画像特征举例示意图。样本画像特征1为“性别男,年龄18岁,爱好打篮球,性格外向活泼”,样本画像特征2为“性别男,年龄50岁,爱好游泳,性格沉稳”等。
而所谓样本信息组,是指包含相应的样本对象的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息的一个组合。
例如:样本对象A的样本画像特征为“性别男,年龄18岁”,设定历史时间段内,样本对象A输入的样本上文信息为“你好”,针对该样本上文信息选取的一个样本下文信息为“我”,则将““性别男,年龄18岁,你好”,“我””作为一个样本信息组。
需要说明的是,设定历史时间段内,会采集到多个不同样本信息组,其中多个不同样本信息组中的样本下文信息不同,但是多个不同样本信息组中的样本画像特征和样本上文信息均相同。
例如:样本信息组A为““性别男,年龄18岁,你好”,“我””,样本信息组B为““性别男,年龄18岁,你好”,“我是””,样本信息组C为““性别男,年龄18岁,你好”,“你””,样本信息组D为““性别男,年龄18岁,你好”,“我们””,样本信息组E为““性别男,年龄18岁,你好”,“同学””,样本信息组A、样本信息组B、样本信息组C、样本信息组D和样本信息组E中,样本画像特征和输入的一个样本上文信息均相同。
另外,需要说明的是,样本信息组集合,是指由各个样本信息组构成的集合。
例如:参阅图4所示,为本申请实施例中样本信息组集合举例示意图。样本信息组集合中包含5个样本信息组,分别为样本信息组1至样本信息组5,其中,样本信息组1为““性别男,你好”,“我””,样本信息组2为““性别男,你好”,“同学””;样本信息组3为““性别女,晚安”,“好梦””,样本信息组4为““性别女,晚安”,“爱””;样本信息组5为““性别女,年龄30岁,化妆”,“变美””。
这样,在采集到样本信息组集合之后,可以基于样本信息组集合,用于后续对下文预测模型的训练。
S21:分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数。
其中,可以通过以下两种方式分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数。
方式一:
本申请实施例中,采集到样本信息组集合之后,针对样本信息组集合中的每个样本信息组,确定出样本信息组中的样本下文信息,并统计出样本下文信息与样本信息组的历史关联出现次数。
其中,在设定历史时间段内,样本对象在输入样本信息组中的样本上文信息之后,选取的样本下文信息。以样本信息组为单位,将相同的样本画像特征,输入相同的样本上文信息的各个样本对象选取的样本下文信息的次数进行汇总,得到样本下文信息与相应的样本信息组的历史关联出现次数。
例如:参阅图5所示,为本申请实施例中获得样本下文信息与样本信息组的历史关联出现次数举例示意图。样本信息组为““性别男,你好”,“我””。其中,“性别男”为样本对象对应的样本画像特征,“你好”为样本对象输入的样本上文信息,“我”为样本对象选取的样本下文信息。统计在设定历史时间段内,样本画像特征为“性别男”的样本对象A在输入样本信息组中的样本上文信息“你好”之后,选取的样本下文信息“我”的次数为100次,样本画像特征为“性别男”的样本对象B在输入样本信息组中的样本上文信息“你好”之后,选取的样本下文信息“我”的次数为200次。则样本信息组为““性别男,你好”,“我””,样本下文信息“我”与样本信息组的历史关联出现次数为100次+200次=300次。
方式二:
分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数时,不对样本对象进行区分,而是根据样本对象的样本画像特征以及样本对象输入的样本上文信息,对样本画像特征、样本对象输入的样本上文信息和样本对象选取的样本下文信息进行分类,具体实施时,将样本画像特征和样本上文信息均相同的样本信息组分为一类,也即,同一类别中,各个样本下文信息所对应的样本画像特征和样本上文信息均相同。然后统计同一聚类中样本上文信息的每个样本下文信息出现的次数,将样本下文信息出现的次数作为样本下文信息与相应的样本信息组的历史关联出现次数。
例如:某一类别的样本画像特征为“性别男”,样本上文信息为“你好”。该类别中样本下文信息“我”出现的次数为300次。则确定样本下文信息“我”与相应的样本信息组的历史关联出现次数为300次。其中,该类别中样本下文信息“我”是满足样本画像特征为“性别男”,输入样本上文信息为“你好”的所有样本对象输入的。
S22:基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率并进行关联存储。
本申请实施例中,终端设备或者服务器采集到样本信息组集合,并分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数,每个样本信息组都能够得到一个历史关联出现次数。
例如:样本信息组1为““性别男,你好”,“我””,样本下文信息“我”,与样本信息组1的历史关联出现次数为100次。样本信息组2为““性别男,你好”,“同学””;样本下文信息“同学”,与样本信息组2的历史关联出现次数为50次。样本信息组3为““性别女,晚安”,“好梦””,样本下文信息“好梦”,与样本信息组3的历史关联出现次数为120次。样本信息组4为““性别女,晚安”,“爱””,样本下文信息“爱”,与样本信息组4的历史关联出现次数为60次。
在确定样本下文信息的候选条件概率时,首先需要获得包含相同的样本画像特征和样本上文信息的样本信息组,然后根据包含相同的样本画像特征和样本上文信息的样本信息组,各自得到的相应的历史关联出现次数,确定相应的样本信息组中的样本下文信息的候选条件概率。
可选的,分别确定样本上文信息和样本画像特征均相同的样本信息组,在样本信息组集合中的出现总次数,分别根据各个历史关联出现次数与相应的出现总次数的比值,确定各个样本信息组中的样本下文信息对应的候选条件概率。
以上述举例继续说明。参阅图6所示,为本申请实施例中获得样本下文信息对应的候选条件概率举例示意图。样本信息组1和样本信息组2为包含相同的样本画像特征和样本上文信息的样本信息组。样本信息组1中样本下文信息“我”对应的历史关联出现次数为100次,样本信息组2中样本下文信息“同学”对应的历史关联出现次数为50次。那么当样本画像特征为“性别男”,样本上文信息为“你好”时,其对应的样本下文信息为“我”的候选条件概率为100/(100+50)=0.667。其对应的样本下文信息为“同学”的候选条件概率为50/(100+50)=0.333。
样本信息组3和样本信息组4为包含相同的样本画像特征和样本上文信息的样本信息组。样本信息组3中样本下文信息“好梦”对应的历史关联出现次数为120次,样本信息组4中样本下文信息“爱”对应的历史关联出现次数为60次。那么,当样本画像特征为“性别女”,样本上文信息为“晚安”时,其对应的样本下文信息为“好梦”的候选条件概率为120/(120+60)=0.667。其对应的样本下文信息为“爱”的候选条件概率为60/(150+60)=0.333。
本申请实施例中,获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率之后,关联存储各个样本信息组中的样本下文信息的候选条件概率,得到已训练的下文预测模型。在将目标信息组输入已训练的下文预测模型,利用已训练的下文预测模型预测下文信息时,也是基于存储的各个样本信息组中的样本下文信息的候选条件概率实现对下文信息的预测。
对下文预测模型的训练过程中,输入下文预测模型的是样本信息组集合,其中,样本信息组集合中包括各个样本信息组,每个样本信息组包含:相应的样本对象对应的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息。基于下文预测模型,分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数,基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率。
其中,下文预测模型输出的是各个样本信息组中的样本下文信息的候选条件概率。
例如:参阅图7所示,为本申请实施例中下文预测模型的输入信息和输出信息举例示意图。输入下文预测模型的各个样本信息组分别为样本信息组1“性别男,你好,我”,样本信息组2“性别男,你好,我是”,样本信息组3“性别女,你好,同学”,样本信息组4“性别女,你好,我们”。基于下文预测模型确定样本下文信息“我”与样本信息组1的历史关联出现次数为100次。确定样本下文信息“我是”与样本信息组2的历史关联出现次数为50次。确定样本下文信息“同学”与样本信息组3的历史关联出现次数为40次。确定样本下文信息“我们”与样本信息组4的历史关联出现次数为120次。并确定样本信息组1中的样本下文信息“我”的候选条件概率为100/(100+50)=0.667。确定样本信息组2中的样本下文信息“我是”的候选条件概率为50/(100+50)=0.333。确定样本信息组3中的样本下文信息“同学”的候选条件概率为40/(40+120)=0.25。确定样本信息组4中的样本下文信息“我们”的候选条件概率为120/(40+120)=0.75。下文预测模型输出的是“性别男,你好,我,100,0.667”,,“性别男,你好,我是,50,0.333”,“性别女,你好,同学,40,0.25”,“性别女,你好,我们,120,0.75”。
可选的,本申请实施例中,每个样本对象对应的样本画像特征,是采用以下方式确定的:
针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签;其中,属性维度包含性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种;
分别将至少一个样本属性维度标签转换为相应的样本特征字符串;
基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。
本申请实施例中,为了提高预测下文信息的效率,便于通过下文预测模型获得下文信息的预测结果。将字符串的概念引入下文预测模型的训练过程中。针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签之后,分别将至少一个样本属性维度标签转换为相应的样本特征字符串。
需要说明的是,样本属性维度标签由两部分组成,分别是属性维度和该属性维度下对应的具体特征。转换后得到的样本特征字符串同样由两部分组成,分别是属性维度对应的字符串和该属性维度下对应的具体特征对应的字符串。其中,字符串可以是数字、字母、符号等,但不仅限于以上几种。
终端设备或者服务器可以制定属性维度与属性维度字符串的对应关系,制定属性维度下对应的具体特征与具体特征字符串的对应关系。根据以上对应关系实现分别将至少一个样本属性维度标签转换为相应的样本特征字符串。
属性维度包含性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种。
参阅图8所示,为本申请实施例中样本属性维度标签与样本特征字符串对应关系举例示意图。如属性维度为性别维度,例如:样本属性维度标签是“性别男”,其中“性别”为属性维度,“男”为属性维度标签。例如:制定性别属性对应的字符串为“0”,性别维度特征“男”对应的字符串为“0”,性别维度特征“女”对应的字符串为“1”。则样本属性维度标签是“性别男”转换后的样本特征字符串为“0,0”。样本属性维度标签是“性别女”转换后的样本特征字符串为“0,1”。
如属性维度为年龄维度,例如:样本属性维度标签是“年龄18岁”,其中“年龄”为属性维度,“18岁”为属性维度标签。可以为每一个年龄特征制定一个对应的字符串,较佳的,可以将年龄特征划分为多个年龄段,每一个年龄段对应一个字符串。例如:制定年龄属性对应的字符串为“1”,年龄维度特征“0-24岁”对应的字符串为“0”,年龄维度特征“25岁-50岁”对应的字符串为“1”。则样本属性维度标签是“年龄18岁”转换后的样本特征字符串为“1,0”。样本属性维度标签是“年龄50岁”转换后的样本特征字符串为“1,1”。
如属性维度为性格维度,例如:样本属性维度标签是“性格外向”,其中“性格”为属性维度,“外向”为属性维度标签。例如:制定性格属性对应的字符串为“2”,性格维度特征“外向”对应的字符串为“0”,性格维度特征“内向”对应的字符串为“1”。则样本属性维度标签是“性格外向”转换后的样本特征字符串为“2,0”。样本属性维度标签是“性格内向”转换后的样本特征字符串为“2,1”。
如属性维度为兴趣维度,例如:样本属性维度标签是“爱好打篮球”,其中“爱好”为属性维度,“打篮球”为属性维度标签。例如:制定兴趣属性对应的字符串为“3”,兴趣维度特征“打篮球”对应的字符串为“0”,兴趣维度特征“踢足球”对应的字符串为“1”。则样本属性维度标签是“爱好打篮球”转换后的样本特征字符串为“3,0”。样本属性维度标签是“爱好踢足球”转换后的样本特征字符串为“3,1”。
如属性维度为地域维度,例如:样本属性维度标签是“籍贯城市A”,其中“籍贯”为属性维度,“城市A”为属性维度标签。可以为不同的城市制定不同的字符串,例如:制定地域属性对应的字符串为“4”,地域维度特征“城市A”对应的字符串为“0”,地域维度特征“城市B”对应的字符串为“1”。则样本属性维度标签是“籍贯城市A”转换后的样本特征字符串为“4,0”。样本属性维度标签是“籍贯城市B”转换后的样本特征字符串为“4,1”。需要说明的是,城市只是举例说明,本申请实施例并不限定地域划分的粒度,还可以是省粒度、区粒度、县粒度等。
分别将至少一个样本属性维度标签转换为相应的样本特征字符串之后,基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。其中,可以直接将至少一个样本特征字符串,作为样本对象对应的样本画像特征。
可选的,针对样本对象获得的至少一个属性维度各自对应的样本属性维度标签,分别将至少一个样本属性维度标签转换为相应的样本特征字符串。一般包括多个样本特征字符串。在训练下文预测模型时,可以将多个样本特征字符串进行任意组合,进而获得多个样本画像特征。这样存在的问题是有可能得到的样本画像特征过多,导致下文预测模型训练效率较低。
基于以上考虑,本申请实施例中,基于至少一个样本特征字符串,获得样本对象对应的样本画像特征,具体包括:
基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合;
基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。
本申请实施例中,选取出符合设定数量阈值的至少一个样本特征字符串集合,可以是选取包含设定数量阈值个样本特征字符串构成样本特征字符串集合。
例如:获得的至少一个样本特征字符串包括““0,1”,“1,1”,“2,0””。设定数量阈值为2。则从““0,1”,“1,1”,“2,0””中任意选取两个样本特征字符串,获得的样本特征字符串集合分别为““0,1”,“1,1””,““0,1”,“2,0””和““1,1”,“2,0””。
另外,考虑到基于下文预测模型进行下文信息预测时,获得的目标对象对应的目标画像特征有可能只包含一个属性维度标签。基于以上考虑,为了保证利用训练得到的下文预测模型,能够预测出下文信息。本申请实施例中,选取出符合设定数量阈值的至少一个样本特征字符串集合,还可以是以设定数量阈值为上限,选取包含不超过设定数量阈值个样本特征字符串构成样本特征字符串集合。
例如:参阅图9所示,为本申请实施例中获得样本特征字符串集合举例示意图。获得的至少一个样本特征字符串包括““0,1”,“1,1”,“2,0””。设定数量阈值为2。则从““0,1”,“1,1”,“2,0””中任意选取不超过两个样本特征字符串,获得的样本特征字符串集合分别为“0,1”,“1,1”,“2,0”,““0,1”,“1,1””,““0,1”,“2,0””和““1,1”,“2,0””。
另外,需要说明的是,本申请实施例中,下文预测模型是利用样本对象对应的样本画像特征、输入的上文信息及选取的下文信息训练得到的。之后进行下文信息预测时,在一些情况下,如果接收到目标对象输入的上文信息时,此时未能获得目标对象对应的目标画像特征,则可以通过其它的只根据输入的上文信息及选取的下文信息训练得到的下文预测模型进行下文信息的预测,本申请实施例中不对该过程进行限定。
本申请实施例中,对下文预测模型训练完成之后,目标对象输入上文信息,基于已训练的下文预测模型预测上文信息的至少一个目标下文信息。参阅图10所示,为本申请实施例中一种预测下文信息的流程示意图,下面结合附图10,进行详细说明:
S30:接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组。
本申请实施例中,目标对象在终端设备中输入上文信息。其中,终端设备中预先安装有具备预测下文信息功能的目标应用,目标应用的功能并不限于预测下文信息。目标应用可以是预先安装的客户端应用、网页版应用、小程序等。目标对象打开在端设备中预先安装的目标应用,并在目标应用中输入上文信息。
目标对象在目标应用中输入上文信息,终端设备可以接收到目标对象输入的上文信息,此时,获得目标对象对应的目标画像特征。目标画像特征是指用于表征目标对象的属性标签的至少一个属性维度标签。属性维度包含性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种。
其中,目标对象一般需要登录目标应用,进而在目标应用中输入上文信息。目标应用可以为目标对象提供画像特征编辑选项。目标对象打开画像特征编辑选项,可以编辑自身的目标画像特征。目标对象登录目标应用之后,可以通过目标应用的后台信息,确定目标对象的登录信息以及目标对象编辑的目标画像特征等。
目标对象打开画像特征编辑选项,编辑自身的目标画像特征的方式包括但不限于以下两种:
方式一:目标对象打开画像特征编辑选项后,目标应用为目标对象提供待选择的属性维度标签,例如:提供“性格活泼”,“性别男”、“爱好踢足球”等待选项供目标对象进行选择。目标对象选择的属性维度标签即为目标对象编辑的自身的目标画像特征。
方式二:目标对象打开画像特征编辑选项后,目标应用为目标对象提供输入目标画像特征的窗口,目标对象通过在目标画像特征的窗口中输入自身的目标画像特征,并在目标对象确认输入完毕后,完成对自身的目标画像特征的编辑过程。
接收到目标对象输入的上文信息,并获得目标对象对应的目标画像特征之后,可以将上文信息和目标画像特征作为一个目标信息组。所谓相应的目标信息组是指包含上文信息和目标画像特征这一组合是与目标对象相对应的目标信息组。不同的目标对象,如果其对应的目标画像特征相同,输入的上文信息相同,那么不同的目标对象各自相应的目标信息组是相同的。当然,不同的目标对象,如果其对应的目标画像特征不同,或者,输入的上文信息不同,那么不同的目标对象各自相应的目标信息组是不同的。
S31:将目标信息组输入已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率。
基于目标对象输入的上文信息和目标对象对应的目标画像特征,获得相应的目标信息组之后。将目标信息组输入已训练的下文预测模型。下文预测模型根据目标信息组包含的上文信息和目标画像特征,可以输出与目标信息组对应的预测结果。
其中,在训练下文预测模型时,获得样本信息组集合,分别确定样本信息组集合中各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数,基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率并进行关联存储。
因此,将目标信息组输入已训练的下文预测模型,下文预测模型的输出结果为目标信息组对应的至少一个候选下文信息及其各自对应的候选条件概率。
S32:基于至少一个候选下文信息,及其各自对应的候选条件概率,获得上文信息的至少一个目标下文信息。
基于已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息及其各自对应的候选条件概率;其中,每个候选条件概率是基于设定历史时间段内,相应的候选下文信息与目标信息组的关联出现次数确定的。
本申请实施例中,在对下文预测模型训练时,基于设定历史时间段内,样本下文信息与样本信息组的历史关联出现次数,确定的样本下文信息对应的候选条件概率。下文预测模型训练完成之后,将目标信息组输入已训练的下文预测模型。基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组。其中,可以是获得与目标信息组相同的样本信息组。已训练的下文预测模型中包含样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率。获得与目标信息组相同的样本信息组之后,可以直接将样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率,作为目标信息组对应的至少一个候选下文信息及其各自对应的候选条件概率。
例如:参阅图11所示,为本申请实施例中获得样本下文信息及对应的候选条件概率的举例示意图。已训练的下文预测模型包含样本信息组1为““性别男,你好”,“我””,样本下文信息“我”,样本下文信息为“我”的候选条件概率为0.667。样本信息组2为““性别男,你好”,“同学””,样本下文信息为“同学”的候选条件概率为0.333。样本信息组3为““性别女,晚安”,“好梦””,样本下文信息为“好梦”的候选条件概率为0.667。样本信息组4为““性别女,晚安”,“爱””,样本下文信息为“爱”的候选条件概率为0.333。基于目标对象输入的上文信息和目标对象对应的目标画像特征获得相应的目标信息组为““性别男,你好””。则,基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组为样本信息组1和样本信息组2。样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率为“我”,候选条件概率为0.667;“同学”,候选条件概率为0.333。
从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率,并将至少一个目标条件概率各自对应的候选下文信息,作为上文信息的至少一个目标下文信息。
获得至少一个候选条件概率之后,从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率。其中,概率条件可以是选取最大的候选条件概率,也就是说从至少一个候选条件概率中选取出最大的候选条件概率作为目标条件概率,并将目标条件概率对应的候选下文信息,作为上文信息的目标下文信息。
还以上述例子进行说明。例如:目标信息组为““性别男,你好””,基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组为样本信息组1和样本信息组2。样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率为“我”,候选条件概率为0.667;“同学”,候选条件概率为0.333。因为0.667>0.333,因此确定上文信息“你好”的目标下文信息为“我”。
可选的,本申请实施例中,可以采用以下两种方式从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率。
方式一:从至少一个候选条件概率中,选取出达到概率门限值的至少一个目标条件概率。
例如:目标信息组为““性别男,你好””,基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组为样本信息组1、样本信息组2、样本信息组3和样本信息组4。样本信息组1对应的样本下文信息“我”对应的候选条件概率为0.667;样本信息组2对应的样本下文信息“我是”对应的候选条件概率为0.63;样本信息组3对应的样本下文信息“同学”对应的候选条件概率为0.52;样本信息组4对应的样本下文信息“在吗”对应的候选条件概率为0.43。例如:概率门限值设置为0.5。因为样本下文信息“我”对应的候选条件概率为0.667>0.5,样本下文信息“我是”对应的候选条件概率为0.63>0.5,样本下文信息“同学”对应的候选条件概率为0.52>0.5。因此确定至少一个目标条件概率分别为0.667,0.63和0.52。
将至少一个目标条件概率0.667,0.63和0.52各自对应的候选下文信息“我”,“我是”和“同学”,作为上文信息的至少一个目标下文信息。
方式二:从至少一个候选条件概率中,按照候选条件概率从大到小的顺序,选取出预设数量的至少一个目标条件概率。
例如:目标信息组为““性别男,你好””,基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组为样本信息组1、样本信息组2、样本信息组3和样本信息组4。样本信息组1对应的样本下文信息“我”对应的候选条件概率为0.667;样本信息组2对应的样本下文信息“我是”对应的候选条件概率为0.63;样本信息组3对应的样本下文信息“同学”对应的候选条件概率为0.52;样本信息组4对应的样本下文信息“在吗”对应的候选条件概率为0.43。例如:预设数量设置为2。对各个样本下文信息各自对应的候选条件概率从大到小排序为0.667>0.63>0.52>0.43。然后选取出2个目标条件概率分别为0.667和0.63。
将至少一个目标条件概率0.667和0.63各自对应的候选下文信息“我”和“我是”,作为上文信息的至少一个目标下文信息。
可选的,目标对象登录目标应用,进而在目标应用中输入上文信息。若目标应用不具备为目标对象提供画像特征编辑选项的功能,或者,具备为目标对象提供画像特征编辑选项的功能,但是目标对象并未编辑目标画像特征。基于上述考虑,为了保证能够获得目标对象对应的目标画像特征,本申请实施例中,提供了基于目标对象关联的历史输入记录,获得目标对象对应的目标画像特征;或,基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征。
可选的,本申请实施例中,基于目标对象关联的历史输入记录,获得目标对象对应的目标画像特征流程如下:
参阅图12所示,为本申请实施例中获得目标对象对应的目标画像特征的流程示意图。基于目标对象关联的历史输入信息,获得目标对象对应的目标画像特征的过程如下:
S40:根据目标对象的标识信息,获得目标对象关联的历史输入记录中,至少一个属性维度短语各自对应的第一出现次数。
设定时间段内,目标对象一般需要登录目标应用,进而在目标应用中触发各个目标输入信息。目标对象每次登录目标应用之后,可以通过目标应用的后台信息,确定目标对象的登录信息和目标对象在历史时间段内输入的信息,并统计目标对象输入的各个信息的第一出现次数。所谓目标对象关联的历史输入记录,包含历史时间段内,目标对象登录目标应用之后,在目标应用中输入的各个信息。输入的各个信息例如:“口红”、“闺蜜”等。其中目标对象的标识信息,可以是目标对象的登录信息,例如:目标对象的登录用户名。
获得目标对象关联的历史输入记录中,至少一个属性维度短语。所谓属性维度短语是指历史输入记录中,具备对应的属性维度标签的输入信息,属性维度短语包括属性维度词汇、短句或表情包。其中,输入信息与属性维度标签的对应关系是预先建立的。需要说明的是,输入信息与属性维度标签的对应关系可以是一对一的对应关系,也可以是一对多的对应关系。例如:输入信息“口红”对应的属性维度标签为“性别女”,或者,输入信息“口红”对应的属性维度标签分别为“性别女”和“爱好化妆”等,历史输入记录中的输入信息“口红”即为属性维度短语。
获得目标对象关联的历史输入记录中,至少一个属性维度短语之后,可以统计出历史输入记录中,至少一个属性维度短语各自对应的第一出现次数。
S41:选取第一出现次数达到预设的第一输入信息次数门限的,至少一个属性维度短语。
因为设定时间段内,目标对象输入次数较多的信息,更能够体现目标对象的目标画像特征。基于上述考虑,本申请实施例中,获得设定时间段内,目标对象关联的历史输入记录中,至少一个属性维度短语各自对应的第一出现次数之后,进而根据各个属性维度短语各自对应的第一出现次数,从各个属性维度短语中选取第一出现次数达到预设的第一输入信息次数门限的,至少一个属性维度短语。
例如:获得设定时间段内,目标对象输入的各个属性维度短语分别为“口红”,“闺蜜”和“瑜伽”。属性维度短语“口红”的第一出现次数为300次,属性维度短语“闺蜜”的第一出现次数为260次,属性维度短语“瑜伽”的第一出现次数为40次,预设的第一输入信息次数门限为200次。因为属性维度短语“口红”的第一出现次数和属性维度短语“闺蜜”的第一出现次数达到预设的第一输入信息次数门限,因此选取出的至少一个属性维度短语为“口红”和“闺蜜”。
S42:根据选取出的至少一个属性维度短语,以及各个属性维度短语各自与属性维度标签的映射关系,获得选取出的至少一个属性维度短语各自对应的属性维度标签;基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
选取出的至少一个属性维度短语之后,根据预先建立的各个属性维度短语各自与属性维度标签的映射关系,获得选取出的至少一个属性维度短语各自对应的属性维度标签。然后根据至少一个属性维度标签,获得目标对象对应的目标画像特征。
其中,如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,然后基于样本属性维度标签,获得样本对象对应的样本画像特征。则直接基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,分别将至少一个样本属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。则基于至少一个属性维度标签,也需要先将至少一个属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得目标对象对应的目标画像特征。需要说明的是,训练下文预测模型的过程中的属性维度标签和样本特征字符串的对应转换关系,与预测下文信息的过程中的属性维度标签和样本特征字符串的对应转换关系相同。
还以上述举例进行说明,例如:参阅图13所示,为本申请实施例中获得目标画像特征举例示意图。获得设定时间段内,目标对象输入的各个属性维度短语分别为“口红”,“闺蜜”和“瑜伽”。选取第一出现次数达到预设的第一输入信息次数门限的,至少一个属性维度短语分别为“口红”和“闺蜜”。属性维度短语“口红”对应的属性维度标签为“性别女,爱好化妆”,属性维度短语“闺蜜”对应的属性维度标签为“性别女”,则基于属性维度标签“性别女,爱好化妆”,获得目标对象对应的目标画像特征。
如果在训练下文预测模型时,未将至少一个样本属性维度标签转换为相应的样本特征字符串。则直接基于属性维度标签“性别女,爱好化妆”,获得目标对象对应的目标画像特征。例如:将“性别女,爱好化妆”作为目标对象对应的目标画像特征。
如果在训练下文预测模型时,将至少一个样本属性维度标签转换为相应的样本特征字符串。此时将属性维度标签“性别女,爱好化妆”,转换为相应的特征字符串,例如:属性维度标签“性别女,爱好化妆”转换后的特征字符串为““0,1”,“3,2””。基于特征字符串““0,1”,“3,2””,获得目标对象对应的目标画像特征。例如:将““0,1”,“3,2””作为目标对象对应的目标画像特征。
可选的,如果在训练下文预测模型时,基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合,基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。则在进行下文信息预测时,将至少一个属性维度标签转换为特征字符串之后,基于至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合,基于至少一个特征字符串集合,获得目标对象对应的目标画像特征。其中,可以直接将至少一个特征字符串集合,作为目标对象对应的目标画像特征。
例如:获得的至少一个特征字符串包括““0,1”,“1,1”,“2,0””。设定数量阈值为2。则从““0,1”,“1,1”,“2,0””中任意选取不超过两个特征字符串,获得的特征字符串集合分别为“0,1”,“1,1”,“2,0”,““0,1”,“1,1””,““0,1”,“2,0””和““1,1”,“2,0””。
可选的,本申请实施例中,基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征的流程如下:
参阅图14所示,为本申请实施例中获得目标对象对应的目标画像特征的流程示意图。基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征的过程如下:
S50:根据目标对象的标识信息,获得目标对象关联的历史点击记录中,目标对象从候选点击信息列表中,点击的至少一个历史点击信息各自对应的第二出现次数。
设定时间段内,目标对象一般需要登录目标应用,目标对象每次登录目标应用之后,目标应用会为目标对象提供候选点击信息列表并展示,目标对象可以在展示的候选点击信息列表中,点击列表中的信息。例如:某个购物目标应用提供的候选点击信息列表中的信息包括“男装”、“女装”、“运动”、“长裙”、“短裙”“西服”等。目标对象在展示的候选点击信息列表中的信息即为历史点击信息。获得目标对象关联的历史点击记录中,目标对象从候选点击信息列表中,点击的至少一个历史点击信息之后,可以统计点击的各个历史点击信息各自的第二出现次数。其中目标对象的标识信息,可以是目标对象的登录信息,例如:目标对象的登录用户名。
预先建立了各个点击信息各自与属性维度标签的对应关系。需要说明的是,点击信息与属性维度标签的对应关系可以是一对一的对应关系,也可以是一对多的对应关系。例如:点击信息“短裙”对应的属性维度标签为“性别女”,或者,点击信息“短裙”对应的属性维度标签分别为“性别女”和“爱好化妆”等。
S51:选取第二出现次数达到预设的第一点击信息次数门限的,至少一个历史点击信息。
因为设定时间段内,目标对象从候选点击信息列表中选取的次数较多的信息,更能够体现目标对象的目标画像特征。基于上述考虑,本申请实施例中,获得设定时间段内,目标对象从候选点击信息列表中,点击的至少一个历史点击信息各自对应的第二出现次数之后,进而根据点击的各个历史点击信息各自的第二出现次数,从各个历史点击信息中选取出第二出现次数达到预设的第一点击信息次数门限的,至少一个历史点击信息点击信息。
例如:目标对象关联的历史点击记录中,目标对象从候选点击信息列表中,点击的至少一个历史点击信息分别为“女装”,“短裙”和“长裙”。历史点击信息“女装”的第二出现次数为280次,历史点击信息“短裙”的第二出现次数为240次,历史点击信息“长裙”的第二出现次数为180次,预设的第一点击信息次数门限为200次。因为历史点击信息“女装”的第二出现次数和历史点击信息“短裙”的第二出现次数达到预设的第一点击信息次数门限,因此选取出的至少一个历史点击信息为“女装”和“短裙”。
S52:根据选取出的至少一个历史点击信息,以及各个点击信息各自与属性维度标签的映射关系,获得选取出的至少一个历史点击信息各自对应的属性维度标签。
选取出的至少一个历史点击信息之后,根据预先建立的各个点击信息各自与属性维度标签的映射关系,获得选取出的至少一个历史点击信息各自对应的属性维度标签。然后根据至少一个属性维度标签,获得目标对象对应的目标画像特征。
其中,如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,然后基于样本属性维度标签,获得样本对象对应的样本画像特征。则直接基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,分别将至少一个样本属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。则基于至少一个属性维度标签,也需要先将至少一个属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得目标对象对应的目标画像特征。需要说明的是,训练下文预测模型的过程中的属性维度标签和样本特征字符串的对应转换关系,与预测下文信息的过程中的属性维度标签和样本特征字符串的对应转换关系相同。
还以上述举例进行说明,例如:参阅图15所示,为本申请实施例中获得目标画像特征举例示意图。获得设定时间段内,目标对象关联的历史点击记录中,目标对象从候选点击信息列表中,点击的至少一个历史点击信息分别为“女装”,“短裙”和“长裙”。选取第二出现次数达到预设的第一点击信息次数门限的,至少一个历史点击信息分别为“女装”和“短裙”。历史点击信息“女装”对应的属性维度标签为“性别女”,历史点击信息“短裙”对应的属性维度标签为“性别女,爱好化妆”,则基于属性维度标签“性别女,爱好化妆”,获得目标对象对应的目标画像特征。
如果在训练下文预测模型时,未将至少一个样本属性维度标签转换为相应的样本特征字符串。则直接基于属性维度标签“性别女,爱好化妆”,获得目标对象对应的目标画像特征。例如:将“性别女,爱好化妆”作为目标对象对应的目标画像特征。
如果在训练下文预测模型时,将至少一个样本属性维度标签转换为相应的样本特征字符串。此时将属性维度标签“性别女,爱好化妆”,转换为相应的特征字符串,例如:属性维度标签“性别女,爱好化妆”转换后的特征字符串为““0,1”,“3,2””。基于特征字符串““0,1”,“3,2””,获得目标对象对应的目标画像特征。例如:将““0,1”,“3,2””作为目标对象对应的目标画像特征。
可选的,如果在训练下文预测模型时,基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合,基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。则在进行下文信息预测时,将至少一个属性维度标签转换为特征字符串之后,基于至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合,基于至少一个特征字符串集合,获得目标对象对应的目标画像特征。其中,可以直接将至少一个特征字符串集合,作为目标对象对应的目标画像特征。
例如:参阅图16所示,为本申请实施例中获得特征字符串集合举例示意图。获得的至少一个特征字符串包括““0,1”,“1,4”,“2,2””。设定数量阈值为2。则从““0,1”,“1,4”,“2,2””中任意选取不超过两个特征字符串,获得的特征字符串集合分别为“0,1”,“1,4”,“2,2”,““0,1”,“1,4””,““0,1”,“2,2””和““1,4”,“2,2””。
参阅图17所示,为本申请实施例中获得目标对象对应的目标画像特征的流程示意图。获得目标对象对应的目标画像特征的过程如下:
S60:基于目标对象关联的历史记录,结合协同过滤方式,确定历史记录与各个候选类簇中的候选记录各自对应的相似度,从各个候选类簇中选取出满足相似度条件的类簇;其中,每个候选类簇,是基于各个历史对象各自关联的候选记录之间的相似度,对各个历史对象进行聚类获得的。
目标对象关联的历史记录包括目标对象关联的历史输入记录和历史点击记录。本申请实施例中,各个候选类簇,是基于各个历史对象各自关联的候选记录之间的相似度,对各个历史对象进行聚类得到的,每个候选类簇中包含相应的各个历史对象的标识信息及各个历史对象各自对应的候选记录。
根据目标对象的标识信息,获得设定时间段内,目标对象关联的各个历史记录的出现次数,选取出现次数达到预设的次数门限的,至少一个历史记录。确定选取出的至少一个历史记录,分别与各个候选类簇各自包含的各个候选记录的相似度。从各个候选类簇中,选取出相似度最大的类簇。
其中,在获得各个候选类簇时,可以根据协同过滤算法获得各个历史对象各自关联的候选记录之间的相似度,进而根据各个相似度对各个历史对象进行聚类。在从各个候选类簇中选取出满足相似度条件的类簇时,可以根据协同过滤算法获得选取出的至少一个历史记录,分别与各个候选类簇各自包含的各个候选记录的相似度,进而选取出相似度最大的类簇。
本申请实施例中,采用协同过滤算法,利用历史记录之间的相似度,计算用户之间的相似度,从而实现对于用户的聚类。在基于item的协同过滤上,相似性是通过user-item矩阵获得的。这个时候,我们不需要提取一些具体的特征。我们只需要计算一下相似性,例如算一下两个向量的余弦值就可以得到两个item间的相似性。
以用户为基础(User-based)的协同过滤:用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,所以称之为以用户为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。
1.收集用户信息:
收集可以代表用户兴趣的信息。一般的网站系统使用评分的方式或是给予评价,这种方式被称为“主动评分”。另外一种是“被动评分”,是根据用户的行为模式由系统代替用户完成评价,不需要用户直接打分或输入评价数据。电子商务网站在被动评分的数据获取上有其优势,用户购买的商品记录是相当有用的数据。
2.最近邻搜索(Nearest neighbor search,NNS):
以用户为基础(User-based)的协同过滤的出发点是与用户兴趣爱好相同的另一组用户,就是计算两个用户的相似度。例如:查找n个和A有相似兴趣用户,把他们对M的评分作为A对M的评分预测。一般会根据数据的不同选择不同的算法,较多使用的相似度算法有Pearson Correlation Coefficient、Cosine-based Similarity、Adjusted CosineSimilarity。
3.产生推荐结果:
有了最近邻集合,就可以对目标用户的兴趣进行预测,产生推荐结果。依据推荐目的的不同进行不同形式的推荐,较常见的推荐结果有Top-N推荐和关系推荐。Top-N推荐是针对个体用户产生,对每个人产生不一样的结果,例如:通过对A用户的最近邻用户进行统计,选择出现频率高且在A用户的评分项目中不存在的,作为推荐结果。关系推荐是对最近邻用户的记录进行关系规则(association rules)挖掘。
计算相似度的方式:
1.皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-momentcorrelation coefficient),是一种线性相关系数,是最常用的一种相关系数。记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。
2、余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
3、调整余弦相似度——Adjusted Cosine Similarity。在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。
S61:基于选取出的类簇对应的类簇标签,获得目标对象对应的目标画像特征。
因为目标画像特征的本质是一种抽象出来的标签化用户模型,可以用性别维度、年龄维度、性格维度、兴趣维度、地域维度等作为目标画像特征,也可以将选取出的类簇对应的类簇标签作为目标画像特征。选取出的类簇对应的类簇标签可以是选取出的类簇对应的类别标识,或者是选取出的类簇对应的类簇包含的至少一个历史对象各自对应的属性维度标签。类别标识用于唯一区分选取出的类簇,例如:类别标识可以是选取出的类簇的类别号。
基于选取出的类簇对应的类别标识,获得目标对象对应的目标画像特征。可以是直接将选取出的类簇对应的类别标识,作为目标对象对应的目标画像特征。
如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,分别将至少一个样本属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。则也需要先将选取出的类簇对应的类别标识转换为相应的样本特征字符串,然后将样本特征字符串,作为目标对象对应的目标画像特征。本申请实施例中,选取出的类簇对应的类别标识作为一个属性维度对应的样本属性维度标签。需要说明的是,训练下文预测模型的过程中的属性维度标签和样本特征字符串的对应转换关系,与预测下文信息的过程中的属性维度标签和样本特征字符串的对应转换关系相同。
可选的,当目标对象关联的历史记录为历史输入记录时,参阅图18所示,为获得目标对象对应的目标画像特征的流程图。
S70:基于目标对象关联的历史输入记录,从各个候选输入信息类簇中选取出目标输入信息类簇;每个候选输入信息类簇,是基于各个历史对象各自关联的历史输入记录之间的输入相似度,对各个历史对象进行聚类获得的。
本申请实施例中,各个候选输入信息类簇,是基于各个历史对象各自关联的历史输入记录之间的输入相似度,对各个历史对象进行聚类得到的,每个候选输入信息类簇中包含相应的各个历史对象的标识信息及其各自对应的历史输入记录。
根据目标对象的标识信息,获得设定时间段内,目标对象关联的历史输入记录中,各个属性维度短语的第一出现次数,选取第一出现次数达到预设的第二输入信息次数门限的,至少一个属性维度短语。确定至少一个属性维度短语,分别与各个候选输入信息类簇各自包含的各个属性维度短语的输入相似度。从各个候选输入信息类簇中,选取出输入相似度最大的目标输入信息类簇。
其中,在获得各个候选输入信息类簇时,可以根据协同过滤算法获得各个历史对象输入的各个属性维度短语之间的输入相似度,进而根据各个输入相似度对各个历史对象进行聚类。在获得目标输入信息类簇时,可以根据协同过滤算法获得根据第一出现次数,选取出的至少一个属性维度短语,分别与各个候选输入信息类簇各自包含的各个属性维度短语的输入相似度,进而选取出输入相似度最大的目标输入信息类簇。
例如:参阅图19所示,为本申请实施例中获得目标输入信息类簇举例示意图。获得的各个候选输入信息类簇分别是候选输入信息类簇1,候选输入信息类簇2和候选输入信息类簇3。根据协同过滤算法获得选取出的属性维度短语与候选输入信息类簇1包含的各个属性维度短语的输入相似度为0.8,获得选取出的属性维度短语与候选输入信息类簇2包含的各个属性维度短语的输入相似度为0.7,获得选取出的属性维度短语与候选输入信息类簇3包含的各个属性维度短语的输入相似度为0.5。与第属性维度短语的输入相似度最大的候选属性维度短语类簇为候选输入信息类簇1,因此将候选输入信息类簇1作为目标输入信息类簇。
需要说明的是,如果选取出的属性维度短语为多个,则获得各个选取出的属性维度短语分别与候选输入信息类簇1,候选输入信息类簇2和候选输入信息类簇3包含的各个属性维度短语的输入相似度,然后选取出获得的各个输入相似度中的最大值,将各个输入相似度中的最大值对应的候选输入信息类簇作为目标输入信息类簇。
例如:参阅图20所示,为本申请实施例中获得目标输入信息类簇举例示意图。选取出两个属性维度短语,分别为属性维度短语A和属性维度短语B。根据协同过滤算法获得属性维度短语A与候选输入信息类簇1包含的各个属性维度短语的输入相似度为0.8,属性维度短语B与候选输入信息类簇1包含的各个属性维度短语的输入相似度为0.7。获得属性维度短语A与候选输入信息类簇2包含的各个属性维度短语的输入相似度为0.7,获得属性维度短语B与候选输入信息类簇2包含的各个属性维度短语的输入相似度为0.75。获得属性维度短语A与候选输入信息类簇3包含的各个属性维度短语的输入相似度为0.5,获得属性维度短语B与候选输入信息类簇3包含的各个属性维度短语的输入相似度为0.4。则确定各个输入相似度中的最大值为0.8,各个输入相似度中的最大值为0.8对应的候选输入信息类簇为候选输入信息类簇1,因此将候选输入信息类簇1作为目标输入信息类簇。
S71:基于目标输入信息类簇对应的输入类别标识,获得目标对象对应的目标画像特征。
因为目标画像特征的本质是一种抽象出来的标签化用户模型,可以用性别维度、年龄维度、性格维度、兴趣维度、地域维度等作为目标画像特征,也可以将目标输入信息类簇对应的输入类别标识作为目标画像特征。输入类别标识用于唯一区分目标输入信息类簇,例如:输入类别标识可以是目标输入信息类簇的类别号。如获得三个候选输入信息类簇,三个候选输入信息类簇的类别号分别是类别1、类别2和类别3。如果选取类别号是类别1的候选输入信息类簇为目标输入信息类簇,则目标输入信息类簇的类别号为1。目标输入信息类簇对应的输入类别标识即为类别1。
基于目标输入信息类簇对应的输入类别标识,获得目标对象对应的目标画像特征。可以是直接将选取出的目标输入信息类簇对应的输入类别标识,作为目标对象对应的目标画像特征。
如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,分别将至少一个样本属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。则也需要先将选取出的目标输入信息类簇对应的输入类别标识转换为相应的样本特征字符串,然后将样本特征字符串,作为目标对象对应的目标画像特征。本申请实施例中,选取出的目标输入信息类簇对应的输入类别标识作为一个属性维度对应的样本属性维度标签。需要说明的是,训练下文预测模型的过程中的属性维度标签和样本特征字符串的对应转换关系,与预测下文信息的过程中的属性维度标签和样本特征字符串的对应转换关系相同。
可选的,当目标对象关联的历史记录为历史点击记录时,参阅图21所示,为获得目标对象对应的目标画像特征的流程图。
S80:基于目标对象从候选点击信息列表中,点击的各个历史点击信息,从各个候选点击信息类簇中选取出目标点击信息类簇;每个候选点击信息类簇,是基于各个历史对象点击的各个历史点击信息之间的点击相似度,对各个历史对象进行聚类获得的。
本申请实施例中,各个候选点击信息类簇,是基于各个历史对象点击的各个历史点击信息之间的点击相似度,对各个历史对象进行聚类得到的,每个候选点击信息类簇中包含相应的各个历史对象的标识信息及其各自对应的各个历史点击信息。
根据目标对象的标识信息,获得设定时间段内,目标对象从候选点击信息列表中,点击的至少一个历史点击信息各自对应的第二出现次数,选取第二出现次数达到预设的第二点击信息次数门限的,至少一个历史点击信息。确定选取出的至少一个历史点击信息,分别与各个候选点击信息类簇各自包含的各个历史点击信息的点击相似度。从各个候选点击信息类簇中,选取出点击相似度最大的目标点击信息类簇。
其中,在获得各个候选点击信息类簇时,可以根据协同过滤算法获得各个历史对象点击的各个历史点击信息之间的点击相似度,进而根据各个点击相似度对各个历史对象进行聚类。在获得目标点击信息类簇时,可以根据协同过滤算法获得选取出的至少一个历史点击信息,分别与各个候选点击信息类簇各自包含的各个历史点击信息的点击相似度,进而选取出点击相似度最大的目标点击信息类簇。
例如:参阅图22所示,为本申请实施例中获得目标点击信息类簇举例示意图。获得的各个候选点击信息类簇分别是候选点击信息类簇1,候选点击信息类簇2和候选点击信息类簇3。根据协同过滤算法获得选取出的历史点击信息与候选点击信息类簇1包含的各个历史点击信息的点击相似度为0.85,获得选取出的历史点击信息与候选点击信息类簇2包含的各个历史点击信息的点击相似度为0.8,获得选取出的历史点击信息与候选点击信息类簇3包含的各个历史点击信息的点击相似度为0.5。与选取出的历史点击信息的点击相似度最大的候选点击信息类簇为候选点击信息类簇1,因此将候选点击信息类簇1作为目标点击信息类簇。
需要说明的是,如果选取出的历史点击信息为多个,则获得选取出的各个历史点击信息分别与候选点击信息类簇1,候选点击信息类簇2和候选点击信息类簇3包含的各个历史点击信息的点击相似度,然后选取出获得的各个点击相似度中的最大值,将各个点击相似度中的最大值对应的候选点击信息类簇作为目标点击信息类簇。
例如:参阅图23所示,为本申请实施例中获得目标点击信息类簇举例示意图。选取出两个历史点击信息,分别为历史点击信息A和历史点击信息B。根据协同过滤算法获得历史点击信息A与候选点击信息类簇1包含的各个历史点击信息的点击相似度为0.9,历史点击信息B与候选点击信息类簇1包含的各个历史点击信息的点击相似度为0.85。获得历史点击信息A与候选点击信息类簇2包含的各个历史点击信息的点击相似度为0.75,获得历史点击信息B与候选点击信息类簇2包含的各个历史点击信息的点击相似度为0.8。获得历史点击信息A与候选点击信息类簇3包含的各个历史点击信息的点击相似度为0.5,获得历史点击信息B与候选点击信息类簇3包含的各个历史点击信息的点击相似度为0.45。则确定各个点击相似度中的最大值为0.9,各个点击相似度中的最大值为0.9对应的候选点击信息类簇为候选点击信息类簇1,因此将候选点击信息类簇1作为目标点击信息类簇。
S81:基于目标点击信息类簇对应的点击类别标识,获得目标对象对应的目标画像特征。
因为目标画像特征的本质是一种抽象出来的标签化用户模型,可以用性别维度、年龄维度、性格维度、兴趣维度、地域维度等作为目标画像特征,也可以将目标点击信息类簇对应的点击类别标识作为目标画像特征。点击类别标识用于唯一区分目标点击信息类簇。
可选的,先将选取出的目标点击信息类簇对应的点击类别标识转换为相应的样本特征字符串,然后将样本特征字符串,作为目标对象对应的目标画像特征。本申请实施例中,选取出的目标点击信息类簇对应的点击类别标识作为一个属性维度对应的样本属性维度标签。
可选的,基于目标对象关联的历史记录,与各个候选类簇中的候选记录各自对应的相似度,从各个候选类簇中选取出满足相似度条件的类簇之后,开可以获得选取出的类簇包含的至少一个历史对象各自对应的属性维度标签,基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
可选的,当目标对象关联的历史记录为历史输入记录时,基于目标对象关联的历史输入记录,与各个候选输入信息类簇中的历史输入记录各自对应的输入相似度,从各个候选输入信息类簇中选取出满足输入相似度条件的目标输入信息类簇类簇之后,获得目标输入信息类簇包含的至少一个历史对象对应的属性维度标签,基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
每个候选输入信息类簇中包含相应的各个历史对象的标识信息及其各自对应的各个历史输入信息,选取出目标输入信息类簇之后,可以获得目标输入信息类簇包含的至少一个历史对象对应的属性维度标签,然后基于至少一个属性维度标签,获得目标对象对应的目标画像特征。其中,目标输入信息类簇一般包含多个历史对象,一些情况下能够获得部分历史对象对应的至少一个属性维度标签,然后根据部分历史对象对应的至少一个属性维度标签,获得目标对象对应的目标画像特征。例如:根据任意一个历史对象对应的至少一个属性维度标签,获得目标对象对应的目标画像特征。另外,也可以统计目标输入信息类簇中,各个历史对象对应的至少一个属性维度标签出现的次数,根据出现次数最多的属性维度标签,获得目标对象对应的目标画像特征。
例如:参阅图24所示,为本申请实施中获得目标画像特征举例示意图。目标输入信息类簇包含5个历史对象,分别为历史对象1、历史对象2、历史对象3、历史对象4和历史对象5。历史对象1对应的属性维度标签为“性别男”,历史对象2对应的属性维度标签为“性别男”,历史对象3对应的属性维度标签为“性别男”,历史对象4对应的属性维度标签为“性别女”,未能获得历史对象5对应的属性维度标签。目标输入信息类簇中,属性维度标签“性别男”出现的次数为3次,属性维度标签“性别女”出现的次数为1次,因此基于属性维度标签“性别男”,获得目标对象对应的目标画像特征。
可选的,基于至少一个属性维度标签,也需要先将至少一个属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得目标对象对应的目标画像特征。需要说明的是,训练下文预测模型的过程中的属性维度标签和样本特征字符串的对应转换关系,与预测下文信息的过程中的属性维度标签和样本特征字符串的对应转换关系相同。
可选的,如果在训练下文预测模型时,基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合,基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。则在进行下文信息预测时,将至少一个属性维度标签转换为特征字符串之后,基于至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合,基于至少一个特征字符串集合,获得目标对象对应的目标画像特征。其中,可以直接将至少一个特征字符串集合,作为目标对象对应的目标画像特征。
可选的,当目标对象关联的历史记录为历史点击记录时,基于目标对象关联的历史点击记录,与各个候选点击信息类簇中的历史点击记录各自对应的点击相似度,从各个候选点击信息类簇中选取出满足点击相似度条件的目标点击信息类簇类簇之后,获得目标点击信息类簇包含的至少一个历史对象对应的属性维度标签,基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
每个候选点击信息类簇中包含相应的各个历史对象的标识信息及其各自对应的各个历史点击信息,选取出目标点击信息类簇之后,可以获得目标点击信息类簇包含的至少一个历史对象对应的属性维度标签,然后基于至少一个属性维度标签,获得目标对象对应的目标画像特征。其中,目标点击信息类簇一般包含多个历史对象,一些情况下能够获得部分历史对象对应的至少一个属性维度标签,然后根据部分历史对象对应的至少一个属性维度标签,获得目标对象对应的目标画像特征。例如:根据任意一个历史对象对应的至少一个属性维度标签,获得目标对象对应的目标画像特征。另外,也可以统计目标点击信息类簇中,各个历史对象对应的至少一个属性维度标签出现的次数,根据出现次数最多的属性维度标签,获得目标对象对应的目标画像特征。
例如:目标点击信息类簇包含5个历史对象,分别为历史对象1、历史对象2、历史对象3、历史对象4和历史对象5。历史对象1对应的属性维度标签为“性别女”,历史对象2对应的属性维度标签为“性别女”,历史对象3对应的属性维度标签为“性别女”,历史对象4对应的属性维度标签为“性别男”,未能获得历史对象5对应的属性维度标签。目标点击信息类簇中,属性维度标签“性别女”出现的次数为3次,属性维度标签“性别男”出现的次数为1次,因此基于属性维度标签“性别女”,获得目标对象对应的目标画像特征。
如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,然后基于样本属性维度标签,获得样本对象对应的样本画像特征。则直接基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
如果在训练下文预测模型时,针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签,分别将至少一个样本属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。则基于至少一个属性维度标签,也需要先将至少一个属性维度标签转换为相应的样本特征字符串,然后基于至少一个样本特征字符串,获得目标对象对应的目标画像特征。需要说明的是,训练下文预测模型的过程中的属性维度标签和样本特征字符串的对应转换关系,与预测下文信息的过程中的属性维度标签和样本特征字符串的对应转换关系相同。
可选的,如果在训练下文预测模型时,基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合,基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。则在进行下文信息预测时,将至少一个属性维度标签转换为特征字符串之后,基于至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合,基于至少一个特征字符串集合,获得目标对象对应的目标画像特征。其中,可以直接将至少一个特征字符串集合,作为目标对象对应的目标画像特征。
可选的,在一些情况下,目标对象对应的目标画像特征仅包含一个属性维度标签。例如:仅包含性别维度特征,或者,仅包含年龄维度特征,或者,仅包含性格维度特征,或者,仅包含兴趣维度特征,或者,仅包含地域维度特征。在这些情况下,为了提高下文信息预测的效率和准确性,可以针对每个属性维度训练对应的下文预测模型,分别得到性别维度对应的下文预测模型,年龄维度对应的下文预测模型,性格维度对应的下文预测模型,兴趣维度对应的下文预测模型,地域维度对应的下文预测模型。
在训练每个属性维度对应的下文预测模型时,获得样本信息组集合,其中,每个样本信息组包含:相应的样本对象对应的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息;其中,样本画像特征包含一个属性维度标签。分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数,基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率并进行关联存储。
针对每个属性维度训练对应的下文预测模型,之后在进行下文信息预测时,如果接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征为一个属性维度标签,基于上文信息和目标画像特征获得相应的目标信息组。获得目标画像特征对应的一个属性维度,从已训练的各个候选下文预测模型中,选取出与属性维度对应的下文预测模型,将目标信息组输入至选取出的下文预测模型。
例如:参阅图25所示,为本申请实施中选取下文预测模型举例示意图。已训练的各个候选下文预测模型分别是性别维度对应的候选下文预测模型1,年龄维度对应的候选下文预测模型2,性格维度对应的候选下文预测模型3,兴趣维度对应的候选下文预测模型4,地域维度对应的候选下文预测模型5。如果获得目标画像特征对应的一个属性维度为兴趣维度,则从已训练的各个候选下文预测模型中,选取出与属性维度对应的下文预测模型为兴趣维度对应的候选下文预测模型4,将目标信息组输入至选取出的下文预测模型。
本申请实施例中,对于仅包含一个属性维度的目标画像特征,将包含目标对象输入的上文信息和目标画像特征的目标信息组,输入与属性维度对应的下文预测模型中,能够避免其它属性维度标签对于下文信息预测的干扰,从而提高下文信息预测的效率和准确性。
可选的,参阅图26所示,为本申请实施例中预测下文信息的总体流程示意图。本申请实施例中,预测下文信息的总体流程包括:
S100:获得各个样本对象各自对应的样本画像特征。
基于各个样本对象触发的各个历史输入信息或,各个历史点击信息,获得各个样本对象各自对应的样本画像特征。
S101:基于各个样本对象各自对应的样本画像特征,训练下文预测模型。
每个样本对象对应的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息构成一个样本信息组。各个样本对象各自对应的样本信息组共同构成样本信息组集合。基于样本信息组集合完成对下文预测模型的训练。
下文预测模型可以是自然语言处理N-gram模型。N-gram模型是一种统计语言模型,用来根据前(n-1)个词句来预测第n个词句。在输入应用领域,这里的前n-1个词句指目标对象已经完成的上文信息,而第n个词句是目标对象将要输入的内容,预测结果作为候选提供给目标对象选择。
举例说明,N-gram模型的思想如下:给定一串字母,如”forex”,下一个最大可能性出现的字母是什么。从训练语料数据中,可以通过极大似然估计的方法,得到N个概率分布:是a的概率是0.4,是b的概率是0.0001等,即可以利用大规模语料,通过统计的方法获得条件概率p(a|forex)=0.4,p(b|forex)=0.0001等。在输入预测领域,通常通过统计大规模的用户语料,可以获得词粒度与句粒度的N-gram模型,例如p(谢谢|好的,)=0.3,p(疑似地上霜|床前明月光)=0.9。获得这样的语言模型后,只需要将其存储为键值对(Key-value)对或者trie树形式,目标对象输入过程中,将上文信息作为Key,在语言模型中匹配获得value后,便可以根据条件概率的大小,选择topN个候选提供给用户。
S102:基于训练得到的下文预测模型,进行下文信息预测。
接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组。将目标信息组输入已训练的下文预测模型,基于下文预测模型的输出结果获得上文信息的至少一个目标下文信息。
基于相同的发明构思,本申请实施例还提供一种预测下文信息的装置。参阅图27所示,其为本申请实施例中所列举的一种预测下文信息的装置的结构示意图,可以包括:
第一获得模块4000,用于接收到目标对象输入的上文信息时,获得目标对象对应的目标画像特征,并基于上文信息和目标画像特征获得相应的目标信息组;
第二获得模块4010,用于将目标信息组输入已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;
第三获得模块4020,用于基于至少一个候选下文信息,及其各自对应的候选条件概率,获得上文信息的至少一个目标下文信息。
可选的,获得目标对象对应的目标画像特征时,第一获得模块4000具体用于:
基于目标对象关联的历史输入记录,获得目标对象对应的目标画像特征;或,
基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征。
可选的,基于目标对象关联的历史输入记录,获得目标对象对应的目标画像特征,第一获得模块4000具体用于:
根据目标对象的标识信息,获得目标对象关联的历史输入记录中,至少一个属性维度短语各自对应的第一出现次数;
选取第一出现次数达到预设的第一输入信息次数门限的,至少一个属性维度短语;
根据选取出的至少一个属性维度短语,以及各个属性维度短语各自与属性维度标签的映射关系,获得选取出的至少一个属性维度短语各自对应的属性维度标签;
基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
可选的,基于目标对象关联的历史点击记录,获得目标对象对应的目标画像特征时,第一获得模块4000具体用于:
根据目标对象的标识信息,获得目标对象关联的历史点击记录中,目标对象从候选点击信息列表中,点击的至少一个历史点击信息各自对应的第二出现次数;
选取第二出现次数达到预设的第一点击信息次数门限的,至少一个历史点击信息;
根据选取出的至少一个历史点击信息,以及各个点击信息各自与属性维度标签的映射关系,获得选取出的至少一个历史点击信息各自对应的属性维度标签;
基于至少一个属性维度标签,获得目标对象对应的目标画像特征。
可选的,获得目标对象对应的目标画像特征时,第一获得模块4000具体用于:
基于目标对象关联的历史记录,结合协同过滤方式,确定历史记录与各个候选类簇中的候选记录各自对应的相似度,从各个候选类簇中选取出满足相似度条件的类簇;其中,每个候选类簇,是基于各个历史对象各自关联的候选记录之间的相似度,对各个历史对象进行聚类获得的;
基于选取出的类簇对应的类簇标签,获得目标对象对应的目标画像特征。
可选的,基于至少一个属性维度标签,获得目标对象对应的目标画像特征时,第一获得模块4000具体用于:
将至少一个属性维度标签转换为特征字符串;
基于至少一个特征字符串,获得目标对象对应的目标画像特征。
可选的,基于至少一个特征字符串,获得目标对象对应的目标画像特征时,第一获得模块4000具体用于:
基于至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合;
基于至少一个特征字符串集合,获得目标对象对应的目标画像特征。
可选的,将目标信息组输入已训练的下文预测模型时,第二获得模块4010具体用于:
获得目标画像特征对应的一个属性维度,从已训练的各个候选下文预测模型中,选取出与属性维度对应的已训练的下文预测模型;
将目标信息组输入至选取出的已训练的下文预测模型。
可选的,基于至少一个候选下文信息,及其各自对应的候选条件概率,获得上文信息的至少一个目标下文信息时,第二获得模块4010具体用于:
从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率;
将至少一个目标条件概率各自对应的候选下文信息,作为上文信息的至少一个目标下文信息。
可选的,将目标信息组输入已训练的下文预测模型,获得目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率时,第二获得模块4010具体用于:
基于已训练的下文预测模型,获得与目标信息组相匹配的样本信息组;
将样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率,作为目标信息组对应的至少一个候选下文信息及其各自对应的候选条件概率。
可选的,从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率时,第三获得模块4020具体用于:
从至少一个候选条件概率中,选取出达到概率门限值的至少一个目标条件概率;或者,
从至少一个候选条件概率中,按照候选条件概率从大到小的顺序,选取出预设数量的至少一个目标条件概率。
可选的,本申请实施例中,还提供了一种下文预测模型的训练装置,参阅图28所示,为本申请实施例中路线推荐模型的训练装置的结构示意图:
第四获得模块4100,用于获得样本信息组集合,其中,每个样本信息组包含:相应的样本对象对应的样本画像特征,以及设定历史时间段内,样本对象输入的一个样本上文信息和选取的一个样本下文信息;
第一确定模块4110,用于分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数;
第二确定模块4120,用于基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率并进行关联存储。
可选的,基于获得的各个历史关联出现次数,确定各个样本信息组中的样本下文信息的候选条件概率时,第二确定模块4120具体用于:
分别确定样本上文信息和样本画像特征均相同的样本信息组,在样本信息组集合中的出现总次数;
分别根据各个历史关联出现次数与相应的出现总次数的比值,确定各个样本信息组中的样本下文信息对应的候选条件概率。
可选的,获得每个样本对象对应的样本画像特征时,第四获得模块4100还用于:
针对样本对象,获得至少一个属性维度各自对应的样本属性维度标签;其中,属性维度包含性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种;
分别将至少一个样本属性维度标签转换为相应的样本特征字符串;
基于至少一个样本特征字符串,获得样本对象对应的样本画像特征。
可选的,基于至少一个样本特征字符串,获得样本对象对应的样本画像特征时,第四获得模块4100具体用于:
基于至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合;
基于至少一个样本特征字符串集合,获得样本对象对应的样本画像特征。
在介绍了本申请示例性实施方式的预测下文信息的方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,参阅图29所示,其为应用本申请实施例的一种电子设备的一个硬件组成结构示意图,电子设备4200可以至少包括处理器4201、以及存储器4202。其中,存储器4202存储有程序代码,当程序代码被处理器4201执行时,使得处理器4201执行上述任意一种预测下文信息的方法的步骤。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的预测下文信息的步骤。
下面参照图30来描述根据本申请的这种实施方式的计算装置4300。如图30所示,计算装置4300以通用计算装置的形式表现。计算装置4300的组件可以包括但不限于:上述至少一个处理单元4301、上述至少一个存储单元4302、连接不同系统组件(包括存储单元4302和处理单元4301)的总线4303。
总线4303表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元4302可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)43021和/或高速缓存存储单元43022,还可以进一步包括只读存储器(ROM)43023。
存储单元4302还可以包括具有一组(至少一个)程序模块43024的程序/实用工具43025,这样的程序模块43024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置4300也可以与一个或多个外部设备4304(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置4300交互的设备通信,和/或与使得该计算装置4300能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口4305进行。并且,计算装置4300还可以通过网络适配器4306与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器4306通过总线4303与用于计算装置4300的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置4300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
与上述方法实施例基于同一发明构思,本申请提供的预测下文信息的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的预测下文信息的方法中的步骤,例如,电子设备可以执行如图10中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (19)

1.一种预测下文信息的方法,其特征在于,包括:
接收到目标对象输入的上文信息时,获得所述目标对象对应的目标画像特征,并基于所述上文信息和所述目标画像特征获得相应的目标信息组;
将所述目标信息组输入已训练的下文预测模型,获得所述目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;
基于所述至少一个候选下文信息,及其各自对应的候选条件概率,获得所述上文信息的至少一个目标下文信息。
2.如权利要求1所述的方法,其特征在于,所述获得所述目标对象对应的目标画像特征,具体包括:
基于所述目标对象关联的历史输入记录,获得所述目标对象对应的目标画像特征;或,
基于所述目标对象关联的历史点击记录,获得所述目标对象对应的目标画像特征。
3.如权利要求2所述的方法,其特征在于,所述基于所述目标对象关联的历史输入记录,获得所述目标对象对应的目标画像特征,具体包括:
根据所述目标对象的标识信息,获得所述目标对象关联的历史输入记录中,至少一个属性维度短语各自对应的第一出现次数;
选取所述第一出现次数达到预设的第一输入信息次数门限的,至少一个属性维度短语;
根据选取出的所述至少一个属性维度短语,以及各个属性维度短语各自与属性维度标签的映射关系,获得选取出的所述至少一个属性维度短语各自对应的属性维度标签;
基于至少一个属性维度标签,获得所述目标对象对应的目标画像特征。
4.如权利要求2所述的方法,其特征在于,所述基于所述目标对象关联的历史点击记录,获得所述目标对象对应的目标画像特征,具体包括:
根据所述目标对象的标识信息,获得所述目标对象关联的历史点击记录中,所述目标对象从候选点击信息列表中,点击的至少一个历史点击信息各自对应的第二出现次数;
选取所述第二出现次数达到预设的第一点击信息次数门限的,至少一个历史点击信息;
根据选取出的所述至少一个历史点击信息,以及各个点击信息各自与属性维度标签的映射关系,获得选取出的所述至少一个历史点击信息各自对应的属性维度标签;
基于至少一个属性维度标签,获得所述目标对象对应的目标画像特征。
5.如权利要求1所述的方法,其特征在于,所述获得所述目标对象对应的目标画像特征,具体包括:
基于所述目标对象关联的历史记录,结合协同过滤方式,确定所述历史记录与各个候选类簇中的候选记录各自对应的相似度,从所述各个候选类簇中选取出满足相似度条件的类簇;其中,每个候选类簇,是基于各个历史对象各自关联的候选记录之间的相似度,对所述各个历史对象进行聚类获得的;
基于选取出的所述类簇对应的类簇标签,获得所述目标对象对应的目标画像特征。
6.如权利要求3或4所述的方法,其特征在于,所述基于至少一个属性维度标签,获得所述目标对象对应的目标画像特征,具体包括:
将所述至少一个属性维度标签转换为特征字符串;
基于至少一个特征字符串,获得所述目标对象对应的目标画像特征。
7.如权利要求6所述的方法,其特征在于,所述基于至少一个特征字符串,获得所述目标对象对应的目标画像特征,具体包括:
基于所述至少一个特征字符串,选取出符合设定数量阈值的至少一个特征字符串集合;
基于所述至少一个特征字符串集合,获得所述目标对象对应的目标画像特征。
8.如权利要求1所述的方法,其特征在于,所述将所述目标信息组输入已训练的下文预测模型,具体包括:
获得所述目标画像特征对应的一个属性维度,从已训练的各个候选下文预测模型中,选取出与所述属性维度对应的已训练的下文预测模型;
将所述目标信息组输入已训练的下文预测模型。
9.如权利要求1或8所述的方法,其特征在于,所述基于所述至少一个候选下文信息,及其各自对应的候选条件概率,获得所述上文信息的至少一个目标下文信息,具体包括:
从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率;
将所述至少一个目标条件概率各自对应的候选下文信息,作为所述上文信息的至少一个目标下文信息。
10.如权利要求1所述的方法,其特征在于,所述将所述目标信息组输入已训练的下文预测模型,获得所述目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率,具体包括:
基于所述已训练的下文预测模型,获得与所述目标信息组相匹配的样本信息组;
将所述样本信息组对应的至少一个样本下文信息及其各自对应的候选条件概率,作为所述目标信息组对应的至少一个候选下文信息及其各自对应的候选条件概率。
11.如权利要求9所述的方法,其特征在于,所述下文预测模型是按照以下方式训练获得的:
获得样本信息组集合,其中,每个样本信息组包含:相应的样本对象对应的样本画像特征,以及设定历史时间段内,所述样本对象输入的一个样本上文信息和选取的一个样本下文信息;
分别确定各个样本信息组中的样本下文信息,与相应的样本信息组的历史关联出现次数;
基于获得的各个历史关联出现次数,确定所述各个样本信息组中的样本下文信息的候选条件概率并进行关联存储。
12.如权利要求11所述的方法,其特征在于,所述基于获得的各个历史关联出现次数,确定所述各个样本信息组中的样本下文信息的候选条件概率,具体包括:
分别确定样本上文信息和样本画像特征均相同的样本信息组,在所述样本信息组集合中的出现总次数;
分别根据所述各个历史关联出现次数与相应的出现总次数的比值,确定所述各个样本信息组中的样本下文信息对应的候选条件概率。
13.如权利要求11所述的方法,其特征在于,每个样本对象对应的样本画像特征,是采用以下方式确定的:
针对所述样本对象,获得至少一个属性维度各自对应的样本属性维度标签;其中,所述属性维度包含性别维度、年龄维度、性格维度、兴趣维度、地域维度中的至少一种;
分别将至少一个样本属性维度标签转换为相应的样本特征字符串;
基于至少一个样本特征字符串,获得所述样本对象对应的样本画像特征。
14.如权利要求13所述的方法,其特征在于,所述基于至少一个样本特征字符串,获得所述样本对象对应的样本画像特征,具体包括:
基于所述至少一个样本特征字符串,选取出符合设定数量阈值的至少一个样本特征字符串集合;
基于所述至少一个样本特征字符串集合,获得所述样本对象对应的样本画像特征。
15.如权利要求9所述的方法,其特征在于,所述从至少一个候选条件概率中,选取出满足概率条件的至少一个目标条件概率,具体包括:
从至少一个候选条件概率中,选取出达到概率门限值的至少一个目标条件概率;或者,
从至少一个候选条件概率中,按照候选条件概率从大到小的顺序,选取出预设数量的至少一个目标条件概率。
16.一种预测下文信息的装置,其特征在于,包括:
第一获得模块,用于接收到目标对象输入的上文信息时,获得所述目标对象对应的目标画像特征,并基于所述上文信息和所述目标画像特征获得相应的目标信息组;
第二获得模块,用于将所述目标信息组输入已训练的下文预测模型,获得所述目标信息组对应的至少一个候选下文信息,及其各自对应的候选条件概率;
第三获得模块,用于基于所述至少一个候选下文信息,及其各自对应的候选条件概率,获得所述上文信息的至少一个目标下文信息。
17.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1至15中任一所述方法的步骤。
18.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1至15中任一所述方法的步骤。
19.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至15中任一所述方法的步骤。
CN202111465099.9A 2021-12-03 2021-12-03 一种预测下文信息的方法、装置、电子设备及存储介质 Pending CN116226320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111465099.9A CN116226320A (zh) 2021-12-03 2021-12-03 一种预测下文信息的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111465099.9A CN116226320A (zh) 2021-12-03 2021-12-03 一种预测下文信息的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116226320A true CN116226320A (zh) 2023-06-06

Family

ID=86568332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111465099.9A Pending CN116226320A (zh) 2021-12-03 2021-12-03 一种预测下文信息的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116226320A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564538A (zh) * 2023-07-05 2023-08-08 肇庆市高要区人民医院 一种基于大数据的医院就医信息实时查询方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564538A (zh) * 2023-07-05 2023-08-08 肇庆市高要区人民医院 一种基于大数据的医院就医信息实时查询方法及系统
CN116564538B (zh) * 2023-07-05 2023-12-19 肇庆市高要区人民医院 一种基于大数据的医院就医信息实时查询方法及系统

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
Kulkarni et al. Babytalk: Understanding and generating simple image descriptions
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN112989038A (zh) 句子级用户画像生成方法、装置及存储介质
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
US20230306205A1 (en) System and method for personalized conversational agents travelling through space and time
Perez-Martin et al. A comprehensive review of the video-to-text problem
CN115714030A (zh) 一种基于疼痛感知和主动交互的医疗问答系统及方法
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
US20220147719A1 (en) Dialogue management
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
CN114491265B (zh) 一种经营性空间平台运营服务系统的构建方法
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Liu et al. Personalized Recommender System for Children's Book Recommendation with A Realtime Interactive Robot
Ribeiro et al. UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing.
Tian et al. Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge
CN112257517A (zh) 一种基于景点聚类和群体情感识别的旅游景点推荐系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40087301

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination