CN113468235B - 信息获取方法、装置、服务器及存储介质 - Google Patents
信息获取方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN113468235B CN113468235B CN202110601416.9A CN202110601416A CN113468235B CN 113468235 B CN113468235 B CN 113468235B CN 202110601416 A CN202110601416 A CN 202110601416A CN 113468235 B CN113468235 B CN 113468235B
- Authority
- CN
- China
- Prior art keywords
- search
- information pair
- target
- data
- current day
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于信息获取方法、装置、服务器及存储介质,该方法包括:获取搜索信息对的当前天操作数据和搜索信息对的历史操作数据,所述搜索信息对包括:搜索词、搜索词对应的目标搜索结果,搜索信息对的历史操作数据在当前天之前的历史时间段内生成;至少基于当前天操作数据和历史操作数据,确定搜索信息对的特征,搜索信息对的特征包括:目标搜索结果的当前天操作频率数据、目标搜索结果的历史操作频率数据;利用置信度获取模型基于所述搜索信息对的特征,得到搜索信息对的当前天操作数据的置信度。
Description
技术领域
本公开涉及互联网领域,具体涉及信息获取方法、装置、服务器及存储介质。
背景技术
在相关分析例如搜索结果对用户的吸引程度的分析中,经常需要使用搜索结果在某一天的操作数据。还需要搜索结果在某一天的操作数据的置信度,以根据置信度确定搜索结果在某一天的操作数据是否可用。
在相关技术中,利用搜索结果在某一天的展示次数,获取搜索结果在某一天的操作数据的置信度。若搜索结果在某一天的展示次数大于阈值,则搜索结果在某一天的操作数据的置信度为1,若搜索结果在某一天的展示次数未大于阈值,则搜索结果在某一天的的操作数据的置信度为0。搜索结果在某一天的展示次数和搜索结果在某一天的操作数据的关联性较低,导致仅利用搜索结果在某一天的展示次数获取到的搜索结果在某一天的操作数据的置信度的准确性较低。
发明内容
本公开提供一种信息获取方法、装置、终端及存储介质,以至少解决相关技术中的获取到的操作数据的置信度的准确性较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种信息获取方法,包括:
获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据,所述搜索信息对包括:搜索词、所述搜索词对应的目标搜索结果,所述搜索信息对的历史操作数据在当前天之前的历史时间段内生成;
至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征,所述搜索信息对的特征包括:所述目标搜索结果的当前天操作频率数据、所述目标搜索结果的历史操作频率数据;
利用置信度获取模型基于所述搜索信息对的特征,得到所述搜索信息对的当前天操作数据的置信度。
根据本公开实施例的第二方面,提供一种信息获取装置,包括:
操作数据获取模块,被配置为获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据,所述搜索信息对包括:搜索词、所述搜索词对应的目标搜索结果,所述搜索信息对的历史操作数据在当前天之前的历史时间段内生成;
特征提取模块,被配置为至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征,所述搜索信息对的特征包括:所述目标搜索结果的当前天操作频率数据、所述目标搜索结果的历史操作频率数据;
置信度获取模块,被配置为利用置信度获取模型基于所述搜索信息对的特征,得到所述搜索信息对的当前天操作数据的置信度。
本公开的实施例提供的技术方案可以包括以下有益效果:
至少基于搜索信息对的当前天操作数据和搜索信息对的历史操作数据,确定搜索信息对的特征,搜索信息对的特征同时与搜索信息对的当前天操作数据、搜索信息对的历史操作数据相关联,搜索信息对的特征的丰富度较高并且与搜索信息对的当前天的操作数据的关联度较高。利用置信度获取模型基于丰富度较高并且与搜索信息对的当前天的操作数据的关联度较高的搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度,获取到的搜索信息对的当前天的操作数据的置信度的准确性较高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种信息获取方法的一个实施例的流程图;
图2是根据一示例性实施例示出的一种信息获取装置的结构框图;
图3是根据一示例性实施例示出的一种服务器的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的信息获取方法的一个实施例的流程图。该方法包括以下步骤:
步骤101,获取搜索信息对的当前天操作数据和搜索信息对的历史操作数据。
在本公开中,搜索信息对包括:搜索词、该搜索词对应的目标搜索结果。
搜索信息对中的目标搜索结果并不特指搜索信息对中的搜索词对应的某一个搜索结果。当需要确定由一个搜索词和该搜索词对应的一个搜索结果组成的搜索信息对在当前天的操作数据的置信度时,该搜索词对应的一个搜索结果作为一个目标搜索结果。当前天并不特指某一天,对于一天,当需要确定在该天产生的、搜索信息对的操作数据的置信度时,该天作为当前天。搜索信息对中的目标搜索结果可以为视频的截图。
在本公开中,搜索信息对的当前天操作数据可以包括:在当前天的相关时间段内生成的所有对应于搜索信息对中的目标搜索结果的操作记录。当前天的相关时间段的结束时刻可以为当前时刻即执行步骤101的时刻,当前天的相关时间段的起始时刻可以为当前天的0点时刻。在当前天的相关时间段内每一次利用搜索信息对中的搜索词进行搜索并且针对目标搜索结果进行点击操作,均会产生一个对应于该目标搜索结果的操作记录。
搜索信息对的历史操作数据可以在当前天之前的一个历史时间段内生成。例如,该历史时间段的结束时刻为当前天的前一天内的一个历史时刻例如23:59,该历史时间段的起始时刻可以为与该历史时间段的结束时刻的之间的时间间隔为预设时长的一个时刻。
搜索信息对的历史操作数据包括:在历史时间段内生成的所有对应于搜索信息对中的目标搜索结果的操作记录。在历史时间段内,每一次利用搜索信息对中的搜索词进行搜索并且针对搜索信息对中的目标搜索结果进行点击操作,均会产生一个对应于该目标搜索结果的操作记录。
步骤102,至少基于搜索信息对的当前天操作数据和搜索信息对的历史操作数据,确定搜索信息对的特征。
在本公开中,搜索信息对的特征包括:目标搜索结果的当前天操作频率数据、目标搜索结果的历史操作频率数据。操作频率数据为点击率(click through rate,简称ctr)。可以基于搜索信息对的当前天操作数据,确定目标搜索结果的当前天点击次数。目标搜索结果的当前天点击次数为在当前天的相关时间段内对目标搜索结果进行的点击操作的执行总次数。由于在当前天内,每一次利用搜索信息对中的搜索词进行搜索并且针对该目标搜索结果进行点击操作,均会产生一个对应于该目标搜索结果的操作记录,因此,搜索信息对的当前天操作数据中的操作记录的数量即为目标搜索结果的当前天点击次数。
可以将目标搜索结果的当前天点击次数除以目标搜索结果的当前天展示次数,得到搜索信息对的当前天操作频率数据即搜索信息对的当前天点击率。目标搜索结果的当前天展示次数为:在当前天内目标搜索结果的展示总次数。目标搜索结果的当前天展示次数指示在当前天内目标搜索结果被展示了多少次。
在本公开中,可以基于搜索信息对的历史操作数据,确定目标搜索结果在历史时间段的点击次数。目标搜索结果在历史时间段的点击次数为在历史时间段内对目标搜索结果进行的点击操作的执行总次数。由于在历史时间段内,每一次利用搜索信息对中的搜索词进行搜索并且针对该目标搜索结果进行点击操作,均会产生一个对应于目标搜索结果的操作记录,因此,搜索信息对的历史操作数据中的操作记录的数量即为目标搜索结果在历史时间段的操作次数。
可以将目标搜索结果在历史时间段的点击次数除以目标搜索结果在历史时间段的展示次数,得到目标搜索结果的历史操作频率数据即目标搜索结果的历史点击率。目标搜索结果在历史时间段的展示次数为:在历史时间段内目标搜索结果的展示总次数。目标搜索结果在历史时间段的展示次数指示在历史时间段内目标搜索结果被展示了多少次。
在一些实施例中,目标搜索结果的历史操作频率数据包括:目标搜索结果的其他天操作频率数据,其他天为历史时间段内任意一天;以及至少基于搜索信息对的当前天操作数据和搜索信息对的历史操作数据,确定搜索信息对的特征包括:基于搜索信息对的当前天操作数据和该搜索信息对中的目标搜索结果的当前天展示次数,得到该目标搜索结果的当前天操作频率数据;基于搜索信息对的历史操作数据和该搜索信息对中的目标搜索结果在其他天内的展示次数,得到该目标搜索结果的其他天操作频率数据。
在本公开中,将位于历史时间段内并且在当前天之前的天称之为其他其他天。搜索信息对的历史操作数据包括:搜索信息对的其他天操作数据。其他天为历史时间段内任意一天,例如,其他天为当前天的前一天或距离当前天一周的一天。该其他天操作数据在该其他天内产生。
在本公开中,可以将目标搜索结果的当前天操作次数除以目标搜索结果的当前天展示次数,得到目标搜索结果的当前天的操作频率数据。
可以基于搜索信息对的历史操作数据,确定在该其他天内对目标搜索结果进行的点击操作的执行总次数。同时,确定目标搜索结果在该其他天内的展示次数,目标搜索结果在该其他天内的展示次数为在该其他天内目标搜索结果的展示总次数。可以将在该其他天内对目标搜索结果进行的点击操作的执行总次数除以该目标搜索结果在该其他天内的展示次数,得到目标搜索结果的该其他天操作频率数据。
在本公开中,可以基于利用当前天操作数据和当前天之前的其他天的操作频率数据,确定搜索信息对的特征,以使得搜索信息对的特征同时与当前天操作数据和当前天之前的其他天的操作频率数据相关联即同时与多天的操作频率数据相关联,进而使得置信度获取可以基于与多天的操作频率相关联的特征,确定得到搜索信息对的当前天的操作数据的置信度。
在一些实施例中,搜索信息对的特征还包括:搜索信息对中的搜索词对应的当前天操作频率数据;以及至少基于搜索信息对的当前天操作数据和搜索信息对的历史操作数据,确定搜索信息对的特征还包括:确定该搜索词对应的每一个搜索结果的当前天操作次数、该搜索词对应的每一个搜索结果的当前天展示次数;基于该搜索词对应的每一个搜索结果的当前天操作次数和该搜索词对应的每一个搜索结果的当前天展示次数,确定搜索词对应的当前天操作频率数据。
在本公开中,搜索信息对中的搜索词对应的每一个搜索结果可以是指利用该搜索词进行搜索而返回的每一个搜索结果。
对于该搜索词对应的每一个搜索结果,可以将在当前天的相关时间段内对该搜索结果进行的点击操作的执行总次数作为该搜索结果的当前天操作次数。对于搜索词对应的每一个搜索结果,该搜索结果的当前天展示次数为在当前天内该搜索结果的展示总次数。
可以将该搜索词对应的每一个搜索结果的当前天的操作次数相加,得到搜索词对应的总操作次数。可以将该搜索词对应的每一个搜索结果的当前天展示次数相加,得到搜索词对应的总展示次数。可以将该搜索词对应的总操作次数除以该搜索词对应的总展示次数,得到该搜索词对应的当前天操作频率数据。
在本公开中,搜索信息对的特征除了包括目标搜索结果的当前天操作频率数据、目标搜索结果的历史操作频率数据,还可以包括搜索信息对中的搜索词对应的当前天操作频率数据,从而,可以进一步增加搜索信息对的特征的丰富度,以使得置信度获取模型可以基于丰富度更高的搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度,进一步提升得到的搜索信息对的当前天的操作数据的置信度的准确度。
在一些实施例中,搜索信息对的特征还包括:目标搜索结果的位置特征;以及至少基于当前天操作数据和历史操作数据,确定搜索信息对的特征还包括:获取目标搜索结果的位置数据,目标搜索结果的位置数据包括:在预设时间段内每一次利用搜索信息对中的搜索词进行搜索,目标搜索结果在返回的该搜索词对应的所有搜索结果中的位置;确定目标搜索结果的位置数据的统计特征,将该统计特征作为目标搜索结果的位置特征。
预设时间段可以为当前天之前的一个时间段。例如,预设时间段为当前天的前N天,前N天中最晚的一天为当前天的前一天。在预设时间段内,每一次利用搜索信息对中的搜索词进行搜索,返回该搜索词对应的所有搜索结果,可以将搜索信息对中的目标搜索结果在返回的该所有搜索结果中的位置的位置被记录在目标搜索结果的位置数据中。
在本公开中,可以确定目标搜索结果的位置数据的统计特征,将该统计特征作为目标搜索结果的位置特征。例如,目标搜索结果的位置数据的统计特征可以为目标搜索结果的位置数据中的数量最多的位置。再例如,可以将该目标搜索结果的位置数据中的所有位置之和除以该目标搜索结果的位置数据中的位置的数量,得到该目标搜索结果的位置数据中的位置的平均值,若该平均值为整数,将该平均值确定为目标搜索结果的位置数据的统计特征,若该平均值不是整数,可以采用四舍五入的方式对该平均值进行取整,得到取整结果,将取整结果确定为目标搜索结果的位置数据的统计特征。
在本公开中,搜索信息对的特征除了包括目标搜索结果的当前天操作频率数据、目标搜索结果的历史操作频率数据,还可以包括目标搜索结果的位置特征,从而,可以进一步增加搜索信息对的特征的丰富度,以使得置信度获取模型可以特征丰富度更高的搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度,进一步提升得到的搜索信息对的当前天的操作数据的置信度的准确度。
步骤103,利用置信度获取模型基于搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度。
在本公开中,置信度获取模型为二分类模型,例如,置信度获取模型可以为xgboost或者lightgbm模型。
在利用置信度获取模型基于搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度时,可以将搜索信息对的特征输入到置信度获取模型中,得到置信度获取模型输出的、搜索信息对的当前天的操作数据的置信度。
搜索信息对的当前天的操作数据的置信度可以指示搜索信息对的当前天的操作数据可信的概率。搜索信息对的当前天的操作数据的置信度的取值范围为0-1,搜索信息对的当前天的操作数据的置信度的最大值为1,搜索信息对的当前天的操作数据的置信度的最小值为0。
在本公开中,至少基于搜索信息对的当前天操作数据和搜索信息对的历史操作数据,确定搜索信息对的特征,搜索信息对的特征同时与搜索信息对的当前天操作数据、搜索信息对的历史操作数据相关联,搜索信息对的特征丰富度较高并且与搜索信息对的当前天的操作数据的关联度较高。利用置信度获取模型基于特征丰富度较高并且与搜索信息对的当前天的操作数据的关联度较高的搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度,获取到的搜索信息对的当前天的操作数据的置信度的准确性较高。
在一些实施例中,在获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据之前,至少基于样本搜索信息对的样本操作数据,确定样本搜索信息对的特征;将样本搜索信息对的特征输入到置信度获取模型中,得到置信度获取模型输出的预测置信度;基于预测置信度和样本搜索信息对的标签,确定是否对置信度获取模型的参数进行更新;若是,对置信度获取模型的参数进行更新。
在本公开中,在利用置信度获取模型基于搜索信息对的特征,得到搜索信息对的当前天的操作数据的置信度之前,预先利用样本搜索信息对的特征和样本搜索信息对的标签对置信度获取模型进行训练。
样本搜索信息对包括:用于训练的搜索词、用于训练的搜索词对应的一个搜索结果。
样本搜索信息对的样本操作数据包括:该样本搜索信息对的目标天操作数据、该样本搜索信息对的历史操作数据。目标天为相应的多天中的最晚的一天。在相应的多天中的每一天内,均有样本搜索信息对的操作数据生成。该样本搜索信息对的历史操作数据可以包括:在相应的多天中的、一个先前天内生成的该样本搜索信息对的历史操作数据,该先前天位于目标天之前。
可以将样本搜索信息对的特征输入到置信度获取模型中,得到置信度获取模型输出的预测置信度。基于预测置信度和样本搜索信息对的标签,确定是否对置信度获取模型的参数进行更新。
在本公开中,样本搜索信息对的标签可以指示样本搜索信息对的目标天的操作数据是否稳定。
样本搜索信息对的标签为0或1。1可以表示样本搜索信息对的目标天的操作数据稳定,0可以表示样本搜索信息对的目标天的操作数据不稳定。
每一次利用样本搜索信息对的特征和样本搜索信息对的标签训练置信度获取模型,将样本搜索信息对的特征输入到置信度获取模型中,由置信度获取模型预测样本搜索信息对的目标天的操作数据的置信度。然后,根据预测出的置信度和搜索信息对的标签,确定是否对置信度获取模型的参数进行更新。当确定对置信度获取模型的参数进行更新时,对置信度获取模型的参数进行更新。
例如,在一次训练过程中,若预测出的置信度大于阈值例如0.5,则最终的预测输出为1,若预测出的置信度小于或等于阈值,则最终的预测输出为0。若最终的预测输出与样本搜索信息对的标签一致,则可以确定在该次训练过程中不对置信度获取模型的参数进行更新,若最终的预测输出与样本搜索信息对的标签不一致,则可以确定在该次训练过程中对置信度获取模型的参数进行更新。
在本公开中,可以预先利用样本搜索信息对的样本操作数据和样本搜索信息对的标签对置信度获取模型进行训练。样本搜索信息对的标签只有两个取值即0或1,相对于分别针对每一个样本搜索对,预先确定在利用该样本搜索对训练时作为期望输出的置信度并且将作为期望输出的置信度作为样本搜索对的标签,样本搜索信息对的标签的标注成本低,从而,可以预先低成本地完成置信度获取模型的训练。
在一些实施例中,在获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据之前,还包括:确定用于训练的搜索词对应的搜索结果的多天操作频率数据,该用于训练的搜索词对应的搜索结果的多天操作频率数据包括:该用于训练的搜索词对应的搜索结果在多天中的每一天的操作频率数据,多天包括目标天,目标天为该多天中的最晚的一天;计算多天操作频率数据中的操作频率数据的均值和方差;基于用于训练的搜索词对应的搜索结果在目标天的操作频率数据、均值和方差,生成样本搜索信息对的标签,样本搜索信息对的标签指示用于训练的搜索词对应的搜索结果在目标天的操作数据是否稳定。
确定样本搜索信息对中的搜索结果在相应的多天中的任意一天的操作频率数据的过程与上述确定目标搜索结果在某一天例如当前天或其他天的操作频率数据的过程同理。
可以计算用于训练的搜索词对应的搜索结果的多天操作频率数据中的操作频率数据的均值和方差。例如,多天为30天,用于训练的搜索词对应的搜索结果的多天操作频率数据由样本搜索信息对中的搜索结果在30天中的每一天的操作频率数据组成。然后,基于样本搜索信息对中的搜索结果在目标天的操作频率数据、计算出的均值和该方差,生成样本搜索信息对的标签。
可以将计算出的均值减去计算出的方差对应的乘积,得到第一端点值,该乘积为计算出的方差与预设系数的乘积。可以将计算出的均值与该乘积相加,得到第二端点值。可以确定一个稳定范围,稳定范围的左端点值为第一端点值,稳定范围的右端点值为第二端点值。
若样本搜索信息对中的搜索结果在目标天的操作频率数据位于稳定范围内,可以生成指示样本搜索信息对中的搜索结果在目标天的操作数据稳定的标签即1。
若样本搜索信息对中的搜索结果在目标天的操作频率数据未位于稳定范围内,可以生成指示样本搜索信息对中的搜索结果在目标天的操作数据不稳定的标签即0。
例如,操作频率数据即为点击率利用ctr表示,预设系数为3,样本搜索信息对利用q-p表示,当前天利用date+N表示,样本搜索信息对的标签label表示为:
表示样本搜索信息对中的搜索结果在目标天的点击率,表示计算出的均值,表示计算出的方差。第一端点值为减去与3的乘积,第二端点值为与与3的乘积的和。稳定范围的左端点值为第一端点值,稳定范围的右端点值为第二端点值。当位于稳定范围内时,生成指示样本搜索信息对中的搜索结果在目标天的操作数据稳定的标签即1,当未位于稳定范围内时,生成指示样本搜索信息对中的搜索结果在目标天的操作数据不稳定的标签即0。
在本公开中,可以基于样本搜索信息对中的搜索结果在目标天的操作频率数据、样本搜索信息对中的搜索结果的多天操作频率数据中的操作频率数据的均值和方差,生成样本搜索信息对的标签。多天操作频率数据中的操作频率数据的均值和方差为样本搜索信息对中的搜索结果的多天操作频率数据的统计特征。在生成样本搜索信息对的标签时,同时考虑了样本搜索信息对中的搜索结果在目标天的操作频率数据、样本搜索信息对中的搜索结果的多天操作频率数据的统计特征对样本搜索信息对中的搜索结果在目标天的操作数据的稳定性的影响,使得生成的样本搜索信息对的标签可以较为准确地表示样本搜索信息对中的搜索结果在目标天的操作数据的稳定性,生成的样本搜索信息对的标签的准确性较高,进而提升训练的准确性。
图2是根据一示例性实施例示出的一种信息获取装置的结构框图。参照图2,信息获取装置包括:操作数据获取模块201,特征提取模块202,置信度获取模块203。
操作数据获取模块201被配置为获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据,所述搜索信息对包括:搜索词、所述搜索词对应的目标搜索结果,所述搜索信息对的历史操作数据在当前天之前的历史时间段内生成;
特征提取模块202被配置为至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征,所述搜索信息对的特征包括:所述目标搜索结果的当前天操作频率数据、所述目标搜索结果的历史操作频率数据;
置信度获取模块203被配置为利用置信度获取模型基于所述搜索信息对的特征,得到所述搜索信息对的当前天操作数据的置信度。
在一些实施例中,所述目标搜索结果的历史操作频率数据包括:所述目标搜索结果的其他天操作频率数据,所述其他天为历史时间段内任意一天;特征提取模块202包括:
第一计算子模块,被配置为基于所述当前天操作数据和所述目标搜索结果的当前天展示次数,得到所述目标搜索结果的当前天操作频率数据;基于所述历史操作数据和所述目标搜索结果在所述其他天内的展示次数,得到所述目标搜索结果的其他天操作频率数据。
在一些实施例中,所述搜索信息对的特征还包括:所述搜索词对应的当前天操作频率数据;特征提取模块202包括:
第二计算子模块,被配置为确定所述搜索词对应的每一个搜索结果的当前天操作次数、所述搜索词对应的每一个搜索结果的当前天展示次数;基于所述搜索词对应的每一个搜索结果的当前天操作次数和所述搜索词对应的每一个搜索结果的当前天展示次数,确定所述搜索词对应的当前天操作频率数据。
在一些实施例中,所述搜索信息对的特征还包括:所述目标搜索结果的位置特征;特征提取模块202包括:
第三计算子模块,被配置为获取所述目标搜索结果的位置数据,所述目标搜索结果的位置数据包括:在预设时间段内每一次利用所述搜索词进行搜索,所述目标搜索结果在返回的所述搜索词对应的所有搜索结果中的位置;确定所述目标搜索结果的位置数据的统计特征,将所述统计特征作为所述目标搜索结果的位置特征。
在一些实施例中,信息获取装置还包括:
训练模块,被配置为在获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据之前,至少基于样本搜索信息对的样本操作数据,确定样本搜索信息对的特征;将所述样本搜索信息对的特征输入到所述置信度获取模型中,得到所述置信度获取模型输出的预测置信度;基于所述预测置信度和所述样本搜索信息对的标签,确定是否对所述置信度获取模型的参数进行更新;若是,对所述置信度获取模型的参数进行更新。
在一些实施例中,信息获取装置还包括:
标签生成模块,被配置为确定所述用于训练的搜索词对应的搜索结果的多天操作频率数据,所述用于训练的搜索词对应的搜索结果的多天操作频率数据包括:所述用于训练的搜索词对应的搜索结果在多天中的每一天的操作频率数据,所述多天包括目标天,所述目标天为所述多天中的最晚的一天;计算所述多天操作频率数据中的操作频率数据的均值和方差;基于所述用于训练的搜索词对应的搜索结果在所述目标天的操作频率数据、所述均值和所述方差,生成所述样本搜索信息对的标签,所述样本搜索信息对的标签指示用于训练的搜索词对应的搜索结果在所述目标天的操作数据是否稳定。
图3是根据一示例性实施例示出的一种服务器的结构框图。参照图3,服务器包括处理组件322,其进一步包括一个或多个处理器,以及由存储器332所代表的存储器资源,用于存储可由处理组件322执行的指令,例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件322被配置为执行指令,以执行上述方法。
服务器还可以包括一个电源组件326被配置为执行服务器的电源管理,一个有线或无线网络接口350被配置为将服务器连接到网络,和一个输入输出(I/O)接口358。服务器可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种信息获取方法,其特征在于,所述方法包括:
获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据,所述搜索信息对包括:搜索词、所述搜索词对应的目标搜索结果,所述搜索信息对的历史操作数据在当前天之前的历史时间段内生成;
至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征,所述搜索信息对的特征包括:所述目标搜索结果的当前天操作频率数据、所述目标搜索结果的历史操作频率数据、所述目标搜索结果的位置特征;
利用置信度获取模型基于所述搜索信息对的特征,得到所述搜索信息对的当前天操作数据的置信度;
所述搜索信息对的特征还包括:所述目标搜索结果的位置特征;以及至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征还包括:
获取所述目标搜索结果的位置数据,所述目标搜索结果的位置数据包括:在预设时间段内每一次利用所述搜索词进行搜索,所述目标搜索结果在返回的所述搜索词对应的所有搜索结果中的位置;
确定所述目标搜索结果的位置数据的统计特征,将所述统计特征作为所述目标搜索结果的位置特征。
2.根据权利要求1所述的方法,其特征在于,所述目标搜索结果的历史操作频率数据包括:所述目标搜索结果的其他天操作频率数据,所述其他天为历史时间段内任意一天;以及至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征包括:
基于所述当前天操作数据和所述目标搜索结果的当前天展示次数,得到所述目标搜索结果的当前天操作频率数据;
基于所述历史操作数据和所述目标搜索结果在所述其他天内的展示次数,得到所述目标搜索结果的其他天操作频率数据。
3.根据权利要求2所述的方法,其特征在于,所述搜索信息对的特征还包括:所述搜索词对应的当前天操作频率数据;以及至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征还包括:
确定所述搜索词对应的每一个搜索结果的当前天操作次数、所述搜索词对应的每一个搜索结果的当前天展示次数;
基于所述搜索词对应的每一个搜索结果的当前天操作次数和所述搜索词对应的每一个搜索结果的当前天展示次数,确定所述搜索词对应的当前天操作频率数据。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据之前,所述方法还包括:
至少基于样本搜索信息对的样本操作数据,确定样本搜索信息对的特征;
将所述样本搜索信息对的特征输入到所述置信度获取模型中,得到所述置信度获取模型输出的预测置信度;
基于所述预测置信度和所述样本搜索信息对的标签,确定是否对所述置信度获取模型的参数进行更新;
若是,对所述置信度获取模型的参数进行更新。
5.根据权利要求4所述的方法,其特征在于,所述样本搜索信息对包括:用于训练的搜索词、所述用于训练的搜索词对应的搜索结果;在获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据之前,所述方法还包括:
确定所述用于训练的搜索词对应的搜索结果的多天操作频率数据,所述用于训练的搜索词对应的搜索结果的多天操作频率数据包括:所述用于训练的搜索词对应的搜索结果在多天中的每一天的操作频率数据,所述多天包括目标天,所述目标天为所述多天中的最晚的一天;
计算所述多天操作频率数据中的操作频率数据的均值和方差;
基于所述用于训练的搜索词对应的搜索结果在所述目标天的操作频率数据、所述均值和所述方差,生成所述样本搜索信息对的标签,所述样本搜索信息对的标签指示所述用于训练的搜索词对应的搜索结果在所述目标天的操作数据是否稳定。
6.一种信息获取装置,其特征在于,所述装置包括:
操作数据获取模块,被配置为获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据,所述搜索信息对包括:搜索词、所述搜索词对应的目标搜索结果,所述搜索信息对的历史操作数据在当前天之前的历史时间段内生成;
特征提取模块,被配置为至少基于所述当前天操作数据和所述历史操作数据,确定所述搜索信息对的特征,所述搜索信息对的特征包括:所述目标搜索结果的当前天操作频率数据、所述目标搜索结果的历史操作频率数据、所述目标搜索结果的位置特征;
置信度获取模块,被配置为利用置信度获取模型基于所述搜索信息对的特征,得到所述搜索信息对的当前天操作数据的置信度;
所述搜索信息对的特征还包括:所述目标搜索结果的位置特征;所述特征提取模块包括:
第三计算子模块,被配置为获取所述目标搜索结果的位置数据,所述目标搜索结果的位置数据包括:在预设时间段内每一次利用所述搜索词进行搜索,所述目标搜索结果在返回的所述搜索词对应的所有搜索结果中的位置;确定所述目标搜索结果的位置数据的统计特征,将所述统计特征作为所述目标搜索结果的位置特征。
7.根据权利要求6所述的装置,其特征在于,所述目标搜索结果的历史操作频率数据包括:所述目标搜索结果的其他天操作频率数据,所述其他天为历史时间段内任意一天;所述特征提取模块包括:
第一计算子模块,被配置为基于所述当前天操作数据和所述目标搜索结果的当前天展示次数,得到所述目标搜索结果的当前天操作频率数据;基于所述历史操作数据和所述目标搜索结果在所述其他天内的展示次数,得到所述目标搜索结果的其他天操作频率数据。
8.根据权利要求6所述的装置,其特征在于,所述搜索信息对的特征还包括:所述搜索词对应的当前天操作频率数据;所述特征提取模块包括:
第二计算子模块,被配置为确定所述搜索词对应的每一个搜索结果的当前天操作次数、所述搜索词对应的每一个搜索结果的当前天展示次数;基于所述搜索词对应的每一个搜索结果的当前天操作次数和所述搜索词对应的每一个搜索结果的当前天展示次数,确定所述搜索词对应的当前天操作频率数据。
9.根据权利要求6-8中任一项所述的装置,其特征在于,所述信息获取装置还包括:
训练模块,被配置为在获取搜索信息对的当前天操作数据和所述搜索信息对的历史操作数据之前,至少基于样本搜索信息对的样本操作数据,确定样本搜索信息对的特征;将所述样本搜索信息对的特征输入到所述置信度获取模型中,得到所述置信度获取模型输出的预测置信度;基于所述预测置信度和所述样本搜索信息对的标签,确定是否对所述置信度获取模型的参数进行更新;若是,对所述置信度获取模型的参数进行更新。
10.根据权利要求9所述的装置,其特征在于,所述信息获取装置还包括:
标签生成模块,被配置为确定用于训练的搜索词对应的搜索结果的多天操作频率数据,所述用于训练的搜索词对应的搜索结果的多天操作频率数据包括:所述用于训练的搜索词对应的搜索结果在多天中的每一天的操作频率数据,所述多天包括目标天,所述目标天为所述多天中的最晚的一天;计算所述多天操作频率数据中的操作频率数据的均值和方差;基于所述用于训练的搜索词对应的搜索结果在所述目标天的操作频率数据、所述均值和所述方差,生成所述样本搜索信息对的标签,所述样本搜索信息对的标签指示所述用于训练的搜索词对应的搜索结果在所述目标天的操作数据是否稳定。
11.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的方法。
12.一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110601416.9A CN113468235B (zh) | 2021-05-31 | 2021-05-31 | 信息获取方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110601416.9A CN113468235B (zh) | 2021-05-31 | 2021-05-31 | 信息获取方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468235A CN113468235A (zh) | 2021-10-01 |
CN113468235B true CN113468235B (zh) | 2023-05-09 |
Family
ID=77871855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110601416.9A Active CN113468235B (zh) | 2021-05-31 | 2021-05-31 | 信息获取方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468235B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918822A (zh) * | 2021-10-29 | 2022-01-11 | 北京达佳互联信息技术有限公司 | 内容搜索方法、装置、电子设备及存储介质 |
CN118377850B (zh) * | 2024-06-24 | 2024-09-24 | 江苏风云科技服务有限公司 | 基于综合数据处理的企业数字管理方法及系统、电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116582B (zh) * | 2011-11-16 | 2016-03-02 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及相关系统和装置 |
CN103631826A (zh) * | 2012-08-28 | 2014-03-12 | 深圳市世纪光速信息技术有限公司 | 一种搜索方法和装置 |
CN103971170B (zh) * | 2014-04-17 | 2017-09-29 | 北京百度网讯科技有限公司 | 一种用于对特征信息的变化进行预测的方法和装置 |
CN107273404A (zh) * | 2017-04-26 | 2017-10-20 | 努比亚技术有限公司 | 搜索引擎的评估方法、装置及计算机可读存储介质 |
CN111125523B (zh) * | 2019-12-20 | 2024-03-01 | 华为技术有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN112434183B (zh) * | 2020-11-30 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 一种搜索结果的排序方法、装置、设备和存储介质 |
-
2021
- 2021-05-31 CN CN202110601416.9A patent/CN113468235B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113468235A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460513B (zh) | 用于生成点击率预测模型的方法和装置 | |
CN113468235B (zh) | 信息获取方法、装置、服务器及存储介质 | |
CN107463701B (zh) | 基于人工智能推送信息流的方法和装置 | |
US11403303B2 (en) | Method and device for generating ranking model | |
CN108121814B (zh) | 搜索结果排序模型生成方法和装置 | |
CN111400586A (zh) | 群组展示方法、终端、服务器、系统及存储介质 | |
CN111738766B (zh) | 用于多媒体信息的数据处理方法、装置以及服务器 | |
CN110704741A (zh) | 基于时空点过程的兴趣点预测方法 | |
CN111147431A (zh) | 用于生成信息的方法和装置 | |
CN111782937A (zh) | 信息排序方法、装置、电子设备和计算机可读介质 | |
CN110889725A (zh) | 在线广告ctr预估方法、装置、设备及存储介质 | |
CN111126649B (zh) | 用于生成信息的方法和装置 | |
CN111294620A (zh) | 视频的推荐方法及装置 | |
CN110659954A (zh) | 作弊识别方法、装置、电子设备及可读存储介质 | |
CN113836388B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
CN114491342B (zh) | 个性化模型的训练方法、信息显示方法及设备 | |
CN110971973A (zh) | 一种视频推送方法、装置及电子设备 | |
CN113392266B (zh) | 排序模型的训练、排序方法、装置、电子设备及存储介质 | |
CN114141236B (zh) | 语言模型更新方法、装置、电子设备及存储介质 | |
CN111127057A (zh) | 一种多维用户画像恢复方法 | |
CN114897183A (zh) | 问题数据处理方法、深度学习模型的训练方法和装置 | |
CN113822688B (zh) | 广告转化率预估方法及装置、存储介质、电子设备 | |
CN110502715B (zh) | 点击概率的预测方法及装置 | |
CN114357242A (zh) | 基于召回模型的训练评估方法及装置、设备、存储介质 | |
CN109682394B (zh) | 用于推送步行路线信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |