CN115577167B - 基于Webassembly的内容推荐方法、装置、设备及存储介质 - Google Patents
基于Webassembly的内容推荐方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115577167B CN115577167B CN202211043385.0A CN202211043385A CN115577167B CN 115577167 B CN115577167 B CN 115577167B CN 202211043385 A CN202211043385 A CN 202211043385A CN 115577167 B CN115577167 B CN 115577167B
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- weight information
- specified
- filtered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 106
- 238000001914 filtration Methods 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims description 66
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 16
- 230000004083 survival effect Effects 0.000 claims description 15
- 238000013075 data extraction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Webassembly的内容推荐方法、装置、设备以及存储介质,涉及内容处理技术领域,所述方法包括:获取基于Webassembly的用户行为数据;对所述用户行为数据进行过滤,获得过滤后数据;确定针对所述过滤后数据的自定义分析规则;基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;基于所述分析结果生成对应的推荐结果。通过基于可部署于用户终端的Webassembly对用户的行为数据进行直接、实时获取并在本地进行分析,从而快速、准确地分析出针对用户的推荐内容,提高了推荐内容的精确性和实时性,降低了企业的运营成本。
Description
技术领域
本发明涉及内容处理技术领域,具体地涉及一种基于Webassembly的内容推荐方法、一种基于Webassembly的内容推荐装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。
背景技术
随着技术的不断发展,越来越多的线上产品被推出,而为了提高产品竞争力,需要将产品推荐给更精准的用户,为了获取更精确的用户,技术人员通过提供智能推荐系统来满足上述需求。
传统的推荐系统运用大量算法进行用户喜爱度分析,如:协同过滤算法、基于流行度的算法、基于模型的算法,通过采集用户浏览、搜索、评价等数据进行大数据分析,以获得更精确的用户。然而在实际应用过程中,技术人员发现传统推荐系统至少存在如下技术问题:
1、时效性不高,用户操作数据需要经过大数据平台分析过后得到相应特征值,然后再进行推荐计算,因此往往时效性较差;
2、大数据分析平台搭建成本较高,部分小企业无力进行大数据分析平台搭建。
发明内容
为了克服现有技术中存在的上述技术问题,本发明实施例提供一种基于Webassembly的内容推荐方法,通过基于可部署于用户终端的Webassembly对用户的行为数据进行直接、实时获取并在本地进行分析,从而快速、准确地分析出针对用户的推荐内容,提高了推荐内容的精确性和实时性,降低了企业的运营成本。
为了实现上述目的,本发明实施例提供一种基于Webassembly的内容推荐方法,所述方法包括:获取基于Webassembly的用户行为数据;对所述用户行为数据进行过滤,获得过滤后数据;确定针对所述过滤后数据的自定义分析规则;基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;基于所述分析结果生成对应的推荐结果。
优选地,所述获取基于Webassembly的用户行为数据,包括:基于Webassembly获取用户行为源数据;对所述用户行为源数据进行数据提取操作,获得对应的用户行为数据。
优选地,所述对所述用户行为数据进行过滤,获得过滤后数据,包括:获取过滤词库;基于所述过滤词库按照正则匹配算法对所述用户行为数据进行过滤,获得过滤后数据。
优选地,所述方法还包括:存储所述过滤后数据;获取预设数据存活时间阈值;基于所述预设数据存活时间阈值对所存储的过滤后数据执行第一清理操作,获得第一清理后数据;或获取预设数据存储量阈值;在存储所述过滤后数据后,判断当前存储的过滤后数据的数据总量是否大于所述预设数据存储量阈值;若是,则执行对应的第二清理操作,获得第二清理后数据。
优选地,所述自定义分析规则包括指定时间分析规则和指定数据量分析规则,所述基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果包括:基于所述指定时间分析规则从所述过滤后数据中提取预设时间范围内的第一指定数据,或基于所述指定数据量分析规则从所述过滤后数据中提取预设数量的第二指定数据;基于预设关键词提取算法从所述第一指定数据或所述第二指定数据中提取对应的至少一个关键词;获取与每个关键词对应的当前权重信息;依次判断是否存储有与当前关键词对应的在先关键词,所述在先关键词包括在先权重信息;在未存储有所述在先关键词的情况下,基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息;在存储有所述在先关键词的情况下,基于与当前关键词对应的当前权重信息对所述在先权重信息进行更新获得更新后权重信息,基于所述在先关键词、所述更新后权重信息以及当前时间戳生成对应的第二缓存信息;将所述第一缓存信息或所述第二缓存信息作为所述分析结果。
优选地,所述获取与每个关键词对应的当前权重信息,包括:确定所述第一指定数据或所述第二指定数据的相邻数据;确定所述相邻数据与所述第一指定数据或所述第二指定数据的相似度;获取所述相邻数据的权重信息;基于所述相似度和所述相邻数据的权重信息确定所述相邻数据对所述第一指定数据或所述第二指定数据的贡献度;获取预设系数;基于所述预设系数和所述贡献度计算生成所述第一指定数据或所述第二指定数据的权重信息;基于所述第一指定数据或所述第二指定数据的权重信息确定每个关键词对应的当前权重信息。
优选地,所述基于所述分析结果生成对应的推荐结果,包括:基于所述当前权重信息或所述更新后权重信息对所述关键词进行排序,获得排序后关键词;基于所述排序后关键词生成对应的推荐结果;或按照权重从高到低的顺序获取预设数量的特定关键词;基于所述特定关键词生成对应的推荐结果。
相应的,本发明实施例还提供一种基于Webassembly的内容推荐装置,所述装置包括:获取单元,用于获取基于Webassembly的用户行为数据;过滤单元,用于对所述用户行为数据进行过滤,获得过滤后数据;规则确定单元,用于确定针对所述过滤后数据的自定义分析规则;分析单元,用于基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;推荐单元,用于基于所述分析结果生成对应的推荐结果。
优选地,所述获取单元包括:源数据获取模块,用于基于Webassembly获取用户行为源数据;第一数据提取模块,用于对所述用户行为源数据进行数据提取操作,获得对应的用户行为数据。
优选地,所述过滤单元包括:词库获取模块,用于获取过滤词库;过滤模块,用于基于所述过滤词库按照正则匹配算法对所述用户行为数据进行过滤,获得过滤后数据。
优选地,所述过滤单元还包括清理模块,所述清理模块用于:存储所述过滤后数据;获取预设数据存活时间阈值;基于所述预设数据存活时间阈值对所存储的过滤后数据执行第一清理操作,获得第一清理后数据;或获取预设数据存储量阈值;在存储所述过滤后数据后,判断当前存储的过滤后数据的数据总量是否大于所述预设数据存储量阈值;若是,则执行对应的第二清理操作,获得第二清理后数据。
优选地,所述自定义分析规则包括指定时间分析规则和指定数据量分析规则,所述分析单元包括:第二数据提取模块,用于基于所述指定时间分析规则从所述过滤后数据中提取预设时间范围内的第一指定数据,或基于所述指定数据量分析规则从所述过滤后数据中提取预设数量的第二指定数据;关键词提取模块,用于基于预设关键词提取算法从所述第一指定数据或所述第二指定数据中提取对应的至少一个关键词;权重获取模块,用于获取与每个关键词对应的当前权重信息;判断模块,用于依次判断是否存储有与当前关键词对应的在先关键词,所述在先关键词包括在先权重信息;在未存储有所述在先关键词的情况下,基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息;在存储有所述在先关键词的情况下,基于与当前关键词对应的当前权重信息对所述在先权重信息进行更新获得更新后权重信息,基于所述在先关键词、所述更新后权重信息以及当前时间戳生成对应的第二缓存信息;结果确定模块,用于将所述第一缓存信息或所述第二缓存信息作为所述分析结果。
优选地,所述权重获取模块用于:确定所述第一指定数据或所述第二指定数据的相邻数据;确定所述相邻数据与所述第一指定数据或所述第二指定数据的相似度;获取所述相邻数据的权重信息;基于所述相似度和所述相邻数据的权重信息确定所述相邻数据对所述第一指定数据或所述第二指定数据的贡献度;获取预设系数;基于所述预设系数和所述贡献度计算生成所述第一指定数据或所述第二指定数据的权重信息;基于所述第一指定数据或所述第二指定数据的权重信息确定每个关键词对应的当前权重信息。
优选地,所述推荐单元用于:基于所述当前权重信息或所述更新后权重信息对所述关键词进行排序,获得排序后关键词;基于所述排序后关键词生成对应的推荐结果;或按照权重从高到低的顺序获取预设数量的特定关键词;基于所述特定关键词生成对应的推荐结果。
另一方面,本发明实施例还提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现本发明实施例提供的方法。
另一方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现本发明实施例提供的方法。
另一方面,本发明实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的方法。
通过本发明提供的技术方案,本发明至少具有如下技术效果:
通过对传统的内容推荐方法进行改进,采用基于Webassembly技术,直接从客户端实时采集用户行为数据,并在本地进行分析,从而能够实时为用户提供精确的推荐内容,相比于传统内容推荐方法,大大提高了内容推荐的实时性和精确性,减少了滞后性,同时有效降低了企业的运营成本,提高了企业的经营效益。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的基于Webassembly的内容推荐方法的具体实现流程图;
图2是本发明实施例提供的基于Webassembly的内容推荐方法中对用户行为数据进行过滤的具体实现流程图;
图3是本发明实施例提供的基于Webassembly的内容推荐方法中对过滤后数据进行分析的具体实现流程图;
图4是本发明实施例提供的基于Webassembly的内容推荐装置的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。另外,需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
首先介绍本发明的背景技术。
由于现有技术中对用户的喜好进行分析,需要搭建大型的分析平台,因此需要大量的前期成本,对企业造成了一定的资金压力,而在搭建分析平台之后,现有的分析平台是通过获取从各个途径获取的用户信息,然后进行特征值提取,然后在对所提取的特征值进行分析,因此往往时效性较差,无法满足企业的实际需求。
而随着科技的不断发展,技术人员提出了基于Webassembly的技术,该Webassembly技术是基于栈式虚拟机的二进制指令集,可以作为编程语言的编译目标,能够部署在web客户端和服务端的应用中,通过Webassembly计算,技术人员能够以更高的效率直接从网页端获取用户信息,从而实现对用户的喜好分析的高效率和实时性。
请参见图1,本发明实施例提供一种基于Webassembly的内容推荐方法,所述方法包括:
S10)获取基于Webassembly的用户行为数据;
S20)对所述用户行为数据进行过滤,获得过滤后数据;
S30)确定针对所述过滤后数据的自定义分析规则;
S40)基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;
S50)基于所述分析结果生成对应的推荐结果。
在一种可能的实施方式中,首先获取基于Webassembly的用户行为数据,例如通过将python、rust等语言代码实现封装为webassembly部署在本地运行,在用户使用终端或网页的过程中,直接获取用户的行为数据,而不再需要采集用户数据后进行处理、上传以及等待云端的分析以及对应的反馈结果,从而实现更高效和实时的用户行为信息分析。
具体的,在本发明实施例中,所述获取基于Webassembly的用户行为数据,包括:基于Webassembly获取用户行为源数据;对所述用户行为源数据进行数据提取操作,获得对应的用户行为数据。
例如在本实施例中,用户所操作的网页、客户端、应用终端等应用于基于Webassembly的运行环境中,在用户操作的过程中,实时获取用户行为源数据,例如该用户行为源数据可以包括但不限于页面搜索的搜索值、普通表单的输入值、浏览各个页面时的重要特征数据如:标题、标签、描述值等,也可以是网络通信中请求和返回特定数据,如:http请求返回数据、websocket通信数据等,在获取到上述用户行为源数据后,进行数据提取操作,例如对非查询语义字符进行过滤,非查询语义字符包括但不限于空格、引号、html标签、特殊符号等,也可以对敏感字符进行过滤,也可以对网络请求返回的请求头、返回头数据进行过滤而仅保留请求体和返回数据,也可以对html页面中标签数据进行过滤,仅获取特定标签如meta、keywords及其他指定标签的值,即获得了用户行为数据,此时,立即对用户行为数据进行分析处理。
在获取到用户行为数据后,还需要对该数据进行进一步的筛选,以获得能够表征用户行为特点的数据。请参见图2,在本发明实施例中,所述对所述用户行为数据进行过滤,获得过滤后数据,包括:
S21)获取过滤词库;
S22)基于所述过滤词库按照正则匹配算法对所述用户行为数据进行过滤,获得过滤后数据。
在一种可能的实施方式中,首先获取过滤词库,该词库可以是提前录入的本地词库,也可从是从网络中获取词库,根据该过滤词库按照正则匹配算法对用户行为数据进行过滤,能够获得过滤后数据,例如在本发明实施例中,过滤后数据中仅包括与用户行为相关的中文、英文、数字。
然而在实际应用过程中,在获得上述过滤后数据后,将上述过滤后数据存储至本地,而一方面,若持续不停的存储必然导致存储空间的不足,从而造成数据的丢失;另一方面,用户的喜好往往与最接近当前的用户行为数据相关,时间间隔越久的数据其有效性越差。
因此为了保证存储空间的足够以及数据的实时有效,在本发明实施例中,所述方法还包括:存储所述过滤后数据;获取预设数据存活时间阈值;基于所述预设数据存活时间阈值对所存储的过滤后数据执行第一清理操作,获得第一清理后数据;或获取预设数据存储量阈值;在存储所述过滤后数据后,判断当前存储的过滤后数据的数据总量是否大于所述预设数据存储量阈值;若是,则执行对应的第二清理操作,获得第二清理后数据。
在一种可能的实施方式中,在存储当前处理得到的过滤后数据后,获取预设数据存活时间阈值,并根据该预设数据存活时间阈值对存储的所有过滤后数据执行第一清理操作,具体的,可以将所存储的所有过滤后数据中存储时间超过该预设数据存活时间阈值的数据清除,以在提供更多的存储空间的情况下,保证数据的实时性和有效性。
在另一种可能的实施方式中,也可以获取预设数据存储量阈值,在将当前获得的过滤后数据存储在本地后,判断当前存储的所有过滤后数据的数据总量是否大于该预设数据存储量阈值,若是,则对所有存储的过滤后数据执行第二清理操作,具体的,可以根据时间由远及近的方式删除超过该预设数据存储量阈值的数据条数,以实时保留该预设数据存储量阈值对应条数的最新数据。
在本发明实施例中,通过在获得过滤后数据之后,对所存储的所有过滤后数据执行动态清除操作,从而保证随时都具有足够的存储空间来存储最新的数据,同时有效保证了所存储的数据均为用户的最新行为数据,使得分析结果能够保证最大的精确性。在存储上述过滤后数据之后,开始进行分析。
在实际应用过程中,由于用户的行为数据可能随时都在产生,而较少的用户行为数据可能无法体现用户的偏好习惯等信息;或用户的所有时段内的行为习惯可能并不能清晰地展示出用户的明确偏好习惯,甚至可能对用户的实际偏好习惯的分析造成影响。
因此为了解决上述技术问题,为了提高数据分析的精确性,还需要对上述过滤后数据进行有针对性的分析,例如在本发明实施例中,提出基于指定时间分析规则和指定数据量分析规则两种特定的分析规则,例如在应用指定时间分析规则时,仅在指定的时间段内或指定的时刻开始进行关键词的分析,并在分析后记录当前时间以及设置下一次分析的定时器;在应用指定数据量分析规则时,仅在监控到存储的过滤后数据中新增的数据达到N条时才开始进行关键词分析,其中参数N可以根据实际需求预先设定。
请参见图3,在本发明实施例中,所述自定义分析规则包括指定时间分析规则和指定数据量分析规则,所述基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果包括:
S41)基于所述指定时间分析规则从所述过滤后数据中提取预设时间范围内的第一指定数据,或基于所述指定数据量分析规则从所述过滤后数据中提取预设数量的第二指定数据;
S42)基于预设关键词提取算法从所述第一指定数据或所述第二指定数据中提取对应的至少一个关键词;
S43)获取与每个关键词对应的当前权重信息;
S44)依次判断是否存储有与当前关键词对应的在先关键词,所述在先关键词包括在先权重信息;
S451)在未存储有所述在先关键词的情况下,基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息;
S452)在存储有所述在先关键词的情况下,基于与当前关键词对应的当前权重信息对所述在先权重信息进行更新获得更新后权重信息,基于所述在先关键词、所述更新后权重信息以及当前时间戳生成对应的第二缓存信息;
S46)将所述第一缓存信息或所述第二缓存信息作为所述分析结果。
在一种可能的实施方式中,首先根据选定的分析策略对所获取的数据进行解析,例如在基于指定时间分析规则进行解析时,从过滤后数据中提取预设时间范围内的第一指定数据;或在基于指定数据量分析规则进行解析时,从过滤后数据中提取预设数量的第二指定数据,然后基于预设关键词提取算法从上述第一指定数据或第二指定数据中提取至少一个关键词,例如在本实施例中所述预设关键词提取算法为TextRank算法,基于该算法能够提取出多个关键词,然后进一步获取每个关键词对应的权重,例如作为当前权重信息。
在本发明实施例中,所述获取与每个关键词对应的当前权重信息,包括:确定所述第一指定数据或所述第二指定数据的相邻数据;确定所述相邻数据与所述第一指定数据或所述第二指定数据的相似度;获取所述相邻数据的权重信息;基于所述相似度和所述相邻数据的权重信息确定所述相邻数据对所述第一指定数据或所述第二指定数据的贡献度;获取预设系数;基于所述预设系数和所述贡献度计算生成所述第一指定数据或所述第二指定数据的权重信息;基于所述第一指定数据或所述第二指定数据的权重信息确定每个关键词对应的当前权重信息。
具体的,我们通过对某个关键词在全文中的上下文与其的关系来确定该关键词的权重信息。首先确定与第一指定数据或第二指定数据的相邻数据,例如在本实施例中,将上述获取的第一指定数据或第二指定数据按照在原文中的顺序依次排列,然后确定该相邻数据与第一指定数据或第二指定数据的相似度,该相邻数据可能为第一指定数据或第二指定数据左边的数据,也可能是右边的数据,在此不做限制。然后进一步获取该相邻数据的权重信息,并根据上述相似度和相邻数据的权重信息计算确定该相邻数据对第一指定数据或第二指定数据的贡献度,然后获取预设系数,在本发明实施例中,该预设系数可以为预设阻尼系数,例如可以取值为0.85,然后根据上述预设系数以及贡献度生成第一指定数据或第二指定数据的权重信息,具体的,该权重信息WS(Vi)可以表征为:
其中,d为预设阻尼系数,右侧的求和公式表征为每个相邻数据对本数据的贡献度,Wji表征为两个相邻数据之间的相似度,WS(Vj)表征为相邻数据j的权重信息。
在本发明实施例中,通过基于每个关键词的上下文信息来综合评估和确定当前关键词的权重信息,能够在兼顾全文整体动作信息的基础上精确确定每个关键词的权重,而不是针对每个关键词均单独确定其权重,从而有效提高了该关键词的权重在本次动作信息中的精确性和有效性,进一步提高了后续分析的精确性。此时可以进行进一步的关键词分析。
而为了进一步提高数据分析的精确性,在上述提取出的所有关键词以及对应的当前权重信息中,并不将所有关键词以及对应的权重信息都用于用户行为的分析,而是进一步提取M个关键词以及对应的当前权重信息,比如该M个关键词为当前权重信息从高到低的前M个关键词,然后构建本地关键词缓存数据。
在构建的过程中,可能在先已经存储有关键词了,因此依次判断是否存储有与当前关键词对应的在先关键词,即依次判断当前存储空间中是否已经存储有当前关键词了,若已经存储有当前关键词(即在先关键词),则将当前关键词的当前权重信息与在先权重信息相加,并得到更新后权重信息,然后根据上述在先关键词、更新后权重信息以及当前时间戳生成对应的第二缓存信息,即完成关键词缓存数据的构建。
在另一种实施例中,在先并没有存储过当前关键词,因此直接基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息,例如将当前关键词直接添加至已经构建的关键词缓存数据中或新创建关键词缓存数据,此时,将上述构建的关键词缓存数据作为针对用户行为数据的分析结果,然后进行内容的推荐。
在本发明实施例中,所述基于所述分析结果生成对应的推荐结果,包括:基于所述当前权重信息或所述更新后权重信息对所述关键词进行排序,获得排序后关键词;基于所述排序后关键词生成对应的推荐结果;或按照权重从高到低的顺序获取预设数量的特定关键词;基于所述特定关键词生成对应的推荐结果。
在一种可能的实施方式中,在获得上述分析结果,即获得实时构建的关键词缓存数据后,基于每个关键词的当前权重信息或更新后权重信息对关键词进行排序,例如按照权重从大到小进行排序,获得排序后关键词,然后直接将排序后关键词作为推荐系统的推荐内容并生成对应的推荐结果。
当然,也可以进一步对推荐结果进行优化,可以按照权重从大到小的顺序获取预设数量的特定关键词,上述关键词为与当前用户行为数据非常匹配和实时关联的关键词,将上述特定关键词作为推荐系统的推荐内容并生成对应的推荐结果。
在本发明实施例中,通过采用基于webassembly技术对用户的行为数据进行实时采集和分析,而不再需要将用户数据进行大量搜集后再上传云端进行分析,然后才获取云端针对用户的推荐内容,从而大大提高了内容推荐的实时性和有效性,降低了内容推荐的难度,提高了用户体验。
下面结合附图对本发明实施例所提供的基于Webassembly的内容推荐装置进行说明。
请参见图4,基于同一发明构思,本发明实施例提供一种基于Webassembly的内容推荐装置,所述装置包括:获取单元,用于获取基于Webassembly的用户行为数据;过滤单元,用于对所述用户行为数据进行过滤,获得过滤后数据;规则确定单元,用于确定针对所述过滤后数据的自定义分析规则;分析单元,用于基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;推荐单元,用于基于所述分析结果生成对应的推荐结果。
在本发明实施例中,所述获取单元包括:源数据获取模块,用于基于Webassembly获取用户行为源数据;第一数据提取模块,用于对所述用户行为源数据进行数据提取操作,获得对应的用户行为数据。
在本发明实施例中,所述过滤单元包括:词库获取模块,用于获取过滤词库;过滤模块,用于基于所述过滤词库按照正则匹配算法对所述用户行为数据进行过滤,获得过滤后数据。
在本发明实施例中,所述过滤单元还包括清理模块,所述清理模块用于:存储所述过滤后数据;获取预设数据存活时间阈值;基于所述预设数据存活时间阈值对所存储的过滤后数据执行第一清理操作,获得第一清理后数据;或获取预设数据存储量阈值;在存储所述过滤后数据后,判断当前存储的过滤后数据的数据总量是否大于所述预设数据存储量阈值;若是,则执行对应的第二清理操作,获得第二清理后数据。
在本发明实施例中,所述自定义分析规则包括指定时间分析规则和指定数据量分析规则,所述分析单元包括:第二数据提取模块,用于基于所述指定时间分析规则从所述过滤后数据中提取预设时间范围内的第一指定数据,或基于所述指定数据量分析规则从所述过滤后数据中提取预设数量的第二指定数据;关键词提取模块,用于基于预设关键词提取算法从所述第一指定数据或所述第二指定数据中提取对应的至少一个关键词;权重获取模块,用于获取与每个关键词对应的当前权重信息;判断模块,用于依次判断是否存储有与当前关键词对应的在先关键词,所述在先关键词包括在先权重信息;在未存储有所述在先关键词的情况下,基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息;在存储有所述在先关键词的情况下,基于与当前关键词对应的当前权重信息对所述在先权重信息进行更新获得更新后权重信息,基于所述在先关键词、所述更新后权重信息以及当前时间戳生成对应的第二缓存信息;结果确定模块,用于将所述第一缓存信息或所述第二缓存信息作为所述分析结果。
在本发明实施例中,所述权重获取模块用于:确定所述第一指定数据或所述第二指定数据的相邻数据;确定所述相邻数据与所述第一指定数据或所述第二指定数据的相似度;获取所述相邻数据的权重信息;基于所述相似度和所述相邻数据的权重信息确定所述相邻数据对所述第一指定数据或所述第二指定数据的贡献度;获取预设系数;基于所述预设系数和所述贡献度计算生成所述第一指定数据或所述第二指定数据的权重信息;基于所述第一指定数据或所述第二指定数据的权重信息确定每个关键词对应的当前权重信息。
在本发明实施例中,所述推荐单元用于:基于所述当前权重信息或所述更新后权重信息对所述关键词进行排序,获得排序后关键词;基于所述排序后关键词生成对应的推荐结果;或按照权重从高到低的顺序获取预设数量的特定关键词;基于所述特定关键词生成对应的推荐结果。
进一步地,本发明实施例还提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现本发明实施例所述的方法。
进一步地,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现本发明实施例所述的方法。
进一步地,本发明实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本发明实施例所述的方法。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (14)
1.一种基于Webassembly的内容推荐方法,其特征在于,所述方法包括:
获取基于Webassembly的用户行为数据;
对所述用户行为数据进行过滤,获得过滤后数据;
确定针对所述过滤后数据的自定义分析规则;
基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;所述自定义分析规则包括指定时间分析规则和指定数据量分析规则,所述基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果包括:基于所述指定时间分析规则从所述过滤后数据中提取预设时间范围内的第一指定数据,或基于所述指定数据量分析规则从所述过滤后数据中提取预设数量的第二指定数据;基于预设关键词提取算法从所述第一指定数据或所述第二指定数据中提取对应的至少一个关键词;获取与每个关键词对应的当前权重信息;依次判断是否存储有与当前关键词对应的在先关键词,所述在先关键词包括在先权重信息;在未存储有所述在先关键词的情况下,基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息;在存储有所述在先关键词的情况下,基于与当前关键词对应的当前权重信息对所述在先权重信息进行更新获得更新后权重信息,基于所述在先关键词、所述更新后权重信息以及当前时间戳生成对应的第二缓存信息;将所述第一缓存信息或所述第二缓存信息作为所述分析结果;
基于所述分析结果生成对应的推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述获取基于Webassembly的用户行为数据,包括:
基于Webassembly获取用户行为源数据;
对所述用户行为源数据进行数据提取操作,获得对应的用户行为数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述用户行为数据进行过滤,获得过滤后数据,包括:
获取过滤词库;
基于所述过滤词库按照正则匹配算法对所述用户行为数据进行过滤,获得过滤后数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
存储所述过滤后数据;
获取预设数据存活时间阈值;
基于所述预设数据存活时间阈值对所存储的过滤后数据执行第一清理操作,获得第一清理后数据;或
获取预设数据存储量阈值;
在存储所述过滤后数据后,判断当前存储的过滤后数据的数据总量是否大于所述预设数据存储量阈值;
若是,则执行对应的第二清理操作,获得第二清理后数据。
5.根据权利要求1所述的方法,其特征在于,所述获取与每个关键词对应的当前权重信息,包括:
确定所述第一指定数据或所述第二指定数据的相邻数据;
确定所述相邻数据与所述第一指定数据或所述第二指定数据的相似度;
获取所述相邻数据的权重信息;
基于所述相似度和所述相邻数据的权重信息确定所述相邻数据对所述第一指定数据或所述第二指定数据的贡献度;
获取预设系数;
基于所述预设系数和所述贡献度计算生成所述第一指定数据或所述第二指定数据的权重信息;
基于所述第一指定数据或所述第二指定数据的权重信息确定每个关键词对应的当前权重信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述分析结果生成对应的推荐结果,包括:
基于所述当前权重信息或所述更新后权重信息对所述关键词进行排序,获得排序后关键词;
基于所述排序后关键词生成对应的推荐结果;或
按照权重从高到低的顺序获取预设数量的特定关键词;
基于所述特定关键词生成对应的推荐结果。
7.一种基于Webassembly的内容推荐装置,其特征在于,所述装置包括:
获取单元,用于获取基于Webassembly的用户行为数据;
过滤单元,用于对所述用户行为数据进行过滤,获得过滤后数据;
规则确定单元,用于确定针对所述过滤后数据的自定义分析规则;
分析单元,用于基于所述自定义分析规则对所述过滤后数据进行分析,获得分析结果;所述自定义分析规则包括指定时间分析规则和指定数据量分析规则,所述分析单元包括:第二数据提取模块,用于基于所述指定时间分析规则从所述过滤后数据中提取预设时间范围内的第一指定数据,或基于所述指定数据量分析规则从所述过滤后数据中提取预设数量的第二指定数据;关键词提取模块,用于基于预设关键词提取算法从所述第一指定数据或所述第二指定数据中提取对应的至少一个关键词;权重获取模块,用于获取与每个关键词对应的当前权重信息;判断模块,用于依次判断是否存储有与当前关键词对应的在先关键词,所述在先关键词包括在先权重信息;在未存储有所述在先关键词的情况下,基于当前关键词、与当前关键词对应的当前权重信息以及当前时间戳生成对应的第一缓存信息;在存储有所述在先关键词的情况下,基于与当前关键词对应的当前权重信息对所述在先权重信息进行更新获得更新后权重信息,基于所述在先关键词、所述更新后权重信息以及当前时间戳生成对应的第二缓存信息;结果确定模块,用于将所述第一缓存信息或所述第二缓存信息作为所述分析结果;
推荐单元,用于基于所述分析结果生成对应的推荐结果。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
源数据获取模块,用于基于Webassembly获取用户行为源数据;
第一数据提取模块,用于对所述用户行为源数据进行数据提取操作,获得对应的用户行为数据。
9.根据权利要求7所述的装置,其特征在于,所述过滤单元包括:
词库获取模块,用于获取过滤词库;
过滤模块,用于基于所述过滤词库按照正则匹配算法对所述用户行为数据进行过滤,获得过滤后数据。
10.根据权利要求9所述的装置,其特征在于,所述过滤单元还包括清理模块,所述清理模块用于:
存储所述过滤后数据;
获取预设数据存活时间阈值;
基于所述预设数据存活时间阈值对所存储的过滤后数据执行第一清理操作,获得第一清理后数据;或
获取预设数据存储量阈值;
在存储所述过滤后数据后,判断当前存储的过滤后数据的数据总量是否大于所述预设数据存储量阈值;
若是,则执行对应的第二清理操作,获得第二清理后数据。
11.根据权利要求7所述的装置,其特征在于,所述权重获取模块用于:
确定所述第一指定数据或所述第二指定数据的相邻数据;
确定所述相邻数据与所述第一指定数据或所述第二指定数据的相似度;
获取所述相邻数据的权重信息;
基于所述相似度和所述相邻数据的权重信息确定所述相邻数据对所述第一指定数据或所述第二指定数据的贡献度;
获取预设系数;
基于所述预设系数和所述贡献度计算生成所述第一指定数据或所述第二指定数据的权重信息;
基于所述第一指定数据或所述第二指定数据的权重信息确定每个关键词对应的当前权重信息。
12.根据权利要求7所述的装置,其特征在于,所述推荐单元用于:
基于所述当前权重信息或所述更新后权重信息对所述关键词进行排序,获得排序后关键词;
基于所述排序后关键词生成对应的推荐结果;或
按照权重从高到低的顺序获取预设数量的特定关键词;
基于所述特定关键词生成对应的推荐结果。
13.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211043385.0A CN115577167B (zh) | 2022-08-29 | 2022-08-29 | 基于Webassembly的内容推荐方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211043385.0A CN115577167B (zh) | 2022-08-29 | 2022-08-29 | 基于Webassembly的内容推荐方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115577167A CN115577167A (zh) | 2023-01-06 |
CN115577167B true CN115577167B (zh) | 2023-11-21 |
Family
ID=84579907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211043385.0A Active CN115577167B (zh) | 2022-08-29 | 2022-08-29 | 基于Webassembly的内容推荐方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577167B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095256A (zh) * | 2014-05-07 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 基于用户之间相似度进行信息推送的方法及装置 |
CN106610938A (zh) * | 2016-07-22 | 2017-05-03 | 四川用联信息技术有限公司 | 一种确定关键词上下文范围的求解方法 |
CN107704512A (zh) * | 2017-08-31 | 2018-02-16 | 平安科技(深圳)有限公司 | 基于社交数据的金融产品推荐方法、电子装置及介质 |
CN107818491A (zh) * | 2017-09-30 | 2018-03-20 | 平安科技(深圳)有限公司 | 电子装置、基于用户上网数据的产品推荐方法及存储介质 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN109190024A (zh) * | 2018-08-20 | 2019-01-11 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN112882703A (zh) * | 2021-02-07 | 2021-06-01 | 湖北盈帆数据技术有限公司 | 一种自定义图表插件在线设计方法及装置 |
CN113706251A (zh) * | 2021-08-30 | 2021-11-26 | 平安国际智慧城市科技股份有限公司 | 基于模型的商品推荐方法、装置、计算机设备和存储介质 |
CN113837842A (zh) * | 2021-09-29 | 2021-12-24 | 浪潮卓数大数据产业发展有限公司 | 一种基于用户行为数据的商品推荐方法及设备 |
KR102414391B1 (ko) * | 2020-12-30 | 2022-06-29 | 추철민 | 과거이력 기반 실시간 문서작성 추천 시스템 |
-
2022
- 2022-08-29 CN CN202211043385.0A patent/CN115577167B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095256A (zh) * | 2014-05-07 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 基于用户之间相似度进行信息推送的方法及装置 |
CN106610938A (zh) * | 2016-07-22 | 2017-05-03 | 四川用联信息技术有限公司 | 一种确定关键词上下文范围的求解方法 |
CN107704512A (zh) * | 2017-08-31 | 2018-02-16 | 平安科技(深圳)有限公司 | 基于社交数据的金融产品推荐方法、电子装置及介质 |
CN107818491A (zh) * | 2017-09-30 | 2018-03-20 | 平安科技(深圳)有限公司 | 电子装置、基于用户上网数据的产品推荐方法及存储介质 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN109190024A (zh) * | 2018-08-20 | 2019-01-11 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
KR102414391B1 (ko) * | 2020-12-30 | 2022-06-29 | 추철민 | 과거이력 기반 실시간 문서작성 추천 시스템 |
CN112882703A (zh) * | 2021-02-07 | 2021-06-01 | 湖北盈帆数据技术有限公司 | 一种自定义图表插件在线设计方法及装置 |
CN113706251A (zh) * | 2021-08-30 | 2021-11-26 | 平安国际智慧城市科技股份有限公司 | 基于模型的商品推荐方法、装置、计算机设备和存储介质 |
CN113837842A (zh) * | 2021-09-29 | 2021-12-24 | 浪潮卓数大数据产业发展有限公司 | 一种基于用户行为数据的商品推荐方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115577167A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920434B (zh) | 一种通用的网页主题内容提取方法和系统 | |
US8402031B2 (en) | Determining entity popularity using search queries | |
US7693904B2 (en) | Method and system for determining relation between search terms in the internet search system | |
CN103365839B (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
US20090319449A1 (en) | Providing context for web articles | |
CN105183781B (zh) | 信息推荐方法及装置 | |
CN101694658A (zh) | 基于新闻去重的网页爬虫的构建方法 | |
CN110941959B (zh) | 文本违规检测、文本还原方法、数据处理方法及设备 | |
CN101963965B (zh) | 基于搜索引擎的文档索引方法、数据查询方法及服务器 | |
WO2005109178A2 (en) | Extracting information from web pages | |
JP2005092889A (ja) | ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法 | |
US10614500B2 (en) | Identifying search friendly web pages | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
JP2010537305A (ja) | 関連急上昇語の検索方法およびそのシステム | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
CN115577167B (zh) | 基于Webassembly的内容推荐方法、装置、设备及存储介质 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
JP2006323575A (ja) | 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 | |
US20090216739A1 (en) | Boosting extraction accuracy by handling training data bias | |
CN112003884A (zh) | 一种网络资产的采集和自然语言检索方法 | |
Narwal | Improving web data extraction by noise removal | |
CN108427759A (zh) | 用于海量数据处理的实时数据计算方法 | |
KR20220116086A (ko) | 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |