CN114463067B

CN114463067B - 一种基于大数据的用户浏览行为的用户兴趣建模方法

Info

Publication number: CN114463067B
Application number: CN202210128000.4A
Authority: CN
Inventors: 孔明; 祝彬彬
Original assignee: Shenzhen Jushang Dingli Network Technology Co ltd
Current assignee: Shenzhen Jushang Dingli Network Technology Co ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-11-11
Anticipated expiration: 2042-02-11
Also published as: CN114463067A

Abstract

本发明提供了一种基于大数据的用户浏览行为的用户兴趣建模方法，包括：获取用户的浏览页内容以及在浏览页下停留的时间长度；确定浏览页上的商品，并按照预设的商品分类规则确定所浏览的商品的所属归类；将同一类商品的浏览页进行归类，统计用户在某类商品对应浏览页下的驻留时间；根据该类商品对应浏览页的文本内容长度以及驻留时间，计算出用户的浏览速度，并建立兴趣度计算模型，从而计算确定用户对该类商品的兴趣度。通过本发明，实现基于用户对商品的浏览速度来确定用户对该类商品的兴趣度。

Description

一种基于大数据的用户浏览行为的用户兴趣建模方法

技术领域

本发明涉及大数据分析技术领域，特别涉及一种基于大数据的用户浏览行为的用户兴趣建模方法。

背景技术

随着我国互联网为代表的现代信息技术的快速发展，网络购物、网络营销服务，各自视频软件以及其他娱乐服务平台、学习平台开始大规模涌现。用户在日常生活中不可避免地将会花费大量的时间在这些服务软件上，所以如何为用户提供更为良好的操作体验对于众多互联网企业来说是一个非常重大的难题。

现如今，许多的互联网企业为了给用户提供良好的使用体验，仍然简单地从收集用户的个人操作数据做起，通过采集用户桌面上某种商品的出现频率来判断用户对某种商品的兴趣度，在很多情况下容易出现用户本来不对其感兴趣，但是由于推荐的内容太多导致对用户对该类商品的兴趣度进行误判的情况。

为此，本发明提供的一种基于大数据的用户浏览行为的用户兴趣建模方法，通过基于用户对该类商品的浏览速度来确定用户对该类商品的兴趣度，从而防止对用户兴趣度误判。

发明内容

本发明提供一种基于大数据的用户浏览行为的用户兴趣建模方法，用于实现对浏览页基于商品的内容分类，并基于用户对该类商品的浏览速度来确定用户对该类商品的兴趣度。

本发明提供的一种基于大数据的用户浏览行为的用户兴趣建模方法，包括：

获取用户的浏览页内容以及在每个浏览页下停留的时间长度；

根据所述浏览页内容确定浏览页上的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类；

将同一类商品的浏览页进行归类，统计用户在某类商品对应浏览页下的驻留时间；

根据该类商品对应浏览页的文本内容长度以及所述驻留时间，计算出用户的浏览速度，并根据所述浏览速度建立兴趣度计算模型。

优选的，所述根据所述浏览页内容确定浏览页上的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类包括：

确定所述浏览页上的多个显示区域，并确定每个所述显示区域的显示方式，其中所述显示方式包括文字、图像、视频中的一种或多种结合；

基于各个所述显示区域的显示方式，确定各个所述显示区域对应的提取方式；

基于各个所述显示区域对应的提取方式对各个显示区域内的文字进行提取，并基于提取的文字生成文本档案；

确定所述文本档案中的商品词汇，根据所述商品词汇确定用户所浏览的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类。

优选的，所述基于各个所述显示区域对应的提取方式对各个显示区域内的文字进行提取，并基于提取的文字生成文本档案包括：

对文字显示方式的显示区域内的文字进行直接提取，得到第一类文本信息；

对图像显示方式的显示区域内的文字通过图像文本识别技术进行提取，得到第二类文本信息；

对视频显示方式的显示区域内的文字，先对视频内容进行分帧，对每一帧图像中的文字通过图像文本识别技术进行提取，拼接得到第三类文本信息；

将所述第一类文本信息、所述第二类文本信息以及所述第三类文本信息，分段拼接生成文本档案。

优选的，在对每一帧图像中的文字通过图像文本识别技术进行提取，得到每一帧图像对应的文本内容的过程中，若遇到连续两帧图像对应的两个文本内容，需要将重复的文本内容进行删除，根据视频图像帧的前后关系确定文本的上下文关系，将剩余的文本内容拼接得到第三类文本信息。

优选的，所述确定所述文本档案中的商品词汇，根据所述商品词汇确定用户所浏览的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类包括：

对所述文本档案进行关键字分析得到多个关键的词汇，确定每一个词汇所出现的频率，并按照出现的频率高低对词汇进行排序；

从出现频率最高的词汇开始，将每一个词汇与预设的商品词汇列表内的多个词汇进行一一匹配，从而确定该词汇是否属于所述商品词汇列表；

当确定该词汇属于所述商品词汇列表时，将该词汇放入该页面对应的商品词汇组；

当商品词汇组内的词汇数量达到预设数量阈值时，确定商品词汇组内的每一个词汇分别与其他词汇之间的关联度；

确定与所述词汇组中其他多个词汇之间的关联度的平均值最高的那个词汇为该浏览页所对应的商品词汇，进而确定用户所浏览的商品；

按照预设的商品分类规则确定用户所浏览的商品的所属归类。

优选的，所述当商品词汇组内的词汇数量达到预设数量阈值时，确定商品词汇组内的每一个词汇分别与其他词汇之间的关联度包括：

将词汇组内的每一个词汇分别与其他词汇一一组队；

对于每一组词汇，基于预设词汇关联度数据库，查找该组词汇所对应的关联度；

其中，所述词汇关联度数据库内的数据通过以下方式扩充：

预设有某个特定词汇所对应的商品的多个商品页面；

将该特定词汇所对应的商品的多个商品页面作为目标数据源，并从所述目标数据源上通过网络爬虫爬取网络文本；

基于所述网络文本和所述商品词汇列表，确定该网络文本内所包含的除了所述特定词汇以外的其他的多种关联商品词汇；

统计某种所述关联商品词汇在所述网络文本中出现的次数，并将其与所有关联商品词汇出现的总次数的比值作为该特定词汇与该种关联商品词汇之间的关联度，将该特定词汇与该种关联商品词汇以及两者之间的关联度保存至所述词汇关联度数据库内。

优选的，所述将同一类商品的浏览页进行归类，统计用户在某类商品对应浏览页下的驻留时间包括：

基于用户的历史浏览页内容，确定其中属于同类商品类型的多个浏览页；

确定该用户在同类商品类型的多个浏览页下停留的所述时间长度的和为所述驻留时间。

优选的，所述根据该类商品对应浏览页的文本内容长度以及所述驻留时间，计算出用户的浏览速度，根据所述浏览速度建立兴趣度计算模型，包括：

获取用户在最近的第一预设时间内的浏览页内容，并根据浏览页内容确定所浏览的所有的商品类型；

确定每种商品类型对应的多个浏览页，以及用户在每个浏览页所浏览的文本内容长度；

对于某一种商品类型对应的多个浏览页，以用户在每个浏览页所浏览的文本内容长度的和作为文本内容总长度，并基于所述驻留时间，计算用户在该种商品类型的浏览页下的平均浏览速度Speed(L)；

基于用户在该种商品类型对应的多个浏览页下各自停留的时间长度，以及每个浏览页的文本内容长度，计算出对于每个浏览页的第一浏览速度Speed(V)；

基于所述平均浏览速度和所述第一浏览速度，通过以下公式计算用户对于该种商品类型的兴趣度Interest(L)：

对于多种商品类型，计算确定用户对于每种商品类型的兴趣度。

优选的，还包括引入遗忘机制对用户的兴趣度进行跟踪计算包括：

确定当前的第一时间点，以及用户最后一次浏览该种商品类型的页面的第二时间点；

获取该种商品所对应预设的遗忘半衰期，其中所述遗忘半衰期为用户对该种商品的兴趣度减半所需要花费的时间，根据商品的必需性的不同，每种商品的遗忘半衰期可预设；

确定用户最后一次浏览该种商品类型的页面时的兴趣度，基于所述第一时间点、所述第二时间点以及所述遗忘半衰期，通过下式计算得到用户当前对于该种商品类型的兴趣度：

式中，Interest(N)表示用户当前对于该种商品类型的兴趣度，Interest(K)表示用户最后一次浏览该种商品类型的页面时的兴趣度，h为所述遗忘半衰期，cur为所述第二时间点，est为所述第一时间点。

优选的，还包括建立用户对相关店家页面的兴趣相关度模型：

当某用户对商品类型A的兴趣度大于预设值时，为该用户推送具有与该种商品类型A相关的商品类型B货源的相关店家页面；

确定该用户在该相关店家页面进行浏览时所花费的浏览时间；

预设有商品类型A的多种模范页面，确定所有模范页面中的多个关键词汇，利用多个关键词汇以及每个关键词汇的出现频率生成该种商品类型的页面内容特征集；

以所述页面内容特征集内包含的多种关键词汇形成第一词汇集，根据所述第一词汇集确定所述相关店家页面中所包含商品类型A相关词汇特征的特征向量数目；

提取所述相关店家页面的多个关键词汇，利用多个关键词汇以及每个关键词汇的出现频率生成相关店家页内容特征集；

计算该种商品类型的页面内容特征集与所述相关店家页面内容特征集之间的内容相似度；

基于所述浏览时间、所述特征向量数目以及所述内容相似度，建立兴趣相关度模型：

式中，crlt(j)表示兴趣相关度，ViewTime表示所述浏览时间，VectorNumber表示所述特征向量数目，sim(j，i)表示该种商品类型的页面内容特征集i与所述相关店家页面内容特征集j之间的内容相似度；

当所述相关程度低于预设的相关阈值时，减少为对该种商品类型感兴趣的用户推送该相关店家页面。

优选的，还包括获取多个用户对于所述相关店家页面的兴趣相关度，并求取多个兴趣相关度的平均值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于大数据的用户浏览行为的用户兴趣建模方法的步骤流程图；

图2为本发明实施例中生成文本文档的方法流程图；

图3为本发明实施例中对文本档案进行分析的方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的本发明提供的一种基于大数据的用户浏览行为的用户兴趣建模方法，如图1，包括：

步骤S100、获取用户的浏览页内容以及在每个浏览页下停留的时间长度；

步骤S101、根据浏览页内容确定浏览页上的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类；

步骤S102、将同一类商品的浏览页进行归类，统计用户在某类商品对应浏览页下的驻留时间；

步骤S103、根据该类商品对应浏览页的文本内容长度以及驻留时间，计算出用户的浏览速度，并根据浏览速度建立兴趣度计算模型。

上述技术方案的工作原理和有益效果为：对浏览页基于商品的内容分类，并通过用户在该类商品下的驻留时间以及浏览页的文本内容长度，计算出用户的浏览速度，从而确定用户对该类商品的兴趣度，并为用户提供讨论组服务，让用户能够通过讨论组了解对于该类商品的信息。值得注意的是，当用户长时间不对该浏览页进行操作时，需要将中间长时间的间隔时间进行删除，防止在用户因其他事情搁置浏览时对用户的兴趣度判断错误。

在一个优选实施例中，根据浏览页内容确定浏览页上的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类包括：

确定浏览页上的多个显示区域，并确定每个显示区域的显示方式，其中显示方式包括文字、图像、视频中的一种或多种结合；

基于各个显示区域的显示方式，确定各个显示区域对应的提取方式；

基于各个显示区域对应的提取方式对各个显示区域内的文字进行提取，并基于提取的文字生成文本档案；

确定文本档案中的商品词汇，根据商品词汇确定用户所浏览的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类。

上述技术方案的工作原理和有益效果为：实现对浏览页面内容的提取以及词汇分析，确定用户所浏览的商品，并确定商品的所属归类。

在一个优选实施例中，如图2，基于各个显示区域对应的提取方式对各个显示区域内的文字进行提取，并基于提取的文字生成文本档案包括：

步骤S200、对文字显示方式的显示区域内的文字进行直接提取，得到第一类文本信息；

步骤S201、对图像显示方式的显示区域内的文字通过图像文本识别技术进行提取，得到第二类文本信息；

步骤S202、对视频显示方式的显示区域内的文字，先对视频内容进行分帧，对每一帧图像中的文字通过图像文本识别技术进行提取，按图像帧的前后关系拼接得到第三类文本信息；

步骤S203、将第一类文本信息、第二类文本信息以及第三类文本信息，分段拼接生成文本档案。

上述技术方案的工作原理和有益效果为：对不同显示方式的文字文本内容的用对应设置的不同的文本提取方式，以应对浏览页面上复杂的窗口文本排版。，

在一个优选实施例中，在对每一帧图像中的文字通过图像文本识别技术进行提取，得到每一帧图像对应的文本内容的过程中，若遇到连续两帧图像对应的两个文本内容，需要将重复的文本内容进行删除，根据视频图像帧的前后关系确定文本的上下文关系，将剩余的文本内容拼接得到第三类文本信息。

上述技术方案的工作原理和有益效果为：对视频中重复出现的文本内容进行删除后重组，防止对同样的文本信息的重复提取，影响正常的文字内容识别。

在一个优选实施例中，如图3，确定文本档案中的商品词汇，根据商品词汇确定用户所浏览的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类包括：

步骤S300、对文本档案进行关键字分析得到多个关键的词汇，确定每一个词汇所出现的频率，并按照出现的频率高低对词汇进行排序；

步骤S301、从出现频率最高的词汇开始，将每一个词汇与预设的商品词汇列表内的多个词汇进行一一匹配，从而确定该词汇是否属于商品词汇列表；

步骤S302、当确定该词汇属于商品词汇列表时，将该词汇放入该页面对应的商品词汇组；

步骤S303、当商品词汇组内的词汇数量达到预设数量阈值时，确定商品词汇组内的每一个词汇分别与其他词汇之间的关联度；

步骤S304、确定与词汇组中其他多个词汇之间的关联度的平均值最高的那个词汇为该浏览页所对应的商品词汇，进而确定用户所浏览的商品；

步骤S305、按照预设的商品分类规则确定用户所浏览的商品的所属归类。

上述技术方案的工作原理和有益效果为：通过筛选出最高频率的商品词汇，并将筛选出的商品词汇放入同一个组中，方便对组内的商品词汇进行配对分析确定词汇之间的关联度，从而确定出组内与其他词汇的关联度的平均值最大的那个词汇为商品词汇，一般而言，与词汇组内其他的词汇关联度平均值最大的那个商品词汇的重要性是最大的，最有可能是该页面所展示的商品，所以通过商品词汇列表对商品词汇的快速筛选、通过关联度对多个商品词汇的重要程度的快速识别，实现对页面商品的快速识别。

在一个优选实施例中，当商品词汇组内的词汇数量达到预设数量阈值时，确定商品词汇组内的每一个词汇分别与其他词汇之间的关联度包括：

将词汇组内的每一个词汇分别与其他词汇一一组队；

其中，词汇关联度数据库内的数据通过以下方式扩充：

预设有某个特定词汇所对应的商品的多个商品页面；

将该特定词汇所对应的商品的多个商品页面作为目标数据源，并从目标数据源上通过网络爬虫爬取网络文本；

根据网络文本，基于商品词汇列表确定该网络文本内所包含的除了特定词汇以外的其他的多种关联商品词汇；

统计某种关联商品词汇在网络文本中出现的次数，并将其与所有关联商品词汇出现的总次数的比值作为该特定词汇与该种关联商品词汇之间的关联度，将该特定词汇与该种关联商品词汇以及两者之间的关联度保存至词汇关联度数据库内。

上述技术方案的工作原理和有益效果为：预先通过已经确定的某个词汇“商品A”以及贩卖“商品A”的多个A型页面，确定多个A型页面作为目标数据源，并从目标数据源上通过网络爬虫爬取网络文本，确定网络文本中除了“商品A”以外的其他商品类型，假如其他商品类型只包括“商品B”“商品C”，并根据“商品B”的出现次数b占其他所有商品类型总出现次数(b+c)的比值确定“商品B”与“商品A”的关联度为b/(b+c)，从而得到可用于参考的“商品A”与“商品B”的关联度，并存储到词汇关联度数据库，在将词汇组内的每一个词汇分别与其他词汇一一组队，确定词汇之间的关联度时，若组内同时出现了“商品B”和“商品A”则能够从词汇关联度数据库内查取两者的关联度。实现了关联度的计算、存储与提取利用。

在一个优选实施例中，将同一类商品的浏览页进行归类，统计用户在某类商品对应浏览页下的驻留时间包括：

确定该用户在同类商品类型的多个浏览页下停留的时间长度的和为驻留时间。

上述技术方案的工作原理和有益效果为：根据用户的历史浏览页内容确定其中属于同类商品类型的多个浏览页，随后将用户在其中每个浏览页下各自停留的时间长度相加，确定该用户在同类商品类型的多个浏览页下停留的时间长度的和为驻留时间。从而确定用户在同类商品类型的多个浏览页下停留总时长的计算。

在一个优选实施例中，根据该类商品对应浏览页的文本内容长度以及驻留时间，计算出用户的浏览速度，根据浏览速度建立兴趣度计算模型包括：

对于某一种商品类型对应的多个浏览页，以用户在每个浏览页所浏览的文本内容长度的和作为文本内容总长度，并基于驻留时间，计算用户在该种商品类型的浏览页下的平均浏览速度Speed(L)；

基于平均浏览速度和第一浏览速度，通过以下公式计算用户对于该种商品类型的兴趣度Interest(L)：

对于上述公式，还可以对于多个浏览页的第一浏览速度Speed(V)进行归一化处理，得到更符合实际需要的兴趣度计算公式：

对于多种商品类型，计算确定用户对每种商品类型的兴趣度；

当对某种商品的兴趣度大于预设值的时候将用户拉入该类商品对应的讨论组。

上述技术方案的工作原理和有益效果为：根据该类商品对应浏览页的文本内容长度以及驻留时间，计算出用户的浏览速度，建立兴趣度模型并通过计算确定用户对该类商品的兴趣度，根据兴趣度选择在用户兴趣度大于预设值的时候将用户拉入该类商品对应的讨论组，让用户能够在该类商品类型的讨论组中进行讨论，从而对不同品牌的该类商品类型的商品进行了解。

在一个优选实施例中，还包括引入遗忘机制对用户的兴趣度进行跟踪计算具体包括：

获取该种商品所对应预设的遗忘半衰期，其中遗忘半衰期为用户对该种商品的兴趣度减半所需要花费的时间，根据商品的必需性的不同，每种商品的遗忘半衰期可预设；

确定用户最后一次浏览该种商品类型的页面时的兴趣度，基于第一时间点、第二时间点以及遗忘半衰期，通过下式计算得到用户当前对于该种商品类型的兴趣度：

式中，Interest(N)表示用户当前对于该种商品类型的兴趣度，Interest(K)表示用户最后一次浏览该种商品类型的页面时的兴趣度，h为遗忘半衰期，cur为第二时间点，est为第一时间点；

当用户当前对于该种商品类型的兴趣度小于预设值的时候将该用户移出讨论组。

上述技术方案的工作原理和有益效果为：通过引入遗忘机制对用户的兴趣度进行跟踪计算，当用户对该种商品的兴趣度低于预设值时，将该用户移出讨论组，通过设定该类商品的遗忘半周期，基于用户最后一次浏览该种商品类型的时间与当前时间的间隔，确定用户对该种商品的遗忘程度，并基于用户最后一次浏览该种商品类型的页面时的兴趣度计算出当前用户对于该种商品类型还存留的兴趣度。当兴趣度较低时将用户移出讨论组，避免占用讨论组的位置资源。

在一个优选实施例中，还包括建立用户对相关店家页面的兴趣相关度模型，具体步骤如下：

以页面内容特征集内包含的多种关键词汇形成第一词汇集，根据第一词汇集确定相关店家页面中所包含商品类型A相关词汇特征的特征向量数目；

提取相关店家页面的多个关键词汇，利用多个关键词汇以及每个关键词汇的出现频率生成相关店家页内容特征集；

计算该种商品类型的页面内容特征集与相关店家页面内容特征集之间的内容相似度；

基于浏览时间、特征向量数目以及内容相似度，通过下式计算得到相关程度：

式中，crlt(j)表示相关程度，ViewTime表示浏览时间，VectorNumber表示特征向量数目，sim(j,i)表示该种商品类型的页面内容特征集i与相关店家页面内容特征集j之间的内容相似度；

当相关程度低于预设的相关阈值时，减少为对该种商品类型感兴趣的用户推送该相关店家页面。

上述技术方案的工作原理和有益效果为：根据用户对某种商品类型的兴趣度，为该用户推送具有与该种商品类型相关商品货源的相关店家页面，并根据用户对相关店家页面的浏览时间以及该相关店家页面的内容确定该相关店家页面的内容的兴趣相关度，并在兴趣相关程度低于预设的相关阈值时，减少为对该种商品类型感兴趣的用户推送该相关店家页面，实现通过内容相似度、用户对其的兴趣度计算得到兴趣相关度，该兴趣相关度并不只是实际意义上的相关，也包含了用户对该店家页面的接受程度，比如商品“桌子”为用户所感兴趣的内容，为该客户推送的商品“椅子”对应的店家页面，虽然实际意义上有一定的偏差，但是用户在对该店家页面感兴趣的时候，说明这个商品“椅子”对应的店家页面是用户所能接收的，其兴趣相关度也就越高，反之若为该客户推送商品“杯子”，则用户不一定对其产生兴趣，兴趣相关度就会降低，以后就会在商品“桌子”对应的用户人群中减少商品“杯子”对应的店家页面的推送，从而能够在一方面实现相关商品的捆绑推荐，另一方面实现对无关商品的推荐屏蔽，进一步提高用户的使用体验。

在一个优选实施例中，还包括获取多个用户对于相关店家页面的兴趣相关度，并求取多个兴趣相关度的平均值。

上述技术方案的工作原理和有益效果为：为了进一步提高计算结果的准确度，防止单个用户个人行为倾向对相关程度的计算结果产生影响，通过求取对同种商品类型感兴趣的不同用户对于同一个店家页面下的兴趣相关度的平均值作为用户群体对相关店家页面的兴趣相关度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，包括：

根据该类商品对应浏览页的文本内容长度以及所述驻留时间，计算出用户的浏览速度，并根据所述浏览速度建立兴趣度计算模型；

所述根据所述浏览页内容确定浏览页上的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类包括：

确定所述文本档案中的商品词汇，根据所述商品词汇确定用户所浏览的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类；

所述确定所述文本档案中的商品词汇，根据所述商品词汇确定用户所浏览的商品，并按照预设的商品分类规则确定用户所浏览的商品的所属归类包括：

按照预设的商品分类规则确定用户所浏览的商品的所属归类；

所述当商品词汇组内的词汇数量达到预设数量阈值时，确定商品词汇组内的每一个词汇分别与其他词汇之间的关联度包括：

基于预设词汇关联度数据库，确定商品词汇组内的每一个词汇分别与其他词汇之间的关联度；

其中，所述词汇关联度数据库内的数据通过以下方式扩充：

预设有某个特定词汇所对应的商品的多个商品页面；

2.根据权利要求1所述的一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，所述基于各个所述显示区域对应的提取方式对各个显示区域内的文字进行提取，并基于提取的文字生成文本档案包括：

对视频显示方式的显示区域内的文字，先对视频内容进行分帧，对每一帧图像中的文字通过图像文本识别技术进行提取，通过拼接得到第三类文本信息；

3.根据权利要求2所述的一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，在对每一帧图像中的文字通过图像文本识别技术进行提取，得到每一帧图像对应的文本内容的过程中，若遇到连续两帧图像对应的两个文本内容，需要将重复的文本内容进行删除，根据视频图像帧的前后关系确定文本的上下文关系，将剩余的文本内容拼接得到第三类文本信息。

4.根据权利要求1所述的一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，所述将同一类商品的浏览页进行归类，统计用户在某类商品对应浏览页下的驻留时间包括：

5.根据权利要求1所述的一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，所述根据该类商品对应浏览页的文本内容长度以及所述驻留时间，计算出用户的浏览速度，根据所述浏览速度建立兴趣度计算模型，包括：

6.根据权利要求1所述的一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，还包括引入遗忘机制对用户的兴趣度进行跟踪计算包括：

获取该种商品所对应预设的遗忘半衰期，其中所述遗忘半衰期为用户对该种商品的兴趣度减半所需要花费的时间；

7.根据权利要求1所述的一种基于大数据的用户浏览行为的用户兴趣建模方法，其特征在于，还包括建立用户对相关店家页面的兴趣相关度模型，具体包括：

式中，crlt(j)表示兴趣相关度，ViewTime表示所述浏览时间，VectorNumber表示所述特征向量数目，sim(j,i)表示该种商品类型的页面内容特征集i与所述相关店家页面内容特征集j之间的内容相似度。