CN103646119A - 用户行为记录的生成方法及装置 - Google Patents
用户行为记录的生成方法及装置 Download PDFInfo
- Publication number
- CN103646119A CN103646119A CN201310740224.1A CN201310740224A CN103646119A CN 103646119 A CN103646119 A CN 103646119A CN 201310740224 A CN201310740224 A CN 201310740224A CN 103646119 A CN103646119 A CN 103646119A
- Authority
- CN
- China
- Prior art keywords
- user
- access data
- network access
- network address
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及互联网技术领域,具体而言,涉及用户行为记录的生成方法及装置。该方法,包括:接收用户的网络访问数据;根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别;从所述用户的网络访问数据中提取用户访问的关键词;将所述用户访问的关键词分解为至少一个分解词;将所有所述分解词与预先建立的关键字库中的参考关键词进行匹配;根据匹配成功的分解词及所述网址类别,生成用户行为记录。本发明提供的用户行为记录的生成方法及装置,实现了根据生成的用户行为记录准确分析出用户的偏好。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及用户行为记录的生成方法及装置。
背景技术
在互联网中,很多的应用都需要根据用户的偏好进行,例如根据用户的偏好推送个性化的广告、优惠卷、资讯等。为获取用户的偏好,首先需要生成用户行为记录,再根据用户行为记录就可以分析出用户的偏好。
目前的用户行为记录生成方法大多是先使用深度包解析(DPI)技术采集用户的网络访问数据,然后使用ETL(Extraction-Transformation-Loading,数据提取、转换和加载)技术从采集到的用户的网络访问数据中提取出相关的用户行为数据,并对用户访问的URL、HTTP标题、HTTP关键字等,和预先建立的配置库做实时的数据关联和匹配,形成结构化的用户行为记录。
根据用户行为记录,可以知道用户在什么时间,什么地点,什么终端,访问了什么类型的网站。
现有的用户行为记录生成方法会对用户搜索的关键字进行解析和匹配,如果配置库内,没有能与用户搜索的关键字相匹配的参考关键字,则无法生成相应的用户行为记录项目,匹配成功率低,造成后续无法根据生成的用户行为记录准确分析出用户的偏好。
发明内容
本发明的目的在于提供一种用户行为记录的生成方法及装置,以解决上述的问题。
在本发明的实施例中提供了一种用户行为记录的生成方法,该方法包括:接收用户的网络访问数据;根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别;从用户的网络访问数据中提取用户访问的关键词;将用户访问的关键词分解为至少一个分解词;将所有分解词与预先建立的关键字库中的参考关键词进行匹配;根据匹配成功的分解词及网址类别,生成用户行为记录。
优选地,从用户的网络访问数据中提取URL,将URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。
优选地,从用户的网络访问数据中提取用户访问的关键词,包括:预先建立关键字特征标识库;关键字特征标识库中包含参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;若用户的网络访问数据中包含与参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;将待转换的字符串还原为关键词。
优选地,将用户访问的关键词分解为至少一个分解词包括:预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。
优选地,接收用户的网络访问数据之前,还包括:从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;接收用户的网络访问数据,包括:接收待处理的用户的网络访问数据;接收用户的网络访问数据之后,确定用户访问的网址类别之前还包括:根据网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个确定用户访问的网址类别的执行任务。
优选地,接收用户的网络访问数据之后,确定用户访问的网址类别之前,还包括:丢弃用户的网络访问数据中的非法字符串;非法字符创是预先设定的。
在本发明的另一实施例中提供了一种用户行为记录的生成装置,该装置包括:接收模块、确定模块、提取模块、分解模块、匹配模块和生成模块,其中,接收模块,用于接收用户的网络访问数据;确定模块,用于根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别;提取模块,用于从用户的网络访问数据中提取用户访问的关键词;分解模块,将用户访问的关键词分解为至少一个分解词;匹配模块,用于将所有分解词与预先建立的关键字库中的参考关键词进行匹配;生成模块,用于根据匹配成功的分解词及网址类别,生成用户行为记录。
优选地,确定模块具体用于从用户的网络访问数据中提取URL,将URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。
优选地,提取模块具体包括:建立单元,用于预先建立关键字特征标识库;关键字特征标识库中包含参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;提取单元,用于若用户的网络访问数据中包含与参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;还原单元,用于将待转换的字符串还原为关键词;分解模块具体用于预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。
优选地,还包括抽取模块、创建模块和丢弃模块,抽取模块用于从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;接收模块具体用于接收待处理的用户的网络访问数据;创建模块用于根据网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个确定用户访问的网址类别的执行任务;丢弃模块,用于丢弃用户的网络访问数据中的非法字符串;非法字符串是预先设定的。
本发明上述实施例的用户行为记录的生成方法及装置,通过将用户访问的关键词分解成至少一个分解词,将分解词与预先建立的关键字库中的参考关键词进行匹配,解决了现有技术中配置库内,没有能与用户搜索的关键字相匹配的参考关键字的问题,另外根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别,从而根据匹配成功的分解词及网址类别,生成用户行为记录,实现了根据生成的用户行为记录准确分析出用户的偏好。
附图说明
图1示出了本发明实施例提供的一种用户行为记录的生成方法的流程图;
图2示出了本发明另一实施例提供的用户行为记录的生成方法中提取用户访问的关键词的流程图;
图3示出了本发明又一实施例提供的用户行为记录的生成方法的流程图;
图4示出了本发明实施例提供的用户行为记录的生成装置的结构示意图;
图5示出了本发明另一实施例提供的用户行为记录的生成装置的结构示意图;
图6示出了本发明又一实施例提供的用户行为记录的生成装置的结构示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例提供了一种用户行为记录的生成方法,本实施例的执行主体为一个ETL服务器,该方法包括:
步骤S110:接收用户的网络访问数据。
可选地,在步骤S110之前,还包括:从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据。
具体地,对于全部网络访问数据包可以由多个ETL服务器来执行,因此对于一个ETL服务器来说,需要从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据。使用多个ETL服务器处理用户的网络访问数据可以加快网络访问数据的处理速度。且可以随时增加ETL服务器,增强计算能力。
接收用户的网络访问数据,包括:接收待处理的用户的网络访问数据;
可选地,在步骤S110之后,步骤S120之前,还包括:丢弃用户的网络访问数据中的非法字符串;非法字符串是预先设定的。
在具体实现过程中,非法字符串为不满足预先建立的模型条件的字符串,预先建立的模型条件一般是针对数据的一致性建立的,将不满足模型条件的网络访问数据丢弃。在用户的网络访问数据中,包括多个字符串,例如用户行为记录对应的是对某汽车网站的访问情况,那么非法字符串则为哪些不是对该汽车网站的访问字符串,则将这些不是对该汽车网站的访问字符串丢弃。
可选地,在在步骤S110之后,步骤S120之前,还可以包括:根据网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个确定用户访问的网址类别的执行任务。
若在网络访问数据中提取的URL数量多,则可以多创建几个执行任务,反之可以少创建几个,同时执行多个确定用户访问的网址类别的执行任务,可以加快对用户的网络访问数据的处理速度。
步骤S120:根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别。
在步骤S120中,从用户的网络访问数据中提取URL,将URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。
具体地,预先建立的网址库中包括www.abc.com,且该网址的类别为音乐。若网络访问数据为www.abcxxx.com,则可以根据模糊匹配确定该网络访问数据属于的网址为www.abc.com,且用户访问的网址类别为音乐。模糊匹配为现有技术。采用模糊匹配可以快速对用户的网络访问数据进行归类,便于用户行为的分析。
步骤S130:从用户的网络访问数据中提取用户访问的关键词。
步骤S140:将用户访问的关键词分解为至少一个分解词。
在步骤S140中,将用户访问的关键词分解为至少一个分解词可以包括预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。
具体地,若得到用户访问的关键词为“附近的饭店”,预先建立的分解词表中包括“附近”和“饭店”,因此将用户访问的关键词分解为“附近”和“饭店”。预先建立的关键字库中包括“饭店”,但是没有“附近”或“附近的饭店”。由此提高了与预先建立的关键字库匹配成功的概率。另外,例如关键词为马自达性能参数,预先建立的分解词表中包括“马自达”和“性能参数”,由于建立的关键字库中包括“马自达”,则可以认定该关键词与预先建立的关键字库匹配成功。
步骤S150:将所有分解词与预先建立的关键字库中的参考关键词进行匹配。
步骤S160:根据匹配成功的分解词及网址类别,生成用户行为记录。
需要说明的是,在本发明中,ETL服务器可以将步骤S120、步骤S130、步骤S140和步骤S150均可以采用建立多个并行处理任务,将最后的处理结果集中返回,从而提高处理速度。
本发明上述实施例的用户行为记录的生成方法,通过将用户访问的关键词分解成至少一个分解词,将分解词与预先建立的关键字库中的参考关键词进行匹配,解决了现有技术中配置库内,没有能与用户搜索的关键字相匹配的参考关键字的问题,另外根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别,从而根据匹配成功的分解词及网址类别,生成用户行为记录,实现了根据生成的用户行为记录准确分析出用户的偏好。
如图2所示,在上述实施例的基础上,可以通过以下方法从用户的网络访问数据中提取用户访问的关键词,方法如下:
步骤S210:预先建立关键字特征标识库,关键字特征标识库中包含参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则。
在步骤S210中,关键字特征标识库包括:参考关键字特征标识bs。该参考关键字特征标识简单,易于识别,可减少比较时间,提供获取搜索网站中的参考关键字特征标识的识别时间。关键字特征标识库包括:参考关键字特征标识&q。在实际应用中,在对某网站进行站内搜索时,形成的互联网网络日志中的网址必定存在&q,利用了用户的访问数据中的特有字符作为参考关键字特征标识,不必重新定义,简单方便。关键字特征标识库包括:参考关键字特征标识search?keyword。具体地,通过采用search?keyword作为参考关键字特征标识,便于准确判断用户的检索关键字,简单易于实现。
步骤S220:若用户的网络访问数据中包含与参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串。
在步骤S220中,字段提取规则包括:提取参考关键字特征标识后的第一个“=”和第一个“&”之间的字符串作为待转换的字符串来提取待转换的字符。
在具体实现过程中,参考关键字特征标识,与字段提取的规则是一一对应的,可以是不同的参考关键字特征标识对应不同的字段提取的规则,还可以是不同的参考关键字特征标识对应相同的字段提取的规则。优选地,可以根据用户的访问数据的特点进行设定,当确认用户的网络访问数据中的参考关键字特征标识后,将参考关键字特征标识后的第一个“=”和第一个“&”之间的字符串作为待转换的字符串,待转换的字符串的查找范围较小,提高处理速度。
步骤S230:将待转换的字符串还原为关键词。
具体地,可以通过UTF转码,将待转换的字符串还原为中文字符表示的关键字。
在实际应用中,关键字特征标识库可以包括一类搜索网站的参考关键字特征标识,还可以包括多类搜索网站的不同的参考关键字特征标识,采用上述方法提取用户访问的关键词可以完成对所有的网络访问数据进行提取关键词,有利于提取关键词的普适性。
如图3所示,本发明另一实施例提供的用户行为记录的生成方法包括;
步骤S310:从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据。
步骤S320:接收待处理的用户的网络访问数据。
步骤S330:丢弃用户的网络访问数据中的非法字符串;非法字符串是预先设定的。
步骤S340:从用户的网络访问数据中提取URL,将URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。
步骤S350:从用户的网络访问数据中提取用户访问的关键词。
步骤S360:预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。
步骤S370:将所有分解词与预先建立的关键字库中的参考关键词进行匹配。
步骤S380:根据匹配成功的分解词及网址类别,生成用户行为记录。
本实施例提供的用户行为记录的生成方法,通过对用户的网络数据处理,丢弃了一些非法字符串,大大提高了处理速度,另外将关键字进行分解,增加了与预先建立的关键字库中的关键词的匹配成功率,从而根据匹配成功的分解词及网址类别,生成的用户行为记录更准确,便于用户需求的分析。
如图4所示,本发明提供了一种用户行为记录的生成装置,该装置包括:接收模块11、确定模块12、提取模块13、分解模块14、匹配模块15和生成模块16,其中,
接收模块11,用于接收用户的网络访问数据;确定模块12,用于根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别;提取模块13,用于从用户的网络访问数据中提取用户访问的关键词;分解模块14,将用户访问的关键词分解为至少一个分解词;匹配模块15,用于将所有分解词与预先建立的关键字库中的参考关键词进行匹配;生成模块16,用于根据匹配成功的分解词及网址类别,生成用户行为记录。
本实施例所提供的用户行为记录的生成装置可以执行本发明实施例提供的用户行为记录的生成方法,具备相应的功能和有益效果,此处不再赘述。
优选地,确定模块12具体用于从用户的网络访问数据中提取URL,将URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。
如图5所示,在上述实施例的基础上,提取模块13具体包括:建立单元131,用于预先建立关键字特征标识库;关键字特征标识库中包含参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;提取单元132,用于若用户的网络访问数据中包含与参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;还原单元133,用于将待转换的字符串还原为关键词;分解模块具体用于预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。
本发明提供的用户行为记录的生成装置可以执行图2的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
如图6所示,在上述实施例的基础上,还包括抽取模块17、丢弃模块18和创建模块19,其中,
抽取模块17用于从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;接收模块11具体用于接收待处理的用户的网络访问数据;创建模块19用于根据网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个确定用户访问的网址类别的执行任务;丢弃模块18,用于丢弃用户的网络访问数据中的非法字符串;非法字符串是预先设定的。
本发明提供的用户行为记录的生成装置可以执行图3的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户行为记录的生成方法,其特征在于,包括:
接收用户的网络访问数据;
根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别;
从所述用户的网络访问数据中提取用户访问的关键词;
将所述用户访问的关键词分解为至少一个分解词;
将所有所述分解词与预先建立的关键字库中的参考关键词进行匹配;
根据匹配成功的分解词及所述网址类别,生成用户行为记录。
2.根据权利要求1所述的方法,其特征在于,根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别,包括:
从用户的网络访问数据中提取URL,将所述URL与所述预先建立的网址库中保存的网址进行模糊匹配,根据所述模糊匹配的结果确定用户访问的网址类别。
3.根据权利要求1所述的方法,其特征在于,从所述用户的网络访问数据中提取用户访问的关键词,包括:
预先建立关键字特征标识库;
所述关键字特征标识库中包含参考关键字特征标识,以及与所述参考关键字特征标识一一对应的字段提取规则;
若用户的网络访问数据中包含与所述参考关键字特征标识相同的标识字符串,则按照与所述标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;
将所述待转换的字符串还原为关键词。
4.根据权利要求1所述的方法,其特征在于,将所述用户访问的关键词分解为至少一个分解词包括:预先建立分解词表,所述分解词表中包含预设的分解参考词,以所述分解参考词为最小划分单位,将所述关键词划分为至少一个分解参考词。
5.根据权利要求2所述的方法,其特征在于,所述接收用户的网络访问数据之前,还包括:
从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;
所述接收用户的网络访问数据,包括:接收所述待处理的用户的网络访问数据;
接收用户的网络访问数据之后,确定用户访问的网址类别之前还包括:根据所述网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个所述确定用户访问的网址类别的执行任务。
6.根据权利要求1所述的方法,其特征在于,所述接收用户的网络访问数据之后,确定用户访问的网址类别之前,还包括:
丢弃所述用户的网络访问数据中的非法字符串;
所述非法字符串是预先设定的。
7.一种用户行为记录的生成装置,其特征在于,包括:
接收模块,用于接收用户的网络访问数据;
确定模块,用于根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别;
提取模块,用于从所述用户的网络访问数据中提取用户访问的关键词;
分解模块,将所述用户访问的关键词分解为至少一个分解词;
匹配模块,用于将所有所述分解词与预先建立的关键字库中的参考关键词进行匹配;
生成模块,用于根据匹配成功的分解词及所述网址类别,生成用户行为记录。
8.根据权利要求7所述的装置,其特征在于,所述确定模块具体用于:从用户的网络访问数据中提取URL,将所述URL与所述预先建立的网址库中保存的网址进行模糊匹配,根据所述模糊匹配的结果确定用户访问的网址类别。
9.根据权利要求7所述的装置,其特征在于,所述提取模块具体包括:
建立单元,用于预先建立关键字特征标识库;
所述关键字特征标识库中包含参考关键字特征标识,以及与所述参考关键字特征标识一一对应的字段提取规则;
提取单元,用于若用户的网络访问数据中包含与所述参考关键字特征标识相同的标识字符串,则按照与所述标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;
还原单元,用于将所述待转换的字符串还原为关键词;
所述分解模块具体用于预先建立分解词表,所述分解词表中包含预设的分解参考词,以所述分解参考词为最小划分单位,将所述关键词划分为至少一个分解参考词。
10.根据权利要求8所述的装置,其特征在于,还包括抽取模块、创建模块和丢弃模块,
所述抽取模块用于从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;
所述接收模块具体用于接收所述待处理的用户的网络访问数据;
所述创建模块用于根据所述网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个所述确定用户访问的网址类别的执行任务;
所述丢弃模块,用于丢弃所述用户的网络访问数据中的非法字符串;所述非法字符串是预先设定的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310740224.1A CN103646119A (zh) | 2013-12-26 | 2013-12-26 | 用户行为记录的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310740224.1A CN103646119A (zh) | 2013-12-26 | 2013-12-26 | 用户行为记录的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103646119A true CN103646119A (zh) | 2014-03-19 |
Family
ID=50251332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310740224.1A Pending CN103646119A (zh) | 2013-12-26 | 2013-12-26 | 用户行为记录的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103646119A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339422A (zh) * | 2016-08-15 | 2017-01-18 | 南方科技大学 | 一种通过网页地址确定用户行为特征的方法和装置 |
CN106446113A (zh) * | 2016-09-18 | 2017-02-22 | 成都九鼎瑞信科技股份有限公司 | 移动大数据解析方法及装置 |
CN106446115A (zh) * | 2016-09-18 | 2017-02-22 | 成都九鼎瑞信科技股份有限公司 | 移动上网用户分类方法及装置 |
CN106844588A (zh) * | 2017-01-11 | 2017-06-13 | 上海斐讯数据通信技术有限公司 | 一种基于网络爬虫的用户行为数据的分析方法及系统 |
CN107608980A (zh) * | 2016-07-11 | 2018-01-19 | 中国电信股份有限公司 | 基于dpi大数据分析的信息推送方法和系统 |
CN108259544A (zh) * | 2016-12-29 | 2018-07-06 | 新华三技术有限公司 | Url查询方法和url查询服务器 |
CN111898643A (zh) * | 2020-07-01 | 2020-11-06 | 上海依图信息技术有限公司 | 一种语义匹配方法及装置 |
CN113886204A (zh) * | 2021-09-29 | 2022-01-04 | 平安普惠企业管理有限公司 | 用户行为数据收集方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060224583A1 (en) * | 2005-03-31 | 2006-10-05 | Google, Inc. | Systems and methods for analyzing a user's web history |
CN102541892A (zh) * | 2010-12-22 | 2012-07-04 | 北京凯思昊鹏软件工程技术有限公司 | 记录和分析用户行为特征的方法 |
CN102591948A (zh) * | 2011-12-27 | 2012-07-18 | 厦门市美亚柏科信息股份有限公司 | 一种基于用户行为分析的搜索结果改进的方法及其系统 |
CN102685224A (zh) * | 2012-04-28 | 2012-09-19 | 华为技术有限公司 | 用户行为分析方法及相关设备和系统 |
CN102857572A (zh) * | 2012-09-14 | 2013-01-02 | 北京星网锐捷网络技术有限公司 | 一种http访问请求处理方法、装置及网关设备 |
CN102955810A (zh) * | 2011-08-26 | 2013-03-06 | 中国移动通信集团公司 | 一种网页分类方法和设备 |
-
2013
- 2013-12-26 CN CN201310740224.1A patent/CN103646119A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060224583A1 (en) * | 2005-03-31 | 2006-10-05 | Google, Inc. | Systems and methods for analyzing a user's web history |
CN102541892A (zh) * | 2010-12-22 | 2012-07-04 | 北京凯思昊鹏软件工程技术有限公司 | 记录和分析用户行为特征的方法 |
CN102955810A (zh) * | 2011-08-26 | 2013-03-06 | 中国移动通信集团公司 | 一种网页分类方法和设备 |
CN102591948A (zh) * | 2011-12-27 | 2012-07-18 | 厦门市美亚柏科信息股份有限公司 | 一种基于用户行为分析的搜索结果改进的方法及其系统 |
CN102685224A (zh) * | 2012-04-28 | 2012-09-19 | 华为技术有限公司 | 用户行为分析方法及相关设备和系统 |
CN102857572A (zh) * | 2012-09-14 | 2013-01-02 | 北京星网锐捷网络技术有限公司 | 一种http访问请求处理方法、装置及网关设备 |
Non-Patent Citations (1)
Title |
---|
赵龙 等: "基于Hive的海量搜索日志分析系统研究", 《计算机应用研究》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608980A (zh) * | 2016-07-11 | 2018-01-19 | 中国电信股份有限公司 | 基于dpi大数据分析的信息推送方法和系统 |
CN106339422A (zh) * | 2016-08-15 | 2017-01-18 | 南方科技大学 | 一种通过网页地址确定用户行为特征的方法和装置 |
CN106446113A (zh) * | 2016-09-18 | 2017-02-22 | 成都九鼎瑞信科技股份有限公司 | 移动大数据解析方法及装置 |
CN106446115A (zh) * | 2016-09-18 | 2017-02-22 | 成都九鼎瑞信科技股份有限公司 | 移动上网用户分类方法及装置 |
CN108259544A (zh) * | 2016-12-29 | 2018-07-06 | 新华三技术有限公司 | Url查询方法和url查询服务器 |
CN106844588A (zh) * | 2017-01-11 | 2017-06-13 | 上海斐讯数据通信技术有限公司 | 一种基于网络爬虫的用户行为数据的分析方法及系统 |
CN111898643A (zh) * | 2020-07-01 | 2020-11-06 | 上海依图信息技术有限公司 | 一种语义匹配方法及装置 |
CN111898643B (zh) * | 2020-07-01 | 2024-02-23 | 上海依图信息技术有限公司 | 一种语义匹配方法及装置 |
CN113886204A (zh) * | 2021-09-29 | 2022-01-04 | 平安普惠企业管理有限公司 | 用户行为数据收集方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103646119A (zh) | 用户行为记录的生成方法及装置 | |
Li et al. | Filtering out the noise in short text topic modeling | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
US11799823B2 (en) | Domain name classification systems and methods | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
WO2017084586A1 (zh) | 基于深度学习方法推断恶意代码规则的方法、系统及设备 | |
CN103313248B (zh) | 一种识别垃圾信息的方法和装置 | |
CN110298029B (zh) | 基于用户语料的好友推荐方法、装置、设备及介质 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
Wang et al. | Mining multi-aspect reflection of news events in twitter: Discovery, linking and presentation | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN103902535A (zh) | 获取联想词的方法、装置及系统 | |
CN104424187B (zh) | 一种向客户端用户推荐好友的方法及装置 | |
CN112612761B (zh) | 一种数据清洗方法、装置、设备及存储介质 | |
Hsu et al. | Integrating machine learning and open data into social Chatbot for filtering information rumor | |
US20210358042A1 (en) | Stock recommendation method based on item attribute identification and the system thereof | |
CN103534696A (zh) | 针对口语语言理解中的域检测利用查询点击记录 | |
Elshater et al. | godiscovery: Web service discovery made efficient | |
KR20210063874A (ko) | 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치 | |
CN103095849A (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
US10217455B2 (en) | Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
US9323721B1 (en) | Quotation identification | |
CN106982147B (zh) | 一种Web通讯应用的通讯监控方法和装置 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140319 |
|
RJ01 | Rejection of invention patent application after publication |