CN112163158A - 一种基于搜索历史、浏览足迹的搜索推荐方法 - Google Patents
一种基于搜索历史、浏览足迹的搜索推荐方法 Download PDFInfo
- Publication number
- CN112163158A CN112163158A CN202011074519.6A CN202011074519A CN112163158A CN 112163158 A CN112163158 A CN 112163158A CN 202011074519 A CN202011074519 A CN 202011074519A CN 112163158 A CN112163158 A CN 112163158A
- Authority
- CN
- China
- Prior art keywords
- user
- documents
- search
- browsing
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于搜索历史、浏览足迹的搜索推荐方法,本发明首先通过文档相似度算法处理大量文档,并建立文档相似度关系,同时记录用户的搜索历史和浏览足迹,对搜索历史进行语义分词提取关键词并通过关键词匹配文档与浏览足迹相似文档进行组合去重,最后推荐给用户,从而解决传统推荐算法推荐不准、重复的问题。
Description
技术领域
本发明涉及一种基于搜索历史、浏览足迹的搜索推荐方法。
背景技术
现有技术主要由基于内容推荐、协同过滤算法推荐、关联推荐等,但是这些算法都存在不同的缺点,基于内容推荐算法对于复杂属性不好处理,协同过滤算法存在稀疏问题和扩展性问题。
发明内容
有鉴于此,本发明的目的是提供一种基于搜索历史、浏览足迹的搜索推荐方法。能够克服背景技术中现有技术存在的缺陷。
本发明的第一方面的目的是通过以下技术方案实现的:
一种基于搜索历史、浏览足迹的搜索推荐方法,所述方法包括以下步骤:
步骤S1:建立文档相似度关系,在处理大量文档的过程中,计算文档相似度,梳理文档相似度关系;
步骤S2:根据设定的用户标签,再从用户标签中提取前N个最活跃的标签,根据这些标签到文档库中进行全文搜索,对搜索到的文档进行排序,匹配标签越多权重越高;
步骤S3:根据用户的浏览足迹,取出最新的M条记录,根据这M条记录在数据库中查找文档的相似文档,相似度越高排名越靠前;
步骤S4:从用户标签中推荐的文档和从浏览足迹中找到的相似文档,对这些文档进行合并,去掉重复记录,去掉用户已经浏览过的记录,最终做加权排序再推荐给用户。
特别地,所述步骤S1中,使用simHash算法计算文档相似度。
特别地,步骤S1包括的具体步骤如下:
步骤S11:计算文档的simHash值;
步骤S12:比较文档的simHash值相似度,如果大于阈值则保存文档相似记录,然后进入下一步;如果小于阈值则直接进入下一步;
步骤S13:保存文档信息,结束。
特别地,所诉步骤S2中,用户标签通过用户的搜索记录智能提取或直接由用户手动添加自己的关键词,通过用户的搜索记录智能提取是根据用户的搜索记录使用nlp分词、去掉停用词及标点符号,最后提取出用户搜索的关键词,以此关键词作为用户标签。
特别地,所述N值为20、30、40或50。
特别地,所述M值为20、30、40或50。
本发明的第二方面的目的是提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的方法。
本发明的第三方面的目的是提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法。
本发明的有益效果是:本发明首先通过文档相似度算法处理大量文档,并建立文档相似度关系,同时记录用户的搜索历史和浏览足迹,对搜索历史进行语义分词提取关键词并通过关键词匹配文档与浏览足迹相似文档进行组合去重,最后推荐给用户,从而解决传统推荐算法推荐不准、重复的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明的方法流程示意图;
图2为相似度判定原则示意图;
图3为步骤S1的具体流程示意图;
图4为步骤S2的实现实例示意图;
图5为标签提取的具体应用实例流程示意图;
图6为步骤S3中将相似文档推荐给用户具体流程示意图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
本发明的一种基于搜索历史、浏览足迹的搜索推荐方法,包括以下步骤:
步骤S1:建立文档相似度关系,在处理大量文档的过程中,计算文档相似度,梳理文档相似度关系;
文档一般都是是非结构化数据,文档之间虽然存在一定的关联性,但是现有技术要从中找出内在关联比较难,本发明通过计算文档相似度以及文档关键词匹配的方式极大地降低了查找文档之间内在关联以及用户与文档之间隐含关系的难度,为推荐的准确性提供了基础保障。
分析文档相似度时,提前设置阈值,比如设置阈值为60.00,两篇文档相似度大于60.00则认为他们是相似的,图2示例中《文档1》与《文档3》、《文档1》与《文档2》、《文档2》与《文档4》相似度都大于60.00,因此他们是相似文档,其他的文档则认为不相似。
本实施例中,使用simHash算法计算文档相似度。
如图3所示,步骤S1包括的具体步骤如下:
步骤S11:导入文档,计算文档的simHash值;
步骤S12:比较文档的simHash值相似度,如果大于阈值则保存文档相似记录,然后进入下一步;如果小于阈值则直接进入下一步;
步骤S13:保存文档信息,结束。
对于大量篇幅较长的文档,直接计算相似度是比较困难的,因此,本实施例使用SimHash算法分词、加权、合并累加以及降维等操作后计算长文本的相似度变得简单很多,通过提前设定好相似度阈值,如果两篇文档的SimHash值大于阈值则认为这两篇文档相似,将相似度关系存入数据库,后续可直接通过文档查找到与其相似的文档。
步骤S2:根据设定的用户标签,再从用户标签中提取前N个最活跃的标签,根据这些标签到文档库中进行全文搜索,对搜索到的文档进行排序,匹配标签越多权重越高;实现实例如图4所示。
关于用户标签的来源,主要有两个来源:
1)搜索记录智能提取,根据用户的搜索记录使用nlp分词、去掉停用词及标点符号等,最后提取出用户搜索的关键词,以此关键词作为用户标签。
2)手动添加,用户可以手动添加自己的关键词,以便系统能够准确进行推荐,手动添加的关键词优先于搜索记录只能提取的标签。
一个具体的应用实例流程如图5所示。
步骤S3:用户在每次浏览文档详情时,系统自动记录浏览文档及浏览时间,根据用户的浏览足迹,取出最新的M条记录,根据这M条记录在数据库中查找文档的相似文档,相似度越高排名越靠前;
用户浏览足迹是分析用户关注点及用户喜好的一个数据来源,一般情况下用户会浏览自己感兴趣的文档,从用户浏览足迹中即可分析出用户最近关注的文档类型,通过文档相似度关联,就能找到用户最近浏览记录的相似文档,将相似文档推荐给用户具体流程如图6所示。
步骤S4:从用户标签中推荐的文档和从浏览足迹中找到的相似文档,对这些文档进行合并,去掉重复记录,去掉用户已经浏览过的记录,最终做加权排序再推荐给用户。
本发明的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于搜索历史、浏览足迹的搜索推荐方法,其特征在于:所述方法包括以下步骤:
步骤S1:建立文档相似度关系,在处理大量文档的过程中,计算文档相似度,梳理文档相似度关系;
步骤S2:根据设定的用户标签,再从用户标签中提取前N个最活跃的标签,根据这些标签到文档库中进行全文搜索,对搜索到的文档进行排序,匹配标签越多权重越高;
步骤S3:根据用户的浏览足迹,取出最新的M条记录,根据这M条记录在数据库中查找文档的相似文档,相似度越高排名越靠前;
步骤S4:从用户标签中推荐的文档和从浏览足迹中找到的相似文档,对这些文档进行合并,去掉重复记录,去掉用户已经浏览过的记录,最终做加权排序再推荐给用户。
2.根据权利要求1所述的一种基于搜索历史、浏览足迹的搜索推荐方法,其特征在于:所述步骤S1中,使用simHash算法计算文档相似度。
3.根据权利要求2所述的一种基于搜索历史、浏览足迹的搜索推荐方法,其特征在于:步骤S1包括的具体步骤如下:
步骤S11:计算文档的simHash值;
步骤S12:比较文档的simHash值相似度,如果大于阈值则保存文档相似记录,然后进入下一步;如果小于阈值则直接进入下一步;
步骤S13:保存文档信息,结束。
4.根据权利要求1所述的一种基于搜索历史、浏览足迹的搜索推荐方法,其特征在于:所述N值为20、30、40或50。
5.根据权利要求1所述的一种基于搜索历史、浏览足迹的搜索推荐方法,其特征在于:所述M值为20、30、40或50。
6.根据权利要求1所述的一种基于搜索历史、浏览足迹的搜索推荐方法,其特征在于:所诉步骤S2中,用户标签通过用户的搜索记录智能提取或直接由用户手动添加自己的关键词,通过用户的搜索记录智能提取是根据用户的搜索记录使用nlp分词、去掉停用词及标点符号,最后提取出用户搜索的关键词,以此关键词作为用户标签。
7.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。
8.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074519.6A CN112163158A (zh) | 2020-10-09 | 2020-10-09 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074519.6A CN112163158A (zh) | 2020-10-09 | 2020-10-09 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163158A true CN112163158A (zh) | 2021-01-01 |
Family
ID=73866649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011074519.6A Pending CN112163158A (zh) | 2020-10-09 | 2020-10-09 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163158A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704408A (zh) * | 2021-08-31 | 2021-11-26 | 工银科技有限公司 | 检索方法、装置、电子设备、存储介质和程序产品 |
CN116501969A (zh) * | 2023-04-28 | 2023-07-28 | 北京泰茂科技股份有限公司 | 一种基于个性化推荐算法的医药数据搜索系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829819A (zh) * | 2018-06-12 | 2018-11-16 | 上海智臻智能网络科技股份有限公司 | 个性化文本推荐方法及系统、服务器、可读存储介质 |
CN109191186A (zh) * | 2018-08-16 | 2019-01-11 | 安徽超清科技股份有限公司 | 一种基于大数据的智能推荐系统 |
CN111737558A (zh) * | 2020-05-21 | 2020-10-02 | 苏宁金融科技(南京)有限公司 | 一种资讯推荐方法、装置及计算机可读存储介质 |
-
2020
- 2020-10-09 CN CN202011074519.6A patent/CN112163158A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829819A (zh) * | 2018-06-12 | 2018-11-16 | 上海智臻智能网络科技股份有限公司 | 个性化文本推荐方法及系统、服务器、可读存储介质 |
CN109191186A (zh) * | 2018-08-16 | 2019-01-11 | 安徽超清科技股份有限公司 | 一种基于大数据的智能推荐系统 |
CN111737558A (zh) * | 2020-05-21 | 2020-10-02 | 苏宁金融科技(南京)有限公司 | 一种资讯推荐方法、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
勇敢牛牛: "《https://blog.csdn.net/wxgxgp/article/details/104106867》", 30 January 2020 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704408A (zh) * | 2021-08-31 | 2021-11-26 | 工银科技有限公司 | 检索方法、装置、电子设备、存储介质和程序产品 |
CN116501969A (zh) * | 2023-04-28 | 2023-07-28 | 北京泰茂科技股份有限公司 | 一种基于个性化推荐算法的医药数据搜索系统 |
CN116501969B (zh) * | 2023-04-28 | 2024-01-30 | 北京泰茂科技股份有限公司 | 一种基于个性化推荐算法的医药数据搜索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052659B (zh) | 基于人工智能的搜索方法、装置和电子设备 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
US8433140B2 (en) | Image metadata propagation | |
US7769751B1 (en) | Method and apparatus for classifying documents based on user inputs | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US20170262429A1 (en) | Collecting Training Data using Anomaly Detection | |
CN109145110B (zh) | 标签查询方法和装置 | |
CN109815386B (zh) | 一种基于用户画像的构建方法、装置及存储介质 | |
US20180060287A1 (en) | Expanding input content utilizing previously-generated content | |
CN111160019B (zh) | 一种舆情监测的方法、装置及系统 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN112163158A (zh) | 一种基于搜索历史、浏览足迹的搜索推荐方法 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN108536665A (zh) | 一种确定语句一致性的方法及装置 | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN111651675A (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
US20110099066A1 (en) | Utilizing user profile data for advertisement selection | |
Liang et al. | Detecting novel business blogs | |
CN106570116B (zh) | 基于人工智能的搜索结果的聚合方法及装置 | |
CN108921431A (zh) | 政企客户聚类方法及装置 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
US20220050884A1 (en) | Utilizing machine learning models to automatically generate a summary or visualization of data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |