CN112380457A - 一种基于采购信息的精准个性化推荐方法 - Google Patents

一种基于采购信息的精准个性化推荐方法 Download PDF

Info

Publication number
CN112380457A
CN112380457A CN202011417355.2A CN202011417355A CN112380457A CN 112380457 A CN112380457 A CN 112380457A CN 202011417355 A CN202011417355 A CN 202011417355A CN 112380457 A CN112380457 A CN 112380457A
Authority
CN
China
Prior art keywords
information
recommendation
supplier
data
suppliers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011417355.2A
Other languages
English (en)
Inventor
张牡
王贺春
苑洪亮
肖和龙
白文杰
张熙
郑翠梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Junmin Advanced Technology Research Co ltd
Original Assignee
Changsha Junmin Advanced Technology Research Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Junmin Advanced Technology Research Co ltd filed Critical Changsha Junmin Advanced Technology Research Co ltd
Priority to CN202011417355.2A priority Critical patent/CN112380457A/zh
Publication of CN112380457A publication Critical patent/CN112380457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于采购信息的精准个性化推荐方法。所述一种基于采购信息的精准个性化推荐方法包括如下步骤:获取供应商、采购商的信息,并将数据存储;对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;将采购信息推荐给与之匹配的采购商。本发明提出了一种全新的点云配准方法体系,能够将采购信息和供应商精准个性化匹配,将具有个性化推荐特征的采购信息推荐给供应商。

Description

一种基于采购信息的精准个性化推荐方法
技术领域
本发明涉及计算机技术领域,特别涉及一种基于采购信息的精准个性化推荐方法。
背景技术
近年来,互联网信息指数级增长,推荐系统能够帮助用户发现感兴趣的物品,目前被广泛应用于电子商务、搜索引擎、视频音乐网站、社交网络等。想上网购物,推荐系统会帮你挑选满意的商品;想了解资讯,推荐系统会为你准备感兴趣的新闻;想学习充电,推荐系统会为你提供适合你的课程;想消遣放松,推荐系统会为你奉上让你欲罢不能的短视频;想闭目养神,推荐系统会给你播放应景的音乐,可以说,推荐系统从来没有像现在这样影响着人们的生活。
随着互联网技术的发展,各供应商可以在网上查询到的采购信息的种类越来越多、数据量也越来越大,如全国招标采购信息平台、政府采购信息网等,每天发布数以万计的采购信息。如何在如此海量的数据中,需解决将信息繁杂、给每条采购信息准确匹配到精准的供应商的技术问题。
发明内容
本发明提供了一种基于采购信息的精准个性化推荐方法,其目的是为了解决背景技术中在海量的数据中,将信息繁杂、给采购信息准确匹配到精准的供应商的技术问题。
为了达到上述目的,本发明提供的一种基于采购信息的精准个性化推荐方法,步骤S1、获取供应商、采购商的信息,并将数据存储;
步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;
步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;
步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。
优选地,所述步骤S1中获取供应商、采购商的信息包括:步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。
优选地,所述步骤S1中获取供应商、采购商的信息还包括:步骤S12、从现有系统数据中获得供应商、采购商的信息,具体包括如下步骤:
步骤S121、供应商、采购商进行注册成为系统用户;
步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。
优选地,所述步骤S11、从网上采集信息具体包括如下步骤:
步骤S111、编写具有绕过反爬虫能力的爬虫程序;
步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。
优选地,所述步骤S112具体包括如下步骤:
步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;
步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;
步骤S1123、使用Http协议完成页面的抓取;
步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;
步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;
步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;
步骤S1127、根据更新后的URL进行爬取,判断是否达到用户设定的停止爬取条件,若达到就停止,没有达到就一直循环执行爬取。
优选地,所述步骤S2中数据预处理为采用数据清洗、中文分词、词性标注、停用词过滤,具体包括如下步骤:
步骤S21、数据清洗:初步过滤获取的信息中的无用信息,保留有用信息,最终留下的是只包含特征词的文本集合;
步骤S22、进行分词和词性标注:将满足指定词性的词作为候选词;
步骤S23、分别计算每个词的TF-IDF值;
步骤S24、根据每个词的TF-IDF值降序排列,采集候选标签,输出指定个数的可能的关键词。
优选地,所述步骤S3中标签抽取具体为通过包括基于词频、基于支持向量机的方法进行标签抽取,包括如下步骤:
步骤S31、获得用户属性数据库及候选物品集合;
步骤S32、通过特征向量对用户属性数据库进行特征提取,从候选物品集合中获得初始特征物品相关推荐;
步骤S33、结合候选物品集合过滤、排名及推荐解释选择的特征,确定最终推荐结果。
优选地,所述步骤S3中基于协同过滤推荐包括基于供应商的协同过滤算法推荐及基于采购信息的协同过滤算法推荐,其中:
所述基于供应商的协同过滤算法推荐具体为:当新增一个供应商时,将步骤S1中数据存储中与它同行业、并且经营范围相似的供应商感兴趣的数据,同时推荐给该供应商;
基于采购信息的协同过滤算法推荐具体为:根据供应商以前感兴趣的采购数据,将步骤S1中数据存储中与其以前感兴趣的采购数据有着相同标签的数据,同时推荐给该供应商。
优选地,所述步骤S3中基于内容推荐具体为根据供应商历史信息构成供应商偏好文档,计算推荐采购信息与供应商偏好文档的相似度,将最相似的采购信息推荐给该供应商。
优选地,所述步骤S3中选取最符合要求的推荐算法具体为:
当步骤S1中数据存储中数据量不大时,可使用单一的算法,可得到对应的供应商数据匹配;
当步骤S1中数据存储中数据量比较大时,则先基于供应商的协同过滤算法产生一种粗糙的推荐结果,再使用基于采购信息的协同过滤算法剔除进一步完善,最后使用基于内容的协同过滤算法在前面推荐结果的基础上进一步做出更精确的推荐。
采用本发明能达到的技术效果为:本发明通过数字运算技术为供应商匹配相关的采购信息,并将采购信息快速准确的推荐给供应商。
附图说明
图1为本发明的一种基于采购信息的精准个性化推荐方法的总体流程图;
图2为本发明的一种基于采购信息的精准个性化推荐方法的从网上采集数据的流程图;
图3为本发明的一种基于采购信息的精准个性化推荐方法的词性标注流程图;
图4为本发明的一种基于采购信息的精准个性化推荐方法的标签抽取的数据推荐流程图;
图5为本发明的一种基于采购信息的精准个性化推荐方法的基于供应商的协同过滤算法图;
图6为本发明的一种基于采购信息的精准个性化推荐方法的基于采购信息的协同过滤算法图;
图7为本发明的一种基于采购信息的精准个性化推荐方法的基于内容的协同过滤算法图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的问题,提供了一种基于采购信息的精准个性化推荐方法。
如图1所示,为本发明所述方法的流程图,一种基于采购信息的精准个性化推荐方法,步骤S1、获取供应商、采购商的信息,并将数据存储;
步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;
步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排在前五的供应商;
步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。
所述步骤S1中获取供应商、采购商的信息包括:
步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。
步骤S12、从现有系统数据中获得供应商、采购商的信息;具体包括如下步骤:
步骤S121、供应商、采购商进行注册成为系统用户;
步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。
所述步骤S11、从网上采集信息具体包括如下步骤:
步骤S111、编写具有绕过反爬虫能力的爬虫程序;所述爬虫程序具体为采用关闭Robots协议、伪造请求头、基于IP代理、基于Cookies、限速访问的方式有效地获取网站数据的程序。即使Robots被称为双方的“君子协定”,然而很多情况下如果开启这个协议会让爬虫一无所获。伪造请求头为:服务器通过User-Agent字段知道访问网站的谁,每个浏览器都有正规的固定的User-Agent,爬虫只要伪装成正规的浏览器,服务器是分辨不出来的。基于IP代理为:使用IP代理轮流访问网站,使访问服务器的时间延迟加大,频率减小,服务器难以检测。基于Cookies为:研究目标网站的Cookies过期事件,可以模拟浏览器,定时生成Cookies访问网站而不被封。限速访问为:如果爬虫循环无休眠地暴力爬取数据,那IP随时被封,爬虫的限速访问实现容易,抓取时间长,效率也高,结合IP代理可以很快地实现爬取目标内容。
步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。
如图2所示,所述步骤S112具体包括如下步骤:
步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;
步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;
步骤S1123、使用Http协议完成页面的抓取;
步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;
步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;
步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;
步骤S1127、根据更新后的URL进行爬取,判断是否达到用户设定的停止爬取条件,若达到就停止,没有达到就一直循环执行爬取。
所述步骤S2中数据预处理为采用数据清洗、中文分词、词性标注、停用词过滤,具体包括如下步骤:
步骤S21、数据清洗:初步过滤获取的信息中的无用信息,如一些无关的符号,日期等,保留有用信息,最终留下的是只包含特征词的文本集合;
步骤S22、进行分词和词性标注:将满足指定词性的词作为候选词;
其中,中文分词为:从无分隔的中文句子中识别出各个单词;
如图3所示,词性标注为:为文本中经分词得到的每一个词都标记上一个合适的标记,即确定每个词是名词、动词、形容词或其他词性。
步骤S23、分别计算每个词的TF-IDF(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)值;
步骤S24、根据每个词的TF-IDF值降序排列,采集候选标签,输出指定个数的可能的关键词。
如图4所示,所述步骤S3中标签抽取具体为通过包括基于词频、基于支持向量机的方法进行标签抽取,包括如下步骤:
步骤S31、获得用户属性数据库及候选物品集合;
步骤S32、通过特征向量对用户属性数据库进行特征提取,从候选物品集合中获得初始特征物品相关推荐;
步骤S33、结合候选物品集合过滤、排名及推荐解释选择的特征,确定最终推荐结果。
其中推荐解释具体为:通过对采购商发布的相关采购信息、供应商行业和各供应商的经营范围交互来预测供应商感兴趣的采购信息,从而向特定供应商推荐最适合的采购信息。
所述步骤S3中基于协同过滤推荐包括基于供应商的协同过滤算法推荐及基于采购信息的协同过滤算法推荐,其中:
如图5所示,所述基于供应商的协同过滤算法推荐具体为:当新增一个供应商时,将步骤S1中数据存储中与它同行业、并且经营范围相似的供应商感兴趣的数据,同时推荐给该供应商;
如图6所示,基于采购信息的协同过滤算法推荐具体为:根据供应商以前感兴趣的采购数据,将步骤S1中数据存储中与其以前感兴趣的采购数据有着相同标签的数据,同时推荐给该供应商。
如图7所示,所述步骤S3中基于内容推荐具体为根据供应商历史信息构成供应商偏好文档,计算推荐采购信息与供应商偏好文档的相似度,将最相似的采购信息推荐给该供应商。
所述步骤S3中选取最符合要求的推荐算法具体为:
当步骤S1中数据存储中数据量不大时,可使用单一的算法,可得到对应的供应商数据匹配;
当步骤S1中数据存储中数据量比较大时,则先基于供应商的协同过滤算法产生一种粗糙的推荐结果,再使用基于采购信息的协同过滤算法剔除进一步完善,最后使用基于内容的协同过滤算法在前面推荐结果的基础上进一步做出更精确的推荐。
在本发明的另一较佳实施例中,利用爬虫程序抓取“计算机设备”这一品目的采购信息及供应商,通过供应商标签与采购信息的关联分析以探测供应商标签与其发布的采购信息的主题相关性,从而为基于供应商标签的采购信息识别提供可能性。具体包括如下步骤:
步骤1:供应商数据采集。采集带有“科技、研究”行业的供应商为研究对象,通过爬虫程序抓取245家供应商数据,其中供应商涉及供应商名称、供应商类型、所属行业、地址、供应商概况、经营范围、成立时间等。
步骤2:采购信息数据采集。采集带有“计算机设备”、“软件设备”的采购信息,通过爬虫程序抓取15377条采购信息,其中采购信息涉及采购信息名称、采购编码、采购信息描述、对合作方要求、截止时间、交货时间、交货地点等。
步骤3:数据预处理、标签匹配。
1)数据清洗:在数据准备过程中,利用爬虫程序获取用户自定义的标签,此次获取245家供应商,去掉标签量为0的用户,最后得到207位供应商以及14399条采购信息。
2)分词处理:在上述数据基础上,对供应商、采购信息进行分词,通过结巴分词系统对供应商信息分词,得到结果中的词都带有词性标记,比如名词/n、动词/v、形容词/a。而标签基本以名词为主,将其他词性的数据排除。最终得到:一台、一个、。将一些没有意义的描述词去掉,最终供应商对应的标签:计算机设备、硬件设备、网络硬件、北京。
3)供应商标签与采购信息标签匹配。
步骤4:根据基于采购信息的协同过滤算法,将采购商和采购信息一一匹配起来。
本发明通过数字运算技术为供应商匹配相关的采购信息,并将采购信息快速准确的推荐给供应商。具体针对供应商在海量的采购信息中找到贴合自己的采购信息从而解决信息过载问题,一种基于采购信息的精准个性化推荐方法最重要的功能是通过分析供应商的行为和其他供应商的行为来生成个性化的推荐,从而“猜测”供应商的偏好和兴趣。一种基于采购信息个性化推荐服务不仅可以提高采购信息利用率,而且能让供应商快速地匹配到符合要求的采购信息。本发明主要基于个性化算法、信息搜寻行为、供应商偏好进行。以采购信息对应的标签、供应商行业、经营范围为中间变量,探讨个性化推荐特征如何影响采购信息推荐给供应商。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于采购信息的精准个性化推荐方法,其特征在于,包括如下步骤:
步骤S1、获取供应商、采购商的信息,并将数据存储;
步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;
步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;
步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。
2.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S1中获取供应商、采购商的信息包括:步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。
3.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S1中获取供应商、采购商的信息还包括:步骤S12、从现有系统数据中获得供应商、采购商的信息,具体包括如下步骤:
步骤S121、供应商、采购商进行注册成为系统用户;
步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。
4.根据权利要求2所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S11、从网上采集信息具体包括如下步骤:
步骤S111、编写具有绕过反爬虫能力的爬虫程序;
步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。
5.根据权利要求4所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S112具体包括如下步骤:
步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;
步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;
步骤S1123、使用Http协议完成页面的抓取;
步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;
步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;
步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;
步骤S1127、根据更新后的URL进行爬取,判断是否达到用户设定的停止爬取条件,若达到就停止,没有达到就一直循环执行爬取。
6.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S2中数据预处理为采用数据清洗、中文分词、词性标注、停用词过滤,具体包括如下步骤:
步骤S21、数据清洗:初步过滤获取的信息中的无用信息,保留有用信息,最终留下的是只包含特征词的文本集合;
步骤S22、进行分词和词性标注:将满足指定词性的词作为候选词;
步骤S23、分别计算每个词的TF-IDF值;
步骤S24、根据每个词的TF-IDF值降序排列,采集候选标签,输出指定个数的可能的关键词。
7.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S3中标签抽取具体为通过包括基于词频、基于支持向量机的方法进行标签抽取,包括如下步骤:
步骤S31、获得用户属性数据库及候选物品集合;
步骤S32、通过特征向量对用户属性数据库进行特征提取,从候选物品集合中获得初始特征物品相关推荐;
步骤S33、结合候选物品集合过滤、排名及推荐解释选择的特征,确定最终推荐结果。
8.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S3中基于协同过滤推荐包括基于供应商的协同过滤算法推荐及基于采购信息的协同过滤算法推荐,其中:
所述基于供应商的协同过滤算法推荐具体为:当新增一个供应商时,将步骤S1中数据存储中与它同行业、并且经营范围相似的供应商感兴趣的数据,同时推荐给该供应商;
基于采购信息的协同过滤算法推荐具体为:根据供应商以前感兴趣的采购数据,将步骤S1中数据存储中与其以前感兴趣的采购数据有着相同标签的数据,同时推荐给该供应商。
9.根据权利要求8所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S3中基于内容推荐具体为根据供应商历史信息构成供应商偏好文档,计算推荐采购信息与供应商偏好文档的相似度,将最相似的采购信息推荐给该供应商。
10.根据权利要求9所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S3中选取最符合要求的推荐算法具体为:
当步骤S1中数据存储中数据量不大时,可使用单一的算法,可得到对应的供应商数据匹配;
当步骤S1中数据存储中数据量比较大时,则先基于供应商的协同过滤算法产生一种粗糙的推荐结果,再使用基于采购信息的协同过滤算法剔除进一步完善,最后使用基于内容的协同过滤算法在前面推荐结果的基础上进一步做出更精确的推荐。
CN202011417355.2A 2020-12-07 2020-12-07 一种基于采购信息的精准个性化推荐方法 Pending CN112380457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417355.2A CN112380457A (zh) 2020-12-07 2020-12-07 一种基于采购信息的精准个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417355.2A CN112380457A (zh) 2020-12-07 2020-12-07 一种基于采购信息的精准个性化推荐方法

Publications (1)

Publication Number Publication Date
CN112380457A true CN112380457A (zh) 2021-02-19

Family

ID=74590625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417355.2A Pending CN112380457A (zh) 2020-12-07 2020-12-07 一种基于采购信息的精准个性化推荐方法

Country Status (1)

Country Link
CN (1) CN112380457A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239319A (zh) * 2021-05-17 2021-08-10 云工工业科技(深圳)有限公司 一种自动匹配及推送给供应商来投标报价的方法
CN113420231A (zh) * 2021-05-25 2021-09-21 国网浙江省电力有限公司物资分公司 一种应用于采购系统的数据推荐算法
CN114387010A (zh) * 2021-12-07 2022-04-22 北京隆道网络科技有限公司 一种基于供应链管理的信息推送方法及系统
CN116188115A (zh) * 2023-03-07 2023-05-30 欧冶工业品股份有限公司 基于供应链网络需求与偏好挖掘的供应商推荐系统及方法
CN116680268A (zh) * 2023-06-09 2023-09-01 四川观想科技股份有限公司 一种智能装备全生命周期综合保障数据管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156450A (zh) * 2014-08-15 2014-11-19 同济大学 一种基于用户网络数据的物品信息推荐方法
CN108256024A (zh) * 2018-01-10 2018-07-06 链家网(北京)科技有限公司 一种房源推荐方法
CN108960986A (zh) * 2018-06-26 2018-12-07 西安交通大学 一种基于网络爬虫的供应商推荐方法
CN109767292A (zh) * 2018-12-20 2019-05-17 厦门笨鸟电子商务有限公司 一种买家公司推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156450A (zh) * 2014-08-15 2014-11-19 同济大学 一种基于用户网络数据的物品信息推荐方法
CN108256024A (zh) * 2018-01-10 2018-07-06 链家网(北京)科技有限公司 一种房源推荐方法
CN108960986A (zh) * 2018-06-26 2018-12-07 西安交通大学 一种基于网络爬虫的供应商推荐方法
CN109767292A (zh) * 2018-12-20 2019-05-17 厦门笨鸟电子商务有限公司 一种买家公司推荐方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239319A (zh) * 2021-05-17 2021-08-10 云工工业科技(深圳)有限公司 一种自动匹配及推送给供应商来投标报价的方法
CN113420231A (zh) * 2021-05-25 2021-09-21 国网浙江省电力有限公司物资分公司 一种应用于采购系统的数据推荐算法
CN114387010A (zh) * 2021-12-07 2022-04-22 北京隆道网络科技有限公司 一种基于供应链管理的信息推送方法及系统
CN114387010B (zh) * 2021-12-07 2022-07-12 北京隆道网络科技有限公司 一种基于供应链管理的信息推送方法及系统
CN116188115A (zh) * 2023-03-07 2023-05-30 欧冶工业品股份有限公司 基于供应链网络需求与偏好挖掘的供应商推荐系统及方法
CN116680268A (zh) * 2023-06-09 2023-09-01 四川观想科技股份有限公司 一种智能装备全生命周期综合保障数据管理方法
CN116680268B (zh) * 2023-06-09 2024-02-27 四川观想科技股份有限公司 一种智能装备全生命周期综合保障数据管理方法

Similar Documents

Publication Publication Date Title
Khder Web scraping or web crawling: State of art, techniques, approaches and application.
CN112380457A (zh) 一种基于采购信息的精准个性化推荐方法
Heydari et al. Detection of fake opinions using time series
CN108694223B (zh) 一种用户画像库的构建方法及装置
Zhao et al. Connecting social media to e-commerce: Cold-start product recommendation using microblogging information
EP3239855A1 (en) Analysis and collection system for user interest data and method therefor
US20120198056A1 (en) Techniques for Analyzing Website Content
CN106682925A (zh) 广告内容的推荐方法及装置
CN106919625B (zh) 一种互联网用户属性识别方法和装置
US11561988B2 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
CN103886074A (zh) 基于社交媒体的商品推荐系统
CN111949869A (zh) 一种基于人工智能的内容信息推荐方法及系统
CN110298029A (zh) 基于用户语料的好友推荐方法、装置、设备及介质
EP3289487B1 (en) Computer-implemented methods of website analysis
TW201401088A (zh) 搜索方法和裝置
CN107133854A (zh) 信息推荐方法和装置
US9619705B1 (en) Object identification in visual media
Radovanović et al. Review spam detection using machine learning
Rao et al. A survey on methods used in web usage mining
CN111858915A (zh) 基于标签相似度的信息推荐方法及系统
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN111611484A (zh) 一种基于物品属性识别的股票推荐方法及系统
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN114201680A (zh) 一种向用户推荐营销产品内容的方法
KR20190055963A (ko) 키워드검색 분석을 통한 온라인 쇼핑몰의 상품 노출 시스템 및 그 운영방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219