CN110059246A - 智能撮合系统 - Google Patents
智能撮合系统 Download PDFInfo
- Publication number
- CN110059246A CN110059246A CN201910196864.8A CN201910196864A CN110059246A CN 110059246 A CN110059246 A CN 110059246A CN 201910196864 A CN201910196864 A CN 201910196864A CN 110059246 A CN110059246 A CN 110059246A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- keyword
- notice information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0613—Third-party assisted
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种智能撮合系统,包括:数据采集模块,用于采集网络和本系统平台上所发布的用户注册录入数据和用户行为日志;推荐对象建模模块,用于针对用户注册录入数据中的每条公告信息,提取出该条公告信息中的关键词,针对每个用户,根据其用户行为日志中用户关注过的所有公告信息,获得用户感兴趣的所有关键词,根据其用户行为日志中用户对其关注过的各个公告信息的关注行为,获得用户感兴趣的各个关键词的兴趣度;推荐算法模块,针对每条公告信息,根据从该条公告信息中提取出的关键词以及各个用户对提取出的关键词的兴趣度,计算出各个用户对该条公告信息的兴趣度,将该条公告信息推荐给兴趣度最高的多个用户。本发明信息推荐精度效率较高。
Description
技术领域
本发明属于招投标和采购领域,具体涉及一种智能撮合系统。
背景技术
招投标作为范围广、普遍型市场交易行为,打破了行业垄断与地区封锁,电子化招投标让招投标行为更加公平、公正与公开,缩减了行业的“灰色地带”,节省了人力、物力、财力,实现了降本增效。随着招投标业务与企业采购业务电子化,各类电子招投标交易平台涌现,各类企业自主交易平台诞生,形成信息过载的现象,导致互联网上招标信息多、乱、杂,即招标公告发布平台多、招标公告格式乱、招标公告内容与分布杂乱,阻碍了招投标人快速有效的获取信息。
对于招标人来说,一方面,依靠过往合作过的投标人,另一方面,依靠投标人主动投标。对于投标人来说,一方面,投标人主动搜索自己关注的招标人是否发布项目,另一方面,投标人在各类电子化招投标平台搜索自己主营的相关产品,从而寻找合适的投标机会,招标人与投标人之间存在信息不畅通的问题,同样地,采购方和供应商之间亦是如此。另外,帮助投标人(或供应商)从庞大的数据库中筛选出用户感兴趣的招标公告(或采购物资信息),帮助招标人(或采购方)让自己的招标公告(或采购物资信息)脱颖而出,精准高效地推荐给投标人(或供应商),也是一件非常困难的事情。
发明内容
本发明提供一种智能撮合系统,以解决招标人与投标人之间、采购方与供应商之间信息不畅通以及信息推荐精度效率较低的问题。
根据本发明实施例的第一方面,提供一种智能撮合系统,包括:
数据采集模块,用于采集网络和本系统平台上所发布的用户注册录入数据和用户行为日志;
数据预处理模块,用于对所述数据采集模块采集到的数据进行预处理;
用户建模模块,用于构建各个用户对应的用户模型,针对每个用户模型,其都包括对应的用户注册录入数据和用户行为日志;
推荐对象建模模块,用于针对用户注册录入数据中的每条公告信息,利用自然语言处理技术,提取出该条公告信息中的关键词,针对每个用户,根据其用户行为日志中用户关注过的所有公告信息,获得用户感兴趣的所有关键词,根据其用户行为日志中用户对其关注过的各个公告信息的关注行为,获得用户感兴趣的各个关键词的兴趣度;
推荐算法模块,用于针对每条公告信息,根据从该条公告信息中提取出的关键词以及各个用户对提取出的关键词的兴趣度,计算出各个用户对该条公告信息的兴趣度,并将该条公告信息推荐给兴趣度最高的N个用户,N为大于0的整数;建立行业知识图谱,利用所述行业知识图谱的推理关系找到用户感兴趣的关键词的上下游关系,并将该用户可能感兴趣的公告信息推荐给该用户。
在一种可选的实现方式中,所述数据采集模块,利用分布式爬虫技术采集网络上所发布的用户注册录入数据和用户行为日志。
在另一种可选的实现方式中,所述数据预处理模块,用于按照以下步骤对所述数据采集模块采集到的数据进行预处理:
滤除所述数据中的脏数据;
对所述数据进行分类,去除重复和相似的数据;
将数据封装成标准的数据格式,以便根据需求进行数据提取分析。
在另一种可选的实现方式中,所述数据采集模块,还用于将采集到的数据存储到分布式文件系统中;所述数据预处理模块,还用于将预处理后的数据存储到分布式文件系统中。
在另一种可选的实现方式中,所述用户建模模块,还用于针对每个用户,根据对应用户行为日志,分析其所属不同群体的各项行为指标,洞察该群体的核心特点,勾勒出该用户的行为画像,根据不同特点制定推荐运营方案;根据对应用户行为日志中的用户活跃度趋势图、访问轨迹、用户属性、事件详情,还原该用户对各条公告信息的每一次点击、浏览、报名报价行为;
所述数据采集模块,还用于采集网络和本系统平台上所发布的对各个用户的质量评价数据;所述用户建模模块,还用于针对每个用户,根据该用户的质量评价数据以及用户行为路径,判别出异常数据,找出虚假作弊流量,评估该用户渠道质量,剔除爬虫数据,定位该用户的产品体验怒点。
在另一种可选的实现方式中,所述推荐对象建模模块,还用于在针对用户注册录入数据中的每条公告信息,采用自然语言处理技术,提取出该条公告信息中的关键词之前,建立和完善关键词词库:
建立关键词词库;
判断所述关键词词库中是否存在关键词,若是,则表示存在历史用户注册录入数据,利用TFIDF算法统计出历史用户注册录入数据中高频出现的疑似关键词,并将该疑似关键词添加至疑似关键词集合,否则,执行下一步骤;
针对新增的每个用户注册录入数据,对所述用户注册录入数据进行数据清洗,利用命名实体识别技术去除公司名称、地区和人名,通过正则表达式去除口语词、量词和不规范的型号参数;
将清洗后的用户注册录入数据与所述关键词词库中的关键词进行匹配,若不匹配,则利用分词器对清洗后的用户注册录入数据进行分词处理,得到有意义词汇集合;
基于所述疑似关键词集合,过滤掉所述有意义词汇集合中高频出现的无意义词汇;
将过滤后的有意义词汇集合中的动词和名词进行组合,形成关键词,并将形成的关键词添加至所述关键词词库,从而不断完善所述关键词词库;
所述推荐对象建模模块,用于针对每条公告信息,利用所述关键词词库对该条公告信息进行分词处理,从而提取出该条公告信息中的关键词。
在另一种可选的实现方式中,所述用户注册录入数据包括用户注册时的用户名等注册信息、招标人发布的招标公告信息、采购方发布的采购公告信息、投标人提交的资质信息、供应商提交的物资信息以及用户提交的订阅文本信息。
在另一种可选的实现方式中,所述推荐算法模块,用于按照以下步骤建立行业知识图谱:
从网络和开放知识图谱库中获取行业数据;
使用正则表达式,清除掉行业数据中的无效数据,利用剩余的有效数据中的领域分类构建知识图谱模式图,利用所述有效数据中实体及其属性、关系构建知识图谱数据图,将所述知识图谱模式图和知识图谱数据图存入行业知识图谱库中;
利用行业知识图谱库中的数据,通过机器学习技术实现所述实体及其归类的识别,从而将所述实体归类至所述知识图谱模式图的对应领域分类下,更新所述知识图谱模式图。
在另一种可选的实现方式中,所述推荐算法模块,还用于对各个用户感兴趣的关键词的兴趣度进行统计,查找出与用户兴趣度相似的另一用户,将向该用户推荐的公告信息推荐给该另一个用户。
在另一种可选的实现方式中,所述推荐算法模块,还用于对各个公告信息的相似度进行统计,将与用户感兴趣的公告信息相似的另一公告信息推荐给该用户。
本发明的有益效果是:
1、本发明通过采集网络和本系统平台上所发布的用户注册录入数据和用户行为日志,将所有相关信息都归集到本系统平台,本系统平台基于归集后的相关信息向招标人、投标人、采购方和供应商提供相应服务,可以解决招标人与投标人之间、采购方与供应商之间信息不畅通的问题;;通过根据关键词向用户推荐用户感兴趣的公告信息,可以提高信息推荐精度效率;
2、本发明通过采用分布式爬虫技术,可以对网络上除本系统平台外其他平台所发布的用户注册录入数据和用户行为日志进行准确采集;
3、本发明通过对数据采集模块采集到数据进行预处理,滤除脏数据、重复和相似的数据,可以提高本系统平台所依据数据库的准确性,压缩数据库中的数据量,从而在向用户推荐信息时,可以提高推荐的准确度和效率,并且可以避免向用户推荐重复相似的信息,如此可以提高用户的良好体验度;
4、本发明通过将数据采集模块采集到的数据以及数据预处理模块预处理后的数据存储到分布式文件系统中,可以提高本系统平台的可用性、性能和存储容量;
5、本发明通过根据用户的行为日志,对各个用户进行群体划分,根据划分出的群体制定不同的推荐运营方案,可以真正做到有的放矢,提高推荐的准确度和效率;本发明提出采集对各个用户的质量评价数据,针对每个用户,根据用户行为路径,判别出异常数据,找出虚假作弊流量,由此可以准确真实反映出用户的渠道质量好坏,并且本发明还可以定位用户的产品体验怒点;
6、本发明通过建立属于本系统平台的关键词词库,基于该关键词词库对公告信息进行分词,可以提高分词效率,提高公告信息关键词的提取速度;通过不断完善关键词词库,可以提高关键词提取的准确度;
7、本发明不仅将招标公告信息和采购公告信息作为建立关键词词库的源文本,还将投保人提供的资质信息、供应商提交的物资信息以及用户提交的订阅文本信息作为建立关键词词库的源文本,可以将公告信息分词可能用到的关键词都添加至关键词词库中,从而可以扩大关键词词库的范围,提高公告信息分词的准确度;
8、本发明通过建立行业知识图谱,将行业中的大量名词进行层级分类,可以使词汇所属行业可有根可溯,从而可以找到用户感兴趣的关键词的相似词汇以及上下游关系,可以更好地为用户画像;
9、本发明通过查找出与用户兴趣度相似的另一用户,将向该用户推荐的公告信息推荐给该另一个用户,可以提高信息推荐的准确度;
10、本发明通过将与用户感兴趣的公告信息相似的另一公告信息推荐给该用户,可以进一步提高信息推荐的准确度。
附图说明
图1是本发明智能撮合系统的一个实施例结构方框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语 “连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
参见图1,为本发明智能撮合系统的一个实施例结构方框图。该智能撮合系统可以包括数据采集模块、数据预处理模块、用户建模模块、推荐对象建模模块和推荐算法模块。其中:
数据采集模块,用于采集网络和本系统平台上所发布的用户注册录入数据和用户行为日志。
本实施例中,所述数据采集模块利用分布式爬虫技术采集网络上所发布的用户注册录入数据和用户行为日志。本发明通过采用分布式爬虫技术,对网络上除本系统平台外其他平台所发布的用户注册录入数据和用户行为日志进行准确采集,可以将所有相关信息都归集到本系统平台,本系统平台基于归集后的相关信息向招标人、投标人、采购方和供应商提供相应服务,可以解决招标人与投标人之间、采购方与供应商之间信息不畅通的问题。此外,所述数据采集模块,还用于将采集到的数据存储到分布式文件系统中,部署分布式文件系统的服务器采用分布式集群部署,由此可以提高本系统平台的可用性、性能和存储容量,并且服务器分为主备服务器,由此可以进一步提高本系统平台的可用性。所述数据采集模块采集到的用户注册录入数据可以包括用户注册时的用户名等注册信息、招标人发布的招标公告信息、采购方发布的采购公告信息、投标人提交的资质信息、供应商提交的物资信息以及用户提交的订阅文本信息;所述数据采集模块采集到的用户行为日志是指用户日常点击、浏览、报名报价等行为所产生的行为记录。
数据预处理模块,用于对所述数据采集模块采集到的数据进行预处理,该预处理的具体步骤如下:
步骤S201、滤除所述数据中的脏数据;
步骤S202、对所述数据进行分类,去除重复和相似的数据;
步骤S203、将数据封装成标准的数据格式,以便根据需求进行数据提取分析。为了保证本系统平台所依据的数据更加完善,通常会将大量的数据采集到本系统平台中,但是与此同时也会引入很多重复的,甚至不必要的数据,本发明通过对数据采集模块采集到数据进行预处理,滤除脏数据、重复和相似的数据,可以提高本系统平台所依据数据库的准确性,压缩数据库中的数据量,从而在向用户推荐信息时,可以提高推荐的准确度和效率,并且可以避免向用户推荐重复相似的信息,如此可以提高用户的良好体验度;本发明通过对数据采集模块采集到的数据进行分类,在向用户推荐信息时,可以进一步提高推荐效率。此外,所述数据预处理模块,还用于将预处理后的数据存储到分布式文件系统中,由此可以进一步提高本系统平台的可用性、性能和存储容量。
用户建模模块,用于构建各个用户对应的用户模型,针对每个用户模型,其都包括对应的用户注册录入数据和用户行为日志。本发明通过构建各个用户对应的用户模型,使用户与其用户注册录入数据和用户行为日志相对应关联,可以保证向用户推荐信息的准确度和高效性。
本实施例中,所述用户建模模块,还用于针对每个用户,根据对应用户行为日志,分析其所属不同群体的各项行为指标,洞察该群体的核心特点,勾勒出该用户的行为画像,根据不同特点制定推荐运营方案;根据对应用户行为日志中的用户活跃度趋势图、访问轨迹、用户属性、事件详情,还原该用户对各条公告信息的每一次点击、浏览、报名报价行为。本发明通过根据用户的行为日志,对各个用户进行群体划分,根据划分出的群体制定不同的推荐运营方案,可以真正做到有的放矢,提高推荐的准确度和效率。
所述数据采集模块,还用于采集网络和本系统平台上所发布的对各个用户的质量评价数据;所述用户建模模块,还用于针对每个用户,根据该用户的质量评价数据以及用户行为路径,判别出异常数据,找出虚假作弊流量,评估该用户渠道质量,剔除爬虫数据,定位该用户的产品体验怒点。无论是在招投标时,还是在采购时,通常只是将招投标公告和采购公告发布在网上,投标人和供应商在获取到这些公告信息后再决定是否进行报名,招标人和采购方只能根据报名情况来筛选合作方,无法主动去联系资质较好的投标人和产品质量较好的供应商。为此,本发明提出采集对各个用户的质量评价数据,针对每个用户,根据用户行为路径,判别出异常数据,找出虚假作弊流量,例如用户可能雇佣专业的刷单人员对其资质或产品进行好评,本系统平台对专业刷单人员的行为进行跟踪,剔除掉专业刷单人员的好评,由此可以准确真实反映出用户的渠道质量好坏,并且本发明还可以定位用户的产品体验怒点。在评估出各个用户的渠道质量和产品体验怒点后,本系统平台还可以将匹配度最高的M个投标人或供应商,对应推荐给招标人或采购方,M为大于1的整数。招标人或采购方在获取推荐的投标人或供应商后,可以查看报名的投标人或供应商是否在推荐的投标人或供应商名单内,以此作为招投标或采购参考;并且还可以主动单独向推荐的投标人或采购方发送公告信息,以邀请推荐的投标人或采购方报名。
推荐对象建模模块,用于针对用户注册录入数据中的每条公告信息,利用自然语言处理技术,提取出该条公告信息中的关键词,针对每个用户,根据其用户行为日志中用户关注过的所有公告信息,获得用户感兴趣的所有关键词,根据其用户行为日志中用户对其关注过的各个公告信息的关注行为,获得用户感兴趣的各个关键词的兴趣度。
本实施例中,为了保证数据的实时性,推荐对象建模模块采用大数据流式计算方式来接收其所需的数据。此外,本系统平台是根据关键词向用户推荐信息,需要对公告信息进行分词处理,如果采用传统的分词器进行分词,由于传统的分词器所依据词库中的词较多,因而分词效率和准确度较低。为此,本系统平台建立了属于自己的关键词词库,所述推荐对象建模模块,用于针对每条公告信息,利用所述关键词词库对该条公告信息进行分词处理,从而提取出该条公告信息中的关键词,由此可以提高分词效率和准确度。具体地,推荐对象建模模块,在针对用户注册录入数据中的每条公告信息,采用自然语言处理技术,提取出该条公告信息中的关键词之前,建立和完善关键词词库:
步骤S301、建立关键词词库。
步骤S302、判断所述关键词词库中是否存在关键词,若是,则表示存在历史用户注册录入数据,此时利用TFIDF(term frequency–inverse document frequency,词频逆文本频率指数)算法统计出历史用户注册录入数据中高频出现的疑似关键词,并将该疑似关键词添加至疑似关键词集合,否则,直接执行下一步骤S303。其中,用户注册录入数据可以包括用户注册时的用户名等注册信息、招标人发布的招标公告信息、采购方发布的采购公告信息、投标人提交的资质信息、供应商提交的物资信息以及用户提交的订阅文本信息。本发明不仅将招标公告信息和采购公告信息作为建立关键词词库的源文本,还将投保人提供的资质信息、供应商提交的物资信息以及用户提交的订阅文本信息作为建立关键词词库的源文本,可以将公告信息分词可能用到的关键词都添加至关键词词库中,从而可以扩大关键词词库的范围,提高公告信息分词的准确度。
步骤S303、针对新增的每个用户注册录入数据,对所述用户注册录入数据进行数据清洗,利用命名实体识别技术去除公司名称、地区和人名,通过正则表达式去除口语词、量词和不规范的型号参数。本发明通过对新增的用户注册录入数据进行清洗,可以提高关键词词库组成的准确度。
步骤S304、将清洗后的用户注册录入数据与关键词词库中的关键词进行匹配,若不匹配,则利用分词器(传统的分词器,例如哈工大分词器)对清洗后的用户注册录入数据进行分词处理,得到有意义词汇集合(有意义的动名词、名动词等词汇集合),若匹配,则不做处理。本发明针对新增的用户注册录入数据,其在完成清洗后首先将用户注册录入数据与关键词词库中的关键词进行匹配,只有在不匹配时才利用传统分词器进行分词处理,由此可以确定出因该用户注册录入数据可能新增的关键词(即有意义词汇集合)。
步骤S305、基于所述疑似关键词集合,过滤掉所述有意义词汇集合中高频出现的无意义词汇。本发明通过将有意义词汇集合中高频出现的无意义词汇过滤掉,可以准确确定出因新增用户注册录入数据新增的关键词。
步骤S306、将过滤后的有意义词汇集合中的动词和名词进行组合,形成关键词,并将形成的关键词添加至所述关键词词库,从而不断完善所述关键词词库。本发明通过将动词和名词组合形成的词语作为关键词,可以降低关键词词库中的关键词数量,从而在利用关键词词库对公告信息进行分词处理时可以减少公告信息的分词次数,提高公告信息中关键词的提取速度,与此同时,不会影响公告信息中关键词的提取准确度。本发明通过建立属于本系统平台的关键词词库,基于该关键词词库对公告信息进行分词,可以提高分词效率,提高公告信息关键词的提取速度;通过不断完善关键词词库,可以提高关键词提取的准确度。
另外,针对每个用户,推荐对象建模模块,根据其用户行为日志中用户关注过的所有公告信息,获得用户感兴趣的所有关键词,例如,当用户对某条公告信息执行点击、浏览和报名报价等行为时表示用户关注过该公告信息,当用户关注过某条公告信息,且从该公告信息提取出的关键词有:关键词1、关键词2和关键词3时,对应地用户感兴趣的关键词包括关键词1、关键词2和关键词3。推荐对象建模模块,还用于根据其用户行为日志中用户对其关注过的各个公告信息的关注行为,获得用户感兴趣的各个关键词的兴趣度,例如当从某个公告信息提取出的关键词有:关键词1、关键词2和关键词3时,用户每点击一次该公告信息,用户感兴趣的关键词1、关键词2和关键词3的兴趣度都加1。
推荐算法模块,用于针对每条公告信息,根据从该条公告信息中提取出的关键词以及各个用户对提取出的关键词的兴趣度,计算出(例如采用大数据实时计算出)各个用户对该条公告信息的兴趣度,并将该条公告信息推荐给兴趣度最高的N个用户,N为大于0的整数;建立行业知识图谱,利用所述行业知识图谱的推理关系找到用户感兴趣的关键词的上下游关系,并将该用户可能感兴趣的公告信息推荐给该用户。本实施例中,针对每条公告信息,首先确定从该条公告信息中提取出的关键词,然后针对每个用户,将该用户对这些关键词的兴趣度相加,得到该用户对该条公告信息的兴趣度,进而得到各个用户对该条公告信息的兴趣度。由于推荐算法模块中兴趣度的计算量巨大,为了保证计算速度,本系统平台使用消息列表Kafka进行用户行为日志采集,使用Spark定时离线计算用户的兴趣度。
其中,所述推荐算法模块,用于按照以下步骤建立行业知识图谱:
步骤S501、从网络和开放知识图谱库中获取行业数据。本发明采用网络爬虫技术爬取领域分类和百科内容等结构化或非结构化数据,并融合zhishi.me, HowNet等开放知识图谱库获得行业数据。
步骤S502、使用正则表达式,通过词黑名单, 词性黑名单, 词义黑名单等手段清除掉行业数据中的无效数据,利用剩余的有效数据中的领域分类构建知识图谱模式图,利用所述有效数据中实体及其属性、关系构建知识图谱数据图,将所述知识图谱模式图和知识图谱数据图存入行业知识图谱库(例如neo4j)中。
步骤S502、利用行业知识图谱库中的数据,通过机器学习技术(包含词向量word2vec, 双向长短记忆网络 BiLSTM, 条件随机场CRF, K最近邻算法KNN)实现所述实体及其归类的识别,从而将所述实体归类至所述知识图谱模式图的对应领域分类下,更新所述知识图谱模式图。本发明通过建立行业知识图谱,将行业中的大量名词进行层级分类,可以使词汇所属行业可有根可溯,从而可以找到用户感兴趣的关键词的相似词汇以及上下游关系,可以更好地为用户画像。
同时,行业知识图谱中还保持有各个用户的兴趣相似度和各个公告的相似度。所述推荐算法模块,还用于对各个用户感兴趣的关键词的兴趣度进行统计,查找出与用户兴趣度相似的另一用户,将向该用户推荐的公告信息推荐给该另一个用户。虽然本系统平台是根据用户对某条公告信息的兴趣度高低来向用户推荐信息,但是用户对某条公告信息的兴趣度的确定是依赖于用户对公告信息中关键词的兴趣度,中国文字博大精深,相同的含义可以采用很多种不同的表达方式,两个兴趣度相似的用户,可能向一个用户推荐了某个公告信息,另一个用户因为感兴趣的关键词与公告信息中关键词不同,而没有向该另一个用户推荐该公告信息。而实际上另一个感兴趣的关键词与公告信息中关键词虽然不同,但字面含义相同,显然这样无法实现公告信息的准确推荐。为此,本发明对各个用户感兴趣的关键词的兴趣度进行统计(基于用户感兴趣的关键词以及关键词的相似性),查找出兴趣度相似的用户,将向其中一个用户推荐的公告信息推荐给另一未接收到该公告信息的用户,由此可以提高信息推荐准确度。同样地,所述推荐算法模块,还用于对各个公告信息的相似度进行统计(基于公告信息的关键词以及关键词的相似性),将与用户感兴趣的公告信息相似的另一公告信息推荐给该用户,由此可以进一步提高信息推荐的准确度。
由上述实施例可见,本发明通过采集网络和本系统平台上所发布的用户注册录入数据和用户行为日志,将所有相关信息都归集到本系统平台,本系统平台基于归集后的相关信息向招标人、投标人、采购方和供应商提供相应服务,可以解决招标人与投标人之间、采购方与供应商之间信息不畅通的问题;通过根据关键词向用户推荐用户感兴趣的公告信息,可以提高信息推荐精度效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种智能撮合系统,其特征在于,包括:
数据采集模块,用于采集网络和本系统平台上所发布的用户注册录入数据和用户行为日志;
数据预处理模块,用于对所述数据采集模块采集到的数据进行预处理;
用户建模模块,用于构建各个用户对应的用户模型,针对每个用户模型,其都包括对应的用户注册录入数据和用户行为日志;
推荐对象建模模块,用于针对用户注册录入数据中的每条公告信息,利用自然语言处理技术,提取出该条公告信息中的关键词,针对每个用户,根据其用户行为日志中用户关注过的所有公告信息,获得用户感兴趣的所有关键词,根据其用户行为日志中用户对其关注过的各个公告信息的关注行为,获得用户感兴趣的各个关键词的兴趣度;
推荐算法模块,用于针对每条公告信息,根据从该条公告信息中提取出的关键词以及各个用户对提取出的关键词的兴趣度,计算出各个用户对该条公告信息的兴趣度,并将该条公告信息推荐给兴趣度最高的N个用户,N为大于0的整数;建立行业知识图谱,利用所述行业知识图谱的推理关系找到用户感兴趣的关键词的上下游关系,并将该用户可能感兴趣的公告信息推荐给该用户。
2.根据权利要求1所述的智能撮合系统,其特征在于,所述数据采集模块,利用分布式爬虫技术采集网络上所发布的用户注册录入数据和用户行为日志。
3.根据权利要求1所述的智能撮合系统,其特征在于,所述数据预处理模块,用于按照以下步骤对所述数据采集模块采集到的数据进行预处理:
滤除所述数据中的脏数据;
对所述数据进行分类,去除重复和相似的数据;
将数据封装成标准的数据格式,以便根据需求进行数据提取分析。
4.根据权利要求1所述的智能撮合系统,其特征在于,所述数据采集模块,还用于将采集到的数据存储到分布式文件系统中;所述数据预处理模块,还用于将预处理后的数据存储到分布式文件系统中。
5.根据权利要求1所述的智能撮合系统,其特征在于,所述用户建模模块,还用于针对每个用户,根据对应用户行为日志,分析其所属不同群体的各项行为指标,洞察该群体的核心特点,勾勒出该用户的行为画像,根据不同特点制定推荐运营方案;根据对应用户行为日志中的用户活跃度趋势图、访问轨迹、用户属性、事件详情,还原该用户对各条公告信息的每一次点击、浏览、报名报价行为;
所述数据采集模块,还用于采集网络和本系统平台上所发布的对各个用户的质量评价数据;所述用户建模模块,还用于针对每个用户,根据该用户的质量评价数据以及用户行为路径,判别出异常数据,找出虚假作弊流量,评估该用户渠道质量,剔除爬虫数据,定位该用户的产品体验怒点。
6.根据权利要求1所述的智能撮合系统,其特征在于,所述推荐对象建模模块,还用于在针对用户注册录入数据中的每条公告信息,采用自然语言处理技术,提取出该条公告信息中的关键词之前,建立和完善关键词词库:
建立关键词词库;
判断所述关键词词库中是否存在关键词,若是,则表示存在历史用户注册录入数据,利用TFIDF算法统计出历史用户注册录入数据中高频出现的疑似关键词,并将该疑似关键词添加至疑似关键词集合,否则,执行下一步骤;
针对新增的每个用户注册录入数据,对所述用户注册录入数据进行数据清洗,利用命名实体识别技术去除公司名称、地区和人名,通过正则表达式去除口语词、量词和不规范的型号参数;
将清洗后的用户注册录入数据与所述关键词词库中的关键词进行匹配,若不匹配,则利用分词器对清洗后的用户注册录入数据进行分词处理,得到有意义词汇集合;
基于所述疑似关键词集合,过滤掉所述有意义词汇集合中高频出现的无意义词汇;
将过滤后的有意义词汇集合中的动词和名词进行组合,形成关键词,并将形成的关键词添加至所述关键词词库,从而不断完善所述关键词词库;
所述推荐对象建模模块,用于针对每条公告信息,利用所述关键词词库对该条公告信息进行分词处理,从而提取出该条公告信息中的关键词。
7.根据权利要求1或2或6所述的智能撮合系统,其特征在于,所述用户注册录入数据包括用户注册时的用户名等注册信息、招标人发布的招标公告信息、采购方发布的采购公告信息、投标人提交的资质信息、供应商提交的物资信息以及用户提交的订阅文本信息。
8.根据权利要求1所述的智能撮合系统,其特征在于,所述推荐算法模块,用于按照以下步骤建立行业知识图谱:
从网络和开放知识图谱库中获取行业数据;
使用正则表达式,清除掉行业数据中的无效数据,利用剩余的有效数据中的领域分类构建知识图谱模式图,利用所述有效数据中实体及其属性、关系构建知识图谱数据图,将所述知识图谱模式图和知识图谱数据图存入行业知识图谱库中;
利用行业知识图谱库中的数据,通过机器学习技术实现所述实体及其归类的识别,从而将所述实体归类至所述知识图谱模式图的对应领域分类下,更新所述知识图谱模式图。
9.根据权利要求1所述的智能撮合系统,其特征在于,所述推荐算法模块,还用于对各个用户感兴趣的关键词的兴趣度进行统计,查找出与用户兴趣度相似的另一用户,将向该用户推荐的公告信息推荐给该另一个用户。
10.根据权利要求1或9所述的智能撮合系统,其特征在于,所述推荐算法模块,还用于对各个公告信息的相似度进行统计,将与用户感兴趣的公告信息相似的另一公告信息推荐给该用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196864.8A CN110059246A (zh) | 2019-03-15 | 2019-03-15 | 智能撮合系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196864.8A CN110059246A (zh) | 2019-03-15 | 2019-03-15 | 智能撮合系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059246A true CN110059246A (zh) | 2019-07-26 |
Family
ID=67316154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910196864.8A Withdrawn CN110059246A (zh) | 2019-03-15 | 2019-03-15 | 智能撮合系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059246A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782620A (zh) * | 2020-06-19 | 2020-10-16 | 多加网络科技(北京)有限公司 | 一种信用链路自动跟踪平台及其方法 |
CN112015987A (zh) * | 2020-08-28 | 2020-12-01 | 青岛格兰德信用管理咨询有限公司 | 一种基于企业标签的潜在客户推荐系统及推荐方法 |
CN113781220A (zh) * | 2021-09-06 | 2021-12-10 | 上海卡方信息科技有限公司 | 一种分布式股票交易撮合系统及方法 |
CN115098766A (zh) * | 2022-05-26 | 2022-09-23 | 安徽省优质采科技发展有限责任公司 | 一种电子招投标交易平台招投标信息推荐方法及系统 |
CN116910374A (zh) * | 2023-09-13 | 2023-10-20 | 中电科大数据研究院有限公司 | 一种基于知识图谱的康养服务推荐方法、装置及存储介质 |
WO2024022354A1 (zh) * | 2022-07-26 | 2024-02-01 | 北京来也网络科技有限公司 | 结合rpa及ai实现ia的对象推荐方法、装置及存储介质 |
-
2019
- 2019-03-15 CN CN201910196864.8A patent/CN110059246A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782620A (zh) * | 2020-06-19 | 2020-10-16 | 多加网络科技(北京)有限公司 | 一种信用链路自动跟踪平台及其方法 |
CN112015987A (zh) * | 2020-08-28 | 2020-12-01 | 青岛格兰德信用管理咨询有限公司 | 一种基于企业标签的潜在客户推荐系统及推荐方法 |
CN112015987B (zh) * | 2020-08-28 | 2022-10-04 | 青岛格兰德信用管理咨询有限公司 | 一种基于企业标签的潜在客户推荐系统及推荐方法 |
CN113781220A (zh) * | 2021-09-06 | 2021-12-10 | 上海卡方信息科技有限公司 | 一种分布式股票交易撮合系统及方法 |
CN115098766A (zh) * | 2022-05-26 | 2022-09-23 | 安徽省优质采科技发展有限责任公司 | 一种电子招投标交易平台招投标信息推荐方法及系统 |
WO2024022354A1 (zh) * | 2022-07-26 | 2024-02-01 | 北京来也网络科技有限公司 | 结合rpa及ai实现ia的对象推荐方法、装置及存储介质 |
CN116910374A (zh) * | 2023-09-13 | 2023-10-20 | 中电科大数据研究院有限公司 | 一种基于知识图谱的康养服务推荐方法、装置及存储介质 |
CN116910374B (zh) * | 2023-09-13 | 2024-01-02 | 中电科大数据研究院有限公司 | 一种基于知识图谱的康养服务推荐方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059246A (zh) | 智能撮合系统 | |
Eliacik et al. | Influential user weighted sentiment analysis on topic based microblogging community | |
Cai et al. | Rumors detection in chinese via crowd responses | |
El Ballouli et al. | Cat: Credibility analysis of arabic content on twitter | |
Goyal et al. | Multilevel event detection, storyline generation, and summarization for tweet streams | |
Chen et al. | Exploiting social media for stock market prediction with factorization machine | |
Budalakoti et al. | Bimodal invitation-navigation fair bets model for authority identification in a social network | |
Hatefi Ghahfarrokhi et al. | Tehran stock exchange prediction using sentiment analysis of online textual opinions | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Grandi et al. | A Borda count for collective sentiment analysis | |
WO2019242453A1 (zh) | 信息处理方法及装置、存储介质、电子装置 | |
Arafat et al. | Analyzing public emotion and predicting stock market using social media | |
Zhong et al. | Identification of opinion spammers using reviewer reputation and clustering analysis | |
Hajare et al. | A machine learning pipeline to examine political bias with congressional speeches | |
Mulahuwaish et al. | Topic modeling based on two-step flow theory: Application to Tweets about bitcoin | |
Sabuncu et al. | Prediction of USA November 2020 election results using multifactor Twitter data analysis method | |
AT&T | ||
CN107590742A (zh) | 一种基于行为的社交网络用户属性值反演方法 | |
Altinel et al. | Identifying topic-based opinion leaders in social networks by content and user information | |
Singhal et al. | Optimizing Election Result Prediction Through Fine-Tuned Transformer Models | |
Cai et al. | A novel rumor detection method based on labeled cascade propagation tree | |
Wang et al. | The Big Data Analysis and Visualization of Mass Messages under “Smart Government Affairs” Based on Text Mining | |
Pandi et al. | Reputation based online product recommendations | |
Al-Taie et al. | Successful Data Science Projects: Lessons Learned from Kaggle Competition | |
Kpiebaareh et al. | User-connection behaviour analysis in service management using bipartite labelled property graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190726 |