CN105808641A - 线下资源的挖掘方法和装置 - Google Patents

线下资源的挖掘方法和装置 Download PDF

Info

Publication number
CN105808641A
CN105808641A CN201610101489.0A CN201610101489A CN105808641A CN 105808641 A CN105808641 A CN 105808641A CN 201610101489 A CN201610101489 A CN 201610101489A CN 105808641 A CN105808641 A CN 105808641A
Authority
CN
China
Prior art keywords
search
line
participle
user
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610101489.0A
Other languages
English (en)
Inventor
王换
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610101489.0A priority Critical patent/CN105808641A/zh
Priority to PCT/CN2016/086220 priority patent/WO2017143703A1/zh
Priority to US15/764,568 priority patent/US11416502B2/en
Publication of CN105808641A publication Critical patent/CN105808641A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种线下资源的挖掘方法和装置。所述方法包括:获取至少两个用户搜索日志信息;根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集;将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。本发明的技术方案充分考虑了由用户搜索行为直接反馈的线上用户的实际需求,通过用户搜索信息的挖掘来获取线下资源,可以充分利用大数据的资源,丰富了O2O平台对线下资源覆盖率,进而提升用户对O2O平台的满意度,极大的提高了用户使用体验。

Description

线下资源的挖掘方法和装置
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种线下资源的挖掘方法和装置。
背景技术
O2O(OnlineToOffline,线上线下电子商务),区别于传统的B2C(Business-to-Customer,商对客电子商务)、B2B(Business-to-Business,商对商电子商务)、C2C(Custoner-to-Customer,客对客电子商务)等电子商务模式。O2O就是把线上的消费者带到现实的商店中去,在线上支付线下商品、服务,再到线下去享受服务。商店通过在O2O线上平台(例如,百度糯米)上发布打折优惠或者服务介绍信息的方式,将线下商店的消息推送给互联网用户,从而将他们转换为商店的线下客户。这样线下服务就可以用线上来揽客,消费者可以用线上来筛选服务,以及在线支付等。对于O2O线上平台来说,实现O2O的一个关键点就是提取出线下的商户资源,并与该商户资源进行线上合作,以实现互联网与地面商户的完美对接。
现有的商户资源的提取方案主要包括如下几类:
1)基于历史数据,通过一定时期的市场历史数据确定商户大方向,然后按照知名度选取商户;
2)基于竞品数据,根据竞品的商户展示和销售量选取相应商户;
3)基于人为因素,大方向由领导层指定,销售进行相应的商户合作沟通。
现有方法的主要缺陷在于:分析维度不完整,数据来源片面,数据时效性差;对实际的消费用户的感知存在严重浪费,忽略了用户的实际消费需求。
发明内容
有鉴于此,本发明实施例提供一种线下资源的挖掘方法和装置,以优化现有的线下商户资源的提取技术,满足线上用户的实际线下资源获取需求。
在第一方面,本发明实施例提供了一种线下资源的挖掘方法,包括:
获取至少两个用户搜索日志信息;
根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集;
将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
在第二方面,本发明实施例还提供了一种线下资源的挖掘装置,包括:
搜索日志信息获取模块,用于获取至少两个用户搜索日志信息;
用户需求特征集获取模块,用于根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集;
线下资源信息获取模块,用于将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
本发明实施例通过根据用户搜索日志信息挖掘线下资源的技术手段,可以解决现有的商户资源的提取方案中分析维度不完整,数据来源片面,数据时效性差;对实际的消费用户的感知存在严重浪费,忽略了用户的实际消费需求等技术问题,使得最终挖掘出的线下资源,充分考虑了由用户搜索行为直接反馈的线上用户的实际需求,此外,通过对用户搜索日志的挖掘来获取线下资源,可以实现通过充分利用大数据的资源,提高了O2O平台对线下资源覆盖率,进而提升用户对O2O平台的满意度以及用户的使用体验。
附图说明
图1是本发明第一实施例的一种线下资源的挖掘方法的流程图;
图2是本发明第二实施例的一种线下资源的挖掘方法的流程图;
图3是本发明第三实施例的一种线下资源的挖掘方法的流程图;
图4是本发明第四实施例的一种线下资源的挖掘方法的流程图;
图5a-5e是本发明第四实施例的一种线下资源的挖掘方法的具体应用场景的示意图;
图6是本发明第五实施例的一种线下资源的挖掘装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
第一实施例
图1为本发明第一实施例提供的一种线下资源的挖掘方法的流程图,本实施例的方法可以由线下资源的挖掘装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务器中,典型的,所述服务器优选可以为O2O平台(例如,百度糯米等)的服务器,也可以为向O2O平台提供线下资源挖掘服务的第三方服务提供商的服务器,本实施例对此并不进行限制,同时,本实施的方法适用于为O2O平台挖掘可以进行线上合作的线下资源的情况。
本实施例的方法具体包括:
110、获取至少两个用户搜索日志信息。
在本实施例中,创造性的提出根据一般用户的搜索行为来为O2O平台挖掘可以进行线上合作的线下资源,因此,需要首先获取与用户的搜索行为对应的用户搜索日志信息。
一般来说,当用户通过搜索引擎进行信息搜索时,搜索引擎服务器或者用户的本地客户端均会保存记录用户搜索行为的用户搜索日志信息,因此,可以从搜索引擎服务器获取所述用户搜索日志信息,也可以从多个用户客户端中获取所述用户搜索日志信息,本实施例对此并不进行限制。
当然,本领域技术人员可以理解的是,用户除了可以在搜索引擎中搜索感兴趣的线下资源,还可以通过其他的线上资源获取平台搜索所述线下资源,典型的,贴吧、论坛,以及O2O平台等,因此,除了可以通过搜索引擎获取用户搜索日志信息之外,还可以通过其他的线上资源获取平台获取用户搜索日志信息,本实施例对此并不进行限制。
120、根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集。
一般来说,搜索日志信息中记录有用户输入的搜索式,所谓搜索式,就是用户通过所述线上资源获取平台的搜索信息输入窗口输入的一个或者多个查询词、短语以及句子等。可以理解的是,用户感兴趣的线下资源信息,与用户输入的搜索式密切相关。
相应的,在获取用户输入的搜索式之后,通过一定的数据处理,即可获取用户需求特征集。
在本实施例中,所述用户需求特征集中包括至少一个关键词集,同时,一个关键词集中包括至少一个关键词。
在一个具体的例子中,可以首先对获取的各个搜索式进行搜索频次统计,之后对各个搜索式进行分词处理,将处理后的各个分词中,搜索频次超过设定搜索频次阈值的分词直接作为用户需求特征集中的一个关键词集;或者直接将搜索频次超过设定搜索频次阈值的搜索式对应的分词集作为所述用户需求特征集中的一个关键词集。
例如,如果获取的搜索式包括:“呷哺呷哺在海淀黄庄”1800条、“呷哺呷哺火锅店”700条以及“海淀区的呷哺呷哺”600条,在对上述三条搜索式进行分词处理后,确定:“呷哺呷哺”出现3100条,“海淀黄庄”出现1800条,海淀区出现“600”条,如果设定搜索频次阈值为1500,则可以将“呷哺呷哺”以及“海淀黄庄”分别作为用户需求特征集中的一个关键词集;或者
因为“呷哺呷哺在海淀黄庄”这一搜索式出现次数超过1500,则可以直接将该搜索式的分集结果对应的分词集{呷哺呷哺、海淀黄庄}作为用户需求特征集中的一个关键词集。
在另一个具体的例子中,考虑到用户输入不同的搜索式可能对应于同样的一个搜索需求,因此,在首先对获取的各个搜索式进行搜索频次统计之后,可以对各个搜索式进行分词处理,并生成与搜索式对应的分词集,在计算两两分词集之间的相似度后,将相似度超过设定相似度阈值的至少两个分词集归并于一个新的分词集中,并根据与搜索式对应的搜索频次,确定新的分词集的搜索频次,并将搜索频次超过设定搜索频次阈值的分词集存储于所述用户需求特征集中。
如前例所述的三个搜索式,如果通过计算相似度确定“呷哺呷哺在海淀黄庄”以及“海淀区的呷哺呷哺”之间的相似度超过设定相似度阈值,则可以生成一个新的分词集{呷哺呷哺、海淀黄庄、海淀区},并确定这个新的分词集的搜索频次为1800+600=2400;由于该分词集的搜索频次超过1500,则可将分词集{呷哺呷哺、海淀黄庄、海淀区}作为用户需求特征集中的一个关键词集。
在另一个具体的例子中,为了进一步扩大最终挖掘出的线下资源的数量,在获取分词集之后,可以对分词集中的各个分词进行聚类处理,将聚类后生成的至少一个聚类关键词作为用户需求特征集中的一个关键词集。
如前例所述的三个搜索式,在生成一个新的分词集{呷哺呷哺、海淀黄庄、海淀区}之后,可以将该分词集中的各个分词与预设品牌集进行聚类处理,最终确定分词“呷哺呷哺”与预设的品牌“呷哺呷哺”相一致,因此可以将由上述聚类结果生成的聚类关键词“呷哺呷哺”作为用户需求特征集中的一个关键词集。
当然,本领域技术人员可以理解的是,可以采取其他方式获取与搜索式对应的用户需求特征集,本实施例对此并不进行限制。
130、将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
在本实施例中,所述线下资源具体可以包括:线下实体商户,例如,“XX”火锅店、“XX”酒店、“XX”电影院、“XX”KTV或者“XX游乐场”等用户需要到店获取线下服务的实体商户,以及线下服务提供商,例如、“XX”外卖或者“XX”外送等可向用户提供设定线下服务的实体或者非实体商户。
在本实施例中,在服务器中预存有设定线下资源集,其中,该线下资源集可以通过网络爬虫实时抓取或者商户自主上报的方式获取,本实施例对此并不进行限制。
其中,通过设定的关键词匹配的方式,可以获取与所述用户需求特征集对应的线下资源信息。
本发明实施例通过根据用户搜索日志信息挖掘线下资源的技术手段,可以解决现有的商户资源的提取方案中分析维度不完整,数据来源片面,数据时效性差;对实际的消费用户的感知存在严重浪费,忽略了用户的实际消费需求等技术问题,使得最终挖掘出的线下资源,充分考虑了由用户搜索行为直接反馈的线上用户的实际需求,此外,通过对用户搜索日志的挖掘来获取线下资源,可以实现通过充分利用大数据的资源,提高了O2O平台对线下资源覆盖率,进而提升用户对O2O平台的满意度以及用户的使用体验。
在上述实施例的基础上,所述线下资源信息优选可以包括:线下实体商户的信息。
在本实施例中,考虑如下应用场景:在实际生活中,出现了一个新的实体商户,由于其影响范围较小,不可能快速被大多数人认知而仅仅会在小范围内传播,如果采用现有的商户资源提取方案,O2O平台则无法快速获取该商户资源,并进而及时的与该商户建立线上合作关系,特别的,如果该实体商户的好评度较高,好评用户则无法通过O2O平台获取该实体商户的推广信息,进而影响该用户对O2O平台的使用体验,而通过本实施例的方法,只要用户对该实体商户的搜索次数超过一个设定的门限数量,服务器即可挖掘出该实体商户的信息,进而可以实现快速、及时的与新生实体商户的线上合作,提高了O2O平台对线下资源覆盖率,进而提升用户对O2O平台的满意度;
在另一个具体应用场景下,在某一时间段下,由于一定的原因O2O平台与一个实体商户终止了线上合作(例如,该商户的服务质量在一定时间内无法满足用户需求),但是随着时间的推移,由于该商户采取了一定的策略或者措施对自身进行了整改,并重新获取了用户的认可,通过本实施例的方法,O2O平台也可以快速获取该实体商户的信息并可以根据信息挖掘结果,选择重新与该实体商户建立线上合作,反应速度快,时效性强,用户体验好。
第二实施例
图2是本发明第二实施例的一种线下资源的挖掘方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集具体优化为:在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;将搜索频次满足设定阈值条件的目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集;
同时,在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次之前,还优选包括:根据设定过滤规则,对所述用户搜索日志信息进行过滤处理,滤除无效的用户搜索日志信息。
相应的,本实施例的方法具体包括:
210、获取至少两个用户搜索日志信息。
220、根据设定过滤规则,对所述用户搜索日志信息进行过滤处理,滤除无效的用户搜索日志信息。
在本实施例中,考虑到用户搜索日志的实时产生数量非常庞大,这其中既有可以用来挖掘线下资源的有用信息,也有一些无用的干扰信息,如果不经过数据过滤(或者说数据清洗)直接对用户搜索日志信息进行数据处理,则会浪费掉宝贵的CPU(CentralProcessingUnit,中央处理器)处理资源。
在本实施例中,为了使得CPU仅对有效的用户搜索日志进行数据挖掘,优选首先根据设定的过滤准则,对用户搜索日志信息进行过滤处理。
其中,所述过滤准则具体可以包括下述至少一项:
历史过滤准则、反黄过滤准则、黑名单过滤准则以及非用户日志过滤准则。
当然,可以理解的是,除了可以首先对用户搜索日志信息进行过滤,之后提取过滤后的用户搜索日志信息中的搜索式,也可以首先提取用户搜索日志信息中的搜索式,之后对提取的搜索式进行过滤,本实施例对此并不进行限制。
230、在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次。
在本实施例中,考虑到用户搜索日志信息产生的实时性,因此,在获取用户搜索日志信息时,获取的是一个设定时间区间下的用户搜索日志信息,例如,以小时、天或者星期为单位获取用户搜索日志信息,相应的,为了挖掘多数人感兴趣的线下资源,需要统计不同搜索式在该设定时间区间下的搜索次数,也即搜索频次。
240、对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次。
在本实施例中,对搜索式进行分词处理主要是指将搜索式进行词语切分处理,将搜索式为以分词为单位进行表示。其中,可以采用基于字典、词库匹配的分词算法、基于词频度统计的分词算法或者基于知识理解的分词算法完成对搜索式进行分词处理,本实施例对此并不进行限制。
在本实施例中,在完成分词处理后,会同时去掉分词中的各种无挖掘意义词,例如,连词、主词以及介词等,以进一步精简分词集中的分词数量。
在一个具体例子,一个搜索式为:“海淀黄庄的呷哺呷哺”,通过统计,得到该搜索式在2016.2.21的搜索频次为1600次,通过对该搜索式进行分词处理,得到分词集{海淀黄庄、呷哺呷哺}后,将该搜索式“海淀黄庄的呷哺呷哺”的搜索频次,作为分词集{海淀黄庄、呷哺呷哺}的搜索频次,即:分词集{海淀黄庄、呷哺呷哺}的搜索频次为1600。
250、计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次。
如前所述,考虑到不同用户输入的不同搜索式可能对应于相同的搜索需求,因此可以首先计算不同分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中。
优选的,可以通过VSM(Vectorspacemodel,向量空间模型)算法计算两两分词集之间的相似度。
在一个具体例子中,分词集{呷哺呷哺、海淀黄庄}与分词集{呷哺呷哺、海淀区}之间的相似度满足设定阈值条件,则可以将上述两个分词集归并入一个新的分词集{呷哺呷哺、海淀黄庄、海淀区}中。
其中,如果分词集{呷哺呷哺、海淀黄庄}的搜索频次为1000次,分词集{呷哺呷哺、海淀区}的搜索频次为800次,则可以确定新的分词集{呷哺呷哺、海淀黄庄、海淀区}的搜索频次为1000+800=1800次。
260、将搜索频次满足设定阈值条件的目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
如前例所述,如果设定阈值条件为1500,则确定{呷哺呷哺、海淀黄庄、海淀区}为满足设定阈值条件的目标分词集,则可将({呷哺呷哺、海淀黄庄、海淀区}、1800)作为用户需求特征集中的一个关键词集。
270、将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
在本实施例中,通过对从用户搜索日志提取的搜索式进行分词处理,生成与所述搜索式对应的分词集后,计算两两分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并将搜索频次满足设定阈值条件的目标分词集,作为所述用户需求特征集的一个关键词集的技术手段,实现了在用户输入的搜索式具有一定的差别的前提下,也可以通过计算相似度的方式,实现将与相同搜索需求对应的不同搜索式进行准确归类,进而使得最终挖掘的线下资源更加准确的反应用户的实际搜索需求。
第三实施例
图3是本发明第三实施例的一种线下资源的挖掘方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,在上述各实施例的基础上,将根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集具体优化为:在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;对搜索频次满足设定阈值条件的目标分词集中的分词进行聚类处理;根据聚类结果确定与所述目标分词集对应的至少一个聚类关键词,并使用所述聚类关键词替换所述目标分词集中的分词;将所述目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
同时,在所述用户搜索日志信息中提取搜索式的同时,还优选包括:在所述用户搜索日志信息中提取与所述搜索式对应的地域信息;相应的,将统计与不同搜索式对应的搜索频次具体优化为:统计不同搜索式在不同地域信息下的所述搜索频次。
相应的,本实施例的方法具体包括:
310、获取至少两个用户搜索日志信息。
320、在所述用户搜索日志信息中提取搜索式以及与搜索式对应的地域信息,并统计不同搜索式在不同地域信息下的搜索频次。
一般来说,用户搜索日志信息除了包括用户输入的搜索式之外,还包括与用户所在位置对应的地域信息。
其中,所述地域信息具体可以包括:国家信息、城市信息、城市区域信息或者商圈信息。
在本实施例中,考虑到线下资源的地域特性,例如:“XX”城市的“XX”连锁餐厅,因为加盟商的大力发展,获得了很好的用户口碑,因此,该城市的很多用户开始在互联网中搜索该连锁餐厅,可以理解的是,如果在挖掘出该连锁餐厅这一线下资源的同时,同时获取搜索用户的地域信息,并统计不同搜索式在不同地域信息下的搜索频次,可以使得最终的挖掘结果与用户的实际结果更加贴近,挖掘效果更好。
330、对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次。
如前所述,上述分词集的搜索频次具体可以为不同地域信息下的搜索频次,例如:呷哺呷哺:北京3457次、天津1230次等。
340、计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次。
350、对搜索频次满足设定阈值条件的目标分词集中的分词进行聚类处理。
在本实施例中,所述搜索频次满足设定阈值条件具体可以是某个地域信息下的搜索频次超过设定阈值条件。
如前所述,为了进一步扩大最终挖掘出的线下资源的数量,可以对获取的分词集中的分词进行聚类处理后,生成对应的用户需求特征集。
其中,聚类的目的是将挖掘出的具体的线下资源进行一定的上位处理,以扩大线下资源的挖掘量,以及提高数据召回率。
举例而言,通过相似度计算后,获取一个满足设定阈值条件的分词集{呷哺呷哺、海淀黄庄},如果将该分词集直接作为用户需求特征集与线下资源集进行匹配,理论上应该获取(也称为召回)呷哺呷哺海淀黄庄店这一具体的实体商户,但是考虑到线下资源集中可能不会存储这么具体的商户名称,因此如果将如此具体或者说下位的分词集作为用户需求特征集,实际的数据召回率会较低,同时,通过这样的数据挖掘方法,最终挖掘出的实体商户数量也会比较少。
在本实施例的方法中,考虑到上述实际操作中的具体问题,在获取分词集后增加了聚类处理的操作,具体的,将获取的分词集与一个设定的品牌集进行聚类,如果分词集能够聚类至该品牌集中的具体一个品牌名上,则直接将该品牌名作为用户需求特征集,以解决上述两个实际问题。
在本实施例的一个优选的实施方式中,可以通过K-means(K均值)硬聚类算法对获取的分词集中的分词进行聚类处理。
360、根据聚类结果确定与所述目标分词集对应的至少一个聚类关键词,并使用所述聚类关键词替换所述目标分词集中的分词。
在本实施例的一个优选的实施方式中,如果目标分词集能够聚类到一个设定的品牌名,或者说聚类关键词上,则可以使用该品牌名或者聚类关键词直接替换所述目标分词集中的全部分词;
相应的,如果目标分词集无法聚类到至少一个聚类关键词上,则保留所述目标分词集中的全部分词。
370、将所述目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
在本实施例的一个优选的实施方式中,可以将与目标分词集中的分词,以及与所述聚类分词集在所述地域信息下的搜索频次,作为所述用户需求特征集中的一个关键词集。
例如,通过聚类处理后的一个用户需求特征集中的一个关键词集包括:(呷哺呷哺,北京,3457)。
360、将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
本实施例的方法通过统计不同搜索式在不同地域信息下的搜索频次,使得最终挖掘出的线下资源与线上用户的实际结果更加贴近,挖掘效果更好;同时在通过相似度计算获取分词集之后,通过增加聚类的操作,扩大线下资源的挖掘量,提高了数据召回率。
第四实施例
图4是本发明第四实施例的一种线下资源的挖掘方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,在将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息之后,还优选包括:根据获取的所述线下资源信息的线上属性信息,对所述线下资源信息进行评分;根据评分结果,获取所述线下资源信息中的优质资源信息。
相应的,本实施例的方法具体包括:
410、获取至少两个用户搜索日志信息。
420、根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集。
430、将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
440、根据获取的所述线下资源信息的线上属性信息,对所述线下资源信息进行评分。
在本实施例中,考虑到最终进行线下资源挖掘的时候,希望挖掘出的线下资源数量越多越好,因为做了一定的上位处理(聚类),上位处理后必然带来的一个问题是最终挖掘出的线下资源可能混杂有用户体验不好或者不利于线上合作的线下资源,因此,在获取线下资源信息后,增加了对线下资源信息进行评分的操作,以滤除掉不适于进行线上合作的线下资源信息或者重点标识出可以优先进行线上合作的优质的线下资源信息。
在本实施例的一个优选的实施方式中,所述线上属性信息可以包括下述至少一项:
所述线下资源的线上资料完整度(例如:实体商户的线上地址信息、线上商户名称信息以及线上电话信息等是否完整)、所述线下资源的用户线上评价等级值以及所述线下资源在所述用户搜索日志中的出现频次。
当然,本领域技术人员可以理解的是,还可以采取其他的线上属性信息对线下资源信息进行评分,本实施例对此并不进行限制。
450、根据评分结果,获取所述线下资源信息中的优质资源信息。
在本实施例中,可以设定一个评分阈值,将评分值超过所述评分阈值的线下资源信息作为优质资源信息。
本实施例的方法通过对根据获取的所述线下资源信息的线上属性信息,对所述线下资源信息进行评分,并根据评分结果,获取所述线下资源信息中的优质资源信息的技术手段,可以实现滤除掉不适于进行线上合作的线下资源信息或者重点标识出可以优先进行线上合作的优质的线下资源信息的效果,以优化最终的线下资源的挖掘结果,提高最终选取的线上合作对象对用户的实际需求的命中率,提高用户的O2O平台的使用体验。
在上述各实施例的基础上,本实施例的方法还可以包括:
将获取的所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息进行存储;在所述优质资源信息,和/或满足设定上线条件的线下资源信息中加入设定属性标签。
在本实施例中,为了后续更好的根据挖掘出的线下资源进行处理或者数据分析,优选将获取的所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息进行存储。
进一步的,可以对挖掘出的线下资源信息中的优质资源信息,或者满足设定上线条件的线下资源信息(例如,挖掘出的一个“XX”酒店曾经与O2O建立过线上合作关系)建立标签,以对后续的销售人员(与实体商户洽谈线上合作的相关人员)进行提示。
在上述各实施例的技术上,本实施例的方法还可以包括:
将设定时间间隔的时间区间作为基础时间单位;实时获取不同基础时间单元下的用户需求特征集,以及与所述用户需求特征集对应的线下资源信息;以时间为维度存储所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息,以实现对获取的所述线下资源信息进行挖掘效果评估。
典型的,本实施例的方法所挖掘出的线下资源信息为一个设定时间区间内的线下资源信息(例如,2016.2.21这一具体日期内),因此,为了实现对获取的所述线下资源信息进行挖掘效果评估,优选可以以天为时间维度进行线下资源信息挖掘,每次挖掘后,存储挖掘到的商户信息,包括商户的地址、电话、分类、品牌等信息,并存储挖掘趋势,商户的每日挖掘量等,通过搜索或者这些挖掘结果,实现对所述线下资源信息进行挖掘效果评估。
在上述各实施例的技术上,本实施例的方法还可以包括:
获取存储的所述线下资源信息中的已上线资源;实时监控所述已上线资源,并对所述已上线资源进行上线效果评估。
优选的,在与挖掘出的线下资源信息对应的线下实体商户进行洽谈后,可以将一定数量的线下资源转化为已上线资源,为了对通过本实施例的方法挖掘得到的线下资源进行上线效果评估,优选可以通过获取存储的所述线下资源信息中的已上线资源,并实时监控所述已上线资源(典型的,已上线资源的收益统计,或者说流水变化等)的方式,可以实现对所述已上线资源进行上线效果评估,并根据该评估结果,进而反向验证线下资源的挖掘方法的有效性。
在图5a-5e中示出了本发明第四实施例的一种线下资源的挖掘方法的具体应用场景的示意图。
其中,如图5a所示,本实施例的具体应用场景包括的主要操作有:根据用户搜索日志进行用户需求挖掘;根据用户需求挖掘结果,进行优质商户资源挖掘;对根据挖掘结果生成的线上合作商户进行收益统计;并将挖掘出的优质商户资源以及收益统计结果进行数据存储。
具体的,在图5b中示出了一种根据用户搜索日志进行用户需求挖掘,并获取用户需求特征集的具体操作流程,即:首先根据用户搜索日志信息提取目标字段(也就是搜索式),对提取的目标字段进行数据清洗,如果确定目标字段满足数据清洗条件(也就是满足反黄过滤条件、黑名单过滤条件或者属于无效数据等),则对该目标字段进行清洗滤除;否则,对该目标字段进行频次累加;最后在完成全部用户搜索日志的处理后,实现了对搜索式、城市以及频次的产出;接着对搜索式进行切词以及聚类处理后,最终生成需求特征集。
具体的,在图5c中示出了一种根据用户需求挖掘结果,进行优质商户资源挖掘的具体操作流程,即:首先对需求特征集进行商户资源映射,之后对映射生成的商户进行商户打分,并进行优质商户提取,接着对满足设定条件的商户打标签,最后,将需求特征集以及打标签的商户进行入库存储。
具体的,在图5d中示出了一种对入库的商户进行收益统计的操作流程,即:对于入库的商户资源分区处理,不同分区的销售认领商户线索、合作谈单,并将相应流转信息入库;对于入库的商户资源中合作的商户跟踪团单的流水变化,实现对挖掘商户的收益统计;
具体的,在图5e中示出了一种入库商户的查询界面示意图。如图5e所示,通过查询,可以查看入库的用户需求特征集为品牌名“呷哺呷哺”、地域信息“北京”以及搜索频次“1191”;
通过将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息,并对获取的线下资源信息进行评分后,图5e中列出的“门店名称”以及“门店店址”等为挖掘到的优质商户资源。“公私海是否存在”、“是否有在线单”则为根据行业需要添加的标签。
通过如图5e所述的信息查询接口,O2O平台中负责与实体商户洽谈线上合作的相关人员可以根据所负责的地理位置,查询可以洽谈的实体商户,进而使得最终合作的实体商户对用户的实际需求的命中率较好,进而可以提高O2O平台的用户使用体验。
第五实施例
在图6中示出了本发明第五实施例的一种线下资源的挖掘装置的结构图。如图6所示,所述装置包括:
搜索日志信息获取模块61,用于获取至少两个用户搜索日志信息。
用户需求特征集获取模块62,用于根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集。
线下资源信息获取模块63,用于将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
本发明实施例通过根据用户搜索日志信息挖掘线下资源的技术手段,可以解决现有的商户资源的提取方案中分析维度不完整,数据来源片面,数据时效性差;对实际的消费用户的感知存在严重浪费,忽略了用户的实际消费需求等技术问题,使得最终挖掘出的线下资源,充分考虑了由用户搜索行为直接反馈的线上用户的实际需求,此外,通过对用户搜索日志的挖掘来获取线下资源,可以实现通过充分利用大数据的资源,提高了O2O平台对线下资源覆盖率,进而提升用户对O2O平台的满意度以及用户的使用体验。
在上述各实施例的基础上,所述线下资源信息可以包括:线下实体商户的信息。
在上述各实施例的基础上,所述用户需求特征集获取模块可以包括:
第一搜索式提取单元,用于在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;
第一分词集生成单元,用于对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;
第一相似度归并单元,用于计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;
第一关键词集生成单元,用于将搜索频次满足设定阈值条件的目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
在上述各实施例的基础上,所述用户需求特征集获取模块可以包括:
第二搜索式提取单元,用于在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;
第二分词集生成单元,用于对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;
第二相似度归并单元,用于计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;
聚类处理单元,用于对搜索频次满足设定阈值条件的目标分词集中的分词进行聚类处理;
分词替换单元,用于根据聚类结果确定与所述目标分词集对应的至少一个聚类关键词,并使用所述聚类关键词替换所述目标分词集中的分词;
第二关键词集生成单元,用于将所述目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
在上述各实施例的基础上,还可以包括,日志过滤模块,用于在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次之前,根据设定过滤规则,对所述用户搜索日志信息进行过滤处理,滤除无效的用户搜索日志信息;
其中,所述过滤准则具体包括下述至少一项:
历史过滤准则、反黄过滤准则、黑名单过滤准则以及非用户日志过滤准则。
在上述各实施例的基础上,还可以包括:地域信息提取模块,用于在所述用户搜索日志信息中提取搜索式的同时,在所述用户搜索日志信息中提取与所述搜索式对应的地域信息;
其中,所述地域信息包括:国家信息、城市信息、城市区域信息或者商圈信息;
相应的,所述第一搜索式提取单元或者所述第二搜索式提取单元具体还可以用于:统计不同搜索式在不同地域信息下的所述搜索频次。
在上述各实施例的基础上,还可以包括:优质资源信息获取模块,用于:
在将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息之后,根据获取的所述线下资源信息的线上属性信息,对所述线下资源信息进行评分;
根据评分结果,获取所述线下资源信息中的优质资源信息;
其中,所述线上属性信息包括下述至少一项:
所述线下资源的线上资料完整度、所述线下资源的用户线上评价等级值以及所述线下资源在所述用户搜索日志中的出现频次。
在上述各实施例的基础上,还可以包括,存储模块,用于:
将获取的所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息进行存储;
在所述优质资源信息,和/或满足设定上线条件的线下资源信息中加入设定属性标签。
在上述各实施例的基础上,还可以包括,统计模块,用于:
将设定时间间隔的时间区间作为基础时间单位;
实时获取不同基础时间单元下的用户需求特征集,以及与所述用户需求特征集对应的线下资源信息;
以时间为维度存储获取的所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息,以实现对获取的所述线下资源信息进行挖掘效果评估。
在上述各实施例的基础上,还可以包括,已上线资源评估模块,用于:
获取存储的所述线下资源信息中的已上线资源;
实时监控所述已上线资源,并对所述已上线资源进行上线效果评估。
本发明实施例所提供的线下资源的挖掘装置可用于执行本发明任意实施例提供的线下资源的挖掘方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种线下资源的挖掘方法,其特征在于,包括:
获取至少两个用户搜索日志信息;
根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集;
将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
2.根据权利要求1所述的方法,其特征在于,所述线下资源信息包括:线下实体商户的信息。
3.根据权利要求2所述的方法,其特征在于,根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集包括:
在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;
对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;
计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;
将搜索频次满足设定阈值条件的目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
4.根据权利要求2所述的方法,其特征在于,根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集包括:
在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;
对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;
计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;
对搜索频次满足设定阈值条件的目标分词集中的分词进行聚类处理;
根据聚类结果确定与所述目标分词集对应的至少一个聚类关键词,并使用所述聚类关键词替换所述目标分词集中的分词;
将所述目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
5.根据权利要求3或4所述的方法,其特征在于,在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次之前,还包括:
根据设定过滤规则,对所述用户搜索日志信息进行过滤处理,滤除无效的用户搜索日志信息;
其中,所述过滤准则具体包括下述至少一项:
历史过滤准则、反黄过滤准则、黑名单过滤准则以及非用户日志过滤准则。
6.根据权利要求3或4所述的方法,其特征在于,在所述用户搜索日志信息中提取搜索式的同时,还包括:
在所述用户搜索日志信息中提取与所述搜索式对应的地域信息;
其中,所述地域信息包括:国家信息、城市信息、城市区域信息或者商圈信息;
相应的,统计与不同搜索式对应的搜索频次具体包括:统计不同搜索式在不同地域信息下的所述搜索频次。
7.根据权利要求3或4所述的方法,其特征在于,将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息之后,还包括:
根据获取的所述线下资源信息的线上属性信息,对所述线下资源信息进行评分;
根据评分结果,获取所述线下资源信息中的优质资源信息;
其中,所述线上属性信息包括下述至少一项:
所述线下资源的线上资料完整度、所述线下资源的用户线上评价等级值以及所述线下资源在所述用户搜索日志中的出现频次。
8.根据权利要求7所述的方法,其特征在于,还包括:
将获取的所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息进行存储;
在所述优质资源信息,和/或满足设定上线条件的线下资源信息中加入设定属性标签。
9.根据权利要求8所述的方法,其特征在于,还包括:
将设定时间间隔的时间区间作为基础时间单位;
实时获取不同基础时间单元下的用户需求特征集,以及与所述用户需求特征集对应的线下资源信息;
以时间为维度存储获取的所述用户需求特征集,以及与所述用户需求特征集对应的线下资源信息,以实现对获取的所述线下资源信息进行挖掘效果评估。
10.根据权利要求8或9所述的方法,其特征在于,还包括:
获取存储的所述线下资源信息中的已上线资源;
实时监控所述已上线资源,并对所述已上线资源进行上线效果评估。
11.一种线下资源的挖掘装置,其特征在于,包括:
搜索日志信息获取模块,用于获取至少两个用户搜索日志信息;
用户需求特征集获取模块,用于根据所述用户搜索日志信息中包括的搜索式,获取用户需求特征集,其中,所述用户需求特征集中包括至少一个关键词集;
线下资源信息获取模块,用于将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息。
12.根据权利要求11所述的装置,其特征在于,所述线下资源信息包括:线下实体商户的信息。
13.根据权利要求12所述的装置,其特征在于,所述用户需求特征集获取模块包括:
第一搜索式提取单元,用于在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;
第一分词集生成单元,用于对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;
第一相似度归并单元,用于计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;
第一关键词集生成单元,用于将搜索频次满足设定阈值条件的目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
14.根据权利要求12所述的装置,其特征在于,所述用户需求特征集获取模块包括:
第二搜索式提取单元,用于在所述用户搜索日志信息中提取搜索式,并统计搜索式的搜索频次;
第二分词集生成单元,用于对所述搜索式进行分词处理,生成与所述搜索式对应的分词集,并将所述搜索式的搜索频次作为与搜索式对应的分词集的搜索频次;
第二相似度归并单元,用于计算分词集之间的相似度,并将相似度满足设定阈值条件的至少两个分词集归并入一个新的分词集中,并根据新的分词集中归并入的分词集的搜索频次确定所述新的分词集的搜索频次;
聚类处理单元,用于对搜索频次满足设定阈值条件的目标分词集中的分词进行聚类处理;
分词替换单元,用于根据聚类结果确定与所述目标分词集对应的至少一个聚类关键词,并使用所述聚类关键词替换所述目标分词集中的分词;
第二关键词集生成单元,用于将所述目标分词集,以及与所述目标分词集对应的搜索频次,作为所述用户需求特征集中的一个关键词集。
15.根据权利要求13或14所述的装置,其特征在于,还包括,优质资源信息获取模块,用于:
在将所述用户需求特征集与设定线下资源集进行匹配,获取与所述用户需求特征集对应的线下资源信息之后,根据获取的所述线下资源信息的线上属性信息,对所述线下资源信息进行评分;
根据评分结果,获取所述线下资源信息中的优质资源信息;
其中,所述线上属性信息包括下述至少一项:
所述线下资源的线上资料完整度、所述线下资源的用户线上评价等级值以及所述线下资源在所述用户搜索日志中的出现频次。
CN201610101489.0A 2016-02-24 2016-02-24 线下资源的挖掘方法和装置 Pending CN105808641A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610101489.0A CN105808641A (zh) 2016-02-24 2016-02-24 线下资源的挖掘方法和装置
PCT/CN2016/086220 WO2017143703A1 (zh) 2016-02-24 2016-06-17 线下资源的挖掘方法和装置
US15/764,568 US11416502B2 (en) 2016-02-24 2016-06-17 Method and apparatus for mining offline resources

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610101489.0A CN105808641A (zh) 2016-02-24 2016-02-24 线下资源的挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN105808641A true CN105808641A (zh) 2016-07-27

Family

ID=56466283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610101489.0A Pending CN105808641A (zh) 2016-02-24 2016-02-24 线下资源的挖掘方法和装置

Country Status (3)

Country Link
US (1) US11416502B2 (zh)
CN (1) CN105808641A (zh)
WO (1) WO2017143703A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522335A (zh) * 2018-09-19 2019-03-26 北京明略软件系统有限公司 一种信息获取方法、装置及计算机可读存储介质
CN110889020A (zh) * 2019-11-22 2020-03-17 百度在线网络技术(北京)有限公司 站点资源挖掘方法、装置以及电子设备
CN112070519A (zh) * 2019-06-11 2020-12-11 中国科学院沈阳自动化研究所 一种基于数据全局搜索和特征分类的预测方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163153B (zh) * 2020-09-30 2024-05-03 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN115600011B (zh) * 2022-11-30 2023-05-19 大能手教育科技(北京)有限公司 基于分配算法的教育资源配对方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663627A (zh) * 2012-04-26 2012-09-12 焦点科技股份有限公司 个性化推荐方法
US20130268337A1 (en) * 2011-08-29 2013-10-10 Anthony Morello Method and/or system for extending payment system architectures and/or order processing systems to assign merchant funded incentive options to customers performing a mobile remote check deposit capture (MRDC) routine from a smart mobile device to facilitate online commerce, online-to-offline (O2O) commerce and mobile commerce.

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173352A (ja) 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
US7788131B2 (en) 2005-12-15 2010-08-31 Microsoft Corporation Advertising keyword cross-selling
US7945484B1 (en) * 2006-09-28 2011-05-17 A9.Com, Inc. Local product information
US20110113063A1 (en) * 2009-11-09 2011-05-12 Bob Schulman Method and system for brand name identification
CN102456058B (zh) * 2010-11-02 2014-03-19 阿里巴巴集团控股有限公司 类目信息提供方法及装置
CN103136224A (zh) 2011-11-24 2013-06-05 百度时代网络技术(北京)有限公司 一种关键词的推荐方法和装置
US20130262226A1 (en) * 2012-03-31 2013-10-03 Trans Union Llc Systems and methods for targeted internet marketing based on offline, online, and credit-related data
US8676777B1 (en) * 2012-10-03 2014-03-18 Google Inc. Determining geographic areas of interest for a query
CN104281622B (zh) 2013-07-11 2017-12-05 华为技术有限公司 一种社交媒体中的信息推荐方法和装置
US20160110428A1 (en) * 2014-10-20 2016-04-21 Multi Scale Solutions Inc. Method and system for finding labeled information and connecting concepts
CN105069102B (zh) * 2015-08-03 2017-05-24 百度在线网络技术(北京)有限公司 信息推送方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268337A1 (en) * 2011-08-29 2013-10-10 Anthony Morello Method and/or system for extending payment system architectures and/or order processing systems to assign merchant funded incentive options to customers performing a mobile remote check deposit capture (MRDC) routine from a smart mobile device to facilitate online commerce, online-to-offline (O2O) commerce and mobile commerce.
CN102663627A (zh) * 2012-04-26 2012-09-12 焦点科技股份有限公司 个性化推荐方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522335A (zh) * 2018-09-19 2019-03-26 北京明略软件系统有限公司 一种信息获取方法、装置及计算机可读存储介质
CN109522335B (zh) * 2018-09-19 2021-10-22 北京明略软件系统有限公司 一种信息获取方法、装置及计算机可读存储介质
CN112070519A (zh) * 2019-06-11 2020-12-11 中国科学院沈阳自动化研究所 一种基于数据全局搜索和特征分类的预测方法
CN112070519B (zh) * 2019-06-11 2024-03-05 中国科学院沈阳自动化研究所 一种基于数据全局搜索和特征分类的预测方法
CN110889020A (zh) * 2019-11-22 2020-03-17 百度在线网络技术(北京)有限公司 站点资源挖掘方法、装置以及电子设备
CN110889020B (zh) * 2019-11-22 2022-08-23 百度在线网络技术(北京)有限公司 站点资源挖掘方法、装置以及电子设备

Also Published As

Publication number Publication date
US11416502B2 (en) 2022-08-16
US20200242113A1 (en) 2020-07-30
WO2017143703A1 (zh) 2017-08-31

Similar Documents

Publication Publication Date Title
CN108154401B (zh) 用户画像刻画方法、装置、介质和计算设备
Fan et al. Demystifying big data analytics for business intelligence through the lens of marketing mix
US11048712B2 (en) Real-time and adaptive data mining
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US8700551B2 (en) Systems and methods for identifying provider noncustomers as likely acquisition targets
CN105808641A (zh) 线下资源的挖掘方法和装置
CN112785397A (zh) 一种产品推荐方法、装置及存储介质
CN103886074A (zh) 基于社交媒体的商品推荐系统
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN102254265A (zh) 一种富媒体互联网广告内容匹配、效果评估方法
WO2006009366A1 (en) Target advertising method and system using secondary keywords having relation to first internet searching keywords, and method and system for providing a list of the secondary keywords
CN112232909A (zh) 一种基于企业画像的商机挖掘方法
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
WO2019109698A1 (zh) 目标用户群体的确定方法及装置
Liu et al. Riding the tide of sentiment change: sentiment analysis with evolving online reviews
CN112269805A (zh) 数据处理方法、装置、设备及介质
Wongthongtham et al. Ontology and trust based data warehouse in new generation of business intelligence: State-of-the-art, challenges, and opportunities
TW201719569A (zh) 社交業務特徵用戶的識別方法和裝置
Liu et al. Mining the change of event trends for decision support in environmental scanning
Halkiopoulos et al. Cultural and tourism promotion through digital marketing approaches. A case study of social media campaigns in Greece
CN110209944A (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
Zhou et al. Learning with self-attention for rental market spatial dynamics in the Atlanta metropolitan area
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN115563176A (zh) 一种电子商务数据处理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160727

RJ01 Rejection of invention patent application after publication