CN111753526A - 一种相似竞品数据分析方法及系统 - Google Patents

一种相似竞品数据分析方法及系统 Download PDF

Info

Publication number
CN111753526A
CN111753526A CN202010561788.9A CN202010561788A CN111753526A CN 111753526 A CN111753526 A CN 111753526A CN 202010561788 A CN202010561788 A CN 202010561788A CN 111753526 A CN111753526 A CN 111753526A
Authority
CN
China
Prior art keywords
service data
competitive product
local
data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010561788.9A
Other languages
English (en)
Inventor
熊平
吴娟
陈德勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wuyou Chuangxiang Information Technology Co ltd
Original Assignee
Beijing Wuyou Chuangxiang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wuyou Chuangxiang Information Technology Co ltd filed Critical Beijing Wuyou Chuangxiang Information Technology Co ltd
Priority to CN202010561788.9A priority Critical patent/CN111753526A/zh
Publication of CN111753526A publication Critical patent/CN111753526A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Technology (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种相似竞品数据分析方法及系统,该方法包括:步骤S1,获取本地业务数据并对其进行分词,得到其有效词组,根据获得的有效词组提取关键词,并拼接成该本地业务数据的关键词文本;步骤S2,对竞品业务数据进行搜集,对各竞品业务数据的文本分别进行分词,根据获得的各竞品业务数据的有效词组提取关键词,并拼接成各竞品业务数据的关键词文本,存储于一竞品数据库;步骤S3,利用搜索引擎将本地业务数据的关键词文本于竞品数据库中搜索;步骤S4,计算本地业务数据的关键词向量,计算n条相关度最高的竞品业务数据的关键词向量,并计算出本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。

Description

一种相似竞品数据分析方法及系统
技术领域
本发明涉及一种相似竞品数据分析方法及系统,特别是涉及一种基于搜索引擎Elasticsearch(以下简称Es)的相似竞品数据分析方法及系统。
背景技术
随着电子商务以及知识付费的流行,越来越多的IT人有了技能提升的诉求,他们会在各学习平台选择对比优质课程,基于相同课程资源出现时,他们会进行电商平台之间的来回比价,相似课程条件下没有人愿意拒绝“更划算的价格”,由此对定价较高的平台就会造成用户黏性降低,用户流失等负面影响。
目前,一些在线教育平台进行课程比价的方法是:运营人员根据自有平台课程名称或者讲师信息依此到竞品平台上进行课程搜索,当定位到相同课程后,当出现比自身平台价格高的情况时,运营人员主动联系讲师,让其修改定价或者下线讲师课程。但大多数讲师针对同一个视频课程会通过修改课程名称或者课程介绍等方法将课程重新包装,这就给运营甄别是否为相同课程带来非常大的工作量。
对竞品数据进行搜集,搜集到竞品数据之后,如何将本地数据源与竞品数据源进行数据分析,如何高效快速准确甄别出相似的竞品数据,是很多公司在进行竞品分析时的一大阻碍和难点。
因此,业界急需一种能够对这些竞品数据进行处理,高效快速准确地与本地数据进行甄别和分析的技术。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种相似竞品数据分析方法及系统,以提高竞品业务数据与本地业务数据甄别与分析的效率和准确性。
为达上述目的,本发明提出一种相似竞品数据分析方法,包括如下步骤:
步骤S1,获取本地业务数据,对获得的本地业务数据的文本进行分词,得到本地业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
步骤S2,根据所述本地业务数据对竞品业务数据进行搜集,对搜集获得的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,存储于一竞品数据库;
步骤S3,利用搜索引擎将步骤S1得到的本地业务数据的关键词文本于所述竞品数据库中进行搜索;
步骤S4,计算所述本地业务数据的关键词向量,并提取步骤S3搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
优选地,步骤S1进一步包括:
步骤S100,搜索并获得本地业务数据;
步骤S101,对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组;
步骤S102,根据步骤S101得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF值;
步骤S103,根据步骤S102计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成所述本地业务数据的关键词文本。
优选地,步骤S2进一步包括:
步骤S200,根据所述本地业务数据对竞品业务数据进行搜集;
步骤S201,依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组;
步骤S202,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF值;
步骤S203,对各条竞品业务数据,根据计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
优选地,于步骤S103或步骤S203中,根据计算获得的TF-IDF值从大到小提取关键词。
优选地,各个词的词频TF采用如下公式获得:
Figure BDA0002546500620000031
各个词的逆文件频率IDF根据如下公式获得:
Figure BDA0002546500620000032
各个词的TF-IDF值根据如下公式获得:
TF-IDF=TF*IDF。
优选地,于步骤S3中,所述搜索引擎对搜索结果根据搜索关键词按照相关度进行排序。
优选地,步骤S4进一步包括:
步骤S400,计算所述本地业务数据的关键词向量;
步骤S401,根据步骤S3的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量;
步骤S402,将步骤S400得到的本地业务数据关键词向量逐一与步骤S401得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算;
步骤S403,根据步骤S402的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
优选地,于步骤S403后,还包括如下步骤:
步骤S404,设置相关度阈值,对步骤S403的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,得到所述本地业务数据的相关竞品业务数据m条。
优选地,于步骤S402中,所述本地业务数据的关键词向量与各竞品业务数据对应的关键词向量的余弦相似度通过如下余弦相似度计算公式获得:
Figure BDA0002546500620000041
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
为达到上述目的,本发明还提供一种相似竞品数据分析系统,包括:
本地业务数据处理单元,用于获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
竞品业务数据搜集处理单元,用于根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库;
搜索处理单元,用于利用搜索引擎将所述本地业务数据处理单元得到的本地业务数据的关键词文本于所述竞品业务数据搜集处理单元得到的竞品数据库中进行搜索;
相似度分析单元,用于计算所述本地业务数据的关键词向量,并提取所述搜索处理单元的搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
与现有技术相比,本发明一种相似竞品数据分析方法及系统通过分别对本地业务数据及竞品业务数据的文本进行分词,得到各条业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,然后拼接成各条业务数据的关键词文本,然后利用搜索引擎将本地业务数据的关键词文本于由竞品业务数据存储的竞品数据库中搜索,然后根据搜索结果计算本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度,通过本发明,可提高竞品业务数据与本地业务数据甄别与分析的效率和准确性。
附图说明
图1为本发明一种相似竞品数据分析方法的步骤流程图;
图2为本发明一种相似竞品数据分析系统的系统架构图;
图3为本发明实施例中相似竞品数据分析流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种相似竞品数据分析方法的步骤流程图。如图1所示,本发明一种相似竞品数据分析方法,包括如下步骤:
步骤S1,获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本。以下称本地产品的业务数据为本地业务数据。
具体地,步骤S1进一步包括:
步骤S100,搜索并获得一条本地业务数据。
在本发明具体实施例中,以在线教育课程为例,其本地业务数据可以是该在线教育平台自有的平台课程名称及讲师信息等。
步骤S101,对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组。
由于本发明中对文本分词采用的分词方法是现有技术的分词方法,在此不予赘述。
步骤S102,根据步骤S101得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF。
在本发明中,有时本地业务数据源往往过长,并且包含很多无效的文本内容,因此需要对本地业务数据的文本数据进行关键词提取,保留有效且重要的关键词数据。在本发明具体实施例中,利用TF-IDF算法提取关键词,TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,使用TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆文件频率)可以简单快速提取出关键词。
具体地,各个词的词频TF的计算公式如下:
Figure BDA0002546500620000071
各个词的逆文件频率IDF计算公式如下:
Figure BDA0002546500620000072
分母之所以要加1,是为了避免分母为0
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
步骤S103,根据步骤S102计算获得的TF-IDF值从大到小排序,提取前i个关键词,并根据提取的关键词,拼接成本地业务数据的关键词文本。
在本发明中,一个词的TF-IDF值越大,表示这个词成为一个关键词的概率就越大,因此,需要按照TF-IDF的值从大到小排序后提取关键词,并根据提取的关键词拼接成本地业务数据的关键词文本。
步骤S2,根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库。
具体地,步骤S2进一步包括:
步骤S200,根据本地业务数据对竞品业务数据进行搜集。
在本发明具体实施例中,根据本地业务数据,利用关键词搜索,对市面上常见的竞品业务数据进行搜集,得到若干条竞品业务数据。
步骤S201,依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组。
步骤S202,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF。
在本发明中,为准确计算本地业务数据和竞品业务数据的相似度,对竞品业务数据进行关键字提取,竞品业务数据源往往过长,并且包含很多无效的文本内容,因此需要对竞品业务数据的文本数据进行关键词提取,保留有效且重要的关键词数据。
在本发明具体实施例中,与本地业务数据一样,各个词的词频TF的计算公式如下:
Figure BDA0002546500620000081
各个词的逆文件频率IDF计算公式如下:
Figure BDA0002546500620000082
分母之所以要加1,是为了避免分母为0
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
步骤S203,对各竞品业务数据,根据计算获得的TF-IDF值从大到小提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
步骤S3,利用搜索引擎将步骤S1得到的本地业务数据的关键词文本于竞品数据库中进行搜索,得到搜索结果。
在本发明具体实施例中,当竞品业务数据搜集完毕之后,将有效数据(本地业务数据以及竞品业务数据)导入搜索引擎模组进行存储,搜索引擎的作用是能够检索出相似的数据。
搜索引擎es则抽取本地业务数据,将其关键词文本于竞品数据库中进行搜索,并会根据输入的文本(即输入的本地业务数据的关键词文本)得出搜索结果。
步骤S4,计算所述本地业务数据的关键词向量,并提取步骤S3搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
具体的,步骤S4进一步包括:
步骤S400,计算所述本地业务数据的关键词向量。
在本发明具体实施例中,根据步骤S1利用TF-IDF算法得到的关键词词组,将词作为键,TF-IDF作为值,将其转换为关键词词组向量。
步骤S401,根据步骤S3的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量。
如下表1所示为分别为本地业务关键词词组向量及根据步骤S3搜索得到的一条竞品业务数据的关键词词组向量,并于步骤S402对两个关键词向量进行余弦相似度计算。
表1
TF-IDF
操作系统 19.5
设计原理 17.2
专业 15.3
核心课程 9.1
计算机 7.6
软件 3.2
TF-IDF
操作系统 18.1
设计原理 16.8
专业 15.7
核心课程 10.1
处理器 8.4
硬件 1.8
步骤S402,将步骤S400得到的本地业务数据关键词向量逐一与步骤S401得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算。
在本发明具体实施例中,余弦相似度计算是一种简单有效的计算两个向量的相似程度的方法,所述余弦相似度计算公式如下:
Figure BDA0002546500620000101
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
步骤S403,根据步骤S402的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
步骤S404,设置相关度阈值,对步骤S403的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,即得到所述本地业务数据的相关竞品业务数据m条。
图2为本发明一种相似竞品数据分析系统的系统架构图。如图2所示,本发明一种相似竞品数据分析系统,包括:
本地业务数据处理单元20,用于获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本。以下称本地产品的业务数据为本地业务数据。
具体地,本地业务数据处理单元20进一步包括:
本地业务数据获取模块201,用于搜索并获得一条本地业务数据。
在本发明具体实施例中,以在线教育课程为例,其本地业务数据可以是该在线教育平台自有的平台课程名称及讲师信息等。
本地数据分词模块202,对本地业务数据获取模块201得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组。
本地数据TF-IDF计算模块203,用于根据本地数据分词模块202得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF。
在本发明具体实施例中,利用TF-IDF算法提取关键词,TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。使用TF-IDF算法(Term Frequency-Inverse DocumentFrequency,词频-逆文件频率)可以简单快速提取出关键词。
具体地,各个词的词频TF的计算公式如下:
Figure BDA0002546500620000111
各个词的逆文件频率IDF计算公式如下:
Figure BDA0002546500620000112
分母之所以要加1,是为了避免分母为0
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
本地数据关键词提取模块204,用于根据本地数据TF-IDF计算模块203计算获得的TF-IDF值从大到小提取关键词,并根据提取的关键词,拼接成本地业务数据的关键词文本。
在本发明中,一个词的TF-IDF值越大,表示这个词成为一个关键词的概率就越大,因此,需要按照TF-IDF的值从大到小提取关键词,并根据提取的关键词拼接成本地业务数据的关键词文本。
竞品业务数据搜集处理单元21,用于根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库。
具体地,竞品业务数据搜集处理单元21进一步包括:
竞品业务数据搜集模块210,用于根据本地业务数据对竞品业务数据进行搜集。
在本发明具体实施例中,根据本地业务数据,对市面上常见的竞品业务数据进行搜集,得到若干条竞品业务数据。
竞品数据分词模块211,用于依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组。
竞品数据TF-IDF计算模块212,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF。
在本发明中,为准确计算本地业务数据和竞品业务数据的相似度,对竞品业务数据进行关键字提取,竞品业务数据源往往过长,并且包含很多无效的文本内容,因此需要对竞品业务数据的文本数据进行关键词提取,保留有效且重要的关键词数据。
在本发明具体实施例中,与本地业务数据一样,各个词的词频TF的计算公式如下:
Figure BDA0002546500620000121
各个词的逆文件频率IDF计算公式如下:
Figure BDA0002546500620000122
分母之所以要加1,是为了避免分母为0
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
竞品数据关键词提取模块213,用于对各竞品业务数据,根据计算获得的TF-IDF值从大到小提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
搜索处理单元22,用于利用搜索引擎将本地业务数据处理单元20得到的本地业务数据的关键词文本于竞品业务数据搜集处理单元21得到的竞品数据库中进行搜索,得到搜索结果。
在本发明具体实施例中,当竞品业务数据搜集完毕之后,将有效数据(本地业务数据以及竞品业务数据)导入搜索引擎模组进行存储,搜索引擎的作用是能够检索出相似的数据。
搜索引擎则抽取本地业务数据,将其关键词文本于竞品数据库中进行搜索,并会根据搜索关键词按照相关度进行排名,给出搜索结果,这里需说明的是,此时搜索引擎仅按照相关度从高到低对结果进行排序,未将本地业务数据与竞品业务数据进行准确的相似度计算。
相似度分析单元23,用于计算所述本地业务数据的关键词向量,并提取搜索处理单元22搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
具体的,相似度分析单元23进一步包括:
本地数据关键词向量计算模块231,用于计算所述本地业务数据的关键词向量。
在本发明具体实施例中,本地数据关键词向量计算模块231根据本地业务数据处理单元20利用TF-IDF算法得到的关键词文本,将其转换为关键词向量。
竞品数据关键词向量计算模块232,用于根据搜索处理单元22的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量。
相似度计算模块233,用于将本地数据关键词向量计算模块231得到的本地业务数据关键词向量逐一与竞品数据关键词向量计算模块232得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算。
余弦相似度计算是一种简单有效的计算两个向量的相似程度的方法,在本发明具体实施例中,所述余弦相似度计算公式如下:
Figure BDA0002546500620000141
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
排序模块234,根据相似度计算模块233的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
结果筛选模块235,用于设置相关度阈值,对排序模块234的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,即得到所述本地业务数据的相关竞品业务数据m条。
实施例
如图3所示,本实施例中,本发明之相似竞品数据分析方法的流程如下:
步骤101:搜集本地业务数据。
步骤102:根据本地业务数据搜集市面上的竞品业务数据。
步骤201:对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组。
步骤202:对步骤102得到的竞品业务数据的文本进行分词,得到竞品业务数据的有效词组。
步骤301:根据步骤201得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF。
步骤302:根据步骤202得到的竞品业务数据的有效词组,分别计算出竞品业务数据的各个词的词频TF。
步骤401:根据步骤201的本地业务数据的有效词组,计算出本地业务数据的各个词的逆文件频率IDF。
步骤402:根据步骤202的竞品业务数据的有效词组,计算出本地业务数据的各个词的逆文件频率IDF。
步骤501:根据步骤301的本地业务数据各个词的TF和步骤401的IDF,计算出本地业务数据各个词的TF-IDF。
步骤502:根据步骤302的竞品业务数据各个词的TF和步骤402的IDF,计算出竞品业务数据各个词的TF-IDF。
步骤601:根据步骤501的TF-IDF值从大到小提取关键词。
步骤602:根据步骤502的TF-IDF值从大到小提取关键词。
步骤701:根据步骤601提取的关键词,拼接成本地数据关键词文本。
步骤702:根据步骤602提取的关键词,拼接成竞品数据关键词文本。
步骤801:将步骤101的本地数据和步骤701的本地关键词文本导入搜索引擎Es。Es(Elasticsearch)是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch采用Java语言开发,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎,在本实施例中,采用的搜索引擎为Es,搜索引擎的作用是能够检索出相似的数据。
步骤802:将步骤102的竞品数据和步骤702的竞品关键词文本导入搜索引擎Es。
步骤901:抽取一条本地业务数据,将步骤701获得的本地数据关键词文本放入搜索引擎Es中对竞品数据进行搜索,得到搜索结果,进一步地,该搜索引擎Es会根据搜索关键词按照相关度进行排名,给出搜索结果,这里搜索引擎仅按照相关度从高到低对结果进行排序,未将本地业务数据与竞品业务数据进行准确的相似度计算。
步骤1001:计算步骤901中本条本地业务数据的关键词向量。
步骤1101:根据步骤1001结果提取前n条相关度最高的竞品数据,提取出该n条结果对应的关键词向量。
步骤1201:将步骤1001得到的本地数据关键词向量逐一与步骤1101得到的n结果对应出的关键词向量进行余弦相似度计算。
步骤1301:根据步骤1301余弦相似度计算的结果对n条竞品数据从大到小排序。
步骤1401:设置相关度阈值,对步骤1301的n条竞品业务数据进行筛选,取出该相关度阈值以上的竞品业务数据m条,即可得到步骤901本地数据的相关竞品业务数据m条。
综上所述,本发明一种相似竞品数据分析方法及系统通过分别对本地业务数据及竞品业务数据的文本进行分词,得到各条业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,然后拼接成各条业务数据的关键词文本,然后利用搜索引擎将本地业务数据的关键词文本于由竞品业务数据存储的竞品数据库中搜索,然后根据搜索结果计算本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度,通过本发明,可提高竞品业务数据与本地业务数据甄别与分析的效率和准确性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种相似竞品数据分析方法,包括如下步骤:
步骤S1,获取本地业务数据,对获得的本地业务数据的文本进行分词,得到本地业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
步骤S2,根据所述本地业务数据对竞品业务数据进行搜集,对搜集获得的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,存储于一竞品数据库;
步骤S3,利用搜索引擎将步骤S1得到的本地业务数据的关键词文本于所述竞品数据库中进行搜索;
步骤S4,计算所述本地业务数据的关键词向量,并提取步骤S3搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
2.如权利要求1所述的一种相似竞品数据分析方法,其特征在于,步骤S1进一步包括:
步骤S100,搜索并获得本地业务数据;
步骤S101,对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组;
步骤S102,根据步骤S101得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF值;
步骤S103,根据步骤S102计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成所述本地业务数据的关键词文本。
3.如权利要求1所述的一种相似竞品数据分析方法,其特征在于,步骤S2进一步包括:
步骤S200,根据所述本地业务数据对竞品业务数据进行搜集;
步骤S201,依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组;
步骤S202,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF值;
步骤S203,对各条竞品业务数据,根据计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
4.如权利要求2或3所述的一种相似竞品数据分析方法,其特征在于,于步骤S103或步骤S203中,根据计算获得的TF-IDF值从大到小提取关键词。
5.如权利要求4所述的一种相似竞品数据分析方法,其特征在于,各个词的词频TF采用如下公式获得:
Figure FDA0002546500610000021
各个词的逆文件频率IDF根据如下公式获得:
Figure FDA0002546500610000022
各个词的TF-IDF值根据如下公式获得:
TF-IDF=TF*IDF。
6.如权利要求5所述的一种相似竞品数据分析方法,其特征在于:于步骤S3中,所述搜索引擎对搜索结果根据搜索关键词按照相关度进行排序。
7.如权利要求6所述的一种相似竞品数据分析方法,其特征在于,步骤S4进一步包括:
步骤S400,计算所述本地业务数据的关键词向量;
步骤S401,根据步骤S3的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量;
步骤S402,将步骤S400得到的本地业务数据关键词向量逐一与步骤S401得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算;
步骤S403,根据步骤S402的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
8.如权利要求7所述的一种相似竞品数据分析方法,其特征在于,于步骤S403后,还包括如下步骤:
步骤S404,设置相关度阈值,对步骤S403的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,得到所述本地业务数据的相关竞品业务数据m条。
9.如权利要求8所述的一种相似竞品数据分析方法,其特征在于,于步骤S402中,所述本地业务数据的关键词向量与各竞品业务数据对应的关键词向量的余弦相似度通过如下余弦相似度计算公式获得:
Figure FDA0002546500610000031
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
10.一种相似竞品数据分析系统,包括:
本地业务数据处理单元,用于获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
竞品业务数据搜集处理单元,用于根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库;
搜索处理单元,用于利用搜索引擎将所述本地业务数据处理单元得到的本地业务数据的关键词文本于所述竞品业务数据搜集处理单元得到的竞品数据库中进行搜索;
相似度分析单元,用于计算所述本地业务数据的关键词向量,并提取所述搜索处理单元的搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
CN202010561788.9A 2020-06-18 2020-06-18 一种相似竞品数据分析方法及系统 Withdrawn CN111753526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010561788.9A CN111753526A (zh) 2020-06-18 2020-06-18 一种相似竞品数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010561788.9A CN111753526A (zh) 2020-06-18 2020-06-18 一种相似竞品数据分析方法及系统

Publications (1)

Publication Number Publication Date
CN111753526A true CN111753526A (zh) 2020-10-09

Family

ID=72675602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010561788.9A Withdrawn CN111753526A (zh) 2020-06-18 2020-06-18 一种相似竞品数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN111753526A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182054A (zh) * 2020-10-30 2021-01-05 安徽江淮汽车集团股份有限公司 一种车辆竞品数据处理方法、系统、设备及存储介质
CN112651781A (zh) * 2020-12-29 2021-04-13 车主邦(北京)科技有限公司 竞品分析方法和装置
CN113743721A (zh) * 2021-07-29 2021-12-03 深圳市东信时代信息技术有限公司 营销策略生成方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110348920A (zh) * 2018-04-02 2019-10-18 中移(杭州)信息技术有限公司 一种推荐产品的方法及装置
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110348920A (zh) * 2018-04-02 2019-10-18 中移(杭州)信息技术有限公司 一种推荐产品的方法及装置
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182054A (zh) * 2020-10-30 2021-01-05 安徽江淮汽车集团股份有限公司 一种车辆竞品数据处理方法、系统、设备及存储介质
CN112651781A (zh) * 2020-12-29 2021-04-13 车主邦(北京)科技有限公司 竞品分析方法和装置
CN113743721A (zh) * 2021-07-29 2021-12-03 深圳市东信时代信息技术有限公司 营销策略生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US7519588B2 (en) Keyword characterization and application
US20060212441A1 (en) Full text query and search systems and methods of use
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111753526A (zh) 一种相似竞品数据分析方法及系统
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
WO2008106667A1 (en) Searching heterogeneous interrelated entities
CN106445963B (zh) App平台的广告索引关键词自动生成方法和装置
KR101491627B1 (ko) 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
Sun et al. CWS: a comparative web search system
JP4896268B2 (ja) 情報価値を反映した情報検索方法及びその装置
CN111444304A (zh) 搜索排序的方法和装置
US20050138079A1 (en) Processing, browsing and classifying an electronic document
CN110866102A (zh) 检索处理方法
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN108875014B (zh) 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN114742062B (zh) 文本关键词提取处理方法及系统
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN108509449B (zh) 一种信息处理的方法及服务器
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201009