CN111753526A - 一种相似竞品数据分析方法及系统 - Google Patents
一种相似竞品数据分析方法及系统 Download PDFInfo
- Publication number
- CN111753526A CN111753526A CN202010561788.9A CN202010561788A CN111753526A CN 111753526 A CN111753526 A CN 111753526A CN 202010561788 A CN202010561788 A CN 202010561788A CN 111753526 A CN111753526 A CN 111753526A
- Authority
- CN
- China
- Prior art keywords
- service data
- competitive product
- local
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000002860 competitive effect Effects 0.000 title claims abstract description 199
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007405 data analysis Methods 0.000 title claims description 14
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000013480 data collection Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Educational Technology (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种相似竞品数据分析方法及系统,该方法包括:步骤S1,获取本地业务数据并对其进行分词,得到其有效词组,根据获得的有效词组提取关键词,并拼接成该本地业务数据的关键词文本;步骤S2,对竞品业务数据进行搜集,对各竞品业务数据的文本分别进行分词,根据获得的各竞品业务数据的有效词组提取关键词,并拼接成各竞品业务数据的关键词文本,存储于一竞品数据库;步骤S3,利用搜索引擎将本地业务数据的关键词文本于竞品数据库中搜索;步骤S4,计算本地业务数据的关键词向量,计算n条相关度最高的竞品业务数据的关键词向量,并计算出本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
Description
技术领域
本发明涉及一种相似竞品数据分析方法及系统,特别是涉及一种基于搜索引擎Elasticsearch(以下简称Es)的相似竞品数据分析方法及系统。
背景技术
随着电子商务以及知识付费的流行,越来越多的IT人有了技能提升的诉求,他们会在各学习平台选择对比优质课程,基于相同课程资源出现时,他们会进行电商平台之间的来回比价,相似课程条件下没有人愿意拒绝“更划算的价格”,由此对定价较高的平台就会造成用户黏性降低,用户流失等负面影响。
目前,一些在线教育平台进行课程比价的方法是:运营人员根据自有平台课程名称或者讲师信息依此到竞品平台上进行课程搜索,当定位到相同课程后,当出现比自身平台价格高的情况时,运营人员主动联系讲师,让其修改定价或者下线讲师课程。但大多数讲师针对同一个视频课程会通过修改课程名称或者课程介绍等方法将课程重新包装,这就给运营甄别是否为相同课程带来非常大的工作量。
对竞品数据进行搜集,搜集到竞品数据之后,如何将本地数据源与竞品数据源进行数据分析,如何高效快速准确甄别出相似的竞品数据,是很多公司在进行竞品分析时的一大阻碍和难点。
因此,业界急需一种能够对这些竞品数据进行处理,高效快速准确地与本地数据进行甄别和分析的技术。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种相似竞品数据分析方法及系统,以提高竞品业务数据与本地业务数据甄别与分析的效率和准确性。
为达上述目的,本发明提出一种相似竞品数据分析方法,包括如下步骤:
步骤S1,获取本地业务数据,对获得的本地业务数据的文本进行分词,得到本地业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
步骤S2,根据所述本地业务数据对竞品业务数据进行搜集,对搜集获得的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,存储于一竞品数据库;
步骤S3,利用搜索引擎将步骤S1得到的本地业务数据的关键词文本于所述竞品数据库中进行搜索;
步骤S4,计算所述本地业务数据的关键词向量,并提取步骤S3搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
优选地,步骤S1进一步包括:
步骤S100,搜索并获得本地业务数据;
步骤S101,对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组;
步骤S102,根据步骤S101得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF值;
步骤S103,根据步骤S102计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成所述本地业务数据的关键词文本。
优选地,步骤S2进一步包括:
步骤S200,根据所述本地业务数据对竞品业务数据进行搜集;
步骤S201,依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组;
步骤S202,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF值;
步骤S203,对各条竞品业务数据,根据计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
优选地,于步骤S103或步骤S203中,根据计算获得的TF-IDF值从大到小提取关键词。
优选地,各个词的词频TF采用如下公式获得:
各个词的逆文件频率IDF根据如下公式获得:
各个词的TF-IDF值根据如下公式获得:
TF-IDF=TF*IDF。
优选地,于步骤S3中,所述搜索引擎对搜索结果根据搜索关键词按照相关度进行排序。
优选地,步骤S4进一步包括:
步骤S400,计算所述本地业务数据的关键词向量;
步骤S401,根据步骤S3的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量;
步骤S402,将步骤S400得到的本地业务数据关键词向量逐一与步骤S401得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算;
步骤S403,根据步骤S402的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
优选地,于步骤S403后,还包括如下步骤:
步骤S404,设置相关度阈值,对步骤S403的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,得到所述本地业务数据的相关竞品业务数据m条。
优选地,于步骤S402中,所述本地业务数据的关键词向量与各竞品业务数据对应的关键词向量的余弦相似度通过如下余弦相似度计算公式获得:
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
为达到上述目的,本发明还提供一种相似竞品数据分析系统,包括:
本地业务数据处理单元,用于获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
竞品业务数据搜集处理单元,用于根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库;
搜索处理单元,用于利用搜索引擎将所述本地业务数据处理单元得到的本地业务数据的关键词文本于所述竞品业务数据搜集处理单元得到的竞品数据库中进行搜索;
相似度分析单元,用于计算所述本地业务数据的关键词向量,并提取所述搜索处理单元的搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
与现有技术相比,本发明一种相似竞品数据分析方法及系统通过分别对本地业务数据及竞品业务数据的文本进行分词,得到各条业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,然后拼接成各条业务数据的关键词文本,然后利用搜索引擎将本地业务数据的关键词文本于由竞品业务数据存储的竞品数据库中搜索,然后根据搜索结果计算本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度,通过本发明,可提高竞品业务数据与本地业务数据甄别与分析的效率和准确性。
附图说明
图1为本发明一种相似竞品数据分析方法的步骤流程图;
图2为本发明一种相似竞品数据分析系统的系统架构图;
图3为本发明实施例中相似竞品数据分析流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种相似竞品数据分析方法的步骤流程图。如图1所示,本发明一种相似竞品数据分析方法,包括如下步骤:
步骤S1,获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本。以下称本地产品的业务数据为本地业务数据。
具体地,步骤S1进一步包括:
步骤S100,搜索并获得一条本地业务数据。
在本发明具体实施例中,以在线教育课程为例,其本地业务数据可以是该在线教育平台自有的平台课程名称及讲师信息等。
步骤S101,对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组。
由于本发明中对文本分词采用的分词方法是现有技术的分词方法,在此不予赘述。
步骤S102,根据步骤S101得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF。
在本发明中,有时本地业务数据源往往过长,并且包含很多无效的文本内容,因此需要对本地业务数据的文本数据进行关键词提取,保留有效且重要的关键词数据。在本发明具体实施例中,利用TF-IDF算法提取关键词,TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,使用TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆文件频率)可以简单快速提取出关键词。
具体地,各个词的词频TF的计算公式如下:
各个词的逆文件频率IDF计算公式如下:
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
步骤S103,根据步骤S102计算获得的TF-IDF值从大到小排序,提取前i个关键词,并根据提取的关键词,拼接成本地业务数据的关键词文本。
在本发明中,一个词的TF-IDF值越大,表示这个词成为一个关键词的概率就越大,因此,需要按照TF-IDF的值从大到小排序后提取关键词,并根据提取的关键词拼接成本地业务数据的关键词文本。
步骤S2,根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库。
具体地,步骤S2进一步包括:
步骤S200,根据本地业务数据对竞品业务数据进行搜集。
在本发明具体实施例中,根据本地业务数据,利用关键词搜索,对市面上常见的竞品业务数据进行搜集,得到若干条竞品业务数据。
步骤S201,依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组。
步骤S202,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF。
在本发明中,为准确计算本地业务数据和竞品业务数据的相似度,对竞品业务数据进行关键字提取,竞品业务数据源往往过长,并且包含很多无效的文本内容,因此需要对竞品业务数据的文本数据进行关键词提取,保留有效且重要的关键词数据。
在本发明具体实施例中,与本地业务数据一样,各个词的词频TF的计算公式如下:
各个词的逆文件频率IDF计算公式如下:
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
步骤S203,对各竞品业务数据,根据计算获得的TF-IDF值从大到小提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
步骤S3,利用搜索引擎将步骤S1得到的本地业务数据的关键词文本于竞品数据库中进行搜索,得到搜索结果。
在本发明具体实施例中,当竞品业务数据搜集完毕之后,将有效数据(本地业务数据以及竞品业务数据)导入搜索引擎模组进行存储,搜索引擎的作用是能够检索出相似的数据。
搜索引擎es则抽取本地业务数据,将其关键词文本于竞品数据库中进行搜索,并会根据输入的文本(即输入的本地业务数据的关键词文本)得出搜索结果。
步骤S4,计算所述本地业务数据的关键词向量,并提取步骤S3搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
具体的,步骤S4进一步包括:
步骤S400,计算所述本地业务数据的关键词向量。
在本发明具体实施例中,根据步骤S1利用TF-IDF算法得到的关键词词组,将词作为键,TF-IDF作为值,将其转换为关键词词组向量。
步骤S401,根据步骤S3的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量。
如下表1所示为分别为本地业务关键词词组向量及根据步骤S3搜索得到的一条竞品业务数据的关键词词组向量,并于步骤S402对两个关键词向量进行余弦相似度计算。
表1
词 | TF-IDF |
操作系统 | 19.5 |
设计原理 | 17.2 |
专业 | 15.3 |
核心课程 | 9.1 |
计算机 | 7.6 |
软件 | 3.2 |
词 | TF-IDF |
操作系统 | 18.1 |
设计原理 | 16.8 |
专业 | 15.7 |
核心课程 | 10.1 |
处理器 | 8.4 |
硬件 | 1.8 |
步骤S402,将步骤S400得到的本地业务数据关键词向量逐一与步骤S401得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算。
在本发明具体实施例中,余弦相似度计算是一种简单有效的计算两个向量的相似程度的方法,所述余弦相似度计算公式如下:
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
步骤S403,根据步骤S402的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
步骤S404,设置相关度阈值,对步骤S403的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,即得到所述本地业务数据的相关竞品业务数据m条。
图2为本发明一种相似竞品数据分析系统的系统架构图。如图2所示,本发明一种相似竞品数据分析系统,包括:
本地业务数据处理单元20,用于获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本。以下称本地产品的业务数据为本地业务数据。
具体地,本地业务数据处理单元20进一步包括:
本地业务数据获取模块201,用于搜索并获得一条本地业务数据。
在本发明具体实施例中,以在线教育课程为例,其本地业务数据可以是该在线教育平台自有的平台课程名称及讲师信息等。
本地数据分词模块202,对本地业务数据获取模块201得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组。
本地数据TF-IDF计算模块203,用于根据本地数据分词模块202得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF。
在本发明具体实施例中,利用TF-IDF算法提取关键词,TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。使用TF-IDF算法(Term Frequency-Inverse DocumentFrequency,词频-逆文件频率)可以简单快速提取出关键词。
具体地,各个词的词频TF的计算公式如下:
各个词的逆文件频率IDF计算公式如下:
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
本地数据关键词提取模块204,用于根据本地数据TF-IDF计算模块203计算获得的TF-IDF值从大到小提取关键词,并根据提取的关键词,拼接成本地业务数据的关键词文本。
在本发明中,一个词的TF-IDF值越大,表示这个词成为一个关键词的概率就越大,因此,需要按照TF-IDF的值从大到小提取关键词,并根据提取的关键词拼接成本地业务数据的关键词文本。
竞品业务数据搜集处理单元21,用于根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库。
具体地,竞品业务数据搜集处理单元21进一步包括:
竞品业务数据搜集模块210,用于根据本地业务数据对竞品业务数据进行搜集。
在本发明具体实施例中,根据本地业务数据,对市面上常见的竞品业务数据进行搜集,得到若干条竞品业务数据。
竞品数据分词模块211,用于依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组。
竞品数据TF-IDF计算模块212,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF。
在本发明中,为准确计算本地业务数据和竞品业务数据的相似度,对竞品业务数据进行关键字提取,竞品业务数据源往往过长,并且包含很多无效的文本内容,因此需要对竞品业务数据的文本数据进行关键词提取,保留有效且重要的关键词数据。
在本发明具体实施例中,与本地业务数据一样,各个词的词频TF的计算公式如下:
各个词的逆文件频率IDF计算公式如下:
各个词的TF-IDF算法计算公式如下:
TF-IDF=TF*IDF
竞品数据关键词提取模块213,用于对各竞品业务数据,根据计算获得的TF-IDF值从大到小提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
搜索处理单元22,用于利用搜索引擎将本地业务数据处理单元20得到的本地业务数据的关键词文本于竞品业务数据搜集处理单元21得到的竞品数据库中进行搜索,得到搜索结果。
在本发明具体实施例中,当竞品业务数据搜集完毕之后,将有效数据(本地业务数据以及竞品业务数据)导入搜索引擎模组进行存储,搜索引擎的作用是能够检索出相似的数据。
搜索引擎则抽取本地业务数据,将其关键词文本于竞品数据库中进行搜索,并会根据搜索关键词按照相关度进行排名,给出搜索结果,这里需说明的是,此时搜索引擎仅按照相关度从高到低对结果进行排序,未将本地业务数据与竞品业务数据进行准确的相似度计算。
相似度分析单元23,用于计算所述本地业务数据的关键词向量,并提取搜索处理单元22搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
具体的,相似度分析单元23进一步包括:
本地数据关键词向量计算模块231,用于计算所述本地业务数据的关键词向量。
在本发明具体实施例中,本地数据关键词向量计算模块231根据本地业务数据处理单元20利用TF-IDF算法得到的关键词文本,将其转换为关键词向量。
竞品数据关键词向量计算模块232,用于根据搜索处理单元22的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量。
相似度计算模块233,用于将本地数据关键词向量计算模块231得到的本地业务数据关键词向量逐一与竞品数据关键词向量计算模块232得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算。
余弦相似度计算是一种简单有效的计算两个向量的相似程度的方法,在本发明具体实施例中,所述余弦相似度计算公式如下:
其中,xi为本地业务数据的关键词向量,yi为竞品业务数据的关键词向量。
排序模块234,根据相似度计算模块233的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
结果筛选模块235,用于设置相关度阈值,对排序模块234的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,即得到所述本地业务数据的相关竞品业务数据m条。
实施例
如图3所示,本实施例中,本发明之相似竞品数据分析方法的流程如下:
步骤101:搜集本地业务数据。
步骤102:根据本地业务数据搜集市面上的竞品业务数据。
步骤201:对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组。
步骤202:对步骤102得到的竞品业务数据的文本进行分词,得到竞品业务数据的有效词组。
步骤301:根据步骤201得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF。
步骤302:根据步骤202得到的竞品业务数据的有效词组,分别计算出竞品业务数据的各个词的词频TF。
步骤401:根据步骤201的本地业务数据的有效词组,计算出本地业务数据的各个词的逆文件频率IDF。
步骤402:根据步骤202的竞品业务数据的有效词组,计算出本地业务数据的各个词的逆文件频率IDF。
步骤501:根据步骤301的本地业务数据各个词的TF和步骤401的IDF,计算出本地业务数据各个词的TF-IDF。
步骤502:根据步骤302的竞品业务数据各个词的TF和步骤402的IDF,计算出竞品业务数据各个词的TF-IDF。
步骤601:根据步骤501的TF-IDF值从大到小提取关键词。
步骤602:根据步骤502的TF-IDF值从大到小提取关键词。
步骤701:根据步骤601提取的关键词,拼接成本地数据关键词文本。
步骤702:根据步骤602提取的关键词,拼接成竞品数据关键词文本。
步骤801:将步骤101的本地数据和步骤701的本地关键词文本导入搜索引擎Es。Es(Elasticsearch)是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch采用Java语言开发,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎,在本实施例中,采用的搜索引擎为Es,搜索引擎的作用是能够检索出相似的数据。
步骤802:将步骤102的竞品数据和步骤702的竞品关键词文本导入搜索引擎Es。
步骤901:抽取一条本地业务数据,将步骤701获得的本地数据关键词文本放入搜索引擎Es中对竞品数据进行搜索,得到搜索结果,进一步地,该搜索引擎Es会根据搜索关键词按照相关度进行排名,给出搜索结果,这里搜索引擎仅按照相关度从高到低对结果进行排序,未将本地业务数据与竞品业务数据进行准确的相似度计算。
步骤1001:计算步骤901中本条本地业务数据的关键词向量。
步骤1101:根据步骤1001结果提取前n条相关度最高的竞品数据,提取出该n条结果对应的关键词向量。
步骤1201:将步骤1001得到的本地数据关键词向量逐一与步骤1101得到的n结果对应出的关键词向量进行余弦相似度计算。
步骤1301:根据步骤1301余弦相似度计算的结果对n条竞品数据从大到小排序。
步骤1401:设置相关度阈值,对步骤1301的n条竞品业务数据进行筛选,取出该相关度阈值以上的竞品业务数据m条,即可得到步骤901本地数据的相关竞品业务数据m条。
综上所述,本发明一种相似竞品数据分析方法及系统通过分别对本地业务数据及竞品业务数据的文本进行分词,得到各条业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,然后拼接成各条业务数据的关键词文本,然后利用搜索引擎将本地业务数据的关键词文本于由竞品业务数据存储的竞品数据库中搜索,然后根据搜索结果计算本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度,通过本发明,可提高竞品业务数据与本地业务数据甄别与分析的效率和准确性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种相似竞品数据分析方法,包括如下步骤:
步骤S1,获取本地业务数据,对获得的本地业务数据的文本进行分词,得到本地业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
步骤S2,根据所述本地业务数据对竞品业务数据进行搜集,对搜集获得的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,存储于一竞品数据库;
步骤S3,利用搜索引擎将步骤S1得到的本地业务数据的关键词文本于所述竞品数据库中进行搜索;
步骤S4,计算所述本地业务数据的关键词向量,并提取步骤S3搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
2.如权利要求1所述的一种相似竞品数据分析方法,其特征在于,步骤S1进一步包括:
步骤S100,搜索并获得本地业务数据;
步骤S101,对步骤101得到的本地业务数据的文本进行分词,得到本地业务数据的有效词组;
步骤S102,根据步骤S101得到的本地业务数据的有效词组,分别计算出本地业务数据的各个词的词频TF以及逆文件频率IDF,并计算出本地业务数据的各个词的TF-IDF值;
步骤S103,根据步骤S102计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成所述本地业务数据的关键词文本。
3.如权利要求1所述的一种相似竞品数据分析方法,其特征在于,步骤S2进一步包括:
步骤S200,根据所述本地业务数据对竞品业务数据进行搜集;
步骤S201,依次对得到的各条竞品业务数据进行处理,对各竞品业务数据的文本进行分词,得到竞品业务数据的有效词组;
步骤S202,根据得到的各竞品业务数据的有效词组,分别计算出各竞品业务数据的各个词的词频TF以及逆文件频率IDF,并计算出竞品业务数据的各个词的TF-IDF值;
步骤S203,对各条竞品业务数据,根据计算获得的TF-IDF值提取关键词,并根据提取的关键词,拼接成该条竞品业务数据的关键词文本,最后根据各竞品业务数据的关键词提取拼接结果形成所述竞品数据库。
4.如权利要求2或3所述的一种相似竞品数据分析方法,其特征在于,于步骤S103或步骤S203中,根据计算获得的TF-IDF值从大到小提取关键词。
6.如权利要求5所述的一种相似竞品数据分析方法,其特征在于:于步骤S3中,所述搜索引擎对搜索结果根据搜索关键词按照相关度进行排序。
7.如权利要求6所述的一种相似竞品数据分析方法,其特征在于,步骤S4进一步包括:
步骤S400,计算所述本地业务数据的关键词向量;
步骤S401,根据步骤S3的搜索结果提取前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量;
步骤S402,将步骤S400得到的本地业务数据关键词向量逐一与步骤S401得到的前n条相关度最高的竞品业务数据对应的关键词向量进行余弦相似度计算;
步骤S403,根据步骤S402的余弦相似度计算结果对该前n条相关度最高的竞品数据从大到小排序。
8.如权利要求7所述的一种相似竞品数据分析方法,其特征在于,于步骤S403后,还包括如下步骤:
步骤S404,设置相关度阈值,对步骤S403的该前n条相关度最高的竞品业务数据进行筛选,提取大于所述相关度阈值以上的数据m条,得到所述本地业务数据的相关竞品业务数据m条。
10.一种相似竞品数据分析系统,包括:
本地业务数据处理单元,用于获取本地产品的业务数据,对本地产品业务数据的文本进行分词,得到本地产品业务数据的有效词组,根据获得的有效词组利用TF-IDF算法提取关键词,并拼接成本地业务数据的关键词文本;
竞品业务数据搜集处理单元,用于根据本地业务数据对竞品业务数据进行搜集,对搜集到的各条竞品业务数据的文本分别进行分词,得到各条竞品业务数据的有效词组,根据获得的各竞品业务数据的有效词组利用TF-IDF算法对各竞品业务数据文本提取关键词,并拼接成各竞品业务数据的关键词文本,并存储形成一竞品数据库;
搜索处理单元,用于利用搜索引擎将所述本地业务数据处理单元得到的本地业务数据的关键词文本于所述竞品业务数据搜集处理单元得到的竞品数据库中进行搜索;
相似度分析单元,用于计算所述本地业务数据的关键词向量,并提取所述搜索处理单元的搜索结果中前n条相关度最高的竞品业务数据,计算该n条相关度最高的竞品业务数据的关键词向量,根据计算出的关键词向量,计算出所述本地业务数据和前n条相关度最高的竞品业务数据中各竞品业务数据之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010561788.9A CN111753526A (zh) | 2020-06-18 | 2020-06-18 | 一种相似竞品数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010561788.9A CN111753526A (zh) | 2020-06-18 | 2020-06-18 | 一种相似竞品数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753526A true CN111753526A (zh) | 2020-10-09 |
Family
ID=72675602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010561788.9A Withdrawn CN111753526A (zh) | 2020-06-18 | 2020-06-18 | 一种相似竞品数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753526A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182054A (zh) * | 2020-10-30 | 2021-01-05 | 安徽江淮汽车集团股份有限公司 | 一种车辆竞品数据处理方法、系统、设备及存储介质 |
CN112651781A (zh) * | 2020-12-29 | 2021-04-13 | 车主邦(北京)科技有限公司 | 竞品分析方法和装置 |
CN113743721A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 营销策略生成方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN110348920A (zh) * | 2018-04-02 | 2019-10-18 | 中移(杭州)信息技术有限公司 | 一种推荐产品的方法及装置 |
CN110674087A (zh) * | 2019-09-03 | 2020-01-10 | 平安科技(深圳)有限公司 | 文件查询方法、装置及计算机可读存储介质 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
-
2020
- 2020-06-18 CN CN202010561788.9A patent/CN111753526A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN110348920A (zh) * | 2018-04-02 | 2019-10-18 | 中移(杭州)信息技术有限公司 | 一种推荐产品的方法及装置 |
CN110674087A (zh) * | 2019-09-03 | 2020-01-10 | 平安科技(深圳)有限公司 | 文件查询方法、装置及计算机可读存储介质 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182054A (zh) * | 2020-10-30 | 2021-01-05 | 安徽江淮汽车集团股份有限公司 | 一种车辆竞品数据处理方法、系统、设备及存储介质 |
CN112651781A (zh) * | 2020-12-29 | 2021-04-13 | 车主邦(北京)科技有限公司 | 竞品分析方法和装置 |
CN113743721A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 营销策略生成方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
US7519588B2 (en) | Keyword characterization and application | |
US20060212441A1 (en) | Full text query and search systems and methods of use | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111753526A (zh) | 一种相似竞品数据分析方法及系统 | |
WO2020233344A1 (zh) | 一种搜索方法、装置及存储介质 | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
CN106445963B (zh) | App平台的广告索引关键词自动生成方法和装置 | |
KR101491627B1 (ko) | 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템 | |
Sun et al. | CWS: a comparative web search system | |
JP4896268B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
US20050138079A1 (en) | Processing, browsing and classifying an electronic document | |
CN110866102A (zh) | 检索处理方法 | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN114021577A (zh) | 内容标签的生成方法、装置、电子设备及存储介质 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN108875014B (zh) | 基于大数据与人工智能的精准项目推荐方法和机器人系统 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
CN114780712B (zh) | 一种基于质量评价的新闻专题生成方法及装置 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
JP2005092443A (ja) | クラスター分析装置およびクラスター分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201009 |