CN112257439B - 一种通过舆情数据挖掘热度词根的方法和装置 - Google Patents
一种通过舆情数据挖掘热度词根的方法和装置 Download PDFInfo
- Publication number
- CN112257439B CN112257439B CN202011189650.7A CN202011189650A CN112257439B CN 112257439 B CN112257439 B CN 112257439B CN 202011189650 A CN202011189650 A CN 202011189650A CN 112257439 B CN112257439 B CN 112257439B
- Authority
- CN
- China
- Prior art keywords
- root
- roots
- effective
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000005065 mining Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims description 28
- 238000013145 classification model Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 235000019633 pungent taste Nutrition 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 8
- 239000003599 detergent Substances 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种通过舆情数据挖掘热度词根的方法和装置,其中,该方法包括:输出词根步骤,根据索引条件和附加信息确认标题,对标题进行分词并输出有效词根;统计评论数量步骤,接收并根据有效词根统计有效词根对应的评论数量;词根分类步骤,通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别;确定词根步骤,在词根类别下将对应有效词根按照评论数量进行排序,将排序在一定序次的有效词根作为热度词根。本申请通过使用更具有舆情代表性的数据,并结合评论数量,解决了现有的词根不准确的问题,所挖掘到的热度词根更能体现出用户最近关注的热点。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种通过舆情数据挖掘热度词根的方法、装置。
背景技术
在淘宝钻展,直通车等活动中,电商们会通过购买关键词来实现千人千面的客户引流。构建词根的主要目的是给电商的关键词投手们提供一些词根相关的舆情分析,即,可以组建关键词的一部分,如“洗衣液促销”里面的词根为“洗衣液”和“促销”,从而给投手一些比较直观的信息而利于他们去组建和购买合理的关键词。例如,投手想为某个场景下的宝贝推荐关键词,已知该宝贝的品牌为当妮,品类为洗衣粉,我们会给投手们提供当妮洗衣粉相关的最近讨论较高的词根,比如,“除菌”,“好闻”,“李佳奇代言”等等。投手拿到信息后即可组建一些精准的长尾关键词,如“洗衣液除菌好闻”等等,或者用该信息去评估他们本有的候选关键词库。
一般来说,相关技术会通过实体识别等方法对大量的和产品相关的语料进行分析,抽取可能成为词根的实体作为备选,然后再根据词频过滤掉热度较小的词根,并推荐热度高的给投手参考。然而,在实际做的过程中,发现通过索引形式获取的舆情语料(如含有洗衣液的微博评论、知乎评论、淘宝评论等等)大部分并不包含可能构成关键词的词根。其次,即便是有词根,词根的所处的语境也未必是正向的,比如“这个洗衣液真的非常难用”,“难用”虽可作为一个正常词根,但因其处在负向的评语里所以使用的意义不大。
目前针对相关技术中词根准确性低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种通过舆情数据挖掘热度词根的方法和装置,基于大量的关于电商的标题和评论数据,提取电商的标题中出现的词根,并根据评论数据来间接判断词根的热度,以至少解决相关技术中所提取的词根准确性低,无法满足需求的问题。
第一方面,本申请实施例提供了一种通过舆情数据挖掘热度词根的方法,包括以下步骤:
输出词根步骤,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;
统计评论数量步骤,接收并根据所述有效词根统计所述有效词根对应的评论数量;
词根分类步骤,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;
确定词根步骤,在所述词根类别下将对应所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根。
在其中一些实施例中,所述词根分类步骤具体包括:
预分类步骤,接收并对部分所述有效词根进行标签分类;
模型训练步骤,利用标签分类后的所述有效词根训练多类型模型;
分类步骤,根据所述多类型模型对剩余的所述有效词根进行分类。
在其中一些实施例中,所述输出词根步骤中包括:
对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。
在其中一些实施例中,所述输出词根步骤中包括以下步骤:
标注关键词步骤,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;
训练二分类模型步骤,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;
输出有效词根步骤,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。
在其中一些实施例中,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。
第二方面,本申请实施例提供了一种通过舆情数据挖掘热度词根的装置,包括:
输出词根模块,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;
统计评论数量模块,接收并根据所述有效词根统计所述有效词根对应的评论数量;
词根分类模块,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;
确定词根模块,在对应的所述词根类别下将所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根。
在其中一些实施例中,所述词根分类模块具体包括:
预分类单元,接收并对部分所述有效词根进行标签分类;
模型训练单元,利用标签分类后的所述有效词根训练多类型模型;
分类单元,根据所述多类型模型对剩余的所述有效词根进行分类。
在其中一些实施例中,所述输出词根模块对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。
在其中一些实施例中,所述输出词根模块包括以下模块:
标注关键词单元,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;
训练二分类模型单元,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;
输出有效词根单元,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。
在其中一些实施例中,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。
相比于相关技术,本申请实施例提供的通过舆情数据挖掘热度词根的方法和装置,通过使用更具有舆情代表性的数据,并结合评论数量,解决了现有的词根不准确的问题,所挖掘到的热度词根更能体现出用户最近关注的热点。在实际的应用中,业务端反应良好,因词根的来源更具备说服力,投手更愿意使用本发明提供的词根来构建关键词进而实现投放,提高了用户的体验。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的通过舆情数据挖掘热度词根的方法的流程图;
图2是根据本申请实施例的词根分类步骤的流程图;
图3是根据本申请实施例的一种输出有效词根的方法的流程图;
图4是根据本申请实施例的通过舆情数据挖掘热度词根的方法的优选流程图;
图5是根据本申请实施例的通过舆情数据挖掘热度词根的装置的结构框图;
图6是根据本申请实施例的词根根类模块的结构框图;
图7是根据本申请实施例的输出词根模块的结构框图。
附图说明:
1、输出词根模块;2、统计评论数量模块;3、词根分类模块;
4、确定词根模块;31、预分类单元;32、模型训练单元;
33、分类单元;11、标注关键词单元;12、训练二分类模型单元;
13、输出有效词根单元。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
本实施例提供了一种通过舆情数据挖掘热度词根的方法。图1是根据本申请实施例的通过舆情数据挖掘热度词根的方法的流程图,如图1所示,该流程包括如下步骤:
输出词根步骤,根据索引条件和附加信息确认标题,对标题进行分词并输出有效词根;
在实际应用中,通过分词软件对标题进行切词的操作具体包括:对获取的标题进行无关文本过滤、表情转换或过滤、乱码处理、文本格式处理、时间标准化处理。
统计评论数量步骤,接收并根据有效词根统计有效词根对应的评论数量;
词根分类步骤,通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别;
确定词根步骤,在词根类别下将对应有效词根按照评论数量进行排序,将排序在前一定序次的有效词根作为热度词根。
本实施例为业务人员推荐最近热度较高的电商词根,可以按照评论数量给词根进行排序,为保证词根的数量和时效性,将词根保留一定时间段,本实施例内中并其限制在最近一周上。
在实际的应用中,可以选择较为正向的用户评论,间接通过正向用户评论的量级数据评估从标题、产品名、内容等等抽取出的词根的舆情热度。
通过上述步骤,根据索引条件和附加信息确认标题,对标题进行分词得到有效词根,再根据有效词根的评论数量情况选择出热度词根,更能体现用户关注的热点问题,提高用户体验度。
在其中一些实施例中,图2是根据本申请实施例的词根分类步骤的流程图;如图2所示,词根分类步骤的流程具体包括:
预分类步骤,接收并对部分有效词根进行标签分类;
模型训练步骤,利用标签分类后的有效词根训练多类型模型;
分类步骤,根据多类型模型对剩余的有效词根进行分类。
在一些实施例中,输出词根步骤中包括:
对标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出有效词根。
本实施例还提出了输出有效词根的另一实现方式,根据索引条件和附加信息确认标题,根据历史关键词或平台提供的榜单热词训练模型,运用模型识别标题中的有效词根并输出。
图3是根据本申请实施例的一种输出有效词根的方法的流程图,如图3所示,输出词根步骤中包括以下步骤:
标注关键词步骤,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对历史关键词词根和榜单热词词根进行标注;
训练二分类模型步骤,运用历史关键词词根和榜单热词词根训练二分类模型;
输出有效词根步骤,根据二分类模型判断标题中的词根是否满足模型条件,对满足条件的有效词根进行保存并输出。
在实际的应用中,提取词根有两种方式,一种是根据分词软件对标题直接切词,得到若干词根。然后通过TFIDF(NLP里常用的方法,这里标题为document,词根为word)的方法去掉高频词,即一些常用的语气词等等,得到有效词根。
另一种方法是根据历史关键词或电商平台提供的榜单热词训练模型来识别标题中的有效词根。具体的说,就是将这些历史关键词进行切词,对切分后的词根进行人工标注,包括功效、目标用户、评价词、外观等等,这些是根据要推荐的关键词的领域所总结的一些类型,然后对每一个类型训练二分类模型,最后用二分类模型依次去判断标题中的通过切词软件得到的词根是否属于这些类型,如果属于,则保留下来作为有效词根。
在一些实施例中,当一有效词根出现在多个标题下方时,有效词根的评论数量为多个标题的评论中出现的数量总和。
下面通过优选实施例对本申请实施例进行描述和说明。
图4是根据本申请实施例的通过舆情数据挖掘热度词根的方法的优选流程图,如图4所示,该方法包括如下步骤:
第一步:首先确定索引条件。如,需要为哪个品牌、品类等等推荐热度词根,确定好后根据其它附加信息锁定相关标题。现有的电商数据库中存有相关品牌、品类、产品等等的相关标签,可以用其作为索引。
第二步:通过分词软件对标题进行切词。如,该标题属于语义类标题,也可通过实体识别技术从中抽取词根。
上述实体识别具体的方法为:
对获取的数据进行预处理,包括无关文本过滤、表情转换与过滤、乱码处理、文本格式处理、时间标准化等;
实体关键词标签设计,依据关键词投放领域中关键词的选取类型,将实体关键词设为多种类型,如品牌(Brand)、功效(Effect)、外观(Appearance)、味道(Flavor)、类型(Type)、受众(TargetAudience)等等;
预先对小部分数据进行人工打标;
采用NLP中的实体识别模型对打标好的数据条进行训练。
第三步:对词根进行评论统计。因词根是更粗粒度的数据,可以通过第一步中的标题统计信息进行聚合。
第四步:通过分类器将词根按照需要的业务点进行聚类。
上述步骤可使用常规的多分类建模步骤:
首先将小部分词根划分为功效、目标受众等等标签类型。
然后使用多分类模型对标好的词根进行训练。,其中,多分类模型可为神经网络,树模型,传统机器学习方法等等,此部分为现有技术,本申请不进行具体描述;
最后使用该模型对剩余词根进行标签预测。
第五步:将词根按标签分好类,在每一类别下按照评论数量进行排序,并保留一定时间内(如最近一周内)的词根,数量高的词根为热度高的词根。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。例如,步骤三步骤四的次序交换并不影响本发明的效果。
本申请的实施例使用的是电商的标题作为词根标题,但实际上也不仅限于电商领域,只要该领域的评论基数庞大,产品名或标题包含大量词根,即可使用本项目一样的方法论。同时,标题的热度也可只使用正向的用户评论数量。具体情况根据用户评论是否试先拥有评论态度标签而定。
本实施例还提供了一种通过舆情数据挖掘热度词根的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的通过舆情数据挖掘热度词根的装置的结构框图,如图5所示,该装置包括输出词根模块1、统计评论数据模块2、词根分析模块和确定词根模块4,其中,输出词根模块1根据索引条件和附加信息确认标题,对标题进行分词并输出有效词根;统计评论数据模块2接收并根据有效词根统计有效词根对应的评论数量;词根分类模块3通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别;确定词根模块4在对应的词根类别下将有效词根按照评论数量进行排序,将排序在一定序次的有效词根作为热度词根。
在一些实施例中,图6是根据本申请实施例的词根根类模块的结构框图;如图6所示,词根分类模块3具体包括预分类单元31、模型训练单元32和分类单元33,其中,预分类单元31接收并对部分有效词根进行标签分类;模型训练单元32利用标签分类后的有效词根训练多类型模型;分类单元33根据多类型模型对剩余的有效词根进行分类。
在一些实施例中,输出词根模块对标题进行分词得到词根后,利用TF-IDF去掉词根中的高频词汇,并输出有效词根。
在一些实施例中,图7是根据本申请实施例的输出词根模块1的结构框图;如图7所示,输出词根模块1具体包括标注关键词单元11、训练二分类模型单元12和输出有效词根单元13,其中:
标注关键词单元11接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对历史关键词词根和榜单热词词根进行标注;训练二分类模型单元12运用历史关键词词根和榜单热词词根训练二分类模型;输出有效词根单元13根据二分类模型判断标题中的词根是否满足模型条件,对满足条件的有效词根进行保存并输出。
在一些实施例中,当一有效词根出现在多个标题下方时,有效词根的评论数量为多个标题的评论中出现的数量总和。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本申请的实施例的语料来源不限于电商平台,也可试用于其它平台,如小红书等等的商品相关的网站,只要其用户评论数量庞大即可使用。
同时,使用的领域也不仅限于给投手提供关键词词根的候选,也可被用于构建标题,生成标题,推荐产品等等问题,该词根通过分类后也可以给业务端提供更多产品设计或推销的建议。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种通过舆情数据挖掘热度词根的方法,其特征在于,包括以下步骤:
输出词根步骤,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;
统计评论数量步骤,接收并根据所述有效词根统计所述有效词根对应的评论数量;
词根分类步骤,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;
确定词根步骤,在所述词根类别下将对应所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根,其中在每一类别下按照评论数量进行排序,并保留一定时间内的所述有效词根,数量高的所述有效词根作为热度高的词根。
2.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,所述词根分类步骤具体包括:
预分类步骤,接收并对部分所述有效词根进行标签分类;
模型训练步骤,利用标签分类后的所述有效词根训练多类型模型;
分类步骤,根据所述多类型模型对剩余的所述有效词根进行分类。
3.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,所述输出词根步骤中包括:
对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。
4.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,所述输出词根步骤中包括以下步骤:
标注关键词步骤,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;
训练二分类模型步骤,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;
输出有效词根步骤,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。
5.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。
6.一种通过舆情数据挖掘热度词根的装置,其特征在于,包括:
输出词根模块,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;
统计评论数量模块,接收并根据所述有效词根统计所述有效词根对应的评论数量;
词根分类模块,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;
确定词根模块,在所述词根类别下将对应所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根,其中在每一类别下按照评论数量进行排序,并保留一定时间内的所述有效词根,数量高的所述有效词根作为热度高的词根。
7.根据权利要求6所述的通过舆情数据挖掘热度词根的装置,其特征在于,所述词根分类模块具体包括:
预分类单元,接收并对部分所述有效词根进行标签分类;
模型训练单元,利用标签分类后的所述有效词根训练多类型模型;
分类单元,根据所述多类型模型对剩余的所述有效词根进行分类。
8.根据权利要求6所述的通过舆情数据挖掘热度词根的装置,其特征在于,所述输出词根模块对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。
9.根据权利要求6所述的通过舆情数据挖掘热度词根的装置,其特征在于,所述输出词根模块包括以下模块:
标注关键词单元,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;
训练二分类模型单元,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;
输出有效词根单元,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。
10.根据权利要求6所述的通过舆情数据挖掘热度词根的装置,其特征在于,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011189650.7A CN112257439B (zh) | 2020-10-30 | 2020-10-30 | 一种通过舆情数据挖掘热度词根的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011189650.7A CN112257439B (zh) | 2020-10-30 | 2020-10-30 | 一种通过舆情数据挖掘热度词根的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257439A CN112257439A (zh) | 2021-01-22 |
CN112257439B true CN112257439B (zh) | 2024-04-12 |
Family
ID=74269091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011189650.7A Active CN112257439B (zh) | 2020-10-30 | 2020-10-30 | 一种通过舆情数据挖掘热度词根的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257439B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032683B (zh) * | 2021-04-28 | 2021-12-24 | 玉米社(深圳)网络科技有限公司 | 一种网络推广中快速分词的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955957A (zh) * | 2016-05-05 | 2016-09-21 | 北京邮电大学 | 一种商家总体评论中方面评分的确定方法及装置 |
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN108364199A (zh) * | 2018-02-28 | 2018-08-03 | 北京搜狐新媒体信息技术有限公司 | 一种基于互联网用户评论的数据分析方法及系统 |
CN111368038A (zh) * | 2020-03-09 | 2020-07-03 | 广州市百果园信息技术有限公司 | 一种关键词的提取方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2009229679A1 (en) * | 2008-03-24 | 2009-10-01 | Min Soo Kang | Keyword-advertisement method using meta-information related to digital contents and system thereof |
-
2020
- 2020-10-30 CN CN202011189650.7A patent/CN112257439B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955957A (zh) * | 2016-05-05 | 2016-09-21 | 北京邮电大学 | 一种商家总体评论中方面评分的确定方法及装置 |
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN108364199A (zh) * | 2018-02-28 | 2018-08-03 | 北京搜狐新媒体信息技术有限公司 | 一种基于互联网用户评论的数据分析方法及系统 |
CN111368038A (zh) * | 2020-03-09 | 2020-07-03 | 广州市百果园信息技术有限公司 | 一种关键词的提取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112257439A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919619B (zh) | 一种商品聚类方法、装置及电子设备 | |
CN110532451A (zh) | 针对政策文本的检索方法和装置、存储介质、电子装置 | |
CN110059271B (zh) | 运用标签知识网络的搜索方法及装置 | |
CN105653562B (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN103577534B (zh) | 搜索方法和搜索引擎 | |
CN103870973A (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN103744981A (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
JP2015518210A (ja) | 製品に関連するデータを体系化する方法、装置及びコンピュータ読み取り可能な媒体 | |
CN103309886A (zh) | 一种基于交易平台的结构化信息搜索方法和装置 | |
CN105468649B (zh) | 一种待展示对象匹配的判断方法及其装置 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
CN109522412A (zh) | 文本情感分析方法、装置及介质 | |
CN115374781A (zh) | 文本数据信息挖掘方法、装置、设备 | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
CN115114994A (zh) | 商品类目信息的确定方法及其装置 | |
Schofield et al. | Identifying hate speech in social media | |
CN107766229B (zh) | 一种利用蜕变测试评价商品搜索系统正确性的方法 | |
CN115438195A (zh) | 一种金融标准化领域知识图谱的构建方法及装置 | |
CN112257439B (zh) | 一种通过舆情数据挖掘热度词根的方法和装置 | |
JP2008146293A (ja) | 閲覧対象情報の評価システム、方法、およびプログラム | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |