CN111859146A - 信息挖掘方法、装置及电子设备 - Google Patents
信息挖掘方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111859146A CN111859146A CN202010750413.7A CN202010750413A CN111859146A CN 111859146 A CN111859146 A CN 111859146A CN 202010750413 A CN202010750413 A CN 202010750413A CN 111859146 A CN111859146 A CN 111859146A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- entity
- viewpoint
- item
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000011156 evaluation Methods 0.000 claims abstract description 556
- 230000002996 emotional effect Effects 0.000 claims abstract description 155
- 238000002372 labelling Methods 0.000 claims abstract description 41
- 230000008451 emotion Effects 0.000 claims description 48
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 31
- 230000014509 gene expression Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005260 corrosion Methods 0.000 description 3
- 230000007797 corrosion Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种信息挖掘方法、装置及电子设备,其中,该方法包括:确定业务方的网络数据对应的评价实体,所述评价实体为业务方关注的评价主对象;根据所述评价实体所属的实体类别确定评价项的集合,其中,所述评价项为所述评价实体对应的评价子对象;应用序列标注模型从所述网络数据中提取观点词;根据所述评价项的集合,从所述网络数据中提取目标评价项;根据所述目标评价项和所述观点词,确定所述评价实体对应的情感倾向。该方式能够提升信息挖掘的有效性和准确性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种信息挖掘方法、装置及电子设备。
背景技术
随着互联网的高速发展,一些大规模的社交媒体也得到迅速发展,以微博、豆瓣、贴吧等代表的社会化媒体逐渐成为人们表达想法的工具和平台。广大网络用户已经从单纯的信息获取者变成了网络内容的主要制造者。越来越多的人开始在社交网络上发表自己对某个物品,某件事的看法,网络媒体上的观点信息越来越具有参考价值,例如:可以利用这些观点信息进行产品的市场反馈分析,以及为业务方提供针对于产品各个方面的网络评价报告等。
目前的细粒度情感分析技术中,能够针对于包含某个特定实体的某个方面的情感倾向给出粗略的分析结论,如“这家饭店太贵了”,则得出的结论为(饭店,价格,负向)。这种技术根据大量的相似的用户评论,可以得到对于某个实体的情感分布,即可能80%的人认为这家饭店的价格不好,该方式只能笼统地得出这家饭店好或不好的情感倾向,准确性较差。
发明内容
本申请的目的在于提供一种信息挖掘方法、装置及电子设备,以提升信息挖掘的有效性和准确性。
本申请实施例提供一种信息挖掘方法,上述方法包括:确定业务方的网络数据对应的评价实体,评价实体为业务方关注的评价主对象;根据评价实体所属的实体类别确定评价项的集合,其中,评价项为评价实体对应的评价子对象;应用序列标注模型从网络数据中提取观点词;根据评价项的集合,从网络数据中提取目标评价项;根据上述目标评价项和观点词,确定评价实体对应的情感倾向。
上述方法还包括:根据上述观点词检索预先配置的观点词标准表述表,得到观点词对应的标准化观点词;将评价实体、目标评价项、标准化观点词和情感倾向组成网络数据对应的挖掘信息。
根据上述观点词检索预先配置的观点词标准表述表的步骤,包括:将所述业务方、所述评价实体和所述目标评价项中至少一项与所述观点词组成第一检索要素,应用所述第一检索要素检索预先配置的观点词标准表述表;如果未检索到与所述第一检索要素匹配的表项,以所述观点词作为第二检索要素,应用所述第二检索要素检索所述观点词标准表述表。
上述方法还包括:汇总指定时间段内业务方的网络数据对应的挖掘信息集合;基于评价实体和目标评价项,对挖掘信息集合中的挖掘信息进行聚类;根据聚类结果生成业务方的分析报告。
上述情感倾向包括:正向、负向和其它;聚类结果包括:同一个评价实体对应的挖掘信息条数;根据聚类结果生成业务方的分析报告的步骤,包括:根据同一个评价实体对应的挖掘信息条数,确定评价实体集合;对评价实体集合中的评价实体,分别统计同一目标评价项对应的情感倾向的占比值;在业务方的分析报告中,展示评价实体集合中的评价实体对应的每个目标评价项对应的情感倾向的占比值。
上述根据聚类结果生成业务方的分析报告的步骤,还包括:将评价实体集合中的评价实体分别作为评价对象,对于评价对象均执行以下操作:根据该评价对象的每个目标评价项对应的情感倾向的占比值,确定该评价对象对应的情感倾向;基于各个评价对象对应的情感倾向确定业务方的情感倾向。
上述基于各个评价对象对应的情感倾向确定业务方的情感倾向的步骤,包括:基于各个评价对象对应的权重和每个情感倾向对应的预设值,对各个评价对象对应的情感倾向进行权重求和计算,得到业务方的情感得分;根据业务方的情感得分确定业务方的情感倾向。
上述方法还包括:如果从网络数据中未查找到目标评价项,根据观点词检索预先配置的评价项表,得到网络数据对应的目标评价项。
上述根据目标评价项和观点词,确定评价实体对应的情感倾向的步骤,包括:将所述评价实体、所述目标评价项和所述观点词输入预先训练好的情感倾向判断模型,得到所述评价实体对应的情感倾向;或者,基于上述目标评价项和观点词检索预先配置的观点词情感映射表,得到观点词对应的情感倾向。
基于上述目标评价项和观点词检索预先配置的观点词情感映射表的步骤,包括:将所述业务方和/或所述评价实体,与所述目标评价项和所述观点词组成第三检索要素,应用所述第三检索要素检索预先配置的观点词情感映射表;如果未检索到与所述第三检索要素匹配的表项,将所述目标评价项和所述观点词组成第四检索要素,应用所述第四检索要素检索所述观点词情感映射表。
上述方法还包括:通过预先训练的实体挖掘模型,对业务方的网络数据进行实体挖掘,得出疑似实体集合;响应针对于疑似实体集合的筛选操作,确定新增实体;将新增实体写入业务方的评价实体中。
上述序列标注模型的训练过程包括:获取带有标注信息的语料样本,标注信息包括评价实体标识和观点词标识;将语料样本与评价实体标识对应的评价实体拼接,得到新的语料样本;应用新的语料样本训练序列标注模型,得到训练好的序列标注模型。
第二方面,本申请实施例还提供一种信息挖掘装置,上述装置包括:第一确定模块,用于确定业务方的网络数据对应的评价实体,评价实体为业务方关注的评价主对象;第二确定模块,用于根据评价实体所属的实体类别确定评价项的集合,其中,评价项为评价实体对应的评价子对象;第一提取模块,用于应用序列标注模型从网络数据中提取观点词;第二提取模块,用于根据评价项的集合,从网络数据中提取目标评价项;第三确定模块,用于根据上述目标评价项和观点词,确定评价实体对应的情感倾向。
第三方面,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述信息挖掘方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述信息挖掘方法。
本申请实施例提供一种信息挖掘方法、装置及电子设备,通过在业务方的网络数据中确定出评价实体,根据该评价实体所属的实体类别确定评价项的集合,并基于评价项集合从网络数据中提取出目标评价项,以及基于序列标注模型从网络数据中提取出观点词,根据上述目标评价项和目标观点词,确定该评价实体对应的情感倾向;该方式中的评价实体为业务方关注的评价主对象,而评价项的集合中的评价项为该评价实体对应的评价子对象,因此实现了对评价实体的细粒度划分,基于该评价实体对应的目标评价项和观点词确定出的该评价实体的情感倾向较为准确,提升了信息挖掘的有效性和准确性,一定程度上满足了用户的实际需要。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种信息挖掘方法的流程图;
图2为本申请实施例提供的另一种信息挖掘方法的流程图;
图3为本申请实施例提供的另一种信息挖掘方法的流程图;
图4为本申请实施例提供的一种分析报告的界面示意图;
图5为本申请实施例提供的一种Product1分析报告的界面示意图;
图6为本申请实施例提供的另一种信息挖掘方法的流程图;
图7为本申请实施例提供的另一种信息挖掘方法的流程图;
图8为本申请实施例提供的一种信息挖掘装置的结构示意图;
图9为本申请实施例提供的另一种信息挖掘装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了对业务方所关注的实体进行细粒度有效评价,本申请实施例提供一种信息挖掘方法、装置及电子设备,该电子设备为能够获取网络信息的智能终端、便携终端等,并且,在该电子设备中存储有业务方的评价实体、与评价实体的实体类别对应的评价项集合,该评价实体与评价项集合可以以评价主体表的形式存储至电子设备中。
通常,业务方是指具体的一个产品,如某个游戏(逆水寒)、某个APP(Application,应用程序)等,所以,每个业务方都有对应的业务方名称以便于表述,在图1给出的示例性评价主体表中业务方以业务方名称的形式进行存储,每个业务方对应的评价实体可以是预先人为配置的,一个业务方可能对应多个评价实体(也称评价主体,包括实体名或主体名,以及对应的别名),这些评价实体可以看作是一个实体集合或者实体列表。
上述评价实体即为业务方所关注的评价主对象,例如:业务方为某个游戏,则游戏玩法、游戏场景和人物的真实性等均可作为评价实体,在本实施例中,为了能够细粒度对评价实体进行评价,可以根据评价实体所属的实体类型,确定其需要关注的多个评价子对象以构成评价项集合,可以理解为,一个评价子对象对应评价实体的一个实体类别,如评价实体为游戏玩法,则实体类别可以包括可玩性、难易程度、收益和成本,因此,可将上述四个方面一一作为评价子对象对该游戏玩法进行细粒度评价,如评价实体为一个APP的某项功能,则可则实体类别可以包括用户态度、使用情况和欢迎度,即可将上述三个方面一一作为评价子对象对该APP的功能进行细粒度评价。
为了便于对评价主体表进行理解,表1示出了一种评价主体表:
表1
从表1中可明确确定出业务方(逆水寒)对应的评价实体包括游戏玩法和角色,每个评价实体均有其对应的实体类别包括的评价子对象构成的评价项集合。
本申请实施例中通过评价实体的实体类别确定多个评价子对象,可以从多个方面对评价实体进行细粒度评价,使得业务方能够全面了解评价实体,进而提升了用户的需求。下面通过实施例进行描述。
本实施例提供了一种信息挖掘方法,参见图1所示的一种信息挖掘方法的流程图,该方法以应用于上述电子设备为例进行说明,该信息挖掘方法包括如下步骤:
步骤S102,确定业务方的网络数据对应的评价实体;
由上述可知,业务方是具体的某个产品,因此,该业务方有对应的业务方名称,基于该业务方名称从相关平台获取包含该业务方名称的网络数据,在从存储在电子设备中的评价主体表中选择出与该业务方名称对应的评价实体,进一步,可利用词语匹配的原则检查上述网络数据中包含该实体集合的哪些实体,把在网络数据中检查到的与实体集合中的评价实体相匹配的实体作为评价实体。
在本实施例中,将包含该业务方名称的从网络数据进行抓取,具体为,可使用Python的请求功能向相关平台或者网页站点发起携带有业务方名称的请求,基于该请求能够在平台或网页站点发布的数据中获取携带有该业务方名称或者与该业务方名称相似的网络数据,基于该网络数据可对业务方对应的评价实体进行确定。
步骤S104,根据评价实体所属的实体类别确定评价项的集合,其中,评价项为评价实体对应的评价子对象;
基于上述确定出的评价实体后,可通过查询评价主体表的方式,将评价主体表中与该评价实体匹配的评价实体对应的实体类别,确定为该评价实体对应的实体类别,将确定出的实体类别中包括的评价子对象作为评价项的集合。
继续以表1为例进行说明,如果在步骤S102中确定出的业务方(逆水寒)对应的评价实体为游戏玩法,由于评价实体与表1中的游戏玩法相匹配,通过该评价主体表可知,评价实体所属的实体类别包括可玩性、难易程度、收益、成本这个四方面,由此可知,该评价实体对应的评价项的集合中包括上述可玩性、难易程度、收益、成本这四个方面。
步骤S106,应用序列标注模型从网络数据中提取观点词;
上述观点词为用户对该评价实体的主观感受,为了能够在海量的网络数据中提取该观点词,可利用具有文本词语提取功能的模型进行观点词提取,在本实施例中,使用预先训练好的BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器表征量)+CRF(Conditional Random Fields,条件随机场)的序列标注模型,该序列标注模型中包含有语言模型,通过语言模型对网络数据进行向量化表示,该序列标注模型基于语言模型的向量化表示对应的上下文特征完成观点词的提取过程。
步骤S108,根据评价项的集合,从网络数据中提取目标评价项;
同理,可利用词语匹配的原则检查上述网络数据中包含该评价项集合的哪些评价子对象,把在网络数据中检查到的与评价项集合中的评价子对象相匹配的评价子对象作为目标评价项。比如,业务方(逆水寒)对应的评价实体(游戏玩法)的标评价项集合包括可玩性、难易程度、收益、成本,而在网络数据中检查到的与该评价项集合包括的四个评价子对象相匹配的只有难易程度、收益和成本,则可将确定出的这三项评价子对象作为目标评价项进行后续的信息挖掘。
在实际使用时,步骤S106和步骤S108没有先后顺序之分,可以像本实施例中先执行步骤S106,然后在执行步骤S108;也可以先执行步骤S108,再执行步骤S106;或者,并列执行上述步骤S106和步骤S108,在此不进行限定。
步骤S110,根据上述目标评价项和观点词,确定评价实体对应的情感倾向。
在本实施例中,通过情感倾向能使用户快速了解其他用户对于该业务方的评价实体的倾向性,在本实施例中,可利用预先训练好的情感倾向判断模型对实体进行情感分类。其中,情感倾向判断模型可由BERT+softmax(逻辑回归)训练得到,利用该情感倾向判断模型可得到评价实体对应的情感倾向。
在本实施例中,上述情感倾向包括:正向、负向和其它,其中,正向是对评价实体情感的正面倾向,负向是对评价实体情感的负面倾向,而其它则可以理解为是对评价实体情感的持有中性倾向,即不好也不坏的情感倾向。基于目标评价项和观点词,确定出的评价实体对应的情感倾向,能够快速了解其他用户对该业评价实体的倾向性。
本申请实施例提供一种信息挖掘方法,通过在业务方的网络数据中确定出评价实体,根据该评价实体所属的实体类别确定评价项的集合,并基于评价项集合从网络数据中提取出目标评价项,以及基于序列标注模型从网络数据中提取出观点词,根据目标评价项和目标观点词,确定该评价实体对应的情感倾向;该方式中的评价实体为业务方关注的评价主对象,而评价项的集合中的评价项为该评价实体对应的评价子对象,因此实现了对评价实体的细粒度划分,基于该目标评价实体对应的目标评价项和观点词确定出的该评价实体的情感倾向较为准确,提升了信息挖掘的有效性。
本发明实施例还提供了另一种信息挖掘方法,该方法在上述实施例的基础上实现;本实施例重点描述挖掘信息生成的具体实施方式。如图2所示的另一种信息挖掘方法的流程图,本实施例中的信息挖掘方法包括如下步骤:
步骤S202,确定业务方的网络数据对应的评价实体;
步骤S204,根据评价实体所属的实体类别确定评价项的集合,其中,评价项为评价实体对应的评价子对象;
步骤S206,应用序列标注模型从网络数据中提取观点词;
上述序列标注模型的训练过程,具体为:
(1)获取带有标注信息的语料样本,标注信息包括评价实体标识和观点词标识;
将众包放在平台或者网页站点对上述网络数据进行观点词和评价实体的划线标注,以得到带有标注的语料文本。其中,标注方式可以根据实际需要进行设置,在此不进行限定。
(2)将语料样本与评价实体标识对应的评价实体拼接,得到新的语料样本;
该新的语料样本可以理解为被标注的语料样本的原始网络数据和评价实体进行拼接形成的。其中,原始网络数据即指网络数据中的一条评论数据,如“这家饭店很好吃”,评价实体为饭店,则形成新的语料样本为“[CLS]这家饭店很好吃[SEP]饭店[SEP]”。
(3)应用新的语料样本训练序列标注模型,得到训练好的序列标注模型。
首先,将新的语料样本输入至BERT模型中得到具体的上下文向量表示后,将上下文向量表示输入至CRF模型终得到对网络数据中每个词进行BIO标记,将新的标注语料作为训练样本对BERT+CRF序列标注模型进行微调以及对整体模型进行训练。训练损失使用交叉熵,训练直至损失收敛,作为最终的序列标注模型对观点词进行提取。由于BIO标记过程为现有标记技术,所以,在本实施例中,不对网络数据中词的BIO标记过程进行赘述。
步骤S208,根据目标评价项的集合,从网络数据中提取目标评价项;
步骤S210,根据上述目标评价项和观点词,确定评价实体对应的情感倾向;
根据上述目标评价项和观点词,确定评价实体对应的情感倾向的步骤,可以包括:将上述评价实体、目标评价项和观点词输入预先训练好的情感倾向判断模型,得到评价实体对应的情感倾向;或者,基于上述目标评价项和观点词检索预先配置的观点词情感映射表,得到评价实体对应的情感倾向。本实施例的情感倾向的具体确定方式可以应用上述预先训练好的情感倾向判断模型确定,也可以应用预先配置的各个评价项和观点词与情感倾向的对应关系(如对应关系表)确定,或者应用上述预先训练好的模型与上述对应关系相互结合的方式确定,本发明实施例对此不进行限定。
作为一种可能的实施方式,基于上述目标评价项和观点词检索预先配置的观点词情感映射表的步骤,可以包括下述步骤(1)和(2):
(1)将上述业务方和/或上述评价实体,与目标评价项和上述观点词组成第三检索要素,应用该第三检索要素检索预先配置的观点词情感映射表;
第三检索要素可以包括以下至少之一组合:上述业务方+上述评价实体+目标评价项+上述观点词的组合,上述评价实体+目标评价项+上述观点词的组合,上述评价实体+目标评价项+上述观点词的组合。其中,各个组合中的“+”表示“+”前后两项为“和”的关系。
如果上述第三检索要素包括两个或两个以上的上述组合,则可以分别应用这些组合逐一进行检索,或者,根据实际需要,选择组合元素中的内容最多的组合检索一次。
(2)如果未检索到与上述第三检索要素匹配的表项,将上述目标评价项和上述观点词组成第四检索要素,应用第四检索要素检索所述观点词情感映射表。
步骤S212,根据上述观点词检索预先配置的观点词标准表述表,得到该观点词对应的标准化观点词;
在实际使用中,因为步骤S206中提取出来的观点词并不是真正意义上的一个观点词,有可能是业务内的一个术语,比如对于(打狗棒,打狗棒配腐蚀),步骤S206可能会提取出来“腐蚀”作为观点词,但事实上腐蚀是游戏内的一个技能,所以要将其进行标准化得到标准化观点词。
在本实施例中,从预先配置的观点词标准表述表中查找观点词对应的标准化观点词,其中,该观点词标准表述表中存储有多个观点词,如果通过业务方、评价实体、目标评价项和观点词构成的不同检索式能够在上述观点词标准表述表中检索到观点词标准表中的观点词,则可将检索到的该观点词(即标准化观点词)替换步骤S206中提取到的观点词,如果检索不到,则无需对观点词进行标准化。
作为一种可能的实施方式,根据上述观点词检索预先配置的观点词标准表述表的步骤,可以包括下述步骤(1)和(2):
(1)将上述业务方、评价实体和目标评价项中至少一项与该观点词组成第一检索要素,应用第一检索要素检索预先配置的观点词标准表述表;
第一检索要素具体可以有多种形式,例如第一检索要素包括以下组合中的至少一个:上述业务方+上述观点词的第一组合,上述评价实体+上述观点词的第二组合,上述目标评价项+上述观点词的第三组合,上述业务方+上述评价实体+上述观点词的第四组合,上述业务方+上述目标评价项+上述观点词的第五组合,上述评价实体+上述目标评价项+上述观点词的第六组合,以及上述业务方+上述评价实体+上述目标评价项+上述观点词的第七组合。其中,各个组合中的“+”表示“+”前后两项为“和”的关系。
如果上述第一检索要素包括两个或两个以上的上述组合,则可以分别应用这些组合逐一进行检索,或者,根据实际需要,选择组合元素中的内容最多的组合检索一次。
(2)如果未检索到与上述第一检索要素匹配的表项,以上述观点词作为第二检索要素,应用第二检索要素检索观点词标准表述表。
在检索时如果由业务方、评价实体、目标评价项和观点词构成的检索式无法在观点词标准表述表中检索到观点词,则可按照目标评价项,评价实体,业务方的顺序依次替换为[ALL]构建新的检索式进行检索,其中,[ALL]表示不限于即不用对业务方、评价实体、目标评价项和观点词构成的检索式进行限定。
为了便于说明,以逆水寒(业务方),龙吟(评价实体),角色能力(目标评价项),太强了(观点词)为例进行说明:
(1)如果由逆水寒_龙吟_角色能力_太强了构成的检索式在上述观点词标准表述表中检索到观点词时,则执行(5)对观点词太强了进行标准化,如果没有则执行(2)重新构成检索式进行检索。
(2)如果由逆水寒_龙吟_[ALL]_太强了构成的检索式在上述观点词标准表述表中检索到观点词时,则执行(5)对观点词太强了进行标准化,如果没有则执行(3)重新构成检索式进行检索。
(3)如果由逆水寒_[ALL]_[ALL]_太强了构成的检索式在上述观点词标准表述表中检索到观点词时,则执行(5)对观点词太强了进行标准化,如果没有则执行(4)重新构成检索式进行检索。
(4)如果由[ALL]_[ALL]_[ALL]_太强了构成的检索式在上述观点词标准表述表中检索到观点词时,则执行(5)对观点词太强了进行标准化,如果没有则不进行标准化。
为了能够直观理解,表2示出了一种观点词标准表述表:
表2
从表2中可以看出,以[ALL]_[ALL]_[ALL]_太强了构成检索式进行检索时能够在观点词标准表述表中检索到“很强”,因此,可将“太强了”替换成较为正式的观点词“很强”以实现观点词的标准化。
(5)对观点词进行标准化;即用检索到的观点词替换当前观点词。
步骤S214,将评价实体、目标评价项、标准化观点词和情感倾向组成网络数据对应的挖掘信息。
将从网络数据中获得的评价实体、目标评价项、标准化观点词和情感倾向可作为对业务方的评价信息,便于用户通过查看该评价信息对业务方进行多方位了解,从而有利于业务方的市场反馈分析及用户的选择使用。
本发明实施例提供的上述信息挖掘方法,能够在基于序列标注模型从网络数据中提取出观点词后,确定观点词对应的标准化观点词和该评价实体对应的情感倾向;该方式能够实现对评价实体进行细粒度划分,不但可以得到该评价实体的情感倾向,还可以得到该评价实体对应的目标评价项和标准化观点词,信息较为全面,使得用户可以从不同方面全面了解该业务方的目标评价实体。
为了实现对挖掘信息进行直观展示,本发明实施例还提供了另一种信息挖掘方法,该方法在上述实施例的基础上实现;本实施例重点描述生成业务方的分析报告的具体实施方式。如图3所示的另一种信息挖掘方法的流程图,本实施例中的信息挖掘方法包括如下步骤:
步骤S302,确定业务方的网络数据对应的评价实体;
步骤S304,根据评价实体所属的实体类别确定评价项的集合,其中,评价项为评价实体对应的评价子对象;
步骤S306,应用序列标注模型从网络数据中提取观点词;
步骤S308,根据评价项的集合,从网络数据中提取目标评价项;
由于网络数据的表现形式多种多样,因此基于词语匹配的原则在网络数据中未必查找到与评价项的集合包含的评价子对象作为目标评价项,在从网络数据中未查找到目标评价项时,则可以根据观点词检索预先配置的评价项表,得到网络数据对应的目标评价项。
为了便于说明,表3示出了一种评价项表;
表3
观点词 | 评价实体 | 评价项 |
买不起 | 成本 | 用户权益 |
不好玩 | 可玩性 | 职业 |
从表3中可以看出观点词、评价实体和评价项是一一对应的关系,利用从网络数据中提取的观点词在表3中进行检索,如果观点词在表3中能够被检索到,则将检索到的观点词对应的评价项确定为目标评价项。
步骤S310,根据业务方、评价实体、目标评价项和观点词,确定该评价实体对应的情感倾向;
在本实施例中,上述情感倾向判断模型的训练过程为:
(1)采用众包方式标注网络数据,以获取语料文本;
同样地,可采用众包方式对网络数据对评价实体和观点词的以划线的方式进行标注,得到带有标注信息的语料样本。
(2)对于标注好的语料,将原文和评价实体进行拼接,形成新的文本“[CLS]原文[SEP]评价实体[SEP]”;
其中,新的新的文本的拼接过程与上述序列标注模型训练过程中形成新的语料样本的过程相同,所以,在此不再进行赘述。
(3)利用新的文本对BERT预训练模型进行训练,以得到情感倾向判断模型;
将上述新的文本输入至BERT预训练模型中得到上下文向量表示,使用网络数据中新的文本的第一个词“[CLS]”的向量,送入一个线性层,将BERT的768维向量映射为三分类(正面,负面,其他)的3维向量,再经过softmax(逻辑回归)得到三分类的概率分布,再利用标注好的语料对BERT预训练模型进行微调以及对整体BERT预训练模型进行训练,训练损失使用交叉熵,训练直至损失收敛,作为最终的情感倾向判断模型。
利用上述训练好的情感倾向判断模型能够准确对输入的评价实体、目标评价项和观点词得到三分类的概率分布,这里可能为(0.9,0.01,0.09),分别对应正面、负面和其他的概率值,其中正面的概率值最大说明情感倾向为正向。
步骤S312,根据业务方、评价实体、目标评价项和观点词检索预先配置的观点词标准表述表,得到观点词对应的标准化观点词;
步骤S314,将评价实体、目标评价项、标准化观点词和情感倾向组成网络数据对应的挖掘信息;
步骤S316,汇总指定时间段内业务方的网络数据对应的挖掘信息集合;
在指定的时间段内(如两星期,一个月)定时(如2小时,4小时)从爬虫出网络数据重复执行上述步骤S202至步骤S210,以汇总由多条评价实体、目标评价项、标准化观点词和情感倾向组成的挖掘信息集合,其中,指定的时间段和间隔时长可以根据实际情况进行设置,在此不进行赘述。
步骤S318,基于评价实体和目标评价项,对挖掘信息集合中的挖掘信息进行聚类;
由于同一个业务方可能对应多个评价实体,因此,针对同一个业务方,可从挖掘信息集合中将同一个业务方下的同一个评价实体的挖掘信息进行查找聚类,得到聚类结果,该聚类结果中包括同一个评价实体对应的挖掘信息条数。
步骤S320,根据聚类结果生成业务方的分析报告。
为了能够向用户直观展示针对业务方的信息挖掘情况,可以根据上述评价实体对应的聚类结果以分析报告的形式展示给用户,具体地,根据聚类结果生成业务方的分析报告的步骤,可以通过步骤A1-步骤A3执行:
步骤A1,根据同一个评价实体对应的挖掘信息条数,确定评价实体集合;
由于同一个评价实体可能对应多个目标评价项,进一步,可从同一个评价实体的聚类结果中将同一个评价实体下的同一个目标评价项的挖掘信息进行查找聚类,得到评价实体集合,该评价实体集合中包括同一个评价实体下的同一个目标评价项对应的挖掘信息条数。
步骤A2,对评价实体集合中的评价实体,分别统计同一目标评价项对应的情感倾向的占比值;
在同一目标评价项对应的评价实体集合中,分别确定出正向,负向和其它这三类情感倾向各占的挖掘信息条数,基于各占的挖掘信息条数与评价实体集合中的挖掘信息条数总数的比值,确定出这三类情感倾向各自的占比值。
继续以游戏逆水寒作为业务方为例进行说明,业务方所关注的为游戏玩法(评价实体)中的难易程度(目标评价项),基于上述步骤A1得到的难易程度的评价实体集合中共有100条挖掘信息条数,其中,正向情感倾向占的挖掘信息条数为50条,负向情感倾向占的挖掘信息条数为2条,其它情感倾向占的挖掘信息条数为48条,则该难易程度(目标评价项)对应的正向、负向和其它的占比值分别为50%、2%和48%。
步骤A3,在业务方的分析报告中,展示评价实体集合中的评价实体对应的每个目标评价项对应的情感倾向的占比值。
针对同一个业务方,将业务方关心的评价实体可以根据聚类结果中包含的挖掘信息条数由大到小进行排序,根据实际需要可以选取排序在前的几个评价实体在分析报告进行展示,不进行展示的评价实体则表示用户不关心或不在意的实体。
并对进行展示的同一评价实体下的目标评价项的评价实体集合中包含的挖掘信息条数由大到小进行排序,根据实际需要可以选取排序在前的几个目标评价项在分析报告进行展示,不进行展示的目标评价项则表示用户不关心或不在意的评价项。
为了便于理解,图4示出了一种分析报告的界面示意图,如图4所示,在该生成的分析报告中以评价实体-目标评价项-情感倾向占比值-观点词这四个层面进行信息挖掘内容的展示。图4中仅以具有两个评价实体,以及每个评价实体包括一个目标评价项为例进行示意,用户可通过点击评价实体所在框进行内容的展示或隐藏,比如,用户刚接收到的分析报告只对显示观点词,用户通过点击评价实体所在框进行目标评价项-情感倾向占比值-观点词的显示,如果用户想隐藏该评价实体内包含的目标评价项-情感倾向占比值-观点词的内容,则可以再次点击评价实体所在框进行内容的隐藏。
为了进一步理解生成的分析报告的内容展示,图5中以生成Product1的分析报告为例进行说明,在该生成的报告中选取了实体1、实体2和实体3作为最终的评价实体进行了展示,并对实体1中的整体和成本两个目标评价项对应的情感倾向以百分比的形式进行展示,其中,整体的正向、负向和其它的占比值分别为50%、2%和48%,成本的正向、负向和其它的占比值分别为0%、90%和10%,对于占比值多的情感倾向可在其情感倾向下方进行文字描述,由于实体2和实体3的展示方式与实体1相同,因此,不在图5中进行全面展示了,用户可通过点击实体2和实体3所在的框图进行目标评价项、情感倾向占比值和观点词的展示。
本发明实施例提供的上述信息挖掘方法,通过汇总指定时间段内业务方的网络数据对应的挖掘信息集合;基于评价实体和目标评价项,对挖掘信息集合中的挖掘信息进行聚类;根据聚类结果生成业务方的分析报告,能够直观的想用户展示业务方的评价实体,以及每个目标评价项对应的情感倾向的占比值,便于用户基于分析报告对业务方作为分析或评价。
基于上述业务方的分析报告仅是从评价实体方面进行信息挖掘展示与评价,但未对业务方直接发表观点,因此,在本实施例中,需要综合各个相关评价实体的情感,获得业务方的整体情感,具体地,将评价实体集合中的评价实体分别作为评价对象,对于评价对象均执行以下操作:可通过步骤B1-步骤B2执行:
步骤B1,根据该评价对象的每个目标评价项对应的情感倾向的占比值,确定该评价对象对应的情感倾向;
在实际使用时,可以将评价对象下的多个目标评价项中占比值最大的情感倾向作为评价对象的情感倾向,继续以图5中Product1的分析报告为例进行说明,由于成本的负向占比值最大,因此,可确定实体1(评价对象)的情感倾向为负向。
或者,基于目标评价项的权重值确定评价对象对应的情感倾向,继续以图3为例进行说明,由于实体1的整体方面的权重值为0.8要高于成本方面的权重值0.2,则可以选取整体中占比值最大的情感倾向最作为评价对象的情感倾向,则实体1的情感倾向为正向;确定评价对象对应的情感倾向的方式可以根据实际需要进行设置,在此不进行限定。
步骤B2,基于各个评价对象对应的情感倾向确定业务方的情感倾向。
上述步骤B2的过程,可以通过步骤C1-步骤C2执行:
步骤C1,基于各个评价对象对应的权重和每个情感倾向对应的预设值,对各个评价对象对应的情感倾向进行权重求和计算,得到业务方的情感得分;
根据业务方对各个评价对象的关注程度,可以对每个评价对象设定对应的权重,以表示对业务方的影响程度,比如,图3中设置实体1的权重为0.5,实体2的权重为0.3,实体3的权重为0.2,业务方对评价对象的关注程度越高则权重越大。
基于上述步骤B1确定出每个评价对象的情感倾向后,可对情感倾向设定预设值,比如,如果确定出的评价对象的情感倾向为负向,则用预设值-1进行表示,如果确定出的评价对象的情感倾向为正向,则用预设值1进行表示,如果确定出的评价对象的情感倾向为其它,则用预设值0进行表示,其中,预设值可以根据实际需要进行设定,在此不仅限于本实施例中的设置。
基于各个评价对象对应的权重和每个情感倾向对应的预设值,对各个评价对象对应的情感倾向进行权重求和计算,比如,实体1的情感倾向对应的预设值为1,实体2的情感倾向对应的预设值为-1,实体3的情感倾向对应的预设值为0,则Product1的情感得分为(1*0.5)+(-1*0.3)+(0*0.2)=0.2。
步骤C2,根据业务方的情感得分确定业务方的情感倾向。
通常,如果业务方的情感得分大于0则业务方的情感倾向为正向;如果业务方的情感得分小于0则业务方的情感倾向为负向;如果业务方的情感得分等于0则业务方的情感倾向为其它。由于上述步骤C1得到的Product1的情感得分为0.2大于0,则确定Product1的情感倾向为正向。通过计算出的业务方的情感得分确定业务方的情感倾向,使得用户直观了解业务方的情感倾向,无需对各个评价实体进行分析得到业务方整体的情感倾向,节省了用户的时间和精力。
本发明实施例还提供了另一种信息挖掘方法,该方法在上述实施例的基础上实现;本实施例重点描述确定情感倾向的具体实施方式。如图6所示的另一种信息挖掘方法的流程图,本实施例中的信息挖掘方法包括如下步骤:
步骤S602,确定业务方的网络数据对应的评价实体;
步骤S604,根据评价实体所属的实体类别确定评价项的集合,其中,评价项为评价实体对应的评价子对象;
步骤S606,应用序列标注模型从网络数据中提取观点词;
步骤S608,根据评价项的集合,从网络数据中提取目标评价项;
步骤S610,基于业务方、评价实体、目标评价项和观点词检索预先配置的观点词情感映射表,得到该评价实体对应的情感倾向。
在进行观点词的提取过程中,由于可能将领域内的专业术语认定为观点词的情况,其真实意义是一件产品,因此,在提取观点词的过程中容易出现无观点词的现象,则相应需要将相应情感倾向直接置为“其它”,或者根据预先配置的观点词情感映射表进行情感倾向改写,其中,该观点词情感映射表中存储有观点词,以及与观点词一一对应的情感倾向。
在本实施例中,同样是利用由业务方、评价实体、目标评价项和观点词构成的不同检索式在上述观点词情感映射表中进行检索,如果检索到情感倾向,则对上述实施例中利用情感倾向判断模型得到的情感倾向进行,如果检索不到,则无需对情感倾向进行修正与改写。
在检索时如果由业务方、评价实体、目标评价项和观点词构成的检索式无法在观点词情感映射表中检索到情感倾向,则可按照目标评价项,评价实体,业务方的顺序依次替换为[ALL]构建新的检索式进行检索。
为了便于理解,继续以逆水寒(业务方),龙吟(评价实体),角色能力(目标评价项),太强了(观点词)为例进行说明:
(1)如果由逆水寒_龙吟_角色能力_太强了构成的检索式在上述观点词情感映射表中检索到情感倾向时,则执行(5),如果没有则执行(2)重新构成检索式进行检索。
(2)如果由逆水寒_龙吟_[ALL]_太强了构成的检索式在上述观点词情感映射表中检索到情感倾向时,则执行(5),如果没有则执行(3)重新构成检索式进行检索。
(3)如果由逆水寒_[ALL]_[ALL]_太强了构成的检索式在上述观点词情感映射表中检索到情感倾向时,则执行(5),如果没有则执行(4)重新构成检索式进行检索。
(4)如果由[ALL]_[ALL]_[ALL]_太强了构成的检索式在上述观点词情感映射表中检索到情感倾向时,则执行(5),如果没有则不进行标准化。
为了能够直观理解,表4示出了一种观点词情感映射表:
表4
从表4中可以看出,以[ALL]_[ALL]_[ALL]_有点东西构成检索式进行检索时能够在观点词情感映射表中检索到“正面”,因此,得到情感倾向为正面。
(5)对情感倾向进行改写;即用检索到的情感倾向替换情感倾向判断模型得到的情感倾向。
本发明实施例提供的上述信息挖掘方法,根据业务方、评价实体、目标评价项和观点词检索预先配置的观点词情感映射表,得到评价实体的情感倾向;使得用户通过情感倾向可对评价实体进行准确分析。
进一步,为了充分对上述信息挖掘方法进行理解,图7示出了另一种信息挖掘方法的流程图,如图7所示,该信息挖掘方法包括如下步骤:
步骤S701,确定业务方的网络数据对应的评价实体;
步骤S6702,根据评价实体所属的实体类别确定目标评价项;
步骤S703,应用序列标注模型提取目标评价项对应的观点词;
步骤S704,根据业务方、评价实体、目标评价项和观点词,确定评价实体对应的情感倾向;
步骤S705,对观点词和情感倾向进行标准化,将评价实体、目标评价项、标准化观点词和情感倾向组成网络数据对应的挖掘信息;
步骤S706,从网络数据中进行新的实体挖掘;
对于网络数据增量式的增长,用户对业务方所关注的评价实体也随之增多,为了在网络数据中确定出所增加的评价实体,在本实施例中,通过预先训练的实体挖掘模型,对业务方的网络数据进行实体挖掘,得出疑似实体集合;响应针对于疑似实体集合的筛选操作,确定新增实体;将新增实体写入业务方的评价实体中。
上述实体挖掘模型是利用现有评价实体构造一批标注语料作为训练样本,对预训练模型的序列标注模型进行训练得到的;该实体挖掘模型可采用BERT作为预训练的模型,模型有12层,嵌入向量维度为768,dropout参数为0.1,训练时以中文字符为单位,得到相关的预训练序列标注模型的参数,以训练好的实体挖掘模型进行新的评价实体的挖掘,得到疑似实体集合,该疑似实体集合中包含利用实体挖掘模型挖掘出的新的实体,这些实体需要人为进一步确定才能被确定为新增实体,这些新的实体可以以列表的形式进行展示,根据实际需要用户可从展示列表中点击需要新增的实体,并将被选中的实体保存至上述实施例中的评价主体表中。
利用上述实体挖掘模型从海量网络数据中挖掘出一些新出现的业务方所关注的评价实体,并将经过校验的有效的评价实体加入评价主体表中,以对评价主体表中的评价实体进行更新,以满足用户多样化的需求。
步骤S707,汇总观点以更新观点词标准表和观点词情感映射表。
汇总一段时间内的网络数据,利用上述实体挖掘模型得到观点词的向量表示,使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise,聚类算法)方法对观点词进行聚类,得到观点词聚类结果,基于该观点词聚类结果可获取到观点词-情感错误样例,对该观点词聚类结果和观点词-情感错误样例进行筛选和校验后,选择出新的观点词写入观点词标准表中以对该表进行更新,并将选择出的观点词-情感错误样例写入观点词情感映射表中。
在本实施例中,还可以对增量式的网络数据进行标注,将其作为新的样本去训练序列标注模型和情感倾向判断模型,使得模型能够更准确的从网络数据中提取出观点词和确定出情感倾向。
本发明实施例提供的上述信息挖掘方法,能够从网络数据中利用训练好的实体挖掘模型挖掘出新增实体写入评价主体表中,以对评价主体表中的评价实体进行更新,还可以从增量式的网络数据中进行观点词的聚类,根据聚类结果对观点词标准表和观点词情感映射表中的内容进行更新,该信息挖掘方法具有增量式学习机制,能够随着网络数据的增多,挖掘出业务方更具价值的信息,以此满足用户的多样化需求。
对应于上述方法实施例,本发明实施例提供了一种信息挖掘装置,图8示出了一种信息挖掘装置的结构示意图,如图8所示,该装置包括:
第一确定模块802,用于确定业务方的网络数据对应的评价实体,评价实体为业务方关注的评价主对象;
第二确定模块804,用于根据评价实体所属的实体类别确定评价项的集合,评价项为评价实体对应的评价子对象;
第一提取模块806,用于应用序列标注模型从网络数据中提取观点词;
第二提取模块808,根据评价项集合,从网络数据中提取目标评价项;
第三确定模块810,用于根据目标评价项和观点词,确定该评价实体对应的情感倾向;
本申请实施例提供一种信息挖掘装置,通过在业务方的网络数据中确定出评价实体,根据该评价实体所属的实体类别确定评价项的集合,并基于评价项集合从网络数据中提取出目标评价项,以及基于序列标注模型从网络数据中提取出观点词,根据目标评价项和目标观点词确定该评价实体对应的情感倾向;该方式中的评价实体为业务方关注的评价主对象,而评价项的集合中的评价项为该评价实体对应的评价子对象,因此实现了对评价实体的细粒度划分,基于该目标评价实体对应的目标评价项和观点词确定出的该评价实体的情感倾向较为准确,提升了信息挖掘的有效性。
其中,第一提取模块806中的序列标注模型的训练过程包括:获取带有标注信息的语料样本,标注信息包括评价实体标识和观点词标识;将语料样本与评价实体标识对应的评价实体拼接,得到新的语料样本;应用新的语料样本训练序列标注模型,得到训练好的序列标注模型。
基于上述信息挖掘装置,本发明实施例还提供了另一种信息挖掘装置,参见图9所示的信息挖掘装置的结构示意图,该信息挖掘装置除了包括图8所示的结构之外,还包括与第三确定模块810连接的第一检索模块902,用于根据上述观点词检索预先配置的观点词标准表述表,得到观点词对应的标准化观点词;与第一检索模块902连接的组成模块904,用于将评价实体、目标评价项、标准化观点词和情感倾向组成网络数据对应的挖掘信息。
第一检索模块902还用于将所述业务方、所述评价实体和所述目标评价项中至少一项与所述观点词组成第一检索要素,应用所述第一检索要素检索预先配置的观点词标准表述表;以及如果未检索到与所述第一检索要素匹配的表项,以所述观点词作为第二检索要素,应用所述第二检索要素检索所述观点词标准表述表。
该装置还包括与组成模块904连接的汇总模块906,用于汇总指定时间段内业务方的网络数据对应的挖掘信息集合;与汇总模块906连接的聚类模块908,用于基于评价实体和目标评价项,对挖掘信息集合中的挖掘信息进行聚类;与聚类模块908连接的生成模块910,用于根据聚类结果生成业务方的分析报告。
上述聚类模块908,还用于根据同一个评价实体对应的挖掘信息条数,确定评价实体集合;对评价实体集合中的评价实体,分别统计同一目标评价项对应的情感倾向的占比值;在业务方的分析报告中,展示评价实体集合中的评价实体对应的每个目标评价项对应的情感倾向的占比值。
上述聚类模块908,还用于将评价实体集合中的评价实体分别作为评价对象,对于评价对象均执行以下操作:根据该评价对象的每个目标评价项对应的情感倾向的占比值,确定该评价对象对应的情感倾向;基于各个评价对象对应的情感倾向确定业务方的情感倾向。
上述聚类模块908,还用于基于各个评价对象对应的权重和每个情感倾向对应的预设值,对各个评价对象对应的情感倾向进行权重求和计算,得到业务方的情感得分;根据业务方的情感得分确定业务方的情感倾向。
该装置还包括与第二提取模块808和第三确定模块810均连接的第二检索模块912,用于如果从网络数据中未查找到目标评价项,根据观点词检索预先配置的评价项表,得到网络数据对应的目标评价项。
上述第三确定模块810,还用于将所述评价实体、所述目标评价项和所述观点词输入预先训练好的情感倾向判断模型,得到所述评价实体对应的情感倾向;或者,基于目标评价项和观点词检索预先配置的观点词情感映射表,得到观点词对应的情感倾向。例如:将所述业务方和/或所述评价实体,与所述目标评价项和所述观点词组成第三检索要素,应用所述第三检索要素检索预先配置的观点词情感映射表;如果未检索到与所述第三检索要素匹配的表项,将所述目标评价项和所述观点词组成第四检索要素,应用所述第四检索要素检索所述观点词情感映射表。
上述装置还包括与第一确定模块802连接的写入模块914,用于通过预先训练的实体挖掘模型,对业务方的网络数据进行实体挖掘,得出疑似实体集合;响应针对于疑似实体集合的筛选操作,确定新增实体;将新增实体写入业务方的评价实体中。
本申请实施例提供的信息挖掘装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,信息挖掘装置的实施例部分未提及之处,可参考前述信息挖掘方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图10所示,为该电子设备的结构示意图,其中,该电子设备包括处理器121和存储器120,该存储器120存储有能够被该处理器121执行的计算机可执行指令,该处理器121执行该计算机可执行指令以实现上述信息挖掘方法。
在图10示出的实施方式中,该电子设备还包括总线122和通信接口123,其中,处理器121、通信接口123和存储器120通过总线122连接。
其中,存储器120可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口123(可以是有线或者无线)实现该系统网元与至少一个其它网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线122可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线122可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器121可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器121中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器121可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器121读取存储器中的信息,结合其硬件完成前述实施例的信息挖掘方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述信息挖掘方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的信息挖掘方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (15)
1.一种信息挖掘方法,其特征在于,所述方法包括:
确定业务方的网络数据对应的评价实体,所述评价实体为业务方关注的评价主对象;
根据所述评价实体所属的实体类别确定评价项的集合,其中,所述评价项为所述评价实体对应的评价子对象;
应用序列标注模型从所述网络数据中提取观点词;
根据所述评价项的集合,从所述网络数据中提取目标评价项;
根据所述目标评价项和所述观点词,确定所述评价实体对应的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述观点词检索预先配置的观点词标准表述表,得到所述观点词对应的标准化观点词;
将所述评价实体、所述目标评价项、所述标准化观点词和所述情感倾向组成所述网络数据对应的挖掘信息。
3.根据权利要求2所述的方法,其特征在于,根据所述观点词检索预先配置的观点词标准表述表的步骤,包括:
将所述业务方、所述评价实体和所述目标评价项中至少一项与所述观点词组成第一检索要素,应用所述第一检索要素检索预先配置的观点词标准表述表;
如果未检索到与所述第一检索要素匹配的表项,以所述观点词作为第二检索要素,应用所述第二检索要素检索所述观点词标准表述表。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
汇总指定时间段内所述业务方的网络数据对应的挖掘信息集合;
基于所述评价实体和所述目标评价项,对所述挖掘信息集合中的挖掘信息进行聚类;
根据聚类结果生成所述业务方的分析报告。
5.根据权利要求4所述的方法,其特征在于,所述情感倾向包括:正向、负向和其它;所述聚类结果包括:同一个所述评价实体对应的挖掘信息条数;
根据聚类结果生成所述业务方的分析报告的步骤,包括:
根据同一个所述评价实体对应的挖掘信息条数,确定评价实体集合;
对所述评价实体集合中的评价实体,分别统计同一所述目标评价项对应的情感倾向的占比值;
在所述业务方的分析报告中,展示所述评价实体集合中的评价实体对应的每个所述目标评价项对应的情感倾向的占比值。
6.根据权利要求5所述的方法,其特征在于,根据聚类结果生成所述业务方的分析报告的步骤,还包括:
将所述评价实体集合中的评价实体分别作为评价对象,对于所述评价对象均执行以下操作:根据该评价对象的每个所述目标评价项对应的情感倾向的占比值,确定该评价对象对应的情感倾向;
基于各个所述评价对象对应的情感倾向确定所述业务方的情感倾向。
7.根据权利要求6所述的方法,其特征在于,基于各个所述评价对象对应的情感倾向确定所述业务方的情感倾向的步骤,包括:
基于各个所述评价对象对应的权重和每个情感倾向对应的预设值,对各个所述评价对象对应的情感倾向进行权重求和计算,得到所述业务方的情感得分;
根据所述业务方的情感得分确定所述业务方的情感倾向。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果从所述网络数据中未查找到所述目标评价项,根据所述观点词检索预先配置的评价项表,得到所述网络数据对应的目标评价项。
9.根据权利要求1所述的方法,其特征在于,根据所述目标评价项和所述观点词,确定所述评价实体对应的情感倾向的步骤,包括:
将所述评价实体、所述目标评价项和所述观点词输入预先训练好的情感倾向判断模型,得到所述评价实体对应的情感倾向;或者,
基于所述目标评价项和所述观点词检索预先配置的观点词情感映射表,得到所述评价实体对应的情感倾向。
10.根据权利要求9所述的方法,其特征在于,基于所述目标评价项和所述观点词检索预先配置的观点词情感映射表的步骤,包括:
将所述业务方和/或所述评价实体,与所述目标评价项和所述观点词组成第三检索要素,应用所述第三检索要素检索预先配置的观点词情感映射表;
如果未检索到与所述第三检索要素匹配的表项,将所述目标评价项和所述观点词组成第四检索要素,应用所述第四检索要素检索所述观点词情感映射表。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过预先训练的实体挖掘模型,对所述业务方的网络数据进行实体挖掘,得出疑似实体集合;
响应针对于所述疑似实体集合的筛选操作,确定新增实体;
将所述新增实体写入所述业务方的评价实体中。
12.根据权利要求1所述的方法,其特征在于,所述序列标注模型的训练过程包括:
获取带有标注信息的语料样本,所述标注信息包括评价实体标识和观点词标识;
将所述语料样本与所述评价实体标识对应的评价实体拼接,得到新的语料样本;
应用所述新的语料样本训练序列标注模型,得到训练好的所述序列标注模型。
13.一种信息挖掘装置,其特征在于,所述装置包括:
第一确定模块,用于确定业务方的网络数据对应的评价实体,所述评价实体为业务方关注的评价主对象;
第二确定模块,用于根据所述评价实体所属的实体类别确定评价项的集合,其中,所述评价项为所述评价实体对应的评价子对象;
第一提取模块,用于应用序列标注模型从所述网络数据中提取观点词;
第二提取模块,用于根据所述评价项的集合,从所述网络数据中提取目标评价项;
第三确定模块,用于根据所述目标评价项和所述观点词,确定所述评价实体对应的情感倾向。
14.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至12任一项所述方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010750413.7A CN111859146B (zh) | 2020-07-30 | 2020-07-30 | 信息挖掘方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010750413.7A CN111859146B (zh) | 2020-07-30 | 2020-07-30 | 信息挖掘方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859146A true CN111859146A (zh) | 2020-10-30 |
CN111859146B CN111859146B (zh) | 2024-02-23 |
Family
ID=72945028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010750413.7A Active CN111859146B (zh) | 2020-07-30 | 2020-07-30 | 信息挖掘方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859146B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395478A (zh) * | 2021-01-18 | 2021-02-23 | 索信达(北京)数据技术有限公司 | 一种双模型共用的数据筛选方法及系统 |
CN113609260A (zh) * | 2021-08-16 | 2021-11-05 | 中国平安人寿保险股份有限公司 | 一种语句观点抽取方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220352A (zh) * | 2017-05-31 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
KR20180117944A (ko) * | 2017-04-20 | 2018-10-30 | 군산대학교산학협력단 | 객체 평판 마이닝 방법 및 장치 |
US20190005315A1 (en) * | 2017-06-29 | 2019-01-03 | International Business Machines Corporation | Method of evaluating photographer satisfaction |
CN110134938A (zh) * | 2018-02-09 | 2019-08-16 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN110555109A (zh) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | 基于个人计算机电商评论的多粒度观点挖掘方法 |
CN110781289A (zh) * | 2019-11-07 | 2020-02-11 | 北京邮电大学 | 一种保留非结构化文本语义的文本可视化方法 |
CN111191428A (zh) * | 2019-12-27 | 2020-05-22 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
CN111324698A (zh) * | 2020-02-20 | 2020-06-23 | 苏宁云计算有限公司 | 深度学习方法、评价观点提取方法、装置和系统 |
-
2020
- 2020-07-30 CN CN202010750413.7A patent/CN111859146B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180117944A (ko) * | 2017-04-20 | 2018-10-30 | 군산대학교산학협력단 | 객체 평판 마이닝 방법 및 장치 |
CN107220352A (zh) * | 2017-05-31 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
US20190005315A1 (en) * | 2017-06-29 | 2019-01-03 | International Business Machines Corporation | Method of evaluating photographer satisfaction |
CN110134938A (zh) * | 2018-02-09 | 2019-08-16 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN110555109A (zh) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | 基于个人计算机电商评论的多粒度观点挖掘方法 |
CN110781289A (zh) * | 2019-11-07 | 2020-02-11 | 北京邮电大学 | 一种保留非结构化文本语义的文本可视化方法 |
CN111191428A (zh) * | 2019-12-27 | 2020-05-22 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
CN111324698A (zh) * | 2020-02-20 | 2020-06-23 | 苏宁云计算有限公司 | 深度学习方法、评价观点提取方法、装置和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395478A (zh) * | 2021-01-18 | 2021-02-23 | 索信达(北京)数据技术有限公司 | 一种双模型共用的数据筛选方法及系统 |
CN113609260A (zh) * | 2021-08-16 | 2021-11-05 | 中国平安人寿保险股份有限公司 | 一种语句观点抽取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111859146B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951925B (zh) | 数据处理方法、装置、服务器及系统 | |
CN111461841B (zh) | 物品推荐方法、装置、服务器及存储介质 | |
CN109492180A (zh) | 资源推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
TW201415261A (zh) | 推薦搜索詞的方法及系統 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN103761254A (zh) | 多领域服务主题匹配推荐方法 | |
CN105740268A (zh) | 一种信息推送方法和装置 | |
Yang et al. | A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators | |
CN107918657A (zh) | 一种数据源的匹配方法和装置 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN108509545B (zh) | 一种文章的评论处理方法及系统 | |
CN105468649A (zh) | 一种待展示对象匹配的判断方法及其装置 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN111859146A (zh) | 信息挖掘方法、装置及电子设备 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN117764669A (zh) | 物品推荐方法、装置、设备、介质及产品 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
JP7092194B2 (ja) | 情報処理装置、判定方法、及びプログラム | |
CN116127367A (zh) | 服务评价的审核方法、装置以及计算机可读存储介质 | |
CN113254788A (zh) | 一种基于大数据的推荐方法、系统及可读存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN111859130A (zh) | 一种基于大数据分析的旅游景点推荐方法及装置 | |
CN115329078B (zh) | 文本数据处理方法、装置、设备以及存储介质 | |
CN114048294B (zh) | 相似人群扩展模型训练方法、相似人群扩展方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |