CN113282715A - 结合深度学习的大数据话题评论情绪分析方法及服务器 - Google Patents

结合深度学习的大数据话题评论情绪分析方法及服务器 Download PDF

Info

Publication number
CN113282715A
CN113282715A CN202110770343.6A CN202110770343A CN113282715A CN 113282715 A CN113282715 A CN 113282715A CN 202110770343 A CN202110770343 A CN 202110770343A CN 113282715 A CN113282715 A CN 113282715A
Authority
CN
China
Prior art keywords
topic
comment
viewpoint
information
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110770343.6A
Other languages
English (en)
Inventor
房爱军
邢作乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Xinqihang Lianmao Network Technology Co ltd
Original Assignee
Dongguan Xinqihang Lianmao Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Xinqihang Lianmao Network Technology Co ltd filed Critical Dongguan Xinqihang Lianmao Network Technology Co ltd
Priority to CN202110770343.6A priority Critical patent/CN113282715A/zh
Publication of CN113282715A publication Critical patent/CN113282715A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的结合深度学习的大数据话题评论情绪分析方法及服务器,能对话题评论信息集进行分析和处理,从而得到话题评论信息的话题互动观点信息对应的文本拆解结果,实现文本拆解结果的差异性分析处理得到不同的观点信息内容块。可通过不同的观点信息内容块训练观点情绪识别模型,以确保观点情绪识别模型的识别精度和可信度,在基于观点情绪识别模型进行异常情绪极性检测时,能从评论文本角度进行情绪分析和识别,并基于极性检测关键描述的划分结果所对应的情绪极性值精准判定待处理评论内容是否为消极情绪极性,即使异常评论文本的表面语义特征为积极情绪极性,也能精准、快速地识别出异常评论文本,从而确保评论文本、评论内容的情绪分析质量。

Description

结合深度学习的大数据话题评论情绪分析方法及服务器
技术领域
本申请涉及深度学习和文本情绪分析技术领域,特别涉及一种结合深度学习的大数据话题评论情绪分析方法及服务器。
背景技术
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标,也即人工智能(ArtificialIntelligence,AI)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在相关领域,诸如搜索技术、数据挖掘、自然语言处理、推荐和个性化技术等都取得了一定的成果,能够有效改善一些复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
随着大数据技术的不断成熟,深度学习在话题评论分析领域的应用越来越多,然而,针对话题评论的情绪分析而言,相关技术还难以保证文本情绪分析的质量。
发明内容
本申请实施例之一提供一种结合深度学习的大数据话题评论情绪分析方法,应用于人工智能服务器,所述人工智能服务器中事先保存有话题评论信息集,所述话题评论信息集中包括多组待分析话题评论信息,进一步地,所述方法至少包括以下步骤:
对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果;其中,话题互动观点信息对应的文本拆解结果所包括多组观点信息内容块;
对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型;其中,观点情绪识别模型为在先创建的深度学习网络;
基于训练完成的观点情绪识别模型进行异常情绪极性检测;其中,所述观点情绪识别模型用于对待处理评论内容进行评论情绪分析。
在一些可独立实施的设计思路下,
对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果,包括:
对于话题评论信息集中的每组待分析话题评论信息,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果;
对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型,包括:
对于每组所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果所包括的多组观点信息内容块,确定点击次数汇总值超过预设次数判定值的观点信息内容块以作为待定话题互动观点信息对应的文本拆解结果;
对所述待定话题互动观点信息对应的文本拆解结果中的观点信息内容块进行内容关键词解析处理,以将符合设定解析判定指标的观点信息内容块作为表征所述话题评论信息集的评论词语变化情况的显著性观点信息内容块;
确定多组非显著性观点信息内容块,其中,所述非显著性观点信息内容块是点击次数汇总值未超过所述预设次数判定值的观点信息内容块中所包含的观点信息内容块;
在多组所述非显著性观点信息内容块中,根据所述非显著性观点信息内容块之间的内容相关性分析结果,挑选部分所述非显著性观点信息内容块以作为待使用的观点信息内容块;
基于所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块和所述待使用的观点信息内容块训练观点情绪识别模型;
基于训练完成的观点情绪识别模型进行异常情绪极性检测,包括:
基于所述训练完成的观点情绪识别模型对采集到的待处理评论内容进行情绪极性检测,得到情绪极性检测结果;在所述情绪极性检测结果表征所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容。
在一些可独立实施的设计思路下,所述将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果,包括:
在所述待分析话题评论信息的话题互动板块信息中,提取私聊式大数据话题场景和群聊式大数据话题场景的会话场景描述,并基于所提取的会话场景描述生成多组会话交互状态特征;
根据每组所述会话交互状态特征的话题沟通类别标识,基于相应大数据话题场景的话题文本分解指示集确定所述话题沟通类别标识的文本分解规则;
根据对应每组所述会话交互状态特征的话题沟通类别标识所确定出的文本分解规则对所述待分析话题评论信息的话题互动观点信息进行评论文本拆解,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果;
其中,在所述根据每组所述会话交互状态特征的话题沟通类别标识,基于相应大数据话题场景的话题文本分解指示集确定所述话题沟通类别标识的文本分解规则之前,所述方法还包括对所述多组会话交互状态特征中的每组会话交互状态特征、以及相应的话题沟通类别标识进行的前置处理步骤,所述前置处理步骤包括:
确定所述每组会话交互状态特征的话题沟通类别标识的标识优化总次数、以及对于同一会话交互状态特征的相同话题沟通类别标识的记录值;
将话题沟通类别标识的标识优化总次数超过设定标识优化阈值、以及相同话题沟通类别标识的记录值超过与所述设定标识优化阈值对应的量化判定值的会话交互状态特征进行清洗,以获得清洗后存留的话题互动观点信息;
过滤对应于所述清洗后存留的话题互动观点信息的干扰话题沟通类别标识,并对于所述清洗后存留的话题互动观点信息中存在标识优化历史的话题沟通类别标识进行标识调整;
基于所述清洗后存留的话题互动观点信息、以及标识调整后的话题沟通类别标识,获得用于进行评论文本分解处理的会话交互状态特征。
在一些可独立实施的设计思路下,所述对于每组所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果所包括的多组观点信息内容块,确定点击次数汇总值超过预设次数判定值的观点信息内容块以作为待定话题互动观点信息对应的文本拆解结果,包括:
在不同待分析话题评论信息的多组话题互动观点信息对应的文本拆解结果中,对观点信息内容块进行多次挑选,并将每次挑选的多组观点信息内容块进行合并,以获得多组不同的观点信息内容块集;其中,每次挑选的多组观点信息内容块中皆涵盖对应于不同待分析话题评论信息的话题互动观点信息对应的文本拆解结果中的观点信息内容块;
在所述多组不同的观点信息内容块集形成的文本拆解结果序列中,挑选点击次数汇总值超过所述预设次数判定值的观点信息内容块集,以作为待定话题互动观点信息对应的文本拆解结果。
在一些可独立实施的设计思路下,所述对所述待定话题互动观点信息对应的文本拆解结果中的观点信息内容块进行内容关键词解析处理,包括:
从所述待定话题互动观点信息对应的文本拆解结果中提取多组观点信息内容块;
将提取的多组观点信息内容块进行以下一种或多种处理:
对所述多组观点信息内容块中的局部文本内容进行内容关键词挖掘,得到针对局部文本内容的内容关键词挖掘结果;
对所述多组观点信息内容块中的每组观点信息内容块对应的语义特征的衍生内容进行内容关键词挖掘,得到针对衍生内容的内容关键词挖掘结果;
在所述多组观点信息内容块中分别添加时序性分解指示以进行内容关键词挖掘,得到针对文本分解时序特征的内容关键词挖掘结果;
根据多组观点信息内容块之间的内容共性挖掘情况,对所述多组观点信息内容块进行内容关键词挖掘,得到针对观点信息关联度的内容关键词挖掘结果;
若存在至少一类内容关键词挖掘结果对应的可信挖掘程度大于设定可信程度,则将所述至少一类内容关键词挖掘结果对应的观点信息内容块确定为符合设定解析判定指标的观点信息内容块。
在一些可独立实施的设计思路下,所述观点情绪识别模型包括多个观点分析子模型;所述基于所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块和所述待使用的观点信息内容块训练观点情绪识别模型,包括:
将所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块、所述待使用的观点信息内容块和评论事项组成训练样本集合;
基于组成的多组训练样本集合,训练所述多个观点分析子模型;
将训练完成的多个观点分析子模型通过情绪分析需求特征进行级联,以获得所述观点情绪识别模型。
在一些可独立实施的设计思路下,在所述对于话题评论信息集中的每组待分析话题评论信息,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果之前,所述方法还包括:
获取多组在先的话题评论信息的话题互动板块信息;
根据话题互动主题的主题关注行为记录,将所述多组在先的话题评论信息的话题互动板块信息进行关注倾向分析处理,以获得每组在先的话题评论信息的话题评论质量信息,其中,所述话题评论质量信息用于从所述在先的话题评论信息筛分所述待分析话题评论信息;
根据所述多组在先的话题评论信息的话题评论质量信息,挑选部分在先的话题评论信息以作为待分析话题评论信息;
其中,所述根据所述多组在先的话题评论信息的话题评论质量信息,挑选部分在先的话题评论信息以作为待分析话题评论信息,包括以下至少之一:
在所述多组在先的话题评论信息中,挑选话题评论质量信息对应的评论质量量化值高于预设质量判定值的部分在先的话题评论信息以作为待分析话题评论信息;
根据所述多组在先的话题评论信息的话题评论质量信息对应的评论质量量化值,将所述多组在先的话题评论信息进行由高到低排序,并挑选排序靠前的、且数目为设定数目的部分在先的话题评论信息以作为待分析话题评论信息。
在一些可独立实施的设计思路下,所述在多组所述非显著性观点信息内容块中,根据所述非显著性观点信息内容块之间的内容相关性分析结果,挑选部分所述非显著性观点信息内容块以作为待使用的观点信息内容块,包括:
确定所述多组非显著性观点信息内容块的内容收藏次数,并将内容收藏次数低于设定收藏次数的非显著性观点信息内容块进行清洗;
将清洗后存留的非显著性观点信息内容块进行合并,以获得非显著性观点信息内容序列;
确定所述非显著性观点信息内容序列中随机两组非显著性观点信息内容块之间的内容相关性分析结果;
根据所述随机两组非显著性观点信息内容块之间的内容相关性分析结果,确定所述非显著性观点信息内容序列中的每一组非显著性观点信息内容块与所述非显著性观点信息内容序列的局部内容相关性分析结果;根据所述局部内容相关性分析结果,将所述非显著性观点信息内容序列中的非显著性观点信息内容块按照对应于所述局部内容相关性分析结果的内容相关度进行由高到低排序,并挑选排序靠前的部分非显著性观点信息内容块以作为待使用的观点信息内容块。
在一些可独立实施的设计思路下,基于所述训练完成的观点情绪识别模型对采集到的待处理评论内容进行情绪极性检测,得到情绪极性检测结果;在所述情绪极性检测结果表征所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容,包括:
对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别和观点回复操作识别,得到针对观点输出操作的识别结果集和针对观点回复操作的识别结果集;
基于训练完成的观点情绪识别模型的第一观点分析子模型,对所述针对观点输出操作的识别结果集进行第一结果更正处理,得到包括有观点输出操作标签的第一情绪极性检测结果;
基于训练完成的观点情绪识别模型的第二观点分析子模型,对所述针对观点回复操作的识别结果集进行第二结果更正处理,得到包括有观点回复操作标签的第二情绪极性检测结果;
基于所述第一情绪极性检测结果和所述第二情绪极性检测结果进行检测结果融合,得到与所述待处理评论内容对应的最终情绪极性检测结果;
从所述最终情绪极性检测结果中提取多个极性检测关键描述,对所述多个极性检测关键描述进行划分,得到极性检测关键描述的划分结果;
在根据所述划分结果判定出所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容;
其中,所述对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别和观点回复操作识别,得到针对观点输出操作的识别结果集和针对观点回复操作的识别结果集,包括:
对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别,得到各个话题评论语句中的观点输出操作识别信息、以及各观点输出操作识别信息所对应的话题项目特征;
基于各话题评论语句中的观点输出操作识别信息和相应的话题项目特征,确定针对观点输出操作的识别结果集;
对所述待处理评论内容中的多个话题评论语句分别进行观点回复操作识别,得到针对观点回复操作的识别结果集;
其中,所述对所述待处理评论内容中的多个话题评论语句分别进行观点回复操作识别,得到针对观点回复操作的识别结果集,包括:
对所述待处理评论内容中的多个话题评论语句分别进行即时回复操作识别,得到各话题评论语句分别对应的即时回复操作记录;
对所述待处理评论内容中的多个话题评论语句分别进行延时回复操作识别,得到各话题评论语句分别对应的延时回复操作记录;
将对应于同一话题评论语句的即时回复操作记录和延时回复操作记录进行整合;
基于所述待处理评论内容中与目标即时回复操作记录相整合的延时回复操作记录进行观点回复操作识别处理,得到针对观点回复操作的识别结果集。
本申请实施例之一提供一种人工智能服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行上述的方法。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本发明的一些实施例所示的一种示例性结合深度学习的大数据话题评论情绪分析方法和/或过程的流程图;
图2是根据本发明的一些实施例所示的一种示例性结合深度学习的大数据话题评论情绪分析装置的框图;
图3是根据本发明的一些实施例所示的一种示例性结合深度学习的大数据话题评论情绪分析系统的框图,以及
图4是根据本发明的一些实施例所示的一种示例性人工智能服务器中硬件和软件组成的示意图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不组成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
针对如背景技术所述的问题,发明人针对性地提出了结合深度学习的大数据话题评论情绪分析方法及服务器,能够对预先记录的话题评论信息集进行分析和处理,从而得到话题评论信息的话题互动观点信息对应的文本拆解结果,这样能够进一步实现文本拆解结果的差异性分析处理得到不同的观点信息内容块。如此,可以通过不同的观点信息内容块训练观点情绪识别模型,以确保观点情绪识别模型的识别精度和可信度,这样在基于训练完成的观点情绪识别模型进行异常情绪极性检测时,能够从评论文本角度进行情绪分析和识别,即使异常评论文本的表面语义特征为积极情绪极性,也能够精准、快速地识别出异常评论文本,从而确保评论文本、评论内容的情绪分析质量。
首先,对结合深度学习的大数据话题评论情绪分析方法进行示例性的说明,请参阅图1,是根据本发明的一些实施例所示的一种示例性结合深度学习的大数据话题评论情绪分析方法和/或过程的流程图,结合深度学习的大数据话题评论情绪分析方法可以包括以下STEP1-STEP3所描述的技术方案。
可以理解,在本实施例中,所述人工智能服务器中事先保存有话题评论信息集,所述话题评论信息集中包括多组待分析话题评论信息,人工智能服务器对应的观点信息库可以是关系型数据库,亦或者其他类型的数据库,在此不作限定。在该方案中,话题评论信息集可以按照时序先后记录不同的待分析话题评论信息,而待分析话题评论信息可以是不同的会话话题互动设备之间,或者会话话题互动设备与人工智能服务器之间的话题评论信息,例如,话题评论信息集可以如下:topic_comment1,会话话题互动设备1,会话话题互动设备2,time1,textXXX;topic_comment2,会话话题互动设备3,会话话题互动设备6,time2,textXXX;topic_comment3,人工智能服务器,会话话题互动设备2,time3,textXXX;topic_comment4,会话话题互动设备1,人工智能服务器,time4,textXXX;topic_comment5,会话话题互动设备6,人工智能服务器,time5,textXXX;topic_comment6,人工智能服务器,会话话题互动设备3,time6,textXXX。
在上述基础上,所述方法可以包括内容。
STEP1,对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果。
例如,话题互动观点信息可以是不同会话参与方(会话话题互动设备或人工智能服务器)针对话题互动而言所进行的评论对应的观点信息,话题互动观点信息包括但不限于新闻观点信息、娱乐观点信息、讨论观点信息、评价观点信息、吐槽观点信息等。进一步地,话题互动观点信息对应的文本拆解结果中包括多组观点信息内容块,每组观点信息内容块可以看作是一个相对独立的观点评论,例如观点信息内容块piece1可以理解为新闻观点评论,观点信息内容块piece2可以理解为娱乐观点评论、观点信息内容块piece3可以理解为评价观点评论等。如此设计,能够将待分析话题评论信息进行精准拆分,从而确保后续基于文本情绪极性分析的可信度,避免出现情绪分析误差。
在进一步的实施例中,对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果,包括:对于话题评论信息集中的每组待分析话题评论信息,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果。例如,大数据话题场景可以是按照不同的方式进行区分,如此设计,能够尽可能精细化地实现话题互动观点信息的评论文本拆解,从而为后续的文本情绪分析提供尽可能完善的依据。
更进一步地,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果,可以包括以下内容:在所述待分析话题评论信息的话题互动板块信息中,提取私聊式大数据话题场景和群聊式大数据话题场景的会话场景描述,并基于所提取的会话场景描述生成多组会话交互状态特征;根据每组所述会话交互状态特征的话题沟通类别标识,基于相应大数据话题场景的话题文本分解指示集确定所述话题沟通类别标识的文本分解规则;根据对应每组所述会话交互状态特征的话题沟通类别标识所确定出的文本分解规则对所述待分析话题评论信息的话题互动观点信息进行评论文本拆解,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果。在本实施例中,话题互动板块信息可以用于记录不同的话题互动主题,比如体育主题、化妆品主题等。会话场景描述能够对不同规模的大数据话题场景进行区分,会话交互状态特征用于表征不同会话参与方之间的会话参与和评论状态,文本分解规则可以包括不同的评论文本拆解指示信息,比如按照什么方式或者什么标准进行评论文本拆解。
在一些实施例中,在所述根据每组所述会话交互状态特征的话题沟通类别标识,基于相应大数据话题场景的话题文本分解指示集确定所述话题沟通类别标识的文本分解规则之前,所述方法还包括对所述多组会话交互状态特征中的每组会话交互状态特征、以及相应的话题沟通类别标识进行的前置处理步骤。在此基础上,所述前置处理步骤包括:确定所述每组会话交互状态特征的话题沟通类别标识的标识优化总次数、以及对于同一会话交互状态特征的相同话题沟通类别标识的记录值;将话题沟通类别标识的标识优化总次数超过设定标识优化阈值、以及相同话题沟通类别标识的记录值超过与所述设定标识优化阈值对应的量化判定值的会话交互状态特征进行清洗,以获得清洗后存留的话题互动观点信息;过滤对应于所述清洗后存留的话题互动观点信息的干扰话题沟通类别标识,并对于所述清洗后存留的话题互动观点信息中存在标识优化历史的话题沟通类别标识进行标识调整;基于所述清洗后存留的话题互动观点信息、以及标识调整后的话题沟通类别标识,获得用于进行评论文本分解处理的会话交互状态特征。如此设计,通过进行前置预处理,能够确保会话交互状态特征、以及相应的话题沟通类别标识的时效性,从而为后续的模型训练提供准确可靠的训练样本。
在另外的一些实施例中,在所述对于话题评论信息集中的每组待分析话题评论信息,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果之前,本方案还可以包括以下内容:获取多组在先的话题评论信息的话题互动板块信息;根据话题互动主题的主题关注行为记录,将所述多组在先的话题评论信息的话题互动板块信息进行关注倾向分析处理,以获得每组在先的话题评论信息的话题评论质量信息,其中,所述话题评论质量信息用于从所述在先的话题评论信息筛分所述待分析话题评论信息;根据所述多组在先的话题评论信息的话题评论质量信息,挑选部分在先的话题评论信息以作为待分析话题评论信息。如此设计,在确定待分析话题评论信息时能够考虑话题评论质量信息,从而确保后续训练得到的模型在进行情绪极性检测时能够考虑到话题评论的质量。
在本实施例中,所述根据所述多组在先的话题评论信息的话题评论质量信息,挑选部分在先的话题评论信息以作为待分析话题评论信息,包括以下至少之一的实施方式。
实施方式一,在所述多组在先的话题评论信息中,挑选话题评论质量信息对应的评论质量量化值高于预设质量判定值的部分在先的话题评论信息以作为待分析话题评论信息。
实施方式二,根据所述多组在先的话题评论信息的话题评论质量信息对应的评论质量量化值,将所述多组在先的话题评论信息进行由高到低排序,并挑选排序靠前的、且数目为设定数目的部分在先的话题评论信息以作为待分析话题评论信息。
STEP2,对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型。例如,不同的观点信息内容块可以包括显著性观点信息内容块、非显著性观点信息内容块和/或待使用的观点信息内容块,显著性观点信息内容块对应受众面较广的待处理评论内容,非显著性观点信息内容块对应受众面较窄的待处理评论内容,观点情绪识别模型可以是深度学习网络(Deep Learning Network,DLN)。
在进一步的实施例中,为了确保训练之后的观点情绪识别模型的识别准确性和泛化能力,需要对不同的观点信息内容块进行精准划分,为实现这一目的,STEP2所描述的内容可以通过以下STEP21-STEP25实现。
STEP21,对于每组所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果所包括的多组观点信息内容块,确定点击次数汇总值超过预设次数判定值的观点信息内容块以作为待定话题互动观点信息对应的文本拆解结果。在本实施例中,点击次数汇总值可以用于表征观点信息内容块被人工智能服务器所调用的次数,调用次数越多,则表明观点信息内容块对应的话题互动观点信息较为重要,因而待定话题互动观点信息也可以理解为人工智能服务器重点关注的话题互动观点信息。
进一步地,该步骤可以包括以下内容:在不同待分析话题评论信息的多组话题互动观点信息对应的文本拆解结果中,对观点信息内容块进行多次挑选,并将每次挑选的多组观点信息内容块进行合并,以获得多组不同的观点信息内容块集;其中,每次挑选的多组观点信息内容块中皆涵盖对应于不同待分析话题评论信息的话题互动观点信息对应的文本拆解结果中的观点信息内容块;在所述多组不同的观点信息内容块集形成的文本拆解结果序列中,挑选点击次数汇总值超过所述预设次数判定值的观点信息内容块集,以作为待定话题互动观点信息对应的文本拆解结果。可以理解,预设次数判定值可以按照话题场景规模进行调整。
STEP22,对所述待定话题互动观点信息对应的文本拆解结果中的观点信息内容块进行内容关键词解析处理,以将符合设定解析判定指标的观点信息内容块作为表征所述话题评论信息集的评论词语变化情况的显著性观点信息内容块。在本实施例中,内容关键词可以用于对不同的观点信息内容块进行区分,内容关键词可以是数值标签也可以是字符标签,在此不作限定。话题评论信息集的评论词语变化情况用于表征话题评论信息集在被修改时的语义反推导能力,评论词语变化情况对应的变化度越高,话题评论信息集在被修改时的语义反推导能力越强。
进一步地,所述对所述待定话题互动观点信息对应的文本拆解结果中的观点信息内容块进行内容关键词解析处理,可以包括:从所述待定话题互动观点信息对应的文本拆解结果中提取多组观点信息内容块。基于此,观点信息内容块是否符合设定解析判定指标可以通过以下内实现。
首先,将提取的多组观点信息内容块进行以下一种或多种处理:
(1)对所述多组观点信息内容块中的局部文本内容进行内容关键词挖掘,得到针对局部文本内容的内容关键词挖掘结果;
(2)对所述多组观点信息内容块中的每组观点信息内容块对应的语义特征的衍生内容进行内容关键词挖掘,得到针对衍生内容的内容关键词挖掘结果;
(3)在所述多组观点信息内容块中分别添加时序性分解指示以进行内容关键词挖掘,得到针对文本分解时序特征的内容关键词挖掘结果;
(4)根据多组观点信息内容块之间的内容共性挖掘情况,对所述多组观点信息内容块进行内容关键词挖掘,得到针对观点信息关联度的内容关键词挖掘结果。
其次,若存在至少一类内容关键词挖掘结果对应的可信挖掘程度大于设定可信程度,则将所述至少一类内容关键词挖掘结果对应的观点信息内容块确定为符合设定解析判定指标的观点信息内容块。在本方案中,可信挖掘程度可以理解为内容挖掘置信度,其数值范围可以是0~1。
如此设计,能够基于不同层面的内容关键词挖掘结果的可信挖掘程度判断对应的观点信息内容块是否符合设定解析判定指标,这样能够避免对显著性观点信息内容块的漏检。
STEP23,确定多组非显著性观点信息内容块,其中,所述非显著性观点信息内容块是点击次数汇总值未超过所述预设次数判定值的观点信息内容块中所包含的观点信息内容块。
STEP24,在多组所述非显著性观点信息内容块中,根据所述非显著性观点信息内容块之间的内容相关性分析结果,挑选部分所述非显著性观点信息内容块以作为待使用的观点信息内容块。例如,内容相关性分析结果可以是不同非显著性观点信息内容块之间的观点评论相似度,待使用的观点信息内容块可以理解为可能是显著性观点信息内容块的非显著性观点信息内容块,也即位于显著性观点信息内容块和非显著性观点信息内容块之间的观点信息内容块。
进一步地,该步骤可以包括以下内容:确定所述多组非显著性观点信息内容块的内容收藏次数,并将内容收藏次数低于设定收藏次数的非显著性观点信息内容块进行清洗;将清洗后存留的非显著性观点信息内容块进行合并,以获得非显著性观点信息内容序列;确定所述非显著性观点信息内容序列中随机两组非显著性观点信息内容块之间的内容相关性分析结果;根据所述随机两组非显著性观点信息内容块之间的内容相关性分析结果,确定所述非显著性观点信息内容序列中的每一组非显著性观点信息内容块与所述非显著性观点信息内容序列的局部内容相关性分析结果;根据所述局部内容相关性分析结果,将所述非显著性观点信息内容序列中的非显著性观点信息内容块按照对应于所述局部内容相关性分析结果的内容相关度进行由高到低排序,并挑选排序靠前的部分非显著性观点信息内容块以作为待使用的观点信息内容块。
STEP25,基于所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块和所述待使用的观点信息内容块训练观点情绪识别模型。
在本实施例中,观点情绪识别模型包括多个观点分析子模型,进一步地,训练观点情绪识别模型的方式,可以包括以下步骤所描述的内容:将所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块、所述待使用的观点信息内容块和评论事项组成训练样本集合;基于组成的多组训练样本集合,训练所述多个观点分析子模型;将训练完成的多个观点分析子模型通过情绪分析需求特征进行级联,以获得所述观点情绪识别模型。
STEP3,基于训练完成的观点情绪识别模型进行异常情绪极性检测。
在本实施例中,异常情绪极性检测可以是针对待处理评论内容的异常情绪极性检测结果而执行的相关措施例如忽略待处理评论内容或者(关联标记)待处理评论内容。
进一步地,该步骤可以包括以下内容:基于所述训练完成的观点情绪识别模型对采集到的待处理评论内容进行情绪极性检测,得到情绪极性检测结果;在所述情绪极性检测结果表征所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容。在本实施例中,待处理评论内容可以是与人工智能服务器通信的任一会话话题互动设备发起的,消极情绪极性包括现有的多类消极情绪极性,比如侮辱性语言、人身攻击等,在此不作限定。
在STEP3的基础上,为了实现对待处理评论内容的精准识别,可以通过以下STEP31-STEP36实现。
STEP31,对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别和观点回复操作识别,得到针对观点输出操作的识别结果集和针对观点回复操作的识别结果集。进一步地,所述对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别和观点回复操作识别,得到针对观点输出操作的识别结果集和针对观点回复操作的识别结果集,包括:对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别,得到各个话题评论语句中的观点输出操作识别信息、以及各观点输出操作识别信息所对应的话题项目特征;基于各话题评论语句中的观点输出操作识别信息和相应的话题项目特征,确定针对观点输出操作的识别结果集;对所述待处理评论内容中的多个话题评论语句分别进行观点回复操作识别,得到针对观点回复操作的识别结果集。
在上述STEP31的基础上,所述对所述待处理评论内容中的多个话题评论语句分别进行观点回复操作识别,得到针对观点回复操作的识别结果集,包括:对所述待处理评论内容中的多个话题评论语句分别进行即时回复操作识别,得到各话题评论语句分别对应的即时回复操作记录;对所述待处理评论内容中的多个话题评论语句分别进行延时回复操作识别,得到各话题评论语句分别对应的延时回复操作记录;将对应于同一话题评论语句的即时回复操作记录和延时回复操作记录进行整合;基于所述待处理评论内容中与目标即时回复操作记录相整合的延时回复操作记录进行观点回复操作识别处理,得到针对观点回复操作的识别结果集。
可以理解,通过STEP31所描述的内容,能够基于观点输出操作和观点回复操作进行差异化识别,并针对观点回复操作进行即时回复操作记录和延时回复操作记录的分析和整合,这样能够完整地确定出观点输出操作的识别结果集和针对观点回复操作的识别结果集。
STEP32,基于训练完成的观点情绪识别模型的第一观点分析子模型,对所述针对观点输出操作的识别结果集进行第一结果更正处理,得到包括有观点输出操作标签的第一情绪极性检测结果。
在一个可替换的实施例中,所述基于训练完成的观点情绪识别模型的第一观点分析子模型,对所述针对观点输出操作的识别结果集进行第一结果更正处理,得到包括有观点输出操作标签的第一情绪极性检测结果,可以包括以下内容:对所述针对观点输出操作的识别结果集中的每个话题评论语句分别进行评论类别匹配,得到每个话题评论语句各自对应的不重复的评论类别;基于每个话题评论语句中与相应不重复的评论类别对应的观点输出操作识别信息的反馈评价内容,分别进行识别信息时序校正处理,得到校正后的针对观点输出操作的识别结果集;对所述校正后的针对观点输出操作的识别结果集进行二次时序校正处理,得到多个包括有观点输出操作标签的第一候选情绪极性检测结果;根据各所述第一候选情绪极性检测结果分别所匹配的观点输出操作类型,对属于相同观点输出操作类型的第一候选情绪极性检测结果进行情绪极性检测结果合并,得到包括有观点输出操作标签的第一情绪极性检测结果。如此,能够基于时序层面以及观点输出操作类型实现情绪极性检测结果合并,这样能够确保包括有观点输出操作标签的第一情绪极性检测结果的全局关联性和准确性。
在一个可替换的实施例中,所述对所述针对观点输出操作的识别结果集中的每个话题评论语句分别进行评论类别匹配,得到每个话题评论语句各自对应的不重复的评论类别,包括:对于所述针对观点输出操作的识别结果集中的每个话题评论语句,当话题评论语句的话题项目特征的数目为大于一个时,获取每个话题项目特征的评论类别关注热度;当评论类别关注热度最高的话题项目特征为一个时,基于所述评论类别关注热度最高的话题项目特征确定相应话题评论语句的不重复的评论类别;当所述评论类别关注热度最高的话题项目特征为大于一个时,针对每个评论类别关注热度最高的话题项目特征,获取对应的观点输出操作识别信息的识别信息关注热度;根据最高的识别信息关注热度所对应的话题项目特征,确定相应话题评论语句所对应的不重复的评论类别。如此设计,能够基于识别信息关注热度准确确定相应话题评论语句所对应的不重复的评论类别。
在一个可替换的实施例中,所述基于每个话题评论语句中与相应不重复的评论类别对应的观点输出操作识别信息的反馈评价内容,分别进行识别信息时序校正处理,得到校正后的针对观点输出操作的识别结果集,包括:对于每个话题评论语句,获取各话题评论语句中与相应不重复的评论类别对应的观点输出操作识别信息的行为情绪分析误差率;当所述行为情绪分析误差率在设定误差区间内时,标记相对应的观点输出操作识别结果,标记的所述观点输出操作识别结果包括观点输出操作识别信息、以及所述观点输出操作识别信息对应的不重复的评论类别;当所述行为情绪分析误差率不在所述设定误差区间内时,将相应的话题评论语句的观点输出操作识别结果确定为非有效结果;基于各话题评论语句各自对应的观点输出操作识别结果,得到校正后的针对观点输出操作的识别结果集。如此设计,能够将行为情绪分析误差率考虑在内,从而实现对针对观点输出操作的识别结果集的精准可靠修正。
STEP33,基于训练完成的观点情绪识别模型的第二观点分析子模型,对所述针对观点回复操作的识别结果集进行第二结果更正处理,得到包括有观点回复操作标签的第二情绪极性检测结果。可以理解,该步骤的实施方式与STEP32的实施方式类似,因此在此不作更多说明。
STEP34,基于所述第一情绪极性检测结果和所述第二情绪极性检测结果进行检测结果融合,得到与所述待处理评论内容对应的最终情绪极性检测结果。在本方案中,最终情绪极性检测结果可以从观点输出操作层面和观点回复操作层面实现对待处理评论内容的评估。
STEP35,从所述最终情绪极性检测结果中提取多个极性检测关键描述,对所述多个极性检测关键描述进行划分,得到极性检测关键描述的划分结果。例如,极性检测关键描述可以包括语义环境指标、会话对象指标和话题类型指标等,在此不作限定。
STEP36,在根据所述划分结果判定出所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容。在本实施例中,可以根据划分结果中每一类结果对应的综合情绪极性值判断待处理评论内容是否为消极情绪极性,例如,若每一类结果对应的综合情绪极性值的均值超过设定情绪极性值,则可以判定待处理评论内容是消极情绪极性。每一类结果对应的综合情绪极性值可以根据不同的极性检测关键描述对应的特征权重计算得到,相关的计算公式和代码在此不作赘述。
可以理解,通过实施上述STEP31-STEP36,能够基于训练完成的观点情绪识别模型确定待处理评论内容在不同层面上的情绪极性检测结果,从而从得到的最终情绪极性检测结果中提取多个极性检测关键描述,这样可以基于极性检测关键描述的划分结果所对应的情绪极性值精准判定待处理评论内容是否为消极情绪极性,能够从评论文本角度进行情绪分析和识别,即使异常评论文本的表面语义特征为积极情绪极性,也能够精准、快速地识别出异常评论文本,从而确保评论文本、评论内容的情绪分析质量。
综上所述,基于上述STEP1-STEP3,能够对预先记录的话题评论信息集进行分析和处理,从而得到话题评论信息的话题互动观点信息对应的文本拆解结果,这样能够进一步实现文本拆解结果的差异性分析处理得到不同的观点信息内容块。如此,可以通过不同的观点信息内容块训练观点情绪识别模型,以确保观点情绪识别模型的识别精度和可信度,这样在基于训练完成的观点情绪识别模型进行异常情绪极性检测时,能够从评论文本角度进行情绪分析和识别,并基于极性检测关键描述的划分结果所对应的情绪极性值精准判定待处理评论内容是否为消极情绪极性,即使异常评论文本的表面语义特征为积极情绪极性,也能够精准、快速地识别出异常评论文本,从而确保评论文本、评论内容的情绪分析质量。
对于一些可能的实施例而言,在基于训练完成的观点情绪识别模型进行异常情绪极性检测之后,可以将判定为消极情绪极性的待处理评论内容对应的会话话题互动设备的设备标签进行存储,这样可以便于后续对会话话题互动设备进行针对性的文本检测。
其次,针对上述结合深度学习的大数据话题评论情绪分析方法,本发明实施例还提出了一种示例性的结合深度学习的大数据话题评论情绪分析装置,如图2所示,结合深度学习的大数据话题评论情绪分析装置200可以包括以下的功能模块。
评论文本拆解模块210,用于对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果;其中,话题互动观点信息对应的文本拆解结果所包括多组观点信息内容块。
识别模型训练模块220,用于对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型;其中,观点情绪识别模型为在先创建的深度学习网络。
评论情绪分析模块230,用于基于训练完成的观点情绪识别模型进行异常情绪极性检测;其中,所述观点情绪识别模型用于对待处理评论内容进行评论情绪分析。
可以理解,上述功能模块的描述可以参阅对图1所示的方法的描述,因此在此不作更多说明。
然后,基于上述的方法实施例和装置实施例,本发明实施例还提出了一种系统实施例,也即结合深度学习的大数据话题评论情绪分析系统,请结合参阅图3,结合深度学习的大数据话题评论情绪分析系统30可以包括人工智能服务器10和在线会话话题互动设备20。其中,人工智能服务器10和在线会话话题互动设备20通信用以实施上述方法,进一步地,结合深度学习的大数据话题评论情绪分析系统30的功能性描述如下。
一种结合深度学习的大数据话题评论情绪分析系统,包括互相之间通信连接的人工智能服务器和在线会话话题互动设备,所述人工智能服务器中事先保存有话题评论信息集,所述话题评论信息集中包括多组待分析话题评论信息;
进一步地,所述人工智能服务器用于:对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果;其中,话题互动观点信息对应的文本拆解结果所包括多组观点信息内容块;对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型;其中,观点情绪识别模型为在先创建的深度学习网络;基于训练完成的观点情绪识别模型进行异常情绪极性检测;其中,所述观点情绪识别模型用于对待处理评论内容进行评论情绪分析。
可以理解,上述系统实施例的描述可以参阅对图1所示的方法实施例的描述,因此在此不作更多说明。
进一步地,请结合参阅图4,人工智能服务器10可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
可以理解,图4所示的结构仅为示意,人工智能服务器10还可包括比图2中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
需要理解的是,针对上述内容,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定相关技术术语所指代的含义,例如针对一些值、系数、权重、指数、因子等术语,本领域技术人员可以根据前后的逻辑关系进行推导和确定,这些数值的取值范围可以根据实际情况进行挑选,例如0~1,又例如1~10,再例如50~100,在此均不作限定。
本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等,也可以根据前后文进行毫无疑义地推导和确定。
本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不组成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数目的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (10)

1.一种结合深度学习的大数据话题评论情绪分析方法,其特征在于,应用于人工智能服务器,所述人工智能服务器中事先保存有话题评论信息集,所述话题评论信息集中包括多组待分析话题评论信息,进一步地,所述方法至少包括以下步骤:
对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果;其中,话题互动观点信息对应的文本拆解结果所包括多组观点信息内容块;
对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型;其中,观点情绪识别模型为在先创建的深度学习网络;
基于训练完成的观点情绪识别模型进行异常情绪极性检测;其中,所述观点情绪识别模型用于对待处理评论内容进行评论情绪分析。
2.如权利要求1所述的方法,其特征在于,
对所述待分析话题评论信息进行评论文本分解处理以得到话题互动观点信息对应的文本拆解结果,包括:
对于话题评论信息集中的每组待分析话题评论信息,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果;
对所述话题互动观点信息对应的文本拆解结果进行差异性分析处理得到不同的观点信息内容块,并通过不同的观点信息内容块训练观点情绪识别模型,包括:
对于每组所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果所包括的多组观点信息内容块,确定点击次数汇总值超过预设次数判定值的观点信息内容块以作为待定话题互动观点信息对应的文本拆解结果;
对所述待定话题互动观点信息对应的文本拆解结果中的观点信息内容块进行内容关键词解析处理,以将符合设定解析判定指标的观点信息内容块作为表征所述话题评论信息集的评论词语变化情况的显著性观点信息内容块;
确定多组非显著性观点信息内容块,其中,所述非显著性观点信息内容块是点击次数汇总值未超过所述预设次数判定值的观点信息内容块中所包含的观点信息内容块;
在多组所述非显著性观点信息内容块中,根据所述非显著性观点信息内容块之间的内容相关性分析结果,挑选部分所述非显著性观点信息内容块以作为待使用的观点信息内容块;
基于所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块和所述待使用的观点信息内容块训练观点情绪识别模型;
基于训练完成的观点情绪识别模型进行异常情绪极性检测,包括:
基于所述训练完成的观点情绪识别模型对采集到的待处理评论内容进行情绪极性检测,得到情绪极性检测结果;在所述情绪极性检测结果表征所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容。
3.如权利要求2所述的方法,其特征在于,所述将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果,包括:
在所述待分析话题评论信息的话题互动板块信息中,提取私聊式大数据话题场景和群聊式大数据话题场景的会话场景描述,并基于所提取的会话场景描述生成多组会话交互状态特征;
根据每组所述会话交互状态特征的话题沟通类别标识,基于相应大数据话题场景的话题文本分解指示集确定所述话题沟通类别标识的文本分解规则;
根据对应每组所述会话交互状态特征的话题沟通类别标识所确定出的文本分解规则对所述待分析话题评论信息的话题互动观点信息进行评论文本拆解,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果;
其中,在所述根据每组所述会话交互状态特征的话题沟通类别标识,基于相应大数据话题场景的话题文本分解指示集确定所述话题沟通类别标识的文本分解规则之前,所述方法还包括对所述多组会话交互状态特征中的每组会话交互状态特征、以及相应的话题沟通类别标识进行的前置处理步骤,所述前置处理步骤包括:
确定所述每组会话交互状态特征的话题沟通类别标识的标识优化总次数、以及对于同一会话交互状态特征的相同话题沟通类别标识的记录值;
将话题沟通类别标识的标识优化总次数超过设定标识优化阈值、以及相同话题沟通类别标识的记录值超过与所述设定标识优化阈值对应的量化判定值的会话交互状态特征进行清洗,以获得清洗后存留的话题互动观点信息;
过滤对应于所述清洗后存留的话题互动观点信息的干扰话题沟通类别标识,并对于所述清洗后存留的话题互动观点信息中存在标识优化历史的话题沟通类别标识进行标识调整;
基于所述清洗后存留的话题互动观点信息、以及标识调整后的话题沟通类别标识,获得用于进行评论文本分解处理的会话交互状态特征。
4.如权利要求2所述的方法,其特征在于,所述对于每组所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果所包括的多组观点信息内容块,确定点击次数汇总值超过预设次数判定值的观点信息内容块以作为待定话题互动观点信息对应的文本拆解结果,包括:
在不同待分析话题评论信息的多组话题互动观点信息对应的文本拆解结果中,对观点信息内容块进行多次挑选,并将每次挑选的多组观点信息内容块进行合并,以获得多组不同的观点信息内容块集;其中,每次挑选的多组观点信息内容块中皆涵盖对应于不同待分析话题评论信息的话题互动观点信息对应的文本拆解结果中的观点信息内容块;
在所述多组不同的观点信息内容块集形成的文本拆解结果序列中,挑选点击次数汇总值超过所述预设次数判定值的观点信息内容块集,以作为待定话题互动观点信息对应的文本拆解结果。
5.如权利要求2所述的方法,其特征在于,所述对所述待定话题互动观点信息对应的文本拆解结果中的观点信息内容块进行内容关键词解析处理,包括:
从所述待定话题互动观点信息对应的文本拆解结果中提取多组观点信息内容块;
将提取的多组观点信息内容块进行以下一种或多种处理:
对所述多组观点信息内容块中的局部文本内容进行内容关键词挖掘,得到针对局部文本内容的内容关键词挖掘结果;
对所述多组观点信息内容块中的每组观点信息内容块对应的语义特征的衍生内容进行内容关键词挖掘,得到针对衍生内容的内容关键词挖掘结果;
在所述多组观点信息内容块中分别添加时序性分解指示以进行内容关键词挖掘,得到针对文本分解时序特征的内容关键词挖掘结果;
根据多组观点信息内容块之间的内容共性挖掘情况,对所述多组观点信息内容块进行内容关键词挖掘,得到针对观点信息关联度的内容关键词挖掘结果;
若存在至少一类内容关键词挖掘结果对应的可信挖掘程度大于设定可信程度,则将所述至少一类内容关键词挖掘结果对应的观点信息内容块确定为符合设定解析判定指标的观点信息内容块。
6.如权利要求2所述的方法,其特征在于,所述观点情绪识别模型包括多个观点分析子模型;所述基于所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块和所述待使用的观点信息内容块训练观点情绪识别模型,包括:
将所述话题评论信息集中每组待分析话题评论信息的所述显著性观点信息内容块、所述待使用的观点信息内容块和评论事项组成训练样本集合;
基于组成的多组训练样本集合,训练所述多个观点分析子模型;
将训练完成的多个观点分析子模型通过情绪分析需求特征进行级联,以获得所述观点情绪识别模型。
7.如权利要求2至6任一项所述的方法,其特征在于,在所述对于话题评论信息集中的每组待分析话题评论信息,将所述待分析话题评论信息的话题互动观点信息按照所对应的大数据话题场景进行评论文本分解处理,以获得所述待分析话题评论信息的话题互动观点信息对应的文本拆解结果之前,所述方法还包括:
获取多组在先的话题评论信息的话题互动板块信息;
根据话题互动主题的主题关注行为记录,将所述多组在先的话题评论信息的话题互动板块信息进行关注倾向分析处理,以获得每组在先的话题评论信息的话题评论质量信息,其中,所述话题评论质量信息用于从所述在先的话题评论信息筛分所述待分析话题评论信息;
根据所述多组在先的话题评论信息的话题评论质量信息,挑选部分在先的话题评论信息以作为待分析话题评论信息;
其中,所述根据所述多组在先的话题评论信息的话题评论质量信息,挑选部分在先的话题评论信息以作为待分析话题评论信息,包括以下至少之一:
在所述多组在先的话题评论信息中,挑选话题评论质量信息对应的评论质量量化值高于预设质量判定值的部分在先的话题评论信息以作为待分析话题评论信息;
根据所述多组在先的话题评论信息的话题评论质量信息对应的评论质量量化值,将所述多组在先的话题评论信息进行由高到低排序,并挑选排序靠前的、且数目为设定数目的部分在先的话题评论信息以作为待分析话题评论信息。
8.如权利要求2至6任一项所述的方法,其特征在于,所述在多组所述非显著性观点信息内容块中,根据所述非显著性观点信息内容块之间的内容相关性分析结果,挑选部分所述非显著性观点信息内容块以作为待使用的观点信息内容块,包括:
确定所述多组非显著性观点信息内容块的内容收藏次数,并将内容收藏次数低于设定收藏次数的非显著性观点信息内容块进行清洗;
将清洗后存留的非显著性观点信息内容块进行合并,以获得非显著性观点信息内容序列;
确定所述非显著性观点信息内容序列中随机两组非显著性观点信息内容块之间的内容相关性分析结果;
根据所述随机两组非显著性观点信息内容块之间的内容相关性分析结果,确定所述非显著性观点信息内容序列中的每一组非显著性观点信息内容块与所述非显著性观点信息内容序列的局部内容相关性分析结果;
根据所述局部内容相关性分析结果,将所述非显著性观点信息内容序列中的非显著性观点信息内容块按照对应于所述局部内容相关性分析结果的内容相关度进行由高到低排序,并挑选排序靠前的部分非显著性观点信息内容块以作为待使用的观点信息内容块。
9.如权利要求2所述的方法,其特征在于,基于所述训练完成的观点情绪识别模型对采集到的待处理评论内容进行情绪极性检测,得到情绪极性检测结果;在所述情绪极性检测结果表征所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容,包括:
对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别和观点回复操作识别,得到针对观点输出操作的识别结果集和针对观点回复操作的识别结果集;
基于训练完成的观点情绪识别模型的第一观点分析子模型,对所述针对观点输出操作的识别结果集进行第一结果更正处理,得到包括有观点输出操作标签的第一情绪极性检测结果;
基于训练完成的观点情绪识别模型的第二观点分析子模型,对所述针对观点回复操作的识别结果集进行第二结果更正处理,得到包括有观点回复操作标签的第二情绪极性检测结果;
基于所述第一情绪极性检测结果和所述第二情绪极性检测结果进行检测结果融合,得到与所述待处理评论内容对应的最终情绪极性检测结果;
从所述最终情绪极性检测结果中提取多个极性检测关键描述,对所述多个极性检测关键描述进行划分,得到极性检测关键描述的划分结果;
在根据所述划分结果判定出所述待处理评论内容是消极情绪极性时,关联标记所述待处理评论内容;
其中,所述对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别和观点回复操作识别,得到针对观点输出操作的识别结果集和针对观点回复操作的识别结果集,包括:
对所述待处理评论内容中的多个话题评论语句分别进行观点输出操作识别,得到各个话题评论语句中的观点输出操作识别信息、以及各观点输出操作识别信息所对应的话题项目特征;
基于各话题评论语句中的观点输出操作识别信息和相应的话题项目特征,确定针对观点输出操作的识别结果集;
对所述待处理评论内容中的多个话题评论语句分别进行观点回复操作识别,得到针对观点回复操作的识别结果集;
其中,所述对所述待处理评论内容中的多个话题评论语句分别进行观点回复操作识别,得到针对观点回复操作的识别结果集,包括:
对所述待处理评论内容中的多个话题评论语句分别进行即时回复操作识别,得到各话题评论语句分别对应的即时回复操作记录;
对所述待处理评论内容中的多个话题评论语句分别进行延时回复操作识别,得到各话题评论语句分别对应的延时回复操作记录;
将对应于同一话题评论语句的即时回复操作记录和延时回复操作记录进行整合;
基于所述待处理评论内容中与目标即时回复操作记录相整合的延时回复操作记录进行观点回复操作识别处理,得到针对观点回复操作的识别结果集。
10.一种人工智能服务器,其特征在于,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行权利要求1-9任一项所述的方法。
CN202110770343.6A 2021-07-08 2021-07-08 结合深度学习的大数据话题评论情绪分析方法及服务器 Withdrawn CN113282715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110770343.6A CN113282715A (zh) 2021-07-08 2021-07-08 结合深度学习的大数据话题评论情绪分析方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110770343.6A CN113282715A (zh) 2021-07-08 2021-07-08 结合深度学习的大数据话题评论情绪分析方法及服务器

Publications (1)

Publication Number Publication Date
CN113282715A true CN113282715A (zh) 2021-08-20

Family

ID=77286512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110770343.6A Withdrawn CN113282715A (zh) 2021-07-08 2021-07-08 结合深度学习的大数据话题评论情绪分析方法及服务器

Country Status (1)

Country Link
CN (1) CN113282715A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062586A (zh) * 2022-08-08 2022-09-16 山东展望信息科技股份有限公司 一种基于大数据和人工智能的热点话题处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062586A (zh) * 2022-08-08 2022-09-16 山东展望信息科技股份有限公司 一种基于大数据和人工智能的热点话题处理方法
CN115062586B (zh) * 2022-08-08 2023-06-23 山东展望信息科技股份有限公司 一种基于大数据和人工智能的热点话题处理方法

Similar Documents

Publication Publication Date Title
CN111666761B (zh) 细粒度情感分析模型训练方法及装置
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN108614855A (zh) 一种谣言识别方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110717325A (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN110782892B (zh) 语音文本纠错方法
CN111291187B (zh) 一种情感分析方法、装置、电子设备及存储介质
CN114880478B (zh) 基于主题信息增强的弱监督方面类别检测方法
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112468659A (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN112711693B (zh) 一种基于多特征融合的诉讼线索挖掘方法及系统
CN114095282A (zh) 一种基于短文本特征提取的风控处理方法及设备
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
CN116542297A (zh) 基于文本数据训练生成对抗网络的方法及装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN113282715A (zh) 结合深度学习的大数据话题评论情绪分析方法及服务器
CN108509588B (zh) 一种基于大数据的律师评估方法及推荐方法
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN113705207A (zh) 语法错误识别方法及装置
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN111400496B (zh) 一种面向用户行为分析的大众口碑情感分析方法
CN110543636B (zh) 一种对话系统的训练数据选择方法
CN114036283A (zh) 一种文本匹配的方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210820

WW01 Invention patent application withdrawn after publication