CN108255805B - 舆情分析方法及装置、存储介质、电子设备 - Google Patents
舆情分析方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN108255805B CN108255805B CN201711328767.7A CN201711328767A CN108255805B CN 108255805 B CN108255805 B CN 108255805B CN 201711328767 A CN201711328767 A CN 201711328767A CN 108255805 B CN108255805 B CN 108255805B
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- target
- vector
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本公开提供一种舆情分析方法及装置、存储介质、电子设备。该方法包括:获取待分析语音数据,将所述待分析语音数据转换为待分析文本,并从所述待分析文本中确定出与预设话题相符的目标话题;从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量;从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量;将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。如此方案,实现过程简单方便,省时省力,还有助于提高舆情分析的准确度和全面性。
Description
技术领域
本公开涉及语音信号处理技术领域,具体地,涉及一种舆情分析方法及装置、存储介质、电子设备。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。舆情是民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
对大量舆情信息进行及时有效的监测分析,对于掌握事件的发展动态和趋势,以便及时采取有效措施起着重要的现实意义。现有的舆情分析方法,主要基于互联网上的各种文本信息实现,例如,可以从论坛、微博、博客、新闻评论等出处获取文本信息,进行舆情分析,得到文本信息对应的情感类别。
具体地,可以预先汇总表示情感类别的情感词汇,并整理出词性、句法、语法等规则信息,如此,在获得文本信息后,可以基于已知情感词汇和规则信息确定出该文本信息对应的情感类别。
该方法虽然实现简单,但前期需要耗费大量的人力、时间,基于海量数据汇总出情感词汇和规则信息,且随着新的情感词汇的出现,还需要进行持续更新。
发明内容
本公开的主要目的是提供一种舆情分析方法及装置、存储介质、电子设备,基于语音数据实现舆情分析,省时省力,且有助于提高舆情分析的准确度和全面性。
为了实现上述目的,本公开提供一种舆情分析方法,所述方法包括:
获取待分析语音数据,将所述待分析语音数据转换为待分析文本,并从所述待分析文本中确定出与预设话题相符的目标话题;
从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量;
从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量;
将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。
可选地,所述从所述待分析文本中确定出与预设话题相符的目标话题,包括:
对所述待分析文本进行话题分割,得到至少一个待识别话题;
确定每个待识别话题的话题类别,将与所述预设话题的话题类别相同的待识别话题,确定为所述目标话题。
可选地,所述提取所述目标文本片段中每个单词的词向量,包括:
对所述目标文本片段进行分词处理,得到至少一个文字类单词;
对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到至少一个符号类单词;
提取每个文字类单词、以及每个符号类单词的词向量。
可选地,所述词向量包括当前单词wi的本身词向量e(wi),以及以下词向量中的至少一个:
表示所述当前单词wi上文信息的上文词向量cl(wi)、表示所述当前单词wi下文信息的下文词向量cr(wi)。
可选地,如果所述情感判别模型的拓扑结构为卷积神经网络或者循环卷积神经网络,所述将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别,包括:
将所述词向量和所述条件信息向量作为输入,经神经网络的卷积层处理后,得到每个单词的特征映射值;
将所述每个单词的特征映射值作为输入,经所述神经网络的池化层进行池化处理后,输出至所述神经网络的输出层,由所述输出层确定出所述目标话题对应的情感类别。
可选地,在进行池化处理之前,所述方法还包括:
拼接所述条件信息向量和所述每个单词的特征映射值,获得拼接向量,再由所述池化层对所述拼接向量进行池化处理。
可选地,所述方法还包括:
对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到所述目标文本片段的标点类别向量,作为所述目标话题的条件信息向量。
本公开提供一种舆情分析装置,所述装置包括:
待分析文本转换模块,用于获取待分析语音数据,将所述待分析语音数据转换为待分析文本;
目标话题确定模块,用于从所述待分析文本中确定出与预设话题相符的目标话题;
词向量提取模块,用于从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量;
条件信息向量提取模块,用于从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量;
情感类别确定模块,用于将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。
可选地,所述目标话题确定模块,用于对所述待分析文本进行话题分割,得到至少一个待识别话题;确定每个待识别话题的话题类别,将与所述预设话题的话题类别相同的待识别话题,确定为所述目标话题。
可选地,所述词向量提取模块,用于对所述目标文本片段进行分词处理,得到至少一个文字类单词;对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到至少一个符号类单词;提取每个文字类单词、以及每个符号类单词的词向量。
可选地,所述词向量包括当前单词wi的本身词向量e(wi),以及以下词向量中的至少一个:
表示所述当前单词wi上文信息的上文词向量cl(wi)、表示所述当前单词wi下文信息的下文词向量cr(wi)。
可选地,如果所述情感判别模型的拓扑结构为卷积神经网络或者循环卷积神经网络,所述情感类别确定模块包括:
卷积处理模块,用于将所述词向量和所述条件信息向量作为输入,经神经网络的卷积层处理后,得到每个单词的特征映射值;
池化处理模块,用于将所述每个单词的特征映射值作为输入,经所述神经网络的池化层进行池化处理后,输出至所述神经网络的输出层;
情感类别确定子模块,用于由所述输出层确定出所述目标话题对应的情感类别。
可选地,所述情感类别确定模块还包括:
拼接向量获得模块,用于拼接所述条件信息向量和所述每个单词的特征映射值,获得拼接向量,再由所述池化处理模块对所述拼接向量进行池化处理。
可选地,所述条件信息向量提取模块,还用于对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到所述目标文本片段的标点类别向量,作为所述目标话题的条件信息向量。
本公开提供一种存储设备,其中存储有多条指令,所述指令由处理器加载,执行上述舆情分析方法的步骤。
本公开提供一种电子设备,所述电子设备包括;
上述的存储设备;以及
处理器,用于执行所述存储设备中的指令。
本公开方案可以基于待分析语音数据进行舆情分析。首先,将待分析语音数据转换成待分析文本,并从待分析文本中确定出目标话题,如此,可以针对目标话题分割出以下两种类型的片段:一种是从待分析文本中分割出的目标文本片段,可以据此提取出每个单词的词向量;另一种是从待分析语音数据中分割出的目标语音片段,可以据此进行情感分析得到目标语音片段的情感类别向量,作为目标话题的条件信息向量;其次,可以将词向量和条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出目标话题对应的情感类别。如此,基于语音数据实现的舆情分析,实现过程简单方便,省时省力,还有助于提高舆情分析的准确度和全面性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本公开方案舆情分析方法的流程示意图;
图2为本公开方案中循环卷积神经网络的模型结构示意图;
图3为本公开方案中条件信息向量的构成示意图;
图4为本公开方案中确定目标话题的流程示意图;
图5为本公开方案舆情分析装置的构成示意图;
图6为本公开方案用于舆情分析的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
参见图1,示出了本公开舆情分析方法的流程示意图。可以包括以下步骤:
S101,获取待分析语音数据,将所述待分析语音数据转换为待分析文本,并从所述待分析文本中确定出与预设话题相符的目标话题。
现有技术均是针对文本信息进行的舆情分析,形式单一,容易造成舆情分析的信息缺失和遗漏,影响舆情分析结果的全面性和准确性。此外,结合实际应用,考虑到语音本身包含了丰富的情感信息,且语音中句子的语气与其包含的情感信息之间具有强相关性,本公开方案提供一种可以结合语音数据进行舆情分析的方法,有助于提高舆情分析的准确度和全面性。
作为一种示例,本公开方案中的待分析语音数据,可以是互联网音视频中的语音、客服电话录音、演讲录音、访谈录音、会议录音等语音数据,本公开方案对待分析语音数据的具体形式、来源等可不做具体限定。
获得待分析语音数据后,可以先对其进行语音识别,转换成待分析文本,再从待分析文本中确定出与预设话题相符的目标话题。作为一种示例,可以采用基于深度卷积神经网络的大规模连续语音识别技术,对待分析语音数据进行转写,得到待分析文本,具体过程可参照相关技术实现,此处不做详述。
结合实际应用可知,待分析文本可能不止包含一个话题,且相同话题不一定连续出现,例如,某条会议录音中,先总结分析了当前业务情况,又讨论了即将组织的集体活动,最后又对当前业务情况作了补充总结,此时转换得到的待分析文本就存在话题丰富且不连贯等问题。针对于此,本公开方案可以对待分析文本进行话题分割与话题识别,以便从中确定出与预设话题相符的目标话题,进行后续处理,具体实现过程可参见下文图4处所做介绍,此处暂不详述。
可以理解地,在进行舆情分析之前,可以预先设置一些预设话题,即主要针对哪些话题进行舆情分析。举例来说,预设话题可以是当前热点话题、与人们日常生活相关的话题等,本公开方案对此可不做具体限定。
S102,从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量。
可以理解地,对待分析文本进行话题分割时,便可确定出每个话题对应的文本片段,故确定出目标话题后,即可确定出目标话题对应的目标文本片段。
作为一种示例,可以对目标文本片段进行分词处理,得到至少一个文字类单词,然后提取每个文字类单词的词向量。
作为一种示例,考虑到句子结束位置的标点符号,例如句号、问号、感叹号等,也可在一定程度上反映说话人的情感倾向,故除了分词处理得到至少一个文字类单词外,还可以对目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到至少一个符号类单词,即,句子结束位置的标点符号也可视为一个单词,然后按照文字类单词、符号类单词在目标文本片段中的位置,得到目标文本片段的单词序列{w1,w2,…,wi,…,wn},再提取每个单词的词向量,其中,wi表示目标文本片段的第i个单词。
例如,可以采用自动标注的方法,通过预先构建的分句模型对目标文本片段进行自动打标点,实现分句,具体可参照相关技术实现,本公开方案对此不做详述。
本公开方案对目标文本片段的单词类型、分词处理分句处理的执行顺序、分句处理采用的方式等,可不做限定,具体可结合实际应用需求确定。
作为一种示例,当前单词wi的词向量可以是本身词向量e(wi),即,当前单词wi的向量化表示。或者,当前单词wi的词向量可以本身词向量e(wi),以及以下词向量中的至少一个:表示当前单词wi上文信息的上文词向量cl(wi)、表示当前单词wi下文信息的下文词向量cr(wi),即,除当前单词wi的向量化表示之外,还可以包括当前单词wi的上文表示和/或下文表示。
对于wi的本身词向量e(wi)可作如下说明:
作为一种示例,可以采用多粒度词汇嵌入建模方法预先构建词向量化模型,由模型处理得到目标文本片段中每个单词的本身词向量。需要说明的是,该方法的建模单元粒度可以是单词级别,也可以细化到单字级别和汉字的偏旁部首级别,具体可根据语种确定建模单元粒度,例如,针对英语,可以细化到词根级别,本公开方案对此可不做具体限定。设置为更细化的粒度,有助于提取到更为丰富的词向量信息。词向量化模型的构建过程可参照相关技术实现,本公开方案对此可不做详述。
作为一种示例,还可以通过其它向量化方法提取单词的本身词向量,例如,可以采用word2vec方法,本公开方案对此可不做具体限定。
对于wi的上下文词向量cl(wi)、cr(wi)可作如下说明:
作为一种示例,wi的上文词向量cl(wi)可以是wi-1~w1中至少一个连续单词的向量化表示,wi的下文词向量cr(wi)可以是wi+1~wn中至少一个连续单词的向量化表示;或者,可以按照图2所示卷积层利用双向循环结构捕捉wi的上下文词向量,其中,cl(wi)、cr(wi)均为实数向量,且向量维度均为|c|。
以组合当前词wi的前一个单词wi-1为例,如图2中向右的箭头,可以通过以下公式计算cl(wi):
其中,是非线性激活函数;e(wi)是wi的向量化表示,维度为|e|;cl(wi-1)是wi-1的上文词向量表示,维度为|c|;W(l)是一个|c|×|c|维的转移矩阵,用于将表示当前词上一个词的隐藏层转移到当前词的上文表示中,在本公式中是将wi-1的上文隐藏层转移到wi的上文表示中;W(sl)是一个|e|×|c|维的矩阵,用于将当前词上一个词的语义合成到当前词的上文表示中,在本公式中是将wi-1的语义合成到wi的上文表示中;|c|、|e|的维度可以根据实际应用需求确定。
以组合当前词wi的后一个单词wi+1为例,如图2中向左的箭头,可以通过以下公式计算cr(wi):
其中,cr(wi+1)是wi+1的下文词向量表示,维度为|c|;W(r)是一个|c|×|c|维的矩阵,用于将表示当前词下一个词的隐藏层转移到当前词的下文表示中,在本公式中是将wi+1的下文隐藏层转移到wi的下文表示中;W(sr)是一个|e|×|c|维的矩阵,用于将当前词下一个词的语义合成到当前词的下文表示中,在本公式中是将wi+1的语义合成到wi的下文表示中。
S103,从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量。
作为一种示例,可以基于待分析语音数据、待分析文本之间的对应关系,从待分析语音数据中确定出目标话题对应的目标语音片段,用于进行情感分析,本公开方案对从待分析语音数据中分割出目标语音片段的方式可不做具体限定。
作为一种示例,本公开方案中的情感分析可以划分出正面、负面2种情感类别;或者,可以划分出正面、负面、中性3种情感类别;或者,可以划分出高兴、愤怒、低沉、平静等更为细化的情感类别,具体可结合实际应用需求设置,本公开方案对此可不做限定。
作为一种示例,可以利用预先构建的情感分析模型对目标语音片段进行情感分析。例如,可以对目标语音片段进行分句处理,提取每个句子的声学情感特征,得到目标语音片段的情感特征向量序列;将所述目标语音片段的情感特征向量序列作为输入,经情感分析模型处理后输出每个句子对应的情感类别。其中,声学情感特征可以体现为语速、频谱特征等。本公开方案对情感分析采用的方法、情感分析模型的构建过程、声学情感特征的表现形式等可不做限定,具体可结合相关技术实现,此处不做详述。
作为一种示例,目标话题的条件信息向量可以体现为每个单词的情感类别向量,其中,单词wi的情感类别向量可以体现为单词wi所在句子的情感类别向量。以包含正面、中性、负面3种情感类别为例,可以用不同的标识符表示这3种情感类别,即单词的情感类别向量可以是一维的,例如,可以用标识符“3”表示中性情感类别。或者,单词的情感类别向量可以是三维的,如图3所示示例,自左向右分别表示正面、中性、负面,每个维度可以设置默认值,例如默认值为“0”,需要表示具体情感类别时,可以修改对应维度的默认值,例如修改为“1”,若单词wi的情感类别为负面,则单词wi的条件信息向量s(wi)可以表示为[0,0,1]。
如上文所做介绍,标点符号也可在一定程度上反映说话人的情感倾向,故本公开方案还可以对目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到目标文本片段的标点类别向量。对应于此,目标话题的条件信息向量可以体现为每个单词的情感类别向量、以及每个单词的标点类别向量。其中,单词wi的标点类别向量可以体现为单词wi所在句子的标点类别向量。以包含感叹号、句号、问号3种标点类别为例,可以用不同的标识符表示这3种标点类别,即单词的标点类别向量是一维的,例如,可以用标识符“2”表示一句话的标点类别。或者,单词的标点类别向量可以是三维的,如图3所示示例,自左向右分别表示感叹号、句号、问号,每个维度可以设置默认值,例如默认值为“0”,需要表示具体标点类别时,可以修改对应维度的默认值,例如修改为“1”,若单词wi的情感类别为负面、标点类别为问号,则单词wi的条件信息向量S(wi)可以表示为[0,0,1,0,0,1]。
本公开方案对条件信息向量的表现形式、单词的情感类别向量的表现形式、单词的标点类别向量的表现形式等,可不做具体限定,可结合实际应用需求设置。
作为一种示例,可以如图1所示,先分割出目标文本片段,并提取目标文本片段中每个单词的词向量,再分割出目标语音片段,并提取目标语音片段的情感类别向量;或者,也可以按照其他顺序执行,本公开方案对S102、S103的执行顺序可不做具体限定,只要获得词向量、情感类别向量即可。
S104,将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。
获得词向量、条件信息向量后,可以利用预先构建的情感判别模型进行模型处理,确定出目标话题对应的情感类别。
举例来说,如果目标话题对应一个片段,则可将模型输出的情感类别,确定为目标话题对应的情感类别。
举例来说,如果目标话题对应至少两个不连续出现的片段,则可按以下方式确定目标话题对应的情感类别:
一、将至少两个不连续出现的片段拼接起来,得到一个拼接片段,利用本公开方案预测该拼接片段的情感类别,并据此得到目标话题对应的情感类别。可以理解地,本公开方案中的拼接指的是:可以拼接至少两个不连续出现的目标文本片段,得到一个拼接文本片段;同时,还可以拼接至少两个不连续出现的目标语音片段,得到一个拼接语音片段。
二、利用本公开方案分别预测每个片段的情感类别,将预测结果中出现次数最多的情感类别,确定为目标话题对应的情感类别;若预测结果中不同情感类别出现的次数相同,则可根据其他规则确定目标话题对应的情感类别,例如,其他规则可以是从中随机选择一个情感类别,作为目标话题对应的情感类别,本公开方案对此可不做具体限定。
作为一种示例,本公开方案的情感判别模型的拓扑结构可以体现为:RNN(英文:Recurrent neural Network,中文:循环神经网络)、DNN(英文:Deep Neural Network,中文:深度神经网络)、CNN(英文:Convolutional Neural Network,中文:卷积神经网络)、RCNN(英文:Recurrent Convolutional Neural Network,中文:循环卷积神经网络)。以拓扑结构RCNN为例,模型可以如图2所示包括:循环结构卷积层、池化层、全连接层、逻辑回归层,下面分别进行解释说明。
(1)循环结构卷积层
可以将单词的词向量、条件信息向量作为输入,经神经网络的卷积层处理后,得到每个单词的特征映射值。
具体地,对于单词wi来说,可以拼接上文词向量cl(wi)、本身词向量e(wi)、下文词向量cr(wi)、条件信息向量s(wi),作为卷积层的输入,可以表示为以下公式:
xi=[cl(wi);e(wi);cr(wi);s(wi)]
本公开方案中,为了获得更大范围的上下文信息,可以使用循环结构,进行一次正向(从左往右)扫描,获得所有的上文表示cl;和/或,进行一次反向(从右往左)扫描,获得所有的下文表示cr,通过循环结构可以构建出整个目标文本片段的情感语义表示。
作为一种示例,得到单词wi的表示xi之后,可以对xi做一次线性变换,再通过一个非线性激活函数,如双曲正切函数tanh,得到单词wi的特征映射(feature map),可以体现为以下公式:
(2)池化层
获得每个单词的特征映射值或者拼接向量后,可以通过池化层进行池化处理,将不同长度的目标文本片段转换成固定长度的向量,作为一种示例,可以采用最大池化、均值池化等技术实现池化处理,本公开方案对此可不做具体限定。以最大池化为例,可以体现为以下公式:
(3)全连接层
全连接层也是神经网络的输出层,经由全连接层可以确定出目标话题对应的情感类别,可以体现为以下公式:
y(4)=W(4)y(3)+b(4)
其中,W(4)是输出层转移矩阵,b(4)是输出层偏置项,均可通过模型训练获得。
可以理解地,全连接层的节点数与要分类的情感类别数相同。
(4)逻辑回归层
作为一种示例,可以直接将全连接层的输出作为模型的输出;或者,还可以通过逻辑回归层对全连接层的输出进行逻辑归一化处理,转换为各情感类别对应的概率,即,神经网络的输出层还可包含逻辑回归层。
举例来说,可以使用softmax回归方法将全连接层的输出值转换为概率值,可以体现为以下公式:
其中,P(i|D,θ,s)是加入条件信息向量s(wi)后,目标文本片段D的情感类别属于k的概率;θ是神经网络的参数,例如,神经网络相邻层节点之间的权重值,可通过模型训练获得。
可以比较各情感类别对应的softmax输出概率大小,将其中最大概率对应的情感类别作为模型输出的情感类别。
下面对本公开方案中确定目标话题的过程进行解释说明。
参见图4,示出了本公开中确定目标话题的流程示意图。可以包括以下步骤:
S201,对所述待分析文本进行话题分割,得到至少一个待识别话题。
作为一种示例,可以采用无监督文本话题分割方法、有监督文本话题分割方法,对待分析文本进行话题分割,本公开方案对此可不做具体限定。
下面以无监督文本话题分割方法中的LDA(英文:Latent Dirichlet Allocation,中文:潜在狄利克雷分布)为例,对话题分割过程进行简单介绍:
首先对待分析文本进行分词处理,得到待分析文本对应的词序列;然后以句子为单位,利用事先计算好的LDA模型对每个句子对应的词序列进行概率预测;最后根据所述概率计算任意两个句子之间的相似度simcos,并结合预设门限值判断这两个句子是否属于相同话题,所述相似度计算方法可参照相关技术实现,此处不做详述。
如果句子s1与s2之间的相似度simcos不低于预设门限值,则判定二者属于同一个话题。如此循环往复,直至确定出待分析文本中针对相同话题的所有句子,完成话题分割。
作为一种示例,为了保证每个话题的连续性,可以将连续的至少一个句子划分为一个话题,例如,句子s1和句子s3均属于话题A,句子s2属于话题B,且s1~s3为连续的句子,则可将句子s1~s3划分到一个相同话题A。
S202,确定每个待识别话题的话题类别,将与所述预设话题的话题类别相同的待识别话题,确定为所述目标话题。
本公开方案中,可以结合实际应用需求预先确定一些话题类别,例如,安全领域关注的是与犯罪活动相关的话题,可以确定出吸贩毒、拐卖、走私等话题类别,本公开方案对话题类别可不做具体限定。
作为一种示例,可以通过预设规则确定待识别话题的话题类别,例如,可以针对不同话题类别汇总一些对应的关联关键词,预设规则可以是:判断待识别话题中出现哪种话题类别的关联关键词次数最多,则将该话题类别作为待识别话题的话题类别。
作为一种示例,可以预先构建话题识别模型,将待识别话题作为输入,经模型处理后确定出待识别话题的话题类别。话题识别模型的构建过程可参照相关技术实现,此处不做详述。
本公开方案对确定待识别话题的话题类别的方式可不做具体限定,获得待识别话题的话题类别后,可以通过匹配话题类别的方式,从待分析文本中确定出目标话题,即,将与预设话题的话题类别相同的待识别话题确定为目标话题。
参见图5,示出了本公开舆情分析装置的构成示意图。所述装置可以包括:
待分析文本转换模块301,用于获取待分析语音数据,将所述待分析语音数据转换为待分析文本;
目标话题确定模块302,用于从所述待分析文本中确定出与预设话题相符的目标话题;
词向量提取模块303,用于从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量;
条件信息向量提取模块304,用于从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量;
情感类别确定模块305,用于将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。
可选地,所述目标话题确定模块,用于对所述待分析文本进行话题分割,得到至少一个待识别话题;确定每个待识别话题的话题类别,将与所述预设话题的话题类别相同的待识别话题,确定为所述目标话题。
可选地,所述词向量提取模块,用于对所述目标文本片段进行分词处理,得到至少一个文字类单词;对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到至少一个符号类单词;提取每个文字类单词、以及每个符号类单词的词向量。
可选地,所述词向量包括当前单词wi的本身词向量e(wi),以及以下词向量中的至少一个:
表示所述当前单词wi上文信息的上文词向量cl(wi)、表示所述当前单词wi下文信息的下文词向量cr(wi)。
可选地,如果所述情感判别模型的拓扑结构为卷积神经网络或者循环卷积神经网络,所述情感类别确定模块包括:
卷积处理模块,用于将所述词向量和所述条件信息向量作为输入,经神经网络的卷积层处理后,得到每个单词的特征映射值;
池化处理模块,用于将所述每个单词的特征映射值作为输入,经所述神经网络的池化层进行池化处理后,输出至所述神经网络的输出层;
情感类别确定子模块,用于由所述输出层确定出所述目标话题对应的情感类别。
可选地,所述情感类别确定模块还包括:
拼接向量获得模块,用于拼接所述条件信息向量和所述每个单词的特征映射值,获得拼接向量,再由所述池化处理模块对所述拼接向量进行池化处理。
可选地,所述条件信息向量提取模块,还用于对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到所述目标文本片段的标点类别向量,作为所述目标话题的条件信息向量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参见图6,示出了本公开用于舆情分析的电子设备400的结构示意图。参照图6,电子设备400包括处理组件401,其进一步包括一个或多个处理器,以及由存储介质402所代表的存储设备资源,用于存储可由处理组件401的执行的指令,例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件401被配置为执行指令,以执行上述舆情分析方法。
电子设备400还可以包括一个电源组件403,被配置为执行电子设备400的电源管理;一个有线或无线网络接口404,被配置为将电子设备400连接到网络;和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (16)
1.一种舆情分析方法,其特征在于,所述方法包括:
获取待分析语音数据,将所述待分析语音数据转换为待分析文本,并从所述待分析文本中确定出与预设话题相符的目标话题;
从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量;所述词向量还包括:目标文本片段中每个句子结束位置的标点符号所对应的每个符号类单词的词向量;从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量;所述条件信息向量还包括:目标文本片段中每个句子结束位置的标点符号所对应的标点类别向量;
将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。
2.根据权利要求1所述的方法,其特征在于,所述从所述待分析文本中确定出与预设话题相符的目标话题,包括:
对所述待分析文本进行话题分割,得到至少一个待识别话题;
确定每个待识别话题的话题类别,将与所述预设话题的话题类别相同的待识别话题,确定为所述目标话题。
3.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本片段中每个单词的词向量,包括:
对所述目标文本片段进行分词处理,得到至少一个文字类单词;
对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到至少一个符号类单词;
提取每个文字类单词、以及每个符号类单词的词向量。
4.根据权利要求3所述的方法,其特征在于,所述词向量包括当前单词wi的本身词向量e(wi),以及以下词向量中的至少一个:
表示所述当前单词wi上文信息的上文词向量cl(wi)、表示所述当前单词wi下文信息的下文词向量cr(wi)。
5.根据权利要求1所述的方法,其特征在于,所述情感判别模型的拓扑结构为卷积神经网络或者循环卷积神经网络,所述将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别,包括:
将所述词向量和所述条件信息向量作为输入,经神经网络的卷积层处理后,得到每个单词的特征映射值;
将所述每个单词的特征映射值作为输入,经所述神经网络的池化层进行池化处理后,输出至所述神经网络的输出层,由所述输出层确定出所述目标话题对应的情感类别。
6.根据权利要求5所述的方法,其特征在于,在进行池化处理之前,所述方法还包括:
拼接所述条件信息向量和所述每个单词的特征映射值,获得拼接向量,再由所述池化层对所述拼接向量进行池化处理。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到所述目标文本片段的标点类别向量,作为所述目标话题的条件信息向量。
8.一种舆情分析装置,其特征在于,所述装置包括:
待分析文本转换模块,用于获取待分析语音数据,将所述待分析语音数据转换为待分析文本;
目标话题确定模块,用于从所述待分析文本中确定出与预设话题相符的目标话题;
词向量提取模块,用于从所述待分析文本中分割出所述目标话题对应的目标文本片段,并提取所述目标文本片段中每个单词的词向量;所述词向量还包括:目标文本片段中每个句子结束位置的标点符号所对应的每个符号类单词的词向量;
条件信息向量提取模块,用于从所述待分析语音数据中分割出所述目标话题对应的目标语音片段,并对所述目标语音片段进行情感分析,获得所述目标语音片段的情感类别向量,作为所述目标话题的条件信息向量;所述条件信息向量还包括:目标文本片段中每个句子结束位置的标点符号所对应的标点类别向量;
情感类别确定模块,用于将所述词向量和所述条件信息向量作为输入,经预先构建的情感判别模型处理后,确定出所述目标话题对应的情感类别。
9.根据权利要求8所述的装置,其特征在于,
所述目标话题确定模块,用于对所述待分析文本进行话题分割,得到至少一个待识别话题;确定每个待识别话题的话题类别,将与所述预设话题的话题类别相同的待识别话题,确定为所述目标话题。
10.根据权利要求8所述的装置,其特征在于,
所述词向量提取模块,用于对所述目标文本片段进行分词处理,得到至少一个文字类单词;对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到至少一个符号类单词;提取每个文字类单词、以及每个符号类单词的词向量。
11.根据权利要求10所述的装置,其特征在于,所述词向量包括当前单词wi的本身词向量e(wi),以及以下词向量中的至少一个:
表示所述当前单词wi上文信息的上文词向量cl(wi)、表示所述当前单词wi下文信息的下文词向量cr(wi)。
12.根据权利要求8所述的装置,其特征在于,所述情感判别模型的拓扑结构为卷积神经网络或者循环卷积神经网络,所述情感类别确定模块包括:
卷积处理模块,用于将所述词向量和所述条件信息向量作为输入,经神经网络的卷积层处理后,得到每个单词的特征映射值;
池化处理模块,用于将所述每个单词的特征映射值作为输入,经所述神经网络的池化层进行池化处理后,输出至所述神经网络的输出层;
情感类别确定子模块,用于由所述输出层确定出所述目标话题对应的情感类别。
13.根据权利要求12所述的装置,其特征在于,所述情感类别确定模块还包括:
拼接向量获得模块,用于拼接所述条件信息向量和所述每个单词的特征映射值,获得拼接向量,再由所述池化处理模块对所述拼接向量进行池化处理。
14.根据权利要求8至13任一项所述的装置,其特征在于,
所述条件信息向量提取模块,还用于对所述目标文本片段进行分句处理,确定出每个句子结束位置的标点符号,得到所述目标文本片段的标点类别向量,作为所述目标话题的条件信息向量。
15.一种存储设备,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1至7任一项所述方法的步骤。
16.一种电子设备,其特征在于,所述电子设备包括:
权利要求15所述的存储设备;以及
处理器,用于执行所述存储设备中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711328767.7A CN108255805B (zh) | 2017-12-13 | 2017-12-13 | 舆情分析方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711328767.7A CN108255805B (zh) | 2017-12-13 | 2017-12-13 | 舆情分析方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108255805A CN108255805A (zh) | 2018-07-06 |
CN108255805B true CN108255805B (zh) | 2022-02-25 |
Family
ID=62722854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711328767.7A Active CN108255805B (zh) | 2017-12-13 | 2017-12-13 | 舆情分析方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255805B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271627B (zh) * | 2018-09-03 | 2023-09-05 | 深圳市腾讯网络信息技术有限公司 | 文本分析方法、装置、计算机设备和存储介质 |
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
CN109147775A (zh) * | 2018-10-18 | 2019-01-04 | 深圳供电局有限公司 | 一种基于神经网络的语音识别方法及装置 |
CN109299272B (zh) * | 2018-10-31 | 2021-07-30 | 北京国信云服科技有限公司 | 一种用于神经网络输入的大信息量文本表示方法 |
CN109446330B (zh) * | 2018-11-13 | 2021-05-14 | 广州虎牙科技有限公司 | 网络服务平台情感倾向识别方法、装置、设备和存储介质 |
CN109635286B (zh) * | 2018-11-26 | 2022-04-12 | 平安科技(深圳)有限公司 | 政策热点分析的方法、装置、计算机设备和存储介质 |
CN110046220A (zh) * | 2018-12-13 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 舆情信息处理方法、装置、设备及计算机可读存储介质 |
CN111401069A (zh) * | 2018-12-27 | 2020-07-10 | 深圳市优必选科技有限公司 | 会话文本的意图识别方法、意图识别装置及终端 |
CN109754648A (zh) * | 2019-03-06 | 2019-05-14 | 北京大学第一医院 | 一种分析临床访谈质量的教学方法及装置 |
CN112307200A (zh) * | 2019-07-25 | 2021-02-02 | 顺丰科技有限公司 | 情感属性获取方法、装置、设备、及存储介质 |
CN112445898A (zh) * | 2019-08-16 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 对话情感分析方法及装置、存储介质及处理器 |
CN110489559A (zh) * | 2019-08-28 | 2019-11-22 | 北京达佳互联信息技术有限公司 | 一种文本分类方法、装置及存储介质 |
CN111179936B (zh) * | 2019-12-03 | 2022-09-20 | 广州中汇信息科技有限公司 | 通话录音监控方法 |
CN111161728B (zh) * | 2019-12-26 | 2022-08-30 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111832317B (zh) * | 2020-07-09 | 2023-08-18 | 广州市炎华网络科技有限公司 | 智能信息导流方法、装置、计算机设备及可读存储介质 |
CN111784492A (zh) * | 2020-07-10 | 2020-10-16 | 讯飞智元信息科技有限公司 | 舆情分析和财务预警方法、装置、电子设备和存储介质 |
CN113223499B (zh) * | 2021-04-12 | 2022-11-04 | 青岛信芯微电子科技股份有限公司 | 一种音频负样本的生成方法及装置 |
CN113609390A (zh) * | 2021-08-06 | 2021-11-05 | 北京金堤征信服务有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN114218381B (zh) * | 2021-12-08 | 2022-08-30 | 北京中科闻歌科技股份有限公司 | 立场识别方法、装置、设备及介质 |
CN117422063B (zh) * | 2023-12-18 | 2024-02-23 | 四川省大数据技术服务中心 | 应用智能辅助决策的大数据处理方法及智能辅助决策系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN103559233A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及系统 |
CN103811009A (zh) * | 2014-03-13 | 2014-05-21 | 华东理工大学 | 一种基于语音分析的智能电话客服系统 |
CN104102627A (zh) * | 2014-07-11 | 2014-10-15 | 合肥工业大学 | 一种多模态的非接触情感分析记录系统 |
CN105244029A (zh) * | 2015-08-28 | 2016-01-13 | 科大讯飞股份有限公司 | 语音识别后处理方法及系统 |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析系统及其方法 |
CN106782615A (zh) * | 2016-12-20 | 2017-05-31 | 科大讯飞股份有限公司 | 语音数据情感检测方法和装置及系统 |
CN107341145A (zh) * | 2017-06-21 | 2017-11-10 | 华中科技大学 | 一种基于深度学习的用户情感分析方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358523A1 (en) * | 2013-05-30 | 2014-12-04 | Wright State University | Topic-specific sentiment extraction |
US10706367B2 (en) * | 2013-09-10 | 2020-07-07 | Facebook, Inc. | Sentiment polarity for users of a social networking system |
CN106528530A (zh) * | 2016-10-24 | 2017-03-22 | 北京光年无限科技有限公司 | 一种确定句子类型的方法及装置 |
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
-
2017
- 2017-12-13 CN CN201711328767.7A patent/CN108255805B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN103559233A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及系统 |
CN103811009A (zh) * | 2014-03-13 | 2014-05-21 | 华东理工大学 | 一种基于语音分析的智能电话客服系统 |
CN104102627A (zh) * | 2014-07-11 | 2014-10-15 | 合肥工业大学 | 一种多模态的非接触情感分析记录系统 |
CN105244029A (zh) * | 2015-08-28 | 2016-01-13 | 科大讯飞股份有限公司 | 语音识别后处理方法及系统 |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析系统及其方法 |
CN106782615A (zh) * | 2016-12-20 | 2017-05-31 | 科大讯飞股份有限公司 | 语音数据情感检测方法和装置及系统 |
CN107341145A (zh) * | 2017-06-21 | 2017-11-10 | 华中科技大学 | 一种基于深度学习的用户情感分析方法 |
Non-Patent Citations (1)
Title |
---|
互联网数据在舆情研判中的效用研究;杜洪涛 等;《中国软科学》;20160428(第4期);34-44 * |
Also Published As
Publication number | Publication date |
---|---|
CN108255805A (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255805B (zh) | 舆情分析方法及装置、存储介质、电子设备 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
WO2018218705A1 (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN111008274B (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
KR102041621B1 (ko) | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 | |
Shilpa et al. | Sentiment analysis using deep learning | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
Razzaq et al. | Text sentiment analysis using frequency-based vigorous features | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
Tseng et al. | Approaching Human Performance in Behavior Estimation in Couples Therapy Using Deep Sentence Embeddings. | |
El Janati et al. | Adaptive e-learning AI-powered chatbot based on multimedia indexing | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
US20230350929A1 (en) | Method and system for generating intent responses through virtual agents | |
CN115827865A (zh) | 一种融合多特征图注意力机制的不良文本分类方法及系统 | |
WO2022073341A1 (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
Ouamane et al. | Deep Reinforcement Learning Applied to NLP: A Brief Survey | |
CN111753540A (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
CN113158052B (zh) | 聊天内容推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |