发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的情感标识的辨识方案,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
有鉴于此,根据本发明的第一方面的实施例,提出了一种情感标识的辨识方法,包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体包括以下步骤:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,∑k是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×∑k×Vk T。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
根据本发明的第二方面的实施例,提出了一种情感标识的辨识系统,包括:确定单元,用于根据情感标识的使用频率确定种子词和种子词对应的文本集合;确定单元还用于:在对应的文本集合中确定候选词语;确定单元还用于:根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,确定单元还用于:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;确定单元还用于:计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);确定单元还用于:计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;确定单元还用于:根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定单元还用于:确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,还包括:创建单元,用于创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定单元还用于:确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;确定单元还用于:根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,还包括:空间变化单元,用于根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,∑k是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×∑k×Vk T。
在上述任一项技术方案中,优选地,确定单元还用于:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
通过以上技术方案,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的情感标识的辨识方法的示意流程图。
如图1所示,根据本发明的实施例的情感标识的辨识方法,包括:步骤102,根据情感标识的使用频率确定种子词和种子词对应的文本集合;步骤104,在对应的文本集合中确定候选词语;步骤106,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体包括以下步骤:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,∑k是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×∑k×Vk T。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
图2示出了根据本发明的一个实施例的情感标识的辨识系统的示意框图。
如图2所示,根据本发明的一个实施例的情感标识的辨识系统200,包括:确定单元202,用于根据情感标识的使用频率确定种子词和种子词对应的文本集合;确定单元202还用于:在对应的文本集合中确定候选词语;确定单元202还用于:根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,确定单元202还用于:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;确定单元202还用于:计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);确定单元202还用于:计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;确定单元202还用于:根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定单元202还用于:确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,还包括:创建单元204,用于创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定单元202还用于:确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;确定单元202还用于:根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,还包括:空间变化单元206,用于根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,Σk是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×Σk×Vk T。
在上述任一项技术方案中,优选地,确定单元202还用于:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
图3示出了根据本发明的另一个实施例的情感标识的辨识系统的示意框图。
如图3所示,根据本发明的另一个实施例的情感标识的辨识系统300,包括:文本采集模块302、种子词生成模块304、情感词扩展模块306和人工校验模块308。
(1)文本采集模块302用于:确定特定领域,也即文本情感分析的应用领域,比如网民购买商品后的评论、网民对社会民生事件的评论等等。确定领域之后,通过网络爬虫对特定领域相关的评论文本进行定向采集。
例如,对于商品评论内容,因为评论通常集中在某些固定的购物网站,可以采集某一段时间段某一类商品的所有评论。对于网络舆情事件,如微博等社交网络上的讨论和评论内容,由于社交网络数据大,内容纷繁复杂且噪音多,可采用在某一段时间内由关键词词组定义的某一类事件过滤出事件相关的微博文本。
(2)情感种子词生成模块304用于:分析领域相关评论文本中具有强烈感情色彩的词汇。情感种子词是在领域内有明确的褒贬倾向,而且是较为常用的词。有些词的情感倾向非常明确,但与领域的相关度很低,被使用的概率比较低,那么这些词的敏感度就会降低,可能与绝大多数词的语义相似度都较小。比如,“温文尔雅”是个正面的词,属于成语,偏书面用,但在商品评论里几乎不会有人使用这个词。
生成情感种子词的文本集合,首先通过特定领域的文本采集模块302得到特定领域语料库,经过去噪、去重、分词和词性标注等处理,统计其中高频的形容词和副词,如果是社交媒体文本,情感标识还包括表情符号。候选词汇作为潜在的种子词,需要对候选词汇诸如形容词、副词、以及表情符号按词频降序排列。如果是商品评论并且有商品的打分数据,可进一步根据词所对应文本的打分得到情感词的极性。最后,对长度不超过100的高频修饰词表,经人工干预的手段,挑选种子词,并标记其情感极性。
(3)候情感词扩展模块306用于:利用大规模的无标注的文本集合,结合情感种子词,通过分析不同词之间的统计特征、语义关联特征实现情感词的扩展。
(4)人工校验模块308用于:对情感种子词的候选词、扩展得到的情感词列表进行人工校验。需要指出的是此处的人工校验是针对已经排序的候选列表,通常比较正确的情感词都出现在列表中排名靠前,所以所需的人工筛选工作量是极少的。
由于领域情感词数目有限,不同的情感种子词扩展出的情感词存在交叉重复的可能,可以利用这一特性,在遍历不同种子词的扩展集时,自动排除已经通过人工审核的词,这样进一步减少人工干预的程度。
情感词扩展集审核去重:假设情感种子词集合为{Si},经上述算法自动得到情感词扩展集合T1,再经人工校验得到情感词集R1;S2经上述算法自动得到情感词扩展集合T1,从中扣除已知情感词,只需对(T1-R1)集合进行人工校验,得到T2,依次类推。
图4示出了根据本发明的另一个实施例的情感标识的辨识方法的示意流程图。
如图4所示,根据本发明的另一个实施例的情感标识的辨识方法,包括:步骤402,根据情感标识所在领域确定文本集合,对文本集合进行去噪和分词等预处理,并进行词频统计和词性标注,经过人工干预得到种子词;步骤404,特征统计步骤406,语义统计;步骤408,候选情感词列表,经过人工干预筛选得到该领域内的情感词。
以上结合附图详细说明了本发明的技术方案,考虑到如何提高情感标识的辨识的准确性成的技术问题。因此,本发明提出了一种新的情感标识的辨识方案,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。