CN103593334B

CN103593334B - 一种用于判断文本情感程度的方法和系统

Info

Publication number: CN103593334B
Application number: CN201210289551.5A
Authority: CN
Inventors: 杨震; 孙燚; 宁恒宇; 肖晴; 陈正文; 马晓军; 王桢; 俞惠华
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2017-07-28
Anticipated expiration: 2032-08-15
Also published as: CN103593334A

Abstract

本发明公开了一种用于判断文本情感程度的方法和系统。该方法包括由人工对少量初始语料进行标注，计算关键词的权重，并根据关键词的权重构建关键词判断矩阵。利用关键词进行检索可获得更多的语料，并利用关键词判断矩阵对所获得的语料进行自动标记。应用本方法和系统，可以对文本情感倾向和情感程度进行判断。这种判断能力和判断准确度可随着系统的应用得到不断扩展、完善和提高。第一批标注数据由工作人员完成后，后续系统能够自动标记信息，在一定或者特定情况下，仅需工作人员进行部分人工抽查或审核，因此有效降低了人力成本。本系统可用于提供对互联网或者任意待分析信息资源的情感分析，或者从互联网上获得与用户观点最接近的信息。

Description

一种用于判断文本情感程度的方法和系统

技术领域

本发明涉及智能信息处理领域，特别涉及用于判断文本情感程度的方法和系统。

背景技术

机器学习是人工智能的核心研究领域，是智能信息处理的重要手段。随着移动互联网的发展、各种类型信息的丰富和完善、手持终端计算能力的提高，人工智能技术越来越多地应用到基于互联网、移动互联网的产品开发中。机器学习可包括监督学习、非监督学习和半监督学习。

文本内容的情感分析对于理解文本内容十分重要。从认知角度看，文本的情感分析能力对于文本核心内容的提取起着重要的作用。

申请人对采用机器学习进行文本内容的情感分析的当前技术进行了深入分析。

在机器学习系统现实的应用环节，收集大量缺少标记的数据已相当容易，但是为这些数据提供标记则相当困难。造成这一问题的主要原因包括：

第一、数据分析和标记过程需要消耗大量人力物力。

第二、分析和标记过程依赖于少数领域专家来完成。

第三、分析和标记的规则统一相对困难。即便由领域专家参与，所有领域专家在某些问题上也难以完全一致。

因此，如何利用大量未标记数据来帮助提升在少量有标记数据上学得模型的泛化能力，是在现实系统中应用机器学习技术的核心，而现有技术在这方面尚有欠缺，需要消耗大量人力，导致人工成本大。

发明内容

本发明针对现有方法需要消耗大量人力的问题，提出了一种新的技术方案，能够根据少量的初始语料获得更多的语料，并进行自动判决和标注，从而节省人工开销。

根据本发明的一个方面，公开了一种用于判断文本情感程度的方法。该方法包括：获取多个语料，并对该多个语料进行人工标注，以构建语料库。语料库包括每个语料的文本内容、情感倾向、情感程度级别以及与情感倾向和情感程度级别相对应的关键词。计算关键词的权值，并根据关键词的权值构建关键词判断矩阵。关键词判断矩阵用于判断语料所属的情感倾向和情感程度。根据关键词的权值构建搜索词语库，并从搜索词语库中选取多个搜索词进行检索，以获得新语料。利用关键词判断矩阵，对新语料的情感倾向和情感程度级别进行自动判断，以重构语料库。

优选地，该方法还包括：对自动判断的全部结果或者部分结果进行人工判断。当自动判断的结果与人工判断的结果不一致时，根据人工判断的结果，对该关键词判断矩阵进行重构。

优选地，设有关键词转移阈值。该关键词可包括人工标注的关键词和非人工标注的关键词。将非人工标注的关键词的权值与该关键词转移阈值进行比较，并根据比较结果决定是否将该非人工标注的关键词转移为人工标注的关键词或者采用该方法所获得的系统能够直接使用的关键词，其中，非人工标注的关键词的权值为非人工标注的关键词在全部情感程度级别中的词频或者利用语料分析所获得的计算元素进行计算得到的。

优选地，构建搜索词语库的步骤可包括：利用自动方法，从词组中随机选取多个词语；或者利用自动方法，根据词语的权值，选取权值最大的多个词语，或者选取权值最小的多个词语；或者通过人工方法，从词组中选取多个词语。

优选地，搜索词语库中每个词语的权值是根据语料的情感倾向、在语料中出现的次数、依靠标注获得的其他信息以及是否属于关键词进行计算的。

根据本发明的第二方面，公开了一种用于判断文本情感程度的系统。该系统包括：语料库获取单元、关键词判断矩阵获取单元、搜索词语库、语料自动获取单元和语料判断单元。语料库获取单元用于响应于人工操作，获取多个语料并对多个语料进行人工标注。语料库包括每个语料的文本内容、情感倾向、情感程度级别以及与该情感倾向和情感程度级别相对应的关键词。关键词判断矩阵获取单元用于根据关键词的权值构建关键词判断矩阵。搜索词语库包括多个搜索词。语料自动获取单元用于从搜索词语库中选取多个搜索词进行检索，以获得新语料。语料判断单元利用关键词判断矩阵，对新语料的情感倾向和情感程度级别进行自动判断。

优选地，该系统还包括人工判断单元和系统自学习单元。用户通过人工判断单元对自动判断结果的全部或者部分进行人工判断。当自动判断的结果与人工判断的结果不一致时，系统自学习单元根据人工判断的结果，对关键词判断矩阵进行重构。

优选地，该系统还包括关键词转移单元。关键词可包括人工标注的关键词和非人工标注的关键词。关键词转移单元设有关键词转移阈值，用于将非人工标注的关键词的权值与关键词转移阈值进行比较，并根据比较结果决定是否将非人工标注的关键词转移为人工标注的关键词或者系统可以直接使用的关键词，上述非人工标注的关键词的权值为非人工标注的关键词在全部情感程度级别中的词频或者利用语料分析所获得的计算元素进行计算得到的。

优选地，该系统包括搜索词语库获得单元。搜索词语库获得单元用于从词组中随机选取多个词语；或者根据词语的权值，选取权值最大的多个词语；或者根据词语的权值，选取权值最小的多个词语。此外，也可通过人工方法从词组中选取多个词语。

采用本发明的技术方案，能够利用少量的初始语料构建关键词判断矩阵。利用该关键词判断矩阵，可以对更多的语料进行标注，包括对所获的新语料的情感倾向和情感程度级别进行自动判断，从而节省人工开销。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1示出了根据本发明的一种用于判断文本情感程度的方法的一个实施例的流程图。

图2示出了根据本发明的一种用于判断文本情感程度的方法的另一个实施例的流程图。

图3示出了一种用于判断文本情感程度的系统的一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

在步骤S101中，人工构建语料库。

具体地，由人工获取多个语料，并进行人工标注。每个语料库可包括四方面信息：1、语料文本信息。例如，语料中文文本。2、情感倾向信息。例如，该语料的情感倾向属于正面还是负面。3、情感程度级别信息。可以根据实际需要，每个情感倾向可设有至少1个情感程度级别，其具体数目不做限定。4、关键词。通过人工可标注针对不同情感倾向和情感程度的关键词。

在步骤S102中，根据关键词的权值，构建关键词判断矩阵。

在本实施例中，关键词可包括两个集合。一个集合是用户已标注情感倾向和情感程度的关键词集合；另一个集合是用户未标注的关键词集合。

在本实施例中，情感倾向可包括但不限于正面倾向和负面倾向，例如还可包括中性倾向，在此不做限定。

下面以正面倾向和负面倾向两类为例进行说明。正面倾向和负面倾向均包括多个情感程度级别。其中，可用P_i代表正面的第i个情感程度级别；用Q_j代表负面的第j个情感程度级别。i和j均为任意正整数。

情感程度级别的数目可以根据实际需要进行设定，在此不做限定。

在本实施例中，可以利用词语在不同情感程度级别出现的频率获得该词语的权值。

例如，可设有两个情感倾向，每个情感倾向设有三种情感程度。六种情感程度可分别表示为p1、p2、p3、q1、q2和q3。需要说明的是，这只是举例说明，本发明并不局限于计算两种情感倾向、六种情感程度级别的情况，可以根据需要计算数目的情感倾向和情感程度级别。

若词语w₁在各个情感程度级别中出现的频率为v_p1、v_p2、v_p3、v_q1、v_q2和v_q3。则该词语对情感程度p₁的隶属度w_1p1（即在情感程度p₁的权值（或称权重）w_1p1）为：

该词语在其他情感程度的权重也可采用该方法进行计算。

这样，经分词后，假定一篇文档可包括w₁至w_t这t个词语。则该文档可表示为：

本领域的技术人员应当理解，权重计算不限于采用上述频率计算的方法，还可根据需要采用其他方法获得权重。例如，在权重计算中考虑叠加词频、关键词在文本语料中的位置等因素综合计算。

在具体判断时，可以叠加矩阵列值进行情感倾向和情感程度的判断。

例如，在情感倾向的判断中，可比较与的大小。其中，t为大于1的正整数，k、i和j均为正整数。当前者大时，判定该语料属于正面倾向；当后者大时，判定该语料属于负面倾向。本领域的技术人员应当理解，本例子中i、j的数目仅是示例性的，本发明并不局限于此。在实际应用中，可以根据实际需要进行人为设定或者系统自动生成。

在情感程度级别的判断中，对于正面语料，可以比较∑_1≤k≤tw_kp₁、∑_1≤k≤tw_kp₂和∑_1≤k≤tw_kp₃的大小。数值最大者所在的情感程度级别即为该语料所属的情感程度级别。

对于未经人工标注的词语w′_i，也可仿造上述步骤构建判断矩阵：

在步骤S103中，利用搜索词语库进行检索，以获得新语料。

可以采用人工方法或者自动方法构建搜索词语库Sw。其中，自动方法可包括但不限于以下三种：1、从词语组中提取权值最高的多个词语；2、从词语组中提取权值最低的多个词语；3、随机提取多个词语。

上述所提取的词语的具体数目可根据实际需要进行调整。例如，可提取5个词语或者10个词语。

然后，可从搜索词语库Sw中随机提取若干词语（例如，3个），用于对信息资源进行搜索。上述信息资源包括但不限于中文信息资源，例如，百度、谷歌、新浪微博、或系统指定的内外部信息资源等，从而获得新语料。

在步骤S104中，采用关键词判断矩阵，对新语料的情感倾向和情感程度级别进行自动判断。

具体地，可以对新语料进行分词，获得词语的权值，并构建权值矩阵，进而进行情感倾向判断和情感程度的判断。

下面公开了计算权值的一种方法。需要说明的是，在具体实施过程中，权值的计算方法可根据实际需要，选择其他计算公式。

在该实施例中，可采用如下计算公式或其它类似能反映语料之间差异性的权值计算方法：

w＝w₀±T_i×R_i。

其中，w₀为初始权值，可以选为0；初始系数R_i可以为1；当该词语为语料的关键词时，则R_i可以为10。当该语料属于正面倾向时，选择相加；当该语料属于负面倾向时，选择相减。也就是说，统计该词语出现在语料中的次数T_i。如果该语料为正面，则初始权值加T_i×R_i；如果语料为负面，则初始权值减T_i×R_i，该词语的权值计算完毕。

采用本发明的技术方案，能够利用少量的初始语料构建关键词判断矩阵。矩阵中的各个元素代表一个关键词在不同情感倾向和情感程度下的权值。利用关键词进行搜索，可以获得更多的语料。利用该关键词判断矩阵，可以对所获得的更多的语料进行标注。这包括对所获的新语料的情感倾向和情感程度级别进行自动判断。因此，本发明能够根据少量的初始语料获得更多的语料，并进行自动判决和标注，从而节省人工开销。

图2示出了根据本发明的用于判断文本情感程度的方法的另一个实施例的流程图。

在步骤S201中，通过人工构建语料库。

在步骤S202中，根据关键词的权重，构建关键词判断矩阵。

在步骤S203中，利用搜索词语库进行搜索，以获得新语料。

在步骤S204中，利用关键词判断矩阵，对新语料的情感倾向和情感程度级别进行自动判断，以重构语料库。

本实施例中的步骤S201、步骤S202、步骤S203和步骤S204可与上一实施例中的步骤S101、步骤S102、步骤S103和步骤S104相同，在此不再赘述。

在步骤S205中，对上述自动判断结果的全部或者一部分进行人工判断，以确定前述自动判断结果是否准确。

具体地，通过工作人员判断上一步骤中的正负面判断是否准确，以及通过工作人员判断上一步骤中的情感程度判断是否准确。可以根据需要，选择全部判断和标注，也可选择对部分结果进行判断和标注。

人工判断可作为重构关键词判断矩阵的主要依据。也就是说，当自动判断结果与本步骤中的人工判断结果不一致时，可以返回步骤S202，对判断矩阵进行重构。当当自动判断结果与本步骤中的人工判断结果一致时，执行步骤S206，即输出结果。

通过设置上述人工复查步骤，可以对自动判断结果进行纠正，并对关键词判断矩阵进行重构，使得关键词判断矩阵更加合理。

另外，根据新获得的语料可以获得用户标注的关键词组与用户非标注的关键词组之间的对应关系，并随着新语料的获得扩充非标注的关键词组。

在本方法中，还可设有关键词转移阈值，用于决定将非人工标注的关键词向人工标注的关键词转移或者转移为利用该方法所建立的系统能够直接使用的关键词。

在一个例子中，关键词转移阈值可以设为V′_x。对于一个非人工标注的关键词w′₁，其在所有语料中不同情感倾向和情感程度的词频为V′_p1、V′_p2、V′_p3、V′_q1、V′_q2和V′_q3。当满足如下条件时，

可将该关键词w′₁转移为人工标注的关键词或者利用该方法所获得的系统能够直接使用的关键词，并更新对应的判断矩阵。

本领域的技术人员应当理解，转移阈值的计算方法可以有多种。在实际应用中，可以根据需要选择合适的转移阈值计算公式。

应用本发明的所涉及的方法，可以建立对文本情感倾向及情感程度的判断系统。当系统建立完成后，可以提供对文本情感倾向及情感程度的判断能力，并且这种判断能力和判断的准确程度，可以随着系统的应用进行扩展及完善提高。

图3示出了根据本发明的用于判断文本情感程度的系统的一个实施例的结构示意图。

语料库获取单元11用于响应于人工操作，获取多个语料并对多个语料进行人工标注。

语料库可包括每个语料的文本内容、情感倾向、情感程度级别以及与情感倾向和所述情感程度级别相对应的关键词。

判断矩阵获取单元12用于根据关键词的权重构建关键词判断矩阵。

该判断矩阵是根据关键词的权重获得的。关键词的权重可以是该词语对情感程度的隶属度。例如，若词语w₁在各个情感程度级别中出现的频率为v_p1、v_p2、v_p3、v_q1、v_q2和v_q3。则该词语对情感程度p₁的隶属度w_1p1（即在情感程度p₁的权重w_1p1）为：

该词语在其他情感程度的权重也可采用该方法进行计算。

搜索词语库13包括多个搜索词。可以采用人工方法或者自动方法构建搜索词语库Sw。其中，自动方法可包括但不限于以下三种：1、从词语组中提取权值最高的多个词语；2、从词语组中提取权值最低的多个词语；3、随机提取多个词语。

然后，再从搜索词语库13中选取若个词语进行搜索。

语料自动获取单元14可根据所选择的多个搜索词对信息资源进行搜索。上述信息资源包括但不限于中文信息资源，例如，百度、谷歌、新浪微博、或系统指定的内外部信息资源等，从而获得新语料。

语料判断单元15利用判断矩阵，对新语料的情感倾向和情感程度级别进行判断。

该系统还可包括人工判断单元16和系统自学习单元17。用户通过人工判断单元16对自动判断结果的全部或者部分进行人工判断。当自动判断的结果与人工判断的结果不一致时，系统自学习单元17可根据人工判断的结果，对关键词判断矩阵进行重构。

该系统还可包括关键词转移单元18。关键词可包括两大类：人工标注的关键词和非人工标注的关键词。关键词转移单元18通过设置关键词转移阈值，将非人工标注的关键词的权值与关键词转移阈值进行比较。根据比较结果，决定是否将该非人工标注的关键词转移为人工标注的关键词，也可根据需要转移为或者系统可直接使用的关键词。上述非人工标注的关键词的权值为非人工标注的关键词在全部情感程度级别中的词频或者利用语料分析所获得的计算元素进行计算得到的。

该系统还可包括搜索词语库获得单元19。搜索词语库获得单元19用于从词组中随机选取多个词语；或者根据词语的权值，选取权值最大的多个词语；或者根据词语的权值，选取权值最小的多个词语。从而构建搜索词语库。其中，每个词语的权值可根据语料的情感倾向、在语料中出现的次数、依靠标注获得的其他信息以及是否属于关键词进行计算的。

采用本发明的用于判断文本情感程度的系统，能够利用大量未标记数据帮助提升在少量有标记数据上学得模型的泛化能力。第一批标注数据由工作人员完成后，后续系统能够自动标记信息，在一定或者特定情况下，仅需工作人员进行部分人工抽查或审核，因此有效降低了人力成本，提高了工作效率。

本发明的方法和系统可以应用在互联网舆情产品的开发中，为企业提供互联网上的评价分析。例如，对微博中有关自身产品和服务信息的评价分析。此外，还可以为企业营销、广告部门提供支撑，也可以为企业客服部门提供支撑。本发明所涉及的技术可以直接提供产品的开发，也可以为个人用户获得互联网上某一种观点、某一类倾向性的信息搜索时，提供服务帮助，并获得互联网上与某类观点最接近的信息。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值，或数学计算法方法，以实现相同的计算目的。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

至此，已经详细描述了根据本发明的用于判断文本情感程度的方法和系统。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种用于判断文本情感程度的方法，其特征在于，该方法包括：

获取多个语料，并对所述语料进行人工标注，以构建语料库，所述语料库包括每个语料的文本内容、情感倾向、情感程度级别以及与所述情感倾向和所述情感程度级别相对应的关键词；

计算所述关键词的权值，并根据所述关键词的权值构建关键词判断矩阵,所述关键词判断矩阵中的各个元素代表各个关键词在不同情感倾向和情感程度下的权值，所述关键词在不同情感倾向和不同情感程度下的权值是根据所述关键词在不同情感倾向和不同情感程度级别的语料中出现的词频计算得到的；

根据所述关键词的权值构建搜索词语库，并从所述搜索词语库中选取多个搜索词进行检索，以获得新语料；

利用所述关键词判断矩阵，对所述新语料的情感倾向和情感程度级别进行自动判断，以重构语料库。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

对所述自动判断的全部结果或者部分结果进行人工判断；

当所述自动判断的结果与人工判断的结果不一致时，根据所述人工判断的结果，对所述关键词判断矩阵进行重构。

3.如权利要求1所述的方法，其特征在于，该方法还包括：

设有关键词转移阈值；

所述关键词包括人工标注的关键词和非人工标注的关键词；

将所述非人工标注的关键词的权值与所述关键词转移阈值进行比较，并根据比较结果决定是否将所述非人工标注的关键词转移为人工标注的关键词或者直接使用的关键词，其中，所述非人工标注的关键词的权值为所述非人工标注的关键词在全部情感程度级别中的词频或者对利用语料分析所获得的计算元素进行计算得到的。

4.如权利要求1所述的方法，其特征在于，所述构建搜索词语库的步骤包括：

从词组中随机选取多个词语；或者

根据词语的权值，自动选取权值最大的多个词语；或者

根据词语的权值，自动选取权值最小的多个词语；或者

通过人工方法，从词组中选取多个词语。

5.如权利要求4所述的方法，其特征在于，所述搜索词语库中每个词语的权值是根据语料的情感倾向、在语料中出现的次数、通过标注获得的信息以及是否属于关键词获得的。

6.一种用于判断文本情感程度的系统，其特征在于，该系统包括：

语料库获取单元，所述语料库获取单元用于响应于人工操作，获取多个语料并对所述语料进行人工标注，所述语料库包括每个语料的文本内容、情感倾向、情感程度级别以及与所述情感倾向和所述情感程度级别相对应的关键词；

关键词判断矩阵获取单元，所述关键词判断矩阵获取单元用于根据关键词的权值构建关键词判断矩阵,所述关键词判断矩阵中的各个元素代表各个关键词在不同情感倾向和情感程度下的权值，所述关键词在不同情感倾向和不同情感程度下的权值是根据所述关键词在不同情感倾向和不同情感程度级别的语料中出现的词频计算得到的；

搜索词语库，所述搜索词语库包括多个搜索词；

语料自动获取单元，所述语料自动获取单元用于从所述搜索词语库中选取多个搜索词进行检索，以获得新语料；

语料判断单元，所述语料判断单元利用所述关键词判断矩阵，对所述新语料的情感倾向和情感程度级别进行自动判断。

7.如权利要求6所述的系统，其特征在于，所述系统还包括：

人工判断单元，用户通过所述人工判断单元对所述自动判断结果的全部或者部分进行人工判断；

系统自学习单元，当所述自动判断的结果与人工判断的结果不一致时，所述系统自学习单元根据所述人工判断的结果，对所述关键词判断矩阵进行重构。

8.如权利要求6所述的系统，其特征在于，所述系统还包括关键词转移单元；

所述关键词包括人工标注的关键词和非人工标注的关键词；

所述关键词转移单元设有关键词转移阈值，用于将所述非人工标注的关键词的权值与所述关键词转移阈值进行比较，并根据比较结果决定是否将所述非人工标注的关键词转移为人工标注的关键词或者系统可以直接使用的关键词，其中，所述非人工标注的关键词的权值为所述非人工标注的关键词在全部情感程度级别中的词频或者对利用语料分析所获得的计算元素进行计算得到的。

9.如权利要求6所述的系统，其特征在于，

所述系统包括搜索词语库获得单元；

所述搜索词语库获得单元用于从词组中随机选取多个词语；或者根据词语的权值，选取权值最大的多个词语；或者

根据词语的权值，选取权值最小的多个词语。

10.如权利要求9所述的系统，其特征在于，所述搜索词语库中每个词语的权值是根据语料的情感倾向、在语料中出现的次数、通过标注获得的信息以及是否属于关键词获得的。