CN103714071A - 标签情感倾向量化方法与系统 - Google Patents
标签情感倾向量化方法与系统 Download PDFInfo
- Publication number
- CN103714071A CN103714071A CN201210375356.4A CN201210375356A CN103714071A CN 103714071 A CN103714071 A CN 103714071A CN 201210375356 A CN201210375356 A CN 201210375356A CN 103714071 A CN103714071 A CN 103714071A
- Authority
- CN
- China
- Prior art keywords
- label
- emotion
- user
- module
- emotion word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
标签,可以用来描述用户的特征也可以描述用户关注的对象。本发明的目标是实现对标签的量化,该量化结果可以反映出用户对自身特征或者外在某事物的喜好程度,根据此结果可以对用户进行相关信息(如商品、好友、新闻等等)的推荐,从而提高了推荐的针对性和准确度。为了实现上述目标,本发明提出了一种方法,该方法在对标签对应文本内容进行情感分析的基础上,并考虑用户地域、性格以及时效三个特征对标签进行量化处理,将综合结果按数值大小进行排列,以此确立推荐信息的优先、轻重关系。同时,本发明也提出了一种系统用于实现上述方法的功能。
Description
技术领域
本专利涉及用户兴趣标签的量化处理。更具体的,本发明涉及一个对用户的标签进行情感倾向量化的方法与系统。
背景技术
随着Web2.0的发展和社交网络的风起云涌,越来越多的内容由用户自己产生,在这些个性化的信息中,蕴涵着大量用户的个人喜好和关注对象。比如在微博客(MicroBlog)上,人们讨论着他们感兴趣的事物、新闻以及人物,并通过一定的社交活动比如关注好友、消息转发等等来表达自己的观点。对这些信息进行分析可以得到一组可以描述用户的特征标签。标签可以被用在多个领域,最常见的是推荐系统。那么,怎样提高标签利用的效率便成为摆在我们面前的客观问题。
为了解答上面提到的问题。我们首先来看看现有技术获得的标签都有哪些方法,以及这些方法的不足。
现有技术1:标签传播算法。其通过对用户的过往言论的分析以及社交行为(比如关注、转发、等)并参考其好友的标签,可以得出该用户的标签。该标签可以描述用户的特征以及关注的对象。
现有技术2:(一种基于用户动机倾向性的标签推荐方法及系统[CN102262653A])。其提供一种基于用户动机倾向性的标签推荐方法,该方法可以识别用户标注网络信息资源的动机,推荐给用户一个符合用户意图的多个标签组成的列表。
发明内容
然而,第一种方法获得的标签只能说明用户对某类事物或话题关注度较高;而第二种方法虽然考虑了用户动机但并不含情感取向。
在利用以上技术获得的标签进行推荐的过程中,会发生将用户关注度高但其实反感的东西推荐给用户,造成错误推荐。因此,直接用现有技术获得的标签在推荐系统中不能进行精准推荐。
因此,在利用标签进行推荐时,需要考虑标签的情感取向。另外,标签具有一定的时效性,随着时间的变化,有些标签“不复存在”,并且不同时期人们对待同一个标签的情感态度也是不一样的,甚至可以由喜欢转憎恶。同时,不同性格的人情感表达方式与强度也不同,不同地域的人表达善恶美丑的词汇也不同。
为了提高兴趣标签的实用性,因此,在对标签对应文本内容进行情感分析的基础上,考虑用户地域、性格以及时效三个特征对标签进行量化处理,按数值大小进行排列,以此确立推荐信息的优先、轻重关系。
本发明的目的是克服现有技术的不足之处。为了提高兴趣标签的实用性,在对标签对应文本内容进行情感分析的基础上,考虑用户地域、性格以及时效三个特征对标签进行量化处理,按数值大小进行排列,以此确立标签的优先、轻重关系,从而最终得出用户的喜好。
本发明的一个方面的标签情感倾向量化方法的特征在于,包括:用户信息和标签收集步骤,收集用户的所属地域信息、性格类型以及标签集合;标签对应文本收集步骤,针对上述标签集合中的每一个标签进行反向文本收集,得到与上述标签对应的文本集合;专属情感词词典构建步骤,根据上述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;标签情感表获得步骤,结合上述专属情感词词典依次对与上述标签对应的文本集合中的文本进行分析,得到上述标签的标签情感表,其中上述标签情感表包含情感词、该情感词的正负极性和权值;性格因子校正步骤,根据上述用户的性格类型,对上述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;量化结果计算步骤,对校正后的上述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得上述标签的量化结果;和排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
另外,在本发明的另一方面的标签情感倾向量化方法中,还具有时间因子校正步骤,根据上述文本发布的时间至现在的经过时间,对上述标签情感表中的权值进行时间因子校正。
另外,在本发明的标签情感倾向量化方法中,上述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。上述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。上述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
本发明的一个方面的标签情感倾向量化系统的特征在于,包括:输入模块,其收集用户的所属地域信息、性格类型以及用户社交数据;标签获取模块,其获取标签集合;标签对应文本收集模块,其针对由上述标签获取模块获取的上述标签集合中的每一个标签进行反向文本收集,得到与上述标签对应的文本集合;专属情感词词典构建模块,其根据由上述输入模块获得的上述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;标签情感表获得模块,其结合上述专属情感词词典依次对与上述标签对应的文本集合中的文本进行分析,得到上述标签的标签情感表,其中上述标签情感表包含情感词、该情感词的正负极性和权值;性格因子校正模块,其根据上述用户的性格类型,对由标签情感表获得模块获得的上述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;量化结果计算模块,其对上述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得上述标签的量化结果;和输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
另外,在本发明的另一方面的标签情感倾向量化系统中,还具有时间因子校正模块,其根据上述文本发布的时间至现在的经过时间,对上述标签情感表中的权值进行时间因子校正。
另外,在本发明的标签情感倾向量化系统中,上述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。上述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。上述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
发明效果
根据本发明,能够对基于用户特征属性对用户的标签进行标签情感倾向量化处理,该量化结果可以反映出用户对自身特征或者外在某事物的喜好程度,根据此结果可以对用户进行相关信息(如商品、好友、新闻等等)的推荐,从而提高了推荐的针对性和准确度。
附图说明
图1是实施方式1的标签情感倾向量化系统的结构框图。
图2是实施方式1的标签情感倾向量化方法的流程图。
图3是标签获取方法的流程图。
图4是反向标签文本集合获取的方法的流程图。
图5是标签情感表的构造方法的流程图。
图6是实施方式2的标签情感倾向量化系统的结构框图。
图7是实施方式2的标签情感倾向量化方法的流程图。
图8是实施方式3的标签情感倾向量化系统的结构框图。
图9是实施方式3的标签情感倾向量化方法的流程图。
图10是实施方式4的标签情感倾向量化系统的结构框图。
图11是实施方式4的标签情感倾向量化方法的流程图。
具体实施方式
以下揭示实施方式,参照附图对本发明进行更详细的说明,但本发明并不限于这些实施方式。
<实施方式1>
在本实施方式中,仅考虑用户的地域因素对标签进行情感量化处理。图1是本实施方式的标签情感倾向量化系统的结构框图。
如图1所示,本实施方式的标签情感倾向量化系统包括:输入模块101、标签获取模块102、标签对应文本收集模块103、专属情感词词典构建模块104、标签情感表获得模块105、量化结果计算模块108和输出模块109。
输入模块101用于自动/手动收集用户的所属地域信息、性格类型以及用户社交数据。这里用户社交数据主要是用户的发言内容,包括自己发表的也包括转发别人的。
标签获取模块102用于获取标签集合。标签的来源可以是用户自己标注的标签,也可以是收集用户言论以及社交行为提取的,也可以并用这两种方式。
标签对应文本收集模块103,针对由标签获取模块获取的标签集合中的每一个标签进行反向文本收集,得到与标签对应的文本集合。
专属情感词词典构建模块104,根据由输入模块获得的用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典。
标签情感表获得模块105,结合预先存储的共通情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表,其中标签情感表包含情感词、该情感词的正负极性和权值。
量化结果计算模块108,对标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得标签的量化结果。
输出模块109对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
下面对本实施方式的标签情感倾向量化方法的流程进行说明。
(1)首先,收集用户的所属地域信息以及标签集合(步骤S 100)。
所属地域可以是用户自己在个人资料中标注的地域,也可以根据用户经常上网地址(GPS、手机签到、IP等)获得。
标签的来源可以是用户自己标注的标签,也可以是收集用户言论以及社交行为提取的。当然,也可以并用这两种方式。对于第二种标签提取方式,可以通过现有的分词工具对用户言论文本集合提取名词术语,然后用词频分析方法,例如TF-IDF等,将获得较高词频的词作为标签。标签集合Tag={Tag1,Tag2,…,TagN},其中N为自然数,代表标签个数。
下面参照图3以并用这两种方式为例阐述标签的具体提取过程。首先,收集用户自己标注的标签并加入到标签集合中(S1300)。接着,收集用户的言论集合(S1301),之后通过现有的分词工具对用户言论文本集合提取名词术语(S1302),然后用词频分析方法,例如TF-IDF等,将获得较高词频的词作为标签(S1303),这里需要定义一个阈值Tfr,将词频大于该阈值的词汇列入标签集(S1304)。
(2)接着,针对标签集合中的每一个标签进行反向文本收集,得到与标签对应的句子(文本)集合(步骤S 101)。参照图4叙述具体过程。首先以用户发言的消息为单位根据标签(关键字)进行检索(S1400),将含有标签的句子放入该标签的文本集合中(S1401)。与具体的标签Tagi对应的文本集合为Si,Si={S1,S2,...,SM}。其中M为文本集合的总句子数,即集合大小。
(3)接着,依次对每一标签对应的句子集合的内容进行初步情感倾向量化。其方法是:根据用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典(步骤S102);接着结合专属情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表(该标签情感表包含情感词、该情感词的正负极性和权值)(步骤S103)。
下述的表1是共通情感词词典的一个具体例子,表中第1列记录情感词,第2列记录情感的极性,第3列记录初始权重值。表2是地域情感词词典的一个具体例子,保存具体某地方的情感词汇列表,表中第1列记录地域名称(按省命名),第2列记录情感词,第3列记录情感的极性,第4列记录初始权重值。当然本发明并不限定于这些具体例子。
[表1]
共通情感词词典
情感词 | 极性 | 权重 |
刚正不阿 | 正 | 1 |
和蔼可亲 | 正 | 1 |
简洁 | 正 | 1 |
... | ... | ... |
哀 | 负 | 1 |
沉痛 | 负 | 1 |
嗤之以鼻 | 负 | 1 |
... | ... | ... |
[表2]
地域情感词词典
地域 | 情感词 | 极性 | 权重 |
陕西 | 嘹咂咧 | 正 | 2 |
陕西 | 忒色 | 正 | 1 |
陕西 | 歘 | 负 | 1 |
… | … | … | … |
四川 | 巴适 | 正 | 2 |
四川 | 弯酸 | 负 | 1 |
四川 | 锤子 | 负 | 1 |
… | … | … | … |
河南 | 得劲 | 正 | 2 |
河南 | 中 | 正 | 1 |
河南 | 孬 | 负 | 1 |
… | … | … | … |
对具体步骤进行说明:
(3.1)根据用户地域所属,在共通情感词典基础上添加当地的地域情感词典。用户的地域为用户自己设定,比如自己的籍贯、或者当前工作、生活的地方。也可以根据用户经常上网地址(GPS、手机签到、IP等)获得。
(3.2)对专属情感词词典(共通+地域),按正负两向进行分类,正向情感词的初始权重大于零,负向的小于零。
(3.3)对文本集合中的句子进行分词处理。找出其中的情感词词汇,构建标签与情感词词汇列表,即标签情感表。该列表包含标签、情感词汇、极性、权值四要素。对于有否定前缀的词汇,其极性相反。对于有副词修饰的词汇,比如,非常好、太好、很好等,按照极量、高量、中量、低量化分为四等(参见表3)分别乘以不同的系数作为其权值。表3是副词分量表的一个具体例子,表中记录了副词的量级以及系数。第1列记录了量级,第2列记录了相对程度副词,第3列记录了对应的系数。当然本发明并不限定于这些具体例子。
[表3]
副词分量表
附图5给出了标签情感表的构造方法。首先对文本集合中的句子进行分词处理,找出其中的情感词词汇,构建标签词汇与情感词词汇列表(S1500)。该列表包含标签、词汇、极性、权值四要素(具体例子在后面叙述)。判断情感词前是否有否定前缀(S1501),如果有否定前缀的词汇(“是”),则将极性置为相反(S1502),如果没有否定前缀的词汇(“否”),则跳过S1502直接到下一步S1503。接着,判断情感词是否被程度副词修饰(S1503),对于有副词修饰的词汇,比如,非常好、太好、很好等,按照极量、高量、中量、低量化分为四等分别乘以不同的系数作为其权值(S1504)。
(5)最后,返回按照量化值大小排序好的标签序列(步骤S105)。
<实施方式2>
在本实施方式中,代替用户的地域信息,考虑用户的性格特征对标签进行情感量化处理,除此以外与实施方式1相同,在此省略相同模块和流程的说明。图6是本实施方式的标签情感倾向量化系统的结构框图。
如图6所示,本实施方式的标签情感倾向量化系统包括:输入模块101、标签获取模块102、标签对应文本收集模块103、标签情感表获得模块105、性格因子校正模块106、量化结果计算模块108和输出模块109。从图中可知,本实施方式与实施方式1相比,去除了专属情感词词典构建模块104,增加了性格因子校正模块106。
输入模块101,收集用户的性格类型以及用户社交数据。
标签情感表获得模块105,结合预先存储的共通情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表,其中标签情感表包含情感词、该情感词的正负极性和权值。
性格因子校正模块106,根据用户的性格类型,对由标签情感表获得模块105获得的标签情感表中权值大于规定的阈值的情感词进行性格因子校正。
其余模块与实施方式1相同,省略说明。
下面对本实施方式的标签情感倾向量化方法的流程进行说明。
(1)首先,收集用户的性格类型以及标签集合(步骤S200)。
性格类型需要通过事先进行的性格测试问卷获得,或者通过分析用户长久以来言论风格(比如经常用使用夸张的情感词来描述事物)等方式判断用户性格倾向。
(2)接着,针对标签集合中的每一个标签进行反向文本收集,得到与标签对应的句子(文本)集合(步骤S201)。
(3)接着,依次对每一标签对应的句子集合的内容进行初步情感倾向量化。此处,由于不考虑地域因素,所以不需要专属情感词词典构建步骤,而直接结合预先存储的共通情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表(该标签情感表包含情感词、该情感词的正负极性和权值)(步骤S202)。
(4)按照用户的性格特征,获取该用户的性格系数C。之后对(3)中构建的标签情感表(权值一栏)进行修正(步骤S203):定义一个阈值W0,如果情感词的权值(绝对值)Wi大于W0,则按照W=(W-W0)*C+W0进行性格校正,否则不修正。即表示为: 表4是性格特征系数的一个具体例子,表中记录了性格的分类以及对应的性格系数。表格第1列记录性格类型,第2列性格系数。按照瑞士心理学家荣格提出的心理类型理论,性格类型可分为16种。当然本发明并不限定于这些具体例子。
[表4]
性格类别参数表
性格类型 | 性格系数 |
外向实感思维判断 | 1 |
外向情感思维知觉 | 0.5 |
内向实感情感知觉 | 1 |
外向直觉情感知觉 | 0.5 |
内向实感思维判断 | 1.5 |
… | … |
(6)最后,返回按照量化值大小排序好的标签序列(步骤S205)。
<实施方式3>
在本实施方式中,同时考虑用户的地域因素和性格特征对标签进行情感量化处理,即接合实施方式1和实施方式2的特征,在此省略相同模块和流程的说明。图8是本实施方式的标签情感倾向量化系统的结构框图。
如图8所示,本实施方式的标签情感倾向量化系统包括:输入模块101、标签获取模块102、标签对应文本收集模块103、专属情感词词典构建模块104、标签情感表获得模块105、性格因子校正模块106、量化结果计算模块108和输出模块109。从图中可知,本实施方式同时具有专属情感词词典构建模块104和性格因子校正模块106。
下面对本实施方式的标签情感倾向量化方法的流程进行说明。
(1)首先,收集用户的所属地域信息、性格类型以及标签集合(步骤S300)。
(2)接着,针对标签集合中的每一个标签进行反向文本收集,得到与标签对应的句子(文本)集合(步骤S301)。
(3)接着,依次对每一标签对应的句子集合的内容进行初步情感倾向量化。其方法是:根据用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典(步骤S302);接着结合专属情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表(该标签情感表包含情感词、该情感词的正负极性和权值)(步骤S303)。
(4)按照用户的性格特征,获取该用户的性格系数C。之后对(3)中构建的标签情感表(权值一栏)进行修正(步骤S304):定义一个阈值W0,如果情感词的权值(绝对值)Wi大于W0,则按照W=(W-W0)*C+W0进行性格校正,否则不修正。即表示为:
(6)最后,返回按照量化值大小排序好的标签序列(步骤S306)。
<实施方式4>
在本实施方式中,在考虑用户的地域因素和性格特征的基础上,再加上时间因素,对标签进行情感量化处理,即在实施方式3的基础上增加时间因素的考虑,在此省略相同模块和流程的说明。图10是本实施方式的标签情感倾向量化系统的结构框图。
如图10所示,本实施方式的标签情感倾向量化系统包括:输入模块101、标签获取模块102、标签对应文本收集模块103、专属情感词词典构建模块104、标签情感表获得模块105、性格因子校正模块106、时间因子校正模块107、量化结果计算模块108和输出模块109。从图中可知,本实施方式与实施方式3相比,增加了时间因子校正模块107。
下面对本实施方式的标签情感倾向量化方法的流程进行说明。
(1)首先,收集用户的所属地域信息、性格类型以及标签集合(步骤S400)。
(2)接着,针对标签集合中的每一个标签进行反向文本收集,得到与标签对应的句子(文本)集合(步骤S401)。
(3)接着,依次对每一标签对应的句子集合的内容进行初步情感倾向量化。其方法是:根据用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典(步骤S402);接着结合专属情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表(该标签情感表包含情感词、该情感词的正负极性和权值)(步骤S403)。
(4)按照用户的性格特征,获取该用户的性格系数C。之后对(3)中构建的标签情感表(权值一栏)进行修正(步骤S404):定义一个阈值W0,如果情感词的权值(绝对值)Wi大于W0,则按照W=(W-W0)*C+W0进行性格校正,否则不修正。即表示为:
(5)再根据时效因素,对标签情感表进行一定的修正(步骤S405)。在修正的过程中,按照与标签有关的活动距离现在的经过时间,对标签量化结果进行一定的衰减。当然,需要说明的是这个衰减并不意味着用户对该标签真的已渐渐失去了兴趣,只是为了更突出当前用户当下正在关注的标签事物的量化值。具体计算公式我们借鉴了心理学家艾宾浩斯的遗忘曲线,即:其中,t为时间间隔,T为常数,代表遗忘周期。函数中的常数T对于每个具体的人来说为固定值,可以通过大量测试统计得到经验值,但为方便起见,在计算中可以置为1,不影响标签量化值的排序。
(7)最后,返回按照量化值大小排序好的标签序列(步骤S407)。
这里将时间因子校正步骤(S405)置于性格因子校正步骤(S404)之后,但也可以置于性格因子校正步骤(S404)之前,即时间因子校正步骤(S405)和性格因子校正步骤(S404)的顺序可以调换。
本实施方式对在考虑用户的地域因素和性格特征的基础上,再加上时间因素,对标签进行情感量化处理的情况进行了说明,即本实施方式中同时考虑了地域因素、性格特征和时间因素三个特征,但本发明也可以仅考虑地域因素和时间因素,或者仅考虑性格特征和时间因素,只要参照实施方式1、2对相关的模块和步骤进行删减即可。
下面结合具体实施例对实施方式进行进一步阐述。需要注意的是,下述的实施例只是为了便于说明本发明而举出的具体例子,本发明并不限定于这些实施例。
(实施例1)
实施例1是标签情感倾向量化处理,特别是标签情感表构建的具体例子。
(例1-1)用户甲为陕西人。有标签“烤肉串”。
文本集中例句1:昨天跟一群伙计去门口新开的张记烤肉海咥,烤肉串简直嘹咂咧,美很。(一月前发布)。
文本集中例句2:刚才新闻报道,门口的张记烤肉串竟用死猫肉,太欻了,令人反胃。(14天前发布)。
文本集中例句3:在新疆出差ing,新疆烤肉串的名气的确不是盖的,口水哗啦。(10天前发布)
1.调用地域情感词典。获得陕西地域情感词典。
2.对文本集进行分词处理,提取到情感词“嘹咂咧”,“欻”,“反胃”,“盖的”。
3.对以上3句进行标签情感表构建:
[表5]
标签情感表
4.“欻”被极量副词“太”修饰,参考副词分量表,其权值乘以程度系数;“盖的”被否定词修饰,其极性置反:
[表6]
标签情感表
(例1-2)用户甲为陕西人。有标签“宠物狗”。
文本集中例句1:我们家的宠物狗“旺财”,是不是很可爱呀。(微博后附“旺财”的照片)。(昨天发布)
文本集中例句2:“旺财”,简直太cute了。(微博后附“旺财”靓照一张)。(昨天发布)
文本集中例句3:狗日的旺财,我一不留神竟然把邻居家的小孩咬了,害我给人家赔礼道歉而且还得去医院打狂犬疫苗!(今天发布)
1.调用地域情感词典。获得陕西地域情感词典。
2.对文本集进行分词处理,提取到情感词“可爱”,“cute”,“狗日的”。
3.对以上3句进行标签情感表的构建:
[表7]
标签情感表
4.“Cute”被极量副词“太”修饰,参考副词分量表后,其权值乘以程度系数后:
[表8]
标签情感表
(例1-3)用户甲有标签“iPhone”。
文本集中例句1:不得不说iPhone是个伟大的发明,它精致、灵敏、简洁…,它改变了人们对手机的认识。(一年前发布)
文本集中例句2:新一代的iPhone发布了,真的令人很失望,除了屏幕大一点,没有什么改进。乔布斯走了,苹果废了…。(昨天发布)
1.调用地域情感词典。获得陕西地域情感词典。
2.对文本集进行分词处理,提取到情感词“伟大”,“精致”,“灵敏”,“简洁”,“失望”,“改进”。
3.对以上两句进行标签情感表的构建:
[表9]
标签情感表
4.“失望”被程度副词“太”修饰;“改进”被否定词修饰。做相关处理后,标签情感表为:
[表10]
标签情感表
在本实施例中,对于来自陕西的用户甲,通过收集用户的言论,获取到标签“烤肉串”,“宠物狗”以及“iPhone”:
1)在他的微博里对“烤肉串”的描述有“嘹咂咧”、“歘”(拼音:Chua)、“反胃”以及“盖的”。“嘹咂咧”在陕西地域词典中是正向的情感词,其意义等同于“还不错”,默认权重为2;而“欻”有不好的意思,为负向,默认权重为1;“盖的”是口语流行语之一,包含徒有虚名的意思,为负性,默认权重为1。“盖的”被否定词修饰。
2)对“宠物狗”的描述有“可爱”,“cute”,“狗日的”等,其中,“cute”被程度副词“太修饰”,“狗日的”的默认权重为2,其他为1。
3)对“iPhone”的描述有“伟大”,“精致”,“灵敏”,“简洁”,“失望”,“改进”。这些词都属于共通的情感词汇。其中伟大的默认权值为2,“改进”被否定词修饰,“失望”被程度副词“太”修饰。
(实施例2)
实施例2是性格因子校正处理的具体例子。例子的内容、即用户的区域信息、标签和标签对应文本请参照实施例1。即本实施例是在实施例1的标签情感表的基础上进行性格因子校正。
(例2)用户甲的性格外向奔放,属于“外向直觉情感知觉”型,其对应的性格系数为0.5。在实施例1的基础上,继续对权值作处理。
对于“烤肉串”:
1.“嘹咂咧”的权值以及“太欻”的权值均大于阈值1。需要进行性格因子校正。而“反胃”、“盖的”没有超过阈值,不做校正:
[表11]
标签情感表
对于“宠物狗”:
1.“可爱”权值没有超过阈值,不做处理。而“cute”和“狗日的”超过了阈值需作校正:
[表12]
标签情感表
对于“iPhone”:
“伟大”和“失望”超过了阈值,对其进行性格修正:
[表13]
1.标签情感表
用户甲由于性格外向奔放,他描述自己的情感时难免有夸张、过分的效果,对于标签“烤肉串”的“嘹咂咧”和“太欻”的量化结果分别为2和3,均大于阈值1,因此需要对其进行性格因子校正。通过查看“性格类别参数表”,对应的性格系数为0.5。因此,“嘹咂了”的最终权值为(2-1)*0.5+1=1.5,“太欻”最终权值为(3-1)*0.5+1=2。而“反胃”和“盖的”则没有超过阈值,不需要进行性格因子校正。对于标签“宠物狗”,“可爱”的权值没有变化还是1,而cute最终权重为(3-1)*0.5+1=2,“狗日的”的权值修正为(2-1)*0.5+1=1.5。
(实施例3)
本实施例是时间因子校正处理的具体例子。例子的内容、即用户的区域信息、标签和标签对应文本请参照实施例1、2。即本实施例是在实施例2的标签情感表的基础上进行时间因子校正。
根据时效性,在实施例2的基础上对各个标签情感表进时效因子修正:
[表14]
标签情感表
因此,用户最终的对于“烤肉串”的量化值为:
1.5*(1/e)^(30)-2*(1/e)^(14)-1*(1/e)^(14)+1*(1/e)^(10)≈4.29053437×10^(-5)
对于“宠物狗”标签而言,时效修正为:
[表15]
标签情感表
因此,用户最终的对于“宠物狗”的量化值为:
1*(1/e)^(1)+2*(1/e)^(1)-1.5*(1/e)^(0)≈-0.396361676
对于“iPhone”标签而言,时效修正为:
[表16]
标签情感表
因此,用户最终的对于“iPhone”的量化值为:
1.5*(1/e)^(365)+1*(1/e)^(365)+1*(1/e)^(365)+1*(1/e)^(365)-2*(1/e)^(1)-1*(1/e)^(1)≈-1.10363832
综上,最终用户的标签按照以下序列进行输出:
{“烤肉串”:4.29053437×10^(-5),“宠物狗”:-0.396361676,“Iphone”:-1.10363832}。
以上对本发明的实施方式和具体实施例进行了说明,但本发明并未限定于上述实施方式。例如,也可以将任意地组合本说明书中所述的构成要素而实现的其他的实施方式作为本发明的实施方式。另外,对于上述实施方式,在不脱离本发明的主旨即权利要求书所述的文字所示的意思的范围,实施本领域技术人员能够想到的各种变形而得到变形例也包含在本发明中。
通过采用本发明所述方法和系统对标签进行量化的结果可以反映出用户对该事物的喜好程度,根据此结果可以对用户进行相关信息(商品、好友、新闻等等)的推荐,从而提高了推荐的效率和准确度。
Claims (20)
1.一种标签情感倾向量化方法,其特征在于,包括:
用户信息和标签收集步骤,收集用户的所属地域信息以及标签集合;
标签对应文本收集步骤,针对所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合;
专属情感词词典构建步骤,根据所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;
标签情感表获得步骤,结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值;
量化结果计算步骤,对所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和
排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
2.一种标签情感倾向量化方法,其特征在于,包括:
用户信息和标签收集步骤,收集用户的性格类型以及标签集合;
标签对应文本收集步骤,针对所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合;
标签情感表获得步骤,结合预先存储的共通情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值;
性格因子校正步骤,根据所述用户的性格类型,对所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;
量化结果计算步骤,在该量化结果计算步骤中,对校正后的所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和
排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
3.一种标签情感倾向量化方法,其特征在于,包括:
用户信息和标签收集步骤,收集用户的所属地域信息、性格类型以及标签集合;
标签对应文本收集步骤,针对所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合;
专属情感词词典构建步骤,根据所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;
标签情感表获得步骤,结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值;
性格因子校正步骤,根据所述用户的性格类型,对所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;
量化结果计算步骤,对校正后的所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和
排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
4.如权利要求1~3中任一项所述的标签情感倾向量化方法,其特征在于:
还具有时间因子校正步骤,根据所述文本发布的时间至现在的经过时间,对所述标签情感表中的权值进行时间因子校正。
5.如权利要求1或3所述的标签情感倾向量化方法,其特征在于:
所述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。
6.如权利要求2或3所述的标签情感倾向量化方法,其特征在于:
所述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。
7.如权利要求1~3中任一项所述的标签情感倾向量化方法,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
8.如权利要求4所述的标签情感倾向量化方法,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
9.如权利要求5所述的标签情感倾向量化方法,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
10.如权利要求6所述的标签情感倾向量化方法,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
11.一种标签情感倾向量化系统,其特征在于,包括:
输入模块,其收集用户的所属地域信息以及用户社交数据;
标签获取模块,其获取标签集合;
标签对应文本收集模块,其针对由所述标签获取模块获取的所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合;
专属情感词词典构建模块,其根据由所述输入模块获得的所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;
标签情感表获得模块,其结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值;
量化结果计算模块,其对由标签情感表获得模块获得的所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和
输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
12.一种标签情感倾向量化系统,其特征在于,包括:
输入模块,其收集用户的性格类型以及用户社交数据;
标签获取模块,其获取标签集合;
标签对应文本收集模块,其针对由所述标签获取模块获取的所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合;
标签情感表获得模块,其结合预先存储的共通情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值;
性格因子校正模块,其根据所述用户的性格类型,对由标签情感表获得模块获得的所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;
量化结果计算模块,其对所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和
输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
13.一种标签情感倾向量化系统,其特征在于,包括:
输入模块,其收集用户的所属地域信息、性格类型以及用户社交数据;
标签获取模块,其获取标签集合;
标签对应文本收集模块,其针对由所述标签获取模块获取的所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合;
专属情感词词典构建模块,其根据由所述输入模块获得的所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;
标签情感表获得模块,其结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值;
性格因子校正模块,其根据所述用户的性格类型,对由标签情感表获得模块获得的所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;
量化结果计算模块,其对所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和
输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
14.如权利要求11~13中任一项所述的标签情感倾向量化系统,其特征在于:
还具有时间因子校正模块,其根据所述文本发布的时间至现在的经过时间,对所述标签情感表中的权值进行时间因子校正。
15.如权利要求11或13所述的标签情感倾向量化系统,其特征在于:
所述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。
16.如权利要求12或13所述的标签情感倾向量化系统,其特征在于:
所述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。
17.如权利要求11~13中任一项所述的标签情感倾向量化系统,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
18.如权利要求14所述的标签情感倾向量化系统,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
19.如权利要求15所述的标签情感倾向量化系统,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
20.如权利要求16所述的标签情感倾向量化系统,其特征在于:
所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210375356.4A CN103714071A (zh) | 2012-09-29 | 2012-09-29 | 标签情感倾向量化方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210375356.4A CN103714071A (zh) | 2012-09-29 | 2012-09-29 | 标签情感倾向量化方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103714071A true CN103714071A (zh) | 2014-04-09 |
Family
ID=50407059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210375356.4A Pending CN103714071A (zh) | 2012-09-29 | 2012-09-29 | 标签情感倾向量化方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103714071A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598644A (zh) * | 2015-02-12 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 用户喜好标签挖掘方法和装置 |
CN105095183A (zh) * | 2014-05-22 | 2015-11-25 | 株式会社日立制作所 | 文本情感倾向判断方法与系统 |
CN105095508A (zh) * | 2015-08-31 | 2015-11-25 | 北京奇艺世纪科技有限公司 | 一种多媒体内容推荐方法和多媒体内容推荐装置 |
CN106446043A (zh) * | 2016-08-31 | 2017-02-22 | 广东华邦云计算股份有限公司 | 一种获取用户心情数据的方法和装置 |
CN106549860A (zh) * | 2017-02-09 | 2017-03-29 | 北京百度网讯科技有限公司 | 信息获取方法和装置 |
CN107729422A (zh) * | 2017-09-27 | 2018-02-23 | 广州市万表科技股份有限公司 | 一种基于商品识别的性格测试方法和系统 |
CN108475388A (zh) * | 2015-12-31 | 2018-08-31 | 电子湾有限公司 | 用于识别靠前属性的用户界面 |
CN108646914A (zh) * | 2018-04-27 | 2018-10-12 | 安徽斛兵信息科技有限公司 | 一种多模态的情感数据收集方法及装置 |
CN109214848A (zh) * | 2017-07-06 | 2019-01-15 | 云义科技股份有限公司 | 运用虚拟商品于推荐系统影响相似度分析方法及其系统 |
CN109767270A (zh) * | 2019-01-17 | 2019-05-17 | 建信养老金管理有限责任公司 | 基于人工智能的存房养老信息推荐方法及系统 |
CN110362744A (zh) * | 2019-06-26 | 2019-10-22 | 联通沃悦读科技文化有限公司 | 阅读推荐方法及系统、终端设备、计算机设备及介质 |
CN110413926A (zh) * | 2019-07-24 | 2019-11-05 | 秒针信息技术有限公司 | 一种问卷调查方法及装置 |
CN110427566A (zh) * | 2019-07-23 | 2019-11-08 | 复旦大学 | 一种基于社群系统的服务管理系统 |
CN110795178A (zh) * | 2018-07-31 | 2020-02-14 | 优视科技有限公司 | 应用签到方法、装置及电子设备 |
CN111061958A (zh) * | 2019-12-27 | 2020-04-24 | 中国电子科技集团公司信息科学研究院 | 一种基于用户观点和情感倾向的信息推荐方法和系统 |
US11132709B2 (en) | 2017-11-30 | 2021-09-28 | International Business Machines Corporation | Implementation of physical changes to devices for effective electronic content reception |
CN116030940A (zh) * | 2023-03-30 | 2023-04-28 | 西昌学院 | 一种基于大数据的心理评测管理方法及系统 |
-
2012
- 2012-09-29 CN CN201210375356.4A patent/CN103714071A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095183A (zh) * | 2014-05-22 | 2015-11-25 | 株式会社日立制作所 | 文本情感倾向判断方法与系统 |
CN104598644A (zh) * | 2015-02-12 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 用户喜好标签挖掘方法和装置 |
CN104598644B (zh) * | 2015-02-12 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 喜好标签挖掘方法和装置 |
CN105095508A (zh) * | 2015-08-31 | 2015-11-25 | 北京奇艺世纪科技有限公司 | 一种多媒体内容推荐方法和多媒体内容推荐装置 |
CN105095508B (zh) * | 2015-08-31 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种多媒体内容推荐方法和多媒体内容推荐装置 |
CN108475388A (zh) * | 2015-12-31 | 2018-08-31 | 电子湾有限公司 | 用于识别靠前属性的用户界面 |
US11544776B2 (en) | 2015-12-31 | 2023-01-03 | Ebay Inc. | System, method, and media for identifying top attributes |
CN106446043A (zh) * | 2016-08-31 | 2017-02-22 | 广东华邦云计算股份有限公司 | 一种获取用户心情数据的方法和装置 |
CN106549860A (zh) * | 2017-02-09 | 2017-03-29 | 北京百度网讯科技有限公司 | 信息获取方法和装置 |
CN109214848A (zh) * | 2017-07-06 | 2019-01-15 | 云义科技股份有限公司 | 运用虚拟商品于推荐系统影响相似度分析方法及其系统 |
CN109214848B (zh) * | 2017-07-06 | 2020-10-27 | 云义科技股份有限公司 | 运用虚拟商品于推荐系统影响相似度分析方法及其系统 |
CN107729422A (zh) * | 2017-09-27 | 2018-02-23 | 广州市万表科技股份有限公司 | 一种基于商品识别的性格测试方法和系统 |
US11132709B2 (en) | 2017-11-30 | 2021-09-28 | International Business Machines Corporation | Implementation of physical changes to devices for effective electronic content reception |
CN108646914A (zh) * | 2018-04-27 | 2018-10-12 | 安徽斛兵信息科技有限公司 | 一种多模态的情感数据收集方法及装置 |
CN110795178A (zh) * | 2018-07-31 | 2020-02-14 | 优视科技有限公司 | 应用签到方法、装置及电子设备 |
CN110795178B (zh) * | 2018-07-31 | 2023-08-22 | 阿里巴巴(中国)有限公司 | 应用签到方法、装置及电子设备 |
CN109767270A (zh) * | 2019-01-17 | 2019-05-17 | 建信养老金管理有限责任公司 | 基于人工智能的存房养老信息推荐方法及系统 |
CN110362744A (zh) * | 2019-06-26 | 2019-10-22 | 联通沃悦读科技文化有限公司 | 阅读推荐方法及系统、终端设备、计算机设备及介质 |
CN110362744B (zh) * | 2019-06-26 | 2023-10-24 | 联通沃悦读科技文化有限公司 | 阅读推荐方法及系统、终端设备、计算机设备及介质 |
CN110427566A (zh) * | 2019-07-23 | 2019-11-08 | 复旦大学 | 一种基于社群系统的服务管理系统 |
CN110413926A (zh) * | 2019-07-24 | 2019-11-05 | 秒针信息技术有限公司 | 一种问卷调查方法及装置 |
CN110413926B (zh) * | 2019-07-24 | 2022-08-09 | 秒针信息技术有限公司 | 一种问卷调查方法及装置 |
CN111061958A (zh) * | 2019-12-27 | 2020-04-24 | 中国电子科技集团公司信息科学研究院 | 一种基于用户观点和情感倾向的信息推荐方法和系统 |
CN116030940A (zh) * | 2023-03-30 | 2023-04-28 | 西昌学院 | 一种基于大数据的心理评测管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103714071A (zh) | 标签情感倾向量化方法与系统 | |
Hamidian et al. | Rumor detection and classification for twitter data | |
Cheng et al. | Ecotourism social media initiatives in China | |
Biber et al. | Exploring the composition of the searchable web: A corpus-based taxonomy of web registers | |
Efron | Information search and retrieval in microblogs | |
CN107633044A (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
CN107025310A (zh) | 一种自动实时新闻推荐方法 | |
Andryani et al. | Social media analytics: data utilization of social media for research | |
Thelwall | Sentiment analysis for tourism | |
Venkataramani et al. | Discovery of technical expertise from open source code repositories | |
CN107943800A (zh) | 一种微博话题舆情计算与分析的方法 | |
Mangal et al. | Analysis of users’ interest based on tweets | |
CN106897437B (zh) | 一种知识系统的高阶规则多分类方法及其系统 | |
Abbasi-Moud et al. | Detecting tourist's preferences by sentiment analysis in smart cities | |
Hernandez et al. | Constructing consumer profiles from social media data | |
Fekete et al. | Twitter and academic geography through the lens of# AAG2018 | |
Li et al. | Improved new word detection method used in tourism field | |
US10212253B2 (en) | Customized profile summaries for online social networks | |
Stepchenkova et al. | Grassroots branding with twitter: Amazing Florida | |
Najafi et al. | Comparing analysis of social media content with traditional survey methods of predicting opening night box-office revenues for motion pictures | |
Carenini et al. | Methods for mining and summarizing text conversations | |
Zhang et al. | The research of sentiment analysis of microblog based on data mining: Exampled by basic endowment insurance | |
Chai et al. | A thousand words express a common idea? Understanding international tourists’ reviews of Mt. Huangshan, China, through a deep learning approach | |
Rao et al. | Friendly Interfaces Between Humans and Machines | |
Kuang et al. | Quantifying Chinese happiness via large-scale microblogging data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140409 |
|
WD01 | Invention patent application deemed withdrawn after publication |