CN106649603A - 一种基于网页文本数据情感分类的指定信息推送方法 - Google Patents
一种基于网页文本数据情感分类的指定信息推送方法 Download PDFInfo
- Publication number
- CN106649603A CN106649603A CN201611063626.2A CN201611063626A CN106649603A CN 106649603 A CN106649603 A CN 106649603A CN 201611063626 A CN201611063626 A CN 201611063626A CN 106649603 A CN106649603 A CN 106649603A
- Authority
- CN
- China
- Prior art keywords
- word
- web page
- emotion
- text data
- mood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网页文本数据情感分类的指定信息推送方法,包括:获取当前网页文本数据中带有情感倾向的情绪词,提取所述情绪词作为特征数据,并根据提取出的所述情绪词生成特征向量;将所述特征向量输入预先构建的分类模型中,计算得到当前网页文本数据的情感类型;根据所述网页文本数据的情感类型,向当前网页推送与所述情感类型匹配的指定信息。所述基于网页文本数据情感分类的指定信息推送方法通过将网页文本数据中带有情感倾向的情绪词提取出来并生成相应的特征向量、通过将用户对匹配的指定信息的点击率提高的网页文本数据作为训练数据训练得到分类模型,不仅能够适应用户的需求而且提高了推荐的指定信息的点击率。
Description
技术领域
本发明涉及计算机应用技术领域,特别是指一种基于网页文本数据情感分类的指定信息推送方法。
背景技术
近年来,互联网已经成为人们发表言论、查找信息以及进行信息交互的首选平台,同时随着互联网广告业、机器人对话系统以及网页建设需求的日渐兴起,需要在对网页文本数据分析的基础上,根据分析结果进行相关信息推荐,进而使得推荐的内容能够适应用户的需求。目前对于网页信息推荐的方法大多都是利用历史数据中的浏览记录进行信息推荐,虽然这样比较符合大数据分析的预测,但是并不能针对网页文本数据对用户实际产生的影响或者引起的兴趣方面进行分析,因而无法正真把握用户的实际需求,尤其是网页文本数据对用户情感方面的影响。因此,网页文本数据的情感分类在互联网广告、机器人对话系统、个性化推荐等场景中,对提高用户体验方面有较大的帮助。
虽然,已有部分对于情感分类的研究结果,但是,一方面,目前针对网页文本数据的情感分类都是对情感分类中的极性进行分类,例如好评、中评和差评;褒奖或贬低。这些情感分类是属于用户对文本的分类,与当前用户的情感状态关系不大,导致多数情况下并不能够引起浏览者的情感共鸣,也即很难影响用户去观看推荐的信息。另一方面,现有的分类算法多是采用监督学习的方法,需要大量的训练语料,而这些训练语料和测试用的数据都是通过线下人工标注的。这不仅会造成大量的人力财力的浪费,且不能够适应互联网数据千变万化的需求。此外,现有的分类算法不仅复杂度较高,计算量较大,不适合在线实时识别。而且单纯根据人为判定的常规情感类别对网页文本数据进行分类,并不能准确把握网页文本数据对用户产生的影响。
因此,在实现本发明的过程中发明人发现现有技术至少存在以下缺陷:网页推荐的指定信息并不能完全适应用户的需求,导致推荐的指定信息的点击率不高;推荐信息大多数依据用户的浏览记录或者单纯的对网页文本信息的分析得到的,与用户对指定信息的点击的关联性不高。
发明内容
有鉴于此,本发明的目的在于提出一种基于网页文本数据情感分类的指定信息推送方法,能够适应用户需求并且提高推荐的指定信息的点击率。
基于上述目的本发明提供的一种基于网页文本数据情感分类的指定信息推送方法,包括:
获取当前网页文本数据中带有情感倾向的情绪词,提取所述情绪词作为特征数据,并根据提取出的所述情绪词生成特征向量;
将所述特征向量输入预先构建的分类模型中,计算得到当前网页文本数据的情感类型;其中,所述分类模型是指预先基于网页文本数据中的情感词对网页文本的情感倾向进行分类的数据计算模型,且所述分类模型采用的训练数据包括基于用户对与网页文本数据的情感类型匹配的指定信息的点击率提高相关的网页文本数据;
根据所述网页文本数据的情感类型,向当前网页推送与所述情感类型匹配的指定信息。
可选的,所述分类模型的构建方法为:
通过标注明显带有情绪倾向的文本数据,训练得到一个初始分类模型;
利用所述初始分类模型对网页文本数据进行情感倾向分类识别,初步判断当前网页文本数据的情感类型;
根据判断结果,向当前网页推送或者替换成与所述情感类型匹配的指定信息;
获取用户对当前网页指定信息的点击率,判断点击率是否提高;
若点击率提高,则将当前网页中的文本数据作为具有判断结果中所述情感类型的训练数据;
否则,将当前网页中的文本数据作为具有正常情绪的训练数据或者作为无效数据;
根据获取得到的训练数据对初始分类模型进行训练,得到最终的用于情感分类的分类模型。
可选的,所述分类模型包括第一分类模型和第二分类模型;
所述第一分类模型用于对正常情绪和非正常情绪进行分类;
所述第二分类模型用于对非正常情绪中更为细致的情绪类型进行分类。
可选的,所述非正常情绪包括:高兴、愤怒和悲伤。
可选的,所述第一分类模型为SVM分类模型,所述第二分类模型为最大熵分类模型。
可选的,所述向当前网页推送与所述情感类型匹配的指定信息的步骤之后还包括:
获取推送的指定信息的点击率;
判断所述指定信息的点击率是否提高,若是,则将网页文本的情感类型作为新的训练数据对分类模型进行再次训练;
否则,将网页文本的情感类型作为正常情绪对分类模型进行再次训练或者将网页文本作为无效数据。
可选的,所述根据提取出的所述情绪词生成特征向量的步骤还包括:
根据已有的情感极性词典,筛选出带有情绪特征的词作为情绪字典库中的情绪词;
获取大量带有明显情绪的副词、形容词、名词、动词、标点符号和图标;
获取特定词组合以及特定词组合所代表的情绪;
根据带有情绪倾向的特定词组合以及相关带有情绪特征的情绪词、副词、形容词、名词、动词、标点符号和图标构建情绪字典库;
将当前网页文本数据中的文本进行分词,根据所述情绪字典库筛选出属于情绪字典库中的情绪词,并记录该情绪词的位置信息,进而获得当前网页文本数据中情绪词的集合;
获取当前网页文本数据中情绪词出现的数量、情绪词前后各n个词以及该n个词各自的词性、情绪标点符号的数量、情绪标点符号前面n个词和n个词各自的词性、情绪图标的数量、情绪图标前面n个词和n个词各自的词性,按照预设的规则生成特征向量;其中,n为预先设定的情绪词前后词的数量。
可选的,所述按照预设的规则生成特征向量的步骤还包括:
针对不同的情绪词、情绪标点符号和情绪图标以及对应的特定词组合,根据所代表情绪倾向程度的不同,分别赋予不同的权重;
将情绪词、情绪标点符号和情绪图标以及对应的特定词组合所代表的情绪倾向分别与对应的权重相乘,作为特征向量的组成部分。
可选的,获取情绪词前后预设数量的词时,若遇到标点符号就停止,将已获取的词与情绪词进行组合。
可选的,n为2。
从上面所述可以看出,本发明提供的基于网页文本数据情感分类的指定信息推送方法通过将网页文本数据中带有情感倾向的情绪词提取出来并生成相应的特征向量,使得能够依据情感词对网页文本数据进行情感分类。这样,将会使得所述网页文本数据的分类更加符合其对用户或者浏览者情绪的影响,进而使得通过推送与这种方法分类得到的网页文本数据的情感类型匹配的指定信息能够更加适应用户的需求。同时,通过将情绪词生成特征向量,使得不仅能够考虑情绪词对情感分类的影响,而且通过特征向量,使得情绪词的组合也会对情感分类起到较大作用,最终使得对网页文本数据的情感分类更为准确。
此外,所述方法还通过将用户对匹配的指定信息的点击率提高的网页文本数据作为训练数据训练得到分类模型,使得分类模型的分类结果将会直接与用户对指定信息的点击率有关,也即通过与所述分类模型分类得到的情感类型匹配的指定信息的进行推送后的点击率将会提高。因此,所述基于网页文本数据情感分类的指定信息推送方法能够适应用户需求,并且提高推荐的指定信息的点击率,使得用户需求、广告主的利益及网络平台对用户粘性三者之间得到有机的结合。
附图说明
图1为本发明提供的基于网页文本数据情感分类的指定信息推送方法的一个实施例的流程图;
图2为本发明提供的基于网页文本数据情感分类的指定信息推送方法中分类模型构建方法的一个实施例的流程图;
图3为本发明提供的基于网页文本数据情感分类的指定信息推送方法的另一个实施例的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明针对于目前具有海量信息交互的互联网技术领域中,在进行海量数据交互的过程中将会产生大量含有情感信息的文本数据。例如:常见的网页文本数据中含有较为明显的情感倾向,从而使得阅读者能够通过阅读这些网页文本数据产生相应的情绪变化。对这些海量的情感信息文本数据,现有技术中大多数通过人工浏览的方法进行分类,导致分类的效率低、成本高、时效性差,已经不能满足实际应用场景的要求。一方面,当前依据文本数据的属性进行分类的方法也较难与用户行为关联起来,另一方面,当前在进行分类模型构建时,所有的训练数据都是通过人工标注的方法获得的,这样不仅费时费力,而且准确性不高,尤其是在网页信息推送相关领域。因此,本发明针对于上述问题,提出一种基于网页文本数据情感分类的指定信息推送方法,能够克服现有技术中存在的问题。
在本发明一些可选的实施例中,参照图1所示,为本发明提供的基于网页文本数据情感分类的指定信息推送方法的一个实施例的流程图。所述基于网页文本数据情感分类的指定信息推送方法包括:
步骤101,获取当前网页文本数据中带有情感倾向的情绪词,提取所述情绪词作为特征数据,并根据提取出的所述情绪词生成特征向量;其中,说是当前网页文本数据是指当前用户正在浏览的网页中包含的文本数据信息,包括网页中的文字信息。所述带有情感倾向的情绪词是指通常在使用过程中具有明显的情感类别倾向的一类词语,例如:“哭泣”一词通常都表示悲伤。所述情绪词通常是预先构建有一个情绪词库,然后将当前词语与情绪词库中的词进行检索或者比较,进而判断当前词语是否属于情绪词,且带有哪种情感类型的倾向。所述情绪词既可以是单独的词语,也可以是一个词组。通过将情绪词作为特征向量,使得对于当前网页文本数据的分类是基于情感类型的不同进行的分类,从而能够更多的反应用户的情绪状态,也即基于当前网页文本数据中的情绪词能够一定程度上引起用户的情绪反应,不仅能够使得后续指定信息更加符合用户的需求,而且这样的情感共鸣也有利于用户对指定信息的点击。
步骤102,将所述特征向量输入预先构建的分类模型中,计算得到当前网页文本数据的情感类型;其中,所述分类模型是指预先基于网页文本数据中的情感词对网页文本的情感倾向进行分类的数据计算模型,且所述分类模型采用的训练数据包括基于用户对与网页文本数据的情感类型匹配的指定信息的点击率提高相关的网页文本数据;通过将基于用户对指定信息的点击相关的网页文本数据作为训练数据,不仅节省了大量人工标注的工作量,而且这样训练出来的分类模型更加倾向于提高用户对指定信息的点击。
步骤103,根据所述网页文本数据的情感类型,向当前网页推送与所述情感类型匹配的指定信息。其中,所述指定信息为已知其情感类型或者情感倾向的数据信息。既可以是创建指定信息时就明确其情感类型是否与哪种情感类型匹配,也可以根据指定信息中包含的文字信息、图片信息、符号信息等等确定是否与哪种情感类型匹配。所述指定信息包括:广告、网页连接、新闻、视频推荐等等。
由上述实施例可知,本发明提供的基于网页文本数据情感分类的指定信息推送方法通过将网页文本数据中带有情感倾向的情绪词提取出来并生成相应的特征向量,使得能够依据情感词对网页文本数据进行情感分类,这样,将会使得所述网页文本数据的分类更加符合其对用户或者浏览者情绪的影响,进而使得通过推送与这种方法分类得到的网页文本数据的情感类型匹配的指定信息能够更加适应用户的需求。同时,通过将情绪词生成特征向量,使得不仅能够考虑情绪词对情感分类的影响,而且通过特征向量,使得情绪词的组合也会对情感分类起到较大作用,最终使得对网页文本数据的情感分类更为准确。
此外,所述方法还通过将用户对匹配的指定信息的点击率提高的网页文本数据作为训练数据训练得到分类模型,使得分类模型的分类结果将会直接与用户对指定信息的点击率有关,也即通过与所述分类模型分类得到的情感类型匹配的指定信息的进行推送后的点击率将会提高。因此,所述基于网页文本数据情感分类的指定信息推送方法能够适应用户需求并且提高推荐的指定信息的点击率。
在本发明一些可选的实施例中,参照图2所示,所述分类模型的构建方法为:
步骤201,通过标注明显带有情绪倾向的文本数据,训练得到一个初始分类模型;其中,所述初始分类模型的构建与常见的分类模型构建方法原理相同。但是,所述初始分类模型所需要标注的数据远远小于现有技术中模型构建所需要的数据量。这是因为,互联网数据千变万化,初始分类模型所用的标注数据,只能反映了非常局限的数据情况,这样的数据训练出的模型并不能对整个互联网数据进行准确的刻画。因此,本发明中,用于训练的数据都是基于后续与用户点击操作相关的网页文本数据,而并不需要进行大量的人工标注。这样,既节省了人力,使得分类模型更能准确的刻画一些网络数据。
步骤202,利用所述初始分类模型对网页文本数据进行情感倾向分类识别,初步判断当前网页文本数据的情感类型;
步骤203,根据判断结果,向当前网页推送或者替换成与所述情感类型匹配的指定信息。这里的指定信息的数量可以为多个,且对于当前网页文本数据的判断也可以分为不同的区域。例如:一个完整的网页根据其功能区分为不同的区域,每个区域中均包含不同的网页文本数据,因此,可以针对不同区域单独判断并且分别推荐不同的指定信息。
步骤204,获取用户对当前网页指定信息的点击率,判断点击率是否提高。其中,所述点击率是否提高既可以是基于替换前后指定信息的点击率进行判断,也可以是依据设定的点击率阈值进行判断。进一步,所述点击率判断还包括设定一个提高阈值,当替换后的点击率大于替换之前的点击率与提高阈值之和时,才表示点击率提高,否则判断点击率处于正常波动范围。
步骤205,若点击率提高,则将当前网页中的文本数据作为具有判断结果中所述情感类型的训练数据;也即,将当前网页文本数据作为情感类型已知的文本数据,且其情感类型为判断结果中判定的情感类型。
步骤206,否则,将当前网页中的文本数据作为具有正常情绪的训练数据或者作为无效数据;对于不能引起用户点击率提高的网页文本数据,既可以是作为具有正常情绪的训练数据,也可以作为无效数据,即该网页文本数据不能作为训练数据。
步骤207,根据获取得到的训练数据对初始分类模型进行训练,得到最终的用于情感分类的分类模型。其中,所述分类模型在使用过程中,是通过训练数据不断的更新训练的,最终使分类模型更加符合实际的应用场景。
这样,根据用户对指定信息的点击操作来选取训练数据,进而使得训练得到的分类模型将会提高用户对指定信息的点击,而且这样获得的训练数据不需要进行大量的人工标注,节省了大量的人力物力。因此,通过上述构建分类模型的方法既可以提高训练数据获取的效率和准确性,而且基于训练数据与用户行为的相关性,使得得到的训练模型将会更加适应用户的实际需求。
在本发明一些可选的实施例中,所述分类模型包括第一分类模型和第二分类模型;所述第一分类模型用于对正常情绪和非正常情绪进行分类;所述第二分类模型用于对非正常情绪中更为细致的情绪类型进行分类。本发明采用两个分类模型是因为网页文本数据中还存在大量不带有任何情感倾向的描述性数据信息,在情感分类中作为正常情绪,而基于正常情绪包含的内容信息较为广泛,因此,确定正常情绪将会需要更多的特征数据,更多的训练数据,若是采用同一个分类模型,将会使得训练数据偏移,最终导致分类错误率提高。因此,本发明基于正常情绪与其他情绪训练特点的不同,构建两个分类模型,先用一个分类模型区分网页文本数据属于正常情绪还是非正常情绪,然后在非正常情绪中进一步区分更为细致的情绪类别。这样,能够提高分类的效率和准确性。
进一步,还可以设置更多的分类模型进行不同层次的分类。
在本发明一些可选的实施例中,所述非正常情绪包括:高兴、愤怒和悲伤。
在本发明一些可选的实施例中,所述第一分类模型为SVM分类模型,所述第二分类模型为最大熵分类模型。针对不同类型情感类别进行区分的特点以及不同分类模型的特点,采用SVM分类模型区分正常情绪和非正常情绪,采用最大熵分类模型区分高兴、愤怒和悲伤等更为细致的情感类型将会提高分类的效率和准确性。
在本发明一些可选的实施例中,参照图3所示,为本发明提供的基于网页文本数据情感分类的指定信息推送方法的另一个实施例的流程图。所述基于网页文本数据情感分类的指定信息推送方法包括:
步骤301,获取当前网页文本数据中带有情感倾向的情绪词,提取所述情绪词作为特征数据,并根据提取出的所述情绪词生成特征向量;
步骤302,将所述特征向量输入预先构建的分类模型中,计算得到当前网页文本数据的情感类型;
步骤303,根据所述网页文本数据的情感类型,向当前网页推送与所述情感类型匹配的指定信息。
步骤304,获取推送的指定信息的点击率;
步骤305,判断所述指定信息的点击率是否提高,若是,则执行步骤306,否则,执行步骤307;
步骤306,将网页文本的情感类型作为新的训练数据对分类模型进行再次训练;
步骤307,将网页文本的情感类型作为正常情绪对分类模型进行再次训练或者将网页文本作为无效数据。
这样,通过利用后续网页文本数据作为训练数据进一步对分类模型进行训练,使得分类模型能够不断的根据用户的点击结果进行分类的优化和学习,逐渐提高分类的准确性和可靠性,也即使得分类模型越来越准确,最终使得推荐的指定信息的点击率提高更为准确和可靠。
在本发明一些可选的实施例中,所述根据提取出的所述情绪词生成特征向量的步骤还包括:
首先,根据已有的情感极性词典,筛选出带有情绪特征的词作为情绪字典库中的情绪词;其中,所述情绪字典库是基于本发明实施例中特征向量的特点而建立的,所述情绪字典库用于筛选文本数据中的情绪词。已有的情感极性词典包括台湾大学的NTUSD-简体中文情感极性词典。
其次,获取大量带有明显情绪的副词、形容词、名词、动词、标点符号和图标;其中,这里获取各类词以及标点符号、图标的途径可以是所有已知能够获取的途径,例如:网络、教材等等。
最后,获取特定词组合以及特定词组合所代表的情绪;例如两个动词组合+感叹号通常表示愤怒,完成情绪字典的建立。
然后在情绪字典库的基础上,生成特征数据,步骤如下:
将当前网页文本数据中的文本进行分词,根据所述情绪字典库筛选出属于情绪字典库中的情绪词,并记录该情绪词的位置信息,进而获得当前网页文本数据中情绪词的集合;其中,需要依次判断每一个词是否在情绪字典库里,如果存在,就记录下来,同时记录这个词的在文本中的位置信息;否则,就跳过。这样,就得到文本数据的情绪词集合。
获取当前网页文本数据中情绪词出现的数量、情绪词前后各n个词以及该n个词各自的词性、情绪标点符号的数量、情绪标点符号前面n个词和n个词各自的词性、情绪图标的数量、情绪图标前面n个词和n个词各自的词性,按照预设的规则生成特征向量;其中,n为预先设定的情绪词前后词的数量。其中,所述情绪词前后的词、情绪标点符号以及情绪图标前面的词包括非情绪词,而情绪词、情绪标点符号、情绪图标以及非情绪词,经过特定组合后,形成带有情绪特征的词组,如“开门开门!”,“走开走开!”,这些都是表示生气情绪的正常动词组合后构成带有情绪特征的词组。这样能够进一步精确体现文本数据的特征。
优选的,n取值为2。
将获取的情绪词、情绪标点符号和情绪图标以及对应的特定词组合,按照预设的规则生成特征向量。
最后,情绪字典库的构建和更新,步骤如下:
首先,由于现有的情绪词库,通常都是对正负极性判断的词,不能直接使用。需要从中筛选出一些带有明显情绪的词,写入情绪词库。
其次,根据一些常见表示情绪的图标、标点符号等,设计相应的规则,筛选出一些词,写入情绪词库。
最后,根据系统的实际使用中,发现一些出现频率比较的高且影响用户的情绪的词,写入情绪词库,不断的丰富情绪词库。这样,通过对情绪词的预先构建情绪字典库,使得对网页文本数据中情绪词的提取更为准确,且构建的情绪字典库是通用的,也即构建的情绪字典库可以无限次使用。
在本发明一些可选的实施例中,所述按照预设的规则生成特征向量的步骤还包括:
针对不同的情绪词、情绪标点符号和情绪图标以及对应的特定词组合,根据所代表情绪倾向程度的不同,分别赋予不同的权重;
将情绪词、情绪标点符号和情绪图标以及对应的特定词组合所代表的情绪倾向分别与对应的权重相乘,作为特征向量的组成部分。
通过对不同的情绪词赋予不同的权重,使得能够对同一情感类别中的不同情绪词进行区分,是的情感分类更为准确。而且,基于不同情绪词具有不同的值,即使同一个网页文本数据中包含不同情感类型的情绪词,也能够准确对其具有的情感类别倾向进行分类。
在本发明一些可选的实施例中,获取情绪词前后预设数量的词时,若遇到标点符号就停止,将已获取的词与情绪词进行组合。例如:“辛辣味呛得我直翻白眼,恨得牙根直发麻,手指骨节痒,想揍他一顿。”在这个句子中,“白眼”、“恨”、“发麻”、“痒”、“揍”,是情感词。情感词为5个,加上各自前后面的2个词,就能够组成一个特征向量:“5,直翻白眼+副词+动词,恨得牙根+连词+名词,牙根直发麻+名词+副词,手指关节痒+名词+名词,想揍他一顿+动词+人称代词+量词”。而对于“恨”这个情感词,前面是标点符号“,”,所以,它对应前面的2个特征词就没有,只有后面的2个特征词,即为“恨得牙根”。
需要说明的是,本发明并不限于网页文本数据中指定信息的推荐,也包括其他类型的具有文本数据多媒体上的信息推荐。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于网页文本数据情感分类的指定信息推送方法,其特征在于,包括:
获取当前网页文本数据中带有情感倾向的情绪词,提取所述情绪词作为特征数据,并根据提取出的所述情绪词生成特征向量;
将所述特征向量输入预先构建的分类模型中,计算得到当前网页文本数据的情感类型;其中,所述分类模型是指预先基于网页文本数据中的情感词对网页文本的情感倾向进行分类的数据计算模型,且所述分类模型采用的训练数据包括基于用户对与网页文本数据的情感类型匹配的指定信息的点击率提高相关的网页文本数据;
根据所述网页文本数据的情感类型,向当前网页推送与所述情感类型匹配的指定信息。
2.根据权利要求1所述的方法,其特征在于,所述分类模型的构建方法为:
通过标注明显带有情绪倾向的文本数据,训练得到一个初始分类模型;
利用所述初始分类模型对网页文本数据进行情感倾向分类识别,初步判断当前网页文本数据的情感类型;
根据判断结果,向当前网页推送或者替换成与所述情感类型匹配的指定信息;
获取用户对当前网页指定信息的点击率,判断点击率是否提高;
若点击率提高,则将当前网页中的文本数据作为具有判断结果中所述情感类型的训练数据;
否则,将当前网页中的文本数据作为具有正常情绪的训练数据或者作为无效数据;
根据获取得到的训练数据对初始分类模型进行训练,得到最终的用于情感分类的分类模型。
3.根据权利要求1所述的方法,其特征在于,所述分类模型包括第一分类模型和第二分类模型;
所述第一分类模型用于对正常情绪和非正常情绪进行分类;
所述第二分类模型用于对非正常情绪中更为细致的情绪类型进行分类。
4.根据权利要求3所述的方法,其特征在于,所述非正常情绪包括:高兴、愤怒和悲伤。
5.根据权利要求3所述的方法,其特征在于,所述第一分类模型为SVM分类模型,所述第二分类模型为最大熵分类模型。
6.根据权利要求1所述的方法,其特征在于,所述向当前网页推送与所述情感类型匹配的指定信息的步骤之后还包括:
获取推送的指定信息的点击率;
判断所述指定信息的点击率是否提高,若是,则将网页文本的情感类型作为新的训练数据对分类模型进行再次训练;
否则,将网页文本的情感类型作为正常情绪对分类模型进行再次训练或者将网页文本作为无效数据。
7.根据权利要求1所述的方法,其特征在于,所述根据提取出的所述情绪词生成特征向量的步骤还包括:
根据已有的情感极性词典,筛选出带有情绪特征的词作为情绪字典库中的情绪词;
获取大量带有明显情绪的副词、形容词、名词、动词、标点符号和图标;
获取特定词组合以及特定词组合所代表的情绪;根据带有情绪倾向的特定词组合以及相关带有情绪特征的情绪词、副词、形容词、名词、动词、标点符号和图标构建情绪字典库;
将当前网页文本数据中的文本进行分词,根据所述情绪字典库筛选出属于情绪字典库中的情绪词,并记录该情绪词的位置信息,进而获得当前网页文本数据中情绪词的集合;
获取当前网页文本数据中情绪词出现的数量、情绪词前后各n个词以及该n个词各自的词性、情绪标点符号的数量、情绪标点符号前面n个词和n个词各自的词性、情绪图标的数量、情绪图标前面n个词和n个词各自的词性,按照预设的规则生成特征向量;其中,n为预先设定的情绪词前后词的数量。
8.根据权利要求7所述的方法,其特征在于,所述按照预设的规则生成特征向量的步骤还包括:
针对不同的情绪词、情绪标点符号和情绪图标以及对应的特定词组合,根据所代表情绪倾向程度的不同,分别赋予不同的权重;
将情绪词、情绪标点符号和情绪图标以及对应的特定词组合所代表的情绪倾向分别与对应的权重相乘,作为特征向量的组成部分。
9.根据权利要求7所述的方法,其特征在于,获取情绪词前后预设数量的词时,若遇到标点符号就停止,将已获取的词与情绪词进行组合。
10.根据权利要求7所述的方法,其特征在于,n为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611063626.2A CN106649603B (zh) | 2016-11-25 | 2016-11-25 | 一种基于网页文本数据情感分类的指定信息推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611063626.2A CN106649603B (zh) | 2016-11-25 | 2016-11-25 | 一种基于网页文本数据情感分类的指定信息推送方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649603A true CN106649603A (zh) | 2017-05-10 |
CN106649603B CN106649603B (zh) | 2020-11-10 |
Family
ID=58811506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611063626.2A Active CN106649603B (zh) | 2016-11-25 | 2016-11-25 | 一种基于网页文本数据情感分类的指定信息推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649603B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357889A (zh) * | 2017-07-11 | 2017-11-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN109271634A (zh) * | 2018-09-17 | 2019-01-25 | 重庆理工大学 | 一种基于用户情感倾向感知的微博文本情感极性分析方法 |
CN109446378A (zh) * | 2018-11-08 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 信息推荐方法、情感倾向确定方法及装置和电子设备 |
CN109635778A (zh) * | 2018-12-25 | 2019-04-16 | 北京心法科技有限公司 | 适于特殊人群的风险行为监测预警方法及系统 |
CN110309308A (zh) * | 2019-06-27 | 2019-10-08 | 北京金山安全软件有限公司 | 一种文字信息的分类方法、装置及电子设备 |
CN110377726A (zh) * | 2019-06-05 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种人工智能实现自然语言文本情绪识别方法与装置 |
CN110399494A (zh) * | 2018-04-16 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN110705928A (zh) * | 2019-08-26 | 2020-01-17 | 贝壳技术有限公司 | 数据处理方法、装置、介质以及电子设备 |
CN111428034A (zh) * | 2020-03-23 | 2020-07-17 | 京东数字科技控股有限公司 | 分类模型的训练方法、评论信息的分类方法及装置 |
CN111552850A (zh) * | 2020-04-24 | 2020-08-18 | 浙江每日互动网络科技股份有限公司 | 类型确定方法及装置、电子设备和计算机可读存储介质 |
CN111582360A (zh) * | 2020-05-06 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法、装置、设备和介质 |
CN112185341A (zh) * | 2020-09-10 | 2021-01-05 | 广州多益网络股份有限公司 | 基于语音合成的配音方法、装置、设备和存储介质 |
CN112801425A (zh) * | 2021-03-31 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 信息点击率的确定方法、装置、计算机设备和存储介质 |
CN113204723A (zh) * | 2021-04-12 | 2021-08-03 | 仲恺农业工程学院 | 一种基于页面主题的页面背景匹配方法及装置 |
WO2023061276A1 (zh) * | 2021-10-11 | 2023-04-20 | 维沃移动通信有限公司 | 数据推荐方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992347A (zh) * | 2015-06-17 | 2015-10-21 | 北京奇艺世纪科技有限公司 | 一种视频匹配广告的方法及装置 |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
US20160098480A1 (en) * | 2014-10-01 | 2016-04-07 | Xerox Corporation | Author moderated sentiment classification method and system |
CN106022878A (zh) * | 2016-05-19 | 2016-10-12 | 华南理工大学 | 基于社区评论情感倾向性分析的手游排行榜构建方法 |
CN106127507A (zh) * | 2016-06-13 | 2016-11-16 | 四川长虹电器股份有限公司 | 一种基于用户评价信息的商品舆情分析方法及系统 |
-
2016
- 2016-11-25 CN CN201611063626.2A patent/CN106649603B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098480A1 (en) * | 2014-10-01 | 2016-04-07 | Xerox Corporation | Author moderated sentiment classification method and system |
CN104992347A (zh) * | 2015-06-17 | 2015-10-21 | 北京奇艺世纪科技有限公司 | 一种视频匹配广告的方法及装置 |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
CN106022878A (zh) * | 2016-05-19 | 2016-10-12 | 华南理工大学 | 基于社区评论情感倾向性分析的手游排行榜构建方法 |
CN106127507A (zh) * | 2016-06-13 | 2016-11-16 | 四川长虹电器股份有限公司 | 一种基于用户评价信息的商品舆情分析方法及系统 |
Non-Patent Citations (3)
Title |
---|
李本阳,等: "基于单层标注级联模型的篇章情感倾向分析", 《中文信息学报》 * |
杜振雷: "面向微博短文本的情感分析研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王坤亮: "汉语情感倾向自动分类方法的研究"", 《国际IT传媒品牌》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357889B (zh) * | 2017-07-11 | 2020-07-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN107357889A (zh) * | 2017-07-11 | 2017-11-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN110399494B (zh) * | 2018-04-16 | 2024-08-20 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN110399494A (zh) * | 2018-04-16 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN109271634A (zh) * | 2018-09-17 | 2019-01-25 | 重庆理工大学 | 一种基于用户情感倾向感知的微博文本情感极性分析方法 |
CN109271634B (zh) * | 2018-09-17 | 2022-07-01 | 重庆理工大学 | 一种基于用户情感倾向感知的微博文本情感极性分析方法 |
CN109446378A (zh) * | 2018-11-08 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 信息推荐方法、情感倾向确定方法及装置和电子设备 |
CN109635778A (zh) * | 2018-12-25 | 2019-04-16 | 北京心法科技有限公司 | 适于特殊人群的风险行为监测预警方法及系统 |
CN109635778B (zh) * | 2018-12-25 | 2020-01-03 | 北京心法科技有限公司 | 适于特殊人群的风险行为监测预警方法及系统 |
CN110377726A (zh) * | 2019-06-05 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种人工智能实现自然语言文本情绪识别方法与装置 |
CN110377726B (zh) * | 2019-06-05 | 2020-08-25 | 光控特斯联(上海)信息科技有限公司 | 一种人工智能实现自然语言文本情绪识别方法与装置 |
CN110309308A (zh) * | 2019-06-27 | 2019-10-08 | 北京金山安全软件有限公司 | 一种文字信息的分类方法、装置及电子设备 |
CN110705928A (zh) * | 2019-08-26 | 2020-01-17 | 贝壳技术有限公司 | 数据处理方法、装置、介质以及电子设备 |
CN110705928B (zh) * | 2019-08-26 | 2022-11-08 | 贝壳技术有限公司 | 数据处理方法、装置、介质以及电子设备 |
CN111428034A (zh) * | 2020-03-23 | 2020-07-17 | 京东数字科技控股有限公司 | 分类模型的训练方法、评论信息的分类方法及装置 |
CN111552850A (zh) * | 2020-04-24 | 2020-08-18 | 浙江每日互动网络科技股份有限公司 | 类型确定方法及装置、电子设备和计算机可读存储介质 |
CN111582360A (zh) * | 2020-05-06 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法、装置、设备和介质 |
CN111582360B (zh) * | 2020-05-06 | 2023-08-15 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法、装置、设备和介质 |
CN112185341A (zh) * | 2020-09-10 | 2021-01-05 | 广州多益网络股份有限公司 | 基于语音合成的配音方法、装置、设备和存储介质 |
CN112801425A (zh) * | 2021-03-31 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 信息点击率的确定方法、装置、计算机设备和存储介质 |
CN113204723A (zh) * | 2021-04-12 | 2021-08-03 | 仲恺农业工程学院 | 一种基于页面主题的页面背景匹配方法及装置 |
WO2023061276A1 (zh) * | 2021-10-11 | 2023-04-20 | 维沃移动通信有限公司 | 数据推荐方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106649603B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649603A (zh) | 一种基于网页文本数据情感分类的指定信息推送方法 | |
Li et al. | Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary | |
Yang et al. | Let’s make your request more persuasive: Modeling persuasive strategies via semi-supervised neural nets on crowdfunding platforms | |
Young et al. | Affective news: The automated coding of sentiment in political texts | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
Toshevska et al. | A review of text style transfer using deep learning | |
CN110347836B (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
US20140108006A1 (en) | System and method for analyzing and mapping semiotic relationships to enhance content recommendations | |
CN107357889A (zh) | 一种基于内容或情感相似性的跨社交平台图片推荐算法 | |
CN107247702A (zh) | 一种文本情感分析处理方法和系统 | |
Yang et al. | A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators | |
Reganti et al. | Modeling satire in English text for automatic detection | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN111460146A (zh) | 一种基于多特征融合的短文本分类方法及系统 | |
Gao et al. | Sentiment classification of time-sync comments: A semi-supervised hierarchical deep learning method | |
CN114357204A (zh) | 媒体信息的处理方法及相关设备 | |
Chauhan et al. | Mhadig: A multilingual humor-aided multiparty dialogue generation in multimodal conversational setting | |
Wang et al. | CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method | |
CN116484872A (zh) | 基于预训练与注意力的多模态方面级情感判断方法和系统 | |
CN115659990A (zh) | 烟草情感分析方法、装置及介质 | |
Zhang et al. | MAA-PTG: multimodal aspect-aware product title generation | |
Chen et al. | Ranking products through online opinions: A text analysis and regret theory-based approach | |
Ennaji et al. | A product reputation framework based on social multimedia content | |
Chu et al. | A method for online course evaluation based on continuous bag-of-words model and semantic analysis—a case study of statistics | |
Lee | Use-centric mining of customer reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |