CN110209767A - 一种用户画像构建方法 - Google Patents
一种用户画像构建方法 Download PDFInfo
- Publication number
- CN110209767A CN110209767A CN201910452154.7A CN201910452154A CN110209767A CN 110209767 A CN110209767 A CN 110209767A CN 201910452154 A CN201910452154 A CN 201910452154A CN 110209767 A CN110209767 A CN 110209767A
- Authority
- CN
- China
- Prior art keywords
- word
- opinion
- initial
- target
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种用户画像构建方法,涉及评论文本分析和自然语言处理技术领域,包括:提取评价文本中的目标词和意见词;量化意见词,得到意见词的量化结果;将所述目标词进行分类:将各类别词和各所述目标词分别带入向量训练模型,得到有向量形式的类别词和有向量形式的目标词;计算各目标词与类别词之间的余弦距离;将最大余弦距离值所对应的目标词归入对应的类别中;对各类别下的目标词所对应意见词的量化结果进行求和,得到各类别的分值;根据各类别的分值得到用户画像。面对繁杂庞大的评价文本,通过量化意见词、对目标词进行分类并计算出各类别分值,准确地体现用户的喜厌程度,精准地得到用户画像,给用户带来更好的体验。
Description
技术领域
本申请涉及大数据分析领域,尤其涉及评论文本分析和自然语言处理领域。
背景技术
随着互联网技术的流行,互联网用户每天都在互联网上产生大量数据,包括静态数据、动态数据,通过提取数据中的用户特征,建立用户画像是十分有意义的。通过建立用户画像有助于:理解用户,获得和分析用户的反馈,挖掘用户的潜在需求等,并为用户提供个性化服务。例如,在电商领域,通过收集用户的浏览、收藏、购买的商品信息,分析用户的消费行为,获得用户的消费偏好,并构建用户画像。针对不同用户的特征提供对应的服务,为用户带来更好的服务体验。
目前的研究中,常见的用户画像构建常常立足于用户行为的统计分析。比如电商例子中,通过统计用户浏览、收藏、加入购物车以及购买的几种行为进行统计,可以一定程度上得到用户更偏好在哪类商品,但只是统计意义上的规律,并不能够细致刻画用户的偏好,也不能够完全解释用户的偏好。而能够直接、具体、准确地反应用户喜恶以及对哪些方面喜好哪些方面厌恶,便是用户自己写下的评论。因此,对用户评论深入分析有利于更为精准地刻画用户画像,能给用户带来更好的体验,具有研究意义和应用价值。而用户的评论数据无疑是庞大的,人工逐条读取获得信息显然是不可能的,所以如何从大量评论文本中提取出用户意见观点是研究重点之一。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
根据本公开实施例的一个方面,提供了一种用户画像构建方法。
在一些可选实施例中,所述方法包括步骤:
提取评价文本中的目标词和意见词;
量化意见词,得到意见词的量化结果;
将所述目标词进行分类:将各类别词和各所述目标词分别带入向量训练模型,得到有向量形式的类别词和有向量形式的目标词;计算各目标词与类别词之间的余弦距离;将最大余弦距离值所对应的目标词归入对应的类别中;
对各类别下的目标词所对应意见词的量化结果进行求和,得到各类别的分值;
根据各类别的分值得到用户画像。
通过向量模型训练目标词和类别词,并计算具有向量的目标词和具有向量的类别词之间的余弦距离,通过最大余弦距离值将目标词归入对应的类别中,通过对各类别的目标词所对应意见词进行量化并求和方式,得到各类别的分值,通过各类别的分值得到用户画像。
在一些可选实施例中,所述步骤之前还包括如下步骤:
对评论文本进行预处理,包括:
清洗数据、筛除数据;
对评论文本进行分词、词性标注、依存句法分析。
通过对评论文本的清洗数据、筛除数据,使评论文本更准确地表达用户及评论对象的特征信息。
在一些可选实施例中,所述提取评价文本中的目标词和意见词,包括:
设置:初始意见词集为,初始目标词集,第一初始中间意见词集,第二初始中间意见词集,第一初始中间目标词集,第二初始中间目标词集;
遍历预处理的评论文本,根据初始意见词集中的意见词,利用第一规则提取目标词,如果提取的目标词不在初始目标词集中,则向第一初始中间目标词集、初始目标词集中加入目标词,否则不加入;
遍历预处理的评论文本,根据初始意见词集中的意见词,利用第四规则提取意见词,如果提取的意见词不在初始意见词集中,则向第一初始中间意见词集、初始意见词集中加入意见词,否则不加入;
遍历预处理的评论文本,根据第一初始中间目标词集中的目标词,利用第三规则提取目标词,如果提取的目标词不在初始目标词集中,则向第二初始中间目标词集、初始目标词集中加入目标词,否则不加入;
遍历预处理的评论文本,根据第一初始中间目标词集中的目标词,利用第二规则提取意见词,如果提取的意见词不在初始意见词集中,则向第二初始中间意见词集、初始意见词集中加入意见词,否则不加入;
判断第一初始中间意见词集、第二初始中间意见词集、第一初始中间目标词集、第二初始中间目标词集是否均为空:如果是,则分别输出初始意见词集和初始目标词集,提取目标词和意见词完成。
通过:第一规则:给定意见词,根据句法修饰关系,提取目标词;第二规则:给定目标词,根据句法修饰关系,提取意见词;第三规则:给定目标词,根据句法修饰关系,提取目标词;第四规则:给定意见词,根据句法修饰关系,提取意见词;通过输出初始意见词集和初始目标词集,得到提取的目标词和意见词。
在一些可选实施例中,所述量化意见词,得到意见词的量化结果,包括:
遍历提取的意见词,赋予提取的意见词分值;
设置程度词的权重值;
判断意见词是否被程度词修饰:当是,将意见词的分值乘以意见词所对应程度词的权重值,得到意见词的量化结果;当否,意见词的量化结果为赋予的意见词分值。
在一些可选实施例中,所述向量训练模型为word2vec模型。
在一些可选实施例中,通过计算目标词与类别词之间的余弦距离,为向量,θ为向量和向量间的夹角,||x||为向量的模,||y||为向量的模。
本公开实施例提供的一些技术方案可以实现以下技术效果:采用以上方式,针对用户对评价对象的评价文本,通过提取目标词和意见词的方式,在面对繁杂庞大的评价文本时,无需人工逐条读取和总结,便能准确、清晰地了解到用户的喜厌特征;通过量化意见词、对目标词进行分类并计算出各类别分值,各类别分值能准确地体现用户的喜厌程度,从而更精准地得到用户画像,给用户带来更好的体验。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
图1是本公开实施例提供的一具体实施方式的流程示意图;
图2是本公开实施例提供的一具体实施方式的评价文本预处理的流程示意图;
图3是本公开实施例提供的一具体实施方式的目标词与意见词提取的流程示意图;
图4是本公开实施例提供的一具体实施方式的意见词量化的流程示意图;
图5是本公开实施例提供的一具体实施方式的目标词分类的流程示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。
本公开实施例提供了一种用户画像构建方法,如图1所示,包括步骤:
1.收集评论数据,统计真实用户的在线评价文本,并组成初始数据集,初始数据集包括评价用户的信息、评价对象的信息和评价用户对评价对象的评价文本,评价用户可以包含不止一个,评价对象也可以包含不止一个。
2.利用自然语言处理技术对评论文本数据进行预处理,包括:清洗数据、筛除无用数据;例如:评价内容为“没有”、“无”或空值;使用jieba、Stanford Parser等工具对评论文本进行分词、词性标注、依存句法分析。
3.提取评价文本中的目标词和意见词,包括:设置:初始意见词集为O,初始目标词集为T,第一初始中间意见词集为O1,第二初始中间意见词集为O2,第一初始中间目标词集为T1,第二初始中间目标词集为T2,所述初始意见词集O为给定的非空词集,所述T、T1、T2、O1、O2为空集;第一规则为R1,第二规则为R2,第三规则为R3,第四规则为R4;所述意见词为形容词,所述目标词为名词或名词短语;遍历预处理的评论文本,根据初始意见词集O中的意见词,利用第一规则R1提取目标词,如果提取的目标词不在初始目标词集T中,则向第一初始中间目标词集T1、初始目标词集T中加入目标词,否则不加入;遍历预处理的评论文本,根据初始意见词集O中的意见词,利用第四规则R4提取意见词,如果提取的意见词不在初始意见词集O中,则向第一初始中间意见词集O1、初始意见词集O中加入意见词,否则不加入;遍历预处理的评论文本,根据第一初始中间目标词集T1中的目标词,利用第三规则R3提取目标词,如果提取的目标词不在初始目标词集T中,则向第二初始中间目标词集T2、初始目标词集T中加入目标词,否则不加入;遍历预处理的评论文本,根据第一初始中间目标词集T1中的目标词,利用第二规则R2提取意见词,如果提取的意见词不在初始意见词集O中,则向第二初始中间意见词集O2、初始意见词集O中加入意见词,否则不加入;判断第一初始中间意见词集O1、第二初始中间意见词集O2、第一初始中间目标词集T1、第二初始中间目标词集T2是否均为空:如果是,则分别输出初始意见词集O和初始目标词集T,提取目标词和意见词完成。所述第一规则R1表示给定意见词,根据直接相关或间接相关的句法修饰关系,提取目标词;所述第二规则R2表示给定目标词,根据直接相关或间接相关的句法修饰关系,提取意见词;所述第三规则R3表示给定目标词,根据直接相关或间接相关的句法修饰关系,提取目标词;所述第四规则R4表示给定意见词,根据直接相关或间接相关的句法修饰关系,提取意见词。所述直接相关表示:两个词语存在直接关系,不需要通过其他的词关联;所述间接相关表示:两个词语的关联需要通过其他的词实现。
4.量化意见词,包括:选取现有知网词典,词典包括中英文积极词性词语集合、消极词性词语集合、否定词集合、程度副词集合;为使得词典更符合当前文本库,随机抽取评论集合中的20%的数据,人工提取评论中的合理的积极词性词语、消极词性词语、否定词和程度副词,并且未出现在现有词典中,将其添加进词典;遍历上一步提取的意见词:当意见词存在于积极词集中,则将其赋予分值1,当存在于消极词集中,则将其赋予分值-1,当意见词均不在积极词集与消极词集中,则将其赋予分值0;根据不同的程度副词,设置不同的权重值;判断意见词是否被程度副词修饰:当是,将意见词的分值乘以意见词所对应程度副词的权重值,得到意见词的量化结果;当否,意见词的量化结果为赋予的意见词分值。
5.将目标词进行分类,并得到用户在给定维度上的画像,包括:选用来自知网和百度文库的语料,将各给定分类类别词和各所述目标词分别带入采用gensim工具训练的word2vec模型进行向量训练,得到有向量形式的给定分类类别词和有向量形式的目标词;通过计算各目标词与各给定分类类别词之间的余弦距离,为向量,θ为向量和向量间的夹角,||x||为向量的模,||y||为向量的模;将最大余弦距离值所对应的目标词归入对应的给定分类类别中,余弦距离即目标词与各给定分类类别词的词间距,所述词间距表示词之间的距离,用于描述两个词之间的相似程度,词间距越趋于1表示越相似,越趋于0表示越相异;通过计算词间距,映射到用户评价指标,计算各项得分。对各给定分类类别下的目标词所对应意见词的量化结果进行求和,得到各给定分类类别的分值;根据各给定分类类别的分值得到用户在给定维度上的画像。
本一些实施例中,还包括:得到评价对象的画像。针对同一评价对象的不同用户评论,重复以上步骤1-5,得到评价对象的画像。
本一些实施例中,利用gensim中的similarity函数计算目标词与给定分类类别词之间的余弦距离。
本一些实施例中,以学生对老师的教学评价为评价数据,本实施例提供了一种基于学生教学评论的教师画像的构建,在课程教学设计与内容、教学方法、课程管理、课程考核、教学态度、学习收获六个维度上评价教师的教学成果。包括如下步骤:
步骤一、获取全校学生在教务系统上的教学评价数据,并组成初始数据;在初始数据中,对学生的姓名与教师的姓名进行加密,初始数据中每条数据信息主要包含:学年、学期、学生学号、教师工号、学生所属学院、课程名称、课程编号、评价文本。
步骤二、对初始数据进行清洗筛选与预处理,如图2所示,包括:将评价文本为“没有”、“无”或没有文本评价的数据删除;对筛除后的数据中的文本评价用jieba工具进行分词,再利用Stanford parser工具对分词后的文本评价进行词性标注与依存句法分析,输出词性标注、依存句法分析结果。
步骤三、提取评价文本中的意见词与目标词,如图3所示:由于数据集是全校学生对全校教师的教学评价,文本为中文。因没有按照每位教师收到的评价排列,所以在构建教师画像时需要针对某一位教师的全部文本评价进行意见词和目标词的提取。包括步骤如下:
S1.设置初始意见词集O为给定词集{“好”,“优秀”,“幽默”,“认真”}、初始目标词集为T、第一初始中间意见词集为O1、第二初始中间意见词集为O2、第一初始中间目标词集为T1、第二初始中间目标词集为T2,所述T、O1、O2、T1、T2空集。
S2.遍历经过步骤二预处理过的某位教师的评价数据,根据初始意见词集O中的意见词:利用第一规则R1提取目标词,如果提取的目标词不在T中则向T1、T中加入目标词,否则不加入;可选的,当提取的目标词在T中则丢弃选取的目标词;利用R4规则提取意见词,如果提取的意见词不在O中则向O1、O中加入意见词,否则不加入;可选的,当提取的意见词在O中则丢弃选取的意见词。
S3.遍历经过步骤二处理过的某位教师的评论集,根据T1中的目标词:利用第三规则R3提取目标词,如果提取的目标词不在T中则向T2、T中加入目标词,否则不加入;可选的,当提取的目标词在T中则丢弃选取的目标词;利用第二规则R2提取意见词,如果提取的意见词不在O中则向O2、O中加入意见词,否则不加入;可选的,当提取的意见词在O中则丢弃选取的意见词。
S4.判断O1、O2、T1、T2是否均为空集:当是,则输出O、T中的值,提取目标词和意见词完成;当不是,则执行S2。
本一些实施例中,步骤三中的第一规则R1表示给定意见词,根据直接相关或间接相关的句法修饰关系,提取目标词;第二规则R2表示给定目标词,根据直接相关或间接相关的句法修饰关系,提取意见词;第三规则R3表示给定目标词,根据直接相关或间接相关的句法修饰关系,提取目标词;第四规则R4表示给定意见词,根据直接相关或间接相关的句法修饰关系,提取意见词。
本一些实施例中,步骤三中的第一规则R1和第三规则R3的提取规则认为只有名词或名词短语才能成为目标词,第二规则R2和第四规则R4的提取规则认为只有形容词才能成为意见词。
提取规则的定义如表1:
表1提取规则说明
表1中,第1列是规则ID;第2列是提取规则描述,必须满足的约束(在s.t之后);第3列是输出的提取词;第4列是示例。在每个示例中,下划线的单词是给定的已知单词,而双引号的单词是提取的单词。括号中显示了相应的示例的依赖关系。在一些实施例中,i、j均为正整数。R11表示利用第一规则R1,根据直接相关的句法修饰关系,提取目标词;R12表示利用第一规则R1,根据间接相关的句法修饰关系,提取目标词;R21表示利用第二规则R2,根据直接相关的句法修饰关系,提取意见词;R22表示利用第二规则R2,根据间接相关的句法修饰关系,提取意见词;R31表示利用第三规则R3,根据直接相关的句法修饰关系,提取目标词;R32表示利用第三规则R3,根据间接相关的句法修饰关系,提取目标词;R41表示利用第四规则R4,根据直接相关的句法修饰关系,提取意见词;R42表示利用第四规则R4,根据间接相关的句法修饰关系,提取意见词。符号含义如表2所示,当意见词O带有下标时,如Oi则表示意见词i,目标词T、其他任何词H类似。
表2符号定义
以R11为例,用语言描述该规则即:从已知的意见词集合中取一个意见词O,判断O与其他词之间的依赖关系,若依赖关系在{MR}集合中,且O依赖的词的词性是名词,则根据O找到了一个目标词T。具体实例:给定的文本是“这个手机有一个好屏幕”,已知意见词“好”,“好”通过“mod”依赖与“屏幕”。“mod”表示修饰关系,在集合{MR}中,“屏幕”词性为名词。所以给定意见词“好”便可以提取出目标词“屏幕”。
步骤四、量化步骤三中提取出来的意见词,如图4所示,包括:
B1.选取何时的现有知网词典,词典包括中英文积极词性词语集合、消极词性词语集合、否定词集合、程度副词集合。
B2.根据评论数据改进选取的词典:为使得词典更符合当前文本库,随机抽取评论数据中的20%的数据,人工提取评论中的合理的积极词性词语、消极词性词语、否定词和程度副词,并且未出现在现有词典中,将其添加进词典。比如“充分”、“丰富”、“受用”等词放入中文积极词性集合中,“难懂”、“难”、“紧张”等词放入中文消极词性集合中,“应该”、“应当”、“不够”等词放入否定词集合中。
B3.根据改进的词典,遍历步骤三提取的意见词,判断意见词是否存在积极/消极情绪词集中。如果存在于积极词集中,则将其极性分极为1,如果存在于消极词集中,则将其极性分极为-1,均不在则极性分级为0。
B4.判断意见词是否被程度副词修饰。设定一个大小为五的窗口,若意见词在原句中前五个词中出现程度副词就被视为有程度副词修饰;若未出现程度副词,则被视为没有程度副词修饰,意见词的极性不变,得出该意见词的量化结果。根据不同的程度副词,设置不同的权值,知网词典中的程度副词集合中的most类别下的程度副词权值设为2,over类别下程度副词权值设为1.5,very类别下程度副词权值设为1.25,more类别下程度副词权值设为1.2,ish类别下程度副词权值设为1.2,insufficient类别下程度副词权值设为0.8,insufficient类别下程度副词权值设为0.5,inverse类别下程度副词权值设为-1,将权值乘步骤B3中得到的极性分级得到意见词最终的量化结果。
步骤五、将步骤三中提取出来的目标词进行分类,已知需要在课程教学设计与内容、教学方法、课程管理、课程考核、教学态度、学习收获六个方面评价教师教学情况。故将已提取的目标词划分到六个类别中,图5是目标词分类的流程图,包括:
C1.选用来自知网和百度文库的中文文本语料,采用gensim工具训练word2vec词向量模型,具体而言即首先利用model=gensim.models.Word2Vec()函数建立一个空的模型对象,再用model.build_vocab()函数遍历一次语料库建立词典,最后model.train()函数第二次遍历语料库建立神经网络模型,获得词向量模型。
C2.遍历步骤三中提取的目标词,将其带入训练好的word2vec词向量模型,获得目标词的向量形式。将给定的六个评价方面的词也带入模型训练获得对应向量形式。获得向量形式通过执行“model[]”即可,中括号内为需转成向量形式的词语。
C3.根据目标词和六个评价方面词的向量形式,计算各目标词与各评价方面词之间的余弦距离,可以根据向量形式带入余弦距离公式计算,也可以利用gensim中的similarity函数直接计算余弦距离,距离越大者相似度越高,取距离最大者归入该方面类别。
C4.根据步骤四的量化结果,以及C3中分类情况,计算每个类别的分值,即将每个类别下的目标词所对应的意见词的量化结果求和。最终得到用户在给定方面上的画像。
综上,本实施例通过构建教学评价中的教师画像,教师只需要查看自己的画像结果就可以了解到教学情况,而非逐条读取众多学生评价再自行总结,并且本实施例子中,提取目标词意见词的准确率、召回率以及F1值(准确率和召回率的调和平均,两倍的准确率与召回率的乘积除上准确率与召回率的和)均达到80%左右,意见词量化结果的准确率、召回率以及F1值均超过90%,达到了帮助教师方便快速、简洁清晰且精准有效地了解自己的教学效果的目的。本实施例虽然是以学生对教师教学评价来构建的教师画像,但同时也适用于构建其他领域的用户画像,比如基于电商消费者对商品的评价,可以构建消费者画像和商品的画像。这里不再赘述。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (6)
1.一种用户画像构建方法,其特征在于,包括步骤:
提取评价文本中的目标词和意见词;
量化意见词,得到意见词的量化结果;
将所述目标词进行分类:将各类别词和各所述目标词分别带入向量训练模型,得到有向量形式的类别词和有向量形式的目标词;计算各目标词与类别词之间的余弦距离;将最大余弦距离值所对应的目标词归入对应的类别中;
对各类别下的目标词所对应意见词的量化结果进行求和,得到各类别的分值;
根据各类别的分值得到用户画像。
2.根据权利要求1所述的一种用户画像构建方法,其特征在于,还包括如下步骤:
对评论文本进行预处理,包括:
清洗数据、筛除数据;
对评论文本进行分词、词性标注、依存句法分析。
3.根据权利要求1所述的一种用户画像构建方法,其特征在于,所述提取评价文本中的目标词和意见词,包括:
设置:初始意见词集,初始目标词集,第一初始中间意见词集,第二初始中间意见词集,第一初始中间目标词集,第二初始中间目标词集;
遍历预处理的评论文本,根据初始意见词集中的意见词,利用第一规则提取目标词,如果提取的目标词不在初始目标词集中,则向第一初始中间目标词集、初始目标词集中加入目标词,否则不加入;
遍历预处理的评论文本,根据初始意见词集中的意见词,利用第四规则提取意见词,如果提取的意见词不在初始意见词集中,则向第一初始中间意见词集、初始意见词集中加入意见词,否则不加入;
遍历预处理的评论文本,根据第一初始中间目标词集中的目标词,利用第三规则提取目标词,如果提取的目标词不在初始目标词集中,则向第二初始中间目标词集、初始目标词集中加入目标词,否则不加入;
遍历预处理的评论文本,根据第一初始中间目标词集中的目标词,利用第二规则提取意见词,如果提取的意见词不在初始意见词集中,则向第二初始中间意见词集、初始意见词集中加入意见词,否则不加入;
判断第一初始中间意见词集、第二初始中间意见词集、第一初始中间目标词集、第二初始中间目标词集是否均为空:如果是,则分别输出初始意见词集和初始目标词集,提取目标词和意见词完成。
4.根据权利要求1所述的一种用户画像构建方法,其特征在于:所述量化意见词,得到意见词的量化结果,包括:
遍历提取的意见词,赋予提取的意见词分值;
设置程度词的权重值;
判断意见词是否被程度词修饰:当是,将意见词的分值乘以意见词所对应程度词的权重值,得到意见词的量化结果;当否,意见词的量化结果为赋予的意见词分值。
5.根据权利要求1所述的一种用户画像构建方法,其特征在于,所述向量训练模型为word2vec模型。
6.根据权利要求1所述的一种用户画像构建方法,其特征在于,通过计算目标词与类别词之间的余弦距离,为向量,θ为向量和向量间的夹角,||x||为向量的模,||y||为向量的模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452154.7A CN110209767A (zh) | 2019-05-28 | 2019-05-28 | 一种用户画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452154.7A CN110209767A (zh) | 2019-05-28 | 2019-05-28 | 一种用户画像构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209767A true CN110209767A (zh) | 2019-09-06 |
Family
ID=67789130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910452154.7A Pending CN110209767A (zh) | 2019-05-28 | 2019-05-28 | 一种用户画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209767A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177402A (zh) * | 2019-12-13 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN112465315A (zh) * | 2020-11-16 | 2021-03-09 | 福建亿榕信息技术有限公司 | 一种画像方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587412B2 (en) * | 2005-08-23 | 2009-09-08 | Ricoh Company, Ltd. | Mixed media reality brokerage network and methods of use |
CN103885933A (zh) * | 2012-12-21 | 2014-06-25 | 富士通株式会社 | 用于评价文本的情感度的方法和设备 |
CN106126605A (zh) * | 2016-06-21 | 2016-11-16 | 国家计算机网络与信息安全管理中心 | 一种基于用户画像的短文本分类方法 |
-
2019
- 2019-05-28 CN CN201910452154.7A patent/CN110209767A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587412B2 (en) * | 2005-08-23 | 2009-09-08 | Ricoh Company, Ltd. | Mixed media reality brokerage network and methods of use |
CN103885933A (zh) * | 2012-12-21 | 2014-06-25 | 富士通株式会社 | 用于评价文本的情感度的方法和设备 |
CN106126605A (zh) * | 2016-06-21 | 2016-11-16 | 国家计算机网络与信息安全管理中心 | 一种基于用户画像的短文本分类方法 |
Non-Patent Citations (1)
Title |
---|
单晓红 等: "基于在线评论的用户画像研究—以携程酒店为例", 《情报理论与实践》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177402A (zh) * | 2019-12-13 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
CN111177402B (zh) * | 2019-12-13 | 2023-09-22 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN111738778B (zh) * | 2020-07-20 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN112465315A (zh) * | 2020-11-16 | 2021-03-09 | 福建亿榕信息技术有限公司 | 一种画像方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103886054B (zh) | 一种网络教学资源的个性化推荐系统和推荐方法 | |
CN104794212B (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
CN109492229B (zh) | 一种跨领域情感分类方法和相关装置 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN111767741A (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN110472042B (zh) | 一种细粒度情感分类方法 | |
Oramas Bustillos et al. | Opinion mining and emotion recognition in an intelligent learning environment | |
CN107862561A (zh) | 一种基于图片属性提取建立用户兴趣库的方法及设备 | |
CN102332028A (zh) | 一种面向网页的不良Web内容识别方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN110209767A (zh) | 一种用户画像构建方法 | |
CN110489523A (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN109726745A (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN110321918A (zh) | 基于微博的舆论机器人系统情感分析和图像标注的方法 | |
CN109815485A (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN116860978B (zh) | 基于知识图谱和大模型的小学语文个性化学习系统 | |
Samah | Naïve Bayes Twitter sentiment analysis in visualizing the reputation of communication service providers: During Covid-19 pandemic | |
André et al. | Toward automatic classification of online discussion messages for social presence | |
Suresh et al. | Mining of customer review feedback using sentiment analysis for smart phone product | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
Wu et al. | The analysis of public opinion in colleges and universities oriented to wireless networks under the application of intelligent data mining | |
Nguyen et al. | Analyzing customer experience in hotel services using topic modeling | |
CN112182227A (zh) | 基于transD知识图嵌入的文本情感分类系统及方法 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190906 |