CN104346408B - 一种对网络用户进行标注的方法与设备 - Google Patents

一种对网络用户进行标注的方法与设备 Download PDF

Info

Publication number
CN104346408B
CN104346408B CN201310344606.2A CN201310344606A CN104346408B CN 104346408 B CN104346408 B CN 104346408B CN 201310344606 A CN201310344606 A CN 201310344606A CN 104346408 B CN104346408 B CN 104346408B
Authority
CN
China
Prior art keywords
user
label
marked
version information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310344606.2A
Other languages
English (en)
Other versions
CN104346408A (zh
Inventor
魏芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201310344606.2A priority Critical patent/CN104346408B/zh
Publication of CN104346408A publication Critical patent/CN104346408A/zh
Application granted granted Critical
Publication of CN104346408B publication Critical patent/CN104346408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种对网络用户进行标注的方法与设备,通过采用分别从用户文本信息集合中挖掘出的第一特征信息,以及根据用户社交信息集合而挖掘出的第二特征信息,来对原始的用户文本信息集合进行扩展,从而可以在一定程度上克服原始的用户文本信息集合的信息稀疏性,进而使得根据扩展得到的用户文本信息对网络用户进行的标注的准确性得到提高。

Description

一种对网络用户进行标注的方法与设备
技术领域
本发明涉及模式识别技术领域,尤其涉及一种对网络用户进行标注的方法与设备。
背景技术
近年来,随着各种网络应用的兴起,越来越多的应用在给用户提供各种方便的同时也提供了用户文本信息的发布平台。通过这样的平台,用户可以非常方便地发布自己的观点、看法和状态等等,比如,个人空间的说说、个性签名、微博和微信等,都是可以提供这样一种平台的网络应用。其中,由于用户所发表的该些信息通常都是文本格式的,因此该些信息也可统称为用户文本信息。
以任意用户为例,其用户文本信息不仅可以让他人了解其观点、看法或状态等,同时,该用户文本信息也可以为网络电商在进行用户分析时提供依据。比如,网络电商可以采用一些分类方式对用户文本信息进行分类,从而确定与用户的身份或者商品偏好等属性相匹配的标签(比如“80后”、“白领”等标签),并根据确定出的标签对网络用户进行标注(比如直接利用确定出的标签对网络用户进行标注,或根据确定出的标签所对应的一些标识对网络用户进行标注等),进而后续可以很方便地根据用户被标注的标识(可以是标签),有针对性地向具有特定标签的用户推荐更有可能被其接受的商品,从而达到提升销售额等目的。因此,根据用户文本信息实现对用户的准确标注,对很多网络电商和移动网络运营商来说都有十分重要的意义。
现有技术中,一种常见的对网络用户进行标注方法是以用户文本信息作为用户文本信息分类器的输入,从而获得用户文本信息分类器对于输入的该信息的分类结果,并根据分类结果为用户标注相应的标签。该方法的缺陷在于,用户文本信息往往比较短,即输入分类器的信息在利用分类器进行就会存在信息稀疏的问题,从而可能导致得到的分类结果准确性不高。
发明内容
本发明实施例提供一种对网络用户进行标注的方法与设备,用以解决现有技术中的对网络用户进行标注方法存在的对用户文本信息的分类结果准确性不高的问题。
本发明实施例采用以下技术方案:
一种对网络用户进行标注的方法,包括:
获得待标注用户的用户文本信息集合和用户社交信息集合;其中,所述用户文本信息集合由所述待标注用户发布的用户文本信息构成,所述用户社交信息集合由所述待标注用户的用户社交信息构成;
从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,并根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息;
将挖掘出的所述第一特征信息和所述第二特征信息加入所述用户文本信息集合中,得到扩展后的用户文本信息集合;
根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签;
根据确定的标签,对所述待标注用户进行标注。
一种对网络用户进行标注的设备,包括:
信息获得单元,用于获得待标注用户的用户文本信息集合和用户社交信息集合;其中,所述用户文本信息集合由所述待标注用户发布的用户文本信息构成,所述用户社交信息集合由所述待标注用户的用户社交信息构成;
挖掘单元,用于从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,并根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息;
扩展单元,用于将挖掘出的所述第一特征信息和所述第二特征信息加入所述用户文本信息集合中,得到扩展后的用户文本信息集合;
标签确定单元,用于根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签;
标注单元,用于根据确定的标签,对所述待标注用户进行标注。
本发明实施例的有益效果如下:
本发明实施例提供的上述方案通过采用分别从用户文本信息集合中挖掘出的第一特征信息,以及根据用户社交信息集合而挖掘出的第二特征信息,来对原始的用户文本信息集合进行扩展,从而可以在一定程度上克服原始的用户文本信息集合的信息稀疏性,进而使得根据扩展得到的用户文本信息对网络用户进行的标注的准确性得到提高。
附图说明
图1为本发明实施例提供的对网络用户进行标注的方法的具体流程示意图;
图2为本发明实施例提供的对网络用户进行标注的方法在实际中的一种具体实施方式的流程示意图;
图3为本发明实施例提供的对网络用户进行标注的方法在实际中的一种具体实施方式的详细系统模块图;
图4为文本信息潜在语义建模模块的功能示意图;
图5为用户社交关系建模模块的功能示意图;
图6为用户的完整信息构建模块的功能示意图;
图7为标签判断模块的功能示意图;
图8为发明实施例提供的一种对网络用户进行标注的设备的具体结构示意图。
具体实施方式
为了解决现有技术中的对网络用户进行标注方法存在的对用户文本信息的分类结果准确性不高的问题,本发明实施例提供了一种对网络用户进行标注的方法与设备。
以下结合说明书附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限制本发明。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
本发明实施例首先提供了一种对网络用户进行标注的方法,该方法主要包括如图1所示的下述步骤:
步骤11,获得待标注用户的用户文本信息集合和用户社交信息集合;
其中,用户文本信息集合由该待标注用户发布的用户文本信息构成;而用户社交信息集合则由该待标注用户的用户社交信息构成。
一般地,任意用户的用户社交信息是指能够反映该用户的社交关系的信息,比如该用户的好友的信息,该用户的好友针对该用户所发表的用户文本信息而进行的评论内容,以及该用户的好友针对该用户所发表的用户文本信息而发表评论的次数,等等。根据该用户的用户社交信息,可以确定出该用户与与该用户之间存在社交关系的其他用户之间的相似程度和相互影响程度。
比如,根据该用户的两个好友针对该用户所发表的用户文本信息而发表评论的次数的多寡,可以从这两个好友中,确定发表评论的次数较多的用户与该用户之间的相互影响程度较大,而发表评论的次数较少的用户与该用户之间的相互影响程度较小。由于发表评论的次数较多的好友一般可以被认为对该用户所发布的用户文本信息比较感兴趣,即发表评论的次数较多的好友与该用户可能在某些方面存在一定的相似性,从而也可以根据该用户的好友针对该用户所发表的用户文本信息而发表评论的次数,确定该用户的好友与该用户之间的相似程度。
本发明实施例中,可以直接通过对诸如“发表评论的次数”这样的信息的归一化,确定用于表征不同用户之间的相似程度的相似度值,或确定用于表征不同用户之间的相互影响程度的影响力值。
由于目前已有比较成熟的现有技术,来实现根据某用户的用户社交信息确定该用户与与其存在社交关系的其他用户之间的影响力程度和相似程度,且该部分内容并非本发明的创新之处,因此对于该部分内容不再赘述。
步骤12,从该待标注用户的用户文本信息集合中挖掘用于表征该待标注用户的特定属性的第一特征信息,并根据该待标注用户的用户社交信息集合,挖掘用于表征该待标注用户的上述特定属性的第二特征信息;
其中,这里所说的特定属性可以但不限于包括:用户的职业、年龄段、性别、学历、高端人群、低端人群、商务人士、学生族和/或打工族,等等。以特定属性为“学生族”为例,表征该特定属性的第一特征信息可以但不限于包括:考试、上课、同学和/或重修等等关键词。
需要说明的是,一方面,在欲对某用户进行标注时,往往会期望是根据某个特定属性所匹配的标签来对其进行标注。比如,可能会期望根据与“用户的职业”这一特性属性相匹配的标签“教师”、“律师”和“医生”等等中的某一个或多个标签,来对该用户进行标注。另一方面,本发明实施例中,后续会根据第一特征信息和第二特征信息对用户文本信息进行扩充。因此,基于上述两方面的考虑,为了使得被扩充后的用户文本信息能够包含较多的反映用户的特定属性的信息,从而使得用户可以准确地被标注,本发明实施例中确定的第一特征信息和第二特征信息可以被规定为是用于表征待标注用户的特定属性的信息。
步骤13,将挖掘出的第一特征信息和第二特征信息加入用户文本信息集合中,得到扩展后的用户文本信息集合;
本发明实施例中,将第一特征信息和第二特征信息加入用户文本信息集合的方式可以但不限于是简单地将第一特征信息和第二特征信息插入到用户文本信息集合中。
需要说明的是,本领域技术人员根据本发明实施例提供的方案,而想到的其他任何通过将挖掘出的第一特征信息和第二特征信息加入用户文本信息集合中得到扩展后的用户文本信息集合的方式,均在本发明请求保护的范围之内。
步骤14,根据扩展后的用户文本信息集合,从预先设置的与属性相匹配的多个标签中,确定与扩展后的用户文本信息集合相匹配的标签;
本发明实施例中,可以通过将扩展后的用户文本信息集合输入用户文本信息集合分类器,来实现从预先设置的与属性相匹配的多个标签中,确定与扩展后的用户文本信息集合相匹配的标签。
具体而言,可以通过将扩展后的用户文本信息集合分别输入预先设置的分类器集群所包含的每个分类器,确定与扩展后的用户文本信息集合相匹配的标签。其中,这里所说的分类器集群满足:其包含的任意分类器均可以用于根据上述多个标签中的一个标签区分不同用户文本信息集合,且不同的分类器在区分不同用户文本信息集合时所根据的标签互不相同。
步骤15,根据确定的标签,对该待标注用户进行标注。
由于步骤15的具体实现方式可采用现有技术实现,因此不再赘述。
通过本发明实施例提供的上述方法可以看出,该方法通过采用分别从用户文本信息集合中挖掘出的第一特征信息,以及根据用户社交信息集合而挖掘出的第二特征信息,来对原始的用户文本信息集合进行扩展,从而可以在一定程度上克服原始的用户文本信息集合的信息稀疏性,进而使得根据扩展得到的用户文本信息对网络用户进行的标注的准确性得到提高。
可选的,上述步骤12中所述的从用户文本信息集合中挖掘用于表征该待标注用户的特定属性的第一特征信息的实现过程具体可以包括下述子步骤一和子步骤二:
子步骤一:根据用户文本信息集合包含的不同特征词的个数、预设用户集合中的所有用户的总个数,以及分别用于表征该待标注用户与用户集合中的其他各个用户之间的相似程度的各相似度值,确定用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息;
子步骤二:根据确定出的用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息,从不同特征词中选取特征词作为用于表征该待标注用户的特定属性的第一特征信息。
需要对子步骤一进行的说明包括:
1、所述用户集合中包含该待标注用户以及发布用户社交信息集合中的用户社交信息的用户;
2、各相似度值是根据用户社交信息集合确定的;
具体而言,若假设以U表示上述用户集合,并假设该用户集合中包含具备社交关系的用户u和用户v,那么根据用户社交信息集合中包含的诸如用户v针对用户u发布的用户文本信息而发表的评论的次数等信息,就可以采用如前文所述的相似度值的确定方式,确定用于表征该用户u和用户v之间的相似程度的相似度值,记为sim(u,v)。
3、所述的各潜在语义为与所述特定属性相匹配的潜在语义。这里所说的潜在语义也可以就是与所述特定属性相匹配的标签,或者是与所述特定属性相匹配的标签的同义词或近义词等等。
本发明实施例中,子步骤一具体可以通过计算下述公式[1]的最大值而实现:
式[1]中各符号的含义如下:
D为用户集合中的所有用户的用户文本信息集合的总数,一般情况下等于用户集合中不同用户的总数;
d为用户文本信息集合的标识,d的取值范围为[1,D];
p(d)表示标识为d的用户文本信息集合在D中的占比,多数情况下,p(d)=1/D;
W为标识为d的用户文本信息集合中包含的不同特征词的个数;
w为特征词的标识,其取值范围为[1,W];
z为潜在语义的标识;
p(w|z)表示标识为z的潜在语义在标识为w的特征词上的分布概率;
p(z|d)表示标识为d的用户文本信息集合在标识为z的潜在语义上的分布概率;
n(d,w)为标识为w的特征词出现在标识为d的用户文本信息集合中的次数;
Reg为根据待计算p(w|z)和p(z|d)的待标注用户的用户社交信息集合而确定出的一个约束项,该约束项中包含有表征该待标注用户与用户集合中的其他各个用户之间的相似程度的各相似度值。
本发明实施例中,通过使得P(D)最大化,就可以得出使得P(D)达到最大化的p(w|z)和p(z|d),即得到待标注用户的用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息。
需要说明的是,针对公式[1]的等式右侧而言,除Reg这项以外的其他部分也可以有其他表达方式。具体地,现有的概率潜在语义分析(Probabilistic Latent SemanticAnalysis,PLSA)技术中所提供的用于计算用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息和各潜在语义分别在不同特征词上的分布概率信息的类似公式都可以用以替代公式[1]的等式右侧中除Reg这项以外的其他部分。
本发明实施例中,Reg的具体计算公式可以如下式[2]所示:
式[2]中,T为预先指定的潜在语义的总数,从而z的取值范围为[1,T];这里的d具体而言为用户u的用户文本信息集合的标识,而dv则为用户v的用户文本信息集合的标识;p(z|dv)表示标识为dv的用户文本信息集合在标识为z的潜在语义上的分布概率。
由式[2]可知,若用户u为所述待标注用户,则这一项需要遍历用户集合中的除用户u外的其他各个用户分别与用户u的相似度值。而这一项则需要遍历用户集合中的除用户u外的其他各个用户的用户文本信息集合在各个潜在语义上的分布概率。
需要对子步骤二进行的说明包括:
根据确定出的用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,可以仅选取部分潜在语义,作为该用户文本信息集合最可能表达的潜在语义;进而可以进一步根据选取的潜在语义分别在不同特征词上的分布概率信息,从用户文本信息集合包含的不同特征词中选取若干比较能表征该待标注用户的特定属性的一些特征词作为所述的第一特征信息。
可选的,本发明实施例中的步骤12中所述的根据用户社交信息集合,挖掘用于表征待标注用户的特定属性的第二特征信息的实现过程具体可以包括下述子步骤a~子步骤c:
子步骤a:根据用户集合中的各个用户的用户社交信息集合以及前文所述的预先设置的与特定属性相匹配的多个标签,分别确定用户集合中的各个用户已经被标注的标签;
具体而言,由于针对任意用户而言,其用户社交信息集合中往往包含有其他用户(或者该用户自身)为该用户设置的标签的信息,因此,根据该用户的用户社交信息集合和前文所述的预先设置的与特定属性相匹配的多个标签,就可以确定该用户已经被标注的、与预先设置的与特定属性相匹配的多个标签中的标签相同的标签。
根据用户集合中的各个用户已经被标注的标签,可以得到一个“用户标签矩阵”。具体而言,矩阵的不同行的元素对应于用户集合中的不同用户,而不同列的元素则对应于所述多个标签中的不同标签。该矩阵的元素可以有两个取值,分别为0和1。以任意元素为例,当该元素为1时,代表该元素所对应的用户已经被标注了该元素所对应的标签;而当该元素为0时,,代表该元素所对应的用户没有被标注该元素所对应的标签。
子步骤b:根据用户集合中的各个用户已经被标注的标签、用户集合中的所有用户的总个数,以及与多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的该指定特征词分别在所述多个标签中的每个标签上的分布概率信息;
具体而言,可以采用如下式[3]所示的朴素贝叶斯公式,确定该待标注用户的用户文本信息集合中包含的该指定特征词分别在所述多个标签中的每个标签上的分布概率信息P(c|x):
公式[3]中各符号的含义如下:
x为指定特征词的标识;P(x)表示用户集合中的、其用户文本集合中包含有标识为x的指定特征词的用户在用户集合包含的用户总个数中的占比;其中,标识为x的指定特征词具体可以为通过执行前文所述的子步骤二而选取出的某个特征词;
c为标签的标识;P(c)表示用户集合中的、已经被标注了标识为c的标签的用户在用户集合包含的用户总个数中的占比;其中,P(c)可以简单地根据前文所述的“用户标签矩阵”而统计得出;
P(x|c)表示给定标签c时,该待标注用户的用户文本信息包含具备标识为x的指定特征词的可能性。由于这里给定的标签可以理解为潜在语义,因此该P(x|c)可以理解为该待标注用户的标识为c的潜在语义在标识为x的指定特征词上的分布概率信息。该分布概率信息可以但不限于采用前文所示的公式[1]计算得出。
子步骤c:根据确定出的该待标注用户的用户文本信息集合中包含的该指定特征词分别在所述多个标签中的每个标签上的分布概率信息,从多个标签中选取标签作为表征待标注用户的特定属性的第二特征信息。
比如,可以从所述多个标签中,选取在待标注用户的用户文本信息中包含的该特征词上的分布概率最大的标签,作为表征待标注用户的特定属性的第二特征信息。
可选的,在执行上述子步骤b的过程中,还可以进一步引入“表征用户集合中的不同用户之间的相互影响程度的影响力值”这一参数,作为该待标注用户的用户文本信息集合中包含的该指定特征词分别在所述多个标签中的每个标签上的分布概率信息的确定依据。具体而言,子步骤b的执行过程具体可以包括:
根据用户集合中的各个用户已经被标注的标签、用户集合中的所有用户的总个数、与多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,以及获得的根据用户社交信息集合而确定出的用于表征用户集合中的不同用户之间的相互影响程度的影响力值,确定该待标注用户的用户文本信息集合中包含的该指定特征词分别在所述多个标签中的每个标签上的分布概率信息。
其中,“用于表征用户集合中的不同用户之间的相互影响程度的影响力值”这一参数可以采用前文介绍的方法进行确定,在此不再赘述。
本发明实施例中,上述影响力值主要用在计算P(c)的过程中。具体而言,对于已经被标注了标识为c的标签的某用户而言,“用户标签矩阵”中与该用户和该标签相对应的元素为“1”。若不考虑该用户与待标注用户之间的影响程度,则在根据“用户标签矩阵”而统计得到P(c)时,会直接按照该元素的原始值“1”进行统计;而若考虑该用户与待标注用户之间的影响程度,则在根据“用户标签矩阵”而统计得到P(c)时,会按照该元素的原始值“1”乘以表征该用户与待标注用户之间的相互影响程度的影响力值而得到的乘积进行统计。
以下以上述方法的一种具体实施方式为例,详细说明上述方法在实际中的具体应用。
该具体实施方式主要可以分两个方面进行。
第一方面,对用户发布在社交网络上的用户文本信息进行整合,并从整合得到的用户文本整合信息(即用户文本信息集合)中抽取出较高层次的语义信息;根据抽取出的语义信息,确定可以表征用户特定特征(如偏好特征、身份特征等等)的文本语义特征。
在第一方面的实现过程中,将社交网络中用户之间的朋友关系引入到语义信息的抽取过程中,将单纯的基于文本分析的用户标注方式升级到综合用户文本信息和社交网络结构的全新的用户标注方式,从而提高用户标注的正确性。具体实现方式将在后文进行详述,在此不再赘述。
第二方面,通过训练分类器集群将传统的单一类别预定义标签分类扩展为多类别自定义标签分类,从而适应于社交网络自定义用户标签的现状。
具体地,以单个用户为例,针对该用户的具体实施方式的实现流程示意图如图2所示,其主要包括下述步骤:
步骤一:分别获取多个用户的用户文本信息和用户社交信息;
以微博、人人、说说等社交网络为例,可以从用户的个人主页中,提取到用户所发布的各种用户文本信息,比如用户所发布的自己的观点、看法和心情状态等等用户文本信息;同时,可以提取用户的好友对于该用户所发布的用户文本信息进行的评论等用户社交信息。一般说来,“用户社交信息”可以定义为与用户的网络社交关系有关的信息,比如上述由用户的好友针对用户所发布的用户文本信息进行的评论、用户与其好友之间的关注关系(如单向关注关系和双向关注关系等)等等。
步骤二:根据通过执行步骤一而获取到的信息,挖掘用户数据特征;
步骤二具体可以分为两个子步骤,即用户文本信息语义特征抽取子步骤和用户社交关系标注特征抽取子步骤。这两个子步骤可以并行执行,也可以串行执行。下文先分别对这两个子步骤进行简单说明,具体的详细说明则请参见后文。
简单来说,用户文本信息语义特征抽取子步骤具体可以采用下述实现方式:
首先,针对上述多个用户中的每个用户执行:将获得的由该用户发布的各种用户文本信息整合成包含所述各种用户文本信息的一个用户文本信息。为了与获得的各种用户文本信息的称谓相区分,后文将整合得到的该用户文本信息称为“用户文本信息集合”。
然后,分别从每个用户的用户文本信息集合中抽取用户数据特征。为了与根据用户社交信息抽取的用户数据特征相区分,从用户文本信息集合中抽取的用户数据特征可以称为第一用户数据特征,而根据用户社交信息抽取的用户数据特征可以称为第二用户数据特征。
本发明实施例中,在从用户文本信息集合中抽取用户数据特征的过程中,加入了如式[2]所示的约束项,使得挖掘出的第一用户数据特征能够从一定程度上反映用户的社交关系,从而使得后续利用第一用户数据特征而扩充的用户文本信息集合更能与用户的实际社交关系相匹配,提高对网络用户进行标注的准确性。
此外,以获取到的用户社交信息为该用户在社交网络中的朋友关系信息为例,用户社交关系标注特征抽取子步骤则具体可以采用前文介绍的朴素贝叶斯公式来完成,在此不再赘述。
步骤三:利用通过执行步骤二而挖掘出的第一用户数据特征和第二用户数据特征,对用户文本信息集合进行扩充,得到“用户完整信息”;
步骤三即图2中所述的“用户完整信息构建”。
由于用户文本信息和用户社交信息均具有数据稀疏、噪音(这里所说的噪声主要是指一些非常见的字符等)较多的特点,且该特点也是导致现有技术中的对网络用户进行标注的方法存在的准确性不高的主要原因,因此在该具体实施方式中,提出了利用第一用户数据特征和第二用户数据特征对用户文本信息集合进行扩充。
步骤四:将各用户的用户完整信息分别输入预先训练好的分类器集群所包含的每个分类器,确定与用户完整信息相匹配的标签。
该具体实施方式的详细系统模块图如图3所示。图3中的文本信息潜在语义建模这一模块具备前文所述的用户文本信息语义特征抽取的功能,而社交关系建模这一模块则具备前文所述的用户社交关系标注特征抽取的功能。
具体而言,文本信息潜在语义建模这一模块的功能如图4所示,具体包括:
针对每个用户均执行下述步骤:
首先,将用户发表的所有用户文本信息整合为一个用户文本信息集合;
然后,根据公式[1],确定用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息;
最后,根据确定出的用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息,从不同特征词中选取特征词作为前文所述的第一用户数据特征。
而用户社交关系建模这一模块的具体功能如图5所示,具体包括:根据公式[3]所示的朴素贝叶斯公式,挖掘前文所述的第一用户数据特征。该功能的具体实现过程中,需要利用到图5所示的用户标签矩阵和分别表征用户集合内的不同用户两两之间的相互影响程度的影响力值。该用户社交关系建模模块功能的具体实现方式详见前文对本发明实施例提供的对网络用户进行标注的方法的说明,在此不再赘述。
需要说明的是,本发明实施例中通过将社交网络中用户之间的朋友关系等社交关系引入用户数据特征挖掘的过程中,从而利用用户社交关系网络中的评价信息定义用户的社交关系特征,可以更准确的进行用户标注。
此外,图3中所示的用户的完整信息构建这一模块的主要作用在于,对于每个用户执行:针对该用户挖掘出的第一用户数据特征和第二用户数据特征添加该用户的用户文本信息集合中。从而可以有效地避免用户文本信息集合所包含的信息的稀疏性导致的语义缺失、偏差、错误等问题。具体地,该模块的功能示意图如图6所示。
图3中所示的标签判断这一模块的主要功能如图7所示。该模块主要用于将用户的完整信息构建这一模块所输出的待标注用户完整文本信息输入一个分类器集群。该分类器集群中的每一个分类器用于根据单一标签对待标注用户完整文本信息进行分类,从而实现确定与待标注用户相匹配的标签。
由上述具体实施方式可以看出,采用本发明实施例提供的方法,通过在用户层面进行数据特征建模的方式,将较高层次的语义信息和社交关系特征扩充到用户生成的信息文本中,在保留完整的用户生成文本信息的基础上,解决了社交网络用户生成信息文本稀疏性和高噪音的问题。在该模型为用户进行分类的过程中,对于某一用户,通过对用户文本信息潜在语义进行建模,得到用户的文本语义特征;利用用户社交关系和社交关系中的评价信息,对用户社交特征进行建模;同时将用户文本语义特征和社交关系特征整合到用户发布的原始状态信息中;将用户扩充后的完整信息作为分类器集群的输入,分类器集群将按照顺序给出该用户的分类标签结果。
出于与本发明实施例提供的对网络用户进行标注的方法相同的发明构思,本发明实施例还提供一种对网络用户进行标注的设备,该设备的具体结构示意图如图8所示,包括如下功能单元:
信息获得单元81,用于获得待标注用户的用户文本信息集合和用户社交信息集合;其中,用户文本信息集合由待标注用户发布的用户文本信息构成,用户社交信息集合由待标注用户的用户社交信息构成;
挖掘单元82,用于从用户文本信息集合中挖掘用于表征待标注用户的特定属性的第一特征信息,并根据用户社交信息集合,挖掘用于表征待标注用户的特定属性的第二特征信息;
扩展单元83,用于将挖掘出的第一特征信息和第二特征信息加入用户文本信息集合中,得到扩展后的用户文本信息集合;
标签确定单元84,用于根据扩展后的用户文本信息集合,从预先设置的与特定属性相匹配的多个标签中,确定与扩展后的用户文本信息集合相匹配的标签;
标注单元85,用于根据确定的标签,对待标注用户进行标注。
可选的,挖掘单元82具体用于:
根据用户文本信息集合包含的不同特征词的个数、预设用户集合中的所有用户的总个数,以及分别用于表征待标注用户与用户集合中的其他各个用户之间的相似程度的各相似度值,确定用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息;
根据确定出的用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及各潜在语义分别在不同特征词上的分布概率信息,从不同特征词中选取特征词;
其中:用户集合中包含待标注用户以及发布用户社交信息集合中的用户社交信息的用户;各相似度值是根据用户社交信息集合确定的;潜在语义为与特定属性相匹配的潜在语义。
可选的,挖掘单元82具体用于:
根据用户集合中的各个用户的用户社交信息集合以及所述多个标签,分别确定用户集合中的各个用户已经被标注的标签;
根据用户集合中的各个用户已经被标注的标签、用户集合中的所有用户的总个数,以及与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的指定特征词分别在所述多个标签中的每个标签上的分布概率信息;
根据确定出的所述多个标签中的每个标签分别在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,从所述多个标签中选取标签。
可选的,挖掘单元82具体用于:根据用户集合中的各个用户已经被标注的标签、用户集合中的所有用户的总个数、与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,以及获得的根据用户社交信息集合而确定出的用于表征用户集合中的不同用户之间的相互影响程度的影响力值,确定该待标注用户的用户文本信息集合中包含的指定特征词分别在所述多个标签中的每个标签上的分布概率信息。
可选的,标签确定单元84具体用于:
通过将扩展后的用户文本信息集合分别输入预先设置的分类器集群所包含的每个分类器,确定与扩展后的用户文本信息集合相匹配的标签;
其中,分类器集群包含的任意分类器均用于根据所述多个标签中的一个标签区分不同用户文本信息集合,且不同的分类器在区分不同用户文本信息集合时所根据的标签互不相同。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种对网络用户进行标注的方法,其特征在于,包括:
获得待标注用户的用户文本信息集合和用户社交信息集合;其中,所述用户文本信息集合由所述待标注用户发布的用户文本信息构成,所述用户社交信息集合由所述待标注用户的用户社交信息构成;
从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,并根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息;从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,具体包括:根据所述用户文本信息集合包含的不同特征词的个数、预设用户集合中的所有用户的总个数,以及分别用于表征所述待标注用户与所述用户集合中的其他各个用户之间的相似程度的各相似度值,确定所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息;根据确定出的所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息,从所述不同特征词中选取特征词;其中:所述用户集合中包含所述待标注用户以及发布所述用户社交信息集合中的用户社交信息的用户;所述各相似度值是根据所述用户社交信息集合确定的;所述潜在语义为与所述特定属性相匹配的潜在语义;
将挖掘出的所述第一特征信息和所述第二特征信息加入所述用户文本信息集合中,得到扩展后的用户文本信息集合;
根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签;
根据确定的标签,对所述待标注用户进行标注。
2.如权利要求1所述的方法,其特征在于,根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息,具体包括:
根据所述用户集合中的各个用户的用户社交信息集合以及所述多个标签,分别确定所述用户集合中的各个用户已经被标注的标签;
根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数,以及与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息;
根据确定出的所述多个标签中的每个标签分别在所述待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,从所述多个标签中选取标签。
3.如权利要求2所述的方法,其特征在于,根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数,以及确定出的与所述多个标签相对应的潜在语义在所述用户集合中的其他各个用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息,具体包括:
根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数、与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,以及获得的根据所述用户社交信息集合而确定出的用于表征所述用户集合中的不同用户之间的相互影响程度的影响力值,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息。
4.如权利要求1~3任一所述的方法,其特征在于,根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签,具体包括:
通过将所述扩展后的用户文本信息集合分别输入预先设置的分类器集群所包含的每个分类器,确定与所述扩展后的用户文本信息集合相匹配的标签;
其中,所述分类器集群包含的任意分类器均用于根据所述多个标签中的一个标签区分不同用户文本信息集合,且不同的所述分类器在区分不同用户文本信息集合时所根据的标签互不相同。
5.一种对网络用户进行标注的设备,其特征在于,包括:
信息获得单元,用于获得待标注用户的用户文本信息集合和用户社交信息集合;其中,所述用户文本信息集合由所述待标注用户发布的用户文本信息构成,所述用户社交信息集合由所述待标注用户的用户社交信息构成;
挖掘单元,用于从所述用户文本信息集合中挖掘用于表征所述待标注用户的特定属性的第一特征信息,并根据所述用户社交信息集合,挖掘用于表征所述待标注用户的所述特定属性的第二特征信息;所述挖掘单元具体用于:根据所述用户文本信息集合包含的不同特征词的个数、预设用户集合中的所有用户的总个数,以及分别用于表征所述待标注用户与所述用户集合中的其他各个用户之间的相似程度的各相似度值,确定所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息;根据确定出的所述用户文本信息集合分别在预先指定的各潜在语义上的分布概率信息,以及所述各潜在语义分别在所述不同特征词上的分布概率信息,从所述不同特征词中选取特征词;其中:所述用户集合中包含所述待标注用户以及发布所述用户社交信息集合中的用户社交信息的用户;所述各相似度值是根据所述用户社交信息集合确定的;所述潜在语义为与所述特定属性相匹配的潜在语义;
扩展单元,用于将挖掘出的所述第一特征信息和所述第二特征信息加入所述用户文本信息集合中,得到扩展后的用户文本信息集合;
标签确定单元,用于根据所述扩展后的用户文本信息集合,从预先设置的与所述属性相匹配的多个标签中,确定与所述扩展后的用户文本信息集合相匹配的标签;
标注单元,用于根据确定的标签,对所述待标注用户进行标注。
6.如权利要求5所述的设备,其特征在于,所述挖掘单元具体用于:
根据所述用户集合中的各个用户的用户社交信息集合以及所述多个标签,分别确定所述用户集合中的各个用户已经被标注的标签;
根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数,以及与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息;
根据确定出的所述多个标签中的每个标签分别在所述待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,从所述多个标签中选取标签。
7.如权利要求6所述的设备,其特征在于,所述挖掘单元具体用于:根据所述用户集合中的各个用户已经被标注的标签、所述用户集合中的所有用户的总个数、与所述多个标签相对应的潜在语义在待标注用户的用户文本信息中包含的指定特征词上的分布概率信息,以及获得的根据所述用户社交信息集合而确定出的用于表征所述用户集合中的不同用户之间的相互影响程度的影响力值,确定该待标注用户的用户文本信息集合中包含的所述指定特征词分别在所述多个标签中的每个标签上的分布概率信息。
8.如权利要求5~7任一所述的设备,其特征在于,所述标签确定单元具体用于:
通过将所述扩展后的用户文本信息集合分别输入预先设置的分类器集群所包含的每个分类器,确定与所述扩展后的用户文本信息集合相匹配的标签;其中,所述分类器集群包含的任意分类器均用于根据所述多个标签中的一个标签区分不同用户文本信息集合,且不同的所述分类器在区分不同用户文本信息集合时所根据的标签互不相同。
CN201310344606.2A 2013-08-08 2013-08-08 一种对网络用户进行标注的方法与设备 Active CN104346408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310344606.2A CN104346408B (zh) 2013-08-08 2013-08-08 一种对网络用户进行标注的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310344606.2A CN104346408B (zh) 2013-08-08 2013-08-08 一种对网络用户进行标注的方法与设备

Publications (2)

Publication Number Publication Date
CN104346408A CN104346408A (zh) 2015-02-11
CN104346408B true CN104346408B (zh) 2017-11-21

Family

ID=52502021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310344606.2A Active CN104346408B (zh) 2013-08-08 2013-08-08 一种对网络用户进行标注的方法与设备

Country Status (1)

Country Link
CN (1) CN104346408B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933139B (zh) * 2015-06-17 2018-06-01 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN105447118A (zh) * 2015-11-17 2016-03-30 中青冠岳科技(北京)有限公司 基于地图显示功能的即时通信方法
CN107038178B (zh) * 2016-08-03 2020-07-21 平安科技(深圳)有限公司 舆情分析方法和装置
CN108984555B (zh) * 2017-06-01 2021-09-28 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备
CN107633453A (zh) * 2017-08-14 2018-01-26 广东网金控股股份有限公司 一种基于社交数据的征信值计算方法及系统
CN109993586B (zh) * 2019-04-10 2021-12-07 秒针信息技术有限公司 一种营销产品的方法和装置
CN113139125B (zh) * 2021-04-21 2024-02-09 北方工业大学 一种用户需求驱动的服务匹配方法
CN113742444A (zh) * 2021-07-08 2021-12-03 平安科技(深圳)有限公司 文本标注方法、装置、存储介质及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654859A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
CN102710755A (zh) * 2012-05-18 2012-10-03 华为技术有限公司 终端用户社交网的数据挖掘方法、相关方法、装置和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327877A1 (en) * 2008-06-28 2009-12-31 Yahoo! Inc. System and method for disambiguating text labeling content objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654859A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
CN102710755A (zh) * 2012-05-18 2012-10-03 华为技术有限公司 终端用户社交网的数据挖掘方法、相关方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"一种面向微博用户的标签推荐方法";陈渊 等,;《智能计算机与应用》;20111031;第1卷(第3期);第21-26页 *

Also Published As

Publication number Publication date
CN104346408A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104346408B (zh) 一种对网络用户进行标注的方法与设备
CN104090890B (zh) 关键词相似度获取方法、装置及服务器
WO2019153604A1 (zh) 人机识别模型的建立装置、方法及计算机可读存储介质
Xu et al. Characterizing destination networks through mobility traces of international tourists—A case study using a nationwide mobile positioning dataset
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN102262632B (zh) 进行文本处理的方法和系统
US9171072B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
CN110413780A (zh) 文本情感分析方法、装置、存储介质及电子设备
TW201741948A (zh) 履歷評估方法和裝置
CN107220386A (zh) 信息推送方法和装置
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
CN108292231A (zh) 从数据生成应用
Raja et al. Android and ODK based data collection framework to aid in epidemiological analysis
CN109582799A (zh) 知识样本数据集的确定方法、装置及电子设备
CN109815955A (zh) 题目辅助方法及系统
CN109460270A (zh) 社交网络的成员所说语言的确定
WO2022005663A1 (en) Computerized information extraction from tables
CN107193962A (zh) 一种互联网推广信息的智能配图方法及装置
WO2015061046A2 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
CN107391675A (zh) 用于生成结构化信息的方法和装置
CN113886567A (zh) 一种基于知识图谱的教学方法及系统
Batool et al. Internet of Things data analytics for user authentication and activity recognition
CN106537387B (zh) 检索/存储与事件相关联的图像
CN115391670B (zh) 一种基于知识图谱的互联网行为分析方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant