CN103914494B - 一种微博用户身份识别方法及系统 - Google Patents

一种微博用户身份识别方法及系统 Download PDF

Info

Publication number
CN103914494B
CN103914494B CN201310008156.XA CN201310008156A CN103914494B CN 103914494 B CN103914494 B CN 103914494B CN 201310008156 A CN201310008156 A CN 201310008156A CN 103914494 B CN103914494 B CN 103914494B
Authority
CN
China
Prior art keywords
user
identified
behavior
institute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310008156.XA
Other languages
English (en)
Other versions
CN103914494A (zh
Inventor
赵立永
于晓明
杨建武
郑妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201310008156.XA priority Critical patent/CN103914494B/zh
Priority to PCT/CN2013/088616 priority patent/WO2014108004A1/zh
Priority to US14/760,048 priority patent/US20150356091A1/en
Publication of CN103914494A publication Critical patent/CN103914494A/zh
Application granted granted Critical
Publication of CN103914494B publication Critical patent/CN103914494B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication

Abstract

本发明提供一种微博用户身份识别方法及系统,所述方法包括:获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。

Description

一种微博用户身份识别方法及系统
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种微博用户身份识别方法及系统。
背景技术
随着web技术的发展和微博的出现,越来越多的用户加入到互联网中,成为虚拟社会中的一员,促进了信息传播方式的变革,提高了信息传播的效率。然而,微薄用户身份的识别作为微薄后台维护的重要组成部分,其识别过程主要通过微薄用户在网络注册、存储的数据信息进行用户身份识别。例如:从网站获取待识别用户访问网站的日志、临时信息及注册信息来实现用户身份识别;或者,通过中文文本分类方法进行微薄用户身份识别。
但是,在现有的微薄用户身份识别过程中,发明人发现技术至少存在如下问题:
现有技术中通过网站获取待识别用户访问网站的日志、临时信息及注册信息来实现用户身份识别的过程,由于用户身份识别过程所依据的数据主要依靠从网站获取用户注册信息以及该用户的日志及临时信息,从而使得数据获取较为困难,且准确性不高。
现有技术中采用中文文本分类的方法虽然可以实现微薄用户身份识别,但是,无法满足当前微博用户身份识别的准确性及实时性。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提出一种准确性高,实时性强的微博用户身份识别方法及系统。
本发明提供一种微博用户身份识别方法,包括:
获取待识别用户行为数据以及用户行为的特征库信息;
预处理所述获取的待识别用户行为数据;
将所述预处理后的用户行为数据,进行语义单元重构;
获取所述语义单元的属性信息以及其对应的权重;
根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;
当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
本发明还提供一种微博用户身份识别系统,包括:
信息获取单元,用于获取待识别用户行为数据以及用户行为的特征库信息;
预处理单元,用于预处理所述获取的待识别用户行为数据;
语义单元重构单元,用于将所述预处理后的用户行为数据,进行语义单元重构;
属性及权重信息获取单元,还用于获取所述语义单元的属性信息以及其对应的权重;
行为特征抽取单元,用于根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
比较单元,用于将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;
身份确定单元,用于当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
本发明提供的微博用户身份识别方法及系统,通过获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
附图说明
图1为本发明实施例提供的一种微博用户身份识别方法的流程图;
图2为本发明提供的一种微博用户身份识别方法中用户行为的特征库的构建流程图;
图3为本发明提供的一种微博用户身份识别方法中更新用户行为的特征库的流程图;
图4为本发明实施例提供的一种微博用户身份识别系统结构示意图;
图5为本发明实施例提供的另一种微博用户身份识别系统结构示意图;
图6为本发明实施例提供的一种微博用户身份识别方法中语义单元属性信息数据结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的一种微博用户身份识别方法及系统进行详细描述。
如图1所示,为本发明实施例子提供的一种微博用户身份识别方法,该方法包括:
101:获取待识别用户行为数据以及用户行为的特征库信息;
102:预处理所述获取的待识别用户行为数据;所述预处理主要包括行为数据筛选、拼写纠正、分词和词性标注。
103:将所述预处理后的用户行为数据,进行语义单元重构;所述语义单元重构是在预处理的基础上应用词性信息进行词粘连的方法,通过合并特定的词,来构建包含更丰富语义的语义单元(词串)。
104:获取所述语义单元的属性信息以及其对应的权重;其中,所述语义单元的属性信息是指统计每个语义单元的词频和文档频率;所述语义单元的权重则采用TFIDF函数来实现用户行为特征的权值计算,实现用户行为特征的数值化。
105:根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;所述待识别用户行为特征是指抽取最能代表用户行为的特征,并且特征项(即语义单元)具有很好的区分度,对于单个待识别用户主要采用词权重、词频、词性相结合的方法,根据词权重和词频进行关键词排序;根据停用词表过滤掉停用词或非停用词(满足词长大于最大长度或小于最小长度);选取词性为“a”,“cw”,“v”,“j”,“ns”,“nr”,“nt”,“nz”或者包含“不”的词。
106:将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;所述比较的过程进行用户分类,主要可以采用KNN算法,K值选取方法采用概率分布的方法,即相似的特征向量和特征向量空间之比。具体分类思路为:比较待识别用户和用户行为特征库信息中每个用户类别的相似度sim(u,C),比较用户和每个类别中包含用户的相似度sim(u,Cui),如果sim(u,C)大于经验阈值,或者多数sim(u,Cui)大于经验阈值,则认为用户和该类别存在相关性,选取相似度最大的用户类别来确定用户身份。
采用调整余弦相似度的测量方法计算特征向量之间的相似度,具体步骤如下:
(1)对于特征向量库中每一个特征向量,计算与该用户特征向量的相似度;
(2)进行向量对齐操作,对于向量v1和v2,求其所有特征项的并集C(v1,v2),然后将v1和v2映射到C上,得到新的向量v1’和v2’;
(3)采用调整余弦相似度计算公式计算v1’和v2’的相似度。
107:当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
如图2所示,为本发明实施例子提供的一种微博用户身份识别方法中构建用户行为的特征库流程,该构建方法包括:
201:获取已知用户行为数据;具体的讲,就是获取已知用户行为数据,即训练数据;该训练数据用于构建用户行为的特征库。
202:预处理所述获取已知用户行为数据;具体的讲,就是按照已知用户的不同身份,对训练数据(即已知用户数据)进行标注,对相同身份的每个用户的微博消息进行过滤,过滤的方法是比较消息的长度和观测值θ(通过对大量微博消息统计分析,10个字符以内的微博消息包含较少或没有语义信息,因此本系统中θ=10III)之间的大小关系,如果长度小于观测值,则将微博作为噪声过滤掉。拼写检查主要根据拼写常见错误对照表进行拼写错误校正。利用分词和词性标注工具进行分词及词性标注,处理后每个词都包含词字符串信息和词性,分词和词性标注的工具均来自已知技术,此处不再赘述。
203:将所述预处理后的用户行为数据,进行语义单元重构;所述语义单元重构具体为:由于长词串相对于短词串包含更多语义信息,具有更强的表达能力,所以语义单元重构就是在步骤201处理结果的基础上,通过特定的规则对相邻的特定词进行词粘连,进而产生更长的语义串。该步骤要处理的相邻词包括“ns”地名,“nr”人名,“nt”机构名,“nz”专有名词和“j”简称等,处理的规则是组合第一次出现该类型词和最后一次出现该类型词之间的所有词。标注粘连后的词串词性为“cw”,在特征选择和权值计算时,该类词更重要。
204:获取所述语义单元的属性信息以及其对应的权重;
其中,所述获取语义单元的属性信息,是基于步骤201和步骤202,为所述语义单元进行统一编号,建立微博一语义单元索引向量,按用户统计语义单元的属性信息,包括词频和文档频率,为单个用户行为特征提取做准备,按照相同身份用户进行词频和文档频率统计,为相同身份类别的类别行为特征提取做准备,处理结果信息保存到如图6所示的数据结构中。
所述获取所述语义单元的权重的具体过程为:
首先,根据自然语言处理领域中常用的停用词表过滤掉停用词,并过滤掉词频小于经验阈值且词性为非包含“n”、“cw”的语义单元。其次,采用基于TF-IDF权值计算方法,计算每个语义单元的权值,对于特定类型的语义单元赋予更高的权值,具体方法为,对于词性为“nr”人名,如是式(2)所示,加权系数α=2.0,对于词性为“cw”粘连词,如是式(3)所示,加权系数为β=1.5,具体权值计算公式为:
weightl=TF|log2 IDF (1)
weight2=2.0|TF|log2 IDF (2)
weight3=1.5|TF|log2 IDF (3)
205:根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;具体获取过程为:
对于所述获取的已知用户身份的训练数据主要采用卡方统计、词性、词频相结合的方法;首先计算每个语义单元相当于用户类别的卡方值,按照卡方值对语义单元进行排序;过滤掉长度等于1,且词性为非nr的词;根据停用词表过滤掉停用词或非停用词(满足词长大于最大长度或小于最小长度);选取词性为“a”,“cw”,“v”,“j”,“ns”,“nr”,“nt”,“nz”或者包含“不”的词;上述信息均不能区分时,选择词频较大的语义单元。
为了控制分类过程中特征的维数,设定选取语义单元的上限值θ=200。
206:将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。
如图3所示,为本发明实施例子提供的一种微博用户身份识别方法中更新用户行为的特征库的流程;该流程包括:
301:获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;
302:比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;该步骤可以采用卡方统计方法,计算语义单元与用户类别的卡方值,通过所述获取的卡方值来评价相关性。
303:按照所述相似度由大到小的顺序,对所述语义单元进行排序;
304:获取相似度前top-n个语义单元作为该类型用户的行为特征;
305:将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。
需要说明的是,以上所述的实施例子中所述行为特征至少包括一个语义单元;所述语义单元属性信息如图6所示,至少包括:索引值,字符信息,词性,词频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。
所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和词性标注。
如图4所示,为本发明实施例子提供的一种微博用户身份识别系统,该系统包括:
信息获取单元401,用于获取待识别用户行为数据以及用户行为的特征库信息;
预处理单元402,用于预处理所述获取的待识别用户行为数据;
语义单元重构单元403,用于将所述预处理后的用户行为数据,进行语义单元重构;
属性及权重信息获取单元404,还用于获取所述语义单元的属性信息以及其对应的权重;
行为特征抽取单元405,用于根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
比较单元406,用于将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;
身份确定单元407,用于当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
需要说明的是,如图5所示,该系统还包括:用户行为的特征库构建单元501和/或信息反馈单元502;
所述用户行为的特征库构建单元501,用于获取已知用户行为数据;预处理所述获取已知用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。
所述信息反馈单元502,用于获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;按照所述相似度由大到小的顺序,对所述语义单元进行排序;获取相似度前top-n个语义单元作为该类型用户的行为特征;将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。
以上所述行为特征至少包括一个语义单元;所述语义单元属性信息至少包括:索引值,字符信息,词性,词频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。
所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和词性标注。
本发明提供的微博用户身份识别方法及系统,通过获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:(方法的步骤),所述的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种微博用户身份识别方法,其特征在于,包括:
获取待识别用户行为数据以及用户行为的特征库信息;
预处理所述获取的待识别用户行为数据;
将所述预处理后的用户行为数据,进行语义单元重构;
获取所述语义单元的属性信息以及其对应的权重;
根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;
当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定;
在所述待识别用户身份确定之后,所述方法还包括:
获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;
比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;
按照所述相似度由大到小的顺序,对所述语义单元进行排序;
获取相似度前top-n个语义单元作为该类型用户的行为特征;
将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。
2.根据权利要求1所述的微博用户身份识别方法,其特征在于,在获取待识别用户行为数据以及用户行为的特征库信息的步骤之前,该方法还包括:
获取已知用户行为数据;
预处理所述获取已知用户行为数据;
将所述预处理后的用户行为数据,进行语义单元重构;
获取所述语义单元的属性信息以及其对应的权重;
根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;
将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。
3.根据权利要求1所述的微博用户身份识别方法,其特征在于,所述行为特征至少包括一个语义单元;所述语义单元属性信息至少包括:索引值,字符信息,词性,词频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。
4.根据权利要求3所述的微博用户身份识别方法,其特征在于,所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和词性标注。
5.一种微博用户身份识别系统,其特征在于,包括:
信息获取单元,用于获取待识别用户行为数据以及用户行为的特征库信息;
预处理单元,用于预处理所述获取的待识别用户行为数据;
语义单元重构单元,用于将所述预处理后的用户行为数据,进行语义单元重构;
属性及权重信息获取单元,还用于获取所述语义单元的属性信息以及其对应的权重;
行为特征抽取单元,用于根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
比较单元,用于将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;
身份确定单元,用于当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定;
所述系统还包括:信息反馈单元,用于获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;按照所述相似度由大到小的顺序,对所述语义单元进行排序;获取相似度前top-n个语义单元作为该类型用户的行为特征;将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。
6.根据权利要求5所述的微博用户身份识别系统,其特征在于,该系统还包括:用户行为的特征库构建单元,用于获取已知用户行为数据;预处理所述获取已知用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。
7.根据权利要求5所述的微博用户身份识别系统,其特征在于,所述行为特征至少包括一个语义单元;所述语义单元属性信息至少包括:索引值,字符信息,词性,词频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。
8.根据权利要求7所述的微博用户身份识别系统,其特征在于,所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和词性标注。
CN201310008156.XA 2013-01-09 2013-01-09 一种微博用户身份识别方法及系统 Expired - Fee Related CN103914494B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310008156.XA CN103914494B (zh) 2013-01-09 2013-01-09 一种微博用户身份识别方法及系统
PCT/CN2013/088616 WO2014108004A1 (zh) 2013-01-09 2013-12-05 一种微博用户身份识别方法及系统
US14/760,048 US20150356091A1 (en) 2013-01-09 2013-12-05 Method and system for identifying microblog user identity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310008156.XA CN103914494B (zh) 2013-01-09 2013-01-09 一种微博用户身份识别方法及系统

Publications (2)

Publication Number Publication Date
CN103914494A CN103914494A (zh) 2014-07-09
CN103914494B true CN103914494B (zh) 2017-05-17

Family

ID=51040184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310008156.XA Expired - Fee Related CN103914494B (zh) 2013-01-09 2013-01-09 一种微博用户身份识别方法及系统

Country Status (3)

Country Link
US (1) US20150356091A1 (zh)
CN (1) CN103914494B (zh)
WO (1) WO2014108004A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110084A (zh) * 2019-04-23 2019-08-09 北京科技大学 高质量用户生成内容的识别方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447038A (zh) * 2014-08-29 2016-03-30 国际商业机器公司 用于获取用户特征的方法和系统
CN105591747B (zh) * 2014-12-30 2019-11-22 中国银联股份有限公司 基于用户网络行为特征的辅助身份验证方法
CN105989268A (zh) * 2015-03-02 2016-10-05 苏宁云商集团股份有限公司 一种人机识别的安全访问方法和系统
CN105989149A (zh) * 2015-03-02 2016-10-05 苏宁云商集团股份有限公司 一种用户设备指纹的提取和识别方法及系统
CN104778388A (zh) * 2015-05-04 2015-07-15 苏州大学 一种两个不同平台下同一用户识别方法及系统
CN107025567A (zh) * 2016-02-01 2017-08-08 秒针信息技术有限公司 一种数据处理方法和装置
CN105808529B (zh) * 2016-03-10 2018-06-08 语联网(武汉)信息技术有限公司 一种语料划分领域的方法和装置
CN106295701A (zh) * 2016-08-11 2017-01-04 五八同城信息技术有限公司 用户识别方法及装置
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106878275B (zh) * 2017-01-03 2020-05-19 阿里巴巴集团控股有限公司 身份验证方法及装置和服务器
WO2018226948A1 (en) 2017-06-09 2018-12-13 Humada Holdings Inc. Providing user specific information for services
CN110019722B (zh) * 2017-12-21 2023-11-24 株式会社理光 对话模型的回复排序方法、装置及计算机可读存储介质
CN108573134A (zh) * 2018-04-04 2018-09-25 阿里巴巴集团控股有限公司 一种识别身份的方法、装置及电子设备
CN111309774A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN110009056B (zh) * 2019-04-15 2021-07-30 秒针信息技术有限公司 一种社交账号的分类方法及分类装置
CN110245687B (zh) * 2019-05-17 2021-06-04 腾讯科技(上海)有限公司 用户分类方法以及装置
CN112413832B (zh) * 2019-08-23 2021-11-30 珠海格力电器股份有限公司 一种基于用户行为的用户身份识别方法及其电器设备
CN110795570B (zh) * 2019-10-11 2022-06-17 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN110866114B (zh) * 2019-10-16 2023-05-26 平安科技(深圳)有限公司 对象行为的识别方法、装置及终端设备
CN111368552B (zh) * 2020-02-26 2023-09-26 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111370086A (zh) * 2020-02-27 2020-07-03 平安国际智慧城市科技股份有限公司 电子病例检测方法、装置、计算机设备和存储介质
CN113297397B (zh) * 2021-05-12 2022-08-09 山东大学 一种基于层次化多模态信息融合的信息匹配方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187920A (zh) * 2006-11-17 2008-05-28 财团法人资讯工业策进会 行为特征评估系统与方法
US7716225B1 (en) * 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
CN102289522A (zh) * 2011-09-19 2011-12-21 北京金和软件股份有限公司 一种对于文本智能分类的方法
CN102355664A (zh) * 2011-08-09 2012-02-15 郑毅 一种基于用户的社交网络对用户身份进行识别与匹配的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312985A1 (en) * 2007-06-18 2008-12-18 Microsoft Corporation Computerized evaluation of user impressions of product artifacts
CN101295381B (zh) * 2008-06-25 2011-09-28 北京大学 一种垃圾邮件检测方法
CN102012900B (zh) * 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
CN102654859B (zh) * 2011-03-01 2014-04-23 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
US9003025B2 (en) * 2012-07-05 2015-04-07 International Business Machines Corporation User identification using multifaceted footprints

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716225B1 (en) * 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
CN101187920A (zh) * 2006-11-17 2008-05-28 财团法人资讯工业策进会 行为特征评估系统与方法
CN102355664A (zh) * 2011-08-09 2012-02-15 郑毅 一种基于用户的社交网络对用户身份进行识别与匹配的方法
CN102289522A (zh) * 2011-09-19 2011-12-21 北京金和软件股份有限公司 一种对于文本智能分类的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110084A (zh) * 2019-04-23 2019-08-09 北京科技大学 高质量用户生成内容的识别方法

Also Published As

Publication number Publication date
US20150356091A1 (en) 2015-12-10
CN103914494A (zh) 2014-07-09
WO2014108004A1 (zh) 2014-07-17

Similar Documents

Publication Publication Date Title
CN103914494B (zh) 一种微博用户身份识别方法及系统
US10437867B2 (en) Scenario generating apparatus and computer program therefor
US11023478B2 (en) Determining temporal categories for a domain of content for natural language processing
CN104991891B (zh) 一种短文本特征提取方法
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
Jafarpour et al. Filter, rank, and transfer the knowledge: Learning to chat
US11354340B2 (en) Time-based optimization of answer generation in a question and answer system
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
US20180217980A1 (en) Text mining for automatically determining semantic relatedness
US20170286867A1 (en) Methods to determine likelihood of social media account deletion
US11948113B2 (en) Generating risk assessment software
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN105068991A (zh) 一种基于大数据的舆情发现方法
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
Tran et al. Balancing novelty and salience: Adaptive learning to rank entities for timeline summarization of high-impact events
CN110516034A (zh) 日志管理方法、装置、网络设备和可读存储介质
KR102368188B1 (ko) 인공지능 기반 직업 매칭 시스템
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN105183765A (zh) 一种基于大数据的话题抽取方法
US10242107B2 (en) Extraction of quantitative data from online content
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220629

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170517