CN106294780A - 一种从社交网络抽取msvl模型的方法 - Google Patents

一种从社交网络抽取msvl模型的方法 Download PDF

Info

Publication number
CN106294780A
CN106294780A CN201610663033.3A CN201610663033A CN106294780A CN 106294780 A CN106294780 A CN 106294780A CN 201610663033 A CN201610663033 A CN 201610663033A CN 106294780 A CN106294780 A CN 106294780A
Authority
CN
China
Prior art keywords
msvl
user
sns
model
social networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610663033.3A
Other languages
English (en)
Other versions
CN106294780B (zh
Inventor
王小兵
薛怡娜
段振华
赵亮
田聪
张南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201610663033.3A priority Critical patent/CN106294780B/zh
Publication of CN106294780A publication Critical patent/CN106294780A/zh
Application granted granted Critical
Publication of CN106294780B publication Critical patent/CN106294780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种从社交网络抽取MSVL模型的方法,所述从社交网络抽取MSVL模型的方法包括:通过网络爬虫或现有SNS数据包来获取感兴趣的SNS系统的数据信息;将获得的SNS系统信息进行分析,转化为统一的XML格式;将提取到的XML格式的SNS数据转化成MSVL程序,用形式化建模语言MSVL实现对SNS系统的建模。本发明对真实的SNS数据(网络爬虫获取或现有SNS数据包)进行分析,提取,转化为统一的XML格式,将XML文件当作中间层,屏蔽各种各样SNS数据格式对转化为形式化建模语言MSVL的影响。

Description

一种从社交网络抽取MSVL模型的方法
技术领域
本发明属于系统形式化建模技术领域,尤其涉及一种从社交网络抽取MSVL模型的方法。
背景技术
随着计算机科学的不断发展,全球化进程的不断加深。人与人之间的联系越来越紧密,而交往成本也在不断变低。社交网络(Social Network Service/Site,SNS)的出现就是这种时代潮流下的产物。SNS的产生拓宽了人们现有的交流模式,成为人们生活与工作不可缺少的一部分。典型的SNS有国外的Facebook、Twitter、YouTube、Linkedin等,国内的微信、QQ空间、百度贴吧、人人网、新浪微博、优酷网等。在社交网络领域,关于社交网络建模方面的研究有以下几种方法:意大利学者提出了一种基于图的建模方法来对SNS进行建模,主要方法是通过一些著名在线社交网络平台例如Facebook、Twitter、Google+和Diaspora的分析,抽象出社交网络最主要的共有特性。用这些特性来表现各种现实世界的服务。作者把在线社交网络平台简化为用户和对象(包括文字信息,声音,视频等)以及关联的集合。特点是其引入了基于图的形式化定义,在图中用户和对象用结点表示,而用户和用户、用户和对象以及对象之间的联系用边来表示,构建的模型直观,易懂。PrT(Predicate/Transition)网是一种适用于对社交网络进行建模的高级Petri网,有高效的可达分析。这种建模方法能够严格地分析社交网络活动,可用于建模和分析在社交网络中的好友推荐功能。其特点是在传统Petri网模型的基础上引入动态通信通道,使得用户之间可以通信,并能够模块化和封装社交网络中的每个实体。美国科罗拉多州立大学的学者提出了一种建模方法,主要方法是通过对典型OSN(Online Social Network)系统的分析,提取它们共有的特点,用以描述OSN中的各种实体和关系,这些不同的实体有:User,Subject,Group,Application,Object和Operation。任意一个实体和关系集有一个描述其属性的集合,然后用形式化建模语言Alloy来对SNS进行建模。其特点是可以表达社交网络模型的复杂结构约束和行为。中国台湾中央研究院的学者提出了一种基于拓扑的社交网络模型,用于研究社交网络的聚类系数。该模型是一种从拓扑角度建模的BA模型(Barabási-Albert Model,一种无标度网络模型),可以把SNS用户看作是一个个的节点,用户间存在的关系看作边。其特点是网络规模可扩展,节点采用优先连接机制。现有技术存在的问题是其建模过程是通过对典型社交网络进行综合分析后进行的,是以多个现有的典型社交网站共有特性为依据的;然而每个社交网站都有自己的特点,忽略了各个社交网站的特性。
发明内容
本发明的目的在于提供一种从社交网络抽取MSVL模型的方法,旨在解决现有的社交网络建模方法无法实现针对不同的社交网站的特点进行建模的问题。
本发明是这样实现的,一种从社交网络抽取MSVL模型的方法,所述从社交网络抽取MSVL模型的方法包括:通过网络爬虫或现有SNS数据包来获取感兴趣的SNS系统的数据信息;将获得的SNS系统信息进行分析,了解该社交网站的基本架构,还有其包含的主要数据结构和方法,如用户,内容,转发内容,好友关系等。将其转化为统一的XML格式,是将获取的数据作为输入,通过程序来分析输入的数据将其转化为对应的XML文件;将提取到的XML格式的SNS数据转化成MSVL程序,通过识别XML文件中的标签将其转化为MSVL程序中对应的数据结构,其中若该标签的结构复杂,含有子标签,那么其对应MSVL程序中的结构体,若只是XML文件中的基本类型则对应MSVL程序中的基本数据结构。用形式化建模语言MSVL实现对SNS系统的建模;在MSVL中用结构体数据类型来描述系统中的用户、用户发布的内容,用户转发的内容,用户所在位置,并采用链表表示用户的好友列表。系统中的用户用结构体struct user表示;系统中用户发布的内容用结构体struct content表示;系统中用户转发的内容用结构体struct re_content表示;系统中用户的位置用结构体struct location表示;系统中用户的好友列表用结构体struct fri表示。
进一步,所述将获取的SNS数据转化成XML文件,XML文件用XML Schema定成统一的格式;以XML文件作为中间层来连接SNS数据和形式化编程语言MSVL,进行SNS系统建模。采用XML文件作为中间层来连接SNS数据和形式化编程语言MSVL。
进一步,所述将转化好的XML文件通过工具转成化建MSVL程序,进行对社交网络MSVL模型的抽取,在MSVL中用结构体数据类型来描述系统中的用户、用户发布的内容,用户转发的内容,用户所在位置,并采用链表表示用户的好友列表。
本发明的另一目的在于提供一种应用从社交网络抽取MSVL模型的方法的分析社交网络中隐私策略的方法。
本发明的另一目的在于提供一种应用从社交网络抽取MSVL模型的方法的分析社交网络中安全的方法。
本发明提供的从社交网络抽取MSVL模型的方法,对真实的SNS数据(网络爬虫获取或现有SNS数据包)进行分析,提取,转化为统一的XML格式,将XML文件当作中间层,屏蔽各种各样SNS数据格式对转化为形式化建模语言MSVL的影响因为网络爬虫和数据包获取的数据格式多样,倘若直接根据获取的数据进行建模,那么对多个数据网站进行建模需要编写多个该数据格式的文件到MSVL程序转换的工具。本发明采用XML文件作为中间层来连接SNS数据和形式化编程语言MSVL。屏蔽了网络爬虫和数据包获取的数据格式不一致对建模产生的影响,只需要开发一个从统一格式的XML文件到MSVL程序的转换工具既可;将XML文件转化为MSVL语言进行对社交网络系统建模。其实现方法是使用了XML格式的数据文件作为中间层,用来屏蔽各种不同格式的SNS数据对转换成形式化建模语言MSVL产生的影响,然后让可以把感兴趣的SNS系统数据转换成MSVL语言,从而在社交网络中抽取一个MSVL模型。在MSVL中用结构体数据类型来描述系统中的用户、用户发布的内容,用户转发的内容,用户所在位置,并采用链表表示用户的好友列表。其技术效果是使得XML文件转换为形式化建模语言MSVL,从而可以完成对社交网络的建模过程。
附图说明
图1是本发明实施例提供的从社交网络抽取MSVL模型的方法流程图。
图2是本发明实施例提供的实施例1的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的步描述。
如图1所示,本发明实施例的从社交网络抽取MSVL模型的方法包括以下步骤:
S101:通过网络爬虫或现有SNS数据包来获取感兴趣的SNS系统的数据信息;
S102:将获得的SNS系统信息进行分析,提取感兴趣的部分,转化为统一的XML格式,以便下一步转化成形式语言;
S103:将提取到的XML格式的SNS数据转化成MSVL程序,实现对SNS的建模。
下面结合具体应用实施例对本发明的应用原理作进一步的描述。
本发明的实施例是以现有的的新浪微博数据包(关于用户个人主页部分)作为所获取的SNS数据为例,对本发明作进一步的说明。
需要说明的是不管是通过网络爬虫还是已有的SNS数据包获得的SNS数据,其数据格式多种多样,需要对其进行统一的格式处理,将SNS数据转为XML格式的文件。通过对获得的SNS数据的分析,提取感兴趣的数据,例如新浪微博数据包中的用户数据即对应转化的XML文件中的user标签,而用户数据里面的信息,如用户名,ID号等则对应XML文件中的user标签下的子标签:name标签和id标签。微博内容则对应转化的XML文件中的content标签。微博内容里面的信息如word,发布时间对应转化的XML文件中的content标签下的子标签:word标签和tweet_time标签。根据上述方法将不同格式的SNS数据转化为XML文件,为下一步转化为形式化建模语言MSVL打下基础。
需要说明的是在数据转为XML格式时,定义了XML Schema用以验证所有的SNS数据转化成的XML是否格式一致。该程序的基本思想是先通过XML Schema来定义我们需要的XML文件格式,然后将获取的SNS数据转换成XML文件,将这两者作为验证XML文件是否符合XMLSchema格式的程序的输入,通过程序分析二者的标签及结构,判断SNS数据转换的XML文件是否符合XML Schema格式。
这里定义的XML Schema格式如下:
接下来将已有的新浪微博部分SNS数据转成的XML文件,并且该XML文件需符合上述定义的XML Schema格式,SNS数据转成的XML文件示例如下:
而后通过工具将其转化为MSVL,以便对SNS进行建模。
需要说明的是形式化建模语言MSVL中包含的数据类型和主要语句如下:
MSVL的基本数据类型有:
(1)整形:int
(2)浮点型:float
(3)字符型:char
(4)字符串型:string
(5)基本数据类型指针:int*/char*/float*/string*
(6)结构体:struct
(7)结构体指针:struct*。
MSVL的主要语句有:
(1)空语句:empty;
(2)基本赋值语句:x<==e,
(3)next语句:Ox;
(4)always语句:□x;
(5)投影语句:(s1,...,sm)prjs;
(6)顺序语句:
(7)并行语句:
(8)条件语句:
(9)while语句:
(10)状态框架语句:
(11)区间框架语句:
(12)Await语句:其中x1,...,xh是出现在b中的变量;
该工具的转换过程如下:
第一步将XML文件导入转换工具中,对XML文件中的user标签进行识别,并判断整个XML文件的user标签数量;
其转换规则是将user标签转换为MSVL中的结构体数据类型user,根据user的数量,构建存储user结构体类型的数组。在XML文件中的user标签下的子标签都是对应的MSVL里面user结构体中的变量类型。
第二步识别user标签下的子标签,对id标签,姓名标签等最基本的XML标签转换为MSVL中的基本数据类型。
其转换规则是所有的基本标签都对应MSVL中的基本数据类型,如id标签对应MSVL中的基本数据类型String,name标签对应MSVL中的基本数据类型String。
第三步识别user标签下的复合标签,即含有子标签的标签,如location,content,re_content,friend等。其中content,re_content,friend等复合标签可重复出现,因此要统计这些符合标签出现的数量。
其转换规则是复合标签对应的是MSVL中的结构体数据类型,如content标签对应MSVL中的content结构体,re_content标签对应MSVL中的re_content结构体,friend标签对应MSVL中的fri链表。多次出现的复合标签分别对应MSVL中的数组。如含有多个content标签,则对应MSVL中存放content类型结构体的数组。
第四步识别复合标签下的子标签,如content标签下的子标签word标签,tweet_time标签。
其转换规则是子标签即为该复合标签对应的结构体中的变量类型。如content标签的子标签word标签对应MSVL中的string数据类型。其分析方法和对user标签的分析方法是相同的,自顶向下,不断识别标签,转换为MSVL中对应的数据结构类型。重复上述步骤。并用MSVL基本语句来描述整个SNS系统。
第五步对MSVL中的user用户进行初始化。
其转换规则是将XML文件中各个标签的内容赋给MSVL对应数据结构的变量,从而实现对MSVL中数据的初始化。
转化成的MSVL程序如下:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种从社交网络抽取MSVL模型的方法,其特征在于,所述从社交网络抽取MSVL模型的方法包括:通过网络爬虫或现有SNS数据包来获取感兴趣的SNS系统的数据信息;将获得的SNS系统信息进行分析,转化为统一的XML格式;将提取到的XML格式的SNS数据转化成MSVL程序,用形式化建模语言MSVL实现对SNS系统的建模。
2.如权利要求1所述的从社交网络抽取MSVL模型的方法,其特征在于,所述将获取的SNS数据转化成XML文件,通过XML Schema定义需要的XML文件格式,将获取的SNS数据转换成XML文件,XML Schema验证XML文件格式是否统一;以XML文件作为中间层来连接SNS数据和形式化编程语言MSVL,进行SNS系统建模。
3.如权利要求1所述的从社交网络抽取MSVL模型的方法,其特征在于,所述将转化好的XML文件通过工具转成化建MSVL程序,进行对社交网络MSVL模型的抽取,在MSVL中用结构体数据类型来描述系统中的用户、用户发布的内容,用户转发的内容,用户所在位置,并采用链表表示用户的好友列表。
4.如权利要求1所述的从社交网络抽取MSVL模型的方法,其特征在于,所述MSVL模型为在MSVL中用结构体数据类型来描述系统中的用户、用户发布的内容,用户转发的内容,用户所在位置,并采用链表表示用户的好友列表;系统中的用户用结构体struct user表示;系统中用户发布的内容用结构体structcontent表示;系统中用户转发的内容用结构体struct re_content表示;系统中用户的位置用结构体struct location表示;系统中用户的好友列表用结构体struct fri表示。
5.一种应用权利要求1-4任意一项所述从社交网络抽取MSVL模型的方法的分析社交网络中隐私策略的方法。
6.一种应用权利要求1-4任意一项所述从社交网络抽取MSVL模型的方法的分析社交网络中安全的方法。
CN201610663033.3A 2016-08-12 2016-08-12 一种从社交网络抽取msvl模型的方法 Active CN106294780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610663033.3A CN106294780B (zh) 2016-08-12 2016-08-12 一种从社交网络抽取msvl模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610663033.3A CN106294780B (zh) 2016-08-12 2016-08-12 一种从社交网络抽取msvl模型的方法

Publications (2)

Publication Number Publication Date
CN106294780A true CN106294780A (zh) 2017-01-04
CN106294780B CN106294780B (zh) 2019-04-30

Family

ID=57669734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610663033.3A Active CN106294780B (zh) 2016-08-12 2016-08-12 一种从社交网络抽取msvl模型的方法

Country Status (1)

Country Link
CN (1) CN106294780B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211453A (zh) * 2019-05-26 2019-09-06 韶关市启之信息技术有限公司 一种结合环境隐私辅助远程结对编程的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093049A (zh) * 2013-01-11 2013-05-08 中国科学院信息工程研究所 一种面向社交网络的恶意代码传播预测方法及系统
CN103246782A (zh) * 2013-05-23 2013-08-14 西安电子科技大学 一种合理的自由选择工作流网到msvl的转换方法
CN104361502A (zh) * 2014-04-24 2015-02-18 科技谷(厦门)信息技术有限公司 乘客行为数据分析方法
CN104731582A (zh) * 2015-02-13 2015-06-24 西安电子科技大学 一种基于msvl的社交网络系统建模及隐私策略性质验证方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093049A (zh) * 2013-01-11 2013-05-08 中国科学院信息工程研究所 一种面向社交网络的恶意代码传播预测方法及系统
CN103246782A (zh) * 2013-05-23 2013-08-14 西安电子科技大学 一种合理的自由选择工作流网到msvl的转换方法
CN104361502A (zh) * 2014-04-24 2015-02-18 科技谷(厦门)信息技术有限公司 乘客行为数据分析方法
CN104731582A (zh) * 2015-02-13 2015-06-24 西安电子科技大学 一种基于msvl的社交网络系统建模及隐私策略性质验证方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOBING WANG等: "A Method Based on MSVL for Verification of the Social Network Privacy Policy", 《STRUCTURED OBJECT-ORIENTED FORMAL LANGUAGE AND METHOD》 *
王丽文: "基于社交网络的数据挖掘研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211453A (zh) * 2019-05-26 2019-09-06 韶关市启之信息技术有限公司 一种结合环境隐私辅助远程结对编程的方法
CN110211453B (zh) * 2019-05-26 2021-06-08 深圳市天天来玩科技有限公司 一种结合环境隐私辅助远程结对编程的方法

Also Published As

Publication number Publication date
CN106294780B (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
Alansari et al. Challenges of internet of things and big data integration
CN102122280B (zh) 一种智能提取内容对象的方法及系统
CN103778200B (zh) 一种报文信息源抽取方法及其系统
US10924551B2 (en) IRC-Infoid data standardization for use in a plurality of mobile applications
CN103365978A (zh) 基于lda主题模型的中医药数据挖掘方法
CN106383720A (zh) 一种软件产品原型的云端分享协作方法
Lezoche et al. Conceptualising and structuring semantics in cooperative enterprise information systems models
CN107368521A (zh) 一种基于大数据和深度学习的知识推介方法及系统
CN105912723B (zh) 一种自定义字段的存储方法
CN103761246B (zh) 一种基于链接网络的用户领域识别方法及其装置
Li et al. Artificial Intelligence‐Based Sustainable Development of Smart Heritage Tourism
CN106649380A (zh) 一种基于标签的热点推荐方法及系统
Wu Sufficient and necessary conditions of complete convergence for weighted sums of PNQD random variables
CN106294780A (zh) 一种从社交网络抽取msvl模型的方法
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法
CN103544338A (zh) 一种面向三维装配指令发布的工艺信息建模方法
Huang et al. Design knowledge graph-aided conceptual product design approach based on joint entity and relation extraction
Wu et al. Neural gender prediction from news browsing data
Tan et al. News information platform optimization based on the internet of things
Geetha et al. A survey on divergent classification of social media networking
Quan Visualization and Analysis Model of Industrial Economy Status and Development Based on Knowledge Graph and Deep Neural Network
Fen et al. Research on internet hot topic detection based on MapReduce architecture
Rumm et al. Approaches to integrate various technologies for policy modeling
CN108614846A (zh) 一种数字医学服务型网站构建方法
Xu et al. Modeling interest graph of social networks with user-generated tags

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant