CN107783948A

CN107783948A - 一种基于社交网络原理的词汇社交网络分析方法

Info

Publication number: CN107783948A
Application number: CN201710936365.9A
Authority: CN
Inventors: 王峰; 杭波; 谷琼; 吴中博; 屈俊峰; 赵永标
Original assignee: Hubei University of Arts and Science
Current assignee: Hubei University of Arts and Science
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2018-03-09
Anticipated expiration: 2037-10-10
Also published as: CN107783948B

Abstract

本发明公开了一种基于社交网络原理的词汇社交网络分析方法，该方法可将社交网络发展规律(扩展型、萎缩型、平衡型和孤立型)应用于描述微博短文本中的词汇关系，以构建一种新型的词汇社交网络。该网络将具有语法、语义关系的微博短文本重构为各种词汇关系(平行、隶属等)。基于这些关系构建词汇子网，并根据子网间交互的时间序列变化计算各社交节点的入度出度比。通过该比值的范围，达到分析微博短文本发布趋势的目的。针对跨语种的混合词汇社交网络，可通过结合不同语种的语义语法关系达到编码和查询微博短文本的目的。此外，针对微博短文本发布趋势的研究，对微博舆情发展的准确性把握有较好的参考价值。

Description

一种基于社交网络原理的词汇社交网络分析方法

技术领域

本发明属于社交网络分析技术领域，涉及一种社交网络分析方法，具体涉及一种基于社交网络原理的词汇社交网络分析方法。

背景技术

词汇社交网络是一种全新视角的社交网络研究体系。虽然它的研究内容和方法基于社交网络研究的基本理论，隶属于社交网络的研究范畴，但它又与社交网络存在极大的不同之处：

1、词汇社交网络的研究对象是词汇；

2、词汇社交网络研究的是词汇间的交互和隶属关系；

3、词汇社交网络研究的是语言和文字间语义和语法的网络结构；

4、词汇社交网络的研究理论和方法将同时借鉴社交网络基本原理和文本挖掘的相关技术，因此它将成为一种基于社交网络理论，但独立于社交网络之外的新型社交网络。

随着社会的发展和人类文明的不断进步，互联网上的信息量呈现爆炸式的增长，许多新型词汇和语言表达方式层出不穷。它们与传统词汇间紧密的结合使人类的语言和交流体系得到了丰富，同时也为不同出生年代的人们理解现代文明的进步带来了理解障碍。鉴于当前在词汇发展和理解之间存在的若干困扰，人们亟待借助一种容易理解的理论和研究工具将传统词汇和互联网词汇有效的结合起来。因此，本发明将为解决人们在语言理解和词汇交流方面的问题提供有价值的参考信息。

当前，国内外学者针对社交网络、文本信息挖掘与检索、知识获取等方面的研究均做了很多相关工作，虽然鲜有研究文献涉猎词汇社交网络的研究，但它们仍可对本专利的研究提供一些思路和参考性价值。现把与本专利密切相关的研究工作进行总结，概括起来主要有以下几个方面：

基于语义图的文本挖掘：Web2.0的时代，大量非结构化的内容以一种异步方式通过多文本流进行分布，这样使得收集和提取有用信息变得越发困难。主题建模是一种在文本流中探测信息的有效方法。该方法能进一步促进其它应用，如：搜索、信息浏览和模式挖掘。Long Chen等人提出了一种基于主题模型的语义图方法用于异步文本流的结构化([文献1])。他们的模型集成了主题挖掘和时间同步两块内容。这两种核心模块将问题集中于一个统一的模块中。特别地，为了处理词汇缺项问题，他们采用每个时间戳的全局语义图来捕获来自所有文本流的实体隐含交叉项。为了处理源异步问题，局部语义图被用于发现不同实体中的相似主题。这样可通过时间缺项潜在地将不同实体区分开。

社交网络中的用户属性推断：属性推断问题中，Jinyuan Jia等人旨在利用在线社交网络中的用户的公共数据推断他们的隐私属性(如，位置、性取向和兴趣)。利用用户的公开的朋友和公共行为推断用户的私有属性([文献2])。例如，用户在Facebook上的主页信息可同样出现于Google Play上。他们提出了一种叫做 AttriInfer的方法用于推断在线社交网络中的用户属性。该方法能利用朋友和行为，以及训练用户的标签信息。特别地，他们基于马尔科夫随机域建立社交网络模型。

在线社交网络中用户反馈的局限性：在线社交网络对于垃圾邮件制造者和诈骗者而言是一种具有吸引力的平台，他们通常利用虚假或被盗的账号去连接和欺骗用户。为了应对这些行为，在线社交网络允许用户举报欺骗性的资料或活动。而在线社交网络后台可利用上报数据去复查和限制被举报账号的行为。David Mandell Freeman等人提出首个公共的数据驱动评估方法([文献3])。他们开发一种统计学架构来描述这些属性并应用该架构于来自LinkedIn的数据。数据包括虚假资料的成员报告、大量响应连接请求的成员信号等。

基于位置的社交网络：大量信息对于城市规划而言是必需的。通常存在大量的未集成数据源，它们来源于政府部门并以一种独特的格式和变化的属性存在，例如可靠性和完整性。处理这些数据，并集成和分析它们需要在获取信息以辅助决策方面花费大量时间。Rodrigo Smarzaro等人认为来自基于位置的社交网络数据可在合理的时间里用于提供有用信息，即便这些数据存在一些缺陷([文献4])。为了印证他们的想法，他们利用来自不同基于位置的社交网络数据计算巴西城的当地可用性指数(IOL)。

社交网络中的在线内容预测：很多应用中，社交网络里的在线内容受欢迎程度预测是一个比较重要的方面，其范围涉及从广告宣传设计，网络内容的缓存和欲抓取，到网络搜索结果排名。Minh X.Hoang等人认为假如用户能够自发组织成一个群体并以一种统一的态势在一个群体中对在线内容作出反馈的话，那么一种基于群体受欢迎度的新方法出现是必需且更切合实际([文献5])。因此，通过将首批群组用户组合成内聚集群，他们研发了一种新型架构。然后采用张量分解的方法进行预测。为了最小化噪音数据的影响并使得在用户兴趣方面更灵活的捕获这种变化，该架构在学习一种鲁棒性的用户聚类中，同时采用网络拓扑和用户间的互动作用。

社交网络影响力研究：Wei Chen等人基于社交网络中的动态影响力传播模型对网络中心性进行了研究([文献6])。该研究主要专注两点：1、单节点影响力的中心性，通过单节点的扩散度量每个节点的重要性；2、沙普利中心性，利用影响力扩散函数的沙普利值(它是基于一种基础的合作游戏理论概念)来度量节点的重要性。他们提出了这两种中心性度量的综合比较研究。数学方法方面，他们提出公理化特征用于精确这两种中心性度量的本质和他们的不同点。算法上，他们提出了针对社交影响力实例的近似稳定算法。

社会网络中的机制设计研究：Bin Li等人针对社交网络中的拍卖设计问题进行了研究([文献7])。在该售卖网络中，每个售货员仅能与他们的临近节点建立通信关系。该问题的挑战性在于设计一种机制刺激购买者感知售卖活动并进一步将信息传递给他的临近节点，以使得更多的购买者能参与到售卖活动中来，从而使卖家能获取更高的收入。他们提出了一种叫做信息融合机制的新售卖机制，它在刺激买家方面不仅能真实对商品进行估价，而且能进一步扩散售卖信息给他们所有的邻居节点。

社会网络中的意见主题模型研究：从社交媒体中挖掘各种热门主题和它们的意见是非常有意义的事情。Hongxu Chen等人关注于基于不同群体的人们，找出他们的意见走向并基于社区探测提出这类意见的定义([文献8])。他们提出了一种叫做人类意见主题的生成图模型，并通过建立用户的社交联系，共同兴趣和意见的统一模型同步实现情感分析。

社会网络中的属性采样研究：大型社交网络采样是一项具有挑战性的工作。Claudia Wagner等人对针对社交网络属性的不同采样方法的灵敏性进行了探索 ([文献9])，其中包括节点采样、边采样、随机游走采样和雪球采样。他们考虑到了网络的特殊案例，比如带两个值的属性(如性别案例中的男和女)；两个不相等的群体(如一个男人占多数的群体和一个女人占少数的群体)；带同样或不同属性值摘要，又或者相互排斥的节点(如同性恋或异嗜性行为)。

基于社会网络的应用系统研究：Cheng Ding等人开发了一款交互式团队信息系统([文献10])，该系统利用潜在成员的专业社交网络信息以达到交互式地构建项目团队的目的。与早期的方法不同，在实际的商业和开放源项目中，他们将团队建立成层次结构以反映团队的普遍性本质。同时，他们的团队构建算法关注子团队的局部密度，以评估新形成团队的的通信成本。

参考文献：

[文献1]Long Chen,Joemon M.Jose,Haitao Yu,Fajie Yuan.A Semantic Graph-Based Approach for Mining Common Topics from Multiple Asynchronous TextStreams.WWW 2017:1201-1209.

[文献2]Jinyuan Jia,Binghui Wang,Le Zhang,Neil ZhenqiangGong.AttriInfer: Inferring User Attributes in Online Social Networks UsingMarkov Random Fields. WWW 2017:1561-1569.

[文献3]David Mandell Freeman.Can You Spot the Fakes？:On theLimitations of User Feedback in Online Social Networks.WWW 2017:1093-1102.

[文献4]Rodrigo Smarzaro,Tiago Franca, Melo de Lima,Clodoveu A.DavisJr. Could Data from Location-Based Social Networks Be Used to Support UrbanPlanning？WWW(Companion Volume)2017:1463-1468.

[文献5]Minh X.Hoang,Xuan Hong Dang,Xiang Wu,Zhenyu Yan,Ambuj K.Singh.GPOP:Scalable Group-level Popularity Prediction for Online Content inSocial Networks.WWW 2017:725-733.

[文献6]Wei Chen,Shang-Hua Teng.Interplay between Social Influence andNetwork Centrality:A Comparative Study on Shapley Centrality and Single-Node-Influence Centrality.WWW 2017:967-976.

[文献7]Bin Li,Dong Hao,Dengji Zhao,Tao Zhou.Mechanism Design inSocial Networks.AAAI 2017:586-592.

[文献8]Hongxu Chen,Hongzhi Yin,Xue Li,Meng Wang,Weitong Chen,TongChen.People Opinion Topic Model:Opinion based User Clustering in SocialNetworks.WWW(Companion Volume)2017:1353-1359.

[文献9]Claudia Wagner,Philipp Singer,Fariba Karimi,Jürgen Pfeffer,Markus Strohmaier.Sampling from Social Networks with Attributes.WWW 2017:1181-1190.

[文献10]Cheng Ding,Fan Xia,Gopakumar Gopalakrishnan,Weining Qian,Aoying Zhou.TeamGen:An Interactive Team Formation System Based onProfessional Social Network.WWW(Companion Volume)2017:195-199.

发明内容

为了弥补现有研究的空白，本发明提供了一种基于社交网络原理的词汇社交网络分析方法。

本发明所采用的技术方案是：一种基于社交网络原理的词汇社交网络分析方法，其特征在于，包括以下步骤：

步骤1：首先定义词汇关系、平行关系、隶属关系、词汇节点对的社交角色、贡献型词汇、索取型词汇、孤岛型词汇、词汇网络结构、扩张型词汇网络、萎缩型词汇网络、平衡型词汇网络、孤立型词汇网络；

所述词汇关系，描述以词汇属性为网络节点、以上下文语义为边所构成的词汇社交网络中各节点间的关系，记为关系R；词汇社交网络关系R包括：平行关系R_p和隶属关系R_a；其中，平行关系R_p包括直接关联关系R_dc和间接关联关系R_ic； R＝R_p∪R_a，R_p＝R_dc∪R_ic；

所述平行关系，表明词汇社交网络中的某两个词汇节点所构成的节点对之间的关系平等且相关，记为R_p；其中，语义关系之间具有明确指代关系的节点对具有直接关联关系，否则具有间接关联关系；

所述隶属关系，表明词汇社交网络中的某两个词汇节点所构成的节点对之间存在依赖关系，记为R_a；

所述词汇节点对的社交角色，在词汇社交网络中，节点对间存在包括贡献、索取和孤立在内的“社交行为”；

所述贡献型词汇，用于形容、修饰或连接其它词汇，并专为其它词汇服务的词汇节点，记为V_c；

所述索取型词汇，以被服务的词汇形式存在，记为V_a；

所述孤岛型词汇，与其它任何词汇间鲜有交互，这类词汇通常表现为生僻字或生僻词，记为V_i；

所述词汇网络结构，用于描述随时间变化的词汇社交网络的变化趋势，记为 V_ns；词汇网络结构包括：扩张型词汇网络V_ns-e、萎缩型词汇网络V_ns-a、平衡型词汇网络V_ns-p和孤立型词汇网络V_ns-i，V_ns＝{V_ns-e,V_ns-a,V_ns-p,V_ns-i}；

所述扩张型词汇网络，表明在特定时间段内，某词汇社交网络的变化趋势为扩张状态；其直接变现为该词汇社交网络中的节点数目在此段时间段内增多；

所述萎缩型词汇网络，表明在一定时间段内，某词汇社交网络的变化趋势为萎缩状态；其直接变现为该词汇社交网络中的节点数目在此段时间段内减少；

所述平衡型词汇网络，表明在一定时间段内，某词汇社交网络的变化趋势为平衡状态；其直接表现为该词汇社交网络中的节点数目在此段时间段内保持不变；

所述孤立型词汇网络，表明在一定时间段内，某词汇社交网络与其它社交网络之间暂无交互行为；其直接表现为词汇社交网络中的所有节点在此段时间段内仅存在内部节点交互行为，而暂无任何外部交互；

步骤2：构造词汇社交网络；

步骤3：词汇社交网络的相关计算。

本发明的有益效果是：基于社交网络原理的词汇社交网络可对微博短文本中的词汇关系进行拆解，以达到重构短文本上下文间语境关系的目的。这种词汇社交关系的重构不仅使短文本中各词汇的语义、语法关系更加明确，而且可基于微博短文本的时间序列标签对词汇社交网络的发展趋势进行计算和分析。根据词汇社交网络的发展趋势，就能掌握微博内容的发布动态。而通过比较动态前后的不同，就可把握微博内容的变化趋势。特别地，在基于微博短文本内容的事件分析中，如微博舆情分析，本专利中研究的理论和方法表现的价值尤为突出。值得说明地，关于如何对词汇社交网络的发展趋势(微博事件动态)做到即时反馈，读者可将本专利中的编码和查询规则进一步细化扩展，写出高效的查询算法。

附图说明

图1为本发明实施例的词汇社交网络研究体系示意图；

图2为本发明实施例的初始文本；

图3为本发明实施例的基于初始文本的词汇社交网络示意图；

图4为本发明实施例的文本分词过程示意图；

图5为本发明实施例的文本清洗过程示意图；

图6为本发明实施例的文本词汇标注与排序示意图；

图7为本发明实施例的基于流量树的词汇社交网络编码层次模型示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明与一般社交网络不同的是，本发明研究的对象是词汇。研究的内容主要包括：1、词汇间的关系：平行关系、隶属关系、；2、词汇对的社交角色：贡献型词汇、索取型词汇、孤岛型词汇；3、词汇的网络结构：扩张型词汇网络、萎缩型词汇网络、平衡型词汇网络和孤立型词汇网络；4、词汇社交网络在现实生活中的实际应用；5、不同语种下的词汇社交网络及混合词汇网络。词汇社交网络的研究能更好的解决以下问题：1、构建词汇社交网络，使人们更好的理解新型互联网词汇；2、构建社交网络使自动理解和分析段落大意更加精确；3、词汇社交网络会文本挖掘技术的进一步发展提供了若干参考性信息；4、构建词汇社交网络使混合型信息(文本、语音和视频等)的交叉理解成为可能。

词汇社交网络的研究对象是词汇，词汇的存在形式多种多样，可以是文本、语音、视频等，也可以是上述信息间的相互转化和混合信息(现有技术可实现文本与语音之间的互相转换，可从视频中提取声音并进一步转换成文字)。

请见图1，本发明研究体系中描述了基础架构、词汇关系、词汇对的社交角色和词汇网络类型四大块内容。其中，基础架构部分主要研究：词汇社交网络中涉及的基本概念、词汇社交网络的编码和查询方式，以及词汇社交网络的建模和计算方法；词汇关系涉及平行关系和隶属关系两大类，其中平行关系又可分为直接关联关系和间接关联关系；词汇节点对的社交角色部分将词汇对分为三大类：贡献型词汇、索取型词汇和孤岛型词汇。而词汇网络结构部分将基于词汇的社交角色并以子网的形式对网络类型进行划分，子网类型主要包括：贡献型、索取型、平衡型和孤岛型。相应地，根据子网随时间变化的发展趋势，同样可将子网划分为扩张型、萎缩型、平衡型和孤立型四类。此外，对词汇社交网络的相关应用也将在下文进行概述。

为了叙述问题的方便，特提供如图2所示的原始文本作为示例，对词汇社交网络的研究内容进行较详细的说明。

根据图2所示原始文本内容，可以基于社交网络的基本原理，得到如图3 所示的词汇社交网络。

从图3中可以看出，词汇社交网络中各词汇之间形成了各种类似于人类社交行为的各种“社交”关系。这些关系中有直接关联关系、间接关联关系、隶属关系等，并采用语义流在表示各种关系间的语义流向。

接下来，将以图2和图3为例，详细阐述本专利的详细内容。本发明提供的一种基于社交网络原理的词汇社交网络分析方法，包括以下步骤：

词汇关系：词汇关系描述了以词汇属性为网络节点，以上下文语义为边所构成的词汇社交网络中各节点间的关系，记为关系R。常见的词汇社交网络关系R 包括：平行关系R_p和隶属关系R_a。其中，平行关系R_p又可分别直接关联关系R_dc和间接关联关系R_ic。因此，可得R＝R_p∪R_a，其中R_p＝R_dc∪R_ic。

平行关系：表明词汇社交网络中的某两个词汇节点所构成的节点对之间的关系平等且相关，记为R_p。其中，语义关系较密切的节点对具有直接关联关系，否则具有间接关联关系。平行关系仅发生在名词间，若两两名词间有诸如“是”、“即”等明确指代关系，则表明它们的语义关系较密切；若两两名词间采用“宛若”、“好像”等比喻关系的形容词连接，则表明它们的语义关系不太密切，因此仅具备间接关系。例如，图3中的“博物馆酒店”、“卡帕多奇亚高原”是“宛若”的被形容对象和形容对象，因此它们分别与“宛若”构成直接关联关系，而“博物馆酒店”和“卡帕多奇亚高原”间若无“宛若”加以形容，二者间本无密切关联，因此它们具有间接关联关系。

隶属关系：表明词汇社交网络中的某两个词汇节点所构成的节点对之间存在依赖关系，记为R_a。例如，图3中的“博物馆酒店”和“30个房间”，其中“30个房间”是“博物馆酒店”的组成部分，因此两个词汇节点对构成隶属关系；又如“数千年历史”和“洞穴民居”，由图3中的上下文语境可知，“数千年历史”只用于修饰“洞穴民居”，因此它们二者也构成隶属关系。

词汇节点对的社交角色：在现实社交生活中，社交角色间通常存在贡献、索取和孤立等社交行为。在词汇社交网络中，节点对间同样也存在类似的“社交行为”。

贡献型词汇：用于形容、修饰或连接其它词汇，并专为其它词汇服务的词汇节点。在词汇社交网络中，这类节点被称之为贡献型词汇，记为V_c。例如，图3 中的“数千年历史”、“宛若”、“欣赏”、“尽览”等词汇节点。

索取型词汇：在词汇社交网络中，与贡献型词汇相对的是索取型词汇，记为 V_a。它通常以被服务的词汇形式存在。例如，图3中的“博物馆酒店”、“卡帕多奇亚高原”等词汇节点。

孤岛型词汇：诚如现实生活中的自闭人群一样，孤岛型词汇通常与其它任何词汇间鲜有交互，这类词汇通常表现为生僻字或生僻词，记为V_i。例如，“籴粜”、“姽婳”、“菡萏”等词汇节点。

词汇网络结构：用于描述随时间变化的词汇社交网络的变化趋势，记为V_ns。常见的词汇网络结构包括：扩张型词汇网络V_ns-e、萎缩型词汇网络V_ns-a、平衡型词汇网络V_ns-p和孤立型词汇网络V_ns-i。因此，可得V_ns＝{V_ns-e,V_ns-a,V_ns-p,V_ns-i}。其中，

扩张型词汇网络：表明在特定时间段内，某词汇社交网络的变化趋势为扩张状态。其直接变现为该词汇社交网络中的节点数目在此段时间段内增多。

萎缩型词汇网络：表明在一定时间段内，某词汇社交网络的变化趋势为萎缩状态。其直接变现为该词汇社交网络中的节点数目在此段时间段内减少。

平衡型词汇网络：表明在一定时间段内，某词汇社交网络的变化趋势为平衡状态。其直接表现为该词汇社交网络中的节点数目在此段时间段内保持不变。

孤立型词汇网络：表明在一定时间段内，某词汇社交网络与其它社交网络之间暂无交互行为。其直接表现为词汇社交网络中的所有节点在此段时间段内仅存在内部节点交互行为，而暂无任何外部交互。

步骤2：构造词汇社交网络；

词汇社交网络的构造主要分为如下4个阶段：分词、清洗、标注与排序、编码。

分词的过程与一般语义和语法分析过程类似，对于段落形式的文本，首先需对文本根据上下文语义进行拆分。以图2所示的新浪微博内容为例，可得如图4 所示的拆分过程。

由于图4中分词得到的内容存在很多与词汇社交网络构建无关的副词、标点符号等无意义信息。接下来，将针对图4中的文本分词进行清洗过程，清洗后的结果如图5所示。

在完成了图4的分词过程和图5的清洗过程之后，接下来将对文本内容进行标注和排序过程。如图6所示。

经过图6的标注与排序过程后，接下来将对已标注的文本内容进行编码，并同时建立相应的模型和计算方法。通过结合图4-图6的各种信息，可绘制如图7 所示的词汇社交网络网络的编码层次模型，该模型采用流量树的形式进行表示。

从图7中可以看出，结合图4-图6中的文本内容可将流量树划分为七个层次，图中的符号S表示流量的开始，E表示流量的结束。所谓流量树，顾名思义即在层次树的结构中加入流量信息(如树中的实线箭头)。流量的方向即层次树中的实线箭头所指方向。同一层次的不同词汇节点若存在关联关系则采用虚线进行连接。此外，利用流量树的结构可以对原文本内容中的词汇上下文语义关系进行还原。根据图7中的模型可得出词汇社交网络中的相关计算了方法。

步骤3：词汇社交网络的相关计算；

首先，针对图7中的编码规则，对其中的关键变量进行如下定义：

定义1流量树：记为T，用进行表示。其中,i表示树中词汇节点的编号，j表示树中词汇节点所在的层次，M表示遍历流量树的模式。

定义2遍历模式：流量树的遍历模式根据节点编号的顺序差别可分为三种：顺序模式↑(编号增序)、逆序模式↓(编号减序)和随机模式R(编号随机)。其中，随机模式的访问方式由随机函数确定，N表示随机函数计算所得的节点编号，rand(0,1)表示计算机随机产生的0-1之间的随机数， N_max和N_max分别表示遍历编号的最大节点编号和最小节点编号；

定义3核心节点：词汇社交网络中各节点度数中的极大值节点被确定为核心节点。其中，极值下限由阈值进行确定，即节点度数大于阈值的节点均可被认定为核心节点。而通过核心节点的数目可确定词汇社交网络中的子网划分规则。其中，阈值记为V_d-γ。

定义4度与词汇社交网络：词汇社交网络中节点的度分为入度和出度，利用入度和出度的比例可确定不同的子网类型。其中，入度和出度分别记为V_d-in和 V_d-out。

定义5子网类型：用于描述词汇社交网络中各子网内部的核心节点的入度和出度的比例情况。

核心节点度与词汇社交网络中子网类型确定方法的实现思路可概括为：

1、通过计算节点的度并结合度的阈值设定来确定核心节点；

2、根据核心节点的个数来确定子网的个数，有多少个核心节点就划分多少个子网；

3、在确定子网个数之后，分别计算各子网中核心节点的入度和出度，根据入度出度的比值来确定词汇社交网络中各子网的类型。为了后文叙述的方便，将利用计算标识对入度出度比的计算范围加以区分，将子网内部的入度出度比记为将子网间的入度出度比记为确定子网类型的分类规则如下公式(1)所示.

特别说明地，子网网络类型的确定基准(孤岛型除外)是核心节点，即由核心节点的入度出度比来确定词汇社交网络中的子网类型。若要确定某子网为孤岛型，只有通过计算网间的入度出度比实现。子网间的入度出度比如下公式2所示

其中，IW为入度出度比的计算标识，意为网间入度出度比。i为节点编号，n为参与计算的网间子网节点的数目。若其中和分别表示参与计算的网间节点的入度和与出度和，则表明某子网与其它子网之间无任何交互行为，由此便可认定该子网为孤岛型。

此外，随着时间的变化，可通过子网内的交互度求和的变化量来确定子网的发展变化趋势，其中子网内的入度出度比如公式(3)所示。

其中，NW为入度出度比的计算标识，意为网内入度出度比。j为节点编号，m为参与计算的网内子网节点的数目。

其确定规则如下公式(4)所示。

若其中和分别表示参与计算的网间节点的入度和与出度和，由此则表明某子网与其它子网在某时间段(t1-t2)之间无任何交互行为，由此便可认定该子网的发展趋势为孤立型子网。

值得说明地，孤立型子网与孤岛型子网的区别在于，孤立型子网与时间相关，而孤岛型子网与时间无关。即孤立型子网只是在某段时间内成为孤岛型子网，它有可能到下一时间段向其它类型的子网类型转化。而孤岛型子网则与时间无关，它有可能永远呈现为孤岛型。

词汇社交网络在现实生活中存在较广泛的应用前景。概括起来主要有如下几点内容：

1、通过词汇社交网络的建模过程和相关计算方法，可较好的分析文本的上下文语义关系和段落中的层次结构；

2、通过对词汇社交网络的研究，能够有效提取其它格式文件(如音频、视频等)中的语义和语法信息，并对它们进行相应的结构分析；

注：根据现有技术，均可将音频和视频中的信息转化为文本信息，并利用本专利中的相关内容和方法进行研究；

3、针对跨语种的词汇设计网络的分析与研究，只需将本专利描述的内容与所需语种的文本内容具备的完整语种库相结合，便可运用本专利表述的定义和计算方法加以诠释。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于社交网络原理的词汇社交网络分析方法，其特征在于，包括以下步骤：

所述词汇关系，描述以词汇属性为网络节点、以上下文语义为边所构成的词汇社交网络中各节点间的关系，记为关系R；词汇社交网络关系R包括：平行关系R_p和隶属关系R_a；其中，平行关系R_p包括直接关联关系R_dc和间接关联关系R_ic；R＝R_p∪R_a，R_p＝R_dc∪R_ic；

所述索取型词汇，以被服务的词汇形式存在，记为V_a；

所述词汇网络结构，用于描述随时间变化的词汇社交网络的变化趋势，记为V_ns；词汇网络结构包括：扩张型词汇网络V_ns-e、萎缩型词汇网络V_ns-a、平衡型词汇网络V_ns-p和孤立型词汇网络V_ns-i，V_ns＝{V_ns-e,V_ns-a,V_ns-p,V_ns-i}；

步骤2：构造词汇社交网络；

步骤3：词汇社交网络的相关计算。

2.根据权利要求1所述的基于社交网络原理的词汇社交网络分析方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：首先对文本根据上下文语义进行拆分，形成单个词汇组合；

步骤2.2：删除与词汇社交网络构建无关的词汇；

步骤2.3：对文本内容进行标注和排序；

步骤2.4：将对已标注的文本内容进行编码。

3.根据权利要求2所述的基于社交网络原理的词汇社交网络分析方法，其特征在于：步骤2.4中，是基于流量树对已标注的文本内容进行编码，所述流量树是在层次树的结构中加入流量信息，流量的方向即层次树中的实线箭头所指方向，同一层次的不同词汇节点若存在关联关系采用虚线进行连接。

4.根据权利要求1所述的基于社交网络原理的词汇社交网络分析方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：定义流量树、遍历模式、核心节点、度与词汇社交网络、子网类型；

所述流量树，记为T，用进行表示；其中,i表示树中词汇节点的编号，j表示树中词汇节点所在的层次，M表示遍历流量树的模式；

所述遍历模式包括顺序模式、逆序模式和随机模式；所述顺序模式↑，按编号增序进行遍历；所述逆序模式↓，按编号减序进行遍历；所述随机模式R，按编号随机进行遍历；其中，随机模式的访问方式由随机函数确定，N表示随机函数计算所得的节点编号，rand(0,1)表示计算机随机产生的0-1之间的随机数，N_max和N_max分别表示遍历编号的最大节点编号和最小节点编号；

所述核心节点，为词汇社交网络中各节点度数中的极大值节点；其中，极值下限由阈值进行确定，即节点度数大于阈值的节点均可被认定为核心节点；而通过核心节点的数目可确定词汇社交网络中的子网划分规则，其中，阈值记为V_d-γ；

所述度与词汇社交网络，词汇社交网络中节点的度分为入度和出度，利用入度和出度的比例可确定不同的子网类型；其中，入度和出度分别记为V_d-in和V_d-out；

所述子网类型，用于描述词汇社交网络中各子网内部的核心节点的入度和出度的比例情况；

步骤3.2：核心节点度与词汇社交网络中子网类型确定；

具体包括以下子步骤：

步骤3.2.1：通过计算节点的度并结合度的阈值设定来确定核心节点；

步骤3.2.2：根据核心节点的个数来确定子网的个数，有多少个核心节点就划分多少个子网；

步骤3.2.3：在确定子网个数之后，分别计算各子网中核心节点的入度和出度，根据入度出度的比值来确定词汇社交网络中各子网的类型，将子网内部的入度出度比记为将子网间的入度出度比记为

由核心节点的入度出度比来确定词汇社交网络中的子网类型，孤岛型除外的子网类型的分类规则如下公式(1)所示：

孤岛型除外的子网类型的分类规则通过计算子网间的入度出度比实现，子网间的入度出度比如下公式2所示：

<mrow> <msub> <mi>IW</mi> <mfrac> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>i</mi> <mi>n</mi> </mrow> </msub> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> </mfrac> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，IW为入度出度比的计算标识，意为子网间入度出度比；i为节点编号，n为参与计算的网间子网节点的数目；若其中和分别表示参与计算的网间节点的入度和与出度和，则表明某子网与其它子网之间无任何交互行为，由此便可认定该子网为孤岛型；

通过子网内的交互度求和的变化量来确定子网的发展变化趋势，其中子网内的入度出度比如公式(3)所示：

<mrow> <msub> <mi>NW</mi> <mfrac> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>i</mi> <mi>n</mi> </mrow> </msub> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> </mfrac> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <mrow> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>V</mi> <mrow> <mi>d</mi> <mo>-</mo> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，NW为入度出度比的计算标识，意为网内入度出度比，j为节点编号，m为参与计算的网内子网节点的数目；

子网的发展变化趋势确定规则如下公式(4)所示：

若其中和分别表示参与计算的网间节点的入度和与出度和，由此则表明某子网与其它子网在某时间段(t₁-t₂)之间无任何交互行为，由此便可认定该子网的发展趋势为孤立型子网。