CN105893611A

CN105893611A - 一种构建面向社交网络的兴趣主题语义网络的方法

Info

Publication number: CN105893611A
Application number: CN201610266254.7A
Authority: CN
Inventors: 李华康; 李涛; 罗明; 陈光宣; 孙国梓; 杨涛; 杨一涛
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2016-08-24
Anticipated expiration: 2036-04-27
Also published as: CN105893611B

Abstract

本发明公开了一种构建面向社交网络的兴趣主题语义网络的方法，以解决目前以文本分类为主的兴趣感知和消息推送方法无法适应社交网络新概念、新兴趣点的增长问题。首先从读入的网页文件中抽取所需的关键文本信息，并完成抽取关键词集，然后分析页面内关键词之间的关系，并结合历史页面中的关键词关系，构建关键词语义网络。经过主题词判别和主题词筛选进行主题词相似度计算，确定构建主题词和主题词之间的语义网络或形成新的主题。通过本发明引入的新词发现机制可以实现社交网络新词的发现，减少新词出现后的字典配置操作，实现自动化的新兴趣主题发现，有效地为检索和推荐服务提供更为新鲜、精准的主题类目。

Description

一种构建面向社交网络的兴趣主题语义网络的方法

技术领域

本发明涉及计算机信息检索领域，特别涉及面向社交网络文本内容的兴趣主题发现及语义链接的构建，以及整个主题网络的自动更新机制。

背景技术

随着互联网技术的发展以及网民从被动授信到主动发信，社交网络和社交媒体逐渐主导互联网的信息传播。社交网络即社交网络服务(Social Network Service)。社交网络表现形式多种多样，其中博客、论坛和播客发展较早，逐渐产生了微博、社区、QQ空间、微信朋友圈等。用户通过这些社交平台进行撰写、分享、评价、讨论、互通和沟通。

随着社交网络数据的爆炸式增加，导致用户无法通过导航快速浏览所需的信息，而在线的社交网络应用与传统的数据结构存在较大的差异，新的社交网络搜索引擎SNSearch成为一个新的研究热点。SNSearch系统主要由数据收集器、本体集成模块、文本索引器、数据可见性索引器、关键词查询模块、查询集成模块组成。

推荐算法作为社交网络的另一个主要技术，能够有效地帮助用户主动推荐感兴趣的联系人或者内容。其中通过提前建立用户的兴趣偏好以及评分，再结合偏好相似度计算模型的协同过滤技术是目前各类平台的主体算法。如Sharm和Cosley提出PopCore推荐算法，结合用户的受欢迎程度、相似度以及邻居间的强图，提出有效的网络推荐算法。Chen与Geyer基于社交网络信息的算法找到更多用户已知的联系人。

为了更好的提供内容的查询或者推送服务，越来越多的平台引入文本分类技术。文本分类目前已经较为成熟，有近邻分类、规则学校、朴素贝叶斯、决策树、SVM、回归模型、神经网络法等。这些方面主要基于一个已有的分类标签，通过不同的机器学习算法对现有的词进行分类处理，最终得到新文本内容的类目属性。

综上所述，现有的社交媒体的兴趣主题主要以机器学习、协同过滤等方式进行检索和推荐。但是随着移动终端的便捷，越来越多用户采用新的词语来描述更加复杂的综合体，如“高大上”，“西毕生”等的概念及兴趣主题，需要通过社交平台工作人员的标注，才能很好的被用户检索或者推荐给用户。

发明内容

本发明的目的在于提供一种面向社交网络的兴趣主题构建和更新方法，解决目前以文本分类为主的兴趣感知和消息推送方法无法适应社交网络新概念、新兴趣点的增长问题，实现自动半自动的主题兴趣发现等功能。

为解决上述问题，本发明提出的技术方案为一种构建面向社交网络的兴趣主题语义网络的方法，包含以下步骤：

步骤1：读入网页文件；

步骤2：文本提取，从上述网页文件中抽取所需的关键文本信息；

步骤3：关键词抽取，从步骤2生成的文本信息中抽取关键词集；

步骤4：构建关键词语义网络，分析页面内关键词之间的关系，并结合历史页面中的关键词关系，构建关键词与关键词之间的语义网络；

步骤5：主题词判别，通过步骤4得到的语义网络关键词中心词计算模型，从关键词集中抽取候选主题词；

步骤6：主题词筛选，将步骤5获得的候选主题词在基础主题库中进行精确匹配，如果没有找到则执行步骤7，否则则执行步骤8；

步骤7：主题词相似度计算，通过主题词文本相似和步骤4得到的语义网络相似计算步骤5得到的候选主题词与基础主题库中主题词的相似度，如果相似度大于某个阈值，则执行步骤8，否则将候选主题词插入基础主题库中形成新的主题；

步骤8：主题关联抽取，通过计算各主题词和关键词语义网络之间的关系，构建主题词和主题词之间的语义网络；

步骤9：主题层级判别，参照事先建立的层级关系以及进一步的主题词和关键词属性关系，整理主题词之间的各层级关系；

步骤10：输出主题网络。

步骤1中，网页文件是从社交网站、数据库或者本地文件夹逐步读入。

步骤3中，文本信息首先通过分词工具进行分词得到基础词表，然后基础词表通过新词发现工具得到现有词典文件中不存在的新词，得到的分词候选集通过一个去停用词过滤器剔除部分常用基础词。

与现有技术相比本发明的有益效果在于：

1、本发明引入了新词发现机制，可以在没有人工干预的条件下实现社交网络新词的发现，降低社区运维人员的需求，以及减少新词出现后的字典配置操作。

2、本发明通过社交网络页面内容关键词抽取构建关键词网络，并通过网络结构提取出兴趣主题词，实现自动化的新兴趣主题发现，可以有效的为检索和推荐服务提供更为新鲜、精准的主题类目。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明。

图1所示为本发明的方法流程，包含文本提取、关键词抽取、关键词网络构建、主题词判别、主题词筛选、主题词相似度计算、主题关联抽取、主题层级判别等功能模块。以下结合实例进行详细阐述：

步骤1：系统，从社交网站、数据库或者本地文件夹逐步的读入网页文件。

步骤2：文本提取模块，Web的HTML文本通过HTML Parser工具获得导航、标题、正文等信息，同时可以根据社交网络的浏览用户信息、发帖时间信息、相互反馈等信息对HTML文本进行标签化存放到XML文件中。

步骤3：关键词抽取模块，从步骤2中提取得到文本信息中抽取关键词集。得到的页面文本信息根据XML标签对文本进行分段读入内存，然后利用分词工具Tokenizer参照词典库对文本进行分词得到基础词集。采用双向N-gram结合信息增益算法对基础词集进行二次切分组合，发现词典文件不存在的新词。参照搜狗词库以及一般文本处理的停用词表构建一个面向领域的停用词表，对上一步得到的基础词集进行过滤得到新的基础词集。

步骤4：关键词网络模块，对步骤3得到的关键词集映射到一个图G上，定点V为关键词，边E表示两个关键词的共现。通过统计可以得到各种E的频率。再计算两个节点间的BC(网络节点中心度)值，得到关键词与关键词之间的语义网络

B C (v) = Σ_{u &NotEqual; v &NotEqual; w} \frac{g_{u w} (v)}{g_{u w}}, u &NotEqual; v &NotEqual; w

步骤5：主题词判别模块，通过步骤4得到的语义网络关键词中心词计算模型，从关键词集中抽取候选主题词Tc。主题词判别模块，通过步骤4得到的语义网络，分析关键词之间的路径，将所有路径的最大路由结点判定候选主题词。定义关键词与主题词之间的层级关系r_tk＝(topic，keyword，type)，其中type分为核心关键词、重要关键词和一般关键词。定义核心关键词与主题词出现在一个句子内或共现度超过了某个阈值，进一步定义重要关键词与兴趣主题出现在一个段落内或者与兴趣主题/核心关键词的共现度在一个设定的阈值范围以内，定义一般关键词为抽取得到的关键词的其他词。

步骤6：主题词筛选模块，采用编辑距离或者余弦相似度计算基础主题库中的相似度判别骤5得到的候选主题词是否已经存在。如果没有找到则进行步骤7；如果找到则执行步骤8。

步骤7：主题词相似度计算模块，通过编辑距离或者余弦相似度计算主题词文本模糊匹配S1，将关键词与兴趣主题词之间的关联关系作为主要特征，建立兴趣主题的Term-Rich类特征向量，并计算兴趣主题两两之间的余弦相似度得到候选主题词与基础主题库中的相似度如果相似度大于某个阈值，则执行步骤8；如果相似度小于某个阈值，则将候选主题词插入基础主题库中形成新的主题。

步骤8：主题关联抽取模块，采用步骤7相同的方式计算得到两个兴趣主题之间的相似度函数S_xy，当S_xy处于某个区域，即δ＜S_xy＜Δ是，可以确定两个主题存在关系。进一步的，考虑到兴趣主题的稀疏性，采用分层训练的策略HAM(Hierarchical AbstractMachine)获得不同精读的模型，其中顶层模型用于提出大量无关数据，底层模型采用多分类方法精确识别出主题之间的关联关系。

步骤9：主题层级判别模块，假设Fi和Fj分别表示兴趣主题Ti和Tj的关键词词频，如果Fi/(Fi+Fj)越大，则Ti越有可能是Tj的前序。与此同时若Ti和Tj之间的距离越大，Ti越不可能是Tj前序。考虑到以上的特征向量之间可能存在关联，如采用SVM来识别兴趣主题之间的前序关系。

步骤10：输出主题网络。

本发明针对现有的一般机器学习和人工标注模式无法适应面向社交网络的海量文本信息以及快速增长的新概念、新主题的问题，提出了一种社交网络兴趣主题网络构建和更新机制。本发明提出的基于关键词网络的新词发现以及新主题词提取机制，不仅可以用于社交网络等快速发展的自然语言环境，还能够适用于其他基于内容的文本挖掘领域。本发明引入了新词发现机制，可以在没有人工干预的条件下实现社交网络新词的发现，降低社区运维人员的需求，以及减少新词出现后的字典配置操作。本发明通过社交网络页面内容关键词抽取构建关键词网络，并通过网络结构提取出兴趣主题词，实现自动化的新兴趣主题发现，可以有效的为检索和推荐服务提供更为新鲜、精准的主题类目。

以上所述仅为本发明的优选实施案例，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行改进，或者对其中部分技术进行同等替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种构建面向社交网络的兴趣主题语义网络的方法，其特征在于包含以下步骤：

步骤1：读入网页文件；

步骤10：输出主题网络。

2.如权利要求1所述的一种构建面向社交网络的兴趣主题语义网络的方法，其特征在于步骤1中，网页文件是从社交网站、数据库或者本地文件夹逐步读入。

3.如权利要求1或2所述的一种构建面向社交网络的兴趣主题语义网络的方法，其特征在于步骤3中，对文本信息首先通过分词工具进行分词得到基础词表，然后基础词表通过新词发现工具得到现有词典文件中不存在的新词，得到的分词候选集通过一个去停用词过滤器剔除部分常用基础词。