CN105893611B - 一种构建面向社交网络的兴趣主题语义网络的方法 - Google Patents
一种构建面向社交网络的兴趣主题语义网络的方法 Download PDFInfo
- Publication number
- CN105893611B CN105893611B CN201610266254.7A CN201610266254A CN105893611B CN 105893611 B CN105893611 B CN 105893611B CN 201610266254 A CN201610266254 A CN 201610266254A CN 105893611 B CN105893611 B CN 105893611B
- Authority
- CN
- China
- Prior art keywords
- subject
- new
- network
- words
- semantic network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Abstract
本发明公开了一种构建面向社交网络的兴趣主题语义网络的方法,以解决目前以文本分类为主的兴趣感知和消息推送方法无法适应社交网络新概念、新兴趣点的增长问题。首先从读入的网页文件中抽取所需的关键文本信息,并完成抽取关键词集,然后分析页面内关键词之间的关系,并结合历史页面中的关键词关系,构建关键词语义网络。经过主题词判别和主题词筛选进行主题词相似度计算,确定构建主题词和主题词之间的语义网络或形成新的主题。通过本发明引入的新词发现机制可以实现社交网络新词的发现,减少新词出现后的字典配置操作,实现自动化的新兴趣主题发现,有效地为检索和推荐服务提供更为新鲜、精准的主题类目。
Description
技术领域
本发明涉及计算机信息检索领域,特别涉及面向社交网络文本内容的兴趣主题发现及语义链接的构建,以及整个主题网络的自动更新机制。
背景技术
随着互联网技术的发展以及网民从被动授信到主动发信,社交网络和社交媒体逐渐主导互联网的信息传播。社交网络即社交网络服务(Social Network Service)。社交网络表现形式多种多样,其中博客、论坛和播客发展较早,逐渐产生了微博、社区、QQ空间、微信朋友圈等。用户通过这些社交平台进行撰写、分享、评价、讨论、互通和沟通。
随着社交网络数据的爆炸式增加,导致用户无法通过导航快速浏览所需的信息,而在线的社交网络应用与传统的数据结构存在较大的差异,新的社交网络搜索引擎SNSearch成为一个新的研究热点。SNSearch系统主要由数据收集器、本体集成模块、文本索引器、数据可见性索引器、关键词查询模块、查询集成模块组成。
推荐算法作为社交网络的另一个主要技术,能够有效地帮助用户主动推荐感兴趣的联系人或者内容。其中通过提前建立用户的兴趣偏好以及评分,再结合偏好相似度计算模型的协同过滤技术是目前各类平台的主体算法。如Sharm和Cosley提出PopCore推荐算法,结合用户的受欢迎程度、相似度以及邻居间的强图,提出有效的网络推荐算法。Chen与Geyer基于社交网络信息的算法找到更多用户已知的联系人。
为了更好的提供内容的查询或者推送服务,越来越多的平台引入文本分类技术。文本分类目前已经较为成熟,有近邻分类、规则学校、朴素贝叶斯、决策树、SVM、回归模型、神经网络法等。这些方面主要基于一个已有的分类标签,通过不同的机器学习算法对现有的词进行分类处理,最终得到新文本内容的类目属性。
综上所述,现有的社交媒体的兴趣主题主要以机器学习、协同过滤等方式进行检索和推荐。但是随着移动终端的便捷,越来越多用户采用新的词语来描述更加复杂的综合体,如“高大上”,“西毕生”等的概念及兴趣主题,需要通过社交平台工作人员的标注,才能很好的被用户检索或者推荐给用户。
发明内容
本发明的目的在于提供一种面向社交网络的兴趣主题构建和更新方法,解决目前以文本分类为主的兴趣感知和消息推送方法无法适应社交网络新概念、新兴趣点的增长问题,实现自动半自动的主题兴趣发现等功能。
为解决上述问题,本发明提出的技术方案为一种构建面向社交网络的兴趣主题语义网络的方法,包含以下步骤:
步骤1:读入网页文件;
步骤2:文本提取,从上述网页文件中抽取所需的关键文本信息;
步骤3:关键词抽取,从步骤2生成的文本信息中抽取关键词集;
步骤4:构建关键词语义网络,分析页面内关键词之间的关系,并结合历史页面中的关键词关系,构建关键词与关键词之间的语义网络;
步骤5:主题词判别,通过步骤4得到的语义网络关键词中心词计算模型,从关键词集中抽取候选主题词;
步骤6:主题词筛选,将步骤5获得的候选主题词在基础主题库中进行精确匹配,如果没有找到则执行步骤7,否则则执行步骤8;
步骤7:主题词相似度计算,通过主题词文本相似和步骤4得到的语义网络相似计算步骤5得到的候选主题词与基础主题库中主题词的相似度,如果相似度大于某个阈值,则执行步骤8,否则将候选主题词插入基础主题库中形成新的主题;
步骤8:主题关联抽取,通过计算各主题词和关键词语义网络之间的关系,构建主题词和主题词之间的语义网络;
步骤9:主题层级判别,参照事先建立的层级关系以及进一步的主题词和关键词属性关系,整理主题词之间的各层级关系;
步骤10:输出主题网络。
步骤1中,网页文件是从社交网站、数据库或者本地文件夹逐步读入。
步骤3中,文本信息首先通过分词工具进行分词得到基础词表,然后基础词表通过新词发现工具得到现有词典文件中不存在的新词,得到的分词候选集通过一个去停用词过滤器剔除部分常用基础词。
与现有技术相比本发明的有益效果在于:
1、本发明引入了新词发现机制,可以在没有人工干预的条件下实现社交网络新词的发现,降低社区运维人员的需求,以及减少新词出现后的字典配置操作。
2、本发明通过社交网络页面内容关键词抽取构建关键词网络,并通过网络结构提取出兴趣主题词,实现自动化的新兴趣主题发现,可以有效的为检索和推荐服务提供更为新鲜、精准的主题类目。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合说明书附图对本发明创造作进一步的详细说明。
图1所示为本发明的方法流程,包含文本提取、关键词抽取、关键词网络构建、主题词判别、主题词筛选、主题词相似度计算、主题关联抽取、主题层级判别等功能模块。以下结合实例进行详细阐述:
步骤1:系统,从社交网站、数据库或者本地文件夹逐步的读入网页文件。
步骤2:文本提取模块,Web的HTML文本通过HTML Parser工具获得导航、标题、正文等信息,同时可以根据社交网络的浏览用户信息、发帖时间信息、相互反馈等信息对HTML文本进行标签化存放到XML文件中。
步骤3:关键词抽取模块,从步骤2中提取得到文本信息中抽取关键词集。得到的页面文本信息根据XML标签对文本进行分段读入内存,然后利用分词工具Tokenizer参照词典库对文本进行分词得到基础词集。采用双向N-gram结合信息增益算法对基础词集进行二次切分组合,发现词典文件不存在的新词。参照搜狗词库以及一般文本处理的停用词表构建一个面向领域的停用词表,对上一步得到的基础词集进行过滤得到新的基础词集。
步骤4:关键词网络模块,对步骤3得到的关键词集映射到一个图G上,定点V为关键词,边E表示两个关键词的共现。通过统计可以得到各种E的频率。再计算两个节点间的BC(网络节点中心度)值,得到关键词与关键词之间的语义网络
步骤5:主题词判别模块,通过步骤4得到的语义网络关键词中心词计算模型,从关键词集中抽取候选主题词Tc。主题词判别模块,通过步骤4得到的语义网络,分析关键词之间的路径,将所有路径的最大路由结点判定候选主题词。定义关键词与主题词之间的层级关系rtk=(topic,keyword,type),其中type分为核心关键词、重要关键词和一般关键词。定义核心关键词与主题词出现在一个句子内或共现度超过了某个阈值,进一步定义重要关键词与兴趣主题出现在一个段落内或者与兴趣主题/核心关键词的共现度在一个设定的阈值范围以内,定义一般关键词为抽取得到的关键词的其他词。
步骤6:主题词筛选模块,采用编辑距离或者余弦相似度计算基础主题库中的相似度判别骤5得到的候选主题词是否已经存在。如果没有找到则进行步骤7;如果找到则执行步骤8。
步骤7:主题词相似度计算模块,通过编辑距离或者余弦相似度计算主题词文本模糊匹配S1,将关键词与兴趣主题词之间的关联关系作为主要特征,建立兴趣主题的Term-Rich类特征向量,并计算兴趣主题两两之间的余弦相似度得到候选主题词与基础主题库中的相似度如果相似度大于某个阈值,则执行步骤8;如果相似度小于某个阈值,则将候选主题词插入基础主题库中形成新的主题。
步骤8:主题关联抽取模块,采用步骤7相同的方式计算得到两个兴趣主题之间的相似度函数Sxy,当Sxy处于某个区域,即δ<Sxy<Δ是,可以确定两个主题存在关系。进一步的,考虑到兴趣主题的稀疏性,采用分层训练的策略HAM(Hierarchical AbstractMachine)获得不同精读的模型,其中顶层模型用于提出大量无关数据,底层模型采用多分类方法精确识别出主题之间的关联关系。
步骤9:主题层级判别模块,假设Fi和Fj分别表示兴趣主题Ti和Tj的关键词词频,如果Fi/(Fi+Fj)越大,则Ti越有可能是Tj的前序。与此同时若Ti和Tj之间的距离越大,Ti越不可能是Tj前序。考虑到以上的特征向量之间可能存在关联,如采用SVM来识别兴趣主题之间的前序关系。
步骤10:输出主题网络。
本发明针对现有的一般机器学习和人工标注模式无法适应面向社交网络的海量文本信息以及快速增长的新概念、新主题的问题,提出了一种社交网络兴趣主题网络构建和更新机制。本发明提出的基于关键词网络的新词发现以及新主题词提取机制,不仅可以用于社交网络等快速发展的自然语言环境,还能够适用于其他基于内容的文本挖掘领域。本发明引入了新词发现机制,可以在没有人工干预的条件下实现社交网络新词的发现,降低社区运维人员的需求,以及减少新词出现后的字典配置操作。本发明通过社交网络页面内容关键词抽取构建关键词网络,并通过网络结构提取出兴趣主题词,实现自动化的新兴趣主题发现,可以有效的为检索和推荐服务提供更为新鲜、精准的主题类目。
以上所述仅为本发明的优选实施案例,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行改进,或者对其中部分技术进行同等替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种构建面向社交网络的兴趣主题语义网络的方法,其特征在于包含以下步骤:
步骤1:读入网页文件;
步骤2:文本提取,从上述网页文件中抽取所需的关键文本信息;
步骤3:关键词抽取,从步骤2生成的文本信息中抽取关键词集;
步骤4:构建关键词语义网络,分析页面内关键词之间的关系,并结合历史页面中的关键词关系,构建关键词与关键词之间的语义网络;
步骤5:主题词判别,通过步骤4得到的关键词与关键词之间的语义网络,从关键词集中抽取候选主题词;
步骤6:主题词筛选,将步骤5获得的候选主题词在基础主题库中进行精确匹配,如果没有找到则执行步骤7,否则则执行步骤8;
步骤7:主题词相似度计算,通过主题词文本相似和步骤4得到的语义网络相似计算步骤5得到的候选主题词与基础主题库中主题词的相似度,如果相似度大于某个阈值,则执行步骤8,否则将候选主题词插入基础主题库中形成新的主题;
步骤8:主题关联抽取,通过计算候选主题词与基础主题库中主题词和关键词语义网络之间的关系,构建主题词和主题词之间的语义网络;
步骤9:主题层级判别,参照事先建立的层级关系以及主题词和关键词属性关系,整理主题词之间的各层级关系;
步骤10:输出主题网络。
2.如权利要求1所述的一种构建面向社交网络的兴趣主题语义网络的方法,其特征在于步骤1中,网页文件是从社交网站、数据库或者本地文件夹逐步读入。
3.如权利要求1或2所述的一种构建面向社交网络的兴趣主题语义网络的方法,其特征在于步骤3中,对文本信息首先通过分词工具进行分词得到基础词表,然后基础词表通过新词发现工具得到现有词典文件中不存在的新词,分词得到的基础词表通过一个去停用词过滤器剔除部分常用基础词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610266254.7A CN105893611B (zh) | 2016-04-27 | 2016-04-27 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610266254.7A CN105893611B (zh) | 2016-04-27 | 2016-04-27 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105893611A CN105893611A (zh) | 2016-08-24 |
CN105893611B true CN105893611B (zh) | 2020-04-07 |
Family
ID=56705443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610266254.7A Active CN105893611B (zh) | 2016-04-27 | 2016-04-27 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893611B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682172A (zh) * | 2016-12-28 | 2017-05-17 | 江苏大学 | 一种基于关键词的文献研究热点推荐方法 |
CN107169821B (zh) * | 2017-05-02 | 2020-12-15 | 杭州泰一指尚科技有限公司 | 大数据查询推荐方法及其系统 |
CN107220386B (zh) | 2017-06-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN107704512B (zh) * | 2017-08-31 | 2021-08-24 | 平安科技(深圳)有限公司 | 基于社交数据的金融产品推荐方法、电子装置及介质 |
CN107767273B (zh) * | 2017-09-05 | 2021-08-31 | 平安科技(深圳)有限公司 | 基于社交数据的资产配置方法、电子装置及介质 |
CN107729569B (zh) * | 2017-11-17 | 2020-01-17 | 杭州师范大学 | 一种融合网络结构和文本信息的社交关系预测方法 |
CN109190117B (zh) * | 2018-08-10 | 2023-06-23 | 中国船舶重工集团公司第七一九研究所 | 一种基于词向量的短文本语义相似度计算方法 |
CN110188352B (zh) * | 2019-05-28 | 2023-05-26 | 北京金山数字娱乐科技有限公司 | 一种文本主题确定方法、装置、计算设备及存储介质 |
CN113076335A (zh) * | 2021-04-02 | 2021-07-06 | 西安交通大学 | 一种网络模因检测方法、系统、设备及存储介质 |
CN113688209B (zh) * | 2021-09-01 | 2023-08-25 | 江苏省城市规划设计研究院有限公司 | 一种通过调节关键词依存关系的文本语义网络构建方法 |
CN115203620B (zh) * | 2022-09-14 | 2023-02-07 | 北京大学 | 面向接口迁移的相似语义主题的网页识别方法、装置和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN103970865A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于种子词的微博文本层次主题发现方法及系统 |
CN104778204A (zh) * | 2015-03-02 | 2015-07-15 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207786A1 (en) * | 2013-01-22 | 2014-07-24 | Equivio Ltd. | System and methods for computerized information governance of electronic documents |
US10380120B2 (en) * | 2014-03-18 | 2019-08-13 | International Business Machines Corporation | Automatic discovery and presentation of topic summaries related to a selection of text |
-
2016
- 2016-04-27 CN CN201610266254.7A patent/CN105893611B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN103970865A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于种子词的微博文本层次主题发现方法及系统 |
CN104778204A (zh) * | 2015-03-02 | 2015-07-15 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
Non-Patent Citations (2)
Title |
---|
基于情感时间序列的微博热点主题检测;李斌阳等;《中国科学:信息科学》;20151231;第45卷(第12期);第1547-1557页 * |
短文本相似度研究及其在微博话题检测中的应用;黄贤英等;《计算机工程与设计》;20151130;第36卷(第11期);第3128-3133页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105893611A (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893611B (zh) | 一种构建面向社交网络的兴趣主题语义网络的方法 | |
US8751218B2 (en) | Indexing content at semantic level | |
CN104281702B (zh) | 基于电力关键词分词的数据检索方法及装置 | |
KR20130060720A (ko) | 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN102254014A (zh) | 一种网页特征自适应的信息抽取方法 | |
CN103955529A (zh) | 一种互联网信息搜索聚合呈现方法 | |
Kallipolitis et al. | Semantic search in the World News domain using automatically extracted metadata files | |
CN106874397B (zh) | 一种面向物联网设备的自动语义标注方法 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN112507109A (zh) | 一种基于语义分析与关键词识别的检索方法和装置 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN113239111A (zh) | 一种基于知识图谱的网络舆情可视化分析方法及系统 | |
Saif et al. | Mapping Arabic WordNet synsets to Wikipedia articles using monolingual and bilingual features | |
CN112084333A (zh) | 一种基于情感倾向分析的社交用户生成方法 | |
CN104346382A (zh) | 使用语言查询的文本分析系统和方法 | |
Cui et al. | Corpus Exploitation from Wikipedia for Ontology Construction. | |
Chen et al. | Novelty paper recommendation using citation authority diffusion | |
Gupta et al. | Keyword extraction: a review | |
Chala et al. | A Framework for Enriching Job Vacancies and Job Descriptions Through Bidirectional Matching. | |
Tabarcea et al. | Framework for location-aware search engine | |
CN114722304A (zh) | 异质信息网络上基于主题的社区搜索方法 | |
Tohalino et al. | Using virtual edges to extract keywords from texts modeled as complex networks | |
Kannan et al. | Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm | |
Zeng et al. | Construction of scenic spot knowledge graph based on ontology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |