CN111985210B - 一种基于词云技术的可编辑文献主题可视化的构建方法 - Google Patents

一种基于词云技术的可编辑文献主题可视化的构建方法 Download PDF

Info

Publication number
CN111985210B
CN111985210B CN202010870486.XA CN202010870486A CN111985210B CN 111985210 B CN111985210 B CN 111985210B CN 202010870486 A CN202010870486 A CN 202010870486A CN 111985210 B CN111985210 B CN 111985210B
Authority
CN
China
Prior art keywords
subject
word
document
probability
subject word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010870486.XA
Other languages
English (en)
Other versions
CN111985210A (zh
Inventor
卫未
蔡辉
王鹏达
李振雨
原菁菁
韩喜
田佳
高玉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mechanical And Electrical Engineering General Design Department
Original Assignee
Beijing Mechanical And Electrical Engineering General Design Department
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mechanical And Electrical Engineering General Design Department filed Critical Beijing Mechanical And Electrical Engineering General Design Department
Priority to CN202010870486.XA priority Critical patent/CN111985210B/zh
Publication of CN111985210A publication Critical patent/CN111985210A/zh
Application granted granted Critical
Publication of CN111985210B publication Critical patent/CN111985210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于词云技术的可编辑文献主题可视化的构建方法,以主题词在全文、主题和关键词三种不同考评维度的可视化展现为核心,结合词云技术,形成主题词可编辑的可视化模式,解决了以往单纯依靠词频统计方法,无法准确提取及展现主题词与研究成果关联显著性的问题。

Description

一种基于词云技术的可编辑文献主题可视化的构建方法
技术领域
本发明涉及一种文献主题可视化的构建方法,特别是一种基于词云技术的可编辑文献主题可视化的构建方法。
背景技术
文献尤其是非结构化文献的主题提取通常采用词频计算和主题归纳的方法。这种方法对于社交网络中出现的碎片化非连续性文本或主题具有高频特征的文献内容,具有很好的主题归纳效果。目前许多互联网社交媒体中采用的文本主题处理技术大都基于统计分析方法,如二项分布分析法、多项分布分析法、泊松分布分析法、共轭分布分析法及狄利克雷概率密度统计分析法等。
但是,这种些基于统计分析方法的文献主题可视化展现方式,通常只测量文献中主题词的词频,进行可视化展现,并不能明确高频词与主题词之间的客观存在的逻辑关系。对于专业领域科技研究文献而言,研究成果的主题词并不一定是文献中高词频词,同时,主题词往往与成果的研究对象、研究方法或研究结果相关,不是通过某一具体的统计分析方法就可以提取展现的。因此,建立主题词的提取规则可编辑性,有利于提高科技文献中的研究成果主题提取的准确率,提升主题词与研究成果相关性的可视化展现能力。
发明内容
本发明目的在于提供一种基于词云技术的可编辑文献主题可视化的构建方法,解决以往对文献主题词提取及统计过程中,出现的主题词单纯由词频概率高低决定,主题词与研究成果相关性不显著的问题。
一种基于词云技术的可编辑文献主题可视化的构建方法的具体步骤为:
第一步 确定文献主题词词频
统计文档中出现的词汇总数为N,主题词个数为K,某一主题词为ai,在文档中出现的次数为nij。由此可知,文档中主题词的全集为A={a1,a2,a3,...ak}。
根据TF模型,得出某一主题词ai在文献主题词集合中的词频,用公式(1)表示:
公式(1)中,nij为主题词ai在文档中出现的次数,∑knkj为文档中K个主题词出现的总次数。
第二步 确定主题词ai在文档主题词中的权重
设主题词ai在文档中出现的概率与k个主题词在文档中出现的概率成正比,与非k个主题词出现的频次成反比,则ai的权重越大;反之越小。为了确认主题词ai的权重,根据TF-IDF权重公式计算ai权重,用公式(2)表示:
第三步 确定主题词层次概率模型
由于主题词在文中不同部分出现的权重大小也不同,根据主题词的不同权重,建立以文档、主题和关键词三层的主题词层次结构,即建立全文、主题和关键词的主题词三级LDA模型,用公式(3)表示。
第四步建立基于词云技术的主题词抽取模型
由已确定的主题词在文档的权重分布概率可知,当文档中存在某一具体主题为ai的文档层次分布时,基于主题为ai的LDA模型同时满足全文、主题和关键词三级的多项式分布。对于ai在K个主题的符合多项分布的概率分布,用公式(4)表示:
第五步确定文档中不同主题的表现规则
根据已知全集A={a1,a2,a3,...ak},由此可知,全文中K个主题词的分布满足公式(5)
第六步建立基于词云技术的主题可编辑模型
主题词A={a1,a2,a3,...ak}服从各个主题词在既定条件下的属于主题词合集中的概率
a1~P(a1|a2,a3,...,aK)
a2~P(a2|a1,a3,...,aK)
a3~P(a3|a1,a2,...,aK)
......
aK~P(aK|a1,a2,...,aK-1)
根据已知各个主题词的出现概率,对单个主题词进行编辑迭代,实现各个主题词分布的最优解,得到主题词全集A中的处于概率最高的K个主题词的分布排序。
至此,完成了基于词云技术的可编辑文献主题可视化的构建。
本发明解决了以往单纯依靠词频统计,无法准确提取及展现主题词与研究成果关联显著性的问题。
具体实施方式
一种基于词云技术的可编辑文献主题可视化的构建方法的具体步骤为:
第一步 确定文献主题词词频
统计文档中出现的词汇总数为N,主题词个数为K,某一主题词为ai,在文档中出现的次数为nij。由此可知,文档中主题词的全集为A={a1,a2,a3,...ak}。
根据TF模型,得出某一主题词ai在文献主题词集合中的词频,用公式(1)表示:
公式(1)中,nij为主题词ai在文档中出现的次数,∑knkj为文档中K个主题词出现的总次数。
第二步 确定主题词ai在文档主题词中的权重
设主题词ai在文档中出现的概率与k个主题词在文档中出现的概率成正比,与非k个主题词出现的频次成反比,则ai的权重越大;反之越小。为了确认主题词ai的权重,根据TF-IDF权重公式计算ai权重,用公式(2)表示:
第三步 确定主题词层次概率模型
由于主题词在文中不同部分出现的权重大小也不同,根据主题词的不同权重,建立以文档、主题和关键词三层的主题词层次结构,即建立全文、主题和关键词的主题词三级LDA模型,用公式(3)表示。
第四步 建立基于词云技术的主题词抽取模型
由已确定的主题词在文档的权重分布概率可知,当文档中存在某一具体主题为ai的文档层次分布时,基于主题为ai的LDA模型同时满足全文、主题和关键词三级的多项式分布。对于ai在K个主题的符合多项分布的概率分布,用公式(4)表示:
第五步确定文档中不同主题的表现规则
根据已知全集A={a1,a2,a3,...,ak},由此可知,全文中K个主题词的分布满足公式(5)
第六步建立基于词云技术的主题可编辑模型
主题词A={a1,a2,a3,...,ak}服从各个主题词在既定条件下的属于主题词合集中的概率
a1~P(a1|a2,a3,...,aK)
a2~P(a2|a1,a3,...,aK)
a3~P(a3|a1,a2,...,aK)
......
aK~P(aK|a1,a2,...,aK-1)
根据已知各个主题词的出现概率,对单个主题词进行编辑迭代,实现各个主题词分布的最优解,得到主题词全集A中的处于概率最高的K个主题词的分布排序。
至此,完成了基于词云技术的可编辑文献主题可视化的构建。

Claims (1)

1.一种基于词云技术的可编辑文献主题可视化的构建方法,其特征在于具体步骤为:
第一步确定文献主题词词频
统计文档中出现的词汇总数为N,主题词个数为K,某一主题词为ai,在文档中出现的次数为nij;由此可知,文档中主题词的全集为A={a1,a2,a3,...ak};
根据TF模型,得出某一主题词ai在文献主题词集合中的词频,用公式(1)表示:
公式(1)中,∑knkj为文档中K个主题词出现的总次数;
第二步确定主题词ai在文档主题词中的权重
设主题词ai在文档中出现的概率与k个主题词在文档中出现的概率成正比,与非k个主题词出现的频次成反比,则ai的权重越大;反之越小;为了确认主题词ai的权重,根据TF-IDF权重公式计算ai权重,用公式(2)表示:
第三步确定主题词层次概率模型
由于主题词在文中不同部分出现的权重大小也不同,根据主题词的不同权重,建立以文档、主题和关键词三层的主题词层次结构,即建立全文、主题和关键词的主题词三级LDA模型,用公式(3)表示;
第四步建立基于词云技术的主题词抽取模型
由已确定的主题词在文档的权重分布概率可知,当文档中存在某一具体主题为ai的文档层次分布时,基于主题为ai的LDA模型同时满足全文、主题和关键词三级的多项式分布;对于ai在K个主题的符合多项分布的概率分布,用公式(4)表示:
第五步确定文档中不同主题的表现规则
根据已知全集A={a1,a2,a3,...ak},由此可知,全文中K个主题词的分布满足公式(5)
第六步建立基于词云技术的主题可编辑模型
主题词A={a1,a2,a3,...ak}服从各个主题词在既定条件下的属于主题词合集中的概率
a1~P(a1|a2,a3,...,aK)
a2~P(a2|a1,a3,...,aK)
a3~P(a3|a1,a2,...,aK)
......
aK~P(aK|a1,a2,...,aK-1)
根据已知各个主题词的出现概率,对单个主题词进行编辑迭代,实现各个主题词分布的最优解,得到主题词全集A中的处于概率最高的K个主题词的分布排序;
至此,完成了基于词云技术的可编辑文献主题可视化的构建。
CN202010870486.XA 2020-08-26 2020-08-26 一种基于词云技术的可编辑文献主题可视化的构建方法 Active CN111985210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010870486.XA CN111985210B (zh) 2020-08-26 2020-08-26 一种基于词云技术的可编辑文献主题可视化的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010870486.XA CN111985210B (zh) 2020-08-26 2020-08-26 一种基于词云技术的可编辑文献主题可视化的构建方法

Publications (2)

Publication Number Publication Date
CN111985210A CN111985210A (zh) 2020-11-24
CN111985210B true CN111985210B (zh) 2023-08-15

Family

ID=73439586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010870486.XA Active CN111985210B (zh) 2020-08-26 2020-08-26 一种基于词云技术的可编辑文献主题可视化的构建方法

Country Status (1)

Country Link
CN (1) CN111985210B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930416A (zh) * 2016-04-19 2016-09-07 中山大学 一种用户反馈信息的可视化处理方法及系统
CN107025607A (zh) * 2017-03-23 2017-08-08 秦景龙 精确定位社交处理方法
CN109635102A (zh) * 2018-11-19 2019-04-16 浙江工业大学 基于用户交互的主题模型提升方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110289115A1 (en) * 2010-05-20 2011-11-24 Board Of Regents Of The Nevada System Of Higher Education On Behalf Of The University Of Nevada Scientific definitions tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930416A (zh) * 2016-04-19 2016-09-07 中山大学 一种用户反馈信息的可视化处理方法及系统
CN107025607A (zh) * 2017-03-23 2017-08-08 秦景龙 精确定位社交处理方法
CN109635102A (zh) * 2018-11-19 2019-04-16 浙江工业大学 基于用户交互的主题模型提升方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于概率模型的主题识别方法实证研究;叶春蕾;冷伏海;;情报科学(02);全文 *

Also Published As

Publication number Publication date
CN111985210A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
WO2019214236A1 (zh) 原创内容摘要确定和原创内容推荐
CN102622338B (zh) 一种短文本间语义距离的计算机辅助计算方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN108763213A (zh) 主题特征文本关键词提取方法
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
WO2011057497A1 (zh) 一种词汇质量挖掘评价方法及装置
EP2745210A1 (en) System and method for managing opinion networks with interactive opinion flows
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN107766318A (zh) 一种关键词的抽取方法、装置及电子设备
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
CN104317783B (zh) 一种语义关系密切度的计算方法
CN112989802A (zh) 一种弹幕关键词提取方法、装置、设备及介质
Jin et al. Text clustering algorithm based on the graph structures of semantic word co-occurrence
Othman et al. Using NLP approach for opinion types classifier
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Maragheh et al. LLM-take: theme-aware keyword extraction using large language models
Quan et al. Feature-level sentiment analysis by using comparative domain corpora
CN111985210B (zh) 一种基于词云技术的可编辑文献主题可视化的构建方法
CN116090438A (zh) 主题处理方法、装置、电子设备及存储介质
CN112199601B (zh) 一种基于海量新闻数据事件热度的新闻推荐方法
Ye et al. Hot topic extraction based on Chinese Microblog's Features topic model
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant