CN110704609B - 基于社区隶属度的文本主题可视化方法、装置 - Google Patents

基于社区隶属度的文本主题可视化方法、装置 Download PDF

Info

Publication number
CN110704609B
CN110704609B CN201910978802.2A CN201910978802A CN110704609B CN 110704609 B CN110704609 B CN 110704609B CN 201910978802 A CN201910978802 A CN 201910978802A CN 110704609 B CN110704609 B CN 110704609B
Authority
CN
China
Prior art keywords
subject
community
representing
modularity
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910978802.2A
Other languages
English (en)
Other versions
CN110704609A (zh
Inventor
李岩
高影繁
刘志辉
崔笛
浦墨
郑明�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Scientific And Technical Information Of China
Original Assignee
Institute Of Scientific And Technical Information Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Scientific And Technical Information Of China filed Critical Institute Of Scientific And Technical Information Of China
Priority to CN201910978802.2A priority Critical patent/CN110704609B/zh
Publication of CN110704609A publication Critical patent/CN110704609A/zh
Application granted granted Critical
Publication of CN110704609B publication Critical patent/CN110704609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种基于社区隶属度的文本主题可视化方法、装置。该方法包括:获取待处理文本的主题词以及主题词的共现信息;确定主题词的社区划分结果;基于共现信息以及社区划分结果,确定各主题词的社区隶属度;基于共现信息以及各社区隶属度对主题词进行展示。本申请实施例提供的方案,是基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。

Description

基于社区隶属度的文本主题可视化方法、装置
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种基于社区隶属度的文本主题可视化方法、装置。
背景技术
随着论文、专利等科技数据呈现爆发性增长,人工从科技数据中获取主题信息变得困难。如何自动化地从科研数据中获取主题信息成为了一项越来越重要的问题。
现有技术中在获取主题词信息时,通常对主题词进行聚类,基于聚类结果对主题词进行可视化展示,但是目前对主题词的可视化展示只能够体现出主题词之间的相似度,不能够体现出聚类后主题词对社区的重要性,导致对主题词的可视化展示效果差,无法满足用户的使用需求。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例提供了一种基于社区隶属度的文本主题可视化方法,该方法包括:
获取待处理文本的主题词以及主题词的共现信息;
确定主题词的社区划分结果;
基于共现信息以及社区划分结果,确定各主题词的社区隶属度;
基于共现信息以及各社区隶属度对主题词进行展示。
第二方面,本申请实施例提供了一种基于社区隶属度的文本主题可视化装置,该装置包括:
共现信息获取模块,用于获取待处理文本的主题词以及主题词的共现信息;
社区划分结果确定模块,用于确定主题词的社区划分结果;
社区隶属度确定模块,用于基于共现信息以及社区划分结果,确定各主题词的社区隶属度;
展示模块,用于基于共现信息以及各社区隶属度对主题词进行展示。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行如本申请的第一方面所示的文本主题词的展示方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面所示的文本主题词的展示方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的方案,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于社区隶属度的文本主题可视化方法的流程示意图;
图2中示出了本申请实施例提供的一种实施方式的流程示意图;
图3为本申请实施例提供的一种基于社区隶属度的文本主题可视化装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目前,常通过一些可视化软件进行主题词的可视化展示,如Vosviewer、Ucinet、Gephi等。以Vosviewer为例,在对论文进行处理时,Vosviewer通过对论文的题录数据进行分析,抽取论文的关键词形成共现矩阵,然后使用相似性视觉(visual of similarity,vos)算法进行主题词的布局,通过smart local-moving(SLM)算法进行主题词的聚类,可以生成主题可视化图以及主题热力图等。
现有技术中,在通过展示图对主题词的可视化展示时,展示图(如主题可视化图、主题热力图等)只能够展示主题词之间的相似度,无法对聚类后主题词对社区的重要性进行展示,并且在主题词规模较大时,展示的结果中距离相近的主题词会被覆盖,有可能会导致一些对社区重要的主题词得不到凸显,影响用户的使用。
另外,目前用于对主题词进行可视化展示的软件,仅支持输入指定格式的输入文件,如Vosviewer的输入只能是科学引文索引(web of science)的题录数据或者由其他文件导入的pajek数据等。如Ucinet支持共现矩阵的导入,但也无法直接由文本数据来提取主题词的共现信息。这便可能会导致一些无法满足指定格式的科学数据,无法通过上述的软件进行可视化展示。
本申请实施例提供的基于社区隶属度的文本主题可视化方法、装置,旨在解决现有技术的如上技术问题中的至少一个。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种基于社区隶属度的文本主题可视化方法的流程示意图,如图1所示,该方法主要可以包括:
步骤S110:获取待处理文本的主题词以及主题词的共现信息;
本申请实施例中,待处理文本可以包括但是不限于科技论文摘要、科技论文全文、专利文件的说明书摘要、专利文件的权利要求书等。
待处理文本可以为文本格式,相较于现有技术中所指定的输入文件的格式,更方便用户的使用。
本申请实施例中,对待处理文本进行处理以获取主题词以及主题词的共现信息,可以采用包括但是不限于分词、过滤停用词、词性识别以及术语识别等自然语言处理手段。
本申请实施例中,获得到待处理文本的主题词后,可以获取主题词的共现信息,共现信息可以包括共现矩阵,可以将获取倒的待处理文本的主题词集合,转化为主题词的共现矩阵。
步骤S120:确定主题词的社区划分结果。
本申请实施例中,在获取到待处理文本的主题词后,可以基于聚类算法对待处理文本的主题词集合进行聚类操作,进而对聚类结果进行社区划分,得到社区划分结果。
步骤S130:基于共现信息以及社区划分结果,确定各主题词的社区隶属度。
本申请实施例中,主题词的社区隶属度能够表示主题词对社区的重要性。基于主题词的共现信息以及社区划分结果,能够确定出主题词的社区隶属度。
步骤S140:基于共现信息以及各社区隶属度对主题词进行展示。
本申请实施例中,基于主题词的共现信息以及主题词的社区隶属度对主题词进行展示,使得在对主体词进行可视化展示时,能够通过体现主题词的社区隶属度,来体现后主题词对社区的重要性。通过对主题词的展示,实现待处理文本主题的可视化,能够使用户简洁直观的了解到待处理文本的主题。
本申请实施例提供的方法,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。
本申请实施例的一种可选方式中,共现信息包括主题词的共现矩阵,基于共现信息以及社区划分结果,确定各主题词的社区隶属度,包括:
针对任一主题词,基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度,以及除任一主题词外的其他主题词的第二模块度;
基于第一模块度以及第二模块度,确定任一主题词的社区隶属度。
本申请实施例中,模块度值的大小可以用来衡量社区划分质量。在确定任一主题词的社区隶属度时,可以对所有主题词构成的主题词集合进行第一社区划分,并计算第一模块度,第一模块度用于表征第一社区划分的质量。对除上述任一主题词外的其他主题词构成的主题词集合进行第二社区划分,并计算第二模块度,第二模块度用于表征第二社区划分的质量。从而可以基于第一模块度与第二模块度,确定出上述任一主题词的社区隶属度。
本申请实施例的一种可选方式中,基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度,包括:
基于以下公式确定第一模块度:
Figure BDA0002234509940000061
上述公式(1)中,Q(c1,…cn)表示第一模块度,1…n表示各主题词,i、j分别表示主题词中任一个,m表示所有主题词在待处理文本出现的总频次,c1,…cn表示社区划分结果中主题词被划分到的各社区,ci表示主题词i被划分到的社区,cj表示主题词j被划分到的社区,sij表示主题词i与主题词j之间的关联强度。γ为预设置的调和参数,用户可以通过设置γ的值,来调节生成社区的数量,γ的值越大,生成社区的数量越大。δ(ci,cj)为预定义的函数,在ci=cj时,δ(ci,cj)=1,在ci≠cj时,δ(ci,cj)=0;
主题词i与主题词j之间的关联强度sij基于以下公式确定:
Figure BDA0002234509940000062
上述公式(2)中,wi表示主题词i在待处理文本出现的总频次,其中wj表示主题词j在待处理文本出现的总频次,aij表示主题词i与主题词j在待处理文本共现的频次。
本申请实施例中,可以基于louvain社区发现算法进行主题词的聚类,具体而言,可以通过上述公式(2)计算出主题词i与主题词j之间的关联强度sij,通过上述公式(1)确定第一模块度。
在实际使用中,可以通过Q(c1,…,cd-1,cd+1,…,cn)表示第二模块度,针对1…d-1,d+1…n的各主题词,采用与第一模块度相同的计算方式,可以确定出第二模块度。
本申请实施例的一种可选方式中,基于第一模块度以及第二模块度,确定任一主题词的社区隶属度,包括:
基于以下公式确定任一主题词的社区隶属度:
ΔQd=Q(c1,…cn)-Q(c1,…,cd-1,cd+1,…,cn) (3)
上述公式(3)中,d表示任一主题词,ΔQd表示任一主题词的社区隶属度,Q(c1,…,cd-1,cd+1,…,cn)表示除任一主题词外的其他主题词的第二模块度。
本申请实施例中,可以根据可以通过上述公式(3)来计算上述任一主题词的社区隶属度。由于第一模块度用于表征所有主题词构成的主题词集合进行的第一社区划分的质量,第二模块度用于表征除上述任一主题词外的其他主题词构成的主题词集合的第二社区划分的质量,将第一模块度与第二模块度做差,可以确定出上述任一主题词对社区划分的重要程度,即社区隶属度。
本申请实施例的一种可选方式中,共现信息包括共现矩阵,基于共现信息以及各社区隶属度对主题词进行展示,包括:
基于相似性视觉VOS算法,对共现矩阵进行布局优化;
基于优化后的共现矩阵以及各社区隶属度对主题词进行展示。
本申请实施例中,可以基于相似性视觉VOS算法,对共现矩阵进行布局优化。
在实际使用中,可以以下公式定义全局距离:
E(X;S)=∑i<jsij||xi-xj||2 (4)
上述公式(4)中,E(X;S)表示全局距离,||xi-xj||表示主题词i与主题词j之间的欧式距离。
基于VOS算法,通过最小化主题词的全局距离,可以实现对共现矩阵的布局优化。
具体的布局优化过程可以为:若主题词有C个,可以首先随机初始化C个点的坐标(即C×2维矩阵),然后对C×2维矩阵中的每一个点分别根据E(X;S)求偏导,确定出偏导方向,而后根据原坐标在偏导方向上进行移动预设距离,在完成对C×2维矩阵中的每一个点的移动后,对移动后的C×2维矩阵进行等比例的放大,而后重复进行沿偏导方向移动预设距离以及等比例的放大操作预设次数,结束调整。可以认为结束调整后得到的C×2维矩阵即为最小化主题词的全局距离后的矩阵,即共现矩阵的布局优化结果。
重复进行沿偏导方向移动时,每次移动的预设距离可以相同也可以不同,每次进行放大操作的比例可以相同也可以不同,均可以根据实际需要进行设置。在进行放大过程时,C×2维矩阵中各个点,均需要服从以下约束条件:
Figure BDA0002234509940000081
通过上述公式(5),对C×2维矩阵进行约束,使得C×2维矩阵中各点之间的平均距离为1,以避免各点的坐标过于接近,导致各点在展示时考的过近。
基于优化的后共现矩阵以及各主题词的社区隶属度,对主题词进行可视化展示,具体而言,可以在展示图中的预设区间,设定可显示的主题词对应点的社区隶属度阈值,当主题词的社区隶属度低于社区隶属度阈值时,则不会被显示,这时可以将社区隶属度较高的主题词,即对社区重要性较高的主题词进行显示。预设区间以及社区隶属度阈值均可以实际需要进行调整。
Echarts是百度开源的一款动态可交互的数据可视化工具。pyecharts是一个基于python生成Echarts图表的类库,在实际使用中,可直接在python程序渲染出html图表。具体而言,可以利用布局优化后共现矩阵制可视化图表,并且由于Echarts图表的可交互特性,用户可以在Echarts图表的前端通过调整社区隶属度阈值来控制的图中词的多少,使主题词的展示图的显示更友好直观。
图2中示出了本申请实施例提供的一种实施方式的流程示意图,如图2所示,文本即为待处理文本,文本预处理即对待处理文本进行处理获取待处理文本的主题词以及主题词的共现信息。本例中主题词的共现信息为主题词的共现矩阵。VOS即基于VOS算法对主题词的共现矩阵进行布局优化。Louvain即Louvain社区发现算法,基于Louvain社区发现算法计算各主题词的社区隶属度。主体词过滤,即通过设置社区隶属度阈值选择社区隶属度高于社区隶属度阈值的主题词进行展示。Pyecharts可视化即通过Pyecharts进行主题词的展示。
基于与图1中所示的方法相同的原理,图3示出了本申请实施例提供的一种基于社区隶属度的文本主题可视化装置的结构示意图,如图3所示,该文本主题可视化装置20可以包括:
共现信息获取模块210,用于获取待处理文本的主题词以及主题词的共现信息;
社区划分结果确定模块220,用于确定主题词的社区划分结果;
社区隶属度确定模块230,用于基于共现信息以及社区划分结果,确定各主题词的社区隶属度;
展示模块240,用于基于共现信息以及各社区隶属度对主题词进行展示。
本申请实施例提供的装置,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。
可选地,共现信息包括主题词的共现矩阵,社区隶属度确定模块具体用于:
针对任一主题词,基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度,以及除任一主题词外的其他主题词的第二模块度;
基于第一模块度以及第二模块度,确定任一主题词的社区隶属度。
可选地,社区隶属度确定模块在基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度时,具体用于:
基于以下公式确定第一模块度:
Figure BDA0002234509940000091
其中,Q(c1,…cn)表示第一模块度,1…n表示各主题词,i、j分别表示主题词中任一个,m表示所有主题词在待处理文本出现的总频次,c1,…cn表示社区划分结果中主题词被划分到的各社区,ci表示主题词i被划分到的社区,cj表示主题词j被划分到的社区,sij表示主题词i与主题词j之间的关联强度,γ为预设置的调和参数,δ(ci,cj)在ci=cj时等于1,在ci≠cj时等于0;
主题词i与主题词j之间的关联强度sij基于以下公式确定:
Figure BDA0002234509940000101
其中,wi表示主题词i在待处理文本出现的总频次,其中wj表示主题词j在待处理文本出现的总频次,aij表示主题词i与主题词j在待处理文本共现的频次。
可选地,社区隶属度确定模块在基于第一模块度以及第二模块度,确定任一主题词的社区隶属度时,具体用于:
基于以下公式确定任一主题词的社区隶属度:
ΔQd=Q(c1,…cn)-Q(c1,…,cd-1,cd+1,…,cn)
其中,d表示任一主题词,ΔQd表示任一主题词的社区隶属度,Q(c1,…,cd-1,cd+1,…,cn)表示除任一主题词外的其他主题词的第二模块度。
可选地,共现信息包括共现矩阵,展示模块用于:
基于相似性视觉VOS算法,对共现矩阵进行布局优化;
基于优化后的共现矩阵以及各社区隶属度对主题词进行展示。
可以理解的是,本实施例中的基于社区隶属度的文本主题可视化装置的上述各模块具有实现图1中所示的实施例中的文基于社区隶属度的文本主题可视化方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述基于社区隶属度的文本主题可视化装置的各模块的功能描述具体可以参见图1中所示实施例中的基于社区隶属度的文本主题可视化方法的对应描述,在此不再赘述。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的基于社区隶属度的文本主题可视化方法。
作为一个示例,图4示出了本申请实施例所适用的一种电子设备的结构示意图,如图4所示,该电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选的,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器2001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现本申请任一实施方式中所提供的基于社区隶属度的文本主题可视化方法。
本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种电子设备,与现有技术相比,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的基于社区隶属度的文本主题可视化方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于社区隶属度的文本主题可视化方法,其特征在于,包括:
获取待处理文本的主题词以及所述主题词的共现信息;
确定所述主题词的社区划分结果;
基于所述共现信息以及所述社区划分结果,确定各所述主题词的社区隶属度;
所述共现信息包括所述主题词的共现矩阵,所述基于所述共现信息以及所述社区划分结果,确定各所述主题词的社区隶属度,包括:针对任一主题词,基于所述共现矩阵以及所述社区划分结果,确定所有主题词的第一模块度,以及除所述任一主题词外的其他主题词的第二模块度;基于所述第一模块度以及所述第二模块度,确定所述任一主题词的社区隶属度;
所述基于所述共现矩阵以及所述社区划分结果,确定所有主题词的第一模块度,包括:
基于以下公式确定所述第一模块度:
Figure FDA0003457315050000011
其中,Q(c1,…cn)表示第一模块度,1…n表示各主题词,i、j分别表示主题词中任一个,m表示所有主题词在所述待处理文本出现的总频次,c1,…cn表示社区划分结果中主题词被划分到的各社区,ci表示主题词i被划分到的社区,cj表示主题词j被划分到的社区,sij表示主题词i与主题词j之间的关联强度,γ为预设置的调和参数,δ(ci,cj)在ci=cj时等于1,在ci≠cj时等于0;
主题词i与主题词j之间的关联强度sij基于以下公式确定:
Figure FDA0003457315050000012
其中,wi表示主题词i在所述待处理文本出现的总频次,其中wj表示主题词j在所述待处理文本出现的总频次,aij表示主题词i与主题词j在所述待处理文本共现的频次;
基于所述共现信息以及各所述社区隶属度对所述主题词进行展示。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模块度以及所述第二模块度,确定所述任一主题词的社区隶属度,包括:
基于以下公式确定所述任一主题词的社区隶属度:
ΔQd=Q(c1,…cn)-Q(c1,…,cd-1,cd+1,…,cn)
其中,d表示所述任一主题词,ΔQd表示所述任一主题词的社区隶属度,所述Q(c1,…,cd-1,cd+1,…,cn)表示除任一主题词外的其他主题词的第二模块度。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述共现信息包括共现矩阵,所述基于所述共现信息以及各所述社区隶属度对所述主题词进行展示,包括:
基于相似性视觉VOS算法,对所述共现矩阵进行布局优化;
基于优化后的共现矩阵以及各所述社区隶属度对所述主题词进行展示。
4.一种基于社区隶属度的文本主题可视化装置,其特征在于,包括:
共现信息获取模块,用于获取待处理文本的主题词以及所述主题词的共现信息;
社区划分结果确定模块,用于确定所述主题词的社区划分结果;
社区隶属度确定模块,用于基于所述共现信息以及所述社区划分结果,确定各所述主题词的社区隶属度;
所述共现信息包括所述主题词的共现矩阵,所述社区隶属度确定模块具体用于:针对任一主题词,基于所述共现矩阵以及所述社区划分结果,确定所有主题词的第一模块度,以及除所述任一主题词外的其他主题词的第二模块度;基于所述第一模块度以及所述第二模块度,确定所述任一主题词的社区隶属度;
所述社区隶属度确定模块在基于所述共现矩阵以及所述社区划分结果,确定所有主题词的第一模块度时,具体用于:
基于以下公式确定所述第一模块度:
Figure FDA0003457315050000031
其中,Q(c1,...cn)表示第一模块度,1...n表示各主题词,i、j分别表示主题词中任一个,m表示所有主题词在所述待处理文本出现的总频次,c1,...cn表示社区划分结果中主题词被划分到的各社区,ci表示主题词i被划分到的社区,cj表示主题词j被划分到的社区,sij表示主题词i与主题词j之间的关联强度,γ为预设置的调和参数,δ(ci,cj)在ci=cj时等于1,在ci≠cj时等于0;
主题词i与主题词j之间的关联强度sij基于以下公式确定:
Figure FDA0003457315050000032
其中,wi表示主题词i在所述待处理文本出现的总频次,其中wj表示主题词j在所述待处理文本出现的总频次,aij表示主题词i与主题词j在所述待处理文本共现的频次;
展示模块,用于基于所述共现信息以及各所述社区隶属度对所述主题词进行展示。
5.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3中任一项所述的方法。
CN201910978802.2A 2019-10-15 2019-10-15 基于社区隶属度的文本主题可视化方法、装置 Active CN110704609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910978802.2A CN110704609B (zh) 2019-10-15 2019-10-15 基于社区隶属度的文本主题可视化方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910978802.2A CN110704609B (zh) 2019-10-15 2019-10-15 基于社区隶属度的文本主题可视化方法、装置

Publications (2)

Publication Number Publication Date
CN110704609A CN110704609A (zh) 2020-01-17
CN110704609B true CN110704609B (zh) 2022-03-15

Family

ID=69198895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910978802.2A Active CN110704609B (zh) 2019-10-15 2019-10-15 基于社区隶属度的文本主题可视化方法、装置

Country Status (1)

Country Link
CN (1) CN110704609B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425737A (zh) * 2013-07-03 2013-12-04 西安理工大学 面向网络的重叠社区发现方法
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN106610931A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 话题名称的提取方法及装置
CN108255809A (zh) * 2018-01-10 2018-07-06 北京海存志合科技股份有限公司 考虑词语相似度的计算文档所对应的主题的方法
CN108509607A (zh) * 2018-04-03 2018-09-07 三盟科技股份有限公司 一种基于Louvain算法的社区发现方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425737A (zh) * 2013-07-03 2013-12-04 西安理工大学 面向网络的重叠社区发现方法
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN106610931A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 话题名称的提取方法及装置
CN108255809A (zh) * 2018-01-10 2018-07-06 北京海存志合科技股份有限公司 考虑词语相似度的计算文档所对应的主题的方法
CN108509607A (zh) * 2018-04-03 2018-09-07 三盟科技股份有限公司 一种基于Louvain算法的社区发现方法及系统

Also Published As

Publication number Publication date
CN110704609A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN108898186B (zh) 用于提取图像的方法和装置
US8749553B1 (en) Systems and methods for accurately plotting mathematical functions
US10140261B2 (en) Visualizing font similarities for browsing and navigation using a font graph
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
Mancino et al. Fourier-Malliavin volatility estimation: Theory and practice
US9025889B2 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
JP2012174222A (ja) 画像認識プログラム、方法及び装置
CN110928992A (zh) 文本搜索方法、装置、服务器及存储介质
CN113780098A (zh) 文字识别方法、装置、电子设备以及存储介质
CN110704609B (zh) 基于社区隶属度的文本主题可视化方法、装置
CN114926322B (zh) 图像生成方法、装置、电子设备和存储介质
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
CN112528646B (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN111797282B (zh) 产品标签权重确定方法、装置、电子设备及可读存储介质
CN110472079B (zh) 目标图像的检索方法、装置、设备及存储介质
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
CN113641785A (zh) 基于多维度的科技资源相似词检索方法及电子设备
CN104796478A (zh) 一种资源推荐方法及装置
US20240086455A1 (en) Image search apparatus, image search method, and non-transitory storage medium
CN117892722A (zh) 一种基于多维度的主题建模评估方法及系统
Zhang et al. Feature weighting in visual product recognition
JP4291757B2 (ja) 辞書構成装置、辞書構成方法、および、辞書構成プログラム
JP2022072198A (ja) 文書作業支援システムおよび文書作業支援方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant