CN108255809B - 考虑词语相似度的计算文档所对应的主题的方法 - Google Patents

考虑词语相似度的计算文档所对应的主题的方法 Download PDF

Info

Publication number
CN108255809B
CN108255809B CN201810022783.1A CN201810022783A CN108255809B CN 108255809 B CN108255809 B CN 108255809B CN 201810022783 A CN201810022783 A CN 201810022783A CN 108255809 B CN108255809 B CN 108255809B
Authority
CN
China
Prior art keywords
document
topic
matrix
word
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810022783.1A
Other languages
English (en)
Other versions
CN108255809A (zh
Inventor
贾喜瑞
初天宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hczh Technology Co ltd
Original Assignee
Beijing Hczh Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hczh Technology Co ltd filed Critical Beijing Hczh Technology Co ltd
Priority to CN201810022783.1A priority Critical patent/CN108255809B/zh
Publication of CN108255809A publication Critical patent/CN108255809A/zh
Application granted granted Critical
Publication of CN108255809B publication Critical patent/CN108255809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种考虑词语相似度的计算文档所对应的主题的方法。包括根据已知主题及其主题词语分布构建主题词语知识库;对于待计算主题的文档初始化主题‑词语矩阵和文档‑主题矩阵;再根据主题词语知识库获取文档所包含词语之间的相似度,利用词语之间的相似度对主题‑词语矩阵和文档‑主题矩阵进行迭代更新,直到两个矩阵达到收敛精度则停止计算,得到待计算主题的文档所对应的主题。本发明利用非负矩阵分解技术,自动批量计算文档主题。在计算过程中,融入词语语义近似度和文档类别信息,提高主题计算的准确度;同时考虑主题词语的语义演化,将计算出的最终结果融入到知识库中,使知识库保持最新的词语语义信息。

Description

考虑词语相似度的计算文档所对应的主题的方法
技术领域
本发明涉及文本分析技术领域,尤其涉及一种考虑词语相似度的计算文档所对应的主题的方法。
背景技术
随着计算机及互联网技术的快速发展,人们每天所接触的文档信息呈现爆炸式的增长。为了更快速、直观地了解文档信息,人们研发了一系列文本分析技术,如文档摘要技术、文档关键词提取技术、文档主题建模技术。其中,文档主题具有更加广泛的作用。文档主题不仅能够直观明了地反映文档所属的类别信息,而且主题词也能快速地反映文档的主要内容。所以,对文档进行主题建模是处理和分析海量文本数据必不可少的环节。
目前,现有技术中的文档主题建模方法分为有监督学习和无监督学习两种。无监督学习的方法提取出来的主题缺少语义信息,很难让人理解每个主题的含义,而有监督学习的方法没有考虑词语语义的演化,需要再定期更新模型。因此,需要一种既能考虑词语语义信息、又能对词语语义进行终生自动学习的方法,来实现对文档主题的计算。
发明内容
本发明的实施例提供了一种考虑词语相似度的计算文档所对应的主题的方法,以实现有效地计算文档所对应的主题。
为了实现上述目的,本发明采取了如下技术方案。
一种考虑词语相似度的计算文档所对应的主题的方法,包括:
根据已知主题和主题词,以相同主题下词语间的共现关系为基础构建主题词语知识库;
利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵;
根据待计算主题的文档所包含词语对应的所述主题词语知识库,计算出所述待计算主题的文档中的文档词语相似度,获取所述待计算主题的文档中的文档类别相似度;
根据所述文档词语相似度和所述文档类别相似度,迭代更新主题-词语矩阵和文档-主题矩阵,直到所述主题-词语矩阵和文档-主题矩阵收敛,得到所述待计算主题的文档所对应的主题。
进一步地,所述的根据已知主题和主题词,以相同主题下词语间的共现关系为基础构建主题词语知识库,包括:
根据已知主题和主题词,从每个主题的主题词中,选出权重最高的前设定数量个主题词,统计两两主题词之间共同出现在相同主题中的次数,以主题词为节点,共同出现在相同主题中的次数为边,构建主题词共线网络,该主题词共线网络由多个子网络构成,每个子网络对应一个或者多个词语,将所述主题词共线网络作为主题词语知识库。
进一步地,所述的利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵,包括:
针对需要计算主题的N个文档,把所述N个文档表示为词语及其频数矩阵D,D∈RM ×N,其中,M表示所述N个文档中包含的词语的总数;根据所述词语及其频数矩阵D的维度随机初始化两个非负矩阵,主题-词语矩阵U,U∈RM×K;文档-主题矩阵V,V∈RK×N,其中,K表示主题的个数。
进一步地,所述的根据待计算主题的文档所包含词语对应所述主题词语知识库中的子网络,计算出所述待计算主题的文档中的文档词语相似度,包括:
将所述词语及其频数矩阵D中包含的词语集合与所述主题词共线网络中的子网络对应的词语进行比对,获取待计算主题的文档所包含词语对应所述主题词语知识库中的子网络,计算词语语义相似度矩阵W,W∈RM×M,矩阵W中的元素wij表示词语wi和wj之间的相似度,并根据子网络对词语语义相似度进行归一化,其计算公式如下:
Figure GDA0003058595820000031
其中,#(wi,wj)表示在主题词语知识库中连接词语wi和wj的边的权重,
Figure GDA0003058595820000032
表示所述词语及其频数矩阵D中所有词语在所述主题词语知识库中的子网络边的权重最大值。
进一步地,所述的获取所述待计算主题的文档中的文档类别相似度,包括:
如果待计算主题的N个文档有类别信息,则判定待计算主题的两个文档是否属于相同类别,并根据判定结果赋予不同的权重,生成文档类别的相似度矩阵C,C∈RN×N,矩阵C是一个0-1矩阵,每个元素表示两个文档是否属于相同类别,其计算公式如下:
Figure GDA0003058595820000033
其中,class(m)表示文档m的类别。
如果待计算主题的文档没有类别信息,则文档类别的相似度矩阵C为零矩阵。
进一步地,所述的根据所述文档词语相似度和所述文档类别相似度,迭代更新主题-词语矩阵和文档-主题矩阵,直到所述主题-词语矩阵和文档-主题矩阵收敛,得到所述待计算主题的文档所对应的主题,包括:
利用如下步骤1所示的公式迭代更新主题-词语矩阵U:
步骤1、
Figure GDA0003058595820000041
其中,⊙表示对应元素相乘,
Figure GDA0003058595820000042
表示对应元素相除,α,β是设定的参数,k表示迭代的次数,T表示矩阵或向量的转置;
利用如下步骤2所示的公式迭代更新文档-主题矩阵V:
步骤2、
Figure GDA0003058595820000043
其中,⊙表示对应元素相乘,
Figure GDA0003058595820000044
表示对应元素相除,γ,λ是设定的参数;
重复执行上述步骤1和步骤2,判定|Uk+1-Uk|和|Vk+1-Vk|是否小于预先设定的收敛精度ε,若小于收敛精度ε,则判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛,停止迭代计算;
如果计算步骤1和步骤2的次数大于预先设定的阈值F,也判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛,停止迭代计算。
在判定主题-词语矩阵U和文档-主题矩阵V收敛后,根据收敛后的文档-主题矩阵V获取各个待计算主题的文档所对应的主题。
进一步地,所述的方法还包括:
根据更新后的主题-词语矩阵更新所述主题词语知识库,对于每个主题取权重最高的设定数量个词语,统计两两主题词之间共同出现在相同主题中的次数,将出现相同主题的次数累加到主题词语知识库中边的权重上。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例利用非负矩阵分解技术,可以实现自动地批量计算文档所对应的主题。在计算过程中,融入词语语义近似度和文档类别信息,提高主题计算的准确度;同时考虑主题词语的语义演化,将计算出的最终结果融入到知识库中,使知识库保持最新的词语语义信息。本发明在多文档自动主题计算、等方面具有重要的应用价值。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种考虑词语相似度的计算文档所对应的主题的方法的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
基于上述需求,本发明实施例以非负矩阵分解技术为基础,融入先验知识,并用每次主题计算结果对词语知识库进行自动更新,解决文档主题建模过程中语义信息融合和演化的问题。
本发明实施例利用相同主题下词语间的共线关系,构建主题词语知识库;再利用非负矩阵分解技术,在迭代计算中融入词语语义相似度等先验知识;最后,根据迭代计算结果,更新知识库中的语义信息,实现对词语语义的终生自动学习。本发明实施例适用于文本分析领域,既能考虑词语语义信息,又能对词语语义进行终生自动学习,充分满足文档主题准确计算的要求。
本发明实施例以相同主题下词语间的共现关系为基础,根据已知主题及其词语分布,构建主题词语知识库,以表示词语间的相似度。在非负矩阵分解技术的基础上,融入词语语义相似度、文档类别等先验信息,对主题-词语矩阵和文档-主题矩阵进行迭代计算。最后,根据迭代计算的结果,对主题词语知识库进行更新,实现对词语语义的终生自动学习。
本发明实施例所述的考虑词语相似度的终生主题计算方法,首先,根据已知主题及其主题词构建主题词语知识库;其次,利用非负矩阵分解方法初始化主题-词语矩阵和文档-主题矩阵;然后,结合主题词语知识库,考虑词语的相似度和文档类别信息,迭代更新主题-词语矩阵和文档-主题矩阵,直到两个矩阵收敛,即得到文档的主题,并根据计算结果更新主题词语知识库。具体实施步骤如下:
本发明实施例所述的考虑词语相似度的计算文档所对应的主题的方法的处理流程如图1所示,包括如下的处理步骤:
步骤1:构建主题词语知识库。
本步骤根据已知主题及其主题词,以相同主题下词语间的共现关系为基础,构建主题词语知识库。首先,从每个主题的主题词中,选出权重较高的前T个主题词,本发明中T取10;然后,统计两两主题词之间共同出现在相同主题中的次数;最后,以主题词为节点,共同出现在相同主题中的次数为边,构建主题词共线网络,该主题词共线网络由多个子网络构成,每个子网络对应一个或者对个词语,将上述主题词共线网络作为主题词语知识库。
如果已有主题词语知识库,直接进行步骤二。
步骤二:利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵。
针对需要计算主题的N个文档,首先把这些N个文档表示为词语及其频数矩阵D,D∈RM×N,其中,M表示N个文档中包含的词语的总数。
然后,根据词语及其频数矩阵D的维度随机初始化两个非负矩阵,主题-词语矩阵U,U∈RM×K;文档-主题矩阵V,V∈RK×N,其中,K表示主题的个数。
步骤三:获取文档词语相似度。
将词语及其频数矩阵D中包含的词语集合与所述主题词共线网络中的子网络对应的词语进行比对,根据主题词语知识库,考虑待计算主题的文档所包含词语在主题词语知识库中的子网络,计算词语语义相似度矩阵W,W∈RM×M,矩阵W中的元素wij表示词语wi和wj之间的相似度,并根据子网络对词语语义相似度进行归一化,其计算公式如下:
Figure GDA0003058595820000081
其中,#(wi,wj)表示词语wi和wj在主题词语知识库中连接这两词语的边的权重,
Figure GDA0003058595820000082
表示D矩阵中所有词语在知识库中的子网络边的权重最大值。
步骤四:获取文档类别相似度。
如果待计算主题的N个文档有类别信息,则判定待计算主题的两个文档是否属于相同类别,并根据判定结果赋予不同的权重,生成文档类别的相似度矩阵C,C∈RN×N。矩阵C是一个0-1矩阵,每个元素表示两个文档是否属于相同类别,其计算公式如下:
Figure GDA0003058595820000083
其中,class(m)表示文档m的类别。
如果文档没有类别信息,那么矩阵C为零矩阵。
步骤五:根据所述文档词语相似度和所述文档类别相似度,迭代更新主题-词语矩阵和文档-主题矩阵,直到所述主题-词语矩阵和文档-主题矩阵收敛,得到所述待计算主题的文档所对应的主题。
根据步骤三计算的文档词语相似度和步骤四计算的文档类别相似度,利用非负矩阵分解技术中迭代求解的思路,更新主题-词语矩阵U和文档-主题矩阵V,重复进行本步骤,直到两个矩阵收敛。本步骤详细说明如下:
1)更新主题-词语矩阵U
利用如下公式更新主题-词语矩阵U:
Figure GDA0003058595820000091
其中,⊙表示对应元素相乘,
Figure GDA0003058595820000092
表示对应元素相除,α,β是参数。本发明中,α取10,β取0.5。
2)更新文档-主题矩阵V
Figure GDA0003058595820000093
其中,⊙表示对应元素相乘,
Figure GDA0003058595820000094
表示对应元素相除,γ,λ是参数。本发明中,γ取0.001,λ取0.001。
3)重复步骤1)和2),直到主题-词语矩阵和文档-主题矩阵两个矩阵收敛
重复进行步骤1)和2),判定|Uk+1-Uk|和|Vk+1-Vk|是否小于预先设定的收敛精度ε。若小于收敛精度ε,则停止计算。如果计算1)和2)的次数大于预先设定的阈值F,即使|Uk+1-Uk|和|Vk+1-Vk|大于或等于收敛精度ε,也可以停止计算。本发明中,ε取0.001,F取10000。
在判定主题-词语矩阵U和文档-主题矩阵V收敛后,根据收敛后的文档-主题矩阵V获取各个待计算主题的文档所对应的主题。
步骤六:更新主题词语知识库
根据步骤五计算出的收敛后的主题-词语矩阵U,更新主题词语知识库。首先,对于每个主题,取权重较高的T个词语,本发明中T取10;然后,统计两两主题词之间共同出现在相同主题中的次数;最后,将出现相同主题的次数累加到主题词语知识库中边的权重上。例如,根据步骤五计算得到:词语A和词语B共同出现在相同主题中的次数为2,而主题词语知识库中,词语A和词语B之间的边的权重为3,那么,更新之后的主题词语知识库中词语A和词语B之间边的权重为3+2=5。
更新后的主题词语知识库可以应用于下一次的文档主题计算中。通过不断地积累主题词语知识,既提升文档主题计算的精度,又实现对词语语义信息的终生自动学习。
综上所述,本发明实施例利用非负矩阵分解技术,可以实现自动地批量计算文档所对应的主题。在计算过程中,融入词语语义近似度和文档类别信息,提高主题计算的准确度;同时考虑主题词语的语义演化,将计算出的最终结果融入到知识库中,使知识库保持最新的词语语义信息。本发明在多文档自动主题计算、等方面具有重要的应用价值。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种考虑词语相似度的计算文档所对应的主题的方法,其特征在于,包括:
根据已知主题和主题词,以相同主题下词语间的共现关系为基础构建主题词语知识库;
利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵;
根据待计算主题的文档所包含词语对应的所述主题词语知识库中的子网络,计算出所述待计算主题的文档中的文档词语相似度,获取所述待计算主题的文档中的文档类别相似度;
根据所述文档词语相似度和所述文档类别相似度,迭代更新主题-词语矩阵和文档-主题矩阵,直到所述主题-词语矩阵和文档-主题矩阵收敛,得到所述待计算主题的文档所对应的主题;所述的根据已知主题和主题词,以相同主题下词语间的共现关系为基础构建主题词语知识库,包括:
根据已知主题和主题词,从每个主题的主题词中,选出权重最高的前设定数量个主题词,统计两两主题词之间共同出现在相同主题中的次数,以主题词为节点,共同出现在相同主题中的次数为边,构建主题词共线网络,该主题词共线网络由多个子网络构成,每个子网络对应一个或者多个词语,将所述主题词共线网络作为主题词语知识库。
2.根据权利要求1所述的考虑词语相似度的计算文档所对应的主题的方法,其特征在于,所述的利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵,包括:
针对需要计算主题的N个文档,把所述N个文档表示为词语及其频数矩阵D,D∈RM×N,其中,M表示所述N个文档中包含的词语的总数;根据所述词语及其频数矩阵D的维度随机初始化两个非负矩阵,主题-词语矩阵U,U∈RM×K;文档-主题矩阵V,V∈RK×N,其中,K表示主题的个数。
3.根据权利要求2所述的考虑词语相似度的计算文档所对应的主题的方法,其特征在于,所述的根据待计算主题的文档所包含词语对应所述主题词语知识库中的子网络,计算出所述待计算主题的文档中的文档词语相似度,包括:
将所述词语及其频数矩阵D中包含的词语集合与所述主题词共线网络中的子网络对应的词语进行比对,获取待计算主题的文档所包含词语对应所述主题词语知识库中的子网络,计算词语语义相似度矩阵W,W∈RM×M,矩阵W中的元素wij表示词语wi和wj之间的相似度,并根据子网络对词语语义相似度进行归一化,其计算公式如下:
Figure FDA0003218335060000021
其中,#(wi,wj)表示在主题词语知识库中连接词语wi和wj的边的权重,
Figure FDA0003218335060000022
表示所述词语及其频数矩阵D中所有词语在所述主题词语知识库中的子网络边的权重最大值。
4.根据权利要求3所述的考虑词语相似度的计算文档所对应的主题的方法,其特征在于,所述的获取所述待计算主题的文档中的文档类别相似度,包括:
如果待计算主题的N个文档有类别信息,则判定待计算主题的两个文档是否属于相同类别,并根据判定结果赋予不同的权重,生成文档类别的相似度矩阵C,C∈RN×N,矩阵C是一个0-1矩阵,每个元素表示两个文档是否属于相同类别,其计算公式如下:
Figure FDA0003218335060000031
其中,class(m)表示文档m的类别;
如果待计算主题的文档没有类别信息,则文档类别的相似度矩阵C为零矩阵。
5.根据权利要求4所述的考虑词语相似度的计算文档所对应的主题的方法,其特征在于,所述的根据所述文档词语相似度和所述文档类别相似度,迭代更新主题-词语矩阵和文档-主题矩阵,直到所述主题-词语矩阵和文档-主题矩阵收敛,得到所述待计算主题的文档所对应的主题,包括:
利用如下步骤1所示的公式迭代更新主题-词语矩阵U:
步骤1、
Figure FDA0003218335060000032
其中,⊙表示对应元素相乘,
Figure FDA0003218335060000033
表示对应元素相除,α,β是设定的参数,k表示迭代的次数;
利用如下步骤2所示的公式迭代更新文档-主题矩阵V:
步骤2、
Figure FDA0003218335060000034
其中,⊙表示对应元素相乘,
Figure FDA0003218335060000035
表示对应元素相除,γ,λ是设定的参数;
重复执行上述步骤1和步骤2,判定|Uk+1-Uk|和|Vk+1-Vk|是否小于预先设定的收敛精度ε,若小于收敛精度ε,则判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛,停止迭代计算;
如果计算步骤1和步骤2的次数大于预先设定的阈值F,也判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛,停止迭代计算;
在判定主题-词语矩阵U和文档-主题矩阵V收敛后,根据收敛后的文档-主题矩阵V获取各个待计算主题的文档所对应的主题。
6.根据权利要求1至5任一项所述的考虑词语相似度的计算文档所对应的主题的方法,其特征在于,所述的方法还包括:
根据更新后的主题-词语矩阵更新所述主题词语知识库,对于每个主题取权重最高的设定数量个词语,统计两两主题词之间共同出现在相同主题中的次数,将出现相同主题的次数累加到主题词语知识库中边的权重上。
CN201810022783.1A 2018-01-10 2018-01-10 考虑词语相似度的计算文档所对应的主题的方法 Active CN108255809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810022783.1A CN108255809B (zh) 2018-01-10 2018-01-10 考虑词语相似度的计算文档所对应的主题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810022783.1A CN108255809B (zh) 2018-01-10 2018-01-10 考虑词语相似度的计算文档所对应的主题的方法

Publications (2)

Publication Number Publication Date
CN108255809A CN108255809A (zh) 2018-07-06
CN108255809B true CN108255809B (zh) 2021-10-08

Family

ID=62725018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810022783.1A Active CN108255809B (zh) 2018-01-10 2018-01-10 考虑词语相似度的计算文档所对应的主题的方法

Country Status (1)

Country Link
CN (1) CN108255809B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189936B (zh) * 2018-08-13 2021-07-27 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN110704609B (zh) * 2019-10-15 2022-03-15 中国科学技术信息研究所 基于社区隶属度的文本主题可视化方法、装置
CN112749281B (zh) * 2021-01-19 2023-04-07 青岛科技大学 一种融合服务协作关系的Restful类型Web服务聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN106503261A (zh) * 2016-11-24 2017-03-15 太极计算机股份有限公司 基于带约束非负矩阵分解的科技资源元数据检索方法
CN107329954A (zh) * 2017-06-29 2017-11-07 浙江工业大学 一种基于文档内容和相互关系的主题检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050356A1 (en) * 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
US8909643B2 (en) * 2011-12-09 2014-12-09 International Business Machines Corporation Inferring emerging and evolving topics in streaming text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN106503261A (zh) * 2016-11-24 2017-03-15 太极计算机股份有限公司 基于带约束非负矩阵分解的科技资源元数据检索方法
CN107329954A (zh) * 2017-06-29 2017-11-07 浙江工业大学 一种基于文档内容和相互关系的主题检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Topic Supervised Non-negative Matrix Factorization;Kelsey MacMillan et al.;《arXiv:1706.05084v2》;20170702;第1-20页 *
结合互信息和主题模型的微博话题发现方法;孙曰昕 等;《计算机工程与应用》;20160331;第52卷(第6期);第61-66页 *

Also Published As

Publication number Publication date
CN108255809A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN110019843B (zh) 知识图谱的处理方法及装置
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
US10127229B2 (en) Methods and computer-program products for organizing electronic documents
JP2019020893A (ja) ノン・ファクトイド型質問応答装置
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN106844665B (zh) 一种基于引用关系分布式表达的论文推荐方法
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
CN108255809B (zh) 考虑词语相似度的计算文档所对应的主题的方法
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
CN110390014A (zh) 一种主题挖掘方法、装置及存储介质
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN113590811B (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN116484829A (zh) 用于信息处理的方法和设备
US20230168989A1 (en) BUSINESS LANGUAGE PROCESSING USING LoQoS AND rb-LSTM
CN112948561B (zh) 一种问答知识库自动扩建的方法和装置
CN112698977B (zh) 服务器故障定位方法方法、装置、设备及介质
CN115099344A (zh) 模型训练方法和装置、用户画像生成方法和装置、设备
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
CN113888342A (zh) 社区发现方法、电子设备、存储介质以及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant