CN113312910A - 一种基于主题模型的本体学习方法、系统、装置及介质 - Google Patents

一种基于主题模型的本体学习方法、系统、装置及介质 Download PDF

Info

Publication number
CN113312910A
CN113312910A CN202110570916.0A CN202110570916A CN113312910A CN 113312910 A CN113312910 A CN 113312910A CN 202110570916 A CN202110570916 A CN 202110570916A CN 113312910 A CN113312910 A CN 113312910A
Authority
CN
China
Prior art keywords
data set
core concept
document data
topic
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110570916.0A
Other languages
English (en)
Other versions
CN113312910B (zh
Inventor
钟竞辉
黄豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110570916.0A priority Critical patent/CN113312910B/zh
Publication of CN113312910A publication Critical patent/CN113312910A/zh
Application granted granted Critical
Publication of CN113312910B publication Critical patent/CN113312910B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题模型的本体学习方法、系统、装置及介质,其中方法包括以下步骤:获取文档数据集,对所述文档数据集进行预处理;从经过预处理的所述文档数据集中抽取核心概念的种子术语集;根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。本发明将主题模型应用于本体学习领域,通过主题模型来学习领域的概念,提高概念内术语的语义一致性,可广泛应用于机器学习和语言学领域。

Description

一种基于主题模型的本体学习方法、系统、装置及介质
技术领域
本发明涉及机器学习和语言学领域,尤其涉及一种基于主题模型的本体学习方法、系统、装置及介质。
背景技术
在计算机领域,本体被定义为一种用于表达领域知识的工具。它最早在知识工程领域被提出用于对真实世界建模,帮助人工智能系统推理。一个领域的本体定义了一个领域的概念,概念之间的关系,以及限制关系的公理(可选)。其中每个概念由它包含的全部语义的术语形成,概念之间的关系分为层级关系和非层级关系。它通常表示为一个有向图,每个节点是一个概念,有向边表示概念之间的关系。
构建领域的本体一般由领域的一组专家来完成。这样构建的本体具有较高的准确性,但也会有一些缺点。比如会耗费过高的人工成本;构建的本体会具有领域专家的偏好;对于新兴术语的兴起,领域专家无法快速捕获等等问题。
因此,通过一些机器学习方法,实现基于文本数据集进行半自动或全自动本体学习的方法就非常重要,这类方法能帮助降低劳力成本,学习更客观的本体,挖掘领域内新术语。本体学习是一种使用自然语言处理技术和一些机器学习方法,在文本数据集上(结构化的文本,半结构化的文本,或者无结构文本)学习出领域文本的方法流程。本体学习包含了多个子问题:提取领域内的术语;形成领域内的概念;发掘领域概念之间的关系;构建领域本体。
主题模型最早在2003年被David Blei提出。该模型是一类概率图模型,被用于发现文本数据中包含的主题。它假设每个文档是有限个主题上的概率分布,每个主题是多个词汇上的概率分布,通过学习主题模型实现最大化模型产生当前文本数据集的概率,最后每个隐主题被表示为一些在该主题下拥有高概率值的词汇。主题模型由于其强大的可解释性,高效的运行效率,在工业界被广泛应用于推荐系统,文档聚类,信息检索等问题上。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于主题模型的本体学习方法、系统、装置及介质。
本发明所采用的技术方案是:
一种基于主题模型的本体学习方法,包括以下步骤:
获取文档数据集,对所述文档数据集进行预处理;
从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。
进一步,对所述文档数据集进行预处理,包括:
对所述文档数据集进行数据清洗;
对所述文档数据集中的文档拆分成多个句子,将所述句子拆分成多个词汇;
对所述词汇进行标注,并抽取名词词组;
其中,每个名词词组之间的词汇用下划线连接。
进一步,对所述文档数据集进行数据清洗,包括:
去掉所述文档数据集中的HMTL标签和URL;
将所述文档数据集中的文档的编码统一成UTF-8的标准;
去掉所述文档数据集中的乱码文字和非英文字词,获得预处理后的文档数据集。
进一步,当所述文档数据集中的文档设有标签,从经过预处理的所述文档数据集中抽取核心概念的种子术语集,包括:
设包含名词词组w的文档集合为Cw,不包含名词词组w的文档集合为
Figure BDA0003082567820000021
在Cw中被标注为核心概念CCk的文档数量为a,没有标注为核心概念CCk的文档数量为e;
Figure BDA0003082567820000022
中被标注为核心概念CCk的文档数量为b,没有标注为核心概念CCk的文档数量为d;
采用以下公式计算名词词组w对于核心概念CCk的重要度:
Figure BDA0003082567820000023
为每个核心概念CCk选取重要度排名前L个名词词组作为所述核心概念CCk的种子术语。
进一步,采用以下方式选取重要度排名前L个名词词组:
计算名词词组wi与所有核心概念的信息增益值,获得K个信息增益值IGw=[igw,1,…,igw,K];
选择核心概念CCk作为名词词组wi的核心概念,其中,选择条件满足igw,k为最大的信息增益值,igw,k为名词词组wi在核心概念CCk下的重要度;
获取每个名词词组的核心概念,以及记录名词词组和核心概念对应的重要度;
对于每个核心概念,选取重要度最高的L个名词词组作为所述核心概念的种子术语。
进一步,采用吉布斯采样来训练所述主题模型,以学习词汇和隐主题的联合分布。
进一步,所述主题词汇矩阵为K×W的矩阵,所述主题词汇矩阵的元素通过以下公式计算获得:
Figure BDA0003082567820000031
其中
Figure BDA0003082567820000032
代表采样在主题k下的词汇的数量;对于所有的种子术语,直接划分到对应的核心概念的术语簇中;
对于其他的名词词组w而言,将名词词组w划分到核心概念CCk下的术语簇中,其中:
Figure BDA0003082567820000033
获得K个术语簇,每个所述术语簇对应一个核心概念。
本发明所采用的另一技术方案是:
一种基于主题模型的本体学习系统,包括:
预处理模块,用于获取文档数据集,对所述文档数据集进行预处理;
种子抽取模块,用于从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
模型训练模块,用于根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
本体生模块,用于从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。
本发明所采用的另一技术方案是:
一种基于主题模型的本体学习装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明将主题模型应用于本体学习领域,通过主题模型来学习领域的概念,提高概念内术语的语义一致性。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例一种基于主题模型的本体学习方法的步骤流程图;
图2是本发明实施例核心概念(Computer Graphics)样例的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本实施例采用一种半监督的主题模型来学习领域本体,通过学习核心概念的术语集合来形成核心概念,每个核心概念内的术语与该核心概念存在上下层级关系,本实施例提供一种基于主题模型的本体学习方法,包括以下步骤:
S101、对目标领域内的文本数据集进行预处理。预处理过程包含:数据清洗(去掉非英文词汇,去掉乱码文字,去掉Web标签等),分句,分词,词性标注,名词词组识别。将数据集内非名词词组的词汇全部去掉,名词词组用下划线连接。
S102、核心概念(领域内最抽象的概念,或者领域内的最大子领域)的种子术语集合抽取。该步骤可以由领域专家来做或者由自动抽取算法实现。每个种子术语集合将唯一确定目标领域内的一个核心概念CCk,k∈[1,2,…,K]。其中K是领域内核心概念的数量,每个术语应属于对应的核心概念的术语,并且任意两个核心概念的种子术语集合的交集为空。
核心概念的种子术语,对于一个核心概念而言,我们通过定义它的种子术语,比如说对于机器学习,我们采用一些术语像“machine learning”,“supervised machinelearning”,“unsupervised machine learning”等一些机器学习这个核心概念下的一些术语来告诉模型,我们需要学习一个跟这些词意义相近的主题(该主题与机器学习这个核心概念在该方法里会被绑定在一起),从而帮助该主题学习到更多与机器学习相关的术语。
其中,每个核心概念将使用这个种子术语集合的术语来监督学习,而这个核心概念的含义也会因此由这些术语确定下来。每个核心概念使用与之对应的一个种子术语集合。
S103、将步骤S101中处理后的数据集和步骤S102中抽取的多个种子术语集合作为半监督主题模型的输入。主题模型的主题数量设置为核心概念的数量,并且将CCk与主题k绑定,CCk的种子术语用于半监督主题k的学习。我们使用吉布斯采样方式训练主题模型。
其中,主题模型(LDA)有一个超参K,用于定义学习后的主题数量,我们这里的一个主题对应了我们学习的一个核心概念,主题内的高权重(术语在某个主题下的主题概率)术语将用于形成核心概念的术语簇。
S104、本体生成。从训练好的主题模型中获取它的主题词汇矩阵,它是一个K×W的矩阵φ,W为文本数据集中唯一标识的词组的数量。对于一个名词词组w而言,它对每个主题k有一个概率φk,w,我们将它划分到概率最大的主题(核心概念)中。从而为每个核心概念学习它的术语集合,每个术语与它的核心概念存在“下位词-上位词”关系。
本实施例将主题模型应用于本体学习领域。通过主题模型来学习领域的概念,提高概念内术语的语义一致性。传统的主题模型存在主题内词汇语义相关度低和低频主题难以发掘的问题,因此我们采用了一个半监督的主题模型。通过给定一些概念的种子术语,然后绑定概念跟主题的关系,通过概念的种子术语来帮助主题学习到更多相关的术语,从而实现主题内的术语更加贴近概念的语义含义,提高概念内术语的语义一致性。因为非监督的LDA模型学习的效果不好,采用概念的种子相当于加入了一些监督信息,会使得学习后的词汇簇包含更多相关的术语。
以下结合图1和图2对上述方法进行详细解释说明。
参见图1,给定一个领域的原始文档数据集Cr=[doc1,…,docd,…,docD]包含了D个文档。每个文档docd是一个无结构文本。基于该数据集本发明学习本体的流程如下:
S201、数据预处理。
(1)首先进行数据清洗。处理的步骤包括:将文本中的HMTL标签和URL去掉;对文档的编码统一成UTF-8的标准;去掉乱码文字和非英文字词(实验的数据都是英文文本)。
(2)分句。将一个文档拆分成多个句子,可采用Python spaCy库来实现。
(3)分词。将句子拆分成多个词汇,英文分词相对中文分词非常容易。
(4)词性标注。将每个词汇对应的词性标注出来,比如“名词”标注为“NOUN”,形容词“ADJ”,可采用spaCy库来实现。
(5)名词词组抽取。通过识别连续的名词块(包含多个被标注为“NOUN”的词汇,比如“computer(NOUN)science(NOUN)”)或者“ADJ”+“连续名词块”的方式来确定词组,每一个名词词组之间的词汇用下划线连接,比如“computer_science”。
(6)原始文档数据集Cr中每个文档中非名词词组的内容全部去掉,从而得到预处理后的文档数据集C。
S202、核心概念的种子术语集抽取。在做种子术语抽取时,我们考虑两种情况:一种情况下,数据集中的文档拥有标签,且标签是领域的核心概念(通常子领域标签就是领域核心概念名称);另一种情况下,数据集中的文档没有标签信息。
针对于文档拥有标签的情况,可采用基于信息增益的方法进行抽取,具体步骤如下:
对于每个名词词组w而言,包含了w的文档集合设为Cw,不包含w的文档集合设为
Figure BDA0003082567820000061
并且
Figure BDA0003082567820000062
在Cw中被标注为核心概念CCk的文档数量为a,没有标注为核心概念CCk的文档数量为e;在
Figure BDA0003082567820000063
中被标注为核心概念CCk的文档数量为b,没有标注为核心概念CCk的文档数量为d。令N=|C|。则w对于核心概念CCk的重要性可以用下面的公式来衡量:
Figure BDA0003082567820000064
根据该公式,为每个术语计算对所有核心概念的重要度。为每个CCk选取重要性排名前L个名词词组作为它的种子术语。采用以下步骤A1-A4筛选种子术语:
A1、对于某个词组w计算它与所有核心概念的信息增益值,由此得到K个信息增益值IGw=[igw,1,…,igw,K]。
A2、选择核心概念CCk为它的核心概念,满足igw,k为最大的信息增益值,igw,k为w在CCk下的重要度。
A3、重复步骤A1和A2对所有的词组进行相同处理,这样每个词组有一个对应的核心概念,并且有对应的重要度。
A4、对每个核心概念而言,选取重要度最高的L个词组作为该核心概念的种子术语。
当文档拥有标签或者没有拥护标签,可采用以下方式进行种子抽取:
基于Wikidata数据库查询每个核心概念词汇的同义词或者直接下位词,也可以通过用户或者领域专家为每个核心概念分配。将它们作为该核心概念的种子术语。
S203、主题模型的训练。主题模型参数的训练一般由两个种方式,一种是变分推断方法,一种是吉布斯采样方法。本实施例采用吉布斯采样来训练主题模型,目标是学习词汇和隐主题的联合分布。非监督的主题模型的吉布斯采样过程如下:
输入:文档数据集C=[doc1,…,docd,…,docD],其中
Figure BDA0003082567820000073
Nd是文档docd的词组数量,文档数据集的单词表V(包含了W个唯一标识的词组)。
输出:文档数据集的主题序列Z=[z1,…,zd,…,zD],
Figure BDA0003082567820000074
模型参数文档-主题分布θ,和主题-词汇分布φ。
模型参数:超参α,β,主题数量K。
B1、初始化计数矩阵N和计数矩阵M,他们的形状分别为W×K和D×K。初始化两个矩阵的每个元素值为0。
B2、对与每个文档docd,d=1,2,…,D:
对于文档docd中每个词组wd,n,n=1,2,…,Nd
抽样wd,n的主题zd,n=zk~Mult(α).
增加文档-主题计数
Figure BDA0003082567820000071
增加主题-词汇计数
Figure BDA0003082567820000072
B3、循环执行以下操作,直到循环结束(循环次数可定义为100或者更大):
对与每个文档docd,d=1,2,…,D:
对于文档docd中每个词组wd,n,n=1,2,…,Nd
(a)获取当前的词组wd,n,它的主题为zd,n=k;
(b)减少计数
Figure BDA0003082567820000081
和计数
Figure BDA0003082567820000082
(c)通过条件概率分布p(zi=k|Z-i,α,β)(公式4)进行主题采样得到新的主题zd,n=k′,其中i为当前词的下标(d,n);
(d)增加计数
Figure BDA0003082567820000083
和计数
Figure BDA0003082567820000084
B4、根据计数矩阵计算模型参数:
Figure BDA0003082567820000085
Figure BDA0003082567820000086
不同于无监督的主题模型,本发明使用了一种半监督的主题模型来建模文本数据集。对于无监督的主题模型来说,它的主题采样如下面的公式所示:
Figure BDA0003082567820000087
其中i=(d,n)是文档docd中第n个词,Z-i是C中除了当前采样的词wi外其他所有词的主题信息,α和β是文档主题分布和主题词汇分布的先验分布的参数,
Figure BDA0003082567820000088
是文档docd中除了wi外其他采样为主题k的词的数量,
Figure BDA0003082567820000089
是数据集C中除了当前词wi的主题信息以外所有采样为主题k的词的数量。
对于半监督的主题模型而言,主题k与核心概念CCk绑定,它下面的种子词汇将用于帮助主题k的学习。令qi,k=p(zi=k|Z-i,α,β),如果wi是主题k下的种子术语,那就使用qi,k计算主题k的采样概率,其他主题u,u≠k的采样概率为π×qi,u,π<1。由此来确定种子术语的主题。如果wi不是主题k下的种子术语。那么对所有的主题k,k∈[1,…,K]的采样概率都为qi,k
S204、本体生成。从训练好的主题模型中获取主题-词汇分布φ,它是一个K×W的矩阵。这个矩阵某个元素的计算方法如下:
Figure BDA0003082567820000091
其中
Figure BDA0003082567820000092
代表采样在主题k下的词汇的数量。对于所有的种子词汇,直接划分到对应的核心概念的术语簇中;对于其他词汇w而言,我们将其划分到核心概念CCk下的术语簇中,其中:
Figure BDA0003082567820000093
最终我们将得到K个术语簇,对应于每个核心概念,由此完成本体的自动学习。本方法相比于现有的基于非监督主题模型本体学习方法的优势有:(1)通过半监督的方式,学习得到的核心概念的语义一致性更高,术语簇中的术语之间的语义相关性更高,能更准确的描述该核心概念;(2)用户可以根据自己的喜好定义自己关注的概念来选择种子词汇,从而学到关注的概念的术语簇(非主导的概念也能学习),而非监督的主题型不能实现自定义,容易忽视非主导概念的学习。
图2给出了一个核心概念“Computer Graphics”的样例。其中间的绿色节点是计算机领域下核心概念“Computer Graphics”的词汇,蓝色节点是该核心概念所用的种子术语,绿色节点是通过学习得到的属于该核心概念的术语,它们与核心概念存在层级“is-a”关系,红色节点是学习后得到的不属于该核心概念的术语。
本实施例还提供一种基于主题模型的本体学习系统,包括:
预处理模块,用于获取文档数据集,对所述文档数据集进行预处理;
种子抽取模块,用于从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
模型训练模块,用于根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
本体生模块,用于从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。
本实施例的一种基于主题模型的本体学习系统,可执行本发明方法实施例所提供的一种基于主题模型的本体学习方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种基于主题模型的本体学习装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种基于主题模型的本体学习装置,可执行本发明方法实施例所提供的一种基于主题模型的本体学习方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种基于主题模型的本体学习方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于主题模型的本体学习方法,其特征在于,包括以下步骤:
获取文档数据集,对所述文档数据集进行预处理;
从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。
2.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,对所述文档数据集进行预处理,包括:
对所述文档数据集进行数据清洗;
对所述文档数据集中的文档拆分成多个句子,将所述句子拆分成多个词汇;
对所述词汇进行标注,并抽取名词词组;
其中,每个名词词组之间的词汇用下划线连接。
3.根据权利要求2所述的一种基于主题模型的本体学习方法,其特征在于,对所述文档数据集进行数据清洗,包括:
去掉所述文档数据集中的HMTL标签和URL;
将所述文档数据集中的文档的编码统一成UTF-8的标准;
去掉所述文档数据集中的乱码文字和非英文字词,获得预处理后的文档数据集。
4.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,当所述文档数据集中的文档设有标签,从经过预处理的所述文档数据集中抽取核心概念的种子术语集,包括:
设包含名词词组w的文档集合为Cw,不包含名词词组w的文档集合为
Figure FDA0003082567810000011
在Cw中被标注为核心概念CCk的文档数量为a,没有标注为核心概念CCk的文档数量为e;
Figure FDA0003082567810000012
中被标注为核心概念CCk的文档数量为b,没有标注为核心概念CCk的文档数量为d;
采用以下公式计算名词词组w对于核心概念CCk的重要度:
Figure FDA0003082567810000013
为每个核心概念CCk选取重要度排名前L个名词词组作为所述核心概念CCk的种子术语。
5.根据权利要求4所述的一种基于主题模型的本体学习方法,其特征在于,采用以下方式选取重要度排名前L个名词词组:
计算名词词组wi与所有核心概念的信息增益值,获得K个信息增益值IGw=[igw,1,...,igw,K];
选择核心概念CCk作为名词词组wi的核心概念,其中,选择条件满足igw,k为最大的信息增益值,igw,k为名词词组wi在核心概念CCk下的重要度;
获取每个名词词组的核心概念,以及记录名词词组和核心概念对应的重要度;
对于每个核心概念,选取重要度最高的L个名词词组作为所述核心概念的种子术语。
6.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,采用吉布斯采样来训练所述主题模型,以学习词汇和隐主题的联合分布。
7.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,所述主题词汇矩阵为K×W的矩阵,所述主题词汇矩阵的元素通过以下公式计算获得:
Figure FDA0003082567810000021
其中
Figure FDA0003082567810000022
代表采样在主题k下的词汇的数量;对于所有的种子术语,直接划分到对应的核心概念的术语簇中;
对于其他的名词词组w而言,将名词词组w划分到核心概念CCk下的术语簇中,其中:
Figure FDA0003082567810000023
获得K个术语簇,每个所述术语簇对应一个核心概念。
8.一种基于主题模型的本体学习系统,其特征在于,包括:
预处理模块,用于获取文档数据集,对所述文档数据集进行预处理;
种子抽取模块,用于从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
模型训练模块,用于根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
本体生模块,用于从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。
9.一种基于主题模型的本体学习装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。
CN202110570916.0A 2021-05-25 2021-05-25 一种基于主题模型的本体学习方法、系统、装置及介质 Expired - Fee Related CN113312910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110570916.0A CN113312910B (zh) 2021-05-25 2021-05-25 一种基于主题模型的本体学习方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110570916.0A CN113312910B (zh) 2021-05-25 2021-05-25 一种基于主题模型的本体学习方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN113312910A true CN113312910A (zh) 2021-08-27
CN113312910B CN113312910B (zh) 2022-10-25

Family

ID=77374575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110570916.0A Expired - Fee Related CN113312910B (zh) 2021-05-25 2021-05-25 一种基于主题模型的本体学习方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN113312910B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975595A (zh) * 2023-07-03 2023-10-31 华南师范大学 一种无监督概念提取方法、装置、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243649A (zh) * 2011-06-07 2011-11-16 上海交通大学 本体半自动信息抽取处理装置
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN103324700A (zh) * 2013-06-08 2013-09-25 同济大学 一种基于Web信息的本体概念属性学习方法
US20150310096A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Comparing document contents using a constructed topic model
US20160070731A1 (en) * 2014-09-10 2016-03-10 Adobe Systems Incorporated Analytics based on scalable hierarchical categorization of web content
CN105550168A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
CN107038155A (zh) * 2017-04-23 2017-08-11 四川用联信息技术有限公司 基于改进的小世界网络模型实现文本特征的提取方法
CN107895012A (zh) * 2017-11-10 2018-04-10 上海电机学院 一种基于 Topic Model 的本体构建方法
JP2019016074A (ja) * 2017-07-05 2019-01-31 富士通株式会社 オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
CN109388799A (zh) * 2018-09-14 2019-02-26 河海大学 一种基于词权重的有监督主题模型构造方法
CN110569405A (zh) * 2019-08-26 2019-12-13 中电科大数据研究院有限公司 一种基于bert的政务公文本体概念抽取方法
US20210133390A1 (en) * 2019-11-01 2021-05-06 Fuji Xerox Co., Ltd. Conceptual graph processing apparatus and non-transitory computer readable medium

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243649A (zh) * 2011-06-07 2011-11-16 上海交通大学 本体半自动信息抽取处理装置
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN103324700A (zh) * 2013-06-08 2013-09-25 同济大学 一种基于Web信息的本体概念属性学习方法
US20150310096A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Comparing document contents using a constructed topic model
US20160070731A1 (en) * 2014-09-10 2016-03-10 Adobe Systems Incorporated Analytics based on scalable hierarchical categorization of web content
CN105550168A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
CN107038155A (zh) * 2017-04-23 2017-08-11 四川用联信息技术有限公司 基于改进的小世界网络模型实现文本特征的提取方法
JP2019016074A (ja) * 2017-07-05 2019-01-31 富士通株式会社 オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
CN107895012A (zh) * 2017-11-10 2018-04-10 上海电机学院 一种基于 Topic Model 的本体构建方法
CN109388799A (zh) * 2018-09-14 2019-02-26 河海大学 一种基于词权重的有监督主题模型构造方法
CN110569405A (zh) * 2019-08-26 2019-12-13 中电科大数据研究院有限公司 一种基于bert的政务公文本体概念抽取方法
US20210133390A1 (en) * 2019-11-01 2021-05-06 Fuji Xerox Co., Ltd. Conceptual graph processing apparatus and non-transitory computer readable medium

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MONIKA RANI ET.AL: "Semi-Automatic Terminology Ontology Learning Based on Topic Modeling", 《HTTP://WWW.SCIENCEDIRECT.COM/SCIENCE/ARTICLE/PII/S0952197617300891》 *
汪舸等: "基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建", 《计算机工程与科学》 *
王红等: "基于LDA的领域本体概念获取方法研究", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975595A (zh) * 2023-07-03 2023-10-31 华南师范大学 一种无监督概念提取方法、装置、电子设备及存储介质
CN116975595B (zh) * 2023-07-03 2024-03-26 华南师范大学 一种无监督概念提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113312910B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN107748757B (zh) 一种基于知识图谱的问答方法
Thessen et al. Applications of natural language processing in biodiversity science
Newman et al. Bayesian text segmentation for index term identification and keyphrase extraction
Karayiğit et al. Detecting abusive Instagram comments in Turkish using convolutional Neural network and machine learning methods
Quan et al. Weighted high-order hidden Markov models for compound emotions recognition in text
Kestemont et al. Lemmatization for variation-rich languages using deep learning
Karim et al. A step towards information extraction: Named entity recognition in Bangla using deep learning
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
Nasim et al. Cluster analysis of urdu tweets
CN113312910B (zh) 一种基于主题模型的本体学习方法、系统、装置及介质
Kaminska et al. Fuzzy rough nearest neighbour methods for detecting emotions, hate speech and irony
CN111859950A (zh) 一种自动化生成讲稿的方法
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN114218406A (zh) 基于传动知识图谱的传动解决方案生成方法及系统
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
Ahmad et al. Machine and deep learning methods with manual and automatic labelling for news classification in bangla language
Lima et al. A novel data and model centric artificial intelligence based approach in developing high-performance named entity recognition for bengali language
CN116562240A (zh) 文本生成方法、计算机设备及计算机存储介质
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Amjadian Representation Learning for Information Extraction
Talwar et al. Intelligent Classroom System for Qualitative Analysis of Students' Conceptual Understanding
Qiu et al. The named entity recognition of vessel power equipment fault using the multi-details embedding model
Lei et al. A Multilabel Learning-based Automatic Annotation Method for Semantic Roles in English Text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221025

CF01 Termination of patent right due to non-payment of annual fee