CN116975595A - 一种无监督概念提取方法、装置、电子设备及存储介质 - Google Patents
一种无监督概念提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116975595A CN116975595A CN202310811116.2A CN202310811116A CN116975595A CN 116975595 A CN116975595 A CN 116975595A CN 202310811116 A CN202310811116 A CN 202310811116A CN 116975595 A CN116975595 A CN 116975595A
- Authority
- CN
- China
- Prior art keywords
- concept
- word vector
- cluster
- vector representation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000010606 normalization Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 33
- 230000009467 reduction Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000003064 k means clustering Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 229920000433 Lyocell Polymers 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种无监督概念提取方法、装置、电子设备及存储介质,方法:从候选概念中获取目标领域的第一概念集和非目标领域的第二概念集,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集;对种子概念训练集进行第一预处理,得到第一词向量表示;对第一词向量表示进行聚类处理,获得多个聚类簇,确定聚类簇中每个数据点与质心的距离集;对随机概念测试集进行第一预处理,得到第二词向量表示;将第二词向量表示和距离集合并得到多个簇数据;对簇数据进行正态性调整,获得正态化数据集;通过基于质心的判别函数,从正态化数据集中提取目标领域的概念。本发明能够准确、高效地提取概念,可广泛应用于数据处理技术领域。
Description
技术领域
本发明涉及数据处理技术领域,尤其是一种无监督概念提取方法、装置、电子设备及存储介质。
背景技术
随着教育信息化2.0的到来,各学科领域中不断涌现新的概念,如何把教育领域各个分散的教育数据进行整合建立起概念实体及它们之间的关联关系,构建知识图谱成为一个研究热点。教育知识图谱能够为教育带来众多智能化应用,从而帮助教师实现精准教学,帮助学生实现自适应学习,有望实现真正的“因材施教”。然而,知识图谱的构建需要大量概念提取工作,研究如何有效地进行知识提取和概念提取是知识图谱构建的重要前提。现有的概念提取经典方法为基于统计模型的方法,这种方法主要是基于对文本语料库进行统计分析,识别出高频率出现的单词和词组,然后通过建立语义网络或分类器等方式对其进行进一步处理和提取。代表性的方法有TF-IDF(term frequency-inverse documentfrequency)、LDA(Latent Dirichlet Allocation)和TextRank等。但是这一类基于统计模型的概念提取方法对于上下文信息的利用不够充分。其通常只考虑单个词汇的出现频率,而对于上下文信息的利用不够充分,容易忽略词汇之间的语义关系,导致提取出的概念缺乏准确性和连贯性。
发明内容
有鉴于此,本发明实施例提供一种无监督概念提取方法、装置、电子设备及存储介质,能够高效准确进行无监督概念提取。
一方面,本发明的实施例提供了一种无监督概念提取方法,包括:
从候选概念中获取目标领域的第一概念集和非目标领域的第二概念集,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集;其中,候选概念通过待挖掘文本确定;
对种子概念训练集进行第一预处理,得到第一词向量表示;其中,第一预处理包括词嵌入处理和降维处理;
对第一词向量表示进行聚类处理,获得多个聚类簇,进而确定聚类簇中每个数据点与质心的距离集;
对随机概念测试集进行第一预处理,得到第二词向量表示;
将第二词向量表示和距离集合并得到多个簇数据;对簇数据进行正态性调整,获得正态化数据集;
通过基于质心的判别函数,从正态化数据集中提取目标领域的概念。
可选地,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集,包括:
从第一概念集中提取预设数量的目标领域的概念作为种子概念训练集,进而将第一概念集中剩余的概念与第二概念集作为随机概念训练集。
可选地,方法中第一预处理这一步骤包括:
利用预训练词嵌入模型,对目标数据集进行词嵌入处理,得到初步词向量表示;其中,目标数据集包括种子概念训练集和随机概念测试集;
对初步词向量表示进行降维处理,得到降维后的目标词向量表示;其中,目标词向量表示包括第一词向量表示和第二词向量表示。
可选地,对初步词向量表示进行降维处理,得到降维后的目标词向量表示,包括:
对初步词向量表示进行等距特征映射的降维处理,实现基于流形学习算法的词向量重嵌入,得到降维后的目标词向量表示。
可选地,对第一词向量表示进行聚类处理,获得多个聚类簇,进而确定聚类簇中每个数据点与质心的距离集,包括:
通过K-means聚类算法对第一词向量表示进行聚类处理,获得多个聚类簇;其中,聚类簇包括若干数据点;
根据聚类簇中所有数据点的均值,确定聚类簇的质心;
根据聚类簇中每个数据点与质心的距离,得到距离集。
可选地,对簇数据进行正态性调整,获得正态化数据集,包括:
通过广义幂变换对簇数据进行正态性调整,获得正态化数据集。
可选地,通过基于质心的判别函数,从正态化数据集中提取目标领域的概念,包括:
获取正态化数据集中的每一个簇中正态化后的随机概念向量到质心的距离;
当距离满足基于质心的判别函数,判断对应的随机概念属于目标领域的概念,并进行概念提取;
其中,基于质心的判别函数的表达式为:
式中,DF表示判别函数;K表示聚类簇的数量;k表示第k个聚类簇;dk表示待预测的随机概念向量与种子概念训练集的第k个聚类簇的质心的距离;表示第k个聚类簇中所有的数据点与该簇的质心的平均距离;σk表示第k个聚类簇中所有的数据点与该簇的质心的标准差。
另一方面,本发明的实施例提供了一种无监督概念提取装置,包括:
第一模块,用于从候选概念中获取目标领域的第一概念集和非目标领域的第二概念集,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集;其中,候选概念通过待挖掘文本确定;
第二模块,用于对种子概念训练集进行第一预处理,得到第一词向量表示;其中,第一预处理包括词嵌入处理和降维处理;
第三模块,用于对第一词向量表示进行聚类处理,获得多个聚类簇,进而确定聚类簇中每个数据点与质心的距离集;
第四模块,用于对随机概念测试集进行第一预处理,得到第二词向量表示;
第五模块,用于将第二词向量表示和距离集合并得到多个簇数据;对簇数据进行正态性调整,获得正态化数据集;
第六模块,用于通过基于质心的判别函数,从正态化数据集中提取目标领域的概念。
另一方面,本发明的实施例提供了一种电子设备,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
另一方面,本发明的实施例提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明实施例首先从候选概念中获取目标领域的第一概念集和非目标领域的第二概念集,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集;其中,候选概念通过待挖掘文本确定;对种子概念训练集进行第一预处理,得到第一词向量表示;其中,第一预处理包括词嵌入处理和降维处理;对第一词向量表示进行聚类处理,获得多个聚类簇,进而确定聚类簇中每个数据点与质心的距离集;对随机概念测试集进行第一预处理,得到第二词向量表示;将第二词向量表示和距离集合并得到多个簇数据;对簇数据进行正态性调整,获得正态化数据集;通过基于质心的判别函数,从正态化数据集中提取目标领域的概念。本发明实施例通过第一预处理实现词向量技术,可以更好地处理概念的的复杂性和多义性,从而提高了概念提取的准确度,进而通过种子概念训练集辅助随机概念测试集进行特定领域的概念提取,并通过结合质心的判别提取的随机概念是否属于该特定领域,实现概念准确、高效地提取。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种无监督概念提取方法的流程示意图;
图2为本发明实施例提供的聚类模型示例的示意图;
图3为本发明实施例提供的基于判别函数的正态分布的示意图;
图4为本发明实施例提供的无监督概念提取方法的整体流程示意图;
图5为本发明实施例提供的一种无监督概念提取装置的结构示意图;
图6为本发明实施例提供的一种电子设备的框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一方面,如图1所示,本发明的实施例提供了一种无监督概念提取方法,包括:
S100、从候选概念中获取目标领域的第一概念集和非目标领域的第二概念集,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集;
其中,候选概念通过待挖掘文本确定。
需要说明的是,一些实施例中,步骤S100可以包括:从第一概念集中提取预设数量的目标领域的概念作为种子概念训练集,进而将第一概念集中剩余的概念与第二概念集作为随机概念训练集。
一些具体实施例中,首先选出种子概念训练集,随机概念测试集,可以通过如下步骤实现:
使用了一个文本预处理管道,包括分词、停止词删除、词性(pos)标记和重复删除。将输入文本(即待挖掘文本,可以来源于MOOCCube,它是一个覆盖不同领域的大型数据仓库)经过预处理后,使用一系列基于pos的语言模式来识别候选概念。
进而从候选概念中筛选出2956个教育概念(即教育领域的概念,采用教育专家双人编码模式,编码Kappa系数>0.8,有较强的一致性),而从其他领域(即单词历史、计算机科学和管理科学等领域的非教育领域的概念)中随机选择1000个概念,共同形成EDU-DT(教育决策树)数据集。在EDU-DT数据集的教育概念部分随机抽取2000个种子概念形成种子概念训练集;将其余的1956个不同领域的概念(包含教育、非教育概念)作为随机概念测试集。
S200、对种子概念训练集进行第一预处理,得到第一词向量表示;
其中,第一预处理包括词嵌入处理和降维处理。
一些实施例中,第一预处理可以包括:利用预训练词嵌入模型,对目标数据集进行词嵌入处理,得到初步词向量表示;其中,目标数据集包括种子概念训练集和随机概念测试集;对初步词向量表示进行降维处理,得到降维后的目标词向量表示;其中,目标词向量表示包括第一词向量表示和第二词向量表示。
其中,一些实施例中,对初步词向量表示进行降维处理,得到降维后的目标词向量表示,可以包括:对初步词向量表示进行等距特征映射的降维处理,实现基于流形学习算法的词向量重嵌入,得到降维后的目标词向量表示。
需要说明的是,上述第一预处理的相关步骤同样适用于后续的步骤S400。
一些具体实施例中,第一预处理可以通过如下步骤实现:
首先,确定种子概念训练集的词向量表示:
使用预训练词嵌入模型(例如TecentAI Lab)对种子概念训练集进行词嵌入,得到种子概念训练集的词向量表示结果,将每个种子概念集表示为200维的向量。
在预训练的单词嵌入模型中,一些领域概念,特别是在短语结构中表达的领域概念,总是会导致出现超出词汇表(OOV)的问题。以及,加载整个腾讯词嵌入需要大量的内存资源和时间。为了解决这些障碍,本发明在Tecent-AI Lab的预训练词嵌入模型的基础上,于Python中引入了一个名为Magnitude的工具包,以快速高效的方式利用和处理腾讯词嵌入,解决OOV问题,更加充分地完成种子概念的初步词向量表示。其中,还可以选择谷歌公司的Word2Vec模型作为词嵌入模型。Word2Vec是一种流行的词嵌入模型,它可以将单词转换为具有语义含义的向量。
进而,将词向量表示结果进行ISOmap(Isometric Mapping,等距特征映射)降维,形成种子概念词向量降维后词向量表示,此步骤可简述为基于流形学习算法的词向量重嵌入(word re-embedding),具体为:
现有的分布式词嵌入模型忽略了词的几何结构对语义计算的影响。词的重新嵌入的目标是通过在原始嵌入空间中的固有几何信息来细化单词表示来解决这种忽视。以往的研究采用了流形学习算法,通过整合单词和它们邻居之间的几何信息来实现这一目标。为了最大限度地利用语义信息进行特定领域的概念提取,本发明综合利用局部和全局几何信息,通过流形学习算法(a manifold learning algorithm)来细化来自预先训练好的单词嵌入的种子概念向量。
本发明将种子概念训练集的词向量表示结果进行ISOmap降维,形成种子概念词向量降维后词向量表示。
S300、对第一词向量表示进行聚类处理,获得多个聚类簇,进而确定聚类簇中每个数据点与质心的距离集;
需要说明的是,一些实施例中,步骤S300可以包括:通过K-means聚类算法对第一词向量表示进行聚类处理,获得多个聚类簇;其中,聚类簇包括若干数据点;根据聚类簇中所有数据点的均值,确定聚类簇的质心;根据聚类簇中每个数据点与质心的距离,得到距离集。
一些具体实施例中,可以应用K-means聚类,得到最优的聚类个数与种子概念集的聚类质心与种子概念集与质心的距离D,具体为:
K-means聚类是一种遵循基于欧氏距离的数据划分策略的无监督学习方法。通过K-means算法将种子概念集数据划分为不同的簇,得到聚类簇数k与质心,可以更好地理解数据点之间的相似性。并在求出每个簇的质心后,计算簇内每个数据点与质心的距离,得到距离集D。
本发明通过利用ISOmap降维后的结果进行K-means聚类,以Calinski-Harabasz(CH)值为评价标准,确定最优的聚类簇数,确定聚类后的每个簇的质心。由于没有理想的启发式策略或数学准则来确定K的值,本发明对不同的K值进行了跟踪,并根据内在度量相应地评估了聚类结果。为了在大量数据上提高计算效率,我们采用Calinski-Harabasz(CH)得分来估计聚类性能。CH得分计算的表达式为:
其中,N是种子概念集中的种子概念数量(N=2000),K是聚类后的簇数,nk是种子概念集聚类簇ck中的数据点数量,是第k簇的质心,是由N个种子概念组成的概念集的质心。CH指数的值越高,聚类有效性就越好。
本发明定义上限簇后进行聚类,选择CH值相对较高的K-means聚类结果(即该情况下确定的质心,和簇数K),也就是说,聚类是完全分离的,并且明显是优选的。
通过上述步骤构建出教育领域概念的聚类模型,其形式如图2所示(以簇数为3为例)。
聚类模型的分为3个簇(K=3),每个簇有若干个数据点,质心为每个簇所有数据点的均值表示。
S400、对随机概念测试集进行第一预处理,得到第二词向量表示;
一些具体实施例中,首先使用预训练词嵌入模型(TecentAI Lab)对随机概念测试集进行词嵌入,得到随机概念测试集的词向量表示结果,将每个随机概念集表示为200维的向量。
进而,将随机概念集的词向量表示结果进行ISOmap降维,形成随机概念集词向量降维后词向量表示。将200维的词向量通过利用ISOmap进行降维,得到更精准的词向量的表示。
需要说明的是,步骤S400的第一预处理所涉及的具体流程步骤同步骤S200的具体实施例的相关流程步骤。
S500、将第二词向量表示和距离集合并得到多个簇数据;对簇数据进行正态性调整,获得正态化数据集;
需要说明的是,一些实施例中,对簇数据进行正态性调整,获得正态化数据集,可以包括:通过广义幂变换对簇数据进行正态性调整,获得正态化数据集。
一些具体实施例中,通过将随机概念向量集中每个概念向量分别与种子概念集与质心的距离集D进行合并,形成加入每个随机概念向量的簇数据Dn'(0<n<=K),并通过Box-Cox将每个簇数据进行正态性调整,形成Dn'的正态化数据集D',具体为:
分别计算降维后的随机概念向量集中的每个概念向量T与第n个簇的质心距离加入到每个簇数据集Dn(0<n<=k,Dn∈D),形成新的簇向量集Dn',考虑到加入随机概念向量T后数据可能不会呈现正态化的分布,因此接着使用Box-Cox技术将其进行正态性调整,形成Dn'的正态化数据集D'。
使用Box-Cox变换技术将所有数据点的欧氏距离推广到它们的质心。Box-Cox是一种广义幂变换,在形式上同下表达式:
其中,dk是一个数据点到该簇质心的距离,而λ是一个变换参数,是在dk的λ次幂。
经过Box-Cox变换后,可以在一定程度上减少未观测到的误差,提高了数据的正态性、对称性和方差相等性。因此,Box-Cox变换已被广泛应用于提高数据建模的准确性和可靠性。
S600、通过基于质心的判别函数,从正态化数据集中提取目标领域的概念。
需要说明的是,一些实施例中,步骤S600可以包括:获取正态化数据集中的每一个簇中正态化后的随机概念向量到质心的距离;当距离满足基于质心的判别函数,判断对应的随机概念属于目标领域的概念,并进行概念提取;其中,基于质心的判别函数的表达式为:
式中,DF表示判别函数;K表示聚类簇的数量;k表示第k个聚类簇;dk表示待预测的随机概念向量与种子概念训练集的第k个聚类簇的质心的距离;表示第k个聚类簇中所有的数据点与该簇的质心的平均距离;σk表示第k个聚类簇中所有的数据点与该簇的质心的标准差。
一些具体实施方式中,首先提出模型预测标准:基于聚类质心的判别函数DF,具体如下:
一般来说,拟合的K-means模型本质上决定了一个服从于目标域的新的数据点(待预测的概念)。然而,由于异常值和噪声的存在,这种决定很容易受到簇的紧密性的影响。在这种情况下,假设数据点到聚类质心的欧氏距离符合正态分布,种子概念集在K-means聚类后会形成k个簇,当(待预测数据点)与(特定领域的种子概念集所形成的k个簇对应质心)的欧氏距离符合正态分布时,数据点所表示的概念可以被认为符合该特定领域的概念。
因此,本发明提出判别函数DF,表达式如下:
其中k是K-means聚类后会形成k个簇,dk是待预测的随机概念与种子概念集的第k簇的质心的距离,σk分别是是第k簇中所有的数据点与该簇质心的平均距离与标准差。如图3所示,根据正态分布的经验规律,dk小于的/>概率约为97.5%。dk当小于/>时,结果记录为1,表明预测的随机概念大概率符合该特定领域范围,否则记录为0。表示当k=1,k=2,k=3...每种情况下符合/> 的并集,即相当于{0,1,1...}=1。
进而,通过判别函数DF判断新的候选概念词是否属于该领域的概念,将符合的领域概念加入该领域概念词表中。具体为:
得到正态化数据集D'后,将D'中的每一个簇Dk'中正态化后的随机概念向量到质心的距离提取后,得到dk,若dk满足DF公式时,则可以判断该概念属于该领域的概念。
具体地,为完整阐述本发明实施例的技术原理,下面结合部分具体实施例对上述整体流程步骤作进一步说明,应当理解,下述为本发明的解释,不能看作对本发明的限制。
如图4所示,本发明实施例提出的无监督概念提取方法可以包括如下步骤:
S1:选出种子概念训练集,随机概念测试集。提出模型预测的判别标准;
S2:提出一种领域概念提取方法,进行模型训练。具体为:
1.预训练词嵌入,将种子概念集转变为词嵌入向量集。
2.将词向量结果进行ISOmap降维,形成种子概念词向量降维后词向量表示。
3.K-Means聚类,形成最优的聚类簇和每个簇的质心。
S3:对待随机概念测试集的预处理。应用如下技术手段:
1.词嵌入预处理,将随机概念集转变为词嵌入向量集。
2.将词向量结果进行ISOmap降维,形成随机概念词向量降维后词向量表示。
3.BOX-COX。
S4:通过判别函数DF判断新的候选概念词是否属于该领域的概念,将符合的领域概念加入该领域概念词表中。
综上,本发明实施例为了使特定领域的概念提取的精确性有所提高,提出了一个判别函数进行概念判别,将符合置信区间的候选概念加入领域概念中,不符合的剔除,形成该领域的概念词表;并且为了解决超出词汇表(OOV)的相关障碍,在Tecent-AI Lab的预训练词嵌入模型的基础上,在Python中引入了一个名为Magnitude的工具包,以快速高效的方式利用和处理腾讯词嵌入,解决OOV问题;同时,为了最大限度地利用语义信息进行特定领域的概念提取,综合利用局部和全局几何信息,通过流形学习算法(a manifold learningalgorithm)来细化(优化)源自预训练单词嵌入的种子概念向量。
其中,在大量的文本数据中,难免会出现大量的术语和专业词汇,这些术语和词汇对于理解文本的含义和推断文本中的关系非常重要。通过自动提取词汇表术语,可以快速准确地识别这些术语和词汇,并加以分类整理。进而可以更加高效地理解文本数据的含义和内涵,从而更好地应用到各种领域中。对于自然语言处理、信息检索、智能问答等应用场景,自动提取词汇表术语是一个基础性、关键性的技术。此外,自动提取词汇表术语还可以帮助企业、研究机构等单位进行文本数据的管理、分类、模型训练等任务,提高数据分析的效率和精度,从而更好地支持各种实际应用。
在自然语言处理、信息检索、智能问答等应用场景中,通过自动提取词汇表术语,可以获得文本数据中关键的信息和概念,并将其转化为计算机能够理解和处理的数值型表示。这种数值型表示可以用来描述词汇表术语之间的关系、语义相似性、分类等信息,对于实现自然语言理解、智能搜索及问答等任务非常重要。
具体来说,在自然语言处理中,通过自动提取词汇表术语,可以抽取出文本数据中的实体、关键词、短语等信息,从而帮助计算机更好地理解文本数据的含义。在信息检索中,可以将自动提取出的词汇表术语建立索引,以便更加快速准确地匹配用户的查询请求。在智能问答中,可以使用自动提取的词汇表术语来建立知识图谱或者问答模板,以便更好地回答用户提出的问题。
总之,自动提取词汇表术语是自然语言处理、信息检索、智能问答等领域中一个基础性、关键性的技术,可以更好地应用自然语言数据,并提高各种应用的准确性和效率。
相较于现有技术,本发明实施例至少包括如下有益效果:
1.概念提取的准确度更高:
目前的领域概念提取一般基于的技术一般为词频分析或者基于规则的方法,这些方法容易受到语言的复杂性和多义性的影响,导致概念提取的准确度较低。而本方法采用了词向量技术,可以更好地处理概念的的复杂性和多义性,从而提高了概念提取的准确度。
2.扩展性强:
本模型的种子概念集可以扩展,通过将模型预测后识别的领域概念进行人工判断后,可以加入到原有的领域概念数据集中,随着领域概念的逐渐增多,模型的效果也会越发精准。这种方法被称为增量学习,它可以让模型在不断接收新数据的同时,不断提升预测的准确性,使其更加适应实际应用场景。
3.通用性:
本发明提出的方法具有一定的通用性。不仅适用于单一的某方面教学领域,也可以根据教师的需求更改种子概念集合,从而达到教师的需求与目的。
另一方面,如图5所示,本发明的实施例提供了一种无监督概念提取装置700,包括:第一模块710,用于从候选概念中获取目标领域的第一概念集和非目标领域的第二概念集,根据第一概念集确定种子概念训练集,进而结合第二概念集确定随机概念测试集;其中,候选概念通过待挖掘文本确定;第二模块720,用于对种子概念训练集进行第一预处理,得到第一词向量表示;其中,第一预处理包括词嵌入处理和降维处理;第三模块730,用于对第一词向量表示进行聚类处理,获得多个聚类簇,进而确定聚类簇中每个数据点与质心的距离集;第四模块740,用于对随机概念测试集进行第一预处理,得到第二词向量表示;第五模块750,用于将第二词向量表示和距离集合并得到多个簇数据;对簇数据进行正态性调整,获得正态化数据集;第六模块760,用于通过基于质心的判别函数,从正态化数据集中提取目标领域的概念。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
如图6所示,本发明实施例的另一方面还提供了一种电子设备800,包括处理器810以及存储器820;
存储器820用于存储程序;
处理器810执行程序实现如前面的方法。
本发明方法实施例的内容均适用于本电子设备实施例,本电子设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用,或结合这些指令执行装置、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种无监督概念提取方法,其特征在于,包括:
从候选概念中获取目标领域的第一概念集和非所述目标领域的第二概念集,根据所述第一概念集确定种子概念训练集,进而结合所述第二概念集确定随机概念测试集;其中,所述候选概念通过待挖掘文本确定;
对所述种子概念训练集进行第一预处理,得到第一词向量表示;其中,所述第一预处理包括词嵌入处理和降维处理;
对所述第一词向量表示进行聚类处理,获得多个聚类簇,进而确定所述聚类簇中每个数据点与质心的距离集;
对所述随机概念测试集进行所述第一预处理,得到第二词向量表示;
将所述第二词向量表示和所述距离集合并得到多个簇数据;对所述簇数据进行正态性调整,获得正态化数据集;
通过基于所述质心的判别函数,从所述正态化数据集中提取所述目标领域的概念。
2.根据权利要求1所述的一种无监督概念提取方法,其特征在于,所述根据所述第一概念集确定种子概念训练集,进而结合所述第二概念集确定随机概念测试集,包括:
从所述第一概念集中提取预设数量的所述目标领域的概念作为种子概念训练集,进而将所述第一概念集中剩余的概念与所述第二概念集作为随机概念训练集。
3.根据权利要求1所述的一种无监督概念提取方法,其特征在于,所述方法中第一预处理这一步骤包括:
利用预训练词嵌入模型,对目标数据集进行词嵌入处理,得到初步词向量表示;其中,所述目标数据集包括所述种子概念训练集和所述随机概念测试集;
对所述初步词向量表示进行降维处理,得到降维后的目标词向量表示;其中,所述目标词向量表示包括所述第一词向量表示和所述第二词向量表示。
4.根据权利要求3所述的一种无监督概念提取方法,其特征在于,所述对所述初步词向量表示进行降维处理,得到降维后的目标词向量表示,包括:
对所述初步词向量表示进行等距特征映射的降维处理,实现基于流形学习算法的词向量重嵌入,得到降维后的目标词向量表示。
5.根据权利要求1所述的一种无监督概念提取方法,其特征在于,所述对所述第一词向量表示进行聚类处理,获得多个聚类簇,进而确定所述聚类簇中每个数据点与质心的距离集,包括:
通过K-means聚类算法对所述第一词向量表示进行聚类处理,获得多个聚类簇;其中,所述聚类簇包括若干数据点;
根据所述聚类簇中所有数据点的均值,确定所述聚类簇的质心;
根据所述聚类簇中每个所述数据点与所述质心的距离,得到距离集。
6.根据权利要求1所述的一种无监督概念提取方法,其特征在于,所述对所述簇数据进行正态性调整,获得正态化数据集,包括:
通过广义幂变换对所述簇数据进行正态性调整,获得正态化数据集。
7.根据权利要求1所述的一种无监督概念提取方法,其特征在于,所述通过基于所述质心的判别函数,从所述正态化数据集中提取所述目标领域的概念,包括:
获取所述正态化数据集中的每一个簇中正态化后的随机概念向量到所述质心的距离;
当所述距离满足所述基于所述质心的判别函数,判断对应的随机概念属于所述目标领域的概念,并进行概念提取;
其中,所述基于所述质心的判别函数的表达式为:
式中,DF表示判别函数;K表示聚类簇的数量;k表示第k个聚类簇;dk表示待预测的随机概念向量与种子概念训练集的第k个聚类簇的质心的距离;表示第k个聚类簇中所有的数据点与该簇的质心的平均距离;σk表示第k个聚类簇中所有的数据点与该簇的质心的标准差。
8.一种无监督概念提取装置,其特征在于,包括:
第一模块,用于从候选概念中获取目标领域的第一概念集和非所述目标领域的第二概念集,根据所述第一概念集确定种子概念训练集,进而结合所述第二概念集确定随机概念测试集;其中,所述候选概念通过待挖掘文本确定;
第二模块,用于对所述种子概念训练集进行第一预处理,得到第一词向量表示;其中,所述第一预处理包括词嵌入处理和降维处理;
第三模块,用于对所述第一词向量表示进行聚类处理,获得多个聚类簇,进而确定所述聚类簇中每个数据点与质心的距离集;
第四模块,用于对所述随机概念测试集进行所述第一预处理,得到第二词向量表示;
第五模块,用于将所述第二词向量表示和所述距离集合并得到多个簇数据;对所述簇数据进行正态性调整,获得正态化数据集;
第六模块,用于通过基于所述质心的判别函数,从所述正态化数据集中提取所述目标领域的概念。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310811116.2A CN116975595B (zh) | 2023-07-03 | 2023-07-03 | 一种无监督概念提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310811116.2A CN116975595B (zh) | 2023-07-03 | 2023-07-03 | 一种无监督概念提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975595A true CN116975595A (zh) | 2023-10-31 |
CN116975595B CN116975595B (zh) | 2024-03-26 |
Family
ID=88484171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310811116.2A Active CN116975595B (zh) | 2023-07-03 | 2023-07-03 | 一种无监督概念提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975595B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
CN1929530A (zh) * | 2005-09-09 | 2007-03-14 | 株式会社理光 | 图像质量预测方法和设备以及故障诊断系统 |
CN108833311A (zh) * | 2018-05-22 | 2018-11-16 | 杭州电子科技大学 | 联合时域聚类去噪与均衡判决的变换域二次估计方法 |
US20180357216A1 (en) * | 2017-06-07 | 2018-12-13 | International Business Machines Corporation | Domain concept discovery and clustering using word embedding in dialogue design |
CN111310467A (zh) * | 2020-03-23 | 2020-06-19 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN111709251A (zh) * | 2020-06-12 | 2020-09-25 | 哈尔滨工程大学 | 兼具通用语义及领域语义的形式概念相似性快速度量方法 |
CN112101238A (zh) * | 2020-09-17 | 2020-12-18 | 浙江商汤科技开发有限公司 | 聚类方法及装置、电子设备和存储介质 |
CN113312910A (zh) * | 2021-05-25 | 2021-08-27 | 华南理工大学 | 一种基于主题模型的本体学习方法、系统、装置及介质 |
CN114120645A (zh) * | 2021-11-25 | 2022-03-01 | 北京航空航天大学 | 一种自然行驶环境下交通场景的提取方法 |
CN114385819A (zh) * | 2022-03-23 | 2022-04-22 | 湖南工商大学 | 环境司法领域本体构建方法、装置及相关设备 |
-
2023
- 2023-07-03 CN CN202310811116.2A patent/CN116975595B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
CN1929530A (zh) * | 2005-09-09 | 2007-03-14 | 株式会社理光 | 图像质量预测方法和设备以及故障诊断系统 |
US20180357216A1 (en) * | 2017-06-07 | 2018-12-13 | International Business Machines Corporation | Domain concept discovery and clustering using word embedding in dialogue design |
CN108833311A (zh) * | 2018-05-22 | 2018-11-16 | 杭州电子科技大学 | 联合时域聚类去噪与均衡判决的变换域二次估计方法 |
CN111310467A (zh) * | 2020-03-23 | 2020-06-19 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN111709251A (zh) * | 2020-06-12 | 2020-09-25 | 哈尔滨工程大学 | 兼具通用语义及领域语义的形式概念相似性快速度量方法 |
CN112101238A (zh) * | 2020-09-17 | 2020-12-18 | 浙江商汤科技开发有限公司 | 聚类方法及装置、电子设备和存储介质 |
CN113312910A (zh) * | 2021-05-25 | 2021-08-27 | 华南理工大学 | 一种基于主题模型的本体学习方法、系统、装置及介质 |
CN114120645A (zh) * | 2021-11-25 | 2022-03-01 | 北京航空航天大学 | 一种自然行驶环境下交通场景的提取方法 |
CN114385819A (zh) * | 2022-03-23 | 2022-04-22 | 湖南工商大学 | 环境司法领域本体构建方法、装置及相关设备 |
Non-Patent Citations (3)
Title |
---|
SOUJANYA PORIA, AMIR HUSSAIN & ERIK CAMBRIA: "Concept Extraction from Natural Text for Concept Level Text Analysis", MULTIMODAL SENTIMENT ANALYSIS * |
李志义, 李德惠, 赵鹏武: "电子商务领域本体概念及概念间关系的自动抽取研究", 情报科学, vol. 36, no. 7 * |
赵美玲;刘胜全;刘艳;郭竹为;符贤哲;: "基于动态主题模型的舆情本体概念抽取", 计算机工程与设计, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN116975595B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN111858859A (zh) | 自动问答处理方法、装置、计算机设备及存储介质 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110309267A (zh) | 基于预训练模型的语义检索方法和系统 | |
CN117076693A (zh) | 一种数字人教师多模态大语言模型预训练学科语料库的构建方法 | |
CN112487822A (zh) | 一种基于深度学习的跨模态检索方法 | |
US11755668B1 (en) | Apparatus and method of performance matching | |
CN110097096B (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
US11854537B2 (en) | Systems and methods for parsing and correlating solicitation video content | |
US20230298571A1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
CN110795544A (zh) | 内容搜索方法、装置、设备和存储介质 | |
US11538462B1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN116992026A (zh) | 一种文本聚类方法、装置、电子设备及存储介质 | |
US11941546B2 (en) | Method and system for generating an expert template | |
CN116975595B (zh) | 一种无监督概念提取方法、装置、电子设备及存储介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN110674293A (zh) | 一种基于语义迁移的文本分类方法 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning | |
Parsafard et al. | Text classification based on discriminative-semantic features and variance of fuzzy similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |