CN112487267B - 基于Word2vec和LPA的领域概念表达方法及系统 - Google Patents

基于Word2vec和LPA的领域概念表达方法及系统 Download PDF

Info

Publication number
CN112487267B
CN112487267B CN202011437915.0A CN202011437915A CN112487267B CN 112487267 B CN112487267 B CN 112487267B CN 202011437915 A CN202011437915 A CN 202011437915A CN 112487267 B CN112487267 B CN 112487267B
Authority
CN
China
Prior art keywords
data set
labels
word2vec
domain
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011437915.0A
Other languages
English (en)
Other versions
CN112487267A (zh
Inventor
高剑奇
景艳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202011437915.0A priority Critical patent/CN112487267B/zh
Publication of CN112487267A publication Critical patent/CN112487267A/zh
Application granted granted Critical
Publication of CN112487267B publication Critical patent/CN112487267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于Word2vec和LPA的领域概念表达方法及系统,所述方法包括:通过Word2vec模型获取领域关键词集合;基于所述领域关键词集合,通过语义链网络构建领域概念表达网络;利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型。通过本申请,无需行业深入领域知识就可以构建完备的领域相关概念集合。

Description

基于Word2vec和LPA的领域概念表达方法及系统
技术领域
本发明属于文本挖掘和深度学习领域,尤其涉及一种基于Word2vec和LPA的领域概念表达方法及系统。
背景技术
目前,领域抽象概念的表达很难做到具体、全面和精确。用于构建领域抽象概念合集的技术主要为结巴分词、Word2vec、标签传播算法。
结巴分词是python环境下著名的分词工具之一,主要应用于中文分词具有多个分词模式的场景,其原理使用了字典树数据机构实现高效的词图扫描,生成句子中所有可能构成的有向无环图(Directed acyclic graph,DAG),然后通过动态规划(DynamicProgramming,DP)算法找到最大概率路径进行分词。
Word2vec是Google公司在2013年提出的词向量模型,主要任务是将词映射到高维空间转化为相应词向量,该词向量具有语义相似度。Word2vec的原理是构造一个网络模型,该网络模型有两种主要结构,分别是skip-gram和CBOW(Continuous Bag Of Words,CBOW)模型。两个模型具有类似的结构,分别由输入层、映射层(隐藏层)和输出层组成。简单来说,skip-gram的核心思想是根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率。
标签传播算法(LPA)是一种基于图模型的半监督学习算法,其主要思想是通过已经有标注的标签来传播给未标注的标签,初始阶段为每一个节点分配一个初始化标签,每次迭代会根据周围节点的标签值改变自己的标签,直至迭代出整个标签集。
发明内容
本申请实施例提供了一种基于Word2vec和LPA的领域概念表达方法,以至少解决相关技术中主观因素影响的问题。
为了达到上述目的,本发明采用的技术方案为:
提出了一种基于Word2vec和LPA的领域概念表达方法,所述方法包括以下步骤:
集合获取步骤:通过Word2vec模型获取领域关键词集合;
网络构建步骤:基于所述领域关键词集合,通过语义链网络构建领域概念表达网络;
模型构建步骤:利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型。
作为本发明的进一步改进,所述集合获取步骤具体包括以下步骤:
爬取步骤:爬取数据集并对所述数据集进行预处理,通过所述Word2vec模型获取所述预处理后的数据集的矩阵表示,得到训练数据集;
选取步骤:基于所述训练数据集,选取种子词汇;
扩展步骤:基于所述种子词汇,采用所述Word2vec工具对所述训练数据集行词汇扩展,得到所述领域关键词集合。
作为本发明的进一步改进,所述网络构建步骤具体包括以下步骤:
定义步骤:定义文本数据集以及候选关键词集;
句子数目获取步骤:获取所述文本数据集中同时出现所述候选关键词集中任意两个候选关键词的句子数目;
关联度获取步骤:根据所述句子数目获取所述候选关键词的相互关联度;
置信度获取步骤:根据所述相互关联度和所述句子数目获取置信度。
作为本发明的进一步改进,所述模型构建步骤具体包括以下步骤:
指定标签步骤:为所述领域概念表达网络中每个节点随机指定一个特有标签;
刷新步骤:基于刷新规则刷新所有所述节点的标签;
判断步骤:判断所有所述节点的标签是否发生变化,若是则返回所述刷新步骤,若否则结束。
作为本发明的进一步改进,所述刷新步骤中刷新规则为对于所述节点,考察其所有邻居节点的标签并进行统计,将所述统计中出现个数最多的标签赋值给所述节点,若所述个数最多的标签不唯一时,则从中随机选择一个标签赋值给所述节点。
基于相同发明思想,本发明还基于任一项发明创造所揭示的基于Word2vec和LPA的领域概念表达方法,揭示了一种基于Word2vec和LPA的领域概念表达系统,
所述基于Word2vec和LPA的领域概念表达系统包括:
集合获取模块,通过Word2vec模型获取领域关键词集合;
网络构建模块,基于所述领域关键词集合,通过语义链网络构建领域概念表达网络;
模型构建模块,利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型。
作为本发明的进一步改进,所述集合获取模块具体包括:
爬取单元,爬取数据集并对所述数据集进行预处理,通过所述Word2vec模型获取所述预处理后的数据集的矩阵表示,得到训练数据集;
选取单元,基于所述训练数据集,选取种子词汇;
扩展单元,基于所述种子词汇,采用所述Word2vec工具对所述训练数据集行词汇扩展,得到所述领域关键词集合。
作为本发明的进一步改进,所述网络构建模块具体包括:
定义单元,定义文本数据集以及候选关键词集;
句子数目获取单元,获取所述文本数据集中同时出现所述候选关键词集中任意两个候选关键词的句子数目;
关联度获取单元,根据所述句子数目获取所述候选关键词的相互关联度;
置信度获取单元,根据所述相互关联度和所述句子数目获取置信度。
作为本发明的进一步改进,所述模型构建模块具体包括以下步骤:
指定标签单元,为所述领域概念表达网络中每个节点随机指定一个特有标签;
刷新单元,基于刷新规则刷新所有所述节点的标签;
判断单元,判断所有所述节点的标签是否发生变化,若是则返回所述刷新步骤,若否则结束。
作为本发明的进一步改进,所述刷新单元中刷新规则为对于所述节点,考察其所有邻居节点的标签并进行统计,将所述统计中出现个数最多的标签赋值给所述节点,若所述个数最多的标签不唯一时,则从中随机选择一个标签赋值给所述节点。
与现有技术相比,本发明的优点和积极效果在于:
1、提出了一种基于Word2vec和LPA的领域概念表达方法,是一种利用统计学习和半监督学习的方法,将抽象概念划分为一个个词语单元,并划分出顶层核心概念和扩展子概念的层级结构,涵盖了该概念下的主要内容和领域;
2、从概念出发构建多层次概念网络,利用标签传播算法构建不同概念下的概念网络,这种半监督扩展方法无需行业深入领域知识,就可以构建完备的领域相关概念集合;
3、当相关核心概念的表达覆盖较为完备时,可以将分类推荐任务抽象为相似度计算问题或核心关键词分类问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例提供的一种基于Word2vec和LPA的领域概念表达方法整体流程图;
图2是本发明实施例提供的领域概念表达构建图;
图3是图1所揭示的步骤S1整体流程图;
图4是本发明实施例提供的Word2vec相似词汇示意图;
图5是本实施例提供的核心概念词汇信息权重权重排名示意图;
图6是图1所揭示的步骤S2整体流程图;
图7是图1所揭示的步骤S3整体流程图;
图8是本实施例提供的一种基于Word2vec和LPA的领域概念表达系统结构框架图;
图9是根据本发明实施例的计算机设备的框架图。
以上各图中:
100、集合获取模块;200、网络构建模块;300、模型构建模块;101、爬取单元;102、选取单元;103、扩展单元;201、定义单元;202、句子数目获取单元;203、关联度获取单元;204、置信度获取单元;301、指定标签单元;302、刷新单元;303、判断单元;80、总线;81、处理器;82、存储器;83、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明可基于Word2vec和LPA对领域概念进行表达,有效构建完备的领域相关概念集合。
实施例一:
参照图1至图7所示,本实例揭示了一种基于Word2vec和LPA的领域概念表达方法(以下简称“方法”)的具体实施方式。
具体而言参照图1和图2所示,本实施例所揭示的方法主要包括以下步骤:
步骤S1、通过Word2vec模型获取领域关键词集合
具体而言,在其中一些实施例中,参照图3所示所述步骤S1具体包括以下步骤:
S11、爬取数据集并对所述数据集进行预处理,通过所述Word2vec模型获取所述预处理后的数据集的矩阵表示,得到训练数据集;
S12、基于所述训练数据集,选取种子词汇;
S13、基于所述种子词汇,采用所述Word2vec工具对所述训练数据集行词汇扩展,得到所述领域关键词集合。
具体而言,对爬取数据集进行预处理,并利用Word2vec模型训练词向量,获得每个词的矩阵表示,同时构建每个领域的种子词汇。其中,Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在Word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。词向量可以捕捉许多语言规律,找到输入词汇最相似的词,例如部分人工智能类相似关键词见图4所示,在计算了人工智能相关的每个候选关键词的权重之后,部分排名靠前的词汇及其权重如图5所示。
具体而言,本实施例通过百度百科进行概念扩展,从百度百科的信息框和摘要中,可以获得概念的直接定义,通过获得百度百科词条网页,抽取相关摘要的半结构化内容和结构化信息框内容作为种子词汇,但本发明并不以此为限。
具体而言,通过扩展相关领域关键词,通过TF-IDF对关键词进行词频统计,可以获得高频词。其中TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
具体而言,在词汇扩展后可以附加人工筛选,筛选去除含有噪音的关键词。
然后执行步骤S2、基于所述领域关键词集合,通过语义链网络构建领域概念表达网络。
具体而言,参照图6所示,步骤S2具体包括以下步骤:
S21、定义文本数据集以及候选关键词集;
S22、获取所述文本数据集中同时出现所述候选关键词集中任意两个候选关键词的句子数目;
S23、根据所述句子数目获取所述候选关键词的相互关联度;
S24、根据所述相互关联度和所述句子数目获取置信度。
具体而言,在其中一些实施例中,领域概念表达网络可以由一个关联语义网络表示,该网络由节点集合和节点之间带权重的边构成:
CLN=<W,R>
具体而言,在其中一些实施例中,步骤S21中定义文本数据集为
D={di|1≤i≤m}
其中,di为某个类型下的文档集D中的第i篇文档,m为文档集下的摘要数目,一共有m篇摘要。
具体而言,在其中一些实施例中,步骤S21中候选关键词集为
Wcandidate={W1,W2,....,Wn}
其中,Wcandidate表示候选关键词集合,n为关键词数目,即一共包含了n个关键词。
具体而言,在其中一些实施例中,步骤S22中在数据集D中同时出现任意两个候选关键词Wi、Wj的句子数目为
其中,I(Wi,Wj∈s)为指示函数,当候选关键词Wi、Wj同时处于文档集D中的某个句子时,记指数函数为1,否则为0。上文令m表示文档集中摘要的数目,n表示关键候选词的种类,因此有1≤d≤m,1≤i≤n和1≤j≤n。当i与j相等时表示同一个词,由于同一个关键词之间不存在概念解释关系,因此不会统计同一个词的共现度,指数函数计为0。
具体而言,为了让语义链网络能够在传播中得到很好地应用,因此使用某一个词与其他词的所有共现次数的和作为相互关联度,记为Num(Wi),Num(Wi)计算方式为
该关联度体现了词与词之间的相似关系。例如Num(Wi)=100,Num(Wj)=10,Confidence Num(Wi,Wj)=8时,我们可以说在Wj角度看来它与Wi最为相似,因为每出现10次Wj就有8次与Wi共现;但是从Wi的角度来看就不一定,因为可能存在一个词Confidence Num(Wi,Wk)=90,这样看来Wi与Wk就是相似度比较高的词组关系。
具体而言,由于一个词经过种子词汇传播后的值较种子词汇低,否则它会被选为种子词汇,因此我们将置信度作为词汇传播度的度量,置信度计算公式为
然后执行步骤S3、利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型。
具体而言,参照图7所示步骤S3具体包括以下步骤:
S31、为所述领域概念表达网络中每个节点随机指定一个特有标签;
S32、基于刷新规则刷新所有所述节点的标签;
S33、判断所有所述节点的标签是否发生变化,若是则返回所述刷新步骤,若否则结束。
其中,标签传播算法(LPA)是一种基于图模型的半监督学习算法,其主要思想是通过已经有标注的标签来传播给未标注的标签,初始阶段为每一个节点分配一个初始化标签,每次迭代会根据周围节点的标签值改变自己的标签,直至迭代出整个标签集。
具体而言,刷新规则为对于所述节点,考察其所有邻居节点的标签并进行统计,将所述统计中出现个数最多的标签赋值给所述节点,若所述个数最多的标签不唯一时,则从中随机选择一个标签赋值给所述节点。
通过本申请实施例所揭示的一种基于Word2vec和LPA的领域概念表达方法,即一种利用统计学习和半监督学习的方法,将抽象概念划分为一个个词语单元,并划分出顶层核心概念和扩展子概念的层级结构,涵盖了该概念下的主要内容和领域,从概念出发构建多层次概念网络,利用标签传播算法构建不同概念下的概念网络,这种半监督扩展方法无需行业深入领域知识,就可以构建完备的领域相关概念集合,另外当相关核心概念的表达覆盖较为完备时,可以将分类推荐任务抽象为相似度计算问题或核心关键词分类问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
实施例二:
结合实施例一所揭示的一种基于Word2vec和LPA的领域概念表达方法,本实施例揭示了一种基于Word2vec和LPA的领域概念表达系统(以下简称“系统”)的具体实施示例。
参照图8所示,所述系统包括:
集合获取模块100,通过Word2vec模型获取领域关键词集合;
网络构建模块200,基于所述领域关键词集合,通过语义链网络构建领域概念表达网络;
模型构建模块300,利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型。
在其中一些实施例中,所述集合获取模块100具体包括:
爬取单元101,爬取数据集并对所述数据集进行预处理,通过所述Word2vec模型获取所述预处理后的数据集的矩阵表示,得到训练数据集;
选取单元102,基于所述训练数据集,选取种子词汇;
扩展单元103,基于所述种子词汇,采用所述Word2vec工具对所述训练数据集行词汇扩展,得到所述领域关键词集合。
在其中一些实施例中,所述网络构建模块200具体包括:
定义单元201,定义文本数据集以及候选关键词集;
句子数目获取单元202,获取所述文本数据集中同时出现所述候选关键词集中任意两个候选关键词的句子数目;
关联度获取单元203,根据所述句子数目获取所述候选关键词的相互关联度;
置信度获取单元204,根据所述相互关联度和所述句子数目获取置信度。
在其中一些实施例中,所述模型构建模块300具体包括以下步骤:
指定标签单元301,为所述领域概念表达网络中每个节点随机指定一个特有标签;
刷新单元302,基于刷新规则刷新所有所述节点的标签;
判断单元303,判断所有所述节点的标签是否发生变化,若是则返回所述刷新步骤,若否则结束。
在其中一些实施例中,所述刷新单元302中刷新规则为对于所述节点,考察其所有邻居节点的标签并进行统计,将所述统计中出现个数最多的标签赋值给所述节点,若所述个数最多的标签不唯一时,则从中随机选择一个标签赋值给所述节点。
本实施例所揭示的一种基于Word2vec和LPA的领域概念表达系统与实施例一所揭示的一种基于Word2vec和LPA的领域概念表达方法中其余相同部分的技术方案,请参考实施例一所述,在此不再赘述。
实施例三:
结合图9所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种基于Word2vec和LPA的领域概念表达方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图9所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于Word2vec和LPA对领域概念进行表达,有效构建领域关键词集合,从而实现结合图1描述的方法。
另外,结合上述实施例中基于Word2vec和LPA的领域概念表达方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于Word2vec和LPA的领域概念表达方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,揭示了一种基于Word2vec和LPA的领域概念表达方法,即一种利用统计学习和半监督学习的方法,将抽象概念划分为一个个词语单元,并划分出顶层核心概念和扩展子概念的层级结构,涵盖了该概念下的主要内容和领域,从概念出发构建多层次概念网络,利用标签传播算法构建不同概念下的概念网络,这种半监督扩展方法无需行业深入领域知识,就可以构建完备的领域相关概念集合,另外当相关核心概念的表达覆盖较为完备时,可以将分类推荐任务抽象为相似度计算问题或核心关键词分类问题。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于Word2vec和LPA的领域概念表达方法,其特征在于,所述方法包括如下步骤:
集合获取步骤:通过Word2vec模型获取领域关键词集合;
网络构建步骤:基于所述领域关键词集合,通过语义链网络构建领域概念表达网络;
模型构建步骤:利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型;
其中,所述集合获取步骤具体包括以下步骤:
爬取步骤:爬取数据集并对所述数据集进行预处理,通过所述 Word2vec 模型获取所述预处理后的数据集的矩阵表示,得到训练数据集;
选取步骤:基于所述训练数据集,选取种子词汇;
扩展步骤:基于所述种子词汇,采用所述 Word2vec 模型对所述训练数据集行词汇扩展,得到所述领域关键词集合;
其中,所述网络构建步骤具体包括以下步骤:
定义步骤:定义文本数据集以及候选关键词集;
句子数目获取步骤:获取所述文本数据集中同时出现所述候选关键词集中任意两个候选关键词的句子数目;
关联度获取步骤:根据所述句子数目获取所述候选关键词的相互关联度;置信度获取步骤:根据所述相互关联度和所述句子数目获取置信度;
其中,所述模型构建步骤具体包括以下步骤:
指定标签步骤:为所述领域概念表达网络中每个节点随机指定一个特有标签;
刷新步骤:基于刷新规则刷新所有所述节点的标签;
判断步骤:判断所有所述节点的标签是否发生变化,若是则返回所述刷新步骤,若否则结束。
2.如权利要求1所述的基于Word2vec和LPA的领域概念表达方法,其特征在于,所述刷新步骤中刷新规则为对于所述节点,考察其所有邻居节点的标签并进行统计,将所述统计中出现个数多的标签赋值给所述节点,若所述个数多的标签不唯一时,则从中随机选择一个标签赋值给所述节点。
3.一种基于Word2vec和LPA的领域概念表达系统,其特征在于,所述系统包括:
集合获取模块,通过Word2vec模型获取领域关键词集合;
网络构建模块,基于所述领域关键词集合,通过语义链网络构建领域概念表达网络;
模型构建模块,利用LPA对所述领域概念表达网络进行社区划分,构建以核心概念词为主、扩展概念词为补充的领域概念表达模型;
其中,所述集合获取模块具体包括:
爬取单元,爬取数据集并对所述数据集进行预处理,通过所述 Word2vec 模型获取所述预处理后的数据集的矩阵表示,得到训练数据集;
选取单元,基于所述训练数据集,选取种子词汇;
扩展单元,基于所述种子词汇,采用所述 Word2vec 模型对所述训练数据集行词汇扩展,得到所述领域关键词集合;
其中,所述网络构建模块具体包括:
定义单元,定义文本数据集以及候选关键词集;
句子数目获取单元,获取所述文本数据集中同时出现所述候选关键词集中任意两个候选关键词的句子数目;
关联度获取单元,根据所述句子数目获取所述候选关键词的相互关联度;置信度获取单元,根据所述相互关联度和所述句子数目获取置信度;
其中,所述模型构建模块具体包括:
指定标签单元,为所述领域概念表达网络中每个节点随机指定一个特有标签;
刷新单元,基于刷新规则刷新所有所述节点的标签;
判断单元,判断所有所述节点的标签是否发生变化,若是则返回刷新单元,若否则结束。
4.如权利要求3所述的基于Word2vec和LPA的领域概念表达系统,其特征在于,所述刷新单元中刷新规则为对于所述节点,考察其所有邻居节点的标签并进行统计,将所述统计中出现个数多的标签赋值给所述节点,若所述个数多的标签不唯一时,则从中随机选择一个标签赋值给所述节点。
CN202011437915.0A 2020-12-11 2020-12-11 基于Word2vec和LPA的领域概念表达方法及系统 Active CN112487267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011437915.0A CN112487267B (zh) 2020-12-11 2020-12-11 基于Word2vec和LPA的领域概念表达方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011437915.0A CN112487267B (zh) 2020-12-11 2020-12-11 基于Word2vec和LPA的领域概念表达方法及系统

Publications (2)

Publication Number Publication Date
CN112487267A CN112487267A (zh) 2021-03-12
CN112487267B true CN112487267B (zh) 2024-03-26

Family

ID=74941287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011437915.0A Active CN112487267B (zh) 2020-12-11 2020-12-11 基于Word2vec和LPA的领域概念表达方法及系统

Country Status (1)

Country Link
CN (1) CN112487267B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
KR20120068076A (ko) * 2010-10-26 2012-06-27 한국과학기술정보연구원 기술문헌으로부터 전문 용어의 기술적 개념을 자동으로 탐지하는 방법 및 장치
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
KR20120068076A (ko) * 2010-10-26 2012-06-27 한국과학기술정보연구원 기술문헌으로부터 전문 용어의 기술적 개념을 자동으로 탐지하는 방법 및 장치
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN112487267A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
Du et al. Text classification research with attention-based recurrent neural networks
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
US20120191632A1 (en) System and methods for finding hidden topics of documents and preference ranking documents
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN110298035A (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
JP6699753B2 (ja) 分析プログラム、情報処理装置および分析方法
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN112396185A (zh) 一种事实验证方法、系统、计算机设备和存储介质
CN112686025B (zh) 一种基于自由文本的中文选择题干扰项生成方法
JP6729095B2 (ja) 情報処理装置及びプログラム
CN113326267B (zh) 基于倒排索引和神经网络算法的地址匹配方法
CN114896377A (zh) 一种基于知识图谱的答案获取方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN114462392A (zh) 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN112487267B (zh) 基于Word2vec和LPA的领域概念表达方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant