CN105808711B - 一种基于文本语义的概念生成模型的系统和方法 - Google Patents

一种基于文本语义的概念生成模型的系统和方法 Download PDF

Info

Publication number
CN105808711B
CN105808711B CN201610126084.2A CN201610126084A CN105808711B CN 105808711 B CN105808711 B CN 105808711B CN 201610126084 A CN201610126084 A CN 201610126084A CN 105808711 B CN105808711 B CN 105808711B
Authority
CN
China
Prior art keywords
word
candidate concepts
candidate
feature
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610126084.2A
Other languages
English (en)
Other versions
CN105808711A (zh
Inventor
刘磊
蔡海博
常晓飞
李静
汪海洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goonie International Software (Beijing) Co.,Ltd.
Original Assignee
Beijing Flame Technology Co Ltd
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Flame Technology Co Ltd, Beijing University of Technology filed Critical Beijing Flame Technology Co Ltd
Priority to CN201610126084.2A priority Critical patent/CN105808711B/zh
Publication of CN105808711A publication Critical patent/CN105808711A/zh
Application granted granted Critical
Publication of CN105808711B publication Critical patent/CN105808711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出了一种基于文本语义的概念生成模型的系统和方法,属于文本知识获取领域,具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。本发明首先提取出中文语料库中的已有概念,然后去除其前部特征和后部特征得到候选概念词构件,并利用基于统计的方法和基于上下文语境的方法对候选概念词构件进行了相似度的计算,然后进行聚类,在已有概念的基础上生成新的概念,扩充构词规则库。并且通过实验,验证了该发明的有效性。

Description

一种基于文本语义的概念生成模型的系统和方法
技术领域
本发明属于文本知识获取领域,具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。
背景技术
文本知识获取是人工智能的重要研究内容,是指用机器学习等人工智能的方法,自动将自然语言描述的文本知识变为计算机可理解的形式。随着计算机的普及以及互联网的迅猛发展,越来越多的知识出现在网页中,而大部分的知识是以文本的形式呈现的,如何快速智能的从网页文本中获取知识,是当今知识获取领域一个亟待解决的问题。
人们正常理解的知识指的是掌握概念的数量多少以及概念之间的关系,同样,对于计算机而言,概念和概念间的关系是知识的基本组成部分。所以概念的数量和准确性将直接影响知识获取的效果。如何得到大量准确的概念,已成为知识工程发展过程中需要解决的首要问题。
维基百科是目前全世界最大的多语种、开放式的在线百科全书。它的大量信息以文本形式呈现,而大部分的概念正是需要从自然语言文本中获取。并且维基百科是一种半结构化的文本,可以方便地获取其文本内容、标题、链接和分类等信息,并且其文本内容覆盖面广、准确度高,可以保证概念的生成和推理的有效性。因此,维基百科常作为验证知识获取方法有效性的知识源。
发明内容
本发明的目的在于提出一种基于文本语义的概念生成模型和方法。本发明综合考虑了概念的上下文语境和语义信息,给出了概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法。在已有概念的基础上生成新的概念,并且通过实验,验证了该发明的有效性。
一种基于文本语义的概念生成模型,该模型包括Web语料、中文语料库、已有概念库、候选概念词构件库;Web语料与中文语料库相连接,中文语料库通过抽取已有概念与已有概念库连接;已有概念库的前部特征库、后部特征库输入至候选概念词构件库;候选概念词构件库的处理方法分为基于统计方法相结合方法、基于上下文语境相结合方法和上述两者的结合,进行输出结果;输出结果分为新概念库和构词规则库。
利用上述一种基于文本语义的概念生成模型进行的方法,其特征包括如下步骤:
步骤1:获取中文语料库。并对文本进行预处理。
步骤2:抽取语料库中已有的概念。
步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件。
步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件。
步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度。
步骤6:利用相似度特征对候选概念词构件聚类,并设定阈值,相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念。并对具有同一前部特征或后部特征的已有概念进行聚类,总结某一前部特征或后部特征下的构词规律,扩充构词规则库。
该方法包括如下步骤,
步骤1:获取中文语料库;并对文本进行预处理;
步骤2:抽取语料库中已有的概念;
对所有的已知概念做如下预处理:
(1)去除包含英文、日文、韩文特殊字符的概念;
(2)去重,因本方法的研究对象为不同的概念,所以重复的概念不会影响最终的结果;
(3)去除人名,去除的人名是英文音译为中文的,对总结构词规则没有太大贡献;
经过上述预处理后组成已有的概念库;
步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件;
(1)分词,利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理,提取出已有概念的候选前部特征和候选后部特征;
(2)对候选前部特征和后部特征按频数从高到低进行排序,筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理,保留多字词和标记为名词成分的单字词,组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库,用作生成新概念词首部或尾部的构件;
步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件;
针对概念库中的所有概念词,依据前部特征库和后部特征库,分别去除其前部特征或后部特征,得到候选概念词构件库;
步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度;
方法描述如下:
输入:文本预处理后的文档集合D={d1,d2,d3,…dN},N为文档集合的总数;
其中,D表示维基百科中的所有条目所对应的页面信息的集合,dt表示维基百科中某一个条目所对应的页面信息;
待计算相似度的所有候选概念词构件W={w1,w2,w3,…wm},m为候选概念词构件的总数;其中,W表示所有候选概念词构件的集合,wi表示某一个候选概念词构件;
5.1、基于统计的方法
本质上是基于词频的方法,假设针对同一条目下的两个候选概念词构件,若这两个候选概念词构件和条目相关度相似,则这两个候选概念词构件相似;
该方法用TF-IDF计算某一候选概念词构件与该词所在条目的相关度,用每个候选概念词构件与条目的相关度,计算两两候选概念词构件之间的相似度;考虑到维基百科本身的特殊性,往往每个条目正文的首段要比其他位置的信息更重要,所以本方法将出现在首段的候选概念词构件的权重为其他位置的两倍;
Step1:计算候选概念词构件与条目之间的相关度
表示某候选概念词构件wi和某条目dt的关系紧密程度;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示候选概念词构件wi在文档dt其他位置出现的次数;
表示某候选概念词构件wi的稀缺程度,即这个某候选概念词构件wi出现的几率;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示表示某候选概念词构件wi和在条目dt其他位置出现的次数;
rel(dt,wi)=TF(dt,wi)×IDF(dt,wi)
表示某候选概念词构件wi和某条目dt的相关度;
Step2:计算候选概念词构件之间的相似性
表示在同一条目dt下,wi和wj的相关度;
表示在文档集合D中,wi和wj关于共现条目的相似度;若共存条目的个数小于阈值,则去找候选概念词构件所在条目的共同上位,因维基百科分类详细且层数较多,共同上位只限制在所在条目的上三层,然后利用统计方法计算候选概念词构件所在条目之间的相关度,进而得出候选概念词构件之间的相似性;
dk为dt和dn的某个最近共同上位
表示候选概念词构件所在条目dt和dn与最近共同上位dk的相关度;其中,dt,dn,dk∈D
表示在文档集合D中,wi和wj关于共同上位的相似度;
5.2、基于上下文语境的方法
Step1:候选概念词构件的语境获取
为减少该方法的时间复杂度,去除文档集合D中无用的XML标签,并将所有文本内容按句号逐句断开;在语料库中遍历所有候选概念词构件,将包含某候选概念词构件的所有语料筛选出来,组成该候选概念词构件的语境;最终得到所有候选概念词构件的语境集合Con={Con1,Con2,Con3,…Conm};
Step2:候选概念词构件的特征分析选取
(1)分词;利用中国科学院计算技术研究所分词系统ICTCLAS对所有候选概念词构件的语境集合进行分词处理,去除停用词、去除标点符号、去除数字和字母;
(2)选择每个候选概念词构件语境中的名词、动词和形容词作为候选特征词;
(3)采用TF-IDF方法进行特征词的选择;
(4)利用《同义词词林》,找到特征词的同义词,对特征词进行扩充,得到最终候选概念词构件的特征词库;
Step3:构建向量空间模型,进行相似度sim2的计算
(1)将每一个候选概念词构件表示为,候选概念词构件={特征词1,特征词2,特征词3,…,特征词n}的向量形式,在文档集合D中搜索候选特征词,若搜索到某特征词就将该特征词的权值加1;
(2)利用数学中四种经典的比较向量相似度的方法:基于皮尔森相关性的相似度、基于欧几里德距离的相似度、余弦相似度、基于谷本系数的相似性度量,选出最适合的向量相似度的方法,计算候选概念词构件的向量的两两之间的相似度sim2的值;
(3)根据潜在语义分析,改善个别候选概念词构件的相似度计算,最终得到所有候选概念词构件的相似度sim2的值;
5.3、基于上下文语境方法和基于统计方法相结合的方法
综合考虑基于上下文语境的方法和基于统计的方法,设定参数α和β分别作为上述两种方法的权重,并且α+β=1;
步骤6:利用相似度特征对候选概念词构件聚类,并设定阈值,相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念;
实验随机选取了已知概念词,进行分词和去后部特征处理,得到候选概念词构件;
6.1、基于统计的方法
利用上述基于统计的方法,计算出所有候选概念词构件两两之间的相似度,并设定不同的候选概念词构件相关度阈值θ1和待交换构件与后部特征相关度阈值θ2以及是否匹配后部特征库等条件,合成的新概念词;
不匹配特征库时,合成的新概念词的个数随着θ1的不断增加而均匀减少;
由于该方法仅考虑了概念的词频信息,考虑加入一定语义信息结果应该有所提升;
6.2、基于上下文语境的方法
利用上述基于上下文语境的方法,计算出所有候选概念词构件两两之间的相似度,由6.1得出候选概念词构件相关度阈值θ1越大,最后合成的新概念词的效果相对较好;由于该方法仅考虑了候选概念词构件的上下文语境信息,没有考虑候选概念词构件在整个语料库中的统计信息,考虑将基于统计的方法和基于上下文的方法相结合,结果应该有所提升;
6.3、基于上下文语境方法和基于统计方法相结合的方法
利用上述基于上下文语境方法和基于统计方法相结合的方法,计算出所有选概念词构件两两之间的相似度,为得到最合适的比例,α取值和对应的合成的新概念词的结果;
相同θ1和θ2的情况下,合成的新概念词的个数最多,准确率也相对较高;根据上述实验结果,得出上下文语境比词频对候选概念词构件相似度有更大的影响。
附图说明
图1基于文本语义的概念生成方法流程图。
具体实施方式
步骤1:获取中文语料库。并对文本进行预处理。
因维基百科半结构化的特性和其覆盖面广,准确度高的特点,本方法选取维基百科作为实验中所用的中文语料库。下载维基百科的中文语料库zhwiki-20150417-pages-articles.xml.bz2,解压后为4.82G。对该XML文档进行解析、文本抽取和繁简转换后共得到813994个条目。
步骤2:抽取语料库中已有的概念。
因维基百科中每一个条目都对应一篇文本,其锚文本又会链接到其他条目,所以把所有条目的title和每一个条目下的锚文本作为已知的概念。每一个锚文本的两侧都有类似<a href="%E6%95%B8%E9%87%8F">和</a>的标签,利用正则表达式从维基百科语料库中抽取出所有条目的title和每个条目下的锚文本,共计17380173个。对所有的已知概念做如下预处理:
(1)去除包含英文、日文、韩文等特殊字符的概念。
(2)去重,因本方法的研究对象为不同的概念,所以重复的概念不会影响最终的结果。
(3)去除人名,去除的人名是英文音译为中文的,对总结构词规则没有太大贡献。
经过上述预处理后共计1770844个已知概念,组成已有的概念库。
步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件。
(1)分词,利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理,提取出已有概念的候选前部特征41391个和候选后部特征39997个。
(2)对候选前部特征和后部特征按频数从高到低进行排序,筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理,保留多字词和标记为名词成分的单字词,组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库,用作生成新概念词首部或尾部的构件。最后共计前部特征1216个,后部特征1179个。
表1前部特征和后部特征选择方法的处理结果
名称 候选特征总数 频数≥100(个) 多字词(个) 名词成分的单字词(个) 最终特征总数
前部特征 41391 2442 1016 200 1216
后部特征 39997 2398 912 267 1179
步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件。
针对概念库中的所有概念词,依据前部特征库和后部特征库,分别去除其前部特征或后部特征,得到候选概念词构件库。
步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度。
方法描述如下:
输入:文本预处理后的文档集合D={d1,d2,d3,…dN},N为文档集合的总数;
其中,D表示维基百科中的所有条目所对应的页面信息的集合,dt表示维基百科中某一个条目所对应的页面信息。
待计算相似度的所有候选概念词构件W={w1,w2,w3,…wm},m为候选概念词构件的总数。其中,W表示所有候选概念词构件的集合,wi表示某一个候选概念词构件。
5.1、基于统计的方法
本质上是基于词频的方法,假设针对同一条目下的两个候选概念词构件,若这两个候选概念词构件和条目相关度相似,则这两个候选概念词构件相似。
该方法用TF-IDF计算某一候选概念词构件与该词所在条目的相关度,用每个候选概念词构件与条目的相关度,计算两两候选概念词构件之间的相似度。考虑到维基百科本身的特殊性,往往每个条目正文的首段要比其他位置的信息更重要,所以本方法将出现在首段的候选概念词构件的权重为其他位置的两倍。
Step1:计算候选概念词构件与条目之间的相关度
表示某候选概念词构件wi和某条目dt的关系紧密程度。其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示候选概念词构件wi在文档dt其他位置出现的次数。
表示某候选概念词构件wi的稀缺程度,即这个某候选概念词构件wi出现的几率。其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示表示某候选概念词构件wi和在条目dt其他位置出现的次数。
rel(dt,wi)=TF(dt,wi)×IDF(dt,wi)
表示某候选概念词构件wi和某条目dt的相关度。
Step2:计算候选概念词构件之间的相似性
表示在同一条目dt下,wi和wj的相关度。
表示在文档集合D中,wi和wj关于共现条目的相似度。若共存条目的个数小于阈值,则去找候选概念词构件所在条目的共同上位,因维基百科分类详细且层数较多,共同上位只限制在所在条目的上三层,然后利用统计方法计算候选概念词构件所在条目之间的相关度,进而得出候选概念词构件之间的相似性。
dk为dt和dn的某个最近共同上位
表示候选概念词构件所在条目dt和dn与最近共同上位dk的相关度。其中,dt,dn,dk∈D
表示在文档集合D中,wi和wj关于共同上位的相似度。
5.3、基于上下文语境的方法
Step1:候选概念词构件的语境获取
为减少该方法的时间复杂度,去除文档集合D中无用的XML标签,并将所有文本内容按句号逐句断开。在语料库中遍历所有候选概念词构件,将包含某候选概念词构件的所有语料筛选出来,组成该候选概念词构件的语境。最终得到所有候选概念词构件的语境集合Con={Con1,Con2,Con3,…Conm}。
Step2:候选概念词构件的特征分析选取
(1)分词。利用中国科学院计算技术研究所分词系统ICTCLAS对所有候选概念词构件的语境集合进行分词处理,去除停用词、去除标点符号、去除数字和字母。
(2)选择每个候选概念词构件语境中的名词、动词和形容词作为候选特征词。
(3)采用TF-IDF方法进行特征词的选择。
(4)利用《同义词词林》,找到特征词的同义词,对特征词进行扩充,得到最终候选概念词构件的特征词库。
Step3:构建向量空间模型,进行相似度sim2的计算
(1)将每一个候选概念词构件表示为,候选概念词构件={特征词1,特征词2,特征词3,…,特征词n}的向量形式,在文档集合D中搜索候选特征词,若搜索到某特征词就将该特征词的权值加1。
(2)利用数学中四种经典的比较向量相似度的方法:基于皮尔森相关性的相似度(Pearson correlation-based similarity)、基于欧几里德距离的相似度(EuclideanDistance-based Similarity)、余弦相似度(Cosine Similarity)、基于谷本系数的相似性度量(Tanimoto Coefficient-based Similarity),选出最适合的向量相似度的方法,计算候选概念词构件的向量的两两之间的相似度sim2的值。
(3)根据潜在语义分析,改善个别候选概念词构件的相似度计算,最终得到所有候选概念词构件的相似度sim2的值。
5.4、基于上下文语境方法和基于统计方法相结合的方法
综合考虑基于上下文语境的方法和基于统计的方法,设定参数α和β分别作为上述两种方法的权重,并且α+β=1。
步骤6:利用相似度特征对候选概念词构件聚类,并设定阈值,相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念。
实验随机选取了维基百科中的500个已知概念词,进行分词和去后部特征处理,得到候选概念词构件。
6.1、基于统计的方法
利用上述基于统计的方法,计算出所有候选概念词构件两两之间的相似度,并设定不同的候选概念词构件相关度阈值θ1和待交换构件与后部特征相关度阈值θ2以及是否匹配后部特征库等条件,合成的新概念词的个数结果如表2所示:
表2基于统计的方法生成新概念结果表
由表2看出,不匹配特征库时,合成的新概念词的个数随着θ1的不断增加而均匀减少,经人工判断,θ1为0.85时,合成的新概念词的准确率相对最高。当候选概念词构件相关度阈值θ1为0.85时,θ2在0.6到0.7之间时合成新概念词的个数差别最大,故将待交换构件与后部特征相关度阈值θ2的值设为0.65。既可以有效的过滤相似度低的词,也可以保证一定的召回率。
由于该方法仅考虑了概念的词频信息,最终准确率都在30%-40%,考虑加入一定语义信息结果应该有所提升。
6.4、基于上下文语境的方法
利用上述基于上下文语境的方法,计算出所有候选概念词构件两两之间的相似度,由6.1得出候选概念词构件相关度阈值θ1越大,最后合成的新概念词的效果相对较好。因此本次实验θ1和θ2取值如下表:
表3基于上下文的方法生成新概念结果表
当θ1为0.85时,θ2的不同取值对合成的新概念词的个数的影响最小。
由于该方法仅考虑了候选概念词构件的上下文语境信息,没有考虑候选概念词构件在整个语料库中的统计信息,最终准确率都在40%-50%左右,考虑将基于统计的方法和基于上下文的方法相结合,结果应该有所提升。
6.5、基于上下文语境方法和基于统计方法相结合的方法
利用上述基于上下文语境方法和基于统计方法相结合的方法,计算出所有选概念词构件两两之间的相似度,为得到最合适的比例,α取值和对应的合成的新概念词的结果如下表:
表4基于统计的方法和基于上下文的方法相结合的方法生成新概念结果表
相同θ1和θ2的情况下,α=0.8时,合成的新概念词的个数最多,准确率也相对较高。根据上述实验结果,得出上下文语境比词频对候选概念词构件相似度有更大的影响。
当α=0.8,β=0.2的时候,效果最优。

Claims (1)

1.一种基于文本语义的概念生成方法,其特征在于:该方法包括如下步骤,
步骤1:获取中文语料库;并对文本进行预处理;
步骤2:抽取语料库中已有的概念,并对所有的已有的概念做如下预处理
(1)去除包含英文、日文、韩文特殊字符的概念;
(2)去重;
(3)去除人名,去除的人名是英文音译为中文的人名;
经过上述预处理后组成已有的概念库;
步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件;
(1)分词,利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理,提取出已有概念的候选前部特征和候选后部特征;
(2)对候选前部特征和后部特征按频数从高到低进行排序,筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理,保留多字词和标记为名词成分的单字词,组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库,用作生成新概念词首部或尾部的构件;
步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件;
针对已有的概念库中的所有概念词,依据前部特征库和后部特征库,分别去除其前部特征或后部特征,得到候选概念词构件库;
步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度;
输入:文本预处理后的文档集合D={d1,d2,d3,…dN},N为文档集合的总数;
其中,D表示维基百科中的所有条目所对应的页面信息的集合,表示维基百科中某一个条目所对应的页面信息;
待计算相似度的所有候选概念词构件W={w1,w2,w3,…wm},m为候选概念词构件的总数;其中,W表示所有候选概念词构件的集合,表示某一个候选概念词构件;
5.1、基于统计的方法
本质上是基于词频的方法,假设针对同一条目下的两个候选概念词构件,若这两个候选概念词构件和条目相关度相似,则这两个候选概念词构件相似;
该基于词频的方法用TF-IDF计算某一候选概念词构件与候选概念词构件的集合中的另一个候选概念词构件所在条目的相关度,用每个候选概念词构件与条目的相关度,计算两两候选概念词构件之间的相似度;每个条目正文的首段要比正文其他位置的信息更重要,所以将出现在正文首段的候选概念词构件的权重设置为2,出现正文其他位置的候选概念词构件的权重设置为1;
S1:计算候选概念词构件与条目之间的相关度
表示某候选概念词构件wi和某条目dt的关系紧密程度;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示候选概念词构件wi在文档dt其他位置出现的次数;
表示某候选概念词构件wi的稀缺程度,即这个某候选概念词构件wi出现的几率;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示某候选概念词构件wi和在条目dt其他位置出现的次数;
rel(dt,wi)=TF(dt,wi)×IDF(dt,wi)
表示某候选概念词构件wi和某条目dt的相关度;
S2:计算候选概念词构件之间的相似性
表示在同一条目dt下,wi和wj的相关度;
表示在文档集合D中,wi和wj关于共现条目的相似度;若共现条目的个数小于阈值,则去找候选概念词构件所在条目的共同上位,共同上位只限制在所在条目的上三层,然后利用统计方法计算候选概念词构件所在条目之间的相关度,进而得出候选概念词构件之间的相似性;
wi∈dt,wj∈dn,dt,dn∈D
dk为dt和dn的某个最近共同上位
表示候选概念词构件所在条目dt和dn与最近共同上位dk的相关度;其中,dt,dn,dk∈D
表示在文档集合D中,wiwj关于共同上位的相似度;
5.2、基于上下文语境的方法
Step1:候选概念词构件的语境获取
去除文档集合D中无用的XML标签,并将所有文本内容按句号逐句断开;在语料库中遍历所有候选概念词构件,将包含某候选概念词构件的所有语料筛选出来,组成该候选概念词构件的语境;最终得到所有候选概念词构件的语境集合Con={Con1,Con2,Con3,…Conm};
Step2:候选概念词构件的特征分析选取
(1)分词;利用中国科学院计算技术研究所分词系统ICTCLAS对所有候选概念词构件的语境集合进行分词处理,去除停用词、去除标点符号、去除数字和字母;
(2)选择每个候选概念词构件语境中的名词、动词和形容词作为候选特征词;
(3)采用TF-IDF方法进行特征词的选择;
(4)利用《同义词词林》,找到特征词的同义词,对特征词进行扩充,得到最终候选概念词构件的特征词库;
Step3:构建向量空间模型,进行相似度sim2的计算
(1)将每一个候选概念词构件表示为:候选概念词构件={特征词1,特征词2,特征词3,…,特征词n}的向量形式,在文档集合D中搜索候选特征词,若搜索到某特征词就将该特征词的权值加1;
(2)利用数学中四种经典的比较向量相似度的方法:基于皮尔森相关性的相似度、基于欧几里德距离的相似度、余弦相似度、基于谷本系数的相似性度量,选出最适合的向量相似度的方法,计算候选概念词构件的向量的两两之间的相似度sim2的值;
(3)根据潜在语义分析,改善个别候选概念词构件的相似度计算,最终得到所有候选概念词构件的相似度sim2的值;
5.3、基于上下文语境方法和基于统计方法相结合的方法
综合考虑基于上下文语境的方法和基于统计的方法,设定参数α和β分别作为上述两种方法的权重,并且α+β=1;
步骤6:利用相似度特征对候选概念词构件聚类,并设定阈值,相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念;
随机选取已有概念库中的概念词,进行分词和去后部特征处理,得到候选概念词构件;
6.1、基于统计的方法
利用基于统计的方法,计算出所有候选概念词构件两两之间的相似度,并设定不同的候选概念词构件相关度阈值θ1和待交换构件与后部特征相关度阈值θ2以及是否匹配后部特征库条件,合成新的概念词;
不匹配后部特征库条件时,合成的新概念词的个数随着θ1的不断增加而均匀减少;
6.2、基于上下文语境的方法
利用上述基于上下文语境的方法,计算出所有候选概念词构件两两之间的相似度;
6.3、基于上下文语境方法和基于统计方法相结合的方法
利用上述基于上下文语境方法和基于统计方法相结合的方法,计算出所有候选概念词构件两两之间的相似度;
相同θ1和θ2的情况下,合成的新概念词的个数最多。
CN201610126084.2A 2016-03-04 2016-03-04 一种基于文本语义的概念生成模型的系统和方法 Active CN105808711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610126084.2A CN105808711B (zh) 2016-03-04 2016-03-04 一种基于文本语义的概念生成模型的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610126084.2A CN105808711B (zh) 2016-03-04 2016-03-04 一种基于文本语义的概念生成模型的系统和方法

Publications (2)

Publication Number Publication Date
CN105808711A CN105808711A (zh) 2016-07-27
CN105808711B true CN105808711B (zh) 2019-11-26

Family

ID=56467753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610126084.2A Active CN105808711B (zh) 2016-03-04 2016-03-04 一种基于文本语义的概念生成模型的系统和方法

Country Status (1)

Country Link
CN (1) CN105808711B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766319B (zh) 2016-08-19 2021-05-18 华为技术有限公司 序列转换方法及装置
CN106339159A (zh) * 2016-08-25 2017-01-18 乐视控股(北京)有限公司 字符选择处理方法、终端和语义分析服务器
CN106611041A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种新的文本相似度求解方法
CN108108345B (zh) * 2016-11-25 2021-08-10 南京尚网网络科技有限公司 用于确定新闻主题的方法与设备
CN107102983B (zh) * 2017-04-20 2020-12-04 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN108804410B (zh) * 2017-05-05 2022-03-29 北京数洋智慧科技有限公司 一种基于人工智能文本语义相似度分析的语义解释方法
CN109948156B (zh) * 2019-03-13 2023-03-24 青海师范大学 一种融合构件和字信息的藏文词向量表示方法
CN110175246B (zh) * 2019-04-09 2021-04-13 山东科技大学 一种从视频字幕中提取概念词的方法
CN110275879A (zh) * 2019-05-16 2019-09-24 浙江浙能技术研究院有限公司 一种基于故障数据状态矩阵进行故障匹配和预警的方法
CN112364175B (zh) * 2020-10-22 2024-03-12 首都师范大学 基于web资源的本体概念层次获取方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102968409A (zh) * 2012-11-23 2013-03-13 海信集团有限公司 智能人机交互语义分析方法及交互系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262622A (zh) * 2010-05-31 2011-11-30 国际商业机器公司 文档处理、模板生成及概念库生成方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102968409A (zh) * 2012-11-23 2013-03-13 海信集团有限公司 智能人机交互语义分析方法及交互系统

Also Published As

Publication number Publication date
CN105808711A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105808711B (zh) 一种基于文本语义的概念生成模型的系统和方法
Benajiba et al. Arabic named entity recognition using conditional random fields
CN103488648B (zh) 一种多语种混合检索方法和系统
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
Rigouts Terryn et al. Termeval 2020: Shared task on automatic term extraction using the annotated corpora for term extraction research (acter) dataset
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Piperski et al. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation
Kim et al. Applying graph-based keyword extraction to document retrieval
Nguyen-Hoang et al. TSGVi: a graph-based summarization system for Vietnamese documents
Tan et al. Entity linking for queries by searching Wikipedia sentences
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
Ferrés et al. An adaptable lexical simplification architecture for major Ibero-Romance languages
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
Torres-Moreno Three Statistical Summarizers at CLEF-INEX 2013 Tweet Contextualization Track.
Muhammad et al. EUTS: extractive Urdu text summarizer
Tesema et al. Towards the sense disambiguation of Afan Oromo words using hybrid approach (unsupervised machine learning and rule based)
JP2007122525A (ja) 言い換え処理方法及び装置
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Alami et al. DAQAS: Deep Arabic Question Answering System based on duplicate question detection and machine reading comprehension
Feng et al. Using html tags to improve parallel resources extraction
Suryavanshi et al. Hindi Multi-Document Text Summarization Using Text Rank Algorithm
Dershowitz et al. Relating articles textually and visually
Nwesri et al. Applying Arabic stemming using query expansion
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201118

Address after: A5, block D, Xisanqi cultural science and Technology Park, yard 27, xixiaokou Road, Haidian District, Beijing 100085

Patentee after: Goonie International Software (Beijing) Co.,Ltd.

Address before: 100124 Chaoyang District, Beijing Ping Park, No. 100

Patentee before: Beijing University of Technology

Patentee before: BEIJING FLAME TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right