CN107102983B - 一种基于网络知识源的中文概念的词向量表示方法 - Google Patents

一种基于网络知识源的中文概念的词向量表示方法 Download PDF

Info

Publication number
CN107102983B
CN107102983B CN201710259663.9A CN201710259663A CN107102983B CN 107102983 B CN107102983 B CN 107102983B CN 201710259663 A CN201710259663 A CN 201710259663A CN 107102983 B CN107102983 B CN 107102983B
Authority
CN
China
Prior art keywords
word
feature
words
concept
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710259663.9A
Other languages
English (en)
Other versions
CN107102983A (zh
Inventor
刘磊
常晓飞
孙孟涛
贾亚璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710259663.9A priority Critical patent/CN107102983B/zh
Publication of CN107102983A publication Critical patent/CN107102983A/zh
Application granted granted Critical
Publication of CN107102983B publication Critical patent/CN107102983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于网络知识源的中文概念的词向量表示方法,首先对获取的百科知识源进行预处理得到知识源G,其次根据G构建语义特征词典;最后,根据语义特征词典构建概念的词向量表示。采用本发明的技术方案,有效降低了一词多义和同义词问题对概念相似性度量的影响。

Description

一种基于网络知识源的中文概念的词向量表示方法
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于网络知识源的中文概念的词向量表示方法。
背景技术
相似性是衡量对象之间相似程度的指标,相似性数值越大,相似程度越高,反之相似程度就越低。相似性计算方法用于有效度量对象间的相似程度,发现对象之间的区别和联系。
概念本身并没有二义性,它能唯一地、准确地指向现实世界中的实体或对象。但在文本中,概念是由词表示的,这里称为概念词。概念词的相似性计算是自然语言处理的关键技术之一。传统的概念词相似度量方法大多是基于具有层次关系组织的语义词典和基于语料库的方法。概念词相似性度量在自然语言处理、信息检索、文本重复检测、文本聚类、文本分类、问答系统和机器翻译等领域都有着广泛的应用。
概念语义通常使用词向量表示,词向量中的词称之为特征词,但是特征词的一词多义和同义词问题会影响概念相似度的度量。也就是说一些特征词在不同的语境下表达不同的含义,即一词多义;有些特征词与其它特征词具有相同的含义,即同义词。必须考虑特征词语义特点,针对传统方法的缺陷,给出一些新的方法,以降低一词多义问题和同义词问题对相似性度量的影响。
发明内容
本发明的目的在于针对概念相似度计算中的词向量的一词多义和同义词问题,提供一种基于网络知识源的中文概念的词向量表示方法,降低一词多义和同义词问题对概念相似性度量的影响。
为实现上述目的,本发明采用如下的技术方案:
一种基于网络知识源的中文概念的词向量表示方法包括以下步骤:
步骤(1)知识源获取和预处理
其包括:下载百科知识源,对知识源进行必要的预处理,包括繁体简体转换、分词、词性标注,网络百科知识源中每个概念对应一个文本页面。预处理后的知识源记作G={(c1,d1),(c2,d2),…,(cn,dn)},其中ci表示一个概念,di表示概念ci对应的预处理后的文本。
步骤(2)根据G构建语义特征词典
构建语义特征词典步骤如下:
步骤(2.1)抽取G所有文本中包含词性的词,去除其中的英文、数字、特殊符号、停用词,只保留大于等于2个汉字特征词,得到候选特征词词典F1
步骤(2.2)对F1中的每个特征词计算其在文本集合中的逆文本频率,即IDF(Inverse document frequency)值,它是用于衡量特征词权重的指数,公式如下:
Figure BDA0001274377480000021
其中,N为文本总数,n为包含该特征词的文本数。
步骤(2.3)从F1中选取满足条件:n>α、IDF>β的特征词构成候选特征词词典F2,α,β为设定的阈值。
步骤(2.4)对F2中的所有特征词按词性分组,求各组词性特征词的IDF均值,公式如下:
Figure BDA0001274377480000022
对F2中特征词进行词性过滤,只保留IDFmean>γ的词性特征词构成特征词词典F3,γ为设定的阈值,记作F3={w1,w2,w3,…,wn}中每个词由词和词性两部分组成,例如w1=透过/v,w2=中国/n,这里v表示动词,n表示名词。
步骤(2.5)利用有词性标记的同义词词典,将F3中词性和词义相同的特征词合并,以减少同义词对词向量的语义度量影响;这样特征词典变为FW={Syn(w1),Syn(w2),…,Syn(wk)},其中Syn(wi)为与特征词wi同义的词的集合。
步骤(3)构建概念的词向量表示
知识源G中每个概念的词向量用对应文本中出现的特征词构造,为体现特征词与概念的相关程度,其词向量的每一维为特征词的权重,权重因素包括:TFIDF(TermFrequency Inverted Document Frequency)值和词频对数似然比。
TFIDF用于体现特征词在整个知识源中对概念的重要性,计算公式如下:
TFIDFw,c=WFw,d×IDFw
其中,WFw,d是特征词w在概念c对应文本d中出现的次数,(c,d)∈G;IDFw是w在IDF值;TFIDFw,c是w对于(c,d)的TFIDF值,
词频对数似然比用于体现特征词在文本中对概念的重要性,假设与概念语义相关的特征词,其在概念对应文本中出现频率要比在整个语料库中要高,计算公式如下:
Figure BDA0001274377480000031
其中,PDw为特征词w在知识源G中出现的频率,PDw,d是w在d中出现的频率,(c,d)∈G,
已知(c,d)∈G,特征词典FW={Syn(w1),Syn(w2),…,Syn(wk)},则网络百科知识源G中每个概念的词向量按照如下步骤构造:
步骤(3.1)、计算特征词wi在(c,d)中的特征权重值UW(wi,c),公式如下:
Figure BDA0001274377480000032
步骤(3.2)、计算特征词的同义词集合在(c,d)中的特征权重值UW(Syn(wi),c),通过计算同义词集合中每个同义词的权重值之和得到,公式如下:
UW(Syn(wi),c)=UW(wi1,c)+UW(wi2,c)+…+UW(win,c)
步骤(3.3)计算概念c的特征词向量CVec(c),向量的每一维都是一个同义词集合的特征权重值,表示形式如下:
CVec(c)=(UW(Syn(w1),c),UW(Syn(w2),c),...,UW(Syn(wk),c))。
附图说明
图1本发明实现基于网络知识源的中文概念词向量表示方法和概念相似性度量的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
根据图1所示,本发明提出的方法是依次按以下步骤实现的(以中文维基百科为例):
步骤(1)知识源获取和预处理
语料的获得及相关处理步骤如下:
步骤(1.1)从中文维基百科网站(https://dumps.wikimedia.org/zhwiki/20160111/)下载中文版维基百科的XML格式数据(zhwiki-20160111-page-articles.xml.bz2),并用进行文件解压得到中文维基百科语料库G1
步骤(1.2)由于语料库G1中包含大量繁体字,所以对其进行繁简转换,得到语料库G2
步骤(1.3)使用目前发展较为成熟的ICTCLAS分词系统对语料库G2进行分词、词性标注,得到语料库G。G表示中文维基百科中的所有概念(条目)及其所对应的文本的集合,即G={(c1,d1),(c2,d2),…,(cN,dN)},N为概念总数,每一个概念由一篇文本明确定义,即有N篇文本(约85万)。
步骤(2)根据G,构建语义特征词典
构建语义特征词典步骤如下:
步骤(2.1)抽取G所有文本中包含词性的词,如透过/v,中国/n;去除其中的英文、数字、特殊符号、停用词;只保留大于等于2个汉字特征词,得到候选特征词词典F1
步骤(2.2)对F1中的每个特征词计算其在文本集合中的逆文本频率,即IDF(Inverse document frequency)值,它是用于衡量特征词权重的指数,公式如下:
Figure BDA0001274377480000051
其中,N为文本总数,n为包含该特征词的文本数。
步骤(2.3)对于只在一篇文本中出现过的特征词,忽略不计,因此选取满足条件:n>1、IDF>1的特征词构成特征词集合F2
步骤(2.4)对F2中的所有特征词按词性分组,求各组词性特征词的IDF均值,公式如下:
Figure BDA0001274377480000052
其中,k为具有该词性的特征词个数。IDFmean越小,n越大,即包含该特征词的文本数越大,说明该特征词能够很好代表中文维基百科语料库的文本的特征。根据IDFmean值,只保留形容词、名词、成语、简称、习用语、处所词、时间词、状态词,这些特征词构成集合F3。记作F3={w1,w2,w3,…,wn}中每个词由词和词性两部分组成,例如w1=透过/v,w2=中国/n,这里v表示动词,n表示名词。
步骤(2.5)利用有词性标记的同义词词典,将F3中词性和词义相同的特征词合并,以减少同义词对词向量的语义度量影响。这样特征词典变为FW={Syn(w1),Syn(w2),…,Syn(wk)},其中Syn(wi)为与特征词wi同义的词的集合。具体步骤如下:
步骤(2.5.1)使用ICTCLAS分词系统对中文信息处理中常用的《同义词词林》进行分词、词性标注。
步骤(2.5.2)对分词、词性标注后的《同义词词林》进行人工修正,理论上具有相同编码的特征词应该具有相同的词性。这样做的目的是在降维的同时考虑了特征词的词性,例如“回响”有名词和动词两种词性,当它为名词时,与“回声”、“回音”具有相同的编码;当它为动词时,没有同义词。也就是说,当文本中出现动词的“回响”时就不与“回声”、“回音”合并,只有当它为名词时才与“回声”、“回音”合并。原始《同义词词林》与改进后的《同义词词林》片段分别如表1、表2。
表1原始《同义词词林》片段
Figure BDA0001274377480000061
表2改进后的《同义词词林》片段
Figure BDA0001274377480000062
步骤(4)使用向量空间模型进行概念相似性度量。
概念相似性度量转化为文本相似性度量,建立向量空间模型,利用余弦相似度量方法计算概念两两之间的相似性,如公式(3):
Figure BDA0001274377480000063
其中,ci,cj为两个概念,di,dj分别为概念ci,cj对应的文本,利用向量空间模型,则di=(wi1,wi2,…,wim),dj=(wj1,wj2,…,wjm),m为特征词个数,wxy表示文本dx中第y个特征词的权重。
步骤(5)分析实验结果。
中文维基百科的文本长短不一,一般情况下,较长的文本能对概念做出更明确的定义。因此,实验选取了来自中文维基百科中的较长的5万篇文本进行研究。
步骤(5.1)
在5万个概念中,计算每一个概念在无词性特征词典和有词性特征词典两种情况下的相似性,相似性越小,说明有词性特征词典对相似性计算有重要影响。选取相似性较小的前250个概念,在无词性特征词典和有词性特征词典两种情况下进行两两相似性度量,31125组,部分结果如表3。
表3无词性特征词典和有词性特征词典的概念相似性比较
Figure BDA0001274377480000071
通过分析表3中各组对应的特征词,得知导致相似性变化的原因是使用有词性词典时特征词发生的变化,如在概念“同意投票”中的特征词“选项”有名词和动词两种词性,使用有词性词典后只保留了名词词性,通过分析“同意投票”概念对应的文本语境,特征词“选项”只保留名词具有意义。这样就对特征词因为词性不同而产生的一词多义问题进行了修正。
步骤(5.2)
在使用有词性特征词典和有词性加同义词的特征词典两种情况下,分别得到5万个概念的特征向量维数,比较两种情况下的维数,维数变化较大的概念说明加入改进后的《同义词词林》作用较明显。选取维数变化较大的前300个概念,进行两种情况下的概念相似性度量,部分结果如表4。
表4使用有词性特征词典和有词性加同义词的特征词典的概念相似性比较
Figure BDA0001274377480000072
Figure BDA0001274377480000081
在表4中,第一组概念“中华人民共和国”和“汉族”在使用有词性特征词典的情况下,计算的相似性为0.4558,在同时使用有词性的特征词典和改进后的《同义词词林》时,计算的相似性为0.5625,两种情况下相似性改变了0.1068。可见,加入改进后的《同义词词林》影响了两个概念的相似性。分别对每个概念的特征词分析,例如概念“中华人民共和国”,它的部分特征词合并情况如表5。
表5加入改进后的《同义词词林》特征词合并情况
Figure BDA0001274377480000082
在表5中,一组同义词之间用“|”隔开,“(1)”代表该特征词只有一种含义。例如在使用有词性的特征词典,特征词“版画/n”、“壁画/n”、“年画/n”、“水彩画/n”、“水墨画/n”、“油画/n”同时出现在概念“中华人民共和国”中,频数分别为1、1、1、1、2、1,在此基础上加入改进后的《同义词词林》后,上述6个特征词合并为一个特征词“版画/n”,频数为7。因此,随着特征词维数降低,一定程度上降低了同义词对相似性度量的影响。
实验结果表明,本发明提出基于网络知识源的中文概念的词向量表示方法有效降低了一词多义和同义词问题对概念相似性度量的影响。

Claims (2)

1.一种基于网络知识源的中文概念的词向量表示方法,其特征在于,包括以下步骤:
步骤(1)知识源获取和预处理
对获取的百科知识源进行预处理,网络百科知识源中每个概念对应一个文本页面,预处理后的知识源记作G={(c1,d1),(c2,d2),…,(cn,dn)},其中,ci表示一个概念,di表示概念ci对应的预处理后的文本;
步骤(2)根据G构建语义特征词典,其包括以下步骤:
步骤(2.1)抽取G所有文本中包含词性的词,得到候选特征词词典F1
步骤(2.2)对F1中的每个特征词计算其在文本集合中的逆文本频率,即IDF(Inversedocument frequency)值,它是用于衡量特征词权重的指数,公式如下:
Figure FDA0002666097190000011
其中,N为文本总数,n为包含该特征词的文本数;
步骤(2.3)从F1中选取满足条件:n>α、IDF>β的特征词构成候选特征词词典F2,α,β为设定的阈值;
步骤(2.4)对F2中的所有特征词按词性分组,求各组词性特征词的IDF均值,公式如下:
Figure FDA0002666097190000012
其中,k为具有该词性的特征词个数,对F2中特征词进行词性过滤,只保留IDFmean>γ的词性特征词构成特征词词典F3,γ为设定的阈值,记作F3={w1,w2,w3,…,wn},w1,w2,w3,…,wn为词性特征词,每个词性特征词由词和词性两部分组成;
步骤(2.5)利用有词性标记的同义词词典,将F3中词性和词义相同的特征词合并,特征词典变为FW={Syn(w1),Syn(w2),…,Syn(wk)},其中,Syn(wi)为与特征词wi同义的词的集合;
步骤(3)构建概念的词向量表示
知识源G中每个概念的词向量用对应文本中出现的特征词构造,其词向量的每一维为特征词的权重,权重因素包括:TFIDF(Term Frequency Inverted Document Frequency)值
Figure FDA0002666097190000021
和词频对数似然比
Figure FDA0002666097190000022
设(c,d)∈G,特征词典FW={Syn(w1),Syn(w2),…,Syn(wk)},则网络百科知识源G中每个概念的词向量按照如下步骤构造:
步骤(3.1)、计算特征词wi在(c,d)中的特征权重值UW(wi,c),公式如下:
Figure FDA0002666097190000023
其中,wi为特征词,c为特征词wi的概念;
步骤(3.2)、计算特征词的同义词集合在(c,d)中的特征权重值UW(Syn(wi),c),通过计算同义词集合中每个同义词的权重值之和得到,公式如下:
UW(Syn(wi),c)=UW(wi1,c)+UW(wi2,c)+…+UW(win,c)
步骤(3.3)计算概念c的特征词向量CVec(c),向量的每一维都是一个同义词集合的特征权重值,表示形式如下:
CVec(c)=(UW(Syn(w1),c),UW(Syn(w2),c),...,UW(Syn(wk),c))。
2.如权利要求1所述的基于网络知识源的中文概念的词向量表示方法,其特征在于,TFIDF用于体现特征词在整个知识源中对概念的重要性,计算公式如下:
TFIDFw,c=WFw,d×IDFw
其中,WFw,d是特征词w在概念c对应文本d中出现的次数,(c,d)∈G;IDFw是w在IDF值;TFIDFw,c是w对于(c,d)的TFIDF值,
词频对数似然比用于体现特征词在文本中对概念的重要性,假设与概念语义相关的特征词,其在概念对应文本中出现频率要比在整个语料库中要高,计算公式如下:
Figure FDA0002666097190000024
其中,PDw为特征词w在知识源G中出现的频率,PDw,d是w在d中出现的频率,(c,d)∈G。
CN201710259663.9A 2017-04-20 2017-04-20 一种基于网络知识源的中文概念的词向量表示方法 Active CN107102983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710259663.9A CN107102983B (zh) 2017-04-20 2017-04-20 一种基于网络知识源的中文概念的词向量表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710259663.9A CN107102983B (zh) 2017-04-20 2017-04-20 一种基于网络知识源的中文概念的词向量表示方法

Publications (2)

Publication Number Publication Date
CN107102983A CN107102983A (zh) 2017-08-29
CN107102983B true CN107102983B (zh) 2020-12-04

Family

ID=59656753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710259663.9A Active CN107102983B (zh) 2017-04-20 2017-04-20 一种基于网络知识源的中文概念的词向量表示方法

Country Status (1)

Country Link
CN (1) CN107102983B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153853B (zh) 2017-12-22 2022-02-01 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置
CN108132930A (zh) * 2017-12-27 2018-06-08 曙光信息产业(北京)有限公司 特征词提取方法及装置
CN109408814B (zh) * 2018-09-30 2020-08-07 中国地质大学(武汉) 基于释义基元词的中英跨语言词汇表征学习方法及系统
CN109522563B (zh) * 2018-10-15 2023-05-23 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CN111259655B (zh) * 2019-11-07 2023-07-18 上海大学 一种基于语义的物流智能客服问题相似度计算方法
CN111709251B (zh) * 2020-06-12 2023-04-07 哈尔滨工程大学 兼具通用语义及领域语义的形式概念相似性快速度量方法
CN113158695A (zh) * 2021-05-06 2021-07-23 上海极链网络科技有限公司 一种面向多语言混合文本的语义审核方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
WO2014144905A1 (en) * 2013-03-15 2014-09-18 Highspot, Inc. Interest graph-powered feed
CN105808711A (zh) * 2016-03-04 2016-07-27 北京工业大学 一种基于文本语义的概念生成模型的系统和方法
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
WO2014144905A1 (en) * 2013-03-15 2014-09-18 Highspot, Inc. Interest graph-powered feed
CN105808711A (zh) * 2016-03-04 2016-07-27 北京工业大学 一种基于文本语义的概念生成模型的系统和方法
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《互联网文本聚类与检索技术研究》;孟宪军;《中国博士学位论文全文数据库信息科技辑》;中国学术期刊(光盘版)电子杂志社;20110515(第5期);第22-37页 *
《基于中文文本的本体学习关键技术研究》;马传宾;《中国优秀硕士学位论文全文数据库信息科技辑(月刊 )》;中国学术期刊(光盘版)电子杂志社;20170315(第3期);第13-38页 *

Also Published As

Publication number Publication date
CN107102983A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
Morita et al. Morphological analysis for unsegmented languages using recurrent neural network language model
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
KR20070027726A (ko) 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
CN106611041A (zh) 一种新的文本相似度求解方法
Dahab et al. A comparative study on Arabic stemmers
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
Hamdi et al. In-depth analysis of the impact of OCR errors on named entity recognition and linking
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN111428031B (zh) 一种融合浅层语义信息的图模型过滤方法
Abd et al. Arabic light stemmer based on ISRI stemmer
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
Shafi et al. UNLT: Urdu natural language toolkit
CN112528653B (zh) 短文本实体识别方法和系统
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
Aejas et al. Named entity recognition for cultural heritage preservation
Alami et al. DAQAS: Deep Arabic Question Answering System based on duplicate question detection and machine reading comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant