CN107562727A - 一种基于贝叶斯网的短文本特征扩展方法 - Google Patents
一种基于贝叶斯网的短文本特征扩展方法 Download PDFInfo
- Publication number
- CN107562727A CN107562727A CN201710815644.XA CN201710815644A CN107562727A CN 107562727 A CN107562727 A CN 107562727A CN 201710815644 A CN201710815644 A CN 201710815644A CN 107562727 A CN107562727 A CN 107562727A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature words
- short text
- bayesian network
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于贝叶斯网的短文本特征扩展方法。首先,将文本特征词抽象为贝叶斯网的结点,用贝叶斯网的有向边定性表示特征词之间的直接依赖关系,用条件概率定量表示特征词之间的依赖程度;基于贝叶斯网的文本特征建模,对一个短文本d i 的特征词集Z,综合直接和间接的依赖关系、计算在Z条件下其它特征词t j 的后验概率p(t j |Z),并把该后验概率作为特征词t j 与短文本d i 之间依赖关系的度量;根据后验概率p(t j |Z)选择与d i 依赖最大的β个特征词扩展到d i 的特征表示中,弥补短文本特征词少的不足,为特征稀疏的短文本分析提供有效支撑。
Description
说明书
本发明属于人工智能、自然语言处理,涉及一种短文本特征扩展方法。
背景技术
文本的特征表示是文本分析的基础。随着移动通信技术发展,短信、微信、客户评论等短文本形式的信息成为一种重要的信息传播方式。短文本的特点是字数不多、特征词少;如何从少量的特征中获得有效的文本特征表示,并支持之上的文本分析任务成为自然语言处理领域亟待解决的关键难点之一。基于特征词及其词频的文本特征表示方法,例如向量空间模型,往往导致短文本的文本特征稀疏,而文本特征稀疏在很大程度上制约着之上的文本分析任务。基于短文本的特征扩展成为解决文本特征不足的一种有效方法。贝叶斯网(Bayesian networks, BNs)是一种有效的不确定性知识表示工具,同时也为知识推理提供多种有效的方法。本发明利用贝叶斯网强大的知识表示和建模能力,根据短文本特征之间的直接定量关系,对短文本特征之间的关系通过贝叶斯网的结构和参数进行表示和建模。基于贝叶斯网的短文本特征表示,对特征之间的非直接的依赖关系进行估计,完成短文本特征的扩展,弥补短文本特征稀疏的不足,为短文本分析提供支持。
发明内容
本发明利用贝叶斯网对知识的表示能力对短文本特征词之间的依赖关系以及依赖程度进行建模,再利用贝叶斯网的推理能力对特征之间的非直接的依赖关系进行估计,完成对短文本特征的扩展。整个过程包括以下四个步骤:
步骤一:对短文本进行基本的预处理,得到后续步骤需要的量化指标
1.1、对n个短文本集合D={d 1,d 2,…,d n },提取m个特征词集T={t 1,t 2,…,t m };
1.2、用每个短文本d i 的特征词集{t i1,t i2,…,t iα }以及对应的词频对d i 进行建模,将d i 表示为(f i1,f i2,…,f iα ),f ij 表示特征词t ij 在短文本d i 中出现的频数;
1.3、定义特征词文档频度函数c(x)表示特征词x出现的文档频数,其中x表示特征词序列,表示文档中出现的和不出现的特征词组合序列,对特征词w∈T,w=1表示关键词w出现在文档中,w=0表示关键词w不出现在文档中;
步骤二:给出定量度量特征词之间的依赖的方法,并计算两两特征词之间的依赖程度;
对T中任意特征词u和v,定义u和v的依赖度
;
步骤三:基于贝叶斯网,对n个短文本集合D={d 1,d 2,…,d n }特征词之间的关系进行建模,建立m个节点的贝叶斯网结构G和参数P;
3.1、将T={t 1,t 2,…,t m }中的每一个特征词抽象为G中的一个节点,每个节点的取值空间为{0,1},分别表示特征词不出现和出现;
3.2、依次检查两两特征词之间的依赖度I(u,v),如果I(u,v)≥ε,则在u和v之间加一条无向边u―v;最后得到无向图G′,其中ε>0是控制贝叶斯网的网络结构的阀值;
3.3、对无向图G′中的每一条无向边u―v,计算
,,如果p(v|u)>p(u|v),则置u→v;如果p(v|u)=p(u|v),则在不产生环的条件下置u→v或u←v,最后得到有向无环图G;
3.4、对G中的每一个节点u,计算在其父节点pa(u)条件下的条件概率表p(u|pa(u)),包括:p(u=1|pa(u)=1)=c(u=1,pa(u)=1)/c(pa(u)=1),p(u=0|pa(u)=1)=c(u=0,pa(u)=1)/c(pa(u)=1),p(u=1|pa(u)=0)=c(u=1,pa(u)=0)/c(pa(u)=0),p(u=0|pa(u)=0)=c(u=0,pa(u)=0)/c(pa(u)=0);
步骤四:基于贝叶斯网(G,P)对短文本d i 进行特征扩展
4.1、对于词集为Z={t i1,t i2,…,t iα }的短文本d i ,对每个t j ∈T计算后验概率θ ij =p(t 6=1|t i1=1,t i2=1,…,t iα =1);
4.2、用后验概率最大的β个特征词{γ 1,γ 2,…,γ β }扩展d i 得到新的词集{t i1,t i2,…,t iα, γ 1,γ 2,…,γ β }以及对应的向量(f i1,f i2,…,f iα ,θ i1,θ i2,…,θ iβ ),其中β>0是控制扩展特征的数量。
附图说明
图1.基于贝叶斯网的短文本特征建模。
具体实施方式
以下结合附图1,对依据本发明提供的具体实施方式,详细说明如下。
第一步:对短文本进行基本的预处理,得到后续步骤需要的量化指标;
1.1、对n个短文本集合D={d 1,d 2,…,d n },提取m个特征词集T={t 1,t 2,…,t m };
1.2、用每个短文本d i 的特征词集{t i1,t i2,…,t iα }以及对应的词频对d i 进行建模,将d i 表示为(f i1,f i2,…,f iα ),f ij 表示特征词t ij 在短文本d i 中出现的频数;
例如,短文本d 1的特征词集为{t 1,t 2,t 3},则短文本d 1表示为(1,2,1);
1.3、定义特征词文档频度函数c(x)表示特征词x出现的文档频数,其中x表示特征词序列,表示文档中出现的和不出现的特征词组合序列,对特征词w∈T,w=1表示关键词w出现在文档中,w=0表示关键词w不出现在文档中;
例如n=100时,统计到的某两个特征词t 1和t 2的文档频度可为c(t 1 =1,t 2 =1)=20,c(t 1 =1,t 2 =0)=20,c(t 1 =0,t 2 =1)=10,c(t 1 =0,t 2 =0)=50,c(t 1 =1)=40,c(t 1 =0)=60,c(t 2 =1)=30,c(t 2 =0)=70。
第二步:定量度量并计算特征词之间的依赖;
对T中任意特征词u和v,定义u和v的依赖度
;
例如,按照第一步中统计的词频I(t 1,t 2)=1.415;
第三步:建立m个节点的贝叶斯网结构G和参数P;
3.1、将T={t 1,t 2,…,t m }中的每一个特征词抽象为G中的一个节点,每个节点的取值空间为{0,1},分别表示特征词不出现和出现;
例如,图1(a)所示的无向图G′对应的特征词集T={t 1,t 2,t 3,t 4,t 5 }
3.2、依次检查两两特征词之间的依赖度I(u,v),如果I(u,v)≥ε且ε>0,则在u和v之间加一条无向边u―v;最后得到无向图G′;
3.3、对无向图G′中的每一条无向边u―v,计算
,,如果p(v|u)>p(u|v),则置u→v;如果p(v|u)=p(u|v),则在不产生环的条件下置u→v或u←v,最后得到有向无环图G;
3.4、对G中的每一个节点u,计算在其父节点pa(u)条件下的条件概率表p(u|pa(u));
例如,图1(b)所示的(G,P)就是某个短文本集合上特征集T={t 1,t 2,t 3,t 4,t 5 }的贝叶斯网;t 2节点的条件概率表包括p(t 2=1|t 1=1),p(t 2=0|t 1=1),p(t 2=1|t 1=0),p(t 2=0|t 1=0);
第四步:基于贝叶斯网(G,P)对短文本d i 进行特征扩展;
4.1、对于词集为Z={t i1,t i2,…,t iα }的短文本d i ,对每个t j ∈T计算后验概率;θ ij =p(t 6=1|t i1=1,t i2=1,…,t iα =1);
例如,短文本d 1的特征词集为{t 1,t 2,t 3},在图1(b)所示的贝叶斯网(G,P)中计算
p(t 4=1|t 1=1,t 2=1,t 3=1)
同理可以计算p(t 5=1|t 1=1,t 2=1,t 3=1),p(t 6=1|t 1=1,t 2=1,t 3=1),p(t 7=1|t 1=1,t 2=1,t 3=1);
4.2、用后验概率最大的β个特征词{γ 1,γ 2,…,γ β }扩展d i 得到新的词集{t i1,t i2,…,t iα, γ 1,γ 2,…,γ β }以及对应的文本表示(f i1,f i2,…,f iα ,θ i1,θ i2,…,θ iβ ),其中β>0。
例如,如果β=1,p(t 6=1|t 1=1,t 2=1,t 3=1)=0.54最大,则短文本d 1的特征词集扩展为{t 1,t 2,t 3,t 6}对应的特征值为(1,2,1,0.54)。
Claims (1)
1.一种基于贝叶斯网的短文本特征扩展方法,该方法的特征在于包括以下步骤:
步骤一:短文本预处理;
1.1、对n个短文本集合D={d 1,d 2,…,d n },提取m个特征词集T={t 1,t 2,…,t m };
1.2、用每个短文本d i 的特征词集{t i1,t i2,…,t iα }以及对应的词频对d i 进行建模,将d i 表示为(f i1,f i2,…,f iα ),其中f ij 表示特征词t ij 在短文本d i 中出现的频数;
1.3、定义特征词的文档频度函数c(x)表示特征词x出现的文档频数,其中x表示特征词序列,表示文档中出现的和不出现的特征词组合序列;对特征词w∈T,w=1表示关键词w出现在文档中,w=0表示关键词w不出现在文档中;
步骤二:定量度量特征词之间的依赖;
对T中任意特征词u和v,定义u和v的依赖度
;
步骤三:建立m个节点的贝叶斯网结构G和参数P;
3.1、将T={t 1,t 2,…,t m }中的每一个特征词抽象为G中的一个节点,每个节点的取值空间为{0,1},分别表示特征词不出现和出现;
3.2、依次检查两两特征词之间的依赖度I(u,v),如果I(u,v)≥ε且ε>0,则在u和v之间加一条无向边u―v;最后得到无向图G′;
3.3、对无向图G′中的每一条无向边u―v,计算
,,如果p(v|u)>p(u|v),则置u→v;如果p(v|u)=p(u|v),则在不产生环的条件下置u→v或u←v,最后得到有向无环图G;
3.4、对G中的每一个节点u,计算在其父节点pa(u)条件下的条件概率表p(u|pa(u));
步骤四:基于贝叶斯网(G,P)对短文本d i 进行特征扩展;
4.1、对于特征集为Z={t i1,t i2,…,t iα }的短文本d i ,对每t j ∈T计算后验概率θ ij =p(t 6=1|t i1=1,t i2=1,…,t iα =1);
4.2、用后验概率最大的β个特征{γ 1,γ 2,…,γ β }扩展d i 得到新的特征集{t i1,t i2,…,t iα, γ 1,γ 2,…,γ β }以及对应的向量(f i1,f i2,…,f iα ,θ i1,θ i2,…,θ iβ ),其中β>0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710815644.XA CN107562727B (zh) | 2017-09-12 | 2017-09-12 | 一种基于贝叶斯网的短文本特征扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710815644.XA CN107562727B (zh) | 2017-09-12 | 2017-09-12 | 一种基于贝叶斯网的短文本特征扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562727A true CN107562727A (zh) | 2018-01-09 |
CN107562727B CN107562727B (zh) | 2020-10-23 |
Family
ID=60980565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710815644.XA Active CN107562727B (zh) | 2017-09-12 | 2017-09-12 | 一种基于贝叶斯网的短文本特征扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562727B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763203A (zh) * | 2018-05-18 | 2018-11-06 | 大连民族大学 | 影评情感分析中使用特征词集将影评以特征向量表示的方法 |
CN112148841A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794303A (zh) * | 2010-02-11 | 2010-08-04 | 重庆邮电大学 | 采用特征扩展分类文本及构造文本分类器的方法和装置 |
CN104933183B (zh) * | 2015-07-03 | 2018-02-06 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN106055604B (zh) * | 2016-05-25 | 2019-08-27 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
-
2017
- 2017-09-12 CN CN201710815644.XA patent/CN107562727B/zh active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763203A (zh) * | 2018-05-18 | 2018-11-06 | 大连民族大学 | 影评情感分析中使用特征词集将影评以特征向量表示的方法 |
CN112148841A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN112148841B (zh) * | 2020-09-30 | 2024-04-19 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107562727B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874914B (zh) | 一种基于图卷积与神经协同过滤的信息推荐方法 | |
CN111563164A (zh) | 一种基于图神经网络的特定目标情感分类方法 | |
CN109615452B (zh) | 一种基于矩阵分解的产品推荐方法 | |
Arsov et al. | Network embedding: An overview | |
CN111611472A (zh) | 一种基于图卷积神经网络的捆绑推荐方法及系统 | |
CN104077417B (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN111125530A (zh) | 一种基于多类型特征深度学习的信息流推荐方法 | |
CN104731962A (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
WO2018000281A1 (zh) | 一种基于深度神经网络的用户画像表示学习系统及方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN109740057A (zh) | 一种基于知识萃取的增强神经网络及信息推荐方法 | |
CN111259154A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN110263236A (zh) | 基于动态多视图学习模型的社交网络用户多标签分类方法 | |
CN107562727A (zh) | 一种基于贝叶斯网的短文本特征扩展方法 | |
CN108536844A (zh) | 一种文本增强的网络表示学习方法 | |
CN110909172A (zh) | 一种基于实体距离的知识表示学习方法 | |
CN108920448A (zh) | 一种基于长短期记忆网络的比较关系抽取的方法 | |
CN105446954A (zh) | 一种面向科技大数据的项目查重方法 | |
CN112948696B (zh) | 具有隐私保护功能的跨域医疗保健设备推荐方法及系统 | |
Guerrero et al. | Attracting complex networks | |
CN111460275B (zh) | 一种面向社交网络的动态网络表示学习方法及系统 | |
CN109635183A (zh) | 一种基于社区的合作者推荐方法 | |
CN112131486B (zh) | 基于图卷积神经网络的电商网络平台用户社区发现方法 | |
CN111091475B (zh) | 一种基于非负矩阵分解的社交网络特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |