CN107562727A

CN107562727A - 一种基于贝叶斯网的短文本特征扩展方法

Info

Publication number: CN107562727A
Application number: CN201710815644.XA
Authority: CN
Inventors: 李维华; 郭延哺; 金宸; 姬晨; 邓春云; 王顺芳
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-01-09
Anticipated expiration: 2037-09-12
Also published as: CN107562727B

Abstract

本发明公开一种基于贝叶斯网的短文本特征扩展方法。首先，将文本特征词抽象为贝叶斯网的结点，用贝叶斯网的有向边定性表示特征词之间的直接依赖关系，用条件概率定量表示特征词之间的依赖程度；基于贝叶斯网的文本特征建模，对一个短文本d _i的特征词集Z，综合直接和间接的依赖关系、计算在Z条件下其它特征词t _j的后验概率p(t _j|Z)，并把该后验概率作为特征词t _j与短文本d _i之间依赖关系的度量；根据后验概率p(t _j|Z)选择与d _i依赖最大的β个特征词扩展到d _i的特征表示中，弥补短文本特征词少的不足，为特征稀疏的短文本分析提供有效支撑。

Description

一种基于贝叶斯网的短文本特征扩展方法

说明书

本发明属于人工智能、自然语言处理，涉及一种短文本特征扩展方法。

背景技术

文本的特征表示是文本分析的基础。随着移动通信技术发展，短信、微信、客户评论等短文本形式的信息成为一种重要的信息传播方式。短文本的特点是字数不多、特征词少；如何从少量的特征中获得有效的文本特征表示，并支持之上的文本分析任务成为自然语言处理领域亟待解决的关键难点之一。基于特征词及其词频的文本特征表示方法，例如向量空间模型，往往导致短文本的文本特征稀疏，而文本特征稀疏在很大程度上制约着之上的文本分析任务。基于短文本的特征扩展成为解决文本特征不足的一种有效方法。贝叶斯网(Bayesian networks, BNs)是一种有效的不确定性知识表示工具，同时也为知识推理提供多种有效的方法。本发明利用贝叶斯网强大的知识表示和建模能力，根据短文本特征之间的直接定量关系，对短文本特征之间的关系通过贝叶斯网的结构和参数进行表示和建模。基于贝叶斯网的短文本特征表示，对特征之间的非直接的依赖关系进行估计，完成短文本特征的扩展，弥补短文本特征稀疏的不足，为短文本分析提供支持。

发明内容

本发明利用贝叶斯网对知识的表示能力对短文本特征词之间的依赖关系以及依赖程度进行建模，再利用贝叶斯网的推理能力对特征之间的非直接的依赖关系进行估计，完成对短文本特征的扩展。整个过程包括以下四个步骤：

步骤一：对短文本进行基本的预处理，得到后续步骤需要的量化指标

1.1、对n个短文本集合D={d ₁,d ₂,…,d _n}，提取m个特征词集T={t ₁,t ₂,…,t _m}；

1.2、用每个短文本d _i的特征词集{t _i1,t _i2,…,t _iα}以及对应的词频对d _i进行建模，将d _i表示为(f _i1,f _i2,…,f _iα)，f _ij表示特征词t _ij在短文本d _i中出现的频数；

1.3、定义特征词文档频度函数c(x)表示特征词x出现的文档频数，其中x表示特征词序列，表示文档中出现的和不出现的特征词组合序列，对特征词w∈T，w=1表示关键词w出现在文档中，w=0表示关键词w不出现在文档中；

步骤二：给出定量度量特征词之间的依赖的方法，并计算两两特征词之间的依赖程度；

对T中任意特征词u和v，定义u和v的依赖度

；

步骤三：基于贝叶斯网，对n个短文本集合D={d ₁,d ₂,…,d _n}特征词之间的关系进行建模，建立m个节点的贝叶斯网结构G和参数P；

3.1、将T={t ₁,t ₂,…,t _m}中的每一个特征词抽象为G中的一个节点，每个节点的取值空间为{0,1}，分别表示特征词不出现和出现；

3.2、依次检查两两特征词之间的依赖度I(u,v)，如果I(u,v)≥ε，则在u和v之间加一条无向边u―v；最后得到无向图G′，其中ε>0是控制贝叶斯网的网络结构的阀值；

3.3、对无向图G′中的每一条无向边u―v，计算

，，如果p(v|u)>p(u|v)，则置u→v；如果p(v|u)=p(u|v)，则在不产生环的条件下置u→v或u←v，最后得到有向无环图G；

步骤四：基于贝叶斯网(G,P)对短文本d _i进行特征扩展

4.1、对于词集为Z={t _i1,t _i2,…,t _iα}的短文本d _i，对每个t _j∈T计算后验概率θ _ij=p(t ₆=1|t _i1=1,t _i2=1,…,t _iα=1)；

4.2、用后验概率最大的β个特征词{γ ₁,γ ₂,…,γ _β}扩展d _i得到新的词集{t _i1,t _i2,…,t _iα， γ ₁,γ ₂,…,γ _β}以及对应的向量(f _i1,f _i2,…,f _iα,θ _i1,θ _i2,…,θ _iβ)，其中β>0是控制扩展特征的数量。

附图说明

图1.基于贝叶斯网的短文本特征建模。

具体实施方式

以下结合附图1，对依据本发明提供的具体实施方式，详细说明如下。

第一步：对短文本进行基本的预处理，得到后续步骤需要的量化指标；

例如，短文本d ₁的特征词集为{t ₁,t ₂,t ₃}，则短文本d ₁表示为(1,2,1)；

例如n=100时，统计到的某两个特征词t ₁和t ₂的文档频度可为c(t ₁ =1,t ₂ =1)=20，c(t ₁ =1,t ₂ =0)=20，c(t ₁ =0,t ₂ =1)=10，c(t ₁ =0,t ₂ =0)=50，c(t ₁ =1)=40，c(t ₁ =0)=60，c(t ₂ =1)=30，c(t ₂ =0)=70。

第二步：定量度量并计算特征词之间的依赖；

对T中任意特征词u和v，定义u和v的依赖度

；

例如，按照第一步中统计的词频I(t ₁,t ₂)=1.415；

第三步：建立m个节点的贝叶斯网结构G和参数P；

例如，图1(a)所示的无向图G′对应的特征词集T={t ₁,t ₂,t ₃,t ₄,t ₅}

3.2、依次检查两两特征词之间的依赖度I(u,v)，如果I(u,v)≥ε且ε>0，则在u和v之间加一条无向边u―v；最后得到无向图G′；

3.3、对无向图G′中的每一条无向边u―v，计算

3.4、对G中的每一个节点u，计算在其父节点pa(u)条件下的条件概率表p(u|pa(u))；

例如，图1(b)所示的(G,P)就是某个短文本集合上特征集T={t ₁,t ₂,t ₃,t ₄,t ₅}的贝叶斯网；t ₂节点的条件概率表包括p(t ₂=1|t ₁=1)，p(t ₂=0|t ₁=1)，p(t ₂=1|t ₁=0)，p(t ₂=0|t ₁=0)；

第四步：基于贝叶斯网(G,P)对短文本d _i进行特征扩展；

4.1、对于词集为Z={t _i1,t _i2,…,t _iα}的短文本d _i，对每个t _j∈T计算后验概率；θ _ij=p(t ₆=1|t _i1=1,t _i2=1,…,t _iα=1)；

例如，短文本d ₁的特征词集为{t ₁,t ₂,t ₃}，在图1(b)所示的贝叶斯网(G,P)中计算

p(t ₄=1|t ₁=1,t ₂=1,t ₃=1)

同理可以计算p(t ₅=1|t ₁=1,t ₂=1,t ₃=1)，p(t ₆=1|t ₁=1,t ₂=1,t ₃=1)，p(t ₇=1|t ₁=1,t ₂=1,t ₃=1)；

4.2、用后验概率最大的β个特征词{γ ₁,γ ₂,…,γ _β}扩展d _i得到新的词集{t _i1,t _i2,…,t _iα， γ ₁,γ ₂,…,γ _β}以及对应的文本表示(f _i1,f _i2,…,f _iα,θ _i1,θ _i2,…,θ _iβ)，其中β>0。

例如，如果β=1，p(t ₆=1|t ₁=1,t ₂=1,t ₃=1)=0.54最大，则短文本d ₁的特征词集扩展为{t ₁,t ₂,t ₃,t ₆}对应的特征值为(1,2,1,0.54)。

Claims

1.一种基于贝叶斯网的短文本特征扩展方法，该方法的特征在于包括以下步骤：

步骤一：短文本预处理；

1.2、用每个短文本d _i的特征词集{t _i1,t _i2,…,t _iα}以及对应的词频对d _i进行建模，将d _i表示为(f _i1,f _i2,…,f _iα)，其中f _ij表示特征词t _ij在短文本d _i中出现的频数；

1.3、定义特征词的文档频度函数c(x)表示特征词x出现的文档频数，其中x表示特征词序列，表示文档中出现的和不出现的特征词组合序列；对特征词w∈T，w=1表示关键词w出现在文档中，w=0表示关键词w不出现在文档中；

步骤二：定量度量特征词之间的依赖；

对T中任意特征词u和v，定义u和v的依赖度

；

步骤三：建立m个节点的贝叶斯网结构G和参数P；

3.3、对无向图G′中的每一条无向边u―v，计算

步骤四：基于贝叶斯网(G,P)对短文本d _i进行特征扩展；

4.1、对于特征集为Z={t _i1,t _i2,…,t _iα}的短文本d _i，对每t _j∈T计算后验概率θ _ij=p(t ₆=1|t _i1=1,t _i2=1,…,t _iα=1)；

4.2、用后验概率最大的β个特征{γ ₁,γ ₂,…,γ _β}扩展d _i得到新的特征集{t _i1,t _i2,…,t _iα， γ ₁,γ ₂,…,γ _β}以及对应的向量(f _i1,f _i2,…,f _iα,θ _i1,θ _i2,…,θ _iβ)，其中β>0。