CN107423438A - 一种基于pgm的问题分类方法 - Google Patents

一种基于pgm的问题分类方法 Download PDF

Info

Publication number
CN107423438A
CN107423438A CN201710662820.0A CN201710662820A CN107423438A CN 107423438 A CN107423438 A CN 107423438A CN 201710662820 A CN201710662820 A CN 201710662820A CN 107423438 A CN107423438 A CN 107423438A
Authority
CN
China
Prior art keywords
probability
classification
probability graph
sorting technique
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710662820.0A
Other languages
English (en)
Inventor
王春辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yyi (beijing) Technology Co Ltd
Original Assignee
Yyi (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yyi (beijing) Technology Co Ltd filed Critical Yyi (beijing) Technology Co Ltd
Priority to CN201710662820.0A priority Critical patent/CN107423438A/zh
Publication of CN107423438A publication Critical patent/CN107423438A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于PGM的问题分类方法,包括建模和推理两个阶段,第一个阶段中,手工分类训练数据集,并将已分类的标记数据集带入概率图模型,构建有向无环网网络结构,计算各观测节点的先验概率和条件概率,得到模型条件概率分布;第二个阶段中,根据已有网络结构及CPD,基于Gibbs算法进行贝叶斯推理,进而得到问题分类,本发明的有益效果是:建立概率图模型,并利用训练数据对模型进行训练,用训练好的模型进行问题分类,与现有问题分类算法相比,该方法既有基于规则问题分类方法解释性强的特点,又具有基于机器学习问题不依赖专家知识,自动学习的优势。

Description

一种基于PGM的问题分类方法
技术领域
本发明涉及一种分类方法,具体为一种基于PGM的问题分类方法,属于计算机软件领域。
背景技术
随着信息技术突飞猛进的发展,信息检索的形式从原始的关键词检索发展到基于问答形式的检索,相应的应用比如百度知道、搜搜问问、知乎等问答社区发展迅速,问答系统以用户自然语言作为输入,根据一定规则,从大规模文档集合中提取用户所提问题的可能答案,问答系统具体涉及问题分类、信息检索和答案抽取三个部分,其中问题分类负责限定答案空间、选择答案策略;信息检索根据问题中的关键词在文档集合中搜索可能的结果;答案抽取根据问题分类的限定和信息检索的结果,寻找适合的答案作为问答系统的响应返回给用户,其中的问题分类过程对之后的答案抽取有重要的指导意义,好的问题分类性能会使得问答系统整体准确性有很大幅度提升,与此相反,问题分类性能不好,会直接影响后续答案抽取的结果,有文献指出,问答系统中36.4%的错误来自于问题分类过程。因此,对问题分类的研究对问答系统有重要价值。
问题分类在一般意义上来说属于分类问题,可以借鉴经典的分类算法,例如最小距离分类器、K-means分类、朴素贝叶斯分类、支持向量机分类等,而问题分类由于其特殊的应用场景,又有别于普通分类问题,对于问题分类的现有研究主要基于两种算法:基于规则的分类方法、基于机器学习的分类方法。
基于规则的问题分类方法利用专家知识给每个问题类型预设一组规则,当待解决问题符合这些规则时,判定该问题属于该类别,该方法有较高的准确性和针对性,解释性强,但主要缺点是人工建立和维护规则库的工作量很大,依赖于专家知识,灵活性差。
基于机器学习的问题分类方法建立分类模型,并通过训练数据集训练得到模型参数,进而利用该模型对未知类型问题进行分类。该方法一般涉及SVM、朴素贝叶斯、最大熵等算法,方法具有很强的适应性及很好的性能,是现在主流的问题分类方法。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于PGM的问题分类方法。
本发明通过以下技术方案来实现上述目的:一种基于PGM的问题分类方法,包括建模和推理;所述建模通过手工分类训练数据集,并将已分类的标记数据集带入概率图模型,构建有向无环网(DAG)网络结构,计算各观测节点的先验概率和条件概率,得到模型条件概率分布(CPD),所述推理根据已有网络结构及CPD,基于Gibbs算法进行贝叶斯推理,进而得到问题分类。
优选的,步骤A,分词并筛选,用中科院NLPIR汉语分词系统对数据集中的语句进行分词处理,其分词正确率可以达到97.58%,分词后去除其中的助动词、语气词、连接词等虚词;
步骤B,问题分类体系,根据对数据集中数据的分析,并结合现有分类方法的经验,将数据分为6个大类,73个小类;
步骤C,构建概率图模型,构建概率图G,其中G=<U,V>,U是节点的集合,每个节点代表一个词语或者一个分类,V是边的集合,每条有向边代表一个句子中两个词的前后关系,边上的值代表该边对应的前后关系组合出现的次数;
步骤D,基于贝叶斯推理的分类方法,上述步骤利用训练数据集,构建了概率图模型DAG结构并得到了条件概率分布CPD,至此完成了模型构建阶段任务,将待分类数据代入概率图模型并根据概率理论推测某种情况出现的概率,是推理阶段需要完成的任务。
优选的,所述步骤A中,避免将每个语句中的词都加入概率图中,对分词之后的结果进行计数,计算每个词的TF值,设定TF超过一定阈值的词参与构建概率图网络。
优选的,所述步骤B中,具体分类过程进行两个概率图模型的训练,一个是基于6个大类的概率图模型,一个是基于73个小类的概率图模型。
优选的,所述步骤C中,根据训练数据集中标记的分类结果,计算各个分类的先验概率,并且根据概率图G中各个有向边的连接关系和权值计算各词对各个分类的条件概率以及词之间的条件概率,从而得到概率图模型的DAG结构和条件概率分布CPD。
优选的,所述步骤D中,贝叶斯推理的分类包括Gibbs采样和概率图模型的贝叶斯推理过程,Gibbs采样其过程可假设系统由n个变量组成,不妨定义系统状态X(x1,x2,…,xn),并且对于任何一个变量xi,都能直接从条件分布p(xi|x1,x2,…,xi-1,xi+1,…xn)中为其采样,贝叶斯推理过程以待分类问题分词作为输入,将分类为输出,将概率图模型中其他节点作为非证据节点进行随机采样,通过计算概率图中节点的条件概率,更新各个节点状态,直到达到系统规定的采样阈值次数,进而计算各个分类的概率值,根据最大后验概率假设,选择概率值最大的一个分类作为输入问题的分类结果。
本发明的有益效果是:该基于PGM的问题分类方法设计合理,建立概率图模型,并利用训练数据对模型进行训练,用训练好的模型进行问题分类,与现有问题分类算法相比,该方法既有基于规则问题分类方法解释性强的特点,又具有基于机器学习问题不依赖专家知识,自动学习的优势。
附图说明
图1为本发明基于PGM的问题分类示意图;
图2为本发明概率图构建流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和2,一种基于PGM的问题分类方法,包括建模和推理;所述建模通过手工分类训练数据集,并将已分类的标记数据集带入概率图模型,构建有向无环网(DAG)网络结构,计算各观测节点的先验概率和条件概率,得到模型条件概率分布(CPD),所述推理根据已有网络结构及CPD,基于Gibbs算法进行贝叶斯推理,进而得到问题分类。
一种基于PGM的问题分类方法,具体包括以下步骤。
步骤A,分词并筛选,用中科院NLPIR汉语分词系统对数据集中的语句进行分词处理,其分词正确率可以达到97.58%,分词后去除其中的助动词、语气词、连接词等虚词;
步骤B,问题分类体系,根据对数据集中数据的分析,并结合现有分类方法的经验,将数据分为6个大类,73个小类;
步骤C,构建概率图模型,构建概率图G,其中G=<U,V>,U是节点的集合,每个节点代表一个词语或者一个分类,V是边的集合,每条有向边代表一个句子中两个词的前后关系,边上的值代表该边对应的前后关系组合出现的次数;
步骤D,基于贝叶斯推理的分类方法,上述步骤利用训练数据集,构建了概率图模型DAG结构并得到了条件概率分布CPD,至此完成了模型构建阶段任务,将待分类数据代入概率图模型并根据概率理论推测某种情况出现的概率,是推理阶段需要完成的任务。
其中,所述步骤A中,避免将每个语句中的词都加入概率图中,对分词之后的结果进行计数,计算每个词的TF值,设定TF超过一定阈值的词参与构建概率图网络,所述步骤B中,具体分类过程进行两个概率图模型的训练,一个是基于6个大类的概率图模型,一个是基于73个小类的概率图模型,具体定义如下表所示:
所述步骤C中,根据训练数据集中标记的分类结果,计算各个分类的先验概率,并且根据概率图G中各个有向边的连接关系和权值计算各词对各个分类的条件概率以及词之间的条件概率,从而得到概率图模型的DAG结构和条件概率分布CPD,所述步骤D中,贝叶斯推理的分类包括Gibbs采样和概率图模型的贝叶斯推理过程,Gibbs采样其过程可假设系统由n个变量组成,不妨定义系统状态X(x1,x2,…,xn),并且对于任何一个变量xi,都能直接从条件分布p(xi|x1,x2,…,xi-1,xi+1,…xn)中为其采样,贝叶斯推理过程以待分类问题分词作为输入,将分类为输出,将概率图模型中其他节点作为非证据节点进行随机采样,通过计算概率图中节点的条件概率,更新各个节点状态,直到达到系统规定的采样阈值次数,进而计算各个分类的概率值,根据最大后验概率假设,选择概率值最大的一个分类作为输入问题的分类结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于PGM的问题分类方法,其特征在于:包括建模和推理;所述建模通过手工分类训练数据集,并将已分类的标记数据集带入概率图模型,构建有向无环网网络结构,计算各观测节点的先验概率和条件概率,得到模型条件概率分布,所述推理根据已有网络结构及CPD,基于Gibbs算法进行贝叶斯推理,进而得到问题分类。
2.根据权利要求1所述的一种基于PGM的问题分类方法,其特征在于包括以下步骤。
步骤A,分词并筛选,用中科院NLPIR汉语分词系统对数据集中的语句进行分词处理,其分词正确率可以达到97.58%,分词后去除其中的助动词、语气词、连接词等虚词;
步骤B,问题分类体系,根据对数据集中数据的分析,并结合现有分类方法的经验,将数据分为6个大类,73个小类;
步骤C,构建概率图模型,构建概率图G,其中G=<U,V>,U是节点的集合,每个节点代表一个词语或者一个分类,V是边的集合,每条有向边代表一个句子中两个词的前后关系,边上的值代表该边对应的前后关系组合出现的次数;
步骤D,基于贝叶斯推理的分类方法,上述步骤利用训练数据集,构建了概率图模型DAG结构并得到了条件概率分布CPD,至此完成了模型构建阶段任务,将待分类数据代入概率图模型并根据概率理论推测某种情况出现的概率,是推理阶段需要完成的任务。
3.根据权利要求2所述的一种基于PGM的问题分类方法,其特征在于:所述步骤A中,避免将每个语句中的词都加入概率图中,对分词之后的结果进行计数,计算每个词的TF值,设定TF超过一定阈值的词参与构建概率图网络。
4.根据权利要求1所述的一种基于PGM的问题分类方法,其特征在于:所述步骤B中,具体分类过程进行两个概率图模型的训练,一个是基于6个大类的概率图模型,一个是基于73个小类的概率图模型。
5.根据权利要求1所述的一种基于PGM的问题分类方法,其特征在于:所述步骤C中,根据训练数据集中标记的分类结果,计算各个分类的先验概率,并且根据概率图G中各个有向边的连接关系和权值计算各词对各个分类的条件概率以及词之间的条件概率,从而得到概率图模型的DAG结构和条件概率分布CPD。
6.根据权利要求1所述的一种基于PGM的问题分类方法,其特征在于:所述步骤D中,贝叶斯推理的分类包括Gibbs采样和概率图模型的贝叶斯推理过程,Gibbs采样其过程可假设系统由n个变量组成,不妨定义系统状态X(x1,x2,…,xn),并且对于任何一个变量xi,都能直接从条件分布p(xi|x1,x2,…,xi-1,xi+1,…xn)中为其采样,贝叶斯推理过程以待分类问题分词作为输入,将分类为输出,将概率图模型中其他节点作为非证据节点进行随机采样,通过计算概率图中节点的条件概率,更新各个节点状态,直到达到系统规定的采样阈值次数,进而计算各个分类的概率值,根据最大后验概率假设,选择概率值最大的一个分类作为输入问题的分类结果。
CN201710662820.0A 2017-08-04 2017-08-04 一种基于pgm的问题分类方法 Pending CN107423438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710662820.0A CN107423438A (zh) 2017-08-04 2017-08-04 一种基于pgm的问题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710662820.0A CN107423438A (zh) 2017-08-04 2017-08-04 一种基于pgm的问题分类方法

Publications (1)

Publication Number Publication Date
CN107423438A true CN107423438A (zh) 2017-12-01

Family

ID=60437402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710662820.0A Pending CN107423438A (zh) 2017-08-04 2017-08-04 一种基于pgm的问题分类方法

Country Status (1)

Country Link
CN (1) CN107423438A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191354A (zh) * 2018-08-21 2019-01-11 安徽讯飞智能科技有限公司 一种基于自然语言处理的全民社管任务分发方法
CN112182218A (zh) * 2020-09-30 2021-01-05 中国平安财产保险股份有限公司 文本数据的分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220892A1 (en) * 2003-04-29 2004-11-04 Ira Cohen Learning bayesian network classifiers using labeled and unlabeled data
CN1804829A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种中文问题的语义分类方法
CN105183808A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种问题分类方法及装置
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220892A1 (en) * 2003-04-29 2004-11-04 Ira Cohen Learning bayesian network classifiers using labeled and unlabeled data
CN1804829A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种中文问题的语义分类方法
CN105183808A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种问题分类方法及装置
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐建民: "一种用于结构化文档检索的贝叶斯网络", 《计算机工程》 *
殷复莲: "基于贝叶斯分类的大学生关注热点事件微博文本分类方法研究", 《软件导刊》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191354A (zh) * 2018-08-21 2019-01-11 安徽讯飞智能科技有限公司 一种基于自然语言处理的全民社管任务分发方法
CN112182218A (zh) * 2020-09-30 2021-01-05 中国平安财产保险股份有限公司 文本数据的分类方法及装置

Similar Documents

Publication Publication Date Title
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN106407406B (zh) 一种文本处理方法和系统
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN110019770A (zh) 训练分类模型的方法与装置
CN107515877A (zh) 敏感主题词集的生成方法和装置
WO2022126810A1 (zh) 文本聚类方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
Xiaomei et al. Microblog sentiment analysis with weak dependency connections
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN104331498A (zh) 一种对互联网用户访问的网页内容自动分类的方法
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN108509425A (zh) 一种基于新颖度的中文新词发现方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
Lin et al. Machine learning templates for QCD factorization in the search for physics beyond the standard model
CN103927302A (zh) 一种文本分类方法和系统
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
Wang et al. A machine learning analysis of Twitter sentiment to the Sandy Hook shootings
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN107145516A (zh) 一种文本聚类方法及系统
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171201

RJ01 Rejection of invention patent application after publication