CN111353032B - 面向社区问答的问题分类方法及系统 - Google Patents
面向社区问答的问题分类方法及系统 Download PDFInfo
- Publication number
- CN111353032B CN111353032B CN202010122754.XA CN202010122754A CN111353032B CN 111353032 B CN111353032 B CN 111353032B CN 202010122754 A CN202010122754 A CN 202010122754A CN 111353032 B CN111353032 B CN 111353032B
- Authority
- CN
- China
- Prior art keywords
- question
- vector
- word
- deep learning
- learning network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向社区问答的问题分类方法及系统,该方法包括以下步骤:步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS;步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型;步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别。该方法及系统有利于提高社区问答中问题分类的准确性。
Description
技术领域
本发明属于自然语言处理与智能问答应用领域,具体涉及一种面向社区问答的问题分类方法及系统。
背景技术
问答(Question Answering,QA)系统起源于图灵测试,随着时间的发展,问答系统领域也发生了重大变革。按照处理的数据格式不同,问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题.答案数据阶段。随着互联网的普及,网上出现了大量的文本和各种大型论坛,这为智能问答系统的兴起奠定了基础。在问答系统中,问题分类逐渐成了问答系统的一个重要研究分支。
在早期,一些问题分类的方法主要在特定领域下采用模板或者规则来对问题进行分类,如依照一些特定的疑问词使用模板进行匹配,在一些问题分类任务上取得了一定的成果。除此之外,Yu等人通过半监督学习来进行问题分类,在数据集中协同使用未标注和已标注的数据,通过词间的语义相似性作为特征分类,实验结果得到较大的提高。 Xu等人基于朴素贝叶斯来使用汉语依存语法提取问题文本的句法特征进行问题分类,有效提高了问题分类的精度。
深度学习理论在答案抽取和排序任务上也有一定应用。Zhou等人将输入序列先输入CNN后,再输入LSTM来得问题句子的表征向量,输入到softmax中进行问题分类。 Wang等人则先使用LSTM来得到输入问题文本序列的隐藏序列,再利用CNN模型来得到最终的表征向量,最后进行问题分类。
传统CQA系统使用有监督学习,训练问题分类模型,但该方法需要抽取复杂的文本特征,特征工程需要较多的工程经验,很难在特征构造上做到最优,并且该方法在新的数据集上泛化性能较差,对新数据集往往需求重新进行特征抽取和特征工程。目前基于深度学习的方法通常基于单一的卷积神经网络或循环神经网络,或者串行结合卷积神经网络和循环神经网络,无法全面准确地提取影响问题分类精度的各项特征。
发明内容
本发明的目的在于提供一种面向社区问答的问题分类方法及系统,该方法及系统有利于提高社区问答中问题分类的准确性。
为实现上述目的,本发明采用的技术方案是:一种面向社区问答的问题分类方法,包括以下步骤:
步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS;
步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型;
步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别。
进一步地,所述步骤B具体包括以下步骤:
步骤B1:遍历问题分类训练集TS,TS中的每个训练样本表示为(q,y),其中q表示问题,y=c∈C表示问题q所属的问题类别,C={1,2,...,L}为问题类别集合,1≤c≤L, L表示问题类别数;将问题q输入深度学习网络模型的字符级编码模块,得到问题q的字符向量序列
步骤B6:根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新参数,以此训练深度学习网络模型;
步骤B7:当深度学习网络模型产生的损失值迭代变化小于设定阈值或者达到最大迭代次数时,则终止深度学习网络模型的训练。
进一步地,所述步骤B1具体包括以下步骤:
步骤B11:对问题q进行分词处理,并去除停用词,得到问题q的词序列 q={w1,w2,...,wk},其中wi,i=1,2,...,k为分词及去除停用词后的问题q中的第i个词,k 为分词及去除停用词后的问题q中的词语数,其中ci,j,j=1,2,...,ni为构成wi的第j个字符,ni为wi中的字符数;
步骤B12:对问题q的词序列q={w1,w2,...,wk}中的每个词wi进行字符级编码,wi的字符序列为则wi的字符向量序列为i=1,2,...,k,其中j=1,2,...,ni为ci,j的字符向量,在预训练的字符向量矩阵中查询得到,其中d1表示字符向量的维度,|V1|表示字符向量矩阵E1中的字符总数;则问题q的字符向量序列为
进一步地,所述步骤B2具体包括以下步骤:
其中,Wa表示权重矩阵。
进一步地,所述步骤B3的具体方法为:对问题q的词序列q={w1,w2,...,wk},其词向量序列为[e1,e2,...,ek],i=1,2,...,k,ei为第i个词wi的词向量,在预训练的词向量矩阵中查询得到,其中d2表示词向量的维度,|V2|表示预训练的词向量矩阵E2中的词数;则问题q的词语级表征向量为
进一步地,所述步骤B4具体包括以下步骤:
xs=x1+x2
步骤B43:对表征向量xs进行最大池化,得到池化后的向量xp;
本发明还提供了一种面向社区问答的问题分类系统,其特征在于,包括:
数据收集模块,用于采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集;
问题预处理模块,用于对问题分类训练集中的问题进行预处理,包括分词处理和去除停用词;
问题编码模块,用于对问题分类训练集中的问题进行字符级编码和词语级编码,得到问题的表征向量;
深度学习网络训练模块,用于将问题的表征向量输入到深度学习网络中,对深度学习网络模型进行训练,得到训练好的深度学习网络模型;以及
问题分类模块,用于利用训练好的深度学习网络模型对输入的问题进行处理,输出问题所属的类别。
相较于现有技术,本发明具有以下有益效果:提供了一种面向社区问答的问题分类方法及系统,本发明通过对问题进行字符级编码和词语级编码,能够全面准确地提取影响问题分类精度的各项特征,然后对基于双通道神经网络的深度学习网络模型进行训练,以训练好的模型对问题进行分类,从而能够有效提高社区问答中问题分类的准确性,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例中步骤B的实现流程图。
图3是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种面向社区问答的问题分类方法,如图1所示,包括以下步骤:
步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS。
步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型。如图2所示,步骤B 具体包括以下步骤:
步骤B1:遍历问题分类训练集TS,TS中的每个训练样本表示为(q,y),其中q表示问题,y=c∈C表示问题q所属的问题类别,C={1,2,...,L}为问题类别集合,1≤c≤L, L表示问题类别数;将问题q输入深度学习网络模型的字符级编码模块,得到问题q的字符向量序列具体包括以下步骤:
步骤B11:对问题q进行分词处理,并去除停用词,得到问题q的词序列 q={w1,w2,...,wk},其中wi,i=1,2,...,k为分词及去除停用词后的问题q中的第i个词,k 为分词及去除停用词后的问题q中的词语数,wi进一步表示为其中 ci,j,j=1,2,...,ni为构成wi的第j个字符,ni为wi中的字符数;
步骤B12:对问题q的词序列q={w1,w2,...,wk}中的每个词wi进行字符级编码,wi的字符序列为则wi的字符向量序列为i=1,2,...,k,其中j=1,2,...,ni为ci,j的字符向量,在预训练的字符向量矩阵中查询得到,其中d1表示字符向量的维度,|V1|表示字符向量矩阵E1中的字符总数;则问题q的字符向量序列为
其中,Wa表示权重矩阵。
对问题q的词序列q={w1,w2,...,wk},其词向量序列为[e1,e2,...,ek],i=1,2,...,k,ei为第i个词wi的词向量,在预训练的词向量矩阵中查询得到,其中d2表示词向量的维度,|V2|表示预训练的词向量矩阵E2中的词数;则问题 q的词语级表征向量为
xs=x1+x2
步骤B43:对表征向量xs进行最大池化,得到池化后的向量xp。
步骤B6:根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新参数,以此训练深度学习网络模型。
步骤B7:当深度学习网络模型产生的损失值迭代变化小于设定阈值或者达到最大迭代次数时,则终止深度学习网络模型的训练,得到训练好的深度学习网络模型。
步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别。
本发明还提供了一种采用上述方法的面向社区问答的问题分类系统,如图3所示,包括数据收集模块、问题预处理模块、问题编码模块、深度学习网络训练模块和问题分类模块。
所述数据收集模块用于采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集。
所述问题预处理模块用于对问题分类训练集中的问题进行预处理,包括分词处理和去除停用词。
所述问题编码模块用于对问题分类训练集中的问题进行字符级编码和词语级编码,得到问题的表征向量。
所述深度学习网络训练模块用于将问题的表征向量输入到深度学习网络中,对深度学习网络模型进行训练,得到训练好的深度学习网络模型。
所述问题分类模块用于利用训练好的深度学习网络模型对输入的问题进行处理,输出问题所属的类别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (7)
1.一种面向社区问答的问题分类方法,其特征在于,包括以下步骤:
步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS;
步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型;
步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别;
所述步骤B具体包括以下步骤:
步骤B1:遍历问题分类训练集TS,TS中的每个训练样本表示为(q,y),其中q表示问题,y=c∈C表示问题q所属的问题类别,C={1,2,...,L}为问题类别集合,1≤c≤L,L表示问题类别数;将问题q输入深度学习网络模型的字符级编码模块,得到问题q的字符向量序列
步骤B6:根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新参数,以此训练深度学习网络模型;
步骤B7:当深度学习网络模型的损失值迭代变化小于设定阈值或者达到最大迭代次数时,则终止深度学习网络模型的训练。
2.根据权利要求1所述的面向社区问答的问题分类方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对问题q进行分词处理,并去除停用词,得到问题q的词序列q={w1,w2,...,wk},其中wi,i=1,2,...,k为分词及去除停用词后的问题q中的第i个词,k为分词及去除停用词后的问题q中的词语数,其中ci,j,j=1,2,...,ni为构成wi的第j个字符,ni为wi中的字符数;
7.一种采用如权利要求1-6任一项所述方法的面向社区问答的问题分类系统,其特征在于,包括:
数据收集模块,用于采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集;
问题预处理模块,用于对问题分类训练集中的问题进行预处理,包括分词处理和去除停用词;
问题编码模块,用于对问题分类训练集中的问题进行字符级编码和词语级编码,得到问题的表征向量;
深度学习网络训练模块,用于将问题的表征向量输入到深度学习网络中,对深度学习网络模型进行训练,得到训练好的深度学习网络模型;以及
问题分类模块,用于利用训练好的深度学习网络模型对输入的问题进行处理,输出问题所属的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122754.XA CN111353032B (zh) | 2020-02-27 | 2020-02-27 | 面向社区问答的问题分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122754.XA CN111353032B (zh) | 2020-02-27 | 2020-02-27 | 面向社区问答的问题分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353032A CN111353032A (zh) | 2020-06-30 |
CN111353032B true CN111353032B (zh) | 2022-06-14 |
Family
ID=71194045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010122754.XA Active CN111353032B (zh) | 2020-02-27 | 2020-02-27 | 面向社区问答的问题分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353032B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818105B (zh) * | 2021-02-05 | 2021-12-07 | 江苏实达迪美数据处理有限公司 | 一种融合上下文信息的多轮对话方法及系统 |
CN114218962B (zh) * | 2021-12-16 | 2022-08-19 | 哈尔滨工业大学 | 一种固废管理信息人工智能应急语义识别系统及识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784048A (zh) * | 2016-11-14 | 2018-03-09 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
CN109558477A (zh) * | 2018-10-23 | 2019-04-02 | 深圳先进技术研究院 | 一种基于多任务学习的社区问答系统、方法及电子设备 |
CN109871441A (zh) * | 2019-03-13 | 2019-06-11 | 北京航空航天大学 | 一种基于神经网络的导学问答系统及方法 |
CN110222163A (zh) * | 2019-06-10 | 2019-09-10 | 福州大学 | 一种融合cnn与双向lstm的智能问答方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235343A1 (en) * | 2009-03-13 | 2010-09-16 | Microsoft Corporation | Predicting Interestingness of Questions in Community Question Answering |
-
2020
- 2020-02-27 CN CN202010122754.XA patent/CN111353032B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784048A (zh) * | 2016-11-14 | 2018-03-09 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
CN109558477A (zh) * | 2018-10-23 | 2019-04-02 | 深圳先进技术研究院 | 一种基于多任务学习的社区问答系统、方法及电子设备 |
CN109871441A (zh) * | 2019-03-13 | 2019-06-11 | 北京航空航天大学 | 一种基于神经网络的导学问答系统及方法 |
CN110222163A (zh) * | 2019-06-10 | 2019-09-10 | 福州大学 | 一种融合cnn与双向lstm的智能问答方法及系统 |
Non-Patent Citations (1)
Title |
---|
社区问答服务中的问题分类任务研究;王君泽等;《计算机科学与工程》;20110115;第33卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111353032A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
Xu et al. | Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning. | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN111177383B (zh) | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 | |
CN110348227B (zh) | 一种软件漏洞的分类方法及系统 | |
CN111125367B (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN110516070B (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
Wang et al. | A short text classification method based on convolutional neural network and semantic extension | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN110472244B (zh) | 一种基于Tree-LSTM和情感信息的短文本情感分类方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN111353032B (zh) | 面向社区问答的问题分类方法及系统 | |
CN112070139A (zh) | 基于bert与改进lstm的文本分类方法 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
CN115168580A (zh) | 一种基于关键词提取与注意力机制的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |