CN107895000A - 一种基于卷积神经网络的跨领域语义信息检索方法 - Google Patents
一种基于卷积神经网络的跨领域语义信息检索方法 Download PDFInfo
- Publication number
- CN107895000A CN107895000A CN201711035417.1A CN201711035417A CN107895000A CN 107895000 A CN107895000 A CN 107895000A CN 201711035417 A CN201711035417 A CN 201711035417A CN 107895000 A CN107895000 A CN 107895000A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- retrieval
- retrieved
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 76
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 230000008707 rearrangement Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 101150041570 TOP1 gene Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于卷积神经网络的跨领域语义信息检索方法,属计算机自然语言处理领域。本发明通过词向量SVM进行短文本分类,降低无效检索域从而提高近似句的准确率,再将分类后的文本拼接成向量矩阵放入卷积神经网络,将卷积神经网络的最后一层用转换层进行近似句的检索计算。最终模型提高了近似语义检索的准确率。
Description
技术领域
本发明涉及一种基于卷积神经网络的跨领域语义信息检索方法,属计算机自然语言处理领域。
背景技术
当前基于关键词检索的方式已被广泛认知,但命中率较低。命中率较低的原因包括基于搜索引擎的关键词检索需要大量语料,但许多场景下,小规模或中等规模的语料很难达到理想的效果,且Zhao(<Chinese Journal of Computers>,2005)提出关键词匹配计算方法将词语看成是孤立的元素,相互之间没有联系是不合理的。目前,Zhao(<全国第八届计算语言学联合学术会议>,2005)将句子相似度的研究方法可以归纳为:1)基于词特征的句子相似度计算、2)基于词义特征的句子相似度计算、3)基于句法分析特征的句子相似度计算。词特征方法进行句相似度计算一般依靠构建向量空间,但这类方法的明显缺陷是特征稀疏,用在稍大点的语料上效果不理想。为了解决特征稀疏问题,Wang(<arXiv.org>,2006)提出的基于词汇分解与组合的句子相似度计算,其将对比的句子进行向量化,对形成的句子特征矩阵进行分解,用于近似语句计算,但是此方法对环境的实时计算能力要求较高。词义特征的方法主要依赖外源语义词典,如You(<Computer Systems&Applications>,2013)提出的基于HowNet的信息量计算语义相似度算法,但是这类方法局限性太强,外源语义词典的完整性直接影响着模型的准确率。句法分析特征计算句子相似度的方法,如Li(<Journal of Computer Research and Development>,2013)提出的基于框架语义分析的汉语句子相似度计算,其主要利用依存关系提取核心词构建相似矩阵进行相似度计算,这类方法其实还是停留在浅层词义的分析上,进行相似度计算时忽略了句子中词与词之间的关系,在短文本分析中效果较不理想。
发明内容
本发明提供了一种基于卷积神经网络的跨领域语义信息检索方法,相比传统检索方式不仅仅依靠字面意思进行信息检索,而是能挖掘信息的潜在语义,达到提高相似信息的检索命中率。
本发明的技术方案是:一种基于卷积神经网络的跨领域语义信息检索方法,所述方法具体步骤如下:
Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;
Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;
Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;
Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;
Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。
所述步骤Step1的具体步骤如下:
Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;
Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;
Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。
所述步骤Step2的具体步骤如下:
Step2.1、将用户检索信息转换成句特征矩阵;
Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;
Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;
Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索信息的聚类特征通过转换层进行映射点乘,得到用户检索信息与被检索信息的语义相似度值,根据相似度值排序得到被检索信息列表。
所述步骤Step3的具体步骤如下:
Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息;
Step3.2、将用户检索信息与Step3.1中p个待重排被检索信息的原始特征进行相似度C1计算,根据计算结果优化重排,得到最终重排的p个推荐信息。
所述步骤Step4的具体步骤如下:将Step3.2中得到的推荐信息推送给用户,如果用户进行点击则表示用户意图和信息题目相关,将此行为记录到日志中,经过多次用户反馈,把用户点击次数较多信息和用户进行检索的信息进行归类,即用户检索信息和点击的推荐信息成对归类;当用户对信息满意度进行评分时,记录评分数值。
所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成;所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值其中,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数;Wn表示被检索信息的句子中第n个词对应的词向量,S表示被检索信息的句子中所含词的总数,ti表示第i个聚类中心的词向量,cos()表示余弦函数。
所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。
所述其中,β为调整系数,tn表示用户检索信息的句子S1与待重排被检索信息的句子Sj的原始特征的相似性,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示待重排被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数,S1表示用户检索信息的句子,Sj表示待重排被检索信息的句子,Wk表示S1中第k个词对应的词向量,W'z表示Sj中第z个词对应的词向量,Len(S1)表示S1中词的个数。
本发明的有益效果是:
1、本发明利用gensim的word2vec模块进行词向量训练,由于词的向量是由词的邻近词计算出来的,所以向量里会隐含语义信息,适合用于语义的信息提取。此外,本发明采用快速搜索与寻找密度峰值的聚类方法处理大数据,其利用局部密度和高密度最小距离作为聚类标准,相比传统聚类速度更快且效果较好。
2、在前期数据准备过程中,将数据进行分类。因为不同领域的相同词,特征倾向有很大的不同,所以对句子进行近似计算前进行文本分类,会减少无效检索域。传统的SVM将词作为独立维度,如果选用的特征词过少,难以表达特征少且特征空间高的短文本特征,会使分类性能降低;如果选用的特征词过多,会造成整体维度较高,使得特征极其稀疏,最终导致短文本分类效果不尽人意。所以,本发明选用词向量为基础生成的句向量作为SVM的训练特征数据,相比传统以字为特征单元有更强的特征表达能力,且分类准确率有明显提高,同时克服了SVM用于短文本分类时特征稀疏的问题。
3、本发明基于卷积神经网络进行跨领域的语义信息检索模型,其将信息的两种特征进行自映射无监督训练,不像其它模型依靠人工筛选相似句子进行训练。模型在训练过程中会根据句子词向量片段提取显著特征,这些特征蕴含语义信息,利用这些语义信息进行检索,相比关键词匹配有更高的命中率。在中小型信息库中进行检索其优势尤为明显。
综上,这种基于卷积神经网络的跨领域语义信息检索方法通过词向量SVM进行短文本分类,降低无效检索域从而提高近似句的准确率,再将分类后的文本拼接成向量矩阵放入卷积神经网络,将卷积神经网络的最后一层用转换层进行近似句的检索计算。最终模型提高了近似语义检索的准确率。
附图说明
图1为语义检索模型的结构图;
图2为本发明中部分数据聚类特征生成示意图;
图3为本发明中改进的词向量SVM分类准确率对比图;
图4为本发明中未分类模型-已分类模型的性能对比图。
具体实施方式
下面结合附图和实施例,对本发明作进一步说明,但本发明的内容并不限于所述范围。
实施例1:如图1-4所示,一种基于卷积神经网络的跨领域语义信息检索方法,所述方法具体步骤如下:
Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;
Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;
Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;
Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;
Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。
进一步地,可以设置所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成;所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值其中,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数;Wn表示被检索信息的句子中第n个词对应的词向量,S表示被检索信息的句子中所含词的总数,ti表示第i个聚类中心的词向量,cos()表示余弦函数。
进一步地,可以设置所述其中,β为调整系数,tn表示用户检索信息的句子S1与待重排被检索信息的句子Sj的原始特征的相似性,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示待重排被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数,S1表示用户检索信息的句子,Sj表示待重排被检索信息的句子,Wk表示S1中第k个词对应的词向量,W'z表示Sj中第z个词对应的词向量,Len(S1)表示S1中词的个数。
实施例2:如图1-4所示,一种基于卷积神经网络的跨领域语义信息检索方法,所述方法具体步骤如下:
Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;
Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;
Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;
Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;
Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。
进一步地,可以设置所述步骤Step1的具体步骤如下:
Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;
Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;
Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。
进一步地,可以设置所述步骤Step2的具体步骤如下:
Step2.1、将用户检索信息转换成句特征矩阵;
Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;
Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;
Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索信息的聚类特征通过转换层进行映射点乘,得到用户检索信息与被检索信息的语义相似度值,根据相似度值排序得到被检索信息列表。
进一步地,可以设置所述步骤Step3的具体步骤如下:
Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息;
Step3.2、将用户检索信息与Step3.1中p个待重排被检索信息的原始特征进行相似度C1计算,根据计算结果优化重排,得到最终重排的p个推荐信息。
进一步地,可以设置所述步骤Step4的具体步骤如下:将Step3.2中得到的推荐信息推送给用户,如果用户进行点击则表示用户意图和信息题目相关,将此行为记录到日志中,经过多次用户反馈,把用户点击次数较多信息和用户进行检索的信息进行归类,即用户检索信息和点击的推荐信息成对归类;当用户对信息满意度进行评分时,记录评分数值。
进一步地,可以设置所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成;所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值其中,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数;Wn表示被检索信息的句子中第n个词对应的词向量,S表示被检索信息的句子中所含词的总数,ti表示第i个聚类中心的词向量,cos()表示余弦函数。
进一步地,可以设置所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。
进一步地,可以设置所述其中,β为调整系数,tn表示用户检索信息的句子S1与待重排被检索信息的句子Sj的原始特征的相似性,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示待重排被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数,S1表示用户检索信息的句子,Sj表示待重排被检索信息的句子,Wk表示S1中第k个词对应的词向量,W'z表示Sj中第z个词对应的词向量,Len(S1)表示S1中词的个数。
实施例3:如图1-4所示,一种基于卷积神经网络的跨领域语义信息检索方法,所述方法具体步骤如下:
Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;
所述步骤Step1的具体步骤为:
Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;
本发明考虑到将文本分为多个字符组成的字符串形式,会造成原文本中字、词、段落之间语言学信息的丢失。所以信息进行预处理工作,其中包括中文分词、去停用词。方便后续工作的进行。将词映射成词向量,最后将被检索句子中所有词的词向量相加得到句向量。
Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;
利用gensim的word2vec模块进行词向量训练。不同的信息具有不同的特征,为了检索的方便,将知识库中被检索的信息进行分类,有助于缩小检索范围,提高检索效率。预先定义了12种类别(企业管理,社会民生,健康生活,文化艺术,电脑网络,行政地区,医疗卫生,经济金融,法律法规,科学教育,体育运动和娱乐休闲)。
Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。
对知识库中的语料根据常用类别分为12类,分别对每类中的句子利用句子中词对应的词向量累加生成句子的句向量。使用的词向量由word2vec工具中的CBOW模型进行训练生成。在实验中,我们利用每类1000条句子作为训练数据对模型进行分类训练。使用每类100条句子作为测试数据进行类别判断,图3为对词向量SVM分类和其他模型的测试结果。
分类对于近似检索可以缩小信息的无效检索域,最终达到提到准确率的目的。为了对比分类对模型的影响,拿未分类和经过四分类处理模型进行测试,测试类别为:财经,体育,娱乐和科技。将四类分别取200,500,800和1000条作为分类后检索模型的训练数据,即被检索数据,每个类别构建独立的近似语义卷积神经网络模型。从四类中随机抽取200,500,800和1000条作为未分类处理模型的训练数据,构建一个混合类别的卷积神经网络模型,实验结果如下图4所示。可以看出两种模型Top5准确率都会随着数据量的增加而下降,但经过分类处理的模型的下降速率相对更小。
Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;
所述步骤Step2的具体步骤为:
Step2.1、将用户检索信息转换成句特征矩阵;
为了得到用户检索信息的特征表示,将用户检索信息中的词的词向量转换成矩阵的形式,其中矩阵行数与句子包含的词数相同,列数是每个词对应的词向量的维度,从而得到用户检索信息的句特征矩阵,如图2所示。
Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;
对用户检索信息使用相应类别的卷积神经网络进行卷积、池化处理和隐藏层处理得到用户检索信息的语义信息,使得用户检索信息语义丰富的同时,利于后续计算。
Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。
为了表示被检索信息,将语料首先词聚类,然后根据被检索信息句子中词与聚类的中心词的相似度值,得到词的倾向性,最后得到被检索信息句子的聚类特征表示。
Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索信息的聚类特征通过转换层进行映射点乘,得到用户检索信息与被检索信息的语义相似度值,根据相似度值排序得到被检索信息列表。
本步骤中具体:根据用户检索信息类别加载对应类别的近似语义检索卷积神经网络模型。模型由卷积层,池化层,隐藏层和转换层组成。卷积层输入为一个特征矩阵,每行都表示一个词对应的词向量。卷积层的卷积窗口宽度为词向量的固定长度,高度为h,模型中有h为2卷积窗口,h为3卷积窗口,h为4层卷积窗口和h为5层卷积窗口各400个。转换层的神经元个数为对词库信息进行词聚类后的聚类个数。训练阶段转换层会将相同句子的隐藏层特征和聚类特征进行点乘训练。模型使用时,将用户检索信息的抽象特征与知识库中被检索信息的聚类特征进行点乘计算,其中被检索信息与用户检索信息类别相同,根据点乘值,得到被检索信息与用户检索信息相似度值。最后,根据相似度值排序得到被检索信息列表。
Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的Top10个信息,对Top10信息的原始特征进行优化重排处理,得到重排后的Top10个推荐信息列表。
所述步骤Step3的具体步骤如下:
Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值,筛选出最相似的Top10个被检索信息(待重排Top10个信息);
Step3.2、将用户检索信息与Step3.1中Top10个被检索信息(待重排Top10个信息)的原始特征进行相似度计算,根据计算结果优化重排,得到最终重排的Top10个推荐信息;
本步骤中具体:Step3.1中Top10个被检索信息是根据聚类特征相似度值得到,为了更好的展示,发明计算用户检索信息与Top10个被检索信息(待重排Top10个信息)的原始特征相似度,据此重新排序推荐给用户。就是将Top10个被检索信息进行分词,然后转化为词向量形式,将用户检索信息和待重排的被检索信息进行相似度计算,得到相似度值C1。计算公式如下:
所述其中,β为调整系数,实验取0.01;tn表示用户检索信息的句子S1与待重排被检索信息的句子Sj的原始特征的相似性,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示待重排被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数,S1表示用户检索信息的句子,Sj表示待重排被检索信息的句子,Wk表示S1中第k个词对应的词向量,W'z表示Sj中第z个词对应的词向量,Len(S1)表示S1中词的个数。
为了比较近似语义卷积神经网络检索模型(CNNModel)与其它常用近似计算方法,这里从Top1,Top5,Top10这三个指标的准确率进行对比,用1000条短文本作为匹配目标语句,结果如表1所示。
表1
由表1可以明显看出,近似语义卷积神经网络比n-gram overlap,同义词扩展和编辑距离有更高的准确率,这是由于n-gram overlap和编辑距离过度依赖字面匹配,同义词扩展则忽略了邻近词之间的关系,而近似语义卷积神经网络模型利用词向量和卷积神经网络特性弥补了这两方面的不足。
对Top10被检索检索信息进行重排序推荐结果对比:
未重排序前对1000条问答句子进行测试,准确率如下所示。
表2
Top1 | Top5 | Top10 | |
准确率 | 0.70 | 0.80 | 0.89 |
从上表可知模型已发现89%测试数据的近似语句,但Top1的准确率相对较低。重排计算后准确率如表3所示。
表3
Top1 | Top5 | Top10 | |
准确率 | 0.81 | 0.85 | 0.90 |
Step4、将Step3中生成的Top10推荐信息列表提供给用户,记录用户的点击行为。当用户对信息满意度进行评分时,记录评分数值。
所述步骤Step4的具体步骤如下:
Step4.1、将Step3.2种得到的推荐信息推送给用户,如果用户进行点击则表示用户意图和信息题目相关,将此行为记录到日志中。经过多次用户反馈,把用户点击次数较多信息和用户检索的信息进行归类,即用户检索信息和点击的推荐信息成对归类;当用户对信息满意度进行评分时,记录评分数值。
Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。
本发明中,基于卷积神经网路的近似语义计算模型由卷积层,池化层,隐藏层和转化层组成,整体结构如图1所示:
此模型的建立基于两个假设:
(1)与每句句子相似度最大的句子是句子本身。
(2)两句子语义相似则其句子片段必定有多处语义接近。
基于以上假设,本文提出了将相同句子的不同表达特征使用卷积神经网络模型进行映射训练,从而达到近似句计算的目的。
卷积层
卷积层将预处理后用户检索信息转化成的句特征矩阵进行卷积,为了使句特征矩阵中的不同特征被尽可能地被提取,利用不同的卷积窗口卷积出不同的卷积向量。图1中有三个卷积窗口,由于每个卷积窗口是按行卷积,所以每个窗口卷积出的特征个数为:
L=H-h+1
其中,H为特征矩阵高度,h为卷积窗口高度。每次进行卷积的卷积值为:
其中,表示第L个卷积窗口生成的第q个卷积值,WL表示第L个卷积窗口的卷积系数,bL表示第L个卷积窗口的卷积偏置值。实验模型中,设定卷积层由h为2卷积窗口,h为3卷积窗口,h为4层卷积窗口和h为5层卷积窗口各400个组成。
池化层
从卷积层获得的卷积向量表示的是不同卷积窗口中的特征,为了表示句特征矩阵在卷积窗口中的特征强弱,需要使用池化层来过滤,一般选用最大值的过滤方式。最终r个卷积窗口生成一个r维特征向量。对文本特征进行池化的好处在于最终特征的输出个数不会随输入句子的长度变化而变化。同时池化处理在不损失显著特征的前提下减少输出结果的维度,减少模型计算量。
转化层
作为模型的最后一层,也是映射卷积神经网络最重要的一层。其目的是把经过池化层和隐藏层生成的句子特征进行映射,映射到新的特征空间上。转换层的每个节点表示词库经过语义聚类后的类别,即转换层神经元个数为词聚类的类别个数。隐藏层输出的系数作为句子中词所在类别的修正系数,利用句子级别的特征弥补词级别特征的不足。近似值C计算方式如下:
其中,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数;Wn表示被检索信息的句子中第n个词对应的词向量,S表示被检索信息的句子中所含词的总数,ti表示第i个聚类中心的词向量,cos()表示余弦函数。
模型初始训练时将同一句子抽象特征和聚类特征自映射。而更新训练时,利用用户反馈记录生成的归类信息作为训练语料进行模型训练。这些语料包含多个句集合,训练时将一句子和其所在的句集合抽象特征映射到这句子聚类特征上。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述方法具体步骤如下:
Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;
Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;
Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;
Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;
Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。
2.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;
Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;
Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。
3.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、将用户检索信息转换成句特征矩阵;
Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;
Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;
Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索信息的聚类特征通过转换层进行映射点乘,得到用户检索信息与被检索信息的语义相似度值,根据相似度值排序得到被检索信息列表。
4.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息;
Step3.2、将用户检索信息与Step3.1中p个待重排被检索信息的原始特征进行相似度C1计算,根据计算结果优化重排,得到最终重排的p个推荐信息。
5.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step4的具体步骤如下:将Step3.2中得到的推荐信息推送给用户,如果用户进行点击则表示用户意图和信息题目相关,将此行为记录到日志中,经过多次用户反馈,把用户点击次数较多信息和用户进行检索的信息进行归类,即用户检索信息和点击的推荐信息成对归类;当用户对信息满意度进行评分时,记录评分数值。
6.根据权利要求1或3所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成;所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值其中,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数;Wn表示被检索信息的句子中第n个词对应的词向量,S表示被检索信息的句子中所含词的总数,ti表示第i个聚类中心的词向量,cos()表示余弦函数。
7.根据权利要求3所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。
8.根据权利要求1或4所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述其中,β为调整系数,tn表示用户检索信息的句子S1与待重排被检索信息的句子Sj的原始特征的相似性,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示待重排被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数,S1表示用户检索信息的句子,Sj表示待重排被检索信息的句子,Wk表示S1中第k个词对应的词向量,W'z表示Sj中第z个词对应的词向量,Len(S1)表示S1中词的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711035417.1A CN107895000B (zh) | 2017-10-30 | 2017-10-30 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711035417.1A CN107895000B (zh) | 2017-10-30 | 2017-10-30 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107895000A true CN107895000A (zh) | 2018-04-10 |
CN107895000B CN107895000B (zh) | 2021-06-18 |
Family
ID=61802946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711035417.1A Active CN107895000B (zh) | 2017-10-30 | 2017-10-30 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107895000B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959588A (zh) * | 2018-07-10 | 2018-12-07 | 四川淘金你我信息技术有限公司 | 基于大数据的文本客服机器人智能学习方法 |
CN109271632A (zh) * | 2018-09-14 | 2019-01-25 | 重庆邂智科技有限公司 | 一种监督的词向量学习方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109492687A (zh) * | 2018-10-31 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN109544306A (zh) * | 2018-11-30 | 2019-03-29 | 苏州大学 | 一种基于用户行为序列特征的跨领域推荐方法及装置 |
CN110110085A (zh) * | 2019-04-24 | 2019-08-09 | 中电海康集团有限公司 | 基于字符级神经网络与svm的交通事故文本分类方法和系统 |
CN110675297A (zh) * | 2019-10-09 | 2020-01-10 | 济源职业技术学院 | 计算机数字化教学资源的调取系统及方法 |
CN111027595A (zh) * | 2019-11-19 | 2020-04-17 | 电子科技大学 | 双阶段语义词向量生成方法 |
CN112487150A (zh) * | 2020-12-11 | 2021-03-12 | 航天信息股份有限公司 | 档案管理方法、系统、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建系统 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN107145573A (zh) * | 2017-05-05 | 2017-09-08 | 上海携程国际旅行社有限公司 | 人工智能客服机器人的问题解答方法及系统 |
US20170262479A1 (en) * | 2016-03-08 | 2017-09-14 | Shutterstock, Inc. | User drawing based image search |
-
2017
- 2017-10-30 CN CN201711035417.1A patent/CN107895000B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
US20170262479A1 (en) * | 2016-03-08 | 2017-09-14 | Shutterstock, Inc. | User drawing based image search |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建系统 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN107145573A (zh) * | 2017-05-05 | 2017-09-08 | 上海携程国际旅行社有限公司 | 人工智能客服机器人的问题解答方法及系统 |
Non-Patent Citations (1)
Title |
---|
吴安峻: "面向自动问答的短问题分类研究", 《信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959588A (zh) * | 2018-07-10 | 2018-12-07 | 四川淘金你我信息技术有限公司 | 基于大数据的文本客服机器人智能学习方法 |
CN108959588B (zh) * | 2018-07-10 | 2021-10-08 | 四川淘金你我信息技术有限公司 | 基于大数据的文本客服机器人智能学习方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109271632A (zh) * | 2018-09-14 | 2019-01-25 | 重庆邂智科技有限公司 | 一种监督的词向量学习方法 |
CN109492687A (zh) * | 2018-10-31 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN109544306B (zh) * | 2018-11-30 | 2021-09-21 | 苏州大学 | 一种基于用户行为序列特征的跨领域推荐方法及装置 |
CN109544306A (zh) * | 2018-11-30 | 2019-03-29 | 苏州大学 | 一种基于用户行为序列特征的跨领域推荐方法及装置 |
CN110110085A (zh) * | 2019-04-24 | 2019-08-09 | 中电海康集团有限公司 | 基于字符级神经网络与svm的交通事故文本分类方法和系统 |
CN110675297A (zh) * | 2019-10-09 | 2020-01-10 | 济源职业技术学院 | 计算机数字化教学资源的调取系统及方法 |
CN110675297B (zh) * | 2019-10-09 | 2022-02-01 | 济源职业技术学院 | 计算机数字化教学资源的调取系统及方法 |
CN111027595A (zh) * | 2019-11-19 | 2020-04-17 | 电子科技大学 | 双阶段语义词向量生成方法 |
CN111027595B (zh) * | 2019-11-19 | 2022-05-03 | 电子科技大学 | 双阶段语义词向量生成方法 |
CN112487150A (zh) * | 2020-12-11 | 2021-03-12 | 航天信息股份有限公司 | 档案管理方法、系统、存储介质及电子设备 |
CN112487150B (zh) * | 2020-12-11 | 2023-12-26 | 航天信息股份有限公司 | 档案管理方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107895000B (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103970729B (zh) | 一种基于语义类的多主题提取方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN112632969B (zh) | 一种增量式行业词典更新方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111061873B (zh) | 一种基于Attention机制的多通道的文本分类方法 | |
Li et al. | LSTM-based deep learning models for answer ranking | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN111581365B (zh) | 一种谓词抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |