CN104636456A - 一种基于词向量的问题路由方法 - Google Patents
一种基于词向量的问题路由方法 Download PDFInfo
- Publication number
- CN104636456A CN104636456A CN201510057352.5A CN201510057352A CN104636456A CN 104636456 A CN104636456 A CN 104636456A CN 201510057352 A CN201510057352 A CN 201510057352A CN 104636456 A CN104636456 A CN 104636456A
- Authority
- CN
- China
- Prior art keywords
- user
- vector
- formula
- rightarrow
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 3
- 230000009931 harmful effect Effects 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract 1
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种问题路由方法,一种基于词向量的问题路由方法,包括以下步骤:步骤1、用户档案的构建;步骤2、数据预处理;步骤3、词向量的训练;步骤4、文档向量的表示;步骤5、用户权威度的计算;步骤6、用户活跃度的计算;步骤7、候选回答者排序;本发明利用word2vec训练数据效率高,词向量具有叠加性,克服了文档之间没有共现词相似度为0的缺点;同时抽取文档主题词,用词向量表示文档向量,综合计算权威度和活跃度,以及文档向量之间的相似度,既考虑了文档之间的语义信息,又减少了噪音。分别与经典的TF_IDF和Language Model进行了对比实验,本发明方法的SN均高于其他两种方法。
Description
技术领域
本发明涉及一种问题路由方法,更具体地说,涉及一种基于词向量的问题路由方法。
背景技术
近年来的问答社区,如Yahoo!Answers、百度知道和Stackoverflow等已经变得越来越流行,大众在社区分享知识,每天都有海量的用户提问问题,社区里面的问题回答内容为用户提供了可选的答案。一般社区问答网站会按照问题类别对问题进行划分,当用户提问问题时会选择一个合适的类别,即问题标签,等待其他用户回答。提问者必须等待其他用户浏览了该社区,阅读了该问题才有可能提供答案,并且可能很多用户回答以后方可得到最佳答案,这个过程一般需要数小时或者数天,这样滞后获得的最佳答案对于提问者可能已经没有实际意义了。另外一方面,如果用户是专家往往可以提供比较优质的答案,但是专家用户可能并没有访问该社区,或者在社区中未发现自己感兴趣的问题,所以没有给出最佳答案。为了改善这种状况,一种比较好的方法是采用问题路由(Question Routing)方法,把新问题推送给社区中最适合回答这个问题的人。问题路由如何选择合适的专家,需要考虑用户的历史信息,即用户之前回答过什么问题或者回答过什么内容,为每个在社区中回答过问题的用户建立用户档案。本发明对用户提出的问题预测最佳回答者,即针对用户所提的新问题,找到能给予最佳答案的回答者。目前关于问题路由的方法主要可以分为以下两类:
一类是基于词共现的方法,该方法是在用户给定问题之前,为每个在社区中注册过的用户构建用户档案,档案中是用户回答过的问题或者提问过的问题,当有其他用户提出问题时,根据用户档案预测最佳回答者,对问题中的词与出现过该词的用户档案进行检索并打分。这种方法需要包含用户的查询词,常见的有VSM、Language Model、BM25和布尔模型等方法。这些方法比较经典,但它们忽略了那些没有共现词或共现词很少,却语义相关的用户,因而在预测最佳回答者方面尚存在欠缺。
另一类是基于语义关联方法,这类方法能够利用用户所提问题的语义信息检索用户档案,丰富查询结果,常见的主要有潜在语义模型(LSA)、概率潜在语义分析模型(PLSA),以及文档生成模型(LDA)等。这类方法在一定程度上提高了检索的召回率,但是往往会因引入大量噪音信息而降低准确度。
故此,如何准确、高效地预测最佳回答者成为社区问答亟待解决的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于词向量的问题路由方法。该方法利用词向量满足叠加性这一优点,运用word2vec训练数据获得词向量,采用词向量来表示文档向量。对于每一篇文档,抽取能代表该文档特征的词作为主题词,将主题词向量叠加代表文档向量,然后计算用户档案向量和问题向量之间的相似度,同时融入权威度和活跃度计算用户的先验概率,最终综合得出用户是最佳回答者的概率,依此排序来预测最佳回答者,从而提高了预测准确度。
为了实现上述发明目的,解决现有技术中存在的问题,本发明采取的技术方案是:一种基于词向量的问题路由方法,包括以下步骤:
步骤1、用户档案的构建:根据用户的回答历史为用户构建档案,社区问答中回答过问题的用户都是一个新问题的候选回答者,对于每个用户档案的构建,具体包括以下子步骤:
步骤(a)、从Stackoverflow网站提供的网址下载从网站建立之初2008年7月到目前2014年3月为止的所有数据,数据为XML格式,读取XML文件格式抽取所有问题,其中包括问题的标签tag域、标题title域和内容body域;
步骤(b)、收集用户回答过的问题中被选为最佳答案的那些问题组成用户的档案;
步骤(c)、忽略用户回答的问题中被选为最佳答案的数量比较少的用户,只选择回答的问题中至少包含10个被选为最佳答案的用户作为候选回答者;
步骤2、数据预处理,具体包括以下子步骤:
步骤(a)、由于该问答社区中的问题都与计算机编程相关,所以用户提出的问题中body域往往会包含许多代码,而代码中不含有语义信息,对训练结果没有帮助,甚至对训练结果产生不良影响,因而把XML格式文件中<code></code>之间的代码信息去除;
步骤(b)、用户档案和测试集中的问题去除停用词及标点符号;
步骤3、词向量的训练,具体包括以下子步骤:
步骤(a)、根据处理好的数据,对特征词进行Huffman编码;
步骤(b)、为了把每个词都用矢量表示,对每个词定义一个一定维度的实数向量,通过逻辑回归二元分类方法预测Huffman树中词语word路径边值的概率;
步骤(c)、逻辑回归模型输入变量未知,通过损失函数和求导公式对系数和输入变量进行更新,更新后的输入变量作为特征词的向量,词向量的维度可以指定,本发明设置400维来测试词向量维度对结果的影响,训练模型包括CBOW模型和skip-gram模型,本发明采用CBOW模型;
步骤4、文档向量的表示,具体包括以下子步骤:
步骤(a)、问题标签是问题所属的类别,能代表一个问题的主题,用户档案中出现次数最多的两个标签词代表用户主题,基于词向量的叠加性,标签词向量相加代表用户的主题向量;
步骤(b)、计算文档中每个特征词和标签词向量的相似度,根据相似度大小对特征词进行排序;
步骤(c)、抽取主题词,根据已经排好序的特征词,取前1/2的词作为用户的主题词,特征词向量叠加代表用户的文档向量,采用公式(1)表示,
式中,为用户的文档向量,nu为用户的文档中特征词数量,为第i个特征词向量;
步骤(d)、测试集中的问题向量,根据标签词进行抽取,采用公式(2)表示,
式中,为测试问题的文档向量,nq为测试问题中特征词数量,为第i个特征词向量;
步骤(e)、计算测试集中的问题跟每个用户档案的相似度,采用公式(3)表示,
式中,为问题向量与用户档案向量的相似度;
步骤5、用户权威度的计算:用户回答的问题中,被选为最佳答案的数量越多,代表该用户的权威度越大,使用log进行平滑,用户u的权威度采用公式(4)表示,
authority(u)=log(1+numansu) (4)
式中,authority(u)为用户u的权威度,numansu为用户回答的问题中被选为最佳答案的数量;
步骤6、用户活跃度的计算:在社区中每个用户活跃时间不同,并且某个问题被提出时,一些用户已经很久没有回答任何问题或者即使之前回答过很多问题,但该用户的活跃度仍然比较低,本发明采用问题被提出的时间与提出问题之前用户最近一次回答问题的时间间隔衡量用户的活跃度,时间相隔越近,代表用户越活跃,用户u的活跃度采用公式(5)表示,
式中,activity(u)为用户u的活跃度,tq为提问问题的时间,tu为用户回答的所有问题中,距离提问问题最近的时间,其中:tq和tu单位是天数,如果用秒、分钟或者小时表示,会造成用户的活跃度非常低、评价用户的活跃度不合理;
步骤7、候选回答者排序:用户权威度和用户活跃度代表用户的先验概率,用户的先验概率采用公式(6)表示,
P(u)=authority(u)*activity(u) (6)
式中,P(u)为用户u的先验概率,authority(u)为用户u的权威度,activity(u)为用户u的活跃度,最佳回答者的概率,采用公式(7)表示,
P(u|q)∝P(u)P(q|u) (7)
式中,P(q|u)为相似度,表示从用户u档案中生成问题q的概率,P(u|q)代表用户u是问题q的最佳回答者的概率,再将该概率从大到小排序,即为回答者推荐顺序。
本发明有益效果是:一种基于词向量的问题路由方法,包括以下步骤:步骤1、用户档案的构建;步骤2、数据预处理;步骤3、词向量的训练;步骤4、文档向量的表示;步骤5、用户权威度的计算;步骤6、用户活跃度的计算;步骤7、候选回答者排序。与已有技术相比,本发明利用word2vec训练数据效率高,训练的词向量具有叠加性,克服了文档之间没有共现词相似度为0的缺点;同时抽取文档主题词,用词向量表示文档向量,综合计算权威度和活跃度,以及文档向量之间的相似度,既考虑了文档之间的语义信息,又减少了噪音。在Stackoverflow数据集上,分别与经典的TF_IDF和Language Model进行了对比实验,采用SN作为评价指标,实验结果如表1所示,可以看出采用本发明方法的SN均高于其他两种方法,其中采用TF_IDF和Language Model的实验结果的准确率S1分别为3.1%和3.2%,而采用本发明提出的方法,结果准确率S1为6.1%,准确率提高了将近一倍。
附图说明
图1为本发明方法步骤流程图。
图2为本发明实验效果对比图。
图中:N代表把问题推送给前N个排序好的专家,如果预测的前N个专家中包含最佳回答者,则该测试问题结果为1,SN为所有测试问题结果的平均值。
具体实施方式
下面结合附图对本发明进行说明。
如图1所示,一种基于词向量的问题路由方法,包括以下步骤:
步骤1、用户档案的构建:根据用户的回答历史为用户构建档案,社区问答中回答过问题的用户都是一个新问题的候选回答者,对于每个用户档案的构建,具体包括以下子步骤:
步骤(a)、从Stackoverflow网站提供的网址下载从网站建立之初2008年7月到目前2014年3月为止的所有数据,数据为XML格式,读取XML文件格式抽取所有问题,其中包括问题的标签tag域、标题title域和内容body域;
步骤(b)、收集用户回答过的问题中被选为最佳答案的那些问题组成用户的档案;
步骤(c)、忽略用户回答的问题中被选为最佳答案的数量比较少的用户,只选择回答的问题中至少包含10个被选为最佳答案的用户作为候选回答者;
步骤2、数据预处理,具体包括以下子步骤:
步骤(a)、由于该问答社区中的问题都与计算机编程相关,所以用户提出的问题中body域往往会包含许多代码,而代码中不含有语义信息,对训练结果没有帮助,甚至对训练结果产生不良影响,因而把XML格式文件中<code></code>之间的代码信息去除;
步骤(b)、用户档案和测试集中的问题去除停用词及标点符号;
步骤3、词向量的训练,具体包括以下子步骤:
步骤(a)、根据处理好的数据,对特征词进行Huffman编码;
步骤(b)、为了把每个词都用矢量表示,对每个词定义一个一定维度的实数向量,通过逻辑回归二元分类方法预测Huffman树中词语word路径边值的概率;
步骤(c)、逻辑回归模型输入变量未知,通过损失函数和求导公式对系数和输入变量进行更新,更新后的输入变量作为特征词的向量,词向量的维度可以指定,本发明设置400维来测试词向量维度对结果的影响,训练模型包括CBOW模型和skip-gram模型,本发明采用CBOW模型;
步骤4、文档向量的表示,具体包括以下子步骤:
步骤(a)、问题标签是问题所属的类别,能代表一个问题的主题,用户档案中出现次数最多的两个标签词代表用户主题,基于词向量的叠加性,标签词向量相加代表用户的主题向量;
步骤(b)、计算文档中每个特征词和标签词向量的相似度,根据相似度大小对特征词进行排序;
步骤(c)、抽取主题词,根据已经排好序的特征词,取前1/2的词作为用户的主题词,特征词向量叠加代表用户的文档向量,采用公式(1)表示,
式中,为用户的文档向量,nu为用户的文档中特征词数量,为第i个特征词向量;
步骤(d)、测试集中的问题向量,根据标签词进行抽取,采用公式(2)表示,
式中,为测试问题的文档向量,nq为测试问题中特征词数量,为第i个特征词向量;
步骤(e)、计算测试集中的问题跟每个用户档案的相似度,采用公式(3)表示,
式中,为问题向量与用户档案向量的相似度;
步骤5、用户权威度的计算:用户回答的问题中,被选为最佳答案的数量越多,代表该用户的权威度越大,使用log进行平滑,用户u的权威度采用公式(4)表示,
authority(u)=log(1+numansu) (4)
式中,authority(u)为用户u的权威度,numansu为用户回答的问题中被选为最佳答案的数量;
步骤6、用户活跃度的计算:在社区中每个用户活跃时间不同,并且某个问题被提出时,一些用户已经很久没有回答任何问题或者即使之前回答过很多问题,但该用户的活跃度仍然比较低,本发明采用问题被提出的时间与提出问题之前用户最近一次回答问题的时间间隔衡量用户的活跃度,时间相隔越近,代表用户越活跃,用户u的活跃度采用公式(5)表示,
式中,activity(u)为用户u的活跃度,tq为提问问题的时间,tu为用户回答的所有问题中,距离提问问题最近的时间,其中:tq和tu单位是天数,如果用秒、分钟或者小时表示,会造成用户的活跃度非常低、评价用户的活跃度不合理;
步骤7、候选回答者排序:用户权威度和用户活跃度代表用户的先验概率,用户的先验概率采用公式(6)表示,
P(u)=authority(u)*activity(u) (6)
式中,P(u)为用户u的先验概率,authority(u)为用户u的权威度,activity(u)为用户u的活跃度,最佳回答者的概率,采用公式(7)表示,
P(u|q)∝P(u)P(q|u) (7)
式中,P(q|u)为相似度,表示从用户u档案中生成问题q的概率,P(u|q)代表用户u是问题q的最佳回答者的概率,再将该概率从大到小排序,即为回答者推荐顺序。
下面结合一个具体实施例对本发明加以详细说明。
步骤1、用户档案的构建:
假设User1回答过5个问题,其中在两个问题中,他回答的答案被选为最佳答案,那么User1回答的这两个问题构成其档案。所以User1的用户档案为:
User1:
Q1:tags:html css
title:content expand on overflow
body:I′m somewhat of a designer but i kind of suck at css,andcannot seem to get the site to expand right when the content changes.
Q2:tags:html css design firefox google-chrome
Title:CSS Resources for cross browser compatibility
Body:Are there any good web resources to explain tips,tricks,andtechniques for writing good cross-browser friendly CS S/HTML?After strugglingwith This Problem for a while I am looking to sharpen my CSS skills.Thanks!
其他用户的档案类似,为每个用户构建档案。
假设测试集问题是:
Q:tags:html ess
Title:Why does my floating div push around other divs?
Body:I have a div which has a table which has a google map.I want toplace a info box within the google map external to the map,just floating on top.
步骤2、数据预处理:
把所有数据中<code></code>之间无意义的代码去除,作为下一步训练的数据。同时对所有测试集和用户档案进行去除停用词和标点符号处理。处理后的User1档案和问题Q为:
User1:
Q1:Tags:html css
Title:content expand overflow
Body:designer suck css site expand content
Q2:Tags:html css design firefox google-chrome
Title:css resources cross browser compatibility
Body:web resources explain tips tricks techniques writing cross browserfriendly css html struggling sharpen css skills
处理后的问题Q为:
Q:Tags:html css
Title:floating div push divs
Body:div table google map info box google map external map floatingtop
步骤3、词向量的训练:
利用步骤2处理好的数据使用word2vec训练得到语料中所有词的向量。比如我们训练5维词向量,特征词html向量为:<-0.370030,-0.039364,0.060098,-0.058148,-0.107576>,其他词类似均为5维。
步骤4、文档向量的表示:
首先我们挑选出User1回答的问题中出现次数最多的两个标签词,从User1的档案中可以看出html和css出现次数最多,所以html和css分别代表User1档案的主题。把User1档案中所有title域和body域中的词分别与html和css计算相似度,根据相似度大小对User1档案中特征词排序。假设根据与html的相似度对特征词排序如下:
html css css css css web browser browser site designer overflow contentcontent expand expand suck resources resources techniques writing skills explaintips tricks struggling sharpen compatibility friendly cross cross
根据与CSS的相似度对特征词排序如下:
css css css css html browser browser overflow web site designer contentcontent expand expand techniques suck resources resources explain tips trickswriting struggling sharpen skills compatibility friendly cross cross
分别取前1/2的特征词代表该用户的主题词,根据词向量的叠加性,将这些词向量叠加表示文档向量,最终User1将得到两个向量分别为:
<-19.793843,-3.156878,11.670619,-0.223189,5.1690369>
<-12.046653,-10.475155,32.190896,24.630659,-0.525426>
测试集问题Q的tag为html和css,标签词向量对应维度相加,代表测试问题的主题,计算问题title和body域中的每个词与主题向量的相似度,再根据相似度从大到小排序,排序之后的特征词结果如下:
div div div table floating floating push top google google info box map mapmap external
取前1/2的特征词向量相加表示问题向量,问题向量如下:
<-5.648727,-4.7858710,18.144379,10.405326,2.413224>
经过该过程每个用户包含两个档案向量,计算问题和每个用户的两个向量的相似度,取两个相似度较大的作为用户与问题的相似度。
步骤5、用户权威度的计算:
User1回答了5个问题,其中在两个问题中User1被选为最佳回答者,故numansu等于2,所以User1的权威度为authority(User1)=log(1+numansu)=log(1+2);
步骤6、用户活跃度的计算:
假设问题Q被提问的时间为“2011-01-05T14:29:22.120”,在问题被提出时User1最近一次活跃的时间为“2011-01-04T00:12:21.643”,根据且指数以天为单位,所以分别把上述时间转化为秒,tq=1294208962.120s,tu=1294071141.643;则activity(u)=exp- 1.595144。
步骤7、候选回答者排序:根据权威度、活跃度、相似度计算用户回答问题Q的概率P(u|q)∝P(u)P(q|u),根据概率从大到小排序,得到用户的推荐列表User1,User2,User3......,最终User1为问题Q的最佳回答者。
为了检验本发明的有效性,实验数据中包含13000多个候选回答者,选取10000个问题作为测试集,这些问题都存在最佳回答者。在相同的测试集上,本发明还同时实现了TF_IDF和Language Model两种方法,它们测试结果的准确率S1均为3%,而采用本发明的方法,测试结果S1达到了6%,提高了将近一倍。从表中可以看出,本发明的方法SN值均高于另外两种方法。表1为本发明与TF-IDF和Language Model实验准确率对比表。
表1
Claims (1)
1.一种基于词向量的问题路由方法,其特征在于包括以下步骤:
步骤1、用户档案的构建:根据用户的回答历史为用户构建档案,社区问答中回答过问题的用户都是一个新问题的候选回答者,对于每个用户档案的构建,具体包括以下子步骤:
步骤(a)、从Stackoverflow网站提供的网址下载从网站建立之初2008年7月到目前2014年3月为止的所有数据,数据为XML格式,读取XML文件格式抽取所有问题,其中包括问题的标签tag域、标题title域和内容body域;
步骤(b)、收集用户回答过的问题中被选为最佳答案的那些问题组成用户的档案;
步骤(c)、忽略用户回答的问题中被选为最佳答案的数量比较少的用户,只选择回答的问题中至少包含10个被选为最佳答案的用户作为候选回答者;
步骤2、数据预处理,具体包括以下子步骤:
步骤(a)、由于该问答社区中的问题都与计算机编程相关,所以用户提出的问题中body域往往会包含许多代码,而代码中不含有语义信息,对训练结果没有帮助,甚至可能对训练结果产生不良影响,因而把XML格式文件中<code></code>之间的代码信息去除;
步骤(b)、用户档案和测试集中的问题去除停用词及标点符号;
步骤3、词向量的训练,具体包括以下子步骤:
步骤(a)、根据处理好的数据,对特征词进行Huffman编码;
步骤(b)、为了把每个词都用矢量表示,对每个词定义一个一定维度的实数向量,通过逻辑回归二元分类方法预测Huffman树中词语word路径边值的概率;
步骤(c)、逻辑回归模型输入变量未知,通过损失函数和求导公式对系数和输入变量进行更新,更新后的输入变量作为特征词的向量,词向量的维度可以指定,本发明设置400维来测试词向量维度对结果的影响,训练模型包括CBOW模型和skip-gram模型,本发明使用CBOW模型;
步骤4、文档向量的表示,具体包括以下子步骤:
步骤(a)、问题标签是问题所属的类别,能代表一个问题的主题,用户档案中出现次数最多的两个标签词代表用户主题,基于词向量的叠加性,标签词向量相加代表用户的主题向量;
步骤(b)、计算文档中每个特征词和标签词向量的相似度,根据相似度大小对特征词进行排序;
步骤(c)、抽取主题词,根据已经排好序的特征词,取前1/2的词作为用户的主题词,特征词向量叠加代表用户的文档向量,采用公式(1)表示,
式中,为用户的文档向量,nu为用户的文档中特征词数量,为第i个特征词向量;
步骤(d)、测试集中的问题向量,根据标签词进行抽取,采用公式(2)表示,
式中,为测试问题的文档向量,nq为测试问题中特征词数量,为第i个特征词向量;
步骤(e)、计算测试集中的问题跟每个用户档案的相似度,采用公式(3)表示,
式中,为问题向量与用户档案向量的相似度;
步骤5、用户权威度的计算:用户回答的问题中,被选为最佳答案的数量越多,代表该用户的权威度越大,使用log进行平滑,用户u的权威度采用公式(4)表示,
authority(u)=log(1+numansu) (4)
式中,authority(u)为用户u的权威度,numansu为用户回答的问题中被选为最佳答案的数量;
步骤6、用户活跃度的计算:在社区中每个用户活跃时间不同,并且某个问题被提出时,一些用户已经很久没有回答任何问题或者即使之前回答过很多问题,但该用户的活跃度仍然比较低,本发明采用问题被提出的时间与提出问题之前用户最近一次回答问题的时间间隔衡量用户的活跃度,时间相隔越近,代表用户越活跃,用户u的活跃度采用公式(5)表示,
式中,activity(u)为用户u的活跃度,tq为提问问题的时间,tu为用户回答的所有问题中,距离提问问题最近的时间,其中:tq和tu单位是天数,如果用秒、分钟或者小时表示,会造成用户的活跃度非常低、评价用户的活跃度不合理;
步骤7、候选回答者排序:用户权威度和用户活跃度代表用户的先验概率,用户的先验概率采用公式(6)表示,
P(u)=authority(u)*activity(u) (6)
式中,P(u)为用户u的先验概率,authority(u)为用户u的权威度,activity(u)为用户u的活跃度,最佳回答者的概率,采用公式(7)表示,
P(u|q)∝P(u)P(q|u) (7)
式中,P(q|u)为相似度,表示从用户u档案中生成问题q的概率,P(u|q)代表用户u是问题q的最佳回答者的概率,再将该概率从大到小排序,即为回答者推荐顺序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510057352.5A CN104636456B (zh) | 2015-02-03 | 2015-02-03 | 一种基于词向量的问题路由方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510057352.5A CN104636456B (zh) | 2015-02-03 | 2015-02-03 | 一种基于词向量的问题路由方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636456A true CN104636456A (zh) | 2015-05-20 |
CN104636456B CN104636456B (zh) | 2018-01-23 |
Family
ID=53215202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510057352.5A Active CN104636456B (zh) | 2015-02-03 | 2015-02-03 | 一种基于词向量的问题路由方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104636456B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117440A (zh) * | 2015-08-11 | 2015-12-02 | 北京奇虎科技有限公司 | 确定待推荐应用app的方法及装置 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106294505A (zh) * | 2015-06-10 | 2017-01-04 | 华中师范大学 | 一种反馈答案的方法和装置 |
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN106776534A (zh) * | 2016-11-11 | 2017-05-31 | 北京工商大学 | 词向量模型的增量式学习方法 |
CN107562729A (zh) * | 2017-09-14 | 2018-01-09 | 云南大学 | 基于神经网络和主题强化的党建文本表示方法 |
CN107562836A (zh) * | 2017-06-07 | 2018-01-09 | 北京航空航天大学 | 基于主题模型和机器学习的回答者推荐方法 |
CN109190372A (zh) * | 2018-07-09 | 2019-01-11 | 四川大学 | 一种基于字节码的JavaScript恶意代码检测模型 |
CN109739951A (zh) * | 2018-12-25 | 2019-05-10 | 广东工业大学 | 一种基于lda主题模型的文本特征提取方法 |
CN110019736A (zh) * | 2017-12-29 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 基于语言模型的问答匹配方法、系统、设备及存储介质 |
CN110162769A (zh) * | 2018-07-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN110570941A (zh) * | 2019-07-17 | 2019-12-13 | 北京智能工场科技有限公司 | 一种基于文本语义向量模型评估心理状态的系统和装置 |
CN110909142A (zh) * | 2019-11-20 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 一种问答模型的问题语句处理方法、装置、电子设备及存储介质 |
CN111310453A (zh) * | 2019-11-05 | 2020-06-19 | 上海金融期货信息技术有限公司 | 一种基于深度学习的用户主题向量化表示方法和系统 |
CN111667200A (zh) * | 2020-07-09 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN112466436A (zh) * | 2020-11-25 | 2021-03-09 | 北京小白世纪网络科技有限公司 | 基于循环神经网络的智能中医开方模型训练方法及装置 |
WO2021147421A1 (zh) * | 2020-01-21 | 2021-07-29 | 华为技术有限公司 | 用于人机交互的自动问答方法、装置和智能设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101257512A (zh) * | 2008-02-02 | 2008-09-03 | 黄伟才 | 用于问答系统的问答匹配方法及问答方法和系统 |
US20100070554A1 (en) * | 2008-09-16 | 2010-03-18 | Microsoft Corporation | Balanced Routing of Questions to Experts |
CN102495860A (zh) * | 2011-11-22 | 2012-06-13 | 北京大学 | 基于语言模型的专家推荐方法 |
CN102637170A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 一种问题推送方法及系统 |
CN104254865A (zh) * | 2012-02-29 | 2014-12-31 | 爱本卜公司 | 凭经验的专家确定和问题路由系统和方法 |
-
2015
- 2015-02-03 CN CN201510057352.5A patent/CN104636456B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101257512A (zh) * | 2008-02-02 | 2008-09-03 | 黄伟才 | 用于问答系统的问答匹配方法及问答方法和系统 |
US20100070554A1 (en) * | 2008-09-16 | 2010-03-18 | Microsoft Corporation | Balanced Routing of Questions to Experts |
CN102637170A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 一种问题推送方法及系统 |
CN102495860A (zh) * | 2011-11-22 | 2012-06-13 | 北京大学 | 基于语言模型的专家推荐方法 |
CN104254865A (zh) * | 2012-02-29 | 2014-12-31 | 爱本卜公司 | 凭经验的专家确定和问题路由系统和方法 |
Non-Patent Citations (1)
Title |
---|
HUALEI DONG 等: "Predicting Best Answerers for New Questions: An Approach Leveraging Distributed Representations of Words in Community Question Answering", 《2015 NINTH INTERNATIONAL CONFERENCE ON FRONTIER OF COMPUTER SCIENCE AND TECHNOLOGY (FCST)》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294505A (zh) * | 2015-06-10 | 2017-01-04 | 华中师范大学 | 一种反馈答案的方法和装置 |
CN106294505B (zh) * | 2015-06-10 | 2020-07-07 | 华中师范大学 | 一种反馈答案的方法和装置 |
CN105117440A (zh) * | 2015-08-11 | 2015-12-02 | 北京奇虎科技有限公司 | 确定待推荐应用app的方法及装置 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
CN105930318B (zh) * | 2016-04-11 | 2018-10-19 | 深圳大学 | 一种词向量训练方法及系统 |
CN106227722B (zh) * | 2016-09-12 | 2019-07-05 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN106570708B (zh) * | 2016-10-31 | 2020-09-11 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN106776534B (zh) * | 2016-11-11 | 2020-02-11 | 北京工商大学 | 词向量模型的增量式学习方法 |
CN106776534A (zh) * | 2016-11-11 | 2017-05-31 | 北京工商大学 | 词向量模型的增量式学习方法 |
CN107562836A (zh) * | 2017-06-07 | 2018-01-09 | 北京航空航天大学 | 基于主题模型和机器学习的回答者推荐方法 |
CN107562729A (zh) * | 2017-09-14 | 2018-01-09 | 云南大学 | 基于神经网络和主题强化的党建文本表示方法 |
CN107562729B (zh) * | 2017-09-14 | 2020-12-08 | 云南大学 | 基于神经网络和主题强化的党建文本表示方法 |
CN110019736A (zh) * | 2017-12-29 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 基于语言模型的问答匹配方法、系统、设备及存储介质 |
CN110019736B (zh) * | 2017-12-29 | 2021-10-01 | 北京京东尚科信息技术有限公司 | 基于语言模型的问答匹配方法、系统、设备及存储介质 |
CN110162769A (zh) * | 2018-07-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN110162769B (zh) * | 2018-07-05 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN109190372A (zh) * | 2018-07-09 | 2019-01-11 | 四川大学 | 一种基于字节码的JavaScript恶意代码检测模型 |
CN109739951A (zh) * | 2018-12-25 | 2019-05-10 | 广东工业大学 | 一种基于lda主题模型的文本特征提取方法 |
CN110570941A (zh) * | 2019-07-17 | 2019-12-13 | 北京智能工场科技有限公司 | 一种基于文本语义向量模型评估心理状态的系统和装置 |
CN110570941B (zh) * | 2019-07-17 | 2020-08-14 | 北京智能工场科技有限公司 | 一种基于文本语义向量模型评估心理状态的系统和装置 |
CN111310453A (zh) * | 2019-11-05 | 2020-06-19 | 上海金融期货信息技术有限公司 | 一种基于深度学习的用户主题向量化表示方法和系统 |
CN111310453B (zh) * | 2019-11-05 | 2023-04-25 | 上海金融期货信息技术有限公司 | 一种基于深度学习的用户主题向量化表示方法和系统 |
CN110909142B (zh) * | 2019-11-20 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 一种问答模型的问题语句处理方法、装置、电子设备及存储介质 |
CN110909142A (zh) * | 2019-11-20 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 一种问答模型的问题语句处理方法、装置、电子设备及存储介质 |
WO2021147421A1 (zh) * | 2020-01-21 | 2021-07-29 | 华为技术有限公司 | 用于人机交互的自动问答方法、装置和智能设备 |
CN111667200A (zh) * | 2020-07-09 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN111667200B (zh) * | 2020-07-09 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN112466436A (zh) * | 2020-11-25 | 2021-03-09 | 北京小白世纪网络科技有限公司 | 基于循环神经网络的智能中医开方模型训练方法及装置 |
CN112466436B (zh) * | 2020-11-25 | 2024-02-23 | 北京小白世纪网络科技有限公司 | 基于循环神经网络的智能中医开方模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104636456B (zh) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104636456A (zh) | 一种基于词向量的问题路由方法 | |
CN108021616B (zh) | 一种基于循环神经网络的社区问答专家推荐方法 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Debortoli et al. | Text mining for information systems researchers: An annotated topic modeling tutorial | |
Lu et al. | Opinion integration through semi-supervised topic modeling | |
CN106201465B (zh) | 面向开源社区的软件项目个性化推荐方法 | |
CN103164454B (zh) | 关键词分组方法及系统 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN109960800A (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN105205699A (zh) | 基于酒店点评的用户标签和酒店标签匹配方法及装置 | |
Velldal et al. | NoReC: The norwegian review corpus | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
CN106156204A (zh) | 文本标签的提取方法和装置 | |
CN104102721A (zh) | 信息推荐方法和装置 | |
CN101004737A (zh) | 基于关键词的个性化文档处理系统 | |
CN110717038B (zh) | 对象分类方法及装置 | |
CN102262634A (zh) | 一种自动问答方法及系统 | |
CN102750316A (zh) | 基于语义共现模型的概念关系标签抽取方法 | |
CN103870001A (zh) | 一种生成输入法候选项的方法及电子装置 | |
CN112883175B (zh) | 结合预训练模型及模板生成的气象服务交互方法及系统 | |
WO2020065970A1 (ja) | 学習システム、学習方法、及びプログラム | |
CN111143507A (zh) | 一种基于复合式问题的阅读理解方法 | |
Shekhawat | Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 | |
CN106202498A (zh) | 一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |