CN112434517A - 一种结合主动学习的社区问答网站答案排序方法及系统 - Google Patents
一种结合主动学习的社区问答网站答案排序方法及系统 Download PDFInfo
- Publication number
- CN112434517A CN112434517A CN202011240697.1A CN202011240697A CN112434517A CN 112434517 A CN112434517 A CN 112434517A CN 202011240697 A CN202011240697 A CN 202011240697A CN 112434517 A CN112434517 A CN 112434517A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- answers
- candidate
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种结合主动学习的社区问答网站答案排序方法及系统,排序方法包括步骤S1进行问答数据表征和建模,步骤S2结合主动学习构建训练集以及候选问答对排序关系预测。本发明同时提供了一种结合主动学习的社区问答网站答案排序系统。本发明首先对CQA网站问答数据进行表征和建模,通过长尾因子解决社区数据长尾分布给答案排序带来的干扰,在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合,在基于规则自动构建标注训练集外,还构建未标注训练集,在未标注训练集中额外选择样本进行标注,将标注结果合并之后再次训练答案排序模型,从而实现以尽可能低的标注代价换取到尽可能高的模型性能。
Description
技术领域
本发明涉及互联网技术,具体为一种结合主动学习的社区问答网站答案排序方法及系统。
背景技术
自21世纪以来,以用户为中心的Web2.0技术飞速发展,互联网用户成为拥有网络内容消费者和网络内容生成者双重身份的新时代用户。互联网对用户生成内容(UserGenerate Content,UGC)的支持,使得用户间通过网络可以分享更为复杂、多样的信息,基于此,社区问答(Community Question Answering,CQA)网站应运而生。CQA网站是一类开放的知识信息交流平台,通过自然语言问答形式将有信息需求的用户和乐于分享个人经验知识的用户关联到一起,实现知识信息准确、直接的传递,并支持用户通过点赞、评论等操作表达对问答数据的态度。从2005年第一个CQA网站“Yahoo!Answers”的出现,到至今“StackExchange”、“Quora”、“知乎”、“百度知道”等各类中英文CQA网站的不断出现,吸引了大量用户,成为用户获取信息和分享经验知识的重要渠道。
CQA网站发展至今,用户在系统中获取信息的方式经历了从直接提问到优先搜索的变迁。CQA网站发展初期,没有问答数据积累,有信息需求的用户通常会选择直接提问并等待其他的用户回答,这种方式可以直接获得用户所需信息,但通常等待时间很长,甚至等待很长时间后也没有答案。近年来,CQA网站快速发展,积累了大量问答数据,其中包含着很多相似提问甚至是相同提问,所以大部分用户在提问前会优先基于自己的问题检索CQA网站的历史问答数据,当检索到的历史问答数据无法满足需求时再去提问,从而减少等待时间,提升使用体验。目前主流CQA网站的检索功能一般给用户返回相似问题列表,并分别对每个相似问题的答案根据点赞、评论等数据进行排序。这种方式在一定程度上能够帮助用户进行答案选择,但依然存在问题,例如大量问答数据的浏览和对来自不同相似问题的答案之间的优劣判断造成了用户的认知过载,降低了用户的使用体验。所以,需要对所有相似问题的答案进行统一排序,针对用户的检索目标直接返回已排序的答案列表,帮助用户进行答案选择已成为了研究热点,即CQA网站答案排序任务,也可以称为社区问答任务。然而,CQA网站问答数据的特点给CQA网站答案排序方法的研究造成了困难。首先,CQA网站问答文本长度相差较大,共现词少且分布稀疏,另外,作为用户生成文本,答案文本中包含了大量冗余、噪声甚至是错误信息,加剧了问答文本间的语义鸿沟问题,对文本建模造成了困难;其次,CQA网站相关工作一般会引入基于社区数据计算的社区特征,如基于问题下所有答案总赞同数计算某个答案的赞同数份额,基于用户回答数计算用户平均每个回答所获得的赞同数,这种计算只有在社区数据足够大时才能保证社区特征的准确性。而现实中,CQA网站社区数据呈长尾分布,大量问答数据的社区特征数据很小,导致答案排序模型偏向大量社区特征难以准确反映数据真实水平的问答数据;最后,考虑到CQA网站中问题下正确答案并不唯一,用户对某个答案的评价基于与其他候选答案的比较,所以更适合采用基于答案对的排序方法,即将答案排序问题转换为一系列二分类问题,预测目标问题下任意两个候选答案的排序关系。相较于预测问题和答案间相关性的基于单答案的排序方法,基于答案对的排序方法在训练集标注时需要对任意两个候选答案间的排序关系进行标注,训练集规模增长且标注难度增加。
目前国内外不少CQA网站答案排序相关工作为了降低训练集标注代价采用基于单答案的排序方法,直接对问题和每一个候选答案进行建模,预测问答间相关性,忽略了CQA网站中答案间的排序关系;并且在对CQA网站问答数据进行表征时,没有考虑到问答文本数据间明显的语义鸿沟,也没有考虑到问答社区数据长尾分布给研究带来的干扰。
发明内容
本发明的目的在于针对上述现有技术中CQA网站答案排序时问答文本数据间语义鸿沟以及问答社区数据长尾分布带来的问题,提供一种结合主动学习的社区问答网站答案排序方法及系统,减少答案排序过程中的干扰,降低文本建模的难度以及样本标注代价。
为了实现上述目的,本发明有如下的技术方案:
一种结合主动学习的社区问答网站答案排序方法,包括以下步骤:
S1、问答数据表征和建模:首先抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;然后基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将所述的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征;最后将问答数据社区特征输入QQA-CNN模型将问答数据表征为分布式向量;
S2、结合主动学习构建训练集以及候选问答对排序关系预测:首先对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集;然后基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系;最后构建未标注训练集,结合主动学习从中选择额外样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
优选的,所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。
优选的,所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数;
所述的问题答案数指问题下的答案总数,所述的用户回答数指用户在网站中提供的答案总数,所述的用户关注者数指用户被关注的总人次;所述的答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,答案赞同份额的计算方式如下:
所述的用户平均赞同数、用户平均喜欢数以及用户答案平均被收藏数分别指的是用户平均每个回答获得的赞同数、喜欢数和被收藏数,其计算方式如下:
式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。
优选的,所述的步骤S1的问题长尾因子和用户长尾因子计算方式如下:
mi为问题下的答案总数;
ωq=0.1,φq=0.6均表示问题长尾因子计算参数;
uaci表示用户ui的回答数;
ωu=0.1,φu=1均表示用户长尾因子计算参数。
优选的,步骤S1中的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,以及两个深度网络间的注意力机制模块和特征连接层;针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块,最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,得到CQA网站问答数据的表征。
优选的,所述的卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征;池化层中,QQA-CNN采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化;注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图和注意力矩阵A计算表达式如下:
式中:|·|表示欧几里得距离;
注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重。
所述的特征连接层进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度,最终通过QQA-CNN模型将问答数据表征为分布式向量。
优选的,所述的步骤S2对问答数据集进行统计分析后,得到三条规则并对其进行形式化;首先,CQA网站中,同一问题下,最佳答案的排名会高于非最佳答案;其次,CQA网站中,同一问题下,非最佳答案间的排名先后顺序没有区别;最后,CQA网站中,目标问题下与目标问题领域相同问题的答案的排名比与目标问题领域不同问题的答案的排名高;
对以上三条规则形式化如下:
基于形式化得到的三条规则,设计程序自动构建标注训练集L。
优选的,所述的步骤S2答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建,输入包括目标问题和两个候选问答对相关的文本特征和社区特征;
首先,模型将输入的目标问题和两个候选问答对分别组成两个问答三元组,将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示;
然后,将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层,通过非线性映射得到目标问题和候选问答对间的相关性分数,根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签;当输出为1时,意味着第一个候选问答对在最终排序中比第二个候选问答对排名高;而当输出为-1时,则结果相反;
答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下:
式中:ti和ti'表示排序标签为1和-1的问答三元组相关特征集合;uj和u'j表示排序标签为0的问答三元组相关特征集合;F(ti)表示ti通过QQA-CNN进行表征后输入全连接层得到的相关性分数;yi表示候选问答对期望的先后排序标签;Φ表示答案排序模型中的所有参数,包括QQA-CNN模型和全连接层中的参数;λ和μ表示答案排序算法超参数,λ=0.05,μ=0.01。
优选的,所述的步骤S2未标注训练集根据实际研究目标进行构建,对目标问题,在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题;然后,用相似问题及相似问题下所有答案构建目标问题的候选问答对集;最后,不重复的从目标问题候选问答对集中每次选择两个候选问答对,将目标问题和两个候选问答对分别组成两个三元组,则两个三元组构成的三元组对就是未标注训练集中的一个样本;在自动构建标注训练集外,将主动学习应用于答案排序算法,根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型;查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距,差距越小,信息熵越大,模型预测结果的不准确性越大,具体计算公式如下:
查询函数在选择样本时结合候选答案间的相似度,最终查询函数如下:
q(TTi')=e(TTi')+β·sim(ai,ai')
式中:ai和ai'表示两个候选答案的文本特征矩阵;sim表示余弦相似度;β参数决定协调候选答案相似度对最终查询分数的影响,β=0.1;
将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数,计算表达式如下:
式中:mi表示目标问题queryi下问答三元组对的数量。
本发明同时提供一种结合主动学习的社区问答网站答案排序系统,包括:
问答数据表征模块,用于抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征,并通过将问答数据社区特征输入QQA-CNN模型,使得问答数据表征为分布式向量;
训练集构建与答案排序模块,用于通过对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集,基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系,构建未标注训练集,通过结合主动学习从中选择额外的样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
相较于现有技术,本发明有如下的有益效果:首先对CQA网站问答数据进行表征和建模,通过长尾因子解决社区数据长尾分布给答案排序带来的干扰,在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合,在基于规则自动构建标注训练集外,还构建未标注训练集,在未标注训练集中额外选择样本进行标注,将标注结果合并之后再次训练答案排序模型,从而实现以尽可能低的标注代价换取到尽可能高的模型性能。本发明能够对CQA网站中目标问题下的候选答案进行统一排序。
附图说明
图1为本发明QQA-CNN模型的结构示意图;
图2为本发明答案排序模型的结构示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
本发明结合主动学习的社区问答网站答案排序方法可以分为如下2个过程:
(1)问答数据表征和建模,包括3个步骤;
第1步:首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。
第2步:抽取问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数、用户关注者数作为问答数据社区特征。
问题答案数指问题下的答案总数;用户回答数指用户在网站中提供的答案总数;用户关注者数指用户被关注的总人次。
答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,计算公式如下:
用户平均赞同数、用户平均喜欢数和用户答案平均被收藏数指用户平均每个回答获得的赞同数、喜欢数和被收藏数,计算公式分别如下:
式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。
考虑到社区问答网站中用户回答数和问题下答案总赞同数呈长尾部分,大部分问题下答案总赞同数很少,大部分用户回答数很少,为反映不同问题下答案的答案赞同份额和不用用户的用户平均赞同数等社区特征的计算基数问题下答案总赞同数和用户回答数的差异,提出问题长尾因子和用户长尾因子,计算公式分别如下:
式中:qvi表示问题qi下所有答案的赞同数之和,即mi为问题下的答案总数;ωq=0.1,φq=0.6表示问题长尾因子计算参数;uaci表示用户ui的回答数;ωu=0.1,φu=1表示用户长尾因子计算参数。
问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,通过用社区特征乘以长尾因子的结果代替社区特征,以平衡因数据长尾分布给研究带来的影响。
第3步:将目标问题、候选答案和候选答案对应原问题的文本特征和问答数据相关社区特征输入QQA-CNN模型获取问答数据的分布式表示。
QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,两个深度网络间的注意力机制模块和特征连接层。针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN在两个深度网络前两个池化层间分别引入了两个注意力机制模块,最终在连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,最终得到CQA网站问答数据的表征。
卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征。池化层中,QQA-CNN模型采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化。注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图和注意力矩阵A计算公式如下:
式中:|·|表示欧几里得距离,注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重。
QQA-CNN在两个深度神经网络后增加了一个连接层,进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度。最终,通过QQA-CNN模型将问答数据表征为分布式向量。
(2)结合主动学习的训练集构建及候选问答对间排序关系预测,包括3个步骤。
第1步:对社区问答网站问答数据集进行统计分析,将得到的结果形式化为规则从而自动构建标注训练集。
对问答数据集进行统计分析后,得到三条规则并对其进行形式化。首先,CQA网站中,同一问题下,最佳答案的排名通常会高于非最佳答案。其次,CQA网站中,同一问题下,非最佳答案间的排名先后顺序没有明显的区别。最后,CQA网站中,目标问题下与目标问题领域相同的问题下的答案的排名比与目标问题领域不同的问题下的答案的排名高。
对以上三条规则形式化如下:
基于形式化得到的三条规则,设计程序自动构建标注训练集L。
第2步:基于QQA-CNN模型构建答案排序模型并训练预测任意两个候选答案间的排序关系。
答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建,输入包括目标问题和两个候选问答对相关的文本特征和社区特征。首先,模型将输入的目标问题和两个候选问答对分别组成两个问答三元组,将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示;然后,将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层,通过非线性映射得到目标问题和候选问答对间的相关性分数,根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签。当输出为1时,意味着第一个候选问答对在最终排序中应比第二个候选问答对排名高;而当输出为-1时,则结果相反。
答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下:
式中:ti和t’i表示排序标签为1和-1的问答三元组相关特征集合;uj和u'j表示排序标签为0的问答三元组相关特征集合;F(ti)表示ti通过QQA-CNN进行表征后输入全连接层得到的相关性分数;yi表示候选问答对期望的先后排序标签;Φ表示答案排序模型中的所有参数,包括了QQA-CNN网络和全连接层中的参数;λ和μ表示答案排序算法超参数,λ=0.05,μ=0.01。
第3步:构建未标注样本集,结合主动学习从中选择额外样本进行人工标注,合并进标注训练集进一步训练答案排序模型。
未标注训练集U根据实际研究目标进行构建,对目标问题,在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题;然后,用相似问题及相似问题下所有答案构建目标问题的候选问答对集;最后,不重复的从目标问题候选问答对集中每次选择两个候选问答对,将目标问题和两个候选问答对分别组成两个三元组,则两个三元组构成的三元组对就是未标注训练集中的一个样本。
为降低训练集标注代价,在自动构建标注训练集外,将主动学习应用于答案排序算法,根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型。
查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距,差距越小,信息熵越大,模型预测结果的不准确性越大,具体计算公式如下:
另外,考虑到社区问答网站中相似问题的优质答案具有一定的相似性,所以查询函数在选择样本时也考虑候选答案间的相似度,最终查询函数如下:
q(TTi')=e(TTi')+β·sim(ai,a’i) (14)
式中:ai和a’i表示两个候选答案的文本特征矩阵;sim表示余弦相似度;β参数表示协调候选答案相似度对最终查询分数的影响,β=0.1。
将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数,计算公式如下:
式中:mi表示目标问题queryi下问答三元组对的数量。
本发明同时提供一种结合主动学习的社区问答网站答案排序系统,包括:
问答数据表征模块,用于抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征,并通过将问答数据社区特征输入QQA-CNN模型,使得问答数据表征为分布式向量;
训练集构建与答案排序模块,用于通过对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集,基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系,构建未标注训练集,通过结合主动学习从中选择额外的样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。
Claims (10)
1.一种结合主动学习的社区问答网站答案排序方法,其特征在于,包括以下步骤:
S1、问答数据表征和建模:首先抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;然后基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将所述的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征;最后将问答数据社区特征输入QQA-CNN模型将问答数据表征为分布式向量;
S2、结合主动学习构建训练集以及候选问答对排序关系预测:首先对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集;然后基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系;最后构建未标注训练集,结合主动学习从中选择额外样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
2.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。
3.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数;
所述的问题答案数指问题下的答案总数,所述的用户回答数指用户在网站中提供的答案总数,所述的用户关注者数指用户被关注的总人次;所述的答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,答案赞同份额的计算方式如下:
所述的用户平均赞同数、用户平均喜欢数以及用户答案平均被收藏数分别指的是用户平均每个回答获得的赞同数、喜欢数和被收藏数,其计算方式如下:
式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。
5.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1中的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,以及两个深度网络间的注意力机制模块和特征连接层;针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块,最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,得到CQA网站问答数据的表征。
6.根据权利要求5所述结合主动学习的社区问答网站答案排序方法,其特征在于:
所述的卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征;池化层中,QQA-CNN模型采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化;注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图和注意力矩阵A计算表达式如下:
式中:|·|表示欧几里得距离;
注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重;
所述的特征连接层进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度,最终通过QQA-CNN模型将问答数据表征为分布式向量。
7.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S2对问答数据集进行统计分析后,得到三条规则并对其进行形式化;首先,CQA网站中,同一问题下,最佳答案的排名会高于非最佳答案;其次,CQA网站中,同一问题下,非最佳答案间的排名先后顺序没有区别;最后,CQA网站中,目标问题下与目标问题领域相同问题的答案的排名比与目标问题领域不同问题的答案的排名高;
对以上三条规则形式化如下:
基于形式化得到的三条规则,设计程序自动构建标注训练集L。
8.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S2答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建,输入包括目标问题和两个候选问答对相关的文本特征和社区特征;
首先,模型将输入的目标问题和两个候选问答对分别组成两个问答三元组,将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示;
然后,将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层,通过非线性映射得到目标问题和候选问答对间的相关性分数,根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签;当输出为1时,意味着第一个候选问答对在最终排序中比第二个候选问答对排名高;而当输出为-1时,则结果相反;
答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下:
式中:ti和t′i表示排序标签为1和-1的问答三元组相关特征集合;uj和u′j表示排序标签为0的问答三元组相关特征集合;F(ti)表示ti通过QQA-CNN进行表征后输入全连接层得到的相关性分数;yi表示候选问答对期望的先后排序标签;Φ表示答案排序模型中的所有参数,包括QQA-CNN模型和全连接层中的参数;λ和μ表示答案排序算法超参数,λ=0.05,μ=0.01。
9.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S2未标注训练集根据实际研究目标进行构建,对目标问题,在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题;然后,用相似问题及相似问题下所有答案构建目标问题的候选问答对集;最后,不重复的从目标问题候选问答对集中每次选择两个候选问答对,将目标问题和两个候选问答对分别组成两个三元组,则两个三元组构成的三元组对就是未标注训练集中的一个样本;在自动构建标注训练集外,将主动学习应用于答案排序算法,根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型;查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距,差距越小,信息熵越大,模型预测结果的不准确性越大,具体计算公式如下:
查询函数在选择样本时结合候选答案间的相似度,最终查询函数如下:
q(TT′i)=e(TT′i)+β·sim(ai,a′i)
式中:ai和a′i表示两个候选答案的文本特征矩阵;sim表示余弦相似度;β参数决定协调候选答案相似度对最终查询分数的影响,β=0.1;
将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数,计算表达式如下:
式中:mi表示目标问题queryi下问答三元组对的数量。
10.一种结合主动学习的社区问答网站答案排序系统,其特征在于,包括:
问答数据表征模块,用于抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征,并通过将问答数据社区特征输入QQA-CNN模型,使得问答数据表征为分布式向量;
训练集构建与答案排序模块,用于通过对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集,基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系,构建未标注训练集,通过结合主动学习从中选择额外的样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240697.1A CN112434517B (zh) | 2020-11-09 | 2020-11-09 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
PCT/CN2021/116051 WO2022095573A1 (zh) | 2020-11-09 | 2021-09-01 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
US17/955,584 US11874862B2 (en) | 2020-11-09 | 2022-09-29 | Community question-answer website answer sorting method and system combined with active learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240697.1A CN112434517B (zh) | 2020-11-09 | 2020-11-09 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434517A true CN112434517A (zh) | 2021-03-02 |
CN112434517B CN112434517B (zh) | 2023-08-04 |
Family
ID=74700021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011240697.1A Active CN112434517B (zh) | 2020-11-09 | 2020-11-09 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11874862B2 (zh) |
CN (1) | CN112434517B (zh) |
WO (1) | WO2022095573A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095573A1 (zh) * | 2020-11-09 | 2022-05-12 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377713B (zh) * | 2019-07-16 | 2023-09-15 | 广州探域科技有限公司 | 一种基于概率转移改善问答系统上下文的方法 |
CN115098664B (zh) * | 2022-08-24 | 2022-11-29 | 中关村科学城城市大脑股份有限公司 | 智能问答方法、装置、电子设备和计算机可读介质 |
CN116070884B (zh) * | 2023-03-30 | 2023-06-30 | 深圳奥雅设计股份有限公司 | 高密度城市社区和微气候监控与管理系统 |
CN116450796B (zh) * | 2023-05-17 | 2023-10-17 | 中国兵器工业计算机应用技术研究所 | 一种智能问答模型构建方法及设备 |
CN116701609B (zh) * | 2023-07-27 | 2023-09-29 | 四川邕合科技有限公司 | 基于深度学习的智能客服问答方法、系统、终端及介质 |
CN116953653B (zh) * | 2023-09-19 | 2023-12-26 | 成都远望科技有限责任公司 | 一种基于多波段天气雷达组网回波外推方法 |
CN118016314B (zh) * | 2024-04-08 | 2024-06-18 | 北京大学第三医院(北京大学第三临床医学院) | 一种医疗数据输入的优化方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180067922A1 (en) * | 2015-03-06 | 2018-03-08 | National Institute Of Information And Communications Technology | Entailment pair extension apparatus, computer program therefor and question-answering system |
CN109710741A (zh) * | 2018-12-27 | 2019-05-03 | 中山大学 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
CN110321421A (zh) * | 2019-07-04 | 2019-10-11 | 南京邮电大学 | 用于网站知识社区系统的专家推荐方法及计算机存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9817897B1 (en) * | 2010-11-17 | 2017-11-14 | Intuit Inc. | Content-dependent processing of questions and answers |
US11914674B2 (en) * | 2011-09-24 | 2024-02-27 | Z Advanced Computing, Inc. | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9378647B2 (en) * | 2013-08-20 | 2016-06-28 | Chegg, Inc. | Automated course deconstruction into learning units in digital education platforms |
US11204929B2 (en) * | 2014-11-18 | 2021-12-21 | International Business Machines Corporation | Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system |
US20170161364A1 (en) * | 2015-12-07 | 2017-06-08 | International Business Machines Corporation | Generating messages using keywords |
CN107992554A (zh) * | 2017-11-28 | 2018-05-04 | 北京百度网讯科技有限公司 | 提供问答信息的聚合结果的搜索方法和装置 |
US11055355B1 (en) * | 2018-06-25 | 2021-07-06 | Amazon Technologies, Inc. | Query paraphrasing |
US11380305B2 (en) * | 2019-01-14 | 2022-07-05 | Accenture Global Solutions Limited | System and method for using a question and answer engine |
US20230036072A1 (en) * | 2019-06-24 | 2023-02-02 | Zeyu GAO | AI-Based Method and System for Testing Chatbots |
US11366855B2 (en) * | 2019-11-27 | 2022-06-21 | Amazon Technologies, Inc. | Systems, apparatuses, and methods for document querying |
US11210341B1 (en) * | 2019-12-09 | 2021-12-28 | A9.Com, Inc. | Weighted behavioral signal association graphing for search engines |
US12014284B2 (en) * | 2019-12-27 | 2024-06-18 | Industrial Technology Research Institute | Question-answering learning method and question-answering learning system using the same and computer program product thereof |
US11709873B2 (en) * | 2020-01-13 | 2023-07-25 | Adobe Inc. | Reader-retriever approach for question answering |
US20210240775A1 (en) * | 2020-02-03 | 2021-08-05 | Intuit Inc. | System and method for providing automated and unsupervised inline question answering |
US20210365500A1 (en) * | 2020-05-19 | 2021-11-25 | Miso Technologies Inc. | System and method for question-based content answering |
US20210365837A1 (en) * | 2020-05-19 | 2021-11-25 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for social structure construction of forums using interaction coherence |
CN111738340B (zh) * | 2020-06-24 | 2022-05-20 | 西安交通大学 | 一种分布式K-means电力用户分类方法、存储介质及分类设备 |
US11321329B1 (en) * | 2020-06-24 | 2022-05-03 | Amazon Technologies, Inc. | Systems, apparatuses, and methods for document querying |
CN112434517B (zh) * | 2020-11-09 | 2023-08-04 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
US20220391595A1 (en) * | 2021-06-02 | 2022-12-08 | Oracle International Corporation | User discussion environment interaction and curation via system-generated responses |
US20230023958A1 (en) * | 2021-07-23 | 2023-01-26 | International Business Machines Corporation | Online question answering, using reading comprehension with an ensemble of models |
US11654371B2 (en) * | 2021-07-30 | 2023-05-23 | Sony Interactive Entertainment LLC | Classification of gaming styles |
US20230186026A1 (en) * | 2021-12-14 | 2023-06-15 | Oracle International Corporation | Data manufacturing frameworks for synthesizing synthetic training data to facilitate training a natural language to logical form model |
US20230205824A1 (en) * | 2021-12-23 | 2023-06-29 | Pryon Incorporated | Contextual Clarification and Disambiguation for Question Answering Processes |
US11893070B2 (en) * | 2022-02-08 | 2024-02-06 | My Job Matcher, Inc. | Apparatus and methods for expanding contacts for a social networking platform |
-
2020
- 2020-11-09 CN CN202011240697.1A patent/CN112434517B/zh active Active
-
2021
- 2021-09-01 WO PCT/CN2021/116051 patent/WO2022095573A1/zh active Application Filing
-
2022
- 2022-09-29 US US17/955,584 patent/US11874862B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180067922A1 (en) * | 2015-03-06 | 2018-03-08 | National Institute Of Information And Communications Technology | Entailment pair extension apparatus, computer program therefor and question-answering system |
CN109710741A (zh) * | 2018-12-27 | 2019-05-03 | 中山大学 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
CN110321421A (zh) * | 2019-07-04 | 2019-10-11 | 南京邮电大学 | 用于网站知识社区系统的专家推荐方法及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
田雅 等: "针对问答系统隐形垃圾内容的答案再排序模型", 计算机应用研究, vol. 34, no. 08 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095573A1 (zh) * | 2020-11-09 | 2022-05-12 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
US11874862B2 (en) | 2020-11-09 | 2024-01-16 | Xi'an Jiaotong University | Community question-answer website answer sorting method and system combined with active learning |
Also Published As
Publication number | Publication date |
---|---|
CN112434517B (zh) | 2023-08-04 |
US20230035338A1 (en) | 2023-02-02 |
US11874862B2 (en) | 2024-01-16 |
WO2022095573A1 (zh) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434517B (zh) | 一种结合主动学习的社区问答网站答案排序方法及系统 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
CN111753098A (zh) | 一种基于跨媒体动态知识图谱的教学方法及系统 | |
US20100191686A1 (en) | Answer Ranking In Community Question-Answering Sites | |
Patel et al. | CaPaR: a career path recommendation framework | |
CN110232113B (zh) | 一种提高知识库问答准确度的方法及系统 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN111813958B (zh) | 基于创新创业平台的智慧服务方法与系统 | |
CN111241407A (zh) | 一种基于强化学习的个性化搜索方法 | |
Bai et al. | Applied research of knowledge in the field of artificial intelligence in the intelligent retrieval of teaching resources | |
Zhong et al. | Design of a personalized recommendation system for learning resources based on collaborative filtering | |
CN113723853A (zh) | 岗位胜任力需求数据处理方法及装置 | |
CN115577185A (zh) | 基于混合推理和中智群决策的慕课推荐方法及装置 | |
AlGhamdi et al. | Learning to recommend items to wikidata editors | |
Shanshan et al. | An improved hybrid ontology-based approach for online learning resource recommendations | |
Ding et al. | Answering multiple-choice questions in geographical gaokao with a concept graph | |
CN111583363B (zh) | 一种图文新闻的视觉自动生成方法及系统 | |
CN116431788B (zh) | 面向跨模态数据的语义检索方法 | |
CN115795018B (zh) | 一种面向电网领域的多策略智能搜索问答方法及系统 | |
CN116628146A (zh) | 一种金融领域的faq智能问答方法及系统 | |
Talaghzi et al. | A combined E-learning course recommender system | |
Sun et al. | Research on question retrieval method for community question answering | |
CN111581326B (zh) | 一种基于异构外部知识源图结构抽取答案信息的方法 | |
Rasmussen et al. | Collective intelligence of the artificial life community on its own successes, failures, and future | |
Niranjan et al. | Question answering system for agriculture domain using machine learning techniques: literature survey and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |