CN112434517A - 一种结合主动学习的社区问答网站答案排序方法及系统 - Google Patents

一种结合主动学习的社区问答网站答案排序方法及系统 Download PDF

Info

Publication number
CN112434517A
CN112434517A CN202011240697.1A CN202011240697A CN112434517A CN 112434517 A CN112434517 A CN 112434517A CN 202011240697 A CN202011240697 A CN 202011240697A CN 112434517 A CN112434517 A CN 112434517A
Authority
CN
China
Prior art keywords
answer
question
answers
candidate
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011240697.1A
Other languages
English (en)
Other versions
CN112434517B (zh
Inventor
刘均
任若清
曾宏伟
马昆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202011240697.1A priority Critical patent/CN112434517B/zh
Publication of CN112434517A publication Critical patent/CN112434517A/zh
Priority to PCT/CN2021/116051 priority patent/WO2022095573A1/zh
Priority to US17/955,584 priority patent/US11874862B2/en
Application granted granted Critical
Publication of CN112434517B publication Critical patent/CN112434517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种结合主动学习的社区问答网站答案排序方法及系统,排序方法包括步骤S1进行问答数据表征和建模,步骤S2结合主动学习构建训练集以及候选问答对排序关系预测。本发明同时提供了一种结合主动学习的社区问答网站答案排序系统。本发明首先对CQA网站问答数据进行表征和建模,通过长尾因子解决社区数据长尾分布给答案排序带来的干扰,在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合,在基于规则自动构建标注训练集外,还构建未标注训练集,在未标注训练集中额外选择样本进行标注,将标注结果合并之后再次训练答案排序模型,从而实现以尽可能低的标注代价换取到尽可能高的模型性能。

Description

一种结合主动学习的社区问答网站答案排序方法及系统
技术领域
本发明涉及互联网技术,具体为一种结合主动学习的社区问答网站答案排序方法及系统。
背景技术
自21世纪以来,以用户为中心的Web2.0技术飞速发展,互联网用户成为拥有网络内容消费者和网络内容生成者双重身份的新时代用户。互联网对用户生成内容(UserGenerate Content,UGC)的支持,使得用户间通过网络可以分享更为复杂、多样的信息,基于此,社区问答(Community Question Answering,CQA)网站应运而生。CQA网站是一类开放的知识信息交流平台,通过自然语言问答形式将有信息需求的用户和乐于分享个人经验知识的用户关联到一起,实现知识信息准确、直接的传递,并支持用户通过点赞、评论等操作表达对问答数据的态度。从2005年第一个CQA网站“Yahoo!Answers”的出现,到至今“StackExchange”、“Quora”、“知乎”、“百度知道”等各类中英文CQA网站的不断出现,吸引了大量用户,成为用户获取信息和分享经验知识的重要渠道。
CQA网站发展至今,用户在系统中获取信息的方式经历了从直接提问到优先搜索的变迁。CQA网站发展初期,没有问答数据积累,有信息需求的用户通常会选择直接提问并等待其他的用户回答,这种方式可以直接获得用户所需信息,但通常等待时间很长,甚至等待很长时间后也没有答案。近年来,CQA网站快速发展,积累了大量问答数据,其中包含着很多相似提问甚至是相同提问,所以大部分用户在提问前会优先基于自己的问题检索CQA网站的历史问答数据,当检索到的历史问答数据无法满足需求时再去提问,从而减少等待时间,提升使用体验。目前主流CQA网站的检索功能一般给用户返回相似问题列表,并分别对每个相似问题的答案根据点赞、评论等数据进行排序。这种方式在一定程度上能够帮助用户进行答案选择,但依然存在问题,例如大量问答数据的浏览和对来自不同相似问题的答案之间的优劣判断造成了用户的认知过载,降低了用户的使用体验。所以,需要对所有相似问题的答案进行统一排序,针对用户的检索目标直接返回已排序的答案列表,帮助用户进行答案选择已成为了研究热点,即CQA网站答案排序任务,也可以称为社区问答任务。然而,CQA网站问答数据的特点给CQA网站答案排序方法的研究造成了困难。首先,CQA网站问答文本长度相差较大,共现词少且分布稀疏,另外,作为用户生成文本,答案文本中包含了大量冗余、噪声甚至是错误信息,加剧了问答文本间的语义鸿沟问题,对文本建模造成了困难;其次,CQA网站相关工作一般会引入基于社区数据计算的社区特征,如基于问题下所有答案总赞同数计算某个答案的赞同数份额,基于用户回答数计算用户平均每个回答所获得的赞同数,这种计算只有在社区数据足够大时才能保证社区特征的准确性。而现实中,CQA网站社区数据呈长尾分布,大量问答数据的社区特征数据很小,导致答案排序模型偏向大量社区特征难以准确反映数据真实水平的问答数据;最后,考虑到CQA网站中问题下正确答案并不唯一,用户对某个答案的评价基于与其他候选答案的比较,所以更适合采用基于答案对的排序方法,即将答案排序问题转换为一系列二分类问题,预测目标问题下任意两个候选答案的排序关系。相较于预测问题和答案间相关性的基于单答案的排序方法,基于答案对的排序方法在训练集标注时需要对任意两个候选答案间的排序关系进行标注,训练集规模增长且标注难度增加。
目前国内外不少CQA网站答案排序相关工作为了降低训练集标注代价采用基于单答案的排序方法,直接对问题和每一个候选答案进行建模,预测问答间相关性,忽略了CQA网站中答案间的排序关系;并且在对CQA网站问答数据进行表征时,没有考虑到问答文本数据间明显的语义鸿沟,也没有考虑到问答社区数据长尾分布给研究带来的干扰。
发明内容
本发明的目的在于针对上述现有技术中CQA网站答案排序时问答文本数据间语义鸿沟以及问答社区数据长尾分布带来的问题,提供一种结合主动学习的社区问答网站答案排序方法及系统,减少答案排序过程中的干扰,降低文本建模的难度以及样本标注代价。
为了实现上述目的,本发明有如下的技术方案:
一种结合主动学习的社区问答网站答案排序方法,包括以下步骤:
S1、问答数据表征和建模:首先抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;然后基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将所述的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征;最后将问答数据社区特征输入QQA-CNN模型将问答数据表征为分布式向量;
S2、结合主动学习构建训练集以及候选问答对排序关系预测:首先对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集;然后基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系;最后构建未标注训练集,结合主动学习从中选择额外样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
优选的,所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。
优选的,所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数;
所述的问题答案数指问题下的答案总数,所述的用户回答数指用户在网站中提供的答案总数,所述的用户关注者数指用户被关注的总人次;所述的答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,答案赞同份额的计算方式如下:
Figure BDA0002768266730000041
式中:
Figure BDA0002768266730000042
表示答案
Figure BDA0002768266730000043
的赞同份额;
Figure BDA0002768266730000044
表示答案
Figure BDA0002768266730000045
获得的赞同数;
Figure BDA0002768266730000046
表示问题qi下所有答案的赞同数之和;mi表示问题qi下的答案总数;
所述的用户平均赞同数、用户平均喜欢数以及用户答案平均被收藏数分别指的是用户平均每个回答获得的赞同数、喜欢数和被收藏数,其计算方式如下:
Figure BDA0002768266730000047
Figure BDA0002768266730000048
Figure BDA0002768266730000049
式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。
优选的,所述的步骤S1的问题长尾因子和用户长尾因子计算方式如下:
Figure BDA00027682667300000410
Figure BDA00027682667300000411
式中:qvi表示问题qi下所有答案的赞同数之和,即
Figure BDA00027682667300000412
mi为问题下的答案总数;
ωq=0.1,φq=0.6均表示问题长尾因子计算参数;
uaci表示用户ui的回答数;
ωu=0.1,φu=1均表示用户长尾因子计算参数。
优选的,步骤S1中的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,以及两个深度网络间的注意力机制模块和特征连接层;针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块,最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,得到CQA网站问答数据的表征。
优选的,所述的卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征;池化层中,QQA-CNN采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化;注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图
Figure BDA0002768266730000051
Figure BDA0002768266730000052
注意力矩阵A计算表达式如下:
Figure BDA0002768266730000053
式中:|·|表示欧几里得距离;
注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重。
所述的特征连接层进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度,最终通过QQA-CNN模型将问答数据表征为分布式向量。
优选的,所述的步骤S2对问答数据集进行统计分析后,得到三条规则并对其进行形式化;首先,CQA网站中,同一问题下,最佳答案的排名会高于非最佳答案;其次,CQA网站中,同一问题下,非最佳答案间的排名先后顺序没有区别;最后,CQA网站中,目标问题下与目标问题领域相同问题的答案的排名比与目标问题领域不同问题的答案的排名高;
对以上三条规则形式化如下:
Figure BDA0002768266730000061
Figure BDA0002768266730000062
Figure BDA0002768266730000063
其中,m≠1,n≠m,符号>代表对于目标问题qi,候选问答对
Figure BDA0002768266730000064
比候选问答对
Figure BDA0002768266730000065
的排名高,即排序标签为1,符号
Figure BDA0002768266730000066
代表对于目标问题qi,候选问答对
Figure BDA0002768266730000067
和候选问答对
Figure BDA0002768266730000068
间没有排序关系,即排序标签为0;
基于形式化得到的三条规则,设计程序自动构建标注训练集L。
优选的,所述的步骤S2答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建,输入包括目标问题和两个候选问答对相关的文本特征和社区特征;
首先,模型将输入的目标问题和两个候选问答对分别组成两个问答三元组,将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示;
然后,将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层,通过非线性映射得到目标问题和候选问答对间的相关性分数,根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签;当输出为1时,意味着第一个候选问答对在最终排序中比第二个候选问答对排名高;而当输出为-1时,则结果相反;
答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下:
Figure BDA0002768266730000069
式中:ti和ti'表示排序标签为1和-1的问答三元组相关特征集合;uj和u'j表示排序标签为0的问答三元组相关特征集合;F(ti)表示ti通过QQA-CNN进行表征后输入全连接层得到的相关性分数;yi表示候选问答对期望的先后排序标签;Φ表示答案排序模型中的所有参数,包括QQA-CNN模型和全连接层中的参数;λ和μ表示答案排序算法超参数,λ=0.05,μ=0.01。
优选的,所述的步骤S2未标注训练集根据实际研究目标进行构建,对目标问题,在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题;然后,用相似问题及相似问题下所有答案构建目标问题的候选问答对集;最后,不重复的从目标问题候选问答对集中每次选择两个候选问答对,将目标问题和两个候选问答对分别组成两个三元组,则两个三元组构成的三元组对就是未标注训练集中的一个样本;在自动构建标注训练集外,将主动学习应用于答案排序算法,根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型;查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距,差距越小,信息熵越大,模型预测结果的不准确性越大,具体计算公式如下:
Figure BDA0002768266730000071
Figure BDA0002768266730000072
式中:
Figure BDA0002768266730000073
表示TTi'中三元组ti和ti'排序标签为1的概率;f表示sigmoid函数;rscore(ti)表示通过答案排序模型得到的三元组ti的相关性分数;
查询函数在选择样本时结合候选答案间的相似度,最终查询函数如下:
q(TTi')=e(TTi')+β·sim(ai,ai')
式中:ai和ai'表示两个候选答案的文本特征矩阵;sim表示余弦相似度;β参数决定协调候选答案相似度对最终查询分数的影响,β=0.1;
将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数,计算表达式如下:
Figure BDA0002768266730000074
式中:mi表示目标问题queryi下问答三元组对的数量。
本发明同时提供一种结合主动学习的社区问答网站答案排序系统,包括:
问答数据表征模块,用于抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征,并通过将问答数据社区特征输入QQA-CNN模型,使得问答数据表征为分布式向量;
训练集构建与答案排序模块,用于通过对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集,基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系,构建未标注训练集,通过结合主动学习从中选择额外的样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
相较于现有技术,本发明有如下的有益效果:首先对CQA网站问答数据进行表征和建模,通过长尾因子解决社区数据长尾分布给答案排序带来的干扰,在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合,在基于规则自动构建标注训练集外,还构建未标注训练集,在未标注训练集中额外选择样本进行标注,将标注结果合并之后再次训练答案排序模型,从而实现以尽可能低的标注代价换取到尽可能高的模型性能。本发明能够对CQA网站中目标问题下的候选答案进行统一排序。
附图说明
图1为本发明QQA-CNN模型的结构示意图;
图2为本发明答案排序模型的结构示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
本发明结合主动学习的社区问答网站答案排序方法可以分为如下2个过程:
(1)问答数据表征和建模,包括3个步骤;
第1步:首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。
第2步:抽取问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数、用户关注者数作为问答数据社区特征。
问题答案数指问题下的答案总数;用户回答数指用户在网站中提供的答案总数;用户关注者数指用户被关注的总人次。
答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,计算公式如下:
Figure BDA0002768266730000091
式中:
Figure BDA0002768266730000092
表示答案
Figure BDA0002768266730000093
的赞同份额;
Figure BDA0002768266730000094
表示答案
Figure BDA0002768266730000095
获得的赞同数;
Figure BDA0002768266730000096
表示问题qi下所有答案的赞同数之和;mi表示问题qi下的答案总数。
用户平均赞同数、用户平均喜欢数和用户答案平均被收藏数指用户平均每个回答获得的赞同数、喜欢数和被收藏数,计算公式分别如下:
Figure BDA0002768266730000097
Figure BDA0002768266730000098
Figure BDA0002768266730000099
式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。
考虑到社区问答网站中用户回答数和问题下答案总赞同数呈长尾部分,大部分问题下答案总赞同数很少,大部分用户回答数很少,为反映不同问题下答案的答案赞同份额和不用用户的用户平均赞同数等社区特征的计算基数问题下答案总赞同数和用户回答数的差异,提出问题长尾因子和用户长尾因子,计算公式分别如下:
Figure BDA0002768266730000101
Figure BDA0002768266730000102
式中:qvi表示问题qi下所有答案的赞同数之和,即
Figure BDA0002768266730000103
mi为问题下的答案总数;ωq=0.1,φq=0.6表示问题长尾因子计算参数;uaci表示用户ui的回答数;ωu=0.1,φu=1表示用户长尾因子计算参数。
问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,通过用社区特征乘以长尾因子的结果代替社区特征,以平衡因数据长尾分布给研究带来的影响。
第3步:将目标问题、候选答案和候选答案对应原问题的文本特征和问答数据相关社区特征输入QQA-CNN模型获取问答数据的分布式表示。
QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,两个深度网络间的注意力机制模块和特征连接层。针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN在两个深度网络前两个池化层间分别引入了两个注意力机制模块,最终在连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,最终得到CQA网站问答数据的表征。
卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征。池化层中,QQA-CNN模型采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化。注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图
Figure BDA0002768266730000111
Figure BDA0002768266730000112
注意力矩阵A计算公式如下:
Figure BDA0002768266730000113
式中:|·|表示欧几里得距离,注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重。
QQA-CNN在两个深度神经网络后增加了一个连接层,进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度。最终,通过QQA-CNN模型将问答数据表征为分布式向量。
(2)结合主动学习的训练集构建及候选问答对间排序关系预测,包括3个步骤。
第1步:对社区问答网站问答数据集进行统计分析,将得到的结果形式化为规则从而自动构建标注训练集。
对问答数据集进行统计分析后,得到三条规则并对其进行形式化。首先,CQA网站中,同一问题下,最佳答案的排名通常会高于非最佳答案。其次,CQA网站中,同一问题下,非最佳答案间的排名先后顺序没有明显的区别。最后,CQA网站中,目标问题下与目标问题领域相同的问题下的答案的排名比与目标问题领域不同的问题下的答案的排名高。
对以上三条规则形式化如下:
Figure BDA0002768266730000114
Figure BDA0002768266730000115
Figure BDA0002768266730000121
其中,m≠1,n≠m,符号>代表对于目标问题qi,候选问答对
Figure BDA0002768266730000122
比候选问答对
Figure BDA0002768266730000123
的排名高,即排序标签为1,符号
Figure BDA0002768266730000124
代表对于目标问题qi,候选问答对
Figure BDA0002768266730000125
和候选问答对
Figure BDA0002768266730000126
间没有明显的排序关系,即排序标签为0。
基于形式化得到的三条规则,设计程序自动构建标注训练集L。
第2步:基于QQA-CNN模型构建答案排序模型并训练预测任意两个候选答案间的排序关系。
答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建,输入包括目标问题和两个候选问答对相关的文本特征和社区特征。首先,模型将输入的目标问题和两个候选问答对分别组成两个问答三元组,将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示;然后,将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层,通过非线性映射得到目标问题和候选问答对间的相关性分数,根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签。当输出为1时,意味着第一个候选问答对在最终排序中应比第二个候选问答对排名高;而当输出为-1时,则结果相反。
答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下:
Figure BDA0002768266730000127
式中:ti和t’i表示排序标签为1和-1的问答三元组相关特征集合;uj和u'j表示排序标签为0的问答三元组相关特征集合;F(ti)表示ti通过QQA-CNN进行表征后输入全连接层得到的相关性分数;yi表示候选问答对期望的先后排序标签;Φ表示答案排序模型中的所有参数,包括了QQA-CNN网络和全连接层中的参数;λ和μ表示答案排序算法超参数,λ=0.05,μ=0.01。
第3步:构建未标注样本集,结合主动学习从中选择额外样本进行人工标注,合并进标注训练集进一步训练答案排序模型。
未标注训练集U根据实际研究目标进行构建,对目标问题,在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题;然后,用相似问题及相似问题下所有答案构建目标问题的候选问答对集;最后,不重复的从目标问题候选问答对集中每次选择两个候选问答对,将目标问题和两个候选问答对分别组成两个三元组,则两个三元组构成的三元组对就是未标注训练集中的一个样本。
为降低训练集标注代价,在自动构建标注训练集外,将主动学习应用于答案排序算法,根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型。
查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距,差距越小,信息熵越大,模型预测结果的不准确性越大,具体计算公式如下:
Figure BDA0002768266730000131
Figure BDA0002768266730000132
式中:
Figure BDA0002768266730000133
表示TTi'中三元组ti和t’i排序标签为1的概率;f表示sigmoid函数;rscore(ti)表示通过答案排序模型得到的三元组ti的相关性分数。
另外,考虑到社区问答网站中相似问题的优质答案具有一定的相似性,所以查询函数在选择样本时也考虑候选答案间的相似度,最终查询函数如下:
q(TTi')=e(TTi')+β·sim(ai,a’i) (14)
式中:ai和a’i表示两个候选答案的文本特征矩阵;sim表示余弦相似度;β参数表示协调候选答案相似度对最终查询分数的影响,β=0.1。
将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数,计算公式如下:
Figure BDA0002768266730000141
式中:mi表示目标问题queryi下问答三元组对的数量。
本发明同时提供一种结合主动学习的社区问答网站答案排序系统,包括:
问答数据表征模块,用于抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征,并通过将问答数据社区特征输入QQA-CNN模型,使得问答数据表征为分布式向量;
训练集构建与答案排序模块,用于通过对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集,基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系,构建未标注训练集,通过结合主动学习从中选择额外的样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

Claims (10)

1.一种结合主动学习的社区问答网站答案排序方法,其特征在于,包括以下步骤:
S1、问答数据表征和建模:首先抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;然后基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将所述的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征;最后将问答数据社区特征输入QQA-CNN模型将问答数据表征为分布式向量;
S2、结合主动学习构建训练集以及候选问答对排序关系预测:首先对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集;然后基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系;最后构建未标注训练集,结合主动学习从中选择额外样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
2.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。
3.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数;
所述的问题答案数指问题下的答案总数,所述的用户回答数指用户在网站中提供的答案总数,所述的用户关注者数指用户被关注的总人次;所述的答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,答案赞同份额的计算方式如下:
Figure FDA0002768266720000011
式中:
Figure FDA0002768266720000021
表示答案
Figure FDA0002768266720000022
的赞同份额;
Figure FDA0002768266720000023
表示答案
Figure FDA0002768266720000024
获得的赞同数;
Figure FDA0002768266720000025
表示问题qi下所有答案的赞同数之和;mi表示问题qi下的答案总数;
所述的用户平均赞同数、用户平均喜欢数以及用户答案平均被收藏数分别指的是用户平均每个回答获得的赞同数、喜欢数和被收藏数,其计算方式如下:
Figure FDA0002768266720000026
Figure FDA0002768266720000027
Figure FDA0002768266720000028
式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。
4.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于,所述的步骤S1的问题长尾因子和用户长尾因子计算方式如下:
Figure FDA0002768266720000029
Figure FDA00027682667200000210
式中:qvi表示问题qi下所有答案的赞同数之和,即
Figure FDA00027682667200000211
mi为问题下的答案总数;
ωq=0.1,φq=0.6均表示问题长尾因子计算参数;
uaci表示用户ui的回答数;
ωu=0.1,φu=1均表示用户长尾因子计算参数。
5.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1中的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,以及两个深度网络间的注意力机制模块和特征连接层;针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块,最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,得到CQA网站问答数据的表征。
6.根据权利要求5所述结合主动学习的社区问答网站答案排序方法,其特征在于:
所述的卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征;池化层中,QQA-CNN模型采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化;注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图
Figure FDA0002768266720000031
Figure FDA0002768266720000032
注意力矩阵A计算表达式如下:
Figure FDA0002768266720000033
式中:|·|表示欧几里得距离;
注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重;
所述的特征连接层进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度,最终通过QQA-CNN模型将问答数据表征为分布式向量。
7.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S2对问答数据集进行统计分析后,得到三条规则并对其进行形式化;首先,CQA网站中,同一问题下,最佳答案的排名会高于非最佳答案;其次,CQA网站中,同一问题下,非最佳答案间的排名先后顺序没有区别;最后,CQA网站中,目标问题下与目标问题领域相同问题的答案的排名比与目标问题领域不同问题的答案的排名高;
对以上三条规则形式化如下:
Figure FDA0002768266720000041
Figure FDA0002768266720000042
Figure FDA0002768266720000043
其中,m≠1,n≠m,符号>代表对于目标问题qi,候选问答对
Figure FDA0002768266720000044
比候选问答对
Figure FDA0002768266720000045
的排名高,即排序标签为1,符号
Figure FDA0002768266720000048
代表对于目标问题qi,候选问答对
Figure FDA0002768266720000046
和候选问答对
Figure FDA0002768266720000047
间没有排序关系,即排序标签为0;
基于形式化得到的三条规则,设计程序自动构建标注训练集L。
8.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S2答案排序模型基于两个共享参数的QQA-CNN模型和全连接层构建,输入包括目标问题和两个候选问答对相关的文本特征和社区特征;
首先,模型将输入的目标问题和两个候选问答对分别组成两个问答三元组,将三元组相关文本特征和社区特征分别输入两个共享参数的QQA-CNN模型得到两个三元组问答数据的特征表示;
然后,将由QQA-CNN模型学习到的问答数据三元组的特征表示输入全连接层,通过非线性映射得到目标问题和候选问答对间的相关性分数,根据目标问题和两个候选问答对间相关性分数的大小输出最终的排序标签;当输出为1时,意味着第一个候选问答对在最终排序中比第二个候选问答对排名高;而当输出为-1时,则结果相反;
答案排序模型的损失函数由铰链损失函数、参数正则项和惩罚项构成如下:
Figure FDA0002768266720000051
式中:ti和t′i表示排序标签为1和-1的问答三元组相关特征集合;uj和u′j表示排序标签为0的问答三元组相关特征集合;F(ti)表示ti通过QQA-CNN进行表征后输入全连接层得到的相关性分数;yi表示候选问答对期望的先后排序标签;Φ表示答案排序模型中的所有参数,包括QQA-CNN模型和全连接层中的参数;λ和μ表示答案排序算法超参数,λ=0.05,μ=0.01。
9.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S2未标注训练集根据实际研究目标进行构建,对目标问题,在数据集中基于开源图计算框架GraphLab实现k-NN算法检索若干个相似问题;然后,用相似问题及相似问题下所有答案构建目标问题的候选问答对集;最后,不重复的从目标问题候选问答对集中每次选择两个候选问答对,将目标问题和两个候选问答对分别组成两个三元组,则两个三元组构成的三元组对就是未标注训练集中的一个样本;在自动构建标注训练集外,将主动学习应用于答案排序算法,根据查询函数针对性的在未标注训练集中选择最有助于答案排序模型性能提升的未标注样本进行标注并用于训练模型;查询函数首先基于信息熵衡量两个候选问答对相关性分数间的差距,差距越小,信息熵越大,模型预测结果的不准确性越大,具体计算公式如下:
Figure FDA0002768266720000052
Figure FDA0002768266720000053
式中:
Figure FDA0002768266720000054
表示TT′i中三元组ti和t′i排序标签为1的概率;f表示sigmoid函数;rscore(ti)表示通过答案排序模型得到的三元组ti的相关性分数;
查询函数在选择样本时结合候选答案间的相似度,最终查询函数如下:
q(TT′i)=e(TT′i)+β·sim(ai,a′i)
式中:ai和a′i表示两个候选答案的文本特征矩阵;sim表示余弦相似度;β参数决定协调候选答案相似度对最终查询分数的影响,β=0.1;
将所有目标问题相同的样本的标注分数之和作为目标问题的标注分数,计算表达式如下:
Figure FDA0002768266720000061
式中:mi表示目标问题queryi下问答三元组对的数量。
10.一种结合主动学习的社区问答网站答案排序系统,其特征在于,包括:
问答数据表征模块,用于抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将得到的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征,并通过将问答数据社区特征输入QQA-CNN模型,使得问答数据表征为分布式向量;
训练集构建与答案排序模块,用于通过对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集,基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系,构建未标注训练集,通过结合主动学习从中选择额外的样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序。
CN202011240697.1A 2020-11-09 2020-11-09 一种结合主动学习的社区问答网站答案排序方法及系统 Active CN112434517B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011240697.1A CN112434517B (zh) 2020-11-09 2020-11-09 一种结合主动学习的社区问答网站答案排序方法及系统
PCT/CN2021/116051 WO2022095573A1 (zh) 2020-11-09 2021-09-01 一种结合主动学习的社区问答网站答案排序方法及系统
US17/955,584 US11874862B2 (en) 2020-11-09 2022-09-29 Community question-answer website answer sorting method and system combined with active learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011240697.1A CN112434517B (zh) 2020-11-09 2020-11-09 一种结合主动学习的社区问答网站答案排序方法及系统

Publications (2)

Publication Number Publication Date
CN112434517A true CN112434517A (zh) 2021-03-02
CN112434517B CN112434517B (zh) 2023-08-04

Family

ID=74700021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011240697.1A Active CN112434517B (zh) 2020-11-09 2020-11-09 一种结合主动学习的社区问答网站答案排序方法及系统

Country Status (3)

Country Link
US (1) US11874862B2 (zh)
CN (1) CN112434517B (zh)
WO (1) WO2022095573A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095573A1 (zh) * 2020-11-09 2022-05-12 西安交通大学 一种结合主动学习的社区问答网站答案排序方法及系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377713B (zh) * 2019-07-16 2023-09-15 广州探域科技有限公司 一种基于概率转移改善问答系统上下文的方法
CN115098664B (zh) * 2022-08-24 2022-11-29 中关村科学城城市大脑股份有限公司 智能问答方法、装置、电子设备和计算机可读介质
CN116070884B (zh) * 2023-03-30 2023-06-30 深圳奥雅设计股份有限公司 高密度城市社区和微气候监控与管理系统
CN116450796B (zh) * 2023-05-17 2023-10-17 中国兵器工业计算机应用技术研究所 一种智能问答模型构建方法及设备
CN116701609B (zh) * 2023-07-27 2023-09-29 四川邕合科技有限公司 基于深度学习的智能客服问答方法、系统、终端及介质
CN116953653B (zh) * 2023-09-19 2023-12-26 成都远望科技有限责任公司 一种基于多波段天气雷达组网回波外推方法
CN118016314B (zh) * 2024-04-08 2024-06-18 北京大学第三医院(北京大学第三临床医学院) 一种医疗数据输入的优化方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180067922A1 (en) * 2015-03-06 2018-03-08 National Institute Of Information And Communications Technology Entailment pair extension apparatus, computer program therefor and question-answering system
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN110321421A (zh) * 2019-07-04 2019-10-11 南京邮电大学 用于网站知识社区系统的专家推荐方法及计算机存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817897B1 (en) * 2010-11-17 2017-11-14 Intuit Inc. Content-dependent processing of questions and answers
US11914674B2 (en) * 2011-09-24 2024-02-27 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9378647B2 (en) * 2013-08-20 2016-06-28 Chegg, Inc. Automated course deconstruction into learning units in digital education platforms
US11204929B2 (en) * 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US20170161364A1 (en) * 2015-12-07 2017-06-08 International Business Machines Corporation Generating messages using keywords
CN107992554A (zh) * 2017-11-28 2018-05-04 北京百度网讯科技有限公司 提供问答信息的聚合结果的搜索方法和装置
US11055355B1 (en) * 2018-06-25 2021-07-06 Amazon Technologies, Inc. Query paraphrasing
US11380305B2 (en) * 2019-01-14 2022-07-05 Accenture Global Solutions Limited System and method for using a question and answer engine
US20230036072A1 (en) * 2019-06-24 2023-02-02 Zeyu GAO AI-Based Method and System for Testing Chatbots
US11366855B2 (en) * 2019-11-27 2022-06-21 Amazon Technologies, Inc. Systems, apparatuses, and methods for document querying
US11210341B1 (en) * 2019-12-09 2021-12-28 A9.Com, Inc. Weighted behavioral signal association graphing for search engines
US12014284B2 (en) * 2019-12-27 2024-06-18 Industrial Technology Research Institute Question-answering learning method and question-answering learning system using the same and computer program product thereof
US11709873B2 (en) * 2020-01-13 2023-07-25 Adobe Inc. Reader-retriever approach for question answering
US20210240775A1 (en) * 2020-02-03 2021-08-05 Intuit Inc. System and method for providing automated and unsupervised inline question answering
US20210365500A1 (en) * 2020-05-19 2021-11-25 Miso Technologies Inc. System and method for question-based content answering
US20210365837A1 (en) * 2020-05-19 2021-11-25 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for social structure construction of forums using interaction coherence
CN111738340B (zh) * 2020-06-24 2022-05-20 西安交通大学 一种分布式K-means电力用户分类方法、存储介质及分类设备
US11321329B1 (en) * 2020-06-24 2022-05-03 Amazon Technologies, Inc. Systems, apparatuses, and methods for document querying
CN112434517B (zh) * 2020-11-09 2023-08-04 西安交通大学 一种结合主动学习的社区问答网站答案排序方法及系统
US20220391595A1 (en) * 2021-06-02 2022-12-08 Oracle International Corporation User discussion environment interaction and curation via system-generated responses
US20230023958A1 (en) * 2021-07-23 2023-01-26 International Business Machines Corporation Online question answering, using reading comprehension with an ensemble of models
US11654371B2 (en) * 2021-07-30 2023-05-23 Sony Interactive Entertainment LLC Classification of gaming styles
US20230186026A1 (en) * 2021-12-14 2023-06-15 Oracle International Corporation Data manufacturing frameworks for synthesizing synthetic training data to facilitate training a natural language to logical form model
US20230205824A1 (en) * 2021-12-23 2023-06-29 Pryon Incorporated Contextual Clarification and Disambiguation for Question Answering Processes
US11893070B2 (en) * 2022-02-08 2024-02-06 My Job Matcher, Inc. Apparatus and methods for expanding contacts for a social networking platform

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180067922A1 (en) * 2015-03-06 2018-03-08 National Institute Of Information And Communications Technology Entailment pair extension apparatus, computer program therefor and question-answering system
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN110321421A (zh) * 2019-07-04 2019-10-11 南京邮电大学 用于网站知识社区系统的专家推荐方法及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田雅 等: "针对问答系统隐形垃圾内容的答案再排序模型", 计算机应用研究, vol. 34, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095573A1 (zh) * 2020-11-09 2022-05-12 西安交通大学 一种结合主动学习的社区问答网站答案排序方法及系统
US11874862B2 (en) 2020-11-09 2024-01-16 Xi'an Jiaotong University Community question-answer website answer sorting method and system combined with active learning

Also Published As

Publication number Publication date
CN112434517B (zh) 2023-08-04
US20230035338A1 (en) 2023-02-02
US11874862B2 (en) 2024-01-16
WO2022095573A1 (zh) 2022-05-12

Similar Documents

Publication Publication Date Title
CN112434517B (zh) 一种结合主动学习的社区问答网站答案排序方法及系统
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐系统及其方法
CN111753098A (zh) 一种基于跨媒体动态知识图谱的教学方法及系统
US20100191686A1 (en) Answer Ranking In Community Question-Answering Sites
Patel et al. CaPaR: a career path recommendation framework
CN110232113B (zh) 一种提高知识库问答准确度的方法及系统
CN112015868A (zh) 基于知识图谱补全的问答方法
CN111813958B (zh) 基于创新创业平台的智慧服务方法与系统
CN111241407A (zh) 一种基于强化学习的个性化搜索方法
Bai et al. Applied research of knowledge in the field of artificial intelligence in the intelligent retrieval of teaching resources
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
CN113723853A (zh) 岗位胜任力需求数据处理方法及装置
CN115577185A (zh) 基于混合推理和中智群决策的慕课推荐方法及装置
AlGhamdi et al. Learning to recommend items to wikidata editors
Shanshan et al. An improved hybrid ontology-based approach for online learning resource recommendations
Ding et al. Answering multiple-choice questions in geographical gaokao with a concept graph
CN111583363B (zh) 一种图文新闻的视觉自动生成方法及系统
CN116431788B (zh) 面向跨模态数据的语义检索方法
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN116628146A (zh) 一种金融领域的faq智能问答方法及系统
Talaghzi et al. A combined E-learning course recommender system
Sun et al. Research on question retrieval method for community question answering
CN111581326B (zh) 一种基于异构外部知识源图结构抽取答案信息的方法
Rasmussen et al. Collective intelligence of the artificial life community on its own successes, failures, and future
Niranjan et al. Question answering system for agriculture domain using machine learning techniques: literature survey and challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant