CN105917364B - 对问答论坛中讨论话题的排名 - Google Patents
对问答论坛中讨论话题的排名 Download PDFInfo
- Publication number
- CN105917364B CN105917364B CN201480071854.7A CN201480071854A CN105917364B CN 105917364 B CN105917364 B CN 105917364B CN 201480071854 A CN201480071854 A CN 201480071854A CN 105917364 B CN105917364 B CN 105917364B
- Authority
- CN
- China
- Prior art keywords
- feature
- question
- discussion thread
- discussion
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
提供了用于对具有以问答形式的帖子的讨论话题进行评分的系统。系统接收查询,并且接着对可以包括一个或多个术语特征和一个或多个非术语特征的讨论话题的特征进行标识。术语特征可以是将多个帖子的术语进行组合以将其视为单个文档的组合的帖子特征。术语特征可以是包含讨论话题的问题的问题特征。术语特征还可以是包含与帖子的问题有关的帖子的术语的问题帖子特征。系统接着针对每个特征而生成特征分数,并且将特征分数组合成指示讨论话题与查询之间的相关性的相关性分数。系统还可以在对讨论话题进行排名时使用该相关性分数。
Description
背景技术
许多搜索引擎服务(例如,Google和Bing)都提供对能够经由互联网获取的信息的搜索。这些搜索引擎服务允许用户针对他们可能感兴趣的显示页面(例如,网页)进行搜索。在用户提交包括搜索术语的搜索请求(也被称为“查询”)之后,搜索引擎服务对可以与那些搜索术语有关的网页进行标识。为了快速识别有关网页,搜索引擎服务可保存关键词到网页的映射。该映射可以通过对网络(即万维网)进行“爬取(crawl)”以对每个网页的关键词进行标识而生成。为了对网络进行爬取,搜索引擎服务可使用基础网页的列表来对可以通过那些基础网页而访问的所有网页进行标识。可以使用各种公知的技术来对任何特定的网页的关键词进行标识,例如对标题中的词语进行标识、对在网页的元数据中所提供的词语进行标识、对突出显示的词语进行标识等。搜索引擎服务可以生成相关性分数来指示网页的信息可以与搜索请求有多相关。搜索引擎服务接着以基于网页的相关性的顺序来向用户显示到那些网页的链接。
讨论话题是人们利用互联网进行沟通的一种流行的方式。一种特定的流行的类型的讨论话题服务是网络论坛。网络论坛是允许网站的用户发布可用于由网站的其他用户查看的信息的网站。讨论话题(例如,新闻讨论组)允许人们参与关于具体的主题的讨论。讨论话题通常在某人创建了针对主题的初始消息,并且将该消息作为新的讨论话题而发布时被发起。其他人可以阅读该初始消息并且发布对该讨论话题的回复消息。例如,初始消息可以提出诸如“有人遇到过Acme软件产品以错误代码456异常结束的情况吗?”之类的问题。想要参与讨论的人可以发布回复消息,例如“这种事总是发生在我身上”或者“我通过重新安装软件解决了该问题”。
问答(Q&A)论坛被定制为这样的讨论话题,其以问题开始并且可以包括表示Q&A形式的讨论话题的一个或多个回答。例如,销售某软件产品的公司内的客户支持小组可以为其客户提供Q&A,以创建并且参与有关该软件产品的讨论话题。客户可通过发布提出问题(例如,在上文中所提及的那个问题)的初始消息而发起讨论话题。可以通过由另一个客户或客户服务代表发布回复消息来回答那个问题。当发布对问题的回答时,每个发布者可以将该发帖指定为具有所建议的回答。由于发布者的知识会有显著差异,因此所建议的回答可能是错误的。论坛管理员可以检查所建议的回答,并且将一个或多个帖子标记为具有经验证的回答——即,经验证为正确的回答。同样,Q&A论坛可以具有针对本质上相同的初始问题的不同的讨论话题。为了帮助客户挑选提供与初始问题有关的最佳讨论的讨论话题,论坛管理员可以将那些讨论话题中的一些指定为重要的。
公司的讨论话题的语料库(corpus)可以提供与客户会遇到的问题和担忧有关的大量的知识以及合适的回复,例如对所提出的问题的回答。公司可以允许客户使用通用搜索引擎来搜索讨论话题的语料库。客户通常输入问题来寻找其回答。然而,这样的通用搜索引擎可能不会以特别有帮助的顺序对搜索结果进行排名。例如,这样的通用搜索引擎可能将包含与其初始问题相同的问题的帖子的网页排名得相对高,而将仅包含回答却不包含问题的帖子的网页排名得相对低。
发明内容
提供了用于对具有以问答形式的帖子的讨论话题进行评分的方法和系统。系统接收到查询并且接着对可以包括一个或多个术语特征和一个或多个非术语特征的讨论话题的特征进行标识。术语特征可以是组合的帖子特征,该组合的帖子特征将讨论话题的多个帖子中的术语进行组合以将其看作单个文档。术语特征可以是包含讨论话题的问题(例如,讨论话题的第一个帖子的主题)的问题特征。术语特征还可以是包含与帖子的问题相关的帖子的术语(例如,讨论话题的第一个帖子的文本)的问题帖子特征。非术语特征可以是回答特征、热门度特征、权威特征、重要性特征、或者点击链接特征。系统接着针对每个特征生成特征分数,并且将特征分数组合成指示讨论话题与查询之间的相关性的相关性分数。当对讨论话题进行排名时,系统也可以使用该相关性分数。
附图说明
图1是示出了一些实施例中的Q&A排名系统的组件的框图。
图2是示出了一些实施例中的Q&A排名系统的训练排名器组件的处理的流程图。
图3是示出了一些实施例中的Q&A排名系统的排名话题组件的处理的流程图。
图4是示出了一些实施例中的Q&A排名系统的计算特征分数组件的处理的流程图。
图5是示出了一些实施例中的Q&A排名系统的计算术语特征分数组件的处理的流程图。
图6是示出了一些实施例中的Q&A排名系统的检索特征组件的处理的流程图。
具体实施方式
提供了用于对具有以问答形式的帖子的讨论话题进行评分的方法和系统。在一些实施例中,Q&A排名系统接收到查询,并且针对讨论话题而生成指示讨论话题与查询之间的相关性的相关性分数。为了针对讨论话题生成相关性分数,Q&A排名系统从每个讨论话题中提取特征,并且针对每个特征而生成特征分数。例如,特征可以包括术语特征,例如问题特征(例如,讨论话题的第一个帖子的主题)、问题帖子特征(例如,讨论话题的第一个帖子的文本)、以及组合的帖子特征。特征还可以包括一个或多个非术语特征,例如在下文中所描述的回答特征、热门度特征、权威特征、重要性特征、以及点击链接(clickthrough)特征。接着,Q&A排名系统对讨论话题的特征分数进行组合以生成相关性分数。Q&A排名系统可以使用特征权重来对特征分数进行加权,所述特征权重是使用从Q&A论坛中得出的训练数据、经由机器学习算法(例如,神经网络或自适应增强)而学习到的。在下文中,将术语特征与非术语特征描述为影响讨论话题与查询之间的相关性。可替代地,不含非术语特征的术语特征可以被认为确定术语特征的内容与查询之间的相关性,而非术语特征可以被认为指示讨论话题的整体相关性而无论帖子的内容。例如,具有经验证的回答的讨论话题更有可能是相关的而无论其内容。
在一些实施例中,从讨论话题的术语中得出术语特征,以用于与查询的术语进行比较。问题特征表示讨论话题的主要问题。主要问题可以是当讨论话题开始时最初提出的问题。例如,讨论话题的初始帖子的主题可以包含该问题。可替代地,Q&A论坛可以保存问题分区(field)以用于存储讨论话题的主要问题。问题特征可以包含问题的全部词语、仅问题的关键词、仅问题的非噪声词语等。问题帖子特征表示与问题的发帖(例如,讨论话题的初始帖子)有关的讨论话题的帖子的术语。讨论话题的初始帖子可以包含作为其主体的问题,或者可以与在初始帖子之外的问题分区所提出的问题相关。问题帖子特征还可以包含帖子中的所有术语或者可以仅包含帖子的正文中的术语(例如,不包括存储在帖子的主题中的问题)。问题帖子特征还可以表示初始帖子的发布者的其他帖子,这是因为发布者可以已经在后续的帖子中阐明了问题。问题特征和问题帖子特征可以被认为是基于问题的特征,这是因为它们与帖子的问题相关。组合的帖子特征表示将讨论话题的帖子的术语组合成单个文档。组合的帖子特征可以包括来自以下帖子的术语:讨论话题的所有帖子、除了问题帖子之外的所有帖子、或者讨论话题的经挑选的帖子。例如,可以基于帖子的新近度、帖子是否有回答等来选择帖子。
针对问题、问题帖子、以及组合的帖子使用分离的术语特征有几个优点。例如,将问题与问题帖子分离,允许分离于与对问题的讨论的查询的相关性而评估与对问题的查询的相关性。同样,将多个帖子组合成组合的帖子特征允许对整体的讨论话题与查询之间的相关性进行评估,而不是仅仅对讨论话题的单个帖子之间的相关性进行评估。将问题帖子与组合的帖子分离允许分离于后续的帖子而评估与对发布者的初始评论的查询的相关性。尽管术语特征被看作是分离的特征,但是Q&A排名系统可以针对全部三个术语特征而生成组合的特征分数,该组合的特征分数基于组合的帖子特征分数、问题帖子特征分数、以及问题特征分数的加权求和。
在一些实施例中,非术语特征允许将讨论话题与查询之间的相关性作为因素而计入标准中,而非仅将查询和讨论话题的术语作为因素而计入标准中。从讨论话题的帖子的元数据中得出指示该帖子是否有回答的回答特征。帖子可以具有由发布者指示的建议的回答和/或由管理员指示的经验证的回答。具有经验证的回答的讨论话题可以被认为比仅具有建议的回答的讨论话题更相关,而仅具有建议的回答的讨论话题可以被认为比没有回答的讨论话题更相关。热门度特征表示讨论话题的热门度,并且可以从讨论话题已经被查看的次数中得出。热门的讨论话题可以被认为比不热门的讨论话题更相关。权威特征表示回答的发布者的权威。权威指示由发布者在其他讨论话题中所给出的回答的质量,并且可以基于由该发布者给出的已经经验证的回答的数量来确定。具有由经常给出经验证的回答的发布者所给出的回答的讨论话题可以被认为比具有来自没有经验证的回答的发布者的回答的讨论话题更相关。重要性特征表示讨论话题相对于论坛中的其他讨论话题的重要性,并且可以由管理员来指示。一些Q&A论坛允许管理员指定讨论话题的重要性。具有高重要性的讨论话题可以被认为比具有低重要性的讨论话题更相关。点击链接特征是从指示用户何时已经选择或点击了来自搜索结果中的讨论话题的点击链接数据中得出的。点击链接数据可以是讨论话题被点击的次数的计数。点击链接数据可以由Q&A论坛本身提供(例如,内部点击链接特征)和/或可以由外部搜索引擎提供(例如,外部点击链接特征)。具有高点击链接计数的讨论话题被认为比具有低点击链接计数的讨论话题更相关。
Q&A排名系统可以根据以下等式而生成指示讨论话题与查询之间的相关性的相关性分数:
RS=∑iwiFSi (1)
其中,RS表示相关性分数,FSi表示特征i的特征分数,并且wi表示特征i的权重。权重可以使用机器学习算法而学习到,并且可以表示特征分数的非线性组合(例如,神经网络或者加权树的集合)。Q&A排名系统可以根据以下等式针对术语特征而生成组合的特征分数:
其中,t表示查询的术语,TF′t表示针对术语t的子分数,N表示讨论话题的数量,而n表示包含术语t的讨论话题的数量。等式2是被称为BM25F的术语频率乘以逆向文档频率(tf*idf)度量的变型。术语的子分数是根据以下等式而生成的:
其中,cp、q以及qp分别表示组合的帖子特征、问题特征以及问题帖子特征;TFt,x表示术语t在特征x中出现的次数;DLx表示特征x中的术语的数量;AVDLx表示包含术语t的所有讨论话题的特征x中的术语的平均数量;而wx表示特征x的可调的权重。
回答特征可以具有由以下等式所表示的特征分数FSa:
其中,vy表示条件y的可调的参数。
热门度特征可以具有由以下等式所表示的特征分数FSp:
其中,Np表示讨论话题已经被查看的次数,而Nmax,p、bp表示可调的参数。
权威特征可以具有由以下等式所表示的特征分数FSau:
其中,Na表示该讨论话题中经验证的回答(或者,如果没有经验证的回答则是所建议的回答)的发布者跨所有讨论话题的经验证的回答的数量,而ka表示可调的参数。
重要性特征可以具有这样的特征分数FSi:如果讨论话题已经被标记为重要,则其被设置为1,否则其被设置为0。Q&A论坛可以允许管理员将重要性设置为例如在0到1之间的某个数值。在这样的情况下,特征分数FSi可以取该值。
点击链接特征可以具有由以下等式所表示的特征分数FSc:
其中,Nc表示讨论话题(或者其帖子中的一个)被点击的次数,而Nmax,c、bc是可调的参数。
图1是示出了一些实施例中的Q&A排名系统的组件的框图。Q&A排名系统100可以包括讨论话题存储110和讨论话题元数据存储120。讨论话题存储包含Q&A论坛的讨论话题的每一个的帖子。讨论话题元数据存储包含针对讨论话题而保存的诸如重要性、点击链接数据等之类的元数据。Q&A排名系统包括训练排名器组件130,其输入来自训练数据存储140的训练数据、学习从该训练数据中所提取的特征的权重、并且将所述权重存储在权重存储150中。Q&A排名系统还包括排名话题组件160、计算特征分数组件170、计算术语特征分数组件180、以及检索特征组件190。排名话题组件输入查询、针对每个讨论话题而生成相关性分数、并且接着基于相关性分数来对讨论话题进行排名。计算特征分数组件针对查询的讨论话题而生成特征分数。计算术语特征分数组件针对查询的讨论话题而生成术语特征分数。检索特征组件提取术语特征和非术语特征。
其上可以实现Q&A排名系统的计算设备和系统可以包括中央处理单元、输入设备、输出设备(例如,显示设备和扬声器)、存储设备(例如,存储器和磁盘驱动器)、网络接口、图形处理单元、加速度计、蜂窝式无线电链接接口、全球定位系统设备等。输入设备可以包括键盘、定点设备、触摸屏、手势识别设备(例如,针对空中手势的)、头部和眼部追踪设备、用于语音识别的麦克风等。计算设备可以包括台式计算机、膝上型计算机、平板计算机、电子阅读器、个人数字助理、智能电话、游戏设备、服务器、以及计算机系统(例如,大规模并行系统)。计算设备可以访问包括计算机可读存储介质和数据传输介质的计算机可读介质。计算机可读存储介质是有形的存储单元,其不包括瞬时性的、传播的信号。计算机可读存储介质的示例包括诸如主存储器、高速缓冲存储器、二级存储器(例如,DVD)等之类的存储器,并且包括其他存储单元。计算机可读存储介质可以具有记录在其上的或者可以编码有实现Q&A排名系统的计算机可执行指令或逻辑。数据传输介质用于通过经由有线或无线连接的易失性的、传播的信号或载波(例如,电磁波)来传输数据。
可以在由一个或多个计算机、处理器、或其它设备所执行的计算机可执行指令(例如,程序模块和组件)的一般性的上下文中描述Q&A排名系统。通常而言,程序模块或组件包括执行特定的任务或实现特定的数据类型的例程、程序、对象、数据结构等。通常而言,程序模块的功能可以如在各种实施例中所期望的那样组合或分布。可以使用例如专用集成电路(“ASIC”)的硬件来实现Q&A排名系统的方面。
图2是示出了一些实施例中的Q&A排名系统的训练排名器组件的处理的流程图。训练排名器组件200输入训练数据,该训练数据可以包括讨论话题(和相关联的元数据)、查询、以及针对每个查询的指示该查询的每个讨论话题的期望的排名的标签。组件使用多种机器学习技术中的任何一种而学习特征的权重,并且将所述权重存储在权重存储中。在方框201中,组件收集训练数据。可以通过要求用户对每个查询的讨论话题手动地进行排名来收集训练数据。在方框202-206中,组件针对每个查询而循环计算每个讨论话题的特征分数。在方框202中,组件在训练数据中选择下一个查询。在决策框203中,如果所有的查询都已经被选择,则组件在方框207处继续,否则,组件在方框204处继续。在方框204中,组件选择下一个讨论话题。在决策框205中,如果所有的讨论话题都已经被选择,则组件循环至方框202来选择下一个查询,否则,组件在方框206处继续。在方框206中,组件调用计算特征分数组件来计算特征分数,并且接着循环至方框204来选择下一个讨论话题。在方框207中,组件基于所计算的特征分数而学习特征的权重,并且接着完成。组件可以使用通过利用例如梯度上升方法来调整权重的迭代过程而学习权重,从而改善优化度量(例如,误差函数)。
图3是示出了一些实施例中的Q&A排名系统的排名话题组件的处理的流程图。向排名话题组件300传递查询,并且排名话题组件300基于讨论话题存储的讨论话题与查询之间的相关性来对讨论话题进行排名。在方框301中,组件选择下一个讨论话题。在决策框302中,如果所有的讨论话题都已经被选择,则组件在方框305处继续,否则,组件在方框303处继续。在方框303中,组件调用计算特征分数组件来计算所选择的讨论话题的特征分数。在方框304中,组件通过根据等式1的使用权重存储中的权重来将特征分数进行组合从而计算所选择的讨论话题的相关性,并且接着循环至方框301以选择下一讨论话题。在方框305中,组件根据讨论话题的相关性分数来对讨论话题进行排名。
图4是示出了一些实施例中的Q&A排名系统的计算特征分数组件的处理的流程图。向计算特征分数组件400传递查询和讨论话题,并且计算特征分数组件400针对讨论话题的特征中的每个特征而生成特征分数。在方框401中,组件调用检索特征组件来提取针对该讨论话题的特征。在方框402中,组件调用计算术语特征分数组件来计算术语特征分数。在方框403中,组件使用等式4来计算回答特征分数。在方框404中,组件使用等式5来计算热门度特征分数。在方框405中,组件使用等式6来计算权威特征分数。在方框406中,组件计算重要性特征分数。在方框407中,组件使用等式7来计算点击链接特征分数,并且接着返回该特征分数。
图5是示出了一些实施例中的Q&A排名系统的计算术语特征分数组件的处理的流程图。向组件500传递查询和讨论话题,并且组件500针对该查询而返回该讨论话题的术语特征分数。在方框501中,组件对术语特征分数进行初始化。在方框502-508中,组件针对查询的每个术语而循环计算术语特征子分数。在方框502中,组件选择查询的下一个术语。在决策框503中,如果所有的术语都已经被选择,则组件返回术语特征分数,否则组件在方框504处继续。在方框504中,组件根据等式3来计算组合的帖子特征分数。在方框505中,组件根据等式3来计算所选择的术语的问题特征分数。在方框506中,组件根据等式3来计算所选择的术语的问题帖子特征分数。在507中,组件根据等式3将组合的帖子特征分数、问题特征分数、以及问题帖子特征分数组合成所选择的术语的组合的特征分数。在方框508中,组件根据等式2将组合的特征分数与术语特征分数相加,并且接着循环至方框502来选择查询的下一个术语。
图6是示出了一些实施例中的Q&A排名系统的检索特征组件的处理的流程图。向检索特征组件600传递讨论话题,并且检索特征组件600提取并返回特征。在方框601中,组件通过收集讨论话题的多个帖子(例如,所有帖子)并且将它们组合成单个集合或文件,来提取组合的帖子特征。在方框602中,组件从讨论话题的初始帖子的正文中提取问题帖子特征。在方框603中,组件从初始帖子的主题中提取问题特征。在方框604中,组件从讨论话题的元数据中提取回答特征。在方框605中,组件从讨论话题的元数据中提取热门度特征。在方框606中,组件从讨论话题的元数据中提取权威特征。在方框607中,组件从讨论话题的元数据中提取重要性特征。在方框608中,组件从讨论话题的元数据中提取点击链接特征,并且接着返回特征。
尽管已经用特定于结构特征和/或行为的语言描述的主题,但应当理解的是,在所附权利要求中所限定的主题非必须限于在上文中所描述的具体的特征或行为。相反,在上文中所描述的具体的特征或行为是作为实现权利要求的示例形式而公开的。从而,除了所附权利要求之外,本发明不受限制。
Claims (15)
1.一种存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令用于控制计算系统以对以问答形式的问答论坛的讨论话题进行评分,每个讨论话题都有具有术语的帖子,所述计算机可执行指令包括:
提供查询的组件;
标识讨论话题的特征的组件,所述特征包括:表示讨论话题的多个帖子的术语的集合的组合的帖子特征、表示所述讨论话题的主要问题的问题特征、表示与所述主要问题的发帖有关的所述讨论话题的所述帖子的所述术语的问题帖子特征;
针对所述特征而生成特征分数的组件,所述组合的帖子特征的所述特征分数指示所述集合的术语与所述查询之间的相关性,以及
基于讨论话题的特征分数的加权的组合而生成所述讨论话题的相关性分数的组件,其中,组合的特征分数是将包含所述查询的术语的讨论话题的数量考虑在内而生成的,并且其中,权重是使用从所述问答论坛中得出的训练数据、经由机器学习算法而学习到的。
2.根据权利要求1所述的计算机可读 存储介质,其中,所述讨论话题的特征是作为所述讨论话题的主题的问题。
3.根据权利要求2所述的计算机可读存储介质,其中,所述问题是从所述讨论话题的初始帖子的主题分区中得出的。
4.根据权利要求1所述的计算机可读存储介质,其中,所述讨论话题的特征是所述讨论话题的初始帖子。
5.根据权利要求1所述的计算机可读存储介质,其中,所述讨论话题的特征基于所述讨论话题的点击链接。
6.根据权利要求1所述的计算机可读存储介质,其中,所述讨论话题的特征基于所述讨论话题的新近性。
7.一种用于基于与查询之间的相关性来对问答论坛的讨论话题进行评分的计算系统,所述讨论话题是以问答形式的,所述计算系统包括:
存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令包括:
标识讨论话题的特征的指令,所述特征包括基于问题的特征,所述基于问题的特征包括与所述讨论话题的所述问题的发帖有关的术语;
针对所述特征而生成特征分数的指令,其中,所述基于问题的特征的所述特征分数指示与所述讨论话题的所述问题的发帖有关的所述术语的相关性;以及
基于讨论话题的特征分数的加权的组合而生成所述讨论话题的相关性分数的指令;以及
执行由所述计算机可读存储介质所存储的所述计算机可执行指令的处理器,其中,组合的特征分数是将包含所述查询的术语的讨论话题的数量考虑在内而生成的,并且其中,权重是使用从所述问答论坛中得出的训练数据、经由机器学习算法而学习到的。
8.根据权利要求7所述的计算系统,其中,所述讨论话题的特征包括组合的帖子特征。
9.根据权利要求7所述的计算系统,其中,所述讨论话题的所述基于问题的特征是问题特征。
10.根据权利要求9所述的计算系统,其中,所述问题特征是从所述讨论话题的初始帖子的主题分区中得出的。
11.根据权利要求7所述的计算系统,其中,所述基于问题的特征是问题帖子特征。
12.根据权利要求11所述的计算系统,其中,所述问题帖子特征包含包括所述问题的帖子的正文的术语。
13.根据权利要求7所述的计算系统,其中,所述讨论话题的特征是回答特征。
14.根据权利要求7所述的计算系统,其中,所述讨论话题的特征是点击链接特征。
15.一种用于对问答论坛的讨论话题进行排名的方法,所述方法包括:
接收包括术语的查询;
针对多个讨论话题中的每个,
标识所述讨论话题的特征,所述特征包括表示来自讨论话题的多个帖子的术语的集合的组合的帖子特征、表示所述讨论话题的问题的问题特征、表示所述讨论话题的问题帖子的术语的问题帖子特征、以及从由回答特征、热门度特征、权威特征、重要性特征、内部点击链接特征、以及外部点击链接特征组成的分组中所选择的一个或多个特征;
针对所标识的特征中的每个而生成特征分数;并且
基于所述讨论话题的所述特征分数的加权的组合而生成所述讨论话题的相关性分数,其中,组合的特征分数是将包含所述查询的术语的讨论话题的数量考虑在内而生成的,并且其中,权重是使用从所述问答论坛中得出的训练数据、经由机器学习算法而学习到的;以及
基于所述讨论话题的整体的分数而对所述讨论话题进行排名。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/145,803 | 2013-12-31 | ||
US14/145,803 US9721309B2 (en) | 2013-12-31 | 2013-12-31 | Ranking of discussion threads in a question-and-answer forum |
PCT/US2014/069865 WO2015102844A1 (en) | 2013-12-31 | 2014-12-12 | Ranking of discussion threads in a question-and-answer forum |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105917364A CN105917364A (zh) | 2016-08-31 |
CN105917364B true CN105917364B (zh) | 2021-08-03 |
Family
ID=52345523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480071854.7A Active CN105917364B (zh) | 2013-12-31 | 2014-12-12 | 对问答论坛中讨论话题的排名 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9721309B2 (zh) |
EP (1) | EP3090393A1 (zh) |
CN (1) | CN105917364B (zh) |
WO (1) | WO2015102844A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10270772B2 (en) * | 2015-06-18 | 2019-04-23 | Facebook, Inc. | Systems and methods for providing content to verified entities |
CN105512349B (zh) * | 2016-02-23 | 2019-03-26 | 首都师范大学 | 一种用于学习者自适应学习的问答方法及装置 |
US20180300787A1 (en) * | 2017-04-18 | 2018-10-18 | Engage, Inc. | System and method for synchronous peer-to-peer communication based on relevance |
US10873557B2 (en) * | 2017-11-30 | 2020-12-22 | Oath Inc. | Publishing message conversations to electronic forums |
CN108804674B (zh) * | 2018-06-11 | 2022-03-11 | 北京五八信息技术有限公司 | 一种帖子排序方法、装置、设备及计算机可读存储介质 |
CN108804676B (zh) * | 2018-06-11 | 2022-01-28 | 北京五八信息技术有限公司 | 一种帖子排序方法、装置、设备及计算机可读存储介质 |
CN108717469B (zh) * | 2018-06-11 | 2021-11-23 | 北京五八信息技术有限公司 | 一种帖子排序方法、装置、设备及计算机可读存储介质 |
US11556806B2 (en) | 2020-05-14 | 2023-01-17 | Merative Us L.P. | Using machine learning to facilitate design and implementation of a clinical trial with a high likelihood of success |
US11651243B2 (en) | 2020-05-14 | 2023-05-16 | Merative Us L.P. | Using machine learning to evaluate data quality during a clinical trial based on participant queries |
US11538559B2 (en) | 2020-05-14 | 2022-12-27 | Merative Us L.P. | Using machine learning to evaluate patients and control a clinical trial |
CN113077367A (zh) * | 2021-04-12 | 2021-07-06 | 同济人工智能研究院(苏州)有限公司 | 一种基于非关系型数据库的智能化性教育平台系统 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002525765A (ja) * | 1998-09-18 | 2002-08-13 | ディベーツ・コム・コーポレイション | 種々の課題に関連した投票によってオピニオンを得ると共にそのランク付けをするシステムおよび方法 |
US7590603B2 (en) * | 2004-10-01 | 2009-09-15 | Microsoft Corporation | Method and system for classifying and identifying messages as question or not a question within a discussion thread |
US7437382B2 (en) | 2004-05-14 | 2008-10-14 | Microsoft Corporation | Method and system for ranking messages of discussion threads |
US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7814048B2 (en) * | 2006-08-14 | 2010-10-12 | Microsoft Corporation | Knowledge extraction from online discussion forums |
US7962555B2 (en) | 2006-09-29 | 2011-06-14 | International Business Machines Corporation | Advanced discussion thread management using a tag-based categorization system |
US20080215541A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Techniques for searching web forums |
US8572094B2 (en) * | 2007-08-17 | 2013-10-29 | Google Inc. | Ranking social network objects |
US20090106221A1 (en) | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US7801845B1 (en) * | 2007-12-21 | 2010-09-21 | Amazon Technologies, Inc. | Creating forums associated with a search string |
US8504488B2 (en) * | 2008-04-30 | 2013-08-06 | Cisco Technology, Inc. | Network data mining to determine user interest |
WO2010014954A2 (en) * | 2008-08-01 | 2010-02-04 | Google Inc. | Providing posts to discussion threads in response to a search query |
US8346701B2 (en) | 2009-01-23 | 2013-01-01 | Microsoft Corporation | Answer ranking in community question-answering sites |
US20100205168A1 (en) | 2009-02-10 | 2010-08-12 | Microsoft Corporation | Thread-Based Incremental Web Forum Crawling |
US8560530B2 (en) * | 2010-05-17 | 2013-10-15 | Buzzmetrics, Ltd. | Methods, apparatus, and articles of manufacture to rank web site influence |
US8560567B2 (en) | 2011-06-28 | 2013-10-15 | Microsoft Corporation | Automatic question and answer detection |
US20130086030A1 (en) | 2011-10-01 | 2013-04-04 | Giotto De Filippi | Method for search engines to rank forums and discussion boards |
US8473499B2 (en) | 2011-10-17 | 2013-06-25 | Microsoft Corporation | Question and answer forum techniques |
US8812527B2 (en) * | 2011-11-29 | 2014-08-19 | International Business Machines Corporation | Automatically recommending asynchronous discussion forum posts during a real-time collaboration |
CN103297313A (zh) * | 2012-02-24 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 网络信息的处理方法及装置 |
US20130262453A1 (en) | 2012-03-27 | 2013-10-03 | Microsoft Corporation | Estimating Thread Participant Expertise Using A Competition-Based Model |
-
2013
- 2013-12-31 US US14/145,803 patent/US9721309B2/en active Active
-
2014
- 2014-12-12 WO PCT/US2014/069865 patent/WO2015102844A1/en active Application Filing
- 2014-12-12 EP EP14825509.4A patent/EP3090393A1/en not_active Ceased
- 2014-12-12 CN CN201480071854.7A patent/CN105917364B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105917364A (zh) | 2016-08-31 |
WO2015102844A1 (en) | 2015-07-09 |
US20150186379A1 (en) | 2015-07-02 |
US9721309B2 (en) | 2017-08-01 |
EP3090393A1 (en) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105917364B (zh) | 对问答论坛中讨论话题的排名 | |
US20230205828A1 (en) | Related entities | |
Halavais | Search engine society | |
US10068008B2 (en) | Spelling correction of email queries | |
US11308149B2 (en) | Query categorization based on image results | |
US8103650B1 (en) | Generating targeted paid search campaigns | |
US7949643B2 (en) | Method and apparatus for rating user generated content in search results | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
US9009146B1 (en) | Ranking search results based on similar queries | |
US8645393B1 (en) | Ranking clusters and resources in a cluster | |
US10102482B2 (en) | Factorized models | |
US9881059B2 (en) | Systems and methods for suggesting headlines | |
US20120124034A1 (en) | Co-selected image classification | |
CN105874427B (zh) | 基于应用上下文识别帮助信息 | |
US20180032608A1 (en) | Flexible summarization of textual content | |
US10198508B1 (en) | Systems and methods for searching quotes of entities using a database | |
US11609943B2 (en) | Contextual content distribution | |
US10289624B2 (en) | Topic and term search analytics | |
US8645394B1 (en) | Ranking clusters and resources in a cluster | |
US20150169579A1 (en) | Associating entities based on resource associations | |
US10990602B2 (en) | Method and system for generating optimized response to user input | |
Zhu et al. | R-tfidf, a Variety of tf-idf Term Weighting Strategy in Document Categorization | |
US9400789B2 (en) | Associating resources with entities | |
JP5661719B2 (ja) | 質問応答装置、方法、及びプログラム | |
Batra et al. | Content based hidden web ranking algorithm (CHWRA) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |