CN113641812A - 识别知识问答中的优质回答的方法、装置和设备 - Google Patents

识别知识问答中的优质回答的方法、装置和设备 Download PDF

Info

Publication number
CN113641812A
CN113641812A CN202110978248.5A CN202110978248A CN113641812A CN 113641812 A CN113641812 A CN 113641812A CN 202110978248 A CN202110978248 A CN 202110978248A CN 113641812 A CN113641812 A CN 113641812A
Authority
CN
China
Prior art keywords
answer
determining
feature
user
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110978248.5A
Other languages
English (en)
Other versions
CN113641812B (zh
Inventor
庞海龙
宋丹丹
张玉东
张铮
张文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110978248.5A priority Critical patent/CN113641812B/zh
Priority claimed from CN202110978248.5A external-priority patent/CN113641812B/zh
Publication of CN113641812A publication Critical patent/CN113641812A/zh
Application granted granted Critical
Publication of CN113641812B publication Critical patent/CN113641812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种识别知识问答中的优质回答的方法,涉及人工智能领域,尤其涉及深度学习、智能搜索、智能推荐等技术领域,可以应用于医疗问答、法律问答等场景。具体实现方案为:获取针对目标问题提交的至少一个回答;针对至少一个回答中的每个回答,执行以下操作,以确定至少一个回答中的优质回答:基于目标问题和回答,确定该回答的文本特征;确定提交该回答的目标用户的第一特征;确定第二特征,其中,第二特征用于表征浏览者对该回答的满意度;以及基于文本特征、第一特征和第二特征,确定该回答的文本质量。

Description

识别知识问答中的优质回答的方法、装置和设备
技术领域
本公开涉及人工智能领域,涉及深度学习、智能搜索、智能推荐等技术领域,可以应用于医疗问答、法律问答等场景。尤其涉及一种识别知识问答中的优质回答的方法、装置、设备、存储介质和计算机程序产品。
背景技术
知识问答社区是一个为大众提供知识需求和知识供给的互动式、开放式社区。这类社区形态上大多是以用户间的“提问-回答”形式存在的。然而,由于知识问答社区的开放性,导致各类用户针对同一提问贡献的回答往往质量差异很大。从知识问答社区角度来看,希望培养出一批优质的答主来帮助社区良性发展,从浏览者角度来看,希望能够在知识问答社区找到优质且满意的回答。如何识别出优质回答并将其排列到针对特定问题给出的所有回答的首位,是知识问答社区亟待解决的问题。
发明内容
本公开提供了一种识别知识问答中的优质回答的方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种识别知识问答中的优质回答的方法,包括:获取针对目标问题提交的至少一个回答;针对所述至少一个回答中的每个回答,执行以下操作,以确定所述至少一个回答中的优质回答:基于所述目标问题和回答,确定该回答的文本特征;确定提交该回答的目标用户的第一特征;确定第二特征,其中,所述第二特征用于表征浏览者对该回答的满意度;以及基于所述文本特征、所述第一特征和所述第二特征,确定该回答的文本质量。
根据本公开的另一方面,提供了一种识别知识问答中的优质回答的装置,包括:获取模块,用于获取针对目标问题提交的至少一个回答;确定模块,用于针对所述至少一个回答中的每个回答,执行以下操作,以确定所述至少一个回答中的优质回答:第一确定单元,用于基于所述目标问题和回答,确定该回答的文本特征;第二确定单元,用于确定提交该回答的目标用户的第一特征;第三确定单元,用于确定第二特征,其中,所述第二特征用于表征浏览者对该回答的满意度;以及第四确定单元,用于基于所述文本特征、所述第一特征和所述第二特征,确定该回答的文本质量。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A示例性示出了适于本公开实施例的系统架构;
图1B示例性示出了可以实现本公开实施例的场景图;
图2示例性示出了根据本公开实施例的识别知识问答中的优质回答的方法的流程图;
图3示例性示出了根据本公开实施例的确定回答的文本特征的示意图;
图4示例性示出了根据本公开实施例的确定答主是否优质的示意图;
图5示例性示出了根据本公开实施例的确定浏览者满意度的示意图;
图6示例性示出了根据本公开实施例的知识问答中识别优质回答的示意图;
图7示例性示出了根据本公开实施例的识别知识问答中的优质回答的装置的框图;以及
图8示例性示出了用来实现本公开实施例的方法和装置的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
应该理解,在一种方案(方案1)中,可以将问题和回答拼接在一起后输入文本分类模型进行优质回答判定。或者,在另一种方案(方案2)中,还可以在方案1的基础上,融合一些后验信息(如问答界面中显示的“赞”、“踩”等用户评论)进行优质回答判定。
对于方案1而言,可以很好地学习到问题与回答间的关系以及回答与回答间的上下文关系,并且可以很好地区分优质回答和非优质回答,但是并不能很好地区分出优质回答中更优质的回答。
对于方案2而言,可以在方案1的基础上,即可以在文本分类模型的基础上,融合一些后验信息进行优质回答判定。因而通过方案2,可以区分一些优质回答中更优质的回答,但是实现该效果的前提是需要有后验信息,并且后验信息还要准确。
可见,上述两种方案使用场景有所不同,所带来的问题和不足也有所不同。
示例性的,方案1只能应用在对优质回答要求不高的场景,或者不需要从优质回答中区分出更优质的回答,比如权威性回答(如专业律师对法律问题的回答、专业医师对医疗问题的回答等)、垂直类型回答(如针对法律问题的回答、针对医疗问题的回答等)。
示例性的,方案2虽然可以有效避免方案1中出现的上述问题,但是方案2完全依赖于后验信息,因而很难保证对没有覆盖后验信息的用户回答的准确识别。
基于此,本公开实施例提供了一种基于用户回答文本、答主质量和浏览者满意度识别知识问答中的优质回答的方案,可以有效识别出优质回答,并且可以提升知识问答社区中答主的质量以及问答文本的质量,进而可以提升浏览者的用户体验。
以下将结合附图和具体实施例详细阐述本公开。
适于本公开实施例的方法和装置的系统架构介绍如下。
图1A示例性示出了适于本公开实施例的系统架构。需要注意的是,图1A所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他环境或场景。
如图1A所示,本公开实施例中的系统架构100可以包括:终端设备101、103和104,服务端102。
在本公开实施例中,上述系统架构100可以应用于知识问答社区。其中,在知识问答社区中,提问者可以通过终端设备101提交自己的问题,各答主可以通过终端设备103并针对用户提问提交自己的回答,各浏览者(包括提问者)可以通过终端设备104浏览知识问答社区中的提问和回答。
在本公开实施例中,服务端102可以从针对同一提问的多个回答中确定出其中的优质回答(如最佳回答),并优质回答排列到针对同一提问的所有回答的前列。由此,浏览者在浏览知识问答社区中的问答时,可以优先获取优质的且满意的回答。
需要说明的是,本公开实施例中,服务端102可以是一个服务器或者一个服务器集群,本实施例在此不做限定。
应该理解,图1A中的服务端和终端设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的服务端和终端设备。
适于本公开实施例的方法和装置的应用场景介绍如下。
需要说明的是,本公开实施例提供的识别知识问答中的优质回答的方案可以应用于所有知识问答场景中,比如可以用于法律问答、医疗问答等场景,本本公开在此不做限定。
如图1B所示,医疗问答界面中显示的用户提问是“宝宝发烧怎么办?”,针对该用户提问,界面中同时还显示了3个医师回答。利用本公开实施例提供的优质回答识别方案,可以从这些医师回答中识别出哪些是该问题的优质回答,哪些不是该问题的优质回答,并将该问题的优质回答排列至该问题的回答队列的前列位置。如此,可以便于浏览者(包括提问者)优先获取优质的且满意的医师回答。
根据本公开的实施例,本公开提供了一种识别知识问答中的优质回答的方法。
图2示例性示出了根据本公开实施例的识别知识问答中的优质回答的方法的流程图。
如图2所示,识别知识问答中的优质回答的方法200可以包括:操作S210~S260。
在操作S210,获取针对目标问题提交的至少一个回答(如用户回答)。
在操作S220,针对至少一个用户回答中的每个回答,执行以下操作(S230~S260),以确定至少一个回答中的优质回答。
在操作S230,基于目标问题和回答,确定该回答的文本特征。
在操作S240,确定提交该回答的目标用户的第一特征。
在操作S250,确定第二特征,其中,第二特征用于表征浏览者对该回答的满意度。
在操作S260,基于文本特征、第一特征和第二特征,确定该回答的文本质量。
操作S210中,目标问题可以是知识问答社区中的任意一个用户提问。操作S210中,获取针对目标问题提交的至少一个用户回答可以是获取针对该目标问题提交的所有用户回答文本,或者可以是获取针对该目标问题在最近一段时间(如最近半年、最近三个月、最近一个月)内提交的所有用户回答文本,本实施例在此不做限定。
对于通过操作S210获取的所有用户回答文本中的每个用户回答文本,可以执行操作S230~S260,以确定上述所有用户回答中的优质回答。应该理解,本公开实施例中,不限定操作S230~S260的执行顺序。
操作S230中,可以将问答对拼接,即将目标问题文本和一个用户回答文本拼接在一起,然后输入预先获得的文本质量模型,从而从多个维度表示出该用户回答文本的文本特征。
操作S240中,目标用户是指当前处理的用户回答的答主。操作S240中,获得的第一特征可以表征目标用户的用户质量。在一个实施例中,可以将答主的用户历史行为、最近一段时间内回答的问题的垂直度、用户活跃度、用户专业度、用户写作风格以及用户基本属性等中的一种或几种输入预先获得的用户质量模型,从而从多个维度表示出该答主的第一特征(即第一用户特征)。
操作S250中,第二特征即第二用户特征,可以用于表征浏览者对当前处理的用户回答的满意度。在本公开实施例中,浏览者是指一个用户群体,不是指某个特定的用户。操作S250中,第二特征可以通过数据挖掘获取。示例性的,可以根据浏览者的行为轨迹、用户操作、在问答界面上停留的时长、对用户回答的评价和情感倾向、以及浏览者的结尾点击对象中的一种或几种来挖掘表征浏览者对用户回答的满意度的第二特征。
操作S260中,在确定所有回答中的优质回答时,即考虑了回答文本的本身的文本特征,同时还考虑了提交回答的用户的质量以及浏览者对回答的满意度,因而可以更加有针对性地、准确地确定出知识问答中的优质回答。
因此,通过本公开实施例,可以有效识别出知识问答中的优质回答,并且可以提升知识问答社区中答主的质量以及问答文本的质量,进而可以提升浏览者的用户体验。
作为一种可选的实施例,基于目标问题和用户回答,确定该用户回答的文本特征,可以包括:基于目标问题和该用户回答,从问题维度、回答维度和页面维度中的至少之一确定该用户回答的文本特征。
在本公开实施例中,可以将问答对拼接,即将目标问题文本和当前处理的一个用户回答文本拼接在一起,然后输入预先获得的文本质量模型,从而从多个维度表示出该用户回答文本的文本特征。
图3示例性示出了根据本公开实施例的确定回答的文本特征的示意图。
如图3所示,本实施例中,用户回答的文本特征可以从问题维度、回答维度和页面维度共3个维度来表示。其中,问题维度可以包括但不限于对问题疑问度的识别、对问题分类的识别(即对问题领域的识别)中的一种或几种。回答维度可以包括但不限于对作弊内容的识别、对垃圾内容的识别、对优质内容的识别、对文本通顺度的识别、对文本情感倾向的识别中的一种或几种。页面维度可以包括但不限于对页面丰富度的识别(如回答界面中是否包含附图、视频、必要的标点符号等)、对页面布局的识别(如文本中是否包含多个段落、每个段落是否有缩进、不同的内容是否有标号、文本是否涉及多种html样式等)和对回答原创度的识别中的一种或几种。
示例性的,用户回答中的作弊内容包括:没有给出具体回答,而是给出了一个或者几个链接。此种情况属于回答中的作弊。
示例性的,用户回答中的垃圾内容包括:没有针对用户提问给出对应的回答,而是在回答中插入广告或者广告链接。此种信息属于回答中的垃圾内容。
应该理解,本实施例中,文本情感倾向可以包括正向、负向和中性共3个情感方向。
通过本公开实施例,在确定用户回答的文本特征时,并没有仅仅考虑回答的文本内容,而是同时考虑了其他维度,因而可以更准确、全面地判定回答文本的质量。
作为一种可选的实施例,确定提交该用户回答的目标用户的第一特征,可以包括:从用户历史行为维度、回答问题的垂直度维度、用户活跃度维度、用户专业度维度、用户写作风格维度和用户基本属性维度中的至少之一确定提交该用户回答的目标用户的第一特征。
示例性的,如图4所示,可以从答主的用户历史行为、回答问题的垂直度、用户活跃度、用户专业度、用户写作风格和用户基本属性等维度表示答主的用户特征,并基于该用户特征确定答主是不是优质答主。
应该理解,本实施例中,答主的用户历史行为主要可以包括基于以下内容描述:该答主在最近一段时间内提交的回答都有哪些、以及提交的回答的文本质量如何等。答主的用户活跃度可以基于该答主在最近一段时间内回答问题的频次确定。答主回答问题的垂直度可以根据该答主在最近一段时间内提交的回答涉及的领域数来确定。其中,涉及的领域数越少,回答问题的垂直度越高;反之,涉及的领域数越多,回答问题的垂直度越低。答主的用户专业度可以根据答主的相关认证或者专业等级评定等确定。答主的用户写作风格主要可以包括答主提交的回答文本是否内容丰富、布局合理、是否是原创内容等。答主的用户基本属性主要可以包括年龄、性别、职业等等。
通过本公开实施例,可以从更多维度挖掘答主的特征,以确定答主的质量,进而确定答主是否是优质答主。应该理解,通常情况下,优质答主提交的回答文本相对是优质回答的可能性也越大;反之,非优质答主提交的回答文本相对是优质回答的可能性会越小。
作为一种可选的实施例,确定第二特征,可以包括以下至少之一。
确定浏览者在展示该用户回答的网页上的停留时长,并基于停留时长挖掘对应的第二特征。
确定浏览者在浏览该用户回答的过程中的行为轨迹,并基于行为轨迹挖掘对应的第二特征。
确定浏览者针对该用户回答执行的用户操作,并基于用户操作挖掘对应的第二特征。
确定浏览者针对该用户回答给出的评价值,并基于评价值挖掘对应的第二特征。
确定浏览者对该用户回答的情感倾向属性,并基于情感倾向属性挖掘对应的第二特征。
确定该用户回答是否是浏览者在浏览过程中的结尾点击对象,以获得对应的确定结果,并基于确定结果挖掘对应的第二特征。
示例性的,如图5所示,可以从浏览者在问答界面上的停留时长、浏览者在浏览问答界面时的行为轨迹、浏览者对答主回答所做的操作、浏览者对答主回答给出的评价值、浏览者对答主回答表现出的感情倾向以及浏览者的结尾操作对象中的一个或几个来挖掘浏览者对答主回答的满意度。
应该理解,回答文本长度确定的情况下,浏览者在问答界面上的停留时间相对较长,通常表明浏览者对当前的用户回答比较感兴趣,且认可度较高;相反,浏览者在问答界面上的停留时间相对较短,通常表明浏览者对当前的用户回答比较不感兴趣,且认可度较低。当然,如果浏览者在问答界面上的停留时间相对过长,也存在溜号的可能,此种情况下该维度信息的参考意义不大。
还应该理解,如果浏览者在浏览某个答主回答的过程中,其行为轨迹表现为其不断地跳转到相关问题的其他答主回答界面,则表征浏览者对当前的答主回答的满意度不高;反之,如果其行为轨迹表现为其没有不断地跳转到相关问题的任何其他答主回答界面,则表征浏览者对当前的答主回答的满意度较高。
在本公开实施例中,浏览者针对用户回答执行的用户操作可以包括但不限于点“赞”、点“踩”、转发、评论、收藏等。
还应该理解,浏览者针对用户回答给出的评价值可以是浏览者针对该用户回答给出的打分(如1-5星)。
此外,浏览者在浏览知识问答过程中对用户回答给出的评论,可以用户确定浏览者对该用户回答的情感倾向(包括正向、负向、中性)。应该理解,如果浏览者给出的是正向评论,则表明浏览者认可其评论的用户回答;反之,如果浏览者给出的是负向评论,则表明浏览者不认可其评论的用户回答。
此外,如果浏览者浏览问答界面中的用户回答1时,最终的结尾点击操作却落在了用户回答3处,此种情况下表明浏览者对用户回答1的满意度不高;反之,如果浏览者浏览问答界面中的用户回答1时,最终的结尾点击操作却落在了用户回答1处,此种情况下表明浏览者对用户回答1的满意度高。
通过本公开实施例,可以从浏览者角度客观地地衡量各用户回答的质量,即可以从更多维度挖掘浏览者对各用户回答的满意度,进而辅助确定各用户回答是否是优质回答。
作为一种可选的实施例,基于上述的文本特征、第一特征和第二特征,确定该用户回答的文本质量,可以包括如下操作。
将文本特征、第一特征以及第二特征输入预先得到的优质回答识别模型,以获得对应的输出结果。
确定输出结果是否大于指定阈值。
响应于确定输出结果大于指定阈值,将该用户回答作为目标问题的优质回答存入对应的优质回答数据库。
示例性的,如图6所示,对于答主提交的回答文本,可以以“问题-回答”的问答对形式输入文本质量模型,并输出对应的表征回答文本质量的文本特征。对于答主,可以将其在特定时间段内的用户历史行为、回答问题的垂直度、用户活跃度、用户专业度、用户写作风格和用户基本属性等信息输入用户质量模型,并输出对应的表征答主质量的用户特征。对于浏览者,可以将浏览者在问答界面上的停留时长、浏览者在浏览问答界面时的行为轨迹、浏览者对答主回答所做的操作、浏览者对答主回答给出的评价值、浏览者对答主回答表现出的感情倾向以及浏览者的结尾操作对象输入用户满意度模型,并输出对应的表征浏览者满意度的用户特征。
可以将文本质量模型、用户质量模型和用户满意度模型的输出同时输入特征融合模型进行融合处理,最终输出对当前处理的用户回答的评价值(即打分)。
如果该评价值大于指定阈值,则将当前处理的用户回答排列至当前用户回答队列的首位,同时将该用户回答作为目标问题的优质回答更新至优质回答数据库中,以便浏览者查询。
应该理解,本实施例提供的方案,可以满足离线、在线优质回答识别场景,同时还能支持其他优质答主图定需求以及分发场景等。
通过本公开实施例,可以有效地识别知识问答中的优质回答,提升知识问答社区中答主的质量和回答文本的质量,进而提升浏览者的用户体验。
应该理解,本公开实施例中,可以通过文本质量模型对当前答主提交的回答文本进行打分,同时通过用户质量模型对当前答主进行打分,以及借助用户满意度模型从浏览者维度对当前答主提交的回答文本进行客观打分评价,并将这些打分汇聚成对应的特征输入给特征融合模型,以便对当前答主提交的回答文本再次进行打分,最后对比当前打分和指定的阈值,并给出当前问答对是否为优质内容的判定结果。
根据本公开的实施例,本公开还提供了一种识别知识问答中的优质回答的装置。
图7示例性示出了根据本公开实施例的识别知识问答中的优质回答的装置的框。
如图7所示,识别知识问答中的优质回答的装置700,可以包括:获取模块710和确定模块720。进一步,确定模块720可以包括:第一确定单元721、第二确定单元722、第三确定单元723和第四确定单元724。
获取模块710,用于获取针对目标问题提交的至少一个回答。
确定模块720,用于针对该至少一个回答中的每个回答,通过以下单元执行以下操作,以确定该至少一个回答中的优质回答。
第一确定单元721,用于基于该目标问题和回答,确定该回答的文本特征。
第二确定单元722,用于确定提交该回答的目标用户的第一特征;
第三确定单元723,用于确定第二特征,其中,该第二特征用于表征浏览者对该回答的满意度。
第四确定单元724,用于基于该文本特征、该第一特征和该第二特征,确定该回答的文本质量。
作为一种可选的实施例,该第一确定单元还用于:基于该目标问题和该用户回答,从问题维度、回答维度和页面维度中的至少之一确定该用户回答的文本特征。
作为一种可选的实施例,该第二确定单元还用于:从用户历史行为维度、回答问题的垂直度维度、用户活跃度维度、用户专业度维度、用户写作风格维度和用户基本属性维度中的至少之一确定提交该用户回答的目标用户的第一特征。
作为一种可选的实施例,该第三确定单元包括以下至少之一:第一确定子单元,用于确定浏览者在展示该用户回答的网页上的停留时长,并基于该停留时长挖掘对应的第二特征;第二确定子单元,用于确定浏览者在浏览该用户回答的过程中的行为轨迹,并基于该行为轨迹挖掘对应的第二特征;第三确定子单元,用于确定浏览者针对该用户回答执行的用户操作,并基于该用户操作挖掘对应的第二特征;第四确定子单元,用于确定浏览者针对该用户回答给出的评价值,并基于该评价值挖掘对应的第二特征;第五确定子单元,用于确定浏览者对该用户回答的情感倾向属性,并基于该情感倾向属性挖掘对应的第二特征;第六确定子单元,用于确定该用户回答是否是浏览者在浏览过程中的结尾点击对象,以获得对应的确定结果,并基于该确定结果挖掘对应的第二特征。
作为一种可选的实施例,该第四确定单元包括:输入子单元,用于将该文本特征、该第一特征以及该第二特征输入预先得到的优质回答识别模型,以获得对应的输出结果;第七确定子单元,用于确定该输出结果是否大于指定阈值;以及存储子单元,用于响应于确定该输出结果大于该指定阈值,将该用户回答作为该目标问题的优质回答存入对应的优质回答数据库。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如识别知识问答中的优质回答的方法。例如,在一些实施例中,识别知识问答中的优质回答的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的识别知识问答中的优质回答的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行识别知识问答中的优质回答的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
本公开的技术方案中,所涉及的用户数据的记录,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (13)

1.一种识别知识问答中的优质回答的方法,包括:
获取针对目标问题提交的至少一个回答;
针对所述至少一个回答中的每个回答,执行以下操作,以确定所述至少一个回答中的优质回答:
基于所述目标问题和回答,确定该回答的文本特征;
确定提交该回答的目标用户的第一特征;
确定第二特征,其中,所述第二特征用于表征浏览者对该回答的满意度;以及
基于所述文本特征、所述第一特征和所述第二特征,确定该回答的文本质量。
2.根据权利要求1所述的方法,其中,基于所述目标问题和回答,确定该回答的文本特征,包括:
基于所述目标问题和该回答,从问题维度、回答维度和页面维度中的至少之一确定该回答的文本特征。
3.根据权利要求1或2所述的方法,其中,确定提交该回答的目标用户的第一特征,包括:
从用户历史行为维度、回答问题的垂直度维度、用户活跃度维度、用户专业度维度、用户写作风格维度和用户基本属性维度中的至少之一确定提交该回答的目标用户的第一特征。
4.根据权利要求1所述的方法,其中,确定第二特征,包括以下至少之一:
确定浏览者在展示该回答的网页上的停留时长,并基于所述停留时长挖掘对应的第二特征;
确定浏览者在浏览该回答的过程中的行为轨迹,并基于所述行为轨迹挖掘对应的第二特征;
确定浏览者针对该回答执行的用户操作,并基于所述用户操作挖掘对应的第二特征;
确定浏览者针对该回答给出的评价值,并基于所述评价值挖掘对应的第二特征;
确定浏览者对该回答的情感倾向属性,并基于所述情感倾向属性挖掘对应的第二特征;
确定该回答是否是浏览者在浏览过程中的结尾点击对象,以获得对应的确定结果,并基于所述确定结果挖掘对应的第二特征。
5.根据权利要求1所述的方法,其中,基于所述文本特征、所述第一特征和所述第二特征,确定该回答的文本质量,包括:
将所述文本特征、所述第一特征以及所述第二特征输入预先得到的优质回答识别模型,以获得对应的输出结果;
确定所述输出结果是否大于指定阈值;以及
响应于确定所述输出结果大于所述指定阈值,将该回答作为所述目标问题的优质回答存入对应的优质回答数据库。
6.一种识别知识问答中的优质回答的装置,包括:
获取模块,用于获取针对目标问题提交的至少一个回答;
确定模块,用于针对所述至少一个回答中的每个回答,执行以下操作,以确定所述至少一个回答中的优质回答:
第一确定单元,用于基于所述目标问题和回答,确定该回答的文本特征;
第二确定单元,用于确定提交该回答的目标用户的第一特征;
第三确定单元,用于确定第二特征,其中,所述第二特征用于表征浏览者对该回答的满意度;以及
第四确定单元,用于基于所述文本特征、所述第一特征和所述第二特征,确定该回答的文本质量。
7.根据权利要求6所述的装置,其中,所述第一确定单元还用于:
基于所述目标问题和该回答,从问题维度、回答维度和页面维度中的至少之一确定该回答的文本特征。
8.根据权利要求6或7所述的装置,其中,所述第二确定单元还用于:
从用户历史行为维度、回答问题的垂直度维度、用户活跃度维度、用户专业度维度、用户写作风格维度和用户基本属性维度中的至少之一确定提交该回答的目标用户的第一特征。
9.根据权利要求6所述的装置,其中,所述第三确定单元包括以下至少之一:
第一确定子单元,用于确定浏览者在展示该回答的网页上的停留时长,并基于所述停留时长挖掘对应的第二特征;
第二确定子单元,用于确定浏览者在浏览该回答的过程中的行为轨迹,并基于所述行为轨迹挖掘对应的第二特征;
第三确定子单元,用于确定浏览者针对该回答执行的用户操作,并基于所述用户操作挖掘对应的第二特征;
第四确定子单元,用于确定浏览者针对该回答给出的评价值,并基于所述评价值挖掘对应的第二特征;
第五确定子单元,用于确定浏览者对该回答的情感倾向属性,并基于所述情感倾向属性挖掘对应的第二特征;
第六确定子单元,用于确定该回答是否是浏览者在浏览过程中的结尾点击对象,以获得对应的确定结果,并基于所述确定结果挖掘对应的第二特征。
10.根据权利要求6所述的装置,其中,所述第四确定单元包括:
输入子单元,用于将所述文本特征、所述第一特征以及所述第二特征输入预先得到的优质回答识别模型,以获得对应的输出结果;
第七确定子单元,用于确定所述输出结果是否大于指定阈值;以及
存储子单元,用于响应于确定所述输出结果大于所述指定阈值,将该回答作为所述目标问题的优质回答存入对应的优质回答数据库。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
CN202110978248.5A 2021-08-24 识别知识问答中的优质回答的方法、装置和设备 Active CN113641812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110978248.5A CN113641812B (zh) 2021-08-24 识别知识问答中的优质回答的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110978248.5A CN113641812B (zh) 2021-08-24 识别知识问答中的优质回答的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113641812A true CN113641812A (zh) 2021-11-12
CN113641812B CN113641812B (zh) 2024-06-04

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120084112A1 (en) * 2010-09-24 2012-04-05 International Business Machines Corporation Providing community for customer questions
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN110275951A (zh) * 2019-06-27 2019-09-24 百度在线网络技术(北京)有限公司 问答方法、装置、设备和计算机可读存储介质
CN112966081A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 处理问答信息的方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120084112A1 (en) * 2010-09-24 2012-04-05 International Business Machines Corporation Providing community for customer questions
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN110275951A (zh) * 2019-06-27 2019-09-24 百度在线网络技术(北京)有限公司 问答方法、装置、设备和计算机可读存储介质
CN112966081A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 处理问答信息的方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAO, BING: "Research on tag recommendation for community-based question and answering", 《HARBIN INSTITUTE OF TECHNOLOGY》, 31 December 2009 (2009-12-31) *
孔维泽;刘奕群;张敏;马少平;: "问答社区中回答质量的评价方法研究", 中文信息学报, no. 01, 15 January 2011 (2011-01-15) *

Similar Documents

Publication Publication Date Title
US8972428B2 (en) Providing an answer to a question left unanswered in an electronic forum
US8769417B1 (en) Identifying an answer to a question in an electronic forum
US20160055541A1 (en) Personalized recommendation system and methods using automatic identification of user preferences
US20160225030A1 (en) Social data collection and automated social replies
US20110236870A1 (en) System and method for learning
CN112966081B (zh) 处理问答信息的方法、装置、设备和存储介质
US11216529B2 (en) Systems and methods for categorizing, evaluating, and displaying user input with publishing content
Yu et al. Unravelling the relationship between response time and user experience in mobile applications
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN113032520A (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN114154013A (zh) 视频推荐方法、装置、设备及存储介质
CN116204714A (zh) 推荐方法、装置、电子设备及存储介质
CN110990527A (zh) 自动问答方法及装置、存储介质及电子设备
CN110321483A (zh) 一种基于用户序列性行为的在线课程平台内容推荐方法、装置、系统及存储介质
Benaida et al. Technical and perceived usability issues in Arabic educational websites
CN110750633B (zh) 用于确定问题的答案的方法及装置
WO2023231288A1 (zh) 搜索结果的排序方法、装置、电子设备和存储介质
CN113641812B (zh) 识别知识问答中的优质回答的方法、装置和设备
CN113641812A (zh) 识别知识问答中的优质回答的方法、装置和设备
CN114357132A (zh) 排序模型的生成方法、排序方法、装置、设备和存储介质
CN113515932B (zh) 处理问答信息的方法、装置、设备和存储介质
CN114490990B (zh) 待标注文本的确定方法、装置、设备和存储介质
CN111796846B (zh) 信息更新方法、装置、终端设备及可读存储介质
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant