CN116303910A - 问答页面推荐方法、装置、设备及存储介质 - Google Patents
问答页面推荐方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116303910A CN116303910A CN202111487518.9A CN202111487518A CN116303910A CN 116303910 A CN116303910 A CN 116303910A CN 202111487518 A CN202111487518 A CN 202111487518A CN 116303910 A CN116303910 A CN 116303910A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- page
- pages
- answering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 claims description 8
- 238000013441 quality evaluation Methods 0.000 abstract description 7
- 238000011156 evaluation Methods 0.000 abstract description 6
- 230000004044 response Effects 0.000 abstract description 6
- 238000012163 sequencing technique Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,公开了一种问答页面推荐方法、装置、设备及存储介质。该方法包括:在接收到用户输入的待查询问题时,基于待查询问题从问答系统中查找对应的多个待选问答页面;获取各待选问答页面的综合质量评分,综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;基于综合质量评分从待选问答页面中选取待推荐问答页面。通过上述方式,综合利用问答页面对应的多维度特征,构建问答质量评价系统,实现对问答页面的内容进行综合全面的评价,响应用户的查询指令为用户推荐内容质量高的问答页面。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种问答页面推荐方法、装置、设备及存储介质。
背景技术
问答系统(例如社区问答系统)是搜索领域中的重要分支,也是用户获取信息的一条重要途径。当用户在查询一个问题时,问答系统将会在问答数据库中进行检索并返回与该问题最相近的页面,期望帮助解决用户的问题。然而,问答数据库中存储着海量的问答数据,不同问答页面的质量也是参差不齐的,问答系统返回页面的内容质量直接影响着用户的搜索体验,也是评价一个社区问答系统好坏的重要标准。因此,如何判别问答页面的内容质量便成了问答系统中的关键问题。
问答内容质量评价既是社区问答系统中的重点问题,同时也是难点问题。现有技术中,大多聚焦与回答内容本身的静态特征,特征维度较为单一,缺乏系统化、深度的研究。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种问答页面推荐方法、装置、设备及存储介质,旨在解决如何为用户提供内容质量高的问答页面的技术问题。
为实现上述目的,本发明提供了一种问答页面推荐方法,所述方法包括以下步骤:
在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面;
获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;
基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
可选地,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面,包括:
在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇;
根据所述当前聚类簇确定对应的多个待选问答页面。
可选地,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面之前,所述方法还包括:
根据各问答页面的标题相似度进行聚类,得到若干个聚类簇;
获取目标聚类簇中各问答页面对应的多维度特征信息;
基于所述特征信息确定对应的特征得分;
将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
可选地,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
可选地,当所述特征信息为页面间互投特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将目标聚类簇中各问答页面与其他问答页面之间的页面间互投特征信息进行汇总,得到目标聚类簇中各问答页面对应的页面间互投得分,其中,所述页面间互投特征信息为根据所述目标聚类簇中任意两个问答页面之间的答案相似度确定得到的。
可选地,当所述特征信息为文本特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将各项所述文本特征信息与对应的各级评分标准进行比对,确定各项所述文本特征信息分别对应的分项得分;
将所述分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的文本特征得分,其中,所述文本特征信息包括文本长度、文本熵、句子数量、平均句长、问题答案长度比和问题答案相似度。
可选地,当所述特征信息为链接特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
根据各项所述链接特征信息对所述目标聚类簇中各问答页面分别进行排序,并根据排序结果为所述目标聚类簇中各问答页面分别赋予单项得分;
将所述单项得分进行汇总,得到所述目标聚类簇中各问答页面对应的对应的链接特征得分,其中,所述链接特征信息包括页面点击数、平均停留时长以及是否为最后点击。
可选地,当所述特征信息为时间特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
根据所述时间特征信息对所述目标聚类簇中各问答页面进行排序,并根据排序结果为所述目标聚类簇中各问答页面赋予时间特征得分,其中,所述时间特征信息包括页面创建时间和回答内容发布时间。
可选地,所述内容展现特征信息包括图片信息、视频信息以及追答信息;
获取目标聚类簇中各问答页面对应的内容展现特征信息,包括:
获取目标聚类簇中各问答页面对应的标题信息、内容信息和回答信息;
根据所述标题信息、所述内容信息和所述回答信息判断各问答页面中是否有图片、是否有视频以及是否有追答,得到所述目标聚类簇中各问答页面对应的内容展现特征信息。
可选地,所述语义特征信息包括语义匹配度;
获取目标聚类簇中各问答页面对应的语义特征信息,包括:
获取目标聚类簇中各问答页面对应的标题信息以及答案信息;
基于预设语义模型确定各问答页面中所述标题信息以及所述答案信息之间的语义匹配度,得到所述目标聚类簇中各问答页面对应的语义特征信息。
可选地,当所述特征信息用户特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将各项所述用户特征信息与对应的各级用户评分标准进行比对,确定各项所述用户特征信息分别对应的用户分项得分;
将所述用户分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的用户特征得分,其中,所述用户特征信息包括用户等级、积分、提问数、回答数以及采纳率。
可选地,所述将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分之后,所述方法还包括:
根据所述综合质量评分对所述目标聚类簇中各问答页面进行排序,输入至预设排序模型中;
所述根据所述当前聚类簇确定对应的多个待选问答页面之后,所述方法还包括:
从所述预设排序模型中获取所述当前聚类簇对应的当前排序列表;
根据所述当前排序列表展示多个待选问答页面。
可选地,所述根据所述综合质量评分对所述目标聚类簇中各问答页面进行排序之后,所述方法还包括:
在获取到当前问答页面时,确定所述当前问答页面的页面标题与各聚类簇之间的相似度;
根据所述相似度选择与所述当前问答页面相似度大的第一聚类簇;
确定所述当前问答页面对应的多维度特征得分;
将所述当前问答页面对应的多维度特征得分输入至预先训练好的目标回归模型中,得到所述当前问答页面对应的当前综合质量评分;
从所述预设排序模型中获取所述第一聚类簇对应的第一排序列表;
根据所述当前综合质量评分将所述当前问答页面插入至所述第一排序列表中,得到目标排序列表;
根据所述目标排序列表对所述预设排序模型进行更新。
可选地,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面之前,所述方法还包括:
获取若干样本问答页面以及各样本问答页面对应的人工评分;
确定各样本问答页面对应的多维度特征得分;
将各样本问答页面对应的多维度特征得分作为初始回归模型的输入,将各样本问答页面对应的人工评分作为所述初始回归模型的输出,对所述初始回归模型进行训练,得到训练好的目标回归模型。
此外,为实现上述目的,本发明还提出一种问答页面推荐装置,所述问答页面推荐装置包括:
查找模块,用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面;
评分获取模块,用于获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;
推荐模块,用于基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
可选地,所述查找模块,还用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇,根据所述当前聚类簇确定对应的多个待选问答页面。
可选地,所述问答页面推荐装置还包括质量评分模块;
所述质量评分模块,用于根据各问答页面的标题相似度进行聚类,得到若干个聚类簇,获取目标聚类簇中各问答页面对应的多维度特征信息,基于所述特征信息确定对应的特征得分,将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
可选地,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
此外,为实现上述目的,本发明还提出一种问答页面推荐设备,所述问答页面推荐设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答页面推荐程序,所述问答页面推荐程序配置为实现如上文所述的问答页面推荐方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有问答页面推荐程序,所述问答页面推荐程序被处理器执行时实现如上文所述的问答页面推荐方法。
本发明通过在接收到用户输入的待查询问题时,基于待查询问题从问答系统中查找对应的多个待选问答页面;获取各待选问答页面的综合质量评分,综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;基于综合质量评分从待选问答页面中选取待推荐问答页面。通过上述方式,综合利用问答页面对应的多维度特征,构建问答质量评价系统,实现对问答页面的内容进行综合全面的评价,响应用户的查询指令为用户推荐内容质量高的问答页面。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的问答页面推荐设备的结构示意图;
图2为本发明问答页面推荐方法第一实施例的流程示意图;
图3为本发明问答页面推荐方法第二实施例的流程示意图;
图4为本发明问答页面推荐方法一实施例的综合质量评分流程示意图;
图5为本发明问答页面推荐方法第三实施例的流程示意图;
图6为本发明问答页面推荐装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的问答页面推荐设备结构示意图。
如图1所示,该问答页面推荐设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对问答页面推荐设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及问答页面推荐程序。
在图1所示的问答页面推荐设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明问答页面推荐设备中的处理器1001、存储器1005可以设置在问答页面推荐设备中,所述问答页面推荐设备通过处理器1001调用存储器1005中存储的问答页面推荐程序,并执行本发明实施例提供的问答页面推荐方法。
本发明实施例提供了一种问答页面推荐方法,参照图2,图2为本发明问答页面推荐方法第一实施例的流程示意图。
本实施例中,所述问答页面推荐方法包括以下步骤:
步骤S10:在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面。
可以理解的是,本实施例的执行主体为问答页面推荐设备,所述问答页面推荐设备可以为计算机、服务器等设备,还可以为其他具备相同或相似功能的设备,本实施例对此不加以限制。
需要说明的是,从问答系统中查找问题与待查询问题相近的多个待选问答页面,在具体过程中,确定待查询问题与问答系统中各问题的相似度,将相似度大于预设阈值的问答页面作为待选问答页面。
可选地,提前将问答系统中的页面进行聚类,得到多个聚类簇,确定待查询问题与问答系统中各问题的相似度,确定相似度最大的问答页面的聚类簇,获取该聚类簇中的问答页面作为待选问答页面。
进一步地,所述步骤S10之前,所述方法还包括:获取若干样本问答页面以及各样本问答页面对应的人工评分;确定各样本问答页面对应的多维度特征得分;将各样本问答页面对应的多维度特征得分作为初始回归模型的输入,将各样本问答页面对应的人工评分作为所述初始回归模型的输出,对所述初始回归模型进行训练,得到训练好的目标回归模型。
应当理解的是,从问答系统中筛选出一批问答页面D作为样本问答页面,对样本问答页面的问答质量进行人工评测,得到人工评分L,确定问答页面D对应的多维度特征得分F,将问答页面D的问答质量分以及对应多维度特征得分,记为{(L,F)},选取初始回归模型,以L为模型输出,F为模型的特征输入,进行模型训练,得到训练好的目标回归模型,利用该目标回归模型计算出全部问答页面的综合质量评分。其中,本实施例可采用XGBoost树回归模型作为初始回归模型。
步骤S20:获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定。
应当理解的是,在具体实现中,获取各待选问答页面对应的多维度特征,从而确定各待选问答页面对应的多维度特征得分,将多维度特征得分输入至目标回归模型,得到各待选问答页面对应的综合质量评分。
可选地,提前将问答系统中的各页面进行聚类,得到多个聚类簇,确定各聚类簇中各问答页面的多维度特征,从而确定对应的多维度特征得分,将多维度特征得分输入至训练好的目标回归模型中确定各聚类簇中各问答页面的综合质量评分,以聚类簇为存储单位对聚类簇中各问答页面的综合质量评分进行存储,在获取到多个待选问答页面时,从存储区域内查找对应的综合质量评分。
步骤S30:基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
需要说明的是,待推荐问答页面可以为多个待选问答页面中综合质量评分最高的一个问答页面或多个问答页面,在具体实现中,提前设置有选取规则,根据该选取规则选取待推荐问答页面,例如,选择综合质量评分最高的三个问答页面。进一步地,在所述步骤S30之后,所述方法还包括:按照预设显示策略对所述待推荐问答页面进行展示。预设显示策略可以为按照综合质量评分由高到低对多个待推荐问答页面进行排序,由上至下依次显示。
本实施例通过在接收到用户输入的待查询问题时,基于待查询问题从问答系统中查找对应的多个待选问答页面;获取各待选问答页面的综合质量评分,综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;基于综合质量评分从待选问答页面中选取待推荐问答页面。通过上述方式,综合利用问答页面对应的多维度特征,构建问答质量评价系统,实现对问答页面的内容进行综合全面的评价,响应用户的查询指令为用户推荐内容质量高的问答页面。
参考图3,图3为本发明问答页面推荐方法第二实施例的流程示意图。
基于上述第一实施例,本实施例问答页面推荐方法的所述步骤S10,包括:
步骤S101:在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇。
可以理解的是,基于待查询问题查找当前聚类簇的方式可以为确定待查询问题与问答系统中各问题的相似度,确定相似度最大的问答页面的聚类簇,将该聚类簇作为当前聚类簇。可选地,确定待查询问题与各聚类簇之间的相似度距离,确定相似度距离最小的聚类簇作为当前聚类簇。
步骤S102:根据所述当前聚类簇确定对应的多个待选问答页面。
需要说明的是,将当前聚类簇对应的各问答页面作为待选问答页面。
进一步地,所述步骤S10之前,所述方法还包括:
步骤S01:根据各问答页面的标题相似度进行聚类,得到若干个聚类簇。
在具体实现中,获取全量标题矢量数据,搭建faiss环境,利用MapReduce根据各问答页面的标题相似度进行聚类,可以利用K-Means聚类算法对各问答页面的标题进行聚类,使得相似的问题尽可能聚成一类。
步骤S02:获取目标聚类簇中各问答页面对应的多维度特征信息。
具体地,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
步骤S03:基于所述特征信息确定对应的特征得分。
步骤S04:将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
需要说明的是,参照图4,图4为本发明问答页面推荐方法一实施例的综合质量评分流程示意图,分别获取多维度特征信息的特征得分,通过目标回归模型进行汇总评分,得到各问答页面对应的综合质量评分,将其进行存储或直接用于问答队列排序。
具体地,当所述特征信息为页面间互投特征信息时,所述步骤S03,包括:将目标聚类簇中各问答页面与其他问答页面之间的页面间互投特征信息进行汇总,得到目标聚类簇中各问答页面对应的页面间互投得分,其中,所述页面间互投特征信息为根据所述目标聚类簇中任意两个问答页面之间的答案相似度确定得到的。
可以理解的是,利用目标聚类簇中两两页面之间的Jaccard系数相似度衡量各问答页面对应的页面间互投特征信息,将一问答页面与其他问答页面的Jaccard系数相似度进行汇总,得到该问答页面对应的页面间互投得分。
具体地,当所述特征信息为文本特征信息时,所述步骤S03,包括:将各项所述文本特征信息与对应的各级评分标准进行比对,确定各项所述文本特征信息分别对应的分项得分;将所述分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的文本特征得分,其中,所述文本特征信息包括文本长度、文本熵、句子数量、平均句长、问题答案长度比和问题答案相似度。
需要说明的是,获取文本特征信息的过程为获取各问答页面对应的标题信息和答案信息,确定问题和答案的文本长度、文本熵、句子数量、平均句长,并确定问题答案长度比以及问题答案之间的相似度。在具体实现中,设置有各项文本特征信息对应的多级评分标准,例如,文本长度范围(a,b]对应的评分标准为10分,文本长度范围(b,c]对应的评分标准为20分,在确定A问答页面对应的文本长度属于范围(a,b]时,确定A问答页面的文本长度项对应的分项得分为10分,其中各项文本特征信息对应的数值越大,各项文本特征信息对应的分项得分越大。将各问答页面中文本长度对应的分项得分、文本熵对应的分项得分、句子数量对应的分项得分、平均句长对应的分项得分、问题答案长度比对应的分项得分和问题答案相似度对应的分项得分进行汇总,得到各问答页面对应的文本特征得分。
具体地,当所述特征信息为链接特征信息时,所述步骤S03,包括:根据各项所述链接特征信息对所述目标聚类簇中各问答页面分别进行排序,并根据排序结果为所述目标聚类簇中各问答页面分别赋予单项得分;将所述单项得分进行汇总,得到所述目标聚类簇中各问答页面对应的对应的链接特征得分,其中,所述链接特征信息包括页面点击数、平均停留时长以及是否为最后点击。
可以理解的是,获取链接特征信息的过程为获取各问答页面对应的session日志数据,根据session日志数据确定各问答页面的页面点击数、停留时长,并判断各问答页面是否为最后点击(last click)。在具体实现中,通过各问答页面的各项链接特征信息进行排序,假设本实施例中各项链接特征信息对应的评分机制为百分制,将一百分按照目标聚类簇中问答页面的总数进行平均,确定排序结果中两个相邻元素之间的分数差值,根据分数差值以及排序结果确定各问答页面对应的等差递增的单项得分,其中各项链接特征信息对应的数值越大,各项链接特征信息对应的单项得分越大。将各问答页面中页面点击数对应的单项得分、平均停留时长对应的单项得分和是否为最后点击对应的单项得分进行汇总,得到各问答页面对应的链接特征得分。
具体地,当所述特征信息为时间特征信息时,所述步骤S03,包括:根据所述时间特征信息对所述目标聚类簇中各问答页面进行排序,并根据排序结果为所述目标聚类簇中各问答页面赋予时间特征得分,其中,所述时间特征信息包括页面创建时间和回答内容发布时间。
需要说明的是,获取时间特征信息的过程为获取各问答页面对应的元数据,根据各问答页面对应的元数据确定各问答页面的创建时间和回答内容发布时间,其中各项时间特征信息对应的时间越近,各项时间特征信息对应的得分越大。将各问答页面中页面创建时间对应的得分和回答内容发布时间对应的得分进行汇总,得到各问答页面对应的时间特征得分。
进一步地,所述内容展现特征信息包括图片信息、视频信息以及追答信息;
获取目标聚类簇中各问答页面对应的内容展现特征信息,包括:获取目标聚类簇中各问答页面对应的标题信息、内容信息和回答信息;根据所述标题信息、所述内容信息和所述回答信息判断各问答页面中是否有图片、是否有视频以及是否有追答,得到所述目标聚类簇中各问答页面对应的内容展现特征信息。
应当理解的是,在具体实现中,提前设置各项内容展现特征信息对应的预设分数x,如果B问答页面有图片、有视频并且有追答,则确定B问答页面对应的内容展现特征得分为3x,如果C问答页面无图片、无视频并且无追答,则确定C问答页面对应的内容展现特征得分为0。
进一步地,所述语义特征信息包括语义匹配度;
获取目标聚类簇中各问答页面对应的语义特征信息,包括:获取目标聚类簇中各问答页面对应的标题信息以及答案信息;基于预设语义模型确定各问答页面中所述标题信息以及所述答案信息之间的语义匹配度,得到所述目标聚类簇中各问答页面对应的语义特征信息。
需要说明的是,预设语义模型为提前训练好的深度模型,基于预设语义模型确定各问答页面中标题信息以及答案信息之间的语义匹配度,其中语义匹配度越高,语义特征得分越大。
具体地,当所述特征信息用户特征信息时,所述步骤S03,包括:将各项所述用户特征信息与对应的各级用户评分标准进行比对,确定各项所述用户特征信息分别对应的用户分项得分;将所述用户分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的用户特征得分,其中,所述用户特征信息包括用户等级、积分、提问数、回答数以及采纳率。
应当理解的是,获取用户特征信息的过程为爬取各问答页面对应的用户信息,确定各问答页面对应的用户等级、积分、提问数、回答数以及采纳率。在具体实现中,设置有各项用户特征信息对应的多级用户评分标准,例如,用户等级①对应的评分标准为10分,用户等级②对应的评分标准为20分,在确定D问答页面对应的用户等级为①时,确定D问答页面的用户等级对应的用户分项得分为10分,其中各项用户特征信息对应的数值越大,各项用户特征信息对应的用户分项得分越大。将各问答页面中用户等级对应的用户分项得分、积分对应的用户分项得分、提问数对应的用户分项得分、回答数对应的用户分项得分以及采纳率对应的用户分项得分进行汇总,得到各问答页面对应的用户特征得分。
本实施例根据各问答页面的标题相似度进行聚类,得到若干个聚类簇;获取目标聚类簇中各问答页面对应的多维度特征信息;基于特征信息确定对应的特征得分;将目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到目标聚类簇中各问答页面分别对应的综合质量评分,对目标聚类簇中各问答页面分别对应的综合质量评分进行存储;在接收到用户输入的待查询问题时,基于待查询问题从问答系统中查找对应的当前聚类簇;根据当前聚类簇确定对应的多个待选问答页面;获取各待选问答页面的综合质量评分,综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;基于综合质量评分从待选问答页面中选取待推荐问答页面。通过上述方式,获取问答页面对应的多维度特征,确定多维度特征的特征得分,并基于目标回归模型构建问答质量评价系统,利用多维度特征的特征得分实现对问答页面的内容进行综合全面的评价,响应用户的查询指令为用户推荐内容质量高的问答页面。
参考图5,图5为本发明问答页面推荐方法第三实施例的流程示意图。
基于上述第一实施例和第二实施例,本实施例问答页面推荐方法在所述步骤S04之后,还包括:
步骤S05:根据所述综合质量评分对所述目标聚类簇中各问答页面进行排序,输入至预设排序模型中。
可以理解的是,预设排序模型中将目标聚类簇中各问答页面按照对应综合质量评分由高到低进行排序。
所述步骤S102之后,所述方法还包括:
步骤S103:从所述预设排序模型中获取所述当前聚类簇对应的当前排序列表。
需要说明的是,根据当前聚类簇的标识信息从预设排序模型中获取当前聚类簇中各问答页面对应的排列顺序,基于排列顺序以及各问答页面的标识信息生成对应的当前排序列表。
步骤S104:根据所述当前排序列表展示多个待选问答页面。
可以理解的是,按照当前排序列表依次获取各问答页面对应的展示信息,例如:标题、部分回答、关键字标识、回答者名称等等。以当前排序列表的顺序展示多个待选问答页面的展示信息。
进一步地,所述步骤S05之后,所述方法还包括:在获取到当前问答页面时,确定所述当前问答页面的页面标题与各聚类簇之间的相似度;根据所述相似度选择与所述当前问答页面相似度大的第一聚类簇;确定所述当前问答页面对应的多维度特征得分;将所述当前问答页面对应的多维度特征得分输入至预先训练好的目标回归模型中,得到所述当前问答页面对应的当前综合质量评分;从所述预设排序模型中获取所述第一聚类簇对应的第一排序列表;根据所述当前综合质量评分将所述当前问答页面插入至所述第一排序列表中,得到目标排序列表;根据所述目标排序列表对所述预设排序模型进行更新。
需要说明的是,本实施例中提供预设排序模型更新方式,在问答系统中收录新的当前问答页面后,确定当前问答页面的页面标题与各聚类簇之间的相似度,选择相似度最大的聚类簇,将当前问答页面归入该聚类簇,可选地,确定当前问答页面的页面标题与已收录的各问答页面的页面标题之间的相似度,确定相似度最大的已收录问答页面所属聚类簇,将当前问答页面归入该聚类簇。提取当前问答页面的多维度特征,从而确定多维度特征得分,通过目标回归模型确定当前问答页面的当前综合质量评分,第一排序列表中将第一聚类簇中各问答页面按照对应综合质量评分由高到低进行排序,将当前问答页面按照当前综合质量评分选择合适的位置,插入至第一排序列表对应位置中,得到综合质量评分由高到低进行排序的目标排序列表,依据目标排序列表对预设排序模型进行更新。
本实施例通过根据各问答页面的标题相似度进行聚类,得到若干个聚类簇;获取目标聚类簇中各问答页面对应的多维度特征信息;基于特征信息确定对应的特征得分;将目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到目标聚类簇中各问答页面分别对应的综合质量评分,对目标聚类簇中各问答页面分别对应的综合质量评分进行存储;根据综合质量评分对目标聚类簇中各问答页面进行排序,输入至预设排序模型中;在接收到用户输入的待查询问题时,基于待查询问题从问答系统中查找对应的当前聚类簇;根据当前聚类簇确定对应的多个待选问答页面;从预设排序模型中获取当前聚类簇对应的当前排序列表;根据当前排序列表展示多个待选问答页面。通过上述方式,获取问答页面对应的多维度特征,确定多维度特征的特征得分,并基于目标回归模型构建问答质量评价系统,利用多维度特征的特征得分实现对问答页面的内容进行综合全面的评价,并依据综合质量评分对聚类簇中的各问答网页进行排序,响应用户的查询指令为用户按照聚类簇中的综合质量评分顺序展示多个待选问答页面,为客户推荐内容质量高的问答页面。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有问答页面推荐程序,所述问答页面推荐程序被处理器执行时实现如上文所述的问答页面推荐方法。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图6,图6为本发明问答页面推荐装置第一实施例的结构框图。
如图6所示,本发明实施例提出的问答页面推荐装置包括:
查找模块10,用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面。
评分获取模块20,用于获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定。
推荐模块30,用于基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过在接收到用户输入的待查询问题时,基于待查询问题从问答系统中查找对应的多个待选问答页面;获取各待选问答页面的综合质量评分,综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;基于综合质量评分从待选问答页面中选取待推荐问答页面。通过上述方式,综合利用问答页面对应的多维度特征,构建问答质量评价系统,实现对问答页面的内容进行综合全面的评价,响应用户的查询指令为用户推荐内容质量高的问答页面。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的问答页面推荐方法,此处不再赘述。
在一实施例中,所述查找模块10,还用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇,根据所述当前聚类簇确定对应的多个待选问答页面。
在一实施例中,所述问答页面推荐装置还包括质量评分模块;
所述质量评分模块,用于根据各问答页面的标题相似度进行聚类,得到若干个聚类簇,获取目标聚类簇中各问答页面对应的多维度特征信息,基于所述特征信息确定对应的特征得分,将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
在一实施例中,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
在一实施例中,当所述特征信息为页面间互投特征信息时,所述质量评分模块,还用于将目标聚类簇中各问答页面与其他问答页面之间的页面间互投特征信息进行汇总,得到目标聚类簇中各问答页面对应的页面间互投得分,其中,所述页面间互投特征信息为根据所述目标聚类簇中任意两个问答页面之间的答案相似度确定得到的。
在一实施例中,当所述特征信息为文本特征信息时,所述质量评分模块,还用于将各项所述文本特征信息与对应的各级评分标准进行比对,确定各项所述文本特征信息分别对应的分项得分;将所述分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的文本特征得分,其中,所述文本特征信息包括文本长度、文本熵、句子数量、平均句长、问题答案长度比和问题答案相似度。
在一实施例中,当所述特征信息为链接特征信息时,所述质量评分模块,还用于根据各项所述链接特征信息对所述目标聚类簇中各问答页面分别进行排序,并根据排序结果为所述目标聚类簇中各问答页面分别赋予单项得分;将所述单项得分进行汇总,得到所述目标聚类簇中各问答页面对应的对应的链接特征得分,其中,所述链接特征信息包括页面点击数、平均停留时长以及是否为最后点击。
在一实施例中,当所述特征信息为时间特征信息时,所述质量评分模块,还用于根据所述时间特征信息对所述目标聚类簇中各问答页面进行排序,并根据排序结果为所述目标聚类簇中各问答页面赋予时间特征得分,其中,所述时间特征信息包括页面创建时间和回答内容发布时间。
在一实施例中,所述内容展现特征信息包括图片信息、视频信息以及追答信息;
所述质量评分模块,还用于获取目标聚类簇中各问答页面对应的标题信息、内容信息和回答信息;根据所述标题信息、所述内容信息和所述回答信息判断各问答页面中是否有图片、是否有视频以及是否有追答,得到所述目标聚类簇中各问答页面对应的内容展现特征信息。
在一实施例中,所述语义特征信息包括语义匹配度;
所述质量评分模块,还用于获取目标聚类簇中各问答页面对应的标题信息以及答案信息;基于预设语义模型确定各问答页面中所述标题信息以及所述答案信息之间的语义匹配度,得到所述目标聚类簇中各问答页面对应的语义特征信息。
在一实施例中,当所述特征信息用户特征信息时,所述质量评分模块,还用于将各项所述用户特征信息与对应的各级用户评分标准进行比对,确定各项所述用户特征信息分别对应的用户分项得分;将所述用户分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的用户特征得分,其中,所述用户特征信息包括用户等级、积分、提问数、回答数以及采纳率。
在一实施例中,所述问答页面推荐装置还包括排序模块和展示模块;
所述排序模块,用于根据所述综合质量评分对所述目标聚类簇中各问答页面进行排序,输入至预设排序模型中;
所述展示模块,用于从所述预设排序模型中获取所述当前聚类簇对应的当前排序列表;根据所述当前排序列表展示多个待选问答页面。
在一实施例中,所述排序模块,还用于在获取到当前问答页面时,确定所述当前问答页面的页面标题与各聚类簇之间的相似度;根据所述相似度选择与所述当前问答页面相似度大的第一聚类簇;确定所述当前问答页面对应的多维度特征得分;将所述当前问答页面对应的多维度特征得分输入至预先训练好的目标回归模型中,得到所述当前问答页面对应的当前综合质量评分;从所述预设排序模型中获取所述第一聚类簇对应的第一排序列表;根据所述当前综合质量评分将所述当前问答页面插入至所述第一排序列表中,得到目标排序列表;根据所述目标排序列表对所述预设排序模型进行更新。
在一实施例中,所述问答页面推荐装置还包括训练模块;
所述训练模块,用于获取若干样本问答页面以及各样本问答页面对应的人工评分;确定各样本问答页面对应的多维度特征得分;将各样本问答页面对应的多维度特征得分作为初始回归模型的输入,将各样本问答页面对应的人工评分作为所述初始回归模型的输出,对所述初始回归模型进行训练,得到训练好的目标回归模型。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
本发明公开了A1、一种问答页面推荐方法,所述问答页面推荐方法包括:
在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面;
获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;
基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
A2、如A1所述的问答页面推荐方法,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面,包括:
在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇;
根据所述当前聚类簇确定对应的多个待选问答页面。
A3、如A2所述的问答页面推荐方法,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面之前,所述方法还包括:
根据各问答页面的标题相似度进行聚类,得到若干个聚类簇;
获取目标聚类簇中各问答页面对应的多维度特征信息;
基于所述特征信息确定对应的特征得分;
将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
A4、如A3所述的问答页面推荐方法,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
A5、如A4所述的问答页面推荐方法,当所述特征信息为页面间互投特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将目标聚类簇中各问答页面与其他问答页面之间的页面间互投特征信息进行汇总,得到目标聚类簇中各问答页面对应的页面间互投得分,其中,所述页面间互投特征信息为根据所述目标聚类簇中任意两个问答页面之间的答案相似度确定得到的。
A6、如A4所述的问答页面推荐方法,当所述特征信息为文本特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将各项所述文本特征信息与对应的各级评分标准进行比对,确定各项所述文本特征信息分别对应的分项得分;
将所述分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的文本特征得分,其中,所述文本特征信息包括文本长度、文本熵、句子数量、平均句长、问题答案长度比和问题答案相似度。
A7、如A4所述的问答页面推荐方法,当所述特征信息为链接特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
根据各项所述链接特征信息对所述目标聚类簇中各问答页面分别进行排序,并根据排序结果为所述目标聚类簇中各问答页面分别赋予单项得分;
将所述单项得分进行汇总,得到所述目标聚类簇中各问答页面对应的对应的链接特征得分,其中,所述链接特征信息包括页面点击数、平均停留时长以及是否为最后点击。
A8、如A4所述的问答页面推荐方法,当所述特征信息为时间特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
根据所述时间特征信息对所述目标聚类簇中各问答页面进行排序,并根据排序结果为所述目标聚类簇中各问答页面赋予时间特征得分,其中,所述时间特征信息包括页面创建时间和回答内容发布时间。
A9、如A4所述的问答页面推荐方法,所述内容展现特征信息包括图片信息、视频信息以及追答信息;
获取目标聚类簇中各问答页面对应的内容展现特征信息,包括:
获取目标聚类簇中各问答页面对应的标题信息、内容信息和回答信息;
根据所述标题信息、所述内容信息和所述回答信息判断各问答页面中是否有图片、是否有视频以及是否有追答,得到所述目标聚类簇中各问答页面对应的内容展现特征信息。
A10、如A4所述的问答页面推荐方法,所述语义特征信息包括语义匹配度;
获取目标聚类簇中各问答页面对应的语义特征信息,包括:
获取目标聚类簇中各问答页面对应的标题信息以及答案信息;
基于预设语义模型确定各问答页面中所述标题信息以及所述答案信息之间的语义匹配度,得到所述目标聚类簇中各问答页面对应的语义特征信息。
A11、如A4所述的问答页面推荐方法,当所述特征信息用户特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将各项所述用户特征信息与对应的各级用户评分标准进行比对,确定各项所述用户特征信息分别对应的用户分项得分;
将所述用户分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的用户特征得分,其中,所述用户特征信息包括用户等级、积分、提问数、回答数以及采纳率。
A12、如A3所述的问答页面推荐方法,所述将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分之后,所述方法还包括:
根据所述综合质量评分对所述目标聚类簇中各问答页面进行排序,输入至预设排序模型中;
所述根据所述当前聚类簇确定对应的多个待选问答页面之后,所述方法还包括:
从所述预设排序模型中获取所述当前聚类簇对应的当前排序列表;
根据所述当前排序列表展示多个待选问答页面。
A13、如A12所述的问答页面推荐方法,所述根据所述综合质量评分对所述目标聚类簇中各问答页面进行排序之后,所述方法还包括:
在获取到当前问答页面时,确定所述当前问答页面的页面标题与各聚类簇之间的相似度;
根据所述相似度选择与所述当前问答页面相似度大的第一聚类簇;
确定所述当前问答页面对应的多维度特征得分;
将所述当前问答页面对应的多维度特征得分输入至预先训练好的目标回归模型中,得到所述当前问答页面对应的当前综合质量评分;
从所述预设排序模型中获取所述第一聚类簇对应的第一排序列表;
根据所述当前综合质量评分将所述当前问答页面插入至所述第一排序列表中,得到目标排序列表;
根据所述目标排序列表对所述预设排序模型进行更新。
A14、如A1-A13中任一项所述的问答页面推荐方法,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面之前,所述方法还包括:
获取若干样本问答页面以及各样本问答页面对应的人工评分;
确定各样本问答页面对应的多维度特征得分;
将各样本问答页面对应的多维度特征得分作为初始回归模型的输入,将各样本问答页面对应的人工评分作为所述初始回归模型的输出,对所述初始回归模型进行训练,得到训练好的目标回归模型。
本发明还公开了B15、一种问答页面推荐装置,所述问答页面推荐装置包括:
查找模块,用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面;
评分获取模块,用于获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;
推荐模块,用于基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
B16、如B15所述的问答页面推荐装置,所述查找模块,还用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇,根据所述当前聚类簇确定对应的多个待选问答页面。
B17、如B16所述的问答页面推荐装置,所述问答页面推荐装置还包括质量评分模块;
所述质量评分模块,用于根据各问答页面的标题相似度进行聚类,得到若干个聚类簇,获取目标聚类簇中各问答页面对应的多维度特征信息,基于所述特征信息确定对应的特征得分,将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
B18、如B16所述的问答页面推荐装置,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
本发明还公开了C19、一种问答页面推荐设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答页面推荐程序,所述问答页面推荐程序配置为实现如A1至A14中任一项所述的问答页面推荐方法。
本发明还公开了D20、一种存储介质,所述存储介质上存储有问答页面推荐程序,所述问答页面推荐程序被处理器执行时实现如A1至A14任一项所述的问答页面推荐方法。
Claims (10)
1.一种问答页面推荐方法,其特征在于,所述问答页面推荐方法包括:
在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面;
获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;
基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
2.如权利要求1所述的问答页面推荐方法,其特征在于,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面,包括:
在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的当前聚类簇;
根据所述当前聚类簇确定对应的多个待选问答页面。
3.如权利要求2所述的问答页面推荐方法,其特征在于,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面之前,所述方法还包括:
根据各问答页面的标题相似度进行聚类,得到若干个聚类簇;
获取目标聚类簇中各问答页面对应的多维度特征信息;
基于所述特征信息确定对应的特征得分;
将所述目标聚类簇中各问答页面对应的各特征得分输入至预先训练好的目标回归模型中,得到所述目标聚类簇中各问答页面分别对应的综合质量评分,对所述目标聚类簇中各问答页面分别对应的综合质量评分进行存储。
4.如权利要求3所述的问答页面推荐方法,其特征在于,所述多维度特征信息包括页面间互投特征信息、文本特征信息、链接特征信息、时间特征信息、内容展现特征信息、语义特征信息以及用户特征信息中的至少两个特征信息。
5.如权利要求4所述的问答页面推荐方法,其特征在于,当所述特征信息为页面间互投特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将目标聚类簇中各问答页面与其他问答页面之间的页面间互投特征信息进行汇总,得到目标聚类簇中各问答页面对应的页面间互投得分,其中,所述页面间互投特征信息为根据所述目标聚类簇中任意两个问答页面之间的答案相似度确定得到的。
6.如权利要求4所述的问答页面推荐方法,其特征在于,当所述特征信息为文本特征信息时,所述基于所述特征信息确定对应的特征得分,包括:
将各项所述文本特征信息与对应的各级评分标准进行比对,确定各项所述文本特征信息分别对应的分项得分;
将所述分项得分进行汇总,得到所述目标聚类簇中各问答页面对应的文本特征得分,其中,所述文本特征信息包括文本长度、文本熵、句子数量、平均句长、问题答案长度比和问题答案相似度。
7.如权利要求1-6中任一项所述的问答页面推荐方法,其特征在于,所述在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面之前,所述方法还包括:
获取若干样本问答页面以及各样本问答页面对应的人工评分;
确定各样本问答页面对应的多维度特征得分;
将各样本问答页面对应的多维度特征得分作为初始回归模型的输入,将各样本问答页面对应的人工评分作为所述初始回归模型的输出,对所述初始回归模型进行训练,得到训练好的目标回归模型。
8.一种问答页面推荐装置,其特征在于,所述问答页面推荐装置包括:
查找模块,用于在接收到用户输入的待查询问题时,基于所述待查询问题从问答系统中查找对应的多个待选问答页面;
评分获取模块,用于获取各待选问答页面的综合质量评分,所述综合质量评分基于问答页面的多维度特征通过目标回归模型所确定;
推荐模块,用于基于所述综合质量评分从所述待选问答页面中选取待推荐问答页面。
9.一种问答页面推荐设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答页面推荐程序,所述问答页面推荐程序配置为实现如权利要求1至7中任一项所述的问答页面推荐方法。
10.一种存储介质,其特征在于,所述存储介质上存储有问答页面推荐程序,所述问答页面推荐程序被处理器执行时实现如权利要求1至7任一项所述的问答页面推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111487518.9A CN116303910A (zh) | 2021-12-07 | 2021-12-07 | 问答页面推荐方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111487518.9A CN116303910A (zh) | 2021-12-07 | 2021-12-07 | 问答页面推荐方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303910A true CN116303910A (zh) | 2023-06-23 |
Family
ID=86792832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111487518.9A Pending CN116303910A (zh) | 2021-12-07 | 2021-12-07 | 问答页面推荐方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303910A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841914A (zh) * | 2023-09-01 | 2023-10-03 | 星河视效科技(北京)有限公司 | 一种渲染引擎的调用方法、装置、设备及存储介质 |
-
2021
- 2021-12-07 CN CN202111487518.9A patent/CN116303910A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841914A (zh) * | 2023-09-01 | 2023-10-03 | 星河视效科技(北京)有限公司 | 一种渲染引擎的调用方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210004400A1 (en) | Media unit retrieval and related processes | |
US9678992B2 (en) | Text to image translation | |
CN111105209B (zh) | 适用于人岗匹配推荐系统的职位简历匹配方法及装置 | |
EP2368200A2 (en) | Interactively ranking image search results using color layout relevance | |
US7634475B1 (en) | Relevance scoring based on optimized keyword characterization field combinations | |
CN111061954A (zh) | 搜索结果排序方法、装置及存储介质 | |
CN112231452A (zh) | 基于自然语言处理的问答方法、装置、设备及存储介质 | |
Jebari et al. | A multi-label and adaptive genre classification of web pages | |
JP5356286B2 (ja) | 質問推薦装置及び方法及びプログラム | |
CN116303910A (zh) | 问答页面推荐方法、装置、设备及存储介质 | |
CN110008396B (zh) | 对象信息推送方法、装置、设备及计算机可读存储介质 | |
CN115827990B (zh) | 搜索方法及装置 | |
CN112184021A (zh) | 一种基于相似支持集的答案质量评估方法 | |
JP4891638B2 (ja) | 目的データをカテゴリに分類する方法 | |
CN115860283A (zh) | 基于知识工作者画像的贡献度预测方法及装置 | |
CN115114415A (zh) | 问答知识库更新方法、装置、计算机设备和存储介质 | |
CN113076481A (zh) | 一种基于成熟度技术的文献推荐系统及方法 | |
JP2010282403A (ja) | 文書検索方法 | |
Deng et al. | Spying out accurate user preferences for search engine adaptation | |
CN117033584B (zh) | 类案文本确定方法、装置及电子设备 | |
US20230315744A1 (en) | Ranking determination system, ranking determination method, and information storage medium | |
EP3139284A1 (en) | Media unit retrieval and related processes | |
EP3139281A1 (en) | Media unit retrieval and related processes | |
EP3139282A1 (en) | Media unit retrieval and related processes | |
CN108182201B (zh) | 基于重点关键词的应用拓展方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |