CN113486232A - 查询方法、装置、服务器、介质及产品 - Google Patents
查询方法、装置、服务器、介质及产品 Download PDFInfo
- Publication number
- CN113486232A CN113486232A CN202110850190.6A CN202110850190A CN113486232A CN 113486232 A CN113486232 A CN 113486232A CN 202110850190 A CN202110850190 A CN 202110850190A CN 113486232 A CN113486232 A CN 113486232A
- Authority
- CN
- China
- Prior art keywords
- knowledge points
- target
- knowledge
- correlation
- query statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012163 sequencing technique Methods 0.000 claims abstract description 38
- 230000008451 emotion Effects 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 84
- 230000008569 process Effects 0.000 description 13
- 239000003795 chemical substances by application Substances 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 239000004316 dimethyl dicarbonate Substances 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了查询方法、装置、服务器、介质及产品,该方法接收来自客户端的查询语句;从数据库中获得与查询语句的相关度较高的前第一数目个目标知识点,目标知识点包括关联知识点的标识;计算多个关联知识点与所述查询语句的相关度;将多个目标知识点按照相关度进行降序排序,得到第一排序结果;从多个关联知识点中获取相关度较高的前第二数目个目标关联知识点;将所述第二数目个目标关联知识点替换第一排序结果中倒数第二数目个目标知识点,以得到第二排序结果;将第二排序结果发送至客户端。由于第二排序结果不仅包括目标知识点还包括目标关联知识点。相当于基于查询语句扩充了用户的检索意图。该第二排序结果更加符合用户的需求。
Description
技术领域
本申请涉及搜索引擎技术领域,更具体的说,是涉及查询方法、装置、服务器、介质及产品。
背景技术
可以基于用户输入的查询语句从知识库中搜索与查询语句相匹配的知识点;目前可能需要用户多次检索,即多次输入不同的查询语句才能够从知识库中搜索得到用户需要的知识点。
在申请人实现本发明创造性的过程中发现,查询语句有时并不能完整的反应用户的检索意图,导致基于查询语句得到的查询结果中各知识点的排序结果不符合用户的需求。
发明内容
有鉴于此,本申请提供了一种查询方法、装置、服务器、介质及产品。
为实现上述目的,本申请提供如下技术方案:
根据本公开实施例的第一方面,提供一种查询方法,包括:
接收来自客户端的查询请求,所述查询请求包括查询语句;
从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识;
计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;
将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;
从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点;
将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;
将所述第二排序结果发送至所述客户端。
根据本公开实施例的第二方面,提供一种查询装置,包括:
第一接收模块,用于接收来自客户端的查询请求,所述查询请求包括查询语句;
第一获取模块,用于从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识;
计算模块,用于计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;
排序模块,用于将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;
第二获取模块,用于从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点;
替换模块,用于将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;
发送模块,用于将所述第二排序结果发送至所述客户端。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的查询方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如第一方面所述的查询方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如第三方面所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现如第一方面所述的查询方法。
经由上述的技术方案可知,本申请提供的查询方法中,接收来自客户端的查询请求,所述查询请求包括查询语句;从数据库中获得至少与查询语句的相关度较高的前第一数目个目标知识点,目标知识点包括与目标知识点的相关度大于或等于预设阈值的关联知识点的标识;计算多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点;将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;将所述第二排序结果发送至所述客户端。由于查询语句不一定能够完整反应用户的查询意图,但是查询语句在一定程度上反应了用户的至少部分查询意图,由于第二排序结果不仅包括多个目标知识点,还包括第二数目个目标关联知识点。相当于基于查询语句扩充了用户的检索意图。用户在查看第二排序结果时,可以查看到目标知识点以及目标关联知识点,该第二排序结果更加符合用户的需求,使得用户能够快速的从排序结果中找到自己所需的知识点,提高检索效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例涉及的硬件架构的一种实现方式的示意图;
图2为本申请实施例提供的查询方法的流程图;
图3为本申请实施例提供的电子设备展示的用户界面的一种实现方式的示意图;
图4为本申请实施例提供的得到第二排序结果的过程示意图;
图5为本申请实施例提供的查询装置的结构图;
图6是根据一示例性实施例示出的一种用于服务器的装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种查询方法、装置、服务器、介质及产品,在介绍本申请实施例提供的技术方案之前,先对本申请实施例涉及的硬件架构进行说明。
如图1所示,为本申请实施例涉及的硬件架构的一种实现方式的示意图,该硬件架构包括:电子设备11、服务器12、数据库13。
示例性的,电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。
示例性的,电子设备11中安装有客户端。示例性的,客户端可以为应用程序客户端或网页版客户端。
示例性的,客户端可以为银行客户端、新闻客户端。
示例性的,服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器13可以包括处理器、存储器以及网络接口等。
示例性的,数据库13可以集成于服务器12中;示例性的,数据库13独立于服务器12之外。
应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的手机。
应当注意的是,电子设备11的数目可以有多个,图1中以1个电子设备为例,但并不造成限定。
在一可选实现方式中,电子设备11可以向服务器12发送查询语句,服务器12响应电子设备11发送的查询语句,将数据库13存储的与查询语句的相关度较高的前第一数目个目标知识点发送至电子设备11,用户可以通过电子设备11查看目标知识点。
本申请实施例中,称相关度较高的知识点为目标知识点。
示例性的,数据库13用于存储多个知识点。
示例性的,知识点可以包括文本信息、图片信息、音频信息和视频信息中的至少一个。
示例性的,多个知识点是通过拆分源文档得到的。不同知识点对应的源文档可能相同可能不同。
例如,源文档包括10个段落,示例性的,源文本被拆分为10个知识点,即每一个段落对应一个知识点;示例性的,源文档本拆分为5个知识点,一个知识点包括源文档中的一个或多个段落;示例性的,源文档被拆分为20个知识点,一个知识点包括一个段落中的一个或多个语句。
示例性的,知识点包括源文档;示例性的,知识点是基于其他知识点得到的,例如,知识点被拆分为多个知识点。
示例性的,知识点的表示方式有多种,本申请实施例提供但不限于:链表、数组、结构体、表格中任一种。下面以表格为例对知识点的结构进行举例说明。
示例性的,知识点的结构如表1所示。
表1知识点的结构
用户可以通过电子设备11查看知识点时,可以至少查看到知识点的知识正文。
示例性的,知识正文包括知识标题以及知识内容中任一个;示例性的,知识内容与知识标题相对应,例如,与知识标题“中银富登个人通知存款的存款期限”对应的知识内容可以为:个人通知存款不论实际存期多长,按存款人提前通知的期限长短划分为1天通知存款和7天通知存款两个品种。1天通知存款必须提前1天通知约定支取存款,7天通知存款则必须提前7天通知约定支取存款。1天通知存款和7天通知存款,客户必须提前1天或提前7天来到柜台预约支取登记。所谓转存是系统可以自动在到期日将本息转到客户的活期账户,但需要客户在每个周期(7天)都来柜台办理约定转存的业务。
示例性的,知识点包含的业务目录可以包括一级或多级目录,表1中是以业务目录包括两级目录为例进行说明的。
示例性的,知识点包含的业务目录用于指示知识点包含的知识正文的存储路径。示例性的,知识点包含的业务目录即为存储知识点的存储设备的名称和/或文件夹的名称。
示例性的,知识标题,可以是基于自然语言处理技术从知识内容文中得到的;示例性的,知识标题可以是从源文档中获得的。
示例性的,知识点包含的图谱标签是指知识正文的属性信息。示例性的,图谱标签包括:产品(知识正文的内容描述的产品)、所属银行(知识正文的内容针对哪个分行或哪个总行)、客户类型。示例性的,客户类型包括但不限于:个人客户、财富管理客户、普通客户、私人银行客户、中银理财客户等等。
示例性的,知识点包含的个性标签是由人工坐席添加的,人工坐席可以基于自己的对知识点的理解,对知识点进行标注,例如,表1中具有人工坐席的标识A的人工坐席标注了“富登特色定期存款”,下次具有人工坐席的标识A的人工坐席可以基于查询语句“富登特色定期存款”准确的搜索到表1所示的知识点。
需要说明的是,有时候人工坐席在查询的时候查询到所需的知识点,但是人工坐席对该知识点有一些自己的理解,或者对知识点有自己的称谓习惯,那么人工坐席可以人为将自己的理解添加到该知识点的个性标签中。这样就可以照顾到不同人工坐席的思维习惯,丰富知识的标注,从而加快知识查询的效率以及提升知识查询的准确率。
示例性的,对于同一知识点,不同人工坐席标注的个性标签可能不同,可能相同;由于人工坐席在搜索知识点之前,需要进行登陆,所以人工坐席的查询语句包括人工坐席的标识,因此,在通过个性标签检索知识点的过程中,不会受到其他人工坐席标注的个性标签的影响。
示例性的,知识点包含的管理属性是指管理该知识点的管理员的信息,例如,管理属性包括管理员所属部门以及管理员所属用户组。
表1中的知识点的结构仅为示例,并不对知识点的结构造成限定,例如,知识点可以包括:业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段。
示例性的,知识点还包括“接收组”字段,接收组包括能够查询得到该知识点的用户的标识。
示例性的,查询语句中的关键词可以包括属于业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段的关键词。在从知识库中检索与查询语句相关度大于或等于阈值A的知识点的过程中,可以获得查询语句与知识点包含的业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个的相关度,以得到与查询语句相关度大于或等于阈值A的知识点,客户端可以展示与查询语句相关度大于或等于阈值A的知识点的链接。
在一可选实现方式中,所述知识点包括知识正文、所述知识正文位于源文档的位置、第一标识以及第二标识;所述第一标识为所述源文档中位于所述知识正文的前一知识正文对应的知识点的标识;所述第二标识为所述源文档中位于所述知识正文的下一知识正文对应的知识点的标识;所述源文档被拆分为多个知识正文。
示例性的,知识点的标识,例如,第一标识和第二标识的表示方式有多种,例如,用字母、数字、特殊符号中的一个或多个进行表示,表1中是以第一标识和第二标识用数字表示为例进行说明。
示例性的,知识点的标识可以是随机分配的,不同知识点的标识不同;示例性的,知识点的标识与知识点包含的知识正文在源文档的位置有关。
例如,源文档包含的第3段落、第4段落和第5段落分别对应一个知识点,表1所示的知识点对应源文档包含的第4段落,所以“在源文档位置”为4;示例性的,源文档上下文索引包括第一标识以及第二标识,如表2中,第一标识为3,第二标识为5。
示例性的,知识点可以包括一个或多个第一标识。若知识点包括一个第一标识,示例性的,第一标识为源文档中位于知识点包含的知识正文的任一前一知识正文对应的知识点的标识。以源文档包含的每一段落分别对应一个知识点为例进行说明,若知识点A对应源文档的第1段、知识点B对应源文档的第2段、知识点C对应源文档的第3段、知识点D对应源文档的第4段、知识点E对应源文档的第5段,那么,知识点C包含的第一标识可以为知识点B的标识或知识点A的标识。示例性的,第一标识为源文档中位于知识点包含的知识正文的相邻的前一知识正文对应的知识点的标识。例如,知识点C包含的第一标识为知识点B的标识。
若知识点E包括多个第一标识,则具有多个第一标识的知识点包含的知识正文在源文档的位置是相邻的,且,与知识点E包含的知识正文相邻;例如,知识点E包含的多个第一标识分别为:知识点D的标识、知识点C的标识。
若知识点E包括多个第一标识,则具有多个第一标识的知识点包含的知识正文在源文档的位置可以不相邻,例如,知识点E包含的多个第一标识分别为:知识点C的标识以及知识点A的标识。
示例性的,知识点包含的第二标识的数目可以为一个或多个。对于第二标识的说明可以参见第一标识,这里不再赘述。
示例性的,知识点还包括:源文档的标识ID、源文档名称中至少一个。
综上,本申请实施例提供的知识点包含源文档上下文索引(即第一标识以及第二标识),使得来源于同一源文档的多个知识点具有关联关系。
在一可选实现方式中,多个源文档被拆分为多个知识点后,数据库13存储有多个知识点。
在一可选实现方式中,服务器12能够从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识。
示例性的,预设阈值可以基于实际情况设定,这里不进行限定,例如,预设阈值为0.8。
知识点的关联知识点的标识,可以包括:源文档上下文索引,和/或,与所述知识点相关度大于或等于预设阈值的知识点的标识(两个知识点属于不同源文档)。
在一可选实现方式中,服务器12能够从多个关联知识点中,获得至少与查询语句相关度较高的前第二数目个目标关联知识点;将第二数目个目标关联知识点替换多个目标知识点中相关度较低的第二数目个目标知识点,以得到排序结果,将排序结果发送给电子设备11。
由于查询语句不一定能够完整反应用户的查询意图,但是查询语句在一定程度上反应了用户的至少部分查询意图,所以从关联知识点中得到第二数目个目标关联知识点,并将第二数目个目标关联知识点替换多个目标知识点中相关度较低的第二数目个目标知识点,以得到排序结果,即排序结果不仅包括多个目标知识点,还包括第二数目个目标关联知识点。相当于基于查询语句扩充了用户的检索意图。用户在查看排序结果时,可以查看到目标知识点以及目标关联知识点,该排序结果更加符合用户的需求,使得用户能够快速的从排序结果中找到自己所需的知识点,提高检索效率。
本领域技术人员应能理解上述服务器仅为举例,其他现有的或今后可能出现的服务器如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。
下面结合硬件架构对本申请实施例提供的查询方法进行说明。
如图2所示,为本申请实施例提供的查询方法的流程图,该方法可以应用于图1所示的服务器中,该方法在实施过程中包括步骤S21至步骤S27。
步骤S21:接收来自客户端的查询请求,所述查询请求包括查询语句。
示例性的,电子设备11可以展示用户界面;用户界面可以展示查询界面。
在一可选实现方式中,查询界面可以展示有精确检索输入框、模糊检索输入框、条件筛选字段中的一个或多个。
示例性的,条件筛选字段可以包括图谱标签、个性标签、管理标签、业务目录、知识正文中的一种或多种。下面以条件筛选字段包括图谱标签为例进行说明。
如图3所示,为本申请实施例提供的电子设备展示的用户界面的一种实现方式的示意图。
如图3所示,用户界面展示有:客户类型、分行、产品等字段。示例性的,用户可以在相应字段填写关键字;示例性的,用户可以在相应字段对应的下拉框中选择关键字。
示例性的,字段与字段对应的关键字组成查询语句。如图3所示,字段客户类型的关键词包括:个人客户;字段分行对应的关键词包括:安徽分行;字段产品对应的关键词包括:富登通知存款;那么,查询语句包括:客户类型为个人客户,且,分行为安徽分行,且,产品为富登通知存款。
在一可选实现方式中,电子设备11展示的用户界面中可以有输入框,用户可以直接在输入框中输入查询语句。
示例性的,可以从用户在输入框中输入的查询语句中获得关键词。
在一可选实施例中,查询语句可以为语音或文本。若查询语句为语音,需要将语音转换成文本。
步骤S22:从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识。
示例性的,从数据库中获得与所述查询语句的相关度较高的前第一数目个目标知识点,即为从数据库中获得与所述查询语句包含的关键词的相关度较高的前第一数目个目标知识点。
示例性的,第一数目可以基于实际情况而定,例如,第一数目为100。
可选的,本发明实施例提供但不限于以下获得查询语句包含的关键词的方法。
第一种获得查询语句包含的关键词的方法包括:
步骤A1:将查询语句进行划分,以得到多个词汇。
可选的,若查询语句为“客户购房的贷款合同”,那么,查询语句包含的词汇为:客户、购房、的、贷款合同。
步骤A2:根据预设规则,从多个词汇中获得关键词。
可选的,预设规则可以包括:去除步骤A1得到的多个词汇中属于停用词的词汇。假设停用词包括:的、得、了、吗、吧、在、中等等。那么,通过步骤A2得到的关键词包括:客户、购房、贷款合同。
第二种获得查询语句包含的关键词的方法包括:基于统计特征的关键词提取方法。
基于统计特征的关键词提取算法是利用查询语句中词语的统计信息抽取查询语句的关键词。
第三种获得查询语句包含的关键词的方法包括:基于词图模型的关键词提取算法,如,TextRank算法。
基于词图模型的关键词提取算法,首先要构建查询语句的语言网络图,然后对语言网络图进行分析,在语言网络图上寻找具有重要作用的词或者短语,这些短语就是查询语句的关键词。
第四种获得查询语句包含的关键词的方法包括:基于主题模型的关键词提取算法,如,LDA算法。
基于主题模型的关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。
步骤S23:计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度。
示例性的,知识点A的关联知识点的标识可以包括:源文档上下文索引,和/或,与所述知识点A相关度大于或等于预设阈值的知识点B的标识(知识点A与知识点B属于不同源文档)。
示例性的,一个知识点可以包括一个或多个关联知识点的标识。
示例性的,计算多个关联知识点至少与所述查询语句的相关度的方法,与,计算多个知识点至少与查询语句的相关度的方法相同,可以参见针对步骤S22的说明,将针对步骤S22的说明中的“数据库”替换为“多个关联知识点”即可,这里不再赘述。
步骤S24:将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果。
步骤S25:从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点。
示例性的,第二数目可以基于实际情况而定,例如,第二数目为第一数目*10%,若第一数目为100,则第二数目为10。
下面对“所述目标关联知识点不同于所述目标知识点”进行说明。
示例性的,由于是用目标关联知识点替换第一排序结果中靠后的目标知识点,所以目标关联知识点应该与第一排序结果中所有目标知识点均不同,否则,替换没有意义。
假设第二数目为10,则从按照相关度降序排序的多个关联知识点中依次选取与第一排序结果中的目标知识点的均不同的目标关联知识点,直至选取到10个为止。
示例性的,由于是用目标关联知识点替换第一排序结果中靠后的目标知识点,所以目标关联知识点应该与位于第一排序结果中前第一数目与第二数目差值个目标知识点均不同,否则,替换没有意义。
假设第二数目为10,则从按照相关度降序排序的多个关联知识点中依次选取与第一排序结果中前90个目标知识点的均不同的目标关联知识点,直至选取到10个为止。
例如,若按照相关度降序排序的多个关联知识点中前10个目标关联知识点中有3个目标关联知识点与第一排序结果中前90个目标知识点中3个目标知识点重合,则可以检测按照相关度降序排序的多个关联知识点中第11个至第13个目标关联知识点是否与第一排序结果中前90个目标知识点均不相同,若均不相同,则找到10个目标关联知识点,否则,继续查找。
步骤S26:将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果。
如图4所示,为本申请实施例提供的得到第二排序结果的过程示意图。
如图4左侧所示,假设步骤S22得到的第一数目个目标知识点的数目为100,且按照相关度降序排序得到的第一排序结果41为:目标知识点1、目标知识点2、…,目标知识点100。假设,第二数目为10,且第二数目个目标关联知识点按照相关度降序排序后依次为:目标关联知识点1、目标关联知识点2、…,目标关联知识点10。
将10个目标关联知识点替换所述第一排序结果中倒数10个目标知识点后得到的第二排序结果如图4右侧所示的第二排序结果42。
步骤S27:将所述第二排序结果发送至所述客户端。
示例性的,第二排序结果包含的是知识点的链接。示例性的,第二排序结果包含的是知识点的内容简介以及链接。用户若需要详细阅读某个知识点,需要点击该链接,访问该知识点方可进行阅读。
本申请实施例提供的查询方法中,接收来自客户端的查询请求,所述查询请求包括查询语句;从数据库中获得至少与查询语句的相关度较高的前第一数目个目标知识点,目标知识点包括与目标知识点的相关度大于或等于预设阈值的关联知识点的标识;计算多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点;将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;将所述第二排序结果发送至所述客户端。由于查询语句不一定能够完整反应用户的查询意图,但是查询语句在一定程度上反应了用户的至少部分查询意图,由于第二排序结果不仅包括多个目标知识点,还包括第二数目个目标关联知识点。相当于基于查询语句扩充了用户的检索意图。用户在查看第二排序结果时,可以查看到目标知识点以及目标关联知识点,该第二排序结果更加符合用户的需求,使得用户能够快速的从排序结果中找到自己所需的知识点,提高检索效率。
在一可选实现方式中,步骤S22的实现方式有多种,本申请实施例提供但不限于以下三种。
第一种步骤S22的实现方式包括步骤B1至步骤B2。
步骤B1:计算查询语句与所述数据库存储的知识点的相关度。
步骤B2:按照相关度降序排序多个知识点,取前第一数目个目标知识点。
示例性的,相关度可以为余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、词频-逆文档频率(TF-IDF)中任一个。
第二种步骤S22的实现方式包括步骤C1至步骤C2。
步骤C1:将所述查询语句以及历史操作信息输入至预先构建相关度计算模型,所述历史操作信息包括:历史查询语句、历史办理业务类型、知识点的标识对应的被点击次数、知识点的标识对应的有效阅读时间以及知识点的最终情感分数中的至少一个。
不同用户使用同一相关度计算模型。
在训练相关度计算模型的过程中涉及机器学习中的人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术中至少一种。
示例性的,相关度计算模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(SVM)、Adaboost、XGboost、Transformer-Encoder模型中任一种模型。
示例性的,神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于Transformer-encoder的分类模型中的任一种。
示例性的,相关度计算模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于Transformer-encoder的分类模型的深度混合模型。
示例性的,相关度计算模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。
基于深度学习的短文本分类模型为循环神经网络(RNN)或卷积神经网络(CNN)或者基于循环神经网络或卷积神经网络的变种。
示例性的,可以在已经预训练好的模型上做一些简单的领域适应性改造,以得到相关度计算模型。
示例性的,“简单的领域适应性改造”包括但不限于在已经预训练好的模型上,再次利用大规模无监督领域语料进行二次预训练,和/或,通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。
下面对历史操作信息进行说明。不同用户对应的历史操作信息可能不同,也可能相同。
历史查询语句是指用户之前输入过的查询语句。可以理解的是随着时间的流逝,当前输入的查询语句,也会变为历史查询语句。
历史办理业务类型是指用户已经办理过的业务类型,例如,取钱业务类型、存钱业务类型、开通住房公积金业务类型等等。不同业务类型对应的知识点不同。
示例性的,数据库存储有多种业务类型分别对应的知识点。
可以理解的是,用户当前想要查询的知识点是之前办理过的业务类型对应的知识点,例如,用户之前办理过开通住房公积金业务类型,当前想要查询关于住房公积金贷款发放的知识点,所以用户当前输入的查询语句一定程度上与历史办理业务类型相关。
知识点的标识对应的被点击次数是指用户点击的知识点的次数。示例性的,知识点还包括“被点击次数”字段,知识点被用户点击一次后即“被点击次数”字段的属性值加1。所以可以从知识点中“被点击次数”字段获得被点击次数。
示例性的,知识点的标识对应的有效阅读时间=针对该知识点的阅读时长/针对该知识点的有效阅读时长。
不同知识点对应的有效阅读时长不同,知识点对应的有效阅读时长为大量用户阅读该知识点的阅读时长的平均值。
下面对获得知识点的最终情感分数的过程进行说明。知识点的最终情感分数表征针对该知识点的评论内容的情感分数。
在一可选实现方式中,“获得每一知识点的最终情感分数”的方法包括以下步骤C11至步骤C14。
步骤C11:获取针对知识点的多个用户分别对应的评论内容集合,所述评论内容集合包括至少一个评论时刻对应的评论内容。
同一用户对同一知识点可能进行一次或多次评价,从而得到一个或多个评论内容,即每一用户对应的评论内容集合包含的评论内容的数目为一个或多个。
步骤C12:对于每一评论内容,将所述评论内容输入至情感评分模型,以得到所述评论内容的情感分数。
在一可选实现方式中,可以将每一评论内容输入至情感评分模型,以得到所述评论内容的情感分数。
在一可选实现方式中,可以计算各评论内容的相似度,将相似度大于或等于阈值B的评论内容划分至同一语义高相关集合。语义高相关集合包括一个或多个评论内容。若语义高相关集合包括多个评论内容,多个评论内容的相似度高于或等于阈值B。
对于每一语义高相关集合,将其中任一个评论内容输入至情感评分模型,以得到所述评论内容的情感分数。该情感分数为语义高相关集合包含的任意评论内容的情感分数。即将语义高相关集合中任一个评论内容输入至情感评分模型,就可以得到语义高相关集合包含的各个评论内容的情感分数,无需将语义高相关集合每个评论内容输入至情感评分模型,节省了得到评论内容的情感分数的时间。
在训练情感评分模型的过程中涉及机器学习中的人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术中至少一种。
示例性的,情感评分模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(SVM)、Adaboost、XGboost、Transformer-Encoder模型中任一种模型。
示例性的,神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于Transformer-encoder的分类模型中的任一种。
示例性的,情感评分模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于Transformer-encoder的分类模型的深度混合模型。
示例性的,情感评分模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。
基于深度学习的短文本分类模型为循环神经网络(RNN)或卷积神经网络(CNN)或者基于循环神经网络或卷积神经网络的变种。
示例性的,可以在已经预训练好的模型上做一些简单的领域适应性改造,以得到情感评分模型。
示例性的,“简单的领域适应性改造”包括但不限于在已经预训练好的模型上,再次利用大规模无监督领域语料进行二次预训练,和/或,通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。
步骤C13:对于每一用户,基于所述用户对应的评论内容集合包含的评论内容的情感分数,以及,所述用户对应的评论内容集合包含的评论内容的权重,计算得到所述用户对应的评论内容集合的目标情感分数,以得到多个用户分别针对所述知识点的目标情感分数。
其中,所述评论内容集合包含的评论内容的权重与差值呈负相关,所述差值为当前时刻与所述评论内容对应的评论时刻的差值。
步骤C14:基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重,计算得到所述知识点的最终情感分数。
示例性的,可以基于用户的优先级别确定用户的权重。例如,VIP用户的优先级别>普通用户的优先级别。
示例性的,假设对知识点进行评论的用户有3个,且分别为:用户1、用户2以及用户3。假设用户1对应的评论内容集合的目标情感分数为目标情感分数1,用户2对应的评论内容集合的目标情感分数为目标情感分数2,用户3对应的评论内容集合的目标情感分数为目标情感分数3。假设,用户1对应的权重为权重21,用户2对应的权重为权重22,用户3对应的权重为权重23,则知识信息的最终情感分数=目标情感分数1*权重21+目标情感分数2*权重22+目标情感分数3*权重23。
在一可选实现方式中,步骤C13的具体实现方式包括以下步骤C131至步骤C133。
步骤C131:计算当前时间与所述评论内容集合包含的评论内容的评论时刻的差值。
假设,评论内容集合包含3个评论内容,3个评论内容分别为:评论内容11、评论内容12、评论内容13,3个评论内容的评论时刻分别为:评论内容11的评论时刻为2021年6月16日16:14分,评论内容12的评论时刻为2021年6月16日17:14分,评论内容13的评论时刻为2021年6月17日10:14分。若当前时间为2021年6月17日16:14分,那么,当前时间与评论内容11的评论时刻的差值为24小时,当前时间与评论内容12的评论时刻的差值为23小时,当前时间与评论内容13的评论时刻的差值为6小时。
步骤C132:从预设的差值与权重的对应关系中,查找所述评论内容集合包含的评论内容对应的差值的权重。
可以理解的是,对于同一用户而言,距离当前时间越近的评论内容,越能够表征用户当前对知识信息的理解情况,因此,差值越大,则权重越小,差值越小,则权重越大。
在一可选实现方式中,预设的差值与权重的对应关系的获取过程包括步骤C1321至步骤C1324。
步骤C1321:将所述评论内容集合包含的评论内容对应的评论时刻的数目,确定为重要等级数目。
假设评论内容集合包含的评论内容的数目为7个,但是7个评论内容对应的评论时刻中有两个评论时刻相同,则7个评论内容对应的评论时刻为6个,即重要等级数目为6。
步骤C1322:从预设权重范围中,获得所述重要等级数目个权重。
假设,预设权重范围为[0,1],若重要等级数目为6,则可以得到6个权重,例如,0、1/6、2/6、3/6、4/6、5/6、1。
步骤C1323:将步骤C131得到的差值降序排序,得到差值排序结果,将步骤C1322得到的权重升序排序,得到权重排序结果。
步骤C1324:关联差值排序结果中第i个差值与权重排序结果中第i个权重,以得到差值与权重的对应关系。
其中,i为大于或等于1的任意值。
可以理解的是,对于不同用户而言,若用户A对知识信息A的评论时刻为2021年6月17日,用户B对知识信息A的评论时刻为2021年6月18日,不能因为用户B的评论内容的评论时刻晚于用户A的评论内容的评论时刻,就认为用户B的评论内容比用户A的评论内容更加准确。显然,两者没有可比性。所以在设置差值与权重的对应关系时,可以按照上述步骤C1321至步骤C1324的方式进行设置。即对于不同用户而言,差值和权重的对应关系可能不同。
在一可选实现方式中,对于不同用户而言,差值和权重的对应关系可以相同。
步骤C133:将所述评论内容集合包含的评论内容的情感分数与相应目标差值对应的权重的乘积之和,确定为所述评论内容集合的情感分数。
示例性的,若评论内容11对应情感分数1、评论内容12对应情感分数2、评论内容13对应情感分数3,评论内容11对应的目标差值的权重为权重11、评论内容12对应的目标差值的权重为权重12、评论内容13对应的目标差值的权重为权重13,其中,权重11<权重12<权重13。
评论内容集合的情感分数=情感分数1*权重11+情感分数2*权重12+情感分数3*权重13。
步骤C2:通过所述相关度计算模型从所述数据库中获得与所述查询语句以及所述历史操作信息的相关度较高的前第一数目个目标知识点。
第三种步骤S22的实现方式包括步骤D1至步骤D2。示例性的,所述查询请求还包括以登录所述客户端的用户标识。
步骤D1:将所述查询语句以及历史操作信息输入至预先构建所述用户标识对应的相关度计算模型,所述历史操作信息包括:历史查询语句、历史办理业务类型、知识点的标识对应的被点击次数、知识点的标识对应的有效阅读时间以及知识点的最终情感分数中的至少一个。
不同用户对应的相关度计算模型不同。由于不同用户对应的相关度计算模型不同,所以相关度计算模型更加能够理解用户的查询意图,提升查询结果的准确率。
对于历史操作信息说明可以参见针对步骤C1中历史操作信息的说明,这里不再赘述。
步骤D2:通过所述相关度计算模型从所述数据库中获得与所述查询语句以及所述历史操作信息的相关度较高的前第一数目个目标知识点。
下面对步骤C2或步骤D2进行说明。
在一可选实现方式中步骤C2或步骤D2的实现方式有多种,本申请实施例提供但不限于以下方法,该方法包括步骤E1至步骤E5。
步骤E1:从所述数据库中获得与所述查询语句的相关度较高的前所述第一数目个第一知识点。
步骤E2:从所述数据库中获得与所述历史操作信息的相关度较高的前所述第一数目个第二知识点。
在一可选实现方式中,步骤E2的实现方式有多种,本申请实施例提供但不限于以下方法,该方法包括步骤E21至步骤E27。
步骤E21:从所述数据库中获得与所述历史查询语句的相关度较高的前所述第一数目个第三知识点。
步骤E22:从所述数据库中获得所述历史办理业务类型对应的多个知识点中被点击次数较高和/或有效阅读时间较长的前所述第一数目个第四知识点。
示例性的,可以从历史办理业务类型对应的多个知识点中获得被点击次数较高的前第一子数目个知识点;以及从历史办理业务类型对应的多个知识点中获得有效阅读时间较长的前第二子数目个知识点。第一子数目与第二子数目之和为i第一数目。
示例性的,将所述历史办理业务类型对应的多个知识点以主要关键字和/或次要关键字作为排序依据进行降序排序,得到前第一数目个第四知识点。
示例性的,“主要关键字和/或次要关键字”包括以下三种情况:第一种情况,仅有主要关键字;第二种情况,仅有次要关键字;第三种情况,包括主要关键字以及次要关键字。
示例性的,主要关键字为被点击次数,次要关键字为有效阅读时长;示例性的,主要关键字为有效阅读时长,次要关键字为被点击次数。
若包括主要关键字以及次要关键字,主要关键字和次要关键字的区别和联系如下:首先按照主要关键字对多个知识点进行排序,若多个知识点的主要关键字相同,按照次要关键字进行排序。
步骤E23:基于所述第一数目个第四知识点的被点击次数和/或所述第一数目个第四知识点的有效阅读时间,确定所述第一数目个第四知识点分别对用的第一调整系数。
示例性的,第四知识点的第一调整系数=第四知识点的被点击次数*预设权重A+第四知识点的有效阅读时间*权重B。
步骤E24:基于所述数据库存储的各知识点分别对应的评论内容的情感分数,获得各知识分别对应的第二调整系数。
在一可选实现方式中,各知识点分别对应的最终情感分数即为第二调整系数。
在一可选实现方式中,步骤E24包括以下步骤E241至步骤E242。
步骤E241:获取所述知识点对应的正向评论数量,所述正向评论数量是指针对所述知识点的评论内容中情感分数大于阈值C的评论内容的数目。
示例性的,相关度可以为余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、词频-逆文档频率(TF-IDF)中任一个。
步骤E242:从预设的正向评论数量与第二调整系数的对应关系中,确定所述知识点对应的第二调整系数。
下面举例说明正向评论数量与第二调整系数的对应关系,该对应关系的表现形式可以为表格、数组、链表中任一种,下面以表格为例进行说明。
表2正向评论数量与第二调整系数的对应关系
正向评论数量 | 第二调整系数 |
[1,100] | 0.01 |
[101,200] | 0.02 |
… | … |
步骤E25:获取所述第一数目个第三知识点与所述第一数目个第四知识点的第二并集。
本申请实施例中称“所述第一数目个第三知识点与所述第一数目个第四知识点的并集”为“第二并集”。
步骤E25:获取所述第二并集包含的知识点第二调整相关度。
若所述知识点为所述第一数目个第三知识点与所述第一数目个第四知识点的交集包含的知识点,所述知识点的第二调整相关度为第三乘积、所述第一调整系数以及所述第二调整系数之和,所述第三乘积为所述历史查询语句对应的权重与所述知识点与所述历史查询语句的相关度的乘积。
若所述知识点不属于所述第一数目个第三知识点与所述第一数目个第四知识点的交集,所述知识点的第二调整相关度为与所述历史查询语句的相关度以及所述第二调整系数之和,或,所述知识点的第二调整相关度为所述第一调整系数与所述第二调整系数之和。
例如,若所述知识点不属于所述第一数目个第三知识点与所述第一数目个第四知识点的交集,所述知识点为第四知识点,则所述知识点的第二调整相关度为所述第一调整系数与所述第二调整系数之和;若所述知识点为第三知识点,则所述知识点的第二调整相关度为与所述历史查询语句的相关度以及所述第二调整系数之和。
步骤E25:将所述第二并集包含的知识点按照知识点的第二调整相关度进行降序排序,得到前所述第一数目个第一知识点。
步骤E3:获取所述第一数目个第一知识点与所述第一数目个第二知识点的第一并集。
本申请实施例称“所述第一数目个第一知识点与所述第一数目个第二知识点”的并集为第一并集。
步骤E4:获取所述第一并集包含的知识点的第一调整相关度。
若所述知识点为所述第一数目个第一知识点与所述第一数目个第二知识点的交集包含的知识点,所述知识点的第一调整相关度为第一乘积与所述第二乘积之和,所述第一乘积为所述查询语句对应的权重与所述知识点与所述查询语句的相关度的乘积,所述第二乘积为历史操作信息对应的权重与所述知识点与所述历史操作信息的相关度的乘积。
若所述知识点不属于所述第一数目个第一知识点与所述第一数目个第二知识点的交集,所述知识点的第一调整相关度为与所述查询语句的相关度,或,与所述历史操作信息的相关度。
例如,若所述知识点不属于所述第一数目个第一知识点与所述第一数目个第二知识点的交集,若该知识点为第一知识点,则该知识点的相关度为与所述查询语句的相关度;若该知识点为第二知识点,则该知识点的相关度为与所述历史操作信息的相关度。
步骤E5:将所述第一并集包含的知识点按照知识点的第一调整相关度进行降序排序,得到前所述第一数目个目标知识点。
在一可选实现方式中,还包括以下步骤F1至步骤F3。
步骤F1:接收所述客户端反馈的查看列表,所述查看列表包括用户点击所述第二排序结果包含的目标知识点的点击顺序,以及,阅读所述目标知识点的有效阅读时间。
示例性的,查看列表包括有效阅读时间大于或等于阈值D的目标知识点;查看列表包含的目标知识点的顺序是按照目标知识点被点击的次数、目标知识点被点击的时间进行排序的。
示例性的,通过查看列表,可以获得用户认为的与自己输入的查询语句相关度较高的目标知识点,且查看列表能表征用户人为对与自己输入的查询语句相关度较高的目标知识点进行的排序结果。
步骤F2:比较所述查看列表以及所述第二排序结果,得到损失函数。
步骤F3:将所述损失函数输入至所述相关度计算模型,以调整所述相关度计算模型中的参数。
示例性的,参数包括但不限于上述提及的权重,和/或,表2中提及的正向评论数量与第二调整系数的对应关系。
通过不断调节相关度计算模型,使得相关度计算模型更加符合用户的检索习惯,从而使得相关度计算模型得到的相关度较高的第一数目个目标知识点更加准确。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
如图5所示,为本申请实施例提供的查询装置的结构图,该查询装置包括:第一接收模块51、第一获取模块52、计算模块53、排序模块54、第二获取模块55、替换模块56以及发送模块57,其中:
第一接收模块51,用于接收来自客户端的查询请求,所述查询请求包括查询语句;
第一获取模块52,用于从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识;
计算模块53,用于计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;
排序模块54,用于将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;
第二获取模块55,用于从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点;
替换模块56,用于将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;
发送模块57,用于将所述第二排序结果发送至所述客户端。
在一可选实现方式中,所述查询请求还包括以登录所述客户端的用户标识,所述第一获取模块包括:
输入单元,用于将所述查询语句以及历史操作信息输入至预先构建所述用户标识对应的相关度计算模型,所述历史操作信息包括:历史查询语句、历史办理业务类型、知识点的标识对应的被点击次数、知识点的标识对应的有效阅读时间以及知识点的最终情感分数中的至少一个;
第一获取单元,用于通过所述相关度计算模型从所述数据库中获得与所述查询语句以及所述历史操作信息的相关度较高的前第一数目个目标知识点。
在一可选实现方式中,第一获取单元包括:
第一获取子单元,用于从所述数据库中获得与所述查询语句的相关度较高的前所述第一数目个第一知识点;
第二获取子单元,用于从所述数据库中获得与所述历史操作信息的相关度较高的前所述第一数目个第二知识点;
第三获取子单元,用于获取所述第一数目个第一知识点与所述第一数目个第二知识点的第一并集;
第四获取子单元,用于获取所述第一并集包含的知识点的第一调整相关度,若所述知识点为所述第一数目个第一知识点与所述第一数目个第二知识点的交集包含的知识点,所述知识点的第一调整相关度为第一乘积与所述第二乘积之和,所述第一乘积为所述查询语句对应的权重与所述知识点与所述查询语句的相关度的乘积,所述第二乘积为历史操作信息对应的权重与所述知识点与所述历史操作信息的相关度的乘积,若所述知识点不属于所述第一数目个第一知识点与所述第一数目个第二知识点的交集,所述知识点的第一调整相关度为与所述查询语句的相关度,或,与所述历史操作信息的相关度;
排序子单元,用于将所述第一并集包含的知识点按照知识点的第一调整相关度进行降序排序,得到前所述第一数目个目标知识点。
在一可选实现方式中,第二获取子单元包括:
第一获取子模块,用于从所述数据库中获得与所述历史查询语句的相关度较高的前所述第一数目个第三知识点;
第二获取子模块,用于从所述数据库中获得所述历史办理业务类型对应的多个知识点中被点击次数较高和/或有效阅读时间较长的前第一数目个第四知识点;
确定子模块,用于基于所述第一数目个第四知识点的被点击次数和/或所述第一数目个第四知识点的有效阅读时间,确定所述第一数目个第四知识点分别对用的第一调整系数;
第三获取子模块,用于基于所述数据库存储的各知识点分别对应的评论内容的情感分数,获得各知识分别对应的第二调整系数;
第四获取子模块,用于获取所述第一数目个第三知识点与所述第一数目个第四知识点的第二并集;
第五获取子模块,用于获取所述第二并集包含的知识点第二调整相关度,若所述知识点为所述第一数目个第三知识点与所述第一数目个第四知识点的交集包含的知识点,所述知识点的第二调整相关度为第三乘积、所述第一调整系数以及所述第二调整系数之和,所述第三乘积为所述历史查询语句对应的权重与所述知识点与所述历史查询语句的相关度的乘积;若所述知识点不属于所述第一数目个第三知识点与所述第一数目个第四知识点的交集,所述知识点的第二调整相关度为与所述历史查询语句的相关度以及所述第二调整系数之和,或,所述知识点的第二调整相关度为所述第一调整系数与所述第二调整系数之和;
第六获取子模块,用于将所述第二并集包含的知识点按照知识点的第二调整相关度进行降序排序,得到前所述第一数目个第一知识点。
在一可选实现方式中,还包括:
第二接收模块,用于接收所述客户端反馈的查看列表,所述查看列表包括用户点击所述第二排序结果包含的目标知识点的点击顺序,以及,阅读所述目标知识点的有效阅读时间;
比较模块,用于比较所述查看列表以及所述第二排序结果,得到损失函数;
调整模块,用于将所述损失函数输入至所述相关度计算模型,以调整所述相关度计算模型中的参数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种用于服务器的装置的框图。
服务器包括但不限于:处理器61、存储器62、网络接口63、I/O控制器64以及通信总线65。
需要说明的是,本领域技术人员可以理解,图6中示出的服务器的结构并不构成对服务器的限定,服务器可以包括比图6所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对服务器的各个构成部件进行具体的介绍:
处理器61是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器62内的软件程序和/或模块,以及调用存储在存储器62内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器61可包括一个或多个处理单元;示例性的,处理器61可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器61中。
处理器61可能是一个中央处理器(CentralProcessing Unit,CPU),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器62可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM)621和只读存储器(Read-Only Memory,ROM)622,也可能还包括大容量存储设备623,例如至少1个磁盘存储器等。当然,该服务器还可能包括其他业务所需要的硬件。
其中,上述的存储器62,用于存储上述处理器61可执行指令。上述处理器61具有以下功能:接收来自客户端的查询请求,所述查询请求包括查询语句;
从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识;
计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;
将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;
从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点;
将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;
将所述第二排序结果发送至所述客户端。
处理器61、存储器62、网络接口63和I/O控制器64可以通过通信总线65相互连接,该通信总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
在示例性实施例中,服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述查询方法。
在示例性实施例中,本公开实施例提供了一种包括指令的存储介质,例如包括指令的存储器62,上述指令可由服务器的处理器61执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机可读存储介质,可直接加载到计算机的内部存储器,例如上述存储器62中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述查询方法任一实施例所示步骤。
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述所述的查询方法任一实施例所示步骤。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种查询方法,其特征在于,包括:
接收来自客户端的查询请求,所述查询请求包括查询语句;
从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识;
计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;
将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;
从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点;
将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;
将所述第二排序结果发送至所述客户端。
2.根据权利要求1所述查询方法,其特征在于,所述查询请求还包括以登录所述客户端的用户标识,所述从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点步骤包括:
将所述查询语句以及历史操作信息输入至预先构建所述用户标识对应的相关度计算模型,所述历史操作信息包括:历史查询语句、历史办理业务类型、知识点的标识对应的被点击次数、知识点的标识对应的有效阅读时间以及知识点的最终情感分数中的至少一个;
通过所述相关度计算模型从所述数据库中获得与所述查询语句以及所述历史操作信息的相关度较高的前第一数目个目标知识点。
3.根据权利要求2所述查询方法,其特征在于,所述通过所述相关度计算模型从所述数据库中获得与所述查询语句以及所述历史操作信息的相关度较高的前第一数目个目标知识点包括:
从所述数据库中获得与所述查询语句的相关度较高的前所述第一数目个第一知识点;
从所述数据库中获得与所述历史操作信息的相关度较高的前所述第一数目个第二知识点;
获取所述第一数目个第一知识点与所述第一数目个第二知识点的第一并集;
获取所述第一并集包含的知识点的第一调整相关度,若所述知识点为所述第一数目个第一知识点与所述第一数目个第二知识点的交集包含的知识点,所述知识点的第一调整相关度为第一乘积与所述第二乘积之和,所述第一乘积为所述查询语句对应的权重与所述知识点与所述查询语句的相关度的乘积,所述第二乘积为历史操作信息对应的权重与所述知识点与所述历史操作信息的相关度的乘积,若所述知识点不属于所述第一数目个第一知识点与所述第一数目个第二知识点的交集,所述知识点的第一调整相关度为与所述查询语句的相关度,或,与所述历史操作信息的相关度;
将所述第一并集包含的知识点按照知识点的第一调整相关度进行降序排序,得到前所述第一数目个目标知识点。
4.根据权利要求3所述查询方法,其特征在于,所述从数据库中获得与所述历史操作信息的相关度较高的前所述第一数目个第二知识点步骤包括:
从所述数据库中获得与所述历史查询语句的相关度较高的前所述第一数目个第三知识点;
从所述数据库中获得所述历史办理业务类型对应的多个知识点中被点击次数较高和/或有效阅读时间较长的前第一数目个第四知识点;
基于所述第一数目个第四知识点的被点击次数和/或所述第一数目个第四知识点的有效阅读时间,确定所述第一数目个第四知识点分别对用的第一调整系数;
基于所述数据库存储的各知识点分别对应的评论内容的情感分数,获得各知识分别对应的第二调整系数;
获取所述第一数目个第三知识点与所述第一数目个第四知识点的第二并集;
获取所述第二并集包含的知识点第二调整相关度,若所述知识点为所述第一数目个第三知识点与所述第一数目个第四知识点的交集包含的知识点,所述知识点的第二调整相关度为第三乘积、所述第一调整系数以及所述第二调整系数之和,所述第三乘积为所述历史查询语句对应的权重与所述知识点与所述历史查询语句的相关度的乘积;若所述知识点不属于所述第一数目个第三知识点与所述第一数目个第四知识点的交集,所述知识点的第二调整相关度为与所述历史查询语句的相关度以及所述第二调整系数之和,或,所述知识点的第二调整相关度为所述第一调整系数与所述第二调整系数之和;
将所述第二并集包含的知识点按照知识点的第二调整相关度进行降序排序,得到前所述第一数目个第一知识点。
5.根据权利要求2至4任一所述查询方法,其特征在于,还包括:
接收所述客户端反馈的查看列表,所述查看列表包括用户点击所述第二排序结果包含的目标知识点的点击顺序,以及,阅读所述目标知识点的有效阅读时间;
比较所述查看列表以及所述第二排序结果,得到损失函数;
将所述损失函数输入至所述相关度计算模型,以调整所述相关度计算模型中的参数。
6.一种查询装置,其特征在于,包括:
第一接收模块,用于接收来自客户端的查询请求,所述查询请求包括查询语句;
第一获取模块,用于从数据库中获得至少与所述查询语句的相关度较高的前第一数目个目标知识点,所述目标知识点包括与所述目标知识点的相关度大于或等于预设阈值的关联知识点的标识;
计算模块,用于计算所述多个目标知识点包含的关联知识点的标识对应的关联知识点至少与所述查询语句的相关度;
排序模块,用于将所述多个目标知识点按照相关度进行降序排序,得到第一排序结果;
第二获取模块,用于从按照相关度降序排序的多个关联知识点中获取前第二数目个目标关联知识点,所述目标关联知识点不同于所述目标知识点;
替换模块,用于将所述第二数目个目标关联知识点替换所述第一排序结果中倒数所述第二数目个目标知识点,以得到第二排序结果;
发送模块,用于将所述第二排序结果发送至所述客户端。
7.根据权利要求6所述查询装置,其特征在于,所述查询请求还包括以登录所述客户端的用户标识,所述第一获取模块包括:
输入单元,用于将所述查询语句以及历史操作信息输入至预先构建所述用户标识对应的相关度计算模型,所述历史操作信息包括:历史查询语句、历史办理业务类型、知识点的标识对应的被点击次数、知识点的标识对应的有效阅读时间以及知识点的最终情感分数中的至少一个;
第一获取单元,用于通过所述相关度计算模型从所述数据库中获得与所述查询语句以及所述历史操作信息的相关度较高的前第一数目个目标知识点。
8.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的查询方法。
9.一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1至6中任一项所述的查询方法。
10.一种计算机程序产品,可直接加载到计算机的内部存储器,例如权利要求8所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现如权利要求1至6中任一项所述的查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110850190.6A CN113486232B (zh) | 2021-07-27 | 2021-07-27 | 查询方法、装置、服务器、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110850190.6A CN113486232B (zh) | 2021-07-27 | 2021-07-27 | 查询方法、装置、服务器、介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486232A true CN113486232A (zh) | 2021-10-08 |
CN113486232B CN113486232B (zh) | 2024-02-23 |
Family
ID=77943979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110850190.6A Active CN113486232B (zh) | 2021-07-27 | 2021-07-27 | 查询方法、装置、服务器、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486232B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262361A1 (en) * | 2012-04-02 | 2013-10-03 | Playence GmBH | System and method for natural language querying |
CN105335374A (zh) * | 2014-06-19 | 2016-02-17 | 北大方正集团有限公司 | 知识点关联方法及装置、及包含该装置的服务器和客户端 |
CN105447053A (zh) * | 2014-09-26 | 2016-03-30 | 北大方正集团有限公司 | 计算领域知识点的相关知识点的方法及系统 |
CN107885874A (zh) * | 2017-11-28 | 2018-04-06 | 上海智臻智能网络科技股份有限公司 | 数据查询方法和装置、计算机设备及计算机可读存储介质 |
CN109857846A (zh) * | 2019-01-07 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 用户问句与知识点的匹配方法和装置 |
CN112015886A (zh) * | 2020-08-31 | 2020-12-01 | 中国银行股份有限公司 | 知识的检索方法、装置、服务器和计算机存储介质 |
-
2021
- 2021-07-27 CN CN202110850190.6A patent/CN113486232B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262361A1 (en) * | 2012-04-02 | 2013-10-03 | Playence GmBH | System and method for natural language querying |
CN105335374A (zh) * | 2014-06-19 | 2016-02-17 | 北大方正集团有限公司 | 知识点关联方法及装置、及包含该装置的服务器和客户端 |
CN105447053A (zh) * | 2014-09-26 | 2016-03-30 | 北大方正集团有限公司 | 计算领域知识点的相关知识点的方法及系统 |
CN107885874A (zh) * | 2017-11-28 | 2018-04-06 | 上海智臻智能网络科技股份有限公司 | 数据查询方法和装置、计算机设备及计算机可读存储介质 |
CN109857846A (zh) * | 2019-01-07 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 用户问句与知识点的匹配方法和装置 |
CN112015886A (zh) * | 2020-08-31 | 2020-12-01 | 中国银行股份有限公司 | 知识的检索方法、装置、服务器和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113486232B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893533B (zh) | 一种文本匹配方法及装置 | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
US8671040B2 (en) | Credit risk mining | |
US8352455B2 (en) | Processing a content item with regard to an event and a location | |
US8781813B2 (en) | Intent management tool for identifying concepts associated with a plurality of users' queries | |
US20190349320A1 (en) | System and method for automatically responding to user requests | |
US20100235343A1 (en) | Predicting Interestingness of Questions in Community Question Answering | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
US20210349893A1 (en) | Method and system for analytic based connections among user types in an online platform | |
US20220107980A1 (en) | Providing an object-based response to a natural language query | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
CN113468206B (zh) | 数据维护方法、装置、服务器、介质及产品 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
WO2023151576A1 (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN113239177B (zh) | 知识点查询方法、装置、服务器、介质及产品 | |
CN113448983B (zh) | 知识点处理方法、装置、服务器、介质及产品 | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN113486232B (zh) | 查询方法、装置、服务器、介质及产品 | |
JP2016197332A (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
Gupta et al. | Document summarisation based on sentence ranking using vector space model | |
CN113254571B (zh) | 知识点存储方法、装置、服务器及介质 | |
CN113254622B (zh) | 知识点查询方法、装置及服务器 | |
CN112182239A (zh) | 信息检索方法和装置 | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |