CN113448983A - 知识点处理方法、装置、服务器、介质及产品 - Google Patents
知识点处理方法、装置、服务器、介质及产品 Download PDFInfo
- Publication number
- CN113448983A CN113448983A CN202110799478.5A CN202110799478A CN113448983A CN 113448983 A CN113448983 A CN 113448983A CN 202110799478 A CN202110799478 A CN 202110799478A CN 113448983 A CN113448983 A CN 113448983A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- query
- knowledge points
- knowledge point
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了知识点处理方法、装置、服务器、介质及产品,该方法获取各用户分别对应的访问链路;从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。从而实现了确定知识点是否需要被拆分的目的。
Description
技术领域
本申请涉及数据维护技术领域,更具体的说,是涉及知识点处理方法、装置、服务器、介质及产品。
背景技术
可以基于用户输入的查询语句从数据库中搜索与查询语句相匹配的源文档;用户可以通过阅读源文档进一步判断该源文档是否是自己需要的源文档。
若源文档的内容较多,可能需要用户阅读较长时间,才能从源文档中找到自己所需内容,或,源文档中与查询语句最相关的内容位于源文档的末尾,可能出现用户在阅读了源文档中前面部分内容后,若未发现自己需要的内容,可能认为该源文档不是自己所需的源文档,导致用户错过该篇源文档,使得用户检索得到自己所需源文档的检索时间较长,或,检索不到自己所需的源文档。
为了降低用户的检索时间,提高检索效率,可以将源文档进行拆分,以得到多个知识点;可以基于用户查询语句从数据库中搜索与查询语句相匹配的知识点,由于知识点为源文档的部分内容,即知识点包含的内容减少,减少了用户阅读知识点的时长,所以能够快速发现知识点是否为自己所需内容。
在申请人实现本发明创造的过程中发现,若应该拆分成多个知识点的内容,作为一个知识点存在,可能会出现以下问题:若知识点中与查询语句最相关的内容位于知识点的末尾,可能出现用户在阅读了知识点中前面部分内容后,若未发现自己需要的内容,可能认为该知识点不是自己所需的知识点,导致用户错过该篇知识点。因此,如何确定知识点的拆分颗粒度是否合适,是本领域技术人员急需解决的难题。
发明内容
有鉴于此,本申请提供了一种知识点处理方法、装置、服务器、介质及产品。
为实现上述目的,本申请提供如下技术方案:
根据本公开实施例的第一方面,提供一种知识点处理方法,包括:
获取各用户分别对应的访问链路,所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长;
从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;
将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;
从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;
将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
根据本公开实施例的第二方面,提供一种知识点处理装置,包括:
第一获取模块,用于获取各用户分别对应的访问链路,所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长;
第二获取模块,用于从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;
第一确定模块,用于将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;
聚类模块,用于从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;
拆分模块,用于将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的知识点处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如第一方面所述的知识点处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如第三方面所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现如权第一方面所述的知识点处理方法。
经由上述的技术方案可知,本申请提供的知识点处理方法中,获取各用户分别对应的访问链路;从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。从而实现了确定知识点是否需要被拆分的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例涉及的硬件架构的一种实现方式的示意;
图2为本申请实施例提供的知识点处理方法的一种实现方式的流程图;
图3为本申请实施例提供的有向关系图的示例性示意图;
图4为本申请实施例提供的一种知识点处理装置的结构图;
图5是根据一示例性实施例示出的一种用于服务器的装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种知识点的处理方法、装置、服务器、介质以及产品,在介绍本申请实施例提供的技术方案之前,先对本申请实施例涉及的硬件架构进行说明。
如图1所示,为本申请实施例涉及的硬件架构的一种实现方式的示意图,该硬件架构包括:电子设备11、服务器12、数据库13。
示例性的,电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。
示例性的,电子设备11中安装有客户端。示例性的,客户端可以为应用程序客户端或网页版客户端。
示例性的,客户端可以为银行客户端、新闻客户端。
示例性的,服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器13可以包括处理器、存储器以及网络接口等。
示例性的,数据库13可以集成于服务器12中;示例性的,数据库13独立于服务器12之外。
应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的手机。
应当注意的是,电子设备11的数目可以有多个,图1中以1个电子设备为例,但并不造成限定。
在一可选实现方式中,电子设备11可以向服务器12发送查询语句,服务器12响应电子设备11发送的查询语句,将数据库13存储的与查询语句的相关度较高的知识点发送至电子设备11,用户可以通过电子设备11查看知识点。
示例性的,数据库13用于存储多个知识点。
示例性的,知识点可以包括文本信息、图片信息、音频信息和视频信息中的至少一个。
示例性的,多个知识点是通过拆分源文档得到的。不同知识点对应的源文档可能相同可能不同。
例如,源文档包括10个段落,示例性的,源文本被拆分为10个知识点,即每一个段落对应一个知识点;示例性的,源文档本拆分为5个知识点,一个知识点包括源文档中的一个或多个段落;示例性的,源文档被拆分为20个知识点,一个知识点包括一个段落中的一个或多个语句。
示例性的,知识点包括源文档;示例性的,知识点是基于其他知识点得到的,例如,知识点被拆分为多个知识点。
示例性的,知识点的表示方式有多种,本申请实施例提供但不限于:链表、数组、结构体、表格中任一种。下面以表格为例对知识点的结构进行举例说明。
示例性的,知识点的结构如表1所示。
表1知识点的结构
示例性的,知识正文包括知识标题以及知识内容中任一个;示例性的,知识内容与知识标题相对应,例如,与知识标题“中银富登个人通知存款的存款期限”对应的知识内容可以为:个人通知存款不论实际存期多长,按存款人提前通知的期限长短划分为1天通知存款和7天通知存款两个品种。1天通知存款必须提前1天通知约定支取存款,7天通知存款则必须提前7天通知约定支取存款。1天通知存款和7天通知存款,客户必须提前1天或提前7天来到柜台预约支取登记。所谓转存是系统可以自动在到期日将本息转到客户的活期账户,但需要客户在每个周期(7天)都来柜台办理约定转存的业务。
示例性的,知识点包含的业务目录可以包括一级或多级目录,表1中是以业务目录包括两级目录为例进行说明的。
示例性的,知识点包含的业务目录用于指示知识点包含的知识正文的存储路径。示例性的,知识点包含的业务目录即为存储知识点的存储设备的名称和/或文件夹的名称。
示例性的,知识标题,可以是基于自然语言处理技术从知识内容文中得到的;示例性的,知识标题可以是从源文档中获得的。
示例性的,知识点包含的图谱标签是指知识正文的属性信息。示例性的,图谱标签包括:产品(知识正文的内容描述的产品)、所属银行(知识正文的内容针对哪个分行或哪个总行)、客户类型。示例性的,客户类型包括但不限于:个人客户、财富管理客户、普通客户、私人银行客户、中银理财客户等等。
示例性的,知识点包含的个性标签是由人工坐席添加的,人工坐席可以基于自己的对知识点的理解,对知识点进行标注,例如,表1中具有人工坐席的标识A的人工坐席标注了“富登特色定期存款”,下次具有人工坐席的标识A的人工坐席可以基于查询语句“富登特色定期存款”准确的搜索到表1所示的知识点。
需要说明的是,有时候人工坐席在查询的时候查询到所需的知识点,但是人工坐席对该知识点有一些自己的理解,或者对知识点有自己的称谓习惯,那么人工坐席可以人为将自己的理解添加到该知识点的个性标签中。这样就可以照顾到不同人工坐席的思维习惯,丰富知识的标注,从而加快知识查询的效率以及提升知识查询的准确率。
示例性的,对于同一知识点,不同人工坐席标注的个性标签可能不同,可能相同;由于人工坐席在搜索知识点之前,需要进行登陆,所以人工坐席的查询语句包括人工坐席的标识,因此,在通过个性标签检索知识点的过程中,不会受到其他人工坐席标注的个性标签的影响。
示例性的,知识点包含的管理属性是指管理该知识点的管理员的信息,例如,管理属性包括管理员所属部门以及管理员所属用户组。
表1中的知识点的结构仅为示例,并不对知识点的结构造成限定,例如,知识点可以包括:业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段。
示例性的,知识点还包括“接收组”字段,接收组包括能够查询得到该知识点的用户的标识。
示例性的,查询语句中的关键词可以包括属于业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段的关键词。在从知识库中检索与查询语句相关度大于或等于第一阈值的知识点的过程中,可以获得查询语句与知识点包含的业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个的相关度,以得到与查询语句相关度大于或等于第一阈值的知识点,客户端可以展示与查询语句相关度大于或等于第一阈值的知识点的链接。
在一可选实现方式中,所述知识点包括知识正文、所述知识正文位于源文档的位置、第一标识以及第二标识;所述第一标识为所述源文档中位于所述知识正文的前一知识正文对应的知识点的标识;所述第二标识为所述源文档中位于所述知识正文的下一知识正文对应的知识点的标识;所述源文档被拆分为多个知识正文。
示例性的,知识点的标识,例如,第一标识和第二标识的表示方式有多种,例如,用字母、数字、特殊符号中的一个或多个进行表示,表2中是以第一标识和第二标识用数字表示为例进行说明。
示例性的,知识点的标识可以是随机分配的,不同知识点的标识不同;示例性的,知识点的标识与知识点包含的知识正文在源文档的位置有关。
例如,源文档包含的第3段落、第4段落和第5段落分别对应一个知识点,表1所示的知识点对应源文档包含的第4段落,所以“在源文档位置”为4;示例性的,源文档上下文索引包括第一标识以及第二标识,如表2中,第一标识为3,第二标识为5。
示例性的,知识点可以包括一个或多个第一标识。若知识点包括一个第一标识,示例性的,第一标识为源文档中位于知识点包含的知识正文的任一前一知识正文对应的知识点的标识。以源文档包含的每一段落分别对应一个知识点为例进行说明,若知识点A对应源文档的第1段、知识点B对应源文档的第2段、知识点C对应源文档的第3段、知识点D对应源文档的第4段、知识点E对应源文档的第5段,那么,知识点C包含的第一标识可以为知识点B的标识或知识点A的标识。示例性的,第一标识为源文档中位于知识点包含的知识正文的相邻的前一知识正文对应的知识点的标识。例如,知识点C包含的第一标识为知识点B的标识。
若知识点E包括多个第一标识,则具有多个第一标识的知识点包含的知识正文在源文档的位置是相邻的,且,与知识点E包含的知识正文相邻;例如,知识点E包含的多个第一标识分别为:知识点D的标识、知识点C的标识。
若知识点E包括多个第一标识,则具有多个第一标识的知识点包含的知识正文在源文档的位置可以不相邻,例如,知识点E包含的多个第一标识分别为:知识点C的标识以及知识点A的标识。
示例性的,知识点包含的第二标识的数目可以为一个或多个。对于第二标识的说明可以参见第一标识,这里不再赘述。
示例性的,知识点还包括:源文档的标识ID、源文档名称中至少一个。
综上,本申请实施例提供的知识点包含源文档上下文索引(即第一标识以及第二标识),使得来源于同一源文档的多个知识点具有关联关系。
在一可选实现方式中,多个源文档被拆分为多个知识点后,数据库13存储有多个知识点。服务器12可以检测出知识点是否还需要再次拆分,若需要再次拆分,则将该知识点进行拆分。
在一可选实现方式中,知识点还包括字段“是否为拆分知识”。
例如,若知识点A1和知识点B1是通过拆分知识点C1得到的,则知识点A1和知识点B1为拆分知识,知识点C1为知识点A1和知识点B1的源知识点。
属于拆分知识的知识点包含的字段“是否为拆分知识”的属性值包括“是”;示例性的,字段“是否为拆分知识”的属性值还包括:来自于同一源知识点的多个知识点的标识ID以及所述多个知识点在源知识点的位置。
不属于拆分知识的知识点(即由源文档拆分得到的知识点)包含的字段“是否为拆分知识”的属性值包括“否”。
在一可选实现方式中,服务器12可以检测出多个知识点是否需要合并,若需要合并,则将多个知识点进行合并。
在一可选实现方式中,知识点还包括字段“是否为组合知识”。
例如,若知识点A2和知识点B2需要合并,合并后的知识点为知识点C2,则知识点C2为组合知识。
在一可选实现方式中,属于组合知识的知识点包括的字段“是否为组合知识”的属性值包括“是”。
在一可选实现方式中,属于组合知识的知识点包括的字段“是否为组合知识”的属性值还包括:组成该组合知识的各知识点的ID以及各知识点在组合知识的位置。
例如,组成知识点C2的各知识点的ID为知识点A2以及知识点B2,知识点A2位于知识点C2的第一段落,知识点B2位于知识点C2的第二段落。
本领域技术人员应能理解上述服务器仅为举例,其他现有的或今后可能出现的服务器如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。
下面结合上述硬件架构对本申请实施例提供的数据维护方法进行说明。
如图2所示,为本申请实施例提供的知识点处理方法的一种实现方式的流程图,该方法可以应用于图1所示的服务器12中,该方法包括以下步骤S21至步骤S24。
步骤S21:获取各用户分别对应的访问链路。
所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长。
示例性的,获取“响应所述查询语句的查询结果”的过程包括以下步骤A1至步骤A2。
步骤A1:接收来自客户端的查询语句。
步骤A2:从数据库中获得与所述查询语句的相关度大于或等于阈值A的知识点,以得到响应步骤A1中的查询语句的查询结果。
示例性的,查询结果包括一个或多个知识点的标识ID。
示例性的,若用户并未查看查询结果中任意知识点,则阅读所述查询结果包含的知识点的阅读时长为0;若用户查看了查询结果包含的一个或多个知识点,则阅读所述查询结果包含的知识点的阅读时长包括:阅读的知识点的标识ID分别对应的阅读时长。
示例性的,不同用户对应的访问链路包含的历史查询记录的数目可以相同,也可以不同。
步骤S22:从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路。
其中,所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长。
示例性的,第一阈值可以基于实际情况而定,例如,第一阈值可以为0.9。
示例性的,第二阈值可以基于实际情况而定,示例性的,第三阈值可以基于实际情况而定,示例性的,第二阈值大于或等于第三阈值。
示例性的,第一时长可以基于实际情况而定,是一个固定值。示例性的,第一时长可以基于阅读的知识点而定,示例性的,不同知识点对应的第一时长不同,知识点对应的第一时长为该知识点的有效阅读时长。
示例性的,知识点的有效阅读时长为大量用户阅读该知识点的阅读时长的平均值。
示例性的,第二时长可以基于实际情况而定,是一个固定值。示例性的,第二时长可以基于阅读的知识点而定,示例性的,不同知识点对应的第二时长不同,知识点对应的第二时长为该知识点的有效阅读时长*阈值C。
其中,阈值C为大于或等于0且小于1的任意数值。例如,阈值C为0.01。
示例性的,相应的第二时长小于相应的第一时长,即同一知识点对应的第二时长小于该知识点对应的第一时长。
下面举例对“对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句”进行说明。
假设步骤S21提及的第一数目个用户分别为用户A1、用户A2以及用户A3,第一数目为3。假设用户A1对应的第一共现访问链路包括:查询时间11对应的历史查询记录11、查询时间12对应的历史查询记录12、查询时间13对应的历史查询记录13;用户A2对应的第一共现访问链路包括:查询时间21对应的历史查询记录21、查询时间22对应的历史查询记录22、查询时间23对应的历史查询记录23;用户A3对应的第一共现访问链路包括:查询时间31对应的历史查询记录31、查询时间32对应的历史查询记录32、查询时间33对应的历史查询记录33。
其中,每一用户对应的第一共现访问链路中各历史查询记录按照查询时间早到晚排序,以上述为例,查询时间11早于查询时间12早于查询时间13;查询时间21早于查询时间22早于查询时间23,查询时间31早于查询时间32早于查询时间33。
示例性的,不同用户对应的第一共现访问链路中各历史查询记录的查询时间无早晚顺序,例如,上述查询时间11可以早于查询时间21或查询时间31,或者,查询时间11晚于查询时间21或查询时间31,或者,查询时间11等于查询时间21或查询时间31;上述查询时间11可以早于查询时间22或查询时间32,或者,查询时间11晚于查询时间22或查询时间32,或者,查询时间11等于查询时间22或查询时间32;上述查询时间11可以早于查询时间23或查询时间33,或者,查询时间11晚于查询时间23或查询时间33,或者,查询时间11等于查询时间23或查询时间33。
可以理解的是,用户的访问意图可能是随着时间变化的。示例性的,不同用户对应的第一共现访问链路中各历史查询记录的查询时间属于预设时间窗口。
示例性的,预设时间窗口可以为[当前时间-预设时长,当前时间],随着时间的流逝,预设时间窗口的起始时间和终止时间在不断发生变化,得到的各用户分别对应的访问链路可能不同。示例性的,预设时长可以基于实际情况而定,例如,1个月。
示例性的,不同用户对应的第一共现访问链路中相关度大于或等于第二阈值的查询语句所属的历史查询记录在访问链路中的位置可能不同。
例如,用户A1对应的第一共现访问链路中第一个历史查询记录11包含的查询语句可能与用户A2对应的第一共现访问链路中第二个历史查询记录22包含的查询语句,或,第三个历史查询记录23包含的查询语句的相关度大于或等于第一阈值。
示例性的,不同用户对应的第一共现访问链路中相关度大于或等于第二阈值的查询语句所属的历史查询记录在访问链路中的位置可能相同。
例如,用户A1对应的第一共现访问链路中第一个历史查询记录11包含的查询语句可能与用户A3对应的第一共现访问链路中第一个历史查询记录31包含的查询语句的相关度大于或等于第一阈值。
对于任意用户对应的第一共现访问链路包含的任意历史查询记录包含的查询语句A而言,其他任意用户对应的第一共现访问链路均包含至少一个历史查询记录中的查询语句B与查询语句A的相关度大于或等于第二阈值。
示例性的,第二阈值可以基于实际情况而定,例如,若期望相关度较高,则可以设置第二阈值为一个较大值,例如,0.95。
由于查询语句A和查询语句B的相关度大于或等于第二阈值,所以响应查询语句A的查询结果与响应查询语句B的查询结果具有交集C。
示例性的,交集C包含的知识点的数目/响应查询语句A的查询结果包含的知识点的数目>预设概率;交集C包含的知识点的数目/响应查询语句B的查询结果包含的知识点的数目>预设概率。
示例性的,预设概率可以基于实际情况而定,例如,预设概率可以为0.8。
在一可选实现方式中,由于“对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句”,所以第一数目个用户的查询需求是一致的,查询过程相同,只是查询各个知识点的顺序可能不同。由于第一数目/各用户的总数目≥第一阈值,若第一阈值较高,例如,为0.9,则第一数目个用户能够代表大部分或者全部的用户。
步骤S23:将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点。
可以理解的是,假设,每一第一共现访问链路包括M个历史查询记录,则最晚查询时间对应的历史查询记录为第M个历史查询记录,其他历史查询记录为第1个历史查询记录至第M-1个历史查询记录。M为大于或等于2的正整数。由于第一共现访问链路中第1个历史查询记录至第M-1个历史查询记录分别包含的阅读时长均小于或等于第二时长,说明用户并未阅读第1个历史查询记录至第M-1个历史查询记录包含的查询结果,或,阅读第1个历史查询记录至第M-1个历史查询记录包含的查询结果中位置靠前的一个或多个知识点少量时间后,发现这些知识点并不是自己所需知识点,则放弃阅读查询结果中位置靠后的知识点。
综上,“第一共现访问链路中第1个历史查询记录至第M-1个历史查询记录分别包含的阅读时长均小于或等于第二时长”说明第1个历史查询记录至第M-1个历史查询记录包含的查询结果中不存在用户所需的知识点,或者,用户所需的知识点位于查询结果靠后的位置,用户未阅读到查询结果靠后的位置,导致用户错过该知识点。
由于第M个历史查询记录包含的阅读时长大于或等于第一时长,说明用户已经详细阅读第M个历史查询记录包含的查询结果中的某个知识点,即该知识点很大程度上是用户所需知识点。即用户检索到自己所需知识点。
通过步骤S21以及步骤S22可知,第一数目个用户经过相同的尝试检索过程(即第一共现访问链路中第1个历史查询记录至第M-1个历史查询记录),得到了相同的检索结果(即第一共现访问链路中第M个历史查询记录包含的查询结果),并在检索结果中命中了自己所需的知识点(即各第一共现访问链路中第M个历史查询记录包含的阅读时长大于或等于第一时长的知识点中的共有的知识点,即上述提及的待拆分知识点),第一数目个用户最终命中的知识点相同。说明第一数目个用户都认为自己通过第1个历史查询记录至第M-1个历史查询记录分别包含的任一查询语句应该能够查询得到最终命中的知识点的至少部分内容,但是查询结果并不包括最终命中的知识点,或者,查询结果中包含最终命中的知识点,但是位于查询结果中靠后的位置,用户并未发现。这说明了最终命中的知识点包含的内容较多,由于该知识点包含的内容较多,使得该知识点可能与第1个历史查询记录至第M-1个历史查询记录分别包含的查询语句均相关,但是相关度不高,例如,相关度小于阈值A,使得查询结果不包含该知识点,或者,相关度大于或等于该阈值A,但是接近阈值A,使得该知识点位于查询结果中靠后的位置,用户仅查看了查询结果中靠前的几个知识点,并未查看查询结果中靠后的知识点,导致用户错过该知识点。所以需要对最终命中的知识点进行拆分。
步骤S24:从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合。
示例性的,若第一数目=目标数目,说明第一共现访问链路中每一历史查询记录中的查询语句中的关键词聚类成为一类,不同查询语句中的关键词聚类成不同类。即每一类所述关键词集合对应一个历史查询记录,不同类关键词集合对应不同历史查询记。
示例性的,若第一数目大于目标数目,说明第一共现访问链路中多个历史查询记录中的查询语句高度相关,即第一共现访问链路中两个或多个查询语句中的关键词聚类成为一类。
示例性的,可以预先设置各类知识点分别包含的关键词。基于预先设置各类知识点分别包含的关键词对步骤S24提及的各查询语句中的关键词进行聚类。
步骤S25:将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
示例性的,步骤S25的实现方式有多种,本申请实施例提供但不限于以下两种。
第一种步骤S25的实现方式包括:根据所述目标数目个关键词集合分别对应的知识拆分模板从待拆分知识点中获得目标数目个知识正文,以得到目标数目个知识点。
示例性的,知识拆分模板可以根据关键词集合预先设置。不同的关键词集合对应的知识拆分模板不同,以提高知识点的获取效率。
示例性的,不同的关键词集合对应的知识拆分模板包含的字段不同。
第二种步骤S25的实现方式包括:基于自然语言处理技术,拆分所述待拆分知识点,得到目标数目个知识正文,从而得到目标数目个知识点。
示例性的,计算待拆分知识点中多个段落或语句与每个关键词集合之间的相关度;对于每一关键词集合而言,将与所述关键词集合相关度最高的段落或语句作为所述关键词集合对应的知识点。
本申请实施例提供的知识点处理方法中,获取各用户分别对应的访问链路;从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。从而实现了确定知识点是否需要被拆分的目的。
在一可选实现方式中,本申请实施例提供的知识点处理方法还包括确定多个知识点是否需要合并的方法,该方法包括以下步骤B1至步骤B3。
步骤B1:从各用户分别对应的访问链路中,获得第二数目个用户分别对应的第二共现访问链路;所述第二数目与所述各用户的总数目的比值大于或等于第四阈值,所述第二数目个用户分别对应的第二共现访问链路包含所述第二数目个用户均阅读过的多个目标知识点,且每一所述目标知识点的阅读时长大于或等于所述第一时长。
示例性的,第四阈值可以基于实际情况设定,示例性的,第四阈值可以等于第一阈值,示例性的,第四阈值可以与第一阈值无关。
上述“所述第二数目个用户分别对应的第二共现访问链路包含所述第二数目个用户均阅读过的多个目标知识点,且每一所述目标知识点的阅读时长大于或等于所述第一时长”,说明第二数目个用户都阅读过多个目标知识点。说明第二数目个用户均有查看多个目标知识点的需求。
在一可选实现方式中,可以从查询日志中获得各用户分别对应的访问链路。
可以理解的是,第二数目个用户具有连续查看多个目标知识点的需求,为了避免用户多次进行检索,可以将多个目标知识点进行合并。用户检索一次即得到该合并后的知识点,无需多次进行检索。
步骤B2:基于所述第二数目个用户分别对应的第二共现访问链路包含的各所述目标知识点的查询时间,确定表征用户查看各目标知识点的查看顺序。
示例性的,不同用户对应的第二共现访问链路中按照查询时间从早到晚排序后的历史查询记录包含的目标知识点是一一对应的,例如,用户A对应的第二共现访问链路中第i个历史查询记录包含的目标知识点,与,其他用户对应的第二共现访问链路中第i个历史查询记录包含的目标知识点相同,此时,不同用户对应的第二共现访问链路包含的多个目标知识点的查看顺序相同。
例如,不同用户对应的第二共现访问链路包含的多个目标知识点按照查询时间从早到晚均分别为:住房公积金贷款介绍、住房公积金申请流程、住房公积金贷款担保、住房公积金贷款审批、住房公积金贷款发放、住房公积金贷款查询;则查看顺序为按照查询时间从早到晚对各目标知识点进行排序的得到的排序结果。
示例性的,不同用户对应的访问链路中按照查询时间从早到晚排序后的历史查询记录包含的目标知识点不是一一对应的,例如,用户A对应的第二共现访问链路中第i个历史查询记录包含的目标知识点,与,其他用户对应的第二共现访问链路中第L个历史查询记录包含的目标知识点相同,其中,i≠L,不同用户对应的访问链路包含的各目标知识点的查看顺序可能不同。
例如,用户A对应的访问链路包含的各目标知识点按照查询时间从早到晚均分别为:住房公积金贷款介绍、住房公积金申请流程、住房公积金贷款担保、住房公积金贷款审批、住房公积金贷款发放、住房公积金贷款查询,用户A对应的查看顺序为:住房公积金贷款介绍、住房公积金申请流程、住房公积金贷款担保、住房公积金贷款审批、住房公积金贷款发放、住房公积金贷款查询。用户B对应的访问链路包含的各目标知识点按照查询时间从早到晚均分别为:房公积金贷款介绍、住房公积金申请流程、住房公积金贷款发放、住房公积金贷款查询、住房公积金贷款担保、住房公积金贷款审批,则用户B对应的查看顺序为:房公积金贷款介绍、住房公积金申请流程、住房公积金贷款发放、住房公积金贷款查询、住房公积金贷款担保、住房公积金贷款审批。
在上述情况下,可以将各用户分别对应的查看顺序中,相同查看顺序划分为同一集合,将包含的数目最大的集合中的查看顺序确定为步骤B2提及的查看顺序。
步骤B3:按照所述查看顺序合并多个所述目标知识点,以得到合并后的知识点。
本申请实施例中,通过将多个目标知识点进行合并,得到合并后的知识点,后续在用户查询过程中,若命中该合并后的知识点,则可以展示合并后的知识点的所有内容,即多个目标知识点同时展示了。若用户需要查看多个目标知识点,则可以通过合并后的知识点查看多个目标知识点,无需再次检索,所以减少用户的检索次数,降低检索时长以及检索的复杂度。
而且合并后的知识点中各目标知识点的顺序是按照查看顺序排序的,所以用户在查看合并后的知识点时,可以顺序查看合并后的知识点中的内容,无需再次浏览合并后的知识点,以从中查找自己所需内容。
在一可选实现方式中,步骤B3的实现方式有多种,本申请实施例提供但不限于以下方法,该方法的实现方式包括以下步骤B31至步骤B32。
步骤B31:将属于同一源文档的目标知识点划分至同一目标集合,以得到多个目标集合。
目标集合包括一个或多个目标知识点。例如,各目标知识点包括:目标知识点A、目标知识点B以及目标知识点C,其中,目标知识点A属于源文档A,目标知识点B以及目标知识点C属于源文档B,则划分各目标知识点后,可以得到两个目标集合,即包含目标知识点A的目标集合1,以及,包含目标知识点B以及目标知识点C的目标集合2。
步骤B32:对于每一目标集合,按照目标集合包含的目标知识点对应的查看顺序,合并目标集合包含的目标知识点,以得到合并后的第一知识点。
仍以上述为例,假设各目标知识点的查看顺序为:目标知识点A、目标知识点B、目标知识点C。则目标集合1包含的目标知识点对应的查看顺序为:知识点A;目标集合2包含的目标知识点对应的查看顺序为:知识点B、目标知识点C。
示例性的,可以删除目标集合包含的目标知识点。
若步骤B32仅得到了一个第一知识点,该第一知识点即为合并后的知识点。
若各目标知识点均属于同一源文档,则步骤B31得到一个目标集合,步骤B32得到的第一知识点即为合并后的知识点。即若各目标知识点属于同一源文档,按照所述查看顺序,合并各目标知识点,以得到合并后的知识点。示例性的,还可以包括:删除各目标知识点。
若各目标知识点不属于同一源文档,则每一目标知识点对应一个目标集合,每一目标知识点为一个第一知识点,对于任一目标知识点,将其他目标知识点作为关联知识按照所述查看顺序存储至所述目标知识点中。
步骤B33:若步骤B32得到了多个第一知识点,对于任一第一知识点,将其他第一知识点作为关联知识存储至所述第一知识点中。
示例性的,可以将其他第一知识点作为关联知识存储至所述第一知识点中的关联知识区域。
示例性的,可以保留各第一知识点。
在一可选实现方式中,如表2所述,为本申请实施例提供的知识点的一种实现方式。
表2知识点的结构
表2示出的知识点的内容仅为示例,并不限定知识点包含的字段。
仍以上述为例,假设表2示出的知识点为知识点B以及知识点C组合后的知识点,则知识内容包括知识点B以及知识点C,若知识点B在源文档的位置为第4段,知识点C在源文档的位置为第5段,则“在源文档的位置”字段的属性值为“第4段和第5段”。
在一可选实现方式中,可以对合并后的知识点进行监控,例如,监控该合并后的知识点的被点击次数,若在预设时长内合并后的知识点的被点击次数为零,说明该合并后的知识点并不是用户所需的,则按照所述知识点包含的组合方式信息拆解所述知识点,以得到多个知识点,所述组合方式信息包括合并成为所述知识点的各知识点在所述知识点中的位置。
示例性的,组合方式信息可以记录在“是否为组合知识”字段中。
在一可选实现方式中,可以对拆分后的多个知识点进行监控,例如,监控拆分后的多个知识点的被点击次数,若在预设时长内所述多个知识点的被点击次数为零,说明用户并没有查看被拆分后的多个知识点的需求,所以合并所述多个知识点。
示例性的,被拆分后的知识点中的“是否为拆分知识”字段的属性值包括“是,该知识点在源知识点中的位置”,可以基于多个知识点中“是否为拆分知识”字段的属性值,合并得到源知识点。
在一可选实现方式中,被拆分后的知识点以及再次被组合后的知识点在预设时长内的点击次数仍旧为零,则将此知识点标记为冷门知识。并将该知识点发送至运维人员的设备上,使得运维人员确认是否修改或删除该知识点。
在一可选实现方式中,步骤B1的实现方式有多种,本申请实施例提供但不限于以下方式。该方法包括:步骤C1至步骤C5。
步骤C1:基于各用户分别对应的访问链路,获取各所述查询结果包含的各知识点分别对应的被点击次数以及阅读时长。
步骤C2:从各知识点中筛选出被击次数大于预设数目以及阅读时长大于或等于所述第一时长的候选知识点。
示例性的,预设数目可以基于实际情况而定,这里不进行限定。
示例性的,针对阅读时长和第一时长的说明,请参见针对步骤S22的说明,这里不再赘述。
步骤C3:获得包含各候选知识点的有向关系图,所述有向关系图中两个候选知识点之间的有向边的箭头表征两个候选知识点的被点击的顺序;两个候选知识点之间的有向边的权重为依次点击两个候选知识点的用户的数目。
示例性的,针对预设时间窗口的说明,可以参见针对步骤S21的说明,这里不进行限定。
如图3所示,为本申请实施例提供的有向关系图的示例性示意图。
有向关系图包含多个候选知识点,假设,包括5个候选知识点,有向关系图中每一节点对应一候选知识点。
假设5个候选知识点分别为:候选知识点1、候选知识点2、候选知识点3、候选知识点4、候选知识点5。假设各用户的数目为4,第二数目为3。
假设,用户A1在查询时间11输入的查询语句11,用户A1在查询语句11对应的查询结果中查看了候选知识点1;用户A1在查询时间12输入的查询语句12,用户A1在查询语句12对应的查询结果中查看了候选知识点2;查询时间11早于查询时间12,则用户A1对应的点击路径包括{候选知识点1,候选知识点2}。
用户A2在查询时间21输入的查询语句21,用户A2在查询语句21对应的查询结果中查看了候选知识点1;用户A2在查询时间22输入的查询语句22,用户A2在查询语句22对应的查询结果中查看了候选知识点2;用户A2在查询时间32输入的查询语句32,用户A2在查询语句32对应的查询结果中查看了候选知识点3;查询时间21早于查询时间22早于查询时间23,则用户A2对应的点击路径包括{候选知识点1,候选知识点3,候选知识点2}。
依次类推,假设用户A3对应的点击路径包括{候选知识点1,候选知识点2,候选知识点3};用户A4对用的点击路径包括{候选知识点1,候选知识点2,候选知识点3,候选知识点4,候选知识点5}。则有向关系图可以如图3所示。
如图3所示,各候选知识点之间的箭头指向以及权重,可以参见图3,这里不再赘述。
步骤C4:从所述有向关系图中,获得目标访问链路,所述目标访问链路包含的任意两个目标知识点有向边的权重大于或等于所述第二数目。
步骤C5:将所述目标访问链路包含的目标知识点确定为待合并的目标知识点。
以图3为例,第二数目为3,则目标访问链路包含:候选知识点1,候选知识点2。则带合并的目标知识点包括:候选知识点1、候选知识点2。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
如图4所示,为本申请实施例提供的一种知识点处理装置的结构图,该装置包括:第一获取模块41、第二获取模块42、第一确定模块43、聚类模块44以及拆分模块45,其中:
第一获取模块41,用于获取各用户分别对应的访问链路,所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长;
第二获取模块42,用于从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;
第一确定模块43,用于将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;
聚类模块44,用于从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;
拆分模块45,用于将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
在一可选实现方式中,还包括:
第三获取模块,用于从各用户分别对应的访问链路中,获得第二数目个用户分别对应的第二共现访问链路;所述第二数目与所述各用户的总数目的比值大于或等于第四阈值,所述第二数目个用户分别对应的第二共现访问链路包含所述第二数目个用户均阅读过的多个目标知识点,且每一所述目标知识点的阅读时长大于或等于所述第一时长;
第二确定模块,用于基于所述第二数目个用户分别对应的第二共现访问链路包含的各所述目标知识点的查询时间,确定表征用户查看各目标知识点的查看顺序;
合并模块,用于按照所述查看顺序合并多个所述目标知识点,以得到合并后的知识点。
在一可选实现方式中,合并模块包括:
第一合并单元,用于若各目标知识点属于同一源文档,按照所述查看顺序,合并各目标知识点,以得到合并后的知识点;
删除单元,用于删除各目标知识点;
第二合并单元,用于若各目标知识点不属于同一源文档,对于任一目标知识点,将其他目标知识点作为关联知识按照所述查看顺序存储至所述目标知识点中。
在一可选实现方式中,第三获取模块包括:
第一获取单元,用于基于各用户分别对应的访问链路,获取各所述查询结果包含的各知识点分别对应的被点击次数以及阅读时长;
筛选单元,用于从各知识点中筛选出被击次数大于预设数目以及阅读时长大于或等于所述第一时长的候选知识点;
第二获取单元,用于获得包含各候选知识点的有向关系图,所述有向关系图中两个候选知识点之间的有向边的箭头表征两个候选知识点的被点击的顺序;两个候选知识点之间的有向边的权重为依次点击两个候选知识点的用户的数目;
第三获取单元,用于从所述有向关系图中获得目标访问链路,所述目标访问链路包含的任意两个目标知识点有向边的权重大于或等于所述第二数目;
确定单元,用于将所述目标访问链路包含的目标知识点确定为待合并的目标知识点。
在一可选实现方式中,还包括:
第一拆解模块,用于对于数据库存储的任一知识点,若在预设时长内所述知识点的被点击次数为零,且所述知识点为组合知识,按照所述知识点包含的组合方式信息拆解所述知识点,以得到多个知识点,所述组合方式信息包括合并成为所述知识点的各知识点在所述知识点中的位置;
第二拆解模块,用于对于数据库存储的任一知识点,若在所述预设时长内所述知识点的被点击次数为零,且所述知识点不是组合知识,基于预设知识模板拆解所述知识点;
重合并模块,用于对于数据库存储的被拆分后的多个知识点,若在所述预设时长内所述多个知识点的被点击次数为零,合并所述多个知识点。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于服务器的装置的框图。
服务器包括但不限于:处理器51、存储器52、网络接口53、I/O控制器54以及通信总线55。
需要说明的是,本领域技术人员可以理解,图5中示出的服务器的结构并不构成对服务器的限定,服务器可以包括比图5所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对服务器的各个构成部件进行具体的介绍:
处理器51是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器52内的软件程序和/或模块,以及调用存储在存储器52内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器51可包括一个或多个处理单元;示例性的,处理器51可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器51中。
处理器51可能是一个中央处理器(CentralProcessing Unit,CPU),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器52可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM)521和只读存储器(Read-Only Memory,ROM)522,也可能还包括大容量存储设备523,例如至少1个磁盘存储器等。当然,该服务器还可能包括其他业务所需要的硬件。
其中,上述的存储器52,用于存储上述处理器51可执行指令。上述处理器51具有以下功能:获取各用户分别对应的访问链路,所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长;
从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;
将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;
从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;
将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
处理器51、存储器52、网络接口53和I/O控制器54可以通过通信总线55相互连接,该通信总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
在示例性实施例中,服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述知识点处理方法。
在示例性实施例中,本公开实施例提供了一种包括指令的存储介质,例如包括指令的存储器52,上述指令可由服务器的处理器51执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机可读存储介质,可直接加载到计算机的内部存储器,例如上述存储器52中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述知识点处理方法任一实施例所示步骤。
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述所述的知识点处理方法任一实施例所示步骤。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种知识点处理方法,其特征在于,包括:
获取各用户分别对应的访问链路,所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长;
从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;
将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;
从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;
将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
2.根据权利要求1所述知识点处理方法,其特征在于,还包括:
从各用户分别对应的访问链路中,获得第二数目个用户分别对应的第二共现访问链路;所述第二数目与所述各用户的总数目的比值大于或等于第四阈值,所述第二数目个用户分别对应的第二共现访问链路包含所述第二数目个用户均阅读过的多个目标知识点,且每一所述目标知识点的阅读时长大于或等于所述第一时长;
基于所述第二数目个用户分别对应的第二共现访问链路包含的各所述目标知识点的查询时间,确定表征用户查看各目标知识点的查看顺序;
按照所述查看顺序合并多个所述目标知识点,以得到合并后的知识点。
3.根据权利要求2所述知识点处理方法,其特征在于,所述按照所述查看顺序合并各目标知识点,以得到合并后的知识点步骤包括:
若各目标知识点属于同一源文档,按照所述查看顺序,合并各目标知识点,以得到合并后的知识点;
删除各目标知识点;
若各目标知识点不属于同一源文档,对于任一目标知识点,将其他目标知识点作为关联知识按照所述查看顺序存储至所述目标知识点中。
4.根据权利要求2或3所述知识点处理方法,其特征在于,所述从各用户分别对应的访问链路中,获得第二数目个用户分别对应的第二共现访问链路步骤包括:
基于各用户分别对应的访问链路,获取各所述查询结果包含的各知识点分别对应的被点击次数以及阅读时长;
从各知识点中筛选出被击次数大于预设数目以及阅读时长大于或等于所述第一时长的候选知识点;
获得包含各候选知识点的有向关系图,所述有向关系图中两个候选知识点之间的有向边的箭头表征两个候选知识点的被点击的顺序;两个候选知识点之间的有向边的权重为依次点击两个候选知识点的用户的数目;
从所述有向关系图中获得目标访问链路,所述目标访问链路包含的任意两个目标知识点有向边的权重大于或等于所述第二数目;
将所述目标访问链路包含的目标知识点确定为待合并的目标知识点。
5.根据权利要求2至3任一所述知识点处理方法,其特征在于,还包括:
对于数据库存储的任一知识点,若在预设时长内所述知识点的被点击次数为零,且所述知识点为组合知识,按照所述知识点包含的组合方式信息拆解所述知识点,以得到多个知识点,所述组合方式信息包括合并成为所述知识点的各知识点在所述知识点中的位置;
对于数据库存储的任一知识点,若在所述预设时长内所述知识点的被点击次数为零,且所述知识点不是组合知识,基于预设知识模板拆解所述知识点;
对于数据库存储的被拆分后的多个知识点,若在所述预设时长内所述多个知识点的被点击次数为零,合并所述多个知识点。
6.一种知识点处理装置,其特征在于,包括:
第一获取模块,用于获取各用户分别对应的访问链路,所述访问链路包括:按照查询时间由早到晚排序的多个历史查询记录;所述历史查询记录包括查询语句、响应所述查询语句的查询结果、阅读所述查询结果包含的知识点的阅读时长;
第二获取模块,用于从各用户分别对应的访问链路中,获得第一数目个用户分别对应的第一共现访问链路;所述第一数目与所述各用户的总数目的比值大于或等于第一阈值;不同所述第一共现访问链路包含的历史查询记录的数目相同,且,对于任一所述用户对应的第一共现访问链路包含的任一历史查询记录中的查询语句而言,每一用户对应的第一共现访问链路中均存在与所述查询语句的相关度大于或等于第二阈值的查询语句,且,每一所述第一共现访问链路包含的各历史查询记录中查询语句的相关度大于或等于第三阈值,且,每一所述第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读时长大于或等于第一时长,且,每一所述第一共现访问链路中除最晚查询时间对应的历史查询记录外的其他历史查询记录分别包含的阅读时长均小于或等于第二时长;
第一确定模块,用于将所述第一数目个用户分别对应的第一共现访问链路中最晚查询时间对应的历史查询记录包含的阅读的知识点中共有的知识点,确定为待拆分知识点;
聚类模块,用于从所述第一数目个用户分别对应的所述第一共现访问链路包含的各历史查询记录包含的查询语句进行聚类,以得到目标数目个关键词集合;
拆分模块,用于将所述待拆分知识点按照所述目标数目个关键词集合拆分成所述目标数目个知识点,每一知识点对应一个所述关键词集合。
7.根据权利要求6所述知识点处理装置,其特征在于,还包括:
第三获取模块,用于从各用户分别对应的访问链路中,获得第二数目个用户分别对应的第二共现访问链路;所述第二数目与所述各用户的总数目的比值大于或等于第四阈值,所述第二数目个用户分别对应的第二共现访问链路包含所述第二数目个用户均阅读过的多个目标知识点,且每一所述目标知识点的阅读时长大于或等于所述第一时长;
第二确定模块,用于基于所述第二数目个用户分别对应的第二共现访问链路包含的各所述目标知识点的查询时间,确定表征用户查看各目标知识点的查看顺序;
合并模块,用于按照所述查看顺序合并多个所述目标知识点,以得到合并后的知识点。
8.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的知识点处理方法。
9.一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1至5中任一项所述的知识点处理方法。
10.一种计算机程序产品,可直接加载到计算机的内部存储器,例如权利要求8所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现如权利要求1至5中任一项所述的知识点处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799478.5A CN113448983B (zh) | 2021-07-15 | 2021-07-15 | 知识点处理方法、装置、服务器、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799478.5A CN113448983B (zh) | 2021-07-15 | 2021-07-15 | 知识点处理方法、装置、服务器、介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113448983A true CN113448983A (zh) | 2021-09-28 |
CN113448983B CN113448983B (zh) | 2024-01-30 |
Family
ID=77816223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110799478.5A Active CN113448983B (zh) | 2021-07-15 | 2021-07-15 | 知识点处理方法、装置、服务器、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113448983B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416890A (zh) * | 2022-01-21 | 2022-04-29 | 中国人民解放军国防科技大学 | 异构知识点一体化表示、存储、检索、生成及交互方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460094A (zh) * | 2018-01-30 | 2018-08-28 | 上海天旦网络科技发展有限公司 | 存储统计数据的方法和系统 |
CN112286961A (zh) * | 2020-09-29 | 2021-01-29 | 苏宁云计算有限公司 | Sql优化查询方法及装置 |
CN112597277A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 文档查询方法、装置、存储介质及电子设备 |
-
2021
- 2021-07-15 CN CN202110799478.5A patent/CN113448983B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460094A (zh) * | 2018-01-30 | 2018-08-28 | 上海天旦网络科技发展有限公司 | 存储统计数据的方法和系统 |
CN112286961A (zh) * | 2020-09-29 | 2021-01-29 | 苏宁云计算有限公司 | Sql优化查询方法及装置 |
CN112597277A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 文档查询方法、装置、存储介质及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416890A (zh) * | 2022-01-21 | 2022-04-29 | 中国人民解放军国防科技大学 | 异构知识点一体化表示、存储、检索、生成及交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113448983B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12001439B2 (en) | Information service for facts extracted from differing sources on a wide area network | |
CN106383887B (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
AU2024204609A1 (en) | System and engine for seeded clustering of news events | |
Beel et al. | The architecture and datasets of Docear's Research paper recommender system | |
Shmueli-Scheuer et al. | Extracting user profiles from large scale data | |
US20090094210A1 (en) | Intelligently sorted search results | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
CN113297457B (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
US11423096B2 (en) | Method and apparatus for outputting information | |
Lee et al. | Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking | |
Huang et al. | Event summarization for sports games using twitter streams | |
US20140156668A1 (en) | Apparatus and method for indexing electronic content | |
US20080147631A1 (en) | Method and system for collecting and retrieving information from web sites | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN111447575A (zh) | 短信息推送方法、装置、设备及存储介质 | |
CN113239177B (zh) | 知识点查询方法、装置、服务器、介质及产品 | |
KR20190109628A (ko) | 개인화된 기사 컨텐츠 제공 방법 및 장치 | |
CN113297139B (zh) | 元数据查询方法、系统及电子设备 | |
CN113448983B (zh) | 知识点处理方法、装置、服务器、介质及产品 | |
CN114357280A (zh) | 一种信息推送方法、装置、电子设备及计算机可读介质 | |
CN111126034B (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
CN116340617B (zh) | 一种搜索推荐方法和装置 | |
CN112182239A (zh) | 信息检索方法和装置 | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
CN113468206B (zh) | 数据维护方法、装置、服务器、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |