CN113254571B - 知识点存储方法、装置、服务器及介质 - Google Patents
知识点存储方法、装置、服务器及介质 Download PDFInfo
- Publication number
- CN113254571B CN113254571B CN202110698802.4A CN202110698802A CN113254571B CN 113254571 B CN113254571 B CN 113254571B CN 202110698802 A CN202110698802 A CN 202110698802A CN 113254571 B CN113254571 B CN 113254571B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- query
- points
- point
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 235000019633 pungent taste Nutrition 0.000 claims abstract description 23
- 238000013145 classification model Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 35
- 238000010801 machine learning Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 17
- 238000007477 logistic regression Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了知识点存储方法、装置、服务器及介质,在存储知识点之前,先确定知识点对应的知识使用场景,属于不同知识使用场景的知识点存储的知识库不同;确定知识点对应的知识使用场景后,就能够确定用于存储该知识点的知识库集合,知识库集合包括知识查询热度范围对应的知识库,知识库用于存储知识查询热度属于查询热度范围的知识点。确定知识点的目标知识查询热度;从知识库集合中确定包含目标知识查询热度的知识查询热度范围对应的目标知识库;将知识点存储至目标知识库。由于属于不同知识使用场景的知识点存储的知识库不同,所以在查询时可以从相应知识使用场景对应的知识库集合中搜索知识点,无需从所有知识库中搜索知识点,提高检索速度。
Description
技术领域
本申请涉及数据库技术领域,更具体的说,是涉及知识点存储方法、装置、服务器及介质。
背景技术
可以基于用户输入的查询语句从知识库中搜索与查询语句相匹配的知识点;目前用户从知识库中检索得到自己需要的知识点的时间较长。
发明内容
有鉴于此,本申请提供了一种知识点存储方法、装置、服务器及介质。
本申请提供如下技术方案:
根据本公开实施例的第一方面,提供一种知识点存储方法,包括:
获取待存储的知识点,所述知识点包含知识正文;
将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景;所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的;
确定所述知识点的目标知识查询热度;
确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点;
从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;
将所述知识点存储至所述目标知识库。
根据本公开实施例的第二方面,提供一种知识点存储装置,包括:
第一获取模块,用于获取待存储的知识点,所述知识点包含知识正文;
第二获取模块,用于将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景;所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的;
第一确定模块,用于确定所述知识点的目标知识查询热度;
第二确定模块,用于确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点;
第三确定模块,用于从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;
存储模块,用于将所述知识点存储至所述目标知识库。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的知识点存储方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如第一方面所述的知识点存储方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如上述第三方面所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现如第一方面所述的知识点存储方法。
经由上述的技术方案可知,本申请提供的知识点存储方法中,在存储知识点之前,先确定知识点对应的知识使用场景,属于不同知识使用场景的知识点存储的知识库不同;确定知识点对应的知识使用场景后,就能够确定用于存储该知识点的知识库集合,知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点。确定知识点的目标知识查询热度;从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;将所述知识点存储至所述目标知识库。由于属于不同知识使用场景的知识点存储的知识库不同,所以在查询时可以从相应知识使用场景对应的知识库集合中搜索知识点,无需从所有知识库中搜索知识点,提高检索速度。
进一步的,由于知识库集合包括知识查询热度范围对应的知识库,即属于同一知识库集合的不同知识库存储的知识点的知识查询热度不同。可以理解的是,由于大部分用户搜索的都会查询知识查询热度较高的知识点,所以可以优先从知识查询热度较高的知识库搜索知识点,查找到知识点后反馈给用户,从而进一步提高检索速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例涉及的硬件架构的结构图;
图2为本申请实施例提供的知识点存储方法的流程图;
图3为本申请实施例提供的知识点存储装置的结构图;
图4是根据一示例性实施例示出的一种用于服务器的装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种知识点存储方法、装置、服务器及介质,在对本申请实施例提供的技术方案进行介绍之前,先对本申请实施例涉及的相关技术和硬件架构进行介绍。
首先,对本申请实施例涉及的相关技术进行介绍。
相关技术中,知识库包括多个知识点。示例性的,多个知识点是通过拆分源文档得到的。不同知识点对应的源文档可能相同可能不同。
例如,源文档包括10个段落,示例性的,源文本被拆分为10个知识点,即每一个段落对应一个知识点;示例性的,源文档本拆分为5个知识点,一个知识点包括源文档中的一个或多个段落;示例性的,源文档被拆分为20个知识点,一个知识点包括一个段落中的一个或多个语句。
示例性的,知识点包括源文档;示例性的,知识点是基于其他知识点得到的。
示例性的,知识点的表示方式有多种,本申请实施例提供但不限于:链表、数组、结构体、表格中任一种。下面以表格为例对知识点的结构进行举例说明。
示例性的,相关技术中知识点的结构如表1所示。
表1相关技术中知识点的结构
示例性的,知识正文包括知识标题以及知识内容中任一个;示例性的,知识内容与知识标题相对应,例如,与知识标题“中银富登个人通知存款的存款期限”对应的知识内容可以为:个人通知存款不论实际存期多长,按存款人提前通知的期限长短划分为1天通知存款和7天通知存款两个品种。1天通知存款必须提前1天通知约定支取存款,7天通知存款则必须提前7天通知约定支取存款。1天通知存款和7天通知存款,客户必须提前1天或提前7天来到柜台预约支取登记。所谓转存是系统可以自动在到期日将本息转到客户的活期账户,但需要客户在每个周期(7天)都来柜台办理约定转存的业务。
示例性的,知识点包含的业务目录可以包括一级或多级目录,表1中是以业务目录包括两级目录为例进行说明的。
示例性的,知识点包含的业务目录用于指示知识点包含的知识正文的存储路径。示例性的,知识点包含的业务目录即为存储知识点的存储设备的名称和/或文件夹的名称。
示例性的,知识标题,可以是基于自然语言处理技术从知识内容文中得到的;示例性的,知识标题可以是从源文档中获得的。
示例性的,知识点包含的图谱标签是指知识正文的属性信息。示例性的,图谱标签包括:产品(知识正文的内容描述的产品)、所属银行(知识正文的内容针对哪个分行或哪个总行)、客户类型。示例性的,客户类型包括但不限于:个人客户、财富管理客户、普通客户、私人银行客户、中银理财客户等等。
示例性的,知识点包含的个性标签是由人工坐席添加的,人工坐席可以基于自己的对知识点的理解,对知识点进行标注,例如,表1中具有人工坐席的标识A的人工坐席标注了“富登特色定期存款”,下次具有人工坐席的标识A的人工坐席可以基于查询语句“富登特色定期存款”准确的搜索到表1所示的知识点。
需要说明的是,有时候人工坐席在查询的时候查询到所需的知识点,但是人工坐席对该知识点有一些自己的理解,或者对知识点有自己的称谓习惯,那么人工坐席可以人为将自己的理解添加到该知识点的个性标签中。这样就可以照顾到不同人工坐席的思维习惯,丰富知识的标注,从而加快知识查询的效率以及提升知识查询的准确率。
示例性的,对于同一知识点,不同人工坐席标注的个性标签可能不同,可能相同;由于人工坐席在搜索知识点之前,需要进行登陆,所以人工坐席的查询语句包括人工坐席的标识,因此,在通过个性标签检索知识点的过程中,不会受到其他人工坐席标注的个性标签的影响。
示例性的,知识点包含的管理属性是指管理该知识点的管理员的信息,例如,管理属性包括管理员所属部门以及管理员所属用户组。
表1中的知识点的结构仅为示例,并不对知识点的结构造成限定,例如,知识点可以包括:业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段。
示例性的,知识点还包括接收组,接收组包括能够查询得到该知识点的用户的标识。
示例性的,知识点还包括:知识正文的关键词。
相关技术中,查询语句中的关键词可以包括属于业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段的关键词。在从知识库中检索与查询语句相关度大于或等于第一阈值的知识点的过程中,可以获得查询语句与知识点包含的业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个的相关度,以得到与查询语句相关度大于或等于第一阈值的知识点,并展示与查询语句相关度大于或等于第一阈值的知识点的链接。
相关技术中,在检索与查询语句相关度大于或等于第一阈值的知识点的过程中,是搜索全部的知识库,使得检索时间较长。
其次,对本申请实施例涉及的硬件架构进行说明。
如图1所示,为本申请实施例涉及的硬件架构的结构图,该硬件架构包括:电子设备11、服务器12以及知识库13。
示例性的,电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。
示例性的,服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器12可以包括处理器、存储器以及网络接口等。
应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的计算机。
示例性的,电子设备11可以通过无线网络或有线网络与服务器12建立连接并通信。
示例性的,知识库13可以通过无线网络或有线网络与服务器12建立连接并通信。
示例性的,用户可以通过电子设备11输入查询语句。电子设备11可以将查询语句发送至服务器12。电子设备11可以显示服务器12反馈的查询结果。
示例性的,用户可以为人工坐席或客户。
示例性的,用户可以通过电子设备11展示的客户端的用户界面输入查询语句,该客户端可以为应用程序客户端或网页版客户端。
服务器12用于执行本申请实施例提供的知识点存储方法,并与知识库13进行交互。
示例性的,存储知识点的知识库13可以位于服务器12,或者,知识库13独立于服务器12。
本领域技术人员应能理解上述电子设备和服务器仅为举例,其他现有的或今后可能出现的电子设备或服务器如可适用于本公开,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
下面结合硬件架构以及相关技术对本申请实施例提供的知识点存储方法进行说明。
如图2所示,为本申请实施例提供的知识点存储方法的流程图,该方法可以应用于图1所示的服务器中,该方法在实施过程包括以下步骤S21至步骤S26。
步骤S21:获取待存储的知识点,所述知识点包含知识正文。
步骤S22:将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景。
所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的。
示例性的,机器学习模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(SVM)、Adaboost、提升树模型、Transformer-Encoder模型中任一种模型。
示例性的,神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于Transformer-encoder的分类模型中的任一种。
示例性的,机器学习模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于Transformer-encoder的分类模型的深度混合模型。
示例性的,机器学习模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。
基于深度学习的短文本分类模型为循环神经网络(RNN)或卷积神经网络(CNN)或者基于循环神经网络或卷积神经网络的变种。
示例性的,可以在已经预训练好的模型上做一些简单的领域适应性改造,以得到机器学习模型。
示例性的,“简单的领域适应性改造”包括但不限于在已经预训练好的模型上,再次利用大规模无监督领域语料进行二次预训练,和/或,通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。
示例性的,上述训练机器学习模型的过程可以为有监督学习。示例性的,还可以对机器学习模型进行半监督学习。半监督学习是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据以及同时使用标记数据,来进行模式识别工作。
示例性的,知识点的应用渠道是指提交或上传该知识点或该知识点所属源文档的部门,例如,手机银行业务部门、微信银行业务部门、网银业务部门、智能柜台业务部门。
示例性的,知识点的应用渠道与知识点的知识使用场景具有一定的关系,例如,手机银行业务部门、微信银行业务部门、网银业务部门上传或提交的知识点一般用于机器人问答使用场景,也可能用于人工坐席问答使用场景;智能柜台业务部门上传或提交的知识点一般用于公共信息问答使用场景。
示例性的,知识使用场景包括但不限于:机器人问答使用场景、人工坐席问答使用场景、公共信息问答使用场景。下面举例对上述三种使用场景进行说明。
机器人问答使用场景:通过手机银行应用程序或网页版客户端展示的机器咨询窗口发送查询语句。此时,后台机器人会基于用户输入的查询语句从机器人问答使用场景对应的知识库中搜索得到知识点,并反馈给用户。
人工坐席问答使用场景:用户给人工坐席拨打电话,人工坐席基于用户口述的查询语句,人工坐席可以从人工坐席问答使用场景对应的知识库中搜索得到知识点,并反馈给用户。或者,用户通过手机银行应用程序或网页版客户端展示的人工咨询窗口发送查询语句,人工坐席可以从人工坐席问答使用场景对应的知识库中搜索得到知识点,并反馈给用户。
公共信息问答使用场景:用户在网点营业厅的自助设备,或,在网点营业厅的人工柜台咨询问题,此时,自助设备或柜员会从公共信息问答使用场景对应的知识库中搜索得到知识点,并反馈给用户。
步骤S23:确定所述知识点的目标知识查询热度。
示例性的,知识点的知识查询热度与知识点的击量、获赞次数、转发数、曝光量以及知识等级中的至少一个相关。
示例性的,知识点的知识等级是由查看过该知识点的用户评价的;示例性的,知识点的知识等级是由知识点维护人员维护的。
知识点的知识等级在一定程度上能够表征该知识点对于用户的重要程度,示例性的,知识点的知识等级越高,知识查询热度越高。
步骤S24:确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点。
示例性的,知识使用场景对应的知识库集合包含的知识库的数目可以为一个或多个。不同知识使用场景对应的知识库集合不同。
示例性的,知识使用场景对应的知识库集合包含的知识库的数目与属于该知识使用场景的知识点的数量有关。可以理解的是,知识库能够存储的知识点的数量是固定的,若属于某个知识使用场景的知识点数量较大,一个知识库无法存储完毕,可以设置该知识使用场景对应多个知识库,使用多个知识库存储属于该知识使用场景的知识点。
步骤S25:从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库。
示例性的,若知识使用场景对应的知识库集合包含的知识库的数目大于或等于2,则可以按照知识点的知识查询热度确定存储该知识点的目标知识库。
示例性的,可以预先设定知识库集合包含的各知识库分别对应的知识查询热度范围。每一知识查询热度范围对应的知识库的数目可以为一个或多个。
例如,若属于知识使用场景A的知识点的数目为100万个,其中,每个知识库能够存储的知识点的数目的上限为2万个,若属于知识使用场景A的知识点对应的知识查询热度属于知识查询热度范围A的知识点的数目为5万个,则知识查询热度范围A对应3个知识库。
示例性的,可以基于知识库能够存储的知识点的最大数目以及属于知识场景的知识点的总数目,确定每个知识库对应的知识查询热度范围。此时每一知识查询热度范围对应的知识库的数目为一个。
示例性的,随着时间流逝知识点的知识查询热度可能会发生变化,因此,可以每隔预设时长,确定知识点的知识查询热度,并将该知识点存储至相应的知识库中。
步骤S26:将所述知识点存储至所述目标知识库。
本申请实施例提供的知识点存储方法中,在存储知识点之前,先确定知识点对应的知识使用场景,属于不同知识使用场景的知识点存储的知识库不同;确定知识点对应的知识使用场景后,就能够确定用于存储该知识点的知识库集合,知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点。确定知识点的目标知识查询热度;从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;将所述知识点存储至所述目标知识库。由于属于不同知识使用场景的知识点存储的知识库不同,所以在查询时可以从相应知识使用场景对应的知识库集合中搜索知识点,无需从所有知识库中搜索知识点,提高检索速度。
进一步的,由于知识库集合包括知识查询热度范围对应的知识库,即属于同一知识库集合的不同知识库存储的知识点的知识查询热度不同。可以理解的是,由于大部分用户搜索的都会查询知识查询热度较高的知识点,所以可以优先从知识查询热度较高的知识库搜索知识点,查找到知识点后反馈给用户,从而进一步提高检索速度。
在一可选实现方式中,步骤S23的实现方式有多种,本申请实施例提供但不限于以下两种。
第一种步骤S23的实现方式包括以下步骤A11至步骤A12。
步骤A11:获取所述知识点对应的多个历史使用参数,所述历史使用参数包括点击量、获赞次数、转发数、曝光量以及知识等级中的任一个。
步骤A12:基于所述多个历史使用参数以及所述多个历史使用参数分别对应的权重,计算得到所述目标知识查询热度。
示例性的,知识点的知识查询热度=权重1*点击量+权重2*获赞次数+权重3*转发数+权重4*曝光量+权重5*知识等级。
在一可选实现方式中,确定多个历史使用参数分别对应的权重的方式有多种,本申请实施例提供但并不限于以下方式。该方法包括步骤A121至步骤A122。
步骤A121:将样本知识点对应的所述多个历史使用参数作为逻辑回归模型的输入,将所述样本知识点的标注知识查询热度作为输出,训练得到逻辑回归模型。
步骤A122:通过所述逻辑回归模型获得所述多个历史使用参数分别对应的权重。
示例性的,多个历史使用参数即为逻辑回归模型输出的逻辑回归系数。
在一可选实现方式中,可以使用相应的函数从逻辑回归模型中获得多个历史使用参数分别对应的逻辑回归系数。示例性的,可以使用函数coef()或summary()获得多个历史使用参数分别对应的逻辑回归系数。
第二种步骤S23的实现方式包括以下步骤A21。
步骤A21:将知识点输入第三分类模型,通过第三分类模型获得知识点的目标知识查询热度。
示例性的,第三分类模型是通过将样本知识点作为机器学习模型的输入,将样本知识点的标注知识查询热度作为输出,训练机器学习模型得到的。
在一可选实现方式中,步骤S21的实现方式有多种,本申请实施例提供但不限于以下两种。
第一种步骤S21的实现方式包括:基于源文档得到知识点,所述知识点包含的知识正文即为源文档。
第二种步骤S21的实现方式包括以下步骤B1至步骤B5。
步骤B1:将源文档拆分成多个知识正文。
示例性的,源文档可以是各种格式的文件,例如可以是txt文件、word文件、PPT文件、excel文件等。
拆分源文档的方式有多种,本申请实施例提供但不限于以下两种。
第一种步骤B1的实现方式包括:基于自然语言处理技术,拆分所述源文档得到多个知识正文。
示例性的,计算源文档中多个段落之间的相关度,将相关度大于或等于阈值A的段落确定为一个知识正文;将相关度小于阈值A的不同段落确定为不同知识正文。
示例性的,计算源文档中多个语句之间的相关度,将相关度大于或等于阈值A的语句确定为一个知识正文;将相关度小于阈值A的不同语句确定为不同知识正文。
第二种步骤B1的实现方式包括:根据源文档的格式以及预设的提取规则从源文档中获得多个知识正文。
示例性的,源文档的格式可以根据需求预先设置。
示例性的,预设的提取规则可以基于源文档的结构设置,例如,源文档包括的内容已被设置大纲级别,提取规则可以为将大纲级别为正文文本的内容确定为知识内容,将位于知识内容前面且大纲级别为非正文内容(例如大纲级别为1级、2级或3级)的内容作为知识标题。
示例性的,本申请实施例将大纲级别为非正文文本的内容称为标题。将大纲级别为正文文本的内容称为知识内容,知识正文包括知识标题以及知识内容。
步骤B2:对于每一知识正文,将所述知识正文输入至第二分类模型,通过所述第二分类模型输出所述知识正文的预测知识类型;所述第二分类模型是将样本知识正文作为机器学习模型的输入,将所述样本知识正文对应的标注知识类型作为输出,训练机器学习模型得到的。
示例性的,预测知识类型包括通用知识类型、专用知识类型或复杂知识类型。
下面举例对预测知识类型进行说明。
通用知识类型:属于通用知识类型的知识正文知识结构清晰,集中化描述较多的知识。如银行中的坐席知识、企业中的规章制度等,属于通用知识类型的知识正文大部分以段落为单位进行描述知识所包含的内容。
专用知识类型:适用于特定场景的知识,如电信套餐知识、信用卡知识、理财产品知识等。属于专用知识类型的知识正文具有特定的字段,且,通常以条目(非大段落)的形式描述知识所包含的内容。
本申请实施例提及的专用知识类型可以包括理财知识类型、电信套餐知识类型、信用卡知识类型中的任一种。
第二分类模型可以获得知识正文所属的具体专用知识类型,例如,理财知识类型、电信套餐知识类型、信用卡知识类型中的任一种。
下面对举例对属于专用知识类型的知识正文具有特定的字段进行说明。
示例性的,属于理财知识类型的知识正文具有特定的字段包括但不限于:产品编号、产品名称、产品在售状态、货币、预期年收益率、发售地区、发售渠道、七日年化收益等。
示例性的,可以预先设置不同专用知识类型对应的特定的字段。
复杂知识类型:属于复杂知识类型的知识正文包括属于通用知识类型的知识正文以及属于专用知识类型的知识正文。
步骤B3:从预设的知识类型与知识提取模板的对应关系中,查找所述预测知识类型对应的目标知识提取模板。
示例性的,不同知识类型对应不同知识提取模板。
不同专用知识类型对应的知识提取模板中包含的特定的字段可能不同。可以预先设置不同专用知识类型对应的知识提取模板中包含的特定的字段。
例如,理财知识类型对应的知识提取模板包括但不限于以下字段:产品编号、产品名称、产品在售状态、货币、预期年收益率、发售地区、发售渠道、七日年化收益等。
示例性的,属于专用知识类型的知识正文包括特定的字段以及该字段相应的值。
步骤B4:基于所述目标知识提取模板从所述知识正文提取相应内容,以得到知识点。
示例性的,知识提取模板包括多个字段,例如,业务目录、知识正文、图谱标签、个性标签、记忆标签等字段。
示例性的,知识提取模板可以从该知识正文所属的源文档中提取业务目录、图谱标签、个性标签、记忆标签等字段的值。
示例性的,知识提取模板可以从该知识正文中基于自然语言处理技术得到图谱标签的值。
示例性的,记忆标签包括客户的身份信息和/或客户针对知识点的查询语句。
示例性的,记忆标签包括客户的声纹、指纹、身份证号、手机号等能够表征用户身份的信息。
示例性的,记忆标签可以是在知识点使用过程中添加的,例如在用户对知识库中的知识点进行查询时,如果用户查询到相应的知识点,则把该用户的信息(例如个人信息、声纹信息等)以及用户检索时输入查询语句添加该知识点的记忆标签中。这样,该用户以后再次查询时,就可以直接利用记忆标签检索到该部分知识点,加快了知识点的查询效率以及提升了知识点查询的准确率。
示例性的,查询语句可以为图片、视频、文本、EXCEL等任意格式的内容。
在一可选实现方式中,用户可能会随时对个性标签或记忆标签进行增加或修改或删除,可以实时对个性标签或记忆标签进行更新。
步骤B5:将所述知识点作为待存储的知识点。
下面对不同知识类型的知识提取模板进行说明。
若所述目标知识类型为通用知识类型,所述目标知识提取模板包括:业务目录、知识正文、图谱标签、个性标签、记忆标签以及源文档上下文索引中的至少一个;所述业务目录用于指示知识点包含的知识正文的存储路径,所述图谱标签表征知识正文的属性信息,所述个性标签为人工坐席针对知识点描述的内容,所述记忆标签包括客户的身份信息和/或客户针对知识点的查询语句,所述源文档上下文索引包括与知识点包含的知识正文属于同一源文档的知识点的标识。
若所述目标知识类型为专用知识类型,所述目标知识提取模板包括:业务目录、知识正文、图谱标签、个性标签、记忆标签以及源文档上下文索引中的至少一个,以及,与所述目标知识类型对应的预设字段。
预设字段即为上述提及的特定的字段。
若所述目标知识类型为复杂知识类型,所述目标知识提取模板包括:与所述知识正文包含的属于通用知识类型的内容对应的知识提取模板以及与所述知识正文包含的属于专用知识类型的内容对应的知识提取模板。
下面介绍源文档上下文索引的获取方法。
在一可选实现方式中,获取源文档上下文索引的方法包括以下步骤C1。
步骤C1:基于知识正文在源文档的相对位置,确定所述知识正文分别对应的第一标识以及第二标识,以形成所述知识正文对应的知识点。
所述第一标识为所述源文档中位于所述知识正文的前一知识正文对应的知识点的标识;所述第二标识为所述源文档中位于所述知识正文的下一知识正文对应的知识点的标识。
示例性的,知识点还包括自身包含的知识正文位于源文档的位置。
本申请实施例中的知识点的结构与相关技术中知识点的结构不同。
示例性的,知识点的表示方式有多种,本申请实施例提供但不限于:链表、数组、结构体、表格中任一种。下面以表格为例对知识点的结构进行举例说明。示例性的,本申请实施例中知识点的结构如表2所示。
表2本申请实施例中知识点的结构
示例性的,知识点的标识,例如,第一标识和第二标识的表示方式有多种,例如,用字母、数字、特殊符号中的一个或多个进行表示,表2中是以第一标识和第二标识用数字表示为例进行说明。
示例性的,知识点的标识可以是随机分配的,不同知识点的标识不同;示例性的,知识点的标识与知识点包含的知识正文在源文档的位置有关。
例如,源文档包含的第3段落、第4段落和第5段落分别对应一个知识点,表2所示的知识点对应源文档包含的第4段落,所以“在源文档位置”为4;示例性的,源文档上下文索引包括第一标识以及第二标识,如表2中,第一标识为3,第二标识为5。
示例性的,知识点可以包括一个或多个第一标识。若知识点包括一个第一标识,示例性的,第一标识为源文档中位于知识点包含的知识正文的任一前一知识正文对应的知识点的标识。以源文档包含的每一段落分别对应一个知识点为例进行说明,若知识点A对应源文档的第1段、知识点B对应源文档的第2段、知识点C对应源文档的第3段、知识点D对应源文档的第4段、知识点E对应源文档的第5段,那么,知识点C包含的第一标识可以为知识点B的标识或知识点A的标识。示例性的,第一标识为源文档中位于知识点包含的知识正文的相邻的前一知识正文对应的知识点的标识。例如,知识点C包含的第一标识为知识点B的标识。
若知识点E包括多个第一标识,则具有多个第一标识的知识点包含的知识正文在源文档的位置是相邻的,且,与知识点E包含的知识正文相邻;例如,知识点E包含的多个第一标识分别为:知识点D的标识、知识点C的标识。
若知识点E包括多个第一标识,则具有多个第一标识的知识点包含的知识正文在源文档的位置可以不相邻,例如,知识点E包含的多个第一标识分别为:知识点C的标识以及知识点A的标识。
示例性的,知识点包含的第二标识的数目可以为一个或多个。对于第二标识的说明可以参见第一标识,这里不再赘述。
示例性的,知识点还包括:源文档的标识ID、源文档名称中至少一个。
综上,本申请实施例提供的知识点包含源文档上下文索引,使得来源于同一源文档的多个知识点具有关联关系。
在一可选实现方式中,知识点还可以包括第一关联标识,获取第一关联标识的过程如下。
在一可选实现方式中,知识点还包括关联知识点的第一关联标识。知识点包含的关联知识点的第一关联标识的数目可以为一个或多个。
本申请实施例中,对于任一知识点,将与知识点的相关度较高,且包含的知识正文和该知识点包含的知识正文不属于同一源文档的知识点称为关联知识点。具体得到关联知识点的关联标识的步骤包括:对于每一知识点,获得与所述知识点相关度大于或等于第二阈值的关联知识点,所述关联知识点包含的知识正文与所述知识点包含的知识正文属于不同源文档。
示例性的,第二阈值可以基于实际情况而定,这里不进行限定。
上述实施例介绍了知识点存储的方法,下面介绍基于上述知识库进行查询的方法。应用于本申请实施例的知识点查询方法的实现方式有多种,本申请实施例提供但不限于以下两种。
第一种知识点查询方法包括步骤D11至步骤D14。
步骤D11:接收来自客户端的查询请求,所述查询请求包括查询语句以及查询范围,所述查询范围用于表征所述查询语句对应的知识点对应的知识使用场景。
示例性的,客户端可以展示用户界面,用户界面可以展示:机器人问答使用场景、人工坐席问答使用场景以及公共信息问答使用场景。用户可以选择一个或多个知识使用场景。
示例性的,可以通过用户选择的发送查询请求的渠道,确定查询范围,例如,若用户通过客户端展示的用户界面中机器咨询窗口发送查询请求,则查询范围表征的知识使用场景为机器人问答使用场景;若用户通过电话向人工坐席发送查询请求,则查询范围表征的知识使用场景为人工坐席问答使用场景;若用户基于网点营业厅的自助设备或人工柜台发送查询请求,则查询范围表征的知识使用场景为公共信息问答使用场景。
步骤D12:获取访问所述知识使用场景对应的知识库集合包含的知识库的访问顺序,所述访问顺序是将知识库按照对应的最大知识查询热度由大至小排序的。
示例性的,若知识使用场景对应的知识库集合包含3个知识库,且分别为知识库1、知识库2以及知识库3;其中,知识库1对应的最大知识查询热度<知识库2对应的最大知识查询热度<知识库3对应的最大知识查询热度,则访问顺序依次为:知识库3、知识库2、知识库1。
步骤D13:基于所述访问顺序依次访问所述知识使用场景对应的知识库集合包含的知识库,直至得到与所述查询语句的相关度大于或等于第一阈值的关联知识点。
示例性的,仍以上述为例,首先在知识库3中查询与所述查询语句的相关度大于或等于第一阈值的关联知识点,若无,则从知识库2中查询与所述查询语句的相关度大于或等于第一阈值的关联知识点,若有,则终止查询。
步骤D14:发送所述关联知识点的链接至所述客户端。
本申请实施例提供的知识点查询方法中,优先查询存储知识查询热度较高的知识库,由于大部分用户都是搜索查询热度较高的知识点,所以节省了大部分用户的检索时间。
第二种知识点查询方法包括步骤D21至步骤D23。
步骤D21:接收来自客户端的查询请求,所述查询请求包括查询语句以及查询范围,所述查询范围用于表征所述查询语句对应的知识点对应的知识使用场景。
步骤D22:获取访问所述知识使用场景对应的知识库集合包含的知识库的访问顺序,所述访问顺序是将知识库按照对应的最大知识查询热度由大至小排序的。
步骤D23:基于所述访问顺序依次访问所述知识使用场景对应的知识库集合包含的知识库,并依次将得到与所述查询语句的相关度大于或等于第一阈值的关联知识点反馈至所述客户端。
示例性的,仍以上述为例,首先在知识库3中查询与所述查询语句的相关度大于或等于第一阈值的关联知识点,若有,则反馈给客户端;再从知识库2中查询与所述查询语句的相关度大于或等于第一阈值的关联知识点,若有,则反馈给客户端;最后从知识库1中查询与所述查询语句的相关度大于或等于第一阈值的关联知识点,若有,则反馈给客户端。
本申请实施例提供的知识点查询方法中,若知识库3、知识库2和知识库1均存储有与所述查询语句的相关度大于或等于第一阈值的关联知识点,若知识库1中存储的关联知识点与查询语句的相关度>知识库2中存储的关联知识点与查询语句的相关度>知识库3中存储的关联知识点与查询语句的相关度,为了避免未给用户展示与查询语句最相关的关联知识点,所以需要依次向客户端反馈知识库3中存储的关联知识点、知识库2中存储的关联知识点、知识库1中存储的关联知识点。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
如图3所示,为本申请实施例提供的知识点存储装置的结构图,该装置包括:第一获取模块31、第二获取模块32、第一确定模块33、第二确定模块34、第三确定模块35以及存储模块36,其中:
第一获取模块31,用于获取待存储的知识点,所述知识点包含知识正文;
第二获取模块32,用于将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景;所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的;
第一确定模块33,用于确定所述知识点的目标知识查询热度;
第二确定模块34,用于确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点;
第三确定模块35,用于从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;
存储模块36,用于将所述知识点存储至所述目标知识库。
在一可选实现方式中,第一确定模块包括:
第一获取单元,用于获取所述知识点对应的多个历史使用参数,所述历史使用参数包括点击量、获赞次数、转发数、曝光量以及知识等级中的任一个;
计算单元,用于基于所述多个历史使用参数以及所述多个历史使用参数分别对应的权重,计算得到所述目标知识查询热度。
在一可选实现方式中,还包括:
训练模块,哟用于将样本知识点对应的所述多个历史使用参数作为逻辑回归模型的输入,将所述样本知识点的标注知识查询热度作为输出,训练得到逻辑回归模型;
权重获取模块,用于通过所述逻辑回归模型获得所述多个历史使用参数分别对应的权重。
在一可选实现方式中,还包括:
第一接收模块,用于接收来自客户端的查询请求,所述查询请求包括查询语句以及查询范围,所述查询范围用于表征所述查询语句对应的知识点对应的知识使用场景;
第四确定模块,用于获取访问所述知识使用场景对应的知识库集合包含的知识库的访问顺序,所述访问顺序是将知识库按照对应的最大知识查询热度由大至小排序的;
第一查询模块,用于基于所述访问顺序依次访问所述知识使用场景对应的知识库集合包含的知识库,直至得到与所述查询语句的相关度大于或等于第一阈值的关联知识点;
第一发送模块,用于发送所述关联知识点的链接至所述客户端。
在一可选实现方式中,还包括:
第二接收模块,用于接收来自客户端的查询请求,所述查询请求包括查询语句以及查询范围,所述查询范围用于表征所述查询语句对应的知识点对应的知识使用场景;
第五确定模块,用于获取访问所述知识使用场景对应的知识库集合包含的知识库的访问顺序,所述访问顺序是将知识库按照对应的最大知识查询热度由大至小排序的;
第二查询模块,用于基于所述访问顺序依次访问所述知识使用场景对应的知识库集合包含的知识库,并依次将得到与所述查询语句的相关度大于或等于第一阈值的关联知识点反馈至所述客户端。
在一可选实现方式中,第一获取模块包括:
拆分单元,用于将源文档拆分成多个知识正文;
第二获取单元,用于对于每一知识正文,将所述知识正文输入至第二分类模型,通过所述第二分类模型输出所述知识正文的预测知识类型;所述第二分类模型是将样本知识正文作为机器学习模型的输入,将所述样本知识正文对应的标注知识类型作为输出,训练机器学习模型得到的;
查找单元,用于从预设的知识类型与知识提取模板的对应关系中,查找所述预测知识类型对应的目标知识提取模板;
第三获取单元,用于基于所述目标知识提取模板从所述知识正文提取相应内容,以得到知识点;
存储单元,用于将所述知识点作为待存储的知识点。
在一可选实现方式中,所述目标知识类型为通用知识类型、专用知识类型或复杂知识类型;
若所述目标知识类型为通用知识类型,所述目标知识提取模板包括:业务目录、知识正文、图谱标签、个性标签、记忆标签以及源文档上下文索引中的至少一个;所述业务目录用于指示知识点包含的知识正文的存储路径,所述图谱标签表征知识正文的属性信息,所述个性标签为人工坐席针对知识点描述的内容,所述记忆标签包括客户的身份信息和/或客户针对知识点的查询语句,所述源文档上下文索引包括与知识点包含的知识正文属于同一源文档的知识点的标识;
若所述目标知识类型为专用知识类型,所述目标知识提取模板包括:业务目录、知识正文、图谱标签、个性标签、记忆标签以及源文档上下文索引中的至少一个,以及,与所述目标知识类型对应的预设字段;
若所述目标知识类型为复杂知识类型,所述目标知识提取模板包括:与所述知识正文包含的属于通用知识类型的内容对应的知识提取模板以及与所述知识正文包含的属于专用知识类型的内容对应的知识提取模板。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于服务器的装置的框图。
服务器包括但不限于:处理器41、存储器42、网络接口43、I/O控制器44以及通信总线45。
需要说明的是,本领域技术人员可以理解,图4中示出的服务器的结构并不构成对服务器的限定,服务器可以包括比图4所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对服务器的各个构成部件进行具体的介绍:
处理器41是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器42内的软件程序和/或模块,以及调用存储在存储器42内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器41可包括一个或多个处理单元;示例性的,处理器41可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器41中。
处理器41可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器42可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM)421和只读存储器(Read-Only Memory,ROM)422,也可能还包括大容量存储设备423,例如至少1个磁盘存储器等。当然,该服务器还可能包括其他业务所需要的硬件。
其中,上述的存储器42,用于存储上述处理器41可执行指令。上述处理器41具有以下功能:获取待存储的知识点,所述知识点包含知识正文;
将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景;所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的;
确定所述知识点的目标知识查询热度;
确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点;
从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;
将所述知识点存储至所述目标知识库。
处理器41、存储器42、网络接口43和I/O控制器44可以通过通信总线45相互连接,该通信总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
在示例性实施例中,服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述知识点存储方法。
在示例性实施例中,本公开实施例提供了一种包括指令的存储介质,例如包括指令的存储器42,上述指令可由服务器的处理器41执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机可读存储介质,可直接加载到计算机的内部存储器,例如上述存储器42中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述知识点存储方法任一实施例所示步骤。
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述所述的知识点存储方法任一实施例所示步骤。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种知识点存储方法,其特征在于,包括:
获取待存储的知识点,所述知识点包含知识正文;
将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景;所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的;
确定所述知识点的目标知识查询热度;
确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点;
从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;
将所述知识点存储至所述目标知识库。
2.根据权利要求1所述知识点存储方法,其特征在于,所述确定所述知识点的目标知识查询热度步骤包括:
获取所述知识点对应的多个历史使用参数,所述历史使用参数包括点击量、获赞次数、转发数、曝光量以及知识等级中的任一个;
基于所述多个历史使用参数以及所述多个历史使用参数分别对应的权重,计算得到所述目标知识查询热度。
3.根据权利要求2所述知识点存储方法,其特征在于,确定所述多个历史使用参数分别对应的权重的步骤包括:
将样本知识点对应的所述多个历史使用参数作为逻辑回归模型的输入,将所述样本知识点的标注知识查询热度作为输出,训练得到逻辑回归模型;
通过所述逻辑回归模型获得所述多个历史使用参数分别对应的权重。
4.根据权利要求1至3任一所述知识点存储方法,其特征在于,还包括:
接收来自客户端的查询请求,所述查询请求包括查询语句以及查询范围,所述查询范围用于表征所述查询语句对应的知识点对应的知识使用场景;
获取访问所述知识使用场景对应的知识库集合包含的知识库的访问顺序,所述访问顺序是将知识库按照对应的最大知识查询热度由大至小排序的;
基于所述访问顺序依次访问所述知识使用场景对应的知识库集合包含的知识库,直至得到与所述查询语句的相关度大于或等于第一阈值的关联知识点;
发送所述关联知识点的链接至所述客户端。
5.根据权利要求1至3任一所述知识点存储方法,其特征在于,还包括:
接收来自客户端的查询请求,所述查询请求包括查询语句以及查询范围,所述查询范围用于表征所述查询语句对应的知识点对应的知识使用场景;
获取访问所述知识使用场景对应的知识库集合包含的知识库的访问顺序,所述访问顺序是将知识库按照对应的最大知识查询热度由大至小排序的;
基于所述访问顺序依次访问所述知识使用场景对应的知识库集合包含的知识库,并依次将得到与所述查询语句的相关度大于或等于第一阈值的关联知识点反馈至所述客户端。
6.根据权利要求1至3任一所述知识点存储方法,其特征在于,所述获取待存储的知识点步骤包括:
将源文档拆分成多个知识正文;
对于每一知识正文,将所述知识正文输入至第二分类模型,通过所述第二分类模型输出所述知识正文的预测知识类型;所述第二分类模型是将样本知识正文作为机器学习模型的输入,将所述样本知识正文对应的标注知识类型作为输出,训练机器学习模型得到的;
从预设的知识类型与知识提取模板的对应关系中,查找所述预测知识类型对应的目标知识提取模板;
基于所述目标知识提取模板从所述知识正文提取相应内容,以得到知识点;
将所述知识点作为待存储的知识点。
7.根据权利要求6所述知识点存储方法,其特征在于,目标知识类型为通用知识类型、专用知识类型或复杂知识类型;
若所述目标知识类型为通用知识类型,所述目标知识提取模板包括:业务目录、知识正文、图谱标签、个性标签、记忆标签以及源文档上下文索引中的至少一个;所述业务目录用于指示知识点包含的知识正文的存储路径,所述图谱标签表征知识正文的属性信息,所述个性标签为人工坐席针对知识点描述的内容,所述记忆标签包括客户的身份信息和/或客户针对知识点的查询语句,所述源文档上下文索引包括与知识点包含的知识正文属于同一源文档的知识点的标识;
若所述目标知识类型为专用知识类型,所述目标知识提取模板包括:业务目录、知识正文、图谱标签、个性标签、记忆标签以及源文档上下文索引中的至少一个,以及,与所述目标知识类型对应的预设字段;
若所述目标知识类型为复杂知识类型,所述目标知识提取模板包括:与所述知识正文包含的属于通用知识类型的内容对应的知识提取模板以及与所述知识正文包含的属于专用知识类型的内容对应的知识提取模板。
8.一种知识点存储装置,其特征在于,包括:
第一获取模块,用于获取待存储的知识点,所述知识点包含知识正文;
第二获取模块,用于将所述知识点、所述知识点包含的知识正文的长度以及所述知识点的应用渠道输入至第一分类模型;通过所述第一分类模型输出所述知识点对应的知识使用场景;所述第一分类模型是将样本知识点、所述样本知识点包含的知识正文的长度以及所述样本知识的应用渠道作为机器学习模型的输入,以所述样本知识点对应的标注知识使用场景作为输出,训练机器学习模型得到的;
第一确定模块,用于确定所述知识点的目标知识查询热度;
第二确定模块,用于确定所述知识使用场景对应的知识库集合,所述知识库集合包括知识查询热度范围对应的知识库,所述知识库用于存储知识查询热度属于所述查询热度范围的知识点;
第三确定模块,用于从所述知识库集合中确定包含所述目标知识查询热度的知识查询热度范围对应的目标知识库;
存储模块,用于将所述知识点存储至所述目标知识库。
9.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的知识点存储方法。
10.一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1至7中任一项所述的知识点存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698802.4A CN113254571B (zh) | 2021-06-23 | 2021-06-23 | 知识点存储方法、装置、服务器及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698802.4A CN113254571B (zh) | 2021-06-23 | 2021-06-23 | 知识点存储方法、装置、服务器及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254571A CN113254571A (zh) | 2021-08-13 |
CN113254571B true CN113254571B (zh) | 2024-02-23 |
Family
ID=77189308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110698802.4A Active CN113254571B (zh) | 2021-06-23 | 2021-06-23 | 知识点存储方法、装置、服务器及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254571B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353049A (zh) * | 2020-02-24 | 2020-06-30 | 京东方科技集团股份有限公司 | 数据更新方法、装置、电子设备及计算机可读存储介质 |
CN111752922A (zh) * | 2020-06-28 | 2020-10-09 | 中国银行股份有限公司 | 一种建立知识数据库、实现知识查询的方法及装置 |
CN111966689A (zh) * | 2020-08-19 | 2020-11-20 | 中国银行股份有限公司 | 应用知识库构建方法及装置 |
CN112035483A (zh) * | 2020-09-01 | 2020-12-04 | 中国银行股份有限公司 | 知识库知识存储、检索方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645314B2 (en) * | 2017-08-17 | 2023-05-09 | International Business Machines Corporation | Interactive information retrieval using knowledge graphs |
-
2021
- 2021-06-23 CN CN202110698802.4A patent/CN113254571B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353049A (zh) * | 2020-02-24 | 2020-06-30 | 京东方科技集团股份有限公司 | 数据更新方法、装置、电子设备及计算机可读存储介质 |
CN111752922A (zh) * | 2020-06-28 | 2020-10-09 | 中国银行股份有限公司 | 一种建立知识数据库、实现知识查询的方法及装置 |
CN111966689A (zh) * | 2020-08-19 | 2020-11-20 | 中国银行股份有限公司 | 应用知识库构建方法及装置 |
CN112035483A (zh) * | 2020-09-01 | 2020-12-04 | 中国银行股份有限公司 | 知识库知识存储、检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113254571A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664540B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
US8082264B2 (en) | Automated scheme for identifying user intent in real-time | |
Shmueli-Scheuer et al. | Extracting user profiles from large scale data | |
CN111782763A (zh) | 基于语音语义的信息检索方法、及其相关设备 | |
Wang et al. | Indexing by L atent D irichlet A llocation and an E nsemble M odel | |
US20220107980A1 (en) | Providing an object-based response to a natural language query | |
JP2014197300A (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
CN114090762B (zh) | 一种期货领域的自动问答方法和系统 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
US9613012B2 (en) | System and method for automatically generating keywords | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
US20110295859A1 (en) | Technique For Multi-Dimensionally Determining Strength Of An Item In A Weighted List Based On Tagging | |
CN113239177B (zh) | 知识点查询方法、装置、服务器、介质及产品 | |
CN113468206B (zh) | 数据维护方法、装置、服务器、介质及产品 | |
CN113254571B (zh) | 知识点存储方法、装置、服务器及介质 | |
CN113448983B (zh) | 知识点处理方法、装置、服务器、介质及产品 | |
CN114707510A (zh) | 资源推荐信息推送方法、装置、计算机设备及存储介质 | |
CN110188201A (zh) | 一种信息匹配方法及设备 | |
JP2020067864A (ja) | 知識検索装置、知識検索方法、および、知識検索プログラム | |
US10445061B1 (en) | Matching entities during data migration | |
US20210056149A1 (en) | Search system, search method, and program | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN113486232B (zh) | 查询方法、装置、服务器、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |