CN113609277A - 数据处理方法、装置、设备及可读存储介质 - Google Patents
数据处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113609277A CN113609277A CN202110988823.XA CN202110988823A CN113609277A CN 113609277 A CN113609277 A CN 113609277A CN 202110988823 A CN202110988823 A CN 202110988823A CN 113609277 A CN113609277 A CN 113609277A
- Authority
- CN
- China
- Prior art keywords
- transaction
- score
- knowledge point
- knowledge
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 41
- 230000000875 corresponding effect Effects 0.000 claims description 30
- 230000002596 correlated effect Effects 0.000 claims description 8
- 230000001960 triggered effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据处理方法、装置、设备及可读存储介质,可应用于人工智能领域或金融领域。本方法接收请求方发送的待检索问题,依据每一预设的知识点与待检索问题的语义相似度,获取每一知识点的语义得分,获取待检索问题的交易序列,作为第一交易序列,并依据每一知识点的交易相似度,获取每一知识点的交易得分。依据每一知识点的语义得分和交易得分,获取每一知识点的检索得分。进一步依据每一知识点的检索得分,获取结果知识点,结果知识点包括至少一项满足预设的检索条件的知识点,检索条件包括检索得分大于第一预设阈值。可见,本方法结合多个维度获取检索得分,提高了每一知识点的检索得分的准确性,因此提高结果知识点的准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术
目前各大银行系统建立柜面知识库系统,通过响应柜员系统的问题,反馈用于解答该问题的知识点(也即结果知识点)为柜员解疑答惑,以此提升银行柜员办理业务的效率。如何提高结果知识点的准确性是目前亟待解答的问题。
发明内容
本申请提供了一种数据处理方法、装置、设备及可读存储介质,目的在于提高结果知识点的准确性,如下:
一种数据处理方法,包括:
接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
可选地,获取所述知识点与所述待检索问题的语义相似度的过程,包括:
依据目标向量和参考向量的余弦相似度,获取评分因子,所述目标向量为所述待检索问题的词向量,所述参考向量为所述知识点的词向量;
获取所述待检索问题中的词的频率参数,所述词的频率参数依据所述词的词频和逆向文件频率确定;
依据所述评分因子和所述频率参数,获取所述知识点与所述待检索问题的语义相似度。
可选地,至少一项与当前交易相邻的交易包括预测交易以及至少一项历史交易;
所述获取待检索问题的交易序列,作为第一交易序列,包括
依据第二交易序列,获取在所述第二交易序列之后被所述请求方触发执行的概率满足预设的交易条件的交易,作为所述预测交易;所述交易条件包括大于预设概率阈值,所述第二交易序列包括按照执行时间先后排序的所述至少一项历史交易和所述当前交易;
将所述预测交易作为所述当前交易之后的交易加入所述第二交易序列,得到所述第一交易序列。
可选地,知识点的交易相似度的获取过程包括:
获取第一交易和第二交易的语义相似度,作为交易参数,所述第一交易为所述第一交易序列中的交易,所述第二交易为目标交易序列中,与所述第一交易序位相同的交易,所述目标交易序列为所述知识点对应的交易序列;
将各个所述交易参数按照预设权重加权相加,得到所述知识点的交易相似度。
可选地,还包括:
依据每一所述知识点的热度参数与总交易量的比值,获取每一所述知识点的热度得分;所述总交易量为所有知识点的热度参数之和,所述知识点的热度参数为所述知识点所属的交易的办理数量。
可选地,依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分,包括:
依据每一所述知识点的语义得分、交易得分、和热度得分,获取每一所述知识点的检索得分,所述检索得分与所述语义得分成正相关、与所述交易得分成正相关、且与所述热度得分成正相关。
可选地,检索条件还包括:
语义得分大于第二预设阈值、交易得分大于第三预设阈值、以及热度得分大于第三预设阈值中的至少一项。
一种数据处理装置,包括:
第一得分获取单元,用于接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
交易序列获取单元,用于获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
第二得分获取单元,用于依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
第三得分获取单元,用于依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
结果获取单元,用于依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
一种数据处理设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现数据处理方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现数据处理方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的数据处理方法、装置、设备及可读存储介质,接收请求方发送的待检索问题,依据每一预设的知识点与待检索问题的语义相似度,获取每一知识点的语义得分,获取待检索问题的交易序列,作为第一交易序列,并依据每一知识点的交易相似度,获取每一知识点的交易得分。依据每一知识点的语义得分和交易得分,获取每一知识点的检索得分。进一步依据每一知识点的检索得分,获取结果知识点,结果知识点包括至少一项满足预设的检索条件的知识点,检索条件包括检索得分大于第一预设阈值。可见,本方法结合多个维度获取检索得分,提高了每一知识点的检索得分的准确性,因此提高结果知识点的准确性。其中,第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易。当前交易为待检索问题所处的交易。知识点的交易相似度为知识点对应的交易序列和第一交易序列的相似度,知识点对应的交易序列包括知识点所属的交易,以及预设的交易菜单中与知识点所属的交易相邻的交易。可见,交易得分不仅与交易间的相似度相关,还与请求方正在办理的交易相关,提高了交易得分相对于不同的第一交易序列的适应性,进一步了每一知识点的检索得分的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的具体实施方式的流程示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的一种数据处理装置的结构示意图;
图4为本申请实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本实施例提供的一种数据处理方法具体应用于但不限于柜面知识库系统,柜面知识库系统与柜员系统连接,用于接收柜员系统发送的问题,从预先构建的柜面知识库中选择用于解答该问题的结果知识点,并反馈至柜员系统。现有技术中,当柜员通过柜员系统向柜面知识库系统请求结果知识点时,现有技术中,柜面知识库系统仅依据待检索问题的语义检索柜面知识库,获取结果知识点并反馈,结果知识点的准确度较低。
因此,本实施例提供的一种数据处理方法结合语义、交易的热度、以及交易序列三个维度获取结果知识点,目的在于提高结果知识点的准确度。
需要说明的是,本发明提供的数据处理方法、装置、设备及可读存储介质可用于人工智能领域或金融领域。上述仅为示例,并不对本发明提供的数据处理方法、装置、设备及可读存储介质的应用领域进行限定。
图1为本申请实施例提供的一种数据处理方法的具体实现方法的流程图,如图1所示,本方法包括:
S101、获取每一知识点与待检索问题的语义相似度。
本实施例中,任意一项知识点与待检索问题的语义相似度指示知识点用于解答待检索问题的概率。可以理解的是,语义相似度越高,知识点用于解答待检索问题的概率越高。
可选的一种获取知识点与待检索问题的语义相似度的具体方法包括:
A1、将参考问题和知识点分别进行分词和向量化,将待检索问题的词向量作为目标向量,并将知识点的词向量作为参考向量。
A2、依据目标向量和参考向量的余弦相似度,获取评分因子。
具体地,获取目标向量与各个参考向量的余弦相似度,获取余弦相似度的最高值作为目标向量的匹配度。选择多个目标向量的匹配度中的最大值,作为评分因子。
A3、获取待检索问题中的词的频率参数。
具体地,词的频率参数依据词的词频和逆向文件频率确定。
本实施例中,词频为词在知识点中出现的频率,计算方法为该词在知识点出现次数除以知识点的总词数并做归一化处理。逆向文件频率指示包含词的知识点在知识库中的占比,计算方法为将知识点的总数量除以包括词的知识点的数量,并取对数。
需要说明的是,对于任意一个词,词的频率参数等于词的词频和逆向文件频率的乘积。
A4、依据评分因子和频率参数,获取知识点与待检索问题的语义相似度。
具体的一种获取知识点与待检索问题的语义相似度的方法包括:
将评分因子与相关性相乘,得到知识点与待检索问题的语义相似度。其中,相关性为知识点与待检索问题的相关系,相关性等于待检索问题中的各个词的频率参数之和。
以知识点为知识点q,待检索问题为d为例,获取q与d的语义相似度score(q,d)具体可以参见下述公式(1):
其中,coord(q,d)为评分因子,tf(ti)为词ti的词频,idf(t)为词ti的逆向文件频率,词ti为待检索问题中的第i个词,n为待检索问题中词的数量。
需要说明的是,本方法提供的每一知识点与待检索问题的语义相似度的方法中,评分因子指示知识点和待检索问题在词向量维度的匹配度,且,知识点和待检索问题的相关性与待检索问题包括的每一词的词频和逆向文件频率相关,由于,词的重要性随着词在文件(也即知识点)中出现的次数成正比增加,但同时会随着它在语料库(也即知识库)中出现的频率成反比下降,因此,本方案同时结合知识点和待检索问题在词向量维度的匹配度、以及待检索问题中的词对于知识点的重要性,提高知识点与待检索问题的语义相似度的准确度。
S102、依据每一知识点与待检索问题的语义相似度,获取每一知识点的语义得分。
本实施例中,将知识点与待检索问题的语义相似度,作为知识点的语义得分。可见,知识点的语义得分指示知识点用于解答待检索问题的概率。
S103、获取待检索问题的交易序列,作为第一交易序列。
本实施例中,第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易,当前交易为待检索问题所处的交易。
具体地,至少一项与当前交易相邻的交易包括请求方在当前交易之前执行的交易(也即历史交易)、以及请求方在当前交易之后将执行的交易(也即预测交易)。
其中,当前交易以及历史交易通过交易日志获取。预测交易的一种可选的获取方法包括:
B1、依据第二交易序列,获取在第二交易序列之后被请求方触发执行的概率满足预设的交易条件的交易,作为预测交易。
本实施中,交易条件包括大于预设概率阈值,第二交易序列包括按照执行时间先后排序的至少一项历史交易和当前交易。
B2、将预测交易作为当前交易之后的交易加入第二交易序列,得到第一交易序列。
需要说明的是,获取任意一项交易在第二交易序列之后被请求方触发执行的概率可以参见现有技术。
S104、获取每一知识点的交易相似度。
本实施例中,知识点的交易相似度为知识点对应的交易序列和第一交易序列的相似度,知识点对应的交易序列包括知识点所属的交易,以及预设的交易菜单中与知识点所属的交易相邻的交易。
其中,任意知识点所属的交易预先配置,交易菜单包括按照执行时间先后排列的各项交易。
本实施例中,获取知识点的交易相似度的方法包括:
C1、获取第一交易和第二交易的语义相似度,作为交易参数。
本实施例中,第一交易为第一交易序列中的交易,第二交易为目标交易序列中,与第一交易序位相同的交易,目标交易序列为知识点对应的交易序列。
其中,第一交易和第二交易的语义相似度的获取方法包括:
将第一交易和第二交易分别进行分词并去除预设词(停用词、助词等),得到第一词集合和第二词集合,第一交易和第二交易的语义相似度为:第一数值和第二数值的比值,其中,第一数值为第一词集合和第二词集合的交集包括的词的数量,第二数值为第一词集合和第二词集合的并集包括的词的数量。
可以理解的是,第一交易和第二交易的语义相似度指示第一交易和第二交易包括的共用词的占第一交易和第二交易中的所有词的比例。
C2、将各个交易参数按照预设权重加权相加,得到知识点对应的交易序列和第一交易序列的相似度,作为知识点的交易相似度。
例如,第一交易序列包括{x1 x2 x3},目标交易序列包括{y1 y2 y3},其中,x1和y1的语义相似度为p1,x2和y2的语义相似度为p2,x3和y3的语义相似度为p3。p1的权重为a,p2的权重为b,p3的权重为c,则,知识点的交易相似度P=a*p1+b*p2+c*p3。需要说明的是,当前交易作为第一交易时,获得的交易参数对应的权重最大,也即b最大。
S105、依据每一知识点的交易相似度,获取每一知识点的交易得分。
本实施例中,将各个知识点的交易相似度归一化,得到各个知识点的交易得分,具体归一化方法参见现有技术。
需要说明的是,当前交易为请求方发送待检索问题时所执行的交易,预测交易通过历史交易和当前交易预测得到,也即第一交易序列为请求方执行的交易序列,因此,每一知识点的交易得分与请求方的执行的交易相关,因此,指示请求方所执行的交易与知识点所属的交易序列间的相似度,可以理解的是,任意一项知识点不仅与交易间的相似度相关,还与请求方相关,提高了交易得分相对于不同请求方的适应性,提高交易得分的准确性。
例如,相同的待检索问题,若请求方发送待检索问题时,存在执行的交易不同、历史交易不同、以及预测交易不同中的至少一项,则待检索问题与知识点的交易得分可能不同。因此,交易得分能够区分不同的请求方行为。
S106、依据每一知识点的热度参数与总交易量的比值,获取每一知识点的热度得分。
本实施例中,总交易量为所有知识点的热度参数之和,知识点的热度参数为知识点所属的交易的办理数量。
S107、依据每一知识点的语义得分、交易得分、和热度得分,获取每一知识点的检索得分。
本实施例中,检索得分与语义得分成正相关、与交易得分成正相关、且与热度得分成正相关。
具体地,将语义得分、交易得分、和热度得分加权相加,得到检索得分。
S108、依据每一知识点的检索得分,获取结果知识点。
本实施例中,结果知识点包括至少一项满足预设的检索条件的知识点,检索条件包括检索得分大于第一预设阈值且语义得分大于第二预设阈值。
S109、将每一结果知识点按照检索得分从大到小排序,得到结果序列并展示。
由上述技术方案可以看出,本申请实施例提供的一种数据处理方法,依据每一知识点的语义得分、交易得分、以及热度得分,获取每一知识点的检索得分,其中,知识点的语义得分依据知识点与待检索问题的语义相似度获取,知识点的交易得分依据每一知识点的交易相似度获取。因此,本方法结合多个维度获取检索得分,提高了每一知识点的检索得分的准确性,因此提高结果知识点的准确性,又因为,知识点的交易相似度为知识点对应的交易序列和第一交易序列的相似度,其中,第一交易序列包括请求方执行的交易,因此,交易得分不仅与交易间的相似度相关,还与请求方正在办理的交易相关,提高了交易得分相对于不同的第一交易序列的适应性,进一步了每一知识点的检索得分的准确性。
需要说明的是,图1所示的流程仅为本申请实施例提供的一种数据处理方法的具体实现方式,本申请还包括其他的具体实现方式,例如,可选的另一种获取知识点与待检索问题的语义相似度的具体方法中,评分因子依据参考问题和知识点共用词数量确定,共用词数量越多则评分因子的数值越大。再例如,S106和S109为可选的步骤,再例如,检索条件还包括:交易得分大于第三预设阈值、以及热度得分大于第三预设阈值中的至少一项。
综上,将本申请实施例提供的数据处理方法总结概括为图2所示的流程,如图2所示,本方法包括:
S201、接收请求方发送的待检索问题,依据每一预设的知识点与待检索问题的语义相似度,获取每一知识点的语义得分。
本实施例中,任意一项知识点与待检索问题的语义相似度指示知识点用于解答待检索问题的概率。可以理解的是,语义相似度越高,知识点用于解答待检索问题的概率越高。
获取每一知识点的语义得分的具体方法包括多种,具体的一种方法可以参见上述实施例。
S202、获取待检索问题的交易序列,作为第一交易序列。
本实施例中,第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易,当前交易为待检索问题所处的交易。
其中,请求方执行的当前交易也即请求方发送待检索问题时所处的交易。可选地,第一交易序列中的交易按照交易顺序(时间先后)排列。
可选地,至少一项与当前交易相邻的交易包括请求方在当前交易之前执行的交易(也即历史交易)、以及请求方在当前交易之后将执行的交易(也即预测交易)。其中,当前交易以及历史交易通过交易日志获取。预测交易的一种可选的获取方法可以参见上述实施例。
S203、依据每一知识点的交易相似度,获取每一知识点的交易得分。
本实施例中,知识点的交易相似度为知识点对应的交易序列和第一交易序列的相似度,知识点对应的交易序列包括知识点所属的交易,以及预设的交易菜单中与知识点所属的交易相邻的交易。
需要说明的是,知识点对应的交易序列和第一交易序列包含的交易的数量相同。获取任意两个交易序列的相似度的一种可选的方法可以参见上述实施例。
S204、依据每一知识点的语义得分和交易得分,获取每一知识点的检索得分。
本实施例中,知识点的检索得分与语义得分成正相关且与交易得分成正相关。
S205、依据每一知识点的检索得分,获取结果知识点。
本实施例中,结果知识点包括至少一项满足预设的检索条件的知识点,检索条件包括检索得分大于第一预设阈值。
由上述技术方案可以看出,本申请实施例提供的一种数据处理方法,依据每一知识点的语义得分和交易得分,获取每一知识点的检索得分,其中,知识点的语义得分依据知识点与待检索问题的语义相似度获取,知识点的交易得分依据每一知识点的交易相似度获取。因此,本方法结合语义相似度和交易相似度两个维度获取检索得分,提高了每一知识点的检索得分的准确性,因此提高结果知识点的准确性,又因为,知识点的交易相似度为知识点对应的交易序列和第一交易序列的相似度,其中,第一交易序列包括请求方执行的交易,因此,交易得分不仅与交易间的相似度相关,还与请求方正在办理的交易相关,提高了交易得分相对于不同的第一交易序列的适应性,进一步了每一知识点的检索得分的准确性。
图3示出了本申请实施例提供的一种数据处理装置的结构示意图,如图3所示,该装置可以包括:
第一得分获取单元,用于接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
交易序列获取单元,用于获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
第二得分获取单元,用于依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
第三得分获取单元,用于依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
结果获取单元,用于依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
可选地,第一得分获取单元,用于获取所述知识点与所述待检索问题的语义相似度的过程,包括:第一得分获取单元具体用于:
依据目标向量和参考向量的余弦相似度,获取评分因子,所述目标向量为所述待检索问题的词向量,所述参考向量为所述知识点的词向量;
获取所述待检索问题中的词的频率参数,所述词的频率参数依据所述词的词频和逆向文件频率确定;
依据所述评分因子和所述频率参数,获取所述知识点与所述待检索问题的语义相似度。
可选地,至少一项与当前交易相邻的交易包括预测交易以及至少一项历史交易;
交易序列获取单元,用于获取待检索问题的交易序列,作为第一交易序列,包括:交易序列获取单元,具体用于:
依据第二交易序列,获取在所述第二交易序列之后被所述请求方触发执行的概率满足预设的交易条件的交易,作为所述预测交易;所述交易条件包括大于预设概率阈值,所述第二交易序列包括按照执行时间先后排序的所述至少一项历史交易和所述当前交易;
将所述预测交易作为所述当前交易之后的交易加入所述第二交易序列,得到所述第一交易序列。
可选地,第二得分获取单元还用于获取所述知识点的交易相似度,包括:第二得分获取单元具体用于:
获取第一交易和第二交易的语义相似度,作为交易参数,所述第一交易为所述第一交易序列中的交易,所述第二交易为目标交易序列中,与所述第一交易序位相同的交易,所述目标交易序列为所述知识点对应的交易序列;
将各个所述交易参数按照预设权重加权相加,得到所述知识点的交易相似度。
可选地,还包括:第四得分获取单元,用于依据每一所述知识点的热度参数与总交易量的比值,获取每一所述知识点的热度得分;所述总交易量为所有知识点的热度参数之和,所述知识点的热度参数为所述知识点所属的交易的办理数量。
可选地,第三得分获取单元,用于依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分,包括:第三得分获取单元具体用于:依据每一所述知识点的语义得分、交易得分、和热度得分,获取每一所述知识点的检索得分,所述检索得分与所述语义得分成正相关、与所述交易得分成正相关、且与所述热度得分成正相关。
可选地,检索条件还包括:
语义得分大于第二预设阈值、交易得分大于第三预设阈值、以及热度得分大于第三预设阈值中的至少一项。
图4示出了该数据处理设备的结构示意图,该设备可以包括:至少一个处理器401,至少一个通信接口402,至少一个存储器403和至少一个通信总线404;
在本申请实施例中,处理器401、通信接口402、存储器403、通信总线404的数量为至少一个,且处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信;
处理器401可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的一种数据处理方法的各个步骤,如下:
接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
可选地,获取所述知识点与所述待检索问题的语义相似度的过程,包括:
依据目标向量和参考向量的余弦相似度,获取评分因子,所述目标向量为所述待检索问题的词向量,所述参考向量为所述知识点的词向量;
获取所述待检索问题中的词的频率参数,所述词的频率参数依据所述词的词频和逆向文件频率确定;
依据所述评分因子和所述频率参数,获取所述知识点与所述待检索问题的语义相似度。
可选地,至少一项与当前交易相邻的交易包括预测交易以及至少一项历史交易;
所述获取待检索问题的交易序列,作为第一交易序列,包括
依据第二交易序列,获取在所述第二交易序列之后被所述请求方触发执行的概率满足预设的交易条件的交易,作为所述预测交易;所述交易条件包括大于预设概率阈值,所述第二交易序列包括按照执行时间先后排序的所述至少一项历史交易和所述当前交易;
将所述预测交易作为所述当前交易之后的交易加入所述第二交易序列,得到所述第一交易序列。
可选地,知识点的交易相似度的获取过程包括:
获取第一交易和第二交易的语义相似度,作为交易参数,所述第一交易为所述第一交易序列中的交易,所述第二交易为目标交易序列中,与所述第一交易序位相同的交易,所述目标交易序列为所述知识点对应的交易序列;
将各个所述交易参数按照预设权重加权相加,得到所述知识点的交易相似度。
可选地,还包括:
依据每一所述知识点的热度参数与总交易量的比值,获取每一所述知识点的热度得分;所述总交易量为所有知识点的热度参数之和,所述知识点的热度参数为所述知识点所属的交易的办理数量。
可选地,依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分,包括:
依据每一所述知识点的语义得分、交易得分、和热度得分,获取每一所述知识点的检索得分,所述检索得分与所述语义得分成正相关、与所述交易得分成正相关、且与所述热度得分成正相关。
可选地,检索条件还包括:
语义得分大于第二预设阈值、交易得分大于第三预设阈值、以及热度得分大于第三预设阈值中的至少一项。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的一种数据处理方法的各个步骤,如下:
接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
可选地,获取所述知识点与所述待检索问题的语义相似度的过程,包括:
依据目标向量和参考向量的余弦相似度,获取评分因子,所述目标向量为所述待检索问题的词向量,所述参考向量为所述知识点的词向量;
获取所述待检索问题中的词的频率参数,所述词的频率参数依据所述词的词频和逆向文件频率确定;
依据所述评分因子和所述频率参数,获取所述知识点与所述待检索问题的语义相似度。
可选地,至少一项与当前交易相邻的交易包括预测交易以及至少一项历史交易;
所述获取待检索问题的交易序列,作为第一交易序列,包括
依据第二交易序列,获取在所述第二交易序列之后被所述请求方触发执行的概率满足预设的交易条件的交易,作为所述预测交易;所述交易条件包括大于预设概率阈值,所述第二交易序列包括按照执行时间先后排序的所述至少一项历史交易和所述当前交易;
将所述预测交易作为所述当前交易之后的交易加入所述第二交易序列,得到所述第一交易序列。
可选地,知识点的交易相似度的获取过程包括:
获取第一交易和第二交易的语义相似度,作为交易参数,所述第一交易为所述第一交易序列中的交易,所述第二交易为目标交易序列中,与所述第一交易序位相同的交易,所述目标交易序列为所述知识点对应的交易序列;
将各个所述交易参数按照预设权重加权相加,得到所述知识点的交易相似度。
可选地,还包括:
依据每一所述知识点的热度参数与总交易量的比值,获取每一所述知识点的热度得分;所述总交易量为所有知识点的热度参数之和,所述知识点的热度参数为所述知识点所属的交易的办理数量。
可选地,依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分,包括:
依据每一所述知识点的语义得分、交易得分、和热度得分,获取每一所述知识点的检索得分,所述检索得分与所述语义得分成正相关、与所述交易得分成正相关、且与所述热度得分成正相关。
可选地,检索条件还包括:
语义得分大于第二预设阈值、交易得分大于第三预设阈值、以及热度得分大于第三预设阈值中的至少一项。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
2.根据权利要求1所述的方法,其特征在于,获取所述知识点与所述待检索问题的语义相似度的过程,包括:
依据目标向量和参考向量的余弦相似度,获取评分因子,所述目标向量为所述待检索问题的词向量,所述参考向量为所述知识点的词向量;
获取所述待检索问题中的词的频率参数,所述词的频率参数依据所述词的词频和逆向文件频率确定;
依据所述评分因子和所述频率参数,获取所述知识点与所述待检索问题的语义相似度。
3.根据权利要求1所述的方法,其特征在于,所述至少一项与当前交易相邻的交易包括预测交易以及至少一项历史交易;
所述获取待检索问题的交易序列,作为第一交易序列,包括
依据第二交易序列,获取在所述第二交易序列之后被所述请求方触发执行的概率满足预设的交易条件的交易,作为所述预测交易;所述交易条件包括大于预设概率阈值,所述第二交易序列包括按照执行时间先后排序的所述至少一项历史交易和所述当前交易;
将所述预测交易作为所述当前交易之后的交易加入所述第二交易序列,得到所述第一交易序列。
4.根据权利要求3所述的方法,其特征在于,所述知识点的交易相似度的获取过程包括:
获取第一交易和第二交易的语义相似度,作为交易参数,所述第一交易为所述第一交易序列中的交易,所述第二交易为目标交易序列中,与所述第一交易序位相同的交易,所述目标交易序列为所述知识点对应的交易序列;
将各个所述交易参数按照预设权重加权相加,得到所述知识点的交易相似度。
5.根据权利要求1所述的方法,其特征在于,还包括:
依据每一所述知识点的热度参数与总交易量的比值,获取每一所述知识点的热度得分;所述总交易量为所有知识点的热度参数之和,所述知识点的热度参数为所述知识点所属的交易的办理数量。
6.根据权利要求5所述的方法,其特征在于,所述依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分,包括:
依据每一所述知识点的语义得分、交易得分、和热度得分,获取每一所述知识点的检索得分,所述检索得分与所述语义得分成正相关、与所述交易得分成正相关、且与所述热度得分成正相关。
7.根据权利要求6所述的方法,其特征在于,所述检索条件还包括:
语义得分大于第二预设阈值、交易得分大于第三预设阈值、以及热度得分大于第三预设阈值中的至少一项。
8.一种数据处理装置,其特征在于,包括:
第一得分获取单元,用于接收请求方发送的待检索问题,依据每一预设的知识点与所述待检索问题的语义相似度,获取每一所述知识点的语义得分;
交易序列获取单元,用于获取待检索问题的交易序列,作为第一交易序列;所述第一交易序列包括请求方执行的当前交易以及请求方执行的至少一项与当前交易相邻的交易;所述当前交易为所述待检索问题所处的交易;
第二得分获取单元,用于依据每一所述知识点的交易相似度,获取每一所述知识点的交易得分;所述知识点的交易相似度为所述知识点对应的交易序列和所述第一交易序列的相似度,所述知识点对应的交易序列包括所述知识点所属的交易,以及预设的交易菜单中与所述知识点所属的交易相邻的交易;
第三得分获取单元,用于依据每一所述知识点的语义得分和交易得分,获取每一所述知识点的检索得分;
结果获取单元,用于依据每一所述知识点的检索得分,获取结果知识点,所述结果知识点包括至少一项满足预设的检索条件的知识点,所述检索条件包括检索得分大于第一预设阈值。
9.一种数据处理设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的数据处理方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的数据处理方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988823.XA CN113609277B (zh) | 2021-08-26 | 2021-08-26 | 数据处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988823.XA CN113609277B (zh) | 2021-08-26 | 2021-08-26 | 数据处理方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609277A true CN113609277A (zh) | 2021-11-05 |
CN113609277B CN113609277B (zh) | 2024-02-20 |
Family
ID=78309368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110988823.XA Active CN113609277B (zh) | 2021-08-26 | 2021-08-26 | 数据处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609277B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及系统 |
CN110019723A (zh) * | 2017-12-21 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 基于问答系统的问答方法、终端设备及存储介质 |
CN112035598A (zh) * | 2020-11-03 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种智能语义检索方法、系统和电子设备 |
-
2021
- 2021-08-26 CN CN202110988823.XA patent/CN113609277B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及系统 |
CN110019723A (zh) * | 2017-12-21 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 基于问答系统的问答方法、终端设备及存储介质 |
CN112035598A (zh) * | 2020-11-03 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种智能语义检索方法、系统和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113609277B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9870408B2 (en) | Search method and system | |
US8782061B2 (en) | Scalable lookup-driven entity extraction from indexed document collections | |
CN109634698B (zh) | 菜单显示方法、装置、计算机设备及存储介质 | |
US9092725B2 (en) | Classifying attribute data intervals | |
US11651016B2 (en) | System and method for electronic text classification | |
CN108363729A (zh) | 一种字符串比较方法、装置、终端设备及存储介质 | |
CN111859004A (zh) | 检索图像的获取方法、装置、设备及可读存储介质 | |
Huang et al. | Improving the relevancy of document search using the multi-term adjacency keyword-order model | |
CN112434158A (zh) | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 | |
CN104615723B (zh) | 查询词权重值的确定方法和装置 | |
CN111415196A (zh) | 一种广告召回方法、装置、服务器及存储介质 | |
Beliakov et al. | Application of rank correlation, clustering and classification in information security | |
Jivani | The novel k nearest neighbor algorithm | |
CN110008407B (zh) | 一种信息检索方法及装置 | |
CN113609277B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
Allias et al. | A hybrid gini pso-svm feature selection based on taguchi method: an evaluation on email filtering | |
Vadicamo et al. | Re-ranking via local embeddings: A use case with permutation-based indexing and the nSimplex projection | |
CN114610859A (zh) | 基于内容与协同过滤的产品推荐方法、装置及设备 | |
CN113609278B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
Yazdani et al. | RPCA: a novel preprocessing method for PCA | |
Deng et al. | Two odds-radio-based text classification algorithms | |
Zadeh et al. | Random manhattan indexing | |
CN112182264A (zh) | 地标信息的确定方法、装置、设备及可读存储介质 | |
CN116881437B (zh) | 一种获取文本集的数据处理系统 | |
Shishibori et al. | An improved method to select candidates on metric index vp-tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |