CN113535805B - 数据挖掘方法及相关装置和电子设备、存储介质 - Google Patents
数据挖掘方法及相关装置和电子设备、存储介质 Download PDFInfo
- Publication number
- CN113535805B CN113535805B CN202110674107.4A CN202110674107A CN113535805B CN 113535805 B CN113535805 B CN 113535805B CN 202110674107 A CN202110674107 A CN 202110674107A CN 113535805 B CN113535805 B CN 113535805B
- Authority
- CN
- China
- Prior art keywords
- data
- mining
- session data
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000003993 interaction Effects 0.000 claims abstract description 115
- 238000005065 mining Methods 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims description 46
- 238000012360 testing method Methods 0.000 claims description 40
- 230000008859 change Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 25
- 239000013598 vector Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Fuzzy Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据挖掘方法及相关装置和电子设备、存储介质,其中,数据挖掘方法包括:获取与预设交互流程相关的数据库;其中,数据库包括若干第一会话数据;获取若干第一会话数据中第一词语的属性特征;其中,属性特征包括与预设交互流程相关的若干种属性的特征表示;利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。上述方案,能够提高数据挖掘的质量。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种数据挖掘方法及相关装置和电子设备、存储介质。
背景技术
随着信息化建设的飞速发展,数据在各行各业发挥着越来越重要的作用。在此其中,人人交互、人机交互等交互场景中通常存在挖掘会话数据的需求,以此来实现交互流程验证等诸多应用。然而,传统数据挖掘方式仍然存在数据挖掘误差较大的问题,从而不利于利用其实现上述诸多应用。有鉴于此,如何提高数据挖掘的质量成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种数据挖掘方法及相关装置和电子设备、存储介质,能够提高数据挖掘的质量。
为了解决上述技术问题,本申请第一方面提供了一种数据挖掘方法,包括:获取与预设交互流程相关的数据库;其中,数据库包括若干第一会话数据;获取若干第一会话数据中第一词语的属性特征;其中,属性特征包括与预设交互流程相关的若干种属性的特征表示;利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。
为了解决上述技术问题,本申请第二方面提供了一种数据挖掘装置,包括:数据获取模块、属性获取模块、网络训练模块和数据选择模块,数据获取模块用于获取与预设交互流程相关的数据库;其中,数据库包括若干第一会话数据;属性获取模块用于获取若干第一会话数据中第一词语的属性特征;其中,属性特征包括与预设交互流程相关的若干种属性的特征表示;网络训练模块用于利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;数据选择模块用于利用数据挖掘模型,从语料库选择第二会话数据作为挖掘会话数据。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的数据挖掘方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的数据挖掘方法。
上述方案,获取与预设交互流程相关的数据库,且数据库包括若干第一会话数据,并获取若干第一会话数据中第一词语的属性特征,且属性特征包括与预设交流流程相关的若干种属性的特征表示,在此基础上,再利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型,并利用数据挖掘模型从语料库中选择第二会话数据作为挖掘会话数据,由于属性特征包括与预设交互流程相关的若干种属性的特征表示,即能够从与预设交互流程相关的多个维度来描述属性特征,有利于尽可能全面且准确地描述属性特征,从而提高数据挖掘模型的挖掘性能,进而在通过数据挖掘模型从语料库中进行数据挖掘过程中,能够提高数据挖掘的质量。
附图说明
图1是本申请数据挖掘方法一实施例的流程示意图;
图2是预设交互流程一实施例的流程示意图;
图3是训练预设挖掘网络一实施例的示意图;
图4是本申请数据挖掘方法另一实施例的流程示意图;
图5是本申请数据挖掘方法又一实施例的流程示意图;
图6是迭代挖掘一实施例的示意图;
图7是本申请数据挖掘方法又一实施例的流程示意图;
图8是迭代挖掘另一实施例的示意图;
图9是本申请数据挖掘装置一实施例的框架示意图;
图10是本申请电子设备一实施例的框架示意图;
图11是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请数据挖掘方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S11:获取与预设交互流程相关的数据库。
在一个实施场景中,预设交互流程可以根据实际应用场景进行设置。例如,在预设交互流程为“账单分期”的情况下,预设交互流程可以包括但不限于:账单分期的选择、分期手续费的查询、分期金额不符合需求等各种情况。请结合参阅图2,图2是预设交互流程一实施例的流程示意图。具体来说,图2是账单分期交互流程一实施例的流程示意图,如图2所示,在账单分期的交互流程中,存在多条交互路径。例如,其中一条交互路径,在开始执行“分期金额、期数”的流程节点之后,先输出“请问您需要办理的账单分期金额是多少……支持3,6,9,12,18,24期”,并执行“全景导航”,判断识别未成功之后,即重新回到“分期金额、期数”的流程节点;或者,在另外一条交互路径,在开始执行“分期金额、期数”的流程节点之后,先输出“请问您需要办理的账单分期金额是多少……支持3,6,9,12,18,24期”,并执行“全景导航”,判断识别成功之后,识别结果为咨询期数手续费,执行“咨询期数手续费”的流程节点,其他交互路径可以参阅图2,在此不再一一举例。此外,在预设交互流程为其他交互流程的情况下,可以以此类推,在此不再一一举例。
本公开实施例中,数据库包括若干第一会话数据。需要说明的是,若干可以是一个,也可以是两个,还可以多于两个,如三个、四个等等,在此不做限定。为了提高后续训练质量,数据库所含的第一会话数据可以尽可能地多。此外,每一第一会话数据可以包含至少一个第一语句,而每一第一语句可以包含至少一个第一词语。
在一个实施场景中,第一会话数据可以仅包括一个第一语句,即第一会话数据可以为单独的一句话。以预设交互流程为“账单分期为例”,第一会话数据可以包括“请问您需要办理的账单分期金额是多少?分多少期?目前我行信用卡账单分期业务支持3,6,9,12,18,24期”。其他交互流程可以以此类题,在此不再一一举例。
在一个实施场景中,第一会话数据可以包括多个第一语句,即第一会话数据可以为一通对话。仍以预设交互流程为“账单分期为例”,第一会话数据可以包括:“请问您需要办理的账单分期金额是多少?分多少期?目前我行信用卡账单分期业务支持3,6,9,12,18,24期”、“不办理”、“本次分期未成功,如需办理,您可以于还款日前申请办理,再见!”。其他交互流程可以以此类推,在此不再一一举例。
在一个实施场景中,可以先获取与预设交互流程相关的原始库,且原始库包含若干原始会话数据,且原始库所包含的若干原始会话数据可以覆盖预设交互流程的各个交互节点,以覆盖预设交互流程所涉及到的全部交互路径。在此基础上,可以按照一定比例(如,9:1)划分原始库,得到数据库以及测试库。需要说明的是,关于“若干”的含义,可以参阅前述相关描述,在此不再赘述。此外,数据库用于后续训练预设挖掘网络,而测试库用于测试训练所得的数据挖掘模型,训练以及测试的具体过程,可以参阅下述相关描述,在此暂不赘述。由此可见,本申请公开实施例对于数据库的完备性要求相对较低,仅需满足覆盖预设交互流程的各个节点即可,故在获取数据库过程中,能够有效减少数据筛选耗时,提高数据挖掘效率。
在一个具体的实施场景中,原始库可以通过收集与预设交互流程相关的测试用例、交互会话而得到。
在另一个具体的实施场景中,为了便于后续使用会话数据,可以将会话数据进行预处理,如:过滤空格、符号等。在此基础上,可以进一步将会话数据整理为标准格式,即各个会话数据以空行隔开,且不同会话数据标注以不同标识。例如:
qid:1A:……
qid:1B:……
qid:1A:……
qid:1B:……
qid:1A:……
qid:2A:……
qid:2B:……
qid:2A:……
qid:2B:……
qid:3A:……
需要说明的是,qid后面的数字标号用于标识不同的会话数据,而A:……B:……表示A与B之间的对话。此外,若A和B之间有连续的提问或回答(如,A:……A:……B:……B:……),表示提问或回答一句话没有说完,在此情况下,可以将连续的提问或回答合并为一个语句(如,A:……B:……),且合并的语句之间可以采用预设符号(如,逗号)予以连接。此外,若会话数据仅包含一个语句,则该语句可以直接接在qid之后。
在又一个具体的实施场景中,为了便于后续处理会话数据,还可以将会话数据中所包含的各个语句进行分词。例如,可以采用包含但不限于:stanford、hanlp等分词工具进行分词,在此不做限定。
步骤S12:获取若干第一会话数据中第一词语的属性特征。
本公开实施例中,属性特征包括与预设交互流程相关的若干种属性的特征表示。需要说明的是,若干种属性可以是一种属性,也可以是两种属性,还可以是多于两种属性,如三种属性、四种属性等等,在此不做限定。具体地,为了进一步全面且准确地描述属性特征,若干种属性的特征表示可以包括但不限于:上下文特征表示、关键词特征表示、无关词特征表示、句长特征表示、领域特征表示、交互次数特征表示等。此外,也可以仅包含上述一种属性的特征表示,或者,也可以包含上述任意两种属性的特征表示,或者,也可以包含上述三种或三种以上属性的特征表示,在此不做限定。此外,为了便于突显重要属性的特征表示,可以利用上述若干种属性的属性权重分别对若干种属性的特征表示进行加权处理,得到属性特征。例如,可以设置上下文属性的属性权重为0.5,关键词属性的属性权重为0.2,无关词属性的属性权重为0.05,句长属性的属性权重为0.05,领域属性的属性权重为0.1,交互次数属性的属性权重为0.1,在此基础上,针对每一第一词语可以分别获取其上下文特征表示、关键词特征表示、无关词特征表示、句长特征表示、领域特征表示和交互次数特征表示,并利用上述属性权重对上述特征表示进行加权处理,得到该第一词语的属性特征。
在一个实施场景中,可以采用ELMo(Embeddings from Language Models)等语言网络获取第一词语的上下文特征表示。以ELMo为例,其可以将整个语句输入以计算词嵌入(即embedding),故每个词具有不同的原始词向量,组成每个句式也具有不同的句向量,且由于不同的句向量之间存在词语联系,故能够表示上下文信息,以使得同一词语在不同语境中表现不同含义。上下文特征表示的详细提取过程,可以参阅诸如ELMo等语言网络的相关技术细节,在此不再赘述。
在一个实施场景中,如前所述,通过诸如ELMo等语言网络可以获取各个第一词语的原始词向量。基于此可以计算得到每个第一词语原始词向量的相似度,在相似度高于第一阈值的情况下,可以将该第一词语作为相似词,并统计每个相似词在数据库中出现的频度,以及在相似词的频度低于第二阈值且相似词出现于数据库中每个第一会话数据的情况下,可以将该相似词作为关键词。在此基础上,对于数据库而言,可以获取N1(如,100)个关键词,则针对每一第一词语,可以从N1个关键词中随机选择M1(如,50)个关键词,并基于选择得到的关键词的向量,得到该第一词语的关键词特征表示。此外,具体可以根据第一词语的特征向量a+所在第一语句前一语句的特征向量q,以及第一会话数据中其他语句中任一第一词语的特征向量a-,得到相似度L:
L=max{0,M-cosine(q,a+)+cosine(q,a-)}……(1)
上述公式(1)中,max{A,B}表示取A和B中的最大值,cosine(C,D)表示计算C和D之间的余弦相似度。需要说明的是,特征向量a+和特征向量a-可以基于原始词向量得到,而前一语句的特征向量q可以基于前一语句中各个第一词语的原始词向量得到。
在一个实施场景中,在相似词的频度高于第三阈值的情况下,可以将该相似词作为无关词。例如,可以确定相似词“的”、“啊”、“哈”等无关词。在此基础上,对于数据库而言,可以获取N2(如,20)个无关词,则对于每一词语而言,可以从N2个关键词中随机选择M2(如,10)个无关词,并基于选择得到的无关词的向量,得到该第一词语的无关词特征表示。
在一个实施场景中,如前所述,通过诸如ELMo等语言网络,可以得到数据库中第一会话数据中各个第一词语的原始词向量,并获取各个第一语句的句向量,在此基础上,可以统计每个句向量的长度,并通过分布计算或取平均值,得到句长特征表示。例如,通过统计可以发现有超过第四阈值(如,30%)的句向量长度为K1,则可以据此得到句长特征表示;或者,可以通过统计发现数据库中句向量长度的均值为K2,则可以据此可以得到句长特征表示。
在一个实施场景中,如前所述,对于数据库而言,可以获取取N1(如,100)个关键词以及各个关键词的相似度,则可以按照相似度由高到低的顺序,选取位于前预设序位(如,20)的关键词,并基于选择得到的关键词的向量,得到领域特征表示。例如,对于与流量办理的交互流程相关的数据库而言,通过上述方式可以选择得到如下关键词:流量、资费、GB等,则可以基于上述关键词的向量,得到领域特征表示;或者,对于与银行卡业务的交互流程相关的数据库而言,通过上述方式可以选择得到如下关键词:账单分期、挂失、吞卡等,则可以基于上述关键词的向量,得到领域特征表示,其他场景可以以此类推,在此不再一一举例。由此可见,通过选择相似度位于前预设序位的关键词,可以显著代表交互流程所在领域(如,运营商领域、金融领域等),以提高领域特征表示的准确性。
在一个实施场景中,如前所述,数据库中不同会话数据采用空行隔开,且采用A:……B:……的表述形式来表示一问一答一次交互,故可以通过正则方式,据此统计得到每一会话数据的交互次数。在此基础上,可以通过分布计算或取平均值,得到交互次数特征表示。例如,可以通过统计发现有超过第五阈值(如,40%)的交互次数为J1,则可以据此得到交互次数特征表示;或者,可以通过统计发现数据库中交互次数的均值为J2,则可以据此得到交互次数特征表示。
需要说明的是,原始词向量可以利用字符级卷积神经网络(ConvolutionalNeural Network,CNN)得到。具体提取过程,可以参阅字符级卷积神经网络的技术细节,在此不再赘述。
在一个实施场景中,属性权重是在若干组候选权重中选择得到的,且每组候选权重均包括若干种属性的候选权重。需要说明的是,关于“若干”的具体含义,可以参阅前述相关描述,在此不再赘述。此外,为了尽可能地提高属性权重的准确性,候选权重的组数可以设置地尽可能地大。例如,可以预先设置N组候选权重,为了便于描述,可以将第i组候选权重记为Wi,则第i组候选权重Wi可以包括:上下文属性的候选权重关键词属性的候选权重/>无关词属性的候选权重/>句长属性的候选权重/>领域属性的候选权重交互次数属性的候选权重/>在若干组候选权重中选择属性权重的具体过程,可以参阅下述相关描述,在此暂不赘述。
在一个实施场景中,也可以基于数据库预先获取各个第一词语若干种属性的第一样本特征表示,并标注其实际属性类别,例如,可以预先获取上下文特征表示,并标注其属性类别“上下文属性”;预先获取关键词特征表示,并标注其属性类别“关键词属性”;预先获取无关词特征表示,并标注其属性类别“无关词属性”;预先获取句长特征表示,并标注其属性类别“无关词属性”;预先获取领域属性特征,并标注其属性类别“领域属性”;预先获取交互次数特征表示,并标注其属性类别“交互次数属性”。在此基础上,分别利用若干种属性的第一样本特征表示训练对应属性的分类器。例如,可以将上下文属性的第一样本特征表示输入上下文属性对应的分类器,得到第一样本特征表示的预测属性类别,并基于实际属性类别与预测属性类别之间的差异,调整上下文属性对应的分类器的网络参数;其他属性类别对应的分类器的训练过程,可以以此类推,在此不再一一举例。之后,可以基于测试库获取测试库中各个第三词语若干种属性的第二样本特征表示,并标注其实际属性类别,具体过程可以参阅前述第一样本特征表示,在此不再赘述。在此基础上,可以将若干种属性的第二样本特征表示输入对应属性的分类器,得到预测属性类别,并基于预测属性类别与实际属性类别,统计每种属性对应的分类器准确分类的总次数。为了便于描述,可以将第i种属性对应的分类器准确分类的总次数记为counti,并对若干种属性分别对应的总次数进行归一化处理,得到每种属性对应的属性权重。例如,通过上述方式,最终可以得到上下文属性对应的属性权重0.5、关键词属性对应的属性权重0.2、无关词属性对应的属性权重0.05、句长属性对应的属性权重0.05、领域属性对应的属性权重0.1和交互次数属性对应的属性权重0.1。需要说明的是,上述属性权重的具体数值,仅仅是实际应用过程中可能存在的一种情况,并不因此而限定属性权重的具体数值。
步骤S13:利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型。
在一个实施场景中,预设挖掘网络可以包括预设语义提取网络,且数据挖掘模型包括语义特征提取模型。需要说明的是,预设挖掘网络与数据挖掘模型具有相同网络结构,不同之处在于,在训练过程中,预设挖掘网络的网络参数逐渐优化调整直至收敛,此时即可将训练收敛的预设挖掘网络视为数据挖掘模型。类似地,预设语义提取网络与语义特征提取模型也具有相同网络结构,不同之处在于,在训练过程中,预设语义提取网络的网络参数逐渐优化调整直至收敛,此时即可将训练收敛的预设语义提取网络视为语义特征提取模型。此外,预设语义提取网络可以包括但不限于:ELMo、BERT(Bidirectional EncoderRepresentations from Transformers)等,在此不做限定。
在一个具体的实施场景中,请结合参阅图3,图3是训练预设挖掘网络一实施例的示意图。如图3所示,以预设语义提取网络包括ELMo为例,各个第一词语的属性特征经过双层双向语言模型(two-layer bidirectional language model,biLM)的一层处理之后,可以得到中间特征,中间特征经双层双向语言模型的第二层处理之后,又可以得到中间特征,在此基础上,可以分别基于每一第一词语的属性特征以及两个中间特征,得到第一词语的最终特征(即ELMo表示)。具体训练过程,可以参阅ELMo相关技术细节,在此不再赘述。
在另一个具体的实施场景中,请继续结合参阅图3,双层双向语言模型共包含两层,每一层均包含前向和后向两种迭代。在第一层的前向迭代之后,能够使得每一第一词语迭代后的特征信息包含其本身的属性特征信息以及该第一词语之前的若干第一词语的属性特征信息或语境信息,而在第一层的后向迭代之后,能够使得每一第一词语迭代后的特征信息又包含位于其之后的第一词语的属性特征信息,这两种迭代的信息组成了第一词语的中间特征。进一步地,第一词语的中间特征又继续送入第二层的前向迭代和后向迭代,得到第二层对应的中间特征。最终特征(即ELMo表示)可以是第一词语的属性特征和两个中间特征的加权之和。
在一个实施场景中,如前所述,属性权重是在若干组候选权重中选择得到的,且每组候选权重均包括若干种属性的候选权重。故可以参考上述训练过程,对于每组候选权重而言,可以利用若干种属性的候选权重分别对第一词语的若干种属性的特征表示进行加权处理,得到第一词语的加权特征,并利用若干第一会话数据种第一词语的加权特征训练预设挖掘网络,得到候选数据挖掘模型。具体训练过程可以参阅前述相关描述,在此不再赘述。在此基础上,可以利用测试库分别对每组候选权重对应的候选数据挖掘模型进行测试,得到每组候选权重对应的测试结果,且测试库与预设交互流程相关,测试库包括若干第三会话数据。测试库的具体获取方式,可以参阅前述相关描述,在此不再赘述,关于“若干”的具体含义,可以参阅前述相关描述,在此不再赘述。基于此,可以基于测试结果,选择一组候选权重,得到若干种属性的属性权重。上述方式,通过分别利用每组候选权重,训练出对应的候选数据挖掘模型,并利用测试库对各个候选数据挖掘模型进行性能测试,从而基于测试结果,选择一组候选权重得到若干种属性的属性权重,能够有利于提高属性权重的准确性。
在一个具体的实施场景中,可以利用候选数据挖掘模型在测试库进行数据挖掘,并统计其数据挖掘的准确率和召回率中至少一者,以此作为测试结果。利用候选数据挖掘模型进行数据挖掘的具体过程,可以参阅下述关于利用数据挖掘模型在语料库进行数据挖掘的相关描述,在此暂不赘述。
在另一个具体的实施场景中,可以选取最优的测试结果对应的一组候选权重,得到若干种属性的属性权重。
步骤S14:利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。
具体地,如前所述,预设挖掘网络包括预设语义提取网络,且数据挖掘模型包括语义特征提取模型,则可以利用若干第一会话数据中第一词语的属性特征训练预设语义提取网络,得到语义特征提取模型,具体过程可以参阅前述相关描述,在此不再赘述。在此基础上,可以利用语义特征提取模型提取第一会话中第一词语的第一词语特征和第二会话数据中第二词语的第二词语特征,并基于第一词语特征和第二词语特征,从语料库中选择第二会话数据作为挖掘会话数据。需要说明的是,语料库可以包含若干第二会话数据,其组织形式可以参阅前述数据库的组织形式,以及关于“若干”的具体含义,具体可以参阅前述相关描述,在此不再赘述。上述方式,通过语义特征提取模型提取第一会话数据中第一词语的第一词语特征和第二会话数据中第二词语的第二词语特征,并基于第一词语特征和第二词语特征,从语料库中选择第二会话数据作为挖掘会话数据,能够有利于从语义层面来进行数据挖掘,从而能够有利于进一步提高数据挖掘的质量。
在一个实施场景中,语料库中若干第二会话数据可以来源于不同领域不同范围的人人交互数据、人机交互数据,第二会话数据可以是线上真实数据,也可以是用户自制数据,还可以是厂商提供的数据,当然也可以是上述几种数据的组合,在此不做限定。与数据库类似地,语料库中第二会话数据可以包括至少一个第二语句,如可以仅包含一个第二语句,或者也可以包含多个第二语句,在此不做限定。
在一个实施场景中,第一会话数据可以包含至少一个第一语句,且每一第一语句可以包含至少一个第一词语,类似地,第二会话数据可以包含至少一个第二语句,且每一第二语句可以包含至少一个第二词语,故可以基于第一语句中各个第一词语的第一词语特征,得到第一词语的第一语句特征,并基于第二语句中各个第二词语的第二词语特征,得到第二语句的第二语句特征。在此基础上,对于每一第二会话数据,可以基于至少一个第二语句特征分别与第一语句特征之间的相似度,得到各个第二语句的语句相似分值,并统计第二会话数据中各个第二语句的语句相似分值,得到第二会话数据的会话相似分值,从而可以基于各个第二会话数据的会话相似分值,选择至少一个第二会话数据作为挖掘会话数据。上述方式,通过各个第一词语的第一词语特征,得到第一语句的第一语句特征,并通过各个第二词语的第二词语特征,得到第二语句的第二语句特征,从而对于每一第二会话数据,基于第一语句特征和第二语句特征得到语句相似分值,以及统计语句相似分值,得到第二会话数据的会话相似分值,进而基于会话相似分值选择得到挖掘会话数据,以此从词语、语句至会话层层递进,能够有利于进一步提高数据挖掘质量。
在一个具体的实施场景中,可以将第一语句中各个第一词语的第一词语特征进行组合,得到第一语句的第一语句特征,并将第二语句中各个第二词语的第二词语特征进行组合,得到第二语句的第二语句特征。
在另一个具体的实施场景中,以第二会话数据包含N个第二语句为例,对于第i个第二语句而言,可以利用其第二语句特征分别与各个第一语句的第一语句特征计算相似度(如,余弦相似度),并基于最高相似度得到第i个第二语句的语句相似分值。其他第二语句可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,在得到第二会话数据中各个第二语句的语句相似分值之后,可以对第二会话数据中各个第二语句的语句相似分值进行加权处理,得到第二会话数据的会话相似分值。例如,可以对第二会话数据中各个第二语句的语句相似分值进行加权平均,得到第二会话数据的会话相似分值。上述方式,通过对第二会话数据中各个第二语句的语句相似分值进行加权处理,得到第二会话数据的会话相似分值,能够综合考量第二会话数据中各个第二语句的语句相似分值,有利于提高会话相似分值的准确性。
在又一个具体的实施场景中,在得到语料库中各个第二会话数据的会话相似分值之后,可以将若干第二会话数据按照会话相似分值由高到低的顺序进行排序,并选择位于前预设序位(如,前1位、前5位等)的第二会话数据作为挖掘会话数据。上述方式,通过将若干第二会话数据按照会话相似分值由高到低的顺序进行排序,并选择位于前预设序位的第二会话数据作为挖掘会话数据,能够优先选择会话相似分值较高的第二会话数据,有利于进一步提高数据挖掘质量。
上述方案,获取与预设交互流程相关的数据库,且数据库包括若干第一会话数据,并获取若干第一会话数据中第一词语的属性特征,且属性特征包括与预设交流流程相关的若干种属性的特征表示,在此基础上,再利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型,并利用数据挖掘模型从语料库中选择第二会话数据作为挖掘会话数据,由于属性特征包括与预设交互流程相关的若干种属性的特征表示,即能够从与预设交互流程相关的多个维度来描述属性特征,有利于尽可能全面且准确地描述属性特征,从而提高数据挖掘模型的挖掘性能,进而在通过数据挖掘模型从语料库中进行数据挖掘过程中,能够提高数据挖掘的质量。
请参阅图4,图4是本申请数据挖掘方法另一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S41:获取与预设交互流程相关的数据库。
本公开实施例中,数据库包括若干第一会话数据。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S42:获取若干第一会话数据中第一词语的属性特征。
本公开实施例中,属性特征包括与预设交互流程相关的若干种属性的特征表示。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S43:利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S44:利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S45:响应于挖掘会话数据满足预设条件,将挖掘会话数据作为新的第一会话数据添加至数据库。
具体地,预设条件可以包括挖掘会话数据符合预设交互流程,即在挖掘会话数据符合预设交互流程的情况下,可以将挖掘会话数据作为新的第一会话数据添加至数据库。仍以账单分期的预设交互流程为例,挖掘会话数据可以包括:“请问您需要办理的账单分期金额是多少?……目前我行信用卡账单分期业务的账期支持3,6,9,12,18,24期”、“请输入数字键选择业务,咨询期数手续费请按1……”、“您选择咨询期数手续费,客服接入中请稍等”,“您好,我咨询一下3期的手续费怎么算呢”、“先生您好,请问您分期金额是XXXX元吗”。请结合参阅图2,上述挖掘会话数据符合图2所示的预设交互流程。反之,挖掘会话数据可以包括:“欢迎致电XX省电信客服,话费查询请按1……”。请结合参阅图2,上述挖掘会话数据并不符合图2所示的预设交互流程。
上述方案,在选择到挖掘会话数据之后,进一步校验其是否满足预设条件,并在满足预设条件的情况下,将其作为新的第一会话数据添加至数据库,能够有利于进一步提高数据挖掘质量。
请参阅图5,图5是本申请数据挖掘方法又一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S51:获取与预设交互流程相关的数据库。
本公开实施例中,数据库包括若干第一会话数据。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S52:获取若干第一会话数据中第一词语的属性特征。
本公开实施例中,属性特征包括与预设交互流程相关的若干种属性的特征表示。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S53:利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S54:利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S55:响应于挖掘会话数据满足预设条件,将挖掘会话数据作为新的第一会话数据添加至数据库。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S56:重新执行步骤S52以及后续步骤。
需要说明的是,本公开实施例,通过不断迭代以从语料库中不断挖掘出新的第一会话数据,以不断填充数据库。在此情况下,在挖掘到新的第一会话数据的情况下,可以在语料库中同步删除该会话数据。此外,如前述公开实施例所述,可以获取种子库,并按照预设比例划分种子库得到数据库和测试库,在此情况下,可以将新的第一会话数据添加到种子库,并按照预设比例划分种子库,得到新的数据库和新的测试库,以及重新执行上述步骤S52以及后续步骤。
请结合参阅图6,图6是迭代挖掘一实施例的示意图。如图6所示,针对预设交互流程A,可以先获取与其相关的种子库,为了区分不同迭代过程的种子库,可以将其称之为种子库A1,将种子库A1按照预设比例划分为数据库和测试库,并利用数据库和多组候选权重训练得到候选语义特征提取模型,以及利用测试库校验多个候选语义特征提取模型的测试结果,以选择出一组候选权重作为属性权重,并基于数据库和属性权重训练得到语义特征提取模型,为了区分不同迭代过程的语义特征提取模型,可以将其称之为语义特征提取模型A1,利用语义特征提取模型A1在语料库中挖掘得到第一会话数据A1,并将其添加至种子库A2,此外,为了区分不同迭代过程的语料库,可以将其称之为语料库1,并将剔除新的第一会话数据之后的语料库称之为语料库2。第二轮迭代,可以将种子库A按照预设比例划分为数据库和测试库,并以此类推,训练得到语义特征提取模型A2,并利用语义特征提取模型A2在语料库2中挖掘得到第一会话数据A2。在存在第三轮迭代、第四轮迭代等的情况下,可以以此类推,在此不再一一举例。
在一个实施场景中,在连续预设数值次未挖掘到新的第一会话数据的情况下,可以结束迭代挖掘流程。
在另一个实施场景中,在迭代挖掘过程中,还可以统计每次选择得到的挖掘会话数据是否符合预设交互流程,最终可以得到符合预设交互流程的挖掘会话数据的第一数量,以及不符合预设交互流程的挖掘会话数据的第二数量,基于此可以得到数据挖掘的成功率。在此基础上,可以基于成功率校验预设交互流程。例如,在成功率低于预设阈值的情况下,可以校验种子库是否符合预设交互流程,或者,可以校验预设交互流程是否设计得当,在此不做限定。
上述方案,在从语料库中挖掘到新的第一会话数据之后,重新执行前述相关步骤,以实现迭代数据挖掘,从而能够通过在数据库中不断补入新的第一会话数据来充实数据库,有利于在迭代过程中不断提高模型精度,进而能够在提高数据挖掘效率的基础上,不断提升数据挖掘质量。
请参阅图7,图7是本申请数据挖掘方法又一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S71:获取与预设交互流程相关的数据库。
本公开实施例中,数据库包括若干第一会话数据。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S72:获取若干第一会话数据中第一词语的属性特征。
本公开实施例中,属性特征包括与预设交互流程相关的若干种属性的特征表示。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S73:利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S74:利用数据挖掘模型,从语料库中选择第二会话数据作为挖掘会话数据。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S75:响应于挖掘会话数据满足预设条件,将挖掘会话数据作为新的第一会话数据添加至数据库。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S76:响应于预设交互流程发生变化,重新执行获取若干第一会话数据中第一词语的属性特征的步骤以及后续步骤。
需要说明的是,本公开实施例,在预设交互流程发生变化的情况下,通过重新执行前述相关步骤,以挖掘符合变化后的预设交互流程的会话数据。在此情况下,在前述步骤S75中,可以在语料库中同步删除该会话数据。此外,如前述公开实施例所述,可以获取种子库,并按照预设比例划分种子库得到数据库和测试库,在此情况下,可以将新的第一会话数据添加到种子库,并按照预设比例划分种子库,得到新的数据库和新的测试库,以及重新执行上述步骤S52以及后续步骤。此外,在预设交互流程的交互顺序发生变化,或者预设交互流程中增加新的交互流程,或者,预设交互流程新增用例的情况下,可以认为预设交互流程发生变化。
请结合参阅图8,图8是迭代挖掘另一实施例的示意图。如图8所示,在如图6所示的第二轮迭代之后,预设交互流程发生变化,为了区分变化前的预设交互流程和变化后的预设交互流程,可以将变化后的预设交互流程称之为预设交互流程B,并将语料库2中剔除第一会话数据A2之后的语料库称之为语料库B1,以及将种子库A2中添加第一会话数据A2之后的种子库称之为种子库B1。在此基础上,可以按照预设比例将种子库B1划分得到数据库和测试库,并利用数据库训练得到语义特征提取模型B1,以及利用语义特征提取模型从语料库3中挖掘到第一会话数据B1,并将第一会话数据B1添加至种子库B1,得到种子库B2。在存在第二轮迭代、第三轮迭代等的情况下,可以以此类推,在此不再一一举例。
上述方案,在预设交互流程发生变化的情况下,重新进行数据挖掘,以挖掘得到符合变化后的预设交互流程的会话数据,有利于智能化地自适应于预设交互流程的变化,有利于提高数据挖掘的多样性。
请参阅图9,图9是本申请数据挖掘装置90一实施例的框架示意图。挖掘装置90包括:数据获取模块91、属性获取模块92、网络训练模块93和数据选择模块94,数据获取模块91用于获取与预设交互流程相关的数据库;其中,数据库包括若干第一会话数据;属性获取模块92用于获取若干第一会话数据中第一词语的属性特征;其中,属性特征包括与预设交互流程相关的若干种属性的特征表示;网络训练模块93用于利用若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;数据选择模块94用于利用数据挖掘模型,从语料库选择第二会话数据作为挖掘会话数据。
上述方案,由于属性特征包括与预设交互流程相关的若干种属性的特征表示,即能够从与预设交互流程相关的多个维度来描述属性特征,有利于尽可能全面且准确地描述属性特征,从而提高数据挖掘模型的挖掘性能,进而在通过数据挖掘模型从语料库中进行数据挖掘过程中,能够提高数据挖掘的质量。
在一些公开实施例中,若干种属性的特征表示包括:上下文特征表示、关键词特征表示、无关词特征表示、句长特征表示、领域特征表示、交互次数特征表示中的至少一者。
因此,将若干种属性的特征表示设置为包括:上下文特征表示、关键词特征表示、无关词特征表示、句长特征表示、领域特征表示、交互次数特征表示中的至少一者,能够有利于进一步全面且准确地描述属性特征。
在一些公开实施例中,属性特征是利用若干种属性的属性权重分别对若干种属性的特征表示进行加权处理得到的,且属性权重是在若干组候选权重中选择得到的,每组候选权重均包括若干种属性的候选权重。
因此,属性特征是利用若干种属性的属性权重分别对若干种属性的特征表示进行加权处理得到的,能够有利于突显重要属性的特征表示,且由于属性权重是在若干组候选权重中选择得到的,每组候选权重均包括若干种属性的候选权重,能够有利于提高属性权重的准确性。
在一些公开实施例中,数据挖掘装置90还包括候选模型获取模块,用于对于每组候选权重,利用若干种属性的候选权重分别对第一词语的若干种属性的特征表示加权处理,得到第一词语的加权特征,并利用若干第一会话数据中第一词语的加权特征训练预设挖掘网络,得到候选数据挖掘模型;数据挖掘装置90还包括模型性能测试模块,用于利用测试库分别对每组候选权重对应的候选数据挖掘模型进行测试,得到各组候选权重对应的测试结果;其中,测试库与预设交互流程相关,且测试库包括若干第三会话数据;数据挖掘装置90还包括属性权重确定模块,用于基于测试结果,选择一组候选权重,得到若干种属性的属性权重。
因此,通过分别利用每组候选权重,训练出对应的候选数据挖掘模型,并利用测试库对各个候选数据挖掘模型进行性能测试,从而基于测试结果,选择一组候选权重得到若干种属性的属性权重,能够有利于提高属性权重的准确性。
在一些公开实施例中,预设挖掘网络包括预设语义提取网络,且数据挖掘模型包括语义特征提取模型;网络训练模块93具体用于利用若干第一会话数据中第一词语的属性特征训练预设语义提取网络,得到语义特征提取模型;数据选择模块94包括特征提取子模块,用于利用语义特征提取模型提取第一会话数据中第一词语的第一词语特征和第二会话数据中第二词语的第二词语特征;数据选择模块94包括数据选择子模块,用于基于第一词语特征和第二词语特征,从语料库中选择第二会话数据作为挖掘会话数据。
因此,通过语义特征提取模型提取第一会话数据中第一词语的第一词语特征和第二会话数据中第二词语的第二词语特征,并基于第一词语特征和第二词语特征,从语料库中选择第二会话数据作为挖掘会话数据,能够有利于从语义层面来进行数据挖掘,从而能够有利于进一步提高数据挖掘的质量。
在一些公开实施例中,第一会话数据包含至少一个第一语句,每一第一语句包含至少一个第一词语,且第二会话数据包含至少一个第二语句,每一第二语句包含至少一个第二词语;数据选择子模块包括语句特征获取单元,用于基于第一语句中各个第一词语的第一词语特征,得到第一语句的第一语句特征,并基于第二语句中各个第二词语的第二词语特征,得到第二语句的第二语句特征;数据选择子模块包括相似分值计算单元,用于对于每一第二会话数据,基于至少一个第二语句的第二语句特征分别与第一语句特征之间的相似度,得到各个第二语句的语句相似分值,并统计第二会话数据中各个第二语句的语句相似分值,得到第二会话数据的会话相似分值;数据选择子模块包括会话数据选择单元,用于基于各个第二会话数据的会话相似分值,选择至少一个第二会话数据分别作为挖掘会话数据。
因此,通过各个第一词语的第一词语特征,得到第一语句的第一语句特征,并通过各个第二词语的第二词语特征,得到第二语句的第二语句特征,从而对于每一第二会话数据,基于第一语句特征和第二语句特征得到语句相似分值,以及统计语句相似分值,得到第二会话数据的会话相似分值,进而基于会话相似分值选择得到挖掘会话数据,以此从词语、语句至会话层层递进,能够有利于进一步提高数据挖掘质量。
在一些公开实施例中,相似分值计算单元具体用于对第二会话数据中各个第二语句的语句相似分值进行加权处理,得到第二会话数据的会话相似分值。
因此,通过对第二会话数据中各个第二语句的语句相似分值进行加权处理,得到第二会话数据的会话相似分值,能够综合考量第二会话数据中各个第二语句的语句相似分值,有利于提高会话相似分值的准确性。
在一些公开实施例中,会话数据选择单元具体用于将若干第二会话数据按照会话相似分值由高到低的顺序进行排序;并选择位于前预设序位的第二会话数据分别作为挖掘会话数据。
因此,通过将若干第二会话数据按照会话相似分值由高到低的顺序进行排序,并选择位于前预设序位的第二会话数据作为挖掘会话数据,能够优先选择会话相似分值较高的第二会话数据,有利于进一步提高数据挖掘质量。
在一些公开实施例中,数据挖掘装置90还包括数据校验模块,用于响应于挖掘会话数据满足预设条件,将挖掘会话数据作为新的第一会话数据添加至数据库。
因此,在选择到挖掘会话数据之后,进一步校验其是否满足预设条件,并在满足预设条件的情况下,将其作为新的第一会话数据添加至数据库,能够有利于进一步提高数据挖掘质量。
在一些公开实施例中,数据挖掘装置90还包括第一迭代模块,用于重新执行获取若干第一会话数据中第一词语的属性特征的步骤以及后续步骤。
因此,在从语料库中挖掘到新的第一会话数据之后,重新执行前述相关步骤,以实现迭代数据挖掘,有利于提高数据挖掘的自动化程度,提高数据挖掘效率。
在一些公开实施例中,数据挖掘装置90还包括第二迭代模块,用于响应于预设交互流程发生变化,重新执行获取若干第一会话数据中第一词语的属性特征的步骤以及后续步骤。
因此,在预设交互流程发生变化的情况下,重新进行数据挖掘,以挖掘得到符合变化后的预设交互流程的会话数据,有利于智能化地自适应于预设交互流程的变化,有利于提高数据挖掘的多样性。
请参阅图10,图10是本申请电子设备100一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102,存储器101中存储有程序指令,处理器102用于执行程序指令以实现上述任一数据挖掘方法实施例中的步骤。具体地,电子设备100可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一数据挖掘方法实施例中的步骤。处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
上述方案,由于属性特征包括与预设交互流程相关的若干种属性的特征表示,即能够从与预设交互流程相关的多个维度来描述属性特征,有利于尽可能全面且准确地描述属性特征,从而提高数据挖掘模型的挖掘性能,进而在通过数据挖掘模型从语料库中进行数据挖掘过程中,能够提高数据挖掘的质量。
请参阅图11,图11是本申请计算机可读存储介质110一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令111,程序指令111用于实现上述任一数据挖掘方法实施例中的步骤。
上述方案,由于属性特征包括与预设交互流程相关的若干种属性的特征表示,即能够从与预设交互流程相关的多个维度来描述属性特征,有利于尽可能全面且准确地描述属性特征,从而提高数据挖掘模型的挖掘性能,进而在通过数据挖掘模型从语料库中进行数据挖掘过程中,能够提高数据挖掘的质量。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (13)
1.一种数据挖掘方法,其特征在于,包括:
获取与预设交互流程相关的数据库;其中,所述数据库包括若干第一会话数据;
获取所述若干第一会话数据中第一词语的属性特征;其中,所述属性特征包括与所述预设交互流程相关的若干种属性的特征表示;
利用所述若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;其中,所述预设挖掘网络包括预设语义提取网络,所述数据挖掘模型包括语义特征提取模型,且所述利用所述若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型,包括:利用所述若干第一会话数据中第一词语的属性特征训练所述预设语义提取网络,得到所述语义特征提取模型;
利用所述语义特征提取模型提取所述第一会话数据中所述第一词语的第一词语特征和语料库内第二会话数据中第二词语的第二词语特征,并基于所述第一词语特征和所述第二词语特征,从所述语料库中选择所述第二会话数据作为挖掘会话数据。
2.根据权利要求1所述的方法,其特征在于,所述若干种属性的特征表示包括:上下文特征表示、关键词特征表示、无关词特征表示、句长特征表示、领域特征表示、交互次数特征表示中的至少一者。
3.根据权利要求1所述的方法,其特征在于,所述属性特征是利用所述若干种属性的属性权重分别对所述若干种属性的特征表示进行加权处理得到的,且所述属性权重是在若干组候选权重中选择得到的,每组所述候选权重均包括所述若干种属性的候选权重。
4.根据权利要求3所述的方法,其特征在于,在所述获取所述若干第一会话数据中第一词语的属性特征之前,所述方法还包括:
对于每组所述候选权重,利用所述若干种属性的候选权重分别对所述第一词语的若干种属性的特征表示加权处理,得到所述第一词语的加权特征,并利用所述若干第一会话数据中第一词语的加权特征训练所述预设挖掘网络,得到候选数据挖掘模型;
利用测试库分别对每组所述候选权重对应的候选数据挖掘模型进行测试,得到各组所述候选权重对应的测试结果;其中,所述测试库与所述预设交互流程相关,且所述测试库包括若干第三会话数据;
基于所述测试结果,选择一组所述候选权重,得到所述若干种属性的属性权重。
5.根据权利要求1所述的方法,其特征在于,所述第一会话数据包含至少一个第一语句,每一所述第一语句包含至少一个所述第一词语,且所述第二会话数据包含至少一个第二语句,每一所述第二语句包含至少一个所述第二词语;所述基于所述第一词语特征和所述第二词语特征,从所述语料库中选择所述第二会话数据作为挖掘会话数据,包括:
基于所述第一语句中各个所述第一词语的第一词语特征,得到所述第一语句的第一语句特征,并基于所述第二语句中各个所述第二词语的第二词语特征,得到所述第二语句的第二语句特征;
对于每一所述第二会话数据,基于所述至少一个第二语句的第二语句特征分别与所述第一语句特征之间的相似度,得到各个所述第二语句的语句相似分值,并统计所述第二会话数据中各个所述第二语句的语句相似分值,得到所述第二会话数据的会话相似分值;
基于各个所述第二会话数据的会话相似分值,选择至少一个所述第二会话数据分别作为所述挖掘会话数据。
6.根据权利要求5所述的方法,其特征在于,所述统计所述第二会话数据中各个所述第二语句的语句相似分值,得到所述第二会话数据的会话相似分值,包括:
对所述第二会话数据中各个所述第二语句的语句相似分值进行加权处理,得到所述第二会话数据的会话相似分值。
7.根据权利要求5所述的方法,其特征在于,所述基于各个所述第二会话数据的会话相似分值,选择至少一个所述第二会话数据分别作为所述挖掘会话数据,包括:
将所述若干第二会话数据按照所述会话相似分值由高到低的顺序进行排序;
选择位于前预设序位的第二会话数据分别作为所述挖掘会话数据。
8.根据权利要求1所述的方法,其特征在于,在所述基于所述第一词语特征和所述第二词语特征,从所述语料库中选择所述第二会话数据作为挖掘会话数据之后,所述方法还包括:
响应于所述挖掘会话数据满足预设条件,将所述挖掘会话数据作为新的所述第一会话数据添加至所述数据库。
9.根据权利要求8所述的方法,其特征在于,在所述将所述挖掘会话数据作为新的所述第一会话数据添加至所述数据库之后,所述方法还包括:
重新执行所述获取所述若干第一会话数据中第一词语的属性特征的步骤以及后续步骤。
10.根据权利要求8所述的方法,其特征在于,在所述将所述挖掘会话数据作为新的所述第一会话数据添加至所述数据库之后,所述方法还包括:
响应于所述预设交互流程发生变化,重新执行所述获取所述若干第一会话数据中第一词语的属性特征的步骤以及后续步骤。
11.一种数据挖掘装置,其特征在于,包括:
数据获取模块,用于获取与预设交互流程相关的数据库;其中,所述数据库包括若干第一会话数据;
属性获取模块,用于获取所述若干第一会话数据中第一词语的属性特征;其中,所述属性特征包括与所述预设交互流程相关的若干种属性的特征表示;
网络训练模块,用于利用所述若干第一会话数据中第一词语的属性特征训练预设挖掘网络,得到数据挖掘模型;其中,所述预设挖掘网络包括预设语义提取网络,所述数据挖掘模型包括语义特征提取模型,所述网络训练模块具体用于利用所述若干第一会话数据中第一词语的属性特征训练所述预设语义提取网络,得到语义特征提取模型;
数据选择模块,包括特征提取子模块和数据选择子模块,所述特征提取子模块用于利用所述语义特征提取模型提取所述第一会话数据中所述第一词语的第一词语特征和语料库内第二会话数据中第二词语的第二词语特征;所述数据选择子模块用于基于所述第一词语特征和所述第二词语特征,从所述语料库中选择所述第二会话数据作为挖掘会话数据。
12.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的数据挖掘方法。
13.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至10任一项所述数据挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674107.4A CN113535805B (zh) | 2021-06-17 | 2021-06-17 | 数据挖掘方法及相关装置和电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674107.4A CN113535805B (zh) | 2021-06-17 | 2021-06-17 | 数据挖掘方法及相关装置和电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535805A CN113535805A (zh) | 2021-10-22 |
CN113535805B true CN113535805B (zh) | 2024-06-04 |
Family
ID=78125087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110674107.4A Active CN113535805B (zh) | 2021-06-17 | 2021-06-17 | 数据挖掘方法及相关装置和电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535805B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436442A (zh) * | 2011-11-03 | 2012-05-02 | 中国科学技术信息研究所 | 一种基于上下文语境的词的语义相关性度量方法 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
CN110990451A (zh) * | 2019-11-15 | 2020-04-10 | 浙江大华技术股份有限公司 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
CN111651571A (zh) * | 2020-05-19 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 基于人机协同的会话实现方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078725A1 (en) * | 2010-09-27 | 2012-03-29 | Infosys Technologies Limited | Method and system for contextual advertisement recommendation across multiple devices of content delivery |
-
2021
- 2021-06-17 CN CN202110674107.4A patent/CN113535805B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436442A (zh) * | 2011-11-03 | 2012-05-02 | 中国科学技术信息研究所 | 一种基于上下文语境的词的语义相关性度量方法 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
CN110990451A (zh) * | 2019-11-15 | 2020-04-10 | 浙江大华技术股份有限公司 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
CN111651571A (zh) * | 2020-05-19 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 基于人机协同的会话实现方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Cross-Session Aware Temporal Convolutional Network for Session-based Recommendation;Rui Ye,等;《2020 International Conference on Data Mining Workshops (ICDMW)》;第220-226页 * |
基于Web挖掘的个性化服务技术研究;肖杰;张彬连;;福建电脑(第04期);第12-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535805A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112346567B (zh) | 基于ai的虚拟交互模型生成方法、装置及计算机设备 | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110909165A (zh) | 数据处理方法、装置、介质及电子设备 | |
CN110427560A (zh) | 一种应用于推荐系统的模型训练方法以及相关装置 | |
CN102609406B (zh) | 学习装置、判断装置、学习方法和判断方法 | |
CN111581092B (zh) | 仿真测试数据的生成方法、计算机设备及存储介质 | |
CN111651601A (zh) | 用于电力信息系统的故障分类模型的训练方法及分类方法 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN108228622A (zh) | 业务问题的分类方法及装置 | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN111177307A (zh) | 一种基于语义理解相似度阀值配置的测试方案及系统 | |
CN114663002A (zh) | 一种自动化匹配绩效考核指标的方法及设备 | |
US10956914B2 (en) | System and method for mapping a customer journey to a category | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
CN114077836A (zh) | 一种基于异构神经网络的文本分类方法及装置 | |
CN110209772B (zh) | 一种文本处理方法、装置、设备及可读存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN112668305B (zh) | 一种基于注意力机制的论文引用量预测方法与系统 | |
CN113535805B (zh) | 数据挖掘方法及相关装置和电子设备、存储介质 | |
CN113761184A (zh) | 文本数据的分类方法、设备及存储介质 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN112784046B (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN114529191A (zh) | 用于风险识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |