CN110019702B - 数据挖掘方法、装置和设备 - Google Patents

数据挖掘方法、装置和设备 Download PDF

Info

Publication number
CN110019702B
CN110019702B CN201710841097.2A CN201710841097A CN110019702B CN 110019702 B CN110019702 B CN 110019702B CN 201710841097 A CN201710841097 A CN 201710841097A CN 110019702 B CN110019702 B CN 110019702B
Authority
CN
China
Prior art keywords
keywords
keyword
corpus sample
collocation
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710841097.2A
Other languages
English (en)
Other versions
CN110019702A (zh
Inventor
赵中州
陈海青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710841097.2A priority Critical patent/CN110019702B/zh
Publication of CN110019702A publication Critical patent/CN110019702A/zh
Application granted granted Critical
Publication of CN110019702B publication Critical patent/CN110019702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供一种数据挖掘方法、装置和设备,该方法包括:从语料样本集合中提取多个关键词;在包含多个关键词中至少一个关键词的每条语料样本中,围绕每条语料样本中包含的关键词获取预设数量的候选词语,候选词语中包括被围绕的关键词;对获取的全部候选词语进行关联分析,以获得与多个关键词对应的搭配关系。通过提取关键词,以便围绕关键字进行关联分析所需的候选词语的选取,限制了关联分析的数据范围,即降低了关联分析的输入噪音,有利于保证关联分析结果即词语搭配关系挖掘结果的准确性。

Description

数据挖掘方法、装置和设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据挖掘方法、装置和设备。
背景技术
用户通过电子商务平台进行网上购物已经成为用户目前主流的一种购物方式。为了提高用户购物体验,电子商务平台会提供在线交互工具,以供用户就自己关心的问题咨询商家。而且,电子商务平台还会提供自动问答技术,以便及时、自动地响应用户的咨询问题。
用户购物时往往会就商品信息、当前优惠活动、物流信息等问题咨询商家,这些咨询问题往往有很高的重复性,如果能将用户的高频问法挖掘整理,将有利于采用自动问答技术对用户的咨询问题进行自动回复,或者,也便于对用户咨询问题的分类汇总。而用户的高频问法常常表现为特定词语的搭配,从而,对用户的高频问法挖掘即为对词语搭配关系的挖掘。因此,如何准确地挖掘出常用的词语搭配关系是亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种数据挖掘方法、装置和设备,用以准确挖掘出诸如用户购物等应用场景下的常见词语搭配关系。
第一方面,本发明实施例提供一种数据挖掘方法,包括:
从语料样本集合中提取多个关键词;
在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。
第二方面,本发明实施例提供一种数据挖掘装置,包括:
提取模块,用于从语料样本集合中提取多个关键词;
获取模块,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
分析模块,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。
在一个可能的设计中,上述数据挖掘装置的结构中包括处理器和存储器,所述存储器用于存储支持数据挖掘装置执行上述第一方面中数据挖掘方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述数据挖掘装置还可以包括通信接口,用于数据挖掘装置与其他设备或通信网络通信。
本发明实施例提供了一种计算机存储介质,用于储存数据挖掘装置所用的计算机软件指令,其包含用于执行上述第一方面中数据挖掘方法所涉及的程序。
第三方面,本发明实施例提供一种数据挖掘方法,应用于服务器中,包括:
采集来自客户端的语料样本,以生成语料样本集合;
从所述语料样本集合中提取多个关键词;
在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
将所述搭配关系发送至所述客户端。
第四方面,本发明实施例提供一种数据挖掘装置,应用于服务器中,包括:
生成模块,用于采集来自客户端的语料样本,以生成语料样本集合;
提取模块,用于从所述语料样本集合中提取多个关键词;
获取模块,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
分析模块,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
发送模块,用于将所述搭配关系发送至所述客户端。
第五方面,本发明实施例提供一种电子设备,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第三方面所述的数据挖掘方法。
第六方面,本发明实施例提供一种数据挖掘方法,应用于客户端中,包括:
接收服务器发送的多个关键词,所述多个关键词是所述服务器从预先生成的语料样本集合中提取的;
若用户输入的语料样本中包含所述多个关键词中至少一个关键词,则将所述语料样本发送至所述服务器,以使所述服务器更新所述语料样本集合,并在其中包含至少一个关键词的语料样本中获取与所包含的关键词对应的候选词语集,以及对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
接收所述服务器发送的搭配关系。
第七方面,本发明实施例提供一种数据挖掘装置,应用于服务器中,包括:
接收模块,用于接收服务器发送的多个关键词,所述多个关键词是所述服务器从预先生成的语料样本集合中提取的;
发送模块,用于若用户输入的语料样本中包含所述多个关键词中至少一个关键词,则将所述语料样本发送至所述服务器,以使所述服务器更新所述语料样本集合,并在其中包含至少一个关键词的语料样本中获取与所包含的关键词对应的候选词语集,以及对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
所述接收模块,还用于接收所述服务器发送的搭配关系。
第八方面,本发明实施例提供一种电子设备,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第六方面所述的数据挖掘方法。
本发明实施例提供的数据挖掘方法、装置和设备,以购物场景为例,用户的咨询语句可以作为语料样本,从而,可以通过收集大量用户的历史咨询语句来获得语料样本集合。为了挖掘出该语料样本集合所反映出的词语搭配关系,首先可以通过关键词提取方法从语料样本集合中提取出多个关键词,这些关键词往往是出现频率较高的具有实际意义的词,即非停用词。之后,针对语料样本集合中包含至少一个关键词的任一语料样本,获取位于该语料样本中包含的关键词的预设窗口范围内的词语以形成与该关键词对应的候选词语集,即从每条语料样本中提取出与所包含的关键词位置邻近的多个词语,因为与关键词具有搭配关系的词语往往集中在关键词的附近。最后,对获取的全部候选词语进行关联分析,以获得与多个关键词对应的搭配关系。本方案中,通过提取关键词,以便围绕关键字进行关联分析所需的候选词语集的构建,限制了关联分析的数据范围,即降低了关联分析的输入噪音,有利于保证关联分析结果即词语搭配关系挖掘结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据挖掘方法实施例一的流程图;
图2为本发明实施例提供的数据挖掘方法实施例二的流程图;
图3为关键词提取与扩展过程的示意图;
图4为本发明实施例提供的数据挖掘装置的结构示意图;
图5为与图4所示数据挖掘装置对应的电子设备的结构示意图;
图6为本发明实施例提供的一种数据挖掘方法的交互流程图;
图7为本发明实施例提供的一种终端设备的结构示意图;
图8为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图1为本发明实施例提供的数据挖掘方法实施例一的流程图,本实施例提供的该数据挖掘方法可以由一数据挖掘装置来执行,该数据挖掘装置可以实现为软件,或者实现为软件和硬件的组合,该数据挖掘装置可以设置在某电子设备中,比如电子购物平台所对应的服务器中。如图1所示,该方法包括如下步骤:
101、从语料样本集合中提取多个关键词。
以电子购物场景为例,可以通过收集大量历史咨询语句来构成语料样本集合,从而,语料样本集合中的语料样本是一条条咨询语句。
可选地,可以参考TextRank算法,从语料样本集合中包含的各语料样本中提取多个关键词。关键词提取的任务就是从语料样本集合中提取出若干出现频率较高的、具有实际意义的词语。关键词提取的过程可以实现为:
首先,对于语料样本集合中的每条语料样本,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的词语,如名词、动词、形容词,作为候选关键词。
其次,构建候选关键词图G=(V,E),G为无权无向图,其中,V为节点集,E为边集。其中,节点集由获得的候选关键词组成。两节点之间的连接边是基于两节点的共现关系确定的。具体地,如果两个节点对应的词语在预设窗口大小内共现,则这两个节点之间存在连接边。假设预设窗口大小为K,即意味着最多K个词语长度。
举例来说,设定窗口大小为k,假设一个语料样本依次由下面的词语组成:w1,w2,w3,w4,…,wn。则w1,w2,…,wk为一个窗口;w2,w3,…,wk+1为一个窗口;w3,w4,…,wk+2也为一个窗口。在一个窗口中的任两个词语对应的节点之间存在一个无向无权的边。如此,构成语料样本集合对应的候选关键词图G。
之后,基于构成的图G,可以计算出每个候选关键词节点的重要性得分,对重要性得分进行倒序排列,得到最重要的若干候选关键词作为上述多个关键词。
102、在包含多个关键词中至少一个关键词的语料样本中,获取与语料样本中包含的关键词对应的候选词语集,候选词语集中包含该关键词以及位于该关键词预设窗口范围内的词语。
103、对获取的全部候选词语集进行关联分析,以获得与多个关键词对应的搭配关系。
在得到语料样本集合所对应的多个关键词之后,以包含有关键词的语料样本作为关联分析的对象,通过关联分析即关联规则学习,以获得与多个关键词对应的搭配关系,其中,搭配关系即为一种关联规则。
本发明实施例中,以电子购物场景中的咨询情形来说,一个搭配关系体现的是几个词语的搭配组合。针对某个关键词来说,与其对应的搭配关系体现为该关键词经常与某个或某几个词语共现于若干语料样本中。
为了去除语料样本集合中不包含关键词的语料样本对关联分析的干扰,可选地,可以根据获得的多个关键词对语料样本集合进行过滤处理,以滤除不包含关键词的语料样本,即获得包含多个关键词中至少一个关键词的各语料样本。
进一步地,为了提高关联分析结果的准确度,降低关联分析的运算量,本发明实施例中,并非直接以过滤后得到的各语料样本作为分析对象,而是以从过滤后得到的各语料样本中提取出的候选词语集作为分析对象。针对其中的任一语料样本来说,假设该语料样本中包含某个关键词,则获取该关键词的预设窗口范围内存在的词语,由获得的词语以及该关键词构成该关键词对应的候选词语集,之所以以上述预设窗口范围为限制,是因为与某个关键词搭配出现的词语往往与该关键词的距离不会太远。
实际实现时,针对包含有至少一个关键词的任一条语料样本而言,该语料样本中可能仅包含一个关键词,也可能包含不止一个关键词,对于其中包含的任一关键词来说,可以以该关键词为中心,获取该关键词前后预设窗口范围内包含的词语,从而形成与该关键词对应的候选词语集。
以某条语料样本中包含关键词A和关键词B为例,假设预设窗口范围为3个词语,则以关键词A为中心,确定分别位于其前后的3个词语,假设关键词A前面和后面均至少存在3个词语,则关键词A以及关键词A前后的6个词语将构成与关键词A对应的候选词语集。同样地,针对关键词B也进行同样的处理,假设也确定出包含关键词B在内的7个词语,这7个词语也将构成与关键词B对应的候选词语集。
针对包含有关键词的每条语料样本进行上述获取候选词语集的处理后,以获得的全部候选词语集为对象进行关联分析,以获得与语料样本集合中多个关键词对应的搭配关系。
其中,关联分析的过程亦即为关联规则学习的过程,可以采用现有的关联分析算法实现,比如Apriori算法、FP-growth算法。
以采用Apriori算法为例,设置Apriori算法所需的最小支持度和最小可信度这两个参数,并将已经获得的全部候选词语集作为Apriori算法所需的数据集输入至Apriori算法,即可以通过Apriori算法实现关联规则的挖掘。本发明实施例中,Apriori算法输出的关联规则即为与语料样本集合所包含的多个关键词对应的搭配关系。
举例来说,假设某条语料样本为:你好,请问最近有什么团购吗?昨天收到短信说可以打折。并假设其中包含的关键词为:团购,预设窗口大小为3个词语,则与团购对应的候选词语集中包括:最近、有、什么、吗、?、昨天。另外,假设包含有团购这一关键词的语料样本还有很多,那么在将团购对应的若干候选词语集作为输入数据集中的部分输入Apriori算法后,输出结果中可能包含有类似于:[最近,有,团购]这样的与团购对应的搭配关系。
综上,通过从语料样本集合中提取出多个关键词,以便基于提取出的关键词从包含有关键词的语料样本中,围绕关键字进行关联分析所需的候选词语集的构建,限制了关联分析的数据范围,即降低了关联分析的输入噪音,有利于保证关联分析结果即词语搭配关系挖掘结果的准确性。
图2为本发明实施例提供的数据挖掘方法实施例二的流程图,如图2所示,可以包括如下步骤:
201、通过关键词提取方法从语料样本集合中提取种子关键词。
图1所示实施例中通过TextRank算法从语料样本集合中提取出的关键词即为种子关键词。
202、从语料样本集合中获取与种子关键词之间的相似度满足预设要求的扩展关键词。
实际应用中,用户的对同一意思的表达可能多种多样,为了避免不同表达习惯对搭配关系挖掘结果的影响,可选地,还可以以获得的种子关键词为参考,从语料样本集合中获取与种子关键词之间的相似度满足预设要求的词语作为扩展关键词。
可选地,从语料样本集合中获取与种子关键词之间的相似度满足预设要求的扩展关键词可以通过预先训练获得的Word2vec模型实现。
Word2vec是一个将词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
可以以上述语料样本集合中的语料样本作为训练样本,对Word2vec模型进行训练。基于训练得到的Word2vec模型,可以将种子关键字输入到Word2vec模型中,则可以在输出端获得与该种子关键词间相似度满足预设要求的扩展关键词。
如图3所示,假设通过TextRank算法从图3所示的语料样本集合中提取出的种子关键词包括:最近、团购、特价、赠品。图3中也示意了每个种子关键词经过相似度扩展后得到的扩展关键词。
203、响应于用户的关键词筛选操作,对种子关键词和扩展关键词进行筛选。
实际应用中,语料样本集合中包含的语料样本可能来自于不同的具体应用场景,或者说对应于不同的业务情景。如果用户当前仅想要针对某个特定的场景进行搭配关系挖掘,则用户可以从获得的种子关键词和扩展关键词中筛选出所需的关键词,从而,后续的关联分析过程将仅针对用户筛选出的关键词进行。
204、根据筛选后剩余的关键词对语料样本集合进行过滤处理,以获得包含至少一个关键词的各语料样本。
对语料样本集合进行过滤处理,滤除不包含关键词的语料样本,以减小需挖掘的语料样本总量,去除无关噪音。
205、将获得的每条语料样本中包含的扩展关键词替换为对应的种子关键词。
在针对过滤剩余的语料样本进行关键词对应的搭配关系挖掘时,可选地,可以首先对语料样本中的关键词做归一化处理,即将所有扩展出的扩展关键词都替换为利用TextRank算法挖掘出的种子关键词,这样会使得语料样本中关键词的搭配形式更加集中,不至于过于泛化,方便挖掘。
206、对于替换后的任一语料样本中包含的任一种子关键词,获取位于该种子关键词预设窗口范围内的词语,以构建与该种子关键词对应的候选词语集。
207、对获取的全部候选词语集进行关联分析,以获得与各种子关键词对应的搭配关系。
关联分析的实现参见前述实施例中的说明,在此不再赘述。
208、在语料样本集合中筛选出包含同一搭配关系的语料样本。
209、根据搭配关系在筛选出的语料样本中的表现形式,确定与搭配关系对应的搭配模板。
可选地,在获得搭配关系之后,还可以根据搭配关系在对应的语料样本中的表现形式,确定与搭配关系对应的搭配模板,以便在比如自动应答应用中,使用该搭配模板实现对用户咨询问题的自动回复。
其中,搭配关系描述的是具有搭配关系的几个词语频繁在同一语料样本出现,而搭配模板反映的是搭配关系在语料样本中的具体表现形式。
针对获得的每个搭配关系,比如[最近,有,团购]这一搭配关系,首先筛选出包含该搭配关系的语料样本,进而将该搭配关系还原到筛选出的各语料样本中,即定位组成该搭配关系的这几个词在各语料样本中的位置,将夹在这几个词中间的各词语以预设符号比如+号替换,则可以获得各语料样本中该搭配关系的表现形式。
比如,对于搭配关系[最近,有,团购],在语料样本中的表现形式可能包括:[最近,有,+,团购]、[最近,+,有,团购]、[最近,有,+,+,团购]等。其中,[最近,有,+,团购]比如对应于语料样本“最近有什么团购吗”;[最近,+,有,团购]比如对应于语料样本“最近还有团购吗”;[最近,有,+,+,团购]比如对应于语料样本“最近有商品参与团购吗”。
当一个搭配关系在语料样本中仅存在一种表现形式时,则该搭配关系对应的搭配模板即对应于该唯一的表现形式。比如,假设搭配关系[最近,有,团购]仅对应有[最近,有,+,团购]这一种表现形式,则搭配模板既可以为:[最近,有,+,团购]。
当一个搭配关系在语料样本中存在多种不同的表现形式时,则可以通过合并多种表现形式来获得与该搭配关系对应的搭配模板。其中,合并的原则可以为:生成可以覆盖范围最长的搭配模板。针对上述例子,将最终合并为[最近,+,有,+,+,团购]。
搭配模板在自动应答场景中的应用比如是:对于接收到的用户输入的咨询语句,如果该咨询语句与某个搭配模板匹配,则返回与该搭配模板对应的自动回复语句。其中,咨询问题与搭配模板的匹配,可以是咨询问题中包含搭配模板中所包含的词语,并且咨询问题中这些词语的表现形式与该搭配模板中这些词语的表现形式匹配,其中,表现形式的匹配并不限定于要完全一致。比如,假设搭配模板为:[身高**,体重**],如果咨询语句为:我身高165cm,体重100应该穿多大码,则该咨询语句与该搭配模板匹配。
以下将详细描述本发明的一个或多个实施例的数据挖掘装置。本领域技术人员可以理解,这些数据挖掘装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图4为本发明实施例提供的数据挖掘装置的结构示意图,如图4所示,该装置包括:提取模块11、获取模块12、分析模块13。
提取模块11,用于从语料样本集合中提取多个关键词。
获取模块12,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语。
分析模块13,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。
可选地,所述提取模块11包括:提取单元111、扩展单元112。
提取单元111,用于通过关键词提取方法从所述语料样本集合中提取种子关键词。
扩展单元112,用于从所述语料样本集合中获取与所述种子关键词之间的相似度满足预设要求的扩展关键词,所述多个关键词包括所述种子关键词和所述扩展关键词。
可选地,该装置还包括:第一筛选模块21、过滤模块22、替换模块23、第二筛选模块24、确定模块25。
第一筛选模块21,用于响应于用户的关键词筛选操作,对所述多个关键词进行筛选。
过滤模块22,用于根据所述多个关键词对所述语料样本集合进行过滤处理,以获得包含所述多个关键词中至少一个关键词的各语料样本。
替换模块23,用于将所述每条语料样本中包含的扩展关键词替换为对应的种子关键词。
第二筛选模块24,用于在所述语料样本集合中筛选出包含同一搭配关系的语料样本。
确定模块25,用于根据所述搭配关系在筛选出的语料样本中的表现形式,确定与所述搭配关系对应的搭配模板。
图4所示装置可以执行图1、图2所示实施例的方法,本实施例未详细描述的部分,可参考对图1、图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1、图2所示实施例中的描述,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上描述了数据挖掘装置的内部功能和结构,在一个可能的设计中,数据挖掘装置的结构可实现为一电子设备,该电子设备比如为服务器,如图5所示,该电子设备可以包括:处理器31和存储器32。其中,所述存储器32用于存储支持数据挖掘装置执行上述任一实施例中提供的数据挖掘方法的程序,所述处理器31被配置为用于执行所述存储器32中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器31执行时能够实现如下步骤:
从语料样本集合中提取多个关键词;
在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。
可选地,所述处理器31还用于执行前述各方法步骤中的全部或部分步骤。
其中,所述数据挖掘装置的结构中还可以包括通信接口33,用于数据挖掘装置与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存数据挖掘装置所用的计算机软件指令,其包含用于执行上述各方法实施例中数据挖掘方法所涉及的程序。
前述各实施例从服务器侧对本发明实施例提供的数据挖掘方法的核心思想进行了说明。下面结合图6对本发明实施例提供的数据挖掘方法在实际应用中的可选实现过程进行介绍。
图6为本发明实施例提供的一种数据挖掘方法的交互流程图,如图6所示,可以包括如下步骤:
601、服务器采集来自客户端的语料样本,以生成语料样本集合。
以购物场景为例,该语料样本可以是用户的咨询语句。服务器可以预先采集多个客户端发送的咨询语句,以生成包含众多咨询语句的语料样本集合。
602、服务器从已经生成的语料样本集合中提取多个关键词。
服务器提取多个关键词的方式可以参见前述实施例中的相关说明,在此不赘述。但是,值得说明的是,可选地,服务器在提取出多个关键词之后,可以对已经获得的语料样本集合进行过滤处理,以滤除其中不包含任一关键词的语料样本,因为后续搭配关系的挖掘仅需要使用到包含有关键词的语料样本。
603、服务器将提取出的多个关键词发送至客户端。
604、客户端若确定用户输入的语料样本中包含至少一个关键词,则将用户输入的语料样本发送至服务器。
为了保证挖掘结果的准确性,服务器可以将已经提取到的多个关键词发送至客户端,以使得客户端后续针对用户实时输入的语料样本进行过滤,如果用户输入的语料样本中包含了关键词,则该语料样本可以被添加到服务器的语料样本集合中,以保证语料样本集合中语料样本的数量和质量。
605、服务器将接收到的包含至少一个关键词的语料样本更新到语料样本集合中。
606、服务器在语料样本集合中包含至少一个关键词的语料样本中,获取与其中包含的关键词对应的候选词语集,候选词语集中包含对应的关键词以及位于该关键词预设窗口范围内的词语。
待满足一定的条件,比如语料样本集合中语料样本的数量已经达到一定量级,语料样本收集的时间长度已经达到一定时间,则服务器开始针对语料样本集合进行数据挖掘处理。
607、服务器对获取的全部候选词语集进行关联分析,以获得与多个关键词对应的搭配关系。
608、服务器将获得的搭配关系发送至客户端。
609、客户端接收用户输入的咨询语句,若收到的搭配关系中存在与咨询语句对应的搭配关系,则获取与该搭配关系对应的回复语句并展示。
其中,咨询语句与搭配关系的对应性可以表现为咨询语句中包含该搭配关系,即包含构成该搭配关系的词语。
可选地,客户端中可以预先存储有与各搭配关系对应的回复语句,以便对用户的咨询语句进行自动应答。
除此之外,对应于上述图6所示实施例,本发明实施例还提供一种承载有上述客户端的电子设备——终端设备以及对应于服务器的电子设备。
其中,如图7所示,终端设备中包括:处理器41和存储器42。其中,所述存储器42用于存储支持该终端设备执行上述图6所示实施例中客户端所涉及步骤的程序,所述处理器41被配置为用于执行所述存储器42中存储的程序。所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器41执行时能够实现如下步骤:
接收服务器发送的多个关键词,所述多个关键词是所述服务器从预先生成的语料样本集合中提取的;
若用户输入的语料样本中包含所述多个关键词中至少一个关键词,则将所述语料样本发送至所述服务器,以使所述服务器更新所述语料样本集合,并在其中包含至少一个关键词的语料样本中获取与所包含的关键词对应的候选词语集,以及对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
接收所述服务器发送的搭配关系。
其中,所述终端设备的结构中还可以包括通信接口43,用于终端设备与其他设备比如服务器通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存终端设备所用的计算机软件指令,其包含用于执行上述各方法实施例中客户端执行数据挖掘方法所涉及的程序。
其中,如图8所示,服务器中包括:处理器51和存储器52。其中,所述存储器52用于存储支持该服务器执行上述图6所示实施例中服务器所涉及步骤的程序,所述处理器51被配置为用于执行所述存储器中存储的程序。所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如下步骤:
采集来自客户端的语料样本,以生成语料样本集合;
从所述语料样本集合中提取多个关键词;
在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
将所述搭配关系发送至所述客户端。
其中,所述服务器的结构中还可以包括通信接口53,用于服务器与其他设备比如终端设备通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存服务器所用的计算机软件指令,其包含用于执行上述各方法实施例中服务器执行数据挖掘方法所涉及的程序。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种数据挖掘方法,其特征在于,包括:
从语料样本集合中提取多个关键词;
在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
根据同一搭配关系在语料样本中的表现形式,确定与所述搭配关系对应的搭配模板,其中,所述表现形式包括组成搭配关系的词语以及预设符号,其中,所述语料样本中位于所述组成搭配关系的词语之间的其他词语被替换为所述预设符号,所述组成搭配关系的词语与所述预设符号之间的位置关系与所述组成搭配关系的词语与所述其他词语在所述语料中的位置关系相同。
2.根据权利要求1所述的方法,其特征在于,所述从语料样本集合中提取多个关键词,包括:
通过关键词提取方法从所述语料样本集合中提取种子关键词;
从所述语料样本集合中获取与所述种子关键词之间的相似度满足预设要求的扩展关键词,所述多个关键词包括所述种子关键词和所述扩展关键词。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述语料样本中包含的关键词对应的候选词语集之前,还包括:
将每条语料样本中包含的扩展关键词替换为对应的种子关键词。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于关键词筛选操作,对所述多个关键词进行筛选。
5.根据权利要求1所述的方法,其特征在于,所述从语料样本集合中提取多个关键词之后,还包括:
根据所述多个关键词对所述语料样本集合进行过滤处理,以获得包含所述多个关键词中至少一个关键词的各语料样本。
6.一种数据挖掘装置,其特征在于,包括:
提取模块,用于从语料样本集合中提取多个关键词;
获取模块,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
分析模块,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;根据同一搭配关系在语料样本中的表现形式,确定与所述搭配关系对应的搭配模板,其中,所述表现形式包括组成搭配关系的词语以及预设符号,其中,所述语料样本中位于所述组成搭配关系的词语之间的其他词语被替换为所述预设符号,所述组成搭配关系的词语与所述预设符号之间的位置关系与所述组成搭配关系的词语与所述其他词语在所述语料中的位置关系相同。
7.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至5中任一项所述的数据挖掘方法。
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1至5中任一项所述的数据挖掘方法。
9.一种数据挖掘方法,其特征在于,包括:
采集来自客户端的语料样本,以生成语料样本集合;
从所述语料样本集合中提取多个关键词;
在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;
将所述搭配关系发送至所述客户端,若所述客户端确定出在所述搭配关系中存在与用户输入的咨询语句对应的搭配关系,则展示与所述搭配关系对应的回复语句。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
将所述多个关键词发送至所述客户端,以使所述客户端筛选出包含所述多个关键词中至少一个关键词的语料样本;
将接收自所述客户端的包含所述多个关键词中至少一个关键词的语料样本更新到所述语料样本集合中。
11.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求9或10所述的数据挖掘方法。
12.一种数据挖掘方法,其特征在于,包括:
接收服务器发送的多个关键词,所述多个关键词是所述服务器从预先生成的语料样本集合中提取的;
若用户输入的语料样本中包含所述多个关键词中至少一个关键词,则将所述语料样本发送至所述服务器,以使所述服务器更新所述语料样本集合,并在其中包含至少一个关键词的语料样本中获取与所包含的关键词对应的候选词语集,以及对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系,其中,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;
接收所述服务器发送的搭配关系;
若所述搭配关系中存在与用户输入的咨询语句对应的搭配关系,则展示与所述搭配关系对应的回复语句。
13.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求12所述的数据挖掘方法。
CN201710841097.2A 2017-09-18 2017-09-18 数据挖掘方法、装置和设备 Active CN110019702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710841097.2A CN110019702B (zh) 2017-09-18 2017-09-18 数据挖掘方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710841097.2A CN110019702B (zh) 2017-09-18 2017-09-18 数据挖掘方法、装置和设备

Publications (2)

Publication Number Publication Date
CN110019702A CN110019702A (zh) 2019-07-16
CN110019702B true CN110019702B (zh) 2023-04-07

Family

ID=67186276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710841097.2A Active CN110019702B (zh) 2017-09-18 2017-09-18 数据挖掘方法、装置和设备

Country Status (1)

Country Link
CN (1) CN110019702B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598002A (zh) * 2019-08-14 2019-12-20 广州视源电子科技股份有限公司 知识图库构建方法、装置、计算机存储介质和电子设备
CN111538822B (zh) * 2020-04-24 2023-05-09 支付宝(杭州)信息技术有限公司 一种智能客户服务机器人训练数据的生成方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760366A (zh) * 2015-03-16 2016-07-13 国家计算机网络与信息安全管理中心 针对特定领域的新词发现方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN106469212A (zh) * 2016-09-05 2017-03-01 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760366A (zh) * 2015-03-16 2016-07-13 国家计算机网络与信息安全管理中心 针对特定领域的新词发现方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN106469212A (zh) * 2016-09-05 2017-03-01 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Also Published As

Publication number Publication date
CN110019702A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US10748164B2 (en) Analyzing sentiment in product reviews
CN108304526B (zh) 一种数据处理方法、装置及服务器
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US20140172415A1 (en) Apparatus, system, and method of providing sentiment analysis result based on text
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
US10242033B2 (en) Extrapolative search techniques
CN107544988B (zh) 一种获取舆情数据的方法和装置
KR101540683B1 (ko) 감정어의 극성을 분류하는 방법 및 서버
US20130159828A1 (en) Method and Apparatus for Building Sales Tools by Mining Data from Websites
US20170243234A1 (en) Methods and systems for tag expansion by handling website object variations and automatic tag suggestions in dynamic tag management
CN110287405B (zh) 情感分析的方法、装置和存储介质
CN107688616A (zh) 使实体的独特事实显现
CN111090739A (zh) 信息处理方法、装置以及电子设备、存储介质
CN111666757A (zh) 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN110019702B (zh) 数据挖掘方法、装置和设备
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN112182126A (zh) 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质
CN113065329A (zh) 数据的处理方法和装置
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN106971306B (zh) 产品问题的识别方法及系统
CN115391656A (zh) 一种用户需求确定方法、装置及设备
He et al. Developing a workflow approach for mining online social media data
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
CN110929123A (zh) 一种电商产品竞争分析方法及系统
CN111814025A (zh) 一种观点提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant