CN110674287A - 层级意图体系的建立方法及装置 - Google Patents
层级意图体系的建立方法及装置 Download PDFInfo
- Publication number
- CN110674287A CN110674287A CN201810580085.3A CN201810580085A CN110674287A CN 110674287 A CN110674287 A CN 110674287A CN 201810580085 A CN201810580085 A CN 201810580085A CN 110674287 A CN110674287 A CN 110674287A
- Authority
- CN
- China
- Prior art keywords
- determining
- text
- vectors
- user
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000004422 calculation algorithm Methods 0.000 claims description 50
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 8
- 235000019580 granularity Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 235000013350 formula milk Nutrition 0.000 description 3
- 239000008267 milk Substances 0.000 description 3
- 210000004080 milk Anatomy 0.000 description 3
- 235000013336 milk Nutrition 0.000 description 3
- 239000000843 powder Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 241000122205 Chamaeleonidae Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供一种层级意图体系的建立方法,该方法包括:首先,获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;接着,确定与各个文本语句对应的各个句向量;然后,对多个句向量进行聚类处理,以得到多个类簇;再确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
Description
技术领域
本说明书实施例涉及自然语言处理领域,具体地,涉及一种层级意图体系的建立方法及装置。
背景技术
目前,客服机器人中的一个重要模块就是“意图识别”,客服机器人需要识别出用户的会话所包含的意图,再根据识别出的意图对用户会话进行相应的回复,因此,“意图识别”的精准度直接影响了客服机器人下游组件的效果,在整个机器人中的位置十分重要。
目前,“意图识别”中用到的用户意图数据,通常是由业务专家基于业务进行整理而得到,这无疑耗费了大量的人力。因此,需要一种合理的方案,可以精准、快速、全面地确定出大量的用户意图数据。
发明内容
本说明书描述了一种层级意图体系的建立方法,通过对获取到的用户意图语料进行文本聚类处理,挖掘出不同粒度下的用户意图数据,用于构建层级意图体系。
根据第一方面,提供一种层级意图体系的建立方法,该方法包括:获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;确定与各个文本语句对应的各个句向量;对多个句向量进行聚类处理,以得到多个类簇;确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
在一种可能的实施方式中,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点用户意图。
在一种可能的实施方式中,所述用户意图语料包括多次历史客服服务所对应的多个历史用户会话;所述确定与所述用户意图语料对应的多个文本语句,包括:对所述多个历史用户会话进行预处理;根据预处理后的历史用户会话,确定出所述多个文本语句。
在一种可能的实施方式中,所述用户意图语料包括由业务方提供的多个业务类别;所述确定与所述用户意图语料对应的多个文本语句,包括:将所述多个业务类别中的各业务类别作为对应的文本语句。
在一种可能的实施方式中,所述确定与各个文本语句对应的各个句向量,包括:对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;基于预先训练的词向量模型,确定所述分词集合中各分词的词向量;
根据第二方面,提供一种层级意图体系的建立装置,该装置包括:获取单元,用于获取用户意图语料;第一确定单元,用于确定与所述用户意图语料对应的多个文本语句;第二确定单元,用于确定与各个文本语句对应的各个句向量;聚类单元,用于对多个句向量进行聚类处理,以得到多个类簇;第三确定单元,用于确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
在本说明书实施例披露的层级意图体系的建立方法中,首先,获取用户意图语料,并确定与用户意图语料对应的多个文本语句;接着,确定出与各个文本语句对应的各个句向量;然后,对多个句向量进行聚类处理,以得到多个类簇;再确定与各类簇对应的各文本语句集,从而使本领域人员可以根据各文本语句集,确定出对应的各用户意图,并根据确定出的多个用户意图建立层级意图体系。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施流程框图;
图2示出根据一个实施例的层级意图体系的建立方法流程图;
图3示出根据一个例子的层级意图示意图;
图4示出根据另一个例子的层级意图示意图;
图5示出根据一个例子的基于图3和图4的层级意图体系示意图;
图6示出根据一个实施例的层级意图体系的建立装置框图。
具体实施方式
下面结合附图,对本说明书披露的多个实施例进行描述。
图1为本说明书披露的一个实施例的实施流程框图。如图1所示,首先,基于历史用户会话数据集训练出用于将词语表示为向量的词向量模型,其中历史用户会话数据集由多次历史客服服务中对应的多个历史用户会话组成。具体地,在一个实施例中,可以先对多个历史用户会话进行数据清洗,例如,去除历史用户会话中的非文本数据,如网址等;接着对数据清洗后的历史用户会话进行分词处理,得到多个分词,例如,可以通过分词器进行分词处理;再根据得到的多个分词以及词表征算法,采用无监督训练的方式得到词向量模型,例如,词表征算法可以为word2vec算法,相应可以得到基于word2vec算法的词向量模型。
然后,至少根据预先训练的词向量模型,确定与用户意图语料对应的多个用户意图。其中,用户意图语料可以包括从上述历史用户会话数据集中抽取的部分会话数据。具体地,在一个实施例中,可以先对用户意图语料进行数据清洗,并确定与用户意图语料对应的多个文本语句,例如,“请帮忙取消订单”、“纸尿裤什么时候有优惠活动”;接着对多个文本语句进行分词处理,并得到与各文本语句对应的各分词集合;再利用预先训练的词向量模型,确定出各分词集合中各分词所对应的词向量;接着,利用各分词集合对应的词向量,确定出对应文本语句的句向量,例如,可以对各分词集合中的多个词向量进行平均求和;再对确定出的多个句向量进行聚类处理,并根据聚类处理得到的多个类簇,确定与各类簇对应的各文本语句集。由此,本领域人员可以根据聚类得到的各文本语句集,确定出对应的各用户意图,从而根据确定出的多个用户意图构建层级意图体系。下面,描述以上过程的具体实施步骤。
图2示出根据一个实施例的层级意图体系的建立方法流程图,所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图2所示,该方法流程包括以下步骤:步骤S210,获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;步骤S220,确定与各个文本语句对应的各个句向量;步骤S230,对多个句向量进行聚类处理,以得到多个类簇;步骤S240,确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
首先,在步骤S210,获取用户意图语料,并确定与用户意图语料对应的多个文本语句。
在一个实施例中,获取的用户意图语料可以包括多次历史客服服务中的多个历史用户会话,例如,可以包括前述历史用户会话数据集中的部分会话数据。在一个例子中,多个历史用户会话可以包括:“卖家怎么还不退款?”、“没有收到货”、“可以取消订单吗?”等。在另一个实施例中,获取的用户意图语料可以包括由业务方提供的业务类别数据集。在一个例子中,其中的业务类别可以包括表示较大业务范围的大类和相对表示较小业务范围的小类,例如,大类可以包括母婴类,小类可以相应的包括奶粉、纸尿裤、奶瓶等。
在一个实施例中,用户意图语料可以包括多个历史用户会话,相应地,确定与用户意图语料对应的多个文本语句,可以包括:对多个历史用户会话进行预处理,以及,根据预处理后的历史用户会话,确定出多个文本语句。具体地,在一个例子中,对多个历史用户会话进行预处理可以包括:对其中预定类别的数据进行删除处理,例如,可以对各历史用户会话中包括的特殊符号表情、网址进行删除处理;又例如,可以对超过预定字符数(如,20个字符)的历史用户会话,如“今天天气是在下暴雨可是我买的商品也是时候送过来了吧”,进行删除处理。需要说明的是,其中对特殊符号、表情、网址进行删除,是因为它们所能表达的用户意图有限,或者说通常不具备与用户意图相关的有效信息;而之所以可以对长句进行删除处理,主要是考虑到长句中可以体现用户意图的字词通常是较少的,如果保留长句,后续对长句进行的相关计算处理将耗费大量的资源,因此可以对长句直接进行删除处理。
另一方面,在一个例子中,根据预处理后的多个历史用户会话,确定出对应的多个文本语句,可以包括:将预处理后得到的各历史用户会话作为对应的文本语句。在另一个例子中,确定出对应的多个文本语句,可以包括:根据预定的标点符号(例如,逗号和句号),将预处理后得到的各历史用户会话划分为对应的文本语句,例如,可以将预处理后得到的历史用户会话“还没有收到货,直接退款吧”划分为文本语句“还没有收到货”和“直接退款吧”。
在另一个实施例中,用户意图语料可以包括由业务方提供的多个业务类别,相应地,确定与用户意图语料对应的多个文本语句,可以包括:将多个业务类别中的各业务类别作为对应的文本语句。在一个例子中,可以将业务类别“***幼儿配方奶粉3段”作为一个文本语句。
以上,可以确定出与获取的用户意图语料对应的多个文本语句。接着,在步骤S220,确定与各文本语句对应的各个句向量。
根据一种实施方式,确定与各文本语句对应的各个句向量,可以包括:首先,对各个文本语句进行分词处理,得到各个文本语句所对应的分词集合;接着,基于预先训练的词向量模型,确定分词集合中各分词的词向量;然后,基于各分词的词向量,确定对应的各个句向量。
可以理解的是,可以采用现有技术中的多种分词算法或多种分词工具,对各个文本语句进行分词处理。在一个例子中,其中多种分词算法可以包括:基于词典的分词算法,例如,正向最大匹配法、逆向最大匹配法和双向匹配分词法等;或者,可以包括基于统计的机器学习算法,例如HMM、CRF、SVM、深度学习等算法。在一个例子中,对文本语句“还没有收到货”进行分词处理后,得到的分词集合可以为{“还没有”、“收到”、“货”},在另一个例子中,对文本语句“幼儿配方奶粉3段”进行分词处理后,得到的分词集合可以为{“幼儿配方”、“奶粉”、“3段”}。据此,可以得到各个文本语句所对应的分词集合。
此外,词向量模型可以基于现有技术中的词表征算法进行训练而得到。需要说明的是,一方面,对词向量模型的训练可以为无监督训练,进一步地,在一个例子中,训练中用到的大量训练语料可以包括来自多个网站的数据,例如,百度知道的数据。在另一个例子中,训练中用到的大量训练语料可以包括前述历史用户会话数据集。另一方面,词表征算法可以为word2vec算法和glove算法,相应得到的词向量模型为基于word2vec算法的词向量模型和基于glove算法的词向量模型。其中,word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,利用深度学习思想,通过训练,可以把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的距离可以用来表示文本语义上的相似度。而GloVe是Stanford开源的一款将词进行向量化表示的工具,其通过使用语料库的全局统计(overall statistics)特征,以及局部的上下文特征(即滑动窗口),可以使得向量之间尽可能多地蕴含语义和语法的信息。由此,可以确定分词集合中各分词的词向量。
进一步地,在一个实施例中,基于各分词集合中各分词的词向量,确定对应的各文本语句的句向量,可以包括:计算各分词集合对应的多个词向量的和向量,并将此和向量作为对应的各个句向量。在另一个实施例中,确定对应的各文本语句的句向量,可以包括:计算各分词集合对应的多个词向量的平均向量,并将此平均向量作为对应的各个句向量。
由上,可以确定出与多个文本语句对应的多个句向量。接着,在步骤S230,对多个句向量进行聚类处理,以得到多个类簇。
在一个实施例中,可以采用K-Means算法,对多个句向量进行聚类处理。其中,K-Means算法是一种基于划分的聚类算法。在一个例子中,具体的实现过程可以包括以下步骤:
1)、在聚类开始时根据人工预设的类簇数目k随机地在句向量集当中选择k个对象,将这些对象作为k个初始类簇的均值(也就是中心对象);
2)、对于句向量集中剩余的每个对象,根据该对象到每一个类簇中心的欧几里得距离,划分到最近的类簇中;
3)、全部分配完之后,重新计算每个类簇的均值,再计算每篇文本距离这些新的类簇平均值或中心的距离,将文本重新归入目前最近的类簇中;
4)、不断重复上述步骤2)和3),直到所有的样本都不能再重新分配为止。
需要说明的是,对于类簇数目k的设定,可以由相关的业务人员根据多个文本语句的数量以及业务经验进行设定。
在另一个实施例中,可以采用DBSCAN算法,对多个文本语句对应的多个句向量进行聚类处理。其中,DBSCAN算法是一种基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。具体而言,在DBSCAN算法中,首先将所有位置点标记为核心点、边界点或噪声点,删除其中的噪声点。然后为距离在预设参数(也就是邻域半径ε)之内的所有核心点之间赋予一条边,每组连通的核心点形成一个簇,将每个边界点指派到一个与之关联的核心点的簇中,由此完成位置点的聚类,其中预设参数越大,聚类得到的类簇数量越小,反之,得到的类簇数量越大。
可以理解,本步骤中还可以采用现有技术中的其他多种聚类算法,对多个文本语句的句向量进行聚类处理。其中多种聚类算法可以包括:K-MEDOIDS算法、CLARANS算法等划分聚类算法;BIRCH算法、CURE算法、CHAMELEON算法等层次聚类算法;以及OPTICS算法、DENCLUE算法等密度聚类算法。
以上,通过对多个文本语句对应的多个句向量进行聚类处理,可以得到对应的多个类簇。接着在步骤S240,确定与各类簇对应的各文本语句集。
在一个实施例中,前述预先训练的词向量模型中包括分词与词向量的映射关系,相应地,本步骤可以包括:首先,基于所述映射关系,根据各类簇中各句向量所对应的各词向量集合,确定与各词向量集合对应的各分词集合;然后,确定与各分词集合对应的文本语句,也就是将各分词集合中的分词按照顺序组合起来,以得到对应的文本语句,并将各类簇所对应的多个文本语句作为各文本语句集。
由上,可以得到与多个类簇对应的多个文本语句集。
需要说明的是,在步骤S240之后,还可以包括:将多个文本语句集提供给本领域人员,以使所述本领域人员确定与各文本语句集对应的各用户意图。
根据一个实施例,各文本语句集中包括多个文本语句,本领域人员可以根据这些文本语句,确定出对应的用户意图。例如,假定一个文本语句集中包括文本语句:“帮我看看快递到哪里了?”、“查询我的订单号到哪里了”、“给我查一下快递的物流信息”等,据此,本领域人员可以确定出此文本语句集对应的用户意图为“查询快递”。如此,可以确定出多个文本语句集对应的多个用户意图,用于构建层级意图体系。
进一步地,在一个实施例中,在确定出多个用户意图之后,本领域人员还可以基于其观察到的用户意图之间的层级关系,构建层级意图体系。
在一个例子中,本领域人员可以采用自上而下或自下而上的方式,构建层级意图体系。在一个具体的例子中,采用自上而下的方式构建层级意图体系是指:本领域人员可以根据多个用户意图,先确定出顶层父节点标识的用户意图,然后再依次向下逐层确定出子节点标识的用户意图,例如,采用这种方式构建出来的层级意图体系可以包括图3中示出的层级意图。在另一个例子中,采用自下而上的方式构建层级意图体系是指:本领域人员可以先确定出底层子节点标识的用户意图,然后再依次向上逐层确定出父节点标识的用户意图,例如,采用这种方式构建出来的层级意图体系可以包括图4中示出的层级意图。
需要说明的是,根据实际的业务经验,当基于多个历史用户会话数据确定多个用户意图时,通常可以通过控制聚类参数,从而得到多批次不同数目的类簇,当聚类得到的类簇数目较多时,对应确定出来的用户意图的粒度较细,而当聚类得到的类簇数目较少时,对应确定出来的用户意图的粒度较粗。如此,本领域人员可以先根据较粗粒度的用户意图确定层级意图体系的上层部分,并根据上层部分,以及较细粒度的用户意图确定出层级意图体系的下层部分,从而实现自上而下地构建意图层级体系。
另一方面,当基于多个业务类别确定出的多个用户意图时,因业务类别本身的粒度较细,所以在聚类时可以通过控制聚类参数,得到较多的类簇,从而得到较多的细粒度的用户意图,并根据这些细粒度的用户意图自下而上地构建出层级意图体系。
在一个具体的例子中,可以基于与多个历史用户会话对应的多个用户意图构建出第一层级意图体系,以及基于与多个业务类别对应的多个用户意图构建出第二层级意图体系,然后对第一层级意图体系和第二层级意图体系进行修订,例如,修订可以包括补充、裁剪、合并,以得到最终的层级意图体系,例如,可以根据图3和图4中示出的层级意图构建出图5中示出的最终层级意图体系。
由此,可以基于确定出的多个用户意图,人工构建出层级意图体系。由于在意图识别中,可以利用层级意图体系中的父意图节点信息,所以意图识别准确精度更高,而且层级的意图结构更有利于维护。通过这种半自动化的构建方式,能够较大地提高构建意图体系的效率,也可以保证意图的质量,提高意图识别的准确率,进而提高客服机器人的整体效果。
总之,采用本说明书实施例提供的层级意图体系的建立方法,首先,获取用户意图语料,并确定与用户意图语料对应的多个文本语句;接着,确定出与各个文本语句对应的各个句向量;然后,对多个句向量进行聚类处理,以得到多个类簇;再与各类簇对应的各文本语句集,从而使本领域人员可以根据各文本语句集,确定出对应的各用户意图,并根据确定出的多个用户意图建立层级意图体系。
根据另一方面的实施例,还提供一种层级意图体系的建立装置。图6示出根据一个实施例的层级意图体系的建立装置。如图6所示,该装置600包括:
获取单元610,用于获取用户意图语料;
第一确定单元620,用于确定与所述用户意图语料对应的多个文本语句;
第二确定单元630,用于确定与各个文本语句对应的各个句向量;
聚类单元640,用于对多个句向量进行聚类处理,以得到多个类簇;
第三确定单元650,用于确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
根据一个实施例,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点意图。
根据一个实施例,所述获取单元610获取的用户意图语料包括多次历史客服服务所对应的多个历史用户会话;所述第一确定单元620具体包括:
处理子单元621,用于对所述多个历史用户会话进行预处理;
第一确定子单元622,用于根据预处理后的历史用户会话,确定出所述多个文本语句。
进一步地,在一个实施例中,所述处理子单元621具体用于:
对所述多个历史用户会话中预定类别的数据进行删除处理,所述预定类别的数据包括特殊符号、表情、网址和超过预定字符数的历史用户会话中的至少一种。
根据一个实施例,所述获取单元610获取的用户意图语料包括多个业务类别;所述第一确定单元620具体用于:
将所述多个业务类别中的各业务类别作为对应的文本语句。
根据一个实施例,所述第二确定单元630具体包括:
分词子单元631,用于对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;
第二确定子单元632,用于基于训练的词向量模型,确定所述分词集合中各分词的词向量;
第三确定子单元633,用于基于所述各分词的词向量,确定所述各个句向量。
进一步地,在一个实施例中,所述第二确定子单元632中的词向量模型包括基于word2vec算法的词向量模型或基于glove算法的词向量模型。
另一方面,在一个实施例中,所述第二确定子单元632中的词向量模型包括分词与词向量的映射关系;所述第三确定单元650具体用于:
基于所述映射关系,根据各类簇中的各句向量所对应的各词向量集合,确定与所述各词向量集合对应的各分词集合;
确定与所述各分词集合对应的各文本语句,并将所述各类簇包括的多个句向量所对应的多个文本语句作为所述各文本语句集。
在一个实施例中,所述第三确定子单元633具体用于:
计算所述分词集合对应的多个词向量的和向量/平均向量,并将所述和向量/平均向量作为对应的各个句向量。
根据一个实施例,所述聚类单元640具体用于:
基于聚类算法,对所述多个句向量进行聚类处理,所述聚类算法包括划分聚类算法,层次聚类算法和密度聚类算法中的至少一种。
根据一个实施例,所述装置还包括:
发送单元660,用于将所述各文本语句集提供给本领域人员,以使所述本领域人员确定与所述各文本语句集对应的各用户意图,以及根据确定出的多个用户意图建立层级意图体系。
总之,采用本说明书实施例提供的层级意图体系的建立装置,首先,获取单元610获取用户意图语料,第一确定单元620确定与用户意图语料对应的多个文本语句;接着,第二确定单元630确定出与各个文本语句对应的各个句向量;然后,聚类单元640对多个句向量进行聚类处理,以得到多个类簇;第三确定单元650确定与各类簇对应的各文本语句集,从而使本领域人员可以根据各文本语句集,确定出对应的各用户意图,并根据确定出的多个用户意图建立层级意图体系。
如上,根据再一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。
Claims (22)
1.一种层级意图体系的建立方法,其特征在于,包括:
获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;
确定与各个文本语句对应的各个句向量;
对多个句向量进行聚类处理,以得到多个类簇;
确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
2.根据权利要求1所述的方法,其特征在于,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点用户意图。
3.根据权利要求1所述的方法,其特征在于,所述用户意图语料包括与多次历史客服服务所对应的多个历史用户会话;所述确定与所述用户意图语料对应的多个文本语句,包括:
对所述多个历史用户会话进行预处理;
根据预处理后的历史用户会话,确定所述多个文本语句。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个历史用户会话进行预处理,包括:
对所述多个历史用户会话中预定类别的数据进行删除处理,所述预定类别的数据包括特殊符号、表情、网址和超过预定字符数的历史用户会话中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述用户意图语料包括多个业务类别;所述确定与所述用户意图语料对应的多个文本语句,包括:
将所述多个业务类别中的各业务类别作为对应的文本语句。
6.根据权利要求1所述的方法,其特征在于,所述确定与各个文本语句对应的各个句向量,包括:
对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;
基于训练的词向量模型,确定所述分词集合中各分词的词向量;
基于所述各分词的词向量,确定所述各个句向量。
7.根据权利要求6所述的方法,其特征在于,所述词向量模型包括分词与词向量的映射关系;所述确定与各类簇对应的各文本语句集,包括:
基于所述映射关系,根据各类簇中的各句向量所对应的各词向量集合,确定与所述各词向量集合对应的各分词集合;
确定与所述各分词集合对应的各文本语句,并将所述各类簇所对应的多个文本语句作为所述各文本语句集。
8.根据权利要求6所述的方法,其特征在于,所述确定所述各个句向量,包括:
计算所述分词集合对应的多个词向量的和向量/平均向量,并将所述和向量/平均向量作为对应的各个句向量。
9.根据权利要求1所述的方法,其特征在于,所述对多个句向量进行聚类处理,包括:
基于聚类算法,对所述多个句向量进行聚类处理,所述聚类算法包括划分聚类算法,层次聚类算法和密度聚类算法中的至少一种。
10.根据权利要求1所述的方法,其特征在于,还包括:
将所述各文本语句集提供给本领域人员,以使所述本领域人员确定与所述各文本语句集对应的各用户意图,以及根据确定出的多个用户意图建立层级意图体系。
11.一种层级意图体系的建立装置,其特征在于,包括:
获取单元,用于获取用户意图语料;
第一确定单元,用于确定与所述用户意图语料对应的多个文本语句;
第二确定单元,用于确定与各个文本语句对应的各个句向量;
聚类单元,用于对多个句向量进行聚类处理,以得到多个类簇;
第三确定单元,用于确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
12.根据权利要求11所述的装置,其特征在于,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点意图。
13.根据权利要求11所述的装置,其特征在于,所述获取单元获取的用户意图语料包括多次历史客服服务所对应的多个历史用户会话;所述第一确定单元具体包括:
处理子单元,用于对所述多个历史用户会话进行预处理;
第一确定子单元,用于根据预处理后的历史用户会话,确定出所述多个文本语句。
14.根据权利要求13所述的装置,其特征在于,所述处理子单元具体用于:
对所述多个历史用户会话中预定类别的数据进行删除处理,所述预定类别的数据包括特殊符号、表情、网址和超过预定字符数的历史用户会话中的至少一种。
15.根据权利要求11所述的装置,其特征在于,所述获取单元获取的用户意图语料包括多个业务类别;所述第一确定单元具体用于:
将所述多个业务类别中的各业务类别作为对应的文本语句。
16.根据权利要求11所述的装置,其特征在于,所述第二确定单元具体包括:
分词子单元,用于对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;
第二确定子单元,用于基于训练的词向量模型,确定所述分词集合中各分词的词向量;
第三确定子单元,用于基于所述各分词的词向量,确定所述各个句向量。
17.根据权利要求16所述的装置,其特征在于,所述第二确定子单元中的词向量模型包括分词与词向量的映射关系;所述第三确定单元具体用于:
基于所述映射关系,根据各类簇中的各句向量所对应的各词向量集合,确定与所述各词向量集合对应的各分词集合;
确定与所述各分词集合对应的各文本语句,并将所述各类簇包括的多个句向量所对应的多个文本语句作为所述各文本语句集。
18.根据权利要求16所述的装置,其特征在于,所述第三确定子单元具体用于:
计算所述分词集合对应的多个词向量的和向量/平均向量,并将所述和向量/平均向量作为对应的各个句向量。
19.根据权利要求11所述的装置,其特征在于,所述聚类单元具体用于:
基于聚类算法,对所述多个句向量进行聚类处理,所述聚类算法包括划分聚类算法,层次聚类算法和密度聚类算法中的至少一种。
20.根据权利要求11所述的装置,其特征在于,还包括:
发送单元,用于将所述各文本语句集提供给本领域人员,以使所述本领域人员确定与所述各文本语句集对应的各用户意图,以及根据确定出的多个用户意图建立层级意图体系。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810580085.3A CN110674287A (zh) | 2018-06-07 | 2018-06-07 | 层级意图体系的建立方法及装置 |
US16/238,695 US20190377793A1 (en) | 2018-06-07 | 2019-01-03 | Method and apparatus for establishing a hierarchical intent system |
PCT/US2019/012285 WO2019236138A1 (en) | 2018-06-07 | 2019-01-04 | Method and apparatus for establishing a hierarchical intent system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810580085.3A CN110674287A (zh) | 2018-06-07 | 2018-06-07 | 层级意图体系的建立方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674287A true CN110674287A (zh) | 2020-01-10 |
Family
ID=68763855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810580085.3A Pending CN110674287A (zh) | 2018-06-07 | 2018-06-07 | 层级意图体系的建立方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190377793A1 (zh) |
CN (1) | CN110674287A (zh) |
WO (1) | WO2019236138A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241245A (zh) * | 2020-01-14 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 人机交互处理方法、装置及电子设备 |
CN111475652A (zh) * | 2020-05-22 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 数据挖掘的方法和系统 |
CN111666400A (zh) * | 2020-07-10 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 消息获取方法、装置、计算机设备及存储介质 |
CN111708880A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 类簇的识别系统及方法 |
CN111930917A (zh) * | 2020-09-23 | 2020-11-13 | 深圳追一科技有限公司 | 对话流程挖掘方法、装置、计算机设备和存储介质 |
CN112035626A (zh) * | 2020-07-06 | 2020-12-04 | 北海淇诚信息科技有限公司 | 一种大规模意图的快速识别方法、装置和电子设备 |
CN113761183A (zh) * | 2020-07-30 | 2021-12-07 | 北京汇钧科技有限公司 | 意图识别方法和意图识别装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199149B (zh) * | 2019-12-17 | 2023-10-20 | 航天信息股份有限公司 | 一种对话系统的语句智能澄清方法及系统 |
CN111833849B (zh) * | 2020-03-10 | 2024-06-11 | 北京嘀嘀无限科技发展有限公司 | 语音识别和语音模型训练的方法及存储介质和电子设备 |
CN111767721A (zh) * | 2020-03-26 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 信息处理方法、装置及设备 |
CN111611366B (zh) * | 2020-05-20 | 2023-08-11 | 北京百度网讯科技有限公司 | 意图识别优化处理方法、装置、设备及存储介质 |
CN111708873B (zh) * | 2020-06-15 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN111666755A (zh) * | 2020-06-24 | 2020-09-15 | 深圳前海微众银行股份有限公司 | 一种复述句识别的方法及装置 |
CN113012687B (zh) * | 2021-03-05 | 2022-05-13 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113157853B (zh) * | 2021-05-27 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 问题挖掘方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157599A1 (en) * | 2007-12-14 | 2009-06-18 | Yahoo! Inc. | Segmentation of search topics in query logs |
US20150189086A1 (en) * | 2013-10-31 | 2015-07-02 | Verint Systems Ltd. | Call flow and discourse analysis |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN107220231A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于自然语言处理的电子设备和方法以及训练方法 |
CN107943860A (zh) * | 2017-11-08 | 2018-04-20 | 北京奇艺世纪科技有限公司 | 模型的训练方法、文本意图的识别方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8548969B2 (en) * | 2010-06-02 | 2013-10-01 | Cbs Interactive Inc. | System and method for clustering content according to similarity |
US9633004B2 (en) * | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10437933B1 (en) * | 2016-08-16 | 2019-10-08 | Amazon Technologies, Inc. | Multi-domain machine translation system with training data clustering and dynamic domain adaptation |
CN107301170B (zh) * | 2017-06-19 | 2020-12-22 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
US10593422B2 (en) * | 2017-12-01 | 2020-03-17 | International Business Machines Corporation | Interaction network inference from vector representation of words |
US10803108B2 (en) * | 2017-12-20 | 2020-10-13 | International Business Machines Corporation | Facilitation of domain and client-specific application program interface recommendations |
-
2018
- 2018-06-07 CN CN201810580085.3A patent/CN110674287A/zh active Pending
-
2019
- 2019-01-03 US US16/238,695 patent/US20190377793A1/en not_active Abandoned
- 2019-01-04 WO PCT/US2019/012285 patent/WO2019236138A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157599A1 (en) * | 2007-12-14 | 2009-06-18 | Yahoo! Inc. | Segmentation of search topics in query logs |
US20150189086A1 (en) * | 2013-10-31 | 2015-07-02 | Verint Systems Ltd. | Call flow and discourse analysis |
CN107220231A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于自然语言处理的电子设备和方法以及训练方法 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN107943860A (zh) * | 2017-11-08 | 2018-04-20 | 北京奇艺世纪科技有限公司 | 模型的训练方法、文本意图的识别方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241245A (zh) * | 2020-01-14 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 人机交互处理方法、装置及电子设备 |
CN111708880A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 类簇的识别系统及方法 |
CN111475652A (zh) * | 2020-05-22 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 数据挖掘的方法和系统 |
CN111475652B (zh) * | 2020-05-22 | 2023-09-22 | 支付宝(杭州)信息技术有限公司 | 数据挖掘的方法和系统 |
CN112035626A (zh) * | 2020-07-06 | 2020-12-04 | 北海淇诚信息科技有限公司 | 一种大规模意图的快速识别方法、装置和电子设备 |
CN111666400A (zh) * | 2020-07-10 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 消息获取方法、装置、计算机设备及存储介质 |
CN111666400B (zh) * | 2020-07-10 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 消息获取方法、装置、计算机设备及存储介质 |
CN113761183A (zh) * | 2020-07-30 | 2021-12-07 | 北京汇钧科技有限公司 | 意图识别方法和意图识别装置 |
CN111930917A (zh) * | 2020-09-23 | 2020-11-13 | 深圳追一科技有限公司 | 对话流程挖掘方法、装置、计算机设备和存储介质 |
CN111930917B (zh) * | 2020-09-23 | 2021-02-05 | 深圳追一科技有限公司 | 对话流程挖掘方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20190377793A1 (en) | 2019-12-12 |
WO2019236138A1 (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674287A (zh) | 层级意图体系的建立方法及装置 | |
US11816440B2 (en) | Method and apparatus for determining user intent | |
US20170124178A1 (en) | Dynamic clustering for streaming data | |
CN110765759B (zh) | 意图识别方法及装置 | |
CN107656948A (zh) | 自动问答系统中的问题聚类处理方法及装置 | |
CN108628830B (zh) | 一种语义识别的方法和装置 | |
CN111488462A (zh) | 基于知识图谱的推荐方法、装置、设备及介质 | |
CN110414005B (zh) | 意图识别方法、电子设备及存储介质 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN113360700A (zh) | 图文检索模型的训练和图文检索方法、装置、设备和介质 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN115248890B (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN113012687B (zh) | 一种信息交互方法、装置及电子设备 | |
US11270357B2 (en) | Method and system for initiating an interface concurrent with generation of a transitory sentiment community | |
US9378466B2 (en) | Data reduction in nearest neighbor classification | |
WO2023245869A1 (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN115952258A (zh) | 政务标签库的生成方法、政务文本的标签确定方法和装置 | |
CN110633468A (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
CN115909376A (zh) | 文本识别方法、文本识别模型训练方法、装置及存储介质 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN114676270A (zh) | 融合知识图谱的模型预训练方法、系统、设备及存储介质 | |
CN114898184A (zh) | 模型训练方法、数据处理方法、装置及电子设备 | |
CN113127639B (zh) | 一种异常会话文本检测方法和装置 | |
CN114416990A (zh) | 对象关系网络的构建方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |
|
RJ01 | Rejection of invention patent application after publication |