CN112148874A - 可自动新增用户潜在意图的意图识别方法及系统 - Google Patents
可自动新增用户潜在意图的意图识别方法及系统 Download PDFInfo
- Publication number
- CN112148874A CN112148874A CN202010647801.2A CN202010647801A CN112148874A CN 112148874 A CN112148874 A CN 112148874A CN 202010647801 A CN202010647801 A CN 202010647801A CN 112148874 A CN112148874 A CN 112148874A
- Authority
- CN
- China
- Prior art keywords
- intention
- user
- training
- text
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 131
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,本发明旨在解决现有意图识别模型不能自动新增用户潜在意图,不能快速响应用户新增意图的识别需求的问题,提出一种可自动新增用户潜在意图的意图识别方法及系统,步骤包括:获取用户输入,识别得到候选意图,识别精度低于阈值时与用户进行交互,根据用户反馈信息得到“潜在意图训练样本”;对多个用户的“潜在意图训练样本”进行数据处理分析,发现并定义新增的意图种类标签,得到“用户新增意图语料库”,通过意图识别模型训练模块,训练新意图识别模型。本发明可实现自动新增用户潜在意图,使得重新训练得到的意图识别模型识别的准确率更高,满足用户的意图种类新增需求,提高用户满意度。
Description
技术领域
本发明涉及自然语言处理技术领域,人工智能领域,数据分析以及人机交互技术领域,具体涉及一种可自动新增用户潜在意图的意图识别方法及系统。
背景技术
意图识别方法是一种根据文本语句,识别该文本的在限定领域内所属于哪种意图的识别方法。随着人工智能的高速发展,在各种领域下智能设备的应用越来越广,特别是与人交互的智能设备,需要通过用户的语音或文本指令,识别用户的意图并以向用户提供相应的服务。例如,用户向智能电视说到“我想看中国有嘻哈”,则识别出用户的意图是播放综艺节目中国有嘻哈,或者,用户向智能魔镜说出“今天天气怎么样”,则魔镜识别出用户的意图是咨询今天天气情况。现有技术中的意图识别方法,在限定的领域意图种类内拥有较高的识别率。如专利201811406805 .0中的方法,可以通过与用户交互标注的方式,对意图识别错误的样本进行标注,并利用这些样本重新训练意图识别模型,以提高识别率。
然而这类方法只能提高已有意图种类的识别率,如果用户所提需求不在已有意图种类,其识别率会很低。使用了意图识别方法或系统的产品,其意图种类往往是在产品开发时就固定好的,但是用户的真实需求是不断变化的,对于这类新增的意图种类需求,现有意图识别方法并不能及时发现并更新模型。另一方面,在当今社会,信息高速发展,每天都会新增很多词汇、概念和定义等全新知识。真实用户使用意图识别模型的过程中,往往会根据最新知识表述自己的需求,这些新知识很有可能会形成某个潜在的新意图需求,而现有意图识别方法也不能识别这些新意图种类,只会将新意图种类识别为已有意图种类之一来执行后续操作,这将降低识别率,并大大影响用户体验。而为了能识别这些新意图种类,需要专门人员进行持续更行维护升级,响应时间不够及时,且对于新意图种类的发现具有片面局限性。
针对相关技术中的伴随用户新知识的增加而自动新增用户潜在意图种类的需求,目前尚未提出有效的解决方案。
发明内容
本发明所要解决的技术问题是:提出一种可自动新增用户潜在意图的意图识别方法及系统,解决现有意图识别模型不能自动新增用户潜在意图,不能快速响应用户新增意图的识别需求的问题。这里所提到的“潜在意图”,指的是原转置或系统未包含或未支持的意图种类,或者是由于社会发展所新兴出现的意图种类。
本发明解决上述技术问题所采用的技术方案是:
可自动新增用户潜在意图的意图识别方法,其特征在于,其包括以下步骤:
步骤1、获取文本:
获取用户输入的多模态输入,并对所述多模态输入进行多模态输入转化,将其转化为文本;或者,直接获得用户输入的文本信息;
步骤2、初步意图识别:
将步骤1获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度。
步骤3、与用户进行交互标注:
将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
步骤4、生成用户新增意图语料库:
对多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;
步骤5、训练新意图识别模型:
将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练模块,训练新意图识别模型。
作为进一步优化,步骤2中,所述意图识别基础模型的构造方法包括:
根据任务要求,获得相关文本并进行标注,得到包含原始文本与意图主题词的训练样本,生成任务相关的训练语料库;使用训练语料库中的数据训练预先构建的神经网络结构,得到所述意图识别基础模型;
所述神经网络结构,根据任务性质需求不同,包括:
多层感知机以及其它变种等;
和/或,卷积神经网络结构以及其它变种等;
和/或,循环神经网络结构以及其它变种等。
作为进一步优化,步骤4中,所述对“潜在意图训练样本”进行数据处理分析,具体包括:
对样本进行过滤去重处理;
和/或,对样本里的标签进行重定义;
和/或,对样本里的标签进行同义词替换;
和/或,对样本里的标签进行TFIDF计算,筛选出排名靠前的标签;
和/或,对样本里的文本进行主题分析;
和/或,对样本里的文本进行聚类分析。
作为进一步优化,步骤5中,所述将“用户新增意图语料库”添加至意图识别模型训练语料库,具体包括:
将“用户新增意图语料库”内的样本直接添加进意图识别模型训练语料库;
或,将“用户新增意图语料库”内的样本按一定倍数添加进意图识别模型训练语料库;
或,将“用户新增意图语料库”内的样本通过人工选择的方式添加进意图识别模型训练语料库。
具体地,所述通过新意图识别模型生成子模块,训练新意图识别模型的步骤如下:
将训练数据集根据预设的意图种类标签进行分类,生成分类标签文本;
将训练数据集进行分词处理得到分词文本,对分词文本进行训练得到词向量,词向量向量化训练数据集得到词向量矩阵文本;
将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。
此外,基于上述可自动新增用户潜在意图的意图识别方法,本发明还提供了一种可自动新增用户潜在意图的意图识别系统,其包括以下模块:
文本获取模块,用于获取文本,其方法至少包括获取用户输入的多模态输入,并对所述多模态输入进行多模态输入转化,将其转化为文本;或者,直接获得用户输入的文本信息;
意图识别与识别精度计算模块,用于将文本获取模块获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度;
潜在意图训练样本生成模块,用于将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
用户新增意图语料库生成模块,用于将多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;
新意图识别模型生成模块,用于将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练单元,训练生成新意图识别模型。
作为进一步优化,所述意图识别与识别精度计算模块的意图识别基础模型的构建方法包括:
根据任务要求,获得相关文本并进行标注,得到包含原始文本与意图主题词的训练样本,生成任务相关的训练语料库;使用训练语料库中的数据训练预先构建的神经网络结构,得到所述意图识别基础模型;
所述神经网络结构,根据任务性质需求不同,包括:
多层感知机以及其它变种等;
和/或,卷积神经网络结构以及其它变种等;
和/或,循环神经网络结构以及其它变种等。
作为进一步优化,所述用户新增意图语料库生成模块,位于云端服务器,可以使用服务器内多个用户的“潜在意图训练样本”进行数据处理分析。
作为进一步优化,所述新意图识别模型生成模块,将“用户新增意图语料库”添加至意图识别模型训练语料库 ,具体方法包括:
将用户新增意图语料库内的样本直接添加到意图识别模型训练语料库;
或,将用户新增意图语料库内的样本按一定的倍数添加到意图识别模型训练语料库。
或,将用户新增意图语料库内的样本通过人工选择的方式添加进意图识别模型训练语料库。
作为进一步优化,所述新意图识别模型生成模块,其意图识别模型训练单元包括:
将训练数据集根据预设的意图种类标签进行分类,生成分类标签文本;
将训练数据集进行分词处理得到分词文本,对分词文本进行训练得到词向量,词向量向量化训练数据集得到词向量矩阵文本;
将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。
本发明的有益效果是:
本发明的可自动新增用户潜在意图的意图识别方法,包括:获取用户输入的多模态输入,并对所述多模态输入进行多模态输入转化,将其转化为文本;或者,直接获得用户输入的文本信息;将获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度。将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;对多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;将“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练模块,训练新意图识别模型。如此可实现自动新增用户潜在意图,使得重新训练得到的意图识别模型识别的准确率更高,也能更快的响应用户的意图种类新增需求,提高用户使用的满意度。
附图说明
图1为本发明的实施例1中的可自动新增用户潜在意图的意图识别方法的流程图;
图2为本发明的实施例2中的可自动新增用户潜在意图的意图识别系统的示意图。
具体实施方式
下面结合附图及实施例对本发明的方案作进一步的描述:
实施例1:
如图1所示,本实施例中的可可自动新增用户潜在意图的意图识别方法包括:
步骤1、获取文本:
获取用户输入的多模态输入,并对所述多模态输入进行多模态输入转化,将其转化为文本;或者,直接获得用户输入的文本信息;
步骤2、初步意图识别:
将步骤1获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度。
步骤3、与用户进行交互标注:
将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
步骤4、生成用户新增意图语料库:
对多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;
步骤5、训练新意图识别模型:
将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练模块,训练新意图识别模型。
可选地,上述可自动新增用户潜在意图的意图识别方法可以但不限于应用于可自动新增用户潜在意图的智能设备的服务查询。例如:用户在智能电视中自动新增用户潜在意图的查询服务、用户在智能手机中自动新增用户潜在意图的查询服务等。
可选地,上述可自动新增用户潜在意图的意图识别方法可以但不限于应用于客户端和服务端。
在具体实现上,上述各个步骤流程实现方案如下:
步骤1中,获取用户输入的多模态输入,并对所述多模态输入进行多模态输入转化,将其转化为文本,或者是直接获得用户输入的文本输入。多模态输入可以是语音信息,语音信息可以通过执行该方法的客户端设备上配置的麦克风等声音传感器来接收,或者通过与客户端设备分离的模块接收。多模态输入转化为文本的方法是通过客户端设备自带的语音识别模块进行转化,或者通过云端的语音识别服务进行转化。
步骤2中,将上步获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度。所述意图识别基础模型是通过以下方式建立的:预先根据任务要求,获得相关文本并进行标注,得到包含原始文本与意图主题词的训练样本,生成任务相关的训练语料库;例如:“查询汇率:今天美元的汇率是多少”这是训练语料库里的一个样本,“查询汇率”表示文本所属的意图主题词,“今天美元的汇率是多少”是文本信息。使用训练语料库中的数据训练预先构建的神经网络结构,得到所述意图识别基础模型
具体地,所述的将训练语料库中的数据输入到预先建立的神经网络结构中进行多次训练,其中的神经网络结构,根据任务性质需求不同,包括:多层感知机以及其它变种等;卷积神经网络结构以及其它变种等;循环神经网络结构以及其它变种等。
步骤3中,将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
具体地,所述的与用户的交互,其方式,包括:通过显示屏以文本的方式向用户展示反馈信息;或者是,通过语音设备以语音的方式向用户展示反馈信息。例如,用户的输入是“播放中国有嘻哈”,通过上步的初步意图识别,得到了其候选意图是“播放音乐”,通过计算识别精度,发现识别精度低于阈值,将原待识别文本“播放中国有嘻哈”和“标注请求”发送给用户,用户通过多模态输入或文本输入的方式将标注种类标签“看综艺节目”反馈回来,形成“看综艺节目:播放中国有嘻哈”这样的一条“潜在意图训练样本”,此时用户完成了一次潜在意图的训练语料的交互标注。
步骤4中,对多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”。
具体地,所述的对“潜在意图训练样本”进行数据处理分析,具体包括:对样本进行过滤去重处理;和/或,对样本里的标签进行重定义;和/或,对样本里的标签进行同义词替换;和/或,对样本里的标签进行TFIDF计算,筛选出排名靠前的标签;和/或,对样本里的文本进行主题分析;和/或,对样本里的文本进行聚类分析。
步骤5中,将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练子模块,训练新意图识别模型。
具体地,所述的将“用户新增意图语料库”添加至意图识别模型训练语料库,包括:将“用户新增意图语料库”内的样本直接添加进意图识别模型训练语料库;或,将“用户新增意图语料库”内的样本按一定倍数添加进意图识别模型训练语料库;或,将“用户新增意图语料库”内的样本通过人工选择的方式添加进意图识别模型训练语料库。
具体地,所述通过新意图识别模型生成子模块,训练新意图识别模型的步骤如下:
将训练数据集根据预设的意图种类标签进行分类,生成分类标签文本;
将训练数据集进行分词处理得到分词文本,对分词文本进行训练得到词向量,词向量向量化训练数据集得到词向量矩阵文本;
将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。
实施例2:
如图2所示,本实施例中的可可自动新增用户潜在意图的意图识别系统包括:
文本获取模块,用于获取文本,其方法至少包括获取用户输入的多模态输入,并对所述多模态输入进行多模态输入转化,将其转化为文本;或者,直接获得用户输入的文本信息;
意图识别与识别精度计算模块,用于将文本获取模块获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度;
潜在意图训练样本生成模块,用于将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
用户新增意图语料库生成模块,用于将多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;
新意图识别模型生成模块,用于将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练单元,训练生成新意图识别模型。
作为方案的进一步优化,所述意图识别与识别精度计算模块的意图识别基础模型的构建方法包括:
根据任务要求,获得相关文本并进行标注,得到包含原始文本与意图主题词的训练样本,生成任务相关的训练语料库;使用训练语料库中的数据训练预先构建的神经网络结构,得到所述意图识别基础模型;所述神经网络结构,根据任务性质需求不同,包括:多层感知机以及其它变种等;和/或,卷积神经网络结构以及其它变种等;和/或,循环神经网络结构以及其它变种等。
作为方案的进一步优化,所述用户新增意图语料库生成模块位于云端服务器,可以使用服务器内多个用户的“潜在意图训练样本”进行数据处理分析。
作为方案的进一步优化,所述新意图识别模型生成模块,其意图识别模型训练单元包括:
将训练数据集根据预设的意图种类标签进行分类,生成分类标签文本;
将训练数据集进行分词处理得到分词文本,对分词文本进行训练得到词向量,词向量向量化训练数据集得到词向量矩阵文本;
将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。
作为方案的进一步优化,所述新意图识别模型生成模块,将“用户新增意图语料库”添加至意图识别模型训练语料库 ,具体方法包括:
将用户新增意图语料库内的样本直接添加到意图识别模型训练语料库;或,将用户新增意图语料库内的样本按一定的倍数添加到意图识别模型训练语料库;或,将用户新增意图语料库内的样本通过人工选择的方式添加进意图识别模型训练语料库。
Claims (7)
1.可自动新增用户潜在意图的意图识别方法,其特征在于包括以下步骤:
步骤1.获取文本:获取用户的多模态输入,并将所述多模态输入转化为文本信息;或者,直接获取用户输入的文本信息;
步骤2.初步意图识别:将步骤1获取的文本,输入意图识别基础模型进行意图识别,得到候选意图,并计算识别精度;
步骤3.与用户进行交互标注:将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
步骤4.生成用户新增意图语料库:对多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;
步骤5.训练新意图识别模型:将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练子模块,训练得到新意图识别模型。
2.如权利要求1所述的可自动新增用户潜在意图的意图识别方法,其特征在于,步骤2中,所述意图识别基础模型的构造方法包括:根据任务要求,获得相关文本并进行标注,得到包含原始文本与意图主题词的训练样本,生成任务相关的训练语料库;使用训练语料库中的数据训练预先构建的神经网络结构,得到所述意图识别基础模型。
3.如权利要求2所述的可自动新增用户潜在意图的意图识别方法,其特征在于,所述神经网络结构,根据任务性质需求不同,至少包括如下结构中的一种:
多层感知机及其变种;
卷积神经网络结构及其变种;
循环神经网络结构及其变种。
4.如权利要求1所述的可自动新增用户潜在意图的意图识别方法,其特征在于,步骤4中,所述对“潜在意图训练样本”进行数据处理分析,至少包括如下步骤中的一个:
对样本进行过滤去重处理;
对样本里的标签进行重定义;
对样本里的标签进行同义词替换;
对样本里的标签进行TFIDF计算,筛选出排名靠前的标签;
对样本里的文本进行主题分析;
对样本里的文本进行聚类分析。
5.如权利要求1所述的可自动新增用户潜在意图的意图识别方法,其特征在于,步骤5中,所述将“用户新增意图语料库”添加至意图识别模型训练语料库,具体为如下步骤中的一个:
将“用户新增意图语料库”内的样本直接添加进意图识别模型训练语料库;
将“用户新增意图语料库”内的样本按一定倍数添加进意图识别模型训练语料库;
将“用户新增意图语料库”内的样本通过人工选择的方式添加进意图识别模型训练语料库。
6.如权利要求1所述的可自动新增用户潜在意图的意图识别系统,其特征在于,步骤5中所述通过意图识别模型训练子模块,训练得到新意图识别模型包括如下步骤:
a.将训练数据集根据预设的意图种类标签进行分类,生成分类标签文本;
b.将训练数据集进行分词处理得到分词文本,对分词文本进行训练得到词向量,词向量向量化训练数据集得到词向量矩阵文本;
c.将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。
7.可自动新增用户潜在意图的意图识别系统,其特征在于,其包括以下模块:
文本获取模块,用于获取用户的多模态输入,并将所述多模态输入转化为文本信息,或者,直接获取用户输入的文本信息;
意图识别与识别精度计算模块,用于将文本获取模块获取的文本,根据意图识别基础模型进行意图识别,得到候选意图,并计算识别精度;
潜在意图训练样本生成模块,用于将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户,接收用户通过多模态输入或文本输入的方式反馈的种类标签,并将原待识别文本和所述种类标签组成“潜在意图训练样本”;
用户新增意图语料库生成模块,用于将多个用户的“潜在意图训练样本”进行数据处理分析,发现原意图识别基础模型未包含的意图种类,并定义新增的意图种类标签,最终得到“用户新增意图语料库”;
新意图识别模型生成模块,用于将所述“用户新增意图语料库”添加至意图识别模型训练语料库,通过意图识别模型训练子模块,训练生成新意图识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647801.2A CN112148874A (zh) | 2020-07-07 | 2020-07-07 | 可自动新增用户潜在意图的意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647801.2A CN112148874A (zh) | 2020-07-07 | 2020-07-07 | 可自动新增用户潜在意图的意图识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148874A true CN112148874A (zh) | 2020-12-29 |
Family
ID=73889127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010647801.2A Pending CN112148874A (zh) | 2020-07-07 | 2020-07-07 | 可自动新增用户潜在意图的意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148874A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966088A (zh) * | 2021-03-19 | 2021-06-15 | 北京三快在线科技有限公司 | 未知意图的识别方法、装置、设备及存储介质 |
CN113806485A (zh) * | 2021-09-23 | 2021-12-17 | 厦门快商通科技股份有限公司 | 一种基于小样本冷启动的意图识别方法、装置及可读介质 |
CN115269809A (zh) * | 2022-09-19 | 2022-11-01 | 支付宝(杭州)信息技术有限公司 | 意图识别模型的训练方法和装置及意图识别方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951548A (zh) * | 2015-06-24 | 2015-09-30 | 烟台中科网络技术研究所 | 一种负面舆情指数的计算方法及系统 |
CN106407333A (zh) * | 2016-09-05 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询识别方法及装置 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN109189901A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
CN109241288A (zh) * | 2018-10-12 | 2019-01-18 | 平安科技(深圳)有限公司 | 文本分类模型的更新训练方法、装置及设备 |
CN109284386A (zh) * | 2018-10-15 | 2019-01-29 | 四川长虹电器股份有限公司 | 可定制的意图识别方法及装置 |
CN109508376A (zh) * | 2018-11-23 | 2019-03-22 | 四川长虹电器股份有限公司 | 可在线纠错更新的意图识别方法及装置 |
CN110489550A (zh) * | 2019-07-16 | 2019-11-22 | 招联消费金融有限公司 | 基于组合神经网络的文本分类方法、装置和计算机设备 |
CN110555096A (zh) * | 2018-06-01 | 2019-12-10 | 深圳狗尾草智能科技有限公司 | 用户意图识别方法、系统、终端及介质 |
CN110633724A (zh) * | 2018-06-25 | 2019-12-31 | 中兴通讯股份有限公司 | 意图识别模型动态训练方法、装置、设备和存储介质 |
CN110781294A (zh) * | 2018-07-26 | 2020-02-11 | 国际商业机器公司 | 训练语料库细化和增量更新 |
CN110968686A (zh) * | 2018-09-28 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备及计算机可读介质 |
CN111324727A (zh) * | 2020-02-19 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 用户意图识别方法、装置、设备和可读存储介质 |
-
2020
- 2020-07-07 CN CN202010647801.2A patent/CN112148874A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951548A (zh) * | 2015-06-24 | 2015-09-30 | 烟台中科网络技术研究所 | 一种负面舆情指数的计算方法及系统 |
CN106407333A (zh) * | 2016-09-05 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询识别方法及装置 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN110555096A (zh) * | 2018-06-01 | 2019-12-10 | 深圳狗尾草智能科技有限公司 | 用户意图识别方法、系统、终端及介质 |
CN110633724A (zh) * | 2018-06-25 | 2019-12-31 | 中兴通讯股份有限公司 | 意图识别模型动态训练方法、装置、设备和存储介质 |
CN110781294A (zh) * | 2018-07-26 | 2020-02-11 | 国际商业机器公司 | 训练语料库细化和增量更新 |
CN109189901A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
CN110968686A (zh) * | 2018-09-28 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备及计算机可读介质 |
CN109241288A (zh) * | 2018-10-12 | 2019-01-18 | 平安科技(深圳)有限公司 | 文本分类模型的更新训练方法、装置及设备 |
CN109284386A (zh) * | 2018-10-15 | 2019-01-29 | 四川长虹电器股份有限公司 | 可定制的意图识别方法及装置 |
CN109508376A (zh) * | 2018-11-23 | 2019-03-22 | 四川长虹电器股份有限公司 | 可在线纠错更新的意图识别方法及装置 |
CN110489550A (zh) * | 2019-07-16 | 2019-11-22 | 招联消费金融有限公司 | 基于组合神经网络的文本分类方法、装置和计算机设备 |
CN111324727A (zh) * | 2020-02-19 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 用户意图识别方法、装置、设备和可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966088A (zh) * | 2021-03-19 | 2021-06-15 | 北京三快在线科技有限公司 | 未知意图的识别方法、装置、设备及存储介质 |
CN112966088B (zh) * | 2021-03-19 | 2022-06-03 | 北京三快在线科技有限公司 | 未知意图的识别方法、装置、设备及存储介质 |
CN113806485A (zh) * | 2021-09-23 | 2021-12-17 | 厦门快商通科技股份有限公司 | 一种基于小样本冷启动的意图识别方法、装置及可读介质 |
CN113806485B (zh) * | 2021-09-23 | 2023-06-23 | 厦门快商通科技股份有限公司 | 一种基于小样本冷启动的意图识别方法、装置及可读介质 |
CN115269809A (zh) * | 2022-09-19 | 2022-11-01 | 支付宝(杭州)信息技术有限公司 | 意图识别模型的训练方法和装置及意图识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111667811B (zh) | 语音合成方法、装置、设备和介质 | |
JP7334395B2 (ja) | ビデオ分類方法、装置、機器、および記憶媒体 | |
CN109325148A (zh) | 生成信息的方法和装置 | |
CN112148874A (zh) | 可自动新增用户潜在意图的意图识别方法及系统 | |
CN111666380A (zh) | 一种智能呼叫方法、装置、设备和介质 | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN112201228A (zh) | 一种基于人工智能的多模态语义识别服务接入方法 | |
CN108268450B (zh) | 用于生成信息的方法和装置 | |
CN113705299A (zh) | 一种视频识别的方法、装置及存储介质 | |
US11749255B2 (en) | Voice question and answer method and device, computer readable storage medium and electronic device | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN110991179A (zh) | 基于电力专业术语的语义分析方法 | |
CN109284386A (zh) | 可定制的意图识别方法及装置 | |
CN112035626A (zh) | 一种大规模意图的快速识别方法、装置和电子设备 | |
CN112417121A (zh) | 客户意图识别方法、装置、计算机设备及存储介质 | |
CN111881283A (zh) | 一种业务关键词库创建方法、智能聊天引导方法及装置 | |
CN113806588A (zh) | 搜索视频的方法和装置 | |
CN115392264A (zh) | 一种基于rasa的任务型智能多轮对话方法及相关设备 | |
CN111611366A (zh) | 意图识别优化处理方法、装置、设备及存储介质 | |
CN111538817A (zh) | 人机交互方法和装置 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN115688758A (zh) | 一种语句意图识别方法、装置和存储介质 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201229 |