CN109753565A - 知识产权智能服务方法及系统 - Google Patents
知识产权智能服务方法及系统 Download PDFInfo
- Publication number
- CN109753565A CN109753565A CN201811611020.7A CN201811611020A CN109753565A CN 109753565 A CN109753565 A CN 109753565A CN 201811611020 A CN201811611020 A CN 201811611020A CN 109753565 A CN109753565 A CN 109753565A
- Authority
- CN
- China
- Prior art keywords
- user
- module
- term vector
- model
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明专利公开了知识产权智能服务方法及系统,该生成方法具体包括通过机器学习算法将用户的输入文本抽取出词向量,并对词向量进行实体标注;标注的结果与用户意图形成关联对。使用人工判断生成的若干关联对作为训练数据集对用户意图分类系统进行数据训练,并生成预测模型。该分类系统具体包括将用户意图进行词向量提取及实体识别,并分发至不同的语义处理系统进行具体处理。本发明解决复合用户需求环境下的输入文本处理问题,通过意图分类将用户的输入文本分发至不同的语义处理系统,并作出最佳反馈,有效提高了反馈的准确率。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于机器学习算法的知识产权智能服务方法及系统。
背景技术
为了提高工作效用和智能化,在越来越多的领域,开始使用人工智能对人类的自然语言进行理解和反馈。特别是随着机器学习算法的不断革新,对于自然语言的处理和理解都有了显著的进步,特别是利用循环神经网络(RNN)构建的自然语言处理,兼顾考虑了文字的上下文联系,更加符合人类的语言习惯,在机器翻译等多种应用场景均取得了相当大的进步。
智能聊天机器人基于机器学习对自然语言处理算法构建。其中,为了解决特定任务的聊天机器人,称为任务型对话机器人。任务型机器人通常在特定条件下提供信息或服务。通常情况下,是为了满足带有明确目的的用户,例如查流量、查话费、订票、定餐、定票、咨询等任务型场景。任务型聊天机器人已经广泛应用于多种智能设备的交互接口,应用于各种交互场景中,解决咨询和服务链入问题。
知识产权服务领域本质上也与其他服务领域相同,存在着大量的基础交互场景。而知识产权服务机构的日常工作中,仍有相当大一部分的工作内容是在给客户解释知识产权基础概念,帮客户查询知识产权数据库的相应信息,以及给客户知识产权服务项目的选择建议。基础沟通场景中,消耗了知识产权服务机构的大量时间,增加了运营成本。此外,由于知识产权行业属于科技和法律的交叉学科,涉及面广,服务人员的知识面难免有所缺失,无法及时给客户最快速准确的答案。
将聊天机器人应用于知识产权服务领域,存在着以下难点:(1)用户通常不具备知识产权基础知识,提出的问题通常语义模糊,无法精确对应至相应的实体概念,且知识产权属于法律和科技的交叉领域,大部分问题均较有深度,普通日常对话机器人的训练方式无法适应知识产权服务场景的应用需求;(2)不同的应用场景,用户的沟通侧重点不同,例如,咨询场景下,需要回复尽可能详尽的解释,而在服务导引场景下,需要尽可能简介地引导用户至知识产权服务商;(3)不同应用场景中,存在着需求的交叉,例如,咨询场景下,用户可能在解决了概念性困惑后,需要转向服务导引场景。
本申请旨在克服知识产权服务领域聊天机器人的难点,提出一种基于机器学习算法的知识产权智能服务方法及系统。
发明内容
本发明专利的目的在于解决复合用户需求环境下的输入文本处理问题,通过意图分类将用户的输入文本分发至不同的语义处理系统,并作出最佳反馈,有效提高了反馈的准确率。
为实现上述目的,本发明提出了知识产权智能服务方法,包括如下步骤:
获取用户输入信息,将用户输入文本转化为序列化的词向量;
对序列化的词向量通过基于机器学习的序列分类算法进行用户意图分类,该用户意图分类具体为概念性问答类、查询需求类和服务导引类三类;
当用户意图分类为概念性问答类时,所述序列化的词向量输入基于机器学习的概念性问答算法模型,返回相应的知识产权问题回答;
当用户意图分类为查询需求类时,所述序列化的词向量输入查询算法模型,返回相应的知识产权数据查询结果;
当用户意图分类为服务导引类时,所述序列化的词向量输入基于机器学习的服务导引算法模型,返回相应的知识产权服务接口。
其中一较佳实施例中,所述用户输入信息为文本、图像和语音中的一种或多种。
其中一较佳实施例中,所述序列分类算法通过CNN-LSTM算法模型实现,具体包括:
输入层,获得序列化的词向量;
LSTM层,对序列化的词向量通过序列模型进行筛选,并保留具有语义特征的词向量,所述序列建模的参数通过基于机器学习的数据训练获得;
CNN层,通过CNN模型对获得的具有语义特征的词向量进行分类计算;
输出层,将分类计算获得的分类结果对应至样本空间,输出样本空间所对应的分类特征,该分类特征具体为概念性问答类、查询需求类和服务导引类三类。
其中一较佳实施例中,所述基于机器学习的概念性问答算法模型具体,包括如下步骤:
开始一轮问答对话,获得用户的输入信息,对用户输入信息提取序列化的词向量;
使用基于机器学习的语义识别模型对序列化的词向量进行语义识别,并获得语义特征向量;
将所获得的输入信息的语义特征向量与预设问答库中问题的语义特征向量通过基于机器学习的序列匹配算法进行匹配度计算;
如问答库中存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;
如问答库中不存在匹配度高于匹配度阈值的语义特征向量,则根据缺失的语义特征向量信息,返回引导信息,并在用户补充输入信息后,并根据用户补充输入信息,返回序列匹配算法步骤,再次执行;
保存用户输入信息和补充输入信息的语义特征向量,结束本轮问答对话。
其中一较佳实施例中,所述查询算法模型具体包括如下步骤:
获得用户输入信息;
解析提取的实体,并填充至查询行为模型的槽位;
当查询行为模型槽位完全匹配,将查询槽位中的实体信息格式转化为对应数据库的查询语句,并返回查询的数据结果;
当查询行为模型的槽位均无法完全匹配,输出该查询行为模型的缺失槽位的引导提示信息。
其中一较佳实施例中,所述基于机器学习的服务导引算法模型具体包括如下步骤:
获得用户输入信息,对用户输入信息提取序列化的词向量;
使用基于机器学习的实体识别模型对提取的序列化的词向量进行实体类型标注;
使用序列化的词向量作为基于机器学习的分类模型进行用户意图分类;
根据获得的用户意图分类选择相应的内容槽位模型,将具有实体类型标注的词向量填充至所述内容槽位模型;
根据填充有实体类型标注的词向量的内容槽位模型,返回所对应的知识产权服务接口。
本发明还提出了一种知识产权智能服务系统,包括用户意图分类子系统、概念性解答子系统、查询需求子系统和服务导引子系统;
用户意图分类子系统,读取用户的输入信息,通过基于机器学习算法的用户意图分类模型,将用户的输入文本归类至概念性问答类、查询需求类和服务导引类三类;分类于概念性问答类的用户输入信息并根据所预测的用户意图将输入文本分别输出至概念性解答子系统、查询需求子系统和服务导引子系统;
概念性解答子系统,包括通过基于机器学习的对话建模算法获得的对话应答模块,该对话应答器根据用户的输入文本生成相应的对话应答;
查询需求子系统,包括基于机器学习算法识别输入文本的包括查询匹配模型,该查询匹配模型根据用户的输入文本生成相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果;
服务导引子系统,包括基于机器学习算法识别输入文本的包括服务模板匹配模块,该服务模板匹配模块根据用户的输入文本生成相应的服务请求,并提供相应的知识产权服务接口。
其中一较佳实施例中,所述概念性解答子系统包括输入获取模块、词向量提取模块、语义识别模块、问答库、序列匹配模块和匹配度测算模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
语义识别模块,用于使用基于机器学习的语义识别模型对获取的序列化的词向量提取语义特征向量;
问答库,用于储存问答对,且问答对中的问题通过所述语义识别模块提取出语义特征向量,以用于序列匹配模块进行匹配度计算;
序列匹配模块,用于使用基于机器学习的序列匹配算法进行匹配度计算,该匹配度计算的用户输入信息产生的语义特征向量和问答库中问题的语义特征向量进行匹配度计算;
匹配度阈值控制模块,用于将序列匹配模块计算获得的匹配度与预设的匹配度判断阈值比较,如存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;如不存在匹配度高于匹配度阈值的语义特征向量,返回引导信息,以获得更多用户输入信息。
其中一较佳实施例中,所述查询需求子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、内容槽位模型填充模块和查询数据模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
内容槽位模型填充模块,将具有实体标注的词向量填充至内容槽位模型;
查询数据模块,将填充有词向量的内容槽位模型转化为相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果。
其中一较佳实施例中,所述服务导引子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、用户意图分类模块、内容槽位模型填充模块和服务导引模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
用户意图分类模块,用于使用基于机器学习的分类模型对获得的序列化的词向量进行用户意图分类;
内容槽位模型填充模块,用于根据获得的用户意图分类选择内容槽位模型,并根据具有实体标注的词向量填充至该内容槽位模型;
服务导引模块,用于根据填充有词向量的内容槽位模型返回知识产权服务接口。
本发明还提出了一种知识产权智能服务系统,包括用户意图分类子系统、概念性解答子系统、查询需求子系统和服务导引子系统;
用户意图分类子系统,读取用户的输入信息,通过基于机器学习算法的用户意图分类模型,将用户的输入文本归类至概念性问答类、查询需求类和服务导引类三类;分类于概念性问答类的用户输入信息并根据所预测的用户意图将输入文本分别输出至概念性解答子系统、查询需求子系统和服务导引子系统;
概念性解答子系统,包括通过基于机器学习的对话建模算法获得的对话应答模块,该对话应答器根据用户的输入文本生成相应的对话应答;
查询需求子系统,包括基于机器学习算法识别输入文本的包括查询匹配模型,该查询匹配模型根据用户的输入文本生成相应的数据库查询语句,并外链查询相应数据库,返回查询信息;
服务导引子系统,包括基于机器学习算法识别输入文本的包括服务模板匹配模块,该服务模板匹配模块根据用户的输入文本生成相应的服务请求,并提供相应的知识产权服务接口。
其中一较佳实施例中,所述概念性解答子系统包括输入获取模块、词向量提取模块、语义识别模块、问答库、序列匹配模块和匹配度测算模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
语义识别模块,用于使用基于机器学习的语义识别模型对获取的序列化的词向量提取语义特征向量;
问答库,用于储存问答对,且问答对中的问题通过所述语义识别模块提取出语义特征向量,以用于序列匹配模块进行匹配度计算;
序列匹配模块,用于使用基于机器学习的序列匹配算法进行匹配度计算,该匹配度计算的用户输入信息产生的语义特征向量和问答库中问题的语义特征向量进行匹配度计算;
匹配度阈值控制模块,用于将序列匹配模块计算获得的匹配度与预设的匹配度判断阈值比较,如存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;如不存在匹配度高于匹配度阈值的语义特征向量,返回引导信息,以获得更多用户输入信息。
其中一较佳实施例中,所述查询需求子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、内容槽位模型填充模块和查询数据模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
内容槽位模型填充模块,将具有实体标注的词向量填充至内容槽位模型;
查询数据模块,将填充有词向量的内容槽位模型转化为相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果。
其中一较佳实施例中,所述服务导引子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、用户意图分类模块、内容槽位模型填充模块和服务导引模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
用户意图分类模块,用于使用基于机器学习的分类模型对获得的序列化的词向量进行用户意图分类;
内容槽位模型填充模块,用于根据获得的用户意图分类选择内容槽位模型,并根据具有实体标注的词向量填充至该内容槽位模型;
服务导引模块,用于根据填充有词向量的内容槽位模型返回知识产权服务接口。
本发明还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行应用上述的知识产权智能服务方法的步骤。
本发明还提出了一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行应用上述的知识产权智能服务方法的步骤
采用上述技术方案,本发明专利具有以下有益效果:
(1)本发明提出的智能服务方法,使用机器学习的方法,对用户的输入信息进行初步分类,并细分至三个独立的实体提取模型:概念解答实体模型、查询需求实体模型和服务导引实体模型。使得三种需求的文本的自然语言处理各自独立,实现不同应用场景下的适用。
(2)本发明采用双向LSTM模型处理输入文本,考虑到了不同词组之间的上下文联系,进而使用CRF模型防止由于部分局部极小值导致分类错误。通过测试数据显示,BiLSTM-CRF模型在文本语义识别及意图分类的任务中表现出色。
(3)用户输入文本同时作为三个用户意图分类的输入,并对每个,将不同分类输出分别作为其他分类的输入,当用户输入同时满足多个用户意图分类时,通过自然语言组合后将多个模块的输出结果组合后输出。
以下结合附图及实施例对本发明作进一步详细说明;但本发明的基于机器学习算法的用户意图分类器的生成方法不局限于实施例。
附图说明
图1是本发明的知识产权智能服务方法的步骤框图;
图2是本发明的知识产权智能服务系统的结构框图;
图3是BiLSTM-CRF模型的结构图;
图4是LSTM基本单元的结构示意图;
图5是CNN-LSTM模型的局部结构图;
图6是CNN-LSTM模型的全流程结构图。
具体实施方式
下面结合附图和具体实施例对本发明专利作进一步说明。
参见图1所示,本发明的知识产权智能服务方法,包括如下步骤:
S100获取用户输入信息,将用户输入文本转化为序列化的词向量。
S101该用户输入信息可为文本、图片和语音中的一种或多种,其中,文本信息通过word2vec算法转换为词向量;图片信息通过图片文本转换模块将图片中的文字信息转化为文本信息,而后处理方法同文本信息;语音信息通过语音文本转换模块将语音信息转化为文本信息,而后处理方式同文本信息;图片文本转换模块、语音文本转换模块均有已公开的软件或开源算法可供选择,本文不再做具体描述说明。
步骤S100旨在对自然语言编码化,即形成词嵌入(Embedding),word2vec是一种常用的词向量转化模型,保留词向量之间的排序即形成了序列化的词向量。
S200对序列化的词向量通过基于机器学习的序列分类算法进行用户意图分类,该用户意图分类具体为概念性问答类、查询需求类和服务导引类三类;
所述序列分类算法通过CNN-LSTM算法模型实现,模型的整体结构参见图6所示,具体包括:
S210输入层,获得序列化的词向量;
S220LSTM层,对序列化的词向量通过序列模型进行筛选,并保留具有语义特征的词向量,所述序列建模的参数通过基于机器学习的数据训练获得;
LSTM模型是一种RNN网络,能将上下文联系纳入网络模型。除本发明所用的循环神经网络(RNN)之外,使用机器学习分类模型为卷积神经网络(CNN)或分层注意网络(HAN)均能实现相应的预测功能。由于RNN网络在自然语言处理上更加贴近人类的语言习惯,故本发明选用了RNN网络作为机器学习的神经网络模型。
S230CNN层,通过CNN模型对获得的具有语义特征的词向量进行分类计算,CNN层的结构参见图5所示;
S231读入LSTM层的输出,并组成词向量矩阵;
S232卷积层,选择一个大小的卷积窗口(n*m),n为窗口内词的个数,m为词向量维度;通过卷积核对卷积窗口进行特征过滤;
S233池化层,对卷积层的结果进行数据规模的压缩,在固定的窗格大小中取最大值(也可取平均值),同时过滤由于噪音造成的数值波动;
S240输出层,通过SOFTMAX函数将分类计算获得的分类结果对应至样本空间,输出样本空间所对应的分类特征,该分类特征具体为概念性问答类、查询需求类和服务导引类三类。
S300当用户意图分类为概念性问答类时,所述序列化的词向量输入基于机器学习的概念性问答算法模型,返回相应的知识产权问题回答;
所述基于机器学习的概念性问答算法模型具体,包括如下步骤:
S310开始一轮问答对话,获得用户的输入信息,对用户输入信息提取序列化的词向量;
S320使用基于机器学习的语义识别模型对序列化的词向量进行语义识别,并获得语义特征向量;
S330将所获得的输入信息的语义特征向量与预设问答库中问题的语义特征向量通过基于机器学习的序列匹配算法进行匹配度计算;
S340如问答库中存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;
S350如问答库中不存在匹配度高于匹配度阈值的语义特征向量,则根据缺失的语义特征向量信息,返回引导信息,并在用户补充输入信息后,并根据用户补充输入信息,返回序列匹配算法步骤,再次执行;
S360保存用户输入信息和补充输入信息的语义特征向量,结束本轮问答对话。
S400当用户意图分类为查询需求类时,所述序列化的词向量输入查询算法模型,返回相应的知识产权数据查询结果;
所述查询算法模型具体包括如下步骤:
S410获得用户输入信息;
S420解析提取的实体,并填充至查询行为模型的槽位;
S430当查询行为模型槽位完全匹配,将查询槽位中的实体信息格式转化为对应数据库的查询语句,并返回查询的数据结果;
S440当查询行为模型的槽位均无法完全匹配,输出该查询行为模型的缺失槽位的引导提示信息。
S500当用户意图分类为服务导引类时,所述序列化的词向量输入基于机器学习的服务导引算法模型,返回相应的知识产权服务接口。
所述基于机器学习的服务导引算法模型具体包括如下步骤:
S510获得用户输入信息,对用户输入信息提取序列化的词向量;
S520使用基于机器学习的实体识别模型对提取的序列化的词向量进行实体类型标注;
S530使用序列化的词向量作为基于机器学习的分类模型进行用户意图分类;
S540根据获得的用户意图分类选择相应的内容槽位模型,将具有实体类型标注的词向量填充至所述内容槽位模型;
S550根据填充有实体类型标注的词向量的内容槽位模型,返回所对应的知识产权服务接口。
参见图2所示,本发明所提出的知识产权智能服务系统,包括用户意图分类子系统、概念性解答子系统、查询需求子系统和服务导引子系统;
用户意图分类子系统,读取用户的输入信息,通过基于机器学习算法的用户意图分类模型,将用户的输入文本归类至概念性问答类、查询需求类和服务导引类三类;分类于概念性问答类的用户输入信息并根据所预测的用户意图将输入文本分别输出至概念性解答子系统、查询需求子系统和服务导引子系统;
概念性解答子系统,包括通过基于机器学习的对话建模算法获得的对话应答模块,该对话应答器根据用户的输入文本生成相应的对话应答;
查询需求子系统,包括基于机器学习算法识别输入文本的包括查询匹配模型,该查询匹配模型根据用户的输入文本生成相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果;
服务导引子系统,包括基于机器学习算法识别输入文本的包括服务模板匹配模块,该服务模板匹配模块根据用户的输入文本生成相应的服务请求,并提供相应的知识产权服务接口。
其中,所述概念性解答子系统包括输入获取模块、词向量提取模块、语义识别模块、问答库、序列匹配模块和匹配度测算模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
语义识别模块,用于使用基于机器学习的语义识别模型对获取的序列化的词向量提取语义特征向量;
问答库,用于储存问答对,且问答对中的问题通过所述语义识别模块提取出语义特征向量,以用于序列匹配模块进行匹配度计算;所述查询需求子系统的查询服务和服务导引系统的服务外链接口作为该问答库的两类输出,加入数据训练,即用户的对话数据中,如最匹配的回答为查询相应数据库或导向服务接口,则返回跳转信息,跳转至查询需求子系统或服务导引子系统进行处理;
序列匹配模块,用于使用基于机器学习的序列匹配算法进行匹配度计算,该匹配度计算的用户输入信息产生的语义特征向量和问答库中问题的语义特征向量进行匹配度计算;
匹配度阈值控制模块,用于将序列匹配模块计算获得的匹配度与预设的匹配度判断阈值比较,如存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;如不存在匹配度高于匹配度阈值的语义特征向量,返回引导信息,以获得更多用户输入信息。
其中,所述查询需求子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、内容槽位模型填充模块和查询数据模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
内容槽位模型填充模块,将具有实体标注的词向量填充至内容槽位模型;
查询数据模块,将填充有词向量的内容槽位模型转化为相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果。
其中,所述服务导引子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、用户意图分类模块、内容槽位模型填充模块和服务导引模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
用户意图分类模块,用于使用基于机器学习的分类模型对获得的序列化的词向量进行用户意图分类;
内容槽位模型填充模块,用于根据获得的用户意图分类选择内容槽位模型,并根据具有实体标注的词向量填充至该内容槽位模型;
服务导引模块,用于根据填充有词向量的内容槽位模型返回知识产权服务接口。该知识产权服务接口由运营商提供的知识产权服务接口及第三方服务商提供的知识产权接口构成。
以下将列举三个应用实例解释本发明的工作过程。
一、概念性问答类
本步骤的目的在于通过自然语言理解将用户文本转化为规范化向量。
可分为用户意图识别步骤和槽位提取步骤。而最终将用户的输入文本解析为act(slot1=value1,slot2=value2......)的形式,即意图、槽位、槽位信息三元组形式。
用户意图识别子模块通过LSTM模型实现,对整个句子所属意图进行标注,采用极大化槽位与意图的似然来求解模型参数。
槽位提取子模块将文本中的信息匹配提取至相应的意图模板中,以下以几个输入文本为例,具体说明自然语言理解模块的输出格式:
用户输入“注册商标需要多少时间?”该输入文本的意图将会被分类至概念解答类(Knowledge),槽位一为提问领域,相应的槽位信息为“商标”;槽位二为行为,相应的槽位信息为“注册”;槽位三为提问内容,相应的槽位信息为“多少时间”。即最后生成的解析格式为Knowledge(Area=商标;Action=注册;Content=多少时间)。
二、查询需求类
用户发送图片或PDF文件(专利受理通知书)。系统识别图片,获取图片中的文字信息,包括申请号、专利名称、通知书发出时间。并以提取的文字内容构成序列化的词向量。匹配计算后,不满足任一用户意图分类的达成条件,继续返回提示信息,“已识别为专利流程文件,是否进行更多操作?”
用户输入“查询相关专利。”该输入文本与之前发送的用户输入信息相结合,将会被分类至查询类(Search),槽位一为查询领域,相应的槽位信息为“专利”;槽位二为行为,相应的槽位信息为“注册”;槽位三为提问内容,相应的槽位信息为“聊天机器人”。即最后生成的解析格式为Search(Area=专利;Action=查询;Content=聊天机器人)。
三、服务导引类
用户发送语音,系统将输入语义识别转化为文字,识别为“我要申请专利。”该输入文本的意图将会被分类至服务类(Server),槽位一为服务领域,相应的槽位信息为“专利”;槽位二为行为,相应的槽位信息为“申请”;槽位三为服务内容,相应的槽位信息为“申请专利”。即最后生成的解析格式为Server(Area=专利;Action=申请;Content=申请专利)。
以上所述仅为本发明较佳实施例,故不能依此限定本发明的技术范围,故凡依本发明的技术实质及说明书内容所作的等效变化与修饰,均应属本发明技术方案的范围内。
Claims (10)
1.知识产权智能服务方法,其特征在于,包括如下步骤:
获取用户输入信息,将用户输入文本转化为序列化的词向量;
对序列化的词向量通过基于机器学习的序列分类算法进行用户意图分类,该用户意图分类具体为概念性问答类、查询需求类和服务导引类三类;
当用户意图分类为概念性问答类时,所述序列化的词向量输入基于机器学习的概念性问答算法模型,返回相应的知识产权问题回答;
当用户意图分类为查询需求类时,所述序列化的词向量输入查询算法模型,返回相应的知识产权数据查询结果;
当用户意图分类为服务导引类时,所述序列化的词向量输入基于机器学习的服务导引算法模型,返回相应的知识产权服务接口。
2.根据权利要求1所述的知识产权智能服务方法,其特征在于:所述用户输入信息为文本、图像和语音中的一种或多种。
3.根据权利要求1所述的知识产权智能服务方法,其特征在于,所述序列分类算法通过CNN-LSTM算法模型实现,具体包括:
输入层,获得序列化的词向量;
LSTM层,对序列化的词向量通过序列模型进行筛选,并保留具有语义特征的词向量,所述序列建模的参数通过基于机器学习的数据训练获得;
CNN层,通过CNN模型对获得的具有语义特征的词向量进行分类计算;
输出层,将分类计算获得的分类结果对应至样本空间,输出样本空间所对应的分类特征,该分类特征具体为概念性问答类、查询需求类和服务导引类三类。
4.根据权利要求1所述的知识产权智能服务方法,其特征在于:所述基于机器学习的概念性问答算法模型具体,包括如下步骤:
开始一轮问答对话,获得用户的输入信息,对用户输入信息提取序列化的词向量;
使用基于机器学习的语义识别模型对序列化的词向量进行语义识别,并获得语义特征向量;
将所获得的输入信息的语义特征向量与预设问答库中问题的语义特征向量通过基于机器学习的序列匹配算法进行匹配度计算;
如问答库中存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;
如问答库中不存在匹配度高于匹配度阈值的语义特征向量,则根据缺失的语义特征向量信息,返回引导信息,并在用户补充输入信息后,并根据用户补充输入信息,返回序列匹配算法步骤,再次执行;
保存用户输入信息和补充输入信息的语义特征向量,结束本轮问答对话。
5.根据权利要求1所述的知识产权智能服务方法,其特征在于,所述查询算法模型具体包括如下步骤:
获得用户输入信息;
解析提取的实体,并填充至查询行为模型的槽位;
当查询行为模型槽位完全匹配,将查询槽位中的实体信息格式转化为对应数据库的查询语句,并返回查询的数据结果;
当查询行为模型的槽位均无法完全匹配,输出该查询行为模型的缺失槽位的引导提示信息。
6.根据权利要求1所述的知识产权智能服务方法,其特征在于,所述基于机器学习的服务导引算法模型具体包括如下步骤:
获得用户输入信息,对用户输入信息提取序列化的词向量;
使用基于机器学习的实体识别模型对提取的序列化的词向量进行实体类型标注;
使用序列化的词向量作为基于机器学习的分类模型进行用户意图分类;
根据获得的用户意图分类选择相应的内容槽位模型,将具有实体类型标注的词向量填充至所述内容槽位模型;
根据填充有实体类型标注的词向量的内容槽位模型,返回所对应的知识产权服务接口。
7.知识产权智能服务系统,其特征在于:包括用户意图分类子系统、概念性解答子系统、查询需求子系统和服务导引子系统;
用户意图分类子系统,读取用户的输入信息,通过基于机器学习算法的用户意图分类模型,将用户的输入文本归类至概念性问答类、查询需求类和服务导引类三类;分类于概念性问答类的用户输入信息并根据所预测的用户意图将输入文本分别输出至概念性解答子系统、查询需求子系统和服务导引子系统;
概念性解答子系统,包括通过基于机器学习的对话建模算法获得的对话应答模块,该对话应答器根据用户的输入文本生成相应的对话应答;
查询需求子系统,包括基于机器学习算法识别输入文本的包括查询匹配模型,该查询匹配模型根据用户的输入文本生成相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果;
服务导引子系统,包括基于机器学习算法识别输入文本的包括服务模板匹配模块,该服务模板匹配模块根据用户的输入文本生成相应的服务请求,并提供相应的知识产权服务接口。
8.根据权利要求7所述的知识产权智能服务系统,其特征在于:
所述概念性解答子系统包括输入获取模块、词向量提取模块、语义识别模块、问答库、序列匹配模块和匹配度测算模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
语义识别模块,用于使用基于机器学习的语义识别模型对获取的序列化的词向量提取语义特征向量;
问答库,用于储存问答对,且问答对中的问题通过所述语义识别模块提取出语义特征向量,以用于序列匹配模块进行匹配度计算;
序列匹配模块,用于使用基于机器学习的序列匹配算法进行匹配度计算,该匹配度计算的用户输入信息产生的语义特征向量和问答库中问题的语义特征向量进行匹配度计算;
匹配度阈值控制模块,用于将序列匹配模块计算获得的匹配度与预设的匹配度判断阈值比较,如存在高于匹配度判断阈值的语义特征向量,则将其中匹配度最高的语义特征向量所对应的回答作为输出信息;如不存在匹配度高于匹配度阈值的语义特征向量,返回引导信息,以获得更多用户输入信息。
9.根据权利要求7所述的知识产权智能服务系统,其特征在于:所述查询需求子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、内容槽位模型填充模块和查询数据模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
内容槽位模型填充模块,将具有实体标注的词向量填充至内容槽位模型;
查询数据模块,将填充有词向量的内容槽位模型转化为相应的数据库查询语句,外链至相应数据库,查询返回所需的数据结果。
10.根据权利要求7所述的知识产权智能服务系统,其特征在于:所述服务导引子系统包括用户输入信息获取模块、词向量提取模块,实体标注模块、用户意图分类模块、内容槽位模型填充模块和服务导引模块;
输入获取模块,用于获取用户输入信息;
词向量提取模块,用于对获取的用户输入文本进行词向量提取,并保留序列化的词向量;
实体标注模块,用于使用基于机器学习的实体标注模型对获取的序列化的词向量进行实体标注;
用户意图分类模块,用于使用基于机器学习的分类模型对获得的序列化的词向量进行用户意图分类;
内容槽位模型填充模块,用于根据获得的用户意图分类选择内容槽位模型,并根据具有实体标注的词向量填充至该内容槽位模型;
服务导引模块,用于根据填充有词向量的内容槽位模型返回知识产权服务接口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811611020.7A CN109753565A (zh) | 2018-12-27 | 2018-12-27 | 知识产权智能服务方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811611020.7A CN109753565A (zh) | 2018-12-27 | 2018-12-27 | 知识产权智能服务方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109753565A true CN109753565A (zh) | 2019-05-14 |
Family
ID=66404128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811611020.7A Pending CN109753565A (zh) | 2018-12-27 | 2018-12-27 | 知识产权智能服务方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753565A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263338A (zh) * | 2019-06-18 | 2019-09-20 | 北京明略软件系统有限公司 | 替换实体名称方法、装置、存储介质及电子装置 |
CN110321564A (zh) * | 2019-07-05 | 2019-10-11 | 浙江工业大学 | 一种多轮对话意图识别方法 |
CN110347815A (zh) * | 2019-07-11 | 2019-10-18 | 上海蔚来汽车有限公司 | 语音对话系统中的多任务处理方法以及多任务处理系统 |
CN110795547A (zh) * | 2019-10-18 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本识别方法和相关产品 |
CN111475631A (zh) * | 2020-04-05 | 2020-07-31 | 北京亿阳信通科技有限公司 | 一种基于知识图谱与深度学习的疾病问答方法及装置 |
CN112699233A (zh) * | 2019-10-17 | 2021-04-23 | 中国移动通信集团浙江有限公司 | 业务处理方法、装置及电子设备 |
CN113299294A (zh) * | 2021-05-26 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 任务型对话机器人交互方法、装置、设备及存储介质 |
CN113590778A (zh) * | 2021-06-30 | 2021-11-02 | 上海一谈网络科技有限公司 | 智能客服意图理解方法、装置、设备及存储介质 |
CN113643160A (zh) * | 2021-08-26 | 2021-11-12 | 顾卓清 | 一种基于大数据服务管理系统及方法 |
WO2021238371A1 (zh) * | 2020-05-28 | 2021-12-02 | 华为技术有限公司 | 生成虚拟角色的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767182B1 (en) * | 2016-10-28 | 2017-09-19 | Searchmetrics Gmbh | Classification of search queries |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN108268442A (zh) * | 2017-12-19 | 2018-07-10 | 芋头科技(杭州)有限公司 | 一种语句意图预测方法及系统 |
CN108427722A (zh) * | 2018-02-09 | 2018-08-21 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN108563790A (zh) * | 2018-04-28 | 2018-09-21 | 科大讯飞股份有限公司 | 一种语义理解方法及装置、设备、计算机可读介质 |
CN108874774A (zh) * | 2018-06-05 | 2018-11-23 | 浪潮软件股份有限公司 | 一种基于意图理解的服务调用方法和系统 |
-
2018
- 2018-12-27 CN CN201811611020.7A patent/CN109753565A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767182B1 (en) * | 2016-10-28 | 2017-09-19 | Searchmetrics Gmbh | Classification of search queries |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN108268442A (zh) * | 2017-12-19 | 2018-07-10 | 芋头科技(杭州)有限公司 | 一种语句意图预测方法及系统 |
CN108427722A (zh) * | 2018-02-09 | 2018-08-21 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN108563790A (zh) * | 2018-04-28 | 2018-09-21 | 科大讯飞股份有限公司 | 一种语义理解方法及装置、设备、计算机可读介质 |
CN108874774A (zh) * | 2018-06-05 | 2018-11-23 | 浪潮软件股份有限公司 | 一种基于意图理解的服务调用方法和系统 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263338A (zh) * | 2019-06-18 | 2019-09-20 | 北京明略软件系统有限公司 | 替换实体名称方法、装置、存储介质及电子装置 |
CN110321564A (zh) * | 2019-07-05 | 2019-10-11 | 浙江工业大学 | 一种多轮对话意图识别方法 |
CN110321564B (zh) * | 2019-07-05 | 2023-07-14 | 浙江工业大学 | 一种多轮对话意图识别方法 |
CN110347815A (zh) * | 2019-07-11 | 2019-10-18 | 上海蔚来汽车有限公司 | 语音对话系统中的多任务处理方法以及多任务处理系统 |
CN112699233A (zh) * | 2019-10-17 | 2021-04-23 | 中国移动通信集团浙江有限公司 | 业务处理方法、装置及电子设备 |
CN110795547A (zh) * | 2019-10-18 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本识别方法和相关产品 |
CN110795547B (zh) * | 2019-10-18 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 文本识别方法和相关产品 |
CN111475631A (zh) * | 2020-04-05 | 2020-07-31 | 北京亿阳信通科技有限公司 | 一种基于知识图谱与深度学习的疾病问答方法及装置 |
WO2021238371A1 (zh) * | 2020-05-28 | 2021-12-02 | 华为技术有限公司 | 生成虚拟角色的方法及装置 |
CN113299294A (zh) * | 2021-05-26 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 任务型对话机器人交互方法、装置、设备及存储介质 |
CN113299294B (zh) * | 2021-05-26 | 2024-06-11 | 中国平安人寿保险股份有限公司 | 任务型对话机器人交互方法、装置、设备及存储介质 |
CN113590778A (zh) * | 2021-06-30 | 2021-11-02 | 上海一谈网络科技有限公司 | 智能客服意图理解方法、装置、设备及存储介质 |
CN113643160A (zh) * | 2021-08-26 | 2021-11-12 | 顾卓清 | 一种基于大数据服务管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753565A (zh) | 知识产权智能服务方法及系统 | |
CN112183101A (zh) | 文本意图识别方法、装置、电子设备及存储介质 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN110232114A (zh) | 语句意图识别方法、装置及计算机可读存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN112380870A (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN113326380B (zh) | 基于深度神经网络的设备量测数据处理方法、系统及终端 | |
CN111739520B (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN109933792A (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN113761197B (zh) | 一种可利用专家知识的申请书多标签层次分类方法 | |
CN109697679A (zh) | 知识产权服务导引方法及系统 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN110287294A (zh) | 知识产权概念自动解答方法及系统 | |
CN114139548A (zh) | 基于模板匹配结合小样本深度模型的口语语言理解方法 | |
CN117708157A (zh) | 一种sql语句生成方法和装置 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190514 |