CN109033277A

CN109033277A - 基于机器学习的类脑系统、方法、设备及存储介质

Info

Publication number: CN109033277A
Application number: CN201810754780.7A
Authority: CN
Inventors: 董文平
Original assignee: Guangzhou Giantan Information Technology Co ltd
Current assignee: Guangzhou Giantan Information Technology Co ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-18

Abstract

本发明公开一种基于机器学习的类脑系统、方法、设备及存储介质，系统包括：智能问答模块，用于接收多模态的数据，进行语义理解，以生成问题请求；引擎模块，用于根据问题请求获取知识候选集并发送给智能问答模块；智能问答模块对知识候选集做评分排序，并使用评分最高的知识结合变量或推理结果进行答案生成返回给用户；知识仓储模块，用于存储知识灌入模块及知识发现模块生成的知识数据；知识灌入模块，用于对数据进行知识转换，获得知识数据发送至知识仓储模块；知识发现模块，用于获取业务数据集，识别出有效、新颖、潜在有用的数据，转换为可理解模式的知识数据发送至知识仓储模块。基于本发明，能为用户提供高效准确的人工智能服务。

Description

基于机器学习的类脑系统、方法、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于机器学习的类脑系统、方法、设备及存储介质。

背景技术

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

发明内容

有鉴于此，本发明的目的在于提供一种基于机器学习的类脑系统、方法、设备及存储介质，能为用户提供高效准确的人工智能服务。

本发明实施例提供了一种基于机器学习的类脑系统，包括：

智能问答模块，用于通过人机交互接口接收用户的多模态的数据，并对所述多模态的数据进行语义理解，以生成问题请求；所述多模态的数据包括：文本、语音、图像和结构化数据；

引擎模块，用于接收所述人机交互接口发送的问题请求，根据所述问题请求从知识仓储模块中获取匹配的知识候选集，并将所述知识候选集发送给所述智能问答模块；其中，所述智能问答模块对所述知识候选集做评分排序，并使用评分最高的知识进行答案生成返回给用户；所述答案是评分最高的知识结合变量或推理结果生成的最终答案；

所述知识仓储模块，用于存储来自知识灌入模块以及知识发现模块生成的知识数据；

所述知识灌入模块，用于对接收的数据进行知识转换处理，以获得知识数据后发送至知识仓储模块；

所述知识发现模块，用于获取原始的业务数据集以及业务过程中产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据，并将数据转换为可理解模式的知识数据后发送至知识仓储模块。

优选地，所述智能问答模块为虚拟代理。

优选地，所述引擎模块包括用于提供智能搜索的搜索引擎单元、用于提供句式匹配的匹配引擎单元、用于提供槽点匹配的布尔引擎单元以及用于提供分类功能的分类引擎单元，所述分类引擎单元通过机器学习训练来实现分类；其中：

对于接收到的每个问题请求，需并行的通过搜索引擎单元、匹配引擎单元、布尔引擎单元以及分类引擎单元进行处理，以从所述知识仓储模块中获取得到知识候选集。

优选地，所述引擎模块还包括推理引擎单元；

所述推理引擎单元，用于根据在交互过程中生成的变量进行推理计算，获得推理结果，并根据推理结果从知识仓储模块中获取知识候选集；其中，推理计算根据每个场景对应的决策树进行推理。

优选地，所述知识仓储模块内的知识数据包括：FAQ、场景知识、文档、WIKI、语义网、知识图谱、知识模型、用户数据。

优选地，所述知识灌入模块生成知识数据至少包括四种方式：

对于专家知识，通过场景编辑器对所述专家知识进行编辑，生成知识数据，并存储入知识仓储模块；

对于FAQ，所述知识灌入模块直接将FAQ作为知识数据导入到知识仓储模块；

对于文档：所述知识灌入模块对文档进行碎片化处理或者分类处理，并进行打标签，以生成知识数据，存储入知识仓储模块；

对于语义网和知识图谱：将语义网和知识图谱通过语义网编辑器导入知识仓储模块。

本发明实施例还提供了一种基于机器学习的类脑方法，包括：

智能问答模块通过人机交互接口接收用户的多模态的数据，并对所述多模态的数据进行语义理解，以生成问题请求；所述多模态的数据包括：文本、语音、图像和结构化数据；

引擎模块接收所述人机交互接口发送的问题请求，根据所述问题请求从知识仓储模块中获取匹配的知识候选集，并将所述知识候选集发送给所述智能问答模块；其中，所述智能问答模块对所述知识候选集做评分排序，并使用评分最高的知识进行答案生成返回给用户；所述答案是评分最高的知识结合变量或推理结果生成的最终答案；

所述知识仓储模块存储来自知识灌入模块以及知识发现模块生成的知识数据；

所述知识灌入模块对接收的数据进行知识转换处理，以获得知识数据后发送至知识仓储模块；

所述知识发现模块获取原始的业务数据集以及业务过程中产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据，并将数据转换为可理解模式的知识数据后发送至知识仓储模块。

本发明实施例还提供了一种基于机器学习的类脑设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于机器学习的类脑方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于机器学习的类脑方法。

上述一个实施例中，结合深度学习技术和语义网，使得系统具有模拟人脑的能力，主要表现在具有条理化记忆、抽象、推理能力，具有逻辑思考和大规模的计算，海量信息分类、分析能力。即基于本系统，可以实现高效、准确和智能的人工问题，从而为用户提供智能的问答服务。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种基于机器学习的类脑系统的结构示意图。

图2是本发明第二实施例提供的一种基于机器学习的类脑方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提供了一种基于机器学习的类脑系统，其包括：

智能问答模块10，用于通过人机交互接口接收用户的多模态的数据，并对所述多模态的数据进行语义理解，以生成问题请求；所述多模态的数据包括：文本、语音、图像、结构化数据等形式。

在本实施例中，所述智能问题模块10可为虚拟代理，在客户关系管理里，虚拟代理(virtual agent)是自动答话机器人程序，它能像在线客户服务代表那样为组织服务。由于虚拟代理有人的外表且能正确地回答用户的问题，因此他们适于作为个人服务的自动交互外壳。结合了具有图形界面的人工智能，虚拟代理更是用于CRM来帮助人们完成分配信息或者下达命令和预订等工作。

当然，需要说明的是，在本实施例中，虚拟代理不仅是客服的角色，还可以是专家的角色，例如：咨询顾问，如销售顾问、保险顾问、法律顾问等，这些方案均在本发明的保护范围之内。

在本实施例中，所述多模态的数据包括：文本、语音、图像、结构化数据等形式。当然，还可以有其他形式，这些方案均在本发明的包含范围之内。

引擎模块20，用于接收所述人机交互接口发送的问题请求，根据所述问题请求从知识仓储模块30中获取匹配的知识候选集，并将所述知识候选集发送给所述智能问答模块；其中，所述智能问答模块对所述知识候选集做评分排序，并使用评分最高的知识进行答案生成返回给用户；所述答案是评分最高的知识结合变量或推理结果生成的最终答案。

在本实施例中，具体地，所述引擎模块20包括用于提供智能搜索(同时支持用自然语言搜索和关键词搜索)的搜索引擎单元、用于提供句式匹配的匹配引擎单元、用于提供槽点匹配的布尔引擎单元以及用于提供分类功能的分类引擎单元，所述分类引擎单元通过机器学习训练来实现分类。其中：搜索引擎单元、匹配引擎单元、布尔引擎单元和分类引擎单元是同时并行的关系，当调用引擎模块20时，要在这四个引擎单元中全部执行一遍，以从知识仓储模块30中获取得到知识候选集。

需要说明的是，所述引擎模块20还包括推理引擎单元；

例如，在交互中，当推理引擎单元接收到包含多个变量的文档，通过接口的方式接收多个变量或者接收到包含多个变量的自然语言大段描述，都可以对这些变量进行推理计算来获得推理结果。因此，基于这样的原理，本实施例即可服务于人机交互又可服务于机机交互。

在本实施例中，所述引擎模块20在得到知识候选集后，将所述知识候选集发送给所述智能问答模块10，所述智能问答模块10负责对知识候选集中的知识做评分排序，将评分最高的答案返回给用户。

所述知识仓储模块30，用于存储来自知识灌入模块40以及知识发现模块50生成的知识数据。

在本实施例中，所述知识仓储模块30在于帮助用户减轻知识整理的工作量，可以快速构建自己的机器人知识库。

其中，知识仓储中的知识数据根据它们的应用领域特征、背景特征(获取时的背景信息)、使用特征、属性特征等而被构成便于利用的、有结构的组织形式。

其中，在本实施例中，所述知识仓储模块30内的知识数据包括：FAQ、场景知识(通过场景编辑器进行编辑获得)、文档、WIKI、语义网、知识图谱、知识模型(通过训练后生成的模型数据)、用户数据。

在本实施例中，可以通过场景编辑器编辑获得场景知识，其中，所述场景编辑器包括：

场景分类编辑模块，用于获取目标业务知识，编辑所述目标业务知识所涉及的场景分类；

场景创建模块，用于创建每个场景类别对应的所有场景；

交互式场景构建模块，用于根据业务需求进行交互问答内容的编辑，以构建交互式场景；

生成模块，用于在所述交互式场景满足业务需求时，生成场景知识。

优选地，所述场景分类编辑模块具体包括：

分析单元，用于分析业务目标和业务知识，获取目标业务知识；

定义单元，用于编辑所述目标业务知识所涉及的场景知识，并定义所述场景知识对应的场景分类。

优选地，所述交互式场景构建模块具体包括：

入口编辑单元，用于识别、匹配用户问题，根据识别的用户问题确定并触发相应的场景；

系统应答编辑单元，用于根据所述入口编辑单元中的用户问题，编辑向用户发出的问题，以便获取用户回复内容中的场景变量，所述场景变量包含本场景内产生或引用全局的场景变量；

条件编辑单元，用于引导用户提供必要的场景变量，抽取用户回复内容中的场景变量并进行存储，所述场景变量用于确定下一个场景变量；条件编辑单元可设置为单选条件编辑单元或多选条件编辑单元或用户输入条件编辑单元；

结果编辑单元，用于编辑所述入口编辑单元中的用户问题的回答，以构建交互式场景；

跳转编辑单元，用于跳转至其他编辑单元或其他场景以完成交互的完整或场景的跨越。

优选地，所述系统应答编辑单元设置用户的场景变量；所述条件编辑单元设置条件类型、选项内容；所述结果编辑单元匹配、关联场景中的场景变量，对任意一个或多个场景变量进行逻辑运算表达式编辑或数学运算表达式编辑并对所述运算表达式进行验证；所述结果编辑单元对所述运算表达式结果进行整合。

上述方案中的场景编辑器，通过场景分类编辑模块对目标业务知识进行场景类别的划分，以通过场景创建模块针对每一场景类别创建场景，进而通过交互式场景构建模块编辑每一场景的交互问答内容，构建交互式场景，在交互式场景满足业务需求时，通过生成模块生成场景知识，完成编辑，有效简化编辑复杂度，降低维护成本，且使编辑更加直观。

所述知识灌入模块40，用于对接收的数据进行知识转换处理，以获得知识数据后发送至知识仓储模块30。

在本实施例中，所述知识灌入模块40生成知识数据至少包括四种方式：

对于专家知识，所述知识灌入模块40可通过场景编辑器对所述专家知识进行知识编辑，生成知识数据，并存储入知识仓储模块30。

对于FAQ，由于其与问答形式存在，因此所述知识灌入模块40直接将FAQ作为知识数据导入到知识仓储模块30。

对于文档：所述知识灌入模块对文档进行碎片化处理或者分类处理，并进行打标签，以生成知识数据，存储入知识仓储模块30。

对于语义网和知识图谱：将语义网和知识图谱通过语义网编辑器导入知识仓储模块30。

所述知识发现模块50，用于获取原始的业务数据集以及业务过程中产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据，并将数据转换为可理解模式的知识数据后发送至知识仓储模块30。

在本实施例中，知识发现是从各种信息中，根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节，从原始的业务数据集中提炼出有效的、新颖的、潜在有用的知识，直接向使用者报告。知识发现的基本任务包括：

数据分类：分类是数据挖掘研究的重要分支之一，是一种有效的数据分析方法。分类的目标是通过分析训练数据集，构造一个分类模型(即分类器)，该模型能够把数据库中的数据记录映射到一个给定的类别，从而可以应用于数据预测。

数据聚类：当要分析的数据缺乏必要的描述信息，或者根本就无法组织成任何分类模式时，利用聚类函数把一组个体按照相似性归成若干类，这样就可以自动找到类。聚类和分类类似，都是将数据进行分组。但与分类不同的是，聚类中的组不是预先定义的，而是根据实际数据的特征按照数据之间的相似性来定义的。

关联和相关性：是指发现大规模数据集中项集之间有趣的关联或相关关系。关联规则是指通过对数据库中的数据进行分析，从某一数据对象的信息来推断另一数据对象的信息，寻找出重复出现概率很高的知识模式，常用一个带有置信度因子的参数来描述这种不确定的关系。

时序数据分析：其任务是发现属性值的发展趋向，如从股票价格指数的金融数据、客户数据和医学数据等。它是用来搜寻相似模式以发现和预测特定模式的风险、因果关系和趋势。

此外，所述知识发现模块50还可以在与用户的交互过程中，获取交互时产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据。如此，所述知识发现模块50可以通过不断训练学习的过程，获得更符合用户需求的知识数据。

综上所述，本实施例提供的基于机器学习的类脑系统，结合深度学习技术，使得系统具有模拟人脑的能力，主要表现在具有条理化记忆、抽象、推理能力，具有逻辑思考和大规模的计算，海量信息分类、分析能力。即基于本系统，可以实现高效、准确和智能的人工问题，从而为用户提供智能的问答服务。

请参阅图2，本发明第二实施例还提供了一种基于机器学习的类脑方法，包括：

S201，智能问答模块通过人机交互接口接收用户的多模态的数据，并对所述多模态的数据进行语义理解，以生成问题请求；所述多模态的数据包括：文本、语音、图像、结构化数据等形式；

S202，引擎模块接收所述人机交互接口发送的问题请求，根据所述问题请求从知识仓储模块中获取匹配的知识候选集，并将所述知识候选集发送给所述智能问答模块；其中，所述智能问答模块对所述知识候选集做评分排序，并使用评分最高的知识进行答案生成返回给用户；所述答案是评分最高的知识结合变量或推理结果生成的最终答案；

S203，所述知识仓储模块存储来自知识灌入模块以及知识发现模块生成的知识数据；

S204，所述知识灌入模块对接收的数据进行知识转换处理，以获得知识数据后发送至知识仓储模块。

S205，所述知识发现模块获取原始的业务数据集以及业务过程中产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据，并将数据转换为可理解模式的知识数据后发送至知识仓储模块。

本发明第三实施例还提供了一种基于机器学习的类脑设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于机器学习的类脑方法。

本发明第三实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于机器学习的类脑方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在基于机器学习的类脑设备中的执行过程。

所述基于机器学习的类脑设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于机器学习的类脑设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是基于机器学习的类脑设备的示例，并不构成对基于机器学习的类脑设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于机器学习的类脑设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于机器学习的类脑设备的控制中心，利用各种接口和线路连接整个基于机器学习的类脑设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于机器学习的类脑设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于机器学习的类脑设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于机器学习的类脑系统，其特征在于，包括：

智能问答模块，用于通过人机交互接口接收用户的多模态的数据，并对所述多模态的数据进行语义理解，以生成问题请求；所述多模态的数据包括：文本、语音、图像、结构化数据；

2.根据权利要求1所述的基于机器学习的类脑系统，其特征在于，所述智能问答模块为虚拟代理。

3.根据权利要求1所述的基于机器学习的类脑系统，其特征在于，所述引擎模块包括用于提供智能搜索的搜索引擎单元、用于提供句式匹配的匹配引擎单元、用于提供槽点匹配的布尔引擎单元以及用于提供分类功能的分类引擎单元，所述分类引擎单元通过机器学习训练来实现分类；其中：

4.根据权利要求1所述的基于机器学习的类脑系统，其特征在于，所述引擎模块还包括推理引擎单元；

5.根据权利要求1所述的基于机器学习的类脑系统，其特征在于，所述知识仓储模块内的知识数据包括：FAQ、场景知识、文档、WIKI、语义网、知识图谱、知识模型、用户数据。

6.根据权利要求5所述的基于机器学习的类脑系统，其特征在于，所述知识灌入模块生成知识数据至少包括四种方式：

7.一种基于机器学习的类脑方法，其特征在于，包括：

8.一种基于机器学习的类脑设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求7所述的基于机器学习的类脑方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求7所述的基于机器学习的类脑方法。