CN113486182A

CN113486182A - 一种意图识别的方法、系统、电子设备及可读存储介质

Info

Publication number: CN113486182A
Application number: CN202110882696.5A
Authority: CN
Inventors: 薛小娜; 黄艳香
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-10-08

Abstract

本发明公开了一种意图识别的方法、系统、电子设备及可读存储介质，方法包括：利用爬虫技术从互联网上爬取“问题‑答案”数据；通过实体识别模型识别“问题‑答案”数据中每个问题对应的答案的意图类别，获得“问题‑意图”数据；将获得的“问题‑意图”数据作为训练数据训练深度学习模型，获得问题意图识别模型；将问题输入至问题意图识别模型，获得所述问题对应的意图。解决了训练数据获取难的问题，大大节省了人工标注数据的成本，具有良好的泛化能力。

Description

一种意图识别的方法、系统、电子设备及可读存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种意图识别的方法、系统、电子设备及可读存储介质。

背景技术

意图识别，顾名思义就是判断用户想要做什么或者想要什么样的回复，现已被广泛应用于搜索引擎、智能问答与对话等领域。比如在搜索引擎领域使用意图识别来获取与用户输入的问题最相关的信息，可缩短用户搜索时间，提高了用户体验。在智能问答与对话领域中，各式各样的聊天机器人、智能客服等智能体走进了人们的生活，但它们能回复的问题的种类是有限的，为了使得这些智能体能快速准确识别用户问题种类并给用户反馈他们想要的信息，意图识别在其中发挥了重要作用。

目前，受意图识别训练数据难以获取的限制，大部分问答系统中往往通过人工事先创建若干意图关键词形成词典，然后将输入问题中出现在该词典中的关键词作为意图，以此达到意图识别目的。然而，由于中文语言描述方式具有多样性，比如“妻子”还有“Wife、媳妇、老婆、太太”等别称，所以人工构建的关键词词典无法覆盖人们所提问题中的所有意图，故该意图识别方法泛化能力较差。

为了提高意图识别方法泛化能力，有些问答系统中使用了深度学习模型方法来识别意图，但是该方法需要人工预先标注大量的训练或测试数据，这会耗费大量人力成本。

总而言之，现有的意图识别任务中仍存在以下问题：1)使用传统的基于意图词典匹配的方法来从问题中获取意图，其泛化能力较差；2)使用深度学习方法从问题中识别意图，缺乏大量训练数据，需耗费大量人力标注成本。

发明内容

本发明针对上述的传统获取意图的方法泛化能力差且标注训练数据成本高的技术问题，提出一种意图识别的方法、系统、电子设备及可读存储介质。

第一方面，本申请实施例提供了一种意图识别的方法，包括：

数据爬取步骤：利用爬虫技术从互联网上爬取“问题-答案”数据；

意图识别步骤：通过实体识别模型识别所述“问题-答案”数据中每个问题对应的答案的意图类别，获得“问题-意图”数据；

模型训练步骤：将获得的所述“问题-意图”数据作为训练数据训练深度学习模型，获得问题意图识别模型；

模型预测步骤：将问题输入至所述问题意图识别模型，获得所述问题对应的意图。

上述意图识别的方法，其中，还包括：

数据处理步骤：对爬取到的所述“问题-答案”数据进行数据清洗，最终形成可供计算机代码读取的结构形式。

上述意图识别的方法，其中，还包括：

意图种类确定步骤：结合具体场景设置需要识别的意图类别。

上述意图识别的方法，其中，所述意图识别步骤还包括：若通过实体识别模型无法识别答案的意图类别，可通过规则识别所述“问题-答案”数据中每个问题对应的答案的意图类别。

上述意图识别的方法，其中，所述“问题-答案”数据中包括但不限于问题信息、答案路径信息与答案信息。

第二方面，本申请实施例提供了一种意图识别的系统，包括：

数据爬取单元：利用爬虫技术从互联网上爬取“问题-答案”数据；

意图识别单元：通过实体识别模型识别所述“问题-答案”数据中每个问题对应的答案的意图类别，获得“问题-意图”数据；

模型训练单元：将获得的所述“问题-意图”数据作为训练数据训练深度学习模型，获得问题意图识别模型；

模型预测单元：将问题输入至所述问题意图识别模型，获得所述问题对应的意图。

上述意图识别的系统，其中，还包括：

数据处理单元：对爬取到的所述“问题-答案”数据进行数据清洗，最终形成可供计算机代码读取的结构形式。

上述意图识别的系统，其中，还包括：

意图种类确定单元：结合具体场景设置需要识别的意图类别。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的意图识别的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的意图识别的方法。

与现有技术相比，本发明的优点和积极效果在于：

1、使用数据爬取技术从公开网站获取大量“问题-答案”对数据，并利用现有的实体识别技术识别给定问题对应答案的类型来确定该问题的意图，通过该方法可以得到大量的“问题-意图”的训练数据，解决了训练数据获取难的问题，大大节省了人工标注数据的成本。

2、基于已获得的大量的训练数据，本发明使用常用的深度学习模型进行训练，用于识别问题的意图，明显提高了泛化能力，解决了因使用字典匹配意图而产生的泛化能力较差的问题。

3、本发明提出的的意图识别的方法，利用深度学习技术，提高了机器人中问答或对话系统的回答速度和准确度，使得人与机器的互动更自然。

附图说明

图1为本发明提供的一种意图识别的方法的步骤示意图；

图2为本发明提供的一种意图识别的系统的框架图；

图3为根据本申请实施例的计算机设备的框架图。

其中，附图标记为：

1、数据爬取单元；2、数据处理单元；3、意图种类确定单元；4、意图识别单元；5、模型训练单元；6、模型预测单元；81、处理器；82、存储器；83、通信接口；80、总线。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

在详细阐述本发明各个实施例之前，对本发明的核心发明思想予以概述，并通过下述若干实施例予以详细阐述。

由于现有的意图识别任务泛化能力较差，以及使用深度学习方法从问题中识别意图缺乏大量训练数据，需耗费大量人力标注成本。因此，构建一种能够自动化或半自动化标注训练数据，且具有良好泛化能力的意图识别方法是非常有意义的。

本发明提出了一种意图识别的方法与系统。首先，使用数据爬取技术从公开网站获取大量“问题-答案”对数据，并利用现有的实体识别技术识别给定问题对应答案的类型来确定该问题的意图，通过该方法可以得到大量的“问题-意图”的训练数据，大大节省了人工标注数据的成本。然后，基于已获得的大量的训练数据，本发明使用常用的深度学习模型进行训练，用来识别问题的意图，明显提高了泛化能力，解决了因使用字典匹配意图而产生的泛化能力较差的问题。

实施例一：

图1为本发明提供的一种意图识别的方法的步骤示意图。如图1所示，本实施例揭示了一种意图识别的方法(以下简称“方法”)的具体实施方式。

具体而言，本实施例所揭示的方法主要包括以下步骤：

步骤S1：利用爬虫技术从互联网上爬取“问题-答案”数据；

具体而言，爬取到的“问题-答案”数据中包括问题信息、答案路径信息与答案信息等相关信息，并且对爬取到的所述“问题-答案”数据进行数据清洗，例如去掉其中不相关的信息、将数据格式统一化以及去除噪音数据等，最终形成规范的可供计算机代码方便读取的结构形式。

步骤S2：通过实体识别模型识别所述“问题-答案”数据中每个问题对应的答案的意图类别，获得“问题-意图”数据；

具体而言，需确定需要识别的意图类别，比如人名、地名、机构名、时间日期、国家、职业、民族、性别、血型、星座、数量、其他类等，意图类别不局限于上述列出的十多种，可结合具体场景自行设置。

若通过实体识别模型无法识别答案的意图类别，可通过规则识别所述“问题-答案”数据中每个问题对应的答案的意图类别，例如数字规则等；或者通过信息抽取获得答案的意图。由此可以得到大量的“问题-意图”的训练数据，能够有效解决使用深度学习模型训练前遇到的训练数据难以获取的问题，大大节省了人工标注数据的成本。

步骤S3：将获得的所述“问题-意图”数据作为训练数据训练深度学习模型，获得问题意图识别模型；

具体而言，将意图识别问题看作是文本分类问题，可以使用常见的深度学习模型，如textCNN模型等来完成意图识别任务，其训练数据来自步骤S2中生成的“问题-意图”数据。使用深度学习模型进行训练，用于识别问题意图，具有良好的泛化能力。

步骤S4：将问题输入至所述问题意图识别模型，获得所述问题对应的意图。

至此，完成了意图识别任务的问答数据获取、训练数据构建、模型训练与预测的整个流程。本发明提出的意图识别方法，能够提高机器人中问答或对话系统的回答速度和准确度，使得人与机器的互动更自然。解决了使用传统字典匹配识别意图方法的泛化能力弱的问题，以及使用深度学习模型训练前遇到的训练数据难以获取的问题。

以下，具体说明本方法的应用流程如下：

本发明提出的意图识别的方法主要步骤包括：数据爬取、数据处理、确定意图种类、根据问题答案识别意图、问题意图识别模型训练和预测。具体过程如下：

步骤1(数据爬取)：首先从互联网上利用爬虫技术爬取“问题-答案”对数据，如包括问题、答案路径、答案等相关信息；

步骤2(数据处理)：清洗步骤1中所爬取到的所有数据，如去掉不相关的信息、数据格式统一化以及去除噪音数据等，最终形成规范的可供计算机代码方便读取的结构形式；

步骤3(确定意图种类)：需要确定意图识别方法需要识别的种类，比如人名、地名、机构名、时间日期、国家、职业、民族、性别、血型、星座、数量、其他类等。

步骤4(根据问题答案识别意图)：针对每个问题对应的答案，使用自研的实体识别模型识别其意图类别，比如例子“question:张三的妻子是谁？answer：李四”中，“李四”经过模型识别后为人名，故该问题询问的意图是人名。对于无法使用模型识别的种类可以使用规则识别，比如“question：M国总共有多少人口？answer：13亿”，通过数字规则可知“13亿”是数量，故该问题询问的意图是数量。通过该步骤可以获得大量的“问题-意图”数据。

步骤5(问题意图识别模型训练)：将意图识别问题看作是文本分类问题，本发明使用常见的深度模型(如textCNN模型等)来完成意图识别任务，其训练数据来自步骤4生成的“问题-意图”数据。

步骤6(问题意图识别模型预测)：将问题输入步骤5训练的模型，便可得到该问题对应的意图。

至此，完成了意图识别任务的问答数据获取、训练数据构建、模型训练与预测的整个流程。

实施例二：

结合实施例一所揭示的一种意图识别的方法，本实施例揭示了一种意图识别的系统(以下简称“系统”)的具体实施示例。

参照图2所示，所述系统包括：

数据爬取单元1：利用爬虫技术从互联网上爬取“问题-答案”数据；

数据处理单元2：对爬取到的所述“问题-答案”数据进行数据清洗，最终形成可供计算机代码读取的结构形式；

意图种类确定单元3：结合具体场景设置需要识别的意图类别；

意图识别单元4：通过实体识别模型识别所述“问题-答案”数据中每个问题对应的答案的意图类别，获得“问题-意图”数据；

模型训练单元5：将获得的所述“问题-意图”数据作为训练数据训练深度学习模型，获得问题意图识别模型；

模型预测单元6：将问题输入至所述问题意图识别模型，获得所述问题对应的意图。

本实施例所揭示的一种意图识别的系统与实施例一所揭示的一种意图识别的方法中其余相同部分的技术方案，请参实施例一所述，在此不再赘述。

实施例三：

结合图3所示，本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种意图识别的方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图3所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(LocalBus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的意图识别的方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种意图识别的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

综上所述，基于本发明的有益效果在于，使用数据爬取技术从公开网站获取大量“问题-答案”对数据，并利用现有的实体识别技术识别给定问题对应答案的类型来确定该问题的意图，通过该方法可以得到大量的“问题-意图”的训练数据，解决了训练数据获取难的问题，大大节省了人工标注数据的成本。基于已获得的大量的训练数据，本发明使用常用的深度学习模型进行训练，用于识别问题的意图，明显提高了泛化能力，解决了因使用字典匹配意图而产生的泛化能力较差的问题。本发明提出的的意图识别的方法，利用深度学习技术，提高了机器人中问答或对话系统的回答速度和准确度，使得人与机器的互动更自然。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种意图识别的方法，其特征在于，包括：

2.根据权利要求1所述的一种意图识别的方法，其特征在于，还包括：

3.根据权利要求2所述的一种意图识别的方法，其特征在于，还包括：

4.根据权利要求3所述的一种意图识别的方法，其特征在于，所述意图识别步骤还包括：若通过实体识别模型无法识别答案的意图类别，可通过规则识别所述“问题-答案”数据中每个问题对应的答案的意图类别。

5.根据权利要求1所述的一种意图识别的方法，其特征在于，所述“问题-答案”数据中包括但不限于问题信息、答案路径信息与答案信息。

6.一种意图识别的系统，其特征在于，包括：

7.根据权利要求6所述的一种意图识别的系统，其特征在于，还包括：

8.根据权利要求6所述的一种意图识别的系统，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的意图识别的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的意图识别的方法。