CN109388705B

CN109388705B - 一种文本意图分类方法

Info

Publication number: CN109388705B
Application number: CN201710665483.0A
Authority: CN
Inventors: 陈见耸; 王昊; 沈磊; 高鹏
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2020-05-19
Anticipated expiration: 2037-08-07
Also published as: CN109388705A

Abstract

本发明公开了一种文本意图分类方法，属于语义理解技术领域；包括预先根据训练集训练得到一关键信息抽取器；预先根据关键信息抽取器和训练语句训练得到一意图分类器；文本意图分类方法还包括：获取一待分类的真实语句；采用关键信息抽取器抽取真实语句中的关键信息；根据抽取的关键信息依照真实语句中的每个字生成对应的标签特征；将真实语句与标签特征送入意图分类器中处理得到一意图分类结果；根据文本意图进行后续的语义理解过程。上述技术方案的有益效果是：弥补短文本信息不足的问题，能够根据句子结构分析出句子中的关键信息，并以此为特征缓解分类空间的复杂度问题，从而提升文本意图分类的准确率。

Description

一种文本意图分类方法

技术领域

本发明涉及语义理解技术领域，尤其涉及一种文本意图分类方法。

背景技术

人机交互技术是一种使用某种对话语言，以一定的交互方式，完成确定任务的人与计算机之间的信息交换技术。随着科技的发展，人机交互技术越来越多地被应用到日常的工作和生活中。

传统的人机交互技术是通过人机交互界面实现的，传统的人机交互界面通常仍然采用最常见的交互指令输入方式来进行，即键鼠输入方式。用户通过键盘和鼠标等常用的输入设备输入交互指令来命令计算机执行相应的操作。

随着语音识别技术的发展，越来越多的人机交互技术采用语音交互的方式进行。用户通过语音输入设备(例如麦克风)输入语音，经过语音识别技术转换成相应的交互指令来命令计算机执行相应的操作。由于自然语言交互天然的友好性和便捷性，基于口语自然语言的人机对话交互方式逐渐成为人机交互技术的主流趋势。

对于上述人机对话交互方式而言，语义理解技术是其中的核心技术，其负责将用户的自然语言转换为计算机可理解的结构化数据。语义理解技术需要先检测用户自然语言的意图，再在用户的意图下进行语义理解和识别才能得到较好的识别效果。现有技术的语义理解技术中，对于用户语言意图的检测通常并不准确，因此会出现后续语义识别不准确导致无法转换形成正确的控制指令的问题，导致人机对话交互无法顺畅进行。

发明内容

根据现有技术中存在的上述问题，现提供一种文本意图分类方法的技术方案，旨在弥补短文本信息不足的问题，能够根据句子结构分析出句子中的关键信息，并以此为特征缓解分类空间的复杂度问题，从而提升文本意图分类的准确率。

上述技术方案具体包括：

一种文本意图分类方法，适用于语义理解过程中；其中，预先设置多个包括不同的文本意图的语言意图领域，并预先确定每个所述语言意图领域中的关键信息，以及针对不同的语言意图领域分别预先设置包括多个训练语句的训练集；

预先根据所述训练集训练得到一关键信息抽取器，所述关键信息抽取器用于抽取每个所述训练语句中的所述关键信息；以及

预先根据所述关键信息抽取器和所述训练语句训练得到一意图分类器；

所述文本意图分类方法还包括：

步骤S1，获取一待分类的真实语句；

步骤S2，采用训练好的所述关键信息抽取器抽取所述真实语句中的所述关键信息；

步骤S3，根据抽取的所述关键信息，依照所述真实语句中的每个字分别生成对应的标签特征；

步骤S4，将所述真实语句与所有所述标签特征送入训练好的所述意图分类器中处理得到一意图分类结果，所述意图分类结果用于表示所述真实语句的所述文本意图；

步骤S5，根据所述文本意图进行后续的所述语义理解过程。

优选的，该文本意图分类方法，其中，在预先确定每个所述语言意图领域中的关键信息后，分别在所述训练集中的每个所述训练语句中预先标注出每个所述关键信息的位置；

则预先训练所述关键信息抽取器的步骤具体包括：

步骤A1，将所述训练语句中的每个字进行标注，以形成所述训练语句的标注数据序列；

步骤A2，采用序列标注工具对所述标注数据序列进行训练，以训练得到所述关键信息抽取器。

优选的，该文本意图分类方法，其中，所述步骤A1中，所述标注数据序列中包括多类标注数据，具体包括：

第一类标注数据，用于表示对应的字被包括在所述关键信息中且处于所述关键信息的开头；

第二类标注数据，用于表示对应的字被包括在所述关键信息中且未处于所述关键信息的开头；

第三类标注数据，用于表示对应的字未被包括在所述关键信息中。

优选的，该文本意图分类方法，其中，所述步骤A1中，采用BIO标注体系分别对所述训练语句中的每个字进行标注。

优选的，该文本意图分类方法，其中，所述步骤A2中，所述序列标注工具为LSTM模型。

优选的，该文本意图分类方法，其中，预先训练得到所述意图分类器的步骤具体包括：

步骤B1，采用预先训练得到的所述关键信息抽取器抽取每个所述训练语句中的所述关键信息并分别生成所述训练语句中每个字所对应的所述标签特征；

步骤B2，根据所述标签特征和对应的所述训练语句训练得到所述意图分类器。

优选的，该文本意图分类方法，其中，所述标签特征具体包括：

第一类标签特征，用于表示对应的字被包括在所述关键信息中；

第二类标签特征，用于表示对应的字未被包括在所述关键信息中。

优选的，该文本意图分类方法，其中，所述步骤B2具体包括：

步骤B21，通过查表的方式对所述训练语句中的每个字分别生成对应的字向量特征；

步骤B22，分别将每个字所对应的所述字向量特征和所述标签特征进行拼接，以形成对应每个字的意图特征；

步骤B23，根据包括每个字的所述意图特征的所述训练语句训练得到所述意图分类器。

优选的，该文本意图分类方法，其中，所述步骤B23中，根据包括每个字的所述意图特征的所述训练语句训练一卷积神经网络分类器，以得到所述意图分类器。

上述技术方案的有益效果是：提供一种文本意图分类方法，弥补短文本信息不足的问题，能够根据句子结构分析出句子中的关键信息，并以此为特征缓解分类空间的复杂度问题，从而提升文本意图分类的准确率。

附图说明

图1是本发明的较佳的实施例中，一种文本意图分类方法的总体流程示意图；

图2是本发明的较佳的实施例中，预先训练得到关键信息抽取器的流程示意图；

图3是本发明的较佳的实施例中，预先训练得到意图分类器的流程示意图；

图4是本发明的较佳的实施例中，于图3的基础上，根据标签特征和对应的训练语句训练得到意图分类器的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

现有的人机对话交互技术中，需要先检测自然语言的语言意图。在有限意图的领域内，意图的检测通常采用文本分类的方式来实现。但是由于口语交互中的文本通常是小于30个字的短文本，其中携带的信息量非常有限，提取关键信息比较困难，而文本所能表达的控件又极大，其中涵盖的意图领域以及每个意图领域中涵盖的文本意图种类非常多，这就导致无法通过有限的信息来准确推测文本意图。例如，音乐领域的歌曲和歌手的可能性非常多，而短文本中所包含的信息量又十分有限，训练数据并不能把所有的情况都覆盖到，在实际的意图分类过程中也无法抓取到足够的关键信息来对文本意图进行准确定位。

基于现有技术中存在的上述问题，现提供一种文本意图分类方法，该方法适用于语义理解的过程中。

在该方法中，首先预先设置多个包括不同的文本意图的语言意图领域，并预先确定每个语言意图领域中的关键信息，以及针对不同的语言意图领域分别预先设置包括多个训练语句的训练集。

并且，预先根据训练集训练得到一关键信息抽取器，关键信息抽取器用于抽取每个训练语句中的关键信息；以及

预先根据关键信息抽取器和训练语句训练得到一意图分类器。

则上述文本意图分类方法具体如图1中所示，包括：

步骤S1，获取一待分类的真实语句；

步骤S2，采用训练好的关键信息抽取器抽取真实语句中的关键信息；

步骤S3，根据抽取的关键信息，依照真实语句中的每个字分别生成对应的标签特征；

步骤S4，将真实语句与所有标签特征送入训练好的意图分类器中处理得到一意图分类结果，意图分类结果用于表示真实语句的文本意图；

步骤S5，根据文本意图进行后续的语义理解过程。

具体地，本实施例中，在执行上述文本意图分类方法之前，首先预先设定多个语言意图领域，这些语言意图领域的设定是遵照用户说话习惯进行分类的，例如音乐领域、日常清洁领域以及日常电器领域等。

在音乐领域，用户可以通过一定的自然语言控制播放器播放指定歌手的指定歌曲，相应的文本意图就可能包括“播放(play)”、“暂停(pause)”以及“重新播放(replay)”等，再加上指定的歌手或者歌曲就能将自然语言通过语义识别转换成相应的控制指令。

在日常清洁领域，用户可以通过一定的自然语言控制机器人执行扫地、拖地以及擦桌子等日常清洁工作，相应的文本意图就可能包括“开始(start)”以及“停止(stop)”等，再加上指定的打扫方式以及打扫区域就能将自然语言通过语义识别转换成相应的控制指令。

在日常电器领域，用户同样可以通过一定的自然语言控制日常电器的运行状态，例如控制灯光亮起或者熄灭，相应的文本意图就可能包括“打开(open)”以及“关闭(close)”等，再加上指定被控制的电器就能将自然语言通过语义识别转换成相应的控制指令。

本实施例中，预先设置好多个不同的语言意图领域后，预先设置每个语言意图领域下的关键信息。例如在音乐领域内，关键信息就可以是歌手、歌曲以及歌曲风格等，而在日常清扫领域，关键信息可以是控制的电器、打扫方式以及打扫区域等。

本实施例中，为了训练分类器，在不同的语言意图领域内还需要分别设置多个训练语句，将多个训练语句包括在一个训练集中，以供后续训练分类器使用。上述训练语句的语言意图领域、文本意图以及其中包括的关键信息等属性都是事先设定好的。

本实施例中，预先根据上述训练集中的训练语句训练得到一个关键信息抽取器，该关键信息抽取器的作用在于抽取语句中的关键信息。

本实施例中，随后采用训练得到的关键信息抽取器以及上述训练集中的训练语句训练得到一意图分类器，该意图分类器用于根据输入的语句处理得到该语句的文本意图。

最后，本实施例中，采用上述训练好的关键信息抽取器和意图分类器来对真实的语句进行文本意图的分类，具体为：

首先将真实语句送入训练好的关键信息抽取器中，以抽取出真实语句中的关键信息；

随后根据抽取到的关键信息，将真实语句中的每个字分别转换成相应的标签特征；

最后将真实语句中的所有标签特征连同原始的真实语句送入训练好的意图分类器中，就可以得到该真实语句的文本意图。

本实施例中，得到真实语句的文本意图后，根据该文本意图再对真实语句进行后的语义理解过程，就能将真实语句转换成相应的控制指令来控制机器人执行相应的操作，即进行人机交互操作。

本发明的较佳的实施例中，在预先确定每个语言意图领域中的关键信息后，分别在训练集中的每个训练语句中预先标注出每个关键信息的位置；

则预先训练关键信息抽取器的步骤具体如图2中所示，包括：

步骤A1，将训练语句中的每个字进行标注，以形成训练语句的标注数据序列；

步骤A2，采用序列标注工具对标注数据序列进行训练，以训练得到关键信息抽取器。

具体地，本实施例中，上述步骤A1中，首先将训练语句中的每个字进行标注。具体地，在对每个字进行标注之前，先确定当前的预言意图领域的关键信息，并在训练集的训练语句中标注出这些关键信息的位置。例如，如上文中所述，在音乐领域中的关键信息包括歌手名、歌曲名以及歌曲风格等，则在关联于音乐领域的训练集中的各训练语句中标注出这些关键信息的位置，随后，本实施例中，再对训练语句中的每个字进行标注，以形成按照训练语句中的字依序排列的标注数据序列。在进行标注之后，再采用某个序列标注工具对标注数据序列进行训练，从而形成关键信息抽取器。

本发明的较佳的实施例中，上述标注数据序列中包括多类标注数据，该标注数据即对每个字进行标注后形成的数据。该标注数据的类别包括：

第一类标注数据，用于表示对应的字被包括在关键信息中且处于关键信息的开头；

第二类标注数据，用于表示对应的字被包括在关键信息中且未处于关键信息的开头；

第三类标注数据，用于表示对应的字未被包括在关键信息中。

具体地，本发明的一个较佳的实施例中，上述第一类标注数据可以为B_tag，其中tag为关键信息的名称，例如某个字处于关键信息的开头，并且该关键信息为歌手名，则tag可以采用singer来表示，在此不再赘述。上述第二类标注数据可以为I，上述第三类标注数据可以为0。即：当某个字处于关键信息的开头时，将这个字标注为B_tag；当某个字处于关键信息的中间或者结尾(即不处于开头)时，将这个字标注为I；当某个字不处于关键信息中时，将这个字标注为0。在本实施例中，采用的标注方式是BIO标注体系。

本发明的其他实施例中，上述第一类、第二类以及第三类标注数据均可以自由设定，同样可以采用其他合适的标注方式来对训练语句中的每个字进行标注，在此不再赘述。

本发明的较佳的实施例中，上述步骤A2中，上述序列标注工具可以为长短期记忆(Long Short Term Memory，LSTM)神经网络模型，即根据上述标注好的标注数据序列，采用LSTM模型来对关键信息抽取器进行训练，最终得到训练好的关键信息抽取器。

本发明的较佳的实施例中，在训练得到关键信息抽取器后，继续训练意图分类器，其步骤具体如图3中所示，包括：

步骤B1，采用预先训练得到的关键信息抽取器抽取每个训练语句中的关键信息并分别生成训练语句中每个字所对应的标签特征；

步骤B2，根据标签特征和对应的训练语句训练得到意图分类器。

具体地，本实施例中，首先根据上述训练好的关键信息抽取器重新对训练集中的训练语句进行关键信息抽取，以抽取到每个训练语句中的关键信息个标注出这些关键信息的位置。

随后，根据这些关键信息的位置，针对训练语句中的每个字分别生成关联于该字的标签特征。再根据这些标签特征以及原始的训练语句训练得到意图分类器。

进一步地，本发明的较佳的实施例中，上述标签特征具体可以包括：

第一类标签特征，用于表示对应的字被包括在关键信息中；

第二类标签特征，用于表示对应的字未被包括在关键信息中。

具体地，若某个字被包括在关键信息中，则该字所对应的标签特征为第一类标签特征(可以为1)；若某个字未被包括在关键信息中，则该字所对应的标签特征为第二类标签特征(可以为0)。在训练语句中的所有字均生成了相应的标签特征后在转向步骤B2。

本发明的较佳的实施例中，如图4中所示，上述步骤B2具体包括：

步骤B21，通过查表的方式对训练语句中的每个字分别生成对应的字向量特征；

步骤B22，分别将每个字所对应的字向量特征和标签特征进行拼接，以形成对应每个字的意图特征；

步骤B23，根据包括每个字的意图特征的训练语句训练得到意图分类器。

具体地，本实施例中，上述步骤B21中，首先通过查表的方式生成每个字的字向量特征。由于现有技术中已有较多通过查表方式生成字向量特征的实现方式，因此在此不再赘述。

本实施例中，随后将每个字的字向量特征与该字的标签特征进行拼接，从而形成每个字的意图特征。

本实施例中，最后再将训练语句中每个字的意图特征与原始的训练语句送入意图分类器中进行训练，最终训练得到该意图分类器。

本发明的较佳的实施例中，上述步骤B23中，根据包括每个字的意图特征的训练语句训练一卷积神经网络分类器，以得到意图分类器，即采用卷积神经网络分类器训练得到意图分类器。

本发明的较佳的实施例中，上述文本意图分类方法中各中间数据的生成与训练关键信息抽取器和意图分类器过程中的数据生成过程类似。具体地，上述步骤S3中，标签特征同样可以分为两类，针对真实语句中的每个字是否被包括在关键信息内的不同情况分别生成不同类型的标签特征，最后同样将一个真实语句中所有字的标签特征与该原始的真实语句送入训练好的意图分类器中以得到该真实语句的文本意图，从而能够进入后续的语义理解过程。

本发明技术方案中，通过对语句结构进行分析得到语句中的关键信息，并将这些关键信息作为依据得到语句中每个字的特征，从而缓解了分类空间的复杂度问题，并且弥补了短文本信息不足的问题，从而能够提高文本意图分类的准确率，使得系统能够准确理解用户的意图。本发明技术方案在人机对话交互技术中具有极高的实用价值。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种文本意图分类方法，适用于语义理解过程中；其特征在于，预先设置多个包括不同的文本意图的语言意图领域，并预先确定每个所述语言意图领域中的关键信息，以及针对不同的语言意图领域分别预先设置包括多个训练语句的训练集；

所述文本意图分类方法还包括：

步骤S1，获取一待分类的真实语句；

步骤S5，根据所述文本意图进行后续的所述语义理解过程。

2.如权利要求1所述的文本意图分类方法，其特征在于，在预先确定每个所述语言意图领域中的关键信息后，分别在所述训练集中的每个所述训练语句中预先标注出每个所述关键信息的位置；

则预先训练所述关键信息抽取器的步骤具体包括：

3.如权利要求2所述的文本意图分类方法，其特征在于，所述步骤A1中，所述标注数据序列中包括多类标注数据，具体包括：

4.如权利要求2所述的文本意图分类方法，其特征在于，所述步骤A1中，采用BIO标注体系分别对所述训练语句中的每个字进行标注。

5.如权利要求2所述的文本意图分类方法，其特征在于，所述步骤A2中，所述序列标注工具为LSTM模型。

6.如权利要求1所述的文本意图分类方法，其特征在于，预先训练得到所述意图分类器的步骤具体包括：

7.如权利要求6所述的文本意图分类方法，其特征在于，所述标签特征具体包括：

8.如权利要求7所述的文本意图分类方法，其特征在于，所述步骤B2具体包括：

9.如权利要求8所述的文本意图分类方法，其特征在于，所述步骤B23中，根据包括每个字的所述意图特征的所述训练语句训练一卷积神经网络分类器，以得到所述意图分类器。