CN111651600A - 语句多意图识别方法、系统、电子设备及存储介质 - Google Patents

语句多意图识别方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN111651600A
CN111651600A CN202010487820.3A CN202010487820A CN111651600A CN 111651600 A CN111651600 A CN 111651600A CN 202010487820 A CN202010487820 A CN 202010487820A CN 111651600 A CN111651600 A CN 111651600A
Authority
CN
China
Prior art keywords
intention
target
combination
sentence
intent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010487820.3A
Other languages
English (en)
Other versions
CN111651600B (zh
Inventor
邓艳江
杨森
罗超
吉聪睿
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN202010487820.3A priority Critical patent/CN111651600B/zh
Publication of CN111651600A publication Critical patent/CN111651600A/zh
Application granted granted Critical
Publication of CN111651600B publication Critical patent/CN111651600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语句多意图识别方法、系统、电子设备及存储介质,该方法包括:配置意图与各关键词和/或正则表达式之间的对应关系、意图的优先级顺序;配置至少一个意图组合;按优先级顺序,依次将各意图对应的关键词和/或正则表达式与目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与目标语句匹配成功时,将该意图作为单意图;当单意图与其中一个意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将目标意图组合中各子意图对应的关键词和/或正则表达式分别与目标语句进行匹配,若匹配成功,则将目标意图组合中的各意图作为目标语句的目标意图。本发明能够识别出目标语句的多个意图,同时无需大量的人工标注样本。

Description

语句多意图识别方法、系统、电子设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语句多意图识别方法、系统、电子设备及存储介质。
背景技术
语音客服机器人用于将用户输入的语音转换为文本,而后对文本进行语言理解,以识别出用户的意图并根据识别出的意图做出响应。目前,口语理解主要通过对文本进行意图分类来实现。在很多时候,用户的单句语音可能包含不只一个意图,在此情况下,主要通过文本多标签分类方法来实现多意图理解。
主流的多标签分类方法主要从数据层面和模型层面两种方式进行建模。从数据层面建模是指将含有多个类别的标签进行组合,作为一个新的标签,然后再利用现有文本分类模型进行分类,此方式将多标签任务转换为多分类任务。从模型层面建模又可分为两种模式,一种是通过修改现有文本分类模型的输出层,让其支持多标签分类;另一种是专门设计一种神经网络让其支持多标签分类任务。
上述方法均需要较多的标注样本,而标注样本所需的人力成本巨大。当样本数量不足时,上述多标签分类方法的准确性较差,从而导致无法准确判断用户的意图。当用户的意图无法正确判断时,客服机器人就会生成答非所问的回复,这样的回复也就没有任何意义。因此,对于客服机器人的性能提升、提高用户体验,准确识别用户的所有意图显得尤为重要。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种语句多意图识别方法、系统、电子设备及存储介质,用于解决上述现有技术存在的问题。
为了实现上述目的,本发明提供一种语句多意图识别方法,包括:
配置预设的多个意图与预设的各关键词和/或正则表达式之间的对应关系、以及各所述意图的优先级顺序;
配置至少一个意图组合,所述意图组合包括至少两个所述意图,并将各所述意图组合中优先级最高的意图作为主意图,主意图以外的意图作为子意图;
获取目标语句;
按所述优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该意图作为单意图;
将所述单意图与各所述意图组合中的主意图进行匹配;
当所述单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将所述目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将所述单意图作为所述目标语句的目标意图。
在本发明一个优选实施例中,在所述将所述单意图与各所述意图组合中的主意图进行匹配的步骤之后,所述方法还包括:
当所述单意图与多个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并按预定顺序将各目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,直至某目标意图组合中各子意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的目标意图组合中的各意图作为所述目标语句的目标意图,流程结束,当所有目标意图组合中的各子意图与目标语句均不匹配时,则将单意图作为所述目标语句的目标意图。
在本发明一个优选实施例中,在所述按所述优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配的步骤之后,所述方法还包括:
当各所述意图对应的关键词和/或正则表达式与所述目标语句均不匹配时,通过预先训练的意图分类模型对所述目标语句进行处理,得到所述目标语句的目标意图。
在本发明一个优选实施例中,所述方法还包括预先通过如下步骤训练所述意图分类模型:
采集样本数据集,所述样本数据集包含若干训练语句,各所述训练语句标注有对应的意图标签;
按预定比例将所述样本数据集划分为训练集和验证集;
基于所述训练集,对所述意图分类模型进行训练;
基于所述验证集对训练后的所述意图分类模型进行验证,若验证通过,训练结束。
在本发明一个优选实施例中,所述意图分类模型为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
在本发明一个优选实施例中,所述通过预先训练的意图分类模型对所述目标语句进行处理的步骤如下:
通过所述嵌入层对所述目标语句进行向量化处理,得到所述目标语句的词向量;
通过所述卷积层对所述目标语句的词向量进行卷积处理,以提取所述目标语句的特征;
通过所述池化层对所述目标语句的特征进行池化处理,得到所述目标语句的降维特征;
通过所述全连接层将所述目标语句的降维特征传输至所述Softmax分类层;
通过所述Softmax分类层对所述目标语句的降维特征进行分类处理,得到所述目标语句对应的目标意图。
在本发明一个优选实施例中,在所述获取目标语句的步骤之后,所述方法还包括:对所述目标语句进行预处理。
为了实现上述目的,本发明还提供一种语句多意图识别系统,包括:
意图配置模块,用于配置预设的多个意图与预设的各关键词和/或正则表达式之间的对应关系、以及各所述意图的优先级顺序;
意图组合配置模块,用于配置至少一个意图组合,所述意图组合包括至少两个所述意图,并将各所述意图组合中优先级最高的意图作为主意图,主意图以外的意图作为子意图;
语句获取模块,用于获取目标语句;
单意图获取模块,用于按所述优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该意图作为单意图;
单意图匹配模块,用于所述单意图与各所述意图组合中的主意图进行匹配;
第一目标意图获取模块,用于在所述单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将所述目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将所述单意图作为所述目标语句的目标意图。
在本发明一个优选实施例中,所述系统还包括:
第二目标意图获取模块,用于在所述单意图匹配模块的匹配结果为所述单意图与多个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并按预定顺序将各目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,直至某目标意图组合中各子意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的目标意图组合中的各意图作为所述目标语句的目标意图,流程结束,当所有目标意图组合中的各子意图与目标语句均不匹配时,则将单意图作为所述目标语句的目标意图。
在本发明一个优选实施例中,所述系统还包括:
第三目标意图获取模块,用于在所述单意图获取模块的匹配结果为各所述意图对应的关键词和/或正则表达式与所述目标语句均不匹配时,通过预先训练的意图分类模型对所述目标语句进行处理,得到所述目标语句的目标意图。
在本发明一个优选实施例中,所述系统还包括模型训练模块,所述模型训练模块包括:
样本采集单元,用于采集样本数据集,所述样本数据集包含若干训练语句,各所述训练语句标注有对应的意图标签;
样本划分单元,用于按预定比例将所述样本数据集划分为训练集和验证集;
训练单元,用于基于所述训练集,对所述意图分类模型进行训练;
验证单元,用于基于所述验证集对训练后的所述意图分类模型进行验证,若验证通过,训练结束。
在本发明一个优选实施例中,所述意图分类模型为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
在本发明一个优选实施例中,所述第三目标意图获取模块具体用于:
通过所述嵌入层对所述目标语句进行向量化处理,得到所述目标语句的词向量;
通过所述卷积层对所述目标语句的词向量进行卷积处理,以提取所述目标语句的特征;
通过所述池化层对所述目标语句的特征进行池化处理,得到所述目标语句的降维特征;
通过所述全连接层将所述目标语句的降维特征传输至所述Softmax分类层;
通过所述Softmax分类层对所述目标语句的降维特征进行分类处理,得到所述目标语句对应的目标意图。
在本发明一个优选实施例中,所述系统还包括:预处理模块,用于对所述目标语句进行预处理。
为了实现上述目的,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明在获取目标语句之后,首先按配置的优先级顺序,依次将各意图对应的关键词和/或正则表达式与目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与目标语句匹配成功时,将该意图作为单意图;而后,将单意图与各意图组合中的主意图进行匹配,当所述单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将所述目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将所述单意图作为所述目标语句的目标意图。可见,本发明能够识别出目标语句的多个意图,同时无需大量的人工标注样本,提高了用户体验。
附图说明
图1为本发明实施例1的语句多意图识别方法的流程图;
图2为本发明实施例2的语句多意图识别方法的流程图;
图3为本发明实施例3的语句多意图识别方法的流程图;
图4为本发明实施例4的语句多意图识别系统的结构框图;
图5为本发明实施例5的语句多意图识别系统的结构框图;
图6为本发明实施例6的语句多意图识别系统的结构框图;
图7为本发明实施例7的电子设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
本实施例提供一种语句多意图识别方法,用于帮助客服机器人识别出用户的所有意图,如图1所示,该方法包括以下步骤:
S11,配置预设的多个意图与预设的各关键词和/或正则表达式之间的对应关系、以及各所述意图的优先级顺序。
具体地,通过人工预先总结出客服机器人所应用领域中常见的意图以及不同意图对应的关键词和/或正则表达式。例如,对于OTA领域,常见的意图包括打招呼、查询、预定、下单、评价、投诉等。其中,对于“打招呼”意图,其通常对应“你好”、“您好”、“早上好”等关键词;对于“查询”意图,其通常对应“查询”、“查一下”等关键词,同时还可对应“有.{0,5}到.{0,5}机票吗”等正则表达式。需要说明的是,意图的具体种类以及各意图对应的关键词和/或正则表达式可根据实际需要而定,本实施例并不对此作何限定。
另外,同一语句中的不同意图通常具有不同的重要程度。例如,当某句话中同时包含“打招呼”和“预定”意图时,通常认为“预定”比“打招呼”更重要,则可设定“预定”意图的优先级高于“打招呼”意图的优先级。在本实施例中,可通过人工预先总结出客服机器人所应用领域中常见意图的优先级。
当人工总结出客服机器人所应用领域中常见的意图、不同意图对应的关键词和/或正则表达式、以及不同意图的优先级顺序后,则据此输入对应的意图配置指令。在本实施例中,当接收到意图配置指令后,即可根据该指令配置不同意图与不同关键词和/或正则表达式之间的对应关系、以及不同意图的优先级顺序。
S12,配置至少一个意图组合,所述意图组合包括至少两个所述意图,并将各所述意图组合中优先级最高的意图作为主意图,主意图以外的意图作为子意图。
具体地,通过人工预先总结出通常哪些意图可能出现在同一语句中,并据此输入对应的意图组合配置指令。本实施例在接收到意图组合配置指令后,根据该指令配置至少一个意图组合,该意图组合包含可能出现在同一语句中的不同意图。例如,配置意图组合A包括意图1、意图2和意图3,当意图1的优先级高于意图2和意图3时,则将意图1作为意图组合A的主意图,意图2和意图3作为意图组合A的子意图。
此外,由于用户在与客服机器人对话时,输入的语句通常为短语句,因而意图组合中一般仅包含两个意图,当然本发明并不对意图组合中的意图数量进行限定,其也可以包含三个或更多个意图。
S13,当需要识别目标语句的意图时,则获取该目标语句。具体地,目标语句可以是对用户输入语音进行文本转换后得到的语句。
S14,按前面配置的优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的意图作为单意图。例如,当意图的总数为N个,意图优先级顺序如下:意图1>意图2>意图3>…>意图N时,首先将意图1对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图1作为单意图,本步骤流程结束,若匹配不成功,则将意图2对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图2作为单意图,本步骤流程结束,若匹配不成功,则将意图3对应的关键词和/或正则表达式与所述目标语句进行匹配,以此类推,直至将意图N对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图N作为单意图。
S15,将得到的单意图与各所述意图组合中的主意图进行匹配。
S16,当单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将单意图作为所述目标语句的目标意图。
例如,假设单意图为意图1,当各意图组合中仅意图组合A的主意图为意图1时,则将意图组合A的子意图(即意图2和意图3)对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将意图组合A中的所有意图(即意图1、意图2和意图3)作为目标语句的目标意图,若匹配不成功,则将意图1作为所述目标语句的目标意图。
可见,本实施例能够识别出目标语句的多个意图,同时无需大量的人工标注样本,提高了用户体验。
实施例2
如图2所示,本实施例的语句多意图识别方法相对于实施例1增加了以下步骤:
S21,当步骤S15的匹配结果为单意图与多个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并按预定顺序将各目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,直至某目标意图组合中各子意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的目标意图组合中的各意图作为所述目标语句的目标意图,流程结束;当所有目标意图组合中的各子意图与目标语句均不匹配时,则将单意图作为所述目标语句的目标意图。
在本实施例中,前述预定顺序可以是按各目标意图组合中意图数量从大到小进行先后排序。
例如,假设单意图为意图1,当意图组合A、B、C的主意图均为意图1,且意图A包含意图1、意图2和意图3,意图B包含意图1、意图2,意图C包含意图1、意图4时,首先将包含三个意图的意图组合A中的子意图(即意图2和意图3)对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图组合A中的所有意图(即意图1、意图2和意图3)作为目标语句的目标意图,流程结束,若匹配不成功,则选择意图组合B和C中的其中一个组合的子意图对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将本次选择的意图组合中的所有意图作为目标语句的目标意图,流程结束,若匹配不成功,选择意图组合B和C中的另一个组合的子意图对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将本次选择的意图组合中的所有意图作为目标语句的目标意图,流程结束,若匹配不成功,则将单意图作为所述目标语句的目标意图。
实施例3
如图3所示,本实施例的语句多意图识别方法相对于实施例1增加了以下步骤:
S31,当步骤S14的匹配结果为各所述意图对应的关键词和/或正则表达式与所述目标语句均不匹配时,通过预先训练的意图分类模型对所述目标语句进行处理,得到所述目标语句的目标意图。
在本实施例中,所述意图分类模型优选为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。具体地,本步骤对所述目标语句进行处理的流程如下:通过所述嵌入层对所述目标语句进行向量化处理,得到所述目标语句的词向量;通过所述卷积层对所述目标语句的词向量进行卷积处理,以提取所述目标语句的特征;通过所述池化层对所述目标语句的特征进行池化处理,得到所述目标语句的降维特征;通过所述全连接层将所述目标语句的降维特征传输至所述Softmax分类层;通过所述Softmax分类层对所述目标语句的降维特征进行分类处理,得到所述目标语句对应的目标意图。
优选地,在本实例中,预先通过如下步骤训练所述意图分类模型:首先,采集样本数据集,所述样本数据集包含若干训练语句,各所述训练语句标注有对应的意图标签;而后,按预定比例将所述样本数据集划分为训练集和验证集;再然后,基于所述训练集,对所述意图分类模型进行训练;最后,基于所述验证集对训练后的所述意图分类模型进行验证,若验证通过,训练结束,若验证未通过,则增加样本数据集的数量进行重新训练。
优选地,本实施例在所述获取目标语句的步骤之后,还包括:对所述目标语句进预处理,包括符号过滤处理和/或词过滤处理等。具体地,检测目标语句中是否有符号和/或词与预设符号和/或词匹配,若是,则将匹配的符号和/或词删除。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实施例4
本实施例提供一种语句多意图识别系统,用于帮助客服机器人识别出用户的所有意图,如图4所示,该系统10包括意图配置模块11、意图组合配置模块12、语句获取模块13、单意图获取模块14、单意图匹配模块15、第一目标意图获取模块16。下面分别对各模块进行详细介绍。
意图配置模块11用于配置预设的多个意图与预设的各关键词和/或正则表达式之间的对应关系、以及各所述意图的优先级顺序。
具体地,通过人工预先总结出客服机器人所应用领域中常见的意图以及不同意图对应的关键词和/或正则表达式。例如,对于OTA领域,常见的意图包括打招呼、查询、预定、下单、评价、投诉等。其中,对于“打招呼”意图,其通常对应“你好”、“您好”、“早上好”等关键词;对于“查询”意图,其通常对应“查询”、“查一下”等关键词,同时还可对应“有.{0,5}到.{0,5}机票吗”等正则表达式。需要说明的是,意图的具体种类以及各意图对应的关键词和/或正则表达式可根据实际需要而定,本实施例并不对此作何限定。
另外,同一语句中的不同意图通常具有不同的重要程度。例如,当某句话中同时包含“打招呼”和“预定”意图时,通常认为“预定”比“打招呼”更重要,则可设定“预定”意图的优先级高于“打招呼”意图的优先级。在本实施例中,可通过人工预先总结出客服机器人所应用领域中常见意图的优先级。
当人工总结出客服机器人所应用领域中常见的意图、不同意图对应的关键词和/或正则表达式、以及不同意图的优先级顺序后,则据此输入对应的意图配置指令。在本实施例中,当接收到意图配置指令后,即可根据该指令配置不同意图与不同关键词和/或正则表达式之间的对应关系、以及不同意图的优先级顺序。
意图组合配置模块12用于配置至少一个意图组合,所述意图组合包括至少两个所述意图,并将各所述意图组合中优先级最高的意图作为主意图,主意图以外的意图作为子意图。
具体地,通过人工预先总结出通常哪些意图可能出现在同一语句中,并据此输入对应的意图组合配置指令。本实施例在接收到意图组合配置指令后,根据该指令配置至少一个意图组合,该意图组合包含可能出现在同一语句中的不同意图。例如,配置意图组合A包括意图1、意图2和意图3,当意图1的优先级高于意图2和意图3时,则将意图1作为意图组合A的主意图,意图2和意图3作为意图组合A的子意图。
此外,由于用户在与客服机器人对话时,输入的语句通常为短语句,因而意图组合中一般仅包含两个意图,当然本发明并不对意图组合中的意图数量进行限定,其也可以包含三个或更多个意图。
语句获取模块13用于在需要识别目标语句的意图时,获取该目标语句。具体地,目标语句可以是对用户输入语音进行文本转换后得到的语句。
单意图获取模块14用于按前面配置的优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的意图作为单意图。例如,当意图的总数为N个,意图优先级顺序如下:意图1>意图2>意图3>…>意图N时,首先将意图1对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图1作为单意图,本模块流程结束,若匹配不成功,则将意图2对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图2作为单意图,本模块流程结束,若匹配不成功,则将意图3对应的关键词和/或正则表达式与所述目标语句进行匹配,以此类推,直至将意图N对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图N作为单意图。
单意图匹配模块15用于将得到的单意图与各所述意图组合中的主意图进行匹配。
第一目标意图获取模块16用于在单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将单意图作为所述目标语句的目标意图。
例如,假设单意图为意图1,当各意图组合中仅意图组合A的主意图为意图1时,则将意图组合A的子意图(即意图2和意图3)对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将意图组合A中的所有意图(即意图1、意图2和意图3)作为目标语句的目标意图,若匹配不成功,则将意图1作为所述目标语句的目标意图。
可见,本实施例能够识别出目标语句的多个意图,同时无需大量的人工标注样本,提高了用户体验。
实施例5
如图5所示,本实施例的语句多意图识别系统相对于实施例1增加了以下模块:
第二目标意图获取模块21,用于在单意图匹配模块15的匹配结果为单意图与多个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并按预定顺序将各目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,直至某目标意图组合中各子意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的目标意图组合中的各意图作为所述目标语句的目标意图,流程结束;当所有目标意图组合中的各子意图与目标语句均不匹配时,则将单意图作为所述目标语句的目标意图。
在本实施例中,前述预定顺序可以是按各目标意图组合中意图数量从大到小进行排序。
例如,假设单意图为意图1,当意图组合A、B、C的主意图均为意图1,且意图A包含意图1、意图2和意图3,意图B包含意图1、意图2,意图C包含意图1、意图4时,首先将包含三个意图的意图组合A中的子意图(即意图2和意图3)对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将意图组合A中的所有意图(即意图1、意图2和意图3)作为目标语句的目标意图,流程结束,若匹配不成功,则选择意图组合B和C中的其中一个组合的子意图对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将本次选择的意图组合中的所有意图作为目标语句的目标意图,流程结束,若匹配不成功,选择意图组合B和C中的另一个组合的子意图对应的关键词和/或正则表达式与所述目标语句进行匹配,若匹配成功,则将本次选择的意图组合中的所有意图作为目标语句的目标意图,流程结束,若匹配不成功,则将单意图作为所述目标语句的目标意图。
实施例6
如图6所示,本实施例的语句多意图识别系统相对于实施例4增加了第三目标意图获取模块31,用于在单意图获取模块14的匹配结果为各所述意图对应的关键词和/或正则表达式与所述目标语句均不匹配时,通过预先训练的意图分类模型对所述目标语句进行处理,得到所述目标语句的目标意图。
在本实施例中,所述意图分类模型优选为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。具体地,本模块对所述目标语句进行处理的流程如下:通过所述嵌入层对所述目标语句进行向量化处理,得到所述目标语句的词向量;通过所述卷积层对所述目标语句的词向量进行卷积处理,以提取所述目标语句的特征;通过所述池化层对所述目标语句的特征进行池化处理,得到所述目标语句的降维特征;通过所述全连接层将所述目标语句的降维特征传输至所述Softmax分类层;通过所述Softmax分类层对所述目标语句的降维特征进行分类处理,得到所述目标语句对应的目标意图。
优选地,在本实例中,所述系统还包括模型训练模块,该模型训练模块32包括:样本采集单元,用于采集样本数据集,所述样本数据集包含若干训练语句,各所述训练语句标注有对应的意图标签;样本划分单元,用于按预定比例将所述样本数据集划分为训练集和验证集;训练单元,用于基于所述训练集,对所述意图分类模型进行训练;验证单元,用于基于所述验证集对训练后的所述意图分类模型进行验证,若验证通过,训练结束,若验证未通过,则增加样本数据集的数量进行重新训练。
优选地,本实施例的系统还包括预处理模块33,用于对所述目标语句进预处理,包括符号过滤处理和/或词过滤处理等。具体地,检测目标语句中是否有符号和/或词与预设符号和/或词匹配,若是,则将匹配的符号和/或词删除。
实施例7
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1、2或3提供的语句多意图识别方法。
图7示出了本实施例的硬件结构示意图,如图7所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或2所提供的语句多意图识别方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例8
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1、2或3所提供的语句多意图识别方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1、2或3所述的语句多意图识别方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (16)

1.一种语句多意图识别方法,其特征在于,包括:
配置预设的多个意图与预设的各关键词和/或正则表达式之间的对应关系、以及各所述意图的优先级顺序;
配置至少一个意图组合,所述意图组合包括至少两个所述意图,并将各所述意图组合中优先级最高的意图作为主意图,所述主意图以外的意图作为子意图;
获取目标语句;
按所述优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该意图作为单意图;
将所述单意图与各所述意图组合中的主意图进行匹配;
当所述单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将所述目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将所述单意图作为所述目标语句的目标意图。
2.根据权利要求1所述的语句多意图识别方法,其特征在于,在所述将所述单意图与各所述意图组合中的主意图进行匹配的步骤之后,所述方法还包括:
当所述单意图与多个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并按预定顺序将各目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,直至某目标意图组合中各子意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的目标意图组合中的各意图作为所述目标语句的目标意图,流程结束,当所有目标意图组合中的各子意图与目标语句均不匹配时,则将单意图作为所述目标语句的目标意图。
3.根据权利要求1所述的语句多意图识别方法,其特征在于,在所述按所述优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配的步骤之后,所述方法还包括:
当各所述意图对应的关键词和/或正则表达式与所述目标语句均不匹配时,通过预先训练的意图分类模型对所述目标语句进行处理,得到所述目标语句的目标意图。
4.根据权利要求3所述的语句多意图识别方法,其特征在于,所述方法还包括预先通过如下步骤训练所述意图分类模型:
采集样本数据集,所述样本数据集包含若干训练语句,各所述训练语句标注有对应的意图标签;
按预定比例将所述样本数据集划分为训练集和验证集;
基于所述训练集,对所述意图分类模型进行训练;
基于所述验证集对训练后的所述意图分类模型进行验证,若验证通过,训练结束。
5.根据权利要求3所述的语句多意图识别方法,其特征在于,所述意图分类模型为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
6.根据权利要求5所述的语句多意图识别方法,其特征在于,所述通过预先训练的意图分类模型对所述目标语句进行处理的步骤如下:
通过所述嵌入层对所述目标语句进行向量化处理,得到所述目标语句的词向量;
通过所述卷积层对所述目标语句的词向量进行卷积处理,以提取所述目标语句的特征;
通过所述池化层对所述目标语句的特征进行池化处理,得到所述目标语句的降维特征;
通过所述全连接层将所述目标语句的降维特征传输至所述Softmax分类层;
通过所述Softmax分类层对所述目标语句的降维特征进行分类处理,得到所述目标语句对应的目标意图。
7.根据权利要求3所述的语句多意图识别方法,其特征在于,在所述获取目标语句的步骤之后,所述方法还包括:对所述目标语句进行预处理。
8.一种语句多意图识别系统,其特征在于,包括:
意图配置模块,用于配置预设的多个意图与预设的各关键词和/或正则表达式之间的对应关系、以及各所述意图的优先级顺序;
意图组合配置模块,用于配置至少一个意图组合,所述意图组合包括至少两个所述意图,并将各所述意图组合中优先级最高的意图作为主意图,所述主意图以外的意图作为子意图;
语句获取模块,用于获取目标语句;
单意图获取模块,用于按所述优先级顺序,依次将各所述意图对应的关键词和/或正则表达式与所述目标语句进行匹配,直至某意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该意图作为单意图;
单意图匹配模块,用于所述单意图与各所述意图组合中的主意图进行匹配;
第一目标意图获取模块,用于在所述单意图与其中一个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并将所述目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,若匹配成功,则将所述目标意图组合中的各意图作为所述目标语句的目标意图,若匹配不成功,则将所述单意图作为所述目标语句的目标意图。
9.根据权利要求8所述的语句多意图识别系统,其特征在于,所述系统还包括:
第二目标意图获取模块,用于在所述单意图匹配模块的匹配结果为所述单意图与多个所述意图组合中的主意图匹配时,将匹配的意图组合作为目标意图组合,并按预定顺序将各目标意图组合中各子意图对应的关键词和/或正则表达式分别与所述目标语句进行匹配,直至某目标意图组合中各子意图对应的关键词和/或正则表达式与所述目标语句匹配成功时,将该匹配的目标意图组合中的各意图作为所述目标语句的目标意图,流程结束,当所有目标意图组合中的各子意图与目标语句均不匹配时,则将单意图作为所述目标语句的目标意图。
10.根据权利要求8所述的语句多意图识别系统,其特征在于,所述系统还包括:
第三目标意图获取模块,用于在所述单意图获取模块的匹配结果为各所述意图对应的关键词和/或正则表达式与所述目标语句均不匹配时,通过预先训练的意图分类模型对所述目标语句进行处理,得到所述目标语句的目标意图。
11.根据权利要求10所述的语句多意图识别系统,其特征在于,所述系统还包括模型训练模块,所述模型训练模块包括:
样本采集单元,用于采集样本数据集,所述样本数据集包含若干训练语句,各所述训练语句标注有对应的意图标签;
样本划分单元,用于按预定比例将所述样本数据集划分为训练集和验证集;
训练单元,用于基于所述训练集,对所述意图分类模型进行训练;
验证单元,用于基于所述验证集对训练后的所述意图分类模型进行验证,若验证通过,训练结束。
12.根据权利要求10所述的语句多意图识别系统,其特征在于,所述意图分类模型为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
13.根据权利要求12所述的语句多意图识别系统,其特征在于,所述第三目标意图获取模块具体用于:
通过所述嵌入层对所述目标语句进行向量化处理,得到所述目标语句的词向量;
通过所述卷积层对所述目标语句的词向量进行卷积处理,以提取所述目标语句的特征;
通过所述池化层对所述目标语句的特征进行池化处理,得到所述目标语句的降维特征;
通过所述全连接层将所述目标语句的降维特征传输至所述Softmax分类层;
通过所述Softmax分类层对所述目标语句的降维特征进行分类处理,得到所述目标语句对应的目标意图。
14.根据权利要求8所述的语句多意图识别系统,其特征在于,所述系统还包括:预处理模块,用于对所述目标语句进行预处理。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202010487820.3A 2020-06-02 2020-06-02 语句多意图识别方法、系统、电子设备及存储介质 Active CN111651600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010487820.3A CN111651600B (zh) 2020-06-02 2020-06-02 语句多意图识别方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010487820.3A CN111651600B (zh) 2020-06-02 2020-06-02 语句多意图识别方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111651600A true CN111651600A (zh) 2020-09-11
CN111651600B CN111651600B (zh) 2023-04-07

Family

ID=72351056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010487820.3A Active CN111651600B (zh) 2020-06-02 2020-06-02 语句多意图识别方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111651600B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541068A (zh) * 2020-12-22 2021-03-23 携程旅游信息技术(上海)有限公司 语音对话的意图识别方法、系统、设备及存储介质
CN114118060A (zh) * 2021-11-10 2022-03-01 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
WO2023272616A1 (zh) * 2021-06-30 2023-01-05 东莞市小精灵教育软件有限公司 一种文本理解方法、系统、终端设备和存储介质
WO2024055603A1 (zh) * 2022-09-13 2024-03-21 广州趣丸网络科技有限公司 一种未成年人文本识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
KR20190129701A (ko) * 2018-05-11 2019-11-20 김영태 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
KR20190129701A (ko) * 2018-05-11 2019-11-20 김영태 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨春妮;冯朝胜;: "结合句法特征和卷积神经网络的多意图识别模型" *
王丽英;: "网络新闻语境的语链分析" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541068A (zh) * 2020-12-22 2021-03-23 携程旅游信息技术(上海)有限公司 语音对话的意图识别方法、系统、设备及存储介质
WO2023272616A1 (zh) * 2021-06-30 2023-01-05 东莞市小精灵教育软件有限公司 一种文本理解方法、系统、终端设备和存储介质
CN114118060A (zh) * 2021-11-10 2022-03-01 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
CN114118060B (zh) * 2021-11-10 2022-09-27 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
WO2024055603A1 (zh) * 2022-09-13 2024-03-21 广州趣丸网络科技有限公司 一种未成年人文本识别方法及装置

Also Published As

Publication number Publication date
CN111651600B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111651600B (zh) 语句多意图识别方法、系统、电子设备及存储介质
CN108597519B (zh) 一种话单分类方法、装置、服务器和存储介质
CN111191000B (zh) 一种智能语音机器人的对话管理方法、装置和系统
CN111191030B (zh) 基于分类的单句意图识别方法、装置和系统
CN111292752B (zh) 一种用户意图识别方法、装置、电子设备及存储介质
CN111104498A (zh) 一种任务型对话系统中的语义理解方法
CN104462600A (zh) 实现来电原因自动分类的方法及装置
CN113157863A (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN112541068A (zh) 语音对话的意图识别方法、系统、设备及存储介质
CN111177351A (zh) 基于规则的自然语言表达意图获取方法、装置和系统
CN111339292A (zh) 文本分类网络的训练方法、系统、设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CA3153056A1 (en) Intelligently questioning and answering method, device, computer, equipment and storage medium
CN111639500A (zh) 语义角色标注方法、装置、计算机设备及存储介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN114357125A (zh) 任务型对话系统中的自然语言识别方法、装置及设备
CN112487186A (zh) 一种人人对话日志分析方法、系统、设备及存储介质
CN117034949A (zh) 咨询工单的分类方法、装置、电子设备及存储介质
CN111428034A (zh) 分类模型的训练方法、评论信息的分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant