CN114860942B

CN114860942B - 文本意图分类方法、装置、设备及存储介质

Info

Publication number: CN114860942B
Application number: CN202210781015.0A
Authority: CN
Inventors: 张献涛; 曾祥永; 支涛
Original assignee: Beijing Yunji Technology Co Ltd
Current assignee: Beijing Yunji Technology Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-04
Anticipated expiration: 2042-07-05
Also published as: CN114860942A

Abstract

本公开提供一种文本意图分类方法、装置、设备及存储介质。该方法包括：获取基础语料数据，基础语料数据中包含多个标注实例；对每个标注实例中的句子执行语法规则抽取操作，得到每个句子对应的第一语法规则；基于句子以及第一语法规则进行语法规则的扩展，得到第二语法规则，并将第一语法规则和第二语法规则组成语法规则集合；将每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；将规则匹配得分最高的有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。本公开提升了文本意图分类的准确性，提升分类效率及分类性能。

Description

文本意图分类方法、装置、设备及存储介质

技术领域

本公开涉及文本分类技术领域，尤其涉及一种文本意图分类方法、装置、设备及存储介质。

背景技术

随着智能化设备以及语音识别技术的发展，语音识别在语音对话中得到了广泛应用，通过语音识别技术可以对说话者的意图进行分析。例如在人机语音交互过程中，通过获取说话者的语音文本，利用文本意图分类算法来识别语音文本对应的意图，比如用户咨询的是哪一类问题。

现有技术中，目前的文本意图分类算法主要是基于数据驱动的机器学习的方法，特别是基于深度学习模型的文本意图分类方法，这种基于模型的文本意图分类方法，模型需要大量的标注数据的支持，导致人工成本高；并且由于模型通常是一个黑盒子，模型解释性不足，因此在一些实际高要求的环境里难以发挥作用。另外，基于传统规则系统的文本意图分类方法，又过分依赖专家知识，没法利用大量的数据，导致分类性能比较差，降低了文本意图分类的准确性。

发明内容

有鉴于此，本公开实施例提供了一种文本意图分类方法、装置、设备及存储介质，以解决现有技术存在的文本意图分类的成本高，分类性能比较差，分类结果的准确性比较低的问题。

本公开实施例的第一方面，提供了一种文本意图分类方法，包括：获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将第一语法规则以及第二语法规则组成语法规则集合，语法规则集合中的每个语法规则具有与句子相对应的意图分类标签；将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。

本公开实施例的第二方面，提供了一种文本意图分类装置，包括：获取模块，被配置为获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；抽取模块，被配置为对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；扩展模块，被配置为基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将第一语法规则以及第二语法规则组成语法规则集合，语法规则集合中的每个语法规则具有与句子相对应的意图分类标签；匹配模块，被配置为将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；分类模块，被配置为根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。

本公开实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将第一语法规则以及第二语法规则组成语法规则集合，语法规则集合中的每个语法规则具有与句子相对应的意图分类标签；将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。本公开提升了文本意图分类算法的分类性能，提升文本意图分类结果的准确性以及分类效率，降低文本意图分类的成本。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的文本意图分类方法的流程示意图；

图2是本公开实施例提供的文本意图分类装置的结构示意图；

图3是本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

如前述背景技术的内容，当前文本意图分类算法主要基于数据驱动的机器学习的方法，特别是基于深度学习模型的方法，这种基于模型的文本意图分类方法，虽然获得了较好的效果，但是由于模型本身需要大量的标注数据的支持，导致人工成本高；并且由于深度网络模型是一个黑盒子，模型解释性不足，因此在一些实际高要求的环境里难以发挥作用。

另一方面，基于传统规则系统（比如正则表达式）的文本意图分类方法，虽然本身有着较为成熟的体系，能有效的融入专家知识，可以克服基于数据学习的一些缺点，具有分析可控、可解释和精确率高的优点；但是这种基于传统规则系统的文本意图分类方法，本身过分依赖专家知识，没法利用大量的数据。

鉴于上述现有技术中存在的问题，如何结合这两种文本意图分类方法的优点，在有限的数据语料和部分的规则标注的基础上，获取比较好的分类性能，是当前文本意图分类领域所关注的重要问题之一。对此，本公开提供一种基于有限状态自动机的文本意图分类方法，既可以融合深度学习的词表示模型，又可以充分利用专家知识，提升分类的能力。

图1是本公开实施例提供的文本意图分类方法的流程示意图。图1的文本意图分类方法可以由服务器执行。如图1所示，该文本意图分类方法具体可以包括：

S101，获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；

S102，对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；

S103，基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将第一语法规则以及第二语法规则组成语法规则集合，语法规则集合中的每个语法规则具有与句子相对应的意图分类标签；

S104，将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；

S105，根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。

具体地，本公开实施例的基础语料数据是基础文本语料库中的数据，基础文本语料库也可以称为基础训练集，基础训练集是根据已有的标注数据所形成的数据集合，基础训练集中包含训练样本（即标注实例），每个训练样本中包含一个句子及其对应的意图分类标签。在实际应用中，标注实例中的句子是由若干个分词后的词语组成，即标注实例中包含若干个词组，每个词组对应一个词序号，词序号表示指该词组在句子中的位置。

进一步地，本公开实施例的有限状态自动机（FA，Finite-state Automata）是为研究有限存储的计算过程及正则语言而抽象出的一种计算模型，是一个能实现状态转移的自动机，能够用来判断字符串是否匹配正则表达式。任何一个正则表达式都对应一个等价的有限状态自动机，因此可以利用转化算法将一个正则表达式转化为一个有限状态自动机。在以下实施例中，也将有限状态自动机简称为状态机或自动机。

根据本公开实施例提供的技术方案，本公开通过获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将第一语法规则以及第二语法规则组成语法规则集合，语法规则集合中的每个语法规则具有与句子相对应的意图分类标签；将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。本公开提升了文本意图分类算法的分类性能，提升文本意图分类结果的准确性以及分类效率，降低文本意图分类的成本。

在一些实施例中，每个标注实例中包含一个句子，以及句子对应的意图分类标签，包括：每个句子由若干个分词后的词语组成，每个句子中的词语对应各自的词序号，根据词序号确定句子的句子长度，并将超过长度阈值后的句子中的词语进行截断，其中每个句子对应一个预设的意图分类标签。

具体地，基础文本语料库DataCorpus（即基础训练集）由n条训练样本（即标注实例）构成，记为

，每个训练样本

可以表示为

；其中，

表示一句话（即一个句子），

表示这句话对应的意图分类标签。在实际应用中，一句话

可以由若干个分词后的词语组成，可以表示为

，其中i表示第i个句子，k表示词语对应的词序号，max表示所允许的句子最大长度，比如可以将max的值设为200，当一个句子超过该长度阈值时，则对该句子中超过长度阈值后的词语进行截断。

进一步地，例如在一个具体实施例中，基础训练集中的一个标注实例可以表示为（“明天从北京出发到上海的航班”，“flight”），这里的flight表示该句子的意图分类结果为航班查询意图。

在一些实施例中，关键词包括用于表示时间、数量及命名体的词语，对每个标注实例中的句子执行语法规则抽取操作，包括：利用预置的正则表达式对句子中用于表示时间和数量的词语进行提取，并将句子中用于表示时间和数量的词语替换为相应的词语标记；利用命名体识别分析器对句子进行分析，得到句子中用于表示命名体的词语，并将句子中用于表示命名体的词语替换为相应的词语标记，其中命名体包括人名、地名和机构名。

具体地，对基础训练集中的每条标注实例进行语法规则的抽取，得到每条标注实例中的句子所对应的语法规则。语法规则抽取操作主要用于抽取句子中的一些关键词（也称为核心词），在实际应用中，核心词可以定义为表示时间、数量、命名体的词语，通过对句子中的核心词进行抽取，完成一部分规则的汇总操作。

进一步地，本公开实施例针对不同类型的核心词，采用了两种不同的抽取方式，首先，针对句子中出现的用于表示时间和数量的核心词，利用常用的时间和数量的正则表达式对这部分核心词进行提取，之后将提取出来的表示时间和数量的核心词进行替换，将其替换为对应的词语标记TIME和NUM；其次，针对句子中出现的用于表示命名体的核心词，利用命名体识别分析器（如StanfordNLP工具等）对句子进行分析，以便提取出句子中的人名、地名和机构名，并将其进行替换为对应的词语标记PERSON、PLACE和ORG。

进一步地，例如在一个具体实施例中，对标注实例中的句子“明天从北京出发到上海的航班”进行语法规则抽取，将其转化为以下的语法规则“TIME 从 PLACE 出发到 PLACE的航班”。

在一些实施例中，基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，包括：计算任意两个第一语法规则之间的编辑距离，基于编辑距离对第一语法规则进行合并，得到合并后的至少一个第二语法规则：基于第一语法规则中的关键词，确定含有相同关键词的第一语法规则，将第一语法规则中的关键词周边的词语进行合并，得到合并后的至少一个第二语法规则：基于预设的常用句型将句子的句型进行转化，得到转化后的不同句型的句子，对不同句型的句子分别执行语法规则抽取操作，得到转化后的至少一个第二语法规则；确定句子中的停用词和插入语，将句子中的停用词和插入语进行删除，以便生成新句型对应的句子，将新句型对应的句子执行语法规则抽取操作，得到新生成的至少一个第二语法规则。

具体地，对基础训练集中的句子进行语法规则的抽取操作之后，由于基于原始句子所抽取的语法规则只能适应一些核心词的变化，因此最终还是只能匹配到固定的表达方式。而为了扩展更多的表达方式，以提升语法规则集合中的规则数量，本公开实施例将基于抽取后的第一语法规则进行扩展，得到更多的第二语法规则。

进一步地，本公开实施例提供了四种扩展操作，按照这四种扩展操作依次对第一语法规则进行语法规则的扩展，得到多个第二语法规则，下面结合具体实施例对这四种扩展操作的内容和原理进行详细说明，具体可以包括以下内容：

基于编辑距离的合并：利用编辑距离计算方法，计算任意两个第一语法规则之间的最少“增、删、改”的次数，假设任意两条语法规则rule_i和rule_j，如果语法规则rule_i到rule_j，修改的部分的比例小于某个阈值，则进行合并。例如在一个具体实施例中，两条语法规则分别为“TIME 从 PLACE 出发到 PLACE 的航班”和“从 PLACE 出发到 PLACE 的航班”，与后一条语法规则相比，前一条语法规则只是多了一个时间TIME，因此可以对其进行删除合并操作。这样可以删除rule_i中的“TIME”变化为rule_j，则语法规则合并为“TIME*从 PLACE 出发到 PLACE 的航班”，其中符号“*”代表前面的字串出现零次或一次。

基于核心词的合并：对于含有相同核心词的两个语法规则，可以对语法规则中核心词周边的词语进行合并，从而生成新的第二语法规则。例如在一个具体实施例中，两条语法规则分别为“到 PLACE 的航班”和“到 PLACE 的飞机”，这两句话的核心词都包含“PLACE”，因此通过对核心词“PLACE”周边的词语进行合并，将其统一为“到 PLACE 的 (航班｜飞机)”。

基于常用句型的扩展：对于一些常用句型，比如包括“被”字句、“把”字句的扩展，宾语前置等特别的句型的扩展变化。例如在一个具体实施例中，可以将一个句子“把机票号码告诉我”转化为“告诉我机票号码”等。

基于省略的扩展：对于一些包含停用词和插入语的句子，可以将句子中的停用词和插入语删掉，形成一个新的句型。例如在一个具体实施例中，可以将一个句子“麻烦告诉我机票的号码”转化为“告诉我机票号码”等。

进一步地，通过依次对抽取出来的第一语法规则按照上述四种扩展操作进行处理，将得到若干个第二语法规则，将第一语法规则和第二语法规则组成一个语法规则集合，将该语法规则集合记为RuleSet，即语法规则集合RuleSet中包含原始抽取的规则和扩展后的规则，那么每个训练样本将变为

，任意的

。

在一些实施例中，每个语法规则分别对应一个正则表达式，将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，包括利用预设的转化算法将正则表达式分别转化为一个对应的有限状态自动机，并将有限状态自动机表示为：

其中，

表示有限状态自动机，

表示一个有限状态集合，

表示输入字符集合，

表示从

至

的子集映照，

表示一个初始状态集，

表示一个最终状态集。

具体地，语法规则集合RuleSet中的每一个语法规则实际上都是一个正则表达式。对于任意一个正则表达式，都可以利用预设的转化算法，将其转化为一个有限状态自动机。利用有限状态自动机可以比较详细的把正则表达式的匹配过程和路径展示出来，也方便进一步优化处理。在实际应用中，可以将任意一个语法规则转化为一个最小化的确定性有限状态自动机mDFA。

进一步地，例如在一个具体实施例中，一个语法规则对应的正则表达式为“几点(到｜抵达) PLACE”，将该正则表达式转化为对应的有限状态自动机后，在有限状态自动机中，S₀为初始状态，遇到“几点”后，可以跳转到S₁状态，之后可以接受“到”或者“抵达”这两种输入，跳转到S₂状态。最后如果再次接收到“PLACE”之后，可以跳转到S₃状态，这里到S₃状态用即为最终状态，简称终态。

在一些实施例中，将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作，包括：将获取到的待分类文本进行分词，并将待分类文本中的关键词替换为相应的词语标记，依次选取待分类文本中的每个词语，查找从有限状态自动机的当前状态跳转到下一状态的输入词语，计算当前状态的词语与输入词语之间的相似度评分；利用固定阈值对相似度评分进行判断，当相似度评分大于固定阈值时，根据相似度评分对有限状态自动机的当前得分进行更新，并将下一状态作为更新后的当前状态，基于更新后的当前状态，从待分类文本中选取下一个词语进行相似度评分；当相似度评分小于固定阈值时，则将有限状态自动机的当前得分重置为初始得分；依次遍历待分类文本中的所有词语，直至得到最终更新后的当前状态，若最终更新后的当前状态为最终状态集中的一部分，则将最终更新后的当前状态对应的当前得分与句子长度的比值作为有限状态自动机对应的规则匹配得分。

具体地，在将所有语法规则分别转化为对应的有限状态自动机后，当获取一个待分类文本时，利用词向量的方式匹配可行的有限状态自动机。在实际应用中，如果只是利用正则表达式生成的状态机进行匹配的话，很多时候无法进行更好的泛化扩展。例如匹配“几点 (到｜抵达) PLACE”这条规则的话，如果对于句子“几点到上海”是可以的，但是“几时到上海”就无法匹配。因此如何做到更柔性的匹配，给予概率和权重，而不是生硬的是否匹配，是本公开实施例所要考虑的问题。

进一步地，本公开实施例提供一种匹配算法，可以高效且更柔性的进行匹配，下面结合具体实施例对匹配算法的处理流程进行详细说明，具体可以包括以下内容：

匹配算法的已知内容如下：

输入的句子

可以由若干的分好的词组成，可以表示为

，其中i表示第i个句子，k为词序号，max表示允许的句子的最大的长度，比如取max为200，如果超过此长度，则对后面的词语进行截断。依次获取任意一条规则

，该规则对应的状态机为FM，其中FM有k个状态，状态集合Z为最终状态。

匹配算法的流程如下：

步骤1、将状态机FM的初始状态记为S₀，当前状态记为S_cur，当前得分记为Score_cur，初始得分记为0；

步骤2、对句子中表示时间、数量、命名体的词语进行抽取并替换为TIME、NUM、PLACE等词语标记；

步骤3、依次选取句子中的词语

，执行匹配；

步骤4、查找可以从当前状态S_cur跳转到下一状态的所有可以接受的输入词语，并计算该输入词语与当前词语

的相似度，将相似度得分记为score_sim；由于在状态跳转过程中，可能会存在多条可跳转的路径，因此这里可以取其中相似度得分的最大值，并该最大值对应的下一状态S_cand记录下来；

步骤5、当相似度得分大于固定阈值时则继续，更新当前得分Score_cur= Score_cur+score_sim，更新当前状态S_cur=S_cand，并返回步骤3；当相似度得分小于固定阈值时，则退出循环，并将当前得分重置为初始得分，即Score_cur= 0，并跳到步骤6；上述固定阈值可以取0.8；

步骤6、最终到达状态机的最后状态S_cur，若该最后状态为状态机FM可接受的最终状态集合Z中的一部分，即S_cur⊆Z，则当前得分为Score_cur/句子长度，即为最终的规则匹配得分；否则最终匹配失败，最终得分为0。

进一步地，在计算当前状态的词语与输入词语之间的相似度得分时，可以使用两个词语分别对应的词向量进行相似度打分计算，其中要素NUM、TIME、PLACE等也可以用词向量进行表示。即对于有限状态自动机的匹配，采用了词语向量匹配的方式，通过采用特别设计的匹配方法，得到每条规则的匹配得分。

在一些实施例中，根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，包括：将待分类文本与每个有限状态自动机分别进行匹配，得到每个有限状态自动机对应的规则匹配得分，以便确定规则匹配得分最高的有限状态自动机；其中，相似度评分采用基于词向量的相似度计算方式。

具体地，在利用匹配算法得到每个状态机对应的语法规则的规则匹配得分之后，即通过上述匹配算法流程对句子（这里为待分类文本）和所有的语法规则进行依次匹配之后，获得规则匹配得分最高的状态机所对应的语法规则，并将该语法规则所标记的意图类别，作为该待分类文本的意图分类结果。

根据本公开实施例提供的技术方案，本公开提供一种关于文本意图分类的处理方法，通过使用已有的标注数据（即基础训练集中的训练样本）进行语法规则的抽取，并基于抽取到的语法规则进行规则扩展和合并，从而得到具有丰富语法规则的语法规则集合，之后将语法规则集合中的各个语法规则分别转化为状态机，并通过引入词向量模型进行最优结果匹配的方式，将待分类文本与每个状态机分别依次进行匹配，得到每个状态机对应的规则匹配得分，并将规则匹配得分最高的状态机所对应语法规则的意图类别作为最终的意图分类结果。本公开不仅降低了文本意图分类的成本，还提升了文本意图分类算法的分类性能，以及提升文本意图分类结果的准确性和分类效率。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图2是本公开实施例提供的文本意图分类装置的结构示意图。如图2所示，该文本意图分类装置包括：

获取模块201，被配置为获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；

抽取模块202，被配置为对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；

扩展模块203，被配置为基于句子以及第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将第一语法规则以及第二语法规则组成语法规则集合，语法规则集合中的每个语法规则具有与句子相对应的意图分类标签；

匹配模块204，被配置为将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；

分类模块205，被配置为根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机，并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。

在一些实施例中，每个句子由若干个分词后的词语组成，每个句子中的词语对应各自的词序号，图2的获取模块201根据词序号确定句子的句子长度，并将超过长度阈值后的句子中的词语进行截断，其中每个句子对应一个预设的意图分类标签。

在一些实施例中，关键词包括用于表示时间、数量及命名体的词语，图2的抽取模块202利用预置的正则表达式对句子中用于表示时间和数量的词语进行提取，并将句子中用于表示时间和数量的词语替换为相应的词语标记；利用命名体识别分析器对句子进行分析，得到句子中用于表示命名体的词语，并将句子中用于表示命名体的词语替换为相应的词语标记，其中命名体包括人名、地名和机构名。

在一些实施例中，图2的扩展模块203计算任意两个第一语法规则之间的编辑距离，基于编辑距离对第一语法规则进行合并，得到合并后的至少一个第二语法规则：基于第一语法规则中的关键词，确定含有相同关键词的第一语法规则，将第一语法规则中的关键词周边的词语进行合并，得到合并后的至少一个第二语法规则：基于预设的常用句型将句子的句型进行转化，得到转化后的不同句型的句子，对不同句型的句子分别执行语法规则抽取操作，得到转化后的至少一个第二语法规则；确定句子中的停用词和插入语，将句子中的停用词和插入语进行删除，以便生成新句型对应的句子，将新句型对应的句子执行语法规则抽取操作，得到新生成的至少一个第二语法规则。

在一些实施例中，每个语法规则分别对应一个正则表达式，图2的匹配模块204利用预设的转化算法将正则表达式分别转化为一个对应的有限状态自动机，并将有限状态自动机表示为：

其中，

表示有限状态自动机，

表示一个有限状态集合，

表示输入字符集合，

表示从

至

的子集映照，

表示一个初始状态集，

表示一个最终状态集。

在一些实施例中，图2的匹配模块204将获取到的待分类文本进行分词，并将待分类文本中的关键词替换为相应的词语标记，依次选取待分类文本中的每个词语，查找从有限状态自动机的当前状态跳转到下一状态的输入词语，计算当前状态的词语与输入词语之间的相似度评分；利用固定阈值对相似度评分进行判断，当相似度评分大于固定阈值时，根据相似度评分对有限状态自动机的当前得分进行更新，并将下一状态作为更新后的当前状态，基于更新后的当前状态，从待分类文本中选取下一个词语进行相似度评分；当相似度评分小于固定阈值时，则将有限状态自动机的当前得分重置为初始得分；依次遍历待分类文本中的所有词语，直至得到最终更新后的当前状态，若最终更新后的当前状态为最终状态集中的一部分，则将最终更新后的当前状态对应的当前得分与句子长度的比值作为有限状态自动机对应的规则匹配得分。

在一些实施例中，图2的分类模块205将待分类文本与每个有限状态自动机分别进行匹配，得到每个有限状态自动机对应的规则匹配得分，以便确定规则匹配得分最高的有限状态自动机；其中，相似度评分采用基于词向量的相似度计算方式。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图3是本公开实施例提供的电子设备3的结构示意图。如图3所示，该实施例的电子设备3包括：处理器301、存储器302以及存储在该存储器302中并且可以在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者，处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序303可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器302中，并由处理器301执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序303在电子设备3中的执行过程。

电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解，图3仅仅是电子设备3的示例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器301可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器302可以是电子设备3的内部存储单元，例如，电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备，例如，电子设备3上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种文本意图分类方法，其特征在于，包括：

获取基础语料数据，所述基础语料数据中包含多个标注实例，每个所述标注实例中包含一个句子，以及所述句子对应的意图分类标签；

对每个所述标注实例中的句子执行语法规则抽取操作，以便将所述句子中的关键词进行替换，分别得到每个所述句子对应的第一语法规则；

基于所述句子以及所述第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将所述第一语法规则以及所述第二语法规则组成语法规则集合，所述语法规则集合中的每个语法规则具有与所述句子相对应的意图分类标签，每个所述语法规则分别对应一个正则表达式；

利用预设的转化算法将所述语法规则集合中的每个所述语法规则对应的正则表达式分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个所述有限状态自动机对所述待分类文本执行匹配操作；

根据匹配结果确定与所述待分类文本之间的规则匹配得分最高的有限状态自动机，并将所述有限状态自动机对应语法规则的意图类别作为所述待分类文本的意图分类结果。

2.根据权利要求1所述的方法，其特征在于，所述每个所述标注实例中包含一个句子，以及所述句子对应的意图分类标签，包括：

每个所述句子由若干个分词后的词语组成，每个所述句子中的词语对应各自的词序号，根据词序号确定所述句子的句子长度，并将超过长度阈值后的句子中的词语进行截断，其中每个所述句子对应一个预设的意图分类标签。

3.根据权利要求1所述的方法，其特征在于，所述关键词包括用于表示时间、数量及命名体的词语，所述对每个所述标注实例中的句子执行语法规则抽取操作，包括：

利用预置的正则表达式对所述句子中用于表示时间和数量的词语进行提取，并将所述句子中用于表示时间和数量的词语替换为相应的词语标记；

利用命名体识别分析器对所述句子进行分析，得到所述句子中用于表示命名体的词语，并将所述句子中用于表示所述命名体的词语替换为相应的词语标记，其中所述命名体包括人名、地名和机构名。

4.根据权利要求1所述的方法，其特征在于，所述基于所述句子以及所述第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，包括：

计算任意两个所述第一语法规则之间的编辑距离，基于所述编辑距离对所述第一语法规则进行合并，得到合并后的至少一个第二语法规则；

基于所述第一语法规则中的关键词，确定含有相同关键词的所述第一语法规则，将所述第一语法规则中的所述关键词周边的词语进行合并，得到合并后的至少一个第二语法规则；

基于预设的常用句型将所述句子的句型进行转化，得到转化后的不同句型的句子，对所述不同句型的句子分别执行所述语法规则抽取操作，得到转化后的至少一个第二语法规则；

确定所述句子中的停用词和插入语，将所述句子中的停用词和插入语进行删除，以便生成新句型对应的句子，将所述新句型对应的句子执行所述语法规则抽取操作，得到新生成的至少一个第二语法规则。

5.根据权利要求1所述的方法，其特征在于，所述有限状态自动机表示为：

其中，

表示有限状态自动机，

表示一个有限状态集合，

表示输入字符集合，

表示从

至

的子集映照，

表示一个初始状态集，

表示一个最终状态集。

6.根据权利要求1所述的方法，其特征在于，所述将获取到的待分类文本中的关键词进行替换，分别利用每个所述有限状态自动机对所述待分类文本执行匹配操作，包括：

将获取到的所述待分类文本进行分词，并将所述待分类文本中的关键词替换为相应的词语标记，依次选取所述待分类文本中的每个词语，查找从所述有限状态自动机的当前状态跳转到下一状态的输入词语，计算所述当前状态的词语与所述输入词语之间的相似度评分；

利用固定阈值对所述相似度评分进行判断，当所述相似度评分大于所述固定阈值时，根据所述相似度评分对所述有限状态自动机的当前得分进行更新，并将所述下一状态作为更新后的当前状态，基于所述更新后的当前状态，从所述待分类文本中选取下一个词语进行相似度评分；当所述相似度评分小于所述固定阈值时，则将所述有限状态自动机的当前得分重置为初始得分；

依次遍历所述待分类文本中的所有词语，直至得到最终所述更新后的当前状态，若最终所述更新后的当前状态为最终状态集中的一部分，则将最终所述更新后的当前状态对应的当前得分与句子长度的比值作为所述有限状态自动机对应的规则匹配得分。

7.根据权利要求6所述的方法，其特征在于，所述根据匹配结果确定与所述待分类文本之间的规则匹配得分最高的有限状态自动机，包括：

将所述待分类文本与每个所述有限状态自动机分别进行匹配，得到每个所述有限状态自动机对应的规则匹配得分，以便确定所述规则匹配得分最高的有限状态自动机；其中，所述相似度评分采用基于词向量的相似度计算方式。

8.一种文本意图分类装置，其特征在于，包括：

获取模块，被配置为获取基础语料数据，所述基础语料数据中包含多个标注实例，每个所述标注实例中包含一个句子，以及所述句子对应的意图分类标签；

抽取模块，被配置为对每个所述标注实例中的句子执行语法规则抽取操作，以便将所述句子中的关键词进行替换，分别得到每个所述句子对应的第一语法规则；

扩展模块，被配置为基于所述句子以及所述第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将所述第一语法规则以及所述第二语法规则组成语法规则集合，所述语法规则集合中的每个语法规则具有与所述句子相对应的意图分类标签，每个所述语法规则分别对应一个正则表达式；

匹配模块，被配置为利用预设的转化算法将所述语法规则集合中的每个所述语法规则对应的正则表达式分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个所述有限状态自动机对所述待分类文本执行匹配操作；

分类模块，被配置为根据匹配结果确定与所述待分类文本之间的规则匹配得分最高的有限状态自动机，并将所述有限状态自动机对应语法规则的意图类别作为所述待分类文本的意图分类结果。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。