CN111507085B

CN111507085B - 句型识别方法

Info

Publication number: CN111507085B
Application number: CN201911165208.8A
Authority: CN
Inventors: 王冲; 崇传兵
Original assignee: Jiangsu Aijia Household Products Co Ltd
Current assignee: Jiangsu Aijia Household Products Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-07-07
Anticipated expiration: 2039-11-25
Also published as: CN111507085A

Abstract

本发明公开了一种句型识别方法，通过获取训练数据集，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据余弦相似度确定待识别语句的类型，使待识别语句的类型以待识别语句所包括的目标词为依据，可以提高识别结果的准确性，从而提高识别精度。

Description

句型识别方法

技术领域

本发明涉及信号处理技术领域，尤其涉及一种句型识别方法和存储介质。

背景技术

问答系统(Question Answering System，QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。一个问答系统牵涉到问和答，那么从海量的语句中识别出问句是个很迫切的需求。只有识别出C端(客户端)的问答需求，才能更好的针对问题进行归纳整理答案，更好的服务客户。传统方案往往通过分析标点等句型特征进行句型识别，虽然在一定程度上可以响应句型识别需求，然而往往存在识别精度低的问题。

发明内容

针对以上问题，本发明提出一种句型识别方法和存储介质。

为实现本发明的目的，提供一种句型识别方法，包括如下步骤：

S10，获取训练数据集；所述训练数据集包括多个标注句型的问句以及多个标注句型的非问句；

S30，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率；

S40，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2；

S50，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型。

在一个实施例中，所述计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型包括：

分别将问句词向量QV1和非问句词向量QV2转换为设定长度的向量，计算转换后的两个向量的余弦相似度；

当余弦相似度大于设定阈值时，判定待识别语句为非问句，当余弦相似度小于设定阈值时，判定待识别语句为问句。

在一个实施例中，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列之前，还包括：

S20，对所述训练数据集进行预处理，以去除所述训练数据集中各个语句中的噪声词。

作为一个实施例，所述对所述训练数据集进行预处理包括：

获取训练数据集中语句集合C＝{C₁，C₂，C₃，...，C_n}和标签集合L＝{L₁，L₂，L₃，...，L_n}；C_i表示第i个语句，i＝1，2，......，n，n表示训练数据集中的语句个数；

将每个语句进行分词，去除各个语句中的停用词；

对去除停用词后的各个语句进行词过滤，得到过滤结果；

去除过滤结果所包括的各个语句中的重复词，根据标签集合L＝{L₁，L₂，L₃，...，L_n}将语句集合C＝{C₁，C₂，C₃，...，C_n}划分为问句集Q₁和非问句集Q₂。

作为一个实施例，所述对去除停用词后的各个语句进行词过滤包括：

获取各个词语在各个语句中的出现次数，定义最小出现次数为min和最大出现次数为max；

剔除出现次数在区间(min，max)以外的词语。

作为一个实施例，所述根据预处理后的训练数据集确定问句对应的第一词向量序列包括：

获取问句集中各个语句的去重分词结果集T1，以及各个语句的去除过滤结果集S1；

计算问句集第m个语句中各个词的第一词频值；第m个语句中第j个词T_j的第一词频值TF1(T_j)的计算公式包括：

其中，count1 T_j为语句C1_m的分词结果中词T_j出现的数目，count1 S_j为语句C1_m分词结果中所有词的数目，C1_m为问句集第m个语句；

计算问句集第m个语句中各个词的IDF1值；第m个语句中第j个词T_j的IDF值IDF1(T_j)的计算公式包括：

其中，N1表示问句集包括的语句数，N1(T_j)代表示问句集中包含词T_j的语句数；

计算问句集第m个语句中各个词的TF-IDF1值；第m个语句中第j个词T_j的TF-IDF1值TF-IDF1(T_j)为：

TF-IDF1(T_j)＝TF1(T_j)*IDF1(T_j)；

计算去重分词结果集T1中各个词分别对应的TF-IDF1值，将这组TF-IDF1值组成一个一维向量，得到问句一维向量；

对问句一维向量进行标准化处理，使问句一维向量的各个值都落在(0，1)中，得到各个词对应的第一词向量序列。

作为一个实施例，所述根据预处理后的训练数据集确定非问句对应的第二词向量序列包括：

获取非问句集中各个语句的去重分词结果集T2，以及各个语句的去除过滤结果集S2；

计算非问句集第m个语句中各个词的第二词频值；第m个语句中第j个词T_j的第二词频值TF2(T_j)的计算公式包括：

其中，count2 T_j为语句C2_m的分词结果中词T_j出现的数目，count2 S_j为语句C2_m分词结果中所有词的数目，C2_m为非问句集第m个语句；

计算非问句集第m个语句中各个词的IDF2值；第m个语句中第j个词T_j的IDF2值IDF2(T_j)的计算公式包括：

其中，N2表示非问句集包括的语句数，N2(T_j)代表示非问句集中包含词T_j的语句数；

计算非问句集第m个语句各个词的TF-IDF2值；第m个语句第j个词T_j的TF-IDF2值TF-IDF2(T_j)为：

TF-IDF2(T_j)＝TF2(T_j)*IDF2(T_j)；

计算去重分词结果集T2中各个词分别对应的TF-IDF2值，将这组TF-IDF2值组成一个一维向量，得到非问句一维向量；

对非问句一维向量进行标准化处理，使非问句一维向量的各个值都落在(0，1)中，得到各个词对应的第二词向量序列。

作为一个实施例，标准化处理的过程包括：

x′＝(x-μ)/δ，

其中，x′表示词标准化处理后的TF-IDF1值或TF-IDF2值，x表示词标准化处理前的TF-IDF1值或TF-IDF2值，μ表示问句一维向量中各个值的均值或者非问句一维向量中各个值的均值，δ表示问句一维向量中各个值对应的标准差或者非问句一维向量中各个值对应的标准差。

上述句型识别方法，通过获取训练数据集，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型，使待识别语句的类型以待识别语句所包括的目标词为依据，可以提高识别结果的准确性，从而提高识别精度。

附图说明

图1是树结构的生成过程示意图；

图2是一个实施例的句型识别装置结构示意图；

图3为一个实施例的计算机设备示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在一个实施例中，如图1所示，提供了一种句型识别方法，以该方法应用于数据查找终端为例进行说明，包括以下步骤：

S10，获取训练数据集；所述训练数据集包括多个标注句型(问句类型)的问句以及多个标注句型(非问句类型)的非问句。

训练数据集包括多条数据，每条数据由语句和是否是问句的标签构成，可以表示为

D＝{(C₁，L₁)，(C₂，L₂)，(C₃，L₃)，...，(C_n，L_n)}；

D表示训练数据集，C_i表示D中第i个语句，C_i表示第i个语句的类型，语句的类型包括问句类型和非问句类型，i＝1，2，......，n，n表示训练数据集中的语句个数。

S30，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率。

S40，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2。

具体地，上述步骤可以先对待识别语句进行去除停用词、过滤以及去重复词等处理，再依据处理结果确定待识别语句中的各个目标词，以保证所确定的目标词的准确性。

上述步骤中，在第一词向量序列中查找各个目标词的第一词向量之后，可以按照各个目标词在待识别语句中的出现顺序排列各个目标词对应的第一词向量，以确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量之后，可以按照各个目标词在待识别语句中的出现顺序排列各个目标词对应的第二词向量，以确定非问句词向量QV2。

上述设定长度可以为30，此时，当句向量(如问句词向量QV1或者非问句词向量QV2)长度大于30时，截取前30位作为句向量，当句向量长度小于30时，补充0。

上述设定阈值可以依据识别精度进行设置，比如设置为0.6等值。具体地，针对QV1和QV2两个向量计算余弦相似度，当余弦相似度大于设定阈值时，认为两类特征差异较小，可以判定待识别语句Q为非问句，当余弦相似度小于设定阈值时，认为两类特征差异较大，可以判定待识别语句Q为问句。

上述噪声可以包括停用词、重复词、和/或出现次数明显异常的词等容易干扰识别结果的词。

作为一个实施例，所述对所述训练数据集进行预处理包括：

将每个语句进行分词，去除各个语句中的停用词；上述停用词可以包括“的”，“乃”，“也”等意义不大的字词，以及数字、中英文标点符号以及其他非中文无意义的符号，比如“％”，“￥”，“！”等。

对去除停用词后的各个语句进行词过滤，得到过滤结果；

上述过滤结果也可以称为过滤结果集S，S＝{S₁，S₂，S₃，...，S_M}，其中S_m为第m个词。

过滤结果中存在很多重复词语，去除过滤结果所包括的各个语句中的重复词得到去重分词结果集T：

T＝{T₁，T₂，T₃，...，T_n}。

剔除出现次数在区间(min，max)以外的词语。

最小出现次数为min和最大出现次数为max均可以依据训练数据集所包括的数据条数进行设定，比如可以将最小出现次数为min设为3，将最大出现次数为max设为50等等。

本实施例将出现次数小于min以及大于max的词剔除，大于max的词，说明词本身非常普遍，不具有代表性，而小于min的词由于出现极少，特征性太强，会影响决策，所以只保留出现次数在(min，max)中的词，以进一步提高后续句型识别准确性。

在一个实施例中，所述根据预处理后的训练数据集确定问句对应的第一词向量序列包括：

TF-IDF1(T_j)＝TF1(T_j)*IDF1(T_j)；

在一个实施例中，所述根据预处理后的训练数据集确定非问句对应的第二词向量序列包括：

TF-IDF2(T_j)＝TF2(T_j)*IDF2(T_j)；

具体地，标准化处理的过程包括：

x′＝(x-μ)/δ，

例如，在对问句一维向量进行标准化处理的过程中，x′表示词标准化处理后的TF-IDF1值，x表示标准化处理前的TF-IDF1值，μ表示问句一维向量中各个值的均值，δ表示问句一维向量中各个值对应的标准差；在对非问句一维向量进行标准化处理的过程中，x′表示标准化处理后的TF-IDF2值，x表示词标准化处理前的TF-IDF2值，μ表示非问句一维向量中各个值的均值，δ表示非问句一维向量中各个值对应的标准差。

在一个示例中，可以用1表征问句类型，用0表征非问句类型，上述句型识别方法也可以包括：

1)，训练数据集准备，训练数据集所包括的数据可以为：

第1个：您听我说话吗？，1

第2个：您那边信号不太好听，不太清，0

第3个：喂你好，0

第4个：您好，请问有什么问题，1

第5个：您说的是什么影响呢，1

第6个：北京是中国的首都，0

……

第n个：这个城市真美丽，0

对于训练数据集而言，数据条数越多，覆盖的场景越全面，后续的句型识别效果越好。

2)数据集预处理

(a)分词，将数据集中的各个语句后得到如下结果：

第1个：[您，听，我，说话，吗，？]，1

第2个：[您，那边，信号，不太好，，，听，不太清]，0

第3个：[喂，你好]，0

第4个：[您好，，，请问，有，什么，问题]，1

第5个：[您，说，的，是，什么，影响，呢]，1

第6个：[北京，是，中国，的，首都]，0

……

第n个：[这个，城市，真，美丽]，0

(b)去停用词，相应地，可得到如下结果：

第1个：[您，听，我，说话，吗]，1

第2个：[您，那边，信号，不太好，听，不太清]，0

第3个：[你好]，0

第4个：[您好，请问，有，什么，问题]，1

第5个：[您，说，什么，影响，呢]，1

第6个：[北京，中国，首都]，0

……

第7个：[这个，城市，美丽]，0

(c)词过滤，相应地，可得到如下结果：

第1个：[听，我，说话，吗]，1

第2个：[那边，信号，不太好，听，不太清]，0

第3个：[你好]，0

第4个：[您好，请问，有，什么，问题]，1

第5个：[说，什么，影响，呢]，1

第6个：[北京，中国，首都]，0

……

第n个：[这个，城市，美丽]，0

3)词向量训练

将步骤2)的数据集根据标签分类，分别依据上述TF-IDF词向量训练方法(如问句对应的TF-IDF1词向量训练方法以及非问句对应的TF-IDF2词向量训练方法)，可以训练出问句词向量(第一词向量序列)和非问句词向量(第二词向量序列)

4)目标语句(待识别语句)预测

比如我们需要预测P“今天的天气怎么样”是否是问句

语句P分词结果得到X[今天的天气怎么样]

词组X去停用词得到Y[今天天气怎么样]

分别使用问句词向量和非问句词向量对Y进行词向量计算QV1，QV2

QV1和QV2计算余弦相似度，比如相似值0.416693

根据业务场景定义阈值，比如定义阈值0.6，那么0.416693＜0.6，说明问句句向量和非问句句向量相似程度较低，可以判定语句P为问句。

本实施例提供的句型识别方法，算法易于实现，便于落地，用途广泛，2、能够精准识别哪些语句是问句，在问答系统中有广泛的应用。

参考图2所示，图2为一个实施例的句型识别装置结构示意图，包括：

第一获取模块10，用于获取训练数据集；所述训练数据集包括多个标注句型的问句以及多个标注句型的非问句；

确定模块30，用于在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率；

第二获取模块40，用于获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2；

计算模块50，用于计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型。

关于句型识别装置的具体限定可以参见上文中对于句型识别方法的限定，在此不再赘述。上述句型识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种句型识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种句型识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述句型识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种句型识别方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种句型识别方法，其特征在于，包括如下步骤：

S50，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型；

所述计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型包括：

2.根据权利要求1所述的句型识别方法，其特征在于，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列之前，还包括：

3.根据权利要求2所述的句型识别方法，其特征在于，所述对所述训练数据集进行预处理包括：

获取训练数据集中语句集合C＝{C₁,C₂,C₃,…,C_n}和标签集合L＝{L₁,L₂,L₃,…,L_n}；C_i表示第i个语句，i＝1，2，……，n，n表示训练数据集中的语句个数；

将每个语句进行分词，去除各个语句中的停用词；

对去除停用词后的各个语句进行词过滤，得到过滤结果；

4.根据权利要求3所述的句型识别方法，其特征在于，所述对去除停用词后的各个语句进行词过滤包括：

剔除出现次数在区间(min，max)以外的词语。

5.根据权利要求3所述的句型识别方法，其特征在于，所述根据预处理后的训练数据集确定问句对应的第一词向量序列包括：

其中，count1T_j为语句C1_m的分词结果中词T_j出现的数目，count1S_j为语句C1_m分词结果中所有词的数目，C1_m为问句集第m个语句；

TF-IDF1(T_j)＝TF1(T_j)*IDF1(T_j)；

6.根据权利要求5所述的句型识别方法，其特征在于，所述根据预处理后的训练数据集确定非问句对应的第二词向量序列包括：

其中，count2T_j为语句C2_m的分词结果中词T_j出现的数目，count2S_j为语句C2_m分词结果中所有词的数目，C2_m为非问句集第m个语句；

TF-IDF2(T_j)＝TF2(T_j)*IDF2(T_j)；

7.根据权利要求6所述的句型识别方法，其特征在于，标准化处理的过程包括：

x′＝(x-μ)/δ，