CN107066447A

CN107066447A - 一种无意义句子识别的方法和设备

Info

Publication number: CN107066447A
Application number: CN201710255837.4A
Authority: CN
Inventors: 姚佳
Original assignee: Shenzhen City Artificial Intelligence Technology Co Secluded Orchid In A Deserted Valley
Current assignee: Guangdong Hui He science and Technology Development Co., Ltd.
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-08-18
Anticipated expiration: 2037-04-19
Also published as: CN107066447B

Abstract

本发明提出了一种无意义句子识别的方法和设备，其中该方法包括：获取数量超过指定数量的预先确定了有无意义的标本句子；通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例；将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，得到无意义句子识别模型；当接收到待判断的新句子时，对所述新句子进行特征抽取，并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。以此实现了对无意义句子的识别，且还通过标点的字数及字词比例来进行训练，实现了不同场景下对无意义句子的不同标准的识别。

Description

一种无意义句子识别的方法和设备

技术领域

本发明涉及语言识别领域，特别涉及一种无意义句子识别的方法和设备。

背景技术

在现有的语音交互中，在麦克风收集用户语音的过程中，由于用户所处的环境、噪声、多人沟通等等的问题，经常会导致麦克风收录了无意义的片段语音信息，并且将片段的语音信息进行语音识别，而得到了一些无意义的文字片段。

但是在交互系统中，在得到了一些无意义的文字片段后，往往难以做相关的有效处理。如果仅仅进入闲聊模式，则会引发用户反感，因为这本身不是用户希望交互系统能够获取到的信息。而如果是进入相关的有效服务中，则更加离谱，用户更加难以接受。

因此目前拯待一种需要能对无意义句子进行识别的方法。

发明内容

针对现有技术中的缺陷，本发明提出了一种无意义句子识别的方法和设备。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种无意义句子识别的方法，包括：

获取数量超过指定数量的预先确定了有无意义的标本句子；

通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例；

将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，得到无意义句子识别模型；

当接收到待判断的新句子时，对所述新句子进行特征抽取，并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。

在一个具体的实施例中，所述“通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值”包括:

对各所述标本句子进行分词以及词性标注，以确定各所述标本句子所包括的多个部分；

针对各个部分，结合所述部分相邻的一个或多个部分为一个特征组；将各所述标本句子划分为多个特征组；

基于多源语言模型的词和/或词性查询各特征组的概率值；

确定查询到的各概率值确定概率特征值；其中，所述概率特征值中包括各概率值所处于的数值范围信息，各概率值的排序信息、以及概率值的中位数和平均值。

在一个具体的实施例中，所述“结合所述部分相邻的一个或多个部分为一个特征组；将各所述标本句子划分为多个特征组”

结合相邻的两个部分为一特征组，以将各所述标本句子划分为多个特征组；和

结合相邻的三个部分为一特征组，以将各所述标本句子划分为多个特征组；和

结合相邻的四个部分为一特征组，以将各所述标本句子划分为多个特征组。

在一个具体的实施例中，所述概率值具体为log概率值；

当各特征组包括相邻的两个部分时，基于所述多源语言模型的词确定各特征组的概率值；

当各特征组包括相邻的三个部分时，基于所述多源语言模型的词和词性确定各特征组的概率值；

当各特征组包括相邻的四个部分时，基于所述多源语言模型的词性确定各特征组的概率值。

在一个具体的实施例中，所述“对所述标本句子进行特征抽取，以获取各类型字词以及标点的字数及字词比例”包括:

对各所述标本句子进行分词处理，以获取到各所述标本句子中词字比例、词数、人名字数比例、标点字数比例、数词字数比例、量词字数比例、英文字数比例。

本发明实施例还提出了一种无意义句子识别的设备，包括：

获取模块，用于获取数量超过指定数量的预先确定了有无意义的标本句子；

特征抽取模块，用于通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例；

建模模块，用于将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，得到无意义句子识别模型；

识别模块，用于当接收到待判断的新句子时，对所述新句子进行特征抽取，并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。

在一个具体的实施例中，所述特征抽取模块包括:第一特征抽取模块；其中，所述第一特征抽取模块包括：

针对各个部分，结合所述部分相邻的一个或多个部分为一个特征组，以将各所述标本句子划分为多个特征组；

基于多源语言模型的词和/或词性查询各特征组的概率值；

在一个具体的实施例中，所述第一特征抽取模块“结合所述部分相邻的一个或多个部分为一个特征组，以将各所述标本句子划分为多个特征组”包括；

在一个具体的实施例中，所述概率值具体为log概率值；所述第一特征抽取模块“基于多源语言模型的词和/或词性查询各特征组的概率值”包括：

当各特征组包括相邻的两个部分时，基于所述多源语言模型的词对各特征组的概率值进行确定；

在一个具体的实施例中，所述特征抽取模块包括:第二特征抽取模块；其中，所述第二特征抽取模块包括：

以此，本发明实施例提出了一种无意义句子识别的方法和设备，其中该方法包括：获取数量超过指定数量的预先确定了有无意义的标本句子；通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例；将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，得到无意义句子识别模型；当接收到待判断的新句子时，对所述新句子进行特征抽取，并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。以此实现了对无意义句子的识别，且还通过标点的字数及字词比例来进行训练，实现了不同场景下对无意义句子的不同标准的识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种无意义句子识别的方法的流程示意图；

图2为本发明实施例提出的一种无意义句子识别的方法中获取概率特征值的流程示意图；

图3为本发明实施例提出的一种无意义句子识别的设备的结构示意图；

图4为本发明实施例提出的一种无意义句子识别的设备的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在下文中，可在本公开的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本公开的各种实施例中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

在本公开的各种实施例中，表述“或”或“A或/和B中的至少一个”包括同时列出的文字的任何组合或所有组合。例如，表述“A或B”或“A或/和B中的至少一个”可包括A、可包括B或可包括A和B二者。

在本公开的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件，不过可不限制相应组成元件。例如，以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如，第一用户装置和第二用户装置指示不同用户装置，尽管二者都是用户装置。例如，在不脱离本公开的各种实施例的范围的情况下，第一元件可被称为第二元件，同样地，第二元件也可被称为第一元件。

应注意到：如果描述将一个组成元件“连接”到另一组成元件，则可将第一组成元件直接连接到第二组成元件，并且可在第一组成元件和第二组成元件之间“连接”第三组成元件。相反地，当将一个组成元件“直接连接”到另一组成元件时，可理解为在第一组成元件和第二组成元件之间不存在第三组成元件。

在本公开的各种实施例中使用的术语“用户”可指示使用电子装置的人或使用电子装置的装置(例如，人工智能电子装置)。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例提出了一种无意义句子识别的方法，如图1所示，该方法包括：

步骤101、获取数量超过指定数量的预先确定了有无意义的标本句子；

具体的，数量越多越好，数量越多，最终生成的无意义句子识别模型越精准。具体的可以从已经被标注为有意义和无意义的句子库中进行查找，也可以公开一批句子，接收用户的关于由于意义的标注的方式来获取。

步骤102、通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例；

具体的，该步骤分为两个部分，一个部分是获取概率特征值，也即所述“通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值”，如图2所示，其包括:

步骤1021、对各所述标本句子进行分词以及词性标注，以确定各所述标本句子所包括的多个部分；

步骤1022、针对各个部分，结合所述部分相邻的一个或多个部分为一个特征组；将各所述标本句子划分为多个特征组；

步骤1023、基于多源语言模型的词和/或词性查询各特征组的概率值；

步骤1024、确定查询到的各概率值确定概率特征值；其中，所述概率特征值中包括各概率值所处于的数值范围信息，各概率值的排序信息、以及概率值的中位数和平均值。

其中，步骤1022中的所述“结合所述部分相邻的一个或多个部分为一个特征组；将各所述标本句子划分为多个特征组”

以上，所述概率值具体可以为log概率值；具体在进行分组之后，获取到概率值的方式可以为：

为了对本申请进行进一步的说明，在此一个具体应用场景下为例来进行说明；

当各特征组包括相邻的两个部分时，基于词进行分词，例如标本句子为“我要去吃饭”，分词之后，加入句子开头句子结尾标记，可以将其分为“我/要去/吃饭”，而在加入句子开头句子结尾标记之后，其句子变为“^/^我/要去/吃饭$/$”。

以此进行分组，例如“我”和“要去”分为一个特征组，而“要去”和“吃饭”又分为一个特征组，也即2gram化，每个2gram化的term都进行Word_LM的log概率查询，然后获取到一组log概率值(Log概率值，就是概率值取个log，以2为底，即Log2)；具体的概率的计算方式如下：

在基于词n元的语言模型中，需要去根据语料计算p(w_n|w_n-1,w_n-2,….,w_0)；其中，w_n代表第n个词的概率值；W也即Word代表词本身

而在获取到log概率值之后，还需要进行处理，得到概率特征值，其中概率特征值可以包括：log概率小于-9.9的比例，log概率大于-4.9的比例，log概率未查询到的比例，最大log概率值，第二大log概率值，第二小log概率值，log概率值中位数，平均log概率值。

当各特征组包括相邻的三个部分时，进行分词以及进行了词性标注之后，加入句子开头句子结尾标记，可以将其分为“我/r要去/v吃饭/v”，而在加入句子开头句子结尾标记之后，其句子变为“^/^我/r要去/v吃饭/v$/$”。

以此进行分组，例如“我”和“要去”以及“吃饭”分为一个特征组，也即3gram化，每个3gram化的term都进行Word_LM的log概率查询，然后获取到一组log概率值(Log概率值，就是概率值取个log，以2为底，即Log2)；具体关于词性的概率(关于词的概率参见上述描述)的计算方式包括：

在基于词性及词n元的语言模型中，经过对语料的预处理之后，然后计算p(word_n|pos_n-1,pos_n-2,….,pos_0)；其中word_n代表第n个词，pos_n代表第n个词的词性。

当各特征组包括相邻的四个部分时，首先对句子进行分词，并词性标注，加入句子开头句子结尾标记，具体参见上述描述，并4gram化，每个4gram化的term都进行Pos_LM的log概率查询，具体的概率计算包括：

在基于词性n元的语言模型中，需要对语料首先进行预处理(分词、词性标注)等工作，然后计算p(pos_n|pos_n-1,pos_n-2,pos_n-3，….pos_0)其中，pos_n代表第n个词的词性。

还一部分则是获取各类型字词以及标点的字数及字词比例，也即所述“对所述标本句子进行特征抽取，以获取各类型字词以及标点的字数及字词比例”包括:

通过上述特征，以解决不同场景下对无意义句子的不同标准的识别需要。

步骤103、将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，得到无意义句子识别模型；

具体的，在得到由上述步骤得到的所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，即可得到无意义句子识别模型；具体的，逻辑斯特回归模型为现有的模型。

步骤104、当接收到待判断的新句子时，对所述新句子进行特征抽取，并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。

具体的，在获取到无意义句子识别模型后，由于在该无意义句子识别模型中存在有意义的句子的特征和无意义的句子的特征，进行对比，若与无意义的句子的特征匹配，即可确定该新句子为无意义句子。

实施例2

本发明实施例还公开了一种无意义句子识别的设备，如图3所示，包括：

获取模块201，用于获取数量超过指定数量的预先确定了有无意义的标本句子；

特征抽取模块202，用于通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例；

建模模块203，用于将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练，得到无意义句子识别模型；

识别模块204，用于当接收到待判断的新句子时，对所述新句子进行特征抽取，并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。

在一个具体的实施例中，如图4所示，所述特征抽取模块202包括:第一特征抽取模块2021；其中，所述第一特征抽取模块2021包括：

基于多源语言模型的词和/或词性查询各特征组的概率值；

在一个具体的实施例中，所述第一特征抽取模块2021“结合所述部分相邻的一个或多个部分为一个特征组，以将各所述标本句子划分为多个特征组”包括；

在一个具体的实施例中，所述概率值具体为log概率值；所述第一特征抽取模块2021“基于多源语言模型的词和/或词性查询各特征组的概率值”包括：

当各特征组包括相邻的三个部分时，基于所述多源语言模型的词性对各特征组的概率值进行确定；

当各特征组包括相邻的四个部分时，基于所述多源语言模型的词和词性对各特征组的概率值进行确定。

在一个具体的实施例中，如图4所示，，所述特征抽取模块202还包括:第二特征抽取模块2022；其中，所述第二特征抽取模块包括：

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种无意义句子识别的方法，其特征在于，包括：

获取数量超过指定数量的预先确定了有无意义的标本句子；

2.如权利要求1所述的方法，其特征在于，所述“通过对所述标本句子进行特征抽取，获取到基于分词和词性处理得到的特征的概率特征值”包括:

基于多源语言模型的词和/或词性查询各特征组的概率值；确定查询到的各概率值确定概率特征值；其中，所述概率特征值中包括各概率值所处于的数值范围信息，各概率值的排序信息、以及概率值的中位数和平均值。

3.如权利要求2所述的方法，其特征在于，所述“结合所述部分相邻的一个或多个部分为一个特征组；将各所述标本句子划分为多个特征组”

4.如权利要求2所述的方法，其特征在于，所述概率值具体为log概率值；

5.如权利要求1所述的方法，其特征在于，所述“对所述标本句子进行特征抽取，以获取各类型字词以及标点的字数及字词比例”包括:

6.一种无意义句子识别的设备，其特征在于，包括：

7.如权利要求6所述的设备，其特征在于，所述特征抽取模块包括:第一特征抽取模块；其中，所述第一特征抽取模块包括：

基于多源语言模型的词和/或词性查询各特征组的概率值；

8.如权利要求7所述的设备，其特征在于，所述第一特征抽取模块“结合所述部分相邻的一个或多个部分为一个特征组，以将各所述标本句子划分为多个特征组”包括；

9.如权利要求7所述的设备，其特征在于，所述概率值具体为log概率值；所述第一特征抽取模块“基于多源语言模型的词和/或词性查询各特征组的概率值”包括：

10.如权利要求6所述的设备，其特征在于，所述特征抽取模块包括:第二特征抽取模块；其中，所述第二特征抽取模块包括：