CN109033078A

CN109033078A - 语句类别识别方法及装置、存储介质、处理器

Info

Publication number: CN109033078A
Application number: CN201810718853.7A
Authority: CN
Inventors: 郑权; 张峰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-12-18
Anticipated expiration: 2038-07-03
Also published as: CN109033078B

Abstract

本发明公开了一种语句类别识别方法及装置、存储介质、处理器。其中，该语句类别识别方法包括：接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；利用训练好的模型获取目标语句属于每一个类别的概率；将最大概率对应的类别识别为目标语句所属的目标类别。本发明解决了相关技术采用人工方式识别语句所属的类别，导致语句识别准确度和效率较低的技术问题。

Description

语句类别识别方法及装置、存储介质、处理器

技术领域

本发明涉及语句识别领域，具体而言，涉及一种语句类别识别方法及装置、存储介质、处理器。

背景技术

当我们大量阅读一个主题的文档时，我们最关心的是文本的几个属性，也即我们对文本有几个关注点。例如：当我们想阅读几万个招标文件时，如果仅仅阅读我们的关注点就能快速的找到我们感兴趣的特定招标文件。但现有的技术我们并不能很好的快速定位获知我们关注的部分。

现有获取关注的部分是基于先对语句的识别，而语句识别大多采用人工的方式进行标注识别，人为的操作将受人的主观因素的影响，会导致语句识别的准确度不高，以及效率也不高。

针对相关技术采用人工方式识别语句所属的类别，导致语句识别准确度和效率较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语句类别识别方法及装置、存储介质、处理器，以至少解决相关技术采用人工方式识别语句所属的类别，导致语句识别准确度和效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种语句类别识别方法，包括：接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；利用训练好的模型获取目标语句属于每一个类别的概率；将最大概率对应的类别识别为目标语句所属的目标类别。

进一步地，利用训练好的模型获取目标语句属于每一个类别的概率包括：分别计算目标语句属于第一类别的第一概率、目标语句在目标文档中的前一个语句属于第一类别的第二概率、目标语句在目标文档中的后一个语句属于第一类别的第三概率，其中，每一个类别包括第一类别；将第一概率、第二概率以及第三概率作为训练好的模型的输入参数，得到训练好的模型的输出参数，其中，输出参数用于指示目标语句属于第一类别的概率。

进一步地，按照以下公式计算目标语句属于第一类别的第一概率：

其中，x_j表示第一概率，v_i表示目标语句中是否包括第i个词语，若目标语句中包括第i个词语，则v_i＝1，若目标语句中不包括第i个词语，则v_i＝0，p_ij表示第i个词语属于第j类别的概率，第j类别为第一类别，h为训练好的模型的训练集合中包括的词语的数量。

进一步地，按照以下公式计算第i个词语属于第j类别的概率：

其中，a_ij表示所述训练集合中第i个词语属于第j类别的语句的数量，所述训练集合中包括多个语句，m表示词语所属类别的总数，a_ik表示第i个词语属于第k类别的语句的数量。

进一步地，在将最大概率对应的类别识别为目标语句所属的目标类别之后，方法还包括：接收语句获取请求，其中，语句获取请求用于请求获取属于目标类别的目标语句；根据目标语句与目标类别的对应关系获取目标语句。

根据本发明实施例的另一方面，还提供了一种语句类别识别装置，包括：接收单元，用于接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；获取单元，用于利用训练好的模型获取目标语句属于每一个类别的概率；识别单元，用于将最大概率对应的类别识别为目标语句所属的目标类别。

进一步地，获取单元包括：计算模块，用于分别计算目标语句属于第一类别的第一概率、目标语句在目标文档中的前一个语句属于第一类别的第二概率、目标语句在目标文档中的后一个语句属于第一类别的第三概率，其中，每一个类别包括第一类别；输出模块，用于将第一概率、第二概率以及第三概率作为训练好的模型的输入参数，得到训练好的模型的输出参数，其中，输出参数用于指示目标语句属于第一类别的概率。

进一步地，所述计算模块用于按照以下公式计算所述目标语句属于第一类别的第一概率：

其中，x_j表示第一概率，v_i表示目标语句中是否包括第i个词语，若目标语句中包括第i个词语，则v_i＝1，若目标语句中不包括第i个词语，则v_i＝0，p_ij表示第i个词语属于第j类别的概率，第j类别为所述第一类别，h为训练好的模型的训练集合中包括的词语的数量。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述任一项所述的语句类别识别方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任一项所述的语句类别识别方法。

在本发明实施例中，接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；利用训练好的模型获取目标语句属于每一个类别的概率；将最大概率对应的类别识别为目标语句所属的目标类别，达到了快速准确地识别语句所属类别的目的，进而解决了相关技术采用人工方式识别语句所属的类别，导致语句识别准确度和效率较低的技术问题，实现了提高语句类别识别准确度以及效率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语句类别识别方法的硬件环境的示意图；

图2是根据本发明实施例的语句类别识别方法的流程图；

图3是根据本发明优选实施例的文本属性与位置对应关系的示意图；

图4是根据本发明实施例的语句类别识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种语句类别识别方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

可选地，在本实施例中，上述语句类别识别方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的语句类别识别方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的语句类别识别方法也可以是由安装在其上的客户端来执行。

可选地，服务器102执行本发明实施例的语句类别识别方法的过程可以描述为：服务器102接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；利用训练好的模型获取目标语句属于每一个类别的概率；服务器102将最大概率对应的类别识别为目标语句所属的目标类别。

可选地，终端104或者客户端执行本发明实施例的语句类别识别方法的过程可以描述为：终端104或者客户端接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；终端104或者客户端利用训练好的模型获取目标语句属于每一个类别的概率；终端104或者客户端将最大概率对应的类别识别为目标语句所属的目标类别。

可选地，由服务器102和终端104或者客户端共同执行本发明实施例的语句类别识别方法的过程可以描述为：终端104或者客户端接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；终端104或者客户端将接收语句类别识别请求给服务器102；服务器102利用训练好的模型获取目标语句属于每一个类别的概率；服务器102将最大概率对应的类别识别为目标语句所属的目标类别发送给终端104或者客户端。

下面将以客户端为执行主体对本发明实施例的语句类别识别方法进行详细说明。

图2是根据本发明实施例的语句类别识别方法的流程图，如图2所示，该方法包括如下步骤：

步骤S102，接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；

步骤S104，利用训练好的模型获取目标语句属于每一个类别的概率；

步骤S106，将最大概率对应的类别识别为目标语句所属的目标类别。

通过上述步骤，接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；利用训练好的模型获取目标语句属于每一个类别的概率；将最大概率对应的类别识别为目标语句所属的目标类别，进而可以实现了提高语句识别准确度和效率较高的目的。

在步骤S102提供的方案中，本发明实施例可以预先确定了多个类别，其中，目标语句可以属于这多个类别中的其中一个类别。本发明实施例对接收语句类别识别请求的类型不做具体限定，例如接收的识别请求可以是操作点击按钮、发出的语音等，在实际应用过程中，需要识别语句所属那个目标类别，以便于提高用户的使用体验。本发明实施例中的语句类别识别请求可以用于请求识别目标语句所属的类别，识别所述语句属于哪个目标类别。

在步骤S104提供的方案中，本发明实施例可以利用训练好的模型获取目标语句属于每一类别的概率。可选的，分别计算目标语句属于第一类别的第一概率、目标语句在目标文档中的前一个语句属于第一类别的第二概率、目标语句在目标文档中的后一个语句属于第一类别的第三概率，其中，第一类别可以为任意一个类别；将第一概率、第二概率以及第三概率作为训练好的模型的输入参数，得到训练好的模型的输出参数，其中，输出参数用于指示目标语句属于第一类别的概率。

可选的，本发明实施例可以按照以下公式计算目标语句属于第一类别的第一概率：

可选的，本发明实施例可以按照以下公式计算第i个词语属于第j类别的概率：

需要说明的是，第二概率以及第三概率的计算方法与第一概率的计算方法相同，均可以利用上述公式计算得到。

在计算得到第一概率、第二概率以及第三概率后，将其作为训练好的模型的输入参数，然后可以得到训练好的模型的输出参数，该输出参数可以指示目标语句属于第一类别的概率。同理，目标语句属于其他类别的概率的计算方法与上述目标语句属于第一类别的概率的计算方法相同，此处不再赘述。

在步骤S106提供的方案中，在获取到目标语句属于每一个类别的概率之后，本发明实施例可以对概率进行比较，从中确定出最大概率对应的类别，并将该最大概率对应的类别确定为目标语句所属的目标类别。

通过本发明实施例，通过利用训练好的模型分别获取目标语句属于每一个类别的概率，然后将最大概率对应的类别确定为目标语句所属的目标类别，可以实现准确高效的识别目标语句所属的目标类别的目的。

作为一种可选的实施例，在识别出目标语句所属的目标类别之后，本发明实施例还可以包括：接收语句获取请求，其中，语句获取请求用于请求获取属于目标类别的目标语句；根据目标语句与目标类别的对应关系获取目标语句。

也就是说，本发明实施例通过识别目标语句所属的目标类别，然后建立两者的对应关系，并可以根据该对应关系快速准确地获取与目标类别相对应的目标语句。例如，在实际应用场景中，如果一篇文档中包括很多个语句，其中，属于时间类别的语句包括多条，则可以语句与类别的对应关系快速准确地获取属于时间类别的语句有哪些，进而可以便于用户对文档内容的阅读。

本发明还提供了一种优选实施例，该优选实施例提供了一种基于概率算法对文本属性描述语句或段落识别的方法。

文本属性描述语句或段落识别就是从一个自然语言文本中找出相关属性的描述，并标注出其位置以及类型，如图3所示的文本属性与位置对应关系，其中，文本属性可以包括项目名称、预算金额等，则与其对应的语句位置参见具体虚线框所示。

该优选实施例的总体流程如下：

1、收集代表性的训练文档。

2、样本数据标注，根据不同属性对样本文档进行标注，即为不同属性描述语句或段落标记属性，不属于任何属性的语句标注为其他。

3、基于神经网络的深度学习方法对标注的数据进行学习，训练属性标注模型。

4、用训练好的模型对文档进行特征属性提取。

该优选实施例提供了一种神经网络的深度学习方法对文本属性描述语句或段落识别的方法。总体流程描述如下：

步骤一，在对模型训练之前，先收集代表性的训练文档。

步骤二，对数据进行标注，具体步骤如下：

每个句子为一个个体，每个句子属于一类属性，不属于任何属性的语句标注为“其他”类；

例如，我们有A，B，C,三类属性和O其他类，共4类对每句话进行标注。

步骤三，提取可以代表文本属性特征词及概率，具体提取方式分为：

1、对文本进行中文分词来取得所有在训练语料中出现的词(这里需要去掉所有的停词，即没有明确意义的词，例如的，地，得等)；

2、统计每个词出现的个数及所属类别，这里我们建立一个n*m的矩阵A，n为词的个数，m为类的个数，a_ij则为训练集全部句子中第i个单词属于j类的句子个数；

3、计算文本属性特征词属于每类的概率，这里我们用n*m的矩阵P表示，具体计算方式：

其中，a_ij表示所述训练集合中第i个词语属于第j类别的语句的数量，所述训练集合中包括多个语句，m表示词语所属类别的总数，a_ik表示第i个词语属于第k类别的语句的数量，注意所选词中可能会有重复，即k<＝4*m。

步骤四，训练模型，分为以下具体流程：

1、计算每句话属于各类的概率：

让v为0,1向量并表示这句话是否中含有各特征词，这里v的长度为h，如果在这句话中出现i单词，则v_i＝1，否则v_i＝0；

2、计算这句话属于类j的概率：

对于每一类训练逻辑回归模型mod_j，这里输入为3个变量：每句子属于j类的概率，这个句子前一句属于j类的概率(如果没有为0)，这个句子后一句属于j类的概率(如果没有为0)，标记为每个句子是否为属于j类(0,1)。

步骤五，对新文本进行判断，具体步骤如下：

1、计算每个句子属于各类的概率(参考上述第四步骤1)；

2、用训练好的逻辑回归模型mod_j判断每个句子属于各类的概率；

3、选择概率最大的值所属类来标记句子类别。

通过该优选实施例，用户可以快速地进行文本的阅读，可以快速地定位到所需要关注的关注点上，提高了阅读的效率。

根据本发明实施例，还提供了一种语句类别识别的装置实施例，需要说明的是，该语句类别识别装置可以用于执行本发明实施例中的语句类别识别方法，也即本发明实施例中的语句类别识别方法可以在该语句类别识别装置中执行。

图4是根据本发明实施例的语句类别识别装置的示意图，如图4所示，该装置可以包括：接收单元40，用于接收语句类别识别请求，其中，语句类别识别请求用于请求识别目标语句所属的类别；获取单元42，用于利用训练好的模型获取目标语句属于每一个类别的概率；识别单元44，用于将最大概率对应的类别识别为目标语句所属的目标类别。

需要说明的是，该实施例中的接收单元40可以用于执行本发明实施例中的步骤S102，该实施例中的获取单元42可以用于执行本发明实施例中的步骤S104，该实施例中的识别单元44可以用于执行本发明实施例中的步骤S106。上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

可选地，获取单元42可以包括：计算模块，用于分别计算目标语句属于第一类别的第一概率、目标语句在目标文档中的前一个语句属于第一类别的第二概率、目标语句在目标文档中的后一个语句属于第一类别的第三概率，其中，每一个类别包括所述第一类别；输出模块，用于将第一概率、第二概率以及第三概率作为训练好的模型的输入参数，得到训练好的模型的输出参数，其中，输出参数用于指示目标语句属于所述第一类别的概率。

可选地，计算模块可以用于按照以下公式计算目标语句属于第一类别的第一概率：

可选地，可以按照以下公式计算第i个词语属于第j类别的概率：

可选地，该装置还可以包括：接收单元，用于在将最大概率对应的类别识别为目标语句所属的目标类别之后，接收语句获取请求，其中，语句获取请求用于请求获取属于目标类别的目标语句；语句获取单元，用于根据目标语句与目标类别的对应关系获取目标语句。

为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种存储介质，存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的语句类别识别方法。

为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的语句类别识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语句类别识别方法，其特征在于，包括：

接收语句类别识别请求，其中，所述语句类别识别请求用于请求识别目标语句所属的类别；

利用训练好的模型获取所述目标语句属于每一个类别的概率；

将最大概率对应的类别识别为所述目标语句所属的目标类别。

2.根据权利要求1所述的方法，其特征在于，所述利用训练好的模型获取所述目标语句属于每一个类别的概率包括：

分别计算所述目标语句属于第一类别的第一概率、所述目标语句在目标文档中的前一个语句属于所述第一类别的第二概率、所述目标语句在所述目标文档中的后一个语句属于所述第一类别的第三概率，其中，所述每一个类别包括所述第一类别；

将所述第一概率、所述第二概率以及所述第三概率作为所述训练好的模型的输入参数，得到所述训练好的模型的输出参数，其中，所述输出参数用于指示所述目标语句属于所述第一类别的概率。

3.根据权利要求2所述的方法，其特征在于，按照以下公式计算所述目标语句属于第一类别的第一概率：

其中，x_j表示所述第一概率，v_i表示所述目标语句中是否包括第i个词语，若所述目标语句中包括第i个词语，则v_i＝1，若所述目标语句中不包括第i个词语，则v_i＝0，p_ij表示第i个词语属于第j类别的概率，所述第j类别为所述第一类别，h为所述训练好的模型的训练集合中包括的词语的数量。

4.根据权利要求3所述的方法，其特征在于，按照以下公式计算第i个词语属于第j类别的概率：

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述将最大概率对应的类别识别为所述目标语句所属的目标类别之后，所述方法还包括：

接收语句获取请求，其中，所述语句获取请求用于请求获取属于所述目标类别的所述目标语句；

根据所述目标语句与所述目标类别的对应关系获取所述目标语句。

6.一种语句类别识别装置，其特征在于，包括：

接收单元，用于接收语句类别识别请求，其中，所述语句类别识别请求用于请求识别目标语句所属的类别；

获取单元，用于利用训练好的模型获取所述目标语句属于每一个类别的概率；

识别单元，用于将最大概率对应的类别识别为所述目标语句所属的目标类别。

7.根据权利要求6所述的装置，其特征在于，所述获取单元包括：

计算模块，用于分别计算所述目标语句属于第一类别的第一概率、所述目标语句在目标文档中的前一个语句属于所述第一类别的第二概率、所述目标语句在所述目标文档中的后一个语句属于所述第一类别的第三概率，其中，所述每一个类别包括所述第一类别；

输出模块，用于将所述第一概率、所述第二概率以及所述第三概率作为所述训练好的模型的输入参数，得到所述训练好的模型的输出参数，其中，所述输出参数用于指示所述目标语句属于所述第一类别的概率。

8.根据权利要求7所述的装置，其特征在于，所述计算模块用于按照以下公式计算所述目标语句属于第一类别的第一概率：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任一项所述的方法。