CN106021572B

CN106021572B - 二元特征词典的构建方法和装置

Info

Publication number: CN106021572B
Application number: CN201610379719.XA
Authority: CN
Inventors: 周坤胜; 何径舟; 石磊; 冯仕堃
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2019-05-31
Anticipated expiration: 2036-05-31
Also published as: CN106021572A; US20190163737A1; WO2017206492A1; US10831993B2

Abstract

本申请提出一种二元特征词典的构建方法和装置，该二元特征词典的构建方法包括：从语料中提取二元特征；计算所述二元特征的预设统计量；根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。该方法能够构建出二元特征词典，从而可以在语义相似度模型的训练数据中引入新的特征。

Description

二元特征词典的构建方法和装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种二元特征词典的构建方法和装置。

背景技术

搜索引擎是一种检索系统，能够向用户反馈检索结果。搜索引擎的一种实现是基于语义相似度模型，通过语义相似度模型可以计算用户检索的检索词(query)与候选的标题(title)之间的相似度，再根据相似度进行排序，以返回检索结果。语义相似度模型可以采用神经网络训练构建。

相关技术中，采用神经网络构建语义相似度模型时，训练数据通常是基础(basic)粒度的信息或短语(phrase)粒度的信息，其中，basic粒度的信息是对句子语料进行切词后，得到的最小粒度的分词，如“百度”，phrase粒度的信息包括多个最小粒度的分词，如“巴西葡语”。为了提高语义相似度模型的精准度，还可以在训练数据中引入新的粒度信息。当需要引入新的粒度信息时，需要解决如何提取新的粒度信息的问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种二元特征词典的构建方法，该方法可以构建出二元特征词典，从而可以采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可以作为语义相似度模型的训练数据中引入的新特征。

本申请的另一个目的在于提出一种二元特征词典的构建装置。

为达到上述目的，本申请第一方面实施例提出的二元特征词典的构建方法，包括：从语料中提取二元特征；计算所述二元特征的预设统计量；根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。

本申请第一方面实施例提出的二元特征词典的构建方法，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可以实现二元特征词典的构建，从而可以采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可以作为语义相似度模型的训练数据中引入的新特征。

为达到上述目的，本申请第二方面实施例提出的二元特征词典的构建装置，包括：提取模块，用于从语料中提取二元特征；计算模块，用于计算所述二元特征的预设统计量；生成模块，用于根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。

本申请第二方面实施例提出的二元特征词典的构建装置，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可以实现二元特征词典的构建，从而可以采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可以作为语义相似度模型的训练数据中引入的新特征。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的二元特征词典的构建方法的流程示意图；

图2是本申请另一个实施例提出的二元特征词典的构建方法的流程示意图；

图3是本申请另一个实施例提出的二元特征词典的构建方法的流程示意图；

图4是本申请实施例采用的神经网络的示意图；

图5是本发明一个实施例提出的二元特征词典的构建装置的结构示意图；

图6是本发明一个实施例提出的二元特征词典的构建装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在获取语义相似模型的训练数据时，可以先对句子语料进行切词，之后根据分词获取需要粒度的信息，如basic粒度的信息或phrase粒度的信息。

如上所示，在构建语义相似度模型时，除了上述的basic粒度的信息或phrase粒度的信息之外，还可以引入新粒度的信息。该引入的新粒度的信息可以称为二元特征。每个二元特征由两个basic粒度的信息或两个phrase粒度的信息组成。

当需要引入二元特征时，可以根据二元特征词典获取对应的二元特征。因此，需要解决二元特征词典如何建立的问题。

图1是本申请一个实施例提出的二元特征词典的构建方法的流程示意图。

如图1所示，本实施例的流程包括：

S11：从语料中提取二元特征。

其中，在构建二元特征词典时，可以先收集语料，与语义相似度模型的构建类似，构建二元特征词典时收集的语料也可以具体是句子语料，即，收集大量的句子作为语料。

在语料中提取二元特征时，可以具体是将语料中任意两个相邻的词条，作为一个二元特征。

具体的，对应每个句子语料，可以对句子语料进行切分，得到词条(term)。

其中，词条可以是basic粒度，或者，也可以是phrase粒度，但是，上述的两个词条需要具有同种粒度，例如，均是basic粒度，或者，均是phrase粒度。将句子切分成basic粒度的词条或phrase粒度的词条可以采用各种已有技术，在此不再详细说明。

在将句子切分成词条后，可以将任意两个相邻的词条作为一个二元特征，因此，可以对应每个句子，假设该句子包括n个词条，则可以提取出n-1个二元特征。将语料中的所有句子对应的二元特征相加后，可以得到多个二元特征。

S12：计算所述二元特征的预设统计量。

本实施例中，以预设统计量是t统计量为例。

t统计量是对模型参数的单个假设进行检验的一种统计量。

具体的，一个二元特征的t统计量的计算公式是：

其中，f是该二元特征在语料中的出现概率，例如，语料中共有M个句子，其中m个句子中存在该二元特征，即该二元特征中的两个词条相邻且位置关系不变的出现在m个句子中，则f＝m/M；

μ＝p₁×p₂，p₁是该二元特征中一个词条在语料中的出现概率，p₂是该二元特征中另一个词条在语料中的出现概率；

本实施例中，假设s²＝f；

N是语料中所有二元特征的总数，N＝∑N_i，N是单个句子语料对应的二元特征的数量，假设某个句子语料包括n个词条，则该句子语料对应的二元特征的数量是n-1。

因此，通过上述计算公式，可以计算出每个二元特征的t统计量。

S13：根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。

例如，在得到每个二元特征的t统计量后，可以根据t统计量从大到小的顺序选择预设个数的二元特征，将选择的这些二元特征组成二元特征词典。

进一步的，如上所示，一个二元特征可以是由两个basic粒度的词条组成，或者，一个二元特征也可以是由两个phrase粒度的词条组成。在上述排序时，是对这些二元特征(包括根据basic粒度的词条得到的二元特征以及根据phrase粒度的词条得到的二元特征)进行统一排序的，从而在二元特征词典中可以包括根据basic粒度的词条得到的二元特征和/或根据phrase粒度的词条得到的二元特征。

通过上述的流程，可以实现二元特征词典的构建。

在构建出二元特征词典后，可以使用该词典生成二元特征，以用于语义相似度模型的训练。

相应的，一些实施例中，参见图2，本实施例的方法还可以包括：

S14：采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据。

其中，可以将二元特征词典中包括的且可以由相邻的两个分词组成的二元特征，作为提取的二元特征。

另外，上述的分词可以是basic粒度的分词或phrase粒度的分词。

例如，语义相似度模块的一个语料是“百度巴西葡语”，经过切词后，以basic粒度的分词为例，各分词是“百度”、“巴西”、“葡语”，构建的二元特征词典中的一个二元特征是“巴西葡语”，则提取的一个二元特征是“巴西葡语”。

进一步的，如何二元特征词典中不包括任意两个相邻分词组成的二元特征，则直接将分词作为提取的二元特征。依然以上述的语料为例，假设构建的二元特征词典中不包括“巴西葡语”，也不包括“百度巴西”，则提取的二元特征就是原始的分词，如“百度”、“巴西”、“葡语”。

因此，通过二元特征词典，可以实现二元特征的提取，从而在训练语义相似度模型时可以引入新的特征。

一些实施例中，参见图3，本实施例的方法还可以包括：

S15：根据所述训练数据进行神经网络训练，生成语义相似度模型。

其中，神经网络可以如图4所示，与通常的语义相似度模型不同的是，本实施例的输入可以包括二元特征。

因此，可以通过引入二元特征训练语义相似度模型。

本实施例中，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可以实现二元特征词典的构建，从而可以采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可以作为语义相似度模型的训练数据中引入的新特征。

图5是本发明一个实施例提出的二元特征词典的构建装置的结构示意图。

参见图5，本实施例的装置包括：提取模块51、计算模块52和生成模块53。

提取模块51，用于从语料中提取二元特征；

计算模块52，用于计算所述二元特征的预设统计量；

生成模块53，用于根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。

一些实施例中，所述提取模块51具体用于：

将语料中任意两个相邻的词条，作为一个二元特征。

一些实施例中，所述计算模块52计算的所述预设统计量是t统计量。

一些实施例中，参见图6，本实施例的装置还可以包括：

获取模块54，用于采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据。

一些实施例中，参见图6，本实施例的装置还可以包括：

训练模块55，用于根据所述训练数据进行神经网络训练，生成语义相似度模型。

可以理解的是，本实施例的装置与方法实施例对应，具体内容可以参见方法实施例中的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种二元特征词典的构建方法，其特征在于，包括：

从语料中提取二元特征；

计算所述二元特征的预设统计量；

根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典；

采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据；其中，将所述二元特征词典中包括的且由相邻的两个分词组成的二元特征，作为提取的二元特征；所述语义相似度模型的分词，是采用基础粒度的分词方式或者短语粒度的分词方式获得的；

根据所述训练数据进行神经网络训练，生成语义相似度模型。

2.根据权利要求1所述的方法，其特征在于，所述从语料中提取二元特征，包括：

将语料中任意两个相邻的词条，作为一个二元特征。

3.根据权利要求1所述的方法，其特征在于，所述预设统计量是t统计量。

4.一种二元特征词典的构建装置，其特征在于，包括：

提取模块，用于从语料中提取二元特征；

计算模块，用于计算所述二元特征的预设统计量；

生成模块，用于根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典；

获取模块，用于采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据；其中，将所述二元特征词典中包括的且由相邻的两个分词组成的二元特征，作为提取的二元特征；所述语义相似度模型的分词，是采用基础粒度的分词方式或者短语粒度的分词方式获得的；

训练模块，用于根据所述训练数据进行神经网络训练，生成语义相似度模型。

5.根据权利要求4所述的装置，其特征在于，所述提取模块具体用于：

将语料中任意两个相邻的词条，作为一个二元特征。

6.根据权利要求4所述的装置，其特征在于，所述计算模块计算的所述预设统计量是t统计量。