CN106528655A

CN106528655A - 文本主题识别方法和装置

Info

Publication number: CN106528655A
Application number: CN201610906155.0A
Authority: CN
Inventors: 马小林; 秦首科; 徐培治; 韩友; 张泽明; 刘晓春; 游斌; 叶志聪; 江焱
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-10-18
Filing date: 2016-10-18
Publication date: 2017-03-22

Abstract

本申请提出一种文本主题识别方法和装置，该文本主题识别方法包括：获取待识别的文本；获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题；根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。该方法能够提高识别出的文本主题的准确度。

Description

文本主题识别方法和装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种文本主题识别方法和装置。

背景技术

随着互联网技术的蓬勃发展，互联网上的资源越来越多。目前的搜索引擎通常是基于关键词检索，将用户检索的查询词与文本的主题进行匹配，以检索到用户需要的文本。相关技术中，通过采用文本分词提取关键词的方式识别出文本主题，但是，这种方式识别出的文本主题的准确度不足。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种文本主题识别方法，该方法能够提高识别出的文本主题的准确度。

本申请的另一个目的在于提出一种文本主题识别装置。

为达到上述目的，本申请第一方面实施例提出的文本主题识别方法，包括：获取待识别的文本；获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题；根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。

本申请第一方面实施例提出的文本主题识别方法，通过根据文本主题识别模型进行文本主题识别，由于文本主题识别模型是根据训练数据进行训练后生成的，因此根据文本主题识别模型识别出的主题更准确。

为达到上述目的，本申请第二方面实施例提出的文本主题识别装置，包括：第一获取模块，用于获取待识别的文本；第二获取模块，用于获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题；识别模块，用于根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。

本申请第二方面实施例提出的文本主题识别装置，通过根据文本主题识别模型进行文本主题识别，由于文本主题识别模型是根据训练数据进行训练后生成的，因此根据文本主题识别模型识别出的主题更准确。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的文本主题识别方法的流程示意图；

图2是本申请另一个实施例提出的文本主题识别方法的流程示意图；

图3是本申请一个实施例提出的文本主题识别装置的结构示意图；

图4是本申请另一个实施例提出的文本主题识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的文本主题识别方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：获取待识别的文本。

S12：获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题。

其中，可以预先获取训练数据，并根据训练数据采用机器学习算法训练生成文本主题识别模型，文本主题识别模型可以表明文本与主题之间的关系，以根据文本主题识别模型识别出文本的主题。

S13：根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。

进一步的，文本主题识别模型的输入和输出可以分别是文本的特征和文本的主题，此时，在获取到待识别的文本后，可以先对文本提取特征，再将提取出的特征作为文本主题识别模型的输入，从而得到的输出为该文本的主题，完成文本主题识别。

进一步的，识别出的主题可以包含在文本中也可以不包含在文本中，如文本是“头发越来越少”，则识别出的主题可以是“脱发”。

本实施例中，通过根据文本主题识别模型进行文本主题识别，由于文本主题识别模型是根据训练数据进行训练后生成的，因此根据文本主题识别模型识别出的主题更准确。

图2是本申请另一个实施例提出的文本主题识别方法的流程示意图。

如图2所示，本实施例的方法包括：

S21：收集大量文本，以及获取收集的文本的主题词。

其中，可以对收集的文本进行自动分析，分析文本中词对文本整体语义的重要性，将重要性较高的一个或多个词(具体数量可设置)作为文本的主题词，得到一批文本到主题的标注数据。另外，还可以通过人工标注，得到另一批文本到主题的标注数据。

进一步的，文本的主题可以包含在文本中，如“好的健身方法有哪些”对应的主题是“健身”；也有可能不在文本中，如“总是掉头发该怎么办”对应的主题是“脱发”。

S22：对获取的主题词进行过滤及聚类，生成主题的集合。

过滤是指过滤掉不合理和错误的主题词，如过滤掉切词得到的不完整的词。

在过滤后，对主题词进行聚类，将聚簇中最通用和概括的主题词作为本聚簇的主题，生成主题的集合。聚类依据的主题词之间的相关性，具体的聚类方法不限定。

S23：提取收集的文本的特征，将提取的特征及文本对应的主题作为训练数据。

文本的特征可以具体是指组成文本的每个字。

S24：对训练数据进行训练，生成文本主题识别模型。

在训练时，将文本的特征作为输入，使得经过模型输出的主题与文本的主题尽量相同。模型的网络结构可以采用深度神经网络(Deep Neural Network,DNN)或卷积神经网络(Convolutional Neural Network，CNN)等神经网络结构。

通过上述的S1-S24可以构建出文本主题识别模型，之后可以依据该模型对后续的任意文本进行主题识别。

S25：在需要进行主题识别时，对待识别的文本进行特征提取。

S26：根据提取的特征及已生成的文本主题识别模型对待识别的文本进行主题识别，确定待识别的文本的主题。

具体的，文本主题识别模型的输入是文本的特征，输出是文本对应的主题，因此，在需要对文本进行主题识别时，可以先提取该文本的特征(如该文本包含的字)，再将提取的特征作为文本主题识别模型的输入，得到的输出即为该文本对应的主题。

在识别出文本的主题后，可以将其应用在不同的领域中，如应用在文本相关性计算、内容推荐、点击率预估等场景中。

本实施例中，通过根据文本主题识别模型进行文本主题识别，由于文本主题识别模型是根据训练数据进行训练后生成的，因此根据文本主题识别模型识别出的主题更准确。进一步的，通过自动分析和人工标注主题词，可以丰富训练数据量。进一步的，通过采用神经网络模型进行训练，可以提高模型的准确度，进而提高文本主题识别的准确度。

图3是本申请一个实施例提出的文本主题识别装置的结构示意图。

如图3所示，该装置30包括：第一获取模块31、第二获取模块32和识别模块33。

第一获取模块31，用于获取待识别的文本；

第二获取模块32，用于获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题；

识别模块33，用于根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。

其中，识别出的主题可以包含在文本中也可以不包含在文本中，如文本是“头发越来越少”，则识别出的主题可以是“脱发”。

一些实施例中，参见图4，该装置30还包括：

提取模块34，用于提取所述文本的特征，以根据所述特征和所述文本主题识别模型，识别出所述文本的主题。

一些实施例中，参见图4，该装置30还包括：

收集模块35，用于收集文本及获取收集的文本的主题词；

处理模块36，用于对获取的主题词进行过滤及聚类，生成主题的集合；

确定模块37，用于提取收集的文本的特征，将提取的特征及文本对应的主题作为训练数据；

文本的特征可以具体是指组成文本的每个字。

训练模块38，用于对训练数据进行训练，生成文本主题识别模型。

一些实施例中，所述收集模块35用于获取收集的文本的主题词包括：

对收集的文本进行自动分析，得到文本的主题词；或者，

对收集的文本进行人工标注，得到文本的主题词。

一些实施例中，所述训练模块38具体用于：

采用神经网络模型，对训练数据进行训练，生成文本主题识别模型。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本主题识别方法，其特征在于，包括：

获取待识别的文本；

获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题；

根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别的文本之后，所述方法还包括：

提取所述文本的特征，以根据所述特征和所述文本主题识别模型，识别出所述文本的主题。

3.根据权利要求2所述的方法，其特征在于，还包括：

收集文本及获取收集的文本的主题词；

对获取的主题词进行过滤及聚类，生成主题的集合；

提取收集的文本的特征，将提取的特征及文本对应的主题作为训练数据；

对训练数据进行训练，生成文本主题识别模型。

4.根据权利要求3所述的方法，其特征在于，所述获取收集的文本的主题词包括：

对收集的文本进行自动分析，得到文本的主题词；或者，

对收集的文本进行人工标注，得到文本的主题词。

5.根据权利要求3所述的方法，其特征在于，所述对训练数据进行训练，生成文本主题识别模型，包括：

6.一种文本主题识别装置，其特征在于，包括：

第一获取模块，用于获取待识别的文本；

第二获取模块，用于获取已生成的文本主题识别模型，所述文本主题识别模型是根据训练数据生成的，所述训练数据包括收集的文本的特征和收集的文本对应的主题；

识别模块，用于根据所述文本主题识别模型对所述文本进行主题识别，识别出所述文本的主题。

7.根据权利要求6所述的装置，其特征在于，还包括：

提取模块，用于提取所述文本的特征，以根据所述特征和所述文本主题识别模型，识别出所述文本的主题。

8.根据权利要求7所述的装置，其特征在于，还包括：

收集模块，用于收集文本及获取收集的文本的主题词；

处理模块，用于对获取的主题词进行过滤及聚类，生成主题的集合；

确定模块，用于提取收集的文本的特征，将提取的特征及文本对应的主题作为训练数据；

训练模块，用于对训练数据进行训练，生成文本主题识别模型。

9.根据权利要求8所述的装置，其特征在于，所述收集模块用于获取收集的文本的主题词包括：

对收集的文本进行自动分析，得到文本的主题词；或者，

对收集的文本进行人工标注，得到文本的主题词。

10.根据权利要求8所述的装置，其特征在于，所述训练模块具体用于：