CN109766550B

CN109766550B - 一种文本品牌识别方法、识别装置和存储介质

Info

Publication number: CN109766550B
Application number: CN201910011497.XA
Authority: CN
Inventors: 翁永金; 李百川; 陈第
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2023-05-23
Anticipated expiration: 2039-01-07
Also published as: CN109766550A

Abstract

本发明提供了一种文本品牌识别方法、识别装置和存储介质，该方法包括：获取待识别的文本，并对文本进行预处理得到文本的品牌候选词根；获取预构建的品牌库中的品牌名和品牌描述信息，并对品牌描述信息进行预处理得到品牌描述特征词汇；获取品牌候选词根在文本中的上下文特征词汇；基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的品牌名作为文本的目标品牌名。基于本发明，可以在无监督的场景下，利用语义相似度确定文本的目标品牌名，这在一定程度上可以解决一词多义的问题，有助于文本品牌的自动识别。

Description

一种文本品牌识别方法、识别装置和存储介质

技术领域

本发明涉及互联网与计算机技术领域，更具体地说，涉及一种文本品牌识别方法、识别装置和存储介质。

背景技术

随着互联网技术的发展，互联网广告已经成为许多公司盈利的重要手段。对于广告主和相关运营人员而言，希望看到同行业其他竞品的广告投放相关情况，然而许多广告实际上并没有写明品牌名。

现阶段只能通过广告文本的品牌识别实现广告与品牌名的对应。然而，现实中存在大量一词多义的品牌名，如“苹果手机”和“苹果好吃吗”中的“苹果”分别指一种手机和一种水果，前者可认为是品牌，后者则不行。在现有技术中所采用的词库匹配方法，则无法解决一词多义的问题。

发明内容

有鉴于此，为解决上述问题，本发明提供一种文本品牌识别方法、识别装置和存储介质。技术方案如下：

一种文本品牌识别方法，所述方法包括：

获取待识别的文本，并对所述文本进行预处理得到所述文本的品牌候选词根；

获取预构建的品牌库中的品牌名和品牌描述信息，并对所述品牌描述信息进行预处理得到品牌描述特征词汇；

获取所述品牌候选词根在所述文本中的上下文特征词汇；

基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的所述品牌名作为所述文本的目标品牌名。

优选的，所述对所述文本进行预处理得到所述文本的品牌候选词根，包括：

对所述文本进行分词得到所述文本的文本特征词汇；

对所述文本特征词汇进行词性标注；

至少基于所述文本特征词汇所标注的词性对所述文本特征词汇做筛选处理得到品牌候选词根。

优选的，所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度，包括：

分别计算所述上下文特征词汇的特征向量以及所述品牌描述特征词汇的特征向量；

利用所述上下文特征词汇的特征向量和所述品牌描述特征词汇的特征向量计算所述品牌候选词根与所述品牌名之间的语义相似度。

优选的，所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度之前，所述方法还包括：

针对所述品牌候选词根，通过模糊匹配所述品牌库从所述品牌名中选取候选品牌名。

计算所述品牌候选词根与所述候选品牌名之间的编辑距离；

选取编辑距离符合第二指定规则的所述候选品牌名。

一种文本品牌识别装置，所述装置包括：

第一预处理模块，用于获取待识别的文本，并对所述文本进行预处理得到所述文本的品牌候选词根；

第二预处理模块，用于获取预构建的品牌库中的品牌名和品牌描述信息，并对所述品牌描述信息进行预处理得到品牌描述特征词汇；

获取模块，用于获取所述品牌候选词根在所述文本中的上下文特征词汇；

计算模块，用于基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的所述品牌名作为所述文本的目标品牌名。

优选的，用于对所述文本进行预处理得到所述文本的品牌候选词根的所述预处理模块，具体用于：

对所述文本进行分词得到所述文本的文本特征词汇；对所述文本特征词汇进行词性标注；至少基于所述文本特征词汇所标注的词性对所述文本特征词汇做筛选处理得到品牌候选词根。

优选的，用于基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度的所述计算模块，具体用于：

分别计算所述上下文特征词汇的特征向量以及所述品牌描述特征词汇的特征向量；利用所述上下文特征词汇的特征向量和所述品牌描述特征词汇的特征向量计算所述品牌候选词根与所述品牌名之间的语义相似度。

优选的，所述计算模块，还用于：

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于前文任意一项所述的文本品牌识别方法。

以上本发明提供的文本品牌识别方法、识别装置和存储介质，可以对待识别的文本进行预处理得到品牌候选词根，进而通过计算品牌候选词根在文本中的上下文词汇与品牌描述信息的品牌描述特征词汇之间的语义相似度来确定文本的目标品牌名。基于本发明，可以在无监督的场景下，利用语义相似度确定文本的目标品牌名，这在一定程度上可以解决一词多义的问题，有助于文本品牌的自动识别。

此外，由于本发明采用无监督方式即可识别文本品牌，因此相对于现有技术中结果依赖所标注样本数量和构建特征的有监督学习方法，不但可以降低标注成本，还具有较强的泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的文本品牌识别方法的方法流程图；

图2为本发明实施例提供的文本品牌识别方法的部分方法流程图；

图3为本发明实施例提供的文本品牌识别方法的另一部分方法流程图；

图4为本发明实施例提供的文本品牌识别方法的另一方法流程图；

图5为本发明实施例提供的文本品牌识别方法的再一方法流程图；

图6为本发明实施例提供的文本品牌识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文本品牌识别方法，该方法的方法流程图如图1所示，包括如下步骤：

S10，获取待识别的文本，并对文本进行预处理得到文本的品牌候选词根。

本发明实施例中，可以从用户输入的文本集T＝{T₁,T₂,...,T_n}中依次选取待识别的文本T_i，并对文本T_i至少执行分词操作得到文本的品牌候选词根

其中，

x_k ⁽ⁱ⁾表示文本集中第i个文本T_i中的第k个品牌候选词根，i＝1,2,.k..,,n，..|.T_i,|′≤|T_i|，|T_i|为文本T_i分词得到的文本特征词汇的数量。

在具体实现过程中，步骤S10中“对文本进行预处理得到文本的品牌候选词根”可以采用如下步骤，方法流程图如图2所示：

S101，对文本进行分词得到文本的文本特征词汇。

为方便理解，在此以“想换手机就来小米有品，小米手机暑期开始降价了！”为例进行说明：

对上述文本进行分词处理，得到如下文本特征词汇：

(想换)/(手机)/(就)/(来)/(小米有品)/(，)/(小米)/(手机)/(暑期)/(开始/(降价)/(了)/(！)。

S102，对文本特征词汇进行词性标注。

在执行步骤S102的过程中，可以利用预先构建的词性词典，确定文本特征词汇的词汇，进而对应标注；其中，词性词典中记录有词汇所对应的词性。当然，还可以采用其他词性标注的方式对文本特征词汇进行词性标注，本实施例对此不做限定。

为方便理解，继续以“想换手机就来小米有品，小米手机暑期开始降价了！”为例进行说明：

对文本特征词汇“(想换)/(手机)/(就)/(来)/(小米有品)/(，)/(小米)/(手机)/(暑期)/(开始/(降价)/(了)/(！)”进行词性标注，得到如下结果：

(想换—v)/(手机—n)/(就—d)/(来—v)/(小米有品—n)/(，—x)/(小米—n)/(手机—n)/(暑期—t)/(开始—v)/(降价—v)/(了—ul)/(！—x)；其中，

n为名词，d为副词，v为动词，x为非语素词，t为时间词，ul为时态助词。

S103，至少基于文本特征词汇所标注的词性对文本特征词汇做筛选处理得到品牌候选词根。

在执行步骤S103的过程中，结合文本特征词汇所标注的词性，可以对文本特征词汇进行词性筛选，比如只选择名词性词汇。

对“(想换—v)/(手机—n)/(就—d)/(来—v)/(小米有品—n)/(，—x)/(小米—n)/(手机—n)/(暑期—t)/(开始—v)/(降价—v)/(了—ul)/(！—x)”进行名词性词汇的筛选，得到如下结果：

(手机—n)/(小米有品—n)/(小米—n)/(手机—n)。

当然，为减少后续数据处理量，在进行词性筛选的同时，还可以进行停用词筛选来去除对品牌识别没有实际意义的词汇，比如去除语气词。还可以进行长度筛选来去除品牌可能性极小的词汇，比如去除长度大于5的词汇。可以理解的是，其他未列举的预处理方式，也在本实施例的保护范围内。

S20，获取预构建的品牌库中的品牌名和品牌描述信息，并对品牌描述信息进行预处理得到品牌描述特征词汇。

在执行步骤S20的过程中，品牌库中记录有品牌名和品牌描述信息之间的对应关系。在品牌库中，可以从品牌名B＝(B₁,B₂,...,B_m)中依次选取待分词的品牌名B_j所对应的品牌描述信息W_i，并对W_i执行分词操作得到品牌描述词汇

其中，

z_k ^(j)表示品牌库中品牌名B_j所对应的品牌描述信息W_i中的第k个品牌描述特征词汇，j＝1,2,...,k,...,m，|B_i|′＝|B_i|，|B_i|为品牌描述信息W_i分词得到的品牌描述特征词汇的数量。

另外，在对品牌描述信息进行分词得到品牌描述特征词汇的基础上，还可以于品牌描述特征词汇进行词性筛选、停用词筛选以及长度筛选等，本实施例对此不做限定，此时，|B_i|′≤|B_i|。

S30，获取品牌候选词根在文本中的上下文特征词汇。

在执行步骤S30的过程中，针对品牌候选词根

中的任意一个，均会执行步骤S30以及如下步骤S40中计算语义相似度的操作，以品牌候选词根x_k ⁽ⁱ⁾为例进行说明：

假设品牌候选词根x_k ⁽ⁱ⁾在文本T_i分词得到的文本特征词汇中的下标为c_k，且预先定义的上下文窗口大小为t，则此时品牌候选词根x_k ⁽ⁱ⁾在文本T_i中上下文特征词汇为

假设上下文窗口大小为3，则对于品牌候选词根“小米有品”来说，其在文本中的上下文特征词汇为“(手机)/(就)/(来)/(，)/(小米)/(手机)”。

当然，该上下文特征词汇还可以从进行词性筛选和/或停用词筛选和/或长度筛选处理后的文本中获取，本实施例对此不做限定。当然，此时的词性筛选、停用词筛选以及长度筛选可以和文本预处理时的筛选相同或不同。

S40，基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的品牌名作为文本的目标品牌名。

在执行步骤S40的过程中，可以采用现有算法计算上下文特征词汇和品牌描述特征词汇之间的语义相似度，并将该语义相似度确定为品牌候选词根与品牌名之间的语义相似度。当然，还可以通过领域词向量模型计算上下文特征词汇和品牌描述特征词汇之间的语义相似度，以下对这种方式做详细介绍：

具体实现过程中，步骤S40中“基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度”可以采用如下步骤，方法流程图如图3所示：

S401，分别计算上下文特征词汇的特征向量以及品牌描述特征词汇的特征向量。

在执行步骤S401的过程中，可以首先使用已知词汇对Word2Vec、Glove、Fasttext或任意一种词向量模型进行训练，得到领域词向量模型θ，以此将上下文特征词汇和品牌描述特征词汇映射成为L一个长度为的向量：

θ(word⁽ⁱ⁾)＝vec⁽ⁱ⁾{v₁ ⁽ⁱ⁾,v₂ ⁽ⁱ⁾,...,v_k ⁽ⁱ⁾,...,v_L ⁽ⁱ⁾}

其中，word⁽ⁱ⁾为待映射词汇，vec⁽ⁱ⁾为待映射词汇对应的特征向量，v_k ⁽ⁱ⁾为待映射词汇对应的向量第k维的数值。

S402，利用上下文特征词汇的特征向量和品牌描述特征词汇的特征向量计算品牌候选词根与品牌名之间的语义相似度。

在执行步骤S402的过程中，可以按照如下公式(1)计算品牌候选词根x_k ⁽ⁱ⁾与品牌名B_j之间的语义相似度：

其中，similarity为语义相似度，W₁为指定权重且W₁＝1。

此外，为提高计算准确度，在上述公式(1)计算语义相似度的基础上，还可以迭加惩罚和/或奖励因子，此时惩罚因子和/或奖励因子各自所对应的指定权重与指定权重W₁之和为1。在具体实现过程中，惩罚因子可以针对品牌候选词根所拓展的品牌个数，奖励因子可以针对品牌候选词根的长度。以仅增加奖励因子且奖励因子针对品牌候选词根的长度为例，采用如下公式(2)对奖励因子的形式做举例说明：

其中，W₂为指定权重且W₁+W₂＝1，d为品牌候选词根的长度，D为预设的品牌候选词根的最大长度，α为用于调整奖励力度的指定超参数。

当然，惩罚因子和奖励因子还可以基于品牌候选词根所在文本的句法分析结果进行设置，比如针对动宾结构和主从结构设置奖励因子。此外，惩罚因子和奖励因子的形式还可以结合具体规则进行设置，本实施例对此不做限定。

此外，针对品牌候选词根中的任意一个，在确定与品牌库中各品牌名之间的语义相似度之后，可以选取语义相似度最大的多个品牌名作为候选品牌名。进而，综合所有品牌候选词根的候选品牌名的语义相似度，将语义相似度最大的候选品牌名作为文本的目标品牌名。当然，针对任意一个品牌候选词根，所选取的候选品牌名的个数可以如上基于语义相似度确定，还可以直接指定，本实施例对此不做限定。

在其他一些实施例中，为降低语义相似度计算时的计算量，在图1所示文本品牌识别方法的基础上，还包括如下步骤，方法流程图如图4所示：

S50，针对品牌候选词根，通过模糊匹配品牌库从品牌名中选取候选品牌名。

在执行步骤S50的过程中，通过模糊匹配可以从品牌库中选取包含品牌候选词根的候选品牌名。比如，针对品牌候选词根“小米”，通过模糊匹配品牌库可以得到候选品牌名“小米”，“小米有品”，“小米金融”和“小米寿司来了”。

此时，步骤S40“基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的品牌名作为文本的目标品牌名”为：

基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与候选品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的候选品牌名作为文本的目标品牌名。

在此基础上，为进一步降低语义相似度计算时的计算量，在图4所示文本品牌识别方法的基础上，还包括如下步骤，方法流程图如图5所示：

S60，计算品牌候选词根与候选品牌名之间的编辑距离。

本实施例中，编辑距离用于量化品牌候选词根与候选品牌名之间的差异程度，计算编辑距离即为计算品牌候选词根至少需要经过多少插入、删除或者替换的处理才能变化到候选品牌名。

比如，对于品牌候选词根“小米”和候选品牌名“小米”，其编辑距离为0；而对于品牌候选词根“小米”和候选品牌名“小米有品”，其编辑距离为2；而对于品牌候选词根“小米”和候选品牌名“小米金融”，其编辑距离为2；而对于品牌候选词根“小米”和候选品牌名“小米寿司来了”，其编辑距离为4。

S70，选取编辑距离符合第二指定规则的候选品牌名。

在执行步骤S70的过程中，可以选取编辑距离小于指定距离值，或者选取编辑距离最小的多个候选品牌名，等等。比如，对于品牌候选词根“小米”，选取编辑距离小于等于2的候选品牌名，此时所选取的候选品牌名为“小米”、“小米有品”和“小米金融”。

本发明实施例提供的文本品牌识别方法，可以对待识别的文本进行预处理得到品牌候选词根，进而通过计算品牌候选词根在文本中的上下文词汇与品牌描述信息的品牌描述特征词汇之间的语义相似度来确定文本的目标品牌名。基于本发明，可以在无监督的场景下，利用语义相似度确定文本的目标品牌名，这在一定程度上可以解决一词多义的问题，有助于文本品牌的自动识别。

基于上述实施例提供的文本品牌识别方法，本发明实施例则对应提供一种文本品牌识别装置，该装置的结构示意图如图6所示，包括：

第一预处理模块10，用于获取待识别的文本，并对文本进行预处理得到文本的品牌候选词根。

第二预处理模块20，用于获取预构建的品牌库中的品牌名和品牌描述信息，并对品牌描述信息进行预处理得到品牌描述特征词汇。

获取模块30，用于获取品牌候选词根在文本中的上下文特征词汇。

计算模块40，用于基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的品牌名作为文本的目标品牌名。

可选的，用于对文本进行预处理得到文本的品牌候选词根的预处理模块10，具体用于：

对文本进行分词得到文本的文本特征词汇；对文本特征词汇进行词性标注；至少基于文本特征词汇所标注的词性对文本特征词汇做筛选处理得到品牌候选词根。

可选的，用于基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度的计算模块40，具体用于：

分别计算上下文特征词汇的特征向量以及品牌描述特征词汇的特征向量；利用上下文特征词汇的特征向量和品牌描述特征词汇的特征向量计算品牌候选词根与品牌名之间的语义相似度。

可选的，计算模块40，还用于：

针对品牌候选词根，通过模糊匹配品牌库从品牌名中选取候选品牌名。

可选的，计算模块40，还用于：

计算品牌候选词根与候选品牌名之间的编辑距离；选取编辑距离符合第二指定规则的候选品牌名。

本发明实施例提供的文本品牌识别装置，可以在无监督的场景下，利用语义相似度确定文本的目标品牌名，这在一定程度上可以解决一词多义的问题，有助于文本品牌的自动识别。

本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令用于执行前文任意一项所述的文本品牌识别方法。

以上对本发明所提供的一种文本品牌识别方法、识别装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本品牌识别方法，其特征在于，所述方法包括：

获取所述品牌候选词根在所述文本中的上下文特征词汇；

针对所述品牌候选词根，通过模糊匹配所述品牌库从所述品牌名中选取候选品牌名；

基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述候选品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的所述候选品牌名作为所述文本的目标品牌名。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本进行预处理得到所述文本的品牌候选词根，包括：

对所述文本进行分词得到所述文本的文本特征词汇；

对所述文本特征词汇进行词性标注；

3.根据权利要求1所述的方法，其特征在于，所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度之前，所述方法还包括：

计算所述品牌候选词根与所述候选品牌名之间的编辑距离；

选取编辑距离符合第二指定规则的所述候选品牌名。

5.一种文本品牌识别装置，其特征在于，所述装置包括：

计算模块，用于针对所述品牌候选词根，通过模糊匹配所述品牌库从所述品牌名中选取候选品牌名；

所述计算模块，用于基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述候选品牌名之间的语义相似度，并选取语义相似度符合第一指定规则的所述候选品牌名作为所述文本的目标品牌名。

6.根据权利要求5所述的装置，其特征在于，用于对所述文本进行预处理得到所述文本的品牌候选词根的所述预处理模块，具体用于：

7.根据权利要求5所述的装置，其特征在于，用于基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度的所述计算模块，具体用于：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-4任意一项所述的文本品牌识别方法。