CN104008186B

CN104008186B - 从目标文本中确定关键词的方法和装置

Info

Publication number: CN104008186B
Application number: CN201410257533.8A
Authority: CN
Inventors: 陈海勇; 牟川; 邢志峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2014-06-11
Filing date: 2014-06-11
Publication date: 2018-10-16
Anticipated expiration: 2034-06-11
Also published as: CN104008186A

Abstract

本发明提供一种从目标文本中确定关键词的方法和装置，能够基于语义从文本中识别词语，应用于电子商务领域中能够提高从文本中识别商品名称及品牌名称的准确性。该方法包括：在预选的文本集合中匹配预定的一个或多个关键词，每篇文本和每个关键词带有附加信息；从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词，并为取到的语义关联词设置正向的权重值和负向的权重值；在目标文本中匹配所述一个或多个关键词，从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词，计算这些语义关联词的所有权重值的和，在该和大于设定值的情况下输出提示信息。

Description

从目标文本中确定关键词的方法和装置

技术领域

本发明涉及一种从目标文本中确定关键词的方法和装置。

背景技术

在电商平台、互联网新闻与社交媒体中，常常需要从文本中识别出用户对哪些商品与品牌关注。商品与品牌名称的识别技术通常以字符串匹配或文本相似度计算为基础，或应用一些实体名称识别方法，从文本中定位出具体商品和品牌名称。

现有的一种商品与品牌名称识别方法的基本步骤如下：

1、加载已有的商品与品牌名称库或实体属性库；

2、对目标文章做文本预处理，包括去掉无关的字符、文本切分等操作；

3、用商品与品牌名称库或实体属性库和切分的片断进行字符串匹配或文本实体相似度计算；

4、输出满足匹配条件的商品与品牌名称，并返回命中的位置。

现有技术是基于文本匹配或者文本实体相似度计算的，只能根据字面是否相同来识别商品与品牌。例如品牌名称库中的苹果、小米本身指的是手机品牌，但在一篇关于食品安全的目标文本中，可能会命中作为食品的苹果和小米，计算机在处理时就会误认为这篇目标文本是在关注品牌为苹果以及小米的手机。也就是说现有技术对于从文本中识别商品名称及品牌名称的准确性还有待提高。

发明内容

有鉴于此，本发明提供一种从目标文本中确定关键词的方法和装置，能够基于语义从文本中识别词语，应用于电子商务领域中能够提高从文本中识别商品名称及品牌名称的准确性。

为实现上述目的，根据本发明的一个方面，提供了一种从目标文本中确定关键词的方法和装置。

本发明的从目标文本中确定关键词的方法包括：在预选的文本集合中匹配预定的一个或多个关键词，每篇文本和每个关键词带有标签；从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词，并为取到的语义关联词设置正向的权重值和负向的权重值，其中，若匹配命中的关键词的标签与该关键词所在文本的标签具有交集，该关键词对应的语义关联词的权重值为正向，反之为负向；在目标文本中匹配所述一个或多个关键词，从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词，计算这些语义关联词的所有权重值的和，在该和大于设定值的情况下输出提示信息。

可选地，在所述预选的文本集合中多次出现同一关键词的情况下，对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。

可选地，在所述为取到的语义关联词设置正向的权重值和负向的权重值的步骤中，权重值的绝对值大小根据语义关联词与其对应的关键词在文中的距离确定。

可选地，所述关键词是商品名称或者品牌名称；所述标签包括商品所属的品类。

根据本发明的另一方面，提供了一种从目标文本中确定关键词的装置。

本发明的从目标文本中确定关键词的装置包括：匹配模块，用于在预选的文本集合中匹配预定的一个或多个关键词，每篇文本和每个关键词带有标签；语义关联词统计模块，用于从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词，并为取到的语义关联词设置正向的权重值和负向的权重值，其中，若匹配命中的关键词的标签与该关键词所在文本的标签具有交集，该关键词对应的语义关联词的权重值为正向，反之为负向；目标文本识别模块，用于在目标文本中匹配所述一个或多个关键词，从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词，计算这些语义关联词的所有权重值的和，在该和大于设定值的情况下输出提示信息。

可选地，所述语义关联词统计模块还用于在所述预选的文本集合中多次出现同一关键词的情况下，对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。

可选地，所述语义关联词统计模块还用于在所述为取到的语义关联词设置正向的权重值和负向的权重值时，根据语义关联词与其对应的关键词在文中的距离确定权重值的绝对值大小。

根据本发明的技术方案，将商品名称或品牌名称作为关键词，使用文本集合进行训练得到各关键词对应的多个语义关联词，然后对于需要识别的文本，查找其中的上述语义关联词，这些语义关联词对应的关键词即为该需要识别的文本所涉及的商品或品牌。由于词语往往有多种含义，同一词语常常出现在不同领域的文章中并且具有明显的意义上的区别。但采用本实施例的方案能够基于语义对文本中的关键词进行识别，不仅能够识别关键词的字面本身，而且能够结合上下文来确定该关键词在文章中的实际语义，因此能够准确地从文章中识别词语，应用在电子商务领域时，有助于从文本中准确地识别商品名称和品牌名称。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的获得关键词的语义关联词的一种优选流程的示意图；

图2是根据本发明实施例的对目标文本进行识别的一种优选方式的示意图；

图3是根据本发明实施例的从目标文本中确定关键词的装置的基本结构的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本实施例以电商平台中的应用为例，说明如何在文本中识别该文本涉及哪些商品或品牌。这里的商品是指一种商品的名称，例如自行车、手机等，品牌则可能包含多种商品，例如电子产品生产商的一个品牌往往包含多种电子产品如手机、计算机等。

在本实施例的方案中，将商品名称或品牌名称作为关键词，使用文本集合进行训练得到各关键词对应的多个语义关联词，然后对于需要识别的文本，查找其中的上述语义关联词，这些语义关联词对应的关键词即为该需要识别的文本所涉及的商品或品牌。这里的语义关联词是经常与关键词搭配使用的词语，例如与作为一种水果的“苹果”经常搭配使用的词有“甜”、“水果”等。通过对大量文本中出现的“苹果”的上下文的分析，即可以找到经常与“苹果”搭配使用的词。

以下结合图1说明本实施例中获得语义关联词的方法。图1是根据本发明实施例的获得关键词的语义关联词的一种优选流程的示意图。如图1所示，该流程主要包括如下的步骤S11至步骤S16。这里结合一个简单的实例加以说明以便理解。

步骤S11：加载商品名称库和品牌名称库。加载的内容例如表1所示。作为简单的示例，表1及以下说明中仅涉及2个关键词，即作为一种品牌的苹果和作为一种商品的苹果。二者带有品类标签以作为区别。以下的表2中类似地仅示出2篇训练文章。

表1

ID	名称	品牌或商品	品类标签
				1	苹果	品牌	手机、电脑、数码
2	苹果	商品	食品、水果
				……	……	……	……

商品与品牌名称库包含商品与品牌的名称和所属品类标签。每次训练时控制商品与品牌名称的加载数量，直接将定量条目载入计算机内存的哈希表中，便于后续步骤中与训练文章进行快速文本匹配。

步骤S12：取训练集中的一篇文本，与加载的商品名称库和品牌名称库进行匹配。训练集中的文本可以从多种渠道获得。例如论坛中的帖子、商品买家对商品的评论、有关商品的新闻、分析等文章。加载的训练文章例如表2所示。训练文章经由人工分析，按其内容设置有品类标签，以标明该文章的内容涉及的品类。

表2

本步骤中的输入量是带有品类标签的训练集文章，输出量是匹配命中的带有品类标签的商品名称与品牌名称、所在文章的品类标签、命中位置。

在本步骤中，首先对文章的文本进行预处理。预处理主要是去掉一些无效字符，可根据设置的无效字符库来进行；另外按标点符号和分割符号(例如空格)将文本切分成多个片断。预处理的结果如表3所示，以“|”作为切分符号。

表3

接下来取一篇文章作为当前文章进行匹配，具体是将当前文章经过预处理后得到的片断和内存中的商品名称库与品牌名称库进行字串匹配和相似度计算，这一过程可采用现有的文本匹配和相似度计算的技术。如果匹配命中，即当前文章中包含内存中的商品名称库与品牌名称库中的名称，则进行步骤S13，否则进入步骤S15。如表1至表3的内容所示，在本例子中，命中了表1中ID为1和2的两个名称“苹果”。需要说明的是，在本例中命中了商品名称和品牌名称，在其他实例中可能仅命中商品名称或品牌名称。在本例中，当前文章为文本1，“苹果”的命中位置为文本1的第1段第1个词、第2段第1个词。

步骤S13：确定匹配到的商品名称和品牌名称的语义关联词及其权重。在本步骤中，输入量为：匹配命中的商品名称与品牌名称，并且带有品类标签；当前文章的品类标签；命中位置；当前文章经上述预处理之后的正文。输出量为匹配命中的商品名称与品牌名称及其语义关联词和权重。该权重具有值和正负向。

在本步骤中，首先在当前文章中的命中位置向前以及向后各取M(本例中取50)个词作为语义关联词。如果向前或向后遇到文章开端或末尾，则采用实际可取到的词(即取到多少算多少)。然后计算取到的词与命中位置的距离N(本实施例中该距离是取到的词与命中位置之间的词的数量)，其权重即为M和N的差值即M-N。参考表4，表4中列出了步骤S14之后的结果。例如“英寸”与“苹果”之间相隔1个词“MacBook”，则“英寸”的权重值为50-1＝49。接下来确定权重值的正负向。若匹配命中的商品名称和品类名称的品类标签与当前文章的品类标签具有交集(即包含相同的一个或多个标签)，则当前文章中的取到的词具有正向的权重值。例如，ID为1的名称“苹果”和ID为2的名称“苹果”在当前文章1中都匹配命中，ID为1的名称“苹果”的品类标签为“手机、电脑、数码”，“英寸”所在的文章的品类标签为“手机、电脑、数码”，这两个品类标签存在交集，则“英寸”作为ID为1的名称“苹果”的语义关联词，具有一个正向的权重值49；ID为2的名称“苹果”的品类标签为“食品、水果”，“英寸”所在的文章的品类标签为“手机、电脑、数码”，这两个品类标签不存在交集，则“英寸”ID为2的名称“苹果”的语义关联词，具有一个负向的权重值49。本步骤之后进入步骤S14，对匹配命中多个位置的情况加以处理。

步骤S14：对关联词表的权重进行迭代更新。本步骤主要是针对在匹配时反复命中的情况，即文本中多次出现同一商品名称或品类名称。本步骤中的输入量是匹配命中的商品名称与品牌名称、命中位置的上下文的语义关联词。

在本步骤中，首先取出命中的商品名称与品牌名称的语义关联词表，如果没有对应的语义关联词表，则先建立一个空的语义关联词表。然后逐个扫描上下文语义关联词，看语义关联词表中是否已含该语义关联词。如果没有，直接在关联词表中加入该语义关联词，并将该语义关联词与命中位置的间距作为初始权重，正值加入正向权重，负值加入负向权重。如果关联词表中有该语义关联词，则将语义关联词的权重累加在语义关联词表中对应的权重字段上，即正正相加，或者负负相加。例如，文本1中的“5s”出现2次，2个“5s”对于ID为1的“苹果”分别有正向权重46和49，因此“5s”对于ID为1的“苹果”具有正向权重46+49＝95。类似地，2个“5s”对于ID为2的“苹果”分别有正向权重46和49，因此“5s”对于ID为2的“苹果”具有负向权重46+49＝95。表4示出了本步骤之后的结果。

表4

步骤S15：判断训练集文章是否都经过匹配。若是则进入步骤S16，否则返回步骤S12。上述例子中，处理了两篇文本。在有更多文本的情况下，表4的内容进一步延长。

步骤S16：输出语义关联词表。在语义关联词表中，列出了每个商品名称或品牌名称对应的语义关联词，如表5所示。表5的内容是根据表4的内容得出，并且对权重值作了归一化处理，即用表4中的权重值除以所有语义关联词权重值的和。根据本例，所有语义关联词为：iPhone、5s、MacBook、英寸、5c、宽屏、32G、水果、甜、营养。权重值的和即为97+95+50+49+48+48+47+50+50+49＝583。

表5

在得到表5的语义关联词表之后，就可以对目标文本进行识别，以确定该文本涉及了哪个或哪些商品和/或品牌。具体可采用图2所示的流程，图2是根据本发明实施例的对目标文本进行识别的一种优选方式的示意图。以下结合一个例子对图2中的各步骤加以说明，在该例中使用表5的内容。

步骤S21：加载语义关联词表。即表5的内容。载入计算机内存的哈希表中，便于与目标文本进行快速匹配。

步骤S22：对目标文本和语义关联词表中的商品名称以及品牌名称进行匹配。本步骤中同样对目标文本进行预处理，去掉无效字符并对目标文本进行切分处理。

例如，目标文本是：苹果iphone 6上市了，32G版本可售

进行预处理之后的结果是：苹果|iphone|32G

步骤S23：取目标文本中的语义关联词。按上例，命中的商品名称是作为一种品牌的“苹果”和作为一种商品的“苹果”，取到的语义关联词为：iphone、32G。

步骤S24：计算语义匹配度。查语义关联词表，“iphone”和“32G”对应于作为品牌的“苹果”，权重值分别为正向的0.166和0.081，累计权重为0.247。对应于作为商品的“苹果”，“iphone”和“32G”的权重值分别为负向的0.166和0.081，累计权重为-0.247。以上结果列于表6中。

表6

在累计权重大于一个预设值(该预设值根据实际情况调整)的情况下，认定名称中的字段与目标文本匹配。表6中的“是否一致”表示目标文本是否涉及同时符合表6第2、3列的商品名称或品牌名称。实际匹配位置是命中的商品名称或品牌名称在目标文本中的位置，即目标文本第1段第1个词。而第3行第6列的“无”表示目标文本1并没有涉及作为一种商品的“苹果”。此时可以输出一条提示信息，例如输出目标文本的标题以及其中涉及的品牌名称。

可以看出，虽然“苹果”一词具有两个含义，分别是作为一种食品和一个品牌，在不同领域的文章中都有可能涉及“苹果”一词，但采用本实施例的方案，能够使计算机准确地识别有关食品的文章中的苹果和有关数码产品的文章中的苹果的含义，避免因为包含“苹果”这样的关键词就认为一篇有关水果的文章是在讨论手机等电子产品。

图3是根据本发明实施例的从目标文本中确定关键词的装置的基本结构的示意图。如图3所示，从目标文本中确定关键词的装置30主要包括匹配模块31、语义关联词统计模块32、以及目标文本识别模块33。

匹配模块31用于在预选的文本集合中匹配预定的一个或多个关键词，每篇文本和每个关键词带有附加信息。语义关联词统计模块32用于从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词，并为取到的语义关联词设置正向的权重值和负向的权重值，其中，若匹配命中的关键词的附加信息与该关键词所在文本的附加信息具有交集，该关键词对应的语义关联词的权重值为正向，反之为负向。目标文本识别模块33用于在目标文本中匹配上述一个或多个关键词，从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词，计算这些语义关联词的所有权重值的和，在该和大于设定值的情况下输出提示信息。

语义关联词统计模块32还可用于在预选的文本集合中多次出现同一关键词的情况下，对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。

语义关联词统计模块32还可用于在为取到的语义关联词设置正向的权重值和负向的权重值时，根据语义关联词与其对应的关键词在文中的距离确定权重值的绝对值大小。

根据本发明实施例的技术方案，将商品名称或品牌名称作为关键词，使用文本集合进行训练得到各关键词对应的多个语义关联词，然后对于需要识别的文本，查找其中的上述语义关联词，这些语义关联词对应的关键词即为该需要识别的文本所涉及的商品或品牌。由于词语往往有多种含义，同一词语常常出现在不同领域的文章中并且具有明显的意义上的区别。但采用本实施例的方案能够基于语义对文本中的关键词进行识别，不仅能够识别关键词的字面本身，而且能够结合上下文来确定该关键词在文章中的实际语义，因此能够准确地从文章中识别词语，应用在电子商务领域时，有助于从文本中准确地识别商品名称和品牌名称。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和设备的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种从目标文本中确定关键词的方法，其特征在于，包括：

在预选的文本集合中匹配预定的一个或多个关键词，每篇文本和每个关键词带有标签；其中，所述文本集合的文本为包括至少一个所述关键词的原始文本；所述标签用于标识所述关键词在所述文本中的实际语义；

从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词，并为取到的语义关联词设置正向的权重值和负向的权重值，其中，若匹配命中的关键词的标签与该关键词所在文本的标签具有交集，该关键词对应的语义关联词的权重值为正向，反之为负向；

在目标文本中匹配所述一个或多个关键词，从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词，计算这些语义关联词的所有权重值的和，在该和大于设定值的情况下输出提示信息。

2.根据权利要求1所述的方法，其特征在于，在所述预选的文本集合中多次出现同一关键词的情况下，对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。

3.根据权利要求1或2所述的方法，其特征在于，在所述为取到的语义关联词设置正向的权重值和负向的权重值的步骤中，权重值的绝对值大小根据语义关联词与其对应的关键词在文中的距离确定。

4.根据权利要求1或2所述的方法，其特征在于，

所述关键词是商品名称或者品牌名称；

所述标签包括商品所属的品类。

5.一种从目标文本中确定关键词的装置，其特征在于，包括：

匹配模块，用于在预选的文本集合中匹配预定的一个或多个关键词，每篇文本和每个关键词带有标签；其中，所述文本集合的文本为包括至少一个所述关键词的原始文本；所述标签用于标识所述关键词在所述文本中的实际语义；

语义关联词统计模块，用于从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词，并为取到的语义关联词设置正向的权重值和负向的权重值，其中，若匹配命中的关键词的标签与该关键词所在文本的标签具有交集，该关键词对应的语义关联词的权重值为正向，反之为负向；

目标文本识别模块，用于在目标文本中匹配所述一个或多个关键词，从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词，计算这些语义关联词的所有权重值的和，在该和大于设定值的情况下输出提示信息。

6.根据权利要求5所述的装置，其特征在于，所述语义关联词统计模块还用于在所述预选的文本集合中多次出现同一关键词的情况下，对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。

7.根据权利要求5或6所述的装置，其特征在于，所述语义关联词统计模块还用于在所述为取到的语义关联词设置正向的权重值和负向的权重值时，根据语义关联词与其对应的关键词在文中的距离确定权重值的绝对值大小。

8.根据权利要求5或6所述的装置，其特征在于，

所述关键词是商品名称或者品牌名称；

所述标签包括商品所属的品类。