CN114090885B

CN114090885B - 产品标题核心词提取方法、相关装置及计算机程序产品

Info

Publication number: CN114090885B
Application number: CN202111340187.6A
Authority: CN
Inventors: 吕浩宇; 刘晓庆; 谭云飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-09-16
Anticipated expiration: 2041-11-12
Also published as: CN114090885A

Abstract

本公开提供了一种产品标题核心词提取方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及自然语言处理、深度学习等人工智能技术领域。该方法包括：获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词；确定初始查询核心词和初始标题核心词之间的词向量距离；根据词向量距离、初始查询核心词、初始标题核心词，确定与产品文章标题对应的目标标题核心词。该方法提升了提取出的标题核心词的准确性，有助于提升产品文章标题被用户查询词命中的几率。

Description

产品标题核心词提取方法、相关装置及计算机程序产品

技术领域

本公开涉及数据处理技术领域，具体涉及自然语言处理、深度学习等人工智能技术领域，尤其涉及一种产品标题核心词提取方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着电子商城、线上商场的兴起，用户的购买习惯逐渐向线上迁移。

不同于线下购物时购买者可以在不明确商品名时向导购或者服务人员进行样式、使用特性方面的描述，线上准确购物的前提是购买者输入较为准确的查询词。

但实际情况下，总会出现商家设置的商品名(或产品名)或产品售卖标题中不包含购买者输入的查询词的情况。

发明内容

本公开实施例提出了一种产品标题核心词提取方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本公开实施例提出了一种产品标题核心词提取方法，包括：获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词；确定初始查询核心词和初始标题核心词之间的词向量距离；根据词向量距离、初始查询核心词、初始标题核心词，确定与产品文章标题对应的目标标题核心词。

第二方面，本公开实施例提出了一种产品标题核心词提取装置，包括：历史语料获取单元，被配置成获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；初始核心词提取单元，被配置成从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词；词向量距离确定单元，被配置成确定初始查询核心词和初始标题核心词之间的词向量距离；目标标题核心词确定单元，被配置成根据词向量距离、初始查询核心词、初始标题核心词，确定与产品文章标题对应的目标标题核心词。

第三方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的产品标题核心词提取方法。

第四方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的产品标题核心词提取方法。

第五方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的产品标题核心词提取方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性系统架构；

图2为本公开实施例提供的一种产品标题核心词提取方法的流程图；

图3为本公开实施例提供的一种提取初始核心词的方法的流程图；

图4为本公开实施例提供的另一种提取初始核心词的方法的流程图；

图5为本公开实施例提供的一种基于词向量距离确定目标标题核心词的方法的流程图；

图6为本公开实施例提供的一种呈现优先级调整方法的流程图；

图7为本公开实施例提供的一种产品标题核心词提取装置的结构框图；

图8为本公开实施例提供的一种适用于执行产品标题核心词提取方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的产品标题核心词提取方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如自然语言处理类应用、数据分析类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以面向产品售卖方所提供的从存储的海量产品文章标题提取出着重体现产品的标题核心词的自然语言处理类应用为例，服务器105在运行该自然语言处理类应用时可实现如下效果：首先，通过网络104从终端设备101、102、103中获取用户历史输入的产品查询词和用户在之前服务器向其返回的查询结果中所选择的产品文章标题；然后，从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词；接着，确定初始查询核心词和初始标题核心词之间的词向量距离；最后，根据词向量距离、初始查询核心词、初始标题核心词，确定与产品文章标题对应的目标标题核心词。

进一步的，服务器105可将确定出的目标标题核心词作为所属的产品文章标题的核心词标签一并存在，以便后续基于核心词标签来分类、筛选合适的产品文章。

需要指出的是，产品查询词和对应的产品文章标题除可以从终端设备101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时(例如设备服务器105也保存用户的产品购买记录)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括终端设备101、102、103和网络104。

本公开后续各实施例所提供的产品标题核心词提取方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，产品标题核心词提取装置一般也设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本公开实施例提供的一种产品标题核心词提取方法的流程图，其中流程200包括以下步骤：

步骤201：获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；

本步骤旨在由产品标题核心词提取方法的执行主体(例如图1所示的服务器105)获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题。其中，产品查询词是指用户处于想要查询一个产品所输入的查询词，该查询词可以是该产品的名称(包括官方名称、别名、外号等)、形状特点、功能特性、颜色特点等能够用于描述和定位该产品的信息；产品文章标题则是产品商家或售卖者在各种平台上对其所要售卖的产品的简要描述，也同样可以包括名称、形状特点、功能特性、颜色特点等能够用于描述该产品的信息。

本步骤所描述的产品文章标题并不是任意的产品文章标题，而是与用户输入的产品查询词存在输入选择关系的产品文章标题。该输入选择关系可具体解释为：输入动作与选择动作之间的对应关系，输入动作指输入的产品查询词，而选择动作则指用户在服务器根据由产品查询词作为检索词返回的备选产品文章标题中被用户选中的产品文章标题，即用户之所以选择是因为其认为其选择的产品文章标题与其输入的产品查询词较匹配。

也就是说，输入选择关系实际上隐含的是存在产品匹配关系的产品查询词和产品文章标题之间的关系。

具体的，用户历史输入的产品查询词和对应选择的产品文章标题可从上述执行主体的本地存储器(用于存储历史搜索和返回信息的存储器)中直接获取，也可以从发起包含该产品查询词的用户终端(例如图1所示的终端设备101、102、103)中读取，此处不做具体限定。

步骤202：从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词；

在步骤201的基础上，本步骤旨在由上述执行主体从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词。即初始核心词提取操作的执行对象为成对的产品查询词和产品文章标题，组成对的规则是存在输入选择关系。

即初始查询核心词是从产品查询词中提取得到，初始标题核心词是从对应的产品文章标题中提取得到。核心词，顾名思义，就是产品查询词和产品文章标题中充当核心的词，由于本公开所提供的核心词提取方案主要是面向商家的(也可以被称为To B，即ToBusiness)，而商家主要以产品售卖为主，因此本公开中的核心词也主要偏向于其中的名词部分。当然，若想要应用于其它领域、面向其它群体，也可以在本公开所提供的核心词提取思想的指导下进行适应性调整。

具体的，为了提取到较为准确的初始查询核心词和初始标题核心词，可采用多种手段来帮助，例如预先对产品查询词和产品文章标题进行名词部分的标注(包括人工手动标注和模型自动标注，其中提供自动标注能力的模型又可分为非预训练模型和预训练模型)、特殊字符去除、错别字纠正，以及结合自然语言理解领域的语义识别、中文句子切分，还可以在借助模型进行处理时将其转换为更便于计算机理解的词向量等手段，以期提取出尽可能准确的初始查询核心词和初始标题核心词。

步骤203：确定初始查询核心词和初始标题核心词之间的词向量距离；

在步骤202的基础上，本步骤旨在由上述执行主体确定初始查询核心词和初始标题核心词之间的词向量距离，以通过计算出的词向量距离表示初始查询核心词与初始标题核心词之间的相似程度(也可以称为匹配程度、一致性)。

需要说明的是，一个产品查询词中可至少提取出一个初始产品查询词，一个产品文章标题中也可以至少提取出一个初始标题核心词，因此在从产品查询词和/或产品文章标题中提取出多个核心词时，需要在计算初始查询核心词和初始标题核心词之间的词向量距离时遍历任何一种组合。

文本形式无法计算距离，因此通常需要将核心词转换为向量等便于计算距离的形式，所采用的距离计算方式也包括多种，例如余弦距离、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、汉明距离等

一种包括且不限于的实现方式可以为：

确定与初始查询核心词对应的第一词向量、与初始标题核心词对应的第二词向量；

计算第一词向量与第二词向量之间的余弦距离。

步骤204：根据词向量距离、初始查询核心词、初始标题核心词，确定与产品文章标题对应的目标标题核心词。

在步骤203的基础上，本步骤旨在由上述执行主体根据词向量距离、初始查询核心词、初始标题核心词，来最终确定哪些初始标题核心词最合适作为产品文章标题核心词的目标标题核心词。

其中，词向量距离的大小来表征初始查询核心词与初始标题核心词之间的相似程度，即主要是根据相似程度的大小来确定是否需要借助初始查询核心词对初始标题核心词进行调整，还是直接将初始标题核心词作为目标标题核心词。具体的，触发分支选择的判断条件可以为词向量距离阈值，也可以为其它相关参数，阈值或参数的大小应根据实际应用场景下的需求自定设定，此处不做具体限定。

在传统单独基于产品文章标题来确定产品标题核心词的方案基础上，本公开实施例提供的产品标题核心词提取方法还充分结合了体现用户搜索习惯的产品查询词，借助存在输入选择关系的产品查询词和产品文章标题的历史语料中分别提取出初始查询核心词和初始标题核心词，最后借助两者之间的词向量距离来进一步的确定出与产品文章标题对应的目标标题核心词，不仅充分体现了用户的搜索习惯，也可以指导后续产品文章标题的设置来借此提升被用户查询词的命中几率。

请参考图3，图3为本公开实施例提供的一种提取初始核心词的方法的流程图，即针对图2所示的流程200中的步骤202提供了一种具体的实现方式，流程200中的其它步骤并不做调整，也将本实施例所提供的具体实现方式以替换步骤202的方式得到一个新的完整实施例。其中流程300包括以下步骤：

步骤301：将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量；

本步骤旨在由执行主体将存在输入选择关系的产品查询词和产品文章标题进行向量化转换，以将其转换为较好被计算机理解的向量形式。

具体的，本步骤所提供的向量化转换操作可通过多种手段得以实现，例如通过预先设定的文本—向量转换关系来进行转换，也可以借助可实现特征提取效果的模型来实现向量化的转换，例如BERT(Bidirectional Encoder Representations fromTransformers，中文名可直译为来自编码器的双向编码器表示)模型，也可以借助其它经典的卷积神经网络、循环神经网络等。

步骤302：对查询词向量和标题向量分别进行语义识别，对应得到查询词语义和标题语义；

在步骤301的基础上，本步骤旨在由上述执行主体对查询词向量和标题向量分别进行语义识别，得到查询词语义和标题语义。得以从语义层面更好的理解中文文本的句子和词，可用于指导后续的分词。

步骤303：基于查询词语义、标题语义、不同字之间的紧密度，对相应的产品查询词和产品文章标题进行分词，得到查询词分词结果和标题分词结果；

在步骤302的基础上，本步骤旨在由上述执行主体基于语义、产品查询词和产品文章标题中不同字之间的紧密度，对相应的产品查询词和产品文章标题进行分词，得到查询词分词结果和标题分词结果。

其中，不同字之间的紧密度也是一种用于确定哪些字应当共同组成一个不可分割的词，来指导准确的分词。

步骤304：根据查询词分词结果确定初始查询核心词、根据标题分词结果确定初始标题核心词。

在步骤303的基础上，本步骤旨在由上述执行主体根据查询词分词结果确定初始查询核心词、根据标题分词结果确定初始标题核心词。

具体的，分词结果用于指导如何进行分词，可根据实际情况表现为不同形式，例如分词结果指示了可进行分词的分词点或分词位置，或者直接指出了不可分词的位置等。

本实施例先通过向量化转换操作将不便于计算机处理的文本形式转换为便于计算机处理的向量形式，接着又结合语义分析来更好的理解产品查询词和产品文章标题所表达的含义，最后通过结合语义和不同字之间的紧密度来准确的指导分词，最终得到较准确的初始核心词。

在上述实施例的基础上，本公开还通过图4提供了另一种提取初始核心词的方法，以进一步的提升初始核心词提取的准确性，流程400包括：

步骤401：对存在输入选择关系的产品查询词和产品文章标题中的名词进行首字符和非首字符的标注；

本步骤旨在由上述执行主体对存在输入选择关系的产品查询词和产品文章标题中的名词进行首字符和非首字符的标注，以其通过对名词进行首字符和非首字符的标注来帮助后续核心词的提取效果，避免提取出错误的名词。

具体的，一个词首字符和非首字符的标注可采用多种方式，例如BIO表示法，BIO表示法是一种将名词或名词短语的首个字符标注为B、非首个字符标注为I、不同名词之间的连接部分标注为O的标注法，也可以换用其它能够起到类似效果的标注方式。

步骤402：将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量；

步骤403：利用长短期记忆网络对查询词向量和标题向量分别进行语义识别，对应得到查询词语义和标题语义；

区别于流程300中的步骤302，本实施例在本步骤中具体使用了长短期记忆网络(LSTM，Long Short-Term Memory)来进行语义识别，以充分借助长短期记忆网络相比于其它网络所具有的特性，提升其对长句(一般将超过10个汉字的句子定义为长句)的产品文章标题的语义识别能力。

步骤404：利用预设的条件随机场模型和查询词语义，确定对应的产品查询词中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品查询词的名词标注结果确定第一分词点；

步骤405：利用预设的条件随机场模型和标题语义，确定对应的产品文章标题中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品文章标题的名词标注结果确定第二分词点；

在步骤403的基础上，步骤404和步骤405旨在由上述执行主体利用预设的条件随机场模型结合确定出的语义，来分别确定产品查询词和产品文章标题中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品查询词和相同产品文章标题的名词标注结果(即步骤401进行的标注)共同确定出分词点。

之所以在步骤401提供了名词标注结果的基础上，还结合了条件随机场模型，是因为步骤401进行的名词标注通常是由人工手动进行的，不免出现误标注、理解错误等问题，因此条件随机场模型结合语义确定出的紧密度参数相当于从另一个角度对人工标注结果进行了检验，以提升最终确定出的分词点的准确性。

步骤406：按第一分词点对相应的产品查询词进行分词得到查询词分词结果、按第二分词点对相应的产品文章标题进行分词，得到标题分词结果；

步骤407：根据查询词分词结果确定初始查询核心词、根据标题分词结果确定初始标题核心词。

需要说明的是，构成本实施例的步骤401与步骤405并不一定要搭配存在，即一个实施例中可以仅包含步骤401所提供的事先标注方案，也可以仅包含步骤405提供的事后检验方案，另外，步骤403所提供的语义识别方式也可以单独结合流程300形成新的实施例，本实施例仅作为一个同时包含三个优选方案的优选实施例存在，以借助一前一后的技术组合来进一步的提升分词准确性，借助长短期记忆网络来提升对长句的语义识别准确性。

请参考图5，图5为本公开实施例提供的一种基于词向量距离确定目标标题核心词的方法的流程图，即针对图2所示的流程200中的步骤204提供了一种具体的实现方式，流程200中的其它步骤并不做调整，也将本实施例所提供的具体实现方式以替换步骤204的方式得到一个新的完整实施例。其中流程500包括以下步骤：

步骤501：确定初始查询核心词和初始标题核心词之间的词向量距离；

本步骤与流程200中的步骤203一致，此处不再重复赘述。

步骤502：判断词向量距离是否大于预设阈值，若是，执行步骤503，否则执行步骤504；

步骤503：将初始查询核心词与初始标题核心词的去重结果，作为与产品文章标题对应的目标标题核心词；

本步骤建立在步骤502的判断结果为词向量距离大于预设阈值的基础上，说明该初始查询核心词与该初始标题核心词之间的相似程度较高，说明用户的搜索习惯与产品文章标题的命名方式也较为近似，因此本步骤将初始查询核心词与初始标题核心词的去重结果作为与产品文章标题对应的目标标题核心词。即去重结果保留了初始查询核心词与初始标题核心词中的相同部分、去除了不同部分，以使目标标题核心词的确定结合了用户的搜索习惯。

步骤504：将初始标题核心词作为与产品文章标题对应的目标标题核心词。

本步骤建立在步骤502的判断结果为词向量距离不大于预设阈值的基础上，说明该初始查询核心词与该初始标题核心词之间的相似程度较低，说明用户的搜索习惯与产品文章标题的命名习惯不太一致，因此初始查询核心词没有什么借鉴意义，从而使得本步骤直接将初始标题核心词作为与产品文章标题对应的目标标题核心词。

在流程200的基础上，本实施例通过步骤502-步骤504具体给出了一种确定目标标题核心词的实现方式，通过基于实际的词向量距离与预设阈值之间的大小比较，在相似度较高的情况下通过去重操作来将符合用户搜索习惯的核心词作为目标标题核心词；在相似度较低的情况下不再参考没有借鉴意义的初始查询核心词，直接将初始标题核心词作为与产品文章标题对应的目标标题核心词，综合了用户的搜索习惯，使得提取出的标题核心词更准确。

在上述任意实施例的基础上，本公开还通过图6提供了一种呈现优先级调整方法的流程图，流程600包括如下步骤：

步骤601：获取包含有新产品查询词的新产品查询请求；

步骤602：确定新产品查询词与备选的各产品文章标题的目标标题核心词之间的实际相似度；

本步骤旨在由执行主体(可以与上述实施例保持一致，也可以换用其它的执行主体，例如换用其它的服务器或者用户持有的用户终端)确定新产品查询词与备选的各产品文章标题的目标标题核心词之间的实际相似度。

即本步骤执行之前，备选的各产品文章标题已经被附有通过上述实施例确定出的目标标题核心词，以便于借助目标标题核心词来接收到新查询请求中与新产品查询词进行相似度比对，进而将相似度比对结果作为新产品查询词与所属产品文章标题之间的相似度结果。

步骤603：根据实际相似度的大小调整各产品文章标题作为产品查询请求的查询结果的呈现优先级。

在步骤602的基础上，本步骤旨在根据实际相似度的大小调整各产品文章标题作为产品查询请求的查询结果的呈现优先级，即实际相似度越大，应当将相应的产品文章标题作为产品查询请求的查询结果的呈现优先级调的越高吗，反之则应调的越低。

本实施例提供了一个如何应用标题核心词提取结果的方案，以借助提取出的目标标题核心词提升用户后续的搜索效率、结果返回准确性。

为加深理解，本公开还结合一个具体应用场景，给出了一种具体的实现方案：

本技术方案主要包括核心词提取模块和提取结果后处理模块，以下将分别对每个模块进行阐述：

核心词提取模块：通过BERT模型对用户查询词和后续所实际点击的产品文章标题进行向量化提取，然后通过LSTM进行进一步的时序提取，来识别语义，最后通过CRF(Conditional Random Field，条件随机场模型)来学习各个字之间的紧密关系，进一步提升核心词提取的效果；

提取结果后处理模块：将用户查询词和用户所点击的产品文章标题的提取结果进行词共同匹配和相关性计算，得到最后的核心词提取结果。

之所以依次采用了BERT模型、LSTM模型、CRF模型来进行核心词提取，是因为产品文章标题大多是由相关用户随意取得、比较随意，与文章内容相关性较低，因此，如果直接对产品文章标题进行核心词提取并基于该核心词进行建库操作，则会导致后面用户在进行内容搜索时找不到相关的文章内容。

其中，BERT模型的使用是因为该模型对文本有较强的向量化表达能力，而LSTM模型的使用则是因为BERT模型同时也具有对文本之间的记忆性有较大的缺陷的问题，因此针对普标表现为长句的产品文章标选择通过LSTM来学习长句中各字、词之间的语义关联；而为了提升核心词提取的准确率，在LSTM学习完文本语义的情况下增加一个字的紧密度限制模型CRF，通过该模型可以使得最后提取出来的核心词尽可能的不会被错误的切分。

同时为了能够更加精确的提取核心词，还可以在输入BERT模型之前增加文本的紧密度特征，以进一步提升模型对核心词提取的准确率，例如将产品查询词和产品文章标题进行切词操作，然后将每个词的开始和结束通过一个标签进行处理，最后和BERT模型的输入embedding一起输入，通过该操作不仅可以更加快速的拟合模型的效果，同时还可以提升核心词提取的准确率。

一个完整的处理方案可以为：

1)分别利用BERT模型将用户查询词和键入查询词后选择文章的标题转换为相应的查询词向量、文章标题向量；

2)利用LSTM模型分别识别出查询词向量、文章标题向量的语义，得到查询词语义和文章标题语义；

3)利用CRF模型和语义对查询词和文章标题进行正确分词，得到查询核心词和标题核心词；

4)分别计算每对查询核心词和标题核心词之间的余弦距离；

5)当距离大于0.8时，将查询核心词和标题核心词进行去重，并将去重结果作为文章标题的核心词提取结果；

6)当距离小于0.8时，将标题核心词作为标题的核心词提取结果。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种产品标题核心词提取装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的产品标题核心词提取装置700可以包括：历史语料获取单元701、初始核心词提取单元702、词向量距离确定单元703、目标标题核心词确定单元704。其中，历史语料获取单元701，被配置成获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；初始核心词提取单元702，被配置成从存在输入选择关系的产品查询词和产品文章标题中，分别提取到初始查询核心词、初始标题核心词；词向量距离确定单元703，被配置成确定初始查询核心词和初始标题核心词之间的词向量距离；目标标题核心词确定单元704，被配置成根据词向量距离、初始查询核心词、初始标题核心词，确定与产品文章标题对应的目标标题核心词。

在本实施例中，产品标题核心词提取装置700中：历史语料获取单元701、初始核心词提取单元702、词向量距离确定单元703、目标标题核心词确定单元704的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，初始核心词提取单元702可以包括：

向量化处理子单元，被配置成将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量；

语义识别子单元，被配置成对查询词向量和标题向量分别进行语义识别，对应得到查询词语义和标题语义；

按紧密度分词子单元，被配置成基于查询词语义、标题语义、不同字之间的紧密度，对相应的产品查询词和产品文章标题进行分词，得到查询词分词结果和标题分词结果；

初始核心词提取子单元，被配置成根据查询词分词结果确定初始查询核心词、根据标题分词结果确定初始标题核心词。

在本实施例的一些可选的实现方式中，语义识别子单元可以被进一步配置成：

响应于产品文章标题的字数超过预设字数，利用长短期记忆网络对查询词向量和标题向量分别进行语义识别。

在本实施例的一些可选的实现方式中，产品标题核心词提取装置700还可以包括：

名词标注单元，被配置成在将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量之前，对存在输入选择关系的产品查询词和产品文章标题中的名词进行首字符和非首字符的标注。

在本实施例的一些可选的实现方式中，按紧密度分词子单元可以被进一步配置成：

利用预设的条件随机场模型和查询词语义，确定对应的产品查询词中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品查询词的名词标注结果确定第一分词点；

利用预设的条件随机场模型和标题语义，确定对应的产品文章标题中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品文章标题的名词标注结果确定第二分词点；

按第一分词点对相应的产品查询词进行分词、按第二分词点对相应的产品文章标题进行分词。

在本实施例的一些可选的实现方式中，词向量距离确定单元703可以被进一步配置成：

计算第一词向量与第二词向量之间的余弦距离。

在本实施例的一些可选的实现方式中，目标标题核心词确定单元704可以被进一步配置成：

响应于词向量距离大于预设阈值，将初始查询核心词与初始标题核心词的去重结果，作为与产品文章标题对应的目标标题核心词；

响应于词向量距离不大于预设阈值，将初始标题核心词作为与产品文章标题对应的目标标题核心词。

新产品查询请求获取单元，被配置成获取包含有新产品查询词的新产品查询请求；

相似度计算单元，被配置成确定新产品查询词与备选的各产品文章标题的目标标题核心词之间的实际相似度；

呈现优先级调整单元，被配置成根据实际相似度的大小调整各产品文章标题作为产品查询请求的查询结果的呈现优先级。

本实施例作为对应于上述方法实施例的装置实施例存在。

在传统单独基于产品文章标题来确定产品标题核心词的方案基础上，本公开实施例提供的产品标题核心词提取装置还充分结合了体现用户搜索习惯的产品查询词，借助存在输入选择关系的产品查询词和产品文章标题的历史语料中分别提取出初始查询核心词和初始标题核心词，最后借助两者之间的词向量距离来进一步的确定出与产品文章标题对应的目标标题核心词，不仅充分体现了用户的搜索习惯，也可以指导后续产品文章标题的设置来借此提升被用户查询词的命中几率。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的产品标题核心词提取方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的产品标题核心词提取方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的产品标题核心词提取方法。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如产品标题核心词提取方法。例如，在一些实施例中，产品标题核心词提取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的产品标题核心词提取方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行产品标题核心词提取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

在传统单独基于产品文章标题来确定产品标题核心词的方案基础上，本公开实施例还充分结合了体现用户搜索习惯的产品查询词，借助存在输入选择关系的产品查询词和产品文章标题的历史语料中分别提取出初始查询核心词和初始标题核心词，最后借助两者之间的词向量距离来进一步的确定出与产品文章标题对应的目标标题核心词，不仅充分体现了用户的搜索习惯，也可以指导后续产品文章标题的设置来借此提升被用户查询词的命中几率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种产品标题核心词提取方法，包括：

获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；

将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量；对所述查询词向量和所述标题向量分别进行语义识别，对应得到查询词语义和标题语义；基于所述查询词语义、所述标题语义、不同字之间的紧密度，对相应的产品查询词和产品文章标题进行分词，得到查询词分词结果和标题分词结果；根据所述查询词分词结果确定初始查询核心词、根据所述标题分词结果确定初始标题核心词；其中，所述输入选择关系为：输入动作与选择动作之间的对应关系，所述输入动作指输入所述产品查询词的动作，所述选择动作指用户在服务器根据作为检索词的产品查询词所返回的备选产品文章标题中将某个产品文章标题选中的动作；

确定所述初始查询核心词和所述初始标题核心词之间的词向量距离；

根据所述词向量距离、所述初始查询核心词、所述初始标题核心词，确定与所述产品文章标题对应的目标标题核心词；

其中，所述根据所述词向量距离、所述初始查询核心词、所述初始标题核心词，确定与所述产品文章标题对应的目标标题核心词，包括：

响应于所述词向量距离大于预设阈值，将所述初始查询核心词与所述初始标题核心词的去重结果，作为与所述产品文章标题对应的目标标题核心词。

2.根据权利要求1所述的方法，其中，所述对所述查询词向量和所述标题向量分别进行语义识别，包括：

响应于所述产品文章标题的字数超过预设字数，利用长短期记忆网络对所述查询词向量和所述标题向量分别进行语义识别。

3.根据权利要求1所述的方法，其中，在将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量之前，还包括：

对存在输入选择关系的产品查询词和产品文章标题中的名词进行首字符和非首字符的标注。

4.根据权利要求3所述的方法，其中，所述基于所述查询词语义、所述标题语义、词之间的关联关系，对相应的产品查询词和产品文章标题进行分词，包括：

利用预设的条件随机场模型和所述查询词语义，确定对应的产品查询词中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品查询词的名词标注结果确定第一分词点；

利用预设的条件随机场模型和所述标题语义，确定对应的产品文章标题中的不同字之间的紧密度，并根据确定出的紧密度和对相同产品文章标题的名词标注结果确定第二分词点；

按所述第一分词点对相应的产品查询词进行分词、按所述第二分词点对相应的产品文章标题进行分词。

5.根据权利要求1所述的方法，其中，所述确定所述初始查询核心词和所述初始标题核心词之间的词向量距离，包括：

确定与所述初始查询核心词对应的第一词向量、与所述初始标题核心词对应的第二词向量；

计算所述第一词向量与所述第二词向量之间的余弦距离。

6.根据权利要求1所述的方法，其中，所述根据所述词向量距离、所述初始查询核心词、所述初始标题核心词，确定与所述产品文章标题对应的目标标题核心词，包括：

响应于所述词向量距离不大于所述预设阈值，将所述初始标题核心词作为与所述产品文章标题对应的目标标题核心词。

7.根据权利要求1-6任一项所述的方法，还包括：

获取包含有新产品查询词的新产品查询请求；

确定所述新产品查询词与备选的各产品文章标题的目标标题核心词之间的实际相似度；

根据所述实际相似度的大小调整各所述产品文章标题作为所述产品查询请求的查询结果的呈现优先级。

8.一种产品标题核心词提取装置，包括：

历史语料获取单元，被配置成获取用户历史输入的产品查询词和在查询结果中选择的产品文章标题；

初始核心词提取单元，包括：向量化处理子单元，被配置成将存在输入选择关系的产品查询词和产品文章标题分别转化为查询词向量和标题向量；语义识别子单元，被配置成对所述查询词向量和所述标题向量分别进行语义识别，对应得到查询词语义和标题语义；按紧密度分词子单元，被配置成基于所述查询词语义、所述标题语义、不同字之间的紧密度，对相应的产品查询词和产品文章标题进行分词，得到查询词分词结果和标题分词结果；初始核心词提取子单元，被配置成根据所述查询词分词结果确定初始查询核心词、根据所述标题分词结果确定初始标题核心词；其中，所述输入选择关系为：输入动作与选择动作之间的对应关系，所述输入动作指输入所述产品查询词的动作，所述选择动作用户指在服务器根据作为检索词的产品查询词所返回的备选产品文章标题中将某个产品文章标题选中的动作；

词向量距离确定单元，被配置成确定所述初始查询核心词和所述初始标题核心词之间的词向量距离；

目标标题核心词确定单元，被配置成根据所述词向量距离、所述初始查询核心词、所述初始标题核心词，确定与所述产品文章标题对应的目标标题核心词；

其中，所述目标标题核心词确定单元包括：

去重处理子单元，被配置成响应于所述词向量距离大于预设阈值，将所述初始查询核心词与所述初始标题核心词的去重结果，作为与所述产品文章标题对应的目标标题核心词。

9.根据权利要求8所述的装置，其中，所述语义识别子单元被进一步配置成：

10.根据权利要求8所述的装置，还包括：

11.根据权利要求10所述的装置，其中，所述按紧密度分词子单元被进一步配置成：

12.根据权利要求8所述的装置，其中，所述词向量距离确定单元被进一步配置成：

计算所述第一词向量与所述第二词向量之间的余弦距离。

13.根据权利要求8所述的装置，其中，所述目标标题核心词确定单元包括：

目标标题核心词确定子单元，被配置成响应于所述词向量距离不大于所述预设阈值，将所述初始标题核心词作为与所述产品文章标题对应的目标标题核心词。

14.根据权利要求8-13任一项所述的装置，还包括：

相似度计算单元，被配置成确定所述新产品查询词与备选的各产品文章标题的目标标题核心词之间的实际相似度；

呈现优先级调整单元，被配置成根据所述实际相似度的大小调整各所述产品文章标题作为所述产品查询请求的查询结果的呈现优先级。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的产品标题核心词提取方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的产品标题核心词提取方法。