CN109271624B

CN109271624B - 一种目标词确定方法、装置及存储介质

Info

Publication number: CN109271624B
Application number: CN201810968091.6A
Authority: CN
Inventors: 林佳涛; 吕远方; 陈琳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2020-05-29
Anticipated expiration: 2038-08-23
Also published as: CN109271624A

Abstract

本申请提供了一种目标词确定方法、装置以及存储介质，其中选择任一备选词，提取所述备选词在待预测文章中的第一特征信息，所述第一特征信息表征所述备选词的属性特征和/或上下文特征；利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系；对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理，根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息。

Description

一种目标词确定方法、装置及存储介质

技术领域

本申请涉及自然语言处理领域，尤其涉及一种目标词确定方法、装置及存储介质。

背景技术

目前，随着移动互联网的快速发展，人们的生活越来越离不开应用程序。根据用户在应用商店对内容的搜索，应用商店不仅可以向用户提供与搜索内容相关的文章，还能够向用户推荐与搜索内容相关度较高的应用程序。在此背景下，基于文本内容的目标词确定方法成为自然语言处理领域中一项越来越受关注的课题。

当前确定文章中目标词的方式主要有基于TextRank的关键词提取方法以及基于命名实体识别的提取方法。通过对TextRank算法了解可知，算法主要考虑的是词窗口的连接关系以及词频，忽略了词的先验信息及上下文信息。该算法无法挖掘低频目标词，也无法处理目标词的歧义性，比如“得到”是一个应用程序的名称，同时在大部分场景时候以动词形式出现，在分析过程中容易被收集为应用程序的名称。这种方法的准确率和召回率都不高。

使用深度学习进行命名实体识别的方法，对文章预测的耗时随着文章的长度增加而不断增加，性能低下，不能满足在线预测要求。对训练集规模要求高(百万级别的句子)，由于包含目标词的文章规模比较小，收集成本很高。

发明内容

本申请实施例提供了一种目标词确定方法、装置及存储介质，能够准确、高效的识别出文章中目标词。

本申请实施例提供了一种目标词的确定方法，包括：

选择任一备选词，提取所述备选词在待预测文章中的第一特征信息，所述第一特征信息表征所述备选词的属性特征和/或上下文特征；

利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系；

对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理，根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息。

本申请实施例提供了一种目标词的确定装置，包括：

提取模块，选择任一备选词，提取所述备选词在待预测文章中的第一特征信息，所述第一特征信息表征所述备选词的属性特征和/或上下文特征；

处理模块，利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系；

分类模块，对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理，根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息。

本申请实施例还提供了一种存储介质，存储有可读指令，可以使至少一个处理器执行上述目标词的确定方法。

通过本申请提供的技术方案可以看出，本申请实例提取待预测文章中的备选词的第一特征信息，并利用备选词的先验信息对第一特征信息进行加工处理，生成备选词的第二特征信息，对备选词的第一特征信息和第二特征信息进行分类处理，当满足预设条件时确定备选词是否为目标词。一方面，由于使用了先验信息和表征备选词的属性特征和/或上下文特征的第一特征信息，大大提高了在待预测文章中提取目标词的准确性，另一方面在对第一特征信息和第二特征信息进行分类处理时的计算过程效率较高，因此，也满足了在线确定待预测文章中的目标词的效率。

附图说明

图1为本申请一些实施例的目标词的确定方法所适用的系统结构示意图；

图2为本申请一些实施例的目标词的确定方法的流程图；

图3为本申请一些实施例的目标词的确定方法的流程图；

图4为本申请一些实施例的为训练分类模型的方法的流程图；

图5为本申请一些实施例的目标词的确定装置的结构示意图；

图6为本申请一些实施例的处理模块的结构示意图；以及

图7为本申请一些实施例的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施例来对本发明的方案进行阐述。实施例中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

本申请的实例提出了一种目标词的确定方法，该方法可以提高在待预测文章中确定目标词的效率和准确率。

图1显示了本申请一些实施例的目标词的确定方法所适用的系统结构示意图。如图1所示，本申请实例的目标词的确定方法所适用的系统至少包括：用户终端11、网络12以及应用服务器13。

在本申请的一些实例中，上述用户终端11可以是个人计算机(PC)、笔记本电脑等智能终端设备，也可以是智能手机、平板电脑等智能移动终端设备。在本申请的一些实例中，在用户终端11上可以安装各种应用程序。在后文的描述中，为了方便描述，将用户终端11上安装的用于确定目标词的应用程序称为目标应用程序14。

网络12可以是无线网络，也可以是有线网络。如图1所示，在接入网一侧，用户终端11是可以有线的方式或无线的方式接入到网络12；而在核心网一侧，应用服务器13一般是通过有线的方式接入网络12。当然，应用服务器13也可以通过无线方式连接到网络12。

应用服务器13为上述目标应用程序14的服务器。应用服务器13与用户终端11一起为用户提供与目标应用程序14相关的服务。上述应用服务器13可以是单独的服务器也可以是多个服务器组成的集群服务器。

下面结合附图，通过几个实施例对本申请实例提供的目标词的确定方法进行说明。

图2示出了本申请实例提供的目标词的确定方法的流程图，由应用服务器13执行。需要说明的是，这里的目标词用于指示与待预测文章相关的应用程序，具体可以是应用程序的名称。如图2所示，该目标词的确定方法包括以下步骤：

步骤201：选择任一备选词，提取所述备选词在待预测文章中的第一特征信息，所述第一特征信息表征所述备选词的属性特征和/或上下文特征。

在一些实例中，上述应用服务器自身维护有词库，该词库中存储有多个应用程序名称作为备选词。该词库可以由应用服务器或其他实体定期或不定期地更新内容。

在一些实例中，从词库中选择所述备选词，当待预测文章中存在与所述备选词相同的词语时，提取所述备选词在所述待预测文章中的第一特征信息。

步骤202：利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到第二特征信息，所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系。

在一些实例中，所述备选词的属性特征至少包括该备选词在所述待预测文章中的位置信息；所述上下文特征至少包括所述备选词所在句子的语义向量；所述先验信息至少包括：所述备选词的语义向量和所述备选词对应的至少一个关键词。

在一些实例中，利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，包括：根据所述备选词在所述待预测文章中的位置信息，确定所述备选词的临近词中存在的所述备选词对应的至少一个关键词，以及每个所述关键词与最接近的所述备选词之间的距离；计算所述备选词的语义向量和所述备选词所在句子的语义向量的相似度；将每个所述关键词与最接近的所述备选词之间的距离以及所述备选词的语义向量和所述备选词所在句子的语义向量的相似度，作为所述第二特征信息。

步骤203：对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理。

在一些实例中，将所述第一特征信息和第二特征信息输入至经预先训练得到目标特征信息的分类模型，计算出所述第一特征信息和第二特征信息与所述目标特征信息的匹配度。

在一些实例中，在训练所述分类模型的过程中，首先获取用于训练所述分类模型的标注文章，并对获取的所述标注文章进行划分领域处理，所述标注文章中的备选词具有至少一个指示所述备选词是否为该标注文章的目标词的标签；从所述标注文章中提取携带所述标签的备选词以及该备选词的第三特征信息；利用所述携带所述标签的备选词的先验信息对该备选词的第三特征信息进行处理，得到所述备选词的第四特征信息；对所述携带所述标签的备选词的第三特征信息和第四特征信息进行分类处理，分别记录所述标签表征肯定结果的备选词对应的第一分类处理结果，以及记录所述标签表征否定结果的备选词对应的第二分类处理结果，将所述第一分类处理结果和所述第二分类处理结果作为所述目标特征信息。

步骤204：根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息。

在一些实例中，当所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度时，确定所述备选词为所述待预测文章的目标词。

在一些实例中，所述备选词具有用于指示所述备选词所属领域的领域标签；在所述对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理之后，将所述备选词的所属领域作为目标领域；对所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度备选词，进行歧义识别处理，以消除歧义；对歧义识别处理后的备选词进行聚类分析，将包括领域标签的备选词所在的聚类分析结果作为目标词所在的聚类分析结果，并从所述聚类分析结果中得到所述领域的目标词。

在一些实例中，在选择任一备选词之后，获取预设数据源；对所述预设数据源进行语义向量分析，得到所述备选词的语义向量；对所述预设数据源进行关键词分析，得到所述备选词对应的至少一个关键词。

在一些实例中，所述目标词为应用程序名称。

本申请实例提供的目标词的确定方法，通过提取待预测文章中的备选词的第一特征信息，并利用备选词的先验信息对第一特征信息进行加工处理，生成备选词的第二特征信息，对备选词的第一特征信息和第二特征信息进行分类处理，当满足预设条件时确定备选词是否为目标词。一方面，由于使用了先验信息和表征备选词的属性特征和/或上下文特征的第一特征信息，大大提高了在待预测文章中提取目标词的准确性，另一方面在对第一特征信息和第二特征信息进行分类处理时的计算过程效率较高，因此，也满足了在线确定待预测文章中的目标词的效率。

下面结合附图详细介绍，本申请实例提出的目标词的确定方法，该方可以由应用服务器执行。图3为本申请实例的目标词的确定方法的流程图。如图3所示，该方法包括以下步骤：

步骤301：获取待预测文章。

在一些实例中，所述目标词用于指示与所述待预测文章相关的应用程序，具体而言，目标词可以是应用程序的名称，例如手机app名称等。用户自身并不清楚应用程序的确切名称，而只是知道自身的需求。因此，当用户根据自身需求在目标应用程序比如应用商店中输入需要搜索的内容、寻找哪些文章中提到了与该需求匹配的相关app名称时，目标应用程序对应的应用服务器可以根据用户输入的内容，比如“如何快速瘦身？”、“云南旅游攻略”等，检索出一些关于该内容的文章，这些检索出来的文章为上述待预测文章，以供后续提取出符合用户需求的目标词。

步骤302：从词库中选择任一备选词。

步骤303：获取备选词的先验信息。

在一些实例中，所述备选词的先验信息包括：备选词的语义向量和该备选词对应的至少一个关键词。

在一些实例中，在获取备选词的先验信息时，可以执行步骤3031～步骤3033的操作：

步骤3031：获取预设数据源。

具体的，上述数据源可以预先设定，每个数据源可以包括多个客观权威的子数据源，比如可以包括百度百科中的数据、应用商店中应用程序的描述信息以及人工筛选出的重点文章，等等。

步骤3032：对预设数据源进行语义向量分析，得到所述备选词的语义向量。

在获取备选词的语义向量时，应用服务器通过第一预设算法，对上述各个子数据源进行语义向量分析，得到上述备选词的一个512维的语义向量，得到的备选词的语义向量可以代表备选词在对应子数据源中的语义，其中，上述第一预设算法可以为doc2vec(document to vector)，可以将文本的符号表示转换为语义空间中的向量。

这里，上述应用商店中应用程序的描述信息可以为在应用商店中发布或更新应用程序时，所提供的对该应用程序的描述信息，比如该应用程序的发行商、版本号、下载次数、功能或内容简介以及评论等等。

步骤3033：对所述预设数据源进行关键词分析，得到所述备选词对应的至少一个关键词。

在一些实例中，在获取上述备选词对应的至少一个关键词时，上述应用服务器可以利用第二预设算法对上述各个子数据源进行分析，提取出一个或多个关键词作为上述备选词对应的至少一个关键词。这里，上述备选词对应的至少一个关键词为与上述备选词相关的词，例如可以为描述上述备选词所代表的应用程序的操作方法的词，等等。

具体的，在获取上述备选词对应的至少一个关键词时，上述应用服务器可以利用TextRank算法，对上述各个自数据源中的文本按照完整的句子进行分割；对分割得到的每个句子进行词性分析以及分词标注处理，过滤掉停用词，只保留指定词性的词语，如名词、动词、形容词，来作为候选关键词；以保留的候选关键词为节点，以候选关键词的共现关系作为边，构建候选关键词图；根据TextRank公式迭代计算各个候选关键词的权重，直至收敛；对各个候选关键词的权重进行排序，从而得到最重要的X个候选关键词，其中X≥1；查询应用程序名称词典，对X个候选关键词进行标记并过滤，得到N个关键词，其中N≤X，并将N个关键词作为上述备选词对应的关键词。

步骤304：当待预测文章中存在与所述备选词相同的词语时，从所述待预测文章中提取所述备选词的第一特征信息，所述第一特征信息表征所述备选词的属性特征和/或上下文特征。

在一些实例中，上述备选词的属性特征包括该备选词在所述待预测文章中的位置信息；更进一步的，上述备选词的属性特征还可以进一步包括上述备选词的词频，其中，上述备选词的词频，指示所述备选词在所述待预测文章中的出现次数。

在一些实例中，上述备选词的上下文特征包括上述备选词所在句子的语义向量；更进一步的，上述备选词的上下文特征还可以进一步包括上述备选词的临近词的词性，其中，上述临近词为上述备选词前后各M个词，即临近词共包括2M个词。

具体的，在提取上述备选词的属性特征时，上述应用服务器先确定上述备选词在上述待预测文章中的位置信息，再统计出上述备选词在上述待预测文章中出现的次数，并将确定的上述备选词的位置信息以及出现次数作为上述备选词的属性特征。更进一步的，上述应用服务器还可以进一步确定出上述备选词所代表的应用程序的发行方、下载次数及其在待预测文章中出现的位置，并将其作为上述备选词的属性特征。

具体的，在提取上述备选词的上下文特征时，上述应用服务器在确定上述备选词在上述待预测文章中的位置信息后，获取上述备选词出现时所在的各个句子，并提取上述备选词所在的句子的语义向量，并将这些句子各自的语义向量作为上述备选词的上下文特征。这里，可以使用上述第一预设算法来提取上述备选词所在的句子的语义向量。更进一步的，上述应用服务器在确定上述备选词在上述待预测文章中出现的位置后，还可以获取上述备选词的临近词的词性，并将获取的上述备选词的临近词的词性作为上述备选词的上下文特征，也即还可以获取上述备选词前后M个词的词性，并将获取的上述备选词前后M个词的词性作为上述备选词的上下文特征。

步骤305：利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，所述第二特征信息表征了所述备选词的所述先验信息与所述第一特征信息的关联关系。

在一些实例中，在上述应用服务器对提取的上述第一特征信息进行处理时，可执行步骤3051～步骤3053的操作：

步骤3051：根据所述备选词在所述待预测文章中的位置信息，确定每个出现位置处所述备选词的临近词中存在的所述备选词对应的关键词，以及每个所述关键词与位置上最接近的所述备选词之间的距离。

具体的，上述应用服务器根据所述备选词在所述待预测文章中的位置信息，确定上述备选词的临近词比如前后各100个词中是否存在上述备选词对应的关键词，如果存在，则依次确定每个上述关键词与其位置上最接近的上述备选词之间的距离，上述距离也即上述关键词和与其位置上最接近的上述备选词之间间隔的字的个数。

步骤3052：计算所述备选词的语义向量和所述备选词所在句子的语义向量的相似度。

在一些实例中，上述应用服务器计算上述备选词的语义向量和上述备选词所在句子的语义向量的距离，并将该距离作为二者的相似度，其中，上述距离可以是余弦距离，也可以是欧式距离。更进一步的，上述备选词的语义向量是可以代表上述备选词的本义，因此，如果得到的二者的相似度大于相似阈值，也即上述备选词在上述待预测文章中所在的句子代表上述备选词的本义，而不是应用程序的名称，也就说明上述备选词所在句子的语义向量对应的备选词不是目标词。

例如，上述备选词的语义向量为F_A＝{f_A1，f_A2，…，f_AS}，上述备选词所在句子的语义向量为F_B＝{f_B1，f_B2，…，f_BS}，S为语义向量F_A和语义向量F_B的长度，语义向量F_A和F_B的长度可以为512，则可以根据余弦距离或欧式距离的公式计算出上述语义向量F_A和语义向量F_B的相似度。

例如，可以采用欧式距离公式来计算上述语义向量F_A和语义向量F_B的相似度：

当然，也可以采用余弦距离公式来计算上述语义向量F_A和语义向量F_B的相似度：

其中，θ为语义向量F_A和语义向量F_B的夹角。

步骤3053：将每个所述关键词与位置上最接近的所述备选词之间的距离以及所述备选词的语义向量和所述备选词所在句子的语义向量的相似度，作为所述第二特征信息。

步骤306：将所述备选词的所述第一特征信息以及所述第二特征信息输入至经预先训练得到所述目标特征信息的分类模型。

在一些实例中，上述分类模型可以是基于神经网络的分类模型，该分类模型连接一个分类器，比如Random Forrest分类器。从用于训练的标注文章中提取出用于训练上述分类模型的备选词的第一特征信息和第二特征信息，将用于训练上述分类模型的备选词的第一特征信息和第二特征信息输入上述分类模型，进而使上述分类模型学习得到上述目标特征信息，以使其后续可以分类识别备选词是否为目标词。

其中，所述目标特征信息为指示所述备选词是否为目标词的特征信息，是训练后的分类模型记录的所述属性标签表征肯定结果的备选词对应的第一分类处理结果，以及记录所述属性标签表征否定结果的备选词对应的第二分类处理结果，也即上述目标特征信息是在对上述分类模型训练的过程中，分类模型学习到的上述备选词是目标词时的特征序列的特征信息和上述备选词不是目标词时的特征序列的特征信息。

关于训练上述分类模型的方法，下文中会详细描述，这里不再赘述。

步骤307：当所述第一特征信息和所述第二特征信息与所述目标特征信息中的第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述目标特征信息中的所述第二分类处理结果的匹配度时，对于所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度的备选词，进行歧义识别处理，以消除歧义。

在一些实例中，在将所述第一特征信息和第二特征信息输入至经预先训练得到所述目标特征信息的分类模型之后，上述分类模型计算出所述第一特征信息和第二特征信息与所述目标特征信息的匹配度，当所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度时，确定所述备选词为所述待预测文章的目标词。

在一些实例中，根据所述备选目标词在所述待预测文章中前后N个词的词性，基于制约的歧义消解方法，对得到的所述目标词的候选集进行歧义识别处理。上述基于制约的歧义消解方法就是利用句法、语义制约条件，排除不能满足制约条件的结构，从而达到歧义消解的目的。

例如，针对备选词“得到”，上述备选词前后的词为“英雄得到一把宝剑”，可以看出，上述备选词“得到”前面的词的词性为名词，后面的词的词性为量词和名词，因此，这里的“得到”不是应用程序的名称，而是一个动词，代表其本来的意思。

步骤308：对歧义识别处理后的备选词的进行聚类分析，将包括领域标签的备选词所在的聚类分析结果作为目标词所在的聚类分析结果，并从所述聚类分析结果中得到所述领域的目标词。

在一些实例中，所述备选词还可以进一步包括用于指示所述备选词所属的领域的领域标签。具体的，如前所述，上述应用服务器自身维护一个词库，该词库中存储有多个应用程序名称作为备选词，在存储时，根据各个备选词所代表的应用程序所属的领域，对这些备选词进行领域划分，并分别为其生成领域标签。

在一些实例中，上述应用服务器将所述备选词的所属领域作为目标领域；由于上述应用服务器消除歧义的上述备选词的候选集中的各个备选词所述第一特征信息和所述第二特征信息与目标特征信息的匹配度大于或等于预设阈值，也即上述备选词的候选集中的各个备选词是目标词的概率大于或等于预设阈值，使用K-means聚类方法对上述备选词的候选集中的各个备选词进行聚类分析，得到K个类，每个类对应一个领域，将所述备选词所在的聚类分析结果作为目标词所在的聚类分析结果，并从所述聚类分析结果中得到所述目标领域的所述目标词。

更进一步的，在从所述聚类分析结果中得到所述目标领域的所述目标词之后，还可以对聚类方法的聚类阈值进一步调整，来扩大聚类的范围，进而召回一些第一特征信息和所述第二特征信息与目标特征信息的匹配度小于预设阈值的备选词，也即将一些是目标词的概率大于或等于预设阈值的备选词加入到上述目标词所在的聚类结果中。这样可以提高识别一些冷门的应用程序名称作为的目标词的准确性和召回率。

在一些实例中，上述应用服务器还可以使用其他聚类算法，比如层次聚类方法对消除歧义的上述备选词的候选集中的各个备选词进行聚类分析，得到目标领域的目标词，本申请实例对此不进行具体限定。

通过本申请提供的目标词的确定方法，一方面，由于使用了先验信息和表征备选词的属性特征和/或上下文特征的第一特征信息，大大提高了在待预测文章中提取目标词的准确性，另一方面在对第一特征信息和第二特征信息进行分类处理时的计算过程效率较高，因此，也满足了在线确定待预测文章中的目标词的效率。

前述步骤306中使用了预先训练的分类模型，来对第一特征信息与第二特征信息进行分类处理，以便得到与目标特征信息的匹配度。图4为训练分类模型的方法流程图。如图4所示，该方法包括以下步骤：

步骤401：获取标注文章，所述标注文章包括至少一个指示所述备选词是否为目标词的标签。

在一些实例中，选取不同领域中预设数量的文章作为待标注文章；利用标注模型对所述待标注文章进行分词处理，以标注出所述待标注文章中有可能是应用程序名称的备选词，并生成各个所述备选词在所述待标注文章中的标签，进而生成所述标注文章。

具体的，从各个领域选取预设数量的文章，比如从旅游领域选取2000篇文章，从科技领域选取2000篇文章，并将选取的这些文章作为待标注文章；利用标注模型比如HNN模型(HopfieldNeural Network模型)，对上述待标注文章进行分词处理，标注出上述待标注文章中出现的各个备选词，并确定上述各个备选词是否为目标词，生成上述各个备选词的标签，也即生成指示所述备选词是否为目标词的标签，这种从各个领域选取的、包含的备选词携带有该备选词是否为目标词的标签的文章为标注文章。

更进一步的，为了保证待标注文章中各个备选词的标签的准确性，还可以对上述各个备选词的标签进行人工校验。具体的，根据所述备选词在上述待标注文章中的位置，对上述各个备选词的标签进行人工校验，进而得到所述人工标注文章。

比如，上述待标注文章中出现备选词“得到”，而上述标注模型确定待标注文章中出现的一些备选词“得到”不是目标词，也即不是应用程序名称，为其生成的标签为“否”；若标注模型确定待标注文章中出现的另一些备选词“得到”是应用程序名称，则为它们生成标签为“是”。而在人工校验的过程中，发现某个标签为“否”的备选词“得到”实际是一个应用程序的名称，因此将上述备选词“得到”的标签修改为“是”，也即表征备选词“得到”是目标词。

步骤402：从所述标注文章中提取携带所述标签的备选词以及该备选词的第三特征信息。

步骤403：利用所述携带所述标签的备选词的先验信息对该备选词的第三特征信息进行处理，得到所述备选词的第四特征信息。

步骤404：对所述携带所述标签的备选词的第三特征信息和第四特征信息进行分类处理。

在一些实例中，将所述携带所述标签的备选词的第三特征信息和第四特征信息输入至经预先训练得到所述目标特征信息的分类模型。由于上述标注文章中的每一个备选词携带对应的标签，用于指示该备选词是否为目标词，因此，输入的该备选词的第三特征信息和第四特征信息也间接的携带有上述备选词的标签。

这里，上述标签可以为“1”或“0”，“1”用于表示肯定结果，也即标识备选词是目标词，“0”用于表示否定结果，也即表示备选词不是目标词。

具体的，可以将携带所述标签的备选词的上述第三特征信息和上述第四特征信息作为携带所述标签的备选词的一个特征序列，输入值上述分类模型。

不失一般性的假设，输入的特征序列的格式可以如下：

备选词1 标签1 特征序列1

备选词2 标签2 特征序列2

……

在一些实例中，当上述分类模型接收到输入的第三特征信息和第四特征信息组成的特征序列后，会学习具有表示肯定的标签的备选词的特征序列的特征以及表示否定的标签的备选词的特征序列的特征，并将学习的具有表示肯定的标签的备选词的特征序列的特征信息作为第一分类结果，将学习的表示否定的标签的备选词的特征序列的特征信息作为第二分类结果。

步骤405：分别记录所述标签表征肯定结果的备选词对应的第一分类处理结果，以及记录所述标签表征否定结果的备选词对应的第二分类处理结果，并将所述第一分类处理结果和所述第二分类处理结果作为所述目标特征信息。

在一些实例中，所述目标特征信息为指示所述备选词是否为目标词的特征信息，通过对上述分类模型的训练，上述分类模型记录了所述备选词是目标词时对应的特征序列的特征信息和所述备选词不是目标词时对应的特征序列的特征信息，将其作为上述目标特征信息，也即上述目标特征信息是在对上述分类模型训练的过程中，分类模型学习到的上述备选词是目标词时的特征序列的特征信息和上述备选词不是目标词时的特征序列的特征信息。

在一些实例中，在完成对上述分类模型的训练之后，当输入备选词在待预测文章中的第一特征信息和第二特征信息后，上述分类模型会计算出所述第一特征信息和第二特征信息与所述目标特征信息的匹配概率，并将该匹配概率作为所述第一特征信息和第二特征信息与所述目标特征信息上述匹配度。

本申请实例中，从待预测文章中提取出具有标签的备选词的先验信息和表征所述备选词的属性特征和/或上下文特征的第一特征信息，对上述分类模型进行训练，该基于文本分类的训练方法的训练规模较低，并且收集数据源的成本较低，同时还可以达到准确高效，完全满足了在线识别待预测文章中的目标词的需求。

对应以上目标词的确定方法，本申请还提供了实现上述方法的确定装置500。图5示出了一实施例中的目标词的确定装置500的结构图。如图5所示，该确定装置500包括：提取模块501、处理模块502以及分类模块503，其中，各模块的功能如下：

提取模块501，选择任一备选词，提取所述备选词在待预测文章中的第一特征信息，所述第一特征信息表征所述备选词的属性特征和/或上下文特征；

处理模块502，利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系；

分类模块503，对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理，根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息。

在一些实例中，所述备选词的属性特征包括该备选词在所述待预测文章中的位置信息；所述上下文特征包括所述备选词所在句子的语义向量；所述先验信息包括：所述备选词的语义向量和所述备选词对应的至少一个关键词。

在一些实例中，所述处理模块502，进一步包括确定单元5021、计算单元5022以及结果单元5023，图6为处理模块502的内部结构图，如图6所示，各单元的功能如下：

确定单元5021，根据所述备选词在所述待预测文章中的位置信息，确定所述备选词的临近词中存在的所述备选词对应的至少一个关键词，以及每个所述关键词与最接近的所述备选词之间的距离。

计算单元5022，计算所述备选词的语义向量和所述备选词所在句子的语义向量的相似度；

结果单元5023，将每个所述关键词与最接近的所述备选词之间的距离以及所述备选词的语义向量和所述备选词所在句子的语义向量的相似度，作为所述第二特征信息。

在一些实例中，所述分类模块503，将所述第一特征信息和第二特征信息输入至分类模型，计算出所述第一特征信息和第二特征信息与所述目标特征信息的匹配度。

在一些实例中，在训练分类模型时，所述提取模块501，进一步获取用于训练所述分类模型的标注文章，并对获取的所述标注文章进行划分领域处理，所述标注文章包括至少一个指示所述备选词是否为目标词的标签，其中，所述标签为指示所述备选词在所述标注文章所属领域中是否为目标词的标签；

所述提取模块501，从所述标注文章中提取携带所述标签的备选词以及该备选词的第三特征信息；

所述处理模块502，进一步利用所述携带所述标签的备选词的先验信息对该备选词的第三特征信息进行处理，得到所述备选词的第四特征信息；

所述分类模块503，对所述携带所述标签的备选词的第三特征信息和第四特征信息进行分类处理，记录所述标签表征肯定结果的备选词对应的第一分类处理结果，以及记录所述标签表征否定结果的备选词对应的第二分类处理结果，将所述第一分类处理结果和所述第二分类处理结果作为所述目标特征信息。

在一些实例中，所述分类模块503，当所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度时，确定所述备选词为所述待预测文章的目标词。

在一些实例中，所述目标词的确定装置500，进一步包括：划分模块504，对所获取的标注文章进行划分领域处理；所述标签为：指示所述备选词在所述标注文章所属领域中是否为目标词的标签。

在一些实例中，所述备选词进一步包括用于指示所述备选词所属的领域的领域标签；所述划分模块504，对所述待预测文章进行划分领域处理；对所述第一特征信息和所述第二特征信息与目标特征信息的匹配度大于等于预设阈值的备选词，进行歧义识别处理，以消除歧义；对歧义识别处理后的备选词的进行聚类分析，将包括领域标签的备选词所在的聚类分析结果作为目标词所在的聚类分析结果，并从所述聚类分析结果中得到所述领域的目标词。

在一些实例中，所述目标词的确定装置500，进一步包括：先验分析模块505；所述提取模块501，获取预设数据源；

在利用所述备选词的先验信息对提取的所述第一特征信息进行处理之前，所述先验分析模块505进一步：对所述预设数据源进行语义向量分析，得到所述备选词的语义向量；对所述预设数据源进行关键词分析，得到所述备选词对应的关键词。

图7示出了实现目标词确定方法的确定装置700所在的服务器700的组成结构图。如图7所示，该计算设备包括一个或者多个处理器(CPU)702、通信模块704、存储器706、用户接口710，以及用于互联这些组件的通信总线708。

处理器702可通过通信模块704接收和发送数据以实现网络通信和/或本地通信。

用户接口710包括一个或多个输出设备712，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口710也包括一个或多个输入设备714，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器706可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器706存储处理器702可执行的指令集，包括：

操作系统716，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用718，包括用于实现目标词的确定方法各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图5、图6所示的目标词的确定装置500中的部分或全部单元。各单元或模块501-505中的至少一个模块可以存储有机器可执行指令。处理器702通过执行存储器706中各模块501-505中至少一个模块中的机器可执行指令，进而能够实现上述各模块501-505中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

因此，本申请的一些实例还提供了一种计算机可读存储介质，其上存储有计算机指令，其中，所述计算机指令被处理器执行时实现上述图2-4中所述方法的步骤。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图5和图6中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种目标词的确定方法，其特征在于，包括：

将所述备选词的所述第一特征信息以及所述第二特征信息输入至经训练好的分类模型进行分类处理，根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息，包括：所述经训练的分类模型所学习得到的所述备选词是目标词时的特征序列的特征信息和所述备选词不是目标词时的特征序列的特征信息。

2.根据权利要求1所述的方法，其中，所述选择任一备选词，提取所述备选词在待预测文章中的第一特征信息包括：

从词库中选择所述备选词，当待预测文章中存在与所述备选词相同的词语时，提取所述备选词在所述待预测文章中的第一特征信息。

3.根据权利要求1所述的方法，其中，所述备选词的属性特征包括该备选词在所述待预测文章中的位置信息；

所述上下文特征包括所述备选词所在句子的语义向量；

所述先验信息包括所述备选词的语义向量和所述备选词对应的至少一个关键词；

其中，所述利用所述备选词的先验信息对提取的所述第一特征信息进行处理，得到所述备选词在所述待预测文章中的第二特征信息，包括：

根据所述备选词在所述待预测文章中的位置信息，确定所述备选词的临近词中存在的所述备选词对应的至少一个关键词，以及每个所述关键词与最接近的所述备选词之间的距离；

计算所述备选词的语义向量和所述备选词所在句子的语义向量的相似度；

将每个所述关键词与最接近的所述备选词之间的距离以及所述备选词的语义向量和所述备选词所在句子的语义向量的相似度，作为所述第二特征信息。

4.根据权利要求1所述的方法，其中，所述对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理，包括：

将所述第一特征信息和第二特征信息输入至所述分类模型，计算出所述第一特征信息和第二特征信息与所述目标特征信息的所述匹配度。

5.根据权利要求4所述的方法，其中，进一步包括：

获取用于训练所述分类模型的标注文章，并对获取的所述标注文章进行划分领域处理，所述标注文章包括至少一个指示所述备选词是否为目标词的标签，其中，所述标签为指示所述备选词在所述标注文章所属领域中是否为目标词的标签；

从所述标注文章中提取携带所述标签的备选词以及该备选词的第三特征信息；

利用所述携带所述标签的备选词的先验信息对该备选词的第三特征信息进行处理，得到所述备选词的第四特征信息；

对所述携带所述标签的备选词的第三特征信息和第四特征信息进行分类处理，分别记录所述标签表征肯定结果的备选词对应的第一分类处理结果，以及记录所述标签表征否定结果的备选词对应的第二分类处理结果，将所述第一分类处理结果和所述第二分类处理结果作为所述目标特征信息。

6.根据权利要求5所述的方法，其中，所述根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，包括：

当所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度时，确定所述备选词为所述待预测文章的目标词。

7.根据权利要求5所述的方法，其中，所述备选词具有用于指示所述备选词所属领域的领域标签；

其中，在所述对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理之后，所述方法进一步包括：

将所述备选词的所属领域作为目标领域；

对于所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度的备选词，进行歧义识别处理，以消除歧义；

对歧义识别处理后的备选词进行聚类分析，将所述备选词所在的聚类分析结果作为目标词所在的聚类分析结果，并从所述聚类分析结果中得到所述目标领域的所述目标词。

8.根据权利要求2所述的方法，其中，在选择任一备选词之后，所述方法进一步包括：获取预设数据源；

对所述预设数据源进行语义向量分析，得到所述备选词的语义向量；

对所述预设数据源进行关键词分析，得到所述备选词对应的至少一个关键词。

9.一种目标词的确定装置，其特征在于，包括：

分类模块，将所述备选词的所述第一特征信息以及所述第二特征信息输入至经训练好的分类模型进行分类处理，根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度，确定所述备选词是否为所述待预测文章的目标词，其中，所述目标词用于指示与所述待预测文章相关的应用程序，所述目标特征信息为指示所述备选词是否为目标词的特征信息，包括：所述经训练的分类模型所学习得到的所述备选词是目标词时的特征序列的特征信息和所述备选词不是目标词时的特征序列的特征信息。

10.根据权利要求9所述的装置，其中，所述备选词的属性特征包括该备选词在所述待预测文章中的位置信息；

所述上下文特征包括所述备选词所在句子的语义向量；

所述先验信息包括：所述备选词的语义向量和所述备选词对应的至少一个关键词；

其中，所述处理模块，包括：

确定单元，根据所述备选词在所述待预测文章中的位置信息，确定所述备选词的临近词中存在的所述备选词对应的至少一个关键词，以及每个所述关键词与最接近的所述备选词之间的距离；

计算单元，计算所述备选词的语义向量和所述备选词所在句子的语义向量的相似度；

结果单元，将每个所述关键词与最接近的所述备选词之间的距离以及所述备选词的语义向量和所述备选词所在句子的语义向量的相似度，作为所述第二特征信息。

11.根据权利要求9所述的装置，其中，所述分类模块，将所述第一特征信息和第二特征信息输入至所述分类模型，计算出所述第一特征信息和第二特征信息与所述目标特征信息的所述匹配度。

12.根据权利要求11所述的装置，其中，所述提取模块，进一步获取用于训练所述分类模型的标注文章，并对获取的所述标注文章进行划分领域处理，所述标注文章包括至少一个指示所述备选词是否为目标词的标签，其中，所述标签为指示所述备选词在所述标注文章所属领域中是否为目标词的标签；

所述提取模块，从所述标注文章中提取携带所述标签的备选词以及该备选词的第三特征信息；

所述处理模块，进一步利用所述携带所述标签的备选词的先验信息对该备选词的第三特征信息进行处理，得到所述备选词的第四特征信息；

所述分类模块，对所述携带所述标签的备选词的第三特征信息和第四特征信息进行分类处理，记录所述标签表征肯定结果的备选词对应的第一分类处理结果，以及记录所述标签表征否定结果的备选词对应的第二分类处理结果，将所述第一分类处理结果和所述第二分类处理结果作为所述目标特征信息。

13.根据权利要求12所述的装置，其中，所述分类模块，当所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度时，确定所述备选词为所述待预测文章的目标词。

14.根据权利要求12所述的装置，其中，所述备选词具有用于指示所述备选词所属领域的领域标签；

其中，所述装置进一步包括划分模块，将所述备选词的所属领域作为目标领域；

对所述待预测文章进行划分领域处理；

对所述第一特征信息和所述第二特征信息与目标特征信息的匹配度大于等于预设阈值的备选词，进行歧义识别处理，以消除歧义；

15.一种存储介质，其特征在于，存储有机器可读指令，使至少一个处理器执行如权利要求1-8中任一项所述的方法。

16.一种服务器，其特征在于，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1-8中任一项所述的方法。