CN107577655A

CN107577655A - 名称获取方法和装置

Info

Publication number: CN107577655A
Application number: CN201610522357.5A
Authority: CN
Inventors: 何鑫
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-07-05
Filing date: 2016-07-05
Publication date: 2018-01-12

Abstract

本发明公开了一种名称获取方法和装置。其中，该方法包括：在目标实体词对应的目标网站中提取语料；按照预设特征从语料中提取与所述目标实体词对应的候选名称；根据预设条件在候选名称中筛选出与目标实体词对应的名称。本发明解决了现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的技术问题。

Description

名称获取方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种名称获取方法和装置。

背景技术

随着互联网的不断发展，用户在网络上对产品、影视作品的评价愈发受到了各个企业的关注，例如：企业通常会注意自身的品牌或产品在互联网上是如何被用户评价的，电影发行方也会关注电影在社交媒体上的用户口碑等。对于上述需求，现有技术通常的做法是：将类似于品牌名称或产品名称这样的实体词作为关键词，在互联网中进行检索，找到含有上述实体词的网络文本或用户评论，再对网络文本或用户评论进行分析。

但是由于互联网具有较大灵活性的特点，用户在发表评论或者讨论内容时是基于用户自身出发的，而用户对品牌、产品或作品的称呼并不总是品牌、产品或作品本身的名称，用户通常会以更亲切，或更简洁的别名或昵称来指代评论的对象，这就造成了通过传统的处理逻辑，会遗漏大量的相关问题。因此，识别出在网络中用户对品牌、产品或作品的昵称，便成为进行全面、准确检索的前提。

在现有技术中，获取实体词对应的别名或昵称都依靠人工整理完成，但采用这种方式需要依赖大量的人工和时间，并且，人工整理的结果在全面性上以及面对变化时的响应能力上都是极其有限的。通常是采用人工整理昵称和别名的方式，但是人工的缺点是耗费人工量大，而且别名整理很难保证全。

针对现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种名称获取方法和装置，以至少解决现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的技术问题。

根据本发明实施例的一个方面，提供了一种名称获取方法，包括：在目标实体词对应的目标网站中提取语料；按照预设特征从语料中提取与目标实体词对应的候选名称；根据预设条件在候选名称中筛选出与实体词对应的名称。

进一步地，获取用于提取候选名称的规则模板；在语料中提取与规则模板匹配的语句，其中，与规则模板匹配的语句包括：包含目标实体词的第一语句和不包含目标实体词的第二语句；在第二语句中查找与目标实体词对应的替换词，并使用替换词替换第一语句中的目标实体词；在替换后第一语句的意义不发生改变的情况下，确认第二语句中的名称为候选名称。

进一步地，获取目标实体词出现的语句的上下文信息，其中，上下文信息包括在语句中，出现于目标实体词前的词语和出现于目标实体词后的词语；在语料中统计上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数；在上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认目标实体词出现的语句为规则模板。

进一步地，获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例，其中，不同语料包括目标实体词的语料和其他词的语料；汇总标签信息、分布情况以及比例，得到每个候选名称的得分；将每个候选名称的得分与预设分数比对，确认候选名称集合中得分超过预设分数的候选名称为目标实体词对应的名称。

进一步地，候选名称的词性与目标实体词的词性相同；候选名称在不同语料中出现次数的分布满足预设分布条件；出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例满足预设比例值。

根据本发明实施例的另一方面，还提供了一种名称获取装置，包括：第一提取模块，用于在目标实体词对应的目标网站中提取语料；第二提取模块，用于按照预设特征从语料中提取与目标实体词对应的候选名称；筛选模块，用于根据预设条件在候选名称中筛选出与目标实体词对应的名称。

进一步地，第二提取模块包括：第一获取模块，用于获取用于提取候选名称的规则模板；提取子模块，用于在语料中提取与规则模板匹配的语句，其中，与规则模板匹配的语句包括：包含目标实体词的第一语句和不包含目标实体词的第二语句；查找模块，用于在第二语句中查找与目标实体词对应的替换词，并使用替换词替换第一语句中的目标实体词；第一确认模块，用于在替换后第一语句的意义不发生改变的情况下，确认第二语句中的名称为候选名称。

进一步地，第一获取模块包括：获取子模块，用于获取目标实体词出现的语句的上下文信息，其中，上下文信息包括目标实体词前和目标实体词后的词语个数；统计模块，用于在语料中统计上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数；第二确认模块，用于在上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认目标实体词出现的语句为规则模板。

进一步地，筛选模块包括：第二获取模块，用于获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例，其中，不同语料包括目标实体词的语料和其他词的语料；汇总模块，用于汇总标签信息、分布情况以及比例，得到每个候选名称的得分；比对模块，用于将每个候选名称的得分与预设分数比对，确认候选名称集合中得分超过预设分数的候选名称为目标实体词对应的名称。

进一步地，筛选模块包括：筛选子模块，用于在候选名称中筛选得到满足预设条件的候选名称，其中，预设条件包括如下任意一条或多条：候选名称的词性与目标实体词的词性相同；候选名称在不同语料中出现次数的分布满足预设分布条件；出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例满足预设比例值。

在本发明实施例中，在目标实体词对应的目标网站中提取语料，通过扫描语料，按照预设特征从语料中提取候选名称，根据预设条件在候选名称集合中筛选出与目标实体词对应的名称。上述方案给出机器自动获取实体昵称词语的技术流程，通过预定特征推断候选昵称词，并通过更精确的预设条件从候选名称中确认最终的名称。上述方法不仅实现了机器自动获取名称，节省人工的技术效果，又实现了获取名称的效率高，准确率高以及全面性高的技术效果，并能够满足网络中语料更新速度快的特点，从而解决了现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例一的一种名称获取方法的流程图；

图2是根据本发明实施例二的一种名称获取装置的示意图；

图3是根据本发明实施例二的一种可选的名称获取装置的示意图；

图4是根据本发明实施例二的一种可选的名称获取装置的示意图；

图5是根据本发明实施例二的一种可选的名称获取装置的示意图；以及

图6是根据本发明实施例二的一种可选的名称获取装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

根据本发明实施例，提供了一种名称获取方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例一的一种名称获取方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，在目标实体词对应的目标网站中提取语料。

具体的，在上述步骤中，目标实体词为用户所关心的产品或品牌或其他对象的一种统称，并不包含额外意义，称之为目标实体词是因为通常这些词语具有比较正规的提法，是与昵称或别名相对照的提法。例如，人名“撒贝宁”是实体词，对应的“小撒”是昵称；综艺节目“奔跑吧兄弟”是实体词，对应的“跑男”是昵称，车型名“帕萨特”是实体词，对应的“小帕”是昵称等等，基于上述实体词的意义，而目标实体词可以是待获取与之对应的别名或昵称的实体词。

语料可以是由文本集合构成的语料库，其中，可以使用网络爬虫定向抓取用户发布内容，得到目标实体词对应的语料。

此处需要说明的是，上述目标网站的个数可以是一个或多个，目标网站的个数越多，获得的语料越多，从而获取得到的名词越全面。

步骤S104，按照预设特征从语料中提取与目标实体词对应的候选名称。

在上述步骤中，上述预设特征可以是包含目标实体词的语句所呈现的句式规则等特征，根据预设特征提取得到的候选名称为多个候选名称。

以获取的名称为目标实体词的别名或昵称作为实施例进行说明，作为目标实体词的名词或昵称，获取的名称应该与目标实体词具有相同的含义，即获取的名称和目标实体词出现在同一段语句中，不会产生不同意义，且用户在网络中发表评论时，即会使用目标实体词进行评论，也会使用名词或昵称进行评论，因此按照预设的特征(可以是包含目标实体词的语句的句式规则)在语料中进行提取，能够得到候选名称集合。

步骤S106，根据预设条件在候选名称中筛选出与实体词对应的名称。

仍以上述获取的名称为目标实体词的别名或昵称作为实施例进行说明，按照预设特征(可以是包含目标实体词的语句的句式规则)从语料中提取候选名称后，语料中可能存在与目标实体词意义不同，但符合预设特征的句子，从这样的句子中提取的候选名称并非目标实体词对应的名称，因此还需要以预设条件在上述候选名称中进行筛选，已得到最终的结果。

此处需要说明的是，本发明提出的名称获取方法不限于获取目标实体词对应的别名或昵称，任何获取目标网站中的预设名称均可以应本申请上述实施例提供的方法。

由上可知，本申请上述步骤在目标实体词对应的目标网站中提取语料，通过扫描语料，按照预设特征从语料中提取候选名称集合，根据预设条件在候选名称集合中筛选出与实体词对应的名称。上述方案给出机器自动获取实体昵称词语的技术流程，通过预定特征推断候选昵称词，并通过更精确的预设条件从候选名称中确认最终的名称。上述方法不仅实现了机器自动获取名称，节省人工的技术效果，又实现了获取名称的效率高，准确率高以及全面性高的技术效果，并能够满足网络中语料更新速度快的特点，从而解决了现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的技术问题。

可选的，根据本申请上述实施例，步骤S102，在目标实体词对应的目标网站中提取语料，包括：使用网络爬虫在目标网站中爬取语料；其中，目标网站包括：目标实体词对应的用户原创平台和用于讨论目标实体词的网站。

具体的，在上述用户原创平台可以是用于用户发表原创内容的平台，而非官方平台，使用用户原创平台作为目标网站，能够获取用户直接反馈的信息，对于企业获取对产品、作品的口碑是极为重要的。上述用于讨论目标实体词的网站不限于任意一种网站，论坛、贴吧等能够提供用户自由讨论目标实体词对应的对象的网站均可以作为目标网站。

在一种可选的实施例中，上述目标实体词可以是垂直行业网站下的用户论坛，问答类网站或社交媒体下的特定栏目。例如汽车“帕萨特”，需要定位的抓取网站就是汽车垂直论坛下的“帕萨特”车友讨论平台等。

由上可知，本申请上述步骤提出了获取目标网站的方法，使得获取语料的目标网站是针对目标实体词对应的实体的网站，且是用户可以自由评论的网站，从而能够得到对目标实体词对应的实体更真实贴切的用户评价。

可选的，根据本申请上述步骤，步骤S102，使用网络爬虫在目标网站中爬取语料，包括：

步骤S1021，通过目标实体词所属的类型筛选出于类型对应的目标网站。

具体的，在上述步骤中，目标实体词所属的类型可以是目标实体词所表示的实体所属的种类。

在一种可选的实施例中，在目标实体词为奔跑吧兄弟的情况下，目标实体词所属的类型为真人秀、电视节目、浙江卫视等，奔跑吧兄弟对应的目标网站可以包括真人秀节目的讨论论坛、浙江卫视的官方网站等；在目标实体词为帕萨特的情况下，目标实体词所属的类型为汽车之家、大众汽车等，因此帕萨特对应的目标网站可以是汽车之家、大众汽车官方网站等。

步骤S1023，通过网络爬虫爬取目标网站。

由上可知，本申请上述步骤通过目标实体词所属的类型筛选出于类型对应的目标网站，并通过网络爬虫爬取目标网站。上述方案通过筛选目标实体词对应的目标网站，达到了提高网络爬虫爬取语料的效率的技术效果，并达到了确保目标实体词的语料的全面性和命中率的技术效果。

可选的，根据本申请上述步骤，步骤S104，通过扫描语料，按照预设特征从语料中提取候选名，包括：

步骤S1041，获取用于提取候选名称的规则模板。

具体的，在一种可选的实施例中，获取规则模板的方法可以是，在语料中以标点符号作为分割标识符，在任意两个标识符之间的语句中，如果出现目标实体词，则该语句可以作为规则模板，例如，以“奔跑吧兄弟”作为目标实体词，如果扫描语料得到“我喜欢看奔跑吧兄弟这个节目”，则“我喜欢看<A>这个节目”就可以作为一个规则模板，用于在语料中提取候选名称。

此处需要说明的是，获取语句的上下文信息的方式有很多中，可以是上述实施例提供的方式，但不限于上市实施例提供的方式。

步骤S1043，在语料中提取与规则模板匹配的语句，其中，与规则模板匹配的语句包括：包含目标实体词的第一语句和不包含目标实体词的第二语句。

在上述步骤中，提取语料中与规则模板匹配的语句的方法可以是，提取与上述规则模板表达方式相同的语句，其中，可以通过比对语句与上述规则模板的上下文信息来进行提取。

此处需要说明的是，获取语句上下文信息的方法可以是，获取目标实体词出现位置的前后各n个词语，其中，n越大，所表达的语义越明确。在一种可选的实施例中，以上述规则模板为“我喜欢看<A>这个节目”作为示例，该规则模板的上下文信息为“我喜欢看”以及“这个节目”，在扫描语料时，获取到上下文信息为“我喜欢看”以及“这个节目”的语句，作为与规则模板匹配的语句。

但是在语料中获取得到的与规则模板匹配的语句，例如，仍以规则模板为“我喜欢看<A>这个节目”作为示例，获取得到的与规则模板匹配的语句还可能包括“我喜欢看跑男这个节目”、“我喜欢看快乐大本营这个节目”等语句，因此，与规则模板匹配的语句就能够被分为例如“我喜欢看跑男这个节目”的包含实体词的第一语句，以及例如“我喜欢看快乐大本营这个节目”的包含实体词的第二语句。

步骤S1045，在第二语句中查找与目标实体词对应的替换词，并使用替换词替换第一语句中的目标实体词。

在一种可选的实施例中，仍以规则模板为“我喜欢看<A>这个节目”作为示例，以上述规则模板进行匹配后，能够得到多个符合“我喜欢看<A>这个节目”这个规则模板的语句，在与上述规则模板匹配的多个语句中，均包含“我喜欢看”、“这个节目”以及占位符<A>这几个部分，第二语句中与占位符<A>对应的部分则为替换词。

步骤S1047，在替换后所述第一语句的意义不发生改变的情况下，确认所述第二语句中的名称为所述候选名称。

具体的，上述替换词可以是与规则模板匹配的语句中，除去上下文信息之外的词，以规则模板为“我喜欢看<A>这个节目”作为示例，替换词可以是对应<A>部分的词。

在一种可选的实施例中，仍以规则模板为“我喜欢看<A>这个节目”作为示例，获取得到的与规则模板匹配的语句还可能包括“我喜欢看跑男这个节目”、“我喜欢看焦点访谈这个节目”等语句，由于在将规则模板中的<A>替换为跑男时，替换后的语句并未发生意义上的改变，则可以认为“跑男”为“奔跑吧兄弟”的候选名称，而在将规则模板中的<A>替换为“焦点访谈”时，替换后的语句发生了意义上的改变，可以认为“焦点访谈”并非“奔跑吧兄弟”的候选名称，也即“焦点访谈”并非最终需要获取的名词。

其中，可以通过如下方法判断将<A>替换为替换词后，语句的意义是否发生变化。在一种可选的实施例中，判断将<A>替换为替换词后，语句的意义是否发生变化的步骤可以包括：

a.系统提前获取多个已知判断结果的第二语句。

其中，多个第二语句中既包括使用替换词替换第一语句中的<A>后，第一语句意义不变的语句，也包括使用第二语句中的替换词替换第一语句中的<A>后，第一语句意义发生改变的语句，且获取的两种语句在系统获取的全部语句中符合均匀分布。

b.系统对获取到的多个第二语句进行训练，得到多个有效特征。

系统输入多个已知判断结果的第二语句，并提取多个已知判断结果的第二语句的替换词特征，其中，替换词特征可以包括替换词的词性、替换词的标签等。

然后对多个已知判断结果的第二语句的替换词的特征进行学习，学习过程可以是，输入替换词，得到替换词的特征，训练系统根据替换词特征得到与第二语句的判断结果，在训练完成后，还可以对系统的训练结果进行验证，即重新输入替换词，查看系统的输出的判断结果是否与替换词所属的第二语句的判断结果相同，如果相同，则训练完，如果不相同，继续对该替换词进行训练，直至系统输出的训练结果与替换词所属的第二语句的判断结果相同。

最后将经过训练的替换词的特征作为有效特征。

c.系统将第二语句的替换词的特征与上述多个有效特征进行比对，得到判断结果。

仍以规则模板为“我喜欢看<A>这个节目”作为示例，获取得到的与规则模板匹配的语句包括“我喜欢看跑男这个节目”、“我喜欢看焦点访谈这个节目”等语句，其中，奔跑吧兄弟的有效特征为“娱乐节目”、“浙江卫视”，跑男的有效特征为“娱乐节目”、“浙江卫视”，而“焦点访谈”的有效特征为“中央卫视”、“追踪报道”，由此可见，跑男的有效特征与奔跑吧兄弟的有效特征相同，而焦点访谈的有效特征与奔跑吧兄弟的有效特征不相同，因此可以得到判断结果为：将<A>替换为跑男后，第一语句的意义没有发生变化，而将<A>替换为焦点访谈后，第一语句的意义发生了变化。

此处需要说明的是，判断语句意义是否相同的方法可以是上述实施例提供的判断语句意义是否相同的方法，但不限于上述方法。

由上可知，本申请上述步骤获取用于提取候选名称的规则模板，提取语料中与规则模板匹配的语句，使用第二语句中的替换词替换第一语句中的实体词，在替换后第一语句的意义不发生改变的情况下，确认第二语句中的名称为候选名称，上述步骤通过扫描语料，可以得到目标实体词对应的若干候选名称，候选名称中包含了目标实体词对应的名称，达到了初步获取目标实体词对应的名称的技术效果。

可选的，根据本申请上述步骤，获取用于提取候选名称的规则模板，包括：

步骤S10411，获取目标实体词出现的语句的上下文信息，其中，上下文信息包括在语句中，出现于目标实体词前的词语和出现于目标实体词后的词语。

此处需要说明的是，获取语句上下文信息的方法可以是，获取目标实体词出现位置的前后各n个词语，其中，n越大，所表达的语义越明确。在一种可选的实施例中，以上述规则模板为“我喜欢看<A>这个节目”作为示例，该语句的上下文信息为“我喜欢看”以及“这个节目”。

步骤S10413，在语料中统计上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数。

在一种可选的实施例中，以上下文信息为“我喜欢看”以及“这个节目”为例，统计上下文信息为“我喜欢看”以及“这个节目”的语句在语料中出现的次数。

步骤S10415，在上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认目标实体词出现的语句为规则模板。

在上述步骤中，扫描语料时，系统统计每种与上下文信息相同的语句出现的次数，并以一定阈值进行过滤，只保留出现次数较多的上下文语句，作为规则模板。

在一种可选的实施例中，仍以上下文信息为“我喜欢看”以及“这个节目”为例，假设预设阈值为3，则与上述上下文信息匹配的语句出现的次数超过3，则由该上下文信息构成的语句为规则模板。

此处需要说明的是，上述实施例提供的规则模板获取方法仅为一种可选的规则模板获取方法，获取规则模板可以使用上述实施例提供的方法，并不限于上述实施例提供的方法。

由上可知，本申请上述步骤获取实体词出现的语句的上下文信息，在语料中统计与上下文信息相同的语句出现的次数，当上下文信息相同的语句出现的次数超过预设阈值时，确认实体词出现的语句为规则模板。上述方案在得到与上下文信息相同的语句后，根据上述语句出现的次数进行筛选，实现了得到有效规则模板的技术目的。

由上述实施例可知，候选名称可以是目标实体词对应的名称，也可能是与目标实体词代表的相同类型实习的名称，即还有可能是目标实体的同义词或其他词语，因此，根据上述实施例，获取名称的方法还可以包括如下步骤：

步骤S1061，根据计算得到的候选名称集合中每个候选名称的得分，筛选出目标实体词对应的名称。

步骤S1063，根据预设的一个或多个条件对在候选名称集合中筛选得到目标实体词对应的名称。

此处需要说明的是，在通过上述步骤得到与目标实体词对应的名称后，可以将名称添加到与目标实体词对应的关系列表中，以便后期抓取使用。

由上可知，本申请上述步骤，根据计算得到的候选名称集合中每个候选名称的得分，筛选出实体词对应的名称，根据预设的一个或多个条件对在候选名称集合中筛选得到实体词对应的名称。因为目标实体词与目标实体词对应的名称是完全同质的词语，因此，两个词语的各个方面都是一致的，可以使用相同的语句表达方式仅是其中的一个方面。如果候选名称不是目标实体词对应的名称，虽然在语句表达方式上相同，但其他方面势必会出现差异。上述步骤就是通过对候选名称的其他方面进行考量，判断候选名称与目标实体词的一致性，最终确认与目标对象对应的名称。

可选的，根据预设条件在候选名称中筛选出与目标实体词对应的名称，包括：

步骤S10611，获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例，其中，不同语料包括目标实体词的语料和其他词的语料。

具体的，在上述步骤中，名称的标签信息可以是名称的词性，名称本身的特征可以主要从两个方面进行比较，第一个方面是名称本身的标签信息，另一方面是名称的统计信息，包括：名称在当前语料集合中出现在句式表达中与未出现在句式表达中的次数，以及名称在当前语料与其他语料中出现的次数的分布情况等。

在一种可选的实施例中，以目标实体词为“帕萨特”，候选名称为“小帕”、“桑塔纳”作为示例，表一为出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数，结合表一所示，由于是帕萨特的论坛，所以用户总提及本车型的次数多于其他车型的次数，并且与目标实体词使用相同句式表达的机会(比例)也会更大。候选名称“小帕”出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例为9:1，候选名称“桑塔纳”出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例为1:1。

表一

	小帕	桑塔纳
			出现第二语句中	90	10
未出现在第二语句中	10	10
			总计	100	20

表二为每个候选名称在不同语料中出现次数的分布情况，结合表二所示，候选名称“小帕”出现于帕萨特论坛100次，出现于桑塔纳论坛10次，出现于途观论坛10次，候选名称“桑塔纳”出现于帕萨特论坛20次，出现于桑塔纳论坛100次，出现于途观论坛10次。

表二

	小帕	桑塔纳
			帕萨特论坛	100	20
桑塔纳论坛	10	100
			途观论坛	10	10

步骤S10613，汇总标签信息、分布情况以及比例，得到每个候选名称的得分。

在上述步骤中，汇总标签信息、分布情况以及比例，得到每个候选名称的得分的方法可以是，获取汇总标签信息、分布情况以及比例相对应的得分，汇总标签信息、分布情况以及比例在筛选目标实体词对应的名称的过程中的权重函数，再通过每个变量的得分和权重函数，得到每个候选名称的得分。

在一种可选的实施例中，仍以目标实体词为“帕萨特”，候选名称为“小帕”、“桑塔纳”作为示例，设置汇总标签信息、分布情况以及比例的权重值分别为0.4、0.3、0.3.其中，“小帕”、“桑塔纳”的词性均为名词，因此标签信息的得分均为1分，“小帕”、“桑塔纳”的比例分别为9:1和1:1，因此比例得分分别为0.9和0.1，“小帕”的分布情况为：出现在帕萨特论坛在出现于大众汽车部分论坛中的比例为100:120，“桑塔纳”的分布情况为：出现在帕萨特论坛在出现于大众汽车部分论坛中的比例为20:130，因此“小帕”、“桑塔纳”在分布情况上的得分可以分别为0.83和0.15，结合汇总标签信息、分布情况以及比例的权重值，得到候选名称为“小帕”、“桑塔纳”的最终得分为0.919和0.475。

步骤S10615，将每个候选名称的得分与预设分数比对，确认候选名称集合中得分超过预设分数的候选名称为实体词对应的名称。

在一种可选的实施例中，仍以目标实体词为“帕萨特”，候选名称为“小帕”、“桑塔纳”作为示例，设置预设分数为0.5，则能够得到结果“小帕”为目标实体词帕萨特对应的名称，而“桑塔纳”并非目标实体词帕萨特对应的名称。

由上可知，本申请上述步骤获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例，其中，不同语料包括目标实体词的语料和其他词的语料，汇总标签信息、分布情况以及比例，得到每个候选名称的得分，将每个候选名称的得分与预设分数比对，确认候选名称集合中得分超过预设分数的候选名称为实体词对应的名称。上述方案通过计算候选名称的得分，并根据得分筛选得到目标实体词对应的名称。

可选的，根据预设条件在候选名称中筛选出与目标实体词对应的名称，包括：在候选名称中筛选得到满足预设条件的候选名称，其中，上述预设的一个或多个条件包括：

候选名称的词性与目标实体词的词性相同。

候选名称在不同语料中出现次数的分布满足预设分布条件。

出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例满足预设比例值。

在一种可选的实施例中，仍以目标实体词为“帕萨特”，候选名称为“小帕”、“桑塔纳”作为示例，设置预设的条件为依次满足上述三个条件，预设分布条件为出现在帕萨特论坛在出现于大众汽车部分论坛中的比例超过7:10，预设比例值超过8:10。首先，“小帕”、“桑塔纳”的词性都为名词，都能过满足第一个条件，“小帕”的分布情况为：出现在帕萨特论坛在出现于大众汽车部分论坛中的比例为100:120，“桑塔纳”的分布情况为：出现在帕萨特论坛在出现于大众汽车部分论坛中的比例为20:130，因此“小帕”满足第二个预设条件，“桑塔纳”与第二个预设条件不符，因此“桑塔纳”不为帕萨特对应的名称，对于第三个预设条件，“桑塔纳”的比例分别为9:1，仍然满足第三个预设条件，因此可以认为是“小帕”目标实体词帕萨特对应的名称。

此处需要说明的是，预设条件可以是上述任意一个条件、任意两个条件的组合，或全部上述三个条件。

实施例二

根据本发明实施例，还提供了一种名称获取装置，图2是根据本发明实施例二的一种名称获取装置的示意图，如图2所示，该系统可以包括：

第一提取模块20，用于在目标实体词对应的目标网站中提取语料。

具体的，在上述装置中，实体词为用户所关心的产品或品牌或其他对象的一种统称，并不包含额外意义，称之为实体词是因为通常这些词语具有比较正规的提法，是与昵称或别名相对照的提法。例如，人名“撒贝宁”是实体词，对应的“小撒”是昵称；综艺节目“奔跑吧兄弟”是实体词，对应的“跑男”是昵称，车型名“帕萨特”是实体词，对应的“小帕”是昵称等等，基于上述实体词的意义，而目标实体词可以是待获取与之对应的别名或昵称的实体词。

第二提取模块22，用于按照预设特征从语料中提取与目标实体词对应的候选名称。

筛选模块24，用于根据预设条件在候选名称中筛选出与目标实体词对应的名称。

由上可知，本申请上述装置通过第一提取模块在目标实体词对应的目标网站中提取语料，按照预设特征从语料中提取候选名称，通过筛选模块根据预设条件在候选名称中筛选出与实体词对应的名称。上述方案给出机器自动获取实体昵称词语的技术流程，通过预定特征推断候选昵称词，并通过更精确的预设条件从候选名称中确认最终的名称。上述方法不仅实现了机器自动获取名称，节省人工的技术效果，又实现了获取名称的效率高，准确率高以及全面性高的技术效果，并能够满足网络中语料更新速度快的特点，从而解决了现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的技术问题。

可选的，根据本申请上述实施例，第一提取模块可以包括：爬取模块，用于使用网络爬虫在目标网站中爬取语料；其中，目标网站包括：实体词对应的用户原创平台和用于讨论实体词的网站。

由上可知，本申请上述装置通过爬取模块在目标网站中爬取语料，使得获取语料的目标网站是针对目标实体词对应的实体的网站，且是用户可以自由评论的网站，从而能够得到对目标实体词对应的实体更真实贴切的用户评价。

可选的，根据本申请上述实施例，爬取模块可以包括：第一筛选子模块，用于通过所述目标实体词所属的类型筛选出与所述类型对应的目标网站；爬取子模块，通过所述网络爬虫爬取所述目标网站。

可选的，根据本申请上述实施例，结合图3所示，第二提取模块22包括：

第一获取模块30，用于获取用于提取候选名称的规则模板。

提取子模块32，用于在语料中提取与规则模板匹配的语句，其中，与规则模板匹配的语句包括：包含目标实体词的第一语句和不包含目标实体词的第二语句。

查找模块34，用于在第二语句中查找与目标实体词对应的替换词，并使用替换词替换第一语句中的目标实体词。

第一确认模块36，用于在替换后所述第一语句的意义不发生改变的情况下，确认所述第二语句中的名称为所述候选名称。

由上可知，本申请上述装置通过第一获取模块获取提取候选名称的规则模板，通过提取子模块在语料中提取与规则模板匹配的语句，通过查找模块在第二语句中查找与所述目标实体词对应的替换词，并使用替换词替换所述第一语句中的目标实体词，通过第一确认模块在替换后所述第一语句的意义不发生改变的情况下，确认所述第二语句中的名称为所述候选名称。上述装置通过扫描语料，可以得到目标实体词对应的若干候选名称，候选名称中包含了目标实体词对应的名称，达到了初步获取目标实体词对应的名称的技术效果。

可选的，根据本申请上述实施例，结合图4所示，第一获取模块30包括：

获取子模块40，用于获取目标实体词出现的语句的上下文信息，其中，上下文信息包括目标实体词前和目标实体词后的词语个数。

统计模块42，用于在语料中统计上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数。

第二确认模块44，用于在上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认目标实体词出现的语句为规则模板。

由上可知，本申请上述装置通过获取子模块获取目标实体词出现的语句的上下文信息，通过统计模块在语料中统计上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数，通过第二确认模块在上下文信息与目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认目标实体词出现的语句为规则模板。上述方案在得到与上下文信息相同的语句后，根据上述语句出现的次数进行筛选，实现了得到有效规则模板的技术目的。

可选的，根据本申请上述实施例，筛选模块24包括：

计算模块，用于根据计算得到的候选名称集合中每个候选名称的得分，筛选出目标实体词对应的名称。

筛选子模块，用于根据预设的一个或多个条件对在候选名称集合中筛选得到目标实体词对应的名称。

由上可知，本申请上述装置通过计算模块根据计算得到的候选名称集合中每个候选名称的得分，筛选出目标实体词对应的名称，通过筛选子模块根据预设的一个或多个条件对在候选名称集合中筛选得到目标实体词对应的名称。因为目标实体词与目标实体词对应的名称是完全同质的词语，因此，两个词语的各个方面都是一致的，可以使用相同的句式表达方式仅是其中的一个方面。如果候选名称不是目标实体词对应的名称，虽然在句式表达方式上相同，但其他方面势必会出现差异。上述步骤就是通过对候选名称的其他方面进行考量，判断候选名称与目标实体词的一致性，最终确认与目标对象对应的名称。

可选的，根据本申请上述实施例，结合图5所示，筛选模块24包括：

第二获取模块50，用于获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例，其中，不同语料包括目标实体词的语料和其他词的语料。

汇总模块52，用于汇总标签信息、分布情况以及比例，得到每个候选名称的得分。

比对模块54，用于将每个候选名称的得分与预设分数比对，确认候选名称集合中得分超过预设分数的候选名称为目标实体词对应的名称。

由上可知，本申请上述装置通过第二获取模块获取每个候选名称的标签信息、每个候选名称在不同语料中出现次数的分布情况以及出现在第二语句中的候选名称的次数与未出现在第二语句中的候选名称的次数的比例，其中，不同语料包括目标实体词的语料和其他词的语料，通过汇总模块汇总标签信息、分布情况以及比例，得到每个候选名称的得分，通过比对模块将每个候选名称的得分与预设分数比对，确认候选名称集合中得分超过预设分数的候选名称为目标实体词对应的名称。上述方案通过计算候选名称的得分，并根据得分筛选得到目标实体词对应的名称。

可选的，根据本申请上述实施例，结合图6所示，筛选模块24包括：筛选子模块60，用于在候选名称中筛选得到满足预设条件的候选名称，其中，上述预设的一个或多个条件包括：

候选名称的词性与目标实体词的词性相同。

候选名称在不同语料中出现次数的分布满足预设分布条件。

所述名称获取装置包括处理器和存储器，上述第一提取模块、第二提取模块和筛选模块单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决了现有技术中，获取实体名对应的昵称通常依赖人工来完成，导致获取昵称的效率较低且昵称的全面性不高的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：在目标实体词对应的目标网站中提取语料；通过扫描语料，按照预设特征从语料中提取候选名称；根据预设条件在候选名称中筛选出与目标实体词对应的名称。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种名称获取方法，其特征在于，包括：

在目标实体词对应的目标网站中提取语料；

按照预设特征从所述语料中提取与所述目标实体词对应的候选名称；

根据预设条件在所述候选名称中筛选出与所述目标实体词对应的名称。

2.根据权利要求1所述的方法，其特征在于，按照预设特征从所述语料中提取候选名称，包括：

获取用于提取所述候选名称的规则模板；

在所述语料中提取与所述规则模板匹配的语句，其中，与所述规则模板匹配的语句包括：包含所述目标实体词的第一语句和不包含所述目标实体词的第二语句；

在所述第二语句中查找与所述目标实体词对应的替换词，并使用所述替换词替换所述第一语句中的目标实体词；

在替换后所述第一语句的意义不发生改变的情况下，确认所述第二语句中的名称为所述候选名称。

3.根据权利要求2所述的方法，其特征在于，获取用于提取所述候选名称的规则模板，包括：

获取所述目标实体词出现的语句的上下文信息，其中，所述上下文信息包括在所述语句中，出现于所述目标实体词前的词语和出现于所述目标实体词后的词语；

在所述语料中统计上下文信息与所述目标实体词出现的语句的上下文信息相同的语句出现的次数；

在上下文信息与所述目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认所述目标实体词出现的语句为所述规则模板。

4.根据权利要求2或3所述的方法，其特征在于，根据预设条件在所述候选名称中筛选出与所述目标实体词对应的名称，包括：

获取每个候选名称的标签信息、所述每个候选名称在不同语料中出现次数的分布情况以及出现在所述第二语句中的候选名称的次数与未出现在所述第二语句中的候选名称的次数的比例，其中，所述不同语料包括所述目标实体词的语料和其他词的语料；

汇总所述标签信息、所述分布情况以及所述比例，得到所述每个候选名称的得分；

将所述每个候选名称的得分与预设分数比对，确认所述候选名称集合中得分超过所述预设分数的候选名称为所述目标实体词对应的名称。

5.根据权利要求2或3所述的方法，其特征在于，根据预设条件在所述候选名称中筛选出与所述目标实体词对应的名称，包括：在所述候选名称中筛选得到满足所述预设条件的候选名称，其中，所述预设条件包括如下任意一条或多条：

所述候选名称的词性与所述目标实体词的词性相同；

所述候选名称在不同语料中出现次数的分布满足预设分布条件；

出现在所述第二语句中的候选名称的次数与未出现在所述第二语句中的候选名称的次数的比例满足预设比例值。

6.一种名称获取装置，其特征在于，包括：

第一提取模块，用于在目标实体词对应的目标网站中提取语料；

第二提取模块，用于按照预设特征从所述语料中提取与所述目标实体词对应的候选名称；

筛选模块，用于根据预设条件在所述候选名称中筛选出与所述目标实体词对应的名称。

7.根据权利要求6所述的装置，其特征在于，所述第二提取模块包括：

第一获取模块，用于获取用于提取所述候选名称的规则模板；

提取子模块，用于在所述语料中提取与所述规则模板匹配的语句，其中，与所述规则模板匹配的语句包括：包含所述目标实体词的第一语句和不包含所述目标实体词的第二语句；

查找模块，用于在所述第二语句中查找与所述目标实体词对应的替换词，并使用所述替换词替换所述第一语句中的目标实体词；

第一确认模块，用于在替换后所述第一语句的意义不发生改变的情况下，确认所述第二语句中的名称为所述候选名称。

8.根据权利要求7所述的装置，其特征在于，所述第一获取模块包括：

获取子模块，用于获取所述目标实体词出现的语句的上下文信息，其中，所述上下文信息包括所述目标实体词前和所述目标实体词后的词语个数；

统计模块，用于在所述语料中统计上下文信息与所述目标实体词出现的语句的上下文信息相同的语句出现的次数；

第二确认模块，用于在上下文信息与所述目标实体词出现的语句的上下文信息相同的语句出现的次数超过预设阈值时，确认所述目标实体词出现的语句为所述规则模板。

9.根据权利要求7或8所述的装置，其特征在于，所述筛选模块包括：

第二获取模块，用于获取每个候选名称的标签信息、所述每个候选名称在不同语料中出现次数的分布情况以及出现在所述第二语句中的候选名称的次数与未出现在所述第二语句中的候选名称的次数的比例，其中，所述不同语料包括所述目标实体词的语料和其他词的语料；

汇总模块，用于汇总所述标签信息、所述分布情况以及所述比例，得到所述每个候选名称的得分；

比对模块，用于将所述每个候选名称的得分与预设分数比对，确认所述候选名称集合中得分超过所述预设分数的候选名称为所述目标实体词对应的名称。

10.根据权利要求7或8所述的装置，其特征在于，所述筛选模块包括：筛选子模块，用于在所述候选名称中筛选得到满足所述预设条件的候选名称，其中，所述预设条件包括如下任意一条或多条：

所述候选名称的词性与所述目标实体词的词性相同；