CN110263318A

CN110263318A - 实体名称的处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN110263318A
Application number: CN201810368867.0A
Authority: CN
Inventors: 周辉阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2019-09-20
Anticipated expiration: 2038-04-23
Also published as: CN110263318B

Abstract

本发明的实施例提供了一种实体名称的处理方法、装置、计算机可读介质及电子设备。该实体名称的处理方法包括：获取实体名称；对获取到的实体名称进行词语切分，得到切分词；从所述切分词中提取目标实体；根据所述目标实体对所述实体名称进行分组。本发明实施例的技术方案能够从目标实体的角度来对实体名称进行归类分组，进而能够确保同一分组的实体名称具有紧密的内在联系，增强了同一分组的实体名称之间的关联度。同时，在需要向用户推荐关联内容时，也可以基于目标实体向用户推荐相应分组的实体名称所对应的内容，提高了向用户推荐的内容的质量，有利于提升用户的体验。

Description

实体名称的处理方法、装置、计算机可读介质及电子设备

技术领域

本发明涉及计算机及通信技术领域，具体而言，涉及一种实体名称的处理方法、装置、计算机可读介质及电子设备。

背景技术

目前，相关技术中在向用户推荐相关实体内容时，通常是利用文本相似度来进行计算比较，即根据文本相似度来确定文本实体之间的关系，如文本相似度越高则说明关联性越高。

但是，相关技术中的这种方案存在的问题是对文本实体的内涵理解不够深入，仅仅基于文本相似度的判别方案往往只得其表不得其理，比如有些文本相似度很高的标题并不是同一个领域或者相关的内容，进而会导致向用户推荐的内容与用户的实际需求存在偏差，严重影响了用户体验。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种实体名称的处理方法、装置、计算机可读介质及电子设备，进而至少在一定程度上克服相关技术中根据文本相似度来确定文本实体之间的关系而导致确定的相关文本实体的实质内容关联度不高的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种实体名称的处理方法，包括：获取实体名称；对获取到的实体名称进行词语切分，得到切分词；从所述切分词中提取目标实体；根据所述目标实体对所述实体名称进行分组。

根据本发明实施例的一个方面，提供了一种实体名称的处理装置，包括：第一获取单元，用于获取实体名称；切分单元，用于对获取到的实体名称进行词语切分，得到切分词；第一提取单元，用于从所述切分词中提取目标实体；分组单元，用于根据所述目标实体对所述实体名称进行分组。

在本发明的一些实施例中，基于前述方案，所述切分单元用于：检测所述实体名称中包含的关键词；以所述关键词为切分点，对所述实体名称进行词语切分。

在本发明的一些实施例中，基于前述方案，所述第一提取单元包括：合并单元，用于根据各个所述切分词之间的关联关系，对所述切分词进行合并处理，得到合并处理后的词语；第一确定单元，用于基于所述合并处理后的词语，确定所述目标实体。

在本发明的一些实施例中，基于前述方案，所述合并单元用于：若所述切分词中的第一词语包含第二词语，则将所述第一词语和所述第二词语进行合并处理，并将所述第二词语作为合并处理后的词语。

在本发明的一些实施例中，基于前述方案，所述合并单元还用于：在对所述切分词进行合并处理之前，过滤掉所述切分词中字符数量小于或等于预定值的目标切分词。

在本发明的一些实施例中，基于前述方案，所述第一确定单元包括：第二获取单元，用于获取需要添加至所述合并处理后的词语中的第一实体集合和/或需要从所述合并处理后的词语中删除的第二实体集合；融合单元，用于将所述第一实体集合中的实体添加至所述合并处理后的词语中，和/或从所述合并处理后的词语中删除所述第二实体集合中的实体，得到融合处理后的词语；执行单元，用于根据所述融合处理后的词语，确定所述目标实体。

在本发明的一些实施例中，基于前述方案，所述第二获取单元包括：目标切分词获取单元，用于从所述切分词中获取字符数量小于或等于预定值的目标切分词；实体类型确定单元，用于确定各个所述目标切分词对应的实体类型；生成单元，用于通过实体类型属于预设类型的目标切分词，生成所述第一实体集合。

在本发明的一些实施例中，基于前述方案，所述实体类型确定单元用于：获取与各个所述目标切分词相关联的词组；根据所述相关联的词组所包含的内容，确定各个所述目标切分词对应的实体类型。

在本发明的一些实施例中，基于前述方案，所述执行单元用于：确定所述融合处理后的词语中各个词语对应的实体类型；将所述融合处理后的词语中对应的实体类型属于预设类型的词语作为所述目标实体。

在本发明的一些实施例中，基于前述方案，所述分组单元用于：确定所述实体名称所包含的目标实体；将包含有相同的目标实体的实体名称分为一组，以对所述实体名称进行分组。

在本发明的一些实施例中，基于前述方案，所述的实体名称的处理装置还包括：第二确定单元，用于根据各个分组对应的目标实体，以及目标实体之间的映射关系，确定所述各个分组对应的目标实体中是否存在具有映射关系的目标实体；处理单元，用于在所述各个分组对应的目标实体中存在两个目标实体具有映射关系时，将所述两个目标实体对应的分组进行合并。

在本发明的一些实施例中，基于前述方案，所述的实体名称的处理装置还包括：第二提取单元，用于在接收到用户输入的查询请求时，提取所述查询请求中包含的目标实体；第三确定单元，用于确定所述查询请求中包含的目标实体所对应的目标分组；推送单元，用于将所述目标分组中包含的实体名称，和/或所述目标分组中包含的实体名称所关联的内容推送给所述用户。

在本发明的一些实施例中，基于前述方案，所述第一提取单元包括：聚类单元，用于对所述切分词进行聚类处理，得到至少一个类；公共字符串确定单元，用于确定每个类中包含的切分词的最长公共字符串，并将所述最长公共字符串作为提取出的目标实体。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的实体名称的处理方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的实体名称的处理方法。

在本发明的一些实施例所提供的技术方案中，通过对实体名称进行词语切分，然后从切分词中提取目标实体，以根据目标实体对实体名称进行分组，使得能够从目标实体的角度来对实体名称进行归类分组，进而能够确保同一分组的实体名称具有紧密的内在联系，增强了同一分组的实体名称之间的关联度。同时，在需要向用户推荐关联内容时，也可以基于目标实体向用户推荐相应分组的实体名称所对应的内容，提高了向用户推荐的内容的质量，有利于提升用户的体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的实体名称的处理方法或实体名称的处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本发明的一个实施例的实体名称的处理方法的流程图；

图4示意性示出了根据本发明的一个实施例的从切分词中提取目标实体的方法的流程图；

图5示意性示出了图4中所示的步骤S420的一种实现过程的流程图；

图6示意性示出了根据本发明的实施例的获取第一实体集合的流程图；

图7示意性示出了图5中所示的步骤S530的一种实现过程的流程图；

图8示意性示出了根据本发明的另一个实施例的实体名称的处理方法的流程图；

图9示意性示出了根据本发明的又一个实施例的实体名称的处理方法的流程图；

图10示意性示出了根据本发明的另一个实施例的从切分词中提取目标实体的方法的流程图；

图11示意性示出了根据本发明的实施例的关键词切分、包含词合并过程的流程图；

图12示意性示出了根据本发明的实施例的基于黑白名单的IP筛选过程的流程图；

图13示意性示出了根据本发明的实施例的IP过滤和数据分桶过程的流程图；

图14示意性示出了根据本发明的实施例的别名映射及归一过程的流程图；

图15示意性示出了根据本发明的再一个实施例的实体名称的处理方法的流程图；

图16示意性示出了根据本发明的一个实施例的信息推荐方法的流程图；

图17示意性示出了根据本发明的一个实施例的实体名称的处理装置的框图；

图18示意性示出了根据本发明的一个实施例的第一提取单元的框图；

图19示意性示出了根据本发明的一个实施例的第一确定单元的框图；

图20示意性示出了根据本发明的一个实施例的第二获取单元的框图；

图21示意性示出了根据本发明的一个实施例的第一提取单元的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的实体名称的处理方法或实体名称的处理装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如服务器105可以获取所有实体名称，然后对获取到的实体名称进行词语切分，得到切分词，进而从切分词中提取目标实体(如IP实体)，并根据提取出的目标实体对所有实体名称进行分组。

用户可以利用终端设备103(也可以是终端设备101或102)向服务器105发起针对某一目标实体的查询请求，进而服务器105可以基于该目标实体对应的实体名称的分组向用户推荐相关的内容。

用户也可以利用终端设备103(也可以是终端设备101或102)向服务器105发起询问，服务器105可以根据接收到的询问向终端设备103返回相应的响应信息，同时根据用户的询问确定用户关心的目标实体，以挖掘用户的兴趣点，进而服务器105可以基于该目标实体对应的实体名称的分组向用户推荐相关的内容。

在本发明的一个实施例中，上述的目标实体可以是IP(Intellectual Property，知识产权)实体。IP从广义上而言包括专利权、商标、著作权、版权，但在游戏、动漫、娱乐、文和影视行业中，IP一般主要是指版权，IP作品指受版权保护的作品，包含但不限制于同名影视作品、文学作品、游戏作品、漫画作品、周边作品等。IP的形式可以多种多样，既可以是一个完整的故事，也可以是一个概念、一个形象甚至一句话，可以应用于音乐、影视、游戏等多个领域。

需要说明的是，本发明实施例所提供的实体名称的处理方法一般由服务器105执行，相应地，实体名称的处理装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端也可以与服务器具有相似的功能，从而执行本发明实施例所提供的实体名称的处理方案。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3至图16所示的各个步骤。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图3示意性示出了根据本发明的一个实施例的实体名称的处理方法的流程图，该实体名称的处理方法适用于前述实施例中所述的电子设备。参照图3所示，该实体名称的处理方法至少包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，获取实体名称。

在本发明的一个实施例中，实体表示一个概念的基本单位，实体名称即为由实体构成的词语。比如“天龙八部之天佛降临”、“天龙八部之天山童姥”都为实体名称。

在步骤S320中，对获取到的实体名称进行词语切分，得到切分词。

在本发明的一个实施例中，对获取到的实体名称进行词语切分的目的是为了从中找到目标实体。比如对“天龙八部之天佛降临”进行词语切分的目的是为了得到IP实体“天龙八部”。

在本发明的一个实施例中，在对实体名称进行词语切分时，可以检测实体名称中包含的关键词，然后以该关键词为切分点，对实体名称进行词语切分。比如对于“天龙八部之天佛降临”，可以将“之”作为关键词进行切分，这样可以得到切分词“天龙八部”和“天佛降临”；对于“天龙八部第31集”，可以将“第”作为关键词进行切分。

在步骤S330中，从所述切分词中提取目标实体。

在本发明的实施例中，目标实体反映了实体名称的内在含义，比如目标实体可以是IP实体，进而可以从IP的角度来对实体名称进行分组。具体提取目标实体的方案将在下文进行详细阐述。

在步骤S340中，根据所述目标实体对所述实体名称进行分组。

在本发明的一个实施例中，步骤S340可以包括：确定实体名称所包含的目标实体，将包含有相同的目标实体的实体名称分为一组，以对实体名称进行分组。

具体地，比如对于“天龙八部”这个IP实体，可以将包含该IP实体的“天龙八部之天佛降临”、“天龙八部之天山童姥”等实体名称归为一组。

图3所示实施例的技术方案使得能够从目标实体(如IP实体)的角度来对实体名称进行归类分组，进而能够确保同一分组的实体名称具有紧密的内在联系，增强了同一分组的实体名称之间的关联度。同时，在需要向用户推荐关联内容时，也可以基于目标实体向用户推荐相应分组的实体名称所对应的内容，提高了向用户推荐的内容的质量，有利于提升用户的体验。

以下对本发明实施例提出的从切分词中提取目标实体的技术方案进行详细阐述：

如图4所示，根据本发明的一个实施例的从切分词中提取目标实体的方法，包括如下步骤：

步骤S410，根据各个所述切分词之间的关联关系，对所述切分词进行合并处理，得到合并处理后的词语。

在本发明的一个实施例中，步骤S410具体包括：若切分词中的第一词语包含第二词语，则将所述第一词语和所述第二词语进行合并处理，并将所述第二词语作为所述第一词语和所述第二词语合并处理后的词语。

在该实施例中，由于切分词中可能会出现词语之间的包含与被包含的关系，而这些词语往往属于相同的实体，比如“诡案实录”和“新诡案实录”都属于“诡案实录”这个实体，因此可以通过合并的方式来对切分词进行处理。

在本发明的一个实施例中，为了避免过分合并切分词，可以在对切分词进行合并处理之前，过滤掉切分词中字符数量小于或等于预定值的目标切分词。在该实施例中，若切分词包含的字符数量较少，则通过上述实施例中的合并方式会合并掉大量的词，比如“爱情”、“爱情公寓”、“爱情保卫战”、“父母爱情”等一系列包含“爱情”的词语在合并之后仅得到“爱情”，进而会失去很多有用的词汇，因此在合并切分词之前，可以对切分词进行过滤处理。

步骤S420，基于所述合并处理后的词语，确定所述目标实体。

在本发明的一个实施例中，可以将合并处理后的词语作为目标实体。在本发明的另一个实施例中，还可以对合并处理后的词语进行进一步处理来确定目标实体，具体如图5所示，步骤S420中基于合并处理后的词语，确定目标实体的方案，可以包括步骤S510至步骤S530，以下对各个步骤进行详细阐述：

在步骤S510中，获取需要添加至所述合并处理后的词语中的第一实体集合和/或需要从所述合并处理后的词语中删除的第二实体集合。

在本发明的一个实施例中，第一实体集合可以是白名单，其包含了需要添加至合并处理后的词语中的实体集合，比如第一实体集合包含“三国”、“三体”等，则需要将这些实体添加至后并处理后的词语中；第二实体集合可以是黑名单，其包含了需要从合并处理后的词语中删除掉的实体集合，比如第二实体集合包含“爱情”，那么如果合并处理后的词语中包含有“爱情”，则需要删掉该词。

在本发明的一个实施例中，如图6所示，可以通过如下步骤获取第一实体集合：

步骤S610，从切分词中获取字符数量小于或等于预定值的目标切分词。

在本发明的一个实施例中，预定值可以根据实际需求进行设定，比如预定值可以为2，那么可以获取字符数量为2或2以下的切分词作为目标切分词。

步骤S620，确定各个所述目标切分词对应的实体类型。

在本发明的实施例中，确定各个目标切分词对应的实体类型是为了对各个目标切分词的实体类型进行分析，进而可以从目标切分词中获取属于预设类型的切分词。

在本发明的一个实施例中，步骤S620具体可以包括：获取与各个目标切分词相关联的词组；根据所述相关联的词组所包含的内容，确定各个所述目标切分词对应的实体类型。

比如对于目标切分词“天龙八部”，与其相关联的词组包括“天龙八部手游”、“天龙八部黄日华版”、“天龙八部畅易阁”、“天龙八部小说”、“天龙八部主题曲”、“天龙八部官网”、“天龙八部胡军版”、“天龙八部电影”、“天龙八部3”、“天龙八部游戏”，然后可以从这些词组中去掉“天龙八部”，然后剩下“手游”、“黄日华版”、“畅易阁”、“小说”、“主题曲”、“官网”、“胡军版”、“电影”、“3”、“游戏”，根据这些词可以确定“天龙八部”属于影视小说类的类型。在本发明的一个实施例中，在获取与各个目标切分词相关联的词组时，可以通过查询的方式来获取。

步骤S630，通过实体类型属于预设类型的目标切分词，生成所述第一实体集合。

在本发明的一个实施例中，可以将实体类型属于预设类型的目标切分词形成的集合作为第一实体集合。比如预设类型为影视小说类，如果某些目标切分词(如“三国”、“三体”等)的类型属于影视小说类，那么可以将这些目标切分词形成的集合作为第一实体集合。

继续参照图5所示，在步骤S520中，将所述第一实体集合中的实体添加至所述合并处理后的词语中，和/或从所述合并处理后的词语中删除所述第二实体集合中的实体，得到融合处理后的词语。

在步骤S530中，根据所述融合处理后的词语，确定所述目标实体。

在本发明的一个实施例中，如图7所示，步骤S530中根据融合处理后的词语，确定所述目标实体，具体可以包括如下步骤：

步骤S710，确定融合处理后的词语中各个词语对应的实体类型。

在本发明的一个实施例中，步骤S710中确定融合处理后的各个词语对应的实体类型的步骤可以参照上述确定各个目标切分词对应的实体类型的步骤。具体可以获取与融合处理后的各个词语相关联的词组；然后根据该相关联的词组所包含的内容，确定融合处理后的各个词语对应的实体类型。

步骤S720，将所述融合处理后的词语中对应的实体类型属于预设类型的词语作为所述目标实体。

在本发明的一个实施例中，比如预设类型为影视小说类，则可以将融合处理后的词语中对应的实体类型属于影视小说类的词语作为目标实体。

图7所示实施例的技术方案使得能够对融合处理后的词语进行再次过滤筛选，以得到准确的目标实体。

在图3至图7所示实施例的技术方案的基础上，如图8所示，在根据目标实体对实体名称进行分组之后，还可以包括如下步骤：

步骤S810，根据各个分组对应的目标实体，以及目标实体之间的映射关系，确定所述各个分组对应的目标实体中是否存在具有映射关系的目标实体。

在本发明的一个实施例中，目标实体之间的映射关系可以是目标实体之间的别名映射关系。比如“水浒传”与“水浒”指代的意义相同，即“水浒传”与“水浒”之间存在映射关系。

步骤S820，若所述各个分组对应的目标实体中存在两个目标实体具有映射关系，则将所述两个目标实体对应的分组进行合并。

图8所示实施例的技术方案使得能够通过目标实体之间的映射关系来对目标实体对应的分组进行合并，进而能够整合各个目标实体对应的分组，以得到完整、准确的实体名称分组。

在图3至图8所示实施例的技术方案的基础上，如图9所示，根据本发明的又一个实施例的实体名称的处理方法，还可以包括如下步骤：

步骤S910，若接收到用户输入的查询请求，则提取所述查询请求中包含的目标实体。

在本发明的一个实施例中，比如用户输入的查询请求为“天龙八部之天山童姥”，那么可以从中提取出所包含的目标实体“天龙八部”。

步骤S920，确定所述查询请求中包含的目标实体所对应的目标分组。

在本发明的实施例中，由于前述实施例中已经根据目标实体对实体名称进行了分组，因此在从查询请求中提取出“天龙八部”之后，可以确定其对应的目标分组。

步骤S930，将所述目标分组中包含的实体名称，和/或所述目标分组中包含的实体名称所关联的内容推送给所述用户。

在本发明的一个实施例中，可以在用户输入查询请求之后，将确定的目标分组中包含的实体名称所关联的内容直接推荐给用户；也可以是在响应用户输入的查询请求，且用户查看响应内容之后，再将确定的目标分组中包含的实体名称所关联的内容直接推荐给用户。

图9所示实施例的技术方案提高了向用户推荐的内容的质量，有利于提升用户的体验。

本发明的实施例还提出了另一种从切分词中提取目标实体的方法，具体如图10所示，根据本发明的另一个实施例的从切分词中提取目标实体的方法，包括如下步骤：

步骤S1001，对切分词进行聚类处理，得到至少一个类。

在本发明的实施例中，对切分词进行聚类处理是为了找到切分词之间的关联关系，以便于确定对应的实体。比如通过聚类处理，可以将“诡案实录”和“新诡案实录”聚为一类。

步骤S1002，确定每个类中包含的切分词的最长公共字符串，并将所述最长公共字符串作为提取出的目标实体。

在本发明的一个实施例中，比如对于“诡案实录”和“新诡案实录”，其最长公共字符串为“诡案实录”，进而可以将“诡案实录”作为提取出的目标实体。

以下结合图11至图16，以上述实施例中的“目标实体”为“IP实体”为例，对本发明实施例的实体名称的处理方案进行详细阐述。

在本发明的一个实施例中，对实体名称进行处理的方案具体可以包括如下几个过程：

1、关键词切分、包含词合并过程

如图11所示，该过程具体包括如下步骤：

步骤S1101，对所有实体名称进行关键词切分。

在本发明的一个实施例中，对于所有的实体名称，由于IP及其衍生实体(衍生实体指的是依据IP产生的实体，比如：“天龙八部之天山童姥”、“天龙八部之天佛降世”等都是“天龙八部”这个IP的衍生实体)之间通常含有“之”、“第”等关键词，比如：天龙八部之天山童姥、天龙八部之天佛降世、天龙八部第31集等等。因此，可以依据一些常见的关键词对实体名称进行切分，比如：“天龙八部之天山童姥”依据关键词“之”切分之后得到“天龙八部”和“天山童姥”。

步骤S1102，对切分后得到的词语进行长度过滤。

在本发明的实施例中，对切分后得到的词语进行长度过滤是为了防止步骤S1103中出现过分融合的问题。主要原因在于过短的实体可能不会是IP，但是它却有极大的可能会兜住很多实体，进而会过分融合掉大多数有用的IP，比如：“爱情”不是一个IP，但是它会兜住“爱情公寓”、“爱情保卫战”、“父母爱情”等一系列包含“爱情”的词语，即“爱情”会融合掉所有含有这两个字的IP实体。因此可以设定小于或等于2个字(仅为示例)的实体不作为IP实体，这类实体称为短实体，步骤S1102即为过滤掉短实体。

在本发明的实施例中，短实体中也可能存在一些真实的IP，因此在过滤掉短实体之后，可以对短实体进行规则过滤，以找到真实的短IP。具体地，可以通过接口(如百度的suggestion接口)来查询与某个短实体相关的热门词组，比如输入“天龙八部”，可以从该接口返回：“天龙八部手游”、“天龙八部黄日华版”、“天龙八部畅易阁”、“天龙八部小说”、“天龙八部主题曲”、“天龙八部官网”、“天龙八部胡军版”、“天龙八部电影”、“天龙八部3”、“天龙八部游戏”，然后可以从这些词组中去掉“天龙八部”，然后剩下“手游”、“黄日华版”、“畅易阁”、“小说”、“主题曲”、“官网”、“胡军版”、“电影”、“3”、“游戏”，根据这些词可以确定“天龙八部”属于影视小说的类型，进而可以将预设类型的短实体作为真实短IP。

步骤S1103，包含词合并。

在本发明的一个实施例中，由于在进行关键词切分及长度过滤之后，还会有很多新的词语仍然属于同一个IP，比如：“诡案实录”、“诡案实录全集”、“新诡案实录”同时属于“诡案实录”这个IP，因此可以对所有的包含词(词A包含了词B的所有字符，则称词A为词B的包含词)进行归一化处理。具体地，可以逐一的把所有切分后的词语放入一个数据集中，然后对每一个将要放入数据集中的数据(为便于描述，以下以“新数据”进行描述)进行判断，如果数据集中有数据是该新数据的包含词，则从数据集中删除老数据，并将新数据添加至数据集中。比如，先将“新诡案实录”放入了数据集中，在需要将“诡案实录”放入数据集中时，通过遍历发现数据集中的“新诡案实录”是“诡案实录”的包含词，因此可以从数据集中删除“新诡案实录”，并将“诡案实录”添加至数据集中。

经过图11所示步骤的处理，可以得到粗略的IP。

2、基于黑白名单的IP筛选过程

在本发明的一个实施例中，如图12所示，当通过图11所示的步骤得到合并后的粗略IP之后，可以执行步骤S1201，即通过黑名单和白名单对合并后的粗略IP进行融合，以得到融合后的粗略IP。其中，黑名单是预设的需要删除掉的IP，比如常见的生活用语等；白名单是需要添加的IP，在本发明的一个实施例中，白名单可以来自于图11中得到的真实短IP。

在本发明的一个具体实施例中，比如合并后得到的粗略IP为：“天龙八部”、“爱情故事”、“水浒传”；白名单为“三体”、“三国”；黑名单为“爱情故事”。那么在经过黑白名单过滤融合后得到的结果就是：“天龙八部”、“水浒传”、“三体”和“三国。

3、IP过滤和数据分桶过程

如图13所示，在得到融合后的粗略IP之后，执行如下步骤：

步骤S1301，对融合后的粗略IP进行规则过滤校验，以确定融合后的粗略IP是否为预设类型(如某一领域)的IP。

在本发明的一个实施例中，可以通过接口(如百度的suggestion接口)来查询与某个短实体相关的热门词组，比如输入“天龙八部”，可以从该接口返回：“天龙八部手游”、“天龙八部黄日华版”、“天龙八部畅易阁”、“天龙八部小说”、“天龙八部主题曲”、“天龙八部官网”、“天龙八部胡军版”、“天龙八部电影”、“天龙八部3”、“天龙八部游戏”，然后可以从这些词组中去掉“天龙八部”，然后剩下“手游”、“黄日华版”、“畅易阁”、“小说”、“主题曲”、“官网”、“胡军版”、“电影”、“3”、“游戏”，根据这些词可以确定“天龙八部”属于影视小说的类型，进而可以筛选出预设类型的IP。

步骤S1302，在得到预设类型的IP之后，对所有的实体名称进行数据分桶。

在本发明的一个实施例中，数据分桶就是依据得到的IP对所有实体名称进行分类。比如所有的实体名称为“天龙八部”、“天龙八部之天山童姥”、“天龙八部之天佛降世”、“三国演义之天策”和“三国演义”，规则过滤校验后得到的IP是“天龙八部”和“三国演义”，那么数据分桶的结果就是：“天龙八部”：{“天龙八部”，“天龙八部之天山童姥”，“天龙八部之天佛降世”}；“三国演义”：{“三国演义之天策”，“三国演义”}。最终得到IP数据分桶的结果。

4、别名映射及归一过程

在本发明的一个实施例中，很多实体名称都有相应的别名，比如“航海王”其实就是“海贼王”，“三国演义”就是“三国”，“水浒传”就是指代“水浒”。通过这种映射关系，可以得到一个映射表。在得到映射表之后，如图14所示，可以执行步骤S1401，基于别名映射进行数据归一处理，即将别名对应的数据分桶中的数据归为真实的IP对应的分桶中，这样就得到了完整的IP实体及其衍生的各种实体名称。

图11至图14所示的对实体名称进行处理的流程整合起来可参照图15所示，各个步骤的实现细节已在前述实施例中进行了阐述，在此不做赘述。

在本发明的一个实施例中，上述的实体名称的处理方法可以应用于信息推荐的场景中，具体如图16所示，对于多个实体名称执行步骤S1601，即进行IP计算，以确定各个实体名称对应的IP，然后执行步骤S1602，即进行IP比较，如果IP相同，则向用户推荐相同IP的内容；如果IP不相同，则不进行推荐。

在本发明的另一个实施例中，上述的实体名称的处理方法还可以应用于智能助手的各个领域的推荐场景中。具体地，当用户说出问题之后，可以从数据库中查找相应的答案并进行展示，在这个过程中可以分析用户关心的IP信息，挖掘用户的核心兴趣点，然后在用户看完上一个内容之后，主动推荐或者等待用户说出推荐其他内容时，可以推荐同IP的衍生实体内容以及同质IP的衍生实体内容，满足用户的兴趣需求，提高用户对产品的满意度。此外，同质IP的推荐还能发现用户的其他兴趣点，帮助和扩大对用户的了解。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的实体名称的处理方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的实体名称的处理方法的实施例。

图17示意性示出了根据本发明的一个实施例的实体名称的处理装置的框图。

参照图17所示，根据本发明的一个实施例的实体名称的处理装置170，包括：第一获取单元171、切分单元172、第一提取单元173和分组单元174。

其中，第一获取单元171用于获取实体名称；切分单元172用于对获取到的实体名称进行词语切分，得到切分词；第一提取单元173用于从所述切分词中提取目标实体；分组单元174用于根据所述目标实体对所述实体名称进行分组。

在本发明的一些实施例中，基于前述方案，切分单元172用于：检测所述实体名称中包含的关键词；以所述关键词为切分点，对所述实体名称进行词语切分。

在本发明的一个实施例中，如图18所示，第一提取单元173包括：合并单元1731和第一确定单元1732。

其中，合并单元1731用于根据各个所述切分词之间的关联关系，对所述切分词进行合并处理，得到合并处理后的词语；第一确定单元1732用于基于所述合并处理后的词语，确定所述目标实体。

在本发明的一些实施例中，基于前述方案，合并单元1731用于：若所述切分词中的第一词语包含第二词语，则将所述第一词语和所述第二词语进行合并处理，并将所述第二词语作为合并处理后的词语。

在本发明的一些实施例中，基于前述方案，合并单元1731还用于：在对所述切分词进行合并处理之前，过滤掉所述切分词中字符数量小于或等于预定值的目标切分词。

在本发明的一个实施例中，如图19所示，第一确定单元1732包括：第二获取单元1901、融合单元1902和执行单元1903。

其中，第二获取单元1901用于获取需要添加至所述合并处理后的词语中的第一实体集合和/或需要从所述合并处理后的词语中删除的第二实体集合；融合单元1902用于将所述第一实体集合中的实体添加至所述合并处理后的词语中，和/或从所述合并处理后的词语中删除所述第二实体集合中的实体，得到融合处理后的词语；执行单元1903用于根据所述融合处理后的词语，确定所述目标实体。

在本发明的一个实施例中，如图20所示，第二获取单元1901包括：目标切分词获取单元2001、实体类型确定单元2002和生成单元2003。

其中，目标切分词获取单元2001用于从所述切分词中获取字符数量小于或等于预定值的目标切分词；实体类型确定单元2002用于确定各个所述目标切分词对应的实体类型；生成单元2003用于通过实体类型属于预设类型的目标切分词，生成所述第一实体集合。

在本发明的一些实施例中，基于前述方案，实体类型确定单元2002用于：获取与各个所述目标切分词相关联的词组；根据所述相关联的词组所包含的内容，确定各个所述目标切分词对应的实体类型。

在本发明的一些实施例中，基于前述方案，执行单元1903用于：确定所述融合处理后的词语中各个词语对应的实体类型；将所述融合处理后的词语中对应的实体类型属于预设类型的词语作为所述目标实体。

在本发明的一些实施例中，基于前述方案，分组单元174用于：确定所述实体名称所包含的目标实体；将包含有相同的目标实体的实体名称分为一组，以对所述实体名称进行分组。

在本发明的一些实施例中，基于前述方案，所述的实体名称的处理装置，还可以包括：第二确定单元，用于根据各个分组对应的目标实体，以及目标实体之间的映射关系，确定所述各个分组对应的目标实体中是否存在具有映射关系的目标实体；处理单元，用于在所述各个分组对应的目标实体中存在两个目标实体具有映射关系时，将所述两个目标实体对应的分组进行合并。

在本发明的一些实施例中，基于前述方案，所述的实体名称的处理装置，还可以包括：第二提取单元，用于在接收到用户输入的查询请求时，提取所述查询请求中包含的目标实体；第三确定单元，用于确定所述查询请求中包含的目标实体所对应的目标分组；推送单元，用于将所述目标分组中包含的实体名称，和/或所述目标分组中包含的实体名称所关联的内容推送给所述用户。

在本发明的另一个实施例中，如图21所示，第一提取单元173包括：聚类单元2101和公共字符串确定单元2102。

其中，聚类单元2101用于对所述切分词进行聚类处理，得到至少一个类；公共字符串确定单元2102用于确定每个类中包含的切分词的最长公共字符串，并将所述最长公共字符串作为提取出的目标实体。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种实体名称的处理方法，其特征在于，包括：

获取实体名称；

对获取到的实体名称进行词语切分，得到切分词；

从所述切分词中提取目标实体；

根据所述目标实体对所述实体名称进行分组。

2.根据权利要求1所述的实体名称的处理方法，其特征在于，对获取到的实体名称进行词语切分，包括：

检测所述实体名称中包含的关键词；

以所述关键词为切分点，对所述实体名称进行词语切分。

3.根据权利要求1所述的实体名称的处理方法，其特征在于，从所述切分词中提取目标实体，包括：

根据各个所述切分词之间的关联关系，对所述切分词进行合并处理，得到合并处理后的词语；

基于所述合并处理后的词语，确定所述目标实体。

4.根据权利要求3所述的实体名称的处理方法，其特征在于，根据各个所述切分词之间的关联关系，对所述切分词进行合并处理，包括：

若所述切分词中的第一词语包含第二词语，则将所述第一词语和所述第二词语进行合并处理，并将所述第二词语作为合并处理后的词语。

5.根据权利要求3所述的实体名称的处理方法，其特征在于，在对所述切分词进行合并处理之前，还包括：

过滤掉所述切分词中字符数量小于或等于预定值的目标切分词。

6.根据权利要求3所述的实体名称的处理方法，其特征在于，基于所述合并处理后的词语，确定所述目标实体，包括：

获取需要添加至所述合并处理后的词语中的第一实体集合和/或需要从所述合并处理后的词语中删除的第二实体集合；

将所述第一实体集合中的实体添加至所述合并处理后的词语中，和/或从所述合并处理后的词语中删除所述第二实体集合中的实体，得到融合处理后的词语；

根据所述融合处理后的词语，确定所述目标实体。

7.根据权利要求6所述的实体名称的处理方法，其特征在于，获取需要添加至所述合并处理后的词语中的第一实体集合，包括：

从所述切分词中获取字符数量小于或等于预定值的目标切分词；

确定各个所述目标切分词对应的实体类型；

通过实体类型属于预设类型的目标切分词，生成所述第一实体集合。

8.根据权利要求7所述的实体名称的处理方法，其特征在于，确定各个所述目标切分词对应的实体类型，包括：

获取与各个所述目标切分词相关联的词组；

根据所述相关联的词组所包含的内容，确定各个所述目标切分词对应的实体类型。

9.根据权利要求6所述的实体名称的处理方法，其特征在于，根据所述融合处理后的词语，确定所述目标实体，包括：

确定所述融合处理后的词语中各个词语对应的实体类型；

将所述融合处理后的词语中对应的实体类型属于预设类型的词语作为所述目标实体。

10.根据权利要求1所述的实体名称的处理方法，其特征在于，根据所述目标实体对所述实体名称进行分组，包括：

确定所述实体名称所包含的目标实体；

将包含有相同的目标实体的实体名称分为一组，以对所述实体名称进行分组。

11.根据权利要求1所述的实体名称的处理方法，其特征在于，在根据所述目标实体对所述实体名称进行分组之后，还包括：

根据各个分组对应的目标实体，以及目标实体之间的映射关系，确定所述各个分组对应的目标实体中是否存在具有映射关系的目标实体；

若所述各个分组对应的目标实体中存在两个目标实体具有映射关系，则将所述两个目标实体对应的分组进行合并。

12.根据权利要求1至11中任一项所述的实体名称的处理方法，其特征在于，还包括：

若接收到用户输入的查询请求，则提取所述查询请求中包含的目标实体；

确定所述查询请求中包含的目标实体所对应的目标分组；

将所述目标分组中包含的实体名称，和/或所述目标分组中包含的实体名称所关联的内容推送给所述用户。

13.根据权利要求1所述的实体名称的处理方法，其特征在于，从所述切分词中提取目标实体，包括：

对所述切分词进行聚类处理，得到至少一个类；

确定每个类中包含的切分词的最长公共字符串，并将所述最长公共字符串作为提取出的目标实体。

14.一种实体名称的处理装置，其特征在于，包括：

获取单元，用于获取实体名称；

切分单元，用于对获取到的实体名称进行词语切分，得到切分词；

提取单元，用于从所述切分词中提取目标实体；

分组单元，用于根据所述目标实体对所述实体名称进行分组。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述的实体名称的处理方法。

16.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至13中任一项所述的实体名称的处理方法。