CN111782880A

CN111782880A - 语义泛化方法及显示设备

Info

Publication number: CN111782880A
Application number: CN202010661382.8A
Authority: CN
Inventors: 蔡効谦; 杨梅; 杨云龙; 赵明
Original assignee: Qingdao Hisense Media Network Technology Co Ltd
Current assignee: Qingdao Hisense Media Network Technology Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-16
Anticipated expiration: 2040-07-10
Also published as: CN111782880B

Abstract

本申请实施例提供一种语义泛化方法及显示设备，所述方法包括：接收输入事件，所述输入事件用于表示输入待搜索内容；获取关联图，所述关联图用于表示多个关键词之间的关系图；根据所述待搜索内容和所述关联图，对所述待搜索内容进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容。本申请能够解决现有技术中需要人工大量的数据标注支撑，同时导致提供的搜索内容不精准的问题。

Description

语义泛化方法及显示设备

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种语义泛化方法及显示设备。

背景技术

针对能够为用户提供检索或搜索服务的应用平台，通常是基于用户输入的检索项进行检索，由于表述同一语义的检索项往往具有不止一种表述形式，因此，针对检索项进行语义匹配同义词尤为重要。

目前，利用人工建立同义词典、同义标签，然后通过深度学习技术进行无监督学习同义词，实现同义词搜索。

但是，该深度学习技术的语义匹配搜索需要大量的数据标注支撑，太耗时、浪费人力且无法解决标签缺失导致无法搜到同义词或学习到的同义词搜不到相关内容，进而影响用户体验。

发明内容

本申请实施例提供一种语义泛化方法及显示设备，以解决现有技术中需要人工大量的数据标注支撑，同时导致提供的搜索内容不精准的问题。

第一方面，本申请实施例提供一种语义泛化方法，包括：

接收输入事件，所述输入事件用于表示输入待搜索内容；

获取关联图，所述关联图用于表示多个传媒数据中的各个关键词形成的关系图；

根据所述待搜索内容和所述关联图，对所述待搜索内容进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容。

第二方面，本申请实施例提供一种显示设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上述第一方面以及第一方面各种可能的设计所述的语义泛化方法。

本实施例提供的语义泛化方法及显示设备，首先接收用户输入的待搜索内容，并获取存储的关联图，由于该关联图用于表示多个关键词之间的关系图，则可以基于待搜索内容以及该关联图，执行对待搜索内容的语义泛化操作，产生同义词即得到与该待搜索内容匹配的目标搜索内容，实现了同义词搜索。本申请通过输入的待搜索内容以及创建的关联图，无需大量的数据标注即可进行语义泛化，产生待搜索内容的同义词，并且泛化得到的同义词与待搜索内容匹配度较高，能够精准地且更多的搜索到相关联的传媒数据，提高用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的语义泛化方法的应用场景图；

图2为本申请实施例提供的语义泛化方法的流程示意；

图3为本申请另一实施例提供的语义泛化方法的流程示意图；

图4为本申请实施例提供的关联图的示意图；

图5为本申请实施例提供的语义泛化装置的结构示意图；

图6为本申请实施例提供的显示设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护的范围。

用户对于感兴趣内容进行检索时，用户使用冷门的关键字，导致搜不到相关媒资，比如，用户输入：“唱歌的综艺节目”，但是搜不到相关媒资，原因是“唱歌”这两个字较少出现在媒体的标题或是媒体的描述中，因此，需要对“唱歌”进行关键字泛化。

目前，传统达到关键字泛化替换搜索词的方法是建立大量同义词典，或对媒资打上标签，采用深度学习技术的无监督学习同义词，实现同义词搜索。但是，该深度学习技术的语义匹配搜索需要大量的数据标注支撑，太耗时、浪费人力且无法解决标签缺失导致无法搜到同义词或学习到的同义词搜不到相关内容，进而影响用户体验。针对深度学习技术的无监督学习同义词，示例性的，“天气很热我想打开空调；天气很热我想打开冰箱；天气很热我想打开窗户”，“空调，冰箱，窗户”，由于前后文(context)相似，因此[空调，冰箱，窗户]会被自动学习成同义词。实际应用上，空调与冰箱，存在部分语义相似，都是家电。但是空调与窗户，明显已经不是同语义。

因此，为了解决大量数据标注带来的耗时、浪费人力且由于标签缺失导致提供的搜索内容不精准的问题，本申请的技术构思是采用机器统计学习人工建立传媒数据标签标注的能力，建立关键词之间的关联图，基于用户输入的待搜索内容，通过查询关联图，无需大量的数据标注，自动实时产生同义词，然后将同义词替换待搜索内容进行搜索，能够精准地搜索到相关联的传媒数据，进而为用户提供了较多且匹配度较高的搜索结果，提高了用户体验。

在实际应用中，本公开实施例的执行主体可以是终端设备，比如固定终端、移动终端、计算机设备(如，台式机、笔记本电脑、一体机等)等，固定终端可以包括智能电视、带显示屏的设备等具有传媒数据显示和/或播放功能的固定设备；移动终端可以包括智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备等具有传媒数据显示和/或播放功能的移动设备。

示例性的，参见图1所示，以移动终端10为例，当用户需要搜索传媒数据时，在提供的搜索框11中通过语音或是通过触摸屏或是特殊按键输入待搜索的内容，为了提高搜索结果的准确性，需要对待搜索的内容进行语义泛化，在语义泛化的过程中，需要结合机器学习建立的关键词之间的关联图，通过查询关联图，确定对待搜索的内容进行语义泛化后的候选泛化词，因此，为用户提供的该泛化词准确度高，同时通过该泛化后的泛化词进行搜索，不但能够精准地搜索到相关联的传媒数据且可供用户选择的相关联的传媒数据较多，进而提高用户体验，同时提高了传媒数据的点击率。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的语义泛化方法的流程示意图。如图2所示，该方法可以包括：

S201：接收输入事件，所述输入事件用于表示输入待搜索内容。

本实施例中，用户随时可以通过在终端设备上安装的为用户提供检索或搜索服务的应用平台，比如客户端，在提供的搜索框中输入待搜索内容，终端设备检测到有输入事件触发时，接收输入事件中的待搜索内容。

S202、获取关联图，所述关联图用于表示多个关键词之间的关系图。

其中，传媒数据可以包括商品、广告、图片、音视频等含有描述信息的数据。

本实施例中，关联图是由多个传媒数据对应的各个关键词形成的关系图，因此，该关联图是具有网状、树状或是拓扑结构等结构图，且该关联图可以存储在终端设备的内存中，也可以存储在数据库中，在此不做具体限定。由于该关联图是关于学习到多个传媒数据对应的各个关键词之间的关联关系形成的关系图，因此，通过关联图中的关键词可以精准地搜索到相关的传媒数据，所以该关联图中的关键词具备提供泛化词的泛化能力，能够为用户输入的待搜索内容提供相关联且匹配度高的泛化词。

S203、根据所述待搜索内容和所述关联图，对所述待搜索内容进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容。

本实施例中，终端设备可以基于待搜索内容，从关联图中查找对待搜索内容进行语义泛化的候选泛化词，进而根据候选泛化词确定泛化词，进而将泛化词替换该待搜索内容的目标搜索内容，使得用户可以根据提供的目标搜索内容进行传媒数据搜索，终端设备根据搜索触发操作，为用户提供多条精准地搜索结果，满足用户的查询需求，进而提高用户体验。因此，该过程无需大量的数据标注，只需通过建立的关联图结合用户输入的待搜索内容即可自动产生同义词，且产生的搜索内容(比如同义词)精准度高，同时根据产生的搜索内容进行搜索能够产生精准地且更多的搜索结果，进而提高用户体验以及传媒数据的点击率。

示例性的，以传媒数据为视频为例，首先接收用户输入的待搜索的视频信息，比如，“我想要看XX电影”，由于“XX”太广泛或是范围太大，需要对“XX”进行语义泛化，首先获取由多个视频对应的各个关键词形成的关系图即关联图，通过关联图判断其是否符合泛化条件，比如，该“XX”是否存在关联图中，若存在，则说明该“XX”符合泛化条件，然后从关联图中选出泛化词代替“XX”，形成新的查询语句，用户可以根据新的查询语句进行查询，得到精准地且更多的搜索结果即相关联的视频。

本实施例提供的语义泛化方法，首先接收用户输入的待搜索内容，并获取存储的关联图，由于该关联图用于表示多个关键词之间的关系图，则可以基于待搜索内容以及该关联图，执行对待搜索内容的语义泛化操作，产生同义词即得到与该待搜索内容匹配的目标搜索内容，实现了同义词搜索。本申请通过输入的待搜索内容以及创建的关联图，无需大量的数据标注即可进行语义泛化，产生待搜索内容的同义词，并且泛化得到的同义词与待搜索内容匹配度较高，能够精准地且更多的搜索到相关联的传媒数据，提高用户体验。

在一种可能的设计中，本实施例在上述实施例的基础上对语义泛化方法进行了详细说明。在确定与所述待搜索内容匹配的目标搜索内容之后，该语义泛化方法还可以包括：

通过所述目标搜索内容进行搜索，得到泛化语义搜索结果，所述泛化语义搜索结果用于表示与目标搜索内容语义匹配的内容；显示所述泛化语义搜索结果，所述泛化语义搜索结果包括至少一个传媒数据。

本实施例中，终端设备若检测到搜索触发操作时，响应于该搜索触发操作，根据确定的目标搜索内容执行搜索操作，从多个媒体数据中查找到与目标搜索内容语义匹配的内容即搜索结果，跳转显示该搜索结果(即泛化语义搜索结果)，其中，通过该语义泛化方法得到的目标搜索内容进行搜索时，搜索结果包括至少一个传媒数据，能够为用户提供精确地至少一个传媒数据或至少两个传媒数据，满足用户搜索需求，提高用户体验、点击率等。

在一种可能的设计中，如何建立关联图，可以参见图3所示，图3为本申请另一实施例提供的语义泛化方法的流程示意图，本实施例在上述实施例的基础上，对S202进行了详细说明。所述获取关联图，可以包括：

S301、获取多个传媒数据中的每个传媒数据对应的传媒数据描述信息。

本实施例中，在应用平台上可以搜索到的所有传媒数据可以存储在应用平台的数据库中，且在数据库中存储的每个传媒数据均对应有传媒数据描述信息，这里的传媒数据描述信息可以包括标题、类型、摘要以及标签中至少一项。

S302、针对每个所述传媒数据，确定所述传媒数据描述信息对应的多个描述词。

本实施例中，为了生成关联图，可以先对每个传媒数据对应的传媒数据描述信息进行分析，得到多个描述词。

其中，如何确定所述传媒数据描述信息对应的多个描述词，可以通过以下步骤实现：

步骤a1、从所述传媒数据描述信息中获取目标描述信息，所述目标描述信息包括所述标题、所述类型、所述摘要以及所述标签中的至少一项。

步骤a2、识别所述目标描述信息对应的多个描述词。

本实施例中，传媒数据描述信息中包含标题、类型、摘要以及标签等字段，对传媒数据描述信息进行描述词识别时，可以选择传媒数据描述信息中的至少一个字段进行分析，即只需从传媒数据描述信息中选取至少一个字段作为目标描述信息，然后对目标描述信息中的关键字进行识别，得到多个描述词。

示例性的，以传媒数据为视频为例，传媒数据描述信息中包含视频的标题、视频的类型、视频的摘要、视频的标签等。其中，视频的类型可以至少包括电影、电视剧、娱乐等类型，标签用于表示该视频涉及的关键词。比如，选择标题、分类以及标签三个字段作为目标描述信息，然后识别目标描述信息对应的多个描述词。比如，视频描述信息为：标题：“标题1”；分类：“电影”；摘要：“摘要1”；标签：“标签1”。则对视频描述信息进行分词，得到视频描述信息中的描述词为“标题11，标题12，电影，摘要11，摘要12，摘要13，摘要14，摘要15，标签11，标签12，标签13，标签14”，从视频描述信息中选取标题、分类以及标签作为目标描述信息，目标描述信息对应的多个描述词为“标题11，标题12，电影，标签11，标签12，标签13，标签14”。

这里的多个传媒数据中的每个传媒数据对应的多个描述词，为生成含有多个关键词以及关键词之间关系的关联图提供了数据，由于关联图是通过多个媒体数据生成的，因此，通过关联图中的各个关键词进行搜索时，可以得到多个媒体数据中与目标搜索内容(含有关键词)相关联的至少一个媒体数据，为用户提供多个搜索结果，进而提高用户体验、点击率等。

S303、根据每个所述传媒数据对应的所述多个描述词，生成与所述多个传媒数据匹配的关联图。

本实施例中，将每个传媒数据对应的多个描述词形成一个描述词库，对描述词库中的各个描述词进行词与词之间的关联程度计算，进而根据关联程度以及各个描述词构建关联图。

在实际应用中，针对多个传媒数据，构建关联图：一种方式可以是生成一个关联图；另一种方式可以是生成多个关联图，具体地，对多个传媒数据通过分类，得到多个类型的传媒数据集，对每个传媒数据集中的各个传媒数据进行分析，构建一个关联图，该方式下一个类型的传媒数据对应生成一个关联图。生成一个关联图

其中，针对多个传媒数据生成一个关联图的方式：根据多个传媒数据对应的多有描述词，生成一个关联图。示例性的，这里的多个传媒数据可以是商品、广告、图片、音视频等中任一个属性的传媒数据(比如，多个传媒数据均属于商品类或多个传媒数据均属于广告类或多个传媒数据均属于图片类或多个传媒数据均属于音频类或多个传媒数据均属于视频类)，也可以是混合属性的传媒数据(比如由商品、广告、图片、音视频等至少两个属性自由组合的多个传媒数据)。

需要说明的是，本实施例对生成关联图的个数不做具体限定，无论关联图为一个还是多个，均是根据描述库里的各个描述词生成的，不同的是，生成一个关联图是基于描述库中的所有描述词生成对应的关联图，而多个关联图中的每个关联图是选取描述库里的相同类型的各个描述词生成对应的关联图。

为了方便理解，下述以数据库中的多个传媒数据为多个视频(该多个视频对应的类型可以是电影、娱乐、电视剧等任一项，也可以是自由组合；其中，以自由组合为例)，且关联图的个数为1个为例。

在一种可能的设计中，如何根据每个所述传媒数据对应的所述多个描述词，生成与所述多个传媒数据匹配的关联图，可以通过下述步骤实现：

步骤b1、根据每个所述传媒数据对应的所述多个描述词，获取各个所述描述词对应的词频以及每两个描述词在同一个传媒数据对应的传媒数据描述信息中同时存在所述每两个描述词的第一次数，所述描述词对应的词频用于表示在所述多个传媒数据对应的传媒数据描述信息中存在所述描述词的目标传媒数据的个数。

步骤b2、针对每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

本实施例中，针对各个描述词，获取每个描述词对应的词频，即在该多个传媒数据对应的传媒数据描述信息中存在该描述词的目标传媒数据的个数，可以理解为该描述词在多个传媒数据中出现的次数(其中，在一个传媒数据中的传媒数据描述信息出现即可记为1次，需要说明的是，在同一个传媒数据描述信息中出现多次也记为1次，进而进行累加)即为目标传媒数据的个数。比如，多个传媒数据为N个，描述词1在多个传媒数据中出现的次数为M1，则描述词1对应的目标传媒数据的个数为M1。

由于关联图是各个关键词之间的关系图，因此，在建立关联图过程中可以以每两个描述词作为一个分析对象。具体地，针对每两个描述词，首先可以统计每两个描述词在同一个传媒数据对应的传媒数据描述信息中同时存在所述每两个描述词的第一次数，然后根据获取到的每两个描述词中每个描述词对应的目标传媒数据的个数，结合相应的第一次数，使得每两个描述词之间能够产生关联，进而生成关联图。实现了多个媒体数据与关联图之间形成了关联，当用户输入待搜索内容时，可以通过关联图对其进行语义泛化，即从关联图中获取与待搜索内容匹配的泛化词，使得通过泛化词即可从多个媒体数据中搜索出相关联的至少一个媒体数据供用户查看，不会出现无搜索结果的情况或是搜索结果与待搜索内容无关联的问题。

在一种可能的设计中，本实施例在上述实施例的基础上，对如何根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，生成与所述多个传媒数据匹配的关联图进行了详细说明。可以通过以下步骤实现：

步骤c1、针对所述每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，计算各个所述描述词之间的相关系数，所述相关系数用于表示每两个描述词的相关程度。

本实施例中，针对每两个描述词，计算该两个描述词之间的相关系数，直到计算出所有描述词中每两个描述词对应的相关系数。其中，相关系数是依据两个描述词中每个描述词对应目标传媒数据的个数以及该两个描述词对应的第一次数计算得到的。

具体地，可以通过下述步骤实现：

步骤d1、针对所述每两个描述词，对各个所述描述词对应的所述目标传媒数据的个数分别与所述多个传媒数据的个数进行比例计算，得到各个所述描述词出现在所述多个传媒数据对应的传媒数据描述信息中的第一概率和第二概率。

步骤d2、对所述述第一次数与所述多个传媒数据的个数进行比例计算，得到所述每两个描述词同时出现在同一个传媒数据对应的传媒数据描述信息中的第三概率。

步骤d3、根据所述第一概率、所述第二概率以及所述第三概率，通过点互信息PMI指标进行计算，得到所述每两个描述词之间的相关系数。

本实施例中，采用点互信息(Pointwise Mutual Information，PMI)这一指标进行计算，得到每两个描述词之间的相关系数。具体地，PMI的计算公式为：

其中，p(word1,word2)表示两个描述词word1和word2共同出现在同一个传媒数据描述信息的概率(即第三概率)；p(word1)表示word1出现在多个传媒数据描述信息的概率；p(word2)表示word2出现在多个传媒数据描述信息的概率。这里的word1和word2均表示描述词。

具体地，第一概率＝word1对应的目标传媒数据的个数/多个传媒数据的个数；第二概率＝word2对应的目标传媒数据的个数/多个传媒数据的个数；第三概率＝第一次数/多个传媒数据的个数。因此，这里的每两个描述词之间的相关系数即为对应的PMI值。

比如，描述词为描述词1、描述词2、描述词3、…、描述词P，则两两组合作为一个分析对象，比如描述词1和描述词2、描述词1和描述词3、…、描述词1和描述词P、描述词2和描述词3、…、描述词3和描述词P、…、描述词(P-1)和描述词P。针对PMI的计算公式，可以计算出上述每一个分析对象对应的PMI值作为每两个描述词之间的相关系数。

步骤c2、根据各个所述相关系数，生成与所述多个传媒数据匹配的关联图；或者，根据各个所述相关系数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

本实施例中，生成与所述多个传媒数据匹配的关联图的方式可以包括下述至少两种：

方式1、根据各个所述相关系数，生成与所述多个传媒数据匹配的关联图。

具体地，可以通过下述步骤实现：

针对所述每两个描述词，将所述相关系数与第一预设阈值进行比较，若所述相关系数大于所述第一预设阈值，则将所述相关系数对应的两个描述词分别作为节点，并将两个节点连线形成一个边。

其中，所述关联图是由所述节点和所述边构成的关系图，所述节点对应的描述词为关键词。

本实施例中，通过PMI计算公式，可以说明两个词(这里指两个描述词)越常共同出现在同一个传媒数据描述信息中，PMI越高；其中一个词，越常单独出现，则PMI越低。因此，两个词越常出现在同一个传媒数据描述信息中，越可以互相替代，搜到同媒资(比如传媒数据)的概率越高。通过选择PMI高的可替代的词，可以达成搜索语义泛化的功能。

具体地，为了提高与待搜索内容匹配的搜索结果的概率，可以对各个描述词进行筛选，其中，过滤的方式可以是针对每两个描述词通过相关系数与第一预设阈值进行比较，其中，相关系数小于或等于该第一预设阈值的两个描述词无法形成边，则继续比较下一个分析对象；相关系数大于该第一预设阈值的两个描述词分别作为节点并将两个节点进行连线，形成边；依次类推，直到计算完所有的两个描述词，最终由节点和边构成的关系图或结构图即为关联图，这里关系图中一个节点对应一个关系词，一个节点可以对应多个边。

示例性的，参见图4所示，图4为本申请实施例提供的关联图的示意图。其中，每个节点代表一个关键词，两个节点之间的边表示两个关键词之间的关系，每个边均对应一个该边上两个节点对应的相关系数。需要说明的是，图4是示例性的，本申请不对关联图的具体形状进行限定。

方式2、根据所述相关系数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

具体地，可以通过下述步骤实现：

步骤e1、针对所述每两个描述词，将所述相关系数与第一预设阈值进行比较，且将所述第一次数与第二预设阈值进行比较。

步骤e2、若所述相关系数大于所述第一预设阈值且所述第一次数大于所述第二预设阈值，则将所述相关系数对应的两个描述词分别作为节点，并将两个节点连线形成一个边。

本实施例中，首先可以通过方式1进行描述词的初步筛选，针对每两个描述词，若相关系数小于或等于所述第一预设阈值或者所述第一次数小于或等于所述第二预设阈值，即不满足形成边的条件则无法形成边，然后继续比较下一个分析对象。针对每两个描述词，当相关系数大于第一预设阈值时，将满足该条件的两个描述词暂时保留，同时，将该两个描述词对应的第一次数(即该两个描述词在同一个传媒数据对应的传媒数据描述信息中同时存在该两个描述词的次数或传媒数据的个数)与第二预设阈值进行比较，当第一次数大于第二预设阈值时，将该两个描述词分别作为节点并进行节点之间的连线形成边。这里节点和边的含义、关系等描述与方式1相同，在此不再赘述。同样可以参见图4所示。

具体地，比如，多个传媒数据的个数为N，第一预设阈值为5，第二预设阈值为500。若word1对应的目标传媒数据的个数为318311，word2对应的目标传媒数据的个数为306150，共现次数即第一次数为256845，则第一概率为318311/N，第二概率为306150/N，第三概率为256845/N，则[word1，word2]对应的PMI＝3.5，因此，该两个描述词无法形成边；若word1对应的目标传媒数据的个数为1，word2对应的目标传媒数据的个数为2274，共现次数即第一次数为1，则第一概率为1/N，第二概率为2274/N，第三概率为1/N，则[word1，word2]对应的PMI＝10.922，但是第一次数小于第二预设阈值，因此，该两个描述词无法形成边；若word1对应的目标传媒数据的个数为13414，word2对应的目标传媒数据的个数为6097，共现次数即第一次数为5639，则第一概率为13414/N，第二概率为6097/N，第三概率为5639/N，则[word1，word2]对应的PMI＝8.249，且第一次数大于第二预设阈值，因此，该两个描述词为节点并形成边，这里的两个描述词即为关联图中的两个关键词。

其中，方式2是将相关系数与共现次数合综合评价是否可以形成边，构成关联图，能够通过选择PMI高的两个描述词作为可替代词，并且可替代词的词频必须更高，代表替代词更常被人使用，达成搜索语义泛化的功能。即当PMI高于第一预设阈值，且共现次数也高于第二预设阈值，代表两词可替代。该方式形成的关联图可以为用户提供精准地泛化词即替代词，进而根据提供的目标搜索内容(替代词或结合替代词形成的)能够为用户提供更多的搜索结果，提高用户体验、点击率等。因此，形成边的两个词节点，表示此两词，越常出现在同一个传媒数据描述信息中，越可以互相替代，搜到同媒资的概率越高，具备可相互替代性。可以将上述两种方式形成的关联图的节点与边存储在数据库中，该关联图可以为用户提供精准地泛化词即替代词，进而根据提供的目标搜索内容(替代词或结合替代词形成的)能够为用户提供更多的搜索结果，提高用户体验、点击率等。

在一种可能的设计中，本实施例在上述实施例的基础上对S203进行了详细说明。根据所述待搜索内容和所述关联图，对所述待搜索内容进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容，可以通过以下步骤实现：

步骤f1、对所述待搜索内容进行分词，得到多个搜索词。

步骤f2、将所述多个搜索词与所述关联图中的各个关键词进行比对，若各个所述关键词中存在目标搜索词，则对所述目标搜索词进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容。

其中，所述目标搜索词为所述多个搜索词中的任一搜索词。

本实施例中，由于用户输入的待搜索内容可能是一句话，同时由于关联图中包括多个关键词，因此，为了从关联图中查找到与待搜索内容匹配的关键词，需要对待搜索内容进行分词，得到多个搜索词。比如，将待搜索内容处理为[搜索词1，搜索词2，搜索词3，…，搜索词Q]。然后将各个搜索词与所述关联图中的各个关键词进行比对，若多个搜索词均不存在关联图中的关键词，则说明该待搜索内容不存在泛化条件，使用原始文本即待搜索内容进行搜索；若多个搜索词中任一个搜索词存在关联图中的各个关键词中，说明满足泛化条件，对该搜索词进行语义泛化，结合关联图中的各个关键词中，确定与所述待搜索内容匹配的目标搜索内容，能够保证提供的目标搜索内容精准。

在一种可能的设计中，如何确定与所述待搜索内容匹配的目标搜索内容，可以通过以下步骤实现：

步骤g1、若各个所述关键词中存在目标搜索词，则根据与所述目标搜索词对应的相关系数和/或与所述目标搜索词对应的第一次数和/或与所述目标搜索词形成边的除所述目标搜索词以外的各个关键词对应的词频，从所述关联图中确定泛化词。

本实施例中，各个所述关键词中存在目标搜索词，即目标搜索词在关联图中存在，开始对该目标搜索词进行语义泛化。具体地，在关联图中查找到该目标搜索词形成的所有边以及边对应的节点(即与目标搜索词相关联的关键词)，获取所有边对应的相关系数(即在关联图中与目标搜索词对应的相关系数)和/或获取所有边对应的第一次数(即在关联图中与目标搜索词对应的第一次数)和/或获取所有边中的所有节点对应的词频。然后根据上述获取的至少一项，从所述关联图中确定泛化词。

具体地，方式11、对与所述目标搜索词对应的相关系数进行排序，选取预设排列名次的相关系数对应的关键词作为泛化词，即top-K个相关系数对应的关键词作为候选泛化词；方式21、对与所述目标搜索词对应的第一次数进行排序，选取预设排列名次的第一次数对应的关键词作为候选泛化词，即top-K个第一次数对应的关键词作为候选泛化词；方式31、与所述目标搜索词形成边的除所述目标搜索词以外的各个关键词对应的词频分别与目标搜索词对应的词频比较，选取大于目标搜索词对应的词频的关键词进行排序，选取预设排列名次的词频对应的关键词作为候选泛化词，即top-K个词频对应的关键词作为候选泛化词(其中，对K的取值不进行限定，可以根据具体场景确定)；方式41、可以对上述方式11、方式21以及方式31进行任意组合，选取含有相同关键词所在方式下的排名顺序为前top-K的对应的关键词作为候选泛化词。然后从候选泛化词中确定泛化词。

比如，以方式11和方式31组合为例，根据PMI和共现次数排序选择top-K个关键词作为候选泛化词。例如，目标搜索词为关键词1，与关键词1建立关联的词，根据PMI从高到低排序：[关键词2，关键词3，关键词4，关键词5，关键词6，关键词7]，取最高的5个作为候选泛化词，同时从候选泛化词中选择词频大于目标搜索词的关键词作为泛化词，假如这里的关键词2，关键词3，关键词4对应的词频分别大于目标搜索词对应的词频，则最终泛化词为[关键词2，关键词3，关键词4]。

步骤g2、根据所述泛化词以及所述待搜索内容中的所述多个搜索词，形成新的查询语句，所述新的查询语句为所述目标搜索内容。

本实施例中，若泛化词为多个时，形成新的查询语句可以通过至少两种方式实现：一种方式是，选择任一泛化词替代所述目标搜索词，形成新的查询语句；另一种方式是，连接多个泛化词，形成新的查询语句，即将多个泛化词中至少一个泛化词添加到所述待搜索内容对应的多个搜索词中。比如，以步骤g1中确定出的泛化词为[关键词2，关键词3，关键词4]为例，待搜索内容对应多个搜索词为[搜索词1，搜索词2，搜索词3，搜索词4]，则形成新的查询语句可以为[搜索词1，搜索词2，搜索词3，关键词2，关键词3，关键词4，搜索词4]。需要说明的是新的查询语句可以是通过泛化词与多个搜索词的自由组合，在此对新的查询语句具体包括的词不做限定。

因此，本申请中利用新的查询语句搜索媒体(或传媒数据)，得到泛化语义搜索结果。由于在关键词泛化过程中，选择排序较高的替代词(或选择词频出现较高的替代词)，因此泛化后，可搜到更多语义相关的媒资(或传媒数据)，达成语义搜索效果，该方法无需大量的数据标注即可进行语义泛化，产生待搜索内容的同义词，并且泛化得到的同义词与待搜索内容匹配度较高，能够精准地且更多的搜索到相关联的传媒数据，提高用户体验。

对应于上文实施例的语义泛化方法，图5为本申请实施例提供的语义泛化装置的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分。如图5所示，语义泛化装置50包括：输入事件接收模块501、关联图获取模块502和语义泛化模块503。

输入事件接收模块501，用于接收输入事件，所述输入事件用于表示输入待搜索内容；关联图获取模块502，用于获取关联图，所述关联图用于表示多个关键词之间的关系图；语义泛化模块503，用于根据所述待搜索内容和所述关联图，对所述待搜索内容进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容。

本申请实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本申请实施例此处不再赘述。

在一种可能的设计中，关联图获取模块502，具体用于：获取多个传媒数据中的每个传媒数据对应的传媒数据描述信息；针对每个所述传媒数据，确定所述传媒数据描述信息对应的多个描述词；根据每个所述传媒数据对应的所述多个描述词，生成与所述多个传媒数据匹配的关联图。

在一种可能的设计中，关联图获取模块502，还具体用于：根据每个所述传媒数据对应的所述多个描述词，获取各个所述描述词对应的词频以及每两个描述词在同一个传媒数据对应的传媒数据描述信息中同时存在所述每两个描述词的第一次数，所述描述词对应的词频用于表示在所述多个传媒数据对应的传媒数据描述信息中存在所述描述词的目标传媒数据的个数；针对每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

在一种可能的设计中，关联图获取模块502，还具体用于：针对所述每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，计算各个所述描述词之间的相关系数，所述相关系数用于表示每两个描述词的相关程度；根据各个所述相关系数，生成与所述多个传媒数据匹配的关联图；或者，根据各个所述相关系数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

在一种可能的设计中，关联图获取模块502，还具体用于：针对所述每两个描述词，对各个所述描述词对应的所述目标传媒数据的个数分别与所述多个传媒数据的个数进行比例计算，得到各个所述描述词出现在所述多个传媒数据对应的传媒数据描述信息中的第一概率和第二概率；对所述述第一次数与所述多个传媒数据的个数进行比例计算，得到所述每两个描述词同时出现在同一个传媒数据对应的传媒数据描述信息中的第三概率；根据所述第一概率、所述第二概率以及所述第三概率，通过点互信息PMI指标进行计算，得到所述每两个描述词之间的相关系数。

在一种可能的设计中，关联图获取模块502，还具体用于：针对所述每两个描述词，将所述相关系数与第一预设阈值进行比较，若所述相关系数大于所述第一预设阈值，则将所述相关系数对应的两个描述词分别作为节点，并将两个节点连线形成一个边；所述关联图是由所述节点和所述边构成的关系图，所述节点对应的描述词为关键词。

在一种可能的设计中，关联图获取模块502，还具体用于：针对所述每两个描述词，将所述相关系数与第一预设阈值进行比较，且将所述第一次数与第二预设阈值进行比较；若所述相关系数大于所述第一预设阈值且所述第一次数大于所述第二预设阈值，则将所述相关系数对应的两个描述词分别作为节点，并将两个节点连线形成一个边；所述关联图是由所述节点和所述边构成的关系图，所述节点对应的描述词为关键词。

在一种可能的设计中，语义泛化模块503，具体用于：对所述待搜索内容进行分词，得到多个搜索词；将所述多个搜索词与所述关联图中的各个关键词进行比对，若各个所述关键词中存在目标搜索词，则对所述目标搜索词进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容，所述目标搜索词为所述多个搜索词中的任一搜索词。

在一种可能的设计中，语义泛化模块503，还具体用于：若各个所述关键词中存在目标搜索词，则根据与所述目标搜索词对应的相关系数和/或与所述目标搜索词对应的第一次数和/或与所述目标搜索词形成边的除所述目标搜索词以外的各个关键词对应的词频，从所述关联图中确定泛化词；根据所述泛化词以及所述待搜索内容中的所述多个搜索词，形成新的查询语句，所述新的查询语句为所述目标搜索内容。

在一种可能的设计中，该装置还包括：搜索模块504和显示模块505；搜索模块504，用于通过所述目标搜索内容进行搜索，得到泛化语义搜索结果，所述泛化语义搜索结果用于表示与目标搜索内容语义匹配的内容；显示模块505，用于显示所述泛化语义搜索结果，所述泛化语义搜索结果包括至少一个传媒数据。

在一种可能的设计中，所述传媒数据描述信息包括标题、类型、摘要以及标签；关联图获取模块502，还具体用于：从所述传媒数据描述信息中获取目标描述信息，所述目标描述信息包括所述标题、所述类型、所述摘要以及所述标签中的至少一项；识别所述目标描述信息对应的多个描述词。

图6为本申请实施例提供的显示设备的硬件结构示意图。如图6所示，本实施例提供的设备60包括：至少一个处理器601和存储器602。其中，处理器601、存储器602通过总线603连接。

在具体实现过程中，至少一个处理器601执行所述存储器602存储的计算机执行指令，使得至少一个处理器601执行上述方法实施例中的方法。

处理器601的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图6所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例的语义泛化方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语义泛化方法，其特征在于，包括：

接收输入事件，所述输入事件用于表示输入待搜索内容；

获取关联图，所述关联图用于表示多个关键词之间的关系图；

2.根据权利要求1所述的方法，其特征在于，所述获取关联图，包括：

获取多个传媒数据中的每个传媒数据对应的传媒数据描述信息；

针对每个所述传媒数据，确定所述传媒数据描述信息对应的多个描述词；

根据每个所述传媒数据对应的所述多个描述词，生成与所述多个传媒数据匹配的关联图。

3.根据权利要求2所述的方法，其特征在于，所述根据每个所述传媒数据对应的所述多个描述词，生成与所述多个传媒数据匹配的关联图，包括：

根据每个所述传媒数据对应的所述多个描述词，获取各个所述描述词对应的词频以及每两个描述词在同一个传媒数据对应的传媒数据描述信息中同时存在所述每两个描述词的第一次数，所述描述词对应的词频用于表示在所述多个传媒数据对应的传媒数据描述信息中存在所述描述词的目标传媒数据的个数；

针对每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

4.根据权利要求3所述的方法，其特征在于，针对每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，生成与所述多个传媒数据匹配的关联图，包括：

针对所述每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，计算各个所述描述词之间的相关系数，所述相关系数用于表示每两个描述词的相关程度；

根据各个所述相关系数，生成与所述多个传媒数据匹配的关联图；或者，

根据各个所述相关系数和所述第一次数，生成与所述多个传媒数据匹配的关联图。

5.根据权利要求4所述的方法，其特征在于，针对所述每两个描述词，根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数，计算各个所述描述词之间的相关系数，包括：

针对所述每两个描述词，对各个所述描述词对应的所述目标传媒数据的个数分别与所述多个传媒数据的个数进行比例计算，得到各个所述描述词出现在所述多个传媒数据对应的传媒数据描述信息中的第一概率和第二概率；

对所述述第一次数与所述多个传媒数据的个数进行比例计算，得到所述每两个描述词同时出现在同一个传媒数据对应的传媒数据描述信息中的第三概率；

根据所述第一概率、所述第二概率以及所述第三概率，通过点互信息PMI指标进行计算，得到所述每两个描述词之间的相关系数。

6.根据权利要求4所述的方法，其特征在于，所述根据各个所述相关系数，生成与所述多个传媒数据匹配的关联图，包括：

针对所述每两个描述词，将所述相关系数与第一预设阈值进行比较，若所述相关系数大于所述第一预设阈值，则将所述相关系数对应的两个描述词分别作为节点，并将两个节点连线形成一个边；

所述关联图是由所述节点和所述边构成的关系图，所述节点对应的描述词为关键词。

7.根据权利要求4所述的方法，其特征在于，根据所述相关系数和所述第一次数，生成与所述多个传媒数据匹配的关联图，包括：

针对所述每两个描述词，将所述相关系数与第一预设阈值进行比较，且将所述第一次数与第二预设阈值进行比较；

若所述相关系数大于所述第一预设阈值且所述第一次数大于所述第二预设阈值，则将所述相关系数对应的两个描述词分别作为节点，并将两个节点连线形成一个边；

8.根据权利要求6或7所述的方法，其特征在于，根据所述待搜索内容和所述关联图，对所述待搜索内容进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容，包括：

对所述待搜索内容进行分词，得到多个搜索词；

将所述多个搜索词与所述关联图中的各个关键词进行比对，若各个所述关键词中存在目标搜索词，则对所述目标搜索词进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容，所述目标搜索词为所述多个搜索词中的任一搜索词。

9.根据权利要求8所述的方法，其特征在于，所述若各个所述关键词中存在目标搜索词，则对所述目标搜索词进行语义泛化，确定与所述待搜索内容匹配的目标搜索内容，包括：

若各个所述关键词中存在目标搜索词，则根据与所述目标搜索词对应的相关系数和/或与所述目标搜索词对应的第一次数和/或与所述目标搜索词形成边的除所述目标搜索词以外的各个关键词对应的词频，从所述关联图中确定泛化词；

根据所述泛化词以及所述待搜索内容中的所述多个搜索词，形成新的查询语句，所述新的查询语句为所述目标搜索内容。

10.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

通过所述目标搜索内容进行搜索，得到泛化语义搜索结果，所述泛化语义搜索结果用于表示与目标搜索内容语义匹配的内容；

显示所述泛化语义搜索结果，所述泛化语义搜索结果包括至少一个传媒数据。

11.根据权利要求2所述的方法，其特征在于，所述传媒数据描述信息包括标题、类型、摘要以及标签；

所述确定所述传媒数据描述信息对应的多个描述词，包括：

从所述传媒数据描述信息中获取目标描述信息，所述目标描述信息包括所述标题、所述类型、所述摘要以及所述标签中的至少一项；

识别所述目标描述信息对应的多个描述词。

12.一种显示设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至11任一项所述的语义泛化方法。