CN111368100A - 一种媒资合并方法及其装置 - Google Patents

一种媒资合并方法及其装置 Download PDF

Info

Publication number
CN111368100A
CN111368100A CN202010128799.8A CN202010128799A CN111368100A CN 111368100 A CN111368100 A CN 111368100A CN 202010128799 A CN202010128799 A CN 202010128799A CN 111368100 A CN111368100 A CN 111368100A
Authority
CN
China
Prior art keywords
media asset
name
search result
similarity
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010128799.8A
Other languages
English (en)
Inventor
隋雪芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Jukanyun Technology Co ltd
Original Assignee
Qingdao Jukanyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Jukanyun Technology Co ltd filed Critical Qingdao Jukanyun Technology Co ltd
Priority to CN202010128799.8A priority Critical patent/CN111368100A/zh
Publication of CN111368100A publication Critical patent/CN111368100A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种媒资合并方法及其装置。本申请中,获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本;其中,第一搜索请求文本和第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本,第一媒资名称来自于第一媒资平台,第二媒资名称来自于第二媒资平台,第一媒资名称与第二媒资名称相匹配;根据第一搜索请求文本获取对应的第一媒资搜索结果,根据第二搜索请求文本获取对应的第二媒资搜索结果;确定第二媒资搜索结果与第一媒资搜索结果的相似度;若该相似度大于设定阈值,则确定进行媒资合并,将第二媒资平台中第二媒资名称对应的媒资,标记为与第一媒资平台中第一媒资名称对应的媒资相同。

Description

一种媒资合并方法及其装置
技术领域
本申请涉及信息处理技术,尤其涉及一种媒资合并方法及其装置。
背景技术
媒资是指内容资产,可包括各种媒体类型的内容资产,比如文字、图片、音视频等。以音视频类型的内容资产为例,音视频类型的内容资产具体可包括音视频数据、用于描述音视频数据的元数据以及音视频数据的版权信息等。媒资平台是指提供和管理媒资的系统,比如可包括用于提供和管理音视频资源的网络内容提供商的系统。
仍以音视频为例,不同的媒资平台提供的媒资一般会有部分重合,比如同一部电影可在多个不同的媒资平台上被提供。由于不同的媒资平台可能采用不同的方式对媒资进行管理,使得同一部电影在不同的媒资平台上具有不同的媒资名称(如影片名称)。
因此,如何有效的合并各个媒资平台的媒资,进行媒资融合,是目前需要解决的问题。
发明内容
本申请提供了一种媒资合并方法及其装置,用以实现媒资合并。
根据示例性的实施方式中的一方面,提供一种媒资合并方法,包括:
从用户搜索记录中获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本;其中,所述第一搜索请求文本和所述第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本,所述第一媒资名称来自于第一媒资平台,所述第二媒资名称来自于第二媒资平台,所述第一媒资名称与所述第二媒资名称相匹配二
根据所述第一搜索请求文本获取对应的第一媒资搜索结果,根据所述第二搜索请求文本获取对应的第二媒资搜索结果;
确定所述第二媒资搜索结果与所述第一媒资搜索结果的相似度;
若所述相似度大于设定阈值,则确定进行媒资合并,将所述第二媒资平台中所述第二媒资名称对应的媒资,标记为与所述第一媒资平台中所述第一媒资名称对应的媒资相同。
上述实施例中,从用户搜索记录中获取包含有与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本之前,还包括:获取所述第一媒资平台中作为合并基准的媒资的名称,作为所述第一媒资名称;从所述第二媒资平台中获取与所述第一媒资名称匹配的第二媒资名称,所述第二媒资名称为待确认是否合并的媒资名称。
上述实施例中,将所述第二媒资平台中所述第二媒资名称对应的媒资,标记为与所述第一媒资平台中所述第一媒资名称对应的媒资相同,包括:将所述第二媒资平台中所述第二媒资名称对应的媒资的媒资标签,设置为与所述第一媒资平台中所述第一媒资名称对应的媒资的媒资标签相同。
上述实施例中,确定所述第二媒资搜索结果与所述第一媒资搜索结果的相似度,包括:确定所述第二媒资搜索结果和所述第一媒资所述结果之间的名称相似度;确定所述第二媒资搜索结果和所述第一媒资所述结果之间的主题相似度;对所述名称相似度和所述主题相似度进行加权求和,得到所述第二媒资搜索结果与所述第一媒资搜索结果的相似度。
上述实施例中,确定所述第二媒资搜索结果和所述第一媒资所述结果之间的名称相似度,包括:
分别获取第一媒资搜索结果集合和第二媒资搜索结果集合中包含的每个搜索结果中的媒资名称;
针对第一媒资搜索结果结合中的每个搜索结果中的媒资名称,执行以下步骤:将该媒资名称分别与第二媒资搜索结果集合中的每个搜索结果中的媒资名称进行相似度计算,得到两两媒资名称之间的相似度,其中,该相似度与两个媒资名称所在的搜索结果在媒资搜索结果集合中的排名相关;
将所述两两媒资名称之间的相似度的累加和,确定为所述第二媒资搜索结果和第一媒资搜索结果之间的名称相似度。
上述实施例中,确定所述第二媒资搜索结果和所述第一媒资所述结果之间的主题相似度,包括:
分别获取第一媒资搜索结果集合和第二媒资搜索结果集合中的每个搜索结果中的媒资名称对应的一个或多个主题相关信息,形成每个搜索结果各自对应的主题词向量;
针对第一媒资搜索结果集合中的每个搜索结果对应的主题词向量,执行以下步骤:将该主题词向量分别与第二媒资搜索结果集合中的每个搜索结果对应的主题词向量进行相似度计算,得到两两主题词向量之间的相似度,其中,该相似度与两个主题词向量所在的搜索结果在媒资搜索结果集合中的排名相关二
将所述两两主题词向量之间的相似度的累加和,确定第二媒资搜索结果和第一媒资搜索结果之间的主题相似度。
根据示例性的实施方式中的一方面,提供一种媒资合并装置,包括:
搜索请求文本获取模块,用于从用户搜索记录中获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本;其中,所述第一搜索请求文本和所述第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本,所述第一媒资名称来自于第一媒资平台,所述第二媒资名称来自于第二媒资平台,所述第一媒资名称与所述第二媒资名称相匹配;
搜索结果获取模块,用于根据所述第一搜索请求文本获取对应的第一媒资搜索结果,根据所述第二搜索请求文本获取对应的第二媒资搜索结果;
相似度确定模块,用于确定所述第二媒资搜索结果与所述第一媒资搜索结果的相似度;
媒资合并模块,用于若所述相似度大于设定阈值,则确定进行媒资合并,将所述第二媒资平台中所述第二媒资名称对应的媒资,标记为与所述第一媒资平台中所述第一媒资名称对应的媒资相同。
上述实施例中,还包括:媒资名称获取模块,用于获取所述第一媒资平台中作为合并基准的媒资的名称,作为所述第一媒资名称;从所述第二媒资平台中获取与所述第一媒资名称匹配的第二媒资名称,所述第二媒资名称为待确认是否合并的媒资名称。
上述实施例中,所述媒资合并模块,具体用于:将所述第二媒资平台中所述第二媒资名称对应的媒资的媒资标签,设置为与所述第一媒资平台中所述第一媒资名称对应的媒资的媒资标签相同。
上述实施例中,所述相似度确定模块,具体用于:确定所述第二媒资搜索结果和所述第一媒资所述结果之间的名称相似度;确定所述第二媒资搜索结果和所述第一媒资所述结果之间的主题相似度;对所述名称相似度和所述主题相似度进行加权求和,得到所述第二媒资搜索结果与所述第一媒资搜索结果的相似度。
根据示例性的实施方式中的一方面,提供一种媒资合并装置,包括存储器和处理器,所述存储器中存储有计算机程序指令,所述处理器执行所述计算机程序指令,实现上述方法。
根据示例性的实施方式中的一方面,提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序指令,当所述指令在计算机上运行时,使得所述计算机执行上述方法。
本申请的上述实施例中,针对作为合并基准的第一媒资平台中的第一媒资名称,获取第二媒资平台中与该第一媒资名称匹配的第二媒资名称,并获取与第一媒资名称相匹配的第一搜索请求文本、与第二媒资名称相匹配的第二搜索请求文本,根据第一搜索请求文本获取对应的第一媒资搜索结果,根据第二搜索请求文本获取对应的第二媒资搜索结果,并根据第二媒资搜索结果与第一媒资搜索结果的相似度,对第二媒资平台中的第二媒资名称对应的媒资,与第一媒资平台中的第一媒资名称对应的媒资进行合并,从而实现了对不同媒资平台中的相同媒资进行合并。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了本申请实施例提供的媒资合并流程示意图;
图2示例性示出了本申请实施例提供的媒资合并装置的结构示意图;
图3示例性是除了本申请实施例提供的另一媒资合并装置的结构示意图。
具体实施方式
本申请实施例提供一种媒资合并方法以及用于实现该方法的媒资合并装置,能够针对不同媒资平台针对相同媒资具有不同媒资名称的情况,进行媒资合并,可以使得不同媒资平台针对相同媒资使用统一的媒资名称。
下面结合附图对本申请实施例进行详细描述。
图1示例性示出了本申请实施例提供的媒资合并流程示意图。
该流程可由用于实现媒资合并的媒资合并装置实现,该装置可以是服务器。如图所示,该流程可包括如下步骤:
S101:从用户搜索记录中获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本。
其中,第一搜索请求文本和第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本。第一媒资名称来自于第一媒资平台,第二媒资名称来自于第二媒资平台(第一媒资平台和第二媒资平台是两个不同的媒资平台),第一媒资名称与第二媒资名称相匹配。
该步骤中,可从第一媒资平台的用户搜索记录中获取与第一媒资名称相匹配的第一搜索请求文本,从第二媒资平台的用户搜索记录中获取与第二媒资名称相匹配的第二搜索请求文本。
用户以语音方式输入媒资搜索请求后,前台设备(比如智能电视或其他类型的终端)可以进行语音识别以便将其转换为文本并发送给后台服务器进行处理,前台设备也可将该语音发送给后台服务器,由后台服务器进行语音识别以得到对应的文本。用户输入的媒资搜索请求中通常包含有目标媒资的名称。后台服务器可保存上述文本以形成用户搜索记录。
S101中,可将第一媒资平台的媒资作为合并基准,将第二媒资平台等其他媒资平台的媒资与第一媒资平台的媒资进行统一。其中,第一媒资名称可以是媒资合并的基准,第二媒资名称为待确认是否进行合并的媒资名称。如果后续步骤确定为需要合并,则以第一媒资平台中的第一媒资名称作为基准,将第二媒资平台中第二媒资名称对应的媒资,标记为与第一媒资平台中第一媒资名称对应的媒资相同。
具体实施时,在S101之前,可首先获取第一媒资平台中作为合并基准的媒资的名称,作为第一媒资名称二从第二媒资平台中获取与第一媒资名称匹配的第二媒资名称,该第二媒资名称对应的媒资为待确认是否合并的媒资。
举例来说,可根据用户搜索记录获取第一媒资平台中搜索次数或观看次数较多的媒资(为描述方便,这里以获取到第一媒资为例描述),然后在第二媒资平台提供的媒资中,获取与该第一媒资的名称(称为第一媒资名称)精确匹配或模糊匹配的媒资名称(为描述方便,这里称为第二媒资名称)。比如,第一媒资名称为“小猪佩奇″,与该第一媒资名称匹配的第二媒资名称可能是以下媒资名称中的一个:小猪佩奇、粉红猪一家亲、佩佩猪、粉红猪小妹。
S102:根据第一搜索请求文本获取对应的第一媒资搜索结果,根据第二搜索请求文本获取对应的第二媒资搜索结果。
在一些实施例中,在用户搜索记录或其他数据库中记录有媒资搜索结果的情况下,可从用户搜索记录或其他数据库中获取第一媒资搜索结果和第二媒资搜索结果。在另外一些实施例中,也可实时发起媒资搜索过程,即,使用第一搜索请求文本发起媒资搜索请求,以获得第一媒资搜索结果,也可使用第二搜索请求文本发起媒资搜索请求,以获得第二媒资搜索结果。
其中,媒资搜索结果通常包括多个,称为媒资搜索结果集合,其中可包括一个或多个搜索结果,每个搜索结果中可包含搜索到的目标媒资名称,进一步地,还可包括目标媒资名称对应的一些其他相关信息,比如,以电影为例,媒资搜索结果中还可包括导演、演员等信息。
可选地,为了减少数据处理开销,本申请实施例中,可选取媒资搜索结果集合中排序靠前的N个搜索结果,以用于后续步骤处理。其中N为大于或等于1的整数,N的取值可根据需要设置。
S103:确定第二媒资搜索结果与第一媒资搜索结果的相似度。
可选地,该步骤中可通过以下方式计算第二媒资搜索结果与第一媒资搜索结果的相似度:确定第二媒资搜索结果和第一媒资所述结果之间的名称相似度,以及第二媒资搜索结果和第一媒资所述结果之间的主题相似度;然后,对名称相似度和主题相似度进行加权求和,得到第二媒资搜索结果与第一媒资搜索结果的相似度。
根据媒资名称和主题两个方面计算相似度,既考虑了媒资本身主题的相似性也考虑了媒资表现内容的相似性,具有鲁棒性。
S104:判断该相似度是否大于设定阈值,若判定为是,则转入S105,否则结束本流程。
S105:进行媒资合并,将第二媒资平台中的第二媒资名称对应的媒资,标记为与第一媒资平台中的第一媒资名称对应的媒资相同。
可选地,在一些实施例中,可通过以下方式进行媒资合并:将第二媒资平台中的第二媒资名称对应的媒资的媒资标签,设置为与第一媒资平台中的第一媒资名称对应的媒资的媒资标签相同。比如,可将第二媒资标签的内容设置为与第一媒资标签的内容相同。其中,媒资标签即为媒资的属性信息,其中可包含媒资名称,可通过媒资标签标识一个媒资。
举例来说,表1示例性示出了媒资合并前的媒资库中的部分信息,表2示例性示出了媒资合并后的媒资库中的部分信息。
表1:媒资合并前的媒资库
Figure BDA0002395230100000071
表2:媒资合并后的媒资库
Figure BDA0002395230100000072
将表1和表2进行对比可以看出,在合并前,针对同一个视频资源,在不同的资源平台具有不同的媒资名称;在合并后,针对同一个视频资源,其在不同的资源平台中的媒资名称都是相同的。其中,媒资名称可作为媒资标签,以用来标识相应的媒资。
本申请的上述实施例中,针对作为合并基准的第一媒资平台中的第一媒资名称,获取第二媒资平台中与该第一媒资名称匹配的第二媒资名称,并获取与第一媒资名称相匹配的第一搜索请求文本、与第二媒资名称相匹配的第二搜索请求文本,根据第一搜索请求文本获取对应的第一媒资搜索结果,根据第二搜索请求文本获取对应的第二媒资搜索结果,并根据第二媒资搜索结果与第一媒资搜索结果的相似度,对第二媒资平台中的第二媒资名称对应的媒资,与第一媒资平台中的第一媒资名称对应的媒资进行合并,从而实现了对不同媒资平台中的相同媒资进行合并。
可选地,在一些实施例中,可通过以下方式计算第二媒资搜索结果和第一媒资搜索结果之间的名称相似度:
首先,对于第一媒资搜索结果集合(VA_xip)中包含的每个搜索结果,获取其中的媒资名称(搜索结果中一般都包含媒资名称);对于第二媒资搜索结果集合(VT_yijp)进行相同处理,获取其中每个搜索结果中的媒资名称。
然后,针对第一媒资搜索结果集合中的每个搜索结果中的媒资名称,执行以下步骤:将该媒资名称分别与第二媒资搜索结果集合(VT_yijp)中的每个搜索结果中的媒资名称进行相似度计算,得到两两媒资名称之间的相似度,其中,该相似度与两个媒资名称所在的搜索结果在媒资搜索结果集合中的排名相关。
最后,将上述两两媒资名称之间的相似度的累加和,作为第二媒资搜索结果和第一媒资搜索结果之间的名称相似度。
上述过程中,可采用以下公式计算两两媒资名称之间的相似度:
Figure BDA0002395230100000081
其中
Figure BDA0002395230100000082
其中,VAxip,表示第一媒资搜索结果集合,a为VA_xip中的一个搜索结果中包含的媒资名称;VT_yijp表示第二媒资搜索结果集合,t为VT_yijp中的一个搜索结果中包含的媒资名称。rank(a)表示a在VAxip中的排名(比如,若a所属的搜索结果在VA_xip中的排名为第一位,则rank(a)的取值为1;若a所属的搜索结果在VA_xip中的排名为第二位,则rank(a)的取值为2;以此类推),rank(t)表示t在VT_yijp中的排名。
sim(a,t)表示a和t之间的特征向量相似度,其中,如果a和t完全匹配(即两个媒资名称相同),则sim(a,t)=1,否则sim(a,t)=0。
可选地,在一些实施例中,可通过以下方式计算第二媒资搜索结果和第一媒资搜索结果之间的主题相似度:
首先,对于第一媒资搜索结果集合(VA_xip)中包含的每个搜索结果,获取其中的媒资名称(搜索结果中一般都包含媒资名称),并根据媒资名称获取对应的一个或多个主题相关信息,形成主题词向量;对于第二媒资搜索结果集合(VT_yijp)进行相同处理,获取其中每个搜索结果的媒资名称,并根据媒资名称获取对应的一个或多个主题相关信息,形成主题词向量。
其中,根据媒资名称可查询到对应的媒资元数据库,其中包括该媒资的一个或多个主题的相关信息。比如以电影为例,一部影片的元数据库中可包括该影片的导演、演员、影片简介等相关主题的信息。通常,一个媒资的元数据库中可包括多个主题相关信息,本申请实施例中,可仅获取其中部分主题的相同信息,比如获取影片简介、导演、演员的信息。
每个搜索结果(或媒资名称)对应的主题词向量,可利用主题模型LDA(LatentDirichlet Allocation)生成。
然后,针对第一媒资搜索结果集合中的每个搜索结果对应的主题词向量,执行以下步骤:将该主题词向量分别与第二媒资搜索结果集合(VT_yijp)中的每个搜索结果对应的主题词向量进行相似度计算,得到两两主题词向量之间的相似度,其中,该相似度与两个主题词向量所在的搜索结果在媒资搜索结果集合中的排名相关。
最后,将上述两两主题词向量之间的相似度的累加和,作为第二媒资搜索结果和第一媒资搜索结果之间的主题相似度。
上述过程中,可采用以下公式计算两两媒资名称之间的相似度:
Figure BDA0002395230100000091
其中,表示第一媒资搜索结果集合,a为VA_xip中的一个搜索结果中包含的媒资名称;VT_yijp表示第二媒资搜索结果集合,t为VT_yijp中的一个搜索结果中包含的媒资名称。rank′(a)表示a或其对应的主题词向量在VA_xip中的排名(比如,若a所属的搜索结果在VA_xipVA_xip中的排名为第一位,则rank(a)的取值为1;若a所属的搜索结果在VA_xip中的排名为第二位,则rank(a)的取值为2;以此类推),rank′(t)表示t或其对应的主题词向量在VT_yijp中的排名。
表示a对应的主题词向量和t对应的主题词向量之间的特征向量相似度,其中,如果a对应的主题词向量和t对应的主题词向量完全匹配(即两个主题词向量相同),则sim′(a,t)=1,否则sim′(a,t)=0。
可选地,在一些实施例中,可通过以下方式,根据第二媒资搜索结果和第一媒资搜索结果之间的名称相sim′(a,t)似度和主题相似度,计算两者之间的相似度:
sim(a,t)=α*simN+β*simT………………(3)
其中,simN表示名称相似度,sim T表示主题相似度,α表示名称相似度对应的权重,β表示主题相似度对应的权重,α+β=1。可通过实验获取α,β的值。
基于相同的技术构思,本申请实施例还提供了一种媒资合并装置,可实现前述实施例描述的媒资合并方法。
图2示例性示出了本申请实施例提供的媒资合并装置的结构示意图,如图所示,该装置可包括:搜索请求文本获取模块201、搜索结果获取模块202、相似度确定模块203、媒资合并模块204,进一步地,还可包括媒资名称获取模块205。
搜索请求文本获取模块201,用于从用户搜索记录206中获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本二其中,第一搜索请求文本和第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本,第一媒资名称来自于第一媒资平台,第二媒资名称来自于第二媒资平台,第一媒资名称与第二媒资名称相匹配;
搜索结果获取模块202,用于根据第一搜索请求文本获取对应的第一媒资搜索结果,根据第二搜索请求文本获取对应的第二媒资搜索结果;
相似度确定模块203,用于确定第二媒资搜索结果与第一媒资搜索结果的相似度;
媒资合并模块204,用于若所述相似度大于设定阈值,则确定进行媒资合并,将第二媒资平台中第二媒资名称对应的媒资,标记为与第一媒资平台中第一媒资名称对应的媒资相同。
媒资名称获取模块205,用于获取第一媒资平台中作为合并基准的媒资的名称,作为第一媒资名称;从第二媒资平台中获取与第一媒资名称匹配的第二媒资名称,第二媒资名称为待确认是否合并的媒资名称。
可选地,媒资合并模块204可具体用于:将第二媒资平台中所述第二媒资名称对应的媒资的媒资标签,设置为与第一媒资平台中所述第一媒资名称对应的媒资的媒资标签相同。
可选地,相似度确定模块203可具体用于:确定第二媒资搜索结果和第一媒资所述结果之间的名称相似度;确定第二媒资搜索结果和所述第一媒资结果之间的主题相似度;对所述名称相似度和所述主题相似度进行加权求和,得到第二媒资搜索结果与第一媒资搜索结果的相似度。其中,相似度的计算方法参见前述实施例,在此不再重复。
基于相同的技术构思,本申请实施例还提供了一种媒资合并装置,可实现前述实施例描述的媒资合并方法。
图3示例性示出了本申请实施例提供的媒资合并装置的结构示意图,该装置可以是服务器。如图所示,该装置可包括:处理器301、存储器302,进一步地还可包括通信接口303。其中,处理器301也可以为控制器。处理器301被配置为支持该装置执行图1中涉及的功能。通信接口303被配置为支持该装置收发消息的功能。存储器302用于与处理器301耦合,其保存必要的程序指令和数据。其中,处理器301、通信接口303和存储器302相连,该存储器302用于存储指令,该处理器301用于执行该存储器302存储的指令,以控制通信接口303收发消息,完成上述方法中相应功能的步骤。
本申请实施例中,所涉及的与本申请实施例提供的技术方案相关的概念,解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述,此处不做赘述。
需要说明的是,本申请实施例上述涉及的处理器可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。其中,所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
本申请实施例还提供一种计算机存储介质,用于存储一些指令,这些指令被执行时,可以完成前述实施例所涉及的任意一种方法。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种媒资合并方法,其特征在于,包括:
从用户搜索记录中获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本;其中,所述第一搜索请求文本和所述第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本,所述第一媒资名称来自于第一媒资平台,所述第二媒资名称来自于第二媒资平台,所述第一媒资名称与所述第二媒资名称相匹配;
根据所述第一搜索请求文本获取对应的第一媒资搜索结果,根据所述第二搜索请求文本获取对应的第二媒资搜索结果;
确定所述第二媒资搜索结果与所述第一媒资搜索结果的相似度;
若所述相似度大于设定阈值,则确定进行媒资合并,将所述第二媒资平台中所述第二媒资名称对应的媒资,标记为与所述第一媒资平台中所述第一媒资名称对应的媒资相同。
2.如权利要求1所述的方法,其特征在于,从用户搜索记录中获取包含有与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本之前,还包括:
获取所述第一媒资平台中作为合并基准的媒资的名称,作为所述第一媒资名称;
从所述第二媒资平台中获取与所述第一媒资名称匹配的第二媒资名称,所述第二媒资名称为待确认是否合并的媒资名称。
3.如权利要求1所述的方法,其特征在于,将所述第二媒资平台中所述第二媒资名称对应的媒资,标记为与所述第一媒资平台中所述第一媒资名称对应的媒资相同,包括:
将所述第二媒资平台中所述第二媒资名称对应的媒资的媒资标签,设置为与所述第一媒资平台中所述第一媒资名称对应的媒资的媒资标签相同。
4.如权利要求1-3中任一项所述的方法,其特征在于,确定所述第二媒资搜索结果与所述第一媒资搜索结果的相似度,包括:
确定所述第二媒资搜索结果和所述第一媒资所述结果之间的名称相似度;
确定所述第二媒资搜索结果和所述第一媒资所述结果之间的主题相似度;
对所述名称相似度和所述主题相似度进行加权求和,得到所述第二媒资搜索结果与所述第一媒资搜索结果的相似度。
5.如权利要求4所述的方法,其特征在于,确定所述第二媒资搜索结果和所述第一媒资所述结果之间的名称相似度,包括:
分别获取第一媒资搜索结果集合和第二媒资搜索结果集合中包含的每个搜索结果中的媒资名称;
针对第一媒资搜索结果结合中的每个搜索结果中的媒资名称,执行以下步骤:将该媒资名称分别与第二媒资搜索结果集合中的每个搜索结果中的媒资名称进行相似度计算,得到两两媒资名称之间的相似度,其中,该相似度与两个媒资名称所在的搜索结果在媒资搜索结果集合中的排名相关;
将所述两两媒资名称之间的相似度的累加和,确定为所述第二媒资搜索结果和第一媒资搜索结果之间的名称相似度。
6.如权利要求4所述的方法,其特征在于,确定所述第二媒资搜索结果和所述第一媒资所述结果之间的主题相似度,包括:
分别获取第一媒资搜索结果集合和第二媒资搜索结果集合中的每个搜索结果中的媒资名称对应的一个或多个主题相关信息,形成每个搜索结果各自对应的主题词向量;
针对第一媒资搜索结果集合中的每个搜索结果对应的主题词向量,执行以下步骤:将该主题词向量分别与第二媒资搜索结果集合中的每个搜索结果对应的主题词向量进行相似度计算,得到两两主题词向量之间的相似度,其中,该相似度与两个主题词向量所在的搜索结果在媒资搜索结果集合中的排名相关;
将所述两两主题词向量之间的相似度的累加和,确定第二媒资搜索结果和第一媒资搜索结果之间的主题相似度。
7.一种媒资合并装置,其特征在于,包括:
搜索请求文本获取模块,用于从用户搜索记录中获取与第一媒资名称相匹配的第一搜索请求文本,与第二媒资名称相匹配的第二搜索请求文本;其中,所述第一搜索请求文本和所述第二搜索请求文本为用户语音输入的用于搜索目标媒资的搜索请求文本,所述第一媒资名称来自于第一媒资平台,所述第二媒资名称来自于第二媒资平台,所述第一媒资名称与所述第二媒资名称相匹配;
搜索结果获取模块,用于根据所述第一搜索请求文本获取对应的第一媒资搜索结果,根据所述第二搜索请求文本获取对应的第二媒资搜索结果;
相似度确定模块,用于确定所述第二媒资搜索结果与所述第一媒资搜索结果的相似度;
媒资合并模块,用于若所述相似度大于设定阈值,则确定进行媒资合并,将所述第二媒资平台中所述第二媒资名称对应的媒资,标记为与所述第一媒资平台中所述第一媒资名称对应的媒资相同。
8.如权利要求7所述的装置,其特征在于,还包括:
媒资名称获取模块,用于获取所述第一媒资平台中作为合并基准的媒资的名称,作为所述第一媒资名称;从所述第二媒资平台中获取与所述第一媒资名称匹配的第二媒资名称,所述第二媒资名称为待确认是否合并的媒资名称。
9.如权利要求7所述的装置,其特征在于,所述媒资合并模块,具体用于:
将所述第二媒资平台中所述第二媒资名称对应的媒资的媒资标签,设置为与所述第一媒资平台中所述第一媒资名称对应的媒资的媒资标签相同。
10.如权利要求7-9中任一项所述的装置,其特征在于,所述相似度确定模块,具体用于:
确定所述第二媒资搜索结果和所述第一媒资所述结果之间的名称相似度;
确定所述第二媒资搜索结果和所述第一媒资所述结果之间的主题相似度;
对所述名称相似度和所述主题相似度进行加权求和,得到所述第二媒资搜索结果与所述第一媒资搜索结果的相似度。
CN202010128799.8A 2020-02-28 2020-02-28 一种媒资合并方法及其装置 Pending CN111368100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010128799.8A CN111368100A (zh) 2020-02-28 2020-02-28 一种媒资合并方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010128799.8A CN111368100A (zh) 2020-02-28 2020-02-28 一种媒资合并方法及其装置

Publications (1)

Publication Number Publication Date
CN111368100A true CN111368100A (zh) 2020-07-03

Family

ID=71206584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010128799.8A Pending CN111368100A (zh) 2020-02-28 2020-02-28 一种媒资合并方法及其装置

Country Status (1)

Country Link
CN (1) CN111368100A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314737A (zh) * 2021-05-06 2022-11-08 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
CN115914674A (zh) * 2022-11-15 2023-04-04 四川启睿克科技有限公司 智能电视影视媒资的合并方法
WO2023051062A1 (zh) * 2021-09-28 2023-04-06 北京字节跳动网络技术有限公司 一种信息展示方法、装置以及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统
CN103116587A (zh) * 2011-11-17 2013-05-22 阿里巴巴集团控股有限公司 一种可缺省关键词的挖掘方法、数据搜索方法及设备
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
CN105144740A (zh) * 2013-05-20 2015-12-09 英特尔公司 弹性云视频编辑和多媒体搜索
CN106354827A (zh) * 2016-08-31 2017-01-25 Tcl集团股份有限公司 一种媒资数据整合方法及系统
CN107547912A (zh) * 2017-09-01 2018-01-05 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质
CN108846060A (zh) * 2018-06-01 2018-11-20 深圳市茁壮网络股份有限公司 一种补录媒资信息的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统
CN103116587A (zh) * 2011-11-17 2013-05-22 阿里巴巴集团控股有限公司 一种可缺省关键词的挖掘方法、数据搜索方法及设备
CN105144740A (zh) * 2013-05-20 2015-12-09 英特尔公司 弹性云视频编辑和多媒体搜索
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
CN106354827A (zh) * 2016-08-31 2017-01-25 Tcl集团股份有限公司 一种媒资数据整合方法及系统
CN107547912A (zh) * 2017-09-01 2018-01-05 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质
CN108846060A (zh) * 2018-06-01 2018-11-20 深圳市茁壮网络股份有限公司 一种补录媒资信息的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314737A (zh) * 2021-05-06 2022-11-08 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
WO2023051062A1 (zh) * 2021-09-28 2023-04-06 北京字节跳动网络技术有限公司 一种信息展示方法、装置以及计算机存储介质
CN115914674A (zh) * 2022-11-15 2023-04-04 四川启睿克科技有限公司 智能电视影视媒资的合并方法

Similar Documents

Publication Publication Date Title
CN107832434B (zh) 基于语音交互生成多媒体播放列表的方法和装置
US10970334B2 (en) Navigating video scenes using cognitive insights
US8370358B2 (en) Tagging content with metadata pre-filtered by context
US20100067867A1 (en) System and method for searching video scenes
CN111368100A (zh) 一种媒资合并方法及其装置
CN111898643B (zh) 一种语义匹配方法及装置
CN113139387B (zh) 语义纠错方法、电子设备及存储介质
WO2013078307A1 (en) Image searching
CN110061908A (zh) 应用程序推荐、装置、电子设备及介质
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN112395390B (zh) 意图识别模型的训练语料生成方法及其相关设备
US11010398B2 (en) Metadata extraction and management
CN111435367A (zh) 知识图谱的构建方法、系统、设备及存储介质
CN110569429A (zh) 一种内容选择模型的生成方法、装置和设备
CN107729491B (zh) 提高题目答案搜索的准确率的方法、装置及设备
CN115484266B (zh) 一种基于负载均衡的数据分发处理方法、系统及云平台
CN109558468B (zh) 资源的处理方法、装置、设备和存储介质
US20170169044A1 (en) Property retrieval apparatus, method and system
CN110866085A (zh) 数据反馈方法与装置
CN113705683B (zh) 推荐模型的训练方法、装置、电子设备及存储介质
CN111491198B (zh) 一种小视频搜索方法和装置
CN111338966B (zh) 数据源表的大数据加工检测方法及装置
CN113343069A (zh) 用户信息的处理方法、装置、介质及电子设备
CN111143582A (zh) 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN111597368A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703

RJ01 Rejection of invention patent application after publication