CN116483946A - 数据处理方法、装置、设备及计算机程序产品 - Google Patents

数据处理方法、装置、设备及计算机程序产品 Download PDF

Info

Publication number
CN116483946A
CN116483946A CN202210051843.9A CN202210051843A CN116483946A CN 116483946 A CN116483946 A CN 116483946A CN 202210051843 A CN202210051843 A CN 202210051843A CN 116483946 A CN116483946 A CN 116483946A
Authority
CN
China
Prior art keywords
word
focus
words
candidate
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210051843.9A
Other languages
English (en)
Inventor
王聪
潘禄
王杰
荆宁
陈楠
康秋生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210051843.9A priority Critical patent/CN116483946A/zh
Publication of CN116483946A publication Critical patent/CN116483946A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及计算机程序产品,其中方法包括:获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据信息;对所述查询数据进行实体词提取,得到目标资源相关的实体词;根据实体词从查询日志数据中确定目标资源对应的目标焦点词以当存在针对目标资源的查询操作时,基于目标焦点词输出目标资源相关联的推荐信息。采用本申请实施例,可以节省人力资源,提高焦点词抽取效率。

Description

数据处理方法、装置、设备及计算机程序产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及计算机程序产品。
背景技术
为了提高流量,很多具有搜索功能的应用选择基于资源对应的焦点词来对资源的相关信息进行运营。比如在浏览器应用中,如果有用户输入了与某个多媒体资源相关的查询操作,可以基于该多媒体资源的焦点词输出一些与该多媒体资源相关的推荐信息,比如焦点词相关的视频片段或者图像等等;再如,针对一个文本资源来说,可以输出文本资源对应的相关评论中与焦点词对应的评论。因此,如何确定某个资源对应的焦点词成为当今研究的热点问题之一。
发明内容
本申请实施例提供了一种数据处理方法,装置、设备及计算机程序产品,提高了焦点词抽取效率。
一方面,本申请实施例提供了一种数据处理方法,包括:
获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
对所述查询数据进行实体词提取,得到目标资源相关的实体词;
根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
一方面,本申请实施例提供了另一种数据处理方法,包括:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;
响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
一方面,本申请实施例还提供了一种数据处理装置,包括:
获取单元,用于获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
提取单元,用于对所述查询数据进行实体词提取,得到目标资源相关的实体词;
确定单元,用于根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
一方面,本申请实施例提供了另一种数据处理装置,包括:
显示单元,用于响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;
所述显示单元,还用于响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
一方面,本申请实施例提供了一种数据处理设备,包括:处理器,适用于实现一条或多条计算机程序;计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行:
获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
对所述查询数据进行实体词提取,得到目标资源相关的实体词;
根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
一方面,本申请实施例提供了另一种数据处理设备,包括:处理器,适用于实现一条或多条计算机程序;计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索包括所述目标资源对应的焦点词信息,所述焦点词信息由所述焦点词确定;
响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被数据处理设备的处理器执行时,用于执行:
获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
对所述查询数据进行实体词提取,得到目标资源相关的实体词;
根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
所述计算机程序被数据处理设备的处理器执行时,还用于执行:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索包括所述目标资源对应的焦点词信息,所述焦点词信息由所述焦点词确定;
响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品包括计算机程序,计算机程序存储在计算机存储介质中;数据处理设备的处理器从计算机存储介质中读取计算机程序,该处理器执行计算机程序,使得数据处理设备执行:
获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
对所述查询数据进行实体词提取,得到目标资源相关的实体词;
根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
数据处理设备的处理器从计算机存储介质中读取计算机程序,该处理器执行计算机程序,使得数据处理设备执行:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索包括所述目标资源对应的焦点词信息,所述焦点词信息由所述焦点词确定;
响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
本申请实施例中,数据处理设备可以获取到查询日志数据,查询日志数据中包括了查询数据以及查询数据信息;对查询数据进行实体词提取,可以得到目标资源相关的实体词;进一步的,根据提取到的实体词从查询日志数据中确定目标资源对应的目标焦点词,以当存在针对目标资源的查询操作时,基于目标资源对应的目标焦点词来输出目标资源相关联的推荐信息。实现了自动抽取焦点词,无需人工参与,大大减少了焦点词抽取所需的成本,提高了焦点词抽取效率。另外,由于目标焦点词是根据待推荐对象的查询日志数据确定的,所以目标焦点词一定程度是待推荐对象针对目标资源比较关注、或者说感兴趣的内容维度,因此基于目标焦点词来输出目标资源相关联的推荐信息,有助于向待推荐对象推荐其针对目标资源比较关注的信息,使其可高效快速地获取到感兴趣的信息,提高查询、搜索效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种输出目标多媒体文件相关联的推荐信息的示意图;
图1b是本申请实施例提供的另一种输出目标多媒体文件相关联的推荐信息的示意图;
图1c是本申请实施例提供的又一种输出目标多媒体文件相关联的推荐信息的示意图;
图1d是本申请实施例提供的再一种输出目标多媒体文件相关联的推荐信息的示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种在浏览器中进行查询的示意图;
图4是本申请实施例提供的一种输入查询数据的示意图;
图5a是本申请实施例提供的一种焦点词处理模型的结构示意图;
图5b是本申请实施例提供的一种提取目标资源对应的目标焦点词的示意图;
图6是本申请实施例提供的另一种数据处理方法的流程示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的另一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种数据处理设备的结构示意图;
图10是本申请实施例提供的另一种数据处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。需要说明的是,在本申请中,涉及到用户的查询数据、查询结果信息等相关的数据,在本申请以下实施例运用到具体产品或技术中时,其均为获得用户许可或者同意,且相关数据的提取、使用和处理遵守当地安全标准和当地法律法规的规定。
焦点词用于表征一个资源中被用户重点关注、用户比较感兴趣的内容。换句话说,焦点词可以理解为用户感兴趣的信息维度。焦点词可以是实体词,例如影视剧的名字、影视剧中各个角色的角色名;再如,能够表达正篇文章的中心思想、主题的关键词;或者,焦点词还可以是非实体词,比如一个影视剧中的焦点词可以是感人瞬间、神剧情等等。本申请在对焦点词进行研究时,提出了两种确定目标资源(目标资源是指任意一种类型的任意一种资源,比如多媒体资源、纯文本资源等等)对应焦点词的方案:
第一种是:从运营目标资源的网站中抽取出与目标资源相关的查询日志数据,将查询日志数据输出以供工作人员从查询日志数据中抽取出被用户查询次数较多、被用户点击或者交互次数较多的字词作为该目标资源对应的焦点词;
第二种是:数据处理设备获取查询日志数据,该查询日志数据中包括任意对象的查询数据以及与该查询数据对应的查询结果信息;并数据处理设备对查询日志数据进行分析处理以从查询日志数据中抽取出目标资源对应的焦点词。
为了避免人力资源的浪费以及提高提取焦点词效率,本申请下面将重点研究第二种方案。基于上面的第二种方案,本申请实施例提供了一种数据处理方案,能够在无需人工参与的情况下,自动地抽取出目标资源中的目标焦点词,节约了抽取焦点词所需成本以及提高了焦点词的抽取效率。具体实现中,获取查询日志数据,并对查询日志数据中的查询数据进行实体词抽取,得到目标资源相关的实体词;进一步的,根据实体词从查询日志数据中提取所述目标资源对应的目标焦点词。
该数据处理方案可由数据处理设备执行,数据处理设备可以是终端,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能家电、智能语音交互设备等;或者,数据处理设备也可以是服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
可选的,该数据处理方案也可以是由数据处理设备和日志管理设备共同执行,日志管理设备可以是终端或者服务器。数据处理设备用于接收对象输入的对任意一个资源的查询数据,比如查询数据可以为“xxx电影中xxx角色的真实姓名”,或者,查询数据还可以是“xxx电视剧xxx角色的人物原型”等,然后数据处理设备将接收到的查询数据传输给日志管理设备进行存储,并且日志管理设备会返回给数据处理设备与查询数据相关的查询结果标识以及查询结果,以由数据处理设备显示查询数据相关的查询结果标识,当任意一个查询结果标识被触发时,显示查询结果标识所标识的查询结果。需要说明的是,数据处理设备的数量可以为一个或多个。
当任意一个数据处理设备需要进行焦点词抽取时,可以从日志管理设备处获取查询日志数据,然后数据处理设备对查询日志数据中的查询数据进行实体词抽取,得到目标资源相关的实体词,并根据该实体词从查询日志数据中确定出目标资源对应的焦点词,接着数据处理设备可以将目标资源对应的焦点词传输给日志管理设备,由日志管理设备存储目标资源对应的焦点词,并当数据处理设备需要运营目标资源相关联的推荐信息时,日志管理设备再将目标资源对应的焦点词传输给数据处理设备。
上述只是本申请实施例列举的数据处理设备与日志管理设备之间一种可行的实施方式,在具体实现中可以包括其他任意可行的方式,比如数据处理设备得到焦点词后将焦点词存储在本地;再或者,日志管理设备将查询日志数据存储到区块链中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。由于区块链的这种结构,区块链中的数据是不可篡改的,将查询日志数据存储到区块链中可以基于区块链的不可篡改性保证查询日志数据的安全性,从而可以提高后续基于查询日志数据抽取目标资源的焦点词的准确性。
本申请实施提供的上述数据处理方案可以应用在通过浏览器对多媒体文件进行相关查询的场景中,例如,可以应用在浏览器中的IP视频搜索场景中。采用本申请上述的数据处理方案可以围绕新热的电视剧、电影、动画等IP剧目,挖掘用户关注的剧情热议焦点,满足用户对剧情的短视频消费需求,满足好奇心,制造愉悦感。同时,在IP视频搜索上打造差异化的产品体验,用于投放获取业务搜索量增长。在浏览器中进行IP视频搜索的场景中,目标资源可以是目标多媒体文件,通过上述数据处理方案得到目标多媒体文件对应的焦点词的数量可以N,将N个焦点词存储到浏览器对应的数据库中。该浏览器对应的数据库中还存储了目标多媒体文件相关联的多个推荐信息。当在该浏览器中接收到关于目标多媒体文件的查询操作时,数据处理设备可以基于数据库中存储的N个焦点词来输出目标多媒体文件对应的多个推荐信息,在一种实施方式中,基于N个焦点词输出目标多媒体文件对应的多个推荐信息是指将N个焦点词作为组织信息的维度,把目标多媒体文件对应的多个推荐信息中属于每个维度下的信息整合,并与对应的焦点词关联,从而基于焦点词可获得与焦点词对应维度下的信息。
在一种示例性的具体应用中,浏览器可以显示一个查询页面,查询操作可以指对象在查询页面中输入了文本信息或者语音信息,并输入了确定查询的操作。参见图1a,为本申请实施例提供的一种输出目标多媒体文件相关联的推荐信息的示意图,假设101表示浏览器的查询页面,101所示的查询页面可以包括一个搜索输入框如102所示,对象可以在搜索输入框102中输入文本信息,比如搜索输入框102中输入的文本信息可以是目标多媒体文件的名称“xxx”;还可以是目标多媒体文件中某个情节或某个角色等等;101所示的查询页面中还可以包括确认查询选项如103所示,当确认查询选项103被触发时确定对象输入了确定查询的操作;当对象在搜索输入框102中输入文本信息且确认查询选项103被选中时,确定存在对目标多媒体文件进行查询的查询操作。当存在查询操作时,数据处理设备根据查询操作确定此时需要输出与目标多媒体文件相关的推荐信息,于是从数据库中获取目标多媒体文件对应的N个焦点词以及目标多媒体文件相关的的L个推荐,这L个推荐信息中一个推荐信息对应一个信息标识,比如推荐信息是视频,推荐信息对应的信息标识可以是视频的标题;或者推荐信息是一篇文章,推荐信息对应的信息标识可以是这篇文章的标题;根据N个焦点词和L个推荐信息之间的匹配关系,显示L个推荐信息。
在一个实施例中,根据N个焦点词和L个推荐信息之间的匹配关系显示L个推荐信息,可以包括:在查询页面中显示N个焦点词;当任一焦点词被选中时,显示与任一焦点词相匹配的信息标识对应的推荐信息。例如,在101所示的查询页面中,104所示的区域内包括目标多媒体文件对应的多个焦点词,比如焦点词1、焦点词2、焦点词3以及焦点词4;当焦点词1被触发时,数据处理设备显示与焦点词1相匹配的推荐信息如图1a中105所示,比如与焦点词1相比配的推荐信息1A以及1B。在显示与焦点词1相匹配的推荐信息时,还可以同时显示该推荐信息的信息标识,比如推荐信息11对应的信息标识12。
在一个实施例中,查询页面在显示多个焦点词时,在多个焦点词的相邻位置处还可以显示一些目标资源相关联的推荐信息,这些推荐信息可以是目标资源相关联的推荐信息中任意的信息,如图1a中106所示;这些推荐信也可以是与某个焦点词相关联的推荐信息。比如多个焦点词可以是按照一个随机的顺序显示在查询页面中的,查询页面还可以同时显示与处于第一顺序的焦点词相匹配的推荐信息。
在查询页面中目标资源相关联的推荐信息是以横向显示的,横向显示可以是指每一行显示2个或多个推荐信息,推荐信息对应的信息标识显示在相应推荐信息的下方或者上方;当任一焦点词被选中时,与任一焦点词相匹配的信息表示显示在一个垂搜页面,在垂搜页面中各个焦点词对应的推荐信息是垂直显示的,垂直显示是指每一行只显示一个推荐信息,推荐信息对应的信息标识显示在相应推荐信息的右侧或者左侧。
又一个实施例中,根据N个焦点词与L个推荐信息之间的匹配关系,显示L个推荐信息,还可以指:在查询页面中显示N个焦点词的概要信息以及触发选项;当触发选项被选中时,显示N个焦点词并当N个焦点词中任一焦点词被触发时,显示任一焦点词对应的推荐信息。
其中,查询页面中显示的N个焦点词对应的概要信息可以是对N个焦点词的一个总结信息,N个焦点词的概要信息可以是由任意一个焦点词+其他总结性内容表示,比如“焦点词1等热门话题”;或者,N个焦点词的概要信息还可以是只包括总结性内容比如“热门焦点词”。参见图1b,为本申请实施例提供的另一种输出目标多媒体文件相关联的推荐信息的示意图。在图1b中查询页面表示为111,在查询页面111中112表示N个焦点词对应的概要信息,113表示触发选项,该触发选项可以是“更多”;当选中113所示的触发选项后,数据处理设备显示N个焦点词如114中115区域内所示,这N个焦点词可以分别为焦点词1、焦点词2、焦点词3以及焦点词4。如果数据处理设备的使用对象选中焦点词2,则可以显示与焦点词2相匹配的推荐信息如图1b中116部分所示。
可选的,如果N个焦点词的概要信息中包括了任一焦点词,则在查询页面中显示概要信息的同时,还可以显示与该任一个焦点词相匹配的推荐信息,比如在图1b中概要信息是指焦点词1,那么在查询页面中还可以显示与焦点词1相匹配的推荐信息如图1b中117区域内所示。
需要说明的是,在图1b中当触发选项被选中后N个焦点词可以按照任意顺序依次显示,并且在任意一个焦点词被触发之前,可以默认显示与排列在第一位的焦点词相匹配的推荐信息。
可能由于数据处理设备的屏幕尺寸限制,在显示N个焦点词时可能不会一次性将N个焦点词全部显示出来。作为一种可选的实施方式,可以根据数据处理设备的屏幕尺寸确定出一个目标数量比如为i,将N个焦点词中i个焦点词进行显示,将其他焦点词进行折叠;当存在用于显示被折叠焦点词的触发操作时,显示被折叠的焦点词。其中,用于显示被折叠焦点词的触发操作可以是指在显示i个焦点词的区域输入左右划动的操作。比如,参见图1c,为本申请实施例提供的一种查看N个焦点词的示意图,010表示展示页面,011所标识的区域是展示页面中用于显示N个焦点词的区域,假设N的取值为6,也就是说存在6个焦点词,但是该区域内一次只能显示4个焦点词,此时可以通过在011所标识的区域内进行左右划动,向左划动时可以查看焦点词5和/或焦点词6,此时焦点词1和/或焦点词2被隐藏如图1c中012所示;向右划动,焦点词5和/或焦点词6被隐藏,焦点词1和/或焦点词2又重新显示在011所指示的区域内。
可选的,用于显示被折叠焦点词的触发操作还可以是指:查询页面中包括触发显示全部焦点词的触发选项,当该触发选项被选中时,确定存在用于显示被折叠焦点词的触发操作。参见图1d,为本申请实施例提供的又一种查看N个焦点词的示意图,013表示查询页面,014表示查询页面中显示的一部分焦点词,015表示查看全部焦点词的触发选项。假设N的取值为6,也就是说存在6个焦点词,但是014处只显示4个焦点词,当015选项被触发时,在查询页面中显示出焦点词5和焦点词6,,如图1d中016所示。
应当理解的,与查询请求相匹配的L个推荐信息可能包括很多种类,比如视频类、资讯类、用户类、相关小程序等等,所以在第一页面中可以显示这些类信息对应的筛选项以供对象选择相应种类的推荐信息来查看。比如,在图1a的查询页面中显示的筛选项可以为“综合”、“资讯”、“用户”以及“小程序”等等。
需要说明的是,上述只是本申请列举出的数据处理方案的一种应用场景,在实际中,本申请的数据处理方案还可以应用在其他需要推送任意类型文件相关联的推荐信息的场景中,比如应用在多媒体应用程序中,通过分析多媒体应用程序中历史时间段的查询日志数据,确定出该多媒体应用中所支持播放的各个多媒体文件对应的焦点词,下次当有对象在该多媒体应用中查询任意一个多媒体文件时,根据该多媒体文件对应的焦点词向对象推送该多媒体文件相关的视频片段、图片或者文字信息等。
基于上述的数据处理方案,本申请实施例提供了一种数据处理方法,参见图2,为本申请实施例提供的一种数据处理方法的流程示意图。图2所述的数据处理方法可由数据处理设备执行,具体可由数据处理设备的处理器执行。图2所述的数据处理设备可包括如下步骤:
步骤S201、获取查询日志数据,该查询日志数据包括查询数据以及查询结果信息。
该查询日志数据可以是消息处理设备从本地存储中获取到的,或者,查询日志数据可以是存储在其他设备中,数据处理设备通过与其他设备交互以获取到的。比如查询日志数据存储在一个专门管理日志数据的设备中,该设备该可以是区块链网络中任意一个节点,如此一来,查询日志数据可以存储在区块链网络中以保证查询日志数据不被篡改。
查询日志数据可以是任意历史时间段内一个或多个对象在任意一个应用程序或者网站中进行查询时的记录数据。在一个实施例中,查询日志数据中可以包括查询数据,查询数据的数量为一个或多个,一个查询数据可以用一个query表示。本申请实施例中在无特殊说明的情况下,下述提到的查询数据可以是查询日志数据中任意一个查询数据,对于其他任意查询数据均采用本申请实施例的数据处理方法进行相同的处理。查询数据就是指对象想要查询的内容,例如,如果查询日志数据是来自于浏览器,那么一条查询数据可以理解为浏览器的搜索输入框中输入的内容。举例来说,参见图3,为本申请实施例提供的一种在浏览器中进行查询的示意图,301表示浏览器的查询界面,302表示查询界面中包括的搜索输入框,如果在该搜索输入框302中输入了“x电视剧中y角色的人物原型”,那么“x电视剧中y角色的人物原型”就是一个查询数据。
或者,搜索输入框302中可以包括语音输入选项如303所示,对象可以通过触发语音输入选项303来输入一段语音,然后数据处理设备将输入的语音转换成文本显示在搜索输入框302中,此时搜索输入框302中显示的文本内容即为查询数据。例如,语音输入选项303被触发后,数据处理设备显示一个语音输入的提示窗口如图4中401所示,对象根据语音输入的提示窗口中的提示输入一段语音,数据处理设备将该语音转换成文本信息为“xxxxxx电影中扮演xyzw的演员叫什么名字”,那么“xxxxxx电影中扮演xyzw的演员叫什么名字”就是一个查询数据。
又一个实施例中,查询日志数据中还可以包括查询数据对应的查询结果信息,一个查询数据对应一个或多个查询结果,每个查询结果对应一个查询结果信息。可选的,本申请实施例所提到的查询结果可以是指查询数据对应的多个查询结果中点击数大于点击数阈值的查询结果;或者,也可以查询数据对应的所有查询结果。在无特殊说明的情况下,为了简单清楚的描述,本申请实施例以一个查询结果为例,对于其他查询结果可以采用本申请实施例相同的方法进行处理。
每个查询数据对应的查询结果是指与查询数据相匹配的信息,比如数据库中存储了很多电视剧的精彩视频片段、存储了很多演员的简介信息,当查询数据为xxx电视剧时,数据库中存储的与该xxx电视剧相关的信息均可以作为与该查询数据相匹配的查询结果进行输出。一个查询结果的查询结果信息可以是查询结果的标识、查询结果或者查询结果的概要信息中任意一种或多种。其中,查询结果的标识可以是指查询结果的标题、查询结果的封面信息中任意一种或多种,例如,在图3中304和305均是与查询数据“xxy电视剧中xzx角色的人物原型”对应的查询结果标识。查询结果的概要信息可以是查询结果的任意一部分内容,或者能够表达查询结果的主题的内容。举例来说,假设查询结果是一篇文章,查询结果的概要信息可以是指这篇文章的摘要部分内容;查询结果是一段视频,查询结果的概要信息可以是这段视频的封面。
步骤S202、对查询数据进行实体词提取,得到目标资源相关的实体词。
实体词是代词和名词的统称,比如一个查询数据为“xxy电视剧中的xzx角色”,在这个查询数据中xxy电视剧和xzx角色是实体词。目标资源相关的实体词可以包括目标资源的名称以及目标资源相关的任意内容的实体词,比如目标资源是多媒体文件,那么多媒体文件相关的实体词可以是多媒体文件的名称、多媒体文件中相关角色的角色名;再如目标资源是文本文件,那么文本文件相关的实体词可以是文本文件的名称、能概括文本文件中心思想的任意名词或者代词。
实体词抽取又可以称为命名实体识别,在一个实施例中,数据处理设备可以采用传统机器学习方法对查询数据进行实体抽取。比如,收集训练文档,并为训练文档中每个词标记命名实体;设计适合该训练文档的特征提取方法,并基于训练文档和训练文档中标记出的命名实体和特征提取方法训练一个模型,训练完成后,调用该模型对查询数据进行实体词抽取,输出查询数据中的实体词。
在其他实施例中,数据处理设备还可以通过编码方式、深度学习方式来对查询数据进行实体词抽取,本申请实施例在这里不做具体介绍。
对查询数据进行实体词提取会得到一个或多个实体词,将这些实体词确定为候选实体词,然后将一个或多个候选实体词映射到实体词库中以从实体词库中确定出每个候选实体词对应的实体类型,实体类型可以包括多媒体类型、文本类型以及其他类型;基于每个候选实体词对应的实体类型,从一个或多个候选实体词中选取实体类型为目标类型的候选实体词,将选取出的候选实体词作为目标多媒体文件相关的实体词。其中,目标类型是指目标资源所属类型,比如目标资源为多媒体文件,那么目标资源所属类型为多媒体类型;如果目标资源为文本文件,那么目标资源所属类型为文本类型。
实体词库中可以存储了多种类型资源对应的大量实体词以及每个实体词对应的实体类型,将一个或多个候选实体词映射到实体词库中以从实体词库中确定出每个候选实体词对应的实体类型可以指:从实体词库中找到与每个候选词对应的实体词,将找到的每个实体词所属的实体类型确定为每个候选实体词的实体类型。
步骤S203、根据实体词从查询日志数据中确定目标资源对应的目标焦点词。
虽然通过步骤S202已经确定出目标资源包括的一些实体词,但是不能只认定这些实体词就是目标资源的焦点词,因为可能查询日志数据中还存在一些非实体但可作为焦点词的词,例如假设目标资源为多媒体文件,如‘神剧情’、‘感人瞬间’这些非实体词也有可能是用户关注的焦点词,作为多媒体文件的焦点词。对于这部分焦点词需要通过步骤S203确定出。
在执行步骤S203时,具体可包括:从查询日志数据中筛选出与实体词相关联的多个候选词;从多个候选词中确定目标资源对应的目标焦点词。其中,从查询日志数据中筛选出与实体词相关联的多个候选词是指:对查询数据进行分词处理得到查询数据包括的各个特征词,以及从查询结果信息中确定出包括实体词的目标信息,并对目标信息进行分词处理得到目标信息包括的各个特征词;将查询数据包括的各个特征词和目标信息包括的各个特征词可以作为查询日志数据中与实体词相关联的多个候选词。其中,一个特征词可以称为一个token,那么一个候选词就是指一个特征词,所以一个候选词也可以使用一个token表示。
其中,对查询数据进行分词处理得到特征词是指:对查询数据进行分词处理,得到查询数据中包括的每个词,然后从这些词中过滤掉无意义的词,将筛选剩下的词作为对查询数据进行分词处理的特征词。同理的,对目标信息进行分词处理得到的特征词是指对目标信息进行分词处理得到特征词是指:对目标信息进行分词处理得到目标信息包括的每个词,然后从这些词中过滤掉无意义的词,将筛选剩下的词作为对目标信息进行分词处理得到的特征词。其中,无意义的词是指虚词、感叹词、限定词等等,比如‘的’、‘地’、‘一个’。
数据处理设备可以采用相同的分词方法对查询数据和目标信息进行分词处理。常用的分词方法可以包括基于词典分词算法,比如正向最大匹配法、逆向最大匹配法和双向匹配分词法,以及基于统计的机器学习算法比如基于神经网络的分词器,还有结巴分词工具等等。本申请实施例可以采用上述任意一种分词方法对查询数据和目标信息进行分词处理。举例来说,查询数据为“xyz电视剧中xx角色的人物原型”,对查询数据进行分词处理,得到多个词可以分别为‘xyz’、‘电视剧’、‘xx’、‘角色’、‘的’、‘人物’,‘原型’。在这些词中,过滤掉无意义的词,比如‘的’,剩下的词可以作为对查询数据进行分词处理得到的特征词。
由前述可知,查询结果信息可以包括查询结果的标识、查询结果以及查询结果的概要信息中任意一个或多个;如果查询结果包括查询结果的标识,那么查询结果信息中包括实体词的目标信息可以就是指该查询结果的标识;如果查询结果包括查询结果,那么查询结果中包括实体词的目标信息可以是指查询结果中包括实体词的句子或者段落;同理的,如果查询结果包括查询结果的概要信息,那么查询结果中包括实体词的目标信息也是指包括实体词的段落或者句子。
本申请实施例通过从查询数据和查询结果信息中提取目标资源对应的目标焦点词,而不仅仅是从查询数据中提取目标焦点词,是因为可能有一部分词虽然没有出现在查询数据中,但是在查询结果信息中出现的比较频繁,那么说明这部分词也可能是目标资源中被对象重点关注的内容。
在一个实施例中,数据处理设备在从多个候选词中确定目标资源对应的焦点词时,首先基于查询数据包括的各个特征词和查询结果信息包括的各个特征词对多个候选词中每个候选词进行语义融合和特征提取处理,以得到每个候选词对应的词特征;然后基于每个候选词对应的词特征进行焦点词抽取处理,得到目标资源对应的目标焦点词。
具体实现中,数据处理设备可以调用焦点词处理模型来执行基于查询数据包括的各个特征词和查询结果信息包括的各个特征词对多个候选词中每个候选词进行语义融合和特征提取处理的步骤,具体可以是调用焦点词处理模型中的语言处理模型来执行。参见图5a,为本申请实施例提供的一种焦点词处理模型的结构示意图,500表示焦点词处理模型,焦点词处理模型500中可以输入层501和语言处理模型502,输入层501和语言处理模型502相连接,输入层501用于接收查询数据包括的各个特征词和查询结果数据包括的各个特征词,例如,在图5a中504所指示的区域内是查询数据中的各个特征词,505所指示的区域内是查询结果数据包括的各个特征词。
输入层501将查询数据中的各个特征词以及查询结果数据包括的各个特征词传输给语言处理模型502,语言处理模型502可以是预训练的任意一个语言处理模型比如基于Transformer的双向编码器(Bidirectional Encoder Representations fromTransformer,BERT)模型、马尔可夫模型以及隐马尔可夫模型等等。本申请实施例中以语言处理模型为BERT模型为例进行介绍。语言处理模型502可以构成了焦点词处理模型的特征提取层51。
语言处理模型502基于查询数据包括的各个特征词和查询结果信息包括的各个特征词对每个候选词向量进行语义融合和特征提取。应当理解的,与查询数据对应的查询结果可能为一个或多个,语言处理模型502基于查询数据包括的各个特征词和查询结果信息包括的各个特征词对每个候选词进行语义融合和特征提取的中心思想是:将查询数据包括的各个特征词与每个查询结果中的各个特征词进行交互,基于交互过程对每个候选词向量进行特征提取,得到每个第候选词向量对应的词特征。例如,505所指示的区域内包括的每个候选词对应的词特征。应当理解的,每个候选词包括查询数据中的每个特征词,以及包括查询结果信息中目标信息包括的特征词,那么在将查询数据中各个特征词以及查询结果中各个特征词输入到焦点词处理模型时,各个候选词也是输入到焦点词处理模型中的。每个候选词对应的词特征在505所指示的区域内的顺序与每个候选词的输入顺序可以是相同的。
进一步的,数据处理设备在得到每个候选词对应的词特征之后,可以基于每个候选词对应的词特征进行焦点词抽取处理,得到目标资源对应的N个焦点词。在一个实施例中,焦点词处理模型除了包括语言处理模型外,还可以包括焦点词提取模型如图5a中52所示,焦点词提取模型52构成了焦点词处理模型中的任务层,该焦点词提取模型还可以包括抽取模型如图5a中511所示,基于每个候选词对应的词特征进行焦点词抽取处理可以是数据处理设备调用焦点词处理模型中的抽取模型执行的。具体实现中,数据处理设备调用抽取模型执行基于每个候选词对应的词特征对查询数据进行焦点词抽取处理,得到目标资源对应的目标焦点词,可以包括如下步骤:
s1:将多个候选词中组成实体词的多个候选词对应的词特征进行合并得到实体词合并特征。由前述可知,每个候选词是对查询数据或者目标信息进行分词处理得到的,那么一个候选词对应查询数据中一个词或者目标信息中一个词,这样一来,一个实体词可能被拆分到好几个候选词中。比如从查询数据中提取出的实体词为张三传奇,那么在对查询数据进行分词处理时,可能把张三拆分作为一个特征词,把传奇拆分作为一个特征词。在图5a中v-sub表示将包括实体词的每个候选词对应的词特征进行合并得到的实体词合并特征。如果查询数据中包括多个实体词,那么就针对上述每个实体词都进行步骤s1,得到每个实体词对应的实体词合并特征。
数据处理设备可以在得到每个候选词之后,使用双指针标记每个候选词在查询数据或者目标信息中所属位置,所属位置可以包括两个信息,一个是起始位置标记,一个是结束位置标记,如果一个候选词对应的起始位置标记为1,结束位置标记为0,则说明该候选词属于一个实体词的起点,也就是说明该候选词是组成实体词的一个候选词。如果一个候选词所属位置中,起始位置和结束位置都为0,表明该候选词既不是一个实体词的起始位置也不是一个实体词的结束位置,那么有可能不属于实体词的组成部分,也可能属于实体词的中间位置。比如,在图5a中,507区域内指示了每个候选词的所属位置。s1可以按照每个候选词的所属位置,确定出组成实体词的多个候选词,然后将这多个候选词对应的词特征进行合并,得到实体词合并特征。可选的,可以使用最大池化(max-pooling)对组成实体词的多个候选词对应的词特征在维度上进行合并处理以得到实体词合并特征。
s2:将实体词合并特征分别与每个候选词对应的词特征进行拼接处理,得到每个候选词对应的拼接特征。在图5a中,用h表示每个候选词对应的词特征,h+v-sub表示每个候选词对应的拼接特征,每个候选词对应的拼接特征需要输出给抽取模型,以便于执行下述步骤s3。
s3:基于每个候选词对应的拼接特征预测每个候选词的位置概率,每个候选词的位置概率用于表示每个候选词属于一个焦点词的起始位置或者结束位置。
s4:根据每个候选词对应的位置概率依次标记出每个候选词的所属位置。如果某个候选词属于一个焦点词的起始位置,那么该候选词的所属位置用于指示属于起始位置,不属于结束位置。此处可以理解为使用了双指针来标记每个候选词的所属位置。例如,如果一个候选词的所属位置是一个焦点词的起始位置,那么该候选词的所属位置可以表示为:起始位置标记为1,结束位置标记为0。例如,在图5a中,508区域示出了为每个候选词标记出的所属位置。
s5:依次将所属位置为起始位置的第一候选词和所属位置为结束位置的第二候选词以及第一候选词和第二候选词之间的各个候选词组成一个焦点词,以确定出M个候选焦点词。如图5a中,在区域508中也就是说将起始位置处标记为1,结束位置处标记为1之间的各个候选词组成一个候选焦点词。
s6:从M个候选焦点词中确定目标资源对应的目标焦点词。作为一种可选的实施方式,可以将M个候选焦点词均作为目标资源对应的目标焦点词。
作为另一种可选的实施方式,由于本申请只是以处理一条查询数据为例,在实际处理时,需要对很多查询数据都采用本申请的上述各个步骤进行处理,每次处理一个查询数据就可以得到目标资源对应的M个候选焦点词,那么如果处理多个查询数据就能够得到多组M个候选焦点词。这些候选焦点词中可能会存在重复的,因此,在每次处理一个查询数据得到M个候选焦点词之后,可以将M个候选焦点词添加到焦点词候选集中;然后对焦点词候选集中的所有候选焦点词进行去重处理,将去重处理后的候选焦点词作为目标资源对应的目标焦点词。
作为又一种可选的实施方式,通过步骤s5得到的M个候选焦点词可能并不是每个候选焦点词都适合作为目标资源的目标焦点词,需要对这M个候选焦点词中每个候选焦点词进行一个判别处理,以确定每个候选焦点词是否适合作为目标资源的目标焦点词。数据处理设备可以调用焦点词处理模型中的判别模型来执行该步骤,判别模型的作用就是过滤掉一些不合适的候选焦点词。在图5a中,509所示为判别模型。具体实现中,调用判别模型,将多个候选词中组成每个候选焦点词的多个候选词对应的词特征分别进行合并处理,得到每个候选焦点词对应的候选焦点词合并特征;分别将每个候选焦点词对应的候选焦点词合并特征与实体词合并特征进行拼接处理,得到每个候选焦点词对应的拼接特征;基于每个候选焦点词对应的拼接特征对每个候选焦点词进行判别,得到所述每个候选焦点词对应的判别结果,每个候选焦点词对应的判别结果用于指示每个候选焦点词作为目标资源对应的目标焦点词的概率;根据每个候选焦点词的判别结果对所述M个候选焦点词进行筛选得到W个候选焦点词,并将所述W个候选焦点词添加到焦点词候选集中,从所述焦点词候选集中确定所述目标资源对应的目标焦点词。其中,M为正整数整数,W为小于或等于M的正整数。
其中,根据每个候选焦点词的判别结果对M个候选焦点词进行筛选可以是将M个候选焦点词中判别结果包括的概率大于某个概率阈值的候选焦点词筛选出来。比如将概率大于0.5的候选焦点词筛选出来添加到焦点词候选集中,将概率小于0.5的过滤掉。
在一个实施例中,随着人工智能的发展,焦点词处理模型可以是任意一种能够满足上述输入和输出的网络模型。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。上述焦点词处理模型中包括的抽取模型和判别模型可以是人工智能领域中能够满足相应输入和输入的自然语言处理领域中的网络模型。
从焦点词候选集中确定目标资源对应的目标焦点词,可以包括:对焦点词集中多个候选焦点词进行去重处理;获取去重处理后每个候选焦点词的热度;将热度大于热度阈值的焦点词确定为目标资源对应的目标焦点词。每个候选焦点词的热度可以是用于反映每个候选焦点词受欢迎程度的指标,比如每个候选焦点词的热度可以根据在查询日志数据中,针对包括该候选焦点词的查询数据或者查询结果信息的点击率、阅读时长等确定。在一种具体示例中,每个候选加点词的热度可以是在查询日志数据中,针对包括该候选焦点词的查询数据或者查询结果信息的点击率。低热度的候选焦点词可能不属于近期用户关注的焦点,通过过掉掉低热度的候选焦点词,可以保证从剩余的候选焦点词中抽取出的目标焦点词更具有时效性,能及时地反映出最近时间段内用户对目标资源的关注重点。
在一个实施例中,如果获取到的实体词的数量为两个或多个,并且这些实体词分别包括目标资源对应的名称和目标资源中其他信息。由于对象在查询时,对查询内容的不确定性,可能导致查询数据中的目标资源对应的名称和目标资源中其他信息不对应,比如多媒体资源的名称和多媒体资源中角色名不对应,也就是说可能从查询数据中提取到的两个实体不属于同一个目标资源,为了验证查询数据中提取到的两个或多个实体之间是否匹配,可以通过判别模型进行筛选。具体地,将组成目标资源的名称的特征词对应的词特征进行合并处理得到的名称实体词合并特征,然后将组成包括目标资源中其他信息的实体词的特征词对应的词特征进行合并处理得得到其他实体词合并特征;将名称实体词合并特征和其他实体词合并特征进行拼接处理,得到拼接特征,调用判别器模型基于拼接特征预测目标资源的名称和其他信息之间的匹配关系,如果预测结果中概率大于某个概率阈值,则说明名称和其他信息是匹配的;如果预测结果中概率小于概率阈值,则说明名称和其他信息是不匹配的。
总结上述,本申请实施例中通过调用焦点词处理模型根据实体词从查询日志数据中确定出目标资源对应的目标焦点词,焦点词处理模型可以是一个有监督的模型,需要标注一定的语料对焦点词处理模型进行训练。在对焦点词进行训练的大概过程可以如下:获取训练数据,训练数据中包括一个用于训练的查询日志数据,该查询日志数据中包括用于训练的查询数据以及与该查询数据对应的查询结果信息,训练数据中还包括该任意资源对应的监督标签,该监督标签中包括该任意资源对应的焦点词,以及用于训练的查询数据中任意两个实体词之间的匹配关系;通过上述步骤S201和步骤S202相同的处理方式对训练数据进行处理,以得到焦点词处理模型预测得到的该任意资源的预测焦点词,以及焦点词处理模型预测到的任意资源中两个实体词之间的预测匹配关系;根据监督标签中任意资源对应的焦点词和预测焦点词确定一个损失函数(loss),以及根据两个实体之间的预测匹配关系和监督标签中这两个实体之间的匹配关系确定一个损失函数(loss),对这两个损失函数相加联合学习。具体可以是,根据损失函数相加后的损失函数的值,优化焦点词处理模型的网络参数,以使网络参数能够更好地学习到一个资源的焦点词与该资源的查询数据和查询结果信息中其他词的不同,从而保证训练完成后的焦点词处理模型可以基于训练好的参数准确地从目标资源对应的查询数据以及查询结果信息中分析各个词的特征,根据各个词的特征分析哪些词可以作为焦点词。
换句话说,对焦点词处理模型进行训练时,是使用了一些已经标注出焦点词和实体之间的匹配关系的数据,焦点词处理模型分析这些数据中每个词的特征、实体词与其他词之间的关系特征或者各个词所在的位置特征等来预测出焦点词,基于预测出的焦点词和监督标签之间的差异来调整焦点词处理模型的网络参数,以保证焦点词处理模型具有分析某段数据中各个词的特征、实体词与其他词之间的关系特征以及各个词所在的位置特征的能力,并且焦点词处理模型也具备了基于这些信息来分析选择焦点词的能力,基于这两个能力,焦点词处理模型可以用于确定任意数据中的焦点词。
本申请实施例中,通过调用焦点词处理模型来确定目标资源对应的目标焦点词,焦点词处理模型是基于有监督方式训练得到的,训练后的焦点词处理模型可以较为准确地知道焦点词应该具有怎么样的特征、应该处于什么样的位置、以及与其他各个词之间具有什么样的语义关系等等。那么通过调用训练后的焦点词处理模型来提取目标资源的焦点词可以保证焦点词处理模型能够较为准确地分析查询日志数据中各个词的特征、词与词之间的语义关系、词的位置特征等,因为焦点词处理模型具有判断拥有哪些特征的词属于焦点词,所以焦点词处理模型通过这些信息可以较为准确地预测出目标资源的焦点词。
基于上述各个步骤的描述,本申请实施例提供了一种提取目标资源的焦点词的流程图,参见图5b所示。数据处理设备首先获取到查询日志数据,然后对查询日志数据进行日志处理,此处的日志处理可以如前述的对查询数据进行实体词抽取,并根据实体词从查询日志数据中选取出实体词相关联的候选词;进一步的,调用焦点词处理模型基于选择出来的候选词进行焦点词提取处理,得到候选焦点词,对应前述的W个候选焦点词;然后将W个候选焦点词添加到焦点词候选集中;将焦点词候选集中各个候选焦点词中去重、去低热度处理;然后将处理后的候选焦点词中属于目标资源的候选焦点词确定为目标资源对应的目标焦点词。进一步的,可以将目标资源对应的目标焦点词添加到目标资源对应的焦点库中,以便于后续在关于目标资源的查询场景中,将该焦点库中各个目标焦点词作为一个信息维度来展示目标资源相关联的推荐信息中,属于该信息维度下的推荐信息。
本申请实施例中,数据处理设备可以获取到查询日志数据,查询日志数据中包括了查询数据以及查询数据信息;对查询数据进行实体词提取,可以得到目标资源相关的实体词;进一步的,根据提取到的实体词从查询日志数据中确定目标资源对应的目标焦点词,以当存在针对目标资源的查询操作时,基于目标资源对应的目标焦点词来输出目标资源相关联的推荐信息。实现了自动抽取焦点词,无需人工参与,大大减少了焦点词抽取所需的成本,提高了焦点词抽取效率。另外,由于目标焦点词是根据待推荐对象的查询日志数据确定的,所以目标焦点词一定程度是待推荐对象针对目标资源比较关注、或者说感兴趣的内容维度,因此基于目标焦点词来输出目标资源相关联的推荐信息,有助于向待推荐对象推荐其针对目标资源比较关注的信息,使其可高效快速地获取到感兴趣的信息,提高查询、搜索效率。
基于上述的数据处理方法,本申请实施例提供了另一种数据处理方法,参见图6,为本申请实施例提供的另一种数据处理方法的流程示意图。图6所述的数据处理方法可由数据处理设备执行,具体可由数据处理设备的处理器执行。图6所述的所述数据处理方法可包括如下步骤:
步骤S601、响应于针对目标资源的查询操作,显示与目标资源关联的搜索结果,所述搜索结果包括目标资源对应的焦点词信息。
其中,查询操作可以是在查询页面输入的,关于如何确定存在针对目标资源的查询操作的相关实施例可参见图1a-图1d实施例中相关内容的描述,在此不再赘述。一个查询操作对应一个查询数据,比如查询操作是在图1a所示的搜索输入框中输入文本信息并触发了确认选项,那么搜索输入框中的文本信息就是查询数据;再如,查询操作是在查询页面输入了语音信息并触发了确定选项,那么语音信息对应的文本信息就是操作操作对应的查询数据。
如果检测到针对目标资源的查询操作,则数据处理设备可以获取与查询操作中查询数据对应的搜索结果,并可以在查询页面中显示与目标资源关联的搜索结果。搜索结果中可以包括与查询数据对应的部分或者全部查询结果以及目标资源对应的焦点词信息。参见图1a中610表示搜索结果以及图1b中611表示搜索结果。其中,焦点词信息可以包括焦点词或者焦点词的概要信息。焦点词的概要信息是指基于焦点词生成的对焦点词具有总结意义的信息,比如焦点词的概要信息可以是‘热门焦点词’。举例来说,假设目标资源对应的焦点词为焦点词1、焦点词2、焦点词3以及焦点词4,在图1a中610所示的搜索结果中可以包括目标资源对应的焦点词如104区域内所示;焦点词对应的概要信息可以表示为‘剧情焦点:焦点词1’,搜索结果中可以包括焦点词的概要信息如图1b中112区域内所示。
步骤S602、响应于针对焦点词信息的触发操作,显示基于焦点词输出的与目标资源相关联的推荐信息。
其中,查询页面中还可以包括一个触发选项,如图1a中615所示;若焦点词信息包括焦点词,则关于焦点词信息的触发操作包括焦点词被触发,或者,关于焦点词信息的触发操作包括触发选项被选中。
在一种实现方式中,若所述焦点词信息包括所述焦点词的概要信息,焦点词信息还包括第一焦点词,查询页面中还显示有与第一焦点词对应的第一子搜索结果,第一子搜索结果包括j个第一推荐信息,第一推荐信息为基于第一焦点词输出的与目标资源相关联的推荐信息。基于此,响应于针对焦点词信息的触发操作,显示基于焦点词输出的与目标资源相关联的推荐信息,可以包括:响应于针对所述第一子搜索结果的触发操作,显示p个所述第一推荐信息。
其中,如果目标资源对应的焦点词数量为一个,那么第一焦点词就是指目标资源对应的焦点词;如果目标资源对应的焦点词数量为多个,那么第一焦点词是指多个焦点词中任意一个。例如,在图1b中616所指示的内容为第一搜索结果,617和618为j个第一推荐信息。
可选的,针对第一子搜索结果的触发操作可以指在第一子搜索结果的任意区域输入任意操作;或者,第一子搜索结果还可以包括一个焦点词的概要信息对应的触发选项如图1b中113所示;针对第一子搜索结果的触发操作可以是指对该触发选项的选择操作。
在一个实施例中,目标资源对应的焦点词的数量可以为N个,目标资源相关联的推荐信息与N个焦点词相匹配推荐信息的数量可以是L个,那么响应于针对焦点词信息的触发操作,显示与焦点词对应的目标资源相关联的推荐信息,可以包括:按照N个焦点词与L个推荐信息之间的匹配关系显示每个焦点词对应的目标资源相关联的推荐信息。
应当理解的,按照N个焦点词与L个推荐信息之间的匹配关系显示每个焦点词对应的目标资源相关联的推荐信息中包括的可行的实施方式已在图1a-图1d实施例中进行介绍,在此不再赘述。
在一个实施例中,如果焦点词信息是指N个焦点词,那么这N个焦点词包括在搜索结果中显示在查询页面上。由于数据处理设备屏幕尺寸的显示,N个焦点词可能不会一次性地显示出来。作为一个可选的实施例,在查询页面中显示N个焦点词可以包括:从N个焦点词中选择i个焦点词并按序将i个焦点词进行显示,并将N个焦点词中剩余的N-i中焦点词进行折叠;i是根据数据处理设备的屏幕尺寸和N个焦点词中每个焦点词所需显示尺寸确定的;i个焦点词所需显示尺寸之和与数据处理设备的屏幕尺寸之间的差值小于差值阈值;当存在用于显示被折叠焦点词的触发操作时,将被折叠的N-i个焦点词进行显示。
也就是说,基于数据处理设备的屏幕尺寸和每个焦点词所需显示尺寸从N个焦点词中确定由N个焦点词可以一次性显示,其他剩余的焦点词将被折叠。当存在用于显示被折叠焦点词的触发操作时,这些被折叠的焦点词显示在查询页面中。
其中,用于显示被折叠焦点词的触发操作可以是指在显示i个焦点词的区域输入左右划动的操作。关于这部分内容的详细介绍可参见图1c实施例的描述。
用于显示被折叠焦点词的触发操作还可以是指:查询页面中包括触发显示全部焦点词的触发选项,当该触发选项被选中时,确定存在用于显示被折叠焦点词的触发操作。这部分的详细描述可参见图1d实施例。
在一个实施例中,如果i个焦点词所需显示尺寸之和小于或等于所述数据处理设备的屏幕尺寸,那么可以保证这i个焦点词均可以完整地显示在查询页面中;但是如果i个焦点词所需显示尺寸之和大于数据处理设备的屏幕尺寸,那么这i个焦点词中就会有一个焦点词只能显示一部分。由前述可知,由于i个焦点词是按一定顺序在查询页面上显示的,那么可以将排列在最后一个位置显示的焦点词只显示一部分。也就是说,将所述i个焦点词中排列在第一顺序至第(N-i)顺序的焦点词进行完整显示,以及将排列在第N个顺序处焦点词进行部分显示,此时查询页面上显示出的焦点词所需显示尺寸等于数据处理设备的屏幕尺寸。参见图1d中014区域内所示,假设焦点词1、焦点词2、焦点词3和焦点词4的所述显示尺寸之和大于数据处理设备的屏幕尺寸,此时可以将焦点词1、焦点词2以及焦点词3进行完整地显示,焦点词4则只显示了一部分。
本申请实施例当存在关于目标资源的查询操作时,可以实现将目标资源对应的目标焦点词作为一个信息维度,并展示该信息维度下目标资源相关联的推荐信息。焦点词是指一个资源中被用户重点关注或者说用户比较感兴趣的内容,基于目标资源的焦点词输出目标资源的推荐信息有助于对象可以及时高效地获取到目标资源中的热门信息,增加了目标资源的推荐信息的点击率以及在一定程度上提高了目标资源的推广效果。
基于上述的数据处理方法,本申请实施例提供了一种数据处理装置,参见图7,为本申请实施例提供的一种数据处理装置的结构示意图。图7所示的数据处理装置可运行如下单元:
获取单元701,用于获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
提取单元702,用于对所述查询数据进行实体词提取,得到目标资源相关的实体词;
确定单元703,还用根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
在一个实施例中,所述确定单元703在对所述查询数据进行实体词提取,得到目标资源相关的实体词时,执行如下步骤:
对所述查询数据进行实体词识别,得到一个或多个候选实体词;
将所述一个或多个候选实体词映射到实体词库,从所述实体词库中确定每个候选实体词对应的实体类型;
基于所述每个候选实体词对应的实体类型,从所述一个或多个候选实体词中选取实体类型为多媒体类型的候选实体词,将选取出的候选实体词作为目标资源相关的实体词。
在一个实施例中,所述确定单元703在根据所述实体词从所述查询日志数据中提取所述目标资源对应的焦点词时,执行如下步骤:
从所述查询日志数据中筛选出与所述实体词相关联的多个候选词;从所述多个候选词中确定所述目标资源对应的目标焦点词。
在一个实施例中,所述确定单元702在从所述查询日志数据中筛选出与所述实体词相关联的多个候选词时,执行如下步骤:
对所述查询数据进行分词处理,得到所述查询数据包括的各个特征词;
从所述查询结果信息中确定包括所述实体词的目标信息,并对所述目标信息进行分词处理,得到所述目标信息包括的各个特征词;
将所述查询数据包括的各个特征词以及所述目标信息包括的各个特征词作为与所述实体词相关联的多个候选词。
在一个实施例中,所述确定单元703在从所述查询结果信息中确定包括所述实体词的目标信息时,执行如下步骤:
若所述查询结果信息是指与所述查询数据对应的查询结果的标识,则所述目标信息是指所述查询结果的标识;
若所述查询结果信息是指所述查询结果的概要信息或者所述查询结果信息是指所述查询结果,则所述目标信息是指所述概要信息或者所述查询结果中包括所述实体词的句子或者段落。
在一个实施例中,所述确定单元702在从所述多个候选词中确定所述目标资源对应的目标焦点词时,执行如下步骤:
基于所述查询数据包括的各个特征词和所述查询结果信息包括的各个特征词对所述多个候选词中每个候选词进行语义融合和特征提取处理,得到所述每个候选词对应的词特征;
基于所述每个候选词对应的词特征进行焦点词抽取处理,得到所述目标资源对应的目标焦点词。
在一个实施例中,基于所述查询数据包括的各个特征词和所述查询结果信息包括的各个特征词对所述多个候选词中每个候选词进行语义融合处理和特征提取处理是调用焦点词处理模型中的语言处理模型执行的;所述焦点词处理模型还包括焦点词提取模型;所述基于所述每个候选词对应的词特征进行焦点词抽取处理是调用焦点词提取模型执行的。
在一个实施例中,所述焦点词提取模型包括抽取模型;所述确定单元703在基于所述每个候选词对应的词特征进行焦点词抽取处理,得到所述目标资源对应的目标焦点词时,执行如下步骤:
调用所述抽取模型,将所述多个候选词中组成所述实体词的多个候选词对应的词特征进行合并,得到实体词合并特征;
将所述实体词合并特征分别和所述每个候选词对应的词特征进行拼接处理,得到所述每个候选词对应的拼接特征;
基于每个候选词对应的拼接特征预测所述每个候选词的位置概率,所述每个候选词的位置概率用于指示所述每个候选词属于一个焦点词的起始位置或者结束位置;
根据所述每个候选词对应的位置概率依次标记出所述每个候选词的所属位置;
依次所属位置为起始位置的第一个候选词、所属位置为结束位置的第二个候选词以及所述第一个候选词和所述第二个候选词之间的各个候选词,组成一个焦点词,以确定出M个候选焦点词;
从所述M个候选焦点词中确定所述目标资源对应的目标焦点词,M为正整数。
在一个实施例中,所述焦点词提取模型还包括判别模型,所述确定单元703在从所述M个候选焦点词中确定所述目标资源对应的目标焦点词时,执行如下步骤:
调用所述判别模型,将所述多个候选词中组成每个候选焦点词的多个候选词对应的词特征分别进行合并处理,得到所述每个候选焦点词对应的候选焦点词合并特征;
分别将所述每个候选焦点词对应的候选焦点词合并特征与所述实体词合并特征进行拼接处理,得到所述每个候选焦点词对应的拼接特征;
基于所述每个候选焦点词对应的拼接特征对所述每个候选焦点词进行判别,得到所述每个候选焦点词对应的判别结果,所述每个候选焦点词对应的判别结果用于指示所述每个候选焦点词作为所述目标文件对应的目标焦点词的概率;
根据所述每个候选焦点词的判别结果对所述M个候选焦点词进行筛选得到W个候选焦点词,并将所述W个候选焦点词添加到焦点词候选集中,从所述焦点词候选集中确定所述目标资源对应的目标焦点词,W为小于或等于M的正整数。
在一个实施例中,所述提取单元702在所述从所述焦点词候选集中确定所述目标资源对应的目标焦点词时,执行如下步骤:
对所述焦点词集中的多个候选焦点词进行去重处理;
获取去重处理后的每个候选焦点词对应的热度;
将热度大于热度阈值的候选焦点词确定为所述目标资源对应的目标焦点词。
在一个实施例中,所述查询数据对应的查询结果信息是指所述查询数据对应的多个查询结果中,点击数大于点击数阈值的查询结果对应的查询结果信息。
根据本申请的一个实施例,图2所示的数据处理方法所涉及各个步骤可以是由图7所示的数据处理装置中的各个单元来执行的。例如,图2所述的步骤S201可由图7所述的数据处理装置中的获取单元701来执行,步骤S202可由图7所述的数据处理装置中的提取单元702来执行,步骤S203可由图7所述的数据处理装置中的确定单元703来执行。
根据本申请的另一个实施例,图7所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的数据处理装置,以及来实现本申请实施例数据处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于数据处理设备中,并在其中运行。
本申请实施例中,数据处理设备可以获取到查询日志数据,查询日志数据中包括了查询数据以及查询数据信息;对查询数据进行实体词提取,可以得到目标资源相关的实体词;进一步的,根据提取到的实体词从查询日志数据中确定目标资源对应的目标焦点词,以当存在针对目标资源的查询操作时,基于目标资源对应的目标焦点词来输出目标资源相关联的推荐信息。实现了自动抽取焦点词,无需人工参与,大大减少了焦点词抽取所需的成本,提高了焦点词抽取效率。另外,由于目标焦点词是根据待推荐对象的查询日志数据确定的,所以目标焦点词一定程度是待推荐对象针对目标资源比较关注、或者说感兴趣的内容维度,因此基于目标焦点词来输出目标资源相关联的推荐信息,有助于向待推荐对象推荐其针对目标资源比较关注的信息,使其可高效快速地获取到感兴趣的信息,提高查询、搜索效率。
基于上述的数据处理方法实施例以及数据处理装置实施例,本申请实施例提供了另一种数据处理装置,参见图8,为本申请实施例提供的一种数据处理装置的结构示意图。图8所述的数据处理装置可运行如下单元:
显示单元801,用于响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;
显示单元801,还用于响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
在一个实施例中,所述焦点词信息包括第一焦点词,所述焦点词信息显示于查询页面,且所述查询页面还显示有与所述第一焦点词对应的第一子搜索结果;所述第一子搜索结果包括j个第一推荐信息,j为正整数,所述第一推荐信息为基于所述第一焦点词输出的与所述目标资源关联的推荐信息在响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息时,执行如下步骤:
响应于针对所述第一子搜索结果的触发操作,显示p个所述第一推荐信息,p为大于或等于j的正整数。
在一个实施例中,图8所述的数据处理装置还可以包括处理单元802;若所述焦点词信息包括焦点词,且所述焦点词的数量为N个,N为大于或等于2的整数;
所述显示单元801,还用于从N个焦点词中选择i个焦点词并按序显示所述i个焦点词;处理单元802,用于将所述N个焦点词中剩余的(N-i)个焦点词进行折叠;所述i是根据数据处理设备的屏幕尺寸和所述N个焦点词中每个焦点词所需显示尺寸确定的;所述i个焦点词所需显示尺寸之和与所述数据处理设备的屏幕尺寸之间的差值小于差值阈值,i为小于或等于N的正整数;当存在用于显示被折叠焦点词的触发操作时,将被折叠的所述(N-i)个焦点词进行显示。
在一个实施例中,所述i个焦点词所需显示尺寸之和大于所述数据处理设备的屏幕尺寸,所述显示单元801按序将所述i个焦点词进行显示时,执行如下步骤:将所述i个焦点词中排列在第一顺序至第i-1顺序的焦点词进行完整显示,以及将排列在第i个顺序处的焦点词进行部分显示。
根据本申请的一个实施例,图6所示的数据处理方法所涉及各个步骤可以是由图8所示的数据处理装置中的各个单元来执行的。例如,图6所述的步骤S601和步骤S602均可由图8所述的数据处理装置中的显示单元801来执行。
根据本申请的另一个实施例,图8所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的数据处理装置,以及来实现本申请实施例数据处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于数据处理设备中,并在其中运行。
本申请实施例当存在关于目标资源的查询操作时,显示与目标资源关联的搜索结果,该搜索结果中可以包括焦点词信息,通过输入针对焦点词信息的触发操作,可以实现将目标资源对应的目标焦点词作为一个信息维度,并展示该信息维度下目标资源相关联的推荐信息。焦点词是指一个资源中被用户重点关注或者说用户比较感兴趣的内容,基于目标资源的焦点词输出目标资源的推荐信息有助于对象可以及时高效地获取到目标资源中的热门信息,增加了目标资源的推荐信息的点击率以及在一定程度上提高了目标资源的推广效果。
基于上述的数据处理方法实施例以及数据处理装置实施例,本申请实施例提供了一种数据处理设备,参见图9,为本申请实施例提供的一种数据处理设备的结构示意图。图9所述的数据处理设备可包括处理器901、输入接口902、输出接口903以及计算机存储介质904。其中,处理器901、输入接口902、输出接口903以及计算机存储介质904可通过总线或其他方式连接。
计算机存储介质904可以存储在数据处理设备的存储器中,所述计算机存储介质904用于存储计算机程序,所述处理器901用于执行所述计算机存储介质904存储的计算机程序。处理器901(或称CPU(Central Processing Unit,中央处理器))是数据处理设备的计算核心以及控制核心,其适于实现一条或多条计算机程序,具体适于加载并执行:
获取查询日志数据,所述查询日志数据包括对查询数据以及所述查询数据对应的查询结果信息;对所述查询数据进行实体词提取,得到目标资源相关的实体词;根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
本申请实施例中,数据处理设备可以获取到查询日志数据,查询日志数据中包括了查询数据以及查询数据信息;对查询数据进行实体词提取,可以得到目标资源相关的实体词;进一步的,根据提取到的实体词从查询日志数据中确定目标资源对应的目标焦点词,以当存在针对目标资源的查询操作时,基于目标资源对应的目标焦点词来输出目标资源相关联的推荐信息。实现了自动抽取焦点词,无需人工参与,大大减少了焦点词抽取所需的成本,提高了焦点词抽取效率。另外,由于目标焦点词是根据待推荐对象的查询日志数据确定的,所以目标焦点词一定程度是待推荐对象针对目标资源比较关注、或者说感兴趣的内容维度,因此基于目标焦点词来输出目标资源相关联的推荐信息,有助于向待推荐对象推荐其针对目标资源比较关注的信息,使其可高效快速地获取到感兴趣的信息,提高查询、搜索效率。
基于上述的数据处理方法实施例以及数据处理装置实施例,本申请实施例提供了一种数据处理设备,参见图10,为本申请实施例提供的一种数据处理设备的结构示意图。图10所述的数据处理设备可包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中,处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。
计算机存储介质1004可以存储在数据处理设备的存储器中,所述计算机存储介质1004用于存储计算机程序,所述处理器1001用于执行所述计算机存储介质1004存储的计算机程序。处理器1001(或称CPU(Central Processing Unit,中央处理器))是数据处理设备的计算核心以及控制核心,其适于实现一条或多条计算机程序,具体适于加载并执行:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
本申请实施例当存在关于目标资源的查询操作时,可以实现将目标资源对应的目标焦点词作为一个信息维度,并按目标焦点词输出与目标资源相关联的推荐信息,由此,在一些实际应用中,可以响应于针对焦点词信息的触发操作,展示该焦点词信息对应的信息维度下、与目标资源相关联的推荐信息。焦点词是指一个资源中被用户重点关注或者说用户比较感兴趣的内容,基于目标资源的焦点词输出目标资源的推荐信息有助于对象可以及时高效地获取到目标资源中的热门信息,增加了目标资源的推荐信息的点击率以及在一定程度上提高了目标资源的推广效果。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是数据处理设备的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括数据处理设备的内置存储介质,当然也可以包括数据处理设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了数据处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器901或1001加载并执行的一条或多条的计算机程序。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质中存储的一条或多条计算机程序可由处理器901加载并执行:
获取查询日志数据,所述查询日志数据包括对查询数据以及所述查询数据对应的查询结果信息;对所述查询数据进行实体词提取,得到目标资源相关的实体词;根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
在一个实施例中,所述处理器901在对所述查询数据进行实体词提取,得到目标资源相关的实体词时,执行如下步骤:
对所述查询数据进行实体词识别,得到一个或多个候选实体词;
将所述一个或多个候选实体词映射到实体词库,从所述实体词库中确定每个候选实体词对应的实体类型;
基于所述每个候选实体词对应的实体类型,从所述一个或多个候选实体词中选取实体类型为多媒体类型的候选实体词,将选取出的候选实体词作为目标资源相关的实体词。
在一个实施例中,所述处理器901在根据所述实体词从所述查询日志数据中提取所述目标资源对应的目标焦点词时,执行如下步骤:
从所述查询日志数据中筛选出与所述实体词相关联的多个候选词;
从所述多个候选词中确定所述目标资源对应的目标焦点词。
在一个实施例中,所述处理器901在从所述查询日志数据中筛选出与所述实体词相关联的多个候选词时,执行如下步骤:
对所述查询数据进行分词处理,得到所述查询数据包括的各个特征词;
从所述查询结果信息中确定包括所述实体词的目标信息,并对所述目标信息进行分词处理,得到所述目标信息包括的各个特征词;
将所述查询数据包括的各个特征词以及所述目标信息包括的各个特征词作为与所述实体词相关联的多个候选词。
在一个实施例中,所述处理器901在从所述查询结果信息中确定包括所述实体词的目标信息时,执行如下步骤:
若所述查询结果信息是指与所述查询数据对应的查询结果的标识,则所述目标信息是指所述查询结果的标识;
若所述查询结果信息是指与所述查询结果的概要信息或者所述查询结果信息是指所述查询结果,则所述目标信息是指所述概要信息或者所述查询结果中包括所述实体词的句子或者段落。
在一个实施例中,所述处理器901在从所述多个候选词中确定所述目标资源对应的目标焦点词时,执行如下步骤:
基于所述查询数据包括的各个特征词和所述查询结果信息包括的各个特征词对所述多个候选词中每个候选词进行语义融合和特征提取处理,得到所述每个候选词对应的词特征;
基于所述每个候选词对应的词特征进行焦点词抽取处理,得到所述目标资源对应的目标焦点词。
在一个实施例中,基于所述查询数据的各个特征词和所述查询结果信息中的各个特征词对所述多个候选词中每个候选词进行语义融合处理和特征提取处理是调用焦点词处理模型中的语言处理模型执行的;所述焦点词处理模型还包括焦点词提取模型;所述基于所述每个候选词对应的词特征进行焦点词抽取处理是调用焦点词提取模型执行的。
在一个实施例中,所述焦点词提取模型包括抽取模型;所述处理器901在基于所述每个候选词对应的词特征进行焦点词抽取处理,得到所述目标资源对应的焦点词时,执行如下步骤:
调用所述抽取模型,将所述多个候选词中组成所述实体词的多个候选词对应的词特征进行合并,得到实体词合并特征;
将所述实体词合并特征分别和所述每个候选词对应的词特征进行拼接处理,得到所述每个候选词对应的拼接特征;
基于每个候选词对应的拼接特征预测所述每个候选词的位置概率,所述每个候选词的位置概率用于指示所述每个候选词属于一个焦点词的起始位置或者结束位置;
根据所述每个候选词对应的位置概率依次标记出所述每个候选词的所属位置;
依次将多个候选词的所属位置中为起始位置的第一个候选词、所属位置为结束位置的第二个候选词以及所述第一个候选词和所述第二个候选词之间的各个候选词,组成一个焦点词,以确定出M个候选焦点词;
从所述M个候选焦点词中确定所述目标资源对应的目标焦点词,M为正整数。
在一个实施例中,所述焦点词提取模型还包括判别模型,所述处理器901在从所述M个候选焦点词中确定所述目标资源对应的目标焦点词时,执行如下步骤:
调用所述判别模型,将所述多个候选词中组成每个候选焦点词的多个候选词对应的词特征分别进行合并处理,得到所述每个候选焦点词对应的候选焦点词合并特征;
分别将所述每个候选焦点词对应的候选焦点词合并特征与所述实体词合并特征进行拼接处理,得到所述每个候选焦点词对应的拼接特征;
基于所述每个候选焦点词对应的拼接特征对所述每个候选焦点词进行判别,得到所述每个候选焦点词对应的判别结果,所述每个候选焦点词对应的判别结果用于指示所述每个候选焦点词作为所述目标文件对应的目标焦点词的概率;
根据所述每个候选焦点词的判别结果对所述M个候选焦点词进行筛选得到W个候选焦点词,并将所述W个候选焦点词添加到焦点词候选集中,从所述焦点词候选集中确定所述目标资源对应的目标焦点词,W为小于或等于M的正整数。
在一个实施例中,所述处理器901在从所述焦点词候选集中确定所述目标资源对应的目标焦点词时,执行如下步骤:
对所述焦点词集中的多个候选焦点词进行去重处理;
获取去重处理后的每个候选焦点词对应的热度;
将热度大于热度阈值的候选焦点词确定为所述目标资源对应的目标焦点词。
在一个实施例中,所述查询数据对应的查询结果信息是指所述查询数据对应的多个查询结果中,点击数大于点击数阈值的查询结果对应的查询结果信息。
本申请实施例中,数据处理设备可以获取到查询日志数据,查询日志数据中包括了查询数据以及查询数据信息;对查询数据进行实体词提取,可以得到目标资源相关的实体词;进一步的,根据提取到的实体词从查询日志数据中确定目标资源对应的目标焦点词,以当存在针对目标资源的查询操作时,基于目标资源对应的目标焦点词来输出目标资源相关联的推荐信息。实现了自动抽取焦点词,无需人工参与,大大减少了焦点词抽取所需的成本,提高了焦点词抽取效率。另外,由于目标焦点词是根据待推荐对象的查询日志数据确定的,所以目标焦点词一定程度是待推荐对象针对目标资源比较关注、或者说感兴趣的内容维度,因此基于目标焦点词来输出目标资源相关联的推荐信息,有助于向待推荐对象推荐其针对目标资源比较关注的信息,使其可高效快速地获取到感兴趣的信息,提高查询、搜索效率。
在一个实施例中,所述处理器1001在对所述查询数据进行实体词提取,得到目标资源相关的实体词时,执行如下步骤:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索包括所述目标资源对应的焦点词信息,所述焦点词信息由所述焦点词确定;
响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
在一个实施例中,所述焦点词信息包括第一焦点词,所述焦点词信息显示于查询页面,且所述查询页面还显示有与所述第一焦点词对应的第一子搜索结果;所述第一子搜索结果包括j个第一推荐信息,j为正整数,所述第一推荐信息为基于所述第一焦点词输出的与所述目标资源关联的推荐信息;
所述处理器1001在响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息时,执行如下步骤:
响应于针对所述第一子搜索结果的触发操作,显示p个所述第一推荐信息,p为大于或等于j的正整数。
在一个实施例中,若所述焦点词信息包括焦点词,且所述焦点词的数量为N个,N为大于或等于2的整数,所述处理器1001还用于执行:
从N个焦点词中选择i个焦点词并按序显示所述i个焦点词,并将所述N个焦点词中剩余的(N-i)个焦点词进行折叠;所述i是根据数据处理设备的屏幕尺寸和所述N个焦点词中每个焦点词所需显示尺寸确定的;所述i个焦点词所需显示尺寸之和与所述数据处理设备的屏幕尺寸之间的差值小于差值阈值,i为小于或等于N的正整数;
当存在用于显示被折叠焦点词的触发操作时,将被折叠的所述(N-i)个焦点词进行显示。
在一个实施例中,若所述i个焦点词所需显示尺寸之和大于所述数据处理设备的屏幕尺寸,则所述处理器1001在按序将所述i个焦点词进行显示时,执行如下步骤:
将所述i个焦点词中排列在第一顺序至第i-1顺序的焦点词进行完整显示,以及将排列在第i个顺序处的焦点词进行部分显示。
本申请实施例当存在关于目标资源的查询操作时,可以实现将目标资源对应的目标焦点词作为一个信息维度,并按目标焦点词输出与目标资源相关联的推荐信息,由此,在一些实际应用中,可以响应于针对焦点词信息的触发操作,展示该焦点词信息对应的信息维度下、与目标资源相关联的推荐信息。焦点词是指一个资源中被用户重点关注或者说用户比较感兴趣的内容,基于目标资源的焦点词输出目标资源的推荐信息有助于对象可以及时高效地获取到目标资源中的热门信息,增加了目标资源的推荐信息的点击率以及在一定程度上提高了目标资源的推广效果。
本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品中包括计算机程序,所述计算机程序存储在计算机存储介质中,所述计算机程序被处理器901加载并执行:
获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;对所述查询数据进行实体词提取,得到目标资源相关的实体词;根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
本申请实施例中,数据处理设备可以获取到查询日志数据,查询日志数据中包括了查询数据以及查询数据信息;对查询数据进行实体词提取,可以得到目标资源相关的实体词;进一步的,根据提取到的实体词从查询日志数据中确定目标资源对应的目标焦点词,以当存在针对目标资源的查询操作时,基于目标资源对应的目标焦点词来输出目标资源相关联的推荐信息。实现了自动抽取焦点词,无需人工参与,大大减少了焦点词抽取所需的成本,提高了焦点词抽取效率。另外,由于目标焦点词是根据待推荐对象的查询日志数据确定的,所以目标焦点词一定程度是待推荐对象针对目标资源比较关注、或者说感兴趣的内容维度,因此基于目标焦点词来输出目标资源相关联的推荐信息,有助于向待推荐对象推荐其针对目标资源比较关注的信息,使其可高效快速地获取到感兴趣的信息,提高查询、搜索效率。
或者,计算机程序被处理器1001加载并执行:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
本申请实施例当存在关于目标资源的查询操作时,可以实现将目标资源对应的目标焦点词作为一个信息维度,并按目标焦点词输出与目标资源相关联的推荐信息,由此,在一些实际应用中,可以响应于针对焦点词信息的触发操作,展示该焦点词信息对应的信息维度下、与目标资源相关联的推荐信息。焦点词是指一个资源中被用户重点关注或者说用户比较感兴趣的内容,基于目标资源的焦点词输出目标资源的推荐信息有助于对象可以及时高效地获取到目标资源中的热门信息,增加了目标资源的推荐信息的点击率以及在一定程度上提高了目标资源的推广效果。

Claims (20)

1.一种数据处理方法,其特征在于,包括:
获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
对所述查询数据进行实体词提取,得到目标资源相关的实体词;
根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
2.如权利要求1所述的方法,其特征在于,所述对所述查询数据进行实体词提取,得到目标资源相关的实体词,包括:
对所述查询数据进行实体词识别,得到一个或多个候选实体词;
将所述一个或多个候选实体词映射到实体词库,从所述实体词库中确定每个候选实体词对应的实体类型;
基于所述每个候选实体词对应的实体类型,从所述一个或多个候选实体词中选取实体类型为目标类型的候选实体词,将选取出的候选实体词作为目标资源相关的实体词,所述目标类型是指所述目标资源所属类型。
3.如权利要求1所述的方法,其特征在于,所述根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,包括:
从所述查询日志数据中筛选出与所述实体词相关联的多个候选词;
从所述多个候选词中确定所述目标资源对应的目标焦点词。
4.如权利要求3所述的方法,其特征在于,所述从所述查询日志数据中筛选出与所述实体词相关联的多个候选词,包括:
对所述查询数据进行分词处理,得到所述查询数据包括的各个特征词;
从所述查询结果信息中确定包括所述实体词的目标信息,并对所述目标信息进行分词处理,得到所述目标信息包括的各个特征词;
将所述查询数据包括的各个特征词以及所述目标信息包括的各个特征词作为与所述实体词相关联的多个候选词。
5.如权利要求4所述的方法,其特征在于,所述从所述查询结果信息中确定包括所述实体词的目标信息,包括:
若所述查询结果信息是指与所述查询数据对应的查询结果的标识,则所述目标信息是指所述查询结果的标识;
若所述查询结果信息是指所述查询结果的概要信息或者所述查询结果信息是指所述查询结果,则所述目标信息是指所述概要信息或者所述查询结果中包括所述实体词的句子或者段落。
6.如权利要求4所述的方法,其特征在于,所述从所述多个候选词中确定所述目标资源对应的目标焦点词,包括:
基于所述查询数据包括的各个特征词和所述查询结果信息包括的各个特征词对所述多个候选词中每个候选词进行语义融合和特征提取处理,得到所述每个候选词对应的词特征;
基于所述每个候选词对应的词特征进行焦点词抽取处理,得到所述目标资源对应的目标焦点词。
7.如权利要求6所述的方法,其特征在于,所述基于所述查询数据包括的各个特征词和所述查询结果信息包括的各个特征词对所述多个候选词中每个候选词进行语义融合处理和特征提取处理是调用焦点词处理模型中的语言处理模型执行的;所述焦点词处理模型还包括焦点词提取模型;所述基于所述每个候选词对应的词特征进行焦点词抽取处理是调用焦点词提取模型执行的。
8.如权利要求7所述的方法,其特征在于,所述焦点词提取模型包括抽取模型;所述基于所述每个候选词对应的词特征进行焦点词抽取处理,得到所述目标资源对应的目标焦点词,包括:
调用所述抽取模型,将所述多个候选词中组成所述实体词的多个候选词对应的词特征进行合并,得到实体词合并特征;
将所述实体词合并特征分别和所述每个候选词对应的词特征进行拼接处理,得到所述每个候选词对应的拼接特征;
基于每个候选词对应的拼接特征预测所述每个候选词的位置概率,所述每个候选词的位置概率用于指示所述每个候选词属于一个焦点词的起始位置或者结束位置;
根据所述每个候选词对应的位置概率依次标记出所述每个候选词的所属位置;
依次所属位置为起始位置的第一个候选词、所属位置为结束位置的第二个候选词以及所述第一个候选词和所述第二个候选词之间的各个候选词,组成一个焦点词,以确定出M个候选焦点词;
从所述M个候选焦点词中确定所述目标资源对应的目标焦点词,M为正整数。
9.如权利要求8所述的方法,其特征在于,所述焦点词提取模型还包括判别模型,所述从所述M个候选焦点词中确定所述目标资源对应的目标焦点词,包括:
调用所述判别模型,将所述多个候选词中组成每个候选焦点词的多个候选词对应的词特征分别进行合并处理,得到所述每个候选焦点词对应的候选焦点词合并特征;
分别将所述每个候选焦点词对应的候选焦点词合并特征与所述实体词合并特征进行拼接处理,得到所述每个候选焦点词对应的拼接特征;
基于所述每个候选焦点词对应的拼接特征对所述每个候选焦点词进行判别,得到所述每个候选焦点词对应的判别结果,所述每个候选焦点词对应的判别结果用于指示所述每个候选焦点词作为所述目标文件对应的目标焦点词的概率;
根据所述每个候选焦点词的判别结果对所述M个候选焦点词进行筛选得到W个候选焦点词,并将所述W个候选焦点词添加到焦点词候选集中,从所述焦点词候选集中确定所述目标资源对应的目标焦点词,W为小于或等于M的正整数。
10.如权利要求9所述的方法,其特征在于,所述从所述焦点词候选集中确定所述目标资源对应的目标焦点词,包括:
对所述焦点词集中的多个候选焦点词进行去重处理;
获取去重处理后的每个候选焦点词对应的热度;
将热度大于热度阈值的候选焦点词确定为所述目标资源对应的目标焦点词。
11.如权利要求1所述的方法,其特征在于,所述查询数据对应的查询结果信息是指所述查询数据对应的多个查询结果中,点击数大于点击数阈值的查询结果对应的查询结果信息。
12.一种数据处理方法,其特征在于,包括:
响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;
响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
13.如权利要求12所述的方法,其特征在于,所述焦点词信息包括第一焦点词,所述焦点词信息显示于查询页面,且所述查询页面还显示有与所述第一焦点词对应的第一子搜索结果;所述第一子搜索结果包括j个第一推荐信息,j为正整数,所述第一推荐信息为基于所述第一焦点词输出的与所述目标资源关联的推荐信息;
所述响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息,包括:
响应于针对所述第一子搜索结果的触发操作,显示p个所述第一推荐信息,p为大于或等于j的正整数。
14.如权利要求12所述的方法,其特征在于,若所述焦点词信息包括焦点词,且所述焦点词的数量为N个,N为大于或等于2的整数,所述方法还包括:
从N个焦点词中选择i个焦点词并按序显示所述i个焦点词,并将所述N个焦点词中剩余的(N-i)个焦点词进行折叠;所述i是根据数据处理设备的屏幕尺寸和所述N个焦点词中每个焦点词所需显示尺寸确定的;所述i个焦点词所需显示尺寸之和与所述数据处理设备的屏幕尺寸之间的差值小于差值阈值,i为小于或等于N的正整数;
当存在用于显示被折叠焦点词的触发操作时,将被折叠的所述(N-i)个焦点词进行显示。
15.如权利要求14所述的方法,其特征在于,若所述i个焦点词所需显示尺寸之和大于所述数据处理设备的屏幕尺寸,所述按序将所述i个焦点词进行显示,包括:
将所述i个焦点词中排列在第一顺序至第i-1顺序的焦点词进行完整显示,以及将排列在第i个顺序处的焦点词进行部分显示。
16.一种数据处理装置,其特征在于,包括:
获取单元,用于获取查询日志数据,所述查询日志数据包括查询数据以及所述查询数据对应的查询结果信息;
提取单元,用于对所述查询数据进行实体词提取,得到目标资源相关的实体词;
所述提取单元,用于根据所述实体词从所述查询日志数据中确定所述目标资源对应的目标焦点词,所述目标资源对应的焦点词用于当存在针对所述目标资源的查询操作时,基于所述目标焦点词输出所述目标资源相关联的推荐信息。
17.一种数据处理装置,其特征在于,包括:
显示单元,用于响应于针对目标资源的查询操作,显示与所述目标资源关联的搜索结果,所述搜索结果包括所述目标资源对应的焦点词信息,所述焦点词信息由焦点词确定;
所述显示单元,还用于响应于针对所述焦点词信息的触发操作,显示基于所述焦点词输出的与所述目标资源相关联的推荐信息。
18.一种数据处理设备,其特征在于,包括:
处理器,适于实现一条或多条计算机程序;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-11任一项所述的数据处理方法。
19.一种数据处理设备,其特征在于,包括:
处理器,适于实现一条或多条计算机程序;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求12-15任一项所述的数据处理方法。
20.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品中包括计算机程序,所述计算机程序存储在计算机存储介质中,所述计算机存储介质中的计算机程序被处理器执行时,用于加载并执行如权利要求1-11任一项所述的数据处理方法;或者,所述计算机程序被处理器执行时,用于执行如权利要求12-15任一项所述的数据处理方法。
CN202210051843.9A 2022-01-14 2022-01-14 数据处理方法、装置、设备及计算机程序产品 Pending CN116483946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210051843.9A CN116483946A (zh) 2022-01-14 2022-01-14 数据处理方法、装置、设备及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210051843.9A CN116483946A (zh) 2022-01-14 2022-01-14 数据处理方法、装置、设备及计算机程序产品

Publications (1)

Publication Number Publication Date
CN116483946A true CN116483946A (zh) 2023-07-25

Family

ID=87221949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210051843.9A Pending CN116483946A (zh) 2022-01-14 2022-01-14 数据处理方法、装置、设备及计算机程序产品

Country Status (1)

Country Link
CN (1) CN116483946A (zh)

Similar Documents

Publication Publication Date Title
CN111079444B (zh) 一种基于多模态关系的网络谣言检测方法
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN110781347A (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN111767461B (zh) 数据处理方法及装置
CN110287375B (zh) 视频标签的确定方法、装置及服务器
CN111372141B (zh) 表情图像生成方法、装置及电子设备
CN113806588B (zh) 搜索视频的方法和装置
CN113469298B (zh) 模型训练方法及资源推荐方法
CN110737824B (zh) 内容查询方法和装置
CN114329051B (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
CN107368923B (zh) 景点热度预测方法及装置
JP6829740B2 (ja) データ検索方法及びそのデータ検索システム
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN113821677A (zh) 一种生成封面图像的方法、装置、设备及存储介质
CN116483946A (zh) 数据处理方法、装置、设备及计算机程序产品
CN114363664A (zh) 生成视频合集标题的方法及装置
CN115687701A (zh) 文本处理方法
CN114443916A (zh) 一种面向试验数据的供需匹配方法及系统
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
CN112445921A (zh) 摘要生成方法和装置
CN116150428B (zh) 视频标签获取方法、装置、电子设备及存储介质
CN115114459A (zh) 一种标签修正方法、装置、设备及计算机可读存储介质
CN114765702A (zh) 视频的处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination