CN112100501A - 信息流的处理方法、装置及电子设备 - Google Patents

信息流的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112100501A
CN112100501A CN202011015730.0A CN202011015730A CN112100501A CN 112100501 A CN112100501 A CN 112100501A CN 202011015730 A CN202011015730 A CN 202011015730A CN 112100501 A CN112100501 A CN 112100501A
Authority
CN
China
Prior art keywords
information
keyword
piece
keywords
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011015730.0A
Other languages
English (en)
Inventor
周建斐
陈家龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011015730.0A priority Critical patent/CN112100501A/zh
Publication of CN112100501A publication Critical patent/CN112100501A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种信息流的处理方法、装置、电子设备及计算机可读存储介质;方法包括:获取信息流中至少一条信息的关键词;将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材;在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材。通过本申请,能够提升电子设备在呈现信息流的过程中所耗费的计算资源的实际利用率。

Description

信息流的处理方法、装置及电子设备
技术领域
本申请涉及信息技术,尤其涉及一种信息流的处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。计算机视觉技术(Computer Vision,CV)是人工智能的一个重要分支,主要研究用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉。
随着计算机视觉技术和互联网技术的发展,信息流(如Feed流)作为一种碎片化的信息推送形式,如今广泛应用于各类社交和资讯应用程序中。但是,信息流中的信息往往是以标题和/或图像的形式呈现,呈现出的内容的含义较为宽泛,而用户浏览信息流中信息的速度通常较快,导致用户容易忽略实际感兴趣的信息,电子设备在呈现信息流的过程中所耗费的计算资源的实际利用率低。
针对于此,相关技术尚未提供有效的解决方案。
发明内容
本申请实施例提供一种信息流的处理方法、装置、电子设备及计算机可读存储介质,能够提升电子设备在呈现信息流时所耗费的计算资源的利用率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息流的处理方法,包括:
获取信息流中至少一条信息的关键词;
将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材;
在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材。
本申请实施例提供一种信息流的处理装置,包括:
关键词获取模块,用于获取信息流中至少一条信息的关键词;
填充模块,用于将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材;
呈现模块,用于在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息流的处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的信息流的处理方法。
本申请实施例具有以下有益效果:
将信息流中至少一条信息的关键词填充到素材模板中,得到关键词素材,并将该关键词素材与至少一条信息共同呈现在人机交互界面中,能够使用户通过关键词素材快速获知信息的核心含义,并确定信息是否符合自身的兴趣,减少直接忽略信息的情况的出现,也能够提升电子设备所耗费的计算资源的实际利用率。
附图说明
图1是本申请实施例提供的信息流的处理系统的一个架构示意图;
图2是本申请实施例提供的终端设备的一个架构示意图;
图3A是本申请实施例提供的信息流的处理方法的一个流程示意图;
图3B是本申请实施例提供的信息流的处理方法的一个流程示意图;
图3C是本申请实施例提供的信息流的处理方法的一个流程示意图;
图3D是本申请实施例提供的信息流的处理方法的一个流程示意图;
图4是本申请实施例提供的合成并呈现文字帖的一个示意图;
图5是本申请实施例提供的对话类型对应的图像模板的一个示意图;
图6是本申请实施例提供的网络热词类型对应的图像模板的一个示意图;
图7是本申请实施例提供的包括静态图像和动态图像的图像模板的一个示意图;
图8是本申请实施例提供的添加文字贴的一个示意图;
图9是本申请实施例提供的合成并呈现文字贴的一个示意图;
图10是本申请实施例提供的呈现文字贴的一个示意图;
图11是本申请实施例提供的呈现文字贴的一个示意图;
图12是本申请实施例提供的呈现文字贴的一个示意图;
图13是本申请实施例提供的呈现文字贴的一个示意图;
图14是本申请实施例提供的呈现文字贴的一个示意图;
图15是本申请实施例提供的呈现文字贴的一个示意图;
图16是本申请实施例提供的合成并呈现文字贴的一个流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中,所涉及的术语“多个”是指“至少两个”。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)信息流:以流式的方式呈现若干条信息,例如信息流可以是Feed流。信息流的应用场景包括朋友圈中的好友动态推荐,以及资讯类应用程序(如微博、看点)中的资讯推荐,但并不限于此。信息流中的信息可以包括文本、图像及视频中的至少一种。
2)关键词:信息中的关键词用于体现信息的核心含义,本申请实施例对关键词的长度不做限定,关键词可以是文字,也可以是文字和标点符号的组合。在进行关键词识别时,可以采用有监督或无监督的方式,对此不做限定。
3)素材模板:包括用于填充关键词的待填充区域,在填充关键词后形成关键词素材,用于体现对应的信息的核心含义。本申请实施例对素材模板中的素材不做限定,例如,可以是文本、图像及视频中的至少一种;又例如,可以是静态素材(如静态图像),可以是动态素材(如动态图像),还可以是静态素材和动态素材的结合。
4)文本格式:文本的表现形式,例如文本格式可以包括字号、字色及字体中的至少一种。
5)文本分类模型:基于机器学习原理构建的模型,用于对关键词进行分类处理,以得到关键词类型。本申请实施例对文本分类模型的类型不做限定,例如可以是基于Transformer的双向编码器表征(Bidirectional Encoder Representation fromTransformers,BERT)模型。
本申请实施例提供一种信息流的处理方法、装置、电子设备及计算机可读存储介质,能够提升电子设备在呈现信息流时所耗费的计算资源的利用率。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为各种类型的终端设备,也可以实施为服务器。
参见图1,图1是本申请实施例提供的信息流的处理系统100的一个架构示意图,终端设备400通过网络300连接服务器200,服务器200连接数据库500。其中,网络300可以是广域网或者局域网,又或者是二者的组合;数据库(Database)是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
在一些实施例中,以电子设备是终端设备为例,本申请实施例提供的信息流的处理方法可以由终端设备实现。例如,终端设备400运行客户端410(用于提供信息流的应用程序),针对客户端410存储在本地的信息流(例如资讯类应用程序处于在线状态时缓存的信息流),客户端410获取信息流中至少一条信息的关键词,并填充到素材模板中,得到关键词素材。然后,客户端410在人机交互界面呈现信息流中的至少一条信息、以及至少一条信息的关键词素材。
在一些实施例中,以电子设备是服务器为例,本申请实施例提供的信息流的处理方法可以由服务器和终端设备实现。例如,服务器200可以根据客户端410的用户画像,对数据库500中存储的多条信息进行筛选,根据筛选出的信息构建待发送至客户端410的信息流。然后,服务器200将信息流中至少一条信息的关键词填充到素材模板中,得到关键词素材,并将至少一条信息和关键词素材发送至客户端410,以在人机交互界面中呈现。
这里,也可以依赖终端设备400本地的计算能力来得到关键词素材。例如,服务器200可以将信息流发送至客户端410,客户端410将信息流中至少一条信息的关键词填充到素材模板中,得到关键词素材,并在人机交互界面中呈现。该种方式适用于终端设备400本地的计算能力较强的应用场景。
作为示例,在客户端410的图形界面(即人机交互界面)中,示出了包括信息1的信息流,信息1包括图像11、标题“海豹宝宝求摸头,心都被萌化了,海豹:我能跟你回家吗?”、来源信息以及评论数,在图像11中,示出了包括关键词“我能跟你回家吗?”的关键词素材12。如此,用户在浏览到关键词素材12时,能够快速获知信息1的核心含义,并确定信息1是否为用户自身感兴趣的类型。对于电子设备来说,在呈现信息流的过程中,能够减少计算资源被白白浪费的概率,即能够提升计算资源的实际利用率。
在一些实施例中,终端设备400可以通过运行计算机程序来实现本申请实施例提供的信息流的处理方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,例如包括朋友圈功能的即时通信应用程序、资讯类应用程序(即上述的客户端410);也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。在另一种意义上,云技术也是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云服务可以是信息流服务,供终端设备400进行调用,以将信息流发送至终端设备400。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
以本申请实施例提供的电子设备是终端设备为例说明,可以理解的,对于电子设备是服务器的情况,图2中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以缺省。参见图2,图2是本申请实施例提供的终端设备400的结构示意图,图2所示的终端设备400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的信息流的处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:关键词获取模块4551、填充模块4552及呈现模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的信息流的处理方法。
参见图3A,图3A是本申请实施例提供的信息流的处理方法的一个流程示意图,将结合图3A示出的步骤进行说明。
在步骤101中,获取信息流中至少一条信息的关键词。
这里,信息流包括多条信息,其中,信息中的内容可以是文本、图像及视频中的至少一种。例如,在资讯类应用程序中,信息可以分为四类:1)纯文本;2)文本和图像的组合;3)文本和视频的组合;4)文本、图像和视频的组合。
需要获取关键词的信息可以是信息流中的全部信息,也可以是信息流中的部分信息。以上述四个类别的信息进行举例,则可以获取信息流中的2)、3)及4)类的信息的关键词,对于1)类的信息则不做处理。当然,这并不构成对本申请实施例的限定,可以根据实际应用场景来设定需要获取关键词的信息。
在本步骤中,信息的关键词可以是由人为标注的,也可以是通过关键词识别得到的。在关键词识别的过程中,由于关键词是针对于信息的文本而言的,故可以对信息的文本进行关键词识别,也可以对信息中的图像或者视频帧进行光学字符识别(OpticalCharacter Recognition,OCR)得到文本,并对得到的文本进行关键词识别,上述两种方式可以任选其一进行应用,也可以同时应用。对于后一种方式,举例来说,某些信息内的图像或视频包括字幕,该字幕中的文本同样能够表示信息的实际含义。其中,进行OCR的视频帧可以是信息中的视频包括的全部视频帧,也可以是经过抽帧处理得到的部分视频帧,例如根据设定的抽帧频率(如每隔1秒、3秒或5秒抽取一帧)对视频进行抽帧处理。
在一些实施例中,至少一条信息的文本包括标题、正文内容、评论及标签;可以通过这样的方式来实现上述的获取信息流中至少一条信息的关键词:执行以下任意一种处理:对至少一条信息的标题进行关键词识别,得到至少一条信息的关键词;对至少一条信息的标题、正文内容、评论及标签进行关键词识别,得到至少一条信息的关键词。
这里,信息的文本可以包括标题、正文内容、评论及标签,其中,标签用于体现信息的类型,可以是人为标注的,也可以是通过机器学习算法进行自动标注的,例如,在资讯类应用程序中,信息的标签可以是娱乐新闻、社会新闻、旅游新闻或游戏新闻等。在确定信息的关键词时,可以应用以下两种方式中的任意一种:
1)由于信息的标题通常表示信息的核心含义,故可以仅对信息的标题进行关键词识别,得到信息的关键词。该种方式能够较为快速地得到信息的关键词,适用于对处理效率要求较高的场景。
2)可以对信息包括的全部文本,即标题、正文内容、评论及标签进行关键词识别,其中,可以对标题、正文内容、评论及标签分别进行关键词识别,也可以将标题、正文内容、评论及标签作为一个整体,并对这个整体进行关键词识别。该种方式能够提升得到的关键词的准确性,适用于对处理精度要求较高的场景。
在步骤102中,将至少一条信息的关键词填充到素材模板中,以得到至少一条信息的关键词素材。
当通过步骤101获取到信息的关键词后,将关键词填充到素材模板中,得到该信息的关键词素材。当信息的关键词包括多个时,可以将多个关键词分别填充到素材模板中,得到该信息的多个关键词素材。
值得说明的是,素材模板中的素材可以根据实际应用场景进行设定,例如素材模板中的素材可以包括文本、图像和视频中的至少一种,又例如素材可以包括静态素材(如静态图像)和动态素材(如动态图像)中的至少一种。举例来说,素材模板中的素材可以是文本“[待填充区域]”,当确定出信息的关键词为“宠溺”时,进行填充得到关键词素材“[宠溺]”;素材模板中的素材也可以是图像,该图像包括一个设定的区域,用于填充关键词。
另外,素材模板的数量可以是一个或多个,当素材模板的数量为多个时,可以从多个素材模板中筛选出用于填充关键词的一个素材模板,例如通过随机选择的方式进行筛选。
在一些实施例中,素材模板对应设定的文本格式;可以通过这样的方式来实现上述的将至少一条信息的关键词填充到素材模板中,以得到至少一条信息的关键词素材:根据素材模板对应的文本格式,对至少一条信息的关键词进行格式更新;将格式更新后的关键词填充到素材模板中,以得到至少一条信息的关键词素材。
为了使关键词素材中填充的关键词与素材模板的风格统一,可以预先设定与素材模板对应的文本格式,其中,文本格式包括字号、字色(文字的颜色)及字体中的至少一种,例如,某一个文本格式可以包括字号四号、颜色蓝色及字体楷体。在获取到信息的关键词后,根据素材模板对应的文本格式,对关键词进行格式更新。然后,将格式更新后的关键词填充到素材模板中,以得到该信息的关键词素材。通过上述方式,能够实现关键词与素材模板的风格统一,优化填充得到的关键词素材的视觉效果。
在一些实施例中,素材模板包括静态素材和动态素材;静态素材包括用于填充关键词的待填充区域;可以通过这样的方式来实现上述的将至少一条信息的关键词填充到素材模板中,以得到至少一条信息的关键词素材:将至少一条信息的关键词填充到静态素材的待填充区域中,以将填充后的静态素材和动态素材共同作为至少一条信息的关键词素材。
在本申请实施例中,素材模板可以同时包括静态素材和动态素材,其中,静态素材如贴纸类的静态图像,包括用于填充关键词的待填充区域,静态素材的格式可以是Photoshop文件(Photoshop Document,PSD)格式或其他文件格式,对此不做限定;动态素材用于呈现动态效果,如撒糖特效或烟花特效,动态素材的格式可以是图像互换格式(Graphics Interchange Format,GIF)格式或其他文件格式,同样不做限定。在填充某条信息的关键词时,将关键词填充至静态素材的待填充区域中,并将填充后的静态素材和动态素材共同作为该信息的关键词素材,如此,使得得到的关键词素材包括动态效果,能够在最终呈现时提升对用户的吸引力,有助于用户快速了解信息的核心含义。
在步骤103中,在人机交互界面呈现信息流中的至少一条信息、以及至少一条信息的关键词素材。
针对信息流中的信息,在填充得到关键词素材后,在人机交互界面中呈现信息以及对应的关键词素材,其中,对信息及对应的关键词素材在呈现时的位置关系不做限定,例如可以是包含关系(关键词素材位于信息内)或并列关系(如上下并列、左右并列等)等。在一些情况中,对于设定的不需要获取关键词的部分信息,可以不执行步骤101至步骤102,直接在人机交互界面中呈现这部分信息即可。
在一些实施例中,至少一条信息包括封面及正文内容;可以通过这样的方式来实现上述的在人机交互界面呈现信息流中的至少一条信息、以及至少一条信息的关键词素材:在人机交互界面中的、与至少一条信息对应的呈现区域中,呈现至少一条信息的封面及关键词素材;呈现至少一条信息的封面及关键词素材之后,还包括:响应于针对至少一条信息对应的呈现区域的触发操作,在人机交互界面中呈现至少一条信息的正文内容。
这里,信息可以包括用于最开始呈现的封面、以及触发后呈现的正文内容,对于封面及正文内容来说,都可以包括文本、图像及视频中的至少一种,例如,封面可以包括标题(文本形式)和图像。在人机交互界面中,可以为信息流中的每条信息划分单独的呈现区域,例如以列表形式来划分呈现区域。对于已得到关键词素材的信息来说,在人机交互界面中的、与该信息对应的呈现区域中,呈现该信息的封面以及关键词素材。用户可以对人机交互界面中的呈现区域执行触发操作(如点击操作),电子设备在接收到触发操作时,确定被触发的呈现区域对应的信息,并呈现该信息的正文内容,例如,呈现一个新的界面,并在该新的界面中呈现该信息的正文内容。通过上述方式,在表示出信息的核心含义的前提下,能够节省每条信息所占的呈现区域,使得人机交互界面中能够同时呈现更多数量的信息。
值得说明的是,对于某些不执行步骤101至步骤102的信息来说,也可以应用同样的呈现方式。例如,某个不执行步骤101至步骤102的信息包括封面及正文内容,则在人机交互界面中的、与该信息对应的呈现区域中,呈现该信息的封面。响应于针对该信息对应的呈现区域的触发操作,在人机交互界面中呈现该信息的正文内容。
如图3A所示,本申请实施例通过呈现关键词素材,能够使用户快速获知关键词素材对应的信息的核心含义(即关键词所表示的含义),并确定信息是否符合自身的兴趣,减少用户直接忽略或跳过信息的情况的出现,同时,也能够提升电子设备在呈现信息流的过程中所耗费的计算资源的实际利用率。
在一些实施例中,参见图3B,图3B是本申请实施例提供的信息流的处理方法的一个流程示意图,图3A示出的步骤103可以通过步骤201至步骤202实现,将结合各步骤进行说明。
在步骤201中,将至少一条信息的关键词素材,添加至至少一条信息的封面中。
这里,对于信息流中的信息,若通过步骤101至步骤102得到了关键词素材,则可以将关键词素材添加至该信息的封面中。其中,信息的封面可以包括文本、图像及视频中的至少一种。
举例来说,信息的封面包括标题“猫的胆子太大了,20多层的高度一点不害怕,把人都急哭了”,得到的关键词素材为文本“[急哭了]”,则可以将关键词素材添加至标题中,得到“[急哭了]猫的胆子太大了,20多层的高度一点不害怕,把人都急哭了”;又例如,信息的封面包括图像,则可以将得到的关键词素材添加至该图像的某个区域中,例如将形式为文本的关键词素材添加至该图像中设定的底部区域或顶部区域,以作为该图像的字幕。
值得说明的是,在将关键词素材添加至信息的封面中时,可以添加至封面包括的全部内容中,也可以添加至封面包括的部分内容中,根据实际应用场景进行设定。例如,信息的封面包括多个图像,则可以将关键词素材分别添加至封面包括的每个图像中,也可以将仅将关键词素材添加至封面包括的第一个图像中。
在一些实施例中,至少一条信息的封面包括图像;可以通过这样的方式来实现上述的将至少一条信息的关键词素材,添加至至少一条信息的封面中:获取图像中的目标所在的区域;获取图像对应的控件所在的区域;控件包括播放控件和时长控件中的至少一种;在图像中的除目标所在的区域及控件所在的区域之外的区域,添加关键词素材。
当信息的封面包括图像时,为了保证添加的关键词素材不会对图像原有的含义表达造成不良影响,在本申请实施例,可以获取图像中的目标所在的区域,其中,可以获取人为标注的目标所在的区域,也可以对图像进行目标检测,得到图像中的目标所在的区域。目标检测可以是多分类的目标检测(例如可识别的目标包括人脸、猫、狗、车辆及建筑等),也可以是二分类的目标检测(如人脸检测)。其中,可以通过机器学习模型实现目标检测,这里对机器学习模型的类型不做限定,例如可以是区域卷积神经网络(Region-ConvolutionalNeural Network,R-CNN)模型或一次检测(You Only Live Once,YOLO)模型等。
同时,针对于图像是信息中的视频的视频帧(即图像作为视频的封面图像)的情况,还可以获取图像对应的控件所在的区域,其中,控件包括播放控件和时长控件中的至少一种。控件所在的区域可以根据实际应用场景进行预先设定,例如资讯类APP中,在人机交互界面中显示封面包括的图像时,控件的位置通常是固定的,如播放控件位于图像正中央,时长控件位于图像右下角。
然后,在图像中的除目标所在的区域及控件所在的区域之外的任意区域,添加关键词素材。值得说明的是,对于封面的图像并不是视频的视频帧的情况,也可以在图像中的除目标所在的区域之外的任意区域,添加关键词素材。通过上述方式,能够使添加的关键词素材避开图像中的原始内容,保证图像原有的含义表达不受影响。
在步骤202中,在人机交互界面呈现至少一条信息、以及添加至至少一条信息的封面中的关键词素材。
在将关键词素材添加至信息的封面中后,在人机交互界面呈现该信息、以及添加至该信息的封面中的关键词素材。
如图3B所示,本申请实施例将信息的关键词素材添加至信息的封面中,不需占用额外的呈现位置,保证信息流原有的呈现架构无需变化;同时,能够使用户在浏览信息的封面时,能够同时关注到封面中的关键词素材,提升了关键词素材的呈现效果,加强了对用户的吸引力。
在一些实施例中,参见图3C,图3C是本申请实施例提供的信息流的处理方法的一个流程示意图,图3A示出的步骤102之前,还可以在步骤301中,对至少一条信息的关键词进行分类处理,得到目标关键词类型。
在本申请实施例中,可以预先设定多个关键词类型,并根据每一个关键词类型的特点,设定关键词类型对应的素材模板,其中,一个关键词类型对应的素材模板的数量可以是一个或多个。举例来说,设定的关键词类型可以包括“网络热词”及“情绪用词”等。
在识别出信息流中的信息的关键词后,对关键词进行分类处理,得到关键词类型,为了便于区分,将这里得到的关键词类型命名为目标关键词类型。其中,可以通过文本分类模型,如BERT模型来对关键词进行分类处理。
在一些实施例中,可以通过这样的方式来实现上述的对至少一条信息的关键词进行分类处理,得到目标关键词类型:将至少一条信息的关键词与关键词数据集进行匹配;其中,关键词数据集包括多个样本关键词、以及每个样本关键词的关键词类型;样本关键词的关键词类型是通过文本分类模型对样本关键词进行分类处理得到的;当至少一条信息的关键词与关键词数据集中的任意一个样本关键词匹配成功时,将匹配成功的样本关键词对应的关键词类型,作为目标关键词类型;当至少一条信息的关键词与关键词数据集中的多个样本关键词均匹配失败时,通过文本分类模型对至少一条信息的关键词进行分类处理,得到目标关键词类型。
例如,可以预先设定多个样本关键词,并通过BERT模型对每个样本关键词进行分类处理,得到关键词类型。然后,将多个样本关键词、以及每个样本关键词的关键词类型添加至关键词数据集中,其中,样本关键词的关键词类型也可以是人为标注得到的。
值得说明的是,在通过BERT模型对样本关键词进行分类处理之前,可以对BERT模型进行训练。例如,获取多个训练关键词、以及每个训练关键词的标注关键词类型(如通过人为标注得到),并通过BERT模型对每个训练关键词进行分类处理,得到待对比的关键词类型。然后,通过训练关键词的标注关键词类型与待对比的关键词类型之间的差异(即损失值,可以通过BERT模型的损失函数计算得到),在BERT模型中进行反向传播,并在反向传播的过程中,沿梯度下降方向更新BERT模型的权重参数。
在得到信息流中信息的关键词后,将关键词与关键词数据集进行匹配,当该关键词与关键词数据集中的任意一个样本关键词匹配成功(如相同)时,将匹配成功的样本关键词对应的关键词类型,作为目标关键词类型,如此,可以较为快速地得到目标关键词类型;当该关键词与关键词数据集中的所有样本关键词均匹配失败时,通过BERT模型对该关键词进行分类处理,得到目标关键词类型,这里,可以将该关键词以及目标关键词类型添加至关键词数据集中,以实现关键词数据集的不断更新。通过上述的构建关键词数据集的方式,能够提升得到目标关键词类型的效率;通过BERT模型进行分类处理,能够提升得到的目标关键词类型的精度。
在步骤302中,在与多个关键词类型分别对应的素材模板中,确定与目标关键词类型对应的素材模板,以作为用于填充至少一条信息的关键词的素材模板。
这里,在得到的目标关键词类型的数量仅为一个的情况下,若目标关键词类型对应的素材模板的数量仅为一个,则将该素材模板作为用于填充关键词的素材模板;若目标关键词类型对应的素材模板的数量包括多个,则在目标关键词类型对应的多个素材模板中进行随机选择,将选择出的素材模板作为用于填充关键词的素材模板。
在确定出用于填充关键词的素材模板后,若信息中的关键词的数量为多个(即多个关键词的目标关键词类型相同),则可以将多个关键词分别填充至该素材模板中,得到多个关键词素材。
在一些实施例中,至少一条信息包括对应不同目标关键词类型的多个关键词;可以通过这样的方式来实现上述的在与多个关键词类型分别对应的素材模板中,确定与目标关键词类型对应的素材模板:获取每个目标关键词类型的设定权重;在与多个关键词类型分别对应的素材模板中,确定与设定权重最大的目标关键词类型对应的素材模板,以作为用于填充至少一条信息的关键词的素材模板。
这里,若信息包括对应不同目标关键词类型的多个关键词,则可以获取每个目标关键词类型的设定权重,设定权重可以根据实际应用场景进行调整,例如“网络热词”的设定权重大于“情绪用词”的设定权重。然后,在与多个关键词类型分别对应的素材模板中,确定与设定权重最大的目标关键词类型对应的素材模板,以作为用于填充关键词的素材模板。
在确定出用于填充关键词的素材模板后,可以将信息中的、符合设定权重最大的目标关键词类型的关键词,填充至该素材模板中,得到关键词素材,也可以将信息中的所有关键词分别填充至该素材模板中,得到多个关键词素材。举例来说,信息的关键词包括关键词A和B,关键词A的目标关键词类型为“网络热词”,关键词B的目标关键词类型为“情绪用词”,若“网络热词”的设定权重大于“情绪用词”的设定权重,则可以将关键词A填充至“网络热词”对应的素材模板,得到关键词素材,也可以将关键词A和B分别填充至“网络热词”对应的素材模板,得到两个关键词素材。通过上述方式,在信息包括多个关键词时,能够根据关键词类型的重要程度(设定权重)来选取用于填充关键词的素材模板。
在一些实施例中,目标关键词类型对应多个素材模板,且不同素材模板的字数条件不同;可以通过这样的方式来实现上述的在与多个关键词类型分别对应的素材模板中,确定与目标关键词类型对应的素材模板:在与多个关键词类型分别对应的素材模板中,确定与目标关键词类型对应的、且字数条件与至少一条信息的关键词的字数相匹配的素材模板,以作为用于填充至少一条信息的关键词的素材模板。
在本申请实施例中,针对一个关键词类型,可以设定对应的多个素材模板,其中不同素材模板的字数条件不同,例如,某个素材模板的字数条件为2字,另一个素材模板的字数条件为3字。在确定出关键词的目标关键词类型后,将与该目标关键词类型对应的、且字数条件与该关键词的字数相匹配的素材模板,作为用于填充该关键词的素材模板。
举例来说,信息的关键词为“宠溺”,目标关键词类型为“网络热词”,“网络热词”对应的素材模板包括字数条件为2字的模板A、以及字数条件为3字的模板B,则将字数条件与关键词的字数相匹配的模板A,作为用于填充关键词“宠溺”的素材模板。通过上述方式,设定对应不同字数条件的素材模板,能够提升素材模板的多样性,适应不同字数的关键词。
如图3C所示,本申请实施例预先为不同的关键词类型设定对应的素材模板,能够使得用于填充关键词的素材模板的风格符合关键词的实际含义,提升最终呈现的视觉效果,加强对用户的吸引力。
在一些实施例中,参见图3D,图3D是本申请实施例提供的信息流的处理方法的一个流程示意图,图3A示出的步骤101可以通过步骤401至步骤404实现,将结合各步骤进行说明。
在步骤401中,对至少一条信息的文本进行分词处理,得到多个候选词。
这里,对本申请实施例中关键词识别的方式进行说明。首先,对信息的文本进行分词处理,得到多个候选词,其中,对分词处理的方式不做限定,例如可以预先设定多个字数条件(如1字、2字、3字……8字),提取文本中符合每个字数条件的所有词,作为候选词;又例如,可以通过开源的分词处理工具来进行分词处理。
在步骤402中,将候选词与多个样本关键词进行匹配。
这里,可以引入先验知识,即多个样本关键词,例如核心商品词、地名、书名及电影名等。针对步骤401中得到的每个候选词,将候选词与多个样本关键词进行匹配。
在步骤403中,当候选词与多个样本关键词中的任意一个匹配成功时,将候选词确定为至少一条信息的关键词。
当候选词与多个样本关键词中的任意一个匹配成功(如相同)时,将候选词直接确定为信息的关键词。如此,能够快速地实现关键词识别。
在步骤404中,当候选词与多个样本关键词均匹配失败时,根据候选词的特征进行分类处理,得到候选词是否为关键词的分类结果;其中,候选词的特征包括词频特征、位置特征、语言特征及上下文特征中的至少一种。
当候选词与多个样本关键词均匹配失败时,提取该候选词的特征,并根据该候选词的特征进行分类处理,得到分类结果,该分类结果表示候选词是否为关键词。其中,候选词的特征包括词频特征、位置特征、语言特征及上下文特征中的至少一种,词频特征可以包括词频(Term Frequency,TF)及逆文本频率指数(Inverse Document Frequency,IDF)中的至少一种;位置特征包括候选词首次出现的位置、候选词是否在标题中、以及候选词首次出现的位置和最后一次出现的位置之间的跨度;语言特征包括词性、是否为停用词、形态特征、词干特征、偏旁及语义中的至少一种。
在根据该候选词的特征进行分类处理时,可以采用无监督或有监督的方式。在无监督方式中,预先设定特征条件,当候选词的特征符合该特征条件时,将候选词作为关键词,例如,特征条件可以是候选词的TF大于设定的阈值。
在有监督方式中,可以调用关键词识别模型,以根据候选词的特征进行分类处理,得到候选词是否为关键词的分类结果,在此之前,可以通过训练集对关键词识别模型进行预先训练,提升模型的识别能力,其中,训练集可以包括被标注为关键词的词的特征、以及被标注为非关键词的词的特征。
如图3D所示,本申请实施例通过引入先验知识,能够提升关键词识别的效率;当通过先验知识未识别出关键词时,提取候选词的特征进行分类处理,能够保证识别精度。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。为了便于理解,以看点类APP(即资讯类APP)进行说明,本申请实施例提供了如图4所示的合成文字贴(对应上文的关键词素材)的示意图,在图4中,看点类APP的后台服务器在确定出待推荐的信息流时,对信息流中的资讯(对应上文的信息)进行语义分析,即进行关键词识别,得到资讯的关键词。其中,需要合成文字贴的资讯类型可以预先设定,例如可以包括图文资讯(包括文本和图像)和视频资讯(包括文本、视频以及视频中作为封面图像的视频帧);关键词识别可以是对资讯中的标题、正文内容、评论、标签及封面图像进行的,当然并不限于此,可以根据实际应用场景进行设定,其中,封面图像是指资讯的封面中的图像。
在得到资讯的关键词后,对关键词进行分类处理,得到目标关键词类型。在本申请实施例中,可以预先设定多个关键词类型,这里以网络热词、情绪用词、数字/符号、对话、热点事件及知识财产(Intellectual Property,IP)名词(如与明星及影视综相关的IP名词)6个关键词类型进行举例说明。对于每一种关键词类型来说,根据关键词类型本身的特点,预先设定对应的素材模板,便于管理,同时也可提升最终得到的文字帖的呈现效果,其中,一种关键词类型对应的素材模板的数量可以是一个或多个。
作为示例,本申请实施例提供了如图5所示的“对话”类型对应的图像模板(即素材为图像的素材模板)的示意图,图5示出了图像模板51和图像模板52,均是对话框形式的图像。此外,在设定素材模板时,还可以设定不同字数条件对应的素材模板,作为示例,图6示出了“网络热词”类型对应的图像模板,包括与2字的字数条件对应的图像模板61和图像模板62(即图像模板61和图像模板62用于填充包括2个字的关键词),还包括与3字的字数条件对应的图像模板63。
图像模板可以包括静态素材和动态动态中的至少一种,作为示例,本申请实施例提供了如图7所示的图像模板的示意图,在图7中,图像模板包括方框形状的静态图像71以及用于体现撒糖特效的动态图像72,其中,静态图像71可以是PSD格式,动态图像72可以是GIF格式,但这并不构成对本申请实施例的限定。
若对资讯进行关键词识别后,得到对应不同目标关键词类型的多个关键词,则可以获取多个目标关键词类型的设定权重,将设定权重最大的目标关键词类型对应的素材模板,作为用于填充关键词的素材模板。关键词类型的设定权重可以根据实际应用场景进行调整,例如,按照设定权重从大到小的顺序,对上述的6个关键词类型进行排序后,可以得到“网络热词-情绪用词-数字/符号-对话-热点事件-IP名词”的序列。
在将关键词填充至素材模板的过程中,可以根据素材模板对应的文本格式,对关键词进行格式更新,再将格式更新后的关键词填充至素材模板的待填充区域中,得到文字贴,如此,可以保证格式更新后的关键词与素材模板的风格统一,其中,文本格式包括字号、字色及字体中的至少一种。
在得到文字帖后,可以将文字帖添加至资讯的封面中。以添加至封面中的图像为例,在添加时,可以获取封面中的图像对应的控件(如播放控件及时长控件中的至少一种)所在的区域,同时对该图像进行目标检测(如人脸检测),得到目标所在的区域,然后,在除控件所在的区域和目标所在的区域之外的区域中,添加文字贴。作为示例,本申请实施例提供了如图8所示的添加文字帖的示意图,在图8中,对资讯的标题进行关键词识别后,得到关键词“宠溺”,进而填充得到文字帖86。在资讯的封面图像81中,避开控件(包括播放控件82和时长控件83)所在的区域及人脸所在的区域后,得到可添加区域84和可添加区域85,在本申请实施例中,可以将文字帖86添加至可添加区域84和可添加区域85中的任意一个区域,图8示出了两种添加示例。
作为示例,本申请实施例还提供了如图9所示的合成文字贴的示意图,在图9中,对资讯93的标题进行关键词识别后,得到关键词“我能跟你回家吗?”,然后,对该关键词进行分类处理,得到目标关键词类型为“对话”。在“对话”对应的图像模板库中,包括图像模板91及图像模板92等多个图像模板,对这些图像模板进行随机选择,得到一个用于填充关键词的图像模板,这里以图像模板92为例。根据选择出的图像模板92对应的文本格式,对关键词进行格式更新,并将格式更新后的关键词填充至图像模板92的待填充区域中,得到文字帖95。最终,将文字帖95添加至资讯93的封面图像94中,并发送至客户端(看点类APP的客户端),以在客户端的人机交互界面中呈现,其中,文字帖95的位置避开了封面图像94中的画面主体物(即海豹)、播放控件及时长控件。
作为示例,本申请实施例还提供了如图10所示的呈现文字贴的示意图,接下来进行分别说明:
1)对资讯100中的标题“张某当众踢了韩某一脚,谁注意张某的举动,太宠溺”进行关键词识别后,得到关键词“宠溺”,进一步分类得到目标关键词类型为“网络热词”。将“宠溺”填充至“网络热词”对应的图像模板中,得到文字帖101,并呈现于资讯100的封面图像中。
2)对资讯110中的标题“猫的胆子太大了,20多层的高度一点不害怕,把人都急哭了”进行关键词识别后,得到关键词“急哭了”,进一步分类得到目标关键词类型为“情绪用词”。将“急哭了”填充至“情绪用词”对应的图像模板中,得到文字帖111,并呈现于资讯110的封面图像中。
3)对资讯120中的标题“深海传来巨响,A军击沉B军最强核潜艇,100亿美金平息这场风波”进行关键词识别后,得到关键词“A军”及“100亿美金”,进一步分类得到目标关键词类型为“数字/符号”。将“A军”和“100亿美金”分别填充至“数字/符号”对应的图像模板中,得到文字帖121和文字帖122,并呈现于资讯120的封面图像中。
4)对资讯130中的标题“海豹宝宝求摸头,心都被萌化了,海豹:我能跟你回家吗?”进行关键词识别后,得到关键词“我能跟你回家吗?”,进一步分类得到目标关键词类型为“对话”。将“我能跟你回家吗?”填充至“对话”对应的图像模板中,得到文字帖131,并呈现于资讯130的封面图像中。
5)对资讯140中的标题“放松心态!高考倒计时30天1071万学子开启‘冲刺’模式全力备考”进行关键词识别后,得到关键词“高考倒计时”,进一步分类得到目标关键词类型为“热点事件”。将“高考倒计时”填充至“热点事件”对应的图像模板中,得到文字帖141,并呈现于资讯140的封面图像中。
6)对资讯150中的标题“杨某是怎么签约公司的现在老板是谁,杨某火了一年赚这么多”进行关键词识别后,得到关键词“杨某”(这里的“杨某”为明星的姓名),进一步分类得到目标关键词类型为“IP名词”。将“杨某”填充至“IP名词”对应的图像模板中,得到文字帖151,并呈现于资讯150的封面图像中。
作为示例,本申请实施例还提供了如图11所示的在看点类APP的人机交互界面中呈现文字贴的示意图,图11中,以即时通信APP中的看点功能为例,示出了看点功能的人机交互界面。在看点功能的“推荐”栏目中,以信息流的形式呈现多条资讯,包括资讯111和资讯113,其中,资讯111是视频资讯(即大图资讯卡),资讯113是图文资讯,图11仅呈现了资讯的封面,并未呈现正文内容。这里,以仅对信息流中的视频资讯添加文字帖为例,示出了添加在资讯111的封面包括的图像中的文字帖112。相较于资讯113来说,添加有文字帖112的资讯111能够使用户更快地了解资讯的核心含义,有助于用户快速判断资讯是否是自身感兴趣的。
值得说明的是,在本申请实施例中,文字帖还可以与资讯的封面以并列关系进行呈现,其中,并列关系如上下并列或左右并列等。作为示例,本申请实施例提供了如图12所示的呈现文字贴的示意图,在图12中,示出了资讯121及资讯121对应的文字帖122,两者以上下并列的方式进行呈现。
上文主要介绍了素材模板为图像模板的情况,但在本申请实施例中,素材模板还可以是文本模板,例如文本模板可以是“[待填充区域]”,如此,得到的文字帖也是文本形式。针对文本形式的文字帖,同样可以将其添加至资讯的封面中,也可以与封面以并列关系进行呈现。对于前者情况,本申请实施例提供了如图13所示的呈现文字帖的示意图,在图13中,示出了资讯131以及添加在资讯131的封面图像中的文字帖132,文字帖132能够以类似于字幕的形式表示资讯131的核心含义,其中,文字帖在封面图像中的添加位置可以预先设定,对此不做限定。
除了添加在资讯的封面图像中外,也可以将文本形式的文字帖添加至资讯的封面包括的文本(如标题)中。作为示例,本申请实施例提供了如图14所示的呈现文字帖的示意图,在图14中,示出了资讯141以及添加在资讯141的标题中的文字帖142,通过呈现文字帖142,能够对标题的内容进行进一步提炼,使用户快速获知资讯的核心含义。
文本形式的文字帖也可以与资讯的封面以并列关系进行呈现,作为示例,本申请实施例提供了如图15所示的呈现文字帖的示意图,在图15中,示出了资讯151以及与资讯151上下并列的文字帖152。
在底层实现上,本申请实施例提供了如图16所示的合成文字帖的流程示意图,为了便于理解,以步骤形式进行说明:
1)对资讯的标题(当然还可以是资讯包括的其他内容,这里仅为示例)进行语义分析,即进行关键词识别,得到资讯的关键词。这里,可以调用云服务器的自然语言处理(Natural Language Processing,NLP)接口实现关键词识别。本申请实施例对关键词识别的方式不做限定,可以采用无监督或有监督的方式。例如,可以对资讯的标题进行分词处理得到多个候选词,针对每个候选词,通过提取候选词的特征来判断其是否为关键词,其中,候选词的特征包括统计特征(如TF、IDF)、位置特征(候选词首次出现的位置、候选词首次出现的位置和最后一次出现的位置之间的跨度)、语言特征(词性、是否为停用词、形态特征、词干特征、偏旁、语义)及语境特征(上下文特征)中的至少一种,其中,统计特征对应上文的词频特征,形态特征可以包括后缀及首字母缩写等。此外,还可以引入先验知识,即样本关键词,例如引入核心商品词、地名、书名及电影名等,若候选词与某个样本关键词相同,则将候选词作为资讯的关键词。
2)对资讯的关键词进行分类处理,得到目标关键词类型。这里,可以预先通过BERT模型对多个样本关键词进行分类处理,得到与每个样本关键词的关键词类型,然后,将多个样本关键词及每个样本关键词的关键词类型添加至关键词数据集中,并进行存储,如进行缓存。在获取到资讯的关键词后,将关键词与关键词数据集中的样本关键词进行匹配,若资讯的关键词与某个样本关键词相同(对应图16中的命中),则将该样本关键词对应的关键词类型,作为资讯的关键词的目标关键词类型;若资讯的关键词与所有样本关键词均不相同(对应图16中的未命中),则通过BERT模型对资讯的关键词进行实时分类处理,得到目标关键词类型,并将资讯的关键词及目标关键词类型添加至关键词数据集中,以实现关键词数据集的不断更新。
3)将资讯的关键词填充至目标关键词类型对应的素材模板中。
4)完成填充后,得到文字帖,本申请实施例对文字帖的格式不做限定,例如可以是便携式网络图形(Portable Network Graphics,PNG)格式。
5)将得到的文字帖进行加载显示,例如,将文字帖添加在资讯的封面图像中,并在客户端的人机交互界面中,呈现添加有资讯的封面图像。
本申请实施例能够对资讯进行内容提炼得到关键词,并将关键词以图像化的表现形式(图像形式的文字帖)进行呈现,能够提升视觉吸引力,有助于用户对信息流中的资讯进行快速筛选,促进点击消费的增加;同时,本申请实施例借助了机器学习的能力,实现了文字帖的自动合成和自动添加,能够大量节省人力成本。
下面继续说明本申请实施例提供的信息流的处理装置455实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的信息流的处理装置455中的软件模块可以包括:关键词获取模块4551,用于获取信息流中至少一条信息的关键词;填充模块4552,用于将至少一条信息的关键词填充到素材模板中,以得到至少一条信息的关键词素材;呈现模块4553,用于在人机交互界面呈现信息流中的至少一条信息、以及至少一条信息的关键词素材。
在一些实施例中,至少一条信息包括封面;呈现模块4553,还用于:将至少一条信息的关键词素材,添加至至少一条信息的封面中;在人机交互界面呈现至少一条信息、以及添加至至少一条信息的封面中的关键词素材。
在一些实施例中,至少一条信息的封面包括图像;呈现模块4553,还用于:获取图像中的目标所在的区域;获取图像对应的控件所在的区域;控件包括播放控件和时长控件中的至少一种;在图像中的除目标所在的区域及控件所在的区域之外的区域,添加关键词素材。
在一些实施例中,素材模板对应设定的文本格式;填充模块4552,还用于:根据素材模板对应的文本格式,对至少一条信息的关键词进行格式更新;将格式更新后的关键词填充到素材模板中,以得到至少一条信息的关键词素材。
在一些实施例中,至少一条信息包括封面及正文内容;呈现模块4553,还用于:在人机交互界面中的、与至少一条信息对应的呈现区域中,呈现至少一条信息的封面及关键词素材;信息流的处理装置455还包括:响应模块,用于响应于针对至少一条信息对应的呈现区域的触发操作,在人机交互界面中呈现至少一条信息的正文内容。
在一些实施例中,素材模板包括静态素材和动态素材;静态素材包括用于填充关键词的待填充区域;填充模块4552,还用于:将至少一条信息的关键词填充到静态素材的待填充区域中,以将填充后的静态素材和动态素材共同作为至少一条信息的关键词素材。
在一些实施例中,信息流的处理装置455还包括:分类模块,用于对至少一条信息的关键词进行分类处理,得到目标关键词类型;模板确定模块,用于在与多个关键词类型分别对应的素材模板中,确定与目标关键词类型对应的素材模板,以作为用于填充至少一条信息的关键词的素材模板。
在一些实施例中,至少一条信息包括对应不同目标关键词类型的多个关键词;模板确定模块,还用于:获取每个目标关键词类型的设定权重;在与多个关键词类型分别对应的素材模板中,确定与设定权重最大的目标关键词类型对应的素材模板,以作为用于填充至少一条信息的关键词的素材模板。
在一些实施例中,目标关键词类型对应多个素材模板,且不同素材模板的字数条件不同;模板确定模块,还用于:在与多个关键词类型分别对应的素材模板中,确定与目标关键词类型对应的、且字数条件与至少一条信息的关键词的字数相匹配的素材模板,以作为用于填充至少一条信息的关键词的素材模板。
在一些实施例中,分类模块还用于:将至少一条信息的关键词与关键词数据集进行匹配;其中,关键词数据集包括多个样本关键词、以及每个样本关键词的关键词类型;样本关键词的关键词类型是通过文本分类模型对样本关键词进行分类处理得到的;当至少一条信息的关键词与关键词数据集中的任意一个样本关键词匹配成功时,将匹配成功的样本关键词对应的关键词类型,作为目标关键词类型;当至少一条信息的关键词与关键词数据集中的多个样本关键词均匹配失败时,通过文本分类模型对至少一条信息的关键词进行分类处理,得到目标关键词类型。
在一些实施例中,关键词获取模块4551,还用于:对至少一条信息的文本进行分词处理,得到多个候选词;针对每个候选词,执行以下处理:将候选词与多个样本关键词进行匹配;当候选词与多个样本关键词中的任意一个匹配成功时,将候选词确定为至少一条信息的关键词;当候选词与多个样本关键词均匹配失败时,根据候选词的特征进行分类处理,得到候选词是否为关键词的分类结果;其中,候选词的特征包括词频特征、位置特征、语言特征及上下文特征中的至少一种。
在一些实施例中,至少一条信息的文本包括标题、正文内容、评论及标签;关键词获取模块4551,还用于:执行以下任意一种处理:对至少一条信息的标题进行关键词识别,得到至少一条信息的关键词;对至少一条信息的标题、正文内容、评论及标签进行关键词识别,得到至少一条信息的关键词。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的信息流的处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3A、图3B、图3C或图3D示出的信息流的处理方法。值得说明的是,计算机包括终端设备和服务器在内的各种计算设备。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种信息流的处理方法,其特征在于,所述方法包括:
获取信息流中至少一条信息的关键词;
将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材;
在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材。
2.根据权利要求1所述的信息流的处理方法,其特征在于,
所述至少一条信息包括封面;
所述在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材,包括:
将所述至少一条信息的关键词素材,添加至所述至少一条信息的封面中;
在所述人机交互界面呈现所述至少一条信息、以及添加至所述至少一条信息的封面中的所述关键词素材。
3.根据权利要求2所述的信息流的处理方法,其特征在于,
所述至少一条信息的封面包括图像;
所述将所述至少一条信息的关键词素材,添加至所述至少一条信息的封面中,包括:
获取所述图像中的目标所在的区域;
获取所述图像对应的控件所在的区域;所述控件包括播放控件和时长控件中的至少一种;
在所述图像中的除所述目标所在的区域及所述控件所在的区域之外的区域,添加所述关键词素材。
4.根据权利要求1所述的信息流的处理方法,其特征在于,
所述素材模板对应设定的文本格式;
所述将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材,包括:
根据所述素材模板对应的文本格式,对所述至少一条信息的关键词进行格式更新;
将格式更新后的关键词填充到所述素材模板中,以得到所述至少一条信息的关键词素材。
5.根据权利要求1所述的信息流的处理方法,其特征在于,
所述至少一条信息包括封面及正文内容;
所述在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材,包括:
在所述人机交互界面中的、与所述至少一条信息对应的呈现区域中,呈现所述至少一条信息的封面及关键词素材;
所述方法还包括:
响应于针对所述至少一条信息对应的呈现区域的触发操作,在所述人机交互界面中呈现所述至少一条信息的正文内容。
6.根据权利要求1所述的信息流的处理方法,其特征在于,
所述素材模板包括静态素材和动态素材;所述静态素材包括用于填充关键词的待填充区域;
所述将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材,包括:
将所述至少一条信息的关键词填充到所述静态素材的待填充区域中,以将填充后的所述静态素材和所述动态素材共同作为所述至少一条信息的关键词素材。
7.根据权利要求1至6任一项所述的信息流的处理方法,其特征在于,所述方法还包括:
对所述至少一条信息的关键词进行分类处理,得到目标关键词类型;
在与多个关键词类型分别对应的素材模板中,确定与所述目标关键词类型对应的素材模板,以作为用于填充所述至少一条信息的关键词的素材模板。
8.根据权利要求7所述的信息流的处理方法,其特征在于,
所述至少一条信息包括对应不同目标关键词类型的多个关键词;
所述在与多个关键词类型分别对应的素材模板中,确定与所述目标关键词类型对应的素材模板,包括:
获取每个所述目标关键词类型的设定权重;
在与多个关键词类型分别对应的素材模板中,确定与设定权重最大的所述目标关键词类型对应的素材模板,以作为用于填充所述至少一条信息的关键词的素材模板。
9.根据权利要求7所述的信息流的处理方法,其特征在于,
所述目标关键词类型对应多个素材模板,且不同所述素材模板的字数条件不同;
所述在与多个关键词类型分别对应的素材模板中,确定与所述目标关键词类型对应的素材模板,包括:
在与多个关键词类型分别对应的素材模板中,确定与所述目标关键词类型对应的、且字数条件与所述至少一条信息的关键词的字数相匹配的素材模板,以作为用于填充所述至少一条信息的关键词的素材模板。
10.根据权利要求7所述的信息流的处理方法,其特征在于,所述对所述至少一条信息的关键词进行分类处理,得到目标关键词类型,包括:
将所述至少一条信息的关键词与关键词数据集进行匹配;
其中,所述关键词数据集包括多个样本关键词、以及每个所述样本关键词的关键词类型;所述样本关键词的关键词类型是通过文本分类模型对所述样本关键词进行分类处理得到的;
当所述至少一条信息的关键词与所述关键词数据集中的任意一个样本关键词匹配成功时,将匹配成功的样本关键词对应的关键词类型,作为目标关键词类型;
当所述至少一条信息的关键词与所述关键词数据集中的多个样本关键词均匹配失败时,通过所述文本分类模型对所述至少一条信息的关键词进行分类处理,得到目标关键词类型。
11.根据权利要求1至6任一项所述的信息流的处理方法,其特征在于,所述获取信息流中至少一条信息的关键词,包括:
对所述至少一条信息的文本进行分词处理,得到多个候选词;
针对每个所述候选词,执行以下处理:
将所述候选词与多个样本关键词进行匹配;
当所述候选词与所述多个样本关键词中的任意一个匹配成功时,将所述候选词确定为所述至少一条信息的关键词;
当所述候选词与所述多个样本关键词均匹配失败时,根据所述候选词的特征进行分类处理,得到所述候选词是否为关键词的分类结果;
其中,所述候选词的特征包括词频特征、位置特征、语言特征及上下文特征中的至少一种。
12.根据权利要求1至6任一项所述的信息流的处理方法,其特征在于,
所述至少一条信息的文本包括标题、正文内容、评论及标签;
所述获取信息流中至少一条信息的关键词,包括:
执行以下任意一种处理:
对所述至少一条信息的标题进行关键词识别,得到所述至少一条信息的关键词;
对所述至少一条信息的标题、正文内容、评论及标签进行关键词识别,得到所述至少一条信息的关键词。
13.一种信息流的处理装置,其特征在于,所述装置包括:
关键词获取模块,用于获取信息流中至少一条信息的关键词;
填充模块,用于将所述至少一条信息的关键词填充到素材模板中,以得到所述至少一条信息的关键词素材;
呈现模块,用于在人机交互界面呈现所述信息流中的所述至少一条信息、以及所述至少一条信息的关键词素材。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的信息流的处理方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的信息流的处理方法。
CN202011015730.0A 2020-09-24 2020-09-24 信息流的处理方法、装置及电子设备 Pending CN112100501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011015730.0A CN112100501A (zh) 2020-09-24 2020-09-24 信息流的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011015730.0A CN112100501A (zh) 2020-09-24 2020-09-24 信息流的处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112100501A true CN112100501A (zh) 2020-12-18

Family

ID=73755334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011015730.0A Pending CN112100501A (zh) 2020-09-24 2020-09-24 信息流的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112100501A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918685A (zh) * 2021-12-13 2022-01-11 中电云数智科技有限公司 关键词提取方法及装置
WO2023098326A1 (zh) * 2021-11-30 2023-06-08 腾讯科技(深圳)有限公司 视频封面的生成方法、装置、设备、介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055677A (zh) * 2016-06-07 2016-10-26 微梦创科网络科技(中国)有限公司 信息流中内容聚合页面展示方法及装置
CN109801111A (zh) * 2019-01-28 2019-05-24 优估(上海)信息科技有限公司 一种广告落地页投放方法、广告落地页显示方法及装置
CN110223695A (zh) * 2019-06-27 2019-09-10 维沃移动通信有限公司 一种任务创建方法及移动终端
US20200159803A1 (en) * 2018-11-15 2020-05-21 Ovh Method for attracting users to a web page and server implementing the method
CN111339399A (zh) * 2020-01-20 2020-06-26 腾讯科技(深圳)有限公司 目标处理方法、目标处理装置、目标处理设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055677A (zh) * 2016-06-07 2016-10-26 微梦创科网络科技(中国)有限公司 信息流中内容聚合页面展示方法及装置
US20200159803A1 (en) * 2018-11-15 2020-05-21 Ovh Method for attracting users to a web page and server implementing the method
CN109801111A (zh) * 2019-01-28 2019-05-24 优估(上海)信息科技有限公司 一种广告落地页投放方法、广告落地页显示方法及装置
CN110223695A (zh) * 2019-06-27 2019-09-10 维沃移动通信有限公司 一种任务创建方法及移动终端
CN111339399A (zh) * 2020-01-20 2020-06-26 腾讯科技(深圳)有限公司 目标处理方法、目标处理装置、目标处理设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023098326A1 (zh) * 2021-11-30 2023-06-08 腾讯科技(深圳)有限公司 视频封面的生成方法、装置、设备、介质及程序产品
CN113918685A (zh) * 2021-12-13 2022-01-11 中电云数智科技有限公司 关键词提取方法及装置

Similar Documents

Publication Publication Date Title
US11775254B2 (en) Analyzing graphical user interfaces to facilitate automatic interaction
US20210232632A1 (en) Multi-modal virtual experiences of distributed content
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
US20190332937A1 (en) Recurrent neural network architectures which provide text describing images
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN109271518B (zh) 用于对微博信息进行分类显示的方法和设备
CN112771530A (zh) 交互式web文档的自动导航
CN107066464A (zh) 语义自然语言向量空间
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN114390217B (zh) 视频合成方法、装置、计算机设备和存储介质
CN116702737A (zh) 文案生成方法、装置、设备、存储介质及产品
JP7550257B2 (ja) ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置
CN111506794A (zh) 一种基于机器学习的谣言管理方法和装置
CN116700839B (zh) 一种任务处理方法、装置、设备、存储介质及程序产品
CN112230838A (zh) 一种文章处理方法、装置、设备及计算机可读存储介质
CN112100501A (zh) 信息流的处理方法、装置及电子设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
CN117453880A (zh) 多模态数据的处理方法、装置、电子设备及存储介质
CN114595191A (zh) 网页处理方法、装置、电子设备及存储介质
CN113709575A (zh) 视频编辑处理方法、装置、电子设备及存储介质
Devi et al. Newsgist: video generation from news stories
Vayadande et al. The Rise of AI‐Generated News Videos: A Detailed Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035384

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination