CN116975322A - 媒体数据的展示方法、装置、计算机设备、存储介质 - Google Patents
媒体数据的展示方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN116975322A CN116975322A CN202211531131.3A CN202211531131A CN116975322A CN 116975322 A CN116975322 A CN 116975322A CN 202211531131 A CN202211531131 A CN 202211531131A CN 116975322 A CN116975322 A CN 116975322A
- Authority
- CN
- China
- Prior art keywords
- media data
- data
- information
- media
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 126
- 238000012545 processing Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 16
- 230000001960 triggered effect Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 8
- 241000269980 Pleuronectidae Species 0.000 description 64
- 230000006870 function Effects 0.000 description 24
- 230000006399 behavior Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 21
- 238000009434 installation Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 10
- 230000003993 interaction Effects 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及一种媒体数据的展示方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对目标对象的请求信息进行识别,得到文本信息和意图信息;基于所述意图信息确定所述请求信息对应的请求类型;当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;依据所述展示方式对所述媒体数据进行展示。采用本方法能够有效提高媒体数据的搜索效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种媒体数据的展示方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术以及互联网技术的发展,媒体数据播放在不同业务场景的应用落地,使得各种类型的媒体数据广受大众关注。由于不同年龄段的目标对象对媒体数据的偏好不同,因此需要将目标对象每次的搜索记录进行保存,并构建出目标对象对应的历史搜索记录。
然而,目前的媒体数据的展示方式中,通常是通过计算当前目标对象搜索的媒体数据和历史搜索记录中的媒体数据之间的匹配度,并选取匹配度最高的搜索内容展示给目标对象,但在某些情况下,尤其对于没有任何历史搜索记录的目标对象来说,采用上述方式搜索得到的搜索内容较多,但其中可能包含了目标对象不感兴趣的内容,使得目标对象可能会重新进行搜索,容易导致媒体数据的搜索效率较低,会给目标对象带来不好的体验。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高媒体数据的搜索效率的媒体数据的展示方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种媒体数据的展示方法。所述方法包括:对目标对象的请求信息进行识别,得到文本信息和意图信息;基于所述意图信息确定所述请求信息对应的请求类型;当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;依据所述展示方式对所述媒体数据进行展示。
第二方面,本申请还提供了一种媒体数据的展示装置。所述装置包括:识别模块,用于对目标对象的请求信息进行识别,得到文本信息和意图信息;确定模块,用于基于所述意图信息确定所述请求信息对应的请求类型;搜索模块,用于当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;所述确定模块还用于依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;展示模块,用于依据所述展示方式对所述媒体数据进行展示。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:对目标对象的请求信息进行识别,得到文本信息和意图信息;基于所述意图信息确定所述请求信息对应的请求类型;当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;依据所述展示方式对所述媒体数据进行展示。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:对目标对象的请求信息进行识别,得到文本信息和意图信息;基于所述意图信息确定所述请求信息对应的请求类型;当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;依据所述展示方式对所述媒体数据进行展示。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:对目标对象的请求信息进行识别,得到文本信息和意图信息;基于所述意图信息确定所述请求信息对应的请求类型;当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;依据所述展示方式对所述媒体数据进行展示。
上述媒体数据的展示方法、装置、计算机设备、存储介质和计算机程序产品,通过对目标对象的请求信息进行识别,得到文本信息和意图信息;基于所述意图信息确定所述请求信息对应的请求类型;当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;依据所述展示方式对所述媒体数据进行展示。由于搜索到的媒体数据对应的展示方式是依据媒体数据、目标对象的对象数据和媒体操作数据三个维度的数据确定的,故当目标对象的请求信息对应的请求类型为搜索类型、且基于文本信息的关键字搜索到对应的媒体数据时,可以依据所确定的展示方式对搜索到的媒体数据进行个性化展示,从而能够有效提升目标对象的语音搜索体验,避免搜索直达影响某些不希望直达的目标对象,同时,针对某些希望直达的目标对象来说,采用上述方法搜索得到的内容仅包含了目标对象感兴趣的内容,有效避免了目标对象重新进行搜索的流程,从而有效提高了媒体数据的搜索效率。
附图说明
图1为一个实施例中媒体数据的展示方法的应用环境图;
图2为一个实施例中媒体数据的展示方法的流程示意图;
图3为一个实施例中依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式步骤的流程示意图;
图4为一个实施例中行为日志中部分数据的示意图;
图5为一个实施例中将样本媒体数据、目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据步骤的流程示意图;
图6为一个实施例中分割候选对象以及搜索与候选对象相关的对象信息的示意图;
图7为一个实施例中基于用户特性的语音视频搜索直达方法的数据处理流程示意图;
图8为一个实施例中神经元最简单的结构示意图;
图9为一个实施例中神经网络的结构示意图;
图10为一个实施例中媒体数据的展示装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
本申请实施例提供的媒体数据的展示方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102可以获取到目标对象的请求信息,并对目标对象的请求信息进行识别,得到文本信息和意图信息;终端102基于意图信息确定请求信息对应的请求类型,当请求类型为搜索类型时,终端102可以基于文本信息的关键字从本地数据库中搜索得到媒体数据,终端102也可以与服务器104进行交互,从服务器104获取到基于文本信息的关键字搜索的媒体数据;进一步的,终端102依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式;展示方式包括搜索直达和列表展示;终端102依据展示方式对媒体数据进行展示。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、智能家电和便携式可穿戴设备,智能家电可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解,本申请实施例提供的服务器104也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成组成点对点(Peer To Peer,P2P)网络,P2P协议是一个运行在传输控制协议(Transmission Control Protocol,TCP)协议之上的应用层协议。
在一个实施例中,如图2所示,提供了一种媒体数据的展示方法,该方法可以由服务器或终端单独执行,也可以由服务器和终端共同执行,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,对目标对象的请求信息进行识别,得到文本信息和意图信息。
其中,目标对象是指不同对象中的某一个对象,本申请中的目标对象可以是使用终端的操作者,例如,当前使用终端设备A的操作者为用户A,则目标对象为用户A。
请求信息是指目标对象的请求信息,本申请中的请求信息可以包括语音请求信息、文本请求信息等不同类型的请求信息。语音请求信息又可以包括语音指令信息、语音交互信息以及语音搜索信息等,例如,本申请中的请求信息可以是目标对象下发的一句语音指令信息。
文本信息是指目标对象的请求信息中所包含的文本信息,例如,目标对象的请求信息中所包含的文本信息为“我想要看哈利波特”。
意图信息是指目标对象的请求信息中所包含的意图信息,例如,目标对象的请求信息中所包含的意图信息为“我想要看”。
自动语音识别技术(Automatic Speech Recognition,ASR),是一种将人的语音转换为文本的技术。
具体地,当终端获取到目标对象的请求信息时,终端可以将目标对象的请求信息转换为文本信息,并识别文本信息中的意图信息,以得到与目标对象的请求信息对应的文本信息和意图信息。例如,终端可以通过ASR模块将目标对象的语音转换为文本信息,并通过意图识别模型对文本信息进行识别,以得到对应的意图信息。
举个例子,以终端为智能电视为例进行说明。假设目标对象为用户A,用户A当前时刻想观看影片哈利波特,则用户A可以与智能电视进行语音交互,即用户A可以发出“我想要看哈利波特”的语音1,当智能电视采集到用户A的语音1时,智能电视可以通过ASR将用户A的语音1转换为文本信息1,即得到的文本信息1为:“我想要看哈利波特”;进一步的,智能电视可以通过预先训练好的意图识别模型对文本信息1进行识别,以得到对应的意图信息为:“我想要看”。
步骤204,基于意图信息确定请求信息对应的请求类型。
其中,请求类型是指各个请求信息所对应的类型,例如,本申请中请求信息对应的请求类型可以包括搜索类型、操作类型等中的至少一种。
操作类型是指请求信息对应的请求类型为操作类型,例如,操作类型的请求信息1为“调高音量”。
具体的,终端对目标对象的请求信息进行识别,得到文本信息和意图信息之后,终端可以根据意图信息来判断请求信息对应的请求类型,比如,当终端通过意图识别模型对文本信息进行识别,得到对应的意图信息表示搜索意图时,则终端可以基于搜索意图确定该请求信息对应的请求类型为搜索类型,并执行与该搜索类型的请求信息对应的处理流程。即终端可以根据意图信息来确定不同的请求信息所对应的请求类型,并执行不同的处理流程。
举个例子,以终端为智能电视为例进行说明。假设目标对象为用户A,用户A当前时刻想调高智能电视的音量,则用户A可以与智能电视进行语音交互,即用户A可以发出“调高音量”的语音2,当智能电视采集到用户A的语音2时,智能电视可以通过ASR将用户A的语音2转换为文本信息2,即得到的文本信息2为:“调高音量”;进一步的,智能电视可以通过预先训练好的意图识别模型对文本信息2进行识别,以得到对应的意图信息为:“调高音量”,即意图信息表示操作意图,则智能电视可以基于操作意图确定该请求信息对应的请求类型为操作类型,并执行与该操作类型的请求信息对应的处理流程。
步骤206,当请求类型为搜索类型时,基于文本信息的关键字搜索得到媒体数据。
其中,搜索类型是指请求信息对应的请求类型为搜索类型,本申请中可以基于意图信息来确定请求信息对应的请求类型。例如,搜索类型的请求信息1为“我想要看哈利波特”。
关键字是指目标对象的请求信息中所包含的关键字,即本申请中终端对目标对象的请求信息进行识别得到文本信息后,终端可以从文本信息中提取得到关键字。例如,文本信息1为:“我想要看哈利波特”,可以提取文本信息1中的关键字为:“哈利波特”。
媒体数据即流媒体数据,媒体数据可以包括多种类型的数据,例如媒体数据可以包括视频数据、音频数据、图像数据、应用程序安装数据等中的至少一种。本实施例中视频数据又可以包括点播视频、直播视频等中的至少一种。
具体地,终端对目标对象的请求信息进行识别,得到文本信息和意图信息之后,终端可以根据意图信息来确定请求信息对应的请求类型,当终端基于意图信息确定请求信息对应的请求类型为搜索类型时,终端可以提取与该请求信息对应的文本信息中的关键字,并基于关键字从数据库中搜索对应的媒体数据,以得到与关键词相关的媒体数据集。
此外,当终端基于意图信息确定请求信息对应的请求类型为操作类型时,终端可以提取与该请求信息对应的文本信息中的关键词,并基于关键词生成控制指令,以使得终端依据该控制指令执行对应的控制处理流程。
举个例子,以终端为智能电视为例进行说明。假设目标对象为用户A,用户A当前时刻想观看影片哈利波特,则用户A可以与智能电视进行语音交互,即用户A可以发出“我想要看哈利波特”的语音1,当智能电视采集到用户A的语音1时,终端可以通过ASR将用户A的语音1转换为文本信息,即得到的文本信息1为:“我想要看哈利波特”;进一步的,终端可以通过预先训练好的意图识别模型对文本信息1进行识别,以得到对应的意图信息为:“我想要看”,该意图信息表示搜索意图,则终端可以基于搜索意图确定该请求信息对应的请求类型为搜索类型,并提取与该语音1对应的文本信息中的关键字为“哈利波特”;进一步的,终端可以基于关键字“哈利波特”从本地数据库中搜索与“哈利波特”相关的媒体资源,以得到与关键字“哈利波特”相关的媒体数据集为{哈利波特1、哈利波特2、哈利波特3}。或者,终端也可以与某个视频应用程序的后台服务器进行交互,以使后台服务器基于关键字“哈利波特”从数据库中搜索与“哈利波特”相关的媒体资源,并发送给终端。
步骤208,依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式;展示方式包括搜索直达和列表展示。
其中,对象数据是指目标对象的描述数据,即根据目标对象的基础信息、网络浏览内容和交互数据等信息抽象出的一个标签化数据模型,例如,本申请中的对象数据可以是建立在一系列属性数据之上的目标对象模型,目标对象的对象数据可以是从终端中存储的目标对象浏览记录、观影记录、消费行为等日志数据中提取得到的。
媒体操作数据是指目标对象的操作行为数据,本申请中的媒体操作数据可以是目标对象的媒体操作行为数据,即目标对象对媒体数据进行不同操作行为所对应的数据,例如,目标对象对媒体数据进行不同的操作行为可以包括浏览影片、点击观看影片、购买影片、退出影片详情页、打开影片详情页、快进或者快退等中的至少一种,则媒体操作数据可以为目标对象对媒体数据进行上述不同操作的操作次数,比如,媒体操作数据可以包括在预设时间范围内,目标对象点击观看影片A的次数为3次。
展示方式是指媒体数据的展示方式,例如,本申请中的展示方式包括搜索直达和列表展示。
搜索直达是一种搜索结果的展示方式,当目标对象的请求信息对应的请求类型为搜索类型时,能够直接跳转到其中某个搜索结果的播放页面,无需目标对象手动筛选搜索结果。例如,目标对象的请求信息对应的文本信息中包含的搜索关键字为“哈利波特”,若采用搜索直达的展示方式,则展现形式为:直接跳转到电影“哈利波特”的播放页面,非搜索直达的展现形式可能为:跳转到包含多个搜索结果的列表页面。
列表展示是指将搜索结果以列表的形式进行展示的方式,例如,目标对象的请求信息对应的文本信息中包含的搜索关键字为“哈利波特”,若采用列表展示的方式,则展现形式为:将搜索到的与“哈利波特”相关的各个搜索结果按照一定的顺序进行排序后显示于列表页面中。
步骤210,依据展示方式对媒体数据进行展示。
具体地,当请求信息对应的请求类型为搜索类型时,终端基于文本信息中的关键字搜索得到媒体数据之后,终端可以依据搜索到的媒体数据、目标对象的对象数据和媒体操作数据,确定搜索到的媒体数据对应的展示方式,例如,终端利用预先训练好的神经网络模型对上述三种类型的数据进行数据处理,即终端将搜索到的媒体数据、目标对象的对象数据和媒体操作数据作为输入数据,输入到预先训练好的直达预测模型中进行数据处理,即可得到处理后的输出数据;进一步的,终端可以根据输出数据来确定媒体数据对应的展示方式,并依据展示方式对媒体数据进行展示。即终端可以根据输出数据来确定媒体数据对应的展示方式是否为搜索直达;若确定媒体数据对应的展示方式为搜索直达,则终端可以依据预设筛选策略,筛选得到目标媒体数据,并在播放页面中播放目标媒体数据;若确定媒体数据对应的展示方式不是搜索直达,即终端可以确定媒体数据对应的展示方式为列表展示,并将媒体数据以列表的形式展示于列表页面中。
举个例子,以终端为智能电视为例进行说明。假设目标对象为用户A,用户A当前时刻想观看影片哈利波特,则用户A可以与智能电视进行语音交互,即用户A可以发出“我想要看哈利波特”的语音1,当智能电视基于搜索意图确定该语音1对应的请求类型为搜索类型时,智能电视可以提取与该语音1对应的文本信息中的关键字为“哈利波特”,并基于关键字“哈利波特”从数据库中搜索与“哈利波特”相关的媒体资源,得到与关键字“哈利波特”相关的媒体数据集A为{哈利波特1、哈利波特2、哈利波特3};进一步的,智能电视可以从数据库中获取用户A的对象数据A和媒体操作数据A,并将搜索到的媒体数据集A、目标对象的对象数据A和媒体操作数据A进行融合处理,得到融合后的融合数据A,并将融合数据A作为输入数据,输入到预先训练好的直达预测模型中进行数据处理,得到的处理后的输出数据为预测概率值P=0.9;进一步的,智能电视可以根据预测概率值P=0.9来确定媒体数据对应的展示方式,即智能电视可以将预测概率值P=0.9与预设阈值0.8进行比较,由于P=0.9大于预设阈值0.8,则智能电视确定搜索到的媒体数据集A对应的展示方式为搜索直达,智能电视可以依据预设筛选策略,筛选得到目标媒体数据为媒体数据集A中的“哈利波特1”,并在播放页面中播放“哈利波特1”。
此外,若智能电视将融合数据A作为输入数据,输入到预先训练好的直达预测模型中进行数据处理,得到的处理后的输出数据为预测概率值P=0.5,智能电视可以将预测概率值P=0.5与预设阈值0.8进行比较,由于P=0.5小于预设阈值0.8,则智能电视确定搜索到的媒体数据集A对应的展示方式为非搜索直达,即智能电视确定媒体数据集A对应的展示方式为列表展示,智能电视可以进一步确定媒体数据集A中的各个媒体数据的优先级顺序为:“哈利波特3”>“哈利波特2”>“哈利波特1”,则智能电视可以按照上述确定的优先级顺序,将媒体数据集A中的“哈利波特3”、“哈利波特2”、“哈利波特1”显示于列表页面中。即本申请实施例中当预测概率值大于预设阈值时,智能电视确定媒体数据对应的展示方式为搜索直达,并依据搜索直达的展示方式对媒体数据进行展示;当预测概率值小于或者等于预设阈值时,智能电视确定媒体数据对应的展示方式为列表展示,并依据列表展示的展示方式对媒体数据进行展示。
本实施例中,通过对目标对象的请求信息进行识别,得到文本信息和意图信息,并基于意图信息确定请求信息对应的请求类型;当请求类型为搜索类型时,基于文本信息的关键字搜索得到媒体数据,并依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式;展示方式包括搜索直达和列表展示;依据展示方式对媒体数据进行展示。由于搜索到的媒体数据对应的展示方式是依据媒体数据、目标对象的对象数据和媒体操作数据三个维度的数据确定的,故当目标对象的请求信息对应的请求类型为搜索类型、且基于文本信息的关键字搜索到对应的媒体数据时,可以依据所确定的展示方式对搜索到的媒体数据进行个性化展示,从而能够有效提升目标对象的语音搜索体验,避免搜索直达影响某些不希望直达的目标对象,同时,针对某些希望直达的目标对象来说,采用上述方法搜索得到的内容仅包含了目标对象感兴趣的内容,有效避免了目标对象重新进行搜索的流程,从而有效提高了媒体数据的搜索效率。
在一个实施例中,对目标对象的请求信息进行识别,得到文本信息和意图信息的步骤,包括:
获取目标对象的请求信息;
将目标对象的请求信息转化为文本信息;
通过意图识别模型对文本信息进行识别,得到与文本信息对应的意图信息。
其中,意图识别模型是指预先训练好的神经网络模型,意图识别模型用于识别文本信息中所包含的意图信息,例如,终端可以通过预先训练好的意图识别模型对文本信息1进行识别,以得到对应的意图信息为:“我想要看”,该意图信息表示的意图为搜索意图。
具体的,以终端为智能电视为例进行说明。假设目标对象为用户A,用户A当前时刻想观看影片哈利波特,则用户A可以与智能电视进行语音交互,即用户A可以发出“我想要看哈利波特”的语音1,智能电视可以采集用户A的请求信息为语音1,终端可以通过ASR将用户A的语音1转换为文本信息1,即得到的文本信息1为:“我想要看哈利波特”,并通过意图识别模型对文本信息进行识别,识别得到对应的意图信息为“我想要看”。由此,通过将用户的语音转换为文本信息,再通过意图识别模型对文本信息进行识别,可以快速准确的识别出用户的语音信息中所包含的意图信息,为后续基于意图信息来确定请求信息对应的请求类型提供更加准确的数据,进而提高了媒体数据的搜索效率,给用户带来更好的搜索体验。
在一个实施例中,所述方法应用于智能家电;通过意图识别模型对文本信息进行识别,得到与文本信息对应的意图信息之后,所述方法还包括:
当请求类型为操控类型时,基于文本信息的关键词生成控制指令;
依据控制指令调整智能家电的控制参数。
其中,智能家电是指不同类型的智能家居设备,例如,本申请中的智能家电可以包括智能电视、智能音响、智能电视盒子、智能投影仪等中的至少一种。
关键词是指目标对象的请求信息中所包含的关键词,即本申请中终端对目标对象的请求信息进行识别得到文本信息后,终端可以从文本信息中提取得到关键词。例如,文本信息1为:“调高音量”,可以提取文本信息1中的关键词为:“调高”和“音量”。
控制指令是指用于控制智能家电的指令,控制参数是指智能家电所对应的不同类型的参数,例如,控制参数可以包括:音量参数、图像亮度参数、屏幕亮度参数、屏幕分辨率参数等中的至少一种。
具体的,以终端为智能电视为例进行说明。假设目标对象为用户A,用户A当前时刻想调高智能电视的屏幕显示亮度,则用户A可以与智能电视进行语音交互,即用户A可以发出“调高屏幕显示亮度”的语音2,当智能电视采集到用户A的语音2时,智能电视可以将用户A的语音2转换为文本信息,即得到的文本信息2为:“调高屏幕显示亮度”;进一步的,智能电视可以通过预先训练好的意图识别模型对文本信息2进行识别,以得到对应的意图信息为:“调高亮度”,该意图信息表示操作意图,即当用户A的语音所对应的请求类型为操控类型时,智能电视可以基于文本信息2的关键词“调高”、“显示亮度”生成控制指令A,以使智能电视中的处理器依据该控制指令A调整智能电视的屏幕显示亮度,例如,智能电视中的处理器依据该控制指令A,将智能电视的屏幕显示亮度参数从50调整为80。由此,通过将用户的语音转换为文本信息,再通过意图识别模型对文本信息进行识别,可以快速准确的识别出用户的语音信息中所包含的意图信息,为后续基于意图信息来确定请求信息对应的请求类型提供更加准确的数据,进而提高了请求信息的处理效率,给用户带来更好的体验。
在一个实施例中,如图3所示,依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式的步骤,包括:
步骤302,分别对媒体数据、目标对象的对象数据和媒体操作数据进行向量化,得到媒体向量、画像向量和媒体操作向量;
步骤304,融合媒体向量、画像向量和媒体操作向量,得到融合向量;
步骤306,通过直达预测模型对融合向量进行数据处理,得到对应的预测结果;
步骤308,基于预测结果,确定媒体数据对应的展示方式。
其中,媒体向量是指媒体特征向量,也可以称为媒资特征,是搜索返回的媒体数据的固有特征。例如,搜索得到的该影片的影片类型、点击率、热度、影片标题与搜索关键字的相似度、搜索直达率等数据特征,此处只列举部分特征。本申请实施例中媒体向量的表示方法可以是一个数值型的向量。例如,媒体向量为:[0.5,0.1,...]。
画像向量是指目标对象的画像特征向量,本申请实施例中画像向量的表示方法可以是一个数值型的向量。例如,画像向量为:[0.1,0.23,...]。
媒体操作向量指目标对象的媒体操作特征向量,本申请实施例中媒体操作向量的表示方法可以是一个数值型的向量。例如,媒体操作向量为:[0.3,0.1,0,...]。
融合向量是指将不同类型的向量融合后得到的向量,例如,本申请中的融合向量为融合媒体向量、画像向量和媒体操作向量这三种类型的向量得到的。
预测结果是指预测概率值,例如,本申请中的预测结果可以为数值型的值,比如,预测结果为预测概率值0.6。
具体地,当终端基于意图信息确定请求信息对应的请求类型为搜索类型时,终端可以基于文本信息的关键字搜索得到媒体数据,并分别对媒体数据、目标对象的对象数据和媒体操作数据进行向量化,得到媒体向量、画像向量和媒体操作向量;终端可以融合媒体向量、画像向量和媒体操作向量,得到融合向量,比如,终端可以将媒体向量、画像向量和媒体操作向量这三个向量连接起来组成新的向量,新的向量即为融合向量;进一步的,终端可以将融合向量作为输入参数,输入预先训练好的直达预测模型中进行数据处理,得到输出结果即为对应的预测概率值;终端可以基于预测概率值,来确定媒体数据对应的展示方式。比如,当预测概率值大于预设阈值时,终端确定媒体数据对应的展示方式为搜索直达,并依据搜索直达的展示方式对媒体数据进行展示;当预测概率值小于或者等于预设阈值时,终端确定媒体数据对应的展示方式为列表展示,并依据列表展示的展示方式对媒体数据进行展示。
举个例子,以终端为智能电视为例进行说明。假设目标对象为用户A,搜索得到的与关键字“哈利波特”相关的媒体数据集A为{哈利波特1、哈利波特2、哈利波特3},则智能电视可以从数据库中获取用户A的对象数据A和媒体操作数据A,智能电视分别对媒体数据集A、用户A的对象数据A和媒体操作数据A进行向量化,得到媒体向量A[0.5,0.1,...]、画像向量B[0.1,0.23,...]和媒体操作向量C[0.3,0.1,0,...];进一步的,智能电视可以融合媒体向量A[0.5,0.1,...]、画像向量B[0.1,0.23,...]和媒体操作向量C[0.3,0.1,0,...],得到融合向量D[0.1,0.23,...,0.3,0.1,0,...,0.5,0.1,...],并将融合向量D[0.1,0.23,...,0.3,0.1,0,...,0.5,0.1,...]作为输入参数,输入直达预测模型中进行数据处理,输出得到对应的预测概率值为P=0.9;进一步的,智能电视可以基于预测结果,确定媒体数据对应的展示方式,并依据展示方式对搜索的媒体数据进行展示。由此,提高了媒体数据的搜索效率,给用户带来更好的体验。
在一个实施例中,对目标对象的请求信息进行识别,得到文本信息和意图信息之前,所述方法还包括:
获取目标对象的操作日志和搜索直达标签;
提取操作日志中的样本媒体数据、目标对象的样本对象数据和样本媒体操作数据;
将样本媒体数据、目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据;
将样本融合数据和搜索直达标签输入到初始直达预测模型中进行训练,得到直达预测模型。
其中,搜索直达标签是指对目标对象的操作日志进行标注后,得到的一种类型的标签,例如,本申请实施例中对目标对象的操作日志进行标注后,得到的标注后的目标对象的操作日志中携带的标签可以包括:搜索直达标签和非搜索直达标签。
具体地,在对初始直达预测模型中进行训练时,终端可以获取目标对象的操作日志和搜索直达标签,提取操作日志中的样本媒体数据、目标对象的样本对象数据和样本媒体操作数据,并将样本媒体数据、目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据;进一步的,终端可以将样本融合数据和搜索直达标签输入到初始直达预测模型中进行训练,直到满足预设损失值条件时,停止训练,即可得到训练好的直达预测模型。本申请中的操作日志可以为目标对象执行一次搜索后上报的。
举个例子,在对初始直达预测模型中进行训练时,需要确定损失函数,假设利用均值误差(MSE)来定义损失函数,损失函数的具体公式如下公式(1)所示:
其中,n为样本的数量,y是表示当前目标对象是否需要搜索直达,搜索直达为1,不直达为0,ytrue代表变量的真实值,ypred代表变量的预测值。
假设训练时的损失函数为L,L实际上是权重相关的多元函数,即:L=f(wi)。
随机梯度下降(SOG)是一种场景的优化算法,用来训练神经网络模型,SOG定义了改变权重的方法,具体公式如下公式(2)所示:
其中,η是一个常数,可以称为学习率(learning rate),η决定了训练网络模型速率的快慢。由公式(2)可知,将w1减去就到了新的权重w1。当/>是正数时,新的权重w1会变小;当/>是负数时,新的权重w1会变大。本申请实施例中可以采用这种方法逐步改变网络的权重w和偏置b,损失函数会缓慢地降低,从而达到改进初始神经网络即改进初始直达预测模型的目的。
具体的训练流程如下:
步骤1、按照时间维度,从样本数据集中选择一个样本,该样本中包含目标对象的操作日志和搜索直达标签;
步骤2、计算损失函数对所有权重和偏置的偏导数;
步骤3、使用更新公式即上述公式(2)更新每个权重和偏置;
步骤4、回到步骤1。
随着学习过程的进行,损失函数会逐渐减小,直到满足预设的损失值条件时,停止训练,即可得到训练好的直达预测模型。由此,提高了训练直达预测模型的效率,可以通过训练好的直达预测模型对融合数据进行处理,得到更为准确的预测结果,给用户带来更好的体验。
在其中一个实施例中,获取目标对象的操作日志和搜索直达标签的步骤,包括:
获取目标对象的操作日志;
从操作日志中,读取目标对象的驻留时长、播放页面操作信息和列表页面操作信息;
基于驻留时长、播放页面操作信息和列表页面操作信息,对操作日志进行标注,得到搜索直达标签。
其中,本申请实施例中目标对象的操作日志是指目标对象执行一次搜索之后上报的行为日志,即操作日志中包含不同类型的行为数据。例如,如图4所示,为行为日志中部分数据的示意图。即在如图4所示的行为日志中,可以提取到目标对象执行的搜索操作、搜索用的是什么搜索引擎、搜索返回什么内容、目标对象看到搜索结果后的行为操作,比如点击视频观看、退出或重新搜索等操作行为。
目标对象的驻留时长是指目标对象在播放页面停留的时长,播放页面操作信息是指目标对象在播放页面中触发的操作信息,例如,播放页面操作信息可以包括目标对象是否退出播放页面的操作信息。
列表页面操作信息是指目标对象在列表页面中触发的操作信息,例如,列表页面操作信息可以包括目标对象是否退出列表页面、或者是否跳转到列表页面的操作信息。
具体地,在对初始直达预测模型中进行训练时,终端可以获取预设时间范围内目标对象的操作日志,并从获取的操作日志中,读取目标对象的驻留时长、播放页面操作信息和列表页面操作信息;进一步的,终端可以基于驻留时长、播放页面操作信息和列表页面操作信息,自动对该操作日志进行标注,即可得到标注后的携带搜索直达标签的操作日志,终端可以将所得的标注后的携带搜索直达标签的操作日志作为样本数据,对初始直达预测模型中进行训练,以得到训练好的直达预测模型。
举个例子,假设终端获取预设时间范围内用户A的操作日志1为如图4中所示,则终端可以从获取的如图4所示的操作日志1中,读取用户A的驻留时长、播放页面操作信息和列表页面操作信息分别为:在播放页面停留的时长为1小时、退出播放页面0次、跳转到列表页面0次,则终端可以基于上述驻留时长1小时、退出播放页面0次、跳转到列表页面0次,自动对该操作日志1进行标注,即可得到标注后的携带搜索直达标签的操作日志1,终端可以将所得的标注后的携带搜索直达标签的操作日志1作为样本数据中的正样本,对初始直达预测模型中进行训练,以得到训练好的直达预测模型。
同理,终端也可以基于用户B的操作日志2中的驻留时长、播放页面操作信息和列表页面操作信息,自动对该操作日志2进行标注,即可得到标注后的携带搜索不直达标签的操作日志2,终端可以将所得的标注后的携带搜索不直达标签的操作日志2作为样本数据中的负样本,对初始直达预测模型中进行训练,以得到训练好的直达预测模型。由此,能够实现自动化的对操作日志进行打标签的操作,无需人工进行标注,有效提高了的直达预测模型的训练效率和准确性。
在一个实施例中,如图5所示,样本媒体操作数据包括目标对象对样本媒体数据进行不同操作的操作次数;将样本媒体数据、目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据的步骤,包括:
步骤502,对操作次数进行向量化,得到操作次数向量;
步骤504,对样本媒体数据、目标对象的样本对象数据进行转换,得到转换后的样本媒体向量和样本画像向量;
步骤506,将操作次数向量、样本媒体向量和样本画像向量进行拼接,得到样本融合数据。
其中,操作次数是指目标对象对样本媒体数据进行不同操作的操作次数,例如,统计了用户A在过去3个小时内的操作行为次数,并使用向量进行表示。比如:[观看影片、购买影片、打开影片详情页、退出影片详情页],使用向量进行表示,结果为[3,0,1,1],表示该用户A在3个小时内,点击并且观看了3次影片,3个小时内未购买影片,3个小时内打开了影片详情页1次,3个小时内退出影片详情页1次,依次类推。
具体地,在对初始直达预测模型中进行训练时,终端获取目标对象的操作日志和搜索直达标签,并提取操作日志中的样本媒体数据、目标对象的样本对象数据和样本媒体操作数据之后,终端可以获取样本媒体操作数据中目标对象对样本媒体数据进行不同操作的操作次数,并对操作次数进行向量化,得到操作次数向量;进一步的,终端可以对提取到的样本媒体数据、样本对象数据进行转换,得到转换后的样本媒体向量和样本画像向量,并将操作次数向量、样本媒体向量和样本画像向量进行拼接,得到样本融合向量,并将所得的融合向量作为样本融合数据。
举个例子,假设样本媒体操作数据包括观看样本媒体数据次数、购买样本媒体数据次数、打开样本媒体数据详情页次数和退出样本媒体数据详情页次数,终端可以对观看样本媒体数据次数、购买样本媒体数据次数、打开样本媒体数据详情页次数和退出样本媒体数据详情页次数进行向量化,得到操作次数向量为A[3,0,1,1],即将[观看影片次数、购买影片次数、打开影片详情页次数、退出影片详情页次数],使用向量进行表示,得到的结果为A[3,0,1,1],表示预设时间范围内,比如3的小时内,目标对象点击并且观看了3次影片,未购买影片,打开影片详情页1次、退出影片详情页1次,依次类推。
此外,为有利于数据处理,终端还可以进一步对得到的向量进行归一化处理,归一化方法可以为:根据下述公式(3)进行归一化处理:
v=i / sum(cnt) (3)
其中,i表示某次操作的操作次数。
进一步的,终端对操作次数进行向量化,得到操作次数向量A[3,0,1,1]之后,终端还可以对样本媒体数据、样本对象数据进行转换,得到转换后的样本媒体向量B和样本画像向量C,并将操作次数向量A[3,0,1,1]、样本媒体向量B和样本画像向量C进行拼接,得到样本融合向量D,并将所得的融合向量D作为样本融合数据对初始直达预测模型中进行训练。由此,提高了直达预测模型训练的准确性,能够更加快速准确的预测出用户的个性化需要,给用户带来更好的体验。
在一个实施例中,依据展示方式对媒体数据进行展示的步骤,包括:
当媒体数据对应的展示方式为搜索直达时,确定各媒体数据的描述信息与文本信息中的关键字之间的相似度;
在各媒体数据中,依据各媒体数据的热度、新颖度和相似度筛选目标媒体数据;
在播放页面播放目标媒体数据。
其中,媒体数据的描述信息是指用于描述媒体数据的信息,例如,本申请中的媒体数据的描述信息可以包括媒体数据的标题、媒体数据的名称等信息。
媒体数据的热度是指用于反映媒体数据的热门程度的数据,例如,本申请中的媒体数据的热度可以使用预设时间段内的用户查询次数来表示,即在某段时间段内,春晚直播节目的热门程度肯定大于其他直播节目,终端可以依据预设时间段内用户查询该春晚直播节目的次数,来确定春晚直播节目的热度,或者确定春晚直播节目是否属于热门媒体数据。
新颖度是指用于反映媒体数据的新颖程度的数据,例如,本申请中的媒体数据的新颖度可以使用媒体数据的发布时间来表示,比如,视频A发布于2022年1月25日,视频B发布于2022年11月25日,则可以确定视频B的新颖度大于视频A的新颖度。
目标媒体数据是指从多个媒体数据中选取的一个媒体数据,例如,从媒体数据集{哈利波特1、哈利波特2、哈利波特3}中选取“哈利波特3”作为目标媒体数据。
具体地,终端依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式之后,当终端确定媒体数据对应的展示方式为搜索直达时,终端可以确定媒体数据集中各个媒体数据的描述信息与文本信息中的关键字之间的相似度,依据各个媒体数据的热度、新颖度和相似度从媒体数据集中筛选出目标媒体数据,并自动在播放页面中播放该目标媒体数据。
举个例子,以终端为智能电视为例进行说明。假设媒体数据集A为:{哈利波特1、哈利波特2、哈利波特3},当智能电视确定媒体数据对应的展示方式为搜索直达时,终端可以确定媒体数据集A中各个媒体数据即“哈利波特1”、“哈利波特2”、“哈利波特3”的名称与文本信息中的关键字“哈利波特”之间的相似度均为0.8,并依据各个媒体数据即“哈利波特1”、“哈利波特2”、“哈利波特3”的热度P1{0.9、0.5、0.8}、新颖度P2{0.3、0.5、0.8}和相似度P1{0.8、0.8、0.8}从媒体数据集A中筛选出目标媒体数据为“哈利波特3”,并自动在播放页面中播放影片“哈利波特3”。由此,能够有效提升用户的语音搜索体验,避免搜索直达影响某些不希望搜索直达的用户,以满足不同用户的个性化搜索需求。同时,也能够提升用户的视频点击率和观看时长,提升用户的视频观看体验。
在一个实施例中,依据展示方式对媒体数据进行展示的步骤,包括:
当媒体数据对应的展示方式为列表展示时,确定各媒体数据的描述信息与文本信息中的关键字之间的相似度;
依据各媒体数据的热度、新颖度和相似度,确定各媒体数据的优先级顺序;
按照优先级顺序,将各媒体数据显示于列表页面。
其中,本申请中的优先级顺序可以是排序的优先级顺序,例如,优先级顺序为1,表示具有最高优先级,排序在第一个位置。
具体地,终端依据媒体数据、目标对象的对象数据和媒体操作数据,确定媒体数据对应的展示方式之后,当终端确定媒体数据对应的展示方式为列表展示时,终端可以确定媒体数据集中各个媒体数据的描述信息与文本信息中的关键字之间的相似度,依据各个媒体数据的热度、新颖度和相似度,确定媒体数据集中各媒体数据的优先级顺序,并按照所确定的优先级顺序,将媒体数据集中各个媒体数据作为搜索结果显示于列表页面。
举个例子,以终端为智能电视为例进行说明。假设媒体数据集A为:{哈利波特1、哈利波特2、哈利波特3},当智能电视确定媒体数据对应的展示方式为列表展示时,智能电视可以确定媒体数据集A中各个媒体数据即“哈利波特1”、“哈利波特2”、“哈利波特3”的名称与文本信息中的关键字“哈利波特”之间的相似度均为0.8,并依据各个媒体数据即“哈利波特1”、“哈利波特2”、“哈利波特3”的热度P1{0.9、0.5、0.8}、新颖度P2{0.3、0.5、0.8}和相似度P1{0.8、0.8、0.8},确定媒体数据集A中各媒体数据的优先级顺序,即智能电视确定媒体数据集A中各媒体数据的优先级顺序为:“哈利波特3”高于“哈利波特1”高于“哈利波特2”,以使得智能电视按照上述所确定的优先级顺序,将“哈利波特3”、“哈利波特1”、“哈利波特2”作为搜索结果显示于列表页面中。由此,能够有效提升用户的语音搜索体验,避免搜索直达影响某些不希望搜索直达的用户,以满足不同用户的个性化搜索需求。同时,也能够提升用户的视频点击率和观看时长,提升用户的视频观看体验。
在一个实施例中,所述方法还包括:
当媒体数据为点播视频、图像或直播视频时,响应于触发的选取操作,在播放页面中播放与选取操作对应的媒体数据;
当媒体数据为应用程序安装包时,响应于触发的选取操作,安装与选取操作对应的应用程序安装包。
其中,应用程序安装包是指不同应用程序的安装文件,本申请中的应用程序安装包可以为不同的视频应用程序的安装包。例如,视频应用程序A的应用程序安装包为安装包1,视频应用程序B的应用程序安装包为安装包2,即不同的应用程序所对应的应用程序安装包不同。
具体地,当媒体数据对应的展示方式为列表展示时,终端可以确定各个媒体数据的优先级顺序,并按照优先级顺序,将各媒体数据显示于列表页面中之后,当显示于列表页面中的媒体数据为点播视频、图像或直播视频时,终端响应于目标对象触发的选取操作,在播放页面中播放与选取操作对应的媒体数据。
或者,当显示于列表页面中的媒体数据为应用程序安装包时,终端响应于目标对象触发的选取操作,在安装页面中安装与选取操作对应的应用程序安装包。
举个例子,以终端为智能电视为例进行说明。假设显示于列表页面中的媒体数据为直播视频A、直播视频B和直播视频C,用户A在该列表页面显示的媒体数据中选取了直播视频B,则智能电视响应于用户A触发的上述选取操作,在播放页面中播放与选取操作对应的直播视频B。
或者,假设显示于列表页面中的媒体数据为视频应用程序A的应用程序安装包1和视频应用程序B的应用程序安装包2,用户A在该列表页面显示的媒体数据中选取了应用程序安装包1,则智能电视响应于用户A触发的上述选取操作,在安装页面中安装与选取操作对应的应用程序安装包1,即智能电视执行安装视频应用程序A对应的流程。由此,能够有效提升用户的语音交互体验,以满足不同用户的个性化搜索需求。
在一个实施例中,所述方法还包括:
在展示媒体数据的过程中,获取目标对象发出的语音搜索信息;
依据语音搜索信息,分割出媒体数据中的候选对象;
对候选对象进行识别,得到识别文本;
依据识别文本搜索与候选对象相关的对象信息。
其中,候选对象是指媒体数据中所包含的人物、或有特色的物品或建筑物等对象,例如,在播放某个视频的过程中,假设目标对象想知道视频中出现的人物A的身高体重,该人物A即可作为媒体数据中的候选对象。
具体地,终端可以依据展示方式对媒体数据进行展示,在展示媒体数据的过程中,若媒体数据中包含了目标对象感兴趣的明星、或有特色的物品或建筑物等对象,则目标对象可以发出针对感兴趣的对象的语音搜索信息,比如,目标对象可以发出语音搜索信息为:“搜索人物A的身高体重”,终端可以获取目标对象发出的语音搜索信息,并依据语音搜索信息,分割出媒体数据中的候选对象;进一步的,终端可以对候选对象进行识别,得到识别文本,并依据识别文本搜索与候选对象相关的对象信息,即可得到与人物A的身高体重相关的信息。
举个例子,如图6所示,为分割候选对象以及搜索与候选对象相关的对象信息的示意图。当媒体数据对应的展示方式为搜索直达时,假设展示的媒体数据为视频数据,终端在播放电影A的过程中,当播放到如图6中(a)所示的目标图像所在的位置时,在播放页面显示该目标图像,目标图像中包含了用户A感兴趣的人物A,则目标对象可以发出针对感兴趣的对象的语音搜索信息,比如,目标对象可以发出语音搜索信息1为:“搜索人物A的相关信息”,终端可以获取目标对象发出的语音搜索信息1,并依据语音搜索信息1,分割出电影A中的候选对象即人物A;进一步的,终端可以对人物A进行识别,得到识别文本,并依据识别文本搜索与人物A相关的对象信息,比如,终端可以得到如图6中(b)所示的与人物A相关的信息。由此,在展示媒体数据的过程中,能够实现有针对性地搜索所需要搜索的候选对象以及搜索的方向,实现了精细化的搜索,提高了搜索结果的准确性和搜索效果;而且,在进行搜索时,无需手动操作将目标图像输入至搜索引擎进行搜索,提高了搜索效率。
本申请还提供一种应用场景,该应用场景应用上述的媒体数据的展示方法。具体地,该媒体数据的展示方法在该应用场景的应用如下:
当用户想观看影片哈利波特时,可以采用上述的媒体数据的展示方法,即用户A可以与智能电视进行语音交互,即用户A可以发出“我想要看哈利波特”的语音,当智能电视采集到用户A的语音时,智能电视可以通过ASR将用户A的语音转换为文本信息1,即得到的文本信息1为:“我想要看哈利波特”;进一步的,智能电视可以通过预先训练好的意图识别模型对文本信息1进行识别,以识别文本信息1所对应的意图信息是否为搜索意图。如果用户A的意图为搜索意图,那么智能电视可以从文本信息1中提取关键字为“哈利波特”。在提取得到关键字后,智能电视可以使用关键字从搜索底层中搜索对应的视频资源集,并依据搜索到的视频资源集、用户A的对象数据和媒体操作数据,确定视频资源集对应的展示方式,并依据所确定的展示方式对视频资源集进行展示,其中,展示方式包括搜索直达和列表展示。由此,能够有效提升用户的语音搜索体验,避免搜索直达影响某些不希望搜索直达的用户,以满足不同用户的个性化搜索需求。同时,也能够提升用户的视频点击率和观看时长,提升用户的视频观看体验。
本申请实施例提供的方法,可以应用于智能家居的场景中。以下以用户与智能电视交互的场景为例,对本申请实施例提供的媒体数据的展示方法进行说明。
传统的媒体数据的展示方式中,通常是通过计算当前用户搜索的媒体数据和历史搜索记录中的媒体数据之间的匹配度,并选取匹配度最高的搜索内容展示给用户,比如,终端设备获取用户输入的搜索关键词后,终端设备获取当前用户账户针对该搜索关键词的搜索结果的个性化浏览记录,当在搜索结果中找到满足一定条件的结果,就跳转到该搜索结果,无需用户自动筛选结果。但采用这种方式存在以下缺点:
1、该方式要求用户有历史搜索记录,对于没有任何搜索记录的用户来说,该方式不适用;
2、该方式重度依赖历史搜索记录,并且只能在搜索记录内实现搜索直达,无法实现在搜索记录之外的索直达;
3、某些用户更倾向于搜索能返回搜索列表而不是直达,该方式在这种情况下搜索直达会给用户带来不好的体验。
因此,为了解决上述问题,本申请提供了一种基于用户特性的语音视频搜索直达方法,针对直达预测模型,采用标注好的样本数据对初始直达预测模型进行训练,训练好的直达预测模型在直达预测中有良好的性能表现,即本申请提供的方法中,根据用户的行为记录,提取用户的数据特征,构建用户直达预测模型,通过直达预测模型预测用户是否需要直达,从而实现用户的个性化直达操作,提高视频消费时长,并且避免误伤不希望直达的用户,解决了搜索效率较低、会给用户带来不好的体验等问题。
在技术侧,如图7所示,为基于用户特性的语音视频搜索直达方法的数据处理流程示意图。
本申请实施例提供的方法的实现逻辑以及数据处理流程如图7中所示,以终端为智能电视为例进行说明,具体的方案流程包括:
本申请实施例提供的方法主要分为四个部分,即智能电视的数据处理流程包括语音搜索处理、用户日志上报、直达决策模型训练、搜索直达决策四个部分。
1.1语音搜索处理
主要流程为,智能电视接收到用户的语音,通过ASR转化为文本。在智能电视获取到用户声音转换的文本后,智能电视通过意图识别模型识别文本的意图是否是搜索意图。如果用户的意图为搜索意图,那么智能电视从文本中提取关键字,例如:搜索的文本为“我想要看哈利波特”,那么智能电视提取的关键字为“哈利波特”。在提取完关键字后,智能电视使用关键字从搜索底层中检索视频媒资源,最终能得到一个搜索结果列表。
1.2用户日志上报
日志上报部分,主要功能为上传用户的操作日志,上报的用户操作日志包括用户在搜索结果页的点击事件、视频观看时长、在搜索直达页点击事件、观看时长等动作日志。
1.3数据预处理及特征提取
本申请实施例中获取的数据为用户执行一次搜索之后上报的行为日志,部分数据截图如图4所示。在上报的原始日志中,智能电视可提取到用户执行的搜索操作,搜索用的是什么搜索引擎、搜索返回什么内容、用户看到搜索结果后的行为操作,如点击视频观看、退出或重新搜索等。
本申请实施例中需要的特征可分为三类:
1、用户的画像
用户的画像是建立在一系列属性数据之上的目标用户模型,提取用户的画像,需要海量的日志。本申请中的用户的画像,可以是从智能电视的用户浏览记录、观影记录、消费行为等日志中提取得到。例如,可通过spark离线处理数据,提取用户的数据特征,并保存在数据库中。
2、行为特征
行为特征主要是对用户的操作行为特征的提取。在TV场景,用户的操作行为包括浏览影片、点击观看影片、购买影片、退出影片详情页、打开影片详情页、快进/快退等。本申请实施例中可以统计用户3个小时内的操作行为次数,使用向量进行表示。例如:[观看影片、购买影片、打开影片详情页、退出影片详情页],使用向量进行表示,结果为[3,0,1,1],表示3个小时内,点击并且观看了3次影片,3个小时内未购买影片,依次类推。为有利于数据处理,智能电视可以对向量进行归一化处理。
3、媒资特征
媒资特征是搜索返回的数据的固有特征。例如影片类型、点击率、热度、媒资标题与用户搜索词的相似度、搜索直达率等,此处只列举部分特征。本申请中特征的表示方法可以是一个数值型的向量。最后,智能电视将三个特征连接起来组成新的向量,作为模型的输入。例如:用户的画像特征为:[0.1,0.23,...],行为特征为:[0.3,0.1,0,...],媒资源特征为[0.5,0.1,...],那么连接之后新的特征向量为[0.1,0.23,...,0.3,0.1,0,...,0.5,0.1,...],并将该向量作为模型的输入数据。
1.4模型训练
神经网络模型
神经网络模型是非常强大的分类模型。神经网络最基本的组成单元是神经元,它是神经网络最基本的组成单位。其中,如图8所示,为神经元最简单的结构示意图。
如图8所示,x1,x2是输入的数据,输入的数据是数据清洗以及特征提取后得到特征向量,即当特征向量为一维向量时,输入的数据为x1;当特征向量为二维向量时,输入的数据为x1和x2,即x1,x2表示一个特征向量的两个不同维度的数据。
如图8中所示,输入的数据经过3步的数据处理运算:
1、x1->x1 x w1
2、x2->x2 x w2
将上述两个结果加起来,再加上偏置变量,即可得到(x1 x w1+x2 x w2)+b,并将最后得到的结果经过激活函数处理得到输出结果y=f(x1 x w1+x2 x w2+b)。激活函数的作用是把得到无法控制范围的计算结果转换为一定范围内的结果,一般常用的激活函数是sigmod函数,通过sigmod激活函数,可以把计算结果的范围控制在介于0到1内。
神经网络就是把一堆的神经元连接起来,如图9所示,为神经网络的结构示意图。图9中所示是神经网络的简单例子,即图9中所示的该神经网络有两个输入,一个包含2个神经元的隐藏层(h1和h2),包含1个神经元的输出层o1,隐藏层是夹在输入层和输出层之间的部分,一个神经网络可以有多个隐藏层。把神经元的输入向前传递获得输出的过程称为前馈(feedforward)。假设图9中所示的网络里所有神经元都具有相同的权重w=[0,1]和偏置b=0,激活函数都是sigmoid,那么得到的输出结果如下所示:
h1=h2=f(w·x+b)=f((0×2)+(1×3)+0)=f(3)=0.9526
o1=f(w·[h1,h2]+b)=f((0*h1)+(1*h2)+0)=f(0.9526)=0.7216
其中,输入x1、x2在本申请实施例中是在数据清洗及特征提取步骤中获取到的变量,其表现内容为一维的向量。
模型训练
神经网络训练需要定义损失函数,本申请实施例中使用均值误差(MSE)来定义损失函数,损失函数公式如前述公式(1)所示。
神经网络模型的训练,本质就是减小损失函数。设损失函数为L,L实际上是权重相关的多元函数,即:L=f(wi)。
随机梯度下降(SOG)是一种场景的优化算法,用来训练神经网络,SOG定义了改变权重的方法,当是正数时,更新后的w1会变小;当/>是负数时,更新后的w1会变大。若采用这种方法去逐步改变网络的权重w和偏置b,损失函数会缓慢地降低,从而改进初始的神经网络。
具体地训练流程如下:
步骤1、按照时间维度,从样本数据集中选择一个样本,该样本中包含目标对象的操作日志和搜索直达标签;
步骤2、计算损失函数对所有权重和偏置的偏导数;
步骤3、使用更新公式即上述公式(2)更新每个权重和偏置;
步骤4、回到步骤1。
随着学习过程的进行,损失函数就会逐渐减小,最终得到训练好的模型。
搜索直达决策
搜索直达决策主要依赖模型的输出结果,神经网络输出预测值为0到1之间,如果输出值大于0.8,则认为可以直达,否则认为不可直达。
可以理解,本申请中的模型可以采用决策树、逻辑回归、adaboost等分类算法,或者多个分类算法结合的方式来预测用户是否直达。
本申请技术方案所产生的有益效果包括:
1、提升用户语音搜索体验,避免搜索直达影响某些不希望直达的用户;
2、提升用户视频点击率、观看时长。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的媒体数据的展示方法的媒体数据的展示装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个媒体数据的展示装置实施例中的具体限定可以参见上文中对于媒体数据的展示方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种媒体数据的展示装置,包括:识别模块1002、确定模块1004、搜索模块1006和展示模块1008,其中:
识别模块1002,用于对目标对象的请求信息进行识别,得到文本信息和意图信息;
确定模块1004,用于基于所述意图信息确定所述请求信息对应的请求类型;
搜索模块1006,用于当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;
所述确定模块1004还用于依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;
展示模块1008,用于依据所述展示方式对所述媒体数据进行展示。
在一个实施例中,所述装置还包括:获取模块和转化模块,获取模块用于获取目标对象的请求信息;转化模块,用于将所述目标对象的请求信息转化为所述文本信息;识别模块还用于通过意图识别模型对所述文本信息进行识别,得到与所述文本信息对应的意图信息。
在一个实施例中,所述方法应用于智能家电;所述装置还包括:生成模块和调整模块,生成模块用于当所述请求类型为操控类型时,基于所述文本信息的关键词生成控制指令;调整模块用于依据所述控制指令调整所述智能家电的控制参数。
在一个实施例中,所述装置还包括:向量化模块、融合模块和数据处理模块,向量化模块用于分别对所述媒体数据、所述目标对象的对象数据和媒体操作数据进行向量化,得到媒体向量、画像向量和媒体操作向量;融合模块,用于融合所述媒体向量、所述画像向量和所述媒体操作向量,得到融合向量;数据处理模块,用于通过直达预测模型对所述融合向量进行数据处理,得到对应的预测结果;确定模块还用于基于所述预测结果,确定所述媒体数据对应的展示方式。
在一个实施例中,所述装置还包括:提取模块和训练模块,获取模块还用于获取所述目标对象的操作日志和搜索直达标签;提取模块,用于提取所述操作日志中的样本媒体数据、所述目标对象的样本对象数据和样本媒体操作数据;融合模块还用于将所述样本媒体数据、所述目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据;训练模块,用于将所述样本融合数据和所述搜索直达标签输入到初始直达预测模型中进行训练,得到所述直达预测模型。
在一个实施例中,所述装置还包括:读取模块和标注模块,获取模块还用于获取所述目标对象的操作日志;读取模块,用于从所述操作日志中,读取所述目标对象的驻留时长、播放页面操作信息和列表页面操作信息;标注模块,用于基于所述驻留时长、所述播放页面操作信息和所述列表页面操作信息,对所述操作日志进行标注,得到所述搜索直达标签。
在一个实施例中,所述样本媒体操作数据包括所述目标对象对所述样本媒体数据进行不同操作的操作次数;所述装置还包括:拼接模块和转换模块,向量化模块还用于对所述操作次数进行向量化,得到操作次数向量;转换模块,用于对所述样本媒体数据、所述目标对象的样本对象数据进行转换,得到转换后的样本媒体向量和样本画像向量;拼接模块,用于将所述操作次数向量、所述样本媒体向量和所述样本画像向量进行拼接,得到所述样本融合数据。
在一个实施例中,所述装置还包括:筛选模块和播放模块,确定模块还用于当所述媒体数据对应的展示方式为所述搜索直达时,确定各所述媒体数据的描述信息与所述文本信息中的关键字之间的相似度;筛选模块,用于在各所述媒体数据中,依据各所述媒体数据的热度、新颖度和所述相似度筛选目标媒体数据;播放模块,用于在播放页面播放所述目标媒体数据。
在一个实施例中,所述装置还包括:显示模块,确定模块还用于当所述媒体数据对应的展示方式为所述列表展示时,确定各所述媒体数据的描述信息与所述文本信息中的关键字之间的相似度;依据各所述媒体数据的热度、新颖度和所述相似度,确定各所述媒体数据的优先级顺序;显示模块,用于按照所述优先级顺序,将各所述媒体数据显示于列表页面。
在一个实施例中,所述装置还包括:安装模块,播放模块还用于当所述媒体数据为点播视频、图像或直播视频时,响应于触发的选取操作,在播放页面中播放与所述选取操作对应的媒体数据;安装模块,用于当所述媒体数据为应用程序安装包时,响应于触发的选取操作,安装与所述选取操作对应的应用程序安装包。
在一个实施例中,所述装置还包括:分割模块,获取模块还用于在展示所述媒体数据的过程中,获取所述目标对象发出的语音搜索信息;分割模块,用于依据所述语音搜索信息,分割出所述媒体数据中的候选对象;识别模块还用于对所述候选对象进行识别,得到识别文本;搜索模块还用于依据所述识别文本搜索与所述候选对象相关的对象信息。
上述媒体数据的展示装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器,在本实施例中,以该计算机设备是终端为例进行说明,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种媒体数据的展示方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种媒体数据的展示方法,其特征在于,所述方法包括:
对目标对象的请求信息进行识别,得到文本信息和意图信息;
基于所述意图信息确定所述请求信息对应的请求类型;
当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;
依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;
依据所述展示方式对所述媒体数据进行展示。
2.根据权利要求1所述的方法,其特征在于,所述对目标对象的请求信息进行识别,得到文本信息和意图信息,包括:
获取目标对象的请求信息;
将所述目标对象的请求信息转化为所述文本信息;
通过意图识别模型对所述文本信息进行识别,得到与所述文本信息对应的意图信息。
3.根据权利要求2所述的方法,其特征在于,所述方法应用于智能家电;所述通过意图识别模型对所述文本信息进行识别,得到与所述文本信息对应的意图信息之后,所述方法还包括:
当所述请求类型为操控类型时,基于所述文本信息的关键词生成控制指令;
依据所述控制指令调整所述智能家电的控制参数。
4.根据权利要求1所述的方法,其特征在于,所述依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式,包括:
分别对所述媒体数据、所述目标对象的对象数据和媒体操作数据进行向量化,得到媒体向量、画像向量和媒体操作向量;
融合所述媒体向量、所述画像向量和所述媒体操作向量,得到融合向量;
通过直达预测模型对所述融合向量进行数据处理,得到对应的预测结果;
基于所述预测结果,确定所述媒体数据对应的展示方式。
5.根据权利要求4所述的方法,其特征在于,所述对目标对象的请求信息进行识别,得到文本信息和意图信息之前,所述方法还包括:
获取所述目标对象的操作日志和搜索直达标签;
提取所述操作日志中的样本媒体数据、所述目标对象的样本对象数据和样本媒体操作数据;
将所述样本媒体数据、所述目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据;
将所述样本融合数据和所述搜索直达标签输入到初始直达预测模型中进行训练,得到所述直达预测模型。
6.根据权利要求5所述的方法,其特征在于,所述获取所述目标对象的操作日志和搜索直达标签,包括
获取所述目标对象的操作日志;
从所述操作日志中,读取所述目标对象的驻留时长、播放页面操作信息和列表页面操作信息;
基于所述驻留时长、所述播放页面操作信息和所述列表页面操作信息,对所述操作日志进行标注,得到所述搜索直达标签。
7.根据权利要求5所述的方法,其特征在于,所述样本媒体操作数据包括所述目标对象对所述样本媒体数据进行不同操作的操作次数;所述将所述样本媒体数据、所述目标对象的样本对象数据和样本媒体操作数据进行融合,得到样本融合数据,包括:
对所述操作次数进行向量化,得到操作次数向量;
对所述样本媒体数据、所述目标对象的样本对象数据进行转换,得到转换后的样本媒体向量和样本画像向量;
将所述操作次数向量、所述样本媒体向量和所述样本画像向量进行拼接,得到所述样本融合数据。
8.根据权利要求1所述的方法,其特征在于,所述依据所述展示方式对所述媒体数据进行展示,包括:
当所述媒体数据对应的展示方式为所述搜索直达时,确定各所述媒体数据的描述信息与所述文本信息中的关键字之间的相似度;
在各所述媒体数据中,依据各所述媒体数据的热度、新颖度和所述相似度筛选目标媒体数据;
在播放页面播放所述目标媒体数据。
9.根据权利要求1所述的方法,其特征在于,所述依据所述展示方式对所述媒体数据进行展示,包括:
当所述媒体数据对应的展示方式为所述列表展示时,确定各所述媒体数据的描述信息与所述文本信息中的关键字之间的相似度;
依据各所述媒体数据的热度、新颖度和所述相似度,确定各所述媒体数据的优先级顺序;
按照所述优先级顺序,将各所述媒体数据显示于列表页面。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
当所述媒体数据为点播视频、图像或直播视频时,响应于触发的选取操作,在播放页面中播放与所述选取操作对应的媒体数据;
当所述媒体数据为应用程序安装包时,响应于触发的选取操作,安装与所述选取操作对应的应用程序安装包。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在展示所述媒体数据的过程中,获取所述目标对象发出的语音搜索信息;
依据所述语音搜索信息,分割出所述媒体数据中的候选对象;
对所述候选对象进行识别,得到识别文本;
依据所述识别文本搜索与所述候选对象相关的对象信息。
12.一种媒体数据的展示装置,其特征在于,所述装置包括:
识别模块,用于对目标对象的请求信息进行识别,得到文本信息和意图信息;
确定模块,用于基于所述意图信息确定所述请求信息对应的请求类型;
搜索模块,用于当所述请求类型为搜索类型时,基于所述文本信息的关键字搜索得到媒体数据;
所述确定模块还用于依据所述媒体数据、所述目标对象的对象数据和媒体操作数据,确定所述媒体数据对应的展示方式;所述展示方式包括搜索直达和列表展示;
展示模块,用于依据所述展示方式对所述媒体数据进行展示。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211531131.3A CN116975322A (zh) | 2022-12-01 | 2022-12-01 | 媒体数据的展示方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211531131.3A CN116975322A (zh) | 2022-12-01 | 2022-12-01 | 媒体数据的展示方法、装置、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975322A true CN116975322A (zh) | 2023-10-31 |
Family
ID=88470111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211531131.3A Pending CN116975322A (zh) | 2022-12-01 | 2022-12-01 | 媒体数据的展示方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975322A (zh) |
-
2022
- 2022-12-01 CN CN202211531131.3A patent/CN116975322A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
WO2021179640A1 (zh) | 一种基于图模型的短视频推荐方法、和智能终端和存储介质 | |
CN112163122B (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN111966914B (zh) | 基于人工智能的内容推荐方法、装置和计算机设备 | |
CN112163165A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN111241394B (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
CN112364204B (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN111949886B (zh) | 一种用于信息推荐的样本数据生成方法和相关装置 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN112165639B (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN114817692A (zh) | 确定推荐对象的方法、装置和设备及计算机存储介质 | |
CN116980665A (zh) | 一种视频处理方法、装置、计算机设备、介质及产品 | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 | |
CN116975322A (zh) | 媒体数据的展示方法、装置、计算机设备、存储介质 | |
CN114357301A (zh) | 数据处理方法、设备及可读存储介质 | |
Xiong et al. | An intelligent film recommender system based on emotional analysis | |
Su et al. | [Retracted] Advertising Popularity Feature Collaborative Recommendation Algorithm Based on Attention‐LSTM Model | |
KR102474282B1 (ko) | 리뷰 영상 기반의 제품 구매 서비스 제공 방법 및 장치 | |
Dal Mas | Layered ontological image for intelligent interaction to extend user capabilities on multimedia systems in a folksonomy driven environment | |
KR102533115B1 (ko) | 사용자 단말에게 제품 구매를 위한 제품 관련 정보 제공 방법 | |
Ezeh | Developing Machine Learning-based Recommender System on Movie Genres Using KNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |