CN111159467B - 一种处理信息交互的方法及设备 - Google Patents
一种处理信息交互的方法及设备 Download PDFInfo
- Publication number
- CN111159467B CN111159467B CN201911419335.6A CN201911419335A CN111159467B CN 111159467 B CN111159467 B CN 111159467B CN 201911419335 A CN201911419335 A CN 201911419335A CN 111159467 B CN111159467 B CN 111159467B
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- plot
- text
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000003993 interaction Effects 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 title claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 49
- 230000002996 emotional effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000005096 rolling process Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 230000015654 memory Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种处理信息交互的方法及设备。该方法包括:接收来自智能设备的音视频查询请求;根据所述音视频查询请求,查询到所请求的目标音视频以及所述目标音视频的结构化数据及剧情知识图,所述剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系;根据所述目标音视频的结构化数据及剧情知识图,基于回复文本生成模型,得到与所述音视频查询请求对应的音视频查询回复文本;向所述智能设备发送音视频查询响应,所述音视频查询响应携带所述音视频查询回复文本。本申请实施例结合音视频的剧情知识图和结构化数据生成查询回复文本,使得生成的回复文本内容更加丰富。
Description
技术领域
本申请涉及通信技术,尤其涉及一种处理信息交互的方法及设备。
背景技术
目前以理解人类语言为入口的认知智能成为了智能时代发展的突破点,语言生成技术可应用于智能电视、智能音箱、智能手机等智能设备,用于生成音视频的推荐语,且音视频作品数据较为完整,例如影视数据包括影视名、主演、导演、影片类型、上映时间、发型地区、剧情简介、影评数据等。
而在语言生成技术应用于语音交互场景时,目前多为基于结构化数据文本生成用户查询的回复文本。若能对用户查询结果做简单的、积极正面的介绍和引导,将激发用户的视听兴趣,提升用户体验。
因此,在用户与智能设备语音交互时,需提供一种提升用户体验的回复文本生成方法用以完成信息交互过程。
发明内容
本申请提供了一种处理信息交互方法及设备,用以在交互过程中,将音视频的结构化数据与知识图结合生成回复文本,进而提高用户体验。
第一方面,本申请实施例提供了一种处理信息交互方法,包括:
接收来自智能设备的音视频查询请求;
根据音视频查询请求,查询到所请求的目标音视频以及目标音视频的结构化数据及剧情知识图,剧情知识图是根据目标音视频的剧情简介、评价信息中的至少一种信息生成的,剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系;
根据目标音视频的结构化数据及剧情知识图,基于回复文本生成模型,得到与音视频查询请求对应的音视频查询回复文本;
向智能设备发送音视频查询响应,音视频查询响应携带音视频查询回复文本。
可选的,目标音视频的剧情知识图的生成过程,包括:
获取目标音视频的剧情简介、评价信息中的至少一种信息的至少一个文本,提取至少一个文本中的关键词;
将至少一个文本分配到对应的关键词,其中,若两个关键词共享同一文本,则将该文本分配到该两个关键词,并根据该两个关键词共享文本的数量,设置该两个关键词之间的关系权重;
将每个关键词作为一个顶点,利用分配给关键词的文本,基于顶点编码器进行顶点编码,得到每个顶点的隐藏向量,其中一个顶点的隐藏向量包含对应关键词的上下文信息;
根据每个顶点的隐藏向量,基于图卷机模型进行知识图编码,得到目标音视频的剧情知识图。
可选的,提取至少一个文本中的关键词,包括:
提取至少一个文本中的实体指称,将提取的实体指称作为关键词。
可选的,提取至少一个文本中的关键词,还包括:
提取至少一个文本中的情感词,将提取的情感词作为关键词。
可选的,根据目标音视频的结构化数据及剧情知识图,基于回复文本生成模型,得到与音视频查询请求对应的音视频查询回复文本,包括:
根据剧情知识图及结构化数据,基于注意力的解码器进行解码,得到剧情知识图的上下文向量和结构化数据的上下文向量;
级联剧情知识图的上下文向量和结构化数据的上下文向量,得到回复文本复制剧情知识图及结构化数据的概率;
获取回复文本的概率分布表达式,得到回复文本的回复词;
根据回复词生成回复文本。
第二方面,本申请实施例提供了一种服务器,包括:
接收模块,用于接收来自智能设备的音视频查询请求;
处理模块,根据音视频查询请求,查询到所请求的目标音视频以及目标音视频的结构化数据及剧情知识图,剧情知识图是根据目标音视频的剧情简介、评价信息中的至少一种信息生成的,剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系;以及根据目标音视频的结构化数据及剧情知识图,基于回复文本生成模型,得到与音视频查询请求对应的音视频查询回复文本;
发送模块,用于向智能设备发送音视频查询响应,音视频查询响应携带音视频查询回复文本。
可选的,处理模块,具体用于:
获取目标音视频的剧情简介、评价信息中的至少一种信息的至少一个文本,提取至少一个文本中的关键词;
将至少一个文本分配到对应的关键词,其中,若两个关键词共享同一文本,则将该文本分配到该两个关键词,并根据该两个关键词共享文本的数量,设置该两个关键词之间的关系权重;
将每个关键词作为一个顶点,利用分配给关键词的文本,基于顶点编码器进行顶点编码,得到每个顶点的隐藏向量,其中一个顶点的隐藏向量包含对应关键词的上下文信息;
根据每个顶点的隐藏向量,基于图卷机模型进行知识图编码,得到目标音视频的剧情知识图。
可选的,处理模块提取至少一个文本中的关键词,包括:
提取至少一个文本中的实体指称,将提取的实体指称作为关键词。
可选的,处理模块提取至少一个文本中的关键词,还包括:
提取至少一个文本中的情感词,将提取的情感词作为关键词。
可选的,处理模块,还具体用于:
根据剧情知识图及结构化数据,基于注意力的解码器进行解码,得到剧情知识图的上下文向量和结构化数据的上下文向量;
级联剧情知识图的上下文向量和结构化数据的上下文向量,得到回复文本复制剧情知识图及结构化数据的概率;
获取回复文本的概率分布表达式,得到回复文本的回复词;
根据回复词生成回复文本。
第三方面,本申请实施例提供了一种服务器,包括:处理器和存储器;
存储器,与处理器连接,配置为存储计算机指令;处理器,与存储器连接,配置为执行计算机指令以使得智能设备执行第一方面的方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质中存储有计算机程序指令,当指令在计算机上运行时,使得计算机执行第一方面的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1中示例性示出了实施例中提供的显示设备与控制装置之间操作场景的示意图;
图2示例性示出了本申请实施例提供的剧情知识图的生成方法流程图;
图3示例性示出了本申请实施例提供的回复文本生成模型结构图;
图4示例性示出了本申请实施例提供的回复文本生成流程示意图;
图5示例性示出了本申请实施例提供的信息交互方法流程示意图;
图6示例性示出了本申请实施例提供的一种服务器结构图。
具体实施方式
本申请实施例提供一种信息交互方法以及实现该方法的服务器,能够在人机交互场景中,响应用户音视频查询请求时,为用户提供积极正面的查询回复文本,激发用户视听兴趣,提高用户体验。
能够在任务型人机交互场景中,针对语义较为模糊的用户语音请求,为用户提供精准快速业务领域服务,提升用户体验。
示例性地,本申请实施例中的信息交互设备可以是具有语音交互功能的显示设备,比如智能电视,该显示设备可以响应用户对音视频的查询请求,并在显示器上显示查询到的目标音视频的资源信息及音视频查询回复文本。本申请实施例中的信息交互设备也可以是具有语音交互功能的播放设备,比如智能音箱,该播放设备可以响应用户的音频查询请求,生成音视频查询回复文本。
为使本申请示例性实施例的目的、技术方案和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请中示出的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。
应当理解,本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语″模块″,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请中使用的术语″遥控器″,是指电子设备(如本申请中公开的显示设备)的一个组件,通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接,也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如:手持式触摸遥控器,是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
本申请中使用的术语″手势″,是指用户通过一种手型的变化或手部运动等动作,用于表达预期想法、动作、目的/或结果的用户行为。
下面结合附图对本申请实施例进行详细描述,以下的部分实施例中,以信息交互设备为显示设备为例描述。
图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出,用户可通过移动终端300和控制装置100操作显示设备200。
其中,控制装置100可以遥控器,包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(UI)中为用户提供各种控制。
示例的,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端300与显示设备200建立控制指令协议将遥控控制键盘同步到移动终端300上,通过控制移动终端300上用户界面,实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能。
如图1中还示出,显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(EPG)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以一组,也可以多组,可以一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
显示设备200,可以为智能电视、智能音箱。具体智能产品类型、设备型号等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。
显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能。示例的包括,网络电视、智能电视、互联网协议电视(IPTV)等。
目前,服务器可以根据用户的音视频查询请求,检索在知识库中对应的音视频结构化数据,基于data2text编码器-解码器模型,输入影片的结构化数据生成查询回复文本。文本生成是用语言生成模型学习一个X到response的映射,X就是知识库中的结构化数据,response就是生成的回复文本,用以反馈用户查询响应。
以影视作品为例,在知识库中的结构化数据包括影视名、主演、导演、影片类型、上映时间、发行地区、剧情简介、影评数据等。
表1示例性示出了一个音视频的结构化数据以及基于该音视频的结构化数据生成的回复文本结果。
表1、影视作品的结构化数据及根据结构化数据生成的回复文本
为使生成回复文本的内容更丰富,可以将剧情简介中的信息输入到生成模型中。一种实现方法是:用关键词提取算法(如:TF-IDF)提取剧情简介(summary)中的多个关键词,添加到结构化数据中,作为关键词信息域。但是,由于结构化数据中加入的多个关键词彼此之间位置杂乱无章,且不同音视频作品的关键词个数有多有少,导致难以建立每维关键词和输出文本的映射。
本申请的实施例中,可提取剧情简介、评价信息(比如影评)中的关键词从而生成剧情知识图,结合结构化数据,生成回复文本。其中,剧情简介、评价信息中的关键词不是作为结构化数据的维度,而是用于建立一个知识图,即用图表示。
为清楚说明本申请的实施例,下面给出一些语义分析相关的名词的相关解释。
实体:是指客观存在并可相互区别的事物,包括具体的人、事、物、机构、抽象的概念或联系。
实体指称:指代实体的一个名称。
知识图:本质上是一种语义网络,由实体和关系组成,实体为顶点或节点,关系为边,代表实体之间的语义关系。
本申请的实施例中,根据音视频剧情简介、评价信息中的关键词及两个关键词之间的关系生成剧情知识图。其中,关键词包括实体指称、情感词,两个关键词之间关系为可由共享同一文本(句子)的数量决定。
以电影为例,生成剧情知识图的过程,可以预先进行。比如预先针对电影库中的每个影视作品或者一部分影视作品(比如热门电影),获取其剧情简介,还可进一步获取其影评,根据影视作品的剧情简介(或者进一步获取的影片)生成该影视作品的知识图。
剧情简介、评价信息中可包含多个文本(即多个句子,本申请实施例中将一个句子称为一个文本),知识图可以有效编码去捕捉剧情简介、评价信息中的信息(实体和关系)。图2示例性示出了本申请实施例提供的剧情知识图的生成方法流程图。
本申请实施例中,可根据音视频的剧情简介生成剧情简介知识图,也可根据音视频的评价信息生成剧情简介知识图,还可以根据音视频的剧情简介和评价信息生成剧情简介知识图。图2中,以根据剧情简介生成剧情知识图为例进行描述。
如图所示,对于一个音视频,根据其剧情简介生成剧情简介知识图的流程可包括:
S201:服务器提取剧情简介中的关键词。
其中,剧情简介可包含多个文本,该步骤中,对于每个文本进行关键词提取。
关键词作为剧情简介的最重要词汇,大部分是实体指称。该步骤中,可使用Stanford CoreNLP等工具对剧情简介进行分词和实体指称识别。
可选地,考虑到单独的实体指称可能不足以涵盖剧情简介的主要内容,还可进一步的应用TextRank等关键字提取算法获取剧情简介中的其他关键词,比如情感词。
S202:服务器获取关键词与剧情简介中的每个文本的对应关系,得到两个关键词之间的关系权重。
该步骤中,可将每个文本分配到对应的关键词,其中,若两个关键词共享同一文本,则将该文本分配到该两个关键词,并根据该两个关键词共享文本的数量,设置该两个关键词之间的关系权重。
具体地,采用一种简单策略将关键词与剧情简介中的每个文本进行关联。如果关键词出现在某个文本中,则将该文本分配给该关键词。进一步地,还可将不包含任何关键词的文本与一个命名为″Empty″的特殊关键词进行关联。
其中,关键词作为知识图的顶点或节点,两个关键词之间的边(即两个关键词之间的关系)由共享的文本决定,如果两个关键词共享一个文本,将这两个关键词之间添加一条边,代表两个关键词之间的语义关系。两个关键词之前的关系权重由这两个关键词所共享的文本的数量确定。一个文本可以与多个关键词存在对应关系,这隐合的表示两个主题之间的关联,将两个关键词组合在一起的文本数越多(即这两个关键词所共享的文本的数量越多),这两个关键词的关系越密切。
S203:服务器基于顶点编码器的多头自注意将图每个顶点编码为一个隐藏向量。
该步骤中,可将每个关键词作为一个顶点,利用分配给关键词的文本,基于顶点编码器进行顶点编码,得到每个顶点的隐藏向量,其中一个顶点的隐藏向量包含对应关键词的上下文信息。
顶点编码器由两个模块组成,第一个是嵌入模块,第二个是自注意模块。采用顶点编码器进行顶点编码时,对于剧情简介文本的单词序列中的第i个单词wi,首先查找单词的单词嵌入ei,为了表示每个单词的位置信息,将位置嵌入pi添加到单词中。顶点的关键词放在单词序列的最前面,所有插入关键词的位置嵌入共享相同的嵌入p0(即,将关键词及其位置嵌入放到单词序列的最前面,关键词的位置嵌入记为p0),体现了关键词的特殊作用。单词嵌入和位置嵌入都被设置为可学习的向量。单词wi的最终嵌入εi是原始单词嵌入ei和位置嵌入pi的总和。然后,将最终嵌入εi提供给自注意模块,并获取到该模块处理得到的每个单词的隐藏向量。自注意模块包括多层多头自注意,该模块用于对单词之间的交互进行建模,以使该层中每个隐藏向量包含顶点的上下文信息。根据每个单词的隐藏向量最后得到每个顶点的隐藏向量。
其中,该步骤中剧情简介中的关键词和常规词共享相同的嵌入表。常规词是指剧情简介中关键词以外的词。嵌入表由全部汉语词汇和每个词汇对应的一个词向量组成。
S204:服务器将每个顶点的隐藏向量输入到图形编码器中,通过该图形编码器进行编码,得到剧情知识图。
该步骤中,图形编码器可以是图卷机模型。服务器可根据每个顶点的隐藏向量,基于图卷机模型进行知识图编码,得到剧情知识图。
剧情知识图为主题交互的图结构。图形编码可采用基于普的图卷积模型(GraphConvolutional Network,GCN),该模型既可以对顶点的内容进行建模,也可以利用图的结构信息。
本申请的实施例中,回复文本生成模型可采用编码器-解码器结构。图3示例性示出了本申请实施例提供的回复文本生成模型结构图。
如图3所示,将剧情知识图及结构化数据作为模型的输入生成回复文本。剧情知识图的编码过程参见图2,在此不进行详细的描述。结构化数据使用长短时记忆网络(LongShort-Term Memory,LSTM)进行编码。
长短时记忆网络是一种特殊形式的RNN,专为解决梯度消失和梯度爆炸问题而设计的。LSTM架构将RNN中的普通神经元替换为其内部拥有少量记忆的LSTM单元(LSTM Cell)LSTM架构中负责学习的实际上是环绕门(surrounding gates),这些门都拥有一个非线性的激活函数(通常为sigmoid函数)。在原始的LSTM单元中,有两种门:一种负责学习如何对到来的活性值进行缩放,而另一种负责学习如何对输出的活性值进行缩放。
本申请实施例中,LSTM使用了注意力机制,比如基于链的注意力机制,或者基于内容的注意力机制,或者基于链和内容相结合的混合注意力机制。以电影作品为例,在陈述一部电影作品时,一般会先说影视名再说它的主演是谁,再说它的类型,这些信息域的陈述一般符合一种先后关系,为了使得生成回复文本时陈述内容更有先后逻辑,可在使用一般的基于内容的注意力机制的同时,使用基于链的注意力机制。
回复文本生成模型可采用端到端训练,以最大程度地减少模型生成的概率分布以及人工撰写文本的负对数似然。
图4示例性示出了本申请实施例提供的回复文本生成流程示意图。使用基于注意力的解码器进行解码,解码器使用复制机制,用于复制剧情知识图和结构化数据中的输入。如图4所示,解码过程包括:
步骤1:获取解码时间步t。
该步骤中,时间步t为生成句子中一个单词的时间。
步骤2:将上一时间步t-1生成的单词yt-1输入到长短时记忆网络,拼接上一时间步的隐藏状态ht-1,做四个门运算,得到当前时间步t的隐藏状态ht。
混合注意力的计算公式为:
具体的,Ci为域值嵌入,fi为域名嵌入(即Ci为作为输入的音视频结构化数据中的信息域内容,fi为作为输入的音视频结构化数据中的信息域名称),LSTM的输入为域名和域值的拼接xi=[fi;Ci]。以上述影视作品为例,″影视名″为阈值名称,″《泰坎尼克号》″为阈值内容。
混合注意力的计算方法为:
(i)根据音视频的结构化数据的结构(信息域)定义链矩阵来建模一个信息域出现在另一信息域之前的概率。这个链矩阵中的每个元素是从fi转移到fj的概率分数,其中fi是第i个信息域名,表示先说第i个信息域fi再说第j个信息域fj的概率。
(ii)根据上一时间步的混合注意力以及定义的链矩阵,计算基于链的注意力。基于链的注意力能够使得生成语句时陈述的更有先后逻辑。
基于链的注意力的计算公式为:
(iii)根据音视频的结构化数据中各信息域的值(内容),计算基于内容的注意力。基于内容的注意力使得同一个信息域的域值生成时更加合理流畅。
基于内容的注意力的计算公式为:
步骤4:截取一定区间,在此区间内对混合注意力与隐藏表示加权求和,得到注意力向量at。
注意力向量的计算公式为:
其中,C为结构化数据中的信息域内容的总数。
步骤5:在每个解码时间步t,分别计算剧情知识图和结构化数据的上下文向量cg和cs。
该步骤中,cg使用解码器隐藏状态ht和ht关联的多头自注意力计算;cs使用混合注意力机制计算,计算公式为:
cs=tanh(Wd[at,ht]+bd)....................................[7]
其中,tanh表示神经网络中的激活函数,Wd为参数矩阵,bd为偏置。
步骤6:级联cg和cs,构造出最终的上下文向量ct。
步骤7:ht和ct通过级联形成新的ht,并将新的ht传递到下一个时间步。
步骤8:使用ht和ct计算从输入中复制的概率p,p表示为:
p=σ(Wcopy[ht||ct]+bcopy).................................[8]
其中,σ表示神经网络中的激活函数,Wcopy为参数矩阵,bcopy为偏置。
步骤9:在剧情知识图中的实体、关系和输入结构化数据中的信息域内容上的分布为acopy,通过级联,计算acopy。
步骤10:由步骤8中的概率p和步骤9中的分布acopy,获取最终的输出概率分布表达式。
st(w)=p*acopy+(1-p)*avocab....................................[9]
其中,avocab=Wsct+bs,Ws为参数矩阵,bs为偏置,avocab表示输出在词汇表上的概率分布。
步骤11:由步骤10获得的概率分布获取最终的回复词yt。
步骤12:根据回复词yt生成回复文本。
本申请的实施例中,根据剧情知识图中的实体和关系,结合音视频的结构化数据,使得生成的回复文本内容更加丰富,提高了用户视听的兴趣。
图5示例性示出了本申请实施例提供的信息交互方法流程示意图。如图5所示,该流程包括:
S501:智能设备接收到用户的音视频查询请求,并发送给服务器。
该步骤中,用户打开智能设备中的语音助手,通过语音助手发送音视频查询请求,智能设备可对查询请求进行去燥(包括去除回声和环境噪声),得到干净的查询请求。其中,语音助手可为智能手机、智能电视、智能音箱等智能设备的语音输入应用程序。
S502:服务器接收来自智能设备的音视频查询请求,得到音视频查询文本。
该步骤中,用户查询语句文本可为智能设备识别得到的,也可为服务器识别得到的。
S503:服务器根据音视频查询文本,查询到所请求的目标音视频以及目标音视频的结构化数据及剧情知识图。
该步骤中,剧情知识图是根据目标音视频的剧情简介、评价信息中的至少一种信息生成的,剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系。剧情知识图的详细过程参见图2,在此不做详细描述。音视频的结构化数据参见表1所示。
S504:服务器根据目标音视频的结构化数据及剧情知识图,基于回复文本生成模型,得到与音视频查询请求对应的音视频查询回复文本。
该步骤中,回复文本生成过程参见图3和图4,在此不进行详细的描述。
S505:服务器向智能设备发送音视频查询响应,音视频查询响应携带音视频查询回复文本。
基于相同的技术构思,本申请实施例还提供了一种服务器。该服务器执行上述实施例中的方法。
图6示例性示出了本申请实施例提供的一种服务器结构图。如图6所示,包括:接收模块101、处理模块102、发送模块103。
接收模块101,用于接收来自智能设备的音视频查询请求;
处理模块102,根据音视频查询请求,查询到所请求的目标音视频以及目标音视频的结构化数据及剧情知识图,剧情知识图是根据目标音视频的剧情简介、评价信息中的至少一种信息生成的,剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系二以及根据目标音视频的结构化数据及剧情知识图,基于回复文本生成模型,得到与音视频查询请求对应的音视频查询回复文本;
发送模块103,用于向智能设备发送音视频查询响应,音视频查询响应携带音视频查询回复文本。
可选的,处理模块102,具体用于:
获取目标音视频的剧情简介、评价信息中的至少一种信息的至少一个文本,提取至少一个文本中的关键词;
将至少一个文本分配到对应的关键词,其中,若两个关键词共享同一文本,则将该文本分配到该两个关键词,并根据该两个关键词共享文本的数量,设置该两个关键词之间的关系权重;
将每个关键词作为一个顶点,利用分配给关键词的文本,基于顶点编码器进行顶点编码,得到每个顶点的隐藏向量,其中一个顶点的隐藏向量包含对应关键词的上下文信息;
根据每个顶点的隐藏向量,基于图卷机模型进行知识图编码,得到目标音视频的剧情知识图。
可选的,提取至少一个文本中的关键词,包括:
提取至少一个文本中的实体指称,将提取的实体指称作为关键词。
可选的,提取至少一个文本中的关键词,还包括:
提取至少一个文本中的情感词,将提取的情感词作为关键词。
可选的,处理模块102,具体还用于:
根据剧情知识图及结构化数据,基于注意力的解码器进行解码,得到剧情知识图的上下文向量和结构化数据的上下文向量;
级联剧情知识图的上下文向量和结构化数据的上下文向量,得到回复文本复制剧情知识图及结构化数据的概率;
获取回复文本生成模型输出的概率分布表达式,得到回复文本的回复词;
根据回复词生成回复文本。
本申请实施例还提供一种计算机存储介质,用于存储一些指令,这些指令被执行时,可以完成前述实施例的方法。
本申请实施例还提供一种计算机程序产品,用于存储计算机程序,该计算机程序用于执行前述实施例的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (8)
1.一种处理信息交互的方法,其特征在于,包括:
接收来自智能设备的音视频查询请求;
根据所述音视频查询请求,查询到所请求的目标音视频以及所述目标音视频的结构化数据及剧情知识图,所述剧情知识图是根据所述目标音视频的剧情简介、评价信息中的至少一种信息生成的,所述剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系;
根据所述剧情知识图及结构化数据,基于注意力的解码器进行解码,得到剧情知识图的上下文向量和结构化数据的上下文向量;
级联所述剧情知识图的上下文向量和结构化数据的上下文向量,得到回复文本复制所述剧情知识图及结构化数据的概率;
获取回复文本的概率分布表达式,得到回复文本的回复词;
根据所述回复词生成与所述音视频查询请求对应的音视频查询回复文本;
向所述智能设备发送音视频查询响应,所述音视频查询响应携带所述音视频查询回复文本。
2.如权利要求1所述的方法,其特征在于,所述目标音视频的剧情知识图的生成过程,包括:
获取所述目标音视频的剧情简介、评价信息中的至少一种信息的至少一个文本,提取所述至少一个文本中的关键词;
将所述至少一个文本分配到对应的关键词,其中,若两个关键词共享同一文本,则将该文本分配到该两个关键词,并根据该两个关键词共享文本的数量,设置该两个关键词之间的关系权重;
将每个关键词作为一个顶点,利用分配给关键词的文本,基于顶点编码器进行顶点编码,得到每个顶点的隐藏向量,其中一个顶点的隐藏向量包含对应关键词的上下文信息;
根据每个顶点的隐藏向量,基于图卷机模型进行知识图编码,得到所述目标音视频的剧情知识图。
3.如权利要求2所述的方法,其特征在于,提取所述至少一个文本中的关键词,包括:
提取所述至少一个文本中的实体指称,将提取的实体指称作为关键词。
4.如权利要求2所述的方法,其特征在于,还包括:
提取所述至少一个文本中的情感词,将提取的情感词作为关键词。
5.一种服务器,其特征在于,包括:
接收模块,用于接收来自智能设备的音视频查询请求;
处理模块,根据所述音视频查询请求,查询到所请求的目标音视频以及所述目标音视频的结构化数据及剧情知识图,所述剧情知识图是根据所述目标音视频的剧情简介、评价信息中的至少一种信息生成的,所述剧情知识图中包括剧情、评价信息中的至少一种信息的关键词以及关键词之间的关系;以及
根据所述剧情知识图及结构化数据,基于注意力的解码器进行解码,得到剧情知识图的上下文向量和结构化数据的上下文向量;
级联所述剧情知识图的上下文向量和结构化数据的上下文向量,得到回复文本复制所述剧情知识图及结构化数据的概率;
获取回复文本生成模型输出的概率分布表达式,得到回复文本的回复词;
根据所述回复词生成与所述音视频查询请求对应的音视频查询回复文本;
发送模块,用于向所述智能设备发送音视频查询响应,所述音视频查询响应携带所述音视频查询回复文本。
6.如权利要求5所述的服务器,其特征在于,所述处理模块,具体用于:
获取所述目标音视频的剧情简介、评价信息中的至少一种信息的至少一个文本,提取所述至少一个文本中的关键词;
将所述至少一个文本分配到对应的关键词,其中,若两个关键词共享同一文本,则将该文本分配到该两个关键词,并根据该两个关键词共享文本的数量,设置该两个关键词之间的关系权重;
将每个关键词作为一个顶点,利用分配给关键词的文本,基于顶点编码器进行顶点编码,得到每个顶点的隐藏向量,其中一个顶点的隐藏向量包含对应关键词的上下文信息;
根据每个顶点的隐藏向量,基于图卷机模型进行知识图编码,得到所述目标音视频的剧情知识图。
7.如权利要求6所述的服务器,其特征在于,所述处理模块,具体用于:
提取所述至少一个文本中的实体指称,将提取的实体指称作为关键词。
8.如权利要求6所述的服务器,其特征在于,所述处理模块,还用于:
提取所述至少一个文本中的情感词,将提取的情感词作为关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419335.6A CN111159467B (zh) | 2019-12-31 | 2019-12-31 | 一种处理信息交互的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419335.6A CN111159467B (zh) | 2019-12-31 | 2019-12-31 | 一种处理信息交互的方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159467A CN111159467A (zh) | 2020-05-15 |
CN111159467B true CN111159467B (zh) | 2022-05-10 |
Family
ID=70560512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911419335.6A Active CN111159467B (zh) | 2019-12-31 | 2019-12-31 | 一种处理信息交互的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159467B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382257A (zh) * | 2020-05-28 | 2020-07-07 | 支付宝(杭州)信息技术有限公司 | 一种生成对话下文的方法和系统 |
CN117332098A (zh) * | 2023-10-24 | 2024-01-02 | 深圳市金大智能创新科技有限公司 | 一种基于交互式虚拟助手的内容生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095858A (zh) * | 2016-06-02 | 2016-11-09 | 海信集团有限公司 | 一种音视频搜索方法、装置和终端 |
CN108108449A (zh) * | 2017-12-27 | 2018-06-01 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
CN108491443A (zh) * | 2018-02-13 | 2018-09-04 | 上海好体信息科技有限公司 | 由计算机实施的与用户对话的方法和计算机系统 |
CN108959627A (zh) * | 2018-07-23 | 2018-12-07 | 北京光年无限科技有限公司 | 基于智能机器人的问答交互方法及系统 |
CN109062990A (zh) * | 2018-07-03 | 2018-12-21 | 上海常仁信息科技有限公司 | 一种基于机器人的健康知识问答系统 |
CN109241341A (zh) * | 2018-05-09 | 2019-01-18 | 上海大学 | 一种基于知识图谱的影视择优推荐系统和方法 |
CN110502645A (zh) * | 2019-08-28 | 2019-11-26 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020010A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN109918484B (zh) * | 2018-12-28 | 2020-12-15 | 中国人民大学 | 对话生成方法和装置 |
CN110427490B (zh) * | 2019-07-03 | 2021-11-09 | 华中科技大学 | 一种基于自注意力机制的情感对话生成方法与装置 |
-
2019
- 2019-12-31 CN CN201911419335.6A patent/CN111159467B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095858A (zh) * | 2016-06-02 | 2016-11-09 | 海信集团有限公司 | 一种音视频搜索方法、装置和终端 |
CN108108449A (zh) * | 2017-12-27 | 2018-06-01 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
CN108491443A (zh) * | 2018-02-13 | 2018-09-04 | 上海好体信息科技有限公司 | 由计算机实施的与用户对话的方法和计算机系统 |
CN109241341A (zh) * | 2018-05-09 | 2019-01-18 | 上海大学 | 一种基于知识图谱的影视择优推荐系统和方法 |
CN109062990A (zh) * | 2018-07-03 | 2018-12-21 | 上海常仁信息科技有限公司 | 一种基于机器人的健康知识问答系统 |
CN108959627A (zh) * | 2018-07-23 | 2018-12-07 | 北京光年无限科技有限公司 | 基于智能机器人的问答交互方法及系统 |
CN110502645A (zh) * | 2019-08-28 | 2019-11-26 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
Non-Patent Citations (1)
Title |
---|
ACL2019|使用Graph-to-Sequence模型为中文文章生成连贯性的评论;Ychen艾达AI;《微信公众平台》;20191016;第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111159467A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111989685B (zh) | 跨域个性化词汇的学习方法及其电子装置 | |
US20230385560A1 (en) | System and Method for Temporal Attention Behavioral Analysis of Multi-Modal Conversations in a Question and Answer System | |
CN113139036B (zh) | 一种信息交互方法及设备 | |
WO2022161298A1 (zh) | 信息生成方法、装置、设备、存储介质及程序产品 | |
WO2020051249A1 (en) | Methods and systems for using machine-learning extracts and semantic graphs to create structured data to drive search, recommendation, and discovery | |
TW201935273A (zh) | 語句的使用者意圖識別方法和裝置 | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
CN113784163B (zh) | 一种连麦直播方法及相关设备 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN113139391B (zh) | 翻译模型的训练方法、装置、设备和存储介质 | |
JP7337172B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
CN111159467B (zh) | 一种处理信息交互的方法及设备 | |
KR102104294B1 (ko) | 디스플레이 장치로 읽을 수 있는 저장매체에 저장된 수화 영상 챗봇 애플리케이션 | |
CN111832316A (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
WO2024088039A1 (zh) | 人机对话方法、对话网络模型的训练方法及装置 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
CN111552794B (zh) | 提示语生成方法、装置、设备和存储介质 | |
CN114155855A (zh) | 语音识别方法、服务器以及电子设备 | |
CN112199963A (zh) | 一种文本处理方法、装置和用于文本处理的装置 | |
CN116894085A (zh) | 对话生成方法及装置、电子设备和存储介质 | |
CN117520498A (zh) | 基于虚拟数字人交互处理方法、系统、终端、设备及介质 | |
CN111783429A (zh) | 信息处理方法、装置、电子设备以及存储介质 | |
CN117474084B (zh) | 预训练模型与下游序列任务双向迭代方法、设备及介质 | |
WO2023142590A1 (zh) | 手语视频的生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |