CN110598671B - 基于文本的虚拟形象行为控制方法、设备和介质 - Google Patents

基于文本的虚拟形象行为控制方法、设备和介质 Download PDF

Info

Publication number
CN110598671B
CN110598671B CN201910898521.6A CN201910898521A CN110598671B CN 110598671 B CN110598671 B CN 110598671B CN 201910898521 A CN201910898521 A CN 201910898521A CN 110598671 B CN110598671 B CN 110598671B
Authority
CN
China
Prior art keywords
behavior
network
text
content
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910898521.6A
Other languages
English (en)
Other versions
CN110598671A (zh
Inventor
解静
李丕绩
段弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910898521.6A priority Critical patent/CN110598671B/zh
Publication of CN110598671A publication Critical patent/CN110598671A/zh
Priority to PCT/CN2020/113147 priority patent/WO2021057424A1/zh
Priority to EP20867870.6A priority patent/EP3926525A4/en
Priority to JP2021564427A priority patent/JP7210774B2/ja
Priority to US17/480,112 priority patent/US11714879B2/en
Application granted granted Critical
Publication of CN110598671B publication Critical patent/CN110598671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了基于文本的虚拟形象行为控制方法、设备和介质。所述方法包括:在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量;将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置,其中,所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重;基于所述文本,确定行为内容;以及播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。

Description

基于文本的虚拟形象行为控制方法、设备和介质
技术领域
本公开涉及人工智能的技术领域,更具体地说,涉及基于文本的虚拟形象行为控制方法、设备和介质。
背景技术
随着人工智能(Artificial Intelligence,AI)各方向不同能力的发展,大众已渐渐不满足于在实际场景中只应用某个AI能力,因此对于AI综合能力应用场景的探索也在不断推进。近些年,虚拟形象作为AI综合能力的一种展示方式,不断被大众提及。虚拟形象是指通过计算机技术,将人体结构数字化,在电脑屏幕上出现看得见的、能够调控的虚拟形象体形态。虚拟形象可以是基于真实人得到的形象,也可以是基于卡通人物得到的形象。学术界和工业界都在尝试用不同的方式构造一个能够24小时服务大众和娱乐大众的虚拟形象。
现有的技术方案主要分为两大类。一类是真人驱动的方法。具体来说,通过动作捕获设备,捕捉真人演员的身体和表情的数据,然后使用该数据去驱动一个3D或2D虚拟形象对这些动作和表情进行展示。第二类是数据驱动的方法。具体来说,通过TTS(Text ToSpeech)的方式,使虚拟形象朗读输入的文本内容。然而,虚拟形象并没有任何的表情和动作展示,这仅能适用于新闻主持等极少需要表情和动作的场景。
可见,目前现有的虚拟形象驱动方式或者是有明显的人为驱动痕迹,或者避免动作表情等较为个性化的行为部分,都难以达到在背后无人驱动的情况下,基于文本控制虚拟形象呈现类似真人的行为。
发明内容
鉴于以上情形,期望提供基于文本的虚拟形象行为控制方法、设备和介质,其能够在无真人驱动的情况下,控制虚拟形象做出与文本相适应的、类似真人的表情和动作。
根据本公开的一个方面,提供了一种基于文本的虚拟形象行为控制方法,包括:在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量;将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置,其中,所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重;基于所述文本,确定行为内容;以及播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。
另外,在根据本公开的方法中,基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置进一步包括:计算所述第一编码网络的所有层中与所述特定符号对应的节点到每一个节点的注意力向量的平均值,以得到平均注意力向量;以及基于所述平均注意力向量中数值最大的元素的索引位置,确定所述行为触发位置。
另外,在根据本公开的方法中,所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量,并且其中基于所述文本,确定行为内容包括:将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络;基于所述第一分类网络的输出,确定行为类别;以及至少基于所述行为类别,通过特定的行为映射,确定所述行为内容。
另外,在根据本公开的方法中,所述特定的行为映射包括行为映射表,并且其中至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:在所述行为映射表中,查找与所述行为类别对应的行为内容,并将其确定为所述行为内容。
另外,在根据本公开的方法中,针对所述虚拟形象的不同应用场景,所述特定的行为映射是不同的。
另外,在根据本公开的方法中,所述第一分类网络的输出为与行为的类别数目相同维度的行为预测向量,其中每一个元素表示所述文本对应于相应的行为类别的概率值。
另外,在根据本公开的方法中,基于所述第一分类网络的输出,确定行为类别进一步包括:确定所述行为预测向量中的最大概率值;以及当所述最大概率值大于预定阈值时,将所述最大概率值对应的行为类别作为与所述文本对应的行为类别,否则将与所述文本对应的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。
另外,根据本公开的方法可以进一步包括:将所述多个输入向量分别输入至第二编码网络;将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络;以及基于所述第二分类网络的输出,确定情感类别,其中至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:基于所述行为类别和所述情感类别,通过特定的行为映射,确定所述行为内容。
另外,在根据本公开的方法中,所述行为内容包括动作内容和表情内容中的至少一个。
另外,在根据本公开的方法中,当所述行为内容包括动作内容和表情内容二者时,所述第一编码网络包括第三编码子网络和第四编码子网络,并且其中将所述多个输入向量分别输入至第一编码网络,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置进一步包括:将所述多个输入向量分别输入至第三编码子网络,其中所述第三编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量,确定所述文本中的表情触发位置;以及将所述多个输入向量分别输入至第四编码子网络,其中所述第四编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量,确定所述文本中的动作触发位置。
另外,在根据本公开的方法中,控制所述虚拟形象呈现所述行为内容进一步包括:基于所述行为内容,调整所述虚拟形象的行为变化参数,使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。
另外,在根据本公开的方法中,所述行为变化参数至少包括以下之一:行为出现时间、行为结束时间、行为变化系数。
根据本公开的另一方面,提供了一种基于文本的虚拟形象行为控制设备,包括:向量化装置,用于在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量;行为触发位置确定装置,用于将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置,其中,所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重;行为内容确定装置,用于基于所述文本,确定行为内容;以及行为呈现装置,用于播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。
另外,在根据本公开的设备中,所述行为触发位置确定装置进一步被配置为:计算所述第一编码网络的所有层中与所述特定符号对应的节点到每一个节点的注意力向量的平均值,以得到平均注意力向量;以及基于所述平均注意力向量中数值最大的元素的索引位置,确定所述行为触发位置。
另外,在根据本公开的设备中,所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量,并且其中所述行为内容确定装置进一步被配置为:将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络;基于所述第一分类网络的输出,确定行为类别;以及至少基于所述行为类别,通过特定的行为映射,确定所述行为内容。
另外,在根据本公开的设备中,所述特定的行为映射包括行为映射表,并且其中至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:在所述行为映射表中,查找与所述行为类别对应的行为内容,并将其确定为所述行为内容。
另外,在根据本公开的设备中,针对所述虚拟形象的不同应用场景,所述特定的行为映射是不同的。
另外,在根据本公开的设备中,所述第一分类网络的输出为与行为的类别数目相同维度的行为预测向量,其中每一个元素表示所述文本对应于相应的行为类别的概率值。
另外,在根据本公开的设备中,所述行为内容确定装置进一步被配置为通过执行以下处理来实现基于所述第一分类网络的输出,确定行为类别:确定所述行为预测向量中的最大概率值;以及当所述最大概率值大于预定阈值时,将所述最大概率值对应的行为类别作为与所述文本对应的行为类别,否则将与所述文本对应的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。
另外,在根据本公开的设备中,所述行为内容确定装置进一步被配置为:将所述多个输入向量分别输入至第二编码网络;将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络;以及基于所述第二分类网络的输出,确定情感类别,其中所述行为内容确定装置进一步被配置为通过执行以下处理来实现至少基于所述行为类别,通过特定的行为映射,确定所述行为内容:基于所述行为类别和所述情感类别,通过特定的行为映射,确定所述行为内容。
另外,在根据本公开的设备中,所述行为内容包括动作内容和表情内容中的至少一个。
另外,在根据本公开的设备中,当所述行为内容包括动作内容和表情内容二者时,所述第一编码网络包括第三编码子网络和第四编码子网络,并且其中所述行为触发位置确定装置进一步被配置为:将所述多个输入向量分别输入至第三编码子网络,其中所述第三编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量,确定所述文本中的表情触发位置;以及将所述多个输入向量分别输入至第四编码子网络,其中所述第四编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量,确定所述文本中的动作触发位置。
另外,在根据本公开的设备中,所述行为呈现装置进一步被配置为:基于所述行为内容,调整所述虚拟形象的行为变化参数,使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。
另外,在根据本公开的设备中,所述行为变化参数至少包括以下之一:行为出现时间、行为结束时间、行为变化系数。
根据本公开的再一方面,公开了一种计算机可读记录介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上文中所述的方法。
在根据本公开的虚拟形象行为控制方法和设备中,通过数据驱动而非真人来驱动虚拟形象呈现相应的行为,因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据,再映射到虚拟形象的行为上,使得触发的行为是适合当前文本的,且与现有技术相比,该行为是丰富的。此外,由于基于预定的映射规则来确定虚拟形象呈现的行为,因此可拓展性强,可以不断地丰富行为内容,同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。
附图说明
图1是图示根据本公开实施例的、基于文本的虚拟形象行为控制方法的具体过程的流程图;
图2是示出了所述第一编码网络的内部结构的示意图;
图3是示出了注意力机制的示意图;
图4示出了第一编码网络和第一分类网络的输入输出示意图;
图5是示出了图1中的步骤S103的具体过程的流程图;
图6是示出了根据本公开的一种实施例的虚拟形象行为控制的产品流程图;
图7示出了表情映射表的一种示例;
图8示出了根据本公开的一种实施例的行为生成流程的示意图;
图9示出了用于实现行为变化参数调节的程序代码示例;
图10是图示根据本公开的实施例的基于文本的虚拟形象行为控制设备的配置的功能性框图;以及
图11是示出了根据本公开实施例的一种示例性的计算设备的架构的示意图。
具体实施方式
下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述,以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节,但它们只能被看作是示例性的。因此,本领域技术人员将认识到,可对这里描述的实施方式进行各种改变和修改,而不脱离本发明的范围和精神。而且,为了使说明书更加清楚简洁,将省略对本领域熟知功能和构造的详细描述。
将参照图1描述根据本公开的实施例的、基于文本的虚拟形象行为控制方法的具体过程。例如,虚拟形象的具体表现形式可以是与真人相同的替身形象,也可以是完全虚拟的卡通形象。举例而言,在新闻播报的应用场景中,虚拟形象是与真实播音员相同的替身形象。作为新闻主播的虚拟形象不仅可以基于文本在短时间内生成新闻播报视频,并且能保证播报新闻内容的“零失误”,无论各种场景都能快速上岗,还能24小时不间断播报,助力媒体行业效率提升。或者,在虚拟游戏的应用场景中,作为不同游戏角色的卡通形象可以基于文本而展现丰富的行为,并且能够24小时不间断地执行其角色任务,如24小时的游戏讲解、24小时的陪聊等。
如图1所示,所述方法包括以下步骤。
首先,在步骤S101,在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量。
这里,文本通常为一句话。并且,例如,所述特定符号可以是用于表示文本分类的CLS(Classification)符号。并且,所述特定符号在所述文本中的插入位置可以是任意的。例如,可以将所述特定符号插入在所述文本之前,也可以将所述特定符号插入在所述文本之后,或者也可以将所述特定符号插入在所述文本的中间。
在插入特定符号之后,分割所述文本中包含的各个元素。例如,所述元素可以是字,也可以是词。也就是说,可以以字为单位,对文本进行分割。或者,也可以以词为单位,对文本进行分割。然后,所述特定符号和文本中的各个元素转换为一系列能够表达文本语义的向量,即:将所述特定符号和文本中的各个元素映射或嵌入到另一个数值向量空间,从而产生对应的多个输入向量。
然后,在步骤S102,将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置。其中,与所述特定符号对应的网络节点的所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到同一层中的每一个网络节点的注意力权重。
图2示出了所述第一编码网络的内部结构的示意图。所述第一编码网络的输入是在步骤S101中得到的各个字/词/特定符号的原始向量,输出是各个字/词/特定符号融合了全文语义信息后的向量表示。例如,对于第一层中的第一个网络节点而言,计算与该网络节点对应的第一个元素的输入向量与其上下文各个元素的输入向量的加权和,作为该网络节点的编码向量,并且将该编码向量作为输入提供至第二层中的第一个网络节点,直至最后一层的第一个网络节点,以得到最终的融合了全文语义信息后的第一编码输出。在图2中,所述第一编码网络包括多层网络节点。当然,本公开并不仅限于此。所述第一编码网络也可以仅包括一层网络节点。
例如,作为一种可能的实施方式,所述第一编码网络可以通过BERT(Bidirectional Encoder Representations from Transformer)模型来实现。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示(Representation),然后将文本的语义表示在特定自然语言处理(Natural LanguageProcessing,NLP)任务中作微调,最终应用于该NLP任务。
因此,BERT模型的输入是在步骤S101中得到的文本中各个字/词的原始词向量,输出是文本中的各个字/词融合了全文语义信息后的向量表示。
BERT模型是基于注意力(attention)机制的模型。注意力机制的主要作用是让神经网络把“注意力”放在一部分输入上,即:区分输入的不同部分对输出的影响。这里,将从增强字/词的语义表示的角度来理解注意力机制。
一个字/词在一句文本中表达的意思通常与它的上下文有关。比如:光看“鹄”字,我们可能会觉得很陌生,而看到它的上下文“鸿鹄之志”后,就对它马上熟悉了起来。因此,字/词的上下文信息有助于增强其语义表示。同时,上下文中的不同字/词对增强语义表示所起的作用往往不同。比如在上面这个例子中,“鸿”字对理解“鹄”字的作用最大,而“之”字的作用则相对较小。为了有区分地利用上下文的字/词信息增强目标字/词的语义表示,就可以用到注意力机制。
图3是示出了注意力机制的示意图。在图3中,以输入的第一个元素(字、词、或特定符号)为例,描述注意力机制的计算过程。
如图3所示,将输入的第一个元素作为目标元素,并且将与第一个元素对应的第一层编码网络中的第一个网络节点作为目标网络节点。注意力机制将目标元素和上下文各个元素的语义向量表示作为输入,首先通过特定的矩阵变换获得目标元素的Query向量、上下文各个元素的Key向量以及目标元素与上下文各个元素的原始Value。具体来说,对于目标元素,基于训练后的变换矩阵WQ创建Query向量,并且对于目标元素与上下文各个元素,分别基于训练后的变换矩阵WK和WV创建Key向量和Value向量。例如,这些向量是通过将输入向量与3个训练后的变换矩阵WQ、WK、WV相乘得到的。假设提供至第一编码网络的输入为X=(x1,x2,……,xn),其中与第一个元素的向量为x1,那么与x1对应的Query向量q1、上下文各个元素的Key向量ki以及目标元素与上下文各个元素的原始Value向量vi可以按照以下公式来计算:
q1=x1×WQ
ki=xi×WK
vi=xi×WV
其中i为从1到n的整数。
然后,基于Query向量和Key向量,计算第一层编码网络中的第一个网络节点(即,目标网络节点)的注意力向量
Figure BDA0002211063600000091
Figure BDA0002211063600000092
其中,目标网络节点的注意力向量
Figure BDA0002211063600000093
中的每一个元素分别指示从目标网络节点到上下文各个网络节点(即,同一层中的每一个网络节点)的注意力权重。例如,
Figure BDA0002211063600000094
表示在第一层编码网络中从第一个网络节点到同一层中第i个网络节点的注意力权重。
Figure BDA0002211063600000095
可以通过将q1乘以ki,然后再通过softmax函数归一化而得到。最后,基于注意力向量
Figure BDA0002211063600000096
与Value向量V,得到目标元素的注意力输出。例如,目标网络节点的注意力输出可以按照以下公式计算:
Figure BDA0002211063600000097
也就是说,以与目标网络节点对应的注意力向量作为权重,加权融合向所述目标网络节点输入的目标元素的Value向量和上下文各个元素的Value向量,作为目标网络节点的编码输出,即:目标元素的增强语义向量表示。
图3中所示的注意力输出对应于图2中的第一层编码网络中的第一个网络节点的编码输出。在所述第一编码网络仅具有一层网络节点的情况下,图3中所示的注意力输出即为与输入的第一个元素对应的最终编码输出。在所述第一编码网络具有多层网络节点的情况下,将图3中所示的第一层的第一个网络节点的注意力输出作为输入提供至第二层编码网络的第一个网络节点,并且按照类似的方法,得到第二层编码网络的第一个网络节点的编码输出。然后,逐层地重复类似的处理,直至最后一层。在最后一层编码网络中的第一个网络节点的编码输出即为与输入的第一个元素对应的最终编码输出。
可见,在所述第一编码网络具有多层网络节点的情况下,对于输入的目标元素,在每一层中都计算与目标元素对应的网络节点的注意力向量。在当前层中,以与目标元素对应的网络节点的注意力向量作为权重,对输入到该层的所有向量进行加权求和,并将得到的加权和作为融合了上下文语义的、当前层的输出编码向量。然后,当前层的输出进一步作为下一层的输入,并重复相同的处理。也就是说,假设第一编码网络共有L层,且目标元素为输入的第一个元素,那么将得到与目标元素对应的L个注意力向量
Figure BDA0002211063600000101
Figure BDA0002211063600000102
所述L个注意力向量分别对应于L层编码网络。
然后,基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置。其中,与所述特定符号对应的网络节点的所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到同一层中的每一个网络节点的注意力权重。
例如,假设将所述特定符号插入在所述文本之前,那么与所述特定符号对应的网络节点即为每一层编码网络中的第一个网络节点,并且与所述特定符号对应的网络节点的注意力向量包括每一层中第一个网络节点的注意力向量。
这里,需要说明的是,如将要在下文中描述的那样,行为可以包括动作和表情中的至少一个。由于虚拟形象是基于文本来做出对应的表情或动作,因此不仅需要基于文本,确定虚拟形象应该呈现的行为的具体内容,而且还需要确定虚拟形象应该在播放至文本的哪一个元素(字/词)所对应的音频时呈现相应的行为。与虚拟形象呈现相应行为的时刻对应的、文本中的元素位置就是行为触发位置。
如上文中所述,在BERT模型中,基于注意力机制,利用上下文的字/词信息增强目标字/词的语义表示。并且,在根据本公开的BERT模型中,还进一步插入了用于表示文本分类的CLS(Classification)符号。与文本中包括的其他字/词相比,插入的CLS符号不具有明显的语义信息。从而,这个无明显语义信息的符号将会更“公平”地融合文本中各个字/词的语义信息。因此,与CLS符号对应的网络节点的注意力向量中各元素的权重值可以体现文本中各个字/词的重要性。如果注意力权重值越大,则表明对应的字/词的重要性越高。
在根据本公开的方法中,认为在文本中重要性最高的字/词位置处,控制虚拟形象呈现相应的行为是合适的。因此,将文本中重要性最高的字/词位置作为行为触发位置。由于与所述特定符号对应的网络节点的注意力向量能够体现文本中各个字/词的重要性,因此可以基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置。
具体来说,当第一编码网络仅具有一层网络节点时,基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置。假设所述特定符号对应于第一个输入向量,因此与所述特定符号对应的网络节点为第一个网络节点。并且,假设第一个网络节点的注意力向量A1=(a11,a12,……,a1n),那么可以按照以下公式计算行为触发位置p:
P=argmaxi(a1i)
其中,该公式表示将a1i取得最大值时的索引i赋予p。
当第一编码网络具有多层网络节点时,基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置进一步包括:计算所述第一编码网络的所有层中与所述特定符号对应的节点到每一个节点的注意力向量的平均值,以得到平均注意力向量;以及基于所述平均注意力向量中数值最大的元素的索引位置,确定所述行为触发位置。
具体来说,如上文中所述,当第一编码网络具有多层网络节点时,在每一层中都存在一个与所述特定符号对应的网络节点,并且在每一层中都计算与所述特定符号对应的网络节点的注意力向量。假设第一编码网络共有L层,那么将得到与所述特定符号对应的L个网络节点的L个注意力向量
Figure BDA0002211063600000111
在这种情况下,首先对这L个注意力向量求平均,以获得平均注意力向量
Figure BDA0002211063600000112
Figure BDA0002211063600000113
然后,按照如下公式确定行为触发位置:
Figure BDA0002211063600000114
其中,该公式表示将
Figure BDA0002211063600000115
取得最大值时的索引i赋予p。
在上文中描述了如何基于第一编码网络确定虚拟形象的行为触发位置。在确定出虚拟形象的行为触发位置之后,还需要确定虚拟形象需要呈现的行为内容。
因此,在步骤S102之后,处理进行到步骤S103。在步骤S103,基于所述文本,确定行为内容。
如上文中所述,所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量。由于在提供至第一编码网络的输入中插入了无明显语义信息的特定符号CLS,并且这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息,因此将与该特定符号对应的第一编码向量作为整句文本的语义表示,以便用于文本分类。
图4示出了第一编码网络和第一分类网络的输入输出示意图。并且,图5示出了图1中的步骤S103的具体过程。
如图5所示,基于所述文本,确定行为内容进一步包括以下步骤。
首先,在步骤S501,如图4所示,将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量hCLS输入至第一分类网络。所述第一分类网络可以是单层的神经网络,也可以是多层的神经网络。并且,当需要分类的类别有多种时,可以调整第一分类网络,使其具有更多的输出神经元,然后通过softmax函数归一化为取值范围从0到1的数值。具体地,所述第一分类网络的输出
Figure BDA0002211063600000121
为与行为的类别数目相同维度的行为预测向量,其中每一个元素表示所述文本对应于相应的行为类别的概率值。
假设文本序列为X=(x1,x2,…,xn),其中xi为句子X中的第i个元素(字/词),并且在文本之前插入CLS符号,那么将CLS符号和文本所对应的向量输入到BERT模型中,可以获得与CLS符号对应的输出向量:
hcLs=BERT(X)[01
然后,在步骤S502,基于所述第一分类网络的输出
Figure BDA0002211063600000122
确定行为类别。具体地,将hCLS作为输入向量提供至第一分类网络,并且第一分类网络可以输出文本对应于每一类行为类别的概率值:
Figure BDA0002211063600000123
其中,W表示第一分类网络中的网络节点权重,b为偏移常数。
Figure BDA0002211063600000124
中最大概率对应的类别i即为文本所属的行为类别。在图4中,示出了第5个元素的概率值最大的情况,即:i=5。
或者,作为另一种可能的实施方式,基于所述第一分类网络的输出,确定行为类别可以包括:确定所述行为预测向量中的最大概率值;当所述最大概率值大于预定阈值时,将所述最大概率值对应的行为类别作为与所述文本对应的行为类别,否则将与所述文本对应的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。
也就是说,在确定文本所属的行为类别时,进一步判断第一分类网络的行为预测结果的置信度。如果最大概率值
Figure BDA0002211063600000131
小于预定阈值,则认为第一分类网络输出的行为预测结果的置信度低。在这种情况下,不采用第一分类网络的预测结果,而是将文本所属的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。例如,所述特定类别可以是中性类别。另一方面,如果最大概率值
Figure BDA0002211063600000132
大于预定阈值,则认为第一分类网络输出的行为预测结果的置信度高。在这种情况下,采用第一分类网络的预测结果。
最后,在步骤S503,至少基于所述行为类别,通过特定的行为映射,确定所述行为内容。例如,所述特定的行为映射包括行为映射表。可以通过查找预先设置的映射表,基于行为类别,确定所述行为内容。具体来说,至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:在所述行为映射表中,查找与所述行为类别对应的行为内容,并将其确定为所述行为内容。
其中,针对所述虚拟形象的不同应用场景,所述特定的行为映射是不同的。例如,与新闻场景对应的映射表将不会触发较为夸张的行为内容。
在上文中,详细描述了将文本提供至第一编码网络,并且基于第一编码网络的注意力机制,估计行为触发位置。同时,进一步将第一编码网络的输出向量输入至第一分类网络,并从第一分类网络得到文本所属的行为类别的预测结果。例如,可以采用BERT模型来实现所述第一编码网络。
上述第一编码网络、第一分类网络都是需要训练的。
对于BERT模型而言,通常采用大规模、与特定NLP任务无关的文本语料进行预训,其目标是学习语言本身应该是什么样的。这就好比我们学习语文、英语等语言课程时,都需要学习如何选择并组合我们已经掌握的词汇来生成一篇通顺的文本。回到BERT模型上,其预训过程就是逐渐调整模型参数,使得模型输出的文本语义表示能够刻画语言的本质,便于后续针对具体NLP任务作微调。例如,可以采用200G左右的中文新闻语料进行基于字的中文BERT模型的预训。
在本公开中,具体NLP任务为文本分类任务。在这种情况下,完成预训的BERT模型和第一分类网络进行联合训练。在该联合训练阶段,重点在于第一分类网络的训练,而对BERT模型的改动非常小,这种训练过程成为微调(fine-tuning)。在第一分类网络的训练过程中,涉及到的是机器学习中的监督学习。这意味着需要一个标记好的数据集来训练这样的模型。作为一种可能的实施方式,可以抓取带有Emoji标记的微博数据作为标记好的数据集。具体来说,在微博数据中,用户发布的文本中通常会带有对应的Emoji表情。例如,如果一句文本中带有微笑的Emoji表情,那么可以将微笑的Emoji表情类别作为该文本的正解表情类别。又如,如果一句文本中带有抱拳的Emoji动作,那么可以将抱拳的Emoji动作类别作为该文本的正解表情类别。此外,与现有技术中的分类网络的训练类似地,第一分类网络的优化可以通过最小化交叉熵损失函数获得。
这里,需要指出的是,所述行为内容可以包括动作内容和表情内容中的至少一个。例如,所述行为内容可以仅包括动作内容,也可以仅包括表情内容,或者可以既包括动作内容也包括表情内容。例如,动作内容可以包括但不限于:比心、作揖、撇嘴、打哈欠、挖鼻等。表情内容可以包括但不限于:微笑、皱眉、不屑、大笑等。
在所述行为内容既包括动作内容也包括表情内容的情况下,上文中所述的第一编码网络可以进一步包括对应于动作的第三编码子网络和对应于表情的第四编码子网络。将所述多个输入向量分别输入至第一编码网络,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置进一步包括:将所述多个输入向量分别输入至第三编码子网络,其中所述第三编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量,确定所述文本中的动作触发位置;以及将所述多个输入向量分别输入至第四编码子网络,其中所述第四编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量,确定所述文本中的表情触发位置。
这两个编码子网络的参数数量相同,但参数的值不同。具体结构和配置与上文中描述的第一编码网络类似,这里不再赘述。因此,对于同一个文本,基于不同的编码子网络,得到的动作触发位置和表情触发位置是不同的。相应的,第一分类网络也进一步包括对应于动作的第三分类子网络和对应于表情的第四分类子网络。这两个分类子网络的参数数量相同,但参数的值不同。具体结构和配置与上文中描述的第一分类网络类似,这里不再赘述。
并且,在所述行为内容既包括动作内容也包括表情内容的情况下,可以预先设置表情映射表和动作映射表,然后基于表情类别和行为类别,查找表情映射表以确定对应的表情内容,并且基于表情类别和行为类别,查找动作映射表以确定对应的动作内容。
此外,除了行为类别之外,还可以进一步基于文本确定所属的情感类别。在这种情况下,根据本公开的方法可以进一步包括以下步骤:将所述多个输入向量分别输入至第二编码网络;将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络;以及基于所述第二分类网络的输出,确定情感类别。例如,情感类别可以包括但不限于:生气、开心等。这里,第二编码网络与第一编码网络是类似的,且两个网络的参数数量相同,但参数值根据情况可以相同,也可以不同。例如,当行为内容仅包括表情内容时,第一编码网络与第二编码网络的参数可以相同。或者,当行为内容仅包括动作内容时,第一编码网络与第二编码网络的参数可以不同。
与上文中所述的第一编码网络和第一分类网络类似地,所述第二编码网络和第二分类网络也是需要训练的,且训练方法与与上文中所述的训练方法类似。可以使用带有Emoji表情的微博数据作为用于训练情绪类别的标记数据。
在这种情况下,至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:基于所述行为类别和所述情感类别,通过特定的行为映射,确定所述行为内容。
如果将行为类别看作是自变量,行为内容看作是因变量,那么情感类别可以看作是在行为类别的基础上,进一步增加了一个维度的自变量,用于确定最终的行为内容。
图6示出了根据本公开的一种实施例的虚拟形象行为控制的产品流程图。在图6中,示出了这样的实施例:其中,行为内容可以包括动作内容和表情内容二者,并且基于文本分别提取动作类别、表情类别和情感类别以及相应的动作触发位置和表情触发位置。
首先,将文本经过算法处理得到每一句文本对应的表情、动作和情感。例如,表情和动作可以选择目前应用广泛的emoji表情和动作。当然,也可以增加更多常见的表情和动作,使得输出的表情和动作更加精细化。情感为文本所包含的情感分类,如生气、开心等。表情和动作的触发精确到字或词,即:文本中的某一个字或词将触发规定的动作和表情。
然后,在基于算法确定出初步的表情和动作后,分别通过动作映射表和表情映射表来确定当前文本应触发的表情和动作内容。由于每一句文本未必都能得到动作、表情和情绪这三个参数,因此可能会出现只有动作、只有表情、只有情感、有动作和表情、有动作和情感、有表情和情感、三个参数都有这7种情况。图7示出了表情映射表的一种示例。图7所示的示例对应于具有动作、表情和情绪这三个参数的情况。其中,对应已有直播表情ID表示虚拟形象所要呈现的表情,动作ID、表情ID和情感ID分别对应于基于文本确定的表情、动作和情感。
图8示出了根据本公开的一种实施例的行为生成流程的示意图。在图8所示的实施例中,行为包括动作和表情二者,并且,基于文本分别提取动作类别、表情类别和情感类别以及相应的动作触发位置和表情触发位置。然后,基于动作类别、表情类别和情感类别,通过特定的映射规则,确定虚拟形象应该呈现的动作内容和表情内容。图8中的动作模型和表情模型都可以通过上文中所述的第一编码网络和第一分类网络来实现,只不过取决于具体的动作模型、表情模型和情感模型,对应的具体网络参数有所不同。
需要指出的是,这里的映射规则可以结合虚拟形象所处的当前场景进行进一步的筛选。例如,与新闻场景对应的映射规则将不会触发较为夸张的动作和表情。
此外,尽管图8示出了动作模型、表情模型和情感模型,但是如上文中所述,本公开并不限于此。例如,基于文本仅提取动作类别、仅提取表情类别、提取动作类别和情感类别、提取表情类别和情感类别、提取动作类别和表情类别等组合变体也都包括在本公开的范围内。
返回参照图1,最后,在确定出行为内容以及行为触发位置之后,在步骤S104,播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。
这里,考虑到真实的人在说话时进行的行为(如,表情)是连续自然变化的,因此在控制所述虚拟形象呈现所述行为内容时,可以进一步对触发的行为进行细微调节。
具体地,控制所述虚拟形象呈现所述行为内容进一步包括:基于所述行为内容,调整所述虚拟形象的行为变化参数,使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。例如,可以调节每一个行为变化参数,可调节的行为变化参数包括但不限于行为出现时间、行为结束时间、行为变化系数等,从而保证每一个行为的变化都是自然连贯拟人的。图9是用于实现行为变化参数调节的程序代码示例。在图9中,以表情为例,示出了具体的调节参数设置,包括在做出表情之前等待预定时段、表情淡入、表情保持时间段、表情淡出等,以保证每一个表情的变化都是自然连贯拟人的。
在上文中,参照图1到图9详细地描述了根据本公开的基于文本的虚拟形象行为控制方法。可以看出,在根据本公开的方法中,通过数据驱动而非真人来驱动虚拟形象呈现相应的行为,因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据,再映射到虚拟形象的行为上,使得触发的行为是适合当前文本的,且与现有技术相比,该行为是丰富的。此外,由于基于预定的映射规则来确定虚拟形象呈现的行为,因此可拓展性强,可以不断地丰富行为内容,同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。
此外,在本公开中,使用BERT模型来实现第一编码网络,不仅能够基于注意力机制估计行为触发位置,还能够在文本分类的准确率上有所提升。下表一分别示出了基于BERT模型的文本分类模型和基于CNN的文本分类模型在动作、表情和情感分类的准确度。
表一
方法\任务 动作 表情 情感
CNN 82.53% 74.38% 65.69%
BERT 87.23% 85.40% 77.14%
接下来,将参照图10描述根据本公开的实施例的基于文本的虚拟形象行为控制设备。如图10所示,所述设备1000包括:向量化装置1001、行为触发位置确定装置1002、行为内容确定装置1003和行为呈现装置1004。
向量化装置1001用于在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量。
这里,文本通常为一句话。并且,例如,所述特定符号可以是用于表示文本分类的CLS(Classification)符号。并且,所述特定符号在所述文本中的插入位置可以是任意的。例如,可以将所述特定符号插入在所述文本之前,也可以将所述特定符号插入在所述文本之后,或者也可以将所述特定符号插入在所述文本的中间。
在插入特定符号之后,向量化装置1001分割所述文本中包含的各个元素。例如,所述元素可以是字,也可以是词。也就是说,可以以字为单位,对文本进行分割。或者,也可以以词为单位,对文本进行分割。然后,向量化装置1001将所述特定符号和文本中的各个元素转换为一系列能够表达文本语义的向量,即:将所述特定符号和文本中的各个元素映射或嵌入到另一个数值向量空间,从而产生对应的多个输入向量。
行为触发位置确定装置1002用于将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置,其中,所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重。例如,第一编码网络可以通过BERT模型来实现。
如上文中所述,由于虚拟形象是基于文本来做出对应的表情或动作,因此不仅需要基于文本,确定虚拟形象应该呈现的行为的具体内容,而且还需要确定虚拟形象应该在播放至文本的哪一个元素(字/词)所对应的音频时呈现相应的行为。与虚拟形象呈现相应行为的时刻对应的、文本中的元素位置就是行为触发位置。
在BERT模型中,基于注意力机制,利用上下文的字/词信息增强目标字/词的语义表示。并且,在根据本公开的BERT模型中,还进一步插入了用于表示文本分类的CLS(Classification)符号。与文本中包括的其他字/词相比,插入的CLS符号不具有明显的语义信息。从而,这个无明显语义信息的符号将会更“公平”地融合文本中各个字/词的语义信息。因此,与CLS符号对应的网络节点的注意力向量中各元素的权重值可以体现文本中各个字/词的重要性。如果注意力权重值越大,则表明对应的字/词的重要性越高。
在根据本公开的设备中,认为在文本中重要性最高的字/词位置处,控制虚拟形象呈现相应的行为是合适的。因此,行为触发位置确定装置1002将文本中重要性最高的字/词位置作为行为触发位置。由于与所述特定符号对应的网络节点的注意力向量能够体现文本中各个字/词的重要性,因此行为触发位置确定装置1002可以基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置。
具体来说,当第一编码网络仅具有一层网络节点时,所述行为触发位置确定装置1002进一步被配置为:基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置。
当第一编码网络具有多层网络节点时,所述行为触发位置确定装置1002进一步被配置为:计算所述第一编码网络的所有层中与所述特定符号对应的节点到每一个节点的注意力向量的平均值,以得到平均注意力向量;以及基于所述平均注意力向量中数值最大的元素的索引位置,确定所述行为触发位置。
行为内容确定装置1003用于基于所述文本,确定行为内容。
如上文中所述,所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量。由于在提供至第一编码网络的输入中插入了无明显语义信息的特定符号CLS,并且这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息,因此将与该特定符号对应的输出的第一编码向量作为整句文本的语义表示,以便用于文本分类。
所述行为内容确定装置1003进一步被配置为:将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络;基于所述第一分类网络的输出,确定行为类别;以及至少基于所述行为类别,通过特定的行为映射,确定所述行为内容。
所述第一分类网络可以是单层的神经网络,也可以是多层的神经网络。并且,当需要分类的类别有多种时,可以调整第一分类网络,使其具有更多的输出神经元,然后通过softmax函数归一化为取值范围从0到1的数值。具体地,所述第一分类网络的输出为与行为的类别数目相同维度的行为预测向量,其中每一个元素表示所述文本对应于相应的行为类别的概率值。所述行为内容确定装置1003将行为预测向量中最大概率对应的类别作为文本所属的行为类别。
或者,作为另一种可能的实施方式,所述行为内容确定装置1003进一步被配置为通过执行以下处理来实现基于所述第一分类网络的输出,确定行为类别:确定所述行为预测向量中的最大概率值;以及当所述最大概率值大于预定阈值时,将所述最大概率值对应的行为类别作为与所述文本对应的行为类别,否则将与所述文本对应的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。
也就是说,在确定文本所属的行为类别时,所述行为内容确定装置1003进一步判断第一分类网络的行为预测结果的置信度。如果最大概率值小于预定阈值,则所述行为内容确定装置1003认为第一分类网络输出的行为预测结果的置信度低。在这种情况下,所述行为内容确定装置1003不采用第一分类网络的预测结果,而是将文本所属的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。例如,所述特定类别可以是中性类别。另一方面,如果最大概率值大于预定阈值,则所述行为内容确定装置1003认为第一分类网络输出的行为预测结果的置信度高。在这种情况下,所述行为内容确定装置1003采用第一分类网络的预测结果。
最后,所述行为内容确定装置1003至少基于所述行为类别,通过特定的行为映射,确定所述行为内容。例如,可以通过查找预先设置的映射表,基于行为类别,确定所述行为内容。
如上文中所述,所述行为内容可以包括动作内容和表情内容中的至少一个。例如,所述行为内容可以仅包括动作内容,也可以仅包括表情内容,或者可以既包括动作内容也包括表情内容。例如,动作内容可以包括但不限于:比心、作揖、撇嘴、打哈欠、挖鼻等。表情内容可以包括但不限于:微笑、皱眉、不屑、大笑等。
在所述行为内容既包括动作内容也包括表情内容的情况下,上文中所述的第一编码网络可以进一步包括对应于动作的第三编码子网络和对应于表情的第四编码子网络。这两个编码子网络的参数数量相同,但参数的值不同。具体结构和配置与上文中描述的编码网络类似,这里不再赘述。因此,对于同一个文本,基于不同的编码子网络,得到的动作触发位置和表情触发位置是不同的。相应的,第一分类网络也进一步包括对应于动作的第三分类子网络和对应于表情的第四分类子网络。这两个分类子网络的参数数量相同,但参数的值不同。具体结构和配置与上文中描述的第一分类网络类似,这里不再赘述。
并且,在所述行为内容既包括动作内容也包括表情内容的情况下,可以预先设置表情映射表和动作映射表,然后所述行为内容确定装置1003基于表情类别和行为类别,查找表情映射表以确定对应的表情内容,并且基于表情类别和行为类别,查找动作映射表以确定对应的动作内容。
此外,除了行为类别之外,还可以进一步基于文本确定所属的情感类别。在这种情况下,所述行为内容确定装置1003进一步被配置为:将所述多个输入向量分别输入至第二编码网络;将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络;以及基于所述第二分类网络的输出,确定情感类别。
其中,所述行为内容确定装置1003进一步被配置为通过执行以下处理来实现至少基于所述行为类别,通过特定的行为映射,确定所述行为内容:基于所述行为类别和所述情感类别,通过特定的行为映射,确定所述行为内容。
如果将行为类别看作是自变量,行为内容看作是因变量,那么情感类别可以看作是在行为类别的基础上,进一步增加了一个维度的自变量,用于确定最终的行为内容。
最后,在所述行为触发位置确定装置1002确定出行为触发位置且所述行为内容确定装置1003确定出行为内容之后,所述行为呈现装置1004用于播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。
这里,考虑到真实的人在说话时进行的行为(如,表情)是连续自然变化的,因此在控制所述虚拟形象呈现所述行为内容时,所述行为呈现装置1004可以进一步对触发的行为进行细微调节。
具体地,所述行为呈现装置1004可以进一步被配置为:基于所述行为内容,调整所述虚拟形象的行为变化参数,使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。例如,可调节的行为变化参数包括但不限于行为出现时间、行为结束时间、行为变化系数等,从而保证每一个行为的变化都是自然连贯拟人的。
可以看出,在根据本公开的设备中,通过数据驱动而非真人来驱动虚拟形象呈现相应的行为,因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据,再映射到虚拟形象的行为上,使得触发的行为是适合当前文本的,且与现有技术相比,该行为是丰富的。此外,由于基于预定的映射规则来确定虚拟形象呈现的行为,因此可拓展性强,可以不断地丰富行为内容,同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。
此外,在本公开中,使用BERT模型来实现编码网络,不仅能够基于注意力机制估计行为触发位置,还能够在文本分类的准确率上有所提升。
由于根据本公开的实施例的虚拟形象行为控制设备与上文中所述的虚拟形象行为控制方法是完全对应的,因此在关于虚拟形象行为控制设备的描述中,并未对展开很多细节内容。本领域的技术人员可以理解,在上文中所述的虚拟形象行为控制方法的所有细节内容都可以类似地应用于虚拟形象行为控制设备中。
此外,根据本公开实施例的方法或设备也可以借助于图11所示的计算设备1100的架构来实现。如图8所示,计算设备1100可以包括总线1110、一个或多个CPU1120、只读存储器(ROM)1130、随机存取存储器(RAM)1140、连接到网络的通信端口1150、输入/输出组件1160、硬盘1170等。计算设备1100中的存储设备,例如ROM 1130或硬盘1170可以存储本公开提供的虚拟形象行为控制方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然,图11所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图11示出的计算设备中的一个或多个组件。
本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的虚拟形象行为控制方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
迄今为止,已经参照图1到图11详细描述了根据本公开的各实施例的虚拟形象行为控制方法和设备。在根据本公开的各实施例的虚拟形象行为控制方法设备中,通过数据驱动而非真人来驱动虚拟形象呈现相应的行为,因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据,再映射到虚拟形象的行为上,使得触发的行为是适合当前文本的,且与现有技术相比,该行为是丰富的。此外,由于基于预定的映射规则来确定虚拟形象呈现的行为,因此可拓展性强,可以不断地丰富行为内容,同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。
需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过软件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种基于文本的虚拟形象行为控制方法,包括:
在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量;
将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置,其中,所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重;
基于所述文本,确定行为内容;以及
播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。
2.根据权利要求1所述的方法,其中基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置进一步包括:
计算所述第一编码网络的所有层中与所述特定符号对应的节点到每一个节点的注意力向量的平均值,以得到平均注意力向量;以及
基于所述平均注意力向量中数值最大的元素的索引位置,确定所述行为触发位置。
3.根据权利要求1所述的方法,其中所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量,并且
其中基于所述文本,确定行为内容包括:
将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络;
基于所述第一分类网络的输出,确定行为类别;以及
至少基于所述行为类别,通过特定的行为映射,确定所述行为内容。
4.根据权利要求3所述的方法,其中所述特定的行为映射包括行为映射表,并且
其中至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:
在所述行为映射表中,查找与所述行为类别对应的行为内容,并将其确定为所述行为内容。
5.根据权利要求3所述的方法,其中针对所述虚拟形象的不同应用场景,所述特定的行为映射是不同的。
6.根据权利要求3所述的方法,其中所述第一分类网络的输出为与行为的类别数目相同维度的行为预测向量,其中每一个元素表示所述文本对应于相应的行为类别的概率值。
7.根据权利要求6所述的方法,其中基于所述第一分类网络的输出,确定行为类别进一步包括:
确定所述行为预测向量中的最大概率值;以及
当所述最大概率值大于预定阈值时,将所述最大概率值对应的行为类别作为与所述文本对应的行为类别,否则将与所述文本对应的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。
8.根据权利要求3所述的方法,进一步包括:
将所述多个输入向量分别输入至第二编码网络;
将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络;以及
基于所述第二分类网络的输出,确定情感类别,
其中至少基于所述行为类别,通过特定的行为映射,确定所述行为内容进一步包括:
基于所述行为类别和所述情感类别,通过特定的行为映射,确定所述行为内容。
9.根据权利要求1所述的方法,其中所述行为内容包括动作内容和表情内容中的至少一个。
10.根据权利要求9所述的方法,其中当所述行为内容包括动作内容和表情内容二者时,所述第一编码网络包括第三编码子网络和第四编码子网络,并且
其中将所述多个输入向量分别输入至第一编码网络,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置进一步包括:
将所述多个输入向量分别输入至第三编码子网络,其中所述第三编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量,确定所述文本中的动作触发位置;以及
将所述多个输入向量分别输入至第四编码子网络,其中所述第四编码子网络包括至少一层网络节点,并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量,确定所述文本中的表情触发位置。
11.根据权利要求1所述的方法,其中控制所述虚拟形象呈现所述行为内容进一步包括:
基于所述行为内容,调整所述虚拟形象的行为变化参数,使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。
12.根据权利要求11所述的方法,其中所述行为变化参数至少包括以下之一:行为出现时间、行为结束时间、行为变化系数。
13.一种基于文本的虚拟形象行为控制设备,包括:
向量化装置,用于在文本中插入特定符号,并产生与所述特定符号和文本中的各个元素对应的多个输入向量;
行为触发位置确定装置,用于将所述多个输入向量分别输入至第一编码网络,其中所述第一编码网络包括至少一层网络节点,并且基于与所述特定符号对应的网络节点的注意力向量,确定所述文本中的行为触发位置,其中,所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重;
行为内容确定装置,用于基于所述文本,确定行为内容;以及
行为呈现装置,用于播放与所述文本对应的音频,并且当播放到所述行为触发位置时,控制所述虚拟形象呈现所述行为内容。
14.一种计算机可读记录介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-12中任一项所述的方法。
CN201910898521.6A 2019-09-23 2019-09-23 基于文本的虚拟形象行为控制方法、设备和介质 Active CN110598671B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910898521.6A CN110598671B (zh) 2019-09-23 2019-09-23 基于文本的虚拟形象行为控制方法、设备和介质
PCT/CN2020/113147 WO2021057424A1 (zh) 2019-09-23 2020-09-03 基于文本的虚拟形象行为控制方法、设备和介质
EP20867870.6A EP3926525A4 (en) 2019-09-23 2020-09-03 Virtual image behavior control method and device based on text, and medium
JP2021564427A JP7210774B2 (ja) 2019-09-23 2020-09-03 テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
US17/480,112 US11714879B2 (en) 2019-09-23 2021-09-20 Method and device for behavior control of virtual image based on text, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910898521.6A CN110598671B (zh) 2019-09-23 2019-09-23 基于文本的虚拟形象行为控制方法、设备和介质

Publications (2)

Publication Number Publication Date
CN110598671A CN110598671A (zh) 2019-12-20
CN110598671B true CN110598671B (zh) 2022-09-27

Family

ID=68862313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910898521.6A Active CN110598671B (zh) 2019-09-23 2019-09-23 基于文本的虚拟形象行为控制方法、设备和介质

Country Status (5)

Country Link
US (1) US11714879B2 (zh)
EP (1) EP3926525A4 (zh)
JP (1) JP7210774B2 (zh)
CN (1) CN110598671B (zh)
WO (1) WO2021057424A1 (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
US11593984B2 (en) 2020-02-07 2023-02-28 Apple Inc. Using text for avatar animation
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113194350B (zh) * 2021-04-30 2022-08-19 百度在线网络技术(北京)有限公司 推送待播报数据、播报数据的方法和装置
CN114936283B (zh) * 2022-05-18 2023-12-26 电子科技大学 一种基于Bert的网络舆情分析方法
CN116168134B (zh) * 2022-12-28 2024-01-02 北京百度网讯科技有限公司 数字人的控制方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
CN109377797A (zh) * 2018-11-08 2019-02-22 北京葡萄智学科技有限公司 虚拟人物教学方法及装置
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4726065A (en) * 1984-01-26 1988-02-16 Horst Froessl Image manipulation by speech signals
US5151998A (en) * 1988-12-30 1992-09-29 Macromedia, Inc. sound editing system using control line for altering specified characteristic of adjacent segment of the stored waveform
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
JP2000167244A (ja) * 1998-12-11 2000-06-20 Konami Computer Entertainment Osaka:Kk ビデオゲーム装置、ビデオキャラクタに対する疑似チームへの入部勧誘処理制御方法及びビデオキャラクタに対する疑似チームへの入部勧誘処理制御プログラムを記録した可読記録媒体
JP2006048379A (ja) 2004-08-04 2006-02-16 Ntt Docomo Hokuriku Inc コンテンツ生成装置
US9613450B2 (en) 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
TWI453628B (zh) * 2012-01-12 2014-09-21 Amtran Technology Co Ltd 適應性調整虛擬按鍵尺寸的方法及其顯示裝置
CN102737397B (zh) * 2012-05-25 2015-10-07 北京工业大学 基于运动偏移映射的有韵律头部运动合成方法
US9691296B2 (en) * 2013-06-03 2017-06-27 Massachusetts Institute Of Technology Methods and apparatus for conversation coach
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
WO2016070354A1 (en) 2014-11-05 2016-05-12 Intel Corporation Avatar video apparatus and method
CN104866101B (zh) * 2015-05-27 2018-04-27 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
US10546015B2 (en) * 2015-12-01 2020-01-28 Facebook, Inc. Determining and utilizing contextual meaning of digital standardized image characters
WO2018097439A1 (ko) * 2016-11-28 2018-05-31 삼성전자 주식회사 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
CN106653052B (zh) * 2016-12-29 2020-10-16 Tcl科技集团股份有限公司 虚拟人脸动画的生成方法及装置
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
WO2019011968A1 (en) * 2017-07-11 2019-01-17 Deepmind Technologies Limited LEARNING VISUAL CONCEPTS THROUGH NEURONAL NETWORKS
CN108304388B (zh) * 2017-09-12 2020-07-07 腾讯科技(深圳)有限公司 机器翻译方法及装置
US20190220474A1 (en) * 2018-01-16 2019-07-18 Entigenlogic Llc Utilizing multiple knowledge bases to form a query response
CN109885842B (zh) * 2018-02-22 2023-06-20 谷歌有限责任公司 处理文本神经网络
US10642939B2 (en) * 2018-02-24 2020-05-05 Twenty Lane Media, LLC Systems and methods for generating jokes
US10878817B2 (en) * 2018-02-24 2020-12-29 Twenty Lane Media, LLC Systems and methods for generating comedy
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
US20210365643A1 (en) * 2018-09-27 2021-11-25 Oracle International Corporation Natural language outputs for path prescriber model simulation for nodes in a time-series network
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
US11790171B2 (en) * 2019-04-16 2023-10-17 Covera Health Computer-implemented natural language understanding of medical reports
CN110013671B (zh) * 2019-05-05 2020-07-28 腾讯科技(深圳)有限公司 动作执行方法和装置、存储介质及电子装置
US11170774B2 (en) * 2019-05-21 2021-11-09 Qualcomm Incorproated Virtual assistant device
US11604981B2 (en) * 2019-07-01 2023-03-14 Adobe Inc. Training digital content classification models utilizing batchwise weighted loss functions and scaled padding based on source density
CN112487182B (zh) * 2019-09-12 2024-04-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
US20210304736A1 (en) * 2020-03-30 2021-09-30 Nvidia Corporation Media engagement through deep learning
US20210344798A1 (en) * 2020-05-01 2021-11-04 Walla Technologies Llc Insurance information systems
US11023688B1 (en) * 2020-05-27 2021-06-01 Roblox Corporation Generation of text tags from game communication transcripts
US11386625B2 (en) * 2020-09-30 2022-07-12 Snap Inc. 3D graphic interaction based on scan
US11620829B2 (en) * 2020-09-30 2023-04-04 Snap Inc. Visual matching with a messaging application
US11077367B1 (en) * 2020-10-09 2021-08-03 Mythical, Inc. Systems and methods for using natural language processing (NLP) to control automated gameplay
TWI746214B (zh) * 2020-10-19 2021-11-11 財團法人資訊工業策進會 機器閱讀理解方法、機器閱讀理解裝置及非暫態電腦可讀取媒體

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
CN109377797A (zh) * 2018-11-08 2019-02-22 北京葡萄智学科技有限公司 虚拟人物教学方法及装置
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VideoBERT: A Joint Model for Video and Language Representation Learning;Chen Sun 等;《arXiv》;20190911;1-13 *
文本驱动的可视语音合成技术研究;刘波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110515(第5期);I136-76 *
结构化课件自动生成系统的设计与实现;雷武超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170415(第4期);I138-218 *

Also Published As

Publication number Publication date
WO2021057424A1 (zh) 2021-04-01
US11714879B2 (en) 2023-08-01
CN110598671A (zh) 2019-12-20
EP3926525A1 (en) 2021-12-22
JP7210774B2 (ja) 2023-01-23
US20220004825A1 (en) 2022-01-06
EP3926525A4 (en) 2022-06-29
JP2022531855A (ja) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110598671B (zh) 基于文本的虚拟形象行为控制方法、设备和介质
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN110717017B (zh) 一种处理语料的方法
CN110321417B (zh) 一种对话生成方法、系统、可读存储介质及计算机设备
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN111831798A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
CN111930918B (zh) 一种跨模态的双边个性化人机社交对话生成方法及系统
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110166802B (zh) 弹幕处理方法、装置及存储介质
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
KR20230048992A (ko) 부적절 스코어를 이용한 인공지능 기반의 버츄어 휴먼 인터렉션 생성 장치 및 방법
CN116756577B (zh) 模型训练方法、装置、设备及存储介质
CN112214585A (zh) 回复消息生成方法、系统、计算机设备及存储介质
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
JP2018190077A (ja) 発話生成装置、発話生成方法及び発話生成プログラム
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN110891201B (zh) 文本生成方法、装置、服务器和存储介质
CN117115303A (zh) 用于内容生成的方法、系统、计算设备和存储介质
CN115204181A (zh) 文本检测方法、装置、电子设备以及计算机可读存储介质
CN114743056A (zh) 一种基于动态早退的图像描述生成模型及模型训练方法
KR102259703B1 (ko) 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치
CN113822047A (zh) 一种文本增强方法、装置、电子设备和存储介质
CN113158624A (zh) 事件抽取中融合语言信息微调预训练语言模型的方法及系统
CN112153424A (zh) 内容推送方法、装置、电子设备和存储介质
Li Teaching machines to converse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019428

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant