CN113793398A - 基于语音交互的绘画方法与装置、存储介质和电子设备 - Google Patents

基于语音交互的绘画方法与装置、存储介质和电子设备 Download PDF

Info

Publication number
CN113793398A
CN113793398A CN202010724277.4A CN202010724277A CN113793398A CN 113793398 A CN113793398 A CN 113793398A CN 202010724277 A CN202010724277 A CN 202010724277A CN 113793398 A CN113793398 A CN 113793398A
Authority
CN
China
Prior art keywords
voice
information
position information
target
touch operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010724277.4A
Other languages
English (en)
Inventor
杨慕葵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010724277.4A priority Critical patent/CN113793398A/zh
Publication of CN113793398A publication Critical patent/CN113793398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开属于语音交互技术领域,涉及一种基于语音交互的绘画方法与装置、存储介质和电子设备。该方法包括:采集语音信息,并对语音信息进行语音识别处理得到绘画元素;将绘画元素输入至预先训练好的生成式对抗网络中,以使生成式对抗网络输出绘画图像。本公开通过将语音识别处理得到的绘画元素输入至生成式对抗网络中,可以实现输出绘画图像的功能。一方面,通过语音信息绘制绘画图像,为用户提供了一种新的绘画方式,丰富了用户的表达方式;另一方面,帮助用户在无需学习绘制工具的操作方式和掌握绘画知识的前提下完成绘画图像的表达,提高了用户利用绘画表达想法的准确度和贴合性。

Description

基于语音交互的绘画方法与装置、存储介质和电子设备
技术领域
本公开涉及语音交互技术领域,尤其涉及一种基于语音交互的绘画方法与基于语音交互的绘画装置、计算机可读存储介质及电子设备。
背景技术
视觉一直是感官中最容易表达信息的方式。其中,图画帮助人类分享想法的历史由来已久。图画对被传递者来说门槛极低,可对产出图画的传递者却有较高的技能要求。因此,经常会出现回忆里的画面无法通过口述来直观展现,构思的设计仅靠文字解释理解困难等情况。
在现有场景中,用户可以在描绘图像时,利用画笔、线条、光线和色彩中的至少一种在绘图工具中绘制;也可以利用软件点触拖拽实现绘制图画。但是这些方式对用户的绘画功底要求极高,实现较为困难,并且也不一定可以贴合用户想法,无法准确传达思想。
鉴于此,本领域亟需开发一种新的基于语音交互的绘画方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于语音交互的绘画方法、基于语音交互的绘画装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的绘画功底要求高和绘画效果不理想等问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本发明实施例的第一个方面,提供一种基于语音交互的绘画方法,通过触控终端呈现一图形用户界面,所述方法包括:采集语音信息,并对所述语音信息进行语音识别处理得到绘画元素;
将所述绘画元素输入至预先训练好的生成式对抗网络中,以使所述生成式对抗网络输出绘画图像。
在本发明的一种示例性实施例中,所述方法还包括:
响应作用于所述图形用户界面上的触控操作,获取所述触控操作的位置信息;
根据所述位置信息调整所述绘画元素的目标位置和/或目标尺寸,以生成与所述绘画图像对应的目标绘画图像。
在本发明的一种示例性实施例中,所述位置信息包括第一位置信息和第二位置信息;
所述响应作用于所述图形用户界面上的触控操作,获取所述触控操作的位置信息,包括:
响应作用于所述图形用户界面上的第一触控操作,获取所述第一触控操作的所述第一位置信息;
响应与所述第一触控操作连续的第二触控操作,获取与所述第二触控操作对应的所述第二位置信息。
在本发明的一种示例性实施例中,所述根据所述位置信息调整所述绘画元素的目标位置和/或目标尺寸,包括:
根据所述第一位置信息在所述绘画元素中确定目标绘画元素,并获取所述目标绘画元素的元素位置信息;
根据所述第二位置信息调整所述元素位置信息得到所述目标绘画元素的目标位置和/或目标尺寸。
在本发明的一种示例性实施例中,所述对所述语音信息进行语音识别处理得到绘画元素,包括:
对所述语音信息进行语音识别处理得到文本信息;
在预设的知识图谱中确定与所述文本信息对应的绘画元素。
在本发明的一种示例性实施例中,所述在预设的知识图谱中确定与所述文本信息对应的绘画元素,包括:
在预设的知识图谱中确定与所述文本信息对应的绘画实体以及与所述绘画实体对应的实体关系;
对所述绘画实体和所述实体关系进行指代消解处理得到绘画元素。
在本发明的一种示例性实施例中,所述触控终端包括:全双工通信的触控终端。
根据本发明实施例的第二个方面,提供一种基于语音交互的绘画装置,所述装置包括:信息采集模块,被配置为采集语音信息,并对所述语音信息进行语音识别处理得到绘画元素;
图像生成模块,被配置为将所述绘画元素输入至预先训练好的生成式对抗网络中,以使所述生成式对抗网络输出绘画图像。
根据本发明实施例的第三个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的基于语音交互的绘画方法。
根据本发明实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的基于语音交互的绘画方法。
由上述技术方案可知,本发明示例性实施例中的基于语音交互的绘画方法、基于语音交互的绘画装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法及装置中,通过将语音识别处理得到的绘画元素输入至生成式对抗网络中,可以实现输出绘画图像的功能。一方面,通过语音信息绘制绘画图像,为用户提供了一种新的绘画方式,丰富了用户的表达方式;另一方面,帮助用户在无需学习绘制工具的操作方式和掌握绘画知识的前提下完成绘画图像的表达,提高了用户利用绘画表达想法的准确度和贴合性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种基于语音交互的绘画方法的流程图;
图2示意性示出本公开示例性实施例中对语音信息进行语音识别处理的方法的流程示意图;
图3示意性示出本公开示例性实施例中确定绘画元素的方法的流程示意图;
图4示意性示出本公开示例性实施例中生成目标绘画图像的方法的流程示意图;
图5示意性示出本公开示例性实施例中获取位置信息的方法的流程示意图;
图6示意性示出本公开示例性实施例中调整目标绘画元素的方法的流程示意图;
图7示意性示出本公开示例性实施例中应用场景下的基于语音交互的绘画方法的流程示意图;
图8示意性示出本公开示例性实施例中确定绘画实体和实体关系的方法的界面示意图;
图9示意性示出本公开示例性实施例中在应用场景下调整目标绘画元素的界面示意图;
图10示意性示出本公开示例性实施例中在应用场景下生成目标绘画图像的界面示意图;
图11示意性示出本公开示例性实施例中在应用场景下实现全双工通信的触控终端的处理流程图;
图12示意性示出本公开示例性实施例中一种基于语音交互的绘画装置的结构示意图;
图13示意性示出本公开示例性实施例中一种用于实现基于语音交互的绘画方法的电子设备;
图14示意性示出本公开示例性实施例中一种用于实现基于语音交互的绘画方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
针对相关技术中存在的问题,本公开提出了一种基于语音交互的绘画方法,通过触控终端呈现一图形用户界面。
图1示出了基于语音交互的绘画方法的流程图,如图1所示,基于语音交互的绘画方法至少包括以下步骤:
步骤S110.采集语音信息,并对语音信息进行语音识别处理得到绘画元素。
步骤S120.将绘画元素输入至预先训练好的生成式对抗网络中,以使生成式对抗网络输出绘画图像。
在本公开的示例性实施例中,通过将语音识别处理得到的绘画元素输入至生成式对抗网络中,可以实现输出绘画图像的功能。一方面,通过语音信息绘制绘画图像,为用户提供了一种新的绘画方式,丰富了用户的表达方式;另一方面,帮助用户在无需学习绘制工具的操作方式和掌握绘画知识的前提下完成绘画图像的表达,提高了用户利用绘画表达想法的准确度和贴合性。
下面对基于语音交互的绘画方法的各个步骤进行详细说明。
在步骤S110中,采集语音信息,并对语音信息进行语音识别处理得到绘画元素。
在本公开的示例性实施例中,语音信息是用户通过语言表达出来,并通过相关设备能够识别并进行处理的信息,可以是中文、也可以是英文、日文和韩文等形式,本示例性实施例对此不做特殊限定。
以语音信息是中文为例,语音信息可以是通过触控终端实时采集的,且触控终端接收等待被识别的信息。该触控终端可以是智能手机、智能穿戴设备、平板电脑、笔记本电脑等具有录音功能的语音采集设备。较为优选的,该触控设备为带屏音响。
进一步的,可以对采集到的语音信息进行语音识别处理。
在可选的实施例中,图2示出了对语音信息进行语音识别处理的方法的流程示意图,如图2所示,该方法至少包括以下步骤:在步骤S210中,对语音信息进行语音识别处理得到文本信息。
文本信息是对语音信息进行语音识别处理后得到的语音识别结果。具体的,语音识别处理可以是通过语音识别系统实现的,也可以是根据语音识别算法实现的,还可以是其他方式实现的,本示例性实施例对此不做特殊限定。
举例而言,该语音识别算法可以是基于深度卷积长短期记忆神经网络的语音识别算法。该语音识别算法由全连接卷积网络(Convolutional Neural Networks,简称CNN)、长短期记忆神经网络(Long Short-Term Memory,简称LSTM)与深度神经网络(Deep NeuralNetworks,简称DNN)三层网络结构组成的。
具体的,可以通过CNN来减小频域变化,CNN的输出通过LSTM来减小时域变化。LSTM最后一层的输出输入到DNN,以将特征控件映射到更容易分类的输出层。
经过对应语音识别系统或语音识别算法的语音识别处理,可以得到与语音信息对应的文本信息。
在步骤S220中,在预设的知识图谱中确定与文本信息对应的绘画元素。
在可选的实施例中,图3示出了确定绘画元素的方法的流程示意图,如图3所示,该方法至少包括以下步骤:在步骤S310中,在预设的知识图谱中确定与文本信息对应的绘画实体以及与绘画实体对应的实体关系。
预设的知识图谱可以是开放领域知识图谱,也可以是专业领域知识图谱。
其中,开放领域知识图谱面向的是通用领域,以构建常识性的知识为主,包括结构化的百科知识,它强调更多的是一种知识的广度,对知识的深度方面不做更多要求,对应的使用者一般为普通用户。
而专业领域知识图谱面向一个特定的行业领域,如绘画领域、科技领域等,它的数据来源是特定行业的知识,并基于该行业的数据来构建,要有一定的行业深度,能够解决行业人员较为专业的问题,对应的使用者一般为行业内的从业人员。
举例而言,文本信息可以为“那种极简样式的大眼睛在漆黑的天空中央”。在绘画领域的知识图谱中,可以确定与该文本信息对应的绘画实体分别为[眼睛,天空],该绘画实体的关系可以是[(天空,居中有,眼睛),(眼睛,风格是,极简),(天空,颜色是,黑)]。
在步骤S320中,对绘画实体和实体关系进行指代消解处理得到绘画元素。
其中,指代消解技术是文本摘要和对话问答系统等的关键支撑技术。指代消解处理是指对于给定的文本篇章,分析出该文本篇章中所有表示同一实体的词语,实体通常是人或物品等。
而实体往往散布于文本篇章的不同位置,涉及的实体通常可以有多种不同的表达方式。为了更准确且无遗漏地从文本篇章中抽取相关信息,必须对其中的指代关系进行消解,以获得相应信息在该文本篇章中的完整描述。
一般的,指代消解处理可以利用预先训练好的指代消解模型实现,该指代消解模型可以是长短期记忆网络模型,也可以是其他网络模型,本示例性实施例对此不做特殊限定。
具体的,人工标注具有指代关系的文本样本,并随机抽取出文本样本中的若干样本输入双向长短期记忆网络模型,由双向长短期记忆网络模型结合上下文提取文本样本中每一个词的特征变量。进一步的,根据特征变量计算出该词与其他词存在指代关系的概率,并推断出句子中代词指代的实体。
因此,利用训练好的指代消解模型可以确定文本信息中的代词指代的绘画实体,并将指代消解处理后的绘画实体和实体关系确定为绘画元素。
在本示例性实施例中,通过语音识别处理和指代消解处理可以确定与语音信息对应的绘画元素,实现了语音信息到绘画元素的想法落实,提高了绘画元素确定的准确度。
在步骤S120中,将绘画元素输入至预先训练好的生成式对抗网络中,以使生成式对抗网络输出绘画图像。
在本公开的一种示例性实施例中,生成式对抗网络(Generative AdversarialNetworks,简称GAN)是一种深度学习模型,是复杂分布上无监督学习最具前景的方法之一。生成式对抗网络通过框架中的至少两个模型,分别为生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生较为理想的输出。
举例而言,预先训练好的生成式对抗网络中的生成模型根据输入的绘画元素,例如天空,生成天空的图片;判别模型用于根据生成模型生成的图片以及真实标注的天空图片区分真实样本和实际图片的分布,并学习真实样本与实际图片的分布,最终确定一张天空图片输出。因此,该天空图片为生成式对抗网络输出的绘画图像。
值得说明的是,相比于采集一次语音信息生成一幅绘画图像,或者对绘画图像进行调整和更新,更加友好的是边采集语音信息边生成绘画图像,向用户实时展示绘画图像。因此,可以对触控终端进行限定以满足该需求。
在可选的实施例中,触控终端包括:全双工通信的触控终端。
全双工通信允许数据在两个方向上同时传输,它在能力上相当于两个单工通信的结合。全双工可以同时实现信号的双向传输,是瞬时同步的。
进一步的,利用全双工通信的触控终端可以通过时序连续对话绘制绘画图像的功能。
当该触控终端为可以实现全双工通信的触控终端时,用户可以根据语音信息实时查看绘画图像,对用户更加友好,优化了用户体验。
除此之外,也可以利用其它生成式对抗网络实现输出绘画图像的功能。
举例而言,其他生成式对抗网络可以是基于对象驱动的专注生成对抗网络(Object Generative Adversarial Networks,简称Obj-GAN)或者是故事-图像序列生成模型(Story Generative Adversarial Networks,简称StoryGAN)。
由于基于对象驱动的专注生成对抗网络和故事-图像序列生成模型合并了前文分解元素的功能,因此可以减少对语音识别处理后在知识图谱中的处理和指代消解处理,但在实际应用需要调整应用场景。
基于对象驱动的专注生成对抗网络建议去除连续对话调整绘画图像的能力,仅适配一句话进行绘制。故事-图像序列生成模型更适合连续图像的顺序绘制,而非单一绘画图像的调整,并且建议连续对话时的每句话都是完整场景。
在生成绘画图像之后,还可以进一步利用触控操作对绘画图像进行调整和优化。
在可选的实施例中,图4示出了生成目标绘画图像的方法的流程示意图,如图4所示,该方法至少包括以下步骤:在步骤S410中,响应作用于图形用户界面上的触控操作,获取触控操作的位置信息。
图形用户界面(Graphical User Interface,简称GUI)是指采用图形方式显示的计算机操作用户界面。
在可选的实施例中,位置信息包括第一位置信息和第二位置信息,图5示出了获取位置信息的方法的流程示意图,如图5所示,该方法至少包括以下步骤:在步骤S510中,响应作用于图形用户界面上的第一触控操作,获取第一触控操作的第一位置信息。
第一触控操作可以是点击操作或者是长按操作等,本示例性实施例对此不做特殊限定。
举例而言,当要调整一绘画元素的目标位置时,第一触控操作可以是点击操作;当要调整绘画元素的目标尺寸时,第一触控操作可以是长按操作。
当然,在不同的调整方式下,第一触控操作也可以是相同的,本示例性实施例对此不做特殊限定。
第一位置信息可以是第一触控操作的作用点的位置信息,也可以是其他表征第一触控操作的位置信息,本示例性实施例对此不做特殊限定。
在步骤S520中,响应与第一触控操作连续的第二触控操作,获取与第二触控操作对应的第二位置信息。
第二触控操作与第一触控操作在时序上是连续的。第二触控操作可以是滑动操作,也可以是其他操作,本示例性实施例对此不做特殊限定。
举例而言,当要调整一绘画元素的目标位置时,第二触控操作可以是一个触控介质作用的滑动操作;当要调整绘画元素的目标尺寸时,第二触控操作可以是两个触控介质进行作用的滑动操作。
当然,在不同的调整方式下,第二触控操作也可以是其他不同的操作,本示例性实施例对此不做特殊限定。
第二位置信息可以是第二触控操作作用终止点的位置信息,也可以是其他表征第二触控操作的位置信息,本示例性实施例对此不做特殊限定。
在本示例性实施例中,分别获取第一触控操作与第二触控操作的第一位置信息和第二位置信息,以便于后续确定目标绘画元素和对目标绘画元素的调整,确定方式简单准确,可实施性极强。
在步骤S420中,根据位置信息调整绘画元素的目标位置和/或目标尺寸。
在可选的实施例中,图6示出了调整目标绘画元素的方法的流程示意图,如图6所示,该方法至少包括以下步骤:在步骤S610中,根据第一位置信息在绘画元素中确定目标绘画元素,并获取目标绘画元素的元素位置信息。
在绘画图像中显示有之前确定的绘画元素,该绘画元素可以有一个,也可以有多个,本示例性实施例对此不做特殊限定。
在得到第一位置信息之后,可以确定与该第一位置信息全部或部分重合的绘画元素为目标绘画元素,也可以有其他第一位置信息确定目标绘画元素的方式或对应关系,本示例性实施例对此不做特殊限定。
进一步的,可以获取目标绘画元素的元素位置信息。元素位置信息可以是在图形用户界面生成绘画图像时保存的绘画元素的位置信息,且该位置信息可以是能够在图形用户界面中表征绘画元素的信息。
举例而言,可以是坐标形式的,也可以是其他形式,本示例性实施例对此不做特殊限定。
在步骤S620中,根据第二位置信息调整元素位置信息得到目标绘画元素的目标位置和/或目标尺寸。
举例而言,当第二位置信息为一个触控介质作用终止点的位置信息,可以确定将目标绘画元素移动到第二位置信息表征的目标位置处;当第二位置信息为两个触控介质作用终止点的位置信息,可以确定将目标绘画元素的尺寸放大或缩小到第二位置信息表征的目标尺寸大小。
值得说明的是,用户可以通过多次的第二触控操作对目标绘画元素的目标位置和目标尺寸进行重复调整,以达到最为符合预期的目标绘画图像。
在本示例性实施例中,通过第二位置信息可以实现对目标绘画元素的目标位置和/或目标尺寸的调整,调整方式简单,并且可以使得目标绘画元素的显示更加贴合用户预期。
在对目标绘画元素调整之后,可以根据调整后的显示效果生成目标绘画图像,以替换原本生成的绘画图像,作为最终的绘画作品。
下面结合一应用场景对本公开实施例中的基于语音交互的绘画方法做出详细说明。
图7示出了应用场景下的基于语音交互的绘画方法的流程示意图,如图7所示,在步骤S710中,采集语音信息,并将语音信息转换为对应的语音流。
举例而言,利用预设的流媒体协议将语音信息转换为语音流。
在步骤S711中,基于语音流,对语音信息进行语音识别处理得到对应的语音文本,亦即文本信息。
举例而言,语音识别处理可以是通过语音识别系统实现的,也可以是根据语音识别算法实现的,还可以是其他方式实现的,本示例性实施例对此不做特殊限定。
在步骤S712中,在预设的知识图谱中确定与文本信息对应的绘画实体以及与绘画实体对应的实体关系。
图8示出了确定绘画实体和实体关系的方法的界面示意图,如图8所示,文本信息为“那种极简样式的大眼睛在漆黑的天空中央”,在绘画领域的指示图谱中可以确定出绘画实体分别为“眼睛”和“天空”。
与绘画实体对应的实体关系为“眼睛的修饰风格为极简”、“眼睛的尺寸为大”、“眼睛的元素类型为人体器官”、“天空的当前颜色为漆黑”和“天空的元素类型为最自然景观”。并且,在“眼睛”和“天空”两个绘画实体之间还存在的实体关系是“眼睛在天空的中央位置”。
在步骤S713中,对绘画实体和实体关系进行指代消解处理得到绘画元素。
值得说明的是,在文本信息中不存在代词的时候可以不进行指代消解处理。
一般的,指代消解处理可以利用预先训练好的指代消解模型实现,该指代消解模型可以是长短期记忆网络模型,也可以是其他模型,本示例性实施例对此不做特殊限定。
在步骤S714中,接收作用于图形用户界面上的第一触控操作以及与第一触控操作连续的第二触控操作。
在步骤S715中,响应作用于图形用户界面上的第一触控操作以及与第一触控操作连续的第二触控操作,获取第一触控操作与第二触控操作的第一位置信息和第二位置信息。
举例而言,第一位置信息和第二位置信息可以是在时序上表达的,亦即第一位置信息和第二位置信息的表达形式可以是[(t1,p1),(t2,p2)]。其中,t1为第一触控操作的作用时间,p1为第一位置信息,可以是利用横纵坐标表示的;t2为第二触控操作的作用时间,p2为第二位置信息,可以是利用横纵坐标表示的。
在步骤S716中,对绘画元素进行语义后处理。
该语义后处理可以是将绘画元素输入至预先训练好的生成式对抗网络中。
每一个绘画元素可以对应生成式对抗网络的神经元。由于该生成式对抗网络是根据训练数据训练得到的,因此训练好的生成式对抗网络可以使绘画元素合理地组合在一个场景里,亦即在场景里插入绘画元素生成绘画图像。
除此之外,语义后处理还可以包括根据第一位置信息和第二位置信息对绘画元素进行调整。
具体的,可以根据第一位置信息在绘画元素中确定目标绘画元素,并根据第二位置信息调整目标绘画元素的元素位置信息得到以目标位置和/或目标尺寸显示的目标绘画元素。
图9示出了在应用场景下调整目标绘画元素的界面示意图,如图9所示,910为根据第一触控操作的第一位置信息确定的目标绘画元素,此时可以采集到在时序上的第一位置信息为t1,(x1,y1)。
然后,根据用户对目标绘画元素“向这边挪一点”的需求,可以作用于第一触控操作连续的第二触控操作,将目标绘画元素移动到另一位置。此时可以采集到在时序上的第一位置信息为t2,(x2,y2)。920为显示在移动后的目标位置上的目标绘画元素。
可以看出,通过触控操作对目标绘画元素的移动或者调整尺寸可以转译成消除绘画图像中的指定元素,并强制插入新元素的过程。因此,对目标绘画元素的调整可以理解为生成一幅目标绘画图像覆盖已生成的绘画图像的过程。
在步骤S717中,在生成绘画图像或者目标绘画图像之后,可以读写有效时间内的图画场景,亦即读取绘画元素的元素位置信息等相关信息保存起来得到图画上下文。
图10示出了在应用场景下生成目标绘画图像的界面示意图,如图10所示,采集到绘图用户的语音信息为“那种极简样式的大眼睛在漆黑的天空中央”。
此时,可以利用可实现全双工通信的触控终端实时产出绘画图像,如绘画图像1010所示,在漆黑的天空中显示极简样式的大眼睛。
图11示出了在应用场景下实现全双工通信的触控终端的处理流程图,如图11所示,该触控终端可以接受绘图用户输入的语音信息,并将语音信息的绘画指令转换为语音流数据。将语音流数据存储在上行消息队列中,并按照当前的绘画指令绘制绘画图像。
在绘制图像的过程中,还可以将用户的多个绘画指令存储在下行消息队列中,并实时将下行消息队列中的语音流数据转换得到绘画指令,绘制绘画图像显示在触控终端上。
除此之外,在修改绘画图像的过程还可以产生音效,以通过音效为绘图用户提供多方位的感觉体验,使绘图用户更易察觉绘画图像的调整和更新。
将用户的绘画指令存储在上行消息队列和下行消息队列中,可以使多个绘画指令叠加,实现连续识别绘图用户意图,连续修改绘画图像的效果。
因此,在已得到图10显示的绘画图像1010之后,用户可以继续语音控制“眼睛再大点、是红色的眼珠”以得到绘画图像1020;进一步的,用户再一次语音控制“这里再加个闪电就行了”得到绘画图像1030。
最终,将绘画图像显示在触控设备上。
为了在实际应用场景中使用,可以考虑减少在应用场景中加上限定。举例而言,场景限定可以是“本次作画仅能结合小于阈值的人脸/水果或其他类型元素”,或者是具体地切入儿童绘本和室内设计等情景,以满足在不同应用场景下的绘制需求。
在应用场景下的基于语音交互的绘画方法中,通过将语音识别处理得到的绘画元素输入至生成式对抗网络中,可以实现输出绘画图像的功能。一方面,通过语音信息绘制绘画图像,为用户提供了一种新的绘画方式,丰富了用户的表达方式;另一方面,帮助用户在无需学习绘制工具的操作方式和掌握绘画知识的前提下完成绘画图像的表达,提高了用户利用绘画表达想法的准确度和贴合性。
此外,在本公开的示例性实施例中,还提供一种基于语音交互的绘画装置。图12示出了基于语音交互的绘画装置的结构示意图,如图12所示,基于语音交互的绘画装置1200可以包括:信息采集模块1210和图像生成模块1220。其中:
信息采集模块1210,被配置为采集语音信息,并对语音信息进行语音识别处理得到绘画元素;
图像生成模块1220,被配置为将绘画元素输入至预先训练好的生成式对抗网络中,以使生成式对抗网络输出绘画图像。
上述基于语音交互的绘画装置的具体细节已经在对应的基于语音交互的绘画方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及基于语音交互的绘画装置1200的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图13来描述根据本发明的这种实施例的电子设备1300。图13显示的电子设备1300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1310执行,使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1321和/或高速缓存存储单元1322,还可以进一步包括只读存储单元(ROM)1323。
存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1324,这样的程序模块1325包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1300也可以与一个或多个外部设备1500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1300交互的设备通信,和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图14所示,描述了根据本发明的实施例的用于实现上述方法的程序产品1400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种基于语音交互的绘画方法,通过触控终端呈现一图形用户界面,其特征在于,所述方法包括:
采集语音信息,并对所述语音信息进行语音识别处理得到绘画元素;
将所述绘画元素输入至预先训练好的生成式对抗网络中,以使所述生成式对抗网络输出绘画图像。
2.根据权利要求1所述的基于语音交互的绘画方法,其特征在于,所述方法还包括:
响应作用于所述图形用户界面上的触控操作,获取所述触控操作的位置信息;
根据所述位置信息调整所述绘画元素的目标位置和/或目标尺寸,以生成与所述绘画图像对应的目标绘画图像。
3.根据权利要求2所述的基于语音交互的绘画方法,其特征在于,所述位置信息包括第一位置信息和第二位置信息;
所述响应作用于所述图形用户界面上的触控操作,获取所述触控操作的位置信息,包括:
响应作用于所述图形用户界面上的第一触控操作,获取所述第一触控操作的所述第一位置信息;
响应与所述第一触控操作连续的第二触控操作,获取与所述第二触控操作对应的所述第二位置信息。
4.根据权利要求3所述的基于语音交互的绘画方法,其特征在于,所述根据所述位置信息调整所述绘画元素的目标位置和/或目标尺寸,包括:
根据所述第一位置信息在所述绘画元素中确定目标绘画元素,并获取所述目标绘画元素的元素位置信息;
根据所述第二位置信息调整所述元素位置信息得到所述目标绘画元素的目标位置和/或目标尺寸。
5.根据权利要求1所述的基于语音交互的绘画方法,其特征在于,所述对所述语音信息进行语音识别处理得到绘画元素,包括:
对所述语音信息进行语音识别处理得到文本信息;
在预设的知识图谱中确定与所述文本信息对应的绘画元素。
6.根据权利要求5所述的基于语音交互的绘画方法,其特征在于,所述在预设的知识图谱中确定与所述文本信息对应的绘画元素,包括:
在预设的知识图谱中确定与所述文本信息对应的绘画实体以及与所述绘画实体对应的实体关系;
对所述绘画实体和所述实体关系进行指代消解处理得到绘画元素。
7.根据权利要求1所述的基于语音交互的绘画方法,其特征在于,所述触控终端包括:全双工通信的触控终端。
8.一种基于语音交互的绘画装置,其特征在于,包括:
信息采集模块,被配置为采集语音信息,并对所述语音信息进行语音识别处理得到绘画元素;
图像生成模块,被配置为将所述绘画元素输入至预先训练好的生成式对抗网络中,以使所述生成式对抗网络输出绘画图像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的基于语音交互的绘画方法。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的基于语音交互的绘画方法。
CN202010724277.4A 2020-07-24 2020-07-24 基于语音交互的绘画方法与装置、存储介质和电子设备 Pending CN113793398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724277.4A CN113793398A (zh) 2020-07-24 2020-07-24 基于语音交互的绘画方法与装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724277.4A CN113793398A (zh) 2020-07-24 2020-07-24 基于语音交互的绘画方法与装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN113793398A true CN113793398A (zh) 2021-12-14

Family

ID=78876806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724277.4A Pending CN113793398A (zh) 2020-07-24 2020-07-24 基于语音交互的绘画方法与装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113793398A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995729A (zh) * 2022-05-11 2022-09-02 联想(北京)有限公司 一种语音绘图方法、装置及计算机设备
CN115830171A (zh) * 2023-02-17 2023-03-21 深圳前海深蕾半导体有限公司 基于人工智能绘画的图像生成方法、显示设备及存储介质
CN116342739A (zh) * 2023-02-22 2023-06-27 深圳前海深蕾半导体有限公司 基于人工智能生成多幅绘画图像的方法、电子设备及介质
CN116824020A (zh) * 2023-08-25 2023-09-29 北京生数科技有限公司 图像生成方法和装置、设备、介质和程序
CN117333580A (zh) * 2023-10-18 2024-01-02 北京阿派朗创造力科技有限公司 机械臂绘画方法、装置、电子设备及存储介质
CN117671073A (zh) * 2024-01-31 2024-03-08 三亚学院 一种基于语言提示的影像风格成像系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382836A (zh) * 2008-09-05 2009-03-11 浙江大学 一个基于多媒介用户交互的电子绘画创作的方法
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
CN109857352A (zh) * 2017-11-30 2019-06-07 富泰华工业(深圳)有限公司 动画显示方法及人机交互装置
CN111324207A (zh) * 2020-02-28 2020-06-23 京东方科技集团股份有限公司 绘画显示方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382836A (zh) * 2008-09-05 2009-03-11 浙江大学 一个基于多媒介用户交互的电子绘画创作的方法
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
CN109857352A (zh) * 2017-11-30 2019-06-07 富泰华工业(深圳)有限公司 动画显示方法及人机交互装置
CN111324207A (zh) * 2020-02-28 2020-06-23 京东方科技集团股份有限公司 绘画显示方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995729A (zh) * 2022-05-11 2022-09-02 联想(北京)有限公司 一种语音绘图方法、装置及计算机设备
CN115830171A (zh) * 2023-02-17 2023-03-21 深圳前海深蕾半导体有限公司 基于人工智能绘画的图像生成方法、显示设备及存储介质
CN116342739A (zh) * 2023-02-22 2023-06-27 深圳前海深蕾半导体有限公司 基于人工智能生成多幅绘画图像的方法、电子设备及介质
CN116342739B (zh) * 2023-02-22 2023-09-26 深圳前海深蕾半导体有限公司 基于人工智能生成多幅绘画图像的方法、电子设备及介质
CN116824020A (zh) * 2023-08-25 2023-09-29 北京生数科技有限公司 图像生成方法和装置、设备、介质和程序
CN117333580A (zh) * 2023-10-18 2024-01-02 北京阿派朗创造力科技有限公司 机械臂绘画方法、装置、电子设备及存储介质
CN117671073A (zh) * 2024-01-31 2024-03-08 三亚学院 一种基于语言提示的影像风格成像系统
CN117671073B (zh) * 2024-01-31 2024-05-17 三亚学院 一种基于语言提示的影像风格成像系统

Similar Documents

Publication Publication Date Title
CN113793398A (zh) 基于语音交互的绘画方法与装置、存储介质和电子设备
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
US11735182B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
CN111933115B (zh) 语音识别方法、装置、设备以及存储介质
CN107609092B (zh) 智能应答方法和装置
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
EP4075430A2 (en) Method and apparatus for speech generation
CN111098312A (zh) 窗口政务服务机器人
JP7247442B2 (ja) ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体
CN112214591A (zh) 一种对话预测的方法及装置
CN113536007A (zh) 一种虚拟形象生成方法、装置、设备以及存储介质
CN109166409B (zh) 一种手语转换方法及装置
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN113421547A (zh) 一种语音处理方法及相关设备
Podder et al. Design of a sign language transformer to enable the participation of persons with disabilities in remote healthcare systems for ensuring universal healthcare coverage
CN107391015B (zh) 一种智能平板的控制方法、装置、设备及存储介质
Wojtanowski et al. “Alexa, Can You See Me?” Making Individual Personal Assistants for the Home Accessible to Deaf Consumers
CN107783650A (zh) 一种基于虚拟机器人的人机交互方法及装置
CN116740238A (zh) 个性化配置方法、装置、电子设备及存储介质
Dokania et al. An assistive interface protocol for communication between visually and hearing-speech impaired persons in internet platform
Saleem et al. Full duplex smart system for Deaf & Dumb and normal people
CN113961680A (zh) 基于人机交互的会话处理方法及装置、介质、电子设备
CN114490967A (zh) 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
Perera et al. Intelligent mobile assistant for hearing impairers to interact with the society in Sinhala language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination