CN113470614A - 语音生成方法、装置和电子设备 - Google Patents
语音生成方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113470614A CN113470614A CN202110732966.4A CN202110732966A CN113470614A CN 113470614 A CN113470614 A CN 113470614A CN 202110732966 A CN202110732966 A CN 202110732966A CN 113470614 A CN113470614 A CN 113470614A
- Authority
- CN
- China
- Prior art keywords
- information
- input
- user
- icon
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000036651 mood Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000009191 jumping Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音生成方法、装置和电子设备。涉及数据处理技术领域,所述方法包括:接收用户对应用图标或应用界面的第一输入;响应于所述第一输入,根据所述第一输入的轨迹信息,确定语义信息;根据所述语义信息生成语音信息。
Description
技术领域
本申请属于数据处理技术领域,具体涉及一种语音生成方法、装置和电子设备。
背景技术
语音消息不仅方便快捷,而且带有语音语调,不会像文字消息一样,容易产生误解,是一种非常便捷的沟通方式。目前,通过电子设备发送语音消息已经成为我们日常生活、工作中不可或缺的沟通方式。
现有的发送语音消息的方法,需要用户在发送语音消息时,先录制语音,再发送出去。但实际生活中,会有一些场景,比如在图书馆等安静的场所,用户不方便发出声音,就无法发送语音消息,但是又想要发送语音消息,这时候用户就需要换一个地方发送语音消息,非常不方便。
发明内容
本申请实施例的目的是提供一种语音生成方法、装置和电子设备,能够解决用户在特定场所不方便输入语音消息的问题。
第一方面,本申请实施例提供了一种语音生成方法,所述方法包括:接收用户对应用图标或应用界面的第一输入;根据所述第一输入的轨迹信息,确定语义信息;根据所述语义信息生成语音信息。
第二方面,本申请实施例提供了一种语音生成装置,所述装置包括:接收单元,用于接收用户对应用图标或应用界面的第一输入;识别单元,用于响应于所述第一输入,根据所述第一输入的轨迹信息,确定语义信息;语音生成单元,用于根据所述语义信息生成语音信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,根据第一输入进行语义信息匹配,从而根据语义信息生成语音信息,能够在用户不发出声音的情况下,生成语音信息,满足用户在安静环境下输入语音信息的需求。
附图说明
图1是本申请实施例提供的一种语音生成方法的步骤流程图;
图2是本申请实施例提供的利用绘制图层进行绘制时的界面示意图;
图3是本申请实施例提供的一实施方式的操作示意图;
图4是本申请实施例提供的另一实施方式的操作示意图;
图5是本申请实施例提供的图标为联系人图标时的操作界面示意图;
图6是本申请实施例提供的选择接受目标的一种实施方式的界面示意图;
图7是本申请实施例提供的选择语音的操作界面示意图;
图8是本申请实施例提供的操作界面为聊天界面的界面示意图;
图9是本申请实施例提供的选择语气的操作界面示意图;
图10是本申请实施例提供的选择语气的另一操作界面示意图;
图11是本申请实施例提供的语音生成装置的结构示意图;
图12是本申请实施例提供的电子设备的结构示意图;
图13是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音生成方法、装置和电子设备进行详细地说明。
如图1所示,图1是本申请实施例提供的一种语音生成方法,该方法可以应用于电子设备中,该电子设备可以为手机、平板电脑、笔记本电脑等。如图1所示,该方法可以包括步骤1100-步骤1300,以下予以详细说明。
步骤1100、接收用户对应用图标或应用界面的第一输入。
本实施例中,第一输入指的是用户在电子设备的屏幕上的操作指令,区别于使用键盘的拼音或手写输入,本实施例中的第一输入为非键盘键入的文字信息,具体可以是手绘的图案或简笔画图形等。该操作指令的操作目标可以是用户在电子屏幕上对应用图标进行的操作,例如在某一图标上进行涂鸦;也可以是用户在屏幕上对天气、时间、记事本等组件的图标进行的操作,例如在天气组件图标上绘制表征跑步动作的绘画;也可以是用户在电子屏幕上对或应用界面进行的操作,具体可以是用户直接在一个打开的界面上的涂鸦,例如在打开的聊天界面上绘制爱心图案;也可以是用户在图标上进行的连续性操作,例如,在一个图标上画一个连续的曲线等方式,在此不做具体限定。
其中,图标可以是应用程序APP的图标,也可以是天气组件、快递组件等组件、也可以是具体的内容图标,如联系人图标等可以出现在桌面上的图标。
步骤1200、响应于第一输入,根据第一输入的轨迹信息,确定语义信息。
本实施例中,用户的每一第一输入均对应有语义信息,该语义信息可以是根据常规操作自动生成,例如,用画笔在日历图标的今日行程上画圈,表示提取今日行程中的信息,从而根据今日行程中的信息生成语义信息;例如,在图标上画一个杯子,表示要喝水。语义信息也可以是用户根据个人喜好自定义设置,例如,连续拖动联系人图标两次对应的语义信息为“喜欢+联系人”,如“喜欢小明”;连续拖动联系人图标三次对应的语义信息为“不喜欢+联系人”,如“不喜欢小明”;又例如,用户在某聊天软件的联系人界面画出“爱心”图案,代表的语义信息为“我喜欢你”。
可选地,第一输入的不同轨迹信息关联不同的语义信息。
步骤1300、根据语义信息生成语音信息。
本实施例中,根据语义信息生成语音信息的方式可以是获取预设音频的声音特征,根据该声音特征将语义信息转化成语音信息,并输出语音信息或语义信息,以供用户确认。
其中,预设音频的音源可以是用户预先录制的本人语音、聊天软件的语音消息、录音机音频、语音包等。其中,为了提高兼容性,音源的文件格式不做限制,在一个可行的实施例中,当音源的文件格式不同时,可以采用解码器将音频文件转换成可以识别的语音格式。
当用户未设置预设音频的情况下,可以向用户提供明星语音包等他人的语音。并生成弹窗提醒,提醒用户在空闲时间设置预设音频。
上述语义信息生成以后,为了保证语音信息的准确度,可以在屏幕上显示即将发送的语义信息具体内容,也可以通过点击即将发送的语音信息试听语音内容,以确保语音信息的准确性,在语音信息准确的情况下,接收用户的发送语音指令,发送该语音信息至指定的联系人。在语音信息不准确的情况下,可以删除当前的语音信息,重新识别第一输入对应的语义信息,并根据语义信息生成新的语音信息,或者,直接对生成的语义信息进行修改。
以上是本实施例根据非文字的第一输入的轨迹信息确定语义信息,从而根据语义信息生成语音信息的实施方式,能够在用户不发出声音的情况下,生成语音信息,满足用户在安静环境下输出语音信息的需求。
下面通过不同的第一输入,对本实施例的具体实施方式进行说明。
在本实施例中的第一输入可以在电子设备的默认桌面上操作,也可以是在打开的程序界面上操作,操作对象可以是图标也可以是空白的界面。
在一个可行的例子中,当接收到的用户的第一输入是对应用图标进行的操作时,也就是说,接收到的第一输入是用户对应用图标的第一输入。此时,接收用户对应用图标的第一输入,包括:接收用户对应用图标的第二输入;响应于第二输入,显示绘制图层,接收用户在绘制图层上输入的轨迹信息。
上述第二输入可以是图层触发指令,该图层触发指令可以是在对安装在终端上的语音生成软件进行触控操作之后生成的图层触发指令。用户在电子屏幕的界面上选择启动语音生成程序,那么系统会在电子设备的显示屏上显示绘制图层,用户通过在该绘制图层的绘制轨迹形成图案,也就是轨迹信息。
其中,参考图2,绘制图层上还显示有绘制工具,该绘制工具包括可选色环、画笔大小、饱和度、不透明度、橡皮擦等绘制工具,以满足用户不同的需求。用户也可以对不同颜色和不同粗细的画笔设置不同的语义信息,以增加趣味性且能够满足设置多种语义信息的需求。
其中,在第一输入是对应用图标进行操作的情况下,用户在绘制图层上输入的轨迹信息包括:用户通过绘制工具在所述绘制图层上对应于固定的应用图标的操作轨迹;或,用户移动应用图标形成的操作轨迹。在应用图标固定的情况下,轨迹信息为用户通过绘制工具在绘制图层上的操作轨迹,该操作轨迹位于图标上方。当然,该操作轨迹在观测角度上可以是完全包含在图标内,也可以是和图标所在区域有交集。
通过不同的操作方式针对图标进行操作,能够增加用户在进行第一输入时的趣味性,且能够满足不同的语义信息需求。
在接收用户对应用图标的第一输入后,根据第一输入的轨迹信息,确定语义信息,包括:根据第一输入的轨迹信息,确定与轨迹信息对应的预设信息;获取应用图标的属性信息;根据轨迹信息对应的预设信息和应用图标的属性信息,确定第一输入对应的语义信息。
其中,与第一输入的操作轨迹对应的预设信息可以是对用户的操作轨迹进行识别,判断所述操作轨迹对应的预设信息,例如,当操作轨迹为一个杯子的图形,则表征该操作轨迹代表“喝水”,该预设信息可以是用户自定义设置,也可以是系统根据常规知识自动识别。
获取应用图标的属性信息,可以包括根据操作轨迹所在区域来获取应用图标,并获取该应用图标信息,需要说明的是,上述实施例中是通过对用户的操作轨迹进行识别,再识别操作轨迹所在的区域内是否存在应用图标,但是在一个可行的例子中,也可以通过先确定应用图标,再检测应用图标所在区域内是否有操作轨迹,再根据应用图标和操作轨迹确定语义信息。
根据轨迹信息对应的预设信息和应用图标的属性信息,确定第一输入对应的语义信息。例如,参考图3,用户在备忘录图标的区域内画了一个杯子,那么,根据操作轨迹对应的预设信息和应用图标的属性信息,确定第一输入对应的语义信息,可以理解为根据用户画出的杯子图形和备忘录图标共同生成“该喝水了”的语义信息。又例如,参考图2,在天气组件上画一个跑步图案,代表“天气很好,去跑步”。也可以在快递组件上画一个跑腿的图案,代表“帮忙去拿一下快递”。
其中,也可以通过对组件上显示的具体信息进行识别,利用组件上显示的具体信息生成语义信息,例如,快递组件上显示“快递已到达快递点A,请在今天取走”,那么,当用户在快递组件上画一个跑腿的图案,生成的语义信息可以是“今天请帮我去快递点A拿一下快递”。
本实施例中,在直接拖动应用图标进行轨迹的绘制的情况下,轨迹信息为用户拖动应用图标形成的操作轨迹。参考图4,用户拖动选中的应用图标,第一输入为拖动该图标画一个圆圈,那么,用户拖动应用图标的操作轨迹即为圆圈。例如该应用图标为运动APP图标,根据用户拖动图标的操作轨迹和应用图标的属性信息,确定第一输入对应的语义信息,也就是根据运动APP图标表征的语义信息“运动”,拖动图标画一个圆圈表征的语义信息“邀请”,可以确定拖动运动APP图标画一个圆圈表征的语义信息为“我们一起去运动”。
以上是用户对应用图标进行非文字的第一输入的两种操作方式,通过绘制轨迹的方式生成语音信息,能够在用户不发出声音的情况下生成语音信息。
另外,为了方便语音信息的发送,本实施例在生成语音信息之后,还包括:检测轨迹信息所覆盖的范围内是否存在联系人图标;在存在联系人图标的情况下,获取与联系人图标对应的联系人信息;显示与该联系人信息对应的聊天界面,发送语音信息至对应的联系人。也就是说,在对应第一输入的图标为联系人图标的情况下,第一输入是直接针对联系人直接操作的,也就是指定了即将生成的语音信息的接收目标是该图标对应的联系人,那么,在响应第一输入的同时,直接进入该联系人的聊天界面,通过识别第一输入的操作轨迹生成语义信息后可以直接发送。例如,参考图5,当用户在联系人图标上的操作轨迹为一个“爱心”时,可以直接跳转到用户与该联系人的聊天界面,生成的相应的语义信息为“爱你”;又例如,在该联系人图标上循环滑动,直接跳转到用户与该联系人的聊天界面后,生成的相应的语义信息为“安慰”。具体的操作轨迹和语义信息可以由用户自定义设置,在此不做具体限定。
根据轨迹信息对应的预设信息和图标的属性信息,确定第一输入对应的语义信息之后,还包括:检测所述轨迹信息所覆盖的范围内是否存在联系人图标,在存在联系人图标的情况下,获取与联系人图标对应的第二语义信息;基于第二语义信息对语义信息进行更新,以使更新后的语义信息里包括联系人。具体可以通过提取联系人图标中包含的联系人信息,将该联系人信息与第一语义信息对应的内容相结合,得到第二语义信息,例如当第一输入对应的语义信息为“取快递”,联系人图标表明该联系人为小明,则第二语义信息为“小明,取快递”。
本实施例通过对第一输入相对应的图标进行识别,当图标为联系人图标时,能够快速进入到聊天界面,使发送语音信息更加简便。
延续上述实施例,在轨迹信息所覆盖的范围内不存在联系人图标的情况下,本实施例还包括:获取联系人列表,并显示联系人列表;接收用户选择的联系人信息,作为语音信息的接收目标。
参考图6,若屏幕的当前界面为主界面,可以通过关联电子设备内的联系人列表,在生成语音信息后,向用户推送联系人列表中的联系人1、联系人2等,以供用户选择接收语音信息的接收目标。
其中,为了增加趣味性,本实施例在轨迹信息所覆盖的范围内不存在联系人图标的情况下,本实施例还包括:获取用户在电子设备的屏幕上的第三输入;响应于所述第三输入,确定与第三输入对应的联系人为语音信息的接收目标;发送语音信息至接收目标。
第三输入可以是用户从电子设备的联系人APP列表内拖动联系人图标至图标所在的区域内,该联系人图标可以完全在图标所在的区域内,也可以是和图标具有交集。响应于该第三输入,确定语音信息的接收目标为该联系人图标对应的联系人,可以通过对该联系人图标进行识别,在用户触发发送指令后,跳转到用户与该联系人的聊天界面,将该语音信息发送至对应联系人。
也就是说,选择联系人的方式可以包括用户自行选择拖动联系人至应用图标所在区域或向用户推送联系人列表或直接选择在具有联系人的聊天界面,能够满足多种场景的用户使用习惯。
其中,在跳转到联系人的聊天界面时,参考图7,可以提供语音选择选项,包括声音1、声音2和声音3,供用户选择语音类别,如自己的声音,或者明星的声音,或者系统自带的模拟机器的声音。
在本实施例中,当接收用户的第一输入是在用户对应用界面的第一输入时,接收用户对应用界面的第一输入包括:接收用户对聊天界面的第一输入。在根据第一输入的轨迹信息确定语义信息之后,根据语义信息生成语音信息,在根据语义信息生成语音信息之后,还包括:发送语音信息至聊天界面对应的联系人。也就是说不需要用户再选择联系人,可以避免只能在桌面上操作,当第一次通过对图标进行操作之后,无需再返回桌面,可以直接在聊天界面内发送语音信息至该联系人。
例如,参考图8,用户正在通过聊天APP和某联系人沟通,用户可以直接在该聊天界面上进行第一输入的操作,如在聊天界面上画一个爱心表征“喜欢”,或者画一个足球表征“踢足球”,在生成语义信息之后,可以直接根据该语义信息生成语音信息,在用户确认语音信息的准确度后,无需用户选择联系人,可直接发送语音信息至该联系人。
本实施例中,为了增加语音信息的真实性,还可以接收用户在电子设备的屏幕上的第三输入;响应于第三输入,确定与第三输入对应的语气信息;根据语气信息更新语音信息。从而使语音信息具有了语气,更加生动,贴近用户想要通过语音表达的情感。
其中,第三输入可以是直接的控制指令,例如,参考图9,在显示界面上提供可选择的多种语气信息,语气1、语气2、语气3等等,如“可爱”、“开心”、“生气”等,在用户选择对应的语气信息之后,将该语气信息和生成的语音信息叠加在一起生成新的语音信息。
参考图10,第三输入也可以是用户在显示界面上的操作轨迹,例如,通过提供的显示面板在显示界面上画出表情图案,根据获取第三输入对应的操作轨迹,在识别该操作轨迹对应的具体表情信息之后,匹配与该表情信息对应的语气信息,例如,用户在操作界面上画出“笑脸”表情图案,识别出该表情图案代表开心,则匹配对应的语气信息为开心,则在根据语义信息得到的语音信息的基础上添加开心的语气,生成具有语气的新的语音信息。用户也可以选择试听该语音信息,确认无误后,发送上述具有语气的新的语音信息。
以上为本实施例为语音信息添加语气的实施方式,能够使模拟生成的语音信息更加生动自然,语音效果更好。
在一个可行的实施方式中,也可以将多种第一输入的操作方式进行结合,以满足更多的用户需求,例如在第一图标上进行操作手势A表示“我在网上买了一些东西”,在第二图标上进行操作手势B表示“你帮我支付一下吧”,将第一图标上进行的操作手势A和在第二图标上进行的操作手势B进行组合,表示“我在网上买了一些东西,你帮我支付一下吧”。另外也可以通过在联系人图标上进行操作手势C,将操作手势A、操作手势B和对应联系人图标手势C三者进行组合,表示“某某,我在网上买了一些东西,你帮我支付一下吧”。以此类推,用户可以根据自己的想法自定义组合,从而表达更加复杂的语音信息。
需要说明的是,本申请实施例提供的语音生成方法,执行主体可以为语音生成装置,或者该语音生成装置中的用于执行语音生成方法的控制模块。本申请实施例中以语音生成装置执行语音生成方法为例,说明本申请实施例提供的语音生成装置。
本实施例提供一种语音生成装置,参考图11,该语音生成装置110包括:
接收单元111,用于接收用户对应用图标或应用界面的第一输入。第一输入指的是用户在电子设备的屏幕上的操作指令,该操作指令可以是用户在电子设备的默认桌面上操作,也可以是在打开的聊天界面上操作,操作对象可以是图标也可以空白的界面。接收单元还用于接收用户在电子设备的屏幕上的第二输入和第三输入。具体的此模块在本实施例中的作用在上述方法实施例中均有描述,在此不再赘述。
识别单元112,用于响应于所述第一输入,根据所述第一输入的轨迹信息,确定语义信息。该模块具体还用于接收图层触发指令,根据所述图层触发指令显示绘制图层;接收用户在所述绘制图层上非文字的轨迹信息;所述轨迹信息包括:在所述图标固定的情况下,用户通过绘制工具在所述绘制图层上的操作轨迹,所述操作轨迹位于所述图标上方;或,在所述图标移动的情况下,用户拖动所述图标形成的操作轨迹。
识别单元112还用于检测所述轨迹信息所覆盖的范围内是否存在联系人图标;在存在所述联系人图标的情况下,获取与所述联系人图标对应的联系人信息;显示与所述联系人信息对应的聊天界面,发送所述语音信息至对应的联系人。
识别单元112还用于在所述轨迹信息所覆盖的范围内不存在所述联系人图标的情况下,获取联系人列表,并输出所述联系人列表;接收用户选择的联系人信息,作为所述语音信息的接收目标。具体的此模块在本实施例中的作用在上述方法实施例中均有描述,在此不在赘述。
语音生成单元113,用于根据语义信息生成语音信息。具体用于获取预设音频的声音特征,根据所述声音特征将所述语义信息转化成语音信息,并在所述输出语音信息或语义信息,以供用户确认。具体的此模块在本实施例中的作用在上述方法实施例中均有描述,在此不在赘述。
本申请实施例中的语音生成装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的语音生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的语音生成装置能够实现图1至图11的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图12所示,本申请实施例还提供一种电子设备1200,包括处理器1201,存储器1202,存储在存储器1202上并可在所述处理器1201上运行的程序或指令,该程序或指令被处理器1201执行时实现上述语音生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图13为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1100等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1100逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,用户输入单元1007,用于接收用户对应用图标或应用界面。
处理器1010,用于响应于所述第一输入,根据所述第一输入的轨迹信息,确定语义信息;根据所述语义信息生成语音信息。
处理器1010,还用于接收用户对所述应用图标的第二输入;响应于所述第二输入,显示绘制图层;接收用户在所述绘制图层上输入的轨迹信息;其中,用户在所述绘制图层上输入的轨迹信息包括:用户通过绘制工具在所述绘制图层上对应于固定的所述应用图标的操作轨迹;或,用户移动所述应用图标形成的操作轨迹。
处理器1010,还用于根据所述第一输入的轨迹信息,确定与所述轨迹信息对应的预设信息;获取所述应用图标的属性信息;根据所述轨迹信息对应的预设信息和所述应用图标的属性信息,确定所述第一输入对应的语义信息。
处理器1010,还用于检测所述轨迹信息所覆盖的范围内是否存在联系人图标;在存在所述联系人图标的情况下,获取与所述联系人图标对应的联系人信息;显示与所述联系人信息对应的聊天界面,发送所述语音信息至对应的联系人。
显示单元1006,用于向用户展示绘制面板以及显示图标等,以供用户进行第一输入的操作。
本申请实施例根据用户对应用图标或应用界面的第一输入进行语义信息匹配,从而根据语义信息生成语音信息的实施方式,能够在用户不发出声音的情况下,生成语音信息,满足用户在安静环境下发送语音信息的需求。
应理解的是,本申请实施例中,输入单元1004可以包括图形处理器(GraphicsProcessing Unit,GPU)10041和麦克风10042,图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1009可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述语音生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种语音生成方法,其特征在于,所述方法包括:
接收用户对应用图标或应用界面的第一输入;
响应于所述第一输入,根据所述第一输入的轨迹信息,确定语义信息;
根据所述语义信息生成语音信息。
2.根据权利要求1所述的一种语音生成方法,其特征在于,所述接收用户对应用界面的第一输入包括:
接收用户对聊天界面的第一输入;
在所述根据所述语义信息生成语音信息之后,所述方法还包括:
发送所述语音信息至所述聊天界面对应的联系人。
3.根据权利要求1所述的一种语音生成方法,其特征在于,所述接收用户对应用图标的第一输入,包括:
接收用户对所述应用图标的第二输入;
响应于所述第二输入,显示绘制图层;
接收用户在所述绘制图层上输入的轨迹信息;
其中,用户在所述绘制图层上输入的轨迹信息包括:用户通过绘制工具在所述绘制图层上对应于固定的所述应用图标的操作轨迹;
或,用户移动所述应用图标形成的操作轨迹。
4.根据权利要求1所述的一种语音生成方法,其特征在于,在接收用户对所述应用图标的第一输入后,根据所述第一输入的轨迹信息,确定语义信息,包括:
根据所述第一输入的轨迹信息,确定与所述轨迹信息对应的预设信息;
获取所述应用图标的属性信息;
根据所述轨迹信息对应的预设信息和所述应用图标的属性信息,确定所述第一输入对应的语义信息。
5.根据权利要求1所述的一种语音生成方法,其特征在于,在接收用户对应用图标的第一输入的情况下,在生成所述语音信息之后,所述方法还包括:
检测所述轨迹信息所覆盖的范围内是否存在联系人图标;
在存在所述联系人图标的情况下,获取与所述联系人图标对应的联系人信息;
显示与所述联系人信息对应的聊天界面,发送所述语音信息至对应的联系人。
6.根据权利要求1所述的一种语音生成方法,其特征在于,所述根据所述语义信息生成语音信息,包括:
获取预设音频的声音特征,根据所述声音特征将所述语义信息转化成语音信息,并输出所述语音信息或语义信息,以供用户确认。
7.根据权利要求1所述的一种语音生成方法,其特征在于,在所述根据所述语义信息生成语音信息之后,所述方法还包括:
接收用户在电子设备的屏幕上的第三输入;
响应于所述第三输入,确定与所述第三输入对应的语气信息;
根据所述语气信息,更新所述语音信息。
8.一种语音生成装置,其特征在于,所述装置包括:
接收单元,用于接收用户对应用图标或应用界面的第一输入;
识别单元,用于响应于所述第一输入,根据所述第一输入的轨迹信息,确定语义信息;
语音生成单元,用于根据所述语义信息生成语音信息。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的语音生成方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的语音生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110732966.4A CN113470614B (zh) | 2021-06-29 | 2021-06-29 | 语音生成方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110732966.4A CN113470614B (zh) | 2021-06-29 | 2021-06-29 | 语音生成方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113470614A true CN113470614A (zh) | 2021-10-01 |
CN113470614B CN113470614B (zh) | 2024-05-28 |
Family
ID=77874061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110732966.4A Active CN113470614B (zh) | 2021-06-29 | 2021-06-29 | 语音生成方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113470614B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979050A (zh) * | 2022-05-13 | 2022-08-30 | 维沃移动通信(深圳)有限公司 | 语音生成方法、语音生成装置和电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1737902A (zh) * | 2005-09-12 | 2006-02-22 | 周运南 | 文字语音互转装置 |
US20120065961A1 (en) * | 2009-03-30 | 2012-03-15 | Kabushiki Kaisha Toshiba | Speech model generating apparatus, speech synthesis apparatus, speech model generating program product, speech synthesis program product, speech model generating method, and speech synthesis method |
CN103761294A (zh) * | 2014-01-16 | 2014-04-30 | 广东小天才科技有限公司 | 基于手写轨迹和语音识别的查询方法及装置 |
CN106445280A (zh) * | 2016-08-31 | 2017-02-22 | 维沃移动通信有限公司 | 一种语音消息的播放方法及移动终端 |
CN106484105A (zh) * | 2016-09-20 | 2017-03-08 | 努比亚技术有限公司 | 一种实现手势识别的方法及装置 |
US10163436B1 (en) * | 2016-09-28 | 2018-12-25 | Amazon Technologies, Inc. | Training a speech processing system using spoken utterances |
WO2019203866A1 (en) * | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Assisting users with efficient information sharing among social connections |
WO2019214456A1 (zh) * | 2018-05-11 | 2019-11-14 | 深圳双猴科技有限公司 | 一种肢体语言翻译系统、方法及服务器 |
CN111966257A (zh) * | 2020-08-25 | 2020-11-20 | 维沃移动通信有限公司 | 信息处理方法、装置及电子设备 |
CN112540821A (zh) * | 2020-12-11 | 2021-03-23 | 维沃移动通信有限公司 | 信息发送方法和电子设备 |
-
2021
- 2021-06-29 CN CN202110732966.4A patent/CN113470614B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1737902A (zh) * | 2005-09-12 | 2006-02-22 | 周运南 | 文字语音互转装置 |
US20120065961A1 (en) * | 2009-03-30 | 2012-03-15 | Kabushiki Kaisha Toshiba | Speech model generating apparatus, speech synthesis apparatus, speech model generating program product, speech synthesis program product, speech model generating method, and speech synthesis method |
CN103761294A (zh) * | 2014-01-16 | 2014-04-30 | 广东小天才科技有限公司 | 基于手写轨迹和语音识别的查询方法及装置 |
CN106445280A (zh) * | 2016-08-31 | 2017-02-22 | 维沃移动通信有限公司 | 一种语音消息的播放方法及移动终端 |
CN106484105A (zh) * | 2016-09-20 | 2017-03-08 | 努比亚技术有限公司 | 一种实现手势识别的方法及装置 |
US10163436B1 (en) * | 2016-09-28 | 2018-12-25 | Amazon Technologies, Inc. | Training a speech processing system using spoken utterances |
WO2019203866A1 (en) * | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Assisting users with efficient information sharing among social connections |
WO2019214456A1 (zh) * | 2018-05-11 | 2019-11-14 | 深圳双猴科技有限公司 | 一种肢体语言翻译系统、方法及服务器 |
CN111966257A (zh) * | 2020-08-25 | 2020-11-20 | 维沃移动通信有限公司 | 信息处理方法、装置及电子设备 |
CN112540821A (zh) * | 2020-12-11 | 2021-03-23 | 维沃移动通信有限公司 | 信息发送方法和电子设备 |
Non-Patent Citations (1)
Title |
---|
张敬林等: "基于熵功率的手写识别系统设计", 电子设计工程, 31 March 2010 (2010-03-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979050A (zh) * | 2022-05-13 | 2022-08-30 | 维沃移动通信(深圳)有限公司 | 语音生成方法、语音生成装置和电子设备 |
CN114979050B (zh) * | 2022-05-13 | 2024-02-27 | 维沃移动通信(深圳)有限公司 | 语音生成方法、语音生成装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113470614B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019752B (zh) | 多方向对话 | |
CN110364148B (zh) | 自然助理交互 | |
CN111480134B (zh) | 注意力感知虚拟助理清除 | |
CN111418007B (zh) | 多轮预制对话 | |
CN107615378B (zh) | 设备语音控制 | |
CN113256768A (zh) | 将文本用作头像动画 | |
US20180316637A1 (en) | Conversation lens for context | |
CN110637339B (zh) | 使用隐式反馈优化数字助理的对话策略决策 | |
CN107491469A (zh) | 智能任务发现 | |
CN107949823A (zh) | 零延迟数字助理 | |
CN110603586B (zh) | 用于校正识别错误的用户界面 | |
CN107924256B (zh) | 表情符号和预设回复 | |
CN111565143B (zh) | 即时通信方法、设备及计算机可读存储介质 | |
Nayebi et al. | An expert-based framework for evaluating ios application usability | |
CN110459211A (zh) | 人机对话方法、客户端、电子设备及存储介质 | |
CN111859119A (zh) | 信息处理方法及装置 | |
CN113470614B (zh) | 语音生成方法、装置和电子设备 | |
CN113010248A (zh) | 操作引导方法、装置和电子设备 | |
CN110622241B (zh) | 用于数字助理的分级信度状态 | |
CN110612566B (zh) | 个人信息的隐私维护 | |
CN113362802A (zh) | 语音生成方法、装置和电子设备 | |
CN116486799A (zh) | 从用户话语生成emoji | |
CN113157966B (zh) | 显示方法、装置及电子设备 | |
CN113779293A (zh) | 图像下载方法、装置、电子设备及介质 | |
CN114816036A (zh) | 一种情绪处理方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |