CN113362802A - 语音生成方法、装置和电子设备 - Google Patents

语音生成方法、装置和电子设备 Download PDF

Info

Publication number
CN113362802A
CN113362802A CN202110598516.0A CN202110598516A CN113362802A CN 113362802 A CN113362802 A CN 113362802A CN 202110598516 A CN202110598516 A CN 202110598516A CN 113362802 A CN113362802 A CN 113362802A
Authority
CN
China
Prior art keywords
information
semantic information
target icon
icon
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110598516.0A
Other languages
English (en)
Inventor
刘彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110598516.0A priority Critical patent/CN113362802A/zh
Publication of CN113362802A publication Critical patent/CN113362802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72466User interfaces specially adapted for cordless or mobile telephones with selection means, e.g. keys, having functions defined by the mode or the status of the device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72469User interfaces specially adapted for cordless or mobile telephones for operating the device by selecting functions from two or more displayed items, e.g. menus or icons

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种语音生成方法、装置和电子设备。涉及数据处理技术领域,所述方法包括:接收用户对目标图标的第一输入;响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息;根据所述语义信息生成语音信息。

Description

语音生成方法、装置和电子设备
技术领域
本申请属于数据处理技术领域,具体涉及一种语音生成方法、装置和电子设备。
背景技术
语音消息不仅方便快捷,而且带有语音语调,不会像文字消息一样,容易产生误解,是一种非常便捷的沟通方式。目前,通过电子设备发送语音消息已经成为我们日常生活、工作中不可或缺的沟通方式。
现有的发送语音消息的方法,需要用户在发送语音消息时,先录制语音,再发送出去。但实际生活中,会有一些场景,比如在图书馆等安静的场所,用户不方便发出声音,就无法发送语音消息,但是又想要发送语音消息,这时候用户就需要换一个地方发送语音消息,非常不方便。
发明内容
本申请实施例的目的是提供一种语音生成方法、装置和电子设备,能够解决用户在特定场所不方便输入语音消息的问题。
第一方面,本申请实施例提供了一种语音生成方法,所述方法包括:
接收用户对目标图标的第一输入;响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息;根据所述语义信息生成语音信息。
第二方面,本申请实施例提供了一种语音生成装置,所述装置包括:接收单元,用于接收用户对目标图标的第一输入;识别单元,用于响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息;语音生成单元,用于根据所述语义信息生成语音信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,根据第一输入进行语义信息匹配,从而根据语义信息生成语音信息的实施方式,能够在用户不发出声音的情况下,生成语音信息,满足用户在安静环境下输出语音信息的需求。
附图说明
图1是本申请实施例提供的一种语音生成方法的步骤流程图;
图2(a)~(e)是本申请实施例提供的一种实施方式的操作步骤示意图;
图3是本申请实施例提供的选择语音的操作界面示意图;
图4是本申请实施例提供的选择联系人的操作界面示意图;
图5是本申请实施例提供的选择语气的操作界面示意图;
图6是本申请实施例提供的语音生成装置的结构示意图;
图7是本申请实施例提供的电子设备的结构示意图;
图8是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音生成方法、装置和电子设备进行详细地说明。
如图1所示,图1是本申请实施例提供的一种语音生成方法,该方法可以应用于电子设备中,该电子设备可以为手机、平板电脑、笔记本电脑等。如图 1所示,该方法可以包括步骤1100-步骤1300,以下予以详细说明。
步骤1100、接收用户对目标图标的第一输入。
本实施例中,目标图标可以是电子设备屏幕上的任意一个或多个图标,第一输入指的是用户在电子设备的屏幕上的操作指令,该操作指令可以是用户在屏幕上对同一图标进行的操作,例如拖动某个图标;也可以是用户在屏幕上对不同的图标进行的操作,例如将多个图标组合成某一形状;也可以是用户在屏幕上方进行的悬浮手势操作,例如,在屏幕上方通过悬浮手势做出拖动图标的动作;也可以是用户对任一图标进行图号标记等方式,在此不做具体限定。
其中,图标可以是应用程序APP的图标,也可以是天气组件、快递组件等组件、也可以是具体的联系人图标等显示具体内容的展示在桌面上的图标,或任一程序的展开列表中的图示信息,例如,聊天程序中的聊天头像。
步骤1200、响应于第一输入,根据目标图标的位置信息,确定语义信息。
本实施例中,第一输入是对目标图标进行的拖动等操作,对应的目标图标的位置会发生改变,因此,本实施例可以通过获取目标图标的位置信息来获取目标图标最终的定位,在用户确定了目标图标的位置之后,根据该目标图标所在的位置以及多个目标图标所组成的图形,来确定语义信息。其中,目标图标所组成不同的图形形状可以分别表征不同的语义信息。该语义信息可以为用户通过电子设备系统自行设置,也就是提前设置好预设语义信息,例如,当多个目标图标组成的图形为矩形,则表征“玩游戏”。在识别到目标图标组成的图形信息之后,为该图形匹配对应的预设语义信息,从而确定第一输入所表征的语义信息。
步骤1300、根据语义信息生成语音信息。
本实施例中,根据语义信息生成语音信息的方式可以是获取预设音频的声音特征,根据该声音特征将语义信息转化成语音信息,并在电子设备的屏幕上显示语音信息或语义信息,以供用户确认。
其中,预设音频的音源可以是用户预先录制的本人语音、聊天APP中的语音消息、录音机音频、语音包等。其中,为了提高兼容性,音源的文件格式不做限制,当音源的文件格式不同时,可以采用解码器将文件转换成可以识别的语音格式。
当用户未设置预设音频的情况下,可以向用户提供明星语音包等他人的语音。并生成弹窗提醒,提醒用户在空闲时间设置预设音频。
上述语义信息生成以后,为了保证语音信息的准确度,可以在屏幕上显示即将发送的语义信息具体内容,也可以通过点击即将发送的语音信息试听语音内容,以确保语音信息的准确性,在语音信息准确的情况下,接收用户的发送语音指令,发送该语音信息至指定的联系人。在语音信息不准确的情况下,可以删除当前的语音信息,重新识别第一输入对应的语义信息,并根据语义信息生成新的语音信息,或者,直接对生成的语义信息进行修改。
以上是本实施例根据第一输入进行语义信息匹配,从而根据语义信息生成语音信息的实施方式,能够在用户不发出声音的情况下,生成语音信息,满足用户在安静环境下输入语音消息,并通过语音信息进行交流的需求。
下面通过不同情况下的第一输入,对本实施例步骤1200响应于第一输入,根据目标图标的位置信息,确定语义信息的具体实施方式进行说明。
在本实施例中第一输入的操作对象可以包括多个目标图标和一个目标图标,也就是说可以通过多个目标图标进行组合操作,也可以针对单个目标图标进行操作。
在第一输入的操作对象包括多个目标图标的情况下,响应于第一输入,根据所述目标图标的位置信息,确定语义信息,包括:根据目标图标的位置信息,获取位于第一区域内的目标图标所组成的图形信息;将与图形信息对应的预设语义信息确定为语义信息。
在一个可行的例子中,在用户进行第一输入的同时,也就是用户操作目标图标的同时,获取对应图标的位置信息,获取该图标最终的定位,以此获取每一个第一区域内的目标图标的定位,以判断最终第一区域内的目标图标所形成的图形信息。其中,第一区域用于确定一个语义信息或者一个语义信息的主体,其中,第一区域内的每一目标图形具有一固定位置,从而保证多个目标图标形成的图形所代表的语义信息具有唯一性,保证识别的准确性。也就是说,依次选取多个目标图标,通过拖动图标的方式,将多个目标图标按照设定的形状排列在第一区域内,每一个不同的设定的形状表征不同的语义信息。例如,将多个目标图标排列成正方形,代表“喝咖啡”,将多个目标图标排列成矩形,代表“出去跑步”。反之,可以理解为,每一设定的形状在第一区域内的目标图标的放置位为固定位置。
本实施例中,第一区域内包括至少两个目标图标,以组成设定的形状,目标图标也可以是任意一种类型的APP图标。
以上为本实施例通过对第一区域内的多个目标图标进行组合,无需区分目标图标的类型,能够快速组成特定的图形,以表征不同的语义信息,操作简洁,能够快速生成语音信息。
在一个可行的实施例中,还可以根据不同的目标图标自身属性的不同来表达不同的语义信息,具体地,获取位于第一区域内的每一目标图标的属性信息;根据属性信息以及第一区域内的目标图标所组成的图形信息,匹配对应的预设语义信息,确定语义信息。将对应的预设语义信息确定为语义信息。
也就是说,在上一实施例中,仅通过多个目标图标组成的图形信息来确定语义信息,本实施例中,还可以通过同一位置上的不同的目标图标来确定语义信息。
例如,在多个图标形成的图形为正方形的情况下,当正方形的第一放置位放置的目标图标为第一APP时,代表的语义信息为“喝咖啡”,当第一放置位放置的目标图标为第二APP时,代表的语义信息为“喝水”。具体的设定的形状所代表的语义信息,以及目标图标在不同的放置位代表不同的语义信息可以通过用户自定义设置。
以上是本实施例结合目标图标自身的属性信息来生成语义信息的方法,能够根据每一目标图标自身的特定属性覆盖更多的语义信息。
在一个可行的实施例中,可能存在频繁用到某一语义信息,或者将同一个语义信息发送至不同的人,因此,本实施例还包括:根据目标图标的位置信息,获取位于第二区域内的目标图标的属性信息;将位于第二区域内的目标图标的属性信息与预设语义信息相匹配,确定第二语义信息;根据第一语义信息和第二语义信息,确定语义信息;其中,第一语义信息为根据位于第一区域内的目标图标所表征的语义信息。将与位于第二区域内的目标图标的属性信息匹配的预设语义信息确定为第二语义信息,进一步根据第一语义信息和第二语义信息确定语义信息。
也就是说,根据目标图标的位置信息判断第二区域内是否存在目标图标,在第二区域内存在目标图标的情况下,获取对应的目标图标的属性信息,根据位于第二区域内的目标图标的属性信息,匹配对应的预设语义信息,从而确定第二语义信息,第二语义信息也就是第二区域内的目标图标所对应的预设语义信息,再结合第一语义信息和第二语义信息生成完整的语义信息。根据目标图标的位置信息或属性信息,获取相匹配的预设语义信息,从而将匹配的预设语义信息确定为语义信息。
例如,当第一区域内的目标图标所表征的信息为“玩游戏”,而其中一个目标图标为备忘录图标,备忘录图标上显示的内容为“马上要开会”,那么结合备忘录图标和第一区域内的目标图标所表征的信息生成语义信息“我马上要开会,不能和你玩游戏”。
本实施例中,第二区域内的目标图标的放置位可以理解为与第一区域内目标图形的固定位置相对的可移动位,即可以通过对第二区域内的目标图标进行任意位置和任意图标的拖拽,以实现表达更多语义的效果。需要说明的是,第二区域和第一区域为两个独立的区域,改变第一区域内的目标图标不会对第二区域所表征的语义信息产生影响,可以通过更换第二区域内的目标图标来对语音信息的内容进行调整。例如,当第一区域内的目标图标所表征的语义信息为“写作业”时,可以通过在第二区域内放置一目标图标,表征“去图书馆”,那么,第一区域和第二区域内的语义信息共同组成的语义信息为“去图书馆写作业”。也可以在第一区域内的目标图标代表的语义信息为祝福语时,通过更换第二区域内的目标图标,达到替换不同的称呼、不同的修饰词的效果。
以上是第一输入包括对多个目标图标进行组合操作的情形,可以通过第一区域内目标图标组成的形状不同、同一形状不同的图标放置位上目标图标的不同,以及第一区域内放置的目标图标的不同,来表征不同的语义信息,能够涵盖丰富的语义信息。用户在放置好每一目标图标后,可以通过勾选的方式以确定最终用来生成语音信息的目标图标。
需要说明的是,上述实施例是第一区域内存在多个目标图标的情况,在一个可行的例子中,第一输入也可能只包括一个目标图标,在该情况下,该目标图标位于第一区域内,响应于第一输入,根据目标图标的位置信息,确定语义信息,包括:获取目标图标的位置信息以及目标图标的属性信息;根据目标图标的位置信息或属性信息,匹配对应的预设语义信息,确定语义信息。
也就是说可以根据该目标图标的具体位置信息,或者该目标图标的具体功能,来确定语义信息。例如,当该目标图标在第二区域的第一位置时,表征的语义信息为“看书”,当该目标图标在第二区域的第二位置时,表征的语义信息为“跑步”。也可以是,当第二区域的第一位置的目标图标为第一图标时,表征的语义信息为“跑步”,当第二区域的第一位置的目标图标为第二图标时,表征的语义信息为“看书”。能够简化操作用户的第一输入,使操作更加便捷。
本实施例中,在确定语义信息之前,所述方法还包括:检测第一区域内是否存在附加图标信息;在第一区域内存在附加图标信息的情况下,根据附加图标信息的属性信息,确定第三语义信息;根据第一语义信息、第二语义信息和第三语义信息,确定语义信息;其中,附加图标信息包括联系人信息。可选地,联系人信息可以是联系人图标。
也就是说,在第一区域或第二区域内的目标图标确定之后,还可以通过拖动附加图标至第一区域或第二区域所在的区域范围,根据附加图标所对应的预设语义信息确定第三语义信息,结合第一语义信息、第二语义信息和第三语义信息生成语义信息。例如,当第二语义信息和第三语义信息表征的语义信息为“我在开会,不能跟你打游戏”,那么当用户拖动联系人小明的图标至第一区域或第二区域后,生成的语义信息为“小明,我在开会,不能跟你打游戏”。
可选地,可以直接将结合第一语义信息、第二语义信息和第三语义信息生成语义信息发送给联系人,如直接将内容为“小明,我在开会,不能跟你打游戏”的语音信息发送给小明,可以更加直接方便的生成并发送语音信息。
也可以拖动表情包等附件至第一区域或第二区域内,根据读取表情包所表征的意思,生成对应的语义,以增加语音消息的趣味性。
下面通过附图对本实施例的操作过程进行描述,参考图2,图2(a)为第一区域目标图标的放置示意图,图中第一区域内设置有多个目标图标,多个目标图标被排列成正方形,表征的语义信息为“玩游戏”。
图2(b)为第一区域和第二区域的位置关系示意图,其中,第二区域内放置有一个目标图标,假设该目标图标表征的语义信息为时间“8点”。
图2(c)为目标图标被选中的界面示意图,选中目标图标,以根据选中的目标图标生成对应的语义信息,例如“8点一起玩游戏”。同时,若第一区域内的一个目标图标为备忘录图标,备忘录图标上显示的内容为“8点要开会”,那么结合备忘录图标和第一区域内的目标图标所表征的信息生成语义信息“我8 点要开会,不能和你玩游戏”。
图2(d)为选择联系人的界面示意图,可以切换到聊天界面选中联系人图标,将图标拖动至图2(e)中第一区域所在的位置,假设该联系人1为小明,此时生成的语义信息为“小明,我8点要开会,不能和你玩游戏”。
如上述步骤1300中所述,为了保证语音信息的准确度,可以在屏幕上显示即将发送的语义信息具体内容,也可以通过点击即将发送的语音信息试听语音内容,以确保语音信息的准确性。在确认语音信息为用户想要发送的语音信息之后,可以接收用户在电子设备的屏幕上的第二输入;响应于所述第二输入,确定语音信息的接收目标;发送语音信息至接收目标。
例如,参考图2(e),第二输入可以是用户从联系人列表拖动联系人图标至目标图标所在的区域内,该联系人图标可以完全在目标图标所在的区域内,也可以是和目标图标具有交集。响应于该第二输入,确定语音信息的接收目标为该联系人图标对应的联系人,可以通过对该联系人图标进行识别,在用户触发发送指令后,跳转到用户与该联系人的聊天界面,将该语音信息发送至对应联系人。
其中,在跳转到联系人的聊天界面时,参考图3,可以提供语音选择选项,包括声音1、声音2和声音3,供用户选择语音类别,如自己的声音,或者明星的声音,或者系统自带的模拟机器的声音。
参考图4,在屏幕的主界面上,也可以关联电子设备内的联系人列表,在生成语音信息后,向用户推送联系人列表中的联系人1、联系人2等,以供用户选择接收语音信息的接收目标。
也就是说,选择联系人的方式可以包括用户自行选择拖动联系人至目标图标所在区域或向用户推送联系人列表,能够满足多种场景的用户喜好。
本实施例中,为了增加语音信息的真实性,还可以接收用户在电子设备的屏幕上的第三输入;响应于第三输入,确定与第三输入对应的语气信息;根据语气信息和语音信息生成新的语音信息。从而使语具有了语气,更加生动,贴近用户想要通过语音表达的情感。
其中,第三输入可以是直接的控制指令,例如,参考图5,在显示界面上提供可选择的多种语气信息,语气1、语气2、语气3等等,如“可爱”、“开心”、“生气”等,在用户选择对应的语气信息之后,将该语气信息和生成的语音信息叠加在一起生成新的语音信息。用户也可以选择试听该语音信息,确认无误后,发送上述具有语气的新的语音信息。
以上为本实施例为语音信息添加语气的实施方式,能够使模拟生成的语音信息更加生动自然,语音效果更好。
需要说明的是,本申请实施例提供的语音生成方法,执行主体可以为语音生成装置,或者该语音生成装置中的用于执行语音生成方法的控制模块。本申请实施例中以语音生成装置执行语音生成方法为例,说明本申请实施例提供的语音生成装置。
本实施例提供一种语音生成装置,参考图6,该语音生成装置120包括:
接收单元121,用于接收用户对目标图标的第一输入,接收单元121还用于接收用户在电子设备的屏幕上的第二输入和第三输入。第一输入指的是用户在电子设备的屏幕上的操作指令,该操作指令可以是用户在屏幕上对同一图标进行的操作,例如拖动某个图标;也可以是用户在屏幕上对不同的图标进行的操作,例如将多个图标组合成某一形状;也可以是用户在屏幕上方进行的悬浮手势操作,例如,在屏幕上方通过悬浮手势做出拖动图标的动作。具体的此模块在本实施例中的作用在上述方法实施例中均有描述,在此不在赘述。
识别单元122,用于响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息,该模块具体还用于根据所述目标图标的位置信息,获取位于第一区域内的目标图标所组成的图形信息;将与所述图形信息与对应的预设语义信息确定为语义信息。
该模块具体还用于获取位于第一区域内的每一目标图标的属性信息;根据所述属性信息以及所述第一区域内的目标图标所组成的图形信息,匹配对应的预设语义信息,确定语义信息。
识别单元122还用于在所述第一输入的操作对象包括多个目标图标的情况下,根据所述目标图标的位置信息,获取位于第二区域内的目标图标的属性信息;将所述位于第二区域内的目标图标的属性信息与预设语义信息相匹配,确定第二语义信息;根据第一语义信息和所述第二语义信息,确定语义信息;其中,所述第一语义信息为根据所述位于第一区域内的目标图标所表征的语义信息。具体的此模块在本实施例中的作用在上述方法实施例中均有描述,在此不在赘述。
识别单元122还用于检测所述第一区域或第二区域内是否存在附加图标信息;在存在附加图标信息的情况下,根据附加图标信息的属性信息,确定第三语义信息;根据所述第一语义信息、第二语义信息和第三语义信息,确定语义信息;其中,附加图标信息包括联系人信息。
语音生成单元123,用于根据语义信息生成语音信息。具体用于获取预设音频的声音特征,根据所述声音特征将所述语义信息转化成语音信息,并在所述电子设备的屏幕上显示所述语音信息或语义信息,以供用户确认。具体的此模块在本实施例中的作用在上述方法实施例中均有描述,在此不在赘述。
本申请实施例中的语音生成装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer, UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的语音生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的语音生成装置能够实现图1至图5的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图7所示,本申请实施例还提供一种电子设备1300,包括处理器1301,存储器1302,存储在存储器1302上并可在所述处理器1301上运行的程序或指令,该程序或指令被处理器1301执行时实现上述语音生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图8为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元 1007、接口单元1008、存储器1009、以及处理器1010等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,用户输入单元1007,用于接收用户在电子设备的屏幕上的第一输入;处理器1010,用于响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息;根据所述语义信息生成语音信息。
处理器1010,还用于在所述目标图标包括多个的情况下,根据所述目标图标的位置信息,获取位于第一区域内的目标图标所组成的图形信息;将所述图形信息与对应的预设语义信息相匹配,确定语义信息。
处理器1010,还用于在所述目标图标包括多个的情况下,获取位于第一区域内的每一目标图标的属性信息;根据所述属性信息以及所述第一区域内的目标图标所组成的图形信息,匹配对应的预设语义信息,确定语义信息。
处理器1010,还用于根据目标图标的位置信息,获取位于第二区域内的目标图标的属性信息;将位于第二区域内的目标图标的属性信息与预设语义信息相匹配,确定第二语义信息;根据第一语义信息和第二语义信息,确定语义信息;其中,第一语义信息为根据所述位于第一区域内的目标图标所表征的语义信息。
处理器1010,还用于在目标图标包括一个的情况下,一个目标图标位于所述第一区域内,响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息,包括:获取所述目标图标的位置信息以及所述目标图标的属性信息;根据所述目标图标的位置信息或属性信息,匹配对应的预设语义信息,确定语义信息。
显示单元1006,用于显示目标图标,以及展示语音信息或语义信息,以供用户确认。
本申请实施例根据第一输入进行语义信息匹配,从而根据语义信息生成语音信息的实施方式,能够在用户不发出声音的情况下,生成语音信息,满足用户在安静环境下发送语音信息的需求。
应理解的是,本申请实施例中,输入单元1004可以包括图形处理器 (GraphicsProcessing Unit,GPU)10041和麦克风10042,图形处理器10041 对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1009可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述语音生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (11)

1.一种语音生成方法,其特征在于,所述方法包括:
接收用户对目标图标的第一输入;
响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息;
根据所述语义信息生成语音信息。
2.根据权利要求1所述的一种语音生成方法,其特征在于,在所述目标图标包括多个的情况下,所述响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息,包括:
根据所述目标图标的位置信息,获取位于第一区域内的目标图标所组成的图形信息;
将与所述图形信息对应的预设语义信息确定为语义信息。
3.根据权利要求2所述的一种语音生成方法,其特征在于,在所述目标图标包括多个的情况下,所述响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息,还包括:
获取位于第一区域内的每一目标图标的属性信息;
根据所述属性信息以及所述第一区域内的目标图标所组成的图形信息,匹配对应的预设语义信息,确定语义信息。
4.根据权利要求2或3所述的一种语音生成方法,其特征在于,在所述第一输入的操作对象包括多个目标图标的情况下,所述响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息,还包括:
根据所述目标图标的位置信息,获取位于第二区域内的目标图标的属性信息;
将所述位于第二区域内的目标图标的属性信息与预设语义信息相匹配,确定第二语义信息;
根据第一语义信息和所述第二语义信息,确定语义信息;
其中,所述第一语义信息为根据所述位于第一区域内的目标图标所表征的语义信息。
5.根据权利要求1所述的一种语音生成方法,其特征在于,在所述目标图标包括一个的情况下,所述目标图标位于第一区域内,响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息,包括:
获取所述目标图标的位置信息以及所述目标图标的属性信息;
根据所述目标图标的位置信息或属性信息,匹配对应的预设语义信息,确定语义信息。
6.根据权利要求4所述的一种语音生成方法,其特征在于,所述确定语义信息,还包括:
检测所述第一区域或第二区域内是否存在附加图标信息;
在存在附加图标信息的情况下,根据附加图标信息的属性信息,确定第三语义信息;
根据所述第一语义信息、第二语义信息和第三语义信息,确定语义信息;
其中,附加图标信息包括联系人信息。
7.根据权利要求1所述的一种语音生成方法,其特征在于,所述根据所述语义信息生成语音信息,包括:
获取预设音频的声音特征,根据所述声音特征将所述语义信息转化成语音信息,并输出所述语音信息或语义信息,以供用户确认。
8.根据权利要求1所述的一种语音生成方法,其特征在于,在根据所述语义信息生成语音信息之后,所述方法还包括:
接收用户在电子设备的屏幕上的第三输入;
响应于所述第三输入,确定与所述第三输入对应的语气信息;
根据所述语气信息和语音信息生成新的语音信息。
9.一种语音生成装置,其特征在于,所述装置包括:
接收单元,用于接收用户对目标图标的第一输入;
识别单元,用于响应于所述第一输入,根据所述目标图标的位置信息,确定语义信息;
语音生成单元,用于根据所述语义信息生成语音信息。
10.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-8任一项所述的语音生成方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-8任一项所述的语音生成方法的步骤。
CN202110598516.0A 2021-05-28 2021-05-28 语音生成方法、装置和电子设备 Pending CN113362802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110598516.0A CN113362802A (zh) 2021-05-28 2021-05-28 语音生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110598516.0A CN113362802A (zh) 2021-05-28 2021-05-28 语音生成方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN113362802A true CN113362802A (zh) 2021-09-07

Family

ID=77528404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110598516.0A Pending CN113362802A (zh) 2021-05-28 2021-05-28 语音生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113362802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489420A (zh) * 2022-01-14 2022-05-13 维沃移动通信有限公司 语音信息发送方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184030A1 (en) * 2001-06-04 2002-12-05 Hewlett Packard Company Speech synthesis apparatus and method
US20130065204A1 (en) * 2011-04-27 2013-03-14 Heidi LoStracco Augmentative and alternative communication language system
CN104106113A (zh) * 2012-02-16 2014-10-15 大陆汽车有限责任公司 用于使数据列表语音化的方法与语音控制的用户界面
CN105787005A (zh) * 2016-02-22 2016-07-20 腾讯科技(深圳)有限公司 信息处理方法及移动终端
CN108228699A (zh) * 2016-12-22 2018-06-29 谷歌有限责任公司 协作性语音控制装置
WO2018225048A1 (en) * 2017-06-09 2018-12-13 Floris Federica A synthetic speech generation method for generating voice messages
CN110248019A (zh) * 2013-06-08 2019-09-17 苹果公司 用于启用语音的对话界面的方法、计算机存储介质和设备
CN110581794A (zh) * 2018-06-11 2019-12-17 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质及计算机设备
US20200159838A1 (en) * 2018-11-16 2020-05-21 Microsoft Technology Licensing, Llc System and management of semantic indicators during document presentations
CN112383662A (zh) * 2020-11-09 2021-02-19 维沃移动通信有限公司 信息显示方法、装置和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184030A1 (en) * 2001-06-04 2002-12-05 Hewlett Packard Company Speech synthesis apparatus and method
US20130065204A1 (en) * 2011-04-27 2013-03-14 Heidi LoStracco Augmentative and alternative communication language system
CN104106113A (zh) * 2012-02-16 2014-10-15 大陆汽车有限责任公司 用于使数据列表语音化的方法与语音控制的用户界面
CN110248019A (zh) * 2013-06-08 2019-09-17 苹果公司 用于启用语音的对话界面的方法、计算机存储介质和设备
CN105787005A (zh) * 2016-02-22 2016-07-20 腾讯科技(深圳)有限公司 信息处理方法及移动终端
CN108228699A (zh) * 2016-12-22 2018-06-29 谷歌有限责任公司 协作性语音控制装置
WO2018225048A1 (en) * 2017-06-09 2018-12-13 Floris Federica A synthetic speech generation method for generating voice messages
CN110581794A (zh) * 2018-06-11 2019-12-17 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质及计算机设备
US20200159838A1 (en) * 2018-11-16 2020-05-21 Microsoft Technology Licensing, Llc System and management of semantic indicators during document presentations
CN112383662A (zh) * 2020-11-09 2021-02-19 维沃移动通信有限公司 信息显示方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程风;翟超;吕志;余子安;: "基于语音识别技术的智能家居主控设计", 工业控制计算机, no. 05, 25 May 2018 (2018-05-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489420A (zh) * 2022-01-14 2022-05-13 维沃移动通信有限公司 语音信息发送方法、装置及电子设备

Similar Documents

Publication Publication Date Title
JP6530011B2 (ja) インテリジェントタスクディスカバリ
CN110276007B (zh) 用于提供信息的装置和方法
US10642574B2 (en) Device, method, and graphical user interface for outputting captions
US8751971B2 (en) Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface
US9542949B2 (en) Satisfying specified intent(s) based on multimodal request(s)
CN110364148A (zh) 自然助理交互
DE112016001104T5 (de) Aktivierung von virtuellen Assistenten
CN112083815A (zh) 消息中的预制回答
US20130159853A1 (en) Managing playback of supplemental information
CN106233237B (zh) 一种处理与应用关联的新消息的方法和装置
CN110603586B (zh) 用于校正识别错误的用户界面
US11693553B2 (en) Devices, methods, and graphical user interfaces for automatically providing shared content to applications
US20230133548A1 (en) Devices, Methods, and Graphical User Interfaces for Automatically Providing Shared Content to Applications
KR20240027140A (ko) 통신 세션에서의 디지털 어시스턴트 상호작용
CN112817676A (zh) 信息处理方法和电子设备
CN107111415B (zh) 用于移动应用接口元素的设备、方法和图形用户界面
CN113010248A (zh) 操作引导方法、装置和电子设备
CN113362802A (zh) 语音生成方法、装置和电子设备
CN112306450A (zh) 信息处理方法、装置
CN113470614B (zh) 语音生成方法、装置和电子设备
US20230164296A1 (en) Systems and methods for managing captions
CN116486799A (zh) 从用户话语生成emoji
CN113485600A (zh) 歌单的分享方法、装置和电子设备
CN113157966A (zh) 显示方法、装置及电子设备
CN112783386A (zh) 页面跳转方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination