CN108566483A - 一种录入语音的展示方法、装置、终端及存储介质 - Google Patents
一种录入语音的展示方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN108566483A CN108566483A CN201810225064.XA CN201810225064A CN108566483A CN 108566483 A CN108566483 A CN 108566483A CN 201810225064 A CN201810225064 A CN 201810225064A CN 108566483 A CN108566483 A CN 108566483A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- voice signal
- voice
- typing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72439—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72469—User interfaces specially adapted for cordless or mobile telephones for operating the device by selecting functions from two or more displayed items, e.g. menus or icons
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例公开了一种录入语音的展示方法、装置、终端及存储介质,所述方法包括:根据语音录入指令,显示三维静止录入背景;实时捕捉用户录入的语音信号;根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像;在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状,实现以三维粒子群图像的方式显示实时捕捉的用户录入的语音信号,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
Description
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种录入语音的展示方法、装置、终端及存储介质。
背景技术
随着智能手机、平板电脑以及PC(Personal Computer,个人计算机)等各种终端的智能化发展,智能电视所能够实现的功能也空前丰富,各种功能的应用层出不穷。
对于终端中的部分应用,常常需要输入一定的内容。传统的输入方式是通过终端中设置的输入法按键的方法输入文本内容。通过输入法按键的输入方式虽然较为成熟,但输入效率比较低。在终端的智能化发展阶段,随着终端上运行的应用越加丰富,需要输入数据的情况越来越多,传统的输入方式效率低下,已经不能满足多种应用的输入需求。近年来,通过语音输入的操作方式应用越来越普及,终端上的应用软件授予权限后,可以访问终端中的麦克风,并利用音频录制接口获取麦克风录入的声音。具有语音录入功能的应用软件在与用户交互时,可以通过语音动画的形式,如流动的声波,向用户实时反馈语音录入状态,从而让用户直观地了解目前正处于语音录入状态。
但是,现有的技术中通常采用流动的声波展示出类似声音频谱的涟漪效果,而在视觉上一直流动的声波往往会给用户造成一种无形的压力感,进而造成较差的用户体验。
发明内容
本发明实施例提供一种录入语音的展示方法、装置、终端及存储介质,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
第一方面,本发明实施例提供了一种录入语音的展示方法,包括:
根据语音录入指令,显示三维静止录入背景;
实时捕捉用户录入的语音信号;
根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像;
在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
第二方面,本发明实施例还提供了一种录入语音的展示装置,包括:
背景显示模块,用于根据语音录入指令,显示三维静止录入背景;
信号捕捉模块,用于实时捕捉用户录入的语音信号;
图像构造模块,用于根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像;
图像显示模块,用于在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
第三方面,本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述所涉及的任一所述的录入语音的展示方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所涉及的任一所述的录入语音的展示方法。
本发明实施例通过在三维静止录入背景中,以三维粒子群图像的方式显示实时捕捉的用户录入的语音信号,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
附图说明
图1a是本发明实施例一提供的一种录入语音的展示方法的流程图;
图1b是现有技术中的一种语音录入背景的效果示意图;
图1c是本发明实施例一提供的一种三维静止录入背景的示意图;
图1d是本发明实施例一提供的一种三维粒子图像的效果示意图;
图1e是本发明实施例一提供的一种三维语音录入背景的示意图;
图2a是本发明实施例二提供的一种录入语音的展示方法的流程图;
图2b是本发明实施例二提供的一种二维波动图像的示意图;
图3是本发明实施例三提供的一种录入语音的展示装置的示意图;
图4为本发明实施例四提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或S)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤(S)。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1a是本发明实施例一提供的一种录入语音的展示方法的流程图,图1b是现有技术中的一种语音录入背景的效果示意图,本实施例可适用于实时显示录入的语音的情况,该方法可以由录入语音的展示装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在终端中,通过与用户录入语音的功能配合使用,该方法包括如下操作:
S110、根据语音录入指令,显示三维静止录入背景。
其中,语音录入指令可以通过终端中应用程序的功能界面中提供的语音输入功能的虚拟按钮获取,例如,手机百度搜索界面中的麦克风标志虚拟按钮。另外,语音录入指令也可以通过终端设置的按键按照预设规则被触发时获取,例如,长按终端中的home键启动语音录入功能。三维静止录入背景是一种从三维角度显示的静止背景,与现有的语音录入背景不同,在没有检测到语音录入时,三维静止录入背景没有任何波形显示。如图1b所示,现有的语音录入背景在没有检测到语音录入功能时,同样以仿声音频谱的流动波形进行显示,这就会给用户造成一种无形的压力感,使得用户会给自己类似于“我必须应该说点什么”的心理暗示,从而造成较差的用户体验。
图1c是本发明实施例一提供的一种三维静止录入背景的示意图,如图1c所示,本发明实施例中的三维静止录入背景虽然没有仿声音频谱的流动波形,但是在背景中显示有根据录入语音可以上下波动的粒子,能够让用户通过背景中粒子的波动情况直观了解语音录入的情况。需要说明的是,图1c只是示例性地示出了包含粒子群区域的封闭四边形的轮廓,虽然图1c中未示出,但实际在图1c中四边形的内部同样均匀分布着粒子。
S120、实时捕捉用户录入的语音信号。
本发明实施例中,在终端的语音录入功能被启动后,展示三维静止录入背景的语音功能界面,并启动终端中的音频采集装置,例如手机上的麦克风等,以实时获取用户录入的语音信号。
S130、根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像。
其中,语音特征信息包括语音的声强、响度、音高、音色、音频以及信噪比等多种特征信息,在此不一一列举。粒子群是由三维静止录入背景中的各个粒子组成的群体,粒子群图像是由三维静止录入背景中的各个粒子根据录入的语音信号匹配呈现的三维波形图像。
在本发明实施例中,构造三维粒子群图像时,需要以当前用户录入的语音信号的语音特征信息为依据,使得三维粒子群图像能够与语音特征信息相匹配,以实现实时反映用户当前录入的语音情况。
在本发明的一个可选实施例中,所述语音信号的语音特征信息包括下述至少一项:所述语音信号的信号频率、所述语音信号的音色波形,以及所述语音信号的响度。
其中,语音信号的信号频率即语音特征信息中的音频,通常在20-20000Hz范围之内。音色又称音品,是听觉感到的声音的特色。音色主要决定于声音的频谱,即基音和各次谐音的组成,也和波形、声压及声音的时间特性有关系,因此,可以根据音色确定当前语音信号的波形形状。响度是一种主观心理量,是人类主观感觉到的声音强弱程度。一般来说,语音信号的信号频率一定时,声强越强,响度也越大。但是响度与频率有关,相同的声强,频率不同时,响度也可能不同。
S140、在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
其中,显示粒子是在三维静止录入背景中构成三维粒子群图像的活动粒子,可以上下浮动。设定形状可以是正方形、圆形、矩形、菱形以及其他各种的多边形等形状,可以根据实际需求以及审美角度对设定形状进行设计,本发明实施例对此并不进行限制。
相应的,根据语音信号的语音特征信息,构造与语音信号匹配的三维粒子群图像后,即可将三维粒子图像在三维静止录入背景中进行实时、动态地显示。图1d是本发明实施例一提供的一种三维粒子图像的效果示意图,需要说明的是,为了简化图形,使图形显得简洁而又重点突出,图1d并没有绘制出所有的粒子群,只是通过虚方框的形式示出了部分粒子(分布在虚方框的线条上),实际上,在图1d中的虚方框内部仍然包括与线条上相同的粒子。在三维静止录入背景中,粒子群区域内的粒子是均匀分布的,并根据用户录入的语音信号上下起伏,形成即时的三维粒子群图像。
在本发明的一个可选实施例中,所述三维静止录入背景,具体包括:由X轴以及Y轴构成的第一平面,由Y轴以及Z轴构成的第二平面,以及由X轴和Z轴构成的第三平面,所述第一平面由多个原始粒子组合构成,所述原始粒子与所述显示粒子的形状相同。
其中,原始粒子指的是没有获取到用户录入的语音信号时三维静止录入背景中位于第一平面中均匀分布的粒子。图1e是本发明实施例一提供的一种三维语音录入背景的示意图,如图1e所示,第一平面也即水平面,在没有获取到用户录入的语音信号时,三维静止录入背景中的所有的原始粒子都均匀分布在第一平面上(没有形成波形)。第一平面的X轴实际上指的是时间轴,该时间轴以时间采集区间相对应,X轴的最小划分单位可以根据实际需求确定,且X轴中的每个坐标点对应一个时间点。当获取到用户录入的语音信号时,原始粒子根据语音信号的信号频率、音色以及响度等语音特征信息上下浮动。需要说明的是,在原始粒子浮动的过程中,粒子的形状并不发生改变,只是粒子相对于Z轴的位置发生改变。
在本发明的一个可选实施例中,在所述三维静止录入背景中显示所述三维粒子群图像之后,还包括:按照设定消隐策略,在所述三维静止录入背景中,对所述三维粒子群图像进行消隐。
其中,消隐就是给定一组三维对象及投影方式(视见约束),判定线、面或体的可见性的过程。设定消隐策略是针对三维粒子群图像制定的线、面、点的可见性规则。举例而言,设定消隐策略可以是在用户终止语音录入后,粒子群图像不立即停止波动,而是通过逐渐消退的方式趋于静止。或者,设定消隐策略也可以是在用户终止语音录入后,粒子群图像立即停止波动。设定消隐策略可以根据实际需求进行设计,本发明实施例对此并不进行限制。
本发明实施例通过在三维静止录入背景中,以三维粒子群图像的方式显示实时捕捉的用户录入的语音信号,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
实施例二
图2a是本发明实施例二提供的一种录入语音的展示方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,将根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像,具体为:获取所述语音信号在不同时间采集区间下区间语音信号;根据各所述区间语音信号的语音特征信息,得到与各区间语音信号所在的时间采集区间对应的二维粒子波动图像;按照时间顺序将各所述二维粒子波动图像进行组合,得到所述三维粒子群图像。相应的,本实施例的方法可以包括:
S210、根据语音录入指令,显示三维静止录入背景。
S220、实时捕捉用户录入的语音信号。
S230、获取所述语音信号在不同时间采集区间下区间语音信号。
其中,时间采集区间可以是0.01秒、0.02秒或者0.04秒,本发明实施例对此并不进行限制。时间采集区间是针对三维静止录入背景设计的,用于显示不同时间段录入的语音。区间语音信号指的是在时间采集区间内对应录入的语音信号。
需要说明的是,由于终端的三维静止录入背景的区域面积有限,因此为了完善视觉显示效果,设置的时间采集区间不能过长。当一个时间采集区间录入的区间语音信号显示结束后,通过三维静止录入背景继续显示下一个连续时间采集区间录入的区间语音信号。
S240、根据各所述区间语音信号的语音特征信息,得到与各区间语音信号所在的时间采集区间对应的二维粒子波动图像。
图2b是本发明实施例二提供的一种二维波动图像的示意图。如图2b所示,二维粒子波动图像指的是在时间采集区间中某一时间点对应的语音信号在二维平面的一种波形图,其中,二维平面指的是Y轴和Z轴构成的第二平面。实际上,由于每个用户之间的音色不同,因此每个用户在二维平面相应形成的波形图也不尽相同。只要当前用户的音色确定,则用户在某一时间点对应的语音信号在二维平面上的基本波形也随之确定。
需要说明的是,在二维粒子波动图像中不可避免的会存在各种噪音的影响,以至于波形图中的波形除了存在用户录入语音对应的波形外,还会存在其他噪音的波形。因此,在构造二维粒子波动图像前,还需要对录入的语音信号采用相关的算法进行滤波去噪处理,使得得到的二维粒子波动图像中不包含噪声引起的干扰波形。
相应的,S240具体可以包括:
S241、根据所述区间语音信号的信号频率,得到目标粒子的悬浮高度。
其中,目标粒子指的是在三维静止录入背景某一时间点对应的二维平面的波形中,最高波峰位置点对应的粒子。悬浮高度指的是目标粒子在三维静止录入背景中,沿Z轴上下浮动的高度。在本发明实施例中,根据某一时间点录入语音信号的信号频率,可以确定该时间点对应的目标粒子的悬浮高度。
S242、根据所述区间语音信号的音色波形,得到与所述目标粒子关联的初始二维粒子图像。
其中,音色波形指的是针对当前用户在某一时间点对应的语音信号在二维平面上的基本波形。初始二维粒子图像指的是只根据基本波形,确定基本波形时间点中各个粒子在Z轴相应的浮动距离。
在本发明实施例中,当目标粒子的悬浮高度确定时,根据当前用户录入的语音信号的语音特征信息,同时可以确定当前用户在目标粒子所在时间点的音色波形。音色波形包含了目标粒子所在时间点对应的语音信号在二维平面上除目标粒子之外的所有粒子,这些粒子与目标粒子即组成了初始二维粒子图像。
S243、根据所述区间语音信号的响度,调整所述初始二维粒子图像的形状,得到与区间语音信号所在的时间采集区间对应的二维粒子波动图像。
在本发明实施例中,可选的,根据区间语音信号的响度调整初始二维粒子图像的形状,可以是对初始二维粒子图像在Y轴方向的宽度增益进行适应性调整,进而得到调整后的二维粒子波动图像。
S250、按照时间顺序将各所述二维粒子波动图像进行组合,得到所述三维粒子群图像。
其中,时间顺序为X轴对应的坐标由小到大的顺序。在本发明实施例中,通过将X轴每个坐标点所对应的第二平面方向的二维粒子波动图像进行组合,即可得到在三维静止录入背景中完整展示的三维粒子群图像。
S260、在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
在本发明的一个可选实施例中,在所述三维静止录入背景中显示所述三维粒子群图像,包括:在所述三维静止录入背景的所述第一平面中,确定与所述三维粒子群图像中的各显示粒子分别对应的关联原始粒子;按照设定动画效果,将所述三维静止录入背景中各所述关联原始粒子移动至所述三维粒子群图像中各显示粒子所在的位置,得到所述三维粒子群图像。
可选的,设定动画效果可以是各个粒子按照时间的顺序连续上浮或下落,以给用户展示出三维粒子群图像的流畅美,并减轻给用户造成的无形的压力感。当然,设定动画效果还可以采用其他动画演示效果进行设计,本发明实施例对此并不进行限制。关联原始粒子指的是第一平面中与三维粒子群图像所确定的各个显示粒子相对应的各个原始粒子。
在本发明实施例中,当根据录入的语音信号中的音色波形、响度确定二维粒子波动图像并组合成三维粒子群图像后,此时的三维粒子群图像实际上还未与第一平面中的关联原始粒子建立联系。也即,此时的三维粒子图像只是为其相对应的关联原始粒子确定其需要沿Z轴方向移动的距离。当将关联原始粒子按照确定的三维粒子图像中的显示粒子的位置进行移动时,得到的实时图像才是最终的展示给用户的三维粒子群图像。
本发明实施例通过根据各区间语音信号的语音特征信息,得到与各区间语音信号所在的时间采集区间对应的二维粒子波动图像;并按照时间顺序将各二维粒子波动图像进行组合,得到三维粒子群图像后,确定与三维粒子群图像中的各显示粒子分别对应的关联原始粒子;并按照设定动画效果,将各关联原始粒子移动至三维粒子群图像中各显示粒子所在的位置,进而得到最终的三维粒子群图像,实现针对不同用户的语音特征展示与其语音特征匹配的三维粒子群图像,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
实施例三
图3是本发明实施例三提供的一种录入语音的展示装置的示意图,可执行本发明任意实施例所提供的录入语音的展示方法,具备执行方法相应的功能模块和有益效果,本实施例可适用于实时显示录入的语音。
所述装置包括:
背景显示模块310,用于根据语音录入指令,显示三维静止录入背景;
信号捕捉模块320,用于实时捕捉用户录入的语音信号;
图像构造模块330,用于根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像;
图像显示模块340,用于在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
本发明实施例通过在三维静止录入背景中,以三维粒子群图像的方式显示实时捕捉的用户录入的语音信号,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
可选的,所述语音信号的语音特征信息包括下述至少一项:所述语音信号的信号频率、所述语音信号的音色波形,以及所述语音信号的响度。
可选的,所述图像构造模块330,还用于获取所述语音信号在不同时间采集区间下区间语音信号;根据各所述区间语音信号的语音特征信息,得到与各区间语音信号所在的时间采集区间对应的二维粒子波动图像;按照时间顺序将各所述二维粒子波动图像进行组合,得到所述三维粒子群图像。
可选的,所述图像构造模块330,还用于根据所述区间语音信号的信号频率,得到目标粒子的悬浮高度;根据所述区间语音信号的音色波形,得到与所述目标粒子关联的初始二维粒子图像;根据所述区间语音信号的响度,调整所述初始二维粒子图像的形状,得到与区间语音信号所在的时间采集区间对应的二维粒子波动图像。
可选的,所述三维静止录入背景,具体包括:由X轴以及Y轴构成的第一平面,由Y轴以及Z轴构成的第二平面,以及由X轴和Z轴构成的第三平面,所述第一平面由多个原始粒子组合构成,所述原始粒子与所述显示粒子的形状相同;图像显示模块340,还用于在所述三维静止录入背景的所述第一平面中,确定与所述三维粒子群图像中的各显示粒子分别对应的关联原始粒子;按照设定动画效果,将所述三维静止录入背景中各所述关联原始粒子移动至所述三维粒子群图像中各显示粒子所在的位置,得到所述三维粒子群图像。
可选的,所述装置还包括,图像消隐模块350,用于按照设定消隐策略,在所述三维静止录入背景中,对所述三维粒子群图像进行消隐。
上述录入语音的展示装置可执行本发明任意实施例所提供的录入语音的展示方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的录入语音的展示方法。
实施例四
图4为本发明实施例四提供的一种终端的结构示意图。图4示出了适于用来实现本发明实施方式的终端412的框图。图4显示的终端412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,终端412以通用计算设备的形式表现。终端412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
终端412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。终端412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
终端412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该终端412交互的设备通信,和/或与使得该终端412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,终端412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网WideArea Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与终端412的其它模块通信。应当明白,尽管图中未示出,可以结合终端412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的录入语音的展示方法。
通过所述终端在三维静止录入背景中,以三维粒子群图像的方式显示实时捕捉的用户录入的语音信号,消除流动声波带给用户的压力感,从而提高用户体验、提高显示的科技感。
实施例五
本发明实施例五还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的录入语音的展示方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种录入语音的展示方法,其特征在于,包括:
根据语音录入指令,显示三维静止录入背景;
实时捕捉用户录入的语音信号;
根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像;
在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
2.根据权利要求1所述的方法,其特征在于,所述语音信号的语音特征信息包括下述至少一项:
所述语音信号的信号频率、所述语音信号的音色波形,以及所述语音信号的响度。
3.根据权利要求2所述的方法,其特征在于,根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像,包括:
获取所述语音信号在不同时间采集区间下区间语音信号;
根据各所述区间语音信号的语音特征信息,得到与各区间语音信号所在的时间采集区间对应的二维粒子波动图像;
按照时间顺序将各所述二维粒子波动图像进行组合,得到所述三维粒子群图像。
4.根据权利要求3所述的方法,其特征在于,根据所述区间语音信号的语音特征信息,得到与区间语音信号所在的时间采集区间对应的二维粒子波动图像,包括:
根据所述区间语音信号的信号频率,得到目标粒子的悬浮高度;
根据所述区间语音信号的音色波形,得到与所述目标粒子关联的初始二维粒子图像;
根据所述区间语音信号的响度,调整所述初始二维粒子图像的形状,得到与区间语音信号所在的时间采集区间对应的二维粒子波动图像。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述三维静止录入背景,具体包括:由X轴以及Y轴构成的第一平面,由Y轴以及Z轴构成的第二平面,以及由X轴和Z轴构成的第三平面,所述第一平面由多个原始粒子组合构成,所述原始粒子与所述显示粒子的形状相同;
在所述三维静止录入背景中显示所述三维粒子群图像,包括:
在所述三维静止录入背景的所述第一平面中,确定与所述三维粒子群图像中的各显示粒子分别对应的关联原始粒子;
按照设定动画效果,将所述三维静止录入背景中各所述关联原始粒子移动至所述三维粒子群图像中各显示粒子所在的位置,得到所述三维粒子群图像。
6.根据权利要求1-4任一项所述的方法,其特征在于,在所述三维静止录入背景中显示所述三维粒子群图像之后,还包括:
按照设定消隐策略,在所述三维静止录入背景中,对所述三维粒子群图像进行消隐。
7.一种录入语音的展示装置,其特征在于,包括:
背景显示模块,用于根据语音录入指令,显示三维静止录入背景;
信号捕捉模块,用于实时捕捉用户录入的语音信号;
图像构造模块,用于根据所述语音信号的语音特征信息,构造与所述语音信号匹配的三维粒子群图像;
图像显示模块,用于在所述三维静止录入背景中显示所述三维粒子群图像,其中,所述三维粒子群图像中各个显示粒子具有设定形状。
8.根据权利要求7所述的装置,其特征在于,所述语音信号的语音特征信息包括下述至少一项:
所述语音信号的信号频率、所述语音信号的音色波形,以及所述语音信号的响度;
所述图像构造模块,还用于获取所述语音信号在不同时间采集区间下区间语音信号;
根据各所述区间语音信号的语音特征信息,得到与各区间语音信号所在的时间采集区间对应的二维粒子波动图像;
按照时间顺序将各所述二维粒子波动图像进行组合,得到所述三维粒子群图像;
所述图像构造模块,还用于根据所述区间语音信号的信号频率,得到目标粒子的悬浮高度;
根据所述区间语音信号的音色波形,得到与所述目标粒子关联的初始二维粒子图像;
根据所述区间语音信号的响度,调整所述初始二维粒子图像的形状,得到与区间语音信号所在的时间采集区间对应的二维粒子波动图像;
所述三维静止录入背景,具体包括:由X轴以及Y轴构成的第一平面,由Y轴以及Z轴构成的第二平面,以及由X轴和Z轴构成的第三平面,所述第一平面由多个原始粒子组合构成,所述原始粒子与所述显示粒子的形状相同;
图像显示模块,还用于在所述三维静止录入背景的所述第一平面中,确定与所述三维粒子群图像中的各显示粒子分别对应的关联原始粒子;
按照设定动画效果,将所述三维静止录入背景中各所述关联原始粒子移动至所述三维粒子群图像中各显示粒子所在的位置,得到所述三维粒子群图像;
所述装置还包括,图像消隐模块,用于按照设定消隐策略,在所述三维静止录入背景中,对所述三维粒子群图像进行消隐。
9.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的录入语音的展示方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的录入语音的展示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225064.XA CN108566483A (zh) | 2018-03-19 | 2018-03-19 | 一种录入语音的展示方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225064.XA CN108566483A (zh) | 2018-03-19 | 2018-03-19 | 一种录入语音的展示方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108566483A true CN108566483A (zh) | 2018-09-21 |
Family
ID=63531793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810225064.XA Pending CN108566483A (zh) | 2018-03-19 | 2018-03-19 | 一种录入语音的展示方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108566483A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023071595A1 (zh) * | 2021-10-25 | 2023-05-04 | 北京字跳网络技术有限公司 | 一种音效展示方法及终端设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942048A (zh) * | 2014-04-09 | 2014-07-23 | Tcl集团股份有限公司 | 一种语音音量动画显示的方法及装置 |
WO2016032365A1 (ru) * | 2014-08-26 | 2016-03-03 | Общество С Ограниченной Ответственностью "Истрасофт" | Система и способ перевода речевого сигнала, в транскрипционное представление с метаданными |
CN106653054A (zh) * | 2016-10-11 | 2017-05-10 | 科大讯飞股份有限公司 | 生成语音动画的方法和装置 |
US9704276B1 (en) * | 2014-08-05 | 2017-07-11 | Randall C. Wilson | Enhancement and display methods for intuitively read three-dimensional visual representations of digital audio files |
CN107329980A (zh) * | 2017-05-31 | 2017-11-07 | 福建星网视易信息系统有限公司 | 一种基于音频的实时联动显示方法及存储设备 |
-
2018
- 2018-03-19 CN CN201810225064.XA patent/CN108566483A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942048A (zh) * | 2014-04-09 | 2014-07-23 | Tcl集团股份有限公司 | 一种语音音量动画显示的方法及装置 |
US9704276B1 (en) * | 2014-08-05 | 2017-07-11 | Randall C. Wilson | Enhancement and display methods for intuitively read three-dimensional visual representations of digital audio files |
WO2016032365A1 (ru) * | 2014-08-26 | 2016-03-03 | Общество С Ограниченной Ответственностью "Истрасофт" | Система и способ перевода речевого сигнала, в транскрипционное представление с метаданными |
CN106653054A (zh) * | 2016-10-11 | 2017-05-10 | 科大讯飞股份有限公司 | 生成语音动画的方法和装置 |
CN107329980A (zh) * | 2017-05-31 | 2017-11-07 | 福建星网视易信息系统有限公司 | 一种基于音频的实时联动显示方法及存储设备 |
Non-Patent Citations (1)
Title |
---|
QWF869: "After Effects的教程:3D动画波形", 《HTTPS://JINGYAN.BAIDU.COM/ARTICLE/90808022D0BAA5FD91C80F3C.HTML》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023071595A1 (zh) * | 2021-10-25 | 2023-05-04 | 北京字跳网络技术有限公司 | 一种音效展示方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5559691B2 (ja) | 音声及びビデオ通信のための機能向上したインタフェース | |
US8555164B2 (en) | Method for customizing avatars and heightening online safety | |
JP6037344B2 (ja) | 高度なカメラをベースとした入力 | |
CN102939575B (zh) | 墨水呈现 | |
US10091454B2 (en) | Recording events in a virtual world | |
CN110263131B (zh) | 回复信息生成方法、装置及存储介质 | |
CN104756150B (zh) | 深度缓冲 | |
CN111680123B (zh) | 对话模型的训练方法、装置、计算机设备及存储介质 | |
WO2010075634A1 (en) | Method and system for visual representation of sound | |
CN103529934A (zh) | 用于处理多个输入的方法和装置 | |
CN109410297A (zh) | 一种用于生成虚拟化身形象的方法与装置 | |
CN108874895A (zh) | 交互信息推送方法、装置、计算机设备及存储介质 | |
CN111491208B (zh) | 视频处理方法、装置、电子设备及计算机可读介质 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN103116463A (zh) | 个人数字助理应用的界面控制方法及移动终端 | |
CN108846886A (zh) | 一种ar表情的生成方法、客户端、终端和存储介质 | |
CN104737198B (zh) | 在输入几何对象粒度上记录可见度测试的结果 | |
Jänicke et al. | SoundRiver: semantically‐rich sound illustration | |
CN108566483A (zh) | 一种录入语音的展示方法、装置、终端及存储介质 | |
WO2024080135A1 (ja) | 表示制御装置、表示制御方法および表示制御プログラム | |
CN117959703A (zh) | 交互方法、装置、计算机可读存储介质和计算机程序产品 | |
CN109445573A (zh) | 一种用于虚拟化身形象互动的方法与装置 | |
CN104346090B (zh) | 一种手写输入的声音交互方法和装置 | |
CN115394285A (zh) | 语音克隆方法、装置、设备及存储介质 | |
CN108875047A (zh) | 一种信息处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180921 |
|
RJ01 | Rejection of invention patent application after publication |