CN114648989A - 在电子设备中实施的语音信息处理方法、装置及存储介质 - Google Patents
在电子设备中实施的语音信息处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114648989A CN114648989A CN202011521134.XA CN202011521134A CN114648989A CN 114648989 A CN114648989 A CN 114648989A CN 202011521134 A CN202011521134 A CN 202011521134A CN 114648989 A CN114648989 A CN 114648989A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- text
- voice information
- outputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本申请实施例提供一种在电子设备中实施的语音信息处理方法、装置及存储介质备,该方法包括接收另一电子设备所发送的第一语音信息和第一文字信息,第一文字信息由另一电子设备通过对第一语音信息进行语音识别而获得;检测第一语音信息的接收情况,其中:当第一语音信息的信息丢失量不大于第一阈值时,则输出第一语音信息;当第一语音信息的信息丢失量大于第一阈值且小于第二阈值时,则对第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出第二语音信息,第二阈值大于第一阈值;当第一语音信息的信息丢失量不小于第二阈值时,对第一文字信息进行处理以得到第二文字信息并输出第二文字信息。本申请实施例可以提高语音通话的沟通有效性。
Description
技术领域
本申请涉及通信技术领域,特别涉及一种在电子设备中实施的语音信息处理方法、装置及存储介质。
背景技术
现有技术中,通常会采用语音通话或视频通话进行通讯,然而当网络质量较差或网络堵塞时,语音通话或视频通话过程中会出现语音断断续续、语音卡顿或语音丢失的情况,导致用户的语音通话或视频通话体验差,沟通有效性低。
发明内容
本申请实施例提供一种在电子设备中实施的语音信息处理方法、装置及存储介质,可以提高语音通话的沟通有效性。
本申请实施例提供一种在电子设备中实施的语音信息处理方法,,包括:
接收另一电子设备所发送的第一语音信息和第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得;以及
检测所述第一语音信息的接收情况,其中:
当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息;
当所述第一语音信息的信息丢失量大于所述第一阈值且小于第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息;
当所述第一语音信息的信息丢失量不小于所述第二阈值时,则对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息。
本申请实施例还提供一种在电子设备中实施的语音信息处理装置,包括:
音频存储模块,用于接收另一电子设备所发送的第一语音信息;
文字存储模块,用于接收所述另一电子设备所发送的第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得,所述文字存储模块的时间信息与所述音频存储模块的时间信息同步;
检测模块,用于检测所述第一语音信息的接收情况;
第一信号处理模块,用于当所述第一语音信息的信息丢失量不大于第一阈值时,播放输出所述第一语音信息;当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并播放输出所述第二语音信息;以及
第二信号处理模块,用于当所述第一语音信息的信息丢失量不小于第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并显示输出所述第二文字信息。
本申请实施例还提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如上所述的语音信息处理方法。
本申请实施例还提供一种电子设备,包括电性连接的处理器和存储器,所述存储器存储有计算机程序,所述处理器用于调用所述计算机程序,用于执行如上所述的语音信息处理方法。
本申请实施例还提供一种在电子设备中实施的语音信息处理方法,,所述电子设备设置有声音特征库,所述方法包括:
接收另一电子设备的语音传输请求;
根据所述语音传输请求将所述语音传输请求将第一语音信息转换为第一文字信息;以及
将所述第一语音信息和所述第一文字信息发送给另一电子设备。
本申请实施例可以根据所接收到的另一电子设备的第一语音信息的信息丢失量实现不同语音处理方式,在第一语音信息的信息丢失量不大于第一阈值时输出第一语音信息,在第一语音信息的信息丢失量大于第一阈值且小于第二阈值时输出第二语音信息,在第一语音信息的信息丢失量不小于第二阈值输出第二文字信息,进而提高语音通话过程中对另一电子设备所发送的第一语音信息的理解效果,可以提高语音通话的沟通有效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的在电子设备中实施的语音信息处理方法的第一种应用场景图。
图2为本申请实施例提供的在电子设备中实施的语音信息处理方法的第一流程示意图。
图3为本申请实施例提供的在电子设备中实施的语音信息处理方法的第二种流程示意图。
图4为本申请实施例提供的在电子设备中实施的语音信息处理方法的第三种流程示意图。
图5为本申请实施例提供的在电子设备中实施的语音信息处理方法的第二种应用场景图。
图6为本申请实施例提供的在电子设备中实施的语音信息处理方法的第四种流程示意图。
图7为本申请实施例提供的在电子设备中实施的语音信息处理方法的第五种流程示意图。
图8为本申请实施例提供的在电子设备中实施的语音信息处理装置的第一种结构示意图。
图9为本申请实施例提供的在电子设备中实施的语音信息处理装置的第二种结构示意图。
图10为本申请实施例提供的在电子设备中实施的语音信息处理装置与语音发送装置的第一种结构示意图。
图11为本申请实施例提供的在电子设备中实施的语音信息处理装置与语音发送装置的第二种结构示意图。
图12为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种在电子设备中实施的语音信息处理方法,该语音信息处理方法的执行主体可以是本申请实施例提供的语音信息处理装置,或者集成了该语音信息处理装置的电子设备。该电子设备可以是智能手机、平板电脑、掌上电脑(PDA,PersonalDigital Assistant)等。以下针对语音信息处理方法进行具体分析说明。
请参阅图1和图2,图1为本申请实施例提供的在电子设备中实施的语音信息处理方法的第一种应用场景图,图2为本申请实施例提供的在电子设备中实施的语音信息处理方法的第一流程示意图,该语音信息处理方法应用于接收设备,该方法可以包括以下步骤:
110,接收另一电子设备所发送的第一语音信息和第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得。
如图1所示,电子设备和另一电子设备可以通过通信网络建立语音通话,在语音通话过程中,电子设备可以接收到另一电子设备所发送的第一语音信息,使得张三可以通过电子设备听到李四通过另一电子设备发送过来的语音消息,从而实现与李四的沟通。另一电子设备在与电子设备建立语音通信的过程中,另一电子设备可以将第一语音信息以及第一文字信息一起发送给电子设备,第一文字信息可以由另一电子设备通过对第一语音信息进行语音识别而获得。
其中,第一语音信息可以包括多个语音包,每一语音包携带有时间信息,时间信息可以用于指示语音包在第一语音信息的位置。另一电子设备可以对每一语音包进行语音识别以识别出多个文字包,多个文字包可以组成第一文字信息,每一文字包也携带有时间信息,该时间信息用于指示文字包在第一文字信息中的位置,文字包的时间信息与语音包的时间信息同步,
另一电子设备按照时间先后顺序将多个语音包发送给电子设备。比如第一语音信息可以包括按照时间顺序依次排列的a0、a1、a2、a3、a4和a5等6个语音包,另一电子设备可以按照同一时间间隔且按照时间先后顺序依次将a0、a1、a2、a3、a4和a5发送给电子设备,比如第一时刻发送a0,第二时刻发送a1,第三时刻发送a2,第四时刻发射a3,第五时刻发送a4,第六时刻发送a5,相邻两个时刻的时间间隔比如可以为10ms。这6个语音包可以经过不同网络传输链路传输至另一电子设备,受通信网络的影响,这6个语音包抵达至电子设备的顺序以及相邻两个语音包的时间间隔可能发生改变(即不一定均为10ms,可能为11ms,可能为8ms等),比如6个语音包的抵达顺序可以变为a1、a3、a0、a5、a4和a2,电子设备在接收到这6个语音包后可以将这6个语音包的顺序恢复为原来的顺序,即a0、a1、a2、a3、a4和a5,并根据时间先后顺序依次输出a0、a1、a2、a3、a4和a5。
120,检测所述第一语音信息的接收情况。
在实际应用中,通信网络的质量可能会变差(比如进入信号较弱的地区)或者会发生堵塞,而由于语音通话过程中电子设备是按照顺序实时播放语音包的内容,如果电子设备超过一定的时间均未接收到语音包,即无法播放对应的语音包的内容而出现部分语音包丢失导致的语音通话断断续续的情况,比如电子设备超过一定时间均未收到a3,那所输出的第一语音信息中在a3位置可能出现断层的情况,导致用户语音通话体验差,而且由于丢失的语音包也会影响使用电子设备的用户对第一语音信息的理解。
基于此,本申请实施例的电子设备可以通过对第一语音信息的接收情况进行检测,从而获取第一语音信息的接收结果,并根据第一语音信息的接收结果进行各种不同的处理方式。
比如,电子设备可以根据所接收到的语音包中所携带的时间信息对所接收到的语音包进行检测,看对应时间的语音包是否都已接收完毕,比如电子设备在一定的时间内只接收到a1、a3、a0、a5等4个语音包,电子设备可以通过查询a1、a3、a0、a5可知,目前已接收到第一时刻、第二时刻、第四时刻和第六时刻发送的语音包,而丢失了第三时刻发送的a2和第五时刻发送的a4。
相关技术中,通过检测通信网络的带宽以确定当前通信网络的质量,并根据当前通信网络质量对语音信息进行不同方式的处理,比如通信网络质量好时发送端将语音信息传输给接收端,通信网络质量差时发送端将语音信息转换为文字信息并且将文字信息传输给接收端。在通信网络质量差的情况下,检测通信网络的带宽需要占用一定的网络资源,从而使得检测过程和处理过程需要较长的时间。而在本申请实施例中,由于所接收的语音包已经存储到电子设备中,电子设备可以通过检测自身的存储内容确定第一语音信息的接收情况,而无需借助通信网络,检测速度较快,从而可以缩短语音通话过程中对语音信息的检测时间以及处理时间,达到使得用户感受不到明显的卡顿或断层的情况。
130,当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息。
当电子设备检测到的第一语音信息的信息丢失量不大于第一阈值时,则输出第一语音信息。可以理解的是,当第一语音信息的信息丢失量比较小的情况下,其卡顿的现象不明显,此时可以直接播放第一语音信息。其中,第一阈值可以为100ms-200ms之间的任一数值。需要说明的是,第一阈值可以根据卡顿现象的明显程度进行具体的数值设置,其并不限于100ms-200ms,即本申请实施例对第一阈值的具体数值并不予以限定。
可选地,在一些实施例中,当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息并根据所述第一语音信息实时输出所述第一文字信息。
由于通讯网络的不良影响导致语音通话质量差,可能会造成张三的沟通有效性变差,此时电子设备可以在输出第一语音信息的同时输出第一文字信息,张三可以通过听取第一语音信息并结合对第一文字信息的理解而充分了解李四所要表达的意思,提高张三和李四之间的沟通有效性。而且第一文字信息也可以作为张三与李四的通话备忘记录,可以避免在通话中需要张三额外记录有效信息的情况。
可以理解的是,在实际应用中可能需要对语音通话中的一些沟通内容进行记录,比如地址信息、电话信息或者其他信息等,此时需要用户额外打开电子备忘录或者使用纸笔将该信心进行记录,以免通话后遗忘。而本申请实施例在输出第一语音信息的同时也将第一语音信息所对应的第一文字信息输出,无需用户额外做有效信息记录,减轻用户在语音通话过程中还需要记录信息的负担,可以进一步提升用户的语音通话体验。
可选地,在一些实施例中,可以通过不同的输出策略对第一语音信息进行输出,比如:当所述第一语音信息的信息丢失量不大于第一阈值时,判断所述第一语音信息的信息量是否不小于第三阈值;若不小于,则以第一速度输出所述第一语音信息并以与所述第一速度相匹配的速度实时输出所述第一文字信息;若小于,则判断所述第一语音信息的信息量是否不大于第四阈值,所述第四阈值小于所述第三阈值;若不大于,则以第二速度输出所述第一语音信息并以与所述第二速度相匹配的速度实时输出所述第一文字信息,所述第二速度小于所述第一速度;若所述第一语音信息的信息量大于所述第四阈值且小于所述第三阈值,则以第三速度输出所述第一语音信息并以与所述第三速度相匹配的速度实时输出所述第一文字信息,所述第三速度大于所述第二速度且小于所述第一速度。
可以理解的是,由于每一语音包抵达电子设备的时间可能存在差异,有时可能在预定时间内抵达的语音包数量过多,有时可能在预定时间内抵达的语音包数量过少,有时可能每一语音包均可按照原有的时间间隔正常抵达。此时可以根据不同的抵达情况,采用不同的策略输出第一语音信息。
例如,当电子设备在预定时间内所接收到的第一语音信息的信息量过大时,比如第一语音信息的信息量不小于第三阈值时,可以采用加速播放的策略输出第一语音信息;当电子设备在预定时间内所接收到的第一语音信息的信息量过小时,比如第一语音信息的信息量不大于第四阈值时,第四阈值小于第三阈值,可以采用减速播放的策略输出第一语音信息;当电子设备在预定时间内所接收的第一语音信息的信息量正常时,比如第一语音信息的信息量大于第四阈值且小于第三阈值时,可以采用正常速度播放的策略输出第一语音信息。
140,当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息,所述第二阈值大于所述第一阈值。
电子设备在接收第一语音信息的过程中,如果第一语音信息的信息丢失量适中,比如第一语音信息的信息丢失量大于第一阈值且小于第二阈值时,电子设备可以采用丢包补偿算法对第一语音信息中所丢失的部分进行补偿,以将第一语音信息中所丢失的部分补偿回来,将第一语音信息中未丢失的部分和通过丢失补偿算法补偿回来的部分整合在一起形成第二语音信息,并输出第二语音信息。其中,第二阈值可以为200ms-300ms中的任一数值。需要说明的是,第二阈值也可以根据丢失补偿算法的补偿能力确定,其可以大于第一阈值且小于或等于丢失补偿算法所能补偿的最大丢失量,而并不限于200ms-300ms,本申请实施例对第二阈值的具体数值并不予以限定。
150,当所述第一语音信息的信息丢失量不小于第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息。
电子设备在接收第一语音信息的过程中,如果第一语音信息的信息丢失量比较大以至于丢失补偿算法无法进行补偿的情况,比如第一语音信息的信息丢失量不小于第二阈值时,电子设备可以对第一文字信息进行处理以得到第二文字信息,并输出第二文字信息。此时,电子设备可以直接不输出第一语音信息而仅输出第二文字信息,也可以弹出选择框供用户选择,比如可以弹出选择框提示用户当前的语音通话质量差,是否仅输出文字信息等,当张三选择了仅输出文字信息时,电子设备仅输出第二文字信息而不输出第一语音信息,替代性地可以输出舒适音乐或者提示语音等。张三可以通过对第一文字信息的阅读而理解李四所要表达的意思,避免由于语音断层而使得张三和李四无法沟通的情况出现。
本申请实施例可以根据所接收到的另一电子设备的第一语音信息的信息丢失量实现不同语音处理方式,在第一语音信息的信息丢失量不大于第一阈值时输出第一语音信息,在第一语音信息的信息丢失量大于第一阈值且小于第二阈值时输出第二语音信息,在第一语音信息的信息丢失量不小于第二阈值输出第二文字信息,进而提高语音通话过程中对另一电子设备所发送的第一语音信息的理解效果,可以提高语音通话的沟通有效性。
可选地,在一些实施例中,请参阅图3,图3为本申请实施例提供的在电子设备中实施的语音信息处理方法的第二种流程示意图,其中“150,当所述第一语音信息的信息丢失量不小于第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息”可以包括以下步骤:
151,当所述第一语音信息的信息丢失量不小于第二阈值时,通过对所述第一文字信息进行推理分析以推理出推理文字信息,所述推理文字信息为与所述第一语音信息中所丢失的语音信息所对应的文字信息。
152,将所述第一文字信息和所述推理文字信息进行整合以得到第二文字信息。
153,输出所述第二文字信息。
电子设备在第一语音信息的信息丢失量不小于第二阈值时,可以通过对第一语音信息中所丢失的部分进行推理分析,比如根据第一文字信息进行文字内容分析,从上下文的语义、语境或者其他方面推理出第一语音信息中所丢失的部分所对应的文字信息,以得到推理文字信息。电子设备得到推理文字信息后将第一文字信息和推理文字信息进行整合以得到第二文字信息,并输出第二文字信息。其中,可以理解的是,第一文字信息为根据第一语音信息中未丢失的部分进行语音识别而获得的文字信息。
经过一定时间后,若电子设备接收到第一语音信息中所丢失的部分,电子设备还可以对第一语音信息中所丢失的部分进行语音识别以得到丢失部分的文字信息,并根据丢失部分的文字信息对推理文字信息进行修正或替换,以确保文字信息的准确性。
可以理解的是,由于语音信息的输出实时性,超过预定时间再接收到丢失的语音包时,此时语音信息已经实时输出了,不会再对丢失的语音信息进行语音输出,而是直接存储在电子设备中,但由于文字信息是一直显示的,可以通过对实际接收的丢失的语音包对已经显示的文字信息进行修正或替换,以确保所显示的文字内容的准确性。
电子设备可以输出第二文字信息。此时,电子设备可以直接不输出第一语音信息而仅输出第二文字信息,也可以弹出选择框供用户选择,比如可以弹出选择框提示用户当前的语音通话质量差,是否仅输出文字信息等,当张三选择了仅输出文字信息时,电子设备仅输出第二文字信息而不输出第一语音信息,替代性地可以输出舒适音乐或者提示语音等。张三可以通过对第一文字信息的阅读而理解李四所要表达的意思,避免由于语音断层而使得张三和李四无法沟通的情况出现。
可选地,在一些实施例中,请参阅图4和图5,图4为本申请实施例提供的在电子设备中实施的语音信息处理方法的第三种流程示意图,图5为本申请实施例提供的在电子设备中实施的语音信息处理方法的第二种应用场景图,其中“153,输出所述第二文字信息”可以包括以下步骤:
1531,对所述第二文字信息中的推理文字信息进行显著标示。
电子设备得到第二文字信息后,为了方便张三了解第二文字信息中哪一部分为推理得到的内容,哪一部分为根据语音信息识别得到的内容,电子设备可以对第二文字信息中的推理文字信息进行显著标示,比如高亮标示、下划线标示或其他标示等,以提醒张三注意推理文字信息内容,张三可以根据自己对李四的了解以及沟通事项的具体情况判断该推理文字信息内容的准确性。当推理文字信息被对丢失部分所识别出来的文字信息修正或替换掉时,电子设备可以消除显著标示,以示意用户此为正确的文字信息,并非推理得到的文字信息。
1532,提取所述第二文字信息中的重要字段。
1533,对所述第二文字信息中的重要字段进行归纳总结以得到总结信息,输出所述第二文字信息以及所述总结信息。
电子设备还可以对第二文字信息进行文字内容分析,以从第二文字信息中分析出比较重要字段,并将重要字段提取出来后,在对重要字段进行归纳总结以得到总结信息,输出第二文字信息和总结信息,如图5所示。用户可以通过对第二文字信息和总结信息的阅读了解并记录下本次与李四的语音通话的沟通内容。而且本申请实施例中的总结信息也可以作为上述申请实施例中推理分析过程的推理依据,提高推理分析的准确性。
可选地,在一些实施例中,请参阅图6,图6为本申请实施例提供的在电子设备中实施的语音信息处理方法的第四种流程示意图,其中“153,输出所述第二文字信息”可以包括以下步骤:
153a,查询所述声音特征库是否存在与所述第一语音信息相对应的用户的声音特征信息。
153b,若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息输出推理语音信息;将所述第一语音信息和所述推理语音信息进行拼接以得到第三语音信息,并输出所述第二文字信息以及所述第三语音信息。
为了进一步提升用户的通话体验,本申请实施例可以将第二文字信息转换为第三语音信息,并进行第三语音信息的播放。而如果采用现有的文字转语音技术,其可能会存在转换出来的语音信息与李四的声音不匹配,转换出来的语音信息听起来很不自然的情况,从而影响张三听取语音信息的听觉体验。
基于此,本申请实施例中的电子设备设置有声音特征库,声音特征库用于存储不同用户的声音特征信息,比如声音特征库可以存储有张三、李四、陈五或者其他用户的声音特征信息。当第一语音信息的信息丢失量比较大以至于影响张三的语音通话体验的情况下,电子设备可以选择不播放第一语音信息,而采用声音特征库中李四的声音特征对第二文字信息进行转换,以转换出具有李四声音特征的第三语音信息,使得转换出来的语音信息自然真实,贴近原说话人的声音。
具体地,电子设备可以查询声音特征库是否存在与第一语音信息相对应的用户的声音特征信息。比如电子设备可以查询声音特征库中是否存在李四的声音特征信息,若存在则可以获取李四的声音特征信息,并根据李四的声音特征信息对第二文字信息中的推理文字信息进行转换以得到推理语音信息,并将第一语音信息中未丢失的部分和推理语音信息进行拼接以得到第三语音信息,将第三语音信息输出,以使得张三既可以听取第三语音信息又可以查阅第二文字信息。
需要说明的是,将第二文字信息转换为第三语音信息的方式并不限于此,比如也可以直接采用李四的声音特征信息将第二文字信息全部转换为第三语音信息,并输出第三语音信息。
153c,若不存在,则输出第二文字信息,并当所述电子设备满足预设条件时发送声音特征信息传输指令给所述另一电子设备,所述声音特征信息传输指令用于指示所述另一电子设备将用户信息以及与所述用户信息相对应的声音特征信息发送给所述电子设备。
如果电子设备经过查询得知声音特征库中并不存在李四的声音特征信息,此时可以仅输出第二文字信息而不输出语音信息,比如将语音信息替换为舒适音乐或提示语音等。并且,在电子设备满足预设条件时电子设备可以发送声音特征信息传输指令给另一电子设备,该声音特征信息传输指令用于指示另一电子设备将用户信息以及与用户信息相对应的声音特征信息一起发送给电子设备,比如把李四的信息以及李四的声音特征信息一起发送给电子设备,电子设备可以将用户信息和与用户信息相对应的声音特征信息一起注册存储在声音特征库中。
其中,预设条件可以为预先设置的条件,比如预设条件可以为通信网络质量大于预定值,即当通信网络质量变好的时候,电子设备可以指示另一电子设备将用户信息和与该用户信息相匹配的声音特征信息一起发送给电子设备,避免在语音传输情况不佳时进行声音特征信息传输导致语音传输情况更差的情况。
在本申请实施例中,若声音特征库中已存在说话人的信息以及说话人的声音特征信息时,则可以不用再重复传输。可以理解的是,本申请实施例是利用说话人的声音特征信息进行逼真合成语音信息,而并非是实时将说话人的声音特征信息传输过来,并根据实时传输过来的说话人的声音特征信息进行拼接合成。相对于实时传输说话人的声音特征信息,本申请实施例可以减少由于实时传输声音特征信息所带来的网络拥堵情况,减少语音通话过程的数据传输量。
可选地,在一些实施例中,请参阅图7,图7为本申请实施例提供的在电子设备中实施的语音信息处理方法的第五种流程示意图,其中,“140,当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息,所述第二阈值大于所述第一阈值。”可以包括以下步骤:
141,当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息。
142,根据所述第二语音信息对所述第一文字信息进行修正,以得到第三文字信息。
143,输出所述第二语音信息并根据所述第二语音信息实时输出所述第三文字信息。
电子设备在接收第一语音信息的过程中,如果第一语音信息的信息丢失量适中,比如第一语音信息的信息丢失量大于第一阈值且小于第二阈值时,电子设备可以采用丢包补偿算法对第一语音信息中所丢失的部分进行补偿,以将第一语音信息中所丢失的部分补偿回来,将第一语音信息中未丢失的部分和通过丢失补偿算法补偿回来的部分整合在一起形成第二语音信息。电子设备可以根据第二语音信息进行语音识别以识别出与第二语音信息对应的文字信息,通过与第二语音信息对应的文字信息对第一文字信息进行修正,以得到第三文字信息。可以理解的是,第三文字信息包含了对第一语音信息中未丢失部分进行语音识别所得到的文字信息(即第一文字信息)以及通过对补偿得到的第一语音信息中所丢失的部分进行处理所得到的文字信息。
电子设备可以输出第二语音信息并根据第二语音信息实时输出第三文字信息。其中第三文字信息中通过对补偿得到的第一语音信息中所丢失的部分进行处理所得到的文字信息可以通过显著标示的方式(比如高亮显示、增加下划线、字体加粗,字体倾斜等方式)呈现给用户,以示意张三该文字并非实时传输所得到的,张三可以根据自己的判断确定显著标示的文字信息是否正确。
本申请实施例可以应用在双方语音通话卡顿明显(例如地铁进入弱信号区)的场景,通常情况下,由于无法理解对方所要表达的准确意思,双方都需要一遍遍请求对方重新复述。采用本申请实施例的技术后,在此情况下,也不会产生明显的通话卡顿,听觉感受好。并且结合实时显示的文字,能明白对方所要表达的意思,无须一遍遍请求对方重新复述。
本申请实施例也可以应用于嘈杂环境(例如地铁上)的场景,在该场景下可能会经常听不清对方所述声音,需要一遍遍请求对方重新复述。采用本申请实施例的技术后,可以通过阅读实时显示的文字,明白对方所要表达的意思,无须一遍遍请求对方重新复述。
本申请实施例还可以应用于在线教育或者会议场景,采用本申请实施例的技术,能够实时显示会议记录文字,包括重点,分析归纳等信息,即使迟到者也能通过快速阅读跟上当前进度,同时减少参与者记笔记本负担。
请参阅图8,图8为本申请实施例提供的在电子设备中实施的语音信息处理装置的第一种结构示意图。具体而言,该语音信息处理装置200,包括:音频存储模块210、文字存储模块220、检测模块230、第一信号处理模块240和第二信号处理模块250。
音频存储模块210,用于接收另一电子设备所发送的第一语音信息;
文字存储模块220,用于收所述另一电子设备所发送的第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得,所述文字存储模块的时间信息与所述音频存储模块的时间信息同步;
检测模块230,用于检测所述第一语音信息的接收情况;
第一信号处理模块240,用于当所述第一语音信息的信息丢失量不大于第一阈值时,播放输出所述第一语音信息;当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并播放输出所述第二语音信息,所述第二阈值大于所述第一阈值;
第二信号处理模块250,用于当所述第一语音信息的信息丢失量不小于第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并显示输出所述第二文字信息。
请参阅图9,图9为本申请实施例提供的在电子设备中实施的语音信息处理装置的第二种结构示意图。第二信号处理模块250可以包括文字缓冲单元251、文字分析单元252和文字推理单元253。文字推理单元251,用于当所述第一语音信息的信息丢失量不小于第二阈值时,通过对所述第一文字信息进行推理分析以推理出推理文字信息,所述推理文字信息为与所述第一语音信息中所丢失的语音信息所对应的文字信息;将所述第一文字信息和所述推理文字信息进行整合以得到第二文字信息。
文字缓冲单元252,用于缓存与输出所述第二文字信息。
文字分析单元253,用于对所述第二文字信息中的推理文字信息进行显著标示;提取所述第二文字信息中的重要字段;对所述第二文字信息中的重要字段进行归纳总结以得到总结信息,输出所述总结信息。语音信息处理装置200还包括声音特征库260,声音特征库260用于存储不同用户的声音特征信息。第一信号处理模块240可以包括文字转换单元241和音频拼接单元242。
文字转换单元241,用于查询声音特征库260是否存在与所述第一语音信息相对应的用户的声音特征信息;若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息输出推理语音信息。
音频拼接单元242,用于将所述第一语音信息和所述推理语音信息进行拼接以得到第三语音信息。
可选地,在一些实施例中,第二信号处理模块250还用于当所述第一语音信息的信息丢失量不大于第一阈值时,根据所述第一信号处理模块240所输出的第一语音信息实时输出所述第一文字信息。
可选地,在一些实施例中,所述第二信号处理模块250还用于根据所述第一信号处理模块240所得到的第二语音信息对所述第一文字信息进行修正,以得到第三文字信息,以及根据所述第二语音信息实时输出所述第三文字信息。
为了使得更清楚地理解本申请实施例所提供的语音信息处理装置的工作过程,以下从语音信息处理装置和语音发送装置的交互方面进行描述,语音发送装置可以应用在另一电子设备中。请参阅图10,图10为本申请实施例提供的在电子设备中实施的语音信息处理装置与语音发送装置的第一种结构示意图。
本申请实施例提供一种语音发送装置40,语音发送装置40的执行主体可以为如上申请实施例所述的另一电子设备。其中,语音发送装置40包括3A信号处理模块41、神经网络模块42、声音特征库43、文字缓冲模块44、语音编码模块45和RTP(Real-time TransportProtocol,实时传送协议)打包模块46。
用户(比如李四)将语音输入至语音发送装置40中,用户语音信息首先输入3A信号处理模块41,3A信号处理模块41可以对用户语音信息进行3A信号前处理,比如可以对用户语音信息进行降噪及回声消除、盲源分离,去混响,麦克风降列拾音等信号处理以进一步得到处理后的用户语音信息,即第一语音信息,3A信号处理模块41将第一语音信息输入至语音编码模块45进行音频压缩以得到压缩后的第一语音信息,语音编码模块45将压缩后的第一语音信息发送至RTP打包模块46,RTP打包模块46对压缩后的第一语音信息进行打包并且通过UDP(User Datagram Protocol,用户数据报协议)经过通信网络发送到语音信息处理装置200。
3A信号处理模块41还将第一语音信息输入至神经网络模块42。其中,神经网络模块42包括语音识别单元42a、声音特征提取单元42b和声音认证单元42c。
语音识别单元42a可以对第一语音信息进行语音识别以识别出第一文字信息,并将第一文字信息发送至文字缓冲模块44,文字缓冲模块44用于存储第一文字信息,而且文字缓冲模块44还可以将第一文字信息发送给RTP打包模块,RTP打包模块可以对第一文字信息进行打包并通过UDP经过通信网络发送至语音处理装置200。
声音特征提取单元42b可以对第一语音信息的声音特征进行提取以形成说话人的声音特征信息,并将提取出来的说话人的声音特征信息发送至声音特征库43,声音特征库43可以对该信息进行存储,且声音特征库43可以在接收到声音特征信息传输指令时,声音特征信息传输指令可以携带有待传输声音特征的用户信息,比如声音特征信息传输指令携带有李四的信息,声音特征库43可以根据声音特征信息传输指令查询其存储内容是否有该用户的声音特征信息,若有则可以将该用户的声音特征信息发送给RTP打包模块46,RTP打包模块46可以对该用户的声音特征信息进行打包并通过UDP经过通信网络发送至语音处理装置200。若没有则可以反馈相关的信息给语音信息处理装置200,并指示神经网络模块42在有该用户的语音输入时对该用户的语音信息进行声音特征信息的提取以及声音特征信息进行认证识别,以丰富声音特征库43的存储内容。
声音认证单元42c可以对第一语音信息中的声音特征信息进行认证识别以识别出说话人的用户信息。比如可以先对说话人声音进行认证,如果此说话人的声音已经在语音发送装置40中注册过,则可以反馈信息至声音特征提取单元42b以指示其无须再进行声音特征提取。如果此声音未在语音发送装置40中注册过,则可以反馈第二信息给声音提取单元42b以指示其进行声音特征提取并将提取到的声音特征信息存入声音特征库43。
神经网络模块42还可以指示语音信息处理装置400查询其声音特征库260是否已存在当前说话人的声音特征信息,并根据其查询结果反馈信息至语音发送装置40中。比如,当查询的结果为语音信息处理装置400的声音特征库260已存在当前说话人的声音特征信息,则反馈第三信息给语音发送装置40以指示其无需再发送声音特征信息;当查询的结果为语音信息处理装置400的声音特征库260不存在当前说话人的声音特征信息时,可以发送声音特征信息传输指令给语音发送装置40,语音发送装置40接收到声音特征信息传输指令后,根据声音特征信息传输指令将对应用户的声音特征信息发送给语音信息处理装置200。
本申请实施例的语音识别单元42a可以通过ASR(Automatic SpeechRecognition,自动语音识别)技术实时将语音信息转换成文字信息,由于此操作在语音发送装置40进行,能保证文字的准确性。需要说明的是,由于文字信息数据量非常小,正常情况下,可以将语音信息和文字信息打包在一起进行传输,也可以单独打包进行传输。当语音信息处理装置200的语音信息丢失量较大时,语音发送装置40可以将优先重传文字信息,甚至进行多次重复重传,在此基础上才会重传语音信息处理装置200所请求的语音信息中所丢失的部分。
本申请实施例提供的语音处理装置200包括音频存储模块210、文字存储模块220、检测模块230、声音特征库260、RTP(Real-time Transport Protocol,实时传送协议)解包模块270、第一信号处理模块和第二信号处理模块。第一信号处理模块包括文字转换单元241,音频拼接单元242、音频解码单元243、信号处理单元244。第二信号处理模块包括文字缓冲单元251、文字分析单元252和文字推理单元253。
语音处理装置200可以通过UDP经通信网络接收语音发送装置40所发送的第一语音信息、第一文字信息、用户信息和/或用户的声音特征信息等。RTP解包模块270可以对语音处理装置200所接收到的第一语音信息、第一文字信息、用户信息和/或用户的声音特征信息进行解压以获得解压后的第一语音信息、第一文字信息、用户信息和/或用户的声音特征信息,RTP解包模块270可以将解压后的第一语音信息发送给音频存储模块210,解压后的第一文字信息发送给文字存储模块220,解压后的用户信息和/或用户的声音特征信息发送给声音特征库260。
其中,音频存储模块210接收到第一语音信息后,将第一语音信息发送给音频解码单元243,音频解码单元243可以将接收到的第一语音信息中的每一帧语音进行解码并获取实际PCM(pulse code modulation,脉冲编码调制)信号。信号处理单元244可以对音频解码单元243所获取到的实际PCM信号进行各种信号操作,具体信号操作方式可以按照不同的策略进行操作。
检测模块260可以对音频存储模块210所接收到的第一语音信息进行检测以得到检测结果,当检测结果为所述第一语音信息的信息丢失量不大于第一阈值时,可以指示音频解码单元243和信息处理单元244输出第一语音信息。当检测结果为所述第一语音信息的信息丢失量大于所述第一阈值且小于第二阈值时,可以指示信号处理单元244对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并指示信号处理单元244输出所述第二语音信息,其中所述第二阈值大于所述第一阈值。文字存储模块220接收到第一文字信息后,可以将第一文字信息发送给文字缓冲单元251,文字缓冲单元251可以用于缓存文字信息,比如缓存第一文字信息。当检测模块260的检测结果为所述第一语音信息的信息丢失量不小于所述第二阈值时,可以指示第二处理模块对所述第一文字信息进行处理以得到第二文字信息,并指示第二处理模块输出所述第二文字信息。
比如,第二信号处理模块可以根据所述第一信号处理模块所得到的第二语音信息对所述第一文字信息进行修正,以得到第三文字信息,以及根据所述第二语音信息实时输出所述第三文字信息。
第二信号处理模块还可以查询所述声音特征库是否存在与所述第一语音信息相对应的用户的声音特征信息;若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息输出推理语音信息;将所述第一语音信息中未丢失的部分和所述推理语音信息进行拼接以得到第三语音信息,并输出所述第二文字信息以及所述第三语音信息;若不存在,则输出所述第二文字信息,并当语音信息处理装置200满足预设条件时发送声音特征信息传输指令给语音发送装置40,所述声音特征信息传输指令用于指示语音发送装置40将用户信息以及与所述用户信息相对应的声音特征信息发送给语音信息处理装置200。例如,文字推理单元253可以在检测模块260的检测结果为所述第一语音信息的信息丢失量不小于第二阈值时,从文字缓冲单元251中获取第一文字信息,并通过对所述第一文字信息进行推理分析以推理出推理文字信息,所述推理文字信息为与所述第一语音信息中所丢失的语音信息所对应的文字信息;文字推理单元还可以将所述第一文字信息和所述推理文字信息进行整合以得到第二文字信息,并将第二文字信息发送至文字缓冲单元251进行存储。
文字分析单元252可以从文字缓冲单元251中获取第二文字信息,并对所述第二文字信息中的推理文字信息进行显著标示;提取所述第二文字信息中的重要字段;对所述第二文字信息中的重要字段进行归纳总结以得到总结信息,并将总结信息发送至文字缓冲单元251进行存储,输出所述总结信息。
文字缓冲单元251可以在检测模块260的检测结果为第一语音信息的信息丢失量不小于第二阈值时,则输出第二文字信息和总结信息。
第一信号处理模块还可以对第二文字信息进行处理以得到第三语音信息。比如,文字转换单元241查询所述声音特征库260是否存在与所述第一语音信息相对应的用户的声音特征信息;若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并从文字缓冲单元251推理文字信息,再根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息得到推理语音信息,并将推理语音信息发送给音频拼接单元242,音频拼接单元242可以从音频存储模块210获取第一语音信息,并将第一语音信息和推理语音信息进行拼接以得到第三语音信息,并在检测模块260的检测结果为第一语音信息的信息丢失量不小于第二阈值时,则输出第三语音信息。
本申请实施例中对于语音信息的信息丢失量过多的情况,可以将文字转换成逼真语音进行替换。当网络恢复正常时,可以重新使用原始音频数据。由于在文字转换模块241中引入了说话人特征信息,并且选择合适的语音节点进行替换,所以在听感上不会造成不适。
可以理解的是,本申请实施例中的第一文字信息抵达文字存储模块220后,首先需要通过检测模块230和音频存储模块210同步时间信息。正常抵达的文字信息可以在文字缓冲单元251中进行存储,并由文字分析单元252进行实时文字信息分析。在语音传输过程中,语音信息处理装置200可以先查询相应时间点的文字是否已经存在于文字缓冲单元251中,若存在则直接启动第二信号处理模块;若不存在,则在文字推理单元253中进行文字推理以得到推理文字信息,并使用推理文字信息启动第一信号处理模块;如果文字推理失败,则放弃对其进行文字推理以及文字转换为语音的操作。
对于推理文字信息仅在第一信号处理模块和第二信号处理模块中使用,在后续网络质量变好后,重新传送过来的文字可以替换掉推理文字信息,以保证文字信息的绝对准确性。
文字分析单元252可以根据已接收到的文字信息进行文字内容实时分析(包括但不限于归纳总结,找出重要点)。在文字输出显示于电子设备时,将分析结果个性化显示(包括但不限于重要信息高亮显示,归纳总结信息附注显示等形式)。
结合图10和图11所示,图11为本申请实施例提供的在电子设备中实施的语音信息处理装置与语音发送装置的第二种结构示意图。
音频解码单元243可以包括音频解码子单元2432和解码缓冲子单元2432,音频解码子单元2432可以对接收到的第一语音信息中的每一帧语音进行解码并获取实际PCM(pulse code modulation,脉冲编码调制)信号,并将实际PCM信号存储至解码缓冲子单元2432中。解码缓冲子单元2432可以将实际PCM信号发送给信号处理单元244,信号处理单元244可以根据策略选择对实际PCM信号进行处理,比如第一语音信息中的所有语音包均可以正常抵达至语音信息传输装置200,则信号处理单元244可以按照正常速度将实际PCM信号输出;如果第一语音信息的所有语音包均可以正常抵达且第一语音信息的语音包数量过多的情况下,则信号处理单元244可以将对实际PCM信号进行加速播放处理;如果第一语音信息的所有语音包均可以正常抵达且第一语音信息的语音包数量过少的情况下,则信号处理单元244可以对实际PCM信号进行减速播放处理;如果判断为静音帧或者噪声帧,则信号处理单元244可以生成舒适噪声;如果第一语音信息有丢失信息的情况,则可以根据信息丢失量的大小进行不同的操作,具体可参见如上所述,在此不再赘述。
第一信号处理模块还可以包括语音缓冲区245和算法缓冲区246,信号处理单元244可以将实际PCM信号存入算法缓冲区246,语音缓冲区245连接算法缓冲区246,根据采样率固定时间间隔获取实际PCM信号,并输出目前播放时间信息。此时间信息会反馈至检测模块230,实际PCM信号根据目前播放时间信息以及音频存储模块210中实际已经接收到的信息,来判断语音信息的丢包情况,而且还可以自适应调节音频存储模块210的大小。
本申请实施例还提供一种电子设备,请参阅图12,图12为本申请实施例提供的电子设备的结构示意图。电子设备20可以包括处理器22和存储器24。其中,处理器22与存储器24电性连接。
处理器22是电子设备20的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器24内的计算机程序,以及调用存储在存储器24内的数据,执行电子设备20的各种功能并处理数据,从而对电子设备20进行整体监控。
存储器24可用于存储软件程序以及模块,处理器22通过运行存储在存储器24的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器24可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器24可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器24还可以包括存储器控制器,以提供处理器22对存储器24的访问。
在本申请实施例中,电子设备20中的处理器22会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器24中,并由处理器22运行存储在存储器24中的计算机程序,从而实现各种功能,如下:
接收另一电子设备所发送的第一语音信息和第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得;
检测所述第一语音信息的接收情况;
当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息;
当所述第一语音信息的信息丢失量大于所述第一阈值且小于第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息,所述第二阈值大于所述第一阈值;
当所述第一语音信息的信息丢失量不小于所述第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息。
可选地,在其他实施例中,处理器22还可以执行:
当所述第一语音信息的信息丢失量不小于第二阈值时,通过对所述第一文字信息进行推理分析以推理出推理文字信息,所述推理文字信息为与所述第一语音信息中所丢失的语音信息所对应的文字信息;
将所述第一文字信息和所述推理文字信息进行整合以得到第二文字信息;
输出所述第二文字信息。
可选地,在其他实施例中,所述电子设备20设置有声音特征库,所述声音特征库用于存储不同用户的声音特征信息,处理器22还可以执行:
查询所述声音特征库是否存在与所述第一语音信息相对应的用户的声音特征信息;
若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息输出推理语音信息;将所述第一语音信息中未丢失的部分和所述推理语音信息进行拼接以得到第三语音信息,并输出所述第二文字信息以及所述第三语音信息;
若不存在,则输出所述第二文字信息,并当所述电子设备满足预设条件时发送声音特征信息传输指令给所述另一电子设备,所述声音特征信息传输指令用于指示所述另一电子设备将用户信息以及与所述用户信息相对应的声音特征信息发送给所述电子设备。
可选地,在其他实施例中,处理器22还可以执行:
对所述第二文字信息中的推理文字信息进行显著标示;
提取所述第三文字信息中的重要字段;
对所述第二文字信息中的重要字段进行归纳总结以得到总结信息,输出所述第二文字信息以及所述总结信息。
可选地,在其他实施例中,处理器22还可以执行:
当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息并根据所述第一语音信息实时输出所述第一文字信息。
可选地,在其他实施例中,处理器22还可以执行:
当所述第一语音信息的信息丢失量不大于第一阈值时,判断所述第一语音信息的信息量是否不小于第三阈值;
若不小于,则以第一速度输出所述第一语音信息并以与所述第一速度相匹配的速度实时输出所述第一文字信息;
若小于,则判断所述第一语音信息的信息量是否不大于第四阈值,所述第四阈值小于所述第三阈值;
若不大于,则以第二速度输出所述第一语音信息并以与所述第二速度相匹配的速度实时输出所述第一文字信息,所述第二速度小于所述第一速度;
若所述第一语音信息的信息量大于所述第四阈值且小于所述第三阈值,则以第三速度输出所述第一语音信息并以与所述第三速度相匹配的速度实时输出所述第一文字信息,所述第三速度大于所述第二速度且小于所述第一速度。
可选地,在其他实施例中,处理器22还可以执行:
当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息;
根据所述第二语音信息对所述第一文字信息进行修正,以得到第三文字信息;
输出所述第二语音信息并根据所述第二语音信息实时输出所述第三文字信息。
本申请实施例还提供一种存储介质,该存储介质存储有计算机程序,当该计算机程序在计算机上运行时,使得该计算机执行上述任一实施例中的图像拍摄方法,比如:接收另一电子设备所发送的第一语音信息和第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得;检测所述第一语音信息的接收情况;当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息;当所述第一语音信息的信息丢失量大于所述第一阈值且小于第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息,所述第二阈值大于所述第一阈值;当所述第一语音信息的信息丢失量不小于所述第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的语音信息处理方法而言,本领域普通测试人员可以理解实现本申请实施例的语音信息处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如语音信息处理方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的语音信息处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,该存储介质譬如为只读存储器,磁盘或光盘等。
本申请实施例还提供另一种语音信息处理方法,应用于另一电子设备,另一电子设备可以包括如上所述的语音发送装置40,所述方法包括:
接收电子设备的语音传输请求;
根据所述语音传输请求将所述语音传输请求将第一语音信息转换为第一文字信息;
将所述第一语音信息和所述第一文字信息发送给电子设备,以使得所述电子设备检测所述第一语音信息的接收情况;当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息;当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息,所述第二阈值大于所述第一阈值;当所述第一语音信息的信息丢失量不小于第二阈值时,对所述第一文字信息进行处理以得到第三文字信息并输出所述第三文字信息。
可选地,在其他实施例中,所述接收所述另一电子设备的语音传输请求之后还包括:
根据所述语音传输请求提取所述第一语音信息所对应的用户信息以及与所述用户信息对应的声音特征信息;
将所述第一语音信息所对应的用户信息以及与所述用户信息对应的声音特征信息存储至所述声音特征库中,以使得当所述另一电子设备接收到所述电子设备发送的声音特征信息传输指令时,根据所述声音特征信息传输指令将用户信息以及与所述用户信息相对应的声音特征信息发送给所述电子设备。
该申请实施例的具体过程可参见上述申请实施例中的相关表述,在此不再赘述。
以上对本申请实施例提供的在电子设备中实施例的语音信息处理方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请。同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (17)
1.一种在电子设备中实施的语音信息处理方法,其特征在于,包括:
接收另一电子设备所发送的第一语音信息和第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得;以及
检测所述第一语音信息的接收情况,其中:
当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息;
当所述第一语音信息的信息丢失量大于所述第一阈值且小于第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息;
当所述第一语音信息的信息丢失量不小于所述第二阈值时,则对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息。
2.根据权利要求1所述的语音信息处理方法,其特征在于,对所述第一文字信息进行处理以得到第二文字信息并输出所述第二文字信息包括:
通过对所述第一文字信息进行推理分析以推理出推理文字信息,所述推理文字信息为与所述第一语音信息中所丢失的语音信息所对应的文字信息;
将所述第一文字信息和所述推理文字信息进行整合以得到第二文字信息;以及
输出所述第二文字信息。
3.根据权利要求2所述的语音信息处理方法,其特征在于,所述电子设备设置有声音特征库,所述声音特征库用于存储不同用户的声音特征信息;输出所述第二文字信息包括:
查询所述声音特征库是否存在与所述第一语音信息相对应的用户的声音特征信息;
若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息输出推理语音信息;将所述第一语音信息中未丢失的部分和所述推理语音信息进行拼接以得到第三语音信息,并输出所述第二文字信息以及所述第三语音信息;
若不存在,则输出所述第二文字信息,并当所述电子设备满足预设条件时发送声音特征信息传输指令给所述另一电子设备,所述声音特征信息传输指令用于指示所述另一电子设备将用户信息以及与所述用户信息相对应的声音特征信息发送给所述电子设备。
4.根据权利要求3所述的语音信息处理方法,其特征在于,输出所述第二文字信息包括:
对所述第二文字信息中的推理文字信息进行显著标示;
提取所述第二文字信息中的重要字段;以及
对所述第二文字信息中的重要字段进行归纳总结以得到总结信息,输出所述第二文字信息以及所述总结信息。
5.根据权利要求1所述的语音信息处理方法,其特征在于,当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息包括:
当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息并根据所述第一语音信息实时输出所述第一文字信息。
6.根据权利要求5所述的语音信息处理方法,其特征在于,当所述第一语音信息的信息丢失量不大于第一阈值时,则输出所述第一语音信息并根据所述第一语音信息实时输出所述第一文字信息包括:
当所述第一语音信息的信息丢失量不大于第一阈值时,判断所述第一语音信息的信息量是否不小于第三阈值;
若不小于,则以第一速度输出所述第一语音信息并以与所述第一速度相匹配的速度实时输出所述第一文字信息;
若小于,则判断所述第一语音信息的信息量是否不大于第四阈值,所述第四阈值小于所述第三阈值;
若不大于,则以第二速度输出所述第一语音信息并以与所述第二速度相匹配的速度实时输出所述第一文字信息,所述第二速度小于所述第一速度;
若所述第一语音信息的信息量大于所述第四阈值且小于所述第三阈值,则以第三速度输出所述第一语音信息并以与所述第三速度相匹配的速度实时输出所述第一文字信息,所述第三速度大于所述第二速度且小于所述第一速度。
7.根据权利要求1所述的语音信息处理方法,其特征在于,当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并输出所述第二语音信息,所述第二阈值大于所述第一阈值包括:
当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息;
根据所述第二语音信息对所述第一文字信息进行修正,以得到第三文字信息;以及
输出所述第二语音信息并根据所述第二语音信息实时输出所述第三文字信息。
8.一种在电子设备中实施的语音信息处理装置,其特征在于,包括:
音频存储模块,用于接收另一电子设备所发送的第一语音信息;
文字存储模块,用于接收所述另一电子设备所发送的第一文字信息,所述第一文字信息由所述另一电子设备通过对所述第一语音信息进行语音识别而获得,所述文字存储模块的时间信息与所述音频存储模块的时间信息同步;
检测模块,用于检测所述第一语音信息的接收情况;
第一信号处理模块,用于当所述第一语音信息的信息丢失量不大于第一阈值时,播放输出所述第一语音信息;当所述第一语音信息的信息丢失量大于所述第一阈值且小于所述第二阈值时,则对所述第一语音信息中所丢失的部分进行补偿以得到第二语音信息,并播放输出所述第二语音信息;以及
第二信号处理模块,用于当所述第一语音信息的信息丢失量不小于第二阈值时,对所述第一文字信息进行处理以得到第二文字信息并显示输出所述第二文字信息。
9.根据权利要求8所述的语音信息处理装置,其特征在于,所述第二信号处理模块包括:
文字推理单元,所述文字推理单元用于当所述第一语音信息的信息丢失量不小于第二阈值时,通过对所述第一文字信息进行推理分析以推理出推理文字信息,所述推理文字信息为与所述第一语音信息中所丢失的语音信息所对应的文字信息;以及将所述第一文字信息和所述推理文字信息进行整合以得到第二文字信息;
文字缓冲单元,用于缓存与输出所述第二文字信息。
10.根据权利要求9所述的语音信息处理装置,其特征在于,第二信号处理模块还包括文字分析单元,所述文字分析单元用于对所述第二文字信息中的推理文字信息进行显著标示;提取所述第二文字信息中的重要字段;对所述第二文字信息中的重要字段进行归纳总结以得到总结信息,输出所述总结信息。
11.根据权利要求9所述的语音信息处理装置,其特征在于,还包括声音特征库,所述声音特征库用于存储不同用户的声音特征信息;所述第一信号处理模块包括:
文字转换单元,用于查询所述声音特征库是否存在与所述第一语音信息相对应的用户的声音特征信息;若存在,则获取与所述第一语音信息相对应的用户的声音特征信息,并根据与所述第一语音信息相对应的用户的声音特征信息和所述推理文字信息输出推理语音信息;
音频拼接单元,用于将所述第一语音信息和所述推理语音信息进行拼接以得到第三语音信息。
12.根据权利要求8所述的语音信息处理装置,其特征在于,所述第二信号处理模块还用于当所述第一语音信息的信息丢失量不大于第一阈值时,根据所述第一信号处理模块所输出的第一语音信息实时输出所述第一文字信息。
13.根据权利要求8所述的语音信息处理装置,其特征在于,所述第二信号处理模块还用于根据所述第一信号处理模块所得到的第二语音信息对所述第一文字信息进行修正,以得到第三文字信息,以及根据所述第二语音信息实时输出所述第三文字信息。
14.一种存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至8任一项所述的语音信息处理方法。
15.一种电子设备,其特征在于,包括电性连接的处理器和存储器,所述存储器存储有计算机程序,所述处理器用于调用所述计算机程序,用于执行如权利要求1至8任一项所述的语音信息处理方法。
16.一种在电子设备中实施的语音信息处理方法,其特征在于,所述方法包括:
接收另一电子设备的语音传输请求;
根据所述语音传输请求将第一语音信息转换为第一文字信息;以及
将所述第一语音信息和所述第一文字信息发送给所述另一电子设备。
17.根据权利要求16所述的语音信息处理方法,其特征在于,所述电子设备包括声音特征库,接收所述另一电子设备的语音传输请求之后还包括:
根据所述语音传输请求提取所述第一语音信息所对应的用户信息以及与所述用户信息对应的声音特征信息;
将所述第一语音信息所对应的用户信息以及与所述用户信息对应的声音特征信息存储至所述声音特征库中,以使得当所述电子设备接收到所述另一电子设备发送的声音特征信息传输指令时,根据所述声音特征信息传输指令将用户信息以及与所述用户信息相对应的声音特征信息发送给所述另一电子设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521134.XA CN114648989A (zh) | 2020-12-21 | 2020-12-21 | 在电子设备中实施的语音信息处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521134.XA CN114648989A (zh) | 2020-12-21 | 2020-12-21 | 在电子设备中实施的语音信息处理方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114648989A true CN114648989A (zh) | 2022-06-21 |
Family
ID=81991268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011521134.XA Pending CN114648989A (zh) | 2020-12-21 | 2020-12-21 | 在电子设备中实施的语音信息处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648989A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116437116A (zh) * | 2023-03-03 | 2023-07-14 | 深圳市宏辉智通科技有限公司 | 一种音视频调度方法及系统 |
-
2020
- 2020-12-21 CN CN202011521134.XA patent/CN114648989A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116437116A (zh) * | 2023-03-03 | 2023-07-14 | 深圳市宏辉智通科技有限公司 | 一种音视频调度方法及系统 |
CN116437116B (zh) * | 2023-03-03 | 2024-01-30 | 深圳市宏辉智通科技有限公司 | 一种音视频调度方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631415B2 (en) | Methods for a voice processing system | |
CN110832579B (zh) | 音频播放系统、流音频播放器以及相关的方法 | |
CN103327181B (zh) | 可提高用户获知语音信息效率的语音聊天方法 | |
US7974392B2 (en) | System and method for personalized text-to-voice synthesis | |
US20130103399A1 (en) | Determining and conveying contextual information for real time text | |
CN110149805A (zh) | 双向语音翻译系统、双向语音翻译方法和程序 | |
US11650790B2 (en) | Centrally controlling communication at a venue | |
US10204634B2 (en) | Distributed suppression or enhancement of audio features | |
WO2022169534A1 (en) | Systems and methods of handling speech audio stream interruptions | |
CN114648989A (zh) | 在电子设备中实施的语音信息处理方法、装置及存储介质 | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
JP6172770B2 (ja) | 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム | |
US9972342B2 (en) | Terminal device and communication method for communication of speech signals | |
JP2009053342A (ja) | 議事録作成装置 | |
CN104078049B (zh) | 信号处理设备和信号处理方法 | |
CN112053679A (zh) | 一种基于移动终端的角色分离会议速记系统及方法 | |
JP6766981B2 (ja) | 放送システム、端末装置、放送方法、端末装置の動作方法、および、プログラム | |
JP2005223595A (ja) | 音声認識システムおよびそのプログラム | |
JP5326539B2 (ja) | 留守番電話システム、留守番電話サービスサーバ及び留守番電話サービス方法 | |
JP2005123869A (ja) | 通話内容書き起こしシステムおよび通話内容書き起こし方法 | |
EP2584745B1 (en) | Determining and conveying contextual information for real time text | |
CN116206594A (zh) | 语音跟读方法、装置和电子设备 | |
JP2004309682A (ja) | 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム | |
JP2011048076A (ja) | 通信システム、通信システムの制御方法、移動体通信端末、移動体通信端末の制御方法、及びプログラム | |
JP2008311918A (ja) | 通信システム、通信端末およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |