CN111063347B - 实时语音识别方法、服务端及客户端 - Google Patents

实时语音识别方法、服务端及客户端 Download PDF

Info

Publication number
CN111063347B
CN111063347B CN201911274722.5A CN201911274722A CN111063347B CN 111063347 B CN111063347 B CN 111063347B CN 201911274722 A CN201911274722 A CN 201911274722A CN 111063347 B CN111063347 B CN 111063347B
Authority
CN
China
Prior art keywords
result
intermediate result
difference
differential
current intermediate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911274722.5A
Other languages
English (en)
Other versions
CN111063347A (zh
Inventor
张云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tingjian Technology Co ltd
Original Assignee
Anhui Tingjian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tingjian Technology Co ltd filed Critical Anhui Tingjian Technology Co ltd
Priority to CN201911274722.5A priority Critical patent/CN111063347B/zh
Publication of CN111063347A publication Critical patent/CN111063347A/zh
Application granted granted Critical
Publication of CN111063347B publication Critical patent/CN111063347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种实时语音识别方法、服务端及客户端,其中方法包括:确定语音识别的当前中间结果;对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。本发明实施例提供的方法、服务端及客户端,对当前中间结果以及上一中间结果进行差分,并将差分结果发送至客户端,差分结果的传输和应用,避免了相同内容的重复传输,相比全量传输的方案,缩减了实时语音识别过程中中间结果的传输量的大小,在大量客户端并发的情况下能够明显节省传输资源,实现了流量优化。

Description

实时语音识别方法、服务端及客户端
技术领域
本发明涉及语音识别技术领域,尤其涉及一种实时语音识别方法、服务端及客户端。
背景技术
随着人工智能技术的不断突破,语音识别技术得到了迅速的发展。当前的语音识别技术,可以在实时解码过程中不断将语音识别的中间结果发送到客户端,让用户感知会话过程中一直有字幕弹出,优化语音识别在实时性方面的体验。
为了满足实时性的需求,服务端每次识别出新的词单元,新的词单元之前的信息都可能会被纠正修改,需要将当前句子的所有信息作为中间结果传输至客户端。当中间结果很长时,前后发送的中间结果中重复每次发送的文本字节数最多时达到3K-5K大小,在大量客户端并发的情况下会导致明显的流量浪费。
发明内容
本发明实施例提供一种实时语音识别方法、服务端及客户端,用以解决现有的实时语音识别过程中中间结果的全量传输导致了不必要的流量浪费的问题。
第一方面,本发明实施例提供一种实时语音识别方法,包括:
确定语音识别的当前中间结果;
对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;
将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
优选地,所述对所述当前中间结果,以及上一中间结果进行差分,得到差分结果,具体包括:
若满足预设差分条件,则对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;
否则,将所述当前中间结果发送至客户端。
优选地,所述预设差分条件为所述当前中间结果的数据量大于等于预设差分数据量阈值。
优选地,所述对所述当前中间结果,以及上一中间结果进行差分,得到差分结果,具体包括:
基于预设差分操作类型,对所述当前中间结果,以及上一中间结果进行差分,得到包含所述预设差分操作类型对应类型标识的差分结果。
优选地,所述将所述差分结果发送至客户端,具体包括:
将所述差分结果封装在携带有差分标识的数据包中,并将所述数据包发送至所述客户端。
第二方面,本发明实施例提供一种实时语音识别方法,包括:
接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的;
合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
优选地,所述接收服务端发送的差分结果,具体包括:
接收并解析所述服务端发送的数据包;
若解析得到差分标识,则从所述数据包中提取所述差分结果。
优选地,所述合并所述上一中间结果和所述差分结果,得到所述当前中间结果,具体包括:
基于所述差分结果中包含的类型标识所对应的预设差分操作类型,合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
第三方面,本发明实施例提供一种服务端,包括:
中间结果识别单元,用于确定语音识别的当前中间结果;
差分单元,用于对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;
发送单元,用于将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
第四方面,本发明实施例提供一种客户端,包括:
接收单元,用于接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的;
合并单元,用于合并上一中间结果和所述差分结果,得到所述当前中间结果。
第五方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑指令,以执行如第一方面或第二方面所提供的方法的步骤。
第六方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。
本发明实施例提供的一种实时语音识别方法、服务端及客户端,对当前中间结果以及上一中间结果进行差分,并将差分结果发送至客户端,差分结果的传输和应用,避免了相同内容的重复传输,相比全量传输的方案,缩减了实时语音识别过程中中间结果的传输量的大小,在大量客户端并发的情况下能够明显节省传输资源,实现了流量优化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实时语音识别方法的流程示意图;
图2为本发明实施例提供的差分规则示意图;
图3为本发明另一实施例提供的实时语音识别方法的流程示意图;
图4为本发明又一实施例提供的实时语音识别方法的流程示意图;
图5为本发明再一实施例提供的实时语音识别方法的流程示意图;
图6为本发明实施例提供的服务端的结构示意图;
图7为本发明实施例提供的客户端的结构示意图;
图8为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前的语音识别技术,可以在实时解码过程中不断将语音识别的中间结果发送到客户端,以满足用户的实时性需求。每次的中间结果中均包含了例如VAD(Voice ActivityDetection,语音端点检测)、置信度、分词、词属性在内的各种信息。针对任意一次中间结果,该中间结果中不仅包含有较上一中间结果新生成的信息,还包含有大量与上一中间结果相同的信息。例如,任意一次中间结果对应的文本为“尊敬的领导”,该中间结果的上一中间结果对应的文本为“尊敬的”,两次中间结果包含的“尊敬的”所对应的信息是相同的,这一部分信息存在重复传输。
在中间结果的传输过程中,前后发送的中间结果可能存在大量重复传输的信息,尤其是当中间结果很长时,每次重复发送的文本字节数多达3K-5K大小,前后两次发送的中间结果的内容重复率高达80%。中间结果中部分内容的重复发送,在大量客户端并发的情况下会导致明显的流量浪费。
对此,本发明实施例提供了一种实时语音识别方法。图1为本发明实施例提供的实时语音识别方法的流程示意图,如图1所示,该方法的执行主体可以是执行实时语音识别的服务端,该方法具体用于在中间结果中部分内容重复发送的场景下,此外,该方法也适用于其余存在大量数据重复方法的实时网络业务场景,本发明实施例对此不作具体限定。该方法包括:
步骤110,确定语音识别的当前中间结果。
具体地,在实时语音识别过程中,当前中间结果即当前时刻对语音数据流进行实时解码,得到的中间结果。中间结果通常用于快速上屏,以满足用户对语音识别提出的实时性需求。此处的语音数据流通常是由客户端采集录制并实时传输至服务端的。
步骤120,对当前中间结果,以及上一中间结果进行差分,得到差分结果。
具体地,上一中间结果即在当前中间结果之前实时解码得到的上一个中间结果,相对于上一中间结果,当前中间结果存在新增的词结果,还可能对上一中间结果中信息进行了纠正修改。
为了避免中间结果中部分内容的重复发送,在传输当前中间结果之前,可以对当前中间结果与上一中间结果进行差分,以确定两者的差分结果。此处,差分结果反映了由上一中间结果到当前中间结果的变化,差分结果中包含有当前中间结果在上一中间结果的基础上的全部区别,包括新增的部分,还可以包括对上一中间结果中原有的部分进行的修改。
步骤130,将差分结果发送至客户端,以供客户端通过合并上一中间结果和差分结果,得到当前中间结果。
具体地,在确定差分结果后,将差分结果发送至客户端。客户端在接收到差分结果之后,将上一中间结果与差分结果进行合并,以还原当前中间结果,并执行对应的文本上屏展示等操作。
本发明实施例提供的方法,对当前中间结果以及上一中间结果进行差分,并将差分结果发送至客户端,差分结果的传输和应用,避免了相同内容的重复传输,相比全量传输的方案,缩减了实时语音识别过程中中间结果的传输量的大小,在大量客户端并发的情况下能够明显节省传输资源,实现了流量优化。
基于上述实施例,该方法中,步骤120具体包括:若满足预设差分条件,则对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;否则,将当前中间结果发送至客户端。
具体地,预设差分条件即预先设定的执行差分需要满足的条件,预设差分条件可以有多种,例如客户端预先设定的中间结果传输模式是差分传输还是全量传输,如果是差分传输则进行差分,又例如当前服务端的传输资源是否支持全量传输,如果传输资源短缺不支持全量传输,则进行差分,本发明实施例对此不作具体限定。
在存在预设差分条件时,首先需要判断预设差分条件是否得到满足。如果满足,则对当前中间结果与上一中间结果进行差分,并传输差分结果,
如果不满足,则不对当前中间结果与上一中间结果进行差分,执行全量传输,直接向客户端发送当前中间结果。
本发明实施例提供的方法,通过预设差分条件的设置,实现了全量传输与差分传输两种不同的中间结果传输方法的灵活选择,有助于合理利用传输资源,进一步提高资源利用率。
基于上述任一实施例,该方法中,预设差分条件为当前中间结果的数据量大于等于预设差分数据量阈值。
此处,预设差分数据量阈值为预先设定的执行差分传输时当前中间结果数据量的最小值,例如预设差分数据量阈值为200个字节。
在当前中间结果的数据量较大时,进行差分传输可以显节省传输资源;在当前中间结果的数据量较小时,进行差分传输在传输资源的节省上效果不明显,还需要额外执行差分步骤,且客户端在接收到差分结果之后也需要额外进行合并,增加了服务端和客户端的处理负担,因此选用全量传输,直接传输当前中间结果。
本发明实施例提供的方法,通过比较当前中间结果的数据量与预设差分数据量阈值的大小,判断是否进行差分传输,在优化传输资源的同时尽量减轻服务端和客户端的处理负担。
基于上述任一实施例,该方法中,步骤120具体包括:基于预设差分操作类型,对当前中间结果,以及上一中间结果进行差分,得到包含预设差分操作类型对应类型标识的差分结果。
具体地,差分可以通过多种操作方式实现,例如在当前位置插入一段字符串的插入操作,或者在当前位置复制一段字符串的复制操作等。在进行差分时,可以通过其中一种或者多种操作方式实现。本发明实施例中,预设差分操作类型即预先设定的差分操作方式的类型,预设差分操作类型可以是一种或者多种。
在具体对当前中间结果以及上一中间结果进行差分时,可以将当前中间结果以及上一中间结果划分为若干段字符串,针对每一段字符串,基于预设差分操作类型执行对应的差分操作,并生成包含有预设差分操作类型对应类型标识的差分结果,每段字符串的差分结果构成当前中间结果以及上一中间结果的差分结果。此处,类型标识用于指示生成差分结果所应用的预设差分操作类型。
例如,应用基于Vcdiff协议定义的差分并压缩方法进行差分,对应的三种预设差分操作类型分别为ADD、COPY、RUN,假设S表示上一中间结果对应的字符串,长度为S_len,T表示当前中间结果对应的字符串,上述三种预设差分操作类型的操作方式如下:
ADD x,s:将一个长度为x的字符串s拷贝到T的当前位置;
COPY x,y:当y<S_len时,从S[y]处拷贝长度为x的字符串到T的当前位置;当y≥S_len时,从T[y-S_len]处拷贝长度为x的字符串到T的当前位置。此处,S[y]表示上一中间结果对应的字符串中的第y个字符,T[y-S_len]表示当前中间结果对应的字符串中第y-S_len个字符。
RUN x,z:在T的当前位置增加长度为x的字符串,字符串中每一字符均为z。
需要说明的是,T的当前位置是指当前中间结果在执行完成上一差分操作后对应的字符位置。首次差分操作对应的字符位置即当前中间结果中的首个字符位置。
图2为本发明实施例提供的差分规则示意图,如图2所示,生成差分结果的执行过程示例如下:
假设上一中间结果为“a b c d e f g h i j k l m n o p”,当前中间结果为“ab c d w x y z e f g h e f g h e f g h e f g h z z z z”,生成的差分结果如下:
COPY 4,0
ADD 4,w x y z
COPY 4,4
COPY 12,24
RUN 4,z
上述差分结果中,COPY、ADD、RUN均为预设差分操作类型对应的类型标识,COPY 4,0表示从上一中间结果的第0个字符处拷贝长度为4的字符串至当前中间结果,ADD 4,w x yz表示将长度为4的字符串w x y z增加至当前中间结果,COPY 4,4表示从上一中间结果的第4个字符处拷贝长度为4的字符串至当前中间结果,COPY 12,24表示从当前中间结果的第(24-16)个字符处拷贝长度为12的字符串至当前中间结果,RUN 4,z表示在当前中间结果中增加长度为4个字符的字符串zzzz。
基于上述任一实施例,该方法中,步骤130具体包括:将差分结果封装在携带有差分标识的数据包中,并将数据包发送至客户端。
具体地,差分标识用于指示数据包中包含差分结果,差分标识可以设置在数据包的包头的预设位置,例如预先设定数据包的第一个字节表示数据包中包含的是差分结果还是当前中间结果,0xd1对应于差分标识,0xff对应于非差分标识,如果第一个字节为0xd1,则确定数据包中包含差分结果,如果第一个字节为0xff,则确定数据包中包含当前中间结果。
在差分结果的传输过程中,服务端需要将差分结果封装在携带有差分标识的数据包中,并将数据包发送至客户端。客户端在接收到数据包后,如果从数据包中解析得到差分标识,则确定数据包中包含有差分结果,从数据包中提取差分结果,并将差分结果与上一中间结果进行合并,得到当前中间结果。
在中间结果的传输过程中,服务端需要将当前中间结果封装在携带有非差分标识的数据包中,并将数据包发送至客户端。客户端在接收到数据包后,如果从数据包中解析得到非差分标识,则确定数据包中包含有当前中间结果,从数据包中直接提取当前中间结果。
本发明实施例提供的方法,通过差分标识的设置,实现了差分传输与全量传输的区分。
基于上述任一实施例,图3为本发明另一实施例提供的实时语音识别方法的流程示意图,如图3所示,该方法包括:
步骤310,服务端对输入的实时语音数据流进行识别,产生对应的当前中间结果,当前中间结果包含文字及各词信息、时间信息等各个业务信息。
步骤320,判断当前中间结果的数据量与预设差分数据量阈值的大小,若小于预设差分数据量阈值则执行步骤331,若大于等于预设差分数据量阈值则执行步骤332。
步骤331,将当前中间结果对应的数据包发送到客户端,并执行步骤340。
步骤332,将当前中间结果与上一中间结果进行差分,得到差分结果,并执行步骤333。首次识别时,缓存中没有上一中间结果,可将当前中间结果与空数据包进行差分。
步骤333,将差分结果对应的数据包发送到客户端,并执行步骤340。
步骤340,缓存当前中间结果。
基于上述任一实施例,图4为本发明又一实施例提供的实时语音识别方法的流程示意图,如图4所示,该方法的执行主体可以是客户端,该方法包括:
步骤410,接收服务端发送的差分结果;差分结果为服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的。
具体地,在实时语音识别过程中,当前中间结果即当前时刻服务端对语音数据流进行实时解码,得到的中间结果。上一中间结果即在当前中间结果之前实时解码得到的上一个中间结果,相对于上一中间结果,当前中间结果存在新增的词结果,还可能对上一中间结果中信息进行了纠正修改。
为了避免中间结果中部分内容的重复发送,服务端向客户端发送当前中间结果与上一中间结果的差分结果。此处,差分结果反映了由上一中间结果到当前中间结果的变化,差分结果中包含有当前中间结果在上一中间结果的基础上的全部区别,包括新增的部分,还可以包括对上一中间结果中原有的部分进行的修改。
步骤420,合并上一中间结果和差分结果,得到当前中间结果。
具体地,在接收到差分结果后,可以将上一中间结果与差分结果进行合并,以还原当前中间结果,并执行对应的文本上屏展示等操作。此处,上一中间结果可以预先缓存在客户端。
本发明实施例提供的方法,通过合并上一中间结果和差分结果得到当前中间结果,差分结果的传输和应用,避免了相同内容的重复传输,相比全量传输的方案,缩减了实时语音识别过程中中间结果的传输量的大小,在大量客户端并发的情况下能够明显节省传输资源,实现了流量优化。
基于上述任一实施例,该方法中,步骤410具体包括:接收并解析服务端发送的数据包;若解析得到差分标识,则从数据包中提取差分结果。
具体地,在实时语音识别过程中,服务端传输给客户端的可能是差分结果,也可能是当前中间结果本身。对应地,客户端在接收到服务端发送的数据包后,需要对数据包进行解析,进而确定数据包中包含的是差分结果还是当前中间结果本身。
此处,差分标识用于指示数据包中包含差分结果,差分标识可以设置在数据包的包头的预设位置,例如预先设定数据包的第一个字节表示数据包中包含的是差分结果还是当前中间结果,0xd1对应于差分标识,0xff对应于非差分标识,如果第一个字节为0xd1,则确定数据包中包含差分结果,如果第一个字节为0xff,则确定数据包中包含当前中间结果。
客户端在接收到数据包后,对数据包进行解析,如果解析得到差分标识,则确定数据包中包含有差分结果,从数据包中提取差分结果,并将差分结果与上一中间结果进行合并,得到当前中间结果;如果解析得到非差分标识,则确定数据包中包含有当前中间结果,从数据包中直接提取当前中间结果。
本发明实施例提供的方法,通过差分标识的设置,实现了差分传输与全量传输的区分。
基于上述任一实施例,该方法中,步骤420具体包括:基于差分结果中包含的类型标识所对应的预设差分操作类型,合并上一中间结果和差分结果,得到当前中间结果。
具体地,预设差分操作类型即预先设定的差分操作方式的类型,预设差分操作类型可以是一种或者多种。服务端在进行差分操作时,将使用的预设差分操作类型所对应的类型标识包含在差分结果中发送给客户端。
客户端可以从差分结果中提取得到类型标识,并根据类型标识确定对应的预设差分操作类型,从而基于预设差分操作类型进行上一中间结果和差分结果的合并,进而还原当前中间结果。
基于上述任一实施例,图5为本发明再一实施例提供的实时语音识别方法的流程示意图,如图5所示,该方法包括:
步骤510,客户端接收到服务端发送到包含语音识别结果的数据包。
步骤520,客户端解析数据包,通过是否解析得到差分标识判断数据包中包含差分结果还是当前中间结果本身,如果未得到差分标识,则执行步骤531,如果得到差分标识,则执行步骤532。
步骤531,直接展示从数据包中提取的当前中间结果,并执行步骤540。
步骤532,将从数据包中提取的差分结果与缓存中的上一中间结果进行合并,得到合并后的当前中间结果,并执行步骤533。
步骤533,展示合并后得到的当前中间结果,并执行步骤540。
步骤540,缓存当前中间结果。
基于上述任一实施例,图6为本发明实施例提供的服务端的结构示意图,如图6所示,服务端包括中间结果识别单元610、差分单元620以及发送单元630;
其中,中间结果识别单元610用于确定语音识别的当前中间结果;
差分单元620用于对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;
发送单元630用于将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
本发明实施例提供的服务端,对当前中间结果以及上一中间结果进行差分,并将差分结果发送至客户端,差分结果的传输和应用,避免了相同内容的重复传输,相比全量传输的方案,缩减了实时语音识别过程中中间结果的传输量的大小,在大量客户端并发的情况下能够明显节省传输资源,实现了流量优化。
基于上述任一实施例,服务端中,差分单元620具体用于:
若满足预设差分条件,则对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;
否则,将所述当前中间结果发送至客户端。
基于上述任一实施例,服务端中,所述预设差分条件为所述当前中间结果的数据量大于等于预设差分数据量阈值。
基于上述任一实施例,服务端中,差分单元620具体用于:
基于预设差分操作类型,对所述当前中间结果,以及上一中间结果进行差分,得到包含所述预设差分操作类型对应类型标识的差分结果。
基于上述任一实施例,服务端中,发送单元630具体用于:
将所述差分结果封装在携带有差分标识的数据包中,并将所述数据包发送至所述客户端。
基于上述任一实施例,图7为本发明实施例提供的客户端的结构示意图,如图7所示,客户端包括接收单元710和合并单元720;
其中,接收单元710用于接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的;
合并单元720用于合并上一中间结果和所述差分结果,得到所述当前中间结果。
本发明实施例提供的客户端,通过合并上一中间结果和差分结果得到当前中间结果,差分结果的传输和应用,避免了相同内容的重复传输,相比全量传输的方案,缩减了实时语音识别过程中中间结果的传输量的大小,在大量客户端并发的情况下能够明显节省传输资源,实现了流量优化。
基于上述任一实施例,客户端中,接收单元710具体用于:
接收并解析所述服务端发送的数据包;
若解析得到差分标识,则从所述数据包中提取所述差分结果。
基于上述任一实施例,客户端中,合并单元720具体用于:
基于所述差分结果中包含的类型标识所对应的预设差分操作类型,合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
图8为本发明实施例提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:确定语音识别的当前中间结果;对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
处理器810还可以调用存储器830中的逻辑指令,以执行如下方法:接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的;合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定语音识别的当前中间结果;对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的;合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种实时语音识别方法,其特征在于,包括:
确定语音识别的当前中间结果;
对所述当前中间结果,以及上一中间结果进行差分,得到差分结果,所述差分结果中包含有当前中间结果在上一中间结果的基础上的全部区别;
将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
2.根据权利要求1所述的实时语音识别方法,其特征在于,所述对所述当前中间结果,以及上一中间结果进行差分,得到差分结果,具体包括:
若满足预设差分条件,则对所述当前中间结果,以及上一中间结果进行差分,得到差分结果;
否则,将所述当前中间结果发送至客户端。
3.根据权利要求2所述的实时语音识别方法,其特征在于,所述预设差分条件为所述当前中间结果的数据量大于等于预设差分数据量阈值。
4.根据权利要求1至3中任一项所述的实时语音识别方法,其特征在于,所述对所述当前中间结果,以及上一中间结果进行差分,得到差分结果,具体包括:
基于预设差分操作类型,对所述当前中间结果,以及上一中间结果进行差分,得到包含所述预设差分操作类型对应类型标识的差分结果。
5.根据权利要求1至3任一项所述的实时语音识别方法,其特征在于,所述将所述差分结果发送至客户端,具体包括:
将所述差分结果封装在携带有差分标识的数据包中,并将所述数据包发送至所述客户端。
6.一种实时语音识别方法,其特征在于,包括:
接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的,所述差分结果中包含有当前中间结果在上一中间结果的基础上的全部区别;
合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
7.根据权利要求6所述的实时语音识别方法,其特征在于,所述接收服务端发送的差分结果,具体包括:
接收并解析所述服务端发送的数据包;
若解析得到差分标识,则从所述数据包中提取所述差分结果。
8.根据权利要求6或7所述的实时语音识别方法,其特征在于,所述合并所述上一中间结果和所述差分结果,得到所述当前中间结果,具体包括:
基于所述差分结果中包含的类型标识所对应的预设差分操作类型,合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
9.一种服务端,其特征在于,包括:
中间结果识别单元,用于确定语音识别的当前中间结果;
差分单元,用于对所述当前中间结果,以及上一中间结果进行差分,得到差分结果,所述差分结果中包含有当前中间结果在上一中间结果的基础上的全部区别;
发送单元,用于将所述差分结果发送至客户端,以供所述客户端通过合并所述上一中间结果和所述差分结果,得到所述当前中间结果。
10.一种客户端,其特征在于,包括:
接收单元,用于接收服务端发送的差分结果;所述差分结果为所述服务端对语音识别的当前中间结果,以及上一中间结果进行差分得到的,所述差分结果中包含有当前中间结果在上一中间结果的基础上的全部区别;
合并单元,用于合并上一中间结果和所述差分结果,得到所述当前中间结果。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的实时语音识别方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8中任一项所述的实时语音识别方法的步骤。
CN201911274722.5A 2019-12-12 2019-12-12 实时语音识别方法、服务端及客户端 Active CN111063347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911274722.5A CN111063347B (zh) 2019-12-12 2019-12-12 实时语音识别方法、服务端及客户端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911274722.5A CN111063347B (zh) 2019-12-12 2019-12-12 实时语音识别方法、服务端及客户端

Publications (2)

Publication Number Publication Date
CN111063347A CN111063347A (zh) 2020-04-24
CN111063347B true CN111063347B (zh) 2022-06-07

Family

ID=70298823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911274722.5A Active CN111063347B (zh) 2019-12-12 2019-12-12 实时语音识别方法、服务端及客户端

Country Status (1)

Country Link
CN (1) CN111063347B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770286B (zh) * 2021-01-13 2023-11-17 深圳市木千科技有限公司 一种传感器的数据处理方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026741A2 (ko) * 2010-08-24 2012-03-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
DE112013006728B4 (de) * 2013-02-25 2020-10-01 Mitsubishi Electric Corporation Spracherkennungssystem und Spracherkennungsgerät
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
CN109473116B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 语音编码方法、语音解码方法及装置
CN110148403B (zh) * 2019-05-21 2021-04-13 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统

Also Published As

Publication number Publication date
CN111063347A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
US10929600B2 (en) Method and apparatus for identifying type of text information, storage medium, and electronic apparatus
US20140379328A1 (en) Apparatus and method for outputting image according to text input in real time
EP3410302A1 (en) Graphic instruction data processing method, apparatus and system
CN112817602B (zh) 一种json格式数据发送、接收方法、设备及介质
CN112929253B (zh) 一种虚拟形象交互方法和装置
CN109714406B (zh) 资源描述文件的处理、页面资源的获取方法及设备
CN111816190A (zh) 用于上位机与下位机的语音交互方法和装置
CN111104214B (zh) 一种工作流应用方法及装置
CN111063347B (zh) 实时语音识别方法、服务端及客户端
CN114553730B (zh) 一种应用识别方法、装置、电子设备及存储介质
WO2016146009A1 (zh) Html页面压缩方法及装置
CN114449327B (zh) 视频片段的分享方法、装置、电子设备及可读存储介质
CN108965345B (zh) 一种小信令网络数据包的优化方法及装置
CN108287874B (zh) 一种db2数据库管理方法及装置
CN113343066A (zh) 页面处理方法、装置、电子设备和存储介质
CN113378025B (zh) 数据处理方法、装置、电子设备及存储介质
CN114071192A (zh) 信息获取方法、终端、服务器、电子设备以及存储介质
CN113852835A (zh) 直播音频处理方法、装置、电子设备以及存储介质
CN113076932A (zh) 训练音频语种识别模型的方法、视频检测方法及其装置
CN108156514B (zh) 媒体文件的播放方法、装置及存储介质
CN111126003A (zh) 话单数据处理方法及装置
CN113765769B (zh) 消息显示方法、发送方法、装置、设备及介质
CN110083626B (zh) 流式事件序列匹配方法及装置
CN113722496B (zh) 一种三元组抽取方法、装置、可读存储介质及电子设备
CN110677251B (zh) 一种信息处理方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant