CN103634321B - 语音识别结果的展现方法和装置 - Google Patents

语音识别结果的展现方法和装置 Download PDF

Info

Publication number
CN103634321B
CN103634321B CN201310648482.7A CN201310648482A CN103634321B CN 103634321 B CN103634321 B CN 103634321B CN 201310648482 A CN201310648482 A CN 201310648482A CN 103634321 B CN103634321 B CN 103634321B
Authority
CN
China
Prior art keywords
recognition result
time
represented
represent
current network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310648482.7A
Other languages
English (en)
Other versions
CN103634321A (zh
Inventor
刘俊启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310648482.7A priority Critical patent/CN103634321B/zh
Publication of CN103634321A publication Critical patent/CN103634321A/zh
Application granted granted Critical
Publication of CN103634321B publication Critical patent/CN103634321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提出一种语音识别结果的展现方法和装置,其中该展现方法包括:将语音数据发送至服务器;接收服务器生成的多个识别结果数据包,并根据多个识别结果数据包生成待展现识别结果队列,其中,待展现识别结果队列包括多个待展现识别结果;以及根据客户端的当前网速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。本发明实施例的展现方法可动态调整语音识别结果展示频率,能够保证语音识别结果的连贯性,避免在识别结果展现时存在空档期,对于用户来说,可使得用户能够真实感受到语音识别输入的过程,提升用户体验。

Description

语音识别结果的展现方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种语音识别结果的展现方法和装置。
背景技术
随着互联网技术的快速发展,以智能手机为代表的各种智能终端越来越多地占据人们的生活,触摸屏也成为智能手机的主流屏配置。但无论是手机的物理键盘还是触摸屏上的虚拟键盘,由于尺寸的限制,在手机上进行文本输入总是不如PC(Personal Computer,个人计算机)键盘输入那样快捷方便。因此,通过语音识别的功能在手机上进行文本输入成为一个大趋势。语音输入法、语音发短信、语音搜索之类的应用越来越多地出现在智能手机中。
目前,语音识别结果的显示方式主要有两种:一种是等待语音识别过程结束后,一次性将识别结果输出到显示窗口中;另一种是在语音识别过程中,只要收到识别结果,就将识别结果输出到显示窗口中。显然,从用户体验上来看,第二种显示方式要比第一种显示方式更好些。
目前存在的问题是,对于第二种显示方式来说,会由于各种原因而影响其显示效果,例如,由于语音识别过程是客户端与服务端共同完成,识别的速度也会受到网络带宽的影响,所以客户端收到返回结果展示给用户的频率也会受到影响,又如,在网速较慢的时候,会经常出现展示识别结果时断断续续的问题,同时也会对用户的语音输入过程产生误导,影响用户原语速节奏,从而影响识别结果的准确率。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别结果的展现方法。该方法能够保证语音识别结果的连贯性,避免在识别结果展现时存在空档期,对于用户来说,可使得用户能够真实感受到语音识别输入的过程,提升用户体验。
本发明的第二个目的在于提出一种语音识别结果的展现装置。
为了实现上述目的,本发明第一方面实施例的语音识别结果的展现方法包括:将语音数据发送至服务器;接收所述服务器生成的多个识别结果数据包,并根据所述多个识别结果数据包生成待展现识别结果队列,其中,所述待展现识别结果队列包括多个待展现识别结果;以及根据客户端的当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
本发明实施例的语音识别结果的展现方法,可根据客户端的当前网速获取每个待展现识别结果的展现时间,并可根据该展现时间展现对应的待展现识别结果,从而当网络状态很好的情况下,可使得展现频率与用户语速一致,当网络状态差的情况下,可动态调整语音识别结果展示频率,能够保证语音识别结果的连贯性,避免在识别结果展现时存在空档期,对于用户来说,可使得用户能够真实感受到语音识别输入的过程,提升用户体验。
为了实现上述目的,本发明第二方面实施例的语音识别结果的展现装置,包括:语音数据发送模块,用于将语音数据发送至服务器;待展现识别结果队列生成模块,用于接收所述服务器生成的多个识别结果数据包,并根据所述多个识别结果数据包生成待展现识别结果队列,其中,所述待展现识别结果队列包括多个待展现识别结果;以及展现模块,用于根据客户端的当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
本发明实施例的语音识别结果的展现装置,可通过展现模块根据客户端的当前网速获取每个待展现识别结果的展现时间,并可根据该展现时间展现对应的待展现识别结果,从而当网络状态很好的情况下,可使得展现频率与用户语速一致,当网络状态差的情况下,可动态调整语音识别结果展示频率,能够保证语音识别结果的连贯性,避免在识别结果展现时存在空档期,对于用户来说,可使得用户能够真实感受到语音识别输入的过程,提升用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的语音识别结果的展现方法的流程图;
图2是根据本发明一个具体实施例的语音识别结果的展现方法的流程图;
图3是根据本发明另一个具体实施例的语音识别结果的展现方法的流程图;
图4是根据本发明一个实施例的语音识别结果的展现装置的结构示意图;
图5是根据本发明一个具体实施例的语音识别结果的展现装置的结构示意图;
图6是根据本发明另一个具体实施例的语音识别结果的展现装置的结构示意图;
图7是根据本发明又一个具体实施例的语音识别结果的展现装置的结构示意图;
图8是根据本发明再一个具体实施例的语音识别结果的展现装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
为了解决由于网络带宽影响语音识别结果的展示效果,从而影响识别结果的准确率的问题,本发明提出一种语音识别结果的展现方法和装置,下面参考附图描述根据本发明实施例的语音识别结果的展现方法和装置。
一种语音识别结果的展现方法,包括:将语音数据发送至服务器;接收服务器生成的多个识别结果数据包,并根据多个识别结果数据包生成待展现识别结果队列,其中,待展现识别结果队列包括多个待展现识别结果;以及根据客户端的当前网速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。
图1是根据本发明一个实施例的语音识别结果的展现方法的流程图。
如图1所示,语音识别结果的展现方法包括:
S101,将语音数据发送至服务器。
例如,用户可通过客户端输入一段语音,客户端可将用户输入的语音数据发送至服务器,服务器可根据预设算法对该语音数据进行语音识别,并生成该语音数据对应的多个识别结果数据包。其中,预设算法可理解为现有算法,也就是说,服务器可根据现有算法技术对客户端发送的语音数据进行语音识别。其中,客户端可以是具有语音识别功能的应用程序。应当理解,在本发明的实施例中,客户端还可以是PC机,也还可以是移动终端。此外,移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
S102,接收服务器生成的多个识别结果数据包,并根据多个识别结果数据包生成待展现识别结果队列,其中,待展现识别结果队列包括多个待展现识别结果。
可以理解,在本发明的实施例中,每个识别结果数据包中的识别结果个数可以为一个,也可以为多个。
S103,根据客户端的当前网速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。
例如,当前客户端的用户正在通过网络带宽(如WiFi(Wireless Fidelity,无线保真)等)或移动网络(如2G(The2nd Generation,第二代移动通信技术网络)、3G(3rd-Generation,第三代移动通信技术)网络等)与服务器通信并进行语音识别,如果此时客户端的当前网速很好,则客户端可按照用户的语速对待展现识别结果队列中的多个待展现识别结果进行展现,如果此时客户端的当前网速很差,则客户端可先对待展现识别结果队列的展现频率进行均衡控制,以使得待展现识别结果的展现频率均匀,避免在识别结果展现时存在空档期。
本发明实施例的语音识别结果的展现方法,可根据客户端的当前网速获取每个待展现识别结果的展现时间,并可根据该展现时间展现对应的待展现识别结果,从而当网络状态很好的情况下,可使得展现频率与用户语速一致,当网络状态差的情况下,可动态调整语音识别结果展示频率,能够保证语音识别结果的连贯性,避免在识别结果展现时存在空档期,对于用户来说,可使得用户能够真实感受到语音识别输入的过程,提升用户体验。
图2是根据本发明一个具体实施例的语音识别结果的展现方法的流程图。
在本发明的一个实施例中,客户端可将语音数据分为多个语音数据包发送至服务器,并可根据多个语音数据包的数据量和每个识别结果数据包的返回时间获取客户端的当前网速,具体地,如图2所示,语音识别结果的展现方法包括:
S201,将语音数据分为多个语音数据包发送至服务器,并记录多个语音数据包的数据量。
例如,客户端将语音数据上传至服务器进行语音识别时,可先将该语音数据分为多个语音数据包,然后分别将该多个语音数据包上传至服务器,并记录每个语音数据包的数据量,服务器接收到该多个语音数据包之后,可根据预设算法对该多个语音数据包进行语音识别,并生成对应的多个识别结果数据包。其中,预设算法可理解为现有算法,也就是说,服务器可根据现有算法技术对客户端发送的语音数据进行语音识别。其中,客户端可以是具有语音识别功能的应用程序。应当理解,在本发明的实施例中,客户端还可以是PC机,也还可以是移动终端。此外,移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
S202,接收服务器生成的多个识别结果数据包,并根据多个识别结果数据包生成待展现识别结果队列,其中,待展现识别结果队列包括多个待展现识别结果。
可以理解,在本发明的实施例中,每个识别结果数据包中的识别结果个数可以为一个,也可以为多个。
S203,记录每个识别结果数据包的返回时间。
具体地,客户端在接收服务器生成的多个识别结果数据包之后,可记录每个语音数据包返回对应的识别结果数据包时所需的时间。
S204,根据返回时间和数据量获取客户端的当前网速。
具体地,可根据返回每个识别结果数据包时所需的时间和每个语音数据包的数据量获取客户端的当前网速。例如,可将每个语音数据包的数据量与每个识别结果数据包的返回时间做除法计算,以得出客户端的当前网速。应当理解,在本发明的实施例中,在获取客户端的当前网速的过程中,还需考虑并发情况。
S205,根据客户端的当前网速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。
例如,当前客户端的用户正在通过网络带宽(如WiFi等)或移动网络(如2G、3G网络等)与服务器通信并进行语音识别,如果此时客户端的当前网速很好,则客户端可按照用户的语速对待展现识别结果队列中的多个待展现识别结果进行展现,如果此时客户端的当前网速很差,则客户端可先对待展现识别结果队列的展现频率进行均衡控制,以使得待展现识别结果的展现频率均匀,避免在识别结果展现时存在空档期。
本发明实施例的语音识别结果的展现方法,可将语音数据分为多个语音数据包发送至服务器,并可根据多个语音数据包的数据量和每个识别结果数据包的返回时间获取客户端的当前网速,提高了获取当前网速的精确度。
图3是根据本发明另一个具体实施例的语音识别结果的展现方法的流程图。
在本发明的一个实施例中,客户端可对客户端的当前网速进行判断,并根据判断结果对每个待展现识别结果进行展现控制,具体地,如图3所示,语音识别结果的展现方法包括:
S301,将语音数据分为多个语音数据包发送至服务器,并记录多个语音数据包的数据量。
例如,客户端将语音数据上传至服务器进行语音识别时,可先将该语音数据分为多个语音数据包,然后分别将该多个语音数据包上传至服务器,并记录每个语音数据包的数据量,服务器接收到该多个语音数据包之后,可根据预设算法对该多个语音数据包进行语音识别,并生成对应的多个识别结果数据包。其中,预设算法可理解为现有算法,也就是说,服务器可根据现有算法技术对客户端发送的语音数据进行语音识别。其中,客户端可以是具有语音识别功能的应用程序。应当理解,在本发明的实施例中,客户端还可以是PC机,也还可以是移动终端。此外,移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
S302,接收服务器生成的多个识别结果数据包,并根据多个识别结果数据包生成待展现识别结果队列,其中,待展现识别结果队列包括多个待展现识别结果。
可以理解,在本发明的实施例中,每个识别结果数据包中的识别结果个数可以为一个,也可以为多个。
S303,记录每个识别结果数据包的返回时间。
具体地,客户端在接收服务器生成的多个识别结果数据包之后,可记录每个语音数据包返回对应的识别结果数据包时所需的时间。
S304,根据返回时间和数据量获取客户端的当前网速。
具体地,可根据返回每个识别结果数据包时所需的时间和每个语音数据包的数据量获取客户端的当前网速。例如,可将每个语音数据包的数据量与每个识别结果数据包的返回时间做除法计算,以得出客户端的当前网速。应当理解,在本发明的实施例中,在获取客户端的当前网速的过程中,还需考虑并发情况。
S305,判断当前网速是否小于预设阀值。
其中,预设阀值可由系统默认设定的,也可由大量实验验证而得出的。
S306,如果判断当前网速大于或等于预设阀值,则根据多个识别结果数据包的语速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。
其中,可根据待展示识别结果的个数和识别结果数据包的返回时间获取多个识别结果数据包的语速,具体地,在本发明的实施例中,该语音识别结果的展现方法还包括:记录待展示识别结果的个数;以及根据个数和返回时间获取多个识别结果数据包的语速。更具体地,客户端在根据多个识别结果数据包生成待展现识别结果队列之后,可记录该待展现识别结果队列中所有待展示识别结果的个数,并可根据最后一个识别结果数据包的返回时间和第一个识别结果数据包的返回时间,以获取该展示识别结果队列相对于时间轴上的时间差,之后可将待展示识别结果的个数和该时间差作除法计算,可得在某一时间段内多个识别结果数据包的语速。
具体地,如果判断当前网速大于或等于预设阀值,即可认为客户端的当前网速情况很好,客户端可根据识别结果数据包的语速频率对待展现识别结果进行展现,即首先可根据该语速频率获取每个待展现识别结果的展现时间,之后可根据该展现时间展现对应的待展现识别结果。
S307,如果判断当前网速小于预设阀值,则根据每个语音数据包的发送时间、每个识别结果数据包的返回时间和当前网络传输的实时率获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。
具体地,如果判断当前网速小于预设阀值,即可认为客户端的当前网速情况很差,客户端首先可根据每个语音数据包的发送时间和每个识别结果数据包的返回时间,以获取每个待展现识别结果的待展现时间,之后可参考每秒所需的网络数据量得出当前网络传输的实时率,并可根据该待展现时间和当前网络传输的实时率,以获取每个待展现识别结果的展现时间,最后可根据该展现时间展现对应的待展现识别结果。
本发明实施例的语音识别结果的展现方法,可对客户端的当前网速进行判断,并根据判断结果对每个待展现识别结果进行展现控制,通过参考网络状态、用户语速及语音识别的状态,动态调整语音识别结果的展现频率,使得识别结果的展现效果更佳,提升用户体验。
在本发明的一个实施例中,该语音识别结果的展现方法还包括:获取每个待展现识别结果的语义信息;以及根据语义信息和当前网速获取每个待展现识别结果的展现时间。具体地,客户端可获取每个待展现识别结果的语义信息,并可根据该语义信息和客户端的当前网速获取每个待展现识别结果的展现时间,之后可根据该展现时间展现对应的待展现识别结果。例如,对于“对不起”、“谢谢”等经常使用的词语,用户在说这类词语时的语速一般会很快,客户端可根据该语义信息和当前网速动态调整这类词语的展现频率。也就是说,当用户说话的语速很快时,可将对应的语音识别结果的展现频率拉大,当用户说话的语速慢时,可将对应的语音识别结果的展现频率缩小,这样通过整体动态调整展现频率的快慢,以使得待展现识别结果的展现频率均匀,避免在识别结果展现时存在空档期,进一步提高识别结果的展现效果,提升用户体验。
为了使得本领域的技术人员更加了解本发明的优点,下面通过具体示例的描述,使得本发明的优点更加明显。
例如,用户输入一段语音“今天的天气怎么样”,客户端可先将该语音分为多个语音数据包,假设客户端每半秒向服务器发送一次语音数据包,语速为每秒2个左右,客户端可通过三个线程将多个语音数据包发送至服务器,服务器根据预设算法对该多个语音数据包进行语音识别,并生成对应的多个识别结果数据包,并通过这三个线程将识别结果数据包发送至客户端,如下表1所示,客户端通过现有技术展示待展现识别结果时,会出现展现效果不流畅,会存在空档期,而客户端通过本发明展示待展现识别结果时,可通过动态调整展现频率,使得总体的识别结果反馈更加流畅,从而提升用户体验。
表1
为了实现上述实施例,本发明还提出一种语音识别结果的展现装置。
一种语音识别结果的展现装置,包括:语音数据发送模块,用于将语音数据发送至服务器;待展现识别结果队列生成模块,用于接收所述服务器生成的多个识别结果数据包,并根据所述多个识别结果数据包生成待展现识别结果队列,其中,所述待展现识别结果队列包括多个待展现识别结果;以及展现模块,用于根据客户端的当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
图4是根据本发明一个实施例的语音识别结果的展现装置的结构示意图。
如图4所示,语音识别结果的展现装置包括:语音数据发送模块100、待展现识别结果队列生成模块200和展现模块300。
具体地,语音数据发送模块100用于将语音数据发送至服务器。例如,用户可通过客户端输入一段语音,语音数据发送模块100可将用户输入的语音数据发送至服务器,服务器可根据预设算法对该语音数据进行语音识别,并生成该语音数据对应的多个识别结果数据包。其中,预设算法可理解为现有算法,也就是说,服务器可根据现有算法技术对客户端发送的语音数据进行语音识别。其中,客户端可以是具有语音识别功能的应用程序。应当理解,在本发明的实施例中,客户端还可以是PC机,也还可以是移动终端。此外,移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
待展现识别结果队列生成模块200用于接收服务器生成的多个识别结果数据包,并根据多个识别结果数据包生成待展现识别结果队列,其中,待展现识别结果队列包括多个待展现识别结果。可以理解,在本发明的实施例中,每个识别结果数据包中的识别结果个数可以为一个,也可以为多个。
展现模块300用于根据客户端的当前网速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。例如,当前客户端的用户正在通过网络带宽(如WiFi等)或移动网络(如2G、3G网络等)与服务器通信并进行语音识别,如果此时客户端的当前网速很好,则展现模块300可按照用户的语速对待展现识别结果队列中的多个待展现识别结果进行展现,如果此时客户端的当前网速很差,则展现模块300可先对待展现识别结果队列的展现频率进行均衡控制,以使得待展现识别结果的展现频率均匀,避免在识别结果展现时存在空档期。
本发明实施例的语音识别结果的展现装置,可通过展现模块根据客户端的当前网速获取每个待展现识别结果的展现时间,并可根据该展现时间展现对应的待展现识别结果,从而当网络状态很好的情况下,可使得展现频率与用户语速一致,当网络状态差的情况下,可动态调整语音识别结果展示频率,能够保证语音识别结果的连贯性,避免在识别结果展现时存在空档期,对于用户来说,可使得用户能够真实感受到语音识别输入的过程,提升用户体验。
图5是根据本发明一个具体实施例的语音识别结果的展现装置的结构示意图。
如图5所示,语音识别结果的展现装置包括:语音数据发送模块100、待展现识别结果队列生成模块200、展现模块300、返回时间记录模块400和当前网速获取模块500。
其中,在本发明的一个实施例中,语音数据发送模块100还用于将语音数据分为多个语音数据包发送至服务器,并记录多个语音数据包的数据量。具体地,语音数据发送模块100将语音数据上传至服务器进行语音识别时,可先将该语音数据分为多个语音数据包,然后分别将该多个语音数据包上传至服务器,并记录每个语音数据包的数据量。
具体地,返回时间记录模块400用于记录每个识别结果数据包的返回时间。更具体地,返回时间记录模块400可在待展现识别结果队列生成模块200接收服务器生成的多个识别结果数据包之后,记录每个语音数据包返回对应的识别结果数据包时所需的时间。
当前网速获取模块500用于根据返回时间和数据量获取客户端的当前网速。更具体地,当前网速获取模块500可根据返回每个识别结果数据包时所需的时间和每个语音数据包的数据量获取客户端的当前网速。例如,可将每个语音数据包的数据量与每个识别结果数据包的返回时间做除法计算,以得出客户端的当前网速。应当理解,在本发明的实施例中,在获取客户端的当前网速的过程中,还需考虑并发情况。
本发明实施例的语音识别结果的展现装置,通过语音数据发送模块将语音数据分为多个语音数据包发送至服务器,当前网速获取模块根据多个语音数据包的数据量和每个识别结果数据包的返回时间获取客户端的当前网速,提高了获取当前网速的精确度。
图6是根据本发明另一个具体实施例的语音识别结果的展现装置的结构示意图。
如图6所示,语音识别结果的展现装置包括:语音数据发送模块100、待展现识别结果队列生成模块200、展现模块300、返回时间记录模块400、当前网速获取模块500、个数记录模块600、和语速获取模块700。
具体地,个数记录模块600用于记录待展示识别结果的个数。更具体地,个数记录模块600在待展现识别结果队列生成模块200根据多个识别结果数据包生成待展现识别结果队列之后,可记录该待展现识别结果队列中所有待展示识别结果的个数。
语速获取模块700用于根据个数和返回时间获取多个识别结果数据包的语速。更具体地,语速获取模块700可根据最后一个识别结果数据包的返回时间和第一个识别结果数据包的返回时间,以获取该展示识别结果队列相对于时间轴上的时间差,之后可将待展示识别结果的个数和该时间差作除法计算,可得在某一时间段内多个识别结果数据包的语速。
本发明实施例的语音识别结果的展现装置,通过个数记录模块记录待展示识别结果的个数,语速获取模块根据个数和返回时间获取多个识别结果数据包的语速,以使得在客户端的当前网速很好的情况下,能够根据该语速获取每个待展现识别结果的展现时间,从而使得语音识别结果的展现频率与用户语速一致。
图7是根据本发明又一个具体实施例的语音识别结果的展现装置的结构示意图。
如图7所示,语音识别结果的展现装置包括:语音数据发送模块100、待展现识别结果队列生成模块200、展现模块300、返回时间记录模块400、当前网速获取模块500、个数记录模块600、语速获取模块700、判断单元301和展现时间获取单元302。其中,展现模块300包括判断单元301和展现时间获取单元302。
具体地,判断单元301用于判断当前网速是否小于预设阀值。其中,预设阀值可由系统默认设定的,也可由大量实验验证而得出的。
展现时间获取单元302用于在判断单元301判断当前网速大于或等于预设阀值时,根据多个识别结果数据包的语速获取每个待展现识别结果的展现时间。更具体地,判断单元301判断当前网速大于或等于预设阀值,即可认为客户端的当前网速情况很好,展现时间获取单元302可根据识别结果数据包的语速频率对待展现识别结果进行展现,即首先可根据该语速频率获取每个待展现识别结果的展现时间,之后可根据该展现时间展现对应的待展现识别结果。
在本发明的一个实施例中,展现时间获取单元302还用于在判断单元301判断当前网速小于预设阀值时,根据每个语音数据包的发送时间、每个识别结果数据包的返回时间和当前网络传输的实时率获取每个待展现识别结果的展现时间。更具体地,判断单元301判断当前网速小于预设阀值,即可认为客户端的当前网速情况很差,展现时间获取单元302首先可根据每个语音数据包的发送时间和每个识别结果数据包的返回时间,以获取每个待展现识别结果的待展现时间,之后可根据该待展现时间和当前网络传输的实时率,以获取每个待展现识别结果的展现时间,最后可根据该展现时间展现对应的待展现识别结果。
本发明实施例的语音识别结果的展现装置,通过判断单元判断当前网速是否小于预设阀值,展现时间获取单元根据判断结果来获取每个待展现识别结果的展现时间,通过参考网络状态、用户语速及语音识别的状态,动态调整语音识别结果的展现频率,使得识别结果的展现效果更佳,提升用户体验。
图8是根据本发明再一个具体实施例的语音识别结果的展现装置的结构示意图。
如图8所示,语音识别结果的展现装置包括:语音数据发送模块100、待展现识别结果队列生成模块200、展现模块300、返回时间记录模块400、当前网速获取模块500、个数记录模块600、语速获取模块700、语义信息获取模块800、判断单元301和展现时间获取单元302。其中,展现模块300包括判断单元301和展现时间获取单元302。
具体地,语义信息获取模块800用于获取每个待展现识别结果的语义信息。其中,在本发明的实施例中,展现模块300还用于根据语义信息和当前网速获取每个待展现识别结果的展现时间,并根据展现时间展现对应的待展现识别结果。
更具体地,语义信息获取模块800可获取每个待展现识别结果的语义信息,展现模块300可根据该语义信息和客户端的当前网速获取每个待展现识别结果的展现时间,之后可根据该展现时间展现对应的待展现识别结果。例如,对于“对不起”、“谢谢”等经常使用的词语,用户在说这类词语时的语速一般会很快,展现模块300可根据该语义信息和当前网速动态调整这类词语的展现频率。也就是说,当用户说话的语速很快时,可将对应的语音识别结果的展现频率拉大,当用户说话的语速慢时,可将对应的语音识别结果的展现频率缩小。
本发明实施例的语音识别结果的展现装置,通过语义信息获取模块获取每个待展现识别结果的语义信息,展现模块根据语义信息和当前网速获取每个待展现识别结果的展现时间,通过整体动态调整展现频率的快慢,以使得待展现识别结果的展现频率均匀,避免在识别结果展现时存在空档期,进一步提高识别结果的展现效果,提升用户体验。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (12)

1.一种语音识别结果的展现方法,其特征在于,包括:
将语音数据发送至服务器;
接收所述服务器生成的多个识别结果数据包,并根据所述多个识别结果数据包生成待展现识别结果队列,其中,所述待展现识别结果队列包括多个待展现识别结果;以及
根据客户端的当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
2.如权利要求1所述的方法,其特征在于,所述将语音数据发送至服务器具体包括:
将所述语音数据分为多个语音数据包发送至所述服务器,并记录所述多个语音数据包的数据量。
3.如权利要求2所述的方法,其特征在于,还包括:
记录每个所述识别结果数据包的返回时间;以及
根据所述返回时间和所述数据量获取所述客户端的当前网速。
4.如权利要求3所述的方法,其特征在于,还包括:
记录所述待展示识别结果的个数;以及
根据所述个数和所述返回时间获取所述多个识别结果数据包的语速。
5.如权利要求3所述的方法,其特征在于,所述根据客户端的当前网速获取每个所述待展现识别结果的展现时间具体包括:
判断所述当前网速是否小于预设阀值;
如果判断所述当前网速大于或等于所述预设阀值,则根据所述多个识别结果数据包的语速获取每个所述待展现识别结果的展现时间;以及
如果判断所述当前网速小于所述预设阀值,则根据每个所述语音数据包的发送时间、每个所述识别结果数据包的返回时间和当前网络传输的实时率获取每个所述待展现识别结果的展现时间。
6.如权利要求1所述的方法,其特征在于,还包括:
获取每个所述待展现识别结果的语义信息;以及
根据所述语义信息和所述当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
7.一种语音识别结果的展现装置,其特征在于,包括:
语音数据发送模块,用于将语音数据发送至服务器;
待展现识别结果队列生成模块,用于接收所述服务器生成的多个识别结果数据包,并根据所述多个识别结果数据包生成待展现识别结果队列,其中,所述待展现识别结果队列包括多个待展现识别结果;以及
展现模块,用于根据客户端的当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
8.如权利要求7所述的装置,其特征在于,所述语音数据发送模块还用于:将所述语音数据分为多个语音数据包发送至所述服务器,并记录所述多个语音数据包的数据量。
9.如权利要求8所述的装置,其特征在于,还包括:
返回时间记录模块,用于记录每个所述识别结果数据包的返回时间;以及
当前网速获取模块,用于根据所述返回时间和所述数据量获取所述客户端的当前网速。
10.如权利要求9所述的装置,其特征在于,还包括:
个数记录模块,用于记录所述待展示识别结果的个数;以及
语速获取模块,用于根据所述个数和所述返回时间获取所述多个识别结果数据包的语速。
11.如权利要求9所述的装置,其特征在于,所述展现模块包括:
判断单元,用于判断所述当前网速是否小于预设阀值;
展现时间获取单元,用于在所述判断单元判断所述当前网速大于或等于所述预设阀值时,根据所述多个识别结果数据包的语速获取每个所述待展现识别结果的展现时间;
所述展现时间获取单元还用于在所述判断单元判断所述当前网速小于所述预设阀值时,根据每个所述语音数据包的发送时间、每个所述识别结果数据包的返回时间和当前网络传输的实时率获取每个所述待展现识别结果的展现时间。
12.如权利要求7所述的装置,其特征在于,还包括:
语义信息获取模块,用于获取每个所述待展现识别结果的语义信息;其中,
所述展现模块还用于根据所述语义信息和所述当前网速获取每个所述待展现识别结果的展现时间,并根据所述展现时间展现对应的待展现识别结果。
CN201310648482.7A 2013-12-04 2013-12-04 语音识别结果的展现方法和装置 Active CN103634321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310648482.7A CN103634321B (zh) 2013-12-04 2013-12-04 语音识别结果的展现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310648482.7A CN103634321B (zh) 2013-12-04 2013-12-04 语音识别结果的展现方法和装置

Publications (2)

Publication Number Publication Date
CN103634321A CN103634321A (zh) 2014-03-12
CN103634321B true CN103634321B (zh) 2017-01-18

Family

ID=50214948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310648482.7A Active CN103634321B (zh) 2013-12-04 2013-12-04 语音识别结果的展现方法和装置

Country Status (1)

Country Link
CN (1) CN103634321B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105162836B (zh) * 2015-07-29 2017-10-31 百度在线网络技术(北京)有限公司 执行语音通信的方法及服务器
CN110176235B (zh) * 2019-05-23 2022-02-01 腾讯科技(深圳)有限公司 语音识别文的展示方法、装置、存储介质和计算机设备
CN110956964B (zh) * 2019-11-27 2022-03-25 捷开通讯(深圳)有限公司 提供语音服务的方法、装置、存储介质和终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN103295576A (zh) * 2012-03-02 2013-09-11 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295576A (zh) * 2012-03-02 2013-09-11 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统

Also Published As

Publication number Publication date
CN103634321A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
US10284705B2 (en) Method and apparatus for controlling smart device, and computer storage medium
US20220335268A1 (en) Bot builder dialog map
CN107580237A (zh) 电视的操作方法、装置、系统和存储介质
US20140207811A1 (en) Electronic device for determining emotion of user and method for determining emotion of user
CN109525853A (zh) 直播间封面展示方法、装置、终端、服务器及可读介质
CN107391750B (zh) 用于处理信息的方法和装置
WO2017186050A1 (zh) 人机智能问答系统的断句识别方法和装置
KR102119404B1 (ko) 복수 챗봇의 협업에 의한 대화형 정보제공 시스템 및 그 방법
CN103914550A (zh) 展现推荐内容的方法和装置
CN110956956A (zh) 基于策略规则的语音识别方法及装置
CN104516709B (zh) 基于软件运行场景及语音助手的语音辅助方法及系统
CN103000173A (zh) 一种语音交互方法及装置
CN103956167A (zh) 一种基于Web的可视化手语翻译方法及设备
CN105929980A (zh) 用于信息输入的方法和装置
CN108573306B (zh) 输出回复信息的方法、深度学习模型的训练方法及装置
CN103634321B (zh) 语音识别结果的展现方法和装置
CN104461446B (zh) 基于语音交互的软件运行方法及系统
CN106572002A (zh) 智能会话方法、智能会话的定制方法和相关设备
CN105302925A (zh) 推送语音搜索数据的方法和装置
CN110209778A (zh) 一种对话生成的方法以及相关装置
KR20200115660A (ko) 인텔리전트 지원 방법
CN108304368A (zh) 文本信息的类型识别方法和装置及存储介质和处理器
US20130288800A1 (en) Game processing server apparatus
CN106993211A (zh) 基于人工智能的网络电视控制方法及装置
CN104506906B (zh) 基于电视场景元素及语音助手的语音交互辅助方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant