CN105679319A - 语音识别处理方法及装置 - Google Patents

语音识别处理方法及装置 Download PDF

Info

Publication number
CN105679319A
CN105679319A CN201511009160.3A CN201511009160A CN105679319A CN 105679319 A CN105679319 A CN 105679319A CN 201511009160 A CN201511009160 A CN 201511009160A CN 105679319 A CN105679319 A CN 105679319A
Authority
CN
China
Prior art keywords
speech
voice
data block
recognition
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511009160.3A
Other languages
English (en)
Other versions
CN105679319B (zh
Inventor
白晶亮
穆向禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201511009160.3A priority Critical patent/CN105679319B/zh
Publication of CN105679319A publication Critical patent/CN105679319A/zh
Application granted granted Critical
Publication of CN105679319B publication Critical patent/CN105679319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语音识别处理方法和装置,其中,该方法包括:从语音处理库的语音数据中获取待识别的数据块,标记与数据块对应的识别标签,识别标签包括:根据语音检测的端点时刻为数据块归属的语音分句分配的分句标识,以及数据块在语音分句中的块标识;向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。实现了利用现有的语音处理库对长时间的连续语音进行识别处理,提高了语音识别的稳健性。

Description

语音识别处理方法及装置
技术领域
本申请涉及语音识别处理技术领域,尤其涉及一种语音识别处理方法及装置。
背景技术
随着语音识别技术的发展,连续无限语音识别的应用领域越来越广,例如:会议记录,录音备份等场合,往往一个会议或者访谈需要持续半个小时甚至更长时间,而且中间可能会有持续1分钟或者以上的静默时间。
在上述应用场景下,需要使用连续无限语音识别功能,在用户开启语音识别之后持续工作。然而,目前的语音识别功能仅限于短暂的语音识别场景,比如:语音搜搜系统、智能家居系统等。
在目前的语音识别的过程中,根据端点检测语音处理库的资源限制,只能识别比较短的句子(例如60秒),无法对长时间连续输入的语音进行识别。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语音识别处理方法,该方法实现了利用现有的语音处理库对长时间的连续语音进行识别处理,提高了语音识别的稳健性。
本申请的第二个目的在于提出一种语音识别处理装置。
为达上述目的,本申请第一方面实施例提出了一种语音识别处理方法,包括:在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。
本申请实施例的语音识别处理方法,在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。由此,实现了利用现有的语音处理库对长时间的连续语音进行识别处理,提高了语音识别的稳健性。
为达上述目的,本申请第二方面实施例提出了一种语音识别处理装置,包括:处理模块,用于在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;识别模块,用于向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;整合模块,用于根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。
本申请实施例的语音识别处理装置,在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。由此,实现了利用现有的语音处理库对长时间的连续语音进行识别处理,提高了语音识别的稳健性。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的语音识别处理方法的流程图;
图2是本申请另一个实施例的语音识别处理方法的流程图;
图3是本申请另一个实施例的语音识别处理方法的流程图;
图4是本申请一个实施例的语音识别处理装置的结构示意图;
图5是本申请一个实施例的语音识别处理装置的结构示意图;
图6是本申请另一个实施例的语音识别处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音识别处理方法及装置。
图1是本申请一个实施例的语音识别处理方法的流程图。
如图1所示,该语音识别处理方法包括:
步骤101,在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识。
具体地,在语音连续输入过程中,用户输入的语音数据会存储在客户端的语音处理库中。客户端根据预先设置的数据帧的长度,从存储在语音处理库的语音数据中获取待识别的数据块,并且标记与待识别的数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识。
需要说明的是,在用户向应用客户端输入语音的过程中,客户端会对连续语音信号进行语音活动检测。其中,语音活动检测是通过预设的检测手段确定被检测的音频数据的性质。例如:以能量检测方式为例,当音频段的能量大于预设的阈值时,则确定该音频段为语音;当音频段的能量小于等于预设的阈值时,则确定音频段为噪音。
根据检测的端点时刻将连续语音信号分割为多个语音分句,并为每个语音分句分配分句标识。例如:
当通过语音检测获知在时刻A到时刻B之间有语音信号,在时刻B到时刻C之间没有语音信号,在时刻C到时刻D之间有语音信号,则获知时刻B到时刻C为语音检测的端点时刻,即意味着从时刻A到时刻B之间的语音信号为第一分句,从时刻C到时刻D之间的语音信号为第二分句。
由于每个语音分句的长度大于预设的数据帧的长度,因此每个语音分句中包括多个与预设的数据帧长度匹配的数据块。因此,当客户端从语音处理库的语音数据中获取待识别的数据块时,可以获取预先为所述数据块归属的语音分句分配的分句标识,以及根据语音输入的先后顺序获取该数据块在所属的语音分句中的块标识。
步骤102,向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果。
具体地,客户端向语音识别服务器发送携带上述识别标签的数据块识别请求。
语音识别服务器对接收到的数据块识别请求进行解析,获取待识别数据块的识别标签,并根据预存的识别模型对数据块进行识别处理。
识别结束后,应用与数据块对应的识别标签标记识别结果,并返回给客户端的携带所述识别标签的数据块识别结果。
步骤103,根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。
具体地,客户端针对语音服务器返回的数据块识别结果,分别获取每个识别结果中的识别标签。
根据所有的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。例如:
如果客户端获取的多个数据块识别结果的识别标签为:2-1,2-3#,2-2,1-1,1-3,1-4#,1-2,其中,识别标签的第一位置为分句标识、第二位置为块标识,“#”表示,一个分句中的最后一个数据块。
根据上述识别标签,按照分别标识和块标识将归属于第一分句的数据块的识别结果按前后顺序整合为:1-1,1-2,1-3,1-4#;将归属于第二分句的数据块的识别结果按前后顺序整合为:2-1,2-2,2-3#。按照分句标识将识别结果按前后顺序整合为:1-1,1-2,1-3,1-4#;2-1,2-2,2-3#。
本实施例的语音识别处理方法,在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;向语音识别服务器发送携带所述识别标签的数据块识别请求;根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。由此,实现了利用现有的语音处理库对长时间输入的连续语音进行识别处理,提高了语音识别的稳健性。
进一步地,由于语音处理库的资源是预先设置好的,不能支持无限大的缓存,因此,为了避免受到语音处理库的资源瓶颈限制,导致中断连续语音的识别,本实施例还包括以下步骤:
根据语音检测的端点时刻对所述语音处理库的语音数据进行恢复设置。
具体来说,根据上述描述的语音检测的端点时刻,可知将输入的连续语音信号分为多个语音分句,也就是说,语音检测的端点时刻是两个语音分句的停顿时刻。因此,根据检测的端点时刻对所述语音处理库中存储的语音数据进行恢复设置,既保证了性能稳定,又清空了资源,解决了语音处理库中的资源瓶颈。
需要注意的是,可以在不同的应用场景中使用多种方式对所述语音处理库中存储的语音数据进行恢复设置,举例说明如下:
第一种示例,可以清空语音处理库中存储的所有语音数据。
本示例中可以根据语音检测的端点时刻,清空语音处理库中存储的所有语音数据,从而语音处理库可以继续存储用户不断输入的语音数据,避免语音处理库到达预先设置的资源阈值时,自动中断语音识别。
或者,
第二种示例,可以保留所述语音处理库中当前时刻之前预设时长的语音数据,清空其余存储的语音数据。
为了进一步地提高识别准确性,本示例中可以根据语音检测的端点时刻,保留语音处理库中当前时刻之前预设时长的语音数据,清空其余存储的语音数据。进而,客户端再从语音处理库中获取下一个数据块时,可以获取对语音处理库恢复设置前的预设时长的语音数据,提高了识别的准确性。
需要注意的是,对所述语音处理库的语音数据进行恢复设置的时间点可以有两种实现方式,包括:
第一种示例,可以在每个语音检测的端点时刻对语音处理库中的语音数据进行恢复设置,也就是说,在每个分句之后都要对语音处理库中的语音数据进行恢复设置。或者,
第二种示例,可以间隔多个语音检测的端点时刻,在预设的时间点对语音处理库中的语音数据进行恢复设置,也就是说,在多个分句之后,要对语音处理库中的语音数据进行恢复设置。
需要注意的是,上述对语音处理库进行恢复设置的时间点可以采用上述示例,也可以根据实际情况进行设置,总的原则是,在语音处理库存储的语音数据到达资源阈值之前,要在某个语音检测的端点时刻对语音处理库进行恢复设置。为了更加清楚的说明对语音处理库进行恢复设置的触发时间,通过图2具体说明。
图2是本申请另一个实施例的语音识别处理方法的流程图。
参见图2,所述根据语音检测的端点时刻对所述语音处理库的语音数据进行恢复设置的实施过程,具体包括:
步骤201,判断所述语音处理库的资源阈值是否小于预设门限。
步骤202,当所述资源阈值小于等于预设门限时,在每个端点时刻对所述语音处理库的语音数据进行恢复设置。
步骤203,当所述资源阈值大于预设门限时,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。
具体地,首先判断预先设置的语音处理库的资源阈值是否小于预设门限。
当判断获知资源阈值小于等于预设门限时,说明语音处理库的资源很容易到达资源阈值,此种应用场景下,在每个端点时刻对所述语音处理库的语音数据进行恢复设置。
当判断获知资源阈值大于预设门限时,说明语音处理库的存储资源较大,资源不容易到达资源阈值,此种应用场景下,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。
本实施例的语音识别处理方法,通过判断语音处理库的资源阈值是否小于预设门限,当小于等于预设门限时,在每个端点时刻对所述语音处理库的语音数据进行恢复设置,当大于预设门限时,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。由此,解决了语音处理库的资源瓶颈问题,在不增加处理库资源的情况下能够长时间识别连续语音,提高了语音识别的稳健性。
图3是本申请另一个实施例的语音识别处理方法的流程图。
参见图3,在步骤102之后,该语音识别处理方法还包括:
步骤301,判断所述语音识别服务器返回的识别结果的出错数量是否小于预设阈值。
步骤302,若判断获知所述出错数量大于等于预设阈值,则发送错误报告,停止识别处理。
步骤303,若判断获知所述出错数量小于预设阈值,则继续进行语音识别处理。
步骤304,将与出错的识别结果对应的数据块,发送给本地预存的离线语音识别系统继续进行语音识别处理。
具体地,在现有的语音识别客户端,如果语音识别服务器返回的识别结果出现错误,则停止语音识别。而本申请提供的连续语音识别过程,当获知语音识别服务器反馈的识别结果报错,仍然继续进行语音识别,并且对出错的识别结果进行累计。
为了避免由于语音识别服务器的网络抖动造成的偶尔一两个小错误停止识别,也需要避免由于语音识别服务器的真正故障造成的连续错误识别,预先设置一个识别结果出错数量的阈值。
对于累计的出错的识别结果,判断识别结果的出错数量是否小于预设阈值。
若判断获知识别结果的出错数量大于等于预设阈值,则说明语音识别服务器出现故障造成连续识别错误,从而发送错误报告,停止识别处理。
若判断获知识别结果的出错数量小于预设阈值,则说明语音识别服务器出现网络抖动造成偶尔识别错误,则继续进行语音识别处理。
进一步地,为了提高语音识别的可靠性,客户端预设存储离线语音识别系统,进而,将与出错的识别结果对应的数据块,发送给本地预存的离线语音识别系统继续进行语音识别处理。
本实施例的语音识别处理方法,通过判断所述语音识别服务器返回的识别结果的出错数量是否小于预设阈值,若小于预设阈值,则继续进行语音识别处理,若大于等于预设阈值,则发送错误报告,停止识别处理。由此,实现了利用现有的语音处理库对长时间输入的连续语音进行识别处理,提高了语音识别的稳健性和可靠性。
为了实现上述实施例,本申请还提出一种语音识别处理装置。
图4是本申请一个实施例的语音识别处理装置的结构示意图。
如图4所示,该语音识别处理装置包括:
处理模块11,用于在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;
识别模块12,用于向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;
整合模块13,用于根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。
需要说明的是,前述对语音识别处理方法实施例的解释说明也适用于该实施例的语音识别处理装置,此处不再赘述。
本申请实施例的语音识别处理装置,在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;向语音识别服务器发送携带所述识别标签的数据块识别请求,根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。由此,实现了利用现有的语音处理库对长时间输入的连续语音进行识别处理,提高了语音识别的稳健性。
图5是本申请另一个实施例的语音识别处理装置的结构示意图,如图5所示,基于图4所示实施例,还包括:
恢复模块14,用于根据语音检测的端点时刻对所述语音处理库的语音数据进行恢复设置。
在一个实施例中,所述恢复模块14用于:
判断所述语音处理库的资源阈值是否小于预设门限;
当所述资源阈值小于等于预设门限时,在每个端点时刻对所述语音处理库的语音数据进行恢复设置;
当所述资源阈值大于预设门限时,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。
在一个实施例中,恢复模块14,具体用于:
清空所述语音处理库中所有的语音数据;或者,
在另一个实施例中,恢复模块14,具体用于:
保留所述语音处理库中当前时刻之前预设时长的语音数据,清空其余存储的语音数据。
需要说明的是,前述对语音识别处理方法实施例的解释说明也适用于该实施例的语音识别处理装置,此处不再赘述。
本申请实施例的语音识别处理装置,通过判断语音处理库的资源阈值是否小于预设门限,当小于等于预设门限时,在每个端点时刻对所述语音处理库的语音数据进行恢复设置,当大于预设门限时,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。由此,解决了语音处理库的资源瓶颈问题,在不增加处理库资源的情况下能够长时间识别连续语音,提高了语音识别的稳健性。
图6是本申请另一个实施例的语音识别处理装置的结构示意图,如图6所示,基于上述实施例,以图5所示为例,还包括:
判断模块15,用于判断所述语音识别服务器返回的识别结果的出错数量是否小于预设阈值;
所述识别模块12,还用于若判断获知所述出错数量小于预设阈值,则继续进行语音识别处理;
报告模块16,用于若判断获知所述出错数量大于等于预设阈值,则发送错误报告,停止识别处理。
进一步地,还包括:
发送模块17,用于将与出错的识别结果对应的数据块,发送给本地预存的离线语音识别系统继续进行语音识别处理。
需要说明的是,前述对语音识别处理方法实施例的解释说明也适用于该实施例的语音识别处理装置,此处不再赘述。
本申请实施例的语音识别处理装置,通过判断所述语音识别服务器返回的识别结果的出错数量是否小于预设阈值,若小于预设阈值,则继续进行语音识别处理,若大于等于预设阈值,则发送错误报告,停止识别处理。由此,实现了利用现有的语音处理库对长时间输入的连续语音进行识别处理,提高了语音识别的稳健性和可靠性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音识别处理方法,其特征在于,包括以下步骤:
在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;
向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;
根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。
2.如权利要求1所述的方法,其特征在于,还包括:
根据语音检测的端点时刻对所述语音处理库的语音数据进行恢复设置。
3.如权利要求2所述的方法,其特征在于,所述根据语音检测的端点时刻对所述语音处理库的语音数据进行恢复设置,包括:
判断所述语音处理库的资源阈值是否小于预设门限;
当所述资源阈值小于等于预设门限时,在每个端点时刻对所述语音处理库的语音数据进行恢复设置;
当所述资源阈值大于预设门限时,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。
4.如权利要求2所述的方法,其特征在于,所述对所述语音处理库的语音数据进行恢复设置,包括:
清空所述语音处理库中所有的语音数据;或者,
保留所述语音处理库中当前时刻之前预设时长的语音数据,清空其余存储的语音数据。
5.如权利要求1或2所述的方法,其特征在于,还包括:
判断所述语音识别服务器返回的识别结果的出错数量是否小于预设阈值;
若判断获知所述出错数量小于预设阈值,则继续进行语音识别处理;
若判断获知所述出错数量大于等于预设阈值,则发送错误报告,停止识别处理。
6.如权利要求5所述的方法,其特征在于,还包括:
将与出错的识别结果对应的数据块,发送给本地预存的离线语音识别系统继续进行语音识别处理。
7.一种语音识别处理装置,其特征在于,包括:
处理模块,用于在语音连续输入过程中,从语音处理库的语音数据中获取待识别的数据块,标记与所述数据块对应的识别标签,其中,所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识,以及所述数据块在所述语音分句中的块标识;
识别模块,用于向语音识别服务器发送携带所述识别标签的数据块识别请求,并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;
整合模块,用于根据所有数据块识别结果中的识别标签,将属于同一语音分句中的多个数据块进行整合,以及将所有的语音分句进行整合。
8.如权利要求7所述的装置,其特征在于,还包括:
恢复模块,用于根据语音检测的端点时刻对所述语音处理库的语音数据进行恢复设置。
9.如权利要求8所述的装置,其特征在于,所述恢复模块用于:
判断所述语音处理库的资源阈值是否小于预设门限;
当所述资源阈值小于等于预设门限时,在每个端点时刻对所述语音处理库的语音数据进行恢复设置;
当所述资源阈值大于预设门限时,在预设间隔的端点时刻对所述语音处理库的语音数据进行恢复设置。
10.如权利要求8所述的装置,其特征在于,所述恢复模块,具体用于:
清空所述语音处理库中所有的语音数据;或者,
保留所述语音处理库中当前时刻之前预设时长的语音数据,清空其余存储的语音数据。
11.如权利要求7或8所述的装置,其特征在于,还包括:
判断模块,用于判断所述语音识别服务器返回的识别结果的出错数量是否小于预设阈值;
所述识别模块,还用于若判断获知所述出错数量小于预设阈值,则继续进行语音识别处理;
报告模块,用于若判断获知所述出错数量大于等于预设阈值,则发送错误报告,停止识别处理。
12.如权利要求11所述的装置,其特征在于,还包括:
发送模块,用于将与出错的识别结果对应的数据块,发送给本地预存的离线语音识别系统继续进行语音识别处理。
CN201511009160.3A 2015-12-29 2015-12-29 语音识别处理方法及装置 Active CN105679319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511009160.3A CN105679319B (zh) 2015-12-29 2015-12-29 语音识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511009160.3A CN105679319B (zh) 2015-12-29 2015-12-29 语音识别处理方法及装置

Publications (2)

Publication Number Publication Date
CN105679319A true CN105679319A (zh) 2016-06-15
CN105679319B CN105679319B (zh) 2019-09-03

Family

ID=56297814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511009160.3A Active CN105679319B (zh) 2015-12-29 2015-12-29 语音识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN105679319B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN106558305A (zh) * 2016-11-16 2017-04-05 北京云知声信息技术有限公司 语音数据处理方法及装置
CN106971723A (zh) * 2017-03-29 2017-07-21 北京搜狗科技发展有限公司 语音处理方法和装置、用于语音处理的装置
CN107632980A (zh) * 2017-08-03 2018-01-26 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置
CN108270928A (zh) * 2018-04-20 2018-07-10 维沃移动通信有限公司 一种语音识别的方法及移动终端
WO2019000871A1 (zh) * 2017-06-30 2019-01-03 百度在线网络技术(北京)有限公司 用于提供语音服务的方法、装置和服务器
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN110971685A (zh) * 2019-11-29 2020-04-07 腾讯科技(深圳)有限公司 内容处理方法、装置、计算机设备及存储介质
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111382184A (zh) * 2020-05-25 2020-07-07 浙江明度智控科技有限公司 一种对药品文档进行校验的方法和药品文档校验系统
CN111385421A (zh) * 2020-03-21 2020-07-07 山东泰盈科技有限公司 通讯服务人工智能熔断方法
CN111613250A (zh) * 2020-07-06 2020-09-01 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1329300A (zh) * 2000-06-21 2002-01-02 国际商业机器公司 管理语音缓存的方法
JP2008051895A (ja) * 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
CN102063904A (zh) * 2010-11-30 2011-05-18 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN103021412A (zh) * 2012-12-28 2013-04-03 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN103700370A (zh) * 2013-12-04 2014-04-02 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统
US8781837B2 (en) * 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1329300A (zh) * 2000-06-21 2002-01-02 国际商业机器公司 管理语音缓存的方法
US8781837B2 (en) * 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
JP2008051895A (ja) * 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
CN102063904A (zh) * 2010-11-30 2011-05-18 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN103021412A (zh) * 2012-12-28 2013-04-03 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN103700370A (zh) * 2013-12-04 2014-04-02 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN106558305A (zh) * 2016-11-16 2017-04-05 北京云知声信息技术有限公司 语音数据处理方法及装置
CN106971723A (zh) * 2017-03-29 2017-07-21 北京搜狗科技发展有限公司 语音处理方法和装置、用于语音处理的装置
US10791200B2 (en) 2017-06-30 2020-09-29 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and server for providing voice service
WO2019000871A1 (zh) * 2017-06-30 2019-01-03 百度在线网络技术(北京)有限公司 用于提供语音服务的方法、装置和服务器
CN107632980A (zh) * 2017-08-03 2018-01-26 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置
CN108270928A (zh) * 2018-04-20 2018-07-10 维沃移动通信有限公司 一种语音识别的方法及移动终端
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN110971685A (zh) * 2019-11-29 2020-04-07 腾讯科技(深圳)有限公司 内容处理方法、装置、计算机设备及存储介质
CN110971685B (zh) * 2019-11-29 2021-01-01 腾讯科技(深圳)有限公司 内容处理方法、装置、计算机设备及存储介质
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111385421A (zh) * 2020-03-21 2020-07-07 山东泰盈科技有限公司 通讯服务人工智能熔断方法
CN111382184A (zh) * 2020-05-25 2020-07-07 浙江明度智控科技有限公司 一种对药品文档进行校验的方法和药品文档校验系统
CN111613250A (zh) * 2020-07-06 2020-09-01 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备
CN111613250B (zh) * 2020-07-06 2023-07-18 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN105679319B (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN105679319A (zh) 语音识别处理方法及装置
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
GB2434670B (en) Monitoring and management of distributed information systems
GB2359159A (en) Method and apparatus for identifying changes to a logical object based on changes to the logical object at a physical level
CN106126410B (zh) 代码冲突的提示方法及装置
CN104135520B (zh) 一种识别安卓终端的方法以及装置
EP1377046A3 (en) Program guide data text search
CN106095413B (zh) 一种蓝牙驱动程序的配置方法及装置
CN109660533B (zh) 实时识别异常流量的方法、装置、计算机设备和存储介质
CN109495549B (zh) 一种应用拉活的方法、设备和计算机存储介质
CN112200067A (zh) 智能视频事件检测方法、系统、电子设备和存储介质
CN104270605A (zh) 一种视频监控数据的处理方法及装置
WO2005017664A3 (en) Methods and systems for providing benchmark information under controlled access
US20200300663A1 (en) Gas meter query method based on compound internet of things (iot) and iot system
CN108255659B (zh) 一种应用程序性能监控方法及其系统
CN104125218A (zh) 一种设备识别方法、装置以及系统
WO2005017663A3 (en) Methods and systems for providing benchmark information under controlled access
CN105072608A (zh) 一种管理认证令牌的方法及装置
CN104134033A (zh) 一种识别用户设备的方法以及装置
CN103986981A (zh) 多媒体文件的情节片段的识别方法及装置
US10801850B2 (en) Arrival predictions based on destination specific model
CN104216834A (zh) 一种内存访问的方法、缓冲调度器和内存模块
CN113065821B (zh) 一种车辆调拨行为预警方法、装置、设备及存储介质
CN116094930A (zh) 一种基于智能化分析的配置对账解决方法及装置
CN115858378A (zh) 一种测试系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant