CN107919130B - 基于云端的语音处理方法和装置 - Google Patents

基于云端的语音处理方法和装置 Download PDF

Info

Publication number
CN107919130B
CN107919130B CN201711079226.5A CN201711079226A CN107919130B CN 107919130 B CN107919130 B CN 107919130B CN 201711079226 A CN201711079226 A CN 201711079226A CN 107919130 B CN107919130 B CN 107919130B
Authority
CN
China
Prior art keywords
voice
recognized
duration
recognition result
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711079226.5A
Other languages
English (en)
Other versions
CN107919130A (zh
Inventor
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201711079226.5A priority Critical patent/CN107919130B/zh
Publication of CN107919130A publication Critical patent/CN107919130A/zh
Priority to US16/154,365 priority patent/US11024332B2/en
Application granted granted Critical
Publication of CN107919130B publication Critical patent/CN107919130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出一种基于云端的语音处理方法和装置,其中,方法包括:获取终端采集的待识别的语音;对待识别的语音进行语音识别;在语音识别的过程中,同时检测待识别的语音是否结束;当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。通过在语音的识别过程中,同时检测待识别的语音是否结束,从而可以保证语音识别的准确性。进一步地,由云端进行语音识别,与终端本地无关,因此和硬件平台无关,不存在迁移开发,且不受终端本地资源的限制,因此,云端使用的语音识别模型可以做的非常复杂精细,从而可以提升系统的抗干扰性能。此外,云端使用的语音识别模型,已经为不同的应用量身打造,无需重新训练模型,简化了开发量。

Description

基于云端的语音处理方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于云端的语音处理方法和装置。
背景技术
随着终端设备的不断发展,为了简化用户的操作,用户可以通过在终端中输入一段语音,而后,终端可以对该段语音进行识别,转化为对应的文本,从而用户可以根据转化的文本进行后续操作,例如上网、购物等。现有技术中,终端在本地通过语音端点检测(Voice Activity Detection,VAD)模型对语音进行识别,具体地,采用音频的时域能量信号判决语音的起点和尾点。
这种方式下,受限于终端本地的内存、存储空间以及计算能力,终端本地VAD模型只能使用简单的模型结构,导致对噪声的抗干扰性能较差,从而导致识别的准确性较低。此外,由于VAD模型在终端本地实现,当迁移到不同的硬件平台时,需要重新开发,导致成本较高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于云端的语音处理方法,以实现在语音的识别过程中,同时检测待识别的语音是否结束,从而可以保证语音识别的准确性。进一步地,由云端进行语音识别,与终端本地无关,因此和硬件平台无关,不存在迁移开发,且不受终端本地资源的限制,因此,云端使用的语音识别模型可以做的非常复杂精细,从而可以提升系统的抗干扰性能,进而可以进一步地提升语音识别的准确性。此外,云端使用的语音识别模型,已经为不同的应用量身打造,无需重新训练模型,简化了开发量,用于解决现有受限于终端本地的内存、存储空间、计算能力,终端本地VAD模型只能使用简单的模型结构,导致对噪声的抗干扰性能较差,从而导致识别的准确性较低。此外,由于VAD模型在终端本地实现,当迁移到不同的硬件平台时,需要重新开发,导致成本较高的技术问题。
本发明的第二个目的在于提出一种基于云端的语音处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于云端的语音处理方法,包括:
获取终端采集的待识别的语音;
对所述待识别的语音进行语音识别;
在所述语音识别的过程中,同时检测所述待识别的语音是否结束;
当检测到所述待识别的语音结束时,将所述待识别的语音的识别结果反馈给所述终端。
本发明实施例的基于云端的语音处理方法,通过获取终端采集的待识别的语音;对待识别的语音进行语音识别;在语音识别的过程中,同时检测待识别的语音是否结束;当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。本实施例中,通过在语音的识别过程中,同时检测待识别的语音是否结束,从而可以保证语音识别的准确性。进一步地,由云端进行语音识别,与终端本地无关,因此和硬件平台无关,不存在迁移开发,且不受终端本地资源的限制,因此,云端使用的语音识别模型可以做的非常复杂精细,从而可以提升系统的抗干扰性能,进而可以进一步地提升语音识别的准确性。此外,云端使用的语音识别模型,已经为不同的应用量身打造,无需重新训练模型,简化了开发量。
为达上述目的,本发明第二方面实施例提出了一种基于云端的语音处理装置,包括:
语音获取模块,用于获取终端采集的待识别的语音;
语音识别模块,用于对所述待识别的语音进行语音识别;
检测模块,用于在所述语音识别的过程中,同时检测所述待识别的语音是否结束;
反馈模块,用于当检测到所述待识别的语音结束时,将所述待识别的语音的识别结果反馈给所述终端。
本发明实施例的基于云端的语音处理装置,通过获取终端采集的待识别的语音;对待识别的语音进行语音识别;在语音识别的过程中,同时检测待识别的语音是否结束;当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。本实施例中,通过在语音的识别过程中,同时检测待识别的语音是否结束,从而可以保证语音识别的准确性。进一步地,由云端进行语音识别,与终端本地无关,因此和硬件平台无关,不存在迁移开发,且不受终端本地资源的限制,因此,云端使用的语音识别模型可以做的非常复杂精细,从而可以提升系统的抗干扰性能,进而可以进一步地提升语音识别的准确性。此外,云端使用的语音识别模型,已经为不同的应用量身打造,无需重新训练模型,简化了开发量。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本发明第一方面实施例所述的基于云端的语音处理方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如本发明第一方面实施例所述的基于云端的语音处理方法。
为了实现上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明第一方面实施例所述的基于云端的语音处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于云端的语音处理方法的流程示意图;
图2为本发明实施例所提供的第二种基于云端的语音处理方法的流程示意图;
图3为本发明实施例所提供的第三种基于云端的语音处理方法的流程示意图;
图4为本发明实施例所提供的第四种基于云端的语音处理方法的流程示意图;
图5为本发明实施例提供的一种基于云端的语音处理装置的结构示意图;
图6为本发明实施例提供的另一种基于云端的语音处理装置的结构示意图;
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于云端的语音处理方法和装置。
图1为本发明实施例所提供的第一种基于云端的语音处理方法的流程示意图。
本发明实施例的执行主体为云端,通过云端对语音进行识别处理。
如图1所示,该基于云端的语音处理方法包括以下步骤:
步骤101,获取终端采集的待识别的语音。
本发明实施例中,待识别的语音为云端需要识别的语音。终端可以向云端提供采集到的待识别的语音,其中,终端例如为个人电脑(Personal Computer,PC),云端设备或者移动设备,移动设备例如智能手机,或者平板电脑等。
具体地,终端上可以设置一个语音输入的触发条件,例如,触发条件可以为一个语音输入按钮,用户通过语音输入按钮触发输入待识别的语音,终端可以采集该待识别的语音,而后将采集的待识别的语音发送至云端,从而云端可以获取待识别的语音。
需要说明的是,在用户输入待识别的语音的过程中,终端可以在采集用户输入的待识别的语音的同时,将采集的待识别的语音发送至云端,从而可以实现用户在输入待识别的语音的同时,云端可以获取到用户输入的待识别的语音,保证语音识别的实时性。
步骤102,对待识别的语音进行语音识别。
可选地,云端在接收到待识别的语音时,可以采用现有技术中较为成熟的语音识别技术对待识别的语音进行语音识别,获得识别结果,对此不作限制。
步骤103,在语音识别的过程中,同时检测待识别的语音是否结束。
可以理解的是,在语音识别的过程中,需要检测语音的起点和尾点,其中,尾点检测是核心,决定用户输入完语音后的等待时长。当检测到语音的尾点后,用户可以得到识别结果,从而可以根据识别结果触发后续操作。在尾点检测的过程中,如果尾点的判断时间过长,则用户需要等待较长时间才能得到识别结果,或者,如果误判断语音的尾点,可能发生用户还未说完,当前语音已经结束的情况,将极大的影响用户的使用体验。
因此,本发明实施例中,在语音识别的过程中,当云端在预设的时长内未识别出文字,或者识别出的最后一个识别字符在预设的时长内未发生变化,则可以确定该待识别的语音到达尾点。而当待识别的语音到达尾点时,可以确定待识别的语音是否结束。因此,本实施例中,在语音识别的过程中,可以通过VAD技术检测待识别语音的尾点,判断待识别的语音是否结束。
进一步地,在检测到待识别语音的尾点时,为了保证识别结果的准确性,还可以对识别结果的语义进行分析,在识别结果的语义完整时,可以确定待识别的语音结束。因此,本实施例中,在语音识别的过程中,可以语音端点检测VAD技术和识别结果的语义完整性,判断待识别的语音是否结束。
或者,在语音识别的过程中,为了保证语音识别的实时性,可以直接根据识别结果的语义完整性,判断待识别的语音是否结束,本发明实施例对此不作限制。
步骤104,当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。
本发明实施例中,当云端检测到待识别的语音结束时,为了保证用户获取识别结果的实时性,可以将待识别的语音的识别结果反馈给终端,从而用户可以继续后续处理过程。
本实施例的基于云端的语音处理方法,通过获取终端采集的待识别的语音;对待识别的语音进行语音识别;在语音识别的过程中,同时检测待识别的语音是否结束;当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。本实施例中,通过在语音的识别过程中,同时检测待识别的语音是否结束,从而可以保证语音识别的准确性。进一步地,由云端进行语音识别,与终端本地无关,因此和硬件平台无关,不存在迁移开发,且不受终端本地资源的限制,因此,云端使用的语音识别模型可以做的非常复杂精细,从而可以提升系统的抗干扰性能。此外,云端使用的语音识别模型,已经为不同的应用量身打造,无需重新训练模型,简化了开发量。
作为一种可能的实现方式,为了提升语音识别的实时性,可以通过语音端点检测VAD技术检测待识别语音的尾点,判断待识别的语音是否结束。下面结合图2,对上述过程进行详细说明。
图2为本发明实施例所提供的第二种基于云端的语音处理方法的流程示意图。
如图2所示,步骤103具体包括以下子步骤:
步骤201,在语音识别的过程中,通过语音端点检测技术检测待识别语音的尾点。
本发明实施例中,在语音识别的过程中,通过语音端点检测VAD技术检测待识别语音的尾点。具体地,当云端在预设的时长内未识别出文字,或者识别出的最后一个识别字符在预设的时长内未发生变化,则可以确定该待识别的语音到达尾端。
步骤202,对尾点的第一持续时长进行计时。
本发明实施例中,可以通过设置计时器,对尾点的第一持续时长进行计时,例如标记尾点的第一持续时长为T1。
步骤203,将当前计时得到的第一持续时长与预设的第一时长比较。
本实施例中,在检测到尾点后,云端可以等待一段时间,判断用户是否继续说话。可以理解的是,如果云端等待的时间过长,用户需要等待较长的时间才可以得到识别结果,将极大地影响地用户使用体验。因此,本发明实施例中,第一时长不应设置的过长,例如第一时长可以为1s。可选地,标记第一时长为T11。
可选地,将当前计时得到的第一持续时长T1与预设的第一时长T11进行比较,可以得到T1大于等于T11的结果,或者,得到T1小于T11的结果。
步骤204,判断第一持续时长是否到达第一时长,若是,执行步骤205,否则,执行步骤202。
可选地,当判断第一持续时长T1到达第一时长T11时,即T1大于等于T11时,表明用户在第一时长T11内未说话,此时,为了避免用户等待较长的时间才可以得到识别结果,云端可以确定待识别的语音结束,从而提升语音识别的实时性。而在尾点的第一持续时长T1未到达第一时长T11时,则继续对尾点的第一持续时长T1进行计时,直到到达第一时长T11时,确定待识别的语音结束。
步骤205,确定待识别的语音结束。
本实施例的基于云端的语音处理方法,通过语音端点检测VAD技术检测待识别语音的尾点,判断待识别的语音是否结束,可以有效提升语音识别的实时性。
作为另一种可能的实现方式,为了提升语音识别的准确性,可以通过语音端点检测VAD技术和识别结果的语义完整性,判断待识别的语音是否结束。下面结合图3,对上述过程进行详细说明。
图3为本发明实施例所提供的第三种基于云端的语音处理方法的流程示意图。
如图3所示,步骤103具体包括以下子步骤:
步骤301,在语音识别的过程中,通过VAD技术检测待识别语音的尾点。
步骤302,对尾点的第一持续时长进行计时。
步骤301~302的执行过程可以参见上述实施例中步骤201~202的执行过程,在此不做赘述。
步骤303,判断当前计时得到的第一持续时长是否到达预设的第二时长,若是,执行步骤304,否则,执行步骤302。
本发明实施例中,第二时长小于第一时长T11,标记第二时长为T12,例如第二时长T12可以为0.5s。
本实施例中,云端可以在指定时刻,本实施例中记为尾点的持续时长到达第二时长时,对识别结果进行语义分析,以提升语音识别的准确性。因此,首先需要判断当前计时得到的第一持续时长T1是否到达预设的第二时长T12,当到达时,可以触发步骤304,当未到达时,可以继续对尾点的第一持续时长T1进行计时,即触发步骤302。
步骤304,对识别结果进行语义分析,判断识别结果的语义是否完整,若是,执行步骤305,否则,执行步骤306。
本实施例中,为了保证识别结果的准确性,云端可以在第一持续时长T1到达第二时长T12时,通过判断识别结果的语义是否完整,确定待识别的语音是否结束。具体地,在当前计时得到的第一持续时长T1到达预设的第二时长T12时,可以对识别结果进行语义分析,例如可以采用现有技术对识别结果进行语义分析,从而可以确定识别结果的语义是否完整。当识别结果的语义完整时,可以确定待识别的语音结束,而当识别结果的语义不完整时,可以触发步骤306。
步骤305,确定待识别的语音结束。
步骤306,继续对第一持续时长进行计时。
步骤307,判断第一持续时长是否到达预设的第三时长,若是,执行步骤305,否则,执行步骤306。
本发明实施例中,第三时长大于第一时长,标记第三时长为T13,例如第三时长T13可以为1.5s。
可选地,在判断出识别结果的语义不完整时,可以调整预设的第一时长T11,使第一时长T11变为预设的第三时长T13,通过判断第一持续时长T1是否到达预设的第三时长T13,确定待识别的语音是否结束。具体地,当第一持续时长T1到达预设的第三时长T13时,可以确定待识别的语音结束,而当第一持续时长T1未到达预设的第三时长T13时,可以继续对第一持续时长T1进行计时,直到第一持续时长T1到达预设的第三时长T13时,确定待识别的语音结束。
举例说明,识别结果为“今天天气怎”通过语义分析,可以得知该识别结果的语义并不完整,即使计时到预设的第一时长T1,还需要继续等待一段时间。而当识别结果为“今天天气怎么样”,可以得知该识别结果的语义已经完整,此时可以继续检测一段时间,如果未检测到新的内容出现,说明当前实际到达该语音的尾点,就可以输出识别结果反馈给终端。
本实施例的基于云端的语音处理方法,通过语音端点检测VAD技术和识别结果的语义完整性,判断待识别的语音是否结束,能够有效提升语音识别的准确性。
作为又一种可能的实现方式,为了保证语音识别的实时性,可以直接通过识别结果的语义完整性,判断待识别的语音是否结束。下面结合图4,对上述过程进行详细说明。
图4为本发明实施例所提供的第四种基于云端的语音处理方法的流程示意图。
如图4所示,步骤103具体包括以下子步骤:
步骤401,在语音识别的过程中,对识别结果进行语义分析。
可选地,可以采用现有技术对识别结果进行语义分析,获得识别结果的语义分析结果,本发明实施例对此不作限制。
步骤402,判断识别结果的语义是否完整,若是,执行步骤403,否则,执行步骤401。
可选地,在识别结果的语义完整时,此时,只能确定用户说完一句完整的话,而并不能表明待识别的语音结束,此时,可以触发步骤403,而在识别结果的语义不完整时,表明待识别的语音未结束,此时,可以继续对识别结果进行语义分析,即触发步骤401。
步骤403,统计识别结果中最后一个识别字符的第二持续时长。
本发明实施例中,可以通过设置计时器,统计识别结果中最后一个识别字符的第二持续时长,例如标记第二持续时长为T2。
本实施例中,在判断出识别结果的语义完整时,此时,只能确定用户说完一句完整的话,而并不能表明待识别的语音结束,因此,可以通过进一步判断识别结果中最后一个识别字符的第二持续时长T2,确定待识别的语音是否结束。
步骤404,将第二持续时长与预设的第四时长比较。
本发明实施例中,在确定识别结果中最后一个识别字符时,云端可以等待一段时间,判断用户是否继续说话。如果云端等待的时间过长,用户需要等待较长的时间才可以得到识别结果,将极大地影响地用户使用体验。因此,本发明实施例中,第四时长不应设置的过长。可选地,第四时长可以小于第一时长T11,标记第四时长为T14,例如第四时长T14可以为0.5s。
步骤405,判断第二持续时长是否到达第四时长,若是,执行步骤406,否则,执行步骤403。
可选地,在第二持续时长T2未到达第四时长T14时,可以继续对识别结果中最后一个识别字符的第二持续时长进行统计,即触发步骤403,而在第二持续时长T2到达第四时长T14时,可以确定待识别的语音结束。
步骤406,确定待识别的语音结束。
本实施例的基于云端的语音处理方法,通过识别结果的语义完整性,判断待识别的语音是否结束,能够有效提升语音识别的实时性。
本发明实施例中,当云端检测到待识别的语音结束时,可以向终端发送结束指示,以使终端执行与结束指示匹配的目标操作;其中,结束指示用于指示待识别的语音已经结束。当终端接收到结束指示时,可以结束用户语音输入的操作,从而用户可以得到识别结果,而后可以根据识别结果执行后续操作。
为了实现上述实施例,本发明还提出一种基于云端的语音处理装置。
图5为本发明实施例提供的一种基于云端的语音处理装置的结构示意图。
如图5所示,该基于云端的语音处理装置500包括:语音获取模块510、语音识别模块520、检测模块530,以及反馈模块540。其中,
语音获取模块510,用于获取终端采集的待识别的语音。
语音识别模块520,用于对待识别的语音进行语音识别。
检测模块530,用于在语音识别的过程中,同时检测待识别的语音是否结束。
本发明实施例中,检测模块530,具体用于在语音识别的过程中,通过语音端点检测VAD技术和/或识别结果的语义完整性,判断待识别的语音是否结束。
作为本发明实施例的一种可能的实现方式,检测模块530,具体用于在语音识别的过程中,通过语音端点检测技术检测待识别语音的尾点;对尾点的第一持续时长进行计时;将当前计时得到的第一持续时长与预设的第一时长比较;如果第一持续时长到达第一时长,则确定待识别的语音结束。
作为本发明实施例的另一种可能的实现方式,检测模块530,具体用于在语音识别的过程中,通过VAD技术检测待识别语音的尾点;对尾点的第一持续时长进行计时;如果当前计时得到的第一持续时长到达预设的第二时长,则对识别结果进行语义分析,判断识别结果的语义是否完整;如果判断出识别结果的语义完整,则确定待识别的语音结束;如果判断出识别结果的语义不完整,则继续对第一持续时长进行计时;当第一持续时长到达预设的第三时长时,则确定待识别的语音结束。
作为本发明实施例的又一种可能的实现方式,检测模块530,具体用于在语音识别的过程中,对识别结果进行语义分析,判断识别结果的语义是否完整;如果判断出识别结果的语义完整,则统计识别结果中最后一个识别字符的第二持续时长;将第二持续时长与预设的第四时长比较;如果第二持续时长到达第四时长,则确定待识别的语音结束。
反馈模块540,用于当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。
进一步地,在本发明实施例的一种可能的实现方式中,参见图6,在图5所示实施例的基础上,该基于云端的语音处理装置500还可以包括:发送模块550。
发送模块550,用于当检测到待识别的语音结束时,向终端发送结束指示,以使终端执行与结束指示匹配的目标操作;其中,结束指示用于指示待识别的语音已经结束。
需要说明的是,前述对基于云端的语音处理方法实施例的解释说明也适用于该实施例的基于云端的语音处理装置500,此处不再赘述。
本实施例的基于云端的语音处理装置,通过获取终端采集的待识别的语音;对待识别的语音进行语音识别;在语音识别的过程中,同时检测待识别的语音是否结束;当检测到待识别的语音结束时,将待识别的语音的识别结果反馈给终端。本实施例中,通过在语音的识别过程中,同时检测待识别的语音是否结束,从而可以保证语音识别的准确性。进一步地,由云端进行语音识别,与终端本地无关,因此和硬件平台无关,不存在迁移开发,且不受终端本地资源的限制,因此,云端使用的语音识别模型可以做的非常复杂精细,从而可以提升系统的抗干扰性能。此外,云端使用的语音识别模型,已经为不同的应用量身打造,无需重新训练模型,简化了开发量。
为了实现上述实施例,本发明还提出一种计算机设备。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/12交互的设备通信,和/或与使得该计算机系统/12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的基于云端的语音处理方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如本发明前述实施例提出的基于云端的语音处理方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明前述实施例提出的基于云端的语音处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于云端的语音处理方法,其特征在于,包括:
获取终端采集的待识别的语音;
对所述待识别的语音进行语音识别;
在所述语音识别的过程中,同时检测所述待识别的语音是否结束;其中,通过所述待识别的语音的识别结果的语义完整性,判断所述待识别的语音是否结束,其中,在所述语音识别的过程中,对所述识别结果进行语义分析,判断所述识别结果的语义是否完整;如果判断出所述识别结果的语义完整,则统计所述识别结果中最后一个识别字符的第二持续时长;如果所述第二持续时长到达预设的第四时长,则确定所述待识别的语音结束;或者,通过语音端点检测VAD技术和所述识别结果的语义完整性,判断所述待识别的语音是否结束,其中,在所述语音识别的过程中,通过所述VAD技术检测所述待识别语音的尾点;对所述尾点的第一持续时长进行计时;如果当前计时得到的所述第一持续时长到达预设的第二时长,则对所述识别结果进行语义分析,判断所述识别结果的语义是否完整;如果判断出所述识别结果的语义完整,则确定所述待识别的语音结束;
当检测到所述待识别的语音结束时,将所述识别结果反馈给所述终端。
2.根据权利要求1所述的基于云端的语音处理方法,其特征在于,还包括:
当检测到所述待识别的语音结束时,向所述终端发送结束指示,以使所述终端执行与所述结束指示匹配的目标操作;其中,所述结束指示用于指示所述待识别的语音已经结束。
3.根据权利要求1所述的基于云端的语音处理方法,其特征在于,还包括:
如果判断出所述识别结果的语义不完整,则继续对所述第一持续时长进行计时;
当所述第一持续时长到达预设的第三时长时,则确定所述待识别的语音结束。
4.一种基于云端的语音处理装置,其特征在于,包括:
语音获取模块,用于获取终端采集的待识别的语音;
语音识别模块,用于对所述待识别的语音进行语音识别;
检测模块,用于在所述语音识别的过程中,同时检测所述待识别的语音是否结束;其中,通过所述待识别的语音的识别结果的语义完整性,判断所述待识别的语音是否结束,其中,在所述语音识别的过程中,对所述识别结果进行语义分析,判断所述识别结果的语义是否完整;如果判断出所述识别结果的语义完整,则统计所述识别结果中最后一个识别字符的第二持续时长;如果所述第二持续时长到达预设的第四时长,则确定所述待识别的语音结束;或者,通过语音端点检测VAD技术和所述识别结果的语义完整性,判断所述待识别的语音是否结束,其中,在所述语音识别的过程中,通过所述VAD技术检测所述待识别语音的尾点;对所述尾点的第一持续时长进行计时;如果当前计时得到的所述第一持续时长到达预设的第二时长,则对所述识别结果进行语义分析,判断所述识别结果的语义是否完整;如果判断出所述识别结果的语义完整,则确定所述待识别的语音结束;
反馈模块,用于当检测到所述待识别的语音结束时,将所述识别结果反馈给所述终端。
5.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-3中任一所述的基于云端的语音处理方法。
6.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的基于云端的语音处理方法。
CN201711079226.5A 2017-11-06 2017-11-06 基于云端的语音处理方法和装置 Active CN107919130B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711079226.5A CN107919130B (zh) 2017-11-06 2017-11-06 基于云端的语音处理方法和装置
US16/154,365 US11024332B2 (en) 2017-11-06 2018-10-08 Cloud-based speech processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711079226.5A CN107919130B (zh) 2017-11-06 2017-11-06 基于云端的语音处理方法和装置

Publications (2)

Publication Number Publication Date
CN107919130A CN107919130A (zh) 2018-04-17
CN107919130B true CN107919130B (zh) 2021-12-17

Family

ID=61895359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711079226.5A Active CN107919130B (zh) 2017-11-06 2017-11-06 基于云端的语音处理方法和装置

Country Status (2)

Country Link
US (1) US11024332B2 (zh)
CN (1) CN107919130B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147764A (zh) * 2018-09-20 2019-01-04 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备及计算机可读介质
CN109346074B (zh) * 2018-10-15 2020-03-03 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109473104B (zh) * 2018-11-07 2021-11-30 思必驰科技股份有限公司 语音识别网络延时优化方法及装置
CN111627423B (zh) * 2019-02-27 2023-08-04 百度在线网络技术(北京)有限公司 Vad尾点检测方法、装置、服务器和计算机可读介质
CN111627463B (zh) * 2019-02-28 2024-01-16 百度在线网络技术(北京)有限公司 语音vad尾点确定方法及装置、电子设备和计算机可读介质
CN110689877A (zh) * 2019-09-17 2020-01-14 华为技术有限公司 一种语音结束端点检测方法及装置
CN110730394A (zh) * 2019-09-17 2020-01-24 安徽华速达电子科技有限公司 一种基于语音交互的智能光网络单元配置方法及装置
CN110534109B (zh) * 2019-09-25 2021-12-14 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质
CN112581938B (zh) * 2019-09-30 2024-04-09 华为技术有限公司 基于人工智能的语音断点检测方法、装置和设备
CN112825248B (zh) * 2019-11-19 2024-08-02 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
CN111081248A (zh) * 2019-12-27 2020-04-28 安徽仁昊智能科技有限公司 一种人工智能语音识别装置
CN113129896B (zh) * 2019-12-30 2023-12-12 北京猎户星空科技有限公司 一种语音交互方法、装置、电子设备及存储介质
CN113160854B (zh) * 2020-01-22 2024-10-18 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
CN113362828B (zh) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
CN111583923B (zh) * 2020-04-28 2023-11-14 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111580775B (zh) * 2020-04-28 2024-03-05 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111583933B (zh) * 2020-04-30 2023-10-27 北京猎户星空科技有限公司 一种语音信息的处理方法、装置、设备及介质
CN113689847A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 语音交互方法、装置及语音芯片模组
CN111583912A (zh) * 2020-05-26 2020-08-25 阳光保险集团股份有限公司 语音端点检测方法、装置以及电子设备
CN111667829B (zh) * 2020-05-29 2023-08-08 北京小米松果电子有限公司 信息处理方法及装置、存储介质
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
CN111833852B (zh) * 2020-06-30 2022-04-15 思必驰科技股份有限公司 一种声学模型的训练方法、装置以及计算机可读存储介质
CN112053687A (zh) * 2020-07-31 2020-12-08 出门问问信息科技有限公司 一种语音处理方法、装置、计算机可读存储介质及设备
CN111968680B (zh) * 2020-08-14 2024-10-01 北京小米松果电子有限公司 一种语音处理方法、装置及存储介质
CN112466296A (zh) 2020-11-10 2021-03-09 北京百度网讯科技有限公司 语音交互的处理方法、装置、电子设备及存储介质
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN113192502A (zh) * 2021-04-27 2021-07-30 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN113241071B (zh) * 2021-05-10 2024-10-01 亿咖通(湖北)技术有限公司 一种语音处理方法、电子设备及存储介质
CN113362824B (zh) * 2021-06-09 2024-03-12 深圳市同行者科技有限公司 一种语音识别方法、装置及终端设备
CN113345473B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质
CN113903329B (zh) * 2021-09-08 2022-08-23 北京百度网讯科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114283794A (zh) * 2021-12-14 2022-04-05 达闼科技(北京)有限公司 噪音过滤方法、装置、电子设备和计算机可读存储介质
CN114385800A (zh) * 2021-12-17 2022-04-22 阿里巴巴(中国)有限公司 语音对话方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
CN103971685A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN104485105A (zh) * 2014-12-31 2015-04-01 中国科学院深圳先进技术研究院 一种电子病历生成方法和电子病历系统
CN105845129A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1110821A (zh) * 1994-04-12 1995-10-25 合泰半导体股份有限公司 语音合成器
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
CN1412742A (zh) * 2002-12-19 2003-04-23 北京工业大学 基于波形相关法的语音信号基音周期检测方法
EP1894187B1 (en) * 2005-06-20 2008-10-01 Telecom Italia S.p.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7805305B2 (en) * 2006-10-12 2010-09-28 Nuance Communications, Inc. Enhancement to Viterbi speech processing algorithm for hybrid speech models that conserves memory
JP5381211B2 (ja) * 2009-03-23 2014-01-08 トヨタ自動車株式会社 音声対話装置及びプログラム
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
CN102158664A (zh) * 2011-03-31 2011-08-17 四川长虹电器股份有限公司 利用移动终端进行语音控制电视机的方法
US20140036023A1 (en) * 2012-05-31 2014-02-06 Volio, Inc. Conversational video experience
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103035243B (zh) * 2012-12-18 2014-12-24 中国科学院自动化研究所 长语音连续识别及识别结果实时反馈方法和系统
CN103354575A (zh) * 2013-06-14 2013-10-16 广东欧珀移动通信有限公司 一种主被叫时提示历史通话内容的方法以及移动终端
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US8868409B1 (en) * 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
CN104267922B (zh) * 2014-09-16 2019-05-31 联想(北京)有限公司 一种信息处理方法及电子设备
EP3276618A4 (en) * 2015-03-23 2018-11-07 Sony Corporation Information processing system and information processing method
JP6669073B2 (ja) * 2015-03-31 2020-03-18 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9666192B2 (en) * 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US10559303B2 (en) * 2015-05-26 2020-02-11 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10140986B2 (en) * 2016-03-01 2018-11-27 Microsoft Technology Licensing, Llc Speech recognition
CN105933181B (zh) * 2016-04-29 2019-01-25 腾讯科技(深圳)有限公司 一种通话时延评估方法及装置
JP6819988B2 (ja) * 2016-07-28 2021-01-27 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
CN116844543A (zh) * 2016-08-26 2023-10-03 王峥嵘 一种基于语音交互的控制方法及系统
US9876901B1 (en) * 2016-09-09 2018-01-23 Google Inc. Conversational call quality evaluator
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
JP6751658B2 (ja) * 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
CN106531167B (zh) * 2016-11-18 2019-12-10 北京云知声信息技术有限公司 一种语音信息的处理方法及装置
CN106504756B (zh) * 2016-12-02 2019-05-24 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN108447471B (zh) * 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
US20180240466A1 (en) * 2017-02-17 2018-08-23 Intel Corporation Speech Decoder and Language Interpreter With Asynchronous Pre-Processing
CN106941000A (zh) * 2017-03-21 2017-07-11 百度在线网络技术(北京)有限公司 基于人工智能的语音交互方法和装置
CN106937266B (zh) * 2017-03-28 2020-03-27 Oppo广东移动通信有限公司 语音业务处理方法、装置、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
CN103971685A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN104485105A (zh) * 2014-12-31 2015-04-01 中国科学院深圳先进技术研究院 一种电子病历生成方法和电子病历系统
CN105845129A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置

Also Published As

Publication number Publication date
CN107919130A (zh) 2018-04-17
US20190139566A1 (en) 2019-05-09
US11024332B2 (en) 2021-06-01

Similar Documents

Publication Publication Date Title
CN107919130B (zh) 基于云端的语音处理方法和装置
CN107622770B (zh) 语音唤醒方法及装置
CN108009303B (zh) 基于语音识别的搜索方法、装置、电子设备和存储介质
CN107527630B (zh) 语音端点检测方法、装置和计算机设备
CN107526826B (zh) 语音搜索处理方法、装置及服务器
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
CN109522564B (zh) 语音翻译方法和装置
US11398228B2 (en) Voice recognition method, device and server
CN108091324B (zh) 语气识别方法、装置、电子设备和计算机可读存储介质
CN105336324A (zh) 一种语种识别方法及装置
CN110875059B (zh) 收音结束的判断方法、装置以及储存装置
CN111833902B (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN109697981B (zh) 一种语音交互方法、装置、设备及存储介质
CN113920988B (zh) 语音唤醒方法、装置及可读存储介质
CN109166571B (zh) 家电设备的唤醒词训练方法、装置及家电设备
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN109979437B (zh) 语音识别方法、装置、设备和存储介质
CN113380238A (zh) 处理音频信号的方法、模型训练方法、装置、设备和介质
CN109360551B (zh) 一种语音识别方法及装置
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN111933149A (zh) 语音交互方法、穿戴式设备、终端及语音交互系统
WO2021136298A1 (zh) 一种语音处理方法、装置、智能设备及存储介质
CN111063356B (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
CN110706691A (zh) 语音验证方法及装置、电子设备和计算机可读存储介质
CN108962235B (zh) 语音交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant