CN102971787B - 录音结束点检测方法及系统 - Google Patents

录音结束点检测方法及系统 Download PDF

Info

Publication number
CN102971787B
CN102971787B CN201080067778.4A CN201080067778A CN102971787B CN 102971787 B CN102971787 B CN 102971787B CN 201080067778 A CN201080067778 A CN 201080067778A CN 102971787 B CN102971787 B CN 102971787B
Authority
CN
China
Prior art keywords
recording
acoustic model
recording data
frame
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080067778.4A
Other languages
English (en)
Other versions
CN102971787A (zh
Inventor
魏思
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of CN102971787A publication Critical patent/CN102971787A/zh
Application granted granted Critical
Publication of CN102971787B publication Critical patent/CN102971787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种录音结束点自动检测方法及系统,所述方法包括如下步骤:获取录音文本,确定该录音文本的文本结束点声学模型;从录音数据中的录音开始帧开始,依次获取每一帧录音数据;确定获取到的当前帧录音数据的解码最优路径的特征声学模型;比较当前帧录音数据的解码最优路径的特征声学模型与结束点声学模型是否相同;如果相同,将静音持续时间阈值更新为第二时间阈值,其中第二时间阈值小于第一时间阈值。此方法能够提高录音结束点的识别效率。

Description

录音结束点检测方法及系统
技术领域
本发明涉及录音控制技术,尤其涉及录音结束点自动检测技术。
背景技术
经过多年的技术发展,文本相关的语音评测已经步入实用阶段。所谓文本相关的语音评测,指的是用户在给定的文本下进行朗读,语音评测系统存储用户的发音数据并对发音数据进行评价,给出评分。
现有的语音评测系统中,用户的录音控制一般由用户手动完成,也即:当用户点击预设的开始录音按钮后录音开始,而当用户点击预设的完成录音按钮后录音结束。这种录音控制需要用户多次手动点击,操作繁琐,影响了用户体验。
因此,现有技术中出现了一种自动进行录音控制的方法,在该方法中,由语音评测系统自动检测用户录音状态为发音或静音,当用户的静音持续时间超过一预设的时间阈值时,确定录音结束。但是,这种自动进行录音控制的方法中,所述时间阈值的设置如果较短时,可能出现将用户的正常发音停顿判定为录音结束点的问题,造成用户语音截断,因此,现有技术中一般将该时间阈值设置为较大的值,例如2秒甚至更长,因此,用户完成发音后需等待很长时间,语音评测系统才能识别出录音结束点,结束录音,使得语音评测系统对于录音结束点的识别效率低,影响了语音评测效率,降低用户体验。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种录音结束点检测方法及系统,能够提高对于录音结束点的识别效率。
为此,本发明实施例采用如下技术方案:
本发明实施例提供一种录音结束点检测方法,包括:预设静音持续时间阈值为第一时间阈值;该方法还包括:
获取录音文本,确定该录音文本的文本结束点声学模型;从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
所述确定文本结束点声学模型包括:
根据录音文本生成文本对应的解码网络,将所述解码网络对应的最后一个声学模型确定为文本结束点声学模型。
所述确定当前帧录音数据的解码最优路径的特征声学模型包括:
从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
还包括:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时间阈值。
每次获取到一帧录音数据之后还包括:
获取到的当前帧录音数据为静音数据,而且,当前静音持续时间超过当前的静音持续时间阈值时,结束录音。
所述获取每一帧录音数据之前,进一步包括:
接收录音数据,从录音数据中确定录音开始帧。
所述从录音数据中确定录音开始帧包括:
依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
本发明实施例还提供一种录音结束点检测系统,预设静音持续时间阈值为第一时间阈值;该系统还包括:
第一确定单元,用于获取录音文本,确定该录音文本的文本结束点声学模型;
第一获取单元,用于从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
第二确定单元,用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
阈值确定单元,用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
第一确定单元包括:
获取子单元,用于获取录音文本;
网络建立子单元,用于根据录音文本建立文本对应的解码网络;
第一特征确定子单元,用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
第二确定单元包括:
提取子单元,从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
第二特征确定子单元,用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
阈值确定单元还用于:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时间阈值。
还包括:录音控制单元,用于判断获取到的当前帧录音数据为静音数据,而且,当前静音持续时间超过当前的静音持续时间阈值时,结束录音。
还包括:接收单元,用于接收录音数据,从录音数据中确定录音开始帧。
接收单元包括:
接收子单元,用于接收录音数据;
开始帧确定子单元,用于依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
对于上述技术方案的技术效果分析如下:
将文本结束点声学模型与当前帧录音数据所对应的解码最优路径的特征声学模型比较,如果相同,说明用户已经朗读完了录音文本,则将静音持续时间阈值更新为相对于第一时间阈值来说较短的第二时间阈值,用户的静音持续时间超过第二时间阈值即结束录音,从而相对于现有技术,提高了对于录音结束点的识别效率,缩短了用户录音结束后所需要等待的时间。
附图说明
图1为本发明实施例一种录音结束点检测方法流程示意图;
图2为本发明实施例另一种录音结束点检测方法流程示意图;
图3为本发明实施例Viterbi算法示意图;
图4为本发明实施例解码网络示例图;
图5为本发明实施例一种录音结束点检测系统结构示意图;
图6为本发明实施例录音结束点检测系统中一单元的实现结构示意图;
图7为本发明实施例录音结束点检测系统中另一单元的实现结构示意图。
具体实施方式
以下,结合附图详细说明本发明实施例录音结束点检测方法及系统的实现。
图1为本发明实施例录音结束点检测方法流程示意图,如图1所示,包括:
预设静音持续时间阈值为所述第一时间阈值;
该方法还包括:
步骤101:获取录音文本,确定该录音文本的文本结束点声学模型;
具体的,所述录音文本也即为录音中用户所需要朗读的文本,该文本可以为中文、英文等任何语言,这里并不限制。
步骤102:从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
所述录音数据也即为录音过程中录音设备获取到的声音数据。
步骤103:确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
步骤101和步骤102~103之间的执行顺序并不限制,只要在步骤104之前执行即可。
步骤104:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
图1所示的录音结束点检测方法中,将文本结束点声学模型与解码最优路径的特征声学模型相比较,如果相同,说明用户已经朗读完了录音文本,则将静音持续时间阈值的取值更新为相对于第一时间阈值来说较短的第二时间阈值,用户的静音持续时间超过第二时间阈值即结束录音,相对于现有技术,提高了对于录音结束点的识别效率,缩短了用户朗读完成后所需要等待录音结束的时间。
在图1的基础上,通过图2对本发明实施例录音结束点检测方法进行更为详细的说明。如图2所示,该方法包括:
将静音持续时间阈值设置为第一时间阈值。
步骤201:获取录音文本,确定录音文本的结束点对应的文本结束点声学模型。
其中,所述确定录音文本的结束点对应的文本结束点声学模型可以包括:
根据录音文本生成对应的解码网络;
将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
具体的,所建立的解码网络可以由录音文本的开始点静音模型、录音文本中各个字或词的声学模型以及录音文本的结束点的静音模型构成,这里的所述文本结束点声学模型可以为:录音文本的结束点的静音模型。
例如,如图4所示,对于录音文本“Hello World”来说,所建立的解码网络包括:录音文本的开始点的静音模型Sil_Begin,单词Hello的声学模型、单词World的声学模型以及录音文本结束点的静音模型Sil_End,本步骤中即需要得到所述静音模型Sil_End。
步骤202:接收录音数据并存储于预设的缓冲区中。
步骤203:从所述录音数据中确定录音开始帧。
所述从录音数据中确定录音开始帧可以包括:
依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
其中,当判断录音数据是静音数据或非静音数据时,可以利用VAD(VoiceActivity Detection)策略实现。例如,在“A statistical model-based voice activitydetection(J.Sohn,N.S.Kim,and W.Sung,IEEE Signal Process.Lett.,vol.16,no.1,pp.1–3,1999)”和Speech processing,transmission and quality aspects(STQ);distributed speech recognition;advanced front-end feature extraction algorithm;compression algorithms(ETSI,ETSI ES202050Rec.,2002)两篇文章中即介绍了如何利用VAD策略实现静音数据或非静音数据的判断,这里不再赘述。
这里,在不同的应用环境中,每一帧录音数据的时间间隔和取样窗长可能不同,这里并不限定。例如,一般可以设置时间间隔(也即帧移)为10ms;取样窗长为25ms。
步骤204:从录音开始帧开始,依次从缓冲区中获取一帧录音数据。
步骤205:对获取到的当前帧录音数据进行解码,得到该帧录音数据对应的解码最优路径的特征声学模型。
具体的,本步骤中对录音数据进行解码可以包括:
从当前帧录音数据中提取与预设的声学模型相对应的梅尔倒谱参数(MFCC)特征,得到该帧录音数据对应的解码最优路径;
确定该解码最优路径的特征声学模型。
其中,与步骤201中相对应的,可以将解码最优路径的最后一个声学模型确定为所述解码最优路径的特征声学模型。
其中,用来进行解码的所述预设的声学模型可以是音素层面的单音素(Mono-Phone)模型,也可以是上下文相关(Context-dependent)的三音素(Tri-phone)模型;还包括静音模型。
利用所述预设的声学模型对所述MFCC特征进行解码,得到所述录音数据对应的解码最优路径,所述解码最优路径可以为模型的似然度或代价函数最大的路径。
所述解码可以使用维特比(Viterbi)算法等实现。
例如,通过Viterbi算法进行解码后,得到如图3所示的解码结果,本发明实施例中的所述解码最优路径的最后一个声学模型也即为最后时刻t所对应的声学模型。确定该录音数据对应的解码最优路径的最后一个声学模型,将该声学模型作为该帧录音数据对应的解码最优路径的特征声学模型。
步骤206:判断文本结束点声学模型与该帧录音数据的解码最优路径的特征声学模型是否相同,如果相同,执行步骤207;否则,执行步骤208。
步骤207:将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于所述第一时间阈值;执行步骤209。
步骤208:保持静音持续时间阈值为第一时间阈值;执行步骤209。
步骤209:判断从缓冲区中获取到的当前帧的录音数据为静音数据或非静音数据,如果是静音数据,则执行步骤210;否则,返回步骤204,从缓冲区中获取当前帧的下一帧录音数据。
其中,录音数据是按帧从缓冲区中依次获取的,本步骤中的当前帧录音数据也即为当前从缓冲区中获取到的、需要进行处理的一帧录音数据。
其中,本步骤中当判断录音数据是静音数据或非静音数据时,也可以利用VAD(Voice Activity Detection)策略实现。例如,在“A statistical model-basedvoice activity detection(J.Sohn,N.S.Kim,and W.Sung,IEEE Signal Process.Lett.,vol.16,no.1,pp.1–3,1999)”和Speech processing,transmission andquality aspects(STQ);distributed speech recognition;advanced front-end featureextraction algorithm;compression algorithms(ETSI,ETSI ES202050Rec.,2002)两篇文章中即介绍了如何利用VAD策略实现静音数据或非静音数据的判断,这里不再赘述。
步骤210:判断当前静音持续时间是否超过当前的静音持续时间阈值,如果是,结束录音;否则,返回步骤204,从缓冲区获取当前帧的下一帧录音数据,将该帧录音数据作为当前帧录音数据。
其中,步骤209只要在步骤204~步骤210之间执行即可,与步骤205~步骤208之间的执行顺序不限制。
本步骤中的当前静音持续时间与当前帧录音数据之前连续若干帧的录音数据是否为静音数据相关。具体的,当前静音持续时间可以通过以下公式计算:
当前静音持续时间=(当前帧数-当前帧之前第一帧非静音数据所对应帧数)×一个帧长度;
例如,第m-1和第m-2帧录音数据均为非静音数据,第m~第m+n帧录音数据均为静音数据,则在处理第m帧录音数据时,当前静音持续时间为1个帧长度;在处理第m+1帧录音数据时,当前静音持续时间为2个帧长度...在处理第m+n帧录音数据时,当前静音持续时间为n+1个帧长度。
另外,本步骤中的所述当前的静音持续时间阈值在不同的时刻可能取值为第一时间阈值也可能取值第二时间阈值,具体的,在步骤206判断出存在特征声学模型与文本结束点声学模型相同的一帧录音数据之前,所述当前的静音持续时间均取值为第一时间阈值,而一旦步骤206中判断某一帧解码最优路径的特征声学模型与文本结束点声学模型相同之后,所述静音持续时间阈值的取值更新为时间长度较短的所述第二时间阈值。
在图2所示的方法中,一直判断解码最优路径的特征声学模型与文本结束点声学模型不相同时,则说明用户未结束录音文本的朗读,此时静音持续时间阈值为第一时间阈值,只有用户保持静音的时间超过当前的静音持续时间阈值(即第一时间阈值)时,才结束录音,保证用户非正常录音(例如朗读出现错误或者中途结束等)下,也可以自动结束录音;而一旦判断解码最优路径的特征声学模型与文本结束点声学模型相同,说明用户已经结束了录音文本的朗读,此时,将静音持续时间阈值更新为第一时间阈值和第二时间阈值中相对较短的第二时间阈值,从而只要用户静音持续的时间超过了当前的静音持续时间阈值(即第二时间阈值)即结束录音,从而在用户正常朗读完录音文本的情况下,用户所等待的时间仅为第二时间阈值,相对于现有技术中的第一时间阈值,等待的时间缩短,从而提高了录音结束点的识别效率。
但是,在图2所示的方法中,对于步骤206中判断解码最优路径的特征声学模型与文本结束点声学模型相同的情况,虽然已经判定用户结束了录音文本的朗读,但是,在判定用户结束了录音文本的朗读后,后续对于每一帧录音数据还进行步骤206的判断,此时,该判断步骤并非必须步骤,例如,对第N帧录音数据进行步骤206的判断结果为相同时,说明用户在第N帧录音数据中已经结束了录音文本的朗读,此时,对于第N+1以及后续的若干帧录音数据而言,并不一定需要再进行步骤206的判断。因此,在实际应用中,为了进一步录音结束点的识别效率和处理效率,可以在步骤206中第一次判断录音数据的特征声学模型与文本结束点声学模型相同后,不再对后续帧的录音数据执行步骤205~步骤208,而只执行步骤209~步骤210,也即:只判断获取到的当前帧录音数据是否为静音数据,为静音数据时,进行静音持续时间的判断。
与所述录音结束点检测方法相对应的,本发明实施例还提供录音结束点检测系统,如图5所示,在该系统中,预设静音持续时间阈值为所述第一时间阈值;该系统还包括:
第一确定单元510,用于获取录音文本,确定该录音文本的文本结束点声学模型;
第一获取单元520,用于从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
第二确定单元530,用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
阈值确定单元540,用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
优选地,阈值确定单元540还可以用于:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时间阈值。
另外,如图5所示,该系统还可以包括:
录音控制单元550,用于判断获取到的当前帧录音数据为静音数据,而且,当前静音持续时间超过当前的静音持续时间阈值时,结束录音。
优选地,如图6所示,第一确定单元510可以包括:
获取子单元610,用于获取录音文本;
网络建立子单元620,用于根据录音文本建立文本对应的解码网络;
第一特征确定子单元630,用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
优选地,如图7所示,第二确定单元520可以包括:
提取子单元710,从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
第二特征确定子单元720,用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
如图5所示,该系统还可以包括:
接收单元500,用于接收录音数据,从录音数据中确定录音开始帧。
优选地,接收单元500可以包括:
接收子单元,用于接收录音数据;
开始帧确定子单元,用于依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
以上在判断录音数据是静音数据或非静音数据时,可以利用VAD策略,这里不再赘述。
图5~7所示的录音结束点检测系统,阈值确定单元将解码最优路径的特征声学模型与文本结束点声学模型相比较,如果相同,说明用户已经朗读完了录音文本,则将静音持续时间阈值更新为相对于第一时间阈值来说较短的第二时间阈值,之后,录音控制单元判断当前静音持续时间超过第二时间阈值即结束录音,相对于现有技术,缩短了用户录音结束后所需要等待的时间,提高了对于录音结束点的识别效率,提升了用户体验。
本发明实施例所述的录音结束点检测方法和系统不仅可以应用于语音评测系统中,还可以应用于其他需要对已知文本的朗读进行录音的场景中。
本领域普通技术人员可以理解,实现上述实施例录音结束点检测方法的过程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种录音结束点检测方法,其特征在于,包括:预设静音持续时间阈值为第一时间阈值;该方法还包括:
获取录音文本,确定该录音文本的文本结束点声学模型;从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
2.根据权利要求1所述的方法,其特征在于,所述确定文本结束点声学模型包括:
根据录音文本生成文本对应的解码网络,将所述解码网络对应的最后一个声学模型确定为文本结束点声学模型。
3.根据权利要求2所述的方法,其特征在于,所述确定当前帧录音数据的解码最优路径的特征声学模型包括:
从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
4.根据权利要求1所述的方法,其特征在于,还包括:
判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时间阈值。
5.根据权利要求1至4任一项所述的方法,其特征在于,每次获取到一帧录音数据之后还包括:
判断获取到的当前帧录音数据为静音数据,而且,当前静音持续时间超过当前的静音持续时间阈值时,结束录音。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述获取每一帧录音数据之前,进一步包括:
接收录音数据,从录音数据中确定录音开始帧。
7.根据权利要求6所述的方法,其特征在于,所述从录音数据中确定录音开始帧包括:
依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
8.一种录音结束点检测系统,其特征在于,预设静音持续时间阈值为第一时间阈值;该系统还包括:
第一确定单元,用于获取录音文本,确定该录音文本的文本结束点声学模型;
第一获取单元,用于从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
第二确定单元,用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
阈值确定单元,用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
9.根据权利要求8所述的系统,其特征在于,第一确定单元包括:
获取子单元,用于获取录音文本;
网络建立子单元,用于根据录音文本建立文本对应的解码网络;
第一特征确定子单元,用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
10.根据权利要求9所述的系统,其特征在于,第二确定单元包括:
提取子单元,从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
第二特征确定子单元,用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
11.根据权利要求8所述的系统,其特征在于,阈值确定单元还用于:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时间阈值。
12.根据权利要求8至11任一项所述的系统,其特征在于,还包括:
录音控制单元,用于判断获取到的当前帧录音数据为静音数据,而且,当前静音持续时间超过当前的静音持续时间阈值时,结束录音。
13.根据权利要求8至11任一项所述的系统,其特征在于,还包括:
接收单元,用于接收录音数据,从录音数据中确定录音开始帧。
14.根据权利要求13所述的系统,其特征在于,接收单元包括:
接收子单元,用于接收录音数据;
开始帧确定子单元,用于依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
CN201080067778.4A 2010-10-29 2010-10-29 录音结束点检测方法及系统 Active CN102971787B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/078223 WO2012055113A1 (zh) 2010-10-29 2010-10-29 录音结束点检测方法及系统

Publications (2)

Publication Number Publication Date
CN102971787A CN102971787A (zh) 2013-03-13
CN102971787B true CN102971787B (zh) 2014-04-23

Family

ID=45993073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080067778.4A Active CN102971787B (zh) 2010-10-29 2010-10-29 录音结束点检测方法及系统

Country Status (7)

Country Link
US (1) US9330667B2 (zh)
JP (1) JP5883014B2 (zh)
KR (1) KR101417975B1 (zh)
CN (1) CN102971787B (zh)
DE (1) DE112010005959B4 (zh)
SG (1) SG189182A1 (zh)
WO (1) WO2012055113A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Families Citing this family (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104112446B (zh) * 2013-04-19 2018-03-09 华为技术有限公司 呼吸声检测方法及装置
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN104078076B (zh) * 2014-06-13 2017-04-05 科大讯飞股份有限公司 一种语音录入方法及系统
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105825870B (zh) * 2016-03-14 2019-04-02 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN108986844B (zh) * 2018-08-06 2020-08-28 东北大学 一种基于说话人语音特征的语音端点检测方法
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN110910905B (zh) * 2018-09-18 2023-05-02 京东科技控股股份有限公司 静音点检测方法及装置、存储介质、电子设备
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN112151073A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 一种语音处理方法、系统、设备及介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN113160854A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111583912A (zh) * 2020-05-26 2020-08-25 阳光保险集团股份有限公司 语音端点检测方法、装置以及电子设备
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1425980A (zh) * 2003-01-14 2003-06-25 杨宏惠 个性化开放式电脑语音录入方法
WO2006125346A1 (en) * 2005-05-27 2006-11-30 Intel Corporation Automatic text-speech mapping tool
JP2007266807A (ja) * 2006-03-28 2007-10-11 Funai Electric Co Ltd 映像音声記録再生装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4870686A (en) 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
EP0692135B1 (en) * 1993-03-12 2000-08-16 Sri International Method and apparatus for voice-interactive language instruction
GB2303471B (en) 1995-07-19 2000-03-22 Olympus Optical Co Voice activated recording apparatus
JPH0990994A (ja) 1995-07-19 1997-04-04 Olympus Optical Co Ltd 音声起動録音装置
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6456970B1 (en) * 1998-07-31 2002-09-24 Texas Instruments Incorporated Minimization of search network in speech recognition
CN1182513C (zh) * 2003-02-21 2004-12-29 清华大学 基于局部能量加权的抗噪声语音识别方法
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP2005242182A (ja) 2004-02-27 2005-09-08 Toshiba Corp 音声検出装置、音声認識装置、音声検出方法および音声認識方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
CN100411011C (zh) * 2005-11-18 2008-08-13 清华大学 用于语言学习机的发音质量评价方法
JP4906379B2 (ja) 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
CN101025981B (zh) 2007-01-23 2010-04-07 无敌科技(西安)有限公司 一种数字录音系统及方法
CN101197084A (zh) * 2007-11-06 2008-06-11 安徽科大讯飞信息科技股份有限公司 自动化英语口语评测学习系统
JP5446874B2 (ja) 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US20090204407A1 (en) * 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1425980A (zh) * 2003-01-14 2003-06-25 杨宏惠 个性化开放式电脑语音录入方法
WO2006125346A1 (en) * 2005-05-27 2006-11-30 Intel Corporation Automatic text-speech mapping tool
JP2007266807A (ja) * 2006-03-28 2007-10-11 Funai Electric Co Ltd 映像音声記録再生装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Also Published As

Publication number Publication date
SG189182A1 (en) 2013-05-31
DE112010005959B4 (de) 2019-08-29
DE112010005959T5 (de) 2013-08-14
JP2013545133A (ja) 2013-12-19
WO2012055113A1 (zh) 2012-05-03
CN102971787A (zh) 2013-03-13
US9330667B2 (en) 2016-05-03
KR20130071490A (ko) 2013-06-28
KR101417975B1 (ko) 2014-07-09
US20130197911A1 (en) 2013-08-01
JP5883014B2 (ja) 2016-03-09

Similar Documents

Publication Publication Date Title
CN102971787B (zh) 录音结束点检测方法及系统
WO2017076222A1 (zh) 语音识别方法及装置
CN106940998B (zh) 一种设定操作的执行方法及装置
EP3132442B1 (en) Keyword model generation for detecting a user-defined keyword
KR101056511B1 (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US9837068B2 (en) Sound sample verification for generating sound detection model
CN102708855B (zh) 利用话音识别器反馈来进行语音活动检测
CN102456343A (zh) 录音结束点检测方法及系统
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
CN105529028A (zh) 语音解析方法和装置
CN115910043A (zh) 语音识别方法、装置及车辆
CN110268471B (zh) 具有嵌入式降噪的asr的方法和设备
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
JP2023539948A (ja) ロングコンテキストエンドツーエンド音声認識システム
CN113160854A (zh) 语音交互系统、相关方法、装置及设备
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
CN109065026B (zh) 一种录音控制方法及装置
Anastasakos et al. The use of confidence measures in unsupervised adaptation of speech recognizers.
CN112863496B (zh) 一种语音端点检测方法以及装置
Mateju et al. Speech activity detection in online broadcast transcription using deep neural networks and weighted finite state transducers
CN111402865A (zh) 语音识别训练数据的生成方法、语音识别模型的训练方法
WO2020227955A1 (zh) 声音识别方法、交互方法、声音识别系统、计算机可读存储介质及可移动平台
CN112189232A (zh) 音频处理方法及装置
JP4295675B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2021033228A (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230031 666 Wangjiang West Road, Hefei high tech Zone, Anhui

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.

CP03 Change of name, title or address