CN102971787A - 录音结束点检测方法及系统 - Google Patents

录音结束点检测方法及系统 Download PDF

Info

Publication number
CN102971787A
CN102971787A CN2010800677784A CN201080067778A CN102971787A CN 102971787 A CN102971787 A CN 102971787A CN 2010800677784 A CN2010800677784 A CN 2010800677784A CN 201080067778 A CN201080067778 A CN 201080067778A CN 102971787 A CN102971787 A CN 102971787A
Authority
CN
China
Prior art keywords
recording
acoustic model
recording data
frame
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800677784A
Other languages
English (en)
Other versions
CN102971787B (zh
Inventor
魏思
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of CN102971787A publication Critical patent/CN102971787A/zh
Application granted granted Critical
Publication of CN102971787B publication Critical patent/CN102971787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种录音结束点自动检测方法及系统,所述方法包括如下步骤:获取录音文本,确定该录音文本的文本结束点声学模型;从录音数据中的录音开始帧开始,依次获取每一帧录音数据;确定获取到的当前帧录音数据的解码最优路径的特征声学模型;比较当前帧录音数据的解码最优路径的特征声学模型与结束点声学模型是否相同;如果相同,将静音持续时间阈值更新为第二时间阈值,其中第二时间阈值小于第一时间阈值。此方法能够提高录音结束点的识别效率。

Description

录音结束点检测方法及系统 技术领域
本发明涉及录音控制技术, 尤其涉及录音结束点自动检测技术。 背景技术
经过多年的技术发展, 文本相关的语音评测已经步入实用阶段。所谓文本 相关的语音评测,指的是用户在给定的文本下进行朗读,语音评测系统存储用 户的发音数据并对发音数据进行评价, 给出评分。
现有的语音评测系统中, 用户的录音控制一般由用户手动完成, 也即: 当 用户点击预设的开始录音按鈕后录音开始,而当用户点击预设的完成录音按鈕 后录音结束。 这种录音控制需要用户多次手动点击, 操作繁瑣, 影响了用户体 验。
因此, 现有技术中出现了一种自动进行录音控制的方法, 在该方法中, 由 语音评测系统自动检测用户录音状态为发音或静音,当用户的静音持续时间超 过一预设的时间阈值时, 确定录音结束。 但是, 这种自动进行录音控制的方法 中,所述时间阈值的设置如果较短时, 可能出现将用户的正常发音停顿判定为 录音结束点的问题, 造成用户语音截断, 因此, 现有技术中一般将该时间阈值 设置为较大的值,例如 2秒甚至更长, 因此,用户完成发音后需等待很长时间, 语音评测系统才能识别出录音结束点, 结束录音,使得语音评测系统对于录音 结束点的识别效率低, 影响了语音评测效率, 降低用户体验。 发明内容
有鉴于此,本发明要解决的技术问题是,提供一种录音结束点检测方法及 系统, 能够提高对于录音结束点的识别效率。 为此, 本发明实施例采用如下技术方案:
本发明实施例提供一种录音结束点检测方法, 包括: 预设静音持续时间阈 值为所述第一时间阈值; 该方法还包括:
获取录音文本,确定该录音文本的文本结束点声学模型; 从录音数据中的 录音开始帧开始, 依次获取每一帧录音数据;
确定获取到的当前帧录音数据的解码最优路径的特征声学模型; 判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学 模型相同时,将静音持续时间阈值更新为第二时间阈值, 所述第二时间阈值小 于第一时间阈值。
所述确定文本结束点声学模型包括:
根据录音文本生成文本对应的解码网络,将所述解码网络对应的最后一个 声学模型确定为文本结束点声学模型。
所述确定当前帧录音数据的解码最优路径的特征声学模型包括: 从当前帧的录音数据中提取与预设的声学模型相对应的 MFCC特征, 得 到当前帧录音数据的解码最优路径;
确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路 径的特征声学模型。
还包括:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束 点声学模型不相同时, 保持所述静音持续时间阈值为所述第一时间阈值。
每次获取到一帧录音数据之后还包括:
获取到的当前帧录音数据为静音数据, 而且, 当前静音持续时间超过当前 的静音持续时间阈值时, 结束录音。
所述获取每一帧录音数据之前, 进一步包括:
接收录音数据, 从录音数据中确定录音开始帧。
所述从录音数据中确定录音开始帧包括:
依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据 所在的帧作为录音开始帧。
本发明实施例还提供一种录音结束点检测系统,预设静音持续时间阈值为 所述第一时间阈值; 该系统还包括:
第一确定单元, 用于获取录音文本,确定该录音文本的文本结束点声学模 型;
第一获取单元, 用于从录音数据中的录音开始帧开始,依次获取每一帧录 音数据;
第二确定单元,用于确定获取到的当前帧录音数据的解码最优路径的特征 声学模型; 阈值确定单元,用于判断当前帧录音数据的解码最优路径的特征声学模型 与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值, 所 述第二时间阈值小于第一时间阈值。
第一确定单元包括:
获取子单元, 用于获取录音文本;
网络建立子单元, 用于才艮据录音文本建立文本对应的解码网络; 第一特征确定子单元,用于将所述解码网络的最后一个声学模型确定为文 本结束点声学模型。
第二确定单元包括:
提取子单元, 从当前帧的录音数据中提取与预设的声学模型相对应的
MFCC特征, 得到当前帧录音数据的解码最优路径;
第二特征确定子单元,用于确定当前帧录音数据的解码最优路径的最后一 个声学模型为解码最优路径的特征声学模型。
阈值确定单元还用于:判断当前帧录音数据的解码最优路径的特征声学模 型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时 间阈值。
还包括: 录音控制单元, 用于判断获取到的当前帧录音数据为静音数据, 而且, 当前静音持续时间超过当前的静音持续时间阈值时, 结束录音。
还包括: 接收单元, 用于接收录音数据, 从录音数据中确定录音开始帧。 接收单元包括:
接收子单元, 用于接收录音数据;
开始帧确定子单元,用于依次判断每一帧录音数据为静音数据或非静音数 据, 将第一帧非静音数据所在的帧作为录音开始帧。 对于上述技术方案的技术效果分析如下:
将文本结束点声学模型与当前帧录音数据所对应的解码最优路径的特征 声学模型比较, 如果相同, 说明用户已经朗读完了录音文本, 则将静音持续时 间阈值更新为相对于第一时间阈值来说较短的第二时间阈值,用户的静音持续 时间超过第二时间阈值即结束录音,从而相对于现有技术,提高了对于录音结 束点的识别效率, 缩短了用户录音结束后所需要等待的时间。 附图说明
图 1为本发明实施例一种录音结束点检测方法流程示意图;
图 2为本发明实施例另一种录音结束点检测方法流程示意图;
图 3为本发明实施例 Viterbi算法示意图;
图 4为本发明实施例解码网络示例图;
图 5为本发明实施例一种录音结束点检测系统结构示意图;
图 6为本发明实施例录音结束点检测系统中一单元的实现结构示意图; 图 7为本发明实施例录音结束点检测系统中另一单元的实现结构示意图。 具体实施方式
现。
图 1为本发明实施例录音结束点检测方法流程示意图,如图 1所示,包括: 预设静音持续时间阈值为所述第一时间阈值;
该方法还包括:
步骤 101 : 获取录音文本, 确定该录音文本的文本结束点声学模型; 具体的, 所述录音文本也即为录音中用户所需要朗读的文本, 该文本可以 为中文、 英文等任何语言, 这里并不限制。
步骤 102: 从录音数据中的录音开始帧开始, 依次获取每一帧录音数据; 所述录音数据也即为录音过程中录音设备获取到的声音数据。
步骤 103: 确定获取到的当前帧录音数据的解码最优路径的特征声学模 型;
步骤 101和步骤 102~103之间的执行顺序并不限制 ,只要在步骤 104之前 执行即可。
步骤 104: 判断当前帧录音数据的解码最优路径的特征声学模型与所述结 束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值, 所述第二时 间阈值小于第一时间阈值。
图 1所示的录音结束点检测方法中,将文本结束点声学模型与解码最优路 径的特征声学模型相比较, 如果相同, 说明用户已经朗读完了录音文本, 则将 静音持续时间阈值的取值更新为相对于第一时间阈值来说较短的第二时间阈 值, 用户的静音持续时间超过第二时间阈值即结束录音, 相对于现有技术, 提 高了对于录音结束点的识别效率,缩短了用户朗读完成后所需要等待录音结束 的时间。
在图 1的基础上,通过图 2对本发明实施例录音结束点检测方法进行更为 详细的说明。 如图 2所示, 该方法包括:
将静音持续时间阈值设置为第一时间阈值。
步骤 201 : 获取录音文本, 确定录音文本的结束点对应的文本结束点声学 模型。
其中, 所述确定录音文本的结束点对应的文本结束点声学模型可以包括: 才艮据录音文本生成对应的解码网络;
将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
具体的, 所建立的解码网络可以由录音文本的开始点静音模型、 录音文本 中各个字或词的声学模型以及录音文本的结束点的静音模型构成,这里的所述 文本结束点声学模型可以为: 录音文本的结束点的静音模型。
例如, 如图 4所示, 对于录音文本 "Hello World" 来说, 所建立的解码网 络包括: 录音文本的开始点的静音模型 Sil_Begin, 单词 Hello的声学模型、 单 词 World的声学模型以及录音文本结束点的静音模型 Sil_End, 本步骤中即需 要得到所述静音模型 Sil_End。
步骤 202: 接收录音数据并存储于预设的緩沖区中。
步骤 203: 从所述录音数据中确定录音开始帧。
所述从录音数据中确定录音开始帧可以包括:
依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据 所在的帧作为录音开始帧。
其中, 当判断录音数据是静音数据或非静音数据时, 可以利用 VAD(Voice Activity Detection)策略实现。 1"列 口, 在 "A statistical model-based voice activity detection ( J. Sohn, N. S. Kim, and W. Sung, IEEE Signal Process. Lett., vol. 16, no. 1, pp. 1-3, 1999 ),, 和 Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms ( ETSI, ETSI ES 202 050 Rec, 2002 ) 两篇文章中即介 绍了如何利用 VAD策略实现静音数据或非静音数据的判断, 这里不再赘述。
这里,在不同的应用环境中,每一帧录音数据的时间间隔和取样窗长可能 不同, 这里并不限定。 例如, 一般可以设置时间间隔(也即帧移) 为 10ms; 取样窗长为 25ms。
步骤 204: 从录音开始帧开始, 依次从緩沖区中获取一帧录音数据。 步骤 205: 对获取到的当前帧录音数据进行解码, 得到该帧录音数据对应 的解码最优路径的特征声学模型。
具体的, 本步骤中对录音数据进行解码可以包括:
从当前帧录音数据中提取与预设的声学模型相对应的梅尔倒谱参数
( MFCC )特征, 得到该帧录音数据对应的解码最优路径;
确定该解码最优路径的特征声学模型。
其中, 与步骤 201中相对应的, 可以将解码最优路径的最后一个声学模型 确定为所述解码最优路径的特征声学模型。
其中, 用来进行解码的所述预设的声学模型可以是音素层面的单音素
( Mono-Phone )模型, 也可以是上下文相关(Context-dependent ) 的三音素 ( Tri-phone )模型; 还包括静音模型。
利用所述预设的声学模型对所述 MFCC特征进行解码, 得到所述录音数 据对应的解码最优路径,所述解码最优路径可以为模型的似然度或代价函数最 大的路径。
所述解码可以使用维特比(Viterbi )算法等实现。
例如, 通过 Viterbi算法进行解码后, 得到如图 3所示的解码结果, 本发 明实施例中的所述解码最优路径的最后一个声学模型也即为最后时刻 t所对应 的声学模型。确定该录音数据对应的解码最优路径的最后一个声学模型,将该 声学模型作为该帧录音数据对应的解码最优路径的特征声学模型。
步骤 206: 判断文本结束点声学模型与该帧录音数据的解码最优路径的特 征声学模型是否相同, 如果相同, 执行步骤 207; 否则, 执行步骤 208。
步骤 207: 将静音持续时间阈值更新为第二时间阈值, 所述第二时间阈值 小于所述第一时间阈值; 执行步骤 209。 步骤 208: 保持静音持续时间阈值为第一时间阈值; 执行步骤 209。
步骤 209: 判断从緩沖区中获取到的当前帧的录音数据为静音数据或非静 音数据, 如果是静音数据, 则执行步骤 210; 否则, 返回步骤 204, 从緩沖区 中获取当前帧的下一帧录音数据。
其中, 录音数据是按帧从緩沖区中依次获取的, 本步骤中的当前帧录音数 据也即为当前从緩沖区中获取到的、 需要进行处理的一帧录音数据。
其中, 本步骤中当判断录音数据是静音数据或非静音数据时,也可以利用 VAD(Voice Activity Detection)策略实现。例如,在 "A statistical model-based voice activity detection ( J. Sohn, N. S. Kim, and W. Sung, IEEE Signal Process. Lett., vol 16, no. 1, pp. 1-3, 1999 ),, 和 Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms ( ETSI, ETSI ES 202 050 Rec, 2002 )两篇文 章中即介绍了如何利用 VAD策略实现静音数据或非静音数据的判断, 这里不 再赘述。
步骤 210: 判断当前静音持续时间是否超过当前的静音持续时间阈值, 如 果是, 结束录音; 否则, 返回步骤 204, 从緩沖区获取当前帧的下一帧录音数 据, 将该帧录音数据作为当前帧录音数据。
其中, 步骤 209只要在步骤 204~步骤 210之间执行即可, 与步骤 205~步 骤 208之间的执行顺序不限制。
本步骤中的当前静音持续时间与当前帧录音数据之前连续若干帧的录音 数据是否为静音数据相关。具体的,当前静音持续时间可以通过以下公式计算: 当前静音持续时间 = (当前帧数 -当前帧之前第一帧非静音数据所对应帧 数) X—个帧长度;
例如, 第 m-1和第 m-2帧录音数据均为非静音数据, 第 111~第 m+n帧录 音数据均为静音数据, 则在处理第 m帧录音数据时, 当前静音持续时间为 1 个帧长度; 在处理第 m+1帧录音数据时, 当前静音持续时间为 2个帧长度… 在处理第 m+n帧录音数据时, 当前静音持续时间为 n+1个帧长度。
另外,本步骤中的所述当前的静音持续时间阈值在不同的时刻可能取值为 第一时间阈值也可能取值第二时间阈值, 具体的,在步骤 206判断出存在特征 声学模型与文本结束点声学模型相同的一帧录音数据之前,所述当前的静音持 续时间均取值为第一时间阈值,而一旦步骤 206中判断某一帧解码最优路径的 特征声学模型与文本结束点声学模型相同之后,所述静音持续时间阈值的取值 更新为时间长度较短的所述第二时间阈值。
在图 2所示的方法中,一直判断解码最优路径的特征声学模型与文本结束 点声学模型不相同时, 则说明用户未结束录音文本的朗读, 此时静音持续时间 阈值为第一时间阈值,只有用户保持静音的时间超过当前的静音持续时间阈值 (即第一时间阈值)时, 才结束录音, 保证用户非正常录音(例如朗读出现错 误或者中途结束等)下, 也可以自动结束录音; 而一旦判断解码最优路径的特 征声学模型与文本结束点声学模型相同, 说明用户已经结束了录音文本的朗 读, 此时,将静音持续时间阈值更新为第一时间阈值和第二时间阈值中相对较 短的第二时间阈值,从而只要用户静音持续的时间超过了当前的静音持续时间 阈值(即第二时间阈值)即结束录音, 从而在用户正常朗读完录音文本的情况 下,用户所等待的时间仅为第二时间阈值,相对于现有技术中的第一时间阈值, 等待的时间缩短, 从而提高了录音结束点的识别效率。
但是,在图 2所示的方法中,对于步骤 206中判断解码最优路径的特征声 学模型与文本结束点声学模型相同的情况,虽然已经判定用户结束了录音文本 的朗读, 但是, 在判定用户结束了录音文本的朗读后, 后续对于每一帧录音数 据还进行步骤 206的判断, 此时, 该判断步骤并非必须步骤, 例如, 对第 N 帧录音数据进行步骤 206的判断结果为相同时, 说明用户在第 N帧录音数据 中已经结束了录音文本的朗读, 此时, 对于第 N+1以及后续的若干帧录音数 据而言, 并不一定需要再进行步骤 206的判断。 因此, 在实际应用中, 为了进 一步录音结束点的识别效率和处理效率,可以在步骤 206中第一次判断录音数 据的特征声学模型与文本结束点声学模型相同后,不再对后续帧的录音数据执 行步骤 205~步骤 208 , 而只执行步骤 209~步骤 210, 也即: 只判断获取到的当 前帧录音数据是否为静音数据, 为静音数据时, 进行静音持续时间的判断。
与所述录音结束点检测方法相对应的,本发明实施例还提供录音结束点检 测系统, 如图 5所示, 在该系统中, 预设静音持续时间阈值为所述第一时间阈 值; 该系统还包括: 第一确定单元 510, 用于获取录音文本, 确定该录音文本的文本结束点声 学模型;
第一获取单元 520, 用于从录音数据中的录音开始帧开始, 依次获取每一 帧录音数据;
第二确定单元 530, 用于确定获取到的当前帧录音数据的解码最优路径的 特征声学模型;
阈值确定单元 540, 用于判断当前帧录音数据的解码最优路径的特征声学 模型与所述结束点声学模型相同时, 将静音持续时间阈值更新为第二时间阈 值, 所述第二时间阈值小于第一时间阈值。
优选地, 阈值确定单元 540还可以用于: 判断当前帧录音数据的解码最优 路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间 阈值为所述第一时间阈值。
另外, 如图 5所示, 该系统还可以包括:
录音控制单元 550,用于判断获取到的当前帧录音数据为静音数据,而且, 当前静音持续时间超过当前的静音持续时间阈值时, 结束录音。
优选地, 如图 6所示, 第一确定单元 510可以包括:
获取子单元 610, 用于获取录音文本;
网络建立子单元 620, 用于才艮据录音文本建立文本对应的解码网络; 第一特征确定子单元 630, 用于将所述解码网络的最后一个声学模型确定 为文本结束点声学模型。
优选地, 如图 7所示, 第二确定单元 520可以包括:
提取子单元 710, 从当前帧的录音数据中提取与预设的声学模型相对应的 MFCC特征, 得到当前帧录音数据的解码最优路径;
第二特征确定子单元 720, 用于确定当前帧录音数据的解码最优路径的最 后一个声学模型为解码最优路径的特征声学模型。
如图 5所示, 该系统还可以包括:
接收单元 500, 用于接收录音数据, 从录音数据中确定录音开始帧。
优选地, 接收单元 500可以包括:
接收子单元, 用于接收录音数据; 开始帧确定子单元,用于依次判断每一帧录音数据为静音数据或非静音数 据, 将第一帧非静音数据所在的帧作为录音开始帧。
以上在判断录音数据是静音数据或非静音数据时, 可以利用 VAD策略, 这里不再赘述。
图 5~7所示的录音结束点检测系统,阈值确定单元将解码最优路径的特征 声学模型与文本结束点声学模型相比较,如果相同,说明用户已经朗读完了录 音文本,则将静音持续时间阈值更新为相对于第一时间阈值来说较短的第二时 间阈值,之后, 录音控制单元判断当前静音持续时间超过第二时间阈值即结束 录音, 相对于现有技术, 缩短了用户录音结束后所需要等待的时间, 提高了对 于录音结束点的识别效率, 提升了用户体验。
本发明实施例所述的录音结束点检测方法和系统不仅可以应用于语音评 测系统中, 还可以应用于其他需要对已知文本的朗读进行录音的场景中。 本领域普通技术人员可以理解,实现上述实施例录音结束点检测方法的过 程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介 质中, 该程序在执行时执行上述方法中的对应步骤。 所述的存储介质可以如: ROM/RAM、 磁碟、 光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。
+

Claims (13)

  1. 权 利 要 求
    1、 一种录音结束点检测方法, 其特征在于, 包括: 预设静音持续时间阈 值为所述第一时间阈值; 该方法还包括:
    获取录音文本,确定该录音文本的文本结束点声学模型; 从录音数据中的 录音开始帧开始, 依次获取每一帧录音数据;
    确定获取到的当前帧录音数据的解码最优路径的特征声学模型; 判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学 模型相同时,将静音持续时间阈值更新为第二时间阈值, 所述第二时间阈值小 于第一时间阈值。
  2. 2、 根据权利要求 1所述的方法, 其特征在于, 所述确定文本结束点声学 模型包括:
    根据录音文本生成文本对应的解码网络,将所述解码网络对应的最后一个 声学模型确定为文本结束点声学模型。
  3. 3、 根据权利要求 2所述的方法, 其特征在于, 所述确定当前帧录音数据 的解码最优路径的特征声学模型包括:
    从当前帧的录音数据中提取与预设的声学模型相对应的 MFCC特征, 得 到当前帧录音数据的解码最优路径;
    确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路 径的特征声学模型。
  4. 4、 根据权利要求 1所述的方法, 其特征在于, 还包括:
    判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学 模型不相同时, 保持所述静音持续时间阈值为所述第一时间阈值。
  5. 5、 根据权利要求 1至 4任一项所述的方法, 其特征在于, 每次获取到一 帧录音数据之后还包括:
    判断获取到的当前帧录音数据为静音数据, 而且, 当前静音持续时间超过 当前的静音持续时间阈值时, 结束录音。
  6. 6、 根据权利要求 1至 4任一项所述的方法, 其特征在于, 所述获取每一 帧录音数据之前, 进一步包括:
    接收录音数据, 从录音数据中确定录音开始帧。 7、 根据权利要求 6所述的方法, 其特征在于, 所述从录音数据中确定录 音开始帧包括:
    依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据 所在的帧作为录音开始帧。
  7. 8、 一种录音结束点检测系统, 其特征在于, 预设静音持续时间阈值为所 述第一时间阈值; 该系统还包括:
    第一确定单元, 用于获取录音文本,确定该录音文本的文本结束点声学模 型;
    第一获取单元, 用于从录音数据中的录音开始帧开始,依次获取每一帧录 音数据;
    第二确定单元,用于确定获取到的当前帧录音数据的解码最优路径的特征 声学模型;
    阈值确定单元,用于判断当前帧录音数据的解码最优路径的特征声学模型 与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值, 所 述第二时间阈值小于第一时间阈值。
  8. 9、 根据权利要求 8所述的系统, 其特征在于, 第一确定单元包括: 获取子单元, 用于获取录音文本;
    网络建立子单元, 用于才艮据录音文本建立文本对应的解码网络; 第一特征确定子单元,用于将所述解码网络的最后一个声学模型确定为文 本结束点声学模型。
  9. 10、 根据权利要求 9所述的系统, 其特征在于, 第二确定单元包括: 提取子单元, 从当前帧的录音数据中提取与预设的声学模型相对应的
    MFCC特征, 得到当前帧录音数据的解码最优路径;
    第二特征确定子单元,用于确定当前帧录音数据的解码最优路径的最后一 个声学模型为解码最优路径的特征声学模型。
  10. 11、 根据权利要求 8所述的系统, 其特征在于, 阈值确定单元还用于: 判 断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不 相同时, 保持所述静音持续时间阈值为所述第一时间阈值。
  11. 12、 根据权利要求 8至 11任一项所述的系统, 其特征在于, 还包括: 录音控制单元, 用于判断获取到的当前帧录音数据为静音数据, 而且, 当 前静音持续时间超过当前的静音持续时间阈值时, 结束录音。
  12. 13、 根据权利要求 8至 11任一项所述的系统, 其特征在于, 还包括: 接收单元, 用于接收录音数据, 从录音数据中确定录音开始帧。
  13. 14、 根据权利要求 13所述的系统, 其特征在于, 接收单元包括: 接收子单元, 用于接收录音数据;
    开始帧确定子单元,用于依次判断每一帧录音数据为静音数据或非静音数 据, 将第一帧非静音数据所在的帧作为录音开始帧。
CN201080067778.4A 2010-10-29 2010-10-29 录音结束点检测方法及系统 Active CN102971787B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/078223 WO2012055113A1 (zh) 2010-10-29 2010-10-29 录音结束点检测方法及系统

Publications (2)

Publication Number Publication Date
CN102971787A true CN102971787A (zh) 2013-03-13
CN102971787B CN102971787B (zh) 2014-04-23

Family

ID=45993073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080067778.4A Active CN102971787B (zh) 2010-10-29 2010-10-29 录音结束点检测方法及系统

Country Status (7)

Country Link
US (1) US9330667B2 (zh)
JP (1) JP5883014B2 (zh)
KR (1) KR101417975B1 (zh)
CN (1) CN102971787B (zh)
DE (1) DE112010005959B4 (zh)
SG (1) SG189182A1 (zh)
WO (1) WO2012055113A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825870A (zh) * 2016-03-14 2016-08-03 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN113160854A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
CN113160854B (zh) * 2020-01-22 2024-10-18 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备

Families Citing this family (154)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104112446B (zh) * 2013-04-19 2018-03-09 华为技术有限公司 呼吸声检测方法及装置
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN104078076B (zh) * 2014-06-13 2017-04-05 科大讯飞股份有限公司 一种语音录入方法及系统
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN108986844B (zh) * 2018-08-06 2020-08-28 东北大学 一种基于说话人语音特征的语音端点检测方法
CN110910905B (zh) * 2018-09-18 2023-05-02 京东科技控股股份有限公司 静音点检测方法及装置、存储介质、电子设备
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN112151073B (zh) * 2019-06-28 2024-07-09 北京声智科技有限公司 一种语音处理方法、系统、设备及介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111583912A (zh) * 2020-05-26 2020-08-25 阳光保险集团股份有限公司 语音端点检测方法、装置以及电子设备
CN111768800B (zh) * 2020-06-23 2024-06-25 中兴通讯股份有限公司 语音信号处理方法、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1425980A (zh) * 2003-01-14 2003-06-25 杨宏惠 个性化开放式电脑语音录入方法
WO2006125346A1 (en) * 2005-05-27 2006-11-30 Intel Corporation Automatic text-speech mapping tool
JP2007266807A (ja) * 2006-03-28 2007-10-11 Funai Electric Co Ltd 映像音声記録再生装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4870686A (en) 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
KR100309207B1 (ko) * 1993-03-12 2001-12-17 에드워드 이. 데이비스 음성-대화식언어명령방법및장치
JPH0990994A (ja) * 1995-07-19 1997-04-04 Olympus Optical Co Ltd 音声起動録音装置
GB2303471B (en) 1995-07-19 2000-03-22 Olympus Optical Co Voice activated recording apparatus
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6456970B1 (en) * 1998-07-31 2002-09-24 Texas Instruments Incorporated Minimization of search network in speech recognition
CN1182513C (zh) 2003-02-21 2004-12-29 清华大学 基于局部能量加权的抗噪声语音识别方法
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP2005242182A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声検出装置、音声認識装置、音声検出方法および音声認識方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
CN100411011C (zh) * 2005-11-18 2008-08-13 清华大学 用于语言学习机的发音质量评价方法
JP4906379B2 (ja) 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
CN101025981B (zh) 2007-01-23 2010-04-07 无敌科技(西安)有限公司 一种数字录音系统及方法
CN101197084A (zh) 2007-11-06 2008-06-11 安徽科大讯飞信息科技股份有限公司 自动化英语口语评测学习系统
US8694308B2 (en) 2007-11-27 2014-04-08 Nec Corporation System, method and program for voice detection
US20090204407A1 (en) * 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1425980A (zh) * 2003-01-14 2003-06-25 杨宏惠 个性化开放式电脑语音录入方法
WO2006125346A1 (en) * 2005-05-27 2006-11-30 Intel Corporation Automatic text-speech mapping tool
JP2007266807A (ja) * 2006-03-28 2007-10-11 Funai Electric Co Ltd 映像音声記録再生装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825870A (zh) * 2016-03-14 2016-08-03 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
CN105825870B (zh) * 2016-03-14 2019-04-02 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN113160854A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
CN113160854B (zh) * 2020-01-22 2024-10-18 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备

Also Published As

Publication number Publication date
WO2012055113A1 (zh) 2012-05-03
US9330667B2 (en) 2016-05-03
KR101417975B1 (ko) 2014-07-09
US20130197911A1 (en) 2013-08-01
KR20130071490A (ko) 2013-06-28
DE112010005959B4 (de) 2019-08-29
SG189182A1 (en) 2013-05-31
JP5883014B2 (ja) 2016-03-09
JP2013545133A (ja) 2013-12-19
CN102971787B (zh) 2014-04-23
DE112010005959T5 (de) 2013-08-14

Similar Documents

Publication Publication Date Title
CN102971787A (zh) 录音结束点检测方法及系统
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
CN106940998B (zh) 一种设定操作的执行方法及装置
WO2017076222A1 (zh) 语音识别方法及装置
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
CN112735482B (zh) 基于联合深度神经网络的端点检测方法及系统
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN102456343A (zh) 录音结束点检测方法及系统
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
CN111833902B (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN102436816A (zh) 一种语音数据解码方法和装置
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
JP2023539948A (ja) ロングコンテキストエンドツーエンド音声認識システム
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN112614514B (zh) 有效语音片段检测方法、相关设备及可读存储介质
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
CN102640084A (zh) 用于多用户和系统的通信接口设备和方法
WO2020227955A1 (zh) 声音识别方法、交互方法、声音识别系统、计算机可读存储介质及可移动平台
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
CN102959618B (zh) 声音识别装置
US20070198255A1 (en) Method For Noise Reduction In A Speech Input Signal
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
CN110660385A (zh) 一种命令词检测方法及电子设备
JP4295675B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2021146857A1 (zh) 音频处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230031 666 Wangjiang West Road, Hefei high tech Zone, Anhui

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.

CP03 Change of name, title or address