CN108564941A - 语音识别方法、装置、设备及存储介质 - Google Patents

语音识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108564941A
CN108564941A CN201810240076.XA CN201810240076A CN108564941A CN 108564941 A CN108564941 A CN 108564941A CN 201810240076 A CN201810240076 A CN 201810240076A CN 108564941 A CN108564941 A CN 108564941A
Authority
CN
China
Prior art keywords
sound bite
speech segment
candidate speech
voice messaging
multiframe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810240076.XA
Other languages
English (en)
Other versions
CN108564941B (zh
Inventor
林诗伦
张玺霖
麻文华
刘博�
李新辉
卢鲤
江修才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810240076.XA priority Critical patent/CN108564941B/zh
Publication of CN108564941A publication Critical patent/CN108564941A/zh
Priority to JP2020542123A priority patent/JP6980119B2/ja
Priority to EP19770634.4A priority patent/EP3770905A4/en
Priority to PCT/CN2019/076223 priority patent/WO2019179285A1/zh
Application granted granted Critical
Publication of CN108564941B publication Critical patent/CN108564941B/zh
Priority to US16/900,824 priority patent/US11450312B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种语音识别方法、装置及设备,属于语音识别领域。所述方法包括:获取语音信息;通过加权有限状态机网络确定语音信息中的候选语音片段的起止位置;根据候选语音片段的起止位置在语音信息中截取该候选语音片段;将候选语音片段输入机器学习模型中,通过机器学习模型检测候选语音片段是否包含预设关键词。本申请通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校验,确定候选语音片段是否包含预设关键词,解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题,提高了语音识别的准确率。

Description

语音识别方法、装置、设备及存储介质
技术领域
本申请涉及语音识别领域,特别涉及一种语音识别方法、装置、设备及存 储介质。
背景技术
语音唤醒,也被称为关键词唤醒(Keyword Spotting,KWS),是处于休眠 或锁屏状态的电子设备通过识别用户语音,确定用户语音中包含预设关键词时, 解除休眠和/或锁屏状态的功能,进而开启语音交互操作。在语音唤醒过程中, 语音识别是较为关键的步骤。
相关技术中典型的语音识别方法包括:对语音信息进行提取特征,通过加 权有限状态机(Weighted Finite State Transducer,WFST)网络将语音信息转换 为对应的文本信息,检测文本信息中是否包含预设关键词。
在将语音信息转换为对应的文本信息的过程中,需要对语音信息进行语义 识别。由于加权有限状态机网络的局限性,会将没有语义但和预设关键词相似 的语音信息,例如噪声、背景音乐声等,识别为具有语义的语音信息,从而将 电子设备误唤醒,导致识别准确率较低。
发明内容
本申请实施例提供了一种语音识别方法、装置及设备,用以解决相关技术 中通过加权有限状态机网络识别语音信息准确率较低的问题。所述技术方案如 下:
一方面,提供了一种语音识别方法,所述方法包括:
获取语音信息;
通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选 语音片段的起止位置;
根据所述起止位置在所述语音信息中截取所述候选语音片段;
将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所 述候选语音片段是否包含所述预设关键词;
若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含预设 关键词。
一方面,提供了一种语音识别装置,所述装置包括:
获取模块,用于获取语音信息;
处理模块,用于通过加权有限状态机网络确定所述语音信息中的候选语音 片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段; 将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候 选语音片段是否包含所述预设关键词;若所述候选语音片段包含所述预设关键 词,则确定所述语音信息包含预设关键词。
一方面,提供了一种语音识别设备,包括处理器和存储器,所述存储器中 存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上 述的语音识别方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存 储有至少一条指令,至少一条指令由处理器加载并执行以实现如上述的语音识 别方法。
本申请实施例提供的技术方案带来的有益效果至少为:
通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校 验,确定候选语音片段是否包含预设关键词,解决了相关技术中可能会将没有 语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题,提高了语 音识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1A是本申请一个示例性的实施例提供的语音识别方法的实施环境图;
图1B是本申请一个示例性的实施例提供的语音识别方法的实施环境图;
图2是本申请一个示例性的实施例提供的语音识别方法的方法流程图;
图3是本申请一个示例性的实施例提供的语音识别方法的方法流程图;
图4是本申请一个示例性的实施例提供的语音信息分帧示意图;
图5是本申请一个示例性的实施例提供的加权有限状态机网络的构架图;
图6是本申请一个示例性的实施例提供的语音识别方法的方法流程图;
图7A是本申请一个示例性的实施例提供的卷积神经网络的构架图;
图7B是本申请一个示例性的实施例提供的语音识别方法的整体构架图;
图8是本申请一个示例性的实施例提供的语音识别方法的方法流程图;
图9是本申请一个示例性的实施例提供的语音识别方法的应用场景图;
图10是本申请一个示例性的实施例提供的语音识别方法的应用场景图;
图11是本申请一个示例性的实施例提供的语音识别装置的结构框图;
图12是本申请一个示例性的实施例提供的语音识别设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请 实施方式作进一步地详细描述。
为了方便理解,下面对本申请实施例中涉及的名词进行解释。
机器学习模型:是一种运算模型,由大量的节点(或称神经元)之间相互 联接构成,每个节点对应一个策略函数,每两个节点间的连接代表一个对于通 过该连接信号的加权值,称之为权重。样本输入机器学习模型的节点后,通过 每个节点输出一个输出结果,该输出结果作为下一个节点的输入样本,机器学 习模型通过样本最终输出结果对每个节点的策略函数和权重进行调整,该过程 被称为训练。
加权有限状态机网络:是表示有限个状态以及这些状态之间的转移和动作 等行为的数学模型。本申请实施例中,加权有限状态机网络包括声学模型、词 典和语言模型。
声学模型:是根据语音信息输出对应的最大后验概率的隐藏状态的数学模 型,隐藏状态可以是音素,也可以是比音素更小的语音单位。可选的,本申请 实施例中的声学模型是隐马尔可夫-深度神经网络模型。
音素:是根据语音的自然属性划分出来的最小语音单位。从声学性质来看, 音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作 形成一个音素。
隐马尔可夫模型(Hidden Markov Model,HMM):是一种统计分析模型, 用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态 并不是直接可见的,受状态影响的某些变量是可见的。
多层感知机(Multilayer Perceptron,MLP):是一种前馈神经网络,将一组 输入向量非线性映射到一组输出向量。多层感知机可以使用反向传播算法进行 训练。
深度神经网络(Deep Neural Network,DNN):是一种机器学习模型,是包 含超过两个隐藏层的多层感知机。除了输入节点外,每个节点都是一个带有非 线性激活函数的神经元,与多层感知机一样,深度神经网络可以使用反向传播 算法进行训练。
卷积神经网络(Convolutional Neural Network,CNN):是一种机器学习模 型,包括至少两层级联的卷积层、顶端的全连接层(Fully Connected Layers,FC) 和软最大化函数(Softmax)组成,可选的,每一层卷积层后包括一层池化层。 其通过共享参数降低模型的参数量,使之在图像和语音识别方面得到广泛应用。
请参考图1A和图1B,其示出了本申请一个示例性实施例提供的语音识别 方法的实施环境图。
图1A是本申请实施例提供的第一种可能的实施环境,该实施环境包括:终 端110以及服务器130。其中,终端110通过有线或无线网络和服务器130建立 连接。
在本实施例中,由终端110获取语音信息,由服务器130对语音信息进行 识别并指示终端110解除休眠状态和/或锁屏状态。
终端110的静音检测单元判断静音环境中是否有用户声音;若确定有用户 声音,则激活录音单元对用户声音进行录音并得到相应的原始语音信号;将原 始语音信号通过有线或无线网络发送至服务器130。
服务器130对原始语音信号进行初步提取特征得到语音信息,检测语音信 息中是否包含预设关键词;若语音信息中包含预设关键词,则在语音信息中截 取候选语音片段,该候选语音片段是预设关键词对应的语音信息片段;对候选 语音片段进行二次校验,检测候选语音片段中是否包含预设关键词;若候选语 音片段中包含预设关键词,则向终端110发送唤醒指令。
终端110接收到服务器130发送的唤醒指令后,根据该唤醒指令解除本机 的休眠状态和/或锁屏状态。
图1B是本申请实施例提供的第二种可能的实施环境,该实施环境包括:终 端110、终端120以及服务器130。其中,终端110通过有线或无线网络和服务 器130建立连接,终端120通过有线或无线网络和服务器130建立连接。该实 施例中,由终端110获取语音信息,由服务器130对语音信息进行识别并指示 终端120解除休眠状态和/或锁屏状态。
终端110的静音检测单元判断静音环境中是否有用户声音;若确定有用户 声音,则激活录音单元对用户声音进行录音并得到相应的原始语音信号;将原 始语音信号通过有线或无线网络发送至服务器130。
服务器130对原始语音信号进行初步提取特征得到语音信息,检测语音信 息中是否包含预设关键词;若语音信息中包含预设关键词,则在语音信息中截 取候选语音片段,该候选语音片段是预设关键词对应的语音信息片段;对候选 语音片段进行二次校验,检测候选语音片段中是否包含预设关键词;若候选语 音片段中包含预设关键词,则向终端120发送唤醒指令。
终端120接收到服务器130发送的唤醒指令后,根据该唤醒指令解除本机 的休眠状态和/或锁屏状态。
在一个可选的实施例中,由终端110获取语音信息,对语音信息进行识别 并解除本机的休眠状态和/或锁屏状态。
终端110的静音检测单元判断静音环境中是否有用户声音;若确定有用户 声音,则激活录音单元对用户声音进行录音并得到原始语音信号;对原始语音 信号进行初步提取特征得到语音信息;检测语音信息中是否包含预设关键词; 若语音信息中包含预设关键词,则在语音信息中截取候选语音片段,该候选语 音片段是预设关键词对应的语音信息片段;对候选语音片段进行二次校验,检 测候选语音片段中是否包含预设关键词;若候选语音片段中包含预设关键词, 则解除本机的休眠状态和/或锁屏状态。
可选的,上述终端可以是包含静音检测单元和录音单元的电子设备,可以 是手机、平板电脑、电子书阅读器、膝上型便携计算机、台式计算机、智能音 箱、智能机器人、车载控制中心等等。
请参考图2,其示出了本申请一个示例性实施例提供的语音识别方法的方法 流程图。该方法可以用于如图1A和图1B中所示的服务器130中,也可以应用 于终端中,该方法包括:
步骤201,获取语音信息。
服务器接收终端发送的原始语音信号,将原始语音信号进行初步提取特征 后,得到语音信息。
示例性的,终端确定有用户声音后,对用户声音录音得到原始语音信号, 将原始语音信号通过有线或无线网络发送至服务器,服务器接收该原始语音信 号。
步骤202,确定语音信息中的候选语音片段的起止位置。
示例性的,服务器通过加权有限状态机网络获取语音信息对应的最大后验 概率的语言信息,若语言信息中包含预设关键词,则确定预设关键词对应的候 选语音片段在语音信息中的起止位置。
若语音信息是时域函数,起止位置是候选语音片段在语音信息中起始的时 刻和结束的时刻;若语音信息是频域函数,起止位置是候选语音片段在语音信 息中起始的频率和结束的频率。
可选的,候选语音片段包含至少一帧语音片段。例如,预设关键词是“开 启”,服务器通过加权有限状态机网络获取语音信息对应的最大后验概率的语言 信息中包含“开启”,“开”对应语音片段1,“启”对应语音片段2,语音片段1 的起始时刻为t1,结束时刻为t2,语音片段2的起始时刻为t3,结束时刻为t4, 若t1在t3之前,t4在t2之后,则候选语音片段为语音信息中起始时刻为t1,结 束时刻为t4的片段,即,确定候选语音片段在语音信息中的起止位置为t1至t4。
步骤203,根据候选语音片段的起止位置在语音信息中截取该候选语音片 段。
服务器根据候选语音片段在语音信息中的起止位置,从语音信息中截取候 选语音片段。
步骤204,将候选语音片段输入机器学习模型中,通过机器学习模型检测候 选语音片段是否包含预设关键词。
可选的,机器学习模型包括卷积神经网络或加权有限状态机网络。服务器 通过加权有限状态机网络对候选语音片段进行粗定位后,可通过卷积神经网络 对候选语音片段进行检测,或,通过加权有限状态机网络对候选语音片段进行 检测。示例性的,服务器通过卷积神经网络中的第一层卷积层对候选语音片段 进行卷积处理后得到第一高层语义特征,将第一高层语义特征输入第一层池化 层,得到一次压缩的高层语义特征,将一次压缩的高层语义特征输入第二层卷 积层,得到第二高层语义特征,将第二高层语义特征输入至第二层池化层,得 到二次压缩的高层语义特征……经过多次反复卷积和池化处理后,提取得到候 选语音片段的高层语义特征。
示例性的,服务器通过加权有限状态机网络获取候选语音片段对应的最大 后验概率的语言信息,检测该语言信息中是否包含预设关键词。
步骤205,若候选语音片段包含预设关键词,则确定语音信息包含预设关键 词。
示例性的,若卷积神经网络输出候选语音片段包含预设关键词的结果,则 服务器确定语音信息包含预设关键词。
示例性的,若候选语音片段对应的最大后验概率的语言信息中包含预设关 键词,则服务器确定语音信息包含预设关键词。
需要说明的是,采用加权有限状态机网络对候选语音片段进行检测耗时较 长,且相对于采用卷积神经网络对候选语音片段进行校验,准确度较低。
综上所述,本申请实施例中,通过机器学习模型对加权有限状态机网络粗 定位的候选语音片段进行校验,确定候选语音片段是否包含预设关键词,解决 了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导 致误唤醒的问题,提高了语音识别的准确率。
请参考图3,其示出了本申请一个示例性的实施例提供的语音识别方法的方 法流程图。该方法可以应用于如图1A和图1B所示的服务器130中,也可以应 用于终端中,该方法可以是图2实施例中步骤202的一个可选的实施方式,该 方法包括:
步骤202a,将语音信息分帧,得到多帧语音片段。
示例性的,服务器通过移动窗对语音信息分帧,得到多帧语音片段。移动 窗具有预设的窗口长度和步进长度,每一帧语音片段具有各自对应的起止位置 和序号索引。
若语音信息是时域函数,窗口长度和步进长度以预设的时间长度为单位, 如图4所示,移动窗400的窗口长度为20毫秒,步进长度为10毫秒,则移动 窗400将语音信息分割为20毫秒长为一帧的语音信息,多帧语音片段之间的交 叠长度为10毫秒。
步骤202b,将多帧语音片段输入至加权有限状态机网络得到多帧语音片段 对应的最大后验概率的语言信息。
示例性的,如图5所示,加权有限状态机网络包括声学模型、词典和语言 模型。其中,声学模型可以由深度神经网络和隐马尔可夫模型构成。
深度神经网络包含至少两层级联的深度神经网络层和全连接层,可根据输 入的语音片段输出该语音片段对应的隐藏状态的后验概率的数学模型。图5中 的V代表输入深度神经网络的语音片段,W代表深度神经网络层的中每一层神 经网络层的参数,例如,W1代表第一层神经网络层的参数,WM代表第M层神 经网络层的参数;h(i)代表深度神经网络层的中第i层神经网络层的输出结果, 例如,h(1)代表第一层神经网络层的输出结果,h(M)代表第M层神经网络层的 输出结果;Si代表第i种隐藏状态,例如,第1种隐藏状态S1、第K种隐藏状态SK;asisj代表第i种隐藏状态Si和第j种隐藏状态Sj之间的转移概率,例如, as1s2代表第1种隐藏状态S1和第2种隐藏状态S2之间转移概率。
隐马尔可夫模型是根据语音片段对应的隐藏状态的后验概率输出语音片段 对应的隐藏状态的数学模型。
词典是音素和单词的对应关系。将至少一个音素输入词典中可得到至少一 个音素对应的最大后验概率的字或单词。
语音模型是单词与句法和/或语法的对应关系。将字或单词输入语言模型中, 可得到单词对应的最大后验概率的语言信息,其中,语言信息可以是单词,也 可以是句子。
服务器将多帧语音片段输入至深度神经网络中提取特征,得到每一帧语音 片段对应的隐藏状态的后验概率,根据每一帧语音片段对应的隐藏状态的后验 概率,通过隐马尔可夫模型得到每一帧语音片段对应的隐藏状态,根据每一帧 语音片段对应的隐藏状态得到多帧语音片段对应的音素,通过词典得到多帧语 音片段对应的最大后验概率的字或单词,根据多帧语音片段对应的最大后验概 率的字或单词,通过语言模型将多帧语音片段对应的最大后验概率的语言信息。
由于上述转换过程都是选择最大后验概率的途径,因此将多帧语音片段输 入至加权有限状态机网络得到的,是多帧语音片段对应的最大后验概率的语言 信息。
步骤202c,若语言信息中包含预设关键词,则获取预设关键词对应的候选 语音片段在语音信息中的起止位置。
服务器检测多帧语音片段对应的最大后验概率的语言信息是否包含预设关 键词,若确定语言信息中包含预设关键词,则获取预设关键词对应的候选语音 片段在语音信息中的起止位置。
示例性的,一帧语音片段对应一个隐藏状态,至少一个隐藏状态对应一个 因素,至少一个因素对应一个单词,通过预设关键词中每个单词对应的因素, 得到关键词对应的候选语音片段。由于在对语音信息分帧时对每个语音片段标 注了序号索引,且每个语音片段都具有起止位置属性,因此可获取候选语音片 段在语音信息中的起止位置。
综上所述,本申请实施例中,通过将多帧语音片段输入至加权有限状态机 网络得到多帧语音片段对应的最大后验概率的语言信息,若语言信息中包含预 设关键词,则获取预设关键词对应的候选语音片段在语音信息中的起止位置, 能够提高对候选语音片段识别的准确率。
进一步的,本申请实施例中,通过将多帧语音片段输入深度神经网络得到 每一帧语音片段对应的隐藏状态的后验概率,由于深度神经网络具有较强的提 取特征能力,因此通过深度神经网络得到的每一帧语音片段对应的隐藏状态的 后验概率更为准确,从而提高了对候选语音片段识别的准确率。
请参考图6,其示出了本申请一个示例性的实施例提供的语音识别方法的方 法流程图。该方法可以应用于如图1A和图1B所示的服务器130中,也可以应 用于终端中,该方法可以是图2实施例中步骤204的一个可选的实施方式,该 方法包括:
步骤204a,将候选语音片段输入卷积神经网络中。
服务器通过图2实施例或图3实施例中的方法获取到候选语音片段后,将 候选语音片段输入卷积神经网络中。
示例性的,如图7A所示,卷积神经网络包含至少两层卷积层、一个全连接 层和一个软最大化函数,可选的,每一层卷积层之后还包含一层池化层。图中 以两层卷积层为例进行说明,不表示卷积神经网络仅仅包含两层卷积层。
步骤204b,通过卷积神经网络对候选语音片段进行卷积和池化提取得到候 选语音片段的高层语义特征。
示例性的,服务器通过卷积神经网络中的第一层卷积层对候选语音片段进 行卷积处理后得到第一高层语义特征,将第一高层语义特征输入第一层池化层, 得到一次压缩的高层语义特征,将一次压缩的高层语义特征输入第二层卷积层, 得到第二高层语义特征,将第二高层语义特征输入至第二层池化层,得到二次 压缩的高层语义特征……经过多次反复卷积和池化处理后,提取得到候选语音 片段的高层语义特征。
步骤204c,通过卷积神经网络中的全连接层和软最大化函数对候选语音片 段的高层语义特征进行分类,检测候选语音片段是否包含预设关键词。
示例性的,候选语音片段通过多层卷积层和池化层处理后得到高层语义特 征,由全连接层将每一层卷积层和池化层提取到的高层语义特征连接起来,输 送至软最大化函数,软最大化函数对高层语义特征进行分类,输出候选语音片 段是否包含预设关键词的结果。
图7B是本申请实施例的整体架构图,如图所示,多帧语音片段输入至声学 模型后得到多帧语音片段对应的最大后验概率的音素,通过词典得到多帧语音 片段对应的最大后验概率的字或单词,通过语言模型得到多帧语音片段对应的 最大后验概率的单词或句子,从而检测单词或句子中是否包含预设关键词,若 包含,则截取预设关键词对应的候选语音片段,将候选语音片段输入至卷积神 经网络中校验,输出最终校验结果。
综上所述,本申请实施例中,通过将候选语音片段输入至卷积神经网络经 过卷积和池化后提取得到候选语音片段的高层语义特征,通过全连接层将提取 到的高层语义特征连接起来输送至软最大化函数进行分类,得到候选语音片段 是否包含预设关键词的结果,由于候选语音片段是通过加权有限状态机网络初 步定位得到的,在保证识别率的基础上,提高了语音识别的准确率。
请参考图8,其示出了本申请一个示例性的实施例提供的语音识别方法的方 法流程图。该方法可以应用于如图1A所示的实施环境中,该方法包括:
步骤801,终端将获取到的原始语音信号发送至服务器。
示例性的,终端的静音检测模块判断是否有用户声音,若确定有用户声音 则激活静音检测模块对用户声音录音并得到相应的原始语音信号,并将原始语 音信号通过有线或无线网络发送至服务器。
步骤802,服务器对原始语音信号进行初步提取特征,得到语音信息。
服务器对接收到的原始语音信号进行初步提取特征,得到语音信息,该语 音信息是时域或频域的函数。
步骤803,服务器将语音信息分帧,得到多帧语音片段。
示例性的,服务器通过移动窗对语音信息分帧,得到多帧语音片段。其中, 移动窗具有预设的窗口长度和步进长度,每一帧语音片段具有各自对应的起止 位置和序号索引。
步骤804,服务器将多帧语音片段输入深度神经网络中,得到多帧语音片段 中每一帧语音片段和对应的隐藏状态之间的后验概率。
深度神经网络输出的是每一帧语音片段和对应的隐藏状态之间的后验概 率,因此通过深度神经网络还无法得到每一帧语音片段所对应的隐藏状态,需 要对每一帧语音片段通过隐马尔可夫模型进行前向解码。
步骤805,服务器通过贝叶斯公式对每一帧语音片段对应的隐藏状态的后验 概率进行转换,得到每一帧语音片段对应的隐藏状态的发射概率。
示例性的,对每一帧语音片段通过隐马尔可夫模型进行前向解码,需要语 音片段对应的隐藏状态的发射概率。服务器通过贝叶斯公式对每一帧语音片段 对应的隐藏状态的后验概率进行转换,得到每一帧语音片段对应的隐藏状态的 发射概率。
步骤806,服务器根据每一帧语音片段对应的隐藏状态的发射概率、隐马尔 可夫模型中每个隐藏状态的初始概率以及每个隐藏状态之间的转移概率,通过 隐马尔可夫模型进行前向解码得到多帧语音片段对应的最大后验概率的隐藏状 态。
隐马尔可夫模型中每个隐藏状态的初始概率以及每个隐藏状态之间的转移 概率是已经训练好的参数。根据步骤804中得到的每一帧语音片段对应的隐藏 状态的发射概率,结合每个隐藏状态的初始概率以及每个隐藏状态之间的转移 概率,通过隐马尔可夫模型对每一帧语音片段进行前向解码得到多帧语音片段 对应的最大后验概率的隐藏状态。
步骤807,服务器根据每一帧语音片段对应的隐藏状态得到多帧语音片段对 应的音素。
音素由至少一个隐藏状态构成,服务器根据每一帧语音片段对应的隐藏状 态得到多帧语音片段对应的音素。
步骤808,服务器根据多帧语音片段对应的音素,结合词典和语言模型得到 多帧语音片段对应的最大后验概率的语言信息。
单词由至少一个音素组成,词典中包含单词和音素的对应关系。服务器通 过词典得到多帧语音片段对应的最大后验概率的字或单词,根据多帧语音片段 对应的最大后验概率的字或单词,通过语言模型将多帧语音片段对应的最大后 验概率的语言信息。其中,语言信息可以是单词,也可以是句子,语言模型是 单词与语法和/或句法的对应关系。
上述词典中单词和音素的对应关系,以及语言模型中单词与语法和/或句法 的对应关系是一种概率对应关系,服务器根据多帧语音片段对应的音素,通过 词典和语言模型得到多帧语音片段对应的最大后验概率的语言信息,是根据最 大的概率寻找路径得到的多帧语音片段对应的最大后验概率的语言信息。
步骤809,若语言信息中包含预设关键词,则服务器获取预设关键词对应的 候选语音片段在语音信息中的起止位置。
服务器检测多帧语音片段对应的最大后验概率的语言信息是否包含预设关 键词,若确定语言信息中包含预设关键词,则获取预设关键词对应的候选语音 片段在语音信息中的起止位置。若多帧语音片段对应的最大后验概率的语言信 息不包括预设关键词,则停止步骤。
步骤810,服务器根据候选语音片段在语音信息中的起止位置,在语音信息 中截取候选语音片段。
服务器根据候选语音片段在语音信息中的起止位置,从语音信息中截取候 选语音片段。
步骤811,服务器将候选语音片段输入所述卷积神经网络中,通过卷积神经 网络对候选语音片段进行卷积和池化提取得到候选语音片段的高层语义特征。
示例性的,服务器将截取到的候选语音片段输入所述卷积神经网络中,通 过卷积神经网络中的第一层卷积层对候选语音片段进行卷积处理后得到第一高 层语义特征,将第一高层语义特征输入第一层池化层,得到一次压缩的高层语 义特征,将一次压缩的高层语义特征输入第二层卷积层,得到第二高层语义特 征,将第二高层语义特征输入至第二层池化层,得到二次压缩的高层语义特 征……经过多次反复卷积和池化处理后,提取得到候选语音片段的高层语义特 征。
步骤812,服务器通过卷积神经网络中的全连接阶层和软最大化函数对候选 语音片段的高层语义特征进行分类,检测候选语音片段是否包含所述预设关键 词。
示例性的,候选语音片段通过多层卷积层和池化层处理后得到高层语义特 征,由全连接层将每一层卷积层和池化层提取到的高层语义特征连接起来,输 送至软最大化函数,软最大化函数对高层语义特征进行分类,输出候选语音片 段是否包含预设关键词的结果。
步骤813,若候选语音片段中包含预设关键词,服务器向终端发送唤醒指令。
若卷积神经网络输出的结果为候选语音片段中包含预设关键词,服务器通 过有线或无线网络向终端发送唤醒指令。
步骤814,终端根据唤醒指令解除本机的休眠状态和/或锁屏状态。
终端在接收到服务器发送的唤醒指令后,根据该唤醒指令解除本机的休眠 状态和/或锁屏状态。
综上所述,本申请实施例中,通过卷积神经网络对加权有限状态机网络粗 定位的候选语音片段进行校验,确定候选语音片段是否包含预设关键词,解决 了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导 致误唤醒的问题,提高了语音识别的准确率。
进一步的,本申请实施例中,通过将多帧语音片段输入至加权有限状态机 网络得到多帧语音片段对应的最大后验概率的语言信息,若语言信息中包含预 设关键词,则获取预设关键词对应的候选语音片段在语音信息中的起止位置, 能够提高对候选语音片段识别的准确率。
进一步的,本申请实施例中,通过将多帧语音片段输入深度神经网络得到 每一帧语音片段对应的隐藏状态的后验概率,由于深度神经网络具有较强的提 取特征能力,因此通过深度神经网络得到的每一帧语音片段对应的隐藏状态的 后验概率更为准确,从而提高了对候选语音片段识别的准确率。
进一步的,本申请实施例中,通过将候选语音片段输入至卷积神经网络经 过卷积和池化后提取得到候选语音片段的高层语义特征,通过全连接层将提取 到的高层语义特征连接起来输送至软最大化函数进行分类,得到候选语音片段 是否包含预设关键词的结果,由于候选语音片段是通过加权有限状态机网络初 步定位得到的,在保证识别率的基础上,提高了语音识别的准确率。
图9和图10示出了本申请一个示例性的实施例提供的语音识别方法的应用 场景。
在图9的应用场景中,智能机器人910、智能音箱920、智能移动电话930 等终端将获取的语音信息通过有线或无线网络传输至云端,云端通过上述实施 例中的方法检测每条语音信息中是否包含各自对应的预设关键词,若包含预设 关键词,则向对应的终端发送唤醒指令,将该终端从休眠和/或锁屏状态中解除。
图10提供了一种离线的语音识别应用场景,用户1010向电子设备1020说 出唤醒词(即预设关键词),电子设备1010检测到用户说出唤醒词后,录音得 到原始语音信号,通过对原始语音信号进行初步提取特征,通过上述实施例中 的方法检测语音信息中是否包含预设关键词,若包含预设关键词,则解除本机 的休眠和/或锁屏状态。
通常电子设备的运算资源比较有限,需要针对不同硬件的电子设备进行定 制,定制流程为:电子设备厂商提交电子设备能够划分给语音唤醒模块的硬件 资源;服务器收到厂商的提交的数据后,根据该电子设备能够划分的硬件资源 状况设计出可在该电子设备上运行的模型;采用与电子设备应用环境切合的训 练数据训练模型;对所得模型进行联合测试与针对性调优,通过后下发给电子 设备厂商进行集成;完成集成后,用户可在离线环境下进行电子设备唤醒,唤 醒方法与在线服务相同。
请参考图11,其示出了本申请一个示例性的实施例提供的语音识别装置的 结构框图,如图所示,该装置可应用于如图1所示的终端110、终端120或服务 器130中,该装置包括获取模块1110和处理模块1120:
获取模块1110,用于获取语音信息。
处理模块1120,用于通过加权有限状态机网络确定语音信息中的候选语音 片段的起止位置;根据起止位置在语音信息中截取候选语音片段;将候选语音 片段输入机器学习模型中,通过机器学习模型检测候选语音片段是否包含预设 关键词;若候选语音片段包含预设关键词,则确定语音信息包含预设关键词。
在一个可选的实施例中,
处理模块1110,还用于将语音信息分帧,得到多帧语音片段;将多帧语音 片段输入至加权有限状态机网络中,得到多帧语音片段对应的最大后验概率的 语言信息。
获取模块1120,还用于若语言信息中包含预设关键词,则获取预设关键词 对应的候选语音片段在语音信息中的起止位置;候选语音片段至少包括多帧语 音片段中的一帧语音片段。
在一个可选的实施例中,加权有限状态机网络包括深度神经网络、隐马尔 可夫模型、词典和语言模型;
处理模块1120,还用于将多帧语音片段输入至深度神经网络中,得到多帧 语音片段中每一帧语音片段和对应的隐藏状态之间后验概率;根据每一帧语音 片段和对应的隐藏状态之间后验概率,通过隐马尔可夫模型得到多帧语音片段 对应的隐藏状态;根据每一帧语音片段对应的隐藏状态得到多帧语音片段对应 的音素;根据多帧语音片段对应的音素,结合词典和语言模型得到多帧语音片 段对应的最大后验概率的语言信息。
在一个可选的实施例中,
处理模块1120,还用于通过贝叶斯公式对每一帧语音片段对应的隐藏状态 的后验概率进行转换,得到每一帧语音片段对应的隐藏状态的发射概率;根据 每一帧语音片段对应的隐藏状态的发射概率,隐马尔可夫模型中每个隐藏状态 的初始概率以及每个隐藏状态之间的转移概率,通过隐马尔可夫模型进行前向 解码得到多帧语音片段对应的隐藏状态。
在一个可选的实施例中,
处理模块1120,还用于将候选语音片段输入卷积神经网络中;通过卷积神 经网络对候选语音片段进行卷积和池化提取得到候选语音片段的高层语义特 征;通过卷积神经网络中的全连接层和软最大化函数对候选语音片段的高层语 义特征进行分类,检测候选语音片段是否包含所述预设关键词。
请参见图12,其示出了本申请一个示例性的实施例提供的语音处理设备的 结构框图。该设备包括:处理器1210以及存储器1220。
处理器1210可以是中央处理器(英文:central processing unit,CPU),网 络处理器(英文:network processor,NP)或者CPU和NP的组合。处理器1210 还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文: application-specific integratedcircuit,ASIC),可编程逻辑器件(英文: programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑 器件(英文:complex programmable logic device,CPLD),现场可编程逻辑门阵 列(英文:field-programmable gate array,FPGA),通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。
存储器1220通过总线或其它方式与处理器1210相连,存储器1220中存储 有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、至少 一段程序、代码集或指令集由处理器1210加载并执行以实现如图2、图3、图6或图8的语音处理方法。存储器1220可以为易失性存储器(英文:volatile memory),非易失性存储器(英文:non-volatilememory)或者它们的组合。易 失性存储器可以为随机存取存储器(英文:random-accessmemory,RAM),例 如静态随机存取存储器(英文:static random access memory,SRAM),动态随 机存取存储器(英文:dynamic random access memory,DRAM)。非易失性存储 器可以为只读存储器(英文:read only memory image,ROM),例如可编程只读 存储器(英文:programmable read only memory,PROM),可擦除可编程只读存 储器(英文:erasableprogrammable read only memory,EPROM),电可擦除可编 程只读存储器(英文:electrically erasable programmable read-only memory, EEPROM)。非易失性存储器也可以为快闪存储器(英文:flash memory),磁存 储器,例如磁带(英文:magnetic tape),软盘(英文:floppy disk),硬盘。非 易失性存储器也可以为光盘。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条 指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程 序、所述代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供 的语音处理方法。
本申请还提供了一种包含指令的计算机程序产品,当其在计算机上运行时, 使得计算机执行上述各方面所述的语音处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描 述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示: 单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后 关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于 一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或 光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的 保护范围之内。

Claims (13)

1.一种语音识别方法,其特征在于,所述方法包括:
获取语音信息;
通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;
根据所述起止位置在所述语音信息中截取所述候选语音片段;
将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词;
若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含所述预设关键词。
2.根据权利要求1所述的方法,其特征在于,所述通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选语音片段的起止位置,包括:
将所述语音信息分帧,得到多帧语音片段;
将所述多帧语音片段输入至所述加权有限状态机网络中,得到所述多帧语音片段对应的最大后验概率的语言信息;
若所述语言信息中包含预设关键词,则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置;所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段。
3.根据权利要求2所述的方法,其特征在于,所述加权有限状态机网络包括深度神经网络、隐马尔可夫模型、词典和语言模型,所述将所述多帧语音片段输入至加权有限状态机网络中,得到所述多帧语音片段对应的语言信息,包括:
将所述多帧语音片段输入至所述深度神经网络中,得到所述多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率;
根据所述每一帧语音片段和对应的隐藏状态之间后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态;
根据所述每一帧语音片段对应的隐藏状态得到所述多帧语音片段对应的音素;
根据所述多帧语音片段对应的音素,结合所述词典和所述语言模型得到所述多帧语音片段对应的最大后验概率的语言信息;
其中,所述词典为所述音素和单词的对应关系,所述语言模型为所述单词与语法和/或句法的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每一帧语音片段对应的隐藏状态的后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态,包括:
通过贝叶斯公式对所述每一帧语音片段对应的隐藏状态的后验概率进行转换,得到所述每一帧语音片段对应的隐藏状态的发射概率;
根据所述每一帧语音片段对应的隐藏状态的发射概率,所述隐马尔可夫模型中每个隐藏状态的初始概率以及所述每个隐藏状态之间的转移概率,通过所述隐马尔可夫模型进行前向解码得到所述多帧语音片段对应的隐藏状态。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述机器学习模型为卷积神经网络,所述将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含预设关键词,包括:
将所述候选语音片段输入所述卷积神经网络中;
通过所述卷积神经网络对所述候选语音片段进行卷积和池化提取得到所述候选语音片段的高层语义特征;
通过所述卷积神经网络中的全连接层和软最大化函数对所述候选语音片段的高层语义特征进行分类,检测所述候选语音片段是否包含所述预设关键词。
6.一种语音唤醒方法,其特征在于,所述方法包括:
终端将获取到的语音信息发送至服务器;
所述服务器检测所述语音信息中是否包含预设关键词;
若所述语音信息中包含所述预设关键词,则所述服务器在所述语音信息中截取候选语音片段;所述候选语音片段是所述预设关键词对应的语音信息片段;
所述服务器对所述候选语音片段进行校验,再次检测所述候选语音片段中是否包含所述预设关键词;
若所述候选语音片段中包含所述预设关键词,则向所述终端发送唤醒指令;
所述终端根据所述唤醒指令解除所述本机的休眠状态和/或锁屏状态。
7.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取语音信息;
处理模块,用于通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置;根据所述起止位置在所述语音信息中截取所述候选语音片段;将所述候选语音片段输入机器学习模型中,通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词;若所述候选语音片段包含所述预设关键词,则确定所述语音信息包含预设关键词。
8.根据权利要求7所述的装置,其特征在于,
所述处理模块,还用于将所述语音信息分帧,得到多帧语音片段;将所述多帧语音片段输入至所述加权有限状态机网络中,得到所述多帧语音片段对应的最大后验概率的语言信息;
所述获取模块,还用于若所述语言信息中包含预设关键词,则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置;所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段。
9.根据权利要求8所述的装置,其特征在于,所述加权有限状态机网络包括深度神经网络、隐马尔可夫模型、词典和语言模型;
所述处理模块,还用于将所述多帧语音片段输入至所述深度神经网络中,得到所述多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率;根据所述每一帧语音片段和对应的隐藏状态之间后验概率,通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态;根据所述每一帧语音片段对应的隐藏状态得到所述多帧语音片段对应的音素;根据所述多帧语音片段对应的音素,结合所述词典和所述语言模型得到所述多帧语音片段对应的最大后验概率的语言信息;
其中,所述词典为所述音素和单词的对应关系,所述语言模型为所述单词与语法和/或句法的对应关系。
10.根据权利要求9所述的装置,其特征在于,
所述处理模块,还用于通过贝叶斯公式对所述每一帧语音片段对应的隐藏状态的后验概率进行转换,得到所述每一帧语音片段对应的隐藏状态的发射概率;根据所述每一帧语音片段对应的隐藏状态的发射概率,所述隐马尔可夫模型中每个隐藏状态的初始概率以及所述每个隐藏状态之间的转移概率,通过所述隐马尔可夫模型进行前向解码得到所述多帧语音片段对应的隐藏状态。
11.根据权利要求7至10任一项所述的装置,其特征在于,所述机器学习模型为卷积神经网络;
所述处理模块,还用于将所述候选语音片段输入所述卷积神经网络中;通过所述卷积神经网络对所述候选语音片段进行卷积和池化提取得到所述候选语音片段的高层语义特征;通过所述卷积神经网络中的全连接层和软最大化函数对所述候选语音片段的高层语义特征进行分类,检测所述候选语音片段是否包含所述预设关键词。
12.一种语音识别设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至5任一所述的语音识别方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现权利要求1至5任一所述的语音识别方法。
CN201810240076.XA 2018-03-22 2018-03-22 语音识别方法、装置、设备及存储介质 Active CN108564941B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810240076.XA CN108564941B (zh) 2018-03-22 2018-03-22 语音识别方法、装置、设备及存储介质
JP2020542123A JP6980119B2 (ja) 2018-03-22 2019-02-27 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム
EP19770634.4A EP3770905A4 (en) 2018-03-22 2019-02-27 VOICE RECOGNITION METHOD, DEVICE AND DEVICE AND STORAGE MEDIUM
PCT/CN2019/076223 WO2019179285A1 (zh) 2018-03-22 2019-02-27 语音识别方法、装置、设备及存储介质
US16/900,824 US11450312B2 (en) 2018-03-22 2020-06-12 Speech recognition method, apparatus, and device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810240076.XA CN108564941B (zh) 2018-03-22 2018-03-22 语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108564941A true CN108564941A (zh) 2018-09-21
CN108564941B CN108564941B (zh) 2020-06-02

Family

ID=63533050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810240076.XA Active CN108564941B (zh) 2018-03-22 2018-03-22 语音识别方法、装置、设备及存储介质

Country Status (5)

Country Link
US (1) US11450312B2 (zh)
EP (1) EP3770905A4 (zh)
JP (1) JP6980119B2 (zh)
CN (1) CN108564941B (zh)
WO (1) WO2019179285A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109378000A (zh) * 2018-12-19 2019-02-22 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN109741752A (zh) * 2018-12-27 2019-05-10 金现代信息产业股份有限公司 一种基于语音识别的人事考评方法与系统
WO2019179285A1 (zh) * 2018-03-22 2019-09-26 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN110335592A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110473536A (zh) * 2019-08-20 2019-11-19 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110995938A (zh) * 2019-12-13 2020-04-10 上海优扬新媒信息技术有限公司 数据处理方法和装置
CN111432305A (zh) * 2020-03-27 2020-07-17 歌尔科技有限公司 一种耳机告警方法、装置及无线耳机
CN111522592A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 一种基于人工智能的智能终端唤醒方法和装置
CN112113317A (zh) * 2020-10-14 2020-12-22 清华大学 一种室内热环境控制系统及方法
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112530408A (zh) * 2020-11-20 2021-03-19 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质
CN112634897A (zh) * 2020-12-31 2021-04-09 青岛海尔科技有限公司 设备唤醒方法、装置和存储介质及电子装置
CN113129874A (zh) * 2021-04-27 2021-07-16 思必驰科技股份有限公司 语音唤醒方法及系统
CN113516997A (zh) * 2021-04-26 2021-10-19 常州分音塔科技有限公司 一种语音事件识别装置和方法
CN113707135A (zh) * 2021-10-27 2021-11-26 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN113761841A (zh) * 2021-04-19 2021-12-07 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113782005A (zh) * 2021-01-18 2021-12-10 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN114038457A (zh) * 2021-11-04 2022-02-11 北京房江湖科技有限公司 用于语音唤醒的方法、电子设备、存储介质和程序
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566634B (zh) * 2018-03-30 2021-06-25 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
US11770268B2 (en) * 2022-02-14 2023-09-26 Intel Corporation Enhanced notifications for online collaboration applications

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273334A1 (en) * 2002-08-01 2005-12-08 Ralph Schleifer Method for automatic speech recognition
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106328127A (zh) * 2015-06-30 2017-01-11 三星电子株式会社 语音识别设备,语音识别方法和电子装置
CN107230475A (zh) * 2017-05-27 2017-10-03 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107578776A (zh) * 2017-09-25 2018-01-12 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2003572B1 (en) * 2007-05-22 2010-08-04 Honda Motor Co., Ltd. Language understanding device
US9477753B2 (en) * 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
JP2014232258A (ja) * 2013-05-30 2014-12-11 株式会社東芝 連携業務支援装置、方法およびプログラム
JP6176055B2 (ja) * 2013-10-21 2017-08-09 富士通株式会社 音声検索装置及び音声検索方法
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
EP3254453B1 (en) * 2015-02-03 2019-05-08 Dolby Laboratories Licensing Corporation Conference segmentation based on conversational dynamics
WO2016126770A2 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Selective conference digest
CN107210045B (zh) * 2015-02-03 2020-11-17 杜比实验室特许公司 会议搜索以及搜索结果的回放
CN107210036B (zh) * 2015-02-03 2021-02-26 杜比实验室特许公司 会议词语云
WO2016126819A1 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
EP3254435B1 (en) * 2015-02-03 2020-08-26 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
US10334384B2 (en) * 2015-02-03 2019-06-25 Dolby Laboratories Licensing Corporation Scheduling playback of audio in a virtual acoustic space
US9704482B2 (en) * 2015-03-11 2017-07-11 International Business Machines Corporation Method and system for order-free spoken term detection
WO2016205296A1 (en) * 2015-06-16 2016-12-22 Dolby Laboratories Licensing Corporation Post-teleconference playback using non-destructive audio transport
CN107767863B (zh) * 2016-08-22 2021-05-04 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
CN107622770B (zh) * 2017-09-30 2021-03-16 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108564941B (zh) * 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273334A1 (en) * 2002-08-01 2005-12-08 Ralph Schleifer Method for automatic speech recognition
CN106328127A (zh) * 2015-06-30 2017-01-11 三星电子株式会社 语音识别设备,语音识别方法和电子装置
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN107230475A (zh) * 2017-05-27 2017-10-03 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107578776A (zh) * 2017-09-25 2018-01-12 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019179285A1 (zh) * 2018-03-22 2019-09-26 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11450312B2 (en) 2018-03-22 2022-09-20 Tencent Technology (Shenzhen) Company Limited Speech recognition method, apparatus, and device, and storage medium
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
CN109378000A (zh) * 2018-12-19 2019-02-22 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN109378000B (zh) * 2018-12-19 2022-06-07 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN109741752A (zh) * 2018-12-27 2019-05-10 金现代信息产业股份有限公司 一种基于语音识别的人事考评方法与系统
CN110335592A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110473536B (zh) * 2019-08-20 2021-10-15 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110473536A (zh) * 2019-08-20 2019-11-19 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110995938A (zh) * 2019-12-13 2020-04-10 上海优扬新媒信息技术有限公司 数据处理方法和装置
CN110995938B (zh) * 2019-12-13 2022-04-26 度小满科技(北京)有限公司 数据处理方法和装置
CN111432305A (zh) * 2020-03-27 2020-07-17 歌尔科技有限公司 一种耳机告警方法、装置及无线耳机
CN111522592A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 一种基于人工智能的智能终端唤醒方法和装置
CN112113317A (zh) * 2020-10-14 2020-12-22 清华大学 一种室内热环境控制系统及方法
CN112113317B (zh) * 2020-10-14 2024-05-24 清华大学 一种室内热环境控制系统及方法
CN112259077B (zh) * 2020-10-20 2024-04-09 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112530408A (zh) * 2020-11-20 2021-03-19 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质
CN112634897A (zh) * 2020-12-31 2021-04-09 青岛海尔科技有限公司 设备唤醒方法、装置和存储介质及电子装置
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113782005A (zh) * 2021-01-18 2021-12-10 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113761841A (zh) * 2021-04-19 2021-12-07 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113516997A (zh) * 2021-04-26 2021-10-19 常州分音塔科技有限公司 一种语音事件识别装置和方法
CN113129874B (zh) * 2021-04-27 2022-05-10 思必驰科技股份有限公司 语音唤醒方法及系统
CN113129874A (zh) * 2021-04-27 2021-07-16 思必驰科技股份有限公司 语音唤醒方法及系统
CN113707135A (zh) * 2021-10-27 2021-11-26 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114038457A (zh) * 2021-11-04 2022-02-11 北京房江湖科技有限公司 用于语音唤醒的方法、电子设备、存储介质和程序

Also Published As

Publication number Publication date
JP2021515905A (ja) 2021-06-24
US11450312B2 (en) 2022-09-20
JP6980119B2 (ja) 2021-12-15
WO2019179285A1 (zh) 2019-09-26
US20200312309A1 (en) 2020-10-01
EP3770905A1 (en) 2021-01-27
CN108564941B (zh) 2020-06-02
EP3770905A4 (en) 2021-05-19

Similar Documents

Publication Publication Date Title
CN108564941A (zh) 语音识别方法、装置、设备及存储介质
US11410657B2 (en) Artificial robot and method for speech recognition the same
EP3611663A1 (en) Image recognition method, terminal and storage medium
CN112464661B (zh) 模型训练方法、语音对话检测方法及相关设备
US20210012766A1 (en) Voice conversation analysis method and apparatus using artificial intelligence
CN109461446B (zh) 一种识别用户目标请求的方法、装置、系统及存储介质
CN108447471A (zh) 语音识别方法及语音识别装置
EP3598444B1 (en) Method and system for muting classified information from an audio
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN113096647B (zh) 语音模型训练方法、装置和电子设备
US20240029739A1 (en) Sensitive data control
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
CN117337467A (zh) 经由迭代说话者嵌入的端到端说话者分离
US11705110B2 (en) Electronic device and controlling the electronic device
KR20040068548A (ko) 행동 모델을 사용한 비-개입적 화자 인증 방법 및 시스템
WO2021159756A1 (zh) 基于多模态的响应义务检测方法、系统及装置
US11831644B1 (en) Anomaly detection in workspaces
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
US11024302B2 (en) Quality feedback on user-recorded keywords for automatic speech recognition systems
EP3671735B1 (en) Method and system for determining speaker-user of voice-controllable device
CN113707154B (zh) 模型训练方法、装置、电子设备和可读存储介质
CN112216286B (zh) 语音唤醒识别方法、装置、电子设备及存储介质
US20240105206A1 (en) Seamless customization of machine learning models
CN117376602A (zh) 一种说话人定位方法、装置、电子设备及存储介质
CN117649861A (zh) 基于帧级别情感状态对齐的语音情感识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant