CN113160854A - 语音交互系统、相关方法、装置及设备 - Google Patents

语音交互系统、相关方法、装置及设备 Download PDF

Info

Publication number
CN113160854A
CN113160854A CN202010085433.7A CN202010085433A CN113160854A CN 113160854 A CN113160854 A CN 113160854A CN 202010085433 A CN202010085433 A CN 202010085433A CN 113160854 A CN113160854 A CN 113160854A
Authority
CN
China
Prior art keywords
sentence
information
voice
determining
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010085433.7A
Other languages
English (en)
Other versions
CN113160854B (zh
Inventor
袁园
胡于响
姜飞俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010085433.7A priority Critical patent/CN113160854B/zh
Priority claimed from CN202010085433.7A external-priority patent/CN113160854B/zh
Publication of CN113160854A publication Critical patent/CN113160854A/zh
Application granted granted Critical
Publication of CN113160854B publication Critical patent/CN113160854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了语音交互系统、相关方法、装置及设备。其中,所示系统通过智能音箱采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;服务端通过句尾检测模型包括的第一声学特征确定子网络,根据语音数据的声学特征信息,确定后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据语音数据的文本序列,确定后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据后续语音的声学特征信息和语义特征信息,确定语音数据是否包括句尾信息;若检测到句尾信息,则智能音箱关闭传声器。采用这种处理方式,可以有效提升智能音箱闭麦时机的准确度。

Description

语音交互系统、相关方法、装置及设备
技术领域
本申请涉及数据处理技术领域,具体涉及语音交互系统、方法和装置,句尾检测方法和装置,句尾检测模型构建方法和装置,智能音箱,以及电子设备。
背景技术
智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。
用户与智能音箱之间主要通过语音方式进行交互。用户向智能音箱下达语音指令,智能音箱通过语音识别技术识别用户指令,并执行指令。智能音箱在确定用户下达完指令后,通常要关闭麦克风,结束收音。目前,一种典型的智能音箱闭麦方案是,智能音箱如果检测到用户说完话之后静默的时间达到一个预设的阈值,就会关闭麦克风。例如,智能音箱根据语音活动检测(Voice Activity Detection,VAD)信号进行相关判断,VAD信号用来指示用户的声音是否为静默,静默部分为0,有声音部分为非0;在检测到静默时间达到某个阈值(如700毫秒)时进行闭麦。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:1)该方法的闭麦逻辑只考虑了语音信息,即使用户说完了,音箱仍然要等待静默时间达到固定长度的阈值再闭麦,这样就会导致关麦响应慢,同时长时间的等待可能会引入其他背景噪声,进而影响后续语义理解流程的准确性;2)如果用户语句中间停顿时间长于静默阈值,虽然话还没说完,但也会闭麦,这就导致音箱接收到的用户语句是中断的内容。综上所述,现有方案存在智能音箱闭麦时机不准确的问题。
发明内容
本申请提供语音交互系统,以解决现有技术存在的智能音箱闭麦时机不准确的问题。本申请另外提供语音交互方法和装置,句尾检测方法和装置,句尾检测模型构建方法和装置,智能音箱,以及电子设备。
本申请提供一种语音交互系统,包括:
智能音箱,用于采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器;
服务端,用于接收所述句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
本申请还提供一种语音交互方法,包括:
采集用户语音数据;
若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
若所述服务端检测到句尾信息,则关闭传声器。
可选的,所述静默时长采用如下方式确定:
通过语音活动检测模块,确定所述静默时长。
可选的,还包括:
若所述服务端未检测到句尾信息、且静默时间大于第二时长阈值,则关闭传声器。
可选的,还包括:
确定环境噪声值;
若环境噪声值大于噪声阈值,则清除所述用户语音数据中的噪声数据;
根据除噪后的用户语音数据,确定所述静默时长。
可选的,还包括:
根据所述用户语音数据,确定用户讲话时长;
根据用户历史语音数据,确定讲话时长阈值;
若用户讲话时长达到讲话时长阈值,则确定所述语音数据包括句尾信息。
可选的,若所述服务端检测到句尾信息,则采集用户确定讲话完成的指令信息;
根据所述指令信息,关闭传声器。
可选的,从用户语音数据中提取第一声纹语音数据;
根据第一声纹语音数据,确定所述静默时长;
所述句尾检测请求包括针对第一声纹语音数据的句尾检测请求。
可选的,还包括:
根据用户语音数据,判断是否存在上下文语义不关联的第一语音片段数据和第二语音片段数据;
若上述判断结果为是,则关闭传声器。
本申请还提供一种语音交互方法,包括:
接收终端设备发送的针对用户语音数据的句尾检测请求;
通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
可选的,还包括:
从与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测模型。
可选的,所述第一声学特征确定子网络包括:第二声学特征确定子网络和第三声学特征确定子网络;
通过第二声学特征确定子网络,根据所述多个数据帧的声学特征信息,确定所述语音数据的声学特征信息;
通过第三声学特征确定子网络,根据所述语音数据的声学特征信息、和所述文本序列,确定所述后续语音的声学特征信息。
可选的,句尾检测模型包括语音识别子网络,所述语音识别子网络包括所述第二声学特征确定子网络和发音单元确定子网络;
所述方法还包括:
通过所述发音单元确定子网络,根据所述语音数据的声学特征信息,确定所述语音数据的发音单元序列。
可选的,句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;
所述方法还包括:
通过所述语言模型子网络,确定所述文本序列;通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
可选的,句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;
所述方法还包括:
通过所述语言模型子网络,确定所述文本序列;通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
可选的,通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;
通过所述文本预测子网络,根据深度融合特征,确定与所述后续语音对应的文本;
通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
可选的,通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;
通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
可选的,还包括:
从标注句子起始符和结束符的语料集中,学习得到所述语义特征确定子网络和所述文本预测子网络的初始化参数;
从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息、标注句子起始符和结束符的文本序列间的对应关系中,学习得到所述语音识别子网络和所述语言模型子网络;
从与训练用语音数据对应的多个数据帧的声学特征信息、与训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测子网络。
可选的,还包括:
从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息间的对应关系中,学习得到所述语音识别子网络的初始化参数。
可选的,所述第三声学特征确定子网络的网络结构包括:Transformer模型;
所述语义特征确定子网络的网络结构包括:Transformer模型。
本申请还提供一种句尾检测方法,包括:
获取待检测语音数据;
确定所述语音数据的声学特征信息;
通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
本申请还提供一种句尾检测模型构建方法,包括:
确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
构建句尾检测模型的网络结构;
将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
本申请还提供一种语音交互装置,包括:
语音采集单元,用于采集用户语音数据;
请求发送单元,用于若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
闭麦单元,用于若所述服务端检测到句尾信息,则关闭传声器。
本申请还提供一种智能音箱,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
本申请还提供一种语音交互装置,包括:
请求接收单元,用于接收终端设备发送的针对用户语音数据的句尾检测请求;
特征确定单元,用于通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
句尾确定单元,用于通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:接收终端设备发送的针对用户语音数据的句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
本申请还提供一种句尾检测装置,包括:
语音数据获取单元,用于获取待检测语音数据;
声学特征提取单元,用于确定所述语音数据的声学特征信息;
句尾信息确定单元,用于通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现句尾检测方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:获取待检测语音数据;确定所述语音数据的声学特征信息;通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
本申请还提供一种句尾检测模型构建装置,包括:
训练数据确定单元,用于确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
网络构建单元,用于构建句尾检测模型的网络结构;
学习单元,用于将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现句尾检测模型构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;构建句尾检测模型的网络结构;将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
可选的,所述设备包括:点餐机,售卖机,售票机,聊天机器人。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的语音交互系统,通过智能音箱采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;服务端响应该请求,通过句尾检测模型包括的第一声学特征确定子网络,根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息;若所述服务端检测到句尾信息,则智能音箱关闭传声器。采用这种处理方式,使得经过可学习的句尾检测模型,同时利用语音和语义的信息,来确定是否闭麦,在利用语音信号的同时,也利用语义的信号,语义的信号对判断句尾是有帮助的,如果语义上表明句子不完整,那么即使有较长时间的停顿,也能判断为不是句尾,减少误判;如果语义上表明句子意义完整,那么即使静默时间没有达到阈值,也可以判断为是句尾,从而进行闭麦,缩短音箱的响应时间;因此,可以有效提升智能音箱闭麦时机的准确度,从而节省闭麦时间,同时也减少误闭麦导致中断语句的情况。此外,这种处理方式还至少具有如下技术效果:
1)由于句尾检测模型的输入数据为语音数据的多个数据帧的声学特征,输出数据为句尾检测结果,因此该模型是一个完全的端到端模型。由于端到端模型采用数据驱动方式工作,并不依赖人的经验,因此可以更加灵活、准确、及时地闭麦,可以有效缩短端上闭麦时间。
2)由于在语音解码过程中自动融合后续语音的声学特征和语义特征,并在解码的同时,根据融合的特征进行句尾的判断,避免对声学特征和语义特征进行对齐所导致的延时,同时句尾检测子网络耗时几乎可以忽略,因此更加准确、快速地闭麦,可以有效缩短端上闭麦时间。
3)由于基于后续语音的语音和语义双重信息进行句尾判断,信息更丰富,判断更准确,因此可以更加准确地闭麦,可以有效缩短端上闭麦时间。
附图说明
图1本申请提供的一种语音交互系统的实施例的结构示意图;
图2本申请提供的一种语音交互系统的实施例的场景示意图;
图3本申请提供的一种语音交互系统的实施例的设备交互示意图;
图4本申请提供的一种语音交互系统的实施例的句尾检测模型示意图;
图5本申请提供的一种语音交互系统的实施例的句尾检测模型具体示意图;
图6本申请提供的一种语音交互系统的实施例的句尾检测模型具体示意图;
图7本申请提供的一种语音交互系统的实施例的句尾检测模型具体示意图;
图8本申请提供的一种语音交互系统的实施例的句尾检测模型具体示意图;
图9本申请提供的一种语音交互系统的实施例的句尾检测模型具体示意图;
图10本申请提供的一种语音交互系统的实施例的效果图;
图11本申请提供的一种语音交互方法的实施例的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了语音交互系统、方法和装置,句尾检测方法和装置,句尾检测模型构建方法和装置,智能音箱,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图1,其为本申请的语音交互系统的实施例的示意图。本实施例提供的语音交互系统包括:服务器1和智能音箱2。
服务器1,可以是部署在云端服务器上的服务端,也可以是专用于实现语音交互系统的服务器,可部署在数据中心。
智能音箱2,可以是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。
请参考图2,其为本申请的语音交互系统的场景示意图。服务端1和智能音箱2间可通过网络连接,如智能音箱2可通过WIFI等方式联网,等等。用户与智能音箱之间通过语音方式进行交互。用户向智能音箱2下达语音指令(如询问天气,要求智能音箱调整空调运行模式等),若智能音箱2检测到用户声音静默时长达到第一时长阈值,则向服务端1发送针对所述语音数据的句尾检测请求;服务端1通过句尾检测模型,检测判断用户指令是否说完;若所述服务端1检测到句尾信息,则智能音箱2关闭传声器,结束收音。智能音箱2通过语音识别技术识别用户指令,并执行指令。
例如,用户在说完“今天杭州”后语音有停顿,但服务端1判定明显语义不完整,该段语音并不包括句尾信息,因此不会闭麦。
再例如,用户在说完“今天杭州天气怎么样”后语音有停顿,服务端1同时判定语义也完整,该段语音包括句尾信息,可以执行闭麦而不用等待。此外,还可以在自动闭麦前,主动询问用户是否说完,在用户表示讲话完毕后再闭麦。
请参考图3,其为本申请的语音交互系统的设备示意图。在本实施例中,智能音箱采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;服务端响应该请求,通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息;若所述服务端检测到句尾信息,则智能音箱关闭传声器。
所述第一时长阈值,可根据实际需求确定,如设置为100毫秒。所述第一时长阈值越小,则句尾检测越为频繁,更加能够节省闭麦时间,但服务端负载越大。
所述静默时长,可采用如下方式确定:通过语音活动检测(VoiceActivityDetection,VAD)模块,确定所述静默时长。VAD信号可用来指示用户的声音是否为静默,静默部分为0,有声音部分为非0。在环境噪音较大的情况下,可先清除噪音数据,在对清除噪音后的用户语音数据执行静默时间检测。
在本实施例中,若所述服务端未检测到句尾信息、且静默时间大于第二时长阈值,则关闭传声器。所述第二时长阈值,可根据实际需求确定,如设置为1秒。采用这种方式,使得即使服务端未检测到句尾信息,但是如果用户语音静默时间过长,则即使话没说完,也会闭麦,这样可避免长时间的等待可能会引入其他背景噪声,影响后续语义理解流程的准确性。
本申请实施例提供的所述模型,通过端到端深度神经网络,融合语音和语义信息,来预测用户的一句话是否说完的概率。为了避免ASR(Automatic Speech Recognition,语音识别)先解码得到文本,然后再对文本重新提取特征,实际上改进了ASR的解码过程,可在其中引入大规模文本数据预训练的语言模型,直接在模型内部进行深度语音语义融合,以达到在解码的过程的同时直接利用中间融合的语音信息和语义信息来判断是否句尾。
如图4所示,服务端1通过句尾检测模型包括的第一声学特征确定子网络,根据所述语音数据的多个数据帧的声学特征信息(x1,x2,…,xT),确定所述语音数据的后续语音(yu)的声学特征信息
Figure BDA0002378464910000111
以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列(y0,…,yu-1),确定所述后续语音的语义特征信息
Figure BDA0002378464910000112
通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息
Figure BDA0002378464910000113
最后,可通过Softmax函数确定句尾概率(P(yep|yU-1,…,y0,x))。
其中,所述语音数据的文本序列(y0,…,yu-1),可通过句尾检测模型包括的语言模型子网络确定。在本实施例中,从用户语音数据中提取声学特征fbank特征作为所述模型的输入数据,记为x1,x2,…,xT。由于提取声学特征的技术属于较为成熟的现有技术,因此此处不再赘述。
在本实施例中,服务端1还用于从与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测模型。
具体实施时,服务端可首先获取训练数据集,并构建模型网络,然后通过机器学习方式,根据训练数据不断调整网络参数,直至网络输出的预测数据与训练数据中的标注数据之间的差距小于差距阈值,模型训练完成,可存储调整后的网络参数,在句尾检测阶段使用。
如图5所示,在本实施例中,所述第一声学特征确定子网络包括:第二声学特征确定子网络和第三声学特征确定子网络;通过第二声学特征确定子网络,根据所述多个数据帧的声学特征信息,确定所述语音数据的声学特征信息(henc);通过第三声学特征确定子网络,根据所述语音数据的声学特征信息、和所述文本序列,确定所述后续语音的声学特征信息。采用这种处理方式,可以得到更为准确的henc,从而可提升句尾检测准确度。
如图6所示,第二声学特征确定子网络可以采用语音识别网络中的编码器(Encoder)结构。利用Encoder网络对声学特征x1,x2,…,xT进行编码,得到编码之后的特征henc。其中,x1,x2,…,xT为原始特征,特征间可能并没有联系;而编码后的特征henc为更高级的特征,特征间有联系。由图6可见,本实施例的Encoder网络主要是由2层CNN和5层transformer网络组成,每一层transformer块可包括一个normalization layer(归一层),一个multi-head attention layer(多头注意力层),一个dense layer(稠密层),一个residual layer,紧接着一个normalization layer和一个feed forward layer(前馈层)。
如图7所示,具体实施时,句尾检测模型可包括语音识别子网络,所述语音识别子网络包括所述第二声学特征确定子网络和发音单元确定子网络;服务端还可用于通过所述发音单元确定子网络,根据所述语音数据的声学特征信息,确定所述语音数据的发音单元序列。本实施例在Encoder部分接了一个额外的发音单元确定子网络(拼音网络PinyinNet)用以输出拼音序列,该PinyinNet可只依靠Encoder进行拼音进行CTC(Connectionisttemporal classification)解码,训练的时候可用标注拼音(ground truth的拼音)计算损失loss,loss会反传回Encoder作为正则化(regularization),以训练更好的Encoder。比如:输出“tian mao jing ling jin tian hang zhou tian qi zen me yang”。采用这种处理方式,使得根据更准确的第二声学特征确定子网络进行声学特征编码,由此可提升句尾检测准确度。需要说明的是,该发音单元确定子网络只在模型训练阶段有效,在句尾检测阶段无需使用。此外,该发音单元确定子网络也无需单独训练。
如图7所示,具体实施时,句尾检测模型还可包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;服务端还可用于通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本;若所述下一文本为句子结束符,则可向所述智能音箱回送所述文本序列。
需要说明的是,所述语音数据的文本序列(y0,…,yu-1),可通过句尾检测模型包括的语言模型子网络确定。具体实施时,可在所述模型中引入大规模文本数据预训练的语言模型,直接在模型内部进行深度语音语义融合,以达到在解码的过程的同时直接利用中间融合的语音信息和语义信息来判断是否句尾。此外,通过在所述模型中引入大规模文本数据预训练的语言模型,可有效提升语义特征的准确度,从而提升句尾检测准确度。由于语言模型的训练属于较为成熟的现有技术,因此此处不再赘述。
如图7所示,在本实施例中,所述模型的解码部分包括第三声学特征确定子网络(AM transformer)和语义特征确定子网络(LM transformer)。其中,AM transformer可以同时注意(attention)到encoder的声学特征henc和已经解码出的文本y0,y1,…,yu-1,LMtransformer仅仅注意(attention)到已经解码的文本y0,y1,…,yu-1。因此,AM transformer主要依赖完整的声学特征和已解码的文字(已解码文字也是在这个过程中产生的),从声学的角度来预测下一个字的特征;LM transformer首先由大规模文本训练的语言模型作为初始化,主要依靠已解码的文字,从语言模型的角度来预测下一个字的特征。经过AMtransformer和LM transformer得到的特征分别为
Figure BDA0002378464910000131
Figure BDA0002378464910000132
如图8所示,对应的AM transformer和LM transformer的模型可具体如下:AMtransformer和LM transformer采用的都是transformer的模型结构,其中AM transformer包含两层transformer块,LM transformer包含三层transformer块。每一个transformer块都包含一个normalization layer,一个multi-head attention layer,一个dense layer,一个residual layer,紧接着一个normalization layer和一个feed forward layer。
综上所述,所述第三声学特征确定子网络的网络结构可采用Transformer模型;所述语义特征确定子网络的网络结构的采用Transformer模型。采用这种网络结构,较LSTM网络而言,解码速度更快,因此可以有效提升句尾检测效率。
如图9所示,通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;通过所述文本预测子网络,根据深度融合特征,确定与所述后续语音对应的文本;通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
具体实施时,可对编码过后的声学特征
Figure BDA0002378464910000133
和文本特征
Figure BDA0002378464910000134
进行融合(Fusion)。在本实施例中,采用一个深度融合网络Fusion(可替换为其他网络),得到融合之后的特征
Figure BDA0002378464910000135
这里的融合方法包括但不限于直接拼接,或者采用注意力机制,或者采用门控机制。
需要说明的是,Fusion就是将来自AM和LM的两部分信息融合起来。但这两部分信息的融合需要一定的机制,最简单的机制就是将两者的向量直接拼接,可以进行特征对齐处理;除此之外,注意力机制就是将两者的信息按重要性加权求和;门控机制就是有选择的让某一路信息通过,另外的信息不通过。
服务端通过特征深度融合子网络对特征进行融合处理后,深度融合特征将被输入语音识别子网络的decoder模块(即:文本预测子网络)去解码出下一个字。具体实施时,在训练阶段,decoder可采用贪心算法(greedy算法),即y0,y1,…,yu-1采用标注文本(groundtruth的文本),直接预测下一个字的概率P(yu|yu-1,…,y0,x)。在预测阶段(inference),decoder可采用beam search算法,y0,y1,…,yu-1采用已解码的文本,预测下一个字的概率输出P(yu|yu-1,…,y0,x)(有beam size个候选字)。
在通过所述句尾检测模型中的语音识别子网络对所述用户语音数据解码完成后,可取最后一个结束符的深度融合特征,输入Endpointer网络(句尾检测子网络)进行是否是句尾的判断,输出为0或1,0可代表不是句尾,1可代表是句尾。具体实施时,该Endpointer网络可以是一个由两层全连接层构成的二分类网络。
需要说明的是,句尾检测模型结构中的encoder网络,AM transformer网络,LMtransformer网络,深度融合网络Fusion均可被替换为其他网络,例如:encoder网络可以被替换为LSTM,Bi-LSTM,RNN,Bert等等,AM transformer和LM transformer网络可以被替换为LSTM,GPT,GPT-2等单向语言模型,Fusion网络可以被替换为Gated Fusion Network,Memory Network等等。
对于图9所示的句尾检测模型,服务端可具体用于从标注句子起始符和结束符的语料集中,学习得到所述语义特征确定子网络和所述文本预测子网络的初始化参数;从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息、标注句子起始符和结束符的文本序列间的对应关系中,学习得到所述语音识别子网络和所述语言模型子网络;从与训练用语音数据对应的多个数据帧的声学特征信息、与训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测子网络。其中,训练用语音数据的标注文本序列可包括句子起始符和结束符。
具体实施时,还可从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息间的对应关系中,学习得到所述语音识别子网络中的发音单元确定子网络和第二声学特征确定子网络。
本申请实施了提供的整个端到端句尾模型的训练可包括三个部分:预训练语言模型(LM transformer),端到端ASR模块(包含Encoder,PinyinNet,AM transformer,LMtransformer,Fusion,Decoder),句尾模块(Endpointer)。
(1)预训练语言模型LM transformer
在训练的过程中,对模型结构I中的LM transformer首先经过大规模中文语料进行预训练,将预训练得到的模型参数用来作为初始化。
(2)端到端ASR模块的训练数据构造
在本实施例中,端到端ASR模块包含上述Encoder,PinyinNet,AM transformer,LMtransformer,Fusion,Decoder结构,模型的输入为音频的fbank特征,以及该音频对应的拼音和文本。对于任何一句文本,可在开始和结束补充一个开始符(start token)<s>和一个结束符(end token)<e>,比如“<s>天猫精灵今天杭州天气怎么样<e>”。LM transformer被初始化为预训练语言模型的参数,在训练的时候端到端ASR模块的所有参数一起调优。
(3)句尾模块的训练数据构造
在本实施例中,整个端到端句尾模型的输入为fbank特征,输出为是否是句尾的判断。在端到端ASR模块训练完之后,句尾模块主要训练Endpointer网络的参数。训练数据的构造过程可包括两部分,一是fbank特征的获取,二是是否为句尾的标签。本实施例主要根据VAD来决定调用端到端句尾模型的时刻,截取VAD静默时长达到时长阈值(如100ms)时得到的音频fbank片段,然后将其输入至端到端ASR模块中得到解码的文本;同时也将完整的音频输入至端到端ASR模块中得到解码的文本。如果音频片段解码的文本和完整音频解码的文本相同,则句尾标签为1;如果不相同,则句尾标签为0。训练的时候可固定住端到端ASR模块的参数,只训练Endpointer的参数。
如图10所示,现有技术下的句尾检测只在音箱端上进行,检测到静默700ms则发起闭麦信号,然后文本下发进行后续任务的处理。而本申请实施例提供的端到端句尾模型在云端进行,根据音箱端上的VAD来决定调用时机,当端上的VAD每次检测到静默100ms的时候,端上会向云端请求进行句尾检测,判断此时是否是句尾。如果不是句尾,则不做响应,端上继续收音,直到下一个静默100ms的时候再次向云端发起句尾检测的请求;如果判断此时是句尾,则向端上发起闭麦信号,并将文本下发进行后续任务的处理;如果最后一个静默100ms的时候仍然判断为非句尾,则按照原本的闭麦逻辑(静默达到700ms)进行闭麦。
从上述实施例可见,本申请实施例提供的语音交互系统,通过智能音箱采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;服务端响应该请求,通过句尾检测模型包括的第一声学特征确定子网络,根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息;若所述服务端检测到句尾信息,则智能音箱关闭传声器。采用这种处理方式,使得经过可学习的句尾检测模型,同时利用语音和语义的信息,来确定是否闭麦,在利用语音信号的同时,也利用语义的信号,语义的信号对判断句尾是有帮助的,如果语义上表明句子不完整,那么即使有较长时间的停顿,也能判断为不是句尾,减少误判;如果语义上表明句子意义完整,那么即使静默时间没有达到阈值,也可以判断为是句尾,从而进行闭麦,缩短音箱的响应时间;因此,可以有效提升智能音箱闭麦时机的准确度,从而节省闭麦时间,同时也减少误闭麦导致中断语句的情况。
第二实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种语音交互方法,该方法的执行主体可以是智能音箱,售卖机,售票机,聊天机器人,等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
请参考图11,其为本申请提供的一种语音识别方法实施例的示意图。所述方法包括:
步骤S901:采集用户语音数据。
步骤S903:若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求。
在一个示例中,所述静默时长采用如下方式确定:通过语音活动检测模块,确定所述静默时长。
步骤S905:若所述服务端检测到句尾信息,则关闭传声器。
在一个示例中,所述方法还可包括如下步骤:若所述服务端未检测到句尾信息、且静默时间大于第二时长阈值,则关闭传声器。
在一个示例中,所述方法还可包括如下步骤:1)确定环境噪声值;2)若环境噪声值大于噪声阈值,则清除所述用户语音数据中的噪声数据;3)根据除噪后的用户语音数据,确定所述静默时长。
例如,用户与智能音箱进行语音交互时,周围环境较为嘈杂(如电视声音比较大、房屋隔音效果较差等),此时由于智能音箱始终检测不到用户语音静默信息,因此无法及时通过服务端进行句尾检测处理,从而导致无法及时闭麦。在这种情况下,可通过现有技术确定周围环境的噪声值,如果判定环境噪声值大于噪声阈值(可根据实际需求确定,单位可以是分贝),则要清除采集到的用户语音数据中的噪声数据,如电视声音、道路上汽车产生的噪音等等,这样就可以确保及时检测到用户静默信息,以便后续通过服务端进行句尾检测处理。采用这种处理方式,可以有效提升闭麦时间的准确度。
在一个示例中,所述方法还可包括如下步骤:1)根据所述用户语音数据,确定用户讲话时长;2)根据用户历史语音数据,确定讲话时长阈值;3)若用户讲话时长达到讲话时长阈值,则确定所述语音数据包括句尾信息。
例如,根据用户与智能音箱的历史语音交互时长记录,发现该用户通常说话时间较短(如20秒),则可根据该时长确定讲话时长阈值(如25秒),当该用户与智能音箱进行语音交互时,可先确定用户讲话时长(如26秒),如果用户讲话时长大于该阈值,可直接确定用户讲话完毕,无需通过服务端进行句尾检测处理,从而实现及时闭麦。采用这种处理方式,使得即使环境噪音较大,仍可以即使闭麦。此外,还可有效降低服务端负载。
在一个示例中,若所述服务端检测到句尾信息,则采集用户确定讲话完成的指令信息;根据所述指令信息,关闭传声器。例如,智能音箱通过服务端检测到句尾信息后,询问用户是否讲话完成,如果用户确认是,才关闭麦克风。采用这种处理方式,可以避免误关麦,因而可以有效提升用户体验。
在一个示例中,所述方法还可包括如下步骤:1)从用户语音数据中提取第一声纹语音数据;2)根据第一声纹语音数据,确定所述静默时长;3)所述句尾检测请求包括针对第一声纹语音数据的句尾检测请求。例如,用户与智能音箱交互时周围有其它用户同时在讲话,则采集到的用户语音数据中包括至少两个声纹的语音数据,此时可从中提取出真正用户的第一声纹语音数据,根据该数据确定所述静默时长;在这种情况下,所述句尾检测请求包括针对第一声纹语音数据的句尾检测请求。采用这种处理方式,无需确定环境噪声值,可以准确提取真正用户的语音数据;因此,可以有效提升闭麦时间的准确度。
在一个示例中,所述方法还可包括如下步骤:1)根据用户语音数据,判断是否存在上下文语义不关联的第一语音片段数据和第二语音片段数据;2)若上述判断结果为是,则关闭传声器。例如,用户与智能音箱交互时周围有其它用户在讲话,则采集到的用户语音数据中包括上下文语义信息并不相关的前后两段语音数据,此时直接判定用户讲话完毕。采用这种处理方式,可以及时闭麦,从而有效提升闭麦时间的准确度。
在一个示例中,所述方法还可包括如下步骤:1)根据用户语音数据,判断是否存在上下文语义不关联的第一语音片段数据和第二语音片段数据;2)若上述判断结果为是,则向服务端发送针对第一语音片段数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。例如,用户在对智能音箱说完“今天杭州天气怎么样”后,紧接着与其他用户说话,该用户语音并没有停顿或停顿时间未达到第一时长阈值,且为同一用户声纹的语音,此时,智能音箱检测到前后两段语音内容的语义并无关联,则向服务端发送针对第一语音片段数据的句尾检测请求,如果服务端同时判定该段语音的语义也完整,则表示检测到句尾信息,可以执行闭麦而不用等待,即使该用户始终在与其他用户谈话,也不会影响闭麦。采用这种处理方式,可以及时闭麦,从而有效提升闭麦时间的准确度。
具体实施时,如果服务端未检测到句尾信息,则可继续采集该用户的与第一语音片段有语义关联的第三语音片段数据,当第三语音片段后的静默时间达到第一时长阈值时,向服务端发送针对第三语音片段数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
第三实施例
在上述的实施例中,提供了一种语音交互方法,与之相对应的,本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音交互装置包括:
语音采集单元,用于采集用户语音数据;
请求发送单元,用于若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
闭麦单元,用于若所述服务端检测到句尾信息,则关闭传声器。
第四实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
所述电子设备,可以是智能音箱,点餐机,售卖机,售票机,聊天机器人,等等。
第五实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种语音交互方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音识别方法包括:
步骤1:接收终端设备发送的针对用户语音数据的句尾检测请求。
步骤2:通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息。
在一个示例中,所述第一声学特征确定子网络包括:第二声学特征确定子网络和第三声学特征确定子网络;通过第二声学特征确定子网络,根据所述多个数据帧的声学特征信息,确定所述语音数据的声学特征信息;通过第三声学特征确定子网络,根据所述语音数据的声学特征信息、和所述文本序列,确定所述后续语音的声学特征信息。其中,可通过所述句尾检测模型中的语言模型子网络,确定所述文本序列。
在一个示例中,句尾检测模型包括语音识别子网络,所述语音识别子网络包括所述第二声学特征确定子网络和发音单元确定子网络;所述方法还可包括如下步骤:通过所述发音单元确定子网络,根据所述语音数据的声学特征信息,确定所述语音数据的发音单元序列。
在一个示例中,句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;所述方法还可包括如下步骤:通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
在一个示例中,通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;通过所述文本预测子网络,根据深度融合特征,确定与所述后续语音对应的文本;通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
在一个示例中,通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
步骤3:通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
在一个示例中,所述方法还可包括如下步骤:从与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测模型。
在一个示例中,所述句尾检测模型可通过如下步骤训练得到:1)从标注句子起始符和结束符的语料集中,学习得到所述语义特征确定子网络和所述文本预测子网络的初始化参数;2)从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息、标注句子起始符和结束符的文本序列间的对应关系中,学习得到所述语音识别子网络和所述语言模型子网络;3)从与训练用语音数据对应的多个数据帧的声学特征信息、与训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测子网络。
在一个示例中,所述方法还可包括如下步骤:从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息间的对应关系中,学习得到所述语音识别子网络的初始化参数。
在一个示例中,所述第三声学特征确定子网络的网络结构包括:Transformer模型;所述语义特征确定子网络的网络结构包括:Transformer模型。
第六实施例
在上述的实施例中,提供了一种语音交互方法,与之相对应的,本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音交互装置包括:
请求接收单元,用于接收终端设备发送的针对用户语音数据的句尾检测请求;
特征确定单元,用于通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
句尾确定单元,用于通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
第七实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器和存储器;存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:接收终端设备发送的针对用户语音数据的句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
第八实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种句尾检测方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种句尾检测方法包括:
步骤1:获取待检测语音数据;
步骤2:确定所述语音数据的声学特征信息;
步骤3:通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
由于句尾检测模型可以实施例中的句尾检测模型,因此此处不再赘述,详见实施例一相应部分的说明。
第九实施例
在上述的实施例中,提供了一种句尾检测方法,与之相对应的,本申请还提供一种句尾检测装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种句尾检测装置包括:
语音数据获取单元,用于获取待检测语音数据;
声学特征提取单元,用于确定所述语音数据的声学特征信息;
句尾信息确定单元,用于通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
第十实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现句尾检测方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:获取待检测语音数据;确定所述语音数据的声学特征信息;通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
第十一实施例
在上述的实施例中,提供了一种语音交互系统,与之相对应的,本申请还提供一种句尾检测模型构建方法,该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种句尾检测模型构建方法包括:
步骤1:确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
步骤2:构建句尾检测模型的网络结构;
步骤3:将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
在一个示例中,所述句尾检测模型的网络结构如图9所示,对于该结构的模型,在步骤3之前还可包括如下训练步骤:1)从标注句子起始符和结束符的语料集中,学习得到所述语义特征确定子网络和所述文本预测子网络的初始化参数;2)从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息、标注句子起始符和结束符的文本序列间的对应关系中,学习得到所述语音识别子网络和所述语言模型子网络。此后,在执行步骤3即可。
第十二实施例
在上述的实施例中,提供了一种句尾检测模型构建方法,与之相对应的,本申请还提供一种语音交互装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种句尾检测模型构建装置包括:
训练数据确定单元,用于确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
网络构建单元,用于构建句尾检测模型的网络结构;
学习单元,用于将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
第十三实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:传声器,处理器和存储器;存储器,用于存储实现句尾检测模型构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;构建句尾检测模型的网络结构;将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (32)

1.一种语音交互系统,其特征在于,包括:
智能音箱,用于采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器;
服务端,用于接收所述句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
2.一种语音交互方法,其特征在于,包括:
采集用户语音数据;
若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
若所述服务端检测到句尾信息,则关闭传声器。
3.根据权利要求2所述的方法,其特征在于,所述静默时长采用如下方式确定:
通过语音活动检测模块,确定所述静默时长。
4.根据权利要求2所述的方法,其特征在于,还包括:
若所述服务端未检测到句尾信息、且静默时间大于第二时长阈值,则关闭传声器。
5.根据权利要求2所述的方法,其特征在于,还包括:
确定环境噪声值;
若环境噪声值大于噪声阈值,则清除所述用户语音数据中的噪声数据;
根据除噪后的用户语音数据,确定所述静默时长。
6.根据权利要求2所述的方法,其特征在于,还包括:
根据所述用户语音数据,确定用户讲话时长;
根据用户历史语音数据,确定讲话时长阈值;
若用户讲话时长达到讲话时长阈值,则确定所述语音数据包括句尾信息。
7.根据权利要求2所述的方法,其特征在于,
若所述服务端检测到句尾信息,则采集用户确定讲话完成的指令信息;
根据所述指令信息,关闭传声器。
8.根据权利要求2所述的方法,其特征在于,
从用户语音数据中提取第一声纹语音数据;
根据第一声纹语音数据,确定所述静默时长;
所述句尾检测请求包括针对第一声纹语音数据的句尾检测请求。
9.根据权利要求2所述的方法,其特征在于,还包括:
根据用户语音数据,判断是否存在上下文语义不关联的第一语音片段数据和第二语音片段数据;
若上述判断结果为是,则关闭传声器。
10.一种语音交互方法,其特征在于,包括:
接收终端设备发送的针对用户语音数据的句尾检测请求;
通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
11.根据权利要求10所述的方法,其特征在于,还包括:
从与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测模型。
12.根据权利要求10所述的方法,其特征在于,
所述第一声学特征确定子网络包括:第二声学特征确定子网络和第三声学特征确定子网络;
通过第二声学特征确定子网络,根据所述多个数据帧的声学特征信息,确定所述语音数据的声学特征信息;
通过第三声学特征确定子网络,根据所述语音数据的声学特征信息、和所述文本序列,确定所述后续语音的声学特征信息。
13.根据权利要求10所述的方法,其特征在于,
句尾检测模型包括语音识别子网络,所述语音识别子网络包括所述第二声学特征确定子网络和发音单元确定子网络;
所述方法还包括:
通过所述发音单元确定子网络,根据所述语音数据的声学特征信息,确定所述语音数据的发音单元序列。
14.根据权利要求13所述的方法,其特征在于,
句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;
所述方法还包括:
通过所述语言模型子网络,确定所述文本序列;通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
15.根据权利要求10所述的方法,其特征在于,
句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;
所述方法还包括:
通过所述语言模型子网络,确定所述文本序列;通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
16.根据权利要求14或15所述的方法,其特征在于,
通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;
通过所述文本预测子网络,根据深度融合特征,确定与所述后续语音对应的文本;
通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
17.根据权利要求10所述的方法,其特征在于,
通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;
通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
18.根据权利要求14所述的方法,其特征在于,还包括:
从标注句子起始符和结束符的语料集中,学习得到所述语义特征确定子网络和所述文本预测子网络的初始化参数;
从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息、标注句子起始符和结束符的文本序列间的对应关系中,学习得到所述语音识别子网络和所述语言模型子网络;
从与训练用语音数据对应的多个数据帧的声学特征信息、与训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测子网络。
19.根据权利要求18所述的方法,其特征在于,还包括:
从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息间的对应关系中,学习得到所述语音识别子网络的初始化参数。
20.根据权利要求12所述的方法,其特征在于,
所述第三声学特征确定子网络的网络结构包括:Transformer模型;
所述语义特征确定子网络的网络结构包括:Transformer模型。
21.一种句尾检测方法,其特征在于,包括:
获取待检测语音数据;
确定所述语音数据的声学特征信息;
通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
22.一种句尾检测模型构建方法,其特征在于,包括:
确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
构建句尾检测模型的网络结构;
将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
23.一种语音交互装置,其特征在于,包括:
语音采集单元,用于采集用户语音数据;
请求发送单元,用于若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
闭麦单元,用于若所述服务端检测到句尾信息,则关闭传声器。
24.一种智能音箱,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
25.一种语音交互装置,其特征在于,包括:
请求接收单元,用于接收终端设备发送的针对用户语音数据的句尾检测请求;
特征确定单元,用于通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
句尾确定单元,用于通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
26.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:接收终端设备发送的针对用户语音数据的句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
27.一种句尾检测装置,其特征在于,包括:
语音数据获取单元,用于获取待检测语音数据;
声学特征提取单元,用于确定所述语音数据的声学特征信息;
句尾信息确定单元,用于通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
28.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现句尾检测方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:获取待检测语音数据;确定所述语音数据的声学特征信息;通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
29.一种句尾检测模型构建装置,其特征在于,包括:
训练数据确定单元,用于确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
网络构建单元,用于构建句尾检测模型的网络结构;
学习单元,用于将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
30.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现句尾检测模型构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;构建句尾检测模型的网络结构;将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
31.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
32.根据权利要求31所述的设备,其特征在于,所述设备包括:点餐机,售卖机,售票机,聊天机器人。
CN202010085433.7A 2020-01-22 语音交互系统、相关方法、装置及设备 Active CN113160854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010085433.7A CN113160854B (zh) 2020-01-22 语音交互系统、相关方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085433.7A CN113160854B (zh) 2020-01-22 语音交互系统、相关方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113160854A true CN113160854A (zh) 2021-07-23
CN113160854B CN113160854B (zh) 2024-10-18

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049885A (zh) * 2022-01-12 2022-02-15 阿里巴巴达摩院(杭州)科技有限公司 标点符号识别模型构建方法和装置
CN114078474A (zh) * 2021-11-09 2022-02-22 京东科技信息技术有限公司 基于多模态特征的语音对话处理方法、装置和电子设备
CN114242113A (zh) * 2021-12-16 2022-03-25 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN114385800A (zh) * 2021-12-17 2022-04-22 阿里巴巴(中国)有限公司 语音对话方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102971787A (zh) * 2010-10-29 2013-03-13 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
CN102982811A (zh) * 2012-11-24 2013-03-20 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
CN105529028A (zh) * 2015-12-09 2016-04-27 百度在线网络技术(北京)有限公司 语音解析方法和装置
JP2017228272A (ja) * 2016-06-17 2017-12-28 パナソニックIpマネジメント株式会社 意味生成方法、意味生成装置及びプログラム
CN107665704A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备
CN107919130A (zh) * 2017-11-06 2018-04-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN108292500A (zh) * 2015-12-22 2018-07-17 英特尔公司 用于使用语法一致性的句尾检测的技术
US20180358005A1 (en) * 2015-12-01 2018-12-13 Fluent.Ai Inc. System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP2019179064A (ja) * 2018-03-30 2019-10-17 日本放送協会 音声合成装置、音声モデル学習装置およびそれらのプログラム
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102971787A (zh) * 2010-10-29 2013-03-13 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
CN102982811A (zh) * 2012-11-24 2013-03-20 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
US20180358005A1 (en) * 2015-12-01 2018-12-13 Fluent.Ai Inc. System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
CN105529028A (zh) * 2015-12-09 2016-04-27 百度在线网络技术(北京)有限公司 语音解析方法和装置
CN108292500A (zh) * 2015-12-22 2018-07-17 英特尔公司 用于使用语法一致性的句尾检测的技术
JP2017228272A (ja) * 2016-06-17 2017-12-28 パナソニックIpマネジメント株式会社 意味生成方法、意味生成装置及びプログラム
CN107665704A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备
CN107919130A (zh) * 2017-11-06 2018-04-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
JP2019179064A (ja) * 2018-03-30 2019-10-17 日本放送協会 音声合成装置、音声モデル学習装置およびそれらのプログラム
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114078474A (zh) * 2021-11-09 2022-02-22 京东科技信息技术有限公司 基于多模态特征的语音对话处理方法、装置和电子设备
WO2023082752A1 (zh) * 2021-11-09 2023-05-19 京东科技信息技术有限公司 基于多模态特征的语音对话处理方法、装置和电子设备
CN114242113A (zh) * 2021-12-16 2022-03-25 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN114242113B (zh) * 2021-12-16 2023-08-08 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN114385800A (zh) * 2021-12-17 2022-04-22 阿里巴巴(中国)有限公司 语音对话方法和装置
CN114049885A (zh) * 2022-01-12 2022-02-15 阿里巴巴达摩院(杭州)科技有限公司 标点符号识别模型构建方法和装置

Similar Documents

Publication Publication Date Title
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN106940998B (zh) 一种设定操作的执行方法及装置
WO2017076222A1 (zh) 语音识别方法及装置
CN102971787B (zh) 录音结束点检测方法及系统
CN102982811B (zh) 一种基于实时解码的语音端点检测方法
CN110706690A (zh) 语音识别方法及其装置
JP7365985B2 (ja) 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN108877778A (zh) 语音端点检测方法及设备
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN112825248B (zh) 语音处理方法、模型训练方法、界面显示方法及设备
CN110827795A (zh) 语音输入结束判断方法、装置、设备、系统以及存储介质
JP2018523156A (ja) 言語モデルスピーチエンドポインティング
KR20160145634A (ko) 사용자 정의된 키워드를 검출하기 위한 키워드 모델 생성
CN110097870B (zh) 语音处理方法、装置、设备和存储介质
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
US20180301144A1 (en) Electronic device, method for adapting acoustic model thereof, and voice recognition system
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
US20230368796A1 (en) Speech processing
CN114708856A (zh) 一种语音处理方法及其相关设备
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
CN112863496B (zh) 一种语音端点检测方法以及装置
CN116994570A (zh) 语音识别模型的训练方法和装置、语音识别方法和装置
CN113160854B (zh) 语音交互系统、相关方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056173

Country of ref document: HK