CN113284496B - 语音控制方法、语音控制系统、车辆、服务器和存储介质 - Google Patents

语音控制方法、语音控制系统、车辆、服务器和存储介质 Download PDF

Info

Publication number
CN113284496B
CN113284496B CN202110828693.3A CN202110828693A CN113284496B CN 113284496 B CN113284496 B CN 113284496B CN 202110828693 A CN202110828693 A CN 202110828693A CN 113284496 B CN113284496 B CN 113284496B
Authority
CN
China
Prior art keywords
streaming text
current
current streaming
prediction result
parameter threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110828693.3A
Other languages
English (en)
Other versions
CN113284496A (zh
Inventor
赵耀
翁志伟
易晖
李晨延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202110828693.3A priority Critical patent/CN113284496B/zh
Publication of CN113284496A publication Critical patent/CN113284496A/zh
Application granted granted Critical
Publication of CN113284496B publication Critical patent/CN113284496B/zh
Priority to PCT/CN2022/104416 priority patent/WO2023000993A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开一种语音控制方法、语音控制系统、车辆、服务器以及存储介质。语音控制方法,包括:处理接收到的语音请求以生成当前流式文本;根据当前流式文本,获得预测结果,预测结果包括预测当前流式文本的下一字符是否为结束符的参数;根据当前流式文本对应的流量占比,获得当前参数阈值,流量占比与对流式文本进行自然语言理解的请求量相关;当预测结果符合预设判停条件时,对当前流式文本进行自然语言理解;当预测结果不符合预设判停条件时,对当前流式文本进行丢弃。上述语音控制方法,通过根据不同情况设定不同预设判停条件,从而有效减少流式文本进行自然语言理解的流量,降低流量成本并能够根据情况不同调整对流量的不同约束情况。

Description

语音控制方法、语音控制系统、车辆、服务器和存储介质
技术领域
本发明涉及语音技术领域,特别涉及一种语音控制方法、语音控制系统、车辆、服务器和存储介质。
背景技术
在流式语音交互系统中,语音被分割成不间断的小块,在流式收音的过程中,文本转换也在同步进行。自然语言理解模块会在VAD尾帧截断前收到多个流式语音转换后的文本,这会导致自然语言理解模块的流量会急剧增长。
在车载环境下,流量还用于自动驾驶、人车交互等诸多环节,流量的增加不仅可能影响其他需要流量的功能实现,还会引起硬件成本的上升和软件处理速度的下降。因此,流式语音交互系统中,降低因流量增长所导致的成本上升成为业内急需解决的难题。
发明内容
本发明的实施方式提供一种语音控制方法、语音控制系统、车辆、服务器和存储介质。
本发明实施方式的一种语音控制方法,包括:
处理接收到的语音请求以生成当前流式文本;
根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本的下一字符是否为结束符的参数;
根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关;
当所述预测结果符合预设判停条件时,对所述当前流式文本进行自然语言理解,所述预设判停条件与所述当前参数阈值相关;
当所述预测结果不符合所述预设判停条件时,对所述当前流式文本进行丢弃。
在某些实施方式中,所述预测结果包括结束预测结果和信息熵预测结果,所述根据所述当前流式文本,获得预测结果,包括:
根据所述当前流式文本,获得所述结束预测结果,所述结束预测结果包括预测所述当前流式文本的下一字符为结束符号的概率参数;
根据所述当前流式文本,获得所述信息熵预测结果,所述信息熵预测结果包括预测所述当前流式文本的下一字符的信息熵参数。
在某些实施方式中,所述当前参数阈值包括结束参数阈值以及信息熵参数阈值,当所述预测结果符合预设判停条件时,对所述当前流式文本进行自然语言理解包括:
当所述概率参数大于所述结束参数阈值且所述信息熵参数小于所述信息熵参数阈值时,对所述当前流式文本进行自然语言理解。
在某些实施方式中,所述语音控制方法,包括:
每隔一更新周期,更新所述流量占比,以将最近更新的所述流量占比作为所述当前流式文本对应的流量占比。
在某些实施方式中,所述每隔一更新周期,更新所述流量占比,包括:
每隔一更新周期,获取最近第一统计周期内的总流量和最近第二统计周期内的段流量,所述总流量包括在所述第一统计周期内对历史流式文本进行自然语言理解的请求量,所述段流量包括在所述第二统计周期内对所述历史流式文本进行自然语言理解的请求量;
根据所述段流量与所述总流量的比值,获得所述流量占比。
在某些实施方式中,根据所述当前流式文本对应的流量占比,获得当前参数阈值,包括:
根据所述当前流式文本对应的流量占比和流量占比与参数阈值的预设对应关系,获得所述当前参数阈值。
在某些实施方式中,根据所述当前流式文本对应的流量占比和流量占比与参数阈值的预设对应关系,获得所述当前参数阈值,包括:
根据所述当前流式文本对应的流量占比和所述预设对应关系,确定所述当前流式文本对应的流量占比和预设流量占比的比例关系,以及所述当前流式文本对应的参数阈值;
根据所述比例关系和所述参数阈值,确定所述当前参数阈值。
本发明实施方式的一种语音控制系统,包括:
语音识别模块,用于处理接收到的语音请求以生成当前流式文本;
流量约束模块,用于根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本下一字符是否为结束符的参数,及根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关,及当所述预测结果不符合预设判停条件时,对所述当前流式文本进行丢弃,所述预设判停条件与所述当前参数阈值相关;
自然语言理解模块,用于当所述预测结果符合所述预设判停条件时,对所述当前流式文本进行自然语言理解。
本发明实施方式的一种车辆,包括:
语音识别模块,用于处理接收到的语音请求以生成当前流式文本;
流量约束模块,用于:
根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本的下一字符是否为结束符的参数;
根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关;
当所述预测结果符合预设判停条件时,将所述当前流式文件发送至服务器,以使所述服务器对所述当前流式文本进行自然语言理解,所述预设判停条件与所述当前参数阈值相关;
当所述预测结果不符合所述预设判停条件时,对所述当前流式文本进行丢弃。
本发明实施方式的一种服务器,包括:
流量约束模块,用于接收当前流式文本,根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本的下一字符是否为结束符的参数,及根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关,及当所述预测结果不符合预设判停条件时,对所述当前流式文本进行丢弃,所述预设判停条件与所述当前参数阈值相关;
自然语言理解模块,用于当所述预测结果符合所述预设判停条件时,对所述当前流式文本进行自然语言理解。
上述语音控制方法、语音控制系统、车辆、服务器和计算机可读存储介质,通过根据用车高峰期、用车平峰期等不同流量占比情况对应不同的参数阈值,从而根据不同情况使用不同预设判停条件,当预测结果符合预设判停条件时,则对当前流式文本进行自然语言理解,当预测结果不符合预设判停条件时,则暂不进行语音理解,如此设置,降低了每次接收流式文本都要进行一遍自然语言理解的概率,从而有效减少流式文本进行自然语言理解的流量,降低流量成本,此外,在车载环境下,可以达到在用车高峰期时加强对流量的约束,在用车平峰期时放开对流量的约束的效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的语音控制方法的流程示意图;
图2是本发明实施方式的语音控制方法的另一流程示意图;
图3是本发明实施方式的语音控制方法的又一流程示意图;
图4是本发明实施方式的语音控制方法的再一流程示意图;
图5是本发明实施方式的语音控制系统的模块示意图;
图6是本发明实施方式的车辆的模块示意图;
图7是本发明实施方式的服务器的模块示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的实施方式的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本发明实施方式提供的一种语音控制方法,包括:
步骤S10,处理接收到的语音请求以生成当前流式文本;
步骤S20,根据当前流式文本,获得预测结果,预测结果包括预测当前流式文本下一字符是否为结束符的参数;
步骤S30,根据当前流式文本对应的流量占比,获得当前参数阈值,流量占比与对流式文本进行自然语言理解的请求量相关;
步骤S40,当预测结果符合预设判停条件时,对当前流式文本进行自然语言理解,预设判停条件与当前参数阈值相关;
步骤S50,当预测结果不符合预设判停条件时,对当前流式文本进行丢弃。
上述语音控制方法,通过根据用车高峰期、用车平峰期等不同流量占比情况对应不同的参数阈值,从而根据不同情况使用不同预设判停条件,当预测结果符合预设判停条件时,则对当前流式文本进行自然语言理解,当预测结果不符合预设判停条件时,则暂不进行语音理解,如此设置,降低了每次接收流式文本都要进行一遍自然语言理解的概率,从而有效减少流式文本进行自然语言理解的流量,降低流量成本,此外,在车载环境下,可以达到在用车高峰期时加强对流量的约束,在用车平峰期时放开对流量的约束的效果。
具体地,相关技术中的语音控制方法,对流式文本的自然语言理解有两种方式,一种方法是每生成一个流式文本即进行一遍自然语言理解,该种方法会导致自然语言理解模块的流量急剧增大;另一种方法是在VAD(Voice Activity Detection,VAD,语音活动检测)尾帧截断前多个流式文本一起进行自然语言理解,该种方式又会导致自然语言理解的延迟较大。
本发明实施方式的语音控制方法,根据不同情况进行不同操作,当预测结果符合预设判停条件时,可以认为当前流式文本已结束的概率很大,因而及时对当前流式文本进行自然语言理解,当预测结果不符合预设判停条件时,可以认为当前流式文本未结束的概率较大,因而对当前流式文本进行丢弃,直到可以认为当前流式文本已结束的概率很大再进行自然语言理解,以降低自然语言理解模块300的流量。
语音请求包括多个流式语音,流式文本为将流式语音进行文本转换后得到的文本。例如,语音请求为“导航回家”,则流式语音为音频“到”、音频“导航”、音频“导航回”、音频“导航回家”,则流式文本为文本“到”、文本“导航”、文本“导航回”、文本“导航回家”。流式文本中,正在通过语音控制方法进行处理的流式文本,为当前流式文本,当前流式文本之前的流式文本,为历史流式文本。
在某些实施方式中,请参阅图2,预测结果包括结束预测结果和信息熵预测结果,步骤S20,包括:
步骤S21,根据当前流式文本,获得结束预测结果,结束预测结果包括预测当前流式文本的下一字符为结束符号的概率参数;
步骤S23,根据当前流式文本,获得信息熵预测结果,信息熵预测结果包括预测当前流式文本的下一字符的信息熵参数。
如此,通过概率参数以及信息熵参数来表示当前流式文本是否已结束。
具体的,可以使用因果语言建模方法获得概率参数以及信息熵参数。因果预言建模是指预测文本的从左到右的下一个字的概率分布。因果预言建模问题可以定义为:
Figure 248257DEST_PATH_IMAGE001
其中, ci表示一句话中的第i个字,V表示常用汉字词表。即在c1,c2,…,ci-1都发生的情况下,第i个字为vm的概率。因果语言建模可以通过统计学方法,如n-gram,也可以通过深度学习模型,如CNN、RNN、Transformer、LSTM等方式实现,在此就不一一列举了。
本发明实施方式中,而结束预测结果可以定义为:
Figure 227714DEST_PATH_IMAGE002
其中,veos表示结束符号,即在c1,c2,…,ci-1都发生的情况下,第i个字为结束符号的概率。
信息熵是用来描述信源的不确定度,可以将信息熵理解成某种特定信息的出现概率。信息熵的公式为:
Figure 7451DEST_PATH_IMAGE003
信息熵的大小可以用来描述一个事情的不确定程度,信息熵越大,事情越不确定。例如,当n=3,p(x1)=0.33,p(x2)=0.33,p(x3)=0.34时,信息熵的值会较大,而当p(x1)=1,p(x2)=0,p(x3)=0时,信息熵的值会较小。
在本发明实施方式中,信息熵预测结果可以定义为:
Figure 462048DEST_PATH_IMAGE004
即在c1,c2,…,ci-1都发生的情况下,第i个字为vm的概率的不确定程度。在信息熵预测结果较大时,可以认为第i个字是常用汉字词表中的哪一个字的概率分布比较分散,在信息熵预测结果较小时,意思为第i个字是常用汉字词表中的某一字的概率很大,而是常用汉字词表中其他字的概率很小。
进一步地,参数阈值包括结束参数阈值以及信息熵参数阈值,步骤S40,包括:
步骤S41,当概率参数大于结束参数阈值且信息熵参数小于信息熵参数阈值时,对当前流式文本进行自然语言理解。
如此,预测当前流式文本已结束,以及时对当前流式文本进行自然语言理解。
具体的,当概率参数较高时,意味着当前流式文本的下一字符为结束字符的概率较高,当信息熵参数较低时,意味着预测当前流式文本下一字符是哪一字符的可能的结果较为集中,从而可以表示当前流式文本下一字符是哪一字符的结果较为准确,因而结束字符的概率较高加上当前预测结果较为准确,以预测当前流式文本已结束,而结束参数阈值用于衡量结束预测结果代表的概率是否足够大,信息熵参数阈值用于衡量信息熵预测结果是否足够小。
当概率参数较低,而信息熵参数较低时,代表着当前流式文本的下一字符是结束符的概率不高,但是当前流式文本的下一字符是常用汉字表中其他字符的概率很高;当概率参数较高,但信息熵参数较高时,代表当前流式文本的下一字符是结束符的概率较高,但是当前流式文本的下一字符是常用汉字表中其他某个或某几个字符的概率与当前流式文本的下一字符是结束符的概率差不多,因而暂不判定当前流式文本已结束;当概率参数较低,且信息熵参数较高时,代表着当前流式文本的下一字符是结束符的概率不高,而且当前流式文本的下一字符是常用汉字表中其他字符的概率很分散,较难预测当前流式文本的下一字符是哪个字符。
为方便理解,下面进行举例说明:
用户的语音请求是“导航回家”,车辆采集到该语音请求后将语音请求转发至语音服务器,因为服务器对语音请求进行语音识别是接收到一个字就进行识别,因而产生的流式文本为四个,分别是“到”、“导航”、“导航回”、“导航回家”。
生成当前流式文本为“到”,根据当前流式文本“到”,获得结束预测结果为0.02,信息熵预测结果为15.7;
根据当前流式文本“到”对应的流量占比和历史参数阈值,获得结束参数阈值为0.9,信息熵参数阈值为2.0;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“到”丢弃;
生成当前流式文本为“导航”,根据当前流式文本“导航”,获得结束预测结果为0.34,信息熵预测结果为3.9;
根据当前流式文本“导航”对应的流量占比和历史参数阈值,获得结束参数阈值为0.9,信息熵参数阈值为2.0;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“导航”丢弃;
生成当前流式文本为“导航回”,根据当前流式文本“导航回”,获得结束预测结果为0.02,信息熵预测结果为1.7;
根据当前流式文本“导航回”对应的流量占比和历史参数阈值,获得结束参数阈值为0.9,信息熵参数阈值为2.0;
概率参数小于结束阈值结果但信息熵参数小于信息熵参数阈值,对当前流式文本“导航回”丢弃;
生成当前流式文本为“导航回家”,根据当前流式文本“导航回家”,获得结束预测结果为0.99,信息熵预测结果为1.2;
根据当前流式文本“导航回家”对应的流量占比和历史参数阈值,获得结束参数阈值为0.9,信息熵参数阈值为2.0;
概率参数大于结束阈值结果且信息熵参数小于信息熵参数阈值,对当前流式文本“导航回家”进行自然语言理解。
在某些实施方式中,语音控制方法,包括:
步骤S60,每隔一更新周期,更新流量占比,以将最近更新的流量占比作为与当前流式文本对应的流量占比。
如此,使得当前流式文本对应的流量占比更贴近处理当前流式文本时的情况。
具体的,更新周期可以是十分钟、十五分钟、三十分钟等,其根据需要进行调整。
进一步的,请参阅图3,步骤S60,包括:
步骤S61,每隔一更新周期,获取最近第一统计周期内的总流量和最近第二统计周期内的段流量,总流量包括在第一统计周期内对历史流式文本进行自然语言理解的请求量,段流量包括在第二统计周期内对历史流式文本进行自然语言理解的请求量;
步骤S63,根据段流量与总流量的比值,获得流量占比。
如此,可以通过计算段流量与总流量的比值,获得流量占比,为获得当前参数阈值提供依据。
具体的,流量可以理解为进行自然语言理解的请求量,例如,当前流式文本“导航回家”请求进行自然语言理解,则请求量为1;又如,流式文本“到”、“导航”、“导航回”、“导航回家”皆请求一次自然语言理解,则请求量为4。
第一统计周期的时间可以为1天、1周等,第二统计周期的时间可以为十分钟、二十分钟、半个小时等。第一统计周期的时间应较长以使得第一统计周期的数据较为稳定,不会受短时间内是否是流量高峰期的印象,即无论何时段为流量高峰期,1天或1周时间内的总流量值相对稳定。第二统计周期的时间应较短,以使得能够通过第二统计周期表现出当前是否是流量高峰期,通过将较短时间的第二统计周期的自然语言理解请求量与较长时间的第一统计周期的自然语言理解请求量比值,用较短时间与较长时间的比例这一相对值表明当前是否为流量高峰期,避免了因为整体请求量增大或减少,而导致的判断流量高峰期不准确的问题。
不同的流量占比,获得不同的当前参数阈值,从而使得在流量高峰期、流量平峰期获得不同的当前参数阈值,使得在流量高峰期能够减少进行自然语言理解的请求量,而在流量平峰期适当增加进行自然语言理解的请求量。
具体的,在下面进行举例说明:
用户的语音请求为“打开空调”,车辆采集到该语音请求后将语音请求转发至语音服务器,因为服务器对语音请求进行语音识别是接收到一个字就进行识别,因而产生的流式文本为四个,分别是“打”、“打开”、“打开空”、“打开空调”。设定四个流式文本对应同一流量占比,为流量高峰期时的流量占比,此时根据当前流式文本对应的流量占比和历史参数阈值,获得当前结束参数阈值为0.9,信息熵参数阈值为2.0,则:
生成当前流式文本为“打”,根据当前流式文本“打”,获得结束预测结果为0.01,信息熵预测结果为6.9;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“打”丢弃;
生成当前流式文本为“打开”,根据当前流式文本“打开”,获得结束预测结果为0.08,信息熵预测结果为5.6;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“打开”丢弃;
生成当前流式文本为“打开空”,根据当前流式文本“打开空”,获得结束预测结果为0.01,信息熵预测结果为1.7;
概率参数小于结束阈值结果但信息熵参数小于信息熵参数阈值,对当前流式文本“打开空”丢弃;
生成当前流式文本为“打开空调”,根据当前流式文本“打开空调”,获得结束预测结果为0.87,信息熵预测结果为1.55;
概率参数小于结束阈值结果但信息熵参数小于信息熵参数阈值,对当前流式文本“打开空调”丢弃。
在某一实施方式中,以用户做出的语音请求为“打开空调”为例,当前流式文本对应的流量占比,为流量平峰期时的流量占比,此时根据当前流式文本对应的流量占比和历史参数阈值,获得当前结束参数阈值为0.8,信息熵参数阈值为1.8,则:
生成当前流式文本为“打”,根据当前流式文本“打”,获得结束预测结果为0.01,信息熵预测结果为6.9;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“打”丢弃;
生成当前流式文本为“打开”,根据当前流式文本“打开”,获得结束预测结果为0.08,信息熵预测结果为5.6;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“打开”丢弃;
生成当前流式文本为“打开空”,根据当前流式文本“打开空”,获得结束预测结果为0.01,信息熵预测结果为1.7;
概率参数小于结束阈值结果但信息熵参数小于信息熵参数阈值,对当前流式文本“打开空”丢弃;
生成当前流式文本为“打开空调”,根据当前流式文本“打开空调”,获得结束预测结果为0.87,信息熵预测结果为1.55;
概率参数小于结束阈值结果且信息熵参数大于信息熵参数阈值,对当前流式文本“打开空调”进行自然语言理解。
在某个实施方式中,第一周期为半个小时,第一周期为一天,第二周期为40分钟,即每隔半个小时,则用最近四十分钟的段流量与最近24小时的总流量相比,获得流量占比。值得注意的是,在例如在第45分钟时进行处理的当前流式文本,因为当前流式文本所处的时间的流量占比,要在第一个小时的时候才会进行更新,因而在第45分钟时的当前流式文本对应的是第30分钟时更新的流量占比。
在某些实施方式中,步骤S30,包括:
步骤S31:根据当前流式文本对应的流量占比和流量占比与参数阈值的预设对应关系,获得当前参数阈值。
如此,根据当前流式文本对应的流量占比、预设的流量占比与参数阈值的对应关系,就可以获得当前参数阈值。
具体的,请参阅图4,步骤S31,包括:
步骤S311,根据当前流式文本对应的流量占比和预设对应关系,确定当前流式文本对应的流量占比和预设流量占比的比例关系,以及当前流式文本对应的参数阈值;
步骤S313,根据比例关系和参数阈值,确定当前参数阈值。
如此,通过当前流式文本对应的流量占比和预设对应关系,确定当前参数阈值。
具体的,可以根据当前流式文本对应的流量占比,获得与流量占比较为接近的预设流量占比,根据预设流量占比与预设参数阈值的对应关系以及预设流量占比与当前流式文本对应的流量占比的比例关系,获得当前流式文本对应的当前参数阈值。
在一实施方式中,预设流量占比有两个,则比例关系可以通过将当前流式文本对应的流量占比分别与两预设的流量占比做差值,将两差值相比,获得比例关系,根据比例关系,对两预设的流量占比对应的两参数阈值加权计算,获得当前参数阈值。
在某一实施方式中,流量占比为1.4,与流量占比对应的两组训练流量占比分别为1和2,训练流量占比为1的训练参数阈值中,结束参数阈值为1,信息熵参数阈值为1;训练流量占比为2的训练参数阈值中,结束参数阈值为2,信息熵参数阈值为2;则计算流量占比与两训练流量占比之间差值的比例,即(1.4-1):(2-1.4),即2:3,将两结束参数阈值以及信息熵参数阈值分别乘以2/(2+3)、3/(2+3)再相加,距离流量占比近的训练流量占比对应的结束参数阈值以及信息熵参数阈值乘以较大的比例,最终获得与流量占比对应的历史参数阈值,历史参数阈值的结束参数阈值为1*3/5+2*2/5=1.4,信息熵参数阈值为1*3/5+2*2/5=1.4。
值得说明的是,可以通过预设模型获得与预设流量占比对应的预设参数阈值,在一个实施方式中,预设模型的训练方法可以包括:
步骤S71,设定训练流量占比,根据训练流量占比,获得流量参数;
步骤S72,设定训练流式文本;
步骤S73,对训练流式文本进行自然语言理解,获得第一流量值和第一延迟值,第一流量值表示训练流式文本进行自然语言理解的请求量,第一延迟值表示进行自然语言理解的延迟时间;
步骤S74,根据训练流式文本,获得预测结果;
步骤S75,设定多个训练参数阈值,根据多个训练参数阈值,获得多个与训练参数阈值对应的多个第二流量值与多个第二延迟值,第二流量值表示进行自然语言理解的请求量,第二延迟值表示进行自然语言理解的延迟时间;
步骤S76,根据第一流量值、第一延迟值、多个第二流量值、多个第二延迟值以及流量参数,获得与多个训练参数阈值对应的多个目标值。
重复步骤S72至步骤S76,设定不同的训练流式文本,通过不同的训练流式文本对应的不同目标值,获得该训练流量占比对应的训练参数阈值。
再重复步骤S71,以得到各训练流量占比对应的训练参数阈值,获得预设模型。
从而,根据当前流式文本对应的流量占比,在各训练流量占比中查找与当前流式文本相近的训练流量占比,查找到的训练流量占比可称为预设流量占比。值得说明的是,在当前流式文本对应的流量占比的第一统计周期和第二统计周期与训练流量占比的第一统计周期和第二统计周期均相同时,可以根据当前流式文本对应的流量占比的数值,在各训练流量占比中寻找与当前流式文本对应的流量占比的数值最接近的两个训练流量占比作为对应的预设流量;也可以将当前流式文本对应的流量占比换算为代表流量高峰期的程度,如,当前流式文本对应的流量占比代表流量高峰期、流量平峰期、流量低谷期等,将训练流量占比也换算为代表流量高峰期的程度,从而根据当前流式文本对应的流量占比代表的流量高峰期的程度,查找训练流量占比中与当前流式文本对应的流量占比代表的流量高峰期的程度相近的两训练流量占比作为对应的预设流量占比。
具体的,第一流量值用于表示不经过本实施方式的语音控制方法时,训练流式文本进行自然语言理解的请求量,第一延迟值用于表示不经过本实施方式的语音控制方法时,进行自然语言理解的延迟时间;每个训练参数阈值都对应一个第二流量值以及一个第二延迟值,第二流量值用于表示在训练参数阈值下,经过本实施方式的语音控制方法的训练流式文本进行自然语言理解的请求量,第二延迟值用于表示,在训练参数阈值下,经过本实施方式的语音控制方法的训练流式文本进行自然语言理解的延迟时间。目标值与第二流量值以及第二延迟值对应,因而目标值业余训练参数阈值对应,即目标值代表了训练参数阈值在进行自然语言理解的请求量以及在进行自然语言理解的延迟时间方面的表现。在某些实施方式中,可以设定目标值越高,则该训练参数阈值的表现越好,则目标值最高的训练参数阈值与该训练流量占比对应。
步骤S71至步骤S76可以称为阈值调节的离线部分,该离线部分通过设定多个训练流量占比,对每个训练流量占比进行离线训练,得到每个训练流量占比的最佳阈值组合,即得到每个训练流量占比对应的训练参数阈值。离线训练可以采用贝叶斯调参的方式进行。
进一步的,步骤S76,包括:
步骤S761,根据第一流量值、第一延迟值、多个第二流量值、多个第二延迟值,获得多个流量差值以及多个延迟差值,流量差值表示第二流量值与第一流量值的差值,延迟差值表示第二延迟值与第一延迟值的差值;
步骤S763,根据多个延迟差值、多个流量差值以及流量参数,获得与多个训练参数阈值对应的多个目标值。
如此,能够根据第一流量值、第一延迟值、多个第二流量值、多个第二延迟值以及流量参数获得多个目标值,为获得训练流量占比对应的训练参数阈值提供依据。
具体的,在某些实施方式中,延迟差值用于表示第二延迟值相比于第一延迟值增大的延迟,延迟差值的单位可以是毫秒,流量差值用于表示第二流量值相比于第一流量值减少的流量,根据延迟差值、流量差值以及流量参数,获得与训练参数阈值对应的目标值可以表示为:
goal = w * 流量差值 - 延迟差值
其中,goal 表示该目标值。w是一个正数,其代表对流量增大的容忍程度,w越大,容忍程度越低。延迟差值的单位可以为毫秒,流量差值为流量减少的次数,没有单位,因而w的单位可以为毫秒,goal的单位也为毫秒。流量差值可以用来表示判断流式文本是否已结束时,判断正确的收益,因为判断正确可以增大流量差值,延迟差值可以用来表示判断流式文本是否已结束时,判断错误的后果,因为判断错误会增大延迟差值。不同的w可以对应不同的流量占比,因为流量高峰期,需要尽量减少进行自然语言理解请求量,增大流量差值,因而w可以较低,而流量平峰期,自然语言理解请求量不多,可以接受增加自然语言理解请求量减少延迟的情况,因而w可以较高。
请参阅图5,本发明实施方式的一种语音控制系统1000,包括:
语音识别模块100,用于处理接收到的语音请求以生成当前流式文本;
流量约束模块200,用于根据当前流式文本,获得预测结果,预测结果包括预测当前流式文本下一字符是否为结束符的参数,及根据当前流式文本对应的流量占比和历史参数阈值,获得当前参数阈值,流量占比与对流式文本进行自然语言理解的请求量相关,及当预测结果不符合预设判停条件时,对当前流式文本进行丢弃,预设判停条件与当前参数阈值相关;
自然语言理解模块300,用于当预测结果符合当前参数阈值时,对当前流式文本进行自然语言理解。
上述语音控制系统1000通过根据用车高峰期、用车平峰期等不同流量占比情况对应不同的参数阈值,从而根据不同情况使用不同预设判停条件,当预测结果符合预设判停条件时,则对当前流式文本进行自然语言理解,当预测结果不符合预设判停条件时,则暂不进行语音理解,如此设置,降低了每次接收流式文本都要进行一遍自然语言理解的概率,从而有效减少流式文本进行自然语言理解的流量,降低流量成本,此外,在车载环境下,可以达到在用车高峰期时加强对流量的约束,在用车平峰期时放开对流量的约束的效果。
具体的,当预测结果符合当前参数阈值时,流量约束模块将当前流式文本发给自然语言理解模块进行自然语言理解。
请参阅图6,本发明实施方式的一种车辆400,包括:
语音识别模块100,用于处理获取到的语音请求以生成当前流式文本;
流量约束模块200用于:
根据当前流式文本,获得预测结果,预测结果包括预测当前流式文本是否已结束的参数;
根据当前流式文本对应的流量占比和历史参数阈值,获得当前参数阈值,流量占比与对流式文本进行自然语言理解的请求量相关;
当预测结果符合当前参数阈值时,将当前流式文件发送至服务器,以使服务器500对当前流式文本进行自然语言理解;
当预测结果不符合当前参数阈值时,对当前流式文本进行丢弃。
上述车辆400通过根据用车高峰期、用车平峰期等不同流量占比情况对应不同的参数阈值,从而根据不同情况使用不同预设判停条件,当预测结果符合预设判停条件时,则将当前流式文本上传以进行自然语言理解,当预测结果不符合预设判停条件时,则暂不进行语音理解,如此设置,降低了每次接收流式文本都要进行一遍自然语言理解的概率,从而有效减少流式文本进行自然语言理解的流量,降低流量成本,此外,在车载环境下,可以达到在用车高峰期时加强对流量的约束,在用车平峰期时放开对流量的约束的效果。
具体地,车辆400包括但不限于语音采集模块,语音采集模块用于采集用户语音请求,语音采集模块将采集到的语音请求发送至语音识别模块100,语音识别模块100对获取到的语音请求生产当前流式文本。语音采集模块可包括麦克风和扬声器。
在图6中,服务器600包括自然语言理解模块300,自然语言理解模块300可对车辆400发送的流式文本进行自然语言理解,获取相应操作指令。服务器600将相应的操作指令下发至车辆400,由车辆400相应的实现部件执行该操作指令。
图6的车辆400与服务器600,可构成一个语音控制系统。
请参阅图7,本发明实施方式的一种服务器500,包括:
流量约束模块200,用于接收当前流式文本,根据当前流式文本,获得预测结果,预测结果包括预测当前流式文本的下一字符是否为结束符的参数,及根据当前流式文本对应的流量占比和历史参数阈值,获得当前参数阈值,流量占比与对流式文本进行自然语言理解的请求量相关,及当预测结果不符合预设判停条件时,对当前流式文本进行丢弃,所述预设判停条件与当前参数阈值相关;
自然语言理解模块300用于当预测结果符合预设判停条件时,对当前流式文本进行自然语言理解。
上述服务器500通过根据用车高峰期、用车平峰期等不同流量占比情况对应不同的参数阈值,从而根据不同情况使用不同预设判停条件,当预测结果符合预设判停条件时,则将当前流式文本上传以进行自然语言理解,当预测结果不符合预设判停条件时,则暂不进行语音理解,如此设置,降低了每次接收流式文本都要进行一遍自然语言理解的概率,从而有效减少流式文本进行自然语言理解的流量,降低流量成本,此外,在车载环境下,可以达到在用车高峰期时加强对流量的约束,在用车平峰期时放开对流量的约束的效果。
具体的,在图7中,车辆700包括但不限于语音采集模块和语音识别模块100,语音采集模块用于采集用户语音请求,语音采集模块将采集到的语音请求发送至车辆700的语音识别模块100,语音识别模块100对接收到的语音请求生产当前流式文本,语音识别模块100将当前流式文本发送至服务器500的流量约束模块200,流量约束模块200在预测结果不符合预设判停条件时,将流式文本丢弃;在预测结果符合预设判停条件时,将当前流式文本发给自然语言理解模块300进行自然语言理解,自然语言理解模块300通过自然语言理解获取相应操作指令。服务器500将相应的操作指令下发至车辆700,由车辆700相应的实现部件执行该操作指令。
图7中的车辆700和服务器500,可构成一个语音控制系统。
当预测结果符合当前参数阈值时,流量约束模块将当前流式文本发给自然语言理解模块进行自然语言理解。
本发明实施方式提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时,实现上述任一实施方式的语音控制方法的步骤。
上述存储介质,可处理接收到的语音请求以生成当前流式文本、根据当前流式文本,获得预测结果,预测结果包括预测当前流式文本的下一字符是否为结束符的参数、根据当前流式文本对应的流量占比和历史参数阈值,获得当前参数阈值,流量占比与进行自然语言理解的请求量相关、当预测结果符合当前参数阈值时,对当前流式文本进行自然语言理解、当预测结果不符合预设判停条件时,对当前流式文本进行丢弃。
计算机可读介质可以设在车辆400,也可以设在云端服务器500。车辆400能够与云端服务器500进行通讯来获取到相应的程序。可以理解,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
需要说明的是,上述对语音控制方法的实施方式和有益效果的说明,也适应于本发明实施方式的语音控制系统1000、车辆400、服务器500和计算机可读介质,为避免冗余,在此不再详细展开。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种语音控制方法,其特征在于,包括:
处理接收到的语音请求以生成当前流式文本;
根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本的下一字符是否为结束符的参数;
根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关;
当所述预测结果符合预设判停条件时,对所述当前流式文本进行自然语言理解,所述预设判停条件与所述当前参数阈值相关;
当所述预测结果不符合所述预设判停条件时,对所述当前流式文本进行丢弃。
2.根据权利要求1所述的语音控制方法,其特征在于,所述预测结果包括结束预测结果和信息熵预测结果,所述根据所述当前流式文本,获得预测结果,包括:
根据所述当前流式文本,获得所述结束预测结果,所述结束预测结果包括预测所述当前流式文本的下一字符为结束符号的概率参数;
根据所述当前流式文本,获得所述信息熵预测结果,所述信息熵预测结果包括预测所述当前流式文本的下一字符的信息熵参数。
3.根据权利要求2所述的语音控制方法,其特征在于,所述当前参数阈值包括结束参数阈值以及信息熵参数阈值,当所述预测结果符合预设判停条件时,对所述当前流式文本进行自然语言理解包括:
当所述概率参数大于所述结束参数阈值且所述信息熵参数小于所述信息熵参数阈值时,对所述当前流式文本进行自然语言理解。
4.根据权利要求1所述的语音控制方法,其特征在于,所述语音控制方法,包括:
每隔一更新周期,更新所述流量占比,以将最近更新的所述流量占比作为所述当前流式文本对应的流量占比。
5.根据权利要求4所述的语音控制方法,其特征在于,所述每隔一更新周期,更新所述流量占比,包括:
每隔一更新周期,获取最近第一统计周期内的总流量和最近第二统计周期内的段流量,所述总流量包括在所述第一统计周期内对历史流式文本进行自然语言理解的请求量,所述段流量包括在所述第二统计周期内对所述历史流式文本进行自然语言理解的请求量;
根据所述段流量与所述总流量的比值,获得所述流量占比。
6.根据权利要求1所述的语音控制方法,其特征在于,根据所述当前流式文本对应的流量占比,获得当前参数阈值,包括:
根据所述当前流式文本对应的流量占比和流量占比与参数阈值的预设对应关系,获得所述当前参数阈值。
7.根据权利要求6所述的语音控制方法,其特征在于,根据所述当前流式文本对应的流量占比和流量占比与参数阈值的预设对应关系,获得所述当前参数阈值,包括:
根据所述当前流式文本对应的流量占比和所述预设对应关系,确定所述当前流式文本对应的流量占比和预设流量占比的比例关系,以及所述当前流式文本对应的参数阈值;
根据所述比例关系和所述参数阈值,确定所述当前参数阈值。
8.一种语音控制系统,其特征在于,包括:
语音识别模块,用于处理接收到的语音请求以生成当前流式文本;
流量约束模块,用于根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本下一字符是否为结束符的参数,及根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关,及当所述预测结果不符合预设判停条件时,对所述当前流式文本进行丢弃,所述预设判停条件与所述当前参数阈值相关;
自然语言理解模块,用于当所述预测结果符合所述预设判停条件时,对所述当前流式文本进行自然语言理解。
9.一种车辆,其特征在于,包括:
语音识别模块,用于处理接收到的语音请求以生成当前流式文本;
流量约束模块,用于:
根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本的下一字符是否为结束符的参数;
根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关;
当所述预测结果符合预设判停条件时,将所述当前流式文件发送至服务器,以使所述服务器对所述当前流式文本进行自然语言理解,所述预设判停条件与所述当前参数阈值相关;
当所述预测结果不符合所述预设判停条件时,对所述当前流式文本进行丢弃。
10.一种服务器,其特征在于,包括:
流量约束模块,用于接收当前流式文本,根据所述当前流式文本,获得预测结果,所述预测结果包括预测所述当前流式文本的下一字符是否为结束符的参数,及根据所述当前流式文本对应的流量占比,获得当前参数阈值,所述流量占比与对流式文本进行自然语言理解的请求量相关,及当所述预测结果不符合预设判停条件时,对所述当前流式文本进行丢弃,所述预设判停条件与所述当前参数阈值相关;
自然语言理解模块,用于当所述预测结果符合所述预设判停条件时,对所述当前流式文本进行自然语言理解。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的语音控制方法的步骤。
CN202110828693.3A 2021-07-22 2021-07-22 语音控制方法、语音控制系统、车辆、服务器和存储介质 Active CN113284496B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110828693.3A CN113284496B (zh) 2021-07-22 2021-07-22 语音控制方法、语音控制系统、车辆、服务器和存储介质
PCT/CN2022/104416 WO2023000993A1 (zh) 2021-07-22 2022-07-07 语音控制方法、语音控制系统、车辆、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110828693.3A CN113284496B (zh) 2021-07-22 2021-07-22 语音控制方法、语音控制系统、车辆、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN113284496A CN113284496A (zh) 2021-08-20
CN113284496B true CN113284496B (zh) 2021-10-12

Family

ID=77287136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110828693.3A Active CN113284496B (zh) 2021-07-22 2021-07-22 语音控制方法、语音控制系统、车辆、服务器和存储介质

Country Status (2)

Country Link
CN (1) CN113284496B (zh)
WO (1) WO2023000993A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284496B (zh) * 2021-07-22 2021-10-12 广州小鹏汽车科技有限公司 语音控制方法、语音控制系统、车辆、服务器和存储介质
CN114822533B (zh) * 2022-04-12 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、模型训练方法、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086633A1 (en) * 2000-05-10 2001-11-15 Multimedia Technologies Institute - Mti S.R.L. Voice activity detection and end-point detection
CN108305628A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质
US10339957B1 (en) * 2016-12-20 2019-07-02 Amazon Technologies, Inc. Ending communications session based on presence data
CN110111775A (zh) * 2019-05-17 2019-08-09 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN112466296A (zh) * 2020-11-10 2021-03-09 北京百度网讯科技有限公司 语音交互的处理方法、装置、电子设备及存储介质
CN112581938A (zh) * 2019-09-30 2021-03-30 华为技术有限公司 基于人工智能的语音断点检测方法、装置和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP2018101905A (ja) * 2016-12-20 2018-06-28 シャープ株式会社 情報通信端末、情報通信端末の制御方法、およびプログラム
CN110612567A (zh) * 2017-05-12 2019-12-24 苹果公司 低延迟智能自动化助理
CN110782882B (zh) * 2019-11-04 2022-05-17 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN112735417B (zh) * 2020-12-29 2024-04-26 中国科学技术大学 语音翻译方法、电子设备、计算机可读存储介质
CN112735418B (zh) * 2021-01-19 2023-11-14 腾讯科技(深圳)有限公司 一种语音交互的处理方法、装置、终端及存储介质
CN112861548B (zh) * 2021-02-10 2023-06-23 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质
CN113284496B (zh) * 2021-07-22 2021-10-12 广州小鹏汽车科技有限公司 语音控制方法、语音控制系统、车辆、服务器和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086633A1 (en) * 2000-05-10 2001-11-15 Multimedia Technologies Institute - Mti S.R.L. Voice activity detection and end-point detection
US10339957B1 (en) * 2016-12-20 2019-07-02 Amazon Technologies, Inc. Ending communications session based on presence data
CN108305628A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备和存储介质
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN110111775A (zh) * 2019-05-17 2019-08-09 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质
CN112581938A (zh) * 2019-09-30 2021-03-30 华为技术有限公司 基于人工智能的语音断点检测方法、装置和设备
CN112466296A (zh) * 2020-11-10 2021-03-09 北京百度网讯科技有限公司 语音交互的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023000993A1 (zh) 2023-01-26
CN113284496A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN113284496B (zh) 语音控制方法、语音控制系统、车辆、服务器和存储介质
CA2575373C (en) A system and method for report level confidence
KR101699720B1 (ko) 음성명령 인식 장치 및 음성명령 인식 방법
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
CN103474069B (zh) 用于融合多个语音识别系统的识别结果的方法及系统
CN108304890B (zh) 一种分类模型的生成方法及装置
WO2022213787A1 (zh) 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品
WO2023125002A1 (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
CN115713939B (zh) 语音识别方法、装置及电子设备
WO2020198799A1 (en) Instant messaging/chat system with translation capability
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
CN116883781A (zh) 预训练模型的微调方法、装置、电子设备及存储介质
CN112509570B (zh) 语音信号处理方法、装置、电子设备及存储介质
CN111261149B (zh) 语音信息识别方法和装置
CN114023309A (zh) 语音识别系统、相关方法、装置及设备
CN111198669A (zh) 一种用于计算机的音量调节系统
EP4305619A2 (en) Generating output signals using variable-rate discrete representations
CN115394300B (zh) 语音交互方法、语音交互装置、车辆和可读存储介质
JP7508333B2 (ja) 計算機システム及び学習方法
US20230107695A1 (en) Fusion of Acoustic and Text Representations in RNN-T
CN118629407A (zh) 语音识别方法、装置、电子设备和存储介质
CN114005448A (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
CN115936024A (zh) 语音翻译方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant