CN116524916A - 一种语音处理方法、装置及车辆 - Google Patents

一种语音处理方法、装置及车辆 Download PDF

Info

Publication number
CN116524916A
CN116524916A CN202210066696.2A CN202210066696A CN116524916A CN 116524916 A CN116524916 A CN 116524916A CN 202210066696 A CN202210066696 A CN 202210066696A CN 116524916 A CN116524916 A CN 116524916A
Authority
CN
China
Prior art keywords
text information
voice
user
corpus
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210066696.2A
Other languages
English (en)
Inventor
唐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pateo Connect Nanjing Co Ltd
Original Assignee
Pateo Connect Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pateo Connect Nanjing Co Ltd filed Critical Pateo Connect Nanjing Co Ltd
Priority to CN202210066696.2A priority Critical patent/CN116524916A/zh
Publication of CN116524916A publication Critical patent/CN116524916A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种语音处理方法、装置及车辆,包括:在检测到第一用户语音的情况下,将第一用户语音识别为第一文本信息;在通过语料库无法匹配第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;在检测到用户配置语音的情况下,将用户配置语音中包含的执行指令与第一文本信息进行关联,得到关联结果;根据关联结果更新语料库。可以在不能识别用户语音指令的情况下,根据用户说出的用户配置语音,建立该语音指令与语料库中已经存在的执行指令的关联关系,通过该关联关系更新语料库后,使得终端设备可以根据不同用户的语言习惯进行学习,并不断丰富语料库,提升了用户进行语音功能控制的便利性。

Description

一种语音处理方法、装置及车辆
技术领域
本发明涉及计算机技术领域,特别涉及一种语音处理方法、装置及车辆。
背景技术
随着计算机技术的不断发展,人机交互方式也愈加丰富,人们可以根据自身的需求采用按键、触屏、语音等方式与计算机进行交互,以控制终端设备的各种功能。
相关技术中,如果用户需要通过语音控制终端设备的相应功能,需要说出语音指令,系统会将该语音指令与语料库中存储的指令进行匹配,如果可以匹配成功,则从语料库中获取对应的执行动作并控制终端设备对其进行执行。
但是,由于语料库中的指令有限,并不能很好适应不同用户的语言习惯,导致用户需要对终端设备配置的指令进行适应,在这个过程中,用户会经常因为未能说出指定的指令而导致终端设备执行出错或无法执行用户想要执行的功能。
发明内容
有鉴于此,本发明旨在提出一种语音处理方法、装置及车辆,以解决现有技术中用户难以适应语料库的指令而容易导致语音指令执行出错或不能执行的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种语音处理方法,所述方法包括:
在检测到第一用户语音的情况下,将所述第一用户语音识别为第一文本信息;
在通过语料库无法匹配所述第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;
在检测到用户配置语音的情况下,将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联,得到关联结果;
根据所述关联结果更新所述语料库。
在一种可选的实施方式中,所述根据所述关联结果更新所述语料库之后,所述方法还包括:
在检测到第二用户语音的情况下,将所述第二用户语音识别为第二文本信息;
在检测到所述第二文本信息与所述第一文本信息一致的情况下,获取所述第一文本信息对应的执行指令作为所述第二文本信息对应的执行指令;
执行与所述第二文本信息对应的执行指令。
在一种可选的实施方式中,所述方法还包括:
从所述语料库中查询所述第一文本信息,在所述语料库中不存在与所述第一文本信息相同的执行指令的情况下,则判定基于所述语料库无法匹配所述第一文本信息。
在一种可选的实施方式中,所述方法还包括:
对所述第一文本信息进行分词处理,得到所述第一文本信息对应的多个分词;
根据语法分析规则确定所述多个分词分别对应的词性;
根据所述多个分词分别对应的词性确定所述第一文本信息的文本语义特征;
将所述文本语义特征与所述语料库中的执行指令对应的指令语义特征进行比对,得到所述文本语义特征与所述指令语义特征的特征相似度;
在所述特征相似度小于预设特征相似度的情况下,判定通过语料库无法匹配所述第一文本信息。
在一种可选的实施方式中,所述方法还包括:
在通过语料库匹配到所述第一文本信息的情况下,确定与所述第一文本信息对应的执行指令,并执行与所述第一文本信息对应的执行指令。
在一种可选的实施方式中,所述根据所述关联结果更新所述语料库之后,所述方法还包括:
将所述关联结果上传至服务器;其中,所述服务器用于存储所述关联结果,并将所述关联结果同步至各终端对应的语料库。
在一种可选的实施方式中,所述将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联之前,所述方法还包括:
在检测到待定用户语音的情况下,将所述待定用户语音识别为目标文本信息;
在检测到所述目标文本信息中存在预设关键词的情况下,将所述待定用户语音确定为所述用户配置语音。
一种语音处理装置,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现上述方法中的步骤。
一种车辆,包括上述语音处理装置。
相对于现有技术,本发明所述的一种语音处理方法、装置及车辆具有以下优势:
综上,本发明实施例提供了一种语音处理方法,包括:在检测到第一用户语音的情况下,将第一用户语音识别为第一文本信息;在通过语料库无法匹配第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;在检测到用户配置语音的情况下,将用户配置语音中包含的执行指令与第一文本信息进行关联,得到关联结果;根据关联结果更新语料库。本发明实施例中,可以在不能识别用户语音指令的情况下,提示用户对该语音指令进行配置,并根据用户说出的用户配置语音,建立该语音指令与语料库中已经存在的执行指令的关联关系,通过该关联关系更新语料库后,可以使终端设备在下次接收到相同用户语音指令的情况下,执行相应的执行动作,使得终端设备可以根据不同用户的语言习惯进行学习,并不断丰富语料库,提升了用户进行语音功能控制的便利性。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种语音处理方法步骤流程图;
图2为本发明实施例提供的另一种语音处理方法步骤流程图;
图3为本发明实施例提供的一种语音处理装置的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
参照图1,示出了本发明实施例所述的一种语音处理方法步骤流程图。
本发明实施例提供的一种语音处理方法。
步骤101,在检测到第一用户语音的情况下,将所述第一用户语音识别为第一文本信息。
为了便于用户操作终端设备,可以在终端设备中搭载语音识别功能,终端设备根据语音识别结果执行相应的功能,例如,用户可以说出语音“播放下一首歌曲”,终端设备通过音频接收设备接收到该语音后,可以对该语音的声音信号进行识别,从而得到“播放下一首歌曲”的文本信息。其中,终端设备可以是车辆、移动电话、智能手表、电脑等具有数据处理能力的设备,本申请实施例在此并不进行具体限定。
具体的,终端设备可以设置语音识别唤醒词,并对环境声音进行持续监测,将环境声音与唤醒词进行比对,当环境声音中包含与唤醒词相似度超过预设相似度的声音信号后,开始录制环境声音,并录制环境声音中的第一用户语音,并对该第一用户语音进行语音识别,得到第一用户语音对应的第一文本信息识别结果。
步骤102,在通过语料库无法匹配所述第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音。
在识别出第一用户语音对应的第一文本信息后,可以将第一文本信息与语料库进行匹配,以确定第一文本信息对应的执行动作。在一种情况下,第一文本信息可以与语料库匹中的执行动作配成功,进而终端设备可以执行第一文本信息对应的执行动作。例如,对第一用户语音识别出的第一文本信息为“换一首歌”,将“换一首歌”与语料库的执行指令进行匹配后,确定第一文本信息“换一首歌”对应的执行动作为控制音乐应用程序切换下一个播放文件,则终端设备可以控制音乐应用执行该执行动作,以切换歌曲。
其中,语料库中存储有执行指令与执行动作的对应关系,不同的执行指令可以对应与同一个执行动作,例如,执行指令“打开车窗”对应的执行动作为控制车窗升降电机转动,执行指令“我想透透气”对应的执行动作也可以为控制车窗升降电机转动。
在另一种情况下,第一文本信息不能与语料库匹中的执行指令匹配成功,即,语料库中不存在与第一文本信息匹配的执行指令。此时终端设备无法确定第一用户语音所对应的执行动作,可以向用户发送回复消息,以提示用户输入用户配置语音。其中,用户配置语音用于建立第一文本信息与语料库中已经存在的执行指令的关联关系。终端设备回复消息的形式可以是声音提醒、灯光提醒、文字提醒、动画提醒、震动提醒中的一种或多种,本申请实施例在此并不进行具体限定。需要说明的是,在终端设备为车辆的情况下,可以优先选择声音提醒作为向用户发送回复消息的手段,以避免对驾驶员造成干扰。
示例性的,预设回复消息可以是“无法理解该语音,请说出需要关联的执行指令”、“请对该语音进行解释说明”等等。
步骤103,在检测到用户配置语音的情况下,将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联,得到关联结果。
在终端设备输出预设回复消息后,可以录制接下来的一整段完整语音作为用户配置语音,并对用户配置语音进行语音识别,并得到用户配置语音对应的配置文本信息,再将配置文本信息和语料库中的执行指令进行比对。根据比对结果建立第一文本信息与执行指令的关联关系。
由于在用户对第一文本信息进行解释的过程中,可能会加入解释性用语,例如,用户配置语音可能为“我的意思是打开车窗”或“我有点热就是想打开车窗”,因此,在将用户配置语音对应的用户配置文本和语料库中的执行指令匹配的过程中,可以进行部分匹配,即只要用户配置信息中的部分内容可以与一个完整的执行指令匹配即可匹配成功。举例来说,用户配置语音经过识别后得到的用户配置信息为“我的意思是打开车窗”,而语料库中存在执行指令“打开车窗”,则该用户配置信息可以与执行指令“打开车窗”匹配成功。
在用户配置语音识别得到的用户配置信息与语料库中的执行指令匹配成功的情况下,可以建立第一文本信息该执行指令的关联关系。举例来说,如果第一文本信息为“我有点热”,用户配置语音为“我的意思是打开车窗”,语料库中的执行指令“打开车窗”对应的执行动作为控制车窗升降电机转动,则该用户配置语音可以与语料库中的执行指令“打开车窗”匹配成功,则可以建立第一文本信息与执行指令“打开车窗”的关联关系,得到第一文本信息与执行指令“打开车窗”相关联的关联结果。
步骤104,根据所述关联结果更新所述语料库。
关联结果中包含一个语料库中不存在的执行指令与一个语料库中存在的第一文本信息的关联关系,因此,可以根据关联结果中的执行指令确定该执行指令在语料库中对应的执行动作,并将第一文本信息作为该执行动作的一个新的指令执行,添加至语料库中。这样,用户在下一次说出第一语音信息的情况下,第一文本信息便可以与语料库匹配成功,可以执行相应的执行动作。
综上所述,本发明实施例提供了一种语音处理方法,包括:在检测到第一用户语音的情况下,将第一用户语音识别为第一文本信息;在通过语料库无法匹配第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;在检测到用户配置语音的情况下,将用户配置语音中包含的执行指令与第一文本信息进行关联,得到关联结果;根据关联结果更新语料库。本发明实施例中,可以在不能识别用户语音指令的情况下,提示用户对该语音指令进行配置,并根据用户说出的用户配置语音,建立该语音指令与语料库中已经存在的执行指令的关联关系,通过该关联关系更新语料库后,可以使终端设备在下次接收到相同用户语音指令的情况下,执行相应的执行动作,使得终端设备可以根据不同用户的语言习惯进行学习,并不断丰富语料库,提升了用户进行语音功能控制的便利性。
参照图2,示出了本发明实施例所述的另一种语音处理方法步骤流程图。
步骤201,在检测到第一用户语音的情况下,将所述第一用户语音识别为第一文本信息。
考虑到车辆在行驶过程会产生较大的噪音,例如风噪、路噪、发动机噪音等,因此,为了提升语音识别的成功率,可以在将第一用户语音转换为第一文本信息之前,对第一用户语音进行去噪处理,再将去噪处理后的第一用户语音转换为第一文本信息。
对第一用户语音进行去噪处理的方式具体可以为:在车辆的轿厢内的多个位置设置多个麦克风,该多个麦克风可以同时获取包含第一用户语音和环境噪音的音频信号。由于该多个麦克风中,有的麦克风距离用户较远,有的距离用户较近,因此,各个麦克风获取的音频信号中第一用户语音的强弱会存在明显差异,而轿厢内各处的噪音水平相较而言差异并不明显,因此,可以将距离用户最近的麦克风的音频信号与距离用户最远的麦克风的音频信号作差,以消除两个音频信号中的环境噪音,仅保留两个音频信号中差异较大的第一用户语音。
在得到第一用户语音后,可以将第一用户语音输入语音识别模型进行语音识别,语音识别模型可以将输入的第一用户语音分割为音节单元,并将音节单元转换为特征矢量,并将特征矢量与模板库中的每个模板进行相似度比较,将相似度最高者作为音节单元的识别结果输出,最后讲这些结果进行组合便可以得到第一文本信息。需要说明的是,技术人员也可以根据需要选择其他的语音识别方式将第一用户语音识别为第一文本信息,本申请实施例在此并不进行具体限定。
步骤202,在通过语料库匹配到所述第一文本信息的情况下,确定与所述第一文本信息对应的执行指令,并执行与所述第一文本信息对应的执行指令。
在识别出第一用户语音对应的第一文本信息后,可以将第一文本信息与语料库进行匹配,以确定第一文本信息对应的执行动作。在一种情况下,第一文本信息可以与语料库匹中的执行动作配成功,进而终端设备可以执行第一文本信息对应的执行动作。例如,对第一用户语音识别出的第一文本信息为“换一首歌”,将“换一首歌”与语料库的执行指令进行匹配后,确定第一文本信息“换一首歌”对应的执行动作为控制音乐应用程序切换下一个播放文件,则终端设备可以控制音乐应用执行该执行动作,以切换歌曲。
步骤203,在通过语料库无法匹配所述第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音。
子步骤2031,从所述语料库中查询所述第一文本信息,在所述语料库中不存在与所述第一文本信息相同的执行指令的情况下,则判定基于所述语料库无法匹配所述第一文本信息。
第一文本信息不能与语料库匹中的执行指令匹配成功,即,语料库中不存在与第一文本信息匹配的执行指令。此时终端设备可以判定基于所述语料库无法匹配所述第一文本信息。
子步骤2032,对所述第一文本信息进行分词处理,得到所述第一文本信息对应的多个分词。
由于语言的丰富性,不同的文本信息可能表示了相同的意思,例如“开启车窗”和“打开车窗”虽然文本形式并不相同,但两者所要表达的意思是完全相同的。因此,如果仅根据第一文本信息能否与语料库中的执行指令精准匹配作为判定基于所述语料库是否可以匹配第一文本信息的依据,会导致大量的相同意思,但说法有所差异的第一文本信息被判定为基于所述语料库无法匹配。因此,还可以采用子步骤2032至2035的方法,基于第一文本信息的语义特征与执行指令的语义特征判定第一文本信息是否能够与语料库匹配。
具体的,可以首先对第一文本信息进行分词处理,具体可以将第一文本信息输入stanford、Hanlp等分词模型,分词模型通过训练好的分词器对第一文本信息进行分词处理,并输出对应的分词结果。例如,对于第一文本信息“开启车窗”,可以将其分为“开启”和“车窗”两个分词。
子步骤2033,根据语法分析规则确定所述多个分词分别对应的词性。
由于每个分词在具体的应用过程中可能具有多种词性,在不同词性条件下,分词所表达的语义也是截然不同的。
取决于所要确定的第一文本信息的语言,语法分析规则可以是基于汉语、英语或其他语言的语法确定。语法分析规则可以确定出各个分词的词性,并在分词具有多个词性的情况下,根据该分词前后分词的词性确定该分词的词性。其中,分词的词性可以是动词、名词等。
子步骤2034,根据所述多个分词分别对应的词性确定所述第一文本信息的文本语义特征。
根据每个分词的词性和分词本身,可以确定出分词在对应第一文本信息中的分词语义向量,在确定出第一文本信息中的每个分词对应的分词语义向量后,可以将各个分词语义向量进行相加处理,得到该第一文本信息对应的文本语义特征。也可以采用其他方式对第一文本信息中的各个分词的分词语义向量进行处理以确定第一文本信息的文本语义特征,本申请实施例并不进行具体限定。
子步骤2035,将所述文本语义特征与所述语料库中的执行指令对应的指令语义特征进行比对,得到所述文本语义特征与所述指令语义特征的特征相似度。
可以预先生成语料库中每条执行指令对应的指令语义特征。在确定出文本语义特征后,可以计算文本语义特征与每个指令语义特征之间的余弦距离,并根据余弦距离确定文本语义特征与每个指令语义特征的特征相似度。需要说明的是,特征相似度的确定方式并不限于通过余弦距离确定,技术人员可以采用其他方式确定特征相似度。
子步骤2036,在所述特征相似度小于预设特征相似度的情况下,判定通过语料库无法匹配所述第一文本信息。
由于语料库中存在多个执行指令,因此确定出的特征相似度也有多个,且与语料库中的执行指令一一对应,如果所有特征相似度均小于预设特征相似度,则可以判定通过语料库无法匹配所述第一文本信息。
需要说明的是,在本申请实施例中,还可以采用其他方式确定文本语义特征和指令语义特征。本申请实施例对此并不进行具体限定。
步骤204,在检测到待定用户语音的情况下,将所述待定用户语音识别为目标文本信息。
待定用户语音是终端设备向用户发出预设回复消息,以提示用户输入用户配置语音之后,第一时间获取到的用户语音。
由于用户行为的不确定性,在终端设备向用户发出预设回复消息,以提示用户输入用户配置语音之后,用户有可能响应该预设回复消息,说出复合规范的用户配置语音,也有可能说出与用户配置语音无关的内容,例如,在终端设备向用户发出预设回复消息,以提示用户输入用户配置语音之后,用户可能并未理会该预设回复消息,而是与周围的其他人进行交谈,此时终端设备获取到的语音便不能作为用户配置语音。
因此,在将所述用户配置语音中包含的执行指令与第一文本信息进行关联之前,还需要判断终端设备在向用户发出预设回复消息,以提示用户输入用户配置语音之后,获取到的待定用户语音是否为用户配置语音。
具体的,可以在终端设备向用户发出预设回复消息,以提示用户输入用户配置语音之后,获取待定用户语音,并将待定用户语音识别为目标文本信息。
步骤205,在检测到所述目标文本信息中存在预设关键词的情况下,将所述待定用户语音确定为所述用户配置语音。
为了防止错误理解用户意图,可以预先设置预设关键词,以通过预设关键词指示用户说出的待定用户语音是否为用户配置语音。在这种情况下,在向用户发出的预设回复消息中,可以附带预设关键词信息,例如,预设回复消息可以为:请您以“以后我说这个话术就帮我执行”作为开头说出需要关联的执行指令。也可以设置预设关键词词库,将目标文本信息与预设关键词词库中的多个预设关键词进行匹配,已确定待定用户语音是否为用户配置语音。预设关键词词库可以收录多种能够表示关联关系的字和或词语,例如“相当于”,“意思是”,“就是说”等等。
步骤206,在检测到用户配置语音的情况下,将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联,得到关联结果。
此步骤可参见步骤103本申请实施例不在赘述。
步骤207,根据所述关联结果更新所述语料库。
此步骤可参见步骤103本申请实施例不在赘述
步骤208,在检测到第二用户语音的情况下,将所述第二用户语音识别为第二文本信息。
在更新语料库后,可以获取第二用户语音,并将第二用语音识别为第二文本信息。
步骤209,在检测到所述第二文本信息与所述第一文本信息一致的情况下,获取所述第一文本信息对应的执行指令作为所述第二文本信息对应的执行指令。
如果第二文本信息与第一文本信息相同,则说明第一文本信息已经作为新的执行指令被更新到了语料库中,并和第一文本信息对应的执行指令关联的执行动作建立了关联关系,此时,可以直接将第一文本信息对应的执行指令作为所述第二文本信息对应的执行指令,即,执行语料库中与第二文本信息匹配的执行指令对应的执行动作。
步骤210,执行与所述第二文本信息对应的执行指令。
步骤211,将所述关联结果上传至服务器;其中,所述服务器用于存储所述关联结果,并将所述关联结果同步至各终端对应的语料库。
为了使不同用户可以共享对语料库的更新,例如,用户A将“我太热了”与“打开车窗”关联后,用户B也可以通过语音指令“我太热了”实现打开车窗的功能,可以在得到第一文本信息和语料库中现有的执行执行的关联结果后,将关联结果上传至服务器中,服务器再将该关键结果同步更新至多个终端设备的语料库中,已使各个终端的语料库可以实现更强的学习能力,为用户提供更加丰富的执行指令。
综上所述,本发明实施例提供了另一种语音处理方法,包括:在检测到第一用户语音的情况下,将第一用户语音识别为第一文本信息;在通过语料库无法匹配第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;在检测到用户配置语音的情况下,将用户配置语音中包含的执行指令与第一文本信息进行关联,得到关联结果;根据关联结果更新语料库。本发明实施例中,可以在不能识别用户语音指令的情况下,提示用户对该语音指令进行配置,并根据用户说出的用户配置语音,建立该语音指令与语料库中已经存在的执行指令的关联关系,通过该关联关系更新语料库后,可以使终端设备在下次接收到相同用户语音指令的情况下,执行相应的执行动作,使得终端设备可以根据不同用户的语言习惯进行学习,并不断丰富语料库,提升了用户进行语音功能控制的便利性。
参考图3,示出了本发明实施例所述的一种语音处理装置的结构框图:
第一识别模块301,用于在检测到第一用户语音的情况下,将所述第一用户语音识别为第一文本信息;
输出模块302,用于在通过语料库无法匹配所述第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;
关联模块303,用于在检测到用户配置语音的情况下,将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联,得到关联结果;
更新模块304,用于根据所述关联结果更新所述语料库。
在一种可选的实施方式中,所述装置还包括:
第二识别模块,用于在检测到第二用户语音的情况下,将所述第二用户语音识别为第二文本信息;
获取模块,用于在检测到所述第二文本信息与所述第一文本信息一致的情况下,获取所述第一文本信息对应的执行指令作为所述第二文本信息对应的执行指令;
第一执行模块,用于执行与所述第二文本信息对应的执行指令。
在一种可选的实施方式中,所述装置还包括:
第一判定模块,用于从所述语料库中查询所述第一文本信息,在所述语料库中不存在与所述第一文本信息相同的执行指令的情况下,则判定基于所述语料库无法匹配所述第一文本信息。
在一种可选的实施方式中,所述装置还包括:
分词模块,用于对所述第一文本信息进行分词处理,得到所述第一文本信息对应的多个分词;
词性模块,用于根据语法分析规则确定所述多个分词分别对应的词性;
特征模块,用于根据所述多个分词分别对应的词性确定所述第一文本信息的文本语义特征;
比对模块,用于将所述文本语义特征与所述语料库中的执行指令对应的指令语义特征进行比对,得到所述文本语义特征与所述指令语义特征的特征相似度;
第二判定模块,用于在所述特征相似度小于预设特征相似度的情况下,判定通过语料库无法匹配所述第一文本信息。
在一种可选的实施方式中,所述装置还包括:
第二执行模块,用于在通过语料库匹配到所述第一文本信息的情况下,确定与所述第一文本信息对应的执行指令,并执行与所述第一文本信息对应的执行指令。
在一种可选的实施方式中,所述装置还包括:
上传模块,用于将所述关联结果上传至服务器;其中,所述服务器用于存储所述关联结果,并将所述关联结果同步至各终端对应的语料库。
在一种可选的实施方式中,所述装置还包括:
待定模块,用于在检测到待定用户语音的情况下,将所述待定用户语音识别为目标文本信息;
确定模块,用于在检测到所述目标文本信息中存在预设关键词的情况下,将所述待定用户语音确定为所述用户配置语音。
综上所述,本发明实施例提供了一种语音处理装置,包括:在检测到第一用户语音的情况下,将第一用户语音识别为第一文本信息;在通过语料库无法匹配第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;在检测到用户配置语音的情况下,将用户配置语音中包含的执行指令与第一文本信息进行关联,得到关联结果;根据关联结果更新语料库。本发明实施例中,可以在不能识别用户语音指令的情况下,提示用户对该语音指令进行配置,并根据用户说出的用户配置语音,建立该语音指令与语料库中已经存在的执行指令的关联关系,通过该关联关系更新语料库后,可以使终端设备在下次接收到相同用户语音指令的情况下,执行相应的执行动作,使得终端设备可以根据不同用户的语言习惯进行学习,并不断丰富语料库,提升了用户进行语音功能控制的便利性。
一种语音处理装置,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现上述方法中的步骤。
本发明实施例还提供一种车辆,包括上述语音处理装置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种语音处理方法,其特征在于,包括:
在检测到第一用户语音的情况下,将所述第一用户语音识别为第一文本信息;
在通过语料库无法匹配所述第一文本信息的情况下,输出预设回复消息,以提示用户输入用户配置语音;
在检测到用户配置语音的情况下,将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联,得到关联结果;
根据所述关联结果更新所述语料库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联结果更新所述语料库之后,所述方法还包括:
在检测到第二用户语音的情况下,将所述第二用户语音识别为第二文本信息;
在检测到所述第二文本信息与所述第一文本信息一致的情况下,获取所述第一文本信息对应的执行指令作为所述第二文本信息对应的执行指令;
执行与所述第二文本信息对应的执行指令。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述语料库中查询所述第一文本信息,在所述语料库中不存在与所述第一文本信息相同的执行指令的情况下,则判定基于所述语料库无法匹配所述第一文本信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第一文本信息进行分词处理,得到所述第一文本信息对应的多个分词;
根据语法分析规则确定所述多个分词分别对应的词性;
根据所述多个分词分别对应的词性确定所述第一文本信息的文本语义特征;
将所述文本语义特征与所述语料库中的执行指令对应的指令语义特征进行比对,得到所述文本语义特征与所述指令语义特征的特征相似度;
在所述特征相似度小于预设特征相似度的情况下,判定通过语料库无法匹配所述第一文本信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在通过语料库匹配到所述第一文本信息的情况下,确定与所述第一文本信息对应的执行指令,并执行与所述第一文本信息对应的执行指令。
6.根据权利要求1所述的方法,其特征在于,所述根据所述关联结果更新所述语料库之后,所述方法还包括:
将所述关联结果上传至服务器;其中,所述服务器用于存储所述关联结果,并将所述关联结果同步至各终端对应的语料库。
7.根据权利要求1所述的方法,其特征在于,所述将所述用户配置语音中包含的执行指令与所述第一文本信息进行关联之前,所述方法还包括:
在检测到待定用户语音的情况下,将所述待定用户语音识别为目标文本信息;
在检测到所述目标文本信息中存在预设关键词的情况下,将所述待定用户语音确定为所述用户配置语音。
8.一种语音处理装置,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1至7任意一项所述的方法中的步骤。
9.一种车辆,其特征在于,所述车辆包括如权利要求9所述的语音处理装置。
CN202210066696.2A 2022-01-20 2022-01-20 一种语音处理方法、装置及车辆 Pending CN116524916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210066696.2A CN116524916A (zh) 2022-01-20 2022-01-20 一种语音处理方法、装置及车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210066696.2A CN116524916A (zh) 2022-01-20 2022-01-20 一种语音处理方法、装置及车辆

Publications (1)

Publication Number Publication Date
CN116524916A true CN116524916A (zh) 2023-08-01

Family

ID=87406850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210066696.2A Pending CN116524916A (zh) 2022-01-20 2022-01-20 一种语音处理方法、装置及车辆

Country Status (1)

Country Link
CN (1) CN116524916A (zh)

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US20220156039A1 (en) Voice Control of Computing Devices
US11669300B1 (en) Wake word detection configuration
US10884701B2 (en) Voice enabling applications
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
KR101986354B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
US20200160863A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
CN110047481A (zh) 用于语音识别的方法和装置
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
US11514893B2 (en) Voice context-aware content manipulation
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
JP2019185737A (ja) 検索方法及びそれを用いた電子機器
CN118020100A (zh) 语音数据的处理方法及装置
US20220161131A1 (en) Systems and devices for controlling network applications
KR102061206B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR20120083025A (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
CN111712790A (zh) 计算设备的语音控制
CN116524916A (zh) 一种语音处理方法、装置及车辆
CN113870857A (zh) 一种语音控制场景方法和语音控制场景系统
KR20220129366A (ko) 음성 인식 시스템 및 그 제어 방법
KR20220032200A (ko) 외국어 교육용 인공지능 기능을 구비한 사용자 기기 및 외국어 교육 방법
US10546580B2 (en) Systems and methods for determining correct pronunciation of dictated words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination