CN117316159A - 车辆语音控制方法、装置、设备及存储介质 - Google Patents

车辆语音控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117316159A
CN117316159A CN202311619346.5A CN202311619346A CN117316159A CN 117316159 A CN117316159 A CN 117316159A CN 202311619346 A CN202311619346 A CN 202311619346A CN 117316159 A CN117316159 A CN 117316159A
Authority
CN
China
Prior art keywords
current
instruction
vehicle
type
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311619346.5A
Other languages
English (en)
Other versions
CN117316159B (zh
Inventor
彭俊清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Teyes High And New Technology Co ltd
Original Assignee
Shenzhen Teyes High And New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Teyes High And New Technology Co ltd filed Critical Shenzhen Teyes High And New Technology Co ltd
Priority to CN202311619346.5A priority Critical patent/CN117316159B/zh
Publication of CN117316159A publication Critical patent/CN117316159A/zh
Application granted granted Critical
Publication of CN117316159B publication Critical patent/CN117316159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及车载语音技术领域,公开了一种车辆语音控制方法、装置、设备及存储介质,该方法包括:按预设分割方式将当前语音信息切分为语义词组,并获取各语义词组的连接顺序;根据连接顺序在车辆指令库中进行匹配,确定当前指令类型,当前指令类型包括:问句型指令、命令型指令以及条件型指令;获取当前指令类型的标准格式,并通过标准格式对当前语音信息进行改写;根据改写后的当前语音信息获得当前执行脚本,并通过当前执行脚本完成交互控制。本发明能够由切分得到的语义词组进行当前指令类型匹配,并根据标准格式实现对当前语音信息的改写,使得改写后的语音信息具有车辆更易识别的完整语义,有利于车辆对用户指令的准确反馈。

Description

车辆语音控制方法、装置、设备及存储介质
技术领域
本发明涉及车载语音技术领域,尤其涉及一种车辆语音控制方法、装置、设备及存储介质。
背景技术
随着语音技术的广泛应用,越来越多的车辆配备有语音控制功能,使得用户能够通过语音来控制车辆,实现了人车交互,带来操作的便携性。然而在对车辆发出语音指令时,由于用户语音指令中的语义可能在不同场景中具有不同的含义,以及用户存在着语言习惯差异,容易造成语义识别错误,使得车辆无法正确执行指令。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是相关技术。
发明内容
本发明的主要目的在于提供了一种车辆语音控制方法、装置、设备及存储介质,旨在解决由于用户语音指令中的语义在不同场景中具有不同的含义,以及用户存在着语言习惯差异,容易造成语义识别错误,使得车辆无法正确执行指令的技术问题。
为实现上述目的,本发明提供了一种车辆语音控制方法,所述方法包括以下步骤:
按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;
根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;
获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;
根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
可选地,所述根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型之前,包括:
根据语音指令数据生成标准指令库;
根据用户历史输入数据,构建用户自定义词组与标准指令的映射关系,根据所述映射关系结合所述标准指令库,构建自定义指令库;
根据所述标准指令库和所述自定义指令库获得车辆指令库。
可选地,所述按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序,包括:
获取当前语音信息,判断所述当前语音信息中是否存在所述用户自定义词组;
若否,则根据语义分割模型对所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序;
若是,则在所述当前语音信息中将所述用户自定义词组替换为占位词组,并通过所述语义分割模型对替换后的所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序。
可选地,所述根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,包括:
确定各所述语义词组的词组类型,所述词组类型包括动词词组、名词词组、虚词词组以及占位词组;
通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配;
根据匹配结果获得所述当前语音信息对应的当前指令类型。
可选地,所述通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配,包括:
在各所述语义词组的词组类型中包含所述占位词组时,将所述占位词组还原至所述用户自定义词组,并根据所述映射关系获取所述用户自定义词组对应的标准指令;
获取所述车辆指令库中各标准指令的顺序模板,并结合剩余的各所述语义词组的词组类型与所述连接顺序,进行相似度匹配;
相应地,所述根据匹配结果获得所述当前语音信息对应的当前指令类型,包括:
根据所述用户自定义词组对应的标准指令和匹配结果获得所述当前语音信息对应的当前指令类型。
可选地,所述获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写,包括:
通过所述当前指令类型的标准格式对各所述语义词组进行重拼接,获得对应所述当前指令类型的改写语音指令;
在所述当前指令类型不唯一时,根据预设指令类型优先级对各所述改写语音指令进行顺序排列,获得更新后的当前语音信息;
相应地,所述根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制,包括:
根据所述更新后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
可选地,所述获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写之前,包括:
获取所述当前指令类型的参考例指令;
对所述参考例指令进行归纳,获得通用模板表达式;
根据所述通用模板表达式确定所述当前指令类型的标准格式。
此外,本发明还提供一种车辆语音控制装置,所述装置包括:
语音获取模块,用于按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;
类型匹配模块,用于根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;
信息改写模块,用于获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;
交互控制模块,用于根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
本发明还提供一种车辆语音控制设备,所述车辆语音控制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的车辆语音控制方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现车辆语音控制方法的程序,车辆语音控制方法的程序被处理器执行时实现如上述的车辆语音控制方法的步骤。
本发明按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。由于本发明可将当前语音信息切分为语义词组,并根据语义词组的连接顺序在车辆指令库中进行匹配,进而根据匹配到的当前指令类型的标准格式进行当前语音信息的改写,保证了改写后的语音信息具有车辆可识别的完整语义,通过改写后的当前语音信息获得的执行脚本实现用户与车辆的交互过程,实现了车辆对用户指令的及时准确反馈。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的车辆语音控制设备结构示意图;
图2为本发明车辆语音控制方法第一实施例的流程示意图;
图3为本发明车辆语音控制方法第二实施例的流程示意图;
图4为本发明车辆语音控制方法第三实施例的流程示意图;
图5为本发明车辆语音控制装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的车辆语音控制设备结构示意图。
如图1所示,该车辆语音控制设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对车辆语音控制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及车辆语音控制程序。
在图1所示的车辆语音控制设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明车辆语音控制设备中的处理器1001、存储器1005可以设置在车辆语音控制设备中,所述车辆语音控制设备通过处理器1001调用存储器1005中存储的车辆语音控制程序,并执行本发明实施例提供的车辆语音控制方法。
本发明实施例提供了一种车辆语音控制方法,参照图2,图2为本发明车辆语音控制方法第一实施例的流程示意图。
本实施例中,所述车辆语音控制方法包括以下步骤:
步骤S10:按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序。
需要说明的是,本实施例方法可以是应用在对车辆发起语音指令进行车辆控制的场景中,或者其他需要与车辆进行语音交互控制的场景中。本实施例的执行主体可以是具有数据处理、网络通信以及程序功能运行的车辆语音控制设备,例如单独的车载数据处理器、车载终端等,或者是其它能够实现相同或相似功能的设备。此处以上述车辆语音控制设备(下文简称设备)为例对本实施例和下述各实施例进行具体说明。
应该理解的是,该当前语音信息可以是对用户在车辆中实时发出的语音进行转化得到的语音文本信息,由于用户在发出语音时可能出现字词停顿等情况,该当前语音信息中还可以基于空格字符保留该字词停顿信息。
可理解的是,该预设分割方式可以是基于当前语音信息中各词组的获取间隔对当前语音信息进行分割的方式,还可以是根据预先训练好的模型对当前语音信息进行的分割方式。
需要说明的是,语义词组可以是在当前语音信息中包含语义信息的最小单元,例如,当前语音指令为“打开后车窗除雾,并导航至公司”,则切分得到的语义词组可以为“打开”、“后车窗”、“除雾”、“并”、“导航”、“至”以及“公司”。由于在进行切分后获得的语义词组有多个,为了保留其在当前语音信息中的位置信息,可以获取各所述语义词组的连接顺序,基于连接顺序进行对各所述语义词组的缓存,即获得“打开-后车窗-除雾仪,并-导航-至-公司”。
步骤S20:根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型。
可以理解的是,该车辆指令库中可以包含车辆中语音系统在出厂时预存的多种标准语音指令,该多种标准指令可以分为:问句型指令、命令型指令以及条件型指令等不同指令类型。示例性的,问句型指令可以为:“今天的天气如何?”;命令型指令可以为:“随机播放音乐列表1”;条件型指令可以为“如果道路A不拥挤,走道路A回家”。
需要说明的是,上述该不同指令类型可以包含有该指令类型下的判断关键词,例如问句型指令中关键词可以为“什么”、“吗”、“如何”等;例如命令型指令关键词中可以为“帮我”、“请”等;例如条件型指令中关键词可以为“如果”、“假如”等,具体的关键词可以根据实际情况设置,本实施例对此不加以限制。
在具体实现中,设备根据各语义词组的连接顺序,结合车辆指令库中多种标准语音指令的指令类型下的判断关键词,可以匹配得到当前语音信息所对应的当前指令类型。
步骤S30:获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写。
需要说明的是,由于当前指令类型下可以包含多个参考例指令,可以先根据多个参考例指令归纳得到标准格式,因此,步骤S30之前,包括:
步骤S001:获取所述当前指令类型的参考例指令。
可以理解的是,该当前指令类型可以为上述标准指令对应的指令类型,因此,在确定了当前指令类型后,可以获得与所述当前指令类型相关的各个标准指令,并基于该标准指令枚举得到指令的各种表达形式,作为参考例指令。
步骤S002:对所述参考例指令进行归纳,获得通用模板表达式。
可以理解的是,由于标准指令可以为语法规则明确的文本数据,针对上述枚举参考例指令,可以得到所有描述的通用形式。例如命令型指令的通用模板表达式可以为“(请/能不能/帮我)+动词词组+名词词组+(吧/好吗)”。
步骤S003:根据所述通用模板表达式确定所述当前指令类型的标准格式。
可以理解的是,在获取到通用模板表达式后,可以对该通用模板表达式中进行指令关键词的确定,筛除通用模板表达式中无实际含义的词组,例如可以将上述命令型模板的通用模板表达式中“请/能不能/帮我”以及“吧/好吗”该类词组删除,保留“动词词组+名词词组”作为标准格式。
相应地,在获取到标准格式时,可以通过标准格式对当前语音信息进行改写。以命令型指令“能不能帮我开一下空调冷气”为例,由上述标准格式“动词词组+名词词组”进行改写,获得的改写后的当前语音信息为“开空调冷气”。
步骤S40:根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
需要说明的是,可以采用自动语音识别技术(Automatic Speech Recognition ,ASR)将改写后的当前语音信息转换为计算机可读的输入,ASR可以将语音信息中的语义词组转换为例如二进制编码或是字符序列等,进而结合预设的车辆命令执行框架,生成当前语音信息对应指令的脚本文件即当前执行脚本。最后设备通过执行该脚本文件向用户进行信息反馈,完成车辆与用户的语音交互,实现了用户基于语音对车辆的控制。
本实施例通过按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。由于本实施例可将当前语音信息切分为语义词组,并根据语义词组的连接顺序在车辆指令库中进行匹配,进而根据匹配到的当前指令类型的标准格式进行当前语音信息的改写,保证了改写后的语音信息具有车辆可识别的完整语义,通过改写后的当前语音信息获得的执行脚本实现用户与车辆的交互过程,实现了车辆对用户指令的及时准确反馈。
参考图3,图3为本发明车辆语音控制方法第二实施例的流程示意图。
基于上述实施例,考虑到为了实现用户对车辆的个性化设置,用户可以预先设置有自定义指令以实现对车辆的命令控制,因此在车辆指令库中进行匹配前,为了提升匹配确定当前指令类型的速度,步骤S20前,还包括:
步骤S01:根据语音指令数据生成标准指令库。
需要说明的是,可以理解的是,该语音指令数据可以是从网络或是历史数据中收集得来的车辆指令数据,还可以是车辆厂家提供的用于指导用户语音控制的作为示例的语音指令数据,该标准指令库可以在预先存储于设备中。
步骤S02:根据用户历史输入数据,构建用户自定义词组与标准指令的映射关系,根据所述映射关系结合所述标准指令库,构建自定义指令库。
需要说明的是,用户历史输入数据可以是用于在进行自定义指令设置时,输入语音转换得到的文字信息,以及与该文字信息对应的车辆执行任务,例如用户自定义指令设置输入语音“123123”,车辆执行任务为“打开天窗,播放音乐列表1,导航回家,查询道路A路况”。可以将转换得到的整个文字信息作为用户自定义词组,该用户自定义词组可以视为与切分得到的各语义词组相同层级的包含语义信息的最小单元。
应该理解的是,考虑到转换得到的文字信息在字面上可以为不包含任何语义信息的文字项,可以将该转换得到的用户自定义词组与车辆执行任务对应的标准指令建立映射关系。并在该标准指令库中提取该标准指令对应指令类型下的其他标准指令,构建得到自定义指令库。
还需说明的是,由上述举例可知,用户通过自定义指令设置可以将复杂的指令快捷输入,在增加了用户驾乘趣味性的同时,能够便于用户在不同场景或时间下使车辆执行同一组合任务,避免用户由于多次重复口述长段指令信息带来的不便。
步骤S03:根据所述标准指令库和所述自定义指令库获得车辆指令库。
还需说明的是,根据标准指令库和自定义指令库获得的车辆指令库,能够考虑到用户自定义指令部分,有利于提升根据各语义词组的连接顺序得到当前指令类型的匹配速度。
进一步地,考虑到当前语音信息中可以包含有用户自定义指令和/或非用户自定义指令,为了对将当前语音信息切分为更易匹配到当前指令类型的各语义词组,步骤S10,包括:
步骤S101:获取当前语音信息,判断所述当前语音信息中是否存在所述用户自定义词组。
可以理解的是,由于后续需要对当前语音信息切分为包含语义信息的最小单元,而用户自定义词组可能由多个最小单元组成,为了避免将用户自定义词组进行拆分,可以先判断当前语音信息中是否存在用户自定义词组,进而进行有区别的切分处理。
步骤S102:若否,则根据语义分割模型对所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序。
可以理解的是,若当前语音信息中不存在用户自定义词组,则可以直接将该当前语音信息输入至语义分割模型。该语义分割模型可以为基于BERT模型构建的自然语言处理模型,BERT模型是一种基于Transformer模型的预训练语言表示模型,可以通过在大规模语料上进行无监督的预训练,学习丰富的语言知识,将文本转化为具有丰富上下文信息的词向量表达,能够捕捉词之间的关系和语义。
在具体实现中,可以通过经过训练的语义分割模型将所述当前语音信息进行分割,进而获得切分得到的各所述语义词组以及各所述语义词组的连接顺序。
步骤S103:若是,则在所述当前语音信息中将所述用户自定义词组替换为占位词组,并通过所述语义分割模型对替换后的所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序。
可以理解的是,若当前语音信息中存在用户自定义词组,则在将该当前语音信息输入至语义分割模型前,可以先在当前语音信息中识别得到该用户自定义词组,将该自定义词组替换为占位词组。该占位词组可以为不包含任何语义信息的最小单元,通过将自定义词组替换为占位词组,可以避免语义分割模型在进行词组切分时误将整个自定义词组切分为多个语义词组,从而影响后续当前指令类型的判断。
在具体实现中,在当前语音信息中存在用户自定义词组时,首先在当前语音信息中定位至该用户自定义词组,接着将该用户自定义词组转换为无实义的占位词组,进而将经过替换后的当前语音信息输入至经过训练的语义分割模型进行词组分割,获得各所述语义词组以及各所述语义词组的连接顺序。由于预先将可能影响切割的用户自定义词组进行分割并替换,能够避免由于语义分词切割异常导致的指令执行异常情况。
本实施例通过在根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型之前,根据语音指令数据生成标准指令库;根据用户历史输入数据,构建用户自定词组与标准指令的映射关系,根据所述映射关系结合所述标准指令库,构建自定义指令库;根据所述标准指令库和所述自定指令库获得车辆指令库;通过引入自定义指令设置将复杂的指令快捷输入,在增加了用户驾乘趣味性的同时,能够便于用户在不同场景或时间下使车辆执行同一组合任务,避免用户由于多次重复口述长段指令信息带来的不便。并在当前语音信息中存在用户自定义词组时,预先将可能影响切割的用户自定义词组进行分割并替换,避免了当前语音信息中由于存在用户自定义指令使得语义分词切割异常,致使车辆执行指令错误的情况,有利于提升车辆执行指令的准确性。
参考图4,图4为本发明车辆语音控制方法第三实施例的流程示意图。
基于上述实施例,为了进一步提升在车辆指令库中进行匹配并确定当前指令类型的速度,步骤S20,包括:
步骤S201:确定各所述语义词组的词组类型。
可以理解的是,切分得到各所述语义词组时,可以先判断语义词组的词组类型,该词组类型可以包括动词词组、名词词组、虚词词组以及占位词组。
步骤S202:通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配。
应该理解的是,由于车辆指令库中的标准指令可以对应有通用模板表达式,该通用模板表达式中可以包含不同词组类型的标准顺序,因此可以将该各所述语义词组的连接顺序和该标准顺序进行相似度匹配。
进一步地,考虑到上述切分得到的语义词组中还可以包含有由用户自定义词组转换得到的占位词组,步骤S202,还包括:
步骤S2021:在各所述语义词组的词组类型中包含所述占位词组时,将所述占位词组还原至所述用户自定义词组,并根据所述映射关系获取所述用户自定义词组对应的标准指令。
在具体实现中,由于占位词组对应有用户自定义词组,则可以根据车辆指令库中自定义指令库中预先存储的映射关系,将用户自定义词组直接对应至标准指令,能够避免由于占位词组存在对语义词组基于连接顺序的相似度匹配过程的影响,提高匹配效率。
步骤S2022:获取所述车辆指令库中各标准指令的顺序模板,并结合剩余的各所述语义词组的词组类型与所述连接顺序,进行相似度匹配。
可以理解的是,该顺序模板即可以为给予上述通用模板表达式中各词组类型的语义词组的标准顺序的模板。进而通过该顺序模板对除占位词组外的其余各语义词组进行相似度匹配,能够进一步提升匹配效率,获得更准确的匹配结果。
步骤S203:根据匹配结果获得所述当前语音信息对应的当前指令类型。
在具体实现中,可以根据用户自定义词组对应的标准指令,结合上述匹配结果,获得所述当前语音信息对应的当前指令类型,能够提升获得的当前指令类型的准确性。
进一步地,考虑到当前语音信息中可以同时包含多个不同指令类型,为了提升用户通过语音实现车辆控制的体验感,使得车辆及时并合理响应用户需求,步骤S30,包括:
步骤S301:通过所述当前指令类型的标准格式对各所述语义词组进行重拼接,获得对应所述当前指令类型的改写语音指令。
需要说明的是,该重拼接过程可以包含对原有的各所述语义词组的筛选和拼接过程,以命令型指令“能不能帮我开一下空调冷气”为例,对当前语音信息切分得到的各语义词组及连接顺序为:“能不能”-“帮”-“我”-“开”-“一下”-“空调”-“冷气”,标准格式为“动词词组+名词词组”,则对上述各语义词组进行重拼接,得到的改写语音指令可以为“开+空调冷气”。
步骤S302:在所述当前指令类型不唯一时,根据预设指令类型优先级对各所述改写语音指令进行顺序排列,获得更新后的当前语音信息。
还需说明的是,若当前语音信息中包含有自定义指令和非自定义指令部分,则当前指令类型可以为自定义词组对应的标准指令的指令类型,以及通过模板匹配结果确定的指令类型。
为了增强用户的车辆指令反馈体验感,可以预先对不同指令类型进行优先级设置,该优先级设置可以为命令型指令>问句型指令>条件型指令。进而可以根据该预设的指令优先级对各所述改写语音指令进行顺序排列,获得更新后的当前语音信息。
此处以自定义词组对应的标准指令的指令类型为问句型指令、通过模板匹配结果确定的指令类型为命令型指令为例。若自定义用户指令“1234”对应的标准指令为“今天天气如何+今天A道路上是否有拥堵”,基于命令型指令的标准格式得到的改写语音指令为“导航回家”。则根据优先级顺序进行顺序排列,获得的更新后的当前语音信息可以为“导航回家+今天天气如何+今天A道路上是否有拥堵”。
相应地,设备可以根据所述更新后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。基于上述例子可知,设备可以先开始执行导航回家的任务,接着再响应于上述“今天天气如何+今天A道路上是否有拥堵”的问句型指令,进行信息反馈。能够实现对用户不同类型指令的优化响应,进一步提升用户对车辆进行交互控制的体验感。
本实施例确定各所述语义词组的词组类型,所述词组类型包括动词词组、名词词组、虚词词组以及占位词组;通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配;并进一步地原至所述用户自定义词组,并根据所述映射关系获取所述用户自定义词组对应的标准指令;获取所述车辆指令库中各标准指令的顺序模板,并结合剩余的各所述语义词组的词组类型与所述连接顺序,进行相似度匹配;根据所述用户自定义词组对应的标准指令和匹配结果获得所述当前语音信息对应的当前指令类型,能够提升获得的当前指令类型的准确性。此外,还通过所述当前指令类型的标准格式对各所述语义词组进行重拼接,获得对应所述当前指令类型的改写语音指令;在所述当前指令类型不唯一时,根据预设指令类型优先级对各所述改写语音指令进行顺序排列,获得更新后的当前语音信息;根据所述更新后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制,能够实现对用户不同类型指令的优化响应,进一步提升用户对车辆进行交互控制的体验感。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有车辆语音控制程序,所述车辆语音控制程序被处理器执行时实现如上文所述的车辆语音控制方法的步骤。
此外,参照图5,图5为本发明车辆语音控制装置第一实施例的结构框图,本发明实施例还提出一种车辆语音控制装置,所述车辆语音控制装置包括:
语音获取模块501,用于按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;
类型匹配模块502,用于根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;
信息改写模块503,用于获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;
交互控制模块504,用于根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
所述信息改写模块503,还用于获取所述当前指令类型的参考例指令;对所述参考例指令进行归纳,获得通用正则表达式;根据所述通用正则表达式确定所述当前指令类型的标准格式。
本实施例通过在根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型之前,根据语音指令数据生成标准指令库;根据用户历史输入数据,构建用户自定词组与标准指令的映射关系,根据所述映射关系结合所述标准指令库,构建自定义指令库;根据所述标准指令库和所述自定指令库获得车辆指令库;通过引入自定义指令设置将复杂的指令快捷输入,在增加了用户驾乘趣味性的同时,能够便于用户在不同场景或时间下使车辆执行同一组合任务,避免用户由于多次重复口述长段指令信息带来的不便。并在当前语音信息中存在用户自定义词组时,预先将可能影响切割的用户自定义词组进行分割并替换,避免了当前语音信息中由于存在用户自定义指令使得语义分词切割异常,致使车辆执行指令错误的情况,有利于提升车辆执行指令的准确性。
基于本发明上述车辆语音控制装置第一实施例,提出本发明车辆语音控制装置第二实施例。
在本实施例中,所述类型匹配模块502,用于根据语音指令数据生成标准指令库;根据用户历史输入数据,构建用户自定义词组与标准指令的映射关系,根据所述映射关系结合所述标准指令库,构建自定义指令库;根据所述标准指令库和所述自定指令库获得车辆指令库。
所述语音获取模块501,用于获取当前语音信息,判断所述当前语音信息中是否存在所述用户自定义词组;若否,则根据语义分割模型对所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序;若是,则在所述当前语音信息中将所述用户自定义词组替换为占位词组,并通过所述语义分割模型对替换后的所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序。
进一步地,所述类型匹配模块502,还用于确定各所述语义词组的词组类型,所述词组类型包括动词词组、名词词组、虚词词组以及占位词组;通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配;根据匹配结果获得所述当前语音信息对应的当前指令类型。
进一步地,所述类型匹配模块502,还用于在各所述语义词组的词组类型中包含所述占位词组时,将所述占位词组还原至所述用户自定义词组,并根据所述映射关系获取所述用户自定义词组对应的标准指令;获取所述车辆指令库中各标准指令的顺序模板,并结合剩余的各所述语义词组的词组类型与所述连接顺序,进行相似度匹配;根据所述用户自定义词组对应的标准指令和匹配结果获得所述当前语音信息对应的当前指令类型。
所述信息改写模块503,用于通过所述当前指令类型的标准格式对各所述语义词组进行重拼接,获得对应所述当前指令类型的改写语音指令;在所述当前指令类型不唯一时,根据预设指令类型优先级对各所述改写语音指令进行顺序排列,获得更新后的当前语音信息。
所述交互控制模块504,用于根据所述更新后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
本发明车辆语音控制装置其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……限定”的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种车辆语音控制方法,其特征在于,所述方法包括:
按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;
根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;
获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;
根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
2.如权利要求1所述的车辆语音控制方法,其特征在于,所述根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型之前,包括:
根据语音指令数据生成标准指令库;
根据用户历史输入数据,构建用户自定义词组与标准指令的映射关系,根据所述映射关系结合所述标准指令库,构建自定义指令库;
根据所述标准指令库和所述自定义指令库获得车辆指令库。
3.如权利要求2所述的车辆语音控制方法,其特征在于,所述按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序,包括:
获取当前语音信息,判断所述当前语音信息中是否存在所述用户自定义词组;
若否,则根据语义分割模型对所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序;
若是,则在所述当前语音信息中将所述用户自定义词组替换为占位词组,并通过所述语义分割模型对替换后的所述当前语音信息进行分割,获得各所述语义词组以及各所述语义词组的连接顺序。
4.如权利要求3所述的车辆语音控制方法,其特征在于,所述根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,包括:
确定各所述语义词组的词组类型,所述词组类型包括动词词组、名词词组、虚词词组以及占位词组;
通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配;
根据匹配结果获得所述当前语音信息对应的当前指令类型。
5.如权利要求4所述的车辆语音控制方法,其特征在于,所述通过各所述语义词组的词组类型结合所述连接顺序,在所述车辆指令库中进行标准指令的相似度匹配,包括:
在各所述语义词组的词组类型中包含所述占位词组时,将所述占位词组还原至所述用户自定义词组,并根据所述映射关系获取所述用户自定义词组对应的标准指令;
获取所述车辆指令库中各标准指令的顺序模板,并结合剩余的各所述语义词组的词组类型与所述连接顺序,进行相似度匹配;
相应地,所述根据匹配结果获得所述当前语音信息对应的当前指令类型,包括:
根据所述用户自定义词组对应的标准指令和匹配结果获得所述当前语音信息对应的当前指令类型。
6.如权利要求5所述的车辆语音控制方法,其特征在于,所述获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写,包括:
通过所述当前指令类型的标准格式对各所述语义词组进行重拼接,获得对应所述当前指令类型的改写语音指令;
在所述当前指令类型不唯一时,根据预设指令类型优先级对各所述改写语音指令进行顺序排列,获得更新后的当前语音信息;
相应地,所述根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制,包括:
根据所述更新后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
7.如权利要求1所述的车辆语音控制方法,其特征在于,所述获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写之前,包括:
获取所述当前指令类型的参考例指令;
对所述参考例指令进行归纳,获得通用模板表达式;
根据所述通用模板表达式确定所述当前指令类型的标准格式。
8.一种车辆语音控制装置,其特征在于,所述装置包括:
语音获取模块,用于按预设分割方式将当前语音信息切分为语义词组,并获取各所述语义词组的连接顺序;
类型匹配模块,用于根据所述连接顺序在车辆指令库中进行匹配,确定当前指令类型,所述当前指令类型包括:问句型指令、命令型指令以及条件型指令;
信息改写模块,用于获取所述当前指令类型的标准格式,并通过所述标准格式对所述当前语音信息进行改写;
交互控制模块,用于根据改写后的当前语音信息获得当前执行脚本,并通过所述当前执行脚本完成交互控制。
9.一种车辆语音控制设备,其特征在于,所述车辆语音控制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的车辆语音控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现车辆语音控制方法的程序,所述实现车辆语音控制方法的程序被处理器执行以实现如权利要求1至7中任一项所述车辆语音控制方法的步骤。
CN202311619346.5A 2023-11-30 2023-11-30 车辆语音控制方法、装置、设备及存储介质 Active CN117316159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311619346.5A CN117316159B (zh) 2023-11-30 2023-11-30 车辆语音控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311619346.5A CN117316159B (zh) 2023-11-30 2023-11-30 车辆语音控制方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117316159A true CN117316159A (zh) 2023-12-29
CN117316159B CN117316159B (zh) 2024-01-26

Family

ID=89250346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311619346.5A Active CN117316159B (zh) 2023-11-30 2023-11-30 车辆语音控制方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117316159B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
CN106777018A (zh) * 2016-12-08 2017-05-31 竹间智能科技(上海)有限公司 一种智能聊天机器人中对输入语句的优化方法及装置
JP2018072784A (ja) * 2016-11-06 2018-05-10 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN111292751A (zh) * 2018-11-21 2020-06-16 北京嘀嘀无限科技发展有限公司 语义解析方法及装置、语音交互方法及装置、电子设备
CN113806469A (zh) * 2020-06-12 2021-12-17 华为技术有限公司 语句意图识别方法及终端设备
CN115329176A (zh) * 2022-08-10 2022-11-11 腾讯科技(深圳)有限公司 搜索请求的处理方法、装置、计算机设备及存储介质
CN115346530A (zh) * 2022-10-19 2022-11-15 亿咖通(北京)科技有限公司 一种语音控制方法、装置、设备、介质、系统及车辆
CN116956019A (zh) * 2023-05-11 2023-10-27 腾讯科技(深圳)有限公司 文本生成方法、装置、电子设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
JP2018072784A (ja) * 2016-11-06 2018-05-10 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN106777018A (zh) * 2016-12-08 2017-05-31 竹间智能科技(上海)有限公司 一种智能聊天机器人中对输入语句的优化方法及装置
CN111292751A (zh) * 2018-11-21 2020-06-16 北京嘀嘀无限科技发展有限公司 语义解析方法及装置、语音交互方法及装置、电子设备
CN113806469A (zh) * 2020-06-12 2021-12-17 华为技术有限公司 语句意图识别方法及终端设备
CN115329176A (zh) * 2022-08-10 2022-11-11 腾讯科技(深圳)有限公司 搜索请求的处理方法、装置、计算机设备及存储介质
CN115346530A (zh) * 2022-10-19 2022-11-15 亿咖通(北京)科技有限公司 一种语音控制方法、装置、设备、介质、系统及车辆
CN116956019A (zh) * 2023-05-11 2023-10-27 腾讯科技(深圳)有限公司 文本生成方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN117316159B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
US7974835B2 (en) Method, system, and apparatus for natural language mixed-initiative dialogue processing
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
WO2022134894A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN109817210B (zh) 语音写作方法、装置、终端和存储介质
CN110534104B (zh) 智能对话系统的语音匹配方法、电子装置、计算机设备
JP2001209393A (ja) 自然言語入力方法及び装置
US7260531B2 (en) Interactive system, method, and program performing data search using pronunciation distance and entropy calculations
EP4086894A1 (en) Semantic recognition rejection method, semantic recognition rejection apparatus, transportation means, and medium
US8315874B2 (en) Voice user interface authoring tool
CN110910903A (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
KR20200080400A (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
CN113113024B (zh) 语音识别方法、装置、电子设备和存储介质
CN111399629B (zh) 一种终端设备的操作引导方法、终端设备及存储介质
CN111554276A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN113515586A (zh) 数据处理方法及装置
EP1699041A1 (en) Device control device and device control method
CN112149419A (zh) 字段的规范化自动命名方法、装置及系统
CN117496972B (zh) 一种音频识别方法、音频识别装置、车辆和计算机设备
CN114860938A (zh) 一种语句意图识别方法和电子设备
CN110767219A (zh) 语义更新方法、装置、服务器和存储介质
CN117316159B (zh) 车辆语音控制方法、装置、设备及存储介质
CN112927695A (zh) 语音识别方法、装置、设备及存储介质
CN114842847B (zh) 一种车载用语音控制方法以及装置
CN116863927A (zh) 车载多媒体语音指令处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant