CN116486815A - 车载语音信号处理方法及装置 - Google Patents
车载语音信号处理方法及装置 Download PDFInfo
- Publication number
- CN116486815A CN116486815A CN202310453513.7A CN202310453513A CN116486815A CN 116486815 A CN116486815 A CN 116486815A CN 202310453513 A CN202310453513 A CN 202310453513A CN 116486815 A CN116486815 A CN 116486815A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- text
- voice signal
- type
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000014509 gene expression Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 17
- 230000001537 neural effect Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种车载语音信号处理方法及装置。该方法包括:获取车载语音信号;对该车载语音信号进行语音识别,得到车载文本集合;确定车载文本集合中各车载文本的文本类型;根据各车载文本的文本类型,调用各文本类型对应的语义解析组件;通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到该车载语音信号的目标文本。本申请的技术方案针对车载语音信号的识别提供了一套调用流程,根据该车载语音信号对应的各文本类型,可以调用不同语音解析组件解析对应类型的文本,这样可以得到该车载语音信号对应的目标文本,以此方式可以满足并发量、语义理解性能、准确度等指标。
Description
技术领域
本申请涉及车载语音信号处理技术领域,尤其涉及一种车载语音信号处理方法及装置。
背景技术
随着互联网技术的快速发展,语音识别技术被应用在各种终端设备的业务场景。目前,针对终端设备的业务场景可以基于深度学习的等自然语言处理技术对该业务场景的语音信号进行识别。由于车载语音信号的特殊性,针对该车载语音信号的识别还没有一套成体系的调用流程,基于上述识别方式无法满足并发量、语义理解性能、准确度等指标。
发明内容
有鉴于此,本申请实施例提供了一种车载语音信号处理方法、装置、电子设备及计算机可读存储介质,以解决相关技术中由于车辆语音信号的特殊性,针对该车辆信号的识别还没有一套成体系的调用流程,基于上述识别方式无法满足并发量、语义理解性能、准确度等指标的问题。
本申请实施例的第一方面,提供了一种车载语音信号处理方法,该方法包括:获取车载语音信号;对该车载语音信号进行语音识别,得到车载文本集合;确定该车载文本集合中各车载文本的文本类型;根据各车载文本的文本类型,调用各文本类型对应的语义解析组件;通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到该车载语音信号的目标文本。
本申请实施例的第二方面,提供了一种车载语音信号处理装置,该装置包括:获取模块,用于获取车载语音信号;语音识别模块,用于对该车载语音信号进行语音识别,得到车载文本集合;文本类型确定模块,用于确定该车载文本集合中各车载文本的文本类型;调用模块,用于根据各车载文本的文本类型,调用各文本类型对应的语义解析组件;解析模块,用于通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到该车载语音信号的目标文本。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例可以对车载语音信号进行语音识别,得到车载文本集合,并确定该车载文本集合中各车载文本的文本类型,然后根据各车载文本的文本类型,调用各文本类型对应的语义解析组件,这样可以通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,以此方式识别车载语音信号可以满足并发量、语义理解性能、准确度等指标。并且还针对车载语音信号的识别提供了一套调用流程。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2是本申请实施例的一种车载语音信号处理方法的流程图;
图3是本申请实施例的通过车载语义解析组件解析车载文本的步骤的流程图;
图4是本申请实施例的另一通过车载语义解析组件解析车载文本的步骤的流程图;
图5是本申请实施例的另一种车载语音信号处理方法的流程图;
图6是本申请实施例的又一种车载语音信号处理方法的流程图;
图7是本申请实施例的一种车载语音信号处理装置的框图;
图8是本申请实施例的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的车载语音信号处理方法和装置。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括车辆设备101、网络103和服务器103。网络102用以在车辆设备101和服务器103之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的车辆设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的车辆设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。
用户可以使用车辆设备101通过网络102与服务器103进行语音交互,以接收或发送语音信号等。车辆设备101可以是被安装在各种智能汽车中具有接收或发送语音信号的各种电子设备。
服务器103可以是提供各种服务的服务器。例如服务器105可以对车载语音信号进行语音识别,得到车载文本集合,并确定该车载文本集合中各车载文本的文本类型,然后根据各车载文本的文本类型,调用各文本类型对应的语义解析组件,这样可以通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,以此方式识别车载语音信号可以满足并发量、语义理解性能、准确度等指标。
在一些实施例中,本发明实施例所提供的车载语音信号处理方法一般由服务器103执行,相应地,车载语音信号处理装置一般设置于服务器103中。在另一些实施例中,某些终端设备可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的车载语音信号处理方法不限定在服务器端执行。
图2是本申请实施例的一种车载语音信号处理方法的流程图。本申请实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,电子设备可以是图1示出的服务器。
如图2所示,该方法包括步骤S210至步骤S250。
在步骤S210中,获取车载语音信号。
在步骤S220中,对该车载语音信号进行语音识别,得到车载文本集合。
在步骤S230中,确定该车载文本集合中各车载文本的文本类型。
在步骤S240中,根据各车载文本的文本类型,调用各文本类型对应的语义解析组件。
在步骤S250中,通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到该车载语音信号的目标文本。
该方法可以对车载语音信号进行语音识别,得到车载文本集合,并确定该车载文本集合中各车载文本的文本类型,然后根据各车载文本的文本类型,调用各文本类型对应的语义解析组件,这样可以通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,以此方式识别车载语音信号可以满足并发量、语义理解性能、准确度等指标。并且还针对车载语音信号的识别提供了一套调用流程。
在一些实施例中,上述车载语音信号可以是用户在使用车辆时产生的语音信号。例如,该车载语音信号可以用于控制或设置与车辆相关的功能(例如,用于打开空调的语音信号、用于设置空调温度的语音信号),还可以用于控制或设置与车辆不相关的功能(例如,用于打开聊天软件的语音信号、用于设置视频播放器的播放进度)。
在一些实施例中,对该车载语音信号进行语音识别,得到车载文本集合。例如,通过自动语音识别技术(Automatic Speech Recognition,简称ASR)将该车载语音信号转换为文字,并对其进行分句处理,得到该车载语音信号对应的车载文本集合。本申请实施例中该车载文本集合中可以包括一个或多个车载文本。
在一些实施例中,确定该车载文本集合中各车载文本的文本类型。例如,遍历各车载文本中的词语,根据车载文本中的词语确定该文本的文本类型。例如,如果车载文本中包含了与车辆相关的词语,则该车载文本的文本类型为车辆操作类型,例如车载智能设备类型、车辆控制类型、车辆设置类型等等。如果该车载文本中包含了与车辆不相关的词语,则该车载文本的文本类型为非车辆操作类型,例如社交类型、娱乐类型等等。
在一些实施例中,根据各车载文本的文本类型,调用各文本类型对应的语义解析组件包括:在车载文本的文本类型为车辆操作类型时,根据该车辆操作类型,调用车载语义解析组件;或者在车载文本的文本类型为非车辆操作类型时,根据该非车辆操作类型,调用第三方语义解析组件。例如,在车载文本的文本类型为车载智能设备类型、车辆控制类型、或车辆设置类型时,根据该车辆操作类型,调用车载语义解析组件。再例如,在车载文本的文本类型为社交类型或娱乐类型时,根据该非车辆操作类型,调用第三方语义解析组件。
在一些实施例中,通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到车载语音信号的目标文本包括:通过上述车载语义解析组件解析该车载文本,得到车载语音信号的目标文本;或者通过上述第三方语义解析组件解析该车载文本,得到车载语音信号的目标文本,这样可以根据文本类型,调用不同语义解析组件解析该车载文本,以此方式可以支持高并发的语音识别请求,提高语义理解性能,进而提高识别车载语音信号的准确度。
图3是本申请实施例的通过车载语义解析组件解析车载文本的步骤的流程图,如图3所示,上述步骤S250可以包括步骤S310和步骤S320。
在步骤S310中,根据上述车载文本,匹配对应的正则表达式。
在步骤S320中,基于该正则表达式解析该车载文本,得到上述车载语音信号的目标文本。
该方法可以根据上述车载文本,匹配对应的正则表达式,然后基于该正则表达式解析该车载文本,得到上述车载语音信号的目标文本,以此方式解析文本支持高并发、处理速度快,且为强文法,准确率高。
在一些实施例中,上述正则表达式可以根据常用车辆操作文本进行设置。例如,常用车辆操作文本可以是“打开空调”、“打开车窗”、“打开座椅加热”、“调低音乐音量”、“将空调温度设置为24度”、“打开自动驾驶模式”等等,但不限于此。本实施例中,采用Java基于Lucene和正则表达式对车载文本进行自然语言理解,这样可以基于车载文本中的词语匹配不同的正则表达式,以此方式可以支持高并发、处理速度快,且为强文法,准确率高。
在本申请实施例中,优先采用上述正则表达式对车载文本进行解析,当正则表达式解析该车载文本失败时,继续采用其他解析方式对该车载文本进行解析。
图4是本申请实施例的另一通过车载语义解析组件解析车载文本的步骤的流程图,当通过上述正则表达式解析该车载文本失败时,如图4所示,上述步骤S250可以还包括步骤S410和步骤S420。
在步骤S410中,通过深度神经网络模型识别该车载文本,得到该车载文本的特征序列。
在步骤S420中,根据该车载文本的特征序列,确定该车载语音信号的目标文本。
该方法可以通过深度神经网络模型识别该车载文本,得到该车载文本的特征序列,并根据该车载文本的特征序列,确定该车载语音信号的目标文本,以此方式解析文本扩展性和支持率更高,也更有拓展空间。
在一些实施例中,当通过上述正则表达式解析该车载文本失败时,可以通过深度神经网络模型识别该车载文本,这样可以避免因正则表达式解析该车载文本失败导致无法响应用户语音请求的情况。在本实施例中,基于常用车辆操作文本作为训练语料,使用python利用深度神经网络来了训练模型,以便于自动识别自然语言文本中的语法结构,相对于上述正则表达式更具有扩展性和支持率更高,也更有拓展空间。
在一些实施例中,该方法还包括:当通过深度神经网络识别该车载文本失败时,通过纠错模型对该车载文本中的词语进行更新,得到更新后的车载文本;以及通过该正则表达式解析该更新后的车载文本,在该正则表达式解析该更新后车载文本失败时,继续通过该深度神经模型识别该更新后的车载文本。在本实施例中,当通过上述正则表达式和上述深度神经网络模型处理该车载文本都失败时,还可以通过上述纠错模型对该车载文本进行优化更新,然后优先通过上述正则表达式解析更新后的车载文本,如果解析失败,继续通过上述深度神经模型解析该车载文本,这样可以有效地避免因通过上述正则表达式和上述深度神经网络模型处理该车载文本都失败时导致无法响应用户语音请求的情况,进一步提高用户体验。
在一些实施例中,上述纠错模型可以基于用户经常表达错误的文本和正确的文本作为训练语料来训练模型,以此方式得到该纠错模型。这样基于该纠错模型可以对车辆相关的文本进行纠错强化,以此方式可以纠错处理可能由于语音转文本或者用户表达有误造成的语义理解失败。
在一些实施例中,该方法还包括:当通过上述深度神经模型识别该更新后的车载文本失败时,调用分布式搜索引擎对该更新后的车载文本进行解析处理,得到该车载语音信号的目标文本。例如,基于车辆相关的语料和知识图谱构建分布式搜索引擎(Elaticsearch,简称ES),基于该更新后的车载文本中的词语,通过该分布式搜索引擎查询与其对应目标文本,这样可以有效地避免因通过上述深度神经模型识别该更新后的车载文本失败时导致无法响应用户语音请求的情况,更进一步提高用户体验。
图5是本申请实施例的另一种车载语音信号处理方法的流程图,如图5所示,上述方法还可以包括步骤S510至步骤S530。
在步骤S510中,当通过分布式搜索引擎解析该更新后的车载文本失败时,获取预设时间段内与该车载语音信号相关的其他车载文本。
在步骤S520中,基于预设时间段内与该车载语音信号相关的其他车载文本和该更新后的车载文本,生成关联车载文本。
在步骤S530中,通过正则表达式解析关联车载文本,在正则表达式解析关联车载文本失败时,继续通过深度神经模型识别该关联车载文本。
该方法可以当通过分布式搜索引擎解析该更新后的车载文本失败时,获取预设时间段内与该车载语音信号相关的其他车载文本,并基于预设时间段内与该车载语音信号相关的其他车载文本和该更新后的车载文本,生成关联车载文本,然后通过正则表达式解析关联车载文本,在正则表达式解析关联车载文本失败时,继续通过深度神经模型识别该关联车载文本,以此方式可以结合预设时间段内的上下文来解析该车载文本,这样可以有效地避免因通过分布式搜索引擎解析该更新后的车载文本失败时导致无法响应用户语音请求的情况,更进一步提高用户体验。
在一些实施例中,当通过分布式搜索引擎解析该更新后的车载文本失败时,可以获取用户在预设时间段输出的车载语音信号对应的文本,这样可以基于用户在预设时间段内的表达的上下文和更新后的车载文本生成关联车载文本,即该关联车载文本包含了预设时间段内上下文的语义,这样方便结合用户表达的上下文理解当前用户表达的含义。
图6是本申请实施例的又一种车载语音信号处理方法的流程图。
如图6所示,上述方法还可以包括步骤S610至步骤S630。
在步骤S610中,判断上述目标文本中目标词语的数值是否满足预设条件。
在步骤S620中,如果该目标词语的数值不满足预设条件,对该目标词语的数值进行优化处理,得到满足该预设条件的数值。
在步骤S630中,基于优化后的目标文本,生成针对该车载语音信号的反馈文本,并向车载终端发送该反馈文本。
该方法可以判断上述目标文本中目标词语的数值是否满足预设条件,如果该目标词语的数值不满足预设条件,对该目标词语的数值进行优化处理,得到满足该预设条件的数值,基于优化后的目标文本,生成针对该车载语音信号的反馈文本,并向车载终端发送该反馈文本,这样可以进一步地保证车载终端可以语义理解结果执行相应的操作。
在一些实施例中,上述目标文本为“将空调的温度设置为40度”。需要说明的是,车辆空调最高温度一般为30度,如果上述目标文本中“空调温度”对应的数值大于30度,则需要对目标词语的数值进行优化处理,例如,将上述目标文本中“空调温度”修改为30度,此时的目标文本为“将空调的温度设置为30度”。
通过本申请实施例提供的方法,根据不同类型的车载文本,可以调用不同的语义解析组件,这样对上述所有语义解析组件可以进行流程调用控制,不同的语义解析组件可以组合成不同的调用流程。例如,当车载文本是车辆操作类型时,调用正则表达式对应的车辆语义解析组件、深度神经网络模型对应的车辆语义解析组件、分布式搜索引擎对应的车辆语义解析组件、以及结合上下文解析文本的实现逻辑对应的组件组成的流程来解析该车载文。当车载文本是非车辆操作类型时,调用第三方语义解析组件和结合上下文解析文本的实现逻辑对应的组件组成的流程来解析该车载文本,满足高并发、高准确度的要求,这样便于业务拓展。
下述为本申请装置实施例,可以用于执行本申请方法实施例。下文描述的车载语音信号处理装置与上文描述的车载语音信号处理方法可相互对应参照。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图7是本申请实施例的一种车载语音信号处理装置的框图。
如图7所示,车载语音信号处理装置700包括获取模块710、语音识别模块720、文本类型确定模块730、调用模块740和解析模块750。
具体地,获取模块710,用于获取车载语音信号。
语音识别模块720,用于对车载语音信号进行语音识别,得到车载文本集合。
文本类型确定模块730,用于确定车载文本集合中各车载文本的文本类型。
调用模块740,用于根据各车载文本的文本类型,调用各文本类型对应的语义解析组件;
解析模块750,用于通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到车载语音信号的目标文本。
该车载语音信号处理装置700可以对车载语音信号进行语音识别,得到车载文本集合,并确定该车载文本集合中各车载文本的文本类型,然后根据各车载文本的文本类型,调用各文本类型对应的语义解析组件,这样可以通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,以此方式识别车载语音信号可以满足并发量、语义理解性能、准确度等指标。并且还针对车载语音信号的识别提供了一套调用流程。
在一些实施例中,调用模块740被配置为:在所载文本的文本类型为车辆操作类型时,根据车辆操作类型,调用车载语义解析组件;或者在车载文本的文本类型为非车辆操作类型时,根据非车辆操作类型,调用第三方语义解析组件。
在一些实施例中,解析模块750被配置为:通过车载语义解析组件解析该车载文本,得到车载语音信号的目标文本;或者通过第三方语义解析组件解析该车载文本,得到车载语音信号的目标文本。
在一些实施例中,通过车载语义解析组件解析该车载文本,得到该车载语音信号的目标文本包括:根据车载文本,匹配对应的正则表达式;基于该正则表达式解析该车载文本,得到该车载语音信号的目标文本。
在一些实施例中,当通过上述正则表达式解析该车载文本失败时,通过该车载语义解析组件解析该车载文本,得到车载语音信号的目标文本还可以包括:通过深度神经网络模型识别该车载文本,得到车载文本的特征序列;根据该车载文本的特征序列,确定车载语音信号的目标文本。
在一些实施例中,该车载语音信号处理装置700还可以用于当通过深度神经网络识别该车载文本失败时,通过纠错模型对该车载文本中的词语进行更新,得到更新后的车载文本;以及通过正则表达式解析该更新后的车载文本,在该正则表达式解析该更新后车载文本失败时,继续通过深度神经模型识别该更新后的车载文本。
在一些实施例中,该车载语音信号处理装置700还可以用于当通过深度神经模型识别该更新后的车载文本失败时,调用分布式搜索引擎对该更新后的车载文本进行解析处理,得到车载语音信号的目标文本。
在一些实施例中,该车载语音信号处理装置700还可以用于当通过分布式搜索引擎解析该更新后的车载文本失败时,获取预设时间段内与车载语音信号相关的其他车载文本;基于预设时间段内与车载语音信号相关的其他车载文本和该更新后的车载文本,生成关联车载文本;通过正则表达式解析该关联车载文本,在正则表达式解析关联车载文本失败时,继续通过深度神经模型识别关联车载文本。
在一些实施例中,该车载语音信号处理装置700还可以用于判断目标文本中目标词语的数值是否满足预设条件;如果目标词语的数值不满足预设条件,对目标词语的数值进行优化处理,得到满足预设条件的数值;基于优化后的目标文本,生成针对车载语音信号的反馈文本,并向车载终端发送该反馈文本。
图8是本申请实施例的一种电子设备的结构示意图。
如图8所示,该实施例的电子设备800包括:处理器810、存储器820以及存储在该存储器820中并且可在处理器810上运行的计算机程序830。处理器810执行计算机程序830时实现上述各个方法实施例中的步骤。或者,处理器810执行计算机程序830时实现上述各装置实施例中各模块的功能。
电子设备800可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备800可以包括但不仅限于处理器810和存储器820。本领域技术人员可以理解,图8仅仅是电子设备800的示例,并不构成对电子设备800的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器810可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器820可以是电子设备800的内部存储单元,例如,电子设备800的硬盘或内存。存储器820也可以是电子设备800的外部存储设备,例如,电子设备800上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器820还可以既包括电子设备800的内部存储单元也包括外部存储设备。存储器820用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (12)
1.一种车载语音信号处理方法,其特征在于,所述方法包括:
获取所述车载语音信号;
对所述车载语音信号进行语音识别,得到车载文本集合;
确定所述车载文本集合中各车载文本的文本类型;
根据各车载文本的文本类型,调用各文本类型对应的语义解析组件;
通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到所述车载语音信号的目标文本。
2.根据权利要求1所述的方法,其特征在于,根据各车载文本的文本类型,调用各文本类型对应的语义解析组件包括:
在所述车载文本的文本类型为车辆操作类型时,根据所述车辆操作类型,调用车载语义解析组件;或者
在所述车载文本的文本类型为非车辆操作类型时,根据所述非车辆操作类型,调用第三方语义解析组件。
3.根据权利要求1所述的方法,其特征在于,通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到所述车载语音信号的目标文本包括:
通过车载语义解析组件解析该车载文本,得到所述车载语音信号的目标文本;或者
通过第三方语义解析组件解析该车载文本,得到所述车载语音信号的目标文本。
4.根据权利要求3所述的方法,其特征在于,通过所述车载语义解析组件解析该车载文本,得到所述车载语音信号的目标文本包括:
根据所述车载文本,匹配对应的正则表达式;
基于该正则表达式解析该车载文本,得到所述车载语音信号的目标文本。
5.根据权利要求4所述的方法,其特征在于,当通过所述正则表达式解析该车载文本失败时,通过所述车载语义解析组件解析该车载文本,得到所述车载语音信号的目标文本还包括:
通过深度神经网络模型识别该车载文本,得到所述车载文本的特征序列;
根据所述车载文本的特征序列,确定所述车载语音信号的目标文本。
6.根据权利要求5所述的方法,其特征在于,该方法还包括:
当通过所述深度神经网络识别该车载文本失败时,通过纠错模型对该车载文本中的词语进行更新,得到更新后的车载文本;
通过所述正则表达式解析该更新后的车载文本,在所述正则表达式解析该更新后车载文本失败时,继续通过所述深度神经模型识别该更新后的车载文本。
7.根据权利要求6所述的方法,其特征在于,该方法还包括:
当通过所述深度神经模型识别该更新后的车载文本失败时,调用分布式搜索引擎对该更新后的车载文本进行解析处理,得到所述车载语音信号的目标文本。
8.根据权利要求7所述的方法,其特征在于,该方法还包括:
当通过所述分布式搜索引擎解析该更新后的车载文本失败时,获取预设时间段内与所述车载语音信号相关的其他车载文本;
基于所述预设时间段内与所述车载语音信号相关的其他车载文本和该更新后的车载文本,生成关联车载文本;
通过所述正则表达式解析所述关联车载文本,在所述正则表达式解析所述关联车载文本失败时,继续通过所述深度神经模型识别所述关联车载文本。
9.根据权利要求1至8中任一项所述的方法,其特征在于,该方法还包括:
判断所述目标文本中目标词语的数值是否满足预设条件;
如果所述目标词语的数值不满足所述预设条件,对所述目标词语的数值进行优化处理,得到满足所述预设条件的数值;
基于优化后的目标文本,生成针对所述车载语音信号的反馈文本,并向车载终端发送所述反馈文本。
10.一种车载语音信号处理装置,其特征在于,所述装置包括:
获取模块,用于获取所述车载语音信号;
语音识别模块,用于对所述车载语音信号进行语音识别,得到车载文本集合;
文本类型确定模块,用于确定所述车载文本集合中各车载文本的文本类型;
调用模块,用于根据各车载文本的文本类型,调用各文本类型对应的语义解析组件;
解析模块,用于通过各文本类型对应的语义解析组件,解析该文本类型对应的车载文本,得到所述车载语音信号的目标文本。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453513.7A CN116486815A (zh) | 2023-04-25 | 2023-04-25 | 车载语音信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453513.7A CN116486815A (zh) | 2023-04-25 | 2023-04-25 | 车载语音信号处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486815A true CN116486815A (zh) | 2023-07-25 |
Family
ID=87219086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310453513.7A Pending CN116486815A (zh) | 2023-04-25 | 2023-04-25 | 车载语音信号处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486815A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861903A (zh) * | 2023-09-04 | 2023-10-10 | 成都赛力斯科技有限公司 | 车载文本数据纠错方法及装置 |
-
2023
- 2023-04-25 CN CN202310453513.7A patent/CN116486815A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861903A (zh) * | 2023-09-04 | 2023-10-10 | 成都赛力斯科技有限公司 | 车载文本数据纠错方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US10796696B2 (en) | Tailoring an interactive dialog application based on creator provided content | |
CN109961792B (zh) | 用于识别语音的方法和装置 | |
KR20190046623A (ko) | 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
EP3441891A1 (en) | Data source-based service customisation apparatus, method, system, and storage medium | |
CN109671435B (zh) | 用于唤醒智能设备的方法和装置 | |
US11315547B2 (en) | Method and system for generating speech recognition training data | |
CN110956955B (zh) | 一种语音交互的方法和装置 | |
CN110415679A (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN113470619A (zh) | 语音识别方法、装置、介质及设备 | |
CN116486815A (zh) | 车载语音信号处理方法及装置 | |
US11990122B2 (en) | User-system dialog expansion | |
CN112837683B (zh) | 语音服务方法及装置 | |
EP3843090B1 (en) | Method and apparatus for outputting analysis abnormality information in spoken language understanding | |
CN115905497B (zh) | 确定答复语句的方法、装置、电子设备和存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111639160A (zh) | 领域识别的方法、交互的方法、电子设备及存储介质 | |
CN113132214A (zh) | 一种对话方法、装置、服务器及存储介质 | |
CN115048517A (zh) | 对话流程的质检方法及电子设备和存储介质 | |
CN117059096A (zh) | 车载语义结果的处理方法及装置 | |
US20210406463A1 (en) | Intent detection from multilingual audio signal | |
CN118136004A (zh) | 一种语音引导方法、装置、电子设备及可读存储介质 | |
CN117112752A (zh) | 基于车载手册对话方法、装置、电子设备及可读存储介质 | |
CN116913262A (zh) | 车载语义理解的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240117 Address after: No. 13 Xingxiang Road, Zengjia Town, High tech Zone, Shapingba District, Chongqing, 400039 Applicant after: Chongqing Selis Phoenix Intelligent Innovation Technology Co.,Ltd. Address before: 610095 No. 2901, floor 29, unit 1, building 1, No. 151, Tianfu Second Street, high tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan Province Applicant before: Chengdu Thalys Technology Co.,Ltd. |