CN111833875B - 一种嵌入式语音交互系统 - Google Patents
一种嵌入式语音交互系统 Download PDFInfo
- Publication number
- CN111833875B CN111833875B CN202010662649.5A CN202010662649A CN111833875B CN 111833875 B CN111833875 B CN 111833875B CN 202010662649 A CN202010662649 A CN 202010662649A CN 111833875 B CN111833875 B CN 111833875B
- Authority
- CN
- China
- Prior art keywords
- module
- audio
- voice
- result
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 34
- 238000003786 synthesis reaction Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000008030 elimination Effects 0.000 claims description 8
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000006855 networking Effects 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种嵌入式语音交互系统,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块,所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除;本软件音频输入后,进入Preproc信号预处理模块,该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作,提高音频质量。
Description
技术领域
本发明涉及智能语音交互技术领域,具体为一种嵌入式语音交互系统。
背景技术
人工智能的研发和应用进入了高速发展的阶段。其中,智能语音技术可谓是最具前景的领域之一,AI语音交互开始成为了人机交互的重要渠道。而在出行领域,搭载了语音交互技术的嵌入式语音交互软件,也将带来车内人机交互体验的又一次升级,目前市面上的语音交互功能在汽车上的存在感较弱,用户体验做的不够好。相对于市面上的语音交互软件,芯智科技的嵌入式语音交互软件在识别率、识别速度、语音理解能力、对于用户真实需求的感知以及在提升用户体验上要求极高,该软件方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,解决车载垂直场景下,用户导航、电话、娱乐、咨询、社交5大场景的功能诉求,对于用户来说,该语音交互软件无疑是更好的选择。
但是现有技术中,语音交互软件的输入输出模块存在以下问题:
(1)接口和硬件资源相关,可能存在调用冲突;
(2)要考虑音频数据流处理的实时性,避免数据溢出:一方面对AudioIn产生的数据要迅速消费,另一方面要适当控制向AudioOut输出数据的速度;
(3)原始HAL硬件抽象层接口不够易用。
发明内容
针对现有技术存在的不足,本发明的目的就在于提出一种嵌入式语音交互系统,针对以上问题,提出以下解决方案:
(1)调用冲突的问题由Session调度器保证;
(2)引入“消费驱动”的概念:由消费者主动向数据源“Pull”数据,而不是由数据源向消费者“Push”;
(3)引入Buffer,谨慎设计Buffer的大小。
本发明的目的可以通过以下技术方案实现:
一种嵌入式语音交互系统,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块;
所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:
步骤一:对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除;
步骤二:对外界输入的语音进行混响去除;
步骤三:对外界输入的语音进行DOA计算;
步骤四:对外界输入的语音进行VR噪音消除;
步骤五:对外界输入的语音进行蓝牙电话噪音消除;
步骤六:将预处理后的语音的频率和峰值进行监测和记录;
步骤七:将预处理后的音频参数与预处理前的音频参数进行比较;
若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;
若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;
若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;
若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;
所述音频处理模块用于在连续的声音流中,标记出语音的开始时刻和结束时刻,主要用于人声检测,经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块;
所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,用户可以通过语音指令,跟车机连续问答,实现用户需求,具体使用步骤如下:
在离线情况下,经过音频模块处理后的音频经过离线引擎得到本地识别结果,本地ENLU对于输入语句,首先进行意图识别,获取其意图信号,对于本地支持的意图信号,在进一步提取词槽,若仲裁结果为本地ENLU返回结果,则输出到DM模块进行处理;
所述云端语音识别模块用于联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令,具体使用步骤如下:
在联网的情况下,经过音频模块处理后的音频经过在线引擎得到云端识别结果,云端NLU对于输入语句,首先进行意图识别,获取其意图信号,若仲裁结果为云端NLU返回结果,则输出到DM模块进行处理;
所述仲裁模块用于给用户提供最准确的回应结果,会内部进行语义解析结果的仲裁,经过一系列的判断分析,给出最终准确结果,具体分析步骤如下:
SS1:用户的每一次语音交互,仲裁模块从引擎接口适配层接收以下数据:本地LASR识别结果、云端NLU输出结果、本地NLU输出结果;
SS2:首先进行本地ENLU语义解析,对ASR识别结果进行意图识别,获取其域和意图,若对于本地支持的意图,再进一步提取词槽;如果该仲裁结果为本地支持处理的意图,置信度很高,无需等待云端NLU返回结果,直接输出本地ENLU结果;
SS3:若步骤2中,本地置信度低,则等待云端NLU结果,有结果则采用云端NLU结果,否则还是使用本地ENLU结果;
SS4:若步骤2中,本地ENLU无法识别ASR识别结果意图,则等待云端NLU结果,有结果则采用云端NLU结果,若云端服务不可用,则输出不理解;
所述事件路由模块用于将事件转发给正确的接收方,通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块,所述调度模块是指用户和终端的一次完整交互过程,在意图信号到来时,选择对应的调度器进行处理;当不止一个调度器需要运行时,根据优先级来安排调度器运行、排队、打断和恢复;调度器调度的结果是:同一时间只有一个调度器处于运行状态,其他调度器只能处于等待的状态;
所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去,与用户到达交流的目的,当调度器接收到意图信号后,选择对应的调度器进行处理,处理完成以后将数据信号发送至音频输出模块,并将其转化成音频信号输送至语音合成模块,音合成模块将其合成为音频,随后通过音频输出模块输送出去。
进一步地,所述语音合成模块用于人机交互功能的语音提示,当调度模块选择对应的调度器进行处理后,将处理后的数据信号发送至语音合成模块,具体语音合成的方案如下:在线合成、离线合成以及PCM播报;其中在线和离线合成均以文本为输入,将指定文本内容转化为语音播报;PCM播报则直接播报输入的录音段;合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签等多种参数进行设置。
进一步地,所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。
与现有技术相比,本发明的有益效果是:
1、本软件音频输入后,进入信号预处理模块,该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作,提高音频质量;
2、本软件在用音频处理模块确定静音和语音数据的开始和起止点之前,需要对语音数据进行信号预处理,然后再计算语音数据的开始和起止点,经过音频处理模块处理后的音频,可以降低存储或传输的数据量,降低ASR模块的负担从而降低功耗;
3、本软件中本地语音识别模块的功能是在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,例如收音机、本地导航等本地功能,用户都可以通过语音指令,跟车机连续问答,实现用户需求;
4、本软件中云端识别语音模块实现的功能是联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令,为用户带来更智能、人性化的车内语音交互服务体验;
5、本软件中语音合成模块主要支持中文播报,也可对常见的的英文单词进行播报,性能指标较优异,合成消耗时间少,资源占用小,合成后的录音主观听感高于业界平均水平,并且支持发音人的定制。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的原理框图;
图2为本发明的仲裁模块的原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-2所示,一种嵌入式语音交互系统,其特征在于,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块;
所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:
步骤一:对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除;
步骤二:对外界输入的语音进行混响去除;
步骤三:对外界输入的语音进行DOA计算;
步骤四:对外界输入的语音进行VR噪音消除;
步骤五:对外界输入的语音进行蓝牙电话噪音消除;
步骤六:将预处理后的语音的频率和峰值进行监测和记录;
步骤七:将预处理后的音频参数与预处理前的音频参数进行比较;
若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;
若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;
若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;
若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;
所述音频处理模块用于在连续的声音流中,标记出语音的开始时刻和结束时刻,主要用于人声检测,经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块;
所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,用户可以通过语音指令,跟车机连续问答,实现用户需求,具体使用步骤如下:
在离线情况下,经过音频模块处理后的音频经过离线引擎得到本地识别结果,本地ENLU对于输入语句,首先进行意图识别,获取其意图信号,对于本地支持的意图信号,在进一步提取词槽,若仲裁结果为本地ENLU返回结果,则输出到DM模块进行处理;
所述云端语音识别模块用于联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令,具体使用步骤如下:
在联网的情况下,经过音频模块处理后的音频经过在线引擎得到云端识别结果,云端NLU对于输入语句,首先进行意图识别,获取其意图信号,若仲裁结果为云端NLU返回结果,则输出到DM模块进行处理;
所述仲裁模块用于给用户提供最准确的回应结果,会内部进行语义解析结果的仲裁,经过一系列的判断分析,给出最终准确结果,具体分析步骤如下:
SS1:用户的每一次语音交互,仲裁模块从DDFW(引擎接口适配层)接收以下数据:本地LASR识别结果、云端NLU输出结果、本地NLU输出结果;
SS2:首先进行本地ENLU语义解析,对ASR识别结果进行意图识别,获取其域和意图,若对于本地支持的意图,再进一步提取词槽;如果该仲裁结果为本地支持处理的意图,置信度很高,无需等待云端NLU返回结果,直接输出本地ENLU结果;
SS3:若步骤2中,本地置信度低,则等待云端NLU结果,有结果则采用云端NLU结果,否则还是使用本地ENLU结果;
SS4:若步骤2中,本地ENLU无法识别ASR识别结果意图,则等待云端NLU结果,有结果则采用云端NLU结果,若云端服务不可用,则输出不理解;
所述事件路由模块用于将事件转发给正确的接收方,通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块,所述调度模块是指用户和终端的一次完整交互过程,在意图信号到来时,选择对应的调度器进行处理;当不止一个调度器需要运行时,根据优先级来安排调度器运行、排队、打断和恢复。调度器调度的结果是:同一时间只有一个调度器处于运行状态,其他调度器只能处于等待的状态;
所述语音合成模块用于人机交互功能的语音提示,当调度模块选择对应的调度器进行处理后,将处理后的数据信号发送至语音合成模块,具体语音合成的方案如下:在线合成、离线合成以及PCM播报;其中在线和离线合成均以文本为输入,将指定文本内容转化为语音播报;PCM播报则直接播报输入的录音段;合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签等多种参数进行设置;
所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去,与用户到达交流的目的,当调度器接收到意图信号后,选择对应的调度器进行处理,处理完成以后将数据信号发送至音频输出模块,并将其转化成音频信号输送至语音合成模块,音合成模块将其合成为音频,随后通过音频输出模块输送出去;
所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。
本发明工作原理:
本发明中的音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:对外界输入语音的频率和峰值进行监测和记录;对外界输入的语音音频进行回声消除并将回声;对外界输入的语音进行混响去除;对外界输入的语音进行DOA计算;对外界输入的语音进行VR噪音消除;对外界输入的语音进行蓝牙电话噪音消除,将预处理后的语音的频率、峰值和谐波进行监测和记录;将预处理后的音频参数与预处理前的音频参数进行比较,若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;发送至本地语音识别模块和云端语音识别模块通过仲裁模块的处理里后,将音频信号发送至事件路由模块,事件路由模块生成调度信号,并发送至调度模块,调度模块对信号处理后将信号发送语音合成模块,语音合成模块将信号转换为音频并通过音频输出模块输送出去。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (3)
1.一种嵌入式语音交互系统,其特征在于,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块;
所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:
步骤一:对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除;
步骤二:对外界输入的语音进行混响去除;
步骤三:对外界输入的语音进行DOA计算;
步骤四:对外界输入的语音进行VR噪音消除;
步骤五:对外界输入的语音进行蓝牙电话噪音消除;
步骤六:将预处理后的语音的频率和峰值进行监测和记录;
步骤七:将预处理后的音频参数与预处理前的音频参数进行比较;
若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;
若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;
若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;
若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;
所述音频处理模块用于在连续的声音流中,标记出语音的开始时刻和结束时刻,主要用于人声检测,经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块;
所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,用户可以通过语音指令,跟车机连续问答,实现用户需求,具体使用步骤如下:
在离线情况下,经过音频模块处理后的音频经过离线引擎得到本地识别结果,本地ENLU对于输入语句,首先进行意图识别,获取其意图信号,对于本地支持的意图信号,在进一步提取词槽,若仲裁结果为本地ENLU返回结果,则输出到DM模块进行处理;
所述云端语音识别模块用于联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识的跨场景多种语音调令,具体使用步骤如下:
在联网的情况下,经过音频模块处理后的音频经过在线引擎得到云端识别结果,云端NLU对于输入语句,首先进行意图识别,获取其意图信号,若仲裁结果为云端NLU返回结果,则输出到DM模块进行处理;
所述仲裁模块用于给用户提供最准确的回应结果,会内部进行语义解析结果的仲裁,经过一系列的判断分析,给出最终准确结果,具体分析步骤如下:
SS1:用户的每一次语音交互,仲裁模块从引擎接口适配层接收以下数据:本地LASR识别结果、云端NLU输出结果、本地NLU输出结果;
SS2:首先进行本地ENLU语义解析,对ASR识别结果进行意图识别,获取其域和意图,若对于本地支持的意图,再进一步提取词槽;如果该仲裁结果为本地支持处理的意图,置信度很高,无需等待云端NLU返回结果,直接输出本地ENLU结果;
SS3:若步骤2中,本地置信度低,则等待云端NLU结果,有结果则采用云端NLU结果,否则还是使用本地ENLU结果;
SS4:若步骤2中,本地ENLU无法识别ASR识别结果意图,则等待云端NLU结果,有结果则采用云端NLU结果,若云端服务不可用,则输出不理解;
所述事件路由模块用于将事件转发给正确的接收方,通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块,所述调度模块是指用户和终端的一次完整交互过程,在意图信号到来时,选择对应的调度器进行处理;当不止一个调度器需要运行时,根据优先级来安排调度器运行、排队、打断和恢复;调度器调度的结果是:同一时间只有一个调度器处于运行状态,其他调度器只能处于等待的状态;
所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去,与用户到达交流的目的,当调度器接收到意图信号后,选择对应的调度器进行处理,处理完成以后将数据信号发送至音频输出模块,并将其转化成音频信号输送至语音合成模块,音合成模块将其合成为音频,随后通过音频输出模块输送出去。
2.根据权利要求1所述的一种嵌入式语音交互系统,其特征在于,所述语音合成模块用于人机交互功能的语音提示,当调度模块选择对应的调度器进行处理后,将处理后的数据信号发送至语音合成模块,具体语音合成的方案如下:在线合成、离线合成以及PCM播报;其中在线和离线合成均以文本为输入,将指定文本内容转化为语音播报;PCM播报则直接播报输入的录音段;合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签的多种参数进行设置。
3.根据权利要求1所述的一种嵌入式语音交互系统,其特征在于,所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010662649.5A CN111833875B (zh) | 2020-07-10 | 2020-07-10 | 一种嵌入式语音交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010662649.5A CN111833875B (zh) | 2020-07-10 | 2020-07-10 | 一种嵌入式语音交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833875A CN111833875A (zh) | 2020-10-27 |
CN111833875B true CN111833875B (zh) | 2023-06-06 |
Family
ID=72901300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010662649.5A Active CN111833875B (zh) | 2020-07-10 | 2020-07-10 | 一种嵌入式语音交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833875B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112309399B (zh) * | 2020-10-30 | 2023-02-24 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112164392A (zh) * | 2020-11-13 | 2021-01-01 | 北京百度网讯科技有限公司 | 确定显示的识别文本的方法、装置、设备以及存储介质 |
CN112992145B (zh) * | 2021-05-10 | 2021-08-06 | 湖北亿咖通科技有限公司 | 离线在线语义识别仲裁方法、电子设备及存储介质 |
CN114792518A (zh) * | 2022-04-12 | 2022-07-26 | 广西电网有限责任公司 | 一种基于调度域技术的语音识别系统及其方法、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017428A (zh) * | 2006-12-22 | 2007-08-15 | 广东电子工业研究院有限公司 | 一种嵌入式语音交互装置及交互方法 |
CN108305620A (zh) * | 2018-05-09 | 2018-07-20 | 上海蓥石汽车技术有限公司 | 一种依赖大数据的本地云端混合的主动式交互语音识别系统 |
CN110110169A (zh) * | 2018-01-26 | 2019-08-09 | 上海智臻智能网络科技股份有限公司 | 人机交互方法及人机交互装置 |
JP2019185062A (ja) * | 2018-09-10 | 2019-10-24 | 百度在線網絡技術(北京)有限公司 | 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102412523B1 (ko) * | 2017-07-18 | 2022-06-24 | 삼성전자주식회사 | 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버 |
-
2020
- 2020-07-10 CN CN202010662649.5A patent/CN111833875B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017428A (zh) * | 2006-12-22 | 2007-08-15 | 广东电子工业研究院有限公司 | 一种嵌入式语音交互装置及交互方法 |
CN110110169A (zh) * | 2018-01-26 | 2019-08-09 | 上海智臻智能网络科技股份有限公司 | 人机交互方法及人机交互装置 |
CN108305620A (zh) * | 2018-05-09 | 2018-07-20 | 上海蓥石汽车技术有限公司 | 一种依赖大数据的本地云端混合的主动式交互语音识别系统 |
JP2019185062A (ja) * | 2018-09-10 | 2019-10-24 | 百度在線網絡技術(北京)有限公司 | 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 |
Non-Patent Citations (1)
Title |
---|
一种基于云平台的智能机器人语音交互系统设计;林枫亭;罗艺;孔凡立;张燕;乔奕婷;钱泳好;;电子测试(Z1);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111833875A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833875B (zh) | 一种嵌入式语音交互系统 | |
CN106409283B (zh) | 基于音频的人机混合交互系统及方法 | |
CN107277272A (zh) | 一种基于软件app的蓝牙设备语音交互方法及系统 | |
US11871176B2 (en) | Far-field pickup device and method for collecting voice signal in far-field pickup device | |
JP7053687B2 (ja) | ラストマイル等化 | |
CN1220176C (zh) | 用于一种语音识别设备的训练或适配方法 | |
CN107134286A (zh) | 基于语音交互的无线音频播放方法、音乐播放器及存储介质 | |
CN104010267A (zh) | 支持基于翻译的通信服务方法和系统和支持该服务的终端 | |
CN109739971A (zh) | 一种基于微信小程序实现全双工智能语音对话的方法 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN106847291A (zh) | 一种本地和云端相结合的语音识别系统及方法 | |
CN110557451A (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
CN108062212A (zh) | 一种基于场景的语音操作方法及装置 | |
CN107808007A (zh) | 信息处理方法和装置 | |
CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
CN109065049A (zh) | 基于语音交互的智能终端的社交分享方法及系统、智能终端设备 | |
CN108733341A (zh) | 一种语音交互方法及装置 | |
CN101645716B (zh) | 一种具有语音识别功能的车载通讯系统及其识别方法 | |
CN113783771A (zh) | 一种基于微信的ai虚拟人交互方法和系统 | |
CN115148205A (zh) | 一种语音交互方法、系统、电子设备及存储介质 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
CN114005447A (zh) | 一种语音对话交互方法、装置、车辆及介质 | |
CN110534084B (zh) | 一种基于FreeSWITCH的智能语音控制方法及系统 | |
CN212181920U (zh) | 智能语音交互后视镜 | |
CN111933139A (zh) | 一种离在线语音识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |