CN109618305A - 移动终端与车载终端的同步语音识别系统及方法 - Google Patents
移动终端与车载终端的同步语音识别系统及方法 Download PDFInfo
- Publication number
- CN109618305A CN109618305A CN201811378005.2A CN201811378005A CN109618305A CN 109618305 A CN109618305 A CN 109618305A CN 201811378005 A CN201811378005 A CN 201811378005A CN 109618305 A CN109618305 A CN 109618305A
- Authority
- CN
- China
- Prior art keywords
- recording
- speech recognition
- audio stream
- stream data
- recognition module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 9
- 230000005540 biological transmission Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000005266 casting Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/48—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W56/00—Synchronisation arrangements
- H04W56/001—Synchronization between nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W76/00—Connection management
- H04W76/10—Connection setup
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种移动终端与车载终端的同步语音识别系统,语音识别模块将获取的预播放的文本转换成音频流数据,并将音频流数据传输给录音播放控制器;录音播放控制器将收到的音频流数据通过音响进行播放;录音播放控制器根据应用程序编程接口获取当前音频流数据播放进度,并通过当前音频流数据播放进度判断播放是否完成;录音播放控制器在音频流数据播放完成后发送音频流数据播放完毕通知信号给语音识别模块,语音识别模块在接收到音频流数据播放完毕通知信号后通过向麦克风发送录音开启指令,麦克风开启录音后将录制的语音信息传输给语音识别模块进行语音识别。本发明录音机录制的数据非常干净,提高了用户体验。
Description
技术领域
本发明涉及计算机技术领域,具体地指一种移动终端与车载终端的同步语音识别系统及方法。
背景技术
随着技术的不断发展,当下移动终端(手机)与其它计算机类终端的通讯交互很常见,例如目前很多汽车的车载终端(TCU,Transmission Control Unit)都有蓝牙功能,车载终端与移动终端之间可以通过蓝牙进行连接,移动终端使用语音助手时,声音通过蓝牙在车载音响中播放,但是车载蓝牙一般都会对声音进行缓存,这样就会造成播放的时间线比手机自身播放延迟,这样车载终端无法准确的知道何时开启录音,如果录音开启的过早就会把蓝牙最后播放的文字录制进去,如果开启的过晚,就会漏录制用户的语音,影响了客户的使用体验。
发明内容
本发明的目的就是要提供一种移动终端与车载终端的同步语音识别系统及方法,本发明在语音识别播放时,把播放的内容发送给车载终端播放,车载终端播放完毕后,通知移动终端开始录音,并把车载终端的录音数据传递给移动终端开始识别,实现了车载终端对移动终端语音数据的同步播放。
为实现此目的,本发明所设计的一种移动终端与车载终端的同步语音识别系统,它包括计算机类终端的录音播放控制器和移动终端的语音识别模块,所述录音播放控制器与语音识别模块之间建立数据传输通道;
所述语音识别模块用于将获取的预播放的文本转换成音频流数据,并将音频流数据传输给录音播放控制器;
所述录音播放控制器用于将收到的音频流数据通过音响进行播放;录音播放控制器还用于根据应用程序编程接口获取当前音频流数据播放进度,并通过当前音频流数据播放进度判断播放是否完成;
录音播放控制器还用于在音频流数据播放完成后发送音频流数据播放完毕通知信号给语音识别模块,语音识别模块还用于在接收到音频流数据播放完毕通知信号后通过录音播放控制器向麦克风发送录音开启指令,麦克风开启录音后将录制的语音信息通过录音播放控制器传输给语音识别模块进行语音识别。
本发明的技术方案中,车载终端的录音播报控制器收到音频流后,开始播报,判断播报完成后,立即发送播放完毕指令给手机;同时开启车载终端上的录音机,把录音数据传递给移动终端的语音识别模块;由于此时声音刚好播放完成,相比传统的蓝牙传输方案(蓝牙会把播报的末尾1~2秒播报录制进来,干扰语音识别数据),本发明录音机录制的数据非常干净,大幅提高语音识别准确率,提高了用户体验。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程图。
其中,1—计算机类终端、1.1—录音播放控制器、1.2—麦克风、1.3—音响、2—移动终端、2.1—语音识别模块。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细说明:
一种移动终端与车载终端的同步语音识别系统,如图1所示,它包括计算机类终端1的录音播放控制器1.1和移动终端2的语音识别模块2.1,所述录音播放控制器1.1与语音识别模块2.1之间建立数据传输通道(USB或WIFI互联通道,互联技术为目前行业内现有的技术,如专利201310095336.6所揭露);
所述语音识别模块2.1用于将获取的预播放的文本(由手机内的应用程序预制,主要为对用户的询问句式,如需要帮忙么之类)转换成音频流数据,并将音频流数据传输给录音播放控制器1.1;
所述录音播放控制器1.1用于将收到的音频流数据通过音响1.3进行播放;录音播放控制器1.1还用于根据应用程序编程接口(API,Application Programming Interface)获取当前音频流数据播放进度,并通过当前音频流数据播放进度判断播放是否完成;
录音播放控制器1.1还用于在音频流数据播放完成后发送音频流数据播放完毕通知信号给语音识别模块2.1,语音识别模块2.1还用于在接收到音频流数据播放完毕通知信号后通过录音播放控制器1.1向麦克风1.2(所述麦克风1.2为装有相应的软件驱动的单个麦克风或麦克风阵列)发送录音开启指令,麦克风1.2开启录音后将录制的语音信息通过录音播放控制器1.1传输给语音识别模块2.1进行语音识别。
上述技术方案中,所述语音识别模块2.1用于将录制的语音信息通过语音识别技术(ASR,Automatic Speech Recognition)转换成语义文本。
上述技术方案中,所述语音识别模块2.1可利用科大讯飞或其他方案商的语音识别引擎进行语义分析,并根据语义分析的结果发出移动终端应用程序控制指令。
上述技术方案中,所述语音识别模块2.1用于将获取的预播放的文本通过文字转语音技术(TTS,text-to-speech)转换成音频流数据。
上述技术方案中,手机的语音识别模块2.1开始工作时,首先把要播报的文本转成音频流;此操作采用TTS技术可以在毫秒级处理完成,需要播放的音频数据产生后,立即传输给计算机类终端1的录音播放控制器1.1;相比于蓝牙传输方案,此方案省去了在手机端播放此音频,蓝牙模块再重新采样后,再把音频数据传输给计算机类终端的动作,语音识别的实时性大幅提高。
上述技术方案中,计算机类终端1可以为智能仪表盘、DA(Display Audio)屏系统、智能后视镜系统、导航仪或头枕屏或平视显示器(Head Up Display)等。移动终端可以为智能手机或平板电脑等。录音播放控制器1.1通过在车载终端内由JAVA或C++编写构建。语音识别模块2.1可由科大讯飞或其他方案商提供的语音识别引擎软件开发工具包(SDK,Software Development Kit)编写构建。
上述技术方案中,录音播放控制器1.1根据应用程序编程接口获取当前音频流数据播放进度,当进度达到100%时判断播放完成。
一种基于上述系统的移动终端与车载终端的同步语音识别方法,如图2所示,它包括如下步骤:
步骤1:计算机类终端1的录音播放控制器1.1与移动终端2的语音识别模块2.1之间建立数据传输通道;
步骤2:语音识别模块2.1将获取的预播放的文本转换成音频流数据,并将音频流数据传输给录音播放控制器1.1;
步骤3:所述录音播放控制器1.1将收到的音频流数据通过音响1.3进行播放;录音播放控制器1.1根据应用程序编程接口获取当前音频流数据播放进度,并通过当前音频流数据播放进度判断播放是否完成;如果播放完成则进入步骤4,如果播放没有完成则继续播放;
步骤4:录音播放控制器1.1在音频流数据播放完成后发送音频流数据播放完毕通知信号给语音识别模块2.1,语音识别模块2.1在接收到音频流数据播放完毕通知信号后通过录音播放控制器1.1向麦克风1.2发送录音开启指令,麦克风1.2开启录音后将录制的语音信息通过录音播放控制器1.1传输给语音识别模块2.1进行语音识别;
步骤5:语音识别模块2.1将录制的语音信息通过语音识别技术转换成语义文本;
步骤6:所述语音识别模块2.1利用语音识别引擎进行语义分析,并根据语义分析的结果发出移动终端应用程序控制指令。
上述技术方案中,音频流数据播放完毕通知信号,录音开启指令,移动终端应用程序控制指令均采用自定义的TCP(Transmission Control Protocol,传输控制协议)或UDP(User Datagram Protocol用户数据报协议)数据包。上述录音播放控制器1.1与语音识别模块2.1之间建立的数据传输通道,为基于TCP/UDP协议的数据传输通道。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (7)
1.一种移动终端与车载终端的同步语音识别系统,它包括计算机类终端(1)的录音播放控制器(1.1)和移动终端(2)的语音识别模块(2.1),所述录音播放控制器(1.1)与语音识别模块(2.1)之间建立数据传输通道;
所述语音识别模块(2.1)用于将获取的预播放的文本转换成音频流数据,并将音频流数据传输给录音播放控制器(1.1);
所述录音播放控制器(1.1)用于将收到的音频流数据通过音响(1.3)进行播放;录音播放控制器(1.1)还用于根据应用程序编程接口获取当前音频流数据播放进度,并通过当前音频流数据播放进度判断播放是否完成;
录音播放控制器(1.1)还用于在音频流数据播放完成后发送音频流数据播放完毕通知信号给语音识别模块(2.1),语音识别模块(2.1)还用于在接收到音频流数据播放完毕通知信号后通过录音播放控制器(1.1)向麦克风(1.2)发送录音开启指令,麦克风(1.2)开启录音后将录制的语音信息通过录音播放控制器(1.1)传输给语音识别模块(2.1)进行语音识别。
2.根据权利要求1所述的移动终端与车载终端的同步语音识别系统,其特征在于:所述语音识别模块(2.1)用于将录制的语音信息通过语音识别技术转换成语义文本。
3.根据权利要求1所述的移动终端与车载终端的同步语音识别系统,其特征在于:所述语音识别模块(2.1)利用语音识别引擎进行语义分析,并根据语义分析的结果发出移动终端应用程序控制指令。
4.根据权利要求1所述的移动终端与车载终端的同步语音识别系统,其特征在于:所述语音识别模块(2.1)用于将获取的预播放的文本通过文字转语音技术转换成音频流数据。
5.根据权利要求1所述的移动终端与车载终端的同步语音识别系统,其特征在于:录音播放控制器(1.1)根据应用程序编程接口获取当前音频流数据播放进度,当进度达到100%时判断播放完成。
6.一种基于权利要求1所述系统的移动终端与车载终端的同步语音识别方法,其特征在于,它包括如下步骤:
步骤1:计算机类终端(1)的录音播放控制器(1.1)与移动终端(2)的语音识别模块(2.1)之间建立数据传输通道;
步骤2:语音识别模块(2.1)将获取的预播放的文本转换成音频流数据,并将音频流数据传输给录音播放控制器(1.1);
步骤3:所述录音播放控制器(1.1)将收到的音频流数据通过音响(1.3)进行播放;录音播放控制器(1.1)根据应用程序编程接口获取当前音频流数据播放进度,并通过当前音频流数据播放进度判断播放是否完成;如果播放完成则进入步骤4,如果播放没有完成则继续播放;
步骤4:录音播放控制器(1.1)在音频流数据播放完成后发送音频流数据播放完毕通知信号给语音识别模块(2.1),语音识别模块(2.1)在接收到音频流数据播放完毕通知信号后通过录音播放控制器(1.1)向麦克风(1.2)发送录音开启指令,麦克风(1.2)开启录音后将录制的语音信息通过录音播放控制器(1.1)传输给语音识别模块(2.1)进行语音识别。
7.根据权利要求6所述的移动终端与车载终端的同步语音识别方法,其特征在于:所述步骤4后还包括步骤5:语音识别模块(2.1)将录制的语音信息通过语音识别技术转换成语义文本;
步骤6:所述语音识别模块(2.1)利用语音识别引擎进行语义分析,并根据语义分析的结果发出移动终端应用程序控制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811378005.2A CN109618305B (zh) | 2018-11-19 | 2018-11-19 | 移动终端与车载终端的同步语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811378005.2A CN109618305B (zh) | 2018-11-19 | 2018-11-19 | 移动终端与车载终端的同步语音识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109618305A true CN109618305A (zh) | 2019-04-12 |
CN109618305B CN109618305B (zh) | 2021-10-12 |
Family
ID=66003472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811378005.2A Active CN109618305B (zh) | 2018-11-19 | 2018-11-19 | 移动终端与车载终端的同步语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109618305B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540186A (zh) * | 2020-04-09 | 2020-08-14 | 安克创新科技股份有限公司 | 对苹果设备进行播放控制的方法、系统和计算机存储介质 |
CN115273808A (zh) * | 2021-04-14 | 2022-11-01 | 上海博泰悦臻网络技术服务有限公司 | 声音处理方法、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140102877A1 (en) * | 2012-10-17 | 2014-04-17 | Semiconductor Energy Laboratory Co., Ltd. | Method for using sputtering target and method for manufacturing oxide film |
CN104113123A (zh) * | 2014-06-24 | 2014-10-22 | 广东思派康电子科技有限公司 | 一种智能车载充电器 |
CN106603383A (zh) * | 2016-11-30 | 2017-04-26 | 广东小天才科技有限公司 | 一种车载即时通讯方法及系统 |
-
2018
- 2018-11-19 CN CN201811378005.2A patent/CN109618305B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140102877A1 (en) * | 2012-10-17 | 2014-04-17 | Semiconductor Energy Laboratory Co., Ltd. | Method for using sputtering target and method for manufacturing oxide film |
CN104113123A (zh) * | 2014-06-24 | 2014-10-22 | 广东思派康电子科技有限公司 | 一种智能车载充电器 |
CN106603383A (zh) * | 2016-11-30 | 2017-04-26 | 广东小天才科技有限公司 | 一种车载即时通讯方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540186A (zh) * | 2020-04-09 | 2020-08-14 | 安克创新科技股份有限公司 | 对苹果设备进行播放控制的方法、系统和计算机存储介质 |
CN115273808A (zh) * | 2021-04-14 | 2022-11-01 | 上海博泰悦臻网络技术服务有限公司 | 声音处理方法、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109618305B (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9177557B2 (en) | Singular value decomposition for improved voice recognition in presence of multi-talker background noise | |
US8831938B2 (en) | Speech recognition adjustment based on manual interaction | |
CN109285543A (zh) | 一种车载多媒体导航仪语音自动化测试系统 | |
US8315866B2 (en) | Generating representations of group interactions | |
WO2016008457A1 (zh) | 一种第三方应用的会议处理方法和通讯设备 | |
JP2019535044A (ja) | ハイブリッド音声認識複合性能自動評価システム | |
US20070054702A1 (en) | Mobile device enhancement via a vehicular telematics system | |
CN111833875B (zh) | 一种嵌入式语音交互系统 | |
US20150056951A1 (en) | Vehicle telematics unit and method of operating the same | |
CN109618305A (zh) | 移动终端与车载终端的同步语音识别系统及方法 | |
JP2006301223A (ja) | 音声認識システム及び音声認識プログラム | |
JPH10187198A (ja) | ハンズフリー音声メモシステムおよび方法 | |
CN107436680B (zh) | 用于切换车载设备的应用模式的方法和设备 | |
CN108257610A (zh) | 一种车机及对应的语音传输方法及系统 | |
CN208675495U (zh) | 车辆及其多媒体播放自动控制的播放设备 | |
CN109922290A (zh) | 用于车辆的音视频合成方法、装置、系统、设备及车辆 | |
US11580954B2 (en) | Systems and methods of handling speech audio stream interruptions | |
CN106850574B (zh) | 消息传输方法及系统、发送端设备与接收端设备 | |
CN113539265A (zh) | 一种控制方法、装置、设备及存储介质 | |
CN107306253A (zh) | 交通工具控制方法、控制装置与控制系统 | |
WO2022179253A1 (zh) | 一种设备的语音操作方法、装置和电子设备 | |
US8244538B2 (en) | Measuring double talk performance | |
CN104980553B (zh) | 语音消息再现装置以及语音消息再现方法 | |
JPH0758858A (ja) | 遠隔会議システム | |
CN112256947B (zh) | 一种推荐信息的确定方法、装置、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Synchronous speech recognition system and method for mobile terminal and vehicle terminal Effective date of registration: 20230222 Granted publication date: 20211012 Pledgee: Wuhan area branch of Hubei pilot free trade zone of Bank of China Ltd. Pledgor: WUHAN CARBIT INFORMATION Co.,Ltd. Registration number: Y2023420000064 |