CN102456305A - 一种基于语音识别的便携式智能多媒体导览系统 - Google Patents
一种基于语音识别的便携式智能多媒体导览系统 Download PDFInfo
- Publication number
- CN102456305A CN102456305A CN2010105106875A CN201010510687A CN102456305A CN 102456305 A CN102456305 A CN 102456305A CN 2010105106875 A CN2010105106875 A CN 2010105106875A CN 201010510687 A CN201010510687 A CN 201010510687A CN 102456305 A CN102456305 A CN 102456305A
- Authority
- CN
- China
- Prior art keywords
- signal
- portable intelligent
- navigation system
- intelligent multimedia
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 2
- GPUADMRJQVPIAS-QCVDVZFFSA-M cerivastatin sodium Chemical compound [Na+].COCC1=C(C(C)C)N=C(C(C)C)C(\C=C\[C@@H](O)C[C@@H](O)CC([O-])=O)=C1C1=CC=C(F)C=C1 GPUADMRJQVPIAS-QCVDVZFFSA-M 0.000 claims 1
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明涉及基于语音识别的便携式个人导览与信息处理装置,本发明还涉及可以使用在便携式导览终端中的声音识别装置,本发明特别适用于自动导览、自动解说等领域。使用声音识别装置作为导览的触发装置具有十分重要的意义,它对提高我国旅游景点的服务质量有很大帮助。传统的便携式导览设备使用时需手持并需拨号或者主动靠近导览信息点,故残障人士使用时有很大不便,采用声音识别则可以解决部分观众的问题,游客可以享受到更为便捷和人性化的服务。
Description
技术领域
本发明属于博物馆设备领域,具体涉及一种基于语音识别的便携式智能多媒体导览系统。
背景技术
使用声音识别装置作为导览的触发装置具有十分重要的意义,它对提高我国旅游景点的服务质量有很大帮助。传统的便携式导览设备使用时需手持并需拨号或者主动靠近导览信息点,故残障人士使用时有很大不便,采用声音识别则可以解决部分观众的问题,游客可以享受到更为便捷和人性化的服务。
典型的声音识别系统一方面包括结合有用于获取并处理代表待识别的声音数据的音频信号的装置的音频处理器;另一方面包括语言解码器,该语言解码器包括声音识别引擎本身。根据音频处理器预处理的音频信号,该引擎利用声音模型和语言模型进行识别。
发明内容
本发明的语言模型主要建立在中文/英文数字基础之上,信号内容为单个或连续的数字序列,在检测数字语音的端点后,即对数字语音的每一帧进行声学参数分析,提取特征参数。此过程忽略同一个数字串由不同说话者所发出的音调和响度的不同,重点分析语音的频域特征、检测每帧的频谱特征,以低语频来代表主要频率的分辨能力。语音信号的动态特征可以通过LPC特征和MFCC特征等静态特征的差分谱来描述,整个系统的语音特征矢量由12阶倒谱系数、12阶差分倒谱系数、能量归一化系数及其差分系数组成。
本发明通过采集用户的语音指令,经过语音识别系统分析处理,将用户的语音指令转换成系统能够识别的控制信号。
系统在接收到控制信号之后即进行对应指令的操作,包括播放对应的导览文件内容、进入WLAN查询相关的藏品(展品、景点)信息。
上述导览信息内容通过解码之后经由导览装置的屏幕和听筒提供给观众赏析。
附图说明
图1是本发明所述系统的工作流程及结构图;
图2是本发明所述便携终端的外观设计图。
图中(01)获取电路,(11)拾音器,(12)信号获取,(13)语音解码,(02)识别引擎,(21)声音模型,(22)语言模型,(03)外部控制模块,(31)数字小键盘,(32)手动控制器,(04)主控电路,(41)只读存储器,(42)随机存储器,(43)MCU,(05)功能模块,(51)显示屏,(52)MP4解码芯片,(61)扩音器,(62)显示屏,(63)音频输入口,(64)-(68)控制按键,(69)麦克风,(70)miniUSB接口。
具体实施方式
下面结合附图对本发明做进一步的说明:
根据特定实施例,数据信号终止符由用户通过手动控制手动控制器(32)激活信号发出。
根据特定实施例,声音数据中止符发生装置包括用户控制的手动控制器和开关。
根据特定实施例,可以设置手动控制器以使微处理器能够识别声音信号的载波从存在到不存在的变化。
图1为实现声音识别的多媒体导览装置的示意图
图1所示的系统装置包括:传统数字按键小键盘(31)、显示屏(51)、音视频解码芯片(52)、微处理器(43)、拾音器(11)、获取电路(12)、只读存储器(41)和随机存储器(42)。
操作方式为:系统通过31、11和32获取语音指令及相关控制信息,02和43对获取的信息指令进行分析处理,并通过41、42、42进行执行,最终通过51与产生用户需要的反馈。
图2所示的为本发明所述导览装置的外观设计图。
图中所示61为扩音器,63为音频输出口,62为显示屏,三者为用户获取导览信息的直接途径。
图中64-68为控制按键,其中64为语音控制信号终止符发出按键。
图中69为麦克风,内连语音预处理装置和识别装置,通过其获取的信号将直接控制导览器导览功能的运作。
图中70为miniUSB口,起内置数据输入输出的作用。
导览器内还可添加RFID、WLAN等其他组件。
Claims (6)
1.一种基于语音识别的便携式智能多媒体导览系统,它是这样实现的,其特征在于包括:
1)获取电路(01):包括拾音器(11)、信号获取电路(12),用于获取用户发出的包括声音数据的信号,并清除背景噪音的影响;
2)识别引擎(02):包括声音模型(21)和语言模型(22)对经过处理的可识别的用户声音数据进行识别处理;
3)分析装置:包括语音解码器(13)和MCU(33)用于分析用户发出的声音数据的完整性和判断终止条件。
2.根据权利要求1所述一种基于语音识别的便携式智能多媒体导览系统,其特征在于,用于分析声音数据和识别声音数据的分析装置及识别引擎基于对接收到声音数据信号终止符结束,并对先前储存的声音数据进行对比分析和识别。
3.根据权利要求2所述的一种基于语音识别的便携式智能多媒体导览系统,其特征在于识别引擎工作原理是基于分析语音信号的LPC特征和MFCC特征的差分谱从而得到与特定人无关的语音识别结果。
4.根据权利要求1至3所述一种基于语音识别的便携式智能多媒体导览系统,其特征在于数据信号的终止符由用户通过手动控制器(34)手动产生。
5.根据权利要求1所述一种基于语音识别的便携式智能多媒体导览系统,其特征在于,声音识别处理的方法包括以下步骤:
a)获取包括声音数据和终止符的信号;
b)对获取的信号分多个阶段进行分析处理以获取代表其的数字或数字序列;
c)基于用户触发的声音数据信号终止符,对至少一个阶段的超前进行调节。
6.根据权利要求1或5所述一种基于语音识别的便携式智能多媒体导览系统,其特征在于,分析获取信号的步骤包括确定确定获取的信号代表的数字的候选数字或序列,以及从候选数字之中选择正确的数字或者数字序列的阶段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105106875A CN102456305A (zh) | 2010-10-18 | 2010-10-18 | 一种基于语音识别的便携式智能多媒体导览系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105106875A CN102456305A (zh) | 2010-10-18 | 2010-10-18 | 一种基于语音识别的便携式智能多媒体导览系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102456305A true CN102456305A (zh) | 2012-05-16 |
Family
ID=46039446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105106875A Pending CN102456305A (zh) | 2010-10-18 | 2010-10-18 | 一种基于语音识别的便携式智能多媒体导览系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102456305A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150981A (zh) * | 2013-01-02 | 2013-06-12 | 曲东阳 | 一种自助语音导游系统及其触发方法 |
CN108597495A (zh) * | 2018-03-15 | 2018-09-28 | 维沃移动通信有限公司 | 一种处理语音数据的方法及装置 |
CN109166225A (zh) * | 2018-10-19 | 2019-01-08 | 沈洁 | 一种智能多媒体导览系统 |
-
2010
- 2010-10-18 CN CN2010105106875A patent/CN102456305A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150981A (zh) * | 2013-01-02 | 2013-06-12 | 曲东阳 | 一种自助语音导游系统及其触发方法 |
CN108597495A (zh) * | 2018-03-15 | 2018-09-28 | 维沃移动通信有限公司 | 一种处理语音数据的方法及装置 |
CN108597495B (zh) * | 2018-03-15 | 2020-04-14 | 维沃移动通信有限公司 | 一种处理语音数据的方法及装置 |
CN109166225A (zh) * | 2018-10-19 | 2019-01-08 | 沈洁 | 一种智能多媒体导览系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
CN107895578A (zh) | 语音交互方法和装置 | |
US9769296B2 (en) | Techniques for voice controlling bluetooth headset | |
CN100559463C (zh) | 声音识别用辞典编制装置和声音识别装置 | |
CN109378006B (zh) | 一种跨设备声纹识别方法及系统 | |
CN107623614A (zh) | 用于推送信息的方法和装置 | |
CN107134286A (zh) | 基于语音交互的无线音频播放方法、音乐播放器及存储介质 | |
CN105405439A (zh) | 语音播放方法及装置 | |
CN102237087B (zh) | 语音控制方法和语音控制装置 | |
CN102568478A (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
CN107274897A (zh) | 语音操控方法与移动终端装置 | |
CN107613132A (zh) | 语音接听方法与移动终端装置 | |
CN108198569A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN106796785A (zh) | 用于产生声音检测模型的声音样本验证 | |
CN110097890A (zh) | 一种语音处理方法、装置和用于语音处理的装置 | |
CN110503968A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN102202082A (zh) | 车载通信系统及方法 | |
CN103546790A (zh) | 基于移动终端与互动电视语言交互的方法及系统 | |
CN110444190A (zh) | 语音处理方法、装置、终端设备及存储介质 | |
CN107609034A (zh) | 一种智能音箱的音频播放方法、音频播放装置及存储介质 | |
CN110223677A (zh) | 空间音频信号滤波 | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理系统 | |
CN104751847A (zh) | 一种基于声纹识别的数据获取方法及系统 | |
CN109147820A (zh) | 车载音响控制方法、装置、电子设备及存储介质 | |
CN104873062A (zh) | 一种具有语音控制功能的水杯 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
DD01 | Delivery of document by public notice |
Addressee: Shanghai Fulai Information Technology Co., Ltd. Document name: Notification of before Expiration of Request of Examination as to Substance |
|
DD01 | Delivery of document by public notice |
Addressee: Shanghai Fulai Information Technology Co., Ltd. Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120516 |