CN110910888B - 语音识别装置及方法 - Google Patents

语音识别装置及方法 Download PDF

Info

Publication number
CN110910888B
CN110910888B CN201811079026.4A CN201811079026A CN110910888B CN 110910888 B CN110910888 B CN 110910888B CN 201811079026 A CN201811079026 A CN 201811079026A CN 110910888 B CN110910888 B CN 110910888B
Authority
CN
China
Prior art keywords
resonance
parameters
sound wave
optical fiber
cavity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811079026.4A
Other languages
English (en)
Other versions
CN110910888A (zh
Inventor
孟凡
高頔
安青青
刘凌宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Design Institute Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811079026.4A priority Critical patent/CN110910888B/zh
Publication of CN110910888A publication Critical patent/CN110910888A/zh
Application granted granted Critical
Publication of CN110910888B publication Critical patent/CN110910888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

本发明实施例提供一种语音识别装置及方法。所述装置包括:光源、光纤微腔、光谱仪以及处理模块;所述光源用于向所述光纤微腔发射连续谱光;所述光纤微腔用于接收所述连续谱光以及待识别声波;所述光谱仪用于获取所述连续谱光经过所述光纤微腔并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔,并发生谐振时的调制谐振参数;所述处理模块用于根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。本发明解决了现有技术中,进一步提升语音识别产品的识别率,会花费更长时间和成本的问题。

Description

语音识别装置及方法
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别装置及方法。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的逐渐兴起,语音识别作为AI领域的一个重要分支也发展迅速。语音识别改变了人与机器交互的传统模式,通过特征提取、模型建立以及模式匹配等技术操作,将人类语言直接与机器进行通信,提供了更加便捷的用户体验。
具体地,语音识别是一种深度算法技术,主要涉及声学模型和语言模型的建立和优化,在保证声学模型符合要求的前提下用语言模型进行深度计算及优化。然而,目前,语音识别产品的识别率已经到达一个瓶颈状态,已接近于人类语音识别极限,更进一步提升会花费更长时间和成本。为了解决这个问题,一些生产厂家以屏幕交互的方式来弥补这种不足,但由于语音识别的声学模型结构单一、标准严格,屏幕交互的方式会造成整个产品结构的复杂,同时不适用于人体习惯性操作,灵活性和用户体验感较差。
发明内容
本发明实施例提供一种语音识别装置及方法,用以解决现有技术中,进一步提升语音识别产品的识别率,会花费更长时间和成本的问题。
一方面,本发明实施例提供一种语音识别装置,所述装置包括:光源、光纤微腔、光谱仪以及处理模块;
所述光源用于向所述光纤微腔发射连续谱光;
所述光纤微腔用于接收所述连续谱光以及待识别声波;其中,所述光纤微腔表面覆盖有在受到声波和/或光波调制时发生形变的石墨烯膜;
所述光谱仪用于获取所述连续谱光经过所述光纤微腔并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
所述处理模块用于根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
另一方面,本发明实施例提供一种语音识别方法,应用于上述语音识别装置,所述方法包括:
控制所述语音识别装置的光源向所述语音识别装置的光纤微腔发射连续谱光;
获取所述连续谱光经过所述光纤微腔并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语音识别方法中的步骤。
再一方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语音识别方法中的步骤。
本发明实施例提供的语音识别装置及方法,光源向光纤微腔发射连续谱光,连续谱光以及待识别声波经过光纤微腔发生谐振;光谱仪获取连续谱光经过所述光纤微腔并发生谐振时的原始谐振参数,以及连续谱光以及待识别声波同时经过光纤微腔并发生谐振时的调制谐振参数;处理模块根据所述原始谐振参数以及调制谐振参数,得到声波参数,并进一步与预设的声波模板匹配得到待识别声波的文本信息;通过将语音信号转换为光学信号,最终转化为电信号,实现语音识别功能。光纤微腔的石墨烯膜使得信号转换的数量级为纳米量级的光信号,提高了语音识别装置的灵敏度和测量精度;通过波长偏移量表征声波振幅,以及波长变化率分表征声波频率,实现由光信号参数表征声波参数,语音识别过程简单便捷,且该装置结构简单,成本相对较低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别装置的框图之一;
图2为本发明实施例的第一示例的光纤微腔示意图;
图3为本发明实施例的第二示例的场景示意图;
图4为本发明实施例的第三示例的过程示意图;
图5为本发明实施例提供的语音识别装置的框图之二;
图6为本发明实施例提供的语音识别方法的流程示意图;
图7为本发明实施例的第四示例的流程示意图;
图8为本发明实施例提供的电子设备的结构示意图。
附图标记说明:
101、光源;102、光纤微腔;103、光谱仪;104、处理模块;105、环形器;106、声源接收装置;201、单模光纤;202、石英管;203、石墨烯膜。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
图1示出了本发明实施例提供的一种语音识别装置的框图。
如图1所示,本发明实施例提供的语音识别装置,所述装置包括:光源101、光纤微腔102、光谱仪103以及处理模块104;
所述光源101用于向所述光纤微腔102发射连续谱光;连续谱光指光的频率在一预设范围内是连续的;可选地,光源101可以是发光二极管(Light Emitting Diode,LED)光源,也可以是激光光源。
所述光纤微腔102用于接收所述连续谱光以及待识别声波;其中,所述光纤微腔102表面覆盖有在受到声波和/或光波调制时发生形变的石墨烯膜;石墨烯膜覆盖在光纤微腔102表面形成了一个光学谐振腔。
具体地,作为第一示例,参见图2,光纤微腔102为单模光纤201,由石墨烯膜203覆盖在石英管202上形成微腔,石墨烯是由sp3束缚态碳原子组成的单层二维六角形网状结构,在光学、机械、电学等性能方面均具有多重优异特性。作为一种零带隙材料,其厚度只有0.35nm,保证了它可与互补金属氧化物半导体(Complementary Metal OxideSemiconductor,CMOS)器件高度集成。石墨烯可以吸收从紫外到太赫兹波段的入射光,其对可见光的垂直吸收率为2.3%,且多次通过吸收率线性叠加,保证了声波和/或光波的高通过效率。
所述光谱仪103用于获取所述连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔102,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
作为第二示例,参见图3,根据光学谐振腔的谐振条件可知,当谐振腔光程s满足s=mλ(其中,λ为波长,m为整数)时,光会发生谐振,且s=nL为谐振腔光程(n为介质折射率,L为谐振腔的物理长度),初始腔长时对应的谐振模式如图3中λ1所对应曲线所示。由于石墨烯具有优异的力学性能,当受到声波调制时,其形变将引起谐振腔长的改变,当谐振腔长度L发生变化时,谐振模式会随之改变,形成图中λ2、λ3所对应曲线的谐振模式。
而经过光纤微腔102的光波(或声波)被光谱仪103所吸收,光谱仪103获取其谐振参数,谐振参数至少包括波长以及谐振时刻。
具体地,仍然参见图3,光谱仪103获取原始谐振参数时,在t1时刻,石墨烯膜未发生形变,满足m1λ1=nL1,其中m1,n为整数。原始谐振参数包括t1以及λ1。
在t2时刻和t3时刻,石墨烯膜受到待识别声波调制,产生谐振模式2(λ2所对应曲线)和谐振模式3(λ3所对应曲线),且谐振模式2满足m2λ2=nL2,谐振模式3满足m3λ3=nL3(m2和m3为整数),光谱仪103分别记录两组调制谐振参数,λ2、t2以及λ3、t3;其中,t1、t2、t3分别为谐振时刻。
所述处理模块104用于根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
具体地,处理模块104根据原始谐振参数以及调制谐振参数,计算得到包括振幅以及频率的声波参数;仍然参考图3,对于振幅特征,通过测量谐振波长偏移量来获得,
对于谐振模式2,Δλ2=|λ2-λ1|;
对于谐振模式3,Δλ3=|λ3-λ1|;
对于语音的频率特征,通过测量谐振波长变化率来获得,
对于谐振模式2,Δt2=|t2-t1|;
对于谐振模式3,Δt3=|t3-t1|;
则谐振模式2的声波参数为(Δλ2,Δt2),谐振模式3的声波参数为(Δλ3,Δt3);
图3中仅以两个声波为例,而实际进行语音识别时,每个待识别声波可能包括多个声波,因此处理模块104可以将光谱仪103输出的声波参数组成一二维矩阵,并将二维矩阵中的声波参数与预设的声波模板进行匹配,得到所述待识别声波对应的文本信息。
预设的声波模板中包括多个声波参数样本,且每个声波参数样本对应一文本。
本发明的上述实施例中,光源101向光纤微腔102发射连续谱光,连续谱光以及待识别声波经过光纤微腔102发生谐振;光谱仪103获取连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及连续谱光以及待识别声波同时经过光纤微腔102并发生谐振时的调制谐振参数;处理模块104根据所述原始谐振参数以及调制谐振参数,得到声波参数,并进一步与预设的声波模板匹配得到待识别声波的文本信息;通过将语音信号转换为光学信号,最终转化为电信号,实现语音识别功能。光纤微腔102的石墨烯膜使得信号转换的数量级为纳米量级的光信号,提高了语音识别装置的灵敏度和测量精度;通过波长偏移量表征声波振幅,以及波长变化率分表征声波频率,实现由光信号参数表征声波参数,语音识别过程简单便捷,且该装置结构简单,成本相对较低。本发明解决了现有技术中,进一步提升语音识别产品的识别率,会花费更长时间和成本的问题。
可选地,本发明实施例中,所述振幅为所述原始谐振参数的波长与所述调制谐振参数的波长之间的波长变化量;
所述频率为所述原始谐振参数的谐振时刻与所述调制谐振参数的谐振时刻的时间变化量。
其中,在仅存在连续谱光经过所述光纤微腔102并发生谐振时的谐振参数作为原始谐振参数,即参考值,后续经过待识别声波的调制,得到调制谐振参数;
由于振幅为腔长改变大小,因此根据原始谐振参数的波长与所述调制谐振参数的波长之间的波长变化量确定振幅;频率为波长改变快慢,根据原始谐振参数的谐振时刻与所述调制谐振参数的谐振时刻的时间变化量确定频率。
可选地,本发明实施例中,所述根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息,包括:
输出所述待识别声波的声波参数的参数矩阵;
将所述参数矩阵的中的元素,依次与预设的声波模板进行匹配,得到所述元素的文本;
将所述文本排列得到所述待识别声波的文本信息。
其中,每个待识别声波可能包括多个声波,因此处理模块104可以将光谱仪103输出的声波参数组成一二维的参数矩阵;并将所述参数矩阵的中的元素,依次与预设的声波模板进行匹配,得到所述元素的对应的文本,再将文本依据参数矩阵中的顺序进行排序,得到待识别声波的文本信息。
预设的声波模板中包括多个声波参数样本,且每个声波参数样本对应一文本,声波模板可以是经过深度学习所得到的。
作为第三示例,参见图4,图4中的处理模块104的工作流程包括:
特征提取、模板匹配、输出结果;
其中,特征提取时主要对语音的频率和振幅参数进行采集;模板匹配主要通过声波模板的数据库进行处理运算,得到匹配的文本信息,最终输出文本信息,实现声-光-电的信号形式转换。
可选地,参见图5,本发明实施例中,所述装置还包括:
声源接收装置106,用于对待识别语音进行滤波,得到所述待识别声波,并将所述待识别声波发送至所述光纤微腔102。
其中,声源接收装置106主要用于接收待识别语音(20Hz~20kHz),同时具有限幅和滤波功能,以防止振幅过大破坏石墨烯膜,以及滤除噪声,提高信号信噪比。
可选地,继续参见图5,本发明实施例中,所述装置还包括:环形器105;
所述环形器105将所述光纤微腔102分别与所述光谱仪103、所述光源101连接,使得所述光源101的光线单向通过所述光纤微腔102,以及所述光纤微腔102的光线单向通过所述光谱仪103。
其中,环形器105用于使光信号单向传输(如图箭头所示),防止信号间干扰;环形器105连接光纤微腔102以及光源101,使得所述光源101的光线单向通过所述光纤微腔102,如图中箭头A所示;以及连接光纤微腔102以及光谱仪103,使得光纤微腔102的光线单向通过所述光谱仪103,如图中箭头B所示。
本发明的上述实施例中,光源101向光纤微腔102发射连续谱光,连续谱光以及待识别声波经过光纤微腔102发生谐振;光谱仪103获取连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及连续谱光以及待识别声波同时经过光纤微腔102并发生谐振时的调制谐振参数;处理模块104根据所述原始谐振参数以及调制谐振参数,得到声波参数,并进一步与预设的声波模板匹配得到待识别声波的文本信息;通过将语音信号转换为光学信号,最终转化为电信号,实现语音识别功能。光纤微腔102的石墨烯膜使得信号转换的数量级为纳米量级的光信号,提高了语音识别装置的灵敏度和测量精度;通过波长偏移量表征声波振幅,以及波长变化率分表征声波频率,实现由光信号参数表征声波参数,语音识别过程简单便捷,且该装置结构简单,成本相对较低。
以上介绍了本发明实施例提供的语音识别装置,下面将结合附图介绍本发明实施例提供的语音识别方法。
参见图6,本发明实施例提供了一种语音识别方法,应用于上述语音识别装置,所述方法包括:
步骤601,控制所述语音识别装置的光源101向所述语音识别装置的光纤微腔102发射连续谱光。
结合图1,控制光源101向所述光纤微腔102发射连续谱光;连续谱光指光的频率在一预设范围内是连续的;可选地,光源101可以是发光二极管(Light Emitting Diode,LED)光源101,也可以是激光光源101。
参见图2,光纤微腔102为单模光纤201,由石墨烯膜203覆盖在石英管202上形成微腔,石墨烯是由sp3束缚态碳原子组成的单层二维六角形网状结构,在光学、机械、电学等性能方面均具有多重优异特性。作为一种零带隙材料,其厚度只有0.35nm,保证了它可与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)器件高度集成。石墨烯可以吸收从紫外到太赫兹波段的入射光,其对可见光的垂直吸收率为2.3%,且多次通过吸收率线性叠加,保证了声波和/或光波的高通过效率。
步骤602,获取所述连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔102,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻。
参见图3,根据光学谐振腔的谐振条件可知,当谐振腔光程s满足s=mλ(其中,λ为波长,m为整数)时,光会发生谐振,且s=nL为谐振腔光程(n为介质折射率,L为谐振腔的物理长度),初始腔长时对应的谐振模式如图3中λ1所对应曲线所示。由于石墨烯具有优异的力学性能,当受到声波调制时,其形变将引起谐振腔长的改变,当谐振腔长度L发生变化时,谐振模式会随之改变,形成图中λ2、λ3所对应曲线的谐振模式。
而经过光纤微腔102的光波(或声波)被光谱仪103所吸收,光谱仪103获取其谐振参数,谐振参数至少包括波长以及谐振时刻。
获取原始谐振参数时,在t1时刻,石墨烯膜未发生形变,满足m1λ1=nL1,其中m1,n为整数。原始谐振参数包括t1以及λ1。
在t2时刻和t3时刻,石墨烯膜受到待识别声波调制,产生谐振模式2(λ2所对应曲线)和谐振模式3(λ3所对应曲线),且谐振模式2满足m2λ2=nL2,谐振模式3满足m3λ3=nL3(m2和m3为整数),分别记录两组调制谐振参数,λ2、t2以及λ3、t3;其中,t1、t2、t3分别为谐振时刻。
步骤603,根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率。
其中,根据原始谐振参数以及调制谐振参数,计算得到包括振幅以及频率的声波参数;仍然参考图3,对于振幅特征,通过测量谐振波长偏移量来获得,
对于谐振模式2,Δλ2=|λ2-λ1|;
对于谐振模式3,Δλ3=|λ3-λ1|;
对于语音的频率特征,通过测量谐振波长变化率来获得,
对于谐振模式2,Δt2=|t2-t1|;
对于谐振模式3,Δt3=|t3-t1|;
则谐振模式2的声波参数为(Δλ2,Δt2),谐振模式3的声波参数为(Δλ3,Δt3);
步骤604,根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
图3中仅以两个声波为例,而实际进行语音识别时,每个待识别声波可能包括多个声波,因此可以将声波参数组成一二维矩阵,并将二维矩阵中的声波参数与预设的声波模板进行匹配,得到所述待识别声波对应的文本信息。
预设的声波模板中包括多个声波参数样本,且每个声波参数样本对应一文本。
可选地,本发明实施例中,步骤604包括:
输出所述待识别声波的声波参数的参数矩阵;
将所述参数矩阵的中的元素,依次与预设的声波模板进行匹配,得到所述元素的文本;
将所述文本排列得到所述待识别声波的文本信息。
其中,每个待识别声波可能包括多个声波,因此可以将声波参数组成一二维的参数矩阵;并将所述参数矩阵的中的元素,依次与预设的声波模板进行匹配,得到所述元素的对应的文本,再将文本依据参数矩阵中的顺序进行排序,得到待识别声波的文本信息。
预设的声波模板中包括多个声波参数样本,且每个声波参数样本对应一文本,声波模板可以是经过深度学习所得到的。
可选地,本发明实施例中,步骤602之前,所述方法还包括:
对待识别语音进行滤波,得到所述待识别声波,并将所述待识别声波发送至所述光纤微腔102。
其中,接收待识别语音(20Hz~20kHz),同时具有限幅和滤波功能,以防止振幅过大破坏石墨烯膜,以及滤除噪声,提高信号信噪比。
作为第四示例,参见图7,图7中以LED连续谱光源作为光源101,介绍本发明实施例提供的语音识别方法,主要包括以下步骤:
步骤701,启动LED连续谱光源,得到包括石墨烯膜的光纤微腔102的初始谐振模式;
步骤702,谐振波通过环形器105进入光谱仪103,测量并记录相应参数t1和λ1;
步骤703,声源接收装置106将待测语音信号处理后传送给光纤微腔102的接收探头,对石墨烯薄膜进行调制。
步骤704,光谱仪103依次测量随声波调制而改变的谐振模式参数值:
t2和λ2,t3和λ3,……,tn和λn;
并将结果以数组或矩阵形式发送给处理模块104;
步骤705,处理模块104调用预设程序算法将矩阵与预设的声波模板进行匹配,得出文本信息。
步骤706,将文本信息进行预设处理,确定误码率:如果误码率小于预先设定值,则识别成功、工作流程结束;如果误码率大于预先设定值,则识别失败、申请重发信号转至步骤703。
本发明上述实施例中,控制光源101向光纤微腔102发射连续谱光,连续谱光以及待识别声波经过光纤微腔102发生谐振;获取连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及连续谱光以及待识别声波同时经过光纤微腔102并发生谐振时的调制谐振参数;根据所述原始谐振参数以及调制谐振参数,得到声波参数,并进一步与预设的声波模板匹配得到待识别声波的文本信息;通过将语音信号转换为光学信号,最终转化为电信号,实现语音识别功能。光纤微腔102的石墨烯膜使得信号转换的数量级为纳米量级的光信号,提高了语音识别装置的灵敏度和测量精度;通过波长偏移量表征声波振幅,以及波长变化率分表征声波频率,实现由光信号参数表征声波参数,语音识别过程简单便捷成本相对较低。
图8示出了本发明又一实施例提供的一种电子设备的结构示意图。
参见图8,本发明实施例提供的电子设备,所述电子设备包括存储器(memory)81、处理器(processor)82、总线83以及存储在存储器81上并可在处理器上运行的计算机程序。其中,所述存储器81、处理器82通过所述总线83完成相互间的通信。
所述处理器82用于调用所述存储器81中的程序指令,以执行所述程序时实现如本发明上述实施例中提供的方法。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
控制所述语音识别装置的光源101向所述语音识别装置的光纤微腔102发射连续谱光;
获取所述连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔102,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
本发明实施例提供的电子设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。
本发明实施例提供的电子设备,控制光源101向光纤微腔102发射连续谱光,连续谱光以及待识别声波经过光纤微腔102发生谐振;获取连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及连续谱光以及待识别声波同时经过光纤微腔102并发生谐振时的调制谐振参数;根据所述原始谐振参数以及调制谐振参数,得到声波参数,并进一步与预设的声波模板匹配得到待识别声波的文本信息;通过将语音信号转换为光学信号,最终转化为电信号,实现语音识别功能。光纤微腔102的石墨烯膜使得信号转换的数量级为纳米量级的光信号,提高了语音识别装置的灵敏度和测量精度;通过波长偏移量表征声波振幅,以及波长变化率分表征声波频率,实现由光信号参数表征声波参数,语音识别过程简单便捷成本相对较低。
本发明又一实施例提供的一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,所述程序被处理器执行时实现如本发明上述实施例中提供的方法中的步骤。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
控制所述语音识别装置的光源101向所述语音识别装置的光纤微腔102发射连续谱光;
获取所述连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔102,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
本发明实施例提供的非暂态计算机可读存储介质,所述程序被处理器执行时实现上述方法实施例的方法,本实施不再赘述。
本发明实施例提供的非暂态计算机可读存储介质,控制光源101向光纤微腔102发射连续谱光,连续谱光以及待识别声波经过光纤微腔102发生谐振;获取连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及连续谱光以及待识别声波同时经过光纤微腔102并发生谐振时的调制谐振参数;根据所述原始谐振参数以及调制谐振参数,得到声波参数,并进一步与预设的声波模板匹配得到待识别声波的文本信息;通过将语音信号转换为光学信号,最终转化为电信号,实现语音识别功能。光纤微腔102的石墨烯膜使得信号转换的数量级为纳米量级的光信号,提高了语音识别装置的灵敏度和测量精度;通过波长偏移量表征声波振幅,以及波长变化率分表征声波频率,实现由光信号参数表征声波参数,语音识别过程简单便捷成本相对较低。
本发明又一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
控制所述语音识别装置的光源101向所述语音识别装置的光纤微腔102发射连续谱光;
获取所述连续谱光经过所述光纤微腔102并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔102,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种语音识别装置,其特征在于,包括:光源、光纤微腔、光谱仪以及处理模块;
所述光源用于向所述光纤微腔发射连续谱光;
所述光纤微腔用于接收所述连续谱光以及待识别声波;其中,所述光纤微腔表面覆盖有在受到声波和/或光波调制时发生形变的石墨烯膜;
所述光谱仪用于获取所述连续谱光经过所述光纤微腔并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
所述处理模块用于根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;所述振幅为根据所述原始谐振参数的波长与所述调制谐振参数的波长之间的波长变化量确定,所述频率为根据所述波长变化量、以及所述原始谐振参数的谐振时刻与所述调制谐振参数的谐振时刻之间的时间变化量确定;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
2.根据权利要求1所述的装置,其特征在于,所述根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息,包括:
输出所述待识别声波的声波参数的参数矩阵;
将所述参数矩阵的中的元素,依次与预设的声波模板进行匹配,得到所述元素的文本;
将所述文本排列得到所述待识别声波的文本信息。
3.根据权利要求1所述的装置,其特征在于,还包括:
声源接收装置,用于对待识别语音进行滤波,得到所述待识别声波,并将所述待识别声波发送至所述光纤微腔。
4.根据权利要求1所述的装置,其特征在于,还包括:环形器;
所述环形器将所述光纤微腔分别与所述光谱仪、所述光源连接,使得所述光源的光线单向通过所述光纤微腔,以及所述光纤微腔的光线单向通过所述光谱仪。
5.一种语音识别方法,应用于如权利要求1至4中任一项所述的语音识别装置,其特征在于,所述方法包括:
控制所述语音识别装置的光源向所述语音识别装置的光纤微腔发射连续谱光;
获取所述连续谱光经过所述光纤微腔并发生谐振时的原始谐振参数,以及获取所述连续谱光以及待识别声波同时经过所述光纤微腔,并发生谐振时的调制谐振参数;其中,谐振参数至少包括波长以及谐振时刻;
根据所述原始谐振参数以及调制谐振参数,得到所述待识别声波的声波参数;其中,所述声波参数至少包括振幅以及频率;所述振幅为根据所述原始谐振参数的波长与所述调制谐振参数的波长之间的波长变化量确定,所述频率为根据所述波长变化量、以及所述原始谐振参数的谐振时刻与所述调制谐振参数的谐振时刻之间的时间变化量确定;
根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述声波参数与预设的声波模板进行匹配,得到所述待识别声波的文本信息的步骤,包括:
输出所述待识别声波的声波参数的参数矩阵;
将所述参数矩阵的中的元素,依次与预设的声波模板进行匹配,得到所述元素的文本;
将所述文本排列得到所述待识别声波的文本信息。
7.根据权利要求5所述的方法,其特征在于,所述获取所述连续谱光以及待识别声波同时经过所述光纤微腔,并发生谐振时的调制谐振参数的步骤之前,所述方法还包括:
对待识别语音进行滤波,得到所述待识别声波,并将所述待识别声波发送至所述光纤微腔。
8.一种电子设备,其特征在于,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求5至7中任一项所述的语音识别方法中的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求5至7中任一项所述的语音识别方法中的步骤。
CN201811079026.4A 2018-09-17 2018-09-17 语音识别装置及方法 Active CN110910888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811079026.4A CN110910888B (zh) 2018-09-17 2018-09-17 语音识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811079026.4A CN110910888B (zh) 2018-09-17 2018-09-17 语音识别装置及方法

Publications (2)

Publication Number Publication Date
CN110910888A CN110910888A (zh) 2020-03-24
CN110910888B true CN110910888B (zh) 2022-06-14

Family

ID=69813071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811079026.4A Active CN110910888B (zh) 2018-09-17 2018-09-17 语音识别装置及方法

Country Status (1)

Country Link
CN (1) CN110910888B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106848827A (zh) * 2017-03-29 2017-06-13 北京航空航天大学 一种基于谐振腔的激光器锁频方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100640893B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
CN102692314B (zh) * 2011-03-22 2014-12-03 浙江大学 基于光纤谐振腔测试激光器频率噪声功率谱密度的装置及方法
US10607507B2 (en) * 2015-11-24 2020-03-31 Medibotics Arcuate wearable device with a circumferential or annular array of spectroscopic sensors for measuring hydration level
CN103785492B (zh) * 2014-02-25 2015-11-04 重庆大学 基于pdms三维微纳天线的表面增强拉曼散射微流控系统
JP6812341B2 (ja) * 2014-08-08 2021-01-13 クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated 分子の探索、検出及び解析のための光学システム及びアッセイチップ
US9585616B2 (en) * 2014-11-17 2017-03-07 Elwha Llc Determining treatment compliance using speech patterns passively captured from a patient environment
JP6841769B2 (ja) * 2015-01-30 2021-03-10 トリナミクス ゲゼルシャフト ミット ベシュレンクテル ハフツング 少なくとも1個の物体を光学的に検出する検出器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106848827A (zh) * 2017-03-29 2017-06-13 北京航空航天大学 一种基于谐振腔的激光器锁频方法

Also Published As

Publication number Publication date
CN110910888A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110415686B (zh) 语音处理方法、装置、介质、电子设备
CN106301137B (zh) 主动控制线性马达振动的方法、装置、系统及电子设备
CN109389971B (zh) 基于语音识别的保险录音质检方法、装置、设备和介质
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
CN110716715B (zh) 一种应用程序开发方法、装置、设备及介质
CN110490296A (zh) 一种构造卷积神经网络(cnn)模型的方法和系统
CN109817222B (zh) 一种年龄识别方法、装置及终端设备
CN106356057A (zh) 一种基于计算机应用场景语义理解的语音识别系统
Denning et al. Quantum light-matter interaction and controlled phonon scattering in a photonic Fano cavity
Robillard et al. Mechanisms of high-frequency song generation in brachypterous crickets and the role of ghost frequencies
EP3121808A3 (en) System and method of modeling characteristics of a musical instrument
US20230043528A1 (en) Using backpropagation to train a dialog system
JP2018025747A (ja) 対話行為推定方法、対話行為推定装置およびプログラム
CN110910888B (zh) 语音识别装置及方法
CN103544945A (zh) 便携式压电陶瓷乐器识音系统
CN104614340A (zh) 基于云平台光栅式近红外检测仪
Khurana et al. Tri-integrated convolutional neural network for audio image classification using Mel-frequency spectrograms
Lin et al. Deterministic loading of microwaves onto an artificial atom using a time-reversed waveform
Chan et al. AI-based robust convex relaxations for supporting diverse QoS in next-generation wireless systems
CN110874635A (zh) 一种深度神经网络模型压缩方法及装置
CN106910494A (zh) 一种音频识别方法和装置
Ali et al. Scaling strategies for on-device low-complexity source separation with conv-tasnet
US11861492B1 (en) Quantizing trained neural networks with removal of normalization
US20240161727A1 (en) Training method for speech synthesis model and speech synthesis method and related apparatuses
Xuejun Application of sensor-based sound control principle in speech recognition technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant