CN111081228A - 语音识别算法及芯片 - Google Patents

语音识别算法及芯片 Download PDF

Info

Publication number
CN111081228A
CN111081228A CN201911187976.3A CN201911187976A CN111081228A CN 111081228 A CN111081228 A CN 111081228A CN 201911187976 A CN201911187976 A CN 201911187976A CN 111081228 A CN111081228 A CN 111081228A
Authority
CN
China
Prior art keywords
voice
chip
recognition
algorithm
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911187976.3A
Other languages
English (en)
Inventor
蔡颖昭
凯利·麦克·西蒙
任希庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amped Tianjin Technology Co ltd
Original Assignee
Amped Tianjin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amped Tianjin Technology Co ltd filed Critical Amped Tianjin Technology Co ltd
Priority to CN201911187976.3A priority Critical patent/CN111081228A/zh
Publication of CN111081228A publication Critical patent/CN111081228A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了语音识别算法及芯片,属于芯片技术领域,包括如下步骤:S1、MIC输入的语音先通过录音模块进行录音;S2、通过录音模块播放录音,并进行频谱分析;S3、频谱分析工作完成之后,对语音进行提取特征;S4、把提取的语音特征和关键词语列表中的关键词语进行对比匹配;S5、找出得分最高的关键词语作为识别结果输出。本发明方法成熟,通过对芯片的算法进行删减、整合及创新,有效的精简了算法的流程,步骤简单明了,提高了算法的流畅性,节约时间,提高计算效率,添加了录音模块,可以在识别结果不清晰的情况下,反复对语音流播放和识别,大大提高了识别的结果与真正的意思吻合度,提高识别的准确,使用效果好。

Description

语音识别算法及芯片
技术领域
本发明涉及芯片技术领域,尤其涉及语音识别算法及芯片。
背景技术
集成电路英语:integrated circuit,缩写作IC;或称微电路(microcircuit)、微芯片(microchip)、晶片/芯片(chip)在电子学中是把电路(主要包括半导体设备,也包括被动组件等)小型化的方式,并时常制造在半导体晶圆表面上。
现有的芯片的算法流程复杂且流畅性差,芯片在使用的时候,不能在识别不清晰的情况下,再次对语音流进行识别,导致识别的结果与真正的意思存在偏差或歧义。为此,我们提出语音识别算法及芯片。
发明内容
本发明提供语音识别算法及芯片,旨在解决现有的语音识别算法及芯片算法流程复杂且流畅性差、识别的结果与真正的意思存在偏差或歧义的问题。
本发明提供的具体技术方案如下:
本发明提供的语音识别算法及芯片,包括如下步骤:
S1、MIC输入的语音先通过录音模块进行录音;
S2、通过录音模块播放录音,并进行频谱分析;
S3、频谱分析工作完成之后,对语音进行提取特征;
S4、把提取的语音特征和关键词语列表中的关键词语进行对比匹配;
S5、找出得分最高的关键词语作为识别结果输出;
S6、识别的结果如果清晰,即可传送至MCU作进一步处理,反之,如果识别的结果不清晰,则通过录音模块播放最初录制的语音进行识别。
可选的,语音识别芯片能在两种情况下给出识别结果:
1)、外部送入预定时间的语音数据后(比如8秒钟的语音数据),芯片对这些语音数据运算分析后,给出识别结果;
2)、外部送入语音数据流,语音识别芯片通过端点检测VAD检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果。
可选的,对于1),可以理解为设定了一个定时录音(比如为8秒钟),芯片在8秒钟后,会停止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。
可选的,对于2),需要使用到VAD,VAD技术是在一段语音数据流中,判断出哪个时间点是人声的开始,哪个时间点是人声的结束。
可选的,判断的依据是,在背景声音的基础上有了语音发音,则视为声音的开始,而后,检测到一段持续时间的背景音(比如480毫秒),则视为人声说话结束。
本发明的有益效果如下:
1、本发明方法成熟,通过对芯片的算法进行删减、整合及创新,有效的精简了算法的流程,步骤简单明了,提高了算法的流畅性,节约时间,提高计算效率,添加了录音模块,可以在识别结果不清晰的情况下,反复对语音流播放和识别,大大提高了识别的结果与真正的意思吻合度,提高识别的准确,使用效果好。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的语音识别算法及芯片的整体结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面将结合图1对本发明实施例的语音识别算法及芯片进行详细的说明。
参考图1所示,本发明实施例提供的语音识别算法及芯片,包括如下步骤:
S1、MIC输入的语音先通过录音模块进行录音;
S2、通过录音模块播放录音,并进行频谱分析;
S3、频谱分析工作完成之后,对语音进行提取特征;
S4、把提取的语音特征和关键词语列表中的关键词语进行对比匹配;
S5、找出得分最高的关键词语作为识别结果输出;
S6、识别的结果如果清晰,即可传送至MCU作进一步处理,反之,如果识别的结果不清晰,则通过录音模块播放最初录制的语音进行识别。
参照图1所示,语音识别芯片能在两种情况下给出识别结果:
1)、外部送入预定时间的语音数据后(比如8秒钟的语音数据),芯片对这些语音数据运算分析后,给出识别结果;
2)、外部送入语音数据流,语音识别芯片通过端点检测VAD检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果。
参照图1所示,对于1),可以理解为设定了一个定时录音(比如为8秒钟),芯片在8秒钟后,会停止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。
参照图1所示,对于2),需要使用到VAD,VAD技术是在一段语音数据流中,判断出哪个时间点是人声的开始,哪个时间点是人声的结束。
参照图1所示,判断的依据是,在背景声音的基础上有了语音发音,则视为声音的开始,而后,检测到一段持续时间的背景音(比如480毫秒),则视为人声说话结束。
综上所述:本发明实施例提供语音识别算法及芯片,方法成熟,通过对芯片的算法进行删减、整合及创新,有效的精简了算法的流程,步骤简单明了,提高了算法的流畅性,节约时间,提高计算效率,添加了录音模块,可以在识别结果不清晰的情况下,反复对语音流播放和识别,大大提高了识别的结果与真正的意思吻合度,提高识别的准确,使用效果好。
需要说明的是,本发明为语音识别算法及芯片,部件均为通用标准件或本领域技术人员知晓的部件,其结构和原理都为本技术人员均可通过技术手册得知或通过常规实验方法获知。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.语音识别算法及芯片,其特征在于,包括如下步骤:
S1、MIC输入的语音先通过录音模块进行录音;
S2、通过录音模块播放录音,并进行频谱分析;
S3、频谱分析工作完成之后,对语音进行提取特征;
S4、把提取的语音特征和关键词语列表中的关键词语进行对比匹配;
S5、找出得分最高的关键词语作为识别结果输出;
S6、识别的结果如果清晰,即可传送至MCU作进一步处理,反之,如果识别的结果不清晰,则通过录音模块播放最初录制的语音进行识别。
2.根据权利要求1所述的语音识别算法及芯片,其特征在于,语音识别芯片能在两种情况下给出识别结果:
1)、外部送入预定时间的语音数据后(比如8秒钟的语音数据),芯片对这些语音数据运算分析后,给出识别结果;
2)、外部送入语音数据流,语音识别芯片通过端点检测VAD检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果。
3.根据权利要求2所述的语音识别算法及芯片,其特征在于,对于1),可以理解为设定了一个定时录音(比如为8秒钟),芯片在8秒钟后,会停止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。
4.根据权利要求2所述的语音识别算法及芯片,其特征在于,对于2),需要使用到VAD,VAD技术是在一段语音数据流中,判断出哪个时间点是人声的开始,哪个时间点是人声的结束。
5.根据权利要求4所述的语音识别算法及芯片,其特征在于,判断的依据是,在背景声音的基础上有了语音发音,则视为声音的开始,而后,检测到一段持续时间的背景音(比如480毫秒),则视为人声说话结束。
CN201911187976.3A 2019-11-28 2019-11-28 语音识别算法及芯片 Pending CN111081228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911187976.3A CN111081228A (zh) 2019-11-28 2019-11-28 语音识别算法及芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911187976.3A CN111081228A (zh) 2019-11-28 2019-11-28 语音识别算法及芯片

Publications (1)

Publication Number Publication Date
CN111081228A true CN111081228A (zh) 2020-04-28

Family

ID=70312024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911187976.3A Pending CN111081228A (zh) 2019-11-28 2019-11-28 语音识别算法及芯片

Country Status (1)

Country Link
CN (1) CN111081228A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116258A (zh) * 2023-04-12 2023-11-24 荣耀终端有限公司 一种语音唤醒方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020023020A1 (en) * 1999-09-21 2002-02-21 Kenyon Stephen C. Audio identification system and method
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备
US20140257813A1 (en) * 2013-03-08 2014-09-11 Analog Devices A/S Microphone circuit assembly and system with speech recognition
CN108417211A (zh) * 2018-01-30 2018-08-17 东华大学 一种多功能语音识别控制器
CN109360569A (zh) * 2018-12-25 2019-02-19 钟祥博谦信息科技有限公司 一种家庭语音控制系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020023020A1 (en) * 1999-09-21 2002-02-21 Kenyon Stephen C. Audio identification system and method
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备
US20140257813A1 (en) * 2013-03-08 2014-09-11 Analog Devices A/S Microphone circuit assembly and system with speech recognition
CN108417211A (zh) * 2018-01-30 2018-08-17 东华大学 一种多功能语音识别控制器
CN109360569A (zh) * 2018-12-25 2019-02-19 钟祥博谦信息科技有限公司 一种家庭语音控制系统及其方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116258A (zh) * 2023-04-12 2023-11-24 荣耀终端有限公司 一种语音唤醒方法及电子设备

Similar Documents

Publication Publication Date Title
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
Kamppari et al. Word and phone level acoustic confidence scoring
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN106128465A (zh) 一种声纹识别系统及方法
TW201342365A (zh) 運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
US20020082833A1 (en) Method for recognizing speech
CN111081228A (zh) 语音识别算法及芯片
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN109065026A (zh) 一种录音控制方法及装置
US6499012B1 (en) Method and apparatus for hierarchical training of speech models for use in speaker verification
CN111951832B (zh) 一种语音分析用户对话情绪的方法及装置
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
Rao et al. Automatic pronunciation verification for speech recognition
JPS58108590A (ja) 音声認識装置
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
JP2016156993A (ja) 情報処理装置、情報処理装置の制御方法、制御プログラム、記録媒体
JPS6361300A (ja) 音声認識方式
TWI802165B (zh) 用於語音核證之語音辨識系統、方法及其電腦可讀媒介
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JPS58159598A (ja) 単音節音声認識方式
JPS6147999A (ja) 音声認識装置
CN111596882A (zh) 一种分布式阵列对齐方法
KR100934218B1 (ko) 다단계 음성인식 장치 및 그 장치에서의 다단계 음성인식방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428