CN110515039A - 一种基于时间频率域的语音追踪及定位方法 - Google Patents

一种基于时间频率域的语音追踪及定位方法 Download PDF

Info

Publication number
CN110515039A
CN110515039A CN201910604534.8A CN201910604534A CN110515039A CN 110515039 A CN110515039 A CN 110515039A CN 201910604534 A CN201910604534 A CN 201910604534A CN 110515039 A CN110515039 A CN 110515039A
Authority
CN
China
Prior art keywords
voice
audio
module
frequency domain
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910604534.8A
Other languages
English (en)
Inventor
赵晖
黄生莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Long Valley Chuang Ke Technology Co Ltd
Original Assignee
Foshan Long Valley Chuang Ke Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Long Valley Chuang Ke Technology Co Ltd filed Critical Foshan Long Valley Chuang Ke Technology Co Ltd
Priority to CN201910604534.8A priority Critical patent/CN110515039A/zh
Publication of CN110515039A publication Critical patent/CN110515039A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种基于时间频率域的语音追踪及定位方法,涉及语音追踪及定位技术领域。该基于时间频率域的语音追踪及定位方法,包括语音采集模块、语音存储模块、语音预识别模块、语音处理模块以及语音追踪定位模块,所述语音采集模块对声源信号进行采集,所述语音采集模块采样完毕之后,将数据传输给语音存储模块,所述语音存储模块将音频储存在存储单元中,同时语音存储模块对接收到音频的采样精度进行分析,转化成适配的格式。通过将音频中的噪音分离开,从而使得音频追踪及定位的效率提高,且音频追踪及定位的准确度也受到了也得到了相应的提高,给时间频率域的语音追踪及定位减少了许多不必要的麻烦。

Description

一种基于时间频率域的语音追踪及定位方法
技术领域
本发明涉及语音追踪及定位方法技术领域,具体为一种基于时间频率域的 语音追踪及定位方法。
背景技术
频率域是指从函数的频率角度出发分析函数,和频率域相对的是时间域, 简单说就是如果从时间域分析信号时,时间是横坐标振幅是纵坐标,而在频 率域分析的时候则是频率是横坐标,振幅是纵坐标,站在频域的角度上来讲, 音乐是一个随着频率变化的震动,这样我们站在时间域的角度去观察你会发 现音乐是静止的。
在对时间频率域的语音追踪及定位时,音频中常常掺杂有其它的声音,我 们可以称之为噪音,一般的时间频率域的语音追踪及定位系统通常都是直接对 这些音频进行识别处理,然后再进行追踪及定位,但是由于噪音的存在,音频 追踪及定位的效率较低,且音频追踪及定位的准确度也受到了较大的干扰,给 时间频率域的语音追踪及定位带来了不利影响。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于时间频率域的语音追踪及定 位方法,解决了由于噪音的存在,音频追踪及定位的效率较低,且音频追踪及 定位的准确度也受到了较大的干扰,给时间频率域的语音追踪及定位带来了不 利影响的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于时间频率 域的语音追踪及定位方法,所述基于时间频率域的语音追踪及定位方法包括语 音采集模块、语音存储模块、语音预识别模块、语音处理模块以及语音追踪定 位模块。
优选的,所述语音采集模块对声源信号进行采集,保证采样频率为信号最 高频率的6-9倍,且保证采样位数的充分。
优选的,所述语音采集模块采样完毕之后,将数据传输给语音存储模块, 所述语音存储模块将音频储存在存储单元中,同时语音存储模块对接收到音频 的采样精度进行分析,转化成适配的格式。
优选的,所述语音存储模块将音频储存之后,音频传输给语音预识别模块, 所述语音预识别模块对音频中出现的多种声波进行预识别,初步分析出不同声 波的频率以及种类,然后将输入语音的特征矢量依次与模板库中的每个模板进 行相似度比较,将相似度最高者作为识别结果输出。
优选的,所述语音预识别模块对音频预识别之后将数据传输给语音处理模 块,所述语音处理模块根据上述识别输出的结果做出合理的判断,从而对音频 进行综合分类。
优选的,所述语音处理模块处理音频之后,会将处理之后的音频发送一份 到音频备份单元,所述处理音频备份单元将接收到的音频进行分类备份,并转 化成适配的格式。
优选的,所述语音处理模块对音频进行综合分类之后,将音频分为两大类, 一类为主音频,其它的全部分类为噪音,其中语音处理模块还包括主音频识别 处理与噪音识别处理模块,所述主音频识别处理与噪音识别处理模块对主音频 与噪音两大类进行单独的识别处理。
优选的,所述语音处理模块对主音频与噪音两大类进行单独识别处理之后, 将数据反馈给语音追踪定位模块,所述语音追踪定位模块将主音频与噪音相结 合,分析出声源所在的位置,从而对声源进行追踪定位。
工作原理:使用时,通过语音采集模块对声源信号进行采集,语音采集模 块采样完毕之后,将数据传输给语音存储模块,语音存储模块将音频储存在存 储单元中,同时语音存储模块对接收到音频的采样精度进行分析,转化成适配 的格式,语音存储模块将音频储存之后,音频传输给语音预识别模块,语音预 识别模块对音频中出现的多种声波进行预识别,初步分析出不同声波的频率以 及种类,语音预识别模块对音频预识别之后将数据传输给语音处理模块,语音 处理模块根据上述识别输出的结果做出合理的判断,从而对音频进行综合分类, 语音处理模块处理音频之后,会将处理之后的音频发送一份到音频备份单元, 其中语音处理模块还包括主音频识别处理与噪音识别处理模块,主音频识别处 理与噪音识别处理模块对主音频与噪音两大类进行单独的识别处理,语音处理 模块对主音频与噪音两大类进行单独识别处理之后,将数据反馈给语音追踪定 位模块,语音追踪定位模块将主音频与噪音相结合,分析出声源所在的位置, 从而对声源进行追踪定位。
(三)有益效果
本发明提供了一种基于时间频率域的语音追踪及定位方法。具备以下有益 效果:
1、该基于时间频率域的语音追踪及定位方法,通过语音处理模块中的主音 频识别处理与噪音识别处理模块对主音频与噪音两大类进行单独的识别处理, 然后将数据反馈给语音追踪定位模块,语音追踪定位模块将主音频与噪音相结 合,分析出声源所在的位置,从而对声源进行追踪定位,由于将音频中的噪音 分离开,从而使得音频追踪及定位的效率提高,且音频追踪及定位的准确度也 受到了也得到了相应的提高,给时间频率域的语音追踪及定位减少了许多不必 要的麻烦。
2、该基于时间频率域的语音追踪及定位方法,通过语音存储模块与处理音 频备份单元的结合,使得音频得以更好的保存,且音频以不同的形式保存,给 日后提供了极大的便利。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明实施例提供一种基于时间频率域的语音追踪及定位方 法,包括语音采集模块、语音存储模块、语音预识别模块、语音处理模块以及 语音追踪定位模块,且具体实施步骤为:
步骤S1,语音采集模块对声源信号进行采集,保证采样频率为信号最高频 率的6-9倍,且保证采样位数的充分性,采样频率是指计算机每秒钟采样多少 个声音样本,是描述声音文件的音质、音频、衡量声卡、声音文件的质量标准, 采样频率越高,即采样的时间间隔越短,则在单位时间内计算机得到的声音样 本数据越多,无论采样频率如何,理论上来说采样的位数决定了音频数据最大的 力度范围,采样位数越多则捕捉到的信号越精确。
步骤S2,语音采集模块采样完毕之后,将数据传输给语音存储模块,语音 存储模块将音频储存在存储单元中,同时语音存储模块对接收到音频的采样精 度进行分析,转化成适配的格式,采样精度也叫样本位数或位深度,用每个样 本的位数表示,位数越少,声音质量越低,需要存储空间越少,采样频率和采 样精度是数字声音质量的两项重要指标。
步骤S3,语音存储模块将音频储存之后,音频传输给语音预识别模块,语音 预识别模块对音频中出现的多种声波进行预识别,初步分析出不同声波的频率 以及种类,然后将输入语音的特征矢量依次与模板库中的每个模板进行相似度 比较,将相似度最高者作为识别结果输出。
步骤S4,语音预识别模块对音频预识别之后将数据传输给语音处理模块, 语音处理模块根据上述识别输出的结果做出合理的判断,从而对音频进行综合 分类。
步骤S41,语音处理模块处理音频之后,会将处理之后的音频发送一份到音 频备份单元,处理音频备份单元将接收到的音频进行分类备份,并转化成适配 的格式,通过将音频进行分类备份之后,可以方便日后的使用,也方便进行不 同类型的分析。
步骤S42与步骤S43,语音处理模块对音频进行综合分类之后,将音频分为 两大类,一类为主音频,其它的全部分类为噪音,也可以成为环境音频,其中 语音处理模块还包括主音频识别处理与噪音识别处理模块,主音频识别处理与 噪音识别处理模块对主音频与噪音两大类进行单独的识别处理。
步骤S5,语音处理模块对主音频与噪音两大类进行单独识别处理之后,将 数据反馈给语音追踪定位模块,语音追踪定位模块将主音频与噪音相结合,分 析出声源所在的位置,从而对声源进行追踪定位。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言, 可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变 化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于时间频率域的语音追踪及定位方法,其特征在于:所述基于时间频率域的语音追踪及定位方法包括语音采集模块、语音存储模块、语音预识别模块、语音处理模块以及语音追踪定位模块。
2.根据权利要求1所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音采集模块对声源信号进行采集,保证采样频率为信号最高频率的6-9倍,且保证采样位数的充分性。
3.根据权利要求1所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音采集模块采样完毕之后,将数据传输给语音存储模块,所述语音存储模块将音频储存在存储单元中,同时语音存储模块对接收到音频的采样精度进行分析,转化成适配的格式。
4.根据权利要求1所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音存储模块将音频储存之后,音频传输给语音预识别模块,所述语音预识别模块对音频中出现的多种声波进行预识别,初步分析出不同声波的频率以及种类,然后将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
5.根据权利要求1所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音预识别模块对音频预识别之后将数据传输给语音处理模块,所述语音处理模块根据上述识别输出的结果做出合理的判断,从而对音频进行综合分类。
6.根据权利要求5所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音处理模块处理音频之后,会将处理之后的音频发送一份到音频备份单元,所述处理音频备份单元将接收到的音频进行分类备份,并转化成适配的格式。
7.根据权利要求5所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音处理模块对音频进行综合分类之后,将音频分为两大类,一类为主音频,其它的全部分类为噪音,其中语音处理模块还包括主音频识别处理与噪音识别处理模块,所述主音频识别处理与噪音识别处理模块对主音频与噪音两大类进行单独的识别处理。
8.根据权利要求1所述的一种基于时间频率域的语音追踪及定位方法,其特征在于:所述语音处理模块对主音频与噪音两大类进行单独识别处理之后,将数据反馈给语音追踪定位模块,所述语音追踪定位模块将主音频与噪音相结合,分析出声源所在的位置,从而对声源进行追踪定位。
CN201910604534.8A 2019-07-05 2019-07-05 一种基于时间频率域的语音追踪及定位方法 Pending CN110515039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910604534.8A CN110515039A (zh) 2019-07-05 2019-07-05 一种基于时间频率域的语音追踪及定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910604534.8A CN110515039A (zh) 2019-07-05 2019-07-05 一种基于时间频率域的语音追踪及定位方法

Publications (1)

Publication Number Publication Date
CN110515039A true CN110515039A (zh) 2019-11-29

Family

ID=68623644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910604534.8A Pending CN110515039A (zh) 2019-07-05 2019-07-05 一种基于时间频率域的语音追踪及定位方法

Country Status (1)

Country Link
CN (1) CN110515039A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013310A (zh) * 2022-12-30 2023-04-25 江苏睿博数据技术有限公司 一种语音分析决策系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013310A (zh) * 2022-12-30 2023-04-25 江苏睿博数据技术有限公司 一种语音分析决策系统
CN116013310B (zh) * 2022-12-30 2024-05-14 江苏睿博数据技术有限公司 一种语音分析决策系统

Similar Documents

Publication Publication Date Title
US20220343898A1 (en) Speech recognition method and apparatus, and computer-readable storage medium
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN101923857A (zh) 一种人机交互的可扩展语音识别方法
CN101404160A (zh) 一种基于音频识别的语音降噪方法
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
Cyrta et al. Speaker diarization using deep recurrent convolutional neural networks for speaker embeddings
CN101923855A (zh) 文本无关的声纹识别系统
EP3843093A3 (en) Model evaluation method and device, and electronic device
CN103730112A (zh) 语音多信道模拟与采集方法
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN110515039A (zh) 一种基于时间频率域的语音追踪及定位方法
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
Ren Research on a software architecture of speech recognition and detection based on interactive reconstruction model
TWI396186B (zh) 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識
US20070076899A1 (en) Audio collecting device by audio input matrix
CN206313861U (zh) 一种基于ni板卡串口控制的音频检测系统
CN106228984A (zh) 语音识别信息获取方法
CN103778914A (zh) 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置
Martínez et al. Fast parallel audio fingerprinting implementation in reconfigurable hardware and GPUs
CN210606618U (zh) 一种实现语音文字记录的系统
Suryawanshi et al. Hardware implementation of speech recognition using mfcc and euclidean distance
CN1819019A (zh) 基于矩阵特征向量范数的语音识别装置及其语音识别方法
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
Asakawa et al. Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics.
Hrabina et al. Implementation of developed gunshot detection algorithm on TMS320C6713 processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication