CN107180629A - 一种语音采集识别方法与系统 - Google Patents

一种语音采集识别方法与系统 Download PDF

Info

Publication number
CN107180629A
CN107180629A CN201710508332.4A CN201710508332A CN107180629A CN 107180629 A CN107180629 A CN 107180629A CN 201710508332 A CN201710508332 A CN 201710508332A CN 107180629 A CN107180629 A CN 107180629A
Authority
CN
China
Prior art keywords
voice
signal
voice signal
voice collecting
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710508332.4A
Other languages
English (en)
Other versions
CN107180629B (zh
Inventor
王道钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huangdaoji Technology Development Co ltd
Original Assignee
Changchun Huang Dauki Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Huang Dauki Technology Development Co Ltd filed Critical Changchun Huang Dauki Technology Development Co Ltd
Priority to CN201710508332.4A priority Critical patent/CN107180629B/zh
Publication of CN107180629A publication Critical patent/CN107180629A/zh
Application granted granted Critical
Publication of CN107180629B publication Critical patent/CN107180629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种语音采集识别方法与系统,所述系统包括:语音采集客户端系统和云计算机,所述语音采集客户端系统采集声音信号并区分和保存所述声音信号中的噪音信号和语音信号;所述云计算机根据语音采集客户端系统得到的语音信号转换成语言文字,并纠正上述语言文字的逻辑关系,最后得到被识别的语音信号的文字信息。本发明是通过初始地段的环境音频采集,整理、分类、模型制作、回输客户前台备份、早期判断识别,最后建立一个标准适用的当地环境的采集语音最佳配置去应用。本发明能够制定最佳的所在公共场所的采集音频的列阵方案并调整,达到最经济效果最理想的应用阵型。本发明可以作为一种流程化的万能公式应用实际,提高语音采集效率。

Description

一种语音采集识别方法与系统
技术领域
本发明属于应用语音采集公共设备领域,具体涉及一种语音麦阵列采集及电子智能识别方法与系统。
背景技术
目前的手机语音采集方案中,手机正面设置二个采集点,背面设置一个采集点。正面的采集点有人的语音及噪声,手机的背面采集则都是噪声。把背面采集的噪声的声频信号与前面的相同声频信号对应上,一起列入不识别声频信号,剩下的就是语音需识别的声频信号。
目前已有手机语音识别方面的专利申请,例如中国专利申请号201510941682.0的发明专利申请,公开了一种手机语音识别模块,包括:录音模块、语音存储模块、语音辨识模块、语音转化模块、中央处理模块五部分,所述录音模块与所述语音存储模块相连接,所述语音存储模块与所述语音辨识模块相连接,所述语音辨识模块与所述语音转化模块相连接,所述语音转化模块与所述中央处理模块相连接。通过上述方式,该发明能够让使用者通过语言命令进行手机操作,方便快捷。
上述这类解决方案用于手机,不能用于开放的公共环境下,对噪音的声频信号识别能力有限。
发明内容
本发明的目的是通过以下技术方案实现的。
具体的,根据本发明的一个方面,本发明公开了一种语音采集识别系统,包括:语音采集客户端系统和云计算机,所述语音采集客户端系统采集声音信号并区分和保存所述声音信号中的噪音信号和语音信号;所述云计算机根据语音采集客户端系统得到的语音信号转换成语言文字,并纠正上述语言文字的逻辑关系,最后得到被识别的语音信号的文字信息。
优选的,所述语音采集客户端系统包含:多个麦点,采用列阵布局,用于采集声音信号,以进行进一步的音频识别;前台噪声数据库模块,用于比对所采集的声音信号的音频物理属性,从而进行分类。
优选的,云计算机包括:识别端口,用于接收语音采集客户端系统发送的语音信号和噪声信号,识别和合并语音信号,并发送给声频转换语言文字系统;声频转换语言文字系统,用于接收识别端口发送的语音信号,将其转换成文字并发送给语言智能逻辑关系纠正系统;语言智能逻辑关系纠正系统,用于接收声频转换语言文字系统发送的文字,依次进行语言逻辑关系对照、识别关系、智能纠正语句,最终得到被识别的语音信号的文字信息,并存储在数据库中。
优选的,所述前台噪声数据库模块能够自动关闭记录噪音频率超过50%的麦点单元。
优选的,所述多个麦点为多个前后上下位置多变化的语音采集点。
根据本发明的另一个方面,本发明还公开了一种语音采集识别方法,包括如下步骤:采集步骤,采集声音信号并区分和保存所述声音信号中的噪音信号和语音信号;识别步骤,根据得到的语音信号转换成语言文字,并纠正上述语言文字的逻辑关系,最后得到被识别的语音信号的文字信息。
优选的,所述识别步骤具体包括如下步骤:根据所述语音信号和噪声信号,识别和合并语音信号;将所述语音信号转换成文字;对上述文字依次进行语言逻辑关系对照、识别关系、智能纠正语句,最终得到被识别的语音信号的文字信息,并存储在数据库中。
优选的,通过对各个语音采集点的音准比对,来测定语音采集点摆放的位置是否最为合理。
优选的,区分所述噪声信号和语音信号时采用近似算法。
优选的,根据得到的语音信号转换成语言文字时,既识别语音信号的语种类别,也通过汉语言学中的语言逻辑及地方语言关系智能比对,最终转换成对应的语言文字。
本发明的优点在于:本发明是通过初始地段的环境音频采集,整理、分类、模型制作、回输客户前台备份、早期判断识别,最后建立一个标准适用的当地环境的采集语音最佳配置去应用。本发明能够制定最佳的所在公共场所的采集音频的列阵方案并调整,达到最经济效果最理想的应用阵型。并且本发明可以作为一种流程化的万能公式应用实际,从而节省人力物力,提高语音采集效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的语音麦阵列采集过程示意图。
附图2示出了根据本发明实施方式的语音麦阵列采集及电子智能识别过程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提出一种用于提高语音识别水平,抗噪音及物理电磁干扰的采集语音的方法及系统。
本发明在公共场景下设立公用的开放式语音识别应用,在制定采集音频方案第一步时,对现场的噪音音频采集及辨识信号制定,并能及时上传到主服器处理,制定出辨识信号后回输给客户端(公共场景下采集音频设备)备份,这样在第一时间内就可以对噪音信号识别并处理。确保语音信号快速上传云计算平台转化成文字,经过在计算机语言计算及汉语言逻辑智能纠正,输入搜索引擎找到正确的对应答案回输给客户端,可以满足广大普通用户的语音询问需求。
具体的,如图1、2所示,本发明所述的语音采集识别系统,包括:语音采集客户端系统和云计算机,所述语音采集客户端系统采集声音信号并区分和保存所述声音信号中的噪音信号和语音信号;所述云计算机根据语音采集客户端系统得到的语音信号转换成语言文字,并纠正上述语言文字的逻辑关系,最后得到被识别的语音信号的文字信息。
其中,所述语音采集客户端系统包含:多个麦点,采用列阵布局,用于采集声音信号,以进行进一步的音频识别;前台噪声数据库模块,用于比对所采集的声音信号的音频物理属性,从而进行分类。
其中,云计算机包括:识别端口,用于接收语音采集客户端系统发送的语音信号和噪声信号,识别和合并语音信号,并发送给声频转换语言文字系统;声频转换语言文字系统,用于接收识别端口发送的语音信号,将其转换成文字并发送给语言智能逻辑关系纠正系统;语言智能逻辑关系纠正系统,用于接收声频转换语言文字系统发送的文字,依次进行语言逻辑关系对照、识别关系、智能纠正语句,最终得到被识别的语音信号的文字信息,并存储在数据库中。所述语言智能逻辑关系纠正系统采用了汉语言文学中的语言情感信号,即声调表述及逻辑表述,从而起到智能纠正及智能延伸,给予计算机搜索引擎最佳的作业根据。
本发明的工作原理如下:首先语音采集客户端系统采集语音,然后进入声频识别1程式(识别是否有语音信号),如图1所示,如果经过声频识别1程式识别,没有语音信号,就上传云计算机的识别端口,进入声频识别2程式识别。如图2所示,如果声频识别2程式识别出是噪声信号,那么就按照其特征制定信号模型并存储数据库中,然后回转给采集客户端系统备份。如果声频识别2程式识别为语音信号,则传给云计算机的声频转换语言文字系统。如果所述语音信号中没有情感特性,则得到文字信息后直接结束转换,如果所述语音信号有情感特性(升降调等)就转入云计算机的语言智能逻辑关系纠正系统,进行语言逻辑关系对照,然后识别内在关系所表述的真实内容,最后把声频模型存储在单独的数据库中以备后用。
上述对声音信号的分类时,根据噪声和语音特有的属性进行区分。例如,自然界中的背景噪声往往类似于白噪声的性质。本发明使用时,可以在采集语音信号之前先采集噪声信号(图2中的声频识别2),记录噪声信号特征并保存在云计算机中,用于将来的语音信号识别。当正式采集声音信号(即图1和图2中的声频识别1)时,通过将获得的声音信号减去先前保存的背景噪声信号,从而很容易得出语音信号。
本发明的语音信号,可以根据算法进行进一步的分类。例如英语、日语、和汉语的发音习惯会各有不同的特点。根据已知的语音识别算法,可以对这些不同的语言进行区分。再者,本发明根据地域口音发音习惯,还能够区分汉语中的地方语音,并根据声调音频特点的不同,区分是疑问句还是陈述句等等。
优选的,所述前台噪声数据库模块还能够自动关闭记录噪音频率超过50%的麦点单元。原因是,噪音出现率高的麦点为一定环境下高发生率噪音点。
本发明改传统单一的一个语音采集点为多个前后上下位置多变化的语音采集点,减少一个或若干个采集点强噪音共鸣等原因对语音麦的干扰。语言的音频信号与噪音的音频信号有很大的差别,令其对标准的语音信号及噪音信号多点项位进行对比,这样将大多数语音信号保留并选出,同时将噪音信号及杂音信号选出隔离。最后对语音信号特征的信号进行合成分析。
本发明应用时,通过对各个采集点的音准比对,来测定语音麦列阵摆放的前后上下左右位置是否最为合理。分析这一地段的噪音环境,比对调试成最佳状态。通过云平台计算对多点语音综合确认的表述内容进行智能分析,主要通过汉语言学中的语言逻辑及地方语言关系智能比对,最终满足户外公共环境中对语音识别的需求。
本发明在识别噪声信号和语音信号时也可以采用近似算法。近似算法首先给出最优解的一个下界,然后把算法的运行结果与这个下界进行比较。对于最大化问题,先给出一个上界然后把算法的运行结果与这个上界比较。
近似算法比较经典的问题包括:最小顶点覆盖、旅行售货员问题、集合覆盖等。对于这类问题,通常可采取以下几种解题策略。
(1)只对问题的特殊实例求解;
(2)用动态规划法或分支限界法求解;
(3)用概率算法求解;
(4)只求近似解;
(5)用启发式方法求解。
通过近似算法区分出语音信号和噪声信号,进而合并同类音频,选出语音信号并保存,同时选出噪声信号并保存。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音采集识别系统,其特征在于,包括:语音采集客户端系统和云计算机,所述语音采集客户端系统采集声音信号并区分和保存所述声音信号中的噪音信号和语音信号;所述云计算机根据语音采集客户端系统得到的语音信号转换成语言文字,并纠正上述语言文字的逻辑关系,最后得到被识别的语音信号的文字信息。
2.如权利要求1所述的语音采集识别系统,其特征在于,其中,所述语音采集客户端系统包含:多个麦点,采用列阵布局,用于采集声音信号,以进行进一步的音频识别;前台噪声数据库模块,用于比对所采集的声音信号的音频物理属性,从而进行分类。
3.如权利要求1或2所述的语音采集识别系统,其特征在于,其中,云计算机包括:识别端口,用于接收语音采集客户端系统发送的语音信号和噪声信号,识别和合并语音信号,并发送给声频转换语言文字系统;声频转换语言文字系统,用于接收识别端口发送的语音信号,将其转换成文字并发送给语言智能逻辑关系纠正系统;语言智能逻辑关系纠正系统,用于接收声频转换语言文字系统发送的文字,依次进行语言逻辑关系对照、识别关系、智能纠正语句,最终得到被识别的语音信号的文字信息,并存储在数据库中。
4.如权利要求2所述的语音采集识别系统,其特征在于,其中,所述前台噪声数据库模块能够自动关闭记录噪音频率超过50%的麦点单元。
5.如权利要求2所述的语音采集识别系统,其特征在于,其中,所述多个麦点为多个前后上下位置多变化的语音采集点。
6.一种语音采集识别方法,其特征在于,包括如下步骤:采集步骤,采集声音信号并区分和保存所述声音信号中的噪音信号和语音信号;识别步骤,根据得到的语音信号转换成语言文字,并纠正上述语言文字的逻辑关系,最后得到被识别的语音信号的文字信息。
7.如权利要求6所述的语音采集识别系统,其特征在于,所述识别步骤具体包括如下步骤:根据所述语音信号和噪声信号,识别和合并语音信号;将所述语音信号转换成文字;对上述文字依次进行语言逻辑关系对照、识别关系、智能纠正语句,最终得到被识别的语音信号的文字信息,并存储在数据库中。
8.如权利要求6所述的语音采集识别系统,其特征在于,其中,通过对各个语音采集点的音准比对,来测定语音采集点摆放的位置是否最为合理。
9.如权利要求6所述的语音采集识别系统,其特征在于,其中,区分所述噪声信号和语音信号时采用近似算法。
10.如权利要求6所述的语音采集识别系统,其特征在于,其中,根据得到的语音信号转换成语言文字时,既识别语音信号的语种类别,也通过汉语言学中的语言逻辑及地方语言关系智能比对,最终转换成对应的语言文字。
CN201710508332.4A 2017-06-28 2017-06-28 一种语音采集识别方法与系统 Active CN107180629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710508332.4A CN107180629B (zh) 2017-06-28 2017-06-28 一种语音采集识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710508332.4A CN107180629B (zh) 2017-06-28 2017-06-28 一种语音采集识别方法与系统

Publications (2)

Publication Number Publication Date
CN107180629A true CN107180629A (zh) 2017-09-19
CN107180629B CN107180629B (zh) 2020-04-28

Family

ID=59844793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710508332.4A Active CN107180629B (zh) 2017-06-28 2017-06-28 一种语音采集识别方法与系统

Country Status (1)

Country Link
CN (1) CN107180629B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257602A (zh) * 2018-01-30 2018-07-06 海信集团有限公司 车牌号字符串矫正方法、装置、服务器和终端
CN116597827A (zh) * 2023-05-23 2023-08-15 苏州科帕特信息科技有限公司 一种目标语言模型确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876887A (zh) * 2010-07-26 2010-11-03 刘彤 语音输入方法及装置
US20160247502A1 (en) * 2015-02-23 2016-08-25 Electronics And Telecommunications Research Institute Audio signal processing apparatus and method robust against noise
CN106033669A (zh) * 2015-03-18 2016-10-19 展讯通信(上海)有限公司 语音识别方法及装置
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106710594A (zh) * 2016-11-17 2017-05-24 北京中科汇联科技股份有限公司 一种基于云端的智能语音交互系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876887A (zh) * 2010-07-26 2010-11-03 刘彤 语音输入方法及装置
US20160247502A1 (en) * 2015-02-23 2016-08-25 Electronics And Telecommunications Research Institute Audio signal processing apparatus and method robust against noise
CN106033669A (zh) * 2015-03-18 2016-10-19 展讯通信(上海)有限公司 语音识别方法及装置
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106710594A (zh) * 2016-11-17 2017-05-24 北京中科汇联科技股份有限公司 一种基于云端的智能语音交互系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257602A (zh) * 2018-01-30 2018-07-06 海信集团有限公司 车牌号字符串矫正方法、装置、服务器和终端
CN116597827A (zh) * 2023-05-23 2023-08-15 苏州科帕特信息科技有限公司 一种目标语言模型确定方法及装置

Also Published As

Publication number Publication date
CN107180629B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN110717031B (zh) 一种智能会议纪要生成方法和系统
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
CN107678561A (zh) 基于人工智能的语音输入纠错方法及装置
US20180366107A1 (en) Method and device for training acoustic model, computer device and storage medium
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
Mariooryad et al. Building a naturalistic emotional speech corpus by retrieving expressive behaviors from existing speech corpora
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN105739688A (zh) 一种基于情感体系的人机交互方法、装置和交互系统
CN109388700A (zh) 一种意图识别方法及系统
CN102855317B (zh) 一种基于演示视频的多模式索引方法及系统
CN103456314A (zh) 一种情感识别方法以及装置
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN107845381A (zh) 一种机器人语义处理的方法及系统
CN113592251B (zh) 一种多模态融合的教态分析系统
CN111868823A (zh) 一种声源分离方法、装置及设备
Oneata et al. Kite: Automatic speech recognition for unmanned aerial vehicles
CN107180629A (zh) 一种语音采集识别方法与系统
CN107910006A (zh) 语音识别方法、装置和多信源语音区分识别系统
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
CN109478405A (zh) 信息处理设备、信息处理方法以及程序
CN110910898B (zh) 一种语音信息处理的方法和装置
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
CN102141812A (zh) 机器人
US20210337274A1 (en) Artificial intelligence apparatus and method for providing visual information
CN116189681A (zh) 一种智能语音交互系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 210000 266-1, North District, building 19, No. 2, Shangcheng Road, Yanjiang street, Jiangbei new area, Nanjing, Jiangsu Province

Patentee after: Nanjing huangdaoji Technology Development Co.,Ltd.

Address before: No. 333, Pangu Road, Pangu West Street, High-tech Zone, Changchun City, Changchun, Jilin Province, 130022

Patentee before: CHANGCHUN HUANGDAOJI TECHNOLOGY DEVELOPMENT CO.,LTD.