CN110580906B - 一种基于云端数据的远场音频扩音方法及系统 - Google Patents

一种基于云端数据的远场音频扩音方法及系统 Download PDF

Info

Publication number
CN110580906B
CN110580906B CN201910705548.9A CN201910705548A CN110580906B CN 110580906 B CN110580906 B CN 110580906B CN 201910705548 A CN201910705548 A CN 201910705548A CN 110580906 B CN110580906 B CN 110580906B
Authority
CN
China
Prior art keywords
field
far
model database
audio
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910705548.9A
Other languages
English (en)
Other versions
CN110580906A (zh
Inventor
虞焰兴
徐勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Semxum Information Technology Co ltd
Original Assignee
Anhui Semxum Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Semxum Information Technology Co ltd filed Critical Anhui Semxum Information Technology Co ltd
Priority to CN201910705548.9A priority Critical patent/CN110580906B/zh
Publication of CN110580906A publication Critical patent/CN110580906A/zh
Application granted granted Critical
Publication of CN110580906B publication Critical patent/CN110580906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云端数据的远场音频扩音方法,所述方法包括:通过声音采集设备获取远场音频数据;录音声卡获取并将所述远场音频数据保存后传给处理器;所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注;根据所述远场文字标注从近场模型数据库中得到近场音频数据,所述近场音频数据用于扩音播放。本发明能够将声音放大的同时不影响声音的音质,能够去除掉噪声,有效避免了回声造成的干扰,并且以不同距离场景下的声音选择性播放,更加人性化,使声音更加清晰。

Description

一种基于云端数据的远场音频扩音方法及系统
技术领域
本发明属于语音识别技术领域,特别涉及一种基于云端数据的远场音频扩音方法及系统。
背景技术
语音扩音的技术在日常生活中很常见,如会议上,当会议室比较大时,为了让每一个人都能够听到,就会用到扩音器等设备。
现有的扩音器设备是将接收到的所有声音都转换成电流,再将电流放大,以声音的形式释放出来,达到扩音的目的。但这种扩音方式会将周围的噪声一起放大,形成干扰,使人们不容易听清,并且回声也会再次进入扩音器的话筒中,经过扩音后再次被释放出来,不断循环,形成重声,大大影响了会议的质量和效率。
因此,需要解决远音在放大时,如何有效去除原声中夹杂的噪声,提高声音播放时的音质,并以近场效果播放的问题。
发明内容
针对上述问题,本发明提供了一种基于云端数据的远场音频扩音方法,所述方法包括:
通过声音采集设备获取远场音频数据;
录音声卡获取并将所述远场音频数据保存后传给处理器;
所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注;
根据所述远场文字标注从近场模型数据库中得到近场音频数据,所述近场音频数据用于扩音播放。
进一步地,所述根据远场模型数据库将所述远场音频数据转换成远场文字标注包括:
基于远场模型数据库,通过语音识别技术将所述远场音频数据转换成远场文字标注。
进一步地,所述根据所述远场文字标注从近场模型数据库中得到近场音频数据的步骤如下:
将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配得到近场音频语料组,具体包括:
若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注,则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组;
若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注,则根据所述远场文字标注对所述近场模型数据库进行匹配训练,形成新的近场文字标注,并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组;
根据所述近场音频语料组形成所述近场音频数据。
进一步地,所述匹配训练具体包括:
将所述远场文字标注按照字或词进行拆分;
根据已拆分的所述远场文字标注在所述近场模型数据库中匹配对应的近场文字标注;
将匹配到的对应的近场文字标注组合成所述新的近场文字标注。
进一步地,将所述近场模型数据库中已有的近场文字标注与所述远场模型数据库中已有的远场文字标注进行比较,判断所述远场模型数据库中是否存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,根据判断结果执行处理步骤,所述处理步骤包括:
若所述远场模型数据库中存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,则不做处理;
若所述远场模型数据库中不存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,则将所述近场模型数据库中的近场文字标注按照字或词进行拆分,根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注,将匹配到的对应的远场文字标注组合成新的远场文字标注,并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。
进一步地,所述近场音频语料组存储在所述近场模型数据库中作为新的近场音频语料,所述远场音频语料组存储在所述远场模型数据库中作为新的远场音频语料。
进一步地,所述近场模型数据库中的近场音频语料包括不同距离场景下的近场音频语料,每个所述近场音频语料都绑定有对应的近场文字标注,每个所述远场音频语料都绑定有对应的远场文字标注。
进一步地,所述远场音频语料或所述近场音频语料能够通过外部导入获取并存储在远场模型数据库或近场模型数据库中,还能够通过从云端数据库下载获取并存储在远场模型数据库或近场模型数据库中。
一种基于云端数据的远场音频扩音系统,所述系统包括:
声音采集设备,用于获取远场音频数据;
录音声卡,用于将所述远场音频数据保存后传给处理器;
处理器,用于根据远场模型数据库将所述远场音频数据转换成远场文字标注,并根据所述远场文字标注从近场模型数据库中得到近场音频数据;
播放模块,用于将近场音频数据形成近场音频播放。
进一步地,所述系统还包括云端数据库和网络模块,其中:
所述云端数据库,用于存储远场音频语料和近场音频语料;
所述网络模块,用于从所述云端数据库中下载远场音频语料和近场音频语料,还用于上传远场音频语料和近场音频语料到所述云端数据库。
本发明能够将声音放大的同时不影响声音的音质,能够去除掉噪声,有效避免了回声造成的干扰,并且以不同距离场景下的声音选择性播放,更加人性化,使声音更加清晰。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的基于云端数据的远场音频扩音方法流程示意图;
图2示出了根据本发明实施例的音频语料匹配与训练过程示意图;
图3示出了根据本发明实施例的基于云端数据的远场音频扩音系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于云端数据的远场音频扩音方法,图1示出了根据本发明实施例的基于云端数据的远场音频扩音方法流程示意图,如图1所示,所述方法包括以下步骤:
步骤一:通过声音采集设备获取远场音频数据;本发明实施例中,通过音频采集设备获取远场音频数据,如采用麦克风接收远场声音。其中,远场声音是指目标声源距离音频采集设备的距离较远,示例性地,目标声源-讲话者距离麦克风2m以上、8m之内(一般的麦克风接收声音的有效距离为8m以内)。实际应用中,根据音频采集设备的选择和音频采集技术的发展,可能支持距离更大的远场音频采集,本发明实施例对远场音频的采集距离不做限制。
远场音频进入到声音采集设备中后,声音采集设备会将远场音频转换成电流信号,即形成远场音频数据,远场音频数据会被传输到多媒体设备中的录音声卡。
步骤二:录音声卡获取并将所述远场音频数据保存后传给处理器;
步骤三:所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注;其中,远场模型数据库中包括远场音频数据和远场文字标注,远场音频数据由一个或多个远场音频语料组成,每个远场音频语料均绑定有语意相同的远场文字标注。其中,远场音频语料包括字、词或句的音频数据,远场文字标注包括字、词或句的拼音字段+声调字段组合,如“我”的远场文字标注为“wo3”,“我们”的远场文字标注为“wo3 men2”。
具体的,所述根据远场模型数据库将所述远场音频数据转换成远场文字标注包括:
基于远场模型数据库,通过语音识别技术将所述远场音频数据转换成远场文字标注。
步骤四:根据所述远场文字标注从近场模型数据库中得到近场音频数据,所述近场音频数据用于扩音播放。
其中,近场音频是指目标声源距离音频采集设备的距离较近,示例性地,目标声源-讲话者距离麦克风2m以内。近场模型数据库中包括近场音频数据和近场文字标注,近场音频数据由一个或多个近场音频语料组成,每个近场音频语料均绑定有语意相同的近场文字标注。其中,近场音频语料包括字、词或句的音频数据,近场文字标注包括字、词或句的拼音字段+声调字段组合,如“我”的近场文字标注为“wo3”,“我们”的近场文字标注为“wo3men2”。
具体的,根据所述远场文字标注从近场模型数据库中得到近场音频数据的步骤如下:
a、将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配,根据匹配结果执行处理步骤,所述处理步骤包括:
1、若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注,则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组;
2、若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注,则根据所述远场文字标注对所述近场模型数据库进行匹配训练,形成新的近场文字标注,并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组;
b、根据所述近场音频语料组形成所述近场音频数据。
其中,所述匹配训练具体包括:
将所述远场文字标注按照字或词进行拆分;
根据已拆分的所述远场文字标注在所述近场模型数据库中匹配对应的近场文字标注;
将匹配到的对应的近场文字标注组合成所述新的近场文字标注。
不仅仅近场模型数据库可以做匹配训练增加新的近场音频语料,远场模型数据库也可以通过训练增加新的远场音频语料,具体包括:
将所述近场模型数据库中已有的近场文字标注与所述远场模型数据库中已有的远场文字标注进行比较,判断所述远场模型数据库中是否存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,根据判断结果执行处理步骤,所述处理步骤包括:
1、若所述远场模型数据库中存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,则不做处理;
2、若所述远场模型数据库中不存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,则将所述近场模型数据库中的近场文字标注按照字或词进行拆分,根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注,将匹配到的对应的远场文字标注组合成新的远场文字标注,并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。
所述近场音频语料组存储在所述近场模型数据库中作为新的近场音频语料,所述远场音频语料组存储在所述远场模型数据库中作为新的远场音频语料。
需要说明的是,生成新的音频语料时,模型数据库中原音频语料不改变。
本发明实施例结合图2对音频语料匹配与训练的过程进行说明,示例性的,图2示出了根据本发明实施例的音频语料匹配与训练过程示意图,如图2所示,远场音频被转换成远场音频数据后传送到远场模型数据库中,通过语音转换技术将远场音频数据转换成远场文字标注。示例性的,远场音频数据的语意为“你们大家好”,转换成远场文字标注后就是“ni3 men2 da4 jia1 hao3”,以“ni3 men2 da4 jia1 hao3”为检索对象,在近场模型数据库中匹配与远场文字标注“ni3 men2 da4 jia1 hao3”相同的近场文字标注,包括两种情况:
1、在近场模型数据库中直接匹配到与远场文字标注“ni3 men2 da4 jia1 hao3”相同的近场文字标注。
2、在近场模型数据库中不能直接匹配到与远场文字标注“ni3 men2 da4 jia1hao3”相同的近场文字标注,此时可通过以下方式进行匹配:
将远场文字标注“ni3 men2 da4 jia1 hao3”按照字或词进行拆分,示例性的,可拆分成“ni3 men2”、“da4 jia1”、“hao3”,在近场模型数据库中匹配“ni3 men2”、“da4jia1”、“hao3”这三个近场文字标注,匹配到以后,将“ni3 men2”、“da4 jia1”、“hao3”这三个近场文字标注进行组合,形成一个近场文字标注“ni3 men2 da4 jia1 hao3”,即为所需匹配的近场文字标注。
由于近场模型数据库中的每个近场文字标注都绑定有与之对应的近场音频语料,因此根据近场文字标注可得到近场音频语料,即根据近场文字标注“ni3 men2 da4 jia1hao3”可得到语意为“你们大家好”的近场音频语料组。近场音频语料组存储在近场模型数据库中作为新的近场音频语料,便于下次匹配,节省处理时间,提高效率。
近场模型数据库与远场模型数据库之间进行训练,将远场模型数据库中的远场文字标注与近场模型数据库中的近场文字标注进行比对,当远场模型数据库中不存在与近场模型数据库中的近场文字标注相同的远场文字标注时,则将所述近场模型数据库中的近场文字标注按照字或词进行拆分,根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注,将匹配到的对应的远场文字标注组合成新的远场文字标注,并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。示例性的,近场模型数据库中存在近场文字标注“ni3 men2 da4 jia1 hao3”,而远场模型数据库中没有与之相同的远场文字标注,此时可将近场文字标注“ni3 men2 da4 jia1 hao3”拆分成“ni3 men2”、“da4 jia1”、“hao3”,在远场模型数据库中对这三个近场文字标注进行匹配,匹配到“ni3 men2”、“da4 jia1”、“hao3”的远场文字标注,将“ni3 men2”、“da4 jia1”、“hao3”三个远场文字标注组合成一个远场文字标注“ni3 men2 da4 jia1 hao3”。三个远场文字标注各自绑定的远场音频语料合成了一个远场音频语料组,远场音频语料组存储在远场模型数据库中作为新的远场音频语料,待到下次匹配相同文字标注时,由于远场模型数据库与近场模型数据库存在相同的文字标注,因此可以直接进行匹配,大大提高了匹配速度。
所述近场模型数据库中的近场音频语料包括不同距离场景下的近场音频语料。
所述远场音频语料或所述近场音频语料能够通过外部导入获取并存储在远场模型数据库或近场模型数据库中,还能够通过从云端数据库下载获取并存储在远场模型数据库或近场模型数据库中。
所述近场音频数据经过播放后形成近场音频。
根据距离场景在远场模型数据库中匹配对应的远场音频语料,有利于筛选掉回声和其他人声音的干扰。示例性的,选择的距离场景为6m至7m,人们位于距离声音采集设备6m至7m的范围内说话“我们都很好”,声音采集设备将接收到该距离场景的音频转换为电流信号,即转换为音频数据。远场模型数据库中会有不同距离场景下的远场音频语料,处理器先根据距离场景在远场模型数据库中选择相同距离场景下的远场音频语料,即选择的距离场景为6m至7m,至于此距离场景以外的声音将被去除,减少了噪声,提高了原声音的清晰度。通过语音转换技术和该距离场景下的远场音频语料,将远场音频数据“我们都很好”转换成远场文字标注“wo3 men2 dou1 hen3 hao3”,并根据此远场文字标注在近场模型数据库中匹配相同的近场文字标注,通过已匹配的近场文字标注,得到与之绑定的近场音频语料组,此近场音频语料组的内容即为“我们都很好”。根据需要选择合适距离场景的近场音频语料,示例性的,选择的距离场景为1m至2m,得到的近场音频即为1m至2m距离场景的音频。此时,在距离声音采集设备6m至7m处发出的声音,经音频转换后,播放出距离声音采集设备1m至2m发出声音的效果。采集远场音频时提取音质特征数据,用所述音质特征数据渲染生成的近场音频语料,保持输出的音频音质与声源的音质一致,提高了音频播放的效果。
本发明还提供了一种基于云端数据的远场音频扩音系统,图3示出了根据本发明实施例的基于云端数据的远场音频扩音系统示意图,如图3所示,声音采集设备将接收到的远场音频转换成远场音频数据(电流信号)传给多媒体设备,多媒体设备中的录音声卡将接收到的远场音频数据进行保存并传送给处理器,处理器根据远场模型数据库将所述远场音频数据转换成对应远场文字标注,并根据所述远场文字标注从近场模型数据库中得到近场音频数据。近场音频数据传到扩音模块,根据需求,扩音模块可以将近场音频数据进行放大处理,处理后的近场音频数据通过播放模块进行播放,形成所需要的近场音频。多媒体设备通过网络模块与云端数据库进行交互,具体的,处理器可以通过网络模块将音频语料上传到云端数据库进行存储,也可以通过网络模块从云端数据库中下载需要的音频语料存储在远场模型数据库或近场模型数据库中。
本发明能够将声音放大的同时不影响声音的音质,能够去除掉噪声,有效避免了回声造成的干扰,并且以不同距离场景下的声音选择性播放,更加人性化,使声音更加清晰。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于云端数据的远场音频扩音方法,其特征在于,所述方法包括:
通过声音采集设备获取远场音频数据;
录音声卡将所述远场音频数据保存后传给处理器;
所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注;
根据所述远场文字标注从近场模型数据库中得到近场音频数据,具体为:将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配得到近场音频语料组,具体包括:若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注,则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组;若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注,则根据所述远场文字标注对所述近场模型数据库进行匹配训练,形成新的近场文字标注,并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组;根据所述近场音频语料组形成所述近场音频数据;所述近场音频数据用于扩音播放。
2.根据权利要求1所述的基于云端数据的远场音频扩音方法,其特征在于,所述根据远场模型数据库将所述远场音频数据转换成远场文字标注包括:
基于远场模型数据库,通过语音识别技术将所述远场音频数据转换成远场文字标注。
3.根据权利要求1所述的基于云端数据的远场音频扩音方法,其特征在于,所述匹配训练具体包括:
将所述远场文字标注按照字或词进行拆分;
根据已拆分的所述远场文字标注在所述近场模型数据库中匹配对应的近场文字标注;
将匹配到的对应的近场文字标注组合成所述新的近场文字标注。
4.根据权利要求1所述的基于云端数据的远场音频扩音方法,其特征在于,将所述近场模型数据库中已有的近场文字标注与所述远场模型数据库中已有的远场文字标注进行比较,判断所述远场模型数据库中是否存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,根据判断结果执行处理步骤,所述处理步骤包括:
若所述远场模型数据库中存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,则不做处理;
若所述远场模型数据库中不存在与所述近场模型数据库中的近场文字标注相同的远场文字标注,则将所述近场模型数据库中的近场文字标注按照字或词进行拆分,根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注,将匹配到的对应的远场文字标注组合成新的远场文字标注,并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。
5.根据权利要求4所述的基于云端数据的远场音频扩音方法,其特征在于,所述近场音频语料组存储在所述近场模型数据库中作为新的近场音频语料,所述远场音频语料组存储在所述远场模型数据库中作为新的远场音频语料。
6.根据权利要求5所述的基于云端数据的远场音频扩音方法,其特征在于,所述近场模型数据库中的近场音频语料包括不同距离场景下的近场音频语料,每个所述近场音频语料都绑定有对应的近场文字标注,每个所述远场音频语料都绑定有对应的远场文字标注。
7.根据权利要求6所述的基于云端数据的远场音频扩音方法,其特征在于,所述远场音频语料或所述近场音频语料能够通过外部导入获取并存储在远场模型数据库或近场模型数据库中,还能够通过从云端数据库下载获取并存储在远场模型数据库或近场模型数据库中。
8.一种基于云端数据的远场音频扩音系统,其特征在于,所述系统包括:
声音采集设备,用于获取远场音频数据;
录音声卡,用于将所述远场音频数据保存后传给处理器;
处理器,用于根据远场模型数据库将所述远场音频数据转换成远场文字标注,并根据所述远场文字标注从近场模型数据库中得到近场音频数据,具体为:将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配得到近场音频语料组,具体包括:若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注,则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组;若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注,则根据所述远场文字标注对所述近场模型数据库进行匹配训练,形成新的近场文字标注,并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组;根据所述近场音频语料组形成所述近场音频数据;
播放模块,用于将近场音频数据形成近场音频播放。
9.根据权利要求8所述的基于云端数据的远场音频扩音系统,其特征在于,所述系统还包括云端数据库和网络模块,其中:
所述云端数据库,用于存储远场音频语料和近场音频语料;
所述网络模块,用于从所述云端数据库中下载远场音频语料和近场音频语料,还用于上传远场音频语料和近场音频语料到所述云端数据库。
CN201910705548.9A 2019-08-01 2019-08-01 一种基于云端数据的远场音频扩音方法及系统 Active CN110580906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910705548.9A CN110580906B (zh) 2019-08-01 2019-08-01 一种基于云端数据的远场音频扩音方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910705548.9A CN110580906B (zh) 2019-08-01 2019-08-01 一种基于云端数据的远场音频扩音方法及系统

Publications (2)

Publication Number Publication Date
CN110580906A CN110580906A (zh) 2019-12-17
CN110580906B true CN110580906B (zh) 2022-02-11

Family

ID=68810621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910705548.9A Active CN110580906B (zh) 2019-08-01 2019-08-01 一种基于云端数据的远场音频扩音方法及系统

Country Status (1)

Country Link
CN (1) CN110580906B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203180A (zh) * 2020-09-24 2021-01-08 安徽文香信息技术有限公司 一种智慧教室扩音器耳麦自适应音量调节系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857650A (zh) * 2012-08-29 2013-01-02 苏州佳世达电通有限公司 动态调整语音的方法
CN104079420A (zh) * 2014-06-27 2014-10-01 联想(北京)有限公司 一种信息处理方法及电子设备
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
US9202475B2 (en) * 2008-09-02 2015-12-01 Mh Acoustics Llc Noise-reducing directional microphone ARRAYOCO
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106486135A (zh) * 2015-08-27 2017-03-08 想象技术有限公司 近端语音检测器
CN109087662A (zh) * 2018-10-25 2018-12-25 科大讯飞股份有限公司 一种回声消除方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105744210B (zh) * 2016-04-15 2018-10-12 北京小米移动软件有限公司 视频会议的回声消除方法、装置及系统
CN106714029A (zh) * 2016-12-13 2017-05-24 安徽声讯信息技术有限公司 一种可移动智能语音箱交互装置
CN107452372B (zh) * 2017-09-22 2020-12-11 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN109935226A (zh) * 2017-12-15 2019-06-25 上海擎语信息科技有限公司 一种基于深度神经网络的远场语音识别增强系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202475B2 (en) * 2008-09-02 2015-12-01 Mh Acoustics Llc Noise-reducing directional microphone ARRAYOCO
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
CN102857650A (zh) * 2012-08-29 2013-01-02 苏州佳世达电通有限公司 动态调整语音的方法
CN104079420A (zh) * 2014-06-27 2014-10-01 联想(北京)有限公司 一种信息处理方法及电子设备
CN106486135A (zh) * 2015-08-27 2017-03-08 想象技术有限公司 近端语音检测器
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN109087662A (zh) * 2018-10-25 2018-12-25 科大讯飞股份有限公司 一种回声消除方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Efficient Design Method of Nearfield Wideband Beamformer for Underwater Radiated Noise Measurement;Hou Peng et al.;《The 11 th IEEE International Conference on Electronic Measurement & Instruments》;20131231;全文 *

Also Published As

Publication number Publication date
CN110580906A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
US9547642B2 (en) Voice to text to voice processing
US9715873B2 (en) Method for adding realism to synthetic speech
CN107423364B (zh) 基于人工智能的回答话术播报方法、装置及存储介质
US20160064008A1 (en) Systems and methods for noise reduction using speech recognition and speech synthesis
JP2023550405A (ja) 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム
US11115765B2 (en) Centrally controlling communication at a venue
CN107527623A (zh) 传屏方法、装置、电子设备及计算机可读存储介质
KR20150017662A (ko) 텍스트-음성 변환 방법, 장치 및 저장 매체
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
CN109743529A (zh) 一种多功能视频会议系统
CN111540370A (zh) 音频处理方法、装置、计算机设备及计算机可读存储介质
CN110580906B (zh) 一种基于云端数据的远场音频扩音方法及系统
CN112581965A (zh) 转写方法、装置、录音笔和存储介质
CN108364638A (zh) 一种语音数据处理方法、装置、电子设备和存储介质
CN112599130B (zh) 一种基于智慧屏的智能会议系统
KR20220166465A (ko) 다채널 수신기를 이용한 회의록 생성 시스템 및 방법
US20220157316A1 (en) Real-time voice converter
JP7331645B2 (ja) 情報提供方法および通信システム
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
JP2019074865A (ja) 会話収集装置、会話収集システム及び会話収集方法
JP5326539B2 (ja) 留守番電話システム、留守番電話サービスサーバ及び留守番電話サービス方法
KR20180068655A (ko) 음성 신호에 기초한 문자 생성 장치 및 방법
CN114614929A (zh) 一种自适应播放音视频的可管可控的应急广播终端
CN112397049A (zh) 一种基于文字转语音技术进行视频配音的方法
JP2002108378A (ja) 文書読み上げ装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant