CN114171065A - 音频采集和对比方法、系统及车辆 - Google Patents
音频采集和对比方法、系统及车辆 Download PDFInfo
- Publication number
- CN114171065A CN114171065A CN202111433461.4A CN202111433461A CN114171065A CN 114171065 A CN114171065 A CN 114171065A CN 202111433461 A CN202111433461 A CN 202111433461A CN 114171065 A CN114171065 A CN 114171065A
- Authority
- CN
- China
- Prior art keywords
- audio
- recording
- information
- comparison method
- countdown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000013441 quality evaluation Methods 0.000 abstract description 3
- 238000003860 storage Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 5
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B19/00—Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
- G11B19/02—Control of operating function, e.g. switching from recording to reproducing
- G11B19/022—Control panels
- G11B19/025—'Virtual' control panels, e.g. Graphical User Interface [GUI]
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/16—Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
本发明公开的一种音频采集和对比方法、系统及车辆,包括以下步骤:采集音频信息;将音频信息转写为文本信息;将转写后的文本信息与目标音频文本信息进行对比;若对比的结果大于预设相似度阈值,则存储所采集的音频信息,否则删除所采集的音频信息。本发明支持对音频内容自动进行音频质量评估,符合质量要求的则存储,不符合质量要求的自动删除,有效提升了采集短音频的效率及采集音频的质量,减少了人员投入。
Description
技术领域
本发明涉及语音交互技术领域,具体涉及一种音频采集和对比方法、系统及车辆。
背景技术
音频数据是语音产品优化的基础,因此车载语音产品对特定的音频数据有很大的采集需求,如语音唤醒词(一般为短音频)就需要采集大量、重复的音频数据。
行业普遍采用方案:在车内布置专业音频采集设备来进行音频的采集,通过人员现场指导、校核录音内容,对符合要求的音频存档,不符合要求的音频删除。这种方案需要花费时间较长、音频设备的采购成本较高。
因此,有必要开发一种音频采集和对比方法、系统及车辆。
发明内容
本发明的目的是提供一种音频采集和对比方法、系统及车辆,能提升采集短音频的效率及采集音频的质量。
本发明所述的一种音频采集和对比方法,包括以下步骤:
采集音频信息;
将音频信息转写为文本信息;
将转写后的文本信息与目标音频文本信息进行对比;
若对比的结果大于预设相似度阈值,则存储所采集的音频信息,否则删除所采集的音频信息。
可选地,通过录音的方式采集音频信息。
可选地,设置录音倒计时的初始值;响应于录音功能被触发时,接收用户的语音录音,持续录音至倒计时完成。
可选地,响应于倒计时结束时,显示录音已结束;若倒计时结束,但录音未完成时,响应于检测到继续该条录音的功能屏幕按钮或者物理按键被触发时,则继续该条录音的录制,并将继续采集的音频信息和之前所采集的音频信号融合成一条音频信息。
可选地,通过点击屏幕按钮或者物理按键开启录音,或通过语音控制开启录音,或通过视线交互方式开启录音。
可选地,通过时间单位倒计时,或通过图形变化进行倒计时。
可选地,采集音频信息的方式包括现场发声并录音采集,远程发声并录音采集,以及将已有录音进行播放并采集中的一种或多种。
可选地,采集的音频信息为单人发声,或为多人发声。
第二方面,本发明所述的一种音频采集和对比系统,包括存储器和控制器,所述存储器内存储有计算机可读程序,所述计算机可读程序被控制器调用时能执行如本发明所述的音频采集和对比方法的步骤。
第三方面,本发明所述的一种车辆,采用如本发明所述的音频采集和对比系统。
本发明具有以下优点:本发明实现了音频采集并对音频质量进行自动比对的功能。本装置支持对音频内容自动进行音频质量评估,对不符合采集内容的音频能够自动删除,能够有效提升采集短音频的效率及采集音频的质量,减少了人员投入。
附图说明
图1为本实施例的流程图;
图2为本实施例中音频采集装置的原理框图;
图3为音频采集可视化界面的示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本实施例中,一种音频采集和对比方法,包括以下步骤:
采集音频信息;
将音频信息转写为文本信息;
将转写后的文本信息与目标音频文本信息进行对比;
若对比的结果大于预设相似度阈值,则存储所采集的音频信息,否则删除所采集的音频信息。
本实施例中,通过录音的方式采集音频信息。通过设置录音倒计时的初始值;响应于录音功能被触发时,接收用户的语音录音,持续录音至倒计时完成。
本实施例中,对于开启录音的方式,包括但是不限于点击屏幕按钮或者物理按键开启录音,亦或通过语音控制开启录音,亦或通过视线交互等方式开启录音。只要实现开启录音功能即可。
本实施例中,对于倒计时功能,包括但不限于通过时间单位倒计时,通过图形变化(包含但是不限于沙漏变化,条形图变化,圆圈缩小,圆圈旋转等等)倒计时,或通过其他可视化方式倒计时等。只要实现了倒计时功能,即可视为倒计时结束录音。对于倒计时,用户可以自行设定录音总时长,从而实现倒计时的功能,设定的方式包含但是不限于通过输入数字时长,通过图形变化表示时长等。
在录音过程中,用户可以通过可视化界面,点击屏幕按钮或者物理按键中途暂停音频录入,暂停音频录入过程中对应的倒计时应该也暂停,不再进行倒计时功能,倒计时功能暂停后用户可以点击继续录音按钮,继续进行录音操作,倒计时功能继续工作。如果倒计时结束,显示录音已结束,用户存在录音未完成的情况,用户可以点击继续该条录音的功能屏幕按钮或者物理按键继续进行该条录音的采集,从而继续该条录音的录制,继续音频采集的结果是和原来录音形成同一条录音。
本实施例中,采集音频不仅包含现场发声并录音采集,也包含远程发声并录音采集,也包含将已有录音进行播放并采集。音频不仅仅包含单人发声,也包含多人发声;如果采用真人现场发声的情况,音频采集可使用到语音结合唇动的多模融合技术,该情况依然视为采集音频这一步骤。
本实施例中,存储音频包含所有支持的录音格式。这一步可以通过可视化界面,点击屏幕按钮或者物理按键重新进行录音采集并存储。此处的存储不仅包含本地存储,也包含云端存储。
本实施例中,将音频进行文本转写,获得文本,具体为:
将音频进行文本转写,获得文本的方式不仅包含本地将音频进行文本转写,也包含将音频通过云端或者第三方接口进行文本转写然后同步文本到本地。
本实施例中,将转写后的文本信息与目标音频文本信息进行对比;该步骤对比标准为人工可以控制,除目标为100%以外,也可以设定范围,比如小于X%,比如处于X%至Y%中间,比如大于Y%等。该步骤可以通过点击屏幕按钮或者物理按键的方式实时修改目标音频文本。该步骤如果文本对比结果满足目标要求,则自动存储该音频文件。如果文本对比结果不满足目标要求,且用户设置了不满足目标要求则自动删除录音,则将该条录音删除。如果文本对比结果不满足目标要求,且用户没有设置不满足目标要求则自动删除录音,则用户可以自行手动保存该条录音,在该步骤中,用户可以播放录音结果。对于存储后的音频文件,用户可以进行重命名,删除等操作。
如图2所示,本实施例中,音频采集装置由麦克风、降噪单元、处理单元、存储单元和显示单元组成,其中,麦克风与降噪单元连接,降噪单元与存储单元连接,存储单元与显示单元连接,用于实现音频录音、降噪处理、音频存储等功能。
本实施例中,还设置有音频采集可视化界面,将音频采集流程可视化,提供音频采集内容编辑、录音计时、录音文件存储管理、录音质量评估结果展现,文件处理等内容,参见图3。
本实施例中,一种音频采集和对比系统,包括存储器和控制器,所述存储器内存储有计算机可读程序,所述计算机可读程序被控制器调用时能执行如本实施例中所述的音频采集和对比方法的步骤。
本实施例中,一种车辆,采用如本实施例中所述的音频采集和对比系统。
Claims (10)
1.一种音频采集和对比方法,其特征在于,包括以下步骤:
采集音频信息;
将音频信息转写为文本信息;
将转写后的文本信息与目标音频文本信息进行对比;
若对比的结果大于预设相似度阈值,则存储所采集的音频信息,否则删除所采集的音频信息。
2.根据权利要求1所述的音频采集和对比方法,其特征在于:通过录音的方式采集音频信息。
3.根据权利要求2所述的音频采集和对比方法,其特征在于:设置录音倒计时的初始值;响应于录音功能被触发时,接收用户的语音录音,持续录音至倒计时完成。
4.根据权利要求3所述的音频采集和对比方法,其特征在于:响应于倒计时结束时,显示录音已结束;若倒计时结束,但录音未完成时,响应于检测到继续该条录音的功能屏幕按钮或者物理按键被触发时,则继续该条录音的录制,并将继续采集的音频信息和之前所采集的音频信号融合成一条音频信息。
5.根据权利要求2至4任一所述的音频采集和对比方法,其特征在于:通过点击屏幕按钮或者物理按键开启录音,或通过语音控制开启录音,或通过视线交互方式开启录音。
6.根据权利要求5所述的音频采集和对比方法,其特征在于:通过时间单位倒计时,或通过图形变化进行倒计时。
7.根据权利要求6所述的音频采集和对比方法,其特征在于:采集音频信息的方式包括现场发声并录音采集,远程发声并录音采集,以及将已有录音进行播放并采集中的一种或多种。
8.根据权利要求7所述的音频采集和对比方法,其特征在于:采集的音频信息为单人发声,或为多人发声。
9.一种音频采集和对比系统,其特征在于:包括存储器和控制器,所述存储器内存储有计算机可读程序,所述计算机可读程序被控制器调用时能执行如权利要求1至9任一所述的音频采集和对比方法的步骤。
10.一种车辆,其特征在于:采用如权利要求9所述的音频采集和对比系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111433461.4A CN114171065A (zh) | 2021-11-29 | 2021-11-29 | 音频采集和对比方法、系统及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111433461.4A CN114171065A (zh) | 2021-11-29 | 2021-11-29 | 音频采集和对比方法、系统及车辆 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114171065A true CN114171065A (zh) | 2022-03-11 |
Family
ID=80481465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111433461.4A Withdrawn CN114171065A (zh) | 2021-11-29 | 2021-11-29 | 音频采集和对比方法、系统及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114171065A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979787A (zh) * | 2022-05-17 | 2022-08-30 | 北京量子之歌科技有限公司 | 一种直播回放管理方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649060A (en) * | 1993-10-18 | 1997-07-15 | International Business Machines Corporation | Automatic indexing and aligning of audio and text using speech recognition |
US20060095848A1 (en) * | 2004-11-04 | 2006-05-04 | Apple Computer, Inc. | Audio user interface for computing devices |
CN108564966A (zh) * | 2018-02-02 | 2018-09-21 | 安克创新科技股份有限公司 | 语音测试的方法及其设备、具有存储功能的装置 |
CN108712319A (zh) * | 2018-04-20 | 2018-10-26 | 广州沐思信息科技有限公司 | 一种基于即时通讯的语音发送方法、装置及终端 |
CN108831476A (zh) * | 2018-05-31 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音采集方法、装置、计算机设备及存储介质 |
CN109493869A (zh) * | 2018-12-25 | 2019-03-19 | 苏州思必驰信息科技有限公司 | 音频数据的采集方法及系统 |
CN109830229A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 音频语料智能清洗方法、装置、存储介质和计算机设备 |
CN111354363A (zh) * | 2020-02-21 | 2020-06-30 | 镁佳(北京)科技有限公司 | 车载语音识别方法、装置、可读存储介质及电子设备 |
CN113707145A (zh) * | 2021-08-26 | 2021-11-26 | 海信视像科技股份有限公司 | 显示设备及语音搜索方法 |
-
2021
- 2021-11-29 CN CN202111433461.4A patent/CN114171065A/zh not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649060A (en) * | 1993-10-18 | 1997-07-15 | International Business Machines Corporation | Automatic indexing and aligning of audio and text using speech recognition |
US20060095848A1 (en) * | 2004-11-04 | 2006-05-04 | Apple Computer, Inc. | Audio user interface for computing devices |
CN108564966A (zh) * | 2018-02-02 | 2018-09-21 | 安克创新科技股份有限公司 | 语音测试的方法及其设备、具有存储功能的装置 |
CN108712319A (zh) * | 2018-04-20 | 2018-10-26 | 广州沐思信息科技有限公司 | 一种基于即时通讯的语音发送方法、装置及终端 |
CN108831476A (zh) * | 2018-05-31 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音采集方法、装置、计算机设备及存储介质 |
CN109830229A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 音频语料智能清洗方法、装置、存储介质和计算机设备 |
CN109493869A (zh) * | 2018-12-25 | 2019-03-19 | 苏州思必驰信息科技有限公司 | 音频数据的采集方法及系统 |
CN111354363A (zh) * | 2020-02-21 | 2020-06-30 | 镁佳(北京)科技有限公司 | 车载语音识别方法、装置、可读存储介质及电子设备 |
CN113707145A (zh) * | 2021-08-26 | 2021-11-26 | 海信视像科技股份有限公司 | 显示设备及语音搜索方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979787A (zh) * | 2022-05-17 | 2022-08-30 | 北京量子之歌科技有限公司 | 一种直播回放管理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3526067B2 (ja) | 再生装置及び再生方法 | |
CN100462975C (zh) | 信息演示方法和信息演示装置 | |
US6728680B1 (en) | Method and apparatus for providing visual feedback of speed production | |
KR20060128022A (ko) | 사용성 테스트를 실시하기 위한 자동화 시스템 및 방법 | |
US20160247520A1 (en) | Electronic apparatus, method, and program | |
JPH07182365A (ja) | マルチメディア会議録作成支援装置および方法 | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
CN108900791B (zh) | 一种视频发布方法、装置、设备及存储介质 | |
WO2021031733A1 (zh) | 视频特效生成方法及终端 | |
EP2927853A1 (en) | Method of capturing and structuring information from a meeting | |
CN111193890A (zh) | 会议记录解析装置、方法和会议记录播放系统 | |
US20210249032A1 (en) | Processing Audio Information | |
JP6176041B2 (ja) | 情報処理装置及びプログラム | |
CN112887480A (zh) | 音频信号处理方法、装置、电子设备和可读存储介质 | |
JP2003533768A (ja) | 記憶支援装置 | |
CN108763475B (zh) | 一种录制方法、录制装置及终端设备 | |
CN114171065A (zh) | 音频采集和对比方法、系统及车辆 | |
JP3736597B2 (ja) | 発言構造情報提示装置および発言構造情報提示方法 | |
CN113918522A (zh) | 一种文件生成方法、装置及电子设备 | |
JP3879793B2 (ja) | 発言構造検出表示装置 | |
JP3775446B2 (ja) | 会議情報記録方法および会議情報記録装置並びに会議情報再生装置 | |
CN113901186A (zh) | 电话录音标注方法、装置、设备及存储介质 | |
JPH08255171A (ja) | 情報処理装置 | |
WO2023213313A1 (zh) | 用于音频编辑的方法、装置、设备和存储介质 | |
JP3234083B2 (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220311 |
|
WW01 | Invention patent application withdrawn after publication |