CN108806692A - 一种音频内容查找及可视化播放方法 - Google Patents
一种音频内容查找及可视化播放方法 Download PDFInfo
- Publication number
- CN108806692A CN108806692A CN201810535444.3A CN201810535444A CN108806692A CN 108806692 A CN108806692 A CN 108806692A CN 201810535444 A CN201810535444 A CN 201810535444A CN 108806692 A CN108806692 A CN 108806692A
- Authority
- CN
- China
- Prior art keywords
- content
- audio
- text
- voice
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012800 visualization Methods 0.000 title claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000013473 artificial intelligence Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/14—Transforming into visible information by displaying frequency domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电子设备技术领域,尤其涉及一种音频内容查找及可视化播放方法。本发明中的一种音频内容查找及可视化播放方法,包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备;所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
Description
技术领域
本发明涉及电子设备技术领域,尤其涉及一种音频内容查找及可视化播放方法。
背景技术
现有技术中由于音频的内容不是以文本的方式展示在电脑中,用户无法知道内容位于音频中的何处,也不方便查找音频内容是否包含指定的内容。用户想单次播放(点读)或循环播放(复读)指定的内容时,用户需要仔细的倾听音频内容同时关注播放进度,才能确定所需内容在音频中的位置或区间,然后单次播放(点读)或循环播放(复读)所需的内容,非常不便利。
本发明通过专有的解码技术结合AI(人工智能)算法,将音频内容提取出人声,并将人声转换成文本,同时建立内容和播放进度的关联,然后将文本显示在屏幕上,用户只需在触摸屏上滑动选择或通过鼠标在屏幕选择所需的文本内容,或者输入文本内容进行搜索,系统就可以找到正确的播放时刻进行点读或复读播放,极大的提高用户的操作效率和使用效果。
发明内容
本发明的目的是提供一种音频内容查找及可视化播放方法,来解决背景技术中用户需要仔细的倾听音频内容同时关注播放进度,才能确定所需内容在音频中的位置或区间,然后单次播放(点读)或循环播放(复读)所需的内容,非常不便利的问题。
本发明所采用的技术方案为:一种音频内容查找及可视化播放方法,包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备;所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
作为本发明一种实施例,所述步骤为:
1)通过解码器读取音频文件,将二进制数据转换成波形数据;
2)对波形数据进行频域转换,分离出人声频域数据;
3)将人声频域数据转换成时域数据;
4)通过语音识别技术,将人声时域数据转换成文字,转换的过程中同时记录每个字或单词的时间坐标;
5)使用人工智能(AI)算法对步骤4的文字进行智能校正,确保转换的文字信息准确,通过上述步骤,将音频内容转换成为文字内容并建立了时间索引,就可以方便的进行查找和定位,音频在播放前经过本方法这样的预处理,在播放前就可以获知音频的文字内容,将内容展示在屏幕上,即可实现可视化的播放。
本发明的有益效果:
1、音频内容可视化,将音频的人声内容直观的展示在屏幕上;
2、在音频中查找文本内容与位置;用户进行点读或复读时非常高效,用户只需在屏幕选择想要点读或复读的内容即可,无需用户人工确定内容在音频中的位置或区间。
附图说明
图1为本发明系统操作流程图。
图2为本发明内容播放流程图。
图3为本发明一种实施例操作图。
具体实施方式
以下结合附图对本发明作进一步说明:
本发明中的一种音频内容查找及可视化播放方法,包括音频文件、解码与定位器、AI内容校验、屏幕显示;本发明中所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
作为本发明具体实施方式:
音频内容查找与可视化播放方法包含如下步骤:1)通过解码器读取音频文件,将二进制数据转换成pcm波形数据;2)对波形数据进行频域转换,分离出人声频域数据;3)将人声频域数据转换成时域数据;4)通过语音识别技术,将人声时域数据转换成文字,转换的过程中同时记录每个字或单词的时间坐标;假设音频内容为一种富强的价值观,识别的片段如下:
<content>
<text>富</text>
<time>[00:01.00]</time>
</content>
<content>
<text>裕</text>
<time>[00:02.00]</time>
</content>
5)使用人工智能(AI)算法对步骤4的文字进行智能校正,确保转换的文字信息准确,例如将原文识别出的“裕”改为“强”,得到最终结果如下:
<content>
<text>富</text>
<time>[00:01.00]</time>
</content>
<content>
<text>强</text>
<time>[00:02.00]</time>
</content>
6)通过上述步骤,将音频内容转换成为文字内容并建立了时间索引,就可以方便的进行查找和定位,音频在播放前经过本方法这样的预处理,在播放前就可以获知音频的文字内容,将内容展示在屏幕上,即可实现可视化的播放。
虽然本发明已以较佳实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可做各种的改动与修饰,因此本发明的保护范围应该以权利要求书所界定的为准。
Claims (3)
1.一种音频内容查找及可视化播放方法,其特征在于:包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备;所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
2.根据权利要求1所述的一种音频内容查找及可视化播放方法,其特征在于:所述具体步骤为:
1)通过解码器读取音频文件,将二进制数据转换成波形数据;
2)对波形数据进行频域转换,分离出人声频域数据;
3)将人声频域数据转换成时域数据;
4)通过语音识别技术,将人声时域数据转换成文字,转换的过程中同时记录每个字或单词的时间坐标;
5)使用人工智能(AI)算法内容校验对步骤4的文字进行智能校正,确保转换的文字信息准确。
3.根据权利要求2所述的一种音频内容查找及可视化播放方法,其特征在于:所述将音频内容转换成为文字内容并建立了时间索引,方便进行查找和定位,音频在播放前经过预处理,在播放前就可以获知音频的文字内容,将内容展示在屏幕上,即可实现可视化的播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810535444.3A CN108806692A (zh) | 2018-05-29 | 2018-05-29 | 一种音频内容查找及可视化播放方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810535444.3A CN108806692A (zh) | 2018-05-29 | 2018-05-29 | 一种音频内容查找及可视化播放方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108806692A true CN108806692A (zh) | 2018-11-13 |
Family
ID=64089217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810535444.3A Pending CN108806692A (zh) | 2018-05-29 | 2018-05-29 | 一种音频内容查找及可视化播放方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108806692A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929709A (zh) * | 2019-10-25 | 2020-03-27 | 北京光年无限科技有限公司 | 基于oid点读内容转换为绘本指读内容的方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101102240A (zh) * | 2006-07-04 | 2008-01-09 | 王建波 | 一种音频、视频内容的采集方法和检索方法 |
CN101789256A (zh) * | 2010-03-24 | 2010-07-28 | 武汉嘉工科技有限公司 | 一种音视频播放器的控制方法 |
CN102262890A (zh) * | 2010-05-31 | 2011-11-30 | 鸿富锦精密工业(深圳)有限公司 | 电子装置及其标记方法 |
CN102592628A (zh) * | 2012-02-15 | 2012-07-18 | 张群 | 一种音视频播放文件的播放控制方法 |
US20120197650A1 (en) * | 2009-10-19 | 2012-08-02 | Dolby International Ab | Metadata time marking information for indicating a section of an audio object |
US20120304062A1 (en) * | 2011-05-23 | 2012-11-29 | Speakertext, Inc. | Referencing content via text captions |
CN103065659A (zh) * | 2012-12-06 | 2013-04-24 | 广东欧珀移动通信有限公司 | 一种多媒体记录方法 |
CN103165131A (zh) * | 2011-12-17 | 2013-06-19 | 富泰华工业(深圳)有限公司 | 语音处理系统及语音处理方法 |
CN104301771A (zh) * | 2013-07-15 | 2015-01-21 | 中兴通讯股份有限公司 | 视频文件播放进度的调整方法及装置 |
CN105653729A (zh) * | 2016-01-28 | 2016-06-08 | 努比亚技术有限公司 | 一种录音文件索引的装置及方法 |
CN106488300A (zh) * | 2016-10-27 | 2017-03-08 | 广东小天才科技有限公司 | 一种视频内容查看方法及装置 |
CN106847315A (zh) * | 2017-01-24 | 2017-06-13 | 广州朗锐数字传媒科技有限公司 | 一种有声读物逐句同步展示方法 |
-
2018
- 2018-05-29 CN CN201810535444.3A patent/CN108806692A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101102240A (zh) * | 2006-07-04 | 2008-01-09 | 王建波 | 一种音频、视频内容的采集方法和检索方法 |
US20120197650A1 (en) * | 2009-10-19 | 2012-08-02 | Dolby International Ab | Metadata time marking information for indicating a section of an audio object |
CN101789256A (zh) * | 2010-03-24 | 2010-07-28 | 武汉嘉工科技有限公司 | 一种音视频播放器的控制方法 |
CN102262890A (zh) * | 2010-05-31 | 2011-11-30 | 鸿富锦精密工业(深圳)有限公司 | 电子装置及其标记方法 |
US20120304062A1 (en) * | 2011-05-23 | 2012-11-29 | Speakertext, Inc. | Referencing content via text captions |
CN103165131A (zh) * | 2011-12-17 | 2013-06-19 | 富泰华工业(深圳)有限公司 | 语音处理系统及语音处理方法 |
CN102592628A (zh) * | 2012-02-15 | 2012-07-18 | 张群 | 一种音视频播放文件的播放控制方法 |
CN103065659A (zh) * | 2012-12-06 | 2013-04-24 | 广东欧珀移动通信有限公司 | 一种多媒体记录方法 |
CN104301771A (zh) * | 2013-07-15 | 2015-01-21 | 中兴通讯股份有限公司 | 视频文件播放进度的调整方法及装置 |
CN105653729A (zh) * | 2016-01-28 | 2016-06-08 | 努比亚技术有限公司 | 一种录音文件索引的装置及方法 |
CN106488300A (zh) * | 2016-10-27 | 2017-03-08 | 广东小天才科技有限公司 | 一种视频内容查看方法及装置 |
CN106847315A (zh) * | 2017-01-24 | 2017-06-13 | 广州朗锐数字传媒科技有限公司 | 一种有声读物逐句同步展示方法 |
Non-Patent Citations (1)
Title |
---|
李运蒙: "《信息资源管理》", 31 January 2016, 华南理工大学出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929709A (zh) * | 2019-10-25 | 2020-03-27 | 北京光年无限科技有限公司 | 基于oid点读内容转换为绘本指读内容的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
CN103902373B (zh) | 智能终端控制方法、服务器和智能终端 | |
CN109378006B (zh) | 一种跨设备声纹识别方法及系统 | |
JP6044553B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN107895578A (zh) | 语音交互方法和装置 | |
KR20180025121A (ko) | 메시지 입력 방법 및 장치 | |
CN106373598B (zh) | 音频重播的控制方法和装置 | |
CN102568478A (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
CN103366784B (zh) | 具有语音控制和哼唱检索功能的多媒体播放方法及装置 | |
CN109584876A (zh) | 语音数据的处理方法、装置和语音空调 | |
CN107369439A (zh) | 一种语音唤醒方法和装置 | |
CN105244026A (zh) | 一种语音处理方法及装置 | |
CN106155470B (zh) | 一种音频文件生成方法及装置 | |
CN104123115A (zh) | 一种音频信息处理方法及电子设备 | |
CN108055592A (zh) | 字幕显示方法、装置、移动终端及存储介质 | |
CN104796584A (zh) | 具有语音识别功能的提词装置 | |
CN110223677A (zh) | 空间音频信号滤波 | |
WO2023029904A1 (zh) | 文本内容匹配方法、装置、电子设备及存储介质 | |
CN110148418B (zh) | 一种场景记录分析系统、方法及其装置 | |
CN110019962A (zh) | 一种视频文案信息的生成方法及装置 | |
CN104853257A (zh) | 字幕显示方法和装置 | |
CN109285556A (zh) | 音频处理方法、装置、设备以及存储介质 | |
CN111540370A (zh) | 音频处理方法、装置、计算机设备及计算机可读存储介质 | |
CN107679196A (zh) | 一种多媒体识别方法、电子设备及存储介质 | |
CN110211609A (zh) | 一种提升语音识别准确率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |
|
RJ01 | Rejection of invention patent application after publication |