CN108806692A - 一种音频内容查找及可视化播放方法 - Google Patents

一种音频内容查找及可视化播放方法 Download PDF

Info

Publication number
CN108806692A
CN108806692A CN201810535444.3A CN201810535444A CN108806692A CN 108806692 A CN108806692 A CN 108806692A CN 201810535444 A CN201810535444 A CN 201810535444A CN 108806692 A CN108806692 A CN 108806692A
Authority
CN
China
Prior art keywords
content
audio
text
voice
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810535444.3A
Other languages
English (en)
Inventor
陈南云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yun Ling Taze Network Technology Co Ltd
Original Assignee
Shenzhen Yun Ling Taze Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yun Ling Taze Network Technology Co Ltd filed Critical Shenzhen Yun Ling Taze Network Technology Co Ltd
Priority to CN201810535444.3A priority Critical patent/CN108806692A/zh
Publication of CN108806692A publication Critical patent/CN108806692A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电子设备技术领域,尤其涉及一种音频内容查找及可视化播放方法。本发明中的一种音频内容查找及可视化播放方法,包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备;所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。

Description

一种音频内容查找及可视化播放方法
技术领域
本发明涉及电子设备技术领域,尤其涉及一种音频内容查找及可视化播放方法。
背景技术
现有技术中由于音频的内容不是以文本的方式展示在电脑中,用户无法知道内容位于音频中的何处,也不方便查找音频内容是否包含指定的内容。用户想单次播放(点读)或循环播放(复读)指定的内容时,用户需要仔细的倾听音频内容同时关注播放进度,才能确定所需内容在音频中的位置或区间,然后单次播放(点读)或循环播放(复读)所需的内容,非常不便利。
本发明通过专有的解码技术结合AI(人工智能)算法,将音频内容提取出人声,并将人声转换成文本,同时建立内容和播放进度的关联,然后将文本显示在屏幕上,用户只需在触摸屏上滑动选择或通过鼠标在屏幕选择所需的文本内容,或者输入文本内容进行搜索,系统就可以找到正确的播放时刻进行点读或复读播放,极大的提高用户的操作效率和使用效果。
发明内容
本发明的目的是提供一种音频内容查找及可视化播放方法,来解决背景技术中用户需要仔细的倾听音频内容同时关注播放进度,才能确定所需内容在音频中的位置或区间,然后单次播放(点读)或循环播放(复读)所需的内容,非常不便利的问题。
本发明所采用的技术方案为:一种音频内容查找及可视化播放方法,包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备;所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
作为本发明一种实施例,所述步骤为:
1)通过解码器读取音频文件,将二进制数据转换成波形数据;
2)对波形数据进行频域转换,分离出人声频域数据;
3)将人声频域数据转换成时域数据;
4)通过语音识别技术,将人声时域数据转换成文字,转换的过程中同时记录每个字或单词的时间坐标;
5)使用人工智能(AI)算法对步骤4的文字进行智能校正,确保转换的文字信息准确,通过上述步骤,将音频内容转换成为文字内容并建立了时间索引,就可以方便的进行查找和定位,音频在播放前经过本方法这样的预处理,在播放前就可以获知音频的文字内容,将内容展示在屏幕上,即可实现可视化的播放。
本发明的有益效果:
1、音频内容可视化,将音频的人声内容直观的展示在屏幕上;
2、在音频中查找文本内容与位置;用户进行点读或复读时非常高效,用户只需在屏幕选择想要点读或复读的内容即可,无需用户人工确定内容在音频中的位置或区间。
附图说明
图1为本发明系统操作流程图。
图2为本发明内容播放流程图。
图3为本发明一种实施例操作图。
具体实施方式
以下结合附图对本发明作进一步说明:
本发明中的一种音频内容查找及可视化播放方法,包括音频文件、解码与定位器、AI内容校验、屏幕显示;本发明中所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
作为本发明具体实施方式:
音频内容查找与可视化播放方法包含如下步骤:1)通过解码器读取音频文件,将二进制数据转换成pcm波形数据;2)对波形数据进行频域转换,分离出人声频域数据;3)将人声频域数据转换成时域数据;4)通过语音识别技术,将人声时域数据转换成文字,转换的过程中同时记录每个字或单词的时间坐标;假设音频内容为一种富强的价值观,识别的片段如下:
<content>
<text>富</text>
<time>[00:01.00]</time>
</content>
<content>
<text>裕</text>
<time>[00:02.00]</time>
</content>
5)使用人工智能(AI)算法对步骤4的文字进行智能校正,确保转换的文字信息准确,例如将原文识别出的“裕”改为“强”,得到最终结果如下:
<content>
<text>富</text>
<time>[00:01.00]</time>
</content>
<content>
<text>强</text>
<time>[00:02.00]</time>
</content>
6)通过上述步骤,将音频内容转换成为文字内容并建立了时间索引,就可以方便的进行查找和定位,音频在播放前经过本方法这样的预处理,在播放前就可以获知音频的文字内容,将内容展示在屏幕上,即可实现可视化的播放。
虽然本发明已以较佳实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可做各种的改动与修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

Claims (3)

1.一种音频内容查找及可视化播放方法,其特征在于:包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备;所述音频解码与人声提取器提取人声,所述文本转换器将提取的人声内容转换成文本内容,同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联,当用户选择或输入任意的文本内容,定位器可以定位出该内容在音频中的播放时间位置。
2.根据权利要求1所述的一种音频内容查找及可视化播放方法,其特征在于:所述具体步骤为:
1)通过解码器读取音频文件,将二进制数据转换成波形数据;
2)对波形数据进行频域转换,分离出人声频域数据;
3)将人声频域数据转换成时域数据;
4)通过语音识别技术,将人声时域数据转换成文字,转换的过程中同时记录每个字或单词的时间坐标;
5)使用人工智能(AI)算法内容校验对步骤4的文字进行智能校正,确保转换的文字信息准确。
3.根据权利要求2所述的一种音频内容查找及可视化播放方法,其特征在于:所述将音频内容转换成为文字内容并建立了时间索引,方便进行查找和定位,音频在播放前经过预处理,在播放前就可以获知音频的文字内容,将内容展示在屏幕上,即可实现可视化的播放。
CN201810535444.3A 2018-05-29 2018-05-29 一种音频内容查找及可视化播放方法 Pending CN108806692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810535444.3A CN108806692A (zh) 2018-05-29 2018-05-29 一种音频内容查找及可视化播放方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810535444.3A CN108806692A (zh) 2018-05-29 2018-05-29 一种音频内容查找及可视化播放方法

Publications (1)

Publication Number Publication Date
CN108806692A true CN108806692A (zh) 2018-11-13

Family

ID=64089217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810535444.3A Pending CN108806692A (zh) 2018-05-29 2018-05-29 一种音频内容查找及可视化播放方法

Country Status (1)

Country Link
CN (1) CN108806692A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929709A (zh) * 2019-10-25 2020-03-27 北京光年无限科技有限公司 基于oid点读内容转换为绘本指读内容的方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102240A (zh) * 2006-07-04 2008-01-09 王建波 一种音频、视频内容的采集方法和检索方法
CN101789256A (zh) * 2010-03-24 2010-07-28 武汉嘉工科技有限公司 一种音视频播放器的控制方法
CN102262890A (zh) * 2010-05-31 2011-11-30 鸿富锦精密工业(深圳)有限公司 电子装置及其标记方法
CN102592628A (zh) * 2012-02-15 2012-07-18 张群 一种音视频播放文件的播放控制方法
US20120197650A1 (en) * 2009-10-19 2012-08-02 Dolby International Ab Metadata time marking information for indicating a section of an audio object
US20120304062A1 (en) * 2011-05-23 2012-11-29 Speakertext, Inc. Referencing content via text captions
CN103065659A (zh) * 2012-12-06 2013-04-24 广东欧珀移动通信有限公司 一种多媒体记录方法
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
CN104301771A (zh) * 2013-07-15 2015-01-21 中兴通讯股份有限公司 视频文件播放进度的调整方法及装置
CN105653729A (zh) * 2016-01-28 2016-06-08 努比亚技术有限公司 一种录音文件索引的装置及方法
CN106488300A (zh) * 2016-10-27 2017-03-08 广东小天才科技有限公司 一种视频内容查看方法及装置
CN106847315A (zh) * 2017-01-24 2017-06-13 广州朗锐数字传媒科技有限公司 一种有声读物逐句同步展示方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102240A (zh) * 2006-07-04 2008-01-09 王建波 一种音频、视频内容的采集方法和检索方法
US20120197650A1 (en) * 2009-10-19 2012-08-02 Dolby International Ab Metadata time marking information for indicating a section of an audio object
CN101789256A (zh) * 2010-03-24 2010-07-28 武汉嘉工科技有限公司 一种音视频播放器的控制方法
CN102262890A (zh) * 2010-05-31 2011-11-30 鸿富锦精密工业(深圳)有限公司 电子装置及其标记方法
US20120304062A1 (en) * 2011-05-23 2012-11-29 Speakertext, Inc. Referencing content via text captions
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
CN102592628A (zh) * 2012-02-15 2012-07-18 张群 一种音视频播放文件的播放控制方法
CN103065659A (zh) * 2012-12-06 2013-04-24 广东欧珀移动通信有限公司 一种多媒体记录方法
CN104301771A (zh) * 2013-07-15 2015-01-21 中兴通讯股份有限公司 视频文件播放进度的调整方法及装置
CN105653729A (zh) * 2016-01-28 2016-06-08 努比亚技术有限公司 一种录音文件索引的装置及方法
CN106488300A (zh) * 2016-10-27 2017-03-08 广东小天才科技有限公司 一种视频内容查看方法及装置
CN106847315A (zh) * 2017-01-24 2017-06-13 广州朗锐数字传媒科技有限公司 一种有声读物逐句同步展示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李运蒙: "《信息资源管理》", 31 January 2016, 华南理工大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929709A (zh) * 2019-10-25 2020-03-27 北京光年无限科技有限公司 基于oid点读内容转换为绘本指读内容的方法及装置

Similar Documents

Publication Publication Date Title
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
CN103902373B (zh) 智能终端控制方法、服务器和智能终端
CN109378006B (zh) 一种跨设备声纹识别方法及系统
JP6044553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN107895578A (zh) 语音交互方法和装置
KR20180025121A (ko) 메시지 입력 방법 및 장치
CN106373598B (zh) 音频重播的控制方法和装置
CN102568478A (zh) 一种基于语音识别的视频播放控制方法和系统
CN103366784B (zh) 具有语音控制和哼唱检索功能的多媒体播放方法及装置
CN109584876A (zh) 语音数据的处理方法、装置和语音空调
CN107369439A (zh) 一种语音唤醒方法和装置
CN105244026A (zh) 一种语音处理方法及装置
CN106155470B (zh) 一种音频文件生成方法及装置
CN104123115A (zh) 一种音频信息处理方法及电子设备
CN108055592A (zh) 字幕显示方法、装置、移动终端及存储介质
CN104796584A (zh) 具有语音识别功能的提词装置
CN110223677A (zh) 空间音频信号滤波
WO2023029904A1 (zh) 文本内容匹配方法、装置、电子设备及存储介质
CN110148418B (zh) 一种场景记录分析系统、方法及其装置
CN110019962A (zh) 一种视频文案信息的生成方法及装置
CN104853257A (zh) 字幕显示方法和装置
CN109285556A (zh) 音频处理方法、装置、设备以及存储介质
CN111540370A (zh) 音频处理方法、装置、计算机设备及计算机可读存储介质
CN107679196A (zh) 一种多媒体识别方法、电子设备及存储介质
CN110211609A (zh) 一种提升语音识别准确率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113

RJ01 Rejection of invention patent application after publication