CN103631780B - 多媒体记录系统及方法 - Google Patents

多媒体记录系统及方法 Download PDF

Info

Publication number
CN103631780B
CN103631780B CN201210298256.6A CN201210298256A CN103631780B CN 103631780 B CN103631780 B CN 103631780B CN 201210298256 A CN201210298256 A CN 201210298256A CN 103631780 B CN103631780 B CN 103631780B
Authority
CN
China
Prior art keywords
multimedia
content
multimedia file
word
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210298256.6A
Other languages
English (en)
Other versions
CN103631780A (zh
Inventor
廖杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yundian Electronic Technology Co ltd
Original Assignee
CHONGQING WENRUN SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHONGQING WENRUN SCIENCE & TECHNOLOGY Co Ltd filed Critical CHONGQING WENRUN SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201210298256.6A priority Critical patent/CN103631780B/zh
Publication of CN103631780A publication Critical patent/CN103631780A/zh
Application granted granted Critical
Publication of CN103631780B publication Critical patent/CN103631780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多媒体记录系统包括一储存模块、一辨识模块及一标签模块。该储存模块储存一多媒体文件,其中该多媒体文件对应于包含声音内容的一多媒体数据,该多媒体数据接收自一计算机网络;该辨识模块用于将该多媒体数据的声音内容转换为文字;该标签模块用于根据转换的文字产生对应的标签信息,其中该标签信息对应于一个多媒体文件的某部分。本发明多媒体记录系统可使用户方便、快捷地找到多媒体素材中的关于特定主题的部分。本发明还提供了一种多媒体记录方法。

Description

多媒体记录系统及方法
技术领域
本发明涉及一种多媒体记录系统及方法,特别涉及一种将语音转换为文字并根据转换得到的文字将对应于该语音的多媒体文件进行标签分段的多媒体记录系统及方法。
背景技术
一般的会议记录通常由记录者将参加会议人员的发言记录在纸本或电子文件中。但是,由于记录者在理解及文字表达上的不同可能会导致会议记录的内容与发言者所表达的不一致,进而可能导致其它人员无法准确地理解会议的内容。另外,尽管可以使用录像、录音等多媒体素材来直观地呈现会议的内容,但是,当要查阅关于特定主题的部分时,由于用户无法确切获知该主题所在的文件中的段落,故,用户只能盲目地搜寻整个文件,如此导致了相当多的时间浪费。
发明内容
鉴于以上内容,有必要提供一种可准确记录与会者的内容及方便、快捷地查找相关主题的多媒体记录系统及方法。
一种多媒体记录系统,包括:
一储存模块,用于储存一多媒体文件,其中该多媒体文件对应于包含声音内容的一多媒体数据,该多媒体数据接收自一计算机网络;
一辨识模块,用于将该多媒体数据的声音内容转换为文字;以及
一标签模块,用于根据转换的文字产生标签信息,其中该标签信息对应于该多媒体文件的一个或多个部分。
一种多媒体记录方法,包括如下步骤:
通过计算机网络接收一包含声音内容的多媒体数据;
储存对应于该多媒体数据的多媒体文件;
将该多媒体数据的声音内容转换为对应的文字;以及
根据转换的文字产生对应于该多媒体文件的一个或多个部分的标签信息。
上述多媒体记录系统及方法通过将发言者的语音转换为文字以及根据文字对该多媒体文件进行标签分段,进而产生对应多媒体会议或语音或视频记录的计算机文件,如此使得用户可根据主题来方便、快捷地选择对应的文件。
附图说明
图1是本发明多媒体记录系统较佳实施方式的方框图。
图2为图1中多媒体记录系统通过一编辑接口编辑一多媒体会议记录的状态图。
图3为图1中多媒体记录系统通过一显示接口显示一多媒体会议记录的状态图。
图4为本发明多媒体记录方法的较佳实施方式的流程图。
图5为图4中步骤S1130的具体实施方式的流程图。
主要元件符号说明
多媒体记录系统 100
储存模块 110
辨识模块 120
标签模块 130
服务模块 140
多媒体文件 1110
标签文件 1120
发音辨识数据库 1210
语音/文字映像数据库 1220
计算机网络 2000
云端服务器 1000
接收设备 3000
多媒体接收器 4000
麦克风单元 3100
摄影单元 3200
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参考图1,本发明多媒体记录系统100应用于一云端服务器1000,该多媒体记录系统100用于处理多媒体会议记录相关的档案,其中该云端服务器1000可由若干服务器组成。在其它实施方式中,该多媒体记录系统100还可应用于其它计算机系统内,如个人计算机,且该多媒体记录系统100还可用于处理其它语音、视频档案。该多媒体记录系统100的较佳实施方式包括一储存模块110、一辨识模块120、一标签模块130及一服务模块140。本实施方式中,该多媒体记录系统100通过一计算机网络2000接收一包含多媒体数据D的多媒体数据流,其中该计算机网络2000可为一以太网或一无线网络,如Wi-Fi。该多媒体数据D由一接收设备3000产生,如一摄影机,其中该摄影机包括一用于产生声音内容的麦克风单元3100及一用于产生视频内容的摄影单元3200。在其它实施方式中,该多媒体记录系统100亦可接收包含该多媒体数据D的计算机文件。另外,该多媒体数据D可以仅包括该接收设备3000产生的声音内容或其它设备产生的声音内容。
该储存模块110包括一随机访问内存或一非易失性内存或一硬盘。该储存模块110用于储存数字信息,如以多媒体文件1110的形式将接收的多媒体数据D储存于该储存模块110内。该辨识模块120用于将该多媒体文件1110的声音内容转换为文字,即将该多媒体数据D所包含的声音内容转换为对应的文字。当该多媒体文件1110包含一视频内容时,该辨识模块120还将该视频内容作为参考来转换声音内容,如此可提高转换的精准度。例如,该辨识模块120可根据该视频内容中发言者的嘴形来获知发言者的发音,进而使得当声音内容不完整时该辨识模块120结合该发言者的发音来提高声音内容至文字转换的精准度。该辨识模块120还可根据该视频内容来获知发言者的身份或情绪,以将发言者的身份或情绪加入对应文字的描述中。该辨识模块120还可结合发言者使用的文件来将声音内容转换为文字。例如,该辨识模块120将发言者的演示文件的文字内容作为将声音内容转换为对应文字的关键词,以提高转换的精准度。
本实施方式中,该辨识模块120包括一发音辨识数据库1210及一语音/文字映像数据库1220。该发音辨识数据库1210储存了对应的发音辨识规则,该语音/文字映像数据库1220储存了将声音转换为对应文字的数据。该辨识模块120将该多媒体文件1110的声音内容转换为声波信号,并根据该发音辨识数据库1210储存的发音辨识规则从该声波信号获得对应的声音内容的不同发音部分,如声音内容中的元音、辅音等发音部分,还产生包含该语音部分的发音数据,之后,该辨识模块120将该发音数据与该语音/文字映像数据库1220进行比较,以获得该发音数据对应的文字。此外,该辨识模块120还可用发言者的声音的音品判断其身份,例如将该多媒体文件1110的声音内容与该辨识模块120的音品/身份映像数据库中的音品/身份映像数据相比较,而藉以在文字中描述发言者的身份。
下表1为该标签模块130产生的标签信息I。本实施方式中,该标签模块130用于根据该辨识模块120转换后的文字及一预设主题列表来产生对应的标签信息I,其中该预设主题列表储存于该储存模块110内。本实施方式中,该预设主题标准列表内的各主题均是通过一运行于该云端服务器1000的声音辨识条件设置接口来预先设定的。该标签模块130用于产生包含该预设主题列表中的预设主题的标签信息I,其中每一主题对应于该多媒体文件1110中该主题的起始点。每一主题可包括该主题名称的名称域及一包含该多媒体文件1110中该主题的起始点对应的时间域。例如,标签信息I包括主题1,主题1的名称为第一子主题,主题1在该多媒体文件1110的开始时间是00:02:10。
表1
该多媒体记录系统100可选择性的运用于不同的情境当中。例如,当应用于会议情境时,该储存模块110根据该标签信息I将会议的相关信息,如会议组织与会议内容(包括经转换后得到的文字),作为一标签文件1120储存于该储存模块110内,其中每一标签文件1120对应于一多媒体文件1110。当应用于记录情境时,该储存模块110则根据该标签信息I将录像/录音的相关信息,如该录像/录音的主题及内容,作为该标签文件1120储存。当应用于商务情境时,该储存模块110则根据该标签信息I将交易的相关信息,如客户名称及交易内容,作为一标签文件1120储存。当该标签文件1120创建后,则可通过邮件等方式通知与该标签文件1120内容相关的人员。在其它实施方式中,各相关信息亦可根据该标签信息I将其加入该多媒体文件1110内。
请一并参考图2及图3,其中图2为该多媒体记录系统100通过一编辑接口Fe编辑一多媒体会议记录的状态图,图3为该多媒体记录系统100通过一显示接口Fd显示一多媒体会议记录的状态图。本实施方式中,该服务模块140通过该计算机网络2000提供一网络服务,如一网页服务,其中该网络服务用于通过网页的形式显示该编辑接口Fe与显示接口Fd。用户可通过运行于该云端服务器1000或一多媒体接收器4000中的浏览器B来访问该编辑接口Fe与显示接口Fd,其中该多媒体接收器4000可为一电子设备,如计算机或便携式设备。该编辑接口Fe用于编辑该标签文件1120的内容。该显示接口Fd用于显示该多媒体文件1110及该标签文件1120的内容,其中每一标签文件1120均包括对应该标签信息I中的主题的标签T。通过点击主题旁的按钮来选择对应的标签T,以查看多媒体文件1110中对应该主题的内容。当该多媒体文件1110包括一视频内容时,该标签文件1120中的文字可作为该视频内容的字幕。在其它实施方式中,该编辑接口Fe与该显示接口Fd可以以应用程序的形式运行于该云端服务器1000或该多媒体接收器4000内。
请参考图4,本发明多媒体记录方法的较佳实施方式包括如下步骤:
步骤S1110,通过该计算机网络2000接收包含声音内容的多媒体数据D。本实实施方式中,该多媒体数据D包括声音内容及视频内容。
步骤S1120,储存对应于该多媒体数据D的该多媒体文件1110。
步骤S1130,将与该多媒体数据D内包含的声音内容对应的该多媒体文件1110中的声音内容转换为文字。本实施方式中,该多媒体数据D中的视频内容可以在转换过程中用以参考。其它相关的文件亦可在转换过程中用来进行参考。
步骤S1140,根据转换的文字及该预设主题列表产生对应于该多媒体文件1110的某(些)部分的标签信息I。该标签信息I包括对应该预设主题列表的主题,其中每一主题对应于该多媒体文件1110中该主题的起始点。在本实施方式中,该储存模块110根据该标签信息I产生对应该多媒体文件1110的标签文件1120。在其它实施方式中,亦可根据该标签信息I将相关信息加入至该多媒体文件1110内。
在本实施方式中,该计算机网络2000还提供一网络服务,如网页服务,该网络服务可用于显示该编辑接口Fe及该显示接口Fd。该编辑接口Fe用于编辑该标签文件1120的内容。该显示接口Fd用于显示该多媒体文件1110及该标签文件1120的内容,其中每一标签文件1120包括对应该标签信息I中的主题的标签T。当一标签T被选择之后,该多媒体文件1110中对应于该标签T的部分则可被查看。
请参考图5,其为步骤S1130的具体实施步骤,该步骤S1130包括如下步骤:
步骤S1131,将该多媒体数据D中的声音内容转换为声波信号。
步骤S1132,根据发音辨识规则从该声波信号中获取对应的声音内容的不同发音部分。
步骤S1133,根据该发音部分产生对应的发音资料。
步骤S1134,比较该发音数据与及该语音/文字映像数据以产生对应该发音数据的文字。
上述多媒体记录系统及方法通过将发言者的语音转换为文字并根据转换的文字将对应于该语音的多媒体文件进行标签分段,进而产生关于多媒体会议记录或录像/录音等多媒体素材的计算机文件,使得用户可据以方便、快捷地找到多媒体素材中的关于特定主题的部分。

Claims (4)

1.一种多媒体记录系统,包括:
一储存模块,用于储存一多媒体文件,其中该多媒体文件对应于包含声音内容的一多媒体数据,该多媒体数据接收自一计算机网络;
一辨识模块,用于将该多媒体数据的声音内容转换为文字;以及
一标签模块,用于根据转换的文字产生标签信息,其中该标签信息对应于该多媒体文件的一个或多个部分,该标签信息包括一个或多个主题,每一主题对应于该多媒体文件在该主题的起始点。
2.如权利要求1所述的多媒体记录系统,其特征在于:该标签模块还根据转换的文字及一预设主题列表来产生标签信息。
3.一种多媒体记录方法,包括如下步骤:
通过计算机网络接收一包含声音内容的多媒体数据;
储存对应于该多媒体数据的多媒体文件;
将该多媒体数据的声音内容转换为对应的文字;以及
根据转换的文字产生对应于该多媒体文件的一个或多个部分的标签信息,其中,产生包括至少一主题的标签信息,每一主题对应该多媒体文件中该主题的起始点。
4.如权利要求3所述的多媒体记录方法,其特征在于:步骤“根据转换的文字产生对应于该多媒体文件的一个或多个部分的标签信息”包括:
根据转换的文字及一预设主题列表产生对应于该多媒体文件的至少一部分的标签信息。
CN201210298256.6A 2012-08-21 2012-08-21 多媒体记录系统及方法 Active CN103631780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210298256.6A CN103631780B (zh) 2012-08-21 2012-08-21 多媒体记录系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210298256.6A CN103631780B (zh) 2012-08-21 2012-08-21 多媒体记录系统及方法

Publications (2)

Publication Number Publication Date
CN103631780A CN103631780A (zh) 2014-03-12
CN103631780B true CN103631780B (zh) 2016-11-23

Family

ID=50212856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210298256.6A Active CN103631780B (zh) 2012-08-21 2012-08-21 多媒体记录系统及方法

Country Status (1)

Country Link
CN (1) CN103631780B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902728A (zh) * 2014-04-14 2014-07-02 北京君正集成电路股份有限公司 一种智能手表的语音信号存储方法及装置
CN104469544A (zh) * 2014-11-07 2015-03-25 重庆晋才富熙科技有限公司 一种基于语音技术的视频标记方法
CN106257439B (zh) * 2015-06-19 2020-01-14 Tcl集团股份有限公司 多媒体播放器中的多媒体文件存储方法和装置
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN112802480B (zh) * 2021-04-15 2021-07-13 广东际洲科技股份有限公司 基于多方交流的语音数据文字转化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN102222227A (zh) * 2011-04-25 2011-10-19 中国华录集团有限公司 基于视频识别与提取影片图像的系统
CN102572372A (zh) * 2011-12-28 2012-07-11 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN102624647A (zh) * 2012-01-12 2012-08-01 百度在线网络技术(北京)有限公司 一种对移动终端的消息进行处理的方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN102222227A (zh) * 2011-04-25 2011-10-19 中国华录集团有限公司 基于视频识别与提取影片图像的系统
CN102572372A (zh) * 2011-12-28 2012-07-11 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN102624647A (zh) * 2012-01-12 2012-08-01 百度在线网络技术(北京)有限公司 一种对移动终端的消息进行处理的方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
语音识别技术的研究与发展;王敏妲;《微型机与应用》;20091231;第2009年卷(第23期);2 *

Also Published As

Publication number Publication date
CN103631780A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
US11018885B2 (en) Summarization system
US20180197548A1 (en) System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
US8606579B2 (en) Voice print identification for identifying speakers
US9569428B2 (en) Providing an electronic summary of source content
US9514741B2 (en) Data shredding for speech recognition acoustic model training under data retention restrictions
US20200090661A1 (en) Systems and Methods for Improved Digital Transcript Creation Using Automated Speech Recognition
US20130198268A1 (en) Generation of a music playlist based on text content accessed by a user
US20120245936A1 (en) Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
US8655654B2 (en) Generating representations of group interactions
CN103631780B (zh) 多媒体记录系统及方法
US20140278405A1 (en) Automatic note taking within a virtual meeting
US20090144056A1 (en) Method and computer program product for generating recognition error correction information
US11869508B2 (en) Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
US20200137224A1 (en) Comprehensive log derivation using a cognitive system
US9514740B2 (en) Data shredding for speech recognition language model training under data retention restrictions
US20150066935A1 (en) Crowdsourcing and consolidating user notes taken in a virtual meeting
US20180143970A1 (en) Contextual dictionary for transcription
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
US20170154030A1 (en) Providing electronic text recommendations to a user based on what is discussed during a meeting
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN104252464A (zh) 信息处理方法和装置
US20140058727A1 (en) Multimedia recording system and method
US20230005472A1 (en) Automated context-specific speech-to-text transcriptions
Sladek et al. Speech-to-text transcription in support of pervasive computing
JP6244731B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160616

Address after: 518000 Guangdong Province, Shenzhen New District of Longhua City, Dalang street, Hua Sheng Lu Yong Jingxuan commercial building 1608

Applicant after: Jinyang Shenzhen sea Network Intelligent Technology Co.,Ltd.

Address before: 518109 Guangdong city of Shenzhen province Baoan District Longhua Town Industrial Zone tabulaeformis tenth East Ring Road No. 2 two

Applicant before: HONG FU JIN PRECISION INDUSTRY (SHENZHEN) Co.,Ltd.

Applicant before: HON HAI PRECISION INDUSTRY Co.,Ltd.

C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Liao Yangbo

Inventor before: Guo Taiming

Inventor before: Cai Yiwen

Inventor before: Chen Junming

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20160928

Address after: Tianhe District Tong East Road Guangzhou city Guangdong province 510665 B-101 No. 5, room B-118

Applicant after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518000 Guangdong Province, Shenzhen New District of Longhua City, Dalang street, Hua Sheng Lu Yong Jingxuan commercial building 1608

Applicant before: Jinyang Shenzhen sea Network Intelligent Technology Co.,Ltd.

Effective date of registration: 20160928

Address after: 401320 Chongqing Banan District Yu Nan avenue, No. 113 6-25

Applicant after: Chongqing Wenrun Technology Co.,Ltd.

Address before: Tianhe District Tong East Road Guangzhou city Guangdong province 510665 B-101 No. 5, room B-118

Applicant before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200421

Address after: 401320 No. 249 Yunan Avenue, Banan District, Chongqing, 8-29

Patentee after: Chongqing Boshi Intellectual Property Service Co.,Ltd.

Address before: 401320, No. 113 South Main Road, Banan District, Chongqing, 6-25

Patentee before: Chongqing Wenrun Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201118

Address after: 226000 Room 6114, Building 10, Yunyuan, 33 Xinkang Road, Gangzhao District, Nantong City, Jiangsu Province

Patentee after: JIANGSU YUNDIAN ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 401320 No. 249 Yunan Avenue, Banan District, Chongqing, 8-29

Patentee before: Chongqing Boshi Intellectual Property Service Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Multimedia recording system and method

Effective date of registration: 20220721

Granted publication date: 20161123

Pledgee: Nantong Jiangsu rural commercial bank Limited by Share Ltd.

Pledgor: JIANGSU YUNDIAN ELECTRONIC TECHNOLOGY Co.,Ltd.

Registration number: Y2022980010979

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231012

Granted publication date: 20161123

Pledgee: Nantong Jiangsu rural commercial bank Limited by Share Ltd.

Pledgor: JIANGSU YUNDIAN ELECTRONIC TECHNOLOGY Co.,Ltd.

Registration number: Y2022980010979

PC01 Cancellation of the registration of the contract for pledge of patent right