CN113660378A - 智能化语音自动会议记录生成系统 - Google Patents

智能化语音自动会议记录生成系统 Download PDF

Info

Publication number
CN113660378A
CN113660378A CN202010399408.6A CN202010399408A CN113660378A CN 113660378 A CN113660378 A CN 113660378A CN 202010399408 A CN202010399408 A CN 202010399408A CN 113660378 A CN113660378 A CN 113660378A
Authority
CN
China
Prior art keywords
voice
voices
processing module
module
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010399408.6A
Other languages
English (en)
Inventor
洪水和
萧国威
宫崎利孝
北埔久史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Dimension Digital Technology Co ltd
Original Assignee
Ningbo Dimension Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Dimension Digital Technology Co ltd filed Critical Ningbo Dimension Digital Technology Co ltd
Priority to CN202010399408.6A priority Critical patent/CN113660378A/zh
Publication of CN113660378A publication Critical patent/CN113660378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0872Generation of secret information including derivation or calculation of cryptographic keys or passwords using geo-location information, e.g. location data, time, relative position or proximity to other entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种智能化语音自动会议记录生成系统,包含语音收发模块以及处理模块。语音收发模块接收多个说话者分别的多个语音,多个语音彼此具有不同的特征。处理模块连接语音收发模块。处理模块配置以分析各语音的特征以产生识别信息,并依据识别信息将多个语音分离,并对多个语音分别加上不同的多个身份标签,以产生会议纪录档案。

Description

智能化语音自动会议记录生成系统
技术领域
本发明涉及语音会议,特别是涉及一种智能化语音自动会议记录生成系统。
背景技术
语音是人们获取信息的重要方式,现代语音通信技术的提供方便了人们的交流。近年来,随着互联网技术及手机等终端的发展,尤其是扬声电话(speakerphone)的出现使得语音业务的数据流迅猛发展。现代语音通信在方便了人们交流的同时,人们希望自己的个人隐私、商业机密等都受到保护,避免谈话语音内容被任意查阅、窜改。因此,随着语音数据量的日益增多,语音的安全性也日益受到挑战,语音通信的安全也已经成为人们越来越重视的课题。
发明内容
本发明所要解决的技术问题在于,针对现有技术的不足提供一种智能化语音自动会议记录生成系统,包含语音收发模块以及处理模块。语音收发模块配置以接收多个说话者分别的多个语音,多个语音彼此具有不同的特征。处理模块连接语音收发模块。处理模块配置以分析各语音的特征以产生一识别信息,并依据识别信息将多个语音分离,并对多个语音分别加上不同的多个身份标签,以产生会议纪录档案。
在一实施方式中,处理模块利用机器学习分析各该语音具有的专属特征,以识别各该语音。
在一实施方式中,所述识别信息包含多个说话者的多个语音的声纹、音压、音频、响度、声音波长、音色或其任意组合的特征。
在一实施方式中,处理模块撷取多个语音中的相同说话内容作为一关键内容,处理模块分析多个说话者分别说出关键内容所产生的不同的发音,以识别多个语音。
在一实施方式中,语音收发模块包含多个语音收发单元,配置以分别接收所在位置不同的多个说话者的多个语音。
在一实施方式中,处理模块分析多个语音的音量大小,以识别说出各语音所产生的识别信息包含的各说话者的所在位置、方位。
在一实施方式中,各语音包含各说话者在不同时间点分别说出的多个子语音,处理模块对各说话者的各子语音加上身份标签。
在一实施方式中,处理模块配置以按照多个说话者说出多个子语音的时间,排序多个说话者或各说话者的所有多个子语音,或多个子语音转换出的多个语音文字。
在一实施方式中,处理模块配置以将加上相同身份标签的多个子语音归列在一起。
在一实施方式中,处理模块配置以将各语音、会议纪录档案或两者加上时间戳。
在一实施方式中,处理模块配置以使用密钥加密各语音、会议纪录档案或两者。
在一实施方式中,语音收发模块包含扬声电话(speakerphone)。
在一实施方式中,所述的智能化语音自动会议记录生成系统还包含无线传输模块,连接处理模块以及云端服务器,配置以将会议纪录档案、密钥或两者传输至云端服务器保存。
在一实施方式中,云端服务器取得密钥,以解密各语音、会议纪录档案或两者。
在一实施方式中,云端服务器连接电子装置,配置以认证电子装置的用户成功后,输出会议纪录档案、密钥或两者至电子装置。
在一实施方式中,电子装置开启应用程序以接收语音,处理模块从应用程序取得语音,并透过应用程序传输会议纪录档案、密钥或两者至云端服务器。
在一实施方式中,电子装置开启语音通信应用程序,以接收语音并传输至处理模块,其中电子装置开启云端传输应用程序传输会议纪录档案、密钥或两者至云端服务器。
在一实施方式中,所述的智能化语音自动会议记录生成系统还包含语音文字转换模块,配置以转换语音为语音文本文件。
如上所述,本发明所提供智能化语音自动会议记录生成系统,其在将接收到的多个说话者分别的多个语音传输至其他电子装置之前,会先分析语音的特征,以识别语音的说话者身份和所在方位等信息,并贴上相应的身份标签,以供其他电子装置辨识。
另外,本发明所提供智能化语音自动会议记录生成系统将语音加上时间戳并使用密钥加密以产生会议纪录档案,使得用户不可窜改、修改语音的内容,藉此提升用户谈话内容的保密性、完整性和真实性。若有需要,经云端服务器认证身份成功的用户可从云端服务器取得会议纪录档案以及密钥。此会议纪录档案可作为书面会议纪录、公证、法院存证时可信任、具公信力的证据,用户不需另外耗费时间从各方搜集很多数据,以证明会议纪录档案是否被窜改、修改,并且可从时间戳取得用户谈话的时间点(包含年、月、日、几点几分或其任意组合)以及谈话时间长度。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与图式,然而所提供的图式仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明第一实施例的智能化语音自动会议记录生成系统应用于在会议室内的多个用户谈话的方块图。
图2为本发明第一实施例的智能化语音自动会议记录生成系统应用于在会议室内的多个用户谈话的使用示意图。
图3为本发明第一实施例的智能化语音自动会议记录生成系统的内部组件的方块图。
图4为本发明第一实施例的智能化语音自动会议记录生成系统将多个用户谈话语音加上时间戳并加密所产生的语音加密档案的方块图。
图5为本发明第二实施例的智能化语音自动会议记录生成系统包含无线传输模块以将在会议纪录文件传输至云端服务器的方块图。
图6为本发明第三实施例的智能化语音自动会议记录生成系统将从一应用程序取得的用户谈话语音加上时间戳并加密后,透过同一应用程序传输至云端服务器保存的方块图。
图7为本发明第四实施例的智能化语音自动会议记录生成系统将从一应用程序取得的用户谈话语音加上时间戳并加密后,透过另一应用程序传输至云端服务器保存的方块图。
图8为本发明第五实施例的智能化语音自动会议记录生成系统有线连接电子装置以由电子装置传输会议纪录档案至云端服务器的方块图。
图9为本发明第六实施例的智能化语音自动会议记录生成系统传输会议纪录档案至云端服务器以供电子装置经认证后取得的方块图。
图10为本发明第七实施例的智能化语音自动会议记录生成系统包含储存模块以暂存用户的谈话语音及其语音加密档案的方块图。
图11为本发明第八实施例的智能化语音自动会议记录生成系统传输会议纪录档案至云端服务器进行解密以及文字转换的方块图。
图12为本发明第九实施例的智能化语音自动会议记录生成系统将语音加入身份标签的方块图。
图13为本发明第九实施例的智能化语音自动会议记录生成系统将语音加入身份标签的示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明所公开的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的构思下进行各种修改与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
应当可以理解的是,虽然本文中可能会使用到“第一”、“第二”、“第三”等术语来描述各种组件或者讯号,但这些组件或者讯号不应受这些术语的限制。这些术语主要是用以区分一组件与另一组件,或者一讯号与另一讯号。另外,本文中所使用的术语“或”,应视实际情况可能包含相关联的列出项目中的任一个或者多个的组合。
[第一实施例]
请参阅图1~图4,其中图1为本发明第一实施例的智能化语音自动会议记录生成系统应用于在会议室内的多个用户谈话的方块图;图2为本发明第一实施例的智能化语音自动会议记录生成系统应用于在会议室内的多个用户谈话的使用示意图;图3为本发明第一实施例的智能化语音自动会议记录生成系统的内部组件的方块图;图4为本发明第一实施例的智能化语音自动会议记录生成系统将多个用户谈话语音加上时间戳并加密所产生的语音加密档案的方块图。
如图2所示,在本实施例中,智能化语音自动会议记录生成系统SKPH应用于多个用户USR1~USRn的语音谈话,例如在会议室MEET内的开会讨论议题例如商业谈判的语音谈话,其中n可为大于1的任意正整数,例如n=6,即六个用户交谈。应理解,交谈的用户USR1~USRn的身份和人数以及其谈话的内容和地点,在此仅举例说明,本发明不以此为限。
如图1所示,在多个用户USR1~USRn交谈中,智能化语音自动会议记录生成系统SKPH可实时接收每个用户USR1~USRn的声音,即多个用户USR1~USRn分别发出的多个语音VCS1~VCSn,以产生整合多个语音VCS1~VCSn的语音VC。
换言之,语音VC包含多个语音VCS1~VCSn。每个语音VCS1~VCSn可能具有单字或多个单字组成的语句,与其他语音VCS1~VCSn的多个语句,依据发出声音的顺序排序。例如,用户USR3发出一第一语句以向其他人提出一个问题,而另一用户USR1发出一第二语句以回答用户USR3。在智能化语音自动会议记录生成系统SKPH产生的语音VC中,用户USR3的第一语句依时间轴排序在用户USR1的此第二语句之前。
如图3所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT以及处理模块PRC。语音收发模块VIT连接处理模块PRC。语音收发模块VIT可包含扬声电话(speakerphone)、喇叭或其他具有收音和播放语音功能的装置,而处理模块PRC可例如为数字处理芯片(Digital Signal Processor,DSP),在此仅举例说明,本发明不以此为限。
如图1和图3所示,智能化语音自动会议记录生成系统SKPH的语音收发模块VIT配置以接收所有用户USR1~USRn发出的完整语音VC,处理模块PRC将语音收发模块VIT接收的语音VC进行处理后,产生会议纪录档案EYVC。
值得注意的是,如图4所示,在语音收发模块VIT接收用户USR1~USRn发出的声音的过程中,处理模块PRC可实时将语音VC加上时间戳(Timestamp)TS,例如将用户USR1~USRn每秒发出的字音实时加上时间戳TS,可在不同时间点分别加上时间戳TS,构成一时间戳序列。
智能化语音自动会议记录生成系统SKPH的处理模块PRC可产生密钥KEY。在多个用户USR1~USRn结束谈话时,智能化语音自动会议记录生成系统SKPH使用密钥KEY将加上时间戳TS的语音VC加密,以产生会议纪录档案EYVC。密钥KEY可包含各种字符例如英文字母与数字的集合,本发明不限于密钥KEY的内容和长度,其可依据语音VC的保密性需求做调整。
值得注意的是,如图4所示的时间戳TS或其他实施例中的时间戳,可包含智能化语音自动会议记录生成系统SKPH的处理模块PRC实时接收到用户USR1~USRn的语音VCS1~VCSn或语音VC时,所记录的一用户发声时间戳。
如图4所示的时间戳TS或其他实施例中的时间戳可还包含处理模块PRC将语音VC以密钥KEY加密以产生会议纪录档案EYVC时,所记录的一语音加密时间戳。
如图4所示的时间戳TS或其他实施例中的时间戳可包含智能化语音自动会议记录生成系统SKPH的储存模块(例如图10所示的储存模块STE),保存/储存语音VC或会议纪录档案EYVC时,所记录的一语音保存时间戳。
另外,如图4所示的时间戳TS或其他实施例中的时间戳可包含智能化语音自动会议记录生成系统SKPH(的储存模块、语音收发模块VIT、处理模块PRC或无线传输模块WF)输出会议纪录档案EYVC时,所记录的一语音档案输出时间戳。
更进一步地,如图4所示的时间戳TS或其他实施例中的时间戳可包含云端服务器(例如图5~图9、图11所示的云端服务器SR)、电子装置(例如图6~图9所示的电子装置PH1~PHn)以及应用程序(例如图6所示的应用程序APP、如图7所示的云端传输应用程序SRAPP和语音通信应用程序MCAPP)中的每一个接收到会议纪录档案EYVC时,所记录的一语音档案接收时间戳。
如图4所示的时间戳TS或其他实施例中的时间戳可包含云端服务器、电子装置以及应用程序中的每一个保存会议纪录档案EYVC时,所纪录的一语音保存时间戳、输出会议纪录档案EYVC时,所纪录的一语音档案输出时间戳,以及云端服务器、电子装置解密会议纪录档案EYVC时,所纪录的一解密时间戳。
如上所述,可将会议纪录档案EYVC加上多个时间戳,作为日后查证语音VC、会议纪录档案EYVC是否有被窜改,以及追溯在哪一阶段、被谁或哪个装置窜改的依据。
[第二实施例]
请参阅图5,其为本发明第二实施例的智能化语音自动会议记录生成系统包含无线传输模块以将在会议纪录文件传输至云端服务器的方块图。
如图5所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT以及处理模块PRC。语音收发模块VIT连接处理模块PRC。
值得注意的是,智能化语音自动会议记录生成系统SKPH还包含无线传输模块WF。处理模块PRC连接无线传输模块WF。无线传输模块WF连接云端服务器SR。无线传输模块WF例如采用Wi-Fi、蓝牙等无线传输技术,在此仅举例说明,本发明不以此为限。
智能化语音自动会议记录生成系统SKPH的语音收发模块VIT接收多个用户USR1~USRn的谈话声音,以取得语音VC。处理模块PRC在用户USR1~USRn的说话时,实时将语音VC加上时间戳,并在谈话结束后利用密钥KEY加密具有时间戳的语音VC,以产生会议纪录档案EYVC。智能化语音自动会议记录生成系统SKPH可透过无线传输模块WF将会议纪录档案EYVC以及密钥KEY传输至云端服务器SR保存。
[第三实施例]
请参阅图6,其为本发明第三实施例的智能化语音自动会议记录生成系统将从一应用程序取得的用户谈话语音加上时间戳并加密后,透过同一应用程序传输至云端服务器保存的方块图。
如图6所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT以及处理模块PRC。语音收发模块VIT连接处理模块PRC。
用户USR1~USRn可分别透过其持有的电子装置PH1~PHn,开启一应用程序APP进行语音谈话。智能化语音自动会议记录生成系统SKPH可从此应用程序APP取得语音VC。例如,电子装置PH1~PHn可为手机、笔记本电脑、桌面计算机或其他可提供用户USR1~USRn开启应用程序APP进行谈话的装置,在此仅举例说明,本发明不以此为限。
智能化语音自动会议记录生成系统SKPH的处理模块PRC将语音VC加上时间戳并利用密钥KEY加密后,产生会议纪录档案EYVC。值得注意的是,智能化语音自动会议记录生成系统SKPH并未如图5所示的第二实施例的智能化语音自动会议记录生成系统SKPH包含无线传输模块WF。
因此,智能化语音自动会议记录生成系统SKPH将会议纪录档案EYVC、密钥KEY或两者传输至应用程序APP。电子装置PH1~PHn可开启应用程序APP以及电子装置PH1~PHn所包含的无线传输模块,以透过应用程序APP将会议纪录档案EYVC上传至云端服务器SR保存。
如上所述,本实施举例多个用户USR1~USRn之间透过多个电子装置PH1~PHn进行谈话。实务上,若有需要,如图1所示在会议室或其他设有智能化语音自动会议记录生成系统SKPH的一空间内的用户,可透过智能化语音自动会议记录生成系统SKPH,拨打给如图5所示在远程(不在会议室内)的用户的电子装置,以进行谈话。智能化语音自动会议记录生成系统SKPH可接收在此空间内直接对智能化语音自动会议记录生成系统SKPH说话的声音,以及接收在远程透过智能化语音自动会议记录生成系统SKPH说话的声音,以取得语音VC。
[第四实施例]
请参阅图7,其为本发明第四实施例的智能化语音自动会议记录生成系统将从一应用程序取得的用户谈话语音加上时间戳并加密后,透过另一应用程序传输至云端服务器保存的方块图。
如图7所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT以及处理模块PRC。语音收发模块VIT连接处理模块PRC。以下针对图6的实施例与图7的实施例不同之处进行说明,而相同内容不在此赘述。
如图6的实施例采用单一应用程序APP,接收多个用户USR1~USRn透过电子装置PH1~PHn通话的语音VC,并透过此同一应用程序APP传输智能化语音自动会议记录生成系统SKPH产生的会议纪录档案EYVC至云端服务器SR。
相比之下,如图7所示的实施例,语音通信应用程序MCAPP仅能将用户USR1~USRn发出的语音VC从电子装置PH1~PHn传输至智能化语音自动会议记录生成系统SKPH,而不具有将会议纪录档案EYVC传输至云端服务器SR的功能。因此,本实施例透过另一云端传输应用程序SRAPP传输会议纪录档案EYVC至云端服务器SR。简言之,本实施例分别透过两个独立的语音通信应用程序MCAPP以及云端传输应用程序SRAPP,以分别传输语音VC以及会议纪录档案EYVC,具体说明如下。
如图7所示,电子装置PH1~PHn可同时或依序开启语音通信应用程序MCAPP以及云端传输应用程序SRAPP。语音通信应用程序MCAPP开启时,可实时接收多个用户USR1~USRn透过电子装置PH1~PHn通话的语音VC。智能化语音自动会议记录生成系统SKPH的语音收发模块VIT以及处理模块PRC可从语音通信应用程序MCAPP取得语音VC。
处理模块PRC可将每秒接收到的将语音VC加上时间戳,并在谈话结束后利用密钥KEY加密后,以会议纪录档案EYVC。接着,处理模块PRC可将会议纪录档案EYVC以及密钥KEY传输至云端传输应用程序SRAPP。电子装置PH1~PHn可开启云端传输应用程序SRAPP,将会议纪录档案EYVC以及密钥KEY传输至云端服务器SR保存。
[第五实施例]
请参阅图8,其为本发明第五实施例的智能化语音自动会议记录生成系统有线连接电子装置以由电子装置传输会议纪录档案至云端服务器的方块图。
如图8所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT以及处理模块PRC。语音收发模块VIT连接处理模块PRC。相较于图5,本实施例的智能化语音自动会议记录生成系统SKPH不包含无线传输模块WF。相较于图6、图7的实施例,本实施例的智能化语音自动会议记录生成系统SKPH不使用任何应用程序。本实施例与图5、图6、图7的实施例不同之处,具体说明如下。
智能化语音自动会议记录生成系统SKPH的语音收发模块VIT可接收或播放所有用户USR1~USRn的语音VC,传输至处理模块PRC加上时间戳和使用密钥KEY加密后,产生会议纪录档案EYVC。
值得注意的是,在本实施例中,智能化语音自动会议记录生成系统SKPH可具有多个插槽,而电子装置PH1~PHn可各具有至少一插槽。每个外部连接线WIRE1~WIREn两端可分别插入智能化语音自动会议记录生成系统SKPH的一插槽与一电子装置PH1~PHn的一插槽中,以将有线连接智能化语音自动会议记录生成系统SKPH有线连接至电子装置PH1~PHn。举例来说,连接线WIRE1~WIREn可为Type C数据线、3.5mm音源线或其他型态的连接线,插槽可例如为USB插槽,以上仅举例说明,本发明不以此为限。
替换地,实务上,智能化语音自动会议记录生成系统SKPH本身可具有从其机台延伸而出的连接线,取代插槽配置,提供插入电子装置PH1~PHn的插槽中。在此例子中,不须如上述使用外部连接线WIRE1~WIREn。
藉由上述配置,智能化语音自动会议记录生成系统SKPH的处理模块PRC可将会议纪录档案EYVC有线传输至电子装置PH1~PHn。电子装置PH1~PHn可分别具有无线传输模块,例如采用WIFI或蓝芽等无线传输技术,以将会议纪录档案EYVC、密钥KEY或两者传输至云端服务器SR保存。
用户USR1~USRn或其他具有权限的其他用户可向云端服务器SR请求会议纪录档案EYVC以及密钥KEY,经云端服务器SR认证用户身份成功后,可从云端服务器SR取得会议纪录档案EYVC以及密钥KEY,接着使用密钥KEY解密会议纪录档案EYVC后,可聆听取得的语音VC。
[第六实施例]
请参阅图9,其为本发明第六实施例的智能化语音自动会议记录生成系统传输会议纪录档案至云端服务器以供电子装置经认证后取得的方块图。
如图9所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT、处理模块PRC以及无线传输模块WF。语音收发模块VIT连接处理模块PRC。处理模块PRC连接无线传输模块WF。无线传输模块WF连接云端服务器SR。
用户USR1~USRn可透过分别透过电子装置PH1~PHn联机云端服务器SR,以向云端服务器SR请求会议纪录档案EYVC、密钥KEY或两者。云端服务器SR可要求用户USR1~USRn提供身份识别数据,以进行身份验证。
举例来说,云端服务器SR可要求用户USR1~USRn,透过电子装置PH1~PHn内建的各种辨识功能,或是透过电子装置PH1~PHn开启一应用程序,执行例如指纹辨识、人脸辨识、虹膜辨识或其他生物辨识程序,以作为身份识别数据,提供云端服务器SR进行身份验证。
又例如,云端服务器SR可识别每个电子装置PH1~PHn的唯一标识符,以作为身份识别数据,进行身份验证。又例如,用户USR1~USRn透过电子装置PH1~PHn(开启并登入应用程序)以传输个人身份数据、(登入应用程序的)帐密或代码等至云端服务器SR,以作为身份识别数据,提供云端服务器SR进行身份验证。
云端服务器SR除了可提供会议纪录档案EYVC以及密钥KEY给交谈的用户USR1~USRn外,亦可依用户USR1~USRn的指示主动派送给用户USR1~USRn允许的其他用户。
[第七实施例]
请参阅图10,其为本发明第七实施例的智能化语音自动会议记录生成系统包含储存模块以暂存用户的谈话语音及其语音加密档案的方块图。如图10所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT、处理模块PRC以及无线传输模块WF。
与图9实施例的智能化语音自动会议记录生成系统SKPH不同之处在于,本实施例的智能化语音自动会议记录生成系统SKPH还包含储存模块STE。储存模块STE连接语音收发模块VIT、处理模块PRC以及无线传输模块WF。语音收发模块VIT连接处理模块PRC。处理模块PRC连接无线传输模块WF。
储存模块STE可配置以储存语音收发模块VIT接收到的语音VC、处理模块PRC将语音VC加上时间戳并加密所产生的会议纪录档案EYVC以及用于加密的密钥KEY等。若有需要,无线传输模块WF可将储存模块STE所储存的语音VC、会议纪录档案EYVC或密钥KEY透过无线传输模块WF传输至云端服务器或客户端的电子装置。
[第八实施例]
请参阅图11,其为本发明第八实施例的智能化语音自动会议记录生成系统传输会议纪录档案至云端服务器进行解密以及文字转换的方块图。
如图11所示,智能化语音自动会议记录生成系统SKPH包含语音收发模块VIT、处理模块PRC以及无线传输模块WF。与上述实施例不同之处在于,本实施例的智能化语音自动会议记录生成系统SKPH还包含音量调变模块VIDM。实务上,本文所举例的其他实施例亦可包含音量调变模块VIDM。
音量调变模块VIDM可调变语音收发模块VIT所接收的语音VC的音量或其它等特征(例如频率),并将调变后的语音VC透过语音收发模块VIT播放给用户USR1~USRn聆听。
另外,云端服务器SR可包含云端数据库DABA、加解密模块EDC以及语音文字转换模块VTCN。加解密模块EDC可连接云端数据库DABA以及语音文字转换模块VTCN。云端服务器SR的云端数据库DABA、加解密模块EDC或两者可从智能化语音自动会议记录生成系统SKPH的无线传输模块WF接收会议纪录档案EYVC以及密钥KEY。
加解密模块EDC可使用密钥KEY解密会议纪录档案EYVC,以取得语音VC。云端数据库DABA可储存会议纪录档案EYVC、密钥KEY以及解密会议纪录档案EYVC后取得的语音VC。实务上,若有需要,云端数据库DABA可储存另一密钥,其不同于智能化语音自动会议记录生成系统SKPH的处理模块PRC产生的密钥KEY,加解密模块EDC可使用此另一密钥对会议纪录档案EYVC进行二次加密。
云端服务器SR的语音文字转换模块VTCN配置以将云端数据库DABA或加解密模块EDC取得的语音VC,转换为各种语言的文字内容,并输出一语音文本文件例如PDF文件。语音文本文件的语言种类可取决于接收语音文本文件的用户USR1~USRn的个人身份数据的国籍或指定的语言种类。
实务上,若有需要,云端服务器SR可将语音文本文件加密,并可将语音文本文件压缩。用户USR1~USRn可向云端服务器SR所登记可取得、查阅会议纪录档案EYVC或语音文本文件的其他用户。
[第九实施例]
请参阅图12,其中图12为本发明第九实施例的智能化语音自动会议记录生成系统将语音加入身份标签的方块图;图13为本发明第九实施例的智能化语音自动会议记录生成系统将语音加入身份标签的示意图。
如图12所示,本发明实施例的智能化语音自动会议记录生成系统SKPH可包含语音收发模块VIT以及处理模块PRC。处理模块PRC连接语音收发模块VIT。
在多个说话者谈话的过程中,语音收发模块VIT可依序或同时接收多个说话者分别的多个语音VCS1~VCSn。不同说话者的音色、发音习惯、语速、音量等特性将有所不同。因此,不同说话者分别说出的语音VCS1~VCSn将具有不同的特征。
处理模块PRC可(利用机器学习)分析每个说话者分别说出的语音VCS1~VCSn的专属特征,以判断多个语音VCS1~VCSn中哪一些字词、语句是由同一说话者说出,并可识别每个语音VCS1~VCSn的说话者身份,以产生识别信息DY,以产生识别信息DY。举例而言,识别信息DY可包含说话者的语音VCS1~VCSn的声纹、音压、音频、响度、声音波长、音色等特征。
应理解,多个说话者在对话过程中将轮流说话,每个语音VCS1~VCSn可能包含各说话者在不同时间点分别说出的多个子语音,例如多个字词或语句。举例而言,在多个说话者对谈的过程中,第一说话者说出语音VCS1中的第一子语音(例如字词或语句)后,第二说话者回复第一说话者而说出语音VCS2中的第一子语音,接着再由第三说话者说出语音VCS3中的第一子语音,以此类推。
处理模块PRC可依据识别信息DY,将多个语音VCS1~VCSn分离,例如将同一说话者在同一场对话中说出的字词或语句的声音或其转换后文字皆归列在一起,将不同说话者说出的字词或语句的声音或其转换后文字分开列出。
举例而言,处理模块PRC可配置以按照说话者说出多个子语音的时间排序,排序多个说话者或各说话者的所有多个子语音,或排序多个子语音透过一语音文字转换模块转换出的文字。
又或者,处理模块PRC配置以将加上相同身份标签DTB1~DTBn的多个子语音归列在一起,以例如图13所示产生分别标有身份标签A、B、C、D的多个个人会议纪录档案DCS1、DCS2、DCS3、DCS4,其可为语音文件、文本文件,或是语音与文字合成的档案,可包含在前述的会议纪录档案EYVC中。
值得注意的是,处理模块PRC可依据识别信息DY,对不同说话者说出的多个语音VCS1~VCSn或多个子语音,分别加上代表说话者的身份的多个身份标签DTB1~DTBn,以产生会议纪录档案EYVC。
详言之,在透过一语音文字转换模块将每个语音VCS1~VCSn转换为文字后,处理模块PRC可在每个说话者每一次说话的语句的文字前加入说话者的身份标签DTB1~DTBn,即个人身份信息,例如说话者的真实名字,或针对不同特征标示不同的代称等,如图13所示的身份标签A、B、C、D,在此仅举例说明,本发明不以此为限。
处理模块PRC可将会议纪录档案EYVC输出至其他电子装置,例如但不限于图13所示的手机EL1、笔记本电脑EL2或云端服务器等。另外或替换地,处理模块PRC可将每个语音VCS1~VCSn或子语音直接输出至语音播放装置EL3例如麦克风或喇叭播放,或者透过电子装置转换成特定格式的语音文件DCT传输至语音播放装置EL3播放,例如图13所示,由笔记本电脑EL2传输至相连接的麦克风播放。
在多个说话者谈话过程中,不同说话者可能说出一样的说话内容,例如但不限于“你好”等。每个说话者即使说出相同的内容,将可能因天生的音色和后天惯用的发音/说话方式,而使语音VCS1~VCSn有所不同。
因此,处理模块PRC可撷取多个语音VCS1~VCSn中的相同说话内容作为关键内容,例如关键词词或语句等。处理模块PRC可接着分析多个说话者分别说出关键内容所产生的不同的发音,以识别多个语音VCS1~VCSn的每个字词或语句的说话者身份,以产生识别信息DY,并据以产生会议纪录档案EYVC。
也就是说,处理模块PRC可分析不同说话者说出的完整说话内容(包含相同或不同的字词或语句),或只针对相同说话内容进行分析,以识别多个语音VCS1~VCSn的说话者身份。
应理解,当多个说话者在同一空间(例如会议室)内进行谈话时,不同说话者所在位置不同,使得每个说话者与语音收发模块VIT的相隔距离可能不同,因而影响语音收发模块VIT所接收到的每个说话者的语音VCS1~VCSn的音量大小。
因此,另外或替换地,处理模块PRC可分析多个语音VCS1~VCSn的音量大小,以识别说出每个语音VCS1~VCSn的各说话者的所在位置、方位等信息,进而识别每个语音VCS1~VCSn的说话者身份(例如主管固定坐在一特定椅子),包含在识别信息DY内。
详言之,本实施例的智能化语音自动会议记录生成系统可包含单个语音收发单元,配置以接收多个说话者的多个语音VCS1~VCSn,或是包含多个语音收发单元(例如但不限于麦克风),配置以分别接收所在位置不同的多个说话者的多个语音VCS1~VCSn。
处理模块PRC可取得多个语音收发单元的设置位置,并依据每一语音收发单元所接收到的多个语音VCS1~VCSn中音量大小,来判断使用每一语音收发单元的说话者身份及其所在位置处(例如音量最大者为语音收发单元的用户)。
本领域技术人员应可理解,在不脱离所要求保护的本发明权利要求输的范围的情况下,本发明可以结合多种特定形式的不同实施例来使用。因此,在这里应将多个实施例视为只是出于说明目的而提供的,可以在附带的权利要求书的范围内进行修改。
[实施例的有益效果]
综上所述,本发明的有益效果在于,本发明所提供智能化语音自动会议记录生成系统,其在将接收到的多个说话者分别的多个语音传输至其他电子装置之前,会先分析语音的特征,以识别语音的说话者身份和所在方位等信息,并贴上相应的身份标签,以供其他电子装置辨识。
另外,本发明所提供智能化语音自动会议记录生成系统将语音加上时间戳并使用密钥加密以产生会议纪录档案,使得用户不可窜改、修改语音的内容,藉此提升用户谈话内容的保密性、完整性和真实性。若有需要,经云端服务器认证身份成功的用户可从云端服务器取得会议纪录档案以及密钥。此会议纪录档案可作为书面会议纪录、公证、法院存证时可信任、具公信力的证据,用户不需另外耗费时间从各方搜集很多数据,以证明会议纪录档案是否被窜改、修改,并且可从时间戳取得用户谈话的时间点(包含年、月、日、几点几分或其任意组合)以及谈话时间长度。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的权利要求书,所以凡是运用本发明说明书及图式内容所做的等效技术变化,均包含于本发明的权利要求书内。

Claims (18)

1.一种智能化语音自动会议记录生成系统,其特征在于,包含:
语音收发模块,配置以接收多个说话者分别的多个语音,所述多个语音彼此具有不同的特征;以及
处理模块,连接所述语音收发模块,配置以分析各所述语音的特征以产生识别信息,并依据所述识别信息将所述多个语音分离,并对所述多个语音分别加上不同的多个身份标签,以产生会议纪录档案。
2.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块利用机器学习分析各所述语音具有的专属特征,以识别各所述语音。
3.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述识别信息包含所述多个说话者的所述多个语音的声纹、音压、音频、响度、声音波长、音色或其任意组合的特征。
4.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块撷取所述多个语音中的相同说话内容作为一关键内容,所述处理模块分析所述多个说话者分别说出所述关键内容所产生的不同的发音,以识别所述多个语音。
5.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述语音收发模块包含多个语音收发单元,配置以分别接收所在位置不同的所述多个说话者的所述多个语音。
6.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块分析所述多个语音的音量大小,以识别说出各所述语音所产生的所述识别信息包含的各所述说话者的所在位置、方位。
7.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,各所述语音包含各所述说话者在不同时间点分别说出的多个子语音,所述处理模块对各所述说话者的各所述子语音加上所述身份标签。
8.根据权利要求6所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块配置以按照所述多个说话者说出所述多个子语音的时间,排序所述多个说话者或各所述说话者的所有所述多个子语音,或所述多个子语音转换出的多个语音文字。
9.根据权利要求6所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块配置以将加上相同所述身份标签的所述多个子语音归列在一起。
10.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块配置以将各所述语音加上时间戳。
11.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述处理模块配置以使用密钥加密各所述语音、所述会议纪录档案或两者。
12.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述语音收发模块包含扬声电话(speakerphone)。
13.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述智能化语音自动会议记录生成系统还包含无线传输模块,连接所述处理模块以及云端服务器,配置以将所述会议纪录档案、所述密钥或两者传输至所述云端服务器保存。
14.根据权利要求12所述的智能化语音自动会议记录生成系统,其特征在于,所述云端服务器取得所述密钥,以解密各所述语音、所述会议纪录档案或两者。
15.根据权利要求13所述的智能化语音自动会议记录生成系统,其特征在于,所述云端服务器连接电子装置,配置以认证所述电子装置的用户成功后,输出所述会议纪录档案、所述密钥或两者至所述电子装置。
16.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,电子装置开启应用程序以接收各所述语音,所述处理模块从所述应用程序取得各所述语音,并透过所述应用程序传输所述会议纪录档案、所述密钥或两者至云端服务器。
17.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,电子装置开启语音通信应用程序,以接收所述语音并传输至所述处理模块,以及开启云端传输应用程序传输所述会议纪录档案、所述密钥或两者至云端服务器。
18.根据权利要求1所述的智能化语音自动会议记录生成系统,其特征在于,所述的智能化语音自动会议记录生成系统还包含一语音文字转换模块,配置以转换各所述语音为文字。
CN202010399408.6A 2020-05-12 2020-05-12 智能化语音自动会议记录生成系统 Pending CN113660378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010399408.6A CN113660378A (zh) 2020-05-12 2020-05-12 智能化语音自动会议记录生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010399408.6A CN113660378A (zh) 2020-05-12 2020-05-12 智能化语音自动会议记录生成系统

Publications (1)

Publication Number Publication Date
CN113660378A true CN113660378A (zh) 2021-11-16

Family

ID=78477005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010399408.6A Pending CN113660378A (zh) 2020-05-12 2020-05-12 智能化语音自动会议记录生成系统

Country Status (1)

Country Link
CN (1) CN113660378A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116392A (zh) * 2024-04-30 2024-05-31 江西软件职业技术大学 一种数字会议语音处理方法、系统、存储介质及计算机

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN208424595U (zh) * 2018-08-08 2019-01-22 上海启诺信息科技有限公司 基于文字记录的录像存档装置及系统
KR20190029999A (ko) * 2017-09-13 2019-03-21 (주)에어사운드 멀티 커넥션을 통한 회의록 생성 시스템 및 그 방법
CN110010130A (zh) * 2019-04-03 2019-07-12 安徽阔声科技有限公司 一种面向参会者同步语音转写文字的智能方法
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190029999A (ko) * 2017-09-13 2019-03-21 (주)에어사운드 멀티 커넥션을 통한 회의록 생성 시스템 및 그 방법
CN208424595U (zh) * 2018-08-08 2019-01-22 上海启诺信息科技有限公司 基于文字记录的录像存档装置及系统
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN110010130A (zh) * 2019-04-03 2019-07-12 安徽阔声科技有限公司 一种面向参会者同步语音转写文字的智能方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116392A (zh) * 2024-04-30 2024-05-31 江西软件职业技术大学 一种数字会议语音处理方法、系统、存储介质及计算机

Similar Documents

Publication Publication Date Title
US5953700A (en) Portable acoustic interface for remote access to automatic speech/speaker recognition server
FI115868B (fi) Puhesynteesi
US10984802B2 (en) System for determining identity based on voiceprint and voice password, and method thereof
CN205647778U (zh) 一种智能会议系统
Shirvanian et al. Wiretapping via mimicry: Short voice imitation man-in-the-middle attacks on crypto phones
US11916913B2 (en) Secure audio transcription
US9924358B2 (en) Bluetooth voice pairing apparatus and method
CN1815484A (zh) 数字化认证系统及其认证方法
EP3876507B1 (en) System and method for audio content verification
TW200820218A (en) Portable personal authentication method and electronic business transaction method
US20240037202A1 (en) Methods and systems for a voice id verification database and service in social networking and commercial business transactions
WO2016062153A1 (zh) 一种音频数据安全传递方法、系统及终端
JP2008107624A (ja) 文字起こしシステム
CN113660378A (zh) 智能化语音自动会议记录生成系统
Shirvanian et al. Short voice imitation man-in-the-middle attacks on Crypto Phones: Defeating humans and machines
CN213152077U (zh) 智能语音会议加密系统
US7593387B2 (en) Voice communication with simulated speech data
US11699438B2 (en) Open smart speaker
JP4655008B2 (ja) 携帯端末装置による録音通知方法及び携帯端末装置及び通信システム
CN114417372A (zh) 一种基于语音波段特征的数据文件加密方法和存储设备
TW202107873A (zh) 智能語音會議加密系統及方法
JP2002101203A (ja) 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
TWM598010U (zh) 智能語音會議加密系統
US10861463B2 (en) Method for speech processing and speech processing device
JP5728456B2 (ja) 通信端末

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211116