CN114514577A - 生成和传输口头通信的文字记录的方法和系统 - Google Patents
生成和传输口头通信的文字记录的方法和系统 Download PDFInfo
- Publication number
- CN114514577A CN114514577A CN202080066816.8A CN202080066816A CN114514577A CN 114514577 A CN114514577 A CN 114514577A CN 202080066816 A CN202080066816 A CN 202080066816A CN 114514577 A CN114514577 A CN 114514577A
- Authority
- CN
- China
- Prior art keywords
- communication
- speaker
- recording
- text
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 302
- 238000000034 method Methods 0.000 title claims abstract description 152
- 230000001755 vocal effect Effects 0.000 title claims description 35
- 230000008569 process Effects 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000013518 transcription Methods 0.000 claims abstract description 40
- 230000035897 transcription Effects 0.000 claims abstract description 40
- 238000010295 mobile communication Methods 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000000275 quality assurance Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/155—Conference systems involving storage of or access to video conference sessions
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种生成和传输口头通信的文字记录的方法。该方法包括:创建至少一位参与口头通信的说话者的录音;通过解析过程处理所述录音,在解析过程中分析音频流以产生说话者记录,该说话者记录自动辨识所述音频流中对应于至少一个已知说话者简档的一个或更多个部分;通过转录过程处理所述录音,在转录过程中所述录音被转录成一个或更多个文本片段,以创建代表所述口头通信的通信文字记录;基于所述说话者录音将所述通信文字记录的一个或更多个片段分配给至少一个说话者;通过插入到所述通信文字记录中来生成最终通信文字记录;以及向用户呈现所述最终通信文字记录的副本。
Description
技术领域
本公开一般涉及生成和传输口头通信的文字记录的计算机实现方法和系统,更具体地,涉及一种基本上实时地自动生成和传输单方或多方通信的文字记录的计算机实现方法和系统。本公开对发生在相同位置和/或跨通信网络的多方通信的转录和传输具有特定但不一定排他的应用。
背景技术
作为日常通信和对话的一个常见方面,人们通常以口头的(例如,面对面对话或通过通信网络上的电话会议/视频会议)或书面消息的形式进行通信。传统上,在引入某些技术进步之前,人们之间的书面通信采取手写或打字笔记和信件的形式。最近,互联网使通过聊天和电子邮件消息进行的通信成为首选的通信形式。
通信设备(例如电话和移动设备)在许多不同的环境中使用,有时听众很难理解说话者的话。例如,在无线通信信道条件差、网络拥塞、干扰大等情况下,声音数据包(例如在IP声音(VoIP)呼叫中)经常丢失,听众很难理解说话者在说什么。这也可能是这种情况,例如,在不匹配环境的情况下,例如说话者处于安静环境中而听众处于嘈杂环境中。在这种情况下,听众可能无法正确感知或理解对话。作为进一步的例子,听众可能会因为说话者的口音或语调而在理解说话者时遇到困难(这可能,或者当然,也发生在面对面的通信中)。
对于许多用户来说,以文本格式接收所有口头通信的转写会很方便,而不必重复访问这些对话的音频录音(在可用的范围内)。因此,希望提供一种高效且至少半自动化的机制,用于将口头通信(或至少这些口头通信的音频录音)转录为文本,从而可以将文本提供给预期的接收者(或使用该文本的程序或应用程序编程接口(API))。该规程和系统可用于将几乎任何形式的口头通信文字记录为相应的文本。
解决上述问题的一种方法是使用全自动语音识别(ASR)系统来处理口头通信(或这些通信的音频录音)以产生相应的文本转录。虽然ASR软件的准确性有所提高(特别是在用户接受培训以使软件能够识别特定说话者语音模式的特征的情况下),但此类程序在尝试识别由系统未经培训的人发出的语音时,仍然有相对较高的错误率。。
正如多方口头对话中的常见情况一样,说话方之间存在大量杂乱无章的和无条理的对话和相互作用以及重叠。例如,说话者的变化相对频繁(取决于论坛),有时参与者同时发言或相互发言,并且输入的质量不同以及由此产生的音频质量不同。在许多实例中,提供对话转录的人或软件几乎不可能准确且可预测地辨识在该实例中音频中每个位置的说话的人。此外,依靠转录员的听力和能力来辨识和指定说话者身份是不可靠的并且容易出错。许多目前可用的听写和转录系统缺乏区分多方通信中的说话者和提供完整和可靠的对话转录的能力。
鉴于现有技术的上述问题,需要一种改进的方法和系统来生成多方通信的文字记录,或者至少是一种可行的替代方案。还需要一种改进的方法和系统,用于安全地传输(并且根据需要存储)多方通信的文字记录,以便使用户能够在稍后阶段访问(例如,出于回顾和/或纠正文字记录的目的)。
在本说明书中,如果提及或讨论某一文件、行为或知识项,则该提及或讨论并不意味着承认该文件、行为或知识项或其任何组合在优先权日期是可公开获取,为公众所知,公知常识的一部分;或已知与试图解决与本说明书有关的任何问题有关。
在整个本说明书中,词语“包括(comprise)”或变体,诸如“包括(comprises)”或“包括(comprising)”将被理解为暗示包含所陈述的元素、整数或步骤,或元素组、整数组或步骤组,而不是排除任何其他元素、整数或步骤,或元素组、整数组或步骤组。
发明内容
本公开涉及一种生成和传输口头通信的文字记录的计算机实现方法,该方法包括:
创建参与口头通信的至少一位说话者的录音;
通过解析过程处理所述录音,在解析过程中分析音频流以产生说话者记录,该说话者记录自动辨识音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理所述录音,在转录过程中,所述录音被转录成一个或更多个文本片段,以创建代表口头通信的通信文字记录;
基于所述说话者记录将所述通信文字记录的一个或更多个片段分配给至少一个说话者;
基于所述至少一个已知说话者简档,通过将辨识所述至少一个说话者的信息插入到所述通信文字记录中来生成最终通信文字记录;以及
向用户呈现最终通信文字记录的副本。
在一个实施例中,口头通信是多方通信,并且通信文字记录的一个或更多个片段基于说话者记录被分配给单个说话者。然而,本领域技术人员将理解,口头通信可以替代地是单方通信,例如,以讲座、演讲、做口头笔记等的形式。
因此,基于说话者的已知说话者简档自动识别口头通信的说话者。如以下将描述的,可以基于说话者的声音样本和辨识说话者的信息(例如名字和姓氏、说话者的职业等)来生成说话者简档。
本发明的实施例具有显着的优点。特别地,可以自动并基本实时地提供代表口头通信的书面通信文字记录,其中参与口头通信的一个或更多个说话者被辨识,例如用名字和姓氏以及日期和时间戳一起标记。这样,书面通信文字记录将清楚地辨识谁在什么时间讲话。下面将描述本发明实施例的其他优点和特征。
在创建录音的步骤中,该方法还可以包括创建口头通信的连续音频录音,例如多方通信。可以存储连续音频录音以用于分析或处理步骤中的一个或更多个,以及传输给口头通信的用户和/或一方。作为转录过程的一部分,并且可能出于回顾和质量保证(QA)的目的,除了最终通信文字记录之外,用户(或相关方)可能希望接收和/或访问口头通信的连续音频录音。
该方法还可以包括创建录音的一个或更多个副本的步骤。例如,可以对录音的一个或更多个副本执行通过解析过程和/或转录过程处理录音的步骤。具体地,可以通过解析过程来处理录音的第一副本,并且可以通过转录过程来处理录音的第二副本。
在一个实施例中,解析过程还可以包括以下步骤:将音频流分割成一个或更多个个体化说话者片段的步骤,以及基于共同的说话者元素对一个或更多个个体化说话者片段进行分组的步骤。如果口头通信涉及其中多方相互通信的多方通信,这可能特别适用。
分割音频流的步骤还可以包括辨识音频流中的说话者变化点的步骤。例如,辨识说话者变化点的步骤可以包括以下一项或更多项:辨识音频流中参与多方通信的说话者之间的间隙和/或变化,以及参考至少一个已知说话者简档来辨识音频流中与匹配至少一个已知说话者简档的说话者对应的一个或更多个部分。因此,该方法可以识别和区分一个音频流中的多个说话者/声音。此功能也可以称为说话者/声音分类(diarisation)。以这种方式,可以正确标记多方通信的单个说话者的身份,例如,连同日期和时间戳一起。
在这方面,辨识间隙的步骤可以包括检测音频流中的静默时段。然后,该方法可以在检测的静默时段之前处理音频流的一个或更多个部分,从而可以基本实时地提供最终通信文字记录。因此,可以逐段地转录音频流。
在一个实施例中,转录过程可以包括通过自动语音识别(ASR)生成文本片段的进一步步骤。这种ASR软件的示例可以包括内部开发的软件、可从GoogleTM获得的云语音到文本(Cloud Speech-to-Text)应用程序编程接口(API),或可从IBMTM获得的WatsonTM语音到文本(Speech-to-Text)应用程序。
分配通信文字记录的一个或更多个片段的步骤可以包括以下步骤:基于音频和/或文本提示将说话者记录与通信文字记录对齐,以及基于至少一个已知说话者简档将辨识单个说话者的信息分配给一个或更多个文本片段中的每一个。可以使用音频流的对应于至少一个已知说话者简档的一个或更多个部分的时间戳记录(以及用于创建通信文字记录的一个或更多个文本片段可能对应的时间戳记录)来实现将说话者记录与通信文字记录对齐的步骤。
生成最终通信文字记录的步骤可以包括以下一项或多项:基于至少一个已知说话者简档,将辨识单个说话者的信息插入到通信文字记录中。例如,该信息可以包括说话者的名字、说话者的姓氏、说话者的职位或辨识说话者的任何其他合适的信息。该信息还可以包括日期和时间戳以及说话者的位置。对于未知说话者,该信息可以包括辨识说话者的未知说话者标志,其中单个说话者的附加身份信息,例如姓名,从至少一个已知说话者简档中是未知的。例如,在被辨识的说话者与至少一个已知说话者简档不匹配的情况下,未知说话者标志可以通过非特定名称(例如,“说话者1”或“说话者A”)来辨识说话者。通过这种方式,可以直接辨识口头通信的每个单个说话者并清楚地标记,从而提高最终通信文字记录的可读性和准确性。
通过解析过程处理录音的步骤和通过转录过程处理录音的步骤可以优选地基本上同时发生。在这方面,可能有必要创建录音的第一和第二副本,如上所述。更重要的是,该方法旨在以基本上实时地提供最终通信文字记录。
在向用户呈现最终通信文字记录的副本的步骤之前,该方法可以包括加密最终通信文字记录和/或连续音频录音的步骤,并传输加密的最终通信文字记录和/或加密的连续音频录音给口头通信的用户和/或一方。本领域技术人员将理解,设想任何合适的加密方法。更重要的是,本领域的技术人员将理解,可以对呈现给用户的任何合适的信息进行加密,包括但不限于最终通信文字记录、音频录音、上传或共享的文档文件(例如保密协议或议程),以及说话者简档(例如声音样本和身份证明信息)。
在一个具体实施例中,该方法旨在基本上实时进行。以这种方式,可以向口头通信的用户或一方提供基本上实况的文字记录。如将参考下面的具体示例描述的,该特征具有显着的优点。
在一个实施例中,该方法可以包括生成单个说话者的至少一个说话者简档的步骤。至少一个说话者简档可以存储在计算机上以供将来访问。本领域技术人员将理解,至少一个说话者简档可以如上面简要概述的那样被加密。在具体实施例中,该方法可以包括生成任何未知说话者的说话者简档的步骤。生成单个说话者的至少一个说话者简档的步骤可以包括创建单个说话者的音频样本的声音录音。该方法可以包括分析声音录音以进行音调和音高测量的步骤。此外,生成单个说话者的至少一个说话者简档的步骤可以包括获得辨识说话者的信息,例如说话者的姓名、位置、职位、公司和任何其他合适的信息。例如,与音频样本一起,说话者可以陈述他/她的姓名和注册过程所需的任何其他信息。
在一个具体实施例中,该方法可以包括将全部或部分最终通信文字记录的文本翻译成与口头通信的语言不同的语言的步骤,例如在多方通信期间各方所说的语言。翻译文本的步骤可以基本实时地执行。
本公开的实施例还涉及当安装在移动通信设备上时可以使移动通信设备执行上述方法的软件。本公开的另外的实施例涉及一种应用程序编程接口,当作为用户应用程序的一部分安装在移动通信设备上时可以使移动通信设备执行上述方法。
本公开还涉及生成和传输口头通信的文字记录的计算机实现系统,该系统包括:
录音设备,用于给至少一个说话者录音;以及
处理系统,被配置为执行上述方法,其中所述处理系统是服务器处理系统。
本公开还涉及生成和传输口头通信的文字记录的计算机实现系统,该系统包括:
可通过通信网络访问的计算机服务器,所述计算机服务器设置为通过通信网络接收关于口头通信的信息;
处理器,通信地耦接到所述计算机服务器,用于显示信息的一个或更多个图像显示器以及一个或更多个输入设备,所述处理器被配置为:
通过录音设备创建口头通信的至少一个说话者的录音;
经由处理器通过解析过程处理录音,在解析过程中分析音频流以产生说话者记录,该说话者记录辨识音频流中对应于至少一个已知说话者简档的一个或更多个部分
经由处理器通过转录过程处理录音,在转录过程中,录音被转录成一个或更多个文本片段,以创建代表口头通信的通信文字记录;
基于说话者记录,经由处理器将通信文字记录的一个或更多个片段分配给至少一个说话者;
基于至少一个已知说话者简档,通过将辨识至少一个说话者的信息插入到通信文字记录中,经由处理器生成最终通信文字记录;以及
通过通信网络向用户呈现最终通信文字记录的副本。
在创建至少一个说话者的录音的步骤中,处理器还可以被配置为创建口头通信的连续音频录音,例如单方或多方通信。连续音频录音可以被存储以用于处理器的分析或处理步骤中的一个或更多个;以及通过通信网络传输给通信的用户和/或一方。作为转录过程的一部分,并且可能出于回顾和质量保证(QA)的目的,除了最终通信文字记录之外,用户(或相关方)可能希望接收和访问口头通信的连续音频录音。处理器可以被配置为创建录音的一个或更多个副本,使得解析过程和/或转录过程可以应用一个或更多个副本。具体地,处理器可以被配置为通过解析过程来处理录音的第一副本,并且通过转录过程来处理录音的第二副本。
在通过解析过程处理录音的步骤中,处理器还可以被配置为将音频流分割成一个或更多个个体化说话者片段,并基于共同的说话者元素对所述一个或更多个个体化说话者片段进行分组。
处理器还可以被配置为辨识音频流中的说话者变化点。例如,辨识说话者变化点的步骤可以包括以下一项或更多项:辨识音频流中参与多方通信的说话者之间的间隙和/或变化,以及参考至少一个已知说话者简档来辨识音频流中与匹配至少一个已知说话者简档的说话者对应的一个或更多个部分。
在通过转录过程处理录音的步骤中,处理器还可以被配置为通过自动语音识别(ASR)生成文本片段。这种ASR软件的示例可以包括可从GoogleTM获得的云语音到文本(Cloud Speech-to-Text)应用程序编程接口(API),或可从IBMTM获得的WatsonTM语音到文本(Speech-to-Text)应用程序。
分配通信文字记录的一个或更多个片段的步骤可以包括以下步骤:基于音频和/或文本提示将说话者记录与通信文字记录对齐,以及基于至少一个已知说话者简档将单个说话者的身份分配给一个或更多个文本片段中的每一个。将说话者记录与通信文字记录对齐的步骤可以优选地使用音频流的对应于至少一个已知说话者简档的一个或更多个部分的时间戳记录(以及用于创建通信文字记录的一个或更多个文本片段可能对应的时间戳记录)来实现。
生成最终通信文字记录的步骤可以包括以下一项或多项:基于至少一个已知说话者简档,将辨识单个说话者的信息插入到通信文字记录中。例如,该信息可以包括名字、姓氏、单个说话者的职位、公司信息、位置信息、时间戳或辨识说话者的任何其他合适的信息。如果对系统来说说话者是未知的,则该信息可以包括针对该说话者的未知说话者标志,其中单个说话者的身份在至少一个已知说话者简档中是未知的。例如,在被辨识的说话者与至少一个已知说话者简档不匹配的情况下,未知说话者标志可以通过非特定名称(例如,“说话者1”或“说话者A”)来识别说话者。
在向用户呈现最终通信文字记录的副本的步骤之前,处理器可以进一步被配置为对最终通信文字记录和/或连续音频录音进行加密,并通过通信网络传输加密的最终通信文字记录和/或加密的连续音频录音给用户和/或相关方,例如多方通信的一方。
本公开还涉及一种由安装在移动通信设备上的移动应用程序执行的计算机实现方法,以促进生成和传输口头通信的文字记录,该方法包括:
通过录音设备创建参与口头通信的至少一个说话者的录音;
通过解析过程处理录音,在解析过程中,分析音频流以产生说话者记录,该说话者记录辨识所述音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理录音,在转录过程中,录音被转录成一个或更多个文本片段,以创建代表口头通信的通信文字记录;
基于说话者记录将通信文字记录的一个或更多个片段分配给至少一个说话者;
基于至少一个已知说话者简档,通过将辨识至少一个说话者的信息插入到通信文字记录中来生成最终通信文字记录;以及
通过通信网络向用户呈现最终通信文字记录的副本。
通信设备可以包括显示设备,以便于通过移动应用程序呈现最终通信文字记录的副本。
当软件安装在计算机上时,如移动通信设备,可使计算机执行上述方法。当应用程序编程接口作为用户应用程序的一部分而安装在计算机上(如移动通信设备)时,可以使计算机执行上述方法。
本公开还涉及一种移动通信设备,包括:
录音设备,优选地位于由用户操作的移动通信设备内;
程序存储器,用于存储安装在所述移动通信设备上的用户应用程序;
数据端口,便于通过通信网络与应用程序服务器通信;以及
处理器,用于
经由录音设备创建参与口头通信的至少一个说话者的录音;
通过解析过程处理录音,在解析过程中,分析音频流以产生说话者记录,该说话者记录辨识所述音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理录音,在转录过程中,录音被转录成一个或更多个文本片段,以创建代表口头通信的通信文字记录;
基于说话者记录,将通信文字记录的一个或更多个片段分配给至少一个说话者;
基于至少一个已知说话者简档,通过将辨识至少一个说话者的信息插入到通信文字记录中来生成最终通信文字记录;以及
通过通信网络向用户呈现最终通信文字记录的副本。
移动通信设备还可以包括显示设备和输入设备,以便于用户与用户应用程序的交互。
附图说明
现在将参照附图描述本发明的实施例。这些实施例仅以说明的方式给出,并且本发明的其他实施例也是可能的。因此,不应将附图的特殊性理解为取代前面描述的一般性。图中:
图1是说明根据本公开的代表性实施例的生成和传输多方通信的文字记录的系统的示意框图;
图2是说明根据本公开的替代实施例的生成和传输多方通信的文字记录的系统的基于网络的系统的示意框图;
图3是说明根据本公开的实施例的生成和发送多方通信的文字记录的方法的示意框图;和
图4A-4F是根据本公开的实施例的生成和传输多方通信的文字记录的方法的示例性应用和特征的示意概述。
具体实施方式
本公开的代表性实施例总体上涉及生成和传输口头通信的文字记录的计算机实现方法和系统,更具体地,涉及一种用于自动生成和传输多方通信的文字记录的计算机实现方法和系统。多方通信的文字记录可以基本上实时地生成并传输给多方通信的用户和/或一方。以这种方式,可以提供基本上实况的通信文字记录。
本公开对发生在相同位置和/或跨通信网络的多方通信的转录和传输具有特定但不一定排他的应用。然而,应当理解,本公开不限于该代表性实施例,并且可以与其他应用相关地实施,其中一些在图4A-4F中说明。
图1是说明系统100的示意图,在系统100中可以实施本公开的实施例。
系统100使用通信网络102,例如互联网,以便于生成和传输口头通信的文字记录,更具体地,以便于用于自动生成和传输多方通信的文字记录的计算机实现方法和系统。
在示例性实施例100中,服务器104执行用于向用户设备106提供服务的web服务器软件应用程序。因此,服务器104和用户设备106之间的通信方便地基于标准超文本传输协议(HTTP)和/或安全超文本传输协议(HTTPS)或其他安全传输方法。
用户设备106(即“客户机”)优选地结合到移动设备中或与移动设备一体形成,但也可以(通过通信网络)耦合到移动设备,例如智能手机、平板电脑、笔记本计算机等。如通信领域的技术人员将理解的,各种机制和技术可用于提供从移动设备106对因特网102的访问,并且所有这些技术都落入本发明的范围内。
服务器104通常可以包括一台或更多台计算机,每台计算机包括至少一个微处理器108。计算机和处理器108的数量通常取决于系统所需的处理能力,而这又取决于系统被设计支持的并发用户设备106的数量。为了提供高度的可扩展性,例如当支持全球用户基数时,服务器104可以利用基于云的计算资源,和/或可以包括位于不同地理区域的多个服务器站点。云计算平台和/或多个服务器站点的使用使得物理硬件资源能够响应服务需求而动态分配。关于服务器计算资源的这些和其他改变将被理解为在本发明的范围内,尽管为了简单起见,这里描述的示例性实施例仅使用具有单个微处理器108的单个服务器计算机104。
微处理器108与非易失性存储器/存储设备110接口或以其他方式可操作地关联。非易失性存储器110可以是硬盘驱动器,和/或可以包括固态非易失性存储器,例如只读存储器(ROM)、快闪存储器等。微处理器108还与易失性存储器112接口,例如随机存取存储器(RAM),该存储器包含与服务器104的操作有关的程序指令和瞬态数据。
在常规配置中,存储设备110维护与服务器系统104的正常操作相关的已知程序和数据内容,包括操作系统,程序和数据,以及服务器104的预期功能所必需的其他可执行应用程序软件。在所示的实施例中,存储设备110还包含程序指令,当由处理器108执行时,该程序指令使服务器计算机104能够执行与实施体现本发明的服务和设施相关的操作,如下文参考附图图3更详细地描述的。在操作中,保存在存储设备110上的指令和数据被传送到易失性存储器112以按需求执行。
微处理器108以常规方式可操作地与网络接口114相关联。网络接口114便于访问一个或更多个数据通信网络,包括互联网102,以使服务器104和用户设备106之间能够通信。在使用中,易失性存储器112包括相应的程序指令的主体116,被配置为执行体现本发明特征的处理和操作,例如如下文参考附图3描述的。
例如,程序指令116包括体现网页服务器应用程序的指令。存储在非易失性存储器110和易失性存储器112中的数据包括用于在用户设备106上呈现和/或执行的基于网页的代码,例如HTML和/或JavaScript代码,以便于基于网页的实施。因此,在本发明的实施例中,系统100帮助使用用户设备106的用户通过通信网络访问系统100的功能。例如,用户可以通过本领域技术人员已知的云服务在线访问与用户的用户简档相关联的任何数据文件。另外,系统100可以帮助用户访问至少一些功能和/或信息,而无需通过通信网络访问服务器104。具体来说,用户能够访问和/或修改与用户的简档相关联的信息,用户的简档与用户设备先前同步并本地存储在用户设备上。系统的这种特征也可以称为混合应用程序,混合应用程序可以离线提供特定功能,即从用户设备106的本地存储访问和加载特定信息。
在图2的示意图中再次仅作为示例说明了替代实施200。在该替代实施例中,实施系统的可执行程序代码的至少一部分在用户设备106内执行。如图所示,每个用户设备106通常是包含在由用户操作的移动设备内的计算设备,包括至少一个微处理器202、非易失性存储器204和易失性存储器206。每个用户设备106还具有网络接口208,以常规方式可操作地与微处理器202相关联。因此,用户设备106能够通过执行存储在本地,易失性206和非易失性204存储器中和/或通过网络接口208经由互联网102下载的程序来进行计算处理。
在实施例200中,服务器104可以与一个或更多个数据库212通信,该数据库212可以包含与一个或更多个用户的用户信息有关的用户记录和/或简档(例如,用户语音简档),并且另外可以包括用于在用户设备106上执行的可下载软件组件。例如,系统的一部分可以通过以诸如Java或一些其他合适的编程语言的语言开发的程序指令来实施,这些程序指令在用户设备106上执行,以经由服务器104检索数据,以及实施以下参考图3所述的自动生成和传输多方通信的文字记录的示例性系统的部分或全部功能。
客户端实施还可以包括浏览器插件形式的可下载和可执行代码,例如用于基于Windows的浏览器的ActiveX控件,和/或配置为在浏览器环境或智能手机操作系统环境中执行的其他小程序或应用程序,例如Apple iOS环境或Android环境。
本发明实施例的各种实施对于软件工程领域的技术人员来说将是显而易见的,包括服务器端和客户端可执行程序组件的各种组合。
现在转向图3,示出了流程图,该流程图示出了根据本发明实施例的生成和传输多方通信的文字记录的示例性方法300。
用户通常会操作用户设备106,该用户设备106可以直接或间接与移动通信设备106连接,例如智能手机、平板电脑、笔记本计算机等。用户设备106优选地结合至少一个能够捕获多方通信的音频流的录音设备(发生在本地环境中,或者部分地跨越由通信网络促成的通信桥)。然而,本领域技术人员将理解,至少一个录音设备可以备选地形成与用户设备106通信的单独设备,例如蓝牙麦克风。另外,用户设备106包括这种类型的计算设备所需的处理单元,内存和存储器。
结合计算设备的用户设备106优选地运行允许设备106被编程(直接或远程)以基于某些用户事件执行动作的操作系统软件和应用程序软件。此外,设备106可以结合一个或更多个无线电通信方式,例如WiFi、蓝牙或蜂窝数据调制解调器无线电,以允许将数据(包括用户数据,例如用户语音简档)传输到用户设备106以及从用户设备106传输。可选地或另外地,用户设备可以结合一个或更多个接口端口以允许对设备106进行编程、测试、充电或仅允许将数据(包括用户数据,例如,用户语音简档)直接传输到设备106以及从设备106传输。
用户设备106还可以包含一个或更多个反馈设备以允许与用户进行数据或事件的通信。这些反馈设备可能包括灯、振动电机、视觉显示单元(例如LCD屏幕)和/或扬声器。相反,设备106可以包括一个或更多个输入设备以允许用户(或与设备106交互的人)进行交互。这些输入设备可以包括麦克风、按钮、转盘和/或触摸传感器。
用户设备106可以结合一个或更多个内部时钟以提供时基和时间参考。结果,设备106可以聚合来自其每个传感设备的数据并对所述数据加时间戳,和/或通过通信网络将加时间戳的数据传输到外部系统。设备106能够基于从其传感设备接收的聚合的用户数据来推断用户活动(例如,多方通信的开始),并且还能够存储该用户数据(以其原始或聚合形式)在设备106上。
为了确保与外部通信网络的连接性(例如,为了实时生成和传输多方通信的文字记录),用户设备106定期检查是否可经由基站(如果一个基站可供用户使用且已配置)、移动设备(例如,智能手机或平板电脑,如果一个已配置)、WiFi网络(如果一个可供用户使用且已配置),车载或外设蜂窝数据调制解调器(如果一个可供用户使用且已配置)中的一个或更多个连接到互联网。在基站被配置的情况下,用户设备106可以使用诸如蓝牙、WiFi、ZigBee或XBee之类的低功率短程无线电频率协议与其通信。或者,如果智能手机被配置或与用户设备106一体形成,则用户设备106可以使用诸如蓝牙、WiFi或NFC之类的低功率短程无线电频率协议与智能手机通信。或者,如果外设蜂窝数据调制解调器被配置,则用户设备106可以使用诸如蓝牙、WiFi或NFC之类的低功率短程无线电频率协议与其通信。或者,如果车载蜂窝数据调制解调器被配置,则用户设备106可以使用内部总线协议与其通信,例如i2c、NXP、串行或其他内部的组件内,电路板内或组件间,以及电路板间协议。
用户设备106可以被编程为通过互联网与外部服务器104定期通信,以便将用户数据(包括例如用户语音简档)传送和上传到一个或更多个数据库212。用户设备106可能需要在任何时候接收来自用户的输入,设备106也可以被编程为始终维护与互联网的连接,并且在当前的连接方式丢失或不可用的情况下立即寻求其他连接方式。例如,用户设备106可以被编程以辨识何时丢失与基站(以及互联网)的连接,并立即遍历替代连接方式的等级制度以便重新建立与互联网的连接。
在步骤302,方法300涉及通过录音设备(优选地位于用户设备106内或通信地耦合到用户设备106)创建参与多方通信的多个说话者的录音。录音设备(未示出)优选地被配置为创建多方对话的连续音频录音,该多方对话可以存储在易失性存储器206或非易失性存储器204中,或者优选地存储在与服务器104通信地耦合的数据库212中。这连续音频录音可以被存储(存储在易失性存储器206或非易失性存储器204中,或者优选地,在数据库212中)用于处理器108、202的分析或处理步骤,和/或经由通信网络102传输到多方通信的用户和/或一方。
在用户使用用户设备106之前,优选但可选的步骤可以是用户向系统100注册以创建用户简档。作为该过程的一部分,用户(或授权人,例如管理多方通信的转录的人)可能需要提供各种注册详细信息,例如姓名、地址、联系方式(包括,例如,电子邮件地址和通信平台详细信息)、用户名和密码。此外,为了创建和/或更新用户语音简档,可能需要用户(或授权人)提交用户语音样本。本领域技术人员将理解用于为用户开发独特语音简档的已知技术和方法,包括但不限于语言分析。这样的用户语音简档将优选地根据本系统100用于包括ASR软件过程的语音识别过程。现有ASR软件的示例可能包括可从GoogleTM获得的云语音到文本(Cloud Speech-to-Text)应用程序编程接口(API),或可从IBMTM获得的WatsonTM语音到文本(Speech-to-Text)应用程序。
在一个具体实施例中,系统100可以允许创建管理员简档。与管理员简档相关联的用户可以具有监督在计算机服务器104环境内执行的数据和指令的能力。例如,与管理员简档相关联的用户可以促进用户简档的创建、存储和/或文件的删除,例如音频录音、文字记录、简档等。
所有用户简档都可以锁定以限制对用户简档的访问,例如,通过设置密码、个人识别号码或其他安全措施,如指纹或声音ID。本领域技术人员将理解用于保护对用户简档的访问的已知技术和方法。
在步骤304,方法300包括通过解析过程处理录音的第一副本,在解析过程中分析音频流以产生说话者记录,该说话者记录辨识音频流中与至少一个已知说话者简档(其位于易失性206或非易失性204存储器内,或者优选地,位于数据库212内)相对应的一个或更多个部分。根据解析过程,可以根据说话者身份将音频流划分为音频样本或同质片段。在本发明的代表性实施例中,解析过程涉及说话者分割和说话者聚类的组合。步骤304的说话者分割元素优选地涉及通过下述来辨识说话者变化点,即通过辨识音频流中参与多方通信的说话者之间的间隙和/或参考至少一个已知说话者简档来辨识音频流中与匹配至少一个已知说话者简档的说话者对应的一个或更多个部分。这种参考可以涉及调用存储在易失性存储器206或非易失性存储器204或优选地在数据库212中的说话者简档(即用户语音简档)。步骤304的语音聚类元素涉及基于说话者特征将语音片段分组在一起。
根据本发明的代表性实施例,根据步骤304的解析过程继续进行,直到最终通信文字记录完成。此外,可以执行方法300,使得最终通信文字记录是可编辑的。以这种方式,可以进行更正,或者当发生进一步的口头通信时,例如多方通信,可以继续通信文字记录。因此,可以向多方通信的用户和/或一方或更多方提供连续的会议主线。
在具体实施例中,处理录音的第一副本的步骤304可以包括过滤音频流以减少在至少一个录音设备106处记录的背景或环境噪声。本领域技术人员将理解用于减少或消除不需要的噪音的已知技术和方法,包括但不限于主动和被动噪声控制。在一个具体示例中,可以使用AI模型调整技术来提高口头通信的音质。在这方面,该方法可以包括提供背景或环境噪声录音的步骤,例如风扇的噪声、雨的噪声等,以改进AI模型。
在步骤306,方法300包括通过转录过程处理录音的第二副本,在转录过程中,录音被转录成一个或更多个文本片段,以创建代表多方通信的通信文字记录。优选地,通过自动语音识别(ASR)处理录音的另一副本,以生成汇编通信文字记录所需的文本片段。这种ASR软件的示例可以包括可从GoogleTM获得的云语音到文本(Cloud Speech-to-Text)应用程序编程接口(API),或可从IBMTM获得的WatsonTM语音到文本(Speech-to-Text)应用程序。还设想通过解析过程处理第一副本的步骤304和通过转录过程处理第二副本的步骤306同时发生。更重要的是,设想步骤304和306可以基本实时地进行,以向多方通信的用户和/或一方提供基本实况的通信文字记录。
在一个特定实施例中,根据步骤306的转录过程可以包括自动更正一个或更多个文本片段。例如,可以分析一个或更多个文本片段并且可选地自动更正拼写、语法、标点符号或其他更正。关于拼写检查,本领域技术人员将理解用户可以预先定义用于自动更正的规则。例如,用户可以预先定义将特定的缩写术语变化为相应的扩展术语的规则。作为上述的扩展,方法300可以包括在选择工作前提供字典并在文本片段内呈现单词的含义、定义或同义词的附加步骤。在步骤308,该方法包括基于说话者记录将通信文字记录的一个或更多个片段分配给单个说话者。更具体地,该步骤308优选地涉及基于音频和/或文本提示将说话者记录与通信文字记录对齐,并且基于至少一个已知说话者简档将单个说话者的身份分配给一个或更多个文本片段中的每一个。如本领域技术人员将理解的,系统100可以包括一个或更多个内部时钟以提供时基和时间参考。结果,作为基于说话者记录将一个或更多个通信文字记录的片段分配给单个说话者的过程308的一部分,设备106将有可能对所述数据进行聚合和加时间戳,和/或通过通信网络将加时间戳的数据传输到外部系统。
如上所述,在该特定实施例中,录音的第一和第二副本分别通过解析过程和转录过程进行处理。然而,本领域技术人员将理解可以对原始记录进行一个或更多个处理步骤(如果优选的话),或者将仅创建录音的一个副本用于数据处理。
在步骤310,该方法包括通过基于至少一个已知说话者简档将辨识单个说话者的信息插入到通信文字记录中来生成最终通信文字记录。该步骤310优选地涉及基于至少一个已知的说话者简档(其位于易失性206或非易失性204存储器内,或者优选地,位于数据库212内),将单个说话者的身份插入到通信文字记录中,和/或将未知说话者标志插入到通信文字记录中,在未知说话者标志中,单个说话者的身份在至少一个已知说话者简档中是未知的。例如,在被辨识的说话者与至少一个已知说话者简档不匹配的情况下,未知说话者标志可以通过非特定名称(例如,“说话者1”或“说话者A”)来辨识说话者。
在步骤312,该方法包括通过通信网络102并且优选地在反馈设备(例如,用户设备106的用户图像界面)上向用户呈现最终通信文字记录的副本。作为优选的预备步骤,步骤312涉及对最终通信文字记录和/或连续音频录音进行加密,并通过通信网络102传输加密的最终通信文字记录和/或加密的连续音频录音(包括,例如,连续的音频和视频录音)给多方通信的用户和/或一方。本领域技术人员将知道用于加密字符文字记录以及音频/视频文件(压缩或未压缩格式)的技术。
还应该理解,步骤312可以包括将最终通信文字记录的全部或部分文本翻译成与多方通信期间用户所讲的语言不同的语言的预备步骤。用户可以基于存储在易失性存储器206或非易失性存储器204或优选地存储在数据库212中的用户的简档中指定的功能性用户偏好,提前请求最终通信文字记录的翻译。该特征具有特别的优势,如果音频流的片段基本上是实时转录的,说不同语言的多方之间的实况通信可以在没有明显延迟的情况下启用。在本发明的一个代表性实施例中,可以使用第三方翻译软件(例如,GoogleTM的云翻译软件)在多方通信期间将最终通信文字记录的全部或部分翻译成不同于用户所说语言的语言。
还应该理解,作为在移动设备106上或通过移动设备106向用户呈现最终通信文字记录的替代方案(或除此之外),还可能希望将最终通信文字记录的副本通过现有或已知的电子邮件帐户或通信平台帐户发送给用户。
现在将参考受益于使用自动转录服务的实际情况来描述系统100的可能应用和使用案例的示例。在附图的图4A至4F中进一步示出了一些可能应用示例的示意图概述。
公司会议
在典型的公司会议期间,用户设备106可以由例如会议的发起者(或他们的代表)使用以开始生成和传输多方通信的文字记录的方法300。这可以通过提供日历综合特征来实现。例如,系统100可以帮助用户(例如会议的发起人)通过综合的日历来创建和安排会议,该综合日历将向受邀用户通知与安排的会议有关的信息。该信息可以包括会议的日期和时间、议程、与会议相关的任何文件以及参加会议的登录详细信息。
对于具有已知参加者的会议,每个参加者先前已经在数据库212上建立并存储了用户简档,会议的发起者可以邀请(通过用户的简档)每个用户参加会议,以便多方通信可以开始了。如果有参加者先前没有在数据库202上建立和存储用户简档,则例如,方法300可以通过请求用户口头陈述他们的姓名和职业来促进自组织用户简档的创建。这也可以称为注册过程。例如,方法300可以包括生成可选链接并将其呈现给新用户或客人以启动注册过程的步骤。
如果尚未为参与多方通信的特定用户创建简档,则与该用户对应的最终通信文字记录的部分将被标志为非特定名称(诸如,例如,“说话者1'或'说话者A')。然而,系统100仍会将该用户的声音识别为唯一且可辨识的。
根据方法300,系统100还可以具有使文本文档(诸如,例如,WordTM或多文本格式文档)能够被处理和导入(并存储在易失性存储器206或非易失性存储器204中,或者最好在数据库212中)的附加功能,以启用某些字段的填充。在本发明的代表性实施例中,并且仅作为示例,导入的文本可用于填充与动作项相关联的某些字段。例如,在多个用户之间的公司会议之前,可以处理文本文档以提取关于该会议议程的信息,然后可以将其存储(在易失性存储器206或非易失性存储器204中,或者优选地,在数据库212中)并用作“动作项目”或占位符,用于为多方通信中的说话者分配声音到文本的转录。
下面提供了一个议程示例,其中插入了说话者的声音到文本转录:
1.0安全
1.1:Steve Smith 4-19-2019上午10:46:30:
安全报告完成了吗?
1.2:Dylan Garyson 4-19-2019上午10:46:55:
是的,我相信Sarah完成了。
1.3:Sarah Pratt 4-19-2019上午10:47:22:
是的,我昨天完成了它,并把它发给大家审阅。
1.4:Steve Smith 4-19-201910:47:40上午:
听起来不错,谢谢
2.0成就
2.1:Steve Smith 4-19-2019上午10:48:30:
电讯塔安装好了吗?
2.2:Dylan Garyson 4-19-2019上午10:49:01:
是的,Optus已经做好了。
2.3:Sarah Pratt 4-19-2019上午10:49:07:
有一家澳大利亚公司为此做过吗?
2.4:Steve Smith 4-19-2019上午10:49:15:
是的,GHD已经做过了。
3.0问题/风险
3.1:Steve Smith 4-20-2019上午11:15:05:
我注意到附近有一些西方的电力电缆,这是否按照WP代码进行了查看。
3.2:Dylan Garyson 4-20-2019上午11:15:18:
嗯...图纸上没有显示吗?
3.3:Sarah Pratt 4-20-2019上午11:15:46:
我想我们应该尽快做一个调查。
3.4:Steve Smith 4-20-2019上午11:16:05:
是的,我们可能需要GHD进来来做这件事。
如本领域技术人员将理解的,最终通信文字记录还可以包括标签,例如日期和时间戳、会议或每个说话者的全名和位置。
代替手动选择用于插入声音到文本转录的议程项目,系统100可以提供将议程项目自动分配给音频片段的功能。这样,议程项目将被插入到分配和转录的音频片段之前的最终通信文字记录中。在这点上,系统100可以利用学习算法来对一个或更多个音频片段进行分组并将一个或更多个音频片段分配给现有议程项目。或者,在没有关于议程的导入信息的情况下,系统100可以提供确定一个或更多个音频片段的主题并将音频流的一个或更多个音频片段分组到所确定的主题的功能。
附加地或可选地,系统100可以提供创建或分配任务给多方通信的用户和/或组和/或一方的功能。可以为任务分配用户需要完成任务的最后期限。此外,系统100可以例如以百分比的形式提供指示正在完成的任务的一部分的信息。如果一个任务被分配给一组用户,这是特别有利的。
作为上述的扩展,系统100可以提供自动辨识和提取或突出显示预先定义类型的信息的功能,例如“动作项目”、“跟进项目”或“联系信息”。在这点上,系统100可以提供基于信息的格式辨识预先定义类型的信息或确定音频片段的情绪的功能。例如,关于联系信息,系统100可以使用算法来辨识指示地址、邮政编码、姓名、电子邮件地址等的信息。在这方面,该算法可以被解释为识别说话者何时提及电子邮件地址的“@”符号、电话号码或邮政编码。
系统100可以自动提取或突出显示最终通信文字记录中的预先定义类型的信息。例如,系统100可以提供超链接预先定义类型的信息的功能,使得在选择超链接后,平台的用户将被重定向到网站、电话应用程序、直接消息应用程序等。更重要的是,系统100可以包括集成的电话功能、电子邮件功能和/或直接消息功能。本领域技术人员将理解,将这些类型的功能集成到计算机系统中是本领域公知的并且将在本说明书中不再进一步描述。
此外,系统100可以自动识别用户是否在音频流中被提及。在这种情况下,系统100可以通过电子邮件或其他消息功能自动通知被提及的用户。这可以通过插入指示自动通知的信息(例如以“Notify@TimJones”的格式)来转录在最终通信文字记录中。
另外或替代地,系统100可以帮助用户标记一个或更多个文本片段,例如突出显示或标记。以这种方式,最终通信文字记录可以充当用户的提醒或任务列表。
此外,系统100可以提供以可编辑格式提供全部或部分音频流的通信文字记录的功能。在这点上,系统100可以将文本片段的编辑限制为被分配的说话者。例如,可以通过突出显示编辑和/或插入编辑的时间戳来标记对文本片段的任何编辑。这样,只有被分配到转录的音频片段的用户才能编辑,例如更正相应的文本片段。以这种方式,任何不正确的转录或格式都可以基本实时地得到更正。
作为扩展,系统100可以具有通过在初始会议结束后向其添加进一步的文本片段来编辑通信文字记录的功能。例如,第一次会议的发起者可以组织与先前多方通信的相同或相似方的进一步会议。任何转录的音频片段都可以作为文本片段添加到现有的通信文字记录中。在这点上,系统100可以允许参考先前的文本片段。参考的文本片段可以在最终通信文字记录中被辨识为引用。
作为扩展,并且还作为代表性示例,系统100还可以具有将某些文档文件存储在易失性存储器206或非易失性存储器204内,或者优选地,在数据库212内的功能,某些文档文件通常需要在多方通信中的说话者之间进行交换。例如,机密通信的各方通常会在该通信之前交换由该通信的所有各方签署的不公开协定(NDA)。设想系统100可以具有附加功能以允许这样的文档在安排参与多方通信的各方之间交换,并在需要时进行电子的签署和存储(在易失性存储器206或非易失性存储器204内,或者,优选地,在数据库212内)。作为扩展,如果系统100在数据库212中没有检测到签署的NDA,则系统100可以自动限制用户参加口头通信和/或接收共享文件。此外,系统可以提供跟踪和/或辨识已在多方通信内和/或通信外共享的文档和/或文件的功能。
更一般地说,系统100可以具有在易失性存储器206或非易失性存储器204内组织和存储任何合适文件的功能,包括但不限于文字记录文件、音频文件和任何上传、下载和共享的文件。
此外,还作为代表性示例,系统100可以提供允许用户与平台100上的其他用户通信的功能(即,可能发生多方通信的用户和/或已经与系统100建立了用户简档)。这可以通过“即时消息”功能、电子邮件功能或负责人或电话会议功能来实现。这些使用户之间能够进行通信的功能对于本领域技术人员来说是已知的。该功能的主要目的是使用户能够在非口头环境中进行通信,以促进通信或通过平台100协助安排多方口头通信。
音频和/或视频电话会议
该示例涉及可能在多方通信的两方或多方之间发生的典型音频或视频电话会议。与上述公司会议(例如董事会或委员会会议)的示例相反,音频或视频电话会议可以在两个或多个用户之间发生而无需事先通知,并且可以通过蜂窝或数据通信网络102(使用,例如,第三方会议或通信应用程序)。两个或多个用户之间的音频或视频呼叫的开始可以触发生成和传输多方通信的文字记录的方法300。在用户之间的音频或视频通话完成时,或者基于预先存储的用户偏好,用户可以通过他们的移动设备106接收通知以请求最终通信文字记录的副本(或者通过系统应用程序直接到他们的移动设备106,或通过替代的通信方式,例如用户的电子邮件)。
演讲/问答会议
该示例涉及问答会议,例如,以讲座或演讲的形式呈现给一个或更多个参加者。在该特定示例中,用户设备106可以由例如讲座的演讲者(或他们的代理)操作以开始生成和传输讲座或演示的文字记录的方法300。生成讲座或演讲的文字记录并将其传输给参加者具有特殊的优势,即参加者能够专注于聆听演讲者而不是做笔记。这是特别有利的,如果该方法被实施为基本上实时地执行,从而向参加者提供实况的通信文字记录。
在具体实施例中,系统100可以提供允许参加者向讲座的演讲者提出问题或评论的功能。在这点上,系统100可以帮助参加者使用诸如客户端设备106之类的客户端设备以书面形式输入问题或评论。问题或评论可以仅显示给演讲者或显示给演讲者和参加者。例如,可以在显示器上向演讲者突出显示问题或评论,以便演讲者能够提供对问题或评论的回答。为了提供该功能,系统100可以生成并提供可选择的链接和/或访问代码以呈现给讲座的参加者和/或感兴趣的各方。或者,系统100可以帮助参加者使用诸如客户端设备106的客户端设备口头输入问题或评论。方法300然后将执行解析和转录过程以将问题或评论插入到最终通信文字记录中。
允许参加者向演讲者提出问题具有使演讲座或演讲更具交互性的优点,而不必在举行讲座时打断演讲者。例如,问题或评论可以实时或在讲座结束时呈现给演讲者。
此外,系统100可以提供允许参加者通过“即时消息”功能在平台上与演讲者或其他参加者通信的功能。这样,参加者可以私下地向演讲者提出问题,而不必在最终通信文字记录中发布。
根据方法300,系统100还可以具有使图像(例如任何合适图像格式的照片图像、手写笔记等)能够被处理和导入(并存储在易失性存储器206或非易失性存储器204中,或者优选地,在数据库212中)的附加功能。例如,用户可以利用用户设备106捕获图像,然后将图像传输到计算机服务器104以进一步处理。在这点上,系统100可以提供本领域技术人员已知的书写板特征。在具体实施例中,系统100可以具有将导入的图像转换为文本和/或从导入的图像中提取文本的功能。例如,演讲者可以捕获要处理的书写板的照片图像并将其导入最终的文字记录。对于本领域技术人员来说从图像中提取文本的技术是已知的。
由于本发明可以以多种形式实施而不背离本发明的基本特征,因此应当理解,上述实施例不应被认为是对本发明的限制,而应被广义地解释。各种修改、改进和等效布置对于本领域技术人员来说将是显而易见的,并且旨在包括在本发明的精神和范围内。因此,本实施例在所有方面都被认为是说明性的而不是限制性的。
Claims (29)
1.一种生成和传输口头通信的文字记录的方法,所述方法包括:
创建参与所述口头通信的至少一位说话者的录音;
通过解析过程处理所述录音,在所述解析过程中,分析音频流以产生说话者记录,所述说话者记录自动辨识音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理所述录音,在转录过程中,所述录音被转录成一个或更多个文本片段,以创建代表所述口头通信的通信文字记录;
基于所述说话者记录将所述通信文字记录的一个或更多个片段分配给所述至少一个说话者;
基于至少一个已知说话者简档,通过将辨识所述至少一个说话者的信息插入到所述通信文字记录中来生成最终通信文字记录;以及
向用户呈现所述最终通信文字记录的副本。
2.根据权利要求1所述的方法,其中,所述创建录音的步骤涉及创建所述口头通信的连续音频录音。
3.根据权利要求2所述的方法,其中,所述连续音频录音被存储用于以下一项或更多项:
分析步骤或处理步骤;以及
传输给所述口头通信的用户和/或一方。
4.根据权利要求1所述的方法,其中,所述口头通信涉及多方通信,并且所述通过解析过程处理所述录音的步骤包括以下步骤:
将所述音频流分割成一个或更多个个体化说话者片段;以及
基于共同的说话者元素对所述一个或更多个个体化说话者片段进行分组。
5.根据权利要求4所述的方法,其中,所述将所述音频流分割的步骤还包括辨识所述音频流中的说话者变化点的步骤。
6.根据权利要求5所述的方法,其中,所述辨识说话者变化点的步骤包括以下一项或更多项:
辨识所述音频流中参与所述多方通信的说话者之间的间隙;以及
参考所述至少一个已知说话者简档来辨识所述音频流中与匹配所述至少一个已知说话者简档的说话者对应的一个或更多个部分。
7.根据权利要求1所述的方法,其中在所述通过转录过程处理所述录音的步骤中包括通过自动语音识别生成所述文本片段的又一步骤。
8.根据权利要求1所述的方法,其中所述分配所述通信文字记录的一个或更多个片段的步骤包括以下步骤:
基于音频和/或文本提示将所述说话者记录与所述通信文字记录对齐;以及
基于所述至少一个已知说话者简档,将辨识所述至少一个说话者的信息分配给所述一个或更多个文本片段中的每一个文本片段。
9.根据权利要求1所述的方法,其中所述辨识所述至少一个说话者的信息可以包括以下一项或更多项:
单个说话者的名字和/或姓氏;
单个说话者的职业;
公司信息;
单个说话者的联系信息;
位置信息;
日期和/或时间戳信息;以及
未知说话者标志,在未知说话者标志中,所述单个说话者的身份在所述至少一个已知说话者简档中是未知的。
10.根据权利要求1所述的方法,其中所述通过解析过程处理所述录音的步骤和所述通过转录过程处理所述录音的步骤基本上同时发生。
11.一种在安装在移动通信设备上时使所述移动通信设备执行如权利要求1所述方法的软件。
12.一种应用程序编程接口,当作为用户应用程序的一部分安装在计算机或移动通信设备上时,所述应用程序编程接口使计算机或移动通信设备执行如权利要求1所述的方法。
13.一种生成和传输口头通信的文字记录的计算机实现系统,所述系统包括:
录音设备,用于给参与所述口头通信的至少一个说话者录音;以及
处理系统,被配置为执行权利要求1所述的方法,其中所述处理系统是服务器处理系统。
14.一种生成和传输口头通信的文字记录的计算机实现系统,所述系统包括:
可通过通信网络访问的计算机服务器,所述计算机服务器布置为通过所述通信网络接收关于所述口头通信的信息;
处理器,通信地耦接到所述计算机服务器,用于显示信息的一个或更多个显示设备,以及用于接收来自用户的输入的一个或更多个输入设备,所述处理器被配置为:
通过录音设备创建参与所述口头通信的至少一个说话者的录音;
通过解析过程处理所述录音,在所述解析过程中,分析音频流以产生说话者记录,所述说话者记录自动辨识所述音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理所述录音,在所述转录过程中,所述录音被转录成一个或更多个文本片段,以创建代表所述口头通信的通信文字记录;
基于所述说话者记录,将所述通信文字记录的一个或更多个片段分配给所述至少一个说话者;
基于所述至少一个已知说话者简档,通过将辨识所述至少一个说话者的信息插入到所述通信文字记录中来生成最终通信文字记录;以及
通过所述通信网络向用户呈现所述最终通信文字记录的副本。
15.根据权利要求14所述的计算机实现系统,其中在所述创建多个说话者的录音的步骤中,所述处理器还被配置为创建所述口头通信的连续音频录音。
16.根据权利要求15所述的计算机实现系统,其中所述连续音频录音被存储用于以下一项或更多项:
由所述处理器执行的分析步骤或处理步骤;以及
通过所述通信网络传输给所述口头通信的用户和/或一方。
17.根据权利要求14所述的计算机实现系统,其中所述口头通信涉及多方通信以及所述通过解析过程处理所述录音的步骤,所述处理器还被配置为:
将所述音频流分割成一个或更多个个体化说话者片段;以及
基于共同的说话者元素对所述一个或更多个个体化说话者片段进行分组。
18.根据权利要求17所述的计算机实现系统,其中所述处理器还被配置为辨识所述音频流中的说话者变化点。
19.根据权利要求18所述的计算机实现系统,其中辨识说话者变化点包括以下一项或更多项:
辨识所述音频流中参与所述多方通信的说话者之间的间隙;以及
参考所述至少一个已知说话者简档以辨识所述音频流中与匹配所述至少一个已知说话者简档的说话者对应的所述一个或更多个部分。
20.根据权利要求14所述的计算机实现系统,其中在通过转录过程处理所述录音的步骤中,所述处理器还被配置为通过自动语音识别来生成所述文本片段。
21.根据权利要求14所述的计算机实现系统,其中分配所述通信文字记录的一个或更多个片段的步骤包括以下步骤:
基于音频和/或文本提示将所述说话者记录与所述通信文字记录对齐;以及
基于所述至少一个已知说话者简档,将单个说话者的身份自动分配给一个或更多个文本片段中的每一个文本片段。
22.根据权利要求14所述的计算机实现系统,其中辨识所述至少一个说话者的信息可以包括以下一项或更多项:
单个说话者的名字和/或姓氏;
单个说话者的职业;
公司信息;
位置信息;
单个说话者的联系信息;
日期和时间戳信息;以及
未知说话者标志,在未知说话者标志中,所述单个说话者的身份在所述至少一个已知说话者简档中是未知的。
23.根据权利要求14所述的计算机实现系统,其中在向用户呈现所述最终通信文字记录的副本的步骤之前,所述处理器还被配置为:
加密所述最终通信文字记录和/或所述连续音频录音;以及
通过所述通信网络将加密的最终通信文字记录和/或加密的连续音频录音传输给所述口头通信的用户和/或一方。
24.一种由安装在移动通信设备上的移动应用程序执行的、以促进生成和传输口头通信的文字记录的计算机实现方法,所述方法包括:
通过录音设备创建参与所述口头通信的至少一个说话者的录音;
通过解析过程处理所述录音,在所述解析过程中,分析音频流以产生说话者记录,所述说话者记录自动辨识所述音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理所述录音,在转录过程中,所述录音被转录成一个或更多个文本片段,以创建代表所述口头通信的通信文字记录;
基于所述说话者记录,将所述通信文字记录的一个或更多个片段分配给所述至少一个说话者;
基于所述至少一个已知说话者简档,通过将辨识所述至少一个说话者的信息插入到所述通信文字记录中来生成最终通信文字记录;以及
通过所述通信网络向用户呈现所述最终通信文字记录的副本。
25.根据权利要求24所述的计算机实现方法,其中所述通信设备包括显示设备,以便于通过所述移动应用程序呈现所述最终通信文字记录的副本。
26.一种在安装在移动通信设备上时使所述移动通信设备执行权利要求24所述方法的软件。
27.一种应用程序编程接口,当作为用户应用程序的一部分安装在移动通信设备上时,所述应用程序编程接口使所述移动通信设备执行权利要求24所述的方法。
28.一种移动通信设备,包括:
录音设备,优选地位于由用户操作的所述移动通信设备内;
程序存储器,用于存储安装在所述移动通信设备上的用户应用程序;
数据端口,便于通过通信网络与应用服务器通信;以及
处理器,用于:
经由所述录音设备创建参与所述口头通信的至少一个说话者的录音;
通过解析过程处理所述记录,在解析过程中,分析音频流以产生说话者记录,所述说话者记录辨识所述音频流中对应于至少一个已知说话者简档的一个或更多个部分;
通过转录过程处理所述录音,在转录过程中,所述录音被转录成一个或更多个文本片段,以创建代表所述口头通信的通信文字记录;
基于所述说话者记录,将所述通信文字记录的一个或更多个片段分配给所述至少一个说话者;
基于所述至少一个已知说话者简档,通过将辨识所述至少一个说话者的信息插入到所述通信文字记录中来生成最终通信文字记录;和
通过所述通信网络向用户呈现所述最终通信文字记录的副本。
29.根据权利要求28所述的移动通信设备,还包括显示设备和输入设备,以便于所述用户与所述用户应用程序的交互。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2019902964A AU2019902964A0 (en) | 2019-08-15 | Method and system of generating and transmitting a transcript of verbal communication | |
AU2019902964 | 2019-08-15 | ||
PCT/AU2020/050854 WO2021026617A1 (en) | 2019-08-15 | 2020-08-14 | Method and system of generating and transmitting a transcript of verbal communication |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114514577A true CN114514577A (zh) | 2022-05-17 |
Family
ID=74570394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080066816.8A Pending CN114514577A (zh) | 2019-08-15 | 2020-08-14 | 生成和传输口头通信的文字记录的方法和系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220343914A1 (zh) |
EP (1) | EP4014231A4 (zh) |
CN (1) | CN114514577A (zh) |
AU (1) | AU2020328468A1 (zh) |
CA (1) | CA3147813A1 (zh) |
WO (1) | WO2021026617A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3951775A4 (en) * | 2020-06-16 | 2022-08-10 | Minds Lab Inc. | PROCEDURE FOR GENERATION OF SPEAKER MARKED TEXT |
US20220148583A1 (en) * | 2020-11-12 | 2022-05-12 | International Business Machines Corporation | Intelligent media transcription |
US11922943B1 (en) * | 2021-01-26 | 2024-03-05 | Wells Fargo Bank, N.A. | KPI-threshold selection for audio-transcription models |
US20230267933A1 (en) * | 2021-09-27 | 2023-08-24 | International Business Machines Corporation | Selective inclusion of speech content in documents |
US20230419979A1 (en) * | 2022-06-28 | 2023-12-28 | Samsung Electronics Co., Ltd. | Online speaker diarization using local and global clustering |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352995A (ja) * | 1999-06-14 | 2000-12-19 | Canon Inc | 会議音声処理方法および記録装置、情報記憶媒体 |
US9368116B2 (en) * | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US20150106091A1 (en) | 2013-10-14 | 2015-04-16 | Spence Wetjen | Conference transcription system and method |
KR102097710B1 (ko) * | 2014-11-20 | 2020-05-27 | 에스케이텔레콤 주식회사 | 대화 분리 장치 및 이에서의 대화 분리 방법 |
KR20160108874A (ko) * | 2015-03-09 | 2016-09-21 | 주식회사셀바스에이아이 | 대화록 자동 생성 방법 및 장치 |
US20170287482A1 (en) * | 2016-04-05 | 2017-10-05 | SpeakWrite, LLC | Identifying speakers in transcription of multiple party conversations |
US10431225B2 (en) * | 2017-03-31 | 2019-10-01 | International Business Machines Corporation | Speaker identification assisted by categorical cues |
KR101970753B1 (ko) * | 2019-02-19 | 2019-04-22 | 주식회사 소리자바 | 음성인식을 이용한 회의록 작성 시스템 |
-
2020
- 2020-08-14 CA CA3147813A patent/CA3147813A1/en active Pending
- 2020-08-14 AU AU2020328468A patent/AU2020328468A1/en active Pending
- 2020-08-14 EP EP20851577.5A patent/EP4014231A4/en active Pending
- 2020-08-14 WO PCT/AU2020/050854 patent/WO2021026617A1/en unknown
- 2020-08-14 CN CN202080066816.8A patent/CN114514577A/zh active Pending
- 2020-08-14 US US17/634,872 patent/US20220343914A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4014231A1 (en) | 2022-06-22 |
AU2020328468A1 (en) | 2022-03-31 |
CA3147813A1 (en) | 2021-02-18 |
WO2021026617A1 (en) | 2021-02-18 |
US20220343914A1 (en) | 2022-10-27 |
EP4014231A4 (en) | 2023-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10678501B2 (en) | Context based identification of non-relevant verbal communications | |
US20220343914A1 (en) | Method and system of generating and transmitting a transcript of verbal communication | |
US11114091B2 (en) | Method and system for processing audio communications over a network | |
US11483273B2 (en) | Chat-based interaction with an in-meeting virtual assistant | |
US11431517B1 (en) | Systems and methods for team cooperation with real-time recording and transcription of conversations and/or speeches | |
JP4466666B2 (ja) | 議事録作成方法、その装置及びそのプログラム | |
EP3258392A1 (en) | Systems and methods for building contextual highlights for conferencing systems | |
US20070100626A1 (en) | System and method for improving speaking ability | |
US20140244252A1 (en) | Method for preparing a transcript of a conversion | |
US20120321062A1 (en) | Telephonic Conference Access System | |
CN110493019B (zh) | 会议纪要的自动生成方法、装置、设备及存储介质 | |
US9444934B2 (en) | Speech to text training method and system | |
US10613825B2 (en) | Providing electronic text recommendations to a user based on what is discussed during a meeting | |
US20200258525A1 (en) | Systems and methods for an intelligent virtual assistant for meetings | |
US20160189103A1 (en) | Apparatus and method for automatically creating and recording minutes of meeting | |
US20180293996A1 (en) | Electronic Communication Platform | |
US11671467B2 (en) | Automated session participation on behalf of absent participants | |
JP2014206896A (ja) | 情報処理装置、及び、プログラム | |
US11783836B2 (en) | Personal electronic captioning based on a participant user's difficulty in understanding a speaker | |
US9277051B2 (en) | Service server apparatus, service providing method, and service providing program | |
US20230036771A1 (en) | Systems and methods for providing digital assistance relating to communication session information | |
KR20170044409A (ko) | 다자간 대화 시스템 및 방법 | |
Girón Bastidas et al. | Natural Language Processing Services in Assistive Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |