CN110517689A - 一种语音数据处理方法、装置及存储介质 - Google Patents

一种语音数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110517689A
CN110517689A CN201910804875.XA CN201910804875A CN110517689A CN 110517689 A CN110517689 A CN 110517689A CN 201910804875 A CN201910804875 A CN 201910804875A CN 110517689 A CN110517689 A CN 110517689A
Authority
CN
China
Prior art keywords
data
text
target
voice
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910804875.XA
Other languages
English (en)
Other versions
CN110517689B (zh
Inventor
陈春勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910804875.XA priority Critical patent/CN110517689B/zh
Publication of CN110517689A publication Critical patent/CN110517689A/zh
Application granted granted Critical
Publication of CN110517689B publication Critical patent/CN110517689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开一种语音数据处理方法、装置及存储介质,其中,方法包括:获取与目标语音数据相关联的目标文本数据;基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。采用本申请,可以快速且准确的生成文字纲要,以提高文字纲要的生成效率。

Description

一种语音数据处理方法、装置及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种语音数据处理方法、装置及存储介质。
背景技术
随着语音识别(ASR)技术,语音合成(TTS)技术的不断发展,衍生出了各式各样的语音转换设备。即现有的语音转换设备可以在拿到一段语音数据之后,直接将该语音数据进行语义转换,得到转换后的目标文字结果,以便于后续可以通过人工记录和梳理的方式得到文字纲要。
例如,在视频直播场景下,观众用户可以在观看视频直播的过程中,手动记录和整理整个直播过程中的核心知识点,即需要人工整理得到本场直播的文字纲要。又比如,在会议场景下,参会人员均需要通过各自携带的语音转换设备对会议过程中的语音数据进行录制,并将获得的语音数据转换为目标文字结果,进而可以在会议结束过程中,通过人工添加批注的方式得到本场会议的文字纲要。由此可见,在会议或者直播时间比较长(例如,2小时)的情况下,必然需要消耗较多的人工梳理时长,从而降低了得到文字纲要的效率。
发明内容
本申请实施例提供一种语音数据处理方法、装置及存储介质,可以快速且准确的生成文字纲要,以提高文字纲要的生成效率。
本申请实施例一方面提供了一种语音数据处理方法,所述方法包括:
获取与目标语音数据相关联的目标文本数据;
基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
其中,所述获取与目标语音数据相关联的目标文本数据,包括:
获取业务数据流中的待处理语音数据;
确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;
在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;
对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
其中,所述获取业务数据流中的待处理语音数据,包括:
获取业务数据流中的业务语音数据;
将所述业务语音数据中的静音数据和噪音数据确定为所述业务语音数据中的干扰数据;
过滤所述业务语音数据中的干扰数据,并将过滤后的业务语音数据确定为待处理语音数据。
其中,对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据,包括:
获取文本数据库相关联的语言模型,通过所述语言模型对所述目标语音数据进行语义转换;
将语义转换后的文本数据确定为第一待处理文本数据;
对所述第一待处理文本数据中的过滤词汇进行过滤,并将过滤后的第一待处理文本数据确定为目标文本数据。
其中,所述根据所述辅助文本,将所述目标文本数据确定为纲要文本数据,包括:
从所述目标文本数据中获取与所述标题文本相匹配的正文文本,确定所述正文文本与所述辅助文本之间的匹配度;
若所述匹配度小于校准阈值,则在所述目标文本数据中将所述正文文本修正为所述辅助文本;
将修正后的目标文本数据确定为纲要文本数据。
其中,所述将修正后的目标文本数据确定为纲要文本数据,包括:
将修正后的目标文本数据作为第二待处理文本数据;
对所述第二待处理文本数据中的过滤词汇进行过滤,得到过滤后的第二待处理文本数据;
基于所述过滤后的第二待处理文本数据中的标题文本和正文文本,对所述第二待处理文本数据进行分段排版,得到纲要文本数据。
其中,所述业务数据流所属的业务事件包含网络直播事件;所述网络直播事件对应的直播会话界面中包含所述目标对象;
所述方法还包括:
在监测到针对所述网络直播事件的业务启动指令时,从所述业务数据流中获取所述目标对象的样本语音数据;所述样本语音数据为样本采集时长内的语音数据;
对所述样本语音数据进行分帧处理,得到所述样本语音数据相关联的样本数据帧;
将所述样本数据帧中的语音特征向量作为参考语音特征,并基于所述参考语音特征对初始声学模型进行训练,将训练后的初始声学模型确定为目标声学模型。
其中,所述方法还包括:
在监测到针对所述网络直播事件的业务完成指令时,提供用于查阅所述纲要文本数据的文本接入接口;
将所述文本接入接口输出至与所述网络直播事件相关联的直播显示界面中。
本申请实施例一方面提供了一种语音数据处理装置,所述语音数据处理装置包括:
目标文本获取模块,用于获取与目标语音数据相关联的目标文本数据;
标题确定模块,用于基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
辅助文本获取模块,用于获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
纲要文本确定模块,用于根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
其中,所述目标文本获取模块包括:
语音获取单元,用于获取业务数据流中的待处理语音数据;
相似度确定单元,用于确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;
语音确定单元,用于在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;
语音转换单元,用于对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
其中,所述语音获取单元包括:
语音获取子单元,用于获取业务数据流中的业务语音数据;
干扰确定子单元,用于将所述业务语音数据中的静音数据和噪音数据确定为所述业务语音数据中的干扰数据;
干扰过滤子单元,用于过滤所述业务语音数据中的干扰数据,并将过滤后的业务语音数据确定为待处理语音数据。
其中,所述语音转换单元包括:
模型获取子单元,用于获取文本数据库相关联的语言模型,通过所述语言模型对所述目标语音数据进行语义转换;
第一确定子单元,用于将语义转换后的文本数据确定为第一待处理文本数据;
第一过滤子单元,用于对所述第一待处理文本数据中的过滤词汇进行过滤,并将过滤后的第一待处理文本数据确定为目标文本数据。
其中,标题确定模块包括:
分段词获取单元,用于获取所述目标文本数据中的分段关键词;
标题确定单元,用于在所述目标文本数据中查找与所述分段关键词相邻的文本数据,根据所述相邻的文本数据确定所述目标文本数据中的标题文本。
其中,所述辅助文本获取模块包括:
主题词获取单元,用于获取所述目标文本数据中的主题关键词,基于所述主题关键词确定所述目标语音数据所属的业务场景类型;
主题确定单元,用于基于所述业务场景类型,确定所述目标文本数据的主题信息,获取与所述目标文本数据具有相同主题信息的互联网数据信息;一个互联网数据信息对应一个置信度信息;
辅助数据确定单元,用于在所述互联网数据信息中将具有最大置信度信息的互联网数据信息确定为业务辅助数据;
辅助文本确定单元,用于在所述业务辅助数据中查找与所述标题文本相关联的关联文本数据,并将查找到的关联文本数据确定为辅助文本。
其中,所述主题词获取单元,包括:
录入数据获取子单元,用于获取所述目标语音数据相关联的录入数据;
主题词获取子单元,用于在所述目标文本数据中查找与所述录入数据相匹配的文本数据,将查找到的与所述录入数据相匹配的文本数据,作为所述目标文本数据中的主题关键词;
场景确定子单元,用于基于所述主题关键词确定所述目标语音数据所属的业务场景类型。
其中,所述纲要文本确定模块包括:
匹配度确定单元,用于从所述目标文本数据中获取与所述标题文本相匹配的正文文本,确定所述正文文本与所述辅助文本之间的匹配度;
文本修正单元,用于若所述匹配度小于校准阈值,则在所述目标文本数据中将所述正文文本修正为所述辅助文本;
纲要确定单元,用于将修正后的目标文本数据确定为纲要文本数据。
其中,所述纲要确定单元,包括:
第二确定子单元,用于将修正后的目标文本数据作为第二待处理文本数据;
第二过滤子单元,用于对所述第二待处理文本数据中的过滤词汇进行过滤,得到过滤后的第二待处理文本数据;
排版子单元,用于基于所述过滤后的第二待处理文本数据中的标题文本和正文文本,对所述第二待处理文本数据进行分段排版,得到纲要文本数据。
其中,所述业务数据流所属的业务事件包含网络直播事件;所述网络直播事件对应的直播会话界面中包含所述目标对象;
所述装置还包括:
样本获取模块,用于在监测到针对所述网络直播事件的业务启动指令时,从所述业务数据流中获取所述目标对象的样本语音数据;所述样本语音数据为样本采集时长内的语音数据;
分帧模块,用于对所述样本语音数据进行分帧处理,得到所述样本语音数据相关联的样本数据帧;
训练模块,用于将所述样本数据帧中的语音特征向量作为参考语音特征,并基于所述参考语音特征对初始声学模型进行训练,将训练后的初始声学模型确定为目标声学模型。
其中,所述装置还包括:
接口提供模块,用于在监测到针对所述网络直播事件的业务完成指令时,提供用于查阅所述纲要文本数据的文本接入接口;
接口输出模块,用于将所述文本接入接口输出至与所述网络直播事件相关联的直播显示界面中。
本申请实施例一方面提供了一种语音数据处理装置,包括:处理器、存储器以及网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供网络通讯功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行以下操作:
获取与目标语音数据相关联的目标文本数据;
基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
本申请实施例一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述处理器执行所述程序指令时执行如本申请实施例一方面中的方法。
本申请实施例在获取到目标语音数据相关联的目标文本数据时,可以提取该目标文本数据中的分段关键词(例如,第一点、第二点、第三点等用于进行分段的关键词),以确定出该目标文本数据的标题文本和与该标题文本相匹配的正文文本;与此同时,本申请实施例还可以在确定出该目标文本数据的主题信息,进一步将与该目标文本数据具有相同主题信息的互联网数据信息统称为业务辅助数据,进而可以在业务辅助数据中快速定位到与前述标题文本相关联的辅助文本。可以理解的是,本申请实施例可以进一步在目标文本数据中用辅助文本修正上述正文文本,从而可以快速且准确地得到该目标文本数据的纲要文本数据(即文字纲要),以提高生成文字纲要的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种数据交互的示意图;
图3是本申请实施例提供的一种语音数据处理方法的流程示意图;
图4是本申请实施例提供的一种网络直播场景下的数据交互的场景示意图;
图5是本申请实施例提供的一种语音识别系统的场景示意图;
图6是本申请实施例提供的一种对待处理语音数据进行分帧的示意图;
图7是本申请实施例提供的一种对文本数据中的过滤词汇进行过滤的示意图;
图8是本申请实施例提供的一种获取纲要文本数据的示意图;
图9是本申请实施例提供的一种在文本接入接口的示意图;
图10是本申请实施例提供的另一种语音数据处理方法的流程示意图;
图11是本申请实施例提供的一种在网络直播场景(即视频直播场景)下的系统流程图;
图12是本申请实施例提供的一种语音数据处理装置的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
请参见图1,是本申请实施例提供的一种网络架构的结构示意图。如图1所示,所述网络架构可以包括业务服务器1000、第一终端集群、第二终端集群。在该网络架构所对应的业务数据系统中,第一终端集群和第二终端集群可以统称为与业务服务器1000具有关联关系的用户终端集群。其中,该网络架构所对应的业务数据系统可以包含网络直播系统、网络社交系统等具备音视频处理功能的语音识别系统。可以理解的是,本申请实施例所描述的语音识别系统可以具体应用于网络直播场景、语音录制场景。
其中,网络直播场景和语义录制场景中均可以具体包含以下用于进行知识分享的业务场景类型,比如,会议办公类、情感写作类、教育培训类、新闻媒体类、购物分享类等能够进行知识分享的分类场景。
其中,可以理解的是,所述第一终端集群可以包括多个用户终端,如图1所示,具体可以包括用户终端3000a、...、用户终端3000b。如图1所示,用户终端3000a、...、用户终端3000b可以分别与所述业务服务器1000进行网络连接,以便于该第一终端集群中的每个第一终端均可以通过该网络连接与业务服务器1000之间进行数据交互,比如,每个第一终端均可以将实时采集到的语音数据上传给图1所示的业务服务器1000,从而可以在该业务服务器1000中对采集到的语音数据进行语音处理,以快速得到这些语音数据相关联的目标文本数据。换言之,业务服务器可以在获取到第一终端所推送的业务数据流时,直接通过语音识别系统智能将业务数据流中的目标语音数据转换为目标文本数据。
其中,所述第二终端集群可以包括多个用户终端,如图1所示,具体可以包括用户终端2000a、...、用户终端2000n。如图1所示,用户终端2000a、...、用户终端2000n可以分别与所述业务服务器1000进行网络连接,以便于该第二终端集群中的每个用户终端均可以通过该网络连接与业务服务器1000之间进行数据交互。比如,在能够进行知识分享的网络直播场景下,第二终端集群中的每个用户终端均可以从业务服务器1000拉取处于同一虚拟直播间中的第一终端集群中的用户终端所上传的业务数据流。
其中,在本申请实施例所描述的业务数据系统内,为了对这两个用户终端集群中的用户终端进行区别,可以将第一终端集群中的任意一个用户终端统称为第一终端,并可以将第二终端集群中的任意一个用户终端统称为第二终端。为便于理解,本申请实施例以业务数据流所属的业务事件为网络直播事件为例,该网络直播事件可以理解为网络直播场景下用于进行知识分享的直播事件。
所以,在网络直播场景下,该网络直播系统中的业务服务器1000可以以房间(即虚拟直播间)为单位,对处于同一虚拟房间(即虚拟直播间)中的第一终端和第二终端之间的会话数据进行管理。例如,处于网络直播系统下的第一终端(例如,上述图1所示的用户终端3000a)可以在创建好用于进行网络直播的虚拟直播间(例如,房间A)之后,可以开始进行视频直播,此时,该第一终端可以通过业务服务器1000所分配的推流地址,向业务服务器1000上传实时采集到的音视频数据;在该网络直播场景下,业务服务器1000可以进一步将该第一终端上传的音视频数据分发给处于同一虚拟直播间(即处于房间A)中的第二终端,以使第二终端可以在该虚拟直播间的直播会话界面中输出该音视频数据。
可以理解的是,在网络直播场景下使用第一终端进行视频直播的用户可以称之为主播用户(简称为主播),且在该网络直播场景下使用第二终端观看该视频直播的用户可以称之为观众用户(简称为观众)。本申请实施例可以将该虚拟直播间中用于显示主播用户的视频数据的显示界面统称为直播会话界面。
其中,可以理解的是,本申请实施例可以将第一终端称之为该网络直播系统中的主播终端,该主播终端可以为智能手机、平板电脑、桌上型电脑等携带音视频数据采集功能的智能终端。同理,本申请实施例可以将第二终端称之为该网络直播系统中的观众终端,该观众终端也可以为智能手机、平板电脑、桌上型电脑等携带音视频数据播放功能的智能终端。
为便于理解,进一步的,请参见图2,是本申请实施例提供的一种数据交互的示意图。如图2所示的第一终端可以为上述图1所对应实施例中的用户终端3000a。此时,使用该用户终端3000a的用户可以称之为使用该第一终端进行视频直播的主播用户(简称为主播),在虚拟直播间中的主播是指能够负责参与一系列直播节目的策划、编辑、录制、制作、与观众互动等工作的人。该虚拟直播间中还可以包含一个或者多个观看该直播节目的用户,本申请实施例可以将这些观看该直播节目的用户统称为观众用户(简称为观众)。此时,观众用户所使用的用户终端可以统称为第二终端,比如,如图2所示的第二终端可以为上述图1所对应实施例中的用户终端2000n。
可以理解的是,如图2所示,主播用户可以在图2所示的界面100a中触发“开始直播”功能按钮,此时,第一终端可以生成针对网络直播事件的业务启动指令,从而可以基于业务启动指令向业务服务器1000请求创建虚拟直播间(例如,虚拟直播间A)。然后,如图2所示的第一终端可以在该虚拟直播间A中将实时采集到的音视频数据,通过图2所示的业务服务器输出至加入该虚拟直播间A的任意一个观众终端。换言之,在该虚拟直播间中的观众用户可以通过图2所示的第二终端观看由第一终端所采集并上传的业务数据流(比如,携带音视频数据的直播数据流等)。
如图2所示,在主播的整个直播过程中,业务服务器可以用于进行智能语音识别,即可以通过图2所示的业务数据库中的声学模型10和字典20对该虚拟直播间中正在讲话的主播是否为目标对象进行对象识别,并可以在识别到在该虚拟直播间A中正在讲话的主播为目标对象时,记录该目标对象的语音数据,并可以将记录到的该目标对象的语音数据统称为目标语音数据,从而可以进一步对通过图2所示的业务数据库中的语言模型30以及字典20对该目标语音数据进行语音识别,以得到与该目标语音数据相关联的目标文本数据。
由此可见,本申请实施例所描述的网络直播系统可以在主播用户进行视频直播的过程中,自动识别并记录目标对象的目标语音数据(即可以实时记录整个视频直播过程中的主播所说的话),并可以实时将该主播所说的话转换成相应的文字,以得到与该目标语音数据相关联的目标文本数据。
可以理解的是,本申请实施例中的业务服务器可以对该目标文本数据进行智能分析,以快速定位并确定出该目标文本数据中的分段关键词(例如,第一点、第二点等用于进行分段的序列化词汇)。进一步的,业务服务器可以在该目标文本数据中查找到与该分段关键词相邻的字符串作为标题文本。应当理解,本申请实施例还可以将与标题文本相匹的文本数据称之为正文文本,比如,可以将两个标题文本(例如,标题文本1和标题文本2)之间的字符串统称为与前一标题文本(即标题文本1)相匹配的正文文本。
进一步地,图2所示的业务服务器可以通过AI技术智能过滤该目标文本数据中的口语化词汇(例如,啊、呀、嗯、额、哈等非书面词汇)和重复化词汇(例如,在同一段落中统计到出现频次大于1的词汇)。应当理解,本申请实施例可以通过AI技术智能提取出需要过滤的过滤词汇,并可以对提取出的这些过滤进行初步筛选,以减少参与进行匹配校准的目标文本数据中的字符串的量,从而可以确保后续用于进行智能匹配校准的目标文本数据中的正文文本的有效性。
可以理解的是,本申请实施例通过联动大数据的方式可以智能匹配到同类项,即本申请实施例可以进一步查找到与该目标文本数据具有相同主题信息的互联网数据信息,从而可以在这些查找到的互联网数据信息中将综合评分比较高的互联网数据信息统称为业务辅助数据,并可以在业务辅助数据中获取与标题文本相关联的辅助文本,从而可以通过辅助文本对该前述确定出的正文文本进行匹配校准,以确保最终生成的纲要文本数据的准确性。应当理解,本申请实施例可以通过辅助文本智能对目标文本数据中的正文文本中的字符串进行匹配和校准,进而可以在直播结束时,快速生成一份精简的携带主题信息的文字纲要。本申请实施例可以将最后生成的文字纲要统称为纲要文本数据。应当理解,通过AI技术和联动大数据等智能处理技术,可以有效地提高所生成的文字纲要的准确性。由此可见,本申请实施例由于无需人工记录和梳理本场直播的核心知识点,进而可以提高最终生成文字纲要的效率。
进一步地,如图2所示,业务服务器还可以在得到精简后的纲要文本数据之后,为观看该本场直播的观众(即前述处于虚拟直播间A中的观众用户)提供一个能够访问纲要文本数据的文本接入接口,以确保在本场直播结束时,这些观看本场视频直播的观众可以快速在自己的第二终端中通过该文本接入接口访问该生成的纲要文本数据,从而可以在具备知识分享功能的网络直播场景下,减少观众观看视频回放的时间,从而可以有效地帮助观众回顾本场直播的知识点,以巩固记忆。
应当理解,本申请实施例中的目标音频数据可以为网络直播场景下的主播用户的音频数据,也可以为会议录音场景下的会议发言人的音频数据,还可以为课程录音场景下的讲师的音频数据,以及即时通讯场景下的会话参与者的音频数据,这里将不对目标音频数据的具体应用场景进行限制。
比如,在网络直播场景下,第一终端可以通过集成安装的目标应用(例如,网络直播应用)实时采集上述主播用户(即目标对象)的目标语音数据。
可选地,在其他应用场景下,比如,会议录音等场景下,集成安装有目标应用(例如,音频录制应用)的第一终端也可以实时录制会议发言人(即目标对象)的目标语音数据,从而可以在会议结束之后,快速获得本次会议的纲要文本数据,这样每个参与本次会议的用户均可以在会议结束之后,快速得到一份准确且精简的文字纲要,从而可以帮助用户有效地记录和整理本次会议的重要知识点,以巩固记忆。其中,可以理解的是,在该会议录音场景下的第一终端可以用于实时录制目标对象(即会议发言人)的目标语音数据,并可以通过与该第一终端具有网络连接关系的业务服务器进一步对获取到的目标语音数据进行语义转换(即可以将目标语音数据实时转换并整理为相应的目标文本数据),进而可以通过联动大数据对目标文本数据中的字符串进行相应的匹配校准,以生成该会议录音场景下的纲要文本数据。其中,本申请实施例在得到该会议录音场景下的纲要文本数据的具体实现方式,可以一并参见在上述网络直播场景下生成纲要文本数据的描述,这里将不再继续进行赘述。
又比如,在情感写作或者教育培训等语音录制或者视频直播场景下,与第一终端具有网络连接关系的业务服务器也可以用于实时将该情感写作或者教育培训过程中所采集到的目标对象的音频数据流实时转换为文字数据流,以进一步通过上述AI技术得到目标文本数据。换言之,集成有该目标应用的第一终端也可以通过相应的目标应用实时采集环境空间中的音频数据,并可以将采集到的音频数据给到该目标应用对应的后台服务器(即上述图2所示的业务服务器),以在业务服务器中进一步对该音频数据中的噪音进行降噪处理(比如,过滤环境空间中除讲师(即目标对象)以外的其它用户的干扰噪音等),以得到该目标对象对应的目标语音数据,与此同时,业务服务器还可以对该目标语音数据进行实时转写,以得到上述目标文本数据,并可以进一步通过联动大数据,对目标文本数据中的字符串进行匹配校准,以生成相应的纲要文本数据。可以理解的是,在该情感写作或者教育培训等语音录制或者视频直播场景下生成纲要文本数据的具体实现方式,可以一并参见在上述网络直播场景下生成纲要文本数据的描述,这里将不再继续进行赘述。
又比如,在即时通讯场景下,第一终端可以实时记录参与会话的双方(比如,客服人员A与用户B)之间的即时通讯信息,并将采集到的即时通讯信息(即业务数据流)上传给图2所示的业务服务器,以在业务服务器中识别出客服人员A的语音信息,从而可以将持续获取到的客服人员A的语音信息称之为目标语音数据,并可以将该目标语音数据转换为相应的文本信息(即目标文本数据),与此同时,该业务服务器也可以通过联动大数据,对该目标文本数据中的字符串进行修正,以将修正后的目标文本数据确定为纲要文本数据。可以理解的是,在该即时通讯场景下生成纲要文本数据的具体实现方式,可以一并参见在上述网络直播场景下生成纲要文本数据的描述,这里将不再继续进行赘述。
其中,业务服务器获取与目标语音数据相关联的目标文本数据、以及最终获取到纲要文本数据的具体过程,可以参见如下图3至图12所对应的实施例。
进一步地,请参见图3,是本申请实施例提供的一种语音数据处理方法的流程示意图。如图3所示,所述方法可以包含:
步骤S101,获取与目标语音数据相关联的目标文本数据;
具体地,语音数据处理装置可以获取业务数据流中的待处理语音数据;进一步地,语音数据处理装置可以确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;进一步地,语音数据处理装置可以在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;进一步地,语音数据处理装置可以对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
其中,本申请实施例中的语音数据处理装置可以具备以下至少一种业务数据处理功能:语音识别功能、语音转化功能、AI过滤功能以及匹配校准功能。
其中,具有上述业务数据处理功能的语音数据处理装置可以集成在业务服务器中,该业务服务器可以为上述图1所示的业务服务器1000,即集成有该语音数据处理装置的业务服务器可以在接收到第一终端所发送的业务数据流时,通过语音端点检测(VAD,VoiceActivity Detection)技术对该业务数据流中的业务语音数据进行预处理,以过滤掉该业务语音数据中的干扰数据(例如,可以从业务语音数据中切除首尾两端的静音数据、并可以一并去除业务语音数据中的噪音数据),从而可以降低干扰数据对后续语音识别所造成的干扰,即可以有效地确保语音识别的准确性。
其中,可以理解的是,本申请实施例可以利用VAD技术(音频端点检测技术,也可以称之为静音切除操作技术)对业务语音数据进行语音分析,以从连续的业务数据流(即语音数据流)中检测出有效的语音段,并可以将检测出的所有有效的语音段统称为待处理语音数据。
其中,应当理解,在第一终端所处的环境空间中可以存在一个或者多个对象的语音数据,即第一终端可以实时采集到一个或者多个对象的语音数据,从而可以通过上述语音识别功能从该一个或者多个对象的语音数据中识别出属于目标对象的语音数据,从而可以通过智能语音识别技术在待处理语音数据中将该目标对象的语音数据称之为目标语音数据。
其中,应当理解,本申请实施例所描述的目标音频数据可以为网络直播场景下的主播用户的音频数据,也可以为会议录音场景下的会议发言人的音频数据,还可以为课程录音场景下的讲师的音频数据,以及即时通讯场景下的会话参与者的音频数据,这里将不对产生目标语音数据的具体应用场景进行限制。为便于理解,本申请实施例以目标语音数据为网络直播场景下的主播用户的语音数据为例,以阐述如何通过上述业务数据系统中的业务服务器,对接收到的第一终端(即主播用户所使用的用户终端)所上传的业务数据流进行数据处理。
为便于理解,进一步地,请参见图4,是本申请实施例提供的一种网络直播场景下的数据交互的场景示意图。如图4所示,主播用户可以通过图4所示的第一用户信息登录目标应用,并可以在目标应用中创建用于进行知识分享的虚拟直播间,即主播用户在访问目标应用后,可以启动网络直播事件A,比如,可以触发上述图1所示的开始直播按钮,以在第一终端中生成针对网络直播事件A的业务启动指令,此时,第一终端可以通过终端中的硬件实时采集包含主播用户的图像数据以及语音数据,并可以将不断采集到的图像数据以及语音数据封装为业务数据流。其中,可以理解的是,图4所示的第一终端可以对采集到的图像数据以及语音数据进行预处理,以输出符合视频编码要求的视频数据,例如,YUV格式的视频数据或RGB格式的视频数据;进一步地,第一终端可以采用预设的编码方式和封装方式,对上述视频数据进行编码和封装处理,以在图4所示的界面300a中输出包含主播用户的视频数据,此时,该第一终端可以将输出至界面300a中的视频数据统称为业务数据流(也可以称之为直播视频流),并将该业务数据流上传至图4所示的业务服务器。本申请实施例中的业务数据流可以具体包含主播用户针对某一主题(例如,主题AA)所分享的知识点,此时,本申请实施例可以将该主播用户所录制的用于进行知识分享的视频直播统称为知识分享型直播。
可以理解的是,在知识分享型直播的整个过程中,图4所示的第一终端会不断的向集成有语音数据处理装置的业务服务器推送图4所示的业务数据流(比如,包含主播用户的音视频数据的直播视频流)。
其中,界面300a中的第一用户信息可以包含该主播用户注册目标应用(即网络直播应用)时所录入的注册用户信息(例如,应用账号信息A和应用头像信息),比如,主播用户的应用账号信息A可以为图4所示的AABBBB等。此外,在主播用户进行视频直播的整个过程中,可以不断统计加入该虚拟直播间10c的人数,并可以将实时统计到的人数作为本场视频直播过程中的人气值,以便于后续业务服务器可以基于该统计到的人气值向其他观众用户进行直播推荐。
应当理解,图4所示的第二终端在获取到业务数据流之后,可以根据业务数据流中的图像数据生成直播画面(即直播会话界面),以供观众用户观看。如图4所示,观众用户可以在主播用户进行视频直播的任意一个时刻进入虚拟直播间10c,从而可以在第二终端的直播会话界面中实时显示当前正在进行视频直播的视频数据。此外,观众用户还可以在该直播会话界面中对主播所分享的知识点进行点赞和发送弹幕等操作。
应当理解,观众用户可以通过图4所示的第二用户信息(例如,应用账户信息B)登录目标应用(即网络直播应用),此时,第一终端可以在图4所述的界面400a显示多个虚拟直播间,比如,可以在图4所示的界面400a中显示虚拟直播间10a、虚拟直播间10b,虚拟直播间10c和虚拟直播间10d。可以理解的是,在界面400a中所显示的多个虚拟直播间均可以为当前正在进行视频直播的虚拟直播间,这样,图4所示的观众用户可以在多个虚拟直播间中选择任意一个虚拟直播间执行触发操作(例如,点击操作),从而可以接入到相应主播用户所创建的虚拟直播间,以实时获取到相应主播用户所分享的业务数据流。如图4所示,当观众用户触发该界面400a中的虚拟直播间10c时,可以从图4所示的业务服务器上拉取由第一终端所推送的业务数据流。此时,观众用户可以在第二终端的直播会话界面中同步显示上述界面300a中的视频数据,以实时获取主播用户所分享的知识点。
应当理解,集成有该语音数据处理装置的业务服务器可以在监测到针对上述网络直播事件A的业务启动指令时,从接收到的业务数据流中获取目标对象的样本语音数据,从而可以基于获取到的样本语音数据对初始声学模型进行训练,以得到目标声学模型。业务服务器通过该目标声学模型可以快速从获取到的业务数据流中识别出属于目标对象的语音数据,并可以将识别到的目标对象的语音数据称之为目标语音数据。
其中,在网络直播场景下,本申请实施例可以将图4所示的界面300a中的主播用户称之为目标对象,从而可以基于业务启动指令在样本采集时长(例如,1s)内将第一终端所采集到的主播用户的语音数据称之为样本语音数据。
可以理解的是,业务服务器可以进一步用该样本语音数据对初始声学模型进行训练,以得到目标声学模型,该目标声学模型可以用于对该业务服务器所采集到的目标用户的目标语音数据进行识别,从而可以在识别到该目标语音数据的目标语音特征与目标声学模型中的参考语音特征匹配的情况下,进一步对该目标对象的目标语音数据进行语义转换,以根据语义转换后的文本数据确定出与该目标语音数据相关联的目标文本数据。
应当理解,在实际的网络直播场景中,直播视频流(即业务数据流)中的业务语音数据一般并非仅包括上述目标对象的目标语音数据;例如还可能包括背景音乐、环境声音等。
此外,在一些网络直播场景,如游戏分享类的网络直播场景中,还可以包括共同参与该游戏的其它用户的语音数据、游戏音效等音频数据。因此,本申请实施例可以将该目标对象的目标语音数据以及其他音频数据统称为业务数据流中的业务语音数据。应当理解,本申请实施例在对业务语音数据中的语音数据进行智能识别之前,还需要对业务语音数据进行预处理,以从业务语音数据中确定出有效的语音数据。可以理解的是,在本申请实施例中所确定出的有效的语音数据可以为一个或者多个对象的语音数据,并可以将确定出的一个或者多个对象的语音数据统称为待处理语音数据。
为便于理解,进一步地,请参见图5,是本申请实施例提供的一种语音识别系统的场景示意图。如图5所示,在网络直播场景下,该语音识别系统可以用于对主播用户的语音数据进行智能识别,并可以将智能识别到的主播用户的语音数据统称为目标对象的目标语音数据,从而可以进一步将该目标语音数据实时转化为目标文本数据。
其中,如图5所示,该语音识别系统可以包含图5所示的语音数据库20a,字典20b和文本数据库20c。其中,该语音数据库20c可以用于存储在预设的样本采集时长内所采集到的目标对象的样本语音数据,如图5所示,业务服务器还可以将与该目标对象的样本语音数据相关联的样本数据帧中的语音特征向量称之为参考语音特征,从而可以基于该提取到的参考语音特征对图5所示的初始声学模型进行训练,以得到该目标对象的目标声学模型。可以理解的是,该目标声学模型中的参考语音特征可以用于后续从待处理语音数据中所实时获取到的目标对象的目标语音数据进行智能识别。如图5所示的语音珠江口20a。字典20b以及文本数据库20c可以用于实时将目标语音数据转换为目标文本数据。由此可见,本申请实施例中的业务服务器可以在语音识别系统中将实时获取到的语音数据流转换成相应的文字数据流,以输出图5所示的目标文本数据。
其中,如图5所示,集成有上述语音数据处理装置的业务服务器在获取到业务数据流时,可以通过上述VAD技术对该业务数据流中的业务语音数据进行预处理,即本申请实施例可以在进行智能语音识别之前,首先对获取到的业务数据流中的业务语音数据进行语音分析,以在业务数据流中将背景音乐、环境噪音,首尾两端的静音数据等音频数据称之为干扰数据,从而可以对该业务语音数据中的干扰数据进行过滤,并可以进一步将过滤后的业务语音数据统称为图5所示的待处理语音数据。如图5所示的语音识别系统可以通过动态时间规整(DTW,DynamicTime Waplng)算法对视频直播过程中所实时得到的待处理语音数据中的语音数据进行智能识别,以从该处理语音数据中确定出目标对象的目标语音数据,进而可以对该识别出的目标语音数据进行语义转换,以得到上述目标文本数据。
比如,在用于进行知识分享的网络直播环境下,若虚拟直播间中仅有一个主播用户在进行知识分享,则业务服务器可以将预处理后的业务语音数据中的主播用户的语音数据称之为有效地的语音数据(也可以称之为待处理语音数据)。此时,业务服务器可以对该待处理语音数据进行分帧处理,以得到该主播用户的语音数据的数据帧。为便于理解,进一步地,请参见图6,是本申请实施例提供的一种对待处理语音数据进行分帧的示意图。如图6所示,业务服务器可以在通过上述VAD技术对业务语音数据进行预处理后,得到图6所示的待处理语音数据1,在网络直播场景下,该待处理语音数据1中可以包含主播用户的语音数据(即可以包含主播用户的声音信号),如图6所示,为了使得语音解码后的数据帧中的声学矢量特征能够贴合人耳的生理特性,本申请实施例可以从该主播用户的语音数据中提取得到梅尔倒谱频率特征(即MFCC特征),以得到该主播用户的语音数据的语音特征,即可以得到该目标用户的语音数据的声学特征矢量。
其中,应当理解,本申请实施例在对该主播用户的语音数据的语音特征进行智能识别之前,该业务服务器还可以用于对该待处理语音数据1中对的语音数据进行分帧处理,即业务服务器可以将该主播用户的声音信号切分为多个小段,每个小段均可以称之为一个数据帧,每个数据帧的帧长度可以为图6所示的25ms。如图6所示,为了确保拆分后的多个数据帧之间的关联性,本申请实施例可以允许拆分后的时间序列上相邻的任意两个数据帧之间存在15ms的交叠时长,即如图6所示,数据帧40a与数据帧40b之间可以存在15ms的交叠时长。此时,业务服务器可以从每个数据帧中获取声学特征矢量,例如,本申请实施例中的声学特征矢量可以包含能够贴合人耳的生理特性的MFCC特征,此时,该业务服务器可以将提取到的包含多个维度向量的MFCC特征统称为该主播用户的语音数据中语音特征。
进一步地,该业务服务器可以通过上述图5所示的语音数据库20a中的主播用户对应的目标声学模型和文本数据库20c相关联的语言模型以及字典20b等对当前实时采集到的待处理语音数据进行语音识别,以在待处理语音数据中将智能识别出的目标对象(例如,主播用户)的语音数据称之为目标语音数据,从而可以得到该目标语音数据相关联的目标文本数据。
可选地,若虚拟直播间中还包含与主播用户进行连麦的其它用户,则本申请实施例还可以将该主播用户和参与连麦的其它用户的语音数据一并称之为待处理语音数据,从而可以通过上述图5所示的语音识别系统对待处理语音数据中的每个语音数据的语音特征进行特征提取,以通过图5所示的目标声学模型对每个语音数据的语音特征进行智能匹配,以得到每个语音数据的语音特征与目标声学模型中的参考语音特征之间的匹配度,从而可以从这些匹配度中将具有最大匹配度的语音特征对应的语音数据,确定为目标对象的目标语音数据,并可以对目标语音数据进行语义转换,以根据语义转换后的文本数据确定出目标文本数据。
其中,业务服务器可以对该待处理语音数据中的多个语音数据中的每个语音数据分别进行分帧处理的具体实现方式,可以一并参见上述对图6所示的待处理语音数据1中的一个语音数据进行分帧处理的具体过程的描述,这里将不再继续进行赘述。
应当理解,在主播用户进行视频直播的过程中,上述语音识别系统可以自动识别并记录主播用户所说的话(即可以从待处理语音数据中自动识别出属于主播用户的目标语音数据),并可以自动将该主播用户的目标语音数据转换成目标文本数据。换言之,业务服务器在获取到目标用户的目标语音数据之后,可以对目标语音数据进行解压转码,从而可以将解压转码后的目标语音数据输入上述语音识别系统,以便于可以在语音识别系统中对目标语音数据进行语义转换,以将语义转换后的文本数据与训练好的语言模型中的文本数据进行匹配,从而可以在确定匹配时,输出上述目标文本数据。
其中,应当理解,业务服务器在将该主播用户的目标语音数据转换成目标文本数据的过程中,还可以执行以下步骤:将语义转换后的文本数据确定为第一待处理文本数据;对所述第一待处理文本数据中的过滤词汇进行过滤,并将过滤后的第一待处理文本数据确定为目标文本数据。
为便于理解,进一步地,请参见图7,是本申请实施例提供的一种对文本数据中的过滤词汇进行过滤的示意图。如图7所示的第一待处理文本数据可以为图7所示的业务服务器对目标语音数据进行语义转化后所得到的文本数据。换言之,如图7所示,本申请实施例还可以将语义转换后的文本数据称之为第一待处理文本数据,并可以通过AI技术智能提取出该第一待处理文本数据中的过滤词汇。例如,如图7所示,业务服务器可以通过AI技术在第一待处理文本数据中查找出所有的重复化词汇和口语化词汇。比如,在图7所示的第一待处理文本数据中的词汇1与词汇2为同一段落中的相同词汇,因此,本申请实施例可以将相继出现在同一段落中的其它词汇(例如,词汇2)称之为重复化词汇,如图7所示,业务服务器还可以通过AI技术确定出所有口语化的词汇(例如,图7所示的词汇3)。此时,该业务服务器可以将图7所示的词汇2和词汇3统称为第一待处理文本数据中的过滤词汇,并可以进一步在第一待处理文本数据中对过滤词汇进行过滤处理,以得到图7所示的目标文本数据。
步骤S102,基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
具体的,语音数据处理装置可以获取所述目标文本数据中的分段关键词;进一步地,语音数据处理装置可以在所述目标文本数据中查找与所述分段关键词相邻的文本数据,根据所述相邻的文本数据确定所述目标文本数据中的标题文本。
如上述图7所示,集成有语音数据处理装置的业务服务器可以在目标文本数据中获取所有的分段关键词,应当理解,在知识分享型的视频直播过程中,主播用户可以通过分段关键词对所需要分享的知识点进行分段处理,从而可以按照相应的罗列顺序对各知识点进行智能梳理。其中,本申请实施例中的分段关键词可以包含由数字序号所构成的分段序号(例如,1、2、3等数字序号所构成的字符)。可选地,分段关键词还可以包含与分段序号相似的其它字符串所构成的序号(例如,第一点、第二点、第三点灯字符串所构成的序号)。可选地,分段关键词还可以包含代表先后执行顺序的逻辑词所构成(例如,首先、其次、然后等)。应当理解,本申请实施例将不对用于进行知识点罗列的分段关键词的具体展现形式进行限制。所以,当业务服务器从目标文本数据中识别出分段关键词之后,可以将该与该分段关键词相邻的第一句话(即与分段关键词相邻的文本数据)统称为目标文本数据的标题文本。与此同时,该业务服务器还可以将与该标题文本相邻的且位于标题文本之后的文本数据称之为与标题文本相关联的正文文本。
步骤S103,获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
具体的,语音数据处理装置可以获取所述目标文本数据中的主题关键词,基于所述主题关键词确定所述目标语音数据所属的业务场景类型;进一步地,语音数据处理装置可以基于所述业务场景类型,确定所述目标文本数据的主题信息,获取与所述目标文本数据具有相同主题信息的互联网数据信息;一个互联网数据信息对应一个置信度信息;进一步地,语音数据处理装置可以在所述互联网数据信息中将具有最大置信度信息的互联网数据信息确定为业务辅助数据;进一步地,语音数据处理装置可以在所述业务辅助数据中查找与所述标题文本相关联的关联文本数据,并将查找到的关联文本数据确定为辅助文本。
其中,可以理解的是,在该网络直播场景下,集成有该语音数据处理装置的业务服务器可以获取主播用户在创建虚拟直播间(例如,上述虚拟直播间10c)所录入的直播主题信息以及与主题信息相关的简介信息等。本申请实施例可以将获取到的主播用户所录入的直播主题信息、与主题相关的简介信息等数据信息统称为录入数据,从而可以在上述目标文本数据中查找是否存在与录入数据相匹配的文本数据,如果存在,则可以将查找到与所述录入数据相匹配的文本数据,作为所述目标文本数据中的主题关键词,进而可以基于主题关键词确定目标语音数据所属的业务场景类型。
其中,本申请实施例中的业务场景类型可以包含会议办公类、情感写作类、教育培训类、新闻媒体类、购物分享类等分类场景。不同分类场景下的主题信息可以不同,且不同分类场景下所确定的纲要文本数据的排版方式也可以不相同,从而可以确保后续所得到的纲要文本数据的排版方式的多样性。
应当理解,本申请实施例可以通过确定出的业务场景类型,进一步确定目标文本数据的主题信息,例如,本场直播的主题信息可以为如何挑选一辆实用型轿车,即如何购车;所以业务服务器后续通过联动大数据所查找到的互联网数据信息的主题信息也就是如何购车。
其中,可以理解的是,本申请实施例为了确保后续生成纲要文本数据的准确性,可以通过联动大数据的方式从上述图2所示的业务数据库中搜索与该目标文本数据具有相同主题信息的互联网数据信息,比如,通过进行相同主题信息搜索可以搜索到具有相似主题的论文、文本、摘要、新闻稿等互联网数据信息。此时,为确保用于进行匹配校准的业务辅助数据的准确性和可靠性,本申请实施例可以对搜索到的多个互联网数据信息中的每个互联网数据信息的置信度信息进行计算,即可以将搜索到的互联网数据信息中的文本数据与目标文本数据中的文本数据进行文字匹配,以计算出两者之间的相似度,从而可以将两者之间的相似度统称为相应互联网数据信息所对应的置信度信息。即一个胡两位数据信息可以对应一个置信度信息。
其中,可以理解的是,业务服务器在搜索到的互联网数据信息中找到与该目标文本数据具有相同标题文本的文本数据时,可以进一步将相应的互联网数据信息的综合评分进行相应的加权处理,以综合得到互联网数据信息对应的置信度信息,从而可以从这些互联网数据信息中将具有最大置信度信息的互联网数据信息确定为业务辅助数据。
可以理解的是,若目标文本信息中存在多个标题文本,则可以从业务辅助数据中查找与每个标题文本相关联的管理文本数据,并可以将查找到的关联文本数据称之为辅助文本,以便于可以进一步执行步骤S104,以生成最终的纲要文本数据。
步骤S104,根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
具体的,语音数据处理装置可以从所述目标文本数据中获取与所述标题文本相匹配的正文文本,确定所述正文文本与所述辅助文本之间的匹配度;进一步地,语音数据处理装置可以在确定所述匹配度小于校准阈值时,在所述目标文本数据中将所述正文文本修正为所述辅助文本;并可以进一步将修正后的目标文本数据确定为纲要文本数据。换言之,该语音数据处理装置可以根据辅助文本,对目标文本数据中与标题文本相匹配的正文文本进行修正,以得到纲要文本数据。可选的,若所述语音数据处理装置确定所述匹配度大于或者等于所述校准阈值,则可以直接将所述目标文本数据确定为纲要文本数据。
为便于理解,进一步地,请参见图8,是本申请实施例提供的一种获取纲要文本数据的示意图。如图8所示的目标文本数据50a的主题信息可以为“如何挑选一辆实用型轿车?”。通过上述联动大数据的方式,可以得到图8所示的具有相同主题信息的业务辅助数据50b。
其中,可以理解的是,通过进行同类项匹配(比如,通过对两者中的相应标题文本进行匹配),可以确定图8所示的目标文本数据50a中的标题文本1与业务辅助数据50b中的标题文本相同,此时,业务服务器可以进一步在业务辅助数据50b中将标题文本1的辅助文本(例如,辅助文本1)与标题文本1的正文文本(例如,正文文本1)进行匹配校准,以计算得到两者之间的匹配度。可以理解的是,当两者的匹配度大于或者等于校准阈值时,则表明在目标文本数据50a中的与标题文本1相匹配的正文文本(即正文文本1)为书面化的词汇表述,即业务服务器无需对正文文本1中的字符串进行修正,从而可以选择在目标文本数据50a中继续保留与标题文本1相匹配的正文文本(即可以保留正文文本1)。
其中,如图8所示,通过进行同类项匹配,可以确定图8所示的目标文本数据50a中的标题文本2与业务辅助数据50b中的标题文本2为相同标题文本,此时,业务服务器可以进一步在业务辅助数据50b中将标题文本2的辅助文本(例如,辅助文本2)与标题文本2的正文文本(例如,正文文本2)进行匹配校准,以计算得到两者之间的匹配度。如图8所示,由于正文文本2与辅助文本2中存在大部分不相同的字符串,所以,业务服务器在计算得到两者的匹配度时可以确定正文文本2与辅助文本2之间的匹配度是小于上述校准阈值的,即在目标文本数据50a中的与标题文本2相匹配的正文文本(即正文文本2)中存在非书面化的词汇表述,此时,业务服务器可以进一步用业务辅助数据50b中的辅助文本2对正文文本2中的相应字符串进行修正,比如,可以在目标文本数据50a中将正文文本2修正为所述辅助文本2,以得到图8所示的修正后的正文文本2’。
其中,如图8所示,通过进行同类项匹配,可以确定图8所示的目标文本数据50a中的标题文本3与业务辅助数据50b中的标题文本3’为不同的标题文本,即两者之间不属于同类项,所以业务服务器可以选择在目标文本数据50a中保留与标题文本3相匹配的正文文本(例如,正文文本3)。
如图8所示,业务服务器可以将修正后的目标文本数据确定为纲要文本数据,以得到图8所示的纲要文本数据50c。应当理解,业务服务器可以将修正后的目标文本数据作为第二待处理文本数据;进一步地,业务服务器可以对所述第二待处理文本数据中的过滤词汇进行过滤,即可以进一步在第二文本数据中过滤重复化的词汇,以得到过滤后的第二待处理文本数据;进一步地,业务服务器可以基于所述过滤后的第二待处理文本数据中的标题文本和正文文本,对所述第二待处理文本数据进行分段排版,以得到图8所示的纲要文本数据50c。
应当理解,在本申请实施例的网络直播场景下,通过对本场视频直播中的目标对象的语音数据进行语义转换,可以实时生成该目标语音数据相关联的目标文本数据。另外,通过联动大数据,可以找到与该目标文本数据具有高度相似的业务辅助数据,从而可以从业务辅助数据中找到相同标题文本下的文本数据进行匹配校准,以确保后续生成文字纲要的准确性。由于本申请实施例在整个过程中均采用AI技术进行相应的处理,观众用户无需在主播用户进行直播的过程中手动记录并梳理核心知识点,从而可以提高生成文字纲要的效率。
进一步地,可以理解的是,该业务服务器在得到精简版的直播主题纲要(即上述图8所示的纲要文本数据50c)且监测到在上述虚拟直播间10c中的视频直播结束之后,可以进一步向观看本场直播的观众用户提供的文本接入接口,即业务服务器在监测到针对上述网络直播事件的业务完成指令时,可以提供用于查阅所述纲要文本数据的文本接入接口,以便于观众用户能够在本场直播结束之后,通过触发文本接入接口可以接收到业务服务器所回传的纲要文本数据,并可以通过视觉化呈现的方式将该纲要文本数据通过独立于直播显示界面(即直播结束界面)的子窗口渲染显示该纲要文本数据。
为便于理解,进一步地,请参见图9,是本申请实施例提供的一种在文本接入接口的示意图。可以理解的是,业务服务器可以在监测到针对上述网络直播事件的业务完成指令时,向观看本场视频直播的观众用户提供用于查阅所述纲要文本数据的文本接入接口;如图9所示,在本场视频直播结束时,观众用户所使用的用户终端(即第二终端)可以在图9所示的直播显示界面700a(即与该网络直播事件相关联的直播结束界面)中显示由上述业务服务器所提供的文本接入接口。如图9所示的观众用户可以在直播显示界面700a中对暴露的文本接入接口执行触发操作(例如,点击操作),从而可以通过该文本接入接口从业务服务器上快速获取本场视频直播的纲要文本数据,该纲要文本数据可以为上述图7所对应实施例中的纲要文本数据50c。应当理解,第二终端在获取到上述纲要文本数据50c之后,可以在独立于该直播显示界面的子窗口(即图9所示的文本显示窗口800a)中渲染显示上述纲要文本数据。由此可见,通过在直播结束时生成一份精简的纲要文本数据,可以帮助观众用户快速回顾本场视频直播所分享的重要知识点。
另外,如图9所示,通过该文本接入接口,观众用户可以在直播结束之后,无需对输出在直播显示界面700a中直播回放数据(即用于进行直播回放的音视频数据)进行反复的回放,即可以快速地获知本场直播所分享的重要知识点,进而可以快速且准确地帮助观众用户进行记忆巩固。应当理解,如图9所示,观众用户还可以在直播显示界面中针对图8所提供的多种下载方式对生成的纲要文本数据进行下载,从而可以减少观众用户观看视频回放的时间。
应当理解,本申请实施例中的网络直播场景可以包含语音录制场景和视频直播场景。在语音录制场景(例如,上述会议录音或者课程录音等场景下)生成纲要文本数据的具体实现方式可以一并参见本申请实施例中对网络直播场景(即视频直播场景)下生成纲要文本数据的描述,这里将不再继续进行赘述。
本申请实施例在获取到目标语音数据相关联的目标文本数据时,可以提取该目标文本数据中的分段关键词(例如,第一点、第二点、第三点等用于进行分段的关键词),以确定出该目标文本数据的标题文本和与该标题文本相匹配的正文文本;与此同时,本申请实施例还可以在确定出该目标文本数据的主题信息,进一步将与该目标文本数据具有相同主题信息的互联网数据信息统称为业务辅助数据,进而可以在业务辅助数据中快速定位到与前述标题文本相关联的辅助文本。可以理解的是,本申请实施例可以进一步在目标文本数据中用辅助文本修正上述正文文本,从而可以快速且准确地得到该目标文本数据的纲要文本数据(即文字纲要),以提高生成文字纲要的效率。
进一步的,请参见图10,是本申请实施例提供的另一种语音数据处理方法的流程示意图。如图10所示,所述方法可以包含:
步骤S201,获取业务数据流中的待处理语音数据;
具体的,语音数据处理装置可以获取业务数据流中的业务语音数据;进一步的,语音数据处理装置可以将所述业务语音数据中的静音数据和噪音数据确定为所述业务语音数据中的干扰数据;进一步的,业务数据处理装置可以过滤所述业务语音数据中的干扰数据,并将过滤后的业务语音数据确定为待处理语音数据。
步骤S202,确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;
步骤S203,在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;
步骤S204,对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
具体的,语音数据处理装置可以获取文本数据库相关联的语言模型,通过所述语言模型对所述目标语音数据进行语义转换;进一步的,语音数据处理装置可以将语义转换后的文本数据确定为第一待处理文本数据;进一步的,语音数据处理装置可以对所述第一待处理文本数据中的过滤词汇进行过滤,并将过滤后的第一待处理文本数据确定为目标文本数据。
其中,在网络直播场景(即视频直播场景)下,步骤S201-步骤S204的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
步骤S205,基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
其中,步骤S205的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再继续进行赘述。
步骤S206,获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本。
其中,步骤S206的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述,这里将不再继续进行赘述。
步骤S207,根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
其中,步骤S207的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再继续进行赘述。
为便于理解,进一步的,请参见图11,是本申请实施例提供的一种在网络直播场景(即视频直播场景)下的系统流程图。如图11所示,主播用户可以在执行步骤S1时,创建用于进行知识分享的虚拟直播间,此时,第一终端可以实时采集该虚拟直播间中的主播用户的语音数据流(即上述业务数据流)。如图11所示,业务服务器可以用于执行步骤S2,以从获取到的业务数据流中将识别出主播用户的语音数据称之为目标对象的目标语音数据,进而可以执行步骤S3,以对该目标语音数据进行语义转换,从而可以将语义转换后的文本数据称之为第一待处理文本数据。如图11所示,业务服务器可以通过AI技术智能提取出第一待处理文本数据中的过滤词汇,并对提取出的过滤词汇进行过滤,从而可以执行步骤S5,以生成目标文本数据。如图11所示,业务服务器可以基于生成的目标文本数据进一步执行步骤S6,以确定出当前网络直播事件对应的直播场景类型,例如,可以将上述图8所对应实施例中的主播用户所进行的网络直播事件划分为购物分享类的分类场景,如上述图8所示,该购物分享类的分类场景下的主题信息可以为如何购车,从而可以基于该确定出的主题信息从云数据库(例如,上述图2所示的业务数据库)中拉取到所有具有该主题信息的互联网数据信息,从而可以执行步骤S7,以通过联动大数据匹配同类项,即可以从这些互联网数据信息中尽可能的找到包含更多同类项的互联网数据信息作为上述业务辅助数据,比如,可以在这些互联网数据信息中将具有最大置信度信息的互联网数据信息称之为搜索到的具有较多相似特征的业务辅助数据,从而可以基于找到的业务辅助数据中的辅助文本对相同同类项(例如,相同标题文本)下的正文文本中的字符串进行匹配校准,以得到图11所示的步骤S8中的纲要文本数据。
鉴于此,在本次视频直播结束之后,观众用户可以在独立于直播显示界面的子窗口(即悬浮窗口)中显示纲要文本数据,此时,观众用户可以在该悬浮窗口中通过上下滑动以查看完整的纲要文本内容。此外,观众用户还可以在该悬浮窗口中选择下载WORD或者PDF格式的纲要文本数据到第二终端的本地数据库(例如,本地相册和本地文件夹)中,以便于后续可以进行二次巩固复习,从而可以实现文本数据的可读性。
可选的,可以理解的是,在语音录制场景(例如,会议语音录制场景)下,业务服务器仍然可以用于获取相应的目标语音数据,并可以通过AI技术将获取到的目标语音数据转换为相应的目标文本数据,从而可以通过联动大数据找到与目标文本数据的主题信息相似的互联网数据信息,进而可以从这些互联网数据信息中智能筛选出业务辅助数据,从而可以基于业务辅助数据中的辅助文本对目标文本数据中的正文文本进行智能校准,以提高后续生成纲要文本数据的准确性,由于整个会议语音录制场景下无需参会人员手动记录和梳理整个会议过程中的重要知识点,从而可以提高生成携带有重要知识点的纲要文本数据的效率。
应当理解,在本申请实施例中,将不对具体的应用场景中生成纲要文本数据的具体实现形式进行一一列举。
本申请实施例在获取到目标语音数据相关联的目标文本数据时,可以提取该目标文本数据中的分段关键词(例如,第一点、第二点、第三点等用于进行分段的关键词),以确定出该目标文本数据的标题文本和与该标题文本相匹配的正文文本;与此同时,本申请实施例还可以在确定出该目标文本数据的主题信息,进一步将与该目标文本数据具有相同主题信息的互联网数据信息统称为业务辅助数据,进而可以在业务辅助数据中快速定位到与前述标题文本相关联的辅助文本。可以理解的是,本申请实施例可以进一步在目标文本数据中用辅助文本修正上述正文文本,从而可以快速且准确地得到该目标文本数据的纲要文本数据(即文字纲要),以提高生成文字纲要的效率。
进一步地,请参见图12,是本申请实施例提供的一种语音数据处理装置的结构示意图,该语音数据处理装置1可以集成于上述图1所对应实施例中的业务服务器1000。如图12所示,该语音数据处理装置1可以包括:目标文本获取模块10,标题确定模块20,辅助文本获取模块30和纲要文本确定模块40;进一步地,该语音数据处理装置1还可以包含:样本获取模块50,分帧模块60,训练模块70,接口提供模块80,接口输出模块90;
目标文本获取模块10,用于获取与目标语音数据相关联的目标文本数据;
其中,所述目标文本获取模块10包括:语音获取单元101,相似度确定单元102,语音确定单元103,语音转换单元104;
语音获取单元101,用于获取业务数据流中的待处理语音数据;
其中,所述语音获取单元101包括:语音获取子单元1011,干扰确定子单元1012,干扰过滤子单元1013;
语音获取子单元1011,用于获取业务数据流中的业务语音数据;
干扰确定子单元1012,用于将所述业务语音数据中的静音数据和噪音数据确定为所述业务语音数据中的干扰数据;
干扰过滤子单元1013,用于过滤所述业务语音数据中的干扰数据,并将过滤后的业务语音数据确定为待处理语音数据。
其中,语音获取子单元1011,干扰确定子单元1012,干扰过滤子单元1013的具体实现方式可以参见上述图3所对应实施例对通过VAD技术得到待处理语音数据的描述,这里将不再继续进行赘述。
相似度确定单元102,用于确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;
语音确定单元103,用于在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;
语音转换单元104,用于对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
其中,所述语音转换单元104包括:模型获取子单元1041,第一确定子单元1042,第一过滤子单元1043;
模型获取子单元1041,用于获取文本数据库相关联的语言模型,通过所述语言模型对所述目标语音数据进行语义转换;
第一确定子单元1042,用于将语义转换后的文本数据确定为第一待处理文本数据;
第一过滤子单元1043,用于对所述第一待处理文本数据中的过滤词汇进行过滤,并将过滤后的第一待处理文本数据确定为目标文本数据。
其中,模型获取子单元1041,第一确定子单元1042,第一过滤子单元1043的的具体实现方式可以参见上述图3所对应实施例中对确定目标文本数据的描述,这里将不再继续进行赘述。
其中,语音获取单元101,相似度确定单元102,语音确定单元103,语音转换单元104的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
标题确定模块20,用于基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
其中,标题确定模块20包括:分段词获取单元201和标题确定单元202;
分段词获取单元201,用于获取所述目标文本数据中的分段关键词;
标题确定单元202,用于在所述目标文本数据中查找与所述分段关键词相邻的文本数据,根据所述相邻的文本数据确定所述目标文本数据中的标题文本。
其中,分段词获取单元201和标题确定单元202的具体实现方式可以参见上述图3所对应实施例中对确定标题文本的描述,这里将不再继续进行赘述。
辅助文本获取模块30,用于获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
其中,所述辅助文本获取模块30包括:主题词获取单元301,主题确定单元302,辅助数据确定单元303,辅助文本确定单元304;
主题词获取单元301,用于获取所述目标文本数据中的主题关键词,基于所述主题关键词确定所述目标语音数据所属的业务场景类型;
其中,所述主题词获取单元301,包括:录入数据获取子单元3011,主题词获取子单元3012,场景确定子单元3013;
录入数据获取子单元3011,用于获取所述目标语音数据相关联的录入数据;
主题词获取子单元3012,用于在所述目标文本数据中查找与所述录入数据相匹配的文本数据,将查找到的与所述录入数据相匹配的文本数据,作为所述目标文本数据中的主题关键词;
场景确定子单元3013,用于基于所述主题关键词确定所述目标语音数据所属的业务场景类型。
其中,录入数据获取子单元3011,主题词获取子单元3012,场景确定子单元3013的具体实现方式可以参见上述图3所对应实施例中对确定业务场景类型的描述,这里将不再继续进行赘述。
主题确定单元302,用于基于所述业务场景类型,确定所述目标文本数据的主题信息,获取与所述目标文本数据具有相同主题信息的互联网数据信息;一个互联网数据信息对应一个置信度信息;
辅助数据确定单元303,用于在所述互联网数据信息中将具有最大置信度信息的互联网数据信息确定为业务辅助数据;
辅助文本确定单元304,用于在所述业务辅助数据中查找与所述标题文本相关联的关联文本数据,并将查找到的关联文本数据确定为辅助文本。
其中,主题词获取单元301,主题确定单元302,辅助数据确定单元303,辅助文本确定单元304的具体实现方式可以参见上述图3所对应实施例中对确定辅助文本的描述,这里将不再继续进行赘述。
纲要文本确定模块40,用于根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
其中,所述纲要文本确定模块40包括:匹配度确定单元401,文本修正单元402,纲要确定单元403;
匹配度确定单元401,用于从所述目标文本数据中获取与所述标题文本相匹配的正文文本,确定所述正文文本与所述辅助文本之间的匹配度;
文本修正单元402,用于若所述匹配度小于校准阈值,则在所述目标文本数据中将所述正文文本修正为所述辅助文本;
纲要确定单元403,用于将修正后的目标文本数据确定为纲要文本数据。
其中,所述纲要确定单元403包括:第二确定子单元4031,第二过滤子单元4032,排版子单元4033;
第二确定子单元4031,用于将修正后的目标文本数据作为第二待处理文本数据;
第二过滤子单元4032,用于对所述第二待处理文本数据中的过滤词汇进行过滤,得到过滤后的第二待处理文本数据;
排版子单元4033,用于基于所述过滤后的第二待处理文本数据中的标题文本和正文文本,对所述第二待处理文本数据进行分段排版,得到纲要文本数据。
其中,第二确定子单元4031,第二过滤子单元4032,排版子单元4033的具体实现方式可以参见上述图3所对应实施例中对纲要文本数据的描述,这里将不再继续进行赘述。
其中,匹配度确定单元401,文本修正单元402,纲要确定单元403的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再继续进行赘述。
可选的,其中,所述业务数据流所属的业务事件包含网络直播事件;所述网络直播事件对应的直播会话界面中包含所述目标对象;
样本获取模块50,用于在监测到针对所述网络直播事件的业务启动指令时,从所述业务数据流中获取所述目标对象的样本语音数据;所述样本语音数据为样本采集时长内的语音数据;
分帧模块60,用于对所述样本语音数据进行分帧处理,得到所述样本语音数据相关联的样本数据帧;
训练模块70,用于将所述样本数据帧中的语音特征向量作为参考语音特征,并基于所述参考语音特征对初始声学模型进行训练,将训练后的初始声学模型确定为目标声学模型。
可选的,接口提供模块80,用于在监测到针对所述网络直播事件的业务完成指令时,提供用于查阅所述纲要文本数据的文本接入接口;
接口输出模块90,用于将所述文本接入接口输出至与所述网络直播事件相关联的直播显示界面中。
其中,目标文本获取模块10,标题确定模块20,辅助文本获取模块30和纲要文本确定模块40的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再继续进行赘述。其中,样本获取模块50,分帧模块60,训练模块70,接口提供模块80,接口输出模块90的具体实现方式可以参见上述图3所对应实施例中对图5所对应实施例中获取目标声学模型和生成文本接入入口的描述,这里将不再继续进行赘述。
本申请实施例在获取到目标语音数据相关联的目标文本数据时,可以提取该目标文本数据中的分段关键词(例如,第一点、第二点、第三点等用于进行分段的关键词),以确定出该目标文本数据的标题文本和与该标题文本相匹配的正文文本;与此同时,本申请实施例还可以在确定出该目标文本数据的主题信息,进一步将与该目标文本数据具有相同主题信息的互联网数据信息统称为业务辅助数据,进而可以在业务辅助数据中快速定位到与前述标题文本相关联的辅助文本。可以理解的是,本申请实施例可以进一步在目标文本数据中用辅助文本修正上述正文文本,从而可以快速且准确地得到该目标文本数据的纲要文本数据(即文字纲要),以提高生成文字纲要的效率。
进一步地,请参见图13,是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,所述计算机设备1000可以为上述图1对应实施例中的业务服务器1000,所述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述终端1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
该1000中的网络接口1004可以接收由上述图1所示的第一终端上传的业务数据流,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图13所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取与目标语音数据相关联的目标文本数据;
基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
应当理解,本申请实施例中所描述的语音数据处理装置1000可执行前文图3和图10所对应实施例中对所述语音数据处理方法的描述,也可执行前文图12所对应实施例中对所述语音数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的语音数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3和图10所对应实施例中对所述语音数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种语音数据处理方法,其特征在于,包括:
获取与目标语音数据相关联的目标文本数据;
基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
2.根据权利要求1所述的方法,其特征在于,所述获取与目标语音数据相关联的目标文本数据,包括:
获取业务数据流中的待处理语音数据;
确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;
在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;
对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
3.根据权利要求2所述的方法,其特征在于,所述获取业务数据流中的待处理语音数据,包括:
获取业务数据流中的业务语音数据;
将所述业务语音数据中的静音数据和噪音数据确定为所述业务语音数据中的干扰数据;
过滤所述业务语音数据中的干扰数据,并将过滤后的业务语音数据确定为待处理语音数据。
4.根据权利要求2所述的方法,其特征在于,对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据,包括:
获取文本数据库相关联的语言模型,通过所述语言模型对所述目标语音数据进行语义转换;
将语义转换后的文本数据确定为第一待处理文本数据;
对所述第一待处理文本数据中的过滤词汇进行过滤,并将过滤后的第一待处理文本数据确定为目标文本数据。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本,包括:
获取所述目标文本数据中的分段关键词;
在所述目标文本数据中查找与所述分段关键词相邻的文本数据,根据所述相邻的文本数据确定所述目标文本数据中的标题文本。
6.根据权利要求1所述的方法,其特征在于,所述获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本,包括:
获取所述目标文本数据中的主题关键词,基于所述主题关键词确定所述目标语音数据所属的业务场景类型;
基于所述业务场景类型,确定所述目标文本数据的主题信息,获取与所述目标文本数据具有相同主题信息的互联网数据信息;一个互联网数据信息对应一个置信度信息;
在所述互联网数据信息中将具有最大置信度信息的互联网数据信息确定为业务辅助数据;
在所述业务辅助数据中查找与所述标题文本相关联的关联文本数据,并将查找到的关联文本数据确定为辅助文本。
7.根据权利要求6所述的方法,其特征在于,所述获取所述目标文本数据中的主题关键词,基于所述主题关键词确定所述目标语音数据所属的业务场景类型,包括:
获取所述目标语音数据相关联的录入数据;
在所述目标文本数据中查找与所述录入数据相匹配的文本数据,将查找到的与所述录入数据相匹配的文本数据,作为所述目标文本数据中的主题关键词;
基于所述主题关键词确定所述目标语音数据所属的业务场景类型。
8.根据权利要求1所述的方法,其特征在于,所述根据所述辅助文本,将所述目标文本数据确定为纲要文本数据,包括:
从所述目标文本数据中获取与所述标题文本相匹配的正文文本,确定所述正文文本与所述辅助文本之间的匹配度;
若所述匹配度小于校准阈值,则在所述目标文本数据中将所述正文文本修正为所述辅助文本;
将修正后的目标文本数据确定为纲要文本数据。
9.根据权利要求8所述的方法,其特征在于,所述将修正后的目标文本数据确定为纲要文本数据,包括:
将修正后的目标文本数据作为第二待处理文本数据;
对所述第二待处理文本数据中的过滤词汇进行过滤,得到过滤后的第二待处理文本数据;
基于所述过滤后的第二待处理文本数据中的标题文本和正文文本,对所述第二待处理文本数据进行分段排版,得到纲要文本数据。
10.根据权利要求2所述的方法,所述业务数据流所属的业务事件包含网络直播事件;所述网络直播事件对应的直播会话界面中包含所述目标对象;
所述方法还包括:
在监测到针对所述网络直播事件的业务启动指令时,从所述业务数据流中获取所述目标对象的样本语音数据;所述样本语音数据为样本采集时长内的语音数据;
对所述样本语音数据进行分帧处理,得到所述样本语音数据相关联的样本数据帧;
将所述样本数据帧中的语音特征向量作为参考语音特征,并基于所述参考语音特征对初始声学模型进行训练,将训练后的初始声学模型确定为目标声学模型。
11.根据权利要求10所述的方法,其特征在于,还包括:
在监测到针对所述网络直播事件的业务完成指令时,提供用于查阅所述纲要文本数据的文本接入接口;
将所述文本接入接口输出至与所述网络直播事件相关联的直播显示界面中。
12.一种语音数据处理装置,其特征在于,包括:
目标文本获取模块,用于获取与目标语音数据相关联的目标文本数据;
标题确定模块,用于基于所述目标文本数据中的分段关键词,确定所述目标文本数据中的标题文本;
辅助文本获取模块,用于获取与所述目标文本数据的主题信息相匹配的业务辅助数据,在所述业务辅助数据中获取与所述标题文本相关联的辅助文本;
纲要文本确定模块,用于根据所述辅助文本,将所述目标文本数据确定为纲要文本数据。
13.根据权利要求12所述的装置,其特征在于,所述目标文本获取模块包括:
语音获取单元,用于获取业务数据流中的待处理语音数据;
相似度确定单元,用于确定所述待处理语音数据中的语音特征与参考语音特征之间的相似度;所述参考语音特征为目标对象对应的目标声学模型中的特征;
语音确定单元,用于在所述待处理语音数据中将具有最大相似度的语音特征对应的语音数据,确定为所述目标对象的目标语音数据;
语音转换单元,用于对所述目标语音数据进行语义转换,根据语义转换后的文本数据确定目标文本数据。
14.一种计算机设备,其特征在于,包括:处理器、存储器、网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-11任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-11任一项所述的方法。
CN201910804875.XA 2019-08-28 2019-08-28 一种语音数据处理方法、装置及存储介质 Active CN110517689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910804875.XA CN110517689B (zh) 2019-08-28 2019-08-28 一种语音数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910804875.XA CN110517689B (zh) 2019-08-28 2019-08-28 一种语音数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110517689A true CN110517689A (zh) 2019-11-29
CN110517689B CN110517689B (zh) 2023-11-24

Family

ID=68628720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910804875.XA Active CN110517689B (zh) 2019-08-28 2019-08-28 一种语音数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110517689B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276149A (zh) * 2020-01-19 2020-06-12 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质
CN111625614A (zh) * 2020-01-20 2020-09-04 全息空间(深圳)智能科技有限公司 直播平台语音收集方法、系统及存储介质
CN111883136A (zh) * 2020-07-30 2020-11-03 潘忠鸿 一种基于人工智能的快速写作方法和装置
CN112232066A (zh) * 2020-10-16 2021-01-15 腾讯科技(北京)有限公司 一种教学纲要生成方法、装置、存储介质及电子设备
CN112231464A (zh) * 2020-11-17 2021-01-15 安徽鸿程光电有限公司 信息处理方法、装置、设备及存储介质
CN112543371A (zh) * 2020-11-27 2021-03-23 中国建设银行股份有限公司 视频数据处理方法、装置、终端及存储介质
CN112699687A (zh) * 2021-01-07 2021-04-23 北京声智科技有限公司 内容编目方法、装置和电子设备
CN112804580A (zh) * 2020-12-31 2021-05-14 支付宝(杭州)信息技术有限公司 一种视频打点的方法和装置
CN112802480A (zh) * 2021-04-15 2021-05-14 广东际洲科技股份有限公司 基于多方交流的语音数据文字转化方法
CN113129866A (zh) * 2021-04-13 2021-07-16 重庆度小满优扬科技有限公司 语音处理方法、装置、存储介质及计算机设备
CN113722425A (zh) * 2021-07-23 2021-11-30 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、计算机设备及计算机可读存储介质
CN114584658A (zh) * 2022-02-28 2022-06-03 马上消费金融股份有限公司 数据渲染方法及装置
CN116186325A (zh) * 2023-04-26 2023-05-30 深圳市小彼恩文教科技有限公司 一种基于数据处理的点读笔信息识别与管理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2009187349A (ja) * 2008-02-07 2009-08-20 Nec Corp 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法
KR20140123715A (ko) * 2013-04-15 2014-10-23 한국과학기술원 감정 전달이 가능한 라이브 텍스트 및 라이브 텍스트를 이용한 라이브 보이스를 제공하기 위한 텍스트 편집 및 보이스 변환 시스템 및 방법
US20160189103A1 (en) * 2014-12-30 2016-06-30 Hon Hai Precision Industry Co., Ltd. Apparatus and method for automatically creating and recording minutes of meeting
CN105956053A (zh) * 2016-04-27 2016-09-21 海信集团有限公司 一种基于网络信息的搜索方法及装置
US20180286396A1 (en) * 2017-03-29 2018-10-04 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for processing speech instruction
CN110046355A (zh) * 2019-04-25 2019-07-23 讯飞智元信息科技有限公司 一种标题段落检测方法及装置
US20190258704A1 (en) * 2018-02-20 2019-08-22 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2009187349A (ja) * 2008-02-07 2009-08-20 Nec Corp 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム
KR20140123715A (ko) * 2013-04-15 2014-10-23 한국과학기술원 감정 전달이 가능한 라이브 텍스트 및 라이브 텍스트를 이용한 라이브 보이스를 제공하기 위한 텍스트 편집 및 보이스 변환 시스템 및 방법
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法
US20160189103A1 (en) * 2014-12-30 2016-06-30 Hon Hai Precision Industry Co., Ltd. Apparatus and method for automatically creating and recording minutes of meeting
CN105956053A (zh) * 2016-04-27 2016-09-21 海信集团有限公司 一种基于网络信息的搜索方法及装置
US20180286396A1 (en) * 2017-03-29 2018-10-04 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for processing speech instruction
US20190258704A1 (en) * 2018-02-20 2019-08-22 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
CN110046355A (zh) * 2019-04-25 2019-07-23 讯飞智元信息科技有限公司 一种标题段落检测方法及装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276149A (zh) * 2020-01-19 2020-06-12 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质
CN111276149B (zh) * 2020-01-19 2023-04-18 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质
CN111625614A (zh) * 2020-01-20 2020-09-04 全息空间(深圳)智能科技有限公司 直播平台语音收集方法、系统及存储介质
CN111883136A (zh) * 2020-07-30 2020-11-03 潘忠鸿 一种基于人工智能的快速写作方法和装置
CN112232066A (zh) * 2020-10-16 2021-01-15 腾讯科技(北京)有限公司 一种教学纲要生成方法、装置、存储介质及电子设备
CN112231464A (zh) * 2020-11-17 2021-01-15 安徽鸿程光电有限公司 信息处理方法、装置、设备及存储介质
CN112231464B (zh) * 2020-11-17 2023-12-22 安徽鸿程光电有限公司 信息处理方法、装置、设备及存储介质
CN112543371A (zh) * 2020-11-27 2021-03-23 中国建设银行股份有限公司 视频数据处理方法、装置、终端及存储介质
CN112804580A (zh) * 2020-12-31 2021-05-14 支付宝(杭州)信息技术有限公司 一种视频打点的方法和装置
CN112699687A (zh) * 2021-01-07 2021-04-23 北京声智科技有限公司 内容编目方法、装置和电子设备
CN113129866B (zh) * 2021-04-13 2022-08-02 重庆度小满优扬科技有限公司 语音处理方法、装置、存储介质及计算机设备
CN113129866A (zh) * 2021-04-13 2021-07-16 重庆度小满优扬科技有限公司 语音处理方法、装置、存储介质及计算机设备
CN112802480A (zh) * 2021-04-15 2021-05-14 广东际洲科技股份有限公司 基于多方交流的语音数据文字转化方法
CN112802480B (zh) * 2021-04-15 2021-07-13 广东际洲科技股份有限公司 基于多方交流的语音数据文字转化方法
CN113722425A (zh) * 2021-07-23 2021-11-30 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、计算机设备及计算机可读存储介质
CN114584658A (zh) * 2022-02-28 2022-06-03 马上消费金融股份有限公司 数据渲染方法及装置
CN116186325A (zh) * 2023-04-26 2023-05-30 深圳市小彼恩文教科技有限公司 一种基于数据处理的点读笔信息识别与管理方法及系统
CN116186325B (zh) * 2023-04-26 2023-06-30 深圳市小彼恩文教科技有限公司 一种基于数据处理的点读笔信息识别与管理方法及系统

Also Published As

Publication number Publication date
CN110517689B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
US11475897B2 (en) Method and apparatus for response using voice matching user category
US20190286996A1 (en) Human-machine interactive method and device based on artificial intelligence
CN108305632A (zh) 一种会议的语音摘要形成方法及系统
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
CN108399923A (zh) 多人发言中发言人识别方法以及装置
WO2007043679A1 (ja) 情報処理装置およびプログラム
US20240070397A1 (en) Human-computer interaction method, apparatus and system, electronic device and computer medium
CN113380271B (zh) 情绪识别方法、系统、设备及介质
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
US11587561B2 (en) Communication system and method of extracting emotion data during translations
CN114125506B (zh) 语音审核方法及装置
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端
CN115442495A (zh) 一种ai演播室系统
CN108419040A (zh) 一种成长记录方法、装置、机器人及计算机可读介质
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
WO2022240411A1 (en) System and method to determine outcome probability of an event based on videos
KR20010004400A (ko) 오디오/영상물의 음향적 장면분할방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant