CN104424955B - 生成音频的图形表示的方法和设备、音频搜索方法和设备 - Google Patents

生成音频的图形表示的方法和设备、音频搜索方法和设备 Download PDF

Info

Publication number
CN104424955B
CN104424955B CN201310385132.6A CN201310385132A CN104424955B CN 104424955 B CN104424955 B CN 104424955B CN 201310385132 A CN201310385132 A CN 201310385132A CN 104424955 B CN104424955 B CN 104424955B
Authority
CN
China
Prior art keywords
graph
audio content
incidence relation
speaker
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310385132.6A
Other languages
English (en)
Other versions
CN104424955A (zh
Inventor
廖勤樱
张世磊
刘�文
钱伟红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201310385132.6A priority Critical patent/CN104424955B/zh
Publication of CN104424955A publication Critical patent/CN104424955A/zh
Application granted granted Critical
Publication of CN104424955B publication Critical patent/CN104424955B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种生成音频内容的图形化表示的方法和设备。所述方法包括:获取有关音频内容中要图形化表示的对象的元数据;分析元数据以确定要图形化表示的对象之间的关联关系;从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;基于所选择的图形化表示元素,生成所述音频内容的图形化表示。通过所述方法和设备,用户能够快速了解音频的具体内容。还公开了在音频内容库中搜索音频内容的方法和设备,通过该方法和设备,用户能够了解特定话题的谈论历史,跟踪话题的演进。

Description

生成音频的图形表示的方法和设备、音频搜索方法和设备
技术领域
本发明涉及音频处理领域,更具体地,涉及一种生成音频内容的图形化表示的方法和设备、以及在音频内容库中搜索音频内容的方法和设备。
背景技术
现阶段,音频的可视化已经有了一些研究。常见的音频可视化表示例如图2(a)中所示的波形图以及如图2(b)所示的可视化效果图。然而,这些可视化表示示出的往往都是声音强度、音乐节奏等的图谱,其并不能表示音频中的具体内容,例如该音频是关于什么具体话题的、音频中有多少参与者、每个参与者谈论了哪些具体的话题等等。目前,人们如果希望了解音频中的上述具体内容信息,需要听完整个音频或者阅读从该音频转述得到的文字表示,这是非常麻烦并且耗时的。
发明内容
鉴于以上问题而提出了本发明。本发明的目的是提供一种生成音频内容的图形化表示的方法和设备,用户通过观看该图形化表示能够快速了解包括音频中的说话者、谈论的话题、说话者之间的谈话模式等等的具体音频内容。本发明的另一目的是提供一种在音频内容库中搜索音频内容的方法,其使得用户能够从音频内容库中搜索出有关预定说话者关于某一话题的谈论的所有音频内容,由此能够了解该话题的谈论历史,跟踪该话题的演进。
根据本发明的一个方面,提供了一种生成音频内容的图形化表示的方法,包括:获取有关音频内容中的要图形化表示的对象的元数据;分析所述元数据以确定要图形化表示的对象之间的关联关系;从图形化表示元素的集合中选择分别与感兴趣的要图形表示的对象对应的图形化表示元素以及关联关系对应的图形化表示元素;以及基于所选择的图形化表示元素,生成所述音频内容的图形化表示。
根据本发明的另一个方面,提供了一种生成音频内容的图形化表示的设备,包括:获取装置,被配置为获取有关音频内容中的要图形化表示的对象的元数据;分析装置,被配置为分析所述元数据以确定要图形化表示的对象之间的关联关系;选择装置,被配置为从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;以及生成装置,被配置为基于所选择的图形化表示元素,生成所述音频内容的图形化表示。
根据本发明的又一个方面,提供了一种在音频内容库中搜索音频内容的方法,包括:在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分;呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。
根据本发明的再一个方面,提供了一种在音频内容库中搜索音频内容的设备,包括:搜索装置,被配置为在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分;呈现装置,被配置为呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。
根据本发明上述生成音频内容的图形化表示的方法和设备可以通过呈现由表示音频中的说话者、讨论的话题、说话者之间的谈话模式、话题之间的关联关系等的图形化表示元素组成的图形化表示,使得用户快速了解音频中的具体内容,从而节省时间同时提高便利性。另外,根据本发明上述在音频内容库中搜索音频内容的方法和设备,可以通过从音频内容库中搜索出有关预定说话者关于某一话题的谈论的所有音频片段,使得用户能够了解该话题的谈论历史,跟踪该话题的演进。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2(a)和2(b)示出了现有技术中音频可视化表示的示例。
图3示出了根据本发明实施例的生成音频内容的图形化表示的方法的流程图。
图4示意性地示出了根据本发明实施例所生成的音频内容的图形化表示的一个示例。
图5(a)-5(c)示出了根据本发明实施例的生成音频内容的图形化表示的方法生成的图形化表示的示例。
图6示出了根据本发明实施例的选择图形化表示元素以生成音频内容的图形化表示的过程的流程图。
图7示出了根据本发明实施例的生成音频内容的图形化表示的方法的示例性应用。
图8示出了根据本发明实施例的生成音频内容的图形化表示的方法的一个变型的示例性应用。
图9示出了根据本发明实施例的、在音频内容库中搜索包含有具有预定特征的音频片段的音频内容的方法的流程图。
图10例示了根据本发明实施例的搜索包含有具有预定特征的音频片段的音频内容的方法的示例性应用情景。
图11示出了根据本发明实施例的生成音频内容的图形化表示的设备的结构框图。
图12示出了图11中的生成装置的结构框图。
图13示出了根据本发明实施例的搜索包含有具有预定特征的音频片段的音频内容的设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、设备或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、设备或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、设备或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理设备执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的设备。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令设备(instructionmeans)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理设备、或其它设备上,使得在计算机、其它可编程数据处理设备或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程设备上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图3示出了根据本发明实施例的生成音频内容的图形化表示的方法的流程图。根据本发明的实施例,音频内容的图形化表示是示出音频内容中的例如说话者、谈论的话题等感兴趣对象以及这些对象之间的关联关系的网状图谱。如图3所示,在步骤S301,获取有关音频内容中的要图形化表示的对象的元数据。
音频内容中的要图形化表示的对象是将在所生成的图形化表示中呈现的实体,其可以根据实际需要来选择。例如,在本实施例中,假设用户对音频内容中的说话者和/或谈论的话题感兴趣,因而要图形化表示的对象包括音频内容中的说话者和谈论的话题中的至少一种。图4示意性地示出了根据本发明实施例所生成的音频内容的图形化表示的一个示例。在图4中,说话者用例如带有名字标识的人形图案来表示,谈论的话题用例如带有实线框的文字来表示。从图4可以看出,在该图形化表示所代表的音频内容中有五个参与者,即说话者“A”、“B”、“C”、“D”和“E”,其中例如说话者“A”与“B”关于“专家系统”和“语音识别”这两个话题进行了讨论,说话者“A”与“C”关于“可视化分析”这一话题进行了讨论,等等。应当明白,图4中所示出的图形化表示仅仅是为了便于描述本发明而给出的一种示例,其不应被理解为对本发明的限制。
要图形化表示的对象的元数据是后续处理的基础数据,其可以根据用户的需要进行设定。例如,作为一种示例,对于说话者而言,其元数据可以是:有关说话者的基本属性的数据,如姓名、性别、年龄、社会关系、背景描述等,以及有关说话者的语音特性的数据,如语速、声音大小、情绪等;对于谈论的话题而言,其元数据可是谈论的话题的基本属性信息,如话题的关键字、参与者、开始时间、结束时间等。能够理解,要图形化表示的对象的各个元数据可以通过不同的方式来获取,例如说话者的性别、年龄等基本属性可以是从外部获知的,而说话者的语音特性是分析音频内容而确定的。
如何识别音频内容中的说话者以及谈论的话题、以及分析音频内容来确定说话者以及谈论的话题的部分元数据在本领域中已有研究。例如,可以通过声纹识别判断说话者,以及可以通过大词汇量的语音识别将语音转换为文本后,对文本做文本分析(如主题提取),得到谈论的话题,等等,此处不进行详细描述。
所获取的要图形化表示的对象的元数据可以进行存储,以用于后续的生成图形化表示的处理。作为一种可选的方式,对于元数据中例如说话者的姓名、性别、说话者的语音特性、谈论的话题的开始时间、结束时间等静态数据,可以直接存储在一个本地数据文件中;而对于元数据中例如说话者的社会关系的动态数据、以及例如说话者的背景描述的大数据,则不直接存储在该本地数据文件中,而是将这些数据的统一资源标识符存储在该本地数据文件中。动态数据会随着时间的经过而发生变换,因此如果将动态数据存储在本地数据文件中,那么除非随时对该数据文件进行更新,否则在经过一段时间后该动态数据可能会与实际情况不符。另一方面,在说话者是企业员工的情况下,其社会关系等动态数据往往会有企业相关人员在专门数据库中加以更新和维护。因此通过在前述的本地数据文件中存储动态数据的统一资源标识符,可以保证后续的生成图形化表示的处理能够获得最新的动态数据。说话者的背景描述是例如说话者的维基词条描述、说话者的博客等。由于这些背景描述往往数据量很大并且数据结构很复杂的大数据,因此为了避免本地数据文件太大、结构太复杂,可以仅将这些大数据的统一资源标识符存储在该本地数据文件,这样后续的生成图形化表示的处理在要用到这些大数据时,可以通过本地数据文件中存储的统一资源标识符找到并读出它们。当然,应当明白,上述存储方式仅仅是为了描述本发明而给出的一种示例,将静态数据、动态数据和大数据都存储在本地数据文件中也是可以的。
在步骤S302,分析所述元数据以确定要图形化表示的对象之间的关联关系。
关联关系用于反映要图形化表示的对象之间的各种相互关系,其可以根据实际需要来设定。例如,在本实施例中,关联关系可以是说话者之间的谈话模式、说话者说话的先后顺序或谈论的话题之间的承接关系。以下将举例对此进行详细说明。
图5(a)例示了在对音频内容中有哪些说话者以及说话者说话的先后顺序感兴趣的情况下,生成的示例性图形化表示。如图所示,在该图形化表示中,示出了音频内容中的说话者A-E,并用带箭头的连接线示出了各个说话者说话的先后顺序。例如,对于说话者A和C而言,箭头从A指向C,表示A先说话,C后说话。在该示例中,图形化表示的对象之间的关联关系是说话者说话的先后顺序。
图5(b)例示了在对音频内容中谈论了哪些话题以及各话题之间的承接关系感兴趣的情况下,生成的示例性图形化表示。如图所示,在该图形化表示中,示出了音频内容中谈论的话题,并用带箭头的连接线示出了谈论的话题之间的承接关系。例如,对于话题“专家系统”和“语音识别”而言,箭头从“专家系统”指向“语音识别”,表示在谈论了“专家系统”这一话题之后,接着讨论了“语音识别”。在该示例中,图形化表示的对象之间的关联关系是谈论的话题之间的承接关系。
图5(c)例示了在对音频内容中有哪些说话者以及说话者之间的谈话模式感兴趣的情况下,生成的示例性图形化表示。根据划分的角度不同,谈话模式可以有很多种。例如,按照交互模式分,谈话模式可以有提问-回答模式、自由讨论模式、头脑风暴模式、争论模式、报告模式、建议模式、评论模式;按照参与方式分,谈话模式可以有一对一模式、一对多模式、多对多模式、多对一模式;按照说话者之间的职务等级分,谈话模式可以有从最高级职务向下模式、从最低级职务向上模式、同级员工模式,等等。在图5(c)例示的图形化表示中,示出了说话者A和B,并用带箭头的连接线示出了他们之间是说话者A提问、说话者B回答的提问-回答模式。在该示例中,图形化表示的对象之间的关联关系是说话者之间的谈话模式。
以上,已经参照附图对要图形化表示的对象之间的关联关系进行了描述。总之,连接关系是反映要图形化表示的对象之间的各种相互关系的总称,可以根据实际需要来选定希望在图形化表示中显示的连接关系。
回到步骤S302,在该步骤中通过分析要图形化表示的对象的元数据,来确定上述关联关系。具体的,对于要图形化表示的对象是谈论的话题的情形,可以根据谈论的话题的诸如开始时间和结束时间等时间信息,确定各个谈论的话题之间的承接关系。对于要图形化表示的对象是说话者的情形,则可以先根据谈论的话题,将音频内容划分为音频片段,随后,对个每个音频片段,分析其中的说话者的语音特性信息,确定说话者之间的谈话模式和说话者说话的先后顺序中的至少一个。下面将对该情形进行具体的说明。
根据谈论的话题将音频内容划分为音频片段的技术在本领域中已有研究,此处不再详细描述。作为示例,本实施例中采用对音频片段进行识别以获得对应的文本、然后通过文字的语义分析来划分讨论的话题的实现方式。
对于划分出的每个音频片段,通过分析元数据中包含的说话者的语音特性信息,基于预定的规则,可以确定说话者之间的谈话模式。所述预定的规则用于规定说话者的语音特性与谈话模式之间的对应关系。例如,可以规定如果某一语音片段中有两个说话者,两个说话者之间有多次交互,并且通过语音、语调确定其中一个说话者总是在提问,另一个说话者则是在陈述,且一个说话者说话结束之后稍加停顿另一个人开始说话,则可以认为说话者处于提问-回答模式;再比如,还可以规定如果语音片段中有多个说话者,多个说话者关于同一个话题无规律的发言,有时两次发言之间有或长或短的停顿,有时多个说话者在同一时刻同时发言,则可以认为说话者处于一对多模式。当然,上面描述的规则仅仅是示例性的,实际上,用于判断谈话模式的规则要精确复杂得多,并且可能还需要结合音频转述得到文本内容。关于这一技术本领域中已有研究,此处不做详细说明。在预先设定了判断规则之后,将分析说话者的语音特性信息得到的分析结果与各个预定的规则进行匹配,可以确定说话者处于何种谈话模式。值得一提的是,由于预定的规则可能并不能覆盖所有的谈话模式,某一语音特性信息的分析结果可能不符合任何一种预定规则。在这样的情况下,可选的,可以为该分析结果定义一种新的规则,以建立一种新的谈话模式,即一种新的关联关系。
此外,对划分出的每个音频片段,可以分析其中的说话者的语音特性信息,通过例如语音的音频、音色等信息区别不同说话者,并根据说话者说话的开始时间和结束时间等时间信息,来确定说话者说话的先后顺序。
以上以关联关系是说话者之间的谈话模式、说话者说话的先后顺序或谈论的话题之间的承接关系为例,对步骤S302中的操作进行了描述。能够理解,关联关系可以是以上举例说明的三种关联关系之外的其他关系,并且在这样的情况下,同样可以通过分析元数据来确定要图形化表示的对象之间的关联关系。
回到图3,在步骤S303,从图形化表示元素的集合中选择与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素。
图形化表示元素是用于表示各种要图形化表示的对象、要图形化表示的对象之间的关联关系等的图形元素。更明确的说,对于每种要图形化表示的对象和每种关联关系都有各自对应的图形化表示元素,用来代表该要图形化表示的对象和该关联关系。例如,如图4中所示,可以用带有名字标识的人形图案代表说话者,用带实线框的文字代表谈论的话题,用带有箭头的连接线代表说话者之间的关联关系。更具体的,可以通过不同线型、粗细、颜色的直线连接线或者通过在连接线上标注文字等来区分连接线所代表的不同的连接关系;如果需要,可以用不同颜色的人形图案来代表不同职务级别的说话者,用不同形状的人形图案来代表女性说话者和男性说话者,用不同颜色的字体来代表话题谈论的时间的长短,等等。当然,以上描述的仅仅是一种示例,图形化表示元素并不限于以上种类并且可以采用其他不同的表示形状、方式。例如,上述关联关系也可以用曲线、虚线、不带箭头的线等其他表示连接关系的线来表示。
通过前面的步骤S301和S302,确定了音频内容中的各种要图形化表示的对象及其之间的各种关联关系。如前文中参照图5(a)到5(c)描述的,用户可能仅对音频内容中的某些要图形化表示的对象以及某些要图形化表示的对象之间的关联关系感兴趣,因此,在本步骤中,将从图形化表示元素的集合中选择与感兴趣的要图形化表示的对象对应的图形化表示元素、以及与感兴趣的要图形化表示的对象之间的关联关系对应的图形化表示元素。以下将参考图6进行详细描述。
如图6所示,在步骤S601,读取存储在本地数据文件中的所获取到的元数据中的静态数据。该步骤从本地数据文件中读取生成图形化表示所需要的静态数据,例如说话者的姓名、性别、话题的参与者。
在步骤S602,根据存储在本地数据文件中的所获取到的元数据中的动态数据和大数据的统一资源标识符,获取对应的动态数据和大数据。该步骤中从由统一资源标识符指示的地址获取例如说话者的职务级别等动态数据、以及例如说话者的博客内容等大数据。
在步骤S603,根据所述静态数据、动态数据、大数据和关联关系,从图形化表示元素的集合中选择与感兴趣的要图形化表示的对象对应的图形化表示元素、以及与感兴趣的要图形化表示的对象之间的关联关系对应的图形化表示元素。在该步骤中,将选择对应的图形化表示元素,以用于生成最终的图形化表示。下面参照图4所示的图形化表示进行说明。
如图4所示,所生成的图形化表示中包括说话者和谈论的话题两种图形化表示对象,并且关联关系表示说话者之间的说话模式(提问-回答模式)。针对该图形化表示,在该步骤中将根据读取的说话者的姓名,确定人形图标标注的名字(此处用“A”-“E”来代表);根据读取的说话者性别,选择对应形状的人形图标;根据读取的说话者的职务级别,确定人形图标的颜色;根据分析元数据确定的说话模式,选择对应的连接线;根据读取的讨论的话题,确定实线框中的文字,等等。
需要说明的是,动态数据和大数据大多是为了使生成的图形化表示的信息更完整,内容更丰富(例如通过人形图标的颜色示出说话者的职务级别,点击人形图标的名字可以显示说话者的博客内容等),因此其并非是生成基本的图形化表示所必需的数据。也就是说,上述步骤S602并不是必须的,而是可选的。
以上对步骤S603的描述是以感兴趣的要图形化表示的对象之间的关联关系均存在对应的图形化表示元素为例进行说明的。然而事实上,某一关联关系在图形化表示元素的集合中可能不存在对应的图形化表示元素。例如,在上文关于步骤S302的描述中提到,在某一语音特性信息的分析结果不符合任何一种预定规则的情况下,可以为该分析结果定义一种新的规则,以建立一种新的谈话模式,即一种新的关联关系。而对于这样的新的关联关系,并不存在对应的图形化表示元素。在这样的情况下,最后形成的图形化表示可能会不完整。为了获得更好的图形化表示效果,对于这一情况,本实施例提供了两种可选的处理方式。
根据第一种方式,在某一关联关系在图形化表示元素的集合中不存在对应的图形化表示元素的情况下,选择图形化表示元素的集合中用于表示与该某一关联关系类似的关联关系的图形化表示元素,作为与该某一关联关系对应的图形化表示元素。例如,假设在前述步骤S302中,分析某一语音片段中要图形化表示的对象的元数据的分析结果是:有两个说话者,两个说话者之间有多次交互,并且通过语音、语调确定其中一个说话者总是以严厉的语气在提问或者质问,另一个说话者则是以较小的声音简短地陈述或者保持沉默。虽然这一分析结果与预先定义的各个规则均不完全匹配,并且因此为其定义了新的谈话模式(新的关联关系),但是该分析结果与提问-回答谈话模式的规则类似,因此,可以选择用于表示提问-回答模式的图形化表示作为与该新的关联关系对应的图形化表示元素。
根据第二种方式,在某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素的情况下,可以向用户呈现该关联关系,并响应于用户为该关联关系定义的新的图形化表示元素,将该新的图形化表示元素作为与该关联关系对应的图形化表示元素。还是以上面的第一种方式中提到的分析结果为例。首先,向用户呈现为该分析结果定义新的关联关系,其中包含所述分析结果,并且可选的,可以同时向用户提示该新的关联关系与提问-回答谈话模式的关联关系近似。随后,响应于用户查看该分析结果后为代表该分析结果的新的关联关系定义的新的图形化表示元素,将该新的图形化表示元素作为对应的图形化表示元素。
回到图3,在步骤S304,基于所选择的图形化表示元素,生成所述音频内容的图形化表示。
在该步骤中,将利用所选择的图形化表示元素,通过确定各图形化表示元素的布局、位置等来生成最终的图形化表示。例如,针对如图4所示的图形化表示,在该步骤中将采用预定的包括5个说话者的布局确定说话者A-E的位置;根据话题的参与者,确定话题在图形化表示中的位置(例如,话题“可视分析”的参与者是说话者A和C,因此其位于连接A和C的连接线附近),等等。
另外,如果需要,可以通过显示装置等来显示在该步骤S304中生成的所述音频内容的图形化表示。
以上,已经描述了根据本发明实施例的生成音频内容的图形化表示的方法。该方法既可以在例如音频会议进行过程中实时生成对应的图形化表示,也可以应用于录制得到的音频内容。
下面将结合图7-10简要描述根据本发明实施例的生成音频内容的图形化表示的方法的示例性应用和变型。
图7示出了根据本发明实施例的生成音频内容的图形化表示的方法的示例性应用。
假设对于记录会议的整个音频文件A应用上述方法生成的图形化表示如图4所示,该图形化表示是反映整个会议的主要参与者、主要谈论话题以及谈话模式等内容的最高层级的图谱。根据本发明实施例的生成音频内容的图形化表示的方法也可以应用于音频文件中的某一时间段内的音频内容,以得到更多的细节。例如,如图7所示,可以将整个音频文件A划分为三个时间段,对于其中每个时间段应用上述方法,从而得到对应的三个子图形化表示,并且每个子图形化表示都是如图4所示的整个音频文件A的图形化表示的一部分。由此,可以获知有关会议议程的更多细节,即在会议中,首先是参与者A和B关于“专家系统”和“语音识别”进行交谈,随后是参与者B分别和参与者D和E进行交谈,最后是参与者A和C关于“可视分析”进行交谈。能够理解,上述音频文件中的时间段的长度可以任意选择。例如,该时间段可以是音频操作的最小时间单位(诸如10秒)的非常短的时间。
图8示出了根据本发明实施例的生成音频内容的图形化表示的方法的一个变型的示例性应用。
假设用户同时选择了两个音频文件,希望生成对应的图形化表示。在这样的情况下,上述生成音频内容的图形化表示的方法先对于每个音频文件生成一个对应的图形化表示;随后将两个图形化表示进行比较,以确定是否包含相同的说话者、相同的话题等;如果存在,则将两个图形化表示合并。例如,如图8所示,音频文件1和音频文件2对应的两个图形化表示合并成了一个图形化表示,并且其中用黑色外框标示了说话者A、说话者B、“语音识别”和“可视化分析”,由此说明在音频文件1和音频文件2中,说话者A和说话者B均关于“语音识别”和“可视化分析”进行了交谈。这样,通过将具有相同谈论话题的多个图形化表示合并成为一个,用户可以容易地了解所谈论的话题的演进。
根据本发明实施例的生成音频内容的图形化表示的方法还有一个重要的应用,即通过对于预定范围(例如某一音频内容库)内的每个音频内容生成对应的图形化表示,可以利用图形匹配容易地搜索出该音频内容库中所有包含有具有预定特征的音频片段的音频内容。下面将结合图9进行具体的描述。
图9示出了根据本发明实施例的在音频内容库中搜索音频内容的方法的流程图。
如图9所示,在步骤S901,在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分。
如前所述,音频内容库中的每个音频内容都具有上文中描述的根据本发明实施例的生成音频内容的图形化表示的方法所生成的对应的图形化表示。预定特征可以是在音频内容的图形化表示中具有对应的图形化表示元素的任意特征,例如,其可以是音频内容中的说话者、谈论的话题、各说话者之间的谈话模式、各说话者说话的先后顺序、各个话题之间的承接关系中的任意一个或多个。因此,对于具有预定特征的音频片段,其具有由表示所述预定特征的图形化元素形成的图形化表示。由于音频内容通常包含多个音频片段,因此具有预定特征的音频片段的图形化表示往往是该音频片段所属于的音频内容的图形化表示的一部分(在下文的描述中称为子图形化表示)。当然,上述具有预定特征的音频片段也可能是整个音频内容,此时,该音频片段的子图形化表示即整个音频内容的图形化表示在该步骤中,将确定的子图形化表示与音频内容库中的各个音频内容的各个图形化表示进行比较,以确定哪个图形化表示中包含该子图形化表示。例如,如果所述预定特征是音频内容中的说话者,具有预定特征的音频片段的图形化表示是表示所述说话者的图形化元素,则在该步骤中,将在各个音频内容的各个图形化表示中搜索该图形化元素。
在步骤S902,呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。在搜索到了包含有所述子图形化表示的图形化表示之后,可以向例如用户呈现该图形化表示对应的音频内容,该音频内容即为包含有具有预定特征的音频片段的音频内容。
通过上述音频内容搜索方法,用户能够从音频内容库中搜索出其中预定说话者关于某一话题进行了谈论的所有音频内容,由此能够了解该话题的谈论历史,跟踪该话题的演进。
图10例示了根据本发明实施例的搜索包含有具有预定特征的音频片段的音频内容的方法的示例性应用情景。
如图10所示,用户希望搜索出所有说话者A在其中谈论了“语音识别”的音频内容。为此,用户可以在如图10左侧所示的图形化表示中框选说话者A和“语音识别”,图10的右侧则列出了通过应用根据本发明实施例的音频内容搜索方法所搜索到的、音频内容库中所有说话者A在其中谈论了“语音识别”的音频内容,并显示了该音频内容的一些相关信息。
图10所示的仅仅是一种示例情形,根据本发明实施例的上述音频内容搜索方法可以搜索具有其他预定特征的音频片段。例如,用户可以以说话者之间的关联关系作为所述预定特征进行搜索。明确地说,用户可以通过在如图10左侧所示的图形化表示中框选例如说话者A、说话者B、“语音识别”、以及说话者A和B之间的连接线,搜索出音频内容库中所有说话者A和说话者B以提问-回答模式谈论了“语音识别”的音频内容,而这种搜索根据现有的音频搜索技术是很难实现的。
下面,参照图11来描述根据本发明实施例的生成音频内容的图形化表示的设备的结构框图。该设备可以执行上文所述的生成音频内容的图形化表示的方法。
如图11所示,根据本发明实施例的生成音频内容的图形化表示的设备1100包括获取装置1101、分析装置1102、选择装置1103和生成装置1104。该设备1100既可以在例如音频会议进行过程中实时生成对应的图形化表示,也可以应用于录制得到的音频内容。
获取装置1101获取有关音频内容中的要图形化表示的对象的元数据。
音频内容中的要图形化表示的对象是将在所生成的图形化表示中呈现的实体,其可以根据实际需要来选择。例如,在本实施例中,图形化表示的对象包括音频内容中的说话者和谈论的话题中的至少一种。要图形化表示的对象的元数据是后续处理的基础数据,其可以根据用户的需要进行设定。例如,作为一种示例,对于说话者而言,其元数据可以是有关说话者的基本属性的数据,以及有关说话者的语音特性的数据等;对于谈论的话题而言,其元数据可是谈论的话题的基本属性信息。所述各个元数据可以通过不同的方式来获取,例如说话者的性别、年龄等基本属性可以是从外部预先获知的,而说话者的语音特性则是分析音频内容而确定的。
在获取了要图形化表示的对象的元数据之后,获取装置1101可以将其存储在内部或外部存储器中,以用于后续的生成图形化表示的处理。作为一种可选的方式,对于元数据中不会随时间而变化的静态数据,可以存储在本地数据文件中;而对于元数据中随时间而变化的动态数据和大数据,则仅将这些数据的统一资源标识符存储在该本地数据文件中。
分析装置1102分析所述元数据以确定要图形化表示的对象之间的关联关系。关联关系用于反映要图形化表示的对象之间的各种相互关系,其可以根据实际需要来设定。例如,在本实施例中,关联关系可以是说话者之间的谈话模式、说话者说话的先后顺序或谈论的话题之间的承接关系。关联关系在上文中已有详细描述,此处不再赘述。分析装置1102可以包括音频片段划分单元11021和关联关系确定单元11022。片段划分单元11021可以采用本领域中任何已知的技术,根据谈论的话题,将音频内容划分为音频片段。如果要图形化表示的对象是说话者,关联关系确定单元11022根据谈论的话题的诸如开始时间和结束时间等时间信息,确定各个谈论的话题之间的承接关系,作为关联关系;如果要图形化表示的对象是说话者,关联关系确定单元11022针对每个音频片段,分析其中的说话者的语音特性信息,确定说话者之间的谈话模式和说话者说话的先后顺序中的至少一个,作为所述关联关系。关联关系确定单元11022可以按照上文所述的具体方式来确定关联关系,在这里不再赘述。
回到图11,选择装置1103从图形化表示元素的集合中选择与感兴趣的要图形化表示的对象对应的图形化表示元素以及与感兴趣的要图形化表示的对象之间的关联关系对应的图形化表示元素。
如上文中提到的,对于每种要图形化表示的对象和每种关联关系都有各自对应的图形化表示元素,用来代表该要图形化表示的对象和该关联关系。图形化表示元素有哪些种类,以及具体采用什么形状可以由用户预先任意设定,只要能够区分表示各种每种要图形化表示的对象和每种关联关系即可。
下面,参照图12来详细描述选择装置1103。如图12所示,选择装置1103可以包括数据读取单元11031、选择单元11032、显示单元11033和输入单元11034。
数据读取单元11031用于从存储器中读取元数据。具体的,在本实施例中,数据读取单元11031从本地数据文件中读取静态数据,并从由本地数据文件中存储的统一资源标识符指示的地址获取动态数据和大数据。需要说明的是,动态数据和大数据大多是为了使生成的图形化表示的信息更完整,内容更丰富,因此其并非是生成基本的图形化表示所必需的数据。所以,数据读取单元11031也可以仅从本地数据文件中读取静态数据,而不根据统一资源标识符获取对应的动态数据和大数据。
选择单元11032基于来自数据读取单元11031的静态数据、动态数据和大数据以及来自分析装置1102的分析确定的关联关系,从图形化表示元素的集合中选择与感兴趣的要图形化表示的对象对应的图形化表示元素以及与感兴趣的要图形化表示的对象之间的关联关系对应的图形化表示元素。
与要图形化表示的对象对应的图形化表示元素比较容易定义,因此通常对于要图形化表示的对象,在图形化表示元素的集合中存在对应的图形化表示元素。然而,如上文中举例说明的,对于关联关系,在图形化表示元素的集合中有可能不存在对应的图形化表示元素。在某一关联关系在图形化表示元素的集合中不存在对应的图形化表示元素的情况下,选择单元11032可以配置为按照两种不同的方式进行处理。具体的,选择单元11032可以直接选择图形化表示元素的集合中用于表示与该某一关联关系类似的关联关系的图形化表示元素,作为与该某一关联关系对应的图形化表示元素。或者选择单元11032可以经由显示单元11033通知用户不存在对应的图形化表示元素,并向用户呈现该关联关系、以及与该关联关系对应的由分析装置1102分析得到的具体分析结果。另外,可选的,显示单元11033还可以向用户显示该新的关联关系与哪种关联关系近似等提示信息。如果用户通过输入单元11034输入了为该关联关系定义的新的图形化表示元素,则选择单元11034将该新的图形化表示元素作为与该关联关系对应的图形化表示元素。能够理解,显示单元11033和输入单元11034并非是必需的,例如如果选择单元11032被配置为按照上述第一种方式进行处理,则显示单元11033和输入单元11034可以被去除。
生成装置1104基于所选择的图形化表示元素,生成所述音频内容的图形化表示。具体的,该生成装置1104基于所选择的图形化表示元素,通过例如按照上文所述的方式来确定各图形化表示元素的布局、位置等,生成最终的图形化表示。
另外,可选的,根据本发明实施例的生成音频内容的图形化表示的设备1100还可以包括显示装置1105,用于显示生成的图形化表示。
下面,参照图13来描述根据本发明实施例的在音频内容库中搜索音频内容的设备的结构框图。该设备可以执行上文所述的搜索音频内容的方法。
如图13所示,根据本发明实施例的搜索音频内容的设备1300包括搜索装置1301和呈现装置1302。该设备1300可以利用图形匹配容易地搜索出音频内容库中所有包含有具有预定特征的音频片段的音频内容。
搜索装置1301在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分。
如前所述,音频内容库中的每个音频内容都具有上文中描述的根据本发明实施例的生成音频内容的图形化表示的方法所生成的对应的图形化表示。预定特征可以是在音频内容的图形化表示中具有对应的图形化表示元素的任意特征,例如,其可以是音频内容中的说话者、谈论的话题、各说话者之间的谈话模式、各说话者说话的先后顺序、各个话题之间的承接关系中的任意一个或多个。因此,对于具有预定特征的音频片段,其具有由表示所述预定特征的图形化元素形成的图形化表示。由于音频内容通常包含多个音频片段,因此具有预定特征的音频片段的图形化表示往往是该音频片段所属于的音频内容的图形化表示的一部分(在下文的描述中称为子图形化表示)。搜索装置1301将确定的子图形化表示与音频内容库中的各个音频内容的各个图形化表示进行比较,以确定哪个图形化表示中包含该子图形化表示。例如,如果所述预定特征是音频内容中的说话者,具有预定特征的音频片段的图形化表示是表示所述说话者的图形化元素,则该搜索装置1301将在各个音频内容的各个图形化表示中搜索该图形化元素。
确定装置1302确定与搜索到的子图形化表示对应的音频片段所属于的音频内容。在搜索到了包含有所述子图形化表示的图形化表示之后,呈现装置1302呈现出该图形化表示对应的音频内容,该音频内容即为包含有具有预定特征的音频片段的音频内容。该呈现装置1302可以将所述音频内容及其相关信息列出在显示设备上,作为音频内容的搜索结果。
根据本发明上述生成音频内容的图形化表示的方法和设备通过呈现由表示音频中的说话者、讨论的话题、说话者之间的谈话模式、话题之间的关联关系等的图形化表示元素组成的图形化表示,使得用户快速了解音频中的具体内容,从而节省时间同时提高便利性。
另外,通过应用上述生成音频内容的图形化表示的技术,用户能够通过图形匹配从音频内容库中搜索出其中预定说话者关于某一话题进行了谈论的所有音频内容,由此能够了解该话题的谈论历史,跟踪该话题的演进。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (21)

1.一种生成音频内容的图形化表示的方法,包括:
获取有关音频内容中的要图形化表示的对象的元数据;
分析所述元数据以确定要图形化表示的对象之间的关联关系;
从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;以及
基于所选择的图形化表示元素,生成所述音频内容的图形化表示,
其中所述要图形化表示的对象的元数据包括以下至少一种:谈论的话题的基本属性信息;说话者的基本属性信息和说话者的语音特性信息。
2.如权利要求1所述的方法,所述要图形化表示的对象包括音频内容中的说话者和谈论的话题中的至少一种。
3.如权利要求1所述的方法,其中所述要图形化表示的对象之间的关联关系是说话者之间的谈话模式、说话者说话的先后顺序和谈论的话题之间的承接关系中的至少一种。
4.如权利要求3所述的方法,其中,
响应于所述要图形化表示的对象是谈论的话题,分析所述元数据以确定要图形化表示的对象之间的关联关系包括:根据谈论的话题的基本属性信息中的时间信息,确定各个谈论的话题之间的承接关系;
响应于所述要图形化表示的对象是说话者,分析所述元数据以确定要图形化表示的对象之间的关联关系包括:根据谈论的话题,将所述音频内容划分为音频片段;对每个音频片段,分析其中的说话者的语音特性信息,确定说话者之间的谈话模式和说话者说话的先后顺序中的至少一个。
5.如权利要求1所述的方法,其中所述从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素包括:
读取存储在本地数据文件中的所获取到的元数据中的静态数据;
根据存储在本地数据文件中的所获取到的元数据中的动态数据和大数据的统一资源标识符,读取对应的动态数据和大数据;
根据所述静态数据、动态数据、大数据和关联关系,从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素。
6.如权利要求1-5中任一项所述的方法,其中从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素还包括:
响应于某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素,选择所述图形化表示元素的集合中用于表示与该某一关联关系类似的关联关系的图形化表示元素,作为与该某一关联关系对应的图形化表示元素。
7.如权利要求1-5中任一项所述的方法,其中从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素还包括:
响应于某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素:向用户呈现该关联关系;并响应于用户为该关联关系定义的新的图形化表示元素,将该新的图形化表示元素作为与该关联关系对应的图形化表示元素。
8.如权利要求1-5中任一项所述的方法,还包括:显示所述音频内容的图形化表示。
9.如权利要求1-5中任一项所述的方法,其中所述音频内容可以划分为一个或多个音频片段,该音频片段具有与其对应的子图形化表示,该子图形化表示是所述音频内容的图形化表示的一部分。
10.一种生成音频内容的图形化表示的设备,包括:
获取装置,被配置为获取有关音频内容中的要图形化表示的对象的元数据;
分析装置,被配置为分析所述元数据以确定要图形化表示的对象之间的关联关系;
选择装置,被配置为从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象和关联关系对应的图形化表示元素;以及
生成装置,被配置为基于所选择的图形化表示元素,生成所述音频内容的图形化表示,
其中所述要图形化表示的对象的元数据包括以下至少一种:谈论的话题的基本属性信息;说话者的基本属性信息和说话者的语音特性信息。
11.如权利要求10所述的设备,所述要图形化表示的对象包括音频内容中的说话者和谈论的话题中的至少一种。
12.如权利要求10所述的设备,其中所述要图形化表示的对象之间的关联关系是说话者之间的谈话模式、说话者说话的先后顺序和谈论的话题之间的承接关系中的至少一种。
13.如权利要求12所述的设备,其中所述分析装置包括:
音频片段划分单元,被配置为根据谈论的话题,将音频内容划分为音频片段;
关联关系确定单元,被配置为根据以下的至少一种确定关联关系:根据谈论的话题的基本属性信息中的时间信息,确定各个谈论的话题之间的承接关系,作为关联关系;对于每个音频片段,分析其中的说话者的语音特性信息,确定说话者之间的谈话模式和说话者说话的先后顺序中的至少一个,作为关联关系。
14.如权利要求10所述的设备,其中,所述选择装置包括:
数据读取单元,被配置为读取存储在本地数据文件中的所获取到的元数据中的静态数据,以及根据存储在本地数据文件中的所获取到的元数据中的动态数据和大数据的统一资源标识符,读取对应的动态数据和大数据;和
选择单元,被配置为根据所述静态数据、动态数据、大数据和关联关系,从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素。
15.如权利要求14所述的设备,其中,所述选择单元被进一步配置为:
响应于某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素,选择所述图形化表示元素的集合中用于表示与该某一关联关系类似的关联关系的图形化表示元素,作为与该某一关联关系对应的图形化表示元素。
16.如权利要求14所述的设备,其中,所述选择装置还包括:
显示单元,被配置为响应于某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素,向用户呈现该关联关系;和
输入单元,被配置为输入为该某一关联关系定义的新的图形化表示元素,
其中,所述选择单元被进一步配置为选择该新的图形化表示元素作为与该某一关联关系对应的图形化表示元素。
17.如权利要求10-14中任一项所述的设备,还包括配置为显示所述音频内容的图形化表示的显示装置。
18.如权利要求10-14中任一项所述的设备,其中所述音频内容包括一个或多个音频片段,该音频片段具有与其对应的子图形化表示,该子图形化表示是所述音频内容的图形化表示的一部分。
19.一种在音频内容库中搜索音频内容的方法,包括:
在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示同一种被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分;
呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。
20.如权利要求19所述的方法,其中所述预定特征是音频片段中的说话者、谈论的话题、各说话者之间的谈话模式、各说话者说话的先后顺序、各个话题之间的承接关系中的至少一个。
21.一种在音频内容库中搜索音频内容的设备,包括:
搜索装置,被配置为在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分;
呈现装置,被配置为呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。
CN201310385132.6A 2013-08-29 2013-08-29 生成音频的图形表示的方法和设备、音频搜索方法和设备 Expired - Fee Related CN104424955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310385132.6A CN104424955B (zh) 2013-08-29 2013-08-29 生成音频的图形表示的方法和设备、音频搜索方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310385132.6A CN104424955B (zh) 2013-08-29 2013-08-29 生成音频的图形表示的方法和设备、音频搜索方法和设备

Publications (2)

Publication Number Publication Date
CN104424955A CN104424955A (zh) 2015-03-18
CN104424955B true CN104424955B (zh) 2018-11-27

Family

ID=52973748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310385132.6A Expired - Fee Related CN104424955B (zh) 2013-08-29 2013-08-29 生成音频的图形表示的方法和设备、音频搜索方法和设备

Country Status (1)

Country Link
CN (1) CN104424955B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
CN108010513B (zh) * 2016-10-28 2021-05-14 北京回龙观医院 语音处理方法及设备
CN108614844B (zh) * 2016-12-13 2020-12-29 腾讯科技(北京)有限公司 多媒体文件生成方法及装置
CN108492347B (zh) * 2018-04-11 2022-02-15 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN110209380B (zh) * 2019-05-30 2020-11-03 上海直真君智科技有限公司 一种面向大数据异构模型的统一动态元数据处理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426577A (zh) * 2000-04-06 2003-06-25 阿纳诺瓦有限公司 人物动画
CN1755723A (zh) * 2004-09-09 2006-04-05 美国电报电话公司 用于报告来自自动对话系统的信息的系统和方法
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101300596A (zh) * 2005-11-02 2008-11-05 创新科技有限公司 用于下载在媒体频道中公布的数字内容的系统
CN101454827A (zh) * 2006-05-25 2009-06-10 雅马哈株式会社 语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统
CN101546587A (zh) * 2008-03-25 2009-09-30 国际商业机器公司 在播放歌曲时自动显示视觉元素的方法和装置
CN101901595A (zh) * 2010-05-05 2010-12-01 北京中星微电子有限公司 一种根据音频音乐生成动画的方法和系统
CN101983501A (zh) * 2008-04-08 2011-03-02 思科技术公司 具有语音消息概要的用户界面
CN102543099A (zh) * 2010-12-24 2012-07-04 索尼公司 声音信息显示装置、声音信息显示方法和程序
CN102915320A (zh) * 2011-06-28 2013-02-06 索尼公司 用于音频辨识的扩展的视频镜头媒体引擎

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873735A (en) * 1994-12-28 1999-02-23 Sharp Kabushiki Kaisha Information reproducer and information creating unit
US8065155B1 (en) * 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
AU2002216345A1 (en) * 2000-12-19 2002-07-01 Speechview Ltd. Generating visual representation of speech by any individuals of a population
GB0123349D0 (en) * 2001-09-28 2001-11-21 Koninkl Philips Electronics Nv Audio and/or visual system method and components
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US20060041632A1 (en) * 2004-08-23 2006-02-23 Microsoft Corporation System and method to associate content types in a portable communication device
KR100782825B1 (ko) * 2005-12-01 2007-12-06 삼성전자주식회사 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체
JP4660861B2 (ja) * 2006-09-06 2011-03-30 富士フイルム株式会社 楽曲画像シンクロ動画シナリオ生成方法、プログラムおよび装置
US20110137976A1 (en) * 2009-12-04 2011-06-09 Bob Poniatowski Multifunction Multimedia Device
JP4725936B1 (ja) * 2011-02-01 2011-07-13 有限会社Bond 入力支援装置、入力支援方法及びプログラム
JP2013120203A (ja) * 2011-12-06 2013-06-17 Seiko Epson Corp 画像表示装置、画像表示システム、及び画像表示装置の制御方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426577A (zh) * 2000-04-06 2003-06-25 阿纳诺瓦有限公司 人物动画
CN1755723A (zh) * 2004-09-09 2006-04-05 美国电报电话公司 用于报告来自自动对话系统的信息的系统和方法
CN101300596A (zh) * 2005-11-02 2008-11-05 创新科技有限公司 用于下载在媒体频道中公布的数字内容的系统
CN101454827A (zh) * 2006-05-25 2009-06-10 雅马哈株式会社 语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101546587A (zh) * 2008-03-25 2009-09-30 国际商业机器公司 在播放歌曲时自动显示视觉元素的方法和装置
CN101983501A (zh) * 2008-04-08 2011-03-02 思科技术公司 具有语音消息概要的用户界面
CN101901595A (zh) * 2010-05-05 2010-12-01 北京中星微电子有限公司 一种根据音频音乐生成动画的方法和系统
CN102543099A (zh) * 2010-12-24 2012-07-04 索尼公司 声音信息显示装置、声音信息显示方法和程序
CN102915320A (zh) * 2011-06-28 2013-02-06 索尼公司 用于音频辨识的扩展的视频镜头媒体引擎

Also Published As

Publication number Publication date
CN104424955A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
US11069367B2 (en) Speaker association with a visual representation of spoken content
US11417343B2 (en) Automatic speaker identification in calls using multiple speaker-identification parameters
US20200322399A1 (en) Automatic speaker identification in calls
CN107211058A (zh) 基于会话动态的会议分段
CN107211061A (zh) 用于空间会议回放的优化虚拟场景布局
CN107210045A (zh) 会议搜索以及搜索结果的回放
CN107211027A (zh) 感知质量比会议中原始听到的更高的后会议回放系统
CN108962282A (zh) 语音检测分析方法、装置、计算机设备及存储介质
KR20180107147A (ko) 다변수 서치용 사용자 인터페이스
CN107211062A (zh) 虚拟声学空间中的音频回放调度
CN107210034A (zh) 选择性会议摘要
CN104424955B (zh) 生成音频的图形表示的方法和设备、音频搜索方法和设备
CN107464555A (zh) 向包含语音的音频数据添加背景声音
CN107210036A (zh) 会议词语云
EP3593346B1 (en) Graphical data selection and presentation of digital content
US9922644B2 (en) Analysis of professional-client interactions
CN111739556A (zh) 一种语音分析的系统和方法
US20240061899A1 (en) Conference information query method and apparatus, storage medium, terminal device, and server
US20190122667A1 (en) Question Urgency in QA System with Visual Representation in Three Dimensional Space
US11017790B2 (en) Avoiding speech collisions among participants during teleconferences
WO2020017151A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20200082240A (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
US20190189110A1 (en) Discussion model generation system and method
CN113241061B (zh) 语音识别结果的处理方法、装置、电子设备和存储介质
US20230222159A1 (en) Structuring audio session data with independently queryable segments for efficient determination of high value content and/or generation of recombinant content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181127

Termination date: 20200829

CF01 Termination of patent right due to non-payment of annual fee