CN101329867A

CN101329867A - 一种语音点播方法及装置

Info

Publication number: CN101329867A
Application number: CNA2007101112911A
Authority: CN
Inventors: 王珩
Original assignee: Siemens Ltd China
Current assignee: Siemens Ltd China; Siemens AG; Siemens Ltd India
Priority date: 2007-06-21
Filing date: 2007-06-21
Publication date: 2008-12-24

Abstract

本发明涉及语音识别领域，具体的讲是一种语音点播方法及装置。为了方便用户进行语音点播，将媒体中建立多个标签，每个片段都具有相应的关键词，通过对用户语音查询信息的识别，比较查询语音信息与关键词，如果找到匹配则直接播放关键词所联系到的媒体内容。本发明的有益效果在于，减少了用户在播放音像文件时时逐帧逐段检索所需的时间，应用在通信或互联网络上，可以降低网络负载，降低用户的通信费用。

Description

一种语音点播方法及装置

技术领域

本发明涉及语音识别领域，特别涉及语音点播技术，具体的讲是一种语音点播方法及装置。

背景技术

现在的人们由于生活工作的紧张，大部分时间都奔波在上下班的路上，回到家后很少有时间完整地观看自己喜欢的电视节目，如体育节目，娱乐节目等，通常只是大概地回顾一下广播新闻的内容，通过逐帧或者时间的方式对录像进行检索，只观看自己喜欢的运动员的那部分比赛录像，或者只观看自己关心体育比赛的上半场或下半场。同样，在火车或者飞机上人们可以观看电视节目录像或者听广播录音，或者观看自己携带的电影光盘或CD来消磨时光，而在很多者电影录像、CD或广播录音中选择出自己喜欢的节目是件很困难的事情，一般都是随便挑选一个电影或者音乐来欣赏；或者通过搜索电影或者音乐的名称来获得媒体内容，在存储介质中存储的媒体和媒体的名称存在对应关系，当用户按照名称进行检索时，找到了一致的名称也就找到了该媒体的播放位置，从而可以根据媒体名称进行检索；如果是想观看某一部分的内容还是必须通过录像的逐帧或者时间进行检索。但是逐帧或按照时间的这两种检索方式不能满足人们对特定感兴趣的媒体内容的检索要求，很耽误用户时间，并且检索效果也很差，例如，人们可能只记得某个电影的某一段情景或广播的某个片段，而要根据这些片段从成千上万的媒体中找出想要的内容是很困难的。对于现在海量的媒体内容来说，这两种检索手段显示出了不足，特别是对于现在移动通信终端在网络上观看电视节目等应用来说，现有的检索方式使网络中产生不必要的负载，并且造成使用者流量通信费用的上升。

在2000年第八届国际多媒体大会的会议论文集的第105至115页公开了一种制作录像集锦的技术，该方案以棒球比赛作为例子，通过对现场噪音进行滤除，获得某些有效的现场语音信息，即声音能量超过一门限值的现场语音信息，例如，解说员的语音信息，主持人的语音信息和观众的语音信息，将这些语音信息与系统中的关键语音信息相比较，如果符合则将该段视频内容作为集锦的一部分，例如运动员掷球阶段，运动员挥棒击打阶段，击打后的阶段等等。但是该方案没有给用户提供任何检索手段，如果用户想要观看某个段落的节目，还是要通过传统的按时间或者逐帧的检索才能实现。

发明内容

本发明为了解决以上现有技术中的不足，提供一种语音点播方法，使用户可以根据自己语音，方便的查找感兴趣的录音录像节目，减少用户在检索录音录像内容时的不便。

本发明还提供了一种语音点播装置，以执行相应方法。

一种语音点播方法，包括步骤1，利用语音识别模块对媒体文件的音频信息进行语音识别，并生成与所述音频信息对应的语言字符串；还包括，

步骤2，生成至少一个关键词列表，其具有一个或一个以上关键词，同一个列表内的各个关键词具有相同或近似的含义；

步骤3，利用标签模块将所述字符串与所述关键词列表中的关键词相比较，如果所述字符串与某一关键词列表中的关键词字符串相同，则记录下该媒体中出现所述关键词时的播放参数，将所述关键词所在的列表与播放参数作为一个标签存储起来，如果没有相同的关键词则不进行记录；

步骤4，当用户进行语音检索时，利用所述语音识别模块对用户的语音查询指令进行识别，并生成与所述语音查询指令对应的查询字符串；

步骤5，利用检索模块检索所有所述标签的关键词列表中是否存与查询字符串相同的关键词字符串，如果存在，则调取该关键词所在的标签的播放参数，并指令播放装置按照该播放参数对所述媒体文件进行播放；如果没有检索到与查询字符串相同的关键词字符串，则提示用户没有找到与查询指令相符合的媒体内容。

根据本发明方法的一个进一步的方面，在所述步骤2中还包括配置步骤，针对于媒体的内容设置用于语音识别的语言资料库的范围和用于比较的关键词列表的范围。

根据本发明方法的再一个进一步的方面，在所述步骤2中还包括用户编辑关键词列表的步骤，在所述关键词列表中加入或者删除关键词。

根据本发明方法的另一个进一步的方面，在录制媒体文件同时，或者对已经录制好的媒体文件进行解码后，对该媒体的音频信息进行步骤1-步骤5。

根据本发明方法的另一个进一步的方面，在所述步骤1中，只对所述媒体音频信息中能量超过一预定门限值的音频信息进行语音识别。

根据本发明方法的另一个进一步的方面，所述播放参数包括媒体播放中的时间和/或存储媒体的存储器物理地址。

根据本发明方法的另一个进一步的方面，所述媒体文件包括视频媒体文件和/或音频媒体文件。

根据本发明方法的另一个进一步的方面，在所述步骤3中所述用户通过网络输入语音查询信息，并通过网络获得所述媒体信息。

一种语音点播装置，包括语音识别模块，标签模块，检索模块，存储器和播放装置；所述语音识别模块识别媒体中的音频信息和用户的语音查询指令，并将所述音频信息转换为语言字符串；所述标签模块连接于所述语音识别模块和存储器之间，将媒体音频信息的字符串与所述存储器中至少一个关键词列表中的关键词字符串相比较，其中具有相同含义的关键词存储于一个关键词列表中，如果与某个关键词列表中的关键词字符串相同，则记录下该段媒体出现所述关键词时的播放参数，将所述关键词所在的列表与播放参数作为一个标签，否则不进行记录；所述检索模块连接于所述语音识别模块和存储器之间，并且与所述播放装置相连接，将所述用户语音查询指令字符串与所述标签中的关键词字符串相比较，如果与所述标签的关键词列表中的关键词相同，则调取该关键词所在的标签的播放参数，指令所述播放装置按照该播放参数对所述媒体文件进行播放；否则提示用户没有找到与查询指令相符合的媒体内容。

根据本发明装置的一个进一步的方面，还包括一个配置模块，分别连接于语音识别模块、标签模块和检索模块，用于设置语音识别模块的语言资料库的范围，设置标签模块的关键词列表的范围。

根据本发明装置的再一个进一步的方面，还包括一编辑模块，分别连接于标签模块和检索模块，用于用户编辑关键词列表。

根据本发明装置的另一个进一步的方面，还包括一网络接口，所述语音点播装置通过所述网络接口与用户通信终端相连接，所述语音识别模块通过所述网络接口获得用户的语音查询信息，所述检索模块通过所述网络接口将所述进行播放的媒体信息向用户通信终端进行传送。这样可以减少网络中不必要的数据传输，减少网络负载，并且降低用户的通信费用。

根据本发明装置的另一个进一步的方面，还包括一录像模块，分别与所述语音识别模块和存储器相连接，所述录像模块将所述媒体数据传送给所述语音识别模块，并将所述媒体数据存储于存储器中。

根据本发明装置的另一个进一步的方面，还包括一解码模块，分别与所述语音识别模块和存储器相连接，将所述存储器中的媒体数据解码后，将所述音频信息传送给语音识别模块进行音频识别。

本发明的有益效果在于，通过语音标签可以将一个媒体信息分解为多个片段，用户想得到哪部分感兴趣的内容就可以通过语音指令直接获得，不需要找出和/或选中媒体文件的名称。用户只需要记住某些段落的关键词，甚至关键词的同义词，就能准确地调出用户想要的段落，并从该段落开始播放。这样减少了用户在播放音像文件时时逐帧逐段检索所需的时间。本发明应用在通信或互联网络上，可以降低网络负载，降低用户的通信费用。

附图说明

图1为本发明语音点播方法流程图；

图2为本发明点播装置应用于电视录像实施例示意图；

图3为在网络点播系统示意图。

具体实施方式

下面，结合附图对于本发明进行如下详细说明。

如图1所示为本发明语音点播方法流程图，在本例中将本发明方法应用于录制电视节目的播放。

步骤1，在录制电视节目时，利用语音识别模块对媒体文件的音频信息进行语音识别，并生成与所述音频信息对应的语言字符串；

其中关键词列表是按照媒体中不同的片段将关键词列表进行分类，将含义相近或相同的关键词放入一个关键词列表，例如，在棒球比赛中“挥棒”、“击打”或“击球”均为一类型的关键词，代表击球的阶段，将“挥棒”、“击打”和“击球”加入一个关键词列表，在代表其他阶段的关键词列表也应用类似的划分。

对电视节目进行语音识别前还存在一个配置步骤，针对于媒体的内容设置用于语音识别的语言资料库和用于比较的关键词列表的范围，在具体的某种比赛或者媒体内容的语言资料库中进行语音识别，并且关键词列表也随着比赛的不同或者媒体内容的不同进行变化，例如，针对于棒球比赛来说，就不应该出现关于篮球或者足球比赛的关键词列表。用户还可以自己编辑关键词列表，例如，用户想观看某一位运动员的录像节目，则可以输入该运动员名字的文本或者语音关键词，构成一个新的关键词列表。

在语音识别步骤中可以使用现有技术中的语音识别方法滤除电视节目中的噪音，例如根据解说员声音的起伏和比赛现场发出的声音，例如解说员喊出或者说出运动员的击球动作，并且只当这个语音信号的能量超过一定门限值时，则判断解说员的语音信息“击球”是有效的，而其他的有关于“击球”的语音信息都将被滤除。当出现有效的语音信息后通过标签模块进行比较，将解说员的“击球”与关键词列表中的关键词进行比较，如果关键词列表中有“击球”这个关键词，则同时记录下出现该关键词时比赛的时间参数，例如在棒球比赛节目的1分15秒时出现了有效的“击球”语音信息，则将“击球”与1分15秒进行关联，或者将“击球”与该段录像在硬盘中的物理地址相关联，将“击球”和时间参数一起作为一个标签。当用户回放这段棒球比赛时，说出想要看的片段名称“击球”，语音识别模块识别出用户的输入，检索模块将“击球”与所有存储的标签进行比较，找到相应的标签，并获得1分15秒这个时间参数，直接跳转至1分15秒的时间点进行播放，如此用户就能通过语音直接看到想要观看的比赛录像。

同样的方法也可以应用于广播节目、音频节目的录制和点播。

同样的方式也可以应用于新闻的播报，现在的综合新闻节目将新闻分成多类，例如时事新闻、体育新闻和娱乐新闻等，在录制节目时设置要语音识别的媒体内容，即综合新闻类，记录下不同类的新闻时间，当用户观看录像时输入“体育新闻”作为检索的关键词，检索到相应的标签，直接跳转到体育新闻的段落进行播放。

当对已经存储好的媒体内容进行制作标签的工作时，可以先将存储器中的媒体数据取出并解码，之后再对解码后的音频信息进行音频识别、制作标签等操作。

本发明方法还可以应用于互联网中的媒体点播，在媒体服务器中存储很多媒体内容，媒体服务器通过语音识别模块和标签模块为每个媒体生成多个标签，用于标记这个媒体信息中不同片段；用户通信终端，例如手机、PDA、计算机等，通过网络与媒体服务器建立连接，通过语音点播某个媒体内容中的某一段或某几段感兴趣的内容，媒体服务器通过语音识别模块和检索模块找到相应的标签，并且根据时间参数或者物理地址跳转到相应的内容，将这部分内容通过网关传送给用户通信终端。这样可以减少网络中不必要内容的传送，减少用户不必要的费用，减少网络负载。

如图2所示为本发明点播装置应用于电视录像实施例示意图，其中包括，录像模块，语音识别模块，标签模块，检索模块，存储器和播放装置；录像模块连接于所述语音识别模块和存储器之间，将电视节目录制于存储器中，并向语音识别模块输出电视节目的音频信号；所述标签模块连接于所述语音识别模块和存储器之间，将经过语音识别模块处理后的电视节目中语音信息的字符串与关键词列表相比较，如果与关键词相同则记录下该段电视节目的参数(一般为时间参数)，将关键词与参数作为一个标签存储于存储器；所述检索模块连接于所述语音识别模块和存储器之间，并且所述检索模块连接于所述播放装置，将经过语音识别模块处理后的用户查询语音信息字符串与所述标签相比较，如果相同则根据所述参数通过播放装置将电视节目的某个片段输出。

录像模块将电视节目中的音频信息传送给语音识别模块，语音识别模块针对于不同电视节目例如篮球比赛，棒球比赛或新闻中的声学模型进行语音识别，并且将识别的语音声学数据转录为文本形式的数据，例如将中文语音信号识别为文本类型的拼音，或者将英文语音信号识别为文本类型的单词。利用上述语音识别模块识别模块对电视节目进行语音识别，获得电视节目中的语音信息。

标签模块，将语音识别模块识别的语音信息与预先存储的关键词列表作比较，如果与关键词相同则开始录像，或者记录下在整个录像过程中出现该语音信息的时间，并将关键词列表和时间参数作为录像内容的标签进行存储，以便于用户以后的检索。所述时间也可以为出现关键词的存储器的硬件地址。

检索模块，根据用户输入的语音查询信息检索多个标签，判断是否与所述标签中的关键词相同，如果相同则根据所记录的时间参数(或存储器物理地址)信息跳转到相应的录像内容，对该部分内容进行播放。

优选的还具有一配置模块，分别连接于语音识别模块、标签模块和检索模块，在识别电视节目中的语音信号之前设置电视节目的类型，例如新闻类型，篮球比赛，棒球比赛等，在语音识别时根据所选电视节目类型的不同选用不同的语言资料库，并且选择针对于不同媒体内容的关键词列表，以提高识别的准确性和效率。

优选的还包括一编辑模块，分别连接于标签模块和检索模块，用于用户编辑关键词列表，设置用户感兴趣的片段，例如，用户对多场比赛连续录像中的某个运动员感兴趣，则可以通过添加关键词列表中的关键词获得相关运动员比赛的录像。

以电视棒球赛为例说明本发明，当本发明装置工作时，用户首先利用配置模块设置媒体的内容，在本例中为棒球比赛，语音识别模块将使用关于棒球比赛类的语言资料库；语音识别模块识别棒球比赛中的语音信息，可以使用背景技术中的语音识别技术获得棒球比赛中的有效语音信息，例如识别出解说员的关于挥棒、击球、跑垒等关键词的语音信息；标签模块根据语音信息比较预先定义的关键词列表，并同时记录下出现该关键词的时间参数，建立关键词列表与时间参数的映射，构成整个棒球比赛的语音标签，每个标签代表一个关键词列表和播放的起始点。用户在观看该棒球比赛的录像时，说出想观看的片段关键词，例如用户想看击球的片段，则说出“击球”，语音识别模块接收用户的语音信号，并识别出“击球”这个关键词，检索模块检索存储的标签，比较关键词列表中的关键词，如果找到相应的关键词则根据所记录的时间点进行播放。

也可以具有这样的媒体处理装置，具有解码模块，语音识别模块，标签模块，检索模块和存储器，录制电视节目完成后，将存储器中存储的电视节目的音频信息传送给解码模块，由解码模块对数据进行解码，然后将解码后的音频信号传送给语音识别模块，并经过标签模块将电视节目中的语音信息与关键词列表中的关键词相比较，如果与关键词相同则记录下该段电视节目的参数(一般为时间参数)，将关键词与参数作为一个标签存储于存储器。这里的存储器可以是光盘，或者是其他存储介质。再由检索模块根据用户的语音查询信息对标签中的关键词进行比较，最后调出用户所希望的节目内容。

如图3所示为在网络点播系统示意图，用户终端通过网络与媒体服务器相联接，媒体服务器与应用于电视录像的语音点播装置结构类似，在此不再赘述，其不同之处在于，媒体服务器还包括一个网络接口，通过该接口用户通信终端与媒体服务器相联接，实现语音点播。

本发明的有益效果在于减少了用户在播放音像文件时时逐帧逐段检索所需的时间。本发明应用在通信或互联网络上，可以降低网络负载，降低用户的通信费用。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

Claims

1.一种语音点播方法，包括，步骤1，利用语音识别模块对媒体文件的音频信息进行语音识别，并生成与所述音频信息对应的语言字符串；其特征在于还包括，

2.根据权利要求1所述的语音点播方法，其特征在于，在所述步骤2中还包括配置步骤，针对于媒体的内容设置用于语音识别的语言资料库的范围和用于比较的关键词列表的范围。

3.根据权利要求1所述的语音点播方法，其特征在于，在所述步骤2中还包括用户编辑关键词列表的步骤，在所述关键词列表中加入或者删除关键词。

4.根据权利要求1所述的语音点播方法，其特征在于，在录制媒体文件同时，或者对已经录制好的媒体文件进行解码后，对该媒体的音频信息进行步骤1-步骤5。

5.根据权利要求1所述的语音点播方法，其特征在于，在所述步骤1中，只对所述媒体音频信息中能量超过一预定门限值的音频信息进行语音识别。

6.根据权利要求1至5之一所述的语音点播方法，其特征在于，所述播放参数包括媒体播放中的时间和/或存储媒体的存储器物理地址。

7.根据权利要求1或2所述的语音点播方法，其特征在于，所述媒体文件包括视频媒体文件和/或音频媒体文件。

8.根据权利要求1所述的语音点播方法，其特征在于，在所述步骤4中所述用户通过网络输入语音查询指令，并通过网络获得所述媒体信息。

9.一种语音点播装置，其特征在于包括语音识别模块，标签模块，检索模块，存储器和播放装置；所述语音识别模块识别媒体中的音频信息和用户的语音查询指令，并将所述音频信息转换为语言字符串；所述标签模块连接于所述语音识别模块和存储器之间，将媒体音频信息的字符串与所述存储器中至少一个关键词列表中的关键词字符串相比较，其中具有相同含义的关键词存储于一个关键词列表中，如果与某个关键词列表中的关键词字符串相同，则记录下该段媒体出现所述关键词时的播放参数，将所述关键词所在的列表与播放参数作为一个标签，否则不进行记录；所述检索模块连接于所述语音识别模块和存储器之间，并且与所述播放装置相连接，将所述用户语音查询指令字符串与所述标签中的关键词字符串相比较，如果与所述标签的关键词列表中的关键词相同，则调取该关键词所在的标签的播放参数，指令所述播放装置按照该播放参数对所述媒体文件进行播放；否则提示用户没有找到与查询指令相符合的媒体内容。

10.根据权利要求9所述的语音点播装置，其特征在于，还包括一个配置模块，分别连接于语音识别模块、标签模块和检索模块，用于设置语音识别模块的语言资料库的范围和标签模块的关键词列表的范围。

11.根据权利要求9所述的语音点播装置，其特征在于，还包括一编辑模块，分别连接于标签模块和检索模块，用于用户编辑关键词列表。

12.根据权利要求9所述的语音点播装置，其特征在于，还包括一网络接口，所述语音点播装置通过所述网络接口与用户通信终端相连接，所述语音识别模块通过所述网络接口获得用户的语音查询信息，所述检索模块通过所述网络接口将所述进行播放的媒体信息向用户通信终端进行传送。

13.根据权利要求9至12之一所述的语音点播装置，其特征在于还包括一录像模块，分别与所述语音识别模块和存储器相连接，所述录像模块将所述媒体数据传送给所述语音识别模块，并将所述媒体数据存储于存储器中。

14.根据权利要求9至12之一所述的语音点播装置，其特征在于还包括一解码模块，分别与所述语音识别模块和存储器相连接，将所述存储器中的媒体数据解码后，将所述音频信息传送给语音识别模块进行音频识别。