CN1512402A

CN1512402A - 一种语音检索方法及采用该方法的音像信息检索系统

Info

Publication number: CN1512402A
Application number: CNA021590907A
Authority: CN
Inventors: 程国庆
Original assignee: 程松林; 程国庆
Current assignee: Cheng Huanqing
Priority date: 2002-12-31
Filing date: 2002-12-31
Publication date: 2004-07-14
Anticipated expiration: 2022-12-31
Also published as: CN1267838C

Abstract

本发明一种语音检索方法及采用该方法的音像信息检索系统涉及对音像信息采用语音进行检索的方法，及采用该方法的音像信息检索系统。所述语音检索方法包括的步骤为：对每一音像制品预设分类题录数据库和预设关键词表；用一标准语音对其中的关键词进行标引模式，建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；通过训练模式对特定用户第二语音信号进行训练，构建音像制品对特定用户的语音分类题录数据库和语音关键词表；进入待机模式，则由特定用户发出第三语音命令，将该第三语音命令与所述第二语音信号、第一语音信号进行比较后加以判断。本发明能实现采用语音对音像内容进行快速、准确的检索。

Description

一种语音检索方法及采用该方法的音像信息检索系统

技术领域：

本发明涉及一种通过语音进行检索的方法，特别是对音像信息采用语音进行检索的方法，及采用该方法的音像信息检索系统。

背景技术：

常规的信息检索方法及检索系统(IR)研究主要是基于文本为对象，例如诸如Yahoo！、AltaVista、百度搜索引擎等信息检索系统。经典的IR问题是利用一组关键字组成的查询来定位需要的文本文档，即定位文档中的查询关键字来发现匹配的文档。如果一个文档中包含较多的查询项，那么，它就被认为比其他包含较少查询项的文档更“相关”。于是，文档可以按照“相关”度来排序，并显示给用户，以便进一步搜索。一般的IR过程是为文本设计的，却也常用于音像或其他多媒体信息的检索。但是音像或其他多媒体信息是一种不透明的位流，虽然音像信息可以赋予名字、文件格式、采样率等属性，但音像信息之中没有可以确认的词或可比较的实体，因此不能像文本那样搜索或检索音像信息内部的内容。基于人工输入音像文本的属性和描述是进行音像信息检索的方法，该方法的致命缺陷在于：当数据量越来越多时，人工的注释强度加大；人对音像的感知，如音乐的旋律、音调、音质等，难以用文字注释表达清楚。

语音是一种特殊类型的音频，它与文本可以互相转换，可以利用语音识别技术进行音像信息检索是音像信息检索的一个优势。目前利用语音识别技术实现人的自然语言与音像设备对话的技术，已有一定的进展。例如，德国汤姆森-布兰特有限公司申请的中国专利1288222“具有麦克风阵列的语音控制系统”、1288223“用于语音控制的适应方向性特征的装置”，其主要特征在于一个或多个麦克风被集成在消费电子类的环绕声再现的播放电器内，特别是在电视机中，提供一个或多个红外移动检测器检测用户所在位置，从相对远的距离对诸如电视机、录象机、DVD播放机等消费电子产品实现语音激励遥控，但上述技术仍然无法实现直接由语音对音像信息进行检索。

利用自动语音识别(ASR)技术把语音转换为文本，采用文本检索方法进行音像检索，虽然好的连续语音识别系统在小心地操作下可以达到90％以上的词语正确度，但在实际应用中，如电话和新闻广播等，识别率并不高。当一些专业词汇(如人名、地点)不在系统词库中时，语音识别系统处理各方面无限制主题的大范围语音资料识别性能更差。语音识别的重要标志是对识别内容主题的关键词的听觉特征、语义特征的分析基础上语音控制命令的有效性，由于音像制品内容主题的丰富多彩、变化快和发展性限制了利用语音识别技术正确产生控制指令，使正确识别率大大降低，甚至出现错误识别。

发明内容：

本发明解决现有技术中检索音像内容存在的难以准确描述音像内容、正确识别率低等缺陷，提供一种采用语音对音像内容进行快速、准确检索的方法及采用该方法的音像信息检索系统。

本发明的技术方案是：一种语音检索方法，包括如下的步骤：

1)、对每一音像制品做类目索引，设置分类题录，并对每一音像制品的内容主题关键词采样，建立音像制品内容预设分类题录数据库和预设关键词表：

2)、用一标准语音对所述预设分类题录数据库中的分类题录和所述预设关键词表中的关键词进行标引，建立相应的标准语音分类题录识别模型和标准语音关键词识别模型，所述标准语音为第一语音信号，上述过程为标引模式；

3)、通过训练构建音像制品对特定用户的语音分类题录数据库和语音关键词表，构建过程为：特定用户对照所述标准语音对应发出一第二语音信号，通过所述第二语音信号进行训练，使所述第二语音信号与第一语音信号及用户用来控制音像制品播出的第三语音命令形成一一对应关系，并形成基于第二语音信号的语音分类题录数据库和语音关键词表，上述过程为训练模式；

4)由特定用户发出第三语音命令，将该第三语音命令与所述第二语音信号、第一语音信号进行比较，当相似度大于一门槛值时，音像制品播出设备发出控制信号，上述过程为待机模式。

上述类目索引按UDC分类体系分类可以为音像制品相关的时间、出版单位、播出单位、内容本体等概念。

上述构建特定用户的音像制品语音分类题录数据库和语音关键词数据库时，可以设置语音控制密码。

一种实现上述语音检索方法的音像信息检索系统，包括语音系统控制模块和音像信息检索模块，所述语音系统控制模块电连接于所述音像信息检索模块，所述音像信息检索模块由静态存储器和动态存储器组成，所述静态存储器包括：

一音像数据标引器，根据用户的需要和爱好，对各种音像资料的内容主题的听觉特征、语义特征进行基于声音模型和语音模型的分析；自动采集一音像制品内容主题关键词的样本，预先构造各种音像制品内容主题的预设关键词表和音像制品的预设分类题录数据库，并通过第一语音信号建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；

一语音分类题录数据库，根据特定用户的习惯，由特定用户语音任意定义，形成规范的音像制品针对特定用户的语音分类题录数据库；

一语音关键词表，根据特定用户的习惯，由特定用户语音任意定义，形成规范的音像制品针对特定用户的语音关键词表；

一语音检索匹配子系统，接受特定用户的语音提问；对特定用户的第三语音命令进行语法、用词等的检查；对特定用户源提问式进行解释或编译性加工；将提问式语音与标准语音分类题录识别模型和标准语音关键词识别模型及语音分类题录数据库和语音关键词表的数据模型进行匹配运算；将运算结果返回该系统控制模块。

一语音识别软件，用于识别用户的口头语音控制输入命令：标引模式中第一语音信号的建立，即建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；训练模式中特定用户对应第一语音信号发出的一第二语音输入命令信号，建立特定用户音像内容主题的语音关键词表和语音分类题录数据库；待机模式中接收由特定用户所发出的一第三语音命令的检索提问；

一动态存储器，用于临时存储第三语音命令。

上述语音系统控制模块承担用户与音像信息检索系统之间的通讯，音像制品播出设备的音像信息检索系统接收特定用户自然语言对该音像制品播出设备音像信息检索系统发出相对应的一口语语音检索命令即第三语音命令。

上述语音系统控制模块包括一数字信号处理器，所述数字信号处理器分别与数模转换器和模数控制器相连，所述数模转换器通过滤波器与语音传感元件相连，所述数模转换器与扬声器相连；所述数字信号处理器还与一控制器相连，所述控制器与电源和IO通讯相连。

本发明方法由于首先对音像制品做类目索引和主题词采样，避免了对音像制品注释带来的大量工作量和不清楚的表达，然后本发明方法对类目索引和主题词建立标准语音分类题录识别模型和标准语音关键词识别模型，形成第一个语音模型，通过训练构建音像制品对特定用户的语音分类题录数据库和语音关键词表，形成第二个语音模型，这样每个第三语音命令通过两个较稳健的语音模型来比较、匹配，能使本发明方法实现较准确的检索、识别性能。同时第一语音信号是对每一音像制品设置分类题录，进行内容主题关键词采样而标引形成的识别模型，故该语音信号是连续的、完备的、系统化的，第二语音信号是特定用户构建的有针对性的信号，虽然是连续的，但是不一定是完备的，而第三语音命令则是间断的命令，上述三种具有不同层次的语音信号能使通过语音对音像系统的检索既不重复，也不遗漏，故本发明方法通过对音像制品进行合理的与语音控制特点相适应的内容主题界定，结合人工智能实现语音对音像内容进行快速、准确的检索。本发明方法由于可以针对不同特定用户进行标引和训练，得到与其相适应的语音模型，因此是一种通用的检索方法，不受具体语言的限制。

本发明的语音检索方法具备三个信息流，即第一语音信号、第二语音信号和第三语音命令。这三个语音信息流是动态的，可更新的。第一语音信号的信息流以连续完备的方式用来对预设分类题录数据库和预设关键词表构建标准语音分类题录识别模型和标准语音关键词识别模型，第二语音信号的信息流以用户选择性的连续方式用来构建满足用户需要或偏好的语音题录数据库和语音关键词表，第三语音命令的信息流是用户以口语命令来实现对音像信息的检索并能够及时锁定检索到的播放节目内容。第二语音信号的信息流以第一语音信号的信息流为基础并与之对应，第三语音命令的信息流以第二语音信号的信息流为基础并与之对应，从而带来准确、高效的检索运作和控制操作。

采用本发明方法的音像信息检索系统的音像信息检索模块对动态存储器中存储的第三语音命令采用语音模型序列和用户的语音输入特征序列进行匹配，比较两者间的失真，得出音像制品内容检索、识别判断的依据。

本发明音像信息检索系统能提供一种通用机制，识别不同特定用户对语音检索命令检索结果的不同的相关性判断。对系统进行训练后的特定用户，利用口头语音检索命令可以设定某一周期内的特定用户点播节目单来控制诸如电视机或显示器等音像制品播出设备进行自动切换播出或点播，减少用户遥控器控制键的操作。

本发明利用计算机的人工智能与信息检索相结合的技术实现对音像制品主题内容的语音理解，由此制作的一个双向互动的音像信息检索系统及其语音检索方法，能有效提高用户的查准率、查全率，使操作更加人性化，更加智能化，更加方便。

附图说明

图1表示本发明的音像信息检索系统的方框图；

图1中的标记列示如下：

10-音像信息检索系统 20-语音系统控制模块

22-语音传感元件 24-滤波器

26-模数转换器 28-电源管理

30-IO通讯 32-扬声器

34-数模转换 36-数字信号处理器

38-控制器 40-音像信息检索模块

42-态存储器 44-语音识别软件

46-像数据标引器 48-关键词命令表

50-分类题录数据库 52-语音检索匹配子系统

54-静态存储器

具体实施方式

下面结合附图对本发明进行更具体的描述。

图1中所述的音像信息检索系统10由两个独立的模块电连接组成：语音系统控制模块20和音像信息检索模块40。

音像信息检索模块40由静态存储器54和动态存储器42组成，静态存储器54包括：一音像数据标引器46，根据用户的需要和爱好，对各种音像资料的内容主题的听觉特征、语义特征进行基于声音模型和语音模型的分析；自动采集一音像制品内容主题关键词的样本，预先构造各种音像制品内容主题的预设关键词表和音像制品的预设分类题录数据库，并通过第一语音信号建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；一语音分类题录数据库50，根据特定用户的习惯，由特定用户语音任意定义，形成规范的音像制品针对特定用户的语音分类题录数据库；一语音关键词表48，根据特定用户的习惯，由特定用户语音任意定义，形成规范的音像制品针对特定用户的语音关键词表；一语音检索匹配子系统52，接受特定用户的语音提问；对特定用户的第三语音命令进行语法、用词等的检查；对特定用户源提问式进行解释或编译性加工；将提问式语音与标准语音分类题录识别模型和标准语音关键词识别模型及语音分类题录数据库和语音关键词表的数据模型进行匹配运算；将运算结果返回该系统控制模块；一语音识别软件44，用于识别用户的口头语音控制输入命令：标引模式中第一语音信号的建立，即建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；训练模式中特定用户对应第一语音信号发出的一第二语音输入命令信号，建立特定用户音像内容主题的语音关键词表和语音分类题录数据库；待机模式中接收由特定用户所发出的一第三语音命令的检索提问。

动态存储器42用于临时存储第三语音命令。

语音系统控制模块20包括一数字信号处理器36，数字信号处理器36分别与数模转换器34和模数控制器26相连，数模转换器34通过滤波器24与语音传感元件22相连，数模转换器34与扬声器32相连；数字信号处理器36还与一控制器38相连，控制器38与电源管理28和IO通讯30相连。

通过电源管理28来接通音像信息检索系统10的电源。通过用户靠得足够近说话、以便被语音传感元件22拾取来提供音像信息检索系统10的第三语音命令。语音传感元件22将用户的语言转换为模拟信号，连接到语音传感元件22的是滤波器24，该滤波器24将语音传感元件22产生的模拟信号中非属人声频率范围内的杂音信号滤除。连接到滤波器24的是模数转换器26，该模数转换器26将滤波器24滤除的模拟信号转换成数字信号。数字信号由模数转换器26发送到数字信号处理器36，该数字信号处理器36将信号存入音像信息检索模块40内的动态存储器42中。然后，在本发明的最佳实施例中，数字信号处理器36调用语音识别软件44，以便对存储在动态存储器42内的数字信号进行一系列频率域变换；语音识别软件44产生识别模型，该识别模型是频谱变换，与存储在关键词命令表48内的命令的识别模型(也是频谱变换)相比较。如果有匹配项，那么控制器38访问连接到命令识别模型的关键词命令表48内的指令集。本专业的技术人员会知道，用来识别语音模型的任何其他适当方法都可以用在本发明中取代频谱变换。

在播放一音像内容之前，将音像信息检索系统10的语音传感元件22靠近播放设备，以便音像数据标引器自动录入音像内容中描述性的叙述或有用的语音信息对音像主题内容进行语音标引。在本发明的一个实施例中，为了分辨语音标引模式(这是在一段较长的时间内相当连续的标准的第一语音信号)、语音训练模式(这是在一段较长的时间内相当连续的特定用户第二语音信号)及语音控制输入命令即待机模式(这通常是一两个关键词的第三语音信号)，用户可以通过IO通讯30表示的语音输入目的项设定在语音标引目的状态下，将IO通讯30设定信号发送给数字信号处理器36，指示以下语音信号是语音标引命令。在用户完成语音标引之后，用户设定IO通讯30，将语音控制状态的输入信号发送给控制器38，这标志着语音标引信号的结束。所获取的语音标引信号作为语音标引文件存储在音像数据标引器46内，并与音像内容主题语音关键词表48和语音分类题录数据库50的数据文件连接。

在本发明的一个实施例中，语音控制输入命令之一是语音标引命令。在发出语音控制输入标引第一语音信号之后，用于标引目的的语音信号被随后获取，并被作为语音标引文件存储，与巳存储在音像数据标引器46中的预先构造的音像内容主题预设关键词表和预设分类题录数据库的数据文件相连接。当用户停止说话的时间超过预定的时间段、比如在5秒至10秒之间时，系统将这段预定时间内没有语音输入解释为标引语音信号的结束。在该标引模式中，预先获得待标引音像制品文献的清单，从而构造大量音像制品的内容主题的预设关键词表和预设分类题录数据库。

当接收并识别标引第一语音信号，或者，IO通讯30表示以下语音输入是为着标引目的之后，来自用户的语音信号被语音传感元件22获取，并转换为第一模拟信号。滤波器24将语音传感元件22产生的模拟信号中非属人声频率范围内的杂音信号滤除，模数转换器26将滤波器24滤除的第一模拟信号转换成第一数字信号。将第一数字信号发送给数字信号处理器36。数字信号处理器36调用语音识别软件44，以便对第一数字信号进行一系列频率域变换后产生第一识别模型，将语音标引第一数字信号作为单独的语音标引文件存储在音像数据标引器46内，并与音像主题语音关键词表48和语音分类题录数据库50的数据文件相连接。

音像信息检索系统10可以通过连接到控制器38连接复制到另一个设备上，比如计算机上对音像数据进行语音标引或训练。通过语音识别软件44，音像信息检索系统10训练识别用户的特定用户口头第二语音信号。语音识别软件44可以设置在音像信息检索系统内，或者设置在主机系统内，当音像信息检索系统连接到主机系统时，供音像信息检索系统访问。在本发明的较佳实施例中，使用联机方式，以便利用主机系统内可获得的更大的计算能力，并降低音像信息检索系统的复杂性。

在本发明的另一个实施例中，语音控制输入命令之一是语音训练命令。在发出特定用户第二语音信号之后，用户可以要求音像信息检索系统10语音回放提示标准的音像内容主题语音关键词表48和语音分类题录数据库50中的数据文件。控制器38从语音检索匹配子系统52中检索所需的语音训练文件，并将之传递给把数字信号转换为模拟信号的数模转换器34，并将模拟信号传递给产生声频输出的扬声器32。此外，特定的命令指令集可以利用数模转换器34和扬声器32，向用户发送听得到的输出信号，以确认接收到所述命令。

例如，在训练模式中使用语音识别软件44时，音像信息检索系统10语音回放提示标准的音像内容主题语音关键词表48和语音分类题录数据库50中的数据文件，特定用户通过第二语音信号进行训练。特定用户第二语音信号的每次重复都被音像信息检索系统10拾取，并被语音识别软件44识别为对应的包含语音关键词表48和语音分类题录数据库50中的用户第二语音信号的语音变化与音调的识别模型。特定用户所选用来调用各种功能的所有第二语音信号的识别模型都存储在音像信息检索系统的用户音像内容主题语音关键词命令表48内。在特定用户语音关键词表48内的识别模型各自链接预定的、也存储在语音关键词表48内的各种功能的指令集。因此，当用户口头第三语音命令被音像信息检索系统接收和识别时，与该关键词命令相关的指令集就被执行。由于功能的指令集取决于用户的关键词选择和随后对那个关键词选择的训练和语音识别，所以本实施例是与语言种类无关的，因此可以将外语用作语音控制输入命令。例如，用户可能必须修正他或她的命令关键词“电视”的发音，直到音像信息检索系统可以识别象用户那样说出的命令。因此，在该实施例中，系统要先对准一种特定的语言，在该语言中，命令关键词表示所引起的动作。可以为使用表示所引起的动作的外文关键词的用户制作该系统的外语形式。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1、一种语音检索方法，包括如下的步骤：

2、根据权利要求1所述的语音检索方法，其特征在于所述类目索引按UDC分类体系分类可以为音像制品相关的时间、出版单位、播出单位、内容本体等概念。

3、根据权利要求1所述的语音检索方法，其特征在于所述构建特定用户的音像制品语音分类题录数据库和语音关键词数据库时，可以设置语音控制密码。

4、一种实现权利要求1-3语音检索方法的音像信息检索系统，包括语音系统控制模块和音像信息检索模块，所述语音系统控制模块电连接于所述音像信息检索模块，所述音像信息检索模块由静态存储器和动态存储器组成，所述静态存储器包括音像数据标引器、语音分类题录数据库、语音关键词表、语音检索匹配子系统语音识别软件。

5、根据权利要求4所述的音像信息检索系统，其特征在于：

所述音像数据标引器，其内构造有各种音像制品内容主题的预设关键词表和音像制品的预设分类题录数据库，并通过第一语音信号建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；

所述语音分类题录数据库，根据特定用户的习惯，由特定用户语音任意定义，形成规范的音像制品针对特定用户的语音分类题录数据库；

所述语音关键词表，根据特定用户的习惯，由特定用户语音任意定义，形成规范的音像制品针对特定用户的语音关键词表；

所述语音检索匹配子系统，接受特定用户的语音提问；对特定用户的第三语音命令进行语法、用词等的检查；对特定用户源提问式进行解释或编译性加工；将提问式语音与标准语音分类题录识别，模型和标准语音关键词识别模型及语音分类题录数据库和语音关键词表的数据模型进行匹配运算；将运算结果返回该系统控制模块。

所述语音识别软件，用于识别用户的口头语音控制输入命令：标引模式中第一语音信号的建立，即建立相应的标准语音分类题录识别模型和标准语音关键词识别模型；训练模式中特定用户对应第一语音信号发出的一第二语音输入命令信号，建立特定用户音像内容主题的语音关键词表和语音分类题录数据库；待机模式中接收由特定用户所发出的一第三语音命令的检索提问；

6、根据权利要求4所述的音像信息检索系统，其特征在于所述语音系统控制模块包括一数字信号处理器，所述数字信号处理器分别与数模转换器和模数控制器相连，所述数模转换器通过滤波器与语音传感元件相连，所述数模转换器与扬声器相连；所述数字信号处理器还与一控制器相连，所述控制器与电源和IO通讯相连。