CN103366010A

CN103366010A - 一种录音文件的检索方法和装置

Info

Publication number: CN103366010A
Application number: CN2013103176491A
Authority: CN
Inventors: 刘新宇; 韩伟; 于守秋
Original assignee: Beijing Xiaomi Technology Co Ltd
Current assignee: Beijing Xiaomi Technology Co Ltd
Priority date: 2013-07-25
Filing date: 2013-07-25
Publication date: 2013-10-23

Abstract

本发明公开了一种录音文件的检索方法和装置，属于信息检索领域。所述方法包括：接收用户输入的检索信息；将所述检索信息与录音文件文本信息进行文本匹配，得到匹配结果；当所述匹配结果包括至少一个与所述检索信息匹配的录音文件文本信息时，输出所述匹配结果中的所述录音文件文本信息对应的录音文件的信息。本发明通过将检索信息与录音文件文本信息进行文本匹配，得到匹配结果，并输出匹配结果中的录音文件文本信息对应的录音文件的信息，根据输出的录音文件的信息可以很容易地找到需要查找的录音文件，不需要采用人为依次打开各个录音文件并判断打开的录音文件是否是需要查找的文件，节省了检索时间，提高了检索效率，使用上更为方便。

Description

一种录音文件的检索方法和装置

技术领域

本发明涉及信息检索领域，特别涉及一种录音文件的检索方法和装置。

背景技术

随着科技的发展，多媒体技术的不断提高，人们更多地采用图像、音频、视频等形式的多媒体技术记录事物，以备查用。采用多媒体技术记录事物时生成的文件，为多媒体文件。通常，要在多媒体文件中查找某个文件时，如录音文件，需要人为依次打开各个多媒体文件并判断打开的多媒体文件是否是当前查找的文件，直到找到需要检索的文件。

对于录音文件而言，若采用上述方法进行检索，需要听多处内容，甚至逐字逐句听来判断打开的文件是否是当前要查找的文件，耗时长，检索效率低，并且不方便。

发明内容

为了解决目前对多媒体文件中的录音文件进行检索时，耗时长、效率低、不方便的问题，本发明实施例提供了一种录音文件的检索方法和装置。所述技术方案如下：

一方面，本发明实施例提供了一种录音文件的检索方法，所述方法包括：

接收用户输入的检索信息；

将所述检索信息与录音文件文本信息进行文本匹配，得到匹配结果，所述录音文件文本信息包括文本格式的录音内容；

当所述匹配结果包括至少一个与所述检索信息匹配的录音文件文本信息时，输出所述匹配结果中的所述录音文件文本信息对应的录音文件的信息。

在一种可能的实现方式中，所述方法还包括：

获取录音文件，并确定获取到的所述录音文件对应的录音文件文本信息。

可选地，所述确定获取到的所述录音文件对应的录音文件文本信息，包括：

对获取到的所述录音文件的录音内容进行语音识别，得到获取到的所述录音文件对应的录音文件文本信息。

将获取到的所述录音文件发送给云端服务器；

接收所述云端服务器发送的与获取到的所述录音文件对应的录音文件文本信息，与获取到的所述录音文件对应的录音文件文本信息，是所述云端服务器对获取到的所述录音文件的录音内容进行语音识别得到的。

在另一种可能的实现方式中，所述录音文件文本信息还包括录音文件的录音内容的时间标记。

可选地，所述输出所述匹配结果中的所述录音文件文本信息对应的录音文件的信息，包括：

输出所述匹配结果中的所述录音文件文本信息对应的录音文件的名称、以及所述检索信息对应的录音内容的时间标记。

另一方面，本发明实施例提供了一种录音文件的检索装置，所述装置包括：

接收模块，用于接收用户输入的检索信息；

匹配模块，用于将所述接收模块接收的所述检索信息与录音文件文本信息进行文本匹配，得到匹配结果，所述录音文件文本信息包括文本格式的录音内容；

输出模块，用于当所述匹配模块得到的所述匹配结果包括至少一个与所述检索信息匹配的录音文件文本信息时，输出所述匹配结果中的所述录音文件文本信息对应的录音文件的信息。

在一种可能的实现方式中，所述装置还包括：

文件处理模块，用于获取录音文件，并确定获取到的所述录音文件对应的录音文件文本信息。

可选地，所述文件处理模块用于，

将获取到的所述录音文件发送给云端服务器；

可选地，所述输出模块用于，

本发明实施例提供的技术方案带来的有益效果是：

通过将检索信息与录音文件文本信息进行文本匹配，得到匹配结果，并输出匹配结果中的录音文件文本信息对应的录音文件的信息，根据输出的录音文件的信息可以很容易地找到需要查找的录音文件，不需要采用人为依次打开各个录音文件并判断打开的录音文件是否是需要查找的文件，节省了检索时间，提高了检索效率，使用上更为方便。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种录音文件的检索方法的流程图；

图2是本发明实施例提供的另一种录音文件的检索方法的流程图；

图3是本发明实施例提供的又一种录音文件的检索方法的流程图；

图4是本发明实施例提供的一种录音文件的检索装置的结构示意图；

图5是本发明实施例提供的另一种录音文件的检索装置的结构示意图；

图6是本发明实施例提供的一种录音文件的检索装置的硬件结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种录音文件的检索方法，该方法的执行主体可以为移动终端、个人计算机等，参见图1，该方法包括：

步骤101：接收用户输入的检索信息。

该检索信息是用户根据需要检索的录音内容，输入终端的关于需要检索的录音内容的关键词，该检索信息可以是录音文件的标题或者内容文字。终端可以设置提供给用户输入关键词的接口，接收检索信息。

步骤102：将检索信息与录音文件文本信息进行文本匹配，得到匹配结果。

在本实施例中，该录音文件文本信息包括文本格式的录音内容。

匹配结果可以包括一个或多个与检索信息匹配的录音文件文本信息（即包含该检索信息的录音文件文本信息），也可以为空（即不存在与检索信息匹配的录音文件文本信息）。

步骤103：当匹配结果包括至少一个与该检索信息匹配的录音文件文本信息时，输出该匹配结果中的录音文件文本信息对应的录音文件的信息。

其中，录音文件文本信息对应的录音文件的录音内容，与该录音文件文本信息的录音内容相同。

录音文件的信息包括但不限于录音文件名称、录音文件所在位置、录音文件录制时间等。例如，输出“您要找的内容在《公开课一》中”。

需要说明的是，在本实施例中，录音文件可以包括音频、音视频等有声音的文件，本发明对此不作限制。

本发明实施例通过将检索信息与录音文件文本信息进行文本匹配，得到匹配结果，并输出匹配结果中的录音文件文本信息对应的录音文件的信息，根据输出的录音文件的信息可以很容易地找到需要查找的录音文件，不需要采用人为依次打开各个录音文件并判断打开的录音文件是否是需要查找的文件，节省了检索时间，提高了检索效率，使用上更为方便。

本发明实施例提供了另一种录音文件的检索方法，本实施例以录音文件文本信息包括文本格式的录音内容为例进行说明，参见图2，该方法包括：

步骤201：接收用户输入的检索信息。

步骤202：将检索信息与录音文件文本信息进行文本匹配，得到匹配结果。当匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，执行步骤203；当匹配结果为空时，执行步骤204。

在本实施例中，录音文件文本信息包括文本格式的录音内容。

其中，与检索信息匹配的录音文件文本信息，为包含检索信息（全部或部分）的录音文件文本信息；而匹配结果为空，表示不存在包含检索信息的录音文件文本信息。

上述文本匹配过程的结束条件可以为检索出一个与检索信息匹配的录音文件文本信息、检索出所有与检索信息匹配的录音文件文本信息、没有与检索信息匹配的录音文件文本信息。上述结束条件可以根据实际需要设置。

步骤203：输出匹配结果中的录音文件文本信息对应的录音文件的信息。

与某个录音文件文本信息对应的录音文件的录音内容，与该录音文件文本信息中的录音内容相同。

步骤204：输出检索的录音文件不存在的消息。

例如，输出“您要找的内容可能不存在”。

可选地，该方法还可以包括步骤205：获取录音文件，并确定获取到的录音文件对应的录音文件文本信息。该步骤205与前述步骤201-204没有先后顺序，可以同时执行，在具体实现中，该步骤205在步骤202之前至少执行一次，在步骤202之后还可以执行多次，本发明对此不作限制。

在本实施例的一种实现方式中，该步骤205可以包括：对获取到的录音文件的录音内容进行语音识别，得到获取到的录音文件对应的录音文件文本信息。

进一步地，对获取到的录音文件中的录音内容进行语音识别，可以包括：建立预设特征参数与文字之间一一对应的关系；对获取到的录音文件的录音内容进行频谱分析，得到录音内容的特征参数；将该特征参数与存储的预设特征参数进行相似度比较；将与相似度最大的预设特征参数对应的文字作为文本格式的录音内容。需要说明的是，该语音识别的过程仅为举例，本发明并不限制于此。

在本实施例的另一种实现方式中，该步骤205可以包括：将获取到的录音文件发送给云端服务器；接收云端服务器发送的与获取到的录音文件对应的录音文件文本信息。其中，与获取到的录音文件对应的录音文件文本信息，是云端服务器对获取到的录音文件的录音内容进行语音识别得到的，利用云端服务器强大的计算能力使终端获得与录音文件对应的录音文件文本信息，进一步提高了效率。

容易知道，只有当终端能与云端服务器进行通信时，如终端连接Wi-Fi（Wireless Fidelity，无线保真度）时，终端才能将录音文件发送给云端服务器，或从云端服务器接收录音文件文本信息。

本发明实施例提供了又一种录音文件的检索方法，本发明实施例以录音文件文本信息包括文本格式的录音内容和录音文件的录音内容的时间标记为例进行说明，参见图3，该方法包括：

步骤301：接收用户输入的检索信息。

步骤302：将检索信息与录音文件文本信息进行文本匹配，得到匹配结果。当匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，执行步骤303；当匹配结果为空时，执行步骤304。

步骤303：输出匹配结果中的录音文件文本信息对应的录音文件的名称、以及检索信息对应的录音内容的时间标记。

例如，输出“您要找的内容在《公开课一》中出现，且出现时间为00:00.50”。

该步骤303中的录音文件的名称和录音内容的时间标记均为录音文件的信息，容易知道，录音文件的信息还可以包括录音文件所在位置、录音文件录制时间等。

步骤304：输出检索的录音文件不存在的消息。

例如，输出“您要找的内容可能不存在”。

可选地，该方法还可以包括步骤305：获取录音文件，并确定获取到的录音文件对应的录音文件文本信息。该步骤305与前述步骤301-304没有先后顺序，可以同时执行，在具体实现中，该步骤305在步骤302之前至少执行一次，在步骤302之后还可以执行多次，本发明对此不作限制。

在本实施例的一种实现方式中，该步骤305可以包括：对获取到的录音文件的录音内容进行语音识别，并同时获得获取到的录音文件的录音内容的时间标记，得到获取到的录音内容对应的录音文件文本信息。

进一步地，录音内容的时间标记可以以录音内容中的一个字为单位进行标记，如表一所示，也可以以录音内容中的一句话为单位进行标记，如表二所示，还可以以录音内容中的一段话为单位进行标记，通常以每个单位的所有字中的第一个字的在整个录音内容中出现的时间，作为一个单位的所有字的时间标记，本发明对此不作限制。

表一

00:00.50

为

00:01.01	发
		00:01.20	烧
00:01.37	而
		00:01.59	生

表二

00:00.50	你说你懂得生之微末
		00:03.23	我便做了这壮大与你看
00:06.13	你说再热闹也终需离散
		00:09.45	我便做了这一辈子与你看
00:13.22	你说冷暖自知
		00:16.26	我便做了这冬花夏雪与你看
00:19.41	你说恋恋旧日好时光
		00:22.08	我便做了这描金绣凤的浮世绘与你看

本发明实施例提供了一种录音文件的检索装置，参见图4，该装置包括：

接收模块401，用于接收用户输入的检索信息；

匹配模块402，用于将接收模块401接收的检索信息与录音文件文本信息进行文本匹配，得到匹配结果，录音文件文本信息包括文本格式的录音内容；

输出模块403，用于当匹配模块402得到的匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出匹配结果中的录音文件文本信息对应的录音文件的信息。

本发明实施例提供了一种录音文件的检索装置，参见图5，该装置包括：

接收模块501，用于接收用户输入的检索信息；

匹配模块502，用于将接收模块502接收的检索信息与录音文件文本信息进行文本匹配，得到匹配结果，录音文件文本信息包括文本格式的录音内容；

输出模块503，用于当匹配模块502得到的匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出匹配结果中的录音文件文本信息对应的录音文件的信息。

可选地，输出模块503还可以用于，当匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出检索的录音文件不存在的消息。

可选地，该装置还可以包括：文件处理模块504，用于获取录音文件，并确定获取到的录音文件对应的录音文件文本信息。

在本实施例的一种实现方式中，文件处理模块504可以用于，对获取到的录音文件的录音内容进行语音识别，得到获取到的录音文件对应的录音文件文本信息。

在本实施例的另一种实现方式中，文件处理模块504可以用于，将获取到的录音文件发送给云端服务器；接收云端服务器发送的与获取到的录音文件对应的录音文件文本信息。其中，与获取到的录音文件对应的录音文件文本信息，是云端服务器对获取到的录音文件的录音内容进行语音识别得到的。

进一步地，录音文件文本信息还可以包括录音文件的录音内容的时间标记。

相应地，输出模块503还可以用于，当匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出匹配结果中的录音文件文本信息对应的录音文件的名称、以及检索信息对应的录音内容的时间标记。

相应地，在本实施例的一种实现方式中，文件处理模块504用于，对获取到的录音文件的录音内容进行语音识别，并同时获得获取到的录音文件的录音内容的时间标记，得到获取到的录音内容对应的录音文件文本信息。

本发明实施例提供了一种录音文件的检索装置，该装置可以例如是服务器、个人电脑、移动终端等。参见图6，该装置600一般包括输入单元601、一个或一个以上计算机可读存储介质的存储器602、一个或一个以上处理核心的处理器603、输出单元604、以及电源605等部件。本领域技术人员可以理解，图6中所示出的结构并不构成对该装置600的限定，该装置600可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对装置600的各个构成部件进行具体的介绍：

存储器602可用于存储软件程序以及应用模块，处理器603通过运行存储在存储器602的软件程序以及应用模块，从而执行装置600的各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如对检索信息和录音文件文本信息进行文本匹配）等；存储数据区可存储根据装置600的处理所创建的数据（比如录音文件文本信息）等。此外，存储器602可以包括高速RAM（Random Access Memory，随机存取存储器），还可以包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元601可用于接收用户输入的检索信息，如数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元601可包括触敏表面6011以及其他输入设备6012。触敏表面6011，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面6011上或在触敏表面6011附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面6011可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器603，并能接收处理器603发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面6011。除了触敏表面6011，输入单元601还可以包括其他输入设备6012。具体地，其他输入设备6012可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

处理器603是装置600的控制中心，利用各种接口和线路连接整个装置600的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行装置600的各种功能和处理数据，从而对装置600进行整体监控。可选的，处理器603可包括一个或多个处理核心；优选的，处理器603可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器603中。

具体地，处理器603可用于，将输入单元601接收的检索信息与录音文件文本信息进行文本匹配，得到匹配结果，录音文件文本信息包括文本格式的录音内容。

输出单元604可用于当处理器603得到的匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出匹配结果中的录音文件文本信息对应的录音文件的信息。输出单元604可包括显示面板6041，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板6041。进一步的，触敏表面6011可覆盖显示面板6041，当触敏表面6011检测到在其上或附近的触摸操作后，传送给处理器603以确定触摸事件的类型，随后处理器603根据触摸事件的类型在显示面板6041上提供相应的视觉输出。虽然在图6中，触敏表面6011与显示面板6041是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面6031与显示面板6041集成而实现输入和输出功能。

可选地，输出单元604还可以用于，当匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出检索的录音文件不存在的消息。

可选地，处理器603还可以实现，获取录音文件，并确定获取到的录音文件对应的录音文件文本信息。

在本实施例的一种实现方式中，处理器603可以实现，对获取到的录音文件的录音内容进行语音识别，得到获取到的录音文件对应的录音文件文本信息。

在本实施例的另一种实现方式中，该装置600还可以包括发送器和接收器，处理器603可以，控制发送器将获取到的录音文件发送给云端服务器；并通过接收器接收云端服务器发送的与获取到的录音文件对应的录音文件文本信息。其中，与获取到的录音文件对应的录音文件文本信息，是云端服务器对获取到的录音文件的录音内容进行语音识别得到的。

相应地，输出单元604还可以用于，当匹配结果包括至少一个与检索信息匹配的录音文件文本信息时，输出匹配结果中的录音文件文本信息对应的录音文件的名称、以及检索信息对应的录音内容的时间标记。

在本实施例的一种实现方式中，处理器603可以实现，对获取到的录音文件的录音内容进行语音识别，并同时获得获取到的录音文件的录音内容的时间标记，得到获取到的录音内容对应的录音文件文本信息。

需要说明的是：上述实施例提供的录音文件的检索装置在检索录音文件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的录音文件的检索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种录音文件的检索方法，其特征在于，所述方法包括：

接收用户输入的检索信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述确定获取到的所述录音文件对应的录音文件文本信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述确定获取到的所述录音文件对应的录音文件文本信息，包括：

将获取到的所述录音文件发送给云端服务器；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述录音文件文本信息还包括录音文件的录音内容的时间标记。

6.根据权利要求5所述的方法，其特征在于，所述输出所述匹配结果中的所述录音文件文本信息对应的录音文件的信息，包括：

7.一种录音文件的检索装置，其特征在于，所述装置包括：

接收模块，用于接收用户输入的检索信息；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述文件处理模块用于，

10.根据权利要求8所述的装置，其特征在于，所述文件处理模块用于，

将获取到的所述录音文件发送给云端服务器；

11.根据权利要求7-10任一项所述的装置，其特征在于，所述录音文件文本信息还包括录音文件的录音内容的时间标记。

12.根据权利要求11所述的装置，其特征在于，所述输出模块用于，