CN110287364B

CN110287364B - 语音搜索方法、系统、设备及计算机可读存储介质

Info

Publication number: CN110287364B
Application number: CN201910571846.3A
Authority: CN
Inventors: 刘庆峰; 钟锟
Original assignee: Hefei Xunfei Reading And Writing Technology Co ltd
Current assignee: Hefei Xunfei Reading And Writing Technology Co ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-10-08
Anticipated expiration: 2039-06-28
Also published as: CN110287364A

Abstract

本发明实施例提供一种语音搜索方法、系统、设备及计算机可读存储介质。其中，该方法包括：响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，请求信息携带有搜索参数；基于搜索参数在录音的多个关键信息中进行匹配，得到目标关键信息，多个关键信息是用户在录音的录音过程中记录的，每个关键信息分别具有与录音的时间轴相对应的记录时间；以目标关键信息的记录时间为起点，并沿转换文本的时间轴向前搜索，得到与目标关键信息相匹配的目标文本片段，转换文本的时间轴与录音的时间轴相一致；基于目标文本片段确定相应的目标录音片段。本发明实施例能够精准定位语音片段，提高语音搜索效率。

Description

语音搜索方法、系统、设备及计算机可读存储介质

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种语音搜索方法、系统、设备及计算机可读存储介质。

背景技术

随着语音识别技术的发展，越来越多的信息终端装置，如个人计算机、智能办公本、智能手机等具备了语音识别转换文字的功能，用户可通过该功能获得语音信息相对应的录音和转换文本。但当用户在学习、会议结束后整理录音，核实一些关键点的信息时，需要通过反复听录音，找出录音对应的时间段，这一过程就会耗时太长。如何在长段语音中快速、准确地定位阐述关键词对应的语音片段及转换文本是语音识别技术中需要解决的问题。

发明内容

本发明实施例提供一种语音搜索方法、系统、设备及计算机可读存储介质，以精准定位语音中的语音片段。

第一方面，本发明实施例提供一种语音搜索方法，包括：响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，所述请求信息携带有搜索参数；基于所述搜索参数在所述录音的多个关键信息中进行匹配，得到目标关键信息，所述多个关键信息是所述用户在所述录音的录音过程中记录的，每个所述关键信息分别具有与所述录音的时间轴相对应的记录时间；以所述目标关键信息的记录时间为起点，并沿所述转换文本的时间轴向前搜索，得到与所述目标关键信息相匹配的目标文本片段，所述转换文本的时间轴与所述录音的时间轴相一致；基于所述目标文本片段确定相应的目标录音片段。

可选的，以所述目标关键信息的记录时间为起点，并沿所述转换文本的时间轴向前搜索，得到与所述目标关键信息相匹配的目标文本片段，包括：以所述目标关键信息的记录时间为起点，沿所述转换文本的时间轴向前进行基于语义的模糊搜索，得到与所述目标关键信息相关的多个句子；在所述多个句子中，确定与所述目标关键信息的语义的相关度最高的句子，作为目标句子；将所述目标句子的起始时刻至所述目标关键信息的记录时刻之间的句子作为目标文本片段。

可选的，所述请求信息是所述用户通过语音方式或文字方式输入的字、词语、句子或文本；所述关键信息是所述用户通过语音方式或文字方式输入的字、词语或句子或文本。

可选的，所述响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，包括:

计算每个所述词语的居间度密度，得到每个所述词语的语义贡献值；

计算每个所述词语的统计特征值；基于多个所述词语的所述语义贡献值与所述统计特征值的加权值，确定所述请求信息中的所述关键词，作为所述搜索参数；基于所述搜索参数确定相应的录音的转换文本。

可选的，所述基于所述目标文本片段确定相应的目标录音片段之后，所述方法还包括：播放所述目标录音片段，并将所述目标文本片段以不同于所述录音的转换文本中其他文本内容的显示方式进行显示。

第二方面，本发明实施例提供一种语音搜索系统，包括：响应模块，用于响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，所述请求信息携带有搜索参数；匹配模块，用于基于所述搜索参数在所述录音的多个关键信息中进行匹配，得到目标关键信息，所述多个关键信息是所述用户在所述录音的录音过程中记录的，每个所述关键信息分别具有与所述录音的时间轴相对应的记录时间；搜索模块，用于以所述目标关键信息的记录时间为起点，并沿所述转换文本的时间轴向前搜索，得到与所述目标关键信息相匹配的目标文本片段，所述转换文本的时间轴与所述录音的时间轴相一致；第一确定模块，用于基于所述目标文本片段确定相应的目标录音片段。

可选的，所述匹配模块在以所述目标关键信息的记录时间为起点，并沿所述转换文本的时间轴向前搜索，得到与所述目标关键信息相匹配的目标文本片段时，具体用于：以所述目标关键信息的记录时间为起点，沿所述转换文本的时间轴向前进行基于语义的模糊搜索，得到与所述目标关键信息相关的多个句子；在所述多个句子中，确定与所述目标关键信息的语义的相关度最高的句子，作为目标句子；将所述目标句子的起始时刻至所述目标关键信息的记录时刻之间的句子作为目标文本片段。

可选的，所述请求信息是所述用户通过语音方式或文字方式输入的字、词语、句子或文本；所述关键信息是所述用户通过语音方式或文字方式输入的字、词语或句子。

可选的，所述响应模块在响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本时，具体用于：对用户输入的文本或对用户输入的语音进行转换得到的文本进行预处理，得到多个词语；计算每个所述词语的居间度密度，得到每个所述词语的语义贡献值；计算每个所述词语的统计特征值；基于多个所述词语的所述语义贡献值与所述统计特征值的加权值，确定所述请求信息中的所述关键词，作为所述搜索参数；基于所述搜索参数确定相应的录音的转换文本。

可选的，所述系统还包括：播放模块，用于播放所述目标录音片段；显示模块，用于将所述目标文本片段以不同于所述录音的转换文本中其他文本内容的显示方式进行显示。

第三方面，本发明实施例提供一种语音搜索设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本发明实施例提供的语音搜索方法、系统、设备及计算机可读存储介质，通过响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，该请求信息携带有搜索参数；基于搜索参数在录音的多个关键信息中进行匹配，得到目标关键信息，该多个关键信息是用户在录音的录音过程中记录的，每个关键信息分别具有与录音的时间轴相对应的时间信息；以目标关键信息的记录时间为起始时刻，并沿录音的时间轴向前搜索，得到与目标关键信息相匹配的目标文本片段；基于目标文本片段确定相应的目标录音片段。由于记录了用户在录音过程中记录的关键信息以及与录音的时间轴相对应的时间信息，因此，在语音搜索过程中，可以根据该关键信息与录音的时间轴相对应的时间信息进行精准的语音片段定位，从而实现自动进行语音搜索，以及提高语音搜索效率和语音定位准确度。

附图说明

图1为本发明实施例提供的语音搜索方法流程图；

图2为本发明另一实施例提供的语音搜索方法流程图；

图3为本发明实施例提供的语音搜索系统的结构示意图；

图4为本发明实施例提供的语音搜索设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在基于本发明实施例的语音搜索方法进行语音搜索之前，用户可以通过录音工具进行录音，录音结束后，该条录音则会自动存储在数据库中。具体的，数据库是以每个用户的用户标识建立了一个录音库，并将每个用户的录音存储在与该用户对应的录音库中，每个用户的录音库可以对应有多条录音。可选的，用户还可以选择将该录音转换为文本，此时，录音库中存储的是录音以及该录音的转换文本。录音的转换文本是录音内容的文字表达形式。进一步的，用户还可以在录音过程中记录多个关于该录音的关键信息，此时，还可以将用户记录关键信息的时刻记录下来，形成关键信息的记录时间，则录音库中存储的是录音、该录音的转换文本、关于该录音的关键信息以及该关键信息的记录时间。

其中，用户标识是用于唯一标识用户的信息，可以是用户在录音工具中注册的账号，也可以是其他用于标识该用户的信息，本发明对此不做具体限定。例如在一些应用场景中，律师通过录音工具对于与客户之间的交流进行录音；企业员工或者管理者通过录音工具对会议内容进行录音等等。其中，录音工具可以采用个人计算机、智能办公本或者智能手机上自带的录音软件，也可以使用第三方录音软件。上述应用场景仅作为示例对本发明实施例的理解起到辅助作用，不应当理解为对本发明的限定，本发明可以应用于一切需要录音的场景中，本发明对此不做一一介绍。

在经过上述过程建立了录音库之后，用户往往需要基于录音内容整理材料，目前，用户都是手动进行语音搜索，但往往录音时长都很长，而用户有时候并不关心全部录音内容，仅关心录音中的一些关键内容。此时，用户就需要通过再次听录音来定位自己所需要的内容，在定位过程中，用户手动拖动录音的时间轴快进或者后退，但是手动操作很难把握拖动程度的大小，就会导致错过一些关键内容，于是，用户需要反反复复拖动录音时间轴，造成语音搜索过程很耗时，导致语音搜索效率低，以及语音搜索对于关键内容的定位不够准确。总的来说，就是语音搜索的精度较低。

本发明实施例提供的语音搜索方法，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图1为本发明实施例提供的语音搜索方法流程图。本发明实施例针对现有技术的如上技术问题，提供了语音搜索方法，该方法具体步骤如下：

步骤101、响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，所述请求信息携带有搜索参数。

在本发明实施例中，当该用户发出请求进行语音搜索的请求信息时，则会首先根据请求信息中携带的搜索参数确定相应的录音的转换文本。具体的，用户可以通过语音输入方式或者文字输入方式来发出请求信息。可选的，文字输入方式可以是通过触屏输入、手写笔、键盘等方式输入的文字。

具体的，响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，包括：接收用户请求进行语音搜索的请求信息，该请求信息携带有用户的标识信息；识别请求信息中的关键词；基于用户的标识信息，在数据库中搜索与用户的标识信息对应的录音库，录音库包括录音、录音的关键信息和录音对应的转换文本；基于关键词在录音库中匹配相应的转换文本。

可选的，搜索参数可以是关键词。

可选的，请求信息是所述用户通过语音方式或文字方式输入的字、词语、句子或文本。例如，请求信息可以是关键词，也可以是一段包含关键字或者关键词在内的语音信息或文字信息。

下面通过举例对上述步骤的具体实施过程进行详细说明：

例如，用户打开录音工具，并对麦克风说出“下雨”，此时认为“下雨”是搜索参数，用户说出的“下雨”这条语音信息为请求信息。该条请求信息携带有用户的标识信息，用户的标识信息可以是用户在该录音工具中注册的账号信息。接下来，会首先根据用户的标识信息在数据库中确定与该用户对应的录音库，然后再根据“下雨”这一搜索参数在录音库中匹配和“下雨”相关的录音。

另外，用户还可以对着麦克风说出“请搜索和下雨相关的录音片段”，则“下雨”是搜索参数，用户说出的“请搜索和下雨相关的录音片段”这条语音信息为请求信息。接下来，会首先通过对“请搜索和下雨相关的录音片段”进行语音识别，并提取出其中的关键词“下雨”，然后再根据该条请求信息携带的用户的标识信息在数据库中确定与该用户对应的录音库，用户的标识信息可以是用户在该录音工具中注册的账号信息。进而再根据“下雨”这一搜索参数在录音库中匹配和“下雨”相关的录音。

步骤102、基于搜索参数在录音的多个关键信息中进行匹配，得到目标关键信息，多个关键信息是用户在录音的录音过程中记录的，每个关键信息分别具有与录音的时间轴相对应的时间信息。

可选的，录音的每个关键信息可以是用户通过语音方式或文字方式输入的字、词语、句子或文本。例如，关键信息可以是关键词，也可以是一段包含关键字或者关键词在内的语音信息或文字信息。

可选的，每个关键信息的记录时间可以是用户记录完该关键信息的时间。例如，在会议的场景中，发言者说了一段话“今天天气不太好，感觉气压很低，好像要下雨了”，用户在录音的第2分第8秒记录了关键词“下雨”，则录音工具会记录下用户记录的关键词“下雨”，以及在记录该关键词“下雨”时的时间信息为该录音的第2分第8秒。

步骤103、以目标关键信息的记录时间为起点，并沿转换文本的时间轴向前搜索，得到与目标关键信息相匹配的目标文本片段，转换文本的时间轴与所述录音的时间轴相一致。

例如，目标关键信息为“下雨”，且“下雨”对应的时间信息为该录音的第2分第8秒，由于录音和转换文本具有一致的时间轴，则从第2分第8秒开始沿着该转换文本的时间轴向前搜索，直至该转换文本的起始时刻，即第0分第0秒至第2分第8秒之间的转换文本进行搜索，并确定与“下雨”相关的文本片段，作为目标文本片段。

步骤104、基于目标文本片段确定相应的目标录音片段。

具体的，确定了目标文本片段后，由于录音的转换文本具有与录音的时间轴相一致的时间轴，则根据目标文本片段的起始时刻和结束时刻，可以确定录音中相应的起始时刻至相应结束时刻的语音片段作为目标录音片段。

本发明实施例通过响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，该请求信息携带有搜索参数；基于搜索参数在录音的多个关键信息中进行匹配，得到目标关键信息，该多个关键信息是用户在录音的录音过程中记录的，每个关键信息分别具有与录音的时间轴相对应的时间信息；以目标关键信息的记录时间为起始时刻，并沿录音的时间轴向前搜索，得到与目标关键信息相匹配的目标文本片段；基于目标文本片段确定相应的目标录音片段。由于记录了用户在录音过程中记录的关键信息以及与录音的时间轴相对应的时间信息，因此，在语音搜索过程中，可以根据该关键信息的与录音的时间轴相对应的时间信息进行精准的语音片段定位，从而实现自动进行语音搜索，以及提高语音搜索效率和语音定位准确度。

可选的，以目标关键信息的记录时间为起点，并沿录音的时间轴向前搜索，得到与目标关键信息相匹配的目标文本片段，包括：以目标关键信息的记录时间为起点，并沿录音的时间轴向前进行基于语义的模糊搜索，得到与目标关键信息相关的多个句子；在多个句子中，确定与目标关键信息的语义的相关度最高的句子，作为目标句子；将目标句子的起始时刻至目标关键信息的记录时刻之间的句子作为目标文本片段。例如，目标关键信息为“晚餐”，且“晚餐”对应的时间信息为该录音的第2分第8秒，由于录音和转换文本具有一致的时间轴，则从第2分第8秒开始沿着该转换文本的时间轴向前搜索，直至该转换文本的起始时刻，即第0分第0秒至第2分第8秒之间的转换文本进行基于语义的模糊搜索，确定与“晚餐”这一关键词语义相关的句子包括“今晚做什么？我们准备去逛街。”、“晚上九点到家，回来的要迟一点。”、“我一大早就去买了菜，放在冰箱里了。”、“今晚去吃火锅，到时候不要迟到哦。”等相关的句子。进一步的，可以根据语义精准匹配到“今晚去吃火锅，到时候不要迟到哦。”为与“晚餐”这一关键信息相关度最高的句子作为目标句子，则将“今晚去吃火锅，到时候不要迟到哦。”这句话的起始时刻至第2分第8秒之间的句子作为目标文本片段。

图2为本发明另一实施例提供的语音搜索方法流程图。在上述实施例的基础上，搜索参数可以为关键词。在响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本之前，本发明实施例的方法还包括如下步骤：

步骤201、对用户输入的文本或对用户输入的语音进行转换得到的文本进行预处理，得到多个词语。

可选的，用户输入的文本可以是用户通过触屏输入、手写笔或键盘等方式输入的文本。当然，用户也可以选择通过麦克风来输入一段语音。而在接收到用户输入的语音时，首先需要通过将其转换为文本。

具体的，对用户输入的文本或对用户输入的语音进行转换得到的文本进行预处理是指进行分词和词性分析等处理。

步骤202、计算每个词语的居间度密度，得到每个词语的语义贡献值。

具体的，对于文本中每个词语的居间度密度的计算方式可以参见现有的基于语义的中文文本关键词提取(SKE)算法，本发明在此不做赘述。

步骤203、计算每个词语的统计特征值。

具体的，对于文本中每个词语的统计特征值的计算方式可以参见现有的基于统计特征的关键词提取算法，本发明在此不做赘述。

步骤204、基于多个词语语义贡献值与统计特征值的加权值，确定请求信息中的关键词，作为搜索参数。

具体的，每个词语对应有语义贡献值和统计特征值，将语义贡献值与统计特征值的加权值中的最大加权值对应的词语作为关键词。该关键词被认为是可以表达用户输入的文本或者一段语音的语义的关键词。

可选的，在基于目标文本片段确定相应的目标录音片段之后，本发明实施例的方法还包括：播放目标录音片段，并将目标文本片段以不同于录音的转换文本中其他文本内容的显示方式进行显示。可选的，将目标文本片段以不同于文本中其他文本内容的显示方式进行显示可以是给目标文本片段加粗、加下划线、倾斜或者高亮显示。

例如，在根据搜索参数“下雨”定位到“今天天气不好，气压很低，好像要下雨了”这一目标录音片段后，则可以将“今天天气不好，气压很低，好像要下雨了”对应的目标录音片段进行播放，同时将“今天天气不好，气压很低，好像要下雨了”对应的文本片段进行高亮显示。

可选的，在确定了目标转换文本和录音片段后，当用户触发了菜单，菜单中包括编辑、复制、剪切等控件，则用户还可以通过编辑、复制、剪切等控件，对该目标转换文本和/或录音片段进行编辑、复制、剪切等操作。

可选的，录音工具可以是安装在终端设备上，终端设备可以是电脑、笔记本、智能终端等。终端设备具有麦克风。

下面通过一个应用场景下的完整的示例对本发明实施例进行详细说明，该示例具体包括如下步骤：

步骤301、用户通过终端设备上的录音工具进行录音，并用键盘或手写笔记录关于该录音的关键词，以及关键词的记录时间；

步骤302、终端设备将该录音转换为相应的转换文本；

步骤303、用户通过麦克风或手写的方式输入请求进行语音搜索的语音信息；

例如，用户通过手写的方式输入关键词“晚餐”。

步骤303、终端设备基于从该语音信息中识别出的关键词，发起基于语义的模糊匹配和精准匹配，得到目标转换文本；

例如，终端设备将获取到的关键词“晚餐”作为搜索参数在录音的转换文本中发起基于语义的模糊匹配，例如首先根据关键词“晚餐”搜索出“今晚做什么？我们准备去逛街。”、“晚上九点到家，回来的要迟一点。”、“我一大早就去买了菜，放在冰箱里了。”、“今晚去吃火锅，到时候不要迟到哦。”等相关文本片段，然后根据语义精准匹配到“今晚去吃火锅，到时候不要迟到哦。”的文本片段为目标文本片段。

步骤304、根据目标转换文本确定相应的录音片段；

步骤305、播放录音片段，并高亮显示该目标转换文本。

步骤306、通过编辑、复制、剪切中的至少一个控件，对该目标转换文本和/或录音片段进行相应的操作。

图3为本发明实施例提供的一种语音搜索系统的结构示意图。本发明实施例提供的一种语音搜索系统可以执行一种语音搜索方法实施例提供的处理流程，如图3所示，语音搜索系统30包括响应模块31、匹配模块32、搜索模块33和第一确定模块34；其中，响应模块31，用于响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，所述请求信息携带有搜索参数；匹配模块32，用于基于所述搜索参数在所述录音的多个关键信息中进行匹配，得到目标关键信息，所述多个关键信息是所述用户在所述录音的录音过程中记录的，每个所述关键信息分别具有与所述录音的时间轴相对应的记录时间；搜索模块33，用于以所述目标关键信息的记录时间为起点，并沿所述转换文本的时间轴向前搜索，得到与所述目标关键信息相匹配的目标文本片段，所述转换文本的时间轴与所述录音的时间轴相一致；第一确定模块34，用于基于所述目标文本片段确定相应的目标录音片段。

可选的，匹配模块32在以所述目标关键信息的记录时间为起点，并沿所述转换文本的时间轴向前搜索，得到与所述目标关键信息相匹配的目标文本片段时，具体用于：以所述目标关键信息的记录时间为起点，沿所述转换文本的时间轴向前进行基于语义的模糊搜索，得到与所述目标关键信息相关的多个句子；在所述多个句子中，确定与所述目标关键信息的语义的相关度最高的句子，作为目标句子；将所述目标句子的起始时刻至所述目标关键信息的记录时刻之间的句子作为目标文本片段。

可选的，响应模块31在响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本时，具体用于：对用户输入的文本或对用户输入的语音进行转换得到的文本进行预处理，得到多个词语；计算每个词语的居间度密度，得到每个词语的语义贡献值；计算每个词语的统计特征值；基于多个词语的语义贡献值与所述统计特征值的加权值，确定所述请求信息中的所述关键词，作为所述搜索参数；基于所述搜索参数确定相应的录音的转换文本。

可选的，该语音搜索系统还包括：播放模块35、显示模块36；其中，播放模块35，用于播放所述目标录音片段；显示模块36，用于将所述目标文本片段以不同于所述录音的转换文本中其他文本内容的显示方式进行显示。。

图3所示实施例的语音搜索系统可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明实施例提供的语音搜索设备的结构示意图。本发明实施例提供的语音搜索设备可以执行语音搜索方法实施例提供的处理流程，如图4所示，语音搜索设备40包括：存储器41、处理器42、计算机程序和通讯接口43；其中，计算机程序存储在存储器41中，并被配置为由处理器42执行上述的语音搜索方法实施例提供的处理流程。

图4所示实施例的语音搜索设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的语音搜索方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音搜索方法，其特征在于，包括：

响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，所述请求信息携带有搜索参数；

基于所述搜索参数在所述录音的多个关键信息中进行匹配，得到目标关键信息，所述多个关键信息是所述用户在所述录音的录音过程中记录的，每个所述关键信息分别具有与所述录音的时间轴相对应的记录时间；

以所述目标关键信息的记录时间为起点，沿所述转换文本的时间轴向前进行基于语义的模糊搜索，得到与所述目标关键信息相关的多个句子；在所述多个句子中，确定与所述目标关键信息的语义的相关度最高的句子，作为目标句子；将所述目标句子的起始时刻至所述目标关键信息的记录时刻之间的句子作为目标文本片段，所述转换文本的时间轴与所述录音的时间轴相一致；

基于所述目标文本片段确定相应的目标录音片段。

2.根据权利要求1所述的方法，其特征在于，所述请求信息是所述用户通过语音方式或文字方式输入的字、词语、句子或文本；

所述关键信息是所述用户通过语音方式或文字方式输入的字、词语或句子或文本。

3.根据权利要求2所述的方法，其特征在于，所述响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，包括:

对用户输入的文本或对用户输入的语音进行转换得到的文本进行预处理，得到多个词语；

计算每个所述词语的统计特征值；

基于多个所述词语的所述语义贡献值与所述统计特征值的加权值，确定所述请求信息中的关键词，作为所述搜索参数；

基于所述搜索参数确定相应的录音的转换文本。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述目标文本片段确定相应的目标录音片段之后，所述方法还包括：

播放所述目标录音片段，并将所述目标文本片段以不同于所述录音的转换文本中其他文本内容的显示方式进行显示。

5.一种语音搜索系统，其特征在于，包括：

响应模块，用于响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本，所述请求信息携带有搜索参数；

匹配模块，用于基于所述搜索参数在所述录音的多个关键信息中进行匹配，得到目标关键信息，所述多个关键信息是所述用户在所述录音的录音过程中记录的，每个所述关键信息分别具有与所述录音的时间轴相对应的记录时间；

搜索模块，具体用于以所述目标关键信息的记录时间为起点，沿所述转换文本的时间轴向前进行基于语义的模糊搜索，得到与所述目标关键信息相关的多个句子；在所述多个句子中，确定与所述目标关键信息的语义的相关度最高的句子，作为目标句子；将所述目标句子的起始时刻至所述目标关键信息的记录时刻之间的句子作为目标文本片段，所述转换文本的时间轴与所述录音的时间轴相一致；

第一确定模块，用于基于所述目标文本片段确定相应的目标录音片段。

6.根据权利要求5所述的语音搜索系统，其特征在于，所述请求信息是所述用户通过语音方式或文字方式输入的字、词语、句子或文本；

所述关键信息是所述用户通过语音方式或文字方式输入的字、词语或句子。

7.根据权利要求6所述的语音搜索系统，其特征在于，所述响应模块在响应于用户请求进行语音搜索的请求信息，确定相应的录音的转换文本时，具体用于：

计算每个所述词语的统计特征值；

基于所述搜索参数确定相应的录音的转换文本。

8.根据权利要求6-7任一项所述的语音搜索系统，其特征在于，所述系统还包括：

播放模块，用于播放所述目标录音片段；

显示模块，用于将所述目标文本片段以不同于所述录音的转换文本中其他文本内容的显示方式进行显示。

9.一种语音搜索设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法。