CN106776872A

CN106776872A - 根据语音定义语意进行语音搜索的方法及系统

Info

Publication number: CN106776872A
Application number: CN201611072257.3A
Authority: CN
Inventors: 贺振增; 王丁; 王一丁; 张鹏宇
Original assignee: Storm Group Ltd By Share Ltd
Current assignee: Storm Group Ltd By Share Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-31

Abstract

本申请公开根据语音定义语意进行语音搜索的方法及系统，方法包括：接收用户输入的语音信息，语音信息，包括：中文和外语；在接收到用户输入的语音信息后，将语音信息与语音文字转换数据库中的内容进行比对，查找与语音信息相关的文字信息，并将用户输入的语音信息转换为文字信息；根据文字信息、预设的视频搜索维度和视频分类优先级，从视频数据库中搜索与文字信息相关的视频文件；判断是否搜索到与文字信息相关的视频文件，若搜索到与文字信息相关的视频文件，则将相应的视频文件推送给用户，若未搜索到与文字信息相关的视频文件，则提示用户搜索失败或重新输入语音信息进行搜索；根据用户输入的视频播放指令，对用户选择的视频进行播放。

Description

根据语音定义语意进行语音搜索的方法及系统

技术领域

本申请涉及视频处理技术领域，具体地说，涉及一种根据语音定义语意进行语音搜索的方法及系统。

背景技术

随着信息化技术的普及，越来越多的人们通过视频来汲取信息、获取新闻资讯或休闲娱乐，人们对视频的依赖程度也越来越高。目前，触摸、点击和文字输入是视频观看软件最为普遍的交互方式，在搜索视频时，用于也是普遍采用这几种交互方式进行搜索，搜索框的主要交互形式是文字，这是基于PC时代养成的搜索习惯。

采用上述方式进行视频搜索时，用户与视频播放设备之间必须进行手动交互，费时费力，操作不方便，在某种特殊情形下，例如残疾人不方便操作，或老年人不会操作时，会带来诸多不便。

因此，当前情形下提供一种能够适用于大多数用户的视频搜索方式显得尤为必要。

发明内容

有鉴于此，本申请所要解决的技术问题是提供了一种根据语音定义语意进行语音搜索的方法及系统，用户只需要通过语音说出自己想要搜索的视频关键词，后台就会根据用户所说的语音解析语义，并按照解析出的语义从视频库中搜索到相关的视频推送给用户，为用户提供了一种更加方便、快捷的视频搜索体验。

为了解决上述技术问题，本申请有如下技术方案：

一种根据语音定义语意进行语音搜索的方法，包括：

接收用户输入的语音信息，所述语音信息，包括：中文和外语；

在接收到用户输入的语音信息后，将语音信息与语音文字转换数据库中的内容进行比对，查找与所述语音信息相关的文字信息，并将用户输入的语音信息转换为文字信息；

将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认：若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现；

根据所述文字信息、预设的视频搜索维度和视频分类优先级，从视频数据库中搜索与所述文字信息相关的视频文件；

判断是否搜索到与所述文字信息相关的视频文件，若搜索到与所述文字信息相关的视频文件，则将相应的视频文件推送给用户，若未搜索到与所述文字信息相关的视频文件，则提示用户搜索失败或重新输入语音信息进行搜索；

根据用户输入的视频播放指令，对用户选择的视频进行播放。

优选地，其中：

所述提示用户搜索失败或重新输入语音信息，进一步为：

采用聊天界面对话框的形式提示用户搜索失败或重新输入语音信息进行搜索。

优选地，其中：

若搜索到与所述文字信息相关的视频文件，则将相应的视频文件推送给用户，进一步为：

若搜索到与所述文字信息相关的视频文件，则将搜索到的视频文件按照与所述文字信息的相似程度由高到低进行排列，再将排列后的视频文件推送给用户。

优选地，其中：

用户输入的视频播放指令的形式为语音形式或手动操作形式。

一种根据语音定义语意进行语音搜索的系统，其特征在于，包括：语音信息接收模块、语音信息转换模块、视频搜索模块、视频推送模块和视频播放模块和信息交互模块，

所述语音信息接收模块，用于接收用户输入的语音信息，所述语音信息，包括：中文和外语；

所述语音信息转换模块，用于在接收到用户输入的语音信息后，将语音信息与语音文字转换数据库中的内容进行比对，查找与所述语音信息相关的文字信息，并将用户输入的语音信息转换为文字信息；

所述信息交互模块，用于将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认，若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现。

所述视频搜索模块，用于根据所述文字信息、预设的视频搜索维度和视频分类优先级，从视频数据库中搜索与所述文字信息相关的视频文件；

所述视频推送模块，用于判断是否搜索到与所述文字信息相关的视频文件，若搜索到与所述文字信息相关的视频文件，则将相应的视频文件推送给用户，若未搜索到与所述文字信息相关的视频文件，则提示用户搜索失败或重新输入语音信息进行搜索；

所述视频播放模块，用于根据用户输入的视频播放指令，对用户选择的视频进行播放。

优选地，其中：

所述视频推送模块，进一步用于在未搜索到与所述文字信息相关的视频文件时，采用聊天界面对话框的形式提示用户搜索失败或重新输入语音信息进行搜索。

优选地，其中：

所述视频推送模块，进一步用于在搜索到与所述文字信息相关的视频文件时，将搜索到的视频文件按照与所述文字信息的相似程度由高到低进行排列，再将排列后的视频文件推送给用户。

优选地，其中：

与现有技术相比，本申请所述的方法及系统，达到了如下效果：

第一，本发明所提供的根据语音定义语意进行语音搜索的方法及系统，用户只需要通过语音说出自己想要搜索的视频关键词，后台就会根据用户所说的语音解析语义，并按照解析出的语义从视频库中搜索到相关的视频推送给用户，为用户提供了一种更加方便、快捷的视频搜索体验。

第二，本发明所提供的根据语音定义语意进行语音搜索的方法及系统中，虽然用户与视频设备之间采用语音的方式进行交互，但还会将语音内容转换为文字并以聊天界面对话框的方式将交互内容展现出来，以方便用户对交互的内容进行确认，设计非常人性化。

第三，本发明所提供的根据语音定义语意进行语音搜索的方法及系统，在将用户输入的语音信息转换为文字信息搜索视频时，若搜索到的对应视频有多个，则本申请所提供的方法和系统会自动按照视频与文字信息的相关程度由高到低对视频进行排列，将相似度最高的视频置于界面的最前面，方便用户选择观看，使得本发明提供的方法及系统更加人性化；

第四，本发明所提供的根据语音定义语意进行语音搜索的方法及系统，不仅可以识别中文，还可以识别外语，应用范围广泛。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的所述一种根据语音定义语意进行语音搜索的方法的流程图；

图2为本发明的所述一种根据语音定义语意进行语音搜索的系统的结构图；

图3为本发明的所述一种根据语音定义语意进行语音搜索的方法的实施例的流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

实施例1

参见图1所示为本申请所述一种根据语音定义语意进行语音搜索的方法的具体实施例，该方法包括：

步骤101、接收用户输入的语音信息，所述语音信息，包括：中文和外语；

步骤102、在接收到用户输入的语音信息后，将语音信息与语音文字转换数据库中的内容进行比对，查找与所述语音信息相关的文字信息，并将用户输入的语音信息转换为文字信息；

步骤103、将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认：若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现；

步骤104、根据所述文字信息、预设的视频搜索维度和视频分类优先级，从视频数据库中搜索与所述文字信息相关的视频文件；

步骤105、判断是否搜索到与所述文字信息相关的视频文件，若搜索到与所述文字信息相关的视频文件，则将相应的视频文件推送给用户，若未搜索到与所述文字信息相关的视频文件，则提示用户搜索失败或重新输入语音信息进行搜索；

步骤106、根据用户输入的视频播放指令，对用户选择的视频进行播放。

本发明所提供的上述根据语音定义语意进行语音搜索的方法中，用户只需将想要观看的视频的关键词通过语音的方式进行表达，本发明所提供的方法就能够根据用户输入的语音信息，查找出对应的文字信息，再根据文字信息搜索关联的视频文件，再将搜索到的视频文件推送给用户。通过此种方式即实现了对视频的语音搜索，应用非常方便，为用户提供了一种更加方便、快捷的视频搜索体验。

本发明所提供的上述根据语音定义语意进行语音搜索的方法中，不仅可以识别中文，还可识别外语，其中，中文不仅可以识别普通话，还可识别方言，只要提前设置好对应关系即可，应用范围非常广泛。

上述步骤102中的语音文字转换数据库为预先设置好的数据库，该数据库中包含了大量常用的语音关键词以及对应的文字关键词，语音关键词可根据实际需求进行设置，例如可以是普通话、可以是某些地方语言、也可以是某些外语，无论采用哪种形式的语音关键词，都可设置对应的文字关键词，以适应不同用户的使用需求。

在将语音信息转换为文字信息后，通过上述步骤103对视频文件进行搜索。搜索过程除考虑文字信息外，同时还考虑视频的搜索维度和视频分类优先级，这样能够更加方便、快捷地搜索出所需的视频文件，减少用户的等待时间，有利于提升用户的使用体验。

本发明所提供的根据语音定义语意进行语音搜索的方法中，步骤103将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认：

若接收到用户的确认信息，则进行下一步操作；

若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息；

若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现。例如，可以在搜索结果中对已经搜索到的内容发送筛选指令，如发送“港台”，则可显示出港台影片。

以聊天界面的形式与用户进行交互，用户能够方便地查看系统对自己语音的辨别程度，当系统识别有无或者用户反悔时，都可通过这个步骤进行否认，重新输入，因此此种方式更加与实际应用情况相符。而且，用户还可以根据首次输入的语音信息，再次输入语音信息来缩小搜索范围，使得搜索到的视频信息更加准确。

上述步骤105中，提示用户搜索失败或重新输入语音信息，进一步为：

采用聊天界面对话框的形式提示用户搜索失败或重新输入语音信息进行搜索。采用聊天界面的形式使得在语音搜索的前提下与用户的交互更加直观、方便。

本发明所提供的根据语音定义语意进行语音搜索的方法，虽然用户与视频设备之间采用语音的方式进行交互，但还会将语音内容转换为文字并以聊天界面对话框的方式将交互内容展现出来，以方便用户对交互的内容进行确认，设计非常人性化。

上述步骤105中，若搜索到与所述文字信息相关的视频文件，则将相应的视频文件推送给用户，进一步为：

若搜索到与所述文字信息相关的视频文件，则将搜索到的视频文件按照与所述文字信息的相似程度由高到低进行排列，再将排列后的视频文件推送给用户，以便用户能够在第一时间搜索到自己想看的视频文件。

本发明所提供的根据语音定义语意进行语音搜索的方法中，在将用户输入的语音信息转换为文字信息搜索视频时，若搜索到的对应视频有多个，则本申请所提供的方法和系统会自动按照视频与文字信息的相关程度由高到低对视频进行排列，将相似度最高的视频置于界面的最前面，方便用户选择观看，使得本发明提供的方法及系统更加人性化。

本发明中，在搜索到符合条件的视频文件后，用户可通过步骤105输入视频播放指令选择视频进行播放。此处视频播放指令的形式可以是语音形式也可以是手动操作形式。例如，用户搜索到的符合条件的视频有10个，想要播放其中的一个时，用户可直接通过语音输入“播放XXX”，此处的XXX只影片名称，也可通过触屏或鼠标点击相应的视频进行播放。

实施例2

参见图2所示为本申请所述一种根据语音定义语意进行语音搜索的系统的具体实施例，该系统包括：语音信息接收模块10、语音信息转换模块20、视频搜索模块30、视频推送模块40、视频播放模块50和信息交互模块60，

所述语音信息接收模块10，用于接收用户输入的语音信息，所述语音信息，包括：中文和外语；

所述语音信息转换模块20，用于在接收到用户输入的语音信息后，将语音信息与语音文字转换数据库中的内容进行比对，查找与所述语音信息相关的文字信息，并将用户输入的语音信息转换为文字信息；

所述信息交互模块60，用于将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认，若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现；

所述视频搜索模块30，用于根据所述文字信息、预设的视频搜索维度和视频分类优先级，从视频数据库中搜索与所述文字信息相关的视频文件；

所述视频推送模块40，用于判断是否搜索到与所述文字信息相关的视频文件，若搜索到与所述文字信息相关的视频文件，则将相应的视频文件推送给用户，若未搜索到与所述文字信息相关的视频文件，则提示用户搜索失败或重新输入语音信息进行搜索；

所述视频播放模块50，用于根据用户输入的视频播放指令，对用户选择的视频进行播放。

本发明所提供的上述根据语音定义语意进行语音搜索的系统中，用户只需将想要观看的视频的关键词通过语音的方式进行表达，输出至语音信息接收模块10，本发明所提供的系统就能够根据用户输入的语音信息，查找出对应的文字信息，再根据文字信息搜索关联的视频文件，再将搜索到的视频文件推送给用户。通过此种方式即实现了对视频的语音搜索，应用非常方便，为用户提供了一种更加方便、快捷的视频搜索体验。

本申请中的语音文字转换数据库为预先设置好的数据库，该数据库中包含了大量常用的语音关键词以及对应的文字关键词，语音关键词可根据实际需求进行设置，例如可以是普通话、可以是某些地方语言、也可以是某些外语，无论采用哪种形式的语音关键词，都可设置对应的文字关键词，以适应不同用户的使用需求。

在语音信息转换模块20将语音信息转换为文字信息后，通过视频搜索模块30对视频文件进行搜索。搜索过程除考虑文字信息外，同时还考虑视频的搜索维度和视频分类优先级，这样能够更加方便、快捷地搜索出所需的视频文件，减少用户的等待时间，有利于提升用户的使用体验。

本发明中的信息交互模块，用于在所述语音信息转换模块20将用户输入的语音信息转换为文字信息后，将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认，若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现。例如，可以在搜索结果中对已经搜索到的内容发送筛选指令，如发送“港台”，则可显示出港台影片。以聊天界面的形式与用户进行交互，用户能够方便地查看系统是否对自己语音的辨别程度，当系统识别有无或者用户反悔时，都可通过这个步骤进行否认，重新输入，因此此种方式更加与实际应用情况相符。而且，用户还可以根据首次输入的语音信息，再次输入语音信息来缩小搜索范围，使得搜索到的视频信息更加准确。

本发明所提供的根据语音定义语意进行语音搜索的系统中的视频推送模块40，进一步用于在未搜索到与所述文字信息相关的视频文件时，采用聊天界面对话框的形式提示用户搜索失败或重新输入语音信息进行搜索。采用聊天界面的形式使得在语音搜索的前提下与用户的交互更加直观、方便。

本发明所提供的根据语音定义语意进行语音搜索的系统中，虽然用户与视频设备之间采用语音的方式进行交互，但还会将语音内容转换为文字并以聊天界面对话框的方式将交互内容展现出来，以方便用户对交互的内容进行确认，设计非常人性化。

本发明所提供的根据语音定义语意进行语音搜索的系统中的视频推送模块40，进一步用于在搜索到与所述文字信息相关的视频文件时，将搜索到的视频文件按照与所述文字信息的相似程度由高到低进行排列，再将排列后的视频文件推送给用户，以便用户能够在第一时间搜索到自己想看的视频文件。

本发明所提供的根据语音定义语意进行语音搜索的系统中，在将用户输入的语音信息转换为文字信息搜索视频时，若搜索到的对应视频有多个，则本申请所提供的方法和系统会自动按照视频与文字信息的相关程度由高到低对视频进行排列，将相似度最高的视频置于界面的最前面，方便用户选择观看，使得本发明提供的方法及系统更加人性化。

本发明所提供的根据语音定义语意进行语音搜索的系统中用户输入的视频播放指令的形式为语音形式或手动操作形式。此处视频播放指令的形式可以是语音形式也可以是手动操作形式。例如，用户搜索到的符合条件的视频有10个，想要播放其中的一个时，用户可直接通过语音输入“播放XXX”，此处的XXX只影片名称，也可通过触屏或鼠标点击相应的视频进行播放。

实施例3

以下提供一种本发明根据语音定义语意进行语音搜索的方法的应用实施例，具体包括：

步骤201、接收用户输入的语音信息，所述语音信息，包括：中文和外语；

步骤202、在接收到用户输入的语音信息后，将语音信息与语音文字转换数据库中的内容进行比对，查找与所述语音信息相关的文字信息，并将用户输入的语音信息转换为文字信息；

步骤203、将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认，若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现；

步骤204、根据所述文字信息、预设的视频搜索维度和视频分类优先级，从视频数据库中搜索与所述文字信息相关的视频文件；

步骤205、判断是否搜索到与所述文字信息相关的视频文件，若搜索到与所述文字信息相关的视频文件，则将搜索到的视频文件按照与所述文字信息的相似程度由高到低进行排列，再将排列后的视频文件推送给用户，若未搜索到与所述文字信息相关的视频文件，则提示用户搜索失败或重新输入语音信息进行搜索；

步骤206、根据用户输入的语音形式的视频播放指令，对用户选择的视频进行播放。

在想要搜索视频时，用户只需通过语音的方式输入想要看的视频文件的关键字，本申请所提供的根据语音定义语意进行语音搜索的方法即能够通过上述步骤202对语音信息进行识别并转换为文字信息，还能够通过步骤203将转换后的文字信息通过聊天界面的形式展现给用户，供用户进一步确认。待用户确认后，再按照预设的视频搜索维度和视频分类优先级进行视频文件的搜索。当搜索到符合条件的多项视频文件时，还能够将视频文件按照与文字信息的相似程度由高到低进行排列，再将排列后的视频文件推送给用户。用户即可通过语音提示的方式选择相应的视频进行播放。整个过程均通过语音的方式进行操作，完全克服了手动操作在特殊情况下所带来的不便。

如此方式，即实现了根据语音定义语意进行语音搜索的方案。

通过以上各实施例可知，本申请存在的有益效果是：

第三，本发明所提供的根据语音定义语意进行语音搜索的方法及系统，在将用户输入的语音信息转换为文字信息搜索视频时，若搜索到的对应视频有多个，则本申请所提供的方法和系统会自动按照视频与文字信息的相关程度由高到低对视频进行排列，将相似度最高的视频置于界面的最前面，方便用户选择观看，使得本发明提供的方法及系统更加人性化。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种根据语音定义语意进行语音搜索的方法，包括：

2.根据权利要求1所述根据语音定义语意进行语音搜索的方法，其特征在于，

所述提示用户搜索失败或重新输入语音信息，进一步为：

3.根据权利要求1所述根据语音定义语意进行语音搜索的方法，其特征在于，

4.根据权利要求1所述根据语音定义语意进行语音搜索的方法，其特征在于，

5.一种根据语音定义语意进行语音搜索的系统，其特征在于，包括：语音信息接收模块、语音信息转换模块、视频搜索模块、视频推送模块和视频播放模块和信息交互模块，

所述信息交互模块，用于将转换后的文字信息以聊天界面对话框的形式向用户展现，并等待用户确认，若接收到用户的确认信息，则进行下一步操作，若接收到用户的否认信息，则继续等待接收用户再次输入的语音信息，若接收到用户要求压缩搜索范围的信息，则等待用户再次输入语音信息形式的筛选指令，并将再次输入的语音信息形式的筛选指令转换为文字信息，并以聊天界面对话框的形式向用户展现；

6.根据权利要求5所述根据语音定义语意进行语音搜索的系统，其特征在于，

7.根据权利要求5所述根据语音定义语意进行语音搜索的系统，其特征在于，

8.根据权利要求5所述根据语音定义语意进行语音搜索的系统，其特征在于，