CN110083681B

CN110083681B - 基于数据分析的搜索方法、装置及终端

Info

Publication number: CN110083681B
Application number: CN201910297353.5A
Authority: CN
Inventors: 付明建
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2024-02-09
Anticipated expiration: 2039-04-12
Also published as: CN110083681A

Abstract

本发明实施例公开了一种基于数据分析的搜索方法、装置和终端，其中，该方法应用于数据分析领域，包括：当检测到针对搜索栏输入的搜索请求时，提取搜索请求对应的搜索语句，对搜索语句进行分词处理，得到至少一个词组，确定至少一个词组中每个词组的属性信息，并根据属性信息和预设权重规则确定至少一个词组中每个词组的权重，根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，并输出搜索结果。通过实施上述方法，可以在用户进行搜索的过程中，针对不同的搜索词赋予其不同的重要性，使得搜索结果更匹配用户意向，提升搜索结果的准确性。

Description

基于数据分析的搜索方法、装置及终端

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于数据分析的搜索方法、装置及终端。

背景技术

随着互联网技术的发展，网站中使用搜索词搜索相关信息的方式越来越受到人们的青睐。用户通过输入搜索词寻找需要的信息，而各网站可以通过用户的搜索词向用户推荐相关信息，用户则通过访问网站提供的与搜索词对应的相关信息，快速查找到需要的信息。

但当用户输入多个搜索词时，每个词的重要性是存在差异的，例如搜索词：“车险、办理、方法”，其中，关键词“车险”是用户认为最重要的，采用传统的搜索技术进行搜索，无法确定各个搜索词的重要性，而导致搜索结果可能与用户希望搜索的结果存在较大偏差。

发明内容

本发明实施例提供了一种基于数据分析的搜索方法、装置及终端，可以针对不同的搜索词赋予其不同的重要性，提升搜索结果的准确性。

第一方面，本发明实施例提供了一种基于数据分析的搜索方法，所述方法包括：

当检测到针对搜索栏输入的搜索请求时，提取所述搜索请求对应的搜索语句；

对所述搜索语句进行分词处理，得到至少一个词组；

确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，所述属性信息包括词性和输入顺序中的至少一种，所述词性包括动词、名词、形容词或副词；

根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，其中，所述至少一个词组中权重越大的词组对应的搜索优先级越高。

第二方面，本发明实施例提供了一种基于数据分析的搜索装置，所述装置包括：

提取模块，用于当检测到针对搜索栏输入的搜索请求时，提取所述搜索请求对应的搜索语句；

分词模块，用于对所述搜索语句进行分词处理，得到至少一个词组；

确定模块，用于确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，所述属性信息包括词性和输入顺序中的至少一种，所述词性包括动词、名词、形容词或副词；

搜索模块，用于根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，其中，所述至少一个词组中权重越大的词组对应的搜索优先级越高。

第三方面，本发明实施例提供了一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

本发明实施例中，当终端检测到针对搜索栏输入的搜索请求时，提取搜索请求对应的搜索语句，对搜索语句进行分词处理，得到至少一个词组，终端确定至少一个词组中每个词组的属性信息，并根据属性信息和预设权重规则确定至少一个词组中每个词组的权重，终端根据至少一个词组以及至少一个词组中每个词组的权重对搜索请求对应的搜索语句进行搜索，并输出搜索结果，通过实施上述方法，可以在用户进行搜索的过程中，针对不同的搜索词赋予其不同的重要性，使得搜索结果更匹配用户意向，提升搜索结果的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种基于数据分析的搜索方法的流程示意图；

图2是本发明实施例中的另一种基于数据分析的搜索方法的流程示意图；

图3是本发明实施例中的一种基于数据分析的搜索装置的结构示意图；

图4是本发明实施例中的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中一种基于数据分析的搜索方法的流程示意图。如图1所示，本实施例中的基于数据分析的搜索方法的流程可以包括：

S101、当终端检测到针对搜索栏输入的搜索请求时，终端提取搜索请求对应的搜索语句。

本发明实施例中，用户在终端上浏览网页时，可以在网站提供的搜索栏中输入搜索请求，使得终端可以基于该搜索请求输出相应的内容。其中，搜索请求可以为用户对搜索键的点击操作或者在键盘上输入的确定操作等。当终端检测到用户针对搜索栏输入的搜索请求时，将提取该搜索请求中的搜索语句，其中，搜索语句可以为搜索栏中的文字内容，具体可以为用户对于需要搜索的内容的简要描述。

在一种实现方式中，用户以文本形式在搜索栏中输入的搜索语句，则终端可以直接获取到该搜索栏中的搜索语句。

在一种实现方式中，用户输入的搜索请求为语音搜索请求，即用户以语音形式在搜索栏中输入搜索语句，其中，语音搜索请求中携带了语音信息，终端检测到用户输入的语音搜索请求后，将从语音搜索请求中获取到用户输入的语音信息，并采用预设的转化算法对该语音信息进行文本转换，得到转化为文本形式的搜索语句，其中，预设的转化算法可以为深度神经网络算法、对抗神经网络算法等，本发明实施例不做限定。

S102、终端对搜索语句进行分词处理，得到至少一个词组。

本发明实施例中，终端获取到搜索请求中的搜索语句之后，可以对该搜索语句进行分词处理，得到分词结果，其中，分词结果包含了至少一个词组。

在一种实现方式中，终端对搜索语句进行分词处理的方式可以为基于字符匹配的方式，具体的，终端按照预设规则将搜索语句与数据库中的词组进行匹配，若数据库中的词组存在于该搜索语句中，则终端将搜索语句中的该词组拆分出来，若不存在，则可将搜索语句中的字符单独确定为词组。通过上述方式，得到搜索语句对应的各个词组。其中，基于字符匹配的算法具体可以为正向最大匹配法、逆向最大匹配法、最少切分法或双向最大匹配法等。

在一种实现方式中，终端也可以通过字与字相邻共现的频率来确定是否将各个文字组成为词组，具体的，终端将用户输入的语句相邻共现的各个文字的组合的频度进行统计，计算他们相邻共现的频率，若文字组合的相邻共现频率大于预设阈值，则将该文字组合确定为词组。

S103、终端确定至少一个词组中每个词组的属性信息，并根据属性信息和预设权重规则确定至少一个词组中每个词组的权重。

本发明实施例中，终端对搜索语句进行分词处理，得到至少一个词组之后，将确定该至少一个词组中每个词组的属性信息，其中，属性信息包括词性和输入顺序中的至少一种，词性包括动词、名词、形容词或副词。终端确定属性信息之后，将根据属性信息和预设的权重规则确定至少一个词组中每个词组的权重。

在一种实现方式中，属性信息为词性，预设权重规则指示了词性与权值的对应关系，终端根据属性信息和预设权重规则确定至少一个词组中每个词组的权重的具体方式中，终端获取至少一个词组中每个词组的词性，并从预设权重规则所指示的词性与权值的对应关系中确定出每个词组的目标权值，终端将该目标权值确定为该词组的权重。例如，预设权重规则指示的名词对应的权值为3，动词对应的权值为2，形容词对应的权值为1，副词对应的权值为1，终端对搜索语句进行分词处理得到的至少一个词组包括“车险(名词)”、“最佳的(形容词)”、“办理(动词)”、“方法(名词)”，则终端确定每个词组的权重相应为“车险(权重：3)”、“最佳的(权重：1)”、“办理(权重：2)”、“方法(权重：3)”。

在一种实现方式中，属性信息为输入顺序，预设权重规则指示了输入顺序与权值的对应关系，终端根据属性信息和预设的权重规则确定至少一个词组中每个词组的权重的具体方式中，终端获取至少一个词组中每个词组的输入顺序，并从预设权重规则所指示的输入顺序与权值的对应关系中确定出每个词组的目标权值，终端将该目标权值确定为词组的权重。

在一种实现方式中，属性信息为词性和输入顺序，预设权重规则指示了词性和权值的对应关系以及输入顺序与加权系数的对应关系。终端基于至少一个词组中每个词组的词性，从预设权重规则指示的词性与权值的对应关系中确定出每个词组的目标权值，并基于至少一个词组中每个词组的输入顺序，从预设权重规则所指示的输入顺序与加权系数的对应关系中确定出每个词组的第一加权系数。进一步地，终端将每个词组各自对应的第一加权系数和目标权值进行加权处理，得到至少一个词组中每个词组的权重。例如，预设权重规则指示的名词对应的权值为3，动词对应的权值为2，形容词对应的权值为1，副词对应的权值为1，输入顺序与加权系数对应的关系为第一个词组为1，第二个词组为1/2，第N个词组为1/N，终端对搜索语句进行分词处理得到的词组包括“车险(名词、顺序1)”、“最佳的(形容词、顺序2)”、“办理(动词、顺序3)”、“方法(名词、顺序4)”，则终端确定每个词组的权重相应为“车险(权重：3*1＝3)”、“最佳的(权重：1*1/2＝1/2)”、“办理(权重：2*1/3＝2/3)”、“方法(权重：3*1/4＝3/4)”。

S104、终端根据至少一个词组以及至少一个词组中每个词组的权重对搜索请求对应的搜索语句进行搜索，并输出搜索结果。

本发明实施例中，其中，终端确定至少一个词组中每个词组的权重之后，将根据至少一个词组以及至少一个词组中每个词组的权重对搜索请求对应的搜索语句进行搜索。其中，该至少一个词组中权重越大的词组对应的搜索优先级越高。例如，用户输入的搜索语句经分词处理得到3个词组，包括“车险、办理、方法”，其中，词组“车险”的权重为3，词组“办理”的权重为2，词组“方法”的权重为1，则终端在进行搜索时将优先搜索与“车险”相关的内容，再从与车险相关的内容中搜索与“办理”相关的内容，最后，在与“车险”和“办理”相关的内容中搜索与“方法相关的内容”。在终端对搜索结果进行输出时，优先输出与“车险”相关的内容，其次输出与“办理”相关的内容，最后输出与“方法”相关的内容。

具体实现中，终端获取存储于数据库中的至少一个预置搜索语句，并计算用户输入的搜索语句与数据库中存储的至少一个预置搜索语句中每个预置搜索语句的相似度，其中，相似度由至少一个词组以及至少一个词组中每个词组的权重所确定，终端输出与用户输入的搜索语句相似度最高的预置搜索语句对应的内容。

需要说明的是，终端计算用户输入的搜索语句与数据库中存储的预置搜索语句的相似度的具体计算方式可以为，终端对存储于数据库中的第一预置搜索语句进行分词处理，得到预置词组集，其中，第一预置搜索语句为数据库中存储的至少一个预置搜索语句中任意一个预置搜索语句，预置词组集包括至少一个预置词组。若预置词组集中的至少一个预置词组中存在与第一词组匹配的目标预置词组，则将该第一词组的权重确定为目标预置词组的权重，其中，第一词组为将搜索语句分词处理得到的至少一个词组中的任意一个词组。进一步的，终端对预置词组集中每个目标预置词组的目标权重进行求和，得到预置词组集对应的权重和值。终端可以采用上述方式确定数据库中存储的每一个预置搜索语句对应的预置词组集的权重。终端确定预置词组集对应的权重和值之后，可以基于权重和值确定出第一预置搜索语句与搜索语句之间的相似度。具体实现中，终端可以直接将预置词组集的权重和值确定为第一预置搜索语句与用户输入的搜索语句的相似度，或者，终端获取用户输入的搜索语句分词处理得到的至少一个词组的总权重值，并将预置词组集对应的权重和值与总权重值的比值确定为第一预置搜索语句与用户输入的搜索语句的相似度。进一步的，终端可以通过上述方式确定数据库中存储的每个预置搜索语句与用户输入的搜索语句的相似度。

举例说明，终端对用户输入的搜索语句进行分词处理后，得到的至少一个词组以及每个词组的权重对应如下“车险(权重：3)”、“最佳的(权重：1)”、“办理(权重：2)”、“方法(权重：3)”，其对应的总权重值为9，相似度为预置词组集对应的权重和值与总权重值的比值。终端对数据库中存储的3个预置搜索语句进行分词处理得到的预置词组集以及对应相似度如表2所示。

表2：

其中，预置词组集1为将第一预置搜索语句分词处理得到的词组集，预置词组集2为将第二预置搜索语句分词处理得到的词组集，预置词组集3为将第三预置搜索语句分词处理得到的词组集，由表2可知，预置词组集1、2、3的权重和值分别为5、8、6，相似度分别为55.6％、88.9％、66.7％。

终端确定数据库中至少一个预置搜索语句中每个预置搜索语句之间的相似度之后，将输出与所述搜索语句相似度最高的预置搜索语句对应的内容。具体实现中，终端确定与用户输入的搜索语句相似度最高的目标预置搜索语句，并在数据库中获取到该目标预置搜索语句对应的内容，并输出搜索结果，其中，搜索结果为该目标预置搜索语句对应的内容。

在一种实现方式中，终端确定数据库中存储的至少一个预置搜索语句中每个预置搜索语句之间的相似度之后，可以显示相似度排序为前N位的预置搜索语句，并接收用户对于排序为前N位的预置搜索语句中任意预置搜索语句的选择操作，终端将用户选择的预置搜索语句确定为目标预置搜索语句，终端在数据库中获取到该目标预置搜索语句对应的内容，并输出搜索结果，其中，搜索结果为该目标预置搜索语句对应的内容。

本发明实施例中，当终端检测到针对搜索栏输入的搜索请求时，提取搜索请求对应的搜索语句，对搜索语句进行分词处理，得到至少一个词组，终端确定至少一个词组中每个词组的属性信息，并根据属性信息和预设权重规则确定至少一个词组中每个词组的权重，终端根据至少一个词组以及至少一个词组中每个词组的权重对搜索请求对应的搜索语句进行搜索，并输出搜索结果，通过确定用户输入的搜索词的词性或输入顺序确定每个搜索词的重要性，可以在用户进行搜索的过程中，针对不同的搜索词赋予其不同的重要性，使得搜索结果更匹配用户意向，提升搜索结果的准确性。

图2是本发明实施例中另一种基于数据分析的搜索方法的流程示意图。如图2所示，本实施例中的基于数据分析的搜索方法的流程可以包括：

S201、当终端检测到针对搜索栏输入的搜索请求时，终端提取搜索请求对应的搜索语句，该搜索请求为语音搜索请求。

本发明实施例中，用户输入的搜索请求为语音搜索请求，即用户以语音形式在搜索栏中输入搜索语句，其中，语音搜索请求中携带了语音信息，终端检测到用户输入的语音搜索请求后，将从语音搜索请求中获取到用户输入的语音信息，并采用预设的转化算法对该语音信息进行文本转换，得到转化为文本形式的搜索语句，其中，预设的转化算法可以为深度神经网络算法、对抗神经网络算法等，本发明实施例不做限定。

S202、终端获取搜索语句中每个字符对应的语音特征，并将每个字符对应的语音特征进行存储。

本发明实施例中，终端将语音信息转化为文本形式的搜索语句后，还将获取该文本形式的搜索语句中每个字符对应的语音特征，其中，语音特征包括语音音量值和语音时长，终端将该获取到的语音特征进行存储，其具体可以存储于缓存数据库中。

S203、终端对搜索语句进行分词处理，得到至少一个词组。

本发明实施例中，本发明实施例中，终端和获取到搜索请求中的搜索语句之后，可以对该搜索语句进行分词处理，得到分词结果，其中，分词结果包含了至少一个词组。终端对搜索语句进行分词处理的方式可以为基于字符匹配的方式，来实现对用户输入的搜索语句进行分词，或者，终端也可以通过字与字相邻共现的频率来对用户输入的搜索语句进行分词。

S204、终端确定至少一个词组中每个词组的属性信息，并根据属性信息和预设权重规则确定至少一个词组中每个词组的权重。

本发明实施例中，终端对搜索语句进行分词处理，得到至少一个词组之后，将确定该至少一个词组中每个词组的属性信息，其中，属性信息包括词性、输入顺序、语音音量值、语音时长中的至少一种。需要说明的是，词性包括动词、名词、形容词、副词等，语音音量值可以为词组中每个字符的语音音量的平均值，语音时长可以为词组中所有字符对应的语音总时长。具体的，终端在确定词组的语音音量值和语音时长时，可以调用缓存数据库中存储的搜索语句中每个字符的语音音量值和语音时长，并将组成该词组的字符的语音音量的平均值确定为该词组语音音量值，将组成该词组的各个字符的语音总时长确定为该词组的语音时长。

在一种实现方式中，属性信息为语音音量值，预设权重规则指示了语音音量值与权值的对应关系，终端根据属性信息和预设的权重规则确定至少一个词组中每个词组的权重的具体方式中，终端获取至少一个词组中每个词组的语音音量值，并从预设权重规则所指示的语音音量值与权值的对应关系中确定出每个词组的目标权值，终端将该目标权值确定为词组的权重。例如，预设权重规则指示如下，若词组的语音音量值小于第一预设阈值，则确定该词组的权重为1，若词组的语音音量值介于第一预设阈值与第二预设阈值之间，则确定该词组的权重为2，若词组的语音音量值大于第二预设阈值，则确定该词组的权重为3。需要说明的是，语音音量值可以为绝对音量值，即用户输入的语音信息中该词组的实际音量值，或者，语音音量值也可以为相对音量值，终端获取用户输入的语音信息的语音音量的平均值，并将该词组的实际语音音量值与该平均值的比值确定为相对音量值。第一预设阈值和第二预设阈值可以由用户预先设定，如用户输入的语音信息的语音音量的0.5倍平均值、2倍平均值等，本发明实施例不做限定。

在一种实现方式中，属性信息为词性、输入顺序和语音音量值，预设权重规则指示了词性和权值的对应关系、输入顺序与加权系数的对应关系和语音音量值与加权系数的对应关系。终端基于至少一个词组中每个词组的词性，从预设权重规则指示的词性与权值的对应关系中确定出每个词组的目标权值；并基于至少一个词组中每个词组的输入顺序，从预设权重规则所指示的输入顺序与加权系数的对应关系中确定出每个词组的第一加权系数，进一步的，终端基于至少一个词组中每个词组的语音音量值确定出每个词组的第二加权系数，终端将每个词组各自对应的第一加权系数、第二加权系数和目标权值进行加权处理，得到所述至少一个词组中每个词组的权重。

在一种实现方式中，属性信息为词性、输入顺序、语音音量值和语音时长，预设权重规则指示了词性和权值的对应关系、输入顺序与加权系数的对应关系、语音音量值与加权系数的对应关系和语音时长与加权系数的对应关系。终端基于至少一个词组中每个词组的词性，从预设权重规则指示的词性与权值的对应关系中确定出每个词组的目标权值；并基于至少一个词组中每个词组的输入顺序，从预设权重规则所指示的输入顺序与加权系数的对应关系中确定出每个词组的第一加权系数，进一步的，终端基于至少一个词组中每个词组的语音音量值确定出每个词组的第二加权系数，以及基于所述至少一个词组中每个词组的语音时长，从预设权重规则所指示的语音时长与加权系数的对应关系中确定出每个词组的第三加权系数；终端对该至少一个词组中每个词组各自对应的所述第一加权系数、所述第二加权系数、所述第三加权系数以及所述目标权值进行加权处理，得到所述至少一个词组中每个词组的权重。

举例说明，预设权重规则指示的名词对应的权值为3，动词对应的权值为2，形容词对应的权值为1，副词对应的权值为1，输入顺序与加权系数对应的关系为第一个词组为1，第二个词组为1/2，第N个词组为1/N，语音音量值小于30分贝对应的加权系数为1，语音音量值介于30分贝和60分贝之间，则确定该词组的加权系数为2，语音音量值大于60分贝，则确定该词组的加权系数为3，语音时长小于0.5秒对应的加权系数为1，语音时长介于0.5秒和1秒之间，则确定该词组的加权系数为2，语音时长大于1秒，则确定该词组的加权系数为3。终端对搜索语句进行分词处理得到的词组以及对应的属性信息包括“车险(名词、顺序1、40分贝、0.8秒)”、“最佳的(形容词、顺序2、35分贝、0.7秒)”、“办理(动词、顺序3、38分贝、0.9秒)”、“方法(名词、顺序4、41分贝、1.2秒)”，则终端确定每个词组以及对应的权重为“车险(权重：3*1*2*2＝12)”、“最佳的(权重：1*1/2*2*2＝4)”、“办理(权重：2*1/3*2*2＝8/3)”、“方法(权重：3*1/4*2*3＝9/2)”。

S205、终端获取存储于数据库的至少一个预置搜索语句。

本发明实施例中，数据库中预先存储了至少一个预置搜索语句，并且，数据库中存储了每个预置搜索语句对应的内容，其中，预置搜索语句对应的内容可以为针对预置搜索语句的详细解释，或者该预置搜索语句对应的网页链接等。本发明在此不做限定。

S206、终端基于至少一个词组以及至少一个词组中每个词组的权重，计算搜索语句与至少一个预置搜索语句中每个预置搜索语句之间的相似度。

本发明实施例中，终端计算用户输入的搜索语句与数据库中存储的预置搜索语句的相似度的具体计算方式可以为，终端对存储于数据库中的第一预置搜索语句进行分词处理，得到预置词组集，其中，第一预置搜索语句为数据库中存储的至少一个预置搜索语句中任意一个预置搜索语句，预置词组集包括至少一个预置词组。若预置词组集中的至少一个预置词组中存在与第一词组匹配的目标预置词组，则将该第一词组的权重确定为目标预置词组的权重，其中，第一词组为将搜索语句分词处理得到的至少一个词组中的任意一个词组。进一步的，终端对预置词组集中每个目标预置词组的目标权重进行求和，得到预置词组集对应的权重和值。终端可以采用上述方式确定数据库中存储的每一个预置搜索语句对应的预置词组集的权重。终端确定预置词组集对应的权重和值之后，可以基于权重和值确定出第一预置搜索语句与搜索语句之间的相似度。具体实现中，终端可以直接将预置词组集的权重和值确定为第一预置搜索语句与用户输入的搜索语句的相似度，或者，终端获取用户输入的搜索语句分词处理得到的至少一个词组的总权重值，并将预置词组集对应的权重和值与总权重值的比值确定为第一预置搜索语句与用户输入的搜索语句的相似度。进一步的，终端可以通过上述方式确定数据库中存储的每个预置搜索语句与用户输入的搜索语句的相似度。

S207、终端输出与搜索语句相似度最高的预置搜索语句对应的内容。

本发明实施例中，终端确定数据库中至少一个预置搜索语句中每个预置搜索语句之间的相似度之后，将输出与所述搜索语句相似度最高的预置搜索语句对应的内容。具体实现中，终端确定与用户输入的搜索语句相似度最高的目标预置搜索语句，并在数据库中获取到该目标预置搜索语句对应的内容，并输出搜索结果，其中，搜索结果为该目标预置搜索语句对应的内容。

本发明实施例中，终端可以接收用户输入的语音信息，并基于该语音信息执行相应的搜索，具体的，终端还将获取到语音信息中不同搜索词的语音音量值或语音时长，并基于该语音音量值或语音时长赋予不同搜索词不同的重要性，并基于该搜索词和搜索词的重要性进行搜索，通过实施上述方式，可以在用户进行语音搜索的过程中，针对不同的搜索词赋予其不同的重要性，使得搜索结果更匹配用户意向，提升搜索结果的准确性。

下面将结合附图3对本发明实施例提供的基于数据分析的搜索装置进行详细介绍。需要说明的是，附图3所示的基于数据分析的搜索装置，用于执行本发明图1-图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，经参照本发明图1-图2所示的实施例。

请参见图3，为本发明提供的一种基于数据分析的搜索装置的结构示意图，该基于数据分析的搜索装置30可包括：提取模块301、分词模块302、确定模块303、搜索模块304、存储模块305、计算模块306。

提取模块301，用于当检测到针对搜索栏输入的搜索请求时，提取所述搜索请求对应的搜索语句；

分词模块302，用于对所述搜索语句进行分词处理，得到至少一个词组；

确定模块303，用于确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，所述属性信息包括词性和输入顺序中的至少一种，所述词性包括动词、名词、形容词或副词；

搜索模块304，用于根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，并输出搜索结果，其中，所述至少一个词组中权重越大的词组对应的搜索优先级越高。

在一种实现方式中，所述确定模块303，具体用于：

基于所述至少一个词组中每个词组的词性，从预设权重规则所指示的词性与权值的对应关系中确定出所述每个词组的目标权值；

基于所述至少一个词组中每个词组的输入顺序，从预设权重规则所指示的输入顺序与加权系数的对应关系中确定出所述每个词组的第一加权系数；

将每个词组各自对应的所述第一加权系数和所述目标权值进行加权处理，得到所述至少一个词组中每个词组的权重。

在一种实现方式中，所述搜索请求包括语音搜索请求，所述语音搜索请求中携带有语音信息，所述提取模块301，还用于：

从所述语音搜索请求中获取所述语音信息；

采用预设的转化算法对所述语音信息进行文本转换，得到转化为文本形式的搜索语句。

在一种实现方式中，所述存储模块305，具体用于：

获取所述文本形式的搜索语句中每个字符对应的语音特征，所述语音特征包括语音音量值和语音时长；

将所述每个字符对应的语音特征进行存储。

在一种实现方式中，所述属性信息还包括语音音量值和语音时长，所述确定模块303，具体用于：

基于所述至少一个词组中每个词组的语音音量值，从预设权重规则所指示的语音音量值与加权系数的对应关系中确定出所述每个词组的第二加权系数；

基于所述至少一个词组中每个词组的语音时长，从预设权重规则所指示的语音时长与加权系数的对应关系中确定出所述每个词组的第三加权系数；

对所述每个词组各自对应的所述第一加权系数、所述第二加权系数、所述第三加权系数以及所述目标权值进行加权处理，得到所述至少一个词组中每个词组的权重。

在一种实现方式中，所述搜索模块304，具体用于：

获取存储于数据库的至少一个预置搜索语句；

计算所述搜索语句与所述至少一个预置搜索语句中每个预置搜索语句之间的相似度，所述相似度由所述至少一个词组以及所述至少一个词组中每个词组的权重确定；

输出与所述搜索语句相似度最高的预置搜索语句对应的内容。

在一种实现方式中，所述计算模块306，具体用于：

对存储于数据库中的第一预置搜索语句进行分词处理，得到预置词组集，所述第一预置搜索语句为数据库中存储的至少一个预置搜索语句中任意一个预置搜索语句，所述预置词组集中包括至少一个预置词组；

若所述至少一个预置词组中存在与第一词组匹配的目标预置词组，则将所述第一词组的权重确定为所述目标预置词组的目标权重，所述第一词组为将所述搜索语句分词处理得到的至少一个词组中的任意一个词组；

对所述预置词组集中的每个目标预置词组的目标权重进行求和，得到所述预置词组集对应的权重和值；

基于所述权重和值确定出所述第一预置搜索语句与所述搜索语句之间的相似度。

本发明实施例中，当检测到针对搜索栏输入的搜索请求时，提取模块301提取所述搜索请求对应的搜索语句，分词模块302对搜索语句进行分词处理，得到至少一个词组；确定模块303确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，搜索模块304，根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，并输出搜索结果。通过实施上述方式，可以在用户进行搜索的过程中，针对不同的搜索词赋予其不同的重要性，使得搜索结果更匹配用户意向，提升搜索结果的准确性。

请参见图4，为本发明实施例提供了一种终端的结构示意图。如图4所示，该终端包括：至少一个处理器401，输入设备403，输出设备404，存储器405，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，输入设备403可以是控制面板或者麦克风等，输出设备404可以是显示屏等。其中，存储器405可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置，存储器405中存储一组程序代码，且处理器401，输入设备403，输出设备404调用存储器405中存储的程序代码，用于执行以下操作：

处理器401，用于当检测到针对搜索栏输入的搜索请求时，提取所述搜索请求对应的搜索语句；

处理器401，用于对所述搜索语句进行分词处理，得到至少一个词组；

处理器401，用于确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，所述属性信息包括词性和输入顺序中的至少一种，所述词性包括动词、名词、形容词或副词；

处理器401，用于根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，并输出搜索结果，其中，所述至少一个词组中权重越大的词组对应的搜索优先级越高。

在一种实现方式中，所述属性信息包括词性和输入顺序，处理器401，具体用于：

在一种实现方式中，所述搜索请求包括语音搜索请求，所述语音搜索请求中携带有语音信息，处理器401，具体用于：

从所述语音搜索请求中获取所述语音信息；

在一种实现方式中，处理器401，具体用于：

将所述每个字符对应的语音特征进行存储。

在一种实现方式中，所述属性信息还包括语音音量值和语音时长，处理器401，具体用于：

在一种实现方式中，处理器401，具体用于：

获取存储于数据库的至少一个预置搜索语句；

在一种实现方式中，处理器401，具体用于：

本发明实施例中，当处理器401检测到针对搜索栏输入的搜索请求时，处理器401提取所述搜索请求对应的搜索语句；处理器401对所述搜索语句进行分词处理，得到至少一个词组；处理器401确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重；处理器401根据所述至少一个词组以及所述至少一个词组中每个词组的权重对所述搜索请求对应的搜索语句进行搜索，并输出搜索结果。通过实施上述方式，可以在用户进行搜索的过程中，针对不同的搜索词赋予其不同的重要性，使得搜索结果更匹配用户意向，提升搜索结果的准确性。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器401可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线402可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等，该总线402可以分为地址总线、数据总线、控制总线等，为便于表示，图4仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于数据分析的搜索方法，其特征在于，所述方法包括：

当检测到针对搜索栏输入的搜索请求时，提取所述搜索请求对应的搜索语句；对所述搜索语句进行分词处理，得到至少一个词组；

确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，所述属性信息包括词性和输入顺序中的至少一种，所述词性包括动词、名词、形容词或副词；其中，所述属性信息包括词性和输入顺序，所述根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，包括：基于所述至少一个词组中每个词组的词性，从预设权重规则所指示的词性与权值的对应关系中确定出所述每个词组的目标权值；基于所述至少一个词组中每个词组的输入顺序，从所述预设权重规则所指示的输入顺序与加权系数的对应关系中确定出所述每个词组的第一加权系数；将每个词组各自对应的所述第一加权系数和所述目标权值进行加权处理，得到所述至少一个词组中每个词组的权重；

获取存储于数据库的至少一个预置搜索语句；

计算所述搜索语句与所述至少一个预置搜索语句中每个预置搜索语句之间的相似度，所述相似度由所述至少一个词组以及所述至少一个词组中每个词组的权重确定；计算相似度包括：对存储于数据库中的第一预置搜索语句进行分词处理，得到预置词组集，所述第一预置搜索语句为数据库中存储的至少一个预置搜索语句中任意一个预置搜索语句，所述预置词组集中包括至少一个预置词组；若所述至少一个预置词组中存在与第一词组匹配的目标预置词组，则将第一词组的权重确定为目标预置词组的目标权重，所述第一词组为将所述搜索语句分词处理得到的至少一个词组中的任意一个词组；对所述预置词组集中的每个目标预置词组的目标权重进行求和，得到所述预置词组集对应的权重和值；基于所述权重和值确定出第一预置搜索语句与所述搜索语句之间的相似度；

输出与所述搜索语句相似度最高的预置搜索语句对应的内容；其中，所述至少一个词组中权重越大的词组对应的搜索优先级越高。

2.根据权利要求1所述的方法，其特征在于，所述搜索请求包括语音搜索请求，所述语音搜索请求中携带有语音信息，所述提取所述搜索请求对应的搜索语句，包括：

从所述语音搜索请求中获取所述语音信息；

3.根据权利要求2所述的方法，其特征在于，所述采用预设的转化算法对所述语音信息进行文本转换，得到转化为文本形式的搜索语句之后，所述方法还包括：

将所述每个字符对应的语音特征进行存储。

4.根据权利要求3所述的方法，其特征在于，所述属性信息还包括语音音量值和语音时长，所述根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，包括：

基于所述至少一个词组中每个词组的输入顺序，从所述预设权重规则所指示的输入顺序与加权系数的对应关系中确定出所述每个词组的第一加权系数；

基于所述至少一个词组中每个词组的语音音量值，从所述预设权重规则所指示的语音音量值与加权系数的对应关系中确定出所述每个词组的第二加权系数；

基于所述至少一个词组中每个词组的语音时长，从所述预设权重规则所指示的语音时长与加权系数的对应关系中确定出所述每个词组的第三加权系数；

5.一种基于数据分析的搜索装置，其特征在于，所述装置包括：

确定模块，用于确定所述至少一个词组中每个词组的属性信息，并根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，所述属性信息包括词性和输入顺序中的至少一种，所述词性包括动词、名词、形容词或副词；其中，所述属性信息包括词性和输入顺序，所述根据所述属性信息和预设权重规则确定所述至少一个词组中每个词组的权重，包括：基于所述至少一个词组中每个词组的词性，从预设权重规则所指示的词性与权值的对应关系中确定出所述每个词组的目标权值；基于所述至少一个词组中每个词组的输入顺序，从所述预设权重规则所指示的输入顺序与加权系数的对应关系中确定出所述每个词组的第一加权系数；将每个词组各自对应的所述第一加权系数和所述目标权值进行加权处理，得到所述至少一个词组中每个词组的权重；

搜索模块，用于获取存储于数据库的至少一个预置搜索语句；计算所述搜索语句与所述至少一个预置搜索语句中每个预置搜索语句之间的相似度，所述相似度由所述至少一个词组以及所述至少一个词组中每个词组的权重确定；计算相似度包括：对存储于数据库中的第一预置搜索语句进行分词处理，得到预置词组集，所述第一预置搜索语句为数据库中存储的至少一个预置搜索语句中任意一个预置搜索语句，所述预置词组集中包括至少一个预置词组；若所述至少一个预置词组中存在与第一词组匹配的目标预置词组，则将第一词组的权重确定为目标预置词组的目标权重，所述第一词组为将所述搜索语句分词处理得到的至少一个词组中的任意一个词组；对所述预置词组集中的每个目标预置词组的目标权重进行求和，得到所述预置词组集对应的权重和值；基于所述权重和值确定出第一预置搜索语句与所述搜索语句之间的相似度；输出与所述搜索语句相似度最高的预置搜索语句对应的内容；其中，所述至少一个词组中权重越大的词组对应的搜索优先级越高。

6.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。