CN104077407B - 一种智能数据搜索系统及方法 - Google Patents

一种智能数据搜索系统及方法 Download PDF

Info

Publication number
CN104077407B
CN104077407B CN201410327035.6A CN201410327035A CN104077407B CN 104077407 B CN104077407 B CN 104077407B CN 201410327035 A CN201410327035 A CN 201410327035A CN 104077407 B CN104077407 B CN 104077407B
Authority
CN
China
Prior art keywords
search
user
intention
preference
input information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410327035.6A
Other languages
English (en)
Other versions
CN104077407A (zh
Inventor
张佶
范融
盛丽晔
于志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201410327035.6A priority Critical patent/CN104077407B/zh
Publication of CN104077407A publication Critical patent/CN104077407A/zh
Application granted granted Critical
Publication of CN104077407B publication Critical patent/CN104077407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明涉及计算机信息系统中的数据处理领域,特别涉及一种智能数据搜索系统及方法。其中方法包括,获取搜索输入信息;根据所述搜索输入信息识别出搜索意图;根据所述搜索输入信息和搜索意图在数据库中进行搜索。通过上述实施例中的方法及系统,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。

Description

一种智能数据搜索系统及方法
技术领域
本发明涉及计算机信息系统中的数据处理领域,特别涉及一种智能数据搜索系统及方法。
背景技术
搜索引擎为用户提供了一个快速查找信息系统中海量资源的渠道。然而传统的通用搜索引擎中,由于其要适用广泛的要求,其智能性往往不高。因为提高其智能性必定大幅降低搜索的效率,让搜索引擎不堪重负。因此,通用的搜索引擎在信息查找时往往存在很多的缺陷,大多数用户并不能十分准确地用查询词表达自己的搜索意图,而使得搜索引擎无法提供精准、高效、个性化的搜索服务,甚至根本就搜索不到用户真正需要查找的信息。
本发明的发明人发现现有技术中至少包括以下两方面的问题:
无法理解用户输入的查询词所涉及的领域并进行针对性的搜索和展现。如搜索引擎应理解用户输入的是一个人名,还是产品名称,还是客户名称。虽然可用高级搜索方式代替,但通过填写一张表格的方式来完成搜索过于繁琐,不被大多数用户所接受。
无法理解用户潜在的个性化需求。不同用户即使输入相同的查询词,需求往往也是不同的,过于通用的搜索结果将导致用户难以在大量的搜索结果中找到自己确切要找的信息。
发明内容
为了解决现有技术中搜索不够智能的问题,本发明的目的是采用更智能的搜索方法,识别用户的搜索意图,识别用户输入的查询词所属领域,进行针对性的搜索和展现;并且识别用户的个性化偏好,通过排序的方式优先返回最满足用户潜在意图的搜索结果。
本发明实施例提供了一种智能数据搜索方法,包括,
获取搜索输入信息;
根据所述搜索输入信息识别出搜索意图;
根据所述搜索输入信息和搜索意图在数据库中进行搜索。
根据本发明实施例所述一种智能数据搜索方法的一个进一步的方面,所述根据所述搜索输入信息识别出搜索意图进一步包括,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
根据本发明实施例所述一种智能数据搜索方法的再一个进一步的方面,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
根据本发明实施例所述一种智能数据搜索方法的另一个进一步的方面,在根据所述搜索输入信息识别出搜索意图之前还包括,在空闲时间段统计字符在所有意图领域的出现次数。
根据本发明实施例所述一种智能数据搜索方法的另一个进一步的方面,在根据所述搜索输入信息和搜索意图在数据库中进行搜索之后还包括,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序;
其中,z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为用户对n个维度取值的偏好值;a1,a2,…,an为每个维度的权重值。
根据本发明实施例所述一种智能数据搜索方法的另一个进一步的方面,获取用户对各个维度的偏好值和每个维度的权重值之前还包括,记录用户日常操作的偏好,统计记录结果得到该用户对各个维度的偏好值。
本发明实施例还提供了一种智能数据搜索系统,
包括输入单元,搜索意图识别单元,搜索单元;
所述输入单元,用于获取搜索输入信息;
所述搜索意图识别单元,用于根据所述搜索输入信息识别出搜索意图;
所述搜索单元,用于根据所述搜索输入信息和搜索意图在数据存储单元中进行搜索。
根据本发明实施例所述一种智能数据搜索系统的一个进一步的方面,所述搜索意图识别单元进一步用于,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
根据本发明实施例所述一种智能数据搜索系统的再一个进一步的方面,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
根据本发明实施例所述一种智能数据搜索系统的另一个进一步的方面,还包括预分析单元,与所述数据存储单元相连接,用于在空闲时间段统计字符在所有意图领域的出现次数。
根据本发明实施例所述一种智能数据搜索系统的另一个进一步的方面,还包括用户偏好计算单元,分别与搜索单元和数据存储单元相连接,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序。
根据本发明实施例所述一种智能数据搜索系统的另一个进一步的方面,还包括用户日志采集单元和用户偏好分析单元,所述用户日志采集单元与所述数据存储单元相连接,记录用户日常操作的偏好并存储于所述数据存储单元中,所述用户偏好分析单元与所述数据存储单元相连接,统计所述数据存储单元中的记录结果得到该用户对各个维度的偏好值。
通过上述实施例中的方法及系统,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1所示为本发明实施例一种智能数据搜索方法的流程图;
图2所示为本发明实施例一种智能数据搜索系统的结构图;
图3所示为本发明实施例一种智能数据搜索方法的具体流程图;
图4所示为上述步骤302的具体流程图;
图5所示为本发明实施例二元模型训练流程图;
图6所示为本发明实施例关于偏好计算和处理的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如图1所示为本发明实施例一种智能数据搜索方法的流程图。
包括步骤101,获取搜索输入信息。例如可以为包括至少一个字符的搜索关键字。
步骤102,根据所述搜索输入信息识别出搜索意图。
步骤103,根据所述搜索输入信息和搜索意图在数据库中进行搜索。
作为本发明的一个实施例,所述根据所述搜索输入信息识别出搜索意图进一步包括,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
作为本发明的一个实施例,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
作为本发明的一个实施例,在根据所述搜索输入信息识别出搜索意图之前还包括,在空闲时间段统计字符在所有意图领域的出现次数。
作为本发明的一个实施例,在根据所述搜索输入信息和搜索意图在数据库中进行搜索之后还包括,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序;
其中,z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为用户对n个维度取值的偏好值;a1,a2,…,an为每个维度的权重值。
作为本发明的一个实施例,获取用户对各个维度的偏好值和每个维度的权重值之前还包括,记录用户日常操作的偏好,统计记录结果得到该用户对各个维度的偏好值。其中,日常操作包括对搜索结果的选择、点击、收藏等操作。
通过上述本发明实施例的智能数据搜索方法,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
如图2所示为本发明实施例一种智能数据搜索系统的结构图。
包括输入单元201,搜索意图识别单元202,搜索单元203。
所述输入单元201,用于获取搜索输入信息。
所述搜索意图识别单元202,用于根据所述搜索输入信息识别出搜索意图。
所述搜索单元203,用于根据所述搜索输入信息和搜索意图在数据存储单元204中进行搜索。
作为本发明的一个实施例,所述搜索意图识别单元202进一步用于,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
作为本发明的一个实施例,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
作为本发明的一个实施例,还包括预分析单元205,与所述数据存储单元204相连接,用于在空闲时间段统计字符在所有意图领域的出现次数。
作为本发明的一个实施例,还包括用户偏好计算单元206,分别与搜索单元203和数据存储单元204相连接,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序。
作为本发明的一个实施例,还包括用户日志采集单元207和用户偏好分析单元208,所述用户日志采集单元207与所述数据存储单元204相连接,记录用户日常操作的偏好并存储于所述数据存储单元204中,所述用户偏好分析单元208与所述数据存储单元204相连接,统计所述数据存储单元204中的记录结果得到该用户对各个维度的偏好值。
所述用户日志采集单元207通过日志的形式记录用户所点击的搜索结果中所包含的文档编号及各维度数据并传递至数据存储单元204。
所述数据存储单元204存储的搜索引擎索引信息供搜索单元203进行索引检索;接收用户日志采集单元207传递的收集到的日志数据并进行存储;传递语料数据及用户日志数据至预分析单元205和用户偏好分析单元208供特征分析,并将统计分析得的数据保存到数据存储单元204;将所述预分析单元205分析得到的数据传递给搜索意图识别单元202以进行搜索意图识别。
所述搜索单元203还进一步将搜索结果呈献给用户,在具有用户偏好计算单元的实施例中,还可以将经过偏好排序后的搜索结果发送给用户端计算机浏览器或者相关用户界面进行呈现。
所述搜索意图识别单元202,负责确定用户输入的查询词属于哪个意图领域,如在企业级信息系统中,往往有“人物”、“产品”、“客户”、“规章制度”等领域,确定领域后,即可采用具有针对性的搜索及展现方式。该搜索意图识别单元202通过二元模型计算用户输入的查询词属于各个意图领域的概率,并确定概率最大的意图类别。处理过程如下:
假设S表示用户输入的查询词,由一串字符w1,w2,w3…wn组成,n为查询词的长度,S属于某个领域的概率,即为S在该领域中出现的概率:
P(S)=P(w1,w2,w3,…,wn)
假设查询词中任意一个字符wi出现的概率只同它前面的字符wi-1有关,于是该式的展开计算可简化为:
P(S)=P(w1)*P(w2|w1)*P(w3|w2)*…*P(wn|wn-1)
其中P(w2|w1)表示在已知w1在领域中出现的前提下,w2接连出现的条件概率。
根据条件概率的计算定义可得:
P(wi|wi-1)=P(wi-1,wi)/P(wi-1)
由于根据大数定理,只要统计量足够,相对频度就等于概率,将上式转换为相对频率的计算方式,即:
P(wi-1,wi)=#(wi-1,wi)/#
P(wi-1)=#(wi-1)/#
其中#代表用于训练某个领域的二元模型所使用的语料总大小,#(wi-1)表示wi-1在该领域中一共出现了多少次,#(wi-1,wi)则表示wi-1,wi前后相邻的出现了多少次。
因此,P(wi|wi-1)=#(wi-1,wi)/#(wi-1)
综上所述,查询词S属于某个领域的概率可展开为:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中的各项统计值都由预分析单元205所事先统计计算获得,并存储在数据存储单元204,联机查询时直接查找即得,减少联机计算量。或者该统计值可以由搜索意图识别单元202实时从数据存储单元中统计计算获得。
举例:当用户输入“制度规范”时,分别对每个领域计算以下概率:
P(制度规范)=#制/#*#(制度)/#制*#(度规)/#度*#(规范)/#规
搜索意图识别单元202计算得到“制度规范”针对于各个意图领域的概率,通过比较最终可得“制度规范”属于“规章制度”领域的概率最大。
对于各个领域分别计算P(S),并降序排序,概率最大的领域即为S所属可能性最大的领域。
在所述数据存储单元204中存储有各个意图领域的特征信息,包括各个单字、二元组在领域训练语料中出现的次数,以及领域训练语料的总大小等;
用户对每个搜索结果的历史浏览、收藏日志,记录每个搜索结果的各维度取值信息,如下表1所示:
表1:用户日志表
日期 操作类型 文档编号 用户编号 维度1:行业 维度2:地域 维度3:来源
3-17 浏览 文档1 用户1 零售 上海 内部
3-17 浏览 文档2 用户1 金融 海外 外部
3-17 收藏 文档1 用户1 零售 北京 外部
3-16 收藏 文档1 用户1 教育 广州 内部
3-16 浏览 文档3 用户2 建筑 上海 内部
还存储用户各个维度的偏好值;
存储搜索引擎待检索的索引;
存储各项参数,包括搜索意图领域信息、用户偏好计算维度及权重信息;
存储用于训练二元模型的各领域语料数据,语料数据从搜索引擎待检索内容中获取而来,将随着待检索内容的变化而增量更新。
所述预分析单元205,用各个意图领域所涉及到的语料对二元模型进行训练。统计各单字、二元组在训练语料中出现的数量以及语料总字数,存储数据存储单元204,供搜索意图识别单元在联机查询时快速计算查询词属于各个领域的概率。
所述用户偏好计算单元206,负责从数据存储单元204中获取用户对各个维度的偏好值,并读取每个维度的权重值,根据当前搜索结果中所包含的各个维度中的数据,计算当前用户对每条搜索结果的综合偏好数值,并以此对搜索结果进行排序。
综合偏好数值的计算方法如下:
z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为当前用户对每条记录的n个维度偏好值;a1,a2,…,an为每个维度的权重值。
其中的偏好值是由用户偏好分析单元208根据用户的历史浏览、收藏记录,对每个用户的操作进行分析得到。首先从数据存储单元204中读取各种用户操作的类型(针对日志记录的不同操作进行加权计算,得到用户对某一属性的偏好值),如浏览一条搜索结果,用户对该维度该记录属性的偏好值累加1分,而收藏一条搜索结果累加5分(即根据用户对记录的操作不同累加的偏好值也不相同)。在分析后,将各项偏好值存储在数据存储单元204中。以下以“地域”为维度举例,根据分析构建“用户-地域”二维矩阵,表示用户对各个地域中的信息的偏好值:
表2各维度的偏好值列表
上海 北京 广州 海外
用户1 12 94 5 2
用户2 135 27 34 4
用户3 5 5 245 23
用户4 58 45 2 2
用户5 95 45 23 5
若单一维度的偏好值偏大,可能会使其他维度的偏好值淹没在其中而无法发挥作用,故使用线性函数的转换方式对该二维矩阵进行归一化处理:
y=(x-MinValue)/(MaxValue-MinValue)
其中,y为归一化后的偏好值,x为当前维度的偏好值,MinValue为该用户所有维度的偏好值最小值,MaxValue为该用户所有维度的偏好值最大值。
将归一化后的结果存储在数据存储单元中:如表3所示
表3归一化后的偏好值
上海 北京 广州 海外
用户1 0.1086 1 0.0326 0
用户2 1 0.1755 0.2595 0
用户3 0 0 1 0.075
用户4 1 1 0.7678 0
用户5 1 0.44 0.2 0
如图3所示为本发明实施例一种智能数据搜索方法的具体流程图。
步骤301,用户输入查询词,传递给搜索意图识别单元202进行领域识别。
步骤302,搜索意图识别单元202通过二元模型计算用户输入的查询词属于各个领域的概率,并确定概率最大的领域为查询词最可能涉及的领域,将这个领域的编号传递至数据存储单元204。
步骤303,数据存储单元204通过领域编号查得对应领域的搜索范围和展现方式,并将查询词、领域、展现方式传递至搜索单元203进行搜索。
步骤304,搜索单元203根据接收到的查询词、领域、搜索范围在数据存储单元204中进行查找,将符合条件的搜索结果传递至用户偏好计算单元206进行个性化的排序。
步骤305,用户偏好计算单元206根据数据存储单元204中的用户对各个维度的偏好值和每个维度的权重值,计算用户对每条搜索结果的综合偏好值,并根据所述综合偏好值降序排序,返回给搜索单元203。
步骤306,搜索单元203将排序后的搜索结果,根据展现方式展现给用户。
如图4所示为上述步骤302的具体流程图。
包括步骤401,搜索意图识别单元202获取用户输入的查询词,可表示为字符的序列:S=w1,w2,w3,…,wn
步骤402,搜索意图识别单元202从数据存储单元204中逐个读取意图领域信息。
步骤403,搜索意图识别单元202从数据存储单元204中获取第一个字符在该领域中的出现次数#w1以及该领域的总字符数#。通过#w1/#计算第一个字符在该领域中出现的概率P(w1)。在本步骤中的字符出现次数、该领域的总字符数等数据均可以由预分析单元205在系统空闲时间段统计得出。
步骤404,搜索意图识别单元202从数据存储单元204中逐个获取查询词S中出现的每个字在该领域中出现的次数#w1,#w2,#w3,…,#wn,及相邻两个字符出现的次数#(w1,w2),#(w2,w3),…,#(wn-1,wn)。逐个计算在前一个字符出现的前提下,后一个字符出现的概率值P(wi|wi-1)=#(wi-1,wi)/#(wi-1)。
步骤405,将上述算得的各项概率值相乘即得到P(S)=P(w1)*P(w2|w1)*P(w3|w2)…P(wn|wn-1)的计算结果,表示查询词S在该领域中出现的概率。
步骤406,判断是否是最后一个意图领域,若是,则执行步骤407,否则重复执行步骤402,读取下一个意图领域。
步骤407,对查询词属于每个意图领域的概率进行排序,将概率最大的领域编号传递至数据存储单元204。
如图5所示为本发明实施例二元模型训练流程图。
该流程的目的是采用批量的方式,使用每个意图领域所涉及到的语料训练二元模型,使得二元模型具有识别该领域特征的能力,也就是预分析单元205对数据存储单元中的语料进行的分析处理过程。
包括步骤501,预分析单元205从数据存储单元204中逐个读取意图领域信息。
步骤502,将意图领域编号传递至数据存储单元204,获取该领域所涉及语料的存放位置。
步骤503,从数据存储单元204中读取该意图领域所涉及到的相关语料。
步骤504,将读取到的语料按分隔符拼接成一个意图特征字符串。
步骤505,统计字符串中每个单字出现的次数。
步骤506,统计字符串中每个二元组(相邻两个字符组成的字符组)出现的次数。
步骤507,统计字符串的总字数。
步骤508,将该意图领域的各项统计结果传递至数据存储单元204进行存储。
步骤509,判断是否已经是最后一个意图领域,若是,则结束,否则重复执行步骤,501,读取下一个意图领域进行训练。
如图6所示为本发明实施例关于偏好值计算和处理的流程图。
该流程的目的是采用批量的方式,通过对用户浏览过的历史记录进行分析,偏好值分析用户的偏好值并进行存储,供联机搜索时调用。
其中偏好值:用户对某个维度下的属性的偏好,如用户1对地域维度下的“上海”的偏好是30,对格式维度下的“pdf”偏好度是15。
权重值:各维度的重要性,如地域是最重要的,给他设定权重值较大,其他维度如类型、格式重要度较低,权重值可以给个比较低的。
综合偏好值:用户对某个搜索结果(文档)的多个维度的偏好值及各维度权重进行加权计算得到的综合值,如用户对文档1的综合偏好值20,对文档2的综合偏好值15,搜索时,文档1就排在前面。
包括步骤601,用户偏好分析单元208从数据存储单元204中逐个提取偏好维度的编号、名称等信息。
步骤602,通过用户日志采集单元207获取的用户操作信息存储于数据存储单元204,用户偏好分析单元208读取各用户的历史浏览记录,并结合用户针对该浏览记录的具体操作类型(点击、收藏等)计算各用户该维度的偏好值。
步骤603,将各用户该维度的偏好值进行归一化处理。
步骤604,判断是否是最后一个维度,若是,则执行步骤605,否则重复执行步骤601,针对下一个维度进行计算。
步骤605,将各项偏好值存储于数据存储单元204。
步骤606,在后续的偏好值计算过程中,偏好计算单元206根据用户的偏好值和各维度的权重值计算出搜索结果的综合偏好值,根据该综合偏好值对搜索结果进行排序。其中,权重值预置在所述数据存储单元204中,权重信息是根据业务需求来设定的,比如某公司的搜索引擎,上海分公司的人员往往查看上海的文档多,北京的人员往往查看北京的文档多,有明显的地域需求特性,就可以把地域这个维度的权重值加大。
通过上述本发明实施例的智能数据搜索系统,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种智能数据搜索方法,其特征在于包括,
获取搜索输入信息;
根据所述搜索输入信息识别出搜索意图;
根据所述搜索输入信息和搜索意图在数据库中进行搜索;
所述根据所述搜索输入信息识别出搜索意图进一步包括,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图;
其中,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
2.根据权利要求1所述的一种智能数据搜索方法,其特征在于,在根据所述搜索输入信息识别出搜索意图之前还包括,在空闲时间段统计字符在所有意图领域的出现次数。
3.根据权利要求1所述的一种智能数据搜索方法,其特征在于,在根据所述搜索输入信息和搜索意图在数据库中进行搜索之后还包括,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序;
其中,z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为用户对n个维度取值的偏好值;a1,a2,…,an为每个维度的权重值。
4.根据权利要求1所述的一种智能数据搜索方法,其特征在于,获取用户对各个维度的偏好值和每个维度的权重值之前还包括,记录用户日常操作的偏好,统计记录结果得到该用户对各个维度的偏好值。
5.一种智能数据搜索系统,其特征在于,
包括输入单元,搜索意图识别单元,搜索单元;
所述输入单元,用于获取搜索输入信息;
所述搜索意图识别单元,用于根据所述搜索输入信息识别出搜索意图;
所述搜索单元,用于根据所述搜索输入信息和搜索意图在数据存储单元中进行搜索;
所述搜索意图识别单元进一步用于,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图;
其中,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
6.根据权利要求5所述的一种智能数据搜索系统,其特征在于,还包括预分析单元,与所述数据存储单元相连接,用于在空闲时间段统计字符在所有意图领域的出现次数。
7.根据权利要求5所述的一种智能数据搜索系统,其特征在于,还包括用户偏好计算单元,分别与搜索单元和数据存储单元相连接,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序。
8.根据权利要求7所述的一种智能数据搜索系统,其特征在于,还包括用户日志采集单元和用户偏好分析单元,所述用户日志采集单元与所述数据存储单元相连接,记录用户日常操作的偏好并存储于所述数据存储单元中,所述用户偏好分析单元与所述数据存储单元相连接,统计所述数据存储单元中的记录结果得到该用户对各个维度的偏好值。
CN201410327035.6A 2014-07-10 2014-07-10 一种智能数据搜索系统及方法 Active CN104077407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410327035.6A CN104077407B (zh) 2014-07-10 2014-07-10 一种智能数据搜索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410327035.6A CN104077407B (zh) 2014-07-10 2014-07-10 一种智能数据搜索系统及方法

Publications (2)

Publication Number Publication Date
CN104077407A CN104077407A (zh) 2014-10-01
CN104077407B true CN104077407B (zh) 2017-06-16

Family

ID=51598661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410327035.6A Active CN104077407B (zh) 2014-07-10 2014-07-10 一种智能数据搜索系统及方法

Country Status (1)

Country Link
CN (1) CN104077407B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760381B (zh) * 2014-12-16 2019-08-13 深圳市腾讯计算机系统有限公司 搜索结果处理方法及装置
CN104715066B (zh) * 2015-03-31 2017-04-12 北京奇付通科技有限公司 一种搜索优化方法、装置和系统
CN105045889B (zh) * 2015-07-29 2018-04-20 百度在线网络技术(北京)有限公司 一种信息推送方法及装置
CN107515857B (zh) * 2017-08-31 2020-08-18 科大讯飞股份有限公司 基于定制技能的语义理解方法及系统
CN109660580B (zh) * 2017-10-11 2021-06-22 苏州跃盟信息科技有限公司 一种信息推送方法及装置
CN108256957A (zh) * 2017-12-22 2018-07-06 金瓜子科技发展(北京)有限公司 基于用户历史行为的车源搜索结果的展现方法及装置
CN108959644B (zh) * 2018-07-27 2020-04-14 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109951512B (zh) * 2019-01-09 2022-01-28 平安科技(深圳)有限公司 用户偏好确定方法、系统、电子设备及存储介质
CN111552768B (zh) * 2020-03-26 2022-07-19 深圳平安医疗健康科技服务有限公司 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质
CN111737423B (zh) * 2020-08-26 2021-01-01 北京声智科技有限公司 领域识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4200834B2 (ja) * 2003-07-02 2008-12-24 沖電気工業株式会社 情報検索システム、情報検索方法及び情報検索プログラム
TW201118589A (en) * 2009-06-09 2011-06-01 Ebh Entpr Inc Methods, apparatus and software for analyzing the content of micro-blog messages
KR101274419B1 (ko) * 2010-12-30 2013-06-17 엔에이치엔(주) 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법
US8620951B1 (en) * 2012-01-28 2013-12-31 Google Inc. Search query results based upon topic
CN103177087B (zh) * 2013-03-08 2016-05-18 浙江大学 一种基于概率主题模型的相似中药检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数学之美番外篇:平凡而又神奇的贝叶斯方法;刘未鹏;《http://mindhacks.cn/2008/09/21/the-magical-bayesian-method》;20080921;第1-17页 *
面向用户意图的智能搜索引擎框架研究;郑炜等;《现代图书情报技术》;20140331(第3期);第65-72页 *

Also Published As

Publication number Publication date
CN104077407A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104077407B (zh) 一种智能数据搜索系统及方法
US11663254B2 (en) System and engine for seeded clustering of news events
CN103729359B (zh) 一种推荐搜索词的方法及系统
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN108776671A (zh) 一种网络舆情监控系统及方法
CN107729336A (zh) 数据处理方法、设备及系统
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN106557558B (zh) 一种数据分析方法及装置
US10387805B2 (en) System and method for ranking news feeds
CN103838754B (zh) 信息搜索装置及方法
CN107193883B (zh) 一种数据处理方法和系统
CN107967347A (zh) 批量数据处理方法、服务器、系统及存储介质
CN108182605A (zh) 一种基于用户画像的用户行为预测方法及系统
CN113342976B (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
CA2956627A1 (en) System and engine for seeded clustering of news events
US9552415B2 (en) Category classification processing device and method
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
EP3493082A1 (en) A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
TW202006617A (zh) 雲端自助分析平台與其分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant