CN111382265B - 搜索方法、装置、设备和介质 - Google Patents

搜索方法、装置、设备和介质 Download PDF

Info

Publication number
CN111382265B
CN111382265B CN201811623479.9A CN201811623479A CN111382265B CN 111382265 B CN111382265 B CN 111382265B CN 201811623479 A CN201811623479 A CN 201811623479A CN 111382265 B CN111382265 B CN 111382265B
Authority
CN
China
Prior art keywords
knowledge
feature
category
probability
search text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811623479.9A
Other languages
English (en)
Other versions
CN111382265A (zh
Inventor
董宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guizhou Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811623479.9A priority Critical patent/CN111382265B/zh
Publication of CN111382265A publication Critical patent/CN111382265A/zh
Application granted granted Critical
Publication of CN111382265B publication Critical patent/CN111382265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种搜索方法、装置、设备和介质。该方法包括:对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和候选特证词集中每个候选特征词的语义,得到搜索文本的一个或多个特征词;按照预先构建的特征概率库获取一个或多个特征词中每个特征词针对特征概率库中每个知识类别的特征概率;获取搜索文本针对每个知识类别的联合概率,并得到与搜索文本关联的一个或多个知识类别;提供一个或多个知识类别,以使用户从一个或多个知识类别中选取目标知识类别;获得搜索文本与目标知识类别下每个知识条目的相似度,并将与搜索文本相似度达到预设相似度阈值的知识条目提供给用户。根据本发明实施例可以提高搜索的准确率。

Description

搜索方法、装置、设备和介质
技术领域
本发明涉及数据业务领域,尤其涉及一种搜索方法、装置、设备和介质。
背景技术
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现,以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式,进行交互的、上下文相关的、在一个会话过程中连续的对话。目前的交互式问答系统多是针对某一具体领域的,系统的表现性能,很大程度上依赖于该领域知识库的规模。系统的回复即是在该知识库中搜索到的与用户问句匹配的答案。领域不同,对应的知识库不同。但是,以日常对话为内容的问答,是基于任何领域的日常问答系统都涉及到的。
电信运营商的智能应答系统对人机自助服务的支持不是很好,要么只支持人工服务,要么自助服务对于用户的自然语言语义解析较差,同时需要大量的人工线下录入工作,包括对电信专业知识的录入和常用聊天语料的录入。而业务部门对繁琐的人工操作较为反感,由于无法长期坚持,导致机器人问答准确率逐渐下降,即搜索准确率下降。
发明内容
本发明实施例一种搜索方法、装置、设备和介质,提高了搜索准确率。
根据本发明实施例的一方面,提供一种搜索方法,该方法包括:
对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和候选特证词集中每个候选特征词的语义,对候选特征词集进行过滤处理,得到搜索文本的一个或多个特征词;
按照预先构建的特征概率库获取一个或多个特征词中每个特征词针对特征概率库中每个知识类别的特征概率;
基于每个特征词针对每个知识类别的特征概率,获取搜索文本针对每个知识类别的联合概率,并根据搜索文本针对每个知识类别的联合概率,得到与搜索文本关联的一个或多个知识类别;
提供一个或多个知识类别,以使用户从一个或多个知识类别中选取目标知识类别;
获得搜索文本与目标知识类别下每个知识条目的相似度,并将与搜索文本相似度达到预设相似度阈值的知识条目提供给用户。
根据本发明实施例的另一方面,提供一种搜索装置,该装置包括:
特征词获取模块,用于对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和候选特证词集中每个候选特征词的语义,对候选特征词集进行过滤处理,得到搜索文本的一个或多个特征词;
特征概率获取模块,用于按照预先构建的特征概率库获取一个或多个特征词中每个特征词针对特征概率库中每个知识类别的特征概率;
知识类别关联模块,用于基于每个特征词针对每个知识类别的特征概率,获取搜索文本针对每个知识类别的联合概率,并根据搜索文本针对每个知识类别的联合概率,得到与搜索文本关联的一个或多个知识类别;
知识类别提供模块,用于提供一个或多个知识类别,以使用户从一个或多个知识类别中选取目标知识类别;
知识条目提供模块,用于获得搜索文本与目标知识类别下每个知识条目的相似度,并将与搜索文本相似度达到预设相似度阈值的知识条目提供给用户。
根据本发明实施例的再一方面,提供一种搜索设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如本发明实施例提供的搜索方法。
根据本发明实施例的再一方面,提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的搜索方法。
本发明实施例提供的搜索方法、装置、设备和介质,首先利用候选特征词的语义和停用词库提高了特征词选择的准确性,从而提高搜索文本针对每个知识类别的联合概率的计算准确性。然后利用搜索文本针对每个知识类别的联合概率将搜索文本关联至一个或多个知识类别,缩小了提供给用户的知识类别的范围,以实现用户选定目标知识类别后,根据搜索文本与目标知识类别中每个知识条目的相似度,精确地搜索到用户需要的知识条目,从而提高搜索的精确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的搜索方法的流程示意图;
图2为本发明实施例提供的特征概率库的构建示意图;
图3为本发明实施例提供的搜索装置的结构示意图;
图4为本发明实施例的搜索设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了更好的理解本发明,下面将结合附图,详细描述根据本发明实施例的搜索方法、装置、设备和介质,应注意,这些实施例并不是用来限制本发明公开的范围。
现有在线客服智能应答支持标准的问答对,需要将客服知识库中的知识点通过坐席人员人工采编成问答对再录入智能应答系统,由系统对问答对中的问题内容提取特征词并生成相应的指示性概率,然后通过样本训练来校验机器人处理用户提问的质量。同时,智能应答系统关于用户日常生活类问句的处理较差,需要对日常用语提前采编录入,如果能匹配上寒暄语,则给出相应的答案,对于无法识别的提问,则一律返回系统正在成长。对于互联网或日常生产交互日志等,均需要人工干预才能按照现有处理规则完成机器人智能应答功能。从整个过程可以看出,系统在处理上需要大量的人工干预,系统的日常维护工作繁琐,使用效果不太理想。
图1示出本发明实施例提供的搜索方法的流程示意图。如图1所示,本发明实施例提供的搜索方法包括以下步骤:
S110,对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和候选特证词集中每个候选特征词的语义,对候选特征词集进行过滤处理,得到搜索文本的一个或多个特征词。
S120,按照预先构建的特征概率库获取一个或多个特征词中每个特征词针对特征概率库中每个知识类别的特征概率。
S130,基于每个特征词针对每个知识类别的特征概率,获取搜索文本针对每个知识类别的联合概率,并根据搜索文本针对每个知识类别的联合概率,得到与搜索文本关联的一个或多个知识类别。
S140,提供一个或多个知识类别,以使用户从一个或多个知识类别中选取目标知识类别。
S150,获得搜索文本与目标知识类别下每个知识条目的相似度,并将与搜索文本相似度达到预设相似度阈值的知识条目提供给用户。
本发明实施例提供的搜索方法,首先利用候选特征词的语义和停用词库提高了特征词选择的准确性,从而提高搜索文本针对每个知识类别的联合概率的计算准确性。然后利用搜索文本针对每个知识类别的联合概率将搜索文本关联至一个或多个知识类别,缩小了提供给用户的知识类别的范围,以实现用户选定目标知识类别后,根据搜索文本与目标知识类别中每个知识条目的相似度,精确地搜索到用户需要的知识条目,从而提高搜索的精确度。
在步骤S110中,用户将搜索文本输入智能搜索系统后,智能搜索系统先通过中英文分词插件将搜索文本分割为多个词组。
但是此时的词组中应该有多个对于特征分析毫无作用的词组。如搜索文本‘我要了解商旅套餐’进行分词操作后应为“我”、“要”、“我要”、“了解”、“商旅”、“套餐”。其中“我”、“要”、“我要”、“了解”对于特征分析毫无作用。系统通过辨别词语类型的方式将动词和名词以外的词组剔除掉,留下“商旅”、“套餐”作为关键词。
在实际应用时,用户输入的搜索文本中包括很多无意义词语。例如,无意义词语的连词:可是、那么、如果等;虚词:的、了、呢等词语,这些与业务内容无关的词语,为了避免后续的冗余处理,节约计算资源,需要将其过滤。
另外,一些出现频率过高的词语,例如,我们、人家等,这些词只在文本中起辅助作用。因此,为降低后续处理,提高过滤的性能,可以删除频率出现过高的词语。本发明实施例中,在停用词库中设置该类高文档率词语,具体可通过大规模文本集的分析,筛选一批文档率高的词语,加入到停用词库中。
也就是说,预设停用词库中包括出现频率过高的词以及一些无意义的词。但是,由于筛选的一些出现频率过高的词可能会与用户需要搜索的业务信息相关,因此只根据停用词库对候选特征词集进行过滤,可能会存在将一些本不应该过滤的候选特征词过滤掉,从而导致后续计算搜索文本针对知识类别的联合概率时的准确率降低。
为了提高搜索的准确率,当获取候选特征词集中的每一个候选特征词之后,将每一个候选特征词与预设的停用词库进行匹配,若该候选特征词语停用词库相匹配,则再根据该候选特征词的语义判断该候选特征词是否与用户经常搜索的知识相关。例如用户经常搜索的知识为用户相要了解的业务信息。
若与停用词库相匹配的候选特征词的语义与用户经常搜索的知识相关,则不将该候选特征词去除,而是将该候选特征词作为用户的搜索文本的特征词。经过停用词库和候选特征词的语义共同判断之后过滤出来的一个或多个候选特征词即为搜索文本的一个或多个特征词。
在步骤S120中,需要根据预先构建的特征概率库获取每个特征词针对特征概率库中每个知识类别的特征概率,因此下面先介绍一下特征概率库的构建方法。
在本发明的实施例中,构建特征概率库包括以下步骤:
S20,对采集的训练样本数据集中的样本数据与特征概率库中的每个知识类别进行匹配。
在本发明的实施例中,需要先采集训练样本数据集以及测试样本数据集。作为一个示例,可按照比例(例如,2:1)将样本数据分为训练样本数据集训练集和测试样本数据集。
然后,将对训练样本数据集中样本数据进行精确匹配以及模糊匹配,获取匹配成功的样本数据以及对应的知识类别。
S21,在特征概率库中建立每个知识类别的知识类别存储区,分别存储与该知识类别匹配成功的样本数据。
在本发明的实施例中,在特征概率库中建立多个知识类别存储区,每个知识类别存储区用于存储与该知识类别存储区对应的知识类别匹配成功的样本数据。
本发明的实施例中,对于未匹配上任何知识类别的样本数据,后续中不再考虑,即可以将其从训练样本数据集中移除,以避免该类样本数据对后续过程产生干扰。
S22,在每个知识类别存储区中,获取知识类别存储区中样本数据中包含的词条,统计词条在知识类别存储区对应的知识类别中的文档频率(document frequency,DF)值,并将DF值超过预先设置的知识类别DF阈值的词条作为特征词存入知识类别存储区。
在本发明的实施例中,对于不同的知识类别,可以设置不同的知识类别DF阈值,通过知识类别DF阈值过滤处理,可以使得后续构建的特征概率库更为精确。
S23,计算特征词在每个知识类别中的特征指示概率。
由于同一特征词可能出现在不同的知识类别存储区,因此需要计算每个特征词对应不同知识类别的特征指示概率。
作为一个示例,可采用朴素贝叶斯分类方法计算特征指示概率。
贝叶斯分类算法是一种广泛应用的分类算法,应用于文本分类,通过计算文本属于每个类别的概率P(cg/dy),其中,dy为类别y,cg为第g个样本数据,从而将该文本归为概率最大的一类。
朴素贝叶斯分类(Naive Bayesian)算法建立在“贝叶斯假设”的基础之上:即假设所有的特征之间互相独立,基于该假设的朴素贝叶斯分类算法的计算简单,能够进行自我纠正,效果较好。
考虑贝叶斯分类算法应用于知识分类和文本搜索等方面,但主要还是应用在垃圾短信、垃圾邮件等类别较少的分类模型构建中,缺少对样本类别概率的迭代计算和不断求精过程。因而本发明实施例中,结合贝叶斯分类算法并进一步设置迭代求精、分类学习、结果修正,以提高模型的精度以及自适应能力,降低维护成本。针对每一个知识类别,建立一个对应的目标文本和非目标文本特征词的贝叶斯概率模型。在贝叶斯概率模型中,对于每一个特征词,可以运用贝叶斯公式计算特征指示概率。
对于知识类别存储区中的一个特征词w,其特征指示概率计算公式如下:
其中,pi(w)是第i个知识类别中特征词w的特征指示概率;bi(w)是第i个知识类别中特征词w的目标概率;gi(w)是第i个知识类别中特征词w的非目标概率,即含有特征w的其他知识类别中文本数量与总的其他知识类别中文本数量的比值。
需要说明的是,知识类别中的文本即是知识类别的知识条目。作为一个示例,知识类别为“资费套餐”,该知识类别下对应了多个套餐的业务信息,则每个套餐的业务信息即为该知识类别下的文本(知识条目)。
其中,bi(w)可以利用下面的表达式进行表示:
其中,DFi(w)为第i个知识类别中含有特征w的目标分类文本数量,即DF值。Ni为第i个知识类别中总的目标分类文本数量。
其中,gi(w)可以利用下面的表达式进行表示:
其中,DFj(w)为第j个知识类别中含有特征w的文本数量;Nj为第j个知识类别中总的目标分类文本数量;a为总的知识类别数量。
S24,根据特征指示概率计算特征词在每个知识类别的特征概率,并存入对应的知识类别存储区中,建立特征词与特征概率的特征概率库。
在本发明的实施例中,特征词w针对第i个知识类别的特征概率fi(w)的计算公式如下:
其中,m为含特征w的文本数量,m=DFi(w);s为一个常数参量,通常为1;x为常量,当m=0时假设的常量,即含特征w的文本数量为零时,设置的特征概率,通常设为0.5。
在本发明的实施例中,特征w的特征概率迭代计算过程,即为特征概率库的构建。由于特征词的筛选消耗时间较长,因此将筛选特征词的整体过程单独分离实现,将统计筛选完成后的特征词用于构建特征概率库,以供前台分类搜索使用。
进一步地,在构建特征概率库后,还包括利用测试样本数据集中的样本数据对构建的特征概率库进行测试验证,并通过反复训练对特征词及特征概率进行修正。训练特征概率库的过程在图2中示出。例如,若用户在接收到智能搜索得到的知识条目时,回馈如果不是想要的结果,则会对用户发送的搜索文本和该知识条目所得到的特征词进行词频的参数修改,不断的训练概率特征库。
在本发明的实施例中,特征概率库包括业务特征概率库和日常特征概率。按照日常搜索和业务搜索所涉及的不同对象的范围,可以将特征概率库分为业务特征概率库和日常特征概率两个独立的库。
业务特征概率库中针对用户需要办理的业务进行分类,分成多个业务信息类别,也就是说,在业务特征概率库中的知识类别为业务信息类别。
日常特征概率库针对用户的日常对话内容进行分类,分成多个日常类别。也就是说,在日常特征概率库中的知识类别为日常用语类别。
在本发明的实施例中,日常特征概率库和业务特征概率库均为结构化数据库,便于对知识条目的分类和搜索,以提高搜索的效率。
在接收到用户发送的搜索文本时,首先利用业务特征概率库对搜索文本进行处理。也就是说,首先获取搜索文本的每个特征词对业务特征概率库中每个业务类别的特征概率;然后基于每个特征词针对每个业务信息类别的特征概率,获取搜索文本针对每个业务信息类别的联合概率。若搜索文本针对每个业务信息类别的联合概率均小于预设的联合概率阈值,则未得到与搜索文本关联的业务信息类别。即代表搜索文本与每个业务信息类别下的知识条目的关联性均不大。
然后按照与业务特征概率库相类似的搜索方法,根据日常特征概率库获取每个特征词针对日常特征概率库中每个日常用语类别的特征概率,直至获取与搜索文本相关联的日常用语类别。
在处理顺序上,首先基于业务特征概率库进行处理,业务特征概率库中,每个知识条目的类别是明确的,与结构化数据集的类别保持一致。在业务特征概率库中无法得到相应的答案时,再进入日常特征概率库进行搜索。通过明确业务特征概率库和日常特征概率库的处理顺序,可以保证用户优先搜索到相关的业务信息,提高了用户的良好体验。
在本发明的实施例中,根据贝叶斯公式获取每个特征词对每个知识类别的特征概率,目的是判断用户提交的搜索文本可能属于具体哪一项或哪某几项知识类别中。对于待分类的搜索文本,可以根据搜索文本的每个特征词针对每个知识类别的特征概率,得到搜索文本针对每个知识类别的联合概率。
其中,计算联合概率即是用来辨别用户的搜索文本与知识类别的关联度,关联程度越高则联合概率越高。当搜索文本与某一知识类别的联合概率达到一定标准后,即认为用户想要搜索的知识点在此项知识类别下。
作为一个示例,对于每个知识类别,若搜索文本针对知识类别的联合概率大于预设联合概率阈值,则将该知识类别作为与搜索文本关联的知识类别。
在步骤S130中,对于每个知识类别,将每个特征词针对该知识类别的特征概率的乘积除以以下两项之和得到商数:每个特征词针对知识类别的特征概率的乘积、以及每个特征词针对知识类别的特征概率的逆的乘积;然后将商数作为搜索文本针对知识类别的联合概率。
例如,假设根据用户发送的搜索文本B获得的特征词为b1、b2、b3、……、bn,n为特征词的总个数,这些特征词针对知识类别A的特征概率分别为p(b1)、p(b2)、p(b3)、……、p(bn),则该搜索文本B针对知识类别A的联合特征概率可通过下式来计算:
其中,公式(5)也可以用下面的表达式进行表示:
其中,f(bi)为搜索文本B的第i个特征词针对知识类别A的特征概率,当搜索文本B中包含以前没有从来没有出现过的特征词时,将该特征词针对知识类别A特征概率设定为初始值,例如,初始值假设为0.5。
在本发明的实施例中,当获取与用户发送的搜索文本相关联的一个或多个知识类别时,将该一个或多个知识类别提供给用户,以供用户选择,从而进一步缩小搜索范围。当用户从与搜索文本相关联的一个或多个知识类别中选取目标知识类别后,则利用更精确的向量空间算法,得出目标知识类别中与搜索文本相似的知识条目,以提供给用户。
在本发明的实施例中,步骤S150包括以下步骤:
S1501,将搜索文本的一个或多个特征词抽象成与该搜索文本相对应的知识点向量。
作为一个示例,假设已通过上文的方法将用户的搜索文本关联到知识类别C下,该知识类别C包括k个知识条目,即c1,c2,c3……ck,其中任一知识条目cp中含有多个子知识条目,p为小于等于k的正整数。
在本发明的实施例中,可以将用户的搜索文本抽象成包括r个特征词的知识点向量D={d1,d2,d3……dr}。
S1502,通过词频-逆文档频率算法获得知识点向量在目标知识类别中的总权重向量,以及知识点向量在每个知识条目中的知识条目权重向量。
在本发明的实施例中,知识点向量D在知识类别C中的总权重向量K={k1,k2,k3……kr}可通过TF-IDF统计算法来获得。下面示出通过TF-IDF算法获得单个特征词dh的权重kh的过程,h为小于等于r的正整数,其中:
dh的词频f(dh)=dh在知识类别C中出现的次数/知识类别C中的总词数
dh的逆文档频率f’(dh)=log[知识类别C中的知识条目总数/(包含该词的知识条目数+1)]
特征词dh对应的权重kh可以利用下面的表达式进行表示:
kh=f(dh)×f’(dh) (7)
基于与知识点向量在知识类别C中的总权重相类似的方法,可以获得知识点向量D在知识类别C中的任意一个知识条目cp中的知识条目权重向量Lp={qp1,qp2,qp3,…,qpr}。
S1503,对于每个知识条目,基于总权重向量与知识点向量在该知识条目中的知识条目权重向量,利用向量空间算法获得搜索文本与该知识条目的相似度。
通过向量K与Lp的夹角的余弦值来表征知识点向量与Lp对应的知识条目cp的相似度,夹角越小(即,余弦值越高),则代表搜索文本与知识条目cp越相似。
其中,向量K与Lp的夹角余弦计算公式可以利用下面的表达式进行计算:
本发明涉及的核心算法为使用朴素贝叶斯算法对用户发送的搜索文本关联特征概率库中某一项或某几项知识类别,缩小了知识条目的搜索范围。然后将与搜索文本关联的一个或多个知识类别提供给用户,以使用户选择自己想要搜索的搜索文本最为相关的知识类别作为目标知识类别。
由于朴素贝叶斯算法不适合直接用于最终知识点的搜索匹配,然后使用向量空间模型算法对搜索文本与目标知识类别下的知识条目进行相似度计算,最终得出用户想要搜索的结果。本方案采用的算法充分发挥了朴素贝叶斯和向量空间算法的特点,提高了对于结构化的特征知识概率库中的知识条目的搜索精度和系统的处理效率。
另外,根据本发明的构建特征概率库并智能地训练特征概率库的方法有利地减少人工干预的过程,提高搜索的准确率,不需要客服人员再单独采编录入知识条目,同时对智能应答算法进行优化,减少样本库迭代的次数,仍能保证较高的搜索准确率,从而达到预期效果。
图3示出了根据本发明一实施例提供的搜索装置的结构示意图。如图3所示,搜索装置300包括:
特征词获取模块310,用于对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和候选特证词集中每个候选特征词的语义,对候选特征词集进行过滤处理,得到搜索文本的一个或多个特征词。
特征概率获取模块320,用于按照预先构建的特征概率库获取一个或多个特征词中每个特征词针对特征概率库中每个知识类别的特征概率。
知识类别关联模块330,用于基于每个特征词针对每个知识类别的特征概率,获取搜索文本针对每个知识类别的联合概率,并根据搜索文本针对每个知识类别的联合概率,得到与搜索文本关联的一个或多个知识类别。
知识类别提供模块340,用于提供一个或多个知识类别,以使用户从一个或多个知识类别中选取目标知识类别。
知识条目提供模块350,用于获得搜索文本与目标知识类别下每个知识条目的相似度,并将与搜索文本相似度达到预设相似度阈值的知识条目提供给用户。
在本发明的实施例中,特征概率库为结构化数据库。
在本发明的实施例中,特征概率库包括业务特征概率库和日常特征概率库,业务特征概率的知识类别为业务信息类别,日常特征概率特征库的知识类别为日常用语类别;
知识类别关联模块340,用于在业务特征概率库中获取与搜索文本关联的业务信息类别;
还用于在业务特征概率库中未获取到与搜索文本关联的业务信息类别时,根据日常特征概率库获取与搜索文本关联的日常用语类别。
根据本发明实施例的搜索装置的其他细节与以上结合图1描述的根据本发明实施例的方法类似,在此不再赘述。
结合图1和图3描述的根据本发明实施例的搜索方法和装置可以由搜索设备来实现。图4是示出根据发明实施例的搜索设备的硬件结构400示意图。
如图4所示,本实施例中的搜索设备400包括:处理器401、存储器402、通信接口403和总线410,其中,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在搜索设备400的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将搜索设备400的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
也就是说,图4所示的搜索设备400可以被实现为包括:处理器401、存储器402、通信接口403和总线410。处理器401、存储器402和通信接口403通过总线410连接并完成相互间的通信。存储器402用于存储程序代码;处理器401通过读取存储器402中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行本发明任一实施例中的搜索方法,从而实现结合图1和图3描述的搜索方法和装置。
本发明实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的搜索方法。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种搜索方法,其特征在于,所述方法包括:
对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和所述候选特证词集中每个候选特征词的语义,对所述候选特征词集进行过滤处理,得到所述搜索文本的一个或多个特征词;
所述根据预设的停用词库和所述候选特证词集中每个候选特征词的语义,对所述候选特征词集进行过滤处理,得到所述搜索文本的一个或多个特征词,包括:
在所述候选特征词集中的候选特征词与所述停用词库匹配的情况下,若所述候选特征词集中的候选特征词的语义与预获取的历史搜索知识不匹配,则将所述候选特征词集中的候选特征词过滤,得到所述搜索文本的一个或多个特征词;
按照预先构建的特征概率库获取所述一个或多个特征词中每个特征词针对所述特征概率库中每个知识类别的特征概率;
基于所述每个特征词针对所述每个知识类别的特征概率,获取所述搜索文本针对所述每个知识类别的联合概率,并根据所述搜索文本针对所述每个知识类别的联合概率,得到与所述搜索文本关联的一个或多个知识类别;
提供所述一个或多个知识类别,以使所述用户从所述一个或多个知识类别中选取目标知识类别;
获得所述搜索文本与所述目标知识类别下每个知识条目的相似度,并将与所述搜索文本相似度达到预设相似度阈值的知识条目提供给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述特征概率库包括业务特征概率库和日常特征概率库,所述业务特征概率的知识类别为业务信息类别,所述日常特征概率特征库的知识类别为日常用语类别;
若在所述业务特征概率库中未得到与所述搜索文本关联的知识业务信息类别,则根据所述日常特征概率库获取与所述搜索文本关联的日常用语类别。
3.如权利要求1所述的方法,其特征在于,所述特征概率库为结构化数据库。
4.根据权利要求1所述的方法,其特征在于,所述基于所述每个特征词针对所述每个知识类别的特征概率,获取所述搜索文本针对所述每个知识类别的联合概率,包括:
对于每个知识类别,将所述每个特征词针对该知识类别的特征概率的乘积除以以下两项之和得到商数:所述每个特征词针对所述知识类别的特征概率的乘积、以及所述每个特征词针对所述知识类别的特征概率的逆的乘积;
将所述商数作为所述搜索文本针对所述知识类别的联合概率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述搜索文本针对所述每个知识类别的联合概率,得到与所述搜索文本关联的一个或多个知识类别,包括:
对于每个知识类别,若所述搜索文本针对知识类别的联合概率大于预设联合概率阈值,则将该知识类别作为与所述搜索文本关联的知识类别。
6.根据权利要求1所述的方法,其特征在于,所述获得所述搜索文本与所述目标知识类别下每个知识条目的相似度,包括:
将所述搜索文本的一个或多个特征词抽象成与该搜索文本相对应的知识点向量;
通过词频-逆文档频率算法获得所述知识点向量在所述目标知识类别中的总权重向量,以及所述知识点向量在所述每个知识条目中的知识条目权重向量;
对于每个知识条目,基于所述总权重向量与所述知识点向量在知识条目中的知识条目权重向量,利用向量空间算法获得所述搜索文本与该知识条目的相似度。
7.根据权利要求6所述的方法,其特征在于,所述对于每个知识条目,基于所述总权重向量与所述知识点向量在知识条目中的知识条目权重向量,利用向量空间算法获得所述搜索文本与该知识条目的相似度,包括:
对于每个知识条目,将所述总权重向量与所述知识点向量在知识条目中的知识条目权重向量之间的夹角的余弦值作为所述搜索文本与所述知识条目的相似度。
8.如权利要求1所述的方法,其特征在于,构建所述特征概率库包括:
对采集的训练样本数据集中的样本数据与所述特征概率库中的每个知识类别进行匹配;
在所述特征概率库中建立所述每个知识类别的知识类别存储区,分别存储与该知识类别匹配成功的样本数据;
在每个知识类别存储区中,获取知识类别存储区中样本数据中包含的词条,统计词条在所述知识类别存储区对应的知识类别中的文档频率DF值,并将DF值超过预先设置的知识类别DF阈值的词条作为特征词存入所述知识类别存储区;
计算特征词在所述每个知识类别中的特征指示概率;
根据特征指示概率计算该特征词在所述每个知识类别的特征概率,并存入对应的知识类别存储区中,建立特征词与特征概率的特征概率库。
9.一种搜索装置,其特征在于,所述装置包括:
特征词获取模块,用于对用户发送的搜索文本进行分词处理得到候选特征词集,并根据预设的停用词库和所述候选特证词集中每个候选特征词的语义,对所述候选特征词集进行过滤处理,得到所述搜索文本的一个或多个特征词,并在所述候选特征词集中的候选特征词与所述停用词库匹配的情况下,若所述候选特征词集中的候选特征词的语义与预获取的历史搜索知识不匹配,则将所述候选特征词集中的候选特征词过滤,得到所述搜索文本的一个或多个特征词;
特征概率获取模块,用于按照预先构建的特征概率库获取所述一个或多个特征词中每个特征词针对所述特征概率库中每个知识类别的特征概率;
知识类别关联模块,用于基于所述每个特征词针对所述每个知识类别的特征概率,获取所述搜索文本针对所述每个知识类别的联合概率,并根据所述搜索文本针对所述每个知识类别的联合概率,得到与所述搜索文本关联的一个或多个知识类别;
知识类别提供模块,用于提供所述一个或多个知识类别,以使所述用户从所述一个或多个知识类别中选取目标知识类别;
知识条目提供模块,用于获得所述搜索文本与所述目标知识类别下每个知识条目的相似度,并将与所述搜索文本相似度达到预设相似度阈值的知识条目提供给所述用户。
10.根据权利要求9所述的装置,其特征在于,所述特征概率库为结构化数据库。
11.根据权利要求9所述的装置,其特征在于,所述特征概率库包括业务特征概率库和日常特征概率库,所述业务特征概率的知识类别为业务信息类别,所述日常特征概率特征库的知识类别为日常用语类别;
所述知识类别关联模块,用于在所述业务特征概率库中获取与所述搜索文本关联的业务信息类别;
还用于在所述业务特征概率库中未获取到与所述搜索文本关联的业务信息类别时,根据所述日常特征概率库获取与所述搜索文本关联的日常用语类别。
12.一种搜索设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的搜索方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的搜索方法。
CN201811623479.9A 2018-12-28 2018-12-28 搜索方法、装置、设备和介质 Active CN111382265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811623479.9A CN111382265B (zh) 2018-12-28 2018-12-28 搜索方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811623479.9A CN111382265B (zh) 2018-12-28 2018-12-28 搜索方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111382265A CN111382265A (zh) 2020-07-07
CN111382265B true CN111382265B (zh) 2023-09-19

Family

ID=71216333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811623479.9A Active CN111382265B (zh) 2018-12-28 2018-12-28 搜索方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111382265B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281935A (zh) * 2021-09-16 2022-04-05 腾讯科技(深圳)有限公司 搜索结果分类模型的训练方法、装置、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092875A (zh) * 2011-11-04 2013-05-08 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
CN105956053A (zh) * 2016-04-27 2016-09-21 海信集团有限公司 一种基于网络信息的搜索方法及装置
CN106802881A (zh) * 2016-12-25 2017-06-06 语联网(武汉)信息技术有限公司 一种基于停用词表为待译稿件匹配译员的方法
CN108287848A (zh) * 2017-01-10 2018-07-17 中国移动通信集团贵州有限公司 用于语义解析的方法和系统
CN108509617A (zh) * 2018-04-04 2018-09-07 上海智臻智能网络科技股份有限公司 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9684709B2 (en) * 2013-12-14 2017-06-20 Microsoft Technology Licensing, Llc Building features and indexing for knowledge-based matching
CN106997382B (zh) * 2017-03-22 2020-12-01 山东大学 基于大数据的创新创意标签自动标注方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092875A (zh) * 2011-11-04 2013-05-08 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
CN105956053A (zh) * 2016-04-27 2016-09-21 海信集团有限公司 一种基于网络信息的搜索方法及装置
CN106802881A (zh) * 2016-12-25 2017-06-06 语联网(武汉)信息技术有限公司 一种基于停用词表为待译稿件匹配译员的方法
CN108287848A (zh) * 2017-01-10 2018-07-17 中国移动通信集团贵州有限公司 用于语义解析的方法和系统
CN108509617A (zh) * 2018-04-04 2018-09-07 上海智臻智能网络科技股份有限公司 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
E Yeo.the Cambridge history of the book in Britain.《library review》.2000,第49卷(第8期),全文. *
冯晓宁.外贸业务中如何使用搜索引擎.《中国海关》.2012,(第6期),全文. *
朱玉皎.个性化智能搜索引擎中查询扩展技术研究.《中国学位论文全文数据库》.2012,全文. *

Also Published As

Publication number Publication date
CN111382265A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
US10459971B2 (en) Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
CN106815252B (zh) 一种搜索方法和设备
CN109165291B (zh) 一种文本匹配方法及电子设备
CN105022754B (zh) 基于社交网络的对象分类方法及装置
US20050086045A1 (en) Question answering system and question answering processing method
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111125334A (zh) 一种基于预训练的搜索问答系统
CN109299245B (zh) 知识点召回的方法和装置
US10387805B2 (en) System and method for ranking news feeds
CN108287848B (zh) 用于语义解析的方法和系统
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN109829045A (zh) 一种问答方法和装置
CN104834651A (zh) 一种提供高频问题回答的方法和装置
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN111538823A (zh) 信息处理方法、模型训练方法、装置、设备及介质
CN111382265B (zh) 搜索方法、装置、设备和介质
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN111563361A (zh) 文本标签的提取方法及装置、存储介质
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112749530B (zh) 文本编码方法、装置、设备及计算机可读存储介质
CN110443646B (zh) 产品竞争关系网络分析方法和系统
CN110162614B (zh) 问题信息提取方法、装置、电子设备和存储介质
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant