CN108446295B - 信息检索方法、装置、计算机设备和存储介质 - Google Patents
信息检索方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108446295B CN108446295B CN201810065115.7A CN201810065115A CN108446295B CN 108446295 B CN108446295 B CN 108446295B CN 201810065115 A CN201810065115 A CN 201810065115A CN 108446295 B CN108446295 B CN 108446295B
- Authority
- CN
- China
- Prior art keywords
- target
- retrieval
- preset
- keywords
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种信息检索方法、系统、计算机设备和存储介质。该方法包括:获取目标问题;获取预设的多个检索路径以及每个检索路径对应的调用顺序;根据调用顺序获取第一顺序的检索路径,利用获取到的检索路径对目标问题进行检索,得到临时信息库;临时信息库包括多个信息对,信息对包括检索结果;计算多个信息对中每个检索结果与目标问题的相似度;检测是否存在与目标问题的相似度达到阈值的信息对;若不存在,根据调用顺序获取下一顺序的检索路径,返回利用获取到的检索路径对目标问题进行检索的步骤;若存在,抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。采用本方法能够提高信息检索效率及准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种信息检索方法、装置、计算机设备和存储介质。
背景技术
通常地,利用传统的搜索引擎,可以从互联网上浏览和检索到我们所需要的信息,为我们的生活带来很大的便利。但是,由于它们查询的基础是关键词,并非我们常用的自然语言,搜索引擎仅仅缩小了用户的查找范围,却很少能直接给出用户想要的答案,用户必须自己从海量相关信息中寻找答案,使得信息检索的效率以及准确性均不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高信息检索效率及准确性的信息检索方法、装置、计算机设备和存储介质。
一种信息检索方法,所述方法包括:
接收用户的信息检索请求,所述信息检索请求携带了目标问题;
获取预设的多个检索路径以及每个所述检索路径对应的调用顺序;
根据所述调用顺序获取第一顺序的检索路径,利用获取到的检索路径对所述目标问题进行检索,得到临时信息库;所述临时信息库包括多个信息对,所述信息对包括检索结果;
计算多个信息对中每个检索结果与所述目标问题的相似度;
检测是否存在与所述目标问题的相似度达到阈值的信息对;
当不存在与所述目标问题的相似度达到阈值的信息对时,根据所述调用顺序获取下一顺序的检索路径,返回所述利用获取到的检索路径对所述目标问题进行检索的步骤;
当存在与所述目标问题的相似度达到阈值的信息对时,抽取所述相似度达到阈值的检索结果作为目标结果,展示所述目标结果。
在其中一个实施例,所述信息对还包括所述检索结果对应的关联问题,确定多个信息对中每个检索结果与所述目标问题的相似度的步骤,包括:
识别所述目标问题的问题类别;
识别多个关联问题的问题类别;
根据所述关联问题的问题类别和所述目标问题的问题类别,对所述信息对进行过滤;
计算过滤得到的多个信息对中每个检索结果与所述目标问题的相似度。
在其中一个实施例,识别所述目标问题的问题类别的步骤,包括:
对所述目标问题进行预处理,得到所述目标问题对应的目标关键词;
获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;
将所述目标关键词与多个词袋中的预设关键词进行匹配;
当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;
当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级。
在其中一个实施例,对所述目标问题进行预处理的步骤,包括:
对所述目标问题进行拆分处理,得到对应的多个目标分词;所述目标分词包括停用词或标点符号;
对多个目标分词进行过滤,删除所述停用词和所述标点符号;
对过滤后的多个目标分词进行同义词替换;
对过滤后的多个目标分词进行命名实体替换。
在其中一个实施例,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:
获取问题语料;所述问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;
对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;
计算每个中间关键词的TF-IDF值,根据所述TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;
利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将所述词袋与相应的问题类别进行关联。
在其中一个实施例,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词的步骤,包括:
根据所述TF-IDF值对多个中间关键词进行排序;
按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将所述当前顺序的中间关键词与所述下一顺序中间关键词之间的位置作为截取位置;
根据所述截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在其中一个实施例,所述方法还包括:
获取多个目标结果的满意度反馈;
对所述满意度反馈进行大数据分析;
根据大数据分析结果对所述阈值和/或多个检索路径的调用顺序进行调整。
一种问答收取装置,所述装置包括:
检索请求模块,用于接收用户的信息检索请求,所述信息检索请求携带了目标问题;
多路径检索模块,用于获取预设的多个检索路径以及每个所述检索路径对应的调用顺序;根据所述调用顺序获取第一顺序的检索路径,利用获取到的检索路径对所述目标问题进行检索,得到临时信息库;所述临时信息库包括多个信息对,所述信息对包括检索结果;
结果提取模块,用于计算多个信息对中每个检索结果与所述目标问题的相似度;检测是否存在与所述目标问题的相似度达到阈值的信息对;当不存在与所述目标问题的相似度达到阈值的信息对时,根据所述调用顺序获取下一顺序的检索路径,返回所述利用获取到的检索路径对所述目标问题进行检索的步骤;当存在与所述目标问题的相似度达到阈值的信息对时,抽取所述相似度达到阈值的检索结果作为目标结果,展示所述目标结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
上述信息检索方法、装置、计算机设备和存储介质,接收到终端发送的目标问题后,对目标问题进行最新检索,相对传统的在预先存储的问答库中进行检索可以提高信息检索的准确性;在按照上述方式对目标问题进行准确分类的前提下,利用关联问题与目标问题的问题类别对检索得到的信息对进行一级过滤,可以缩小目标结果的筛选范围,从而可以提高信息检索效率;利用检索结果与目标问题的相似度对检索得到的信息对进行二级过滤,可以逐步筛选出符合用户需求的目标结果;利用预设的多个检索路径对目标问题进行多层级检索,直至能够在检索到的多个关联问题中提取到与目标问题相似度符合条件的目标结果,相对传统的在单一检索路径进行检索,确保检索到符合用户需求的目标结果才进行返回,从而可以进一步提高信息检索的准确性。
附图说明
图1为一个实施例中信息检索方法的应用场景图;
图2为一个实施例中信息检索方法的流程示意图;
图3为一个实施例中信息检索方法的问题分类步骤的流程示意图;
图4为另一个实施例中多个中间关键词的IF-IDF值的变化规律示意图;
图5为一个实施例中信息检索装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的信息检索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以是个人计算机、笔记本电脑、智能手机、平板电脑或便携式可穿戴设备中的至少一种,但并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器组成的服务器集群。
当用户需要进行信息检索时,可以在终端102录入目标问题。终端102利用用户输入的目标问题生成信息检索请求,将信息检索请求发送至服务器104。服务器104预先存储了多个检索路径以及每个检索路径对应的调用顺序。服务器104预先存储了多个检索路径以及每个检索路径对应的调用顺序。检索路径可以包括第三方的检索平台,如百度或搜狗等。服务器104根据调用顺序获取第一顺序的检索路径,利用第一顺序的检索路径对目标问题进行检索,得到临时信息库。临时信息库包括多个信息对,信息对包括关联问题以及对应的检索结果。服务器对目标问题以及多个关联问题进行分类,根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤。服务器104利用IF-IDF算法或者BM25算法等计算过滤得到的多个信息对中每个检索结果与目标问题的相似度,检测是否存在与目标问题的相似度达到阈值的信息对。当存在目标问题的相似度达到阈值的信息对时,服务器104抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。当不存在与目标问题的相似度达到阈值的信息对时,服务器104根据调用顺序获取下一顺序的检索路径,利用下一顺序的检索路径对目标问题重新检索,得到新的临时信息库,按照上述方式对新的临时信息库中的信息对进行过滤,对过滤后的信息对的相似度是否达到阈值进行检测。若仍不存在与目标问题的相似度达到阈值的信息对,则服务器根据调用顺序获取第三顺序的检索路径,按照上述利用第三顺序的检索路径对目标问题重新检索,以此类推。上述信息检索的过程,利用预设的多个检索路径对目标问题进行多层级检索,直至能够在检索到的多个关联问题中提取到与目标问题相似度符合条件的目标结果,相对传统的在单一检索路径进行检索,确保检索到符合用户需求的目标结果才进行返回,从而可以进一步提高信息检索的准确性。
在一个实施例中,如图2所示,提供了一种信息检索方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,接收用户的信息检索请求,信息检索请求携带了目标问题。
当用户需要进行信息检索时,可以在终端录入目标问题。目标问题可以是陈述句、疑问句或祈使句等,例如,目标问题A可以是“办理签证需要准备的资料”,目标问题B可以是“我在国外可以查卡内余额吗?”,目标问题C可以是“我没有带任何行李,就不用过安检了吧!”等。目标问题可以是中文问题,也可以是预设种类语言的外文问题,如英文问题等。当目标问题为中文问题时,目标问题可以采用简体字,也可以采用繁体字。终端利用用户输入的目标问题生成信息检索请求,将信息检索请求发送至服务器。
步骤204,获取预设的多个检索路径以及每个检索路径对应的调用顺序。
服务器预先存储了多个检索路径以及每个检索路径对应的调用顺序。检索路径可以包括第三方的检索平台,如百度或搜狗等。检索路径还可以包括预先存储的问答库对应的存储路径。调用顺序是指在多个检索路径进行检索的顺序,可以是串行检索,也可以是并行检索,还可以是串行检索与并行检索的结合。串行检索是指在第一顺序的检索路径进行检索,根据检索结果判断是否需要在第二顺序的检索路径重新检索;如果不需要则在第一顺序的检索路对应的检索结果中抽取目标结果,如果需要则在第二顺序的检索路径重新检索,如此类推。并行检索是指同步在多个检索路径进行检索,在得到的全部检索结果中抽取目标结果。容易理解,并行检索可以提高检索效率。以下将以串行检索为例介绍信息检索的过程。
步骤206,根据调用顺序获取第一顺序的检索路径,利用获取到的检索路径对目标问题进行检索,得到临时信息库;临时信息库包括多个信息对,信息对包括检索结果。
步骤208,计算多个信息对中每个检索结果与目标问题的相似度。
服务器根据调用顺序获取第一顺序的检索路径,利用第一顺序的检索路径对目标问题进行检索,得到临时信息库。临时信息库包括多个信息对,信息对包括关联问题以及对应的检索结果。为了提高信息检索的效率,可以对信息对的数量进行限制,如信息对的最大数量可以是30个。服务器利用IF-IDF算法或者BM25算法等计算过滤得到的多个信息对中每个检索结果与目标问题的相似度。
在一个实施例中,信息对还包括检索结果对应的关联问题,确定多个信息对中每个检索结果与目标问题的相似度的步骤,包括:识别目标问题的问题类别;识别多个关联问题的问题类别;根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤;计算过滤得到的多个信息对中每个检索结果与目标问题的相似度。
为了提高信息检索效率,在对计算检索结果与目标问题的相似度之前,服务器识别多个关联问题的问题类别。根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤。具体的,服务器预先存储了多个问题类别以及每个问题类别对应的多个词袋。每个词袋包括多个预设关键词。服务器将目标关键词与多个词袋中的预设关键词进行匹配,判断目标问题是否包含了一个或多个词袋。当目标问题包含了一个词袋时,服务器根据该词袋对应的问题类别对目标问题进行分类。当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或包含预设关键词的权重确定多个词袋的匹配优先级,按照匹配优先级将目标关键词与每个词袋对应的多个预设关键词进行重新匹配,根据重新匹配的结果对目标问题进行分类。由于对目标关键词的词性及数据均无限制,使得可以从多个维度对目标问题分类,从而可以提高问题分类的准确度。
服务器按照上述方式识别多个关联问题的问题类别。服务器根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤;计算过滤得到的多个信息对中每个检索结果与目标问题的相似度。换句话说,服务器利用关联问题与目标问题的问题类别对检索得到的信息对进行一级过滤,利用检索结果与目标问题的相似度对检索得到的信息对进行二级过滤。通过一级过滤可以减少需要计算相似度的检索结果的数量,从而可以在保证信息检索准确性的前提下减少信息检索时间,进而可以提高信息检索效率。
步骤210,检测是否存在与目标问题的相似度达到阈值的信息对。
服务器检测是否存在与目标问题的相似度达到阈值的信息对。阈值可以是服务器对多个历史目标结果的满意度反馈进行大数据分析,根据大数据分析结果设定的。阈值也可以是相关人员通过终端等预先配置在服务器的。
步骤212,当不存在与目标问题的相似度达到阈值的信息对时,根据调用顺序获取下一顺序的检索路径,返回利用获取到的检索路径对目标问题进行检索的步骤。
步骤214,当存在与目标问题的相似度达到阈值的信息对时,抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。
当存在目标问题的相似度达到阈值的信息对时,抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。在一个实施例中,当相似度达到阈值的检索结果有多个时,服务器抽取相似度最高的检索结果作为目标结果。
当不存在与目标问题的相似度达到阈值的信息对时,服务器根据调用顺序获取下一顺序的检索路径,利用下一顺序的检索路径对目标问题重新检索,得到新的临时信息库,按照上述方式对新的临时信息库中的信息对进行两级过滤,对过滤后的信息对的相似度是否达到阈值进行检测。若仍不存在与目标问题的相似度达到阈值的信息对,则服务器根据调用顺序获取第三顺序的检索路径,按照上述利用第三顺序的检索路径对目标问题重新检索,以此类推。
本实施例中,接收到终端发送的目标问题后,对目标问题进行最新检索,相对传统的在预先存储的问答库中进行检索可以提高信息检索的准确性;在按照上述方式对目标问题进行准确分类的前提下,利用关联问题与目标问题的问题类别对检索得到的信息对进行一级过滤,可以缩小目标结果的筛选范围,从而可以提高信息检索效率;利用检索结果与目标问题的相似度对检索得到的信息对进行二级过滤,可以逐步筛选出符合用户需求的目标结果;利用预设的多个检索路径对目标问题进行多层级检索,直至能够在检索到的多个关联问题中提取到与目标问题相似度符合条件的目标结果,相对传统的在单一检索路径进行检索,确保检索到符合用户需求的目标结果才进行返回,从而可以进一步提高信息检索的准确性。
在一个实施例中,如图3所示,识别目标问题的问题类别的步骤,包括:
步骤302,对目标问题进行预处理,得到目标问题对应的目标关键词。
服务器接收到终端发送的目标问题之后,按照预设规则对目标问题进行预处理。具体的,服务器对目标问题中的多个词汇和标点符号进行词性标注,根据标注结果对目标问题进行拆分,将目标问题拆分为多个目标分词。目标分词可以是词汇、汉字或标点符号中的一种,例如,在上述举例中,目标问题“我在国外可以查卡内余额吗?”拆分后可以得到多个目标分词:“我”、“在”、“国外”、“可以”、“查”、“卡内”、“余额”、“吗”和“?”。服务器根据每个目标分词分别对于问题分类的作用,从多个目标分词中筛选一个或多个作为目标关键词。一个目标问题具有至少一个对应的目标关键词,且该目标关键词可以是疑问词,也可以是除疑问词之外的其他词汇。需要说明的是,服务器对目标关键词的词性及数量均无限制。例如,上述举例中目标关键词可以是“国外”、“查”、“卡内”和“余额”。
在一个实施例中,对目标问题进行预处理的步骤,包括:对目标问题进行拆分处理,得到对应的多个目标分词;目标分词包括停用词或标点符号;对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换;对过滤后的多个目标分词进行命名实体替换。
服务器上部署了数据库,并在数据库中预先存储了停用词表。停用词表记录了多个停用词。停用词是指对于问题分类作用较小的词汇或汉字,如“我”、“啊”、“的”、“就”等。服务器获取停用词表,利用停用词表在拆分得到的多个目标分词中筛选停用词和标点符号,将筛选出的停用词和标点符号删除。例如,在上述举例中,“我”、“在”、“可以”和“吗”可以作为停用词删除,“?”可以作为标点符号删除,由此可以将“国外”、“查”、“卡内”和“余额”作为目标问题的目标关键词。对停用词和标点符号进行过滤,即可以节省服务器的存储空间,也可以提高服务器根据目标关键词对目标问题进行分类的效率和准确率。
服务器预先存储了同义词表。同义词表记录了多个标准词以及每个标准词对应的同义词。同义词不仅包括与标准词采用相同字体和相同语言的近义词或等义词,还可以包括与标准词采用不同字体或不同语言的近义词或等义词,如目标分词“打票”、“领票”、“换票”、“換嘌”和“change ticket”等均可以替换为同义词表中的标准词“取票”。同义词替换可以对同一个概念的多种表达方式进行统一,使得目标问题的关键概念更未凸显,降低服务器根据目标关键词对目标问题进行分类的难度,从而可以提高问题分类的效率和准确率。
服务器预先存储了命名实体表。命名实体表记录了多个命名实体以及每个命名实体对应的实体词。命名实体包括人名、机构名或地名等,还可以包括其他以名称为标识的实体,如数字、日期、货币或地址等。服务器识别多个目标分词中的命名实体,将识别出的命名实体替换为对应的实体词,例如,可以将目标分词中所有的人名替换为“人物”,将目标分词中所有的地名替换为“地点”。命名实体的替换可以降低问题分类的粒度,从而可以提高问题分类的效率。服务器将同义词替换以及命名实体替换后的多个目标分词作为目标关键词。
步骤304,获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词。
服务器在数据库中预先存储了多个问题类别以及每个问题类别对应的多个词袋。多个问题类别以及对应的词袋可以是服务器对问题语料进行处理得到的。问题语料包括多个问题类别以及每个问题类别对应的多个预设问题。问题语料可以是服务器通过网络爬取并进行分类得到的。在另一个实施例中,相关人员对获取到预设问题进行类别,从而问题语料可以是相关人员通过终端预先发送至服务器。
服务器获取问题语料,对问题语料中多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词。服务器计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词。服务器利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。每个预设问题对应一个词袋。例如,预设问题D“我在国外怎么查卡内余额?”对应的词袋d可以是““国外”、“查”、“余额””,关联的问题类别可以是“国外事务”。
步骤306,将目标关键词与多个词袋中的预设关键词进行匹配。
目标问题对应的一个或多个目标关键词可以构成目标问题对应的词袋(以下简称“目标词袋”)。服务器将目标关键词与多个词袋中的预设关键词进行匹配。服务器根据匹配结果可以判断目标词袋是否包含了一个或多个预设的词袋。容易理解,若一个词袋中的全部预设关键词分别具有相对应的目标关键词,则表示目标关键词与该词袋中的预设关键词匹配成功,即目标词袋包含了该词袋。例如,在上述举例中,目标问题B对应的目标词袋““国外”、“查”、“卡内”、“余额””包含了预设问题D对应的词袋d。
步骤308,当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类。
步骤310,当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类。
将目标关键词与多个词袋中的预设关键词进行匹配的结果有多种情况。其中一种情况是目标问题包含且仅包含了一个词袋,服务器直接根据相匹配的该词袋对应的问题类别对目标问题进行分类即可,如目标问题B属于问题类别“国外事务”。
另一种情况是目标问题未包含任意一个词袋。虽然在目标问题中提取目标关键词,仅将目标关键词与词袋进行匹配可以提高问题分类效率,但也使得匹配条件变得苛刻,可能导致按照上述方式无法对目标问题进行成功分类。本实施例当目标问题未包含任意一个词袋时,服务器将目标问题拆分得到的全部目标词汇与多个词袋中的预设关键词进行重新匹配,根据重新匹配的结果对目标问题进行分类。在另一个实施例中,当全部目标词汇均用作预设关键词进行问题分类,仍不存在相匹配的词袋时,服务器利用目标问题生成分类失败的提示信息,将提示信息发送至指定设备,使相关人员根据提示信息对目标问题进行人工分类。
再一种情况是目标问题包含了多个词袋。本实施例当目标问题包含了多个词袋时,服务器根据相匹配的多个词袋包含预设关键词的数量和/权重确定多个词袋的匹配优先级,按照匹配优先级将目标关键词与相应词袋对应的多个预设关键词进行重新匹配,根据重新匹配的结果对目标问题进行分类。根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中可以筛选与目标问题匹配度最高的唯一一个词袋,从而可以将目标问题精准的分为该词袋对应的问题类别。
本实施例中,通过对目标问题进行拆分处理,可以得到目标问题对应的多个目标分词;通过对目标分词进行筛选,可以筛选得到目标问题对应的目标关键词;通过将目标关键词与预设的多个词袋进行匹配,可以根据匹配结果以及预存储的词袋与问题类别的对应关系对目标问题进行分类。由于对目标关键词的词性以及数量均无限制,能够保证从目标问题中可以提取到用于识别问题类别的目标关键词,能够对多种多样的问题进行分类。也正是由于对目标关键词的词性以及数量无限制,可以从多个维度对目标问题进行分类,从而相对传统的仅根据疑问词进行问题分类的方式还可以提高问题分类的准确度。在目标问题包含了多个词袋时,根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中筛选与目标问题匹配度最高的唯一一个词袋,可以将目标问题精准的分为某个词袋对应的问题类别,从而能够进一步提高问题分类的准确度。
在一个实施例中,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
服务器获取问答预料,按照上述方式对问题语料中的多个预设问题进行预处理,得到多个中间关键词。具体的,服务器对预设问题进行拆分处理,得到多个中间分词,对多个中间分词进行过滤,删除中间分词中的停用词和标点符号,对过滤后的多个中间分词进行同义词替换和/或命名实体替换;将替换后的多个中间分词作为中间关键词。
服务器将其中一个或多个中间关键词作为预设关键词。为了提高问题分类效率,并非预处理得到的每个中间关键词均作为预设关键词,而是根据中间关键词的TF-IDF值(term frequency–inverse document frequency,词频-逆向文件频率)进行筛选。具体的,服务器通过统计每个中间关键词在所有中间关键词中出现的次数,计算相应中间关键词的TF值(term frequency,词频);通过统计问题预料中预设问题的总数量与包含某个中间关键词的预设问题的数量的比值,计算相应中间关键词的IDF值(inverse documentfrequency,逆向文件频率)。
服务器根据每个中间关键词的TF值和IDF值计算相应中间关键词的TF-IDF值。中间关键词的TF-IDF值可以反映中间关键词的类别区分能力。服务器根据TF-IDF值对中间关键词进行筛选,筛选得到预设数量TF-IDF值高的中间关键词作为预设关键词。服务器利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,并将词袋与相应的问题类别进行关联。
本实施例中,对问题预料进行预处理,得到多个中间关键词,但并未预处理得到的每个中间关键词均作为预设关键词,而是根据中间关键词的TF-IDF值进行筛选,可以提高问题分类效率。
在一个实施例中,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词的步骤,包括:根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
服务器根据TF-IDF值对多个中间关键词进行排序,形成一个问题类别对应的关键词词典。容易理解,不用应用场景可以有不同的关键词词典,如“出入境”对应关键词词典可以是[“国航”“的士”“购票”“国外”、“签证”、“安检”……“余额”]。为了描述方便,按照排序对多个中间关键词进行编号,并通过将编号作为相应中间关键词的TF-IDF值的下标等方式对中间关键词的TF-IDF值进行区分,例如,在上述举例中,第一顺序的中间关键词“国航”对应的TF-IDF值可以标记为TF-IDF1;第二顺序的中间关键词“的士”对应的TF-IDF值可以标记为TF-IDF2,以此类推。
服务器按照TF-IDF值由高至低的顺序对关键词词典中的多个中间关键词进行遍历,并在遍历过程中对当前顺序的中间关键词的TF-IDFi是否超过预设倍数K的下一顺序中间关键词的TF-IDFi+1,即验证TF-IDFi>K*TF-IDFi+1(0<i<m)是否成立。其中,m为关键词词典包含中间关键词的总数量,K为大于1的常熟因子。若当前顺序的中间关键词的TF-IDFi≤K*TF-IDFi+1,则服务器按照上述方式继续对下一顺序的中间关键词的TF-IDF值是否满足上述条件进行验证,直至一个中间关键词的TF-IDF值满足上述条件。
当关键词词典包含中间关键词的数量够多时,可以预期多个中间关键词的TF-IDF值符合如图4所示的变化规律。若一个中间关键词的TF-IDF值满足上述条件,表示该中间关键词的TF-IDF值与后一个中间关键词的TF-IDF值落差较大。服务器将满足上述条件的中间关键词与下一顺序中间关键词之间的位置作为截取位置,根据截取位置截取排序靠前的多个中间关键词,即截取TF-IDF值高的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在另一个实施例中,为了限制预设关键词的数量以提高问题分类时间,服务器预设了截取中间关键词的数量最大值n(n<m)。当关键词词典中第n个中间关键词的TF-IDFn值仍然不满足TF-IDFn>K*TF-IDFn+1,则服务器截取前面n个中间关键词作为预设关键词。也就是说,服务器最多截取n个中间关键词作为预设关键词。容易理解,可以根据实际需求自由设置n值和K值。
本实施例中,并未预处理得到的每个中间关键词均作为预设关键词,而是根据中间关键词的TF-IDF值进行筛选,可以提高问题分类效率。通过对多个中间关键词进行遍历,识别一个中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,来确定对中间关键词的截取位置;换言之,可以确定在中间关键词中提取预设关键词的数量的阈值,可以适应不同的问题语料自动调整该阈值,从而可以提高问题分类的准确性。
在一个实施例中,将词袋与相应的问题类别进行关联的步骤,包括:对多个词袋是否重复进行校验;当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将标识词添加至相应预设问题的词袋,返回对多个词袋是否重复进行校验的步骤;当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
由于预设关键词仅是在预设问题中提取的部分词汇,使得可能存在多个不同的预设问题对应的预设关键词相同的情况,即存在多个不同的预设问题对应的词袋发生重复的问题。例如,假设预设问题E“我没有带任何行李,可不可以不用过安检?”对应词袋e为“行李”;预设问题F“行李在哪里寄存?”对应词袋f也为“行李”,则存在词袋冲突的问题。
为了解决上述词袋冲突的问题,服务器在得到每个预设问题对应的词袋后,并不直接将词袋与对应的问题类别进行关联,而是对多个词袋是否重复进行校验,只有检验通过的词袋才可与对应的问题类别进行关联。当存在多个词袋发生重复时,服务器获取发生重复的多个词袋,针对每个词袋添加一个标识词,以将发生重复的多个词袋进行区分。添加到不同词袋的标识词可以是服务器从相应预设问题对应的多个未被选作预设关键词的中间分词中筛选得到的。容易理解,当预设问题对应的中间分词包括未被选作预设关键词的中间关键词时,优先选择中间关键词作为相应预设问题的标识词。
在对重复的词袋添加标识词之后,对发生重复的多个词袋是否仍存在重复进行重新校验。若重新校验的结果为仍存在多个词袋发生重复,服务器按照上述方式给发生重复的多个词袋分别再添加一个标识词。若一个预设问题对应的所有中间分词均已选作预设关键词或标识词,即不存在中间分词可以充当标识词,则服务器利用发生重复且不存在新的标识词的词袋生成词袋冲突日志,将词袋冲突日志发送至指定设备,使相关人员可以通过根据词袋冲突日志对依然发生冲突的词袋进行区别标记。当不存在多个词袋发生重复时,服务器将多个词袋与相应的问题类别进行关联。
本实施例中,在得到每个预设问题对应的词袋后,并不直接将词袋与对应的问题类别进行关联,而是对多个词袋是否重复进行校验,只有检验通过的词袋才可与对应的问题类别进行关联;发生重复的多个词袋,针对每个词袋添加一个标识词,可以将发生重复的多个词袋进行区分,从而可以避免因为词袋冲突对问题分类造成的影响,进而可以提高问题分类的准确性。
在一个实施例中,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:获取问题语料,问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;计算每个预设关键词的哈希值;对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;将每个预设问题对应的哈希值与相应的问题类别进行关联;对多个问题类别以及关联的哈希值进行存储。
海量预设关键词会占据大量服务器资源。容易理解,不同词袋中可能包含一个或多个相同的预设关键词。例如,词袋g包括预设关键字“直达”“地铁”和“备选路线”;词袋h包括预设关键字“备选路线”、“公交”、“换乘”、“地铁”。则词袋g与词袋h存在重复的预设关键字“地铁”“备选路线”。大量预设关键词的重复会进一步加剧对服务器资源的占用。
为了节省服务器存储空间,服务器计算每个预设关键词的哈希值,将每个词袋包含的多个预设关键词分别对应的哈希值进行关联。服务器对相关量的多个哈希值进行累加求和,将计算得到的哈希值的哈作为相应预设问题的哈希值,将预设问题的哈希值与对应的问题类别进行关联。服务器对多个问题类别以及关联的哈希值进行存储。哈希值可以占用较少的存储空间,从而可以减少服务器资源的占用。
本实施例中,对于海量的预设关键词,服务器并非直接采用字词的方式进行存储,而是计算每个预设关键词的哈希值,将哈希值与相应的预设关键词进行关联,由于哈希值可以占用较少的存储空间,从而利用哈希值的方式对海量预设关键词进行存储可以减少服务器资源的占用。
在一个实施例中,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类的步骤,包括:当相匹配的多个词袋包含预设关键词的数量不同时,根据预设关键词的数量确定多个词袋的优先级;当相匹配的多个词袋包含预设关键词的数量相同时,根据预设关键词的权重确定多个词袋的优先级;根据优先级最高的词袋对应的问题类别对目标问题进行分类。
当存在多个词袋与目标问题相匹配时,服务器统计相匹配的每个词袋包含预设关键词的数量,根据包含预设关键词的数量最多的词袋对应的问题类别对目标问题进行分类。服务器根据预设关键词在问题预料对应的所有中间分词中出现的频率,对每个预设关键词分配了对应的权重,如上述举例中预设关键词“地铁”对应的权重可以是0.08%。当包含预设关键词的数量最多的词袋有多个时,服务器根据这些词袋中包含的每个预设关键词的词频和权重,确定多个词袋的优先级。例如,计算预设关键词的词频和权重的积值,根据该积值确定多个词袋的优先级。容易理解,积值越大,对应的词袋的优先级越高。服务器根据优先级最高的词袋对应的问题类别对目标问题进行分类。
本实施例中,在目标问题包含了多个词袋时,根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中筛选与目标问题匹配度最高的唯一一个词袋,可以将目标问题精准的分为某个词袋对应的问题类别,从而能够进一步提高问题分类的准确度。
在一个实施例中,该方法还包括:获取多个目标结果的满意度反馈;对满意度反馈进行大数据分析;根据大数据分析结果对阈值和/或多个检索路径的调用顺序进行调整。
服务器在向终端返回目标结果时,还向终端返回满意度调查信息。终端在目标结果的显示页面还显示满意度调查信息。用户在终端浏览目标结果后,可以对满意度调查信息进行反馈。终端将用户输入的满意度反馈返回至服务器。服务器在接收到大量目标问题对应目标结果的满意度反馈后,对大量满意度反馈进行大数据分析。服务器统计多个目标问题的第一满意度平均值,根据第一满意度平均值对用于限定相似度的阈值进行调整,例如,当第一满意度平均值偏低时,可以适当减阈值调高。服务器还统计每个检索路径得到的目标问题的第二满意度平均值,根据第二满意度平均值对多个检索路径的调用顺序进行调整。例如,将第二满意度平均值高的检索路径的调用顺序调前,将第二满意度平均值低的检索路径的调用顺序调后。
本实施例中,根据用户对目标结果的满意度及时调整用于筛选目标结果的相似度阈值以及多条检索路径的调用顺序,可以逐步改善答案收取的准确性。
在一个实施例中,临时信息库还包括每个检索结果对应的评论信息;当存在相似度达到阈值的信息对时,抽取相似度达到阈值的检索结果作为目标结果的步骤,包括:当存在多个相似度达到阈值的信息对时,获取相似度达到阈值的多个检索结果的评论信息,对相应检索结果进行打分;筛选分值最高的检索结果作为目标结果。
临时信息库还包括每个检索结果对应的评论信息,如点赞数、踩数等信息。当存在多个与目标问题的相似度达到阈值的信息对时,服务器根据检索结果对应的评论信息给相应的检索结果打分,将筛选分值最高的检索结果作为目标结果返回至终端。本实施例中,根据检索结果对应的评论信息对多个相似度达到阈值的信息对进行筛选,确保返回的目标结果符合用户需求,可以提高信息检索的准确性。
在一个实施例中,检索结果包括答案摘要以及对应的完整答案;展示目标结果的步骤,包括:检测答案摘要是否包括省略标识;当答案摘要包括省略标识时,获取答案摘要对应的完整答案,在完整答案中截取预设长度的部分答案,对截取得到的部分答案进行展示。
检索结果包括答案摘要以及对应的完整答案。服务器检测答案摘要是否包括省略标识,如省略号等。若答案摘要包括省略标识,答案摘要的内容存在省略的部分,即内容不够完整,会给用户带来阅读障碍,服务器获取答案摘要对应的完整答案,将完整答案作为目标结果返回至终端。为了节省用户的阅读时间,服务器对超过预设长度的完整答案进行限长处理,例如,在完整答案中,将省略标识后面第一个目标类标点符号的位置作为截取位置。服务器在完整答案中截取上述截取位置之前的部分答案作为目标结果。
应该理解的是,虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种信息检索装置,包括:检索请求模块502、多路径检索模块504和结果提取模块506,其中:
检索请求模块502,用于接收用户的信息检索请求,信息检索请求携带了目标问题。
多路径检索模块504,用于获取预设的多个检索路径以及每个检索路径对应的调用顺序;根据调用顺序获取第一顺序的检索路径,利用获取到的检索路径对目标问题进行检索,得到临时信息库;临时信息库包括多个信息对,信息对包括检索结果。
结果提取模块506,用于计算多个信息对中每个检索结果与目标问题的相似度;检测是否存在与目标问题的相似度达到阈值的信息对;当不存在与目标问题的相似度达到阈值的信息对时,根据调用顺序获取下一顺序的检索路径,返回利用获取到的检索路径对目标问题进行检索的步骤;当存在与目标问题的相似度达到阈值的信息对时,抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。
在一个实施例中,信息对还包括检索结果对应的关联问题,结果提取模块506包括问题类别识别模块5062和问题类别过滤模块5064。问题类别识别模块5062用于识别目标问题的问题类别;识别多个关联问题的问题类别;问题类别过滤模块5064根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤;计算过滤得到的多个信息对中每个检索结果与目标问题的相似度。
在一个实施例中,问题类别识别模块5062还用于对目标问题进行预处理,得到目标问题对应的目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配;当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级。
在一个实施例中,问题类别识别模块5062还用于对目标问题进行拆分处理,得到对应的多个目标分词;目标分词包括停用词或标点符号;对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换;对过滤后的多个目标分词进行命名实体替换。
在一个实施例中,问题类别识别模块5062还用于获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
在一个实施例中,问题类别识别模块5062还用于根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在一个实施例中,信息检索装置还包括大数据分析模块508,用于获取多个目标结果的满意度反馈;对满意度反馈进行大数据分析;根据大数据分析结果对阈值和/或多个检索路径的调用顺序进行调整。
关于信息检索装置的具体限定可以参见上文中对于信息检索方法的限定,在此不再赘述。上述信息检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。本申请提供的信息检索装置可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多个检索路径以及对应的调用顺序。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息检索方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:接收用户的信息检索请求,信息检索请求携带了目标问题;获取预设的多个检索路径以及每个检索路径对应的调用顺序;根据调用顺序获取第一顺序的检索路径,利用获取到的检索路径对目标问题进行检索,得到临时信息库;临时信息库包括多个信息对,信息对包括检索结果;计算多个信息对中每个检索结果与目标问题的相似度;检测是否存在与目标问题的相似度达到阈值的信息对;当不存在与目标问题的相似度达到阈值的信息对时,根据调用顺序获取下一顺序的检索路径,返回利用获取到的检索路径对目标问题进行检索的步骤;当存在与目标问题的相似度达到阈值的信息对时,抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。
在一个实施例中,信息对还包括检索结果对应的关联问题,处理器执行计算机程序时还实现以下步骤:识别目标问题的问题类别;识别多个关联问题的问题类别;根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤;计算过滤得到的多个信息对中每个检索结果与目标问题的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标问题进行预处理,得到目标问题对应的目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配;当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标问题进行拆分处理,得到对应的多个目标分词;目标分词包括停用词或标点符号;对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换;对过滤后的多个目标分词进行命名实体替换。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取多个目标结果的满意度反馈;对满意度反馈进行大数据分析;根据大数据分析结果对阈值和/或多个检索路径的调用顺序进行调整。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收用户的信息检索请求,信息检索请求携带了目标问题;获取预设的多个检索路径以及每个检索路径对应的调用顺序;根据调用顺序获取第一顺序的检索路径,利用获取到的检索路径对目标问题进行检索,得到临时信息库;临时信息库包括多个信息对,信息对包括检索结果;计算多个信息对中每个检索结果与目标问题的相似度;检测是否存在与目标问题的相似度达到阈值的信息对;当不存在与目标问题的相似度达到阈值的信息对时,根据调用顺序获取下一顺序的检索路径,返回利用获取到的检索路径对目标问题进行检索的步骤;当存在与目标问题的相似度达到阈值的信息对时,抽取相似度达到阈值的检索结果作为目标结果,展示目标结果。
在一个实施例中,信息对还包括检索结果对应的关联问题,计算机程序被处理器执行时还实现以下步骤:识别目标问题的问题类别;识别多个关联问题的问题类别;根据关联问题的问题类别和目标问题的问题类别,对信息对进行过滤;计算过滤得到的多个信息对中每个检索结果与目标问题的相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对目标问题进行预处理,得到目标问题对应的目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配;当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对目标问题进行拆分处理,得到对应的多个目标分词;目标分词包括停用词或标点符号;对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换;对过滤后的多个目标分词进行命名实体替换。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取多个目标结果的满意度反馈;对满意度反馈进行大数据分析;根据大数据分析结果对阈值和/或多个检索路径的调用顺序进行调整。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种信息检索方法,所述方法包括:
接收用户的信息检索请求,所述信息检索请求携带了目标问题;
获取预设的多个检索路径以及每个所述检索路径对应的调用顺序;
根据所述调用顺序获取第一顺序的检索路径,利用获取到的检索路径对所述目标问题进行检索,得到临时信息库;所述临时信息库包括多个信息对,所述信息对包括检索结果,以及所述检索结果对应的关联问题;
识别所述目标问题的问题类别;
识别多个关联问题的问题类别;
根据所述关联问题的问题类别和所述目标问题的问题类别,对所述信息对进行过滤;
计算过滤得到的多个信息对中每个检索结果与所述目标问题的相似度;
检测是否存在与所述目标问题的相似度达到阈值的信息对;
当不存在与所述目标问题的相似度达到阈值的信息对时,根据所述调用顺序获取下一顺序的检索路径,返回所述利用获取到的检索路径对所述目标问题进行检索的步骤;
当存在与所述目标问题的相似度达到阈值的信息对时,抽取所述相似度达到阈值的检索结果作为目标结果,展示所述目标结果。
2.根据权利要求1所述的方法,其特征在于,识别所述目标问题的问题类别的步骤,包括:
对所述目标问题进行预处理,得到所述目标问题对应的目标关键词;
获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;
将所述目标关键词与多个词袋中的预设关键词进行匹配;
当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;
当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级。
3.根据权利要求2所述的方法,其特征在于,对所述目标问题进行预处理的步骤,包括:
对所述目标问题进行拆分处理,得到对应的多个目标分词;所述目标分词包括停用词或标点符号;
对多个目标分词进行过滤,删除所述停用词和所述标点符号;
对过滤后的多个目标分词进行同义词替换;
对过滤后的多个目标分词进行命名实体替换。
4.根据权利要求2所述的方法,其特征在于,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:
获取问题语料;所述问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;
对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;
计算每个中间关键词的TF-IDF值,根据所述TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;
利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将所述词袋与相应的问题类别进行关联。
5.根据权利要求4所述的方法,其特征在于,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词的步骤,包括:
根据所述TF-IDF值对多个中间关键词进行排序;
按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将所述当前顺序的中间关键词与所述下一顺序中间关键词之间的位置作为截取位置;
根据所述截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个目标结果的满意度反馈;
对所述满意度反馈进行大数据分析;
根据大数据分析结果对所述阈值和/或多个检索路径的调用顺序进行调整。
7.一种问答收取装置,所述装置包括:
检索请求模块,用于接收用户的信息检索请求,所述信息检索请求携带了目标问题;
多路径检索模块,用于获取预设的多个检索路径以及每个所述检索路径对应的调用顺序;根据所述调用顺序获取第一顺序的检索路径,利用获取到的检索路径对所述目标问题进行检索,得到临时信息库;所述临时信息库包括多个信息对,所述信息对包括检索结果,以及所述检索结果对应的关联问题;
结果提取模块,用于识别所述目标问题的问题类别;识别多个关联问题的问题类别;根据所述关联问题的问题类别和所述目标问题的问题类别,对所述信息对进行过滤;计算过滤得到的多个信息对中每个检索结果与所述目标问题的相似度;检测是否存在与所述目标问题的相似度达到阈值的信息对;当不存在与所述目标问题的相似度达到阈值的信息对时,根据所述调用顺序获取下一顺序的检索路径,返回所述利用获取到的检索路径对所述目标问题进行检索的步骤;当存在与所述目标问题的相似度达到阈值的信息对时,抽取所述相似度达到阈值的检索结果作为目标结果,展示所述目标结果。
8.根据权利要求7所述的问答收取装置,其特征在于,所述结果提取模块还用于对所述目标问题进行预处理,得到所述目标问题对应的目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;将所述目标关键词与多个词袋中的预设关键词进行匹配;当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065115.7A CN108446295B (zh) | 2018-01-23 | 2018-01-23 | 信息检索方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065115.7A CN108446295B (zh) | 2018-01-23 | 2018-01-23 | 信息检索方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446295A CN108446295A (zh) | 2018-08-24 |
CN108446295B true CN108446295B (zh) | 2021-02-12 |
Family
ID=63191169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810065115.7A Expired - Fee Related CN108446295B (zh) | 2018-01-23 | 2018-01-23 | 信息检索方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446295B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163719A (zh) * | 2019-04-15 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 信息推送方法、装置、计算机设备及存储介质 |
CN110209852A (zh) * | 2019-06-12 | 2019-09-06 | 北京我的天科技有限公司 | 基于ar技术的商标识别方法及设备 |
CN112540976A (zh) * | 2019-09-20 | 2021-03-23 | 阿里巴巴集团控股有限公司 | 一种向量信息检索方法及系统 |
CN111914171A (zh) * | 2020-07-23 | 2020-11-10 | 北京祥龙博瑞保险代理有限公司 | 一种产品检索方法、装置、系统及存储介质 |
CN112257422B (zh) * | 2020-10-22 | 2024-06-11 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
CN112785400A (zh) * | 2021-01-12 | 2021-05-11 | 四川天行健穗金科技有限公司 | 一种用于去财税数据的智能检索方法及系统 |
CN114817485B (zh) * | 2021-01-20 | 2024-09-06 | 国家计算机网络与信息安全管理中心 | 非法集资线索识别方法、装置、电子设备及存储介质 |
CN113779305B (zh) * | 2021-07-30 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 信息检索方法、装置及电子设备 |
CN118035251B (zh) * | 2024-04-11 | 2024-06-21 | 河北省交通规划设计研究院有限公司 | 基于多特征融合的城市数据模型管理系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456060A (zh) * | 2010-10-28 | 2012-05-16 | 株式会社日立制作所 | 信息处理装置及信息处理方法 |
CN104573000A (zh) * | 2015-01-07 | 2015-04-29 | 北京云知声信息技术有限公司 | 基于排序学习的自动问答装置及方法 |
CN105787134A (zh) * | 2016-04-07 | 2016-07-20 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、装置及系统 |
CN106503175A (zh) * | 2016-11-01 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 相似文本的查询、问题扩展方法、装置及机器人 |
CN106844400A (zh) * | 2015-12-07 | 2017-06-13 | 南京中兴新软件有限责任公司 | 智能应答方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060286606A1 (en) * | 2005-06-17 | 2006-12-21 | Oliver Troy L | Clandestine Laboratory (Clan-Lab) Home Test Kit system, protocol, method and apparatus |
-
2018
- 2018-01-23 CN CN201810065115.7A patent/CN108446295B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456060A (zh) * | 2010-10-28 | 2012-05-16 | 株式会社日立制作所 | 信息处理装置及信息处理方法 |
CN104573000A (zh) * | 2015-01-07 | 2015-04-29 | 北京云知声信息技术有限公司 | 基于排序学习的自动问答装置及方法 |
CN106844400A (zh) * | 2015-12-07 | 2017-06-13 | 南京中兴新软件有限责任公司 | 智能应答方法及装置 |
CN105787134A (zh) * | 2016-04-07 | 2016-07-20 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、装置及系统 |
CN106503175A (zh) * | 2016-11-01 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 相似文本的查询、问题扩展方法、装置及机器人 |
Also Published As
Publication number | Publication date |
---|---|
CN108446295A (zh) | 2018-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509482B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN108446295B (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN109635082B (zh) | 政策影响分析方法、装置、计算机设备和存储介质 | |
EP1391834A2 (en) | Document retrieval system and question answering system | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
US20140052688A1 (en) | System and Method for Matching Data Using Probabilistic Modeling Techniques | |
US10445623B2 (en) | Label consistency for image analysis | |
CN112307164A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
US20190286753A1 (en) | System and methods for generating an enhanced output of relevant content to facilitate content analysis | |
CN111680152B (zh) | 目标文本的摘要提取方法及装置、电子设备、存储介质 | |
CN107085568A (zh) | 一种文本相似度判别方法及装置 | |
CN114443934A (zh) | 一种基于大数据的相关法律推荐方法 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
CN112800771A (zh) | 文章识别方法、装置、计算机可读存储介质和计算机设备 | |
Kurashima et al. | Discovering association rules on experiences from large-scale blog entries | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
KR101147508B1 (ko) | 검색식 추천 장치 및 방법 | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
Makkonen et al. | Detecting events by clustering videos from large media databases | |
CN115329742B (zh) | 基于文本分析的科研项目产出评价验收方法及系统 | |
CN115098596B (zh) | 政务相关数据梳理方法、装置、设备及可读存储介质 | |
CN111709226B (zh) | 一种文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210212 Termination date: 20220123 |