CN117891839A - 一种智能化检索方法及系统 - Google Patents

一种智能化检索方法及系统 Download PDF

Info

Publication number
CN117891839A
CN117891839A CN202410292236.0A CN202410292236A CN117891839A CN 117891839 A CN117891839 A CN 117891839A CN 202410292236 A CN202410292236 A CN 202410292236A CN 117891839 A CN117891839 A CN 117891839A
Authority
CN
China
Prior art keywords
search
vocabulary
original
name
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410292236.0A
Other languages
English (en)
Other versions
CN117891839B (zh
Inventor
高璇
黄小能
孙刘荣
张华锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Provincial Government Portal Website Operation Management Co ltd
Original Assignee
Fujian Provincial Government Portal Website Operation Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Provincial Government Portal Website Operation Management Co ltd filed Critical Fujian Provincial Government Portal Website Operation Management Co ltd
Priority to CN202410292236.0A priority Critical patent/CN117891839B/zh
Publication of CN117891839A publication Critical patent/CN117891839A/zh
Application granted granted Critical
Publication of CN117891839B publication Critical patent/CN117891839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种智能化检索方法及系统,其方法包括:客户端遍历得到每一个名称词汇所对应的专属关联词汇集;当需要进行检索时,客户对弃用字符进行汇总,以将对应的正确字符及用户确定检索时当前搜索框中的输入语句作为检索语句,之后对检索语句中的原检索词汇进行扩展汇总得到检索词汇总集,生成包括检索词汇总集的检索请求;客户端判断根据检索请求来完成本地检索和/或云端检索,其中,若当前搜索框配置的检索方式为模糊检索,则对检索词汇总集中每一个检索词汇集中的原检索词汇进行模糊检索且对检索词汇总集中每一个检索词汇集中除原检索词汇之外的检索词汇进行精确检索。本发明能够进一步提高检索的全面性和准确性。

Description

一种智能化检索方法及系统
技术领域
本发明涉及政务数据管理技术领域,特别涉及一种智能化检索方法及系统。
背景技术
模糊检索和精确检索是两种常用的检索方法。模糊检索能在用户输入模糊或者拼写错误时返回一定程度上的检索结果,但是,模糊检索中进行对应的模糊词汇需要技术人员进行确定,因此模糊检索的准确性较多依赖于技术人员对于数据领域的了解程度,若技术人员对于数据领域的了解程度偏低,则检索结果的准确性较差。而精确检索能够提供更为准确的检索结果,但针对用户输入模糊或者拼写错误的情况无法返回有价值的检索结果。
因此,现有的数据检索方式有待优化。
发明内容
为了解决现有技术的上述问题,本发明提供一种智能化检索方法及系统,能够进一步提高检索的全面性和准确性。
为了达到上述目的,本发明采用的技术方案为:
第一方面,本发明提供一种智能化检索方法,包括步骤:
S1、客户端遍历检索词库中的名称词汇,从自身对应的历史数据中遍历名称词汇的出现位置,对所述名称词汇的出现位置所具有的数据内容进行与名称词汇的关联性分析,得到每一个名称词汇所对应的专属关联词汇集;
S2、当需要进行检索时,客户端获取在当前检索周期内输入法软件上已打出但未进行检索就删除的弃用字符,将在所述当前检索周期内的弃用字符进行汇总,判断汇总的弃用字符是否符合常用错误字符且符合的常用错误字符所对应的正确字符为同一正确字符的比例是否大于预设阈值,若是,则将汇总的弃用字符所对应的同一正确字符以及用户确定检索时当前搜索框中的输入语句作为检索语句,否则仅将用户确定检索时当前搜索框中的输入语句作为检索语句,所述当前检索周期中的检索周期为两次检索请求之间;
S3、客户端对于所述检索语句中的每一个原检索词汇,判断所述原检索词汇是否为名称词汇,若是,则判断所述原检索词汇是否存在对应的专属关联词汇集,若是,则将所述原检索词汇所对应的专属关联词汇集作为检索词汇集,若所述原检索词汇不是名称词汇或者所述原检索词汇不存在对应的专属关联词汇集,则将所述原检索词汇单独作为一个检索词汇集,汇总所有原检索词汇的检索词汇集得到检索词汇总集,生成包括所述检索词汇总集的检索请求;
S4、客户端判断所述检索请求是否为本地检索,若是,则直接根据所述检索词汇总集进行检索,以生成并显示本地检索结果,否则将所述检索请求发送至服务端;
S5、服务端接收客户端发送的检索请求,根据所述检索词汇总集进行检索,以生成并返回云端检索结果至客户端进行显示;
其中,若所述当前搜索框配置的检索方式为模糊检索,则客户端或服务端根据所述检索词汇总集进行检索时为:对所述检索词汇总集中每一个检索词汇集中的原检索词汇进行模糊检索且对所述检索词汇总集中每一个检索词汇集中除所述原检索词汇之外的检索词汇进行精确检索。
本发明的有益效果在于:本发明由客户端根据词汇关联性对名称词汇进行自身数据的匹配,以得到名称词汇所对应的专属关联词汇集,该专属关联词汇集在后续的检索过程中也参与检索,一方面,无论是精确检索还是模糊检索,都扩展了检索范围,提高了检索的全面性,另一方面,专属关联词汇集更匹配客户端的当前用户,使得检索结果能针对不同用户进行适应性匹配,从而提高了检索的准确性,而且专属关联词汇集在一定程度上中和了技术人员设定模糊词汇时所造成的准确性偏差,保证了检索的准确性,因此,本发明能够进一步提高检索的全面性和准确性。另外,当需要进行检索时,客户端获取在当前检索周期内输入法软件上已打出但未进行检索就删除的弃用字符,根据弃用字符与常用错误字符的关系推测用户所需要输入的正确字符,该正确字符加入后续的检索,同样扩展了检索范围,提高了检索准确性,因此也能够进一步提高检索的全面性和准确性。
可选地,所述步骤S3还包括:
客户端判断是否存在用户通过前一界面内容进入到所述当前搜索框所在的当前界面的操作记录,若存在,则将所述检索词汇总集中所有检索词汇在前一界面内容的出现频次进行统计,根据检索词汇是否为原检索词汇以及检索词汇在前一界面内容的出现频次对所述检索词汇总集的检索词汇进行权重数值的分配,否则直接根据检索词汇是否为原检索词汇来进行权重数值的分配,所述原检索词汇的权重数值大于所述检索词汇总集中除所述原检索词汇之外的其他检索词汇的权重数值。
根据上述描述可知,针对用户的操作记录进行分析,当用户通过前一界面内容进入到所述当前搜索框所在的当前界面时,根据前一界面内容对于检索词汇总集中所有检索词汇进行权重数值的再次分配,从而提高检索结果的准确性。
可选地,当所述名称词汇为姓名词汇,则步骤S1包括:
客户端遍历出检索词库中的原姓名词汇,对于每一个原姓名词汇,从自身对应的历史数据中遍历原姓名词汇的出现位置,判断所述出现位置是否为数据内容的会话主题名称所在的位置,若是,则获取这一会话主题名称下的会话内容中除所述原姓名词汇之外的姓名词汇作为姓名候选词汇,当所述姓名候选词汇在所述会话内容的上下文中符合别称特征,则将所述姓名候选词汇加入到所述原姓名词汇所对应的专属关联词汇集中,否则仅对所述出现位置的前后文位置判断是否存在预设关键词,若存在,则将预设关键词前后文位置中除所述原姓名词汇之外的姓名词汇加入到所述原姓名词汇所对应的专属关联词汇集中,最终得到每一个原姓名词汇所对应的专属关联词汇集。
可选地,所述别称特征包括出现频次大于预设别称次数、所述姓名候选词汇出现在句子的开头或者是在单独的分句中以及所述会话内容中所述原姓名词汇的会话者对于所述姓名候选词汇的回应内容的情绪特征至少为中立。
可选地,当所述名称词汇为政务词汇,则步骤S1为:
客户端遍历出检索词库中的原政务词汇,对于每一个原政务词汇,从自身对应的历史数据中遍历原政务词汇的出现位置,判断所述出现位置处是否存在符合术语特征的政务术语,若是,则将所述政务术语加入到所述原政务词汇所对应的专属关联词汇集中。
可选地,所述术语特征包括出现频次大于预设术语次数、所述政务术语在双引号之间或者是在单独的分句中且所述政务术语在搜索引擎中能检索匹配到原政务词汇。
可选地,所述步骤S3中汇总所有原检索词汇的检索词汇集得到检索词汇总集包括:
对所有原检索词汇的检索词汇集进行去重汇总后得到检索词汇总。
可选地,所述步骤S4包括步骤:
客户端判断所述检索请求是否仅为本地检索,若是,则直接根据所述检索词汇总集进行检索,以生成并显示本地检索结果,否则判断所述检索请求是否需要本地检索和云端检索,若是,则根据所述检索词汇总集进行检索,得到本地检索结果,并将所述检索请求发送至服务端,否则直接将所述检索请求发送至服务端;
所述步骤S5包括步骤:
服务端接收客户端发送的检索请求,根据所述检索词汇总集进行检索,以生成并返回云端检索结果至客户端;
其方法还包括步骤:
S6、客户端接收云端检索结果,判断所述检索请求是否同时包括本地检索和云端检索,若是,则将所述云端检索结果和所述本地检索结果合并之后进行显示,否则直接显示所述云端检索结果。
根据上述描述可知,针对部分场景下需要本地和云端的双重检索进行检索请求的处理。
可选地,所述弃用字符、常用错误字符以及正确字符中的字符为拼音、汉字或者笔画集,所述笔画集为未形成汉字的笔画集合。
根据上述描述可知,根据用户输入字符的习惯确定字符类型,以提高正确字符的预测准确性。
第二方面,本发明提供一种智能化检索系统,包括服务端和客户端,所述服务端包括第一存储器、第一处理器及存储在第一存储器上并可在第一处理器上运行的计算机程序,所述客户端包括第二存储器、第二处理器及存储在第二存储器上并可在第二处理器上运行的计算机程序,所述第一处理器执行所述计算机程序时实现第一方面的一种智能化检索方法中服务端所执行的步骤,所述第二处理器执行所述计算机程序时实现第一方面的一种智能化检索方法中客户端所执行的步骤。
其中,第二方面所提供的一种智能化检索系统所对应的技术效果参照第一方面所提供的一种智能化检索方法的相关描述。
附图说明
图1为本发明实施例的一种智能化检索方法的主要流程示意图;
图2为本发明实施例涉及的检索词汇总集的生成流程示意图;
图3为本发明实施例的一种智能化检索系统的结构示意图。
【附图标记说明】
1、一种智能化检索系统;
2、服务端;3、第一存储器;4、第一处理器;
5、客户端;6、第二存储器;7、第二处理器。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
本实施例适用于需要进行数据检索的应用场景,在现有技术中,无论是模糊检索还是精确检索,在检索的全面性和准确性上都难以兼顾,本实施例通过专属关联词汇集、正确字符预测来扩展检索范围,从而提高了检索的全面性和准确性。具体见下面论述。
请参照图1,一种智能化检索方法,包括步骤:
S1、客户端遍历检索词库中的名称词汇,从自身对应的历史数据中遍历名称词汇的出现位置,对名称词汇的出现位置所具有的数据内容进行与名称词汇的关联性分析,得到每一个名称词汇所对应的专属关联词汇集;
其中,现在的检索系统中本身就有检索词库,在此基础上,名称词汇是指人、事、物的名称,比如人的名称词汇就是姓名词汇,比如林某某;事的名称词汇就是事件词汇,而涉及到政务事件,则属于政务词汇,比如碳中和;物的名称则是物品词汇,比如杯子。本实施例主要是针对姓名词汇和政务词汇进行说明。当名称词汇为姓名词汇,则步骤S1包括:
S1’、客户端遍历出检索词库中的原姓名词汇,对于每一个原姓名词汇,从自身对应的历史数据中遍历原姓名词汇的出现位置,判断出现位置是否为数据内容的会话主题名称所在的位置,若是,则获取这一会话主题名称下的会话内容中除原姓名词汇之外的姓名词汇作为姓名候选词汇,当姓名候选词汇在会话内容的上下文中符合别称特征,则将姓名候选词汇加入到原姓名词汇所对应的专属关联词汇集中,否则仅对出现位置的前后文位置判断是否存在预设关键词,若存在,则将预设关键词前后文位置中除原姓名词汇之外的姓名词汇加入到原姓名词汇所对应的专属关联词汇集中,最终得到每一个原姓名词汇所对应的专属关联词汇集。
其中,别称特征包括出现频次大于预设别称次数、姓名候选词汇出现在句子的开头或者是在单独的分句中以及会话内容中原姓名词汇的会话者对于姓名候选词汇的回应内容的情绪特征至少为中立。
具体而言,本实施例的预设别称次数为2,因此,出现频次大于预设别称次数即姓名候选词汇出现频次要大于2次,也就是要3次及以上的次数,避免偶发的错误称呼。在其他实施例中,预设别称次数可以为3至5。
其中,会话是指两个会话者进行交互对话的一个过程,比如微信聊天、论坛、贴吧之类的,在现有的政务软件中,也有聊天界面,其在聊天界面中两个用户进行对话的过程即为会话。在此基础上,多个分句组成一个句子,分句和分句之间通常用逗号隔开。在正常的语境中,一方的会话者对于另一方的会话者的称呼通常是在句子的开头或者是在单独的分句中,比如“张总,在吗?”或者是“在吗?张三”,前者是句子的开头,两者也都属于单独的分句中,关于这部分的限定是为了排除在会话过程中提及到其他人的时候所出现的称呼,比如“你知道李四最近怎么样吗”。
其中,情绪特征在本实施例中分为负面、中立和正面的,关于情绪特征的识别模型可以采用词袋模型(Bag-of-words,BOW)、卷积神经网络(Convolutional NeuralNetworks, CNN)文本分类模型、长短期记忆网络模型(Long Short Term Memory,LSTM)等进行训练而成,或者直接使用现有的比如百度中文特色情感倾向分析模型(SentimentClassification,简称Senta),设置情绪特征至少为中立即会话者对于姓名候选词汇至少不是抗拒的。其中,关于姓名词汇的识别可以采用正则表达式,或者是jieba库等等。
由此,关于步骤S1’,客户端首先要判断出现位置是否为数据内容的会话主题名称所在的位置,也就是说会话主题名称是否为名称词汇,即双方是处于对话过程,因此,这里面处于开头或者单独的名称通常就是对于另一个会话者的称呼,此时,获取这一会话主题名称下的会话内容中除原姓名词汇之外的姓名词汇作为姓名候选词汇,当姓名候选词汇在会话内容的上下文中符合上面所说的包括有出现频次、出现在句子中的位置以及情绪特征这三个别称特征,则将姓名候选词汇加入到原姓名词汇所对应的专属关联词汇集中。
当出现位置不是为数据内容的会话主题名称所在的位置,则数据内容可能为文章或者是在其他人的表述当中,则预设关键词为“()”、“()” 、“叫”、“称”诸如此类的,比如以下数据内容:“张三(张总) ”、“张三(张总)”、“张三,我们都叫他张总”、“张三,人称张总”。因此,将预设关键词前后文位置中除原姓名词汇之外的姓名词汇加入到原姓名词汇所对应的专属关联词汇集中,最终得到每一个原姓名词汇所对应的专属关联词汇集。
由此,本实施例对于原姓名词汇的扩展条件是比较严的,即只有多方面满足或者是特定词汇下才确认为是原姓名词汇的别称,这种别称是客户端的当前用户对于其他用户的一种习惯性称呼,这种称呼无法被技术人员所了解,且用户量大的情况下工作量也是巨大的,因此,本实施例通过客户端的当前用户对于其他用户的别称来作为其他用户的一个专属关联词汇集,不仅扩展了检索范围,而且提高了检索准确性。
在本实施例中,当名称词汇为政务词汇,则步骤S1为:
S1’’、客户端遍历出检索词库中的原政务词汇,对于每一个原政务词汇,从自身对应的历史数据中遍历原政务词汇的出现位置,判断出现位置处是否存在符合术语特征的政务术语,若是,则将政务术语加入到原政务词汇所对应的专属关联词汇集中。
其中,术语特征包括出现频次大于预设术语次数、政务术语在双引号之间或者是在单独的分句中且政务术语在搜索引擎中能检索匹配到原政务词汇。
具体而言,本实施例的预设术语次数为2,因此,出现频次大于预设术语次数即政务术语出现频次要大于2次,也就是要3次及以上的次数,避免偶发的错误称呼。在其他实施例中,预设别称次数可以为3至5。
其中,政务术语在双引号之间或者是在单独的分句中,即对于政务词汇的简称通常是要放在双引号之间,比如以下数据内容:“双碳”目标是……,或者是:双碳,即碳达峰与碳中和的简称。诸如此类。
其中,政务术语在搜索引擎中能检索匹配到原政务词汇,在本实施例中,在搜索引擎中能检索匹配到原政务词汇即在搜索引擎的百科中该词汇的解释说明,比如上面的“双碳”,在百度百科中说明了:双碳,即碳达峰与碳中和的简称,因此,原政务词汇为“碳达峰”、“碳中和”时,政务术语“双碳”是有可能加入到这两个原政务词汇所对应的专属关联词汇集中。
应当说明的是,关于其他人、事、物的名称进行专属关联词汇集的建立可以参照姓名词汇和政务词汇,本申请不进行穷举。
S2、当需要进行检索时,客户端获取在当前检索周期内输入法软件上已打出但未进行检索就删除的弃用字符,将在当前检索周期内的弃用字符进行汇总,判断汇总的弃用字符是否符合常用错误字符且符合的常用错误字符所对应的正确字符为同一正确字符的比例是否大于预设阈值,若是,则将汇总的弃用字符所对应的同一正确字符以及用户确定检索时当前搜索框中的输入语句作为检索语句,否则仅将用户确定检索时当前搜索框中的输入语句作为检索语句,当前检索周期中的检索周期为两次检索请求之间;
在本实施例中,在获取输入法软件的授权之后,就可以对用户在当前搜索框的输入行为进行分析。在本实施例中,弃用字符、常用错误字符以及正确字符中的字符为拼音、汉字或者笔画集,笔画集为未形成汉字的笔画集合,这取决于用户在当前搜索框中生成该字符时所采用的输入法形式,比如采用拼音,则字符为拼音或者汉字,比如是采用笔画,则字符为笔画集或者汉字。在本实施例中,符合的常用错误字符所对应的正确字符为同一正确字符的比例大于99%,即符合的常用错误字符所对应的正确字符为同一正确字符不能有任何的偏差,若偏差,则对此次的弃用字符不提取正确字符。
其中,在上一次检索请求之后,在当前检索请求发出之前就属于当前检索周期,此时,当用户采用拼音要输入“张”,其输入了“zhan”、“zang”、“shang”之后都没有选用汉字保留在当前搜索框中,则判断当前的“zhan”、“zang”、“shang”的同一正确字符可能为“zhang”,应当说明的是,本实施例的举例仅为说明使用,在实际使用过程中对于某一汉字有可能存在的多种错误拼音是非常常见的,也经常存在多种拼音输入之后依然未能找到这个正确拼音的情况,这个时候用户会放弃这个汉字的输入,而转而使用其他汉字来进行检索,因此,本实施例中预测出正确字符能提高用户想要检索的内容在检索结果中的出现几率,从而提高检索的准确性。
其中,汇总的弃用字符“zhan”、“zang”、“shang”所对应的同一正确字符“zhang”,此时,用户确定检索时当前搜索框中的输入语句为名字,比如“三”,则将“zhang”和“三”作为检索语句,从而在检索中也考虑到了未在当前搜索框中但是是客户意向的字符“zhang”,这样就扩展了检索范围,提高了检索准确性。
S3、客户端对于检索语句中的每一个原检索词汇,判断原检索词汇是否为名称词汇,若是,则判断原检索词汇是否存在对应的专属关联词汇集,若是,则将原检索词汇所对应的专属关联词汇集作为检索词汇集,若原检索词汇不是名称词汇或者原检索词汇不存在对应的专属关联词汇集,则将原检索词汇单独作为一个检索词汇集,汇总所有原检索词汇的检索词汇集得到检索词汇总集,生成包括检索词汇总集的检索请求;
其中,步骤S3中汇总所有原检索词汇的检索词汇集得到检索词汇总集包括:
对所有原检索词汇的检索词汇集进行去重汇总后得到检索词汇总。
在本实施例中,参照图2可知,如果不是名称词汇则不进行扩展,而部分名称词汇是没有专属关联词汇集的,因此就将原检索词汇单独作为一个检索词汇集,比如用户在自己的客户端软件上想要查找和张三教羽毛球的相关事项,则在当前搜索框中输入“张三 羽毛球”,其中,“羽毛球”是名称词汇,但不存在专属关联词汇集,而张三的专属关联词汇集为{张三,张总,张哥},故而检索词汇总集包括{张三,张总,张哥}和{羽毛球},因此,检索词汇集是作为区分不同的原检索词汇。
S4、客户端判断检索请求是否为本地检索,若是,则直接根据检索词汇总集进行检索,以生成并显示本地检索结果,否则将检索请求发送至服务端;
在本实施例中,步骤S4包括步骤:
客户端判断检索请求是否仅为本地检索,若是,则直接根据检索词汇总集进行检索,以生成并显示本地检索结果,否则判断检索请求是否需要本地检索和云端检索,若是,则根据检索词汇总集进行检索,得到本地检索结果,并将检索请求发送至服务端,否则直接将检索请求发送至服务端;
其中,如果此次检索时需要本地检索和云端检索,则本地检索结果先保留,等云端检索结果出来之后再汇总。
S5、服务端接收客户端发送的检索请求,根据检索词汇总集进行检索,以生成并返回云端检索结果至客户端进行显示;
在本实施例中,步骤S5包括步骤:
服务端接收客户端发送的检索请求,根据检索词汇总集进行检索,以生成并返回云端检索结果至客户端;
即此次检索时需要本地检索和云端检索,则云端检索结果返回至客户端时还需要和本地检索结果进行合并,即为步骤S6。
S6、客户端接收云端检索结果,判断检索请求是否同时包括本地检索和云端检索,若是,则将云端检索结果和本地检索结果合并之后进行显示,否则直接显示云端检索结果。
上述步骤S4至S6中,若当前搜索框配置的检索方式为模糊检索,则客户端或服务端根据检索词汇总集进行检索时为:对检索词汇总集中每一个检索词汇集中的原检索词汇进行模糊检索且对检索词汇总集中每一个检索词汇集中除原检索词汇之外的检索词汇进行精确检索。
即检索词汇集{张三,张总,张哥}中的张三为原检索词汇,进行模糊检索,而张总、张哥为除原检索词汇之外的检索词汇,又称为扩展词汇,对扩展词汇进行精确检索,这是因为,同一别称所对应的原检索词汇可能不同,张总可能对应到张四、张五,因此,不能对扩展词汇进行模糊检索,以避免检索到过多的无用信息。
在本实施例中,当服务端检索词汇总集中每一个检索词汇集进行检索时,若是搜索用户和其他用户的对话记录、在用户的好友圈发布内容等等的个人数据时,则原检索词汇和扩展词汇仅针对个人数据进行检索,而在搜索网络的公共数据时,则服务端仅对原检索词汇进行公共数据内的搜索,而对扩展词汇仅进行个人数据的搜索,从而保证检索结果的准确性。
综上,本实施例通过专属关联词汇集以及弃用字符的分析,能够进一步提高检索的全面性和准确性。
实施例二
请参照图1和图2,一种智能化检索方法,步骤S3还包括:
客户端判断是否存在用户通过前一界面内容进入到当前搜索框所在的当前界面的操作记录,若存在,则将检索词汇总集中所有检索词汇在前一界面内容的出现频次进行统计,根据检索词汇是否为原检索词汇以及检索词汇在前一界面内容的出现频次对检索词汇总集的检索词汇进行权重数值的分配,否则直接根据检索词汇是否为原检索词汇来进行权重数值的分配,原检索词汇的权重数值大于检索词汇总集中除原检索词汇之外的其他检索词汇的权重数值。
具体而言,对于一个检索词汇集来说,原检索词汇的权重是大于其他检索词汇的,比如{张三,张总,张哥}和{羽毛球},则原检索词汇张三为0.7,其他检索词汇张总和张哥分别为0.15,而单独作为一个检索词汇集的原检索词汇的权重数值与存在专属关联词汇集的原检索词汇的权重数值基本相同,其数值上可以设置前者的权重数值略大于后者的权重数值,比如大于的比例在5%至20%左右,在本实施例中,比如单独作为一个检索词汇集的原检索词汇羽毛球的权重数值为0.8。
此时,在以下情况中:当用户进入客户端的软件APP上,APP上通常会有一个推荐页面显示不同推荐内容,每一个推荐内容都有发布者头像,当用户通过某一推荐内容进入到发布者主页,其在主页上发布了较多的视频或者文章,用户相应搜索自己感兴趣的内容时,此时,在发布者主页的搜索框为当前搜索框,发布者主页为当前界面,进入到发布者主页的推荐内容属于前一界面内容。这样,上述原先的检索词汇会根据检索词汇在前一界面内容的出现频次来进行调整,这种调整包括不同检索词汇集之间的调整以及检索词汇集内部的调整。
比如上述的一个检索词汇集{张三,张总,张哥}中的原检索词汇张三为0.7,另一个单独的检索词汇集{羽毛球}中的原检索词汇羽毛球为0.8,此时,{羽毛球}在前一界面内容的内容中出现频次明显高于{张三,张总,张哥},则用户的意图是学羽毛球,但并不是说非要是张三的教程,此时,羽毛球的权重数值就需要上调,比如为0.9或者1。而如果{张三,张总,张哥}中“张哥”这一词汇出现的频次明显高于其他两个词汇,则“张哥”这一权重数值需要上调,比如张三,张总,张哥这三个词汇调整为0.6、0.3和0.1。
综上,本实施例针对用户的操作记录进行分析,以对检索词汇总集中所有检索词汇进行权重数值的再次分配,使得分配后的权重数值更加符合用户的当前搜索倾向,从而提高检索结果的准确性。
实施例三
请参照图3,一种智能化检索系统1,包括服务端2和客户端5,服务端2包括第一存储器3、第一处理器4及存储在第一存储器3上并可在第一处理器4上运行的计算机程序,客户端5包括第二存储器6、第二处理器7及存储在第二存储器6上并可在第二处理器7上运行的计算机程序,第一处理器4执行计算机程序时实现实施例一或二的一种智能化检索方法中服务端2所执行的步骤,第二处理器7执行计算机程序时实现实施例一或二的一种智能化检索方法中客户端5所执行的步骤。
由于本发明上述实施例所描述的系统/装置,为实施本发明上述实施例的方法所采用的系统/装置,故而基于本发明上述实施例所描述的方法,本领域所属技术人员能够了解该系统/装置的具体结构及变形,因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统/装置都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (10)

1.一种智能化检索方法,其特征在于,包括步骤:
S1、客户端遍历检索词库中的名称词汇,从自身对应的历史数据中遍历名称词汇的出现位置,对所述名称词汇的出现位置所具有的数据内容进行与名称词汇的关联性分析,得到每一个名称词汇所对应的专属关联词汇集;
S2、当需要进行检索时,客户端获取在当前检索周期内输入法软件上已打出但未进行检索就删除的弃用字符,将在所述当前检索周期内的弃用字符进行汇总,判断汇总的弃用字符是否符合常用错误字符且符合的常用错误字符所对应的正确字符为同一正确字符的比例是否大于预设阈值,若是,则将汇总的弃用字符所对应的同一正确字符以及用户确定检索时当前搜索框中的输入语句作为检索语句,否则仅将用户确定检索时当前搜索框中的输入语句作为检索语句,所述当前检索周期中的检索周期为两次检索请求之间;
S3、客户端对于所述检索语句中的每一个原检索词汇,判断所述原检索词汇是否为名称词汇,若是,则判断所述原检索词汇是否存在对应的专属关联词汇集,若是,则将所述原检索词汇所对应的专属关联词汇集作为检索词汇集,若所述原检索词汇不是名称词汇或者所述原检索词汇不存在对应的专属关联词汇集,则将所述原检索词汇单独作为一个检索词汇集,汇总所有原检索词汇的检索词汇集得到检索词汇总集,生成包括所述检索词汇总集的检索请求;
S4、客户端判断所述检索请求是否为本地检索,若是,则直接根据所述检索词汇总集进行检索,以生成并显示本地检索结果,否则将所述检索请求发送至服务端;
S5、服务端接收客户端发送的检索请求,根据所述检索词汇总集进行检索,以生成并返回云端检索结果至客户端进行显示;
其中,若所述当前搜索框配置的检索方式为模糊检索,则客户端或服务端根据所述检索词汇总集进行检索时为:对所述检索词汇总集中每一个检索词汇集中的原检索词汇进行模糊检索且对所述检索词汇总集中每一个检索词汇集中除所述原检索词汇之外的检索词汇进行精确检索。
2.根据权利要求1所述的一种智能化检索方法,其特征在于,所述步骤S3还包括:
客户端判断是否存在用户通过前一界面内容进入到所述当前搜索框所在的当前界面的操作记录,若存在,则将所述检索词汇总集中所有检索词汇在前一界面内容的出现频次进行统计,根据检索词汇是否为原检索词汇以及检索词汇在前一界面内容的出现频次对所述检索词汇总集的检索词汇进行权重数值的分配,否则直接根据检索词汇是否为原检索词汇来进行权重数值的分配,所述原检索词汇的权重数值大于所述检索词汇总集中除所述原检索词汇之外的其他检索词汇的权重数值。
3.根据权利要求1所述的一种智能化检索方法,其特征在于,当所述名称词汇为姓名词汇,则步骤S1包括:
客户端遍历出检索词库中的原姓名词汇,对于每一个原姓名词汇,从自身对应的历史数据中遍历原姓名词汇的出现位置,判断所述出现位置是否为数据内容的会话主题名称所在的位置,若是,则获取这一会话主题名称下的会话内容中除所述原姓名词汇之外的姓名词汇作为姓名候选词汇,当所述姓名候选词汇在所述会话内容的上下文中符合别称特征,则将所述姓名候选词汇加入到所述原姓名词汇所对应的专属关联词汇集中,否则仅对所述出现位置的前后文位置判断是否存在预设关键词,若存在,则将预设关键词前后文位置中除所述原姓名词汇之外的姓名词汇加入到所述原姓名词汇所对应的专属关联词汇集中,最终得到每一个原姓名词汇所对应的专属关联词汇集。
4.根据权利要求3所述的一种智能化检索方法,其特征在于,所述别称特征包括出现频次大于预设别称次数、所述姓名候选词汇出现在句子的开头或者是在单独的分句中以及所述会话内容中所述原姓名词汇的会话者对于所述姓名候选词汇的回应内容的情绪特征至少为中立。
5.根据权利要求1所述的一种智能化检索方法,其特征在于,当所述名称词汇为政务词汇,则步骤S1为:
客户端遍历出检索词库中的原政务词汇,对于每一个原政务词汇,从自身对应的历史数据中遍历原政务词汇的出现位置,判断所述出现位置处是否存在符合术语特征的政务术语,若是,则将所述政务术语加入到所述原政务词汇所对应的专属关联词汇集中。
6.根据权利要求5所述的一种智能化检索方法,其特征在于,所述术语特征包括出现频次大于预设术语次数、所述政务术语在双引号之间或者是在单独的分句中且所述政务术语在搜索引擎中能检索匹配到原政务词汇。
7.根据权利要求1所述的一种智能化检索方法,其特征在于,所述步骤S3中汇总所有原检索词汇的检索词汇集得到检索词汇总集包括:
对所有原检索词汇的检索词汇集进行去重汇总后得到检索词汇总。
8.根据权利要求1所述的一种智能化检索方法,其特征在于,所述步骤S4包括步骤:
客户端判断所述检索请求是否仅为本地检索,若是,则直接根据所述检索词汇总集进行检索,以生成并显示本地检索结果,否则判断所述检索请求是否需要本地检索和云端检索,若是,则根据所述检索词汇总集进行检索,得到本地检索结果,并将所述检索请求发送至服务端,否则直接将所述检索请求发送至服务端;
所述步骤S5包括步骤:
服务端接收客户端发送的检索请求,根据所述检索词汇总集进行检索,以生成并返回云端检索结果至客户端;
其方法还包括步骤:
S6、客户端接收云端检索结果,判断所述检索请求是否同时包括本地检索和云端检索,若是,则将所述云端检索结果和所述本地检索结果合并之后进行显示,否则直接显示所述云端检索结果。
9.根据权利要求1所述的一种智能化检索方法,其特征在于,所述弃用字符、常用错误字符以及正确字符中的字符为拼音、汉字或者笔画集,所述笔画集为未形成汉字的笔画集合。
10.一种智能化检索系统,包括服务端和客户端,所述服务端包括第一存储器、第一处理器及存储在第一存储器上并可在第一处理器上运行的计算机程序,所述客户端包括第二存储器、第二处理器及存储在第二存储器上并可在第二处理器上运行的计算机程序,其特征在于,所述第一处理器执行所述计算机程序时实现权利要求1至9任一所述的一种智能化检索方法中服务端所执行的步骤,所述第二处理器执行所述计算机程序时实现权利要求1至9任一所述的一种智能化检索方法中客户端所执行的步骤。
CN202410292236.0A 2024-03-14 2024-03-14 一种智能化检索方法及系统 Active CN117891839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410292236.0A CN117891839B (zh) 2024-03-14 2024-03-14 一种智能化检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410292236.0A CN117891839B (zh) 2024-03-14 2024-03-14 一种智能化检索方法及系统

Publications (2)

Publication Number Publication Date
CN117891839A true CN117891839A (zh) 2024-04-16
CN117891839B CN117891839B (zh) 2024-06-07

Family

ID=90643035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410292236.0A Active CN117891839B (zh) 2024-03-14 2024-03-14 一种智能化检索方法及系统

Country Status (1)

Country Link
CN (1) CN117891839B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060089926A1 (en) * 2004-10-27 2006-04-27 Harris Corporation, Corporation Of The State Of Delaware Method for re-ranking documents retrieved from a document database
CN102479256A (zh) * 2010-11-25 2012-05-30 爱信艾达株式会社 检索装置、检索方法以及计算机可读存储介质
CN102724310A (zh) * 2012-06-18 2012-10-10 惠州Tcl移动通信有限公司 一种通过移动终端实现云搜索的方法
CN105069167A (zh) * 2015-08-28 2015-11-18 成都六四三六五科技有限公司 法律信息搜索方法及法律信息搜索装置
CN112307171A (zh) * 2020-10-30 2021-02-02 中国电力科学研究院有限公司 一种基于电力知识库的制度标准检索方法及系统和可读存储介质
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN114661852A (zh) * 2020-12-23 2022-06-24 深圳市万普拉斯科技有限公司 文本搜索方法、终端、可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060089926A1 (en) * 2004-10-27 2006-04-27 Harris Corporation, Corporation Of The State Of Delaware Method for re-ranking documents retrieved from a document database
CN102479256A (zh) * 2010-11-25 2012-05-30 爱信艾达株式会社 检索装置、检索方法以及计算机可读存储介质
CN102724310A (zh) * 2012-06-18 2012-10-10 惠州Tcl移动通信有限公司 一种通过移动终端实现云搜索的方法
CN105069167A (zh) * 2015-08-28 2015-11-18 成都六四三六五科技有限公司 法律信息搜索方法及法律信息搜索装置
CN112307171A (zh) * 2020-10-30 2021-02-02 中国电力科学研究院有限公司 一种基于电力知识库的制度标准检索方法及系统和可读存储介质
CN114661852A (zh) * 2020-12-23 2022-06-24 深圳市万普拉斯科技有限公司 文本搜索方法、终端、可读存储介质
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备

Also Published As

Publication number Publication date
CN117891839B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN107818781B (zh) 智能交互方法、设备及存储介质
CN107832286B (zh) 智能交互方法、设备及存储介质
CN107797984B (zh) 智能交互方法、设备及存储介质
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
WO2019158014A1 (zh) 由计算机实施的与用户对话的方法和计算机系统
US20150074112A1 (en) Multimedia Question Answering System and Method
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
US11810337B2 (en) Providing emotional care in a session
WO2017209937A1 (en) Unknown word predictor and content-integrated translator
US11275906B2 (en) Natural language text conversion and method therefor
CN105068661A (zh) 基于人工智能的人机交互方法和系统
CN110399470B (zh) 会话消息处理
CN109829045A (zh) 一种问答方法和装置
WO2020233386A1 (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
WO2015021937A1 (zh) 用户推荐方法和装置
CN110795542A (zh) 对话方法及相关装置、设备
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
JP2023062173A (ja) ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
CN113343108A (zh) 推荐信息处理方法、装置、设备及存储介质
CN116414968A (zh) 信息搜索方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant