CN112347340B - 信息搜索方法、装置和计算机设备 - Google Patents

信息搜索方法、装置和计算机设备 Download PDF

Info

Publication number
CN112347340B
CN112347340B CN202011287774.9A CN202011287774A CN112347340B CN 112347340 B CN112347340 B CN 112347340B CN 202011287774 A CN202011287774 A CN 202011287774A CN 112347340 B CN112347340 B CN 112347340B
Authority
CN
China
Prior art keywords
word
search
words
association
appointed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011287774.9A
Other languages
English (en)
Other versions
CN112347340A (zh
Inventor
张玉君
罗晓生
钱勇
杜晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Original Assignee
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pingan Zhihui Enterprise Information Management Co ltd filed Critical Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority to CN202011287774.9A priority Critical patent/CN112347340B/zh
Publication of CN112347340A publication Critical patent/CN112347340A/zh
Application granted granted Critical
Publication of CN112347340B publication Critical patent/CN112347340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及大数据领域,揭示了信息搜索方法,包括:获取当前用户输入的搜索关键词,以及当前用户对应的业务属性信息;根据搜索关键词以及业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;若是,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。通过协同算法筛选出与输入关键词相关的且在可选择范围内的词汇,并通过增加惩罚系数,校正可选词汇的排序,根据校正后的排序输出与输入关键词对应的联想词汇,提高联想词汇的精准度,提高搜索精准度。

Description

信息搜索方法、装置和计算机设备
技术领域
本申请涉及大数据领域,特别是涉及到信息搜索方法、装置和计算机设备。
背景技术
互联网时代,信息检索的地位越发突出,当前的检索手段多是基于搜索关键词,但输入的关键词不许非常精准的情况下,才能搜索出对应的信息。为提高信息搜索精准度,关键词搜索中多搭配搜索关键联想词,然而现有关键联想词功能,为满足普适性,仅通过文本的简单嵌套匹配进行关键联想词推荐,缺乏语义理解和用户意图上的推荐,配置通常比较生硬、缺乏灵活性和人性化,没有根据企业的实际业务领域、最新数据文本等,进行针对性的联想扩展和推荐,导致该联想功能无法满足具体行业或者企业的实际使用需要,大大浪费了搜索时间,降低了搜索引擎的有效使用效率。
发明内容
本申请的主要目的为提供信息搜索,旨在解决现有联想词的推荐不灵活、不能满足搜索需求的技术问题。
本申请提出一种信息搜索方法,包括:
获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;
根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;
判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;
若是,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;
按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
优选地,所述判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇的步骤,包括:
判断是否存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词;
若是,则判定存在需要惩罚修正的指定词汇。
优选地,所述调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序的步骤,包括:
判断指定联想词的搜索量是否大于平均搜索量,其中,所述指定联想词为所有联想词中的任意一个;
若是,则调用第一惩罚系数对所述指定联想词进行惩罚修正;
判断所述指定联想词与所述搜索关键词的相似度是否大于平均相似度;
若是,则调用第二惩罚系数对所述指定联想词进行惩罚修正;
将惩罚修正后各联想词分别对应的相关度从大到小进行排序,形成惩罚修正后的联想词排序。
优选地,所述根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤之前,包括:
获取企业信息管理系统的存储数据;
对所述存储数据进行文本标准化处理,得到文本库;
对所述文本库进行分词处理得到分词库,其中,所述分词库包括短语粒度的第一分词和单词粒度的第二分词;
将所述分词库中的各分词备注历史搜索信息,构建成所述预设词库。
优选地,所述根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤,包括:
获取当前用户的登陆信息以及所述当前用户输入的指定搜索关键词;
根据所述当前用户的登陆信息获取所述当前用户对应的业务职能信息;
判断是否存在与所述业务职能信息相对应的历史搜索信息:
若否,则计算所述预设词库中各分词分别与所述指定搜索关键词的相似系数,计算所述预设词库中各分词分别与所述业务职能信息的相关系数;
将指定分词对应的所述相似系数乘以所述指定分词对应的所述相关系数,得到所述指定分词对应的相关度;
根据所述指定分词对应的相关度的计算过程,分别计算所述预设词库中各分词分别对应的相关度;
按照所述预设词库中各分词分别对应的相关度由大到小选择指定数量的词汇,作为搜索联想词。
优选地,所述判断是否存在与所述业务职能信息相对应的历史搜索信息的步骤之后,包括:
若存在与所述业务职能信息相对应的历史搜索信息,则对所述搜索关键词和所述预设词库中各分词,分别进行实体识别和实体对齐;
根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值;
按照所述预设词库中各分词分别对应的相关度预测值由大到小选择指定数量的词汇。
优选地,所述根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值的步骤,包括:
判断所述搜索关键词对应的第一实体与特定分词对应的第二实体之间是否存在相同维度,其中,所述特定分词为所有分词中的任意一个;
若是,则根据相同维度建立所述第一实体与所述第二实体之间的关联路径;
计算所述关联路径占比总边数的比例范围,其中,所述总边数为所述第一实体对应的流入边数量与所述第二实体对应的流入边数量的总乘积;
根据所述比例范围确定所述搜索关键词和所述特定分词的相关度预测值;
根据所述搜索关键词和所述特定分词的相关度预测值的计算方式,确定所述搜索关键词和所述预设词库中各分词之间的相关度预测值。
本申请还提供了一种信息搜索装置,包括:
第一获取模块,用于获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;
选择模块,用于根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;
判断模块,用于判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;
调用模块,用于若存在需要惩罚修正的指定词汇,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;
反馈模块,用于按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过协同算法筛选出与输入关键词相关的且在可选择范围内的词汇,并通过增加惩罚系数,校正可选词汇的排序,根据校正后的排序输出与输入关键词对应的联想词汇,提高联想词汇的精准度,提高搜索精准度。
附图说明
图1本申请一实施例的信息搜索方法流程示意图;
图2本申请一实施例的信息搜索系统流程示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的信息搜索方法,包括:
S1:获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;
S2:根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;
S3:判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;
S4:若是,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;
S5:按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
本申请实施例的信息搜索,用于企业管理系统中的企业信息搜索。上述输入搜索关键词的当前用户为企业管理系统中的注册用户,根据其登录信息可以获取当前用户的业务属性信息。上述业务属性信息包括但不限于业务线条、工作职能、岗位名称、岗位级别等。上述预设词库为存储关键联想词的词库,根据企业管理系统对应的数据库里面实际存储的文本数据以及最新更新存储的文本数据,通过实时更新得到。
本申请实施例从预设词库中筛选与搜索关键词相关的词汇信息时,不仅考虑与搜索关键词的相关性,还同步考虑与当前用户的业务属性信息的关联性,以提高反馈的搜索关键词对应的联想词的精准度,更能满足当前用户的搜索目的。将符合用户搜索意图的关键联想词反馈给用户,这些联想词不一定与用户输入内容相同,但属于用户可选、符合意图的搜索关键词。如,员工用户输入“财务”,搜索引擎可以联想报销、发票、预算等与财务相关的关键词内容;员工用户输入“人力”,搜索引擎可以联想薪酬、招聘、福利、休假等与人力资源相关的关键词内容。本申请在搜索联想词的过程中,通过增加惩罚系数修正,对搜索频次很高的过热内容进行惩罚,有利于在有限的推荐数量的词汇里,扩大与用户搜索价值相匹配的联想词的搜索范围,将搜索频次低但符合当前用户搜索价值的关键联想词推荐给当前用户。不进行惩罚干预前,结合相似度和搜索频率进行联想,导致联想结果都是高度相关或者是高热度的,这与用户通过搜索的联想功能扩大搜索范围相悖,当搜索频率高意味着热度足够高,则为普遍了解和认识的关键词,无需进行关键词联想,用户也能正常获取到。上述有限的推荐数量指将惩罚修正后的联想词按照修正后的相似度由大到小排序中的有限次序前的数量,比如推荐排序靠前的10%的词汇作为当前的搜索关键词对应的联想词。本申请结合当前用户本身的业务特征与其输入搜索关键词内容,识别当前用户的搜索意图进行关键词联想,并通过惩罚系数的修正,使得联想结果更具有人性化,提高企业用户搜索信息的使用效率和体验。
进一步地,判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇的步骤S3,包括:
S31:判断是否存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词;
S32:若是,则判定存在需要惩罚修正的指定词汇。
本申请实施例中,需要惩罚系数介入修正的联想词,包括搜索量大于平均搜索量的第一联想词,和/或与搜索关键词的相似度大于平均相似度的第二联想词。上述平均搜索量指未修正前所有分词对应的平均搜索量,排除仅搜索过一次的。上述平均相似度指未修正前按照与搜索关键词的语义相似度直接被筛选出来的所有分词的平均语义相似度。
上述语义相似度用word2vec计算词向量的余弦距离得到。本申请实施例的Word2vec训练是基于企业管理知识文本通过迁移学习训练而成,预训练模型是基于百科信息训练而成。
进一步地,调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序的步骤S4,包括:
S41:判断指定联想词的搜索量是否大于平均搜索量,其中,所述指定联想词为所有联想词中的任意一个;
S42:若是,则调用第一惩罚系数对所述指定联想词进行惩罚修正;
S43:判断所述指定联想词与所述搜索关键词的相似度是否大于平均相似度;
S44:若是,则调用第二惩罚系数对所述指定联想词进行惩罚修正;
S45:将惩罚修正后各联想词分别对应的相关度从大到小进行排序,形成惩罚修正后的联想词排序。
本申请实施例中,候选联想词在被挖掘出来后会带上与搜索关键词的语义相似度,若当前候选联想词搜索量过热,即该候选联想词的搜索量x大于所有被搜索过的分词的平均搜索量n,排除仅搜索过一次的分词,则将其相关度除以惩罚系数
Figure BDA0002782928650000061
若x<=n时,则保持原样不进行惩罚修正。若当前候选联想词与搜索关键词的相似度过高,该联想词相似度s大于被选出来的联想词的相似度的平均值m时,则将其相关度除以惩罚系数/>
Figure BDA0002782928650000062
若s<=m时,则保持原样不进行惩罚修正。上述两种惩罚系数可同时使用,也可分别使用。当两种惩罚情况同时出现在同一个候选联想词上,则同时使用。然后将修正后的相关度进行排序,两次修正计算后的相关度大的会排在前面,相关度较小的排后面。
进一步地,根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤S2之前,包括:
S21:获取企业信息管理系统的存储数据;
S22:对所述存储数据进行文本标准化处理,得到文本库;
S23:对所述文本库进行分词处理得到分词库,其中,所述分词库包括短语粒度的第一分词和单词粒度的第二分词;
S24:将所述分词库中的各分词备注历史搜索信息,构建成所述预设词库。
上述企业管理系统对应的数据库的存储数据,针对可搜索的信息内容进行实时在线的文本清洗、格式化、错别字识别、信息错误纠正等文本标准化处理,使得联想内容文本的来源更规范、更可靠。举例地,如企业数据库输入保存数据时,在文本中存在标点符号、数字,或者存在错别字,如采购*负责人、产品经历1等。通过格式化处理将上述文本修正为采购负责人、产品经理,并将存在错别字进行纠正,最后保存数据为:采购负责人、产品经理。上述错别字识别过程中可以通过深度学习算法实现,在pycorrector基础上扩展、补充通用的企业知识和企业内部管理信息特有知识场景进行针对性的模型算法训练。涉及的知识场景有:人名错别字、职位错别字、知识性错别字以及普通文本错别字等。上述知识性错别字,比如感帽、广州黄浦中出现的错别字“帽”、“浦”。
本申请实施例中,通过将经过上述预处理的文本数据进行分词后,得到上述的预设词库。上述分词过程对文本数据进行短语级别和单词级别的分词,从而识别出根据企业实际数据自适应的、兼容短语级别粗颗粒和单词级别细颗粒的联想词。分词颗粒度:短语级别大于单词级别,短语级别是将用户输入内容按大颗粒分词的词组,单词是按最小颗粒分词,比如单个字。本申请同时综合上述两种分词结果,使得联想词库同时保存了大颗粒和小颗粒的分词结果,增加了词库对不确定场景的可扩展性。
进一步地,根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤S2,包括:
S21:获取当前用户的登陆信息以及所述当前用户输入的指定搜索关键词;
S22:根据所述当前用户的登陆信息获取所述当前用户对应的业务职能信息;
S23:判断是否存在与所述业务职能信息相对应的历史搜索信息:
S24:若否,则计算所述预设词库中各分词分别与所述指定搜索关键词的相似系数,计算所述预设词库中各分词分别与所述业务职能信息的相关系数;
S25:将指定分词对应的所述相似系数乘以所述指定分词对应的所述相关系数,得到所述指定分词对应的相关度;
S26:根据所述指定分词对应的相关度的计算过程,分别计算所述预设词库中各分词分别对应的相关度;
S27:按照所述预设词库中各分词分别对应的相关度由大到小选择指定数量的词汇,作为搜索联想词。
本申请实施例,在系统初始化过程中,即存在与所述业务职能信息相对应的历史搜索信息时,无法根据历史搜索信息进行实体对齐后的推荐,则通过与指定搜索关键词的相似系数,乘以与该搜索关键词的输入用户的业务职能信息的相关系数计算相关度。举例地,当前用户输入的搜索关键词为“产品”,则与数据库中的分词“负责人”、“经理”、“生产”等分词的相关度分别为0.87、0.9、0.95,当前用户对应的业务条线为“APP研发部”,数据库中的分词“负责人”、“经理”、“生产”等分词,与“APP研发部”的相关度分别为0.3、0.2、0.12,则最终搜索关键词“产品”对应的候选联想词的相关度排序为:(负责人,0.87*0.3)、(经理,0.9*0.2)、(生产,0.95*0.12)。
进一步地,判断是否存在与所述业务职能信息相对应的历史搜索信息的步骤S23之后,包括:
S231:若存在与所述业务职能信息相对应的历史搜索信息,则对所述搜索关键词和所述预设词库中各分词,分别进行实体识别和实体对齐;
S232:根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值;
S233:按照所述预设词库中各分词分别对应的相关度预测值由大到小选择指定数量的词汇。
本申请实施例的信息搜索系统运作后,根据业务线条、工作职能、岗位名称、岗位级别的联想词的历史搜索信息,构建协同过滤算法进行联想词推荐,提高联想词推荐的精准度。通过历史搜索信息中不同用户对不同关键词的搜索量获得关键词间的相关关系。基于该相关关系对用户进行相似关键词的推荐。本申请通过实体识别和实体对齐,建立相关实体之间的相关关系图。举例地,如果用户A同时搜索了关键词1和关键词2和关键词3,那么说明在某个维度上,关键词1和关键词2和关键词3的相关度较高或者说存在某一特定联系。当用户B也搜索了关键词1和关键词2时,可以推断可能有搜索需要价值的关键词3。
进一步地,所述根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值的步骤S232,包括:
S2321:判断所述搜索关键词对应的第一实体与特定分词对应的第二实体之间是否存在相同维度,其中,所述特定分词为所有分词中的任意一个;
S2322:若是,则根据相同维度建立所述第一实体与所述第二实体之间的关联路径;
S2323:计算所述关联路径占比总边数的比例范围,其中,所述总边数为所述第一实体对应的流入边数量与所述第二实体对应的流入边数量的总乘积;
S2324:根据所述比例范围确定所述搜索关键词和所述特定分词的相关度预测值;
S2325:根据所述搜索关键词和所述特定分词的相关度预测值的计算方式,确定所述搜索关键词和所述预设词库中各分词之间的相关度预测值。
本申请实施例中,如果两个实体相似,那么跟它们分别相关的实体应该也相似。本申请实施例的相关实体之间的相关关系图表示为二部图G(V,E),其中V是关系图的节点集合,每个节点对应一个实体,E是关系图的边集合,每条边对应具有相关关系的两个实体之间的连线。则某一个子集内两个节点的相关程度预测值s(a,b),可以用相关联的另一个子集节点之间相似度表示。即a和b两分词之间的相关度预测值:
Figure BDA0002782928650000091
其中:S(Uer(a,b))表示:分词a和分词b之间可以相连通成路径的用户相同维度占比,上述维度包括业务线条、工作职能、岗位名称、岗位级别等。举例地,1/4表示上述四个维度中只有一个维度相同,2/4表示上述四个维度中有两个维度相同,3/4表示上述四个维度中有三个维度相同,4/4表示上述四个维度中全部维度相同。N表示分词a和分词b之间可以相连通的路径数量为N。
参照图2,本申请一实施例的信息搜索装置,包括:
第一获取模块1,用于获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;
选择模块2,用于根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;
判断模块3,用于判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;
调用模块4,用于若存在需要惩罚修正的指定词汇,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;
反馈模块5,用于按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
本申请实施例的信息搜索,用于企业管理系统中的企业信息搜索。上述输入搜索关键词的当前用户为企业管理系统中的注册用户,根据其登录信息可以获取当前用户的业务属性信息。上述业务属性信息包括但不限于业务线条、工作职能、岗位名称、岗位级别等。上述预设词库为存储关键联想词的词库,根据企业管理系统对应的数据库里面实际存储的文本数据以及最新更新存储的文本数据,通过实时更新得到。
本申请实施例从预设词库中筛选与搜索关键词相关的词汇信息时,不仅考虑与搜索关键词的相关性,还同步考虑与当前用户的业务属性信息的关联性,以提高反馈的搜索关键词对应的联想词的精准度,更能满足当前用户的搜索目的。将符合用户搜索意图的关键联想词反馈给用户,这些联想词不一定与用户输入内容相同,但属于用户可选、符合意图的搜索关键词。如,员工用户输入“财务”,搜索引擎可以联想报销、发票、预算等与财务相关的关键词内容;员工用户输入“人力”,搜索引擎可以联想薪酬、招聘、福利、休假等与人力资源相关的关键词内容。本申请在搜索联想词的过程中,通过增加惩罚系数修正,对搜索频次很高的过热内容进行惩罚,有利于在有限的推荐数量的词汇里,扩大与用户搜索价值相匹配的联想词的搜索范围,将搜索频次低但符合当前用户搜索价值的关键联想词推荐给当前用户。不进行惩罚干预前,结合相似度和搜索频率进行联想,导致联想结果都是高度相关或者是高热度的,这与用户通过搜索的联想功能扩大搜索范围相悖,当搜索频率高意味着热度足够高,则为普遍了解和认识的关键词,无需进行关键词联想,用户也能正常获取到。上述有限的推荐数量指将惩罚修正后的联想词按照修正后的相似度由大到小排序中的有限次序前的数量,比如推荐排序靠前的10%的词汇作为当前的搜索关键词对应的联想词。本申请结合当前用户本身的业务特征与其输入搜索关键词内容,识别当前用户的搜索意图进行关键词联想,并通过惩罚系数的修正,使得联想结果更具有人性化,提高企业用户搜索信息的使用效率和体验。
进一步地,判断模块3,包括:
第一判断单元,用于判断是否存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词;
判定单元,用于若存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词,则判定存在需要惩罚修正的指定词汇。
本申请实施例中,需要惩罚系数介入修正的联想词,包括搜索量大于平均搜索量的第一联想词,和/或与搜索关键词的相似度大于平均相似度的第二联想词。上述平均搜索量指未修正前所有分词对应的平均搜索量,排除仅搜索过一次的。上述平均相似度指未修正前按照与搜索关键词的语义相似度直接被筛选出来的所有分词的平均语义相似度。
上述语义相似度用word2vec计算词向量的余弦距离得到。本申请实施例的Word2vec训练是基于企业管理知识文本通过迁移学习训练而成,预训练模型是基于百科信息训练而成。
进一步地,调用模块4,包括:
第二判断单元,用于判断指定联想词的搜索量是否大于平均搜索量,其中,所述指定联想词为所有联想词中的任意一个;
第一调用单元,用于若大于平均搜索量,则调用第一惩罚系数对所述指定联想词进行惩罚修正;
第三判断单元,用于判断所述指定联想词与所述搜索关键词的相似度是否大于平均相似度;
第二调用单元,用于若大于平均相似度,则调用第二惩罚系数对所述指定联想词进行惩罚修正;
排序单元,用于将惩罚修正后各联想词分别对应的相关度从大到小进行排序,形成惩罚修正后的联想词排序。
本申请实施例中,候选联想词在被挖掘出来后会带上与搜索关键词的语义相似度,若当前候选联想词搜索量过热,即该候选联想词的搜索量x大于所有被搜索过的分词的平均搜索量n,排除仅搜索过一次的分词,则将其相关度除以惩罚系数
Figure BDA0002782928650000121
若x<=n时,则保持原样不进行惩罚修正。若当前候选联想词与搜索关键词的相似度过高,该联想词相似度s大于被选出来的联想词的相似度的平均值m时,则将其相关度除以惩罚系数/>
Figure BDA0002782928650000122
若s<=m时,则保持原样不进行惩罚修正。上述两种惩罚系数可同时使用,也可分别使用。当两种惩罚情况同时出现在同一个候选联想词上,则同时使用。然后将修正后的相关度进行排序,两次修正计算后的相关度大的会排在前面,相关度较小的排后面。
进一步地,信息搜索装置,包括:
第二获取模块,用于获取企业信息管理系统的存储数据;
标准化模块,用于对所述存储数据进行文本标准化处理,得到文本库;
分词模块,用于对所述文本库进行分词处理得到分词库,其中,所述分词库包括短语粒度的第一分词和单词粒度的第二分词;
备注模块,用于将所述分词库中的各分词备注历史搜索信息,构建成所述预设词库。
上述企业管理系统对应的数据库的存储数据,针对可搜索的信息内容进行实时在线的文本清洗、格式化、错别字识别、信息错误纠正等文本标准化处理,使得联想内容文本的来源更规范、更可靠。举例地,如企业数据库输入保存数据时,在文本中存在标点符号、数字,或者存在错别字,如采购*负责人、产品经历1等。通过格式化处理将上述文本修正为采购负责人、产品经理,并将存在错别字进行纠正,最后保存数据为:采购负责人、产品经理。上述错别字识别过程中可以通过深度学习算法实现,在pycorrector基础上扩展、补充通用的企业知识和企业内部管理信息特有知识场景进行针对性的模型算法训练。涉及的知识场景有:人名错别字、职位错别字、知识性错别字以及普通文本错别字等。上述知识性错别字,比如感帽、广州黄浦中出现的错别字“帽”、“浦”。
本申请实施例中,通过将经过上述预处理的文本数据进行分词后,得到上述的预设词库。上述分词过程对文本数据进行短语级别和单词级别的分词,从而识别出根据企业实际数据自适应的、兼容短语级别粗颗粒和单词级别细颗粒的联想词。分词颗粒度:短语级别大于单词级别,短语级别是将用户输入内容按大颗粒分词的词组,单词是按最小颗粒分词,比如单个字。本申请同时综合上述两种分词结果,使得联想词库同时保存了大颗粒和小颗粒的分词结果,增加了词库对不确定场景的可扩展性。
进一步地,选择模块2,包括:
第一获取单元,用于获取当前用户的登陆信息以及所述当前用户输入的指定搜索关键词;
第二获取单元,用于根据所述当前用户的登陆信息获取所述当前用户对应的业务职能信息;
第四判断单元,用于判断是否存在与所述业务职能信息相对应的历史搜索信息:
第一计算单元,用于若不存在与所述业务职能信息相对应的历史搜索信息,则计算所述预设词库中各分词分别与所述指定搜索关键词的相似系数,计算所述预设词库中各分词分别与所述业务职能信息的相关系数;
得到单元,用于将指定分词对应的所述相似系数乘以所述指定分词对应的所述相关系数,得到所述指定分词对应的相关度;
第二计算单元,用于根据所述指定分词对应的相关度的计算过程,分别计算所述预设词库中各分词分别对应的相关度;
第一选择单元,用于按照所述预设词库中各分词分别对应的相关度由大到小选择指定数量的词汇,作为搜索联想词。
本申请实施例,在系统初始化过程中,即存在与所述业务职能信息相对应的历史搜索信息时,无法根据历史搜索信息进行实体对齐后的推荐,则通过与指定搜索关键词的相似系数,乘以与该搜索关键词的输入用户的业务职能信息的相关系数计算相关度。举例地,当前用户输入的搜索关键词为“产品”,则与数据库中的分词“负责人”、“经理”、“生产”等分词的相关度分别为0.87、0.9、0.95,当前用户对应的业务条线为“APP研发部”,数据库中的分词“负责人”、“经理”、“生产”等分词,与“APP研发部”的相关度分别为0.3、0.2、0.12,则最终搜索关键词“产品”对应的候选联想词的相关度排序为:(负责人,0.87*0.3)、(经理,0.9*0.2)、(生产,0.95*0.12)。
进一步地,选择模块2,包括:
实体对齐单元,用于若存在与所述业务职能信息相对应的历史搜索信息,则对所述搜索关键词和所述预设词库中各分词,分别进行实体识别和实体对齐;
第三计算单元,用于根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值;
第二选择单元,用于按照所述预设词库中各分词分别对应的相关度预测值由大到小选择指定数量的词汇。
本申请实施例的信息搜索系统运作后,根据业务线条、工作职能、岗位名称、岗位级别的联想词的历史搜索信息,构建协同过滤算法进行联想词推荐,提高联想词推荐的精准度。通过历史搜索信息中不同用户对不同关键词的搜索量获得关键词间的相关关系。基于该相关关系对用户进行相似关键词的推荐。本申请通过实体识别和实体对齐,建立相关实体之间的相关关系图。举例地,如果用户A同时搜索了关键词1和关键词2和关键词3,那么说明在某个维度上,关键词1和关键词2和关键词3的相关度较高或者说存在某一特定联系。当用户B也搜索了关键词1和关键词2时,可以推断可能有搜索需要价值的关键词3。
进一步地,第三计算单元,包括:
判断子单元,用于判断所述搜索关键词对应的第一实体与特定分词对应的第二实体之间是否存在相同维度,其中,所述特定分词为所有分词中的任意一个;
建立子单元,用于若存在相同维度,则根据相同维度建立所述第一实体与所述第二实体之间的关联路径;
计算子单元,用于计算所述关联路径占比总边数的比例范围,其中,所述总边数为所述第一实体对应的流入边数量与所述第二实体对应的流入边数量的总乘积;
第一确定子单元,用于根据所述比例范围确定所述搜索关键词和所述特定分词的相关度预测值;
第二确定子单元,用于根据所述搜索关键词和所述特定分词的相关度预测值的计算方式,确定所述搜索关键词和所述预设词库中各分词之间的相关度预测值。
本申请实施例中,如果两个实体相似,那么跟它们分别相关的实体应该也相似。本申请实施例的相关实体之间的相关关系图表示为二部图G(V,E),其中V是关系图的节点集合,每个节点对应一个实体,E是关系图的边集合,每条边对应具有相关关系的两个实体之间的连线。则某一个子集内两个节点的相关程度预测值s(a,b),可以用相关联的另一个子集节点之间相似度表示。即a和b两分词之间的相关度预测值:
Figure BDA0002782928650000151
其中:S(Uer(a,b))表示:分词a和分词b之间可以相连通成路径的用户相同维度占比,上述维度包括业务线条、工作职能、岗位名称、岗位级别等。举例地,1/4表示上述四个维度中只有一个维度相同,2/4表示上述四个维度中有两个维度相同,3/4表示上述四个维度中有三个维度相同,4/4表示上述四个维度中全部维度相同。N表示分词a和分词b之间可以相连通的路径数量为N。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储信息搜索过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现信息搜索方法。
上述处理器执行上述信息搜索方法,包括:获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;若是,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
上述计算机设备,通过协同算法筛选出与输入关键词相关的且在可选择范围内的词汇,并通过增加惩罚系数,校正可选词汇的排序,根据校正后的排序输出与输入关键词对应的联想词汇,提高联想词汇的精准度,提高搜索精准度。
在一个实施例中,上述处理器判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇的步骤,包括:判断是否存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词;若是,则判定存在需要惩罚修正的指定词汇。
在一个实施例中,上述处理器调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序的步骤,包括:判断指定联想词的搜索量是否大于平均搜索量,其中,所述指定联想词为所有联想词中的任意一个;若是,则调用第一惩罚系数对所述指定联想词进行惩罚修正;判断所述指定联想词与所述搜索关键词的相似度是否大于平均相似度;若是,则调用第二惩罚系数对所述指定联想词进行惩罚修正;将惩罚修正后各联想词分别对应的相关度从大到小进行排序,形成惩罚修正后的联想词排序。
在一个实施例中,上述处理器根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤之前,包括:获取企业信息管理系统的存储数据;对所述存储数据进行文本标准化处理,得到文本库;对所述文本库进行分词处理得到分词库,其中,所述分词库包括短语粒度的第一分词和单词粒度的第二分词;将所述分词库中的各分词备注历史搜索信息,构建成所述预设词库。
在一个实施例中,上述处理器根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤,包括:获取当前用户的登陆信息以及所述当前用户输入的指定搜索关键词;根据所述当前用户的登陆信息获取所述当前用户对应的业务职能信息;判断是否存在与所述业务职能信息相对应的历史搜索信息:若否,则计算所述预设词库中各分词分别与所述指定搜索关键词的相似系数,计算所述预设词库中各分词分别与所述业务职能信息的相关系数;将指定分词对应的所述相似系数乘以所述指定分词对应的所述相关系数,得到所述指定分词对应的相关度;根据所述指定分词对应的相关度的计算过程,分别计算所述预设词库中各分词分别对应的相关度;按照所述预设词库中各分词分别对应的相关度由大到小选择指定数量的词汇,作为搜索联想词。
在一个实施例中,上述处理器判断是否存在与所述业务职能信息相对应的历史搜索信息的步骤之后,包括:若存在与所述业务职能信息相对应的历史搜索信息,则对所述搜索关键词和所述预设词库中各分词,分别进行实体识别和实体对齐;根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值;按照所述预设词库中各分词分别对应的相关度预测值由大到小选择指定数量的词汇。
在一个实施例中,上述处理器根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值的步骤,包括:判断所述搜索关键词对应的第一实体与特定分词对应的第二实体之间是否存在相同维度,其中,所述特定分词为所有分词中的任意一个;若是,则根据相同维度建立所述第一实体与所述第二实体之间的关联路径;计算所述关联路径占比总边数的比例范围,其中,所述总边数为所述第一实体对应的流入边数量与所述第二实体对应的流入边数量的总乘积;根据所述比例范围确定所述搜索关键词和所述特定分词的相关度预测值;根据所述搜索关键词和所述特定分词的相关度预测值的计算方式,确定所述搜索关键词和所述预设词库中各分词之间的相关度预测值。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现信息搜索方法,包括:获取当前用户输入的搜索关键词,以及当前用户对应的业务属性信息;根据搜索关键词以及业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;若是,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
上述计算机可读存储介质,通过协同算法筛选出与输入关键词相关的且在可选择范围内的词汇,并通过增加惩罚系数,校正可选词汇的排序,根据校正后的排序输出与输入关键词对应的联想词汇,提高联想词汇的精准度,提高搜索精准度。
在一个实施例中,上述处理器判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇的步骤,包括:判断是否存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词;若是,则判定存在需要惩罚修正的指定词汇。
在一个实施例中,上述处理器调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序的步骤,包括:判断指定联想词的搜索量是否大于平均搜索量,其中,所述指定联想词为所有联想词中的任意一个;若是,则调用第一惩罚系数对所述指定联想词进行惩罚修正;判断所述指定联想词与所述搜索关键词的相似度是否大于平均相似度;若是,则调用第二惩罚系数对所述指定联想词进行惩罚修正;将惩罚修正后各联想词分别对应的相关度从大到小进行排序,形成惩罚修正后的联想词排序。
在一个实施例中,上述处理器根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤之前,包括:获取企业信息管理系统的存储数据;对所述存储数据进行文本标准化处理,得到文本库;对所述文本库进行分词处理得到分词库,其中,所述分词库包括短语粒度的第一分词和单词粒度的第二分词;将所述分词库中的各分词备注历史搜索信息,构建成所述预设词库。
在一个实施例中,上述处理器根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤,包括:获取当前用户的登陆信息以及所述当前用户输入的指定搜索关键词;根据所述当前用户的登陆信息获取所述当前用户对应的业务职能信息;判断是否存在与所述业务职能信息相对应的历史搜索信息:若否,则计算所述预设词库中各分词分别与所述指定搜索关键词的相似系数,计算所述预设词库中各分词分别与所述业务职能信息的相关系数;将指定分词对应的所述相似系数乘以所述指定分词对应的所述相关系数,得到所述指定分词对应的相关度;根据所述指定分词对应的相关度的计算过程,分别计算所述预设词库中各分词分别对应的相关度;按照所述预设词库中各分词分别对应的相关度由大到小选择指定数量的词汇,作为搜索联想词。
在一个实施例中,上述处理器判断是否存在与所述业务职能信息相对应的历史搜索信息的步骤之后,包括:若存在与所述业务职能信息相对应的历史搜索信息,则对所述搜索关键词和所述预设词库中各分词,分别进行实体识别和实体对齐;根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值;按照所述预设词库中各分词分别对应的相关度预测值由大到小选择指定数量的词汇。
在一个实施例中,上述处理器根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值的步骤,包括:判断所述搜索关键词对应的第一实体与特定分词对应的第二实体之间是否存在相同维度,其中,所述特定分词为所有分词中的任意一个;若是,则根据相同维度建立所述第一实体与所述第二实体之间的关联路径;计算所述关联路径占比总边数的比例范围,其中,所述总边数为所述第一实体对应的流入边数量与所述第二实体对应的流入边数量的总乘积;根据所述比例范围确定所述搜索关键词和所述特定分词的相关度预测值;根据所述搜索关键词和所述特定分词的相关度预测值的计算方式,确定所述搜索关键词和所述预设词库中各分词之间的相关度预测值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (5)

1.一种信息搜索方法,其特征在于,包括:
获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;
根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;
判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;
若是,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;
按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息;
所述判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇的步骤,包括:
判断是否存在搜索量大于平均搜索量的第一联想词,和/或与所述搜索关键词的相似度大于平均相似度的第二联想词;
若是,则判定存在需要惩罚修正的指定词汇;
所述调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序的步骤,包括:
判断指定联想词的搜索量是否大于平均搜索量,其中,所述指定联想词为所有联想词中的任意一个;
若是,则调用第一惩罚系数对所述指定联想词进行惩罚修正;
判断所述指定联想词与所述搜索关键词的相似度是否大于平均相似度;
若是,则调用第二惩罚系数对所述指定联想词进行惩罚修正;
将惩罚修正后各联想词分别对应的相关度从大到小进行排序,形成惩罚修正后的联想词排序;
所述根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤,包括:
获取当前用户的登陆信息以及所述当前用户输入的指定搜索关键词;
根据所述当前用户的登陆信息获取所述当前用户对应的业务职能信息;
判断是否存在与所述业务职能信息相对应的历史搜索信息:
若否,则计算所述预设词库中各分词分别与所述指定搜索关键词的相似系数,计算所述预设词库中各分词分别与所述业务职能信息的相关系数;
将指定分词对应的所述相似系数乘以所述指定分词对应的所述相关系数,得到所述指定分词对应的相关度;
根据所述指定分词对应的相关度的计算过程,分别计算所述预设词库中各分词分别对应的相关度;
按照所述预设词库中各分词分别对应的相关度由大到小选择指定数量的词汇,作为搜索联想词;
所述判断是否存在与所述业务职能信息相对应的历史搜索信息的步骤之后,包括:
若存在与所述业务职能信息相对应的历史搜索信息,则对所述搜索关键词和所述预设词库中各分词,分别进行实体识别和实体对齐;
根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值;
按照所述预设词库中各分词分别对应的相关度预测值由大到小选择指定数量的词汇;
所述根据实体之间的相关关系图,计算所述搜索关键词和所述预设词库中各分词之间的相关度预测值的步骤,包括:
判断所述搜索关键词对应的第一实体与特定分词对应的第二实体之间是否存在相同维度,其中,所述特定分词为所有分词中的任意一个;
若是,则根据相同维度建立所述第一实体与所述第二实体之间的关联路径;
计算所述关联路径占比总边数的比例范围,其中,所述总边数为所述第一实体对应的流入边数量与所述第二实体对应的流入边数量的总乘积;
根据所述比例范围确定所述搜索关键词和所述特定分词的相关度预测值;
根据所述搜索关键词和所述特定分词的相关度预测值的计算方式,确定所述搜索关键词和所述预设词库中各分词之间的相关度预测值。
2.根据权利要求1所述的信息搜索方法,其特征在于,所述根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词的步骤之前,包括:
获取企业信息管理系统的存储数据;
对所述存储数据进行文本标准化处理,得到文本库;
对所述文本库进行分词处理得到分词库,其中,所述分词库包括短语粒度的第一分词和单词粒度的第二分词;
将所述分词库中的各分词备注历史搜索信息,构建成所述预设词库。
3.一种信息搜索装置,用于实现权利要求1或2所述的方法,其特征在于,所述装置包括:
第一获取模块,用于获取当前用户输入的搜索关键词,以及所述当前用户对应的业务属性信息;
选择模块,用于根据所述搜索关键词以及所述业务属性信息,从预设词库中选择指定数量的词汇作为搜索联想词;
判断模块,用于判断所述指定数量的联想词中,是否存在需要惩罚修正的指定词汇;
调用模块,用于若存在需要惩罚修正的指定词汇,则调用惩罚系数对所述指定词汇进行惩罚修正,得到惩罚修正后的联想词排序;
反馈模块,用于按照所述惩罚修正后的联想词排序,向所述当前用户反馈与所述搜索关键词对应的搜索信息。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1或2所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的方法的步骤。
CN202011287774.9A 2020-11-17 2020-11-17 信息搜索方法、装置和计算机设备 Active CN112347340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011287774.9A CN112347340B (zh) 2020-11-17 2020-11-17 信息搜索方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011287774.9A CN112347340B (zh) 2020-11-17 2020-11-17 信息搜索方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112347340A CN112347340A (zh) 2021-02-09
CN112347340B true CN112347340B (zh) 2023-06-27

Family

ID=74363969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011287774.9A Active CN112347340B (zh) 2020-11-17 2020-11-17 信息搜索方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112347340B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076404B (zh) * 2021-04-21 2022-08-23 厦门快商通科技股份有限公司 一种文本相似度计算方法、装置、计算机设备和存储介质
CN115314737A (zh) * 2021-05-06 2022-11-08 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
CN113254588B (zh) * 2021-06-02 2023-08-22 竹间智能科技(上海)有限公司 一种数据搜索方法及系统
CN113515709A (zh) * 2021-07-09 2021-10-19 北京字节跳动网络技术有限公司 一种搜索信息展示方法、装置、计算机设备及存储介质
CN116662634B (zh) * 2023-08-02 2023-10-31 中国标准化研究院 一种基于知识图谱的路径分析的推理研究系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216995A (zh) * 2014-09-10 2014-12-17 北京金山安全软件有限公司 信息处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108407B2 (en) * 2006-11-06 2012-01-31 Panasonic Corporation Informationn retrieval apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216995A (zh) * 2014-09-10 2014-12-17 北京金山安全软件有限公司 信息处理方法及装置

Also Published As

Publication number Publication date
CN112347340A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112347340B (zh) 信息搜索方法、装置和计算机设备
US20210019341A1 (en) Implementing a software action based on machine interpretation of a language input
US20100257150A1 (en) Query identification and normalization for web search
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN112270188B (zh) 一种提问式的分析路径推荐方法、系统及存储介质
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN110377618B (zh) 裁决结果分析方法、装置、计算机设备和存储介质
CN113343091A (zh) 面向产业和企业的科技服务推荐计算方法、介质及程序
CN109189848B (zh) 知识数据的抽取方法、系统、计算机设备和存储介质
CN116401464B (zh) 一种职业用户画像的构建方法、装置、设备及存储介质
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN109992723B (zh) 一种基于社交网络的用户兴趣标签构建方法及相关设备
US11698811B1 (en) Machine learning-based systems and methods for predicting a digital activity and automatically executing digital activity-accelerating actions
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和系统
US11922326B2 (en) Data management suggestions from knowledge graph actions
WO2022105780A1 (zh) 推荐方法、装置、电子设备、存储介质
JP2020067864A (ja) 知識検索装置、知識検索方法、および、知識検索プログラム
US11494441B2 (en) Modular attribute-based multi-modal matching of data
CN113688633A (zh) 一种提纲确定方法及装置
CN112734307A (zh) 一种在线实时企业画像生成方法、装置、设备及存储介质
JP2006004103A (ja) 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210224

Address after: 518000 room 64, 3 / F, building 364B, Jingui building, 68 Puti Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Pingan Zhihui Enterprise Information Management Co.,Ltd.

Address before: No.1411-14158, main tower of shipping center, No.59 Linhai Avenue, Nanshan street, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An digital information technology (Shenzhen) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant