CN111460104A - 行业自适应的智能搜索方法 - Google Patents

行业自适应的智能搜索方法 Download PDF

Info

Publication number
CN111460104A
CN111460104A CN202010249110.7A CN202010249110A CN111460104A CN 111460104 A CN111460104 A CN 111460104A CN 202010249110 A CN202010249110 A CN 202010249110A CN 111460104 A CN111460104 A CN 111460104A
Authority
CN
China
Prior art keywords
theme
words
service
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010249110.7A
Other languages
English (en)
Other versions
CN111460104B (zh
Inventor
李民
朱锦雷
张传锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202010249110.7A priority Critical patent/CN111460104B/zh
Publication of CN111460104A publication Critical patent/CN111460104A/zh
Application granted granted Critical
Publication of CN111460104B publication Critical patent/CN111460104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种行业自适应的智能搜索方法,本方法通过划分业务词、通用词,提升业务词权重,降低通用词权重,减低与主题相关性低的词语对搜索结果的影响。自动更新有效性阈值和唯一性阈值,提升搜索系统灵活性。层级化搜索提升搜索效率。联合句子几何特征、词语边缘分布、词语主题联合分布以及词语分布语义等要素,提升搜索与目标主题的匹配度,提升搜索质量。基于搜索结果的自学习反馈机制支撑搜索方法的迭代优化。

Description

行业自适应的智能搜索方法
技术领域
本发明涉及一种行业自适应的智能搜索方法,属于人工智能技术领域。
背景技术
随着互联网的爆炸式发展,网上各种信息呈指数级增长,这导致用户的要查询的信息湮没在庞大繁杂的互联网大数据中。如何有效地提高用户的搜索效率以及搜索质量成为焦点问题。
目前用户获取信息无非两种渠道,一种通过类似谷歌、百度的通用搜索获取信息,但是搜索结果往往包括各个方面的信息,用户需要进行二次筛选和判断,效率偏低,用户认知负担偏高,并且信息的真实性和时效性无法得到保证。
第二种通过行业相关搜索系统获取相对专业准确的信息。行业系统分类清晰,搜索结果有所保证,但是搜索范围局限。由于行业搜索系统与垂直行业业务联系紧密,导致面向行业的搜索系统定制化程度高,自适应能力差。
发明内容
本发明要解决的技术问题是提供一种行业自适应的智能搜索方法,通过具体业务数据分析自适应调整搜索系统参数,提高搜索效率及质量。
为了解决所述技术问题,本发明采用的技术方案是:行业自适应的智能搜索方法,其特征在于:包括以下步骤:
S01)、收集目标行业的原始数据,然后对原始数据进行数据预处理,从而将不同来源的行业原始数据转变为格式统一、内容一致、低缺失值、无噪声的业务数据;
S02)、对业务数据进行统计特征分析,然后根据词语的统计特征选取业务词、通用词和停用词集合;
S03)、建立业务主题层级关系,从而输出层级化业务主题知识;
S04)、根据业务主题层级划分训练集合,从而输出不同的主题层级综合训练样本;
S05)、基于不同主题层级综合训练样本进行训练,首先遍历每级主题,计算业务主题的知识分布,获取到主题知识分布后,计算词语与主题的相关度,计算词语与主题的相关度时,通过设置词语增益权重从而对业务词和通用词赋予差异化权重;
S06)、系统接收到搜索信息后首先进行搜索信息预处理,然后根据业务词集合和通用词集合完成词语的映射和归一化;
S07)、遍历搜索信息不同层级的主题并判断搜索信息中是否存在符合人工规则的主题,如果存在,则直接转入规则匹配并展示匹配结果,如果没有,则直接计算搜索信息与业务主题的相关度、搜索信息与业务主题的几何相似度,最后求其两者加权和作为搜索信息与主题的相似度,根据搜索信息与不同业务主题相似度高低进行降序排列,输出相似度信息T,相似度信息T为一条搜索信息与N个业务主题的相似度信息,N为0或正整数;
S08)、多级阈值筛选,包括有效性阈值筛选和唯一性阈值筛选,有效性阈值和唯一性阈值根据搜索信息与业务主题的相似度信息动态调整;如果步骤S07中输出多条搜索信息与业务主题的相似度信息,则将每个搜索信息与业务主题的相似度信息分别与有效性阈值、唯一性阈值进行比较,如果相似度信息低于有效性阈值,则将其对应的业务主题删除,如果第一条业务主题对应的相似度信息高于唯一性阈值,则仅保留第一条业务主题,其他情况保持搜索结果不变;
S09)、层级化搜索,如果业务主题仅有一条且具有子主题,则直接进入下一层级的主题搜索过程,否则直接展示目标业务主题。
进一步的,有效性阈值为搜索信息与业务主题相关度最小值和第二小值之和,唯一性阈值为搜索信息与不同业务主题相关度的次高值的λ倍,λ>1。
进一步的,λ≥1.3。
进一步的,步骤S04中,依据业务主题的层级不同,本级主题的训练样本加上本级主题下所有子主题的所有训练样本作为本级主题的综合训练样本。
进一步的,步骤S05中,计算业务主题知识分布的过程为:遍历业务词集合和通用词集合,统计每个词语在每个主题训练样本中出现的次数
Figure BDA0002434468790000021
然后统计每个词语在多少个主题中出现过,记作
Figure BDA0002434468790000022
并计算每个主题的长度
Figure BDA0002434468790000023
为当前主题下所有训练样本词语的个数和除以训练样本个数,最后计算主题相对长度
Figure BDA0002434468790000024
公式为:
Figure BDA0002434468790000025
至此完成业务主题的知识分布。
进一步的,步骤S05或者S08中,计算业务主题层级划分训练集合或者搜索信息中词语与业务主题相关度的公式为:
Figure BDA0002434468790000026
Figure BDA0002434468790000027
其中Gain(wordi)表示词语增益权重,w表示权重,w>1,BW表示业务词集合,GW代表通用词集合,SW代表停用词集合,α表示调节主题相对长度对相关度影响的参数,α越高主题相对长度对相关度的影响越低,反之亦然,N表示训练集合的样本总数。
进一步的,步骤S08中,搜索信息与业务主题的几何相似度Geo(query,topicj)的计算公式为:
Figure BDA0002434468790000028
Lquery为搜索信息的问题长度,搜索信息与业务主题的相似度sim(query,topicj)的计算公式为:
Figure BDA0002434468790000029
Corr(wordi,topicj)表示搜索信息中词语与业务主题的相关度,β表示调节几何相似度、词语相关度对相似度影响的参数,β越高几何相似度对最终结果的影响越高,反之亦然。
进一步的,α=0.5,β=0.2。
进一步的,搜索信息与业务主题的相关度的计算方法为:遍历搜索信息中所有的实体信息词语,计算每个实体信息词语与业务主题的相关度并累加和作为搜索信息与业务主题的相关度。
进一步的,词语的统计特征包括词语的词频和逆文档频率,计算每个词语的TF-IDF数值并取均值作为平均贡献度,如果某个词语的贡献度高于平均贡献度,则词语隶属于业务词集合,反之则隶属于通用词集合。
本发明的有益效果:本发明通过划分业务词、通用词,提升业务词权重,降低通用词权重,减低与主题相关性低的词语对搜索结果的影响。自动更新有效性阈值和唯一性阈值,提升搜索系统灵活性。层级化搜索提升搜索效率。联合句子几何特征、词语边缘分布、词语主题联合分布以及词语分布语义等要素,提升搜索与目标主题的匹配度,提升搜索质量。基于搜索结果的自学习反馈机制支撑搜索方法的迭代优化。
附图说明
图1为本发明第一部分的流程图;
图2为本发明第二部分的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明和限定。
实施例1
本实施例公开一种行业自适应的智能搜索方法,如图1、2所示,包括以下步骤:
S01)、数据收集,通过网络爬虫、行业法律法规文献等收集目标行业的原始书信息并保存到数据库中。具体的,在与目标行业相关信息的网站爬取网页数据,有限政府官网或者行业具有代表性的网站保证数据信息的真实性,同时建立下载更新策略,启动定时更新任务,保证数据信息的实时性。
针对目标行业,人为主动收集相关法律法规或者要求目标客户提供行业脱敏信息、政策的实际落地举措和施行方法,从而使数据真实性和可操作性更强。
S02)、数据预处理,将不同来源的原始数据进行清洗和标准化处理,具体包括明显噪声数据和重复数据的删除、填补缺失值、指代实体化、不一致数据处理、矛盾数据排除以及异构数据的同构化转变等操作。从而数据预处理,将不同来源的行业原始数据转变为格式统一、内容一致、低缺失值、无噪声的业务数据。
S03)、统计特征分析,首先完成业务数据文本的实体信息抽取标记,然后统计每条业务数据中实体信息词频、实体的逆文档频率,业务数据的几何特征等统计特征。
所述实体抽取指利用自然语言处理技术实现自然语言分词,抽取高频无意义词汇,例如的、我、吗以及标点符号等,形成停用词集合SW,仅保留具体实体信息词汇,最后得到业务数据的词语集合;然后对分词后的词语列表进行词语的拓展和归一化。
本实施例中,词语拓展和归一化包括依据词语的分布式语义进行行业词语的拓展和归一化,也可在行业专家的指导下人为添加。其中词语的分布式语义可采用word2Vec或Glove等方法获得,根据词语向量之间的余弦相似度衡量不同词语之间的语义相似性。为了进一步区分词语在不同行业之间的语义差异性可采用预训练模型加微调机制,即直接采用第三方已训练完成的预训练模型,然后利用业务数据对模型进行微调使得词语语义更贴合具体行业应用环境。
实体信息的词频指的是实体信息在特定的业务数据中出现了多少次,逆文档频率指的是所有文档数量除以包含特定词语的文档数量,再通过对数运算获得最后的值。如果所该特征项仅存在于个别的文档当中,说明该特征项的集中程度越高,它对文档类别的贡献率越高。
S04)、抽取业务词和通用词,根据词语的统计特征选取业务词和通用词,业务词和通用词依据词语的词频和逆文档频率确定。词频体现词语在对每个文档的贡献度差异性,而逆文档频率体现词语的对所有文档的平均贡献度。计算每个词语的TF-IDF数值并取均值作为平均贡献度。如果某个词语的贡献度高于平均贡献度,则词语隶属业务词集合BW,反之则属于通用词集合GW。
S05)、建立业务主题层级关系,输出层级化业务主题知识。行业网络数据、法律法规文档、政策实施细则等具备基本的层级关系,这些层级关系是经过专业从业人员编写或认可的,故在建立业务主题层级关系时可以上述层级关系为准。
层级关系的细化程度取决于搜索方法面向的群体。如果面向行业从业人员,可以在行业专家的指导下完成层级关系的建立、调整以及优化。如果面向普通用户上述层级关系已满足基本需要。
S06)、根据业务主题层级划分训练集合输出不同的主题层级综合训练样本。具体过程为:依据业务主题的层级不同,本级主题的训练样本加上本级主题下所有子主题的所有训练样本作为本级主题的综合训练样本。例如:个税如何缴纳、个税如何补缴、个税减免政策;每句话均有一个主题,但是这三个都属于个税主题,所以三句话均是个税主题的训练样本。
S07)、不同主题层级综合训练样本分割整合完成后,遍历每级主题计算业务主题的知识分布。
主题业务知识分布的计算过程为:遍历业务词集合BW和通用词集合GW,统计每个词语在每个主题训练样本中出现的次数
Figure BDA0002434468790000041
然后统计每个词语在多少个主题中出现过,记作
Figure BDA0002434468790000042
并计算每个主题的长度
Figure BDA0002434468790000043
为当前主题下所有训练样本词语的个数和除以训练样本个数,最后计算主题相对长度
Figure BDA0002434468790000044
公式为:
Figure BDA0002434468790000045
至此完成业务主题的知识分布。
获取到主题知识分布后计算词语与业务主题的相关度,相关度越大说明特定词语对特定主题贡献度越大,即当搜索信息中出现该词语,那么搜索内容与该主题的匹配度更高,相关度的具体计算方法为:
Figure BDA0002434468790000046
Figure BDA0002434468790000051
其中Gain(wordi)表示词语增益权重,w表示权重,w>1,在本实施例中业务词的权重为w,通用词权重为
Figure BDA0002434468790000052
停用词汇增益权重为零。权重w越大,业务词汇与主题的相关度越高而通用词汇与主题的相关程度有所降低,反之亦然。
BW表示业务词集合,GW代表通用词集合,SW代表停用词集合,α表示调节主题相对长度对相关度影响的参数,α越高主题相对长度对相关度的影响越低,反之亦然,N表示训练集合的样本总数。
本实施例中,α=0.5。
S08)、系统接收到搜索信息后,首先进行搜索信息预处理,包括分词和归一化,即保留业务词和通用词,过滤停用词,通知根据业务词集合和通用词集合完成词语的映射和归一化。
S09)、遍历搜索信息不同层级的主题并判断搜索信息中是否存在符合人工规则的主题,如果存在,则直接转入规则匹配并展示匹配结果,如果没有,则直接计算搜索信息与业务主题的相关度、搜索信息与业务主题的几何相似度,最后求其两者加权和作为搜索信息与主题的相似度,根据搜索信息与不同业务主题相似度高低进行降序排列,输出相似度信息T,相似度信息T为一条搜索信息与N个业务主题的相似度信息,N为0或正整数。
本实施例中,搜索信息与业务主题的几何相似度Geo(query,topicj)的计算公式为:
Figure BDA0002434468790000053
Lquery为搜索信息的问题长度,搜索信息与业务主题的相似度sim(query,topicj)的计算公式为:
Figure BDA0002434468790000054
Corr(wordi,topicj)表示搜索信息中词语与业务主题的相关度,按照公式2计算或者直接调用公式2的计算结果,β表示调节几何相似度、词语相关度对相似度影响的参数,β越高几何相似度对最终结果的影响越高,反之亦然。本实施例中,β=0.2。
本实施例通过业务人工规则定义实现用户干预搜索结果。人工规则的优先级最高,如果存在人工规则,则直接按照规则模型匹配并输出结果。人工规则方便用户调整搜索结果,保证搜索的质量和真实性,同时方便添加更新时效性强的信息。如客户搜索“疫情期间如何缴纳个税”,符合人工规则“疫情”,则直接展示疫情期间个税的缴纳方法。
人工规则定义应该在充分了解业务知识的前提下或者行业专家的指导下建立,提升模型自身的准确性以及泛化能力。
搜索信息与业务主题的相关度具体的计算方法如下:遍历搜索信息中所有的实体信息,计算实体信息与业务主题的相关度并求取累加和作为搜索与业务主题的相关度。
S10)、多级阈值筛选,用于衡量搜索结果的有效性和唯一性,包括有效性阈值筛选和唯一性阈值筛选,有效性阈值和唯一性阈值根据搜索信息与业务主题的相似度信息动态调整。
如果步骤S09中输出多条搜索信息与业务主题的相似度信息,则将每个搜索信息与业务主题的相似度信息分别与有效性阈值、唯一性阈值进行比较,如果相似度信息低于有效性阈值,则将其对应的业务主题删除,如果第一条业务主题对应的相似度信息高于唯一性阈值,则仅保留第一条业务主题,其他情况保持搜索结果不变。同时搜索结果可用于反馈自学习,实现行业搜索系统的迭代优化升级。
S11)、层级化搜索,如果业务主题仅有一条且具有子主题,则直接进入下一层级的主题搜索过程,否则直接展示目标业务主题。
本实施例中,有效性阈值为搜索信息与业务主题相关度最小值和第二小值之和,唯一性阈值为搜索信息与不同业务主题相似度的次高值的λ倍,λ>1。
λ的值越大,搜索结果的多样性越大,反之亦然。在生产实践中为保证搜索结果的多样性,提高搜索结果的TopN的准确率,λ取值一般不小于1.3。
本实施例所述搜索方法具有自学习机制。结合行业具体业务特性分析日志记录,人工筛选后作为新的训练数据对模型完成深度的训练和提升,形成从业务应用闭环,逐步提升搜索方法性能。充分挖掘用户搜索信息,抽象行业用户群体行为和趋势,整合统计分析业务数据,抽取热点问题、高频问题,预测发展趋势,实现热点问题实时更新以及高频问题推荐,提升搜素搜方法的使用效率和效果,有利提升用户体验。
本实施例所述搜索方法提出在搜索过程中区分业务词和通用词,通过提升业务词权重,降低通用词的权重,降低与主题相关性低的词语对搜索结果的影响,缓解或解决由样本带来的语义偏差问题。计算词语权重的方法不仅仅限于TFIDF,业务词和通用词划分标准也不仅仅限于权重均值。
提出业务词和通用词差异化增益的机制。其中关于业务词和通用词的增益设定不仅仅限于专利中公式(3)体现的形式。只要对业务词和通用词赋予差异化权重均属于专利的保护范围
提出一种构建行业语义库方法。计算利用词语的嵌入式表示之间的空间距离,空间距离不仅仅限于向量之间余弦距离,欧式距离等。同时词语的嵌入式表示也不仅仅限于通过Word2Vec获取的表示结果。同时基于通用或者开放的第三方模型,利用行业数据进行微调获取词语分布式表示的方法也在本专利的保护范围之内。
本方法通过提高行业搜索系统自适应性,该专利提出的搜索方法从数据预处理模块,阈值动态设定机制,层级化搜索机制,文本相似度计算等搜索各个阶段针对行业进行优化,提高行业搜索易用性和高效性。能够进一步缓解信息不对称带来的不良影响,加速行业知识在从业人员和人民大众的知识流通,提升行业政策的宣贯程度以及线上线下的服务质量,同时协助行业用户提高对行业认知,方便自我日常工作生活。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (10)

1.行业自适应的智能搜索方法,其特征在于:包括以下步骤:
S01)、收集目标行业的原始数据,然后对原始数据进行数据预处理,从而将不同来源的行业原始数据转变为格式统一、内容一致、低缺失值、无噪声的业务数据;
S02)、对业务数据进行统计特征分析,然后根据词语的统计特征选取业务词和通用词;
S03)、建立业务主题层级关系,从而输出层级化业务主题知识;
S04)、根据业务主题层级划分训练集合,从而输出不同的主题层级综合训练样本;
S05)、基于不同主题层级综合训练样本进行训练,首先遍历每级主题,计算业务主题的知识分布,获取到主题知识分布后,计算词语与主题的相关度,计算词语与主题的相关度时,通过设置词语增益权重从而对业务词和通用词赋予差异化权重;
S06)、系统接收到搜索信息后首先进行搜索信息预处理,然后根据业务词集合和通用词集合完成词语的映射和归一化;
S07)、遍历搜索信息不同层级的主题并判断搜索信息中是否存在符合人工规则的主题,如果存在,则直接转入规则匹配并展示匹配结果,如果没有,则直接计算搜索信息与业务主题的相关度、搜索信息与业务主题的几何相似度,最后求其两者加权和作为搜索信息与主题的相似度,根据搜索信息与不同业务主题相似度高低进行降序排列,输出相似度信息T,相似度信息T为一条搜索信息与N个业务主题的相似度信息,N为0或正整数;
S08)、多级阈值筛选,包括有效性阈值筛选和唯一性阈值筛选,有效性阈值和唯一性阈值根据搜索信息与业务主题的相似度信息动态调整;如果步骤S07中输出多条搜索信息与业务主题的相似度信息,则将每个搜索信息与业务主题的相似度信息分别与有效性阈值、唯一性阈值进行比较,如果相似度信息低于有效性阈值,则将其对应的业务主题删除,如果第一条业务主题对应的相似度信息高于唯一性阈值,则仅保留第一条业务主题,其他情况保持搜索结果不变;
S09)、层级化搜索,如果业务主题仅有一条且具有子主题,则直接进入下一层级的主题搜索过程,否则直接展示目标业务主题。
2.根据权利要求1所述的行业自适应的智能搜索方法,其特征在于:有效性阈值为搜索信息与业务主题相关度最小值和第二小值之和,唯一性阈值为搜索信息与不同业务主题相关度的次高值的λ倍,λ>1。
3.根据权利要求2所述的行业自适应的智能搜索方法,其特征在于:λ≥1.3。
4.根据权利要求1所述的行业自适应的智能搜索方法,其特征在于:步骤S04中,依据业务主题的层级不同,本级主题的训练样本加上本级主题下所有子主题的所有训练样本作为本级主题的综合训练样本。
5.根据权利要求1所述的行业自适应的智能搜索方法,其特征在于:步骤S05中,计算业务主题知识分布的过程为:遍历业务词集合和通用词集合,统计每个词语在每个主题训练样本中出现的次数
Figure FDA0002434468780000011
然后统计每个词语在多少个主题中出现过,记作
Figure FDA0002434468780000012
并计算每个主题的长度
Figure FDA0002434468780000013
Figure FDA0002434468780000014
为当前主题下所有训练样本词语的个数和除以训练样本个数,最后计算主题相对长度
Figure FDA0002434468780000015
公式为:
Figure FDA0002434468780000021
至此完成业务主题的知识分布。
6.根据权利要求5所述的行业自适应的智能搜索方法,其特征在于:步骤S05或者S08中,计算业务主题层级划分训练集合或者搜索信息中词语与业务主题相关度的公式为:
Figure FDA0002434468780000022
Figure FDA0002434468780000023
其中Gain(wordi)表示词语增益权重,w表示权重,w>1,BW表示业务词集合,GW代表通用词集合,SW代表停用词集合,α表示调节主题相对长度对相关度影响的参数,α越高主题相对长度对相关度的影响越低,反之亦然,N表示训练集合的文档总数。
7.根据权利要求6所述的行业自适应的智能搜索方法,其特征在于:步骤S08中,搜索信息与业务主题的几何相似度Geo(query,topicj)的计算公式为:
Figure FDA0002434468780000024
Lquery为搜索信息的问题长度,搜索信息与业务主题的相似度sim(query,topicj)的计算公式为:
Figure FDA0002434468780000025
Corr(wordi,topicj)表示搜索信息中词语与业务主题的相关度,β表示调节几何相似度、词语相关度对相似度影响的参数,β越高几何相似度对最终结果的影响越高,反之亦然。
8.根据权利要求7所述的行业自适应的智能搜索方法,其特征在于:α=0.5,β=0.2。
9.根据权利要求7所述的行业自适应的智能搜索方法,其特征在于:搜索信息与业务主题的相关度的计算方法为:遍历搜索信息中所有的实体信息词语,计算每个实体信息词语与业务主题的相关度并累加和作为搜索信息与业务主题的相关度。
10.根据权利要求1所述的行业自适应的智能搜索方法,其特征在于:词语的统计特征包括词语的词频和逆文档频率,计算每个词语的TF-IDF数值并取均值作为平均贡献度,如果某个词语的贡献度高于平均贡献度,则词语隶属于业务词集合,反之则隶属于通用词集合。
CN202010249110.7A 2020-04-01 2020-04-01 行业自适应的智能搜索方法 Active CN111460104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249110.7A CN111460104B (zh) 2020-04-01 2020-04-01 行业自适应的智能搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249110.7A CN111460104B (zh) 2020-04-01 2020-04-01 行业自适应的智能搜索方法

Publications (2)

Publication Number Publication Date
CN111460104A true CN111460104A (zh) 2020-07-28
CN111460104B CN111460104B (zh) 2023-09-22

Family

ID=71681158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249110.7A Active CN111460104B (zh) 2020-04-01 2020-04-01 行业自适应的智能搜索方法

Country Status (1)

Country Link
CN (1) CN111460104B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779433A (zh) * 2021-08-16 2021-12-10 深圳市世强元件网络有限公司 一种搜索结果多样化均衡化搜索方法及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296776A1 (en) * 2011-05-20 2012-11-22 Microsoft Corporation Adaptive interactive search
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN105740460A (zh) * 2016-02-24 2016-07-06 中国科学技术信息研究所 网页搜集推荐方法和装置
CN108763293A (zh) * 2018-04-17 2018-11-06 平安科技(深圳)有限公司 基于语义理解的兴趣点查询方法、装置和计算机设备
CN110704602A (zh) * 2019-10-12 2020-01-17 苏州思必驰信息科技有限公司 人机对话系统优化方法及人机对话系统
CN110852094A (zh) * 2018-08-01 2020-02-28 北京京东尚科信息技术有限公司 检索目标的方法、装置及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296776A1 (en) * 2011-05-20 2012-11-22 Microsoft Corporation Adaptive interactive search
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN105740460A (zh) * 2016-02-24 2016-07-06 中国科学技术信息研究所 网页搜集推荐方法和装置
CN108763293A (zh) * 2018-04-17 2018-11-06 平安科技(深圳)有限公司 基于语义理解的兴趣点查询方法、装置和计算机设备
CN110852094A (zh) * 2018-08-01 2020-02-28 北京京东尚科信息技术有限公司 检索目标的方法、装置及计算机可读存储介质
CN110704602A (zh) * 2019-10-12 2020-01-17 苏州思必驰信息科技有限公司 人机对话系统优化方法及人机对话系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
冯凯: "基于问题模式分类的自动问答技术研究与应用", 信息科技辑 *
张长: "金融知识自动问答中的新词发现及答案排序方法" *
李广丽;: "基于网页内容评价和Web图的启发式垂直搜索策略的设计", no. 09 *
李超;: "一种基于主题和分众分类的信息检索优化方法", no. 10 *
沈琳: "基于微博文本的话题聚类研究与实现", 信息科技辑 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779433A (zh) * 2021-08-16 2021-12-10 深圳市世强元件网络有限公司 一种搜索结果多样化均衡化搜索方法及计算机设备

Also Published As

Publication number Publication date
CN111460104B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
US20190065576A1 (en) Single-entity-single-relation question answering systems, and methods
CN106991161B (zh) 一种自动生成开放式问题答案的方法
US20090125549A1 (en) Method and system for calculating competitiveness metric between objects
US10387805B2 (en) System and method for ranking news feeds
CN108280114A (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
Zhang et al. Research on the Majority Decision Algorithm based on WeChat sentiment classification
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN114997288A (zh) 一种设计资源关联方法
Zhu Topic recommendation system using personalized fuzzy logic interest set
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Gündoğan et al. Deep learning for journal recommendation system of research papers
CN111460104B (zh) 行业自适应的智能搜索方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN104572628B (zh) 一种基于句法特征的学术定义自动抽取系统及方法
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN110347824B (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
CN112214575A (zh) 面向不同社交媒体平台用户活动领域类别划分方法
Wang et al. Topic mining of Chinese scientific literature research about “The belt and road initiative” based on LDA model from the Sub Disciplinary Perspective
CN117708308B (zh) 一种基于rag自然语言智能知识库管理的方法和系统
CN117725229B (zh) 一种知识组织体系辅助更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant