CN116756346A - 一种信息检索方法及装置 - Google Patents

一种信息检索方法及装置 Download PDF

Info

Publication number
CN116756346A
CN116756346A CN202311034826.5A CN202311034826A CN116756346A CN 116756346 A CN116756346 A CN 116756346A CN 202311034826 A CN202311034826 A CN 202311034826A CN 116756346 A CN116756346 A CN 116756346A
Authority
CN
China
Prior art keywords
similarity
data
retrieval
matrix
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311034826.5A
Other languages
English (en)
Inventor
于钢
王静雅
孙宇宁
卢丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202311034826.5A priority Critical patent/CN116756346A/zh
Publication of CN116756346A publication Critical patent/CN116756346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息检索方法及装置,包括获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词主题,计算第一相似度和第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据,根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。该方法不仅可以提高信息检索的精度,同时具有较好的可解释性,可以直接应用于信息检索系统中。

Description

一种信息检索方法及装置
技术领域
本发明涉及信息检索领域,尤其涉及一种信息检索方法及装置。
背景技术
特征提取技术在信息检索领域的应用越来越广泛,可以帮助信息检索的管理者及时、高效地检索信息,实现信息的检索。目前,信息检索具有文本信息量庞大、数据种类多样、信息密度大等特点,信息提取和检索方法存在较多的不确定因素,导致信息检索方法存在较大的不确定性。虽然已经发明了一些信息检索方法和装置,但是仍不能有效解决信息检索方法的不确定问题。
发明内容
本发明的目的是要提供一种信息检索方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:
A获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;
B根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;
C根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
进一步的,步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注。
进一步的,提取预处理后的所述历史检索数据的关键词的方法,包括:
将预处理后的所述历史检索数据中的句子作为节点,如果两个句子有相似性,则两个句子对应的节点之间存在无向有权边,计算句子之间相似性:
其中句子i为,句子j为/>,句子中的词为/>;根据权边构建词图,采用共现关系构造任意两个节点之间的边,迭代计算各节点的权重:
其中节点c句子i的权重为,阻尼系数为d,窗口的大小为k,节点集合为c,节点i和节点j的边缘连接的重要程度为/>
直到收敛,对节点的权重进行倒序排序,从中得到最重要的词,作为候选关键词,在所述历史检索数据和所述资料库资料中将候选关键词标记,若它们之间形成相邻词组则作为关键词输出。
进一步的,根据所述关键词提取主题的方法,包括:
对所述关键词进行去重,构建名词词典,将所述资料库资料的词汇与名词词典进行匹配,构造稀疏矩阵,利用矩阵相乘的原则将系数矩阵分解为主题矩阵和词汇矩阵,利用迭代公式进行多次迭代,迭代公式为:
其中i行k列主题矩阵为,k行j列词汇矩阵为/>,i行k列稀疏矩阵为/>,词汇矩阵的转置矩阵为/>,主题矩阵的转置矩阵为/>,主题矩阵R中的每一列为一个主题,词汇矩阵D中的每一行与之对应的主题词;
确定最佳主题数,当子矩阵收敛后形成稳定的子矩阵,主题矩阵为主题,词汇矩阵是与该主题对应的主题词。
进一步的,所述第一相似度的计算公式为:
其中历史检索数据的关键词为a,资料库资料的关键词为b,历史检索数据关键词a集合为A,资料库资料关键词b集合为B,在集合B中但不在集合A中的关键词集合为B\A,在集合A中但不在集合B中的关键词集合为A\B。
进一步的,所述第二相似度的计算公式为:
其中主题m为,主题e为/>,词i的权重为/>,词有n个。
进一步的,所述第一相似度和所述第二相似度加权得出综合相似度的方法,包括:
计算所述第一相似度和所述第二相似度的信息熵:
其中相似度为s,每一个相似度出现的概率为,第i个相似度为/>,相似度有k个,计算条件熵:
其中相似度的种类为e,计算总的信息增益:
熵越大表示相似性越不稳定,根据总的信息增益比值的相反数确定权重;
计算综合相似度:
其综合相似度为,第一相似度的权重为/>,第二相似度的权重为/>,关键词x的相似度为/>,主题y的相似度为/>
进一步的,根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法,包括:
将所述资料库资料的关键词和主题输入,随机选取所述资料库资料的关键词和主图作为聚类中心,计算聚类中心与其它关键词主题的相似度,将相似度高的关键词和主题与聚类中心关联起来,与相同聚类中心关联的所有关键词主题聚成一类,计算形成的类的相似度平均值,将该组的聚类中心点移动到品均值对应的关键词主题上,重复上述步骤直到聚类中心不再变化,输出分类数据。
进一步的,所述检索匹配模型基于循环神经网络构成,将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集,将所述训练集和所述资料库资料输入检索匹配模型进行训练,将测试集和资料库资料输入训练好的所述检索匹配模型,直到相似度高于0.83停止训练。
第二方面,一种信息检索装置,包括:
提取模块:用于获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;
分析模块:用于根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;
检索模块:用于根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
本发明的有益效果是:
本发明是一种信息检索方法,与现有技术相比,本发明具有以下技术效果:
本发明通过预处理、提取关键词、提取主题、聚类和匹配步骤,可以提高信息检索的准确性,从而提高信息检索的精度,将信息检索智能化,可以大大节省资源和人力成本,提高工作效率,可以实现对信息的自动提取,实时对待处理文本进行关键词和主题提取,对信息检索具有重要意义,可以适应不同标准的信息检索、不同用户的信息检索需求,具有一定的普适性。
附图说明
图1为本发明一种信息检索方法的步骤流程图。
具体实施方式
下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明基于信息检索方法包括以下步骤:
如图1所示,在本实施例中,包括以下步骤:
A获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;
B根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;
C根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出;
在实际评估中,检索数据为“个性化推荐”,资料库资料为“个性化推荐总结”、“个性化推荐的6种方法”、“个性化推荐系统概述”、“个性化系统实践应用”、“系统总结个性化推荐系统”为例。
在本实施例中,步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注;
在实际评估中,检索数据“个性化/推荐”,资料库资料“个性化/推荐算法./总结”、“个性化/推荐/6种方法”、“个性化/推荐系统/概述”、“个性化/系统实践/应用”、“系统/总结/个性化/推荐系统”。
在本实施例中,提取预处理后的所述历史检索数据的关键词的方法,包括:
将预处理后的所述历史检索数据中的句子作为节点,如果两个句子有相似性,则两个句子对应的节点之间存在无向有权边,计算句子之间相似性:
其中句子i为,句子j为/>,句子中的词为/>;根据权边构建词图,采用共现关系构造任意两个节点之间的边,迭代计算各节点的权重:
其中节点c句子i的权重为,阻尼系数为d,窗口的大小为k,节点集合为c,节点i和节点j的边缘连接的重要程度为/>
直到收敛,对节点的权重进行倒序排序,从中得到最重要的词,作为候选关键词,在所述历史检索数据和所述资料库资料中将候选关键词标记,若它们之间形成相邻词组则作为关键词输出;
在实际评估中,检索数据“个性化/推荐”的关键词为个性化、推荐,资料库资料“个性化/推荐算法./总结”的关键词为个性化、推荐算法,“个性化/推荐/6种方法”的关键词为个性化、推荐方法,“个性化/推荐系统/概述”的关键词为个性化、推荐系统、概述,“个性化系统/实践/应用”的关键词为个性化系统、实践、应用,“系统/总结/个性化/推荐系统”的关键词为总结、个性化、推荐系统。
在本实施例中,根据所述关键词提取主题的方法,包括:
对所述关键词进行去重,构建名词词典,将所述资料库资料的词汇与名词词典进行匹配,构造稀疏矩阵,利用矩阵相乘的原则将系数矩阵分解为主题矩阵和词汇矩阵,利用迭代公式进行多次迭代,迭代公式为:
其中i行k列主题矩阵为,k行j列词汇矩阵为/>,i行k列稀疏矩阵为/>,词汇矩阵的转置矩阵为/>,主题矩阵的转置矩阵为/>,主题矩阵R中的每一列为一个主题,词汇矩阵D中的每一行与之对应的主题词;
确定最佳主题数,当子矩阵收敛后形成稳定的子矩阵,主题矩阵为主题,词汇矩阵是与该主题对应的主题词;
在实际评估中,检索数据“个性化/推荐”的主题为个性化推荐,资料库资料“个性化/推荐算法./总结”的主题为、“个性化/推荐/6种方法”的主题为个性化推荐方法、“个性化/推荐系统/概述”的主题为个性化推荐系统、“个性化/系统/实践/应用”的主题为个性化系统实践、“系统/总结/个性化/推荐系统”的主题为个性化推荐系统总结。
在本实施例中,所述第一相似度的计算公式为:
其中历史检索数据的关键词为a,资料库资料的关键词为b,历史检索数据关键词a集合为A,资料库资料关键词b集合为B,在集合B中但不在集合A中的关键词集合为B\A,在集合A中但不在集合B中的关键词集合为A\B;
在实际评估中,检索数据“个性化/推荐”关键词与资料库资料“个性化/推荐算法./总结”、“个性化/推荐/6种方法”、“个性化/推荐系统/概述”、“个性化/系统实践/应用”、“系统/总结/个性化/推荐系统”关键词的第一相似度分别为0.872、0.357、0.731、0.425、0.399。
在本实施例中,所述第二相似度的计算公式为:
其中主题m为,主题e为/>,词i的权重为/>,词有n个;
在实际评估中,在实际评估中,检索数据“个性化/推荐”主题与资料库资料“个性化/推荐算法./总结”、“个性化/推荐/6种方法”、“个性化/推荐系统/概述”、“个性化/系统实践/应用”、“系统/总结/个性化/推荐系统”主题的第二相似度分别为0.854、0.381、0.759、0.431、0.371。
在本实施例中,所述第一相似度和所述第二相似度加权得出综合相似度的方法,包括:
计算所述第一相似度和所述第二相似度的信息熵:
X
其中相似度为s,每一个相似度出现的概率为,第i个相似度为/>,相似度有k个,计算条件熵:
其中相似度的种类为e,计算总的信息增益:
熵越大表示相似性越不稳定,根据总的信息增益比值的相反数确定权重;
计算综合相似度:
其综合相似度为,第一相似度的权重为/>,第二相似度的权重为/>,关键词x的相似度为/>,主题y的相似度为/>
在实际评估中,第一相似度的权重为0.43,第二相似度的权重为0.57;“个性化推荐总结”、“个性化推荐的6种方法”、“个性化推荐系统概述”、“个性化系统实践应用”、“系统总结个性化推荐系统”的综合相似度分别为0.8618、0.3707、0.747、0.4284、0.383。
在本实施例中,根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法,包括:
将所述资料库资料的关键词和主题输入,随机选取所述资料库资料的关键词和主图作为聚类中心,计算聚类中心与其它关键词主题的相似度,将相似度高的关键词和主题与聚类中心关联起来,与相同聚类中心关联的所有关键词主题聚成一类,计算形成的类的相似度平均值,将该组的聚类中心点移动到品均值对应的关键词主题上,重复上述步骤直到聚类中心不再变化,输出分类数据;
在实际评估中,资料库资料“个性化/推荐算法/总结”、“个性化/推荐/6种方法”归为方法类,“个性化/推荐系统/概述”、“系统/总结/个性化/推荐系统”归为系统类,“个性化/系统实践/应用”归为实践类。
在本实施例中,所述检索匹配模型基于循环神经网络构成,将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集,将所述训练集和所述资料库资料输入检索匹配模型进行训练,将测试集和资料库资料输入训练好的所述检索匹配模型,直到相似度高于0.83停止训练。
在实际评估中,最终筛选出的检索信息为“个性化推荐总结”和“个性化推荐系统概述”。
第二方面,一种信息检索装置,包括:
提取模块:用于获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;
分析模块:用于根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;
检索模块:用于根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种信息检索方法,其特征在于,包括以下步骤:
A获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;
B根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;
C根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
2.根据权利要求1所述的一种信息检索方法,其特征在于,步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注。
3.根据权利要求1所述的一种信息检索方法,其特征在于,提取预处理后的所述历史检索数据的关键词的方法,包括:
将预处理后的所述历史检索数据中的句子作为节点,如果两个句子有相似性,则两个句子对应的节点之间存在无向有权边,计算句子之间相似性:
其中句子i为,句子j为/>,句子中的词为/>;根据权边构建词图,采用共现关系构造任意两个节点之间的边,迭代计算各节点的权重:
其中节点c句子i的权重为,阻尼系数为d,窗口的大小为k,节点集合为c,节点i和节点j的边缘连接的重要程度为/>
直到收敛,对节点的权重进行倒序排序,从中得到最重要的词,作为候选关键词,在所述历史检索数据和所述资料库资料中将候选关键词标记,若它们之间形成相邻词组则作为关键词输出。
4.根据权利要求1所述的一种信息检索方法,其特征在于,根据所述关键词提取主题的方法,包括:
对所述关键词进行去重,构建名词词典,将所述资料库资料的词汇与名词词典进行匹配,构造稀疏矩阵,利用矩阵相乘的原则将系数矩阵分解为主题矩阵和词汇矩阵,利用迭代公式进行多次迭代,迭代公式为:
其中i行k列主题矩阵为,k行j列词汇矩阵为/>,i行k列稀疏矩阵为/>,词汇矩阵的转置矩阵为/>,主题矩阵的转置矩阵为/>,主题矩阵R中的每一列为一个主题,词汇矩阵D中的每一行与之对应的主题词;
确定最佳主题数,当子矩阵收敛后形成稳定的子矩阵,主题矩阵为主题,词汇矩阵是与该主题对应的主题词。
5.根据权利要求1所述的一种信息检索方法,其特征在于,所述第一相似度的计算公式为:
其中历史检索数据的关键词为a,资料库资料的关键词为b,历史检索数据关键词a集合为A,资料库资料关键词b集合为B,在集合B中但不在集合A中的关键词集合为B\A,在集合A中但不在集合B中的关键词集合为A\B。
6.根据权利要求1所述的一种信息检索方法,其特征在于,所述第二相似度的计算公式为:
其中主题m为,主题e为/>,词i的权重为/>,词有n个。
7.根据权利要求1所述的一种信息检索方法,其特征在于,所述第一相似度和所述第二相似度加权得出综合相似度的方法,包括:
计算所述第一相似度和所述第二相似度的信息熵:
其中相似度为s,每一个相似度出现的概率为,第i个相似度为/>,相似度有k个,计算条件熵:
其中相似度的种类为e,计算总的信息增益:
熵越大表示相似性越不稳定,根据总的信息增益比值的相反数确定权重;
计算综合相似度:
其综合相似度为,第一相似度的权重为/>,第二相似度的权重为/>,关键词x的相似度为/>,主题y的相似度为/>
8.根据权利要求1所述的一种信息检索方法,其特征在于,根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法,包括:
将所述资料库资料的关键词和主题输入,随机选取所述资料库资料的关键词和主题作为聚类中心,计算聚类中心与其它关键词主题的综合相似度,将综合相似度高的关键词和主题与聚类中心关联起来,与相同聚类中心关联的所有关键词主题聚成一类,计算形成的类的综合相似度平均值,将该组的聚类中心点移动到品均值对应的关键词主题上,重复上述步骤直到聚类中心不再变化,输出分类数据。
9.根据权利要求1所述的一种信息检索方法,其特征在于,所述检索匹配模型基于循环神经网络构成,将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集,将所述训练集和资料库资料输入检索匹配模型进行训练,将测试集和资料库资料输入训练好的所述检索匹配模型,直到相似度高于0.83停止训练。
10.一种信息检索装置,其特征在于,包括:
提取模块:用于获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;
分析模块:用于根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;
检索模块:用于根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
CN202311034826.5A 2023-08-17 2023-08-17 一种信息检索方法及装置 Pending CN116756346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311034826.5A CN116756346A (zh) 2023-08-17 2023-08-17 一种信息检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311034826.5A CN116756346A (zh) 2023-08-17 2023-08-17 一种信息检索方法及装置

Publications (1)

Publication Number Publication Date
CN116756346A true CN116756346A (zh) 2023-09-15

Family

ID=87950028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311034826.5A Pending CN116756346A (zh) 2023-08-17 2023-08-17 一种信息检索方法及装置

Country Status (1)

Country Link
CN (1) CN116756346A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743606A (zh) * 2024-02-21 2024-03-22 天云融创数据科技(北京)有限公司 一种基于大数据的智能检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003603A (ja) * 2010-06-18 2012-01-05 Hitachi Systems & Services Ltd 情報検索システム
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN110096567A (zh) * 2019-03-14 2019-08-06 中国科学院自动化研究所 基于qa知识库推理的多轮对话回复选择方法、系统
CN112256730A (zh) * 2020-11-11 2021-01-22 腾讯科技(深圳)有限公司 信息检索方法、装置、电子设备及可读存储介质
CN115248839A (zh) * 2022-07-28 2022-10-28 中科极限元(杭州)智能科技股份有限公司 一种基于知识体系的长文本检索方法以及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003603A (ja) * 2010-06-18 2012-01-05 Hitachi Systems & Services Ltd 情報検索システム
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN110096567A (zh) * 2019-03-14 2019-08-06 中国科学院自动化研究所 基于qa知识库推理的多轮对话回复选择方法、系统
CN112256730A (zh) * 2020-11-11 2021-01-22 腾讯科技(深圳)有限公司 信息检索方法、装置、电子设备及可读存储介质
CN115248839A (zh) * 2022-07-28 2022-10-28 中科极限元(杭州)智能科技股份有限公司 一种基于知识体系的长文本检索方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743606A (zh) * 2024-02-21 2024-03-22 天云融创数据科技(北京)有限公司 一种基于大数据的智能检索方法及系统
CN117743606B (zh) * 2024-02-21 2024-04-30 天云融创数据科技(北京)有限公司 一种基于大数据的智能检索方法及系统

Similar Documents

Publication Publication Date Title
CN111274405B (zh) 一种基于gcn的文本分类方法
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN104281645B (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN106095928A (zh) 一种事件类型识别方法及装置
CN110795564B (zh) 一种缺少负例的文本分类方法
CN110807101A (zh) 一种科技文献大数据分类方法
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN111695358B (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
CN107895000A (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN101714135A (zh) 一种跨领域文本情感倾向性分析方法
CN110866102A (zh) 检索处理方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN112667806B (zh) 一种使用lda的文本分类筛选方法
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN108595411B (zh) 一种同主题文本集合中多文本摘要获取方法
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN116756346A (zh) 一种信息检索方法及装置
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230915

RJ01 Rejection of invention patent application after publication