CN116756347A - 一种基于大数据的语义信息检索方法 - Google Patents

一种基于大数据的语义信息检索方法 Download PDF

Info

Publication number
CN116756347A
CN116756347A CN202311053567.0A CN202311053567A CN116756347A CN 116756347 A CN116756347 A CN 116756347A CN 202311053567 A CN202311053567 A CN 202311053567A CN 116756347 A CN116756347 A CN 116756347A
Authority
CN
China
Prior art keywords
data
semantic
subject
retrieval
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311053567.0A
Other languages
English (en)
Other versions
CN116756347B (zh
Inventor
王静雅
于钢
孙宇宁
卢丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202311053567.0A priority Critical patent/CN116756347B/zh
Publication of CN116756347A publication Critical patent/CN116756347A/zh
Application granted granted Critical
Publication of CN116756347B publication Critical patent/CN116756347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于大数据的语义信息检索方法,包括获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧,根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析,计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果。该方法不仅可以提高语义信息检索的精度,同时具有较好的可解释性,可以直接应用于基于大数据的语义信息检索系统中。

Description

一种基于大数据的语义信息检索方法
技术领域
本发明涉及大数据领域,尤其涉及一种基于大数据的语义信息检索方法。
背景技术
大数据技术在语义信息检索领域的应用越来越广泛,可以帮助语义信息检索管理系统的管理者及时、高效地获取语义信息检索,实现语义信息检索管理的调整。目前,语义信息检索具有用户信息量庞大、数据种类多样、信息密度大等特点,语义信息检索方法存在较多的不确定因素,导致语义信息检索方法存在较大的不确定性。虽然已经发明了一些基于大数据的语义信息检索方法,但是仍不能有效解决语义信息检索方法的不确定问题。
发明内容
本发明的目的是要提供一种基于大数据的语义信息检索方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:
A获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧;
B根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析;
C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法,所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配,将所述初始匹配输入第二语义匹配算法获得检索信息;
D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果。
进一步的,在步骤A中所述预处理的方法,包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。
进一步的,提取预处理后的所述历史检索数据主题的方法,包括:
去除预处理后的所述历史检索数据中的副词、组词和形容词,保留名词构成名词词典:
其中名词词典为A,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将词汇与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:
其中稀疏矩阵为B,基矩阵为C,系数矩阵为D,列数为r;基矩阵是主题的集合,系数矩阵是匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:
其中迭代次数为t,任意小实数为;形成稳定的基矩阵、系数矩阵,输出主题词作为提取结果。
进一步的,对所述主题进行词义消歧的方法,包括:
对词典中每个义类中的所有词,收集包含词的上下文的主题作为训练集;对主题进行统计,找出能够有效标示每个义类的主题词,并计算主题词的权重:
其中主题词i的权重为,主题词i出现在训练集中的概率为/>,主题词i出现在义类T中的概率为/>
使用词向量模型获取词义相似度,根据主题词的权重对词义相似度的进行加权计算,将加权值最高的词义作为消歧结果。
进一步的,根据所述主题的计算相似度的方法,包括:
其中检索数据的第i个主题为,资料库资料的第j个主题为/>,主题/>与主题/>的相似度为/>
进一步的,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法,包括:
将资料库资料的资料作为节点,历史检索数据和资料库资料属性的关联度视为边,构造特征图表示,隐藏属性激活映射单元捕捉隐藏属性响应矩阵,将隐藏属性响应向量根据余弦相似度法修正主题的相似度,将隐藏属性响应向量和修正的相似度输入语义关联模型,获取主题之间的语义关联程度,将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联,计算所述隐藏属性响应向量:
其中样本第q帧的特征图表示为,样本第q帧的隐藏属性激活图为/>,帧数为N。
进一步的,计算所述语义相似度的公式为:
其中关联分析后的第i个资料库资料的语言表征向量为,语言表征的系数为a,主题表征的系数为b,第i个历史检索数据的语言表征向量为/>,关联分析后的第i个资料库资料的主题表征向量为/>,第i个历史检索数据的主题表征向量为/>,资料库资料的个数为n。
进一步的,所述语义匹配模型基于深度神经网络构建,将所述历史检索数据按照4:1随机划分成训练集和测试集,将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练,不断迭代直到遍历完所有的语义关联分析后的资料库资料,输出语义相似度最小的数据库资料作为检索信息输出,将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。
进一步的,所述第一语义匹配算法获取初始匹配的方法,包括:
从词粒度对所述历史检索数据和所述资料库资料的句子进行编码,捕捉词语在历史检索数据和资料库资料中隐藏的语义信息;描述了全局-局部交叉融合层,进行句间词语交互,从全局和局部的交叉特征中,提取不同语义空间内词语的依赖关系;使用池化提取句子的全局信息和关键信息,预测历史检索数据和资料库资料主题的初始匹配分数:
其中检索数据的第a段句子为,资料库资料的第a段句子为/>,数据进行词向量表征的函数为/>,计算两个数据匹配分数值的匹配方法为/>
并对初始匹配分数从大到小排序,将初始匹配分数对应的资料库资料输出匹配。
进一步的,将所述初始匹配输入第二语义匹配算法获得检索信息的方法,包括:
将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化,根据词频关系将向量化的初始匹配加权得到主题向量:
其中主题词的词向量为/>,主题数为t,主题词/>的权重为/>,权重为主题词的频次与该主题下所有主题词的总频次比;通过余弦相似度计算初始匹配的相似程度:
其中初始匹配的资料库资料主题向量化后为/>,若资料库资料对于任意主题的相似程度大于等于阈值,则此资料库资料与主题匹配,反之则不匹配,输出匹配的资料库资料为检索信息。
本发明的有益效果是:
本发明是一种基于大数据的语义信息检索方法,与现有技术相比,本发明具有以下技术效果:
本发明通过预处理、提取主题、词义消歧、计算相似度、关联分析和检索匹配步骤,可以提高语义信息检索的准确性,从而提高语义信息检索的精度,将语义信息检索量化,可以大大节省资源和人力成本,提高工作效率,可以实现基于大数据的语义信息检索,实时对基于大数据的语义信息检索进行语义信息检索改进,对基于大数据的语义信息检索具有重要意义,可以适应不同基于大数据的语义信息检索管理系统、不同用户的基于大数据的语义信息检索系统的语义信息检索需求,具有一定的普适性。
附图说明
图1为本发明一种基于大数据的语义信息检索方法的步骤流程图。
具体实施方式
下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明基于大数据的语义信息检索方法包括以下步骤:
如图1所示,在本实施例中,包括以下步骤:
A获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧;
B根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析;
C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法,所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配,将所述初始匹配输入第二语义匹配算法获得检索信息;
D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果;
在实际评估中,检索信息为“隐性知识与显性知识”,资料库资料为《基于知识管理的隐性知识显性化研究》包括“存在着重显性知识轻隐性知识的研究倾向。这与隐性知识在知识管理中的关键作用是极不相称的。既然隐性知识对于组织核心竞争力起关键作用”、《知识管理与图书馆可持续发展》包括“增加他们相互学习、交流的机会,以提高他们的业务素质和专业技能,使其隐性知识才能得到更好地发挥和利用”、《利用信息技术整合企业培训资源的路径选择》包括“企业知识共享网络系统是为适应培训管理及其它管理的需求,有效弥补知识管理中存在的知识缺口而构建的网络平台”为例。
在本实施例中,在步骤A中所述预处理的方法,包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。
在实际评估中,预处理后的检索信息为“隐性知识/显性知识”,预处理后的《基于知识管理的隐性知识显性化研究》为“知识/管理/隐性/显性化/研究”、“显性知识/隐性知识/研究倾向/知识管理/关键作用/组织核心/竞争力/关键作用”,预处理后的《知识管理与图书馆可持续发展》为“知识/管理/图书馆/可持续/发展”、“他们/学习/交流/机会/他们/业务素质/专业技能/隐性知识/发挥/利用”,预处理后的《利用信息技术整合企业培训资源的路径选择》为“信息技术/企业/培训/资源/路径/选择”、“企业知识/共享网络系统/适应/培训管理/管理/需求//弥补/知识/知识缺口/构建/网络平台”。
在本实施例中,提取预处理后的所述历史检索数据主题的方法,包括:
去除预处理后的所述历史检索数据中的副词、组词和形容词,保留名词构成名词词典:
其中名词词典为A,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将词汇与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:
其中稀疏矩阵为B,基矩阵为C,系数矩阵为D,列数为r;基矩阵是主题的集合,系数矩阵是匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:
其中迭代次数为t,任意小实数为;形成稳定的基矩阵、系数矩阵,输出主题词作为提取结果;
在实际评估中,预处理后的检索信息为“隐性知识/显性知识”的主题词为隐性知识、显性知识,预处理后的《基于知识管理的隐性知识显性化研究》为“知识/管理/隐性/显性化/研究”包括“显性知识/隐性知识/研究倾向/知识管理/关键作用/组织核心/竞争力/关键作用”的主题词为隐性知识、显性化、知识管理,预处理后的《知识管理与图书馆可持续发展》为“知识/管理/图书馆/可持续/发展”包括“他们/学习/交流/机会/他们/业务素质/专业技能/隐性知识/发挥/利用”的主题词为隐性知识、可持续、知识管理,预处理后的《利用信息技术整合企业培训资源的路径选择》为“信息技术/企业/培训/资源/路径/选择”包括“企业知识/共享网络系统/适应/培训管理/管理/需求//弥补/知识/知识缺口/构建/网络平台”的主题词为信息技术、路径选择、培训管理。
在本实施例中,对所述主题进行词义消歧的方法,包括:
对词典中每个义类中的所有词,收集包含词的上下文的主题作为训练集;对主题进行统计,找出能够有效标示每个义类的主题词,并计算主题词的权重:
其中主题词i的权重为,主题词i出现在训练集中的概率为/>,主题词i出现在义类T中的概率为/>
使用词向量模型获取词义相似度,根据主题词的权重对词义相似度的进行加权计算,将加权值最高的词义作为消歧结果;
在实际评估中,主题词知识管理指如何有效地管理和利用组织内的隐性知识,以实现可持续发展,主题词可持续指可持续发展的概念,即在满足当前需求的同时,不损害未来世代满足其需求的能力,主题词路径选择指在信息技术领域中,选择合适的技术、方法或策略来实现特定目标的过程。
在本实施例中,根据所述主题的计算相似度的方法,包括:
其中检索数据的第i个主题为,资料库资料的第j个主题为/>,主题/>与主题/>的相似度为/>
在实际评估中,主题词隐性知识、显性化、知识管理与主题词隐性知识、显性知识的相似度分别为1、1、0.496,主题词隐性知识、可持续、知识管理与主题词隐性知识、显性知识的相似度分别为1、0.41、0.62,主题信息技术、路径选择、培训管理与主题词隐性知识、显性知识的相似度分别为0.53、0.45、0.34。
在本实施例中,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法,包括:
将资料库资料的资料作为节点,历史检索数据和资料库资料属性的关联度视为边,构造特征图表示,隐藏属性激活映射单元捕捉隐藏属性响应矩阵,将隐藏属性响应向量根据余弦相似度法修正主题的相似度,将隐藏属性响应向量和修正的相似度输入语义关联模型,获取主题之间的语义关联程度,将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联,计算所述隐藏属性响应向量:
其中样本第q帧的特征图表示为,样本第q帧的隐藏属性激活图为/>,帧数为N;
在实际评估中,主题词隐性知识、显性化、知识管理与主题词隐性知识、显性知识关联,主题词隐性知识、知识管理与主题词隐性知识、显性知识关联,主题信息技术、培训管理与主题词隐性知识、显性知识关联。
进一步的,计算所述语义相似度的公式为:
其中关联分析后的第i个资料库资料的语言表征向量为,语言表征的系数为a,主题表征的系数为b,第i个历史检索数据的语言表征向量为/>,关联分析后的第i个资料库资料的主题表征向量为/>,第i个历史检索数据的主题表征向量为/>,资料库资料的个数为n;
在实际评估中,检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的语义相似度分别为0.784、0.615、0.337,输出《基于知识管理的隐性知识显性化研究》为检索结果。
进一步的,所述语义匹配模型基于深度神经网络构建,将所述历史检索数据按照4:1随机划分成训练集和测试集,将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练,不断迭代直到遍历完所有的语义关联分析后的资料库资料,输出语义相似度最小的数据库资料作为检索信息输出,将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。
在本实施例中,所述第一语义匹配算法获取初始匹配的方法,包括:
从词粒度对所述历史检索数据和所述资料库资料的句子进行编码,捕捉词语在历史检索数据和资料库资料中隐藏的语义信息;描述了全局-局部交叉融合层,进行句间词语交互,从全局和局部的交叉特征中,提取不同语义空间内词语的依赖关系;使用池化提取句子的全局信息和关键信息,预测历史检索数据和资料库资料主题的初始匹配分数:
其中检索数据的第a段句子为,资料库资料的第a段句子为/>,数据进行词向量表征的函数为/>,计算两个数据匹配分数值的匹配方法为/>
并对初始匹配分数从大到小排序,将初始匹配分数对应的资料库资料输出匹配;
在实际评估中,检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的初始匹配分数分别为0.832、0.697、0.419。
进一步的,将所述初始匹配输入第二语义匹配算法获得检索信息的方法,包括:
将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化,根据词频关系将向量化的初始匹配加权得到主题向量:
其中主题词的词向量为/>,主题数为t,主题词/>的权重为/>,权重为主题词的频次与该主题下所有主题词的总频次比;通过余弦相似度计算初始匹配的相似程度:
其中初始匹配的资料库资料主题向量化后为/>,若资料库资料对于任意主题的相似程度大于等于阈值,则此资料库资料与主题匹配,反之则不匹配,输出匹配的资料库资料为检索信息;
在实际评估中,阈值设置为0.62,检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的相似程度分别为0.796、0.612、0.34,匹配为《基于知识管理的隐性知识显性化研究》。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的语义信息检索方法,其特征在于,包括以下步骤:
A获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧;
B根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析;
C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法,所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配,将所述初始匹配输入第二语义匹配算法获得检索信息;
D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果。
2.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,在步骤A中所述预处理的方法,包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。
3.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,提取预处理后的所述历史检索数据主题的方法,包括:
去除预处理后的所述历史检索数据中的副词、组词和形容词,保留名词构成名词词典:
其中名词词典为A,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将词汇与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:
其中稀疏矩阵为B,基矩阵为C,系数矩阵为D,列数为r;基矩阵是主题的集合,系数矩阵是匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:
其中迭代次数为t,任意小实数为;输出主题词作为提取结果。
4.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,对所述主题进行词义消歧的方法,包括:
对词典中每个义类中的所有词,收集包含词的上下文的主题作为训练集;对主题进行统计,找出能够有效标示每个义类的主题词,并计算主题词的权重:
其中主题词i的权重为,主题词i出现在训练集中的概率为/>,主题词i出现在义类T中的概率为/>
使用词向量模型获取词义相似度,根据主题词的权重对词义相似度的进行加权计算,将加权值最高的词义作为消歧结果。
5.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,根据所述主题的计算相似度的方法,包括:
其中检索数据的第i个主题为,资料库资料的第j个主题为/>,主题/>与主题/>的相似度为/>
6.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法,包括:
将资料库资料的主题作为节点,历史检索数据和资料库资料属性的关联度视为边,构造特征图表示,隐藏属性激活映射单元捕捉隐藏属性响应矩阵,将隐藏属性响应向量根据余弦相似度法修正主题的相似度,将隐藏属性响应向量和修正的相似度输入语义关联模型,获取主题之间的语义关联程度,将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联,计算所述隐藏属性响应向量:
其中样本第q帧的特征图表示为,样本第q帧的隐藏属性激活图为/>,帧数为N。
7.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,计算所述语义相似度的公式为:
其中关联分析后的第i个资料库资料的语言表征向量为,语言表征的系数为a,主题表征的系数为b,第i个历史检索数据的语言表征向量为/>,关联分析后的第i个资料库资料的主题表征向量为/>,第i个历史检索数据的主题表征向量为/>,资料库资料的个数为n。
8.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,所述语义匹配模型基于深度神经网络构建,将所述历史检索数据按照4:1随机划分成训练集和测试集,将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练,不断迭代直到遍历完所有的语义关联分析后的资料库资料,输出语义相似度最小的数据库资料作为检索信息输出,将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。
9.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,所述第一语义匹配算法获取初始匹配的方法,包括:
从词粒度对所述历史检索数据和所述资料库资料的句子进行编码,捕捉词语在历史检索数据和资料库资料中隐藏的语义信息;描述了全局-局部交叉融合层,进行句间词语交互,从全局和局部的交叉特征中,提取不同语义空间内词语的依赖关系;使用池化层提取句子的全局信息和关键信息,预测历史检索数据和资料库资料主题的初始匹配分数:
其中检索数据的第a段句子的主题为,资料库资料的第a段句子的主题为/>,数据进行词向量表征的函数为/>,计算两个数据匹配分数值的匹配方法为/>
并对初始匹配分数从大到小排序,将排序对应的资料库资料输出初始匹配。
10.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,将所述初始匹配输入第二语义匹配算法获得检索信息的方法,包括:
将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化,根据词频关系将向量化的初始匹配加权得到主题向量:
其中主题词的词向量为/>,主题数为t,主题词/>的权重为/>,权重为主题词的频次与该主题下所有主题词的总频次比;通过余弦相似度计算初始匹配的相似程度:
其中初始匹配的资料库资料主题向量化后为/>,若资料库资料对于任意主题的相似程度大于等于阈值,则此资料库资料与主题匹配,反之则不匹配,输出匹配的资料库资料为检索信息。
CN202311053567.0A 2023-08-21 2023-08-21 一种基于大数据的语义信息检索方法 Active CN116756347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311053567.0A CN116756347B (zh) 2023-08-21 2023-08-21 一种基于大数据的语义信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311053567.0A CN116756347B (zh) 2023-08-21 2023-08-21 一种基于大数据的语义信息检索方法

Publications (2)

Publication Number Publication Date
CN116756347A true CN116756347A (zh) 2023-09-15
CN116756347B CN116756347B (zh) 2023-10-27

Family

ID=87953753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311053567.0A Active CN116756347B (zh) 2023-08-21 2023-08-21 一种基于大数据的语义信息检索方法

Country Status (1)

Country Link
CN (1) CN116756347B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
US20170308531A1 (en) * 2015-01-14 2017-10-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method, system and storage medium for implementing intelligent question answering
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN114218400A (zh) * 2021-12-13 2022-03-22 上海交通大学 基于语义的数据湖查询系统及方法
CN116541480A (zh) * 2023-07-05 2023-08-04 中国科学院文献情报中心 一种基于多标签驱动的专题数据构建方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
US20170308531A1 (en) * 2015-01-14 2017-10-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method, system and storage medium for implementing intelligent question answering
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN114218400A (zh) * 2021-12-13 2022-03-22 上海交通大学 基于语义的数据湖查询系统及方法
CN116541480A (zh) * 2023-07-05 2023-08-04 中国科学院文献情报中心 一种基于多标签驱动的专题数据构建方法及系统

Also Published As

Publication number Publication date
CN116756347B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN110162630A (zh) 一种文本去重的方法、装置及设备
CN111325029A (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN111930931A (zh) 一种摘要评价方法及装置
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN111581379B (zh) 一种基于作文扣题度的自动作文评分计算方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
CN112580348A (zh) 政策文本关联性分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant