CN113761890B - 一种基于bert上下文感知的多层级语义信息检索方法 - Google Patents
一种基于bert上下文感知的多层级语义信息检索方法 Download PDFInfo
- Publication number
- CN113761890B CN113761890B CN202110941330.0A CN202110941330A CN113761890B CN 113761890 B CN113761890 B CN 113761890B CN 202110941330 A CN202110941330 A CN 202110941330A CN 113761890 B CN113761890 B CN 113761890B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- bert
- level
- context
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 15
- 238000000926 separation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 230000001537 neural effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种基于BERT上下文感知的多层级语义信息检索方法,主要利用文本摘要提取技术获取文档段落级别信息,作为局部上下文信息拼接至文本段落,辅以全文主题提炼作为全局信息,从而构成了上下文感知的段落级别嵌入表示,并将其作为ad‑hoc检索任务的模型输入。采用本发明,与现有的语义信息检索方法相比,本方法更注重段落的上下文信息,本文通过MMR算法实现段落级别文本摘要提取作为局部上下文信息,相比于直接使用原文做上下文线索模型训练和预测效果显著提升,解决了处理长文档时间过长的问题,节省了计算时间,与现有的语义信息检索方法相比,解决了长文档在进行嵌入表示的局限性和处理长文档内存不足的问题,节省了计算资源。
Description
技术领域
本发明涉及一种检索方法,尤其涉及一种基于BERT上下文感知的多层级语义信息检索方法。
背景技术
相关性匹配(Relevance Matching)是信息检索(information retrieval, IR)领域中一个关键问题,它要求检索系统能够根据用户提出的特定查询需求返回一个按相关性从高到低排列的文档列表。
目前主流的搜索引擎如谷歌、百度等,通常采用基于机器学习的学习排序(Learning To Rank)模型,虽然相关性搜索的准确性相对于传统信息检索模型有所提升,但是人工设计的特征耗时耗力,且难以保证所选择特征的完整性。深度学习作为一种基于表示学习的方法,具有从大规模训练数据中发掘对预测任务有用的隐藏结构和特征的能力,因此,它可以较好的缓解基于机器学习的检索方法的局限性,如何利用深度学习提升信息检索中相关性计算的准确性已成为当下研究的热点问题。
近年来,基于预训练的语言模型在信息检索任务的应用取得了不错的成果。早期的神经排序模型使用诸如word2vec作为词的嵌入表示,然而词共现(word co-ocurrence)只是一个浅层的词袋模型,无法避免词项表示的歧义性。之后一些常见的语言模型,比如Transformer、LSTM被应用于提升信息检索任务性能,然而这些单向模型通常在预训练期间使用从左到右或从右到左的体系结构,每次词项在训练过程中的自注意力机制只会关注于其前面n个词项,直接导致了语言模型在学习词的嵌入表示时不能学到完整的上下文信息。
2018年底,Google提出了一种基于双向Transformer的预训练语言模型BERT,它通过遮蔽词语言模型(Masked Language Model)和下一句预测任务(next sentenceprediction)两种训练策略解决了单向训练带来的问题。BERT模型由于可以通过在大规模语料库中进行训练得到词通用的嵌入表示,且可以通过预训练(pre-training)和微调(fine-tuning)方式应用于下游任务,已成为信息检索任务中的基本构建块。
然而,将BERT应用于查询和长文档的匹配任务时存在以下限制:1)已有的相关性匹配模型往往是处理文档级别的相关性匹配任务,但文档的长度会超出BERT对于输入长度的限制;2)将BERT应用于长文档时,由于要计算每一对词项之间的交互,因此会导致内存使用和运行时间的巨大开销。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于BERT上下文感知的多层级语义信息检索方法。可解决上述存在的问题。
为了解决上述技术问题,本发明实施例提供了一种基于BERT上下文感知的多层级语义信息检索方法,包括以下步骤:
S1:将训练模型使用的文档分割成若干个独立段落、去除停用词、进行词干提取;
S2:通过TF-IDF权重机制来完成段落中词项的重要性评估、句子打分和句向量之间相似度计算;
S3:使用MMR算法提取摘要;
S4:将所述摘要和段落原文进行整合;
S5:按照BERT标准格式构建查询和段落的输入嵌入表示;
S6:使用BERT在大规模语料库中预训练好的通用词向量作为词的嵌入表示,将查询和新构建的段落作为BERT的输入序列,辅以分类符号和分隔符号进行拼接,作为BERT模型的输入;
S7:将查询和处理后的段落按照步骤S1-S6进行处理,并在句子对分类任务进行微调,将所述分类符号对应的输出向量将被用作是整个查询-段落对的表示,将其作为多层感知机的输入,从而预测查询和段落之间的相关性概率。
其中,所述步骤S3具体包括使用S2得到句子的TF-IDF得分作为句子相似度的衡量指标。
其中,所述步骤S4具体包括:对于段落i,其多层级上下文段落结构组成包括:标题、上文段落摘要、段落i的原始文本、下文段摘要。
其中,所述步骤S5还包括:将原始文本序列映射为低维的词向量表示,每个词的输入嵌入表示分别由其对应的词向量、片段嵌入和位置嵌入相加得到。
实施本发明实施例,具有如下有益效果:本发明通过文本摘要提取技术生成上下文相关的段落级别线索,为神经排序模型应用于查询-文档匹配任务提供了一种段落级别的解决方案,一方面解决了长文档作为模型输入时面临的最大序列长度限制另一方面解决了目前神经排序模型应用于长文档时出现的内存不足和运行时间过长的问题。
附图说明
图1是本发明的整体架构结构示意图;
图2为本发明进行文本预处理时的停用词表;
图3为本发明所述的段落摘要提取流程图;
图4为本发明所述的多层级上下文段落结构生成流程图;
图5为多层级上下文段落结构的组成示例;
图6为BERT模型的输入表示;
图7为查询文档相关性预测过程图;
图8是本发明所提出方法与其他模型在Robust04数据集上的对比。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明实施例的一种基于BERT上下文感知的多层级语义信息检索方法,其基本架构如图1所示,并通过以下步骤进行实施。
步骤一:
先将训练模型使用的文档分割成几个独立段落,去除停用词,进行词干提取(词干提取是去除词缀得到词根的过程,例如fishing,提取词干得到fish),常用的停用词如图2所示。
步骤二:
通过TF-IDF权重机制来完成段落中词项的重要性评估,句子打分和句向量之间相似度计算。
步骤三:
使用MMR算法提取摘要,使用步骤二计算得到句子的TF-IDF得分作为句子相似度的衡量指标。具体流程如图3所示。
步骤四:
将步骤三获取的摘要进行整合,图4展示了对于原始文本段落的处理过程,对于段落i其多层级上下文段落结构的组成包括以下几个部分:1)标题。文章标题通常被认为是对全文主旨的精炼表达,在查询-段落相关性匹配任务中可以作为全局信息(globalinformation)添加进来。2)上下文段落摘要。假设段落i不是文档的第一段也不是最后一段,即2≤i≤n-1,则将第i-1段和第i+1段提取出来的摘要作为上下文段落信息添加至段落i的原文前后,从而提供局部上下文线索(local contextual evidence);假设段落i是文档的第一段(i=1),则其上文信息为空;假设段落i是文档的最后一段(i=n-1),则其下文信息为空。3)段落i的原始文本。经过对以上几个部分的拼接所得到段落i的多层级上下文段落结构,多层级上下文段落结构的信息结构为[title]+ [Sumi-1]+ [pass] + [Sumi+1],段落i的多层级上下文段落结构的组成如图5所示。
步骤五:
参照BERT标准的格式来构建查询和段落的输入嵌入表示(input embedding)。首先将原始文本序列映射为低维的词向量表示,接着,每个词的输入嵌入表示分别由其对应的词向量(Token Embedding)、片段嵌入(Segment Embedding)和位置嵌入(PositionEmbedding)相加得到。具体嵌入表示的组成结构如图6所示。
通过步骤5将查询和段落输入矩阵化,然后之后通过模型计算得到查询和段落的相关性表示,也是将bert模型应用于查询-文档任务的标准化输入。
步骤六:
采用BERT在大规模语料库中预训练好的通用词向量作为词的嵌入表示,将查询Q和新构建的段落P作为BERT的输入序列,辅以两个特殊符号:分类符号[CLS]和分隔符号[SEP],拼接为“[CLS]Q [SEP] P [SEP]”格式,作为BERT模型的输入。分类符号[CLS]和分隔符号[SEP]是在构建BERT模型输入表示时用到的两种特殊符号,其中分类符号[CLS]主要有两个作用:一方面其对应的最终隐藏层状态可以作为整个输入序列的嵌入表示;另一方面也可以作为多层感知机MLP的输入,从而计算得到查询和文档的相关性。分隔符号[SEP]主要用于区分查询和段落部分。
步骤七:
将查询和处理后的段落按照步骤一至步骤六的方式处理,并在句子对分类任务(sentence pair classification)中进行微调(fine-tuning)。最终,分类符号[CLS]所对应的输出向量将被用作是整个查询-段落对的表示,将其作为多层感知机(Multi-LayerPerceptron,MLP)的输入,从而预测查询和段落之间的相关性概率。由于相关性匹配模型往往是处理文档级别的相关性匹配任务,因此,采用文档中段落最高得分作为文档的最终得分,查询文档相关性评估流程如图7所示。
本方法提出了一种多层级上下文信息结构,主要利用文本摘要提取技术获取文档段落级别信息,作为局部上下文信息拼接至文本段落,辅以全文主题提炼作为全局信息,从而构成了上下文感知的段落级别嵌入表示,并将其作为ad-hoc检索任务的模型输入,实验表明可以显著提升文档相关性排序的准确性。我们在两个ad-hoc检索标准数据集上验证本方法模型的效果,在Robust04新闻数据集上有2个评价指标一是nDCG指标(归一化折损累计增益),该标准主要是用来衡量和评价搜索结果算法,二是P指标(查准率),我们的方法在nDCG指标上比传统信息检索方法平均提升27%,比神经排序模型方法平均提升99%,比同样基于BERT的另2种模型方法平均提升3%;在P指标上比传统信息检索方法平均提升24%,比神经排序模型方法平均提升97%,比同样基于BERT的另2种模型方法平均提升3%,具体表现如图8中(a)所示,在ClueWeb09-B网页数据集上有2个评价一是MAP指标(Mean AveragePrecision),该指标主要用来衡量精确度的指标,二是nDCG指标,我们的方法在MAP指标上比传统信息检索方法平均提升88%,比神经排序模型方法平均提升211%,比同样基于BERT的另2种模型方法平均提升8%;在nDCG指标上比传统信息检索方法平均提升28%,比神经排序模型方法平均提升124%,比同样基于BERT的另2种模型方法平均提升5%;具体表现如图8中(b)所示。
本发明与现有的语义信息检索方法相比,本方法更注重段落的上下文信息,本文通过MMR算法实现段落级别文本摘要提取作为局部上下文信息,相比于直接使用原文做上下文线索模型训练和预测效果显著提升,解决了处理长文档时间过长的问题,节省了计算时间,与现有的语义信息检索方法相比,解决了长文档在进行嵌入表示的局限性和处理长文档内存不足的问题,节省了计算资源。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (3)
1.一种基于BERT上下文感知的多层级语义信息检索方法,其特征在于,包括以下步骤:
S1:将训练模型使用的文档分割成若干个独立段落、去除停用词、进行词干提取;
S2:通过TF-IDF权重机制来完成段落中词项的重要性评估、句子打分和句向量之间相似度计算;
S3:使用MMR算法提取摘要;
S4:将所述摘要和所述S1中划分的独立段落原文以多层级上下文段落结构的方式进行整合,第i个所述独立段落结构组成包括:标题、上文段落摘要、段落i的原始文本、下文段摘要;
S5:按照BERT标准格式构建查询和所述S4中整合得到段落的输入嵌入表示;
S6:使用BERT在大规模语料库中预训练好的通用词向量作为词的嵌入表示,将查询和新构建的段落作为BERT的输入序列,辅以分类符号和分隔符号进行拼接,作为BERT模型的输入;
S7:将查询和处理后的段落按照步骤S1-S6进行处理,并在句子对分类任务进行微调,将所述分类符号对应的输出向量用作是整个查询-段落对的表示,将其作为多层感知机的输入,从而预测查询和段落之间的相关性概率。
2.根据权利要求1所述的基于BERT上下文感知的多层级语义信息检索方法,其特征在于,所述步骤S3具体包括使用S2得到句子的TF-IDF得分作为句子相似度的衡量指标。
3.根据权利要求1或2所述的基于BERT上下文感知的多层级语义信息检索方法,其特征在于,所述步骤S5还包括:将原始文本序列映射为低维的词向量表示,每个词的输入嵌入表示分别由其对应的词向量、片段嵌入和位置嵌入相加得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941330.0A CN113761890B (zh) | 2021-08-17 | 2021-08-17 | 一种基于bert上下文感知的多层级语义信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941330.0A CN113761890B (zh) | 2021-08-17 | 2021-08-17 | 一种基于bert上下文感知的多层级语义信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113761890A CN113761890A (zh) | 2021-12-07 |
CN113761890B true CN113761890B (zh) | 2024-04-16 |
Family
ID=78789539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110941330.0A Active CN113761890B (zh) | 2021-08-17 | 2021-08-17 | 一种基于bert上下文感知的多层级语义信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761890B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510563A (zh) * | 2022-02-18 | 2022-05-17 | 杭州数梦工场科技有限公司 | 一种摘要文本抽取方法及装置 |
CN116187163B (zh) * | 2022-12-20 | 2024-02-20 | 北京知呱呱科技有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
CN116933766A (zh) * | 2023-06-02 | 2023-10-24 | 盐城工学院 | 一种基于三重词频方案的Ad-hoc信息检索模型 |
CN116912047B (zh) * | 2023-09-13 | 2023-11-28 | 湘潭大学 | 一种专利结构感知相似性检测方法 |
CN117408650B (zh) * | 2023-12-15 | 2024-03-08 | 辽宁省网联数字科技产业有限公司 | 基于人工智能的数字化招标文件制作和评估系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036177A (zh) * | 2020-07-28 | 2020-12-04 | 中译语通科技股份有限公司 | 基于多模型融合的文本语义相似度信息处理方法及系统 |
CN112560501A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 语义特征的生成方法、模型训练方法、装置、设备及介质 |
CN112784013A (zh) * | 2021-01-13 | 2021-05-11 | 北京理工大学 | 一种基于上下文语义的多粒度文本推荐方法 |
CN113076398A (zh) * | 2021-03-30 | 2021-07-06 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8301633B2 (en) * | 2007-10-01 | 2012-10-30 | Palo Alto Research Center Incorporated | System and method for semantic search |
US9633140B2 (en) * | 2011-02-10 | 2017-04-25 | International Business Machines Corporation | Automated contextual information retrieval based on multi-tiered user modeling and dynamic retrieval strategy |
CN111444414A (zh) * | 2019-09-23 | 2020-07-24 | 天津大学 | 一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型 |
CN110879834B (zh) * | 2019-11-27 | 2022-06-03 | 福州大学 | 一种基于循环卷积网络的观点检索系统及其观点检索方法 |
-
2021
- 2021-08-17 CN CN202110941330.0A patent/CN113761890B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036177A (zh) * | 2020-07-28 | 2020-12-04 | 中译语通科技股份有限公司 | 基于多模型融合的文本语义相似度信息处理方法及系统 |
CN112560501A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 语义特征的生成方法、模型训练方法、装置、设备及介质 |
CN112784013A (zh) * | 2021-01-13 | 2021-05-11 | 北京理工大学 | 一种基于上下文语义的多粒度文本推荐方法 |
CN113076398A (zh) * | 2021-03-30 | 2021-07-06 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
Non-Patent Citations (6)
Title |
---|
A conceptual modeling approach to semantic document retrieval;BRASETHVIK T, GULLA J A;LECTURE NOTES IN COMPUTER SCIENCE;SPRINGER VERLAG, BERLIN;20020527;第2348卷;全文 * |
基于BERT上下文感知的多层级信息检索方法;罗雅兰;基于BERT上下文感知的多层级信息检索方法;20210602;26-36 * |
基于BERT和引文上下文的文献表征与检索方法研究;牛海波, 赵丹群, 郭倩影;情报理论与实践;20200930;第43卷(第9期);125-131 * |
基于词重要性的信息检索图模型;王明文;洪欢;江爱文;左家莉;;中文信息学报;20160715(第04期);全文 * |
电子文献段落检索算法性能评估研究;王睿, 曾斌, 陈抒;中国优秀硕士学位论文全文数据库 信息科技辑;20200430;35(4);75-76 * |
郭少友.上下文检索理论与实践.北京:兵器工业出版社,2009,34-41. * |
Also Published As
Publication number | Publication date |
---|---|
CN113761890A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
WO2021139229A1 (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114912449B (zh) | 基于代码描述文本的技术特征关键词抽取方法与系统 | |
CN111191464A (zh) | 基于组合距离的语义相似度计算方法 | |
CN112883199A (zh) | 一种基于深度语义邻居和多元实体关联的协同消歧方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Wang et al. | Named entity recognition method of brazilian legal text based on pre-training model | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN116204622A (zh) | 一种跨语言稠密检索中的查询表示增强方法 | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN112182159B (zh) | 一种基于语义表示的个性化检索式对话方法和系统 | |
CN115081445A (zh) | 一种基于多任务学习的短文本实体消歧方法 | |
CN111814456A (zh) | 一种基于动词的中文文本相似度计算方法 | |
Nemani et al. | A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A Transformer-based Approach | |
CN117521659B (zh) | 基于语义增强预训练孪生网络的中文实体链接方法和系统 | |
CN117474703B (zh) | 基于社交网络的话题智能推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |