CN113139048B - 一种检索结果提供方法及系统 - Google Patents

一种检索结果提供方法及系统 Download PDF

Info

Publication number
CN113139048B
CN113139048B CN202110417238.4A CN202110417238A CN113139048B CN 113139048 B CN113139048 B CN 113139048B CN 202110417238 A CN202110417238 A CN 202110417238A CN 113139048 B CN113139048 B CN 113139048B
Authority
CN
China
Prior art keywords
text
paragraph
texts
sequence
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110417238.4A
Other languages
English (en)
Other versions
CN113139048A (zh
Inventor
冯晓硕
万克
陈鸣
李梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Liberation Army 91054 Troops
Original Assignee
People's Liberation Army 91054 Troops
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Liberation Army 91054 Troops filed Critical People's Liberation Army 91054 Troops
Priority to CN202110417238.4A priority Critical patent/CN113139048B/zh
Publication of CN113139048A publication Critical patent/CN113139048A/zh
Application granted granted Critical
Publication of CN113139048B publication Critical patent/CN113139048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种检索结果提供方法及系统,涉及计算机信息处理技术领域。该方法及系统针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限,而检索结果中与检索文本相关的内容比较少。通过将原文文本拆分为段落,对段落进行检索,使检索返回结果更加地精确。无需受到原文文本段落安排的限制,可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。使用了自然语言模型将文本转换为文本嵌入,并且语义相近的文本在文本嵌入空间距离较小,相似度较高。使用序列到序列的文本生成模型将得到的检索结果做智能表述,在了解检索结果语义的情况下减少阅读时间。

Description

一种检索结果提供方法及系统
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种检索结果提供方法及系统。
背景技术
目前的搜索引擎等无法根据检索结果做单一简短智能表述。
当前能对文本生成摘要的语言模型,无法接收长文本的输入,仅能对长文本按语言模型能接收的最大长度进行截断处理仅保留文本前一部分作为输入。
搜索引擎仅能返回与检索文本相关的多个文本全文,而将这些文本全文拼接后,长度远超过语言模型能接收输入的最大长度。所以仅能对单一文本分别生成对应摘要,而非检索的多个结果。
搜索引擎返回的全文结果中,与检索文本相关的内容大部分情况下仅有一小段相关,而其他均为无意义内容。而该无意义内容无法在检索过程中进行排除。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种检索结果提供方法及系统,结合段落级别的语义搜索与语言模型的使用,为搜索引擎返回的多个检索结果提供单一的摘要对用户进行展示。
为解决上述技术问题,本发明所采取的技术方案是:
一方面,本发明提供一种检索结果提供方法,包括以下步骤;
步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据存入文本数据库中;
使用爬虫工具,从互联网获取待检索的网页文本,并对网页文本进行清洗去除无关文本;对清洗后的文本,使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取;再根据“\n”标识符将清洗后的文本切分成段落级别的文本,并且删除空文本;将文本根据段落切分后,每个段落对应原文的索引,以获取原文的其他信息;
步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;
从文本数据库中随机选取多个段落文本,同时随机选取其中一个段落中的一个句子,并将该句子从该段落中删除;使用BERT语言模型对该句子和所有段落文本生成语义嵌入,并使该句子与所在的段落文本的嵌入之间的距离最近,然后使用梯度下降算法对BERT语言模型中的参数进行更新;多次重复该步骤直至遍历待检索文本N次,保存BERT语言模型;
步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;
使用CNN-dailymail摘要数据集对序列到序列文本生成模型进行训练,使序列到序列文本生成模型对文本输入生成的摘要与数据集中提供的摘要一致;并选取待检索文本中概括性语句作为摘要对序列到序列文本生成模型继续训练,保存序列到序列文本生成模型;
步骤4:使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;
步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;
步骤6:使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较,返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本;
步骤7:根据相似度指标对返回的n个段落文本进行排序,与检索文本相似度大的段落文本排在前端,并将段落文本按照排序后顺序进行直接拼接;
步骤8:使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要,并与其他检索结果相关信息一同进行展示。
另一方面,本发明还提供一种检索结果提供系统,包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块;
所述数据存储模块,用于存储待检索的原文文本、段落文本、文本嵌入以及文章标题、文章作者以及发布日期;
所述文本切分模块,用于将待检索的原文本切分为段落级别的段落文本;
所述文本嵌入计算模块,用于将段落级别的段落文本与检索文本转化为文本嵌入,其中语义上相近的文本在该嵌入的空间中也相近;
所述最近邻搜索模块,用于召回与检索文本的嵌入最相近的几条段落级别的文本;
所述文本摘要模块,用于将检索结果转化为保留检索结果中心语义但长度变短的文本。
优选地,所述数据存储模块使用pandas函数库中的DataFrame结构进行存储数据,并使用csv文件进行持久化保存,对每个文本分配各自唯一的数字作为索引。
采用上述技术方案所产生的有益效果在于:本发明提供一种检索结果提供方法及系统,能为多个检索结果提供单一文本表述,节省阅读时间。目前的检索引擎对文本进行检索时,大多包含来自多个信息源的语义重复内容,即便为每个检索结果提供对应的摘要,也会有大量的语义上的冗余。通过提供单一的文本表述,能减少检索结果中重复内容。并且通过段落级别的检索能减少无关信息的出现,进一步减少阅读时间。
附图说明
图1为本发明实施例提供的一种检索结果提供方法的流程图;
图2为本发明实施例提供的一种检索结果提供系统的结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的系统及方法,针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限,而检索结果全文中与检索文本相关的内容仅有少部分。通过将原文文本拆分为段落,对段落进行检索,使检索返回结果更加地精确。无需受到原文文本段落安排的限制,可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。
本发明使用了自然语言模型,该模型被用于将文本转换为文本嵌入。并且语义相近的文本在文本嵌入空间距离较小,相似度较高。该模型使用逆向完形填空等任务在待检索文本或其他类似文本上进行训练。逆向完形填空任务具体地即为在训练文本中任意挑选连续的几条语句,选择挑选的语句中一条并删去。同时任意挑选其他不相关语句,使被删去语句对应的文本嵌入与原文本中其他语句的文本嵌入距离小于被删去语句对应的文本嵌入与其他不相关语句的文本嵌入的距离。具体公式如下所示。该文本嵌入为固定长度的一维向量,不随输入文本的长度的改变而改变。
Figure BDA0003026416550000031
本发明使用了序列到序列的文本生成模型将得到的检索结果做智能表述。该文本生成模型使用摘要数据集以及待检索文本进行训练,能根据输入的长文本输出与输入文本中心语义相近的短文本,并且该生成的文本中包含输入文本中不存在的语句。该序列到序列的文本生成模型能对检索结果做智能表述,在了解检索结果语义的情况下减少阅读时间。
本实施例采用本发明的检索结果提供方法及系统实现检索结果的展示,该方法及系统使用Python语言进行实现,运行于Linux系统。
本实施例中,一种检索结果提供方法,如图1所示,包括以下步骤;
步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据如原文标题、发布时间、作者存入文本数据库中;
本实施例使用爬虫工具,从互联网获取待检索文本,并对网页文本进行清洗去除无关文本。对清洗后的文本,使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关内容的提取。本实施例中,文本数据库使用pandas函数库中的DataFrame结构进行存储,使用csv文件进行持久化保存,并对每个文本分配各自唯一的数字作为索引。再根据“\n”标识符将文本切分,并且删除空文本。将文本根据段落切分后,每个段落对应原文的索引,以获取原文的其他信息。
步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;
本实施例根据设备内存大小,从文本数据库中选取几十到一百多个段落文本。随机选取其中的一个段落中的一个句子,并将该句子从该段落中删除。使用BERT(Bidirectional Encoder Representations from Transformers)语言模型对该句子和所有段落文本生成语义嵌入,并使该句子与所在的段落文本的嵌入之间的距离最为相近,并使用梯度下降算法对BERT语言模型中的参数进行更新。并多次重复该步骤直至遍历待检索文本多次,保存BERT语言模型。
步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;
选取CNN-dailymail摘要数据集,使用该摘要数据集对BART(Bidirectional andAuto-Regressive Transformers)模型训练,使BART模型对文本输入生成的摘要与数据集中提供的摘要基本一致。并选取待检索文本中概括性语句作为摘要对BART模型继续训练,保存BART模型。
步骤4:使用步骤2训练之后的BERT模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;
以上步骤为提供检索结果的前置步骤,若待检索文本不变化则无需重复执行,而后续步骤则根据用户输入循环执行。
步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;
本实施例使用flask函数库创建搜索界面,获取用户输入的检索文本,并将用户输入的检索文本使用步骤2中保存的BERT模型转换为对应的文本嵌入表示。
步骤6:使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较,返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本;
本实施例使用hnswlib函数库召回与检索文本的嵌入最相近的几条段落级别的文本,通过cosine相似度指标寻找在步骤4中得到的嵌入中与步骤5中得到的嵌入最相近的嵌入,并返回前10个对应的段落文本。返回与步骤5中得到嵌入的相似度,同时根据步骤1中保存的索引找到原文信息一齐返回。
步骤7:根据相似度指标对返回的n个段落文本进行排序,与检索文本相似度大的段落文本排在前端,并将段落文本按照排序后顺序进行直接拼接;
本实施例根据相似度,从大到小将返回的信息排序,并将10个段落文本拼接后一齐返回。
步骤8:使用步骤3中训练后的BART模型对拼接后的文本生成摘要,并与其他检索结果相关信息一同进行展示。
本实施例将步骤7中返回的拼接后的文本输入步骤3中保存的BART模型,生成对应的文本摘要,作为检索结果的单一表述并返回。
最后将步骤8中检索结果的单一表述与步骤7中的排序信息写入到flask函数库生成的页面中,并返回给用户展示。
一种检索结果提供系统,如图2所示,包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块;
所述数据存储模块,用于存储待检索的原文文本、段落文本、文本嵌入以及文章标题、文章作者以及发布日期;
本实施例中,数据存储模块使用pandas函数库中的DataFrame结构进行存储数据,并使用csv文件进行持久化保存,对每个文本分配各自唯一的数字作为索引。
所述文本切分模块,用于将待检索的原文本切分为段落级别的段落文本;
所述文本嵌入计算模块,用于将段落级别的段落文本与检索文本转化为文本嵌入,其中语义上相近的文本在该嵌入的空间中也相近;
所述最近邻搜索模块,用于召回与检索文本的嵌入最相近的几条段落级别的文本;
所述文本摘要模块,用于将检索结果转化为保留检索结果中心语义但长度变短的文本。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种检索结果提供方法,其特征在于:包括以下步骤;
步骤1:获取待检索文本,进行数据清洗及文本相关数据的提取;再根据“\n”字符,采用段落切分方法,将待检索原始文本切分成段落级别的文本,并与其他文本相关数据存入文本数据库中;
步骤2:使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练,使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近;
步骤3:使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型,使模型输出能保留输入文本的中心语义的同时缩减输出文本长度;
步骤4:使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示,并将文本的嵌入表示作为段落文本的属性持久化保存;
步骤5:将用户输入的检索文本使用语言模型转换为文本嵌入表示;
步骤6:使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较,返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本;
步骤7:根据相似度指标对返回的n个段落文本进行排序,与检索文本相似度大的段落文本排在前端,并将段落文本按照排序后顺序进行直接拼接;
步骤8:使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要,并与其他检索结果相关信息一同进行展示。
2.根据权利要求1所述的一种检索结果提供方法,其特征在于:所述步骤1的具体方法为:
使用爬虫工具,从互联网获取待检索的网页文本,并对网页文本进行清洗去除无关文本;对清洗后的文本,使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取;再根据“\n”标识符将清洗后的文本切分成段落级别的文本,并且删除空文本;将文本根据段落切分后,每个段落对应原文的索引,以获取原文的其他信息。
3.根据权利要求1所述的一种检索结果提供方法,其特征在于:所述步骤2的具体方法为:
从文本数据库中随机选取多个段落文本,同时随机选取其中一个段落中的一个句子,并将该句子从该段落中删除;使用BERT语言模型对该句子和所有段落文本生成语义嵌入,并使该句子与所在的段落文本的嵌入之间的距离最近,然后使用梯度下降算法对BERT语言模型中的参数进行更新;多次重复该步骤直至遍历待检索文本N次,保存BERT语言模型。
4.根据权利要求1所述的一种检索结果提供方法,其特征在于:所述步骤3的具体方法为:
使用CNN-dailymail摘要数据集对序列到序列文本生成模型进行训练,使序列到序列文本生成模型对文本输入生成的摘要与数据集中提供的摘要一致;并选取待检索文本中概括性语句作为摘要对序列到序列文本生成模型继续训练,保存序列到序列文本生成模型。
5.一种检索结果提供系统,基于权利要求1所述一种检索结果提供方法实现,其特征在于:包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块;
所述数据存储模块,用于存储待检索的原文文本、段落文本、文本嵌入以及文章标题、文章作者以及发布日期;
所述文本切分模块,用于将待检索的原文本切分为段落级别的段落文本;
所述文本嵌入计算模块,用于将段落级别的段落文本与检索文本转化为文本嵌入,其中语义上相近的文本在该嵌入的空间中也相近;
所述最近邻搜索模块,用于召回与检索文本的嵌入最相近的几条段落级别的文本;
所述文本摘要模块,用于将检索结果转化为保留检索结果中心语义但长度变短的文本。
6.根据权利要求5所述的一种检索结果提供系统 ,其特征在于:所述数据存储模块使用pandas函数库中的DataFrame结构进行存储数据,并使用csv文件进行持久化保存,对每个文本分配各自唯一的数字作为索引。
CN202110417238.4A 2021-04-19 2021-04-19 一种检索结果提供方法及系统 Active CN113139048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110417238.4A CN113139048B (zh) 2021-04-19 2021-04-19 一种检索结果提供方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110417238.4A CN113139048B (zh) 2021-04-19 2021-04-19 一种检索结果提供方法及系统

Publications (2)

Publication Number Publication Date
CN113139048A CN113139048A (zh) 2021-07-20
CN113139048B true CN113139048B (zh) 2022-11-04

Family

ID=76812675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110417238.4A Active CN113139048B (zh) 2021-04-19 2021-04-19 一种检索结果提供方法及系统

Country Status (1)

Country Link
CN (1) CN113139048B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置
JP2010079574A (ja) * 2008-09-25 2010-04-08 Taito Corp デジタルストーリー提供システム、デジタルストーリー提供方法、及びこの方法をコンピュータシステムに実行させるためのコンピュータプログラム
CN104199965A (zh) * 2014-09-22 2014-12-10 吴晨 一种语义信息检索方法
WO2019242328A1 (zh) * 2018-06-20 2019-12-26 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102094934B1 (ko) * 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置
JP2010079574A (ja) * 2008-09-25 2010-04-08 Taito Corp デジタルストーリー提供システム、デジタルストーリー提供方法、及びこの方法をコンピュータシステムに実行させるためのコンピュータプログラム
CN104199965A (zh) * 2014-09-22 2014-12-10 吴晨 一种语义信息检索方法
WO2019242328A1 (zh) * 2018-06-20 2019-12-26 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
CN113139048A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
US11222167B2 (en) Generating structured text summaries of digital documents using interactive collaboration
CN110399457B (zh) 一种智能问答方法和系统
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US20220261427A1 (en) Methods and system for semantic search in large databases
Sood et al. TagAssist: Automatic Tag Suggestion for Blog Posts.
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN111581354A (zh) 一种faq问句相似度计算方法及其系统
CN102253930B (zh) 一种文本翻译的方法及装置
US20100094835A1 (en) Automatic query concepts identification and drifting for web search
CN103136352A (zh) 基于双层语义分析的全文检索系统
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN107844493B (zh) 一种文件关联方法及系统
CN108804592A (zh) 知识库检索实现方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN113901173A (zh) 一种检索方法、装置、电子设备及计算机存储介质
US20240232199A1 (en) Systems and methods for dataset vector searching using virtual tensors
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
CN115828893B (zh) 非结构化文档问答的方法、装置、存储介质和设备
CN113139048B (zh) 一种检索结果提供方法及系统
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
CN101089841A (zh) 基于知识编码的精确搜索方法和系统
CN114238616A (zh) 一种专家信息检测方法和存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant