CN115335819A - 用于搜索和检索信息的方法和系统 - Google Patents

用于搜索和检索信息的方法和系统 Download PDF

Info

Publication number
CN115335819A
CN115335819A CN202080099079.1A CN202080099079A CN115335819A CN 115335819 A CN115335819 A CN 115335819A CN 202080099079 A CN202080099079 A CN 202080099079A CN 115335819 A CN115335819 A CN 115335819A
Authority
CN
China
Prior art keywords
model
identified
knowledge base
topics
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080099079.1A
Other languages
English (en)
Inventor
萨拉瓦南·M
佩雷普·萨特什库马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN115335819A publication Critical patent/CN115335819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于搜索和检索信息的方法和系统。在一个方面,存在一种使用知识库来检索信息的方法。该方法包括:接收由用户输入的搜索查询;以及使用第一模型来识别与所接收的搜索查询相对应的类别。该方法还包括:基于所接收的搜索查询、第一模型的损失函数和第二模型的目标函数,识别与所接收的搜索查询相对应的T个主题;以及仅对知识库的与所识别的类别和/或所识别的主题相关联的部分执行针对所接收的搜索查询的搜索。该方法还包括:检索与所识别的类别和/或所识别的主题相关联的一个或多个文件。

Description

用于搜索和检索信息的方法和系统
技术领域
公开了涉及用于搜索和检索信息的方法和系统的实施例。
背景技术
有效地处理服务工程师(领域专家)的时间是托管服务的巨大挑战。大多数服务行业都在试图减少人力,并用智能机器人代替人力。这种趋势将导致可用服务工程师的数量减少。此外,可能存在服务工程师远离需要执行任务的地方的情形。在这种情形中,当服务工程师前往需要执行任务的位置时,服务工程师的时间被浪费。
此外,由于现场服务操作员(FSO)通常需要搜索和检索执行给定任务所需的文件(例如,通过使用搜索引擎),因此期望及时向FSO提供最相关的文件以执行给定任务(例如,维修和安装),以减少执行给定任务所需的时间。向FSO提供与给定任务无关的信息可能会使FSO受挫并增加执行给定任务所需的时间。该延迟还可能阻止FOS执行在不同位置所需的其他任务。因此,需要改进用于搜索和检索信息的方法。
发明内容
通常,使用搜索引擎执行搜索涉及检索信息并显示识别所检索的信息的搜索结果。为了检索相关信息,可以使用知识库。但是,随着搜索空间随可用信息量的增加而增加,使用知识库执行搜索的计算复杂度变得更高。在相关技术中,为了降低这种计算复杂度,使用了被称为弹性搜索的特定搜索方法。然而,随着需要搜索的信息量进一步增加,使用弹性搜索方案执行搜索变得不足以降低计算复杂度。
因此,在一些实施例中,使用信息分类和主题建模的组合来执行跨知识库的搜索,从而降低了执行搜索的计算复杂度。
例如,在获得文件集合(例如,服务手册和/或安装说明的集合)之后,使用分类模型(例如,机器学习分类模型)基于每个文件的内容对每个文件进行分类。在对所获得的文件进行分类之后,使用主题模型(例如,自然语言处理(NLP)模型)获得文件的单词和上下文(即,主题)。分类模型和主题模型两者相互关联以执行操作以加速搜索过程。因此,本公开的实施例提供了一种快速检索FSO实时执行给定任务所需的文件的方式,从而FSO可以有效地处理给定任务。
如上所述,本公开的一些实施例通过允许FSO获得对于以有效方式执行给定任务所需或有帮助的信息来使FSO能够有效地执行给定任务。目前,用于搜索信息的大多数搜索工具都使用弹性搜索作为后端。弹性搜索基于关键字匹配。然而,使用知识库可以有助于简化搜索过程。知识库通过构建基于拓扑的图将更多的语义信息添加到文件。然而,采用基于知识图的搜索涉及大量的手动工作。
例如,用户必须从文件中提取关键字和/或关键短语,并对所提取的关键字和/或关键短语执行词性(POS)标记和命名实体识别(NER)。然后,用户需要将它们布置成知识库结构。所获得的知识库的大小取决于文件的大小。作为示例,基于网络的搜索引擎使用大量文件进行搜索。然而,如果针对所有文件创建知识库,则这种创建将占用大量存储器,并且针对期望输出而搜索的文件的数量可能太大,并因此可能需要长时间才能完成搜索。因此,在本公开的一些实施例中,提供了一种用于限制使用知识库执行搜索所需的时间的技术。
根据一些实施例,提供了一种使用知识库来检索信息的方法。该方法包括:接收由用户输入的搜索查询;以及基于所接收的搜索查询,使用第一模型来识别与所接收的搜索查询相对应的类别。一个或多个文件可以被分配给所识别的类别,并且第一模型可以是分类模型,其功能是将输入映射到M个不同类别之一,其中M大于1。该方法还包括:基于(i)所接收的搜索查询、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别与所接收的搜索查询相对应的T个主题,其中T大于或等于1。该方法还包括:使用所识别的类别和所识别的主题,仅对知识库的与所识别的类别和/或所识别的主题相关联的部分执行针对所接收的搜索查询的搜索。该方法还包括:基于所执行的搜索,检索与所识别的类别和/或所识别的主题相关联的一个或多个文件。
根据一些实施例,提供了一种用于构建知识库的方法。该方法包括:获得N个文件的集合,其中,文件集合中包括的每个文件被分配给M个不同类别之一,其中N和M大于1。该方法还包括:基于(i)N个文件的内容、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别T个主题的集合,其中T大于1,并且每个主题是由一个或多个关键字构成的组。该方法还包括:使用所识别的主题来生成知识库;以及针对于N个文件中的每一个,基于文件被分配给的特定类别和文件中包括的关键字,将文件添加到知识库。第一模型是分类模型,其功能是将输入句子映射到M个类别之一。
在另一方面,提供了一种适于执行本文公开的任何方法的装置。在一些实施例中,该装置包括:处理电路;以及存储器,存储指令,所述指令在由处理电路执行时,使所述装置执行本文公开的任何方法。
附图说明
本文中所包含并形成说明书一部分的附图示出了各种实施例。
图1示出了示例性知识库。
图2示出了根据一些实施例的示例性知识库。
图3是根据一些实施例的过程。
图4示出了根据一些实施例的示例性知识库。
图6是根据一些实施例的部分过程。
图7是根据一些实施例的过程。
图8是根据一些实施例的过程。
图9示出了根据一些实施例的装置。
具体实施方式
图1示出了示例性知识库120的一部分,其为知识图的形式。
知识图120包括知识图120的第一层中的顶部节点122以及知识图120的第二层中的中间节点124、126和128。为了对知识图120执行搜索,必须对整个知识图120执行搜索。然而,整个知识图120的搜索需要更长的时间段。
因此,在一些实施例中,使用分类和主题建模两者,使得仅需要对知识图的一部分而不是整个知识图执行搜索。
对于分类,可以使用基于领域知识(例如,层次结构)或人工智能(AI)的模型。例如,卷积神经网络(CNN)模型可以用于基于输入的搜索查询对文件进行分类。如本文所使用的,“文件”是作为单元处理的数据的集合。
对于主题建模,潜在狄利克雷分配(LDA)模型可以用于识别文件中的主要主题。
图2示出了根据一些实施例的示例性知识图220的一部分。与知识图120相比,对知识图220执行搜索更容易,因为对于每个关键字(或主题),都给出了类别(或上下文)。因此,如果可以识别用户的搜索查询的上下文,则仅需对知识图的一部分而不是知识图的整个部分执行搜索。这使得搜索更快并且可以获得更有效的结果。这与命名实体识别(NER)模型不同,因为NER模型只能识别例如维基百科中可用的现有句子,并且基于域的单词需要新模型。此外,从搜索查询中,难以识别搜索查询的NER,因为它将非常小。因此,在一些实施例中,从文件构造的分类模型用于执行对搜索查询的分类。
当使用LDA模型来识别文件中的主题时,LDA模型的损失函数用于找到与每个主题相关联的单词的分布,使得单词分布是均匀的。使用LDA模型的损失函数的问题是它是无监督的,并因此可能产生差的结果。此外,由于文本嘈杂,采用分类器(即,归类器)可以导致差的结果。因此,在一些实施例中,通过将分类器(即,归类器)的损失函数添加到LDA模型的损失函数来修改LDA模型的损失函数(即,目标函数)。
LDA模型的示例性损失函数为
Figure BDA0003863881340000041
其中d对应于文件,N是可用文件的总数,n∈Nd表示每个文件中包括的单词,
Figure BDA0003863881340000042
是文档主题分布的概率分布,以及
Figure BDA0003863881340000043
是影响每个主题中的单词的分布的随机参数。LDA模型用于在每个主题中找到单词,使得分布在所有主题中是均匀的。然而,该过程是无监督的,并且需要向文档输入主题数量的信息。
因此,根据一些实施例,LDA模型的损失函数被修改,使得LDA模型的经修改的损失函数基于分类器的损失函数以及LDA模型的损失函数。例如,LDA模型的经修改的损失函数为
Figure BDA0003863881340000051
Figure BDA0003863881340000052
其中
Figure BDA0003863881340000053
yd是要输入到分类器的文件的实际类别(即,文件的预定义类别),以及
Figure BDA0003863881340000054
是由分类器确定的预测类别。通过考虑文件的预定义类别与由分类器确定的文件的预测类别之间的差异的二范数,LDA模型可以从文件中提取更有意义的主题,并因此可以改进LDA模型的准确度。
图3示出了根据一些实施例的构建知识库(例如,知识图)的过程300。过程300可以从步骤s302开始。
在步骤s302中,获得需要搜索的数据库中的所有文件。
在获得文件之后,在步骤s304中,所获得的文件中的每一个被分类并被标记有一个或多个类别。例如,由服务工程师用于管理无线网络设备的文档可以被标记有类别——“安装”和“故障排除”。由于文档中包括的句子很可能与文档的一个或多个类别相关,因此文档中包括的每个句子也可以根据文档的一个或多个类别进行分类。
在对文件进行分类和标记之后,在步骤s306中,使用字符识别引擎(例如,Tesseract光学字符识别(OCR)引擎)从文件中提取关键字和/或关键短语,并且基于每个文件中包括的句子来划分每个文件。通过用连字符、破折号或下划线连接每个关键短语中包括的多个单词(例如,solving_no_connection_problem),可以将所提取的关键短语中的每一个识别为单个单词。
在步骤s308中,建立分类模型。分类模型可以被配置为:接收一个或多个句子作为输入,并输出与输入的句子相关联的一个或多个类别作为输出。由于搜索查询通常是句子的形式,因此分类模型的输入被设置为句子的形式(而不是单词或段落)。在一些实施例中,CNN模型可以用作分类模型。
在步骤s310中,对同一类别的文件执行主题建模,并识别出在文件中形成主题的主要关键字。在一些实施例中,LDA模型可以用于执行主题建模。
在识别(i)文件的类别和(ii)与文件的每个类别相关联的主题之后,在步骤s312中构建知识库。在知识库中,在步骤s304中识别的每个类别可以被分配给知识库顶层中的节点(下文称为“顶部节点”),并且与文件的每个类别相关联的主题可以被分配给从顶部节点分支出来的中间层中的节点(下文称为“中间节点”)。图4示出了作为执行步骤s312的结果而构建的示例性知识图400。
如图4所示,知识图400包括顶部节点402和404。顶部节点402和404中的每一个与类别——“安装”或“故障排除”相关联。知识库400还包括从顶部节点402和404分支出来的中间节点406、408、410和412。中间节点406、408、410和412中的每一个对应于与类别中的至少一个相关联的主题。例如,中间节点408对应于主题(或关键字、关键短语)——“无连接”——并与类别——“安装”和“故障排除”相关联。
在步骤s312中构建知识库之后,在步骤s314中,将与文件的名称相对应的节点添加到知识库的下层。下层中的节点(下文称为“下节点”)与知识库的中间层中的一个或多个主题相关联,并从相关联的主题分支出来。例如,在知识图400中,节点414对应于文件名——“文件1”——并且从节点406和410分支出来,该节点406和410对应于与“文件1”相关联的主题——“低功率”和“信号差”。
在一些实施例中,在步骤s310中执行主题建模之后,可以在步骤s312中构建知识库之前执行两个附加步骤。具体地,如图5所示,在步骤s310中执行主题建模之后,可以在步骤s502中执行词性(POS)标记。例如,在步骤s310中在主题建模中识别出主题之后,与每个所识别的主题相关联的关键字可以基于单词在主题内的位置被标记为名词或动词。
在执行POS标记之后,在步骤s504中,可以执行NER构建。在NER构建步骤中,所获得的文件中包括的一个或多个单词被标记有单词所表示的内容。例如,单词“伦敦”可以被标记为“首都”,而单词“法国”可以被标记为“国家”。
在步骤s504中执行NER构建之后,可以在步骤s312构建知识库。
图6示出了根据一些实施例的对知识库执行搜索的过程600。过程600可以从步骤s602开始。
在步骤s602中,在用户接口处接收搜索查询。用户接口可以是能够接收用户输入的任何设备。例如,用户接口可以是鼠标、键盘、触摸面板和触摸屏。
在接收到搜索查询之后,在步骤s604中,将与搜索查询相对应的一个或多个句子作为输入提供给分类模型,使得分类模型识别与搜索查询相关联的一个或多个类别。在该步骤中使用的分类模型可以与在步骤s408中建立的分类模型相对应。
在识别与搜索查询相关联的一个或多个类别之后,在步骤s606中,主题模型基于搜索查询的一个或多个关键字来识别与搜索查询相关联的一个或多个主题。在该步骤中使用的主题模型可以与在步骤s310中执行主题建模的实体相对应。
基于所识别的与搜索查询相关联的类别和主题,在步骤s608中,仅对知识库的涉及所识别的类别和所识别的主题的部分而不是对整个知识库执行搜索。通过仅对知识库的最可能与用户的搜索查询相关的部分执行搜索,可以更快地检索与搜索查询相关的文件。
图7是示出了用于使用知识库来检索信息的过程700的流程图。过程700可以从步骤s702开始。
步骤s702包括:接收由用户输入的搜索查询。
步骤s704包括:基于所接收的搜索查询,使用第一模型来识别与所接收的搜索查询相对应的类别。一个或多个文件可以被分配给所识别的类别,并且第一模型可以是分类模型,其功能是将输入映射到M个不同类别之一,其中M大于1。
步骤s706包括:基于(i)所接收的搜索查询、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别与所接收的搜索查询相对应的T个主题,其中T大于或等于1。
步骤s708包括:使用所识别的类别和所识别的主题,仅对知识库的与所识别的类别和/或所识别的主题相关联的部分执行针对所接收的搜索查询的搜索。
步骤s710包括:基于所执行的搜索,检索与所识别的类别和/或所识别的主题相关联的一个或多个文件。
在一些实施例中,过程700还可以包括构建知识库。构建知识库可以包括:获得N个文件的集合,该集合中的每个文件被分配给M个不同类别之一,其中N大于1。构建知识库还可以包括:基于(i)N个文件的内容、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别主题的集合,其中每个主题是由一个或多个关键字构成的组。构建知识库还可以包括:使用所识别的主题来生成知识库;以及针对于N个文件中的每一个,基于文件被分配给的特定类别和文件中包括的关键字,将文件添加到知识库。
图8是示出了用于构建知识库的过程800的流程图。过程800可以从步骤s802开始。
步骤s802包括:获得N个文件的集合,该集合中的每个文件被分配给M个不同类别之一,其中N和M大于1。
步骤s804包括:基于(i)N个文件的内容、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别T个主题的集合,其中T大于1,并且每个主题是由一个或多个关键字构成的组。
步骤s806包括:使用所识别的主题来生成知识库。
步骤s808包括:针对N个文件中的每一个,基于文件被分配给的特定类别和文件中包括的关键字,将文件添加到知识库。
第一模型可以是分类模型,其功能是将输入句子映射到M个类别之一。
在一些实施例中,分类模型是机器学习(ML)模型。过程800还可以使用被分类的文件作为训练数据来训练ML模型。
在一些实施例中,识别T个主题的集合包括:使用第一模型的损失函数和第二模型的目标函数之和来识别每个主题的由一个或多个关键字构成的所述组。
在一些实施例中,第一模型的损失函数至少取决于T个主题的集合中的每个主题的概率分布和影响T个主题的集合中的每个主题中的单词的分布的随机参数。
在一些实施例中,第二模型的目标函数至少取决于文件的预定类别和第一模型的预测输出。
在一些实施例中,第二模型是潜在狄利克雷分配(LDA)模型。
在一些实施例中,过程800包括:对与所识别的T个主题的集合相关联的关键字执行POS标记。
图9是根据一些实施例的用于执行本文公开的方法的装置900的框图。如图9所示,装置900可以包括:处理电路(PC)902,该处理电路(PC)902可以包括一个或多个处理器(P)955(例如,通用微处理器和/或一个或多个其他处理器,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等),这些处理器可以共同位于单个外壳或单个数据中心中,或者可以在地理上分布(即,装置900可以是分布式计算装置);至少一个网络接口948,该至少一个网络接口948包括发射机(Tx)945和接收机(Rx)947,用于使装置900能够向连接到网络110(例如,互联网协议(IP)网络)的其他节点发送数据以及从其他节点接收数据,网络接口948(直接地或间接地)连接到该网络110(例如,网络接口948可以无线连接到网络110,在这种情况下,网络接口948连接到天线布置);以及存储单元(也称为“数据存储系统”)908,该存储单元可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备。在PC 902包括可编程处理器的实施例中,可以提供计算机程序产品(CPP)941。CPP 941包括存储计算机程序(CP)943的计算机可读介质(CRM)942,该计算机程序(CP)943包括计算机可读指令(CRI)944。CRM 942可以是非暂时性计算机可读介质,例如磁介质(例如,硬盘)、光介质、存储器设备(例如,随机存取存储器、闪存)等。在一些实施例中,计算机程序943的CRI 944被配置为使得当由PC 902执行时,CRI使装置900执行本文所描述的步骤(例如,本文参考流程图描述的步骤)。在其他实施例中,装置900可被配置为在不需要代码的情况下执行本文描述的步骤。即,例如,PC 902可以仅由一个或多个ASIC构成。因此,本文描述的实施例的特征可以以硬件和/或软件方式来实现。
尽管本文描述了各种实施例,但应当理解,它们仅以示例而非限制的方式提出。因此,本公开的宽度和范围不应受到上述示例性实施例中任意一个的限制。此外,上述要素以其所有可能变型进行的任意组合都包含在本公开中,除非另有指示或以其他方式和上下文明确冲突。
附加地,尽管上文描述并附图中示出的处理被示为一系列步骤,但其仅用于说明目的。因此,可以想到可增加一些步骤,可省略一些步骤,可重排步骤顺序,以及可并行执行一些步骤。

Claims (24)

1.一种使用知识库来检索信息的方法(700),所述方法包括:
接收(s702)由用户输入的搜索查询;
基于所接收的搜索查询,使用(s704)第一模型来识别与所接收的搜索查询相对应的类别,其中,一个或多个文件被分配给所识别的类别,并且其中,所述第一模型是分类模型,所述分类模型的功能是将输入映射到M个不同类别之一,其中M大于1;
基于(i)所接收的搜索查询、(ii)所述第一模型的损失函数和(iii)第二模型的目标函数,识别(s706)与所接收的搜索查询相对应的T个主题,其中T大于或等于1;
使用所识别的类别和所识别的主题,仅对所述知识库的与所识别的类别和/或所识别的主题相关联的部分执行(s708)针对所接收的搜索查询的搜索;以及
基于所执行的搜索,检索(s710)与所识别的类别和/或所识别的主题相关联的一个或多个文件。
2.根据权利要求1所述的方法,还包括构建所述知识库,其中,构建所述知识库包括:
获得N个文件的集合,其中,所述文件的集合中包括的每个文件被分配给所述M个不同类别之一,其中N大于1;
基于(i)所述N个文件的内容、(ii)所述第一模型的损失函数和(iii)所述第二模型的目标函数,识别主题的集合,其中每个主题是由一个或多个关键字构成的组;
使用所识别的主题生成所述知识库;以及
针对所述N个文件中的每一个文件,基于所述文件被分配给的特定类别和所述文件中包括的关键字,将所述文件添加到所述知识库。
3.一种用于构建知识库的方法(800),所述方法包括:
获得(s802)N个文件的集合,其中,所述文件的集合中包括的每个文件被分配给M个不同类别之一,其中N和M大于1;
基于(i)所述N个文件的内容、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别(s804)T个主题的集合,其中T大于1,并且每个主题是由一个或多个关键字构成的组;
使用所识别的主题生成(s806)所述知识库;以及
针对所述N个文件中的每一个文件,基于所述文件被分配给的特定类别和所述文件中包括的关键字,将所述文件添加(s808)到所述知识库,其中,
所述第一模型是分类模型,所述分类模型的功能是将输入句子映射到M个类别之一。
4.根据权利要求2至3中任一项所述的方法,其中:
所述分类模型是机器学习ML模型,以及
所述方法还包括使用被分类的文件作为训练数据来训练所述ML模型。
5.根据权利要求2至4中任一项所述的方法,其中,识别所述T个主题的集合包括:使用所述第一模型的损失函数和所述第二模型的目标函数之和来识别每个主题的由一个或多个关键字构成的所述组。
6.根据权利要求2至5中任一项所述的方法,其中:
所述第一模型的损失函数至少取决于所述T个主题的集合中的每个主题的概率分布和影响所述T个主题的集合中的每个主题中的单词的分布的随机参数。
7.根据权利要求2至6中任一项所述的方法,其中:
所述第二模型的目标函数至少取决于文件的预定类别和所述第一模型的预测输出。
8.根据权利要求2至7中任一项所述的方法,其中,所述第二模型是潜在狄利克雷分配LDA模型。
9.根据权利要求2至8中任一项所述的方法,还包括:
对与所识别的T个主题的集合相关联的关键字执行词性POS标记。
10.一种用于使用知识库来检索信息的装置(900),所述装置适于:
接收(s702)由用户输入的搜索查询;
基于所接收的搜索查询,使用(s704)第一模型来识别与所接收的搜索查询相对应的类别,其中,一个或多个文件被分配给所识别的类别,并且其中,所述第一模型是分类模型,所述分类模型的功能是将输入映射到M个不同类别之一,其中M大于1;
基于(i)所接收的搜索查询、(ii)所述第一模型的损失函数和(iii)第二模型的目标函数,识别(s706)与所接收的搜索查询相对应的T个主题,其中T大于或等于1;
使用所识别的类别和所识别的主题,仅对所述知识库的与所识别的类别和/或所识别的主题相关联的部分执行(s708)针对所接收的搜索查询的搜索;以及
基于所执行的搜索,检索(s710)与所识别的类别和/或所识别的主题相关联的一个或多个文件。
11.根据权利要求10所述的装置,所述装置还适于构建所述知识库,其中,构建所述知识库包括:
获得N个文件的集合,其中,所述文件的集合中包括的每个文件被分配给所述M个不同类别之一,其中N大于1;
基于(i)所述N个文件的内容、(ii)所述第一模型的损失函数和(iii)所述第二模型的目标函数,识别主题的集合,其中每个主题是由一个或多个关键字构成的组;
使用所识别的主题生成所述知识库;以及
针对所述N个文件中的每一个文件,基于所述文件被分配给的特定类别和所述文件中包括的关键字,将所述文件添加到所述知识库。
12.一种用于构建知识库的装置(900),所述装置适于:
获得(s802)N个文件的集合,其中,所述文件的集合中包括的每个文件被分配给M个不同类别之一,其中N和M大于1;
基于(i)所述N个文件的内容、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别(s804)T个主题的集合,其中T大于1,并且每个主题是由一个或多个关键字构成的组;
使用所识别的主题生成(s806)所述知识库;以及
针对所述N个文件中的每一个文件,基于所述文件被分配给的特定类别和所述文件中包括的关键字,将所述文件添加(s808)到所述知识库,其中,
所述第一模型是分类模型,所述分类模型的功能是将输入句子映射到M个类别之一。
13.根据权利要求11至12中任一项所述的装置,其中:
所述分类模型是机器学习ML模型,以及
所述方法还包括使用被分类的文件作为训练数据来训练所述ML模型。
14.根据权利要求11至13中任一项所述的装置,其中,识别所述T个主题的集合包括:使用所述第一模型的损失函数和所述第二模型的目标函数之和来识别每个主题的由一个或多个关键字构成的所述组。
15.根据权利要求11至14中任一项所述的装置,其中:
所述第一模型的损失函数至少取决于所述T个主题的集合中的每个主题的概率分布和影响所述T个主题的集合中的每个主题中的单词的分布的随机参数。
16.根据权利要求11至15中任一项所述的装置,其中:
所述第二模型的目标函数至少取决于文件的预定类别和所述第一模型的预测输出。
17.根据权利要求11至16中任一项所述的装置,其中,所述第二模型是潜在狄利克雷分配LDA模型。
18.根据权利要求11至17中任一项所述的装置,还包括:
对与所识别的T个主题的集合相关联的关键字执行词性POS标记。
19.一种包括指令(944)的计算机程序(943),所述指令(944)在由处理电路(902)执行时使所述处理电路执行根据权利要求1至9中任一项所述的方法。
20.一种包含权利要求19所述的计算机程序在内的载体,其中,所述载体是电信号、光信号、无线电信号和计算机可读存储介质(942)之一。
21.一种用于使用知识库来检索信息的装置(900),所述装置包括:
处理电路;以及
存储器,存储指令,所述指令在由所述处理电路执行时,使所述装置:
接收(s702)由用户输入的搜索查询;
基于所接收的搜索查询,使用(s704)第一模型来识别与所接收的搜索查询相对应的类别,其中,一个或多个文件被分配给所识别的类别,并且其中,所述第一模型是分类模型,所述分类模型的功能是将输入映射到M个不同类别之一,其中M大于1;
基于(i)所接收的搜索查询、(ii)所述第一模型的损失函数和(iii)第二模型的目标函数,识别(s706)与所接收的搜索查询相对应的T个主题,其中T大于或等于1;
使用所识别的类别和所识别的主题,仅对所述知识库的与所识别的类别和/或所识别的主题相关联的部分执行(s708)针对所接收的搜索查询的搜索;以及
基于所执行的搜索,检索(s710)与所识别的类别和/或所识别的主题相关联的一个或多个文件。
22.根据权利要求21所述的装置,其中,所述存储器存储另外的指令,所述另外的指令在由所述处理电路执行时,使所述装置执行根据权利要求2所述的方法。
23.一种用于构建知识库的装置(900),所述装置包括:
处理电路;以及
存储器,存储指令,所述指令在由所述处理电路执行时,使所述装置:
获得(s802)N个文件的集合,其中,所述文件的集合中包括的每个文件被分配给M个不同类别之一,其中N和M大于1;
基于(i)所述N个文件的内容、(ii)第一模型的损失函数和(iii)第二模型的目标函数,识别(s804)T个主题的集合,其中T大于1,并且每个主题是由一个或多个关键字构成的组;
使用所识别的主题生成(s806)所述知识库;以及
针对所述N个文件中的每一个文件,基于所述文件被分配给的特定类别和所述文件中包括的关键字,将所述文件添加(s808)到所述知识库,其中,
所述第一模型是分类模型,所述分类模型的功能是将输入句子映射到M个类别之一。
24.根据权利要求23所述的装置,其中,所述存储器存储另外的指令,所述另外的指令在由所述处理电路执行时,使所述装置执行根据权利要求4至9中任一项所述的方法。
CN202080099079.1A 2020-03-28 2020-03-28 用于搜索和检索信息的方法和系统 Pending CN115335819A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IN2020/050299 WO2021199052A1 (en) 2020-03-28 2020-03-28 Methods and systems for searching and retrieving information

Publications (1)

Publication Number Publication Date
CN115335819A true CN115335819A (zh) 2022-11-11

Family

ID=77930131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080099079.1A Pending CN115335819A (zh) 2020-03-28 2020-03-28 用于搜索和检索信息的方法和系统

Country Status (4)

Country Link
US (1) US20230142351A1 (zh)
EP (1) EP4127957A4 (zh)
CN (1) CN115335819A (zh)
WO (1) WO2021199052A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240004911A1 (en) * 2022-06-30 2024-01-04 Yext, Inc. Topic-based document segmentation
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
US8521662B2 (en) * 2010-07-01 2013-08-27 Nec Laboratories America, Inc. System and methods for finding hidden topics of documents and preference ranking documents
US10198431B2 (en) * 2010-09-28 2019-02-05 Siemens Corporation Information relation generation
US8484245B2 (en) * 2011-02-08 2013-07-09 Xerox Corporation Large scale unsupervised hierarchical document categorization using ontological guidance

Also Published As

Publication number Publication date
WO2021199052A1 (en) 2021-10-07
EP4127957A1 (en) 2023-02-08
US20230142351A1 (en) 2023-05-11
EP4127957A4 (en) 2023-12-27

Similar Documents

Publication Publication Date Title
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
Jung Semantic vector learning for natural language understanding
US11929066B2 (en) Intent-based conversational knowledge graph for spoken language understanding system
US10282419B2 (en) Multi-domain natural language processing architecture
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN112131449A (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
US20210374168A1 (en) Semantic cluster formation in deep learning intelligent assistants
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
US20210272013A1 (en) Concept modeling system
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
CN111783861A (zh) 数据分类方法、模型训练方法、装置和电子设备
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN115335819A (zh) 用于搜索和检索信息的方法和系统
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
WO2023102831A1 (en) Systems and methods to search for digital twins
Shafi et al. [WiP] Web Services Classification Using an Improved Text Mining Technique
CN112328653B (zh) 数据识别方法、装置、电子设备及存储介质
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
CN112632962A (zh) 人机交互系统中实现自然语言理解方法和装置
Shishaev et al. Application of neural network language models based on distributive semantics for ontological modeling of the domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination