CN110023924A - 用于语义搜索的设备和方法 - Google Patents

用于语义搜索的设备和方法 Download PDF

Info

Publication number
CN110023924A
CN110023924A CN201780069862.1A CN201780069862A CN110023924A CN 110023924 A CN110023924 A CN 110023924A CN 201780069862 A CN201780069862 A CN 201780069862A CN 110023924 A CN110023924 A CN 110023924A
Authority
CN
China
Prior art keywords
text document
text
inquiry
document data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780069862.1A
Other languages
English (en)
Inventor
迈克尔·纳特雷尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denimel Oktimen Co Ltd
Original Assignee
Denimel Oktimen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denimel Oktimen Co Ltd filed Critical Denimel Oktimen Co Ltd
Publication of CN110023924A publication Critical patent/CN110023924A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种用于比较文本文档的计算机实现方法。方法包括建立包含与多个第一文本文档相关联的第一文本文档数据的数据库。方法进一步包括接收查询。方法还包括将所述查询转换为第二文本文档数据。方法还包括将第二文本文档数据与第一文本文档数据进行比较及计算第二文本文档数据与第一文档数据之间的至少一个相似性度量。进一步公开的是用于处理文本文档中的相似性的计算机实现方法。方法包括协调至少一个传入查询。进一步包括归一化至少一个传入协调查询。方法还包括使用至少一个归一化的协调查询建立至少一个查询向量。方法还包括计算至少一个查询向量与至少一个另一文本文档之间的至少一个相似性度量,其中,至少一个另一文本文档进行了前述步骤。还公开了一种计算机实现的系统。系统包括至少一个内存器组件,该内存器组件适于至少保存包含与第一文本文档相关联的多个第一文本文档数据的数据库。系统还可以包括适于接收查询的至少一个输入装置。查询包括第二文本文档和/或识别第二文本文档的信息。第二文本文档与包含在已存储在内存器组件中的第一文本文档数据中的第二文本文档数据相关联。系统进一步包括适于将查询转换为第二文本文档数据和/或从至少一个内存器组件中的存储中检索与查询相关联的第二文本文档数据的至少一个处理组件。处理组件还适于将第二文本文档数据与存储在至少一个内存器组件中的第一文本文档数据进行比较。系统还包括适于返回识别与第一文本文档数据相关联的至少一个相似的第一文本文档的信息的至少一个输出装置。相似的第一文本文档是第一文本文档中与查询最相似的。

Description

用于语义搜索的设备和方法
技术领域
本发明涉及数据分析和转换领域。具体地,本发明涉及语义搜索。更确切地说,本发明描述了适用于在语义上比较文本文档的搜索引擎。
背景技术
由于这种档案库的出现(尤其是在互联网中),搜索容纳大量数据的档案库或数据库中的相似文献已成为最难解决的问题之一。这种问题的一种解决方案是在所有可获得的文献中搜索用户精确定义的关键词的强力方式。这种方式在处理能力上有效,但却存在一些限制:取决于所探讨的主题,相同的关键词可以指极其不同的事物,同义词或相似表述的使用是指已重复多次以便获得所有相关发现的搜索。
在关于现有技术搜索的更具体的实例中,通常通过IPC(国际专利分类法)类别、通过CPC(协同专利分类)类别、或通过每个专利列出的引用文献来完成相似专利的搜索。这种方式可能得到一些相关的发现,但可能错过更新近(且还没被引用过)的相似文献,或给出太多不太相关的发现(在通过IPC或CPC类别搜索的情况下)。
一种梳理文档相似性的更为周密的方式可通过语义搜索来实现。这类搜索将考虑到同义词、由一个以上的词语组成的表述、某一领域特定的技术术语并且将将它们全部组合在一起以便进行更精确的相似性比较。可使用不同的术语或文本将被定义为向量的多维向量空间完成这类搜索,并且在该向量空间中直接进行相似性比较。
美国专利8,688,720公开了对于概念相关词的群集表征文件的一种系统。在接收包含词语集合的文档时,系统选择与所述词语集合相关的概念相关词语的“候选群集”。这些候选群集是使用解释词语集合是如何从概念相关词语的群集中产生的模型选择的。然后,系统构建分量集合以表征文档,其中,文档集合包括候选群集的组件。分量集合中的每个分量指示相应候选群集涉及词语集合的程度。
美国专利8,935,230公开了一种方法、机器可读存储介质、以及用于提供自学习语义搜索引擎的系统。可以用初始配置建立语义网络。耦接到语义网络的搜索引擎可以构建索引和语义索引。可以接收商业数据的用户请求。可以经由语义调度器访问搜索引擎。基于所述访问,搜索引擎可以更新索引和语义索引。
美国专利申请2014/280088描述了用于搜索由文档集合、术语集合、以及与每个术语和每个文档相关联的向量组成的数据集合的一种系统和相关方法。方法涉及将搜索查询转换为术语和文档向量所扩月的向量空间中的向量,并且合并向量近似匹配搜索和术语搜索以产生结果集合,该结果集合可根据查询相关性的各种测量排序。
发明内容
本发明在权利要求以及以下的说明书中说明。优选实施方式具体在从属权利要求和各种实施方式的描述中说明。
在下面的实例中进一步描述了以上特征以及本发明的补充细节,其旨在进一步示出本发明而非旨在以任何方式限制其范围。
根据已知现有技术,本发明的目的因此在于公开利用以下要素中的至少一些进行语义搜索的一种方法和设备:
1)实现对技术语言词性标注进行专门设计(具体地,训练)、清理文本、删除停止词、将词语减少至主干和短语、校正拼写错误、协调语言风格、校正同义词、清理OCR(光学字符识别)误差、执行多分量加权及使用不同的相似性指数的不同的方式;
2)集成词汇和语义算法的分析与假设;
3)同时考虑并实现不同的文本相关信息和不同的算法;
4)分析跨越所有技术领域的文本;
5)实现文本相似性度量与书目特征之间的连接;
6)集成相似性确定的基于文本的方法和书目提要方法。
在本文档中,词语“关键词”、“术语”及“语义单元”可以互换使用。此外,词语“关键词”或“术语”可指一种表述而非单个的词语。
在第一实施方式中,本发明公开了一种用于比较文本文档的计算机实现方法。方法包括建立包含与多个第一文本文档相关联的第一文本文档数据的数据库。方法进一步包括接收查询。方法还包括将所述查询转换为第二文本文档数据。方法还包括将第二文本文档数据与第一文本文档数据进行比较及计算第二文本文档数据与第一文档数据之间的至少一个相似性度量。这种相似性度量例如可包括相似性指数。可有利地呈现相互比较文本文档的一种可以计量的方式。
应注意,查询可以包括第二文本文档,在这样的情况下,该第二文本文档可以转换为第二文本文档数据。然而,查询也可以仅识别已经容纳在数据库中作为第一文本文档数据的一部分的第二文本文档。在这种情况下,第二文本文档数据已经存在,并且应仅从数据库中检索并且与包含在数据库中的其他数据进行比较。
本方法允许将可分析且可与其他数据进行量化比较的文本文档转换为数据的有效且可靠的方式。优选地,可通过计算设备以优选并行化方式进行转换和比较。所描述的方法可以在用户界面可接入的服务器上实现。其可用于允许用户识别用于各种用途的相似的文本文档。
在一些优选实施方式中,第一文本文档数据包括由包含在第一文本文档中的关键词生成的文档向量和/或与所述关键词语义相关的词语。即,每个第一文本文档可以与存储在数据库中的文档向量相关联。
数据库可以或可以不包括第一文本文档本身。有利地仅存储与第一文本文档相关联的文档向量以将存储空间存储在数据库中。相反,有利地是,还存储第一文本文档以便进行容易且快速的检索作为例如查询的响应。
例如,与所述关键词语义相关的词语可以包括同义词、上位词和/或下位词。为了正确地识别语义相关词,可以使用外部数据库。这些可以是通用的和/或主体特定的。
在一些实施方式中,查询可以包括第二文本文档。此外或可替换地,查询可以包括识别与已经存储在内存器组件中的第二文本文档数据相关联的第二文本文档的信息。在第二种情况下,仅可从数据库中检索到与所述第二文本文档相关联的第二文本文档数据并且然后与数据库中剩余的第一文本文档数据进行比较。应注意,在这种情况下,第二文本文档数据可以包括在第一文本文档数据中并且以不同的方式相称以避免混淆。
在一些实施方式中,将查询转换为第二文本文档数据可以包括协调查询。在一些优选实施方式中,协调可以包括校正打字错误、选择特定拼写规范和物理单位规范并且基于此调整文本,和/或以标准方式表示式(例如,化学式、基因序列和/或蛋白质表示)。这可有利地允许与同一主题相关的文本文档之间更可靠的比较,不过使用不同的规范或不同的单位。
在一些实施方式中,将查询转换为第二文本文献数据可以包括归一化查询。在一些优选实施方式中,归一化包括识别并且删除停止词,将词语减少至常用词干、分析同义词的词干和/或识别词语序列和复合词。
在一些实施方式中,归一化查询可以包括从外部数据库中检索至少同义词、上位词、下位词、停止词和/或主题特定的停止词并且至少部分地基于所述术语语生成查询的关键词列表。可存在通过主题分开的一个或多个外部数据库。这可能是有利的,因为词语可以包括不同的含义,这取决于主题。例如,如“输送系统(delivery system)”的表述可具有完全不同的含义,这取决于其是在物流还是药物的背景中使用。
因此,相应的同义词、上位词、下位词和/或其他语义相关的词语也可以是不同的,这取决于所讨论的技术区。作为另一个实例,考虑本发明用作语义搜索工具的一部分的实施方式,尤其是专利文献的背景下的现有技术。专利申请和许可具有非常特定的词语,其能够在关于完全不同的主题的文献中重复。如“权利要求”、“包括”、“设备”、“实施方式”的词语可以视为专利文献特定的停止词并且可以从查询中删除。在数据库包括专利文献的实施方式中,所述特定停止词也可以在将它们转换为第一文本文献数据的过程中(即,在建立或创建数据库的过程中)从所有第一文本文献中删除。在一些实施方式中,可以通过删除停止词和/或主题特定的停止词并且包含查询的词语的同义词、上位词和下位词中的至少一个而生成查询的关键词的列表。
在一些实施方式中,将查询转换为第二文本文献数据可以包括生成至少一个查询向量。例如,查询向量可包括有关查询的关键词的信息。即,查询向量的分量可对应于查询的关键词和/或它们的语义相关词(如,同义词)。应注意,在本文献中,“关键词”可以指包括在查询中的实在字和/或它们的语义相关词(如,同义词、上位词和/或下位词)。在一些这类实施方式中,查询向量可通过识别关键词和/或查询中的关键词的同义词并且利用多维向量空间中的向量的分量识别所述关键词而生成。在一些实施方式中,查询向量可以包括100至500个分量,优选地,200至400个分量,甚至更优选地,200至300个分量。即,在一些这类实施方式中,并非每个关键词和相关联的语义相关词与查询向量的分量相关联。例如,这可能意味着关键词先被评估然后基于不同的参数加权,并且然后丢弃低权重的关键词。这可能特别有利,因为减少对查询向量起作用的关键词的数量能够显著降低对操纵查询向量来说所必须的所需计算能力,如在将其与文档向量相比时。应注意,文档向量可以类似地包括100至500个分量,优选地,200至400个分量,甚至更优选地,200至300个分量。包含在数据库中并且与第一文本文档(在一些实施方式中,包括文档向量)相关联的第一文档数据可通过识别关键词或语义单位并且基于与它们相关联的熵每第一文本文档将它们的数量减少至一百或几百与查询向量相似地生成。
在一些优选实施方式中,可为关键词分配权重。在这种实施方式中,可至少部分地基于查询的一般主题分配权重。即,可为同一术语、关键词和/或语义单位分配不同的权重,这取决于文本文档的上下文或主题。即,例如,可对术语“频率”进行不同的加权,取决于查询是否为电信的主题,其可能是指电磁波频率或者在药物的主题中其可能是指某物多久出现一次。在第一文本文档数据包括文档向量的实施方式中,这也可应用于与第一文本文档相关联的文档向量。即,可以基于主题为包括在第一文本文档中的关键词、术语和/或语义单位或包括在这些当中的语义相关词分配不同的权重。这是特别有利的,因为其使得能在第一文本文档与查询之间进行更有意义的比较。应注意,可以若干方式进行确定特定的文本文档属于哪个技术区。如果所讨论的文献包括专利文献,可以使用其分类。即,可以使用给出文献的IPC和/或CPC分类以便为其分配某种技术区。另一种方式可以是识别在某些地区尤其常见的某一主题或区域特定的术语、关键词和/或语义单位(外部数据库也可以用于该目的),并且然后基于这些主题特定的术语的存在将文本文档分配给技术区。
在一些实施方式中,计算相似性度量包括应用余弦指数、Jaccard指数、切块指数、包含指数、皮尔森相关系数、Levenstein距离、Jaro-Winkler距离和/或Needleman-Wunsch算法中的至少一个或其组合。即,尤其在第一文本文档数据包括文档向量并且第二文本文档数据包括查询向量的实施方式中,可通过计算在多维向量空间中它们之间的距离而将这两者进行比较。这可使用若干不同的距离定义来完成。应注意,不同的距离定义可以用于不同的目的。
在一些优选实施方式中,比较文本文档的方法还包括使用至少一种统计算法验证至少一个相似性度量。方法可以进一步包括输出至少一个相似性度量。即,再次考虑比较专利文献的实例。专利申请和/或许可通常包括其他相似文献的引用。这些引用通常在文献本身中引用或随后由审查员提供。引用用作现有技术,这会意味着它们与文献非常相似。以这种方式,可以通过验证查询与在该特定的第一文本文档中给出的引用之间的相似性度量而测试查询与某一第一文本文档之间的相似性度量。如果相似性度量可靠,能预料到该验证将会得出查询与引用之间相似的相似性度量。
在一些实施方式中,查询可以从用户界面接收并且可经由所述界面返回相似性度量。这种界面可以包括应用、程序和/或基于浏览器的界面。即,该方法可以作为程序的一部分实现从而使得用户能够定量地且可靠地比较各个文本文档的相似性。
在一些实施方式中,数据库包括专利文献相关的文本文档并且建立数据库和/或转换查询包括删除与专利文献相关的文本文档相关联的停止词。如上所述,这种专利文献特定的停止词可以包括词语如“权利要求”、“设备”、“实施方式”、“包括”及相似的词。在一些实施方式中,可以通过计算与包含在第一文本文档数据和/或查询中的术语相关联的熵并且删除低熵的术语而删除专利相关的停止词。这在下面进一步讨论。
在一些优选实施方式中,方法可以进一步包括生成术语向量,该术语向量包括从多个第一文本文档提取的关键词。即,术语向量可以基于包含在数据库中并且与第一文本文档相关联的第一文本文档数据生成。术语向量可以基于包含在所有第一文本文档中的所有关键词、术语和/或语义单位生成。在这种实施方式中以及在第一文本文档数据可以包括文档向量并且第二文本文档数据可以包括查询向量的实施方式中,可以相对于术语向量的分量生成文档向量和查询向量的分量。即,术语向量可提供潜在共同点以便将查询与第一文本文档进行比较。换言之,术语向量可以定义相对其可完成比较的多维向量空间。这是特别有利的,因为其允许在不同的文本文档之间进行定量数学比较。
在一些实施方式中,第二文本文档数据与第一文档数据之间的相似性度量可通过使用余弦指数来计算以便计算查询向量与文档向量之间的距离。如上所述,余弦指数可以用于计算多维向量空间中的距离。由于其可减小到两个向量的内积,这一点是特别有利的。由于这种操作可以容易实现,这可显著减少比较的计算时间。
在第二实施方式中,本发明公开了用于处理文本文档中的相似性的计算机实现方法。方法包括协调至少一个传入查询。进一步包括归一化至少一个传入协调查询。方法还包括使用至少一个归一化的协调查询建立至少一个查询向量。方法还包括计算至少一个查询向量与至少一个另一文本文档之间的至少一个相似性度量,其中,至少一个另一文本文档进行了前述步骤。
应注意,另一文本文档也可以称为第一文本文档。进行前述步骤可能意味着另一文本文档或第一文本文档已被协调、归一化、并且已建立文档向量。
本方法有利地允许将由文本组成的任意查询转换为可与其他数据进行定量比较的数据以便对其他数据的查询的相似性进行评估。优选地,这由计算设备执行,该计算设备具有与存储在其存储器中的各种文本文档相关联的数据并且可对其进行检索以便与传入查询进行比较。然后可使用各种技术和通过计算设备实现的算法来分析查询的文本。
在一些优选实施方式中,文本文档可以包括技术文本、科学文本、专利文本、和/或产品说明中的至少一个或组合。
在一些实施方式中,协调可以包括校正打字错误、选择特定拼写规范和物理单位规范并且基于此调整文本,和/或以标准方式表示式(例如,化学式、基因序列和/或蛋白质表示)。
在一些实施方式中,归一化可以包括识别并且删除停止词,将词语减少至常用词干、分析同义词的词干和/或识别词语序列和复合词。在这种实施方式中,归一化可以进一步包括优选通过计算所述类型的多个文本文档中的关键词的熵并且删除具有低熵的关键词而识别和删除与某种类型的文本文档相关联的停止词。
在一些实施方式中,计算相似性度量可以包括应用余弦指数、Jaccard指数、切块指数、包含指数、皮尔森相关系数、Levenstein距离、Jaro-Winkler距离和/或Needleman-Wunsch算法中的至少一个或组合。这种算法允许文本文档之间的基于由多维向量空间中的文本文档生成的数据的距离的定量比较。
在一些实施方式中,方法可以进一步包括使用至少一种统计算法验证至少一个相似性度量。其可以进一步包括输出至少一个相似性度量。
应注意,第一和第二实施方式可以是互补的。即,作为第一实施方式的一部分呈现的实施方式可以是第二实施方式的一部分,反之亦然。
在第三实施方式中,本发明公开了一种计算机实现的系统。系统包括至少一个内存器组件,该内存器组件适于至少存储包含与第一文本文档相关联的多个第一文本文档数据的数据库。系统还可以包括适于接收查询的至少一个输入装置。查询包括第二文本文档和/或识别第二文本文档的信息。第二文本文档与包含在已存储在内存器组件中的第一文本文档数据中的第二文本文档数据相关联。系统进一步包括适于将查询转换为第二文本文档数据和/或从至少一个内存器组件中的存储中检索与查询相关联的第二文本文档数据的至少一个处理组件。处理组件还适于将第二文本文档数据与存储在至少一个内存器组件中的第一文本文档数据进行比较。系统还包括适于返回识别与第一文本文档数据相关联的至少一个相似的第一文本文档的信息的至少一个输出装置。相似的第一文本文档是第一文本文档中与查询最相似的。
应注意,查询可优选地包括两种形式之一。在第一种形式中,查询可以包括第二文本文档,那么在这样的情况下该第二文本文档可进行适当转换并与第二文本文档数据相关联。在第二种形式中,查询可以包括已经容纳在数据库中的第二文本文档的参考文件。例如,如果数据库包括专利文献,查询可以包括可识别特定的第二文本文档的专利申请号或许可号。这可以是作为的“识别第二文本文档的信息”。在第一种情况下,第二文本文档数据然后可包括与查询包括在内的第二文本文档相关联的数据。在第二种情况下,可以基于查询的识别信息从数据库检索第二文本文档数据。在第二种情况下,第二文本文档数据可以包含在第一文本文档数据中。
换言之,本文中所描述的系统被配置为经由输入装置接收任意基于文本的查询的输入,验证查询是否可与存储在存储器中的文本文档数据相关联,如果是这样的话则检索该数据,否则将查询转换为这种数据。系统进一步被配置为将查询与存储在存储器中的其他文献进行比较。可通过处理组件经由不同算法的实现进行比较。系统也可以经由输出装置以与查询最紧密关联的文本文档的形式输出比较的结果。可在转换数据的层次上完成比较本身(如在上文和下文所概述,该数据可包括多维向量空间中的点),而输入和输出可包括实际文本文档或它们的识别符(如论文的标题、专利号等)。
在一些实施方式中,第一文本文档数据可包括多个文档向量并且第二文本文档数据可包括查询向量。应注意,再次参考可进行查询的两种形式,查询向量可以由查询所包括的第二文本文档的文本生成或者从数据库检索。在第二种情况下,由于查询向量已存储在数据库中,因此其可以是文档向量中的一个。为了清楚和一致,本文中使用的术语“查询向量”适用于这两种情况。在优选实施方式中,各个第一文本文档可与可存储在数据库中的文档向量相关联。数据库可存储第一文本文档和相应文档向量,或仅存储文档向量。
在一些实施方式中,内存器组件可以包括与科学论文和/或技术说明和/或专利文献和/或产品说明相关联的第一文本文档数据。换言之,第一文本文档可以包括专利文献、科学论文、和/或技术说明。优选地,数据库可以包括至少专利文献相关的第一文本文档数据。
在一些实施方式中,第二文本文档数据可以通过协调并且归一化第二文本文档及创建至少一个查询向量而获得。在上文和下文中更详细地描述协调和归一化。
在一些实施方式中,第一文本文档数据与第二文本文档数据之间的比较可得出相似性指数。在一些这类实施方式中,输出装置可返回与多个第一文本文档相关联的通过相似性指数按照从最相似到最不相似排序的信息,与第一文本文档数据相关联的第一文本文档与第二文本文档数据产生最高的相似性指数。即,系统可适于输出包括与查询最相似的一定数量的第一文本文档的列表。在第一文本文档包括专利文献的情况下,作为执行现有技术搜索的方法,这是特别有利的。应注意,输出的第一文本文档可以存储在数据库中,和/或作为识别它们的信息(如专利申请或许可号)而输出,和/或作为可访问文献的外部数据库的链接而输出。此外,同样有利的是输出最相似的第一文本文档的某些部分。例如,可以输出标题和/或摘要和/或图中的一个。
在一些实施方式中,相似性指数可基于文本文档之间的词汇和/或语义比较。即,相似性指数可定量地指示文本之间的相似性。这例如可指查询和第一文本文档中存在的关键词和/或语义单位的数量。应注意,可通过例如计算向量空间中的向量之间的距离获得相似性指数。然而,可基于词汇和/或语义参数获得向量本身。因此,还可以基于那些参数考虑相似性指数。
在一些实施方式中,在协调和归一化传入第二文本文档的过程中,处理组件可识别关键词。关键词可以包括与文本文档的内容显著相关的词语。关键词可以包括词语的主干(作为归一化的一部分获得的)、复合词、和/或一串语义连接的词语。关键词也可以包括实际上并不在文本文档中但却是同义词的词语,或者其他语义地链接的词语到包含在文本文档中的词语。
在一些实施方式中,处理组件可基于熵算法为关键词分配权重。即,一些关键词由于在文献中出现的频率和/或在特定技术区的相关性可以排得更高。这样的话,当将第一文本文档数据与第二文本文档数据进行比较时,可以使用分配给关键词的权重。即,与具有较低权重的关键词相比,具有较高权重的关键词对文献之间的相似性和/或相似性指数的贡献可更大。由于考虑到词语在上下文中的频率和特定含义时确定文本之间的相似性,这是特别有利的。这能够导致更具鲁棒性的比较测量。
在一些实施方式中,处理组件可适于将第二文本文档划分为用于并行化计算的至少两部分,优选地,划分为至少四部分。由于其允许提高处理速度,并且因此效率更高,这是有利的。
在一些实施方式中,处理组件可以包括至少两个,优选地,至少四个,更优选地,至少八个内核。这可以进一步提高查询可被处理的速度。
在一些实施方式中,处理组件可适于定期更新存储在内存器组件中的第一文档数据。即,可用新的第一文本文档更新数据库。
在一些实施方式中,输入装置可以进一步适于通过列出相似的文本文档必须包括和/或不必包括的词语和/或句子而允许指定查询。换言之,再次考虑现有技术搜索的实例。能够指定必须必定包括在与查询相似的文本文档中的词语或表述尤其有用。此外或可替换地,指定不可包含在相似的文本文档中的词语是非常有用的。
在一些实施方式中,输入装置可以进一步适于通过指定待输出的最相似的文本文档的数量而允许指定查询。
在一些实施方式中,内存器组件可以包括RAM(随机存取存储器)。结合图1进一步讨论。
在一些实施方式中,内存器组件可以进一步包括生成术语向量,该术语向量包括从多个第一文本文档提取的关键词。上文结合第一实施方式描述了术语向量。在一些这类实施方式中,处理组件可适于相对于术语向量的分量生成文档向量和查询向量的分量。在一些这类实施方式中,其中第一文本文档数据包括文档向量并且第二文本文档数据包括查询向量,处理组件可适于使用余弦指数将第二文本文档数据与第一文本文档数据进行比较以便计算查询向量与文档向量之间的距离。
下面是本发明的一个实施方式的更正式的讨论。具体地,阐明了如在本发明的上下文中可以使用的熵的概念,并且给出了量化不同的文本之间的相似性的一种方式。
熵E(t)可以用于去除专利文献特定的停止词。即,如“权利要求”、“装置”、“发明”、“包括”或其他相似的词语。可使用以下表述:
在以上的表述中,n是指专利和/或文献的总数,i和j是参照专利和/或文献的指数,fit表示术语t在专利和/或文献i中的频率,以及fjt的和指的是在所有的专利和/或文献中的术语t的频率。E(t)的值落入零与一之间。可对在文献之间非常具体地但不均匀低分配的术语加权高熵值。熵值越高,术语可传送的信息越多。可单独计算摘要、权利要求、标题、说明书及它们所有的组合的专利特定的停止词列表。由于专利的权利要求与例如说明书制定地非常不同,因此区别是重要的。
在通过删除各种停止词并且阻止他们识别关键词之后,关键词可实施于向量空间模型中。文献然后可被表示为多维空间中的对象。维度可由关键词或术语表征。以这种方式,每个文献均可描述为多维空间中的点和/或向量。这个点的每个分量的值可表示在该文献中遇到的特定关键词或术语的次数。可以这种方式创建术语向量T使得其一次精确地包含所有考虑到的文献的所有术语或关键词:
T=(t1,t2,…,tm)
即,总共m术语或关键词可包含在所有考虑到的第一文本文档中。基于该向量,可生成术语文献矩阵(TDM)。TDM可以下面的形式包括n个文献和/或专利中的每一个作为表示术语向量T的权重的行向量:
这意味着可通过可称为文档向量的数字权重向量di描述文献i。文档向量可涉及权重如下:
di=(w11,...,w1m)
布尔表达式中缩短的文档向量例如可以看起来如下:
di=(0,0,0,0,0,0,0,0,0,1,1,0,0,1,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0)
由于术语向量一次精确包括所有文献中的每个术语或关键词,文档向量的大多权重元件wit具有零值。这会在实施向量空间模型的过程中导致两个问题。第一,空值占据不必要的内存,第二,在文本文档的比较过程中向量的操纵导致与空值不必要的相乘。因此,更有利且更具实用性的是呈现文档向量di作为坐标权对集合(cit;wit)。以上表述的文档向量然后可以写成:
di={(10;1),(11,1),(14;1),(18;1),(19;1)}。
两位字节的第一部分表示坐标cit,并且描述了在术语向量T中的位置和/或索引。在该表示中,TDM矩阵可以包括两位字节作为其元件wij中的每一个并且可考虑张量。
以这种方式,每个文献可以表示为向量空间中的向量。通常,包含文献的整个集合或数据库的术语向量可以包括百万或更高分量。然而,每个文献可转换为约100-500个分量的文档向量。即,每个文献关键词的数量可以这种方式减少使得文档向量可以包括约100-500个关键词。
向量空间方法使得能够通过基于文本中存在的关键词将它们与多维向量空间中的点和/或向量相关联而量化不同的文本文档。然后,可通过计算它们在向量空间中的接近度比较不同的文本。这例如可使用在下面给出用于参考的余弦指数CI完成。
附图说明
技术人员应该理解描述如下的附图仅用来举例说明。这些附图不是用来以任何方式限制本教导的范围。
图1示出了根据本发明的一个方面的用于语义搜索的设备的实施方式。
图lb示意性描绘了将查询转换为文本文档数据的一个实施方式。
图lc示意性描绘了失量空间模型的可视化的一个实施方式。
图2描绘了根据本发明的一个方面的用于语义搜索的方法的实施方式。
具体实施方式
在下文中,将参照附图描述本发明的示例性实施方式。提供这些实例以便提供对本发明进一步的理解,而非对本发明的范围进行限制。
在以下描述中,描述了一系列的特征和/或步骤。技术人员将了解除非上下文需要,否则特征和步骤的顺序对于得到的配置及其效果并不重要。此外,对于技术人员将显而易见的是,无论特征和步骤的顺序如何,所描述的步骤中的一些或全部之间可以呈现步骤之间存在或不存在时间延迟。
参照图1,示出了本发明的设置的实例。附图描绘了根据本发明的一个方面的计算机实现的系统10。
计算机实现的系统10包括内存器组件20。内存器组件20可以包括标准计算机存储器(诸如,RAM)。此外或可替换地,内存器组件20可以包括非易失性内存器组件,诸如,硬盘驱动器,服务器上的存储器、闪存、光驱动器、FeRAM、CBRAM、PRAM、SONOS、RRAM、赛道存储器、NRAM、3D XPoint、和/或千足虫(millipede)存储器。
内存器组件20可以包括第一文本文档数据21。第一文本文档数据21可以包括文档向量。文档向量可由文本文献构建。即,每个文本文档可通过识别文献中的关键词映射至文档向量。一个文档向量可以包括包含单独的关键词的100-500个分量(即,维度)。
计算机实现的系统10还可以包括处理组件30。处理组件30可适于接收第二文本文档数据31并且将其与第一文档数据21进行比较。第二文本文档数据31还可以包括文档向量。例如,其可以包括用户定义的查询,和/或用户给出的文本文档的识别(诸如,专利号)。第二文本文档数据31可以包括已经成为第一文本文档数据21的一部分的文档向量。例如,用户界面可以用于搜索与特定的专利和/或专利申请相似的已经成为计算机实现的系统10中的数据库的一部分(即,已经成为内存器组件20中的第一文本文档数据21的一部分)的专利和/或专利申请。
处理组件30可适于从输入装置40接收查询41。即,查询41例如可以经由在这种情况下将用作输入装置40的应用程序中的用户界面、程序和/或基于浏览器的界面而键入。查询41可以包括第二文本文档的文本和/或特定识别(如上所述,例如,这可以包括专利和/或专利申请号)。在已接收查询41的情况下,处理组件30可通过例如识别查询内的所有关键词、删除停止词、阻止及生成查询的文档向量而将其转换为第二文本文档数据31。如上所述,如果查询识别已成为内存器组件20内的(第一文本文档数据21的)数据库的一部分的文献,则处理组件30可仅检索与第二文本文档数据31相连的文档向量。处理组件30然后可将第二文本文档数据31与内存器组件20中的所有的第一文本文档数据进行比较。优选地,其可基于多维向量空间中的文档向量之间的距离识别最相似的文献(利用它们各自的文档向量识别)。
在已识别第一文本文档数据21中的最相似的文献的情况下,处理组件可将结果发送至输出装置50。输出装置50随后可输出和与查询41最相似的第一文本文档数据21相关联的至少一个相似的第一文本文档51。当然,输出装置50可输出基于它们与查询41的相似性而排序的多个相似的第一文本文档51。例如,输出装置50可以包括经由计算设备可接入的界面,诸如,程序、应用程序和/或基于浏览器的界面。
图lb示意性描绘了将查询41转换为文本文档数据的一个实施方式。这一过程可在处理组件30中进行,处理组件可以包括例如与计算设备相关联的CPU。此外或可替换地,例如,处理组件可以包括用于并行处理的多个CPU和/或具有多个内核的CPU。查询41可从输入装置40(此处未示出)传送至处理组件30。查询41可先被协调以便获得协调的查询43。上文描述了协调的过程。协调查询43然后可归一化以便获得归一化的协调查询45。上文还更详细地描述了归一化的过程。
归一化的协调查询45(个别是协调的归一化查询43)随后可转换为查询向量47。查询向量47可通过将归一化的协调查询45的关键词或“术语”与多维向量空间中的分量或维度相结合而生成。然后可将查询向量47与可存储在内存器组件20(此处未示出)中的文档向量27进行比较。
应注意,文档向量27在本文献中可指第一文本文档数据21。为了清晰起见,可使用术语“文档向量”,以使技术读者理解多个不同的文档向量所指。例如,可基于多维向量空间中的距离进行查询向量47与文档向量27之间的比较。当然,对于这种比较,查询向量47和文档向量27两者应处于相同的向量空间中,即,由相同的维度定义的空间。为了实现这一点,包括在内存器组件20(未示出)中的数据库可以包括术语向量。术语向量可以包括存储在数据库中的所有第一文本文档中存在的每个术语或关键词的一个组件或一种一个维度。查询向量47以及文档向量27然后可相对于术语向量的维度或分量指示各自在特定文献中存在于查询41中的关键词或术语。以这种方式,可生成独特且一致的向量空间。这将在上面进行更详细地解释。
图lc示意性描绘了向量空间模型的可视化的一个实施方式。应注意,该图解说明仅用于澄清的目的,并且未对应于向量空间模型的数学描述。术语向量7示意性地示出为圆形。术语向量7可以包括多个关键词或术语。可以从多个文本文档中提取这些关键词或术语。在优选实施方式中,术语向量7包括来自包括在数据库中的所有文本文档的所有关键词(即,来自第一文本文档的所有关键词)。这在附图中通过大圆表示。查询向量47可由查询41(此处未示出)中的关键词生成。应注意,在本示意图中,查询向量47完全包含在术语向量7中,这意味着查询41所包含的所有关键词均包含在第一文本文档中,该第一文本文档包含在数据库中并且由其生成术语向量7。然而,不一定是这种情况。查询41包括未包含在第一文本文档中的关键词也是完全可能的,因此查询向量47不必完全在由术语向量7的关键词生成的向量空间中。然而,若是这种情况,未包含在术语向量7中的查询41的关键词将导致与任意第一文本文档没有相似性,并且因此可忽略它以便找到最相似的第一文本文档。因此,查询向量47可以视为仅使用在检索词向量7中已经考虑的关键词生成。应注意,还可以使用关键词的同义词用于语义相似性比较。
文档向量27被描绘为与查询向量47有交集。这指的是它们包括一些相同的关键词和/或它们的同义词。因此,可在查询向量47与文档向量27之间生成非零相似性度量。然而,文档向量27'被描绘为与查询向量47没有交集。这指的是查询41和文本文档与文档向量27'相关联,不共享任意关键词或它们的同义词。这可以意味着可为查询向量47和文档向量27'分配空相似性度量。
图2示意性示出了根据本发明的一个方面文本文档中的相似性的语义处理的方法的实施方式。该附图示出了描述将传入文档与现有池或所存储文档的数据库进行比较的步骤的流程图。
作为示例性情景,考虑到使用某种文本的用户,某种文本例如可以是专利和/或专利申请。用户需要所谓的“现有技术搜索”。即,用户需要获取或查找与他们所拥有的文本内容接近的其他专利文献。然后,用户可按下列方式使用本发明。他们可将有问题的传文本文档发送或上传导系统。例如,这可经由界面完成。在一个实施方式中,如本文中描述的系统可以包括用于接收查询的基于应用或基于浏览器的界面。用户然后可使用界面将查询发送至系统,在这点处可发生以下步骤。
在S1中,可协调传入文本文档或查询。即,可以纠正拼写错误。此外,拼写可以归一化。例如,一种规范可选自英国和美国拼写规范,并且在这两种规范中不同的所有的词语均可转换为所选择的一种。即,如“颜色(color)”、“剧院(theatre)”的词语可以转换为“颜色(color)”和“剧院(theater)”或反之亦然。此外,协调可以包括将不同的物理单位转换为一个标准的物理单位和/或一种特定的物理单位。例如,英寸可以转换为米,英磅可以转换为公斤等。此外,协调可以包括将诸如化学式、基因序列和/或蛋白质表示的公式转换为标准符号。
在S2中,传入文本文档可以归一化。这可包括隔离包含在文献的文本中的停止词并且将它们删除。停止词可以包括词语,诸如,“和”、“第一”、“然而”。停止词也可以是待分析的文本文档的类型。例如,专利文献包括存在于大多专利文本文档中的词语,诸如,“权利要求”、“实施方式”、“设备”。这些词语可类似地被识别出并且在归一化步骤过程中被删除。此外,归一化可以包括将词语减少至它们的主干。即,诸如“计算机”和“计算”的词语可例如简化为它们的常用主干。然后,针对同义词可分析主干。此外,次序和复合词在归一化步骤过程中可识别出的。即,可识别词语(诸如,“纸夹”),且出于填塞的目的并不分离,以便一起保持复合词的含义。
在S3中,使用可首先被协调和/或归一化的文本文档构建文档向量。文档向量可以是包含有关哪些“术语”的信息的多维向量,即,词干及它们的同义词包含在文本文档中。这在上文进一步说明。应注意,在一些实施方式中,文档向量也可以包括张量。
在S4中,所生成的文档向量可以用于计算传入文本文档与所存储文本文档之间的相似性度量。即,传入文本文档或确切地说其文档向量可与包含转换为文档向量之前的文本文档的数据库进行比较。应注意,为了具有公共基线以便在不同的文档向量之间进行比较,可存在包含数据库中的所有文本文档中所包含的所有“术语”(即,词语和/或主干和/或同义词)的一个“术语向量”。
然后,各个文档向量可仅指示包含在术语向量中的那些术语存在于所给出的文档中。术语向量则可定义多维向量空间,其中,每个术语可以包括一个维度。各个文档向量均可表示或可视化为该多维向量空间中的点或向量。为了将由传入文本文档生成的文档向量与包含在数据库中的各个文档向量进行比较,可计算它们之间的距离。应注意,计算向量空间中的向量之间的距离可以是获得传入文档与所存储的文本文档之间的相似性度量的一种方式或一部分。然而,还可以存在基于词汇和/或语义分析这样做的其他方式。此外,还可存在包含在相似性度量中的其他变量。例如,基于它们在文档中出现的频率和/或基于文档然后可归并到文档向量中的技术区对关键词进行加权,并且因此在相似性度量中起作用。此外,可以使用文本文档的数目变量。在专利文献的具体实例中,这些可以包括IPC类别、CPC类别、申请人、发明人、专利律师、引证、引用、共同引证和共同引用信息、图像信息。
在S5中,可以输出相似性度量。例如,可以输出若干文本文档,通过与原始输入的文本文档或查询的相似性度量进行排序。返回到上文给出的在应用程序和/或浏览器中的界面的实例,相似性度量可以经由同一界面输出。即,例如,可以通过以某种方式命令的应用程序和/或浏览器来示出与传入文本文档或查询相似的文本文档的列表,如从最相似的文档开始。应注意,“输出相似性度量”在本文中可指输出已被确定为与查询最相似的至少一个或多个文档。
如在本文中使用的,包括权利要求在内,除非上下文指示,否则术语的单数形式解释为还包含复数形式反之亦然。因此,应注意,如在本文中使用的,除非上下文清楚地另外指明,否则单数形式“一”、“一个”和“所述”包括复数概念。
在整个说明书和权利要求中,术语“包括”、“包含”、“具有”、“容纳”和它们的变型应被理解为指“包含但不限于此”,并非旨在排除其他组件。
在这些术语、特征、值及范围等与诸如约、左右、通常、基本上、本质上、至少等(即,“约3个”也应涵盖精确的3个或者“基本恒定”也应涵盖严格地恒定)术语结合使用的情况下,本发明还涵盖精确的术语、特征、值及范围等。
术语“至少一个”应被理解为指“一个或多个”,并且因此包括包含一个或多个组件的两个实施方式。此外,引用“至少一个”描述特征的独立权利要求的从属权利要求在特征被提及为“所述”和“所述至少一个”时都具有相同的含义。
应当理解的是,在仍落入本发明范围时,能够对本发明的前述实施方式进行变化。除非另有说明,否则服务于同样、等效或类似目的的可替换特征可代替在说明书中公开的特征。因此,除非另有说明,否则所公开的每个特征代表通用系列的等效或类似特征的一个实例。
除非如此说明,否则诸如“例如(for instance)”、“诸如(such as)”、“例如(forexample)”等的示例性语言的使用仅旨在更好地阐述本发明且不指示本发明范围的限制。除非上下文清楚地指示,否则可按任意顺序或同时执行在说明书中所描述的任意步骤。
除了至少一些特征和/或步骤互相排斥的组合之外,在说明书中公开的所有特征和/或步骤可以任意组合而组合在一起。具体地,本发明的优选特征适用于本发明的所有方面并且可以任意组合使用。

Claims (45)

1.一种计算机实现的用于比较文本文档的方法,包括以下步骤:
a)建立包括与多个第一文本文档相关联的第一文本文档数据(21)的数据库;并且
b)接收查询(41);并且
c)将所述查询(41)转换为第二文本文档数据(31);并且
d)将所述第二文本文档数据(31)与所述第一文本文档数据(21)进行比较并且计算所述第二文本文档数据(31)与所述第一文本文档数据(21)之间的至少一个相似性度量。
2.根据前述权利要求所述的方法,其中,所述第一文本文档数据(21)包括由包含在所述第一文本文档中的关键词和/或与所述关键词在语义上相关的词语生成的文档向量。(27)。
3.根据前述任意权利要求所述的方法,其中,所述查询(41)包括第二文本文档和/或识别与包含在已存储在所述内存器组件(20)内的所述第一文本文档数据(21)内的所述第二文本文档数据(31)相关联的第二文本文档的信息。
4.根据前述权利要求中任一项所述的方法,其中,将所述查询(41)转换为所述第二文本文档数据(31)包括协调所述查询(41)。
5.根据前述权利要求中任一项所述的方法,其中,将所述查询转换为所述第二文本文档数据(31)包括归一化所述查询(41)。
6.根据前述权利要求所述的方法,其中,归一化所述查询(41)包括从外部数据库至少检索同义词、上位词、下位词、停止词和/或主题特定的停止词,并且至少部分地基于所检索到的词语生成所述查询(41)的关键词列表。
7.根据前述权利要求所述的方法,其中,通过删除停止词和/或主题特定的停止词并且包含查询的词语的同义词、上位词和下位词中的至少一个来生成所述查询(41)的关键词列表。
8.根据前述权利要求中任一项所述的方法,其中,将所述查询(41)转换为所述第二文本文档数据(31)包括生成至少一个查询向量(47)。
9.根据前述权利要求所述的方法,其中,通过从所述查询(41)识别关键词和/或所述关键词的同义词并且利用多维向量空间中的向量的分量识别所述关键词,来生成所述查询向量(47)。
10.根据前述权利要求所述的方法,其中,所述查询向量(47)包括100至500个分量,优选地包括200至400个分量,甚至更优选地,包括200至300个分量。
11.根据前述权利要求中任一项所述的具有权利要求9的特征的方法,其中,为关键词分配权重。
12.根据前述权利要求所述的方法,其中,至少部分地基于所述查询(41)的一般主体来分配权重。
13.根据前述权利要求中任一项所述的方法,其中,计算所述相似性度量包括应用以下中的至少一个或其组合:余弦指数、Jaccard指数、切块指数、包含指数、皮尔森相关系数、Levenstein距离、Jaro-Winkler距离和/或Needleman-Wunsch算法。
14.根据前述权利要求中任一项所述的方法在步骤d)之后还包括步骤:
f)使用至少一种统计算法来验证所述至少一个相似性度量;并且
g)输出所述至少一个相似性度量。
15.根据前述权利要求所述的方法,其中,从用户界面接收所述查询(41)并且经由所述界面返回所述相似性度量。
16.根据前述权利要求中任一项所述的方法,其中,所述数据库包括与专利文献相关的文本文档,并且其中,构建所述数据库和/或转换所述查询(41)包括删除与所述专利文献相关的文本文档相关联的停止词。
17.根据前述权利要求所述的方法,其中,通过计算与包含在所述第一文本文档数据(21)和/或所述查询(41)中的术语相关联的熵并且删除具有低熵的术语而删除专利相关的停止词。
18.根据前述权利要求中任一项所述的方法,还包括生成包括从多个所述第一文本文档提取的关键词的术语向量(7)。
19.根据前述权利要求所述的具有权利要求2和8的特征的方法,其中,所述文档向量(27)和所述查询向量(47)的分量是相对于所述术语向量(7)的分量生成的。
20.根据前述权利要求中任一项所述的具有权利要求2和8的特征的方法,其中,所述第二文本文档数据(31)与所述第一文本文档数据(21)之间的相似性度量是通过使用余弦指数计算查询向量(47)与文档向量(27)之间的距离而计算出的。
21.一种计算机实现的用于处理文本文档中的相似性的方法,包括:
a)协调至少一个传入的查询(41);并且
b)将所述至少一个传入的协调查询(43)归一化;并且
c)使用至少一个归一化的协调查询(45)来构建至少一个查询向量(47);并且
d)计算所述至少一个查询向量(47)与至少一个另一文本文档之间的至少一个相似性度量,其中,所述至少一个另一文本文档进行了前述的步骤。
22.根据前述权利要求所述的方法,其中,所述文本文档包括技术文本、科学文本、专利文本、和/或产品说明中的至少一个或其组合。
23.根据前述两个权利要求中任一项所述的方法,其中,协调包括校正打字错误、选择特定拼写规范和物理单位规范并基于所述特定拼写规范和所述物理单位规范来调整所述文本,和/或以标准方式表示公式(例如,化学式、基因序列和/或蛋白质表示)。
24.根据前述权利要求21至23中任一项所述的方法,其中,归一化包括识别并且删除停止词,将词语减少至常用词干、分析同义词的词干和/或识别词语序列和复合词。
25.根据前述权利要求所述的方法,其中,归一化进一步包括:识别并删除与某种类型的文本文档相关联的停止词,优选通过计算所述类型的多个所述文本文档内的术语的熵并且删除具有低熵的词语。
26.根据权利要求21至25中任一项所述的方法,其中,计算所述相似性度量包括应用以下中的至少一个或其组合:余弦指数、Jaccard指数、切块指数、包含指数、皮尔森相关系数、Levenstein距离、Jaro-Winkler距离和/或Needleman-Wunsch算法。
27.根据权利要求21至26中任一项所述的方法在步骤d)之后还包括以下步骤:
f)使用至少一种统计算法验证所述至少一个相似性度量;并且
g)输出所述至少一个相似性度量。
28.根据前述权利要求中任一项所述的计算机实现的系统(10),包括:
a)至少一个内存器组件(20),适于至少存储包含与第一文本文档相关联的多个所述第一文本文档数据(21)的数据库;
b)至少一个输入装置(40),适于接收查询(41),所述查询(41)包括第二文本文档和/或识别所述第二文本文档的信息,所述第二文本文档与包含在已经存储在所述内存器组件(20)内的所述第一文本文档数据(21)内的所述第二文本文档数据(31)相关联;以及
c)至少一个处理组件(30),适于将所述查询(41)转换为所述第二文本文档数据(31)和/或从所述至少一个内存器组件(20)内的存储器检索与所述查询(41)相关联的所述第二文本文档数据(31)并且将所述第二文本文档数据(31)与存储在所述至少一个内存器组件(20)内的所述第一文本文档数据(21)进行比较;
d)至少一个输出装置(50),适于返回识别与所述第一文本文档数据(21)相关联的至少一个相似的第一文本文档(51)的信息,所述相似的第一文本文档(51)是所述第一文本文档中与所述查询(41)最相似的。
29.根据前述权利要求所述的系统,其中,所述第一文本文档数据(21)包括多个文档向量(27),并且其中,所述第二文本文档数据(31)包括查询向量(47)。
30.根据前述权利要求28至29中任一项所述的系统,其中,所述内存器组件(20)包括与科学论文和/或技术说明和/或专利文献和/或产品说明相关联的所述第一文本文档数据(21)。
31.根据前述权利要求28至30中任一项所述的系统,其中,所述第二文本文档数据(31)是通过协调并且归一化所述第二文本文档并构建至少一个所述查询向量(47)而获得的。
32.根据前述权利要求28至31中任一项所述的系统,其中,所述第一文本文档数据(21)与所述第二文本文档数据(31)之间的比较产生相似性指数。
33.根据前述权利要求所述的系统,其中,所述输出装置(50)返回与多个所述第一文本文档相关联的、通过所述相似性指数按照从最相似到最不相似排序的信息,与所述第一文本文档数据(21)相关联的第一文本文档与所述第二文本文档数据(31)产生最高相似性指数。
34.根据前述权利要求28至33中任一项所述的系统,其中,所述相似性指数是基于文本文档之间的词汇和/或语义比较。
35.根据前述权利要求28至34中任一项所述的系统,其中,所述处理组件(30)在对传入的第二文本文档进行协调和归一化的过程中识别关键词。
36.根据前述权利要求28至35中任一项所述的系统,其中,所述处理组件(30)基于熵算法为关键词分配权重。
37.根据前述权利要求28至36中任一项所述的系统,其中,所述处理组件(30)适于为并行化计算将所述第二文本文档划分为至少两个部分,优选地,划分为至少四个部分。
38.根据前述权利要求中任一项所述的系统,其中,所述处理组件(30)包括至少两个内核,优选地,包括至少四个内核,更优选地,包括至少八个内核。
39.根据前述权利要求28至38中任一项所述的系统,其中,所述处理组件(30)适于定期更新存储在所述内存器组件(20)内的第一文档数据(21)。
40.根据前述权利要求28至39中任一项所述的系统,其中,所述输入装置(40)还适于允许通过列出相似的文本文档必须包括和/或不得包括的词语和/或句子来指定所述查询(41)。
41.根据前述权利要求28至40中任一项所述的系统,其中,所述输入装置(40)还适于允许通过指定待输出的最相似的文本文档的数量来指定所述查询(41)。
42.根据前述权利要求28至41中任一项所述的系统,其中,所述内存器组件(20)包括RAM(随机存取存储器)。
43.根据前述权利要求28至42中任一项所述的系统,其中,所述内存器组件(20)还包括术语向量(7),所述术语向量包含从多个所述第一文本文档提取的关键词。
44.根据前述权利要求所述的具有权利要求29的特征的系统,其中,所述处理组件(30)适于相对于所述术语向量(7)的分量生成所述文档向量(27)和所述查询向量(47)的分量。
45.根据前述权利要求28至44中任一项所述的具有权利要求29的特征的系统,其中,所述处理组件(30)适于通过使用所述余弦指数将所述第二文本文档数据(31)与所述第一文本文档数据(21)进行比较来计算所述查询向量(47)与所述文档向量(27)之间的距离。
CN201780069862.1A 2016-11-11 2017-11-08 用于语义搜索的设备和方法 Pending CN110023924A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16198539 2016-11-11
EP16198539.5 2016-11-11
PCT/EP2017/078674 WO2018087190A1 (en) 2016-11-11 2017-11-08 Apparatus and method for semantic search

Publications (1)

Publication Number Publication Date
CN110023924A true CN110023924A (zh) 2019-07-16

Family

ID=57288265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780069862.1A Pending CN110023924A (zh) 2016-11-11 2017-11-08 用于语义搜索的设备和方法

Country Status (6)

Country Link
US (1) US20190347281A1 (zh)
EP (1) EP3539018A1 (zh)
JP (1) JP7089513B2 (zh)
CN (1) CN110023924A (zh)
AU (1) AU2017358691A1 (zh)
WO (1) WO2018087190A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710387A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11762989B2 (en) 2015-06-05 2023-09-19 Bottomline Technologies Inc. Securing electronic data by automatically destroying misdirected transmissions
US20170163664A1 (en) 2015-12-04 2017-06-08 Bottomline Technologies (De) Inc. Method to secure protected content on a mobile device
US11163955B2 (en) 2016-06-03 2021-11-02 Bottomline Technologies, Inc. Identifying non-exactly matching text
US11416713B1 (en) 2019-03-18 2022-08-16 Bottomline Technologies, Inc. Distributed predictive analytics data set
US11030222B2 (en) * 2019-04-09 2021-06-08 Fair Isaac Corporation Similarity sharding
US11232267B2 (en) * 2019-05-24 2022-01-25 Tencent America LLC Proximity information retrieval boost method for medical knowledge question answering systems
US11042555B1 (en) 2019-06-28 2021-06-22 Bottomline Technologies, Inc. Two step algorithm for non-exact matching of large datasets
US11269841B1 (en) 2019-10-17 2022-03-08 Bottomline Technologies, Inc. Method and apparatus for non-exact matching of addresses
CN111339261A (zh) * 2020-03-17 2020-06-26 北京香侬慧语科技有限责任公司 一种基于预训练模型的文档抽取方法及系统
US20210318865A1 (en) * 2020-04-09 2021-10-14 Capital One Services, Llc Methods and arrangements to process comments
US11526551B2 (en) * 2020-04-10 2022-12-13 Salesforce, Inc. Search query generation based on audio processing
US11449870B2 (en) 2020-08-05 2022-09-20 Bottomline Technologies Ltd. Fraud detection rule optimization
US11544798B1 (en) 2021-08-27 2023-01-03 Bottomline Technologies, Inc. Interactive animated user interface of a step-wise visual path of circles across a line for invoice management
US11694276B1 (en) 2021-08-27 2023-07-04 Bottomline Technologies, Inc. Process for automatically matching datasets
CN113987115A (zh) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN113806491B (zh) * 2021-09-28 2024-06-25 上海航空工业(集团)有限公司 一种信息处理的方法、装置、设备和介质
US20230281396A1 (en) * 2022-03-03 2023-09-07 International Business Machines Corporation Message mapping and combination for intent classification

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
JP2003157270A (ja) * 2001-11-22 2003-05-30 Ntt Data Technology Corp 特許文献検索方法及び特許文献検索システム
US20030172058A1 (en) * 2002-03-07 2003-09-11 Fujitsu Limited Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
US7409383B1 (en) * 2004-03-31 2008-08-05 Google Inc. Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
US20090190839A1 (en) * 2008-01-29 2009-07-30 Higgins Derrick C System and method for handling the confounding effect of document length on vector-based similarity scores
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063192A (ja) * 2000-08-22 2002-02-28 Patolis Corp 特許文献システム
US7383258B2 (en) 2002-10-03 2008-06-03 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words
JP4534666B2 (ja) * 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
JP5578137B2 (ja) * 2011-05-25 2014-08-27 富士通株式会社 検索プログラム、装置及び方法
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US20140280088A1 (en) 2013-03-15 2014-09-18 Luminoso Technologies, Inc. Combined term and vector proximity text search

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
JP2003157270A (ja) * 2001-11-22 2003-05-30 Ntt Data Technology Corp 特許文献検索方法及び特許文献検索システム
US20030172058A1 (en) * 2002-03-07 2003-09-11 Fujitsu Limited Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
US7409383B1 (en) * 2004-03-31 2008-08-05 Google Inc. Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
US20090190839A1 (en) * 2008-01-29 2009-07-30 Higgins Derrick C System and method for handling the confounding effect of document length on vector-based similarity scores
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MILOS RADOVANOVIC ET AL: "On the Existence of Obstinate Results in Vector Space Models", 《PROCEEDINGS OF THE 33RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710387A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控方法

Also Published As

Publication number Publication date
JP2020500371A (ja) 2020-01-09
US20190347281A1 (en) 2019-11-14
JP7089513B2 (ja) 2022-06-22
EP3539018A1 (en) 2019-09-18
AU2017358691A1 (en) 2019-05-23
WO2018087190A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
CN110023924A (zh) 用于语义搜索的设备和方法
Bhagavatula et al. Content-based citation recommendation
US11900064B2 (en) Neural network-based semantic information retrieval
CA2523128C (en) Information retrieval and text mining using distributed latent semantic indexing
CA2788704C (en) Method and system for ranking intellectual property documents using claim analysis
Nabli et al. Efficient cloud service discovery approach based on LDA topic modeling
Wang et al. Targeted disambiguation of ad-hoc, homogeneous sets of named entities
US20160283564A1 (en) Predictive visual search enginge
Thanda et al. A Document Retrieval System for Math Queries.
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
Deng et al. A distributed PDP model based on spectral clustering for improving evaluation performance
Peng et al. Hierarchical visual-textual knowledge distillation for life-long correlation learning
Zoupanos et al. Efficient comparison of sentence embeddings
CN111143400A (zh) 一种全栈式检索方法、系统、引擎及电子设备
Rao et al. An efficient semantic ranked keyword search of big data using map reduce
Prajapati et al. Extreme multi-label learning: a large scale classification approach in machine learning
Wang A semi-supervised learning approach for ontology matching
Laddha et al. Novel concept of query-similarity and meta-processor for semantic search
Brázdil Dimensionality reduction methods for vector spaces
Gisolf et al. Search and Explore Strategies for Interactive Analysis of Real-Life Image Collections with Unknown and Unique Categories
Sudha et al. Efficient diversity aware retrieval system for handling medical queries
Huybrechts et al. Learning to rank with deep neural networks
Abbasi et al. Introducing triple play for improved resource retrieval in collaborative tagging systems
Premjith et al. Metaheuristic Optimization Using Sentence Level Semantics for Extractive Document Summarization
Zhang et al. A Content-Based Dataset Recommendation System for Biomedical Datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190716

WD01 Invention patent application deemed withdrawn after publication