CN114647711A

CN114647711A - 用于改进搜索引擎查询的计算机实现的方法

Info

Publication number: CN114647711A
Application number: CN202111551225.2A
Authority: CN
Inventors: 宍戸萌香; X·格勒昂
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2020-12-18
Filing date: 2021-12-17
Publication date: 2022-06-21
Also published as: EP4016329A1; JP2022097448A; US20220197962A1

Abstract

一种用于改进搜索引擎查询的计算机实现的方法包括以下步骤：a、接收文本语料库，b、确定n元语法候选的列表，每个n元语法候选是所述文本语料库的一系列连续词，所述系列中的所述连续词的数量是大于或等于2的整数n，c、基于所述n元语法候选的列表至少部分地修改所述文本语料库，d、在得到的文本语料库上执行机器学习嵌入，e、对于所述n元语法候选的列表中的每个元素，基于所述元素的嵌入和构成所述元素的词的嵌入来计算评分，f、基于所述n元语法候选中的一个或多个n元语法候选的各自的评分，将它们添加到搜索引擎查询项目列表中。

Description

用于改进搜索引擎查询的计算机实现的方法

技术领域

本发明涉及用于改进搜索引擎查询的计算机实现的方法。

背景技术

搜索引擎的领域不局限于互联网的抓取。搜索引擎正成为公司信息系统中越来越重要的一部分，尤其是在设计和采购方面。

这种搜索引擎的问题之一在于对搜索精度比一般应用重要得多的需求。为了提高这种精度，因此为文档建立相关词汇表至关重要。建立这些词汇表的问题之一在于：通常情况下，具有最重要意义的元素不是单个词，而是词组，也被称为短语。

事实上，在自然语言中，词并不是精确的意义单位。这是因为有些词有多重意义(同音异义词)，并且因为有些意义是用多个词来表达的。

因此，能够检测文档中的短语非常重要。当然，这一切都可以“手工”完成。但是存在与人工索引相关联的重大偏差。短语检测对于对知识图谱、同义词库、分类法、本体论的(半)自动丰富也是必要的，这涉及建议或自动将词和短语添加到词汇表、实体列表、概念和出现形式中。

最先进的短语检测技术是使用频率论方法来查找出现频率高于偶然的n元语法(n-gram)，n元语法是一系列n个连续词，n是整数，其不能超过给定文本的句子中的词的最大数量。

这通常使用假设检验(例如t-检验或卡方检验)或者使用逐点互信息(PMI)来完成。PMI大致与n元语法的出现频率成正比，并且与每个词块标记(token)的出现频率的乘积成反比。需要提醒的是，词块标记化表述的意义是将一段文本分成更小的单元。词块标记化的方式是特定于语言的，但最常见的是基于空格和标点符号来拆分文本。

使用这种频率论方法来检测短语中新的意义单元的问题在于频率论方法适用于最频繁的表达和用频繁词构成的表达。这意味着不太频繁的表达或由不太频繁的词组成的表达往往会具有不正确的高评分或低评分。此外，这些方法会受到频率偏差的影响。换句话说，他们对许多现实生活语料库中不成立的词出现的统计分布进行了假设。例如，使用PMI来检测词组出现的频率高于偶然出现的频率取决于词出现是独立且同分布的假设。在一般情况下并非如此。在现实世界的语料库中，某些形式的语音人为频繁出现。例如，在莎士比亚的《哈姆雷特》中，“Enter Horacio(奥拉西奥进场)”是一个频繁的表达，不是因为它是意义单元，而是因为哈姆雷特是一部戏剧。在工业零部件领域，人们可以想到“下载零件”、“请求价格”或“下载型号”等表述，它们在零件目录的描述中经常出现，但不携带意义单元，与“无源元件”或“线性集成电路”相反。

大多数现代自然语言处理技术的情况也是如此，它们依赖于词是意义单元的假设。词嵌入和文档向量化就是这种情况(例如，使用词袋向量化以及递归网络)。

因此，自动短语检测存在问题。

本发明旨在改善这种情况。

发明内容

本发明旨在改善这种情况。为此，本申请提出了一种用于改进搜索引擎查询的计算机实现的方法，其包括以下步骤：

a、接收文本语料库，

b、确定n元语法候选的列表，每个n元语法候选是所述文本语料库的一系列连续词，所述系列中的所述连续词的数量是大于或等于2的整数n，

c、基于所述n元语法候选的列表至少部分地修改所述文本语料库，

d、在得到的文本语料库上执行机器学习嵌入，

e、对于所述n元语法候选的列表中的每个元素，基于所述元素的嵌入和构成所述元素的词的嵌入来计算评分，

f、基于所述n元语法候选中的一个或多个n元语法候选的各自的评分，

将它们添加到搜索引擎查询项目列表中。

这种方法是有利的，因为它允许自动短语检测，自动短语检测考虑到两个或更多词形成新的意义单元的情况，即并列放置时不会单独影响文本意义的词，相反，它们的并列通过使用嵌入产生了单个新意义单元。例如，“ice cream(冰淇淋)”或“bottom line(底线)”就是这种情况。

在各个实施例中，该方法可以呈现下列特征中的一个或多个特征：

—步骤c包括使用步骤b的所述n元语法候选的列表来解析所述文本语料库，并且每次所述文本语料库的一系列连续词构成所述n元语法候选的列表的给定元素时，用与所述相对应的给定元素相关联的词块标记来替换所述一系列连续词，

—步骤c还包括：在识别出构成所述n元语法候选的列表的给定元素的所述文本语料库的一系列连续词后，确定与所述文本语料库的所述一系列连续词相连续的一个或多个词是否与所述文本语料库的所述一系列连续词中的一个或多个末端词一起构成所述n元语法候选的列表的不同元素，并且，在这种情况下，复制构成所述不同元素的所述一系列连续词并用与所述不同元素相关联的词块标记来替换所述一系列连续词。

—其中，步骤c包括：复制所述文本语料库，使得所述文本语料库中的每个词出现的次数等于所述系列中所述连续词的数量，所述数量是大于或等于2的整数n；以及通过经由一系列连续词对每个句子进行分析来解析所述文本语料库的每个副本，其中，所述连续词的数量是大于或等于2的整数n，使用偏移量对副本的每个句子进行解析，对于每个副本来说所述偏移量不同，

—其中，步骤c包括：使用步骤b的n元语法候选的列表来解析所述文本语料库，并且每次所述文本语料库的一系列连续词构成所述n元语法候选的列表的给定元素时，确定与所述文本语料库的所述一系列连续词相连续的一个或多个词是否与所述文本语料库的所述一系列连续词中的所述一个或多个末端词一起构成所述n元语法候选的列表的不同元素，并且，在这种情况下，使用伪随机函数来计算确定构成所述给定元素的所述一系列连续词是否应该被词块标记化为单个词块标记的值，所述伪随机函数是由构成所述给定元素的所述一系列词已经被与在已经被解析的所述文本语料库的所述部分中的所述相对应的给定元素相关联的词块标记替换的次数参数化的，以及将相同的处理应用于构成所述不同元素的所述一系列连续词，—步骤e包括：计算所述元素的所述嵌入与构成所述元素的所述词的所述嵌入之间的余弦距离或欧几里德距离，

—所述系列中所述连续词的数量等于2，并且步骤e包括：计算所述元素的所述嵌入与构成所述给定元素的所述词的所述嵌入的总和之间的距离的最大值，以及所述元素的所述嵌入与构成所述元素的所述词的每个单独嵌入之间的距离，

—所述系列中所述连续词的数量等于3，并且步骤e包括：计算所述元素的所述嵌入与构成所述给定元素的所述词的两个连续词的所述嵌入和构成所述元素的剩余词的所述嵌入之和之间的距离的最大值，并且

—步骤b包括使用词之间的逐点互信息。

本发明还涉及一种计算机程序，其包括用于执行本发明的方法的指令、记录有该计算机程序的数据存储介质，以及包括耦合至存储器的处理器的计算机系统，该存储器其上记录有根据上述的计算机程序。

附图说明

本发明的其他特征和优点将容易地出现在以下对附图的描述中，这些附图示出了本发明的示例性实施例并且其中：

—图1示出了根据本发明的系统的总图视图，以及

—图2示出了表达“fast food(快餐)”的情况以及与其词组的释义的比较。

具体实施方式

附图和以下描述包括大部分正面和明确定义的特征。因此，它们不仅有助于理解本发明，而且在需要时还可用于对其定义做出贡献。

该描述可能会引用或使用受版权保护或版权可保护的元素。申请人不反对复制这些元素，因为它仅限于必要的合法出版物，但这不应被解释为放弃权利或任何形式的许可。

图1示出了根据本发明的系统的总图视图。系统2包括存储器4、候选检测单元6、语料修改单元8、嵌入单元10，以及返回检测到的短语的列表14的评分单元12。

存储器4存储对其寻求短语检测的文本语料库数据，以及在执行本发明的过程中可能生成的任何临时数据。在检测到的短语的列表14被确定之后，存储器4还可以存储该列表。

在本文中描述的示例中，可以以任何合适的方式来实现存储器4，即借助于硬盘驱动器、固态驱动器、闪存、嵌入在处理器中的存储器、在云中可访问的远程存储，等等。

在本文中描述的示例中，候选检测单元6、语料修改单元8、嵌入单元10以及评分单元12是在一个或多个处理器上执行的计算机程序。此类处理器包括用于执行自动演算的任何已知单元，例如CPU、GPU、CPU和/或GPU网格、远程演算网格、专门配置的FPGA、专门配置的ASIC、专用芯片(例如SOC或NOC)、AI专用芯片，等等。

候选检测单元6从存储器4接收在其中寻求短语检测的文本语料库，并将得到的n元语法候选馈送到语料库修改单元8。语料库修改单元8修改文本语料库以准备它包含的词的嵌入并且还考虑n元语法候选之间可能的重叠。此后，嵌入单元10对经修改的文本语料库执行机器学习嵌入，并返回经修改的文本语料库的每个唯一词的嵌入。最后，评分单元12比较它们之间的嵌入，以确定n元语法候选是否确实构成了新的意义，或者这些n元语法候选是否是构成它们的词的简单并列。

为了举例说明本发明的构思，图2图示了表达“fast food(快餐)”的情况，其不是其词组的释义。“Fast food(快餐)”在语义上与快速的食物不同。图2上的箭头与将针对“fast”(快速)、“food”(食物)和“fast food”(快餐)的相应表达计算的嵌入相关。

如下所示，本发明依赖于机器学习词嵌入技术(例如word2vec)的使用，根据该技术，如果两个词的意义并列是它们各自意义的总和，则该并列的嵌入将大约等于并列内的词的嵌入的总和。在“fast food(快餐)”的情况下，因为它不是指明快速的食物，因此“fast”和“food”的嵌入的总和将与“fast food(快餐)”的嵌入不同。

下面，嵌入单元10将继续处理单个词的表达。因此需要使用候选检测单元6和语料修改单元8以提供其中n元语法候选为单个词形式的经修改的文本语料库。

为了确定n元语法候选，候选检测单元6可以对文本语料库应用以下一种或多种操作：

—将文本语料库拆分成句子，以避免重叠多个句子的n元语法，

—将文本语料库拆分为名词块(chunk)和动词块，

—可选地，在停止词上拆分文本。这对于具有近似或不正确语法的文本很有用，但它可能会产生漏报。也不会检测到包含停止词的短语，例如“proof of concept”或“atscale”将不会被检测作为结果。为清楚起见，需要提醒的是，“停止词”是一组极其常见的词，例如冠词(the,a)和介词(of,in at)，它们通常对文本语料库的意义没有多大贡献。仍然可选地，可以用词性进一步对文本语料库进行过滤，即语法组(例如名词、动词和形容词)，词根据它们的用途被划分成这些语法组。

此后，候选检测单元6可以使用允许阈值对每个剩余的文本块使用现有技术的搭配检测方法，例如PMI。例如，在文本语料库中所有可能的n元语法中，可以选择词之间具有最高逐点互信息的n元语法。并非所有可能的n元语法都将被保留，但是候选检测单元6可以被布置为选择比预期在检测到的短语列表14中获得的更多的n元语法，例如10倍、100倍或1000倍。这将暂时允许误报(false positives)并避免漏报(false negatives)。在本发明的上下文中，误报是不携带与构成n元语法的词的意义相加不同的意义的n元语法，而漏报是未被检测为携带特定意义的潜在词组的n元语法。误报将被嵌入单元10和评分单元12的组合工作丢弃。为清楚起见，应理解表述“组成n元语法的词”是指组合在一起构成该n元语法的词。举例来说，如果n元语法是“New York City(纽约市)”，则构成该n元语法的词是“New”、“York”和“City”。除了PMI，还可以使用假设检验，例如t检验、卡方检验、频率。

在候选检测单元6识别出n元语法候选之后，需要修改文本语料库，使得嵌入单元10将n元语法候选视为单个词。这是由语料库修改单元8完成的，它主要执行两个动作：

—将文本语料库中的n元语法候选转换为单个词块标记。例如，这可以通过简单地在空格上拆分词块标记并用特殊字符(例如下划线)替换n元语法候选的词块标记之间的空格来完成。

—可选地复制文本语料库的部分或全部以解决n元语法候选重叠的问题。

为了解释n元语法候选重叠的构思，让我们以表达“New York City(纽约市)”为例。该表达式包含以下看似合理的2元语法“New York”和“York City”以及3元语法“NewYork City”。如果语料修改单元8以直接的方式运行，则该表达将始终被标记为“New York”和“city”，这不一定是需要的。

换句话说，当存在n元语法重叠时，不复制表达式将导致丢失一些n元语法，这些n元语法要么完全消失，要么出现的频率不足以产生准确的嵌入。同时，如果系统地复制这些表达，它将通过人为地重复语料库的一些部分来对嵌入进行偏置。

申请人已经确定了几种可用于复制表达以便在限制诱导偏差的同时考虑n元语法重叠的方法。

根据第一方法，复制全文语料库，并且每个句子由大小等于n(所寻求的n元语法的整数)的词组进行解析。然而，在语料库的每个单独版本中，将使用针对n的偏移量对句子进行解析，并通过保留作为单个词块标记找到的n元语法对经解析的文本进行词块标记化。

例如，如果n等于2，并且文本语料库是“I will use anti lock brake systems(我将使用防抱死制动系统).”，则文本语料库的第一版本将被解析为“I will”“use anti”“lock brake”“systems”，而文本语料库的第二版本将被解析为“will use”“anti lock”“brake systems”。给定n元语法候选“anti lock”、“lock brake”和“brake systems”，文本语料库的第一版本将被词块标记化为“I,will,use,anti,lock_brake,systems”。第二版本将被词块标记化为“will、use、anti_lock、brake_systems”。

当然，对于其他n值也是如此，偏移量范围从0到n减1。

这种方法非常有利，因为它实施起来非常简单，并且大大限制了偏置。然而，有人可能会争辩说，重叠是不利的，因为文本语料库的其余词是重复的，但重叠的n元语法不会。

根据第二方法，语料修改单元8可以使n元语法频率的帕累托曲线变平。第二方法将不必要地频繁出现的词重新分配到它们组成的n元语法中。它还复制包含罕见、重叠n元语法的内容，以限制训练偏差，同时使用罕见信息(罕见n元语法)提升训练样本(文本块)。

该方法可以执行如下：

—为要正确嵌入的词块标记选择目标最小出现次数MIN，

—对文本语料库进行解析，并对每个n元语法候选的所有可能出现进行计数。例如，表达《New York City》将对《New York》《York City》和《New York City》的出现进行计数。执行该计数后，丢弃计数COUNT小于MIN的n元语法候选，

—再次解析文本语料库，以及

*每次在没有重叠的情况下遇到给定的n元语法候选词出现时，将其词块标记化为单个词，增加计数器SELECT，其指示该给定的n元语法候选在解析过程中已被词块标记化为单个词的次数，并减少其计数COUNT，

*每次句子包含重叠的n元语法候选词时，按以下方式复制句子：

—设置空列表KEEP

—对于作为句子中重叠部分的每个n元语法，使用伪随机函数根据0和1之间的均匀分布生成一个数字。如果评分((MIN-SELECT)/COUNT)超过结果随机数，则将n元语法添加到列表KEEP

—当列表KEEP中有n元语法时，通过将列表KEEP的至少一个n元语法保留为单个词块标记来对句子进行词块标记化(即，不要将n元语法拆分为多个词块标记)，将句子添加到文本语料库，并从列表KEEP中删除在词块标记化的句子中作为单个词块标记存在的所有n元语法。

—对于作为单个词块标记添加到所得到的经词块标记化句子中的n元语法候选的每次出现：

—将计数器SELECT增加一，

—将计数COUNT减一。

在这种方法中，复制只会产生有限的偏差。如果文本语料库的一小部分被人为地复制了很多次，那么偏差就会有问题。相反，该方法复制包含罕见n元语法的块。由于n元语法频率大致遵循帕累托分布，因此对于大多数块它将产生很少的复制。

在根据上述方法之一修改了文本语料以对所有n元语法候选进行词块标记化之后，调用嵌入单元10对经修改的文本语料库的所有词块标记执行嵌入，无论它们是单个词存在于原始文本语料库还是存在于由语料库修改单元8创建的词块标记中。

根据一个实施例，嵌入单元10可以是基于神经网络的嵌入，例如word2vec和fastText。如在Gittens等人的文章“Skip-Gram-Zipf+Uniform＝Vector Additivity”，计算语言学协会第55届年会论文集(第一卷：长论文)2017，中所讨论的，加性组合性属性对于跳过语法模型是已知的，即一组词的释义的嵌入类似于每个词的嵌入之和。

最后，一旦经修改的文本语料库已被完全词块标记化，就可以使用嵌入以及n元语法候选的列表来调用评分单元12。

评分单元12将对每个n元语法应用评分函数以确定n元语法的嵌入是否接近构成该n元语法的词的嵌入的总和。申请人已经测试了几个评分函数，这些函数部分取决于n元语法的数量n。

在n等于2的情况下，最简单的办法就是比较它们之间的距离。因此，以图1为例，可以计算“Fast food”的嵌入与“Fast”和“Food”的分别嵌入之和之间的距离，例如余弦距离或欧几里得距离。

申请人发现了另一种公式，该公式在检测包括停止词的n元语法时可能特别有用。对于由词A和B组成的n元语法AB，该公式可以总结如下：Score(AB)＝Max(Distance(Embedding(AB),Embedding(A)+Embedding(B)),Distance(Embedding(AB),Embedding(A)),Distance(Embedding(AB),Embedding(B))

在n等于3的情况下，可以使用

公式。也就是说，对于由词A、B和C组成的n元语法ABC：

Score(ABC)＝Distance(Embedding(A_B_C),Embedding(A)+Embedding(B)+Embedding(C))

该公式能够捕捉官方名称，例如red_roof_inn(酒店)、hilton_grand_vacations(酒店)、gmbh_co_kg(公司)，因为三元组的意义与组成三元组的每个个体词都大不相同。

在n等于2的情况下，也可以对第二个公式背后的想法进行扩展：Score(ABC)＝Max(Distance(Embedding(A_B_C),Embedding(A_B)+Embedding(C))；Distance(Embedding(A_B_C),Embedding(A)+Embedding(B_C)))

该公式将上述三元组视为不太重要的短语，因为在相似的上下文中使用了一组个体词(一元语法和二元语法)。例如，Hilton和grand_vacations也指的是酒店，因此Hilton_grand_vacations被认为是对其个体词组的释义。

另一方面，该公式允许捕捉例如full_length_mirror和safety_deposit_box。朴素公式不适用于捕捉它们，因为它假设三元组只是简单地释义其单个词(镜子、盒子)的对象，尽管三元组携带特定意义。

对于n大于3的情况，将很容易对n等于3的公式进行扩展。

在已经为所有n元语法候选计算了评分之后，评分单元12可以通过保留具有最高评分的n元语法来返回检测到的短语的列表。

此后可以将该列表添加到搜索引擎短语的语料库中以提高查询的质量。事实上，当用户稍后输入由评分单元12返回的n元语法之一作为搜索词时，搜索引擎将能够提供更有意义的返回。

Claims

1.一种用于改进搜索引擎查询的计算机实现的方法，其包括以下步骤：

a、接收文本语料库，

b、确定n元语法候选的列表(6)，所述n元语法候选的列表中的每个n元语法候选是所述文本语料库的一系列连续词，所述系列中所述连续词的数量是大于或等于2的整数n，

c、基于所述n元语法候选的列表至少部分地修改所述文本语料库(8)，

d、在得到的文本语料库上执行机器学习嵌入(10)，

e、对于所述n元语法候选的列表中的每个元素，基于所述元素的嵌入和构成所述元素的词的嵌入来计算评分(12)，

f、基于所述n元语法候选中的一个或多个n元语法候选的各自的评分，将所述n元语法候选中的一个或多个n元语法候选添加到搜索引擎查询项目列表中。

2.根据权利要求1所述的计算机实现的方法，其中，步骤c包括：使用步骤b的所述n元语法候选的列表来解析所述文本语料库，并且每次所述文本语料库的一系列连续词构成所述n元语法候选的列表的给定元素时，用与相对应的给定元素相关联的词块标记来替换所述一系列连续词。

3.根据权利要求2所述的计算机实现的方法，其中，步骤c还包括：在识别出构成所述n元语法候选的列表的给定元素的所述文本语料库的一系列连续词后，确定与所述文本语料库的所述一系列连续词相连续的一个或多个词是否与所述文本语料库的所述一系列连续词中的末端词中的一个或多个一起构成所述n元语法候选的列表的不同元素，并且，在这种情况下，复制构成所述不同元素的所述一系列连续词并用与所述不同元素相关联的词块标记来替换所述一系列连续词。

4.根据权利要求1所述的计算机实现的方法，其中，步骤c包括：复制所述文本语料库，使得所述文本语料库中的每个词出现的次数等于所述系列中所述连续词的数量，所述数量是大于或等于2的整数n，以及通过经由数量是大于或等于2的整数n的一系列连续词对每个句子进行分析来解析所述文本语料库的每个副本，副本的每个句子被使用偏移量进行解析，对于每个副本来说所述偏移量不同。

5.根据权利要求1所述的计算机实现的方法，其中，步骤c包括：使用步骤b的n元语法候选的列表来解析所述文本语料库，并且每次所述文本语料库的一系列连续词构成所述n元语法候选的列表的给定元素时，确定与所述文本语料库的所述一系列连续词相连续的一个或多个词是否与所述文本语料库的所述一系列连续词中的末端词中的一个或多个一起构成所述n元语法候选的列表的不同元素，并且，在这种情况下，使用伪随机函数来计算如下值，所述值确定构成所述给定元素的所述一系列连续词是否应该被词块标记化为单个词块标记，以及将相同的处理应用于构成所述不同元素的所述一系列连续词，其中，所述伪随机函数是由构成所述给定元素的所述一系列词已经被与在已经被解析的所述文本语料库的部分中的相对应的给定元素相关联的词块标记替换的次数来参数化的。

6.根据前述权利要求中的一项权利要求所述的计算机实现的方法，其中，步骤e包括：计算所述元素的嵌入与构成所述元素的词的嵌入之间的余弦距离或欧几里德距离。

7.根据前述权利要求1至5中的一项权利要求所述的计算机实现的方法，其中，所述系列中所述连续词的数量等于2，并且步骤e包括：计算所述元素的嵌入与构成所述元素的词的每个单独嵌入之间的距离，以及所述元素的嵌入与构成所述给定元素的词的嵌入的总和之间的距离的最大值。

8.根据前述权利要求1至5中的一项权利要求所述的计算机实现的方法，其中，所述系列中所述连续词的数量等于3，并且步骤e包括：计算所述元素的嵌入与构成所述给定元素的词中的两个连续词的嵌入和构成所述元素的剩余词的嵌入之和之间的距离的最大值。

9.根据前述权利要求中的一项权利要求所述的计算机实现的方法，其中，步骤b包括：使用词之间的逐点互信息。

10.一种计算机程序，其包括用于执行根据前述权利要求中的任一项权利要求所述的方法的指令。

11.一种数据存储介质，其上记录有根据权利要求10所述的计算机程序。

12.一种计算机系统，其包括耦合至存储器(4)的处理器，所述存储器(4)上记录有根据权利要求10所述的计算机程序。