CN109558496A

CN109558496A - 一种语义检索方法与装置

Info

Publication number: CN109558496A
Application number: CN201811393952.9A
Authority: CN
Inventors: 李世普; 黄珉
Original assignee: Chengdu Material Intelligence Technology Co Ltd
Current assignee: Chengdu Material Intelligence Technology Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-04-02

Abstract

本发明提供了一种语义检索方法与装置，涉及检索技术领域。通过在接收到一检索信息依据检索信息后，确定检索关键词并对关键词进行拓展，然后依据拓展后的关键词生成词汇向量，再对与词汇向量的对应的文档进行预处理，以生成词文矩阵，再对词文矩阵进行信息抽取，以生成新的词文矩阵，再对新的词文矩阵进行潜在语义分析计算，以获取权重矩阵，再对权重矩阵进行奇异值分解，最后输出检索结果。本发明提供的语义检索方法与装置具有检索更加全面，计算的准确率更高的效果。

Description

一种语义检索方法与装置

技术领域

本发明涉及检索技术领域，具体而言，涉及一种语义检索方法与装置。

背景技术

随着计算机网络技术的飞速发展，大量丰富的信息为人们生活和工作带来方便，如何准确、快速的获取有用的信息越来越重要。如果计算机能够准确理解用户的需求，它就可以将最符合用户需求的信息检索出来并呈现给用户。准确理解用户的需求在一定程度上就是准确理解用户输入的含义，因而，建立基于语义的检索非常重要，它使计算机的检索更具有智能性，进而实现智能检索。

传统的信息检索模型主要有布尔模型、概率模型和向量空间模型。但无论采用哪种模型，都是基于关键字匹配进行检索的，都不能从根本上解决词的同义和多义问题。传统的潜在语义分析方法可以实现部分的语义检索，但效果不是很理想，语义计算的准确率不高。

有鉴于此，如何解决上述问题，是本领域技术人员关注的重点。

发明内容

本发明的目的在于提供一种语义检索方法，以解决现有技术中语义计算的准确率不高的问题。

本发明的另一目的在于提供一种语义检索装置，以解决现有技术中语义计算的准确率不高的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

一方面，本发明实施例提出一种语义检索方法，所述语义检索方法包括：

接收一检索信息；

依据所述检索信息确定检索关键词并对所述关键词进行拓展；

依据拓展后的关键词生成词汇向量；

对与所述词汇向量的对应的文档进行预处理，以生成词文矩阵；

对所述词文矩阵进行信息抽取，以生成新的词文矩阵；

对所述新的词文矩阵进行潜在语义分析计算，以获取权重矩阵；

对所述权重矩阵进行奇异值分解；

输出检索结果。

另一方面，本发明实施例还提出一种语义检索装置，所述语义检索装置包括：

信息接收单元，用于接收一检索信息；

关键词确定单元，用于依据所述检索信息确定检索关键词并对所述关键词进行拓展；

词汇向量生成单元，用于依据拓展后的关键词生成词汇向量；

词文矩阵生成单元，用于对与所述词汇向量的对应的文档进行预处理，以生成词文矩阵；

词文矩阵生成单元还用于对所述词文矩阵进行信息抽取，以生成新的词文矩阵；

权重矩阵获取单元，用于对所述新的词文矩阵进行潜在语义分析计算，以获取权重矩阵；

奇异值分解单元，用于对所述权重矩阵进行奇异值分解；

结果输出单元，用于输出检索结果。

相对现有技术，本发明具有以下有益效果：

本发明提供了一种语义检索方法与装置，通过在接收到一检索信息依据检索信息后，确定检索关键词并对关键词进行拓展，然后依据拓展后的关键词生成词汇向量，再对与词汇向量的对应的文档进行预处理，以生成词文矩阵，再对词文矩阵进行信息抽取，以生成新的词文矩阵，再对新的词文矩阵进行潜在语义分析计算，以获取权重矩阵，再对权重矩阵进行奇异值分解，最后输出检索结果。一方面，由于本发明提供的语音检索方法能够进行关键词的拓展，因此在用户进行检索的过程中，能够确定出与关键词相关联的所有的文档，因此检索的更加全面。另一方面，由于还会对文档进行处理生成词文矩阵，因此能够实现对语义计算的准确率更高的效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明的实施例提供的服务器的功能模块示意图。

图2示出了本发明实施例提供的语义检索方法的流程图。

图3示出了本发明实施例提供的图2中步骤S102的子步骤的流程图。

图4示出了本发明实施例提供的语义检索装置的模块示意图。

图5示出了本发明实施例提供的关键词确定单元的子模块示意图。

图标：10-服务器；12-存储器；13-存储控制器；14-处理器；100-语义检索装置；110-信息接收单元；120-关键词确定单元；121-分词处理模块；122-词性标注模块；123-关键词筛选模块；124-关键词拓展模块；130-词汇向量生成单元；140-词文矩阵生成单元；150-权重矩阵获取单元；160-奇异值分解单元；170-结果输出单元；180-检索单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

第一实施例

如图1所示，是本发明提供的服务器10的功能模块示意图。该服务器10包括如图1所示，是本发明提供的服务器10的功能模块示意图。该服务器10包括基于语义检索的装置、存储器12、存储控制器13以及处理器14。

所述存储器12、存储控制器13以及处理器14各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述基于语义检索的装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中或固化在所述服务器10的操作系统(operating system，OS)中的软件功能模块。所述处理器14用于执行存储器12中存储的可执行模块，例如所述基于语义检索的装置包括的软件功能模块或计算机程序。

其中，存储器12可以是，但不限于，随机存取存储器12(Random Access Memory，RAM)，只读存储器12(Read Only Memory，ROM)，可编程只读存储器12(Programmable Read-Only Memory，PROM)，可擦除只读存储器12(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器12(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器12用于存储程序，所述处理器14在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的服务器10所执行的方法可以应用于处理器14中，或者由处理器14实现。

处理器14可能是一种集成电路芯片，具有信号的处理能力。上述的处理器14可以是通用处理器14，包括中央处理器14(Central Processing Unit，简称CPU)、网络处理器14(Network Processor，简称NP)等；还可以是数字信号处理器14(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器14可以是微处理器14或者该处理器14也可以是任何常规的处理器14等。

请参阅图2，是本发明较佳实施例提供的应用于图1所示的语义检索的方法的流程图。下面将对图2所示的具体流程进行详细阐述。

S101，接收一检索信息。

当用户需要进行检索文件时，需要首先输入一检索信息。

S102，据所述检索信息确定检索关键词并对所述关键词进行拓展。

在用户输入检索信息后，服务器10会确定检索信息中的关键词，同时，由于用户输入的检索信息的一般较短，因此还需要进行关键词的拓展。

具体地，请参阅图3，S102包括：

S1021，对所述检索信息进行分词处理。

针对不同的领域，其定义的关键词可能不同，因此，在实施例中，需要首先对用户输入的检索信息进行分词处理。其中，当用户输入的是依据话时，则对该句话进行分词处理，例如，针对材料科技领域而言，用户输入“我想了解铝合金的性能”，这句话将被切分为“我/想/了解/铝合金/的/性能”。当然地，用户输入的检索信息也可以为词语的形式，例如用户输入“铝合金性能”，即此时无需进行分词处理也能够实现检索。

S1022，对分词处理后的每个词语进行词性标注。

在将检索信息进行分词处理后，还需要对每个词语进行词性标注，例如标注其中的某个词为专业词汇，或者对每个词进行词性标注，其中词性包括主语、谓语、宾语等，或者包括名词、动词等，一般的，在进行检索的过程中，将名词作为检索的关键词。

S1023，对词性标注后的词语与预设定的专业词汇进行对比，以筛选出所述检索信息中的关键词。

每个词汇在表达语义的程度上是不一致的，不能把每个词都用于查询语句的理解。通过关键词的筛选把对语义理解影响不大的词语去掉，在本系统中，所有领域专业词汇标注出来，在计算词汇表达语义至关重要。上例中，关键词筛选后的结果是“铝合金/性能”。即利用词汇中的词语与预设定的专业词汇进行对比，从而确定出关键词。

同时，服务器10在存储专业词汇时，可以存储多个不同领域的专业词汇，用户在进行检索过程中，还能先输入领域，然后进行检索，以实现更加检索出结果的目的。

S1024，依据确定的所述关键词与预设定的词汇分组对所述关键词进行拓展。

由于考虑到用户输入的语句一般比较短，包含的信息较少，可能会导致系统在检索过程中丢失有用的信息，因此对词条进行适当扩展提高检索效率和准确性。

其中，本实施例提供的服务器10设定有多个词汇分组，通过确定的关键词能够确定词汇分组，从而将该词汇分组内的除关键词外的每个词语均作为拓展关键词。例如，在铝合金的词汇分组中，还包括铝制、合金等词汇，在性能的词汇分组中，还包括功能等词汇。在进行文件的检索中，会将该词汇分组中的所有词汇均用于检索相关文件。

S103，依据拓展后的关键词生成词汇向量。

检索信息经过以上步骤后，得到了所有将用于计算的关键词语，将这些词语形成向量，称为词汇向量。该词汇向量为A_t＝(a1,a2,a3,ai)，其中，i表示拓展后的检索信息中的词语的数量，a_i(1≤i≤t)表示词汇ci在检索信息中出现的频数，如果词汇c_i出现在检索信息中，则a_t＝tf_ij，即词汇ci在文档j中出现的频数。其中，本实施例所述的频数为次数，即当词汇c_i在文档j中没有出现是，则频数为0。

S104，对与所述词汇向量的对应的文档进行预处理，以生成词文矩阵。

服务器10在处理用户输入的检索信息后，需要处理数据库中被检索的文档。其中，为了加快处理速度，还会对每个文档划分领域，例如用户检索的关键词汇属于材料领域，则服务器10直接在数据库中存储的材料领域检索出用户真正需要的内容。

其中，为了检索出用户需要的内容，不但需要理解用户的信息，更需要理解被检索的文档的意义。对文档的处理和输入语句的处理类似，使用自然语言的方法对文档进行分词、标注，生成词文矩阵。

所有文档经过、标注和权重计算后，便形成了权重向量，这些向量组成词文矩阵。具体形式如下：

其中A_TAD(k)表示含有关键字的文档集，A_TAD表示没有包含关键字的文档集，n为知识库中文档的数量，满足：n＝n1+n2,m为知识库中所有文档筛选后得到的词汇的数量，a_ij(1≤i≤m，(1≤j≤n1))表示词汇i在文档j中的权重。

S105，对所述词文矩阵进行信息抽取，以生成新的词文矩阵。

使用潜在语义分析计算词汇与词汇、词汇与文档、文档与文档之间的关系，实现概念检索。将上一步骤生成的词文矩阵合并为新的词文矩阵。将词汇向量AT看做是一篇文档合并在已知的词文矩阵中生成新的词文矩阵A_TAD(K)、A_TAD，用来表示包含关键字的新词文矩阵和没有关键字的新词文矩阵。新矩阵A_TAD(K)、A_TAD行数可能增加，也可能不变。

S106，对所述新的词文矩阵进行潜在语义分析计算，以获取权重矩阵。

在语义分析权重计算.权重计算是保证语义理解的关键。扩展后得到的词汇向量和文档集切分、标注和关键字提取后得到的矩阵进行权重计算，即对矩阵A_TAD(K)、A_TAD进行权重计算后得到矩阵A¹ _TAD(K)、A¹ _TAD。

S107，对所述权重矩阵进行奇异值分解。

由上个步骤得到的矩阵A¹ _TAD(K)、A¹ _TAD，包含的信息量特别大，文档直接的语义关系被大量的无效信息干扰，需要降维处理。

具体地，本实施例采用奇异值分解进行噪声干扰的去除。矩阵A¹ _TAD通过奇异值分解，分解为两个正交矩阵和一对角矩阵的乘积：

A¹ _TAD＝TSD^T。

新的矩阵表示为：A² _TAD＝T’_mxkS’_kxkD’_nxkT。

矩阵A¹ _TAD(K)经过奇异值分解后表示为：A² _TAD＝T’_mk’xkS’_kxkD’_nk’xkT

S108，输出检索结果。

具体地，在S108包括：

S1081，依据所述奇异值分解的结果计算每两个文档之间的关联度。

在此步骤计算文档与文档之间的距离。矩阵A² _TAD(K)、A² _TAD中，第i行第j列的值aij表示了词汇i和文档j之间的相关度。通过

(A² _TDK(k))x A² _TAD(K)

(A² _TDK)x A² _TAD

得到两个新矩阵，第i行第j列的值x_ij表示了文档i和文档j之间的相关度。

S1082，输出与所述词汇向量的对应的文档以及每两个文档之间的关联度。

再确定关联度与对应的文档后，服务器10能够将每两个文档之间的关联度以及文档内容输出，以使用户知道检索结果。

S109，接收一重新检索指令。

在第一次检索中，如果用户认为不是希望的结果，系统允许用户进行二次检索，对第二次检索仍然不满意，可以进行第三次检索，依此类推，无限逼近最优结果。其中，当用户对第一次的检索结果不满意时，可向服务器10发送重新检索指令，服务器10依据该重新检索指令重新执行S102-S108的步骤，从而输出第二次检索的文档。

S110，依据所述重新检索指令对所述检索信息进行重新检索并输出新的检索结果。

需要说明的是，当第二次检索结果中用户依然不满意时，用户可根据再次重新进行检索，直至检索到用户满意的结果。

第二实施例

请参阅图4本发明较佳实施例提供的图1所示的语义检索装置100的功能单元示意图。需要说明的是，本实施例所提供的语义检索装置100，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本发明实施例部分未提及之处，可参考上述的实施例中相应内容。语义检索装置100包括：

信息接收单元110，用于接收一检索信息。

可以理解地，通过信息接收单元110可执行S101。

关键词确定单元120，用于依据所述检索信息确定检索关键词并对所述关键词进行拓展。

可以理解地，通过信息接收单元110可执行S102。

其中，请参阅图5，关键词确定单元120包括：

分词处理模块121，用于对所述检索信息进行分词处理。

可以理解地，通过分词处理模块121可执行S1021。

词性标注模块122，用于对分词处理后的每个词语进行词性标注。

可以理解地，通过词性标注模块122可执行S1022。

关键词筛选模块123，用于对词性标注后的词语与预设定的专业词汇进行对比，以筛选出所述检索信息中的关键词。

可以理解地，通过关键词筛选模块123可执行S1023。

关键词拓展模块124，用于依据确定的所述关键词与预设定的词汇分组对所述关键词进行拓展。

可以理解地，通过关键词拓展模块124可执行S1024。

词汇向量生成单元130，用于依据拓展后的关键词生成词汇向量。

可以理解地，通过词汇向量生成单元130可执行S103。

词文矩阵生成单元140，用于对与所述词汇向量的对应的文档进行预处理，以生成词文矩阵。

可以理解地，通过词文矩阵生成单元140可执行S104。

词文矩阵生成单元140还用于对所述词文矩阵进行信息抽取，以生成新的词文矩阵。

可以理解地，通过词文矩阵生成单元140可执行S105。

权重矩阵获取单元150，用于对所述新的词文矩阵进行潜在语义分析计算，以获取权重矩阵。

可以理解地，通过权重矩阵获取单元150可执行S106。

奇异值分解单元160，用于对所述权重矩阵进行奇异值分解。

可以理解地，通过奇异值分解单元160可执行S107。

结果输出单元170，用于输出检索结果。

可以理解地，通过结果输出单元170可执行S108。

其中，结果输出单元170包括：

关联度计算模块，用于依据所述奇异值分解的结果计算每两个文档之间的关联度。

可以理解地，通过关联度计算模块可执行S1081。

结果输出模块，用于输出与所述词汇向量的对应的文档以及没两个文档之间的关联度。

可以理解地，通过结果输出模块可执行S1082。

信息接收单元110，用于接收一重新检索指令。

可以理解地，通过信息接收单元110可执行S109。

检索单元180，用于依据所述重新检索指令对所述检索信息进行重新检索并输出新的检索结果。

可以理解地，通过检索单元180可执行S110。

综上所述，本发明提供了一种语义检索方法与装置，通过在接收到一检索信息依据检索信息后，确定检索关键词并对关键词进行拓展，然后依据拓展后的关键词生成词汇向量，再对与词汇向量的对应的文档进行预处理，以生成词文矩阵，再对词文矩阵进行信息抽取，以生成新的词文矩阵，再对新的词文矩阵进行潜在语义分析计算，以获取权重矩阵，再对权重矩阵进行奇异值分解，最后输出检索结果。一方面，由于本发明提供的语音检索方法能够进行关键词的拓展，因此在用户进行检索的过程中，能够确定出与关键词相关联的所有的文档，因此检索的更加全面。另一方面，由于还会对文档进行处理生成词文矩阵，因此能够实现对语义计算的准确率更高的效果。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种语义检索方法，其特征在于，所述语义检索方法包括：

接收一检索信息；

依据拓展后的关键词生成词汇向量；

对所述词文矩阵进行信息抽取，以生成新的词文矩阵；

对所述权重矩阵进行奇异值分解；

输出检索结果。

2.如权利要求1所述的语义检索方法，其特征在于，在所述输出检索结果的步骤之后，所述语义检索方法还包括：

接收一重新检索指令；

依据所述重新检索指令对所述检索信息进行重新检索并输出新的检索结果。

3.如权利要求1所述的语义检索方法，其特征在于，所述依据所述检索信息确定检索关键词并对所述关键词进行拓展的步骤包括：

对所述检索信息进行分词处理；

对分词处理后的每个词语进行词性标注；

对词性标注后的词语与预设定的专业词汇进行对比，以筛选出所述检索信息中的关键词；

依据确定的所述关键词与预设定的词汇分组对所述关键词进行拓展。

4.如权利要求1所述的语义检索方法，其特征在于，所述对所述权重矩阵进行奇异值分解的步骤包括：

将所述权重矩阵分解为两个正交矩阵与一个对角矩阵的乘积。

5.如权利要求1所述的语义检索方法，其特征在于，所述输出检索结果的步骤包括：

依据所述奇异值分解的结果计算每两个文档之间的关联度；

输出与所述词汇向量的对应的文档以及每两个文档之间的关联度。

6.一种语义检索装置，其特征在于，所述语义检索装置包括：

信息接收单元，用于接收一检索信息；

奇异值分解单元，用于对所述权重矩阵进行奇异值分解；

结果输出单元，用于输出检索结果。

7.如权利要求6所述的语义检索装置，其特征在于，所述语义检索装置还包括：

信息接收单元，用于接收一重新检索指令；

检索单元，用于依据所述重新检索指令对所述检索信息进行重新检索并输出新的检索结果。

8.如权利要求6所述的语义检索装置，其特征在于，所述关键词确定单元包括：

分词处理模块，用于对所述检索信息进行分词处理；

词性标注模块，用于对分词处理后的每个词语进行词性标注；

关键词筛选模块，用于对词性标注后的词语与预设定的专业词汇进行对比，以筛选出所述检索信息中的关键词；

关键词拓展模块，用于依据确定的所述关键词与预设定的词汇分组对所述关键词进行拓展。

9.如权利要求6所述的语义检索装置，其特征在于，奇异值分解单元用于将所述权重矩阵分解为两个正交矩阵与一个对角矩阵的乘积。

10.如权利要求6所述的语义检索装置，其特征在于，所述结果输出单元包括：

关联度计算模块，用于依据所述奇异值分解的结果计算每两个文档之间的关联度；

结果输出模块，用于输出与所述词汇向量的对应的文档以及每两个文档之间的关联度。