CN109670102A

CN109670102A - 基于词表模型的用户检索意图判断方法

Info

Publication number: CN109670102A
Application number: CN201811634847.XA
Authority: CN
Inventors: 敬石开; 鬲玲; 陈泽峰
Original assignee: BEIJING SHENZHOU AEROSPACE SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING SHENZHOU AEROSPACE SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-23
Anticipated expiration: 2038-12-29
Also published as: CN109670102B

Abstract

本发明公开了一种基于词表模型的用户检索意图判断方法，主要步骤包括：101、构建词表模型；102、获取用户检索请求；103、判断相邻词汇在词表模型中的结构关系；104、利用结构关系的相关侧面、关系类型信息，判断用户意图；105、对于每一个关键词，被重复判断意图的词汇进行意图合并；106、形成用户意图量化表达。本发明通过利用已构建的词表模型中的结构关系，挖掘用户输入多关键词检索时所包含的检索意图，既考虑了用户检索输入结构，又考虑了词汇之间的语义关联。该发明中基于词表模型的用户检索意图判断在不依赖于搜索结果的情况下为搜索引擎提供了更多的信息支持，使得检索结果更加符合用户的期望。

Description

基于词表模型的用户检索意图判断方法

技术领域

本发明属于信息检索领域，涉及一种用户检索意图判断方法，具体涉及基于词表模型的用户检索意图判断方法。

背景技术

搜索引擎的应用，使得用户能够在海量网络数据中更加有效地进行知识查找。用户在使用搜索引擎时，一般是自己组织检索输入关键词进行信息搜索。大多数情况下，用户的输入的并不是杂乱无章的关键词，而是按照一定的语义关联进行检索。因此，用户的检索输入实际上包含了用户的部分检索意图，在进行信息检索时，搜索引擎应该充分利用这部分意图。

目前常用的用户检索意图判断方法主要有两种：用户输入关键词的语义分析和用户对检索结果的反馈行为。

对用户输入关键词的语义分析，是将用户输入关键词拆分为独立的语义单词，形成关键词列表后通过匹配搜索引擎索引库中的词语实现对检索结果的匹配。这种分析方法的不足之处在于：直接忽略了检索输入间的语义关联，并且只能通过输入关键词与索引库的匹配进行检索意图判断。

用户对检索结果的反馈行为主要包括用户对检索结果的点击、浏览、收藏等行为，根据用户的行为分析用户兴趣喜好，并对检索结果进行调整。这种基于用户行为的分析方法不足之处在于：首先，引擎需要对用户行为进行实时分析，提高了对引擎的要求；其次，需要记录用户的各种行为反馈，进而需要通过反馈分析用户的实际需求；再次，在检索过程中，用户的点击行为是不可控的、多变的，其行为有效性不易保证，容易引入噪声信息；最后，基于用户对结果反馈的意图判断属于事后处理方式，影响直接展示效果。

鉴于以上所述现有技术存在的问题和不足，本发明提出一种基于词表模型的用户检索意图判断方法。此方法基于已经构建好的词表模型，对用户输入的关键词进行分析，确认关键词之间的结构关系，关系类型等。基于此分析结果，对用户的检索意图进行扩展。

发明内容

发明目的：本发明针对上述现有技术存在的问题做出改进，即本发明公开了一种基于词表模型的用户检索意图判断方法，该方法适用于利用已构建的词表模型中的结构关系，挖掘用户输入多关键词检索时所包含的检索意图。既考虑了用户检索输入结构，又考虑了词汇之间的语义关联。该发明中基于词表模型的用户检索意图判断在不依赖于搜索结果的情况下为搜索引擎提供了更多的信息支持，使得检索结果更加符合用户的期望。

本发明通过分析用户输入的关键词之间的语义关系，对用户检索意图进行分析，将用户输入的关键词扩展为多个关键词，一起作为输入返回检索结果。

技术方案：基于词表模型的用户检索意图判断方法，包括以下步骤：

101、构建词表模型，完成后进入步骤102；

102、获取用户检索请求，完成后进入步骤103；

103、判断相邻词汇在词表模型中的结构关系，完成后进入步骤104；

104、利用结构关系信息，判断用户意图，完成后进入步骤105；

105、对于每一个关键词，被重复判断意图的词汇进行意图合并，完成后进入步骤106；

106、形成用户意图量化表达。

进一步地，步骤101包括以下步骤：

S1011词表词汇抽取：

利用某领域下的一批文献或语料，将其中所用到的专业术语词汇整理形成词汇表，完成后进入步骤S1012；

S1012词表词汇关系构建

利用步骤S1011得到的词汇表，将词汇间的语义关联整理成关系表，完成后进入步骤S1013；

S1013词汇关系侧面构建

对于同一主体词汇，其所在的某些关系具有相近的语义，侧面即表示相同主体词汇下具有某方面语义的关系的集合，若侧面没有定义具体的语义含义，则称其为侧面标识，根据关系表形成侧面表。

更进一步地，词表模型包括关系要素R，其表达式为R＝(Wo,Ws，tf，tr)，其中：

Wo表示主体词汇；

Ws表示客体词汇；

tf表示侧面标识；

tr表示关系类型。

进一步地，步骤102包括以下步骤：

201、对用户检索输入进行分词处理，并去除停止词，生成关键词列表，完成后进入步骤202；

202、对关键词列表进行相邻去重，若相邻词汇相同，则保留其中之一，完成后进入步骤203；

203、将关键词列表中的英文全部转化为小写，然后查询步骤101得到的词表模型，将词表同义词全部转化为词表核心词。

进一步地，步骤103包括以下步骤：

301、将相邻的关键词两两组合，完成后进入步骤302；

302、判断相邻双词正序是否为父子关系，若是，结束本次操作，若不是，则进一步判断相邻双词反序是否为父子关系，若是，则结束本次操作，若不是则进入步骤303，其中：

若双词间满足关系四元组r_AB＝(A，B，tf，tr)或r_AB＝(B，A，tf，tr)，则双词为父子关系，其中A、B表示双词，tf为该关系的侧面，tr为该关系的关系类型；

303、判断相邻双词正序是否为祖孙关系，若是，结束本次操作，若不是，则进一步判断相邻双词反序是否为祖孙关系，若是，则结束本次操作，若不是则进入步骤304，其中：

若双词间满足关系四元组或则双词为祖孙关系，其中A、B表示双词，tf_i和tf_j分别为两条关系的侧面，tr_i和tr_j分别为两条关系的关系类型；

304、判断相邻双词正序是否为亲兄弟关系，若是，结束本次操作，若不是，则进一步判断相邻双词反序是否为亲兄弟关系，若是，则结束本次操作，若不是则进入步骤305，其中：

若双词间满足关系四元组则双词为亲兄弟关系，其中A、B表示双词，tf为该关系的侧面，tr为该关系的关系类型；

305、判断相邻双词正序是否为表兄弟关系，若是，结束本次操作，若不是，则进一步判断相邻双词反序是否为表兄弟关系，若是，则结束本次操作，若不是则进入步骤306，其中：

若双词间满足关系四元组则双词为表兄弟关系，其中A、B表示双词，tf_i和tf_j分别为两条关系的侧面，tr_i和tr_j分别为两条关系的关系类型；

306、相邻双词之间没有语义关联关系，结束本次操作。

进一步地，步骤104包括以下步骤：

401、判断双词之间是否为父子关系，若是，则父节点的意图为该关系对应的侧面tf和关系类型tr，然后结束本次操作，若不是，则进入步骤402；

402、判断双词之间是否为祖孙关系，若是，则祖节点的意图为祖节点所在关系的侧面tf_i和关系类型tr_i，然后结束本次操作，若不是，进入步骤403；

403、判断双词之间是否为亲兄弟关系，若是，则双词的意图为双词共同的父节点所在关系的侧面tf和关系类型tr，用户的检索意图为查找相同父节点下的其他亲兄弟节点，然后结束本次操作，若不是，进入步骤404；

404、判断双词之间是否为表兄弟关系，若是，则双词的意图分别为双词共同的父节点与其所在关系对应的侧面tf_i、tf_j和关系类型tr_i、tr_j，然后结束本次操作，若不是，结束本次操作。

进一步的，步骤105包括以下步骤：

501、判断关键词是否只有一个意图，若是，则该意图即为该关系词意图，然后结束本次操作，若不是，进入步骤502；

502、判断关键词是否有两个相同的意图，若是，则只保留其中一个意图作为该关键词意图，然后结束本次操作；若不是，则进入步骤503；

503、判断关键词是否有两个不同的意图，若是，则该两个不同的意图均保留作为该关键词的意图，若不是，结束本次操作。

进一步地，步骤106中对意图进行量化参数表达为[TF,TR,EB]：其中：

TF表示意图侧面，

TR表示意图关系类型，

EB表示是否查找亲兄弟，若查找亲兄弟则取EB＝1，否则EB＝0。

有益效果：本发明所提供的基于词表模型的用户检索意图判断方法充分挖掘了用户输入中包含的意图信息并利用了词表模型中的语义关联，通过分析用户检索请求之间的语义关联分析用户可能的检索意图，不依赖于检索结果，有利于提高检索精度。与现有技术相比，本发明对用户意图的分析具有以下有益效果：

1、对信息检索进行有效的扩展；

2、使得检索结果更加符合用户的期望，提高检索精度。

附图说明

图1是本发明公开的基于词表模型的用户检索意图判断方法的流程框图；

图2是图1中步骤102所述获取用户检索请求并进行处理的流程图；

图3是图1中步骤103所述判断相邻词汇在词表模型中的结构关系的流程图；

图4是图1中步骤104所述利用结构关系的相关侧面、关系类型信息，判断用户意图的流程图。

图5是图1中步骤105所述被重复判断意图的词汇进行意图合并的流程图。

图6本发明实现步骤302的具体方法的流程示意图。

图7是本发明实现步骤303的具体方法的流程示意图。

图8是本发明实现步骤304的具体方法的流程示意图。

图9是本发明实现步骤305的具体方法的流程示意图。

具体实施方式：

下面对本发明的具体实施方式详细说明。

为便于本领域技术人员更好的理解技术方案，下面对本申请文件中出现的技术名称做一个解释说明：

词表模型：词表模型的设计吸收了叙词表、词典和本体等知识组织系统的数据模型及设计思想，通过专业词汇、关系、领域等构建专业词汇间的语义联系，为语义扩展和检索提供了语义基础。词表模型可用四元组表示：NE＝{W,R,tr,tf}。其中；

W表示构成专业词汇；

R表示关系；

RT表示关系类型；

F表示侧面。

词表模型采用手动构建的方式，具有领域性、自底向上、灵活可扩展的特点。

专业词汇(W)：专业词汇是指在某个专业(如机械、电子、控制等)被专业人员所共识的统一的概念、术语或称谓。专业词汇分为核心词(Wk)和同义词(Wsyn)，除同义之外的所有关系都是基于核心词建立的，同义关系单独建立。

关系(R)：关系是两个词汇之间的语义联系，简记为R。不同类型的语义关联称为关系类型(tr)，它是对关系的具体刻画。在关系中，被其他词汇所解释的专业词汇称为主体词汇(Wo)，用来解释主体词汇的专业词汇称为客体词汇(Ws)。主客体词汇是在关系中体现的，不是一层不变的，在一个关系中的主体词汇可以是另一个关系中的客体词汇。

关系类型(tr)：关系类型是对专业词汇间关系的抽象描述，反映了词汇间关系的类别。针对工程领域词汇的特点，结合术语学和本体论研究，选取关系类型为同义关系、近义关系、对立关系、继承关系、组成关系、实例关系、属性关系等。

侧面(tf)：侧面表示相同主体词汇在某方面语义下的关系集合，简记为F。不同的侧面用侧面标识(tf)来表示，侧面标识不能具体定义，只用来区分不同的侧面。

意图扩展：当用户输入多个词时，我们可以通过多词之间的关系推理用户真正的检索目的。检索意图用以下三个参数扩展[TF,TR,EB]：其中TF表示意图侧面，TR表示意图关系类型，EB表示是否查找亲兄弟，若查找亲兄弟则取EB＝1，否则EB＝0。通过意图扩展，用户输入的关键词被推理为多个具有语义关系的词汇。

图1是本发明实现基于词表模型的用户检索意图判断方法的流程示意图，如图1所示，基于词表模型的用户检索意图判断方法，包括以下步骤：

101、利用某领域下的文献或语料，构建词表模型；

102、获取用户检索请求；

103、判断相邻词汇在词表模型中的结构关系；

104、利用结构关系的相关侧面、关系类型信息，判断用户意图；

105、对于每一个关键词，被重复判断意图的词汇进行意图合并；

106、形成用户意图量化表达。

进一步地，步骤101包括以下步骤：

S1011词表词汇抽取：

S1012词表词汇关系构建

S1013词汇关系侧面构建

Wo表示主体词汇；

Ws表示客体词汇；

tf表示侧面标识；

tr表示关系类型。

图2是本发明实现步骤102的具体方法的流程示意图，如图2所示，其包括以下步骤：

201、对用户检索输入进行分词处理，生成关键词列表；

202、对关键词列表进行相邻去重，若相邻词汇相同，则保留其中之一；

203、查询词表模型，将关键词列表中的英文全部转化为小写，词表同义词全部转化为核心词。

图3是本发明实现步骤103的具体方法的流程示意图，如图3所示，其包括以下步骤：

301、将相邻的关键词两两组合，完成后进入步骤302；

306、相邻双词之间没有语义关联关系，结束本次操作。

图4是本发明实现步骤104的具体方法的流程示意图，如图4所示，其包括以下步骤：

图5是本发明实现步骤105的具体方法的流程示意图，如图5所示，其包括以下步骤：

501、若词汇只有一个意图，则直接采用；

502、若词汇有两个相同的意图，则只保留其中一个；

503、若词汇有两个不同的意图，则均保留。

经过意图判断与意图合并的过程后，可将用户意图转化为量化表达[TF,TR,EB]，其中TF表示侧面，TR表示关系类型，EB表示是否查找亲兄弟。

图6是本发明实现步骤302的具体方法的流程示意图，如图6所示，对于父子关系判断，其包括以下步骤：

601、查找在词表模型中是否有以双词中前词为主体词、后词为客体词的关系存在，若存在，进入602；否则，双词间不是父子关系；

602、双词间是父子关系，返回关系列表。

图7是本发明实现步骤303的具体方法的流程示意图，如图7所示，对于祖孙关系判断，其包括以下步骤：

701、查找词表模型中是否含有以双词中的后词为客体词汇的关系，若存在，进入702；否则，双词间不是祖孙关系；

702、返回关系列表List<R1>；

703、对List<R1>中的每一条关系R1,获取关系的主体词wordid；

704、查找词表模型中是否含有以词汇wordid为客体词汇的关系，若存在，进入705；否则，双词间不是祖孙关系；

705、返回关系列表List<R2>；

706、对List<R2>中的每一条关系R2,获取关系的主体词wordid1；

707、判断是否存在主体词wordid1与双词中的前词相同，若存在，进入708；否则，双词之间不是祖孙关系；

708、双词之间是祖孙关系，将R2存入关系列表，将R1存入关系列表。

图8是本发明实现步骤304的具体方法的流程示意图，如图8所示，对于亲兄弟关系判断，其包括以下步骤：

801、查找词表模型中是否含有以前词客体词汇的关系，若存在，进入802；否则，双词之间不是亲兄弟关系；

802、返回关系列表List<R1>；

803，对List<R1>中的每一条关系R1,获取关系的主体词wordid,侧面tf和关系类型tr；

804、查找是否含有以词汇wordid为主体词汇、侧面为tf、关系类型为tr的关系，若存在，进入805；否则，双词之间不存在亲兄弟关系；

805、返回关系列表List<R2>；

806、对List<R2>中的每一条关系R2,获取关系的客体词wordid1；

807、判断是否存在wordid1与双词中后词相同，若存在，进入808；否则，双词之间不是亲兄弟关系；

808、双词之间为亲兄弟关系，将R2存入关系列表，将R1存入关系列表。

图9是本发明实现步骤305的具体方法的流程示意图，如图9所示，对于表兄弟关系判断，其包括以下步骤：

901、查找词表模型中是否含有以双词中的前词为客体词汇的关系，若存在，进入902；否则，双词间不是表兄弟关系；

902、返回关系列表List<R1>；

903、对List<R1>中的每一条关系R1,获取关系的主体词wordid、侧面和关系类型；

904、查找是否含有以词汇wordid为主体词汇的关系，若存在，进入905；否则，双词间不是表兄弟关系；

905、返回关系列表List<R2>；

906、对List<R2>中的每一条关系R2,获取关系的客体词wordid1、侧面和关系类型；

907、判断是否存在wordid1与双词中的后词相同，若相同，进入908；否则，双词间不是表兄弟关系；

908、判断R1和R2的侧面、关系类型均相同，若不都相同，进入909；否则，双词间不是表兄弟关系；

909、双词间是表兄弟关系，将R2存入关系列表，将R1存入关系列表。

下面通过一个实施例对本用户检索意图判断方法展开具体说明。

例如：

已经构建完成了“知识管理”词表模型，其中包含“语义标注”“语义检索”“中文分词”等词及其关系。

用户输入检索请求为：“中文分词语义标注语义检索”。进行分词预处理，得到“中文分词”、“语义标注”和“语义检索”三个关键词。

判断关键词列表中相邻关键词间在词表模型中的结构关系：

“中文分词”和“语义标注”存在于关系“中文分词的应用包含语义标注、语义检索”，双词间为父子关系，“中文分词”为父节点，“语义标注”为子节点，所在关系侧面为200087，关系类型为属性；

“语义标注”和“语义检索”存在于关系“中文分词的应用包含语义标注、语义检索”，双词间为亲兄弟关系，与双词的父节点所在关系的侧面为200087，关系类型为属性。

通过双词结构关系判断检索意图：

在第一条父子关系中，父节点“中文分词”的意图为：查找侧面为200087，关系类型为属性的子节点，不进行亲兄弟扩展，子节点“语义标注”的意图无法判断；

在第二条亲兄弟关系中，双词的意图为：查找侧面为200087，关系类型为属性的亲兄弟节点。

被重复判断意图的词汇进行意图合并：

“中文分词”只有一组意图：查找侧面为200087，关系类型为属性的子节点，不进行亲兄弟扩展；

“语义标注”只有一组意图：查找侧面为200087，关系类型为属性的亲兄弟节点；

“语义检索”只有一组意图：查找侧面为200087，关系类型为属性的亲兄弟节点。

形成意图量化表达：中文分词[200087,属性,0]，语义标注[200087,属性,1]，语义检索[200087,属性,1]。

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于词表模型的用户检索意图判断方法，其特征在于，包括以下步骤：

101、构建词表模型，完成后进入步骤102；

102、获取用户检索请求，完成后进入步骤103；

106、形成用户意图量化表达。

2.根据权利要求1所述的基于词表模型的用户检索意图判断方法，其特征在于，步骤101包括以下步骤：

S1011词表词汇抽取：

S1012词表词汇关系构建

S1013词汇关系侧面构建

3.根据权利要求2所述的基于词表模型的用户检索意图判断方法，其特征在于，词表模型包括关系要素R，其表达式为R＝(Wo,Ws，tf，tr)，其中：

Wo表示主体词汇；

Ws表示客体词汇；

tf表示侧面标识；

tr表示关系类型。

4.根据权利要求1所述的基于词表模型的用户检索意图判断方法，其特征在于步骤102包括以下步骤：

5.根据权利要求1所述的基于词表模型的用户检索意图判断方法，其特征在于步骤103包括以下步骤：

301、将相邻的关键词两两组合，完成后进入步骤302；

306、相邻双词之间没有语义关联关系，结束本次操作。

6.根据权利要求1所述的基于词表模型的用户检索意图判断方法，其特征在于，步骤104包括以下步骤：

7.根据权利要求1所述的基于词表模型的用户检索意图判断方法，其特征在于，步骤105包括以下步骤：

8.根据权利要求1所述的基于词表模型的用户检索意图判断方法，其特征在于，步骤106中对意图进行量化参数表达为[TF,TR,EB]：其中：

TF表示意图侧面，

TR表示意图关系类型，