CN109670102A - 基于词表模型的用户检索意图判断方法 - Google Patents

基于词表模型的用户检索意图判断方法 Download PDF

Info

Publication number
CN109670102A
CN109670102A CN201811634847.XA CN201811634847A CN109670102A CN 109670102 A CN109670102 A CN 109670102A CN 201811634847 A CN201811634847 A CN 201811634847A CN 109670102 A CN109670102 A CN 109670102A
Authority
CN
China
Prior art keywords
relationship
vocabulary
intended
double words
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811634847.XA
Other languages
English (en)
Other versions
CN109670102B (zh
Inventor
敬石开
鬲玲
陈泽峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SHENZHOU AEROSPACE SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
BEIJING SHENZHOU AEROSPACE SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SHENZHOU AEROSPACE SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING SHENZHOU AEROSPACE SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201811634847.XA priority Critical patent/CN109670102B/zh
Publication of CN109670102A publication Critical patent/CN109670102A/zh
Application granted granted Critical
Publication of CN109670102B publication Critical patent/CN109670102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词表模型的用户检索意图判断方法,主要步骤包括:101、构建词表模型;102、获取用户检索请求;103、判断相邻词汇在词表模型中的结构关系;104、利用结构关系的相关侧面、关系类型信息,判断用户意图;105、对于每一个关键词,被重复判断意图的词汇进行意图合并;106、形成用户意图量化表达。本发明通过利用已构建的词表模型中的结构关系,挖掘用户输入多关键词检索时所包含的检索意图,既考虑了用户检索输入结构,又考虑了词汇之间的语义关联。该发明中基于词表模型的用户检索意图判断在不依赖于搜索结果的情况下为搜索引擎提供了更多的信息支持,使得检索结果更加符合用户的期望。

Description

基于词表模型的用户检索意图判断方法
技术领域
本发明属于信息检索领域,涉及一种用户检索意图判断方法,具体涉及基于词表模型的用户检索意图判断方法。
背景技术
搜索引擎的应用,使得用户能够在海量网络数据中更加有效地进行知识查找。用户在使用搜索引擎时,一般是自己组织检索输入关键词进行信息搜索。大多数情况下,用户的输入的并不是杂乱无章的关键词,而是按照一定的语义关联进行检索。因此,用户的检索输入实际上包含了用户的部分检索意图,在进行信息检索时,搜索引擎应该充分利用这部分意图。
目前常用的用户检索意图判断方法主要有两种:用户输入关键词的语义分析和用户对检索结果的反馈行为。
对用户输入关键词的语义分析,是将用户输入关键词拆分为独立的语义单词,形成关键词列表后通过匹配搜索引擎索引库中的词语实现对检索结果的匹配。这种分析方法的不足之处在于:直接忽略了检索输入间的语义关联,并且只能通过输入关键词与索引库的匹配进行检索意图判断。
用户对检索结果的反馈行为主要包括用户对检索结果的点击、浏览、收藏等行为,根据用户的行为分析用户兴趣喜好,并对检索结果进行调整。这种基于用户行为的分析方法不足之处在于:首先,引擎需要对用户行为进行实时分析,提高了对引擎的要求;其次,需要记录用户的各种行为反馈,进而需要通过反馈分析用户的实际需求;再次,在检索过程中,用户的点击行为是不可控的、多变的,其行为有效性不易保证,容易引入噪声信息;最后,基于用户对结果反馈的意图判断属于事后处理方式,影响直接展示效果。
鉴于以上所述现有技术存在的问题和不足,本发明提出一种基于词表模型的用户检索意图判断方法。此方法基于已经构建好的词表模型,对用户输入的关键词进行分析,确认关键词之间的结构关系,关系类型等。基于此分析结果,对用户的检索意图进行扩展。
发明内容
发明目的:本发明针对上述现有技术存在的问题做出改进,即本发明公开了一种基于词表模型的用户检索意图判断方法,该方法适用于利用已构建的词表模型中的结构关系,挖掘用户输入多关键词检索时所包含的检索意图。既考虑了用户检索输入结构,又考虑了词汇之间的语义关联。该发明中基于词表模型的用户检索意图判断在不依赖于搜索结果的情况下为搜索引擎提供了更多的信息支持,使得检索结果更加符合用户的期望。
本发明通过分析用户输入的关键词之间的语义关系,对用户检索意图进行分析,将用户输入的关键词扩展为多个关键词,一起作为输入返回检索结果。
技术方案:基于词表模型的用户检索意图判断方法,包括以下步骤:
101、构建词表模型,完成后进入步骤102;
102、获取用户检索请求,完成后进入步骤103;
103、判断相邻词汇在词表模型中的结构关系,完成后进入步骤104;
104、利用结构关系信息,判断用户意图,完成后进入步骤105;
105、对于每一个关键词,被重复判断意图的词汇进行意图合并,完成后进入步骤106;
106、形成用户意图量化表达。
进一步地,步骤101包括以下步骤:
S1011词表词汇抽取:
利用某领域下的一批文献或语料,将其中所用到的专业术语词汇整理形成词汇表,完成后进入步骤S1012;
S1012词表词汇关系构建
利用步骤S1011得到的词汇表,将词汇间的语义关联整理成关系表,完成后进入步骤S1013;
S1013词汇关系侧面构建
对于同一主体词汇,其所在的某些关系具有相近的语义,侧面即表示相同主体词汇下具有某方面语义的关系的集合,若侧面没有定义具体的语义含义,则称其为侧面标识,根据关系表形成侧面表。
更进一步地,词表模型包括关系要素R,其表达式为R=(Wo,Ws,tf,tr),其中:
Wo表示主体词汇;
Ws表示客体词汇;
tf表示侧面标识;
tr表示关系类型。
进一步地,步骤102包括以下步骤:
201、对用户检索输入进行分词处理,并去除停止词,生成关键词列表,完成后进入步骤202;
202、对关键词列表进行相邻去重,若相邻词汇相同,则保留其中之一,完成后进入步骤203;
203、将关键词列表中的英文全部转化为小写,然后查询步骤101得到的词表模型,将词表同义词全部转化为词表核心词。
进一步地,步骤103包括以下步骤:
301、将相邻的关键词两两组合,完成后进入步骤302;
302、判断相邻双词正序是否为父子关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为父子关系,若是,则结束本次操作,若不是则进入步骤303,其中:
若双词间满足关系四元组rAB=(A,B,tf,tr)或rAB=(B,A,tf,tr),则双词为父子关系,其中A、B表示双词,tf为该关系的侧面,tr为该关系的关系类型;
303、判断相邻双词正序是否为祖孙关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为祖孙关系,若是,则结束本次操作,若不是则进入步骤304,其中:
若双词间满足关系四元组则双词为祖孙关系,其中A、B表示双词,tfi和tfj分别为两条关系的侧面,tri和trj分别为两条关系的关系类型;
304、判断相邻双词正序是否为亲兄弟关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为亲兄弟关系,若是,则结束本次操作,若不是则进入步骤305,其中:
若双词间满足关系四元组则双词为亲兄弟关系,其中A、B表示双词,tf为该关系的侧面,tr为该关系的关系类型;
305、判断相邻双词正序是否为表兄弟关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为表兄弟关系,若是,则结束本次操作,若不是则进入步骤306,其中:
若双词间满足关系四元组则双词为表兄弟关系,其中A、B表示双词,tfi和tfj分别为两条关系的侧面,tri和trj分别为两条关系的关系类型;
306、相邻双词之间没有语义关联关系,结束本次操作。
进一步地,步骤104包括以下步骤:
401、判断双词之间是否为父子关系,若是,则父节点的意图为该关系对应的侧面tf和关系类型tr,然后结束本次操作,若不是,则进入步骤402;
402、判断双词之间是否为祖孙关系,若是,则祖节点的意图为祖节点所在关系的侧面tfi和关系类型tri,然后结束本次操作,若不是,进入步骤403;
403、判断双词之间是否为亲兄弟关系,若是,则双词的意图为双词共同的父节点所在关系的侧面tf和关系类型tr,用户的检索意图为查找相同父节点下的其他亲兄弟节点,然后结束本次操作,若不是,进入步骤404;
404、判断双词之间是否为表兄弟关系,若是,则双词的意图分别为双词共同的父节点与其所在关系对应的侧面tfi、tfj和关系类型tri、trj,然后结束本次操作,若不是,结束本次操作。
进一步的,步骤105包括以下步骤:
501、判断关键词是否只有一个意图,若是,则该意图即为该关系词意图,然后结束本次操作,若不是,进入步骤502;
502、判断关键词是否有两个相同的意图,若是,则只保留其中一个意图作为该关键词意图,然后结束本次操作;若不是,则进入步骤503;
503、判断关键词是否有两个不同的意图,若是,则该两个不同的意图均保留作为该关键词的意图,若不是,结束本次操作。
进一步地,步骤106中对意图进行量化参数表达为[TF,TR,EB]:其中:
TF表示意图侧面,
TR表示意图关系类型,
EB表示是否查找亲兄弟,若查找亲兄弟则取EB=1,否则EB=0。
有益效果:本发明所提供的基于词表模型的用户检索意图判断方法充分挖掘了用户输入中包含的意图信息并利用了词表模型中的语义关联,通过分析用户检索请求之间的语义关联分析用户可能的检索意图,不依赖于检索结果,有利于提高检索精度。与现有技术相比,本发明对用户意图的分析具有以下有益效果:
1、对信息检索进行有效的扩展;
2、使得检索结果更加符合用户的期望,提高检索精度。
附图说明
图1是本发明公开的基于词表模型的用户检索意图判断方法的流程框图;
图2是图1中步骤102所述获取用户检索请求并进行处理的流程图;
图3是图1中步骤103所述判断相邻词汇在词表模型中的结构关系的流程图;
图4是图1中步骤104所述利用结构关系的相关侧面、关系类型信息,判断用户意图的流程图。
图5是图1中步骤105所述被重复判断意图的词汇进行意图合并的流程图。
图6本发明实现步骤302的具体方法的流程示意图。
图7是本发明实现步骤303的具体方法的流程示意图。
图8是本发明实现步骤304的具体方法的流程示意图。
图9是本发明实现步骤305的具体方法的流程示意图。
具体实施方式:
下面对本发明的具体实施方式详细说明。
为便于本领域技术人员更好的理解技术方案,下面对本申请文件中出现的技术名称做一个解释说明:
词表模型:词表模型的设计吸收了叙词表、词典和本体等知识组织系统的数据模型及设计思想,通过专业词汇、关系、领域等构建专业词汇间的语义联系,为语义扩展和检索提供了语义基础。词表模型可用四元组表示:NE={W,R,tr,tf}。其中;
W表示构成专业词汇;
R表示关系;
RT表示关系类型;
F表示侧面。
词表模型采用手动构建的方式,具有领域性、自底向上、灵活可扩展的特点。
专业词汇(W):专业词汇是指在某个专业(如机械、电子、控制等)被专业人员所共识的统一的概念、术语或称谓。专业词汇分为核心词(Wk)和同义词(Wsyn),除同义之外的所有关系都是基于核心词建立的,同义关系单独建立。
关系(R):关系是两个词汇之间的语义联系,简记为R。不同类型的语义关联称为关系类型(tr),它是对关系的具体刻画。在关系中,被其他词汇所解释的专业词汇称为主体词汇(Wo),用来解释主体词汇的专业词汇称为客体词汇(Ws)。主客体词汇是在关系中体现的,不是一层不变的,在一个关系中的主体词汇可以是另一个关系中的客体词汇。
关系类型(tr):关系类型是对专业词汇间关系的抽象描述,反映了词汇间关系的类别。针对工程领域词汇的特点,结合术语学和本体论研究,选取关系类型为同义关系、近义关系、对立关系、继承关系、组成关系、实例关系、属性关系等。
侧面(tf):侧面表示相同主体词汇在某方面语义下的关系集合,简记为F。不同的侧面用侧面标识(tf)来表示,侧面标识不能具体定义,只用来区分不同的侧面。
意图扩展:当用户输入多个词时,我们可以通过多词之间的关系推理用户真正的检索目的。检索意图用以下三个参数扩展[TF,TR,EB]:其中TF表示意图侧面,TR表示意图关系类型,EB表示是否查找亲兄弟,若查找亲兄弟则取EB=1,否则EB=0。通过意图扩展,用户输入的关键词被推理为多个具有语义关系的词汇。
图1是本发明实现基于词表模型的用户检索意图判断方法的流程示意图,如图1所示,基于词表模型的用户检索意图判断方法,包括以下步骤:
101、利用某领域下的文献或语料,构建词表模型;
102、获取用户检索请求;
103、判断相邻词汇在词表模型中的结构关系;
104、利用结构关系的相关侧面、关系类型信息,判断用户意图;
105、对于每一个关键词,被重复判断意图的词汇进行意图合并;
106、形成用户意图量化表达。
进一步地,步骤101包括以下步骤:
S1011词表词汇抽取:
利用某领域下的一批文献或语料,将其中所用到的专业术语词汇整理形成词汇表,完成后进入步骤S1012;
S1012词表词汇关系构建
利用步骤S1011得到的词汇表,将词汇间的语义关联整理成关系表,完成后进入步骤S1013;
S1013词汇关系侧面构建
对于同一主体词汇,其所在的某些关系具有相近的语义,侧面即表示相同主体词汇下具有某方面语义的关系的集合,若侧面没有定义具体的语义含义,则称其为侧面标识,根据关系表形成侧面表。
更进一步地,词表模型包括关系要素R,其表达式为R=(Wo,Ws,tf,tr),其中:
Wo表示主体词汇;
Ws表示客体词汇;
tf表示侧面标识;
tr表示关系类型。
图2是本发明实现步骤102的具体方法的流程示意图,如图2所示,其包括以下步骤:
201、对用户检索输入进行分词处理,生成关键词列表;
202、对关键词列表进行相邻去重,若相邻词汇相同,则保留其中之一;
203、查询词表模型,将关键词列表中的英文全部转化为小写,词表同义词全部转化为核心词。
图3是本发明实现步骤103的具体方法的流程示意图,如图3所示,其包括以下步骤:
301、将相邻的关键词两两组合,完成后进入步骤302;
302、判断相邻双词正序是否为父子关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为父子关系,若是,则结束本次操作,若不是则进入步骤303,其中:
若双词间满足关系四元组rAB=(A,B,tf,tr)或rAB=(B,A,tf,tr),则双词为父子关系,其中A、B表示双词,tf为该关系的侧面,tr为该关系的关系类型;
303、判断相邻双词正序是否为祖孙关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为祖孙关系,若是,则结束本次操作,若不是则进入步骤304,其中:
若双词间满足关系四元组则双词为祖孙关系,其中A、B表示双词,tfi和tfj分别为两条关系的侧面,tri和trj分别为两条关系的关系类型;
304、判断相邻双词正序是否为亲兄弟关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为亲兄弟关系,若是,则结束本次操作,若不是则进入步骤305,其中:
若双词间满足关系四元组则双词为亲兄弟关系,其中A、B表示双词,tf为该关系的侧面,tr为该关系的关系类型;
305、判断相邻双词正序是否为表兄弟关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为表兄弟关系,若是,则结束本次操作,若不是则进入步骤306,其中:
若双词间满足关系四元组则双词为表兄弟关系,其中A、B表示双词,tfi和tfj分别为两条关系的侧面,tri和trj分别为两条关系的关系类型;
306、相邻双词之间没有语义关联关系,结束本次操作。
图4是本发明实现步骤104的具体方法的流程示意图,如图4所示,其包括以下步骤:
401、判断双词之间是否为父子关系,若是,则父节点的意图为该关系对应的侧面tf和关系类型tr,然后结束本次操作,若不是,则进入步骤402;
402、判断双词之间是否为祖孙关系,若是,则祖节点的意图为祖节点所在关系的侧面tfi和关系类型tri,然后结束本次操作,若不是,进入步骤403;
403、判断双词之间是否为亲兄弟关系,若是,则双词的意图为双词共同的父节点所在关系的侧面tf和关系类型tr,用户的检索意图为查找相同父节点下的其他亲兄弟节点,然后结束本次操作,若不是,进入步骤404;
404、判断双词之间是否为表兄弟关系,若是,则双词的意图分别为双词共同的父节点与其所在关系对应的侧面tfi、tfj和关系类型tri、trj,然后结束本次操作,若不是,结束本次操作。
图5是本发明实现步骤105的具体方法的流程示意图,如图5所示,其包括以下步骤:
501、若词汇只有一个意图,则直接采用;
502、若词汇有两个相同的意图,则只保留其中一个;
503、若词汇有两个不同的意图,则均保留。
经过意图判断与意图合并的过程后,可将用户意图转化为量化表达[TF,TR,EB],其中TF表示侧面,TR表示关系类型,EB表示是否查找亲兄弟。
图6是本发明实现步骤302的具体方法的流程示意图,如图6所示,对于父子关系判断,其包括以下步骤:
601、查找在词表模型中是否有以双词中前词为主体词、后词为客体词的关系存在,若存在,进入602;否则,双词间不是父子关系;
602、双词间是父子关系,返回关系列表。
图7是本发明实现步骤303的具体方法的流程示意图,如图7所示,对于祖孙关系判断,其包括以下步骤:
701、查找词表模型中是否含有以双词中的后词为客体词汇的关系,若存在,进入702;否则,双词间不是祖孙关系;
702、返回关系列表List<R1>;
703、对List<R1>中的每一条关系R1,获取关系的主体词wordid;
704、查找词表模型中是否含有以词汇wordid为客体词汇的关系,若存在,进入705;否则,双词间不是祖孙关系;
705、返回关系列表List<R2>;
706、对List<R2>中的每一条关系R2,获取关系的主体词wordid1;
707、判断是否存在主体词wordid1与双词中的前词相同,若存在,进入708;否则,双词之间不是祖孙关系;
708、双词之间是祖孙关系,将R2存入关系列表,将R1存入关系列表。
图8是本发明实现步骤304的具体方法的流程示意图,如图8所示,对于亲兄弟关系判断,其包括以下步骤:
801、查找词表模型中是否含有以前词客体词汇的关系,若存在,进入802;否则,双词之间不是亲兄弟关系;
802、返回关系列表List<R1>;
803,对List<R1>中的每一条关系R1,获取关系的主体词wordid,侧面tf和关系类型tr;
804、查找是否含有以词汇wordid为主体词汇、侧面为tf、关系类型为tr的关系,若存在,进入805;否则,双词之间不存在亲兄弟关系;
805、返回关系列表List<R2>;
806、对List<R2>中的每一条关系R2,获取关系的客体词wordid1;
807、判断是否存在wordid1与双词中后词相同,若存在,进入808;否则,双词之间不是亲兄弟关系;
808、双词之间为亲兄弟关系,将R2存入关系列表,将R1存入关系列表。
图9是本发明实现步骤305的具体方法的流程示意图,如图9所示,对于表兄弟关系判断,其包括以下步骤:
901、查找词表模型中是否含有以双词中的前词为客体词汇的关系,若存在,进入902;否则,双词间不是表兄弟关系;
902、返回关系列表List<R1>;
903、对List<R1>中的每一条关系R1,获取关系的主体词wordid、侧面和关系类型;
904、查找是否含有以词汇wordid为主体词汇的关系,若存在,进入905;否则,双词间不是表兄弟关系;
905、返回关系列表List<R2>;
906、对List<R2>中的每一条关系R2,获取关系的客体词wordid1、侧面和关系类型;
907、判断是否存在wordid1与双词中的后词相同,若相同,进入908;否则,双词间不是表兄弟关系;
908、判断R1和R2的侧面、关系类型均相同,若不都相同,进入909;否则,双词间不是表兄弟关系;
909、双词间是表兄弟关系,将R2存入关系列表,将R1存入关系列表。
下面通过一个实施例对本用户检索意图判断方法展开具体说明。
例如:
已经构建完成了“知识管理”词表模型,其中包含“语义标注”“语义检索”“中文分词”等词及其关系。
用户输入检索请求为:“中文分词语义标注语义检索”。进行分词预处理,得到“中文分词”、“语义标注”和“语义检索”三个关键词。
判断关键词列表中相邻关键词间在词表模型中的结构关系:
“中文分词”和“语义标注”存在于关系“中文分词的应用包含语义标注、语义检索”,双词间为父子关系,“中文分词”为父节点,“语义标注”为子节点,所在关系侧面为200087,关系类型为属性;
“语义标注”和“语义检索”存在于关系“中文分词的应用包含语义标注、语义检索”,双词间为亲兄弟关系,与双词的父节点所在关系的侧面为200087,关系类型为属性。
通过双词结构关系判断检索意图:
在第一条父子关系中,父节点“中文分词”的意图为:查找侧面为200087,关系类型为属性的子节点,不进行亲兄弟扩展,子节点“语义标注”的意图无法判断;
在第二条亲兄弟关系中,双词的意图为:查找侧面为200087,关系类型为属性的亲兄弟节点。
被重复判断意图的词汇进行意图合并:
“中文分词”只有一组意图:查找侧面为200087,关系类型为属性的子节点,不进行亲兄弟扩展;
“语义标注”只有一组意图:查找侧面为200087,关系类型为属性的亲兄弟节点;
“语义检索”只有一组意图:查找侧面为200087,关系类型为属性的亲兄弟节点。
形成意图量化表达:中文分词[200087,属性,0],语义标注[200087,属性,1],语义检索[200087,属性,1]。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.基于词表模型的用户检索意图判断方法,其特征在于,包括以下步骤:
101、构建词表模型,完成后进入步骤102;
102、获取用户检索请求,完成后进入步骤103;
103、判断相邻词汇在词表模型中的结构关系,完成后进入步骤104;
104、利用结构关系信息,判断用户意图,完成后进入步骤105;
105、对于每一个关键词,被重复判断意图的词汇进行意图合并,完成后进入步骤106;
106、形成用户意图量化表达。
2.根据权利要求1所述的基于词表模型的用户检索意图判断方法,其特征在于,步骤101包括以下步骤:
S1011词表词汇抽取:
利用某领域下的一批文献或语料,将其中所用到的专业术语词汇整理形成词汇表,完成后进入步骤S1012;
S1012词表词汇关系构建
利用步骤S1011得到的词汇表,将词汇间的语义关联整理成关系表,完成后进入步骤S1013;
S1013词汇关系侧面构建
对于同一主体词汇,其所在的某些关系具有相近的语义,侧面即表示相同主体词汇下具有某方面语义的关系的集合,若侧面没有定义具体的语义含义,则称其为侧面标识,根据关系表形成侧面表。
3.根据权利要求2所述的基于词表模型的用户检索意图判断方法,其特征在于,词表模型包括关系要素R,其表达式为R=(Wo,Ws,tf,tr),其中:
Wo表示主体词汇;
Ws表示客体词汇;
tf表示侧面标识;
tr表示关系类型。
4.根据权利要求1所述的基于词表模型的用户检索意图判断方法,其特征在于步骤102包括以下步骤:
201、对用户检索输入进行分词处理,并去除停止词,生成关键词列表,完成后进入步骤202;
202、对关键词列表进行相邻去重,若相邻词汇相同,则保留其中之一,完成后进入步骤203;
203、将关键词列表中的英文全部转化为小写,然后查询步骤101得到的词表模型,将词表同义词全部转化为词表核心词。
5.根据权利要求1所述的基于词表模型的用户检索意图判断方法,其特征在于步骤103包括以下步骤:
301、将相邻的关键词两两组合,完成后进入步骤302;
302、判断相邻双词正序是否为父子关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为父子关系,若是,则结束本次操作,若不是则进入步骤303,其中:
若双词间满足关系四元组rAB=(A,B,tf,tr)或rAB=(B,A,tf,tr),则双词为父子关系,其中A、B表示双词,tf为该关系的侧面,tr为该关系的关系类型;
303、判断相邻双词正序是否为祖孙关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为祖孙关系,若是,则结束本次操作,若不是则进入步骤304,其中:
若双词间满足关系四元组则双词为祖孙关系,其中A、B表示双词,tfi和tfj分别为两条关系的侧面,tri和trj分别为两条关系的关系类型;
304、判断相邻双词正序是否为亲兄弟关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为亲兄弟关系,若是,则结束本次操作,若不是则进入步骤305,其中:
若双词间满足关系四元组则双词为亲兄弟关系,其中A、B表示双词,tf为该关系的侧面,tr为该关系的关系类型;
305、判断相邻双词正序是否为表兄弟关系,若是,结束本次操作,若不是,则进一步判断相邻双词反序是否为表兄弟关系,若是,则结束本次操作,若不是则进入步骤306,其中:
若双词间满足关系四元组则双词为表兄弟关系,其中A、B表示双词,tfi和tfj分别为两条关系的侧面,tri和trj分别为两条关系的关系类型;
306、相邻双词之间没有语义关联关系,结束本次操作。
6.根据权利要求1所述的基于词表模型的用户检索意图判断方法,其特征在于,步骤104包括以下步骤:
401、判断双词之间是否为父子关系,若是,则父节点的意图为该关系对应的侧面tf和关系类型tr,然后结束本次操作,若不是,则进入步骤402;
402、判断双词之间是否为祖孙关系,若是,则祖节点的意图为祖节点所在关系的侧面tfi和关系类型tri,然后结束本次操作,若不是,进入步骤403;
403、判断双词之间是否为亲兄弟关系,若是,则双词的意图为双词共同的父节点所在关系的侧面tf和关系类型tr,用户的检索意图为查找相同父节点下的其他亲兄弟节点,然后结束本次操作,若不是,进入步骤404;
404、判断双词之间是否为表兄弟关系,若是,则双词的意图分别为双词共同的父节点与其所在关系对应的侧面tfi、tfj和关系类型tri、trj,然后结束本次操作,若不是,结束本次操作。
7.根据权利要求1所述的基于词表模型的用户检索意图判断方法,其特征在于,步骤105包括以下步骤:
501、判断关键词是否只有一个意图,若是,则该意图即为该关系词意图,然后结束本次操作,若不是,进入步骤502;
502、判断关键词是否有两个相同的意图,若是,则只保留其中一个意图作为该关键词意图,然后结束本次操作;若不是,则进入步骤503;
503、判断关键词是否有两个不同的意图,若是,则该两个不同的意图均保留作为该关键词的意图,若不是,结束本次操作。
8.根据权利要求1所述的基于词表模型的用户检索意图判断方法,其特征在于,步骤106中对意图进行量化参数表达为[TF,TR,EB]:其中:
TF表示意图侧面,
TR表示意图关系类型,
EB表示是否查找亲兄弟,若查找亲兄弟则取EB=1,否则EB=0。
CN201811634847.XA 2018-12-29 2018-12-29 基于词表模型的用户检索意图判断方法 Active CN109670102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811634847.XA CN109670102B (zh) 2018-12-29 2018-12-29 基于词表模型的用户检索意图判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811634847.XA CN109670102B (zh) 2018-12-29 2018-12-29 基于词表模型的用户检索意图判断方法

Publications (2)

Publication Number Publication Date
CN109670102A true CN109670102A (zh) 2019-04-23
CN109670102B CN109670102B (zh) 2023-07-28

Family

ID=66146949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811634847.XA Active CN109670102B (zh) 2018-12-29 2018-12-29 基于词表模型的用户检索意图判断方法

Country Status (1)

Country Link
CN (1) CN109670102B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126074A (zh) * 2019-12-24 2020-05-08 北京神舟航天软件技术有限公司 一种检索请求语义扩展方法
CN117009614A (zh) * 2023-07-20 2023-11-07 武汉大学 一种地理信息资源检索意图检测方法及计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087669A (zh) * 2011-03-11 2011-06-08 北京汇智卓成科技有限公司 基于语义关联的智能搜索引擎系统
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
US20160147878A1 (en) * 2014-11-21 2016-05-26 Inbenta Professional Services, L.C. Semantic search engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087669A (zh) * 2011-03-11 2011-06-08 北京汇智卓成科技有限公司 基于语义关联的智能搜索引擎系统
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法
US20160147878A1 (en) * 2014-11-21 2016-05-26 Inbenta Professional Services, L.C. Semantic search engine

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126074A (zh) * 2019-12-24 2020-05-08 北京神舟航天软件技术有限公司 一种检索请求语义扩展方法
CN117009614A (zh) * 2023-07-20 2023-11-07 武汉大学 一种地理信息资源检索意图检测方法及计算机可读介质
CN117009614B (zh) * 2023-07-20 2024-01-09 武汉大学 一种地理信息资源检索意图检测方法及计算机可读介质

Also Published As

Publication number Publication date
CN109670102B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Hazman et al. A survey of ontology learning approaches
De Maio et al. Hierarchical web resources retrieval by exploiting fuzzy formal concept analysis
Turtle Text retrieval in the legal world
Haav A Semi-automatic Method to Ontology Design by Using FCA.
Alwan et al. A survey of schema matching research using database schemas and instances
Janik et al. Training-less ontology-based text categorization
CN109670102A (zh) 基于词表模型的用户检索意图判断方法
Balasubramaniam Hybrid fuzzy-ontology design using FCA based clustering for information retrieval in semantic web
Karoui et al. Context-based hierarchical clustering for the ontology learning
Peng et al. Management and retrieval of web services based on formal concept analysis
Kraft et al. Fuzzy information retrieval systems: A historical perspective
Catarci et al. Wag: Web-at-a-glance
Xie et al. Personalized query recommendation using semantic factor model
Thomas et al. Growing fields of interest-using an expand and reduce strategy for domain model extraction
Bordogna et al. An approach to identify ememes on the blogosphere
Cui et al. Hierarchical structural approach to improving the browsability of web search engine results
Bordogna et al. A fuzzy approach to the conceptual identification of ememes on the blogosphere
Gardarin et al. SEWISE: An ontology-based web information search engine
Haase et al. Personalized information retrieval in bibster, a semantics-based bibliographic peer-to-peer system
Bosc et al. Report on the fourth international conference on flexible query answering systems (FQAS 2000)
Shi et al. Improving keyphrase extraction using wikipedia semantics
Lei et al. An infrastructure for semantic web portals
Joga et al. Semantic text analysis using machine learning
Gao Knowledge System for Related Scholars of Specific Field Based on Collaborative Relationship
Khattak et al. Intelligent search in digital documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant