CN108614897A - 一种面向自然语言的内容多样化搜索方法 - Google Patents
一种面向自然语言的内容多样化搜索方法 Download PDFInfo
- Publication number
- CN108614897A CN108614897A CN201810444300.7A CN201810444300A CN108614897A CN 108614897 A CN108614897 A CN 108614897A CN 201810444300 A CN201810444300 A CN 201810444300A CN 108614897 A CN108614897 A CN 108614897A
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- natural language
- distance
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向自然语言的内容多样化搜索方法,主要为对用户的查询语句进行理解,再通过实体识别、文本表示、实体关系抽取等技术将自然语言查询转换成带有“查询焦点”的查询模式图;随后利用结构匹配的方法将查询模式图与知识图谱进行匹配计算,得到一系列满足查询要求的结果;最后再通过多样化计算,得到Top‑k个与“查询焦点”高度相关,且多样化的查询结果,从而更好地满足用户的查询需求。本发明的方法可为用户提供更为多样化的检索内容,且搜索速度快。
Description
技术领域
本发明涉及搜索方法技术领域,特别涉及一种面向自然语言的内容多样化搜索方法。
背景技术
知识图谱是将海量信息用结构化的方式组织起来,高效地为用户的查询提供答案,因此,近年来它在学术界和工业界引起了广泛的关注。在知识图谱中,查询计算主要采用结构匹配的方式。也就是说,给定一个查询模式图和知识图谱,在知识图谱中找到与查询模式图相匹配的所有匹配项。
查询知识图谱的关键在于查询理解和查询计算。在使用知识图谱时主要容易遇到以下问题:首先,由于用户的查询通常是用自然语言来表达的,这样的语言不能直接用知识图谱来计算。因此,需要先将自然语言查询转换为查询模式图。其次,知识图谱通常规模很大,并且主要是依据子图同构的方式进行计算。
因此,现有技术中知识图谱的使用主要存在以下三方面的问题:
(a)由于输入大,计算复杂性高,查询计算的计算量往往过大;
(b)由于查询模式图在知识图谱中可能存在大量的匹配结果,因此理解查询结果比较困难;
(c)用户通常感兴趣的是与“查询焦点”相匹配的Top-k个最优结果,且这些结果应尽可能的多样化。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种面向自然语言的内容多样化搜索方法,该方法允许用户使用自然语言查询,并将自然语言转换为查询模式图与知识图谱进行匹配,且提出了衡量匹配结果相关性和距离的指标,设计结果多样性计算模型,可计算Top-k个相关且多样化的结果,具有查询结果多样化和查询效率高的优点。
为了达到上述的技术效果,本发明采取以下技术方案:
一种面向自然语言的内容多样化搜索方法,包含以下步骤:
S1.利用CRF++工具对由自然语言描述的查询语句进行实体识别;
S2.采用word2vec技术对实体进行消歧处理,其中,若识别出的实体在知识图谱中不存在,则采用相似度计算的方法查找语义相近的实体;
S3.采用无监督的实体关系识别方法,利用距离特征、频次特征、关系指示词特征建立实体关系识别模型,提取查询语句中的“实体——实体”的实体对关系;
S4.以实体为节点,“实体——实体”关系为边,建立查询模式图,并对查询语句中的“查询焦点”在查询模式图中予以标注;
S5.利用子图同构算法将查询模式图与知识图谱进行结构匹配,返回与“查询焦点”相匹配的“对象”集合;
S6.采用结果多样化技术,选择Top-k个对象作为查询结果;
本发明的面向自然语言的内容多样化搜索方法允许用户使用自然语言进行查询,并将自然语言转换为查询模式图,在知识图谱上进行结构匹配,提出衡量匹配结果相关性和距离的标准,并用多样化Top-k方法输出k个相关且典型的结果,主要为对用户的查询语句进行理解,再通过实体识别、文本表示、实体关系抽取等技术将自然语言查询转换成带有“查询焦点”的查询模式图;随后利用结构匹配的方法将查询模式图与知识图谱进行匹配计算,得到一系列满足查询要求的结果;最后再通过多样化计算,得到Top-k个与“查询焦点”高度相关,且多样化的查询结果,从而更好地满足用户的查询需求。
进一步地,所述步骤S1具体为:
S11.利用分词工具对训练语料进行粗标记;
S12.对粗标后的训练再进行人工细标,得到标注准确的语料作为训练样本;
S13.利用CRF++工具对训练样本进行训练,产生用于实体识别的模型,并利用该模型识别自然语言查询语句中的实体。
进一步地,所述步骤S2具体为:
S21.对语料分词,然后使用word2vec计算语料中多次出现的词的词向量;
S22.当知识图谱中不存在用户输入的查询语句所包含的实体时,该实体即为未知实体,基于余弦法计算未知实体与词典中其他词的相似度,选择相似度最高的词替代未知实体。
进一步地,所述步骤S3具体为:
S31.统计文本文档,查找距离特征,得到词间距离与实体对存在关系的概率分布图,其中,当实体对间的距离为2时,该实体对存在关系的概率最大,随着词间距离增大,实体对存在关系的概率逐渐减小;
S32.计算实体对出现频次,其中,有效的实体对在文本文档中出现的频次越高,实体对间存在关系的概率越大;
S33.统计文本文档,查找关系指示词特征,得到关系指示词在实体对中的位置与实体对存在关系的概率分布图,其中,关系指示词出现在两个实体的中间位置时,该实体对存在关系的概率最大;
S34.用距离特征、实体对频次特征、和关系指示词特征来评定实体对是否存在关系。
进一步地,所述步骤S34中评定实体对是否存在关系的评定模型为:
M=αXdistance+βYfrequency+γZrelation
其中,α,β,γ是利用网格搜索的方法确定,Xdistance为距离特征,Yfrequency为实体对频次特征,Zrelation为关系指示词特征。
进一步地,所述步骤S6具体为:
S61.定义匹配结果的相关性指标和距离指标,产生结果多样性计算模型,其中,相关性指标基于“对象”集合的属性,而距离指标则基于“对象”集合属性的Jaccard距离或集合属性的Jaccard距离的加权值;
S62.根据多样性计算模型,从“对象”集合中,迭代选取最优的“对象”对,直到k个“对象”选择完毕为止。
进一步地,所述步骤S61具体为:
S611.将实体的评价分值作为判断其匹配相关性的标准ω(υi);
S612.将ω(υi)零均值归一化为ω'(υi);
S613.将实体的其它属性作为实体间距离判断的依据,并将两个实体间的距离d(υi,υj)定义为集合属性的Jaccard距离或集合属性的Jaccard距离的加权值;
S614.将d(υi,υj)零均值归一化为d'(υi,υj);
所述步骤S62具体为:
S621.定义“对象”集合的多样化函数即“对象”集合的多样性计算模型F(S):
S622.计算并存储实体对的多样化函数值;
S623.对与“查询焦点”相匹配的“对象”进行迭代,挑选多样化函数值最大的“对象”对;
S624.当k个对象选择完毕,迭代终止。
本发明与现有技术相比,具有以下的有益效果:
本发明的面向自然语言的内容多样化搜索方法支持自然语言查询,并通过结果多样化计算来提高查询友好度,增强用户体验,且可适用于多种领域,该方法不仅能够有效地理解用户的查询需求、聚焦查询焦点,还能为用户快速检索出k个高度相关且多样化的结果,从而优化用户体验;因此,与现有技术相比本发明的方法可为用户提供更为多样化的检索内容,且搜索速度快。
附图说明
图1是本发明的面向自然语言的内容多样化搜索方法的流程示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
如图1所示,一种面向自然语言的内容多样化搜索方法,具体包括以下几个步骤:
步骤s1:构造知识图谱,将实体作为节点,“实体——实体”关系作为边,建立知识图谱G;
步骤s2:对用户输入的自然语言查询语句进行实体抽取,本方案采用CRF++来实现实体抽取;
步骤s3:若抽取到的实体在知识图谱中不存在时,采用相似度计算的方法得到与其相近的实体;
步骤s4:对实体间的关系进行判断;
步骤s5:基于实体和“实体——实体”关系构造查询模式图Q,并标记“查询焦点”;
步骤s6:将查询模式图Q和知识图谱G通过子图同构算法进行匹配,得到与“查询焦点”相匹配的“对象”集合;
步骤s7:从匹配结果中挑选出相关度高且典型的Top-k个结果进行输出。
其中,步骤s2具体包含:
步骤s21::利用分词工具对训练语料进行粗标记;
步骤s22:对粗标后的语料进行人工细标,得到标注准确的语料作为训练样本;
步骤s23:利用CRF++对标注准确的语料进行训练得到一个训练模型,利用该模型实现对查询语句的实体识别。
步骤s3具体包含:
步骤s31:对语料分词,然后使用word2vec计算语料中多次出现的词的词向量;
步骤s32:当知识图谱中不存在用户输入的查询信息所包含的实体w时,基于余弦法计算与词典中其他词的相似度,选择相似度最高的词替代。
步骤s4具体包含:
步骤s41:统计文本文档,查找距离特征,得到词间距离与实体对存在关系的概率分布图,当实体对间的距离为2时,该实体对存在关系的概率最大,随着词间距离增大,实体对存在关系的概率逐渐减小;
步骤s42:计算实体对出现频次,有效的实体对在文本中出现的频次越高,实体对间存在关系的概率越大;
步骤s43:统计文本文档,查找关系指示词特征,得到指示词在实体对中的位置与实体对存在关系的概率分布图,指示词出现在两个实体的中间位置时,该实体对存在关系的概率最大;
步骤s44:利用距离特征,实体对频次特征,和关系指示词特征来评定实体对是否存在关系,其评定模型如下,α,β,γ是利用网格搜索的方法确定:
M=αXdistance+βYfrequency+γZrelation
Xdistance为距离特征,Yfrequency为实体对频次特征,Zrelation为关系指示词特征。
步骤s7具体为:
步骤s71:将实体的评价分值作为判断其匹配相关性的标准ω(υi);
步骤s72:将ω(υi)零均值归一化为ω'(υi);
步骤s73:将实体的其它属性作为实体间距离判断的依据,并将两个实体间的距离d(υi,υj)定义为属性的Jaccard距离,或属性集合的Jaccard距离的加权值;
步骤s74:将d(υi,υj)零均值归一化为d'(υi,υj);
步骤s75:定义实体集合S的多样化函数F(S):
步骤s76:计算并存储实体对的多样化函数值;
步骤s77:对与“查询焦点”相匹配的“对象”进行迭代,挑选多样化函数值最大的“对象”对;
步骤s78:当k个对象选择完毕,迭代终止。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (7)
1.一种面向自然语言的内容多样化搜索方法,其特征在于,包含以下步骤:
S1.利用CRF++工具对由自然语言描述的查询语句进行实体识别;
S2.采用word2vec技术对实体进行消歧处理,其中,若识别出的实体在知识图谱中不存在,则采用相似度计算的方法查找语义相近的实体;
S3.采用无监督的实体关系识别方法,利用距离特征、频次特征、关系指示词特征建立实体关系识别模型,提取查询语句中的“实体——实体”的实体对关系;
S4.以实体为节点,“实体——实体”关系为边,建立查询模式图,并对查询语句中的“查询焦点”在查询模式图中予以标注;
S5.利用子图同构算法将查询模式图与知识图谱进行结构匹配,返回与“查询焦点”相匹配的“对象”集合;
S6.采用结果多样化技术,选择Top-k个对象作为查询结果。
2.根据权利要求1所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S1具体为:
S11.利用分词工具对训练语料进行粗标记;
S12.对粗标后的训练再进行人工细标,得到标注准确的语料作为训练样本;
S13.利用CRF++工具对训练样本进行训练,产生用于实体识别的模型,并利用该模型识别自然语言查询语句中的实体。
3.根据权利要求2所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S2具体为:
S21.对语料分词,然后使用word2vec计算语料中多次出现的词的词向量;
S22.当知识图谱中不存在用户输入的查询语句所包含的实体时,该实体即为未知实体,基于余弦法计算未知实体与词典中其他词的相似度,选择相似度最高的词替代未知实体。
4.根据权利要求3所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S3具体为:
S31.统计文本文档,查找距离特征,得到词间距离与实体对存在关系的概率分布图,其中,当实体对间的距离为2时,该实体对存在关系的概率最大,随着词间距离增大,实体对存在关系的概率逐渐减小;
S32.计算实体对出现频次,其中,有效的实体对在文本文档中出现的频次越高,实体对间存在关系的概率越大;
S33.统计文本文档,查找关系指示词特征,得到关系指示词在实体对中的位置与实体对存在关系的概率分布图,其中,关系指示词出现在两个实体的中间位置时,该实体对存在关系的概率最大;
S34.用距离特征、实体对频次特征、和关系指示词特征来评定实体对是否存在关系。
5.根据权利要求4所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S34中评定实体对是否存在关系的评定模型为:
M=αXdistance+βYfrequency+γZrelation
其中,α,β,γ是利用网格搜索的方法确定,Xdistance为距离特征,Yfrequency为实体对频次特征,Zrelation为关系指示词特征。
6.根据权利要求5所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S6具体为:
S61.定义匹配结果的相关性指标和距离指标,产生结果多样性计算模型,其中,相关性指标基于“对象”集合的属性,而距离指标则基于“对象”集合属性的Jaccard距离或集合属性的Jaccard距离的加权值;
S62.根据多样性计算模型,从“对象”集合中,迭代选取最优的“对象”对,直到k个“对象”选择完毕为止。
7.根据权利要求6所述的一种面向自然语言的内容多样化搜索方法,其特征在于,所述步骤S61具体为:
S611.将实体的评价分值作为判断其匹配相关性的标准ω(υi);
S612.将ω(υi)零均值归一化为ω'(υi);
S613.将实体的其它属性作为实体间距离判断的依据,并将两个实体间的距离d(υi,υj)定义为集合属性的Jaccard距离或集合属性的Jaccard距离的加权值;
S614.将d(υi,υj)零均值归一化为d'(υi,υj);
所述步骤S62具体为:
S621.定义“对象”集合的多样化函数即“对象”集合的多样性计算模型F(S):
S622.计算并存储实体对的多样化函数值;
S623.对与“查询焦点”相匹配的“对象”进行迭代,挑选多样化函数值最大的“对象”对;
S624.当k个对象选择完毕,迭代终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444300.7A CN108614897B (zh) | 2018-05-10 | 2018-05-10 | 一种面向自然语言的内容多样化搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444300.7A CN108614897B (zh) | 2018-05-10 | 2018-05-10 | 一种面向自然语言的内容多样化搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108614897A true CN108614897A (zh) | 2018-10-02 |
CN108614897B CN108614897B (zh) | 2021-04-27 |
Family
ID=63662682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810444300.7A Active CN108614897B (zh) | 2018-05-10 | 2018-05-10 | 一种面向自然语言的内容多样化搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108614897B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427471A (zh) * | 2019-07-26 | 2019-11-08 | 四川长虹电器股份有限公司 | 一种基于知识图谱的自然语言问答方法及系统 |
CN111159424A (zh) * | 2019-12-27 | 2020-05-15 | 东软集团股份有限公司 | 标注知识图谱实体的方法,装置,存储介质及电子设备 |
CN112068832A (zh) * | 2020-08-26 | 2020-12-11 | 施剑侃 | 一种可视化界面设计方法及平台 |
CN112328773A (zh) * | 2020-11-26 | 2021-02-05 | 四川长虹电器股份有限公司 | 基于知识图谱的问答实现方法和系统 |
CN113312490A (zh) * | 2021-04-28 | 2021-08-27 | 乐山师范学院 | 一种针对突发事件的事件知识图谱构建方法 |
CN114860872A (zh) * | 2022-04-13 | 2022-08-05 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100331015A1 (en) * | 2009-06-30 | 2010-12-30 | Verizon Patent And Licensing Inc. | Methods, systems and computer program products for a remote business contact identifier |
CN102349072A (zh) * | 2009-01-30 | 2012-02-08 | 谷歌公司 | 识别查询方面 |
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
CN104866593A (zh) * | 2015-05-29 | 2015-08-26 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的数据库搜索方法 |
CN107967261A (zh) * | 2017-11-17 | 2018-04-27 | 康成投资(中国)有限公司 | 智能客服中交互式问句语义理解方法 |
-
2018
- 2018-05-10 CN CN201810444300.7A patent/CN108614897B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102349072A (zh) * | 2009-01-30 | 2012-02-08 | 谷歌公司 | 识别查询方面 |
US20100331015A1 (en) * | 2009-06-30 | 2010-12-30 | Verizon Patent And Licensing Inc. | Methods, systems and computer program products for a remote business contact identifier |
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
CN104866593A (zh) * | 2015-05-29 | 2015-08-26 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的数据库搜索方法 |
CN107967261A (zh) * | 2017-11-17 | 2018-04-27 | 康成投资(中国)有限公司 | 智能客服中交互式问句语义理解方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427471A (zh) * | 2019-07-26 | 2019-11-08 | 四川长虹电器股份有限公司 | 一种基于知识图谱的自然语言问答方法及系统 |
CN110427471B (zh) * | 2019-07-26 | 2022-10-18 | 四川长虹电器股份有限公司 | 一种基于知识图谱的自然语言问答方法及系统 |
CN111159424A (zh) * | 2019-12-27 | 2020-05-15 | 东软集团股份有限公司 | 标注知识图谱实体的方法,装置,存储介质及电子设备 |
CN112068832A (zh) * | 2020-08-26 | 2020-12-11 | 施剑侃 | 一种可视化界面设计方法及平台 |
CN112328773A (zh) * | 2020-11-26 | 2021-02-05 | 四川长虹电器股份有限公司 | 基于知识图谱的问答实现方法和系统 |
CN113312490A (zh) * | 2021-04-28 | 2021-08-27 | 乐山师范学院 | 一种针对突发事件的事件知识图谱构建方法 |
CN114860872A (zh) * | 2022-04-13 | 2022-08-05 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108614897B (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108614897A (zh) | 一种面向自然语言的内容多样化搜索方法 | |
CN106991161B (zh) | 一种自动生成开放式问题答案的方法 | |
CN110162695A (zh) | 一种信息推送的方法及设备 | |
CN110110094A (zh) | 基于社交网络知识图谱的跨网络人物关联方法 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN108280114A (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN109299383A (zh) | 生成推荐词的方法、装置、电子设备及存储介质 | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及系统 | |
CN113011194B (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN114580392A (zh) | 一种识别实体的数据处理系统 | |
CN107784110A (zh) | 一种索引建立方法及装置 | |
CN108804443A (zh) | 一种基于多特征融合的司法类案搜索方法 | |
CN109492082A (zh) | 下拉词推荐方法、装置、电子设备及存储介质 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
CN108062355A (zh) | 基于伪反馈与tf-idf的查询词扩展方法 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN111026787A (zh) | 网点检索方法、装置及系统 | |
CN104240026B (zh) | 产品设计知识管理服务匹配方法 | |
CN106528708A (zh) | 信息推送方法和装置 | |
CN105930358A (zh) | 基于关联度的案例检索方法及其系统 | |
CN106095779A (zh) | 一种基于关键词位置的检索方法及装置 | |
CN107562714A (zh) | 一种语句相似度计算方法及装置 | |
CN113420141B (zh) | 基于哈希聚类和上下文信息的敏感数据搜索方法 | |
CN105912649A (zh) | 一种数据库模糊检索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |