CN102419778A - 一种挖掘查询语句子话题并聚类的信息搜索方法 - Google Patents
一种挖掘查询语句子话题并聚类的信息搜索方法 Download PDFInfo
- Publication number
- CN102419778A CN102419778A CN2012100047723A CN201210004772A CN102419778A CN 102419778 A CN102419778 A CN 102419778A CN 2012100047723 A CN2012100047723 A CN 2012100047723A CN 201210004772 A CN201210004772 A CN 201210004772A CN 102419778 A CN102419778 A CN 102419778A
- Authority
- CN
- China
- Prior art keywords
- msub
- query
- similarity
- mrow
- query statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 235000019580 granularity Nutrition 0.000 claims abstract description 5
- 238000005065 mining Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 230000000630 rising effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种挖掘查询语句的子话题,并对子话题进行聚类的信息搜索方法。该方法将原始查询语句和历史查询语句分别分词,得到查询词序列,计算原查询语句与历史查询语句的相似度。进一步可将原查询通过语义词典进行扩展,计算扩展查询语句与历史查询语句的相似度,并修正历史查询语句与原始查询语句的相似度;还可通过历史查询语句的点击信息进一步修正历史查询语句与原始查询语句的相似度。然后通过相似度的预设阀值选出最终子话题,并对其进行聚类以及构建树形的层次结构。用户通过选择树形层次结构的不同叶子节点来获得不同分类粒度的检索结果,方便用户按照话题类别来浏览检索结果。
Description
技术领域
本发明属于计算机信息检索技术领域,涉及一种挖掘用户查询语句的子话题,并对子话题进行聚类的信息搜索方法。
背景技术
挖掘查询语句的子话题、将子话题聚类并根据话题包含关系构建树形的层次结构,可以为用户提供更精准的查询扩展、查询建议,并按文档所属话题,在检索结果中分类展示。目前挖掘查询子话题的相关研究非常有限,一种方法是从搜索引擎返回的结果文档中,抽取关键短语并使用数据挖掘的算法,从而找出候选的子话题(参考文献:E.Uluhan and B.Badur.Developmetn of a Framework for Sub-topic Discovery from the Web.2008.In Proceedings ofPICMET2008)。
在计算查询之间的相似度时,则有很多方法。一种方法是使用马尔科夫随机场模型计算查询词与隐式概念之间的依赖度(参考文献:D.Metzler and W.B.Croft.Latent ConceptExpansion Using Markov Random Fields.In Proceedings of SIGIR2007和H.Lang,D.Metzler,B.Wang,J-T.Li.Improved Latent Concept Expansion Using Hierarchical Markov Random Fields.InProceedings of SIGIR2010)。另一种方法采用上下文模型,计算查询的上下文之间的相似度,用来表示两个查询之间的相似度(参考文献:X.Wang and C.Zhai.Mining term associationpatterns from search logs for effective query reformulation.In Proceedings ofCIKM2008.)。还有一种较为简单直接的方式,即计算查询之间的余弦相似度。
聚类算法也有很多,比如常见的K-means、层次聚类等等。有些方法在聚类的同时,还挖掘出该类的中心项,如星形聚类(参考文献:X.Wang and C.Zhai.Mining term associationpatterns from search logs for effective query reformulation.In Proceedings of CIKM2008.)。
在现有的方法中,还未发现有使用查询日志作为挖掘查询子话题的来源,而且在计算查询语句之间的相似度时,没有充分考虑到词汇不匹配问题,以及词汇过匹配问题。另外现有的聚类方法是基于词汇相似度的聚类方法,没有深入挖掘话题之间的包含关系,难以在话题之间建立树形的层次结构。因此这些聚类方法,在聚类查询子话题时,存在一定的缺陷,无法充分满足用户需求。
发明内容
本发明的目的在于解决现有技术中的问题,提出一种挖掘用户所查询的语句的子话题,并对这些子话题进行聚类的信息搜索方法。该方法能够自动挖掘某个查询语句所可能包含的所有子话题,根据话题之间的包含关系进行聚类,进而实现为用户提供更合理的查询建议、查询结果的多样性展示等目的。
本发明的挖掘查询语句子话题并聚类的信息搜索方法,其步骤包括:
1)对原始查询语句和查询日志中的历史查询语句分别分词,得到查询词序列;
2)将对所述历史查询语句分词后得到的查询词序列作为候选子话题,计算所述候选子话题与所述原始查询语句的相似度;
3)利用语义词典找出原始查询语句的同义表达方式并作为扩展查询语句,计算所述候选子话题与所述扩展查询语句的相似度,并用该相似度修正步骤2)所得的相似度;
4)根据相似度的预设阀值对所述候选子话题进行筛选,得到最终子话题;
5)对所述最终子话题进行聚类,并根据聚类后的子话题间的包含关系构建树形层次结构;
6)搜索引擎按照所述树形层次结构对检索结果进行分类,用户通过选择所述树形层次结构的不同叶子节点来获得不同分类粒度的检索结果。
进一步地,利用每个所述历史查询语句在查询日志中出现的次数修正步骤3)最终得出的相似度;还可通过计算每个所述历史查询语句与所述原始查询语句的点击相似度,并用该点击相似度进进一步修正步骤3)最终得出的相似度;所述点击相似度采用如下公式计算:
进一步地,步骤1)所述的查询日志包括用户提交的查询语句、查询时间和点击的结果文档。
进一步地,通过余弦相似度方法计算所述候选子话题与所述原始查询语句的相似度或所述候选子话题与所述扩展查询语句的相似度。
进一步地,所述语义词典包括HowNet和同义词词林。
进一步地,所述筛选是将与原始查询语句的相似度小于所述预设阀值的候选子话题删去。
进一步地,所述聚类的方法包括K-means方法和后缀树聚类方法。
进一步地,在所述聚类后的每个类中选取一个历史查询作为该类的中心项,根据该中心项的话题包含关系构建所述树形层次结构。
本发明利用查询日志挖掘用户查询语句的子话题,这些子话题可以用于扩展用户查询,或者为用户提供更多的查询建议;对查询子话题进行聚类,并按照话题的包含关系构建树形的层次结构,可以根据需要从不同的粒度来为用户提供查询扩展、查询建议等,还能根据子话题的结构,对搜索引擎返回的结果文档划分层次结构,方便用户按照话题类别来浏览检索结果。
附图说明
图1为本发明实施例的挖掘查询子话题并聚类的信息搜索方法的流程图。
图2为本发明实施例的对查询子话题构建树形结构的示意图。
具体实施方式
下面通过实施例并结合附图,对本发明作详细的说明。
图1为本实施例的挖掘查询子话题并聚类的信息搜索方法的流程图,对各个步骤具体说明如下:
1)对原始查询语句和历史查询语句分词:
a)设原始查询语句为Q,对其分词,得到一串查询词序列q1q2...qn,其中qi(i∈[0,n])为单个查询词;
b)设查询日志中的所有历史查询语句为P={P1,P2,…Pk},对每个历史查询语句Pi分词,得到一个查询词序列pi1pi2...pim,其中pij(j∈[0,m])为单个查询词;将这些查询词序列(仍用Pi表示)作为候选子话题。所述查询日志是用户在使用搜索引擎时,由搜索服务提供商记录的用户的一系列行为,包括用户提交的查询语句、查询时间、点击的结果文档等信息。
2)子话题挖掘:对候选子话题进行挖掘,得到最终子话题。
a)计算候选子话题Pi与原始查询语句Q的相似度Sim(Pi,Q),可以使用余弦相似度的方法进行计算,也可以使用其它方法。使用余弦相似度方法进行计算的公式如下,其中w是Pi或Q中的查询词,和cQ(w)分别是w在Pi或Q中出现的次数:
b)为解决原查询语句Q与历史查询Pi的词汇不匹配问题,利用语义词典对原始查询Q进行扩展,找出与原始查询语句Q同义的多种表达方式{Q1,Q2,…,Qn},进而计算候选子话题Pi与每个扩展查询语句Qj的相似度Sim(Pi,Qj)。词汇不匹配属自然语言处理领域的经典问题,是指两个词汇或语句在字面上存在较大差异,但是表达同一个语义。
中文可用的语义词典非常多,如HowNet、同义词词林等资源。将原始查询Q分词后得到词序列q1q2...qn,对每一个词qi,从语义词典中抽取它的所有同义词,组成同义词集合Si={s|s∈synonyms(qi)}。然后分别使用每一个同义词sij代替原始查询语句Q中的查询词qi,组成一个新的查询,即扩展后的查询语句,得到扩展查询集合{Q1,Q2,…,Qn}。使用公式(1)计算每一个扩展后查询Qj与历史查询Pi的相似度Sim(Pi,Qj)。然后我们通过加权求和用Sim(Pi,Qj)来更新候选子话题Pi与原始查询语句Q的相似度Sim(Pi,Q),即
其中,公式右边的Sim(Pi,Q)由公式(1)计算得来,wj为相应的权重。
c)为进一步解决原查询语句Q与历史查询语句Pi的词汇过匹配问题,利用查询日志中的点击信息来判别历史查询与原查询是否属于同一查询意图。词汇过匹配问题是指:两个词汇或语句字面的相似度非常高,即使用了很多共同的词语,但是表达的语义相差很大。
首先考虑了历史查询Pi在查询日志中的出现次数对该子话题的影响。当Pi在查询日志中出现的次数越多,对其相似度赋予更高的系数,当Pi出现的次数较少时,相似度则得到较小的系数。进而对公式(2)有如下更新
Sim(Pi,Q)=f(c(Pi))□Sim(Pi,Q) (3)
其中,等式右边的Sim(Pi,Q)由公式(2)计算而来。
其次,采用点击相似度来增强候选子话题Pi与原始查询语句Q的相似度Sim(Pi,Q)。从查询日志中,分别统计出用户在查询Pi和Q上点击的所有url,记为集合和UQ,根据两个集合的重合度,来计算Pi和Q的点击相似度CL(Pi,Q),如公式(4)所示
其中,为单调上升函数;f可根据需要进行调整。在不同的数据集上,可能使用不同的f函数才能得到最佳效果,根据在模型训练阶段的实验结果,确定用何种f函数,如 等;还可以对每个url赋予一定权重,然后进行计算,如 其中,ui为相应集合中的url,分子中的ui为集合中的元素,分母中的ui为集合中的元素,wi为每个ui所对应的权重。
然后利用CL(Pi,Q)再次更新Sim(Pi,Q)的得分,如公式(5)所示
Sim(Pi,Q)=CL(Pi,Q)□Sim(Pi,Q) (5)
其中,公式右边的Sim(Pi,Q)由公式(3)计算得来。至此,得到最终的候选子话题Pi与原始查询语句Q的相似度Sim(Pi,Q);
d)通过相似度的预设阀值对所述候选子话题进行筛选,如果Sim(Pi,Q)大于某个阈值δ,则保留该历史查询,作为查询Q的最终子话题。
3)子话题聚类:
首先采用常用的聚类方法,如K-means方法、后缀树聚类方法等,根据最终子话题所属的领域进行聚类。然后在每个类中选取一个历史查询作为该类的中心项,根据中心项的话题包含关系,构建树形的层次结构。父节点的话题范围更为广泛,子节点的话题范围则较为具体,即父节点中的话题较子节点的话题更为泛化。
下面是通过一个查询实例对上述流程作更具体、直观的说明。
1)任务初始化(对查询语句分词):
a)原始查询Q=“苹果MP3”,对其分词后得到序列Q=“苹果MP3”;
b)查询日志中有历史查询P1=“苹果MP3保修”,P2=“苹果MP3价格”,P3=“苹果MP3售后服务”,P4=“iPod报价”,P5=“苹果施肥”,经过分词后,分别得到序列“苹果MP3保修”,“苹果 MP3 价格”,“苹果 MP3 售后 服务”,“iPod报价”,“苹果 施肥”,每个查询在日志中出现的次数分别为c(Pi)。
2)子话题挖掘:
a)使用公式(1)计算候选子话题Pi与原始查询语句Q的相似度Sim(Pi,Q);
b)查询语义字典,得到“苹果”的同义词有{“iPod”,“apple”},“MP3”的同义词有{“数字音乐播放器”},代入原始查询得到Q1=“iPod MP3”,Q2=“apple MP3”,Q3“苹果 数字 音乐 播放器”。根据公式(1),计算每个扩展查询Qi原始查询语句Q的相似度Sim(Pi,Qi)。再根据公式(2),更新相似度Sim(Pi,Q);
c)结合每个历史查询在日志中出现的次数c(Pi),根据公式(3),修正每个历史查询Pi与原始查询语句Q的相似度Sim(Pi,Q);根据公式(4)计算每个历史查询Pi与原始查询语句Q的点击相似度CL(Pi,Q),再根据公式(5)更新查询Pi与原始查询语句Q的相似度Sim(Pi,Q);
d)根据事先约定的阈值δ,当查询Pi与原始查询语句Q的相似度Sim(Pi,Q)小于该阈值时,剔除该查询,本例中可以剔除P5,因为其与原始查询语句Q的点击相似度为0,因此Sim(P5,Q)较小。
3)子话题聚类:
a)经过步骤1、2,得到子话题P1,P2,P3,P4,聚类得到三类{P1,P3},{P2}和{P4}。
b)其中{P1,P3}属话题“服务”,{P2}和{P4}属于话题“价格”,这两个话题均是原始查询Q的子话题,根据话题的包含关系,构建出树形的层次图,如图2所示。
图2是一个三层的树形结构,根节点为“苹果MP3”,是用户提交的初始查询,叶子节点为该查询语句的子话题聚类,每个聚类中包含多个具有相同信息需求的子话题。图中第二层节点为子话题聚类的父节点,即该层节点的话题范畴包含叶子节点的话题范畴,并且范畴更为宽泛。搜索引擎在返回所有的检索结果之后,按照叶子节点聚类的结果,对这些检索结果进行分类。用户可以根据自己的需求,选择不同的分类粒度来显示检索结果。当用户选择显示“聚类1”的结果时,将分类标签为“聚类1”的检索结果呈现给用户;当用户选择显示“苹果MP3价格”的结果时,将分类标签为“聚类2”和“聚类3”的检索结果呈现给用户。
上述实施例仅是为了说明本发明的原理,而非用于限制本发明的范围。本领域的技术人员可在不违背本发明的技术原理及精神下,对实施例作修改与变化。本发明的保护范围应如权利要求所述。
Claims (9)
1.一种挖掘查询语句子话题并聚类的信息搜索方法,其步骤包括:
1)对原始查询语句和查询日志中的历史查询语句分别分词,得到查询词序列;
2)将对所述历史查询语句分词后得到的查询词序列作为候选子话题,计算所述候选子话题与所述原始查询语句的相似度;
3)利用语义词典找出原始查询语句的同义表达方式并作为扩展查询语句,计算所述候选子话题与所述扩展查询语句的相似度,并用该相似度修正步骤2)所得的相似度;
4)根据相似度的预设阀值对所述候选子话题进行筛选,得到最终子话题;
5)对所述最终子话题进行聚类,并根据聚类后的子话题间的包含关系构建树形层次结构;
6)搜索引擎按照所述树形层次结构对检索结果进行分类,用户通过选择所述树形层次结构的不同叶子节点来获得不同分类粒度的检索结果。
2.如权利要求1所述的方法,其特征在于,利用每个所述历史查询语句在所述查询日志中出现的次数修正所述步骤3)最终得出的相似度。
4.如权利要求1所述的方法,其特征在于,所述查询日志包括用户提交的查询语句、查询时间和点击的结果文档。
5.如权利要求1所述的方法,其特征在于,通过余弦相似度方法计算所述候选子话题与所述原始查询语句的相似度或所述候选子话题与所述扩展查询语句的相似度。
6.如权利要求1所述的方法,其特征在于,所述语义词典包括HowNet和同义词词林。
7.如权利要求1所述的方法,其特征在于,所述筛选是将与原始查询语句的相似度小于所述预设阀值的候选子话题删去。
8.如权利要求1所述的方法,其特征在于,所述聚类的方法包括K-means方法和后缀树聚类方法。
9.如权利要求1所述的方法,其特征在于,在所述聚类后的每个类中选取一个历史查询作为该类的中心项,根据该中心项的话题包含关系构建所述树形层次结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210004772 CN102419778B (zh) | 2012-01-09 | 2012-01-09 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210004772 CN102419778B (zh) | 2012-01-09 | 2012-01-09 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102419778A true CN102419778A (zh) | 2012-04-18 |
CN102419778B CN102419778B (zh) | 2013-03-20 |
Family
ID=45944191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210004772 Expired - Fee Related CN102419778B (zh) | 2012-01-09 | 2012-01-09 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102419778B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279486A (zh) * | 2013-04-24 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 一种提供相关搜索的方法和装置 |
WO2014146265A1 (en) * | 2013-03-20 | 2014-09-25 | Nokia Corporation | Method and apparatus for personalized resource recommendations |
CN104346480A (zh) * | 2014-11-27 | 2015-02-11 | 百度在线网络技术(北京)有限公司 | 信息挖掘方法和装置 |
CN105243149A (zh) * | 2015-10-26 | 2016-01-13 | 深圳市智搜信息技术有限公司 | 一种基于语义的查询推荐方法和系统 |
US9519859B2 (en) | 2013-09-06 | 2016-12-13 | Microsoft Technology Licensing, Llc | Deep structured semantic model produced using click-through data |
CN106326318A (zh) * | 2015-07-10 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 搜索方法及装置 |
CN107301170A (zh) * | 2017-06-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
CN107633073A (zh) * | 2017-09-22 | 2018-01-26 | 广州阿里巴巴文学信息技术有限公司 | 资源确定方法、装置及系统 |
CN107766869A (zh) * | 2016-08-22 | 2018-03-06 | 富士通株式会社 | 对象分类方法和对象分类设备 |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
US10089580B2 (en) | 2014-08-11 | 2018-10-02 | Microsoft Technology Licensing, Llc | Generating and using a knowledge-enhanced model |
CN109033076A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 信息挖掘方法和装置 |
CN109325047A (zh) * | 2018-11-22 | 2019-02-12 | 北京明朝万达科技股份有限公司 | 一种交互式ElasticSearch深度分页查询方法和设备 |
CN109977294A (zh) * | 2019-04-03 | 2019-07-05 | 三角兽(北京)科技有限公司 | 信息/查询处理装置、查询处理/文本查询方法、存储介质 |
CN110019646A (zh) * | 2017-10-12 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种建立索引的方法和装置 |
CN110377706A (zh) * | 2019-07-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于深度学习的搜索语句挖掘方法及设备 |
CN111309754A (zh) * | 2020-01-22 | 2020-06-19 | 王伟 | 服务数据接入方法、装置、存储介质和电子设备 |
CN111414462A (zh) * | 2020-02-21 | 2020-07-14 | 网易(杭州)网络有限公司 | 一种对话语句确定方法、装置、计算机设备和介质 |
CN114706841A (zh) * | 2022-04-18 | 2022-07-05 | 上海喜马拉雅科技有限公司 | 查询内容库构建方法、装置、电子设备及可读存储介质 |
CN116756346A (zh) * | 2023-08-17 | 2023-09-15 | 中国标准化研究院 | 一种信息检索方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077569A1 (en) * | 2006-09-27 | 2008-03-27 | Yahoo! Inc., A Delaware Corporation | Integrated Search Service System and Method |
CN101571853A (zh) * | 2009-05-22 | 2009-11-04 | 哈尔滨工程大学 | 网络话题内容演化分析装置及分析方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
-
2012
- 2012-01-09 CN CN 201210004772 patent/CN102419778B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077569A1 (en) * | 2006-09-27 | 2008-03-27 | Yahoo! Inc., A Delaware Corporation | Integrated Search Service System and Method |
CN101571853A (zh) * | 2009-05-22 | 2009-11-04 | 哈尔滨工程大学 | 网络话题内容演化分析装置及分析方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014146265A1 (en) * | 2013-03-20 | 2014-09-25 | Nokia Corporation | Method and apparatus for personalized resource recommendations |
CN103279486A (zh) * | 2013-04-24 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 一种提供相关搜索的方法和装置 |
CN103279486B (zh) * | 2013-04-24 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种提供相关搜索的方法和装置 |
US10055686B2 (en) | 2013-09-06 | 2018-08-21 | Microsoft Technology Licensing, Llc | Dimensionally reduction of linguistics information |
US9519859B2 (en) | 2013-09-06 | 2016-12-13 | Microsoft Technology Licensing, Llc | Deep structured semantic model produced using click-through data |
US10089580B2 (en) | 2014-08-11 | 2018-10-02 | Microsoft Technology Licensing, Llc | Generating and using a knowledge-enhanced model |
CN104346480A (zh) * | 2014-11-27 | 2015-02-11 | 百度在线网络技术(北京)有限公司 | 信息挖掘方法和装置 |
CN106326318A (zh) * | 2015-07-10 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 搜索方法及装置 |
CN106326318B (zh) * | 2015-07-10 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 搜索方法及装置 |
CN105243149B (zh) * | 2015-10-26 | 2018-12-25 | 深圳市智搜信息技术有限公司 | 一种基于语义的查询推荐方法和系统 |
CN105243149A (zh) * | 2015-10-26 | 2016-01-13 | 深圳市智搜信息技术有限公司 | 一种基于语义的查询推荐方法和系统 |
CN107766869A (zh) * | 2016-08-22 | 2018-03-06 | 富士通株式会社 | 对象分类方法和对象分类设备 |
US10755048B2 (en) | 2017-06-19 | 2020-08-25 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for segmenting sentence |
CN107301170A (zh) * | 2017-06-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
CN107633073A (zh) * | 2017-09-22 | 2018-01-26 | 广州阿里巴巴文学信息技术有限公司 | 资源确定方法、装置及系统 |
CN110019646A (zh) * | 2017-10-12 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种建立索引的方法和装置 |
CN110019646B (zh) * | 2017-10-12 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 一种建立索引的方法和装置 |
US11275898B2 (en) | 2017-12-28 | 2022-03-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Search method and device based on artificial intelligence |
CN108052659B (zh) * | 2017-12-28 | 2022-03-11 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN109033076A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 信息挖掘方法和装置 |
CN109325047A (zh) * | 2018-11-22 | 2019-02-12 | 北京明朝万达科技股份有限公司 | 一种交互式ElasticSearch深度分页查询方法和设备 |
CN109977294B (zh) * | 2019-04-03 | 2020-04-28 | 三角兽(北京)科技有限公司 | 信息/查询处理装置、查询处理/文本查询方法、存储介质 |
CN109977294A (zh) * | 2019-04-03 | 2019-07-05 | 三角兽(北京)科技有限公司 | 信息/查询处理装置、查询处理/文本查询方法、存储介质 |
CN110377706A (zh) * | 2019-07-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于深度学习的搜索语句挖掘方法及设备 |
CN110377706B (zh) * | 2019-07-25 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的搜索语句挖掘方法及设备 |
CN111309754A (zh) * | 2020-01-22 | 2020-06-19 | 王伟 | 服务数据接入方法、装置、存储介质和电子设备 |
CN111414462A (zh) * | 2020-02-21 | 2020-07-14 | 网易(杭州)网络有限公司 | 一种对话语句确定方法、装置、计算机设备和介质 |
CN111414462B (zh) * | 2020-02-21 | 2023-06-30 | 网易(杭州)网络有限公司 | 一种对话语句确定方法、装置、计算机设备和介质 |
CN114706841A (zh) * | 2022-04-18 | 2022-07-05 | 上海喜马拉雅科技有限公司 | 查询内容库构建方法、装置、电子设备及可读存储介质 |
CN116756346A (zh) * | 2023-08-17 | 2023-09-15 | 中国标准化研究院 | 一种信息检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102419778B (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102419778A (zh) | 一种挖掘查询语句子话题并聚类的信息搜索方法 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
Di Marco et al. | Clustering and diversifying web search results with graph-based word sense induction | |
US20180300315A1 (en) | Systems and methods for document processing using machine learning | |
Wei et al. | A survey of faceted search | |
CN106663117B (zh) | 构造支持提供探索性建议的图 | |
Shi et al. | Keyphrase extraction using knowledge graphs | |
CN102298588B (zh) | 从非结构化文档中抽取对象的方法和装置 | |
US20150178273A1 (en) | Unsupervised Relation Detection Model Training | |
US20120158703A1 (en) | Search lexicon expansion | |
CN103823893A (zh) | 一种基于用户评论的产品检索方法及产品检索系统 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN102760142A (zh) | 一种针对搜索请求抽取搜索结果主题标签的方法和装置 | |
Wang et al. | Mining subtopics from text fragments for a web query | |
CN102760140A (zh) | 一种基于事件本体的查询扩展方法 | |
Qiu et al. | Improving textrank algorithm for automatic keyword extraction with tolerance rough set | |
CN115248839A (zh) | 一种基于知识体系的长文本检索方法以及装置 | |
Jain et al. | Efficient clustering technique for information retrieval in data mining | |
Asa et al. | A comprehensive survey on extractive text summarization techniques | |
Xia et al. | Graph-based web query classification | |
Zhang et al. | Improving semi-supervised text classification by using Wikipedia knowledge | |
Sarkar et al. | Feature Engineering for Text Representation | |
CN115827817A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
Sahmoudi et al. | A new keyphrases extraction method based on suffix tree data structure for Arabic documents clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130320 |
|
CF01 | Termination of patent right due to non-payment of annual fee |