CN110688572A - 冷启动状态下搜索意图的识别方法 - Google Patents
冷启动状态下搜索意图的识别方法 Download PDFInfo
- Publication number
- CN110688572A CN110688572A CN201910903614.3A CN201910903614A CN110688572A CN 110688572 A CN110688572 A CN 110688572A CN 201910903614 A CN201910903614 A CN 201910903614A CN 110688572 A CN110688572 A CN 110688572A
- Authority
- CN
- China
- Prior art keywords
- service
- category
- word
- search
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 3
- 244000062793 Sorghum vulgare Species 0.000 description 11
- 235000019713 millet Nutrition 0.000 description 11
- 230000006399 behavior Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 241001426056 Eleusine coracana subsp. coracana Species 0.000 description 2
- 235000007199 Panicum miliaceum Nutrition 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及冷启动状态下搜索意图的识别方法,包括:A.定义类别和类别属性;B.标注每个业务词元所属的类别属性;C.计算各业务词元与各类别的相似度值,形成业务词元与相似类别对应的键‑值数据单元;D.根据字典词元提取搜索词的核心词,将核心词与业务词元匹配,得到与核心词相同的业务词元,通过键‑值数据单元得到每个核心词对应的类别列表及类别的相似度值;E.对所有分词进行搜索,并结合类别列表及类别的相似度值,搜索结果是在初次排序结果的基础上加权相似度值,按相似度值由高到低显示。本发明能够在搜索系统刚上线处于冷启动阶段时,不用依赖用户行为数据即可有效识别用户搜索意图,并且不需要大规模繁琐的数据处理过程。
Description
技术领域
本发明涉及数据分析的方法,具体讲是冷启动状态下搜索意图的识别方法。
背景技术
意图识别是一种帮助搜索引擎提高搜索准确度和用户体验的有效方法。目前通常采用的方法是词表穷举法、规则解析法和机器学习方法等。
其中机器学习方法是目前使用最广泛、也是最有效的一种意图识别方法。它是通过挖掘和分析用户的行为日志、埋点数据,然后根据统计分类模型计算出搜索词中关键词对应的意图的概率,最终给出查询的意图。
但是机器学习方法只能适用于已经具备大量用户行为数据的搜索系统,对于刚上线运行的搜索系统就显得无能为力,没有大量用户行为数据的支撑无法对用户搜索的意图进行有效识别。
发明内容
本发明提供了一种冷启动状态下搜索意图的识别方法,以解决搜索系统刚上线运行时,搜索系统还处于冷启动阶段的搜索意图的识别。
本发明冷启动状态下搜索意图的识别方法,包括:
A.定义与各行业分别对应的类别,以及各类别各自对应的类别属性;例如电子产品行业中的其中一种类别为“手机”,其具有的类别属性包括:产品、品牌、类目、型号、材质等。
B.对业务数据库中的业务词元,自动标注每个业务词元所属的多种类别属性,例如业务词元为“小米”所对应的类别属性可以有“品牌”、“材质”等;所述的业务词元即为业务数据库中的业务数据经过分词器切分后产生的各种初始词元,为了能够在搜索系统冷启动阶段与用户搜索词进行对比和匹配。
C.根据各类别的行业标准,计算出与各类别属性相对应的各业务词元与各类别的相似度值,根据所述的相似度值,形成单个业务词元与多个相似类别对应的键-值数据单元,其中键为业务词元,值为该业务词元对应的类别和相似度值;在每个行业中都有各自基本的标准,例如在电商行业中,商品的名称、品牌、价格等这些类别属性的重要程度要高于商品的描述、评论等类别属性。所述的键-值数据单元可以是一张或一组相关联的数据表。
D.根据现有的分词字典中的字典词元对用户输入的搜索词进行匹配和分词,然后根据字典词元已标注的类别属性,从得到的分词中提取出核心词,将核心词与业务词元进行匹配,得到与核心词相同的业务词元,通过所述的键-值数据单元进而得到每个核心词分别对应的类别列表及类别的相似度值,因此,键-值数据单元的数据结构为:业务词元->{类别1:相似度值1;类别2:相似度值2;类别3:相似度值3;};
例如将用户输入的搜索词为“红色小米手机”,则通过现有的字典词元对该搜索词进行分词,得到“红色”、“小米”、“手机”三个分词,再根据这三个分词在字典词元中已标注好的类别属性,分别为“产品属性”、“品牌”、“类别”,因为通常在搜索中匹配和类别是用户主要关心的,因此提取出“小米”和“手机”为核心词。将“小米”和“手机”在业务词元中进行匹配找到相同的词,再用这两个词去键-值数据单元中查询得到这两个词分别对应的类别列表和相似度值。
E.对搜索词的所有分词结果进行搜索,同时将得到的类别列表及类别的相似度值作为搜索条件传递给搜索引擎,搜索结果是在初次排序结果的基础上对各类别的相似度值进行加权,显示时在初次排序的基础上,按类别的相似度值由高到低顺序显示搜索结果。
本发明不用依赖用户行为数据,直接通过对已有的业务词元数据进行分析即可识别出用户的搜索意图,比传统的机器学习方法更简单,不需要分析大量的非结构化数据,也不需要日志数据进行清洗和降噪处理,并且因为本身的数据规模较小,因此也更易于分析和处理。
进一步的,因为用户在搜索时,很大概率会通过品牌名称对商品进行搜索,因此为了获取用户所要搜索的品牌名称,在步骤D中,根据业务词元的类别属性筛选出所有属于品牌类别属性的业务词元,然后将得到的各分词分别通过朴素贝叶斯算法与所有品牌类别属性的业务词元逐一匹配,得到属于品牌名称的分词,即得到了搜索词中对应的品牌名称。朴素贝叶斯算法可以理解为是一个概率分类器,判断每个业务词元与得到的每个分词相同的概率,并以此进行归类。
同时,用户在搜索时,也有很大概率会通过商品的品类来对商品进行搜索,因此为了获取用户所要搜索的品类名称,在步骤D中,根据业务词元的类别属性筛选出所有属于品类类别属性的业务词元,将得到的各分词分别通过朴素贝叶斯算法与所有品类类别属性的业务词元逐一匹配,得到属于品类名称的分词,即得到了搜索词中对应的品类名称。
进一步的,步骤E中,在对所述的各核心词进行搜索的同时,还对搜索词中的非核心词进行搜索,在进行搜索结果排序时,非核心词的搜索结果位于核心词搜索结果之后。
进一步的,步骤D中,如果搜索词没有在业务词元中得到匹配,则根据字典词元和业务规则,筛选出搜索词中的品牌词、品类词和/或产品词中的一个或多个的核心词,使用筛选出的核心词再在业务词元中进行匹配,对未能匹配的核心词进行标记,用于后续的新词识别。
本发明冷启动状态下搜索意图的识别方法,能够在搜索系统刚上线处于冷启动阶段时,不用依赖用户行为数据即可有效识别用户搜索意图,并且不需要大规模繁琐的数据处理过程。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明冷启动状态下搜索意图的识别方法的流程图。
具体实施方式
如图1所示本发明冷启动状态下搜索意图的识别方法,包括:
A.定义与各行业分别对应的类别,以及各类别各自对应的类别属性;例如电子产品行业中的其中一种类别为“手机”,其具有的类别属性包括:产品、品牌、类目、型号、材质等。
B.对业务数据库中的现有的业务词元,自动标注每个业务词元所属的多种类别属性,例如业务词元为“小米”,所对应的类别属性可以有“品牌”、“原料”等;业务词元即为业务数据库中初始保存的各种词元,为了能够在搜索系统冷启动阶段与用户搜索词进行对比和匹配。
C.根据各类别的行业标准,计算出与各类别属性相对应的各业务词元与各类别的相似度值,根据所述的相似度值,形成单个业务词元与多个相似类别对应的键-值数据单元,其中键为业务词元,值为该业务词元对应的类别和相似度值。例如,业务词元为“小米”,其对应的类别属性为“品牌”,“品牌”类别属性为“小米”的类别包括有“手机”(相似度值为5.0)、“手机配件”(相似度值为2.3)、“家用电器”(相似度值为2.1)等,因此业务词元为“小米”的键-值数据单元的数据结构为:小米->{手机:5.0;手机配件:2.3;家用电器:2.1;};
在每个行业中都有各自基本的标准,例如在电商行业中,商品的名称、品牌、价格等这些类别属性的重要程度要高于商品的描述、评论等类别属性。所述的键-值数据单元可以是一张或一组相关联的数据表。
D.根据现有的分词字典中的字典词元对用户输入的搜索词进行匹配和分词,然后根据字典词元已标注的类别属性,从得到的分词中提取出核心词,将核心词与业务词元进行匹配,得到与核心词相同的业务词元,通过所述的键-值数据单元进而得到每个核心词分别对应的类别列表及类别的相似度值;例如将用户输入的搜索词为“红色小米手机”,则通过现有的字典词元对该搜索词进行分词,得到“红色”、“小米”、“手机”三个分词,再根据这三个分词在字典词元中已标注好的类别属性,分别为“产品属性”、“品牌”、“类别”,因为通常在搜索中匹配和类别是用户主要关心的,因此提取出“小米”和“手机”为核心词。将“小米”和“手机”在业务词元中进行匹配找到相同的词,再用这两个词去键-值数据单元中查询得到这两个词分别对应的类别列表和相似度值。
由于用户在搜索时,很大概率会通过品牌或品类的名称来对商品进行搜索,因此为了获取用户所要搜索的品牌和品类,根据业务词元的类别属性筛选出所有标注为品牌类别和品类类别的业务词元,将从搜索词中得到的各分词分别通过朴素贝叶斯算法与这些品牌类别和品类类别的业务词元逐一匹配,得到该分词对应的品牌名称或品类名称,将其作为搜索的核心词之一。例如,用户输入的搜索词为“华为HUAWEI畅享10Plus超高清全视屏前置悬浮式镜头4800万超广角AI三摄4GB+128GB幻夜黑全网通双4G手机”,经过分词和相似度值赋值后,得到其中的核心词为“华为、HUAWEI、畅享10Plus、手机、全网通、4G”,其余的为非核心词;其中“华为”在类别属性中属于品牌,“手机”在类别属性中属于品类。
根据字典词元和业务规则,筛选出搜索词中的品牌词、品类词和/或产品词中的一个或多个的核心词,使用筛选出的核心词再在业务词元中进行匹配,对未能匹配的核心词进行标记,用于后续的新词识别。
E.对搜索词的所有分词结果进行搜索,同时将得到的类别列表及类别的相似度值作为搜索条件传递给搜索引擎,搜索结果是在初次排序结果的基础上对各类别的相似度值进行加权,显示时在初次排序的基础上,按类别的相似度值由高到低顺序显示搜索结果,并且非核心词的搜索结果位于核心词的搜索结果之后。
Claims (5)
1.冷启动状态下搜索意图的识别方法,其特征包括:
A.定义与各行业分别对应的类别,以及各类别各自对应的类别属性;
B.对业务数据库中的业务词元,自动标注每个业务词元所属的多种类别属性;
C.根据各类别的行业标准,计算出与各类别属性相对应的各业务词元与各类别的相似度值,根据所述的相似度值,形成单个业务词元与多个相似类别对应的键-值数据单元,其中键为业务词元,值为该业务词元对应的类别和相似度值;
D.根据现有的分词字典中的字典词元对用户输入的搜索词进行匹配和分词,然后根据字典词元已标注的类别属性,从得到的分词中提取出核心词,将核心词与业务词元进行匹配,得到与核心词相同的业务词元,通过所述的键-值数据单元进而得到每个核心词分别对应的类别列表及类别的相似度值;
E.对搜索词的所有分词结果进行搜索,同时将得到的类别列表及类别的相似度值作为搜索条件传递给搜索引擎,搜索结果是在初次排序结果的基础上对各类别的相似度值进行加权,显示时在初次排序的基础上,按类别的相似度值由高到低顺序显示搜索结果。
2.如权利要求1所述的冷启动状态下搜索意图的识别方法,其特征为:步骤D中,根据业务词元的类别属性筛选出所有属于品牌类别属性的业务词元,然后将得到的各分词分别通过朴素贝叶斯算法与所有品牌类别属性的业务词元逐一匹配,得到属于品牌名称的分词。
3.如权利要求1所述的冷启动状态下搜索意图的识别方法,其特征为:步骤D中,根据业务词元的类别属性筛选出所有属于品类类别属性的业务词元,将得到的各分词分别通过朴素贝叶斯算法与所有品类类别属性的业务词元逐一匹配,得到属于品类名称的分词。
4.如权利要求1所述的冷启动状态下搜索意图的识别方法,其特征为:步骤E中,在对所述的各核心词进行搜索的同时,还对搜索词中的非核心词进行搜索,在进行搜索结果排序时,非核心词的搜索结果位于核心词搜索结果之后。
5.如权利要求1所述的冷启动状态下搜索意图的识别方法,其特征为:步骤D中,如果搜索词没有在业务词元中得到匹配,则根据字典词元和业务规则,筛选出搜索词中的核心词,使用筛选出的核心词再在业务词元中进行匹配,对未能匹配的核心词进行标记,用于后续的新词识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910903614.3A CN110688572A (zh) | 2019-09-24 | 2019-09-24 | 冷启动状态下搜索意图的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910903614.3A CN110688572A (zh) | 2019-09-24 | 2019-09-24 | 冷启动状态下搜索意图的识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688572A true CN110688572A (zh) | 2020-01-14 |
Family
ID=69110110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910903614.3A Pending CN110688572A (zh) | 2019-09-24 | 2019-09-24 | 冷启动状态下搜索意图的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688572A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400436A (zh) * | 2020-02-19 | 2020-07-10 | 北京值得买科技股份有限公司 | 一种基于用户意图识别的搜索方法以及装置 |
CN112445895A (zh) * | 2020-11-16 | 2021-03-05 | 深圳市世强元件网络有限公司 | 一种识别用户搜索场景的方法及系统 |
CN113536118A (zh) * | 2021-06-29 | 2021-10-22 | 未鲲(上海)科技服务有限公司 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158971A (zh) * | 2007-11-15 | 2008-04-09 | 深圳市迅雷网络技术有限公司 | 一种基于搜索引擎的搜索结果排序方法及装置 |
CN105893427A (zh) * | 2015-12-07 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 资源搜索方法以及服务器 |
CN106971000A (zh) * | 2017-04-12 | 2017-07-21 | 北京焦点新干线信息技术有限公司 | 一种搜索方法及装置 |
CN108268617A (zh) * | 2018-01-05 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 用户意图确定方法及装置 |
CN109213921A (zh) * | 2017-06-29 | 2019-01-15 | 广州涌智信息科技有限公司 | 一种商品信息的搜索方法及装置 |
-
2019
- 2019-09-24 CN CN201910903614.3A patent/CN110688572A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158971A (zh) * | 2007-11-15 | 2008-04-09 | 深圳市迅雷网络技术有限公司 | 一种基于搜索引擎的搜索结果排序方法及装置 |
CN105893427A (zh) * | 2015-12-07 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 资源搜索方法以及服务器 |
CN106971000A (zh) * | 2017-04-12 | 2017-07-21 | 北京焦点新干线信息技术有限公司 | 一种搜索方法及装置 |
CN109213921A (zh) * | 2017-06-29 | 2019-01-15 | 广州涌智信息科技有限公司 | 一种商品信息的搜索方法及装置 |
CN108268617A (zh) * | 2018-01-05 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 用户意图确定方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400436A (zh) * | 2020-02-19 | 2020-07-10 | 北京值得买科技股份有限公司 | 一种基于用户意图识别的搜索方法以及装置 |
CN112445895A (zh) * | 2020-11-16 | 2021-03-05 | 深圳市世强元件网络有限公司 | 一种识别用户搜索场景的方法及系统 |
CN112445895B (zh) * | 2020-11-16 | 2024-04-19 | 深圳市世强元件网络有限公司 | 一种识别用户搜索场景的方法及系统 |
CN113536118A (zh) * | 2021-06-29 | 2021-10-22 | 未鲲(上海)科技服务有限公司 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN107729336B (zh) | 数据处理方法、设备及系统 | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
JP5575902B2 (ja) | クエリのセマンティックパターンに基づく情報検索 | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
CN110688572A (zh) | 冷启动状态下搜索意图的识别方法 | |
CN112148843B (zh) | 文本处理方法、装置、终端设备和存储介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
US20100257202A1 (en) | Content-Based Information Retrieval | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
CN110532265B (zh) | 基于产品使用手册构建问答系统的方法、装置及计算设备 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN105512300B (zh) | 信息过滤方法及系统 | |
CN115827956A (zh) | 一种数据信息检索方法、装置、电子设备及存储介质 | |
CN114090877A (zh) | 职位信息推荐方法、装置、电子设备及存储介质 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
US20230245144A1 (en) | System for identifying and predicting trends | |
CN111538903A (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN115525761A (zh) | 一种文章关键词筛选类别的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |
|
RJ01 | Rejection of invention patent application after publication |