CN111651663A - 根据用户搜索内容快速进行关键词完全匹配的检索方法 - Google Patents
根据用户搜索内容快速进行关键词完全匹配的检索方法 Download PDFInfo
- Publication number
- CN111651663A CN111651663A CN202010307205.XA CN202010307205A CN111651663A CN 111651663 A CN111651663 A CN 111651663A CN 202010307205 A CN202010307205 A CN 202010307205A CN 111651663 A CN111651663 A CN 111651663A
- Authority
- CN
- China
- Prior art keywords
- user
- insurance
- score
- retrieval method
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000003068 static effect Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种根据用户搜索内容快速进行关键词完全匹配的检索方法,包括:第一步骤:根据用户指令触发搜索流程;第二步骤:执行搜索流程,其中搜索引擎针对用户指令中包含的目标商品,计算各保险商品的静态分和动态分以综合得到权重分值;第三步骤:根据各保险商品的权重分值进行排序,并且将经过排序的保险商品列表返回给用户。
Description
技术领域
本发明涉及保险领域,具体涉及一种根据用户搜索内容快速进行关键词完全匹配的检索方法。
背景技术
目前行业内很多平台的搜索大多都是单一规则,用户群所呈现的推荐结果是完全相同的,这种对用户来说是很被动的。在搜索结果精准度不高的情况下,用户就会很高频的去求助客服人员或者专属顾问,做定制的保险需求分析。当然这也需要公司花时间和经历来培训和招募专业保险讲解人员,间接性提高了聘请员工的成本。
而且,例如,当使用min-max标准化方法时,是对原始数据的线性变换,使结果值映射到[0-1]之间,转化函数如下:
这种方法非常不稳定,假设一个奇异点是第二大的值的1000倍,会让大部分的值都集中在0~0.01,失去了归一化的目的。
由此,希望能够开发出一套基于用户搜索内容的推荐规则,在前端交互层面增加筛选条件,帮助用户更精准的匹配结果,使得用户可以更快更精准的定位到自己的保险目标,也省去了寻求客服介入的环节。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种根据用户搜索内容快速进行关键词完全匹配的检索方法,使得用户可以更快更精准的定位到自己的保险目标,并省去了寻求客服介入的环节。
根据本发明,提供了一种根据用户搜索内容快速进行关键词完全匹配的检索方法,包括:
第一步骤:根据用户指令触发搜索流程;
第二步骤:执行搜索流程,其中搜索引擎针对用户指令中包含的目标商品,计算各保险商品的静态分和动态分以综合得到权重分值;
第三步骤:根据各保险商品的权重分值进行排序,并且将经过排序的保险商品列表返回给用户。
优选地,第一步骤包括:接收用户指令,并且在用户指令为拼音字母时将拼音字母自动识别为保险词库中与拼音匹配的汉语词语,所述保险词库中存储了与保险术语相关的词汇。
优选地,第一步骤还包括:在用户指令中存在与保险词库中的词汇的拼音相同的词语时将该词语自动识别为保险词库中的该词汇。
优选地,在第二步骤中,采用BM25算法计算各保险商品的询问的相关性分,作为动态分。
优选地,在第二步骤中,基于各保险商品的下单数、好评率和理赔速度计算动态分。
进一步优选地,在第二步骤中,采用下述公式计算静态分Tsocre:Tscore=a*f+b*g+c*h;其中f、g、h分别代表函数中针对下单数、好评率和理赔速度的度量,a、b、c分别是各项的权重参数。
进一步优选地,在第二步骤中,针对各保险商品,将下单数的取值范围选定为介于1和大于1的正整数之间的范围,并且对下单数进行对数运算,将运算结果作为公式中的f的数值。
进一步优选地,在第二步骤中,针对各保险商品,将好评率的取值范围选定为0~1,并且对好评率进行对数运算,将运算结果作为公式中的g的数值。
优选地,在第二步骤中,采用下述公式计算权重分值Score:Score=Dscore*Tscore;其中Tsocre表示静态分,Dscore表示动态分。
本发明基于用户搜索内容的推荐规则,在前端交互层面增加筛选条件,帮助用户更精准的匹配结果,使得用户可以更快更精准的定位到自己的保险目标,也省去了寻求客服介入的环节。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的根据用户搜索内容快速进行关键词完全匹配的检索方法的总体流程图。
图2示意性地示出了根据本发明优选实施例的搜索流程图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
为了解决对于搜索结果过多导致查询加载时间过慢、搜索内容与实际搜索结果相关度低、搜索词检索的精准性等问题。本发明旨在加速关键词匹配检索能力,以及服务端对分词解析处理的能力,各大平台搜索功能,由于搜索的特殊性,独立的ElasticSearch集群是无法满足多样的算法需求的,本发明在搜索的各个部件上都有相应的算法插件,用于构建商业搜索引擎的算法体系。
具体地,图1示意性地示出了根据本发明优选实施例的根据用户搜索内容快速进行关键词完全匹配的检索方法的总体流程图。
如图1所示,根据本发明优选实施例的根据用户搜索内容快速进行关键词完全匹配的检索方法包括:
第一步骤S1:根据用户指令触发搜索流程;
具体地说,用户找到功能入口后,点击搜索图标或者文本框,触发了搜索流程(例如,图2示出了搜索流程的具体示例);当输入条件关键字时,需要注意两个原则:容错、纠错。
(1)容错:允许用户输入错误的内容,智能为用户匹配正确的内容。例如支持拼音检索,在搜索引擎输入“yiwaixian”,服务端快速解析,并将拼音转化为“意外险”作为搜索结果。
(2)纠错:识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容。当用户输入错误关键词时,自动匹配正确或热搜词汇。例如输入“医疗报效”,服务端需要纠正为“医疗报销”作为搜索结果。
由此,优选地,第一步骤包括:接收用户指令,并且在用户指令为拼音字母时将拼音字母自动识别为保险词库中与拼音匹配的汉语词语,所述保险词库中存储了与保险术语相关的词汇。而且优选地,第一步骤还包括:在用户指令中存在与保险词库中的词汇的拼音相同的词语时将该词语自动识别为保险词库中的该词汇。
此外,可以记录用户搜索历史及热搜推荐关键词,作为辅助输入项。具体地,可以将用户历史搜索记录保存并显示出来,可减少操作负荷,尽量用选择代替输入,降低操作负荷和输入错误几率,可能需求场景如下:
(1)用户在开始新的搜索时,本次搜索目标与之前有一定关联,需要旧记录作为参考,以此调整搜索关键字,来提高搜索准确度;
(2)用户有印象之前搜索过某些内容,现在又想再次查看,就可以通过历史搜索记录,来作为线索查询到目标内容,从而减少了用户再次输入的操作,也降低了服务端的检索负荷。
第二步骤S2:执行搜索流程,其中搜索引擎针对用户指令中包含的目标商品,计算各保险商品的静态分和动态分以综合得到权重分值;
触发搜索后的交互等待即检索过程,检索过程是搜索引擎接收用户的询问(query)进行一系列处理并返回相关结果的过程。商业搜索引擎在检索过程中需要考虑2个因素:相关性和重要性。
(1)相关性:是指返回结果和输入询问是否相关,这是搜索引擎基本问题之一,目前常用的算法有BM25和空间向量模型。这个两个算法ElasticSearch都支持,一般商业搜索引擎都用BM25算法。BM25算法会计算每个商品和询问的相关性分,作为动态分用Dscore表示。由此,优选地,在第二步骤中,采用BM25算法计算各保险商品的询问的相关性分,作为动态分。
(2)重要性:是指商品被信赖的程度,把最被用户信赖的商品返回给用户,而不是让用户自己鉴别。尤其是在商品充分竞争的搜索,赋予商品合理的重要性分数,才能保证搜索结果的优质。重要性分也叫做静态分,用Tscore表示。
搜索引擎里面商品的静态分,是商品固有的和查询query无关的价值度量。相对而言商品的静态分的因素会更多一些。假设商品的静态分有3个决定性因素:1.下单数,2.好评率,3.理赔速度。静态分使用Tsocre表示,Tscore可以写成如下形式:
Tscore=a*f(下单数)+b*g(好评率)+c*h(理赔速度)
a,b,c是权重参数,用于平衡各个指标的影响程度。f,g,h是代表函数用于把原始的指标转化成合理的度量。
首先,寻找合理的代表函数。
(1)对各个指标取log。log的导数是一个减函数,表示为了获得更好的分数需要花费越来越多的代价。
(2)标准化。标准化的目的让各个度量可以在同一区间内进行比较。
比如,下单数的取值是0~10000,而好评率的取值为0~1。这种情况会影响到数据分析的结果和方便性,为了消除指标之间的量纲的影响,需要进行数据标准化处理,以解决数据指标之间的可比性。
由此,优选地,在第二步骤中,基于各保险商品的下单数、好评率和理赔速度计算动态分。进一步优选地,在第二步骤中,采用下述公式计算静态分Tsocre:Tscore=a*f+b*g+c*h;其中f、g、h分别代表函数中针对下单数、好评率和理赔速度的度量,a、b、c分别是各项的权重参数。
搜索引擎最终的排序依据是:Score=Dscore*Tscore。
在此,权重分值Score是做搜索、推荐、排序、精准投放等考量,也可以叫做综合考虑静态分和动态分,主要给用户相关且重要的商品推荐参考。
第三步骤S3:根据各保险商品的权重分值进行排序,并且将经过排序的保险商品列表返回给用户。
由此,在本发明中,首先,搜索的用户场景是为了帮助用户更精准和快速找到意图的内容/商品,这是最核心和最关键的;其次,考虑到用户戒备心理以及受到骚扰的体验,这一举措也是大大减少了客服人工介入的成本,在用户挑选中降低客服及顾问人员的工作量,起到仅需要时再出现的辅助性作用。
需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (9)
1.一种根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于包括:
第一步骤:根据用户指令触发搜索流程;
第二步骤:执行搜索流程,其中搜索引擎针对用户指令中包含的目标商品,计算各保险商品的静态分和动态分以综合得到权重分值;
第三步骤:根据各保险商品的权重分值进行排序,并且将经过排序的保险商品列表返回给用户。
2.根据权利要求1所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,第一步骤包括:接收用户指令,并且在用户指令为拼音字母时将拼音字母自动识别为保险词库中与拼音匹配的汉语词语,所述保险词库中存储了与保险术语相关的词汇。
3.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,第一步骤还包括:在用户指令中存在与保险词库中的词汇的拼音相同的词语时将该词语自动识别为保险词库中的该词汇。
4.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,在第二步骤中,采用BM25算法计算各保险商品的询问的相关性分,作为动态分。
5.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,在第二步骤中,基于各保险商品的下单数、好评率和理赔速度计算动态分。
6.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,在第二步骤中,采用下述公式计算静态分Tsocre:Tscore=a*f+b*g+c*h;其中f、g、h分别代表函数中针对下单数、好评率和理赔速度的度量,a、b、c分别是各项的权重参数。
7.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,在第二步骤中,针对各保险商品,将下单数的取值范围选定为介于1和大于1的正整数之间的范围,并且对下单数进行对数运算,将运算结果作为公式中的f的数值。
8.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,在第二步骤中,针对各保险商品,将好评率的取值范围选定为0~1,并且对好评率进行对数运算,将运算结果作为公式中的g的数值。
9.根据权利要求1或2所述的根据用户搜索内容快速进行关键词完全匹配的检索方法,其特征在于,采用下述公式计算权重分值Score:Score=Dscore*Tscore;其中Tsocre表示静态分,Dscore表示动态分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010307205.XA CN111651663A (zh) | 2020-04-17 | 2020-04-17 | 根据用户搜索内容快速进行关键词完全匹配的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010307205.XA CN111651663A (zh) | 2020-04-17 | 2020-04-17 | 根据用户搜索内容快速进行关键词完全匹配的检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111651663A true CN111651663A (zh) | 2020-09-11 |
Family
ID=72348476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010307205.XA Pending CN111651663A (zh) | 2020-04-17 | 2020-04-17 | 根据用户搜索内容快速进行关键词完全匹配的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651663A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080059298A1 (en) * | 2006-02-15 | 2008-03-06 | Liquidity Services Inc. | Dynamic keyword auctioning system, method and computer program product |
CN102446180A (zh) * | 2010-10-09 | 2012-05-09 | 腾讯科技(深圳)有限公司 | 一种商品搜索方法及其装置 |
CN104063523A (zh) * | 2014-07-21 | 2014-09-24 | 焦点科技股份有限公司 | 一种电子商务搜索评分与排名的方法及系统 |
CN105426528A (zh) * | 2015-12-15 | 2016-03-23 | 中南大学 | 一种商品数据的检索排序方法及系统 |
CN106096026A (zh) * | 2016-06-24 | 2016-11-09 | 武汉合创源科技有限公司 | 一种商品搜索方法及系统 |
CN106503119A (zh) * | 2016-10-17 | 2017-03-15 | 广州薏生网络科技有限公司 | 一种移动问诊平台垂直搜索结果的排序方法 |
CN108108380A (zh) * | 2016-11-25 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 搜索排序方法、搜索排序装置、搜索方法和搜索装置 |
CN110647679A (zh) * | 2019-09-04 | 2020-01-03 | 达疆网络科技(上海)有限公司 | 一种o2o场景下的搜索结果综合排序方法 |
-
2020
- 2020-04-17 CN CN202010307205.XA patent/CN111651663A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080059298A1 (en) * | 2006-02-15 | 2008-03-06 | Liquidity Services Inc. | Dynamic keyword auctioning system, method and computer program product |
CN102446180A (zh) * | 2010-10-09 | 2012-05-09 | 腾讯科技(深圳)有限公司 | 一种商品搜索方法及其装置 |
CN104063523A (zh) * | 2014-07-21 | 2014-09-24 | 焦点科技股份有限公司 | 一种电子商务搜索评分与排名的方法及系统 |
CN105426528A (zh) * | 2015-12-15 | 2016-03-23 | 中南大学 | 一种商品数据的检索排序方法及系统 |
CN106096026A (zh) * | 2016-06-24 | 2016-11-09 | 武汉合创源科技有限公司 | 一种商品搜索方法及系统 |
CN106503119A (zh) * | 2016-10-17 | 2017-03-15 | 广州薏生网络科技有限公司 | 一种移动问诊平台垂直搜索结果的排序方法 |
CN108108380A (zh) * | 2016-11-25 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 搜索排序方法、搜索排序装置、搜索方法和搜索装置 |
CN110647679A (zh) * | 2019-09-04 | 2020-01-03 | 达疆网络科技(上海)有限公司 | 一种o2o场景下的搜索结果综合排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8122043B2 (en) | System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus | |
KR102026304B1 (ko) | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 | |
US7627548B2 (en) | Inferring search category synonyms from user logs | |
US8229883B2 (en) | Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases | |
US9710547B2 (en) | Natural language semantic search system and method using weighted global semantic representations | |
US8275773B2 (en) | Method of searching text to find relevant content | |
US20070136280A1 (en) | Factoid-based searching | |
WO2007021438A1 (en) | Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users | |
CN105989040A (zh) | 智能问答的方法、装置及系统 | |
EP1588305A4 (en) | METHOD AND SYSTEM FOR MAINTAINING ARTICLE AUTHORITY | |
US20030065658A1 (en) | Method of searching similar document, system for performing the same and program for processing the same | |
US10733220B2 (en) | Document relevance determination for a corpus | |
KR20190110084A (ko) | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 | |
CN115630144B (zh) | 一种文档搜索方法、装置及相关设备 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
US20100223280A1 (en) | Measuring contextual similarity | |
CN112182184B (zh) | 一种基于审计数据库的精准匹配搜索方法 | |
CN114372122A (zh) | 信息的获取方法、计算设备及存储介质 | |
Gao et al. | Text categorization based on improved Rocchio algorithm | |
CN111651663A (zh) | 根据用户搜索内容快速进行关键词完全匹配的检索方法 | |
JP3249743B2 (ja) | 文書検索システム | |
CN115659967A (zh) | 运筹优化方法、运筹优化装置、电子设备及存储介质 | |
JP2019200582A (ja) | 検索装置、検索方法及び検索プログラム | |
CN113177061A (zh) | 一种搜索方法、装置和电子设备 | |
US20240143604A1 (en) | Method for searching content and system thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200911 |
|
RJ01 | Rejection of invention patent application after publication |