CN115357605A - 一种客户信息检索方法、装置、电子设备及存储介质 - Google Patents

一种客户信息检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115357605A
CN115357605A CN202211276453.8A CN202211276453A CN115357605A CN 115357605 A CN115357605 A CN 115357605A CN 202211276453 A CN202211276453 A CN 202211276453A CN 115357605 A CN115357605 A CN 115357605A
Authority
CN
China
Prior art keywords
word
weight
client information
similarity
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211276453.8A
Other languages
English (en)
Other versions
CN115357605B (zh
Inventor
刘旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Chuangya Information Technology Co ltd
Original Assignee
Hunan Chuangya Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Chuangya Information Technology Co ltd filed Critical Hunan Chuangya Information Technology Co ltd
Priority to CN202211276453.8A priority Critical patent/CN115357605B/zh
Publication of CN115357605A publication Critical patent/CN115357605A/zh
Application granted granted Critical
Publication of CN115357605B publication Critical patent/CN115357605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了本申请提供了一种客户信息检索方法、装置、电子设备及存储介质,首先获取检索关键词,当检索关键词包括多个时,对检索关键词进行分词,并生成分词后的第一词集合及每个词的权重,然后确定数据库中的每个客户信息与第一词集合的相似度;相似度满足公式:
Figure 100004_DEST_PATH_IMAGE002
,其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;按相似度降序方式对客户信息进行排序显示。本申请提供了本申请提供的客户信息检索方法、装置、电子设备及存储介质具有检索客户信息的精度更高的优点。

Description

一种客户信息检索方法、装置、电子设备及存储介质
技术领域
本申请涉及信息检索技术领域,具体而言,涉及一种客户信息检索方法、装置、电子设备及存储介质。
背景技术
目前,在进行客户信息检索时,一般采用比对的方式进行检索,即用户输入文字,显示端显示对应的客户信息。
然而,在实际的应用场景中,用户可能只输入了部分的客户信息或者输入的客户信息存在部分偏差的情况,导致无法检索到正确的客户信息的情况。
综上,现有技术中存在当用户只输入了部分的客户信息或者输入的客户信息存在部分偏差时,无法检索到正确的客户信息的问题。
发明内容
本申请的目的在于提供一种客户信息检索方法、装置、电子设备及存储介质,以解决现有技术中存在的当用户只输入了部分的客户信息或者输入的客户信息存在部分偏差时,无法检索到正确的客户信息的问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种客户信息检索方法,所述方法包括:
获取检索关键词;
当所述检索关键词包括多个时,对所述检索关键词进行分词,并生成分词后的第一词集合及每个词的权重;
确定数据库中的每个客户信息与所述第一词集合的相似度;所述相似度满足公式:
Figure DEST_PATH_IMAGE001
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
按相似度降序方式对所述客户信息进行排序显示。
可选地,对所述检索关键词进行分词,并生成分词后的第一词集合及每个词的权重的步骤包括:
当存在与设定词相同的第一词时,确定所述第一词的权重为最低权重;
当分词后的词数量小于三个时,则确定除所述第一词以外的第二词的权重为中等权重;
当分词后的词数量大于或等于三个时,则确定处于中间位置的第二词的权重为最高权重,其余的第二词为中等权重。
可选地,按相似度降序方式对所述客户信息进行排序显示的步骤之前,所述方法还包括:
当存在至少两个相似度相同的客户信息时,提升所述第一词集合中每个词集合的权重,并重新确定所述至少两个相似度相同的客户信息中,每个客户信息与第一词集合的相似度,以对所述的客户信息进行排序。
可选地,在生成分词后的第一词集合及每个词的权重的步骤之前,所述方法还包括:
当所述分词后的关键词中包括属性关键词时,依据所述属性关键词确定客户信息属性;
所述确定数据库中的每个客户信息与所述第一词集合的相似度的步骤包括:
依据所述客户信息属性对所述数据库中的每个客户信息进行筛选,并确定筛选后的每个客户信息与所述第一词集合的相似度。
可选地,所述依据所述客户信息属性对所述数据库中的每个客户信息进行筛选的步骤包括:
去除未包含所述属性关键词或其衍生词的客户信息;
将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重;
所述相似度满足公式:
Figure DEST_PATH_IMAGE002
其中,Xn表示第n个客户信息权重。
可选地,将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重的步骤包括:
生成属性关键词或其衍生词的第二词集合;
将包含所述属性关键词或其衍生词的客户信息进行分词,以生成第三词集合;
所述客户信息权重满足公式:
Figure DEST_PATH_IMAGE003
其中,z1为第二词集合和第三词集合的交集中的词的数量,z2为第二词集合和第三词集合的差集中的词的数量,aj为第二词集合和第三词集合的交集中第j个词的权重,βj为第二词集合和第三词集合的差集中第j个词的权重,θij为第三词集合中的词Wij的权重。
第二方面,本申请实施例还提供了一种客户信息检索装置,所述装置包括:
数据获取单元,用于获取检索关键词;
数据处理单元,用于当所述检索关键词包括多个时,对所述检索关键词进行分词,并生成分词后的第一词集合及每个词的权重;
数据处理单元,还用于确定数据库中的每个客户信息与所述第一词集合的相似度;所述相似度满足公式:
Figure 837216DEST_PATH_IMAGE001
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
数据处理单元,还用于按相似度降序方式对所述客户信息进行排序显示。
可选地,所述数据处理单元还用于当所述分词后的关键词中包括属性关键词时,依据所述属性关键词确定客户信息属性,并依据所述客户信息属性对所述数据库中的每个客户信息进行筛选,并确定筛选后的每个客户信息与所述第一词集合的相似度。
第三方面,本申请实施例还提供了一种电子设备,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现上述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
本申请提供了一种客户信息检索方法、装置、电子设备及存储介质,首先获取检索关键词,当检索关键词包括多个时,对检索关键词进行分词,并生成分词后的第一词集合及每个词的权重,然后确定数据库中的每个客户信息与第一词集合的相似度;相似度满足公式:
Figure 285514DEST_PATH_IMAGE001
,其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;按相似度降序方式对客户信息进行排序显示。由于本申请在确定检索关键词后,将检索关键词进行分词处理,然后在确定相似度,并依据相似度对客户信息进行排序,因此即使用户输入部分的客户信息,或者输入的客户信息存在偏差时,也能够检索出正确的客户信息。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的电子设备的模块示意图。
图2为本申请实施例提供的客户信息检索方法的流程示意图。
图3为本申请实施例提供的客户信息检索装置的模块示意图。
图中:100-电子设备;101-处理器;102-存储器;103-通信接口;200-客户信息检索装置;210-数据获取单元;220-处理单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
正如背景技术中所述,目前,当进行客户信息检索时,一般采用比对的方式进行检索,即用户输入文字,显示端显示对应的客户信息。此方式虽然能够在一定程度上检索出相关的信息,然而,若出现只输入了部分的客户信息或者输入的客户信息存在部分偏差的情况,则无法检索到正确的客户信息的问题。
例如,某客户名称为“重庆市A公司”,则在检索客户信息时,必须输入“重庆市A公司”,若用户输入的信息为“重庆A公司”,本质上二者检索的公司是一致的,但后者无法减速出正确的公司信息。又或者,某客户名称为“甜蜜家园有限公司”,但在检索时,可能忘记了具体的名称,用户只记得甜蜜二字,也无法检索出正确的公司名称。
有鉴于此,本申请提供了一种客户信息检索方法,通过计算相似度的方式,检索出准确的客户信息。
需要是说明的是,本申请提供的客户信息检索方法可以应用于电子设备100中,图1示出本申请实施例提供的电子设备100的一种示意性结构框图,电子设备100包括存储器102、处理器101和通信接口103,该存储器102、处理器101和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
存储器102可用于存储软件程序及模块,如本申请实施例提供的客户信息检索装置对应的程序指令或模块,处理器101通过执行存储在存储器102内的软件程序及模块,从而执行各种功能应用以及数据处理,进而执行本申请实施例提供的客户信息检索方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器101可以是一种集成电路芯片,具有信号处理能力。该处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,电子设备100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
下面对本申请提供的客户信息检索方法进行示例性说明:
作为一种可选的实现方式,请参阅图3,该方法包括:
S102,获取检索关键词。
S104,当检索关键词包括多个时,对检索关键词进行分词,并生成分词后的第一词集合及每个词的权重。
S106,确定数据库中的每个客户信息与第一词集合的相似度;相似度满足公式:
Figure 596410DEST_PATH_IMAGE001
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
S108,按相似度降序方式对客户信息进行排序显示。
需要说明的是,本申请所述的客户信息可以包括客户名称、客户公司简介、客户公司营业情况等信息,在此不做限定,为了叙述方便,下述实施例中,以客户名称为例进行说明。
当用户输入检索关键词后,系统会自动判断输入的关键词是否包括多个,若包含多个关键词,则直接对多个检索关键词进行分词,且生成分词后第一词集合及每个词的权重。
在进行分词时,可以采用结巴分词器实现分词,同时,可以按照分词后的词性或者类别确定其权重。
例如,若用户输入“长沙水立方管理有限公司”,则可利用结巴分词器将其分成“长沙”、“水立方”、“管理”、“有限公司”等关键词,并生成第一词集合{长沙,水立方,管理,有限公司},同时,确定出每个关键词的权重。
可以理解地,针对长沙、有限公司等词,由于其并未包含实质性内容,因此其权重较低,而水立方、管理等词,由于为该公司名称的主体,因此其权重较高。并且,相比而言,管理公司较多,其代表的实质性特点的比重也并不高,因此,水立方的权重大于管理的权重。
在此基础上,作为一种可选的实现方式,可以将客户信息进行分词,且可以将检索关键词与数据库中客户信息的关键词进行匹配,匹配的数量越多,则检索关键词的权重越低。
接着,可以计算数据库中的每个客户信息与第一词集合的相似度,该相似度满足公式:
Figure 522778DEST_PATH_IMAGE001
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
其中,每个客户信息与第一词集合中第n个词的相似度可以通过欧式距离进行确定,在此不做赘述。
在确定所有客户信息的相似度后,可以按照降序方式对所述客户信息进行排序显示。当然地,实际应用中,由于显示界面有限,一般只显示前几位客户信息,例如,只显示相似度排名前十的客户信息,然后由用户确定最终的目标客户信息。
作为一种可选的实现方式,S104包括:
S1041,当存在与设定词相同的第一词时,确定第一词的权重为最低权重;
S1042,当分词后的词数量小于三个时,则确定除第一词以外的第二词的权重为中等权重;
S1043,当分词后的词数量大于或等于三个时,则确定处于中间位置的第二词的权重为最高权重,其余的第二词为中等权重。
即在确定权重时,可以将第一词集合中的词划分为第一词与第二词,且第一词可以设置为对检索结果影响相对较低的词。
例如,针对地理性词汇,如成都、上海、天津等词,仅能划分出检索的客户信息所处的区域,对结果的影响相对较小,或者,对于“公司”、“有限公司”等词,指代范围也较大,对检索的结果影响也相对较小,因此可将其权重设置为相对较低。
在此基础上,设定词可以为包含各地区的词汇以及能够指代公司属性的词汇,例如可以包括各省、市、县的名称,以及“有限公司”、“有限责任公司”等词汇。
并且,在第一词集合中,除了第一词以外,即为第二词,第二词的数量不限,且第二词表征对检索结果存在较大影响的词。
当分词后,第一词集合中词的数量较少时,则直接将第二词设定为中等权重,将第一词设定为最低权重。而当第一词集合中词的数量较多时,一般而言,越靠中间位置的第二词,对检索的结果影响越大。因此,将处于中间位置的第二词的权重设定为最高权重,可以理解地,最低权重、中间权重以及最高权重逐渐增大。
可以理解地,为了保证检索结果的精准性,凸显第二词对检索结果的影响力度,最低权重与中等权重之间的差距应当足够大;而针对中等权重与最高权重,由于也可能存在越靠中间位置的第二词,对检索的结果影响不大的情况,因此,中等权重与最高权重之间的差距不能设置较大,以保证即使在任何情况下,其结果均够足够准确。
因此,本申请中,设定最低权重与中等权重之间的差值大于0.3;中等权重与最高权重之间的差值小于0.2。例如,设定最低权重为0.1,中等权重为0.5,最高权重为0.6。
在一种实现方式中,为了更加快速的确定检索的客户信息,在生成分词后的第一词集合及每个词的权重的步骤之前,该方法还包括:
S1031,当分词后的关键词中包括属性关键词时,依据属性关键词确定客户信息属性;
确定数据库中的每个客户信息与第一词集合的相似度的步骤包括:
依据客户信息属性对数据库中的每个客户信息进行筛选,并确定筛选后的每个客户信息与第一词集合的相似度。
其中,属性关键词可以包括地理属性关键词、公司性质属性关键词,例如“成都、上海、天津”等词即为地理属性关键词,“有限责任公司、集团、事务所”等公司性质属性关键词,通过客户信息属性的客户信息,进而减少了大量数据量。例如,当用户输入成都xx公司时,则表示用户想要搜索名称包含成都或者归属地位于成都的客户,因此可直接筛选掉其他归属地的客户。
并且,依据客户信息属性对数据库中的每个客户信息进行筛选的步骤包括:
去除未包含属性关键词或其衍生词的客户信息;
将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重;
相似度满足公式:
Figure 619041DEST_PATH_IMAGE002
其中,Xn表示第n个客户信息权重。
即本申请中,为了检索结果的精确性,可以采用双向权重的方式,即检索关键词赋予权重,数据库中的客户信息也负值权重,进而提升检索精度。
其中,将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重的步骤包括:
生成属性关键词或其衍生词的第二词集合;
将包含属性关键词或其衍生词的客户信息进行分词,以生成第三词集合;
客户信息权重满足公式:
Figure 972662DEST_PATH_IMAGE003
其中,z1为第二词集合和第三词集合的交集中的词的数量,z2为第二词集合和第三词集合的差集中的词的数量,aj为第二词集合和第三词集合的交集中第j个词的权重,βj为第二词集合和第三词集合的差集中第j个词的权重,θij为第三词集合中的词Wij的权重。
其中,衍生词指与属性关键词含义相同或者相近的词,例如,成都与成都市等,通过引用交集与差集的量确定客户信息的权重,能够保证客户信息的权重与第二词集合、第三词集合完全关联,其准确率更高。
此外,在对客户信息进行排序时,可能出现两个或多个客户信息的相似度相同的情况,则此时两个或多个客户信息只能通过并列方式进行排序。但在实际应用中,为了方便用户浏览,检索结果一般只会显示前几个结果,如显示前10个结果,若此时排列第10~第12的客户信息的相似度均相同,则只能采用随机方式显示第10个结果,可能存在检索结果丢失的情况。
有鉴于此,为了保证检索结果的精度,当存在至少两个相似度相同的客户信息时,提升第一词集合中每个词集合的权重,并重新确定至少两个相似度相同的客户信息中,每个客户信息与第一词集合的相似度,进而对客户信息进行排序。通过提升第一词集合中每个词集合的权重的方式,可以使得相似度结果放大,在此基础上,在至少两个相似度相同的客户信息中,与第一词集合的相似度越高,则其相似度的计算结果也相应扩得大,使得最终相似度的计算结果存在差异,并对至少两个相似度相同的客户信息进行重新排序。
需要说明的是,本申请所述的至少两个相似度相同的客户信息进行重新排序,不会影响已经排序完成的其他客户信息,例如,当第1~第9的客户信息已经排序完成,而第10~第12的客户信息的相似度相同,则可以通过上述方式对第10~第12的客户信息进行排序,但并不影响第1~第9的客户信息的排序结果。
基于上述实现方式,请参阅图3,本申请还提供了一种客户信息检索装置200,该装置包括:
数据获取单元210,用于获取检索关键词。
可以理解地,通过数据获取单元210可执行S102。
数据处理单元220,用于当检索关键词包括多个时,对检索关键词进行分词,并生成分词后的第一词集合及每个词的权。
可以理解地,通过数据处理单元220可执行S104。
数据处理单元220,还用于确定数据库中的每个客户信息与第一词集合的相似度;相似度满足公式:
Figure 770854DEST_PATH_IMAGE001
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
可以理解地,通过数据处理单元220可执行S106。
数据处理单元220,还用于按相似度降序方式对客户信息进行排序显示。
可以理解地,通过数据处理单元220可执行S108。
可选地,数据处理单元220还用于当分词后的关键词中包括属性关键词时,依据属性关键词确定客户信息属性,并依据客户信息属性对数据库中的每个客户信息进行筛选,并确定筛选后的每个客户信息与第一词集合的相似度。
可选地,数据处理单元220还用于去除未包含属性关键词或其衍生词的客户信息,将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重;相似度满足公式:
Figure 500912DEST_PATH_IMAGE002
其中,Xn表示第n个客户信息权重。
作为一种实现方式,数据处理单元220还用于生成属性关键词或其衍生词的第二词集合;将包含属性关键词或其衍生词的客户信息进行分词,以生成第三词集合;
客户信息权重满足公式:
Figure 941428DEST_PATH_IMAGE003
其中,z1为第二词集合和第三词集合的交集中的词的数量,z2为第二词集合和第三词集合的差集中的词的数量,aj为第二词集合和第三词集合的交集中第j个词的权重,βj为第二词集合和第三词集合的差集中第j个词的权重,θij为第三词集合中的词Wij的权重。
综上所述,本申请提供了一种客户信息检索方法、装置、电子设备及存储介质,首先获取检索关键词,当检索关键词包括多个时,对检索关键词进行分词,并生成分词后的第一词集合及每个词的权重,然后确定数据库中的每个客户信息与第一词集合的相似度;相似度满足公式:
Figure DEST_PATH_IMAGE004
,其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;按相似度降序方式对客户信息进行排序显示。由于本申请在确定检索关键词后,将检索关键词进行分词处理,然后在确定相似度,并依据相似度对客户信息进行排序,因此即使用户输入部分的客户信息,或者输入的客户信息存在偏差时,也能够检索出正确的客户信息。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种客户信息检索方法,其特征在于,所述方法包括:
获取检索关键词;
当所述检索关键词包括多个时,对所述检索关键词进行分词,并生成分词后的第一词集合及每个词的权重;
确定数据库中的每个客户信息与所述第一词集合的相似度;所述相似度满足公式:
Figure 435650DEST_PATH_IMAGE001
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
按相似度降序方式对所述客户信息进行排序显示;其中,
对所述检索关键词进行分词,并生成分词后的第一词集合及每个词的权重的步骤包括:
当存在与设定词相同的第一词时,确定所述第一词的权重为最低权重;
当分词后的词数量小于三个时,则确定除所述第一词以外的第二词的权重为中等权重;
当分词后的词数量大于或等于三个时,则确定处于中间位置的第二词的权重为最高权重,其余的第二词为中等权重。
2.如权利要求1所述的客户信息检索方法,其特征在于,所述最低权重与所述中等权重之间的差值大于0.3;所述中等权重与所述最高权重之间的差值小于0.2。
3.如权利要求1所述的客户信息检索方法,其特征在于,按相似度降序方式对所述客户信息进行排序显示的步骤之前,所述方法还包括:
当存在至少两个相似度相同的客户信息时,提升所述第一词集合中每个词集合的权重,并重新确定所述至少两个相似度相同的客户信息中,每个客户信息与第一词集合的相似度,以对所述客户信息进行排序。
4.如权利要求1所述的客户信息检索方法,其特征在于,在生成分词后的第一词集合及每个词的权重的步骤之前,所述方法还包括:
当所述分词后的关键词中包括属性关键词时,依据所述属性关键词确定客户信息属性;
所述确定数据库中的每个客户信息与所述第一词集合的相似度的步骤包括:
依据所述客户信息属性对所述数据库中的每个客户信息进行筛选,并确定筛选后的每个客户信息与所述第一词集合的相似度。
5.如权利要求4所述的客户信息检索方法,其特征在于,所述依据所述客户信息属性对所述数据库中的每个客户信息进行筛选的步骤包括:
去除未包含所述属性关键词或其衍生词的客户信息;
将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重;
所述相似度满足公式:
Figure 946266DEST_PATH_IMAGE002
其中,Xn表示第n个客户信息权重。
6.如权利要求5所述的客户信息检索方法,其特征在于,将剩余的客户信息依据属性关键词或其衍生词生成客户信息权重的步骤包括:
生成属性关键词或其衍生词的第二词集合;
将包含所述属性关键词或其衍生词的客户信息进行分词,以生成第三词集合;
所述客户信息权重满足公式:
Figure 991582DEST_PATH_IMAGE003
其中,z1为第二词集合和第三词集合的交集中的词的数量,z2为第二词集合和第三词集合的差集中的词的数量,aj为第二词集合和第三词集合的交集中第j个词的权重,βj为第二词集合和第三词集合的差集中第j个词的权重,θij为第三词集合中的词Wij的权重。
7.一种客户信息检索装置,其特征在于,所述装置包括:
数据获取单元,用于获取检索关键词;
数据处理单元,用于当所述检索关键词包括多个时,对所述检索关键词进行分词,并生成分词后的第一词集合及每个词的权重;
数据处理单元,还用于确定数据库中的每个客户信息与所述第一词集合的相似度;所述相似度满足公式:
Figure 855633DEST_PATH_IMAGE004
其中,S表示相似度,An表示第一词集合中第n个词的权重,Sn表示据库中的每个客户信息与第一词集合中第n个词的相似度;
数据处理单元,还用于按相似度降序方式对所述客户信息进行排序显示;其中,
数据处理单元具体用于:
当存在与设定词相同的第一词时,确定所述第一词的权重为最低权重;
当分词后的词数量小于三个时,则确定除所述第一词以外的第二词的权重为中等权重;
当分词后的词数量大于或等于三个时,则确定处于中间位置的第二词的权重为最高权重,其余的第二词为中等权重。
8.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202211276453.8A 2022-10-19 2022-10-19 一种客户信息检索方法、装置、电子设备及存储介质 Active CN115357605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211276453.8A CN115357605B (zh) 2022-10-19 2022-10-19 一种客户信息检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211276453.8A CN115357605B (zh) 2022-10-19 2022-10-19 一种客户信息检索方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115357605A true CN115357605A (zh) 2022-11-18
CN115357605B CN115357605B (zh) 2023-02-10

Family

ID=84008497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211276453.8A Active CN115357605B (zh) 2022-10-19 2022-10-19 一种客户信息检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115357605B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN112287094A (zh) * 2020-12-30 2021-01-29 北京伯仲叔季科技有限公司 相似病例文本检索系统
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质
CN112287094A (zh) * 2020-12-30 2021-01-29 北京伯仲叔季科技有限公司 相似病例文本检索系统

Also Published As

Publication number Publication date
CN115357605B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
CN108256568B (zh) 一种植物种类识别方法以及装置
CN110162695B (zh) 一种信息推送的方法及设备
US8655906B1 (en) Method and system for displaying real time trends
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
US11328128B2 (en) System and method for analysis and navigation of data
US10891700B2 (en) Methods and computer-program products for searching patent-related documents using search term variants
US9477747B2 (en) Method and apparatus for acquiring hot topics
CN110688452B (zh) 一种文本语义相似度评估方法、系统、介质和设备
CN108090068B (zh) 医院数据库中的表的分类方法及装置
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN106354871A (zh) 一种企业名称的相似性检索方法
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN106997390A (zh) 一种设备配件或零部件商品交易信息搜索方法
CN112100396A (zh) 一种数据处理方法和装置
CN114201598B (zh) 文本推荐方法及文本推荐装置
CN108804550B (zh) 一种查询词拓展方法、装置以及电子设备
CN115357605B (zh) 一种客户信息检索方法、装置、电子设备及存储介质
CN105512270B (zh) 一种确定相关对象的方法和装置
CN111914154B (zh) 一种智能搜索导向系统及方法
CN112613310A (zh) 一种人名匹配方法、装置、电子设备及存储介质
US20020062341A1 (en) Interested article serving system and interested article serving method
CN112215006B (zh) 机构命名实体归一化方法和系统
CN111737488B (zh) 基于领域实体提取和关联分析的信息溯源方法及装置
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant