CN116756302B - 一种用户信息搜索的数据处理系统 - Google Patents
一种用户信息搜索的数据处理系统 Download PDFInfo
- Publication number
- CN116756302B CN116756302B CN202311036725.1A CN202311036725A CN116756302B CN 116756302 B CN116756302 B CN 116756302B CN 202311036725 A CN202311036725 A CN 202311036725A CN 116756302 B CN116756302 B CN 116756302B
- Authority
- CN
- China
- Prior art keywords
- user information
- list
- key
- information list
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 230000006399 behavior Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息检索技术领域且提供了一种用户信息搜索的数据处理系统,包括:初始行为名称字符串列表、处理器和存储有计算机程序的存储器,其中,当计算机程序被处理器执行时,实现以下步骤:获取指定行为名称字符串和指定问题文本;获取指定行为用户信息集;获取指定用户对应的关键用户信息列表;获取指定用户对应的目标用户信息列表。可知本发明,能够根据指定问题文本获取关键配置列表,根据关键配置列表获取第一中间用户信息列表,根据第一中间用户信息列表进行数据召回,获取第二中间用户信息列表,对第二中间用户信息列表进行处理获取关键用户信息列表,进一步地获取目标用户信息列表,有利于提高获取目标用户信息列表的精准度。
Description
技术领域
本发明涉及信息检索技术领域,特别是涉及一种用户信息搜索的数据处理系统。
背景技术
随着互联网的快速发展,搜索任务中存在众多结构化数据,用户查找目标数据时,需要在众多结构化数据中根据问题文本进行搜索,获取目标数据,现有的查询结构化的数据的方法大多为,对结构化数据进行分类,获取问题文本对应的目标结构化数据,并获取目标结构化数据对应的关键词,对问题文本中的关键词和目标结构化数据对应的关键词进行处理,获取目标数据。
但是上述方法也存在以下技术问题:
一方面,对问题文本中的关键词和目标结构化数据对应的关键词进行处理,获取目标数据,无法根据不同的目标问题文本确定不同的处理方法,只能通过一种处理方法获取目标数据;另一方面,在获取目标数据的过程中,没有数据召回的过程,忽视了数据表之间的关联,只对关键词进行处理,获取到的目标数据的不够精准,可知,根据上述方法获取到的目标数据的精准度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种用户信息搜索的数据处理系统,包括:初始行为名称字符串列表、处理器和存储有计算机程序的存储器,其中,当计算机程序被处理器执行时,实现以下步骤:
S100、获取指定行为名称字符串A和指定问题文本B,其中,A为指定用户输入的字符串,B为指定用户输入的文本。
S200、根据A和初始行为名称字符串列表,获取指定行为用户信息集C。
S300、根据B和C,获取指定用户对应的关键用户信息列表;其中,在S300步骤中包括如下步骤:
S301、获取第一预设模型标识列表L={L1,L2,……,Le,……,Lf},Le为第e个第一预设模型标识,e=1,2……f,f为第一预设模型数量。
S303、将B输入至Le对应的第一预设模型中,获取Le对应的第一标签值列表Me={Me1,Me2},Me1为Le对应的第一标签字符串,Me2为Me1对应的第一标签值。
S305、根据Me1和Me2,获取关键配置列表N={N1,N2,……,Ng,……,Nh},Ng={Ng1,Ng2,Ng3,Ng4,Ng5},Ng1为第g个关键配置列表中的索引字符串,Ng2为第g个关键配置列表中的SQL字符串,Ng3为第g个关键配置列表中的合并标识,Ng4为第g个关键配置列表中的状态标识,Ng5为第g个关键配置列表中的转换标识,g=1,2……h,h为关键配置列表数量。
S307、确定Nh对应的第一中间用户信息列表Th对应的第二中间用户信息列表Ph为关键用户信息列表。
S400、根据关键用户信息列表,获取指定用户对应的目标用户信息列表。
本发明至少具有以下有益效果:
本发明提供了一种用户信息搜索的数据处理系统,包括:初始行为名称字符串列表、处理器和存储有计算机程序的存储器,其中,当计算机程序被处理器执行时,实现以下步骤:获取指定行为名称字符串和指定问题文本;根据指定行为名称字符串和初始行为名称字符串列表,获取指定行为用户信息集;根据指定问题文本和指定行为用户信息集,获取指定用户对应的关键用户信息列表;根据关键用户信息列表,获取指定用户对应的目标用户信息列表。可知本发明,能够根据指定问题文本获取关键配置列表,根据关键配置列表获取第一中间用户信息列表,根据第一中间用户信息列表进行数据召回,获取第二中间用户信息列表,对第二中间用户信息列表进行处理获取关键用户信息列表,进一步地获取目标用户信息列表,有利于提高获取目标用户信息列表的精准度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户信息搜索的数据处理系统执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供了一种用户信息搜索的数据处理系统,包括:初始行为名称字符串列表、处理器和存储有计算机程序的存储器,其中,当计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、获取指定行为名称字符串A和指定问题文本B,其中,A为指定用户输入的字符串,B为指定用户输入的文本。
具体地,所述行为可以理解为:同住宿、同乘机、同违章等行为中的一种行为。
具体地,所述指定用户可以理解为进行用户信息搜索的用户。
S200、根据A和初始行为名称字符串列表,获取指定行为用户信息集C。
具体地,所述指定行为用户信息集中包括若干个指定行为用户信息列表。
进一步地,每一所述指定行为用户信息列表中均包括若干个指定行为用户字段名。
进一步地,每一所述指定行为用户字段名均对应若干个指定行为数据项。
具体地,在S200步骤中包括如下步骤获取C:
S201、获取初始行为名称字符串列表F={F1,F2,……,Fi,……,Fm},Fi为第i个初始行为名称字符串,i=1,2……m,m为初始行为名称字符串数量,其中,初始行为名称字符串由本领域技术人员根据实际需求确定。
S203、将A输入至预设词向量提取模型中,获取A对应的第一名称词向量列表G={G1,G2,……,Gj,……,Gn},Gj为第j个第一名称词向量,j=1,2……n,n为第一名称词向量数量,其中,预设词向量提取模型为能够获取词向量的神经网络模型,本领域技术人员知晓,现有技术中任一能够获取词向量的神经网络模型均属于本发明的保护范围,在此不再赘述。
S205、将F输入至预设词向量提取模型中,获取F对应的第二名称词向量列表H={H1,H2,……,Hi,……,Hm},Hi={Hi1,Hi2,……,Hij,……,Hin},Hij为Fi对应的第j个第二名称词向量。
S207、根据Gj和Hij,获取A对应的第一名称字符串相似度列表K={K1,K2,……,Ki,……,Km},Ki为A和Fi之间的第一名称字符串相似度,其中,Ki符合如下条件:
Ki=(Σn j=1(Gj×Hij))/((Σn j=1Gj 2)1/2×(Σn j=1Hij)1/2)。
S209、当Ki=1时,确定Fi对应的初始行为用户信息集为C,其中,初始行为用户信息集由本领域技术人员根据实际需求确定。
上述,根据指定行为名称字符串和初始行为名称字符串,获取第一名称字符串相似度,对第一名称字符串相似度进行判断,确定指定行为用户信息集,在指定行为用户信息集中而不是所有的初始行为用户信息集中根据关键配置列表进行搜索,系统运行所需的数据量减少且能够获取到较为精准的数据,进而有利于提高获取目标用户信息列表的精准度。
S300、根据B和C,获取指定用户对应的关键用户信息列表。
具体地,所述关键用户信息列表包括若干个关键用户信息记录。
具体地,在S300步骤中包括如下步骤:
S301、获取第一预设模型标识列表L={L1,L2,……,Le,……,Lf},Le为第e个第一预设模型标识,e=1,2……f,f为第一预设模型数量,第一预设模型为用于获取标签、标签对应的标签值以及标签值对应的权重的神经网络模型,其中,本领域技术人员知晓,第一预设模型由本领域技术人员根据实际需求设置。
具体地,标签为通过第一预设模型对指定问题文本进行处理获取到的实体,例如:身高、性别、体重、住址、身体状况。
进一步地,标签值可以理解为标签对应的内容,例如:标签为:身高,则该标签对应的标签值为:高于180cm,标签为:性别,则该标签对应的标签值为:男或女。
进一步地,标签值对应的权重为输出标签值的第一预设模型的权重,其中,本领域技术人员知晓,第一预设模型的权重由本领域技术人员根据实际需求设置。
S303、将B输入至Le对应的第一预设模型中,获取Le对应的第一标签值列表Me={Me1,Me2},Me1为Le对应的第一标签字符串,Me2为Me1对应的第一标签值。
具体地,所述第一标签字符串可以理解为:根据第一预设模型从指定问题文本中提取到的关键词。
具体地,每一所述第一标签值均对应一个第一标签值权重。
S305、根据Me1和Me2,获取关键配置列表N={N1,N2,……,Ng,……,Nh},Ng={Ng1,Ng2,Ng3,Ng4,Ng5},Ng1为第g个关键配置列表中的索引字符串,Ng2为第g个关键配置列表中的SQL字符串,Ng3为第g个关键配置列表中的合并标识,Ng4为第g个关键配置列表中的状态标识,Ng5为第g个关键配置列表中的转换标识,g=1,2……h,h为关键配置列表数量。
具体地,所述关键配置列表为用于配置指定问题文本的搜索条件的列表。
具体地,所述合并标识可以理解为:采用某种操作对两个列表进行合并的标识。
具体地,所述状态标识可以理解为:判断是否继续获取列表的标识。
具体地,所述转换标识可以理解为:采用某种操作对列表进行处理转换的标识。
具体地,当g=1时,Ng3为NULL。
具体地,在S305步骤中包括如下条件:
S3051、当g=1时,对所有的Me1和Me2进行分析,生成Ng,其中,生成关键配置列表的规则由本领域技术人员根据实际需求设置。
S3053、根据Ng1和Ng2,从C中获取N对应的第一中间用户信息列表T={T1,T2,……,Tg,……,Th},Tg为Ng对应的第一中间用户信息列表,可以理解为:从用户信息集中符合Ng1的且同时符合Ng2的用户信息作为第一中间用户信息,其中,本领域技术人员知晓,现有技术中任一从信息集中查找满足索引字符串和SQL字符串的信息的方法,均属于本发明的保护范围,在此不再赘述。
S3055、根据T和Ng3,获取T对应的第二中间用户信息列表P={P1,P2,……,Pg,……,Ph},Pg为Tg对应的第二中间用户信息列表。
具体地,在S3055步骤中包括如下步骤:
S1、当Ng3为NULL时,确定Tg为Pg。
S3、当Ng3不为NULL时,获取Tg对应的第一记录标识列表Ug={Ug1,Ug2,……,Ugk,……,Ugt(g)},Ugk为Tg对应的第k个第一记录标识,k=1,2……t(g),t(g)为Tg对应的第一记录标识数量,其中,第一记录为第一中间用户信息列表中的记录。
具体地,第一记录标识为第一记录的唯一身份标识。
具体地,记录可以理解为列表中的一行数据项。
S5、获取Qg-1对应的第二记录标识列表Vg-1={V(g-1)1,V(g-1)2,……,V(g-1)r,……,V(g-1)s(g
-1)},V(g-1)r为Qg-1对应的第r个第二记录标识,r=1,2……s(g),s(g)为Qg对应的第二记录标识数量,其中,第二记录为第三中间用户信息列表中的记录。
S7、根据Ng3、Ug和Vg-1获取Pg。
具体地,在S7步骤中包括如下步骤:
S71、当Ng3为标识“0”时,将所有的Ugk对应的第一记录和V(g-1)r对应的第二记录均插入到Pg中。
具体地,当没有记录插入到Pg中时,Pg为NULL。
具体地,标识“0”表征为将标识“0”对应的列表中的记录和标识“0”对应的列表有关联的列表中的记录进行合并;可以理解为:当标识“0”对应的Ugk中的记录为:(张三、15岁,汉族);(李四、16岁、汉族);V(g-1)r中的记录为:(王五、17岁、傣族)时,Pg中的记录为:(张三、15岁,汉族);(李四、16岁、汉族);(王五、17岁、傣族)。
S72、获取Ugk和V(g-1)r之间的标识相似度Wgk (g-1)r,其中,本领域技术人员知晓,获取标识相似度的方法参考S200步骤中获取第一名称字符串相似度的方法,在此不再赘述。
S73、当Wgk (g-1)r=1时,确定Ugk对应的第一记录标识为第一关键记录标识,构建第一关键记录标识列表BS={BS1,BS2,……,BSx,……,BSp},BSx为第x个第一关键记录标识,x=1,2……p,p为第一关键记录标识数量。
S74、从Ug中确定与BSx相同的Ugk对应的第一记录为BSx对应的第一中间记录。
S75、从Vg-1中确定与BSx相同的V(g-1)r对应的第二记录为BSx对应的第二中间记录。
S76、当Ng3为标识“1”时,根据BSx,获取Pg。
具体地,标识“1”表征为:将标识“1”对应的列表中的记录和标识“1”对应的列表有关联的列表中的记录根据第一关键记录标识、第一记录标识、第二记录标识进行融合合并;可以理解为:当标识“1”对应的Ugk中的记录为:(张三、15岁,汉族);(李四、16岁、汉族);V(g-1)r中的记录为:(张三、170、汉族);(王五、17岁、傣族)时,第一关键记录标识为:张三;第一记录标识为:张三、李四;第二记录标识为:张三、王五;Pg中的记录为:(张三、15岁,170,汉族);(李四、16岁、汉族);(王五、17岁、傣族)。
具体地,在S76步骤中包括如下步骤:
S761、将BSx对应的第一中间记录和BSx对应的第二中间记录融合合并为BSx对应的第三中间记录。
S763、将所有的BSx对应的第三中间记录插入到Pg中。
S765、将Ug中与任一BSx均不同的Ugk插入到Pg中。
S767、将Vg-1中与任一BSx均不同的V(g-1)r插入到Pg中。
S77、当Ng3为标识“2”时,根据BSx,获取Pg。
具体地,标识“2”表征为将标识“2”对应的列表中的记录和标识“2”对应的列表有关联的列表中的记录根据第一关键记录标识、第一记录标识、第二记录标识进行嵌套合并;可以理解为:当标识“2”对应的Ugk中的记录为:(张三、15岁,汉族);(李四、16岁、汉族);V(g-1)r中的记录为:(张三、170、汉族);(王五、17岁、傣族)时,第一关键记录标识为:张三;第一记录标识为:张三、李四;第二记录标识为:张三、王五;Pg中的记录为:(张三、15岁,汉族,(张三,170,汉族));(李四、16岁、汉族);(王五、17岁、傣族)。
具体地,在S77步骤中包括如下步骤:
S771、将BSx对应的第一中间记录中的数据项和BSx对应的第二中间记录中的数据项插入到BSx对应的第四中间记录中,第四中间记录为BSx对应的第一中间记录中的数据项和BSx对应的第二中间记录中的数据项插入至空记录中生成的记录。
S773、将所有的BSx对应的第四中间记录插入到Pg中。
S775、将Ug中与任一BSx均不同的Ugk插入到Pg中。
S777、将Vg-1中与任一BSx均不同的V(g-1)r插入到Pg中。
上述,通过关键配置规则中的数据以及数据对应的操作按照不同的情况对第一中间用户信息进行处理,能够精准的获取第二中间用户信息列表,有利于获取到更精准的第三中间用户信息列表。
S3057、根据P、Ng4和Ng5,获取P对应的第三中间用户信息列表Q={Q1,Q2,……,Qg,……,Qh},Qg为Pg对应的第三中间用户信息列表。
具体地,在S3057步骤中包括如下步骤:
S10、当Ng4为标识“-1”时,确定g对应的取值为结束并且确定Qg为NULL。
具体地,标识“-1”表征为停止获取第三中间用户信息列表。
S30、当Ng4为标识“-2”且Ng5为标识“3”时,根据标识“3”对应的操作对Pg进行处理,获取Qg,其中,标识“3”对应的操作由本领域技术人员根据实际需求设置。
具体地,标识“-2”表征为继续获取第三中间用户信息列表。
具体地,标识“3”表征为将标识“3”对应的第二中间用户信息列表中的每一条记录结合标识“3”对应的操作进行处理;可以理解为:当标识“3”对应的第二中间用户信息列表中的记录为(姓名:张三,性别:男,身高:170),(姓名:李四,性别:女,身高:160),标识“3”对应的操作为:根据姓名和性别对第二中间用户信息列表进行处理转换时,第二中间用户信息列表对应的第三中用户信息列表中的记录为:(姓名:张三,性别:男),(姓名:李四,性别:女)。
S50、当Ng4为标识“-2”且Ng5为标识“4”时,根据标识“4”对应的操作对Pg进行处理,获取Qg,其中,标识“4”对应的操作由本领域技术人员根据实际需求设置。
具体地,标识“4”表征为:将标识“4”对应的第二中间用户信息列表中的所有记录结合标识“4”对应的操作进行处理;可以理解为:当标识“4”对应的第二中间用户信息列表中的记录为(姓名:张三,身高:170),(姓名:李四,身高:160),标识“4”对应的操作为:获取姓名对应的身高大于165的姓名时,第二中间用户信息列表对应的第三中用户信息列表中的记录为:(姓名:张三)。
上述,通过关键配置规则中的数据以及数据对应的操作按照不同的情况对第二中间用户信息进行处理,能够精准的获取第三中间用户信息列表,有利于获取到更精准的关键配置规则列表。
S3059、当g≠1时,对Qg-1进行分析,生成Ng,其中,本领域技术人员知晓,对Qg-1进行分析,生成Ng的方法参照S3051步骤,在此不再赘述。
上述,通过所有的第一标签值列表获取第一个关键配置列表,根据第一个配置列表获取其对应的第一中间用户信息列表,即第一个第一中间用户信息列表,进一步对第一个第一中间用户信息列表进行数据召回,获取其对应的第二中间用户信息列表,即第一个第二中间用户信息列表,再根据第一个关键配置列表和第一个第二中间用户信息列表获取第一个第二中间用户信息列表对应的第三中间用户信息列表,即第一个第三中间用户信息列表,对第一个第三用户信息列表进行分析,获取第二个关键配置列表;根据第二个配置列表获取其对应的第一中间用户信息列表,即第二个第一中间用户信息列表,进一步对第二个第一中间用户信息列表进行数据召回,获取其对应的第二中间用户信息列表,即第二个第二中间用户信息列表,再根据第二个关键配置列表和第二个第二中间用户信息列表获取第二个第二中间用户信息列表对应的第三中间用户信息列表,即第二个第三中间用户信息列表,对第二个第三用户信息列表进行分析,获取第三个关键配置列表,依次类推,按照相同方法获取到最后一个第二用户信息列表,且确定最后一个第二中间用户信息列表为关键用户信息列表,进一步地获取目标用户信息列表,有利于提高获取目标用户信息列表的精准度。
S307、确定Nh对应的第一中间用户信息列表Th对应的第二中间用户信息列表Ph为关键用户信息列表。
上述,通过指定问题文本和指定行为用户信息集,根据指定问题文本获取第一标签值列表,获取关键配置列表,根据关键配置列表获取第一中间用户信息列表,根据第一中间用户信息列表进行数据召回,获取第二中间用户信息列表,对第二中间用户信息列表进行处理获取关键用户信息列表,进一步地获取目标用户信息列表,有利于提高获取目标用户信息列表的精准度。
S400、根据关键用户信息列表,获取指定用户对应的目标用户信息列表。
具体地,在S400步骤中包括如下步骤:
S401、获取关键用户信息记录列表D={D1,D2,……,Dy,……,Dq},Dy为第y个关键用户信息记录,y=1,2……q,q为关键用户信息记录数量。
具体地,每一所述关键用户信息记录中均包括若干个关键用户信息数据项。
S402、获取第二预设模型标识列表W={W1,W2,……,Wz,……,Wv},Wz为第z个第二预设模型标识,z=1,2……v,v为第二预设模型数量,第二预设模型为用于获取关键词的神经网络模型,其中,本领域技术人员知晓,第二预设模型由本领域技术人员根据实际需求设置。
S403、将Dy输入至Wz对应的第二预设模型中,获取GJyz,GJyz为Dy对应的第z个关键数据项,关键数据项为根据第二预设模型获取到的关键词。
S404、将Dy中所有的关键用户信息数据项和Dy对应的所有GJyz作为候选用户数据项插入到HXy中,获取候选用户信息列表HX={HX1,HX2,……,HXy,……,HXq},HXy为第y个候选用户信息记录。
S405、根据Me2,获取HX对应的相关度优先级列表XG={XG1,XG2,……,XGy,……,XGq},XGy为HXy对应的相关度优先级,其中,XGy符合如下条件:
XGy=Σf e=1((CXey/Σf e=1CXey)×log(q/SLe)×QZe),其中,CXey为HXy中与Me2相同的候选用户数据项的数量,SLe为HX中存在与Me2相同的候选用户数据项的候选用户信息记录数量,QZe为Me2对应的第一标签值权重。
S406、根据XGy,获取指定用户对应的目标用户信息列表,目标用户信息列表为按照XGy从大到小的相关度优先级顺序,对XGy对应的HXy进行排序后的候选用户信息列表。
上述,通过关键用户信息列表,获取候选用户信息列表,且根据第一标签值以及第一标签值对应的第一标签权重值,获取候选用户信息列表中的候选用户信息记录对应的相关度优先级,按照每条候选用户信息记录对应的相关度优先级从大到的顺序进行排序,获取目标用户信息列表,将相关度优先级较大的记录优先的展示在列表中,有利于提高获取目标用户列表的精准度。
本发明还提供了一种实施例,具体地,在S400步骤后还包括如下步骤:
S500、获取预设时间片,其中,预设时间片的长度由本领域技术人员根据实际需求设置。
S600、获取预设时间片对应的目标缓存空间HC,预设时间片对应的缓存空间由本领域技术人员根据实际需求设置。
S700、获取预设时间片对应的目标问题文本列表MB,目标问题文本为预设时间片内指定用户输入的指定问题文本。
S800、获取每一目标问题文本对应的关键缓存空间,关键缓存空间为用于存储目标用户信息列表的缓存空间,其中,本领域技术人员知晓,现有技术中任一获取缓存空间的方法,均属于本发明的保护范围。
S900、对MB进行去重处理,获取MB对应目标问题文本频率列表PL={PL1,PL2,……,PLa,……,PLc},PLa为第a个目标问题文本出现的次数,a=1,2……c,c为目标问题文本数量,其中,本领域技术人员知晓,现有技术中任一去重并获取文本出现频率的方法,均属于本发明的保护范围,在此不再赘述。
S1000、根据关键缓存空间和PLa,获取PL对应的指定缓存空间列表ZD={ZD1,ZD2,……,ZDa,……,ZDc},ZDa为PLa对应的指定缓存空间,其中,ZDa符合如下条件:
ZDa=PLa×KJa,KJa为PLa对应的目标问题文本对应的关键缓存空间。
S1100、根据ZDa从大到小的指定缓存空间顺序,将ZDa对应的目标问题文本对应的目标用户信息列表存储到HC中,其中,本领域技术人员知晓,获取目标问题对应的目标用户信息的方法参照S100步骤-S400步骤,在此不再赘述。
上述,将预设时间片内获取到的目标用户信息列表按照其对应的指定缓存空间的大小存储到目标缓存空间中,当指定用户搜索完成后,基于上一次的搜索再次进行搜索时,可以将目标缓存空间中存储的的上一次的搜索完成获取到的目标用户信息列表作为指定用户信息集进行搜索,能够减少数据量,有利于提高系统的运行效率,减少资源浪费。
本发明提供了一种用户信息搜索的数据处理系统,包括:初始行为名称字符串列表、处理器和存储有计算机程序的存储器,其中,当计算机程序被处理器执行时,实现以下步骤:获取指定行为名称字符串和指定问题文本;根据指定行为名称字符串和初始行为名称字符串列表,获取指定行为用户信息集;根据指定问题文本和指定行为用户信息集,获取指定用户对应的关键用户信息列表;根据关键用户信息列表,获取指定用户对应的目标用户信息列表。可知本发明,能够根据指定问题文本获取关键配置列表,根据关键配置列表获取第一中间用户信息列表,根据第一中间用户信息列表进行数据召回,获取第二中间用户信息列表,对第二中间用户信息列表进行处理获取关键用户信息列表,进一步地获取目标用户信息列表,有利于提高获取目标用户信息列表的精准度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (8)
1.一种用户信息搜索的数据处理系统,其特征在于,所述系统包括:初始行为名称字符串列表、处理器和存储有计算机程序的存储器,其中,当所述计算机程序被所述处理器执行时,实现以下步骤:
S100、获取指定行为名称字符串A和指定问题文本B,其中,A为指定用户输入的字符串,B为指定用户输入的文本;
S200、根据A和初始行为名称字符串列表,获取指定行为用户信息集C;
S300、根据B和C,获取指定用户对应的关键用户信息列表;其中,在S300步骤中包括如下步骤:
S301、获取第一预设模型标识列表L={L1,L2,……,Le,……,Lf},Le为第e个第一预设模型标识,e=1,2……f,f为第一预设模型数量,第一预设模型为用于获取标签、标签对应的标签值以及标签值对应的权重的神经网络模型;
S303、将B输入至Le对应的第一预设模型中,获取Le对应的第一标签值列表Me={Me1,Me2},Me1为Le对应的第一标签字符串,Me2为Me1对应的第一标签值;
S305、根据Me1和Me2,获取关键配置列表N={N1,N2,……,Ng,……,Nh},Ng={Ng1,Ng2,Ng3,Ng4,Ng5},Ng1为第g个关键配置列表中的索引字符串,Ng2为第g个关键配置列表中的SQL字符串,Ng3为第g个关键配置列表中的合并标识,Ng4为第g个关键配置列表中的状态标识,Ng5为第g个关键配置列表中的转换标识,g=1,2……h,h为关键配置列表数量,所述合并标识为:采用某种操作对两个列表进行合并的标识,所述状态标识为:判断是否继续获取列表的标识,所述转换标识为:采用某种操作对列表进行处理转换的标识;
S307、确定Nh对应的第一中间用户信息列表Th对应的第二中间用户信息列表Ph为关键用户信息列表;
S400、根据关键用户信息列表,获取指定用户对应的目标用户信息列表。
2.根据权利要求1所述的用户信息搜索的数据处理系统,其特征在于,在S200步骤中包括如下步骤:
S201、获取初始行为名称字符串列表F={F1,F2,……,Fi,……,Fm},Fi为第i个初始行为名称字符串,i=1,2……m,m为初始行为名称字符串数量;
S203、将A输入至预设词向量提取模型中,获取A对应的第一名称词向量列表G={G1,G2,……,Gj,……,Gn},Gj为第j个第一名称词向量,j=1,2……n,n为第一名称词向量数量;
S205、将F输入至预设词向量提取模型中,获取F对应的第二名称词向量列表H={H1,H2,……,Hi,……,Hm},Hi={Hi1,Hi2,……,Hij,……,Hin},Hij为Fi对应的第j个第二名称词向量;
S207、根据Gj和Hij,获取A对应的第一名称字符串相似度列表K={K1,K2,……,Ki,……,Km},Ki为A和Fi之间的第一名称字符串相似度,其中,Ki符合如下条件:
Ki=(Σn j=1(Gj×Hij))/((Σn j=1Gj 2)1/2×(Σn j=1Hij)1/2);
S209、当Ki=1时,确定Fi对应的初始行为用户信息集为C。
3.根据权利要求1所述的用户信息搜索的数据处理系统,其特征在于,在S305步骤中包括如下步骤:
S3051、当g=1时,对所有的Me1和Me2进行分析,生成Ng;
S3053、根据Ng1和Ng2,从C中获取N对应的第一中间用户信息列表T={T1,T2,……,Tg,……,Th},Tg为Ng对应的第一中间用户信息列表,其中,用户信息集中符合Ng1的且同时符合Ng2的用户信息作为第一中间用户信息;
S3055、根据T和Ng3,获取T对应的第二中间用户信息列表P={P1,P2,……,Pg,……,Ph},Pg为Tg对应的第二中间用户信息列表;
S3057、根据P、Ng4和Ng5,获取P对应的第三中间用户信息列表Q={Q1,Q2,……,Qg,……,Qh},Qg为Pg对应的第三中间用户信息列表;
S3059、当g≠1时,对Qg-1进行分析,生成Ng。
4.根据权利要求3所述的用户信息搜索的数据处理系统,其特征在于,在S3055步骤中包括如下步骤:
S1、当Ng3为NULL时,确定Tg为Pg;
S3、当Ng3不为NULL时,获取Tg对应的第一记录标识列表Ug={Ug1,Ug2,……,Ugk,……,Ugt(g)},Ugk为Tg对应的第k个第一记录标识,k=1,2……t(g),t(g)为Tg对应的第一记录标识数量,其中,第一记录为第一中间用户信息列表中的记录;
S5、获取Qg-1对应的第二记录标识列表Vg-1={V(g-1)1,V(g-1)2,……,V(g-1)r,……,V(g-1)s(g
-1)},V(g-1)r为Qg-1对应的第r个第二记录标识,r=1,2……s(g),s(g)为Qg对应的第二记录标识数量,其中,第二记录为第三中间用户信息列表中的记录;
S7、根据Ng3、Ug和Vg-1,获取Pg。
5.根据权利要求1所述的用户信息搜索的数据处理系统,其特征在于,在S400步骤中包括如下步骤:
S401、获取关键用户信息记录列表D={D1,D2,……,Dy,……,Dq},Dy为第y个关键用户信息记录,y=1,2……q,q为关键用户信息记录数量;
S402、获取第二预设模型标识列表W={W1,W2,……,Wz,……,Wv},Wz为第z个第二预设模型标识,z=1,2……v,v为第二预设模型数量,第二预设模型为用于获取关键词的神经网络模型;
S403、将Dy输入至Wz对应的第二预设模型中,获取GJyz,GJyz为Dy对应的第z个关键数据项,关键数据项为根据第二预设模型获取到的关键词;
S404、将Dy中所有的关键用户信息数据项和Dy对应的所有GJyz作为候选用户数据项插入到HXy中,获取候选用户信息列表HX={HX1,HX2,……,HXy,……,HXq},HXy为第y个候选用户信息记录;
S405、根据Me2,获取HX对应的相关度优先级列表XG={XG1,XG2,……,XGy,……,XGq},XGy为HXy对应的相关度优先级;
S406、根据XGy,获取指定用户对应的目标用户信息列表,目标用户信息列表为按照XGy从大到小的相关度优先级顺序,对XGy对应的HXy进行排序后的候选用户信息列表。
6.根据权利要求1所述的用户信息搜索的数据处理系统,其特征在于,每一所述第一标签值均对应一个第一标签值权重。
7.根据权利要求5所述的用户信息搜索的数据处理系统,其特征在于,在S405步骤中,XGy符合如下条件:
XGy=Σf e=1((CXey/Σf e=1CXey)×log(q/SLe)×QZe),其中,CXey为HXy中与Me2相同的候选用户数据项的数量,SLe为HX中存在与Me2相同的候选用户数据项的候选用户信息记录数量,QZe为Me2对应的第一标签值权重。
8.根据权利要求1所述的用户信息搜索的数据处理系统,其特征在于,在S305步骤中,当g=1时,Ng3为NULL。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311036725.1A CN116756302B (zh) | 2023-08-17 | 2023-08-17 | 一种用户信息搜索的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311036725.1A CN116756302B (zh) | 2023-08-17 | 2023-08-17 | 一种用户信息搜索的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116756302A CN116756302A (zh) | 2023-09-15 |
CN116756302B true CN116756302B (zh) | 2023-10-27 |
Family
ID=87955855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311036725.1A Active CN116756302B (zh) | 2023-08-17 | 2023-08-17 | 一种用户信息搜索的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756302B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148889A (zh) * | 2020-09-23 | 2020-12-29 | 平安直通咨询有限公司上海分公司 | 一种推荐列表的生成方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033466A (zh) * | 2015-03-20 | 2016-10-19 | 华为技术有限公司 | 数据库查询的方法和设备 |
-
2023
- 2023-08-17 CN CN202311036725.1A patent/CN116756302B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148889A (zh) * | 2020-09-23 | 2020-12-29 | 平安直通咨询有限公司上海分公司 | 一种推荐列表的生成方法及设备 |
Non-Patent Citations (1)
Title |
---|
基于用户行为的搜索关键字的权重分析;亓国涛;王颖;刘云;包智妍;;电脑编程技巧与维护(第23期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116756302A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
US20040249808A1 (en) | Query expansion using query logs | |
WO2022110637A1 (zh) | 问答对话评测方法、装置、设备及存储介质 | |
CN110390006B (zh) | 问答语料生成方法、装置和计算机可读存储介质 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN111445968A (zh) | 电子病历查询方法、装置、计算机设备和存储介质 | |
CN111090771B (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN115098650B (zh) | 基于历史数据模型的评论信息分析方法及相关装置 | |
CN114580392A (zh) | 一种识别实体的数据处理系统 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN112131341A (zh) | 文本相似度计算方法、装置、电子设备和存储介质 | |
CN116561388A (zh) | 一种获取标签的数据处理系统 | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN116756302B (zh) | 一种用户信息搜索的数据处理系统 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN111259171A (zh) | 一种基于分词索引搜索多媒体资源的方法及服务器 | |
CN114756661B (zh) | 一种文本处理方法和文本处理系统 | |
CN116644174A (zh) | 一种基于科技政策的资源分类筛选方法和系统 | |
CN108810640B (zh) | 一种电视节目的推荐方法 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN116414971A (zh) | 一种多特征融合的关键词权重计算方法和关键词抽取方法 | |
CN116756301B (zh) | 一种用户信息搜索的方法、电子设备及存储介质 | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |