CN111797115A - 一种员工信息的搜索方法及装置 - Google Patents
一种员工信息的搜索方法及装置 Download PDFInfo
- Publication number
- CN111797115A CN111797115A CN202010594858.0A CN202010594858A CN111797115A CN 111797115 A CN111797115 A CN 111797115A CN 202010594858 A CN202010594858 A CN 202010594858A CN 111797115 A CN111797115 A CN 111797115A
- Authority
- CN
- China
- Prior art keywords
- attribute
- employee
- query
- model
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2445—Data retrieval commands; View definitions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种员工信息的搜索方法及装置,所述方法包括:接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;对所述查询语句进行分词处理,获得属性关键词和条件关键词;根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。所述装置用于执行上述方法。本发明实施例提供的员工信息的搜索方法及装置,提高了对员工信息的查询效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种员工信息的搜索方法及装置。
背景技术
随着信息技术的不断发展,国内企业信息化水平越来越高,在人力资源信息化管理投入的资源也越来越大,使得员工信息线上化,从而实现了线上查询员工信息。
目前,由于员工信息多种多样,员工的各类信息往往分开存储,在对员工信息进行查询时,只能根据员工信息的种类分开进行查询,难以根据实际需求一次性查询出合适的员工,例如在员工提拔、考核奖励、特殊人才派遣等场景需要根据指定的条件分开搜索,再根据实际情况进行合并以及关联,需要花费大量的时间和精力,查询效率较低。
发明内容
针对现有技术中的问题,本发明实施例提供一种员工信息的搜索方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种员工信息的搜索方法,包括:
接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;
对所述查询语句进行分词处理,获得属性关键词和条件关键词;
根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;
根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
另一方面,本发明提供一种员工信息的搜索装置,包括:
接收单元,用于接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;
分词处理单元,用于对所述查询语句进行分词处理,获得属性关键词和条件关键词;
识别单元,用于根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;
检索单元,用于根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述员工信息的搜索方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述员工信息的搜索方法的步骤。
本发明实施例提供的员工信息的搜索方法及装置,能够接收查询终端发送的包括查询语句的员工信息查询请求,对查询语句进行分词处理,获得属性关键词和条件关键词,根据查询语句和属性关键词以及员工属性识别模型,获得属性关键词对应的员工属性,根据属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将查询结果返回给查询终端,实现对员工信息的统一查询,提高了对员工信息的查询效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的员工信息的搜索系统的结构示意图。
图2是本发明一实施例提供的员工信息的搜索方法的流程示意图。
图3是本发明另一实施例提供的员工信息的搜索方法的流程示意图。
图4是本发明一实施例提供的员工信息的搜索装置的结构示意图。
图5是本发明另一实施例提供的员工信息的搜索装置的结构示意图。
图6是本发明又一实施例提供的员工信息的搜索装置的结构示意图。
图7是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一实施例提供的员工信息的搜索系统的结构示意图,如图1所示,本发明实施例提供的员工信息的搜索系统包括查询终端1和服务器2,其中:
查询终端1和服务器2通信连接,查询终端1用于向服务器2发送员工信息查询请求。服务器2作为执行主体,用于执行本发明实施例提供的员工信息的搜索方法。其中,查询终端1可以采用台式机、笔记本电脑、智能手机、平板电脑等设备。
其中,查询终端1在访问服务器2时,可以通过微服务接口的方式来实现对服务器2的访问。
图2是本发明一实施例提供的员工信息的搜索方法的流程示意图,如图2所述,本发明实施例提供的员工信息的搜索方法包括:
S201、接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;
具体地,用户可以通过查询终端向服务器发送员工信息查询请求,所述服务器会接收所述员工信息查询请求。其中,所述员工信息查询请求包括查询语句,所述查询语句可以是用户输入的用于查询员工信息的自然语言。
例如,所述查询语句为工作时间超过15年且学历为本科的员工。
S202、对所述查询语句进行分词处理,获得属性关键词和条件关键词;
具体地,所述服务器在接收到所述员工信息查询请求之后,会对所述查询语句进行分词处理,即将所述查询语句划分为多个分词,并从划分出的多个分词中获得属性关键词和条件关键词。其中,所述属性关键词是与员工属性对应的词,所述条件关键词可以包括比较关键词和内容关键词,所述比较关键词例如为超过、大于、小于、等于、为等词,所述内容关键词例如为15年、本科、35岁、已婚、男等词。所述属性关键词和所述条件关键词根据实际需要进行设置,本发明实施例不做限定。
例如,对所述查询语句的分词处理可以利用HanLP、结巴分词、LTP等分词工具实现,根据实际情况进行选择,本发明实施例不做限定。分词处理可以基于字符串匹配的方式,按照正向最大匹配的扫描方式,逐个查找词库进行分词。首先根据查询语言切分出与所述词库匹配的所有可能的词,比如对查询语句“工作时间超过15年且学历为本科的员工”进行分词处理,可以获得工作时间、超过、15年、且、学历、为、本科、的、员工这些分词,将上述这些分词在所述词库中逐一查找对应的词,可以查询到工作时间和学历是所述词库中的属性关键词,超过和为是所述词库中的比较关键词,15年和本科室所述词库中的内容关键词。其中,所述词库根据实际需要进行设置,本发明实施例不做限定。可理解的是,在所述词库中可以预先定义属性关键词、比较关键词和内容关键词。
S203、根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;
具体地,所述服务器在获得所述属性关键词之后,将所述查询语句以及所述属性关键词输入至员工属性识别模型中,经过所述员工属性识别模型的处理,可以输出所述属性关键词对应的员工属性。其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的,所述属性标签是基于员工属性预设的,根据实际需要进行设置,本发明实施例不做限定。
例如,所述员工属性可以通过专家筛选以及用户调研获得,所述员工属性包括年龄、性别、工作时间、职务层级、工作地点、工作所属具体部门、学历、是否有公司家属、婚姻状态、政治面貌、当前职务担任时间等。相应的,所述属性标签可以包括年龄、性别、工作时间、职务层级、工作地点、工作所属具体部门、学历、是否有公司家属、婚姻状态、政治面貌、当前职务担任时间等。
S204、根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
具体地,所述服务器在获得所述属性关键词对应的员工属性之后,可以根据所述属性关键词对应的员工属性以及条件关键词获得查询条件,根据获得的查询条件进行检索,可以获得查询结果。所述服务器在获得所述查询结果之后,会将所述查询结果发送给所述查询终端。所述查询终端会显示所述查询结果,所述用户可以查看所述查询结果,并判断查询结果是否符合要求,如果不符合要求,那么可以通过所述查询终端将所述查询结果不符合要求的反馈信息发送给所述服务器,所述服务器可以接收所述反馈信息,所述反馈信息可以用于优化所述员工属性识别模型。
例如,所述服务器根据查询语句“工作时间超过15年且学历为本科的员工”和查询关键词“工作时间和学历”,以及所述员工属性识别模型,可以获得工作时间对应的员工属性是工作时间,学历对应的员工属性是学历,再结合条件关键词“超过15年,为本科”,可以获得查询条件为“工作时间>15年and学历=本科”。所述服务器在数据库中检索获得满足工作时间>15年且学历=本科的员工作为查询结果,然后将上述检索结果发送给所述查询终端。
本发明实施例提供的员工信息的搜索方法,能够接收查询终端发送的包括查询语句的员工信息查询请求,对查询语句进行分词处理,获得属性关键词和条件关键词,根据查询语句和属性关键词以及员工属性识别模型,获得属性关键词对应的员工属性,根据属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将查询结果返回给查询终端,实现对员工信息的统一查询,提高了对员工信息的查询效率。此外,通过对查询语句语义的识别进行检索,使用户能够使用自然语言,快速方便准确地搜索员工信息。
图3是本发明另一实施例提供的员工信息的搜索方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,根据员工信息查询样本语句以及对应的属性标签训练获得所述员工属性识别模型的步骤包括:
S301、获取所述员工信息查询样本语句;
具体地,所述员工信息查询样本语句可以从用户处收集获得,所述服务器可以获取所述员工信息查询样本语句,所述员工信息查询样本语句是用户用于进行员工信息查询的语句。其中,所述员工信息查询样本语句可以包括预设数量条查询样本语句。所述预设数量根据实际需要进行设置,本发明实施例不做限定。
S302、对所述员工信息查询样本语句中的每条查询样本语句进行分词处理,获得每条查询样本语句的属性关键词以及所述属性关键词对应的属性标签;
具体地,所述服务器对所述员工信息查询样本语句中的每条查询样本语句进行分词处理,获得每条查询样本语句的属性关键词。可以通过人工对每条查询样本语句的属性关键词进行打标签,获得每条查询样本语句的属性关键词中每个属性关键词对应的属性标签,每条查询样本语句的各个属性关键词对应的属性标签可以作为每条查询样本语句对应的属性标签。所述服务器可以获得每条查询样本语句的属性关键词对应的属性标签。其中,每条查询样本语句的属性关键词的具体获得过程与所述查询语句的属性关键词的具体获得过程类似,此处不进行赘述。
S303、将各条查询样本语句以及各条查询样本语句的属性关键词作为模型训练数据,并将所述模型训练数据划分为训练集和验证集;
具体地,所述服务器可以将每条查询样本语句以及每条查询样本语句的属性关键词作为模型训练数据的一条训练数据,各条查询样本语句以及各条查询样本语句的属性关键词构成所述模型训练数据。所述服务器在获得所述模型训练数据之后,可以将所述模型训练数据划分为训练集和验证集,所述训练集用于进行模型训练,所述验证集用于进行模型验证。
例如,将70%的模型训练数据作为训练集,将30%的模型训练数据作为训练集。
S304、根据所述训练集以及所述训练集对应的属性标签对初始模型进行训练,获得待定员工属性识别模型;
具体地,所述服务器在获得所述训练集之后,根据所述训练集以及所述训练集对应的属性标签,对初始模型进行模型训练,可以获得待定员工属性识别模型。所述初始模型可以采用深度学习Keras框架搭建,模型算法使用BILSTM+CRF命名实体算法实现。其中,BiLSTM是Bi-directional Long Short-Term Memory的缩写,指的是双向LSTM,CRF指的是条件随机场。其中,Keras框架有很强的扩展性,可以和其他框架Theano以及Tensorflow结合使用,并且Keras框架封装了大量的内部运算,易于使用。
其中,Keras框架中包括BILSTM模型和CRF模型,可以直接调用,所述初始模型分为三层,第一层为Embedding层,第二层为BILSTM层,第三层为CRF层。第一层将训练集中的离散向量转换为连续向量,第二层使用BILSTM算法计算发射矩阵,矩阵中的每个值表示当前属性关键词有多大概率对应哪个属性标签,第三层使用CRF算法来获得上下文信息,以达到减少模型训练数据的目的。
S305、根据所述验证集以及所述验证集对应的属性标签对所述待定员工属性识别模型进行验证,获得模型验证结果;
具体地,所述服务器训练获得所述待定员工属性识别模型之后,会将所述验证集输入到所述待定员工属性识别模型中,输出所述验证集对应的员工属性。将所述验证集中每个属性关键词对应的员工属性与所述验证集中每个属性关键词对应的属性标签进行比较,并统计属性关键词对应的员工属性与对应的属性标签相同的数量b,所述验证集中属性关键词的总数量为a,那么所述待定员工属性识别模型的准确率为b/a。如果所述待定员工属性识别模型的准确率小于阈值,那么模型验证结果为不通过。如果所述待定员工属性识别模型的准确率大于等于阈值,那么模型验证结果为通过。其中,所述阈值根据实际经验进行设置,本发明实施例不做限定。
当所述模型验证结果为不通过时,可以使用验证集的数据来对所述待定员工属性识别模型进行调优,调用所述待定员工属性识别模型对所述验证集进行识别,观察相关命名实体即员工属性的识别情况,对于无法识别的员工属性进行算法调优,这里的调优有两个方法,第一个方法是对相关语料的调优,例如:总经理这个属性标签的识别度较低,那么首先观察所述模型训练数据中总经理这个属性标签标注是否准确,其次考虑是否需要新增相关的模型训练数据;第二个方法是对模型参数的调优,可以对所述待定员工属性识别模型的参数增大或者减小从而达到最优值。通过上述两个方法来重新建立所述待定员工属性识别模型。
S306、若获知所述模型验证结果为通过,则将所述待定员工属性识别模型作为所述员工属性识别模型。
具体地,所述服务器如果获知所述模型验证结果为通过,那么将所述待定员工属性识别模型作为所述员工属性识别模型。
在上述各实施例的基础上,进一步地,所述根据所述属性关键词以及条件关键词,检索获得查询结果包括:
所述属性关键词以及条件关键词检索员工属性数据索引文件,获得所述查询结果;其中,所述员工属性数据索引文件是预先建立的。
具体地,员工信息分布在数据库的各张数据表中存储,可以通过外键关联多表查询员工数据,由于员工属性有很多,需要事先预设不同的搜索子条件与各个员工属性对应。如果新增员工属性,就需要增加对应的搜索子条件,众多的搜索子条件不仅会耗费系统维护资源,而且会导致搜索过程非常缓慢,影响用户体验。为快速返回查询结果给所述查询终端,可以预先建立员工属性数据索引文件,将每个员工的员工属性存储到所述员工属性数据索引文件中,所述服务器可以根据所述属性关键词以及条件关键词获得查询条件,根据查询条件直接检索所述员工属性数据索引文件,获得所述查询结果。由于所述员工属性数据索引文件的建立,无需检索不同的数据表,提高了员工信息的检索效率。
在上述各实施例的基础上,进一步地,本发明实施例提供的员工信息的搜索方法还包括:
定期更新所述员工属性数据索引文件。
具体地,由于员工信息不是固定不变的,会发生变化。可以建立批量处理程序,对所述员工属性数据索引文件进行定期更新,在更新时可以仅对发生变化的员工属性进行更新,其余员工属性保持不变,以减少所述员工属性数据索引文件更新时的资源消耗。其中,所述定期根据实际经验进行设置,本发明实施例不做限定。
图4是本发明一实施例提供的员工信息的搜索装置的结构示意图,如图4所示,本发明实施例提供的员工信息的搜索装置包括接收单元401、分词处理单元402、识别单元403和检索单元404,其中:
接收单元401用于接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;分词处理单元402用于对所述查询语句进行分词处理,获得属性关键词和条件关键词;识别单元403用于根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;检索单元404用于根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
具体地,用户可以通过查询终端向服务器发送员工信息查询请求,接收单元401会接收所述员工信息查询请求。其中,所述员工信息查询请求包括查询语句,所述查询语句可以是用户输入的用于查询员工信息的自然语言。
在接收到所述员工信息查询请求之后,分词处理单元402会对所述查询语句进行分词处理,即将所述查询语句划分为多个分词,并从划分出的多个分词中获得属性关键词和条件关键词。其中,所述属性关键词是与员工属性对应的词,所述条件关键词可以包括比较关键词和内容关键词,所述比较关键词例如为超过、大于、小于、等于、为等词,所述内容关键词例如为15年、本科、35岁、已婚、男等词。所述属性关键词和所述条件关键词根据实际需要进行设置,本发明实施例不做限定。
在获得所述属性关键词之后,识别单元403将所述查询语句以及所述属性关键词输入至员工属性识别模型中,经过所述员工属性识别模型的处理,可以输出所述属性关键词对应的员工属性。其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的,所述属性标签是基于员工属性预设的,根据实际需要进行设置,本发明实施例不做限定。
在获得所述属性关键词对应的员工属性之后,检索单元404可以根据所述属性关键词对应的员工属性以及条件关键词获得查询条件,根据获得的查询条件进行检索,可以获得查询结果。检索单元404在获得所述查询结果之后,会将所述查询结果发送给所述查询终端。
本发明实施例提供的员工信息的搜索装置,能够接收查询终端发送的包括查询语句的员工信息查询请求,对查询语句进行分词处理,获得属性关键词和条件关键词,根据查询语句和属性关键词以及员工属性识别模型,获得属性关键词对应的员工属性,根据属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将查询结果返回给查询终端,实现对员工信息的统一查询,提高了对员工信息的查询效率。此外,通过对查询语句语义的识别进行检索,使用户能够使用自然语言,快速方便准确地搜索员工信息。
图5是本发明另一实施例提供的员工信息的搜索装置的结构示意图,如图5所示,在上述各实施例的基础上,进一步地,本发明实施例提供的员工信息的搜索装置还包括获取单元405、获得单元406、划分单元407、训练单元408、验证单元409和判断单元410,其中:
获取单元405用于获取所述员工信息查询样本语句;获得单元406用于对所述员工信息查询样本语句中的每条查询样本语句进行分词处理,获得每条查询样本语句的属性关键词以及所述属性关键词对应的属性标签;划分单元407用于将各条查询样本语句以及各条查询样本语句的属性关键词作为模型训练数据,并将所述模型训练数据划分为训练集和验证集;训练单元408用于根据所述训练集以及所述训练集对应的属性标签对初始模型进行训练,获得待定员工属性识别模型;验证单元409用于根据所述验证集以及所述验证集对应的属性标签对所述待定员工属性识别模型进行验证,获得模型验证结果;判断单元410用于在获知所述模型验证结果为通过之后,将所述待定员工属性识别模型作为所述员工属性识别模型。
具体地,所述员工信息查询样本语句可以从用户处收集获得,获取单元405可以获取所述员工信息查询样本语句,所述员工信息查询样本语句是用户用于进行员工信息查询的语句。其中,所述员工信息查询样本语句可以包括预设数量条查询样本语句。所述预设数量根据实际需要进行设置,本发明实施例不做限定。
获得单元406对所述员工信息查询样本语句中的每条查询样本语句进行分词处理,获得每条查询样本语句的属性关键词。可以通过人工对每条查询样本语句的属性关键词进行打标签,获得每条查询样本语句的属性关键词中每个属性关键词对应的属性标签,每条查询样本语句的各个属性关键词对应的属性标签可以作为每条查询样本语句对应的属性标签。获得单元406可以获得每条查询样本语句的属性关键词对应的属性标签。其中,每条查询样本语句的属性关键词的具体获得过程与所述查询语句的属性关键词的具体获得过程类似,此处不进行赘述。
划分单元407可以将每条查询样本语句以及每条查询样本语句的属性关键词作为模型训练数据的一条训练数据,各条查询样本语句以及各条查询样本语句的属性关键词构成所述模型训练数据。划分单元407在获得所述模型训练数据之后,可以将所述模型训练数据划分为训练集和验证集,所述训练集用于进行模型训练,所述验证集用于进行模型验证。
在获得所述训练集之后,训练单元408根据所述训练集以及所述训练集对应的属性标签,对初始模型进行模型训练,可以获得待定员工属性识别模型。所述初始模型可以采用深度学习Keras框架搭建,模型算法使用BILSTM+CRF命名实体算法实现。其中,BiLSTM是Bi-directional Long Short-Term Memory的缩写,指的是双向LSTM,CRF指的是条件随机场。其中,Keras框架有很强的扩展性,可以和其他框架Theano以及Tensorflow结合使用,并且Keras框架封装了大量的内部运算,易于使用。
在训练获得所述待定员工属性识别模型之后,验证单元409会将所述验证集输入到所述待定员工属性识别模型中,输出所述验证集对应的员工属性。将所述验证集中每个属性关键词对应的员工属性与所述验证集中每个属性关键词对应的属性标签进行比较,并统计属性关键词对应的员工属性与对应的属性标签相同的数量b,所述验证集中属性关键词的总数量为a,那么所述待定员工属性识别模型的准确率为b/a。如果所述待定员工属性识别模型的准确率小于阈值,那么模型验证结果为不通过。如果所述待定员工属性识别模型的准确率大于等于阈值,那么模型验证结果为通过。其中,所述阈值根据实际经验进行设置,本发明实施例不做限定。
判断单元410如果获知所述模型验证结果为通过,那么将所述待定员工属性识别模型作为所述员工属性识别模型。
在上述各实施例的基础上,进一步地,检索单元404具体用于:
根据所述属性关键词以及条件关键词检索员工属性数据索引文件,获得所述查询结果;其中,所述员工属性数据索引文件是预先建立的。
具体地,员工信息分布在数据库的各张数据表中存储,可以通过外键关联多表查询员工数据,由于员工属性有很多,需要事先预设不同的搜索子条件与各个员工属性对应。如果新增员工属性,就需要增加对应的搜索子条件,众多的搜索子条件不仅会耗费系统维护资源,而且会导致搜索过程非常缓慢,影响用户体验。为快速返回查询结果给所述查询终端,可以预先建立员工属性数据索引文件,将每个员工的员工属性存储到所述员工属性数据索引文件中,检索单元404可以根据所述属性关键词以及条件关键词获得查询条件,根据查询条件直接检索所述员工属性数据索引文件,获得所述查询结果。由于所述员工属性数据索引文件的建立,无需检索不同的数据表,提高了员工信息的检索效率。
图6是本发明又一实施例提供的员工信息的搜索装置的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,本发明实施例提供的员工信息的搜索装置还包括更新单元411,其中:
更新单元411用于定期更新所述员工属性数据索引文件。
具体地,由于员工信息不是固定不变的,会发生变化。更新单元411可以建立批量处理程序,对所述员工属性数据索引文件进行定期更新,在更新时可以仅对发生变化的员工属性进行更新,其余员工属性保持不变,以减少所述员工属性数据索引文件更新时的资源消耗。其中,所述定期根据实际经验进行设置,本发明实施例不做限定。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图7是本发明一实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行如下方法:接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;对所述查询语句进行分词处理,获得属性关键词和条件关键词;根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;对所述查询语句进行分词处理,获得属性关键词和条件关键词;根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;对所述查询语句进行分词处理,获得属性关键词和条件关键词;根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种员工信息的搜索方法,其特征在于,包括:
接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;
对所述查询语句进行分词处理,获得属性关键词和条件关键词;
根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;
根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
2.根据权利要求1所述的方法,其特征在于,根据员工信息查询样本语句以及对应的属性标签训练获得所述员工属性识别模型的步骤包括:
获取所述员工信息查询样本语句;
对所述员工信息查询样本语句中的每条查询样本语句进行分词处理,获得每条查询样本语句的属性关键词以及所述属性关键词对应的属性标签;
将各条查询样本语句以及各条查询样本语句的属性关键词作为模型训练数据,并将所述模型训练数据划分为训练集和验证集;
根据所述训练集以及所述训练集对应的属性标签对初始模型进行训练,获得待定员工属性识别模型;
根据所述验证集以及所述验证集对应的属性标签对所述待定员工属性识别模型进行验证,获得模型验证结果;
若获知所述模型验证结果为通过,则将所述待定员工属性识别模型作为所述员工属性识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述属性关键词以及条件关键词,检索获得查询结果包括:
根据所述属性关键词以及条件关键词检索员工属性数据索引文件,获得所述查询结果;其中,所述员工属性数据索引文件是预先建立的。
4.根据权利要求3所述的方法,其特征在于,还包括:
定期更新所述员工属性数据索引文件。
5.一种员工信息的搜索装置,其特征在于,包括:
接收单元,用于接收查询终端发送的员工信息查询请求,所述员工信息查询请求包括查询语句;
分词处理单元,用于对所述查询语句进行分词处理,获得属性关键词和条件关键词;
识别单元,用于根据所述查询语句和所述属性关键词以及员工属性识别模型,获得所述属性关键词对应的员工属性;其中,所述员工属性识别模型是根据员工信息查询样本语句以及对应的属性标签训练获得的;
检索单元,用于根据所述属性关键词对应的员工属性以及条件关键词,检索获得查询结果并将所述查询结果返回给所述查询终端。
6.根据权利要求5所述的装置,其特征在于,还包括:
获取单元,用于获取所述员工信息查询样本语句;
获得单元,用于对所述员工信息查询样本语句中的每条查询样本语句进行分词处理,获得每条查询样本语句的属性关键词以及所述属性关键词对应的属性标签;
划分单元,用于将各条查询样本语句以及各条查询样本语句的属性关键词作为模型训练数据,并将所述模型训练数据划分为训练集和验证集;
训练单元,用于根据所述训练集以及所述训练集对应的属性标签对初始模型进行训练,获得待定员工属性识别模型;
验证单元,用于根据所述验证集以及所述验证集对应的属性标签对所述待定员工属性识别模型进行验证,获得模型验证结果;
判断单元,用于在获知所述模型验证结果为通过之后,将所述待定员工属性识别模型作为所述员工属性识别模型。
7.根据权利要求5或6所述的装置,其特征在于,所述检索单元具体用于:
根据所述属性关键词以及条件关键词检索员工属性数据索引文件,获得所述查询结果;其中,所述员工属性数据索引文件是预先建立的。
8.根据权利要求7所述的装置,其特征在于,还包括:
更新单元,用于定期更新所述员工属性数据索引文件。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010594858.0A CN111797115A (zh) | 2020-06-28 | 2020-06-28 | 一种员工信息的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010594858.0A CN111797115A (zh) | 2020-06-28 | 2020-06-28 | 一种员工信息的搜索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797115A true CN111797115A (zh) | 2020-10-20 |
Family
ID=72803803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010594858.0A Pending CN111797115A (zh) | 2020-06-28 | 2020-06-28 | 一种员工信息的搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797115A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779363A (zh) * | 2021-09-14 | 2021-12-10 | 广州汇通国信科技有限公司 | 一种基于深度神经网络的搜索优化方法及装置 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN105589936A (zh) * | 2015-12-11 | 2016-05-18 | 航天恒星科技有限公司 | 一种数据查询方法及系统 |
CN109670033A (zh) * | 2019-02-01 | 2019-04-23 | 青岛海信电器股份有限公司 | 内容的检索方法、装置、设备及存储介质 |
CN109815492A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种基于识别模型的意图识别方法、识别设备及介质 |
-
2020
- 2020-06-28 CN CN202010594858.0A patent/CN111797115A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN105589936A (zh) * | 2015-12-11 | 2016-05-18 | 航天恒星科技有限公司 | 一种数据查询方法及系统 |
CN109815492A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种基于识别模型的意图识别方法、识别设备及介质 |
CN109670033A (zh) * | 2019-02-01 | 2019-04-23 | 青岛海信电器股份有限公司 | 内容的检索方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779363A (zh) * | 2021-09-14 | 2021-12-10 | 广州汇通国信科技有限公司 | 一种基于深度神经网络的搜索优化方法及装置 |
CN113779363B (zh) * | 2021-09-14 | 2023-12-22 | 广州汇通国信科技有限公司 | 一种基于深度神经网络的搜索优化方法及装置 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
CN114911917B (zh) * | 2022-07-13 | 2023-01-03 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7912816B2 (en) | Adaptive archive data management | |
US20160275148A1 (en) | Database query method and device | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN111105209B (zh) | 适用于人岗匹配推荐系统的职位简历匹配方法及装置 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
US20200342030A1 (en) | System and method for searching chains of regions and associated search operators | |
CN114218400A (zh) | 基于语义的数据湖查询系统及方法 | |
CN111353050A (zh) | 一种电信客服垂直领域的词库构建方法及工具 | |
Elshater et al. | godiscovery: Web service discovery made efficient | |
CN111797115A (zh) | 一种员工信息的搜索方法及装置 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN113312539B (zh) | 一种检索服务的提供方法、装置、设备和介质 | |
CN113779987A (zh) | 一种基于自注意力增强语义的事件共指消岐方法及系统 | |
CN110633468B (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
US11698811B1 (en) | Machine learning-based systems and methods for predicting a digital activity and automatically executing digital activity-accelerating actions | |
CN115239214B (zh) | 企业的评估处理方法、装置及电子设备 | |
CN112364169B (zh) | 基于nlp的wifi识别方法、电子设备和介质 | |
CN112948573B (zh) | 文本标签的提取方法、装置、设备和计算机存储介质 | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information | |
CN111339319B (zh) | 一种企业名的消歧方法、装置、电子设备及存储介质 | |
CN114443842A (zh) | 战略性新兴产业分类方法及装置、存储介质和电子设备 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
CN112948561A (zh) | 一种问答知识库自动扩建的方法和装置 | |
US11481452B2 (en) | Self-learning and adaptable mechanism for tagging documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |