CN110377818A - 用户信息推送方法、装置、存储介质和计算机设备 - Google Patents
用户信息推送方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN110377818A CN110377818A CN201910517830.4A CN201910517830A CN110377818A CN 110377818 A CN110377818 A CN 110377818A CN 201910517830 A CN201910517830 A CN 201910517830A CN 110377818 A CN110377818 A CN 110377818A
- Authority
- CN
- China
- Prior art keywords
- school
- user
- similarity
- full name
- candidate user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 87
- 239000000284 extract Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种用户信息推送方法、装置、存储介质和计算机设备,应用于数据分析技术领域。所述的方法包括:根据输入的候选用户的学校全称提取学校全称的特征向量;将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置;根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称;将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到;若匹配一致,将所述候选用户的用户信息推送给所述目标用户。本申请实施例提高学校名称匹配的计算效率。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,本申请涉及一种用户信息推送方法、装置、存储介质和计算机设备。
背景技术
用户信息推送是当今互联网非常火热的一个技术方向。它根据其它用户的兴趣来搜索、过滤信息,并将其定期推给目标用户,帮助目标用户高效率地发掘有价值的信息。
基于对用户信息推送的准确性的需求,用户之间的关系亲密度变得越来越重要,尤其是用户之间的同学关系亲密度。服务器通常需要基于同学之间的亲密度来进行信息推送,比如,将其中一个用户关注的信息推送给与该用户具有同学关系且亲密度较高的其它用户。
目前在判断同学之间的亲密度时,采用的方式为将目标用户的学校全称和候选用户的学校全称进行匹配,若是学校全称相同,则判定亲密度较高,将候选用户的用户信息推送给目标用户,否则判定亲密度较低,不执行候选用户的用户信息推送,但是该种方式存在计算效率较低的缺陷。
发明内容
本申请针对现有方式的缺点,提出一种用户信息推送方法、装置、存储介质和计算机设备,以提高学校名称匹配的计算效率。
本申请的实施例根据第一个方面,提供了一种用户信息推送方法,包括:
根据输入的候选用户的学校全称提取学校全称的特征向量;
将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置;
根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称;
将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到;
若匹配一致,将所述候选用户的用户信息推送给所述目标用户。
在一个实施例中,所述根据输入的候选用户的学校全称提取学校全称的特征向量,包括:
从所述候选用户的学校全称中提取出字符总长度的特征、是否包含地域信息的特征、学校类型的特征、学校级别的特征,以及是否包含除地域信息、学校类型和学校级别之外的预置字段的特征;
由提取的各个特征构成学校名称的特征向量。
在一个实施例中,所述分类器通过以下方式训练得到:
获取各个样本学校全称及其学校简称的每个字符在对应学校全称中的位置;
提取各个样本学校全称的特征向量;
将各个样本学校名称的特征向量以及对应的位置输入分类器进行训练,得到训练好的分类器。
在一个实施例中,所述将所述候选用户的用户信息推送给所述目标用户,包括:
获取所述候选用户在其学校全称所指示学校的教育背景信息,以及所述目标用户在其学校全称所指示学校的教育背景信息;
计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度;
若相似度大于预设值,将所述候选用户的用户信息推送给所述目标用户。
在一个实施例中,所述教育背景信息包括在校年份、专业、学历、培养方式和城市;
所述计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度,包括:
将所述候选用户的在校年份、专业、学历、培养方式和城市,与所述目标用户的在校年份、专业、学历、培养方式和城市进行同类匹配,获得在校年份的相似度、专业的相似度、学历的相似度、培养方式的相似度和城市的相似度;
计算所述在校年份的相似度、所述专业的相似度、所述学历的相似度、所述培养方式的相似度和所述城市的相似度的权重和,得到所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度。
在一个实施例中,所述将所述候选用户的专业和所述目标用户的专业进行匹配,获得专业的相似度,包括:
若所述候选用户的专业和所述目标用户的专业相同,将专业的相似度设置为第一数值;
若所述候选用户的专业和所述目标用户的专业不相同但属于学校的同一个院系,将专业的相似度设置为第二数值;所述第二数值小于所述第一数值;
若所述候选用户的专业和所述目标用户的专业不相同且不属于学校的同一个院系,将专业的相似度设置为第三数值;所述第三数值小于所述第二数值。
在一个实施例中,所述将所述候选用户的培养方式和所述目标用户的培养方式进行匹配,获得培养方式的相似度,包括:
若所述候选用户的培养方式和所述目标用户的培养方式相同,将培养方式的相似度设置为第一数值;
若所述候选用户的培养方式和所述目标用户的培养方式不相同但属于同一个类别,将培养方式的相似度设置为第二数值;所述第二数值小于所述第一数值;
若所述候选用户的培养方式和所述目标用户的培养方式不相同且不属于同一个类别,将培养方式的相似度设置为第三数值;所述第三数值小于所述第二数值。
本申请的实施例根据第二个方面,还提供了一种用户信息推送装置,包括:
特征向量提取模块,用于根据输入的候选用户的学校全称提取学校全称的特征向量;
位置获得模块,用于将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置;
学校简称获得模块,用于根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称;
匹配模块,用于将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到;
用户信息推送模块,用于在匹配一致时,将所述候选用户的用户信息推送给所述目标用户。
本申请的实施例根据第三个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的用户信息推送方法。
本申请的实施例根据第四个方面,还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的用户信息推送方法。
上述的用户信息推送方法、装置、存储介质和计算机设备,提取出学校全称的特征向量,通过分类器对特征向量计算的方式得到待提取的各个字符在学校全称中的位置,然后根据该位置得到学校简称,通过学校简称匹配代替公司全称的匹配,由于学校简称的匹配效率要高于学校全称的匹配效率,因此通过该种方式大大提高了学校名称匹配的计算效率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的用户信息推送方法的示意图;
图2为本申请一个实施例的用户信息推送装置的示意图;
图3为本申请一个实施例的计算机设备的示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,为一实施例的用户信息推送方法的示意图,该方法包括:
S110、根据输入的候选用户的学校全称提取学校全称的特征向量。
本申请中,目标用户为被推送用户信息的对象,候选用户为可能的向目标用户推送用户信息的对象。在需要确定是否可以向目标用户推送候选用户的用户信息时,首先获取候选用户的学校全称。学校全称的数据来源可以是候选用户在求职网站上填写的信息,也可以是候选用户直接在界面中输入的信息等等。
特征向量用于唯一标识学校全称。获取候选用户的学校全称后,提取出该学校全称的属性信息,提取的属性信息构成学校全称的特征向量。
S120、将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置。
训练好的分类器用于基于输入的学校全称的特征向量计算出待提取的字符在学校全称中的位置。因此,将候选用户的特征向量输入训练好的分类器中,该分类器基于该候选用户的特征向量计算出待提取的各个字符在候选用户的学校全称中的位置。例如,计算得到待提取的各个字符在候选用户的学校全称中的第1个位置和第3个位置。
S130、根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称。
由训练好的分类器计算出待提取的各个字符在学校全称中的位置后,根据该位置从候选用户的学校全称中提取出对应的字符,提取出的各个字符按照位置的先后顺序构成候选用户的学校简称。例如,候选用户的学校名称为北京大学,分类器计算出来的待提取的各个字符在候选用户的学校全称中的第1个位置和第3个位置,则提取出的两个字符为北和大,按照字符的先后顺序,则北大构成候选用户的学校简称。
S140、将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到。
通过同一方式对目标用户的学校全称进行处理,获得目标用户的学校简称,也即是,按照相同的提取方式根据输入的目标用户的学校全称提取目标用户的学校全称的特征向量,将提取的特征向量输入训练好的分类器中,由分类器计算出学校简称的每个字符在学校全称中的位置,根据位置从目标用户的学校全称中提取出对应的各个字符,由提取的各个字符构成目标用户的学校简称。为了判定目标用户和候选用户是否属于同一个学校,将候选用户的学校简称和目标用户的学校简称进行匹配。
S150、若匹配一致,将所述候选用户的用户信息推送给所述目标用户。
如果匹配一致,说明候选用户与目标用户属于同一个学校,将候选用户的用户信息,例如候选用户的身份信息,或者候选用户关注的教育咨询信息,等等,推送给目标用户。否则,不将候选用户的用户信息推送给目标用户。
本实施例通过学校简称匹配代替公司全称的匹配,由于学校简称的匹配效率要高于学校全称的匹配效率,因此通过该种方式大大提高了学校名称匹配的计算效率。
用于唯一标识学校名称的特征向量有多种形式,为了确保学校简称提取的准确性以及学校简称的字符位置计算的效率,在一个实施例中,所述根据输入的候选用户的学校全称提取学校全称的特征向量,包括:从所述候选用户的学校全称中提取出字符总长度的特征、是否包含地域信息的特征、学校类型的特征、学校级别的特征,以及是否包含除地域信息、学校类型和学校级别之外的预置字段的特征;由提取的各个特征构成学校名称的特征向量。
字符总长度指的是候选用户的学校全称的字符个数,例如,学校全称包括4个字符,则字符总长度为4。地域信息指的是地理位置信息,例如华南、中国、北京,等等,如果学校全称中包含地域信息的字段,则可以以第一数值表征该特征,如果学校全称中不包含地域信息的字段,则可以以第二数值表征该特征,例如,学校全称为华南理工大学,其中华南为地域信息,则用数值11表征包含地域信息的特征,又例如,学校全称为清华大学,不包含地域信息的特征,则用数值12表征不包含地域信息的特征。学校类型指的是学校是综合类学校还是专业类学校,综合类学校囊括众多专业学科,例如北京大学和清华大学等等,专业类学校专业性强一些,例如农业学校、音乐学校、师范学校等等。学校级别指的是学校所处的等级,例如,一本、二本、大专、中专等。另外还提取出是否包含地域信息、学校类型和学校级别之外的预置字段的特征,同样,如果还包含预置字段的特征,则用一个数值表征,如果不包含预置字段的特征,则用另一个数值表征。提取的各个特征按照一定的顺序组合,构成学校名称的特征向量。
在一个实施例中,所述分类器通过以下方式训练得到:获取各个样本学校全称及其学校简称的每个字符在对应学校全称中的位置;提取各个样本学校全称的特征向量;将各个样本学校名称的特征向量以及对应的位置输入分类器进行训练,得到训练好的分类器。本实施例中,选取的样本学校全称为已知对应学校简称的学校全称,标记出学校简称的各个字符在对应的样本学校全称中的位置,然后基于各个样本学校全称的特征向量以及各个样本学校全称的位置对初始的分类器进行迭代训练,各个样本学校全称的位置用于作为调节分类器的参数的参考值,当训练后的分类器满足预设迭代停止条件或者迭代次数时,停止迭代,此时得到训练好的分类器。
两个用户称之为同学,首选需要保证两个用户的学校名称相同,在此基础上,获取其它信息进行亲密度的计算,以进一步提高用户信息推送的准确性。确定目标用户和候选用户的学校名称是否相同,即将目标用户的学校名称与候选用户的学校名称进行比较,若两者一致,则属于同一个学校,否则不属于同一个学校。
因此,在一个实施例中,所述将所述候选用户的用户信息推送给所述目标用户,包括:
S1501、获取所述候选用户在其学校全称所指示学校的教育背景信息,以及所述目标用户在其学校全称所指示学校的教育背景信息。
同学关系亲密度用于表征同学之间的亲疏程度。本申请为了提高用户信息推送的准确性,在确保学校名称相同的基础上,再结合教育背景信息进行判断。可选的,所述教育背景信息包括在校年份、专业、学历、培养方式和城市,其中,培养方式指的是统招、委培或者自费等,城市指的是学校所在的城市。本申请从熟悉、认识、有交集等场景考虑同学关系亲密度,即从大粒度到小粒度层层深入去考虑,获取用户的在校年份、专业、学历、培养方式、城市等,该获取的信息与上述步骤用到的学校名称可以以特征向量的形式进行存储,例如,某用户的教育背景信息为:[大学学校名称,大学在校年份,专业,本科生学历,培养方式(统招、委培、自费等),大学所在城市]。
为了提高后续匹配的效率,还可以对在校年份、专业、学历、培养方式和城市进行预处理。以培养方式为例,培养方式的处理方式可以为,采用通用的数字标识保证对应的培养方式,例如,1表示非定向,2表示定向,3表示在职,4表示委培,5表示自筹等等。
考虑到数字的匹配速率一般高于文字字符的匹配效率,因此可以将用户的教育背景信息包含的内容全部转换为数字标识,例如,某用户的教育背景信息为:[学校机构代码,在校年份,专业的数字标识,学历的数字标识,培养方式的数字标识,城市的邮编]。
S1502、计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度。
S1503、若相似度大于预设值,将所述候选用户的用户信息推送给所述目标用户。
如果教育背景信息包括多项内容,如教育背景信息包括在校年份、专业、学历、培养方式和城市,则在一个实施例中,所述计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度,包括:
S1502a、将所述候选用户的在校年份、专业、学历、培养方式和城市,与所述目标用户的在校年份、专业、学历、培养方式和城市进行同类匹配,获得在校年份的相似度、专业的相似度、学历的相似度、培养方式的相似度和城市的相似度。
同类匹配指的是:将候选用户的在校年份和目标用户的在校年份进行匹配,得到在校年份的相似度;将候选用户的专业和目标用户的专业进行匹配,得到专业的相似度;将候选用户的学历和目标用户的学历进行匹配,得到学历的相似度;将候选用户的培养方式和目标用户的培养方式进行匹配,得到培养方式的相似度;将候选用户的城市和目标用户的城市进行匹配,得到城市的相似度。
S1502b、计算所述在校年份的相似度、所述专业的相似度、所述学历的相似度、所述培养方式的相似度和所述城市的相似度的权重和,得到所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度。
预先为在校年份、专业、学历、培养方式和城市分配权重,各项内容的权重可以设置为相同,也可以设置为不同的值,例如按照在校年份、专业、学历、培养方式、城市的顺序权重依次增大。
可以根据计算公式:在校年份的权重*相似度+专业的权重*相似度+学历的权重*相似度+培养方式的权重*相似度+城市的权重*相似度,计算出目标用户和候选用户之间的权重和。
可选的,在计算在校年份的相似度时,可以将在校年份完全相同的相似度设置为一个数值,例如1,其余的全部设置为另一个数值,例如0,也可以将在校年份完全相同的相似度设置为1,其余根据重合的年份的个数确定相似度,例如在校四年,重合的年份有三个,则相似度为3/4。
可选的,所述将所述候选用户的专业和所述目标用户的专业进行匹配,获得专业的相似度,包括:若所述候选用户的专业和所述目标用户的专业相同,将专业的相似度设置为第一数值;若所述候选用户的专业和所述目标用户的专业不相同但属于学校的同一个院系,将专业的相似度设置为第二数值;所述第二数值小于所述第一数值;若所述候选用户的专业和所述目标用户的专业不相同且不属于学校的同一个院系,将专业的相似度设置为第三数值;所述第三数值小于所述第二数值。
可选的,在计算学历的相似度时,可以将学历完全相同的相似度设置为一个数值,例如1,其余的全部设置为另一个数值,例如0。
可选的,所述将所述候选用户的培养方式和所述目标用户的培养方式进行匹配,获得培养方式的相似度,包括:若所述候选用户的培养方式和所述目标用户的培养方式相同,将培养方式的相似度设置为第一数值;若所述候选用户的培养方式和所述目标用户的培养方式不相同但属于同一个类别,将培养方式的相似度设置为第二数值;所述第二数值小于所述第一数值;若所述候选用户的培养方式和所述目标用户的培养方式不相同且不属于同一个类别,将培养方式的相似度设置为第三数值;所述第三数值小于所述第二数值。其中,培养方式为:统招、自筹、并轨、非定向都属于统招统分毕业生,属于同一个类别;培养方式为:定向、委培的均不属于统招统分毕业生,属于另一个类别。
在计算城市的相似度时,可以将城市完全相同的相似度设置为一个数值,例如1,其余的全部设置为另一个数值,例如0,也可以将城市完全相同的相似度设置为1,其余的判断是不是该学校其它分校所在的城市,若是,将相似度设置为小于1且大于0的某一个值,否则设置为0。
基于同一发明构思,本申请还提供一种用户信息推送装置,下面结合附图对本申请装置的具体实施方式进行详细介绍。
如图2所示,为一实施例的用户信息推送装置的示意图,该装置包括:
特征向量提取模块210,用于根据输入的候选用户的学校全称提取学校全称的特征向量;
位置获得模块220,用于将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置;
学校简称获得模块230,用于根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称;
匹配模块240,用于将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到;
用户信息推送模块250,用于在匹配一致时,将所述候选用户的用户信息推送给所述目标用户。
在一个实施例中,特征向量提取模块210从所述候选用户的学校全称中提取出字符总长度的特征、是否包含地域信息的特征、学校类型的特征、学校级别的特征,以及是否包含除地域信息、学校类型和学校级别之外的预置字段的特征;由提取的各个特征构成学校名称的特征向量。
在一个实施例中,所述分类器通过以下方式训练得到:
获取各个样本学校全称及其学校简称的每个字符在对应学校全称中的位置;
提取各个样本学校全称的特征向量;
将各个样本学校名称的特征向量以及对应的位置输入分类器进行训练,得到训练好的分类器。
在一个实施例中,用户信息推送模块250包括:
教育背景信息获取单元,用于获取所述候选用户在其学校全称所指示学校的教育背景信息,以及所述目标用户在其学校全称所指示学校的教育背景信息;
相似度计算单元,用于计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度;
用户信息推送单元,用于在相似度大于预设值时,将所述候选用户的用户信息推送给所述目标用户。
在一个实施例中,所述教育背景信息包括在校年份、专业、学历、培养方式和城市;相似度计算单元包括:
匹配子单元,用于将所述候选用户的在校年份、专业、学历、培养方式和城市,与所述目标用户的在校年份、专业、学历、培养方式和城市进行同类匹配,获得在校年份的相似度、专业的相似度、学历的相似度、培养方式的相似度和城市的相似度;
权重和计算子单元,用于计算所述在校年份的相似度、所述专业的相似度、所述学历的相似度、所述培养方式的相似度和所述城市的相似度的权重和,得到所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度。
在一个实施例中,所述匹配子单元在所述候选用户的专业和所述目标用户的专业相同时,将专业的相似度设置为第一数值;在所述候选用户的专业和所述目标用户的专业不相同但属于学校的同一个院系时,将专业的相似度设置为第二数值;所述第二数值小于所述第一数值;在所述候选用户的专业和所述目标用户的专业不相同且不属于学校的同一个院系时,将专业的相似度设置为第三数值;所述第三数值小于所述第二数值。
在一个实施例中,所述匹配子单元在所述候选用户的培养方式和所述目标用户的培养方式相同时,将培养方式的相似度设置为第一数值;在所述候选用户的培养方式和所述目标用户的培养方式不相同但属于同一个类别时,将培养方式的相似度设置为第二数值;所述第二数值小于所述第一数值;在所述候选用户的培养方式和所述目标用户的培养方式不相同且不属于同一个类别时,将培养方式的相似度设置为第三数值;所述第三数值小于所述第二数值。
上述用户信息推送装置的其它技术特征与上述用户信息推送方法的技术特征相同,在此不予赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的用户信息推送方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本申请实施例还提供一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的用户信息推送方法。
图3为本申请计算机设备的结构示意图,包括处理器320、存储装置330、输入单元340以及显示单元350等器件。本领域技术人员可以理解,图3示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置330可用于存储应用程序310以及各功能模块,处理器320运行存储在存储装置330的应用程序310,从而执行设备的各种功能应用以及数据处理。存储装置330可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本申请所公开的存储装置包括但不限于这些类型的存储装置。本申请所公开的存储装置330只作为例子而非作为限定。
输入单元340用于接收信号的输入,以及接收学校全称等。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置330内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,计算机设备包括一个或多个处理器320,以及一个或多个存储装置330,一个或多个应用程序310,其中所述一个或多个应用程序310被存储在存储装置330中并被配置为由所述一个或多个处理器320执行,所述一个或多个应用程序310配置用于执行以上实施例所述的用户信息推送方法。
上述的用户信息推送方法、装置、存储介质和计算机设备,与现有技术相互比较时,具备以下优点:
1、通过学校简称匹配代替公司全称的匹配,由于学校简称的匹配效率要高于学校全称的匹配效率,因此通过该种方式大大提高了学校名称匹配的计算效率。
2、以同一学校名称下的在校年份、专业、学历、培养方式、城市等教育背景信息维度给予权重去刻画亲密度,实现了具有同学关系的用户之间亲密度的准确计算,进而提高了用户信息推送的准确性。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本申请各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种用户信息推送方法,其特征在于,包括:
根据输入的候选用户的学校全称提取学校全称的特征向量;
将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置;
根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称;
将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到;
若匹配一致,将所述候选用户的用户信息推送给所述目标用户。
2.根据权利要求1所述的用户信息推送方法,其特征在于,所述根据输入的候选用户的学校全称提取学校全称的特征向量,包括:
从所述候选用户的学校全称中提取出字符总长度的特征、是否包含地域信息的特征、学校类型的特征、学校级别的特征,以及是否包含除地域信息、学校类型和学校级别之外的预置字段的特征;
由提取的各个特征构成学校名称的特征向量。
3.根据权利要求1所述的用户信息推送方法,其特征在于,所述分类器通过以下方式训练得到:
获取各个样本学校全称及其学校简称的每个字符在对应学校全称中的位置;
提取各个样本学校全称的特征向量;
将各个样本学校名称的特征向量以及对应的位置输入分类器进行训练,得到训练好的分类器。
4.根据权利要求1至3任意一项所述的用户信息推送方法,其特征在于,所述将所述候选用户的用户信息推送给所述目标用户,包括:
获取所述候选用户在其学校全称所指示学校的教育背景信息,以及所述目标用户在其学校全称所指示学校的教育背景信息;
计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度;
若相似度大于预设值,将所述候选用户的用户信息推送给所述目标用户。
5.根据权利要求4所述的用户信息推送方法,其特征在于,所述教育背景信息包括在校年份、专业、学历、培养方式和城市;
所述计算所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度,包括:
将所述候选用户的在校年份、专业、学历、培养方式和城市,与所述目标用户的在校年份、专业、学历、培养方式和城市进行同类匹配,获得在校年份的相似度、专业的相似度、学历的相似度、培养方式的相似度和城市的相似度;
计算所述在校年份的相似度、所述专业的相似度、所述学历的相似度、所述培养方式的相似度和所述城市的相似度的权重和,得到所述候选用户的教育背景信息与所述目标用户的教育背景信息之间的相似度。
6.根据权利要求5所述的用户信息推送方法,其特征在于,所述将所述候选用户的专业和所述目标用户的专业进行匹配,获得专业的相似度,包括:
若所述候选用户的专业和所述目标用户的专业相同,将专业的相似度设置为第一数值;
若所述候选用户的专业和所述目标用户的专业不相同但属于学校的同一个院系,将专业的相似度设置为第二数值;所述第二数值小于所述第一数值;
若所述候选用户的专业和所述目标用户的专业不相同且不属于学校的同一个院系,将专业的相似度设置为第三数值;所述第三数值小于所述第二数值。
7.根据权利要求5所述的用户信息推送方法,其特征在于,所述将所述候选用户的培养方式和所述目标用户的培养方式进行匹配,获得培养方式的相似度,包括:
若所述候选用户的培养方式和所述目标用户的培养方式相同,将培养方式的相似度设置为第一数值;
若所述候选用户的培养方式和所述目标用户的培养方式不相同但属于同一个类别,将培养方式的相似度设置为第二数值;所述第二数值小于所述第一数值;
若所述候选用户的培养方式和所述目标用户的培养方式不相同且不属于同一个类别,将培养方式的相似度设置为第三数值;所述第三数值小于所述第二数值。
8.一种用户信息推送装置,其特征在于,包括:
特征向量提取模块,用于根据输入的候选用户的学校全称提取学校全称的特征向量;
位置获得模块,用于将提取的特征向量输入预先训练好的分类器中,由所述分类器计算出学校简称的每个字符在学校全称中的位置;
学校简称获得模块,用于根据所述位置从所述候选用户的学校全称中提取出对应的各个字符,由提取的各个字符构成所述候选用户的学校简称;
匹配模块,用于将所述候选用户的学校简称与目标用户的学校简称进行匹配;所述目标用户的学校简称通过同一方式对所述目标用户的学校全称处理得到;
用户信息推送模块,用于在匹配一致时,将所述候选用户的用户信息推送给所述目标用户。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述的用户信息推送方法。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的用户信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910517830.4A CN110377818A (zh) | 2019-06-14 | 2019-06-14 | 用户信息推送方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910517830.4A CN110377818A (zh) | 2019-06-14 | 2019-06-14 | 用户信息推送方法、装置、存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377818A true CN110377818A (zh) | 2019-10-25 |
Family
ID=68250435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910517830.4A Pending CN110377818A (zh) | 2019-06-14 | 2019-06-14 | 用户信息推送方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377818A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749331A (zh) * | 2020-06-28 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种数据推荐方法、装置以及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
US20170308980A1 (en) * | 2016-04-20 | 2017-10-26 | Chegg, Inc. | Matching candidate student leads to school demographic preferences |
CN108228567A (zh) * | 2018-01-17 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 用于提取组织机构的简称的方法和装置 |
CN108428137A (zh) * | 2017-02-14 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 生成简称、校验电子金融业务合法性的方法及装置 |
CN109190018A (zh) * | 2018-08-07 | 2019-01-11 | 苏州承儒信息科技有限公司 | 基于用户相似度的本地教育机构智能推荐方法及其系统 |
CN109635276A (zh) * | 2018-11-12 | 2019-04-16 | 厦门市美亚柏科信息股份有限公司 | 一种信息匹配方法及终端 |
-
2019
- 2019-06-14 CN CN201910517830.4A patent/CN110377818A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
US20170308980A1 (en) * | 2016-04-20 | 2017-10-26 | Chegg, Inc. | Matching candidate student leads to school demographic preferences |
CN108428137A (zh) * | 2017-02-14 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 生成简称、校验电子金融业务合法性的方法及装置 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN108228567A (zh) * | 2018-01-17 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 用于提取组织机构的简称的方法和装置 |
CN109190018A (zh) * | 2018-08-07 | 2019-01-11 | 苏州承儒信息科技有限公司 | 基于用户相似度的本地教育机构智能推荐方法及其系统 |
CN109635276A (zh) * | 2018-11-12 | 2019-04-16 | 厦门市美亚柏科信息股份有限公司 | 一种信息匹配方法及终端 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749331A (zh) * | 2020-06-28 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种数据推荐方法、装置以及计算机可读存储介质 |
CN112749331B (zh) * | 2020-06-28 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种数据推荐方法、装置以及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572958B (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN107609056B (zh) | 一种基于图片识别的问答处理方法与设备 | |
CN109460488B (zh) | 一种辅助教学方法及系统 | |
CN109800320B (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
Ege et al. | Image-based food calorie estimation using recipe information | |
CN103995889A (zh) | 图片分类方法及装置 | |
CN110175236A (zh) | 用于文本分类的训练样本生成方法、装置和计算机设备 | |
CN104598535A (zh) | 一种基于最大熵的事件抽取方法 | |
US11216499B2 (en) | Information retrieval apparatus, information retrieval system, and information retrieval method | |
CN104462126A (zh) | 一种实体链接方法及装置 | |
CN109284498A (zh) | 自提柜推荐方法、自提柜推荐装置和电子装置 | |
JP2014109871A5 (zh) | ||
CN106557463A (zh) | 情感分析方法及装置 | |
CN110381115A (zh) | 信息推送方法、装置、计算机可读存储介质和计算机设备 | |
CN104808806A (zh) | 根据不确定性信息实现汉字输入的方法和装置 | |
CN112084746A (zh) | 一种实体识别方法、系统、存储介质及设备 | |
CN106202030A (zh) | 一种基于异构标注数据的快速序列标注方法及装置 | |
CN111191012A (zh) | 知识图谱产生装置、方法及其计算机程序产品 | |
CN110019955A (zh) | 一种视频标签标注方法及装置 | |
WO2016112782A1 (zh) | 一种用户的生活圈提取方法及系统 | |
CN104102704B (zh) | 系统控件展示方法和装置 | |
CN105303449A (zh) | 基于相机指纹特征的社交网络用户的识别方法和系统 | |
Monat et al. | LTRclassifier: a website for fast structural LTR retrotransposons classification in plants | |
JP6146209B2 (ja) | 情報処理装置、文字認識方法、及びプログラム | |
CN110377818A (zh) | 用户信息推送方法、装置、存储介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |