CN111881257B - 基于主题词和语句主旨的自动匹配方法、系统及存储介质 - Google Patents

基于主题词和语句主旨的自动匹配方法、系统及存储介质 Download PDF

Info

Publication number
CN111881257B
CN111881257B CN202010720583.0A CN202010720583A CN111881257B CN 111881257 B CN111881257 B CN 111881257B CN 202010720583 A CN202010720583 A CN 202010720583A CN 111881257 B CN111881257 B CN 111881257B
Authority
CN
China
Prior art keywords
text
subject
matching
coding
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010720583.0A
Other languages
English (en)
Other versions
CN111881257A (zh
Inventor
彭凌西
蒋镇鸿
施磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jinzong Talent Network Service Co ltd
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010720583.0A priority Critical patent/CN111881257B/zh
Publication of CN111881257A publication Critical patent/CN111881257A/zh
Application granted granted Critical
Publication of CN111881257B publication Critical patent/CN111881257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的提供了基于主题词和语句主旨的自动匹配方法、系统及存储介质,方法包括以下步骤:获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息,根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量,根据主题词以及主旨要义向量得到匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数;方法执行的过程中占用较少的计算资源具有更强的内容感知能力,过程所涉及的数据量少,能够更为快速地完成匹配处理,可广泛应用于自然语言处理技术领域。

Description

基于主题词和语句主旨的自动匹配方法、系统及存储介质
技术领域
本发明属于自然语言处理技术领域,尤其是基于主题词和语句主旨的自动匹配方法、系统及存储介质。
背景技术
如何高效利用信息搜索、信息匹配来增强社会生产和人员之间交流的方式,是许多科研人员都在探讨的问题。特别是在人力资源行业当中,即便有诸多的互联网信息整合平台,但由于受限于其信息匹配和运用技术能力,导致大量沉没简历和招聘需求的出现。企业在招聘过程中不仅要交高额费用且效率较低,而求职者更是呈现片面的求职过程。而在招聘过程中,人与岗位的匹配是人力资源行业最重要的应用需求,也是涉及知识和领域最多的研究点。因此,虽然得益于深度学习、自然语言处理技术和语言信息技术的发展,人与岗位的匹配技术有了许多突破,但仍存在许多尚待研究的困难点。
现有的基于单一的CNN卷积神经网络或循环神经网络的方法,首先是将简历和招聘要求通过word2vec方式表示后,进行CNN卷积神经网络或循环神经网络进行信息提取,最后对两者特征进行匹配。该方法会因过于单一特征提取器和粗提取的方法导致提取的信息不全面,对复杂专业词特别多的领域匹配效果不佳。
又或者基于充分发掘词信息的方法,首先需要用大量数据,预训练一个skip-gram模型,得出每一个字的信息表示,但要完整的表达整份简历几千字的内容,这对计算资源要求特别大。
另外,使用推荐系统的方法作为在线招聘系统的算法模型,需要输入庞大数目历史招聘记录简历,使得模型计算量特别庞大,特征提取能力不足时候,影响匹配准确性。
发明内容
有鉴于此,为至少部分解决上述技术问题之一,本发明实施例目的在于提供一种轻量,快速同时能够保证较高的匹配准确度的基于主题词和语句主旨的自动匹配方法,以及可以对应实现基于主题词和语句主旨的自动匹配方法的系统以及存储介质。
第一方面,本发明的提供了基于主题词和语句主旨的自动匹配方法,其包括以下步骤:
获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;第一文本包括待筛选文本和目标文本;第二文本包括长文本和短文本;
根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
根据主题词以及主旨要义向量生成匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数。
在本发明的一些实施例中,方法还包括以下步骤:
获取第一预测模型输出的历史匹配分数,根据历史匹配分数对第一预测模型提取的第一文本的特征进行存储,得到记忆特征;
根据记忆特征通过第二预测模型生成预测结果,根据匹配分数以及预测结果对第一文本的内容进行匹配。
在本发明的一些实施例中,从第一文本中提取得到第二文本这一步骤,其具体为:对第一文本进行数据清洗,删除空行符号、连续空格以及敏感词汇,输出得到第二文本。
在本发明的一些实施例中,切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其具体包括:
创建字表,根据字表对第二文本进行切分,并对切分得到的文字进行编码,得到编码后的序列信息;
当第二文本中存在字表中未收录的文字;将该文字设置为默认编码,并使得编码得到的编码后的序列信息与第二文本的长度一致。
在本发明的一些实施例中,根据主题词以及主旨要义向量得到匹配相关性这一步骤,其具体包括:生成主旨要义向量的均值,根据均值对主题词进行加权运算,根据加权运算的结果,得到主旨要义向量和主题词的匹配相关性。
在本发明的一些实施例中,根据记忆特征通过第二预测模型生成预测结果这一步骤,其具体包括:读取记忆特征,并获取当前待预测第一文本的特征;根据记忆特征以及当前待预测第一文本的特征通过第二预测模型生成预测结果。
在本发明的一些实施例中,切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其还包括以下步骤:将若干短文本进行整合得到长文本,并对长文本进行编码,得到编码后的序列信息。
第二方面,本发明的技术方案还提供基于主题词和语句主旨的自动匹配系统,包括文本获取单元、文本编码单元以及深度学习单元;其中:
文本获取单元,用于获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;第一文本包括待筛选文本和目标文本;第二文本包括长文本和短文本;
文本编码单元,用于根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
深度学习单元,用于根据主题词以及主旨要义向量得到匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数。
第三方面,本发明的技术方案还提供基于主题词和语句主旨的自动匹配系统,其包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行,使得至少一个处理器实现第一方面中的基于主题词和语句主旨的自动匹配方法。
第四方面,本发明的技术方案还提供了一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如第一方面中的方法。
本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
本发明所提供的基于主题词和语句主旨的自动匹配方法,在获取文本内容后通过复用两条分支的模型分别处理待筛选文本和目标文本,在步骤执行的过程中占用较少的计算资源;方法还在模型设计上再创造两个分支,用来提取句子的主旨要义和提取一些主题有关的词语,增强模型的内容感知能力;最后根据主题词、主旨要义向量以及两者匹配相关性得到最后匹配结果;方法过程所涉及的数据量少,能够更为快速地完成匹配处理,同时方法可解析性好,能更好地支持个性化定制。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于主题词和语句主旨的自动匹配方法的步骤流程图;
图2为本发明实施例基于主题词和语句主旨的自动匹配方法的记忆决策网络的结构示意图;
图3为本发明实施例基于主题词和语句主旨的自动匹配的硬件系统的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明的总体思路是:使用大型预训练模型BERT来代替skip-gram模型,使用大型的开源的模型BERT,会使得在模型训练过程只需要根据任务进行微量的参数调整;并针对单一特征提取器的不足,基于BERT在模型设计上创造两个分支,用来提取句子的主旨要义和提取一些主题有关的词语的位置信息,增强模型的内容感知能力。为提供更加具体、详细的实施例以及实施方式,说明书中选用招聘系统中的简历信息匹配这一功能的具体实施方式进行说明。
第一方面,如图1所示,本实施例提供了基于主题词和语句主旨的自动匹配方法,其主要包括步骤S01-S03:
S01、获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;第一文本包括待筛选文本和目标文本;第二文本包括长文本和短文本。具体的,实施例中,从企业数据库中取出当前待选简历文本和相应的招聘要求文本,两者均进行长句子和其他信息项目的提取,在这之中,待选简历文本即作为待筛选文本,提出的具体的招聘要求即作为本实施例中的目标文本;进而提取得到的长句子即为长文本,其他信息项目则为短文本的内容。例如,将待选简历文本中切分得到的工作经验的内容,通常为长文本内容。
完成提取以及切分等文本内容的前序处理之后,必要时需要对文本内容进行文本信息的清洗,在一些可选的实施方式中,在从第一文本中提取得到第二文本这一步骤中,其还包括步骤S011、对第一文本进行数据清洗,删除空行符号、连续空格以及敏感词汇,输出得到第二文本。
具体地,本实施例通过python语言当中的xlrd模块,加载csv后缀格式的简历文件中的项目。加载完成后,会通过正则表达式进行数据清洗,脱开大量空行符号、连续空格个敏感辱骂性词语等。例如,经过数据清洗后,输出的第二文本信息为[3年;本科;某某大学;工作经验;项目经验;]的文本结构。
在一些实施方式中,切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤中,其具体包括步骤S013-S014:
S013、创建字表,根据字表对第二文本进行切分,并对切分得到的文字进行编码,得到编码后的序列信息;
S014、当第二文本中的文字未在字表中出现;将文字设置为默认编码,并使得编码得到的编码后的序列信息与第二文本的长度一致。
具体地,步骤S013-S014主要是对每个字进行编码,本实施例的编码所采用的模型是BERT模型,因此,方法首先需要通过剔除极为低频的文字,将一些极度生僻的词去掉,防止后续BERT编码错误。在切分的过程中,创建一份新的属于人力资源行业的字表,例如:【我、你、兼、简、利.......】,该字表使得切分简历出来的每一个字,必定存在于字表当中,且有对应的ID。本实施例在现有的Tokenizer算法上进行优化升级:其一,若需要进行标注的单个文字不存在于字表中,使得后续无法编码,实施例的算法给与默认编码且使得编码后的长度必须与原本未进行标注序号的句子长度一致、每个字的位置一一对应;其二,若所有的待标注的单个文字均在该字表中存在,后续编码结果的位置仍需要与未进行标注序号的句子的文本紧密对应;特别的,在实施例切分的过程中,词语的处理与文字的处理原则上一致。其他语言的词汇则首先通过翻译后再进行处理。
进一步作为补充,在一些实施方法中,切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其还包括步骤S012、将若干短文本进行整合得到长文本,并对长文本进行编码,得到编码后的序列信息;具体的,在一些实施例中无法复用招聘要求和简历两条分支的模型的方式,则可将提取的若干短文本进行整合,其类似于长文本,所以在后续的处理过程中,也采用长文本的处理方式统一进行处理。
S02、根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量。具体的,实施例中可采用BERT模型(Bidirectional Encoder Representation from Transformers),可以同样拿大量行业数据训练信息表示模型,也可以通过的已经训练好的信息表示模型,在任务下继续训练,即可以通过调整方法快速达到效果,不需要从头训练。在具体的对第一文本进行bert编码过程中,将步骤S01中得到的编码后的序列信息,输入BERT模型进行编码运算;分别输出关于工作经验(工作经验是属于长文本)和其他项目(性别、工作年限以及学历等信息均为短文本)的编码结果。进一步对完成bert编码后的第一文本进行信息提取,实施例中采用的ransformer-XL算法;其来源于XLNet模型,Transformer-XL是Transformer的改良,也是比bilstm更具全局信息提取能力。它是给定一个序列信息,输出一个序列信息,内部包含复杂的注意力算法内容。采用Transformer-XL模型对工作经验编码结果进行信息提取,其会输出每一句工作经验所有主题词以及该主题词在文本中的位置。同样采用Transformer-XL模型对工作经验编码结果进行信息提取,其会输出每一句工作经验所有句子的主旨要义向量。在本实施例中,并未对Transformer-XL模型进行优化调整,应用方法以及处理过程均为成熟的现有技术,或为本领域技术人员容易想到的,因此不在此进行赘述。
S03、根据主题词以及主旨要义向量得到匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数。
具体地,衡量具体工作要求与简历工作经验等长文本内容、其他工作要求项目与简历其他项目的短文本内容(例如性别、年龄等)之间的相关性。通过注意力公式:
Figure BDA0002599832330000061
其中,z代表参数矩阵,tanh是激活函数,Wj代表候选简历特征j的权重矩阵,Wp代表当前招聘要求特征p的权重矩阵,b为偏置矩阵,
Figure BDA0002599832330000062
代表相关性。
计算得到结果可衡量两个句子之间相关性或匹配度。然后将步骤S02中得到的主题词、主旨要义向量以及计算得到的匹配相关性,输入分类器的模型中进行训练,最后输出匹配分数。实施例中,分类器的模型为多层全连接神经网络。
在一些实施例中,根据主题词以及主旨要义向量得到匹配相关性这一步骤,其还包括步骤S031、生成主旨要义向量的均值,根据均值对主题词进行加权运算,根据加权运算的结果,得到主旨要义向量和主题词的匹配相关性。
具体地,通过Transformer-XL模型输出的所有长文本的主旨要义向量,生成一个主旨要义平均值。然后根据这个平均值对每个主题词进行注意力运算。例如,在筛选简历中的工作经验都所陈述的主旨是什么,然后实施例选择和主旨最接近意思、最关键的那些主题词进行加权,加权的过程即为筛选更为重要、重点关注的主题词。另外,用同样的方法步骤对招聘要求等短文本内容进行一样的处理。
除此之外,在一些其他的实施例中基于主题词和语句主旨的自动匹配方法还包括步骤S04-S05:
S04、获取第一预测模型输出的历史匹配分数,根据历史匹配分数对第一预测模型提取的第一文本的特征进行存储,得到记忆特征;
S05、根据记忆特征通过第二预测模型生成预测结果,根据匹配分数以及预测结果对第一文本的内容进行匹配;
具体地,基于步骤S03输出的预测结果,还设置一个有动态简历记忆决策网络(Dynamic resume memory DNN decision network)。该网络输入的是简历经过BERT编码输出的长句子特征和其他项目(短语)的特征和历史最优或最差特征,模型存储了两种情况,例如,预测输出值为95%可能性为匹配,而事实上就是匹配正确的简历;预测值是40%为匹配,而事实上确实并不匹配。如图2所示,记忆简历特征代表的是默认记忆数量为2的时候,上两次模型运行得到正确的预测,并将该过程提取的简历的特征进行存储,存储包括长文本特征和其他项目等短文本的特征。
实施例在根据记忆特征通过第二预测模型生成预测结果这一步骤中,具体包括步骤S051-S052:
S051、读取记忆特征,并获取当前待预测第一文本的特征;
S052、根据记忆特征以及当前待预测第一文本的特征通过第二预测模型生成预测结果。
具体地,模型单独接受当前候选简历和记忆简历特征,通过一层卷积神经网络,通过标注化层,再通过第二层卷积神经网络,再通过dropout层,进行0.5概率随机激活,最后输入sigmoid层进行分数预测,生成步骤的预测结果。sigmoid层隐含有一个全连接神经网络。此模块目的就是加强对已做出选择的考虑,即往后看过往招聘情况。此方法从实际生产当中思考得出,大大增加推荐准确性。
第二方面,本发明的技术方案还提供基于主题词和语句主旨的自动匹配系统,包括文本获取单元、文本编码单元以及深度学习单元;其中:
文本获取单元,用于获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;第一文本包括待筛选文本和目标文本;第二文本包括长文本和短文本;
文本编码单元,用于根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
深度学习单元,用于根据主题词以及主旨要义向量得到匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数。
第三方面,如图3所示,本发明实施例还提供基于主题词和语句主旨的自动匹配的硬件系统,其包括至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器实现如第一方面中的基于主题词和语句主旨的自动匹配方法。
本发明实施例还提供了一种存储介质内存储有程序,程序被处理器执行如第一方面中的方法。
从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:
1.本发明提供的基于主题词和语句主旨的自动匹配方法,使用BERT预训练模型作为信息编码器,这一点使得前期工作大大减少,无需采用大量数据去准备一个语义模型。只需要关注如何进行信息提取和匹配。在生产应用上更为可行,需要的数据量更少,能更快速搭建。
2.本发明提供的基于主题词和语句主旨的自动匹配方法,基于句子来设计,匹配也是句子级别的主旨信息,模型计算量少。
3.本发明提供的基于主题词和语句主旨的自动匹配方法,能输出重点主题词,可解析性更好。
4.本发明提供的基于主题词和语句主旨的自动匹配方法具有更强的记忆性,推荐结果更具用户个性化。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
其中,功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.基于主题词和语句主旨的自动匹配方法,其特征在于,包括以下步骤:
获取第一文本,从所述第一文本中提取得到第二文本;切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;所述第一文本包括待筛选文本和目标文本;
所述第二文本包括长文本和短文本;
根据所述编码后的序列信息对所述第一文本进行bert编码,对完成bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
根据所述主题词以及所述主旨要义向量得到匹配相关性;根据所述主题词、所述主旨要义向量以及所述匹配相关性训练第一预测模型,并得到所述待筛选文本和所述目标文本的匹配分数;
获取所述第一预测模型输出的历史匹配分数,根据所述历史匹配分数对所述第一预测模型提取的所述第一文本的特征进行存储,得到记忆特征;
根据所述记忆特征通过第二预测模型生成预测结果,根据所述匹配分数以及所述预测结果对所述第一文本的内容进行匹配;
所述第一预测模型通过注意力公式计算得到所述匹配分数,所述注意力公式如下:
Figure FDA0003609654590000011
其中,
Figure FDA0003609654590000012
表示相关性,z表示参数矩阵,tanh为激活函数,Wj代表候选简历特征j的权重矩阵,Wp代表当前招聘要求特征p的权重矩阵,b为偏置矩阵。
2.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述从所述第一文本中提取得到第二文本这一步骤,其具体为:
对所述第一文本进行数据清洗,删除空行符号、连续空格以及敏感词汇,输出得到第二文本。
3.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其具体包括:
创建字表,根据所述字表对所述第二文本进行切分,并对切分得到的文字进行编码,得到编码后的序列信息;
当所述第二文本中存在所述字表中未收录的文字;将所述文字设置为默认编码,并使得编码得到的所述编码后的序列信息与所述第二文本的长度一致。
4.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述根据所述主题词以及所述主旨要义向量得到匹配相关性这一步骤,其具体包括:
生成所述主旨要义向量的均值,根据所述均值对所述主题词进行加权运算,根据所述加权运算的结果,得到所述主旨要义向量和所述主题词的匹配相关性。
5.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述根据所述记忆特征通过第二预测模型生成预测结果这一步骤,其具体包括:
读取所述记忆特征,并获取当前待预测第一文本的特征;
根据所述记忆特征以及所述当前待预测第一文本的特征,通过第二预测模型生成预测结果。
6.根据权利要求1-5任一项所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其还包括以下步骤:
将若干所述短文本进行整合得到长文本,并对所述长文本进行编码,得到编码后的序列信息。
7.基于主题词和语句主旨的自动匹配系统,其特征在于,包括文本获取单元、文本编码单元以及深度学习单元;其中:
所述文本获取单元,用于获取第一文本,从所述第一文本中提取得到第二文本;切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;所述第一文本包括待筛选文本和目标文本;所述第二文本包括长文本和短文本;
所述文本编码单元,用于根据所述编码后的序列信息对所述第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
所述深度学习单元,用于根据所述主题词以及所述主旨要义向量得到匹配相关性;根据所述主题词、所述主旨要义向量以及所述匹配相关性训练第一预测模型,并得到所述待筛选文本和所述目标文本的匹配分数;并还用于获取所述第一预测模型输出的历史匹配分数,根据所述历史匹配分数对所述第一预测模型提取的所述第一文本的特征进行存储,得到记忆特征;
根据所述记忆特征通过第二预测模型生成预测结果,根据所述匹配分数以及所述预测结果对所述第一文本的内容进行匹配;
所述第一预测模型通过注意力公式计算得到所述匹配分数,所述注意力公式如下:
Figure FDA0003609654590000021
其中,
Figure FDA0003609654590000022
表示相关性,z表示参数矩阵,tanh为激活函数,Wj代表候选简历特征j的权重矩阵,Wp代表当前招聘要求特征p的权重矩阵,b为偏置矩阵。
8.基于主题词和语句主旨的自动匹配系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述的基于主题词和语句主旨的自动匹配方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-6中任一项所述的基于主题词和语句主旨的自动匹配方法。
CN202010720583.0A 2020-07-24 2020-07-24 基于主题词和语句主旨的自动匹配方法、系统及存储介质 Active CN111881257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010720583.0A CN111881257B (zh) 2020-07-24 2020-07-24 基于主题词和语句主旨的自动匹配方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010720583.0A CN111881257B (zh) 2020-07-24 2020-07-24 基于主题词和语句主旨的自动匹配方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111881257A CN111881257A (zh) 2020-11-03
CN111881257B true CN111881257B (zh) 2022-06-03

Family

ID=73200235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010720583.0A Active CN111881257B (zh) 2020-07-24 2020-07-24 基于主题词和语句主旨的自动匹配方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111881257B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544213B (zh) * 2022-11-28 2023-03-10 上海朝阳永续信息技术股份有限公司 获取文本中的信息的方法、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109815336A (zh) * 2019-01-28 2019-05-28 无码科技(杭州)有限公司 一种文本聚合方法及系统
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110413785A (zh) * 2019-07-25 2019-11-05 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN111241828A (zh) * 2020-01-10 2020-06-05 平安科技(深圳)有限公司 情感智能识别方法、装置及计算机可读存储介质
CN111368038A (zh) * 2020-03-09 2020-07-03 广州市百果园信息技术有限公司 一种关键词的提取方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003256456A1 (en) * 2002-07-03 2004-01-23 Word Data Corp. Text-representation, text-matching and text-classification code, system and method
US20200159863A1 (en) * 2018-11-20 2020-05-21 Sap Se Memory networks for fine-grain opinion mining
CN109670029B (zh) * 2018-12-28 2021-09-07 百度在线网络技术(北京)有限公司 用于确定问题答案的方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109815336A (zh) * 2019-01-28 2019-05-28 无码科技(杭州)有限公司 一种文本聚合方法及系统
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110413785A (zh) * 2019-07-25 2019-11-05 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN111241828A (zh) * 2020-01-10 2020-06-05 平安科技(深圳)有限公司 情感智能识别方法、装置及计算机可读存储介质
CN111368038A (zh) * 2020-03-09 2020-07-03 广州市百果园信息技术有限公司 一种关键词的提取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
知识图谱构建技术综述;刘峤;《计算机研究与发展》;20160315;582-596 *

Also Published As

Publication number Publication date
CN111881257A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN113254610B (zh) 面向专利咨询的多轮对话生成方法
CN114118065B (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
Shanmugavadivel et al. An analysis of machine learning models for sentiment analysis of Tamil code-mixed data
CN108256066B (zh) 端到端层次解码任务型对话系统
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN116737938A (zh) 基于微调大模型在线数据网络细粒度情感检测方法及装置
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN113033182A (zh) 文本创作的辅助方法、装置及服务器
CN116932762A (zh) 一种小样本金融文本分类方法、系统、介质和设备
CN113111190A (zh) 一种知识驱动的对话生成方法及装置
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN111881257B (zh) 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN114529917A (zh) 一种零样本中文单字识别方法、系统、装置及存储介质
US11941360B2 (en) Acronym definition network
CN117436522A (zh) 生物事件关系抽取方法及癌症主题的大规模生物事件关系知识库构建方法
CN117453917A (zh) 模型训练方法、装置、存储介质及电子设备
CN117316140A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116795970A (zh) 一种对话生成方法及其在情感陪护中的应用
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240808

Address after: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Tongsheng Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Patentee after: Shenzhen Wanzhida Enterprise Management Co.,Ltd.

Country or region after: China

Address before: 510006 No. 230 West Ring Road, University of Guangdong, Guangzhou

Patentee before: Guangzhou University

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240809

Address after: 518000 E-1, 7th Floor, Building A, Jinfeng Building, No. 1001 and 1005 Shangbu South Road, Binjiang Community, Nanyuan Street, Futian District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Jinzong Talent Network Service Co.,Ltd.

Country or region after: China

Address before: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Tongsheng Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Patentee before: Shenzhen Wanzhida Enterprise Management Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right