CN112016296A - 句子向量生成方法、装置、设备及存储介质 - Google Patents

句子向量生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112016296A
CN112016296A CN202010928806.2A CN202010928806A CN112016296A CN 112016296 A CN112016296 A CN 112016296A CN 202010928806 A CN202010928806 A CN 202010928806A CN 112016296 A CN112016296 A CN 112016296A
Authority
CN
China
Prior art keywords
sentence
keywords
participle
processed
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010928806.2A
Other languages
English (en)
Other versions
CN112016296B (zh
Inventor
谢静文
阮晓雯
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010928806.2A priority Critical patent/CN112016296B/zh
Priority to PCT/CN2020/124222 priority patent/WO2021164302A1/zh
Publication of CN112016296A publication Critical patent/CN112016296A/zh
Application granted granted Critical
Publication of CN112016296B publication Critical patent/CN112016296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于人工智能技术领域,具体可应用于自然语言处理技术应用领域,公开了一种基于关键词的句子向量生成方法、装置、设备及存储介质,以更好地或更有侧重点地表达句子与其他句子的区别,得到的句子向量价值更高。方法部分包括:根据所述目标主题段落确定主题关键词;根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;确定所述被处理句子的普通词;通过预设方式获取所述主题关键词、句间关键词和普通词的权重;根据所述权重生成所述被处理句子的注意力权重矩阵;根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。

Description

句子向量生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,可应用于语义解析、语音处理等自然语言处理应用领域,尤其涉及一种句子向量生成方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,基于自然语言处理(Natural Language Processing,NLP)的语义解析、语音处理、文本分析等应用的快速发展,自然语言处理技术及其重要。
目前NLP技术已经从特定场景下独立建模发展到试用范围更广的通用场景下,如近些年比较火爆的BERT等大型预训练语言模型,就是通过在大批量语料上进行预训练,再经过通过下游任务的数据进行参数精调。在上述应用中,大多数需用到BERT等大型预训练语言模型,BERT模型较为复杂,且对下游任务的标注语料的数据量有一定要求,为后续计算处理带来较大的计算量,另外,均是涉及到对标注语料的句子向量的处理,在场景迁移、场景差异较大的情况下,效果很难达到比较高的精度,另外,目前大多数做法是仅是简单地对句子的各分词转化向量,从而得到对应的句子向量,其能提高的句子信息较为局限,不能更好地或更有侧重点地表达句子与其他句子的区别,得到的句子向量价值并不高。
发明内容
本发明提供一种基于关键词的句子向量生成方法、装置、设备及存储介质,以解决现有技术中得到的句子向量,不能更好地或更有侧重点地表达句子与其他句子的区别,得到的句子向量价值并不高的问题。
一种基于关键词的句子向量生成方法,包括:
获取目标主题段落的被处理句子;
根据所述目标主题段落确定主题关键词;
根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
一种句子向量生成装置,包括:
获取模块,用于获取目标主题段落的被处理句子;
主题关键词确定模块,用于根据所述目标主题段落确定主题关键词;
句间关键词确定模块,用于根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
普通词确定模块,用于确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
权重确定模块,用于通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
权重矩阵生成模块,用于根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
句子向量生成模块,用于根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述句子向量生成方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述句子向量生成方法的步骤。
可见,本发明提供的一种句子向量生成方法、装置、设备及存储介质所实现的其中一个方案中,可利用主题关键词、句间关键词和普通词所反映的不同的信息,为句子配置不同的关键词权重,并用于后续生成句子向量,可以使得该句子向量具有更强地表达、且能有效地表达了区分于其他句子的关键信息,尤其值得注意的是,可以使得相同主题下句子间更具有区分度,更好地或更有侧重点地表达句子与同主题段落其他句子的区别,得到的句子向量价值更高,有利于后续地分析处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中句子向量生成方法的一个流程示意图;
图2是图1中步骤S20的一个具体实施方式流程示意图;
图3是图1中步骤S30的一个具体实施方式流程示意图;
图4图1中步骤S50的一个具体实施方式流程示意图;
图5是本发明一实施例中句子向量生成装置的一原理框图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于关键词的句子向量生成方法,可应用在涉及NLP技术的各种应用场景中,包括但不局限于:语义解析、语音处理等应用领域,例如文本分类、问答系统、对问题材料进行解析以获取候选答案等具体应用领域,具体不做限定。本发明提及的句子向量生成方法可通过句子向量生成装置实现,该句子向量生成装置可为终端设备或服务器,其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图1所示,提供一种句子向量生成方法,包括如下步骤:
S10:获取目标主题段落的被处理句子。
可以理解,在NLP自然语言处理领域中,如文本分析等领域,通常会对某段文本进行分析,在进行分析时需将对应的句子转化为向量的形式,方可进行后续的处理计算。在本方案中,对于某段待分析的段落,通常具有确定的主题类型,本申请中将该待分析的段落称为目标主题段落。在该步骤中,将构成该目标主题段落的句子称为被处理句子,需要说明的是,构成某个目标主题段落的句子通常具有多个句子,具体这里不做限定。为便于理解,下文描述中将以其中一个句子为例进行描述或说明。
S20:根据所述目标主题段落确定主题关键词。
该步骤中,在获取了目标主题段落之后,还可以根据该目标主题段落确定该目标主题段落的主题关键词。需要说明的是,该主题关键词是用于反映该目标主题段落主题的关键词,具体地确定方式本发明实施例不做限定。
S30:根据所述被处理句子的非停用词确定所述被处理句子的句间关键词。
在步骤S10中,获取了目标主题段落的被处理句子之后,可以对该被处理句子进行非停用词分析,以确定出该被处理句子的非停用词。可以理解,停用词是为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉的某些自身无意义或无用的字或词,例如“的”、“啊”、“等”等字,这些字或词即被称为停用词,非停用词与停用词相反,非停用词通常会反映出一些有意义或有用的信息。在一些实施方式中,可直接利用现有的停用词表对被处理句子进行停用词分析,以确定出被处理句子中的停用词和非停用词。
在确定出被处理句子的非停用词之后,根据所述被处理句子的非停用词确定所述被处理句子的句间关键词。值得说明的是,该句间关键词与主题关键词并不是相同的含义,该句间关键词是用于反映该被处理句子的主要关键词。很明显,该句间关键词与主题关键词所反映的侧重点有所不同,正是此不同,有助于更加准确或完整的提取被处理句子想表达的含义。
S40:确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词。
在确定出被处理句子的句间关键词和目标主题段落的主题关键词之后,便可确定出所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词。示例性的,举个简单例子,若在某一以“人才”为主题的段落中,有一被处理句子A为:“更加注重人才的培养”,经过分词处理后并去除停用词之后,剩下的非停用词为【更加注重人才培养】,经过前述关键词分析处理后,若该主题段落的主题关键词为“人才”,该被处理句子A的句间关键词为“培养”,则除去这两关键词,剩下的“更加”和“注重”便是普通词。
需要说明的是,前述例子在此仅是示例性说明,并不对本发明造成限定。在后续实施例中,将详细描述如何确定主题关键词和句间关键词的方式。
S50:通过预设方式获取所述主题关键词、句间关键词和普通词的权重。
在确定出被处理句子的主体关键词、句间关键词和普通词之后,本发明实施例会通过某种预设方式获取所述主题关键词、句间关键词和普通的词权重,其中,为了更加完整或准确地提取该被处理句子所表达的含义或信息,所述主题关键词、句间关键词和普通词的权重均不相同,所述主题关键词、句间关键词和普通词的权重依次降低,也就是说,所述主题关键词的权重大于句间关键词的权重,句间关键词的权重大于普通词的权重。
可以理解,依据本发明实施例,可以确定出目标主题段落中每个被处理句子的句间关键词和普通词,继而结合主题关键词,便可获取到目标主题断过中所有的句间关键词、普通词和主题关键词的权重。
S60:根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵。
在获取到目标主题段落中主题关键词、句间关键词和普通词的权重,便可根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵。值得说明的是,在此将包括根据所述主题关键词、句间关键词和普通词的权重的矩阵称为注意力权重矩阵,正是因为上述不同的关键词的侧重点有所不同,其需要注意力的力度需要不同,故称为注意力权重矩阵。
S70:根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
在获取到该注意力权重矩阵之后,便可根据所述注意力权重矩阵生成所述目标主题段落中各所述被处理句子对应的句子向量。从而为该目标主题段落的每个句子对应配置不同的权重,使得该目标主题段落中的每个句子,其受应该受注意的区域或位置有所区别,便于后续对该句子向量进行分析时具有更好地参考意义和价值。
可见,本发明实施例提供了一种句子向量生成方法,获取目标主题段落的被处理句子;根据所述目标主题段落确定主题关键词;根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;确定所述被处理句子的普通词,通过预设方式获取所述主题关键词、句间关键词和普通词的权重,所述主题关键词、句间关键词和普通词的权重依次降低;根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;最后根据所述注意力权重矩阵生成所述目标主题段落中各所述被处理句子对应的句子向量。可利用主题关键词、句间关键词和普通词所反映的不同的信息,为句子配置不同的关键词权重,并用于后续生成句子向量,可以使得该句子向量具有更强地表达、且能有效地表达了区分于其他句子的关键信息,尤其值得注意的是,可以使得相同主题下句子间更具有区分度,更好地或更有侧重点地表达句子与同主题段落其他句子的区别,得到的句子向量价值更高,有利于后续地分析处理。
另外值得注意的是,利用本发明实施例提供的句子向量生成方式,仅需提出主题关键词、句间关键词和普通词便可进行后续的处理,相对于需加载BERT之类的预训练语言模型,需基于大量的语料对模型进行参数的精调通常花费较长的方案相比,基于本方案实际上只需要完成关键词抽取+权重计算,理论上分钟内即可完成,具有较高的计算效率较高、模型量级较小和部署方便等特点。另外,本方案的场景可延展性也较强,在有新的应用场景或某一场景下标注语料有新增加或补充时,通过预先完成脚本自动的进行各类主题关键词、句间关键词抽取后,即可使用。可见,本发明具有较多的优点,适用性也更强。
在一实施例中,本发明提出了一种新的确定目标主题段落的主题关键词的方式,如图2所示,步骤S20中,即所述根据所述目标主题段落确定主题关键词,具体包括如下步骤:
S21:对所述目标主题段落进行分词处理,并剔除所述目标主题段落中的停用词,得到所述目标主题段落对应的各个分词。
S22:分别确定所述各个分词在所有分词中出现的次数。
对于步骤S21-S22,在确定目标主题段落的主题关键词时,先对目标主题段落进行分词处理,并剔除所述目标主题段落中的停用词,得到所述目标主题段落对应的各个分词。其中,具体地分词手段在此不做限制,例如可采用正向最大匹配法、逆向最大匹配法等基于词典的方法,抑或是采用基于N-gram分词模型的分词方式。在分出各个分词并剔除停用词之后,可得到目标主题段落对应的各个分词,有即,这里所讲的各个分词是不包含停用词的分词。在得到目标主题段落对应的各个分词之后,分别确定各个分词在所有分词中出现的次数。这里的所有分词是指该目标主题段落经过分词处理后得到的所有分词。
例如对于某篇主题段落,若分词处理后,分词“人才”出现了10次,分词“培养”出现了5次,则确定该分词“人才”出现的次数则为10,该分词“培养”出现的次数为5。
S23:根据所述各个分词在所有分词中出现的次数对应获取所述各个分词的词频。
在确定所述各个分词在所有分词中出现的次数之后,本发明实施例可根据所述各个分词在所有分词中出现的次数对应获取所述各个分词的词频。可以理解的是,某个分词A在所有分词中出现的次数是反映了该分词A在所有分词中的占比,因此,可根据分词在所有分词中出现的次数确定该分词对应的词频,词频是用于反映分词在所有分词中的占比关系。
其中,本发明实施例提供了多种根据所述各个分词在所有分词中出现的次数对应获取所述各个分词的词频的方式,具体地,包括如下几种方案。
第一种,将所述各个分词在所有分词中出现的次数对应作为所述各个分词的词频。该实施方式较为简单,直接将该分词在所有分词中出现的次数作为分词的词频,在一定程度上可减少计算工作量,减少计算负担。其计算公式可如下所示:词频(T)=分词在所有分词中出现的次数(S)。例如,若某一分词在所有分词出现的次数为5,则该分词的词频即为5。
第二种,将所述各个分词在所有分词中出现的次数与目标词数的商对应作为所述各个分词的词频,所述目标词数为所述所有分词的总词数。其中,值得注意的是,该所有分词的总词数是指对目标主题段落分词处理后,得到的各个分词的总词数,其中包括相同的分词,例如,分词处理得到3个“人才”,则计算总词数时该分词“人才”应当算3,而不是算1。可以看出,在该实施方式中,提出了另外一种计算词频的方式,提高了方案的可实施性,其计算公式可如下所示:
Figure BDA0002669418790000101
例如,若某一分词在所有分词出现的次数为5,而所有分词的总词数是20,则该分词的词频即为0.25。
第三种,将所述各个分词在所有分词中出现的次数与目标次数的商对应作为所述各个分词的词频,所述目标次数为所述所有分词中,出现次数最多的分词的出现次数。其中,值得注意的是,该目标次数是指对目标主题段落分词处理后,得到的出现次数做多的分词的总次数,例如,分词处理得到分词“人才”出现的次数最多,则目标次数为该分词“人才”出现的次数,可以看出,在该实施方式中,提出了另外一种计算词频的方式,进一步地提高了方案的可实施性,其计算公式可如下所示:
Figure BDA0002669418790000102
例如,若某一分词在所有分词出现的次数为5,而目标次数是30,则该分词的词频约等于0.167。
S24:根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数,其中,所述其他主题段落与所述目标主题段落为不同的主题段落,所述逆文档参数用于表征分词在所有主题段落中的权重。
本发明实施例中,在确定目标主题段落的主题关键词时,还会进一步根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数。其中,所述其他主题段落与所述目标主题段落为不同的主题段落,所述逆文档参数用于表征分词在所有主题段落中的权重。举个简单例子,若目标主题段落是以“人才”为主题的主题段落,则其他主题段落则是以“科技”、“教育”、“医疗”等与“人才”主题不同主题类型的主题段落。这里需强调的是,在获取其他主题段落时,可根据常用的主题分析技术确定出其他主题段落,在此不进行赘述。
某个分词的逆文档参数,是用于表征该分词在所有主题段落中的权重。其中,为了提高本方案的可实施性,本发明实施例提出了确定分词的逆文档参数的具体方式,具体地,可分别通过如下方式计算获取所述各个分词对应的逆文档参数:
Figure BDA0002669418790000111
其中,所述topicdiff表示目标分词对应的逆文档参数,N表示所述其他主题段落和所述目标主题段落的总数,L表示包含所述目标分词的主题段落的数量,所述目标分词表示所述各个分词中的分词。
可见,经过上述计算公式,便可计算出各个分词对应的逆文档参数。举个简单例子,若其他主题段落和目标主题段落的总数为50,也即有50个不同主题的主题段落,其中包含目标分词的主题段落是10,则该目标分词的逆文档参数
Figure BDA0002669418790000121
S25:计算所述各个分词对应的词频和逆文档参数的乘积作为所述各个分词的关键词数值。
S26:依次选取所述关键词数值的大小排前M位的分词作为所述主题关键词。
对于步骤S25-S26,在得到各个分词对应的词频(T)和逆文档参数topicdiff之后,便分词对应的词频(T)和逆文档参数topicdiff的乘积作为该分词对应的关键词数值。并且选取依次选取所述关键词数值的大小排前M位的分词作为所述主题关键词。例如,选取关键词数值在前20的分词作为该目标主题段落的主体关键词。
可见,在该实施例中,提出一种全新的确定主题段落的主题关键词的方式,提高了方案的可实施性。且本发明依据用于反映分词在所有分词中的占比关系的词频,以及用于表征该分词在所有主题段落中的权重的逆文档参数进行确定主题,可有效地筛选出合适的主题关键词,可有效地区别于其他主题段落,提高了该主题关键词的参考价值,提高了后续处理结果的精确性。
在一实施例中,提出了一种新的确定被处理句子的句间关键词的方式,如图3所示,步骤S30中,即所述根据所述被处理句子的非停用词确定所述被处理句子的句间关键词,具体包括如下步骤:
S31:计算所述被处理句子的非停用词在所述目标主题段落中出现的频率。
S32:确定所述被处理句子的非停用词在所述目标主题段落中出现的频率是否小于预设频率。
S33:若所述被处理句子的非停用词在所述目标主题段落中出现的频率小于预设频率,则将频率小于预设频率的所述被处理句子的非停用词作为所述被处理句子的句间关键词。
对于步骤S31-S33,在确定目标主题段落的某一被处理句子的句间关键词时,先计算被处理句子的非停用词在目标主题段落中出现的频率。可以理解,在确定主题关键词的时候已经对被处理句子进行分词处理,此处可直接根据分词结果确定出被处理句子的非停用词,并继续判断非停用词在目标主题段落中出现的频率。并确定所述被处理句子的非停用词在所述目标主题段落中出现的频率是否小于预设频率,例如,确定所述被处理句子的非停用词在所述目标主题段落中出现的频率是否小于5%,若是,将频率小于5%的被处理句子的非停用词作为被处理句子的句间关键词。
值得说明的是,上述预设频率在此仅为示例性说明,并不对本发明造成限定。另外值得注意的是,在目标主题段落的主题关键词确定之后,该主题关键词有时并不是很好地覆盖该目标主题段落下某一句子的关键信息,比如教育对应的段落中,“人才”是该段落的主题关键词,但诸如“培养人才”、“储备人才”等句子,虽然都包含了主题关键词,但语义仍有区别,但此时的主题关键词并不是很好地反映句子的关键信息。因此,本发明中,还需根据句中每一个非停用词,计算其在同主题其他句子中的出现频率,若出现频率小于预设频率,则可以视为该句中的句间关键词。
另外需要说明的是,若所述被处理句子的非停用词在所述目标主题段落中出现的频率均大于或等于预设频率,则直接将该被处理句子对应的目标主题段落的主题关键词作为该被处理句子的句间关键词。
在一实施例中,如图4所示,步骤S50中,也即通过预设方式获取所述主题关键词、句间关键词和普通词的权重,具体包括如下步骤:
S51:确定用于配置关键词权重的反函数和权重数值分布关系。
S52:根据所述权重数值分布关系限制所述反函数的权重输出区间。
在前述实施例中,虽然限制了主题关键词、句间关键词和普通词的权重依次降低,但仍需一个准确并可执行的方案。在本实施例中,会确定用于配置关键词权重的反函数和权重分布关系。其中,反函数是一个用于输入频率并输出该频率相应的权重的关系式,并确定权重数值分布关系,该权重数值分布关系是指为上述不同的关键词分配不同的具体权重区间,便于限制该反函数输出的数值。示例性地,本发明实施例可以通过拟合一个指数分布作为反函数,并限制取至某个区间的权重均匀分布,其中,主题关键词、句间关键词和普通词占用不同的数值区间。
例如,普通词的权重小于1,可以理解的是,本案中将分词划分为了3类,普通词不作特殊处理,主题关键词的权重在1-1.5之间平均分布,若是某个主题段落下的主题关键词值分布在1.1-4之间,则需要利用反函数映射到1-1.5这个分布区间中,而又由于需要进行拟合的只有句间关键词的权重,由于句间关键词的权重需要高于主题关键词,同时为了体现对句子语义影响差异,通过拟合一个指数函数来确定句间关键词的权重,该指数函数需要满足最小的句间关键词的值需大于1.5。对于目标主题段落的其他被处理句子,均可通过本发明实施例提供的方式来确定其权重,从而为每一个不同的分词生成相应的权重。
因此,在确定用于配置关键词权重的反函数和权重数值分布关系,便可根据所述权重分布关系限制所述反函数的权重输出区间。
S53:将所述主题关键词、句间关键词和普通词对应的逆文档参数分别输入所述反函数,以通过所述反函数对应输出所述主题关键词、句间关键词和普通词的权重。
在得到反函数以及所述权重数值分布关系,便可将所述主题关键词、句间关键词和普通词对应的逆文档参数分别输入所述反函数,以通过所述反函数对应输出所述主题关键词、句间关键词和普通词的权重。
在一实施例中,步骤S70中,也即所述根据所述注意力权重矩阵生成所述被处理句子对应的句子向量,包括如下步骤:
S71:获取所述被处理句子的分词的表征向量。
S72:将所述被处理句子的分词的表征向量与所述注意力权重矩阵中对应的权重相乘,并将经过所述相乘的所述被处理句子的分词的表征向量进行叠加,以获取所述被处理句子对应的句子向量。
对于步骤S71-S72,可以理解,在经过前述步骤处理之后,可以得该目标主题段落中每个被处理句子对应的注意力权重矩阵,因此,在根据所述注意力权重矩阵生成被处理句子对应的句子向量时,可先获取所述被处理句子的分词的表征向量,再将所述被处理句子的分词的表征向量与所述注意力权重矩阵中对应的权重相乘,并将经过所述相乘的各所述被处理句子的分词的表征向量进行叠加,以获取各所述被处理句子对应的句子向量。
举个简单例子,以目标主题段落的被处理句子:“更加注重人才的培养”,为例,对该句子分词并去停用词处理后,变为[更加注重人才培养],其中更加、注重在句中为普通词,权重为1,人才为主题关键词,权重为1.2,培养为句关键词,权重为2.3,设100维的各个词表征向量分别为:
更加a[a1,a2……a100];
注重b[b1,b2……b100];
人才c[c1,c2……c100];
培养d[d1,d2……d100];
那么,该被处理句子生成的对应的句子向量为:1*a+1*b+1.2*c+2.3*d的100维向量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于关键词的句子向量生成装置,该句子向量生成装置与上述实施例中基于关键词的句子向量生成方法一一对应。如图5所示,该句子向量生成装置包括获取模块101、主题关键词确定模块102、句间关键词确定模块103、普通词确定模块104、权重确定模块105、权重矩阵生成模块106和句子向量生成模块107。各功能模块详细说明如下:
获取模块101,用于获取目标主题段落的被处理句子;
主题关键词确定模块102,用于根据所述目标主题段落确定主题关键词;
句间关键词确定模块103,用于根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
普通词确定模块104,用于确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
权重确定模块105,用于通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
权重矩阵生成模块106,用于根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
句子向量生成模块107,用于根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
在一实施例中,主题关键词确定模块102具体用于:
对所述目标主题段落进行分词处理,并剔除所述目标主题段落中的停用词,得到所述目标主题段落对应的各个分词;
分别确定所述各个分词在所有分词中出现的次数;
根据所述各个分词在所有分词中出现的次数对应获取所述各个分词的词频;
根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数,其中,所述其他主题段落与所述目标主题段落为不同的主题段落,所述逆文档参数用于表征分词在所有主题段落中的权重;
计算所述各个分词对应的词频和逆文档参数的乘积作为所述各个分词的关键词数值;
依次选取所述关键词数值的大小排前M位的分词作为所述主题关键词。
在一实施方式中,主题关键词确定模块102具体用于:
将所述各个分词在所有分词中出现的次数对应作为所述各个分词的词频;
或;
将所述各个分词在所有分词中出现的次数与目标词数的商对应作为所述各个分词的词频,所述目标词数为所述所有分词的总词数;
或;
将所述各个分词在所有分词中出现的次数与目标次数的商对应作为所述各个分词的词频,所述目标次数为所述所有分词中,出现次数最多的分词的出现次数。
在一实施方式中,主题关键词确定模块102具体用于:
分别通过如下方式计算获取所述各个分词对应的逆文档参数:
Figure BDA0002669418790000181
其中,所述topicdiff表示目标分词对应的逆文档参数,N表示所述其他主题段落和所述目标主题段落的总数,L表示包含所述目标分词的主题段落的数量,所述目标分词表示所述各个分词中的分词。
在一实施方式中,句间关键词确定模块103具体用于:
计算所述被处理句子的非停用词在所述目标主题段落中出现的频率;
确定所述被处理句子的非停用词在所述目标主题段落中出现的频率是否小于预设频率;
若所述被处理句子的非停用词在所述目标主题段落中出现的频率小于预设频率,则将频率小于预设频率的所述被处理句子的非停用词作为所述被处理句子的句间关键词。
在一实施方式中,权重确定模块105具体用于:
确定用于配置关键词权重的反函数和权重数值分布关系;
根据所述权重分布关系限制所述反函数的权重输出区间;
将所述主题关键词、句间关键词和普通词对应的逆文档参数分别输入所述反函数,以通过所述反函数对应输出所述主题关键词、句间关键词和普通词的权重。
在一实施方式中,句子向量生成模块107具体用于:
获取所述被处理句子的分词的表征向量;
将所述被处理句子的分词的表征向量与所述注意力权重矩阵中对应的权重相乘,并将经过所述相乘的各所述被处理句子的分词的表征向量进行叠加,以获取各所述被处理句子对应的句子向量。
关于句子向量生成装置的具体限定可以参见上文中对于句子向量生成方法的限定,在此不再赘述。上述句子向量生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括易失去和非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储获取的主题段落相关信息。该计算机设备的网络接口用于与外部的服务器或设备通过网络连接通信。该计算机程序被处理器执行时以实现一种句子向量生成方法或句子向量生成装置的功能。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标主题段落的被处理句子;
根据所述目标主题段落确定主题关键词;
根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标主题段落的被处理句子;
根据所述目标主题段落确定主题关键词;
根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于关键词的句子向量生成方法,其特征在于,包括:
获取目标主题段落的被处理句子;
根据所述目标主题段落确定主题关键词;
根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
2.如权利要求1所述的句子向量生成方法,其特征在于,所述根据所述目标主题段落确定主题关键词,包括:
对所述目标主题段落进行分词处理,并剔除所述目标主题段落中的停用词,得到所述目标主题段落对应的各个分词;
分别确定所述各个分词在所有分词中出现的次数;
根据所述各个分词在所有分词中出现的次数对应获取所述各个分词的词频;
根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数,其中,所述其他主题段落与所述目标主题段落为不同的主题段落,所述逆文档参数用于表征分词在所有主题段落中的权重;
计算所述各个分词对应的词频和逆文档参数的乘积作为所述各个分词的关键词数值;
依次选取所述关键词数值的大小排前M位的分词作为所述主题关键词。
3.如权利要求2所述的句子向量生成方法,其特征在于,所述根据所述各个分词在所有分词中出现的次数对应获取各个分词的词频,包括:
将所述各个分词在所有分词中出现的次数对应作为所述各个分词的词频;
或;
将所述各个分词在所有分词中出现的次数与目标词数的商对应作为所述各个分词的词频,所述目标词数为所述所有分词的总词数;
或;
将所述各个分词在所有分词中出现的次数与目标次数的商对应作为所述各个分词的词频,所述目标次数为所述所有分词中,出现次数最多的分词的出现次数。
4.如权利要求2所述的句子向量生成方法,其特征在于,所述根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数,包括:
分别通过如下方式计算获取所述各个分词对应的逆文档参数:
Figure FDA0002669418780000021
其中,所述topicdiff表示目标分词对应的逆文档参数,N表示所述其他主题段落和所述目标主题段落的总数,L表示包含所述目标分词的主题段落的数量,所述目标分词表示所述各个分词中的分词。
5.如权利要求1-4任一项所述的句子向量生成方法,其特征在于,所述根据所述被处理句子的非停用词确定所述被处理句子的句间关键词,包括:
计算所述被处理句子的非停用词在所述目标主题段落中出现的频率;
确定所述被处理句子的非停用词在所述目标主题段落中出现的频率是否小于预设频率;
若所述被处理句子的非停用词在所述目标主题段落中出现的频率小于预设频率,则将频率小于预设频率的所述被处理句子的非停用词作为所述被处理句子的句间关键词。
6.如权利要求2-4任一项所述的句子向量生成方法,其特征在于,所述通过预设方式获取所述目标主题关键词、目标句间关键词和普通词的权重,包括:
确定用于配置关键词权重的反函数和权重数值分布关系;
根据所述权重分布关系限制所述反函数的权重输出区间;
将所述主题关键词、句间关键词和普通词对应的逆文档参数分别输入所述反函数,以通过所述反函数对应输出所述主题关键词、句间关键词和普通词的权重。
7.如权利要求1-4任一项所述的句子向量生成方法,其特征在于,所述根据所述注意力权重矩阵生成所述被处理句子对应的句子向量,包括:
获取所述被处理句子的分词的表征向量;
将所述被处理句子的分词的表征向量与所述注意力权重矩阵中对应的权重相乘,并将经过所述相乘的各所述被处理句子的分词的表征向量进行叠加,以获取所述被处理句子对应的句子向量。
8.一种基于关键词的句子向量生成装置,其特征在于,
获取模块,用于获取目标主题段落的被处理句子;
主题关键词确定模块,用于根据所述目标主题段落确定主题关键词;
句间关键词确定模块,用于根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;
普通词确定模块,用于确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;
权重确定模块,用于通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;
权重矩阵生成模块,用于根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;
句子向量生成模块,用于根据所述注意力权重矩阵生成所述被处理句子对应的句子向量。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项句子向量生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项句子向量生成方法的步骤。
CN202010928806.2A 2020-09-07 2020-09-07 句子向量生成方法、装置、设备及存储介质 Active CN112016296B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010928806.2A CN112016296B (zh) 2020-09-07 2020-09-07 句子向量生成方法、装置、设备及存储介质
PCT/CN2020/124222 WO2021164302A1 (zh) 2020-09-07 2020-10-28 句子向量生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010928806.2A CN112016296B (zh) 2020-09-07 2020-09-07 句子向量生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112016296A true CN112016296A (zh) 2020-12-01
CN112016296B CN112016296B (zh) 2023-08-25

Family

ID=73516952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010928806.2A Active CN112016296B (zh) 2020-09-07 2020-09-07 句子向量生成方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112016296B (zh)
WO (1) WO2021164302A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254616A (zh) * 2021-06-07 2021-08-13 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113743112A (zh) * 2021-08-24 2021-12-03 北京百度网讯科技有限公司 关键词的提取方法、装置、电子设备及可读存储介质
WO2023071115A1 (zh) * 2021-10-26 2023-05-04 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN109492222A (zh) * 2018-10-31 2019-03-19 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN111125348A (zh) * 2019-11-25 2020-05-08 北京明略软件系统有限公司 一种文本摘要的提取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628974B (zh) * 2018-04-25 2023-04-18 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
US10929614B2 (en) * 2019-01-03 2021-02-23 International Business Machines Corporation Automated contextual dialog generation for cognitive conversation
CN109960804B (zh) * 2019-03-21 2023-05-02 江西风向标教育科技有限公司 一种题目文本句子向量生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109492222A (zh) * 2018-10-31 2019-03-19 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN111125348A (zh) * 2019-11-25 2020-05-08 北京明略软件系统有限公司 一种文本摘要的提取方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254616A (zh) * 2021-06-07 2021-08-13 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113254616B (zh) * 2021-06-07 2021-10-19 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113743112A (zh) * 2021-08-24 2021-12-03 北京百度网讯科技有限公司 关键词的提取方法、装置、电子设备及可读存储介质
CN113743112B (zh) * 2021-08-24 2023-09-12 北京百度网讯科技有限公司 关键词的提取方法、装置、电子设备及可读存储介质
WO2023071115A1 (zh) * 2021-10-26 2023-05-04 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2021164302A1 (zh) 2021-08-26
CN112016296B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112016296B (zh) 句子向量生成方法、装置、设备及存储介质
CN111859986A (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
US20230076658A1 (en) Method, apparatus, computer device and storage medium for decoding speech data
CN117194637B (zh) 基于大语言模型的多层级可视化评估报告生成方法、装置
CN113239176B (zh) 语义匹配模型训练方法、装置、设备及存储介质
CN110019304A (zh) 扩展问答知识库的方法及存储介质、终端
CN110019305A (zh) 知识库扩展方法及存储介质、终端
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
CN112699675B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN104021117A (zh) 语言处理方法与电子设备
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN112287667A (zh) 一种文本生成方法及设备
CN110309513B (zh) 一种文本依存分析的方法和装置
CN116738956A (zh) 一种提示模板生成方法、装置、计算机设备及存储介质
CN111831805A (zh) 一种模型创建方法、装置、电子设备和可读存储装置
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN109934347A (zh) 扩展问答知识库的装置
CN111368061A (zh) 短文本过滤方法、装置、介质及计算机设备
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
CN113869057A (zh) 文本数据增强方法、系统和计算机设备和存储介质
CN114942980B (zh) 一种确定文本匹配方法及装置
CN111666770A (zh) 一种语义匹配方法及装置
CN111126066A (zh) 基于神经网络的中文修辞手法的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040151

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant