CN110008474B - 一种关键短语确定方法、装置、设备及存储介质 - Google Patents
一种关键短语确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110008474B CN110008474B CN201910270447.3A CN201910270447A CN110008474B CN 110008474 B CN110008474 B CN 110008474B CN 201910270447 A CN201910270447 A CN 201910270447A CN 110008474 B CN110008474 B CN 110008474B
- Authority
- CN
- China
- Prior art keywords
- key phrase
- key
- matched
- phrase
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种关键短语确定方法、装置、设备及存储介质,其中,该关键短语确定方法包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语,并且可以提高选出的关键短语的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,更具体的说,尤其涉及一种关键短语确定方法、装置、设备及存储介质。
背景技术
关键短语,是指能够表示文本或文本集合的主题的词或短语。确定文本或文本集合的关键短语,是文本检索、文本挖掘等文本处理的基础性和必要性工作。
近年来,随着移动互联网技术和人工智能技术的发展,人们越发渴望能让机器自动确定出文本的关键短语,从而实现减少确定文本关键短语的人工投入、节省劳动力的目的。
发明内容
基于上述的技术需求,本申请提出一种关键短语确定方法、装置、设备及存储介质,可以实现自动确定文本的关键短语。该技术方案具体如下:
一种关键短语确定方法,包括:
通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;
分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;
根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。
可选的,所述通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,包括:
对目标文本进行分词处理,得到文本词串;
从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。
可选的,分别获取每个匹配关键短语的语义向量,包括:
从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;
根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
其中,所述从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句,包括:
从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。
其中,所述根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量,包括:
对应于每个匹配关键短语,分别执行以下操作:
计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。
可选的,所述预设的关键短语集合的构建过程,包括:
对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;
对所述分词集合中的分词进行聚类处理,得到多个分词子集合;
根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语;
利用所述各个分词子集合的关键短语构建得到关键短语集合。
一种关键短语确定装置,包括:
短语选取单元,用于通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;
向量获取单元,用于分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;
短语确定单元,用于根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。
可选的,所述短语选取单元,包括:
分词处理单元,用于对目标文本进行分词处理,得到文本词串;
短语筛选单元,用于从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。
可选的,所述向量获取单元包括:
语句筛选单元,用于从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;
向量计算单元,用于根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
其中,所述语句筛选单元从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句时,具体用于:
从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。
其中,所述向量计算单元根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量时,具体用于:
对应于每个匹配关键短语,分别执行以下操作:
计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。
可选的,所述预设的关键短语集合的构建过程,包括:
对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;
对所述分词集合中的分词进行聚类处理,得到多个分词子集合;
根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语;
利用所述各个分词子集合的关键短语构建得到关键短语集合。
一种关键短语确定设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中存储的程序,实现以下功能:
通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的关键短语确定方法。
本申请提出的关键短语确定方法,通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从目标文本中选出候选关键短语,以及从预设的关键短语集合中选出匹配关键短语;然后,分别获取每个候选关键短语的隐语义向量,以及分别由预设语料库中与匹配关键短语匹配的语句的隐语义向量确定每个匹配关键短语的语义向量;最后,根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从候选关键短语和/或匹配关键短语中确定出目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语。
进一步的,本申请技术方案中的上述匹配关键短语的语义向量,是根据预设语料库中的,与匹配关键短语匹配的语句的隐语义向量确定的,因此该语义向量包含与匹配关键短语匹配的各个语句的语义信息。该语义向量所能够表示的语义并不仅限于某一个语句或某一种形式的语句的语义,而是能够表示与匹配关键短语匹配的各个语句的语义,因此是泛化的语义向量。在此基础上,本申请技术方案根据上述候选关键短语的隐语义向量和上述匹配关键短语的语义向量之间的相似度,从上述匹配关键短语和/或上述候选关键短语中确定出目标文本的关键短语,可以使选出的关键短语更准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种关键短语确定方法的流程示意图;
图2是本申请实施例提供的通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从目标文本中选出候选关键短语的处理流程示意图;
图3是本申请实施例提供的分别获取每个匹配关键短语匹配的语义向量的处理流程示意图;
图4是本申请实施例提供的向量计算模型的运算过程示意图;
图5是本申请实施例提供的构建关键短语集合的流程示意图;
图6是本申请实施例提供的一种关键短语确定装置的结构示意图;
图7是本申请实施例提供的另一种关键短语确定装置的结构示意图;
图8是本申请实施例提供的又一种关键短语确定装置的结构示意图;
图9是本申请实施例提供的一种关键短语确定设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于确定文本的关键短语的应用场景。
关键短语,是指能够表示文本或文本集合的主题的词或短语。通常情况下,关键短语的确定需要结合文本语义进行,使确定出的关键短语要能够表示文本的主题,因此,通常在确定文本的关键短语时需要人工参与执行,基于人工对文本的理解,从文本中抽取出能够表示文本主题的词或短语,作为文本的关键短语。
随着人工智能技术的发展,人们越发希望能够借助机器确定出文本的关键短语,从而减少确定文本关键短语的人工投入,节省劳动力。
基于上述需求,本申请实施例提出一种关键短语确定方法,将该方法应用于处理器等硬件处理装置或软件处理程序中,可以实现自动确定出文本关键短语。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本申请实施例提出的关键短语确定方法,包括:
S101、通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语。
其中,上述目标文本,是指需要确定其关键短语的文本语句,具体可以是属于任意领域(例如体育领域、经济领域、时政领域等)的,任意语种(例如中文、英语、日语等)的文本语句。
示例性的,本申请实施例以“雄安新区是继深圳经济特区、上海浦东新区和天津滨海新区之后又一具有全国意义的新区”作为目标文本,介绍本申请实施例提出的关键短语确定方法的处理过程。
上述预设的关键短语集合中的关键短语用于表示所述目标文本所属领域的文本的主题。
上述的目标文本所属领域,包括但不限于是目标文本所表达的内容所属的领域。例如,假设目标文本为描述体育方面内容的文本语句,则该目标文本属于体育领域;假设目标文本为描述时政方面内容的文本语句,则该目标文本属于时政领域。
上述预设的关键短语集合与文本领域具有对应关系。对应某一文本领域的关键短语集合所包含的关键短语,是有较大概率被用作该领域文本的关键短语的词或短语。作为一种示例性的实现方式,对应某领域的关键短语集合的获取,需要基于该领域大量的文本实现。具体可以通过统计该领域大量文本的关键短语,从中选出出现概率较大的关键短语组成关键短语集合。
基于上述介绍的关键短语集合中的关键短语的由来和作用,上述关键短语集合中的关键短语,能够作为某一领域的文本关键短语的选择标准。
本申请实施例预先获取与上述目标文本所属领域对应的关键短语集合。示例性的,与上述目标文本对应的关键短语集合的获取,可以是直接读取现有的与目标文本所属领域对应的关键短语集合,也可以是在执行本申请实施例提出的关键短语确定方法之前,预先利用目标文本所属领域的大量文本样本构建与目标文本所属领域对应的关键短语集合,本申请实施例不对上述预设的关键短语集合的具体获取方式做严格限定。
当确定上述目标文本的关键短语时,本申请实施例先将目标文本与上述预设的关键短语集合中的关键短语进行匹配处理,从目标文本中选出与上述预设的关键短语集合中的关键短语匹配的短语,作为候选关键短语,同时,从上述预设的关键短语集合中,选出与上述候选关键短语匹配的关键短语,作为匹配关键短语。
示例性的,依次遍历上述预设的关键短语集合中的各个关键短语,并将遍历到的关键短语与目标文本进行匹配,从目标文本中查找与该关键短语匹配的短语。当从目标文本中查找到与该关键短语匹配的短语时,将该短语作为候选关键短语选出,同时将该关键短语作为匹配关键短语选出。
假如从目标文本中没有查找到与该关键短语匹配的短语,则可以确定在目标文本中不存在与该关键短语匹配的短语,此时不能将该关键短语作为匹配关键短语,因此继续遍历上述关键短语集合中的下一个关键短语。
例如,假设上述预设的关键短语集合中的某一个关键短语为“浦东/新区”(其中,符号“/”仅用于表示相邻分词之间的分界),则按照本申请实施例技术方案,将“浦东/新区”与目标文本“雄安新区是继深圳经济特区、上海浦东新区和天津滨海新区之后又一具有全国意义的新区”进行匹配,并且规定当目标文本中的短语与上述关键短语集合中的关键短语存在至少一个相同的分词时,认为该短语与该关键短语匹配。则可以得到,上述目标文本中的短语“雄安新区”、“浦东新区”、“滨海新区”“新区”为与关键短语“浦东/新区”匹配的短语。此时,将短语“雄安新区”、“浦东新区”、“滨海新区”“新区”作为候选关键短语选出,同时,将“浦东/新区”作为匹配关键短语选出。
按照上述方法,从目标文本中依次选出与上述预设的关键短语集合中的关键短语匹配的短语,得到各个候选关键短语,同时选出上述预设的关键短语集合中的,与上述候选关键短语匹配的关键短语,作为匹配关键短语。
需要说明的是,上述匹配的标准可以灵活设定。例如可以设定为当目标文本中的短语与上述预设的关键短语集合中的关键短语完全相同时,认为该短语与该关键短语匹配等。
可以理解,由于上述预设的关键短语集合中的关键短语是能够表示上述目标文本所属领域的文本的主题的关键短语,则按照本申请实施例技术方案从上述目标文本中选出的,与上述预设的关键短语集合中的关键短语匹配的候选关键短语,可能是能够表示目标文本的主题的短语,即可能是目标文本的关键短语。
S102、分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量。
其中,上述匹配关键短语的语义向量由预设语料库中的,与匹配关键短语匹配的语句的隐语义向量确定;
上述预设的语料库,是指由文本语句构成的数据库。进一步的,为了使按照本申请实施例技术方案确定出的关键短语更切合上述目标文本的语义,本申请实施例优选由目标文本所属领域的文本语句组成上述的预料库。
示例性的,本申请实施例将步骤S101中选出的候选关键短语,分别输入预设的双向长短期记忆模型,运算得到每个候选关键短语的隐语义向量。该双向长短期记忆模型,是预先训练的模型,能够运算得到输入短语的隐语义向量。在具体实施本申请实施例技术方案时,也可以采用其它计算方法或通过其它的运算模型,得到上述候选关键短语的隐语义向量。
对于步骤S101中选出的匹配关键短语,本申请实施例分别从上述预设的语料库中查找与匹配关键短语匹配的语句,然后将与匹配关键短语匹配的各个语句的隐语义向量进行整合、运算,得到一个语义向量,作为匹配关键短语的语义向量。
其中,上述匹配关键短语与语料库语句的匹配标准,可以灵活设定,例如可以设定当匹配关键短语与语料库中的语句存在相同分词时即认为匹配关键短语与该语句匹配,或者设定当语料库中的语句完全包含匹配关键短语时即认为该匹配关键短语与该语句匹配等。
示例性的,本申请实施例依次遍历各个匹配关键短语,每遍历到一个匹配关键短语时,从上述预设的语料库中查找与该匹配关键短语匹配的语句;然后,分别计算每个语句的隐语义向量;其次,对各个语句的隐语义向量进行整合、运算,得到一个语义向量,作为上述匹配关键短语的语义向量。
作为一种可选的实现方式,本申请实施例对与匹配关键短语匹配的各个语句的隐语义向量进行加权平均运算处理,得到的运算结果作为该匹配关键短语的语义向量。事实上,也可以通过其他的向量运算,将与匹配关键短语匹配的各个语句的隐语义向量运算、整合为一个语义向量,例如,可以直接对各个语句的隐语义向量进行向量求和得到一个语义向量等。
本申请实施例将与匹配关键短语匹配的各个语句的隐语义向量进行整合、运算得到一个向量,作为匹配关键短语的语义向量,则其语义向量包含与其匹配的各个语句的隐语义向量的信息,即该语义向量同时包含各个语句的语义信息。
因此,按照本申请实施例技术方案计算得到的匹配关键短语的语义向量,并不只是表示匹配关键短语的语义的向量,更是包含与匹配关键短语匹配的语句的语义信息的向量,因此使得该语义向量所能表示的语义并不仅限于某一个语句或某一种形式的语句的语义,而是能够表示与匹配关键短语匹配的各个语句的语义,因此是泛化的语义向量。
又由于与匹配关键短语匹配的语句来自于预设的语料库,而这个语料库是包含目标文本所属领域的各种主题的文本语句的语料库,则按照本申请实施例上述处理得到的匹配关键短语的语义向量,能够将匹配关键短语的语义泛化到目标文本所属领域的文本语句的语义。
S103、根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。
由于上述候选关键短语是来自于目标文本的短语。上述匹配关键短语的语义向量,是泛化的语义向量,并且能够表示目标文本所属领域的文本语句的语义。因此,如果候选关键短语的隐语义向量与上述的匹配关键短语的语义向量足够相似,则可以认为该候选关键短语与目标文本所属领域的文本语句的语义足够相似,因此可以作为目标文本的关键短语。
另一方面,对于上述的匹配关键短语,如果匹配关键短语的语义向量,与来自于目标文本的候选关键短语的隐语义向量的相似度足够高,则可以认为该匹配关键短语能够表达目标文本的语义,因此可以将该匹配关键短语作为目标文本的关键短语。
进一步的,上述从候选关键短语中确定出目标文本的关键短语,以及从匹配关键短语中确定出目标文本的关键短语,也可以同时实现。例如,在度量上述候选关键短语的隐语义向量与上述匹配关键短语的语义向量之间的相似度时,如果候选关键短语的隐语义向量与匹配关键短语的语义向量的相似度足够高,则可以将该候选关键短语和该匹配关键短语同时设定为目标文本的关键短语。
通过上述说明可以理解,本申请实施例上述步骤S103在确定目标文本的关键短语时,具体可以由三种途径确定,即:从候选关键短语中确定;从匹配关键短语中确定;以及,同时从候选关键短语和匹配关键短语中确定。
下面,本申请实施例结合举例,进一步详细介绍确定目标文本的关键短语的具体处理过程。
当从上述的候选关键短语中确定目标文本的关键短语时,一种示例性的处理方式是,针对每个候选关键短语,分别计算其隐语义向量,以及与其匹配的匹配关键短语的语义向量之间的相似度。如果两者的相似度大于设定的相似度阈值,则可以将该候选关键短语设定为目标文本的关键短语。
或者,根据每个候选关键短语的隐语义向量,以及与其匹配的匹配关键短语的语义向量之间的相似度,从各个候选关键短语中选出设定数量的候选关键短语,作为目标文本的关键短语。例如,从各个候选关键短语中,选出其隐语义向量以及与其匹配的匹配关键短语的语义向量之间的相似度最大的N个候选关键短语,作为目标文本的关键短语,其中N大于等于1。
例如,假设按照本申请实施例技术方案确定目标文本“雄安新区是继深圳经济特区、上海浦东新区和天津滨海新区之后又一具有全国意义的新区”的关键短语时,从该目标文本中选出候选关键短语“雄安新区”和“经济特区”,以及从预设的关键短语集合中选出匹配关键短语“浦东/新区”和“出口/特区”,其中,“雄安新区”与“浦东/新区”相匹配,“经济特区”与“出口/特区”相匹配。
在从“雄安新区”和“经济特区”中确定目标文本的关键短语时,分别计算“雄安新区”的隐语义向量与“浦东/新区”的语义向量之间的相似度,以及计算“经济特区”的隐语义向量与“出口/特区”的语义向量之间的相似度。
如果“雄安新区”的隐语义向量与“浦东/新区”的语义向量之间的相似度大于设定的相似度阈值,则可以将“雄安新区”设定为目标文本的关键短语;同理,如果“经济特区”的隐语义向量与“出口/特区”的语义向量之间的相似度大于设定的相似度阈值,则可以将“经济特区”设定为目标文本的关键短语。
或者,假设“雄安新区”的隐语义向量与“浦东/新区”的语义向量之间的相似度,大于“经济特区”的隐语义向量与“出口/特区”的语义向量之间的相似度,则可以只将“雄安新区”设定为目标文本的关键短语。
可选的,另一种示例性的实现方式是,针对每个候选关键短语,分别计算其隐语义向量与每个匹配关键短语的语义向量之间的相似度。
只要候选关键短语的隐语义向量,与任意一个匹配关键短语的语义向量之间的相似度大于设定的相似度阈值,则将该候选关键短语设定为目标文本的关键短语。
或者,根据各个候选关键短语的隐语义向量与各个匹配关键短语的语义向量之间的相似度,从各个候选关键短语中选出设定数量的候选关键短语,作为目标文本的关键短语。例如,从各个候选关键短语的隐语义向量与各个匹配关键短语的语义向量之间的相似度中,选出N个最高的相似度,其中N大于等于1;然后确定这N个最高的相似度分别是哪个候选关键短语的隐语义向量与哪个匹配关键短语的语义向量之间的相似度,并将确定出的候选关键短语作为目标文本的关键短语。
例如,仍以上述举例为例,分别计算“雄安新区”的隐语义向量与“浦东/新区”和“出口/特区”的语义向量之间的相似度,只要“雄安新区”的隐语义向量,与“浦东/新区”和“出口/特区”的语义向量中的任意一个语义向量之间的相似度大于设定的相似度阈值,则将“雄安新区”设定为目标文本的关键短语。
或者,计算“雄安新区”的隐语义向量与“浦东/新区”和“出口/特区”的语义向量之间的相似度,分别得到第一相似度和第二相似度;计算“经济特区”的隐语义向量与“浦东/新区”和“出口/特区”的语义向量之间的相似度,分别得到第三相似度和第四相似度。然后,将第一相似度、第二相似度、第三相似度、第四相似度中最高的相似度对应的候选关键短语设定为目标文本的关键短语。假设第一相似度最高,则将第一相似度对应的“雄安新区”设定为目标文本的关键短语。
与上述介绍相类似的,当从上述的匹配关键短语中确定目标文本的关键短语时,计算匹配关键短语的语义向量,与对应匹配的候选关键短语的隐语义向量,或者与每个候选关键短语的隐语义向量之间的相似度,然后通过设定阈值判断匹配关键短语是否可以作为目标文本的关键短语;或者,根据匹配关键短语的语义向量与对应匹配的候选关键短语的隐语义向量之间的相似度,或根据匹配关键短语的语义向量与各个候选关键短语的隐语义向量之间的相似度,从各个匹配关键短语中选择设定数量的匹配关键短语,作为目标文本的关键短语。其具体处理内容可参照本申请实施例上述介绍执行。
进一步的,在上述内容介绍的关键短语确定过程中,当确定候选关键短语的隐语义向量与匹配关键短语的语义向量的相似度后,其实可以同时确定候选关键短语和匹配关键短语能否作为目标文本的关键短语,或者同时从候选关键短语和匹配关键短语中选择设定数量的短语作为目标文本的关键短语。上述确定过程即为从候选关键短语中确定出目标文本的关键短语,以及从匹配关键短语中确定出目标文本的关键短语的结合,其具体处理内容可以参照本申请实施例上述介绍执行。
通过上述介绍可见,本申请实施例提出的关键短语确定方法,通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从目标文本中选出候选关键短语,以及从预设的关键短语集合中选出匹配关键短语;然后分别获取每个候选关键短语的隐语义向量,以及分别由预设语料库中与匹配关键短语匹配的语句的隐语义向量确定每个匹配关键短语的语义向量;最后,根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从候选关键短语和/或匹配关键短语中确定出目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语。
同时,由于本申请技术方案中的上述匹配关键短语的语义向量,是根据预设语料库中的,与匹配关键短语匹配的语句的隐语义向量确定的,因此该语义向量包含与匹配关键短语匹配的各个语句的语义信息。该语义向量所能够表示的语义并不仅限于某一个语句或某一种形式的语句的语义,而是能够表示与匹配关键短语匹配的各个语句的语义,因此是泛化的语义向量。在此基础上,本申请技术方案根据上述候选关键短语的隐语义向量和上述匹配关键短语的语义向量之间的相似度,从上述匹配关键短语和/或上述候选关键短语中确定出目标文本的关键短语,可以使选出的关键短语更准确。
进一步的,参照本申请实施例技术方案,通过设置与目标文本相同领域的预设关键短语集合以及设置由目标文本所属领域的文本语句组成的语料库,就能够确定出任意领域的目标文本的关键短语,因此本申请实施例技术方案具有广泛的适用性。
另一方面,本申请实施例技术方案也可以被设置为处理模型,则该模型无需有监督的样本训练,仅为模型提供语料库和关键短语集合,该模型就可以根据提供的关键短语集合和语料库自动实现无监督的关键短语确定。
作为一种可选的实现方式,参见图2所示,在本申请的另一个实施例中,还公开了上述的通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,包括:
S201、对目标文本进行分词处理,得到文本词串。
上述分词处理,是指将词序列组成的文本语句划分成一个个单独的词,这些单独的词即为文本语句包含的分词。理论上,文本语句包含的分词可以是单个的字,也可以是由多个单个的字组成的词或短语。
本申请实施例采用自然语言处理领域现有的分词方法或工具实现对上述目标文本的分词处理。仍以上述的目标文本“雄安新区是继深圳经济特区、上海浦东新区和天津滨海新区之后又一具有全国意义的新区”为例,由于该目标文本为中文文本,本申请实施例采用常用的中文分词工具,例如jieba分词、SnowNLP、THULAC(THU Lexical Analyzer forChinese)、NLPIR分词系统等,实现对该目标文本的分词处理。
示例性的,对“雄安新区是继深圳经济特区、上海浦东新区和天津滨海新区之后又一具有全国意义的新区”这一目标文本进行分词处理后,得到分词结果“雄安/新区/是/继/深圳/经济/特区/、/上海/浦东/新区/和/天津/滨海/新区/之后/又/一/具有/全国意义/的/新区”(其中,符号“/”仅用于表示相邻分词之间的分界,并不作为分词结果)。可见,该分词结果是目标文本所包含的各个分词按照其在目标文本中的位置依次排列构成的文本词串。
进一步的,在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)时会自动过滤掉某些字或词,这些被过滤掉而不被处理的字或词被称为停用词。
例如,“这个”、“那个”、“这”、“那”、“一”、“一个”、“超过”、“低于”等功能词,英文字符、数字字符、标点符号及使用频率极高的单字,或者是语气词、副词、介词、连词等,在信息检索中,都被看做是对文本主题意义不大的词,从而被归为停用词。
为了保证关键短语确定的准确度,减少关键短语确定过程中的噪声。本申请实施例还对上述分词处理的分词结果进行消除停用词处理。
通常情况下,在某一特定的自然语言处理应用领域中,会事先指定明确的停用词表,以便于在文本处理过程中,有依据地滤除其中的停用词,提高处理效率。
作为一种优选的实现方式,在本申请实施例中,预先获取停用词表。在对上述目标文本进行中文分词处理得到分词处理结果后,根据预先获取的停用词表,识别出分词处理结果中的停用词,并将其中的停用词消除。其中,上述停用词表的获取,包括但不限于直接应用业界公认的停用词表,或者根据目标文本所属领域的文本特点,参照已有的停用词表进行停用词表构建。
参照上述消除停用词处理方法,对上述分词处理结果“雄安/新区/是/继/深圳/经济/特区/、/上海/浦东/新区/和/天津/滨海/新区/之后/又/一/具有/全国意义/的/新区”进行消除停用词处理后,将剩余的各个分词按照其在原目标文本中的位置,依次排列组成文本词串“雄安/新区/深圳/经济/特区/上海/浦东/新区/天津/滨海/新区/之后/具有/全国意义/新区”。
对比可见,经过上述消除停用词处理后的文本词串,相对于对目标文本进行分词处理得到的文本词串,其内容更精炼、所包含的分词与目标语句的主题相关度更高,基于该文本词串确定文本关键短语,噪声更少,有利于提升处理效率。
S202、从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。
本申请实施例将上述预设的关键短语集合中的各个关键短语分别与目标文本的文本词串进行对比匹配,从该文本词串中筛选出与关键短语匹配的短语,作为候选关键短语。
可以理解,上述候选关键短语,是来源于上述文本词串,并且与上述关键短语集合中的某一关键短语匹配的短语。进一步的,上述候选关键短语所包含的各个分词之间的相互位置关系,与其在原文本词串中的相互位置关系相同,也就是说,上述候选关键短语是从上述文本词串中直接抽取或截取的,而不是将文本词串所包含的分词重新组合得到的。
在本申请实施例中,上述的对比匹配过程,具体为通过将关键短语的各个分词与文本词串的各个分词依次进行对比,从文本词串中找出与关键短语存在设定的相同分词的短语。
作为一种可选的实现方式,上述的对比匹配处理过程可以借助遍历预设的关键短语集合中的各个关键短语的方式实现。
每当遍历到一个关键短语时,对应于遍历到的关键短语,根据该关键短语所包含的设定的分词,从目标文本的文本词串中筛选出包含该设定的分词的短语,得到与遍历到的关键短语匹配的候选关键短语。
上述设定的分词,可以是关键短语中的设定短语位置处的分词,例如关键短语的第一个分词、第二个分词、前两个分词、最后两个分词等。
在确定上述关键短语所包含的设定的分词后,先从目标文本的文本词串中,查找上述设定的分词;当从目标文本的文本词串中查找到上述设定的分词后,从文本词串中截取包含该设定的分词的短语。可以理解,本申请实施例并不限定所截取的短语中所包含的上述设定的分词在截取的短语中的位置,也不限定所截取的短语的长度。理论上,只要截取的短语满足预设的匹配条件,即包含上述关键短语所包含的设定的分词即可。
作为一种简单的实现方式,本申请实施例设定上述关键短语所包含的设定的分词为关键短语所包含的最后一个分词,当从文本词串中查找到与关键短语的最后一个分词相同的分词后,直接截取包含该分词,以及该分词之前的设定数量的分词的短语即可。
仍以上述举例说明,假设关键短语为“浦东/新区”,并且规定包含“浦东/新区”的最后一个分词“新区”的短语为与关键短语“浦东/新区”匹配的短语。当从文本词串“雄安/新区/深圳/经济/特区/上海/浦东/新区/天津/滨海/新区/之后/具有/全国意义/新区”中查找到分词“新区”后,从文本词串中截取包含分词“新区”,以及分词“新区”之前一个分词的短语,得到短语“雄安/新区”、“浦东/新区”“滨海/新区”、“全国意义/新区”即为与关键短语为“浦东/新区”匹配的候选关键短语。
作为一种可选的实现方式,在本申请的另一个实施例中,公开了本申请实施例提出的上述关键短语确定方法中的分别获取每个匹配关键短语的语义向量的具体处理过程。
参见图3所示,本申请实施例上述的分别获取每个匹配关键短语的语义向量,包括:
S301、从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句。
对应于从上述预设的关键短语集合中选出的每个匹配关键短语,本申请实施例分别将匹配关键短语与预设的语料库中的语句进行对比匹配,从预设的语料库中,筛选与其匹配的语句。
上述的与匹配关键短语匹配的语句,包括但不限于是与匹配关键短语存在设定的相同分词的语句,或者是包含匹配关键短语的语句,或者是与匹配关键短语的语义相匹配的语句。基于对上述的“匹配”的定义不同,上述的对比匹配过程也可以有不同的实现方式。
作为一种可选的实现方式,本申请实施例从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。
示例性的,上述的处理过程可以借助遍历各个匹配关键短语的方式实现。
每当遍历到一个匹配关键短语时,对应于遍历到的匹配关键短语,根据该匹配关键短语所包含的设定的分词,从预设的语料库中筛选出包含该设定的分词的语句,作为与遍历到的匹配关键短语匹配的语句。
上述设定的分词,可以是关键短语中的设定短语位置处的分词,例如关键短语的第一个分词、第二个分词、前两个分词、最后两个分词等。
作为一种简单的实现方式,本申请实施例设定上述匹配关键短语所包含的设定的分词为匹配关键短语所包含的最后一个分词。则当从语料库中查找到最后一个分词与匹配关键短语的最后一个分词相同的语句时,即可将该语句设定为与该匹配关键短语匹配的语句。
例如,假设某一匹配关键短语为包含分词w1,w2……wk的关键短语,则按照本申请实施例技术方案,从预设的语料库中匹配、查找最后一个分词为wk的语句,作为与该匹配关键短语匹配的语句。假设在上述预设的语料库中进行上述匹配查找后得到n个语句sentence_1,sentence_2,……,sentence_n,则这n个语句即为与该匹配关键短语匹配的语句,可以用于构成与该匹配关键短语匹配的语句集{sentence_1,sentence_j,……,sentence_n}。
按照上述处理过程,可以分别从语料库中筛选出与每个匹配关键短语匹配的语句。
S302、根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
在通过执行步骤S301分别得到与每个匹配关键短语匹配的语句后,本申请实施例分别计算得到每个语句的隐语义向量。示例性的,可以利用预设的双向长短期记忆模型,对语句进行运算处理得到语句的隐语义向量
例如,对于与上述包含分词w1,w2……wk的匹配关键短语匹配的语句sentence_1,sentence_2,……,sentence_n中的语句sentence_j,将其所包含的从句首分词w1到句尾分词wk的所有分词,输入上述预设的双向长短期记忆模型,使该模型生成该语句的隐语义向量表示vector_j,即得到与该匹配关键短语匹配的语句sentence_j的隐语义向量。
按照上述方法,将与匹配关键短语匹配的各个语句所包含的分词分别输入上述预设的双向长短期记忆模型,得到与该匹配关键短语匹配的各个语句的隐语义向量表示vector_1,vector_2,……vector_n。
需要说明的是,在具体实施本申请实施例技术方案时,也可以通过其它常用的隐语义向量运算方法,得到各个语句的隐语义向量。
然后,本申请实施例根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
示例性的,本申请实施例计算与每个匹配关键短语匹配的语句的隐语义向量的平均值,作为匹配关键短语的语义向量。
具体的,对应于每个匹配关键短语,分别执行以下操作:
计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为与该匹配关键短语匹配的语句对应的语义向量。
假设与匹配关键短语匹配的n个语句的隐语义向量分别为vector_1,vector_2,……vector_n,则本申请实施例对n个语句的隐语义向量vector_1,vector_2,……vector_n进行求和平均处理,得到语义向量Vector_phrase,则该语义向量Vector_phrase即作为该匹配关键短语的语义向量。
按照上述处理方法,分别计算每个匹配关键短语的语义向量。作为一种可选的实现方式,可以借助遍历每个匹配关键短语的方式,每遍历到一个匹配关键短语时,按照上述处理方法处理得到该匹配关键短语的语义向量,从而得到每个匹配关键短语的语义向量。
作为另一种可选的实现方式,上述图3所示的获取每个匹配关键短语的语义向量的处理过程,也可以被模型化,从而得到一个基于预设的语料库,得到输入模型的短语的语义向量的模型,即向量计算模型,该模型的工作过程如图4所示。
可以理解,该模型工作时能够实现上述图3所示的处理过程,即得到输入该模型的短语的语义向量。
在实施本申请实施例技术方案时,也可以预先构建上述模型,然后在实施本申请提出的关键短语确定方法时,直接利用该模型分别获取每个匹配关键短语的语义向量。
另一方面,作为另一种实现方式,当对应某领域文本的上述预设的关键短语集合确定时,也可以借助上述模型,预先得到关键短语集合中的各个关键短语的语义向量。然后,在确定某一目标文本的关键短语的过程中,在按照本申请实施例技术方案,分别获取每个匹配关键短语的语义向量时,直接读取已经得到的匹配关键短语的语义向量即可。
作为一种可选的实现方式,本申请另一实施例公开了本申请实施例所提出的关键短语确定方法中所应用的预设的关键短语集合的构建过程。
参见图5所示,上述预设的关键短语集合的构建过程,包括:
S501、对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合。
其中,上述预设的文本语句为与上述目标文本相同领域的文本语句。
作为可选的实现方式,上述预设的文本语句,为来自预设文本数据库的大量的文本语句,该预设文本数据库,是由目标文本所属领域的文本语句组成的数据库。该文本数据库的数据量大小可以根据实际情况而设定,理论上,文本数据库的数据量越大,其数据资源越丰富,上述预设的文本语句的数量越多,最终得到的关键短语集合中的关键短语对文本语句的主题表达越准确。
一种简单的设定方式是,上述文本数据库可以直接采用用于确定匹配关键短语的语义向量的语料库,也可以是该语料库的部分语料构成的子语料库。
示例性的,本申请实施例借助自然语言处理领域常用的分词工具,例如jieba分词、SnowNLP、THULAC(THU Lexical Analyzer for Chinese)、NLPIR分词系统等开源的分词工具,实现对上述预设的文本语句中的各个文本语句的分词处理,得到各个文本语句所包含的分词。
参考图2所示的步骤S201的介绍,本申请实施例对各个文本语句所包含的分词进行停用词消除处理,然后将剩余的分词组成分词集合。
S502、对所述分词集合中的分词进行聚类处理,得到多个分词子集合。
示例性的,本申请实施例利用文档主题生成模型LDA(Latent DirichletAllocation),对分词集合中的分词进行聚类处理,得到多个分词子集合,即得到多个分词类。
LDA模型是自然语言处理领域常用的文档主题生成模型,其可以对大量的文本语句进行处理,得到可以表示文本语句的主题的关键短语。并且,这些关键短语都是来自于文本语句,即该模型实现了大量文本语句的关键短语抽取。
进一步的,本申请实施例还可以对LDA模型聚类处理的聚类数量进行设置,即设定LDA模型将分词集合聚类成设定数量的分词子集合。
S503、根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语。
对于每个分词子集合,本申请实施例分别计算其包含的分词的类簇中心,通过分词子集合的类簇中心,确定分词子集合的关键短语。
示例性的,可以直接将分词子集合的类簇中心分词,作为分词子集合的关键短语,或者将分词子集合的类簇中心分词进行组合,得到短语后,将该短语作为分词子集合的关键短语。
S504、利用所述各个分词子集合的关键短语构建得到关键短语集合。
具体的,将各个分词子集合的关键短语进行汇总,得到关键短语集合。
需要说明的是,基于LDA模型的主题提取能力,上述步骤S502、S503的处理都可以借助该LDA模型实现。
与上述关键短语确定方法相对应的,本申请实施例还提供了一种关键短语确定装置,参见图6所示,该装置包括:
短语选取单元100,用于通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;
向量获取单元110,用于分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;
短语确定单元120,用于根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。
本申请实施例提出的关键短语确定装置,通过短语选取单元100将目标文本与预设的关键短语集合中的关键短语进行匹配,从目标文本中选出候选关键短语,以及从预设的关键短语集合中选出匹配关键短语;然后,向量获取单元110分别获取每个候选关键短语的隐语义向量,以及分别获取每个匹配关键短语的语义向量;最后,由短语确定单元120根据每个候选关键短语的隐语义向量,与每个匹配关键短语的语义向量之间的相似度,从候选关键短语和/或匹配关键短语中确定出目标文本的关键短语。上述关键短语确定装置的上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语。
进一步的,本申请技术方案中的上述匹配关键短语的语义向量,是根据预设语料库中的,与匹配关键短语匹配的语句的隐语义向量确定的,因此该语义向量包含与匹配关键短语匹配的各个语句的语义信息。该语义向量所能够表示的语义并不仅限于某一个语句或某一种形式的语句的语义,而是能够表示与匹配关键短语匹配的各个语句的语义,因此是泛化的语义向量。在此基础上,本申请技术方案根据上述候选关键短语的隐语义向量和上述匹配关键短语的语义向量之间的相似度,从上述匹配关键短语和/或上述候选关键短语中确定出目标文本的关键短语,可以使选出的关键短语更准确。
作为一种可选的实现方式,参见图7所示,所述短语选取单元100,包括:
分词处理单元1001,用于对目标文本进行分词处理,得到文本词串;
短语筛选单元1002,用于从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。
作为一种可选的实现方式,参见图8所示,所述向量获取单元110包括:
语句筛选单元1101,用于从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;
向量计算单元1102,用于根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
作为一种可选的实现方式,所述语句筛选单元1101从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句时,具体用于:
从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。
作为一种可选的实现方式,所述向量计算单元1102根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量时,具体用于:
对应于每个匹配关键短语,分别执行以下操作:
计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。
作为一种可选的实现方式,所述预设的关键短语集合的构建过程,包括:
对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;
对所述分词集合中的分词进行聚类处理,得到多个分词子集合;
根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语;
利用所述各个分词子集合的关键短语构建得到关键短语集合。
本申请另一实施例还公开了一种关键短语确定设备,参见图9所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现以下功能:
通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。
具体的,上述关键短语确定设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的关键短语确定方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例提供的关键短语确定方法的各个步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种关键短语确定方法,其特征在于,包括:
通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;
分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;
根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语;
分别获取每个匹配关键短语的语义向量,包括:
从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;
根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
2.根据权利要求1所述的方法,其特征在于,所述通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,包括:
对目标文本进行分词处理,得到文本词串;
从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。
3.根据权利要求1所述的方法,其特征在于,所述从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句,包括:
从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。
4.根据权利要求1所述的方法,其特征在于,所述根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量,包括:
对应于每个匹配关键短语,分别执行以下操作:
计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。
5.根据权利要求1所述的方法,其特征在于,所述预设的关键短语集合的构建过程,包括:
对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;
对所述分词集合中的分词进行聚类处理,得到多个分词子集合;
根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语;
利用所述各个分词子集合的关键短语构建得到关键短语集合。
6.一种关键短语确定装置,其特征在于,包括:
短语选取单元,用于通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;
向量获取单元,用于分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;
短语确定单元,用于根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语;
分别获取每个匹配关键短语的语义向量,包括:
从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;
根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
7.根据权利要求6所述的装置,其特征在于,所述向量获取单元包括:
语句筛选单元,用于从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;
向量计算单元,用于根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
8.一种关键短语确定设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中存储的程序,实现以下功能:
通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语;分别获取每个匹配关键短语的语义向量,包括:从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至5中任一权利要求所述的关键短语确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910270447.3A CN110008474B (zh) | 2019-04-04 | 2019-04-04 | 一种关键短语确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910270447.3A CN110008474B (zh) | 2019-04-04 | 2019-04-04 | 一种关键短语确定方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110008474A CN110008474A (zh) | 2019-07-12 |
CN110008474B true CN110008474B (zh) | 2023-06-02 |
Family
ID=67169933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910270447.3A Active CN110008474B (zh) | 2019-04-04 | 2019-04-04 | 一种关键短语确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008474B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476037B (zh) * | 2020-04-14 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN111831804B (zh) * | 2020-06-29 | 2024-04-26 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN112507198B (zh) * | 2020-12-18 | 2022-09-23 | 北京百度网讯科技有限公司 | 用于处理查询文本的方法、装置、设备、介质和程序 |
CN112818688B (zh) * | 2021-04-16 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN114416940B (zh) * | 2021-12-28 | 2023-04-18 | 北京百度网讯科技有限公司 | 表格问答中的短语泛化方法、装置、电子设备及存储介质 |
CN115114915B (zh) * | 2022-05-25 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
CN108241667A (zh) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
WO2018157805A1 (zh) * | 2017-03-03 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
-
2019
- 2019-04-04 CN CN201910270447.3A patent/CN110008474B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
CN108241667A (zh) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
WO2018157805A1 (zh) * | 2017-03-03 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
Non-Patent Citations (2)
Title |
---|
中文文本的主题关键短语提取技术;杨等;《计算机科学》;20171115;全文 * |
基于关键短语的文本分类研究;刘华;《中文信息学报》;20070715(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110008474A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008474B (zh) | 一种关键短语确定方法、装置、设备及存储介质 | |
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN108090216B (zh) | 一种标签预测方法、装置及存储介质 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
Reffle et al. | Unsupervised profiling of OCRed historical documents | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN115587163A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN111581950B (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
CN111368068A (zh) | 一种基于词性特征和语义增强的短文本主题建模方法 | |
CN112182235A (zh) | 一种构建知识图谱的方法、装置、计算机设备及存储介质 | |
CN107463549B (zh) | 一种提取实例模板的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |