CN111708900B - 标签同义词的扩充方法、扩充装置、电子设备及存储介质 - Google Patents
标签同义词的扩充方法、扩充装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111708900B CN111708900B CN202010553900.4A CN202010553900A CN111708900B CN 111708900 B CN111708900 B CN 111708900B CN 202010553900 A CN202010553900 A CN 202010553900A CN 111708900 B CN111708900 B CN 111708900B
- Authority
- CN
- China
- Prior art keywords
- character string
- text
- length
- label
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种标签同义词的扩充方法、扩充装置、电子设备及存储介质,其中,所述扩充方法包括:首先获取一段目标文本以及针对所述目标文本的预设标签;然后从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;最后从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。本方案在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,可以有效快速的从文本中提取出现有标签的标签同义词,提高了工作效率,降低了时间成本。
Description
技术领域
本申请涉及打标签技术领域,尤其是涉及一种标签同义词的扩充方法、扩充装置、电子设备及存储介质。
背景技术
在打标签时,打标签的人并不完全知道所有的标签,他们只知道相对通俗的描述信息,进而需要通过类似的描述信息搜索出相应的标签,这类描述信息就是标签同义词。
以汽车维修案为例:通常在汽车维修时会打上两种标签,一种是故障现象,另一种是维修结果;其中故障现象是在创建案例时打的标签,维修结果是在结案时由维修工程师打上的标签;标签相对是固定的,如故障现象标签“加速无力”,其同义描述可以是“启动慢”、“加油门不走”等等;维修结果标签“更换发动机”,其同义描述可以是“发动机变更”、“换掉发动机”等等;进而挖掘出更多的与已打标签对应的同义词可以帮助打标签的人快速的搜索出相应的标签。
现有技术中,常采用人工穷举标签同义词的方法,即由专业领域的专家对某个标签进行解释和概括,虽然专家整理得到的同义词库通常具有较高的数据质量,但显而易见的是该方法成本极高,首先为保证词库质量,领域专家需要在该领域内有较长的工作年限,对该领域有深入了解;其次为保证词库广度,往往需要多位专家共同整理词库。
发明内容
有鉴于此,本申请的目的在于提供一种标签同义词的扩充方法、扩充装置、电子设备及存储介质,可以有效快速的从文本中提取出现有标签的标签同义词,提高工作效率,降低时间成本。
第一方面,本申请提供了一种标签同义词的扩充方法,所述扩充方法包括:
获取一段目标文本以及针对所述目标文本的预设标签;
从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;
从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
优选地,通过以下步骤确定出多种字符串长度:
获取所述目标文本的字符串总长度值;
确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点;
以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
优选地,通过以下步骤确定出多种字符串长度:
获取所述预设标签的长度值和预设变量值;
在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到字符串长度值区间阵列的最大值和最小值;
以单个字符长度值为划分步长,在所述字符串长度值区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
优选地,通过以下步骤确定每种字符串长度下的多个文本标签:
确定所述目标文本的至少一个起始点;
以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签。
优选地,通过以下步骤确定每个所述文本标签与所述预设标签之间的相似度:
计算每个所述文本标签与所述预设标签之间的语义相似度;
从所有所述语义相似度中确定出相似度最大的语义相似度。
第二方面,本申请提供了一种标签同义词的扩充装置,所述扩充装置包括:
获取模块,用于获取一段目标文本以及针对所述目标文本的预设标签;
确定模块,用于从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;
同义词确定模块,用于从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
优选地,所述确定模块用于通过以下步骤确定出多种字符串长度:
获取所述目标文本的字符串总长度值;
确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点;
以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
优选地,所述确定模块用于通过以下步骤确定出多种字符串长度:
获取所述预设标签的长度值和预设变量值;
在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到字符串长度值区间阵列的最大值和最小值;
以单个字符长度值为划分步长,在所述字符串长度值区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
优选地,所述确定模块用于通过以下步骤确定每种字符串长度下的多个文本标签:
确定所述目标文本的至少一个起始点;
以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签。
优选地,所述确定模块用于通过以下步骤确定每个所述文本标签与所述预设标签之间的相似度:
计算每个所述文本标签与所述预设标签之间的语义相似度;
从所有所述语义相似度中确定出相似度最大的语义相似度。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如上所述的标签同义词的扩充方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的标签同义词的扩充方法的步骤。
本申请实施例提供了一种标签同义词的扩充方法、扩充装置、电子设备及存储介质,其中,所述扩充方法包括:首先获取一段目标文本以及针对所述目标文本的预设标签;然后从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;最后从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。本方案在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,可以有效快速的从文本中提取出现有标签的标签同义词,提高工作效率,降低时间成本。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种标签同义词的扩充方法的流程图;
图2为本申请实施例所提供的第一种确定出多种字符串长度的方法流程图;
图3为本申请实施例所提供的第二种确定出多种字符串长度的方法流程图;
图4为本申请实施例所提供的一种标签同义词的扩充装置的结构示意图;
图5为本申请实施例所提供的一种电子设备的结构示意图。
附图标记:400-扩充装置;410-获取模块;420-确定模块;430-同义词确定模块;500-电子设备;510-处理器;520-存储器;530-总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“汽车维修时的打标签案例”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕汽车维修时的打标签案例进行描述,但是应该理解,这仅是一个示例性实施例。
现有技术中,常采用人工穷举标签同义词的方法,即由专业领域的专家对某个标签进行解释和概括,虽然专家整理得到的同义词库通常具有较高的数据质量,但显而易见的是该方法成本极高,首先为保证词库质量,领域专家需要在该领域内有较长的工作年限,对该领域有深入了解;其次为保证词库广度,往往需要多位专家共同整理词库。基于此,本申请实施例提供了一种标签同义词的扩充方法、扩充装置、电子设备及存储介质,在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,代替了现有技术中人工穷举标签同义词的方法,可以有效快速的从文本中提取出现有标签的标签同义词,提高工作效率,降低时间成本。
请参阅图1,图1为本申请实施例所提供的一种标签同义词的扩充方法的流程图,如图1中所示,本申请实施例提供了一种标签同义词的扩充方法,所述扩充方法包括:
S110、获取一段目标文本以及针对所述目标文本的预设标签。
本申请实施例中,目标文本以及针对目标文本的预设标签都是已知的,以一辆汽车维修案例的维修文本为例,例如:“经检测,发现发动机有异响,最终通过更换发动机修好”,标签是对这段维修文本打上的标签信息,例如这段维修文本的预设标签为“发动机异响”和“更换发动机”。
S120、从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度。
本申请实施例中,包括两种实施方式,第一种实施方式为从目标文本中每确定一个文本标签,就计算一次文本标签与预设标签之间的相似度;第二种实施方式为将目标文本分成多种不同字符串长度的文本,将这些文本全部确定为文本标签之后,再计算每个文本标签与预设标签之间的相似度,不论采用哪种方式,都能得到每个文本标签与预设标签之间的相似度。
S130、从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
本申请实施例中,从所有文本标签中找到与预设标签最相似的文本标签,因为相似度越大,与预设标签越相近,进而确定相似度最大的文本标签为预设标签同义词。
具体而言,如故障现象标签“加速无力”,标签同义词可以描述为“启动慢”、“加油门不走”等等;维修结果标签“更换发动机”,标签同义词可以描述为“发动机变更”、“换掉发动机”等等。
本申请实施例提供了一种标签同义词的扩充方法,所述扩充方法包括:首先获取一段目标文本以及针对所述目标文本的预设标签;然后从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;最后从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。本方案在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,可以有效快速的从文本中提取出现有标签的标签同义词,提高工作效率,降低时间成本。
请参阅图2,图2为本申请实施例所提供的第一种确定出多种字符串长度的方法流程图;如图2中所示,通过以下步骤确定出多种字符串长度:
S210、获取所述目标文本的字符串总长度值。
本申请实施例中,选取一段目标文本,统计目标文本中所有字符数,从而得到字符串总长度值。
S220、确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点。
本申请实施例中,目标文本的字符串长度区间阵列为一维阵列,以一个字符长度值作为所述字符串长度区间阵列的起点,字符串总长度值作为所述字符串长度区间阵列的终点,例如:一维阵列为[a1,a2,a3,a4……an],其中,a1表示一个字符长度值,a2表示两个字符长度值,a3表示三个字符长度值,依次类推,an表示字符串总长度值。
S230、以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
本申请实施例中,划分步长是每次划过字符的长度,把字符串长度组成的一维阵列进行划分,划分步长为单个字符长度值,例如:[a1∣a2∣a3∣a4∣……∣an],从而确定多种字符串长度分别为一个字符长度值、两个字符长度值、三个字符长度值,依次类推,最长的字符串长度为字符串总长度值。
本申请实施例提供的确定出多种字符串长度的方法为统计出字符串长度可能出现的所有字符长度值。
请参阅图3,图3为本申请实施例所提供的第二种确定出多种字符串长度的方法流程图;如图3中所示,通过以下步骤确定出多种字符串长度:
S310、获取所述预设标签的长度值和预设变量值。
本申请实施例中,计算预设标签的长度值,根据经验预先设置预设变量值,在已知预设标签的长度值的前提下,变换预设变量值,得到与预设标签的长度值相近的字符串长度值。
S320、在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到字符串长度值区间阵列的最大值和最小值。
本申请实施例中,在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到与预设标签的长度值相近的字符串长度值区间阵列,在预设标签的长度值的基础上增加预设变量值,作为字符串长度值区间阵列的最大值,在预设标签的长度值的基础上减少预设变量值,作为字符串长度值区间阵列的最小值,例如:[b3,b4……bn],其中,b3表示字符串长度值区间阵列的最小值,bn表示字符串长度值区间阵列的最大值。
S330、以单个字符长度值为划分步长,在所述字符串长度值区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
本申请实施例提供的S330与上面实施例中提到的S230划分取值的方式相同,所能实现的技术效果也相同,在此不再赘述。
本申请实施例中,作为一种优选实施例,通过以下步骤确定每种字符串长度下的多个文本标签:
确定所述目标文本的至少一个起始点。
具体地,目标文本的起始点的数量与目标文本的字符总数相同,起始点为任意一个字符前的位置。
以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签。
本申请实施例中,通过划分取值得到多种字符串长度,根据得到的多种字符串长度对目标文本进行滑动取值;具体实施方式如下:从目标文本的起始点开始,根据其中一种字符串长度对目标文本进行滑动取值,直至将目标文本的所有字符都进行了滑动取值,其中,每一个起始点对应所有的字符串长度,每改变一次起始点,都需要对目标文本重新进行一次滑动取值。
本申请实施例中,作为一种可选实施例,通过以下步骤确定每个所述文本标签与所述预设标签之间的相似度:
计算每个所述文本标签与所述预设标签之间的语义相似度;
从所有所述语义相似度中确定出相似度最大的语义相似度。
本申请实施例中,计算所有文本标签与预设标签之间的语义相似度,从中选取相似度最大的语义相似度,将语义相似度最大的文本标签作为标签同义词。
具体而言,首先获取一段目标文本,然后确定这段目标文本所对应的预设标签,预设标签是对该目标文本打上的标签信息;从目标文本的起始点位置i≥0开始一次截取划分步长n的字符,跟预设标签做相似度计算,得到相似度结果值p;存储相似度结果值p,放入划分步长为n的概率集合中,起始点位置i≥0向后移动一位,使得位置i=i+1,每向后移动一位,重新计算一次相似度,得到相似度结果值,直至到达目标文本的字符串尾部;当到达字符串尾部时,划分步长n=n+1,到达尾部时表示划分步长n已到结尾,此时已记录划分步长n的所有文本标签与预设标签的相似度结果,划分步长n递增,继续从i=0位置起始,循环执行这个过程。本申请实施例在知晓标签的情况下,从文本中挖掘出标签同义词,避免了通过人工穷举获得标签同义词的方式,提高了工作效率。
本申请实施例提供了一种标签同义词的扩充方法,所述扩充方法包括:首先获取一段目标文本以及针对所述目标文本的预设标签;然后从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;最后从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。本方案在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,可以有效快速的从文本中提取出现有标签的标签同义词,提高工作效率,降低时间成本。
请参阅图4,图4为本申请实施例所提供的一种标签同义词的扩充装置的结构示意图,如图4中所示,所述扩充装置400包括:
获取模块410,用于获取一段目标文本以及针对所述目标文本的预设标签;
确定模块420,用于从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;
同义词确定模块430,用于从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
本申请实施例中,所述确定模块420用于通过以下步骤确定出多种字符串长度:
获取所述目标文本的字符串总长度值;
确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点;
以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
本申请实施例中,作为一种优选实施例,所述确定模块420用于通过以下步骤确定出多种字符串长度:
获取所述预设标签的长度值和预设变量值;
在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到字符串长度值区间阵列的最大值和最小值;
以单个字符长度值为划分步长,在所述字符串长度值区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
本申请实施例中,所述确定模块420用于通过以下步骤确定每种字符串长度下的多个文本标签:
确定所述目标文本的至少一个起始点;
以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签。
本申请实施例中,所述确定模块420用于通过以下步骤确定每个所述文本标签与所述预设标签之间的相似度:
计算每个所述文本标签与所述预设标签之间的语义相似度;
从所有所述语义相似度中确定出相似度最大的语义相似度。
本申请实施例提供了一种标签同义词的扩充装置,所述扩充装置包括:获取模块、确定模块和同义词确定模块,首先获取模块用于获取一段目标文本以及针对所述目标文本的预设标签;然后确定模块用于从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;最后同义词确定模块用于从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。本方案在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,可以有效快速的从文本中提取出现有标签的标签同义词,提高了工作效率,降低了时间成本。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1所示方法实施例中的一种标签同义词的扩充方法的步骤,图2所示方法实施例中的第一种确定出多种字符串长度的方法的步骤,以及图3所示方法实施例中的第二种确定出多种字符串长度的方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的一种标签同义词的扩充方法的步骤,图2所示方法实施例中的第一种确定出多种字符串长度的方法的步骤,以及图3所示方法实施例中的第二种确定出多种字符串长度的方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种标签同义词的扩充方法,其特征在于,所述扩充方法包括:
获取一段目标文本以及针对所述目标文本的预设标签;
从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;其中,通过以下步骤确定每种字符串长度下的多个文本标签:确定所述目标文本的至少一个起始点;以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签;目标文本的起始点的数量与目标文本的字符总数相同,起始点为任意一个字符前的位置;每改变一次起始点,对目标文本重新进行一次滑动取值;
从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
2.根据权利要求1所述的扩充方法,其特征在于,通过以下步骤确定出多种字符串长度:
获取所述目标文本的字符串总长度值;
确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点;
以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
3.根据权利要求1所述的扩充方法,其特征在于,通过以下步骤确定出多种字符串长度:
获取所述预设标签的长度值和预设变量值;
在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到字符串长度值区间阵列的最大值和最小值;
以单个字符长度值为划分步长,在所述字符串长度值区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
4.根据权利要求1所述的扩充方法,其特征在于,通过以下步骤确定每个所述文本标签与所述预设标签之间的相似度:
计算每个所述文本标签与所述预设标签之间的语义相似度;
从所有所述语义相似度中确定出相似度最大的语义相似度。
5.一种标签同义词的扩充装置,其特征在于,所述扩充装置包括:
获取模块,用于获取一段目标文本以及针对所述目标文本的预设标签;
确定模块,用于从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;其中,确定模块用于通过以下步骤确定每种字符串长度下的多个文本标签:确定所述目标文本的至少一个起始点;以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签;目标文本的起始点的数量与目标文本的字符总数相同,起始点为任意一个字符前的位置;每改变一次起始点,对目标文本重新进行一次滑动取值;
同义词确定模块,用于从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
6.根据权利要求5所述的扩充装置,其特征在于,所述确定模块用于通过以下步骤确定出多种字符串长度:
获取所述目标文本的字符串总长度值;
确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点;
以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一所述的标签同义词的扩充方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4中任一所述的标签同义词的扩充方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553900.4A CN111708900B (zh) | 2020-06-17 | 2020-06-17 | 标签同义词的扩充方法、扩充装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553900.4A CN111708900B (zh) | 2020-06-17 | 2020-06-17 | 标签同义词的扩充方法、扩充装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708900A CN111708900A (zh) | 2020-09-25 |
CN111708900B true CN111708900B (zh) | 2023-08-25 |
Family
ID=72540929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010553900.4A Active CN111708900B (zh) | 2020-06-17 | 2020-06-17 | 标签同义词的扩充方法、扩充装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708900B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360346B (zh) * | 2021-06-22 | 2023-07-11 | 北京百度网讯科技有限公司 | 用于训练模型的方法和装置 |
CN114662480B (zh) * | 2022-03-29 | 2024-07-05 | 腾讯科技(深圳)有限公司 | 同义标签判断方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069650B (zh) * | 2017-10-10 | 2024-02-09 | 阿里巴巴集团控股有限公司 | 一种搜索方法和处理设备 |
-
2020
- 2020-06-17 CN CN202010553900.4A patent/CN111708900B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111708900A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708900B (zh) | 标签同义词的扩充方法、扩充装置、电子设备及存储介质 | |
CN108182523A (zh) | 故障数据的处理方法和装置、计算机可读存储介质 | |
CN109508391B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
CN109918658B (zh) | 一种从文本中获取目标词汇的方法及系统 | |
CN109656385B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
CN105589894A (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CA2364886C (en) | Pattern retrieving method, pattern retrieval apparatus, computer-readable storage medium storing pattern retrieval program, pattern retrieval system, and pattern retrieval program | |
CN115358643B (zh) | 一种基于消息的上下游单据的生成方法、装置及存储介质 | |
CN110222015B (zh) | 一种文件数据的读取、查询方法、装置及可读存储介质 | |
CN110837555A (zh) | 海量文本去重筛选的方法、设备和存储介质 | |
CN110717323B (zh) | 文档分章方法及装置、终端和计算机可读存储介质 | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN115858773A (zh) | 适用于长文档的关键词挖掘方法、装置及介质 | |
US20160253374A1 (en) | Data file writing method and system, and data file reading method and system | |
CN110968702B (zh) | 一种事理关系提取方法及装置 | |
CN116192154B (zh) | 数据压缩及数据解压方法、装置、电子设备、芯片 | |
CN103136166B (zh) | 字体确定方法和设备 | |
CN109508390B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
CN110674286A (zh) | 一种文本摘要抽取方法、装置及存储设备 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
CN110990708A (zh) | 热点事件确定方法、装置、存储介质及电子设备 | |
CN115665137A (zh) | 一种数据处理方法及装置 | |
CN112446812B (zh) | 一种基于区块链的政务信息自动推送方法及终端 | |
CN110737748B (zh) | 一种文本去重方法及系统 | |
CN111428180B (zh) | 一种网页去重方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |