CN107861944A - 一种基于Word2Vec的文本标签提取方法及装置 - Google Patents

一种基于Word2Vec的文本标签提取方法及装置 Download PDF

Info

Publication number
CN107861944A
CN107861944A CN201711001712.5A CN201711001712A CN107861944A CN 107861944 A CN107861944 A CN 107861944A CN 201711001712 A CN201711001712 A CN 201711001712A CN 107861944 A CN107861944 A CN 107861944A
Authority
CN
China
Prior art keywords
label
vector
word segmentation
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711001712.5A
Other languages
English (en)
Inventor
余虎
张郭强
林伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Eshore Technology Co Ltd
Original Assignee
Guangdong Eshore Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Eshore Technology Co Ltd filed Critical Guangdong Eshore Technology Co Ltd
Priority to CN201711001712.5A priority Critical patent/CN107861944A/zh
Publication of CN107861944A publication Critical patent/CN107861944A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于Word2Vec的文本标签提取方法及装置,所述方法包括:获取所述文本的文本数据;对所述文本数据进行分词处理;根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;输出标签队列里的文本标签。本发明的技术方案通过使用Word2Vec,把词转换为向量,可以对近义词,同义词进行统一标签处理。此外,还可以把归属到同一标签的不同描述通过映射关系归一到同一个标签中。

Description

一种基于Word2Vec的文本标签提取方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于Word2Vec的文本标签提取方法及装置。
背景技术
当今互联网每天都会产生海量新闻资讯,个人阅读理解新闻资讯的能力是有限的,然而,互联网用户需要了解网络上都发生了哪些事件、讨论了哪些事件,比如金融行业分析师、投资人士需要查阅大量资讯来了解当前行业热点事件,才能了解到与热点事件关联的新闻有哪些。对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但要让计算机也能理解,其处理过程就是分词算法。目前,常见的中文分词项目有word分词,SCWS,FudanNLP,ICTCLAS,HTTPCWS,CC-CEDICT,IK,Paoding,MMSEG4J,盘古分词。
Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,甚至对于表示词的向量进行操作还能和语义相对应,由于其简单和高效引起了很多人的关注。现有技术中,通常都是直接进行全文匹配,这样会对一些组合词的识别会出现问题。例如:对“的士”进行全文匹配的时候,会把含有“的士高”的文本也打上该标签,导致无法处理关联标签,同义标签的问题。
有鉴于此,有必要提出对目前的文本标签提取技术进行进一步的改进。
发明内容
为解决上述至少一技术问题,本发明的主要目的是提供一种基于Word2Vec的文本标签提取方法及装置。
为实现上述目的,本发明采用的一个技术方案为:提供一种基于Word2Vec的文本标签提取方法,所述基于Word2Vec的文本标签提取方法包括如下步骤:
S10、获取所述文本的文本数据;
S20、对所述文本数据进行分词处理;
S30、根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;
S40、根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;
S50、根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;
S60、输出标签队列里的文本标签。
在一具体实施例中,所述步骤S20具体包括如下步骤:
S202、根据分词计算方法,将文本数据拆分成词组;
S204、根据词性,删除副词,助词,标点符号等弱词性的词;
S206、将词组与停用词库进行对比,删除停用词库包含的词;
S208、输出分词词组。
在一具体实施例中,所述步骤S30具体包括如下步骤:
S302、根据互联网信息,获取文本语料;
S304、删除停用词,分词;
S306、根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;
S308、对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。
在一具体实施例中,所述步骤S40具体包括如下步骤:
S402、按顺序取出一个分词结果向量;
S404、将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;
S406、若分词结果没有处理完,则重复步骤S402。
在一具体实施例中,所述步骤S50具体包括如下步骤:
S502、按顺序取出一个分词结果向量;
S504、将分词结果向量与映射标签库进行对比,如果有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;
S506、若分词结果没有处理完,则重复步骤S502。
为实现上述目的,本发明采用的另一个技术方案为:提供一种基于Word2Vec的文本标签提取装置,所述基于Word2Vec的文本标签提取装置包括:
获取模块,用于获取所述文本的文本数据;
分词处理模块,用于对所述文本数据进行分词处理;
向量转换模块,用于根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;
标签库匹配模块,用于根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;
标签映射库匹配模块,用于根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;
输出模块,用于输出标签队列里的文本标签。
在一具体实施例中,所述分词处理模块具体包括:
拆分模块,用于根据分词计算方法,将文本数据拆分成词组;
第一删除模块,用于根据词性,删除副词,助词,标点符号等弱词性的词;
第二删除模块,用于将词组与停用词库进行对比,删除停用词库包含的词;
输出词组模块,用于输出分词词组。
在一具体实施例中,所述向量转换模块具体包括:
获取语料模块,用于根据互联网信息,获取文本语料;
第三删除模块,用于删除停用词,分词;
构造模块,用于根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;
分词向量转换模块,用于对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。
在一具体实施例中,所述标签库匹配模块具体用于:
按顺序取出一个分词结果向量;将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;若分词结果没有处理完,则重复上述步骤。
在一具体实施例中,所述标签映射库匹配模块具体用于:
按顺序取出一个分词结果向量;将分词结果向量与映射标签库进行对比,如果存在有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;若分词结果没有处理完,则重复上述步骤。
本发明的技术方案通过使用Word2Vec,把词转换为向量,可以对近义词,同义词进行统一标签处理,有效地处理了同义词和近义词的问题。此外,还引入标签映射处理流程,可以把归属到同一标签的不同描述通过映射关系归一到同一个标签中,使其最后提取的标签具有更加广泛的意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明一实施例的一种基于Word2Vec的文本标签提取方法的方法流程图;
图2为本发明另一实施例的一种基于Word2Vec的文本标签提取方法的方法流程图;
图3为本发明一实施例的一种基于Word2Vec的文本标签提取装置模块方框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参考图1,在本发明的一个具体的实施例中,提供了一种基于Word2Vec的文本标签提取方法,所述基于Word2Vec的文本标签提取方法包括如下步骤:
S10、获取所述文本的文本数据;
S20、对所述文本数据进行分词处理;
S30、根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;
S40、根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;
S50、根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;
S60、输出标签队列里的文本标签。
具体地,此处的Word2Vec模型是一个模型文件,是所有词向量化表示的模型文件。训练这个模型要给他输入大量的文档,文档越多,模型一般越准确。它由google公司提供的开源模型。其训练方法与使用方法可以按该模型的常用方法进行。
对所述文本数据进行分词处理,具体地,包括根据分词计算方法,将文本数据拆分成词组;根据词性,删除副词,助词,标点符号等弱词性的词;将词组与停用词库进行对比,删除停用词库包含的词;输出分词词组。
之后再通过经训练的Word2Vec模型对分词处理后的文本进行向量匹配,可以提高所得结果与标签词的相关度。该方法结合了Word2Vec模型并且过滤了副词,助词以及弱词性文本,实现了对文档于标签相关度的匹配,提高匹配准确性,提高了用户根据某一新出现的词语,获取相关文档时的准确性,提高用户检索准确性,降低误检率。避免了出现类似对“的士”进行全文匹配的时候,会把含有“的士高”的文本也打上该标签的情况。
值得说明的是本发明公开的文本和标签语义关联方法,是基于人的概念认知建立的关联,即不仅能通过同义词关联文档标签,还能够通过子概念关联文档标签,定义为提及语义关联。提及语义关联更吻合于语言习惯,即当文档内容提及了标签的子概念,应该被认为文档与标签关联,比如文档中出现“洗衣机”应该认为关联“家用电器”标签,文档出现“曲酒”应该认为关联“白酒”标签等等。通过扩大对同义词的提取范围,从而实现对一些仅出现在新闻文章中的新词同义词或相关词的及时提取或获得。避免了对此类新词的遗漏问题的出现。此外,还可以将同一类的词映射到更广义的词,比如,将“鸡油”、“鸭油”、“猪油”映射到“动物油”,使得提取的标签更加广义。
参考图2,在一具体实施例中,所述步骤S20具体包括如下步骤:
S202、根据分词计算方法,将文本数据拆分成词组;
S204、根据词性,删除副词,助词,标点符号等弱词性的词;
S206、将词组与停用词库进行对比,删除停用词库包含的词;
S208、输出分词词组。
在本实施例中,具体说明了对所述文本数据进行分词处理的整个过程,该过程可以删除副词,助词,标点符号等弱词性的词;并且可以删除停用词库包含的词,现实了文本的过滤预处理,提高用户检索准确性,降低误检率。避免了出现类似对“的士”进行全文匹配的时候,会把含有“的士高”的文本也打上该标签的情况。
在一具体实施例中,所述步骤S30具体包括如下步骤:
S302、根据互联网信息,获取文本语料;
S304、删除停用词,分词;
S306、根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;
S308、对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。
在本实施例中,具体说明了向量转换的过程,Word2Vec模型是一个模型文件,是所有词向量化表示的模型文件。训练这个模型要给他输入大量的文档,文档越多,模型一般越准确。它由google公司提供的开源模型。其训练方法与使用方法可以按该模型的常用方法进行。通过这种向量转换的方式,实现了对同义词以及近义词的统一标签处理。
在一具体实施例中,所述步骤S40具体包括如下步骤:
S402、按顺序取出一个分词结果向量;
S404、将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;
S406、若分词结果没有处理完,则重复步骤S402。
在本实施例中,具体说明了标签库匹配的原则,具体的匹配原则为,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了对同义词以及近义词的统一标签处理。
在一具体实施例中,所述步骤S50具体包括如下步骤:
S502、按顺序取出一个分词结果向量;
S504、将分词结果向量与映射标签库进行对比,如果有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;
S506、若分词结果没有处理完,则重复步骤S502。
在本实施例中,具体说明了映射标签库的匹配原则,具体的匹配原则为,有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了把归属到同一标签的不同描述通过映射关系归一到同一个标签中。
参考图3,在本发明的一个实施例中提供一种基于Word2Vec的文本标签提取装置,所述基于Word2Vec的文本标签提取装置包括:
获取模块10,用于获取所述文本的文本数据;
分词处理模块20,用于对所述文本数据进行分词处理;
向量转换模块30,用于根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;
标签库匹配模块40,用于根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;
标签映射库匹配模块50,用于根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;
输出模块60,用于输出标签队列里的文本标签。
本发明的技术方案分词处理模块20,用于对所述文本数据进行分词处理,然后通过向量转换模块30使用Word2Vec,把词转换为向量,并且使用标签库匹配模块40,对所述分词结果向量进行匹配识别,实现了对近义词,同义词进行统一标签处理,有效地处理了同义词和近义词的问题。此外,还引入了标签映射库匹配模块50,根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列还引入标签映射处理流程,可以实现把归属到同一标签的不同描述通过映射关系归一到同一个标签中,使其最后提取的标签具有更加广泛的意义。
在一具体实施例中,所述分词处理模块20具体包括:
拆分模块201,用于根据分词计算方法,将文本数据拆分成词组;
第一删除模块202,用于根据词性,删除副词,助词,标点符号等弱词性的词;
第二删除模块203,用于将词组与停用词库进行对比,删除停用词库包含的词;
输出词组模块204,用于输出分词词组。
在本实施例中,具体说明了对所述文本数据进行分词处理的整个过程,第一删除模块202可以删除副词,助词,标点符号等弱词性的词;第二删除模块203可以删除停用词库包含的词,现实了文本的过滤预处理,提高用户检索准确性,降低误检率。避免了出现类似对“的士”进行全文匹配的时候,会把含有“的士高”的文本也打上该标签的情况。
在一具体实施例中,所述向量转换模块30具体包括:
获取语料模块301,用于根据互联网信息,获取文本语料;
第三删除模块302,用于删除停用词,分词;
构造模块303,用于根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;
分词向量转换模块304,用于对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。
在本实施例中,具体说明了向量转换的过程,Word2Vec模型是一个模型文件,是所有词向量化表示的模型文件。训练这个模型要给他输入大量的文档,文档越多,模型一般越准确。它由google公司提供的开源模型。其训练方法与使用方法可以按该模型的常用方法进行。通过这种向量转换的方式,实现了对同义词以及近义词的统一标签处理。
在一具体实施例中,所述标签库匹配模块40具体用于:
按顺序取出一个分词结果向量;将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;若分词结果没有处理完,则重复上述步骤。
在本实施例中,具体说明了标签库匹配模块40内的标签库匹配的原则,具体的匹配原则为,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了对同义词以及近义词的统一标签处理。
在一具体实施例中,所述标签映射库匹配模块50具体用于:
按顺序取出一个分词结果向量;将分词结果向量与映射标签库进行对比,如果存在有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;若分词结果没有处理完,则重复上述步骤。
在本实施例中,具体说明了映射标签库匹配模块50内的匹配原则,具体的匹配原则为,有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了把归属到同一标签的不同描述通过映射关系归一到同一个标签中。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种基于Word2Vec的文本标签提取方法,其特征在于,所述基于Word2Vec的文本标签提取方法包括如下步骤:
S10、获取所述文本的文本数据;
S20、对所述文本数据进行分词处理;
S30、根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;
S40、根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;
S50、根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;
S60、输出标签队列里的文本标签。
2.如权利要求1所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S20具体包括如下步骤:
S202、根据分词计算方法,将文本数据拆分成词组;
S204、根据词性,删除副词,助词,标点符号等弱词性的词;
S206、将词组与停用词库进行对比,删除停用词库包含的词;
S208、输出分词词组。
3.如权利要求2所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S30具体包括如下步骤:
S302、根据互联网信息,获取文本语料;
S304、删除停用词,分词;
S306、根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;
S308、对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。
4.如权利要求3所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S40具体包括如下步骤:
S402、按顺序取出一个分词结果向量;
S404、将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;
S406、若分词结果没有处理完,则重复步骤S402。
5.如权利要求4所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S50具体包括如下步骤:
S502、按顺序取出一个分词结果向量;
S504、将分词结果向量与映射标签库进行对比,如果有向量完全匹配的标签,或者映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;
S506、若分词结果没有处理完,则重复步骤S502。
6.一种基于Word2Vec的文本标签提取装置,其特征在于,所述基于Word2Vec的文本标签提取装置包括:
获取模块,用于获取所述文本的文本数据;
分词处理模块,用于对所述文本数据进行分词处理;
向量转换模块,用于根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;
标签库匹配模块,用于根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;
标签映射库匹配模块,用于根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;
输出模块,用于输出标签队列里的文本标签。
7.如权利要求6所述的一种基于Word2Vec的文本标签提取装置,其特征在于,所述分词处理模块具体包括:
拆分模块,用于根据分词计算方法,将文本数据拆分成词组;
第一删除模块,用于根据词性,删除副词,助词,标点符号等弱词性的词;
第二删除模块,用于将词组与停用词库进行对比,删除停用词库包含的词;
输出词组模块,用于输出分词词组。
8.如权利要求7所述的一种基于Word2Vec的文本标签提取装置,其特征在于,所述向量转换模块具体包括:
获取语料模块,用于根据互联网信息,获取文本语料;
第三删除模块,用于删除停用词,分词;
构造模块,用于根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;
分词向量转换模块,用于对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。
9.如权利要求8所述的一种基于Word2Vec的文本标签提取装置,其特征在于,所述标签库匹配模块具体用于:
按顺序取出一个分词结果向量;将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;若分词结果没有处理完,则重复上述步骤。
10.如权利要求9所述的一种基于Word2Vec的文本标签提取装置,其特征在于,所述标签映射库匹配模块具体用于:
按顺序取出一个分词结果向量;将分词结果向量与映射标签库进行对比,如果存在有向量完全匹配的标签,或者与映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;若分词结果没有处理完,则重复上述步骤。
CN201711001712.5A 2017-10-24 2017-10-24 一种基于Word2Vec的文本标签提取方法及装置 Pending CN107861944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711001712.5A CN107861944A (zh) 2017-10-24 2017-10-24 一种基于Word2Vec的文本标签提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711001712.5A CN107861944A (zh) 2017-10-24 2017-10-24 一种基于Word2Vec的文本标签提取方法及装置

Publications (1)

Publication Number Publication Date
CN107861944A true CN107861944A (zh) 2018-03-30

Family

ID=61697612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711001712.5A Pending CN107861944A (zh) 2017-10-24 2017-10-24 一种基于Word2Vec的文本标签提取方法及装置

Country Status (1)

Country Link
CN (1) CN107861944A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664998A (zh) * 2018-04-27 2018-10-16 上海爱优威软件开发有限公司 一种释义加强的图片训练方法及系统
CN109582965A (zh) * 2018-11-30 2019-04-05 四川长虹电器股份有限公司 语义分析引擎的分布式平台构架方法、系统
CN109992646A (zh) * 2019-03-29 2019-07-09 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN111178070A (zh) * 2019-12-25 2020-05-19 平安医疗健康管理股份有限公司 基于分词的单词序列获取方法、装置和计算机设备
CN111382246A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 文本的匹配方法、匹配装置及终端
CN115618085A (zh) * 2022-10-21 2023-01-17 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095288A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN106571140A (zh) * 2016-11-14 2017-04-19 Tcl集团股份有限公司 一种基于语音语义的电器智能控制方法及系统
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095288A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN106571140A (zh) * 2016-11-14 2017-04-19 Tcl集团股份有限公司 一种基于语音语义的电器智能控制方法及系统
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664998A (zh) * 2018-04-27 2018-10-16 上海爱优威软件开发有限公司 一种释义加强的图片训练方法及系统
CN109582965A (zh) * 2018-11-30 2019-04-05 四川长虹电器股份有限公司 语义分析引擎的分布式平台构架方法、系统
CN109582965B (zh) * 2018-11-30 2022-03-01 四川长虹电器股份有限公司 语义分析引擎的分布式平台构架方法、系统
CN111382246A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 文本的匹配方法、匹配装置及终端
CN109992646A (zh) * 2019-03-29 2019-07-09 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN109992646B (zh) * 2019-03-29 2021-03-26 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN111178070A (zh) * 2019-12-25 2020-05-19 平安医疗健康管理股份有限公司 基于分词的单词序列获取方法、装置和计算机设备
CN115618085A (zh) * 2022-10-21 2023-01-17 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法
CN115618085B (zh) * 2022-10-21 2024-04-05 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法

Similar Documents

Publication Publication Date Title
CN107861944A (zh) 一种基于Word2Vec的文本标签提取方法及装置
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN107291783B (zh) 一种语义匹配方法及智能设备
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
CN106156365B (zh) 一种知识图谱的生成方法及装置
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
CN103593412B (zh) 一种基于树形结构问题的应答方法及系统
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN111859968A (zh) 一种文本结构化方法、文本结构化装置及终端设备
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN105956181A (zh) 搜索方法及装置
CN112487154B (zh) 一种基于自然语言的智能搜索方法
CN109858035A (zh) 一种情感分类方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330