CN109614478A - 词向量模型的构建方法、关键词匹配方法及装置 - Google Patents

词向量模型的构建方法、关键词匹配方法及装置 Download PDF

Info

Publication number
CN109614478A
CN109614478A CN201811552104.8A CN201811552104A CN109614478A CN 109614478 A CN109614478 A CN 109614478A CN 201811552104 A CN201811552104 A CN 201811552104A CN 109614478 A CN109614478 A CN 109614478A
Authority
CN
China
Prior art keywords
document data
keyword
associated document
destination
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811552104.8A
Other languages
English (en)
Other versions
CN109614478B (zh
Inventor
皇秋曼
曹家
张西娜
赵菲菲
罗引
彭鑫
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Song Polytron Technologies Inc
Original Assignee
Beijing Zhongke Song Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Song Polytron Technologies Inc filed Critical Beijing Zhongke Song Polytron Technologies Inc
Priority to CN201811552104.8A priority Critical patent/CN109614478B/zh
Publication of CN109614478A publication Critical patent/CN109614478A/zh
Application granted granted Critical
Publication of CN109614478B publication Critical patent/CN109614478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。

Description

词向量模型的构建方法、关键词匹配方法及装置
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种词向量模型的构建方法、关键词匹配方法及装置。
背景技术
关键词匹配技术是目前专题信息聚焦中最常见的技术,是指在一个序列中查找出一个或多个特定序列的过程,即在正文文本中寻找专题关键词,关键词匹配算法主要包括三类:精确关键词匹配算法、近似关键词匹配算法和正则表达式匹配。
在获取专题信息过程中,单纯通过关键词匹配得到的信息可能无法满足用户的需求,如,单纯的关键词匹配检索到的东西可能不够全面,难以满足用户想要全方位获取专题信息的需求,因此,需要在关键词匹配的基础上提供更加精准的匹配方案,以满足用户体验。
申请内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种词向量模型的构建方法、关键词匹配方法及装置。
第一方面,本申请实施例提供一种词向量模型的构建方法,包括:
选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;
基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;
将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据。
在一可能的实施方式中,所述方法还包括:对所述目标文档数据进行分词以及去除停用词处理,得到第一数据;对所述关联文档数据进行分词处理,以及对分词处理后的所述关联文档数据进行目标关键词匹配;对包含所述目标关键词的所述关联文档数据的分词结果进行去除停用词处理,得到第二数据。
在一可能的实施方式中,所述方法还包括:对所述第一数据进行词频和逆向文档频率计算,得到与所述目标文档数据对应的第一TF-IDF向量;对所述第二数据进行词频和逆向文档频率计算,得到与所述关联文档数据对应的第二TF-IDF向量。
在一可能的实施方式中,所述符合训练条件的关联文档数据通过以下方式确定:
基于余弦相似度算法将所述关联文档数据的第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量进行相似度匹配;将相似度大于第一阈值的所述关联文档数据选取为符合训练条件的关联文档数据。
第二方面,本申请实施例提供一种基于词向量模型的关键词匹配方法,包括:
接收输入的关键词;
根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;
基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;
其中,所述符合关键词匹配度的目标文档数据为:所述关联文档数据中与所述关键词的相似度大于第二阈值的文档数据。
在一可能的实施方式中,所述方法还包括:
基于所述词向量模型对所述关键词进行向量化处理,得到与所述关键词对应的多维向量;基于所述词向量模型对所述关联文档数据进行量化处理,得到所述关联文档数据的多维向量。
在一可能的实施方式中,所述基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据,包括:
基于余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度;将所述相似度大于第二阈值的所述关联文档数据作为目标文档数据。
第三方面,本申请实施例提供一种词向量模型的构建装置,包括:
选取模块,用于选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;
获取模块,用于基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;
训练模块,用于将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据。
在一可能的实施方式中,所述装置还包括:处理模块,用于对所述目标文档数据进行分词以及去除停用词处理,得到第一数据;对所述关联文档数据进行分词处理,以及对分词处理后的所述关联文档数据进行目标关键词匹配;对包含所述目标关键词的所述关联文档数据的分词结果进行去除停用词处理,得到第二数据。
在一可能的实施方式中,所述装置还包括:向量化模块,用于对所述第一数据进行词频和逆向文档频率计算,得到与所述目标文档数据对应的第一TF-IDF向量;对所述第二数据进行词频和逆向文档频率计算,得到与所述关联文档数据对应的第二TF-IDF向量。
在一可能的实施方式中,所述符合训练条件的关联文档数据通过以下方式确定:基于余弦相似度算法将所述关联文档数据的第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量进行相似度匹配;将相似度大于第一阈值的所述关联文档数据选取为符合训练条件的关联文档数据。
第四方面,本申请实施例提供一种基于词向量模型的关键词匹配装置,包括:
接收模块,用于接收输入的关键词;
获取模块,用于根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;
选取模块,用于基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;
其中,所述符合关键词匹配度的目标文档数据为:所述关联文档数据与所述关键词的相似度大于第二阈值的文档数据。
在一可能的实施方式中,所述装置还包括:向量化模块,用于基于所述词向量模型对所述关键词进行向量化处理,得到与所述关键词对应的多维向量;基于所述词向量模型对所述关联文档数据进行量化处理,得到所述关联文档数据的多维向量。
在一可能的实施方式中,所述选取模块,具体用于基于余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度;将所述相似度大于第二阈值的所述关联文档数据作为目标文档数据。
第五方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如第一方面任一所述的方法,或如第二方面任一所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。再基于该模型在关键词匹配过程中采用多维向量匹配的方式,使得经过匹配后的文档与关键词的匹配度更高、更准确,在用户采用关键词作为特定专题信息时,通过上述匹配方式,用户可更加精准、全面地了解该专题信息的详细内容,提升用户体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种词向量模型的构建方法的流程示意图;
图2为本申请实施例提供的一种基于词向量模型的关键词匹配方法的流程示意图;
图3为本申请实施例提供的一种词向量模型的构建装置结构示意图;
图4为本申请实施例提供的一种基于词向量模型的关键词匹配装置结构示意图;
图5为本申请实施例提供的一种词向量模型的构建装置硬件结构示意图;
图6为本申请实施例提供的一种基于词向量模型的关键词匹配装置硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种词向量模型的构建方法的流程示意图,如图1所示,该方法具体包括:
S101、选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据。
本申请实施例提供的词向量模型的构建方法的目的在于通过关键词、关键词对应的目标文档数据以及通过关键词从网络上匹配关联文档数据作为训练文本进行训练,得到词向量模型。
其中,用户可根据实际需求选取一个或多个目标关键词(例如,泰国、普吉岛、沉船等),以及根据该目标关键词检索到的一个或多个目标文档数据,该目标文档数据为包含有目标关键词的数据,目标文档数据可以是,但不限于:微博、新闻或网站消息等。目标文档数据可以是用户手动选取的,还可以是通过特定平台或软件以检索的方式获取的,如,通过今日头条APP获取到的关于目标关键词的目标文档数据;对于目标文档数据的数量可根据具体实际需求进行设定,如,3个、4个或5个等,对此,本实施例不作具体限定。
S102、基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据。
本实施例中获取关联文档数据的步骤可采用多种方式,包括:采用搜索引擎进行搜索(如,通过百度、Google等进行搜索);在特定平台或软件以检索的方式获取(如通过微博、新闻软件等进行搜索,)等。
S103、将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型。
需要说明的是:在执行S103之前,还需要对目标文档数据以及关联文档数据进行如下处理,具体包括:
对所述目标文档数据进行分词以及去除停用词处理,得到第一数据;对所述关联文档数据进行分词处理,以及对分词处理后的所述关联文档数据进行目标关键词匹配;对包含所述目标关键词的所述关联文档数据的分词结果进行去除停用词处理,得到第二数据。
其中,本实施例中可采用分词工具(如jieba、SnowNLP、THULAC、NLPIR等)对目标文档数据和关联文档数据进行文本分词;对于文档数据中涉及的中文文本采用NLPIR汉语分词技术、英文文本采用空格分词;分词完成后还需要通过积累的停用词库对分词过滤去除停用词。
进一步地,对所述第一数据进行词频和逆向文档频率计算,得到与所述目标文档数据对应的第一TF-IDF向量;对所述第二数据进行词频和逆向文档频率计算,得到与所述关联文档数据对应的第二TF-IDF向量。
其中,词频(Term Frequency,TF)计算是指计算某一个给定的词语在该文件中出现的频率,可通过如下公式计算:
逆向文档频率(Inverse Document Frequency,IDF)计算是指:计算一个词语普遍重要性的度量,可通过如下公式计算:
其中,|D|为文档数,dj为第j篇文档且包含词wi
在本实施例中还可以采用增加权重的方式,使TF-IDF更加精准,具体采用如下方式:
TFIDF(wi)=TF(wi)*IDF(wi)
进一步地,基于余弦相似度算法将所述关联文档数据的第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量进行相似度匹配;将相似度大于第一阈值的所述关联文档数据选取为符合训练条件的关联文档数据。
其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据
在本实施例中,相似度的值的范围可以是:0-1,第一阈值可以是:0.5,将第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量相似度大于0.5的作为符合训练条件的关联文档数据。
对于第一阈值的具体值,可根据实际需要进行设定,如0.6,0.8等,对此本实施例不作具体限定。
本实施例的目的在于通过上述训练方法提供一种词向量模型,该模型可以是将目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对训练文本进行训练,得到的Word2vec模型,该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。
图2为本申请实施例提供的一种基于词向量模型的关键词匹配方法的流程示意图,如图2所示,该方法具体包括:
S201、接收输入的关键词。
本实施例中,采用通过图1所示的方法构建的词向量模型,再基于关键词,从网络上匹配出于关键词关联程度较高的文档,以使通过一个或多个关键词构成的特定专题信息,实现对该特定专题信息全方位精准聚焦获得相对较完整和全面的关于特定专题信息的文档数据。
其中,接收的输入的关键词,可以为用户手动输入的关键词,还可以是用户通过语音信号输入的关键词,或者从某个文本上选定的关键词。关键词的个数可以为一个或多个,可根据实际情况进行设定,对此本实施例不作具体限定。
S202、根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据。
具体地,通过关键词采用关键词匹配的方式,从网络获取与所述关键词相关的多个关联文档数据,如关键词为:泰国、普吉岛和沉船,通过搜索引擎对三个关键词的部分组合和/或全部组合进行搜索,其中,搜索的结果包括:有关泰国的文档数据、有关泰国普吉岛的文档数据、以及有关泰国普吉岛沉船的文档数据;文档数据可以是但不限于:新闻报道、微博、视频或当事人的有关描述等数据。
S203、基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据。
在本实施例中,采用向量量化的方式对关键词以及文档分词后的数据进行量化,具体地,基于所述词向量模型对所述关键词进行向量化处理,得到与所述关键词对应的多维向量;基于所述词向量模型对所述关联文档数据进行量化处理,得到所述关联文档数据的多维向量。
例如,将关键词量化为:(kw1,kw2,…,kwn),将关联文档数据量化为(w1,c1;w2,c2;…,wm,cm),其中,wi为词向量,ci为该词的权重。
进一步地,基于余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度;将所述相似度大于第二阈值的所述关联文档数据作为目标文档数据。
在余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度的步骤中,可采用比较关键词与关联文档数据分词后的每个分词的相似度的方式,例如:关键词的向量为A(a1,a2,…,an),关联文档数据分词后的分词的向量为B(b1,b2,…,bn),具体可采用如下公式计算:
其中,corr表示相似度,当关联文档数与关键词的相似度大于第二阈值时,该文档为符合关键词匹配度的目标文档数据。对于第二阈值的具体值,可根据实际需要进行设定,如0.6,0.8等,对此本实施例不作具体限定。
本实施例提供的基于词向量模型的关键词匹配方法,通过接收输入的关键词;根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;在关键词匹配过程中采用多维向量匹配的方式,使得经过匹配后的文档与关键词的匹配度更高、更准确,在用户采用关键词作为特定专题信息时,通过上述匹配方式,用户可更加精准、全面地了解该专题信息的详细内容,提升用户体验。
图3为本申请实施例提供的一种词向量模型的构建装置结构示意图,如图3所示,该装置具体包括:
选取模块301,用于选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;
获取模块302,用于基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;
训练模块303,用于将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据。
可选地,所述装置还包括:处理模块304,用于对所述目标文档数据进行分词以及去除停用词处理,得到第一数据;对所述关联文档数据进行分词处理,以及对分词处理后的所述关联文档数据进行目标关键词匹配;对包含所述目标关键词的所述关联文档数据的分词结果进行去除停用词处理,得到第二数据。
可选地,所述装置还包括:向量化模块305,用于对所述第一数据进行词频和逆向文档频率计算,得到与所述目标文档数据对应的第一TF-IDF向量;对所述第二数据进行词频和逆向文档频率计算,得到与所述关联文档数据对应的第二TF-IDF向量。
可选地,所述符合训练条件的关联文档数据通过以下方式确定:基于余弦相似度算法将所述关联文档数据的第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量进行相似度匹配;将相似度大于第一阈值的所述关联文档数据选取为符合训练条件的关联文档数据。
本实施例提供的词向量模型的构建装置可以是如图3中所示的词向量模型的构建装置,可执行如图1中词向量模型的构建方法的所有步骤,进而实现图1所示词向量模型的构建方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
图4为本申请实施例提供的一种基于词向量模型的关键词匹配装置结构示意图,如图4所示,该装置具体包括:
接收模块401,用于接收输入的关键词;
获取模块402,用于根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;
选取模块403,用于基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;
其中,所述符合关键词匹配度的目标文档数据为:所述关联文档数据中与所述关键词的相似度大于第二阈值的文档数据。
可选地,所述装置还包括:向量化模块404,用于基于所述词向量模型对所述关键词进行向量化处理,得到与所述关键词对应的多维向量;基于所述词向量模型对所述关联文档数据进行量化处理,得到所述关联文档数据的多维向量。
可选地,所述选取模块403,具体用于基于余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度;将所述相似度大于第二阈值的所述关联文档数据作为目标文档数据。
本实施例提供的基于词向量模型的关键词匹配装置可以是如图4中所示的基于词向量模型的关键词匹配装置,可执行如图2中词向量模型的构建基于词向量模型的关键词匹配方法的所有步骤,进而实现图2所示基于词向量模型的关键词匹配方法的技术效果,具体请参照图2相关描述,为简洁描述,在此不作赘述。
图5为本申请实施例提供的一种词向量模型的构建装置硬件结构示意图,如图5所示,该词向量模型的构建装置具体包括:处理器510、存储器520、收发器530。
处理器510可以是中央处理器(central processing unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器520用于存储各种应用,操作系统和数据。存储器520可以将存储的数据传输给处理器510。存储器520可以包括易失性存储器,非易失性动态随机存取内存(nonvolatile random access memory,NVRAM)、相变化随机存取内存(phase change RAM,PRAM)、磁阻式随机存取内存(magetoresistive RAM,MRAM)等,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(electrically erasable programmable read-onlymemory,EEPROM)、闪存器件,例如反或闪存(flash memory,NOR)或是反及闪存(flashmemory,NAND)、半导体器件,例如固态硬盘(solid state disk,SSD)等。存储器520还可以包括上述种类的存储器的组合。
收发器530,用于发送和/或接收数据,收发器530可以是天线等。
所述各器件的工作过程如下:
处理器510,用于选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据。
可选地,所述处理器510,还用于对所述目标文档数据进行分词以及去除停用词处理,得到第一数据;对所述关联文档数据进行分词处理,以及对分词处理后的所述关联文档数据进行目标关键词匹配;对包含所述目标关键词的所述关联文档数据的分词结果进行去除停用词处理,得到第二数据。
可选地,所述处理器510,还用于对所述第一数据进行词频和逆向文档频率计算,得到与所述目标文档数据对应的第一TF-IDF向量;对所述第二数据进行词频和逆向文档频率计算,得到与所述关联文档数据对应的第二TF-IDF向量。
可选地,所述处理器510,还用于基于余弦相似度算法将所述关联文档数据的第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量进行相似度匹配;将相似度大于第一阈值的所述关联文档数据选取为符合训练条件的关联文档数据。
本实施例提供的词向量模型的构建装置可以是如图5中所示的词向量模型的构建装置,可执行如图1中词向量模型的构建方法的所有步骤,进而实现图1所示词向量模型的构建方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
图6为本申请实施例提供的一种基于词向量模型的关键词匹配装置硬件结构示意图,如图6所示,该基于词向量模型的关键词匹配装置具体包括:处理器610、存储器620、收发器630。
处理器610可以是CPU,或者CPU和硬件芯片的组合。与上述图5中涉及的处理器510相同,可参照图5中处理器510的相关描述。
存储器620用于存储各种应用,操作系统和数据。与上述图5中涉及的存储器520相同,可参照图5中存储器520的相关描述。
收发器630,用于发送和/或接收数据,收发器630可以是天线等。
所述各器件的工作过程如下:
收发器630,用于接收输入的关键词;
处理器610,用于根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;其中,所述符合关键词匹配度的目标文档数据为:所述关联文档数据中与所述关键词的相似度大于第二阈值的文档数据。
可选地,处理器610,还用于基于所述词向量模型对所述关键词进行向量化处理,得到与所述关键词对应的多维向量;基于所述词向量模型对所述关联文档数据进行量化处理,得到所述关联文档数据的多维向量。
可选地,处理器610,还用于基于余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度;将所述相似度大于第二阈值的所述关联文档数据作为目标文档数据。
本实施例提供的基于词向量模型的关键词匹配装置可以是如图6中所示的基于词向量模型的关键词匹配装置,可执行如图2中词向量模型的构建基于词向量模型的关键词匹配方法的所有步骤,进而实现图2所示基于词向量模型的关键词匹配方法的技术效果,具体请参照图2相关描述,为简洁描述,在此不作赘述。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种词向量模型的构建方法,其特征在于,包括:
选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;
基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;
将所述目标文档数据和符合训练条件的所述关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的所述关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标文档数据进行分词以及去除停用词处理,得到第一数据;
对所述关联文档数据进行分词处理,以及对分词处理后的所述关联文档数据进行目标关键词匹配;
对包含所述目标关键词的所述关联文档数据的分词结果进行去除停用词处理,得到第二数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述第一数据进行词频和逆向文档频率计算,得到与所述目标文档数据对应的第一TF-IDF向量;
对所述第二数据进行词频和逆向文档频率计算,得到与所述关联文档数据对应的第二TF-IDF向量。
4.根据权利要求3所述的方法,其特征在于,所述符合训练条件的关联文档数据通过以下方式确定:
基于余弦相似度算法将所述关联文档数据的第二TF-IDF向量与所述目标文档数据的第一TF-IDF向量进行相似度匹配;
将相似度大于第一阈值的所述关联文档数据选取为符合训练条件的关联文档数据。
5.一种基于如权利要求1-4任一所述的词向量模型的关键词匹配方法,其特征在于,包括:
接收输入的关键词;
根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;
基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;
其中,所述符合关键词匹配度的目标文档数据为:所述关联文档数据中与所述关键词的相似度大于第二阈值的文档数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
基于所述词向量模型对所述关键词进行向量化处理,得到与所述关键词对应的多维向量;
基于所述词向量模型对所述关联文档数据进行量化处理,得到所述关联文档数据的多维向量。
7.根据权利要求6所述的方法,其特征在于,所述基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据,包括:
基于余弦相似度算法确定所述关联文档数据的多维向量与所述关键词对应的多维向量的相似度;
将所述相似度大于第二阈值的所述关联文档数据作为目标文档数据。
8.一种词向量模型的构建装置,其特征在于,包括:
选取模块,用于选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;
获取模块,用于基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;
训练模块,用于将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的文档数据。
9.一种基于如权利要求8所述的词向量模型的关键词匹配装置,其特征在于,包括:
接收模块,用于接收输入的关键词;
获取模块,用于根据所述关键词通过网络获取与所述关键词相关的多个关联文档数据;
选取模块,用于基于所述词向量模型从所述多个关联文档数据选取符合关键词匹配度的目标文档数据;
其中,所述符合关键词匹配度的目标文档数据为:所述关联文档数据中与所述关键词的相似度大于第二阈值的文档数据。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至4任一所述的方法,或如权利要求5至7任一所述的方法。
CN201811552104.8A 2018-12-18 2018-12-18 词向量模型的构建方法、关键词匹配方法及装置 Active CN109614478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811552104.8A CN109614478B (zh) 2018-12-18 2018-12-18 词向量模型的构建方法、关键词匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811552104.8A CN109614478B (zh) 2018-12-18 2018-12-18 词向量模型的构建方法、关键词匹配方法及装置

Publications (2)

Publication Number Publication Date
CN109614478A true CN109614478A (zh) 2019-04-12
CN109614478B CN109614478B (zh) 2020-12-08

Family

ID=66009819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811552104.8A Active CN109614478B (zh) 2018-12-18 2018-12-18 词向量模型的构建方法、关键词匹配方法及装置

Country Status (1)

Country Link
CN (1) CN109614478B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143203A (zh) * 2019-12-13 2020-05-12 支付宝(杭州)信息技术有限公司 机器学习、隐私代码确定方法、装置及电子设备
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN112784007A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224518A (zh) * 2014-06-17 2016-01-06 腾讯科技(深圳)有限公司 文本相似度的计算方法及系统、相似文本的查找方法及系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
EP3134831A2 (en) * 2014-04-23 2017-03-01 Elsevier B.V. Methods and computer-program products for organizing electronic documents
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN108804421A (zh) * 2018-05-28 2018-11-13 中国科学技术信息研究所 文本相似性分析方法、装置、电子设备及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3134831A2 (en) * 2014-04-23 2017-03-01 Elsevier B.V. Methods and computer-program products for organizing electronic documents
US10127229B2 (en) * 2014-04-23 2018-11-13 Elsevier B.V. Methods and computer-program products for organizing electronic documents
CN105224518A (zh) * 2014-06-17 2016-01-06 腾讯科技(深圳)有限公司 文本相似度的计算方法及系统、相似文本的查找方法及系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN108804421A (zh) * 2018-05-28 2018-11-13 中国科学技术信息研究所 文本相似性分析方法、装置、电子设备及计算机存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143203A (zh) * 2019-12-13 2020-05-12 支付宝(杭州)信息技术有限公司 机器学习、隐私代码确定方法、装置及电子设备
CN111143203B (zh) * 2019-12-13 2022-04-22 支付宝(杭州)信息技术有限公司 机器学习、隐私代码确定方法、装置及电子设备
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN111444326B (zh) * 2020-03-30 2023-10-20 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN112784007A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备
CN112784007B (zh) * 2020-07-16 2023-02-21 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN109614478B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
US8370345B2 (en) Snippet based proximal search
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US20120303637A1 (en) Automatic wod-cloud generation
JP2009537901A (ja) 検索による注釈付与
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN111767713B (zh) 关键词的提取方法、装置、电子设备及存储介质
CN109614478A (zh) 词向量模型的构建方法、关键词匹配方法及装置
CN106933787A (zh) 判决文书相似度的计算方法、查找装置及计算机设备
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
US20220414131A1 (en) Text search method, device, server, and storage medium
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN112732870B (zh) 基于词向量的搜索方法、装置、设备及存储介质
WO2018121198A1 (en) Topic based intelligent electronic file searching
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN110598123B (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
EP3301603A1 (en) Improved search for data loss prevention
CN105653553B (zh) 词权重生成方法和装置
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
CN109918661B (zh) 同义词获取方法及装置
CN114741489A (zh) 文档检索方法、装置、存储介质以及电子设备
CN110175331B (zh) 专业术语的识别方法、装置、电子设备及可读存储介质
CN112800226A (zh) 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant