CN105631009A - 基于词向量相似度的检索方法和系统 - Google Patents
基于词向量相似度的检索方法和系统 Download PDFInfo
- Publication number
- CN105631009A CN105631009A CN201511003865.4A CN201511003865A CN105631009A CN 105631009 A CN105631009 A CN 105631009A CN 201511003865 A CN201511003865 A CN 201511003865A CN 105631009 A CN105631009 A CN 105631009A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- word vector
- file
- storehouse
- related term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000010168 coupling process Methods 0.000 claims description 33
- 230000008878 coupling Effects 0.000 claims description 32
- 238000005859 coupling reaction Methods 0.000 claims description 32
- 238000002203 pretreatment Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于词向量相似度的检索方法和系统。所述方法包括:对检索库进行词向量训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。通过本发明,能够结合各检索库中的用词特点,增强对相关词的检索匹配能力,从而提高检索准确率和鲁棒性。
Description
技术领域
本发明涉及信息检索技术领域,特别是涉及基于词向量相似度的检索方法和基于词向量相似度的检索系统。
背景技术
现有的对简历搜索匹配过程的技术,通常是通过多个关键词进行检索。通过用户提供一组关键词在检索库中进行检索,以匹配词命中的数量作为匹配分值,根据匹配分值由高到低的排列输出检索结果,默认排在前的结果更符合用户要求。然而,这种检索方式存在以下缺点:
(1)没能考虑到不同检索库的用词特点,例如英文的大小写,字符的全角半角等;
(2)不能考虑到词与词之间的关系,导致检索过程中,对与关键词存在很强联系的其它词缺乏信息匹配能力;例如关键词设为“程序”,却无法对检索库中“软件”的信息进行检索匹配;
(3)对关键词选取的要求高,检索鲁棒性差;如果关键词遗漏或者输错,对最终检索结果会产生很大影响。
综上所述,现有的基于关键词的检索方法,其检索召回率和检索结果准确率都不够理想,同时存在鲁棒性和适应性较差的问题。
发明内容
基于此,本发明提供一种基于词向量相似度的检索方法和系统,能够提高检索准确率和鲁棒性。
本发明一方面提供一种基于词向量相似度的检索方法,包括:
对检索库进行词向量训练,建立所述检索库对应的训练模型;
接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
优选的,所述对检索库进行词向量训练,之前包括:
对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
优选的,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
优选的,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
优选的,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值,包括:
用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
本发明另一方面提供一种基于词向量相似度的检索系统,包括:
模型训练单元,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
生成相关词单元,用于接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
检索匹配单元,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
结果输出单元,用于根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
优选的,所述模型训练单元,还用于对检索库进行词向量训练之前,对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
优选的,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
优选的,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
优选的,所述检索匹配单元包括:
匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
上述技术方案的基于词向量相似度的检索方法和系统,通过对检索库进行词向量训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的,因此能很好反映检索库的用词特点,有利于提高检索准确率;其次将关键词以词向量的形式进行表示,检索时根据关键词的相关词进行检索匹配,增加了对相关词的检索匹配能力,从而提高了检索鲁棒性。
附图说明
图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图;
图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的实施例包括基于词向量相似度的检索方法实施例,还包括相应的基于词向量相似度的检索系统实施例。以下分别进行详细说明。
图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图;如图1所示,本实施例的基于词向量相似度的检索方法包括如下步骤S1至S4,各步骤详述如下:
S1,对检索库进行词向量训练,建立所述检索库对应的训练模型;
自然语言理解的问题要转化为机器学习的问题,第一步需要找一种方法把这些符号数学化,例如把每个词都表示为一个特有的向量。词向量是“WordRepresentation”或“WordEmbedding”的中文俗称。
本实施例中的词向量应当具有的特点包括:让相关或者相似的词,在距离上更接近,例如“麦克”和“话筒”的距离会远小于“麦克”和“天气”的距离。向量的距离可以用传统的欧氏距离来衡量,也可以用cos夹角来衡量。
优选的,所述词向量可为用DistributedRepresentation表示的词向量。DistributedRepresentation表示的词向量为一种低维实数向量,这种向量一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…],维度以50维和100维比较常见。
作为一优选实施方式,在对检索库进行词向量训练之前,还可对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中。
优选的,其中所述预处理包括数据清洗和提取数据描述。其中数据清洗主要用于实现检索库中数据的一致性,具体可包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;所述提取数据描述包括通过添加用户词典进行分词,具体可为添加用户词典并通过NLPIR(又名ICTCLAS2013,汉语分词系统)进行分词。
进一步的,基于所述训练样本文件对所述检索库进行词向量训练,以建立所述检索库对应的训练模型。具体方式可为:通过word2vec对所述训练样本文件进行词向量训练,训练设置如下:
./word2vec-trainresult_cropus.txt-outputvectors.bin-cbow0-size50-window5-negative0-hs1-sample1e-3-threads4-binary1-min_count3;
其中,各参数的含义为:
-train后面表示参与训练的训练样本文件名,
-cbow表示采用跳空词袋模型,
-size表示词向量采用的维度,
-window表示上下文窗口长度,
-negative表示是否采用负采样方法,0表示不使用,1表示使用,
-hs表示是否使用HS方法,0表示不使用,1表示使用,
-samplele-3表示采样的阈值为10-3,如果一个词在训练样本中出现的频
率越大,那么就越会被采样;
-thread表示开启线程数,
-binary表示输出是否为二进制文件,0表示不使用,1表示使用,
-min_count表示设置的最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃。
至此,可得到与所述检索库对应的训练模型。
S2,接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
本实施例中,两个词向量的相似度指的是余弦相似度,最高可为1,最低可为0。由于训练模型是基于检索库训练得到的,因此基于该训练模型得到的相关词能很好反映检索库的用词特点。具体可通过./distancevectors.bin命令产生相关词及相似度,并通过sh脚本和expect脚本自动生成。
例如:需要在简历库中检索C++软件开发工程师,输入关键词为C++、软件、MFC、数据结构,基于该简历库的训练模型可以得到以下相关词词表和相似度,详见下表:
S3,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
本实施例中,用上述步骤得出的相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;将各相关词对应的相似度作为累加权值,结合所述匹配结果分别可得出各文件与所述相关词的匹配分值。
S4,根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
优选的,可设定分值门限,仅对匹配分值高于所述分值门限的检索结果进行排序,并按照匹配分值由高到低的排序输出。通过设定分值门限对检索结果进一步筛选,有利于用户查阅检索结果。
通过上述实施例的基于词向量相似度的检索方法,通过对检索库进行词向量训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的,因此能很好反映检索库的用词特点,有利于提高检索准确率;其次将关键词以词向量的形式进行表示,检索时根据关键词的相关词进行检索匹配,增加了对相关词的检索匹配能力,从而提高了检索鲁棒性。
需要说明的是,对于前述的方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
以下对可用于执行上述基于词向量相似度的检索方法的基于词向量相似度的检索系统实施例进行说明。为了便于说明,基于词向量相似度的检索系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图中示出的系统结构并不构成对系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图;如图2所示,本实施例的基于词向量相似度的检索系统包括:模型训练单元210、生成相关词单元220、检索匹配单元230以及结果输出单元240,各单元详述如下:
所述模型训练单元210,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
本实施例中的词向量应当具有的特点包括:让相关或者相似的词,在距离上更接近,例如“麦克”和“话筒”的距离会远小于“麦克”和“天气”的距离。向量的距离可以用传统的欧氏距离来衡量,也可以用cos夹角来衡量。
优选的,所述词向量可为用DistributedRepresentation表示的词向量。DistributedRepresentation表示的词向量为一种低维实数向量,这种向量一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…],维度以50维和100维比较常见。
作为一优选实施方式,所述模型训练单元210,还用于对检索库进行词向量训练之前,对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中,以基于所述训练样本文件对所述检索库进行词向量训练。其中,所述预处理包括数据清洗和提取数据描述。所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;所述提取数据描述包括通过添加用户词典进行分词,具体方式可为添加用户词典并通过NLPIR(又名ICTCLAS2013,汉语分词系统)进行分词。
优选的,可通过word2vec对所述训练样本文件进行词向量训练,训练设置如下:
./word2vec-trainresult_cropus.txt-outputvectors.bin-cbow0-size50-window5-negative0-hs1-sample1e-3-threads4-binary1-min_count3;
其中,各参数的含义为:
-train后面表示参与训练的训练样本文件名,
-cbow表示采用跳空词袋模型,
-size表示词向量采用的维度,
-window表示上下文窗口长度,
-negative表示是否采用负采样方法,0表示不使用,1表示使用,
-hs表示是否使用HS方法,0表示不使用,1表示使用,
-samplele-3表示采样的阈值为10-3,
-thread表示开启线程数,
-binary表示输出是否为二进制文件,0表示不使用,1表示使用,
-min_count表示设置的最低频率,默认为5。
进一步的,所述生成相关词单元220,用于接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
本实施例中,两个词向量的相似度指的是余弦相似度,最高可为1,最低可为0。由于训练模型是基于检索库训练得到的,因此基于该训练模型得到的相关词能很好反映检索库的用词特点。
所述检索匹配单元230,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
优选的,所述检索匹配单元230可具体包括:匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
所述结果输出单元240,用于根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
本实施例中,还可设定一个分值门限,仅对匹配分值高于所述分值门限的检索结果进行排序,并按照匹配分值由高到低的排序输出。通过设定分值门限对检索结果进一步筛选,有利于用户查阅检索结果。
需要说明的是,上述示例的基于词向量相似度的检索系统的实施方式中,各模块/单元之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的基于词向量相似度的检索系统的实施方式中,各功能模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的功能模块完成,即将所述基于词向量相似度的检索系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述示例的基于词向量相似度的检索系统的实施方式中,各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。本领域普通技术人员可以理解本发明的任意实施例指定的方法的全部或部分步骤是可以通过程序来指令相关的硬件(个人计算机、服务器、或者网络设备等)来完成。该程序可以存储于一计算机可读存储介质中。该程序在执行时,可执行上述任意实施例指定的方法的全部或部分步骤。前述存储介质可以包括任何可以存储程序代码的介质,例如只读存储器(Read-OnlyMemory,ROM)、随机存取器(RandomAccessMemory,RAM)、磁盘或光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于词向量相似度的检索方法,其特征在于,包括:
对检索库进行词向量训练,建立所述检索库对应的训练模型;
接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
2.根据权利要求1所述的基于词向量相似度的检索方法,其特征在于,所述对检索库进行词向量训练之前包括:
对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
3.根据权利要求2所述的基于词向量相似度的检索方法,其特征在于,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
4.根据权利要求2所述的基于词向量相似度的检索方法,其特征在于,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
5.根据权利要求1所述的基于词向量相似度的检索方法,其特征在于,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值包括:
用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
6.一种基于词向量相似度的检索系统,其特征在于,包括:
模型训练单元,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
生成相关词单元,用于接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
检索匹配单元,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
结果输出单元,用于根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
7.根据权利要求6所述的基于词向量相似度的检索系统,其特征在于,所述模型训练单元,还用于对检索库进行词向量训练之前,对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
8.根据权利要求7所述的基于词向量相似度的检索系统,其特征在于,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
9.根据权利要求7所述的基于词向量相似度的检索系统,其特征在于,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
10.根据权利要求6所述的基于词向量相似度的检索系统,其特征在于,所述检索匹配单元包括:
匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511003865.4A CN105631009A (zh) | 2015-12-25 | 2015-12-25 | 基于词向量相似度的检索方法和系统 |
PCT/CN2016/098234 WO2017107566A1 (zh) | 2015-12-25 | 2016-09-06 | 基于词向量相似度的检索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511003865.4A CN105631009A (zh) | 2015-12-25 | 2015-12-25 | 基于词向量相似度的检索方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105631009A true CN105631009A (zh) | 2016-06-01 |
Family
ID=56045942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511003865.4A Pending CN105631009A (zh) | 2015-12-25 | 2015-12-25 | 基于词向量相似度的检索方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105631009A (zh) |
WO (1) | WO2017107566A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407311A (zh) * | 2016-08-30 | 2017-02-15 | 北京百度网讯科技有限公司 | 获取搜索结果的方法和装置 |
CN106886567A (zh) * | 2017-01-12 | 2017-06-23 | 北京航空航天大学 | 基于语义扩展的微博突发事件检测方法及装置 |
WO2017107566A1 (zh) * | 2015-12-25 | 2017-06-29 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
CN107330023A (zh) * | 2017-06-21 | 2017-11-07 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN109190046A (zh) * | 2018-09-18 | 2019-01-11 | 北京点网聚科技有限公司 | 内容推荐方法、装置及内容推荐服务器 |
CN110110333A (zh) * | 2019-05-08 | 2019-08-09 | 上海数据交易中心有限公司 | 一种互联对象的检索方法及系统 |
CN110309278A (zh) * | 2019-05-23 | 2019-10-08 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110609952A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
CN110610695A (zh) * | 2018-05-28 | 2019-12-24 | 宁波方太厨具有限公司 | 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机 |
CN110909789A (zh) * | 2019-11-20 | 2020-03-24 | 精硕科技(北京)股份有限公司 | 声量预测方法和装置、电子设备及存储介质 |
CN111625621A (zh) * | 2020-04-27 | 2020-09-04 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种文档检索方法、装置、电子设备及存储介质 |
CN112136126A (zh) * | 2018-03-23 | 2020-12-25 | 株式会社半导体能源研究所 | 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 |
WO2021043088A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 文件查询方法、装置、计算机设备及存储介质 |
CN112650833A (zh) * | 2020-12-25 | 2021-04-13 | 哈尔滨工业大学(深圳) | Api匹配模型建立方法及跨城市政务api匹配方法 |
CN117591630A (zh) * | 2023-11-21 | 2024-02-23 | 北京天防安全科技有限公司 | 一种关键词识别方法、装置和设备 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933779A (zh) * | 2017-12-18 | 2019-06-25 | 苏宁云商集团股份有限公司 | 用户意图识别方法及系统 |
CN110084658B (zh) * | 2018-01-26 | 2024-01-16 | 北京京东尚科信息技术有限公司 | 物品匹配的方法和装置 |
CN109165382B (zh) * | 2018-08-03 | 2022-08-23 | 南京工业大学 | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 |
CN109582771B (zh) * | 2018-11-26 | 2022-11-25 | 国网湖南省电力有限公司 | 面向电力领域基于移动应用的智能客户交互方法 |
CN111104488B (zh) * | 2019-12-30 | 2023-10-24 | 广州广电运通信息科技有限公司 | 检索和相似度分析一体化的方法、装置和存储介质 |
CN111625468B (zh) * | 2020-06-05 | 2024-04-16 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN112711648B (zh) * | 2020-12-23 | 2024-07-02 | 航天信息股份有限公司 | 一种数据库字符串密文存储方法、电子设备和介质 |
CN113515621B (zh) * | 2021-04-02 | 2024-03-29 | 中国科学院深圳先进技术研究院 | 数据检索方法、装置、设备及计算机可读存储介质 |
CN113569006A (zh) * | 2021-06-17 | 2021-10-29 | 国家电网有限公司 | 一种基于数据特征的大规模数据质量异常检测方法 |
CN116431838B (zh) * | 2023-06-15 | 2024-01-30 | 北京墨丘科技有限公司 | 文献检索方法、装置、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
US20150248608A1 (en) * | 2014-02-28 | 2015-09-03 | Educational Testing Service | Deep Convolutional Neural Networks for Automated Scoring of Constructed Responses |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN105005589A (zh) * | 2015-06-26 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631009A (zh) * | 2015-12-25 | 2016-06-01 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
-
2015
- 2015-12-25 CN CN201511003865.4A patent/CN105631009A/zh active Pending
-
2016
- 2016-09-06 WO PCT/CN2016/098234 patent/WO2017107566A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150248608A1 (en) * | 2014-02-28 | 2015-09-03 | Educational Testing Service | Deep Convolutional Neural Networks for Automated Scoring of Constructed Responses |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN105005589A (zh) * | 2015-06-26 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法和装置 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107566A1 (zh) * | 2015-12-25 | 2017-06-29 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
CN106407311A (zh) * | 2016-08-30 | 2017-02-15 | 北京百度网讯科技有限公司 | 获取搜索结果的方法和装置 |
CN106886567A (zh) * | 2017-01-12 | 2017-06-23 | 北京航空航天大学 | 基于语义扩展的微博突发事件检测方法及装置 |
CN106886567B (zh) * | 2017-01-12 | 2019-11-08 | 北京航空航天大学 | 基于语义扩展的微博突发事件检测方法及装置 |
CN107330023A (zh) * | 2017-06-21 | 2017-11-07 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN107330023B (zh) * | 2017-06-21 | 2021-02-12 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN112136126A (zh) * | 2018-03-23 | 2020-12-25 | 株式会社半导体能源研究所 | 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 |
US12019636B2 (en) | 2018-03-23 | 2024-06-25 | Semiconductor Energy Laboratory Co., Ltd. | Document search system, document search method, program, and non-transitory computer readable storage medium |
CN110610695B (zh) * | 2018-05-28 | 2022-05-17 | 宁波方太厨具有限公司 | 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机 |
CN110610695A (zh) * | 2018-05-28 | 2019-12-24 | 宁波方太厨具有限公司 | 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机 |
CN109190046A (zh) * | 2018-09-18 | 2019-01-11 | 北京点网聚科技有限公司 | 内容推荐方法、装置及内容推荐服务器 |
CN110110333A (zh) * | 2019-05-08 | 2019-08-09 | 上海数据交易中心有限公司 | 一种互联对象的检索方法及系统 |
CN110309278A (zh) * | 2019-05-23 | 2019-10-08 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110309278B (zh) * | 2019-05-23 | 2021-11-16 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110609952A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
WO2021043088A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 文件查询方法、装置、计算机设备及存储介质 |
CN110909789A (zh) * | 2019-11-20 | 2020-03-24 | 精硕科技(北京)股份有限公司 | 声量预测方法和装置、电子设备及存储介质 |
CN111625621A (zh) * | 2020-04-27 | 2020-09-04 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种文档检索方法、装置、电子设备及存储介质 |
CN112650833A (zh) * | 2020-12-25 | 2021-04-13 | 哈尔滨工业大学(深圳) | Api匹配模型建立方法及跨城市政务api匹配方法 |
CN117591630A (zh) * | 2023-11-21 | 2024-02-23 | 北京天防安全科技有限公司 | 一种关键词识别方法、装置和设备 |
CN117591630B (zh) * | 2023-11-21 | 2024-06-04 | 北京天防安全科技有限公司 | 一种关键词识别方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2017107566A1 (zh) | 2017-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631009A (zh) | 基于词向量相似度的检索方法和系统 | |
Bouaziz et al. | Short text classification using semantic random forest | |
Shen et al. | LIEGE: link entities in web lists with knowledge base | |
CN111177365A (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
Deshpande et al. | Text summarization using clustering technique | |
Huang et al. | Topic detection from large scale of microblog stream with high utility pattern clustering | |
Dong et al. | The automated acquisition of suggestions from tweets | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN113688954A (zh) | 一种计算文本相似度的方法、系统、设备和存储介质 | |
Man | Feature extension for short text categorization using frequent term sets | |
Zhang et al. | A Chinese question-answering system with question classification and answer clustering | |
CN111753514A (zh) | 一种专利申请文本的自动生成方法和装置 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
Guo et al. | Document vector extension for documents classification | |
Jotikabukkana et al. | Social media text classification by enhancing well-formed text trained model | |
Zulkifeli et al. | Classic term weighting technique for mining web content outliers | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization | |
Saad et al. | Efficient content based image retrieval using SVM and color histogram | |
Yang et al. | A short text sentiment classification method based on feature expansion and bidirectional neural network | |
Ramachandran et al. | Document Clustering Using Keyword Extraction | |
CN112800214B (zh) | 基于主题共现网络和外部知识的主题识别方法、系统及设备 | |
CN117972097B (zh) | 文本的分类方法、分类装置、电子设备及存储介质 | |
Huang et al. | News information extraction based on adaptive weighting using unsupervised Bayesian algorithm | |
Çoban et al. | An evaluation of character level N-gram termsets in text categorization | |
CN114090799B (zh) | 文本检索方法、装置、存储介质及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160601 |
|
RJ01 | Rejection of invention patent application after publication |