CN105631009A - 基于词向量相似度的检索方法和系统 - Google Patents

基于词向量相似度的检索方法和系统 Download PDF

Info

Publication number
CN105631009A
CN105631009A CN201511003865.4A CN201511003865A CN105631009A CN 105631009 A CN105631009 A CN 105631009A CN 201511003865 A CN201511003865 A CN 201511003865A CN 105631009 A CN105631009 A CN 105631009A
Authority
CN
China
Prior art keywords
retrieval
word vector
file
storehouse
related term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511003865.4A
Other languages
English (en)
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201511003865.4A priority Critical patent/CN105631009A/zh
Publication of CN105631009A publication Critical patent/CN105631009A/zh
Priority to PCT/CN2016/098234 priority patent/WO2017107566A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于词向量相似度的检索方法和系统。所述方法包括:对检索库进行词向量训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。通过本发明,能够结合各检索库中的用词特点,增强对相关词的检索匹配能力,从而提高检索准确率和鲁棒性。

Description

基于词向量相似度的检索方法和系统
技术领域
本发明涉及信息检索技术领域,特别是涉及基于词向量相似度的检索方法和基于词向量相似度的检索系统。
背景技术
现有的对简历搜索匹配过程的技术,通常是通过多个关键词进行检索。通过用户提供一组关键词在检索库中进行检索,以匹配词命中的数量作为匹配分值,根据匹配分值由高到低的排列输出检索结果,默认排在前的结果更符合用户要求。然而,这种检索方式存在以下缺点:
(1)没能考虑到不同检索库的用词特点,例如英文的大小写,字符的全角半角等;
(2)不能考虑到词与词之间的关系,导致检索过程中,对与关键词存在很强联系的其它词缺乏信息匹配能力;例如关键词设为“程序”,却无法对检索库中“软件”的信息进行检索匹配;
(3)对关键词选取的要求高,检索鲁棒性差;如果关键词遗漏或者输错,对最终检索结果会产生很大影响。
综上所述,现有的基于关键词的检索方法,其检索召回率和检索结果准确率都不够理想,同时存在鲁棒性和适应性较差的问题。
发明内容
基于此,本发明提供一种基于词向量相似度的检索方法和系统,能够提高检索准确率和鲁棒性。
本发明一方面提供一种基于词向量相似度的检索方法,包括:
对检索库进行词向量训练,建立所述检索库对应的训练模型;
接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
优选的,所述对检索库进行词向量训练,之前包括:
对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
优选的,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
优选的,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
优选的,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值,包括:
用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
本发明另一方面提供一种基于词向量相似度的检索系统,包括:
模型训练单元,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
生成相关词单元,用于接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
检索匹配单元,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
结果输出单元,用于根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
优选的,所述模型训练单元,还用于对检索库进行词向量训练之前,对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
优选的,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
优选的,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
优选的,所述检索匹配单元包括:
匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
上述技术方案的基于词向量相似度的检索方法和系统,通过对检索库进行词向量训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的,因此能很好反映检索库的用词特点,有利于提高检索准确率;其次将关键词以词向量的形式进行表示,检索时根据关键词的相关词进行检索匹配,增加了对相关词的检索匹配能力,从而提高了检索鲁棒性。
附图说明
图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图;
图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的实施例包括基于词向量相似度的检索方法实施例,还包括相应的基于词向量相似度的检索系统实施例。以下分别进行详细说明。
图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图;如图1所示,本实施例的基于词向量相似度的检索方法包括如下步骤S1至S4,各步骤详述如下:
S1,对检索库进行词向量训练,建立所述检索库对应的训练模型;
自然语言理解的问题要转化为机器学习的问题,第一步需要找一种方法把这些符号数学化,例如把每个词都表示为一个特有的向量。词向量是“WordRepresentation”或“WordEmbedding”的中文俗称。
本实施例中的词向量应当具有的特点包括:让相关或者相似的词,在距离上更接近,例如“麦克”和“话筒”的距离会远小于“麦克”和“天气”的距离。向量的距离可以用传统的欧氏距离来衡量,也可以用cos夹角来衡量。
优选的,所述词向量可为用DistributedRepresentation表示的词向量。DistributedRepresentation表示的词向量为一种低维实数向量,这种向量一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…],维度以50维和100维比较常见。
作为一优选实施方式,在对检索库进行词向量训练之前,还可对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中。
优选的,其中所述预处理包括数据清洗和提取数据描述。其中数据清洗主要用于实现检索库中数据的一致性,具体可包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;所述提取数据描述包括通过添加用户词典进行分词,具体可为添加用户词典并通过NLPIR(又名ICTCLAS2013,汉语分词系统)进行分词。
进一步的,基于所述训练样本文件对所述检索库进行词向量训练,以建立所述检索库对应的训练模型。具体方式可为:通过word2vec对所述训练样本文件进行词向量训练,训练设置如下:
./word2vec-trainresult_cropus.txt-outputvectors.bin-cbow0-size50-window5-negative0-hs1-sample1e-3-threads4-binary1-min_count3;
其中,各参数的含义为:
-train后面表示参与训练的训练样本文件名,
-cbow表示采用跳空词袋模型,
-size表示词向量采用的维度,
-window表示上下文窗口长度,
-negative表示是否采用负采样方法,0表示不使用,1表示使用,
-hs表示是否使用HS方法,0表示不使用,1表示使用,
-samplele-3表示采样的阈值为10-3,如果一个词在训练样本中出现的频
率越大,那么就越会被采样;
-thread表示开启线程数,
-binary表示输出是否为二进制文件,0表示不使用,1表示使用,
-min_count表示设置的最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃。
至此,可得到与所述检索库对应的训练模型。
S2,接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
本实施例中,两个词向量的相似度指的是余弦相似度,最高可为1,最低可为0。由于训练模型是基于检索库训练得到的,因此基于该训练模型得到的相关词能很好反映检索库的用词特点。具体可通过./distancevectors.bin命令产生相关词及相似度,并通过sh脚本和expect脚本自动生成。
例如:需要在简历库中检索C++软件开发工程师,输入关键词为C++、软件、MFC、数据结构,基于该简历库的训练模型可以得到以下相关词词表和相似度,详见下表:
S3,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
本实施例中,用上述步骤得出的相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;将各相关词对应的相似度作为累加权值,结合所述匹配结果分别可得出各文件与所述相关词的匹配分值。
S4,根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
优选的,可设定分值门限,仅对匹配分值高于所述分值门限的检索结果进行排序,并按照匹配分值由高到低的排序输出。通过设定分值门限对检索结果进一步筛选,有利于用户查阅检索结果。
通过上述实施例的基于词向量相似度的检索方法,通过对检索库进行词向量训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的,因此能很好反映检索库的用词特点,有利于提高检索准确率;其次将关键词以词向量的形式进行表示,检索时根据关键词的相关词进行检索匹配,增加了对相关词的检索匹配能力,从而提高了检索鲁棒性。
需要说明的是,对于前述的方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
以下对可用于执行上述基于词向量相似度的检索方法的基于词向量相似度的检索系统实施例进行说明。为了便于说明,基于词向量相似度的检索系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图中示出的系统结构并不构成对系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图;如图2所示,本实施例的基于词向量相似度的检索系统包括:模型训练单元210、生成相关词单元220、检索匹配单元230以及结果输出单元240,各单元详述如下:
所述模型训练单元210,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
本实施例中的词向量应当具有的特点包括:让相关或者相似的词,在距离上更接近,例如“麦克”和“话筒”的距离会远小于“麦克”和“天气”的距离。向量的距离可以用传统的欧氏距离来衡量,也可以用cos夹角来衡量。
优选的,所述词向量可为用DistributedRepresentation表示的词向量。DistributedRepresentation表示的词向量为一种低维实数向量,这种向量一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…],维度以50维和100维比较常见。
作为一优选实施方式,所述模型训练单元210,还用于对检索库进行词向量训练之前,对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中,以基于所述训练样本文件对所述检索库进行词向量训练。其中,所述预处理包括数据清洗和提取数据描述。所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;所述提取数据描述包括通过添加用户词典进行分词,具体方式可为添加用户词典并通过NLPIR(又名ICTCLAS2013,汉语分词系统)进行分词。
优选的,可通过word2vec对所述训练样本文件进行词向量训练,训练设置如下:
./word2vec-trainresult_cropus.txt-outputvectors.bin-cbow0-size50-window5-negative0-hs1-sample1e-3-threads4-binary1-min_count3;
其中,各参数的含义为:
-train后面表示参与训练的训练样本文件名,
-cbow表示采用跳空词袋模型,
-size表示词向量采用的维度,
-window表示上下文窗口长度,
-negative表示是否采用负采样方法,0表示不使用,1表示使用,
-hs表示是否使用HS方法,0表示不使用,1表示使用,
-samplele-3表示采样的阈值为10-3
-thread表示开启线程数,
-binary表示输出是否为二进制文件,0表示不使用,1表示使用,
-min_count表示设置的最低频率,默认为5。
进一步的,所述生成相关词单元220,用于接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
本实施例中,两个词向量的相似度指的是余弦相似度,最高可为1,最低可为0。由于训练模型是基于检索库训练得到的,因此基于该训练模型得到的相关词能很好反映检索库的用词特点。
所述检索匹配单元230,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
优选的,所述检索匹配单元230可具体包括:匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
所述结果输出单元240,用于根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
本实施例中,还可设定一个分值门限,仅对匹配分值高于所述分值门限的检索结果进行排序,并按照匹配分值由高到低的排序输出。通过设定分值门限对检索结果进一步筛选,有利于用户查阅检索结果。
需要说明的是,上述示例的基于词向量相似度的检索系统的实施方式中,各模块/单元之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的基于词向量相似度的检索系统的实施方式中,各功能模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的功能模块完成,即将所述基于词向量相似度的检索系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述示例的基于词向量相似度的检索系统的实施方式中,各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。本领域普通技术人员可以理解本发明的任意实施例指定的方法的全部或部分步骤是可以通过程序来指令相关的硬件(个人计算机、服务器、或者网络设备等)来完成。该程序可以存储于一计算机可读存储介质中。该程序在执行时,可执行上述任意实施例指定的方法的全部或部分步骤。前述存储介质可以包括任何可以存储程序代码的介质,例如只读存储器(Read-OnlyMemory,ROM)、随机存取器(RandomAccessMemory,RAM)、磁盘或光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于词向量相似度的检索方法,其特征在于,包括:
对检索库进行词向量训练,建立所述检索库对应的训练模型;
接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
2.根据权利要求1所述的基于词向量相似度的检索方法,其特征在于,所述对检索库进行词向量训练之前包括:
对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
3.根据权利要求2所述的基于词向量相似度的检索方法,其特征在于,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
4.根据权利要求2所述的基于词向量相似度的检索方法,其特征在于,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
5.根据权利要求1所述的基于词向量相似度的检索方法,其特征在于,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值包括:
用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
6.一种基于词向量相似度的检索系统,其特征在于,包括:
模型训练单元,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
生成相关词单元,用于接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,以及各相关词与所述检索关键词的相似度;
检索匹配单元,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;
结果输出单元,用于根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出检索结果。
7.根据权利要求6所述的基于词向量相似度的检索系统,其特征在于,所述模型训练单元,还用于对检索库进行词向量训练之前,对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预处理包括数据清洗和提取数据描述;
所述对检索库进行词向量训练包括:
基于所述训练样本文件对所述检索库进行词向量训练。
8.根据权利要求7所述的基于词向量相似度的检索系统,其特征在于,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种;
所述提取数据描述包括通过添加用户词典进行分词。
9.根据权利要求7所述的基于词向量相似度的检索系统,其特征在于,所述对检索库进行词向量训练包括:
通过word2vec对所述训练样本文件进行词向量训练。
10.根据权利要求6所述的基于词向量相似度的检索系统,其特征在于,所述检索匹配单元包括:
匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关词的匹配结果;
统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
CN201511003865.4A 2015-12-25 2015-12-25 基于词向量相似度的检索方法和系统 Pending CN105631009A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201511003865.4A CN105631009A (zh) 2015-12-25 2015-12-25 基于词向量相似度的检索方法和系统
PCT/CN2016/098234 WO2017107566A1 (zh) 2015-12-25 2016-09-06 基于词向量相似度的检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511003865.4A CN105631009A (zh) 2015-12-25 2015-12-25 基于词向量相似度的检索方法和系统

Publications (1)

Publication Number Publication Date
CN105631009A true CN105631009A (zh) 2016-06-01

Family

ID=56045942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511003865.4A Pending CN105631009A (zh) 2015-12-25 2015-12-25 基于词向量相似度的检索方法和系统

Country Status (2)

Country Link
CN (1) CN105631009A (zh)
WO (1) WO2017107566A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置
CN109190046A (zh) * 2018-09-18 2019-01-11 北京点网聚科技有限公司 内容推荐方法、装置及内容推荐服务器
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统
CN110309278A (zh) * 2019-05-23 2019-10-08 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110609952A (zh) * 2019-08-15 2019-12-24 中国平安财产保险股份有限公司 数据采集方法、系统和计算机设备
CN110610695A (zh) * 2018-05-28 2019-12-24 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110909789A (zh) * 2019-11-20 2020-03-24 精硕科技(北京)股份有限公司 声量预测方法和装置、电子设备及存储介质
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN112136126A (zh) * 2018-03-23 2020-12-25 株式会社半导体能源研究所 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质
WO2021043088A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 文件查询方法、装置、计算机设备及存储介质
CN112650833A (zh) * 2020-12-25 2021-04-13 哈尔滨工业大学(深圳) Api匹配模型建立方法及跨城市政务api匹配方法
CN117591630A (zh) * 2023-11-21 2024-02-23 北京天防安全科技有限公司 一种关键词识别方法、装置和设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN110084658B (zh) * 2018-01-26 2024-01-16 北京京东尚科信息技术有限公司 物品匹配的方法和装置
CN109165382B (zh) * 2018-08-03 2022-08-23 南京工业大学 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN109582771B (zh) * 2018-11-26 2022-11-25 国网湖南省电力有限公司 面向电力领域基于移动应用的智能客户交互方法
CN111104488B (zh) * 2019-12-30 2023-10-24 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN111625468B (zh) * 2020-06-05 2024-04-16 中国银行股份有限公司 一种测试案例去重方法及装置
CN112711648B (zh) * 2020-12-23 2024-07-02 航天信息股份有限公司 一种数据库字符串密文存储方法、电子设备和介质
CN113515621B (zh) * 2021-04-02 2024-03-29 中国科学院深圳先进技术研究院 数据检索方法、装置、设备及计算机可读存储介质
CN113569006A (zh) * 2021-06-17 2021-10-29 国家电网有限公司 一种基于数据特征的大规模数据质量异常检测方法
CN116431838B (zh) * 2023-06-15 2024-01-30 北京墨丘科技有限公司 文献检索方法、装置、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
US20150248608A1 (en) * 2014-02-28 2015-09-03 Educational Testing Service Deep Convolutional Neural Networks for Automated Scoring of Constructed Responses
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631009A (zh) * 2015-12-25 2016-06-01 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150248608A1 (en) * 2014-02-28 2015-09-03 Educational Testing Service Deep Convolutional Neural Networks for Automated Scoring of Constructed Responses
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN106886567B (zh) * 2017-01-12 2019-11-08 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置
CN107330023B (zh) * 2017-06-21 2021-02-12 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置
CN112136126A (zh) * 2018-03-23 2020-12-25 株式会社半导体能源研究所 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质
US12019636B2 (en) 2018-03-23 2024-06-25 Semiconductor Energy Laboratory Co., Ltd. Document search system, document search method, program, and non-transitory computer readable storage medium
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110610695A (zh) * 2018-05-28 2019-12-24 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN109190046A (zh) * 2018-09-18 2019-01-11 北京点网聚科技有限公司 内容推荐方法、装置及内容推荐服务器
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统
CN110309278A (zh) * 2019-05-23 2019-10-08 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110309278B (zh) * 2019-05-23 2021-11-16 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110609952A (zh) * 2019-08-15 2019-12-24 中国平安财产保险股份有限公司 数据采集方法、系统和计算机设备
WO2021043088A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 文件查询方法、装置、计算机设备及存储介质
CN110909789A (zh) * 2019-11-20 2020-03-24 精硕科技(北京)股份有限公司 声量预测方法和装置、电子设备及存储介质
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN112650833A (zh) * 2020-12-25 2021-04-13 哈尔滨工业大学(深圳) Api匹配模型建立方法及跨城市政务api匹配方法
CN117591630A (zh) * 2023-11-21 2024-02-23 北京天防安全科技有限公司 一种关键词识别方法、装置和设备
CN117591630B (zh) * 2023-11-21 2024-06-04 北京天防安全科技有限公司 一种关键词识别方法、装置和设备

Also Published As

Publication number Publication date
WO2017107566A1 (zh) 2017-06-29

Similar Documents

Publication Publication Date Title
CN105631009A (zh) 基于词向量相似度的检索方法和系统
Bouaziz et al. Short text classification using semantic random forest
Shen et al. LIEGE: link entities in web lists with knowledge base
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
Deshpande et al. Text summarization using clustering technique
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
Dong et al. The automated acquisition of suggestions from tweets
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN113688954A (zh) 一种计算文本相似度的方法、系统、设备和存储介质
Man Feature extension for short text categorization using frequent term sets
Zhang et al. A Chinese question-answering system with question classification and answer clustering
CN111753514A (zh) 一种专利申请文本的自动生成方法和装置
CN109446522B (zh) 一种试题自动分类系统及方法
Guo et al. Document vector extension for documents classification
Jotikabukkana et al. Social media text classification by enhancing well-formed text trained model
Zulkifeli et al. Classic term weighting technique for mining web content outliers
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
Saad et al. Efficient content based image retrieval using SVM and color histogram
Yang et al. A short text sentiment classification method based on feature expansion and bidirectional neural network
Ramachandran et al. Document Clustering Using Keyword Extraction
CN112800214B (zh) 基于主题共现网络和外部知识的主题识别方法、系统及设备
CN117972097B (zh) 文本的分类方法、分类装置、电子设备及存储介质
Huang et al. News information extraction based on adaptive weighting using unsupervised Bayesian algorithm
Çoban et al. An evaluation of character level N-gram termsets in text categorization
CN114090799B (zh) 文本检索方法、装置、存储介质及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication