CN106557476A - 相关信息的获取方法及装置 - Google Patents

相关信息的获取方法及装置 Download PDF

Info

Publication number
CN106557476A
CN106557476A CN201510618328.4A CN201510618328A CN106557476A CN 106557476 A CN106557476 A CN 106557476A CN 201510618328 A CN201510618328 A CN 201510618328A CN 106557476 A CN106557476 A CN 106557476A
Authority
CN
China
Prior art keywords
word
search
search word
vectorization
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510618328.4A
Other languages
English (en)
Inventor
邹衡
胡德勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510618328.4A priority Critical patent/CN106557476A/zh
Publication of CN106557476A publication Critical patent/CN106557476A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种相关信息的获取方法及装置。该方法包括:对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;采用相同的向量化处理规则分别对数据库保存的多条信息进行向量化处理,得到与各信息对应的向量;将与搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,得到相关性计算结果;根据相关性计算结果确定出数据库中与搜索词相关的信息,并获取。采用本发明实施例实现了相关信息的精准获取,对于消息推送机制提供了更为精准的推广机制。

Description

相关信息的获取方法及装置
技术领域
本发明涉及计算机技术领域,尤其是涉及一种相关信息的获取方法及装置。
背景技术
随着计算机技术和网络技术的飞速发展,互联网在人们的日常生活、学习和工作中发挥的作用也越来越大。
在互联网广告系统中,搜索广告(或称搜索引擎广告)是一项非常重要的业务。广告主在商业推广的数据库中,除了提供用于展示的广告标题、描述之外,还要附加一些与展现该广告内容的文本描述(即购买词bidterm),购买词形成了对广告的直接索引。当用户在检索阶段输入的搜索词(query)与广告主的购买词匹配,即认为满足了广告触发的初选条件,可以拉取对应的广告出来做进一步的后续精选。
在检索阶段,广告系统会使用多种在线、离线的策略做用户的搜索词与候选购买词的相关性度量。现有技术中,通常采用的是搜索词的文本匹配模式,该模式要求候选购买词中存在搜索词,即,文本形式上必须匹配。
实际应用中,搜索词的文本可能存在不能完全体现用户意图的情况,在这种情况下,仅仅使用文本匹配得到的广告购买词准确度不高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的相关信息的获取方法及装置。
基于本发明的一个方面,公开了一种相关信息的获取方法,包括:
对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;
采用相同的向量化处理规则分别对数据库中保存的多条信息进行向量化处理,得到与各条信息对应的向量;
将与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,得到相关性计算结果;
根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,并获取。
可选地,对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量,包括:
对所述搜索词进行搜索操作,得到与所述搜索词对应的搜索结果;
利用所述搜索结果对所述搜索词进行语义扩展,并采用所述向量化处理规则对扩展后的搜索词进行向量化处理,得到与所述搜索词对应的扩展向量。
可选地,所述搜索词采用短文本形式。
可选地,所述对搜索词进行搜索操作,包括:
将所述搜索词发送至所述搜索引擎,调用所述搜索引擎基于所述搜索词进行网页搜索操作;或者
利用所述搜索词在存储数据的指定存储空间进行搜索操作。
可选地,利用所述搜索结果对所述搜索词进行语义扩展,包括:
根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词。
可选地,根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词,包括:
所述搜索结果包括多个搜索结果项时,
根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;
或者
提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;
将提取的纯文本描述存储至统一的文字集合中;
根据所述预设关键词提取规则从所述文字集合中提取多个关键词。
可选地,根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词,包括:根据综合数据文本IDF、词汇权重termweight、TFIDF以及词频TF中的至少一个参数从所述搜索结果中提取所述关键词。
可选地,所述采用向量化处理规则对扩展后的搜索词进行向量化处理,得到与所述搜索词对应的扩展向量,包括:
根据所述向量化处理规则对各关键词进行向量化转换,以得到与各关键词对应的词向量;
获取各关键词的权重;
使用所述各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到所述搜索词对应的扩展向量。
可选地,将与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,包括:基于欧氏距离、杰卡德距离或余弦距离算法对与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算。
可选地,根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,包括:
判断与各信息对应的相关性计算结果是否落入指定范围;
若是,则确定该信息为与所述搜索词相关的信息。
可选地,所述方法适用于消息推送机制。
基于本发明的另一个方面,本发明实施例还公开了一种相关信息的获取装置,包括:
向量化处理模块,适于对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;
所述向量处理模块还适于采用相同的向量化处理规则分别对数据库中保存的多条信息进行向量化处理,得到与各条信息对应的扩展向量;
相关性计算模块,适于将与所述搜索词对应的扩展向量分别与各条信息对应的扩展向量进行相关性计算,得到相关性计算结果;
获取模块,适于根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,并获取。
所述装置还包括:
搜索模块,适于对搜索词进行搜索操作,得到与所述搜索词对应的搜索结果;
语义扩展模块,适于利用所述搜索结果对所述搜索词进行语义扩展,得到扩展后的搜索词,并将所述扩展后的搜索词发送至所述向量处理模块。
可选地,所述搜索词采用短文本形式。
可选地,所述搜索模块还适于:
将所述搜索词发送至所述搜索引擎,调用所述搜索引擎基于所述搜索词进行网页搜索操作;或者
利用所述搜索词在存储数据的指定存储空间进行搜索操作。
可选地,所述语义扩展模块还适于:
根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词。
可选地,所述语义扩展模块还适于:
所述搜索结果包括多个搜索结果项时,
根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;
或者
提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;
将提取的纯文本描述存储至统一的文字集合中;
根据所述预设关键词提取规则从所述文字集合中提取多个关键词。
可选地,所述语义扩展模块还适于:根据综合数据文本IDF、词汇权重termweight、TFIDF以及词频TF中的至少一个参数从所述搜索结果中提取所述关键词。
可选地,所述向量化处理模块还适于:
根据所述向量化处理规则对各关键词进行向量化转换,以得到与各关键词对应的词向量;
获取各关键词的权重;
使用所述各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到所述搜索词对应的扩展向量。
可选地,所述相关性计算模块还适于:基于欧氏距离、杰卡德距离或余弦距离算法对与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算。
可选地,所述获取模块还适于:
判断与各信息对应的相关性计算结果是否落入指定范围;
若是,则确定该信息为与所述搜索词相关的信息。
可选地,所述装置适用于消息推送机制。
在本发明实施例中,对搜索词进行语义扩展,相对于搜索词本身取决于若干文字的语义范围而言,大大增加了搜索词的语义范围,从而得到语义被扩展后的搜索词。进一步,将扩展后的搜索词进行向量化,得到搜索词对应的扩展向量,并将数据库中的信息进行同样规则的向量化,得到各条信息对应的向量,进而将与搜索词对应的扩展向量与多条信息对应的扩展向量进行相关性计算,此处将文本转化为向量,将文本的相关性计算转换为向量的相关性计算,因向量可计算性强,相关性计算准确度高,能够充分体现出不同文本间的相关性,使得文本相关性计算简便准确。最后,根据相关性计算结果确定出与搜索词相关的信息并获取。采用本发明实施例扩充了搜索词的语义范围,能够更好的体现用户意图,并使用转化向量的计算方式提高了相关性判定的准确率,结合两者,实现了相关信息的精准获取,对于消息推送机制提供了更为精准的推广机制。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个优选的实施例的相关信息的获取方法的处理流程图;
图2示出了根据本发明一个实施例的语义扩展及向量化的处理方法的流程示意图;
图3示出了根据本发明一个实施例的相关信息的获取装置的一种结构示意图;以及
图4示出了根据本发明一个实施例的相关信息的获取装置的另一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种相关信息的获取方法。图1示出了根据本发明的一个优选的实施例的相关信息获取方法的处理流程图,参见图1,该方法至少包括步骤S102至步骤S108,具体见下文。
步骤S102,对搜索词进行语义扩展及向量化处理,得到与搜索词对应的扩展向量。
需要说明地是,步骤S102在实施时可以有多种实现手段,例如通过搜索实现语义扩展,再例如,通过词划分等方式实现语义扩展。图2示出了根据本发明一个实施例的语义扩展及向量化的处理方法的流程示意图。参见图2,首先执行步骤S202,对搜索词进行搜索操作,得到与搜索词对应的搜索结果。
其中,需要说明地是,该搜索词采用文本形式,例如多个连续或不连续的词。具体地,搜索词可以是长文本的形式,也可以是短文本的形式,因搜索词通常字符量较少,优选使用短文本的形式。长文本和短文本是一个相对概念,目前规定短文本通常不超45个字。但是,需要注意的是,因短文本的字数或者字符数有限,基于这一特性,短文本可能存在噪声数据占的比例较大,所包含有用信息较少,对用户意图的体现更弱。但是,对于用户而言,短文本的搜索词的获取或生成方式较为方便简洁,速度较快,因此应用较广。
步骤S202中提及的搜索操作可以包括调用搜索引擎基于该搜索词进行网页搜索操作,由于互联网搜索引擎拥有存储海量数据的大数据库,并且可以在短时间内按相关度给出搜索结果,因此是较为理想的进行语义扩展的资源。另外,搜索操作也可以在局域网或者服务器中进行,即到存储数据的指定存储空间进行搜索操作,例如到局域网的数据库,外部数据源或知识库(如WordNet、Wikipedia等)。
前文提及,短文本因其字数或者字符数有限的特性,可能导致包含的有用信息非常少。另外,即使是长文本,也可能存在无效信息过多导致有用信息不多的情况。因此,为解决这一问题,图2转至步骤S204,利用搜索结果对搜索词进行语义扩展,进而采用向量化处理规则对扩展后的搜索词进行向量化处理,得到与搜索词对应的扩展向量。
综上,采用图2所示方法,首先,步骤S202需要利用搜索结果对搜索词进行语义扩展,因搜索结果的内容远远大大搜索词,因此可以从其中提取与搜索词存在关联且能够对搜索词进行语义扩展的多个关键词。
在另一个优选的实施例中,在步骤S202后还可以包括一关键词提取步骤,根据预设的关键词提取规则从步骤S202获取的搜索结果中提取多个关键词。这些关键词应该是与搜索词相关,且能够对搜索词的语义进行扩展或者能够体现搜索词隐含意义的词。例如,搜索词为小明的爸爸的爸爸,若根据搜索词的字面含义进行切词分析,则仅能够知道小明的爸爸是谁,而实际上,该搜索词的含义应为小明的爷爷,从搜索结果中可以筛选出小明的爷爷作为关键词;再例如,搜索词为一首歌的歌词“太阳当空照”,若根据搜索词的字面含义进行切词分析,仅能够知道太阳、当空、照等,而关键词可能是该歌词的歌名、该歌曲的作者、歌曲的配音、配曲、其他部分歌词等等。提取的关键词数量可以包括但不限于20、30、50,根据具体情况而定。在实施中,过少的关键词不利于进行语义扩展,但过多的关键词会增加处理难度,因此具体的关键词量由具体情况而定。预设的关键词提取规则包括但不限于:根据综合数据文本(IDF)、词汇权重(termweight)、TFIDF、以及词频TF中的至少一个参数从搜索结果中提取若干关键词;其中,TF指的是某一个给定的词语在文件中出现的次数,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度,一般词语的重要性随着它在文件中出现的次数成正比增加。
此外,当搜索结果包括多个搜索结果项时,本发明实施例还提供了不同种的关键词提取方法,本发明实施例提供了两种具体例子:第一种,根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;第二种,提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;将提取的纯文本描述存储至统一的文字集合中;根据预设关键词提取规则从该文字集合中提取多个关键词。
在对搜索词进行语义扩展之后,进一步将搜索词与数据库的待匹配信息均向量化。因文本相关性计算复杂度较高,而将其转换为向量,向量化是文本处理的基础。为了将文本转换为计算机可以理解的形式,必须要找一种方法把文本数字化,这就是向量化。目前为止最常用的词的向量化表示方法是One hotRepresentation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。另一种词的向量化表示方法是Distributed Representation,这种词向量是一种低维实数向量,具有例如这种形式:[0.792,-0.177,-0.107,0.109,-0.542,...],维度以50维和100维比较常见。
将文本向量化之后,通过向量计算相关性,能够大大提高计算的准确度,并使得计算过程简洁可靠。因此,执行步骤S204中的搜索词向量化的步骤,以及步骤S104中的数据库中各信息的向量化的步骤:采用相同的向量化处理规则分别对数据库保存的多条信息进行向量化处理,得到与各条信息对应的向量。
但是,若由文本直接生成向量,尤其是短文本,则可能面临特征稀疏的问题。并且,由于短文本的分词结果依赖于语言模型,并不能保证不同词切分的一致,也会在一定程度上加剧向量的稀疏。因此,针对短文本而言,在进行短文本相关性计算时,具有相关性判定准确率不高的缺点。因此,前文的步骤S102对搜索词进行了语义扩展。本发明实施例优选采用Distributed Representation的向量化表示方法。
进一步地,在完成关键词提取之后,根据如下步骤生成搜索词对应的扩展向量。首先,根据向量化处理规则对各关键词进行向量化转换,以得到各关键词对应的词向量。其次,获取各关键词的权重。最后,使用各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到搜索词对应的扩展向量。其中,将各关键词转换为词向量可以但不限于采用Word2vec技术。
其中,优选的,各关键词的权重可以与其概括搜索词的含义的能力相关,一个词能够概括搜索词的含义的能力越高,权重就越高,反之则降低;权重具体可以采用但不限于TF、IDF。各关键词的权重可以由该词所包含的语义信息而定,也可以是该词在搜索结果的出现频率而定,还可以采用其他权重规则,在此不做赘述。
需要说明地是,步骤S104中采用与步骤S102相同的向量化处理规则,其目的是使得各信息对应的扩展向量格式与跟搜索词的扩展向量一致,两者能够进行比较。其中,数据库具体可以包括广告数据库、商品描述数据库、地图数据库等等。相应地,广告数据库保存的信息包括购买词。
进一步,本发明实施例在完成步骤S102及步骤S104中的向量化处理之后,执行步骤S106,将与搜索词对应的扩展向量分别与各条信息对应的扩展向量进行相关性计算,得到相关性计算结果。
其中,向量的相关性计算有多种算法,通过计算向量之间的距离得到一个具体的相关性数值,根据数值是否落入一个具体的数值范围,从而判断出相关性的高低。若落入,则计算的双方向量相关性较高,若不落入,则计算的双方相关性较低。不同算法的指定范围不同,甚至可能出现正负范围,根据具体使用算法而定。向量相关性算法可以使用欧氏距离、杰卡德距离(Jaccard Distance)和余弦距离算法中的任意一个。其中,余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,为本发明优选的方式。余弦距离的值在-1和+1之间,其中0表示不相关,负值表示负相关,正值表示正相关,绝对值越大表示相关性越高。
步骤S108,根据相关性计算结果确定出数据库中与搜索词相关的信息,并获取。
若使用余弦距离算法,则相关性计算结果(也称为相关系数)至少在0.4以上表示是相关的。
在本发明实施例中,通过搜索操作,得到与搜索词对应的搜索结果,进而利用搜索结果对搜索词进行语义扩展,因搜索结果相对于搜索词而言大大扩展了语义范围,因此利用搜索结果对搜索词进行语义扩展,相对于搜索词本身取决于若干文字的语义范围而言,搜索结果的加入大大增加了搜索词的语义范围,从而得到语义被扩展后的搜索词。进一步,将扩展后的搜索词进行向量化,得到搜索词对应的扩展向量,并将数据库中的信息进行同样规则的向量化,得到各条信息对应的向量,进而将与搜索词对应的扩展向量与多条信息对应的扩展向量进行相关性计算,此处将文本转化为向量,将文本的相关性计算转换为向量的相关性计算,因向量可计算性强,相关性计算准确度高,能够充分体现出不同文本间的相关性,使得文本相关性计算简便准确。最后,根据相关性计算结果确定出与搜索词相关的信息并获取。采用本发明实施例扩充了搜索词的语义范围,能够更好的体现用户意图,并使用转化向量的计算方式提高了相关性判定的准确率,结合两者,实现了相关信息的精准获取,对于消息推送机制提供了更为精准的推广机制。
并且,本发明实施例提出的相关信息的获取方法及装置,以用户的初始查询为基础,通过一定的策略加入相关词(即从搜索结果中提取的关键词),以提供更多有利于判断文本相关性的信息,从而一定程序上避免了特征稀疏(尤其是短文本)的问题,提高了相关性判定的准确率。
还有,本发明实施例提出了基于词的网页搜索结果的相关性特征,依赖的词典资源数目可控,计算速度有很大幅度的改进,使得在线实现短串间的轻量级语义相关性计算成为可能。
优选地,上述实施例适用于消息推送机制,例如广告推送。其中,在数据库为广告数据库时,所确定的与搜索词相关的信息就是广告的购买词,完成该匹配后,便可以根据相关购买词选择广告进行推送。
为支持上述任一个优选实施例或其组合所提供的相关信息的获取方法,本发明实施例还提供了一种相关信息的获取装置。图3示出了根据本发明一个优选的实施例的相关信息的获取装置300。参见图3,该装置至少包括向量化处理模块310、相关性计算模块320以及获取模块330。
向量化处理模块310,适于对搜索词进行语义扩展及向量化处理,得到与搜索词对应的扩展向量;
向量化处理模块310,还适于采用向量化处理规则对扩展后的搜索词进行向量化处理,得到与搜索词对应的扩展向量;其中,该向量优选采用DistributedRepresentation的表示方法;
向量化处理模块310还适于采用相同的向量化处理规则分别对数据库400中存储的多条信息进行向量化处理,得到的与各信息对应的向量。采用相同的向量化处理规则,使得各信息对应的扩展向量格式与跟搜索词的扩展向量一致,两者能够进行比较。
相关性计算模块320,与向量化处理模块310耦合,适于将与搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,得到相关性计算结果;其中,相关性计算优选基于余弦距离算法进行计算;
获取模块330,与相关性计算模块320耦合,根据相关性计算模块320计算得出的相关性计算结果确定出数据库400中与搜索词相关的信息,并获取。
在一个优选的实施例中,参见图4,该装置还可以包括:
搜索模块340,适于对搜索词进行搜索操作,得到与搜索词对应的搜索结果;其中,该搜索词采用文本形式,例如多个连续或不连续的词。具体地,搜索词可以是长文本的形式,也可以是短文本的形式,因搜索词通常字符量较少,优选使用短文本的形式。搜索操作可以包括调用搜索引擎基于该搜索词进行网页搜索操作,由于互联网搜索引擎拥有存储海量数据的大数据库,并且可以在短时间内按相关度给出搜索结果,因此是较为理想的进行语义扩展的资源。另外,搜索操作也可以在局域网或者服务器中进行,即到存储数据的指定存储空间进行搜索操作,例如到局域网的数据库,外部数据源或知识库(如WordNet、Wikipedia等)。
语义扩展模块350,与搜索模块340耦合,适于利用搜索模块340搜索得到的搜索结果对搜索词进行语义扩展,得到扩展后的搜索词,并将扩展后的搜索词发送至向量处理模块310。
在向量处理模块310中,得到搜索词对应的扩展向量可以但不限于通过以下方法具体实现:
将各关键词转换得到对应的词向量;
获取各关键词的权重;
对各关键词的词向量进行加权求和计算,得到搜索词对应的扩展向量。
其中,将各关键词转换为词向量可以但不限于采用Word2vec技术;
各关键词的权重应该与其概括搜索词的含义的能力相关,一个词能够概括搜索词的含义的能力越高,权重就越高,反之则降低;权重具体可以采用但不限于TF.IDF。各关键词的权重可以由该词所包含的语义信息而定,也可以是该词在搜索结果的出现频率而定,还可以采用其他权重规则,在此不做赘述。
优选地,上述装置适用于消息推送机制,例如广告推送。
其中,在数据库包括广告数据库时,所确定的与搜索词(即用户的查询词)匹配的信息就是广告的购买词,完成该匹配后,便可以根据相关购买词选择广告进行推送。
在一个优选的实施例中,搜索词采用短文本形式。
在一个优选的实施例中,搜索模块340还适于:
将搜索词发送至搜索引擎,调用搜索引擎基于搜索词进行网页搜索操作;或者
利用搜索词在存储数据的指定存储空间进行搜索操作。
在一个优选的实施例中,语义扩展模块350还适于:
根据预设关键词提取规则,从搜索结果中提取与搜索词存在关联且能够对搜索词进行语义扩展的多个关键词。这些关键词应该是与搜索词相关,且能够对搜索词的语义进行扩展或者能够体现搜索词隐含意义的词,例如,搜索词为小明的爸爸的爸爸,若根据搜索词的字面含义进行切词分析,则仅能够知道小明的爸爸是谁,而实际上,该搜索词的含义应为小明的爷爷,从搜索结果中可以筛选出小明的爷爷作为关键词;再例如,搜索词为一首歌的歌词“太阳当空照”,若根据搜索词的字面含义进行切词分析,仅能够知道太阳、当空、照等,而关键词可能是该歌词的歌名、该歌曲的作者、歌曲的配音、配曲、其他部分歌词等等。提取的关键词数量可以包括但不限于20、30、50,根据具体情况而定。在实施中,过少的关键词不利于进行语义扩展,但过多的关键词会增加处理难度,因此具体的关键词量由具体情况而定。
在一个优选的实施例中,语义扩展模块350还适于:
搜索结果包括多个搜索结果项时,
根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;
或者
提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;
将提取的纯文本描述存储至统一的文字集合中;
根据预设关键词提取规则从文字集合中提取多个关键词。
在一个优选的实施例中,语义扩展模块350还适于:根据IDF、词汇权重termweight、TFIDF以及词频TF中的至少一个参数从搜索结果中提取关键词。
在一个优选的实施例中,向量化处理模块310还适于:
根据向量化处理规则对各关键词进行向量化转换,以得到与各关键词对应的词向量;
获取各关键词的权重;
使用各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到搜索词对应的扩展向量。
在一个优选的实施例中,相关性计算模块320还适于:基于欧氏距离、杰卡德距离或余弦距离算法对与搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算。
在一个优选的实施例中,获取模块330还适于:
判断与各信息对应的相关性计算结果是否落入指定范围;
若是,则确定该信息为与搜索词相关的信息。
在一个优选的实施例中,相关信息的获取装置适用于消息推送机制。
采用本发明实施例提供的相关信息获取方法及装置,能够达到如下有益效果:
在本发明实施例中,通过搜索操作,得到与搜索词对应的搜索结果,进而利用搜索结果对搜索词进行语义扩展,因搜索结果相对于搜索词而言大大扩展了语义范围,因此利用搜索结果对搜索词进行语义扩展,相对于搜索词本身取决于若干文字的语义范围而言,搜索结果的加入大大增加了搜索词的语义范围,从而得到语义被扩展后的搜索词。进一步,将扩展后的搜索词进行向量化,得到搜索词对应的扩展向量,并将数据库中的信息进行同样规则的向量化,得到各条信息对应的向量,进而将与搜索词对应的扩展向量与多条信息对应的扩展向量进行相关性计算,此处将文本转化为向量,将文本的相关性计算转换为向量的相关性计算,因向量可计算性强,相关性计算准确度高,能够充分体现出不同文本间的相关性,使得文本相关性计算简便准确。最后,根据相关性计算结果确定出与搜索词相关的信息并获取。采用本发明实施例扩充了搜索词的语义范围,能够更好的体现用户意图,并使用转化向量的计算方式提高了相关性判定的准确率,结合两者,实现了相关信息的精准获取,对于消息推送机制提供了更为精准的推广机制。
根据以上的优选实施例,本发明实施例提出了采用搜索结果对语义进行扩展的技术手段,省略了传统技术中的分词操作,直接进行搜索操作,从而提供了更多有利于判断相关性的信息,一定程序上避免了特征稀疏的问题,提高了相关性判定的准确率。
另外,本发明实施例提出了基于词的网页搜索结果的相关性特征,依赖的词典资源数目可控,计算速度有很大幅度的改进,使得在线实现短字符串之间的轻量级语义相关性计算成为可能。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
基于本发明的一个方面,本发明实施例公开了A1、一种相关信息的获取方法,包括:
对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;
采用相同的向量化处理规则分别对数据库中保存的多条信息进行向量化处理,得到与各条信息对应的向量;
将与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,得到相关性计算结果;
根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,并获取。
A2、根据A1所述的方法,其中,对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量,包括:
对所述搜索词进行搜索操作,得到与所述搜索词对应的搜索结果;
利用所述搜索结果对所述搜索词进行语义扩展,并采用所述向量化处理规则对扩展后的搜索词进行向量化处理,得到与所述搜索词对应的扩展向量。
A3、根据A1或A2所述的方法,其中,所述搜索词采用短文本形式。
A4、根据A2或A3所述的方法,其中,所述对搜索词进行搜索操作,包括:
将所述搜索词发送至所述搜索引擎,调用所述搜索引擎基于所述搜索词进行网页搜索操作;或者
利用所述搜索词在存储数据的指定存储空间进行搜索操作。
A5、根据A2-A4任一项所述的方法,其中,利用所述搜索结果对所述搜索词进行语义扩展,包括:
根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词。
A6、根据A5所述的方法,其中,根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词,包括:
所述搜索结果包括多个搜索结果项时,
根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;
或者
提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;
将提取的纯文本描述存储至统一的文字集合中;
根据所述预设关键词提取规则从所述文字集合中提取多个关键词。
A7、根据A5或A6所述的方法,其中,根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词,包括:根据综合数据文本IDF、词汇权重termweight、TFIDF以及词频TF中的至少一个参数从所述搜索结果中提取所述关键词。
A8、根据A5-A7任一项所述的方法,其中,所述采用向量化处理规则对扩展后的搜索词进行向量化处理,得到与所述搜索词对应的扩展向量,包括:
根据所述向量化处理规则对各关键词进行向量化转换,以得到与各关键词对应的词向量;
获取各关键词的权重;
使用所述各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到所述搜索词对应的扩展向量。
A9、根据A1-A8任一项所述的方法,其中,将与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,包括:基于欧氏距离、杰卡德距离或余弦距离算法对与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算。
A10、根据A1-A9任一项所述的方法,其中,根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,包括:
判断与各信息对应的相关性计算结果是否落入指定范围;
若是,则确定该信息为与所述搜索词相关的信息。
A11、根据A1-A10任一项所述的方法,其中,所述方法适用于消息推送机制。
基于本发明的另一个方面,本发明实施例还公开了B12、一种相关信息的获取装置,包括:
向量化处理模块,适于对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;
所述向量处理模块还适于采用相同的向量化处理规则分别对数据库中保存的多条信息进行向量化处理,得到与各条信息对应的扩展向量;
相关性计算模块,适于将与所述搜索词对应的扩展向量分别与各条信息对应的扩展向量进行相关性计算,得到相关性计算结果;
获取模块,适于根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,并获取。
B13、根据B12所述的装置,其中,还包括:
搜索模块,适于对搜索词进行搜索操作,得到与所述搜索词对应的搜索结果;
语义扩展模块,适于利用所述搜索结果对所述搜索词进行语义扩展,得到扩展后的搜索词,并将所述扩展后的搜索词发送至所述向量处理模块。
B14、根据B12或B13所述的装置,其中,所述搜索词采用短文本形式。
B15、根据B13或B14所述的装置,所述搜索模块还适于:
将所述搜索词发送至所述搜索引擎,调用所述搜索引擎基于所述搜索词进行网页搜索操作;或者
利用所述搜索词在存储数据的指定存储空间进行搜索操作。
B16、根据B13-B15任一项所述的装置,其中,所述语义扩展模块还适于:
根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词。
B17、根据B16所述的装置,其中,所述语义扩展模块还适于:
所述搜索结果包括多个搜索结果项时,
根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;
或者
提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;
将提取的纯文本描述存储至统一的文字集合中;
根据所述预设关键词提取规则从所述文字集合中提取多个关键词。
B18、根据B16或B17所述的装置,其中,所述语义扩展模块还适于:根据综合数据文本IDF、词汇权重termweight、TFIDF以及词频TF中的至少一个参数从所述搜索结果中提取所述关键词。
B19、根据B16-B18任一项所述的装置,其中,所述向量化处理模块还适于:
根据所述向量化处理规则对各关键词进行向量化转换,以得到与各关键词对应的词向量;
获取各关键词的权重;
使用所述各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到所述搜索词对应的扩展向量。
B20、根据B12-B19任一项所述的装置,其中,所述相关性计算模块还适于:基于欧氏距离、杰卡德距离或余弦距离算法对与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算。
B21、根据B12-B20任一项所述的装置,其中,所述获取模块还适于:
判断与各信息对应的相关性计算结果是否落入指定范围;
若是,则确定该信息为与所述搜索词相关的信息。
B22、根据B12-B21任一项所述的装置,其中,所述装置适用于消息推送机制。

Claims (10)

1.一种相关信息的获取方法,包括:
对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;
采用相同的向量化处理规则分别对数据库中保存的多条信息进行向量化处理,得到与各条信息对应的向量;
将与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,得到相关性计算结果;
根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,并获取。
2.根据权利要求1所述的方法,其中,对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量,包括:
对所述搜索词进行搜索操作,得到与所述搜索词对应的搜索结果;
利用所述搜索结果对所述搜索词进行语义扩展,并采用所述向量化处理规则对扩展后的搜索词进行向量化处理,得到与所述搜索词对应的扩展向量。
3.根据权利要求1或2所述的方法,其中,所述搜索词采用短文本形式。
4.根据权利要求2或3所述的方法,其中,所述对搜索词进行搜索操作,包括:
将所述搜索词发送至所述搜索引擎,调用所述搜索引擎基于所述搜索词进行网页搜索操作;或者
利用所述搜索词在存储数据的指定存储空间进行搜索操作。
5.根据权利要求2-4任一项所述的方法,其中,利用所述搜索结果对所述搜索词进行语义扩展,包括:
根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词。
6.根据权利要求5所述的方法,其中,根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词,包括:
所述搜索结果包括多个搜索结果项时,
根据预设关键词提取规则依次从各搜索结果项中提取该搜索结果项中存在的关键词;
或者
提取各搜索结果项的文字描述部分并进行去格式处理,得到纯文本描述;
将提取的纯文本描述存储至统一的文字集合中;
根据所述预设关键词提取规则从所述文字集合中提取多个关键词。
7.根据权利要求5或6所述的方法,其中,根据预设关键词提取规则,从所述搜索结果中提取与所述搜索词存在关联且能够对所述搜索词进行语义扩展的多个关键词,包括:根据综合数据文本IDF、词汇权重termweight、TFIDF以及词频TF中的至少一个参数从所述搜索结果中提取所述关键词。
8.根据权利要求5-7任一项所述的方法,其中,所述采用向量化处理规则对扩展后的搜索词进行向量化处理,得到与所述搜索词对应的扩展向量,包括:
根据所述向量化处理规则对各关键词进行向量化转换,以得到与各关键词对应的词向量;
获取各关键词的权重;
使用所述各关键词的权重,对各关键词对应的词向量进行加权求和计算,根据计算结果得到所述搜索词对应的扩展向量。
9.根据权利要求1-8任一项所述的方法,其中,将与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算,包括:基于欧氏距离、杰卡德距离或余弦距离算法对与所述搜索词对应的扩展向量分别与各条信息对应的向量进行相关性计算。
10.一种相关信息的获取装置,包括:
向量化处理模块,适于对搜索词进行语义扩展及向量化处理,得到与所述搜索词对应的扩展向量;
所述向量处理模块还适于采用相同的向量化处理规则分别对数据库中保存的多条信息进行向量化处理,得到与各条信息对应的扩展向量;
相关性计算模块,适于将与所述搜索词对应的扩展向量分别与各条信息对应的扩展向量进行相关性计算,得到相关性计算结果;
获取模块,适于根据所述相关性计算结果确定出所述数据库中与所述搜索词相关的信息,并获取。
CN201510618328.4A 2015-09-24 2015-09-24 相关信息的获取方法及装置 Pending CN106557476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510618328.4A CN106557476A (zh) 2015-09-24 2015-09-24 相关信息的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510618328.4A CN106557476A (zh) 2015-09-24 2015-09-24 相关信息的获取方法及装置

Publications (1)

Publication Number Publication Date
CN106557476A true CN106557476A (zh) 2017-04-05

Family

ID=58413979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510618328.4A Pending CN106557476A (zh) 2015-09-24 2015-09-24 相关信息的获取方法及装置

Country Status (1)

Country Link
CN (1) CN106557476A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107577656A (zh) * 2017-07-12 2018-01-12 中国科学院自动化研究所 文本隐含语义激活方法及系统
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN110457339A (zh) * 2018-05-02 2019-11-15 北京京东尚科信息技术有限公司 数据搜索方法及装置、电子设备、存储介质
CN110727767A (zh) * 2019-10-21 2020-01-24 支付宝(杭州)信息技术有限公司 一种扩展文本样本的方法及系统
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN114154046A (zh) * 2022-02-07 2022-03-08 深圳华强电子交易网络有限公司 一种网站搜索排名方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN102063468A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于确定查询序列的查询类别的设备及其方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104657376A (zh) * 2013-11-20 2015-05-27 航天信息股份有限公司 基于节目关系的视频节目的搜索方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN102063468A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于确定查询序列的查询类别的设备及其方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104657376A (zh) * 2013-11-20 2015-05-27 航天信息股份有限公司 基于节目关系的视频节目的搜索方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107577656A (zh) * 2017-07-12 2018-01-12 中国科学院自动化研究所 文本隐含语义激活方法及系统
CN107577656B (zh) * 2017-07-12 2020-02-14 中国科学院自动化研究所 文本隐含语义激活方法及系统
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN108776901B (zh) * 2018-04-27 2021-01-15 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN110457339A (zh) * 2018-05-02 2019-11-15 北京京东尚科信息技术有限公司 数据搜索方法及装置、电子设备、存储介质
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN110727767A (zh) * 2019-10-21 2020-01-24 支付宝(杭州)信息技术有限公司 一种扩展文本样本的方法及系统
CN110727767B (zh) * 2019-10-21 2022-05-31 支付宝(杭州)信息技术有限公司 一种扩展文本样本的方法及系统
CN114154046A (zh) * 2022-02-07 2022-03-08 深圳华强电子交易网络有限公司 一种网站搜索排名方法及系统
CN114154046B (zh) * 2022-02-07 2022-08-12 深圳华强电子交易网络有限公司 一种网站搜索排名方法及系统

Similar Documents

Publication Publication Date Title
CN106557476A (zh) 相关信息的获取方法及装置
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
US8990200B1 (en) Topical search system
US20160026696A1 (en) Identifying query aspects
US8560485B2 (en) Generating a domain corpus and a dictionary for an automated ontology
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
CN107291699A (zh) 一种句子语义相似度计算方法
Petkos et al. Two-level Message Clustering for Topic Detection in Twitter.
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
CN106970991A (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
Burns et al. Sentiment analysis of customer reviews: Balanced versus unbalanced datasets
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN106021430B (zh) 基于Lucence自定义词库的全文检索匹配方法及系统
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
Buntoro et al. Sentiment analysis candidates of Indonesian Presiden 2014 with five class attribute
Graus et al. Context-Based Entity Linking-University of Amsterdam at TAC 2012.
Caliano et al. UniMiB: Entity Linking in Tweets using Jaro-Winkler Distance, Popularity and Coherence.
US10380244B2 (en) Server and method for providing content based on context information
Ziegler Mining for strategic competitive intelligence
Claveau Detecting fake news in tweets from text and propagation graph: IRISA's participation to the FakeNews task at MediaEval 2020
Laclavík et al. Search query categorization at scale
CN112507097B (zh) 一种提高问答系统泛化能力的方法
Coelho et al. Semantic search of mobile applications using word embeddings
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405