CN106844647A - 一种搜索关键词获取的方法及装置 - Google Patents

一种搜索关键词获取的方法及装置 Download PDF

Info

Publication number
CN106844647A
CN106844647A CN201710047106.0A CN201710047106A CN106844647A CN 106844647 A CN106844647 A CN 106844647A CN 201710047106 A CN201710047106 A CN 201710047106A CN 106844647 A CN106844647 A CN 106844647A
Authority
CN
China
Prior art keywords
text
keyword
analyzed
specific
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710047106.0A
Other languages
English (en)
Inventor
骆宗伟
韩帅
刘金群
李斌
粟隆泽
周兴友
张宇
张诗奇
石凡
石一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aotain Technology Co Ltd
Southwest University of Science and Technology
Original Assignee
Shenzhen Aotain Technology Co Ltd
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aotain Technology Co Ltd, Southwest University of Science and Technology filed Critical Shenzhen Aotain Technology Co Ltd
Priority to CN201710047106.0A priority Critical patent/CN106844647A/zh
Publication of CN106844647A publication Critical patent/CN106844647A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索关键词获取的方法。该方法包括:统计目标领域的特定相关关键词和特定无关关键词;将获取的待分析文本进行分词得到候选关键词;将每个所述候选关键词与所述特定无关关键词进行匹配;若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。本发明提供的方法可实现根据用户输入的待分析文本比较准确地输出与用户的某一兴趣或需求相关的关键词,并将与候选关键词语义相似度较高的该目标领域的特定相关关键词作为待分析文本的关键词输出,丰富用户的搜索关键词。

Description

一种搜索关键词获取的方法及装置
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种搜索关键词获取的方法及装置。
背景技术
随着互联网的快速发展,人们逐渐通过依靠互联网搜索的结果作为获取信息的入口。通过对用户搜索关键词的分析,可以获得用户的兴趣所在以及关注的热点,更可以挖掘出用户自身的偏好以及业务的潜在关联项目。
目前的搜索关键词获取的方法,大多是直接在搜索框中输入的文本中提取预设个数的关键词作为搜索关键词,如将输入的文本进行分词,将分词后获得的候选关键词排序,提取预设个数的候选关键词作为用户的搜索关键词。具体的,若用户在搜索框中键入“汽车模具”或“汽车维修”,则会将“汽车”和“模具”或“汽车”和“维修”作为搜索关键词。
然而,上述方法中,在分析用户的兴趣时,会将获得的所有关键词均作为用户的兴趣所在,如若输入的文本为“汽车模具”,会将“汽车”以及“模具”均作为用户的兴趣,然而用户的兴趣重点在于“模具”,而不是“汽车”,使得通过用户搜索关键词不能准确地确定用户的兴趣及关注的热点。
发明内容
本发明提供一种搜索关键词获取的方法及装置,以实现根据用户输入的文本信息比较准确地输出与用户的某一兴趣或需求相关的关键词。
第一方面,本发明实施例提供了搜索关键词获取的方法,该方法包括:
统计目标领域的特定相关关键词和特定无关关键词;
将获取的待分析文本进行分词得到候选关键词;
将每个所述候选关键词与所述特定无关关键词进行匹配;
若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
第二方面,本发明实施例还提供了一种搜索关键词获取的装置,该装置包括:
关键词统计模块,用于统计目标领域的特定相关关键词和特定无关关键词;
文本分词模块,用于将获取的待分析文本进行分词得到候选关键词;
关键词匹配模块,用于将每个所述候选关键词与所述特定无关关键词进行匹配;
相似度计算模块,用于若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
关键词输出模块,用于若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
本发明通过统计目标领域的特定相关关键词和特定无关关键词;将获取的待分析文本进行分词得到候选关键词;将每个候选关键词与特定无关关键词进行匹配;若每个候选关键词均匹配失败,则计算每个候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;若相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出,实现根据用户输入的文本信息比较准确地确定与用户的某一兴趣或需求相关的关键词,并将与候选关键词语义相似度较高的该目标领域的特定相关关键词作为待分析文本的关键词输出,丰富用户的搜索关键词。
附图说明
图1是本发明实施例一中的一种搜索关键词获取的方法的流程图;
图2是本发明实施例二中的一种搜索关键词获取的方法的流程图;
图3是本发明实施例三中的一种搜索关键词获取的装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种搜索关键词获取的方法的流程图,本实施例可适用于获取搜索关键词的情况,该方法可以由搜索关键词获取的装置来执行,具体包括如下步骤:
步骤110、统计目标领域的特定相关关键词和特定无关关键词。
其中,目标领域可为研究用户的某一兴趣或需求而确定的领域,如目标领域可为研究用户是否有购车的意愿而确定的汽车领域或为研究用户是否有旅游的意愿而确定的旅游领域等。
特定相关关键词为与用户的某一兴趣或需求相关的关键词。特定无关关键词为与用户的该兴趣或需求无关的关键词,其中,特定无关关键词通常会与某些特定相关关键词同时出现或语义相似度较高,而其往往与用户该兴趣或需求无关。
示例性的,以目标领域为研究用户是否有购车的意愿而确定的汽车领域为例,特定相关关键词可为与购车意愿相关的关键词,如“钱,买,购买,怎么样,哪个,性价比,汽车,品牌,档次,买车,二手车,实惠,车型,购车,报价,贷款,保险,提车,购买,购置税,价格,二手,汽车论坛,美容,论坛”以及“大众,起亚,丰田,奥迪,宝马,本田,福特,现代,标致,奔驰,别克,长安,雪佛兰,日产,比亚迪,马自达,铃木,路虎,保时捷,奇瑞,斯柯达,江淮,吉普,雪铁龙,五菱,帝豪,宝骏,雷克萨斯,奔腾,海马,三菱,沃尔沃,吉利,玛莎拉蒂,众泰,凯迪拉克,东风,启辰,北汽,劳斯莱斯,法拉利,捷豹,荣威,英菲尼迪,宾利,广汽”,特定无关关键词为与购车意愿无关的关键词,如“汽车站,车站,汽车旅馆,旅馆,模具,利比亚,努比亚,公司,长途,客车,相遇,靠右,传感,营业厅,现代舞,模型,汽车模型,纳米比亚,车模,收购,飞机,客运,装卸,制造,维修,前大灯,概念,概念车,时刻,时刻表,车轮,轮胎,汽车轮胎,钥匙,钥匙包,音响,汽车音响,动员,总动员,玩具,玩具车,汤姆,年票,女主播,记录,记录仪,摇号,档,单词,体,丘脑,游戏,游戏王,司机,女司机,到,座椅,总站,年检,车票,汽车票”。
其中,特定相关关键词和特定无关关键词的统计方式可为本领域技术人员根据经验进行统计。
步骤120、将获取的待分析文本进行分词得到候选关键词。
其中,待分析文本即为用户在搜索框中键入的文本。
可通过现有的分词方法,如基于词典的分词方法、基于统计的分词方法或基于语义学理解的分词方法将待分析文本进行分词,从而得到候选关键词。
优选的,通过结巴分词将待分析文本进行分词。结巴分词是基于字典树(Trie)结构实现高效的词图扫描,生成待分析文本中汉字所有可能的成词情况所构成的有向无环图(Directed Acycline graph,DAG),然后采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于字典树中没有的词,采用基于汉字成词能力的隐马尔科夫模型(hiddenMarkov model,HMM),使用Viterbi算法进行分词。其中,结巴分词自带词典,里面有2万多条词语,包含词语出现的次数和词性,通过将字典中2万多条的词语放到一个字典树中,可快速查找词语,由此对待分析文本,在字典树结构的基础上可快速生成有向无环图,进而实现快速分词,得到候选关键词。
步骤130、将每个候选关键词与特定无关关键词进行匹配。
得到候选关键词后,将每个候选关键词与统计的特定无关关键词进行匹配,若统计的特定无关关键词中包括任一候选关键词,则认为键入该待分析文本的用户不具有所要分析的某一兴趣或需求,滤除掉该待分析文本。
示例性的,以待分析文本为“汽车模具”为例,若将其分词后,得到“汽车”和“模具”两个候选关键词,由于特定无关关键词中包括“模具”,则认为键入该候选关键词所对应的待分析文本的用户不具有购车意愿,因此,将该候选关键词所对应的待分析文本滤除。
步骤140、若每个候选关键词均匹配失败,则计算每个候选关键词的词向量与目标领域的每个特定相关关键词的词向量的相似度。
如果特定无关关键词中不包括候选关键词,则计算每个候选关键词的词向量与目标领域的每个特定相关关键词的词向量的相似度。其中,词向量是一种把词处理成向量的技术,并且保证向量间的相似度和语义相似度是相关的,如果两个词的词向量间的相似度越大,则说明两个词间的语义相似度越大。
优选的,两个词的词向量间的相似度计算公式为:其中,Xi表示任一候选关键词的词向量,i=0,1,…,n,表示任一特定相关关键词的词向量,i=0,1,…,n。
步骤150、若相似度大于预设阈值,则将该目标领域的特定相关键词作为待分析文本的关键词输出。
若候选关键词的词向量与某一特定相关关键词的词向量的相似度大于预设阈值,则说明该特定相关关键词与候选关键词的语义相似度较大,因此,将该特定相关关键词作为关键词输出,丰富搜索关键词。
示例性的,待分析文本为“大众性价比”,若经过分词,得到“大众”和“性价比”两个候选关键词,在“大众”和“性价比”与特定无关关键词均匹配失败后,计算每个候选关键词的词向量与每个特定相关关键词的词向量的相似度,若候选关键词“大众”的词向量与特定相关关键词中“大众”和“丰田”的词向量,以及候选关键词“性价比”的词向量与特定相关关键词中“性价比”和“怎么样”的词向量的相似度均超过预设阈值,则将“大众”和“丰田”以及“性价比”和“怎么样”均作为待分析文本的关键词输出,进而可根据输出的关键词确定键入该待分析文本的用户是否有购车意愿,如若输出的关键词中包括任一特定相关关键词,便将该用户视为具有购车意愿的用户,或输出的关键词中包括预设的特定相关关键词,如既包括特定相关关键词“钱,买,购买,怎么样,哪个,性价比,汽车,品牌,档次,买车,二手车,实惠,车型,购车,报价,贷款,保险,提车,购买,购置税,价格,二手,汽车论坛,美容,论坛”中的至少一个,又包括特定相关关键词“大众,起亚,丰田,奥迪,宝马,本田,福特,现代,标致,奔驰,别克,长安,雪佛兰,日产,比亚迪,马自达,铃木,路虎,保时捷,奇瑞,斯柯达,江淮,吉普,雪铁龙,五菱,帝豪,宝骏,雷克萨斯,奔腾,海马,三菱,沃尔沃,吉利,玛莎拉蒂,众泰,凯迪拉克,东风,启辰,北汽,劳斯莱斯,法拉利,捷豹,荣威,英菲尼迪,宾利,广汽”中的至少一个,则确定该用户为具有购车意愿的用户。
示例性的,预设阈值可为0.7、0.8或0.9。
本发明通过统计目标领域的特定相关关键词和特定无关关键词;将获取的待分析文本进行分词得到候选关键词;将每个候选关键词与特定无关关键词进行匹配;若每个候选关键词均匹配失败,则计算每个候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;若相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出,实现根据用户输入的文本信息比较准确地确定与用户的某一兴趣或需求相关的关键词,并将与候选关键词语义相似度较高的该目标领域的特定相关关键词作为待分析文本的关键词输出,丰富用户的搜索关键词。
实施例二
图2为本发明实施例二提供的一种搜索关键词获取的方法的流程图,本发明实施例为在实施例一的基础上进行进一步优化。参见图2,本实施例提供的方法具体包括如下步骤:
步骤210、根据搜索引擎对应的搜索URL组成规则得到待分析文本。
用户在搜索引擎中键入的待分析文本会包含在统一资源定位符(UniformResource Locator,URL)中,则对搜索引擎的搜索URL进行分析,得到搜索引擎对应的搜索URL组成规则,即可得到待分析文本。
优选的,步骤210包括以下步骤:
步骤211、利用搜索引擎对应的正则表达式得到目标搜索URL中包含待分析文本的字符串。
示例性的,如在百度和谷歌中键入“复兴之路,”则网关数据中记录的相应的搜索URL为:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=57095150_1_oem_dg&wd=%E5%A4%8D%E5%85%B4%E4%B9%8B%E8%B7%A F&rsv_pq=c95b4ea9000071e2&rsv_t=a6008ZBdM3sQoy8JmIsARIXdNElSHgiE1EAhQBSeXbJkfIY0LOETYymxf9X%2Bjn6fXup3om%2Byzys&rqlang=cn&rsv_ente r=1&rsv_sug3=2&rsv_sug1=1&rsv_sug7=100与http://google.qwsdq.com/#q=%E5%A4%8D%E5%85%B4%E4%B9%8B%E8%B7%AF&btnK=Google+%E6%90%9C%E7%B4%A2,经分析,两个搜索引擎对应的搜索URL中字符串“%E5%A4%8D%E5%85%B4%E4%B9%8B%E8%B7%AF”与用户所键入的待分析文本相对应。
则对于需要获取关键词的目标搜索URL,使用正则表达式,将符号“=”和“&”之间的字符切割出来,即可得到待分析文本对应的字符串。
步骤212、将字符串进行转码得到待分析文本。
将获得的待分析文本对应的字符串进行转码即可得到待分析文本,从而实现通过网关数据中的搜索URL,获得用户在搜索引擎中键入的待分析文本。
其中,网关数据为客户端与服务器通信过程中网关产生的日志记录,网关数据中会记录源互联网协议(Internet Protocol,IP)地址、URL、目标互联网协议(InternetProtocol,IP)地址、操作系统及版本、设备信息、用户代理(User Agent,UA)和请求时间等信息。
步骤213、将待分析文本中除中文之外的文本和\或中文符号滤除。
优选的,在得到待分析文本后,将待分析文本中除中文之外的文本和\或中文符号滤除,以将待分析文本进行预处理,提高确定搜索关键词的效率。
步骤220、通过word2vec语言建模工具训练得到目标领域的词向量模型。
Word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,其中,向量空间上的相似度可以用来表示文本语义上的相似度。
示例性的,以确定用户是否具有购车意愿为例,可通过网络爬虫获取大量与汽车相关网站的搜索URL,如汽车之家、易车网和\或太平洋汽车网等网站,通过搜索URL获得用户键入的文本,将文本进行分词,利用分词后的文本训练word2vec词向量模型,进而得到目标领域的词向量模型。
步骤230、统计目标领域的特定相关关键词和特定无关关键词。
步骤240、将获取的待分析文本进行分词得到候选关键词。
步骤250、将每个候选关键词与特定无关关键词进行匹配。
步骤260、若每个候选关键词均匹配失败,则基于词向量模型计算每个候选关键词的词向量与目标领域的每个特定相关关键词的词向量的相似度。
将每个候选关键词与每个特定相关关键词代入训练后的词向量模型即可得到每个候选关键词的词向量与每个特定相关关键词的词向量,进而可计算每个候选关键词与目标领域的每个特定相关关键词的词向量的相似度。
步骤270、若相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
若候选关键词与目标领域的特定相关关键词的词向量的相似度大于预设阈值,则该目标领域的特定相关关键词与候选关键词的语义相似度较大,将该目标领域的特定相关关键词作为待分析文本的关键词输出,丰富搜索关键词。
优选的,还可获取目标搜索URL对应的源IP地址,则在输出关键词后可定位到对应的源IP地址,从而可以较为比较准确地确定具有某一兴趣或需求的人群,如若确定输出的关键词中有预设的特定相关关键词,则可确定该用户具有购车意愿,则可向目标搜索URL对应的源IP地址推送与汽车相关的信息,进而实现有针对性地推送,可提高推送的效率。
本发明实施例通过根据搜索引擎对应的搜索URL组成规则得到待分析文本,实现根据网关数据中记录的搜索URL获得用户在搜索引擎中键入的待分析文本;通过word2vec语言建模工具训练得到目标领域的词向量模型,实现如果每个候选关键词均与特定无关关键词匹配失败,则基于词向量模型计算每个候选关键词的词向量与目标领域的每个特定相关关键词的词向量的相似度,从而可获得与候选关键词语义相似度较大的特定相关关键词,将其作为待分析文本的关键词,丰富用户的搜索关键词。
实施例三
图3文本发明实施例三提供的一种搜索关键词获取的装置的结构框图,该装置可由软件和\或硬件组成。参见图3,该装置包括:关键词统计模块310、文本分词模块320、关键词匹配模块330、相似度计算模块340和关键词输出模块350,其中,
关键词统计模块310,用于统计目标领域的特定相关关键词和特定无关关键词;
文本分词模块320,用于将获取的待分析文本进行分词得到候选关键词;
关键词匹配模块330,用于将每个所述候选关键词与所述特定无关关键词进行匹配;
相似度计算模块340,用于若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
关键词输出模块350,用于若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
上述方案中,可选的是,还包括:
模型训练模块,用于通过word2vec语言建模工具训练得到目标领域的词向量模型;
所述相似度计算模块,具体用于:
基于所述词向量模型计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度。
上述方案中,可选的是,还包括:
文本获取模块,用于根据搜索引擎对应的搜索URL组成规则得到待分析文本。
上述方案中,可选的是,所述文本获取模块,包括:
字符串获取单元,用于利用搜索引擎对应的正则表达式得到目标搜索URL中包含待分析文本的字符串;
文本获取单元,用于将所述字符串进行转码得到待分析文本。
上述方案中,可选的是,所述文本获取模块,还包括:
滤除单元,用于将所述待分析文本中除中文之外的文本和\或中文符号滤除。
上述装置可执行本发明实施例一和实施例二所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例一和实施例二所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种搜索关键词获取的方法,其特征在于,包括:
统计目标领域的特定相关关键词和特定无关关键词;
将获取的待分析文本进行分词得到候选关键词;
将每个所述候选关键词与所述特定无关关键词进行匹配;
若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过word2vec语言建模工具训练得到目标领域的词向量模型;
所述计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度,具体为:
基于所述词向量模型计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度。
3.根据权利要求1所述的方法,其特征在于,所述将获取的待分析文本进行分词得到候选关键词之前,还包括:
根据搜索引擎对应的搜索URL组成规则得到待分析文本。
4.根据权利要求3所述的方法,其特征在于,所述根据搜索引擎对应的搜索URL组成规则得到待分析文本,包括:
利用搜索引擎对应的正则表达式得到目标搜索URL中包含待分析文本的字符串;
将所述字符串进行转码得到待分析文本。
5.根据权利要求4所述的方法,其特征在于,所述将所述字符串进行转码得到待分析文本之后,还包括:
将所述待分析文本中除中文之外的文本和\或中文符号滤除。
6.一种搜索关键词获取的装置,其特征在于,包括:
关键词统计模块,用于统计目标领域的特定相关关键词和特定无关关键词;
文本分词模块,用于将获取的待分析文本进行分词得到候选关键词;
关键词匹配模块,用于将每个所述候选关键词与所述特定无关关键词进行匹配;
相似度计算模块,用于若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
关键词输出模块,用于若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
7.根据权利要求6所述的装置,其特征在于,还包括:
模型训练模块,用于通过word2vec语言建模工具训练得到目标领域的词向量模型;
所述相似度计算模块,具体用于:
基于所述词向量模型计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度。
8.根据权利要求7所述的装置,其特征在于,还包括:
文本获取模块,用于根据搜索引擎对应的搜索URL组成规则得到待分析文本。
9.根据权利要求8所述的装置,其特征在于,所述文本获取模块,包括:
字符串获取单元,用于利用搜索引擎对应的正则表达式得到目标搜索URL中包含待分析文本的字符串;
文本获取单元,用于将所述字符串进行转码得到待分析文本。
10.根据权利要求9所述的装置,其特征在于,所述文本获取模块,还包括:
滤除单元,用于将所述待分析文本中除中文之外的文本和\或中文符号滤除。
CN201710047106.0A 2017-01-22 2017-01-22 一种搜索关键词获取的方法及装置 Pending CN106844647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710047106.0A CN106844647A (zh) 2017-01-22 2017-01-22 一种搜索关键词获取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710047106.0A CN106844647A (zh) 2017-01-22 2017-01-22 一种搜索关键词获取的方法及装置

Publications (1)

Publication Number Publication Date
CN106844647A true CN106844647A (zh) 2017-06-13

Family

ID=59121015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710047106.0A Pending CN106844647A (zh) 2017-01-22 2017-01-22 一种搜索关键词获取的方法及装置

Country Status (1)

Country Link
CN (1) CN106844647A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491547A (zh) * 2017-08-28 2017-12-19 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108986910A (zh) * 2018-07-04 2018-12-11 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质
CN109284384A (zh) * 2018-10-10 2019-01-29 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN109447105A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 合同审核方法、装置、计算机设备和存储介质
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN110263345A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110472026A (zh) * 2019-07-15 2019-11-19 中国平安人寿保险股份有限公司 文本信息处理方法及系统、可读存储介质及终端设备
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110795911A (zh) * 2019-09-16 2020-02-14 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN111241240A (zh) * 2020-01-08 2020-06-05 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN112632213A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 地址信息标准化方法及装置、电子设备、存储介质
CN117236659A (zh) * 2023-11-14 2023-12-15 贵州优特云科技有限公司 一种基于线上旅游平台的团计划管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153A (zh) * 2006-09-13 2008-03-19 阿里巴巴公司 一种搜索信息的方法及系统
CN105631050A (zh) * 2016-03-01 2016-06-01 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及系统
CN105718463A (zh) * 2014-12-02 2016-06-29 杭州迪普科技有限公司 关键字模糊匹配方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153A (zh) * 2006-09-13 2008-03-19 阿里巴巴公司 一种搜索信息的方法及系统
CN105718463A (zh) * 2014-12-02 2016-06-29 杭州迪普科技有限公司 关键字模糊匹配方法及装置
CN105631050A (zh) * 2016-03-01 2016-06-01 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔凡壬: "基于本体的制造业领域Web信息集成", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107491547A (zh) * 2017-08-28 2017-12-19 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108228710B (zh) * 2017-11-30 2021-09-28 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108986910A (zh) * 2018-07-04 2018-12-11 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质
CN108986910B (zh) * 2018-07-04 2023-09-05 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质
CN109447105A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 合同审核方法、装置、计算机设备和存储介质
CN109284384A (zh) * 2018-10-10 2019-01-29 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109858028B (zh) * 2019-01-30 2022-11-18 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN110263345A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110263345B (zh) * 2019-06-26 2023-09-05 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110472026A (zh) * 2019-07-15 2019-11-19 中国平安人寿保险股份有限公司 文本信息处理方法及系统、可读存储介质及终端设备
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110795911B (zh) * 2019-09-16 2023-07-21 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110795911A (zh) * 2019-09-16 2020-02-14 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN111241240B (zh) * 2020-01-08 2023-08-15 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN111241240A (zh) * 2020-01-08 2020-06-05 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN112632213A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 地址信息标准化方法及装置、电子设备、存储介质
CN117236659A (zh) * 2023-11-14 2023-12-15 贵州优特云科技有限公司 一种基于线上旅游平台的团计划管理方法及系统
CN117236659B (zh) * 2023-11-14 2024-02-02 贵州优特云科技有限公司 一种基于线上旅游平台的团计划管理方法及系统

Similar Documents

Publication Publication Date Title
CN106844647A (zh) 一种搜索关键词获取的方法及装置
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN107590169B (zh) 一种运营商网关数据的预处理方法及系统
CN106126502B (zh) 一种基于支持向量机的情感分类系统及方法
WO2012154470A1 (en) Generating a playlist
WO2008014702A1 (fr) Procédé et système d'extraction de mots nouveaux
KR20090000691A (ko) 컨텍스트 광고 정보를 노출하는 광고 방법 및 시스템
CN103425686B (zh) 一种信息发布方法和装置
CN103854661A (zh) 一种提取音乐特征的方法及装置
De Leon et al. Enhancing timbre model using MFCC and its time derivatives for music similarity estimation
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
CN112527955A (zh) 一种数据处理的方法和装置
CN106294358A (zh) 一种信息的检索方法及系统
CN114970525B (zh) 一种文本同事件识别方法、装置及可读存储介质
CN103226601B (zh) 一种图片搜索的方法和装置
Zhang et al. FMFCC-a: a challenging Mandarin dataset for synthetic speech detection
CN112446219A (zh) 一种中文请求文本意图分析方法
US11410706B2 (en) Content pushing method for display device, pushing device and display device
Mehmood et al. Potential barriers to music fingerprinting algorithms in the presence of background noise
CN109818737B (zh) 个性化口令生成方法及系统
Lee et al. Syllable-based Malay word stemmer
JP6763530B2 (ja) 歌詞のトピック推定情報生成システム
Kang et al. Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation Towards General Sound Classification
CN110930189A (zh) 基于用户行为的个性化营销方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613

RJ01 Rejection of invention patent application after publication