CN108108379A - 关键词拓词的方法及装置 - Google Patents

关键词拓词的方法及装置 Download PDF

Info

Publication number
CN108108379A
CN108108379A CN201611063473.1A CN201611063473A CN108108379A CN 108108379 A CN108108379 A CN 108108379A CN 201611063473 A CN201611063473 A CN 201611063473A CN 108108379 A CN108108379 A CN 108108379A
Authority
CN
China
Prior art keywords
speech
word
industry
default
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611063473.1A
Other languages
English (en)
Other versions
CN108108379B (zh
Inventor
葛婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611063473.1A priority Critical patent/CN108108379B/zh
Publication of CN108108379A publication Critical patent/CN108108379A/zh
Application granted granted Critical
Publication of CN108108379B publication Critical patent/CN108108379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的关键词拓词的方法及装置,获取预设行业的已有关键词;对所述已有关键词进行分词获得单词;从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;获取所述预设行业的词汇,采用所述词性结构模式生成所述预设行业的新关键词。根据预设行业中已有关键词中包含的单词的词性,以及单词的词性的排列顺序确定词性结构模式,采用该词性结构模式对该预设行业中的词汇进行组合生成该预设行业的新关键词。从而实现自动生成该预设行业的新关键词,减少人工的消耗,提高生成关键词的效率,拓词量多。

Description

关键词拓词的方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种关键词拓词的方法及装置。
背景技术
在互联网领域中,网站为了获得访问量,需要投放能够在搜索引擎中检索到该网站的大量的关键词。对于新网站,或者展示新产品的原网站来说,搜索引擎中投放的已有关键词新网站关联性差,或者已有关键词与新产品的相关性差,用户无法根据该已有关键词检索到该网站,因此,不能采用搜索引擎中已有关键词作为该网站所投放的关键词,需要对已有关键词进行拓词,获得能够检索到该网站的新关键词,从而提高该网站访问量。
现有技术中,对新网站,或者新产品进行关键词拓词时,一般依赖于人工根据新网站、或者展示新产品的原网站的内容,通过联想进行拓词。这种人工联想的关键词拓词方式,不仅耗费巨大的人工,而且关键词拓词的效率低,拓词量少。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的关键词拓词的方法及装置。
为此,本发明解决技术问题的技术方案是:
一种关键词拓词的方法,所述方法包括:
获取预设行业的已有关键词;
对所述已有关键词进行分词获得单词;
从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;
根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;
获取所述预设行业的词汇;
采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
可选的,所述预设词典包括预设基本词典和预设行业词典,所述从预设词典中查找所述单词的词性包括:
从所述预设基本词典中查找所述单词的基本词性,并且从所述预设行业词典中查找所述单词的行业词性,所述预设基本词典包括词汇与基本词性的对应关系,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性设置为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性设置为所述单词的词性。
可选的,所述预设词典包括预设基本词典和预设行业词典,所述从预设词典中查找所述单词的词性包括:
从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
可选的,所述获取所述预设行业的词汇,采用所述词性结构模式生成所述预设行业的新关键词包括:
从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
可选的,所述对所述已有关键词进行分词获得单词包括:
根据所述预设行业词典对所述已有关键词进行分词获得单词。
可选的,所述获取所述预设行业的词汇包括:
获取从网络爬取的所述预设行业的词汇;
和/或,
获取预先存储的所述预设行业的词汇。
一种关键词拓词装置,所述装置包括:
第一获取单元,用于获取预设行业的已有关键词;
分词单元,用于对所述已有关键词进行分词获得单词;
查找单元,用于从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;
确定单元,用于根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;
第二获取单元,用于获取所述预设行业的词汇;
生成单元,用于采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
可选的,所述预设词典包括预设基本词典和预设行业词典,所述查找单元包括:
第一查找子单元,以及第二查找子单元;
所述第一查找子单元,用于从所述预设基本词典中查找所述单词的基本词性,所述预设基本词典包括词汇与基本词性的对应关系;
所述第二查找子单元,用于从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
设置子单元,用于当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性设置为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性设置为所述单词的词性。
可选的,所述预设词典包括预设基本词典和预设行业词典,所述查找单元包括:
第三查找子单元,用于从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
第四查找子单元,用于当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
可选的,所述生成单元包括:
第一获取子单元,用于从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
生成子单元,用于按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
可选的,其特征在于,
所述分词单元,用于根据所述预设行业词典对所述已有关键词进行分词获得单词。
可选的,所述第二获取单元包括:
第二获取子单元和/第三获取子单元;
所述第二获取子单元,用于获取从网络爬取的所述预设行业的词汇;
所述第三获取子单元,用于获取预先存储的所述预设行业的词汇。
借由上述技术方案,本发明提供的关键词拓词的方法及装置,获取预设行业的已有关键词;对所述已有关键词进行分词获得单词;从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;获取所述预设行业的词汇,采用所述词性结构模式生成所述预设行业的新关键词。根据预设行业中已有关键词中包含的单词的词性,以及单词的词性的排列顺序确定词性结构模式,采用该词性结构模式对该预设行业中的词汇进行组合生成该预设行业的新关键词。从而实现自动生成该预设行业的新关键词,减少人工的消耗,提高生成关键词的效率,拓词量多。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的关键词拓词的方法流程图;
图2示出了本发明实施例提供的关键词拓词的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种关键词拓词的方法及装置的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了给出提高查找相似网页的方法准确率的实现方案,本发明实施例提供了一种关键词拓词的方法及装置,以下结合说明书附图对本发明的实施例进行说明。
图1为本发明实施例提供的关键词拓词的方法流程图,包括:
101:获取预设行业的已有关键词。
在实际应用中,同一个关键词,在不同的行业中,所表达的含义可能不同。因此,在根据客户需求对关键词进行拓词,一般情况下是在该客户所属的行业内进行拓词,所得的新关键词能够符合该客户的需求,若脱离开客户所述的行业进行拓词,所得的新关键词很多都无法进行投放。比如,若客户属于汽车行业,则预设行业即为汽车行业;若客户属于互联网行业,则预设行业即为互联网行业;若客户属于通信行业,则预设行业即为通信行业。
预设行业的已有关键词,是在该预设行业内,已经投放过的关键词。该已有关键词,可由客户根据实际情况提供;也可以从给该预设行业内所投放的关键词的历史记录中调用;还可以采用技术人员从网络信息中采集得到的该预设行业的关键词。当然,实际应用中,该已有关键词还可以是采用上述多种方法所获得的关键词,这里不进行具体限定。可以理解的是,所获取的预设行业的已有关键词很多。
102:对所述已有关键词进行分词获得单词。
常用的分词方法包括结巴中文分词法,Lucene中文分词法,以及smallseg分词法等。可以采用上述任意一种分词方法,对该已有关键词进行分词获得单词。当然,还可以采用现有技术中其他分词方法,这里不再一一赘述。
在一个例子中,所述对所述已有关键词进行分词获得单词包括:
根据所述预设行业的词典对所述已有关键词进行分词获得单词。
上述常用的分词方法中都有自带的词典,可以采用该分词方法中自带的词典对已有关键词进行分词。但是,在不同的行业中,由于同一个词汇来说,所表示的含义可能不同,为了对已有关键词分词更准确,可以在所采用的分词方法中设置该预设行业的预设行业词典,根据该预设行业词典对已有关键词进行分词。例如:“中国石油”,若采用分词方法中自带的词典进行分词,得到的单词是“中国”,“石油”;若采用石油行业词典进行分词,得到的单词是“中国石油”。“中国石油”是一个石油行业的厂商名称,不能分开。
预设行业词典,是由技术人员对大量的网络信息采集所获得的词典,包括该预设行业中的大量的词汇,还包括各个词汇在该行业词典中的行业词性。每个行业有一个独立的预设行业词典。同一个词汇,在不同的预设行业词典中,该词汇的行业词性可能不同。例如:苹果,在农产品行业中,行业词性为农产品;在手机行业中,行业词性为品牌,厂商。再例如:企鹅,在互联网行业中,行业词性为聊天工具,厂商;在汽车行业中,行业词性为车型。
一般情况下,对每个已有关键词进行分词后,能够获得至少两个单词,每个单词代表一个单独的属性。例如:已有关键词为红色华为手机,则对该已有关键词进行分词后,获得三个单词,分别为“红色”,“华为”,以及“手机”,其中,“红色”代表颜色属性,“华为”代表品牌属性,“手机”代表物品种类属性。再例如:方形乐扣保鲜盒,则对该已有关键词进行分词后,获得三个单词,分别为“方形”,“乐扣”,以及“保鲜盒”,其中,“方形”代表形状属性,“乐扣”代表品牌属性,“保鲜盒”代表物品种类属性。
103:从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系。
对已有关键词进行分词后,从预设词典中查找分词后所获得的各个单词的词性。其中,该预设词典包括预设基本词典和预设行业词典。
预设基本词典包括词汇与该词汇的基本词性之间的对应关系。其中,词汇的基本词性是以语法特征为依据,兼顾词汇意义得到的结果。基本词性包括名词、动词、形容词、数词、量词、代词、虚词、副词、介词、连词、助词、叹词和拟声词等。一个单词作为该预设基本词典中的一个词汇,可以对应一个基本词性,也可以对应多个基本词性。举例说明:“游泳”对应的基本词性包括动词,以及名词。
预设行业词典包括词汇与该词汇的行业词性之间的对应关系。其中,行业词性是以该词汇在行业内所表示的含义为主要依据得到的结果。行业词性包括:车系,品牌,颜色,制动类型以及通信方式等。同样的,一个单词作为该预设行业词典中的一个词汇,可以对应一个行业词性,也可以对应多个行业词性。同一个词汇对应的多个行业词性,可以属于同一个预设行业词典,也可以属于不同的预设行业词典。举例说明:“苹果”对应的行业词性包括品牌,厂家,以及农产品等。其中,行业词性“品牌”,“厂家”属于同一个预设行业词典。行业词性“厂家”,“农产品”属于不同的预设行业词典。
在一个例子中,从预设词典中查找所述单词的词性包括:
从所述预设基本词典中查找所述单词的基本词性,并且从所述预设行业词典中查找所说单词的行业词性,所述预设基本词典包括词汇与基本词性的对应关系,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性作为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性作为所述单词的词性。
在此例子中,从预设基本词典中查找已有关键词分词后所得的各个单词的基本词性,并且,从预设行业词典中查找已有关键词分词后所得的各个单词的行业词性,该预设行业词典即为所需拓词的客户所属的预设行业的预设行业词典。
可以理解的是,已有关键词分词后所得的各个单词,都存在所对应的基本词性,但是,在该预设行业的预设行业词典中,不一定存在所对应的行业词性。举例说明:“土豆”的基本词性是名词;在视屏行业,行业词性是厂商;在通信行业,不存在行业词性。
因此,当从所述预设行业词典中查找到单词的行业词性时,该单词的词性包括基本词性和行业词性;当从所述预设行业词典中没有查找到该单词的行业词性时,该单词的词性仅包括基本词性。
在另一个例子中,所述从预设词典中查找所述单词的词性包括:
从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
在本实例中,从预设词典中查找所述单词的词性时,先从预设行业词典中查找单词在该预设行业中的行业词性,当从所述预设行业词典中查找到该单词的行业词性时,该单词的词性即为行业词性。当从所述预设行业词典中没有查找到该单词的行业词性时,从预设基本词典中查找该单词的基本词性,即该单词的词性即为基本词性。
本实例与上一实例的区别在于,若能查找到该单词的行业词性时,无需再查找该单词的基本词性,该单词的行业词性即为该单词的词性。即该单词的词性不会同时包括基本词性和行业词性。若不能查找到该单词的行业词性,才查找该单词的基本词性。其中,仅采用该单词的行业词性进行关键词拓词,虽然所得的新关键词比上一实例少,但是更符合客户的需求,可用性更高。
104:根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序。
确定了各个已知关键词分词后所得的单词的词性后,根据该单词的词性确定该预设行业中各个已知关键词的词性结构模式。一个已知关键词有可能只有一个词性结构模式,也可能有多个词性结构模式。每个词性结构模式包括该已知关键词中分词后所得的各个单词的词性,以及各个单词的词性的排列顺序。
举例说明:已知关键词为“红色华为V8”,分词后所得的单词包括“红色”,“华为”,以及“V8”。从手机行业词典中,查找各个单词的行业词性分别为:“红色”的行业词性是颜色,“华为”的行业词性是品牌,厂商,以及“V8”的行业词性是手机型号。则该已知关键词有两个词性结构模式:颜色+品牌+手机型号,以及颜色+厂商+手机型号。
再举例说明:已知关键词为“绿色2.0电动汽车”,分词后所得的单词包括“绿色”,“2.0”,“电动”以及“汽车”。从汽车行业词典中,查找各个单词的行业词性分别为:“绿色”的行业词性是颜色,“2.0”的行业词性是排量,“电动汽车”的行业词性是动力类型。则该已知关键词的词性结构模式是:颜色+排量+动力类型。
已知关键词的词性结构模式,能够表征该预设行业中投放的关键词所包含的词性的种类,以及不同词性的种类的排列组合模式。
105:获取所述预设行业的词汇。
获取该预设行业的词汇,可以有多种实现形式。在一个例子中,该预设行业的词汇由客户提供。预先存储客户提供的预设行业词汇。则获取所述预设行业的词汇,即为获取预先存储的该预设行业的词汇。
在另一个例子中,可以根据客户的需求,由技术人员采用爬虫技术,从网络中爬取该预设行业的词汇。则获取所述预设行业的词汇,即为获取从网络爬取的所述预设行业的词汇。
当然,该预设行业的词汇,还可以既包含预先存储的客户提供的词汇,又包含从网络爬取的词汇。
106:采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
由上述描述可知,词性结构模式能够表征该预设行业中已知关键词所包含的词性的种类,以及各个词性的排列组合,按照该词性模型对预设行业词汇进行组合,能够生成满足该预设行业的新关键词。所生成的新关键词与已知关键词的词性结构模式相同。
在一个例子中,所述获取所述预设行业的词汇,采用所述词性结构模式生成所述预设行业的新关键词包括:
从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
以一个词性结构模式为例,该词性结构模式中单词的词性,即为该词性结构模式包含的词性种类,从预设行业的词汇中获取该词性结构模式所包含的词性种类的词汇。将该词汇采用笛卡尔积法进行组合,得到符合该词性结构模式的新关键词。
举例说明:一个词性结构模式中的单词的词性包括:颜色,排量,以及动力类型,单词词性的排列顺序为颜色+排量+动力类型。则从该预设行业的词汇中获取词性为颜色,排量,以及动力类型的所有词汇作为备选词。备选词包括:颜色——红色,黑色;排量——1.8,2.0,2.4;动力类型——电动汽车,混动汽车。则根据该词性结构模式中单词词性的排列顺序对上述被宣称进行组合,得到的新关键词是:红色1.8电动汽车,红色1.8混动汽车,黑色1.8电动汽车,黑色1.8混动汽车,红色2.0电动汽车,红色2.0混动汽车,黑色2.0电动汽车,黑色2.0混动汽车,红色2.4电动汽车,红色2.4混动汽车,黑色2.4电动汽车,黑色2.4混动汽车。
按照上述方法,按照每个已有关键词的词性结构模式,对所获取的该预设行业的词汇进行组合,获得了该预设行业的新关键词。当然,在实际应用中,为了保证所投放的关键词更实用,技术人员还会对新关键词进行人工筛选,最终得到所要投放的新关键词。
由上述内容可知,本发明有如下有益效果:
根据预设行业中已有关键词中包含的单词的词性,以及单词的词性的排列顺序确定词性结构模式,采用该词性结构模式对该预设行业中的词汇进行组合生成该预设行业的新关键词。从而实现自动生成该预设行业的新关键词,减少人工的消耗,提高生成关键词的效率,拓词量多。
图2为本发明实施例提供的关键词拓词的装置结构示意图,包括:
第一获取单元301,用于获取预设行业的已有关键词;
分词单元302,用于对所述已有关键词进行分词获得单词。
查找单元303,用于从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系。
确定单元304,用于根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序。
第二获取单元305,用于获取所述预设行业的词汇。
生成单元306,用于采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
可选的,所述预设词典包括预设基本词典和预设行业词典,所述查找单元包括:
第一查找子单元,以及第二查找子单元;
所述第一查找子单元,用于从所述预设基本词典中查找所述单词的基本词性,所述预设基本词典包括词汇与基本词性的对应关系;
所述第二查找子单元,用于从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
设置子单元,用于当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性设置为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性设置为所述单词的词性。
可选的,所述预设词典包括预设基本词典和预设行业词典,所述查找单元包括:
第三查找子单元,用于从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
第四查找子单元,用于当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
可选的,所述生成单元包括:
第一获取子单元,用于从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
生成子单元,用于按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
可选的,
所述分词单元,用于根据所述预设行业词典对所述已有关键词进行分词获得单词。
可选的,所述第二获取单元包括:
第二获取子单元和/第三获取子单元;
所述第二获取子单元,用于获取从网络爬取的所述预设行业的词汇;
所述第三获取子单元,用于获取预先存储的所述预设行业的词汇。
图2所示的装置是与图1所示的方法所对应的装置,具体实现方式与图1所示的方法类似,参考图1所示的方法中的描述,这里不再赘述。
所述关键词拓词装置装置包括处理器和存储器,上述第一获取单元、分词单元、查找单元、确定单元、第二获取单元和生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行根据预设行业中已有关键词中包含的单词的词性,以及单词的词性的排列顺序确定词性结构模式,采用该词性结构模式对该预设行业中的词汇进行组合生成该预设行业的新关键词。从而实现自动生成该预设行业的新关键词,减少人工的消耗,提高生成关键词的效率,拓词量多。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
装置技术效果
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:(方法独权的步骤)。
获取预设行业的已有关键词;
对所述已有关键词进行分词获得单词;
从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;
根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;
获取所述预设行业的词汇;
采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
在上述计算机程序产品中,所述预设词典包括预设基本词典和预设行业词典,所述从预设词典中查找所述单词的词性采用如下方法步骤的程序代码设置:
从所述预设基本词典中查找所述单词的基本词性,并且从所述预设行业词典中查找所述单词的行业词性,所述预设基本词典包括词汇与基本词性的对应关系,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性设置为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性设置为所述单词的词性。
在上述计算机程序产品中,所述预设词典包括预设基本词典和预设行业词典,所述从预设词典中查找所述单词的词性采用如下方法步骤的程序代码设置:
从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
在上述计算机程序产品中,所述获取所述预设行业的词汇,采用所述词性结构模式生成所述预设行业的新关键词采用如下方法步骤的程序代码设置:
从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
在上述计算机程序产品中,所述对所述已有关键词进行分词获得单词采用如下方法步骤的程序代码设置:
根据所述预设行业词典对所述已有关键词进行分词获得单词。
在上述计算机程序产品中,所述获取所述预设行业的词汇采用如下方法步骤的程序代码设置:
获取从网络爬取的所述预设行业的词汇;
和/或,
获取预先存储的所述预设行业的词汇。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种关键词拓词的方法,其特征在于,所述方法包括:
获取预设行业的已有关键词;
对所述已有关键词进行分词获得单词;
从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;
根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;
获取所述预设行业的词汇;
采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
2.根据权利要求1所述的方法,其特征在于,所述预设词典包括预设基本词典和预设行业词典,所述从预设词典中查找所述单词的词性包括:
从所述预设基本词典中查找所述单词的基本词性,并且从所述预设行业词典中查找所述单词的行业词性,所述预设基本词典包括词汇与基本词性的对应关系,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性设置为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性设置为所述单词的词性。
3.根据权利要求1所述的方法,其特征在于,所述预设词典包括预设基本词典和预设行业词典,所述从预设词典中查找所述单词的词性包括:
从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述获取所述预设行业的词汇,采用所述词性结构模式生成所述预设行业的新关键词包括:
从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述对所述已有关键词进行分词获得单词包括:
根据所述预设行业词典对所述已有关键词进行分词获得单词。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述获取所述预设行业的词汇包括:
获取从网络爬取的所述预设行业的词汇;
和/或,
获取预先存储的所述预设行业的词汇。
7.一种关键词拓词装置,其特征在于,所述装置包括:
第一获取单元,用于获取预设行业的已有关键词;
分词单元,用于对所述已有关键词进行分词获得单词;
查找单元,用于从预设词典中查找所述单词的词性,所述预设词典包括词汇与词性的对应关系;
确定单元,用于根据所述单词的词性确定所述已有关键词的词性结构模式,所述词性结构模式包括所述单词的词性以及所述单词的词性的排列顺序;
第二获取单元,用于获取所述预设行业的词汇;
生成单元,用于采用所述词性结构模式对所述预设行业的词汇进行组合生成所述预设行业的新关键词。
8.根据权利要求7所述的装置,其特征在于,所述预设词典包括预设基本词典和预设行业词典,所述查找单元包括:
第一查找子单元,以及第二查找子单元;
所述第一查找子单元,用于从所述预设基本词典中查找所述单词的基本词性,所述预设基本词典包括词汇与基本词性的对应关系;
所述第二查找子单元,用于从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系;
设置子单元,用于当从所述预设行业词典中查找到所述单词的行业词性时,将所述单词的基本词性和行业词性设置为所述单词的词性;从所述预设行业词典中没有查找到所述单词的行业词性时,将所述单词的基本词性设置为所述单词的词性。
9.根据权利要求7所述的装置,其特征在于,所述预设词典包括预设基本词典和预设行业词典,所述查找单元包括:
第三查找子单元,用于从所述预设行业词典中查找所述单词的行业词性,所述预设行业词典包括词汇与所述预设行业的行业词性的对应关系,当从所述预设行业词典中查找到所述单词的行业词性时,将所述行业词性作为所述单词的词性;
第四查找子单元,用于当从所述预设行业词典中没有查找到所述单词的行业词性时,从所述预设基本词典中查找所述单词的基本词性,将所述基本词性作为所述单词的词性。
10.根据权利要求7-9任意一项所述的装置,其特征在于,所述生成单元包括:
第一获取子单元,用于从所述预设行业的词汇中获取符合所述词性结构模式中所述单词的词性的词汇作为备选词;
生成子单元,用于按照所述词性结构模式中所述单词的词性的排列顺序对所述备选词进行组合生成所述预设行业的新关键词。
CN201611063473.1A 2016-11-25 2016-11-25 关键词拓词的方法及装置 Active CN108108379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611063473.1A CN108108379B (zh) 2016-11-25 2016-11-25 关键词拓词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611063473.1A CN108108379B (zh) 2016-11-25 2016-11-25 关键词拓词的方法及装置

Publications (2)

Publication Number Publication Date
CN108108379A true CN108108379A (zh) 2018-06-01
CN108108379B CN108108379B (zh) 2021-05-28

Family

ID=62205450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611063473.1A Active CN108108379B (zh) 2016-11-25 2016-11-25 关键词拓词的方法及装置

Country Status (1)

Country Link
CN (1) CN108108379B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209378A (zh) * 2019-12-26 2020-05-29 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法
CN111597413A (zh) * 2020-05-14 2020-08-28 上海携程商务有限公司 信息推送方法、系统、设备及存储介质
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010107113A (ko) * 2000-05-25 2001-12-07 서정연 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN105095391A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 利用分词程序识别机构名称的装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010107113A (ko) * 2000-05-25 2001-12-07 서정연 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN105095391A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 利用分词程序识别机构名称的装置及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209378A (zh) * 2019-12-26 2020-05-29 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法
CN111209378B (zh) * 2019-12-26 2024-03-12 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法
CN111597413A (zh) * 2020-05-14 2020-08-28 上海携程商务有限公司 信息推送方法、系统、设备及存储介质
CN111597413B (zh) * 2020-05-14 2023-04-18 上海携程商务有限公司 信息推送方法、系统、设备及存储介质
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN108108379B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
Mezaris et al. An ontology approach to object-based image retrieval
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN108959474B (zh) 实体关系提取方法
CN106844341A (zh) 基于人工智能的新闻摘要提取方法及装置
CN108694178A (zh) 一种推荐司法知识的方法及装置
CN106598999A (zh) 一种计算文本主题归属度的方法及装置
CN108108379A (zh) 关键词拓词的方法及装置
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN106610931A (zh) 话题名称的提取方法及装置
CN110019669A (zh) 一种文本检索方法及装置
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
CN103955514A (zh) 一种基于Lucene倒排索引的图像特征索引方法
CN111143547A (zh) 一种基于知识图谱的大数据显示方法
CN108062342A (zh) 应用程序的推荐方法及装置
WO2020228536A1 (zh) 图标生成方法及装置、获取图标的方法、电子设备以及存储介质
CN107784027A (zh) 一种裁判文书检索关键词的提示方法及装置
CN110019670A (zh) 一种文本检索方法及装置
CN108228566A (zh) 多文档关键词自动抽取方法及系统、计算机程序
US11914641B2 (en) Text to color palette generator
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
CN116860963A (zh) 一种文本分类方法、设备及存储介质
CN111723280B (zh) 信息的处理方法、装置、存储介质及电子设备
CN104298786B (zh) 一种图像检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant