CN106682149A - 一种基于元搜索引擎的标签自动生成方法 - Google Patents

一种基于元搜索引擎的标签自动生成方法 Download PDF

Info

Publication number
CN106682149A
CN106682149A CN201611199495.0A CN201611199495A CN106682149A CN 106682149 A CN106682149 A CN 106682149A CN 201611199495 A CN201611199495 A CN 201611199495A CN 106682149 A CN106682149 A CN 106682149A
Authority
CN
China
Prior art keywords
word
search engine
label
automatic generation
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611199495.0A
Other languages
English (en)
Inventor
唐雅媛
罗恩韬
唐亚纯
高傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Science and Engineering
Original Assignee
Hunan University of Science and Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Science and Engineering filed Critical Hunan University of Science and Engineering
Priority to CN201611199495.0A priority Critical patent/CN106682149A/zh
Publication of CN106682149A publication Critical patent/CN106682149A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于元搜索引擎的标签自动生成方法,首先是文本预处理优化,在进行中文分词的同时保留词语的基本信息,包括词性、词位置、词频,构成五元组;其次是词语过滤,去掉停用词,进行词性过滤,根据经验保留名词、动词和动名词,降低噪音干扰;再次重新计算词语信息量,通过统计的词语基本信息,计算词语位置得分、词频、词跨度,并计算综合得分作为词语的权重;最后计算词语间的相似度作为TextRank算法中的边的权重,利用TextRank算法计算每个词的TextRank值。本发明引入了元搜索引擎技术和自动生成标签,将自动标签技术应用到搜索引擎中,从而保证查全率和查准率。

Description

一种基于元搜索引擎的标签自动生成方法
技术领域
本发明涉及标签获取的方法,特别是一种基于元搜索引擎的标签自动生成方法。
背景技术
近年来,随着互联网行业的飞速发展以及搜索引擎日趋成熟,各式搜索引擎成为了人们获取信息的有利工具,随着用户的增多,互联网产生的信息量出现了爆炸式的增长,但这些信息资源往往夹杂着各种噪音,搜索引擎无法满足用户的个性化需求。为了更有效的利用这些信息资源,研究者们引入了“标签”技术,让用户能够更加精准的搜索到想要的结果,从海量信息中筛选出有效信息逐渐成为人们的研究热点,随着“标签”技术的成熟,自动标签技术也得到了广大学者的关注。
标签作为一种信息描述形式,近年来也的到了广泛的应用,一般是独立的单词,可以理解为是关键词或者主题词,它可以体现文本的关键信息,利用标签可以更好的发现、管理、传播和利用信息资源。目前越来越多的机构对标签进行了研究和利用,例如我们熟知的美味书签、百度百科、新浪微博等,用户对标签的正确应用,给日常工作带来便利,受到了各领域用户的一致好评。
目前标签获取的方法主要分为两类,一类是由用户捐献标签,这类标签需要较高的人工成本,但往往能够相对准确的反应出文本的关键信息;另一类则是利用数据挖掘和机器学习算法,从文本信息中自动提取能概括文本主题的词语,作为标签,这类方法无需人工干预,用户通过标签获取更加精准的信息。
标签的应用为用户带来很大的便利,如何提升标签的质量也成了人们研究的热点,也是一个难点。首先,互联网上的信息资源格式差异太大,有文本形式、有图片信息,还有视频以及其他形式,同一个资源一般也会包含多方面的信息;其次,对于同一个信息资源,不同标签代表的含义也各不相同,理想的情况是能够将关联度较高的词语作为标签。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于元搜索引擎的标签自动生成方法。
为解决上述技术问题,本发明所采用的技术方案是:一种基于元搜索引擎的标签自动生成方法,包括以下步骤:
1)对文本标题和摘要进行分词处理,并记录词性;对词语进行过滤处理,得到一系列候选关键词;
2)按照候选关键词的先后顺序进行标号,遍历候选关键词,记录词语出现的频率、词语首次出现的位置、末次出现的位置以及词语总数sum,计算词语wi的位置因子L(wi)、词频因子T(wi)、跨度因子S(wi),从而计算出词语信息量m(wi);
3)根据词语信息量计算词语间的相关性;词语wi和词语wj的相关性有如下计算公式:
其中,r(wi,wj)表示词语wi和wj之间的差异性;
4)根据所述相关性计算词语wi的TextRank值:
其中,d指的是阻尼系数,其大小介于0和1之间;P(wi)表示词语wi的TextRank值或者重要性,In(wi)表示与词语wi相关的词语集合;P(wj)表示词语wj的TextRank值或者重要性,P(wi)、P(wj)的初始值均为1,上式等号右侧P(wj)为上一次迭代的值,等号左侧P(wi)为当次迭代的值;
5)对于从搜索引擎爬取的每一条结果的标题和摘要中的词语,利用步骤1)~步骤4)计算TextRank值,将词语按TextRank值进行排序,选取前五个词语作为候选标签;
6)将所有候选标签进行合并,选取得分最高的前N个词语作为标签。
本发明中,N=10。
m(wi)=α*L(wi)+β*T(wi)+γ*S(wi);其中α,β,γ为影响系数,α+β+γ=1。
词语wi的位置因子L(wi)的计算公式为:
其中,area(wi)表示词语wi在句子中出现的位置。
词语wi的词频因子T(wi)计算公式为:
其中,fre(wi)表示词语wi出现的频率。
词语wi的跨度因子S(wi)的计算公式为:
其中,las(wi)为词语wi末次出现的位置;fre(wi)表示词语wi出现的频率。
与现有技术相比,本发明所具有的有益效果为:本发明针对不同的搜索引擎有着独立的特性,在索引机制、排序算法、查找范围等多方面都存在较大的差异,独立搜索引擎的覆盖率相对较低,在查全率和查准率方都不够理想。本发明引入了元搜索引擎技术和自动生成标签,将自动标签技术应用到搜索引擎中,从而保证查全率和查准率。
附图说明
图1为文本预处理过程;
图2为词语的数据结构;
图3为改进后的TextRank算法流程图;
图4为标签提取流程图;
图5为元搜索引擎结构图。
具体实施方式
本发明基于已有的TextRank算法,提出了一种改进的TextRank算法生成标签。本方法一共由3个阶段组成,分别为文本预处理优化,信息量计算,标签提取。
算法改进思路:首先是文本预处理优化,在进行中文分词的同时保留词语的基本信息,包括词性、词位置、词频,构成五元组;其次是词语过滤,去掉停用词,进行词性过滤,根据经验保留名词、动词和动名词,降低噪音干扰;再次重新计算词语信息量,通过统计的词语基本信息,计算词语位置得分、词频、词跨度,并计算综合得分作为词语的权重;最后计算词语间的相似度作为TextRank算法中的边的权重,利用TextRank算法计算每个词的TextRank值。
1.文本预处理优化
文本预处理首先需要对文本进行分词处理,然后去掉噪声词、去掉停用词,保留名词、动词、动名词,分词的同时记录词的偏移量,图1为文本预处理过程,最终记录如下信息:
(1)词的位置信息;
(2)词频信息;
(3)词性;
(4)词的偏移量。
从图4可知,文本预处理主要分为以下四个步骤:
(1)对文本进行中文分词,并记录词语的词性、偏移量等基本信息,这个过程中,需要借助于词典,本发明采用的是HanLP分词工具,该工具自带比较完善的词典文件,包括基本词典、用户自定词典等;
(2)去停用词,去除标点符号、功能性用词、单字等无意义的词,借助于停用词表,减少无用词的干扰;
(3)保留名词、动词、形容词,经过研究发现,95%以上的关键词都属于这三种词性,因此本发明为了减少干扰,只保留了这三种词性的词语,去除了副词、连词、语气词等多种词性的词语,用这种方式来提高关键词的精度;
(4)词频统计,生成词语集合,计算每个词的词频,结合偏移量、词位置的信息,通过这些信息构成一个五元组(词语、词性、词位置、词频、偏移量)。
1.1分词和词性标注
中文分词是关键词提取的基础,本发明第二章也介绍了分词原理以及常用的分词算法,分词工具的好坏直接影响着关键词提取的效果。本发明采用的是HanLP分词系统分词速度在300kb/s左右,分词精度达到95%以上,拥有多种类型的词典,其词典种类如下表1所示:
表1:HanLP中词典详细信息
从表1可以看出,HanLP包含了非常完善的分词词库,对于一些专有名词也有很好的扩展,不足之处是该分词算法对于新词汇的识别能力有限,另外,HanLP在分词的同时能够进行自动标注词性,对于词性标注,它拥有一套自己的规则,将词性规范化,表2是HanLP的词性标注集:
表2HanLP词性标注集
表2列出了HanLP提供的部分词性标注集,可以看出对于所有词性都有明确的分类和定义,下表3-6展示了分词效果:
表3HanLP分词效果
表3展示了HanLP的分词效果,分词的同时对词性进行了标注。
1.2停用词处理
在完成分词工作之后,文章被切分成词语集合,在词语集合中包含有标点符号、单个汉字等多种无意义的词,这些词中有很多出现频率很高,如果不进行过滤处理,将会对后续结果产生很大的影响。
对于停用词的处理,一般会用到停用词典,词典中收录了部分停用词,用户可以根据实际需要自行扩展,本发明用到的停用词典有1457个停用词。
1.3词性过滤
本发明用到的分词工具在分词的同时能够自动进行词性标注,。经过研究者们的实践和分析,85%以上的关键词都是名词或包含名词的组合词,其次动词和形容词,这三种词性加起来涵盖了95%以上的关键词,所以本发明鉴于这个原因,将分词结果只保留名词、动词和形容词,过滤掉其他词性词语,尽可能的减少无用词的干扰。
2.信息量计算
经过文本预处理之后,每个词语被重新组装成一个五元组,用图3-4所示的数据结构表示,对于信息量的计算,本发明考虑了词频、词位置、词跨度等特征信息,一方面重新计算词语权重,另一方面利用相似度原理计算词语间的相似度,作为TextRank算法中的边,融入TextRank算法提取标签。
从图2可以看出,本发明用到的数据结构包含了词的基本信息,分别记录词语的首位置、末位置、词性、词频,为后面的计算提供了数据基础,下面将具体介绍计算方式。
定义:(1)Di为任意一条结果集,Di={W1,W2,…,Wn};
(2)Ti表示词频得分;
(3)Li为位置得分;
(4)Si为词跨度得分;
(5)Pi为词性特征值;
(6)Sim(d)为相似度得分。
1.词语位置得分
在本发明中,词的位置信息包括标题和摘要,一般如果一个词语出现在标题中,则会认为这个词比较重要,在赋予初始值得时候会有加分项,位置信息计算方法:
2.词频统计
本发明在对一篇文档进行预处理时,会把标题和内容分开去进行中文分词,所以在标题和内容中可能会出现相同的词,所以首先对单个文档进行词频统计,然后再对多个搜索结果进行词频统计:
其中,fre(wi)表示词语wi出现的频率。
3.词跨度计算
词跨度表示词语在文档中的距离,通过记录第一次出现的位置和最后一次出现的位置,由公式3计算得出,它反映出词在文章中的范围。
其中,fir(wi)表示词语wi出现的首位置,las(wi)表示词语出现的末位置。
4.词性因子
根据分析对不同的词性的词分别赋予不同的权值,本发明经过预处理之后只剩下名词、动词和形容词,对于不同的词性赋予不同的权重因子。
5.相似度得分
本发明在相关性算法BM25F算法的基础上加以改进,首先,因为标题和摘要的重要性不同,需要对标题和摘要赋予不同的权重值。
定义:w为检索关键词,z表示不同的域,即表示标题或者正文,Wz表示不同域的权重值,即W1=5,W2=3,Numt表示在文档d中包含查询关键词的个数,Total代表文档d所有词的数量,QNum表示检索条件中包含的w的数量。基于这一定义,得出下面的计算公式:
其中F(w,z)表示在域z中w出现的次数,可以从公式得出,标题和摘要包含的关键词数量与文档的评分值成正比。
最终根据这些信息,计算关键词的信息量。
6.相关度计算
根据万有引力定律,将词语看做一个物体,词的信息量看作物体的质量,词跨度看作物体间的距离,词语wi和wj的相关性有如下计算公式:
其中,m(wi)表示词语wi的信息量,r(wi,wj)表示词语wi和wj之间的差异性,有如下计算公式6所示:
其中S(wi,wj)表示词语wi和词语wj的共现次数。
算法设计思路
文档预处理
首先,利用HanLP分词工具,分别对标题和摘要进行分词处理,并记录词性;其次,词语过滤处理,包括停用词过滤和词性过滤;
计算词的信息量
文本进行预处理之后,会得到一系列候选关键词,按照关键词的先后顺序进行标号,遍历候选关键词,记录词频s_fre、词语首次出现位置s_first、末位置s_last以及词语总数sum,利用公式计算相应的权值:
(1)根据公式(1)计算位置因子;
(2)根据公式(2)计算词频因子;
(3)根据公式(3)计算词跨度因子;
(4)通过上面的信息计算词语的信息量。
计算词语的相关性
根据公式(5)计算词语间的相关性。
计算TextRank值
将公式(5)代入TextRank值的原计算公式得到改进后的公式7:
根据权重提取候选标签
对于每一条结果,将词语按TextRank值进行排序,选取前五作为候选标签。
标签生成
将所有候选标签进行合并,选取得分最高的十个词语作为标签。
从图3可以看出,该算法主要是通过分析词语的特征信息,并通过公式计算特征信息的影响因子,最终综合所有特征信息的影响因子,计算词的信息量,然后利用公式计算词语间相关度,构成TextRank算法图模型中的边,最后,计算每个词的TextRank值。
3.标签提取
设计思路:本发明的数据源来自于搜索引擎爬取的结果,获取每一条结果的标题和摘要,利用改进的TextRank关键词提取算法,获取每一条结果中得分最高的N个词,然后合并所有的结果,并进行排序,取排名前十的词语作为标签。
由图4可以标签提取主要包括三个步骤,首先是数据源处理,本发明通过调用多种搜索引擎的接口,并对其结果进行融合,然后抽取每条结果中的标题和摘要进行分析;然后获取利用改进的TextRank算法,计算每条结果中的TextRank值,取得分最高的前五个作为候选关键词;最后对所有结果进行合并,取得分最高的词作为标签。

Claims (6)

1.一种基于元搜索引擎的标签自动生成方法,其特征在于,包括以下步骤:
1)对文本标题和摘要进行分词处理,并记录词性;对词语进行过滤处理,得到一系列候选关键词;
2)按照候选关键词的先后顺序进行标号,遍历候选关键词,记录词语出现的频率、词语首次出现的位置、末次出现的位置以及词语总数sum,计算词语wi的位置因子L(wi)、词频因子T(wi)、跨度因子S(wi),从而计算出词语wi的信息量m(wi);
3)根据词语信息量计算词语间的相关性;词语wi和词语wj的相关性有如下计算公式:
c o r r e l a t i o n ( w i , w j ) = m ( w i ) * m ( w j ) r ( w i , w j ) 2 ;
其中,r(wi,wj)表示词语wi和wj之间的差异性;m(wj)为wj的词语信息量;
4)根据所述相关性计算词语wi的TextRank值:
P ( w i ) = ( 1 - d ) + d * Σ j ∈ I n ( w i ) c o r r e l a t i o n ( w i , w j ) Σ c o r r e l a t i o n ( w i , w j ) P ( w j ) ;
其中,d指的是阻尼系数,其大小介于0和1之间;P(wi)表示词语wi的TextRank值或者重要性,In(wi)表示与词语wi相关的词语集合;P(wj)表示词语wj的TextRank值或者重要性,P(wi)、P(wj)的初始值均为1,上式等号右侧P(wj)为上一次迭代的值,等号左侧P(wi)为当次迭代的值;
5)对于从搜索引擎爬取的每一条结果的标题和摘要中的词语,利用步骤1)~步骤4)计算TextRank值,将词语按TextRank值进行排序,选取前五个词语作为候选标签;
6)将所有候选标签进行合并,选取得分最高的前N个词语作为标签。
2.根据权利要求1所述的基于元搜索引擎的标签自动生成方法,其特征在于,N=10。
3.根据权利要求1所述的基于元搜索引擎的标签自动生成方法,其特征在于,m(wi)=α*L(wi)+β*T(wi)+γ*S(wi);其中α,β,γ为影响系数,α+β+γ=1。
4.根据权利要求1所述的基于元搜索引擎的标签自动生成方法,其特征在于,词语wi的位置因子L(wi)的计算公式为:
L ( w i ) = a r e a ( w i ) - 1 a r e a ( w i ) + 1 ;
其中,area(wi)表示词语wi在句子中出现的位置。
5.根据权利要求1所述的基于元搜索引擎的标签自动生成方法,其特征在于,词语wi的词频因子T(wi)计算公式为:
T ( w i ) = f r e ( w i ) 1 + f r e ( w i ) ;
其中,fre(wi)表示词语wi出现的频率。
6.根据权利要求1所述的基于元搜索引擎的标签自动生成方法,其特征在于,词语wi的跨度因子S(wi)的计算公式为:
S ( w i ) = l a s ( w i ) - f i r ( w i ) + 1 s u m ;
其中,las(wi)为词语wi末次出现的位置;fre(wi)表示词语wi出现的频率。
CN201611199495.0A 2016-12-22 2016-12-22 一种基于元搜索引擎的标签自动生成方法 Pending CN106682149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611199495.0A CN106682149A (zh) 2016-12-22 2016-12-22 一种基于元搜索引擎的标签自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611199495.0A CN106682149A (zh) 2016-12-22 2016-12-22 一种基于元搜索引擎的标签自动生成方法

Publications (1)

Publication Number Publication Date
CN106682149A true CN106682149A (zh) 2017-05-17

Family

ID=58871340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611199495.0A Pending CN106682149A (zh) 2016-12-22 2016-12-22 一种基于元搜索引擎的标签自动生成方法

Country Status (1)

Country Link
CN (1) CN106682149A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656958A (zh) * 2017-06-09 2018-02-02 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109543178A (zh) * 2018-11-01 2019-03-29 银江股份有限公司 一种司法文本标签体系构建方法及系统
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109857854A (zh) * 2019-01-02 2019-06-07 新浪网技术(中国)有限公司 一种用户商业标签挖掘方法及装置、服务器
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN112150251A (zh) * 2020-10-09 2020-12-29 北京明朝万达科技股份有限公司 物品名称治理方法和装置
CN112256832A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种标签的提取方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
US20150019951A1 (en) * 2012-01-05 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and computer storage medium for automatically adding tags to document

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
US20150019951A1 (en) * 2012-01-05 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and computer storage medium for automatically adding tags to document

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
南江霞: "中文文本自动标注技术研究及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
秦鹏等: "基于关键词提取的搜索结果聚类研究", 《第五届全国信息检索学术会议论文集》 *
董乐等: "元搜索引擎中排序融合算法的优化研究", 《计算机应用与软件》 *
麻雪云: "基于聚类的元搜索引擎设计和实现", 《万方数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656958B (zh) * 2017-06-09 2019-07-19 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN107656958A (zh) * 2017-06-09 2018-02-02 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109543178A (zh) * 2018-11-01 2019-03-29 银江股份有限公司 一种司法文本标签体系构建方法及系统
CN109543178B (zh) * 2018-11-01 2023-02-28 银江技术股份有限公司 一种司法文本标签体系构建方法及系统
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109710916B (zh) * 2018-11-02 2024-02-23 广州财盟科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109857854A (zh) * 2019-01-02 2019-06-07 新浪网技术(中国)有限公司 一种用户商业标签挖掘方法及装置、服务器
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN111104488B (zh) * 2019-12-30 2023-10-24 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN112150251A (zh) * 2020-10-09 2020-12-29 北京明朝万达科技股份有限公司 物品名称治理方法和装置
CN112256832A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种标签的提取方法、装置、设备及可读存储介质
CN112256832B (zh) * 2020-10-23 2024-01-26 上海恒生聚源数据服务有限公司 一种标签的提取方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN106682149A (zh) 一种基于元搜索引擎的标签自动生成方法
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN109408642B (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN105824933A (zh) 基于主述位的自动问答系统及其实现方法
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
Abujar et al. A heuristic approach of text summarization for Bengali documentation
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN109948143A (zh) 社区问答系统的答案抽取方法
Jha et al. Homs: Hindi opinion mining system
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Efat et al. Automated Bangla text summarization by sentence scoring and ranking
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN112966508A (zh) 一种通用自动术语提取方法
CN112711666B (zh) 期货标签抽取方法及装置
Jha et al. Hsas: Hindi subjectivity analysis system
CN111444713A (zh) 新闻事件内实体关系抽取方法及装置
Ahmed et al. Question analysis for Arabic question answering systems
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
JPH08166965A (ja) 日本語テキスト自動分類方法
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517

RJ01 Rejection of invention patent application after publication