CN107861948B - 一种标签提取方法、装置、设备和介质 - Google Patents

一种标签提取方法、装置、设备和介质 Download PDF

Info

Publication number
CN107861948B
CN107861948B CN201711136511.6A CN201711136511A CN107861948B CN 107861948 B CN107861948 B CN 107861948B CN 201711136511 A CN201711136511 A CN 201711136511A CN 107861948 B CN107861948 B CN 107861948B
Authority
CN
China
Prior art keywords
word
current
determining
words
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711136511.6A
Other languages
English (en)
Other versions
CN107861948A (zh
Inventor
孙健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201711136511.6A priority Critical patent/CN107861948B/zh
Publication of CN107861948A publication Critical patent/CN107861948A/zh
Application granted granted Critical
Publication of CN107861948B publication Critical patent/CN107861948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种标签提取方法、装置、设备和介质,涉及互联网技术领域。该方法包括:对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。本发明实施例提供一种标签提取方法、装置、设备和介质,实现了对新出现的热点话题和热门词语的标签的提取。

Description

一种标签提取方法、装置、设备和介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种标签提取方法、装置、设备和介质。
背景技术
标签作为对内容的刻画特征,对于内容理解及推荐系统起到至关重要的作用。
目前业界对于标签的提取,常见于利用专业字典对专业文献进行标签的提取。例如,通过对旅游相关网页的文本数据进行分词得到的多个词语,然后在该多个词语中,若存在旅游字典预存的关键词,且该关键词出现的频率大于设定阈值,则将该关键词作为该网页文本内容的标签。
但是,随着互联网数据的爆发性增长,经常会出现新的热点话题和热门词语等。现有技术因为不能频繁且及时的更新专业字典,所以无法对新出现的热点话题和热门词语进行标签的提取。
发明内容
本发明提供一种标签提取方法、装置、设备和介质,以实现对新出现的热点话题和热门词语的标签的提取。
第一方面,本发明实施例提供了一种标签提取方法,该方法包括:
对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;
将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;
判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
进一步的,根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值包括:
根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量;
根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。
进一步的,所述根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量包括:
将所述文本数据根据生成时间进行排列;
按照设定时间间隔将排列后的所述文本数据划分成多个数据块;
确定所述当前候选标签词在每个数据块的热度;
根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量。
进一步的,确定所述当前候选标签词在每个数据块的热度包括:
根据所述当前候选标签词在每个数据块中的词频、共现组合新词频率和/或词频逆文档频率,确定所述当前候选标签词在每个数据块的热度。
进一步的,根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量包括:
将截至当前时刻的设定时长的时间段作为当前时间段;
遍历所述当前时间段内的数据块,以逐一比较所述当前候选标签词在相邻所述数据块中的热度;
根据比较结果确定所述当前候选标签词在当前时刻的热度向量。
进一步的,根据比较结果确定所述当前候选标签词在当前时刻的热度向量包括:
若所述当前候选标签词在所述当前时间段内,目标时刻的相邻数据块中的晚于目标时刻的数据块中的热度,大于、等于或小于在早于目标时刻的数据块中的热度,则对应将第一设定值、第二设定值或第三设定值作为所述当前候选标签词在目标时刻的热度向量,其中第一设定值大于第二设定值,第二设定值大于第三设定值;
将不同的目标时刻的热度向量构成的多维度向量,作为所述当前候选标签词在当前时刻的热度向量。
进一步的,所述根据所述热度向量确定所述当前候选标签词在当前时刻的热度值包括:
将所述热度向量的模,确定为所述当前候选标签词在当前时刻的热度值。
进一步的,根据所述实词确定候选标签词,包括:
利用预设模型确定所述实词的语义向量;
根据所述语义向量确定所述实词之间的语义距离;
对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域;
若所述当前邻域内的实词个数大于预设实词个数,则将所述当前实词作为标签词,并将所述当前邻域内除标签词以外的实词作为候选标签词。
进一步的,在对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域之后,还包括:
根据预设半径值范围对所述邻域进行更新。
进一步的,所述预设模型至少包括:文本深度表示模型或主题模型。
第二方面,本发明实施例还提供了一种标签提取装置,该装置包括:
候选标签词模块,用于对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;
热度值确定模块,用于将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;
标签提取模块,用于判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
进一步的,所述热度值确定模块包括:
热度向量确定单元,用于根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量;
热度值确定单元,用于根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。
进一步的,所述热度向量确定单元包括:
排列子单元,用于将所述文本数据根据生成时间进行排列;
划分子单元,用于按照设定时间间隔将排列后的所述文本数据划分成多个数据块;
热度确定子单元,用于确定所述当前候选标签词在每个数据块的热度;
热度向量子单元,用于根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中任一所述的标签提取方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中任一所述的标签提取方法。
本发明实施例,对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。其中,因为热点话题或热门词语是在一定时间、一定范围内,公众最为关心的话题或词语。所以热点话题或热门词语对应的候选标签词在一段时间的热度趋势会上涨。因此通过反映候选标签词在所述文本数据中的热度趋势的,当前时刻的热度值确定标签词,从而实现对新出现的热点话题和热门词语的标签的提取。
附图说明
图1为本发明实施例一提供的一种标签提取方法的流程图;
图2是本发明实施例二提供的一种标签提取方法的流程图;
图3是本发明实施例二提供的数据块划分示意图;
图4是本发明实施例三提供的一种标签提取装置的结构示意图;
图5为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种标签提取方法的流程图。本实施例可适用于对当前新出现的热点话题和热门词语进行标签提取的情况。该方法可以由一种标签提取装置来执行,该装置可以有软件和/或硬件的方式实现。参见图1,本发明实施例提供的标签提取方法包括:
S110、对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词。
其中,文本数据为待进行标签提取的文本内容,该文本数据可以是网页文本内容、操作日志文本内容、数据库文本内容等。实词是汉语词类中的一种,词语中含有实际意义的词,实词能单独充当句子成分,即有词汇意义和语法意义的词。一般包括:名词、动词、形容词、数词、量词及代词。
具体的,对文本数据进行分词可以是识别文本数据的句子结构,根据句子结构进行切分。可选的,可以根据需要只保留一种词性的词,也可以是多种词性的词。例如,只保留文本数据中的名词,也可以是保留文本数据中的名词和动词。因为,标签词一般为名词,所以优选对文本数据进行分词,只保留分词结果中的名词,得到多个词性为名词的实词。
根据所述实词确定候选标签词的方式可以是任意一种,具体可以根据设定词频确定,也可以根据预设字典中预设标签词匹配确定,还可以是通过人工提取确定。本实施例对此并不进行任何限制。
为使标签的提取不仅局限在只针对某个产品或某个领域,根据所述实词确定候选标签词可以包括:
利用预设模型确定所述实词的语义向量;
根据所述语义向量确定所述实词之间的语义距离;
对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域;
若所述当前邻域内的实词个数大于预设实词个数,则将所述当前实词作为标签词,并将所述当前邻域内除标签词以外的实词作为候选标签词。
其中,语义向量为实词在向量空间中的向量表示。预设模型可以是文本深度表示模型,也可以是主题模型,还可以是其他确定实词的语义向量的模型。语义距离反映的是实词之间的语义相似度,可以通过计算所述语义向量之间的距离确定。典型的,所述语义向量之间的距离可以通过欧氏距离确定。设定半径值和预设实词个数可以根据需要进行设定。
可以理解的是,通过语义距离,可以将全部实词映射到一个根据语义距离排布的空间,其中,可以通过实词的聚合程度,判断实词的相似度和相似实词的个数。
通过对所述当前邻域内的实词个数的判断可以达到这样一种效果:所述当前邻域内的实词个数大于预设实词个数,表示当前邻域内的实词的相似度较高,且数量较多;反之,如果所述当前邻域内的实词个数不大于预设实词个数,则表示该领域内的实词较少,亦或语义相似度较低。对于前者,提取标签,以表征该领域内实词的语义;对于后者,提取的标签则不具备代表性,因此通常不对后者进行标签提取。
为扩大候选标签词的确定范围,在对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域之后,还可以包括:
根据预设半径值范围对所述邻域进行更新。
具体的,根据预设半径值范围对所述邻域进行更新可以包括:
若所述当前邻域内的实词个数不大于预设实词个数,则判断所述半径是否大于所述预设半径值范围中的最大值;
若否,则增大所述半径,返回继续执行判断以当前实词为邻域中心,以所述半径确定当前邻域;
若是,则以下一个没有作过邻域中心的实词为邻域中心,返回继续执行以所述设定半径值为半径确定当前邻域的步骤。
其中,所述设定半径值为预设半径值范围中的最小值。通过上述步骤至少可以达到这样的效果:实现对邻域内相似度不是特别高,但还是具有一定代表性的实词的标签提取,同时实现可以根据实词的相似度确定不同半径的邻域。
S120、将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值。
具体的,热度趋势是当前候选标签词在不时刻热度的发展趋势,可以是热度下降、热度不变或热度提高,具体可以通过比较当前候选标签词在前一时刻的热度,与后一个时刻的热度得到。热度可以通过反映当前候选标签词的热度的属性值确定,典型的可以是当前候选标签词在文本数据中的出现频率。
可选的,当前时刻的热度值可以是对当前时刻或当前时刻及之前时刻的多个时刻的热度趋势的一种反映。
可以理解的是,因为热门词语是在一定时间公众最为关心的词语,所以必然存在这一段时间内热门词语的使用频次不断上升,即热度趋势呈现上升状态。因此,通过反映热度趋势的热度值可以实现对热门词语的提取。
S130、判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
其中,设定标签词条件可以根据需要进行设定,示例性的,可以是所述热度值大于预设热度值,或满足预设热度值范围等。
本发明实施例的技术方案,通过对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。其中,因为热点话题或热门词语是在一定时间、一定范围内,公众最为关心的话题或词语。所以热点话题或热门词语对应的候选标签词在一段时间的热度趋势会呈现上升趋势。因此通过反映候选标签词在所述文本数据中的热度趋势的,当前时刻的热度值确定标签词,从而实现对新出现的热点话题和热门词语的标签的提取。
实施例二
图2是本发明实施例二提供的一种标签提取方法的流程图。本实施例是在上述实施例一的基础上提出的一种可选方案。参见图2,本实施例提供的标签提取方法包括:
S210、对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词。
具体的,根据所述实词确定候选标签词可以包括:
利用预设模型确定所述实词的语义向量;
根据所述语义向量确定所述实词之间的语义距离;
对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域;
若所述当前邻域内的实词个数大于预设实词个数,则将所述当前实词作为标签词,并将所述当前邻域内除标签词以外的实词作为候选标签词。
S220、将每个候选标签词依次作为当前候选标签词。
S230、将所述文本数据根据生成时间进行排列,按照设定时间间隔将排列后的所述文本数据划分成多个数据块。
具体的,生成时间是系统获取文本数据的时间,可以通过该文本数据对应的时间戳获得。设定时间间隔可以根据需要进行设定,如果需要精准的获取当前候选标签词的热度趋势,就需要把设定时间间隔设置的稍小些;如果只是对当前候选标签词的热度趋势进行粗略获取,就可以把设定时间间隔设置的稍大些。其中,每个数据块中包含多个实词。
S240、根据所述当前候选标签词在每个数据块中的词频、共现组合新词频率和/或词频逆文档频率,确定所述当前候选标签词在每个数据块的热度。
其中,词频是当前候选标签词在每个数据块中出现的频率;共现组合新词频率是组合类新词在每个数据块中出现的频率,其中组合类新词是通过字和词组合而成的复合词,例如“扑杀”、“追逃”等;词频逆文档频率词频与逆文档频率的乘积,其中逆文档频率是文档频率的倒数,在本实施例中文档频率可以通过当前候选标签词在多少个数据块中出现过,然后将出现过的数据块个数除以数据块的总个数获得。
S250、将截至当前时刻的设定时长的时间段作为当前时间段。
其中,设定时长可以根据需要设定。如果想对过去一周的文本数据提取标签,则就将设定时长设置为一周;如果想对过去一个月的文本数据提取标签,则就将设定时长设置为一个月。
S260、遍历所述当前时间段内的数据块,以逐一比较所述当前候选标签词在相邻所述数据块中的热度。
具体的,所述当前时间段内的数据块为,生成时间在所述当前时间段内的数据块。其中,划分数据块的设定时间间隔要远远小于当前时间段,因此所述当前时间段内有多个数据块。
S270、若所述当前候选标签词在所述当前时间段内,目标时刻的相邻数据块中的晚于目标时刻的数据块中的热度,大于、等于或小于在早于目标时刻的数据块中的热度,则对应将第一设定值、第二设定值或第三设定值作为所述当前候选标签词在目标时刻的热度向量,其中第一设定值大于第二设定值,第二设定值大于第三设定值。
具体的,以当前时刻为t+1时刻,所述当前时间段为[1,t+1],则根据所述实词在相邻数据块中的热度hot(w),按照如下公式,确定当前时刻所述实词的热度向量v(x):
Figure BDA0001470564510000121
其中,x∈[0,t],w为不同时刻所在时间间隔的数据块,w(x+1)为x+1时刻所在时间间隔的数据块。hot(w(x+1))>hot(wx)表示当前候选标签词在x时刻对应的热度趋势是上升;hot(w(x+1))=hot(wx)表示当前候选标签词在x时刻对应的热度趋势是不变;hot(w(x+1))<hot(wx)表示当前候选标签词在x时刻对应的热度趋势是下降。
S280、将不同的目标时刻的热度向量构成的多维度向量,作为所述当前候选标签词在当前时刻的热度向量。
示例性的,假设以当前时刻为t+1时刻,所述当前时间段为[1,t+1],则将生成的当前时间段的热度向量作为当前时刻的热度向量,为t维度向量V(v1,v2,…,vt)。
S290、根据所述热度向量确定所述当前候选标签词在当前时刻的热度值,判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
其中,可以以任何可实现的方式,根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。典型的,将所述热度向量的模,确定为所述当前候选标签词在当前时刻的热度值。
图3是本发明实施例二提供的数据块划分示意图。参见图3,在实际应用中上述标签提取方法还可以描述为:将文本数据依据生成时间排列,例如t0,td,td+1时刻生成的文本数据;将排序后的文本数据划分为等同时间间隔产生的数据块W,例如在td时刻生成完成的数据块为Wd;将文本数据分词,得到多个实词;通过预先训练得出词向量模型或者文本深度表示模型确定每个实词的向量作为其语义向量;计算每个实词的热度,其中每个实词在数据块中的热度记为hot(w),热度包括但不限于词频,共现组合新词频率以及词频及逆文档频率乘积当中的一种或多种组合形式等;计算每个实词的热度向量,其中以td时刻为起点,向前滑动t+1数据片段,并以此计算向量长度为t的热度向量,其中针对每个片段wx(x∈[1,td]),根据如下公式计算每个实词在[1,td]时间段内不同时刻的热度向量V(v1,v2,…,vt),其意义表示词在某一时刻的热度趋势;
Figure BDA0001470564510000131
根据所述语义向量确定所述实词之间的语义距离;根据语义距离进行聚类计算,具体对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域;若所述当前邻域内的实词个数大于预设实词个数,则将所述当前实词作为标签词,并将所述当前邻域内除标签词以外的实词作为候选标签词;根据上述热度向量确定热度值,通过筛选最大或者满足一定热度值的候选标签词作为标签词;再以td+1时刻为起点,向前滑动t+1数据片段,计算得出候选标签词的热度值,通过筛选最大或者满足一定热度值的候选标签词作为标签词,以此类推,完成标签词的确定。
可以理解的是,本实施例的标签提取方法可以实现对热门词语和热门数据的标签词的提取,这对于理解数据内容本身具有直观作用;也可以提供产品的上层应用,比如推荐系统。因为,上述方法不依赖领域限制,只依赖文本数据的内容,因此可以扩展至不同技术领域。同时,上述方法没有人工操作,从而使得提取的标签是客观的,不存在主观偏见。
本发明实施例的技术方案,通过对文本数据按照生成时间进行排序;按照固定时间间隔划分为多个数据块;根据词频、共现组合新词频率和/或词频逆文档频率确定当前候选标签词在每个数据块的热度;比较所述当前候选标签词在相邻所述数据块中的热度,从而确定候选标签词随时间变化的热度趋势。然后通过对热度趋势为上升的热度向量赋较大的值,从而实现对热门词语的标签提取。
实施例三
图4是本发明实施例三提供的一种标签提取装置的结构示意图。参见图4,本实施例提供的标签提取装置包括:候选标签词模块10、热度值确定模块20和标签提取模块30。
其中,候选标签词模块10,用于对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;
热度值确定模块20,用于将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;
标签提取模块30,用于判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
本发明实施例的技术方案,通过对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。其中,因为热点话题或热门词语是在一定时间、一定范围内,公众最为关心的话题或词语。所以热点话题或热门词语对应的候选标签词在一段时间的热度趋势会上涨。因此通过反映候选标签词在所述文本数据中的热度趋势的,当前时刻的热度值确定标签词,从而实现对新出现的热点话题和热门词语的标签的提取。
进一步的,所述热度值确定模块20包括:热度向量确定单元和热度值确定单元。
其中,热度向量确定单元,用于根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量;
热度值确定单元,用于根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。
进一步的,所述热度向量确定单元包括:排列子单元、划分子单元、热度确定子单元和热度向量子单元。
其中,排列子单元,用于将所述文本数据根据生成时间进行排列;
划分子单元,用于按照设定时间间隔将排列后的所述文本数据划分成多个数据块;
热度确定子单元,用于确定所述当前候选标签词在每个数据块的热度;
热度向量子单元,用于根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量。
实施例四
图5为本发明实施例四提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例中任一所述的标签提取方法。
实施例五
本发明实施例五还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中任一所述的标签提取方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种标签提取方法,其特征在于,包括:
对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;其中,文本数据为待进行标签提取的文本内容;
将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;
判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词;
其中,所述根据所述实词确定候选标签词,包括:
利用预设模型确定所述实词的语义向量;
根据所述语义向量确定所述实词之间的语义距离;
对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域;
若所述当前邻域内的实词个数大于预设实词个数,则将所述当前实词作为标签词,并将所述当前邻域内除标签词以外的实词作为候选标签词;若所述当前邻域内的实词个数不大于所述预设实词个数,则对所述当前领域的半径进行调整。
2.根据权利要求1所述的方法,其特征在于,根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值包括:
根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量;
根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量包括:
将所述文本数据根据生成时间进行排列;
按照设定时间间隔将排列后的所述文本数据划分成多个数据块;
确定所述当前候选标签词在每个数据块的热度;
根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量。
4.根据权利要求3所述的方法,其特征在于,确定所述当前候选标签词在每个数据块的热度包括:
根据所述当前候选标签词在每个数据块中的词频、共现组合新词频率和/或词频逆文档频率,确定所述当前候选标签词在每个数据块的热度。
5.根据权利要求3所述的方法,其特征在于,根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量包括:
将截至当前时刻的设定时长的时间段作为当前时间段;
遍历所述当前时间段内的数据块,以逐一比较所述当前候选标签词在相邻所述数据块中的热度;
根据比较结果确定所述当前候选标签词在当前时刻的热度向量。
6.根据权利要求5所述的方法,其特征在于,根据比较结果确定所述当前候选标签词在当前时刻的热度向量包括:
若所述当前候选标签词在所述当前时间段内,目标时刻的相邻数据块中的晚于目标时刻的数据块中的热度,大于、等于或小于在早于目标时刻的数据块中的热度,则对应将第一设定值、第二设定值或第三设定值作为所述当前候选标签词在目标时刻的热度向量,其中第一设定值大于第二设定值,第二设定值大于第三设定值;
将不同的目标时刻的热度向量构成的多维度向量,作为所述当前候选标签词在当前时刻的热度向量。
7.根据权利要求2所述的方法,其特征在于,所述根据所述热度向量确定所述当前候选标签词在当前时刻的热度值包括:
将所述热度向量的模,确定为所述当前候选标签词在当前时刻的热度值。
8.根据权利要求1所述的方法,其特征在于,在对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域之后,还包括:
根据预设半径值范围对所述邻域进行更新。
9.根据权利要求1所述的方法,其特征在于,所述预设模型至少包括:文本深度表示模型或主题模型。
10.一种标签提取装置,其特征在于,包括:
候选标签词模块,用于对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;其中,文本数据为待进行标签提取的文本内容;其中,所述根据所述实词确定候选标签词,包括:利用预设模型确定所述实词的语义向量;根据所述语义向量确定所述实词之间的语义距离;对于每一个实词,根据所述语义距离,以当前实词为邻域中心,以设定半径值为半径确定当前邻域;若所述当前邻域内的实词个数大于预设实词个数,则将所述当前实词作为标签词,并将所述当前邻域内除标签词以外的实词作为候选标签词;若所述当前邻域内的实词个数不大于所述预设实词个数,则对所述当前领域的半径进行调整;
热度值确定模块,用于将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;
标签提取模块,用于判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
11.根据权利要求10所述的装置,其特征在于,所述热度值确定模块包括:
热度向量确定单元,用于根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量;
热度值确定单元,用于根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。
12.根据权利要求11所述的装置,其特征在于,所述热度向量确定单元包括:
排列子单元,用于将所述文本数据根据生成时间进行排列;
划分子单元,用于按照设定时间间隔将排列后的所述文本数据划分成多个数据块;
热度确定子单元,用于确定所述当前候选标签词在每个数据块的热度;
热度向量子单元,用于根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量。
13.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的标签提取方法。
14.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的标签提取方法。
CN201711136511.6A 2017-11-16 2017-11-16 一种标签提取方法、装置、设备和介质 Active CN107861948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711136511.6A CN107861948B (zh) 2017-11-16 2017-11-16 一种标签提取方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711136511.6A CN107861948B (zh) 2017-11-16 2017-11-16 一种标签提取方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN107861948A CN107861948A (zh) 2018-03-30
CN107861948B true CN107861948B (zh) 2021-09-17

Family

ID=61701853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711136511.6A Active CN107861948B (zh) 2017-11-16 2017-11-16 一种标签提取方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN107861948B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920458A (zh) * 2018-06-21 2018-11-30 武汉斗鱼网络科技有限公司 一种标签归一化方法、装置、服务器和存储介质
CN108875059B (zh) * 2018-06-29 2021-02-12 北京百度网讯科技有限公司 用于生成文档标签的方法、装置、电子设备和存储介质
CN109446443B (zh) * 2018-10-18 2021-11-09 武汉斗鱼网络科技有限公司 一种标签更新方法、装置、设备和存储介质
CN109670080A (zh) * 2018-12-21 2019-04-23 深圳创维数字技术有限公司 一种影视标签的确定方法、装置、设备及存储介质
CN112434158B (zh) * 2020-11-13 2024-05-28 海创汇科技创业发展股份有限公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446959A (zh) * 2008-12-30 2009-06-03 深圳市迅雷网络技术有限公司 一种基于互联网的新闻推荐方法和系统
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN106528621A (zh) * 2016-09-30 2017-03-22 四川用联信息技术有限公司 一种改进的密度文本聚类算法
CN106599269B (zh) * 2016-12-22 2019-12-03 东软集团股份有限公司 关键词提取方法及装置
CN106997382B (zh) * 2017-03-22 2020-12-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107330022B (zh) * 2017-06-21 2023-03-24 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置

Also Published As

Publication number Publication date
CN107861948A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
US11216504B2 (en) Document recommendation method and device based on semantic tag
JP6643555B2 (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US20180089178A1 (en) Mining multi-lingual data
US20130060769A1 (en) System and method for identifying social media interactions
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
JP6335898B2 (ja) 製品認識に基づく情報分類
US20190286741A1 (en) Document revision change summarization
CN107766325B (zh) 文本拼接方法及其装置
JP7132962B2 (ja) 画像処理方法、装置、サーバ及び記憶媒体
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN113204667B (zh) 音频标注模型的训练与音频标注的方法、装置
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN108932323A (zh) 实体答案的确定方法、装置、服务器及存储介质
US20150036930A1 (en) Discriminating synonymous expressions using images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant