CN109145261B - 一种生成标签的方法和装置 - Google Patents
一种生成标签的方法和装置 Download PDFInfo
- Publication number
- CN109145261B CN109145261B CN201811026691.7A CN201811026691A CN109145261B CN 109145261 B CN109145261 B CN 109145261B CN 201811026691 A CN201811026691 A CN 201811026691A CN 109145261 B CN109145261 B CN 109145261B
- Authority
- CN
- China
- Prior art keywords
- keywords
- keyword
- candidate
- preset
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种生成标签的方法和装置,所述方法包括:从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;在所述初选关键词和所述联想标签中,确定所述预设题目的标签。应用本发明实施例能够使生成的标签可以包括未在预设题目中出现的词,保证生成的标签能够标识预设题目所体现的核心内容。
Description
技术领域
本发明涉及生成标签的技术领域,特别是涉及一种生成标签的方法和装置。
背景技术
为了提高个性化推荐的准确性,可以将新闻、评论文章等消息标注上标签,将与用户的画像信息相匹配的标签对应的消息,作为个性化信息推送给用户。具体的,标签是根据新闻、评论文章等消息的题目生成的,标签可以标识消息的内容。
目前,生成标签的方法为:
首先,使用预设的分词方法,从消息的题目中抽取关键词,作为初选关键词,其中,预设的分词方法可以为N元模型过滤规则、字典匹配规则、抽取中心词等。
然后,按照预设的选取规则,从初选关键词中选取重点关键词,将选取出的重点关键词作为该消息的题目的标签,其中,预设的选取规则包括预设的关键词分类方法或预设的关键词排序方法。
比如,消息的题目为“小车深夜自燃,消防员紧急扑救”,首先,生成的初选关键词为“小车”、“深夜”、“自燃”、“消防员”、“紧急”和“扑救”,然后,选取的重点关键词为“自燃”和“扑救”,那么,最终生成的标签即为“自燃”、“扑救”。
但是,使用上述生成标签的方法生成的标签,只能是将出现在消息的题目中的词作为标签,而不是将未出现在消息的题目中的词作为标签。比如,在上述例子中,相比生成的标签“自燃”和“扑救”,“火灾”和“救援”更能标识消息的核心内容,但由于“火灾”和“救援”未出现在消息的题目中,因此无法将“火灾”和“救援”作为标签。这样,使用上述生成标签的方法生成的标签,由于无法包括未在消息的题目中出现的词,可能导致生成的标签无法准确标识消息的题目所体现的核心内容,也即消息的核心内容,从而造成推送给用户的个性化信息,可能并不符合用户的兴趣。
发明内容
本发明实施例的目的在于提供一种生成标签的方法和装置,以使生成的标签可以包括未在预设题目中出现的词,保证生成的标签能够标识预设题目所体现的核心内容。具体技术方案如下:
第一方面,本发明实施提供了一种生成标签的方法,所述方法包括:
从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
进一步的,所述基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签的步骤,包括:
从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签;
所述在所述初选关键词和所述联想标签中,确定所述预设题目的标签的步骤,包括:
按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
进一步的,所述基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签的步骤,包括:
按照预设的选取规则,从所述初选关键词中选取重点关键词;
从预设的关键词与联想标签的映射对集合中,查找所述重点关键词对应的联想标签,将所述重点关键词对应的联想标签作为所述预设题目对应的联想标签;
所述在所述初选关键词和所述联想标签中,确定所述预设题目的标签的步骤,包括:
将所述重点关键词和所述联想标签作为所述预设题目的标签。
进一步的,所述预设的关键词与联想标签的映射对集合通过如下步骤得到:
获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签,其中,人工标注标签是指标识题目的核心内容的词;
针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对;将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,在所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤之前,所述方法还包括:
若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词;
所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:
将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对;
所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:
将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,在所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤之前,所述方法还包括:
若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词;
所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:
将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对;
所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:
将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,在所述将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词的步骤之后,所述方法还包括:
确定各第二精选关键词对应的所述交叠字的字数;
判断各第二精选关键词对应的所述交叠字的字数是否均相同;
若各第二精选关键词对应的所述交叠字的字数均不相同,则将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词;
所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:
将该候选关键词中的第三精选候选关键词与该联想标签进行映射,建立该候选关键词中的第三精选候选关键词与该联想标签的映射对;
所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:
将该候选关键词中的第三精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述判断各第二精选关键词对应的所述交叠字的字数是否均相同之后,所述方法还包括:
若各第二精选关键词对应的所述交叠字的字数均相同,则将字数最少的第二精选关键词,作为第四精选关键词;
所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:
将该候选关键词中的第四精选候选关键词与该联想标签进行映射,建立该候选关键词中的第四精选候选关键词与该联想标签的映射对;
所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:
将该候选关键词中的第四精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,在所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤之前,所述方法还包括:
若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体,所述命名实体包括人名、地名、游戏名和剧名;
将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词;
所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:
将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对;
所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:
将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,在所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤之后,所述方法还包括:
计算预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的第一次数;
针对所述映射对集合中,各候选关键词与联想标签的映射对:确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数;将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度;
将所述置信度小于预设的置信度阈值的所述映射对,确定为淘汰映射对;
从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
第二方面,本发明实施提供了一种生成标签的装置,所述装置包括:
抽取模块,用于从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
查找模块,用于基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
确定模块,用于在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
进一步的,所述查找模块,具体用于从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签;
所述确定模块,具体用于按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
进一步的,所述查找模块,具体用于按照预设的选取规则,从所述初选关键词中选取重点关键词;
从预设的关键词与联想标签的映射对集合中,查找所述重点关键词对应的联想标签,将所述重点关键词对应的联想标签作为所述预设题目对应的联想标签;
所述确定模块,具体用于将所述重点关键词和所述联想标签作为所述预设题目的标签。
进一步的,所述装置还包括:
获取模块,用于获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签,其中,人工标注标签是指标识题目的核心内容的词;
建立模块,用于针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对;将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述确定模块,还用于若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词;
所述建立模块,具体用于将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述确定模块,还用于若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词;
所述建立模块,具体用于将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述确定模块,还用于确定各第二精选关键词对应的所述交叠字的字数;
判断各第二精选关键词对应的所述交叠字的字数是否均相同;
若各第二精选关键词对应的所述交叠字的字数均不相同,则将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词;
所述建立模块,具体用于将该候选关键词中的第三精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述确定模块,还用于若各第二精选关键词对应的所述交叠字的字数均相同,则将字数最少的第二精选关键词,作为第四精选关键词;
所述建立模块,具体用于将该候选关键词中的第四精选候选关键词与该联想标签进行映射,建立该候选关键词中的第四精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第四精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述装置还包括:
识别模块,用于若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体,所述命名实体包括人名、地名、游戏名和剧名;
将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词;
所述建立模块,具体用于将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
进一步的,所述装置还包括:
计算模块,用于计算预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的第一次数;
所述确定模块,还用于针对所述映射对集合中,各候选关键词与联想标签的映射对:确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数;将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度;
所述确定模块,还用于将所述置信度小于预设的置信度阈值的所述映射对,确定为淘汰映射对;
所述装置还包括:
删除模块,用于从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
第三方面,本发明实施提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,本发明实施提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面任一的方法。
第五方面,本发明实施还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面任一的方法。
本发明实施例提供的一种生成标签的方法和装置,首先,从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;最后,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
这样,生成的预设题目的标签可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例的生成标签的方法的一种流程图;
图2为本发明实施例的生成标签的方法的又一种流程图;
图3为本发明实施例的生成标签的方法的另一种流程图;
图4为本发明实施例中得到预设的关键词与联想标签的映射对集合的一种流程图;
图5为本发明实施例中得到预设的关键词与联想标签的映射对集合的又一种流程图;
图6为本发明实施例中得到预设的关键词与联想标签的映射对集合的再一种流程图;
图7为本发明实施例中,步骤602的一种具体流程图;
图8为本发明实施例中得到预设的关键词与联想标签的映射对集合的一种流程图;
图9为本发明实施例中得到预设的关键词与联想标签的映射对集合的又一种流程图;
图10为本发明实施例的生成标签的装置的一种结构示意图;
图11为本发明实施例的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例提供了一种生成标签的方法。参见图1,图1为本发明实施例的生成标签的方法的一种流程图,如图1所示,生成标签的方法包括如下步骤:
步骤101,从预设题目中抽取关键词,将抽取到的关键词作为初选关键词。
在本步骤中,可以从预设题目中抽取关键词,将抽取到的关键词作为初选关键词,以便根据初选关键词查找到预设题目对应的出联想标签,其中,初选关键词是指通过对预设题目进行分词处理后得到的关键词。
具体的,可以使用预设的分词方法,从预设题目中抽取初选关键词,预设的分词方法可以为N元模型过滤规则、字典匹配规则、抽取中心词等,预设的分词方法的具体处理步骤可以参考现有技术,在此不再赘述。
比如,预设题目为“小车深夜自燃,消防员紧急扑救”,抽取到的初选关键词为“小车”、“深夜”、“自燃”、“消防员”、“紧急”和“扑救”。
步骤102,基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签。
其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词。
在本步骤中,可以从预设的关键词与联想标签的映射对集合中,查找预设题目对应的联想标签,其中,联想标签是指能够标识预设题目所体现的核心内容,且未在预设题目中出现的词,通常为人工标注出的。
为了方便说明,在步骤101中例子的基础上继续进行说明,在预设的关键词与联想标签的映射对集合中,预设的关键词“消防员”分别与“火灾”、“救援”为映射对,那么,查找到的预设题目对应的联想标签为“火灾”、“救援”。
步骤103,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
在本步骤中,可以从步骤101和步骤102得到的初选关键词和联想标签中,确定预设题目的标签,这样,生成的预设题目的标签可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词。
可见,在本发明实施例提供的生成标签的方法中,首先,从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;最后,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。这样,生成的预设题目的标签可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题。
在一种具体实施例中,参考图2,图2为本发明实施例的生成标签的方法的又一种流程图,如图2所示,生成标签的方法包括如下步骤:
步骤201,从预设题目中抽取关键词,将抽取到的关键词作为初选关键词。
本步骤的详细过程和技术效果可以参考图1所示的生成标签的方法中的步骤101,在此不再赘述。
步骤202,从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签。
在本步骤中,可以从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,并将初选关键词对应的联想标签作为所述预设题目对应的联想标签,这样,生成的预设题目的标签可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词。
步骤203,按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
在本步骤中,为了提高生成的标签的准确性,可以按照预设的选取规则,在步骤201得到的初选关键词和步骤202得到的联想标签中,确定预设题目的标签,以从初选关键词和联想标签中筛选出能够准确体现预设题目所体现的核心内容的词作为标签,提高生成的标签的准确性。
需要说明的是,预设的选取规则包括预设的关键词分类方法或预设的关键词排序方法,预设的选取规则的详细步骤可以参考现有技术,在此不再赘述。
可见,本发明实施例提供的生成标签的方法,能够从初选关键词和根据初选关键词确定的联想标签中,使用预设的选取规则筛选出能够准确体现预设题目所体现的核心内容的词作为标签,这样,使得生成的标签不仅能够包括标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题,而且可以提高生成的标签的准确性。
在又一种具体实施例中,参考图3,图3为本发明实施例的生成标签的方法的另一种流程图,如图3所示,生成标签的方法包括如下步骤:
步骤301,从预设题目中抽取关键词,将抽取到的关键词作为初选关键词。
本步骤的详细过程和技术效果可以参考图1所示的生成标签的方法中的步骤101,在此不再赘述。
步骤302,按照预设的选取规则,从所述初选关键词中选取重点关键词。
在本步骤中,可以按照预设的选取规则,从初选关键词中选取更能够标识预设题目所体现的核心内容的关键词作为重点关键词,以提高从预设题目中提取的关键词的准确性。
需要说明的是,预设的选取规则包括预设的关键词分类方法或预设的关键词排序方法,预设的选取规则的详细步骤可以参考现有技术,在此不再赘述。
步骤303,从预设的关键词与联想标签的映射对集合中,查找所述重点关键词对应的联想标签,将所述重点关键词对应的联想标签作为所述预设题目对应的联想标签。
在本步骤中,可以从预设的关键词与联想标签的映射对集合中,查找重点关键词对应的联想标签,并将重点关键词对应的联想标签作为预设题目对应的联想标签。
可以理解的,相比初选关键词,重点关键词更能标识预设题目所体现的核心内容,而根据重点关键词得到的联想标签的准确性也更高,此外,重点关键词的数量可能少于初选关键词,这样,也可以减少从预设的关键词与联想标签的映射对集合中,查找联想标签的工作量,提高处理效率。
步骤304,将所述重点关键词和所述联想标签作为所述预设题目的标签。
在本步骤中,可以将重点关键词和联想标签作为预设题目的标签,这样,生成的预设题目的标签可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题。
可见,本发明实施例提供的生成标签的方法,能够从初选关键词中筛选出重点关键词,进而根据重点关键词确定联想标签,这样,使得生成的标签不仅能够包括标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题,而且可以提高生成的标签的准确性,此外,还可以减少从预设的关键词与联想标签的映射对集合中,查找联想标签的工作量,提高处理效率。
一种实现方式中,参见图4,图4为本发明实施例中得到预设的关键词与联想标签的映射对集合的一种流程图。如图4所示,本发明实施例中的预设的关键词与联想标签的映射对集合可以通过如下步骤得到:
步骤401,获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签。
其中,人工标注标签是指标识题目的核心内容的词。
在本步骤中,可以获取预设数量的样本,其中,每个样本均包括题目和题目对应的人工标注标签;通常情况下,人工标注标签是由人工根据题目的含义标注出来的,虽然未在题目中出现,但能够标识题目的核心内容。
比如,样本A中的题目为“柯某不敌alphago当场落泪人机大战三连败收官”,该题目对应的人工标注标签为“围棋,柯某,alphago,发挥失常”,其中,柯某为一人名。
步骤402,针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对;将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
在本步骤中,针对每个样本均进行如下处理:
第一步,将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签。
具体的,由于人工标注标签可能被包含在题目中,因此,需要在人工标注标签中筛选出未在题目中出现的词,作为该题目的联想标签。
为了方便说明,在步骤401中的例子的基础上进行说明,样本A中题目对应的人工标注标签为“围棋,柯某,alphago”,其中,该题目的联想标签为“围棋”。
第二步,从该题目中抽取关键词,将抽取到的关键词作为候选关键词。
具体的,可以从题目中抽取关键词,并将抽取到的关键词作为候选关键词。
为了方便说明,在上述例子的基础上进行说明,从样本A中的题目抽取的候选关键词为“柯某,alphago,人机大战”。
第三步,将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对。
具体的,可以将提取出的候选关键词与确定的联想标签进行映射,建立该候选关键词与该联想标签的映射对。
为了方便说明,在上述例子的基础上进行说明,根据样本A建立的候选关键词与联想标签的映射对为:“柯某,alphago,人机大战”对应“围棋”。
第四步,将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
具体的,可以将建立好的候选关键词与联想标签的映射对,加入预设的关键词与联想标签的映射对集合中,这样,当需要生成预设题目的标签时,就可以通过查找预设的关键词与联想标签的映射对集合,得到预设题目的标签。
可见,由于预设的关键词与联想标签的映射对集合中的联想标签为未出现在题目中的词,因此,得到预设题目的标签也可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题。
又一种实现方式中,参见图5,图5为本发明实施例中得到预设的关键词与联想标签的映射对集合的又一种流程图。如图5所示,本发明实施例中的预设的关键词与联想标签的映射对集合可以通过如下步骤得到:
步骤501,获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签。
其中,人工标注标签是指标识题目的核心内容的词。
本步骤的详细过程和技术效果可以参考图4所示的生成标签的方法中的步骤401,在此不再赘述。
步骤502,针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词;将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对;将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
在本步骤中,针对每个样本均进行如下处理:
第一步,将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签。
具体的,由于人工标注标签可能被包含在题目中,因此,需要在人工标注标签中筛选出未在题目中出现的词,作为该题目的联想标签。
比如,样本B的题目为“MP饰演女一号”,该题目对应的人工标注标签为“欧阳MP,女一号”,那么,该题目对应的联想标签为“欧阳MP”,其中,欧阳MP为一人名,MP为人名中的部分词语。
第二步,从该题目中抽取关键词,将抽取到的关键词作为候选关键词。
具体的,可以从题目中抽取关键词,并将抽取到的关键词作为候选关键词。
为了方便说明,在上述例子的基础上进行说明,从样本B的题目中抽取的候选关键字为“MP,女一号”;从样本C的题目中抽取的候选关键字为“高温天,热辐射病”。
第三步,若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词。
具体的,在存在多个候选关键词的情况下,可以从多个候选关键词中,选取包含联想标签的候选关键词,并将包含联想标签的候选关键词作为第一精选关键词。比如,样本C的题目对应的候选关键字为“高温天,热辐射病”,对应的联想标签为“高温”,那么,可以将“高温天”作为第一精选关键词。
或者,在存在多个候选关键词的情况下,可以从多个候选关键词中,选取包含于联想标签的候选关键词,并将包含于联想标签的候选关键词作为第一精选关键词。比如,样本B的题目对应的候选关键字为“MP,女一号”,对应的联想标签为“欧阳MP”,那么,可以将“MP”作为第一精选关键词。
可以理解的,这样可以提高候选关键字与联想标签的相关程度,使得联想标签能够准确体现候选关键词的含义,进而提高生成的标签的准备性,使得生成的标签能够更准确的体现预设题目所体现的核心内容。
第四步,将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对。
在本步骤中,可以将第一精选关键词与该联想标签进行映射,建立第一精选关键词与该联想标签的映射对,可以理解的,该映射对中的第一精选关键词与联想标签之间的相关程度较高。
比如,可以根据样本C建立“高温天”与“高温”的映射对;可以根据样本B建立“MP”与“欧阳MP”的映射对。
第五步,将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
具体的,可以将建立好的第一精选关键词与联想标签的映射对,加入预设的关键词与联想标签的映射对集合中,由于每个映射对中的第一精选关键词与联想标签之间的相关程度较高,因此,当需要生成预设题目的标签时,通过查找预设的关键词与联想标签的映射对集合得到预设题目的标签的准确性也较高。
可见,由于候选关键词中筛选出的第一精选关键词与联想标签的相关程度较高,通过查找多个第一精选关键词与联想标签的映射对组成的预设的关键词与联想标签的映射对集合得到预设题目的标签不仅可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题,而且得到预设题目的标签的准确性也较高。
再一种实现方式中,参见图6,图6为本发明实施例中得到预设的关键词与联想标签的映射对集合的再一种流程图。如图6所示,本发明实施例中的预设的关键词与联想标签的映射对集合可以通过如下步骤得到:
步骤601,获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签。
其中,人工标注标签是指标识题目的核心内容的词。
本步骤的详细过程和技术效果可以参考图4所示的生成标签的方法中的步骤401,在此不再赘述。
步骤602,针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词;将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对;将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
在本步骤中,针对每个样本均进行如下处理:
第一步,将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签。
具体的,由于人工标注标签可能被包含在题目中,因此,需要在人工标注标签中筛选出未在题目中出现的词,作为该题目的联想标签。
比如,样本D的题目为“对快女的关注度下降”,该题目对应的人工标注标签为“快乐女声,关注度”,那么,该题目对应的联想标签为“快乐女声”。
第二步,从该题目中抽取关键词,将抽取到的关键词作为候选关键词。
具体的,可以从题目中抽取关键词,并将抽取到的关键词作为候选关键词。
为了方便说明,在上述例子的基础上进行说明,从样本D的题目中抽取的候选关键字为“快女,关注度”。
第三步,若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词。
具体的,在存在多个候选关键词的情况下,可以从多个候选关键词中,选取与联想标签存在交叠字的候选关键词,并将与联想标签存在交叠字的候选关键词作为第二精选关键词。比如,样本D的题目对应的候选关键字为“快女,关注度”,对应的联想标签为“快乐女声”,那么,可以将“快女”作为第一精选关键词。
可以理解的,这样可以提高候选关键字与联想标签的相关程度,使得联想标签能够准确体现候选关键词的含义,进而提高生成的标签的准备性,使得生成的标签能够更准确的体现预设题目所体现的核心内容。
第四步,将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对。
具体的,可以将第二精选候选关键词与该联想标签进行映射,建立第二精选候选关键词与该联想标签的映射对,可以理解的,该映射对中的第二精选候选关键词与联想标签之间的相关程度较高。
比如,可以根据样本D建立“快女”与“快乐女声”的映射对。
第五步,将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
具体的,可以将建立好的第二精选候选关键词与联想标签的映射对,加入预设的关键词与联想标签的映射对集合中,由于每个映射对中的第二精选候选关键词与联想标签之间的相关程度较高,因此,当需要生成预设题目的标签时,通过查找预设的关键词与联想标签的映射对集合得到预设题目的标签的准确性也较高。
一种实现方式中,参考图7,图7为本发明实施例中,步骤602的一种具体流程图,如图7所示,步骤602可以包括:
子步骤701,针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签。
本步骤的详细过程和技术效果可以参考步骤602下“第一步”中的相关说明,在此不再赘述。
子步骤702,从该题目中抽取关键词,将抽取到的关键词作为候选关键词。
本步骤的详细过程和技术效果可以参考步骤602下“第二步”中的相关说明,在此不再赘述。
子步骤703,若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词。
本步骤的详细过程和技术效果可以参考步骤602下“第三步”中的相关说明,在此不再赘述。
子步骤704,确定各第二精选关键词对应的所述交叠字的字数。
具体的,可以判断是否存在多个第二精选关键词,若为是,则确定各第二精选关键词与联想标签的交叠字的字数。
比如,样本F中的第二精选关键词为“小猪佩佩,佩奇”,联想标签为“小猪佩奇”,那么,第二精选关键词“小猪佩佩”与联想标签“小猪佩奇”的交叠字的字数为2,第二精选关键词“佩奇”与联想标签“小猪佩奇”的交叠字的字数为2。
子步骤705,判断各第二精选关键词对应的所述交叠字的字数是否均相同;若为是,则执行子步骤706;若为否,则执行子步骤709。
具体的,可以判断各第二精选关键词对应的所述交叠字的字数是否均相同,若为否,则执行子步骤706,以便将交叠字的字数最多的第二精选关键词作为第三精选关键词。
子步骤706,将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词。
具体的,若各第二精选关键词对应的所述交叠字的字数均不相同,则将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词,可以理解的,相比第二精选关键词,第三精选关键词与联想标签的相关程度更高。
比如,样本E中第二精选关键词“火势”与联想标签“火灾”的交叠字的字数为1,第二精选关键词“特大火灾”与联想标签“火灾”的交叠字的字数为2,那么,第三精选关键词为“特大火灾”。
子步骤707,将该候选关键词中的第三精选候选关键词与该联想标签进行映射,建立该候选关键词中的第三精选候选关键词与该联想标签的映射对。
具体的,可以将第三精选候选关键词与该联想标签进行映射,建立第三精选候选关键词与该联想标签的映射对,可以理解的,该映射对中的第三精选候选关键词与联想标签之间的相关程度较高。
比如,可以根据样本E建立“特大火灾”与“火灾”的映射对。
子步骤708,将该候选关键词中的第三精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
具体的,可以将建立好的第三精选候选关键词与联想标签的映射对,加入预设的关键词与联想标签的映射对集合中,由于相比第二精选关键词,第三精选关键词与联想标签的相关程度更高,因此,当需要生成预设题目的标签时,通过查找预设的关键词与联想标签的映射对集合得到预设题目的标签的准确性也更高。
子步骤709,将字数最少的第二精选关键词,作为第四精选关键词。
具体的,若各第二精选关键词对应的所述交叠字的字数均相同,则将字数最少的第二精选关键词,作为第四精选关键词。
比如,样本F中第二精选关键词“小猪佩佩”与联想标签“小猪佩奇”的交叠字的字数为2,且第二精选关键词“小猪佩佩”的字数为4;第二精选关键词“佩奇”与联想标签“小猪佩奇”的交叠字的字数为2,且第二精选关键词“佩奇”的字数为2,那么,第四精选关键词为“佩奇”。
子步骤710,将该候选关键词中的第四精选候选关键词与该联想标签进行映射,建立该候选关键词中的第四精选候选关键词与该联想标签的映射对。
具体的,可以将第四精选候选关键词与该联想标签进行映射,建立第四精选候选关键词与该联想标签的映射对,可以理解的,该映射对中的第四精选候选关键词与联想标签之间的相关程度较高。
比如,可以根据样本F建立“佩奇”与“小猪佩奇”的映射对。
子步骤711,将该候选关键词中的第四精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
具体的,可以将建立好的第四精选候选关键词与联想标签的映射对,加入预设的关键词与联想标签的映射对集合中。
可见,由于相比第二精选关键词,第四精选关键词与联想标签的相关程度更高,因此,当需要生成预设题目的标签时,通过查找预设的关键词与联想标签的映射对集合得到预设题目的标签的准确性也更高。
再一种实现方式中,参见图8,图8为本发明实施例中得到预设的关键词与联想标签的映射对集合的一种流程图。如图8所示,本发明实施例中的预设的关键词与联想标签的映射对集合可以通过如下步骤得到:
步骤801,获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签。
其中,人工标注标签是指标识题目的核心内容的词。
本步骤的详细过程和技术效果可以参考图4所示的生成标签的方法中的步骤401,在此不再赘述。
步骤802,针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体,所述命名实体包括人名、地名、游戏名和剧名;将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词;将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对;将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
在本步骤中,针对每个样本均进行如下处理:
第一步,将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签。
具体的,由于人工标注标签可能被包含在题目中,因此,需要在人工标注标签中筛选出未在题目中出现的词,作为该题目的联想标签。
比如,样本G的题目为“职场精英安某的穿衣技巧”,该题目对应的人工标注标签为“穿衣技巧,刘某”,那么,该题目对应的联想标签为“刘某”,其中,刘某为一演员人名,安某为该刘某饰演角色的人名。
第二步,从该题目中抽取关键词,将抽取到的关键词作为候选关键词。
具体的,可以从题目中抽取关键词,并将抽取到的关键词作为候选关键词。
为了方便说明,在上述例子的基础上进行说明,从样本G的题目中抽取的候选关键字为“精英,安某,穿衣技巧”。
第三步,若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体。
其中,所述命名实体包括人名、地名、游戏名和剧名。
具体的,在存在多个候选关键词的情况下,可以识别各候选关键词以及识别联想标签的命名实体,以判断哪些候选关键词与联想标签实质表达的含义相同。
比如,样本G对应的候选关键字“精英”的命名实体仍为“精英”,候选关键字“穿衣技巧”的命名实体仍为“穿衣技巧”,候选关键字“安某”的命名实体为“刘某”。
第四步,将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词。
具体的,可以从多个候选关键词中,选取命名实体与联想标签的命名实体相同的候选关键词,并将命名实体与联想标签的命名实体相同的候选关键词作为第五精选关键词。
比如,样本G的题目对应的候选关键字“安某”的命名实体为“刘某”,样本G的题目对应的联想标签为“刘某”,那么,可以将“刘某”作为第五精选关键词。
可以理解的,这样可以提高候选关键字与联想标签的相关程度,使得联想标签能够准确体现候选关键词的含义,进而提高生成的标签的准备性,使得生成的标签能够更准确的体现预设题目所体现的核心内容。
第五步,将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对。
具体的,可以将第五精选候选关键词与该联想标签进行映射,建立第五精选候选关键词与该联想标签的映射对,可以理解的,该映射对中的第五精选候选关键词与联想标签之间的相关程度较高。
比如,可以根据样本G建立“安某”与“刘某”的映射对。
第六步,将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
具体的,可以将建立好的第五精选候选关键词与联想标签的映射对,加入预设的关键词与联想标签的映射对集合中。
可见,由于每个映射对中的第五精选候选关键词与联想标签之间的相关程度较高,因此,当需要生成预设题目的标签时,通过查找预设的关键词与联想标签的映射对集合得到预设题目的标签的准确性也较高。
在具体实施过程中,为了提高预设的关键词与联想标签的映射对集合中的映射对的准确性,参考图9,图9为本发明实施例中得到预设的关键词与联想标签的映射对集合的又一种流程图,在图4至图8所示的得到预设的关键词与联想标签的映射对集合的步骤之后,还可以执行如下步骤:
步骤901,计算预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的第一次数。
在本步骤中,可以计算在预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的次数,并将该次数作为第一次是;其中,候选关键字也就是预设的关键词与联想标签的映射对集合中,预设的关键词与联想标签的映射对中的预设的关键词。
比如,预设的关键词与联想标签的映射对集合包括“安某”与“刘某”的映射对,那么,“安某”就是步骤901中所说的候选关键词。
步骤902,针对所述映射对集合中,各候选关键词与联想标签的映射对:确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数;将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度。
在本步骤中,可以针对所述映射对集合中,各候选关键词与联想标签的映射对执行如下步骤:
第一步,确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数。
具体的,可以确定候选关键词与联想标签的映射对在映射对集合中出现的次数,并将该次数最为第二次数。
第二步,将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度。
具体的,将候选关键词与联想标签的映射对对应的第二次数,与该候选关键字对应的第一次数的比值,作为该候选关键词与联想标签的映射对的置信度。
需要说明的是,该候选关键词与联想标签的映射对的置信度越大,说明该候选关键词与联想标签的映射对越准确。
具体的,可以使用公式(1)来计算候选关键词与联想标签的映射对的置信度,公式(1)如下所示:
在公式(1)中,w为候选关键词;t为联想标签;count<w,t>为候选关键词与联想标签的映射对在映射对集合中出现的第二次数;count(w)为候选关键词在所有的样本的题目中出现的第一次数;P<w,t>为候选关键词w与联想标签t的映射对的置信度。
步骤903,将所述置信度小于预设的置信度阈值的所述映射对,确定为淘汰映射对。
在本步骤中,可以将步骤902计算出的置信度与预设的置信度阈值进行比较,将置信度小于预设的置信度阈值的映射对,确定为淘汰映射对,以便从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
需要说明的是,过小的置信度说明该候选关键词与联想标签的映射对不准确,如果使用不准确的候选关键词与联想标签的映射对生成标签,可能导致标签无法准确表示预设题目所体现的核心内容,因此,为了提高生成标签的准确性,需要从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
步骤904,从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
在本步骤中,可以从预设的关键词与联想标签的映射对集合中,删除由步骤903确定的淘汰映射对,这样,可以确保预设的关键词与联想标签的映射对集合中的所述映射对的准确性,进而保证使用不准确的候选关键词与联想标签的映射对生成标签的准确性。
在实际应用中,预设的置信度阈值可以为0.2。比如,参见表1,表1为多个候选关键词与联想标签的映射对的置信度。
候选关键词w | 联想标签t | 置信度P<sub><w,t></sub> |
安某 | 刘某 | 0.45 |
佩奇 | 小猪佩奇 | 0.38 |
个唱 | 演唱会 | 0.26 |
金毛 | 猫 | 0.14 |
表1
从表1可以看出,“金毛”与“猫”对应的置信度低于预设的置信度阈值0.2,为淘汰映射对,可以从预设的关键词与联想标签的映射对集合中删除。
可见,通过计算预设的关键词与联想标签的映射对的置信度,进而将置信度较低的预设的关键词与联想标签的映射对从预设的关键词与联想标签的映射对集合中删除,可以提高预设的关键词与联想标签的映射对集合的准确性,保证使用预设的关键词与联想标签的映射对集合得到的标签能够准确体现预设题目所体现的核心内容。
本发明实施例再提供了一种生成标签的装置,参考图10,图10为本发明实施例的生成标签的装置的一种结构示意图。如图10所示,所述装置包括:
抽取模块1001,用于从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
查找模块1002,用于基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
确定模块1003,用于在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
可选的,所述查找模块1002,具体用于从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签;
所述确定模块1003,具体用于按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
可选的,所述查找模块1002,具体用于按照预设的选取规则,从所述初选关键词中选取重点关键词;
从预设的关键词与联想标签的映射对集合中,查找所述重点关键词对应的联想标签,将所述重点关键词对应的联想标签作为所述预设题目对应的联想标签;
所述确定模块1003,具体用于将所述重点关键词和所述联想标签作为所述预设题目的标签。
可选的,所述装置还包括:
获取模块,用于获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签,其中,人工标注标签是指标识题目的核心内容的词;
建立模块,用于针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对;将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
可选的,所述确定模块1003,还用于若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词;
所述建立模块,具体用于将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
可选的,所述确定模块1003,还用于若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词;
所述建立模块,具体用于将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
可选的,所述确定模块1003,还用于确定各第二精选关键词对应的所述交叠字的字数;
判断各第二精选关键词对应的所述交叠字的字数是否均相同;
若各第二精选关键词对应的所述交叠字的字数均不相同,则将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词;
所述建立模块,具体用于将该候选关键词中的第三精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
可选的,所述确定模块1003,还用于若各第二精选关键词对应的所述交叠字的字数均相同,则将字数最少的第二精选关键词,作为第四精选关键词;
所述建立模块,具体用于将该候选关键词中的第四精选候选关键词与该联想标签进行映射,建立该候选关键词中的第四精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第四精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
可选的,所述装置还包括:
识别模块,用于若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体,所述命名实体包括人名、地名、游戏名和剧名;
将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词;
所述建立模块,具体用于将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
可选的,所述装置还包括:
计算模块,用于计算预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的第一次数;
所述确定模块1003,还用于针对所述映射对集合中,各候选关键词与联想标签的映射对:确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数;将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度;
所述确定模块1003,还用于将所述置信度小于预设的置信度阈值的所述映射对,确定为淘汰映射对;
所述装置还包括:
删除模块,用于从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
可见,使用本发明实施例提供的生成标签的装置生成的预设题目的标签可以包括能够标识预设题目所体现的核心内容且未在预设题目中出现的词,避免出现生成标签无法准确表达预设题目所标识的核心内容的问题。
本发明实施例还提供了一种电子设备,参考图11,图11为本发明实施例的电子设备的一种结构示意图,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现如下步骤:
从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的生成标签的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的生成标签的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (9)
1.一种生成标签的方法,其特征在于,所述方法包括:
从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
在所述初选关键词和所述联想标签中,确定所述预设题目的标签;
所述预设的关键词与联想标签的映射对集合通过如下步骤得到:
获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签,其中,人工标注标签是指标识题目的核心内容的词;
针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对;将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
在所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤之前,所述方法还包括:若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词;所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对;所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
或
在所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤之前,所述方法还包括:若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词;所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对;所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;在所述将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词的步骤之后,所述方法还包括:确定各第二精选关键词对应的所述交叠字的字数;判断各第二精选关键词对应的所述交叠字的字数是否均相同;若各第二精选关键词对应的所述交叠字的字数均不相同,则将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词;所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:将该候选关键词中的第三精选候选关键词与该联想标签进行映射,建立该候选关键词中的第三精选候选关键词与该联想标签的映射对;所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:将该候选关键词中的第三精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;所述判断各第二精选关键词对应的所述交叠字的字数是否均相同之后,所述方法还包括:若各第二精选关键词对应的所述交叠字的字数均相同,则将字数最少的第二精选关键词,作为第四精选关键词;所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:将该候选关键词中的第四精选候选关键词与该联想标签进行映射,建立该候选关键词中的第四精选候选关键词与该联想标签的映射对;所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:将该候选关键词中的第四精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
或
在所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤之前,所述方法还包括:若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体,所述命名实体包括人名、地名、游戏名和剧名;将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词;所述将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对的步骤,包括:将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对;所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤,包括:将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
2.根据权利要求1所述的方法,其特征在于,所述基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签的步骤,包括:
从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签;
所述在所述初选关键词和所述联想标签中,确定所述预设题目的标签的步骤,包括:
按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
3.根据权利要求1所述的方法,其特征在于,所述基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签的步骤,包括:
按照预设的选取规则,从所述初选关键词中选取重点关键词;
从预设的关键词与联想标签的映射对集合中,查找所述重点关键词对应的联想标签,将所述重点关键词对应的联想标签作为所述预设题目对应的联想标签;
所述在所述初选关键词和所述联想标签中,确定所述预设题目的标签的步骤,包括:
将所述重点关键词和所述联想标签作为所述预设题目的标签。
4.根据权利要求1至3任一所述的方法,其特征在于,在所述将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合的步骤之后,所述方法还包括:
计算预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的第一次数;
针对所述映射对集合中,各候选关键词与联想标签的映射对:确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数;将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度;
将所述置信度小于预设的置信度阈值的所述映射对,确定为淘汰映射对;
从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
5.一种生成标签的装置,其特征在于,所述装置包括:
抽取模块,用于从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
查找模块,用于基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
确定模块,用于在所述初选关键词和所述联想标签中,确定所述预设题目的标签;
获取模块,用于获取预设数量的样本,每个样本包括题目和题目对应的人工标注标签,其中,人工标注标签是指标识题目的核心内容的词;
建立模块,用于针对每个样本:将该样本中的题目对应的人工标注标签中,未在该题目中出现的人工标注标签确定为联想标签;从该题目中抽取关键词,将抽取到的关键词作为候选关键词;将该候选关键词与该联想标签进行映射,建立该候选关键词与该联想标签的映射对;将该候选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
所述确定模块,还用于若存在多个候选关键词,则将多个候选关键词中,包含联想标签的候选关键词作为第一精选关键词,或者,将多个候选关键词中,包含于联想标签的候选关键词作为第一精选关键词;
所述建立模块,具体用于将该候选关键词中的第一精选关键词与该联想标签进行映射,建立该候选关键词中的第一精选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第一精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
或
所述确定模块,还用于若存在多个候选关键词,则将多个候选关键词中,与联想标签存在交叠字的候选关键词作为第二精选关键词;
所述建立模块,具体用于将该候选关键词中的第二精选候选关键词与该联想标签进行映射,建立该候选关键词中的第二精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第二精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
所述确定模块,还用于确定各第二精选关键词对应的所述交叠字的字数;
判断各第二精选关键词对应的所述交叠字的字数是否均相同;
若各第二精选关键词对应的所述交叠字的字数均不相同,则将字数最多的交叠字对应的第二精选关键词,作为第三精选关键词;
所述建立模块,具体用于将该候选关键词中的第三精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
所述确定模块,还用于若各第二精选关键词对应的所述交叠字的字数均相同,则将字数最少的第二精选关键词,作为第四精选关键词;
所述建立模块,具体用于将该候选关键词中的第四精选候选关键词与该联想标签进行映射,建立该候选关键词中的第四精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第四精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合;
或
识别模块,用于若存在多个候选关键词,则识别各候选关键词的命名实体,以及识别联想标签的命名实体,所述命名实体包括人名、地名、游戏名和剧名;
将候选关键词中,命名实体与联想标签的命名实体相同的候选关键词,作为第五精选关键词;
所述建立模块,具体用于将该候选关键词中的第五精选候选关键词与该联想标签进行映射,建立该候选关键词中的第五精选候选关键词与该联想标签的映射对;
所述建立模块,具体用于将该候选关键词中的第五精选关键词与该联想标签的映射对,加入预设的关键词与联想标签的映射对集合。
6.根据权利要求5所述的装置,其特征在于,
所述查找模块,具体用于从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签;
所述确定模块,具体用于按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
7.根据权利要求5所述的装置,其特征在于,
所述查找模块,具体用于按照预设的选取规则,从所述初选关键词中选取重点关键词;
从预设的关键词与联想标签的映射对集合中,查找所述重点关键词对应的联想标签,将所述重点关键词对应的联想标签作为所述预设题目对应的联想标签;
所述确定模块,具体用于将所述重点关键词和所述联想标签作为所述预设题目的标签。
8.根据权利要求5至7任一所述的装置,其特征在于,
所述装置还包括:
计算模块,用于计算预设的关键词与联想标签的映射对集合中,各候选关键词在所有的样本的题目中出现的第一次数;
所述确定模块,还用于针对所述映射对集合中,各候选关键词与联想标签的映射对:确定该候选关键词与联想标签的映射对在所述映射对集合中出现的第二次数;将第二次数,与该候选关键词对应的第一次数的比值,确定为该候选关键词与联想标签的映射对的置信度;
所述确定模块,还用于将所述置信度小于预设的置信度阈值的所述映射对,确定为淘汰映射对;
所述装置还包括:
删除模块,用于从预设的关键词与联想标签的映射对集合中,删除淘汰映射对。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811026691.7A CN109145261B (zh) | 2018-09-04 | 2018-09-04 | 一种生成标签的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811026691.7A CN109145261B (zh) | 2018-09-04 | 2018-09-04 | 一种生成标签的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145261A CN109145261A (zh) | 2019-01-04 |
CN109145261B true CN109145261B (zh) | 2022-12-06 |
Family
ID=64826745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811026691.7A Active CN109145261B (zh) | 2018-09-04 | 2018-09-04 | 一种生成标签的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145261B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263122B (zh) * | 2019-05-08 | 2022-05-17 | 北京奇艺世纪科技有限公司 | 一种关键词获取方法、装置及计算机可读存储介质 |
CN116561652B (zh) * | 2023-04-04 | 2024-04-26 | 陆泽科技有限公司 | 一种标签标注方法及装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2638558A1 (en) * | 2008-08-08 | 2010-02-08 | Bloorview Kids Rehab | Topic word generation method and system |
CN103377185A (zh) * | 2012-04-24 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种为短文本自动添加标签的方法及装置 |
CN105138670A (zh) * | 2015-09-06 | 2015-12-09 | 天翼爱音乐文化科技有限公司 | 音频文件标签生成方法和系统 |
CN106919711A (zh) * | 2017-03-13 | 2017-07-04 | 北京百度网讯科技有限公司 | 基于人工智能的标注信息的方法和装置 |
-
2018
- 2018-09-04 CN CN201811026691.7A patent/CN109145261B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2638558A1 (en) * | 2008-08-08 | 2010-02-08 | Bloorview Kids Rehab | Topic word generation method and system |
CN103377185A (zh) * | 2012-04-24 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种为短文本自动添加标签的方法及装置 |
CN105138670A (zh) * | 2015-09-06 | 2015-12-09 | 天翼爱音乐文化科技有限公司 | 音频文件标签生成方法和系统 |
CN106919711A (zh) * | 2017-03-13 | 2017-07-04 | 北京百度网讯科技有限公司 | 基于人工智能的标注信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109145261A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
US10078632B2 (en) | Collecting training data using anomaly detection | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
JP2019212290A (ja) | ビデオを処理する方法及び装置 | |
WO2022116418A1 (zh) | 商标侵权的自动化判定方法、装置、电子设备和存储介质 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
US9811515B2 (en) | Annotating posts in a forum thread with improved data | |
CN109947903B (zh) | 一种成语查询方法及装置 | |
CN101853297A (zh) | 一种在电子设备中快速获得期望图像的方法 | |
CN110209781B (zh) | 一种文本处理方法、装置以及相关设备 | |
WO2021114634A1 (zh) | 文本标注方法、设备及存储介质 | |
CN112860865A (zh) | 一种智能问答的实现方法、装置、设备及存储介质 | |
CN113065018A (zh) | 一种音视频的索引库创建和检索方法、装置及电子设备 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN109145261B (zh) | 一种生成标签的方法和装置 | |
CN114881685A (zh) | 广告投送方法、装置、电子装置及存储介质 | |
US20230112385A1 (en) | Method of obtaining event information, electronic device, and storage medium | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
US20210342393A1 (en) | Artificial intelligence for content discovery | |
CN111858860A (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |