CN111897965B - 话题生成方法、装置、存储介质和电子设备 - Google Patents

话题生成方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN111897965B
CN111897965B CN202011052743.5A CN202011052743A CN111897965B CN 111897965 B CN111897965 B CN 111897965B CN 202011052743 A CN202011052743 A CN 202011052743A CN 111897965 B CN111897965 B CN 111897965B
Authority
CN
China
Prior art keywords
scene
topic
word
determining
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011052743.5A
Other languages
English (en)
Other versions
CN111897965A (zh
Inventor
郭林森
曹雪智
谢睿
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202011052743.5A priority Critical patent/CN111897965B/zh
Publication of CN111897965A publication Critical patent/CN111897965A/zh
Application granted granted Critical
Publication of CN111897965B publication Critical patent/CN111897965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种话题生成方法、装置、存储介质和电子设备,所述方法包括:获取用户生成内容对应的语料数据;根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题。因此,一方面可以有效节省用户的操作,另一方面可以保证确定出目标话题与用户生成内容之间的匹配性和适应性,提供确定出的目标话题的覆盖范围,拓宽该话题使用方法的适用范围。

Description

话题生成方法、装置、存储介质和电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种话题生成方法、装置、存储介质和电子设备。
背景技术
话题,也称话题标签(hashtag),常应用于社交媒体中,使用同一话题的内容会基于该话题自动聚合到一起,使得用户可以围绕同一个话题进行相关内容的讨论。
现有技术中可使用的话题通常是基于以下方式生成的:
第一种,用户编辑内容时,手动输入话题并进行内容关联。这种情况下不同的用户即使是针对同一话题中心点发表内容,但可能会因为不同用户的表述习惯而添加不同的话题标签,该话题可关联的内容有限,局限性较大。
第二种,可以根据用户手动输入的话题标签,通过自定义规则或机器学习的方式生成新的话题,该类方法所需模板依赖于大量的先验知识,成本较高,难以快速有效地进行迁移。
发明内容
本公开的目的是提供一种话题生成方法、装置、存储介质和电子设备,以提高话题生成的简便性、可用性和全面性。
为了实现上述目的,本公开提供一种话题生成方法,所述方法包括:
获取用户生成内容对应的语料数据;
根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;
针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;
根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题。
可选地,所述根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题,包括:
根据所述场景词信息中每一场景词的属性,将所述场景词添加至所述话题模板中该属性对应的词填充位,获得候选话题;
确定每一所述候选话题的匹配参数,其中,所述匹配参数用于表征该候选话题与所述目标场景的匹配程度;
根据所述匹配参数确定所述目标话题。
可选地,所述方法还包括:
在当前时刻满足模板挖掘时段要求或者接收到模板挖掘指令的情况下,根据所述语料数据中的场景词,确定话题场景词组合;
针对每一所述话题场景词组合,从所述语料数据中确定包含该话题场景词组合中的全部场景词的属性的话题语句;用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板;通过模板分类模型对所述候选模板进行分类,并根据分类结果确定新挖掘的话题模板;存储所述新挖掘的话题模板;
所述确定与所述场景词信息对应的话题模板,包括:
从存储的话题模板中,将包含所述场景词信息中的全部场景词的属性的话题模板确定为与所述场景词信息对应的话题模板。
可选地,所述根据所述语料数据确定至少一种场景词信息,包括:
根据所述语料数据确定候选分词;
根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性;
对所述场景词进行组合,获得所述场景词信息。
可选地,通过以下中的至少一者确定所述候选分词:
将所述语料数据的分词作为所述候选分词;
对所述语料数据的分词进行命名实体识别,并将识别到的实体对应的分词作为所述候选分词;
根据所述语料数据的分词进行新词发现,将获得的新词作为所述候选分词。
可选地,所述对所述场景词进行组合,获得所述场景词信息,包括:
从所述场景词中选择预设数量的场景词进行组合,确定初始场景词组合;
通过场景成立模型确定所述初始场景词组合对应的第二场景参数,其中,所述第二场景参数用于表征所述初始场景词组合中的全部场景词属于同一场景的可能性;
在所述初始场景词组合对应的第二场景参数大于场景阈值的情况下,将所述初始场景词组合确定为所述场景词信息。
可选地,所述场景成立模型通过以下方式训练获得:
获取训练样本,其中,所述训练样本中包括人工标注的场景负样本和从线上数据中提取出的场景正样本,所述场景负样本和所述场景正样本均由多个场景词组成;
将根据所述训练样本生成的训练向量作为模型的输入向量,并将所述训练样本的分类作为模型的目标输出,对所述模型进行训练,以获得所述场景成立模型;
其中,所述训练向量通过以下中的至少一者生成:
所述训练样本中每一场景词的长度、词性、词向量特征、位置分布特征、在目标类型商户下的频率、在不同类型商户下的频率分布,多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵。
可选地,所述确定与所述场景词信息对应的话题模板,包括:
确定所述场景词信息中的每一场景词的属性;
从存储的话题模板中查询包含所述场景词信息中的每一场景词的属性的模板;
将查询到的所述模板确定为所述话题模板。
可选地,所述方法还包括:
接收用户的编辑内容数据;
确定所述编辑内容数据中的场景词信息;
根据所述编辑内容数据中的场景词信息,确定所述编辑内容数据对应的目标场景;
将所述目标场景对应的所述目标话题确定为所述编辑内容数据的话题。
根据本公开的第二方面,提供一种话题生成装置,所述装置包括:
获取模块,用于获取用户生成内容对应的语料数据;
第一确定模块,用于根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;
第二确定模块,用于针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;
生成模块,用于根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题。
可选地,所述生成模块包括:
添加子模块,用于根据所述场景词信息中每一场景词的属性,将所述场景词添加至所述话题模板中该属性对应的词填充位,获得候选话题;
第一确定子模块,用于确定每一所述候选话题的匹配参数,其中,所述匹配参数用于表征该候选话题与所述目标场景的匹配程度;
第二确定子模块,用于根据所述匹配参数确定所述目标话题。
可选地,所述装置还包括:
第三确定模块,用于在当前时刻满足模板挖掘时段要求或者接收到模板挖掘指令的情况下,根据所述语料数据中的场景词,确定话题场景词组合;
处理模块,用于针对每一所述话题场景词组合,从所述语料数据中确定包含该话题场景词组合中的全部场景词的属性的话题语句;用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板;通过模板分类模型对所述候选模板进行分类,并根据分类结果确定新挖掘的话题模板;存储所述新挖掘的话题模板;
所述第二确定模块包括:
第三确定子模块,用于从存储的话题模板中,将包含所述场景词信息中的全部场景词的属性的话题模板确定为与所述场景词信息对应的话题模板。
可选地,所述第一确定模块包括:
第四确定子模块,用于根据所述语料数据确定候选分词;
第五确定子模块,用于根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性;
组合子模块,用于对所述场景词进行组合,获得所述场景词信息。
可选地,通过以下中的至少一者确定所述候选分词:
将所述语料数据的分词作为所述候选分词;
对所述语料数据的分词进行命名实体识别,并将识别到的实体对应的分词作为所述候选分词;
根据所述语料数据的分词进行新词发现,将获得的新词作为所述候选分词。
可选地,所述组合子模块包括:
第六确定子模块,用于从所述场景词中选择预设数量的场景词进行组合,确定初始场景词组合;
第七确定子模块,用于通过场景成立模型确定所述初始场景词组合对应的第二场景参数,其中,所述第二场景参数用于表征所述初始场景词组合中的全部场景词属于同一场景的可能性;
第八确定子模块,用于在所述初始场景词组合对应的第二场景参数大于场景阈值的情况下,将所述初始场景词组合确定为所述场景词信息。
可选地,所述场景成立模型通过以下方式训练获得:
获取训练样本,其中,所述训练样本中包括人工标注的场景负样本和从线上数据中提取出的场景正样本,所述场景负样本和所述场景正样本均由多个场景词组成;
将根据所述训练样本生成的训练向量作为模型的输入向量,并将所述训练样本的分类作为模型的目标输出,对所述模型进行训练,以获得所述场景成立模型;
其中,所述训练向量通过以下中的至少一者生成:
所述训练样本中每一场景词的长度、词性、词向量特征、位置分布特征、在目标类型商户下的频率、在不同类型商户下的频率分布,多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵。
可选地,所述第二确定模块包括:
第九确定子模块,用于确定所述场景词信息中的每一场景词的属性;
查询子模块,用于从存储的话题模板中查询包含所述场景词信息中的每一场景词的属性的模板;
第十确定子模块,用于将查询到的所述模板确定为所述话题模板。
可选地,所述装置还包括:
接收模块,用于接收用户的编辑内容数据;
第四确定模块,用于确定所述编辑内容数据中的场景词信息;
第五确定模块,用于根据所述编辑内容数据中的场景词信息,确定所述编辑内容数据对应的目标场景;
第六确定模块,用于将所述目标场景对应的所述目标话题确定为所述编辑内容数据的话题。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时第一方面任一所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面任一所述方法的步骤。
在上述技术方案中,可以根据用户生成内容对应的语料数据确定场景词信息,并针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,从而可以根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题。由此,通过上述技术方案,无需用户手动输入,可以通过对语料数据进行解析处理,从而生成目标话题,一方面可以有效节省用户的操作,便于用户使用,另一方面可以保证确定出目标话题与用户生成内容之间的匹配性和适应性,提供确定出的目标话题的覆盖范围,拓宽该话题使用方法的适用范围。并且,确定出的话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性,从而可以通过场景词的属性确定目标话题,无需依赖先验知识,话题模板中并不关注场景词的内容信息,进一步可以提高话题模板的丰富性和多样性,从而保证确定出的目标话题的适用性,便于实现话题迁移。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方法提供的话题生成方法的流程图;
图2是根据本公开的一种实施方法提供的根据语料数据确定至少一种场景词信息的示例性实现方式的流程图;
图3是根据本公开的一种实施方法提供的对场景词进行组合,获得场景词信息的实现方式的流程图;
图4是根据本公开的一种实施方法提供的根据话题模板和场景词信息,生成目标场景对应的目标话题的示例性实现方式的流程图;
图5是根据本公开的一种实施方法提供的话题生成装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图;
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方法提供的话题生成方法的流程图,如图1所示,所述方法包括:
在步骤11中,获取用户生成内容对应的语料数据。其中,用户生成内容UGC(User-generated content),通常指用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。例如用户针对某一商家的评论内容,或者用户分享的某一地点的旅游攻略内容等。
在步骤12中,根据语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景。
其中,在生活场景中,一个话题通常是由多个与场景相关的词语组成的一句话。场景词可以是从语料数据中挖掘出的用于构成场景的词语,例如“周末”、“登山”等可以作为场景词,则其可以组合得到场景词信息以表示“周末去登山”的场景。
在步骤13中,针对每种场景词信息,确定与场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性。
其中,场景词的属性可以对应于场景中的要素,如“人”、“事”、“物”、“时间”、“地点”、“主观”等,示例地,场景词“父亲”的属性为“人”,场景词“爬山”的属性为“事”,场景词“包子”的属性为“物”,场景词“周末”的属性为“时间”,场景词“上海”的属性为“地点”,场景词“开心”的属性为“主观”。
作为示例,可以通过属性辞典的方式确定场景词的属性,在属性辞典中存储有多个场景词及其对应的属性,则在确定出场景词时,可以根据该场景词在属性辞典中进行查询,从而获得该场景词的属性。
作为另一示例,可以通过神经网络预先训练一个可以用于对场景词进行属性自动标注的属性标注模型,从而可以基于该属性模型确定场景词的属性。示例地,可以通过对各类属性的场景词进行预先标注从而获得训练样本,进而对神经网络模型进行训练获得该属性标注模型。其中,可以采用现有的模型训练方式进行训练,本公开对此不进行限定。
由此,针对“周末-登山”这一场景词信息,可以确定如下话题模板:
“时间”,“事”,好去处;
“时间”,去哪,“事”。
在步骤14中,根据话题模板和场景词信息,生成目标场景对应的目标话题。
示例地,可以根据话题模板中的词填充位对应的属性,将场景词信息中该属性的场景词填充进去。接上述示例,针对“周末-登山”这一场景词信息和其确定出的话题模板进行填充可以获得如下语句:
“时间”,“事”,好去处—>周末登山好去处;
“时间”,去哪,“事”—>周末去哪登山。
在一种实施例中,可以将确定出的多个语句确定为该场景对应的话题,并存储该场景词信息与话题之间的关联关系,以便于后续可以将属于同一场景的用户生成内容进行聚合。在另一种实施例中,可以将确定出的多个语句进行输出,以由用户从该多个语句中确定出该目标场景对应的目标话题。
因此,在上述技术方案中,可以根据用户生成内容对应的语料数据确定场景词信息,并针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,从而可以根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题。由此,通过上述技术方案,无需用户手动输入,可以通过对语料数据进行解析处理,从而生成目标话题,一方面可以有效节省用户的操作,便于用户使用,另一方面可以保证确定出目标话题与用户生成内容之间的匹配性和适应性,提供确定出的目标话题的覆盖范围,拓宽该话题使用方法的适用范围。并且,确定出的话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性,从而可以通过场景词的属性确定目标话题,无需依赖先验知识,话题模板中并不关注场景词的内容信息,进一步可以提高话题模板的丰富性和多样性,从而保证确定出的目标话题的适用性,便于实现话题迁移。
可选地,在步骤12中,根据语料数据确定至少一种场景词信息的示例性实现方式如下,如图2所示,该步骤可以包括:
在步骤21中,根据语料数据确定候选分词。
其中,现有的分词算法可分为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,本公开中可以选择现有的分词算法对语料数据进行分词,从而获得该语料数据的分词。
示例地,可以通过以下中的至少一者确定所述候选分词:
第一种,将所述语料数据的分词作为所述候选分词,即将确定出的每一分词均作为该候选分词。
第二种,对所述语料数据的分词进行命名实体识别,并将识别到的实体对应的分词作为所述候选分词,其中可以基于命名实体识别(Named Entity Recognition,NER)算法进行识别,从而确定出候选分词。
第三种,根据语料数据的分词进行新词发现,将获得的新词作为所述候选分词。
示例地,可以通过计算两个分词之间的词紧密度来进行新词发现,可以通过如下公式确定词紧密度fclose(x,y):
fclose(x,y)=PMI(x,y)+min(Entropyleft(xy), Entropyright(xy))
其中,x和y分别为语料数据中进行分词处理得到的分词,xy为x和y的组合成的新词。PMI(x,y)为两个分词的点互信息,Entropyleft(xy)和Entropyright(xy)分别为新词的左右熵。
其中,点互信息定义如下:
Figure 943142DEST_PATH_IMAGE001
其中,p(x,y)两个分词x和y在语料数据中同时出现的概率,p(x)和p(y)分别为分词x和y在语料数据中出现的概率,其中,例如计算分词“昆虫”和分词“博物馆”所得的PMI,PMI值越大,表示两个分词组合成的新词之间的凝聚力更大,更可能是连在一起的新词。
其中,左右熵定义如下:
Figure 516075DEST_PATH_IMAGE002
Figure 623708DEST_PATH_IMAGE003
其中p(aW|)为词aW在语料数据中出现的概率,p(Wb|)为词Wb在语料数据中出现的概率,p(aW|W)为分词W出现的条件下左边出现词a的概率,p(Wb|W)为分词W出现的条件下右边出现词b的概率。如昆虫博物馆左边可以出现“去”,“看”,“到”,分别使用这些左边出现的词来计算左熵。由此,通过上述方式,可以通过计算两个分词之间的词紧密度,则该词紧密度大于紧密度阈值的情况下,将该两个分词组成的词作为新词,并将该新词作为候选分词。
由此,可以通过上述方式简便地确定出候选分词,若采用上述的多种方式确定候选分词,可以将通过每种方式确定出的候选分词的并集作为最终确定出的候选分词,从而可以保证确定出的候选分词的全面性,便于后续确定场景词,并为提高确定出的场景的多样性提供数据支持。
之后,在步骤22中,根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性。
示例地,可以通过人工标注的少量的场景词和出现在线上话题中的场景词作为正样本,随机从未出现在话题中的词语作为负样本来训练场景词分类模型。示例地,可以采用有监督模型如树模型xgboost或者神经网络等模型进行训练。在训练过程中,将根据训练分词的正样本或负样本提取出的向量作为模型的输入向量,将正、负样本的分类标注作为目标输出,以对模型进行训练,获得场景词分类模型。其中,根据训练分词提取出的向量可以包括以下中的一者或多者:训练分词的长度、词性、在不同类型的语料数据中的频率分布、在不同类型商户下的频率分布等。
其中,训练分词的长度可以是词语的字数,语料数据可以是从商品名称、UGC话题、UGC内容、日志等获得的数据,则可以通过分别统计该训练分词在商品名称、UGC话题、UGC内容、日志中的频率,以确定该训练分词在不同类型的语料数据中的频率分布,其中语料数据的类型可以根据具体的使用场景进行分类,例如可以根据数据来源进行分类。示例地,该语料数据可以是用户针对不同类型的商户进行的评论,例如可以是用户针对外卖商户、亲子用品商户、门票商户等的评论,则可以分别确定该训练分词在外卖商户、亲子用品商户、门票商户下出现的频率,从而确定该训练分词在不同类型商户下的频率分布。示例地,在训练分词的向量包括以上中的多者时,可以通过向量拼接的方式将多个特征向量拼接为一个向量作为模型的输入向量。
由此,可以针对确定出的每一候选分词,将该候选分词输入场景词分类模型,以通过该场景词分类模型获得第一场景参数,则在该第一场景参数大于预设阈值的情况下,表征该候选分词可以形成场景的可能性较大,可以作为场景词。因此,通过上述技术方案,一方面可以保证确定出的场景词的准确度,便于后续确定出的场景词信息和场景的准确性和全面性,另一方面,也可以有效降低后续进行话题生成对应的场景词的数据量,从而可以提高话题生成的效率。
在步骤23中,对场景词进行组合,获得场景词信息。
作为示例,可以从确定出的场景词中任意选择多个场景词进行组合作为场景词信息。其中,可以选择2个或3个场景词以形成场景词信息。需要进行说明的是,场景词信息中包含的场景词的个数可以根据实际使用场景进行设置,本公开不进行限定。
而在实际使用场景中,会出现随机组合的场景词不能够出现在同一场景中,例如“北京-外滩”等,因此,本公开还提供以下实施例,对随机组合确定出场景词组合进行过滤,从而获得场景词信息。
作为另一示例,在步骤23中,对场景词进行组合,获得场景词信息的步骤可以包括,如图3所示:
在步骤31中,从场景词中选择预设数量的场景词进行组合,确定初始场景词组合。示例地,由于生成的话题通常长度较短,则该预设数量可以为2或3,本公开对此不进行限定。
在步骤32中,通过场景成立模型确定初始场景词组合对应的第二场景参数,其中,所述第二场景参数用于表征所述初始场景词组合中的全部场景词属于同一场景的可能性;
在步骤33中,在初始场景词组合对应的第二场景参数大于场景阈值的情况下,将初始场景词组合确定为场景词信息。
可选地,所述场景成立模型可以通过以下方式训练获得:
获取训练样本,其中,所述训练样本中包括人工标注的场景负样本和从线上数据中提取出的场景正样本,所述场景负样本和所述场景正样本均由多个场景词组成。其中,场景正样本可以从线上数据的话题中进行提取,将从同一话题中提取出的多个场景词组成的样本作为场景正样本。
将根据所述训练样本生成的训练向量作为模型的输入向量,并将所述训练样本的分类作为模型的目标输出,对所述模型进行训练,以获得所述场景成立模型;
其中,所述训练向量通过以下中的至少一者生成:
所述训练样本中每一场景词的长度、词性、词向量特征、位置分布特征、在目标类型商户下的频率、在不同类型商户下的频率分布,多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵。
其中,确定场景词的长度、词性、在不同类型商户下的频率分布的具体实现方式已在上文进行详述,在此不再赘述。在确定场景词的词向量特征时,可以通过word2vec方式确定,或者也可以通过BERT算法确定。其中,BERT是基于Transformer的深度双向语言表征模型,它是一种自编码语言模型。又例如,也可以将通过word2vec方式确定的词向量和通过BERT算法确定的词向量进行融合,以确定场景词对应的词向量特征,在融合时可以采用max-pooling(对邻域内特征点取最大)或mean-pooling(对邻域内特征点求平均)的方式进行。场景词的位置分布特征可以是该场景词在标题、正文中的出现的频率特征。其中,针对多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵的计算方式为现有技术,在此不再赘述。同样地,在训练向量通过以上中的多者生成时,可以按照预设的拼接顺序进行拼接,从而获得该训练向量。
因此,通过上述技术方案,通过场景正样本和场景负样本对模型进行训练,可以获得场景成立模型,以对场景词组合进行过滤,为获得准确的场景词信息提供数据支持。同时,在确定模型的输入向量时,也可以充分考虑场景词在不同层面下的特征,从而可以有效拓宽该场景成立模型的使用范围,提高该场景成立模型的鲁棒性。
之后,在确定出每一初始场景词组合对应的第二场景参数后,在所述初始场景词组合对应的第二场景参数大于场景阈值的情况下,将所述初始场景词组合确定为所述场景词信息,由此,可以通过该场景成立模型对随机组合出的场景词组合进行过滤,一方面保证确定出的场景词信息的准确性,为后续话题生成提供准确的数据支持。另一方面可以有效避免对不成立的场景的数据处理,减少数据处理量的同时,也可以避免不成立的场景对后续话题生成过程的干扰,提升话题生成方法的准确性和效率。
可选地,在步骤13中,确定与场景词信息对应的话题模板的示例性实现方式如下,该步骤可以包括:
确定所述场景词信息中的每一场景词的属性。示例地,场景词信息为“周末-登山”,则该场景词信息中的场景词的属性分别为“时间”、“事”。
从存储的话题模板中查询包含所述场景词信息中的每一场景词的属性的模板;
将查询到的所述模板确定为所述话题模板。
接上述示例,即从存储的话题模板中查询包含“时间”、“事”的模板,则查询到的模板可以为:
“时间”,“事”,好去处;
“时间”,去哪,“事”。
则可以将上述模板作为该场景词信息对应的话题模板。
由此,通过上述技术方案,可以通过场景词信息中的场景词的属性确定与该场景词信息对应的话题模板,不关注该场景词本身的内容信息而是基于场景词的属性进行话题模板匹配,从而可以提高匹配到的话题模板的数量,并且也可以保证该话题模板与该场景词信息的匹配性,为后续生成的话题多样性提供更多的参考,贴合用户的使用需求。
可选地,所述方法还可以包括:
在当前时刻满足模板挖掘时段要求或者接收到模板挖掘指令的情况下,根据所述语料数据中的场景词,确定话题场景词组合。作为示例,可以设置每间隔固定时段进行话题模板挖掘,则可以通过当前时刻信息自动触发进行模板挖掘。作为另一示例,用户可以通过点击等操作触发生成该模板挖掘指令,从而可以响应于该模板挖掘指令进行模板挖掘。其中,确定根据所述语料数据中的场景词,确定话题场景词组合的具体实施方式和上文确定初始场景词组合的方式类似,在此不再赘述。
针对每一所述话题场景词组合,从所述语料数据中确定包含该话题场景词组合中的全部场景词的属性的话题语句;用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板;通过模板分类模型对所述候选模板进行分类,并根据分类结果确定新挖掘的话题模板;存储所述新挖掘的话题模板;
所述确定与所述场景词信息对应的话题模板,包括:
从存储的话题模板中,将包含所述场景词信息中的全部场景词的属性的话题模板确定为与所述场景词信息对应的话题模板。
示例地,确定出的话题场景词组合为“周末”和“父亲”,其中,该话题场景词组合中的全部场景词的属性为{时间,人},则之后可以从语料数据中匹配包括{时间,人}的话题语句。例如,确定出的话题语句为“周末和朋友去哪玩”、“五月和父母旅行”等,则用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板如下:
周末和朋友去哪玩-->“时间”,和,“人”,去哪玩
五月和父母旅行-->“时间”,和,“人”,旅行。
由于确定出的候选模板可能有多个,则可以通过模板分类模型对候选模板进行过滤,从而确定出新挖掘的话题模板。具体地,该模板分类模型的训练模板中可以包括:线上的话题对应的模板作为正样本,未通过审核以及随机采样的一些句子对应的模板作为负样本,从而训练模板分类模型。示例地,可以采用BERT来训练模板分类模型,进而确定出新挖掘的话题模板。由于BERT可以从海量的无标注文本中学到潜在的语义信息,而无需单独标注大量训练数据。在训练的过程中,可以使用大量无监督语料进行BERT的预训练,再使用少量标注样本进行微调来完成模板分类模型的训练。
之后,则可以将确定出的候选模板输入该模板分类模型,按照模板分类模型输出的分类参数由大至小的顺序对候选模板进行排序,选前k个作为新挖掘的话题模板。其中,k可以根据实际使用场景进行设置,本公开对此不进行限定。
由此,通过上述技术方案,可以从语料数据中挖掘出新的的话题模板,并对该新的话题模板进行存储,从而可以增加存储的话题模板的多样性和实时性,符合实时用户的使用习惯。同时在确定与场景词信息对应的话题模板时,均是从存储的话题模板中进行确定,从而可以保证挖掘到的新的话题模板可以被匹配到,提高新增话题模板的实时性和简便性,简化用户操作流程,提高话题生成的效率和与当前用户生成内容的适应性。
可选地,可以在确定出话题模板后,基于该话题模板序列,通过序列到序列的方式进一步生成新的话题模板,并进行存储,从而可以进一步扩充话题模板的多样性。
此外,在确定语料数据中的场景词时,还可以通过话题模板进行匹配确定。示例地,可以基于话题模板与语料数据进行匹配,则可以将符合该话题模板的词语作为场景词,从而可以进一步简化场景词确定的方式,便于用户使用。
可选地,在步骤14中,根据话题模板和场景词信息,生成目标场景对应的目标话题的另一示例性实现方式如下,如图4所示,该步骤可以包括:
在步骤41中,根据场景词信息中每一场景词的属性,将场景词添加至话题模板中该属性对应的词填充位,获得候选话题。其中,该步骤的具体实现方式已在上文进行详述,在此不再赘述。
可选地,在从语料数据中确定出每一场景词时,还可以确定出该场景词对应的同义场景词,因此,在生成候选话题时,可以根据所述场景词信息中每一场景词的属性,将所述场景词以及该场景词对应的同义场景词添加至所述话题模板中该属性对应的词填充位,获得候选话题。
例如,场景词“登山”对应的同义场景词为“爬山”,则还可以生成如下候选话题:
“时间”,“事”,好去处—>周末爬山好去处;
“时间”,去哪,“事”—>周末去哪爬山。
由此,可以进一步增加候选话题的多样性,更加贴合用户的使用需求。
在步骤42中,确定每一候选话题的匹配参数,其中,所述匹配参数用于表征该候选话题与所述目标场景的匹配程度;
在步骤43中,根据匹配参数确定目标话题。
示例地,可以通过以下中的一者或多者确定每一候选话题的匹配参数:
第一种,通过多元统计语言模型确定第一匹配值:
语言模型是用来评估一个句子出现可能性的模型。统计语言模型是采用基于统计的方法来对句子生成可能性进行建模。利用语言模型,可以确定哪个词序列的可能性更大。给定一个语句序列S=W1,W2,...,WN,其中N为语句中词语的个数,那么该语句生成的概率用语言模型可以表示为:
Figure 603604DEST_PATH_IMAGE004
在通过上述公式进行计算的过程中,可以采用近似的方式进行计算,以降低数据计算量。例如,可以采用多元(n-gram)语言模型进行计算。
其中,在n-gram语言模型中,假设语句中的一个词语出现的概率仅和前面n-1个词语出现的概率相关,即上式可以写为:
Figure 214714DEST_PATH_IMAGE005
随着n越来越大,p(wi|wi-n+1,wi-n+2,…,wi-1)所需要的统计信息就会越来越稀疏,时间复杂度剧增,而准确率确提升不大。在本公开中可以采用bi-gram(2-gram)与tri-gram(3-gram)进行计算。
其中,在实际使用场景中,使用的目标话题为符合自然语义特征的语句,由此,通过上述方式,针对每一候选话题,可以基于该候选话题中包含的词语序列确定该候选话题作为一个语句的可能性,则可以将该语言模型输出的候选话题为一个语句的概率作为该候选话题的第一匹配值,从而可以基于该第一匹配值确定出更加符合自然用户的话题。
可选地,为了提高对候选话题的合理性判断的置信度,可以采用多种不同的数据源对语言模型训练,例如可以分别使用评论、笔记等数据源对语言模型进行bi-gram和tri-gram的训练,从而获得更加准确的语言模型,提高基于该语言模型得出的匹配值的可靠性。
第二种,通过神经语言模型确定第二匹配值:
经典的神经网络语言模型有三种,前向神经网络语言模型、循环神经网络语言模型和长短期记忆神经网络语言模型。示例地,可以采用BERT(Bidirectional EncoderRepresentations from Transformers)预训练语言模型来确定候选话题对应的第二匹配值。其中,BERT是一种基于Transformer(基于前向神经网络和多头注意力机制)的双向预训练语言模型,在BERT中,可以通过遮挡掉一部分词语,从而预测遮挡部分出现词语的概率。因此,在该实施例中,可以针对每一候选话题,依次遮挡每一个词语,通过以下公式计算整个候选话题的第二匹配值p2(s):
Figure 833914DEST_PATH_IMAGE006
其中,p(wi|w1,w2,…,wi-1,wi+1,…,wN)为候选话题遮挡第i个词语后BERT预测第i个词语为wi的概率。
其中,该第二匹配值越大,则表示该候选话题的语句完整性更大,稳定性更高。
第三种,通过计算候选话题中词共现概率确定第三匹配值:
在该实施例中,在不考虑候选话题语序的情况下,来衡量候选话题中各个词语共同出现的可能性,其中,可以通过如下公式确定候选话题对应的第三匹配值cooccur(s):
Figure 428843DEST_PATH_IMAGE007
其中,p(wi,wj)为词语wi,wj在语料数据中共同出现的概率;
Figure 690060DEST_PATH_IMAGE008
为在长度为N的句子中抽取两个词的组合数。
由此,在两个词语共现频率较高时,表示该两个词语之间的关联性较大,而候选话题中包含的各个词语间的共现频率较高时,表示该候选话题中的词语共同出现的频率较高,即其作为同一语句出现的可能性较大,则该候选话题对应的第三匹配值越大,则该候选话题在语料数据中出现的频率较高,其作为目标话题更合适。
由此,可以通过上述的第一匹配值、第二匹配值和第三匹配值中的一者或多者确定候选话题的匹配参数,若只包含其中的一者,则可以直接对应的匹配值确定为该匹配参数,若包含其中的多者,则可以对多个匹配值进行加权求和,将获得的结果作为该匹配参数。其中,不同匹配值对应的权重可以根据实际使用场景进行设置,本公开对此不进行限定。
可选地,还可以结合以下方式确定该匹配参数:
示例地,通过候选话题的语句长度确定惩罚参数:
在实际使用场景中,适合作为话题的语句长度不会很长,因此,在确定候选话题的匹配参数时,对于过长的候选话题加惩罚项,从而可以使得简短的候选话题匹配程度更高,示例,可以按照如下公式,根据候选话题的语句长度确定该惩罚参数scorelength(s):
Figure 155677DEST_PATH_IMAGE009
其中,Ldiff为生成的候选话题的语句长度和候选话题中的场景词长度的差值,Ω为超参数,当Ldiff≤Ω时,惩罚参数为1,当Ldiff>Ω时,惩罚参数按照指数衰减。
因此,在通过上文所述方式确定匹配参数时,可以确定上述三种匹配值中的至少一者以及该惩罚参数,通过将确定出的匹配值和该惩罚参数,从而可以在保证候选话题与场景匹配性的同时,降低候选话题的语句长度,保证目标话题的简短性。
另外,对于一些相似场景词信息所生成的候选话题,如果这些场景词信息在语料数据中都缺乏有效的统计信息的支撑的话,确定出的匹配参数则会较为类似。可选地,可以在确定出匹配参数之后,为每一候选话题确定一随机参数,以对多个候选话题的匹配度进行区分,示例地,可以通过如下公式确定该随机参数scorediversity(s):
scorediversity(s)=(1-α)*rand+α
其中,α∈[0,1]为控制多样性权重的超参数,rand∈[0,1]为随机数。
由此,通过上文所述方式,可以从多个方面确定每一候选话题的匹配参数,则在根据所述匹配参数确定所述目标话题时,可以是将匹配参数最大的候选话题确定为该目标话题,也可以是将匹配参数按照由大至小的顺序排名前L的候选话题按照排序输出显示给用户,以根据用户从该L个候选话题中选择的话题确定目标话题,可以为用户的选择提供数据支持,避免由于用户的个人经验等进行选择造成的偏差,使得确定出的目标话题更加适合该目标场景,可以降低用户工作量,同时提升用户体验。
可选地,所述方法还可以包括:
接收用户的编辑内容数据;
确定所述编辑内容数据中的场景词信息,其中确定所述编辑内容数据中的场景词信息的方式与上文所述的从语料数据中确定场景词信息的方式相似,在此不再赘述。
根据所述编辑内容数据中的场景词信息,确定所述编辑内容数据对应的目标场景;
将所述目标场景对应的所述目标话题确定为所述编辑内容数据的话题。
示例地,可以根据场景词信息中的每一场景词进行场景匹配,将可以包含该场景词信息中的每一场景词的场景确定为目标场景,并将该目标场景对应的所述目标话题确定为所述编辑内容数据的话题。由此,通过上述技术方案,可以在用户编辑或发表内容时,自动为该内容添加话题标签,从而便于对该用户的内容进行聚合,无需用户手动添加话题标签,简化用户的操作流程,进一步提升用户使用体验。
本公开还提供一种话题生成装置,如图5所示,所述装置10包括:
获取模块100,用于获取用户生成内容对应的语料数据;
第一确定模块200,用于根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;
第二确定模块300,用于针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;
生成模块400,用于根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题。
可选地,所述生成模块包括:
添加子模块,用于根据所述场景词信息中每一场景词的属性,将所述场景词添加至所述话题模板中该属性对应的词填充位,获得候选话题;
第一确定子模块,用于确定每一所述候选话题的匹配参数,其中,所述匹配参数用于表征该候选话题与所述目标场景的匹配程度;
第二确定子模块,用于根据所述匹配参数确定所述目标话题。
可选地,所述装置还包括:
第三确定模块,用于在当前时刻满足模板挖掘时段要求或者接收到模板挖掘指令的情况下,根据所述语料数据中的场景词,确定话题场景词组合;
处理模块,用于针对每一所述话题场景词组合,从所述语料数据中确定包含该话题场景词组合中的全部场景词的属性的话题语句;用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板;通过模板分类模型对所述候选模板进行分类,并根据分类结果确定新挖掘的话题模板;存储所述新挖掘的话题模板;
所述第二确定模块包括:
第三确定子模块,用于从存储的话题模板中,将包含所述场景词信息中的全部场景词的属性的话题模板确定为与所述场景词信息对应的话题模板。
可选地,所述第一确定模块包括:
第四确定子模块,用于根据所述语料数据确定候选分词;
第五确定子模块,用于根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性;
组合子模块,用于对所述场景词进行组合,获得所述场景词信息。
可选地,通过以下中的至少一者确定所述候选分词:
将所述语料数据的分词作为所述候选分词;
对所述语料数据的分词进行命名实体识别,并将识别到的实体对应的分词作为所述候选分词;
根据所述语料数据的分词进行新词发现,将获得的新词作为所述候选分词。
可选地,所述组合子模块包括:
第六确定子模块,用于从所述场景词中选择预设数量的场景词进行组合,确定初始场景词组合;
第七确定子模块,用于通过场景成立模型确定所述初始场景词组合对应的第二场景参数,其中,所述第二场景参数用于表征所述初始场景词组合中的全部场景词属于同一场景的可能性;
第八确定子模块,用于在所述初始场景词组合对应的第二场景参数大于场景阈值的情况下,将所述初始场景词组合确定为所述场景词信息。
可选地,所述场景成立模型通过以下方式训练获得:
获取训练样本,其中,所述训练样本中包括人工标注的场景负样本和从线上数据中提取出的场景正样本,所述场景负样本和所述场景正样本均由多个场景词组成;
将根据所述训练样本生成的训练向量作为模型的输入向量,并将所述训练样本的分类作为模型的目标输出,对所述模型进行训练,以获得所述场景成立模型;
其中,所述训练向量通过以下中的至少一者生成:
所述训练样本中每一场景词的长度、词性、词向量特征、位置分布特征、在目标类型商户下的频率、在不同类型商户下的频率分布,多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵。
可选地,所述第二确定模块包括:
第九确定子模块,用于确定所述场景词信息中的每一场景词的属性;
查询子模块,用于从存储的话题模板中查询包含所述场景词信息中的每一场景词的属性的模板;
第十确定子模块,用于将查询到的所述模板确定为所述话题模板。
可选地,所述装置还包括:
接收模块,用于接收用户的编辑内容数据;
第四确定模块,用于确定所述编辑内容数据中的场景词信息;
第五确定模块,用于根据所述编辑内容数据中的场景词信息,确定所述编辑内容数据对应的目标场景;
第六确定模块,用于将所述目标场景对应的所述目标话题确定为所述编辑内容数据的话题。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备700的框图。如图6所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的话题生成方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的话题生成方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的话题生成方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的话题生成方法。
图7是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图7,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的话题生成方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的话题生成方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的话题生成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的话题生成方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (11)

1.一种话题生成方法,所述方法包括:
获取用户生成内容对应的语料数据;
根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;
针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;
根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题;
其中,根据所述语料数据确定至少一种场景词信息,包括:
根据所述语料数据确定候选分词;
根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性;
对所述场景词进行组合,获得所述场景词信息。
2.根据权利要求1所述的方法,其中,所述根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题,包括:
根据所述场景词信息中每一场景词的属性,将所述场景词添加至所述话题模板中该属性对应的词填充位,获得候选话题;
确定每一所述候选话题的匹配参数,其中,所述匹配参数用于表征该候选话题与所述目标场景的匹配程度;
根据所述匹配参数确定所述目标话题。
3.根据权利要求1所述的方法,其中,所述方法还包括:
在当前时刻满足模板挖掘时段要求或者接收到模板挖掘指令的情况下,根据所述语料数据中的场景词,确定话题场景词组合;
针对每一所述话题场景词组合,从所述语料数据中确定包含该话题场景词组合中的全部场景词的属性的话题语句;用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板;通过模板分类模型对所述候选模板进行分类,并根据分类结果确定新挖掘的话题模板;存储所述新挖掘的话题模板;
所述确定与所述场景词信息对应的话题模板,包括:
从存储的话题模板中,将包含所述场景词信息中的全部场景词的属性的话题模板确定为与所述场景词信息对应的话题模板。
4.根据权利要求1所述的方法,其中,通过以下中的至少一者确定所述候选分词:
将所述语料数据的分词作为所述候选分词;
对所述语料数据的分词进行命名实体识别,并将识别到的实体对应的分词作为所述候选分词;
根据所述语料数据的分词进行新词发现,将获得的新词作为所述候选分词。
5.根据权利要求1所述的方法,其中,所述对所述场景词进行组合,获得所述场景词信息,包括:
从所述场景词中选择预设数量的场景词进行组合,确定初始场景词组合;
通过场景成立模型确定所述初始场景词组合对应的第二场景参数,其中,所述第二场景参数用于表征所述初始场景词组合中的全部场景词属于同一场景的可能性;
在所述初始场景词组合对应的第二场景参数大于场景阈值的情况下,将所述初始场景词组合确定为所述场景词信息。
6.根据权利要求5所述的方法,其中,所述场景成立模型通过以下方式训练获得:
获取训练样本,其中,所述训练样本中包括人工标注的场景负样本和从线上数据中提取出的场景正样本,所述场景负样本和所述场景正样本均由多个场景词组成;
将根据所述训练样本生成的训练向量作为模型的输入向量,并将所述训练样本的分类作为模型的目标输出,对所述模型进行训练,以获得所述场景成立模型;
其中,所述训练向量通过以下中的至少一者生成:
所述训练样本中每一场景词的长度、词性、词向量特征、位置分布特征、在目标类型商户下的频率、在不同类型商户下的频率分布,多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵。
7.根据权利要求1所述的方法,其中,所述确定与所述场景词信息对应的话题模板,包括:
确定所述场景词信息中的每一场景词的属性;
从存储的话题模板中查询包含所述场景词信息中的每一场景词的属性的模板;
将查询到的所述模板确定为所述话题模板。
8.根据权利要求1所述的方法,其中,所述方法还包括:
接收用户的编辑内容数据;
确定所述编辑内容数据中的场景词信息;
根据所述编辑内容数据中的场景词信息,确定所述编辑内容数据对应的目标场景;
将所述目标场景对应的所述目标话题确定为所述编辑内容数据的话题。
9.一种话题生成装置,所述装置包括:
获取模块,用于获取用户生成内容对应的语料数据;
第一确定模块,用于根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;
第二确定模块,用于针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;
生成模块,用于根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题;
其中,所述第一确定模块包括:
第四确定子模块,用于根据所述语料数据确定候选分词;
第五确定子模块,用于根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性;
组合子模块,用于对所述场景词进行组合,获得所述场景词信息。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202011052743.5A 2020-09-29 2020-09-29 话题生成方法、装置、存储介质和电子设备 Active CN111897965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011052743.5A CN111897965B (zh) 2020-09-29 2020-09-29 话题生成方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011052743.5A CN111897965B (zh) 2020-09-29 2020-09-29 话题生成方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111897965A CN111897965A (zh) 2020-11-06
CN111897965B true CN111897965B (zh) 2021-01-01

Family

ID=73224001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011052743.5A Active CN111897965B (zh) 2020-09-29 2020-09-29 话题生成方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111897965B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800230B (zh) * 2021-03-22 2021-06-22 贝壳找房(北京)科技有限公司 文本处理方法、装置、计算机可读存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188158A (zh) * 2019-05-06 2019-08-30 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN110472057A (zh) * 2019-08-21 2019-11-19 北京明略软件系统有限公司 话题标签的生成方法及装置
CN111191023A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种话题标签自动生成方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188158A (zh) * 2019-05-06 2019-08-30 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN110472057A (zh) * 2019-08-21 2019-11-19 北京明略软件系统有限公司 话题标签的生成方法及装置
CN111191023A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种话题标签自动生成方法、装置及系统

Also Published As

Publication number Publication date
CN111897965A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US10725836B2 (en) Intent-based organisation of APIs
CN108153856B (zh) 用于输出信息的方法和装置
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN110413780B (zh) 文本情感分析方法和电子设备
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112036162B (zh) 文本纠错的适配方法、装置、电子设备及存储介质
CN113657100B (zh) 实体识别方法、装置、电子设备及存储介质
CN110555205B (zh) 否定语义识别方法及装置、电子设备、存储介质
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111680159A (zh) 数据处理方法、装置及电子设备
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN109582954A (zh) 用于输出信息的方法和装置
CN111274358A (zh) 文本处理方法、装置、电子设备及存储介质
CN111241285A (zh) 问题回答类型的识别方法、装置、设备及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN111198932B (zh) 三元组获取方法、装置、电子设备及可读存储介质
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
CN111897965B (zh) 话题生成方法、装置、存储介质和电子设备
JP2022088540A (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant